CN106103739A

CN106103739A - 用于测量胃肠癌中的生物标记物的方法

Info

Publication number: CN106103739A
Application number: CN201480076644.7A
Authority: CN
Inventors: 陈文炜; 村谷匡史; A·卡玛拉
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2013-12-30
Filing date: 2014-12-30
Publication date: 2016-11-09
Anticipated expiration: 2034-12-30
Also published as: JP2017506909A; WO2015102536A1; JP6553085B2; SG11201605259QA; US20160355886A1; CN106103739B; EP3090065B1; EP3090065A4; EP3090065A1

Abstract

本发明针对用于确定启动子活性的方法。本发明还描述了一种用于确定受试者的癌症易感性的方法以及用于检测受试者的癌症的生物标记物。

Description

用于测量胃肠癌中的生物标记物的方法

技术领域

本发明涉及分子生物学领域。确切地说，本发明涉及用于确定启动子活性的方法。

发明背景

胃癌(GC)是导致全球癌症死亡的一个主要原因。大多数的GC是腺癌，并且近期进行的外显子组和全基因组研究披露了新的GC驱动基因和突变标志。除编码蛋白质的基因外，非编码基因组区域中的调控元件也可能造成恶变，因为这些元件会深刻地影响染色质结构和基因表达。很少有研究在基因组层面上探索在胃癌发生期间体细胞改变的调控元件谱系。

包括启动子和增强子在内的调控元件可以被鉴别为展现组蛋白修饰(“染色质标记物”)的区域。截至目前，针对癌症进行的大部分染色质标记物研究使用了永生化细胞系，因为现有的方案需要大量的生物材料。然而，在体外培养的癌症细胞系会展示与原发肿瘤截然不同的表观遗传模式，并且细胞系还可能经历体外适应，从而因广泛传代而获得遗传和表观遗传变化。也难以鉴别使用癌症细胞系的体细胞获得性改变，因为这些细胞系通常缺乏相配的正常对应物。

因此，需要提供一种测量染色质标记物的方法，该方法克服了或至少改进了以上描述的一个或多个缺点。

发明内容

在一方面，提供了一种确定至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的活性的方法，所述方法包括：针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品获得的包含至少一个启动子序列的分离的核酸进行映射(mapping)，以获得所述至少一个启动子的读段数/千碱基/百万(read per kilo-base per million，RPKM)的值或片段数/千碱基/百万(fragments per kilo-base per million，FPKM)的值；及使用所述RPKM或FPKM值确定所述核酸中所述至少一个启动子序列相对于所述参比核酸序列中所述至少一个启动子的活性的差异活性。

根据另一方面，提供了一种用于确定受试者的癌症易感性的方法，所述方法包括：针对从非癌症生物样品获得的参比核酸，对从所述受试者的癌症生物样品获得的包含至少一个启动子的分离的核酸进行映射，以获得所述至少一个启动子的RPKM或FPKM值；及使用所述RPKM或FPKM值确定所述核酸中所述至少一个启动子相对于所述参比核酸序列中所述至少一个启动子的活性的差异活性，其中相对于所述非癌症样品中所述至少一个启动子的活性，所述癌症样品中所述至少一个启动子的增加的活性指示所述受试者对癌症具有易感性。

在另一方面，提供了一种用于确定受试者体内与癌症相关的至少一个启动子的存在的方法，所述方法包括：针对从非癌症生物样品获得的参比核酸，对从所述受试者的癌症生物样品获得的包含至少一个启动子的分离的核酸进行映射，以获得所述至少一个启动子的RPKM或FPKM值；及使用所述RPKM或FPKM值确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的活性的差异活性，其中相对于所述非癌症样品中所述至少一个启动子的活性，从所述受试者获得的癌症生物样品中所述至少一个启动子的增加的活性指示受试者体内存在与癌症相关的启动子。

在另一方面，提供了一种用于检测受试者的癌症的生物标记物，所述生物标记物包含在癌症生物样品中相对于在正常非癌症生物样品中具有增加的活性的至少一个启动子，其中相对于总启动子群，所述启动子包含增加的SUZ12结合位点。

在另一方面，提供了一种用于确定与癌症相关的至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的存在的方法，所述方法包括：针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品中获得的包含至少一个启动子序列的分离的核酸进行映射；基于所述映射，生成针对所述至少一个启动子的测序标签计数矩阵；分析所述测序标签计数矩阵；及使用对所述测序标签计数矩阵的分析，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的差异富集，其中从所述受试者获得的癌症生物样品中所述至少一个启动子相对于非癌症样品中所述至少一个启动子的差异富集指示受试者体内存在与癌症相关的启动子。

在另一方面，提供了一种用于确定至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的活性的方法，所述方法包括：针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品中获得的包含至少一个启动子序列的分离的核酸进行映射；基于所述映射，生成所述至少一个启动子的测序标签计数矩阵；分析所述测序标签计数矩阵；及使用对所述测序标签计数矩阵的分析，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的差异活性。

定义

如本文所使用，术语“抗原结合蛋白”是指能够结合抗原的抗体、抗体片段及其它蛋白质构造，如结构域。

术语“抗体”在本文中是以最广义使用，意思指具有免疫球蛋白样结构域的分子，并且包括单克隆抗体、重组抗体、多克隆抗体、嵌合抗体、人源化抗体、双特异性抗体及异源缀合物抗体、单一可变结构域、结构域抗体、抗原结合片段、免疫有效片段、单链Fv、双体抗体(diabody)、Tandabs^TM等(有关可选“抗体”形式的概述，参见Holliger及Hudson,《自然—生物技术》(Nature Biotechnology),2005,第23卷,第9号,1126-1136)。

短语“单一可变结构域”是指独立于不同的可变区或结构域特异性结合抗原或表位的抗原结合蛋白可变结构域(例如V_H、V_HH、V_L)。

“结构域抗体”或“dAb”可以被认为与“单一可变结构域”相同，能够结合抗原。单一可变结构域可以是人类抗体可变结构域，而且还包括来自其它物种的单一抗体可变结构域，如啮齿动物(例如，如WO 00/29004中所公开)、护士鲨及骆驼V_HHdAb。骆驼V_HH是来源于包括骆驼、美洲驼、羊驼、单峰骆驼及大羊驼在内的产生天然地不含轻链的重链抗体的物种的免疫球蛋白的单一可变结构域多肽。此类V_HH结构域可以根据本领域中可用的标准技术进行人源化，而且此类结构域被视为“结构域抗体”。如本文所使用，V_H包括骆驼V_HH结构域。

如本文所使用，术语“结构域”是指具有独立于蛋白质其余部分的三级结构的折叠蛋白质结构。一般来说，结构域负责蛋白质的独特功能特性，并且在许多情形中，可以被添加、去除或转移到其它蛋白质，而不会使蛋白质其余部分和/或结构域的功能丧失。

“单一可变结构域”是包含抗体可变结构域特有的序列的折叠多肽结构域。因此，单一可变结构域包括完整抗体可变结构域；及修饰的可变结构域，例如其中一个或多个环已经被并非抗体可变结构域特有的序列置换；或被截短的或包含N末端或C末端延伸的抗体可变结构域，以及可变结构域的至少保持全长结构域的结合活性和特异性的折叠片段。一个结构域可以独立于不同可变区或结构域来结合抗原或表位。

抗原结合片段可以借助于在非抗体蛋白质支架如结构域上布置一个或多个CDR来提供。该结构域可以是结构域抗体，或者可以是经过蛋白质工程改造而实现与抗原的结合的支架的衍生物，该支架选自由以下组成的组：CTLA-4、脂质运载蛋白(lipocalin)、SpA、Affibody、亲和性多聚体(avimer)、GroEl、转铁蛋白、GroES及纤连蛋白/adnectin。

抗原结合片段或免疫有效片段可以包含部分重链或轻链可变序列。片段的长度是至少5、6、8或10个氨基酸。或者，这些片段的长度是至少15个、至少20个、至少50个、至少75个或至少100个氨基酸。

本说明书通篇关于抗原结合蛋白所使用的术语“特异性结合”意思指，抗原结合蛋白结合到一种抗原，而不结合到或极少结合到其它(例如，不相关)蛋白质。不过，该术语不排除以下事实：抗原结合蛋白也可以与密切相关的分子交叉反应。

如本文所使用，术语“生物材料”或“生物样品”是指包括本文所定义的分析物的任何材料或样品。此类样品可以例如包括来源于或包含以下的样品：粪便、全血、血清、血浆、泪液、唾液、鼻液、耳液、生殖液、乳腺液、乳液、初乳、胎盘液、羊水、汗液、滑液、腹水、脑脊液、胆汁、胃液、房水、玻璃体液、胃肠液、分泌液、渗出液、胸膜液、心包液、精液、上呼吸道液、腹膜液、从免疫反应部位采集的流体、从汇集的收集部位采集的流体、支气管灌洗液、尿液、活检材料(例如来自所有适合器官，例如肺、肌肉、脑、肝、皮肤、胰脏、胃等)、有核细胞样品、与粘膜表面相关的流体、毛发或皮肤。

如本文所使用，术语“RPKM”是指每百万条映射的读段(read)中每千碱基的读段数。如本文所使用，术语“FPKM”是指每百万个映射的片段中每千碱基的片段数。RPKM和FPKM是用于定量如外显子、转录物或任何基因组坐标等任何基因组特征的丰度的单位，由与该基因组特征比对的测序读段的丰度决定。RPKM和FPKM测量值通过基因组单元的相对长度以及映射至所述基因组单元的读段总数对丰度进行标准化，以便清楚地比较样品内和样品间的丰度水平。

如本文所使用，术语“测序标签计数的矩阵”是指由映射的“测序标签”的整数值构成的矩阵。该矩阵可以呈带有行和列的表格形式，其中该矩阵的行(基因组区)和列(组织样品)中的值可以指示已经映射到基因组区如启动子区或组蛋白修饰区例如H3K4me3区的读段数。类似地，该矩阵各行也可以对应于结合区(利用ChIP-Seq)。如本文所使用，以上提到的“测序标签”是指从使用比对工具(如本文所公开的方法中所提到的工具)映射到参考基因组的样品分离的短DNA片段。

如本文以及实施例上下文中所使用，术语“bedtools”是指基因组分析领域中众所周知的一组公布的工具。举例来说，可以使用“bedtools”比较、处理及注释呈浏览器可扩展数据(Browser Extensible Data，BED)形式和通用特征格式(General Feature Format，GFF)的基因组特征。Bedtools还支持呈BAM形式的序列比对与BED和GFF特征的比较。Bedtools极为高效并且使用户能够通过公开和定制的基因组注释跟踪来比较大型数据集(例如新一代测序数据)。举例来说，“bedtools”可以指“BEDTools”，其中BEDTools可以彼此组合并且与标准UNIX命令组合，由此帮助常规基因组学任务以及流程(pipeline)，从而能够迅速地解决大型基因组数据集的复杂问题。确切地说，此类“bedtools”可以见于http:// bioinformatics.oxfordjournals.org/content/26/6/841.full。

如本文所使用，术语“获得”或“来源于”是以包容性含义使用。也就是说，该术语意图涵盖从生物样品直接分离的任何核苷酸序列或来源于该样品的任何核苷酸样品。

可以在不存在本文未具体公开的任一种或多种要素、一种或多种限制的情况下，适当地实践本文说明性描述的发明。因此，例如，术语“包含”、“包括”、“含有”等应当视为可扩充的而不是限制性的。另外，本文中采用的术语和表述是用作对术语的说明而非限制，并且这些术语和表述的使用不排除所显示和描述的特征的任何等效物或其部分，而是认为在所主张的范明的范围内各种修改都是可能的。因此，应了解，尽管已经借助优选的实施方案和可选的特征具体地公开本发明，但本领域的技术人员可以对本文公开的内容中所体现的发明进行修改和变更，而且这些修改和变更都被认为在本发明的范围内。

本文已经宽泛地和上位地描述了本发明。在上位公开内容范围内的每一较窄类别和亚类别也形成本发明的一部分。这包括通过从该类别除去任何主题的前提条件或者否定性限制对本发明的上位概括，不管本文中是否具体地陈述了所排除的材料。

其它实施方案在所附权利要求和以下非限制性实施例的范围内。此外，当以马库西群组(Markush group)描述本发明的特征或方面时，本领域的技术人员应认识到，本发明也借此以马库西群组的任何个别成员或成员亚组进行描述。

附图简要说明

当结合非限制性实施例和附图考虑时，参照详细说明将更好地了解本发明，其中：

图1.原发性胃腺癌的Nano-ChIPseq染色质分析.(a)分析的染色质标记物。(b)GC2000721和相配的正常胃组织的染色质分析(分别是C和N)。示出了CDX2基因座和相邻基因的代表性UCSC基因组浏览器展示。展示出RefSeq转录物和组蛋白修饰。(c)CDX2基因的近视图，表明H3K4me3和H3K27ac在GC中增加。(d)正常组织(上表)与GC(下表)中的染色质标记物峰重叠。描绘的是GC 2000721。数字表示与第2组区域(水平)重叠的第1组区域(垂直)的分数。白色＝专有部分，深灰色＝重叠部分。(e)GC增强子和启动子。启动子区和增强子区进一步通过其与H3K27ac信号(右侧圆圈)的重叠进行分类。(f,g)基于体细胞改变的(f)启动子(H3K4me3)区和(g)增强子(H3K4me1)区进行的正常组织样品(蓝色)和GC样品(红色)的主成分分析(Principal Components Analysis，PCA)曲线。使用前3种主成分。(h,i)基于体细胞改变的(h)启动子区和(i)增强子(H3K4me1)区进行的正常组织样品(蓝色)和GC样品(红色)的聚类热图。同时示出了H3K27ac图案。颜色强度对应于标准化的RPKM值。

图2.GC中的癌症相关的启动子.(a)癌症相关的启动子常常与非RefSeq TSS相关联(“潜在启动子(cryptic promoter)”)。提供与所有启动子(“总”)和癌症中损失的启动子(“损失”)相关的潜在启动子的比例作为参考。癌症相关的启动子也与RNAseq数据中表达的非RefSeq转录物(最右边的数字)相关联。(b)显示非RefSeq转录物的表达状态的热图，展现出正常组织与胃肿瘤之间>4倍的表达变化(FPKM；片段数/千碱基转录物/百万映射的读段数)。这些转录物与192种癌症相关的启动子相关联。(c)GREAT分析，表明癌症相关的启动子的富集的基因类别。列出了原始GREAT输出中p<6×10^-6的所有富集项。(d,e)潜在启动子驱动的MET表达。示出了RNAseq和H3K4me3的踪迹。(e)潜在启动子区的近视图，显示了代表性“分离的”RNAseq标签，证实启动子连接到下游MET外显子。(f)MET功能结构域。预测的潜在启动子驱动的转录物编码缺乏Sema结构域的N末端截短的蛋白质。(g)潜在启动子驱动的NKX6-3表达。示出了RNAseq和H3K4me3的踪迹。RNAseq比对提供于图14中。(h)潜在启动子驱动的HOXB9表达。RNAseq比对提供于图15中。(i)GC(n＝185)与相配的正常组织(n＝89)之间标记H3K4me3的基因的表达水平比较。显著比例的基因在GC中上调(上调的基因＝143个；总靶基因＝218个；p＝5.68×10^-6)。

(j)比较GC患者群的存活率分析，展现出由癌症相关的启动子驱动的基因的高表达和低表达。在新加坡人组(总计n＝183)内具有“高”(n＝154)和“低”(n＝29)靶基因标志富集程度的群集的卡普兰-麦耶存活率分析(Kaplan-Meier survival analysis)。该标志在这一组中是预后性的(对数秩p值：0.041)，其中对于较高标志富集程度观察到较差预后(H.R.(95％C.I.):1.78(1.02-3.13)；p＝0.044)。

图3.癌症相关的调控元件的结合位点分析.(a)ENCODE确定的与癌症相关的启动子重叠的转录因子结合位点(transcription factor binding site，TFBS)的频率(增加的和损失的)。呈现的值是每10kb覆盖范围中TFBS的数量。TF是根据其在整个H3K4me3界定的启动子集中的频率进行分类。EZH2、SUZ12及ZNF217结合位点被富集(p<0.05)。完整的TF清单呈现于图18中。(b)癌症相关的增强子区中的TFBS频率。(c)ESC界定的单价(仅H3K4me3、仅H3K27me3)或二价(H3K4me3和H3K27me3)区域与GC启动子(所有启动子和癌症相关的启动子)和GC增强子(所有增强子和癌症相关的增强子)之间的重叠分析。癌症相关的GC启动子展现较高比例的二价区域，超过单价区域(p<2.2×10^-16)。(d)作为与ESC界定的二价区域重叠的代表性癌症相关的启动子的ONECUT2基因座的基因组浏览器视图。(e)描绘所有启动子和癌症相关的启动子中的DNA甲基化变化(增加或损失)的箱形图。P值(威尔科克森检验(Wilcoxon test))是：p＝7×10^-48(所有启动子对比增加的启动子)；p＝0.48(所有启动子对比损失的启动子)；p＝5.37×10^-41(增加的启动子对比损失的启动子)。

图4.与GC有关的等位基因特异性调控元件.(a-d)非等位基因偏好的调控元件和(e-h)等位基因偏好的调控元件。(a-b)显示RNAseq和H3K4me3踪迹的TNK2基因座的基因组浏览器视图。(b)提供了H3K4me3序列标签和SNP的近视图和观察结果。在富集H3K4me3的序列读段中观察到参考SNP(C)与rs7636635SNP(T)的比例相当。(c)针对正常组织的基因型分析证实，在正常组织和来自肿瘤的富集H3K4me3的序列标签中等位基因杂合性相当。(d)定量PCR焦磷酸测序证实，在正常组织中缺乏H3K4me3信号，并且参比等位基因(C)与来自肿瘤的含有富集H3K4me3的序列读段的rs7636635等位基因(T)的比例相等。(e,f)显示RNAseq和H3K4me3踪迹的NUDT4基因座的基因组浏览器视图。(f)提供了H3K4me3序列标签和SNP的近视图和观察结果。观察到相对于参比等位基因(G)倾向于较高比例rs4761701 SNP(A)的偏好。(g)针对正常组织的基因型分析证实，正常组织中等位基因杂合性相当，但在来自肿瘤的H3K4me3序列标签中偏向rs4761701 SNP(A)。(h)定量PCR焦磷酸测序证实，在正常组织中存在极少H3K4me3信号，而且在来自肿瘤的H3K4me3信号中，相对于参比等位基因有rs4761701 SNP偏好的序列标签。

(i)整个样品中的等位基因偏好分布。肿瘤组织中过度呈现和呈现不足的SNP标签分别以绿色和蓝色标出。(j)映射到改变的启动子和增强子区域的dbSNP位点。SNP位点是根据其染色体位置在x轴上定位，并且沿y轴标出其对应的等位基因偏好水平。展现等位基因偏好(在蓝色水平线上方)而且基于RegulomeDB预测会影响蛋白质结合的SNP以红色标出。(k)有关映射到体细胞改变的调控元件的等位基因偏好位点的Regulome DB预测。

(l,m)显示RNAseq和H3K4me3踪迹的KLK1基因座的基因组浏览器视图。(m)提供了H3K4me3序列标签和SNP的近视图。观察到相对于参比等位基因(A)倾向于较高比例的已知eQTL SNP rs2659104(G)的偏好。(n)定量PCR焦磷酸测序证实，在正常组织中存在极少H3K4me3信号，而且在来自肿瘤的H3K4me3信号中，相对于亲本等位基因，有一定比例的rs2659104 SNP偏好的序列标签。

图5.GC中的体细胞调控突变.(a)HOXA基因座的基因组浏览器视图。(上图)RNAseq数据。在HOXA11远侧(并且包括该基因在内)的HOXA基因在GC 2000639中以癌症特异性方式表达。(下图)H3K4me3信号确定在此区域中存在改变的染色质结构域。(b)HOXA11区域的近视图。观察到在GC 2000639中的癌症特异性H3K4me3采集。(c)H3K27ac序列标签比对预测在位置chr7:27,228,085处存在T等位基因，而参比(hg19)在该位点处展现A。这一位点与已知的dbSNP不对应。(d)利用桑格测序(Sanger sequencing)和焦磷酸测序验证在输入的正常DNA、输入的肿瘤DNA及富集H3K27ac的ChIPseq DNA中的基因型。正常样品对于A等位基因是纯合型，而癌症在此位置处具有较小T信号(估计等位基因频率是10％)。相比之下，富集H3K27ac的DNA展现较高的T等位基因比例(96％)。(e)利用TFBIND预测参比等位基因和体细胞突变的等位基因中的TF位点。预测出LYF1、STAT及NF1位点增加，而据预测，CEBP、NFKB及p53位点丧失。

(f)荧光素酶报告子检测，用于测量野生型等位基因和突变等位基因的调控活性。含有突变等位基因的DNA提供了较高的转录活性(*p＝1.1×10^-4)。实验是在KATO-III GC细胞中进行的。

图6.从Ng等人(2013)的《发育细胞》(Developmental Cell)得到的1,000个细胞规模的Nano-ChIPseq验证.小规模ChIPseq(即，Nano-ChIPseq)与标准ChIPseq之间的比较。

图7.Nano-ChIPseq峰识别(peak calling)和峰合并.(a)有关患者2000721正常组织(2000721N)中的5个组蛋白修饰的Nano-ChIPseq标签密度的代表性UCSC浏览器视图。峰区在每个ChIPseq踪迹的上方指出。基因跟踪示出了RefSeq转录物。(b)6个组织样品的H3K4me3峰谱。合并的峰区在RefSeq转录物踪迹的下方指出。

图8.扩增区域的鉴别和去除.在组织2000639C(a)中的KRAS基因座以及在组织2000986C(b)中的MYC周围的扩增的基因座的代表图。在癌症输入DNA中展现大量序列标签的区域在后续分析中去除。

图9.GC/正常组织对中染色质标记物的重叠.样品对2000639(a)和2000986(b)的正常组织(上)和癌症组织(下)中染色质标记物区域的重叠。数字表示与第2组区域(水平)重叠的第1组区域(垂直)的分数。白色＝专有部分，深灰色＝重叠部分。

图10.Nano-ChIPseq RPKM预加工.(a-d)启动子区和增强子区的变换的ChIPseqFPKM对数值(在ComBat标准化之后)的箱形图。(e-h)由线性模型拟合得到的原始p值分布。

图11.GC组织和正常组织的PCA图。(a,b)和(d,e)GC组织(紫色)和正常组织(蓝色)的PCA图，使用(a)所有鉴别的H3K4me3(启动子)和(b)相关联的H3K27ac(活性)；或(d)所有鉴别的H3K4me1(增强子)和(e)相关联的H3K27ac区。(c和f)使用展现体细胞改变的H3K27ac区得到的PCA图。

图12.非RefSeq转录物的RT-qPCR验证.GC组织和正常组织中10种非RefSeq转录物的RT-qPCR验证结果与来源于RNAseq分析的FPKM值的比较。

图13.MET基因RNAseq比对.(a)RNAseq标签比对，支持了在MET基因座处表达的RNA的外显子-内含子结构。MET RefSeq转录物以顶部注释指示。(b,c)RNAseq比对的近视图。潜在启动子驱动的外显子的外显子-内含子边界是通过手动检查序列标签比对进行确认。(d)MET潜在启动子的观察结果，显示出RNAseq标签和H3K4me3富集的位置。示出了下游METRefseq外显子。(e)5’RACE分析。带有RNAseq和富集H3K4me3的读段的潜在启动子的近视图。指出5’RACE引物的位置，并且示出了由MET表达株Hs746T得到的5’RACE产物的产物。

图14.NKX6-3RNAseq比对.(a)RNAseq标签比对，支持了表达的RNA的外显子-内含子结构。NKX6-3RefSeq转录物(NM152568)以绿色示出，并且预测的潜在启动子表达的mRNA在顶部指明。(b-f)RNAseq比对的近视图。外显子-内含子边界是通过手动检查序列标签比对进行确认。(g)由7个GC细胞系得到的两种截然不同的5’RACE产物的凝胶照片。(h)显示来自NUGC3细胞系(较大的RACE产物)和KATOIII细胞系(较小的RACE产物)的5’RACE片段的位置的基因组浏览器视图。指出了5’RACE引物的位置。两种产物都验证了5’非Refseq外显子的表达，其中NUGC3具有较大产物。转录物的5’端以红色箭头示出。(i)预测的mRNA和多肽结构。NKX6-3同源异型结构域的位置是基于RefSeq数据库指出。

图15.HOXB9基因座RNAseq比对.(a)HOXB9基因座处的RNAseq比对。多次剪接的RNA同种异型物是基于RNAseq比对进行预测。(b-h)外显子-内含子边界是通过RNAseq标签比对确认。(i)指出了预测的mRNA和微RNA前体的可能编码。致癌性miRNA MIR196A也在这一区域中。

图16.微阵列验证组.在独立微阵列数据中上调的标记H3K4me3的癌症相关的基因(n＝218)的表达水平对数值的热图。“癌症”(n＝185)和“正常组织”(n＝89)样品都来自新加坡。“癌症”和“正常组织”样品显示出截然不同的表达模式，其中大多数标记H3K4me3的癌症相关的基因在肿瘤中上调。

图17.癌症相关的基因与临床病理特征的关联.与标记H3K4me3的癌症相关的基因具有显著关联的因子的马赛克图：(a)M分期；(b)Lauren组织病理学；及(c)由Tan等人14得到的内在标志。较高的M分期(p＝0.033)、弥漫型Lauren组织病理学(p＝9.99×10^-5)及GDIFF内在标志分类(p＝1.46×10^-11)与标记H3K4me3的癌症相关的基因的高表达显著相关。红色：较高的标志富集；蓝色：较低的标志富集。

图18.GC启动子和增强子与ENCODE数据的重叠.(a)启动子区中TFBS的频率。(b)增强子区中TFBS的频率。

图19.CDH10基因座体细胞突变分析.(a)CDH10基因座的基因组浏览器视图。(b)放大图。(c)H3K4me3ChIPseq标签比对，示出了变体和等位基因偏好。应注意，相较于hg19参比序列，突变是二核苷酸取代。(d)正常组织和癌症输入DNA和H3K4me3ChIP DNA的桑格测序迹线。癌症输入含有一小部分的突变等位基因，而且该突变等位基因通过H3K4me3ChIP富集。

图20.HOXA5基因座体细胞突变分析.(a)HOXA5基因座的基因组浏览器视图。(b)K4me3ChIPseq标签比对，示出了变体和等位基因偏好。(c)正常和癌症输入DNA和H3K4me3ChIP DNA的Sanger测序迹线。癌症输入含有一小部分的突变等位基因，而且该突变等位基因通过H3K4me3ChIP富集。

图21.FAR2基因座体细胞突变分析.(a)FAR2基因座的基因组浏览器视图。(b)放大图。(c)H3K4me3ChIPseq标签比对，示出了变体和等位基因偏好。(d)正常组织和癌症输入DNA和H3K4me3ChIP DNA的桑格测序迹线。癌症输入含有一小部分的突变等位基因，而且该突变等位基因通过H3K4me3ChIP富集。

图22.H3K4me3识别的区域的表征.a)显示出在TSS周围富集的标准双峰分布的H3K4me3和H3K27ac；b)在肿瘤中显示与H3K27ac强烈正相关性的H3K4me3(r＝0.91，p<0.001)；c)在常见(即复发型)GC启动子中活性(即，H3K27ac阳性)区域的比例比独家启动子(private promoter)以及正常组织样品中的启动子的要高。

图23.8个GC与正常组织中体细胞改变的H3K4me3区域的比较.a)DESeq2识别出在GC与正常组织之间的516个不同区域，并且基于edgeR分析获得类似结果；b)显示出在这516个不同区域中GC组织与正常组织的H3K4me3信号之间明显分离的热图；c)双层圆环图，显示出63％的区域在GC中H3K4me3增加；d)不同区域与最近的TSS之间的距离分布的双层圆环图；e)GC相关的基因CLDN7的Bedgraph跟踪，显示出与正常组织相比较，GC中富集H3K4me3，并伴随在其TSS处RNAseq增加。

图24.在GC中的不同H3K4me3基因座处的替代性启动子使用.a)在较短的已知HNF4A同种异型物处H3K4me3增加，而典型的较长同种异型物具有相等强度的H3K4me3峰；b)仅在CEACAM6的一种主要同种异型物处H3K4me3存在并增加；c)在GC中未得到证实并且Refseq中未知的MYO15B转录物处H3K4me3增加，并且还得到了GC中RNAseq表达的支持。

图25.RASA3中的新颖5’起始位点的实例.a)在已知的TTS标记的新颖转录起始位点下游约127kb处观察到在GC中H3K4me3增加的区域。RNAseq组装证实了GC中新型同种异型物的存在。b)跳过17个外显子并形成较短同种异型物对RASA3的蛋白质结构域的影响。较短同种异型物丧失了调控RAS活性的RasGAP结构域，取而代之的是具有预测的Plecktrin同源异型结构域。

具体实施方式

在第一方面，本发明提到了一种确定至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的活性的方法。该方法可以包括：针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品获得的包含至少一个启动子序列的分离的核酸进行映射，以获得所述至少一个启动子的每百万每千碱基的读段数(RPKM)值或每百万每千碱基的片段数(FPKM)值；及使用所述RPKM值或FPKM值确定所述核酸中所述至少一个启动子序列相对于所述参比核酸序列中所述至少一个启动子的差异活性。

本文所描述的癌症和非癌症生物样品可以包括单个细胞、多个细胞、细胞碎片、体液或组织。在一些实施方案中，该癌症和非癌症生物样品可以从同一受试者获得，或替代地，从不同受试者获得。

核酸可以通过染色质免疫沉淀从所述癌症生物样品分离。核酸可以包含至少一个启动子。

染色质免疫沉淀可以通过对修饰的组蛋白具有特异性的抗原结合蛋白实现。修饰的组蛋白可以包含至少一个选自由H3K4me3、H3K4me1及H3K27ac组成的组的组蛋白修饰。

在一些实施方案中，抗原结合蛋白可以是对至少一个选自由H3K4me3、H3K4me1及H3K27ac组成的组的组蛋白修饰具有特异性的抗体。

包含至少一个启动子的分离的核酸可以利用至少一种引物扩增。在一些实施方案中，扩增的核酸可以被用于构建含有所述扩增的核酸的核酸序列文库。

在一些实施方案中，映射步骤包括基于相对于参比核酸映射的核酸中至少一个启动子的总序列标签来计算RPKM值。

在一些实施方案中，映射步骤包括基于与相对于参比核酸映射的核酸中的至少一个启动子相关的识别的转录物序列来计算FPKM值。

确定至少一个启动子序列的差异活性的步骤可以包括：确定从癌症生物样品获得的核酸中至少一个启动子的RKPM或FPKM值：i)相对于从非癌症生物样品获得的参比核酸中至少一个启动子的RKPM或FPKM值，超过1到20倍之间的如1倍、2倍、3倍、4倍或5倍的平均RKPM或FPKM值变化；及ii)相对于从非癌症生物样品获得的参比核酸中至少一个启动子的RKPM或FPKM值，超过0.1RPKM或FPKM范围。

所述至少一个启动子可以包含相对于总启动子群增加的SUZ12结合位点。在一些实施方案中，该至少一个启动子可以位于与细胞类型特化、胚胎发育或转录因子相关的基因附近。

在另一实施方案中，所述至少一个启动子可以位于与癌症相关的基因附近。该基因可以选自NKX6-3、SALL4、HOXB9、MET、TNK2、KLK1、FAR2、HOXA11或HOXA11-AS。癌症可以是胃癌。

在另一实施方案中，所述至少一个启动子可以包含潜在启动子。

还提供了一种用于确定受试者的癌症易感性的方法。该方法包括：针对从非癌症生物样品获得的参比核酸，对从所述受试者的癌症生物样品获得的包含至少一个启动子的分离的核酸进行映射，以获得所述至少一个启动子的RPKM值或FPKM值；及使用所述RPKM或FPKM值确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的活性的差异活性，其中相对于所述非癌症样品中所述至少一个启动子的活性，所述癌症生物样品中所述至少一个启动子的活性的增加指示受试者对癌症具有易感性。

还提供了一种用于确定受试者体内与癌症相关的至少一个启动子的存在的方法。该方法包括：针对从非癌症生物样品获得的参比核酸，对从所述受试者的癌症生物样品获得的包含至少一个启动子的分离的核酸进行映射，以获得所述至少一个启动子的RPKM值或FPKM值；及使用所述RPKM或FPKM值，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的活性的差异活性，其中相对于所述非癌症样品中所述至少一个启动子的活性，从所述受试者获得的癌症生物样品中所述至少一个启动子的活性的增加指示受试者体内存在癌症相关的启动子。在一些实施方案中，当从生物样品获得的核酸中所述至少一个启动子的RPKM或FPKM值满足以下各项时，存在与癌症相关的至少一个启动子：i)相对于从非癌症生物样品获得的参比核酸中至少一个启动子的RKPM或FPKM值，超过1到20倍之间的如1倍、2倍、3倍、4倍或5倍的平均RKPM或FPKM值改变；及ii)相对于从非癌症生物样品获得的参比核酸中至少一个启动子的RKPM或FPKM值，超过0.1RPKM或FPKM范围。

还提供一种用于检测受试者的癌症的生物标记物，该生物标记物包含在癌症生物样品中相对于在正常非癌症生物样品中活性增加的至少一个启动子，其中该启动子包含相对于总启动子群增加的SUZ12结合位点。相对于总启动子群，该至少一个启动子可以展现较低的DNA甲基化水平。

另外提供了一种用于确定与癌症相关的至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的存在的方法，该方法包括：针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品中获得的包含至少一个启动子序列的分离的核酸进行映射；基于所述映射，生成所述至少一个启动子的测序标签计数矩阵；分析所述测序标签计数矩阵；及使用对所述测序标签计数矩阵的分析，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的差异富集，其中从所述受试者获得的癌症生物样品中所述至少一个启动子相对于非癌症样品中所述至少一个启动子的差异富集指示受试者中存在与癌症相关的启动子。

还提供了一种用于确定至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的活性的方法，该方法包括：针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品中获得的包含至少一个启动子序列的分离的核酸进行映射；基于所述映射，生成所述至少一个启动子的测序标签计数矩阵；分析所述测序标签计数矩阵；及使用所述测序标签计数矩阵的分析，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的差异活性。

在一个实施方案中，以上方法的生成步骤包括基于相对于所述参比核酸映射的核酸中所述至少一个启动子的总序列标签来计算矩阵。

在一个实施方案中，以上方法的分析步骤包括使用DESeq2算法分析矩阵。DESeq2算法是本领域中已知的用于计数数据的差异分析的一种基因组分析工具，其使用散度和倍数变化的收缩估计，以改善估计值的稳定性和可解释性。DESeq2使集中在差异表达的强度而不仅仅是其存在的定量分析成为可能。确切地说，DESeq2提供了利用负二项广义线性模型来测试差异表达的方法；有关散度以及倍数变化的对数的估计值结合了数据驱动的先验分布。

在一个实施方案中，所述至少一个启动子可以位于与癌症相关的基因附近。

在一个实施方案中，所述基因可以是RASA3、GRIN2D、TNNI3、SHD、ATP10B、SMTN、MYO15B、C2orf61、LINC00443或ACHE。

在一个实施方案中，差异富集是基于10％的FDR率和1.5倍的绝对倍数变化进行鉴别。

在一个实施方案中，差异活性是基于10％的FDR率和超过1.5倍的绝对倍数变化进行鉴别。

实验部分

实施例1

方法

组织样品

初级患者样品是从新保集团细胞组织储存库(Singhealth tissue repository)获得的，并且在院校研究伦理委员会批准下收集，同时签署了患者知情同意书。

本研究中使用的‘正常组织’(非恶性)样品是指从胃部远离肿瘤并且根据手术评估未展现明显肿瘤或肠化生/发育不良迹象的部位采集的样品。肿瘤样品通过冷冻切片确定含有>40％的肿瘤细胞。

Nano-ChIPseq

如先前所描述进行Nano-ChIPseq，并增加一个组织解离步骤。在液氮中，使用刀片解剖新鲜冷冻的癌症组织和正常组织，获得约5mg大小的小块(表观体积是约5μl)。在室温下，将组织块固定于1％的甲醛/TBSE缓冲液中，保持10分钟。通过添加甘氨酸达到125mM最终浓度来停止固定。

组织块用TBSE缓冲液洗涤3次，并转移到Lysonator筒(SG Microlab Devices,Singapore)中。遵循制造商的指导，解离组织(4K Hz，3分钟)，并将其直接用于Nano ChIP检测中的溶解步骤。解离的组织在200μl溶解缓冲液中溶解，并分入两个1.5ml的试管中，使用Bioruptor(Diagenode)进行超声处理(6分钟)。对于每一组织，使用以下抗体进行ChIP：H3K4me3(07-473，Millipore)；H3K4me1(ab8895，Abcam)；H3K27ac(ab4729，Abcam)；H3K36me3(ab9050，Abcam)；H3K27me3(07-449，Millipore)，使用相同的染色质制剂。

在回收ChIP和输入DNA之后，使用WGA4试剂盒(Sigma-Aldrich)和BpmI-WGA引物进行全基因组扩增。

扩增的DNA用BpmI(New EngliandBiolabs)消化，连接到第2个BpmI接头并再次消化，以修剪WGA引物区和半随机引物端。使用ChIPseq试剂盒(Illumina)将15ng扩增的DNA用于每个Illumina测序文库。在HiSeq2000的一条道上对每一文库进行测序，以获得36个碱基或101个碱基的单一读段。

Nano-ChIPseq读段映射和峰识别

使用Burrows-Wheeler Aligner(BWA)软件(0.7.0版)和“aln”算法，针对人类参比基因组(hg19)映射测序标签。修剪具有101个碱基的读段的前10个和后10个碱基以增加SNP识别性能。使用唯一地映射的标签，通过3.0版CCAT进行峰识别。利用一个高于输入截止值的倍数来过滤峰区域：对于H3K4me3标记物、H3K27ac标记物来说是8，对于H3K4me3标记物和H3K36me3标记物来说是5，并且对于H3K27me3标记物来说是1.5。对于H3K4me3和H3K4me1组蛋白修饰，汇集来自所有组织样品的峰区，并合并重叠的峰区以产生针对该修饰的总峰区组进行启动子和增强子分析。将具有相同倍数截止值的正常组织输入与癌症输入CCAT3区组用于去除有关H3K4me3区和H3K4me1区的可能扩增区。为了定量峰高度，我们使用Cufflinks(2.0.2版)分析了ChIPseq数据。对于启动子区，估计了H3K4me3和H3K27ac的RPKM值，而对于增强子区，估计了H3K4me1和H3K27ac的RPKM值。使用主成分分析(PCA)，利用R(2.15版)中的‘prcomp’函数评估批次效应，并在对由Cufflink得到的RPKM值进行对数变换之后，使用ComBat3加以调整。使用R(2.15版)中的‘rgl’软件包绘制3D-PCA图。

体细胞改变的调控元件的鉴别

使用以下两种方法鉴别了体细胞改变的启动子集和增强子集：“阈值”法和线性模型法。通过组合由两种方法得到的结果，生成了改变的元件的最终集合。

“阈值”法

通过5份肿瘤样品与5份正常组织样品之间(i)超过2倍的(绝对)变化及(ii)超过0.5的(绝对)平均值差异，过滤所有启动子(标记为H3K4me3)和增强子(标记为H3K4me1，但不与H3K4me3峰区重叠)的H3K27ac ChIPseq ComBat调整的FPKM值。对于H3K4me3和H3K4me1ChIPseq数据也执行此操作。从关于H3K27ac和H3K4me3(启动子)或H3K27ac和H3K4me1(增强子)分析所获得的区域组合中鉴别出了改变的元件。

线性模型法

绘制对数变换的ChIPseq数据的箱形图以评估正态假设，随后应用经验贝叶斯线性模型(empirical Bayes linear model)方法4获得肿瘤样品与正常组织样品之间差别地改变的区域(图5)。在拟合该模型之后，也进行了评估以确保p值分布是合理的(图5)。为了获得改变的启动子和增强子，采用p＝0.05的显著性阈值水平。

RNAseq

根据制造商的说明书，使用Illumina Tru-Seq RNA Sample Preparation v2方案，制备RNAseq文库。简单地说，使用附接多聚T寡核苷酸的磁珠，从1μg总RNA回收多聚(A)RNA。以化学方式断裂回收的多聚(A)RNA，并使用SuperScript II和随机引物将其转化成cDNA。

使用试剂盒中提供的Second Strand Master Mix合成第二条链，随后用AMPureXP珠进行纯化。使用3’到5’外切核酸酶活性修复cDNA的末端。将单一腺苷添加到3’端，并使用T4DNA连接酶将接头附接到cDNA的末端。

通过PCR富集两端上连接有接头的片段。用Agilent Bioanalyzer(AgilentTechnologies,Palo Alto,CA)验证文库。将文库稀释到11pM并使用Illumina ClusterStation施加到Illumina流槽上。在Duke-NUS基因组生物学设施的Illumina High Seq2000测序仪上，利用末端配对的76bp读段选项进行测序。

RNAseq分析

使用TopHat v1.25比对读段与人类参比基因组。然后比对未映射的读段与以下任一种可能的剪接点：(i)存在于Ensembl的60个转录物注释中的可能剪接点；或(ii)由“表达岛(island)”即来自注释中不存在的转录物的读段簇所提出的可能剪接点。使用Cufflinks(1.0.0版)，在不使用参比转录物情况下，以FPKM值估计转录物丰度。针对RefSeq转录物数据库过滤来自肿瘤/正常组织对的从头组装的转录物，以鉴别非non-RefSeq注释的区域。

RefSeq TSS重叠分析

从UCSC浏览器下载RefSeq转录物，并通过将转录起始位置延伸-/+500个碱基来界定RefSeq注释的TSS。将体细胞改变的H3K4me3峰区与RefSeq TSS区相比较以确定重叠。不与RefSeq TSS(-/+500个碱基)重叠的H3K4me3区被认为是非RefSeq启动子(又名潜在启动子)。

利用Cufflinks(1.0.0版)，在不使用参比转录物集情况下进行RNAseq读段的从头组装。通过针对RefSeq外显子过滤Cufflinks从头组装的外显子输出(最小1个碱基的重叠)，确定非RefSeq转录物。这一非RefSeq转录物集与癌症相关的H3K4me3区相交(最小1个碱基的重叠)。

定量RT-PCR

使用SYBR Green PCR试剂盒(Life technologies,USA)进行定量PCR。使用GAPDH作为对照基因用于标准化。所有PCR反应都是一式三份进行。

cDNA 5’端快速扩增(5’RACE)

使用cDNA末端快速扩增(第2版)试剂盒(Invitrogen)中的5’RACE系统进行5’RACE。将1μg总RNA用于每一逆转录反应，使用莫罗尼鼠白血病病毒(Moloney MurineLeukemia Virus，M-MLV)逆转录酶，以及MET Refseq外显子3的基因特异性引物(5’CTTCAGTGCAGGG3’)或NKX6-3Refseq外显子1的基因特异性引物(5’GAAGGTAGGCTCCTC3’)。

使用RNase H和RNase T1降解RNA，随后用S.N.A.P.柱纯化第一条链cDNA。然后使用cDNA的同聚物加尾反应，产生精简锚定引物结合位点。使用用于利用精简锚定引物的5’RACE外部PCR的SuperTaq Plus聚合酶(Applied Biosystems)、以及MET外显子3的基因特异性引物(5’GGCTCCAGGGTCTTCACCTCCA3’)和NKX6-3外显子1的基因特异性引物(5’CCAGGCTGAGCACCGAGAAGGC3’)，进行第一条链cDNA的扩增。随后，用精简通用扩增引物(abridged universal amplification primer，AUAP)，以及MET外显子3的基因特异性引物(与外部5’PCR相同)和NKX6-3外显子1的基因特异性引物(5’GCTTGCGCAGCAGCAGGCGGAT3’)进行5’RACE内部巢式PCR。

进行凝胶电泳，并切下所关注的PCR条带，用带有pCR 4-TOPO载体的TOPO TA克隆试剂盒(Invitrogen)进行克隆。分离出最少五个独立集落，并在ABI 3730自动测序仪(Applied Biosystems.)上对纯化的质粒DNA进行双向测序。

微阵列分析

对在Affymetrix Human Genome U133Plus 2.0Genechip阵列上布置的200个GC样品和100个相配的胃部样品进行分析(GSE 15459)。使用‘affyPLM’R软件包(v 2.15)进行数据预处理。排除逸出值，得到总计185个GC样品和89个正常样品，其可用于下游分析。使用‘limma’R软件包(v 2.15)进行GC样品间的差异表达分析。错误发现率(false discoveryrate，FDR)<0.05的基因被认为是差异表达的。用于差异表达分析的基因是由对RNAseq分析得到的非Refseq转录物清单进行GREAT(v 2.02)分析而发现的基因。对于存活率分析，使用K-medoids法使GC样品群集，该法旨在发现使轮廓宽度(silhouette width)最小的K值。为了评估不同GC组与临床病理因素的相关性，针对分类变量绘制马赛克图，而对连续变量采用线性回归法。利用皮尔逊的卡方检验(Pearson chi-square test)或t检验相应地确定相关性的显著性(p<0.05)。采用卡普兰-麦耶存活率分析，以总存活率作为结果度量。使用对数秩检验评估卡普兰-麦耶分析的显著性。使用寇克斯回归(Cox regression)进行单变量和多变量分析。

转录因子结合位点(TFBS)分析(ENCODE)

从UCSC浏览器获得ENCODE ChIPseq TFBS数据集(Txn Fac ChIP V3–转录因子ChIP-seq簇V3，161个靶，189种抗体)。对每一TF，计算针对癌症相关的启动子和增强子(或所有启动子和增强子)的重叠数。TF位点计数除以每一对应启动子、增强子或整个组的碱基覆盖长度，由此计算出每10kb覆盖范围的TF位点频率。

DNA甲基化分析

使用Ilumina Human Methylation450(HM450)Infinium DNA甲基化阵列来检验胃肿瘤/正常对之间的DNA甲基化水平。计算甲基化值，并使用2.4.0版R软件包中的methylumi软件包进行背景校正。使用BMIQ法(R中的wateRmelon软件包)进行标准化。

去除含有SNP和重复序列的探针。另外，也去除针对X和Y染色体的探针。所用对照组包括全部21,692个启动子区。对于每一组(对照组、增加组及损失组)，鉴别了与启动子区重叠的HM450探针(全部区域、癌症增加区及癌症损失区分别是135606个、2268个、963个探针)。排除检测p值>0.05的探针。选出肿瘤与正常组织对之间DNA甲基化平均变化是至少0.2_(在任一方向上)的探针并作图。进行双样品威尔科克森检验。

单核苷酸变异(SNV)检测

根据Genome Analysis Toolkit(GATK，2.6版)中的最佳实践工作流程，对测序数据进行预处理。确切地说，使用samtools去除PCR重复序列。针对由插入和缺失(indels)的存在引起的错误比对校正其余序列，随后进行碱基质量评分的再校准。使用MuTect11识别每一GC/正常对中的单核苷酸变异(SNV)。使用MuTect所报导的SNV属性将SNV分类为dbSNP位点或独家SNV。dbSNP位点具有以下标准：(i)其是已知的dbSNP位点；(ii)该位点能用于检测突变(又称覆盖位点)；及(iii)其通过在MuTect中实施的变体过滤器。

等位基因偏好及独家/体细胞突变的检测

通过计算可选等位基因的频率来确定在每一位点处的可选等位基因分数。

排除在GC/正常组织对中平均可选等位基因分数超过0.9的纯合型dbSNP位点。焦点集中在GC/正常组织对中可选等位基因分数差异超过0.3的杂合位点。

使用RegulomeDB12评估映射到展现癌症相关的染色质标记物改变的区域的等位基因偏好位点的功能影响。对于RegulomeDB查询结果(hit)，我们也通过焦磷酸测序对输入DNA群中等位基因偏好的缺乏进行了确认。对于体细胞突变，焦点集中在独家(非dbSNP)SNP。这些“独家”SNP是使用以下标准鉴别：(i)其是新颖的非dbSNP变异；(ii)肿瘤中可选等位基因分数在覆盖位点处大于0.3，或在未覆盖位点处大于0.5；(iii)位点覆盖范围在GC中具有至少14个读段；(iv)在正常组织中的未覆盖位点处不存在突变等位基因。除MuTect外，还使用CLC Genomics Workbench(CLC Bio)研究并鉴别独家SNP。映射到展现癌症相关的染色质标记物改变的区域的独家SNP被视为候选体细胞突变。

定量焦磷酸测序、TF位点预测

焦磷酸测序是在PyroMark Q24(Qiagen)上进行的。结果用针对等位基因定量的PyroMark软件进行分析。对于ChIP-qPCR-焦磷酸测序，将PCR引物用于通过焦磷酸测序进行的ChIP DNA的实时PCR定量和等位基因定量，所述定量用WGA扩增的DNA作为模板。将定量结果与等位基因呈现组合以估计ChIP信号中两个等位基因的分数。结合位点预测是使用TFBIND13(http://tfbind.hgc.jp/)进行的。

荧光素酶检测

使用Promega pGL3(萤火虫荧光素酶)和RLSV40(海肾荧光素酶)质粒进行荧光素酶报告子检测。由人类基因组DNA，利用BglII-HindIII连接子引物，通过PCR扩增FOS基因启动子，并连接到pGL3-BASIC质粒中。由ChIP-WGA DNA，利用BglII连接子引物扩增含有野生型或突变型等位基因的HOXA11相关的片段(约350bp)，并克隆到FOS启动子的上游。插入方向和等位基因身份通过桑格测序法确认。将KATO-III GC细胞以1×10⁶个细胞/24孔板接种，使用Lipofectamine 2000(Invitrogen)，以pGL3报告子或衍生物(每孔100ng)及pRLSV40(每孔20ng)进行转染。转染后42小时收集细胞，将其溶解于由Dual-Luciferase试剂盒(Promega)提供的PLB缓冲液中，并测量荧光素酶活性。用萤火虫荧光素酶活性读数除以海肾荧光素酶活性以使转染效率标准化。

讨论

已经在低至1,000个细胞的规模上验证了Nano-ChIPseq(图6)。对五个相配的原发GC与正常胃部样品对进行了分析(有关临床细节，参见图1a)。染色质标记物包括i)与转录的区域相关的三甲基化的组蛋白H3赖氨酸36(H3K36me3)；ii)三甲基化的组蛋白H3赖氨酸27(H3K27me3)，受抑制的区域；及iii)组蛋白H3H3K4me3、H3K4me1及H3K27ac(ac＝乙酰化)，标记活性启动子和增强子。对于每一标记物，产生了>4500万个唯一映射的Illumina测序标签，并使用CCAT识别峰区(图7)。将肿瘤样品中展现ChIP输入标签的异常丰度(可能反映基因组扩增)的基因组区从下游分析中排除(图8)。尽管材料有限(对于所有标记物，约5mg组织)，但成功地获得了正常组织和癌症组织的基因组范围的染色质特征(图1b)。举例来说，在CDX2基因处观察到与肠化生相关的癌症特异性启动子活性增加(H3K4me3和H3K27ac增加)(图1c)。

比较染色质标记物揭示，活性转录区(H3K36me3)是抑制性染色质区(H3K27me3)专有的(图1b、1d，GC 2000721；参见图9)。为界定可能的启动子区(被标记为H3K4me3)和增强子区(H3K4me1阳性但H3K4me3阴性)，使来自5个组织对的H3K4me3和H3K4me1峰区相交(图1e)。鉴别出>21K的启动子区和>125K的增强子区。在至少一个组织中，64％的启动子具有活性(H3K27ac阳性)并且19％的推定增强子被标记为H3K27ac(图1e)。

为了鉴别GC中体细胞改变的启动子和增强子，对GC与正常组织之间的测序标签密度进行了定量并加以比较(每百万个标记每千碱基长度的读段数，RPKM)(图1b、10、11)。鉴别出在GC与正常组织之间展现不同H3K4me3和H3K27ac修饰的639个启动子，以及975个体细胞改变的增强子(参见方法)。使用这些体细胞改变的元件进行主成份分析(PCA)和聚类分析确认了GC与相配的正常组织之间的区别(图1f-i、11)。

原发GC中新启动子的增加超过启动子损失(增加472个相对于损失167个，图2a)。意外地是，大多数增加的启动子(58％)位于距离Refseq(转录物序列的参比数据库)中所发现的注释的转录起始位点(TSS)>500个碱基对(bp)的区域。增加的启动子中“潜在启动子”的分数明显高于总启动子群或GC中启动子损失(约44％，p<7.1×10^-6，费舍尔氏精确检验(Fisher’s Exact Test))。为了解癌症相关的启动子(包括潜在启动子)是否与真正的RNA转录物相关，接着对12个肿瘤/正常对(包括指明的5个GC)进行RNA测序(RNAseq)。大多数的启动子(59.5％，380个启动子)与可检测的RNA转录物相关(图2a)。鉴别出在GC中展现相较于正常组织>4倍的表达改变的192个转录物，并且其中大约半数(48％，92个启动子)是由潜在启动子引起，从而支持了其癌症特异性(图2b)。使用靶向性qPCR，以实验方式验证了10个潜在启动子驱动的转录物(图12)。

位于癌症相关的启动子附近的基因在与胃肠肿瘤/消化系统癌症相关的基因集中显著富集(图2c；p<1×10^-5，通过GREAT分析确定)。由此发现，潜在启动子常常通过带有改变的5’结构的非典型mRNA同种异型物来驱动附近的这些基因的表达。举例来说，GC 2000721经由内部潜在启动子而展现MET受体的肿瘤特异性表达(图2d-f、13)，从而产生不含N末端Sema结构域的截短的同种异型物，该结构域调控受体二聚化和信号传导。针对表达MET的Hs746T GC细胞的5’RACE(cDNA末端快速扩增)分析确定了这一截短的MET同种异型物的表达(图13)。值得关注的是，位于癌症相关的启动子附近的基因还展现转录因子功能、胚胎发育及细胞类型特化的显著功能富集(p<2×10^-6，FDR q<1×10^-3；图2c)。举例来说，NKX6-3(一种神经系统和胃组织发育调控基因)经由跳跃典型RefSeq NKX6.3第1外显子的新5’外显子而展现癌症特异性表达(图2g、14)，从而得到修饰同源异型盒结构域的新颖184个氨基酸的N末端(图14)。使用RACE来确定GC谱系中这些新5’外显子的表达(图14)。对于同源异型盒转录因子HOXB9观察到类似的改变的5'转录物结构(图2h、15)。这些结果证实在GC中潜在启动子活化。由这些启动子产生的非典型转录物同种异型物也可以产生细胞功能改变的蛋白质。

为了验证这些表达模式，已经确定由被标记为H3K4me3的癌症相关启动子驱动的基因在由185个GC和89个正常胃组织组成的扩展的微阵列组中展现类似的肿瘤上调(p＝5.68×10^-6；图2i、16)。相较于这些基因低水平表达的GC，展现出标记为H3K4me3的基因的高表达的GC展现更高的M分期(p＝0.033；图17)、弥漫型Lauren组织学(p＝9.99×10^-5；图17)，及更差的总体存活率(图2j；对数秩检验p值＝0.04)。多变量寇克斯回归分析揭示，存活率结果并非与肿瘤分期无关(p＝0.74)。因此，GC中由标记H3K4me3的启动子驱动的基因可能促成GC的病理和临床特征。

当针对161个转录因子(ENCODE联盟)的基因组占有率数据映射时，癌症相关启动子展现先前确定的转录因子结合位点的普遍耗尽(图3a、18a)，但在SUZ12和EZH2结合中显著富集(对于SUZ12和EZH2，p＝1.2×10^-24和p＝1.1×10^-4，邦弗朗尼校正(Bonferronicorrected))。SUZ12和EZH2是靶向胚胎干细胞(ESC)中的关键发育基因并且还参与癌症发展的多梳复合体2(polycomb complex 2，PRC2)的成分。相比之下，GC相关的增强子则不展示SUZ12/EZH2富集，而是与包括叉头(FOX)、GATA家族成员以及FOS和JUN细胞周期调控因子在内的发育调控因子相关(p<0.05)(图3b)。

在ESC中，在GC相关的启动子与PRC2靶向区之间存在若干共同性。第一，与GC启动子重叠的SUZ12位点源自于ESC和胚胎癌细胞，而不是其它ENCODE细胞类型(例如，成淋巴细胞系)。第二，在ESC中，PRC2的结合与二价/待激活的染色质状态(H3K4me3和H3K27me3阳性)相关，并且类似地，在ESC中展现H3K4me3和H3K27me3二价的区域处富集GC启动子(p<2.2×10^-16；图3c)，所示实例是关于同源异型盒基因ONECUT2(图3d)。第三，在ESC中，PRC2靶向区展现DNA甲基化损失。使用Illumina甲基化阵列确定，GC相关的启动子也展现相对于总群体降低的DNA甲基化水平(p＝7.07×10^-48)(图3e)。因此，GC中的癌症相关启动子可能在分子水平上类似于干细胞中的PRC2靶向区。

为了在Nano-ChIPseq数据中鉴别出单核苷酸变异(SNV)，基于MuTect(一种灵敏的突变/变异鉴别算法)开发出分析流程。在组合的H3K4me3、H3K4me1、H3K27ac及输入数据中鉴别出335,918个独特的SNV。支持变体识别流程的准确性，99.8％的SNV(335,247个)对应于已知的SNP(dbSNP137)。在所鉴别的dbSNP中，有约251,800个dbSNP在至少一个样品中是杂合的。

已发现，映射到调控元件的杂合SNP可以分成非等位基因偏好位点和等位基因偏好位点。在非偏好位点，Nano-ChIPseq序列读段展现参比等位基因和变体等位基因比例相等。举例来说，GC 2000639在TNK2基因座处展现癌症相关的启动子(图4a、b)。在来自该患者的正常DNA中，这一区域对于dbSNP rs7636635来说是杂合的(图4c)，并且类似地，在肿瘤中，相等比例的带有参比等位基因和rs7636635等位基因的读段促成富集H3K4me3的读段(图4c、d)。相比之下，等位基因偏好位点展示出向一个等位基因倾斜的Nano-ChIPseq读段。在NUDT4基因座处，在癌症相关的启动子中观察到这一点(图4e、f)。对来自这一患者的正常DNA的分析确定了针对rs4761701的杂合性(图4g)，但在肿瘤中，富集H3K4me3的读段主要是由带有rs4761701等位基因而非参比等位基因的读段引起(图4g、h)。

由此推断，癌症样品中的等位基因偏好位点可能是由杂合性缺失(LOH)或有关染色质标记物(等位基因特异性调控元件)的特定等位基因的积极富集引起。为了鉴别与癌症相关的等位基因特异性调控元件，展现等位基因偏好的杂合位点(>30％的SNP过度呈现；图4i)与在GC与正常组织之间展现染色质标记物改变的区域重叠。如RegulomeDB(人类调控变体数据库)所预测，在151个候选位点(图4j)中，有17个特别关注的等位基因(11％)被予以注意，如通过RegulomeDB——人调节变体数据库——影响蛋白质DNA结合(RegulomeDB评分1分或2分)所预测的(图4k)。这17个位点中有12个可以通过定量焦磷酸测序进一步验证(5个位点由于PCR或测序失败而无法进行检测)，并且在剩余的12个位点中，确定有9个位点(75％)中在富集ChIP的读段内而非癌症和正常输入DNA内存在等位基因偏好，表明这一偏好不是由癌症组织的LOH引起。四个等位基因对应于先前鉴别的对eQTL dbSNPrs2659104显示等位基因偏好的eQTL(图4k)，包括KLK1基因(图4l-n)。这些结果突显了等位基因特异性调控元件在控制GC基因表达模式中的可能作用，因为先前在GC中已牵涉到与等位基因偏好位点相关联的若干基因(例如CLDN4、MTAP、SERPINB5)。

除dbSNP外，还鉴别出与GC相关调控元件重叠的独家(非dbSNP)SNV。四个独家SNV被验证为真正的体细胞突变，其存在于GC而非正常组织中，出现在与CHD10、HOXA5、FAR2及HOXA11相关的非编码区(图5、19-21)。其中，CHD10和FAR2突变相对于输入肿瘤DNA而在富集H3K4me3的读段中展现等位基因偏好，并且还展现肿瘤相关的基因表达。在众多癌症中，由于涉及到HOXA11而集中在HOXA11相关的A-T突变。五条证据链表明，这一体细胞突变是功能性突变而非旁观者改变。第一，GC 2000639中这一突变的存在与H3K4me3和H3K27ac启动子标记物增加有关(图5a-c)。第二，这一突变的存在与GC中HOXA11基因座RNA表达上调有关(图5a)。第三，在H3K27ac序列读段中，相对于体细胞突变等位基因频率是约10％或低于10％的输入肿瘤DNA，T突变等位基因展现等位基因偏好，高度地过度呈现(96％)(图5c-d)。

第四，这一突变的存在预计会改变转录因子结合(图5e)。第五，在荧光素酶报告子检测中，较之带有野生型A等位基因的基因组DNA，带有突变T等位基因的基因组DNA片段展现出明显较高的转录活性(p＝1.1×10^-4，图5f)。这些结果证实，Nano-ChIPseq可以鉴别GC中的功能调控性体细胞突变。

估计调控元件占人类基因组的1.5％到10％，并且有力地影响发育和疾病。然而，定位这些元件、以及确定调控其活性的生物状态，仍是一个重要挑战。此处，使用了Nano-ChIPseq来进行原发GC中染色质改变的第一遍调查。将来Nano-ChIPseq可以扩展到其它肿瘤类型和更少的细胞数量，从而有助于诊断性生物活检和耐药性克隆的分析。从翻译的角度看，这些发现也表明，潜在启动子及其相关联的非典型转录物可以令人信服地用作癌症诊断的生物标记物。

实施例2

方法

组织样品

初级患者样品是从新保集团细胞组织储存库获得，并且在院校研究伦理委员会批准下收集，同时签署了患者知情同意书。

Nano-ChIPseq

如先前所描述进行Nano-ChIPseq，并增加一个组织解离步骤。在液氮中，使用刀片解剖新鲜冷冻的癌症组织和正常组织，获得约5mg大小的小块(表观体积为约5μl)。在室温下，将组织块固定于1％的甲醛/PBS缓冲液中，保持10分钟(min)。通过添加甘氨酸达到125mM最终浓度来停止固定。

组织块用TBSE缓冲液洗涤3次，并转移到Lysonator筒(SG Microlab Devices,Singapore)中。遵循制造商的指导，解离组织(4K Hz，6分钟)，并将其直接用于Nano ChIP检测中的溶解步骤。解离的组织在200μl溶解缓冲液中溶解，并分入两个1.5ml的试管中，使用Bioruptor(Diagenode)进行超声处理(6分钟)。对于每一组织，使用以下抗体进行ChIP：H3K4me3(07-473，Millipore)；H3K4me1(ab8895，Abcam)；H3K27ac(ab4729，Abcam)；H3K36me3(ab9050，Abcam)；H3K27me3(07-449，Millipore)。

用BpmI(New England Biolabs)消化扩增的DNA。对于每个Illumina测序文库使用10ng扩增的DNA。文库制备是使用E6240New England Biolabs试剂盒进行，然后在测序之前，使用E7335New England Biolabs试剂盒进行倍增。

Nano-ChIP-seq读段映射和峰识别

使用Burrows-Wheeler Aligner软件(0.7.0版)和‘aln’算法，针对人类参比基因组(hg19)映射测序标签。应用MAPQ过滤器20来去除低质量读段，同时使用来自Picard的MarkDup去除所有PCR重复序列。使用唯一地映射的标签，通过3.0版CCAT进行峰识别，其中对于组蛋白修饰，片段大小是200bp，并且滑动窗口是500bp，移动步长50bp。以5％的错误发现率(FDR)过滤峰区。

ChipSeq信号分析

通过计算Refseq中所有注释的转录起始位点(TSS)周围每一染色质标记物的平均覆盖率，来绘制TSS周围的H3K4me3和H3K27ac信号强度曲线。将已知TSS周围的6kb窗口分成100bp的小箱，并计算H3K4me3和H3K27ac的覆盖率，然后在每个小箱间求其平均值。

使用bedtools分别合并GC样品和正常样品中的所有H3K4me3区，并计算作为共用区的重叠区(1bp重叠)数量。不含任何重叠的区域称为独家区域。为了提供有关各样品间H3K4me3区域之间重叠的基因组零期望值，使用来自bedtools的shufflebed使共同区域在整个参比基因组内穿梭，不过排除ENCODE DAC黑名单上的区域和间隙区域(这些区域是由Dunham,I.等人,《人类基因组中DNA元件的综合百科全书》(An integrated encyclopediaof DNA elements in the human genome).《自然》(Nature)489,57-74(2012)公布的一组区域)。使这些区域穿梭10000次，并且使用重叠分布生成经验p值。

体细胞改变的启动子的鉴别

使用来自Bioconductor的DESeq2算法鉴别在胃癌与正常样品中富集程度不同的H3K4me3区域。富集是相较于正常的非癌症样品，在癌症样品中H3k4me3的增加。通过1)将所有GC和正常样品中的所有鉴别的启动子区组合；及2)确定所有样品在每个区域中测序读段的数量，生成测序标签计数矩阵。步骤1)和2)都是使用bedtools进行的。

DESeq2检验通过对包括ChIPseq在内的各种测序检测使用负二项广义线性模型来确定差异富集。通过使用bedtools取得在重复实验内鉴别的H3k4me3区集合，并计算每一所得启动子区中测序读段的数量，生成所有样品中测序标签计数矩阵作为DESeq2检验的输入，其中该DESeq2检验拟合负二项广义线性模型以发现胃癌与正常样品之间在统计学上不同的启动子区，即，体细胞改变的启动子。在统计学上不同是指错误发现率的统计阈值时10％，即，q值是0.1，以及绝对倍数变化是1.5倍。

鉴别出肿瘤组和正常组的不同区域，以及各个样品特异性峰。

可选启动子的鉴别

GENCODE转录物是从ftp站点下载，而Refseq转录物是从UCSC浏览器下载。有关GENCODE转录物的转录支持水平信息是从UCSC ftp站点下载。通过使转录物起始位置延伸±500个碱基来界定注释的TSS。将差异富集的H3K4me3峰区与TSS区相比较以确定重叠。利用Cufflinks-2.2.0.12进行RNAseq读段的从头组装，并且通过与从头组装物的第1外显子的重叠来过滤未注释的H3K4me3差异区域，其中类别代码是‘j’或‘u’。

RNAseq分析

使用TopHat 2-2.0.12，使用唯一映射来比对读段与人类参比基因组。使用Cufflinks2-2.0.12从头组装转录组，并使用‘cuffmerge-2.2.0’合并所有GC转录物组装体，得到共同的转录组。TCGA胃腺癌的原始RNAseq数据是从TCGA库(http://cancergenome.nih.gov/)下载。

待激活启动子的分析

差异富集的区域与来自3个样品的CCAT3识别的H3K27me3峰重叠(1bp重叠)以确定其存在与否。

讨论

GC中启动子区的鉴别

使用扩充的一组8个原发GC和相配的正常样品，使用Nano-ChIPseq，以2个启动子相关的标记物H3K4me3和H3K27ac表征胃癌(GC)的启动子元件。使用CCAT3识别峰，并鉴别出每个样品平均11k的H3K4me3峰和34k的H3K27ac峰。在GC和正常组织的样品中，有70％到80％的H3K4me3区域是共有的，超过偶然预期(p<0.001)。

H3K4me3和H3K27ac都显示在转录起始位点(TSS)周围富集的标准双峰分布(图22a)。H3K27ac显示的信号比H3K4me3的弱，预期这赋予其广大的分布量，以标记所有活性调控区。所有H3K4me3区域中超过99％的区域与DNAseI超敏感性位点(来自ENCODE)重叠。GC(r＝0.91，p<0.001)(图22b)和正常样品(r＝0.91，p<0.001)都与H3K4me3和H3K27ac具有较强正相关性。存在H3k27ac的所有H3K4me3区都标记为活性启动子区。在常见(即复发型)GC启动子中活性(即，H3K27ac阳性)区的比例高于独家启动子以及正常样品中的启动子(图22c)。

GC中体细胞改变的启动子的鉴别

为了鉴别整个基因组中的体细胞改变的启动子，采用负二项分布(如通过DESeq2算法分析)，比较原发GC与相配的正常组织之间的测序标签计数矩阵。将全部8个GC样品与正常组织池相比较，获得516个稳健的体细胞改变的区域(q<0.1，倍数变化>1.5倍)，其中约60％在GC中增加或表观遗传活化(图23c)。

针对鉴别的区域的样品中的H3K4me3信号的聚类分析确定了明显分离(图23b)。使用基于替代性计数的差异算法获得类似结果(95％一致性)，确保这些结果是稳健的并且与方法无关(图23a)。

除在实施例1使用基于2倍FPKM的测序标签密度比较所鉴别的639个启动子外，还有249个(48％)体细胞改变的区域。原发GC中新启动子的增加再次超过启动子损失，即，增加148个(60％)相对于损失101个。总的说来，在GC中增加620个启动子区(70％)，与GC中260个的损失相对。

使用更全面的转录物数据库，将体细胞改变的区域与已知GENCODE TSS周围的1kb窗口重叠，以对其进行注释。62％的体细胞改变的启动子区与已知转录物重叠。然而，有显著的38％位于注释的TSS的500bp之外(图23d)。

H3K4me3在特定基因座处的富集有助于观察GC中影响转录物选择的替代性启动子使用模式。553(GC中63％的增加)个体细胞改变的启动子区与已知转录物重叠。在多转录物基因如HNF4A中观察到一种转录物相对于另一种转录物的优先活化/抑制。HNF4A是众所周知的调控肝、肾和肠发育的转录因子基因。据报导，在GC中HNF4A过表达，而且近期的免疫组织化学研究显示，其可能作为标记物用于区分GC组织与乳腺癌组织。

在GC中，在典型HNF4A同种异型物TSS下游约45kb处的启动子处观察到H3K4me3富集(FC 2.52，q<0.001)。另一方面，典型启动子在GC和正常组织中显示相等的赖氨酸三甲基化，突显出下游启动子的GC特异性使用及由此产生的HNF4A的较短蛋白质编码同种异型物(图24a)。

出现此类可选启动子使用情形的其它癌症相关基因是EPCAM(FC 1.64,q<0.001)、KRT7(FC 2.00,q<0.001)、AIM1L(FC 1.95,q<0.001)等。FC和q值统计表是衍生自DESeq2分析，其中FC定义为倍数变化。

体细胞改变的启动子通常只重叠与多个转录物相关联的基因的一个转录物，标记初级启动子和癌症特异性同种异型物(图24b)。CEACAM6是这一现象的一个突出实例，其中2个已知的蛋白质编码转录物中仅一个同种异型物显示在GC中富集H3K4me3(FC 2.56,q<0.001)。在GC中观察到使用已知的可选转录物而不是典型同种异型物的多个这样的例子，这是通过由H3K4me3对启动子区的表观遗传活化或抑制而确定的，如CLDN4(FC 2.71,q<0.001)、SHD(FC 2.14,q<0.001)、CEACAM18(FC 2.10,q<0.01)及SULT2B1(FC 2.33,q<0.001)。

还观察到重叠GENCODE转录物的体细胞改变的区域的情形，但具有极少的转录支持证据(tsl 2或更高)。此类具有极少或无mRNA支持的GENCODE转录物注释通常不包括在更专业的数据库，如Refseq中。

观察到重叠此类转录物的TSS的109个富集区，这得到了GC中RNA表达的支持，突显出这些原本不被支持的同种异型物的GC特异性使用。一个此类实例是MYO15B，它是在GC中不被支持的同种异型物启动子处显示H3K4me3显著增加(FC 2.16,q<0.01)、同时在其典型同种异型物处完全不存在H3K4me3的一种转录的假基因。(图24c)

鉴别出标记与真正RNA转录物相关联的GC特异性同种异型物的新颖5’起始位点的另外的潜在启动子。突出实例是Ras GTP酶活化蛋白3(RASA3)，该蛋白质显示在GC样品中典型转录物起始位点下游约127kb处的启动子区处的H3K4me3差异富集，由此形成仅在GC组织中转录的更短的新颖同种异型物。典型同种异型物在GC和正常组织中显示出等量的H3K4me3。此类新颖5’起始位点同种异型物的其它实例有GRIN2D(FC 2.52,q<0.001)、ONECUT3(FC 2.52,q<0.001)及TNNI3(FC 2.52,q<0.001)。

替代性启动子使用也改变了可选GC特异性同种异型物中的蛋白质组成。使用起源于可选启动子的已知或从头组装的同种异型物的基因组序列，预测蛋白质结构域的存在并且将该结构域的组成与典型同种异型物的组成相比较以发现蛋白质改变的实例。

然后针对蛋白质组成变化，选出可选同种异型物由RNAseq支持的情形。鉴别出显示蛋白质结构域多样性的10个此类高置信度基因，包括RASA3(图25b，表1)。

表1

较短的GC特异性同种异型物缺乏RasGAP结构域，该结构域充当下调Ras活性的分子开关。如果不存在这一结构域，则可能导致GTP结合的RAS的表达增加并由此引起异常细胞增殖。

在体细胞改变的区域中也观察到H3K27me3标记物的存在。在许多情况下，在GC或正常组织中观察到潜在地标记启动子从单价状态向二价待激活状态或从二价待激活状态向单价状态的转变的H3K27me3标记物。举例来说，TNFSF9，一种涉及肿瘤坏死因子结合并且在爱泼斯坦巴尔病毒(Epstein Barr Virus，EBV)相关性GC中显示表达的细胞因子，显示GC中H3K4me3增加以及H3K27me3的存在，而在正常组织中不存在抑制性三甲基化标记物。TNFS9在GC中具有始终较低的RNAseq表达水平(FPKM 4.9)并且呈现其待激活的表观遗传状态。

鉴别的体细胞改变的启动子突显并且确定了GC中可选启动子的普遍使用，并且阐明可选启动子的使用会影响所得的可能GC特异性的蛋白质的蛋白质结构域组成。

因此，基于以上观察结果和实验数据，使用扩充的一组8个原发胃癌(GC)与相配的正常样品相比较，基于计算的读段计数矩阵的算法(Deseq2)能够鉴别另外的体细胞改变的启动子区。以胃癌为例，体细胞改变的启动子区的鉴别突显并确认了癌症特异的可选启动子的普遍使用，通过一种转录物的启动子的优先改变，或通过多转录物基因中使用的初级转录物的启动子的改变。另外，在扩充组中鉴别出标记非典型同种异型物的5’起始位点的另外的‘潜在启动子’。

以上非典型同种异型物显示出所得的可能对某种癌症特异的蛋白质的结构域组成的变化，例如在表1中说明了GC特异的蛋白质。这些潜在启动子和相关非典型转录物可以用作靶向疗法和癌症诊断的生物标记物。因此，本文公开的本发明和方法有利于鉴别和提供另外的生物标记物用于受试者癌症的可能检测和诊断。

Claims

1.一种确定至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的活性的方法，所述方法包括：

针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品获得的包含至少一个启动子序列的分离的核酸进行映射，从而得到所述至少一个启动子的每百万每千碱基读段数(RPKM)值或每百万每千碱基片段数(FPKM)值；及

使用所述RPKM值或FPKM值确定所述核酸中至少一个启动子序列相对于所述参比核酸序列中至少一个启动子的活性的差异活性。

2.如权利要求1所述的方法，其中所述癌症生物样品和所述非癌症生物样品包括单个细胞、多个细胞、细胞碎片、体液或组织。

3.如权利要求1至2中任一项所述的方法，其中所述癌症生物样品和所述非癌症生物样品是从同一受试者获得的。

4.如权利要求1至3中任一项所述的方法，其中所述癌症生物样品和所述非癌症生物样品各自是从不同受试者获得的。

5.如权利要求1至4中任一项所述的方法，其中所述核酸是通过染色质免疫沉淀而从所述癌症生物样品分离的，其中所述核酸包含所述至少一个启动子。

6.如权利要求5所述的方法，其中染色质免疫沉淀是通过对修饰的组蛋白特异的抗体实现的。

7.如权利要求6所述的方法，其中所述修饰的组蛋白包含选自由H3K4me3、H3K4me1及H3K27ac构成的组的至少一种组蛋白修饰。

8.如权利要求7所述的方法，其中所述抗体对选自由H3K4me3、H3K4me1及H3K27ac构成的组的所述至少一种组蛋白修饰特异。

9.如权利要求1至8中任一项所述的方法，其中所述包含至少一个启动子的分离的核酸是用至少一种引物被扩增的。

10.如权利要求9所述的方法，其中所述被扩增的核酸用于构建含有所述被扩增的核酸的核酸序列文库。

11.如权利要求1至10中任一项所述的方法，其中所述映射步骤包括基于相对于所述参比核酸，在被映射的核酸中所述至少一个启动子的总序列标签来计算所述RPKM值。

12.如权利要求1至10中任一项所述的方法，其中所述映射步骤包括基于相对于所述参比核酸，与在被映射的核酸中的所述至少一个启动子相关的识别的转录序列来计算所述FPKM值。

13.如权利要求1至12中任一项所述的方法，其中确定所述至少一个启动子序列的差异活性的步骤包括确定在从所述癌症生物样品获得的核酸中的所述至少一个启动子的RKPM值或FPKM值：

i)相对于从所述非癌症生物样品获得的所述参比核酸中的所述至少一个启动子的RKPM值或FPKM值，超过1到20倍之间的，如1倍、2倍、3倍、4倍或5倍的平均RKPM值或FPKM值变化；及

ii)相对于从所述非癌症生物样品获得的所述参比核酸中的所述至少一个启动子的RKPM值或FPKM值，超过0.1RPKM或FPKM范围。

14.如权利要求1至13中任一项所述的方法，其中相对于总启动子群，所述至少一个启动子包含SUZ12结合位点的增加。

15.如权利要求1至14中任一项所述的方法，其中所述至少一个启动子位于与细胞类型特化、胚胎发育或转录因子相关的基因附近。

16.如权利要求15所述的方法，其中所述至少一个启动子位于与癌症相关的基因附近。

17.如权利要求16所述的方法，其中所述基因是NKX6-3、SALL4、HOXB9、MET、TNK2、KLK1、FAR2、HOXA11或HOXA11-AS。

18.如权利要求1至17中任一项所述的方法，其中所述癌症是胃癌。

19.如权利要求1至18中任一项所述的方法，其中所述至少一个启动子包含潜在启动子。

20.一种用于确定受试者的癌症易感性的方法，所述方法包括

针对从非癌症生物样品获得的参比核酸，对从癌症生物样品获得的包含至少一个启动子的分离的核酸进行映射，以获得所述至少一个启动子的RPKM值或FPKM值；及

使用所述RPKM值或FPKM值确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的活性的差异活性，其中相对于所述非癌症样品中所述至少一个启动子的活性，所述癌症样品中所述至少一个启动子的增加的活性指示所述受试者对癌症的易感性。

21.一种用于确定受试者体内与癌症相关的至少一个启动子的存在的方法，所述方法包括：

针对从非癌症生物样品获得的参比核酸，对从所述受试者的癌症生物样品获得的包含至少一个启动子的分离的核酸进行映射，以获得所述至少一个启动子的RPKM值或FPKM值；及

使用所述RPKM值或FPKM值确定所述核酸中所述至少一个启动子相对于所述参比核酸序列中所述至少一个启动子的活性的差异活性，其中与所述非癌症样品中所述至少一个启动子的活性相比，从所述受试者获得的癌症生物样品中所述至少一个启动子的增加的活性指示所述受试者中存在与癌症相关的启动子。

22.如权利要求21所述的方法，其中当从所述生物样品获得的核酸中所述至少一个启动子的RPKM值或FPKM值满足以下各项时，存在所述与癌症相关的至少一个启动子：

i)相对于从所述非癌症生物样品获得的所述参比核酸中所述至少一个启动子的RKPM或FPKM值，超过1到20倍之间的，如1倍、2倍、3倍、4倍或5倍的平均RKPM值或FPKM值变化；及

ii)相对于从所述非癌症生物样品获得的所述参比核酸中至少一个启动子的RKPM值或FPKM值，超过0.1RPKM或FPKM范围。

23.一种用于在受试者中检测癌症的生物标记物，所述生物标记物包含在癌症生物样品中的活性相对于在正常非癌症生物样品中具有增加的活性的至少一个启动子，其中相对于总启动子群，所述启动子包含SUZ12结合位点的增加。

24.如权利要求23所述的生物标记物，其中相对于所述总启动子群，所述至少一个启动子展现低的DNA甲基化水平。

25.如权利要求23或24中任一项所述的生物标记物，其中所述至少一个启动子位于与细胞类型特化、胚胎发育或转录因子相关的基因附近。

26.如权利要求25所述的生物标记物，其中所述基因是NKX6-3、SALL4、HOXB9、MET、TNK2、KLK1、FAR2、HOXA11或HOXA11-AS。

27.如权利要求23至26中任一项所述的生物标记物，其中所述至少一个启动子包含潜在启动子。

28.一种用于确定癌症相关的至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的存在的方法，所述方法包括：

针对从所述非癌症生物样品获得的参比核酸，对从所述癌症生物样品获得的包含至少一个启动子序列的分离的核酸进行映射；

基于所述映射，生成针对所述至少一个启动子的测序标签计数矩阵；

分析所述测序标签计数矩阵；及

使用对所述测序标签计数矩阵的分析，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的差异富集，其中从所述受试者获得的癌症生物样品中所述至少一个启动子相对于所述非癌症样品中所述至少一个启动子的差异富集指示受试者中与癌症相关的启动子的存在。

29.一种用于确定至少一个启动子在癌症生物样品中相对于在非癌症生物样品中的活性的方法，所述方法包括：

分析所述测序标签计数矩阵；及

使用对所述测序标签计数矩阵的分析，确定所述核酸中所述至少一个启动子相对于所述参比核酸中所述至少一个启动子的活性的差异活性。

30.如权利要求28或29所述的方法，其中所述生成步骤包括基于相对于所述参比核酸，被映射核酸中所述至少一个启动子的序列标签计数，计算所述矩阵。

31.如权利要求28或29所述的方法，其中所述分析步骤包括使用DESeq2算法分析所述矩阵。

32.如权利要求28或29所述的方法，其中所述至少一个启动子位于与癌症相关的基因附近。

33.如权利要求32所述的方法，其中所述基因是RASA3、GRIN2D、TNNI3、SHD、ATP10B、SMTN、MYO15B、C2orf61、LINC00443或ACHE。

34.如权利要求28所述的方法，其中所述差异富集是基于10％的FDR率及超过1.5倍的绝对倍数变化来鉴别的。

35.如权利要求29所述的方法，其中所述差异活性是基于10％的FDR率及超过1.5倍的绝对倍数变化来鉴别的。