CN111254194B

CN111254194B - 基于cfDNA的测序及数据分析的癌症相关生物标记及其在cfDNA样品分类中的应用

Info

Publication number: CN111254194B
Application number: CN202010035114.5A
Authority: CN
Inventors: 王进科; 刘世财
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2021-09-07
Anticipated expiration: 2040-01-13
Also published as: CN111254194A

Abstract

本发明公开了一种基于cfDNA的测序及数据分析的癌症相关生物标记及其在cfDNA样品分类中的应用，本发明运用新方法从血浆cfDNA(cfDNA)中寻找癌症新生物标记，通过对癌症患者和健康人的cfDNA样本的测序和生物信息学分析，鉴定了相关表观遗传标记和遗传标记，通过机器学习分析表观遗传标记建立了支持向量模型，可准确进行cfDNA样品的分类，即充分DNA样品是来自癌症个体还是来自健康个体。本发明的标记或称标志物为癌症的诊断、预后和治疗提供了新的分子生物标志物。此外，本发明为通过SALP‑seq和机器学习相结合从cfDNA寻找新的癌症分子标记提供了一条新的方法。

Description

基于cfDNA的测序及数据分析的癌症相关生物标记及其在 cfDNA样品分类中的应用

技术领域

本发明涉及肿瘤标志物及分类生物技术领域，具体涉及一种基于基于cfDNA的测序及数据分析的癌症生物标记及其在cfDNA样品分类中的分类新方法及其应用。

背景技术

癌症是全球范围内重要的公共卫生问题。其发病率和死亡率逐年增加，治疗效果差，严重影响人们的健康和生活质量。根据GLOBOCAN的数据，2018年全球约有1,808万例新癌症病例和956万例死亡，其中大多数生活在中低收入国家。据估计，到2025年，每年将有大约2000万新的癌症病例。最新的癌症统计数据显示，2019年，美国预计将发生，1762450例新癌症病例和606,880例癌症死亡。尽管以前癌症的发病率没有显著变化，但癌症死亡率在缓慢下降，这不仅是因为医学标准的发展，也得益于预防性筛查。

组织活检仍然是诊断肿瘤的金标准，但是由于创伤性，它给患者的动态治疗带来了很多干扰。组织活检中也存在许多风险和伦理问题，这使其具有一定的局限性。液体活检是一种尖端技术，能够以微创或无创方式分析血液或其他体液中的多种肿瘤物质。肿瘤材料包括循环肿瘤细胞(CTC)，游离肿瘤DNA(ctDNA)，信使RNA(mRNA)，微小RNA(miRNA)和外泌体。在这些肿瘤生物标志物中，ctDNA在临床应用中得到广泛的认可。与ctDNA相比，cfDNA(cfDNA)是一个更宽泛的术语，它描述了自由循环但不一定来自肿瘤的DNA。CtDNA是指来自肿瘤的cfDNA。

1948年在人体液(例如血浆)中发现了cfDNA。大多数血浆cfDNA起源于健康受试者的造血系统，但在临床患者(例如妊娠和癌症)中，相关的细胞/组织会将额外的DNA释放到血浆中。检测到这种扰动将使我们能够以非侵入性的方式诊断人们的异常情况。近年来，基于血浆cfDNA分析的方法作为一种新兴技术已被广泛探索用于无创性产前检查(NIPT)和癌症液体活检。例如，到2014年，已在许多国家常规部署了基于cfDNA的孕妇胎儿非整倍性检测，预计2019的市场价值将达到36亿美元。基于cfDNA的癌症检测和肿瘤起源确定研究也显示出很高的临床潜力。在这些研究中，开发了多种方法来区分目标组织(例如癌症患者中的ctDNA)与背景组织释放的cfDNA分子。一些方法利用了遗传生物标记物，例如妊娠中的胎儿特异性信息单核苷酸多态性(SNP)位点和癌症患者的体细胞突变。然而，这种遗传生物标记物通常因情况而异，这使得开发敏感且可推广的方法具有挑战性。在这种情况下，表观遗传生物标志物更受青睐。

食道癌(ESCA)仍然是全球癌症死亡的主要原因，全世界每年诊断出约480,000例病例。尽管在过去的几十年中，外科治疗和全身治疗技术取得了进步，但在过去的5年中，有40万多例死于ESCA的病例。由于高复发率，早期转移趋势以及对生物标志物和潜在治疗靶标的了解有限，ESCA预测的5年生存率介于15％至20％之间，近几十年来几乎没有改善。因此，迫切需要寻找新的生物标志物来诊断ESCA，尤其是那些可用于液体活检以早期发现，诊断和预后ESCA的生物标志物。

发明内容

发明目的：针对现有基于cfDNA发现癌症生物标记及建立分类存在的问题，本发明提供一种基于cfDNA的测序及数据分析的癌症相关生物标记及其在cfDNA样品分类中的应用。本发明有效地从cfDNA测序数据中发现癌症生物标记，并基于所发现的生物标记通过机器学习(支持向量机，SVM)建立cfDNA样品的分类。

技术方案：为了实现上述目的，如本发明所述的一种基于cfDNA的测序及数据分析的癌症相关生物标记，所述癌症相关生物标记包括表观遗传标记和遗传标记；所述表观遗传标记为基因组中的DNA区域；所述DNA区域为在cfDNA测序分析中表现出癌症样品和健康样品间reads个数的显著差异的DNA区域，所述遗传标记为癌症cfDNA样品显著提高的碱基变化特征。

作为优选，所述癌症相关生物标记包括表观遗传标记和遗传标记；所述表观遗传标记为基因组中的DNA区域，这些区域在cfDNA测序分析中表现出癌症样品和健康样品间reads个数的显著差异，反映出这些区域染色质可及性(也称为染色质开放程度)在癌症样品和健康样品间的显著差异，是一种由组蛋白与DNA结合形成的表观遗传标记；所述遗传标记为癌症cfDNA样品显著提高的碱基变化特征。

其中，所述表观遗传标记包括启动子位置的标记和其它分布于全基因组的非启动子位置的标记；所述表观遗传标记为全基因组标记。

进一步地，所述癌症相关生物标记还包括基于碱基突变的遗传标记；所述遗传标记包括在癌症cfDNA样品显著提高的C>T、T>C、C>G、C>A、Ti、Tv和Ti/Tv的频率。

进一步地，C>T、T>C为碱基转换(transition)，C>G、C>A为碱基颠换(transversion)，Ti指转换碱基的总数，包括C>T与T>C；Tv指颠换碱基的总数，包括C>G、C>A、T>G、T>A；Ti/Tv为Ti与Tv的比值。

作为优选，所述癌症相关生物标记包括103个表观遗传标记和37个遗传标记，所述103个表观遗传标记包括54个全基因组标记和49个启动子标记。

具体如下：

所述表观遗传标记的详细基因组位置信息见图2(49个启动子标记)及图3(54个全基因组标记)。

本发明所述的基于cfDNA的测序及数据分析的癌症相关生物标记的鉴定方法，包括如下步骤：通过对cfDNA样品的测序和生物信息学分析鉴定癌症相关生物标记。

其中，所述cfDNA为血浆中的无细胞DNA(cell-free DNA，cfDNA)。

其中，所述测序为下一代测序；所述下一代测序尤指SALP-seq测序，申请号201810870019.X。

其中，所述生物信息学分析为：(1)按条形码分离cfDNA原始reads数据并从双端测序reads2的5'末端除去19bp恒定序列和6bp条形码序列；(2)用Bowtie2程序以参数-X 2000将reads定位为参考人基因组如hg19；(3)用samtools2程序将SAM格式的序列比对文件转换为BAM格式；(4)用bedtools程序计算reads数；(5)用DEseq2程序鉴定癌症相关重要启动子；(6)使用MDA(mean decrease in accuracy)方法筛选全基因组中的癌症相关重要DNA区域。再使用机器学习(支持向量机)对癌症和正常样本进行分类。

其中，启动子定义为基因转录起始位点(TSS)上游1kb区域；癌症相关启动子要求其在癌症及健康样品间的开放差异显著(p<0.05)。

本发明所述的基于cfDNA的测序及数据分析的癌症相关生物标记在cfDNA样品分类中的应用。

其中，所述cfDNA样品分类为鉴定的生物标记通过机器学习(支持向量机)建立cfDNA样品的分类器实现cfDNA样品分类。

进一步地，所述机器学习(支持向量机)指运用所发现的生物标记通过机器学习(支持向量机)，可建立对cfDNA样品的分类器；运用该分类器可对新的cfDNA样品进行分类，即判断cfDNA样品来自癌症患者还是健康个体。

本发明所述基于cfDNA的测序及数据分析的癌症相关生物标记的cfDNA样品分类在建立癌症检测及预后新方法、发现癌症药物筛选及治疗靶点领域中的应用。

本发明提出了一种基于cfDNA的测序及数据分析的癌症生物标记发现及cfDNA分类新方法，通过对cfDNA样品的测序和生物信息学分析，鉴定癌症相关生物标记，再运用所鉴定的生物标记通过机器学习(支持向量机)建立cfDNA样品的分类器。本发明所述癌症生物标记发现及cfDNA分类新方法为一套cfDNA分析方法；所述方法将SALP-seq、生物信息学和机器学习相结合，可从cfDNA中有效地发现新的癌症分子标记并基于所发现的分子标记建立cfDNA样品分类器。

本发明以食管癌(ESCA)为例，运用新方法从血浆cfDNA(cfDNA)中寻找癌症新生物标记。通过对26位ESCA患者和4位健康人的30份cfDNA样本的SALP-seq测定，和测序数据是生物信息学分析，鉴定了ESCA相关103个表观遗传标记(包括54个全基因组标记和49个启动子标记)和37个遗传标记。运用表观遗传标记建立的支持向量模型，可准确进行cfDNA样品的分类，即充分DNA样品是来自癌症个体还是来自健康个体。这些标志物为ESCA的诊断、预后和治疗提供了新的分子生物标志物。此外，本发明为通过SALP-seq和机器学习相结合从cfDNA寻找新的癌症分子标记提供了一条新的方法。

本发明中在cfDNA中，SALP-seq结合机器学习找到ESCA的表观遗传标记和遗传生物标记。由申请人开发的SALP-seq是一种新的单链DNA文库制备技术。该技术特别适合为高度降解的DNA样品(例如cfDNA)构建下一代测序(NGS)库。此外，通过使用带条形码的T接头，该技术能够分析大量的cfDNA样品。在本发明中，使用SALP-seq构建了20份cfDNA样本的NGS文库，这些样本分别来自11位术前ESCA患者、5位术后ESCA患者和4位健康人。根据测序数据的生物信息学分析，确定了103种ESCA表观遗传标记(包括54个全基因组标记和49个启动子标记)和37个遗传标记，这最终有助于作为标记物开发有效的ESCA诊断和治疗方法。此外，这些标记物通过分析10个新的术前ESCA患者cfDNA样本进行了验证。

有益效果：与现有技术相比，本发明具有如下优点：

在本发明中，使用申请人开发的SALP-seq方法(专利申请号201810870019.X)对cfDNA样品进行NGS文库制备并测序。作为一种新的单链DNA文库制备和测序技术，SALP-seq特别适合于高度降解的DNA样品(例如cfDNA)。此外，通过使用带条形码的T接头，该技术能够分析大量的cfDNA样品。在本发明中，使用SALP-seq成功分析了多达30个cfDNA样品。大多数样品获得了80％以上的可定位reads(mappable reads)(表5～8)。通过分析获得的测序数据，成功鉴定了癌症，如ESCA相关的表观遗传标记和遗传生物标记。结果表明，该方法可以可靠地应用于未来的cfDNA NGS研究。

本发明为cfDNA的临床价值提供了重要的新见解。在本发明中，使用机器学习算法分析了cfDNA NGS reads的数据。结果表明，通过比较癌症和正常cfDNA样本，可以有效地识别与癌症如ESCA相关的主要表观遗传和遗传标记物。特别是，通过使用鉴定出的表观遗传标记，可以将cfDNA样品清晰地分类(图2和图4)。此外，启动子和全基因组标记物获得了高度一致的分类结果(图2和图4)，表明这些表观遗传标记物在区分cfDNA样品中的可靠性。重要的是，即使在低测序深度下使用多达24个最重要的表观遗传标记(10⁷次reads/样本)，利用表观遗传标记建立的SVM模型也可用于准确区分癌症cfDNA样本与正常cfDNA样本)(图5)。这些结果表明，在整个基因组范围内，cfDNA在系统地发现与癌症相关的标志物，特别是与染色质可及性相关的表观遗传标志物方面的重要应用。

本发明为通过结合SALP-seq和机器学习从cfDNA寻找新的癌症分子标记提供了一条新途径。近年来，血浆cfDNA作为癌症液体活检的良好材料，已被下一代测序(NGS)广泛分析，以发现用于癌症诊断的新分子标记物，例如片段大小，甲基化和末端坐标。然而，基于大小的血浆DNA诊断仍然面临一些局限性，影响其广泛的应用。甲基化检测必须进行甲基化DNA免疫沉淀和高通量测序(cfMeDIP-seq)。与这些报道的基于cfDNA的方法相比，本发明的方法更加简单易行。只需要两个步骤。一个是SALP-seq，另一个是生物信息学分析和机器学习。本发明的方法不需要对cfDNA进行预处理，例如大小选择、靶向富集、化学处理(例如亚硫酸氢盐转化)和免疫沉淀等，这不仅可以避免在cfDNA分析中引入更多的人为偏见，而且可以大大简化检测过程。在本发明开发的流程中，cfDNANGS reads数据是通过机器学习进行分析的，这与现有技术中的的研究有所不同，这些研究没有使用机器学习来处理NGS数据，这项研究获得的结果表明，机器学习可以在cfDNA NGS数据分析中发挥重要作用。

通过使用术后cfDNA样本，本发明表明，已鉴定的癌症如ESCA相关表观遗传和遗传标记与肿瘤相关。换句话说，这些标记或称为标志物应来自肿瘤，而不应来自其他组织，如白细胞，因为这些标志物是根据外科手术而改变的。本发明发现，大多数这些标志物在手术后消失了(图2D和图4C)，从而使患者的cfDNA被分类为正常cfDNA或接近于正常cfDNA(图2D和图4C)。如果这些标记物来自其他组织，例如白细胞，则它们对手术的反应不应如此明显。因此，本发明表明这些标志物不仅来自肿瘤，而且对癌症的预后有益。换句话说，这些标记物可用于无创地判断和跟踪癌症治疗的效果。在随后的访问中，有5名患者提供了术后cfDNA样本，这些样本在2017年手术后到目前仍存活，表明这些标志物的预后良好。

本发明发现的表观遗传标记为ESCA肿瘤发生的潜在调控和分子机制提供了重要的新见解。通过分析和比较cfDNA NGS数据，本发明确定了49个ESCA相关的启动子和88个ESCA相关的全基因组区域。这些与ESCA相关的染色质区域都是非编码DNA。重要的是，所有这些区域在ESCA中变得更开放，这表明这些区域在ESCA的肿瘤发生过程中起着至关重要的调节作用。特别是，许多这些与ESCA相关的区域是远端基因间区域(32，36.36％)和近端调控区域(22，25％)(图3)。此外，通过将这些区域与人类超级增强子数据库，SEdb数据库，进行比较，这54个区域中有17个是众所周知的超级增强子元件(图3)。此外，发现用24个最重要区域建立的SVM模型仍从正常样品中准确地区分出癌症样品。在这24个区域中，有14个远端基因间区域(58.3％)，8个近端调节区域(33.3％)和仅2个内含子区域(8.3％)。通过与TE7 ESCA细胞系的H3K27acChIP-seq和ESCA组织的ATAC-seq表征的染色质可及性水平进行比较，发现以cfDNA为特征的这些区域的染色质可及性与ESCA细胞和组织中的其他方法所获得的结果是一致的。此外，这些区域包含大量TFBS。因此，这些非编码的ESCA相关染色质区域应在ESCA的肿瘤发生过程中发挥关键的调节作用。通过将这些区域靶向基因，鉴定出153个(49加104个)ESCA相关基因，其中全基因组区域靶向104个，启动子区域49个基因，这两个基因集中有16个是共有的。49个基因中已报道的有15个与ESCA密切相关，104个基因中已报道的有21个与ESCA密切相关(图2B和图3)。例如，研究表明，WHSC1具有致癌活性，可导致ESCA和其他癌症中蛋白质赖氨酸甲基转移酶失调。靶向WHSC1，目前正在开发用于诊断和治疗癌症的特异性抑制剂，如处于临床前试验中的MCTP39和LEM-06。此外，在许多类型的人类癌症中经常观察到WHSC1的表达升高，并且WHSC1的表达产物对于癌细胞的生长至关重要。EIF5A2基因不仅与ESCA有关，而且与乳腺癌，肺癌，膀胱癌，胃癌，口腔癌，肝癌和结肠直肠癌相关。通过分析这些基因在各种癌症中的表达(TCGA中的RNA-seq数据)，大多数这些基因在肿瘤中显著上调，这与这些区域染色质可及性的提高相一致。这些结果表明，这些与ESCA相关的区域在ESCA和其他癌症中起调节作用。基因注释还表明，这些基因也与ESCA和其他癌症密切相关。因此，本发明确定的大多数基因是与ESCA相关的新发现的基因。例如，新发现的与ESCA相关的基因JAG2在NOTCH信号和Hedgehog信号中起作用。NOTCH信号失调和刺猬信号均与癌症的发生(例如ESCA)密切相关，进一步解释了JAG2和ESCA之间的相关性。TCGARNA-seq数据显示JAG2在ESCA组织中显著上调。重要的是，在这项研究中确定的与JAG2连接的区域具有最高的MDA重要性值(图3)。因此，靶向JAG2可能为ESCA治疗提供有希望的治疗策略。其他可能是ESCA诊断和治疗的潜在目标。

在本发明中分析了cfDNA样本的突变。C>T和T>C转换是主要的SNV(图6B)。C>T可能是由APOBEC胞苷脱氨作用所产生的尿嘧啶复制引起的，而目前T>C的原因尚不清楚。C>G，C>A和可能的其他C>T取代可能会在尿嘧啶切除后由易错聚合酶引入，并通过尿嘧啶DNA糖基化酶(UNG)产生无碱基位点。进一步的分析显示，术前ESCA样品与正常样品之间的差异在Ti和Tv的频率上达到了统计上显著的水平(图6D)。此外，术前ESCA样本和正常样本之间的Ti/Tv比频率存在显著差异(图6E)。术后ESCA样品的这些突变特征与正常样品更接近，尽管它们未达到相同水平(图6C-E)。这些结果表明，可以开发出七个特征，包括C>T，T>C，C>G，C>A，Ti、Tv和Ti/Tv比的频率，作为ESCA液体活检的诊断标记物。通过对cfDNA NGS数据的突变分析，最终鉴定出37个遗传改变的ESCA特异性基因(遗传标记)。功能富集分析表明，这些基因与癌症的发生和发展密切相关。

本发明是在单个机构中以相对较小的样本量进行的。分析了20份cfDNA样本，包括来自正常人的4份cfDNA样本，来自手术后癌症患者和12份癌前癌症患者的4份cfDNA样本，其中一份正常的cfDNA样本由于测序深度有限而无法用于后续的生物信息学分析。在验证研究中，仅使用了十个来自术前癌症患者cfDNA样本。因此，将来的研究中应包括更多的正常和术后cfDNA样本，以进一步验证当前的发现。如果将来的研究可以设计为解决较大样本人群中cfDNA生物标志物检测的临床价值，那将是有价值的。另外，仅研究了来自一种癌症(ESCA)的cfDNA样本。因此，本研究仅鉴定了与ESCA相关的标记或者标志物，这些标志物是否为ESCA特异性应通过分析来自各种癌症的cfDNA样品进一步研究。但是，可以使用相同的管道SALP-seq加机器学习来有效地执行此更复杂的调查。

总之，本发明通过结合SALP-seq和生物信息分析及机器学习，成功地分析了来自ESCA和正常者的cfDNA样本，从而确定了癌症如ESCA的表观遗传和遗传生物标记。这些生物标记可用于有效地分类来自ESCA患者和正常者的cfDNA。这些生物标记或者称为标记物还为ESCA肿瘤发生的潜在调控和分子机制提供了重要的新见解。因此，本发明为通过结合SALP-seq和机器学习从cfDNA寻找新的癌症分子标记提供了一条新途径。最后，本发明为cfDNA的临床价值提供了重要的新见解。同时本发明基于cfDNA的测序及数据分析的癌症相关生物标记的cfDNA样品分类在建立癌症检测及预后新方法、发现癌症药物筛选及治疗靶点领域中的可以有效应用。

附图说明

图1为cfDNA NGS reads分布的特征示意图；(A)在不同cfDNA样品中，全基因组每1-Mb窗口中reads密度的分布，从外到内依次显示了cfDNA 1至20的reads密度；(B)TSS周围的reads分布的信号强度，线图显示了TSS周围所有区域的平均信号强度，左侧显示了cfDNA5(癌症样品)的信号强度结果，右侧显示cfDNA20(正常样品)的信号强度结果；(C)人类基因TSS周围±5kb区域的reads密度进行主成分分析(PCA)；

图2为基因启动子分析示意图；(A)在cfDNA样品中，染色质可及性显著不同的启动子的热图和reads密度聚类；(B)49个选定基因启动子的热图和reads密度聚类，灰色的基因是已知的ESCA相关基因；(C)术后癌症cfDNA样本中49个选定基因的启动子的热图和reads密度的聚类；(D)10个验证癌症cfDNA样本中49个选定基因的启动子的热图和reads密度的聚类，Pre：术前cfDNA；Post：术后cfDNA；Normal：正常cfDNA；Verification：10个cfDNA验证样品；

图3为基因组中与ESCA相关的重要区域的分析示意图；根据MDA选择了88个与ESCA相关的重要区域。纵坐标表示区域，横坐标表示重要性值；不同的颜色指示这些区域的基因组位置，插图显示了这些ESCA相关重要区域在基因组中的基因组位置分布，大多数区域位于远端基因间，内含子和近端调控区域，显示了分配给这些区域的基因和已知的超级增强子元素，灰色的基因是已知的ESCA相关基因。

图4为分析所选的54个与ESCA相关的重要区域的示意图；(A)每个样品的ESCA相关重要区域(包括32个远端基因间和22个近端调控区域)的热图和reads密度聚类；(B)术后癌症cfDNA样本中ESCA相关重要区域的热图和reads密度的聚类；(C)10个验证癌症cfDNA样本中ESCA相关重要区域；

图5为基于与ESCA相关的重要区域的ESCA和正常cfDNA的分类；(A)基于88个与ESCA相关的重要区域的SVM对癌症和正常cfDNA样本进行分类的结果；(B)基于与ESCA相关的前24个重要区域的分类结果，下图显示了接收器工作特性曲线(ROC)；(C)验证数据的分类结果；(D)从每个样本中提取的10⁷个reads的分类结果；(E)从每个样本中提取的10⁶个reads的分类结果；

图6为突变分析示意图；(A)在不同cfDNA样品中，整个基因组的每1-Mb窗口中的突变密度分布；(B)堆积条形图显示了每个cfDNA样品的突变谱分布；(C)箱形图，总结了不同类型的cfDNA样品的SNV，P值(*p<0.05，**p<0.01，***p<0.001)；(D)和(E)通过将SNV分为Ti和Tv创建的箱形图，Ti，转换；Tv，颠换；(F)SNV在基因组中的基因组位置分布，大多数SNV位于远端基因间和内含子区域。

具体实施方式

以下结合附图和实施例对本发明作进一步说明。

实施例

基于cfDNA测序及数据分析的食管癌生物标志物(标记)发现及分类

1、材料和方法

1.1、准备各种接头：

所有寡核苷酸均由上海生工生物技术有限公司合成(表1、2、4)。为了制备条形码T接头(BTA)，寡核苷酸Barcode 1～20分别与寡核苷酸BTA-universaloligo(表1)退火以100μM的浓度溶解在ddH₂O中，然后在PCR管中等摩尔混合。为了制备单链接头(SSA)，将寡核苷酸SSA-PN-3N和SSA-PNrev(表2)以100μM的浓度溶解在ddH₂O中，然后在PCR试管中等摩尔混合。最后，将所有混合物在95℃的水浴中变性5分钟，然后逐渐冷却至25℃，以退火成各种接头。

表1：用于制备BTA接头的寡核苷酸盒(按顺序为SEQ ID NO.1-21)

注解：5'-[phos]用于连接；3'-NH₂用于封阻不必要的连接。下划线碱基为6碱基标签序列；寡核苷酸Barcode 1～20分别与寡核苷酸BTA-universal oligo退火，形成带有不同标签的BTA接头。

表2：用于制备SSA接头的寡核苷酸(按顺序为SEQ ID NO.22-23)

名称	序列(5'>3')
		SSA-PN	[phos]-AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT-[NH<sub>2</sub>]
SSA-PNrev-3N	ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNN

注解：寡核苷酸SSA-PN与SSA-PNrev退火后，形成SSA接头。

1.2、样品处理和测序：

用SALP-seq方法(专利申请号201810870019.X)从食管癌及健康人全血中构建血浆DNA文库。生成了二十个与Illumina兼容的文库。用Qubit 2.0定量文库的浓度，并以相等的DNA量(ng)混合以生成最终的测序文库。该文库通过两个通道的Illumina Hiseq X 10平台(南京Geneseeq)进行测序。进行双端测序。在验证实验中，使用相同的方法对另外10个cfDNA样本进行了测序。

1.3、样品采集：

从南京大学医学院金陵医院采集二十份食管癌及健康人全血标本(表3：cfDNA1～cfDNA20)。在验证实验中，采集十份食管癌全血标本(表3：cfDNA21～cfDNA30)。

表3. 30个cfDNA样本信息

样品编号	诊断结果	样品收集时间
			cfDNA1	贲门癌	术前采样
cfDNA2	食管中段癌	术前采样
			cfDNA3	食管中段癌	术前采样
cfDNA4	食管中段癌	术前采样
			cfDNA5	食管中段癌	术前采样
cfDNA6	食管下段肿瘤	术前采样
			cfDNA7	食管下段肿癌	术前采样
cfDNA8	食管下段贲门癌	术前采样
			cfDNA9	食管癌	术前采样
cfDNA10	食管癌	术前采样
			cfDNA11	食管癌	术前采样
cfDNA12	食管中段癌	术后采样
			cfDNA13	食管下段肿癌	术后采样
cfDNA14	食管癌	术后采样
			cfDNA15	食管癌	术后采样
cfDNA16	贲门癌	术后采样
			cfDNA17	正常	健康
cfDNA18	正常	健康
			cfDNA19	正常	健康
cfDNA20	正常	健康
			cfDNA21	食管癌	术前采样
cfDNA22	食管癌	术前采样
			cfDNA23	食管癌	术前采样
cfDNA24	食管癌	术前采样
			cfDNA25	食管癌	术前采样
cfDNA26	食管癌	术前采样
			cfDNA27	食管癌	术前采样
cfDNA28	食管癌	术前采样
			cfDNA29	食管癌	术前采样
cfDNA30	食管癌	术前采样

1.4、cfDNA样品的制备：

为了分离血浆，将全血在4℃下以1600g离心15分钟，然后将上清液转移至新的离心管中。将具有上清液的试管在4℃下以16,000g离心10分钟，保留上清液。将所有血浆保存在Eppendorf管中，-80℃保存，直至使用。根据试剂盒说明书，使用200μL血浆，用血浆循环DNA试剂盒(TIANGEN，DP339)分离cfDNA，然后将提取的cfDNA溶解在20μL Tris-EDTA(TE)缓冲液中，然后保存在-20℃下。

1.5、SALP方法制备cfDNA的NGS文库：

为了使cfDNA变性，将7μL cfDNA样品在95℃下孵育5分钟，然后立即在冰上冷却5分钟。然后将变性的cfDNA与SSA在16℃的条件下，与1μL T4DNA连接酶(NEB，M0202L)，1×T4DNA连接酶缓冲液和0.5μM SSA在10μL反应体系中连接过夜。将反应混合物与10μL 2×预混Taq聚合酶(Takara，R004A)混合，并在72℃下孵育15分钟。然后用1.8×Ampure XP磁珠(BeckmanCoulter)纯化cfDNA。用纯化的所得的全部cfDNA、1μL T4 DNA连接酶，1×T4DNA连接酶缓冲液和0.1μM BTA的组建10μL连接反应中，将反应在16℃下反应2小时。用1.8×Ampure XP磁珠纯化后，所有连接的产物均在50μL PCR反应中扩增，该反应中包含

Hot Start HiFi PCR Master Mix(NEB，M0543S)，5μM NEBNextUniversal PCR Primer和5μM NEBNext索引引物(表3)。PCR程序如下：(i)72℃5分钟；(ii)98℃持续5分钟；(iii)18个周期，分别为98℃10s，65℃30s和72℃1分钟；(iv)72℃持续5分钟。PCR产物使用1.5％琼脂糖凝胶电泳，并用QIAquick凝胶提取试剂盒(QIAGEN，28704)提取300-1000bp的DNA片段。

表4：用于文库扩增的PCR引物(按顺序为SEQ ID NO.24-25)

注解：引物NEBNext Universal PCR Primer与NEBNext Index 15Primer用于扩增与Illumina测序平台兼容的文库；*：3'磷酸键。下划线的碱基为6碱基索引序列。

1.6、NGS测序：

用与Illumina测序平台兼容的引物NEBNext Universal PCR Primer(表4)和NEBNext Index 15Primer(表4)扩增后，总共产生了二十个Illumina兼容的文库(表5)。用Qubit 2.0测量文库的浓度，并与相等的DNA质量(ng)混合以生成最终的测序文库。使用Agilent Bioanalyzer 2100高灵敏度DNA芯片检测片段的分布。然后通过两个通道的Illumina Hiseq X 10平台(南京Geneseeq)对该文库进行测序。

1.7、cfDNA测序数据分析和统计：

使用本地的perl脚本，按条形码分离cfDNA的原始测序数据。然后从双端测序reads2的5'末端除去恒定序列(19bp)和条形码(6bp)序列。使用Bowtie2工具进行比对，使用参数-X 2000，参考基因组hg19。使用samtools2将序列比对文件(SAM)转换为BAM格式。只有两条reads都比对到参考基因组上的reads才用于下游分析。通过samtools分析SNV。SNV的注释由ANNOVAR以默认设置执行。利用数据库DAVID(https://david.ncifcrf.gov/)进行功能富集分析，确定了基因的生物学意义。reads数用bedtools计算。用DEseq2检测不同样品中基因转录起始位点(TSS)上游1kb区域的开放差异(p<0.05)。

在筛选全基因组的ESCA相关重要区域时，使用MDA(mean decrease in accuracy)方法，使用R中的randomForest包计算(http://cran.r-project.org//)。MDA衡量把一个变量的取值变为随机数，随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。因此，可以利用MDA来评估每个特征对分类的贡献。在筛选ESCA相关重要区域后，使用机器学习(支持向量机，SVM)对癌症和正常样本进行分类。由于本发明使用20个样本，因此样本量较小，使用SVM进行分类，SVM在解决小样本，非线性和高维模式识别问题方面显示出许多独特的优势。基因表达数据从The Cancer Genome Atlas(TCGA)数据门户(https://portal.gdc.cancer.gov/)下载，其包含23种癌症的RNA-seq数据及其相应的正常样品。使用R脚本对癌症和正常样品的RNA-seq数据集进行分析比较。TE7ESCA细胞系的H3K27acChIP-seq数据从GEO数据库下载(GSE768613)。ESCA组织的ATAC-seq数据从TCGA中下载并使用LiftOver将hg38坐标转换为hg19。利用UCSC基因组浏览器进行数据的可视化。

2、结果

2.1、临床标本和SALP-seq：

本发明中使用的所有程序均根据赫尔辛基宣言进行。本发明得到金陵医院伦理委员会的批准。所有参与者均在知情同意下从南京大学医学院金陵医院招募。样品信息见表5。在Illumina Hiseq X 10平台的三个通道中对20个血液样本(表3：cfDNA1～cfDNA20)中的cfDNA进行了测序。将三个通道的测序数据(表5～7)用samtools合并，以进行后续分析。除非另有说明，否则本发明中的数据分析基于三通道合并数据。在验证实验中，使用相同的方法对另外10个cfDNA样品(表3：cfDNA21～cfDNA30)进行了测序(表8)。

表5. 20个cfDNA样本SALP-seq测序第一通道(Lane 1)数据

样品号	标签号	标签序列	总Reads	可定位reads	可定位reads％
						cfDNA1	Barcode 1	ACTTGA	15868682	14646793	92.30％
cfDNA2	Barcode 2	GGCTAC	28824533	25676894	89.08％
						cfDNA3	Barcode 3	TTAGGC	22245920	19643147	88.30％
cfDNA4	Barcode 4	CAGATC	33237699	31083896	93.52％
						cfDNA5	Barcode 5	TGACCA	25708639	23898751	92.96％
cfDNA6	Barcode 6	CGATGT	8362324	7853058	93.91％
						cfDNA7	Barcode 7	ATCACG	16031418	14045125	87.61％
cfDNA8	Barcode 8	CTTGTA	7332424	6679838	91.10％
						cfDNA9	Barcode 9	ACAGTG	41119752	38508648	93.65％
cfDNA10	Barcode 10	TAGCTT	13111866	12144210	92.62％
						cfDNA11	Barcode 11	GATCAG	7497397	6749157	90.02％
cfDNA12	Barcode 12	GCCAAT	15946028	14817049	92.92％
						cfDNA13	Barcode 13	AGTCAA	41308485	35727709	86.49％
cfDNA14	Barcode 14	GTCCGC	41226444	36563733	88.69％
						cfDNA15	Barcode 15	CCGTCC	19099392	16293691	85.31％
cfDNA16	Barcode 16	GTGAAA	18740825	17200329	91.78％
						cfDNA17	Barcode 17	ATTCCT	37959516	35127736	92.54％
cfDNA18	Barcode 18	AGTTCC	3944018	3301143	83.70％
						cfDNA19	Barcode 19	ACTGAT	27876352	25922220	92.99％
cfDNA20	Barcode 20	GTGGCC	37737867	34711290	91.98％

表6. 20个cfDNA样本SALP-seq测序第二通道(Lane 2)数据

表7. 20个cfDNA样本SALP-seq测序第三通道(Lane 3)数据

样品号	标签号	标签序列	Reads总数	可定位reads	可定位reads％
						cfDNA1	Barcode 1	ACTTGA	15182872	13828559	91.08％
cfDNA2	Barcode 2	GGCTAC	26924870	23680423	87.95％
						cfDNA3	Barcode 3	TTAGGC	22043930	19202467	87.11％
cfDNA4	Barcode 4	CAGATC	31979461	29632168	92.66％
						cfDNA5	Barcode 5	TGACCA	28165667	25991277	92.28％
cfDNA6	Barcode 6	CGATGT	7657509	7106934	92.81％
						cfDNA7	Barcode 7	ATCACG	18366127	15936288	86.77％
cfDNA8	Barcode 8	CTTGTA	7636267	6884858	90.16％
						cfDNA9	Barcode 9	ACAGTG	41166767	38285093	93.00％
cfDNA10	Barcode 10	TAGCTT	12303652	11297213	91.82％
						cfDNA11	Barcode 11	GATCAG	7568599	6745892	89.13％
cfDNA12	Barcode 12	GCCAAT	17889264	16465278	92.04％
						cfDNA13	Barcode 13	AGTCAA	41315165	35654987	86.30％
cfDNA14	Barcode 14	GTCCGC	48395842	42399597	87.61％
						cfDNA15	Barcode 15	CCGTCC	19505835	16359543	83.87％
cfDNA16	Barcode 16	GTGAAA	17672541	15905286	90.00％
						cfDNA17	Barcode 17	ATTCCT	42982522	39329007	91.50％
cfDNA18	Barcode 18	AGTTCC	4600043	3789975	82.39％
						cfDNA19	Barcode 19	ACTGAT	26863918	24798082	92.31％
cfDNA20	Barcode 20	GTGGCC	45849106	41672252	90.89％

表8. 10个cfDNA样本SALP-seq测序数据

样品号	标签号	标签序列	Reads总数	可定位reads	可定位reads％
						cfDNA21	Barcode15	CCGTCC	148275462	130942060	88.31％
cfDNA22	Barcode 2	GGCTAC	10166102	8241658	81.07％
						cfDNA23	Barcode 8	CTTGTA	23649613	21287016	90.01％
cfDNA24	Barcode 10	TAGCTT	21939556	19642484	89.53％
						cfDNA25	Barcode 11	GATCAG	21953242	20262842	92.30％
cfDNA26	Barcode 13	AGTCAA	23394817	20580420	87.97％
						cfDNA27	Barcode 14	GTCCGC	24640298	22365998	90.77％
cfDNA28	Barcode 15	CCGTCC	17132247	15629748	91.23％
						cfDNA29	Barcode 16	GTGAAA	23272162	21287046	91.47％
cfDNA30	Barcode 20	GTGGCC	27141063	25409463	93.62％

2.2、从启动子的染色质可及性中寻找癌症诊断/预后标志物(标记)：

通过计算并归一化每个1-Mb窗口中的reads密度，显示了cfDNA在整个基因组中的分布，揭示了在整个基因组中不同样品的cfDNA的分布差异很大(图1A)。在先前的研究中(Decoding genetic and epigenetic information embedded in cell free DNA withadapted SALP-seq.Int.J.Cancer:2019，145,2395–2406)，已经确认NGS测序数据可用于表征不同类型cfDNA的染色质状态。在机理上，仅核小体保护的基因组区域可在cfDNA的NGS中进行测序。为了从TSS周围的reads分布的信号强度中识别正常样品或癌症样品，本发明计算了所有人类基因的TSSs周围±5kb区域的reads密度，并使用Deeptools(参数：RPKM)计算了平均reads密度。结果表明，在正常样品中，TSS周围形成一个峰，在术前癌症样品中形成一个谷(图1B)。此外，对所有人类基因的TSS周围的±5kb区域的reads密度进行了主成分分析(PCA)。结果，通过使用PCA分析cfDNA数据，可以将术前ESCA患者的cfDNA与正常人清晰地区分开(图1C)。此外还对10个cfDNA样品(表3：cfDNA21～cfDNA30)进行了测序，以验证该结果并获得一致的结果。

在先前的研究中(Decoding genetic and epigenetic information embeddedin cell free DNA with adapted SALP-seq.Int.J.Cancer:2019，145,2395–2406)，已经确认cfDNA的SALP-seq数据可用于表征不同类型cfDNA的染色质状态。在本发明中通过染色质开放性区分了癌症和正常样品。计算每个样品的所有启动子的reads密度(定义为TSS上游1kb区域)。结果表明，正常cfDNA样品和ESCAcfDNA样品之间启动子的reads密度存在很大差异(图2A)。值得注意的是，一些启动子在所有癌症样品中均显示出极低的reads密度，而在正常样品中则显示出高密度(图2B)。有49个基因具有如此明显的特征。通过热图对这49个基因的聚类结果，可以清楚地看到癌症样本可以与正常样本区分开(图2B)。此外，对10个新的cfDNA样品(表3：cfDNA21～cfDNA30)进行了测序，以验证该结果并获得一致的结果(图2D)。同时计算了术后癌症样本中49个基因的启动子的reads密度。结果表明，与术前癌症相比，这些基因中大多数基因的启动子的reads密度显著提高(图2C)，表明了手术的效果。这些数据表明，这49个基因(图2B所列基因)的启动子的染色质可及性可用作癌症的诊断和预后标记。

通过数据库和文献搜索，本发明发现这49个基因中有15个(图2B中灰色字体标记的基因，包括ATG4B、TSG101、NSUN2、CCNG2、CDK13、EIF5A2、WHSC1、INO80、ODC1、EEF2K、EIF5A、ATP6V1A、ING1、SUV39H1、NOTCH1)为已经报道的ESCA相关基因。因此，推断剩下的34个基因是与ESCA相关的新发现的基因。为了验证这49个基因与ESCA之间的关系，从TCGA数据库下载了ESCA的RNA-seq数据(包含163个ESCA和11个正常样品)进行分析。发现大多数这些基因的表达在癌症样品中均显著上调。在数据库和文献搜索过程中，发现这49个基因中的一些不仅与ESCA相关，而且与其他癌症相关(如肺癌、胃癌、乳腺癌等)。从TCGA数据库下载了23种癌症(膀胱癌、乳腺癌、宫颈癌、胆癌、结肠癌、食管癌、脑癌、头颈癌、嫌色细胞癌、肾透明细胞癌、乳头状肾细胞癌、肝癌、肺腺癌、肺鳞状细胞癌、胰腺癌、肾上腺癌、前列腺癌、直肠癌、软组织癌、胃癌、甲状腺癌、胸腺癌、子宫内膜癌)的RNA-seq数据，以分析这些基因与各种癌症之间的关系。结果表明，这些基因中的大多数在各种癌症中均显著上调。以上结果表明，所选49个ESCA相关基因的启动子的染色质可及性可区分正常和癌症，这些启动子的染色质可及性可用于诊断和预后癌症。为了进一步了解这些基因在ESCA中的功能，进行了GO分析。结果显示，染色体组织(GO：0051276)和染色质组织(GO：0006325)均显著富集，这意味着其中一些基因在调节染色体或染色质结构中起着关键作用。在染色体组织的GO条目中，共有9个基因，包括BRPF1、NIPBL、GEN1、SUV39H1、HIST1H4E、INO80、PELO、WHSC1和ING1。在染色质组织的GO条目中，有七个基因，包括BRPF1、NIPBL、SUV39H1、HIST1H4E、INO80、WHSC1和ING1。在富集条目GO：0051276和GO：0006325的基因中，SUV39H1，INO80，WHSC1和ING1是已知的ESCA相关基因。其他丰富的GO条目与细胞周期的调节(GO：0051726)，生长(GO：0040007)等有关，它们都在癌症发展中起着重要的作用。对49个选定基因进行了通路注释分析。结果表明，这些基因主要富集在5条途径中，包括赖氨酸降解，mTOR信号传导途径，mRNA监测途径，胰岛素抵抗和剪接体。

2.3、从整个基因组的染色质可及性中寻找癌症诊断/预后标志物：

为了从整个基因组中找到与ESCA相关的重要区域，计算了整个基因组每1kb窗口中的reads密度，然后使用MDA筛选出88个与ESCA相关的区域，其中大多数是非编码序列，提示这些区域包含重要的调控元件(图3)。然后查明了这些区域的基因组位置，发现36.36％位于远端基因间区域(距TSS超过10-kb)，而25％位于近端调控区域(TSS上游10-kb区域)(图3中饼图)。从MDA图还可以看出，在分类中，远端元件(定义为发生在远端基因间区域内部)比启动子元件(定义为发生在近端调控区域内部)重要得多(图3中饼图)，表明远端元件与癌症相关联表现出更高的特异性和更宽的活性动态范围，而启动子元件可及性则不那么具有癌症特异性。远端调控元件的这种功能特异性以前也曾在健康组织和癌症中观察到。

同时研究了位于远侧基因间和近侧调节区域的与ESCA相关的重要区域。图4A显示了每个样品的ESCA相关重要区域(包括32个远端基因间和22个近端调控区域)的reads密度，这表明正常cfDNA样品和ESCA cfDNA样品之间存在很大差异。此外，还计算了术后癌症样本中54个调控区域(图4A列示)的reads密度。结果表明，与手术前癌症相比，这些区域中大多数区域的reads密度均增加(图4B)，显示了手术效果。这些数据表明，这些基因组区域的染色质可及性可用作癌症的诊断和预后标记。为了进一步验证这些标记，对十个新的cfDNA样本(表3：cfDNA21～cfDNA30)进行了测序以验证该结果。结果，获得了一致的结果(图4C)。这些数据还表明，使用以cfDNA为特征的全基因组染色质可及性，可以鉴定出更多新的与癌症相关的标记物。

为了进一步这些基因组区域的染色质可及性，从GEO下载了TE7 ESCA细胞系的H3K27ac ChIP-seq数据，编号号为GSE7686133；下载了19个ESCA组织的ATAC-seq数据，来自TCGA数据库中具有不同人口特征的捐助者。通过使用UCSC基因组浏览器可视化这些区域(包括32个远端基因间区域和22个近端调控区域)，比较了这些数据和SALP-seq数据。结果显示，使用SALP-seq基于cfDNA表征的这些基因组区域的染色质可及性与使用H3K27acChIP-seq和ATAC-seq表征的癌细胞和组织的染色质可及性高度一致。

由于这些区域是非编码区，它们的染色质可及性发生了显著变化，因此它们应通过提供可与转录因子(TFs)结合的结合位点在肿瘤中发挥调节功能。因此，使用FIMO(默认参数)从HOCOMOCO(版本11)获得的基序矩阵搜索了这些区域中潜在的TF结合位点。结果显示这些区域包含大量的TF结合位点(TFBS)。此外，将这些区域与SEdb数据库进行了比较，SEdb数据库是一个全面的人类超级增强子数据库。结果表明，这54个区域中有17个是已知的超级增强子元件(图3中+号标记)。

为了找到所选的ESCA相关的远端元件和启动子元件调控的靶基因，通过使用EnhancerAtlas预测了这些基因组区域的靶基因(参数“Esophagus”)。结果表明，这些区域靶向104个基因(JAG2、PRRC2B、PSMA6、RPL3、SERTAD4、SLC25A32、CASP7、SUMO3、HERPUD1、C20orf96、KLF15、IFNAR2、C18orf32、FGFR3、ME3、MIR3909、PGS1、snoU13、MCEE、MKRN1、B3GNT7、RGS3、NBR1、RTN4、YAP1、PPP6R3、TLE3、SCARNA21、FAM43A、ASH2L、MELK、TEF、INO80、NAA50、LPGAT1、MRPL45、ANO6、NCBP2、MIR1227、GAS7、LOC644961、MAP4K1、PPIB、ING1、CST6、LETM2、PPP2CA、LSM12、SLC25A28、RCN2、KCNK6、SUV420H1、USP47、FAM107B、ATF4、MIR205HG、PTTG1IP、SOX12、PLXNA1、IL10RB、C4orf48、DENND2A、NCL、HDHD3、TMEM106A、AC093165.1、MIR3164、SNORD14、OPA1、EIF4EBP1、RNF38、PHF5A、ATP6V1A、MIR6789、TMEM222、EIF3K、CARS2、EIF1AD、WHSC1L1、G6PC3、YIF1B、HSPA14、APOBEC3D、SF3A2、FZD6、RBCK1、IFNAR1、TACC3、ADCK2、SNORA75、KIF12、RP11-554A11.9、RP11-90P5.2、RGP1、NHP2L1、DDHD2、FAM110A、SREBF2、PLEKHJ1、SYNGR1、CSNK2A1、WHSC1、RP11-90P5.7、C22orf46)(图3)，其中16个也存在于上面鉴定的具有启动子染色质可及性的49个基因中，包括LSM12、MAP4K1、SF3A2、SLC25A28、RCN2、YIF1B、NCBP2、EIF1AD、LPGAT1、WHSC1、SUV420H1、ATP6V1A、INO80、PPIB、MRPL45和ING1。这些数据不仅说明了我们结果的可靠性，而且表明使用以cfDNA为特征的全基因组染色质可及性，可以鉴定出更多与癌症相关的基因。为了进一步验证这些潜在的癌症相关基因，从TCGA数据库下载了ESCA的RNA-seq数据进行分析。结果表明，大多数这些基因的表达在癌症样品中均显著上调。通过数据库和文献搜索，发现这104个基因中已报道有21个与ESCA密切相关(图3中灰色标记的基因，包括ATF4、INO80、ATP6V1A、CASP7、PTTG1IP、KLF15、IFNAR2、IL10RB、FNAR1、FGFR3、TACC3、WHSC3、MKRN1、RGS3、NCL、ING1、MELK、EIF4EBP1、YAP1、LETM2、SREBF2)。因此，推断其他基因是与ESCA相关的新发现基因。基因注释表明，这些基因主要与凋亡，代谢，细胞生长和翻译起始的生物学过程以及组蛋白赖氨酸N-甲基转移酶活性和干扰素活性的分子功能有关。通路分析显示这些基因主要富集于9条通路，包括PI3K-Akt，AMPK，Hippo和Jak-STAT的信号通路。这些生物学过程，分子功能和途径均在癌症中发挥重要作用。

2.4、根据已识别的ESCA相关区域建立ESCA分类模型：

为了建立用于预测ESCA的分类模型，使用SVM算法分析了88个区域。结果表明，建立的SVM模型可以将癌症样品与正常样品准确区分开，AUC值为1.0(图5A)。为了进一步提高分类模型的临床适用性，经过调试和筛选，最终选择了与ESCA相关的前24个重要区域来重新建立模型。结果，重新建立的模型仍可以准确区分癌症和正常样品，AUC值为1.0(图5B)。用后来测序的cfDNA样品对模型进行验证，获得了良好的预测结果，准确度为93.8％(图5C)。为了探索reads数对模型的影响，从20个首先测序的cfDNA样本中选择了10⁶和10⁷个reads，然后分别进行预测。结果表明，该模型在10⁷个reads时仍保持良好的预测效果(图5D-E)，表明该模型可用于预测cfDNA测序深度较低的ESCA。

2.5、用cfDNA表征ESCA相关突变：

靶向或基因组规模测序的cfDNA突变分析已广泛用于NIPT或液体活检中。接下来，用cfDNA样本(表3：cfDNA1～cfDNA30)，基于SALP-seq测序结果，分析了ESCA相关的突变。结果表明在整个基因组中存在突变(图6A)。使用6种碱基取代(C>A，C>G，C>T，T>A，T>C和T>G)提取了20个cfDNA样品的突变特征。结果表明在不同的个体中所有这些碱基取代存在不同的水平(图6B)。结果表明，术前ESCA cfDNA的C>T和T>C转换率低于正常cfDNA，但C>G和C>A的颠换率高于正常cfDNA(图6C)。术前ESCA和正常样本之间的Ti和Tv频率也存在显著差异(图6D)。此外，术前ESCA和正常样品之间的Ti/Tv比存在显著差异(图6E)。重要的是，手术治疗明显改变了七个突变特征(图6C-E)。可以将这七个突变特征发展为ESCA液体活检的诊断标记物。为了查明SNV的基因组位置，使用ANNOVAR系统地注释了SNV。结果表明，大多数SNV位于远端基因间和内含子区域(图6F)。

为了找到所有基因编码序列中的突变，分析了每个cfDNA样品(表3：cfDNA1～cfDNA20)中的突变。结果表明，在手术前后的ESCA cfDNA和正常cfDNA中，成千上万的基因存在大量突变。为了测试cfDNA NGS是否可以检测到临床相关突变，将cfDNA测序鉴定的这些基因与MSK-IMPACT基因集(468个基因)进行了比较。MSK-IMPACT可用于识别临床相关的体细胞突变，新的非编码变化以及常见和罕见肿瘤类型之间共享的突变特征，这在美国食品药品监督管理局于2017年获得授权。最后，发现有37个突变基因(RPTOR、IRF4、WT1、PTEN、MITF、FGF3、EZH1、FGFR2、EPHA7、PTPN11、KDM5C、SDHD、SPOP、AKT2、PMS1、IRS2、SMARCA4、FOXL2、STAT5B、ERRFI1、IDH2、SMAD4、ELF3、ACVR1、MYC、KEAP1、RAD54L、YES1、NUF2、PPARG、FANCC、PPM1D、CDC73、EPCAM、CEBPA、PHOX2B、PGR)只存在于术前患者中，表明这些基因可能在ESCA中起一定作用。这37个基因(遗传标记)包含许多众所周知的癌症相关基因，例如PTEN、MYC、EZH1、IDH2、AKT2和FGFR2。

然后，对这37个基因进行了功能富集分析。GO分析显示这些基因与细胞死亡调节，转录激活子活性，RNA聚合酶II转录调节区序列特异性结合，组织发育等密切相关。KEGG通路分析表明这些基因在癌症的途径，调节干细胞多能性的信号传导途径，癌症的中枢碳代谢，癌症的转录失调和mTOR信号传导途径中显著丰富。GAD疾病分类分析表明，这些基因在癌，生殖和发育中显著富集。此外，GAD疾病分析显示这些基因与食管癌显著相关。DAVID的UPKEYWORDS分析表明，这些基因在疾病突变，转录调控，肿瘤抑制因子和原癌基因方面显著丰富。DAVID的UP SEQ FEATURE分析表明，这些基因在诱变位点和序列变体中显著富集。

序列表

<110> 东南大学

<120> 基于cfDNA的测序及数据分析的癌症相关生物标记及其在cfDNA样品分类中的应用

<160> 25

<170> SIPOSequenceListing 1.0

<210> 1

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gactggagtt cagacgtgtg ctcttccgat ctacttgaag atgtgtataa gagacagt 58

<210> 2

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gactggagtt cagacgtgtg ctcttccgat ctggctacag atgtgtataa gagacagt 58

<210> 3

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gactggagtt cagacgtgtg ctcttccgat ctttaggcag atgtgtataa gagacagt 58

<210> 4

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gactggagtt cagacgtgtg ctcttccgat ctcagatcag atgtgtataa gagacagt 58

<210> 5

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gactggagtt cagacgtgtg ctcttccgat cttgaccaag atgtgtataa gagacagt 58

<210> 6

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gactggagtt cagacgtgtg ctcttccgat ctcgatgtag atgtgtataa gagacagt 58

<210> 7

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gactggagtt cagacgtgtg ctcttccgat ctatcacgag atgtgtataa gagacagt 58

<210> 8

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

gactggagtt cagacgtgtg ctcttccgat ctcttgtaag atgtgtataa gagacagt 58

<210> 9

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

gactggagtt cagacgtgtg ctcttccgat ctacagtgag atgtgtataa gagacagt 58

<210> 10

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

gactggagtt cagacgtgtg ctcttccgat cttagcttag atgtgtataa gagacagt 58

<210> 11

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

gactggagtt cagacgtgtg ctcttccgat ctgatcagag atgtgtataa gagacagt 58

<210> 12

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

gactggagtt cagacgtgtg ctcttccgat ctgccaatag atgtgtataa gagacagt 58

<210> 13

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gactggagtt cagacgtgtg ctcttccgat ctagtcaaag atgtgtataa gagacagt 58

<210> 14

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

gactggagtt cagacgtgtg ctcttccgat ctgtccgcag atgtgtataa gagacagt 58

<210> 15

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

gactggagtt cagacgtgtg ctcttccgat ctccgtccag atgtgtataa gagacagt 58

<210> 16

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

gactggagtt cagacgtgtg ctcttccgat ctgtgaaaag atgtgtataa gagacagt 58

<210> 17

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

gactggagtt cagacgtgtg ctcttccgat ctattcctag atgtgtataa gagacagt 58

<210> 18

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

gactggagtt cagacgtgtg ctcttccgat ctagttccag atgtgtataa gagacagt 58

<210> 19

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

gactggagtt cagacgtgtg ctcttccgat ctactgatag atgtgtataa gagacagt 58

<210> 20

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

gactggagtt cagacgtgtg ctcttccgat ctgtggccag atgtgtataa gagacagt 58

<210> 21

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

ctgtctctta tacacatct 19

<210> 22

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

agatcggaag agcgtcgtgt agggaaagag tgt 33

<210> 23

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

acactctttc cctacacgac gctcttccga tctnnn 36

<210> 24

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 25

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

caagcagaag acggcatacg agattctgac atgtgactgg agttcagacg tgtgctcttc 60

cgatct 66

Claims

1.一种基于cfDNA的测序及数据分析的癌症相关生物标记，其特征在于，所述癌症相关生物标记为表观遗传标记；所述表观遗传标记为基因组中的DNA区域；所述DNA区域为在cfDNA测序分析中表现出癌症样品和健康样品间reads个数的显著差异的区域；所述癌症为食管癌；

所述表观遗传标记为54个全基因组DNA区域，染色体参考基因组为hg19，具体如下：

2.根据权利要求1所述的基于cfDNA的测序及数据分析的癌症相关生物标记，其特征在于，所述基于cfDNA的测序及数据分析的癌症相关生物标记的鉴定方法包括如下步骤：通过对cfDNA样品的测序和生物信息学分析鉴定癌症相关生物标记。

3.根据权利要求2所述的基于cfDNA的测序及数据分析的癌症相关生物标记，其特征在于，所述测序为下一代测序；所述下一代测序指SALP-seq测序。

4.根据权利要求2所述的基于cfDNA的测序及数据分析的癌症相关生物标记，其特征在于，所述生物信息学分析为：(1)按条形码分离cfDNA原始reads数据并从双端测序reads2的5'末端除去19bp恒定序列和6bp条形码序列；(2)用Bowtie2程序以参数-X 2000将reads定位为参考人基因组；(3)用samtools2程序将SAM格式的序列比对文件转换为BAM格式；(4)用bedtools程序计算reads数；(5)使用MDA mean decrease in accuracy方法筛选全基因组中的癌症相关重要DNA区域。

5.一种用于检测权利要求1所述的基于cfDNA的测序及数据分析的癌症相关生物标记的试剂在制备食管癌检测试剂中的应用。