CN109055486A

CN109055486A - 一种高降解dna测序文库的构建方法及其应用

Info

Publication number: CN109055486A
Application number: CN201810870019.XA
Authority: CN
Inventors: 王进科; 武剑
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2018-12-21

Abstract

本发明公开了一种高降解DNA测序文库的构建方法及其应用，该构建方法是先将双链DNA 1变性，在得到的单链DNA 1的3′端连接单链接头，再用DNA聚合酶延伸连接单链接头的单链DNA 2使其成为双链DNA 2，然后向双链DNA 2无单链接头的一端连接标签T接头，成为双链DNA 3，最后用PCR扩增两端连接接头的双链DNA 3使其成为可测序文库。该方法极大的简化了基于ssDNA的NGS文库制备的过程，实现了低成本、高效率、高通量和低偏倚的高降解DNA测序文库构建，可用于高降解DNA片段测序分析。

Description

一种高降解DNA测序文库的构建方法及其应用

技术领域

本发明属于生物医学技术领域，具体涉及一种高降解DNA测序文库的构建方法及其应用。

背景技术

自下一代测序(next-generation sequencing,NGS)技术诞生以来，该技术成为一种重要的研究及检测、诊断技术，对生命科学、生物医学及医学的研究产生了深刻地影响。随着计算机运算能力的发展，NGS平台推动了过去几年生物学知识的爆炸式增长。与传统的Sanger测序法相比，NGS在测序前需要制备测序文库。NGS的测序过程已经高度自动化，而测序文库的制备是NGS测序的关键。

现有的标准建库流程主要步骤包括：DNA片段化(超声或酶切)、末端修平、加A、Y接头连接、片段选择及PCR扩增。标准建库流程为了提高接头连接步骤的效率，须对DNA片段进行多酶混合物处理的末端修平，使DNA片段的两端均成为平末端，以及必不可少的末端加A处理。虽然有不少公司推出了这些步骤的合并或优化方法，也推出了类似Y接头(如颈环接头)的接头连接等方法，但建库技术没有从根本上得到改变。此外，该种建库方法中，广泛采用了Y型接头，直到最后的PCR步骤才用带有Index的PCR引物进行不同DNA样品的区分，之后混合进行同一通道(lane)的测序。这种每个DNA样品单独经历整个建库建库流程才能混合测序的方法，极大地增大了操作的复杂性、试剂及人力消耗，不仅建库成本高，而且易于造成不同DNA样品在建库期间的人为偏差(bias)，不利于不同样品间的测序结果的平行比较。基于Y型接头的标准建库流程以及近年来出现的基于Tn5酶的片段化接头连接技术(tagmentation)，都比较适合分子量大的DNA的建库测序，如从各种细胞中提取的高分子量基因组DNA等。

高降解DNA常常是自然发生的降解程度较高的DNA，如常见的血液游离DNA、循环肿瘤DNA、循环胎儿DNA、古生物DNA、法医DNA、水体等环境游离DNA等。这类DNA由于脱离自然的细胞内环境，受到各种理化因素的作用而发生断裂，成为分子量小且分子内磷酸二酯键受损断裂的带有切刻(nick)的DNA分子，因此样品内分子具有多样性，包含了由于高度降解而在两条链中产生裂痕的超短(<100bp)双链DNA(dsDNA)、单链DNA(ssDNA)和常规dsDNA。运用Y型接头标准建库流程及Tn5片段化接头连接技术对这类DNA建库时，难以建立样品保真性高的DNA文库，导致带来很多DNA序列信息丢失。

为了解决这一问题，近年来逐渐发展了基于ssDNA的NGS文库构建方法。基于ssDNA的NGS文库构建方法在建库时，都首先将DNA样品变性解链，使其成为由各种长度ssDNA构成的DNA样品。ssDNA文库制备方法构建的文库中包含低于100bp的DNA片段，能够使原样品中的各种DNA分子有相同的机会进入文库被测序，因此提供更丰富的信息。然而，目前的基于ssDNA的方法通常涉及多个耗时且高成本低效率的步骤，包括起始DNA去磷酸化，通过生物素磁珠分离纯化，或通过特殊的酶(如CircLigase II)进行单链接头的连接。即使使用商品化的试剂盒，也需要特殊的逆转录病毒逆转录酶(DNA SMART ChIP-seq Kit，Clontech)。因此，基于ssDNA的NGS文库构建方法仍需发展新的技术。

血液游离DNA(cfDNA)是一种典型的高降解DNA。cfDNA主要来源于核基因组，其片段长度集中在166bp左右，为围绕一个组蛋白八聚体缠绕的DNA片段的长度。然而，cfDNA具有丰富的多样性，包括由于高度降解而在两条链中产生裂痕的超短(<100bp)dsDNA，单链DNA(ssDNA)和常规dsDNA。因此，基于ssDNA的NGS文库构建方法非常适合cfDNA的建库测序。cfDNA的NGS建库测序具有重要的临床研究和诊断价值，成为目前无创检测(NID)、液体活检(liquid biopsy)、产前诊断(NIPT)、体外诊断(IVD)、床旁诊断(POCT)等领域的主要研究对象。

发明内容

解决的技术问题：针对上述现有基于ssDNA的NGS文库构建方法的缺点，本发明提供了一种基于单链接头文库制备技术SALP的高降解DNA测序文库的构建新方法及其应用，该方法极大的简化了基于ssDNA的NGS文库制备的过程，实现了低成本、高效率、高通量和低偏倚的高降解DNA测序文库构建。

技术方案：一种高降解DNA测序文库的构建方法，包括以下步骤：

步骤1，将双链DNA 1(dsDNA)变性，使其成为单链DNA1(ssDNA)；

步骤2，在步骤1所得单链DNA1的3′端连接单链接头(single strand adaptor，SSA)，成为单链DNA2；

步骤3，用DNA聚合酶延伸步骤2所得单链DNA2使其成为双链DNA 2；

步骤4，向步骤3所得双链DNA 2无单链接头的一端连接标签T接头(barcode Tadaptor，BTA)，成为双链DNA 3；

步骤5，PCR扩增步骤4两端连接接头的双链DNA 3使其成为可测序文库。

进一步地，步骤1中所述双链DNA 1为因脱离自然细胞内环境而受到各种非人为理化因素作用而发生高度断裂的DNA片段或人为降解得到的dsDNA片段。

因脱离自然细胞内环境而受到各种非人为理化因素作用而发生高度断裂的DNA片段，可以是血液游离DNA(cfDNA)、循环肿瘤DNA(ctDNA)、循环胎儿DNA(cffDNA)、古生物DNA、法医DNA或水体等环境游离DNA。

人为降解得到的dsDNA片段，可以是超声波剪切的DNA片段、酶切产生的DNA片段或基于转座体片段化产生的DNA片段。

进一步地，步骤2中所述单链接头为带有粘性末端的双链寡核苷酸1，该双链寡核苷酸1由寡核苷酸1和寡核苷酸2退火形成；其中寡核苷酸1从5′端到3′端的序列结构为：5′端羟基→恒定序列→随机核苷酸序列→3′端羟基，寡苷酸2从5′端到3′端的序列结构为：5′端磷酸基团→恒定序列→3′端氨基，且寡苷酸2的恒定序列与寡核苷酸1的恒定序列碱基长度相同且全序列反向互补。

进一步地，所述随机核苷酸序列为包括1-4个碱基的核苷酸序列。作为优选，随机核苷酸序列为3个碱基的核苷酸序列，3个碱基选自A、T、C或G。

进一步地，寡核苷酸1的优选序列为：5′-ACACT CTTTC CCTAC ACGAC GCTCT TCCGATCTN NN-3′(表2)。

进一步地，寡核苷酸2的优选序列为：5′-[phos]-AGATC GGAAG AGCGT CGTGTAGGGA AAGAG TGT-[NH₂]-3′(表2)；其中[phos]为磷酸基团，[NH₂]为氨基基团。

进一步地，所述粘性末端可与单链DNA的3′端退火，并可通过核酸连接酶催化5′端磷酸基团与单链DNA 3′端羟基基团形成3′-5′磷酸二酯键；所述核酸连接酶为T4DNA连接酶。

所述DNA聚合酶可以是各种DNA聚合酶。若所述DNA聚合酶为普通Taq DNA聚合酶，则步骤3产生的双链DNA的3′端末端自然产生一个突出的A碱基，则DNA聚合酶延伸产物可直接用于步骤4连接T接头；所述DNA聚合酶若为其他高保真DNA聚合酶，由于步骤3产生的双链DNA的3′端末端不出现一个突出的A碱基，则延伸产物需再用普通Taq DNA聚合酶及其他具有类似功能的酶处理，使延伸产物的3′端末端产生一个突出的A碱基，再用于步骤4连接T接头。

进一步地，所述标签T接头为带有粘性末端的双链寡核苷酸2，该双链寡核苷酸2由寡核苷酸3和寡核苷酸4退火形成；其中寡核苷酸3从5′端到3′端的序列结构为：5′端羟基→恒定序列1→标签序列→恒定序列2→一个T碱基→3′端羟基，寡苷酸4从5′端到3′端的序列结构为：5′端磷酸基团→恒定序列→3′端羟基，且寡苷酸4的恒定序列与寡核苷酸3的恒定序列2碱基长度相同且全序列反向互补。

进一步地，寡核苷酸3的恒定序列1的序列为：5′-GACTG GAGTT CAGAC GTGTGCTCTT CCGAT CT-3′(表3)；恒定序列2的优选序列为：5′-AGATG TGTAT AAGAG ACAGT-3′(表3)；标签序列为6个碱基的可变序列(表3)。

进一步地，寡核苷酸4的恒定序列的优选序列为：5′-CTGTC TCTTAT ACACA TCT-3′(表3)。

进一步地，所述标签T接头，其一个粘性末端为3′端突出一个T碱基，该T碱基可与步骤3产生的双链DNA的3′端突出A碱基退火；再由核酸连接酶催化T接头与步骤3产生的双链DNA间形成3′-5′磷酸二酯键，所述核酸连接酶一般为T4DNA连接酶。

所述标签T接头为从成本最低角度设计的最佳结构及末端修饰，其中寡核苷酸3的5′端和3′端均为寡核酸固相化学合成时自然产生的羟基，无需额外修饰，成本最低；其中寡核苷酸4的5′端为修饰的磷酸基团，而3′端为寡核酸固相化学合成时自然产生的羟基；寡核苷酸4的5′端磷酸基团参与标签T接头与步骤3产生的双链DNA连接时形成3′-5′磷酸二酯键。

进一步地，步骤5中PCR扩增是以单链接头和标签T接头为退火位点。

进一步地，PCR扩增的引物序列分别为：5′-AATGA TACGG CGACC ACCGA GATCTACACT CTTTC CCTAC ACGAC GCTCT TCCGA TCT-3′(表4)、5′-CAAGC AGAAG ACGGC ATACGAGATT CTGAC ATGTG ACTGG AGTTC AGACG TGTGC TCTTC CGATC T-3′(表4)；其中TGACAT为索引序列(index)，此引物可用Illumina其他index引物替代。

为了发展优越性更好的基于ssDNA的测序文库构建方法，本发明以cfDNA为研究对象，提供了一种基于单链接头文库制备方法SALP技术的高降解DNA测序文库构建新方法。基于单链接头文库制备技术SALP的高降解DNA测序文库构建新方法无需对样品DNA进行去磷酸化、末端修复、修饰等预处理，也无需使用磁珠捕获，极大的简化了基于ssDNA的NGS文库制备的过程。本发明提出的高降解DNA测序文库构建新方法，仅需使用少数几个用于制备接头的化学修饰的寡核苷酸，以及两种常见酶，T4DNA连接酶和Taq聚合酶，极大降低了实验成本。同时，本发明新方法通过使用已有的单链接头(SSA)和带有标签(barcode)的特殊T接头(BTA)，实现了低成本、高效率、高通量和低偏倚的高降解DNA测序文库构建。

所述高降解DNA测序文库构建方法，该程序中，若要同时对多个DNA样品进行建库测序，可采用该程序的高通量建库流程，其实验流程为：①将各样品dsDNA片段变性，使其成为ssDNA；②在各样品ssDNA的3′端分别连接一种通用SSA；③对连接单链接头的ssDNA用DNA聚合酶延伸，使其成为dsDNA；④不同样品连接带有不同标签序列的BTA；⑤将连接了BTA的各样品dsDNA混合，形成一混合DNA样品；⑥PCR扩增两端连接接头(SSA及BTA)的dsDNA，使其成为NGS可测序的DNA文库。该程序中，将带有不同BTA的不同DNA样品混合，成为一个DNA混合物，作为一个DNA混合样品，进行PCR扩增，可简化了多DNA样品的建库操作、消除了PCR扩增步骤可能带来的偏差(bias)，便于不同DNA样品间序列信息的比较分析。

本发明所述的高降解DNA测序文库的构建方法在无创检测(NID)、液体活检(liquid biopsy)、产前诊断(NIPT)、体外诊断(IVD)、床旁诊断(POCT)、法医鉴定、环境生物检测、环境生物调查、考古等领域的主要研究对象。

有益效果：本发明提供了一种高降解DNA测序文库的构建方法，该方法具有几个显著优点：(1)该方法可对任何高降解DNA片段不经任何修饰处理，即可进行建库。(2)该方法设计并使用特殊的单链接头(SSA)和标签T接头(BTA)，用于从单链DNA开始进行DNA测序文库的构建，避免双链建库法遗漏DNA样品特别是高降解DNA样品的部分信息。(3)标签T接头(BTA)的使用可使多样品DNA建库混合后同步PCR扩增，有利于简化了建库操作、降低试剂及人工消耗、避免了建库中PCR扩增在不同样品间可能产生的偏差，非常有利于多样本快速建库及不同样本之间测序信息的比较分析。(4)本发明提出的高降解DNA测序文库的构建方法，其接头序列的设计是技术关键，所用接头序列、结构及修饰为制备成本最低、通用性最佳的设计。(5)本发明提出的高降解DNA测序文库的构建方法只需T4DNA连接酶、Taq DNA聚合酶等常用低价酶材料，避免了目前单链建库存在的弊病(如特殊酶的需要、接头连接效率低等)。

附图说明

图1为基于SALP技术的cfDNA文库构建原理及流程示意图。A为基于SALP的cfDNA文库构建流程，单链接头(SSA)是在其3'末端具有3个随机核苷酸(3N)突出端的双链寡核苷酸，Barcode T接头(BTA)含有3'T突出端，双链固定序列(CS)和由barcode和PCR引物退火位点组成的5'单链。B为通过改进的SALP方法构建的cfDNA Illumina测序兼容NGS文库结构。

图2为基于SALP技术高通量制备多个cfDNA样品的NGS文库流程。

图3为凝胶回收前后cfDNA文库的琼脂糖凝胶电泳，L1和L2显示了两个cfDNA文库。

图4为文库片段分布，由安捷伦2100高灵敏度DNA芯片检测。

图5为通过SALP鉴定出的不同样品中cfDNA特征。A为Reads密度的分布，cfDNA 1～20的reads密度由外向内依次显示，Reads密度指1-Mb基因组窗口中的reads数量，箭头2表示reads密度分布相同的基因组区域，箭头1表示reads密度存在差异的基因组区域。B为三种类型cfDNA的平均reads密度，C为三种cfDNA的平均reads长度，D为三种cfDNA的GC含量，其中，Pre：术前患者cfDNA样本；Post：术后患者cfDNA样本；Normal：正常人cfDNA样本。

图6为不同cfDNA样品测序鉴定染色质开放状态。A为通过cfDNA测序鉴定染色质开放状态原理。B为TSS周围reads的分布，曲线图显示了TSS周围区域的平均reads密度，计算并显示所有reads密度的log10值，其中，RC，reads数目；ARC，平均reads数目。C为不同cfDNA样品中具有显著差异的启动子区域reads密度热图。D为23个基因启动子区reads密度的热图。E为实施例1(23个基因)鉴定食管癌相关基因与文献报道比较。F为23个基因的GO分析，图中显示了每个GO条目的p值和包含的基因个数。G为23个食管癌相关基因的表达比较，箱线图显示了不同类型样品中基因的表达，热图显示染色质开放状态。G中箭头标示的基因是指文献报道的基因，未标记的基因是指新鉴定的基因，其他基因是指文献报道过的。

图7为特定基因启动子区域的快照(snapshot)。UCSC基因组浏览器显示5个基因的启动子区域。cfDNA track、TE7H3K27Ac ChIP-seq track、KYSE510H3K27Ac ChIP-seqtrack分别展示。同时显示H3K27Ac和DNA cluster，以表明染色质区域的开放程度。TE7与KYSE510为两种食管癌细胞株。

图8为不同来源的cfDNA的染色质状态比较。A为Peak密度的分布，Peak密度定义为基因组上每个1-Mb窗口中的peak数。TE7，KYSE510和cfDNA 1至20的peak密度从外到内依次显示。B为食管癌患者cfDNA和两种食管癌细胞系(TE7和KYSE510)H3K27ac ChIP-seq重叠peak统计。C为不同类型cfDNA位于启动子区的peak百分比。D为不同类型cfDNA reads数目标准化后获得的peak数目，每个样品的reads数目标准化至106。E为不同样品中基因表达的分类标准。F为食管癌患者和健康人特异性表达基因比较。G为两类基因的GO分析。

图9为cfDNA测序鉴定的食管癌特异性表达基因与RNA-seq鉴定的食管癌组织中差异表达基因比较。A为cfDNA和RNA-seq的差异基因比较。B为由cfDNA和RNA-seq鉴定的食管癌特异性表达基因富集得到的相同GO条目。其中，BP：生物过程；MF：分子功能。从TCGA下载来自184个食管癌和14个癌旁组织的RNA-seq数据。用DESeq2进行差异表达分析，将padj<0.05且表达倍数大于2的基因定义为差异表达基因。选择差异表达倍数最高的前1000个基因通过DAVID进行GO分析。

图10为不同cfDNA样本中的突变。A为突变密度的分布，突变密度定义为基因组上每个1-Mb窗口中的突变数，箭头2表示具有较高突变密度的基因组区域，箭头1表示具有较低突变密度的基因组区域，cfDNA1至20的突变密度从外向内依次显示。B为不同cfDNA样品中的MSK-IMPACT panel基因比较，将用cfDNA测序鉴定的具有外显子突变的基因与MSK-IMPACT panel基因进行比较。C为与MSK-IMPACT panel重叠的基因中的突变注释。D为28个术前样本特有基因GO分析。

具体实施方式

以下结合附图和实施例对本发明作进一步说明。

实施例1血液游离DNA建库测序

实验材料和方法

样本收集：在南京大学医学院附属金陵医院(中国南京)的帮助下共收集得到20份全血样本。其中，四份来源于健康人、十一份收集自术前食管癌患者，五份收集自术后食管癌患者(表1)。

表1.cfDNA来源信息

游离DNA提取：全血样品在4℃下以1,600g离心15分钟，将上清液转移至新的离心管。含有上清液的试管在4℃下以16,000g离心10分钟，上清液即为血浆。全部血浆储存-80℃备用。使用Plasma Circulating DNA试剂盒(TIANGEN，DP339)以200μL血浆为起始物，用以分离cfDNA，提取得到的cfDNA溶解于20μL Tris-EDTA(TE)缓冲液中，-20℃储存。

接头制备：所需寡核苷酸均由上海生工合成。制备单链接头(SSA)，将SSA-PN-3N和SSA-PNrev(表2)溶解于ddH₂O，终浓度为100μM，等摩尔混合于PCR管中。制备带有barcode T接头(BTA)，将带有不同barcode的寡核苷酸和BTA-通用寡核苷酸(表3)分别溶解于ddH2O，终浓度为100μM，等摩尔混合于PCR管中。所有寡核苷酸混合物95℃的水浴变性5分钟后，逐渐冷却至25℃，退火形成相应接头。

表2.制备单链接头(SSA)的寡核苷酸

表3.制备标签T接头的寡核苷酸

用改进的SALP方法制备cfDNA NGS文库：将7μL cfDNA样品在95℃温育5分钟并立即在冰上孵育5分钟。变性的cfDNA与SSA在10μL反应体系中16℃过夜连接，反应体系组分包括：1μL T4DNA连接酶(NEB，M0202L)，1×T4DNA连接酶缓冲液，0.5μM SSA。将连接产物与10μL 2×预混合Taq聚合酶(Takara，R004A)混合，72℃下孵育15分钟。以1.8×Ampure XP磁珠(Beckman Coulter)纯化产物。纯化产物与1μL T4DNA连接酶，1×T4DNA连接酶缓冲液，0.1μM BTA混合，补加ddH2O至10μL，16℃连接2小时。1.8×Ampure XP磁珠纯化后，连接产物于50μL体系中进行扩增，反应体系组分为1×Hot Start HiFi PCR Master Mix(NEB，M0543S)，5μM NEBNext Universal PCR引物(表4)和5μM NEBNext Index引物(表3)。PCR程序如下：(i)72℃5分钟；(ii)98℃，5分钟；(iii)18个循环，98℃10秒，65℃30秒，72℃1分钟；(iv)72℃5分钟。1.5％琼脂糖凝胶进行PCR产物电泳，QIAquick Gel Extraction Kit(QIAGEN，28704)凝胶回收300～1000bp的DNA片段。

表4.文库制备PCR引物

NGS测序：用测序平台相容的引物扩增后共获得20个Illumina测序平台兼容的文库(表4)。使用Qubit 2.0测定文库浓度，并以相同的DNA质量(ng)混合，获得最终测序文库。通过Agilent Bioanalyzer 2100高灵敏度DNA芯片检测文库片段分布。使用IlluminaHiseq X Ten平台(南京世和)对文库进行测序。

cfDNA测序数据分析：通过perl脚本根据barcode分割原始reads数据。从双端测序的read 2 5'端去除固定序列(CS)(19bp)和barcode序列(6bp)。使用Bowtie2将所有reads比对到人基因组(hg19)。为了确保长片段能够比对到基因组上，设定参数-X 2000。用bcftools进行SNV分析[30]。通过ANNOVAR使用默认参数对SNV进行注释。利用DAVID网站进行gene ontology(GO)分析。通过bedtools统计reads数目。DEseq2分析不同样品中转录起始位点(transcription start site，TSS)上游1kb区域的开放程度，选择其中p<0.05的区域为具有显著差异的区域。由GEO数据库下载两种食管癌细胞系，TE7和KYSE510的H3K27acChIP-seq数据，检索号为GSE76861。通过Bowtie2将ChIP-seq原始reads比对到hg19基因组。使用macs2进行peak calling，HOMER进行peak的注释。所有track均由UCSC基因组浏览器展示。RNA-seq fragments per kilo bases per million reads(FKPM)数据由The CancerGenome Atlas(TCGA)数据库下载，包括163个食管癌和11个正常样品。使用perl脚本对选定基因的FKPM进行比较。

为了比较启动子区域中的SNV，将TSS上游10kb定义为基因的调控区域。筛选出术前样本中位于调控区的突变，以突变位置为中心上下游共截取20bp区域，通过FIMO软件搜索该区域内被HOCOMOCO(版本11)数据库收录的转录因子结合位点。

实验结果

1.运用改进的SALP-seq构建cfDNA NGS文库

SALP方法在构建降解DNA的NGS文库时具有显着优势。为了使用SALP方法构建cfDNA的NGS文库，我们对其进行了改进以提高效率并降低成本。如图1A所示，特殊设计的barcode T接头(BTA)，包含由3'T突出端，固定序列构成的双链区，以及由可变的6碱基barcode和固定的PCR引物退火位点构成的单链区。此设计有助于提高通量并简化过程。为了构建cfDNA的NGS文库，将提取得到的cfDNA变性为单链，然后与具有3个随机碱基突出端的SSA连接。用Taq聚合酶延伸后，产生腺嘌呤(A)突出端，随后连接BTA。在延伸步骤之后，通过可分别与SSA和BTA退火的Illumina兼容引物扩增文库(图1A)。文库的结构如图1B所示，可直接通过Illumina平台进行测序。

为了验证改进的SALP在构建cfDNA文库中的效率，选取两个cfDNA样品用改进的SALP方法构建NGS文库。如图2所示，文库的片段大小主要集中于300bp左右，表明插入片段的长度约为180bp，与之前报道的cfDNA长度一致。可以从琼脂糖凝胶中观察到阶梯状的条带，表明改进后的新方法能够灵敏地捕获不同长度的cfDNA(图2)。

改进的SALP-seq方法可用于制备含有多个cfDNA样本的NGS文库，这对于有效分析大量临床血液样本非常有用。使用含有不同barcode的BTA能够标记不同的样品(表2)。在BTA连接步骤之前，所有cfDNA样品分别单独进行处理(图1A)，随后不同的cfDNA样品通过BTA连接步骤，与不同BTA连接(图3)。BTA连接后，可通过两种策略混合测序文库(图3)。一种是在BTA连接后立即将标记后的样品进行混合，然后通过单管PCR扩增获得最终的Illumina测序文库。另一种是针对不同样本单独扩增，然后合并扩增的文库并获得最终的Illumina测序文库(图3)。使用第二种策略，我们构建了20个具有不同BTA的cfDNA文库。混合20个文库后，成功构建了Illumina测序平台兼容的测序文库(图4)。最终的文库由Illumina HiseqX Ten平台测序。获得了总共420,594,419条能够比对到参考基因组上的reads(表5)。

表5.测序结果reads统计

2.cfDNA特征分析

作为液体活检的重要样本来源，cfDNA具有十分重要的意义，可为诊断提供许多有用的线索。为了研究cfDNA在全基因组水平上的分布，我们计算并标准化每个1-Mb窗口中的reads密度。结果表明，不同样品中cfDNA分布在整个基因组水平上有很大差异(图5A)。一些基因组区域在20个样本中具有相同水平的reads密度，而其他区域的reads密度则相对较大(图5A)。来自食管癌患者的cfDNA具有最高的平均reads密度，但来自正常人的cfDNA具有较低的平均reads密度(图5B)。这可能是由于基因和调控序列的拷贝异常增加所致。cfDNA的长度与临床场景密切相关。为了比较不同样品的长度分布，我们计算了全基因组水平的cfDNA长度。结果表明术前食管癌患者具有最短的cfDNA，正常人具有较长的cfDNA(图5C)。为了进一步表征不同类型样品中cfDNA的特征，我们还计算了cfDNA的GC含量(图5D)。结果显示术前食管癌患者的cfDNA具有最低的GC含量，而来自正常人的cfDNA具有最高的GC含量。手术提高了cfDNA的GC含量。这些结果揭示了cfDNA的reads密度，长度和GC含量这三个特征可以作为食管癌液体活检的诊断标记。

3.运用cfDNA鉴定染色质状态

基于reads密度的全基因组分布(图5A)，我们推断cfDNA的NGS数据可以用来分析不同样本的染色质状态。只有核小体保护的基因组区域才能够进入cfDNA的NGS测序环节(图6A)。为了验证该假设，以100bp为窗口，计算基因的TSS上下游±5kb区域内的reads密度，并计算每个窗口的平均reads密度。结果显示在正常的cfDNA统计结果中，TSS附近出现一个峰，而在食管癌cfDNA的统计结果中，TSS附近有一个谷(图6B)。该结果表明cfDNA NGS能够用于检测染色质开放状态。为了进一步比较癌症和正常样品之间的染色质开放度，将TSS上游1kb区域定义为启动子区(promoter)，计算每个样品中所有启动子区的reads密度。结果显示，健康个体和食管癌患者cfDNA的启动子reads密度之间存在很大差异(图6C)。值得注意的是，一些启动子在所有癌症样品中显示极低的reads密度，但在正常样品中显示较高密度(图6D)。共发现23个基因具有该特征。在文献研究之后，我们发现这些基因中有9个与食管癌密切相关(图6E)。因此我们推断剩余的14个基因是新鉴定的食管癌相关基因。典型基因启动子的UCSC track也说明了癌症与正常样本之间的显着差异(图7)，进一步验证了这一发现。这些基因的GO分析显示，富集最显著的条目(chromosome organization)与染色体构象相关，表明这些基因中的含有在调节染色质结构中起关键作用的基因(图6F)。我们发现该GO项由5个基因富集得到，包括INO80、WHSC1、TERF2IP、NCAPD3和SUV420H1，其中基因INO80和WHSC1是已知的食管癌相关基因(表4)。其他富集得到的GO条目主要与蛋白质定位或生物合成过程相关，都在癌症发生发展过程中的起到重要作用(图6F)。为了进一步验证这23个基因与食管癌之间的关系，我们比较了Cancer Genome Atlas收集的食管癌和正常样品的RNA-seq数据。我们发现大多数这些基因的表达在癌症样品中上调(图6G)。根据这些发现，我们得出结论，cfDNA的NGS可用于有效地表征染色质开放状态，并从表观遗传学的新观点识别癌症相关基因。

4.通过cfDNA鉴定激活基因

为了进一步验证cfDNA测序检测染色质状态的可靠性，我们将cfDNA的NGS数据与食管癌细胞系的H3K27ac ChIP-seq数据进行了比较，乙酰化水平可以作为染色质开放程度的重要证据。为了通过cfDNA和两个食管癌细胞系的H3K27ac ChIP-seq数据测序数据分别鉴定出染色质关闭和开放区域，对各组数据进行peak calling。与cfDNA reads分布相同(图4A)，不同cfDNA样品的染色质关闭区域的全基因组水平上的分布显示出极大的多样性(图8A)。比较由cfDNA和ChIP-seq鉴定出的peak，重叠比例很低(图8B)，表明cfDNA NGS和H3K27ac ChIP-seq对染色质状态鉴定结果高度一致。对cfDNA peak分布的分析还表明，只有少部分的peak位于启动子区(图8C)。食管癌cfDNA中鉴定出的位于启动子区的peak少于正常个体(图8C)，表明食管癌患者的启动子区染色质开放程度高于正常人。进一步分析显示，食管癌cfDNA富集得到的peak数量少于正常cfDNA(图8D)，这也表明在食管癌患者中染色质开放区域多于正常人。由于开放的染色质区域为基因的激活提供了机会，我们比较了癌症患者和正常人群中cfDNA peak的关联基因。结果显示，peak相关联的基因可分为三类(图8E)，食管癌患者中特异表达基因比正常人特异表达基因(图8F)多约2.4倍，表明食管癌患者有更多基因被激活。GO分析显示食管癌特异表达基因与各种刺激的应答密切相关，与由食管癌实体瘤组织中鉴定的差异表达基因富集得到的GO条目类似(图9)。这表明通过cfDNA的NGS数据能够鉴定在癌症过程中发挥关键作用的基因(图8G)。基于这些结果，我们得出结论，食管癌患者染色质开放程度更高，能够使更多食管癌特异性基因的激活。这些结果也与和染色质结构相关的基因启动子区开放程度高相一致，如INO80和WHSC1(图6G)。

5.通过cfDNA鉴定突变

靶向或全基因组水平测序检测突变是cfDNA在NIPT和液体活检中最广泛的应用。我们首先针对每个cfDNA样品中的突变进行分析。通过比较不同类型cfDNA的突变，发现在全基因组水平，不同样本间突变密度分布差异较大(图10A)。并且存在一些基因组区域，在所有样品中都具有较高或较低的突变密度(图10A)。作为美国食品和药物管理局(FDA)在2017年授权的多基因检测panel(468基因)，MSK-IMPACT^TM可用于鉴定临床相关的体细胞突变，新的非编码突变，以及常见或罕见肿瘤中的突变特征。为了检验cfDNA NGS是否能检测到与临床相关的突变，我们将通过cfDNA测序鉴定得到的存在突变的基因与MSK-IMPACTpanel收录的基因进行比较。发现术前患者特有的28个基因(BMPR1A、BRAF、CENPA、CHEK1、DCUN1D1、EPHA3、ERF、FGF3、GNA11、GREM1、INPPL1、IRF4、KDM5C、MALT1、MITF、NF2、PHOX2B、PIK3CA、RRAGC、RTEL1、RXRA、SMAD4、STK19、UPF1、VHL、RPTOR)(图10B)，表明这28个基因可能在食管癌的发生发展过程中起重要作用。GO分析表明，这些基因与细胞死亡调节密切相关，表明这些基因在癌症发展过程发挥作用(图10C)。同时也富集得到了与结合或转录因子活性相关的GO条目，这些功能也与基因表达调控存在密切联系，说明在食管癌患者中存在大量的基因表达(图10D)，与图8F得出的结论一致。另外，通过对与MSK-IMPACT panel重叠基因包含的突变进行注释，发现食管癌患者包含比正常人更多的非读码框改变的插入(图10D)。这种非读码框改变的插入来自于诸多典型的癌症相关基因，包括BRCA2，EGFR，TNFAIP3，ALK，AKT2，CSF3R，DOT1L，KDM5C，KMT2D，MEN1，PREX2和PTCH1(表6)。并且，这些基因都是食管癌特异性的。以上结果表明，cfDNA可用于在液体活检中发现临床相关的体细胞突变。

表6.图10D中含有非读码框改变插入的基因

序列表

<110> 东南大学

<120> 一种高降解DNA测序文库的构建方法及其应用

<160> 25

<170> SIPOSequenceListing 1.0

<210> 1

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

acactctttc cctacacgac gctcttccga tctnnn 36

<210> 2

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

agatcggaag agcgtcgtgt agggaaagag tgt 33

<210> 3

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gactggagtt cagacgtgtg ctcttccgat ctacttgaag atgtgtataa gagacagt 58

<210> 4

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gactggagtt cagacgtgtg ctcttccgat ctggctacag atgtgtataa gagacagt 58

<210> 5

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gactggagtt cagacgtgtg ctcttccgat ctttaggcag atgtgtataa gagacagt 58

<210> 6

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gactggagtt cagacgtgtg ctcttccgat ctcagatcag atgtgtataa gagacagt 58

<210> 7

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gactggagtt cagacgtgtg ctcttccgat cttgaccaag atgtgtataa gagacagt 58

<210> 8

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

gactggagtt cagacgtgtg ctcttccgat ctcgatgtag atgtgtataa gagacagt 58

<210> 9

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

gactggagtt cagacgtgtg ctcttccgat ctatcacgag atgtgtataa gagacagt 58

<210> 10

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

gactggagtt cagacgtgtg ctcttccgat ctcttgtaag atgtgtataa gagacagt 58

<210> 11

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

gactggagtt cagacgtgtg ctcttccgat ctacagtgag atgtgtataa gagacagt 58

<210> 12

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

gactggagtt cagacgtgtg ctcttccgat cttagcttag atgtgtataa gagacagt 58

<210> 13

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gactggagtt cagacgtgtg ctcttccgat ctgatcagag atgtgtataa gagacagt 58

<210> 14

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

gactggagtt cagacgtgtg ctcttccgat ctgccaatag atgtgtataa gagacagt 58

<210> 15

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

gactggagtt cagacgtgtg ctcttccgat ctagtcaaag atgtgtataa gagacagt 58

<210> 16

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

gactggagtt cagacgtgtg ctcttccgat ctgtccgcag atgtgtataa gagacagt 58

<210> 17

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

gactggagtt cagacgtgtg ctcttccgat ctccgtccag atgtgtataa gagacagt 58

<210> 18

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

gactggagtt cagacgtgtg ctcttccgat ctgtgaaaag atgtgtataa gagacagt 58

<210> 19

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

gactggagtt cagacgtgtg ctcttccgat ctattcctag atgtgtataa gagacagt 58

<210> 20

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

gactggagtt cagacgtgtg ctcttccgat ctagttccag atgtgtataa gagacagt 58

<210> 21

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gactggagtt cagacgtgtg ctcttccgat ctactgatag atgtgtataa gagacagt 58

<210> 22

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

gactggagtt cagacgtgtg ctcttccgat ctgtggccag atgtgtataa gagacagt 58

<210> 23

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

ctgtctctta tacacatct 19

<210> 24

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 25

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

caagcagaag acggcatacg agattctgac atgtgactgg agttcagacg tgtgctcttc 60

cgatct 66

Claims

1.一种高降解DNA测序文库的构建方法，其特征在于：包括以下步骤：

步骤1，将双链DNA 1变性，使其成为单链DNA 1；

步骤2，在步骤1所得单链DNA 1的3′ 端连接单链接头，成为单链DNA 2；

步骤3，用DNA聚合酶延伸步骤2所得单链DNA 2使其成为双链DNA 2；

步骤4，向步骤3所得双链DNA 2无单链接头的一端连接标签T接头，成为双链DNA 3；

2.根据权利要求1所述的高降解DNA测序文库的构建方法，其特征在于：步骤2中所述单链接头为带有粘性末端的双链寡核苷酸1，该双链寡核苷酸1由寡核苷酸1和寡核苷酸2退火形成；其中寡核苷酸1从5′端到3′ 端的序列结构为：5′端羟基→恒定序列→随机核苷酸序列→3′ 端羟基，寡苷酸2从5′端到3′ 端的序列结构为：5′端磷酸基团→恒定序列→3′ 端氨基，且寡苷酸2的恒定序列与寡核苷酸1的恒定序列碱基长度相同且全序列反向互补。

3.根据权利要求2所述的高降解DNA测序文库的构建方法，其特征在于：所述随机核苷酸序列为包括1-4个碱基的核苷酸序列。

4.根据权利要求2所述的高降解DNA测序文库的构建方法，其特征在于：寡核苷酸1的序列为：5′-ACACT CTTTC CCTAC ACGAC GCTCT TCCG ATCTN NN-3′；寡核苷酸2的序列为：5′-[phos]-AGATC GGAAG AGCGT CGTGT AGGGA AAGAG TGT-[NH₂]-3′；其中[phos]为磷酸基团，[NH₂] 为氨基基团。

5.根据权利要求2所述的高降解DNA测序文库的构建方法，其特征在于：所述粘性末端可与单链DNA的3′端退火，并可通过核酸连接酶催化5′端磷酸基团与单链DNA 3′端羟基基团形成3′-5′磷酸二酯键；所述核酸连接酶为T4 DNA连接酶。

6.根据权利要求1所述的高降解DNA测序文库的构建方法，其特征在于：所述标签T接头为带有粘性末端的双链寡核苷酸2，该双链寡核苷酸2由寡核苷酸3和寡核苷酸4退火形成；其中寡核苷酸3从5′端到3′ 端的序列结构为：5′端羟基→恒定序列1→标签序列→恒定序列2→一个T碱基→3′ 端羟基，寡苷酸4从5′ 端到3′ 端的序列结构为：5′端磷酸基团→恒定序列→3′ 端羟基，且寡苷酸4的恒定序列与寡核苷酸3的恒定序列2碱基长度相同且全序列反向互补。

7.根据权利要求6所述的高降解DNA测序文库的构建方法，其特征在于：寡核苷酸3的恒定序列1的序列为：5′-GACTG GAGTT CAGAC GTGTG CTCTT CCGAT CT-3′，恒定序列2的序列为：5′-AGATG TGTAT AAGAG ACAGT-3′，标签序列为6个碱基的可变序列；寡核苷酸4的恒定序列的序列为：5′-CTGTC TCTTAT ACACA TCT-3′。

8.根据权利要求6所述的高降解DNA测序文库的构建方法，其特征在于：所述标签T接头，其一个粘性末端为3′端突出一个T碱基，该T碱基可与步骤3产生的双链DNA的3′ 端突出A碱基退火；再由核酸连接酶催化T接头与步骤3产生的双链DNA间形成3′-5′磷酸二酯键，所述核酸连接酶一般为T4 DNA连接酶。

9.根据权利要求1所述的高降解DNA测序文库的构建方法，其特征在于：步骤5中PCR扩增是以单链接头和标签T接头为退火位点。

10.权利要求1所述的构建方法在高降解DNA片段测序分析中的应用。