CN109971827A

CN109971827A - 血浆dna的建库方法和建库试剂盒

Info

Publication number: CN109971827A
Application number: CN201910229527.4A
Authority: CN
Inventors: 唐守运; 曲艳; 汪彪; 胡玉刚; 郑文莉; 吴强
Original assignee: Naonda (nanjing) Biological Technology Co Ltd
Current assignee: Naonda (nanjing) Biological Technology Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-05
Anticipated expiration: 2039-03-25
Also published as: CN109971827B

Abstract

本发明提供了一种血浆DNA的建库方法和建库试剂盒。其中，该建库方法包括：对血浆DNA进行末端修复及加A，得到修复DNA；采用带有唯一标签序列的接头对修复DNA依次进行接头连接和PCR扩增，得到血浆DNA的测序文库。通过采用带有唯一标签序列的接头对修复加A后的血浆DNA进行接头连接进而构建成血浆DNA的测序文库，这样形成的文库便于在后期对测序数据分析的时候，根据唯一标签序列将建库扩增或测序扩增所产生的重复，与血浆DNA中真实的重复片段区分出来，进而去除扩增重复而保留血浆碎片DNA本身存在的重复，使得来源于血浆DNA的有效数据量得以提升，从而一定程度上提高了血浆DNA的建库效率。

Description

血浆DNA的建库方法和建库试剂盒

技术领域

本发明涉及血浆DNA建库领域，具体而言，涉及一种血浆DNA的建库方法和建库试剂盒。

背景技术

随着技术进步和人们对肿瘤和遗传病认识的深入，传统技术已经不能满足精准诊断的需求。精准诊断越来越依赖二代测序技术解决问题，二代技术也不断进步，测序通量越来越多，测序成本越来越低。目前市场主流二代测序仪主要有三家公司，分别是Illumina各型号测序仪，华大智造(MGI)测序仪和life公司的测序仪。Illumina的测序仪和华大智造的测序仪建库过程都是依赖T-A克隆的方式建库，区别在于Illumina是Y型接头，华大智造中间鼓泡型互补接头，这两种接头都能充分利用连接产物。Life的接头是平端连接，连接产物只有1/2模板是被测序仪测序，同时Life的测序仪对连续的碱基测序质量不高，一些精确应用受到限制。

外周血中的血浆是血液的一部分，血液经过低速离心可以分成三部分，主要部分是上层血浆和下层红细胞，中间是白细胞层。基因组DNA主要集中在白细胞中，血浆中含有碎片DNA，DNA碎片是体内细胞凋亡的代谢产物，DNA碎片的长度是缠绕核小体的核酸片段长度及倍数，说明DNA碎片的产生是体内正常的代谢机制。血浆中碎片DNA的种类和数量与体内生长活性中心高度相关，如孕妇和肿瘤患者。

在1997年，卢煜明在孕妇的母体中血浆中发现有胎儿的碎片DNA的存在(Lo YMD,et al.1997)，得益于二代测序技术的发展，到2008年，卢煜明团队利用母体静脉血中胎儿碎片DNA检测21号、18号和13号染色体三体，这个技术的出现做到真正的无创产前筛查胎儿三体，替代了以前及其不准确的血清学筛查(Rossa W.K.Chiu,et al.2008)。在不同的癌症病人中陆续被发现血浆中的碎片DNA含有肿瘤组织细胞的全部基因组变异信息(HeidiSchwarzenbach et al.2011)，检测肿瘤病人的外周血血浆碎片DNA就能检测出病人肿瘤细胞的信息有很大的好处，第一点是，无创，不需要受限于病人做手术取样，第二点，不受时间限制，可以做到对肿瘤病人定期病情检测和用药评估，真正做到精准及时诊断。

目前的二代测序仪的能力完全可以解决更多的精准诊断问题，无创三体筛查只是初级应用，大部分的出生缺陷没有得到有效筛查控制；肿瘤患者的精准诊断和病情监控也完全可以通过无创外周血的血浆碎片DNA捕获测序进行。阻碍这些发展的两个核心问题，一个是血浆DNA在建库过程中利用率低，进而使得建库效率低的问题，第二个是分析的准确性问题。

发明内容

本发明的主要目的在于提供一种血浆DNA的建库方法和建库试剂盒，以解决现有技术中的血浆建库效率低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种基于MGI测序平台的血浆DNA的建库方法，该建库方法包括：对血浆DNA进行末端修复及加A，得到修复DNA；采用带有唯一标签序列的接头对修复DNA依次进行接头连接和PCR扩增，得到血浆DNA的测序文库。

进一步地，带有唯一标签序列的接头采用A1所示的第一Y接头和B1所示的第二Y接头的混合接头；

A1：第一Y接头

B1:第二Y接头

其中，N为A、T、C或G，第一Y接头中的NNNNN序列与第二Y接头中的NNNNNN序列均代表唯一标签序列；优选地，唯一标签序列包括下表1所示的16个第一Y接头的5bp标签序列和16个第二Y接头的6bp标签序列：

表1：

接头序号	5bp标签序列	接头序号	6bp标签序列
				MGI-5bp-1	5'Phos-GCTAG-3'	MGI-6bp-1	5'Phos-GACGAT-3'
MGI-5bp-2	5'Phos-GAGCA-3'	MGI-6bp-2	5'Phos-GCTCTT-3'
				MGI-5bp-3	5'Phos-AGCGT-3'	MGI-6bp-3	5'Phos-CGGAAT-3'
MGI-5bp-4	5'Phos-CTCCA-3'	MGI-6bp-4	5'Phos-GCATGA-3'
				MGI-5bp-5	5'Phos-TGGAC-3'	MGI-6bp-5	5'Phos-CATCAC-3'
MGI-5bp-6	5'Phos-CAAGC-3'	MGI-6bp-6	5'Phos-GACATC-3'
				MGI-5bp-7	5'Phos-TCGTG-3'	MGI-6bp-7	5'Phos-CTAGTC-3'
MGI-5bp-8	5'Phos-GTACG-3'	MGI-6bp-8	5'Phos-CGATCG-3'
				MGI-5bp-9	5'Phos-CGAGT-3'	MGI-6bp-9	5'Phos-CATTGC-3'
MGI-5bp-10	5'Phos-GCACT-3'	MGI-6bp-10	5'Phos-CTGATG-3'
				MGI-5bp-11	5'Phos-TACCG-3'	MGI-6bp-11	5'Phos-CAACTG-3'
MGI-5bp-12	5'Phos-GTCAG-3'	MGI-6bp-12	5'Phos-CTCTGT-3'
				MGI-5bp-13	5'Phos-GACTC-3'	MGI-6bp-13	5'Phos-GCCTAT-3'
MGI-5bp-14	5'Phos-TGTCC-3'	MGI-6bp-14	5'Phos-GCCTTA-3'
				MGI-5bp-15	5'Phos-ACCGA-3'	MGI-6bp-15	5'Phos-GCGTAA-3'
MGI-5bp-16	5'Phos-AGGGA-3'	MGI-6bp-16	5'Phos-GTAACC-3'

。

进一步地，带有唯一标签序列的接头采用A2所示的第一泡状接头和B2所示的第二泡状接头的混合接头；

A2：第一泡状接头

B2：第二泡状接头

其中，N为A、T、C或G，S表示G或C，第一泡状接头中的NNN序列与第二泡状接头中的SNNN序列均代表唯一标签序列；优选地，唯一标签序列包括下表2所示的第一泡状接头的3bp标签序列和第二泡状接头的S+3bp标签序列：

表2：

进一步地，对末端修复后的血浆DNA进行接头连接后，PCR扩增，得到血浆DNA的测序文库的步骤包括：对接头连接后的血浆DNA进行PCR扩增，得到线性文库；对线性文库进行连接环化，得到血浆DNA的测序文库。

进一步地，对线性文库进行连接环化的步骤中，采用成环陪伴序列以及Taq DNA连接酶进行连接环化；优选地，连接环化进行1～5次。

进一步地，对血浆DNA进行末端修复及加A的步骤中，采用末端修酶进行末端修复，修复酶包括T4 DNA聚合酶和Kelnow酶，其中，在单个反应中，T4 DNA聚合酶的用量为1U～3U，优选为1U～1.5U。

根据本发明的另一方面，提供了一种基于MGI测序平台的血浆DNA的建库试剂盒，试剂盒包括带有唯一标签序列的接头。

进一步地，带有唯一标签序列的接头为A1所示的第一Y接头和B1所示的第二Y接头的混合接头；

A1：第一Y接头

B1：第二Y接头

其中，N为A、T、C或G，第一Y接头中的NNNNN序列与第二Y接头中的NNNNNN序列均代表唯一标签序列；

优选地，唯一标签序列包括表1所示的16个第一Y接头的5bp标签序列和16个第二Y接头的6bp标签序列。

A2：第一泡状接头

B2：第二泡状接头

其中，N为A、T、C或G，S表示G或C，第一泡状接头中的NNN序列与第二泡状接头中的SNNN序列均代表唯一标签序列；优选地，唯一标签序列包括表2所示的第一泡状接头的3bp标签序列和第二泡状接头的S+3bp标签序列。

进一步地，试剂盒还包括成环陪伴序列和Taq DNA连接酶。

应用本发明的技术方案，通过采用带有唯一标签序列的接头对修复加A后的血浆DNA进行接头连接，进而构建成血浆DNA的测序文库，这样形成的文库便于在后期对测序数据分析的时候，根据接头上所带的唯一标签序列能够将建库扩增或测序扩增所产生的重复，与血浆DNA中真实的重复片段区分出来，进而去除扩增重复而保留血浆碎片DNA本身存在的重复，使得来源于血浆DNA的有效数据量得以提升，从而一定程度上提高了血浆DNA的建库效率。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了现有的MGI测序平台所使用的泡状接头的序列及结构示意图；

图2示出了本申请一种优选实施例所改进的带有32种UMI序列的Y型接头；

图3示出了本申请另一种优选实施例所改进的带有64种UMI序列的泡状接头；

图4示出了本申请的建库步骤中线性文库在陪伴序列的辅助下进行连接环化的示意图；

图5示出了本申请的实施例1中采用本申请的建库方法与市售试剂盒建库的建库方法的建库结果比对。

图6示出本申请的实施例3中采用本申请UMI的建库方法与不带UMI的建库方法的检测灵敏度比较。

图7示出了本申请的实施例3中采用本申请UMI的建库方法与不带UMI的建库方法的检测特异性比较。

图8示出了本申请的实施例3中采用本申请UMI的建库方法与不带UMI的建库方法导致的真实数据量的损失与DNA投入量的增加而增加。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

本申请中，血浆DNA、血浆碎片DNA以及cfDNA均指血浆中游离的DNA。

标签序列，唯一标签序列或UMI，均指能够标记血浆DNA模板的索引序列。而index序列指能标记文库的索引序列。

如背景技术所提到的，现有技术中的血浆DNA建库时存在建库效率低的缺陷，为了改善这一状况，发明人对血浆DNA建库进行了如下的研究和分析：

发明人发现血浆碎片DNA和基因组DNA打断的片段是不完全一样的，血浆碎片DNA和基因组DNA打断碎片在建库上有两点主要区别：一个是血浆碎片DNA在体内的产生是酶作用产生，产生的片段的大小一致性比较好；另一个区别是建库投入量上有巨大区别，基因组DNA建库可投入量是200ng～1000ng，而血浆碎片DNA建库的投入量很低，仅为1～30ng，因此采用基因组DNA建库的试剂盒来对血浆DNA进行建库是不合适的，因为目前任何一款试剂盒都很难涵盖这么宽的DNA投入量，即使最好的商业试剂盒难以兼顾。

发明人还发现，制约血浆碎片DNA建库效率的另一个关键问题是，在投入量有限的条件下，想要提高血浆DNA的建库效率，第一方面是将有限量的血浆DNA更多地成功构建成文库，第二方面是将构建好的文库中更充分地利用血浆DNA的片段的相关信息。

对于上述第一方面，由于血浆碎片DNA是建库天然的好材料，血浆碎片DNA的片段长度(主要为166bp)正好适合建库，不需要物理和酶切打断。建库过程中需要对DNA片段末端补平，加A和磷酸化，然后通过A-T连接接头。上述每一步骤如果单独进行，相对容易优化以提高反应的效率，但是步骤相当繁琐，并且每步纯化也会有10～20％的损失。因此在单管不回收的条件下优化提升建库连接效率是最好的解决方案。

而对于第二方面，在对构建好的文库产生的数据进行利用时，由于建库扩增或测序扩增时会产生重复，而血浆中也存在真实的重复，通常在不加标签序列时，后期对测序数据分析的时候，将所有重复序列一并去除，从而降低了血浆DNA文库的有效数据量。而在肿瘤检测和未来无创单基因筛查的过程中，测序深度通常会达到500×～50000×，通过在连接接头的时候加入标签序列进行区分，便可以在后期对测序数据分析的时候，根据标签序列去掉建库扩增或测序扩增所产生的重复，而保留血浆碎片DNA本身存在的重复，进而使得来源于血浆DNA的有效数据量得以提升，从而一定程度上提高了血浆DNA的建库效率。

按照血浆建库的极限投入量100ng血浆碎片DNA进行计算，总的拷贝数约3万，血浆碎片DNA的片段长度在166bp长度有一个主峰，并在166bp附近30bp都有分布，因而100ng血浆碎片DNA具有同起始和同终止的DNA片段数最高也不会超过100个，发明人根据此最大的可能序列数，设计了32种唯一标签序列(Unique molecular identifiers，简称UMI)，这样双端就有1024(32*32)种组合标签序列，能保证每条序列对应足够的标签序列，每条序列能保证对应10种标签组合可能。为了进一步使接头更稳定以及碱基在测序的过程中AT和GC更平衡，发明人设计了16种5bp和16种6bp的UMI。其中16种6bp的第6个碱基全部是G和C，这个位置是用来平衡5bp末尾建库连接过程中产生的T碱基。

MGI的泡状接头前端是8个碱基(如图1所示，其中的XXXXXXXXXX代表index序列，用于区分文库)，在这8个碱基之前加上5bp或6bp，使接头前端互补的碱基达到13bp或14bp，这样加不加后端12bp碱基互补序列，前端的互补也可以使接头退火形成稳定二级结构(如图2所示)。32个UMI序列接头正向和反向序列上的UMI分别如下表1：

表1：

。

本发明的另一种接头的改进方式是，接头还是泡状接头，只是前端加上3个碱基的随机序列，为了使末端的T碱基在测序过程中的平衡性，其中一半的唯一标签序列前端加一个碱基G或C(如图3所示)。而后端的index序列是通过PCR扩增的方式加上。这种3个碱基的唯一标签序列有64种组合(4*4*4＝64)。下面简列其中两种接头的四条序列(下列序列中的*号表示硫代修饰，将T碱基3’端的-OH上的O用S修饰，以防止接头被内切酶切掉)：

MGI-3bp-1F：SEQ ID NO:9：

5’-TTGTCTTCCTAAGGAACGACATGGCTACGATCCGACTTTTA*T-3’

MGI-3bp-1R：SEQ ID NO:10：

/5Phos/TAAAAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’

MGI-S+3bp-1F：SEQ ID NO:11：

5’-TTGTCTTCCTAAGGAACGACATGGCTACGATCCGACTTGGTG*T-3’

MGI-S+3bp-1R：SEQ ID NO:12：

/5Phos/CACCAAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’

详细的64种唯一标签序列如下(表2)，A开头的分子标签前面加C碱基，T开头的分子标签前面加G碱基。

表2：

接头序号	S+3bp标签序列	接头序号	3bp标签序列
				MGI-S+3bp-1	5'Phos-CAAA-3'	MGI-3bp-1	5'Phos-CAA-3'
MGI-S+3bp-2	5'Phos-CAAC-3'	MGI-3bp-2	5'Phos-CAC-3'
				MGI-S+3bp-3	5'Phos-CAAG-3'	MGI-3bp-3	5'Phos-CAG-3'
MGI-S+3bp-4	5'Phos-CAAT-3'	MGI-3bp-4	5'Phos-CAT-3'
				MGI-S+3bp-5	5'Phos-CACA-3'	MGI-3bp-5	5'Phos-CCA-3'
MGI-S+3bp-6	5'Phos-CACC-3'	MGI-3bp-6	5'Phos-CCC-3'
				MGI-S+3bp-7	5'Phos-CACG-3'	MGI-3bp-7	5'Phos-CCG-3'
MGI-S+3bp-8	5'Phos-CACT-3'	MGI-3bp-8	5'Phos-CCT-3'
				MGI-S+3bp-9	5'Phos-CAGA-3'	MGI-3bp-9	5'Phos-CGA-3'
MGI-S+3bp-10	5'Phos-CAGC-3'	MGI-3bp-10	5'Phos-CGC-3'
				MGI-S+3bp-11	5'Phos-CAGG-3'	MGI-3bp-11	5'Phos-CGG-3'
MGI-S+3bp-12	5'Phos-CAGT-3'	MGI-3bp-12	5'Phos-CGT-3'
				MGI-S+3bp-13	5'Phos-CATA-3'	MGI-3bp-13	5'Phos-CTA-3'
MGI-S+3bp-14	5'Phos-CATC-3'	MGI-3bp-14	5'Phos-CTC-3'
				MGI-S+3bp-15	5'Phos-CATG-3'	MGI-3bp-15	5'Phos-CTG-3'
MGI-S+3bp-16	5'Phos-CATT-3'	MGI-3bp-16	5'Phos-CTT-3'
				MGI-S+3bp-17	5'Phos-GTAA-3'	MGI-3bp-17	5'Phos-GAA-3'
MGI-S+3bp-18	5'Phos-GTAC-3'	MGI-3bp-18	5'Phos-GAC-3'
				MGI-S+3bp-19	5'Phos-GTAG-3'	MGI-3bp-19	5'Phos-GAG-3'
MGI-S+3bp-20	5'Phos-GTAT-3'	MGI-3bp-20	5'Phos-GAT-3'
				MGI-S+3bp-21	5'Phos-GTCA-3'	MGI-3bp-21	5'Phos-GCA-3'
MGI-S+3bp-22	5'Phos-GTCC-3'	MGI-3bp-22	5'Phos-GCC-3'
				MGI-S+3bp-23	5'Phos-GTCG-3'	MGI-3bp-23	5'Phos-GCG-3'
MGI-S+3bp-24	5'Phos-GTCT-3'	MGI-3bp-24	5'Phos-GCT-3'
				MGI-S+3bp-25	5'Phos-GTGA-3'	MGI-3bp-25	5'Phos-GGA-3'
MGI-S+3bp-26	5'Phos-GTGC-3'	MGI-3bp-26	5'Phos-GGC-3'
				MGI-S+3bp-27	5'Phos-GTGG-3'	MGI-3bp-27	5'Phos-GGG-3'
MGI-S+3bp-28	5'Phos-GTGT-3'	MGI-3bp-28	5'Phos-GGT-3'
				MGI-S+3bp-29	5'Phos-GTTA-3'	MGI-3bp-29	5'Phos-GTA-3'
MGI-S+3bp-30	5'Phos-GTTC-3'	MGI-3bp-30	5'Phos-GTC-3'
				MGI-S+3bp-31	5'Phos-GTTG-3'	MGI-3bp-31	5'Phos-GTG-3'
MGI-S+3bp-32	5'Phos-GTTT-3'	MGI-3bp-32	5'Phos-GTT-3'

。

发明人在研究中还发现，当采用本申请上述改进后的相对较短的接头进行建库时，这种相比原来的泡状接头(如图1所示的)在建库转化方面更有优势，转化效率更高。在相同的血浆碎片DNA投入量前提下，这种截短的接头比原来的长接头在文库转化效率上提升近2倍。发明人分析，本申请改进后的短接头的提升建库转化效率主要有两方面原因：一)短接头更容易和目的片段碰撞到一起，有利于连接；二)截短接头(通常是过量的)产生的二聚体在后续纯化过程中更容易被筛选掉，因而提升接头比例有利于提升连接效率，从而提高建库转化效率。

在上述研究结果的基础上，申请人提出了本申请的技术方案。在一种典型的实施方式中，提供了一种基于MGI测序平台的血浆DNA的建库方法，该建库方法包括：对血浆DNA进行末端修复及加A，得到修复DNA；采用带有唯一标签序列的接头对修复DNA依次进行接头连接和PCR扩增，得到血浆DNA的测序文库。

上述血浆DNA的建库方法中，通过采用带有唯一标签序列的接头对修复加A后的血浆DNA进行接头连接，进而构建成血浆DNA的测序文库，这样形成的文库便于在后期对测序数据分析的时候，根据接头上所带的唯一标签序列能够将建库扩增或测序扩增所产生的重复，与血浆DNA中真实的重复片段区分出来，进而去除扩增重复而保留血浆碎片DNA本身存在的重复，使得来源于血浆DNA的有效数据量得以提升，从而一定程度上提高了血浆DNA的建库效率。

上述带有唯一标签序列的接头的具体序列，可以在现有的基于MGI测序平台原有的泡状接头的前端8个碱基之前，根据实际需要设计合适的标签序列。在本申请一种优选的实施例中，上述带有唯一标签序列的接头采用图2中A1所示的第一Y接头和B1所示的第二Y接头的混合接头；

A1:第一Y接头

B1:第二Y接头

其中，N为A、T、C或G，第一Y接头中的NNNNN序列与第二Y接头中的NNNNNN序列均代表唯一标签序列。

如前述，上述第一Y接头中的唯一标签序列是5bp的，而为了进一步使接头更稳定以及碱基在测序的过程中AT和GC更平衡，同时采用带有6bp唯一标签序列的第二Y接头与前述第一Y接头共同使用。而上述N代表的具体序列可以是随机产生的，也可以是人为设计而成，只要能够满足上述要求即可。

在本申请另一种优选的实施例中，上述唯一标签序列可以包括下表1所示的16个第一Y接头的5bp标签序列和16个第二Y接头的6bp标签序列：

表1：

。

上述表1所示的5bp和6bp的唯一标签序列中，相同序号的接头成对使用时，更能保持测序过程中碱基的平衡。

根据发明人改进的第二种接头，在本申请一种优选的实施例中，上述带有唯一标签序列的接头采用图3中A2所示的第一泡状接头和B2所示的第二泡状接头的混合接头；

A2：第一泡状接头

B2:第二泡状接头

其中，N为A、T、C或G，S表示G或C，第一泡状接头中的NNN序列与第二泡状接头中的SNNN序列均代表唯一标签序列。

这种泡状接头相比图1所示的原来的接头，序列短，具有连接效率高且接头形成的二聚体便于除去，从而使得后续文库中的血浆DNA片段的比例提升，从而提高有效产出量。

类似地，上述NNN或者SNNN所代表的唯一标签序列的具体序列可以随机产生，也可以人为设计。在一种优选的实施例，上述唯一标签序列包括下表2所示的第一泡状接头的3bp标签序列和第二泡状接头的S+3bp标签序列：

表2：

。

带有表2所示的唯一标签序列的接头在使用时，最好以相同数量的MGI-3bp的接头和相同数量的MGI-S+3bp的接头同时使用，以尽量保持测序过程中的碱基平衡。

本申请的建库方法是针对MGI测序平台的，MGI测序平台建好的线性文库不能直接上机测序，需要环化成单链环状文库才能上机测序。因而上述在进行末端修复及改进的接头连接后，后续步骤采用现有的方法进行即可。因而，本申请的上述建库方法在对末端修复后的血浆DNA进行接头连接后，PCR扩增，得到血浆DNA的测序文库的步骤同样包括：对接头连接后的血浆DNA进行PCR扩增，得到线性文库；对线性文库进行连接环化，得到血浆DNA的测序文库。

上述对线性文库进行连接环化的步骤，可以采用现有的连接环化步骤，也可以采用在现有方法上改进的操作进行。在本申请一种优选的实施例中，对线性文库进行连接环化的步骤中，采用成环陪伴序列以及Taq DNA连接酶进行连接环化；优选地，连接环化进行1～5次。

上述成环陪伴序列采用现有的即可。文库结构和陪伴序列如图4所示(其中，文库中的A区域表示带有通用接头的一端，B区域表示插入片段，C区域表示带有index的接头一端，其中X代表index序列)。成环陪伴序列(Bridge Oligo)如下：

SEQ ID NO13：3’-GTTGAGGAACCGAGTGTCTTGCTGTACCGATGCT-5’。

连接环化效率的高低会影响MGI的测序质量，尤其对建库捕获的测序过程，如果环化效率低，则需要将捕获完的文库进行更多次数的PCR扩增，而过多的PCR扩增会产生扩增偏差和扩增重复数据的产生，这样不利于MGI测序平台对低频突变的检测(包括检测的灵敏度和准确性)。

由于陪伴序列和文库互补在一起，需要变性和复性过程，如果只进行一次，连接效率受文库和互补序列退火在一起的数量影响，没有退火在一起的则无法连接。为了进一步提高成环效率和适应Taq DNA连接酶的最佳连接活性，上述优选实施例中，连接时选择热不失活的Taq DNA连接酶，这样就可以进行反复多次变性和退火连接反应。在一种具体反应过程中，可以采用如下步骤：文库与成环陪伴序列在95℃变性15～45s，然后50℃复性连接60～240s，反复进行2～5次左右。上述变性的时间根据实际需要合理设置，比如可以在上述15～45s之间合理调整。同样50℃复性的连接时间可以根据实际需要合理调整，比如可以在上述60～240s之间合理设置。

本申请中，发明人还发现T4 DNA聚合酶在DNA投入量微量时(比如≤5ng时)投入酶多过不利于文库转化率提高，因为T4 DNA聚合酶的回切能力很强，DNA量不足和dNTP浓度不适当时，其会把DNA片段回切出5’端切口。为此，在本申请一种优选的实施例中，对血浆DNA进行末端修复及加A的步骤中，采用末端修酶进行末端修复，修复酶包括T4 DNA聚合酶和Kelnow酶，其中，在单个反应中，T4 DNA聚合酶的用量为1U～3U，优选为1U～1.5U。对低DNA投入量，尤其是血浆DNA样本，T4 DNA聚合酶在单个反应中1U-1.5U效果最好，对于3U时，对血浆DNA建库不利。

需要说明的是，上述建库方法中，在末端修复步骤之后、接头连接步骤之后、成环连接之后以及PCR扩增之后，均可以根据需要合理设置纯化的步骤，比如，接头连接步骤后进行纯化可以有效去除接头形成的二聚体，从而减少文库中的接头重复片段，提高血浆DNA片段的有效数据量。

基于上述对血浆DNA建库过程中的试剂的改进和优化，在本申请第二种典型的实施方式中，提供了一种基于MGI测序平台的血浆DNA的建库试剂盒，该试剂盒包括带有唯一标签序列的接头。通过采用带有唯一标签接头的试剂盒进行血浆DNA建库，所构建的测序文库便于在后期对测序数据分析的时候，根据接头上所带的唯一标签序列能够将建库扩增或测序扩增所产生的重复，与血浆DNA中真实的重复片段区分出来，进而去除扩增重复而保留血浆碎片DNA本身存在的重复，使得来源于血浆DNA的有效数据量得以提升，从而一定程度上提高了血浆DNA的建库效率。

上述试剂盒中，带有唯一标签序列的接头的具体序列，可以在现有的基于MGI测序平台原有的泡状接头的前端8个碱基之前，根据实际需要设计合适的标签序列。在本申请一种优选的实施例中，带有唯一标签序列的接头为上述A1所示的第一Y接头和B1所示的第二Y接头的混合接头；优选地，唯一标签序列包括表1所示的16个第一Y接头的5bp标签序列和16个第二Y接头的6bp标签序列。

在本申请另一种优选的实施例中，带有唯一标签序列的接头采用上述A2所示的第一泡状接头和B2所示的第二泡状接头的混合接头；优选地，唯一标签序列包括表2所示的第一泡状接头的3bp标签序列和第二泡状接头的S+3bp标签序列。

为了进一步提高建库过程中，线性文库在连接成环过程中的连接成环效率，在本申请一种优选的实施例中，上述试剂盒还包括成环陪伴序列和Taq DNA连接酶。成环陪伴序列可以采用上述SEQ ID NO13：的序列。Taq DNA连接酶，对于单个文库(≤200ng)而言，其用量可以是40～80U。

下面将结合具体的实施例来进一步说明本申请的有益效果。

实施例1高效的血浆建库试剂盒

以下就是本发明人根据血浆碎片DNA的特性优化反应酶的组成和反应缓冲液兼容性做的实验对比实例，对比的建库试剂盒是目前市面上最好的建库试剂盒KAPA Hyper文库构建试剂盒(货号kk8505),对比实验KAPA Hyper建库试剂盒严格按照说明书操作，血浆碎片DNA投入量和接头加入量完全一致。

1.血浆DNA提取

取2-5mL血浆，使用货号为55114的QIAamp Circulating Nucleic Acid Kit提取血浆DNA。最后用100μl的洗脱缓冲液洗脱DNA，取2μl Qubit测定浓度。

2.血浆DNA补平加A和磷酸化

制备表1-1中的反应混合液：

表1-1：

Τ4 DNA聚合酶缓冲液(10X)	5μl
		血浆DNA	39μl
Taq(3’末端加A)	0.5-1μl
		T4 DNA聚合酶和Kelnow酶	0.5-2μl
T4 DNA PNK(5’末端磷酸化酶)	0.5-2μl
		10mM dNTP	1.0μl
H<sub>2</sub>O	0-3.5μl
		总体积	50μl

PCR仪上反应：

20℃：30min

65℃：30min

10℃：保持

3.接头连接

制备表1-2中的反应混合液：

表1-2：

步骤一反应产物	50μl
		2×快速连接酶缓冲液	55μl
5μM32种唯一标签序列接头	3μl
		T4 DNA连接酶(HC)	2μl
总体积	110μl

PCR仪上反应：

20℃：15min

10℃：保持

4.磁珠纯化

用AMPure XP Beads磁珠纯化，加入磁珠体积是50μl，按照AMPure XP Beads说明书操作，洗脱体积是24μl。

5.文库PCR扩增

5.1 PCR(体系100μl)，制备表1-3中的反应混合液：

表1-3：

2X HiFi PCR Master Mix	25μl
		扩增引物mix	2μl
步骤4中的产物	23μl
		总体积	50μl

5.2 PCR反应条件如表1-4：

表1-4：

6.文库磁珠纯化和定量

用AMPure XP Beads磁珠纯化，纯化按照AMPure XP Beads说明书进行，纯化后的文库用qubit测定文库浓度，本次对比实验分别做了1ng和5ng的血浆碎片DNA投入量，分别用本申请的优化流程和KAPA Hyper建库试剂盒操作，在接头投入量相同，扩增循环数都相同的条件下进行分别建库。

结果如图5所示，当采用1ng的血浆碎片DNA投入量时，KAPA Hyper建库试剂的文库产量是860ng，而本申请的产量是1305ng，后者比前者高出51.7％。当采用5ng的血浆碎片DNA投入量时，KAPA Hyper建库试剂的文库产量是920ng，而本申请的产量是1444ng，后者比前者高出57.0％。可见，本申请优化的流程在文库出库产量方面要比KAPA Hyper建库试剂盒高至少50％，说明本发明的在文库转化效率比KAPA Hyper建库试剂盒的建库效率高。而这对利用血浆碎片DNA检测低频突变很有帮助。

7.文库环化反应

7.1连接环化

1)在冰上按如下体系配制反应混合液：

2)在PCR仪上反应，反应程序如表1-5所示。

表1-5：

7.2消化

1)在上述反应中加入

Exo I 1μl

Exo III 1μl

2)反应条件：37℃20min。

7.3纯化回收

用1.5倍AMPure XP Beads磁珠回收，按AMPure XP Beads说明书上说明进行，42μl洗脱。

7.4浓度测定

使用Qubit^TMssDNA Assay Kit单链DNA定量试剂盒对文库进行定量。文库浓度应大于0.78ng/μl。

实施例2 T4 DNA聚合酶的最适浓度测试

该实施例步骤和实施例1相同，唯一的区别是在做5ng血浆DNA建库时，其中2个文库T4 DNA聚合酶的用量是0.5μl(1.5U)，2个文库T4 DNA聚合酶的用量是1μl(3U)，另外2个文库T4 DNA聚合酶的用量是2μl(6U)。最后对文库产出量进行比较，比较结果如下表2-1。

从表2-1可以看出，T4 DNA聚合酶在1.5U和3U时的产量要明显比6U时的高出很多，T4 DNA聚合酶的量在大于3U时文库产量明显降低。而且，发明人在实验中发现T4 DNA聚合酶的量在1U-1.5U时文库转化效率相对最高。

表2-1.T4 DNA聚合酶两个浓度梯度条件下的文库产量

文库名称	血浆量	T4 DNA聚合酶用量	扩增循环数	出库量
					文库1	5ng	1.5U	12	1367ng
文库2	5ng	1.5U	12	1341ng
					文库3	5ng	3U	12	1255ng
文库4	5ng	3U	12	1236ng
					文库5	5ng	6U	12	889ng
文库6	5ng	6U	12	875ng

。

实施例3低频突变的有效检测

该实施例的步骤和实施例1相同，唯一的区别是血浆的起始量分别是10ng和25ng，这两个血浆DNA是由甲血浆和乙血浆混合，血浆混合种类和比例如下表3-1。10ng的血浆是按照甲血浆和乙血浆99比1的比例混合，25ng的血浆是按照甲血浆和乙血浆998比2的比例混合。甲血浆是纯合野生型，乙血浆的位点一半是杂合性，另一半是纯合突变型，这样10ng的血浆样本突变位点就有1％和0.5％两种组合，25ng的血浆样本就有0.1％和0.2％两种组合

表2-1血浆混合比例

10ng和25ng建库后混合在一起杂交捕获，捕获芯片是针对甲和乙血浆样本的SNP位点设计，针对100多个已知SNP位点，在IDT公司合成200多条探针，杂交捕获按照IDT杂交捕获说明书操作，测序由MGI平台MGI2000完成，100PE数据产出如下表3-2，10ng的靶向区域的测序深度是128721，25ng的靶向区域的测序深度是91488，测序深度完全符合分析要求。

表3-2：

建库样本量	10ng文库	25ng文库
			位点平均测序深度	128721.642	91488.51235
中靶率	49.10％	49.30％
			冗余度	73.70％	72.10％
比对率	99.60％	99.70％

由于血浆建库的研究，目前主要集中在体细胞突变或者是孕妇中研究胎儿的遗传情况方面，都是低频突变和占少数比例的位点检测。加之高通量测序过程中会产生测序错误，如果不加唯一标签序列，低频突变的真假真难以分辨。

如前述，本申请针对MGI平台的接头特点，分别优化了两种唯一标签序列，一种是Y型接头的32种唯一标签序列，另一种是泡状接头的64种唯一标签序列。通过唯一标签序列可以把测序过程种产生的不存在的序列过滤掉，校准测序数据的真实性。

发明人还针对实施例3的样本，进行了测序数据的真实性检测和比对，结果见图6和图7。

如图6和图7所示(其中，图6为灵敏度检测，图7为特异性检测，NO-UMI指不计算UMI，SS表示单链single stranded，DSD表示double stranded duplex,DS family表示double stranded family，分别表示三种不同的去重方式)，在10ng的1％突变水平和25ng的0.2％的突变水平可以很好的展示分析数据的真阳性(由于本实施例为模拟的混样数据，因而能够区分真实突变和假阳性突变，在这两个突变水平下，真阳性已经达到100％)的分析数据，而在10ng的0.5％突变水平和25ng的0.1％突变水平(还未达到100％，尤其是25ng的0.1％突变水平的)分析还不能准确判断真阳性的水平，表明要想达到更低的突变检测能力，还需要增加文库的投入量(比如血浆DNA投入量加倍)。

唯一标签序列不仅可以使低频突变分析更准确，还可以增加测序的数据量，如果不加唯一标签序列，血浆DNA中同起始和同终止的序列会被误认为是重复数据，其实有一些是真实存在的数据，而在建库起始量更多的时候这种情况尤为明显，如图8所示。当建库起始量为10ng时，不加唯一标签序列所损失的数据量占20.9％，而当建库起始量增加到25ng时，不加唯一标签序列所损失的数据量的占比则增加至29.8％。

综上所述，本申请针对血浆建库的特点和应用场景，特别优化了一款针对血浆DNA的建库方法和建库试剂盒，本申请提供了两种带有分子唯一序列接头的建库方案。一种是前端一半加5bp，另一半加6bp的Y型唯一标签序列接头。另一种是前端一半加3bp，另一半加4bp的泡状唯一标签序列接头。加入唯一标签序列接头的MGI平台血浆建库方法和试剂盒不仅能够通过提高文库中血浆DNA的有效数据量来提高建库效率，而且可以过滤掉由PCR扩增和测试错误产生的突变，使低频突变的分析更准确和可靠。

此外，为进一步提升文库转化效率，还特异针对血浆DNA优化了反应的修复酶的用量，使转化效率比目前最好的商业建库试剂盒转化效率提升50％。同时针对MGI的测序平台上机需要环化步骤，还提供了一个更高效的连接环化方案。因此，本申请解决了目前血浆建库试剂盒的转化效率低的问题。这种改进既适用于MGI测序平台，同时也适用于Illumina平台的仪器。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。

序列表

<110> 纳昂达（南京）生物科技有限公司

<120> 血浆DNA的建库方法和建库试剂盒。

<130> PN102953NAGD

<160> 13

<170> SIPOSequenceListing 1.0

<210> 1

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'端进行磷酸化修饰

<220>

<221> misc_feature

<222> (1)..(5)

<223> n为 a, t, c 或g

<400> 1

nnnnnaagtc ggaggccaag cggtcttagg aagacaa 37

<210> 2

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (31)..(31)

<223> T碱基3’端的-OH上的O进行S修饰

<220>

<221> misc_feature

<222> (26)..(30)

<223> n为a,t,c或g

<400> 2

gaacgacatg gctacgatcc gacttnnnnn t 31

<210> 3

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'端进行磷酸化修饰

<220>

<221> misc_feature

<222> (1)..(6)

<223> n为a,t,c或g

<400> 3

nnnnnnaagt cggaggccaa gcggtcttag gaagacaa 38

<210> 4

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (32)..(32)

<223> T碱基3’端的-OH上的O用S修饰

<220>

<221> misc_feature

<222> (26)..(31)

<223> n为a,t,c或g

<400> 4

gaacgacatg gctacgatcc gacttnnnnn nt 32

<210> 5

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'端进行磷酸化修饰

<220>

<221> misc_feature

<222> (1)..(3)

<223> n为a,t,c或g

<400> 5

nnnaagtcgg aggccaagcg gtcttaggaa gacaa 35

<210> 6

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (42)..(42)

<223> T碱基3’端-OH上的O用S修饰

<220>

<221> misc_feature

<222> (39)..(41)

<223> n为a,t,c或g

<400> 6

ttgtcttcct aaggaacgac atggctacga tccgacttnn nt 42

<210> 7

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'端进行磷酸化修饰

<220>

<221> misc_feature

<222> (2)..(4)

<223> n为a,t,c或g

<400> 7

snnnaagtcg gaggccaagc ggtcttagga agacaa 36

<210> 8

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (43)..(43)

<223> T碱基3’端-OH上的O用S修饰

<220>

<221> misc_feature

<222> (39)..(41)

<223> n为a,t,c或g

<400> 8

ttgtcttcct aaggaacgac atggctacga tccgacttnn nst 43

<210> 9

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (39)..(41)

<223> 标签序列

<220>

<221> misc_feature

<222> (42)..(42)

<223> T碱基3'端-OH上的O用S修饰

<400> 9

ttgtcttcct aaggaacgac atggctacga tccgactttt at 42

<210> 10

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'端进行磷酸化修饰

<220>

<221> misc_feature

<222> (1)..(3)

<223> 标签序列

<400> 10

taaaagtcgg aggccaagcg gtcttaggaa gacaa 35

<210> 11

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (39)..(42)

<223> 标签序列

<220>

<221> misc_feature

<222> (43)..(43)

<223> T碱基3’端-OH上的O用S修饰

<400> 11

ttgtcttcct aaggaacgac atggctacga tccgacttgg tgt 43

<210> 12

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'端进行磷酸化修饰

<220>

<221> misc_feature

<222> (1)..(4)

<223> 标签序列

<400> 12

caccaagtcg gaggccaagc ggtcttagga agacaa 36

<210> 13

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(34)

<223> 成环陪伴序列

<400> 13

gttgaggaac cgagtgtctt gctgtaccga tgct 34

Claims

1.一种基于MGI测序平台的血浆DNA的建库方法，所述建库方法包括：

对血浆DNA进行末端修复及加A，得到修复DNA；

采用带有唯一标签序列的接头对所述修复DNA依次进行接头连接和PCR扩增，得到所述血浆DNA的测序文库。

2.根据权利要求1所述的建库方法，所述带有唯一标签序列的接头采用A1所示的第一Y接头和B1所示的第二Y接头的混合接头；

A1：第一Y接头

B1：第二Y接头

其中，N为A、T、C或G，所述第一Y接头中的NNNNN序列与所述第二Y接头中的NNNNNN序列均代表所述唯一标签序列；

优选地，所述唯一标签序列包括下表1所示的16个所述第一Y接头的5bp标签序列和16个所述第二Y接头的6bp标签序列：

表1：

接头序号 5bp标签序列接头序号 6bp标签序列 MGI-5bp-1 5'Phos-GCTAG-3' MGI-6bp-1 5'Phos-GACGAT-3' MGI-5bp-2 5'Phos-GAGCA-3' MGI-6bp-2 5'Phos-GCTCTT-3' MGI-5bp-3 5'Phos-AGCGT-3' MGI-6bp-3 5'Phos-CGGAAT-3' MGI-5bp-4 5'Phos-CTCCA-3' MGI-6bp-4 5'Phos-GCATGA-3' MGI-5bp-5 5'Phos-TGGAC-3' MGI-6bp-5 5'Phos-CATCAC-3' MGI-5bp-6 5'Phos-CAAGC-3' MGI-6bp-6 5'Phos-GACATC-3' MGI-5bp-7 5'Phos-TCGTG-3' MGI-6bp-7 5'Phos-CTAGTC-3' MGI-5bp-8 5'Phos-GTACG-3' MGI-6bp-8 5'Phos-CGATCG-3' MGI-5bp-9 5'Phos-CGAGT-3' MGI-6bp-9 5'Phos-CATTGC-3' MGI-5bp-10 5'Phos-GCACT-3' MGI-6bp-10 5'Phos-CTGATG-3' MGI-5bp-11 5'Phos-TACCG-3' MGI-6bp-11 5'Phos-CAACTG-3' MGI-5bp-12 5'Phos-GTCAG-3' MGI-6bp-12 5'Phos-CTCTGT-3' MGI-5bp-13 5'Phos-GACTC-3' MGI-6bp-13 5'Phos-GCCTAT-3' MGI-5bp-14 5'Phos-TGTCC-3' MGI-6bp-14 5'Phos-GCCTTA-3' MGI-5bp-15 5'Phos-ACCGA-3' MGI-6bp-15 5'Phos-GCGTAA-3' MGI-5bp-16 5'Phos-AGGGA-3' MGI-6bp-16 5'Phos-GTAACC-3'

。

3.根据权利要求1所述的建库方法，所述带有唯一标签序列的接头采用A2所示的第一泡状接头和B2所示的第二泡状接头的混合接头；

A2：第一泡状接头

B2：第二泡状接头

其中，N为A、T、C或G，S表示G或C，所述第一泡状接头中的NNN序列与所述第二泡状接头中的SNNN序列均代表所述唯一标签序列；

优选地，所述唯一标签序列包括下表2所示的所述第一泡状接头的3bp标签序列和所述第二泡状接头的S+3bp标签序列：

表2：

4.根据权利要求1至3中任一项所述的建库方法，对末端修复后的所述血浆DNA进行接头连接后，所述PCR扩增，得到所述血浆DNA的测序文库的步骤包括：

对接头连接后的所述血浆DNA进行PCR扩增，得到线性文库；

对所述线性文库进行连接环化，得到所述血浆DNA的测序文库。

5.根据权利要求4所述的建库方法，对所述线性文库进行连接环化的步骤中，采用成环陪伴序列以及Taq DNA连接酶进行所述连接环化；

优选地，所述连接环化进行1～5次。

6.根据权利要求1所述的建库方法，对血浆DNA进行末端修复及加A的步骤中，采用末端修酶进行所述末端修复，所述修复酶包括T4 DNA聚合酶和Kelnow酶，其中，在单个反应中，所述T4 DNA聚合酶的用量为1U～3U，优选为1U～1.5U。

7.一种基于MGI测序平台的血浆DNA的建库试剂盒，所述试剂盒包括带有唯一标签序列的接头。

8.根据权利要求7所述的试剂盒，所述带有唯一标签序列的接头为A1所示的第一Y接头和B1所示的第二Y接头的混合接头；

A1：第一Y接头

B1：第二Y接头

优选地，所述唯一标签序列包括表1所示的16个所述第一Y接头的5bp标签序列和16个所述第二Y接头的6bp标签序列。

9.根据权利要求7所述的试剂盒，所述带有唯一标签序列的接头采用A2所示的第一泡状接头和B2所示的第二泡状接头的混合接头；

A2：第一泡状接头

B2：第二泡状接头

优选地，所述唯一标签序列包括表2所示的所述第一泡状接头的3bp标签序列和所述第二泡状接头的S+3bp标签序列。

10.根据权利要求7所述的试剂盒，所述试剂盒还包括成环陪伴序列和Taq DNA连接酶。