CN109706219A

CN109706219A - 构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法

Info

Publication number: CN109706219A
Application number: CN201811564951.6A
Authority: CN
Inventors: 张亚晰; 刘仲祥; 王海波
Original assignee: Zhen (beijing) Technology Co Ltd
Current assignee: Zhen (beijing) Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-03

Abstract

本发明提供了一种构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法。试剂盒包括多个分子标签接头组和多个I5‑index引物序列及多个I7‑index引物序列，每个分子标签接头组包括多个分子标签接头，每个分子标签接头包含分子标签序列，任意两个分子标签接头上的分子标签序列不同、任意两个I5‑index引物序列上的index不同，任意两个I7‑index引物序列上的index不同。通过包含多组分子标签接头组及多组I5/I7Index引物序列组，能够利用分子标签接头和I5Index和I7Index三个标签共同标记样本，实现了更高的平行上机通量。

Description

构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法

技术领域

本发明涉及高通量测序技术领域，具体而言，涉及一种构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法。

背景技术

第一代测序技术的主要特点是测序读长长，准确性高，但其测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用。近年来，二代测序技术逐渐成熟，其具有通量高，速度快，测序成本低等优势，在科研上和临床上的应用也越来越广泛。

提升测序效率的迫切需求促使了多样品混合测序的快速普及，随着HiSeq 3000/4000， HiSeq X Ten和NovaSeq等型号仪器的面世，对平行上机的文库通量提出了更高的要求。根据测序数据量的不同，NovaSeq可以同时上机几百甚至上千个样本。传统的单端index标签已经不能满足测序样本的平行上机需求，越来越多的人们转向了双端Index组合，M条I5Index 和N条I7Index可以实现MxN个文库的平行上机。这样的组合应用看上去突破了通量的限制，但后期的应用发现了新的问题。

2017年初，美国Standford大学的科研工作者Sinha，利用illumina Hiseq 4000对RNA样本进行测序，41个独特的细胞亚群被认为是造血干细胞群，但难以重复的实验结果使他发现，那些“激动人心的结果”只不过是在illumina ExAmp平台的交叉污染产生的“镜花水月”。相同的文库用Nextseq 500进行测序，大部分交叉污染消失了，那些“激动人心的结果”也再没有重复出来。今年4月份，illumina公布了题为“Effects of IndexMisassignment on Multiplexing and Downstream Analysis”的白皮书，坦陈了illumina一些高通量型号，如HiSeq 3000/4000， Hiseq X Series及NovaSeq等仪器，容易出现样品标签错配(index misassignment)的问题，而这些仪器的共同点在于，都采用了新型的以Nano-Well为特点的Patterned Flow Cell Technology(PFCT)，簇生成方式也有别于传统的桥式PCR，换成了ExAmp(Exclusion Amplification，排他性扩增)。白皮书上提出了一个过滤Index跳跃的数据的解决方案，就是使用特异性的双端Index(Unique-Dual-Index)，即每个文库既要有特异的I5Index还要有特异的 I7Index。但这样能平行上机文库数量不再是MxN(I5端Index数量为M，I7端Index数量为 N)，而是只能上机n个样本(n为M和N中的最小值)。在保证编辑距离的前提下，按照目前主流的设计Index长度为8nt，只能设计出约400对特异性的双端Index。如何能进一步扩展 Index的数量，是否有其他更好的方案来替代特异性双端Index，是一个高通量测序时代亟待解决的问题。

而且，随着二代测序技术的发展，以血液为检材的液体活检，凭借无创、便捷等优势在临床应用中展现出广大前景。与现有肿瘤检测方法相比，液体活检无侵入性、可频繁多次检测及快速反应能力均体现出显着的优势。无论是母体血液中的胎源DNA，器官移植患者血液中的移植器官来源的DNA，还是肿瘤患者血液游离ctDNA都只占游离血浆DNA---cfDNA的极少一部分，本来血浆cfDNA的含量就不高，而检测特别关注的信息被大量的cfDNA所稀释，这样对稀有变异的检出的灵敏度提出了更高的要求。

由于胎源DNA在10周时一般约在2％～5％，ctDNA含量约占cfDNA的0.01％-1％，而二代测序技术的背景噪音也在1％左右，如果为了保证检测特异性，根据突变频率将变异全部过滤，那么就会导致胎源DNA或ctDNA所携带的低频真实突变也会被殃及，检测的灵敏度很可能达不到检测的需求。

因此，仍需要对现有技术进行改进，以提高测序通量，尤其是适用于对游离DNA样本的高通量测序。

发明内容

本发明的主要目的在于提供一种构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法，以解决现有技术中因index跳跃导致的测序通量难以进一步提高的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种构建测序文库的试剂盒，试剂盒包括：多个分子标签接头组，每个分子标签接头组包括多个分子标签接头，每个分子标签接头包含分子标签序列，多个I5-index引物序列及与多个I5-index引物序列对应的多个I7-index 引物序列；其中，任意两个分子标签接头上的分子标签序列不同、任意两个I5-index引物序列上的index不同，任意两个I7-index引物序列上的index不同。

进一步地，每个分子标签接头组中，分子标签接头的数量相等。

进一步地，每个分子标签接头以双链形式存在；优选以双链固定序列的形式存在。

进一步地，每个分子标签接头组包括8～30个分子标签接头；优选每个分子标签序列的长度为3～10nt。

进一步地，I5-index引物序列和I7-index引物序列各自分别有10～200条index。

进一步地，每个分子标签序列、每个I5-index引物序列上的index及每个I7-index引物序列上的index之间的编辑距离为2～4。

根据本发明的另一方面，提供了一种构建测序文库的方法，该方法包括：利用M个分子标签接头组对M个样本组DNA进行接头连接，得到连接产物，其中，每个样本组包含N个样本；利用N条I5-index引物序列与N条I7-index引物序列对每个样本组中的N个样本的连接产物进行扩增，得到M*N个样本的测序文库；其中，每个分子标签接头组包括多个分子标签接头，每个分子标签接头上带有分子标签序列，任意两个分子标签接头上的分子标签序列不同、任意两个I5-index引物序列上的index不同，任意两个I7-index引物序列上的index不同，其中，M和N均为≥2的自然数，且N≥M，M*N个样本的测序文库中，任意两个样本的测序文库中至少如下之二存在不同：分子标签序列、I5-index引物序列上的index及I7-index 引物序列上的index。

进一步地，位于同一组分子标签接头组的样本中，任意两个样本的I5-index引物序列上的 index不同，且I7-index引物序列上的index也不同。

进一步地，位于不同的分子标签接头组的样本中，任意两个样本的I5-index引物序列上的 index和/或I7-index引物序列上的index不同。

进一步地，分子标签接头的数量相等；优选地，每个分子标签接头以双链形式存在，更优选以双链固定序列的形式存在；优选地，每个分子标签接头组包括8～30个分子标签接头；优选地，每个分子标签序列的长度为3～10nt。

根据本发明的一个方面，提供了一种高通量测序混样上机方法，上机方法包括：将上述任一种方法所构建的M*N个样本的测序文库进行等量混合，得到混合样本文库；将混合样本文库进行上机测序。

根据本发明的一个方面，提供了一种测序数据的拆分方法，测序数据为上述任一种方法所构建的测序文库经测序得到的测序数据，拆分方法包括：按照分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index对测序数据进行样本拆分。

进一步地，分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index 中任一个在不同样本中存在相同时，按照其余两个对测序数据进行样本拆分。

进一步地，拆分方法包括：根据分子标签序列所在的分子标签接头组的不同，将测序数据拆分到不同的样本组；在每个样本组内，根据I5-index引物序列上的index及I7-index引物序列上的index的不同，将样本组内的测序数据拆分到不同的样本中。

进一步地，在按照分子标签序列、I5-index引物序列上的index及I7-index引物序列上的 index对测序数据进行样本拆分之前，拆分方法还包括如下至少之一：通过编辑距离矫正分子标签序列、I5-index引物序列上的index以及I7-index引物序列上的index；对不符合预期的分子标签序列、I5-index引物序列上的index以及I7-index引物序列上的index组合的测序数据进行过滤。

应用本发明的技术方案，通过包含多组分子标签接头组及多组I5/I7Index引物序列组，能够利用分子标签接头和I5Index和I7Index三个标签共同标记样本，实现了更高的平行上机通量。而且多组分子标签接头组及多组I5/I7Index引物序列组的不同组合，既能有效去除index 跳跃序列，保证每个文库即使发生了index跳跃，也能通过分子标签接头与index的组合来将其分辨并去掉，避免了现有方法所带来的index跳跃所导致的数据污染问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的优选实施例中的分子标签接头的结构示意图；以及

图2示出了根据本发明的优选实施例中的分子标签接头组与I5-index、I7-index在使用时的组合情况。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的，现有技术存在因index跳跃导致的测序通量难以进一步提高的问题，为了改善这一现状，本申请的发明人对该问题进行了深入研究和分析，现有的分子标签主要用于判别一个突变是真实的还是一个系统错误；系统错误主要有两个来源，首先PCR会引入扩增错误，在文库构建和上机过程中，需要经过多轮的PCR来放大信号，而在DNA复制时，DNA聚合酶有一定的概率会加入一个错误的碱基。另外，测序系统最后的信号识别也有一定的概率会发生错误。

现有技术中的分子标签是在DNA模板上连接一段随机序列，相当于给每一个DNA模板加上一个独特的分子标签来区分不同来源的模板。在进行数据分析时，根据分子标签序列识别同一DNA模板扩增出的片段，把它们统一分析，从而能够过滤掉PCR错误及测序错误，提高检测灵敏度和准确性。

对于血浆游离DNA而言，其是由核小体组成的染色质断裂形成，它们中有一些分子往往具有“核小体印记”现象，即具有相同的起始序列和相同的终止序列，而这导致了这些具有同起始同终止的单一分子(unique molecular)在去重环节被过滤掉而损失有效数据，而利用分子标签则可以通过有效溯源原始分子来区分PCR重复片段(duplicates)和单一分子(unique molecular)，从而提高检测灵敏度和特异性。

分子标签分为随机碱基分子标签和固定碱基分子标签，随机碱基分子标签的每个碱基都是由腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶随机掺入。固定序列分子标签则在指定的碱基位置上由固定的碱基组成。随机碱基分子标签的优势在于其高度的多样性，长度为N的随机碱基分子标签的多样性可高达4N。而固定碱基往往需要多条搭配使用才能达到多样性的要求，相比较，成本相对高些。但随机碱基分子标签也存在潜在的问题，首先，合成的时候不是严格的随机掺入，存在偏好性；其次，随机碱基的接头之间没有编辑距离，影响分子计数的准确性；另外，考虑到分子标签的位置，如果分子标签设计在接头的双链区，需要以一条含有分子标签的接头oligo为模板，按照碱基互补配对原则复制合成另一条链，制备流程比较复杂，存在效率和工艺的问题。

根据存在形式，分子标签可以分为单链分子标签和双链分子标签。单链分子标签位于接头的单链区(分叉区)，每个分子标签标记了DNA的一条链，一条双链DNA的正负链将会标记上不同的分子标签，分析时，只能通过单链的一致性来纠错。双链分子标签位于接头的双链区(配对区)，一条双链DNA分子的正负链带上了同样的分子标记，分析时，可以通过双链的一致性来矫正扩增和/或测序错误。双链的一致性分析可以大大提高检测的灵敏度和特异性，更加适用于检测极低频率的突变。

通过综合研究和分析上述分子标签的使用方式，针对现有技术中所存在的因index跳跃而导致现有的测序通量有限的问题，本申请创造性地将分子标签与I5/I7引物上的Index通过形成若干个组合的标签组来标记更多的样本，从而实现更高通量的文库进行上机测序。

在此基础上，申请人提出了本申请的技术方案。在本申请一种典型的实施方式中，提供了一种构建测序文库的试剂盒，该试剂盒包括：多个分子标签接头组，每个分子标签接头组包括多个分子标签接头，每个分子标签接头包含分子标签序列，多个I5-index引物序列及与多个I5-index引物序列对应的多个I7-index引物序列；其中，任意两个所述分子标签接头上的所述分子标签序列不同、任意两个所述I5-index引物序列上的index，任意两个所述I7-index引物序列上的index不同。

上述试剂盒，通过包含多组分子标签接头组及多组I5/I7Index引物序列组，能够利用分子标签接头和I5Index和I7Index三个标签共同标记样本，实现了更高的平行上机通量。简单来说，将分子标签接头分成m组，配合n组I5/I7Index引物(n>＝m)，可以实现m*n个文库的平行上机(组合方式见图2)。

比如，合成10组分子标签接头，配合50对I5/I7Index引物，可以实现500个文库的平行上机。如果继续提高分子标签接头组数或I5/I7Index引物的数量，还可进一步提高上机文库数量。更重要的是，通过Duplex index和分子标签接头的不同组合，可以有效去除index跳跃序列，保证每个文库即使发生了index跳跃，也可以通过分子标签接头与index的组合来将其分辨并去掉，避免了Patterned flow cell应用Exclusive PCR方法所带来的index跳跃所导致的数据污染问题。此外，分子标签接头的引入，如前面所提的，还可以提高检测的灵敏度，合理过滤PCR和/或测序错误。而且，多组分子标签接头组不仅能够与I5/I7Index引物搭配组合，实现更大的上机通量，而且还可以辅助评估操作过程中的交叉污染情况(如果在建库过程中交叉污染比较严重，那么分子标签和I5/I7Index组合的异常数据会明显升高)。

上述试剂盒中，多组分子标签接头组中，每组分子标签接头组所包含的分子标签接头的数量根据实际需要进行合理设置。每个分子标签接头组可以包含不同数量的分子标签接头，也可以包含相同数量的分子标签接头。当每个分子标签接头组中包含的分子标签接头的数量相等时，每组分子标签具有同样的DNA标记能力。因此，本申请中优选每个分子标签接头组中包含的分子标签接头的数量相等。

本申请的上述试剂盒中，对分子标签接头的类型并无特殊限制，如前述，单链分子标签或双链分子标签均适用于本申请。在本申请一种优选的实施例中，每个分子标签接头以双链形式存在。更优选为双链固定序列的分子标签接头，通过设计为双链固定序列的分子标签接头，其与I5/I7端的Index引物，过PCR的方式将双端index加上以完成文库的构建，进而可以通过三个标签的不同组合提高文库的上机通量。此外，双链分子标签位于接头的双链区(配对区)，一条双链DNA分子的正负链带上了同样的分子标记，分析时，可以通过双链的一致性来矫正扩增和/或测序错误。双链的一致性分析可以大大提高检测的灵敏度和特异性，更加适用于检测极低频率的突变。

每个分子标签接头组中所包含的分子标签接头的数量根据实际需要设定。在本申请一种优选的实施例中，每个分子标签接头组包括8～30个分子标签接头，能够满足现有绝大情况下的平行上机通量。

在本申请一种优选的实施例中，如图1所示，每个分子标签接头上的分子标签序列位于分子标签接头的3’端；优选地，分子标签的长度为3-10nt；优选地，I5-index引物序列和I7-index 引物序列各自分别有10～200条index。将分子标签设计在3’末端，便于按照通常的测序引物进行测序，且能实现对不同样本的正确拆分，避免了index跳跃现象。

在本申请一种优选的实施例中，每个分子标签序列、每个I5-index引物序列上的index及每个I7-index引物序列上的index之间的编辑距离为2～4。编辑距离的设置有助于对测序后的相关标签进行有效矫正。

在第二种典型的实施方式中，提供了一种构建测序文库的方法，该方法包括：利用M个分子标签接头组对M个样本组DNA进行接头连接，得到连接产物，其中，每个样本组包含N个样本；利用N条I5-index引物序列与N条I7-index引物序列对每个样本组中的N个样本的连接产物进行扩增，得到M*N个样本的测序文库；其中，每个分子标签接头组包括多个分子标签接头，每个分子标签接头上带有分子标签序列，任意两个分子标签接头上的分子标签序列不同、任意两个I5-index引物序列上的index，任意两个I7-index引物序列上的index不同，其中，M和N均为≥2的自然数，且N≥M，M*N个样本的测序文库中，任意两个样本的测序文库中至少如下之二存在不同：分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index。

采用本申请的上述N条I5-index引物序列与N条I7-index引物序列组成的N组index组与M个分子接头组的分子接头形成不同的组合，从而能够有效标记M*N个样本，实现了M*N 个文库的平行上机。需要说明的是，此处的DNA可以是常规量的DNA，也可以是低起始量的DNA，该方法对低起始量的DNA，如cfDNA的文库构建及混样上机效果优势更明显。

上述构建方法中，具体不同样本的上述三个标签的分配方式可以按照上述三者中的至少两者存在差异进行分配即可。进一步地可以根据样本是位于同一分子标签接头组中，还是位于不同的分子标签接头组中，进行合理调整三个标签的分配情况。

在一种优选的实施例中，位于同一组分子标签接头组的样本中，任意两个样本的I5-index 引物序列上的index不同，且I7-index引物序列上的index也不同。在另一种优选的实施例中，位于不同的分子标签接头组的样本中，任意两个样本的I5-index引物序列上的index和/或 I7-index引物序列上的index不同。

若样本位于同一组分子标签接头组中，则需要每个样本具有特异的I5-index引物序列上的 index和I7-index引物序列上的index，这样在后续拆分时，才能进行有效拆分。而若样本位于不同的分子标签接头组中时，本身不同的分子标签接头组就具有标记的功能，因而只需 I5-index引物序列上的index和I7-index引物序列上的index两者之一存在不同就能将不同的样本进行标记和区分。当然，如果两者都不同，就更能进行标记和区分不同样本了。

上述构建方法中，在本申请一种优选的实施例中，每个分子标签接头组中，分子标签接头的数量相等。相等数量的分子标签接头，使得每组分子标签具有同样的DNA标记能力。

单链分子标签或双链分子标签均适用于本申请。在本申请一种优选的实施例中，每个分子标签接头以双链形式存在。更优选为双链固定序列的分子标签接头。通过设计为双链固定序列的分子标签接头，其与I5/I7端的Index引物，过PCR的方式将双端index加上以完成文库的构建，进而可以通过三个标签的不同组合提高文库的上机通量。此外，双链分子标签位于接头的双链区(配对区)，一条双链DNA分子的正负链带上了同样的分子标记，分析时，可以通过双链的一致性来矫正扩增和/或测序错误。双链的一致性分析可以大大提高检测的灵敏度和特异性，更加适用于检测极低频率的突变。

在本申请一种优选的实施例中，每个分子标签接头组包括8～30个分子标签接头。每个分子标签接头组中所包含的分子标签接头的数量根据实际需要设定，每个分子标签接头组包括 8～30个分子标签接头，能够满足现有绝大情况下的平行上机通量。

在本申请一种优选的实施例中，每个分子标签接头上的分子标签序列位于分子标签接头的3’端；优选地，分子标签的长度为3-10nt；优选地，I5-index引物序列和I7-index引物序列各自分别有10～200条index。将分子标签设计在3’末端，便于按照通常的测序引物进行测序，且能实现对不同样本的正确拆分，避免了index跳跃现象。而分子标签的长度和I5/I7index的条数设置在上述范围内，能够满足现有绝大情况下的平行上机通量。

在第三种典型的实施方式中，提供了一种高通量测序混样上机方法，该上机方法包括：将上述任一项方法所构建的M*N个样本的测序文库进行等量混合，得到混合样本文库；将混合样本文库进行上机测序。该混样上机方法所上机的文库之间具有不同的标签组合，上机通量高，且后续的测序数据既容易准确进行样本拆分，又能有效区分真实突变还是操作或系统导致的突变。

在第四种典型的实施方式中，提供了一种测序数据的拆分方法，其中测序数据为上述任一项方法所构建的测序文库经测序得到的测序数据，拆分方法包括：按照分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index对测序数据进行样本拆分。该拆分方法既能准确进行样本拆分，又能有效区分真实突变还是操作或系统导致的突变，提高检测的特异性和灵敏度。

在本申请一种优选的实施例中，分子标签序列、I5-index引物序列上的index及I7-index 引物序列上的index中任一个在不同样本中存在相同时，按照其余两个对测序数据进行样本拆分。采用三个标签中至少两个标签存在不同，即可实现对不同样本的有效拆分，而部分样本之间存在一个标签相同时，能够增加三个标签的组合数量，从而提高所标记的样本量。

具体的拆分方法可以根据分子标签序列是否属于同一分子标签接头组来对样本进行拆分。在一种优选的实施例中，拆分方法包括：根据分子标签序列所在的分子标签接头组的不同，将测序数据拆分到不同的样本组；在每个样本组内，根据I5-index引物序列上的index及 I7-index引物序列上的index的不同，将样本组内的测序数据拆分到不同的样本中。

上述拆分方法仅是本申请的一种优选的拆分方法，也可以先根据I5-index引物序列上的 index和/I7-index引物序列上的index的不同，将数据拆分到不同的样本组，然后再根据分子标签序列接头组的不同将组内的测序数据拆分到不同的样本。

在本申请一种优选的实施例中，在按照分子标签序列、I5-index引物序列上的index及 I7-index引物序列上的index对测序数据进行样本拆分之前，拆分方法还包括如下至少之一：通过编辑距离矫正分子标签序列、I5-index引物序列上的index以及I7-index引物序列上的 index；对不符合预期的分子标签序列、I5-index引物序列上的index以及I7-index引物序列上的index组合的测序数据进行过滤。通过利用编辑距离对上述三种标签进行矫正，能够真正提高三个标签的使用效率。通过对不符合预期组合的数据进行过滤，可以减少交叉污染的数据，从而提高检测的准确性。

下面将结合具体的实施例来进一步说明本申请的有益效果。下列实施例中，如无特殊说明，文库构建采用KAPA Biosystems公司的试剂盒KAPA Hyper Prep Kit，货号为KK8504。

实施例1

实施例1 20例血浆DNA测序文库的构建方法主要包括以下步骤：

一、接头设计及处理：

1.分子标签的设计：本例中分子标签的长度为7nt，编辑距离为3，共挑选出64条分子标签，分为4组，每组16条(表1)；

本实施例中所用的接头序列示例如下：

TOP_接头SEQ ID NO:1：

5’-acactctttccctacacgacgctcttccgatct[UMI]-3’；

Bottom_接头SEQ ID NO:2：

5’-/5phos/[UMI]agatcggaagagcacacgtctgaactccagtcac-3’。

表1：

2.接头的退火：将条oligo分别用TE溶液稀释为100uM的储液，然后按照下表2组装退火体系：

表2：

表3：

退火完成后，将分子标签接头按照组等体积等浓度混合起来。

3.对每个样本指定特定的接头组和双端Index组合；

1)本实施例安排了20个文库，需要用到5组index和4组接头，5条I5-Index引物和5条I7-index引物序列如下表4：

表4：

M506-Index Primer	SEQ ID NO:3	aatgatacggcgaccaccgagatctacacacatattaacactctttccctacacgacg
			M508-Index Primer	SEQ ID NO:4	aatgatacggcgaccaccgagatctacacacgaactcacactctttccctacacgacg
M516-Index Primer	SEQ ID NO:5	aatgatacggcgaccaccgagatctacacatacttaaacactctttccctacacgacg
			M521-Index Primer	SEQ ID NO:6	aatgatacggcgaccaccgagatctacacattaatgaacactctttccctacacgacg
M527-Index Primer	SEQ ID NO:7	aatgatacggcgaccaccgagatctacaccaggaccaacactctttccctacacgacg
			M716-Index Primer	SEQ ID NO:8	caagcagaagacggcatacgagattttagtatgtgactggagttcagacgtg
M717-Index Primer	SEQ ID NO:9	caagcagaagacggcatacgagatttccatatgtgactggagttcagacgtg
			M719-Index Primer	SEQ ID NO:10	caagcagaagacggcatacgagatttattcatgtgactggagttcagacgtg
M730-Index Primer	SEQ ID NO:11	caagcagaagacggcatacgagattgccgccggtgactggagttcagacgtg
			M740-Index Primer	SEQ ID NO:12	caagcagaagacggcatacgagatggcacgtcgtgactggagttcagacgtg

2)接头组和UMI的组合(表5)：

表5：

二.文库构建步骤如下：

1)血浆DNA的提取，在本例中使用了Qiagen Circulating Nucleic Acid Kit提取；

2)末端补平悬A(使用KAPA Hyper Prep Kit，见表6)：

表6：

3)反应条件见表7：

表7：

4)接头连接(使用KAPA Hyper Prep Kit，见表8)：

表8：

5)反应条件：20℃30分钟。连接后用0.8xSPRI纯化；

6)连接后扩增体系见表9：

表9：

反应条件见表10：

表10：

三、文库定量及混合：

20个文库各取1μL文库进行qPCR定量，峰形正常且文库浓度大于等于10pM为质控合格；将合格的1-20号样本的文库等量混合后作为7份，再加入3份的Phix(均匀文库，由于在该实施例中DNA加接头的方式为TA连接，所以第一端测序引物及第二端测序引物先读到7nt 分子标签，在第8个cycle读到的碱基均为T，为保证该位点碱基均匀性，需要在混文库时加入30％phix，以保证碱基的平衡性)，混合文库定量上机。

四、上机测序：

将第一端测序引物，I5端标签引物、I7端标签引物、第二端测序引物稀释成100μM；按照Illmina仪器的操作说明上机，进行双端测序。

五、分子标签的提取及数据拆分：

过滤掉Phix，剩余的每条序列需要提取的信息为：I5和I7端index以及双端测序序列的前7nt(分子标签)并根据编辑距离进行矫正，然后分别截去一端和二端测序所得的前8nt，截短后的序列为插入DNA片段的序列。根据表5的组合以及表1和表4中的分子标签序列和双端index序列进行数据拆分。如果发现了分子标签和双端index组合不符合预期，则忽略该条测序信息。

六、结果：

经上机测序验证后表明，根据本发明实施例1构建的血浆DNA测序文库的片段结构为：P5(含P5-index)+分子标签(左端)+目的片段+分子标签(右端)+P7接头(含P7-index)，符合第二代高通量测序的通用的结构设计要求。

实施例2

实施例2的血浆DNA测序文库的构建方法基本上类似于实施例1，不同之处在于，实施例2中接头的分子标签的长度固定，而是一个摇摆长度。

一、接头设计及处理：

分子标签的设计：本例中分子标签的长度为7nt或8nt，编辑距离为3，共挑选出64条分子标签，分为4组，每组16条(表11)；

表11：

上述接头序列的结构同SEQ ID NO:1和SEQ IDNO:2所示，各接头上的分子标签见上表 11。

接头的退火及混合成组的步骤同实施例1。对每个样本指定特定的接头组和双端Index组合。

本实施例安排了20个文库，需要用到5组index和4组接头，5条I5-Index引物和5条I7-index引物序列见表4，接头和UMI的组合见表12：

表12：

样本号	接头组	I5 Index	I7 Index
				1	组A	506	716
2	组A	508	717
				3	组A	516	719
4	组A	521	730
				5	组A	527	740
6	组B	506	717
				7	组B	508	719
8	组B	516	730
				9	组B	521	740
10	组B	527	716
				11	组C	506	719
12	组C	508	730
				13	组C	516	740
14	组C	521	716
				15	组C	527	717
16	组D	506	730
				17	组D	508	740
18	组D	516	716
				19	组D	521	717
20	组D	527	719

二、文库构建步骤(同实施例1)

三、文库定量及混合：

20个文库各取1μL文库qPCR定量，峰形正常且文库浓度大于等于10pM为质控合格；将合格的1-20号样本的文库直接等量混合定量上机。

四、上机测序：

五、分子标签的提取及数据拆分：

过滤掉Phix，剩余的每条序列需要提取的信息为：I5和I7端index以及双端测序序列的前8nt(分子标签)并根据编辑距离进行矫正，然后分别截去一端和二端测序所得的前9nt，截短后的序列为插入DNA片段的序列。根据表12的组合以及表11中的分子标签序列和表4 中的双端index序列进行数据拆分。如果发现了分子标签和双端index组合不符合预期，则忽略该条测序信息。

六、结果：

经上机测序验证后表明，根据本发明实施例2构建的血浆DNA测序文库符合第二代高通量测序的设计要求。

在实施例2中，同时使用了长度为7nt和8nt的分子标签接头，文库等量混匀后，按照比例，1端测序引物和2端测序引物所读序列的第8个碱基有50％为T，另外50％为8nt长度分子标签上的序列，通过设计调整了碱基的平衡性；按照混合比例，1端测序引物和2端测序引物所读序列的第9个碱基有50％为T，另外50％为7nt分子标签接头连接的DNA片段的第一个碱基，具有良好的随机性。

在实施例2中，通过交错使用长度为7nt和8nt长度的分子标签接头，保证了A/T连接位点碱基的平衡性，不需要额外掺入均匀文库即可保证文库的上机质量。

实施例3

实施例3的血浆DNA测序文库的构建方法基本上类似于实施例1，不同之处在于，实施例3中后续有一个文库选择性富集的过程，可以针对靶向位点进行测序。

一、接头设计及处理：

分子标签的设计：本例中分子标签的长度为7nt，编辑距离为3，共挑选出16条分子标签，分为2组，每组8条(表13)；

表13：

本实施例包含3个样本的构建，包含1个肿瘤患者的外周血游离DNA样本和2个阴性参考品，用到了2对index引物组，信息如表14。接头和UMI的组合见表15：

表14：

表15：

样本号	接头组	I5 Index	I7 Index
				肿瘤患者cfDNA	组1	504	750
阴性参考品DNA1	组2	504	749
				阴性参考品DNA2	组2	506	750

二、文库构建步骤(同实施例1)

三、文库杂交捕获

文库杂交：3个文库等比例混合成总量1μg，加入5μg人Cot-1DNA和5μl通用阻断寡核苷酸(UBO)后，在真空干燥仪中蒸干；干燥产物中加入7.5μL 2×Hybridization Buffer和3μL Hybridization Component A(vial 6)，混匀后95℃变性，加入4.5μl探针，47℃杂交16小时。

杂交的清洗和洗脱：按照说明书，用链霉亲和素磁珠与杂交体系孵育结合后，分别用 Stringent Wash Buffer，Wash Buffer1，Wash Buffer2，Wash Buffer3清洗去除与探针非特异结合的序列，最后用15μl去离子水重悬磁珠。

捕获后按照表16所示体系进行文库扩增，扩增程序见表17：

表16：

试剂	体积
		KAPA HiFi HotStart ReadyMix	25μL
Post-LM-PCR Oligos 1&2,5μM	10μL
		上一步洗脱的DNA	15μL
总计	50μL

表17：扩增程序：

四、上机测序：

按照Illmina Novaseq仪器的操作说明上机，进行双端测序。

五、分子标签的提取及数据拆分：

过滤掉Phix，剩余的每条序列需要提取的信息为：I5和I7端index以及双端测序序列的前7nt(分子标签)并根据编辑距离进行矫正，然后分别截去一端和二端测序所得的前7nt，截短后的序列为插入DNA片段的序列。根据表15的组合以及表13中的分子标签序列和表14 中的双端index序列进行数据拆分。如果发现了分子标签和双端index组合不符合预期，则忽略该条测序信息。

结果：结合分子标签和双端index序列组合对数据进行拆分并进一步分析，患者外周血游离DNA中含有高比例(8.24％)的L858R突变，阴性参考品中检测不到该种突变。经测试，当不考虑分子标签，只通过双端index区分样本时，由于2个阴性参考品所使用的index标签分别有一端与患者血浆DNA所使用的相同，相当于单端index，当使用novaseq上机时，在2 个阴性参考品的数据中，均检测到低频L858R突变(各有3条)。进一步地，发现这3条数据的分子标签接头都属于组1，证明了这3条数据的来源为肿瘤患者的cfDNA。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本发明所提供的通过分子标签和双端Index的组合进行文库构建，使得所构建文库的进行测序时的通量较高，且在进行数据拆分时，也能够现有效地过滤掉Index跳跃的数据，避免样本之间的数据污染，提高检测的准确性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 臻和（北京）科技有限公司

<120> 构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法

<130> PN101036ZHEKJ

<160> 16

<170> SIPOSequenceListing 1.0

<210> 2

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(33)

<223> 3'末端为分子标签序列，为top_接头

<400> 1

acactctttc cctacacgac gctcttccga tct 33

<210> 2

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(34)

<223> 5’末端被磷酸化

<220>

<221> misc_feature

<222> (1)..(34)

<223> 5’端带有分子标签序列，为bottom_接头

<400> 2

agatcggaag agcacacgtc tgaactccag tcac 34

<210> 3

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M506-index

<400> 3

aatgatacgg cgaccaccga gatctacaca catattaaca ctctttccct acacgacg 58

<210> 4

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M508-Index

<400> 4

aatgatacgg cgaccaccga gatctacaca cgaactcaca ctctttccct acacgacg 58

<210> 5

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M516-Index

<400> 5

aatgatacgg cgaccaccga gatctacaca tacttaaaca ctctttccct acacgacg 58

<210> 6

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M521-Index

<400> 6

aatgatacgg cgaccaccga gatctacaca ttaatgaaca ctctttccct acacgacg 58

<210> 7

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M527-Index

<400> 7

aatgatacgg cgaccaccga gatctacacc aggaccaaca ctctttccct acacgacg 58

<210> 8

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M716-Index

<400> 8

caagcagaag acggcatacg agattttagt atgtgactgg agttcagacg tg 52

<210> 9

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M717-Index

<400> 9

caagcagaag acggcatacg agatttccat atgtgactgg agttcagacg tg 52

<210> 10

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M719-Index

<400> 10

caagcagaag acggcatacg agatttattc atgtgactgg agttcagacg tg 52

<210> 11

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M730-Index

<400> 11

caagcagaag acggcatacg agattgccgc cggtgactgg agttcagacg tg 52

<210> 12

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M740-Index

<400> 12

caagcagaag acggcatacg agatggcacg tcgtgactgg agttcagacg tg 52

<210> 13

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M504-Index

<400> 13

aatgatacgg cgaccaccga gatctacaca atggtgaaca ctctttccct acacgacg 58

<210> 14

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (30)..(37)

<223> M506-Index

<400> 14

aatgatacgg cgaccaccga gatctacaca catattaaca ctctttccct acacgacg 58

<210> 15

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M749-Index

<400> 15

caagcagaag acggcatacg agatttgtcc gcgtgactgg agttcagacg tg 52

<210> 16

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(32)

<223> M750-Index

<400> 16

caagcagaag acggcatacg agatgttcga gcgtgactgg agttcagacg tg 52

Claims

1.一种构建测序文库的试剂盒，其特征在于，所述试剂盒包括：

多个分子标签接头组，每个所述分子标签接头组包括多个分子标签接头，每个所述分子标签接头包含分子标签序列，

多个I5-index引物序列及与多个所述I5-index引物序列对应的多个I7-index引物序列；

其中，任意两个所述分子标签接头上的所述分子标签序列不同、任意两个所述I5-index引物序列上的index不同，任意两个所述I7-index引物序列上的index不同。

2.根据权利要求1所述的试剂盒，其特征在于，每个所述分子标签接头组中，所述分子标签接头的数量相等。

3.根据权利要求1所述的试剂盒，其特征在于，每个所述分子标签接头以双链形式存在；优选以双链固定序列的形式存在。

4.根据权利要求1所述的试剂盒，其特征在于，每个所述分子标签接头组包括8～30个分子标签接头；优选每个所述分子标签序列的长度为3～10nt。

5.根据权利要求1所述的试剂盒，其特征在于，所述I5-index引物序列和所述I7-index引物序列各自分别有10～200条index。

6.根据权利要求1至5中任一项所述的试剂盒，其特征在于，每个所述分子标签序列、每个所述I5-index引物序列上的index及每个所述I7-index引物序列上的index之间的编辑距离为2～4。

7.一种构建测序文库的方法，其特征在于，所述方法包括：

利用M个分子标签接头组对M个样本组DNA进行接头连接，得到连接产物，其中，每个所述样本组包含N个样本；

利用N条I5-index引物序列与N条I7-index引物序列对每个所述样本组中的N个所述样本的所述连接产物进行扩增，得到M*N个所述样本的测序文库；

其中，每个所述分子标签接头组包括多个分子标签接头，每个所述分子标签接头上带有分子标签序列，任意两个所述分子标签接头上的所述分子标签序列不同、任意两个所述I5-index引物序列上的index不同，任意两个所述I7-index引物序列上的index不同，

其中，M和N均为≥2的自然数，且N≥M，M*N个所述样本的测序文库中，任意两个所述样本的测序文库中至少如下之二存在不同：分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index。

8.根据权利要求7所述的方法，其特在于，位于同一组所述分子标签接头组的所述样本中，任意两个所述样本的所述I5-index引物序列上的index不同，且所述I7-index引物序列上的index也不同。

9.根据权利要求7所述的方法，其特在于，位于不同的所述分子标签接头组的所述样本中，任意两个所述样本的所述I5-index引物序列上的index和/或所述I7-index引物序列上的index不同。

10.根据权利要求7所述的方法，其特征在于，每个所述分子标签接头组中，所述分子标签接头的数量相等；

优选地，每个所述分子标签接头以双链形式存在，更优选以双链固定序列的形式存在；

优选地，每个所述分子标签接头组包括8～30个分子标签接头；

优选地，每个所述分子标签序列的长度为3～10nt。

11.根据权利要求7所述的方法，其特征在于，所述I5-index引物序列和所述I7-index引物序列各自分别有10～200条index。

12.根据权利要求7至11中任一项所述的方法，其特征在于，每个所述分子标签序列、每个所述I5-index引物序列上的index及每个所述I7-index引物序列上的index之间的编辑距离为2～4。

13.一种高通量测序混样上机方法，其特征在于，所述上机方法包括：

将权利要求7至12中任一项所述方法所构建的M*N个所述样本的测序文库进行等量混合，得到混合样本文库；

将所述混合样本文库进行上机测序。

14.一种测序数据的拆分方法，其特征在于，所述测序数据为权利要求7至12中任一项所述的方法所构建的测序文库经测序得到的测序数据，所述拆分方法包括：

按照分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index对所述测序数据进行样本拆分。

15.根据权利要求14所述的拆分方法，其特征在于，所述分子标签序列、所述I5-index引物序列上的index及所述I7-index引物序列上的index中任一个在不同样本中存在相同时，按照其余两个对所述测序数据进行样本拆分。

16.根据权利要求14所述的拆分方法，其特征在于，所述拆分方法包括：

根据所述分子标签序列所在的分子标签接头组的不同，将所述测序数据拆分到不同的所述样本组；

在每个所述样本组内，根据所述I5-index引物序列上的index及所述I7-index引物序列上的index的不同，将所述样本组内的所述测序数据拆分到不同的所述样本中。

17.根据权利要求14至16中任一项所述的拆分方法，其特征在于，在按照分子标签序列、I5-index引物序列上的index及I7-index引物序列上的index对所述测序数据进行样本拆分之前，所述拆分方法还包括如下至少之一：

通过编辑距离矫正所述分子标签序列、所述I5-index引物序列上的index以及所述I7-index引物序列上的index；

对不符合预期的所述分子标签序列、所述I5-index引物序列上的index以及所述I7-index引物序列上的index组合的测序数据进行过滤。