CN113005121B

CN113005121B - 接头元件、试剂盒及其相关应用

Info

Publication number: CN113005121B
Application number: CN202110450556.0A
Authority: CN
Inventors: 胡玉刚; 汪彪; 郑文莉; 吴强
Original assignee: Naonda Nanjing Biological Technology Co ltd
Current assignee: Naonda Nanjing Biological Technology Co ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-12-06
Anticipated expiration: 2041-04-25
Also published as: CN113005121A

Abstract

本发明提供了一种接头元件、试剂盒及其相关应用。该接头元件包括：分子标签接头序列和陪伴序列，分子标签接头序列按5’端到3’端的顺序依次包括测序平台接头、分子标签及陪伴互补序列；陪伴序列至少与陪伴互补序列互补，陪伴序列的5’是未磷酸化的，3’端具有封闭修饰。通过采用接头外分子标签，适用于通过连接的方式引入文库，相比在接头内部设置分子标签，其好处在于本申请的接头元件构建的文库能够与任何其它标准文库混合测序，不用改变现有测序读取方式，直接在读取目标序列时先读取分子标签即可。从而大大降低了实际应用的复杂度，减少了测序成本，具有更高的应用价值。

Description

接头元件、试剂盒及其相关应用

技术领域

本发明涉及多重扩增文库构建领域，具体而言，涉及一种接头元件、试剂盒及其相关应用。

背景技术

目前高通量测序飞速发展，在临床辅助诊断的应用中越来越重要，在现有的高通量测序过程中，由于建库和测序过程中会引入错误，这种中间过程产生的错误往往会影响真实的低频突变的检测，而恰当地引入分子标签是比较好的解决办法。

目前高通量测序的靶向富集主要有两种方式，一种是探针捕获的方法，另一种是多重扩增的方法。在用多重扩增的方法构建靶向测序文库时，扩增时不可避免地存在引入突变的分子标签的风险。有报道通过扩增的方法引入分子标签，这种引入方法有两个缺点，第一是增加实验的成本，第二不是真正的固定序列的分子标签。

目前市场上主流的测序仪有Illumina和MGI两种品牌的高通量二代测序仪，两种测序仪的建库和测序模式不同，所以要求建库方式也不同。在建库环节两者最大的不同在于：Illumina测序是Y型接头，MGI测序是泡状接头，所以两种平台从建库接头结构到接头序列都完全不同。

在如何引入分子标签的多重扩增过程中，也有人用接头上的分子标签来实现分子标记，比如在index旁边引入分子标签，这样虽然比较省事，也能实现标记，但存在三方面的缺点：第一，成本比较高，每个接头都需要单独合成；第二，测序时还要单独对此部分序列进行测序，增加测序成本；第三，也是最重要的一点，在测序时，其它文库都是标准文库，只有少部分是这样的文库，在读取时平衡性也是个大问题，因而在实际应用中几乎不可实施。

因此，在采用多重扩增的方法构建此类靶向测序文库时，仍需要对现有的构建方法进行改进。

发明内容

本发明的主要目的在于提供一种接头元件、试剂盒及其相关应用，以解决现有技术中靶向测序文库的测序成本高的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种接头元件，该接头元件包括：分子标签接头序列和陪伴序列，分子标签接头序列按5’端到3’端的顺序依次包括测序平台接头、分子标签及陪伴互补序列；陪伴序列至少与陪伴互补序列互补，陪伴序列的5’是未磷酸化的，3’端具有封闭修饰。

进一步地，陪伴序列由第一段和第二段组成，其中，第一段与陪伴互补序列互补，第二段与测序平台接头互补，分子标签形成泡状结构。

进一步地，分子标签的长度为6～12bp，优选为8～10bp；优选分子标签为随机合成的A、T、G和C碱基组成的序列；优选地，陪伴序列的长度为10～16bp，更优选为10～12bp；优选地，封闭修饰选自C3间隔臂修饰、C6间隔臂修饰、MGB修饰、磷酸化修饰、地高辛修饰、生物素修饰或者3’端碱基为双脱氧碱基；优选地，测序平台接头为MGI测序平台接头或Illumina测序平台接头。

进一步地，(1)SEQ ID NO：1至SEQ ID NO：2；(2)SEQ ID NO：3至SEQ ID NO：4；(3)SEQ ID NO：5至SEQ ID NO：6；(4)SEQ ID NO：7至SEQ ID NO：8；(5)SEQ ID NO：9至SEQ IDNO：10；(6)SEQ ID NO：11至SEQ ID NO：12；(7)SEQ ID NO：13至SEQ ID NO：14；(8)SEQ IDNO：15至SEQ ID NO：16；(9)SEQ ID NO：17至SEQ ID NO：18；(10)SEQ ID NO：19至SEQ IDNO：20；(11)SEQ ID NO：21至SEQ ID NO：22；(12)SEQ ID NO：23至SEQ ID NO：24；(13)SEQID NO：25至SEQ ID NO：26；(14)SEQ ID NO：27至SEQ ID NO：28；(15)SEQ ID NO：29至SEQID NO：30；(16)SEQ ID NO：31至SEQ ID NO：32。

为了实现上述目的，根据本发明的第二个方面，提供了一种接头元件组合物，该接头元件组合物包括多个接头组合，每个接头组合由四个接头元件组成，且四个接头元件的分子标签的长度相同且均为随机合成的A、T、C和G碱基组成的序列，四个接头元件的陪伴序列的3’末端的两位碱基一半为GY，一半为CY，其中两个接头元件的陪伴序列的总长度比剩余两个接头元件的陪伴序列的总长度长一个碱基，以短一个碱基的接头元件的陪伴序列为参照，除末位碱基为Y外，剩余碱基在四个接头元件的陪伴序列中相同位置上分别为A、T、C和G平均分布；其中，接头元件选自前述任一种接头元件。

进一步地，接头元件组合物包括如下任意一组或多组：i)MGI上游端泡状接头组合，MGI上游端泡状接头组合包括前述任一种接头元件中的第(1)-(4)组的接头元件；ii)MGI下游端泡状接头组合，MGI下游端泡状接头组合包括前述任一种接头元件中的第(5)-(8)组的接头元件；iii)Illumina p5端泡状接头组合，Illumina p5端泡状接头组合包括前述任一种的接头元件中的第(9)-(12)组的接头元件；iv)Illumina p7端泡状接头组合，Illumina p7端泡状接头组合包括前述任一种接头元件中的第(13)-(16)组的接头元件。

为了实现上述目的，根据本发明的第三个方面，提供了一种测序文库构建方法，该构建方法包括：对血浆游离DNA片段进行末端修复加A，得到修复片段；采用连接的方式对修复片段进行分子标签接头连接，得到接头连接片段；利用基因特异性引物和测序平台通用扩增引物对接头连接片段进行第一轮半扩增，得到一端带有分子标签的目标扩增片段；采用测序平台通用引物对一端带有分子标签的目标扩增片段进行扩增，得到测序文库；其中，分子标签接头采用前述任一种接头元件，或者采用前述任一种接头元件组合物。

进一步地，分子标签接头为MGI上游端接头或Illumina的p5端接头，基因特异性引物的末端带有MGI下游接头通用序列或Illumina p7端接头通用序列；优选地，带有MGI下游接头通用序列的基因特异性引物为SEQ ID NO:34+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，MGI上游通用扩增引物为SEQ ID NO：33；优选地，带Illumina p7端接头通用序列的基因特异性引物为SEQ ID NO:38，相应地，Illumina p5端接头通用扩增引物为SEQ ID NO：37；或者分子标签接头为MGI下游端接头或Illumina的p7端接头，基因特异性引物的末端带有MGI上游接头通用序列或Illumina的p5端接头通用序列；优选地，带MGI上游接头通用序列的基因特异性引物为SEQ ID NO：36+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，MGI下游通用扩增引物为SEQ ID NO：35；优选地，带Illumina p5端接头通用序列的基因特异性引物为SEQ ID NO:40+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，Illumina p7端接头通用扩增引物为SEQ ID NO：39。

为了实现上述目的，根据本发明的第四个方面，提供了一种试剂盒，该试剂盒包括前述任一种接头元件，或者采用前述任一种接头元件组合物。

为了实现上述目的，根据本发明的第五个方面，提供了一种测序文库，该测序文库含有前述任一种接头元件，或者采用前述任一种接头元件组合物。

为了实现上述目的，根据本发明的第六个方面，提供了一种高通量测序方法，该高通量测序方法包括：将多个待测序文件混合，得到混合文库；混合文库至于同一测序通道中进行测序；其中，混合文库含有前述接头元件组合物。

应用本发明的技术方案，通过采用接头外分子标签，适用于通过连接的方式引入文库，相比在接头内部设置分子标签，其好处在于本申请的接头元件构建的文库能够与任何其它标准文库混合测序，不用改变现有测序读取方式，直接在读取目标序列时先读取分子标签即可。从而大大降低了实际应用的复杂度，减少了测序成本，具有更高的应用价值。

此外，利用本申请提供给的适用于MGI和Illumina两大测序平台建库方案的接头元件，在进行建库时先用连接的方式先把分子标签连在序列一端，再用多重扩增的方法把目标片段筛选出来，这样既解决了加上固定分子标签(此处的固定是指不会在后续建库步骤或者上机测序步骤中引人突变)，又解决了快速富集靶向区域的目的，能够真正做到检测低频突变(即能从测序数据中将操作过程引入的突变与原始DNA模板中的突变区分开来)。本发明的应用能够实现低频突变的正确检测或产前胎儿DNA片段在母体血浆DNA中的正确检测。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了MGI传统接头和本发明半连接接头的结构，其中，A示出的是传统泡型接头内分子标签接头；B示出的是本发明接头外直线分子标签接头；C示出的是本发明接头外泡状分子标签接头；

图2示出了Illumina传统接头和本发明半连接接头的结构，其中，A示出的是传统Y型接头内分子标签接头；B示出的是传统Y型接头外分子标签接头；C示出的是本发明接头外直线分子标签接头；D示出的是本发明接头外泡状分子标签接头；

图3示出了MGI传统泡状接头内分子标签通过半连接扩增建库所存在的问题；

图4示出了Illumina传统Y型接头内分子标签通过半连接扩增建库所存在的问题；

图5示出了本发明MGI上游端接头外分子标签泡状接头建库流程示意图；

图6示出了本发明MGI下游端接头外分子标签泡状接头建库流程示意图；

图7示出了本发明Illumina的p5端接头外分子标签泡状接头建库流程示意图；

图8示出了本发明Illumina的p7端接头外分子标签泡状接头建库流程示意图；

图9示出了单端扩增引物与突变点的位置决定了检测模板的数量。

图10示出了本发明MGI上游端接头外分子标签泡状接头建库测序引物测到的UMI和简并互补陪伴序列；

图11示出了本发明MGI下游端接头外分子标签泡状接头建库测序引物测到的UMI和简并互补陪伴序列；

图12示出了本发明Illumina p5端接头外分子标签泡状接头建库测序引物测到的UMI和简并互补陪伴序列；

图13示出了本发明Illumina p7端接头外分子标签泡状接头建库测序引物测到的UMI和简并互补陪伴序列；

图14示出了本发明一种优选的实施例中69个SNP的位点测序数据均衡性。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

分子标签：本申请中指用于标记目标片段的一段核酸序列，测序分析时，通过该段核酸序列来判断目标片段中某一突变是最初的模板中的突变还是后续建库和/或测序引入的突变。本申请中也用UMI来表示分子标签。

分子标签接头或分子标签接头序列：本申请中指目标片段的接头序列，用于PCR扩增获得测序文库。其中该接头序列中除了含有与测序平台扩增引物匹配的序列外，还含有分子标签，用于标记原始的目标片段。

半连接：本申请中指在目标片段的一端通过连接的方式引入分子标签。

半扩增：本申请中指在目标片段的另一端通过扩增的方式实现接头连接及文库构建。

如背景技术所提到的，为避免PCR扩增和测序过程引入的错误掩盖低频突变，最好的方式是在连接的过程中引入分子标签接头。现有技术中有通过在现成的index旁边设置分子标签的方法，如图1中A(本申请中称作泡型接头内分子标签接头)或图2中A所示的方式(本申请中称作Y型接头内分子标签接头)，这种方式比较方便，但是也存在弊端：1)接头合成成本比较高，由于每种接头分子标签部分都不一样；2)测序成本比较高，需要读完index后，再单独读取这些分子标签对应的碱基；3)如果和其它文库放在一起测序，读取这些分子标签时，存在难以读取平衡的问题(不平衡会导致所有混样测序的文库的标签发生混乱或错误)，也就是说只能自己单独测序，但对于目前通量如此高的测序仪来说，此方案几乎不可实现。

也有报道在接头末端设置分子标签的方案，如图2中B所示(本申请中也称作Y型接头外分子标签接头)，这种方案一般用于血浆建库。在血浆建库的过程中，如果采用双端分子标签，则考虑到两端的不同分子标签，以及两端的起始和终止位置的不同，能够对不同模板进行很好地区分。比如用64种分子标签接头，就会有64*64种组合形式，再考虑到起始和终止位置，这种双端分子标签接头的种类完全能够满足高通量测序的需求。但若采用单端分子标签时(即只在目标片段的一端上连接分子标签，这样64种分子标签接头的种类能够标记的目标片段只有64种，因而难以满足高通量测序的需求。因而，也需要寻找一种能够提供更多种类的分子标签的方案来实现单端分子标记。

在尝试解决上述问题的过程中，发明人试图采用传统建库接头，如图1中A所示的MGI平台的接头(MGI泡型接头内分子标签接头)以及图2中A(Y型接头内分子标签接头)或B(Y型接头外分子标签接头)所示的Illumina平台的接头进行接头连接，然后，如图3和图4所示，通过采用目标片段的下游基因特异性引物(或P7端基因特异引物)对连接产物进行第一轮半扩增，以便通过扩增筛选出一端连上了分子标签的目标片段。然而，发明人对测序结果进行分析发现，经第二轮扩增后，文库中既含有一端带有分子标签的目标序列，也含有一端带有分子标签的非目标序列。

分析其原因，发明人认为：由于在接头连接步骤中，接头是与全部的序列进行接头连接，而在第二轮扩增过程中，如图3和图4中的产物2途径可以看出，除了能够产生靶向目标片段的文库外，也可以产生非目标片段的文库，而且大部分是非目标片段的文库。所以这种融合在传统接头里面的分子标签接头并不能通过现有的建库方法获得单端标记的目标片段文库。如图3和图4分别所示的MGI和Illumina的建库接头连接后的扩增子建库方式，这种方式最终的结果是大部的文库都不是所预期获得的文库(本申请图4中未明确示出分子标签的位置，是考虑到：无论是图2中A所示的接头还是图2中B所示的接头，其均是通过基因特异性引物来试图将目标片段从接头连接产物中筛选出来的，但实际在进行第二轮扩增时，所有的接头连接产物可能都进行了扩增，因而都会产生非目的片段的文库，由此表明传统的两种分子标签在实际应用中的价值有限)。

本发明的主要目的是提供一种接头外的分子标签方式，考虑到种类的丰富性，本发明的接头结构中，接头外侧的分子标签可以多达10个N碱基，这样如果在均衡的条件下就是4的10次方，能够保证单端接头种类的无限性(此处并不排除少于10个N或多于10个N的情况，具体可以在实际应用中选择6～12个N，比如可以是6个、7个、8个、9个、10个、11个或12个，甚至也可以考虑4个或5个N或者13个以上的N的情况，比如13个、14个、15个、16个N的情况)。同时为了保证接头末端是双链结构(双链结构是为了提高连接效率)，一种结构设计如图1中B和图2中C所示，末端有一段双链的陪伴序列，这段序列的长度为10-16bp，这段陪伴序列(短的那条)的5’端是非磷酸化的，以保证此段序列不会被连接到目的片段上。同时，为了避免这段陪伴序列被当成引物进行扩增，对其3’端进行了封闭修饰，这样就既实现了连接过程中的陪伴作用，又不在后期扩增过程中起副作用(即引起非目标片段的扩增)。

为尽可能地减少陪伴序列在后续读取目标片段时所占用的碱基数，本申请进一步对陪伴序列的长度进行了减少优化改进。把陪伴序列缩短，同时为了使陪伴序列能够与接头另一端序列稳定退火在一起，在本申请一些优选的实施例中，如图1中C和图2中D所示，设计了一种陪伴序列和接头分子标签形成的泡状结构，分子标签是在泡状区域(或者说泡状区域完全由分子标签序列组成，这与MGI测序平台上常见的泡状接头有所不同，如图1中A所示，MGI测序平台上传统的泡型接头的泡状结构是由index所在接头序列和陪伴序列共同形成)，陪伴序列的一端与分子标签末端的陪伴序列结合，另一端和测序接头末端互补结合，这样可以使分子标签的末端陪伴序列减少到6-8bp的长度，这样能够减少陪伴序列的长度，增加目的片段的测序长度。

在MGI测序平台中，上游的接头可以是如图5所示，由于陪伴序列是一个3’端封闭和5’端没有磷酸化的序列，陪伴序列只在连接的过程中起陪伴作用，在后期的扩增过程中由于没有与扩增引物结合的区域，所以扩增产物都是由目标片段的基因特异引物驱动的扩增产物，因而所构建的文库中，目标片段的中靶率会高。同理如图6所示，MGI的下游序列作为接头的方案，同时可以实现本发明的过程。同样在Illumina的测序平台中的p5端和p7端都可以用作分子标签接头的一端，如图7和图8所示，同样可以实现本发明的接头连接过程。

需要说明的是，本申请中的分子标签不是双链的，仅是单链的，为了增加半连接的种类，分子标签是连续的N碱基的单链序列。为了使连接能够顺利进行，所以在分子标签的末端连了一段固定序列(本申请中又叫作陪伴互补序列)，以便与陪伴序列互补退火形成双链部分。

为了进一步提扩增模板的数量，本发明在接头选择时是选择MGI的上游或下游，还是Illumina的p5端或p7端作为连接分子标签的接头时，基因特异性引物的设计是基于检测位点的引物的距离和方向而考虑的。如图9所示，在一个SNP位点的两端的一对固定引物，从图中两条引物可以扩增的模板进行对比，我们能够发现：距离检测位点比较近的引物的检测模板要多于距离检测位点远的引物。所以当接头是MGI上游或Illumina的p5端为分子标签接头时，要设计离检测位点近的基因特异性引物末端带MGI下游接头序列或Illumina的p7的接头序列，这样就可以实现检测片段的分子标记同时充分提高被检测模板的数量；相反如果接头是MGI下游或Illumina的p7的接头序列，要设计离近的检测位点的基因特异性引物末端带MGI的上游接头序列或Illumina的p5的接头序列。

为了使本发明的方案在测序时平衡性更好，使测序数据更准确，本申请的接头在设计时就考虑了测序过程中四种碱基均衡性(这里面碱基平衡是指每一轮读取时，读取的四种碱基最好各占25％，这样在测序的过程中读取更准)，均衡分布利于测序序列的准确读取。如图10和11所示的MGI平台的上、下游接头的分子标签接头的具体序列，这样一组的分子标签在利用测序引物(如图中所示)进行读取时，第1-10位碱基是随机合成的A，T，G和C碱基，陪伴序列也是由4种序列组成，因而读取的第11-20位也是由A，T，G和C四种碱基组成；而第19位，一半是Y(简并碱基，代表C或T)，一半是G或C，这样稍微一些不平衡；第20位，对于长一个碱基的两个接头而言，末尾是Y，其与目标片段是通过AT或GC互补配对连接，因而也是由A，T，G和C四种碱基组成。同理，如图12和13所示的Illumina的p5和p7端的分子标签接头结构和序列示意图。

需要说明的是，上述图10至图13中，测序时读取的第19位一半是Y，一半是G或C的原因如下：考虑到建库时接头是通过TA连接的方式连接的，因而末位碱基都需要为T，这样在该位置读取的碱基就只有T和A，容易导致读取不准确。为了分散第19位的AT碱基的平衡性，在接头设计时，一半接头的陪伴序列比另一半接头的陪伴序列长一个碱基，并且长的这个碱基一个是G，另一个是C，这样在读取时第19位便存在Y、G或C三种情况。对于长一个碱基的接头，其末尾碱基是Y，即C或T，是考虑到建库时，末端修复后加A的步骤中，尽管进行了5’磷酸化修饰以及3’末端加A，但并不能保证所有的片段都修饰完全或者都能在3’末端加上A，可能也存在加G的情况，因而将末尾碱基设计为Y，则能够实现AT连接或GC连接，从而最大限度地提高连接效率。因而在该碱基位置上，也存在A、T、C、G四种碱基组成的情况(如图中所示的测序序列的结构，在末尾两位分别是B和N，N代表A、T、G和C，B代表A、G和C)。此处还需要说明的是，传统的目的片段测序引物在设计时，根据TA连接，设计为从TA连接的下一位碱基开始读取，测序引物的末位碱基也是T或A，这样对于那部分3’末端可能被修饰为G的目标片段来说，则无法在测序时被读取。而在本申请中，测序引物是可以与A、T、G或C互补配对的，因而能够将所有连接片段进行读取，从而提高目标片段的利用效率以及目标片段文库的中靶率。

在MGI测序平台，本发明优选方案之一，提供了上游为半连接接头，如图10所示，下列4组接头组合在一起使用：

其中通用接头序列1为SEQ ID NO：1：

TTGTCTTCCTAAGACCGCTTGGCCTCCGACTTNNNNNNNNNNACGTACTGGAG*Y，其中*是硫代修饰，Y(简并碱基)代表是C或T；

其中通用接头序列2为SEQ ID NO：2：

CTCCAGTACGTAAGTCGGAGGCCAA/3’SpC3/，此序列是SEQ ID NO：1的互补序列；

其中通用接头序列3为SEQ ID NO：3：

TTGTCTTCCTAAGACCGCTTGGCCTCCGACTTNNNNNNNNNNTACGGACTCTC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列4为SEQ ID NO：4：

GAGAGTCCGTAAAGTCGGAGGCCAA/3’SpC3/，此序列是SEQ ID NO：3的互补序列；

其中通用接头序列5为SEQ ID NO：5：

TTGTCTTCCTAAGACCGCTTGGCCTCCGACTTNNNNNNNNNNGTACTGACAC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列6为SEQ ID NO：6：

GTGTCAGTACAAGTCGGAGGCCAA/3’SpC3/，此序列是SEQ ID NO：5的互补序列；

其中通用接头序列7为SEQ ID NO：7：

TTGTCTTCCTAAGACCGCTTGGCCTCCGACTTNNNNNNNNNNCGTACTGATG*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列8为SEQ ID NO：8：

CATCAGTACGAAGTCGGAGGCCAA/3’SpC3/，此序列是SEQ ID NO：7的互补序列；

在MGI测序平台，本发明优选方案之二，提供了下游为半连接接头，如图11所示，下列4组接头组合在一起使用：

其中通用接头序列9为SEQ ID NO：9：

GAACGACATGGCTACGATCCGACTTNNNNNNNNNNACGTACTGGAG*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列10为SEQ ID NO：10：

CTCCAGTACGTAAGTCGGATCGTAG/3’SpC3/，此序列是SEQ ID NO：9的互补序列；

其中通用接头序列11为SEQ ID NO：11：

GAACGACATGGCTACGATCCGACTTNNNNNNNNNNTACGGACTCTC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列12为SEQ ID NO：12：

GAGAGTCCGTAAAGTCGGATCGTAG/3’SpC3/，此序列是SEQ ID NO：11的互补序列；

其中通用接头序列13为SEQ ID NO：13：

GAACGACATGGCTACGATCCGACTTNNNNNNNNNNGTACTGACAC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列14为SEQ ID NO：14：

GTGTCAGTACAAGTCGGATCGTAG/3’SpC3/，此序列是SEQ ID NO：13的互补序列；

其中通用接头序列15为SEQ ID NO：15：

其中通用接头序列16为SEQ ID NO：16：

CATCAGTACGAAGTCGGAGGCCAA/3’SpC3/，此序列是SEQ ID NO：15的互补序列；

在Illumina测序平台，本发明优选方案之一，提供了p5端为半连接接头，如图12所示，下列4组接头组合在一起使用：

其中通用接头序列17为SEQ ID NO：17：

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNNNACGTACTGGAG*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列18为SEQ ID NO：18：

CTCCAGTACGTAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：17的互补序列；

其中通用接头序列19为SEQ ID NO：19：

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNNNTACGGACTCTC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列20为SEQ ID NO：20：

GAGAGTCCGTAAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：19的互补序列；

其中通用接头序列21为SEQ ID NO：21：

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNNNGTACTGACAC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列22为SEQ ID NO：22：

GTGTCAGTACAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：21的互补序列；

其中通用接头序列23为SEQ ID NO：23：

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNNNCGTACTGATG*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列24为SEQ ID NO：24：

CATCAGTACGAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：23的互补序列；

在Illumina测序平台，本发明优选方案之二，提供了p7端为半连接接头，如图13所示，下列4组接头组合在一起使用：

其中通用接头序列25为SEQ ID NO：25：

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNACGTACTGGAG*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列26为SEQ ID NO：26：

CTCCAGTACGTAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：25的互补序列；

其中通用接头序列27为SEQ ID NO：27：

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNTACGGACTCTC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列28为SEQ ID NO：28：

GAGAGTCCGTAAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：27的互补序列；

其中通用接头序列29为SEQ ID NO：29：

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNGTACTGACAC*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列30为SEQ ID NO：30：

GTGTCAGTACAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：29的互补序列；

其中通用接头序列31为SEQ ID NO：31：

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNCGTACTGATG*Y，其中*是硫代修饰，Y代表是C或T；

其中通用接头序列32为SEQ ID NO：32：

CATCAGTACGAGATCGGAAGAGC/3’SpC3/，此序列是SEQ ID NO：31的互补序列；

此处的陪伴序列的末端都进行了封闭修饰，就是3’的/3’SpC3/修饰，本修饰的目的是防止在后续的扩增过程当作引物产生不必要的扩增。

基于上述研究结果，申请人提出了本申请的方案。在一种典型的实施方式中，提供了一种接头元件，该接头元件包括分子标签接头序列和陪伴序列，分子标签接头序列按5’端到3’端的顺序依次包括测序平台接头、分子标签及陪伴互补序列；陪伴序列至少与陪伴互补序列互补，陪伴序列的5’是未磷酸化的，3’端具有封闭修饰。

通过采用接头外分子标签，适用于通过连接的方式引入文库，相比在接头内部设置分子标签，其好处在于本申请的接头元件构建的文库能够与任何其它标准文库混合测序，不用改变现有测序读取方式，直接在读取目标序列时先读取分子标签即可。从而大大降低了实际应用的复杂度，减少了测序成本，具有更高的应用价值。

此外，本申请的接头元件通过设置陪伴序列以及陪伴互补序列，并且将陪伴序列的5’端未磷酸化修饰，使得在文库构建中第二轮扩增时，仅扩增带有分子标签序列的目标片段，而难以扩增同样带有分子标签序列的非目的片段，从而提高目标片段文库的中靶率(即目标片段文库在所构建的整个文库中的占比)。在陪伴序列的3’端设置封闭修饰，避免了以陪伴序列为引物对体系中的非目标片段进行扩增，进一步降低了非目标片段的干扰。

3’端的封闭修饰方式包括但不仅限于C3间隔臂修饰、C6间隔臂修饰、MGB修饰、磷酸化修饰、地高辛修饰、生物素修饰或者3’端碱基为双脱氧碱基。上述修饰方式均能实现阻止3’末端作为引物进行延伸而导致的非目标片段的扩增。

能够实现上述效果的接头元件的设计方式有两种，一种是线性接头元件(如图1中B和图2中C所示)，一种是泡状接头元件(如图1中C和图2中D所示)。线性接头元件末端的陪伴序列长度相对较长，由于文库上机测序时，是从分子标签开始读取，然后是陪伴互补序列，接着是目标片段，因而整个读长中，陪伴互补序列(或者说是陪伴序列)占了一部分，从而在一定程度上减少了目标片段的测序读长。

因而，为了进一步提高目标片段的测序读长，在一种优选实施例中，陪伴序列由第一段和第二段组成，其中，第一段与陪伴互补序列互补，第二段与测序平台接头互补，分子标签形成泡状结构。通过将陪伴序列设置为两段，两段分别与分子标签两侧的侧翼序列互补，这样便于从一定程度上缩短分子标签3’端对应的陪伴序列的长度，相应地，增加了目标片段在测序时读取的长度。

在实际应用中，分子标签的长度可以根据待混合的文库的数量进行合理设计。在一种优选实施例中，分子标签的长度为6～12bp，优选为8～10bp。分子标签越长，能够提供的标记种类越多，能够标记更多的模板分子。同样地，分子标签在测序时，同样要占用目标片段的测序读长，因而分子标签越长，相应地目标片段的读长就相应变短，因此要根据实际情况考虑两者之间的平衡。分子标签的具体组成可以是一段已知的特定序列，也可以是随机合成的序列。从后续测序读取分子标签时的提高读取准确性考虑，优选所有模板分子的集合中，分子标签的碱基组成是A、T、G和C四种碱基均衡分布的，因而此处优选分子标签序列是随机合成的A、T、G和C碱基组成的序列，所有的分子标签都是随机合成时，则所有混合的目标片段(模板)在带有这些分子标签时，分子标签读取时也是随机均衡分布的，因而分子标签的读取准确性就较高。

如上述提到的，陪伴序列的长度根据接头元件结构是线性还是泡状而所有不同，优选地，陪伴序列的长度为10～16bp，更优选为10～12bp。长度选择在10个碱基以上，是考虑到即使泡状结构的接头元件，因末端存在至少10bp的互补配对的双链序列，提高分子标签接头序列的稳定性，从而提高分子标签接头序列的连接效率。

上述测序平台接头优选为MGI测序平台接头或Illumina测序平台接头。根据两种测序平台，在一种优选实施例中，提供了分别适用于各平台的接头元件，具体选自如下任意一组：(1)SEQ ID NO：1至SEQ ID NO：2；(2)SEQ ID NO：3至SEQ ID NO：4；(3)SEQ ID NO：5至SEQ ID NO：6；(4)SEQ ID NO：7至SEQ ID NO：8；(5)SEQ ID NO：9至SEQ ID NO：10；(6)SEQID NO：11至SEQ ID NO：12；(7)SEQ ID NO：13至SEQ ID NO：14；(8)SEQ ID NO：15至SEQ IDNO：16；(9)SEQ ID NO：17至SEQ ID NO：18；(10)SEQ ID NO：19至SEQ ID NO：20；(11)SEQ IDNO：21至SEQ ID NO：22；(12)SEQ ID NO：23至SEQ ID NO：24；(13)SEQ ID NO：25至SEQ IDNO：26；(14)SEQ ID NO：27至SEQ ID NO：28；(15)SEQ ID NO：29至SEQ ID NO：30；(16)SEQID NO：31至SEQ ID NO：32(具体见前述)。

在本申请第二种典型的实施方式中，提供了一种接头元件组合物，该接头元件组合物包括多个接头组合，每个接头组合由四个接头元件组成，且四个接头元件的分子标签的长度相同且均为随机合成的A、T、C和G碱基组成的序列，四个接头元件的陪伴序列的3’末端的两位碱基一半为GY，一半为CY，其中两个接头元件的陪伴序列的总长度比剩余两个接头元件的陪伴序列的总长度长一个碱基，以短一个碱基的接头元件的陪伴序列为参照，除末位碱基为Y外，剩余碱基在四个接头元件的陪伴序列中相同位置上分别为A、T、C和G平均分布；其中，接头元件选自前述任一种接头元件。

该接头元件组合物，是从前述接头元件在实际测序应用时碱基读取准确性角度来考虑的，为提高接头元件所标记的模板序列的分子标签在读取时的准确性，以后后续对模板序列拆分的准确性，该接头元件组合中每一组接头元件之间都考虑了碱基读取的平衡性，因而采用这些接头元件组合构建文库，不仅在建库过程中能够提高目标扩增片段的占比，而且在测序过程中也能够提高测序读取结果的准确性。从而适用于血浆DNA多重扩增建库，检测低频突变或胎儿游离DNA的无创产前检测。

在一种优选实施例中，接头元件组合物包括如下任意一组或多组：MGI上游端泡状接头组合，MGI上游端泡状接头组合包括前述接头元件中的第(1)-(4)组的接头元件；MGI下游端泡状接头组合，MGI下游端泡状接头组合包括前述接头元件中的第(5)-(8)组的接头元件；Illumina p5端泡状接头组合，Illumina p5端泡状接头组合包括前述接头元件中的第(9)-(12)组的接头元件；Illumina p7端泡状接头组合，Illumina p7端泡状接头组合包括前述接头元件中的第(13)-(16)组的接头元件。述各组接头元件组合都是充分考虑的碱基读取平衡性的，也经过试验验证，后续测序数据中不同目标片段的读取均衡性较高，且中靶率也较高。

在本申请第三种典型的实施方式中，提供了一种测序文库构建方法，该构建方法包括：对血浆游离DNA片段进行末端修复加A，得到修复片段；对修复片段进行分子标签接头连接，得到接头连接片段；利用基因特异性引物和分子标签接头对接头连接片段进行第一轮半扩增，得到一端带有分子标签的目标扩增片段；采用测序平台通用引物对一端带有分子标签的目标扩增片段进行扩增，得到测序文库；其中，分子标签接头采用上述任一种接头元件，或者采用上述任一接头元件组合物。

本申请的文库构建方法是针对MGI和Illumina两大测序平台建库方案进行设计的，先用连接接头的方式，先把分子标签连在序列一端，再用多重扩增的方法把目标片段筛选出来，这样既解决了加上固定分子标签(此处的固定是指不会在后续建库步骤或者上机测序步骤中引人突变)，又解决了快速富集靶向区域的目的，能够真正做到检测低频突变(即能从测序数据中将操作过程引入的突变与原始DNA模板中的突变区分开来)。本发明的应用能够实现低频突变的正确检测或产前胎儿DNA片段在母体血浆DNA中的正确检测。

该测序文库的建库方法，通过连接(如TA连接)的方式引入扩增子(即目标片段)的分子标签，这种引入方式比直接在扩增子上引入(是在接头和特异引物中间加分子标签，第一轮扩增只进行少数扩增，如2-3轮)的好处是这种是固定引入(即指连接上的分子标签是什么就是什么，不经历PCR扩增，因而是固定的，不像PCR扩增引入时，可能存在PCR突变的分子标签，当突变时就无法确定是原始分子标签发生了突变，还是原始分子标签就这样)，不会因为由于扩增导致的假的分子标签引入。此外，该构件方法除了解决扩增子的分子标签引入的问题外，还重点考虑了测序的均衡性问题(由于高通量测序仪是通过四种碱基的荧光标记信号检测的，荧光信号的之间的波长有很多相互重叠区域，所以导致由于碱基不平衡时极易导致测序错误影响测序质量)，由于本申请的接头元件及其组合，在分子标签和陪伴序列上都充分考虑了碱基的平衡性，因而所构建得到的文库能够保证测序时的质量(即准确性)。

根据本申请的另一发现：单端扩增引物与突变点的位置决定了检测模板的数量，离突变点距离近的引物相应的扩增模板较多，因而通过优化设计基因特异性引物与突变点的位置关系，能够提高扩增文库的模板数量。因而，在一种优选实施例中，分子标签接头为MGI上游端接头或Illumina的p5端接头，基因特异性引物的末端带有MGI下游接头通用序列或Illumina p7端接头通用序列；或者分子标签接头为MGI下游端接头或Illumina的p7端接头，基因特异性引物的末端带有MGI上游接头通用序列或Illumina的p5端接头通用序列。具体序列见前述所提到的。

在本申请第四种典型的实施方式中，提供了一种试剂盒，试剂盒包括上述任一种接头元件，或者采用上述任一接头元件组合物。

在本申请第五种典型的实施方式中，提供了一种测序文库，测序文库含有上述任一种接头元件，或者采用上述任一接头元件组合物。

在本申请第六种典型的实施方式中，提供了一种高通量测序方法，高通量测序方法包括：将多个待测序文件混合，得到混合文库；混合文库至于同一测序通道中进行测序；其中，混合文库含有上述任一种接头元件，或者采用上述任一接头元件组合物。

下面将结合具体的实施例来进一步说明本申请的有益效果。需要说明的是，以下实施例仅是示例性说明，并不限定本申请的方法仅能采用如下方法。

实施例1 MGI上游接头序列为接头的半连接方案(分子标签接头是SEQ ID NO：1-8的退火产物)

用Qiagen血浆提取试剂盒(货号：55114)对血浆DNA进行提取，提取好的cfDNA用于半连接和半扩增建库，针对69个SNP位点，进行验证实验。

一、实验步骤

1.cfDNA的提取用Qiagen公司的血浆提取试剂盒说明书操作即可。

2.补平加A体系的配置如下，操作按照纳昂达标准建库试剂盒(货号：#1002101)操作。

表1：

cfDNA	40μl(10ng)
		End Repair&A-Tailing Buffer	6μl
End Repair&A-Tailing Enzyme	4μl
		Total	50μl

3.补平加A程序，在PCR仪上启动如下反应程序，待温度稳定至20℃时将反应管放进PCR仪：

表2：

4.连接分子标签接头

表3：

补平加A产物	50μl
		分子标签接头(15μM)	2μl
Ligation Buffer	26μl
		DNA Ligase	2μl
Total	80μl

注：分子标签接头是：SEQ ID NO：1和SEQ ID NO：2的退火产物；SEQ ID NO：3和SEQID NO：4的退火产物；SEQ ID NO：5和SEQ ID NO：6的退火产物；SEQ ID NO：7和SEQ ID NO：8的退火产物。此处是四种退火产物的混合物。

连接分子标签程序，在PCR仪上启动如下反应程序，待温度稳定至20℃时将反应管放进PCR仪：

表4：

20℃	15min
		10℃	Hold

连接产物纯化，用1.5倍的NapPrep SP Beads纯化，流程按纳昂达说明书进行即可。

5.第一轮多重扩增反应(目标区域的扩增)

表5：

MGI上游通用扩增引物：SEQ ID NO：33：TTGTCTTCCTAAGACCGCTTGGCC；

带MGI下游接头的特异扩增子引物为：

GAACGACATGGCTACGATCCGACTT(SEQ ID NO：34)+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰。具体引物结构信息参考专利CN11062888B。

第一轮扩增的反应条件如下：

表6：

第一轮扩增产物纯化，用1.5倍的NapPrep SP Beads纯化，流程按纳昂达说明书进行即可。

6.第二轮扩增反应(加index的扩增)

表7：

组分名称	体积μl
		第一步PCR纯化产物	14
4X PCR Master Mix2(from IDT)	5
		MDI/SI Primer Mix	1
Total	20

第二步PCR程序如下：

表8：

第二轮PCR产物纯化，用1.5倍的NapPrep SP Beads纯化，流程按纳昂达标准建库说明书进行即可。

7.构建好的文库质控后在MGI测序平台上测序。

对下机数据进行分析如下：如图14所示，对69个位点的数据(read pair数)比较均衡的被检出，表明采用本申请的接头元件引入分子标签进行多重扩增子建库，不仅能够实现均衡扩增，而且100万的测序序列里面有77.6万是目标区域序列，即中靶率达到77.6％。与现有传统的分子标签接头的中靶率仅为33.2％相比，具有显著进步性。

实施例2 MGI下游接头序列为接头的半连接方案(分子标签接头是SEQ ID NO：9-16的退火产物)

本实施例与实施例1基本相同，不同点如下：

2.1下游分子标签接头是：SEQ ID NO：9和SEQ ID NO：10的退火产物；SEQ ID NO：11和SEQ ID NO：12的退火产物；SEQ ID NO：13和SEQ ID NO：14的退火产物；SEQ ID NO：15和SEQ ID NO：16的退火产物。此处是四种退火产物的混合物。

2.2MGI下游通用扩增引物：SEQ ID NO：35：GAACGACATGGCTACGA；

带MGI上游接头的特异扩增子引物为：TTGTCTTCCTAAGACCGCTTGGCCTCCGACTT(SEQID NO：36)+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰。具体引物结构信息参考专利CN11062888B。

MGI下游分子标签的测序数据分析结果如下：

表9：

检测位点	标准化后的数据量	中靶率
			69个	100万	78.1％

实施例3 Illumina测序平台p5端接头序列为接头的半连接方案(分子标签接头是SEQ ID NO：17-24的退火产物)

本实施例与实施例1基本相同，不同点如下：

3.1p5端分子标签接头是：SEQ ID NO：17和SEQ ID NO：18的退火产物；SEQ ID NO：19和SEQ ID NO：20的退火产物；SEQ ID NO：21和SEQ ID NO：22的退火产物；SEQ ID NO：23和SEQ ID NO：24的退火产物。此处是四种退火退火产物的混合物。

3.2p7端通用扩增引物：SEQ ID NO：37：ACACTCTTTCCCTACACGAC；

带p5端接头的特异扩增子引物：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ IDNO：38)+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰。具体引物结构信息参考专利CN11062888B。

3.3第二轮扩增引物是UDI Primer，详见NadPrep建库说明书。

p5端接头为分子标签的测序数据分析结果如下：

表10：

检测位点	标准化后的数据量	中靶率
			69个	100万	79.7％

实施例4 Illumina测序平台p7端接头序列为接头的半连接方案(分子标签接头是SEQ ID NO：25-32的退火产物)

本实施例与实施例1基本相同，不同点如下：

4.1p7端分子标签接头是：SEQ ID NO：25和SEQ ID NO：26的退火产物；SEQ ID NO：27和SEQ ID NO：28的退火产物；SEQ ID NO：29和SEQ ID NO：30的退火产物；SEQ ID NO：31和SEQ ID NO：32的退火产物。此处是四种退火产物的混合物。

4.2p5端通用扩增引物：SEQ ID NO：39：GTGACTGGAGTTCAGACGTGT；

带p7端接头的特异扩增子引物：ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ IDNO：40)+基因特异区域引物+R(D)n1DsDsDx或R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰。具体引物结构信息参考专利CN11062888B。

4.3第二轮扩增引物是UDI Primer(即平台通用扩增引物序列)，详见NadPrep建库说明书。

p7端为分子标签的测序数据分析结果如下：

表11：

检测位点	标准化后的数据量	中靶率
			69个	100万	82.5％

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

本申请所提供的接头元件是一种半连接的方式引入文库中的分子标签接头，其与以前的半连接的区别在于，本申请是在文库接头外侧加分子标签，相比在接头内部设置分子标签，其好处是在测序时方便，不用改变测序读取方式，直接在读取目标序列时先读取分子标签即可，减少了应用的复杂度；且这种文库可以和任何其它标准文库混合测序。而接头内部分子标签在测序时是不能和其它标准文库混测的，因而实际应用价值不高。

此外，本申请所提供的是一种通过连接的方式引入扩增子的分子标签，这种引入方式比直接在扩增子上引入的好处是这种是固定引入，不会因为由于扩增导致的假的分子标签引入。本发明除了解决扩增子的分子标签引入问题，还重点考虑了测序的均衡性问题(由于高通量测序仪是通过四种碱基的荧光标记信号检测的，荧光信号的之间的波长有很多相互重叠区域，所以导致由于碱基不平衡时极易导致测序错误影响测序质量)。本发明在引入分子标签和陪伴序列时都充分考虑了碱基的平衡性，这样能够保证测序时的质量。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 纳昂达（南京）生物科技有限公司

<120> 接头元件、试剂盒及其相关应用

<130> PN150204NAGD

<160> 40

<170> SIPOSequenceListing 1.0

<210> 1

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (54)..(54)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (33)..(42)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 1

ttgtcttcct aagaccgctt ggcctccgac ttnnnnnnnn nnacgtactg gagy 54

<210> 2

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(25)

<223> 3'端具有C3间隔臂修饰

<400> 2

ctccagtacg taagtcggag gccaa 25

<210> 3

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (54)..(54)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (33)..(42)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 3

ttgtcttcct aagaccgctt ggcctccgac ttnnnnnnnn nntacggact ctcy 54

<210> 4

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(25)

<223> 3'末端具有C3间隔臂修饰

<400> 4

gagagtccgt aaagtcggag gccaa 25

<210> 5

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (53)..(53)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (33)..(42)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 5

ttgtcttcct aagaccgctt ggcctccgac ttnnnnnnnn nngtactgac acy 53

<210> 6

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 6

gtgtcagtac aagtcggagg ccaa 24

<210> 7

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (53)..(53)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (33)..(42)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 7

ttgtcttcct aagaccgctt ggcctccgac ttnnnnnnnn nncgtactga tgy 53

<210> 8

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 8

catcagtacg aagtcggagg ccaa 24

<210> 9

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (47)..(47)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (26)..(35)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 9

gaacgacatg gctacgatcc gacttnnnnn nnnnnacgta ctggagy 47

<210> 10

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 10

ctccagtacg taagtcggat cgtag 25

<210> 11

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (47)..(47)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (26)..(35)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 11

gaacgacatg gctacgatcc gacttnnnnn nnnnntacgg actctcy 47

<210> 12

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (25)..(25)

<223> 3’末端具有C3间隔臂修饰

<400> 12

gagagtccgt aaagtcggat cgtag 25

<210> 13

<211> 46

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (46)..(46)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (26)..(35)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 13

gaacgacatg gctacgatcc gacttnnnnn nnnnngtact gacacy 46

<210> 14

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 14

gtgtcagtac aagtcggatc gtag 24

<210> 15

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (53)..(53)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (33)..(42)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 15

ttgtcttcct aagaccgctt ggcctccgac ttnnnnnnnn nncgtactga tgy 53

<210> 16

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 16

catcagtacg aagtcggagg ccaa 24

<210> 17

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (56)..(56)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (34)..(43)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 17

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnacgtact ggagy 55

<210> 18

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 18

ctccagtacg tagatcggaa gagc 24

<210> 19

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (56)..(56)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (34)..(43)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 19

acactctttc cctacacgac gctcttccga tctnnnnnnn nnntacggac tctcy 55

<210> 20

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 20

gagagtccgt aagatcggaa gagc 24

<210> 21

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (55)..(55)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (34)..(43)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 21

acactctttc cctacacgac gctcttccga tctnnnnnnn nnngtactga cacy 54

<210> 22

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (23)..(23)

<223> 3’末端具有C3间隔臂修饰

<400> 22

gtgtcagtac agatcggaag agc 23

<210> 23

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (55)..(55)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (34)..(43)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 23

acactctttc cctacacgac gctcttccga tctnnnnnnn nnncgtactg atgy 54

<210> 24

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (23)..(23)

<223> 3’末端具有C3间隔臂修饰

<400> 24

catcagtacg agatcggaag agc 23

<210> 25

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (57)..(57)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (35)..(44)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 25

gtgactggag ttcagacgtg tgctcttccg atctnnnnnn nnnnacgtac tggagy 56

<210> 26

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 26

ctccagtacg tagatcggaa gagc 24

<210> 27

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (57)..(57)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (35)..(44)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 27

gtgactggag ttcagacgtg tgctcttccg atctnnnnnn nnnntacgga ctctcy 56

<210> 28

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (24)..(24)

<223> 3’末端具有C3间隔臂修饰

<400> 28

gagagtccgt aagatcggaa gagc 24

<210> 29

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (56)..(56)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (35)..(44)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 29

gtgactggag ttcagacgtg tgctcttccg atctnnnnnn nnnngtactg acacy 55

<210> 30

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (23)..(23)

<223> 3’末端具有C3间隔臂修饰

<400> 30

gtgtcagtac agatcggaag agc 23

<210> 31

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (56)..(56)

<223> y是C或T，且具有硫代修饰

<220>

<221> misc_feature

<222> (35)..(44)

<223> n是A、T、C或G，n形成的序列为分子标签

<400> 31

gtgactggag ttcagacgtg tgctcttccg atctnnnnnn nnnncgtact gatgy 55

<210> 32

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (23)..(23)

<223> 3’末端具有C3间隔臂修饰

<400> 32

catcagtacg agatcggaag agc 23

<210> 33

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(24)

<223> MGI上游通用扩增引物

<400> 33

ttgtcttcct aagaccgctt ggcc 24

<210> 34

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(25)

<223> 带MGI下游接头的特异扩增子引物上的下游接头序列

<400> 34

gaacgacatg gctacgatcc gactt 25

<210> 35

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(17)

<223> MGI下游通用扩增引物

<400> 35

gaacgacatg gctacga 17

<210> 36

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(32)

<223> 带MGI上游接头的特异扩增子引物上的上游接头序列

<400> 36

ttgtcttcct aagaccgctt ggcctccgac tt 32

<210> 37

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(20)

<223> p7端通用扩增引物

<400> 37

acactctttc cctacacgac 20

<210> 38

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(34)

<223> 带p5端接头的特异扩增子引物上的p5端接头序列

<400> 38

gtgactggag ttcagacgtg tgctcttccg atct 34

<210> 39

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(21)

<223> p5端通用扩增引物

<400> 39

gtgactggag ttcagacgtg t 21

<210> 40

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(33)

<223> 带p7端接头的特异扩增子引物上的p7端接头序列

<400> 40

acactctttc cctacacgac gctcttccga tct 33

Claims

1.一种接头元件，其特征在于，所述接头元件包括：

第一链，所述第一链按5’端到3’端的顺序依次包括测序平台接头、分子标签及陪伴互补序列；和

第二链，所述第二链至少与所述陪伴互补序列互补，所述第二链的5’是未磷酸化的，3’端具有封闭修饰；

所述分子标签的长度为6～12bp，所述分子标签为随机合成的A、T、G和C碱基组成的序列；

所述第二链与所述陪伴互补序列互补使所述接头元件末端存在至少10bp互补配对的双链序列。

2.根据权利要求1所述的接头元件，其特征在于，所述第二链由第一段和第二段组成，其中，所述第一段与所述陪伴互补序列互补，所述第二段与所述测序平台接头互补，所述分子标签形成泡状结构。

3.根据权利要求1或2所述的接头元件，其特征在于，所述分子标签的长度为8～10bp。

4.根据权利要求3所述的接头元件，其特征在于，所述第二链的长度为10～16bp。

5.根据权利要求4所述的接头元件，其特征在于，所述第二链的长度为10～12bp。

6.根据权利要求3所述的接头元件，其特征在于，

所述封闭修饰选自C3间隔臂修饰、C6间隔臂修饰、MGB修饰、磷酸化修饰、地高辛修饰、生物素修饰或者3’端碱基为双脱氧碱基。

7.根据权利要求3所述的接头元件，其特征在于，所述测序平台接头为MGI测序平台接头或Illumina测序平台接头。

8.根据权利要求1所述的接头元件，其特征在于，所述接头元件选自如下任意一组：

(1)SEQ ID NO：1至SEQ ID NO：2；

(2)SEQ ID NO：3至SEQ ID NO：4；

(3)SEQ ID NO：5至SEQ ID NO：6；

(4)SEQ ID NO：7至SEQ ID NO：8；

(5)SEQ ID NO：9至SEQ ID NO：10；

(6)SEQ ID NO：11至SEQ ID NO：12；

(7)SEQ ID NO：13至SEQ ID NO：14；

(8)SEQ ID NO：15至SEQ ID NO：16；

(9)SEQ ID NO：17至SEQ ID NO：18；

(10)SEQ ID NO：19至SEQ ID NO：20；

(11)SEQ ID NO：21至SEQ ID NO：22；

(12)SEQ ID NO：23至SEQ ID NO：24；

(13)SEQ ID NO：25至SEQ ID NO：26；

(14)SEQ ID NO：27至SEQ ID NO：28；

(15)SEQ ID NO：29至SEQ ID NO：30；

(16)SEQ ID NO：31至SEQ ID NO：32。

9.一种接头元件组合物，其特征在于，所述接头元件组合物包括多个接头组合，每个所述接头组合由四个接头元件组成，且四个所述接头元件的所述分子标签的长度相同且均为随机合成的A、T、C和G碱基组成的序列，四个所述接头元件的第二链的3’末端的两位碱基一半为GY，一半为CY，其中两个所述接头元件的第二链的总长度比剩余两个所述接头元件的第二链的总长度长一个碱基，以短一个碱基的所述接头元件的第二链为参照，除末位碱基为Y外，剩余碱基在四个所述接头元件的第二链中相同位置上分别为A、T、C和G平均分布；其中，所述接头元件选自权利要求1至8中任一项所述的接头元件。

10.根据权利要求9所述的接头元件组合物，其特征在于，所述接头元件组合物包括如下任意一组或多组：

i)MGI上游端泡状接头组合，所述MGI上游端泡状接头组合包括权利要求8所述的接头元件中的第(1)-(4)组的接头元件；

ii)MGI下游端泡状接头组合，所述MGI下游端泡状接头组合包括权利要求8所述的接头元件中的第(5)-(8)组的接头元件；

iii)Illumina p5端泡状接头组合，所述Illumina p5端泡状接头组合包括权利要求8所述的接头元件中的第(9)-(12)组的接头元件；

iv)Illumina p7端泡状接头组合，所述Illumina p7端泡状接头组合包括权利要求8所述的接头元件中的第(13)-(16)组的接头元件。

11.一种测序文库构建方法，其特征在于，所述构建方法包括：

对血浆游离DNA片段进行末端修复加A，得到修复片段；

采用连接的方式对所述修复片段进行分子标签接头连接，得到接头连接片段；

利用基因特异性引物和测序平台通用扩增引物对所述接头连接片段进行第一轮半扩增，得到一端带有分子标签的目标扩增片段；

采用测序平台通用引物对所述一端带有分子标签的目标扩增片段进行扩增，得到所述测序文库；

其中，所述分子标签接头采用权利要求1至8中任一项所述的接头元件，或者采用权利要求9或10所述的接头元件组合物。

12.根据权利要求11所述的构建方法，其特征在于，所述分子标签接头为MGI上游端接头或Illumina的p5端接头，所述基因特异性引物的末端带有MGI下游接头通用序列或Illuminap7端接头通用序列；

或者

所述分子标签接头为MGI下游端接头或Illumina的p7端接头，所述基因特异性引物的末端带有MGI上游接头通用序列或Illumina的p5端接头通用序列。

13.根据权利要求12所述的构建方法，其特征在于，

带有MGI下游接头通用序列的基因特异性引物为：SEQ ID NO：34+基因特异区域引物+R(D)n1DsDsDx或SEQ ID NO：34+基因特异区域引物+R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，MGI上游通用扩增引物为SEQ ID NO：33。

14.根据权利要求12所述的构建方法，其特征在于，

带Illumina p7端接头通用序列的基因特异性引物为SEQ ID NO:38+基因特异区域引物+R(D)n1DsDsDx或SEQ ID NO:38+基因特异区域引物+R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，Illumina p5端接头通用扩增引物为SEQ ID NO：37。

15.根据权利要求12所述的构建方法，其特征在于，

带MGI上游接头通用序列的基因特异性引物为SEQ ID NO：36+基因特异区域引物+R(D)n1DsDsDx或SEQ ID NO：36+基因特异区域引物+R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，MGI下游通用扩增引物为SEQ ID NO：35。

16.根据权利要求12所述的构建方法，其特征在于，

带Illumina p5端接头通用序列的基因特异性引物为SEQ ID NO:40+基因特异区域引物+R(D)n1DsDsDx或SEQ ID NO:40+基因特异区域引物+R(D)n2DsDsMx所示结构，其中，R表示RNA碱基，D表示互补配对碱基，M表示错配碱基，n1和n2表示括号中D碱基的个数，n1为1或2，n2为2，s表示相邻的两个核苷酸之间的3’氧原子进行硫代修饰，x表示封闭修饰，相应地，Illumina p7端接头通用扩增引物为SEQ ID NO：39。

17.一种试剂盒，其特征在于，所述试剂盒包括权利要求1至8中任一项所述的接头元件，或者采用权利要求9或10所述的接头元件组合物。

18.一种测序文库，其特征在于，所述测序文库含有权利要求1至8中任一项所述的接头元件，或者含有权利要求9或10所述的接头元件组合物。

19.一种高通量测序方法，其特征在于，所述高通量测序方法包括：

将多个待测序文件混合，得到混合文库；

所述混合文库置于同一测序通道中进行测序；

其中，所述混合文库含有权利要求9或10所述的接头元件组合物。