CN113337576A

CN113337576A - 文库制备方法、试剂盒及测序方法

Info

Publication number: CN113337576A
Application number: CN202110264389.0A
Authority: CN
Inventors: 林群婷; 甘广丽; 樊济才; 金欢; 张萌; 李改玲; 张娟; 刘丽春; 冯燕; 黄梦娴; 林玉琪
Original assignee: Genemind Biosciences Co Ltd
Current assignee: Genemind Biosciences Co Ltd
Priority date: 2020-04-30
Filing date: 2021-03-11
Publication date: 2021-09-03
Also published as: CN113593636B; CN113593636A

Abstract

本发明提供文库制备方法、试剂盒及测序方法。所称的文库制备方法包括获取目标核酸分子，包括：对源自待测核酸样本的RNA进行逆转录，获得逆转录产物，逆转录产物包括RNA:DNA杂合双链，及富集逆转录产物中的RNA:DNA杂合双链；提供转座复合体，该转座复合体包含接头和转座酶，接头为序列已知的双链核酸分子；使目标核酸分子和转座复合体置于适于转座反应的条件下接触，获得转座产物，该转座产物包含末端带有接头且包含缺口的双链核酸分子；提供第一引物，第一引物配置为能与所述接头的至少一部分杂交；以及使转座产物与第一引物杂交并置于适于链置换反应的条件下，以获得文库。该方法特别适于低起始量的RNA文库的快速构建。

Description

文库制备方法、试剂盒及测序方法

技术领域

本发明涉及生物技术领域，具体地，本发明涉及一种文库制备方法、一种文库制备试剂盒以及一种测序方法。

背景技术

测序数据的质量与测序方法和测序文库有关。目前有很多研究致力于测序文库的构建优化及测序方法的优化。

对于微量核酸(如低于1ng)文库制备的过程中，核酸质量、制备方法、制备过程中所采用的反应条件包括溶液体系等的不当或异常，如核酸浓度过低、筛选的核酸片段大小不合适、反应体系中的多个组分在特定条件下可能互相作用、互相干扰等，都可能导致制备得质量较低或不合格的文库，以致不能用于测序。

而一般地，不同的测序平台都有相适配的文库和测序方法。

其中的单分子测序技术、单分子测序平台，一直代表着核酸检测技术的先进方向，早在上世纪八十年代就有人提出了单分子测序。2003年斯坦福大学生物工程系的教授Stephen Quake博士成功演示了第一个单分子DNA测序实验；2008年Helicos公司的第一台单分子测序仪(HeliScope)上市；2009年Korlach与Turner在《科学》杂志上发表文献介绍了PacBio单分子测序技术原理，随后，2010年PacBio公司推出了PacBio RS测序系统，并于2011年正式商用。2014年OxfordNanopore公司在AGBT(基因组生物学技术进展年会)上展示了其MinION测序系统。据报道，上述任一测序平台的single-pass(单程测序)的测序错误率均很高，最高可达30％，而且，错误类型主要是InDel(插入缺失)且是随机发生的。一般认为，通过多次读取可降低这种测序错误率。

因而，现有的是适配于边合成边测序的测序平台的文库构建方法和测序方法，均有待改进。

发明内容

至少为一定程度地解决上述现有技术问题至少之一，本发明提供了一种文库制备方法、一种文库制备试剂盒以及一种测序方法。

在本发明的实施方式中，提供一种制备文库的方法，包括：获取目标核酸分子，该目标核酸分子为双链核酸分子，包括：对源自待测核酸样本的RNA进行逆转录，获得逆转录产物，所述逆转录产物包括RNA:DNA杂合双链，和富集所述逆转录产物中的RNA:DNA杂合双链，以获得所述目标核酸分子；提供转座复合体，所述转座复合体包含接头和转座酶，所述接头为序列已知的双链核酸分子；使所述目标核酸分子和所述转座复合体置于适于转座反应的条件下接触，获得转座产物，所述转座产物包含末端带有接头且包含缺口的双链核酸分子；提供第一引物，所述第一引物配置为能与所述接头的至少一部分杂交；以及使所述转座产物与所述第一引物杂交并置于适于链置换反应的条件下，以获得所述文库。

上述文库制备方法属于RNA文库构建方法，相较于常规RNA文库制备，该方法操作简单、利于快速地制得文库，特别适用于低起始量的核酸样本的文库制备；具体地，利用转座复合物对高效富集后的RNA:DNA杂合双链进行转座处理，通过一个步骤在一个相同的溶液体系就实现了RNA:DNA杂合双链的片段化、片段化产物的修复以及片段化产物的接头连接，而且，不需纯化或分离地，在上一步反应的溶液体系中加入引物(第一引物)和聚合酶(非热启动DNA聚合酶)进行链置换反应以补平转座产物的核酸分子上的缺口，获得两端带有接头的目标核酸分子。利用该方法制备得的文库能够在各种测序平台上进行测序，且利于获得准确的测定结果。

根据本发明的具体实施方式，该文库构建方法还包括以下附加技术特征中的至少之一。

在某些具体实施方式中，待测核酸样本中包含的RNA的量或者说进行文库构建的RNA的起始量不低于5pg，较佳地不低于于10pg。该实施方式的建库方法能够对该等起始量的核酸实现文库构建，且构建得的文库满足测序的要求。任选地，核酸的起始量不需多于50pg。该实施方式的建库方法对核酸的起始量的要求很低，特别适于核酸难以提取或者珍贵稀有的核酸样本。

在某些具体实施方式中，获取目标核酸分子还包括：在进行所述逆转录之前对所述RNA进行变性。具体地，在一个示例中，将RNA置于65℃中3～10min以实现该变性。如此，能够获得尽量多的处于一级结构的RNA，利于更有效进行逆转录。

本实施方式对适用的逆转录酶没有限制，该逆转录步骤的目的是为了获得RNA:DNA杂合体。基于样本中包含不同种类的RNA，进行逆转录时可选用不同的引物，如随机引物、特异引物(如oligo dT)等。

在某些具体实施方式中，利用混合引物进行逆转录，混合引物包括Oligo dT(由T组成的寡核苷酸链)和随机引物。如此，利于该混合引物进行逆转录，能够较均衡地获得各种RNA的逆转录产物。

具体地，在一个示例中，Oligo dT的长度为12～20nt，和/或随机引物的长度为4-8nt。如此，利于有效均衡地实现各种RNA的逆转录。可选地，可进一步设置Oligo dT和随机引物在逆转录反应体系中的比例为1:2～1:6，如此，能较好地获得各种RNA的逆转录产物。

在某些具体实施方式中，利用磁珠进行所称的富集。该富集处理一方面为更换反应溶液体系，即通过去除富集后的上清液从而去除逆转录反应溶液体系，另一方面为了使RNA:DNA杂合体结合到磁珠表面，增加RNA:DNA杂合体的浓度，以利于更有效地进行后续反应，如对后续转座反应效率的影响。特别地，该富集处理对起始量低的样本的建库(文库构建)是重要的，影响构建得的文库是否能满足测序的要求。

磁珠在文库的构建中，使用广泛，但不同磁珠的捕获性能差异较大。其中，引起磁珠性能差异的主要因素如下：(1)磁珠中层基质不同，磁珠的基本性质会有所不同；(2)修饰的官能团不同，磁珠的吸附特性会有所不同，比如羧基修饰基团磁珠，相比羟基基团能够获得更高的产量，非特异性结合更少；(3)不同的颗粒粒径，一般而言，粒径越大磁性越强；(4)官能团修饰工艺不同，会造成官能团密度、臂长不同，所携带的表面电荷、斥力、氢键数量不同，吸附能力会随之改变；(5)磁珠Buffer配方不同，效果也会有所不同，如Tween-20等润滑剂不同，会影响磁珠的残留；(6)不同反应液的离子强度、pH值等条件会直接影响磁珠功能基团的活性。因此，选择合适的磁珠进行杂交双链的有效富集，利于后续获得准确的检测测定结果。

在一些示例中，发明人选择和测试一系列市售磁珠发现，利用表面具有羧基修饰基团(羧基或含羧基的基团)的磁珠进行该富集，能够较好地富集目标核酸分子，利于构建高质量文库。特别地，Yeasen公司的货号为12601ES03磁珠的测试结果较优。

利用转座反应对目标核酸分子进行打断(片段化)和接头连接。在某些具体实施方式中，转座复合体为Tn5转座复合体，其中包含转座酶为Tn5转座酶或其工程酶，包含的接头为一种或者两种序列已知的双链核酸分子，该接头的至少一部分可以与第一引物杂交/互补配对，以进行后续的链置换反应，以及任选的PCR。具体地，在一个示例中，接头具有如SEQID NO：1和SEQ ID NO：2所示的序列，与Tn5转座酶能较好地搭配，以实现转座建库(文库构建)。

在某些具体实施方式中，该方法还包括在转座反应的溶液体系中加入终止液以终止转座反应，具体地，该终止液包含SDS。包含该终止液的溶液体系，不需经过纯化或分离来更换溶液体系，可直接作为后续的链置换或者PCR反应的溶液体系。

在某些具体实施方式中，所述第一引物具有如SEQ ID NO：3和SEQ ID NO：4所示的序列。该引物能够与接头的3'端的至少一部分序列杂交，在具有链置换功能的聚合酶的催化下，能够合成新链以补平转座产物核酸分子上的缺口，获得两端带有接头的目标核酸分子，从而构建得文库。

进一步地，在一个示例中，在进行链置换反应之后，对链置换反应产物进行PCR，可利用与链置换反应相同的溶液体系进行该PCR。如此，可进一步确保文库的量满足上机测序的要求。

在本发明的实施方式中，提供一种试剂盒，该试剂盒用于实施上述任一实施方式中的文库制备方法，以制得文库，该试剂盒包括：用于实现逆转录的第一试剂、用于实现富集的第二试剂、转座复合体和第一引物。上述任一实施方式中的制备文库的方法的优点和技术特征，同样也适用于该试剂盒，在此不再赘述。

在一些示例中，第一试剂包含逆转录酶和混合引物；第二试剂包括磁珠，特别是带有羧基修饰基团的磁珠；转座复合体为Tn5转座复合体。

此外，在一些示例中，该试剂盒还包括用以终止转座反应的终止液等。

在本发明的实施方式中，提供一种测序方法，包括：利用上述任一实施方式中的方法制备文库；以及对文库进行测序，以获得测序结果。据测序结果，利用该测序方法，即对利用上述任一实施方式的文库制备方法制备得的文库进行测序，能够获得较高质量的测序数据，获得准确的测序结果。可理解地，上述任一实施方式中的文库制备方法的优点和技术特征，同样也适用该测序方法，在此不再赘述。

根据本发明的具体实施方式，该测序方法还包括以下附加技术特征中的至少之一。

在某些具体实施方式中，在进行测序之前，该方法还包括：使文库连接到固相基底表面，固相基底表面带有探针，探针配置为与接头的至少一部分杂交。所称的探针，也称为引物，是一段序列已知的寡核苷酸链。所称的固相基底选自玻璃、硅片、塑料、凝胶和尼龙膜中的至少之一。在某些示例中，采用玻璃作为固相基底，并对该固相基底进行表面修饰，使固相基底表面带有硅烷基团，以连接/固定探针，进而使该探针与接头杂交，以将文库连接到固相基底表面。

在一些示例中，接头包括第一接头和第二接头，探针包括第一探针和第二探针，第一探针配置为与第一接头的至少一部分杂交，第二探针配置为与第二接头的至少一部分杂交，该方法包括：解链文库，获得单链文库；使单链文库连接到固相基底表面；在固相基底表面上对单链文库进行扩增，以获得测序模板。

扩增例如可以为桥式扩增(bridge-PCR)或者模板步移扩增(template walking)。

在某些具体实施方式中，在进行测序之前，该方法还包括：解链文库，获得单链文库；使单链文库连接到固相基底表面，所称的固相基底表面带有探针，该探针共价连接在固相基底表面上，探针配置为与接头的至少一部分杂交；以单链文库为模板、延伸探针以合成该单链文库的互补链，形成测序模板。

进一步地，在某些具体实施方式中，还包括：除去单链模板，并对固相基底表面的核酸分子进行第一封闭处理，以获得测序模板，所称的第一封闭处理包括使延伸阻断剂结合到所述固相基底表面的核酸分子的3'末端。

所称的第一封闭处理能够封闭固相基底表面的单链核酸分子的活性基团/3'末端，如封闭残留的单链模板、未反应的探针等，以避免该些核酸分子对后续反应组分的结合或吸附、对后续反应的干扰，有利于后续高质量测序数据的获得。

在一些示例中，所称的第一封闭处理包括在末端转移酶的作用下使所述延伸阻断剂结合到连接到固相基底表面上的核酸分子的3'末端，延伸反应阻断剂可选择ddNTP及其衍生物中的至少一种。

具体地，在某些示例中，第一封闭处理使用的封闭液包含ddATP、ddTTP、ddCTP、ddGTP和末端转移酶。更具体地，在一个示例中，第一封闭处理所使用的封闭液包含组分为：100U/ml Terminal Transferase(NEB，M0315L)，1×Terminal Transferase Buffer，0.25mM氯化钴，100μM ddNTPmix(ddATP、ddTTP、ddCTP、ddGTP各100μM的混合物)。如此，利于高效测定目标核酸分子的序列并获得高质量的测序数据。

在某些具体实施方式中，还包括：对延伸不完全的互补链进行第二封闭处理，所称的第二封闭处理包括使延伸阻断剂结合到所述延伸不完全的互补链的3'末端。如此，利于后续高效测定目标核酸分子的序列并获得高质量的测序数据。

在一些示例中，所称的第二封闭处理包括在DNA聚合酶的作用下使延伸反应阻断剂结合到延伸不完全的互补链的3'末端，延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。

在某些具体实施方式中，测序结果包括第一测序数据和第二测序数据，对文库进行测序，获得测序结果包括：(1)加入测序引物，对测序模板进行第一测序，以便通过形成第一新生链获得第一测序数据，测序引物配置为与所述测序模板的3'末端杂交；(2)去除第一新生链；(3)加入测序引物，对测序模板进行第二测序，以便通过形成第二新生链获得第二测序数据。利用该测序方法，可获得目标核酸分子上的相同位置的两次或多次测序数据，通过该两次或多次数据的互相校正处理，能够有效降低测序错误率，获得准确的测序结果。特别适合于对数据准确性要求高的样本的测序或者利用单分子测序平台进行的测序。

在某些具体实施方式中，(2)还包括：对残余在固相基底表面的第一新生链的3'末端进行第三封闭处理，所称的封闭处理包括使延伸阻断剂结合到第一新生链的3'末端。

具体地，在一些示例中，第三封闭处理包括在DNA聚合酶的作用下使延伸反应阻断剂结合到第一新生链的3'末端，延伸反应阻断剂可选择ddNTP及其衍生物中的至少一种。

所称的第二封闭处理和/或第三封闭处理能够封闭固相基底表面上的非目标双链核酸分子的3'末端，能减少该些双链核酸分子对后续步骤或反应的影响。例如，第三封闭处理可有效封闭未能去除的第一新生链，提高第二测序数据的产量和质量，进而提高测序结果的准确性。

具体地，在一些示例中，第二封闭处理和/或第三封闭采用的封闭液包含ddATP、ddTTP、ddCTP、ddGTP和DNA聚合酶，其中的DNA聚合酶可选择taq、Klenow片段等。更具体地，在某个示例中，第二封闭处理和/或第三封闭采用的封闭液包含的组分为：100U/ml Klenow大片段，12.5μM ddNTP mix(ddATP、ddTTP、ddCTP、ddGTP各12.5μM的混合物)，5mM的氯化锰，20mM的三羟甲基氨基甲烷，10mM的氯化钠，10mM的氯化钾，10mM的硫酸铵，3mM的氯化镁以及0.1％的Triton X-100，且pH为8.3。如此，利于高效测定目标核酸分子的序列并获得高质量的测序数据。

在某个示例中，测序引物具有如SEQ ID NO：6所示的序列。

在某些具体实施方式中，还包括对测序结果进行分析，包括：(a)基于第一测序数据和第二测序数据各自的至少一部分进行互相校正，以便确定目标核酸分子的至少一部分序列信息。

在一些示例中，第一测序数据和第二测序数据均包含多个读段，所称的互相校正包括：在第一测序数据和第二测序数据中选择高质量读段和该高质量读段的对应读段，高质量读段的长度不低于预定长度，高质量读段具有不低于预定质量阈值的测序质量；和将高质量读段与高质量读段的对应读段进行比对，并基于比对结果进行序列信息校正。

在某些具体实施方式中，(a)包括：(a-1)根据读段的长度，基于第一测序数据，构建第一读段集合，第一读段集合中的每一个读段的长度均不低于第一预定长度；(a-2)根据对应读段的长度，基于第一读段集合，构建第二读段集合和第三读段集合，第二读段集合中的每一个读段的对应读段的长度均不低于第二预定长度，第三读段集合中的每一个读段的对应读段的长度均处于预定长度范围内；(a-3)根据第二读段集合中的读段及其对应读段的测序质量，基于第二读段集合及其对应读段，构建第四读段集合和第五读段集合，其中，第四读段集合和第五读段集合分别可按照下列原则确定：将第二读段集合中的读段与其对应读段进行测序质量比较，选择测序质量高的一方作为第四读段集合的元素，选择测序质量低的一方作为第五读段集合的元素，而对于测序质量相同的情形，选择来自第二读段集合的读段作为第四读段集合的元素，选择对应读段作为所述第五读段集合的元素；(a-4)利用测序质量，对第四读段集合进行过滤处理，以便构建第六读段集合，第六读段集合中的读段的测序质量均不低于第一预定质量阈值；(a-5)利用第六读段集合，从第五读段集合中选择与第六读段集合中的读段对应的读段，以便构建第七读段集合；(a-6)将第六读段集合与第七读段集合进行读段比对，并在第六读段集合的读段上确定第一差异位点；和(a-7)利用预先确定的测序误差预测模型，对第一差异位点进行校正，以便确定第一序列信息，测序误差预测模型用于确定在测序过程中，差异位点发生插入或者缺失的概率。

具体地，在一些示例中，进一步包括：(a-4a)利用测序质量，对第三读段集合进行过滤处理，以便构建第八读段集合，其中，第八读段集合中的读段的测序质量均不低于第二预定质量阈值；(a-5a)利用第八读段集合，从第二测序数据中选择与第七读段集合中的读段对应的读段，以便构建第九读段集合；(a-6a)将第八读段集合与第九读段集合进行读段比对，并在第八读段集合的读段上确定第二差异位点；和(a-7a)利用测序误差预测模型，对第二差异位点进行校正，以便确定第二序列信息。

具体地，在一些示例中，所称的测序误差预测模型是基于第一测序数据和第二测序数据与参考基因组的比对结果，对朴素贝叶斯模型进行训练获得的。

进一步地，在一些示例，针对第一差异位点和第二差异位点：如果来自第六读段集合的读段在差异位点存在碱基，来自第七读段集合的对应读段在差异位点不存在碱基，并且在差异位点发生缺失的概率为50％以上，则保留第六读段集合的读段在差异位点的碱基作为最终测序结果；如果来自第六读段集合的读段在差异位点不存在碱基，来自第七读段的读段集合的对应读段存在差异位点存在碱基，并且在差异位点发生插入的概率为50％以上，则保留第七读段集合的读段在差异位点的碱基作为最终测序结果；和如果来自第六读段集合的读段在差异位点存在碱基，来自第七读段的读段集合的对应读段在差异位点也存在碱基，则选择所述第六读段集合的读段在差异位点的碱基作为最终测序结果。

在一些示例中，第一预定长度和第二预定长度分别独立地不低于20bp，优选不低于25bp。

在一些示例中，预定长度范围为10～25bp。

在一些示例中，第一预定质量阈值和第二预定质量阈值分别独立地不低于50，优选不低于60。

附图说明

图1显示一个实施例中的不经过Yeasen cfDNA磁珠富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G1、G2和G3分别对应10pg、50pg和100pg起始量的文库。

图2显示一个实施例中的经过Yeasen cfDNA磁珠富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G4、G5和G6分别对应10pg、50pg和100pg起始量的文库。

图3显示一个实施例中的不经过Yeasen clean磁珠富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G7、G8和G9分别对应10pg、50pg和100pg起始量的文库。

图4显示一个实施例中的经过Yeasen clean磁珠富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G10、G11和G12分别对应10pg、50pg和100pg起始量的文库。

图5显示一个实施例中的不经过CZ1000nM富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G13、G14和G15分别对应10pg、50pg和100pg起始量的文库。

图6显示一个实施例中的经过CZ1000nM富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G16、G17和G18分别对应10pg、50pg和100pg起始量的文库。

图7显示一个实施例中的不经过CZ500nM富集的不同起始量的核酸样本的文库的生物分析仪检测结果示意图，其中的G19、G20和G21分别对应10pg、50pg和100pg起始量的文库。

图8显示一个实施例中的经过CZ500nM富集的不同起始量的RNA样本的文库的生物分析仪检测结果示意图，其中的G19、G20和G21分别对应10pg、50pg和100pg起始量的文库。

图9显示一个实施例中的不经过CZ200nM富集的不同起始量的RNA样本的文库的生物分析仪检测结果示意图，其中的H1、H2和H3分别对应10pg、50pg和100pg起始量的文库。

图10显示一个实施例中的经过CZ 200nM富集的不同起始量的RNA样本的文库的生物分析仪检测结果示意图，其中的H4、H5和H6分别对应10pg、50pg和100pg起始量的文库。

图11显示一个实施例中的不经过NW700nM富集的不同起始量的RNA样本的文库的生物分析仪检测结果示意图，其中的H7、H8和H9分别对应10pg、50pg和100pg起始量的文库。

图12显示一个实施例中的经过NW700nM富集的不同起始量的RNA样本的文库的生物分析仪检测结果示意图，其中的H10、H11和H12分别对应10pg、50pg和100pg起始量的文库。

图13显示一个实施例中的双程测序(two-pass)的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。示例中的试剂、检测仪器等，如无特殊说明，可自配或者通过市售途径获取。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个所述特征。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

所称的“测序”、“序列测定”均同核酸序列测定，包括DNA测序和/或RNA测序，包括长片段测序和/或短片段测序。一般地，在基于边合成边测序(Sequencing by Synthesis，SBS)原理的测序中，通过一轮测序反应能够测定一个碱基或者一个特定类型的碱基，测序反应采用的底物一般为核苷酸类似物。在边合成边测序和/或边连接边测序的测序反应中，所称的一轮测序反应包括延伸反应(碱基延伸)、信息收集(如拍照/图像采集)和基团切除(cleavage)。所称的“核苷酸类似物”也称为可逆终止子(reversible terminator或terminator)，为A、T、C、G和/或U的类似物，能够遵循碱基互补原则与特定类型的碱基配对、同时能够终止核苷酸/底物结合到模板的下一个位置。

所称的“探针”可以是DNA和/或RNA等，在一些实施方式中也可称为“引物”、“捕获链”或“固定链”。所称的“探针”可以在基底表面上随机分布或者规则分布，如阵列分布。

所称的“固相基底”可以是任何可用于固定核酸序列的固体支持物，例如尼龙膜、玻璃片、塑料、硅片、磁珠等，如无特殊说明，芯片表面与固相基底表面可互换使用。一般地，基底基底表面为经过化学修饰的表面，带有反应基团，可与探针连接。表面修饰、固定等可利用已知方法进行或者直接定制或者购买。

所称的“吸附”一般指非特异性吸附，指非共价键的作用力导致的吸附，非共价键的作用力包括疏水作用力、范德华力、静电作用力等；在表面带有探针的芯片上、基于碱基互补原则的核酸检测过程中，一般地，核酸分子非特异性吸附指核酸分子非共价的连接在芯片表面和/或探针上。

所称的“读段”指测定DNA或RNA序列所获得的序列片段，包括利用测序平台对DNA或RNA的至少一部分进行测定识别所获得的序列。测序平台可选择但不限于Illumina公司的Hisq/Miseq/Nextseq等测序平台、Thermo Fisher(Life Technologies)公司的IonTorrent平台、BGI的BGISEQ平台和单分子测序平台，测序方式可以选择单端测序，也可以选择双末端测序，获得的下机数据是测读出来的片段，称为读段(reads)。

所称的“比对”指序列比对，为一段序列与另一段序列的匹配或配对，包括读段定位到参考序列上的过程，也包括获得读段定位/匹配结果的过程。

实施例

提取空载大肠杆菌DH5a的总RNA作为起始核酸，样本核酸起始量采用三个梯度：10pg、50pg和100pg，比较6种磁珠的建库效果，同时每种磁珠分别设置两组对比实验，每组实验样本起始量设置10pg、50pg和100pg的三个梯度：利用磁珠富集的建库方法和不适用磁珠富集的建库方法，比较两种不同方法的建库效果。

同一个建库流程中的富集纯化步骤和磁珠纯化步骤采用的磁珠相同，采用的6种磁珠分别为：A组Yeasen cfDNA磁珠(CatNO：12599ES03,Yeasen)，B组Yeasen clean磁珠(Cat NO：12601ES03,Yeasen)，C组CZ1000(Cat NO：A2401-1000,LONGMARCH)，D组CZ500nm(CatNO：A2401-500,LONGMARCH)，E组CZ200nm(CatNO：A2401-200LONGMARCH)，F组NW700nm(Cat NO：MSRSH-070,NanoMicro)，6种磁珠的详细信息见表1。

表1

步骤一：构建测序文库

1、RNA变性

将RNA分别配置成10pg/μl、50pg/μl、100pg/μl三种浓度，平行做6*2*3＝36个实验(其中，“6”表示6种磁珠，“2”表示每种磁珠做两组建库流程的对照实验，“3”表示每组实验的核酸起始量设置3个浓度梯度)，如表2所示。

表2

按照表3所示配置反应体系。

表3

将上述反应体系混匀后，至于预热的PCR仪中，65℃5min，立即置于冰上2min。

2、RNA逆转录

采用Yeasen公司逆转录试剂盒进行RNA逆转录，试剂盒货号为Cat NO：11112ES92，按照表4所示配置反应体系。

表4

试剂	体积
		上一步反应液	13μl
5xHifairIVbuffer	4μl
		dNTPmix(10μM)	1μl
HifairIVRtase(200U/μl)	1μl
		天根抑制剂(40U/μl，CatNO:NG209)	1μl
Total	20μl

将上述反应体系混匀后，置于PCR仪中，运行下列程序：

25℃5min，50℃15min，85℃5min，12℃hold；

反应结束后，6组富集组实验进行步骤3的磁珠富集步骤，分别加入对应的磁珠进行富集，不富集的6组先4℃保存，待富集组完成后，一起进行Tn5转座反应。

3、磁珠富集

分别加入一倍体积的磁珠(20μl)，室温5min，至于磁力架上5min，去除上清，立即进行下一步，马上加入水溶解磁珠，避免干燥导致损耗。

4、Tn5转座

采用市售的Tn5转座复合物试剂盒并按照试剂盒使用说明书进行Tn5转座反应，如可利用深圳市真迈生物科技有限公司(GeneMind)的货号为Cat NO：C0BD01-01AA试剂盒并按照表5所示配置反应体系。该试剂盒包含接头和Tn5转座酶，所述接头由SEQ ID NO：1和5'末端带有磷酸基团修饰的SEQ ID NO：2组成：TCAGATCCTACAACGACGCTCTACCGATGAAGATGTGTATAAGAGACAGT(SEQ ID NO：1)和CTGTCTCTTATACACATCTGAGTGGAACTGGATGGTCGCAGGTATCAAGGA(SEQ ID NO：2)

注：配置磁珠富集组应先加入水，使磁珠溶解混匀，防止磁珠过度干燥；提前将5×片段化缓冲液-2放至室温，然后将5×片段化缓冲液-2和5×片段化缓冲液配成mix，先加入此mix，混匀后，再加入转座酶。

表5

试剂	体积(富集组)	体积(不富集组)
			磁珠富集产物	0	20μl
water	11μl	/
			5×片段化缓冲液-2	4μl	4μl
5×片段化缓冲液	4μl	4μl
			片段化复合体	1μl	1μl
total	20μl	29μl

混匀上述试剂后，置于预热的PCR仪上，运行下列程序：55℃10min，4℃hold。

5、终止转座反应

可利用深圳市真迈生物科技有限公司(GeneMind)的货号为C0BD01-01AA的终止液终止反应。

富集组：加入5μl 5×终止反应缓冲液混匀，室温5min，终止反应。

不富集组：加入7.5μl 5×终止反应缓冲液混匀，室温5min，终止反应。

6、扩增

按照表6所示配置PCR反应体系。

表6

其中引物1：5’-TTCCTCAGATCCTACAACGACGCTCTACCGAT-3’(SEQ ID NO：3)；

引物2：5’-TTCTCCTTGATACCTGCGACCATCCAGTT-3’(SEQ ID NO：4)。

按下表7所示程序运行PCR反应。

表7

7、磁珠纯化

(1)0.8×纯化：

根据每个反应的体积，加入0.8×纯化磁珠，混匀，室温放置5min；

置于磁力架上至澄清，弃去上清；

加入200μl80％的乙醇吹打10次，静置30s，弃上清；

瞬时离心，置于磁力架上，完全去除上清，室温晾干；

将样品管取下，加入20μl干净的水，混匀，室温静置5min；

瞬时离心，置于磁力架上直至澄清，取18μl上清至新的1.5ml管子中，进行下一步纯化。

(2)1×纯化：

在18μl上清液中加入1×纯化磁珠(18μl)，混匀，室温放置5min；

置于磁力架上至澄清，弃去上清；

加入200μl80％的乙醇吹打10次，静置30s，弃上清；

瞬时离心，置于磁力架上，完全去除上清，室温晾干；

将样品管取下，加入17μl干净的水，混匀，室温静置5min；

瞬时离心，置于磁力架上直至澄清，取15μl上清至新的1.5ml管子中，得到样品文库，-20℃保存。

8、定量

利用Labchip GX Touch(PerkElmer)微流控毛细管电泳检测步骤7的文库，检测的纯化产物的浓度如表8所示，从表8中可看出，经Yeasen clean磁珠、CZ1000nm磁珠富集纯化制备的文库浓度高于其它几种磁珠富集纯化制备的文库浓度，同时，可看出不经过磁珠富集纯化制备的文库浓度远高于经磁珠富集纯化制备的文库浓度。

检测结果示意图如图1-12所示，其中

图1：不同起始量的RNA样本不经过Yeasen cfDNA磁珠富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G1、G2和G3分别对应10pg、50pg和100pg起始量的RNA样本构建的文库。Yeasen cfDNAbeads_不富集_10pg；

图2：不同起始量的RNA样本经过Yeasen cfDNA磁珠富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G4、G5和G6分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图3：不同起始量的RNA样本不经过Yeasen clean磁珠富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G7、G8和G9分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图4：不同起始量的RNA样本经过Yeasen clean磁珠富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G10、G11和G12分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图5：不同起始量的RNA样本不经过CZ1000nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G13、G14和G15分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图6：不同起始量的RNA样本经过CZ1000nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G16、G17和G18分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图7：不同起始量的RNA样本不经过CZ 500nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G19、G20和G21分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图8：不同起始量的RNA样本经过CZ500nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中G19、G20和G21分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图9：不同起始量的RNA样本不经过CZ200nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中H1、H2和H3分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图10：不同起始量的RNA样本经过CZ 200nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中H4、H5和H6分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图11：不同起始量的RNA样本不经过NW700nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中H7、H8和H9分别对应10pg、50pg和100pg起始量的RNA样本构建的文库；

图12：不同起始量的RNA样本经过NW 700nM富集进行文库构建，文库经过生物分析仪检测结果示意图，其中H10、H11和H12分别对应10pg、50pg和100pg起始量的RNA样本构建的文库。

表8

步骤二：文库捕获/杂交

定量合格的文库用于序列捕获，并利用单分子测序仪进行测序。

可利用公开专利申请CN105112408A公开的方法在芯片上固定探针(如SEQ ID NO：5)，制备的文库用3*SSC杂交液稀释，然后与芯片上固定的探针进行杂交。然后根据Cy3的信号来判断接头与探针杂交的数目。CN105112408A公开的技术方案以参考的方式并入到本申请中。

5’-TTTTTTTTTTTGGAAGATACCTGCGACCATCCAGTTCCACTCAGATGTGTATAAGAGACAG-3’(SEQ ID NO：5)。

文库杂交的流程如下：

(1)芯片选择：所用的芯片的基底玻璃为SCHOTT公司的环氧基修饰的玻璃芯片，通过探针上的氨基和芯片表面的环氧基团反应的方法，例如，可参看公开专利申请CN109610006A披露的方法来固定探针，在110×110μM区域内固定的探针密度约为18000Dot/FOV即在110×110μM视野内有18000个亮点。CN109610006A公开的技术方案以参考的方式并入到本申请中。

(2)杂交液配置：杂交液配置体系如表9所示，所用缓冲液为20×SSC缓冲液(西格玛，#S6639-1L)，终浓度为成3×SSC，文库的终浓度为1nM，总体积为40μL。将配置好的杂交液95℃变性2min，迅速至冰上冷却。

表9

20×SSC缓冲液	6μL
		文库	终浓度为1nM
去核酸水	补足至40μL

(3)将上述变性后的杂交液迅速加载至芯片上，再将芯片放置55℃30min，使文库与芯片表面的探针进行杂交。

(4)依次用3×SSC、1×SSC、0.1×SSC冲洗芯片。

步骤三：上机测序

可采用两种测序方法进行测序。第一种测序方法：利用GenoCare^TM第三代测序平台对杂交捕获的文库直接进行测序，测序结果如表10所示。

表10

从测序结果可知，样本G10、G11是样本起始量分别为10pg、50pg，经过Yeasenclean磁珠富集的样本，样本G7、G8是样本起始量分别为10pg、50pg，未经过Yeasen clean磁珠富集的样本，G13-G18分别是样本未经过、经过CZ1000nm磁珠富集的样本。从测序结果可看出，经CZ1000nm磁珠富集/不富集、纯化后构建的文库测序结果的准确性比Yeasen clean磁珠富集/不富集、纯化构建的文库测序结果的准确性低，同时，对比Yeasen clean磁珠富集和不富集的样本的测序数据，当样本起始量未10pg～50pg时，经过Yeasen clean磁珠富集的样本构建的文库的测序结果的准确性提升。

第二种测序方法：Two-pass测序方法对捕获的文库进行测序，具体测序流程如下：

步骤1：合成上述步骤二中杂交于芯片表面的文库/初始模板的互补链

具体地，初始模板互补链合成的步骤包括：

1)将步骤二中完成文库杂交的芯片置于GenoCare^TM测序仪；

2)向芯片杂交通道泵入750μl体积的延伸试剂，其中，延伸试剂组分为：120U/mlBst DNA聚合酶(NEB，#M0275M)，0.2mM dNTP(dATP、dTTP、dCTP、dGTP各0.2μM的混合物)，1M甜菜碱，20mM的三羟甲基氨基甲烷，10mM的氯化钠，10mM的氯化钾，10mM的硫酸铵，3mM的氯化镁，0.1％的Triton X-100，pH值为8.3；

3)将芯片升温至60±0.5℃，反应10分钟；

4)向芯片杂交通道泵入220μl体积的清洗液1，去除延伸试剂；

5)向芯片杂交通道泵入440μl体积的清洗液2，去除4)中的清洗液1，完成初始模板互补链的合成。

步骤2(可选地)：对步骤1中延伸不完全的新生链的3’OH进行封闭，具体步骤如下：

1)将芯片降温至37±0.5℃，维持90秒；

2)向步骤1所述延伸后的通道中泵入750μl体积的封闭试剂1，反应10分钟。所述封闭试剂1的组分为：100U/ml Klenow DNA聚合酶大片段(3'→5'exo-,NEB，#M0212M)12.5μMddNTPmix(ddATP、ddTTP、ddCTP、ddGTP各12.5μM的混合物)，5mM的氯化锰，20mM的三羟甲基氨基甲烷，10mM的氯化钠，10mM的氯化钾，10mM的硫酸铵，3mM的氯化镁，0.1％的Triton X-100，pH值为8.3；

3)向步骤2)所述封闭后的通道中通入220μl体积的清洗液1，去除封闭反应后剩余的封闭液，完成对延伸不完全的新生链的3’OH的封闭。

步骤3：变性去除初始模板，去除初始模板的过程如下：

1)将芯片降温至55±0.5℃

2)向步骤2所述封闭后的通道中通入800μl体积的甲酰胺，变性2分钟；

3)向2)所述变性后通道中通入220μl体积的清洗液1，去除变性后的初始模板；

4)重复2)和3)一次，完成对初始模板的去除。

步骤4：对芯片表面残余接头的3’OH进行封闭，封闭芯片表面残余接头3’OH的过程如下：

1)将芯片降温至37±0.5℃；

2)向步骤3的封闭后的通道中通入440μl体积的清洗液2，替换通道内剩余的清洗液1；

3)向2)处理后的通道中通入750μl体积的封闭试剂2，反应15分钟。其中，封闭试剂2的组分为：100U/ml Terminal Transferase(NEB，M0315L)，1×Terminal TransferaseBuffer，0.25mM氯化钴，100μM ddNTPmix(ddATP、ddTTP、ddCTP、ddGTP各100μM的混合物)；

4)向3)所述封闭后的通道中通入220μl体积的清洗液1，完成对芯片表面残余接头3’OH的封闭。

步骤5：杂交测序引物，杂交测序引物的过程如下：

1)将芯片升温至55±0.5℃，保持1分钟；

2)向步骤4所述封闭后的通道中通入800μl体积的稀释的测序引物杂交液，杂交反应30分钟。所述稀释的测序引物杂交液为含有0.1μM引物D7S1T-R2P的清洗液3，清洗液3组分包括：450mM的氯化钠，45mM的柠檬酸钠；

3)将芯片降温至37±0.5℃，保持90秒；

4)向2)所述杂交通道中通入220μl体积的清洗液1，去除通道中未被杂交的测序引物；

5)向所述4)处理后的通道中通入440μl体积的清洗液2，替换通道中剩余的清洗液1，完成测序引物的杂交。

步骤6：进行Read1测序，Read1测序的过程如下：

利用Genocare^TM测序平台进行80个循环的测序，测序过程中采用带有两种不同的荧光基团的四种核苷酸(核苷酸类似物)，每轮反应加入两种标记不同荧光分子的核苷酸进行信号检测的方式进行测序。

步骤7：去除新生测序链。

去除新生测序链的过程按照步骤3中的步骤进行。

步骤8：封闭残余新生链的3’OH。

封闭残余新生链的3’OH的过程按照步骤2中的步骤进行。

步骤9：杂交测序引物

CTACAACGACGCTCTACCGATGAAGATGTGTATAAGAGACAGT(SEQ ID NO：6)。

杂交测序引物的过程按照步骤5中的步骤进行。

步骤10：进行Read2测序

Read2测序的过程按照步骤6中的步骤进行。

步骤11：将测序数据进行拆分获得坐标一一对应的Reads1和Reads2两部分序列。

具体包括：

使用python语言将160循环测序碱基识别(BaseCalling)输出的“.fa_”文件中的每条Read拆分为前80循环和后80循环两个部分，并将所有Reads中的字符“_”移除，分别输出为两份序列坐标一致的“.fa”文件“Reads1.fa”、“Reads2.fa”，完成将测序数据进行拆分获得坐标一一对应的Reads1和Reads2两部分序列。

进一步地，本实施例中提供的一套对上述Two-pass测序方法获得的Reads1和Reads2进行分析获得Consensus Reads(一致序列或共同序列或一致读段)的分析方法，包括：

步骤12：构建校正模型，具体包括：

1)使用python语言，提取步骤11获得的Reads1和Reads2序列中同一坐标两次测序读长均≥25bp的Reads，分别输出为T1(Read1)和T2(Read2)两个文件。其中同一坐标的对应方法是在生成Reads文件时将同一坐标Reads在不同文件中的Reads ID设置为一致；

2)将T1和T2中位置对应的Reads相互间做Align，在Align结果中标记两条Reads一致和不一致的Base，得到Common Reads。其中位置对应是通过比较两条Reads的Reads ID是否一致实现；

3)分别将文件T1和T2和Reference做Mapping，得到Sam1和Sam2文件。将Sam1和Sam2中位置对应且mapping到同一位置的Reads，找到Reference中最长公共子串RefReads。公共子串指两条对应的Reads mapping后均覆盖的区域；

4)比较2)中的Common Reads和3)中的RefReads。对于Common Reads中不一致的Base，标记其是否真实存在于Reference中。若存在，对于没有测到的Reads则为Deletion。若不存在，对于测到的Reads则为Insertion；

5)统计4)中的Deletion和Insertion情况，同时统计该不一致位置上前后Base的种类。因此得到在不同Base类型前或后引起Insertion或Deletion的概率。

具体地，本示例中运用的朴素贝叶斯模型如下：

其中：P(D|XY)表示对于某碱基在前后分别为X和Y碱基时发生Deletion的概率，X,Y∈[A,C,G,T]。P(D)表示对于某碱基发生Deletion的概率；P(I)表示对于某碱基发生Insertion的概率。

通过统计不同碱基下发生Deletion或Insertion时，前后碱基出现频率即可得到P(XY|D)和P(X|I)，从而可以计算得到P(D|XY)和P(I|XY)。

步骤13：过滤读长得到Fa1，具体包括：

使用Python语言逐行读取Reads1文件中所有reads，若Reads长度大于等于25bp，则输出的文本文件Fa1中。

步骤14：根据Reads2读长，将Fa1中Reads进行分类

具体地，本实例中所述根据Reads2读长分类Fa1中Reads的过程包括：

将Fa1中所有Reads对应在Reads2中的Reads读出，根据Reads2中Reads的长度，若Read2≥25bp，则将对应的Fa1中Reads保存于Fa2文件中；若10bp≤Read2＜25bp，则将对应的Fa1中Reads保存于Fa3文件中。

步骤15：根据Q值输出置信Reads

具体地，本实例中所述根据Q值重新输出置信Reads的过程包括：

1)将步骤14得到的Fa2中所有Reads取出，并同时取出其对应的Reads2中的Reads。从Reads ID中分割得到该Reads的Quality Score值(简称Q值)。

2)比较两条对应的Reads的Q值，将Q值较大的Reads输出到文件Fa4中，Q值较小的Reads输出到文件Fa5中。若两者Q值相等，则默认将Reads1中的Reads输出至Fa4中，Reads2中的Reads输出至Fa5中。

步骤16：根据Q值过滤Fa4和Fa5中Reads

具体地，本实例中所述根据Q值过滤Fa4和Fa5中Reads的过程包括：

取Fa4中Reads，根据其Q值，若大于等于60，则将输出到文件Fa6中，同时将该Reads对应的Fa5中的Reads输出到文件Fa7中。

步骤17：使用Fa7中Reads矫正Fa6中Reads，得到Consensus Reads Parts1(简称CRP1)。

具体地，本实例中所述使用Fa7中的Reads矫正Fa6中Reads的过程包括：

1)取Fa6中Reads和其对应的在Fa7中的Reads。将两条对应Reads相互配准，得到共同的一致性序列部分。其中两条序列配准使用Smith-Waterman算法，一致性序列指配准后通过在序列中增加、删除或修改部分Base，得到的局部最佳匹配序列。

2)得到一致性序列后，根据步骤12构建的矫正模型，逐个判断一致性序列中不一致的Base位置。根据该Base位置前后的碱基类型计算该位置出现Deletion或Insertion的概率。若Deletion的概率大于50％，则认为该位置所测Base不应该出现，从而删除该位置Base。反之，保留该位置上的Base。

3)矫正所有不一致Base后，输出矫正后的Reads，即为CRP1。这里的不一致Base特指两条对应Reads中没有同时被测出的Base。若两次均测出该Base，但Base类型不一致，不在本实例矫正的候选范围内，该情况下，最终Base类型以Fa6中Reads的Base类型为准。

步骤18：根据Q值过滤Fa3中Reads

具体地，本实例中所述根据Q值过滤Fa3中Reads的过程包括：

取Fa3中所有Reads，分割Fa3中Reads的Reads ID，得到每条Reads的Q值。将Q值≥60的Reads输出到文件Fa8中。

步骤19：输出Fa8文件中对应的Reads2中的Reads。

具体地，本实例中所述根据Fa8中Reads输出Reads2中Reads的过程包括：

取Fa8文件中所有Reads，取出其对应的Reads2中的Reads，将其输出到文件Fa9中。

步骤20：使用Fa9中Reads矫正Fa8中Reads，得到Consensus Reads Parts2(简称CRP2)。

具体地，本实例中所述的使用Fa9中Reads矫正Fa8中Reads的过程参照所述步骤17进行。

步骤21：根据不同应用对应测序数据准确率的需求，将符合相似度阈值的CRP1和CRP2中的Reads合并输出，得到Consensus Reads。

具体地，本实例中所述不同应用对应测序数据准确率的需求，过滤ConsensusReads Part中Reads并输出的过程包括：

1)根据不同应用对应测序数据准确率的需求，设定对应的相似度阈值。其中对Part1和Part2的相似度阈值可以不同；

2)分别计算CRP1和CRP2中的Reads相似度，相似度是指某Reads在Reads1和Reads2中对应的Reads的相似度。相似度计算步骤是先将两条对应Reads相互配准。再计算配准得到的一致性序列中一致的Base数占总Base数的比值。其中配准方法、一致性序列和不一致Base定义参照步骤十九。

3)根据不同应用对应测序数据准确率的需求，分别将CRP1和CRP2中符合相似度阈值要求的Reads输出到最终的文件中，得到Consensus Reads，参见表11。

表11不同相似度阈值过滤输出序列与参考基因组mapping分析比较

注：数据损失主要发生在读长过滤步骤，由于Read1和Read2测序是相互独立事件，所以必然存在部分读长不一致的序列。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

序列表

<110> 深圳市真迈生物科技有限公司

<120> 文库制备方法、试剂盒及测序方法

<130> PI2020001

<150> CN202010362587.6

<151> 2020-04-30

<160> 6

<170> SIPOSequenceListing 1.0

<210> 1

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(50)

<223> adapter

<400> 1

tcagatccta caacgacgct ctaccgatga agatgtgtat aagagacagt 50

<210> 2

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(51)

<223> adapter

<400> 2

ctgtctctta tacacatctg agtggaactg gatggtcgca ggtatcaagg a 51

<210> 3

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(32)

<223> primer

<400> 3

ttcctcagat cctacaacga cgctctaccg at 32

<210> 4

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(29)

<223> primer

<400> 4

ttctccttga tacctgcgac catccagtt 29

<210> 5

<211> 61

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(61)

<223> primer

<400> 5

tttttttttt tggaagatac ctgcgaccat ccagttccac tcagatgtgt ataagagaca 60

g 61

<210> 6

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_recomb

<222> (1)..(43)

<223> primer

<400> 6

ctacaacgac gctctaccga tgaagatgtg tataagagac agt 43

Claims

1.一种制备文库的方法，其特征在于，包括：

获取目标核酸分子，包括：

对源自待测核酸样本的RNA进行逆转录，获得逆转录产物，所述逆转录产物包括RNA:DNA杂合双链，以及

富集所述逆转录产物中的RNA:DNA杂合双链，获得所述目标核酸分子；

提供转座复合体，所述转座复合体包含接头和转座酶，所述接头为序列已知的双链核酸分子；

使所述目标核酸分子和所述转座复合体置于适于转座反应的条件下接触，获得转座产物，所述转座产物包含末端带有接头且包含缺口的双链核酸分子；

提供第一引物，所述第一引物配置为能与所述接头的至少一部分杂交；以及

使所述转座产物与所述第一引物杂交并置于适于链置换反应的条件下，以获得所述文库。

2.如权利要求1所述的方法，其特征在于，所述RNA的起始量为5～50pg；

任选地，所述RNA的起始量为不小于10pg；

任选地，所述获取目标核酸分子还包括：在进行所述逆转录之前对所述RNA进行变性；

任选地，将所述RNA置于65℃中3～10min以进行所述变性。

3.如权利要求1或2所述的方法，其特征在于，利用混合引物进行所述逆转录，所述混合引物包括Oligo dT和随机引物；

任选地，所述Oligo dT和所述随机引物在逆转录反应体系中的比例为1:2～1:6；

任选地，所述Oligo dT的长度为12～20nt，和/或所述随机引物的长度为4-8nt；

任选地，利用磁珠进行所述富集；

任选地，利用表面具有羧基修饰基团的磁珠进行所述富集；

任选地，所述转座酶为Tn5转座酶或其工程酶，和/或所述接头具有如SEQ ID NO：1和SEQ ID NO：2所示的序列；

任选地，还包括加入终止液以终止所述转座反应，所述终止液包含SDS；

任选地，所述第一引物具有如SEQ ID NO：3和SEQ ID NO：4所示的序列；

任选地，在进行所述链置换反应之后，对所述链置换反应产物进行PCR，进行所述PCR利用的反应体系与所述链置换的相同。

4.一种试剂盒，用于实施权利要求1-3任一所述的方法，以获得所述文库，该试剂盒包括：用于实现所述逆转录的第一试剂，用于实现所述富集的第二试剂、所述转座复合体和所述第一引物。

5.一种测序方法，其特征在于，包括：

利用权利要求1-3任一所述的方法制备文库；

对所述文库进行测序，获得测序结果。

6.如权利要求5所述的方法，其特征在于，在进行所述测序之前，所述方法包括：

使所述文库连接到固相基底表面，所述固相基底表面带有探针，所述探针配置为与所述接头的至少一部分杂交；

任选地，所述接头包括第一接头和第二接头，所述探针包括第一探针和第二探针，所述第一探针配置为与所述第一接头的至少一部分杂交，所述第二探针配置为与所述第二接头的至少一部分杂交，所述方法包括：

解链所述文库，获得单链文库；

使所述单链文库连接到所述固相基底表面；

在所述固相基底表面上对所述单链文库进行扩增，以获得测序模板；

任选地，所述扩增为桥式扩增或者模板步移扩增。

7.如权利要求5所述的方法，其特征在于，在进行所述测序之前，所述方法包括：

解链所述文库，获得单链文库；

使所述单链文库连接到固相基底表面，所述固相基底表面带有探针，所述探针共价连接在所述固相基底表面上，所述探针配置为与所述接头的至少一部分杂交；

以所述单链文库为模板、延伸所述探针以合成所述单链文库的互补链，形成测序模板；

任选地，还包括：除去所述单链模板，并对所述固相基底表面的核酸分子进行第一封闭处理，以获得所述测序模板，所述第一封闭处理包括使延伸阻断剂结合到所述固相基底表面的核酸分子的3'末端；

任选地，所述第一封闭处理包括在末端转移酶的作用下使所述延伸阻断剂结合到连接到所述固相基底表面上的核酸分子的3'末端，所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种；

任选地，还包括：对延伸不完全的所述互补链进行第二封闭处理，所述第二封闭处理包括使延伸阻断剂结合到所述延伸不完全的互补链的3'末端；

任选地，所述第二封闭处理包括在DNA聚合酶的作用下使所述延伸反应阻断剂结合到所述延伸不完全的互补链的3'末端，所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。

8.如权利要求7所述的方法，其特征在于，所述测序结果包括第一测序数据和第二测序数据，对所述文库进行测序，获得所述测序结果，包括：

(1)加入测序引物，对所述测序模板进行第一测序，以便通过形成第一新生链获得所述第一测序数据，所述测序引物配置为与所述测序模板的3'末端杂交；

(2)去除所述第一新生链；

(3)加入所述测序引物，对所述测序模板进行第二测序，以便通过形成第二新生链获得所述第二测序数据。

9.如权利要求8所述的方法，其特征在于，(2)还包括：

对残余在所述固相基底表面的所述第一新生链的3'末端进行第三封闭处理，所述第三封闭处理包括使延伸阻断剂结合到所述第一新生链的3'末端；

任选地，所述第三封闭处理包括在DNA聚合酶的作用下使所述延伸反应阻断剂结合到所述第一新生链的3'末端，所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。

10.如权利要求8或9所述的方法，其特征在于，还包括对所述测序结果进行分析，包括：

(a)基于所述第一测序数据和所述第二测序数据各自的至少一部分进行互相校正，以便确定所述目标核酸分子的至少一部分序列信息；

任选地，所述第一测序数据和所述第二测序数据均包含多个读段，所述互相校正包括：

在所述第一测序数据和所述第二测序数据中选择高质量读段和所述高质量读段的对应读段，所述高质量读段的长度不低于预定长度，所述高质量读段具有不低于预定质量阈值的测序质量；和

将所述高质量读段与所述高质量读段的对应读段进行比对，并基于所述比对结果进行序列信息校正；

任选地，(a)包括：

(a-1)根据所述读段的长度，基于所述第一测序数据，构建第一读段集合，所述第一读段集合中的每一个读段的长度均不低于第一预定长度；

(a-2)根据所述对应读段的长度，基于所述第一读段集合，构建第二读段集合和第三读段集合，所述第二读段集合中的每一个读段的对应读段的长度均不低于第二预定长度，所述第三读段集合中的每一个读段的对应读段的长度均处于预定长度范围内；

(a-3)根据所述第二读段集合中的读段及其所述对应读段的测序质量，基于所述第二读段集合及其所述对应读段，构建第四读段集合和第五读段集合，其中，所述第四读段集合和所述第五读段集合分别是按照下列原则确定的：

将所述第二读段集合中的读段与其所述对应读段进行测序质量比较，

选择测序质量高的一方作为所述第四读段集合的元素，选择测序质量低的一方作为所述第五读段集合的元素，

对于测序质量相同的情形，则选择来自所述第二读段集合的读段作为所述第四读段集合的元素，则选择所述对应读段作为所述第五读段集合的元素；

(a-4)利用测序质量，对所述第四读段集合进行过滤处理，以便构建第六读段集合，所述第六读段集合中的所述读段的测序质量均不低于第一预定质量阈值；

(a-5)利用所述第六读段集合，从所述第五读段集合中选择与所述第六读段集合中的读段对应的读段，以便构建第七读段集合；

(a-6)将所述第六读段集合与所述第七读段集合进行读段比对，并在所述第六读段集合的所述读段上确定第一差异位点；和

(a-7)利用预先确定的测序误差预测模型，对所述第一差异位点进行校正，以便确定第一序列信息，所述测序误差预测模型用于确定在测序过程中，差异位点发生插入或者缺失的概率；

任选地，进一步包括：

(a-4a)利用测序质量，对所述第三读段集合进行过滤处理，以便构建第八读段集合，其中，所述第八读段集合中的读段的测序质量均不低于第二预定质量阈值；

(a-5a)利用所述第八读段集合，从所述第二测序数据中选择与所述第七读段集合中的读段对应的读段，以便构建第九读段集合；

(a-6a)将所述第八读段集合与所述第九读段集合进行读段比对，并在所述第八读段集合的读段上确定第二差异位点；和

(a-7a)利用所述测序误差预测模型，对所述第二差异位点进行校正，以便确定第二序列信息；

任选地，所述测序误差预测模型是基于所述第一测序数据和所述第二测序数据与参考基因组的比对结果，对朴素贝叶斯模型进行训练获得的；

任选地，针对所述第一差异位点和所述第二差异位点：

如果来自所述第六读段集合的读段在所述差异位点存在碱基，来自所述第七读段集合的对应读段在所述差异位点不存在碱基，并且在所述差异位点发生缺失的概率为50％以上，则保留所述第六读段集合的读段在所述差异位点的碱基作为最终测序结果；

如果来自所述第六读段集合的读段在所述差异位点不存在碱基，来自所述第七读段的读段集合的对应读段在所述差异位点存在碱基，并且在所述差异位点发生插入的概率为50％以上，则保留所述第六读段集合的读段在所述差异位点的碱基作为最终测序结果；和

如果来自所述第六读段集合的读段在所述差异位点存在碱基，来自所述第七读段的读段集合的对应读段在所述差异位点也存在碱基，则选择所述第六读段集合的读段在所述差异位点的碱基作为最终测序结果；

任选地，所述第一预定长度和所述第二预定长度分别独立地不低于20bp，优选不低于25bp；

任选地，所述预定长度范围为10～25bp；

任选地，所述第一预定质量阈值和所述第二预定质量阈值分别独立地不低于50，优选不低于60。