CN108949941A

CN108949941A - 低频突变检测方法、试剂盒和装置

Info

Publication number: CN108949941A
Application number: CN201810660148.6A
Authority: CN
Inventors: 董超; 宋廷瑞; 王秀莉; 郭琦; 李长平
Original assignee: Beijing Life Medical Laboratory Co ltd
Current assignee: Hangzhou Lianhe Medical Inspection Co ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-12-07

Abstract

本发明提出了一种测序接头，所述测序接头呈Y字型，包括：第一链，所述第一链包括相连的第一样本标签序列和第一分子标签序列；以及第二链，所述第二链包括相连的第二样本标签序列和第二分子标签序列。由此，利用本发明的测序接头能够有效地构建基因组DNA样品的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对基因组DNA样品的检测，适于广泛应用。

Description

低频突变检测方法、试剂盒和装置

技术领域

本发明涉及生物领域。具体地，本发明涉及低频突变检测方法、试剂盒和装置。更具体地，本发明涉及测序接头、接头封闭序列组、构建测序文库的方法、测序文库、低频突变检测方法、实施低频突变检测方法的装置以及用于构建测序文库的试剂盒。

背景技术

液体活检(Liquid biopsy)作为组织活检的补充，通过非侵入性取样以降低活检危害，在动态监测肿瘤进展和治疗反应等领域获得临床认可，已成为肿瘤精准医疗领域炙手可热的明星技术。液体活检的检测对象主要有CTC(循环肿瘤细胞)、ctDNA(循环肿瘤DNA)、循环microRNA和Exsome(外泌体)。其中，ctDNA可应用于肿瘤的早期诊断、动态监测肿瘤的发生发展及疗效、耐药检测、复发风险评估等，在肿瘤诊治中前景广阔，受到越来越多的关注。然而，肿瘤是高度异质性的，其中致病突变可能以极低比例存在，比如突变频率<0.1％，甚至更低。

随着NGS(下一代测序)技术的发展，高深度目标区域捕获测序策略让低频突变的发现成为可能，但是文库构建、目标区域捕获及测序过程中的系统错误使得低频突变的准确检出依然是一个挑战。这些系统错误主要包括：(1)测序仪的固有错误率，目前最准确的HiSeq测序仪的单碱基错误率也在0.2％左右；(2)文库构建、目标区域捕获所涉及的DNA聚合酶的固有错误率在10^-7-10^-5；(3)目前Illumina高通量测序仪HiSeq X和NovaSeq均采用图案化流动槽和排他性扩增，这导致index标签交换(又称标签错配)的发生比例明显增高，高至2％。index标签交换会造成特定类型的错比对，导致文库未能比对到预期标签而是错误地比对到多重分析库的另一个标签)。上述系统错误对低频突变位点检测的影响尤为明显，极易导致检出大量假阳性低频突变位点，即，难以区分到底是真实的样本突变还是由于这些系统错误所造成的假阳性突变。

对于上述系统错误，通常采用添加分子标签的方法来进行错误校正，该技术是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列，用于区分同一样本中成千上万的不同的片段，在后续的数据分析中可以通过这些标签序列来排除由于DNA聚合酶和扩增以及测序过程中所引入的错误。主要分为单分子标签技术safe-seq和双分子标签技术duplex-seq。以duplex-seq为代表的双分子标签策略能够纠正几乎所有类型的假阳性突变，但数据转化率低，所需上机数据量远高于常规测序，测序成本高；以safe-seq为代表的单分子标签策略数据转化率稍高，且能够纠正大部分的测序错误和PCR扩增引物的错误，但是无法识别Index标签交换造成的假阳性突变位点。由于duplex-seq数据转化率的限制，目前单分子标签策略依然是主流。调研发现，目前商业试剂盒，比如Swift Biosciences的Accel-2S Plus DNA Library Kit(MID)，尚不能避免Index串扰(即标签交换)造成的假阳性难题。

因此，亟需对现有技术进行改进，以获得一种更全面、更准确的低频突变检测方法，为疾病的早期筛查提供可信赖的检测手段。

发明内容

本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。

为此，在本发明的一个方面，本发明提出了一种测序接头。根据本发明的实施例，所述测序接头呈Y字型，包括：第一链，所述第一链包括相连的第一样本标签序列和第一分子标签序列；以及第二链，所述第二链包括相连的第二样本标签序列和第二分子标签序列。

本发明的第一链(在本发明中，也可称作“P5接头”)和第二链(在本发明中，也可称作“P7接头”)中均设有样本标签序列(即第一样本标签序列和第二样本标签序列，在本发明中，也可分别称作“index i5”和“index i7”)，即采用双端index标签用于消除index串扰带来的样本错配。同时，第一链和第二链中均设有分子标签序列(即第一分子标签序列和第二分子标签序列，在本发明中，也可分别称作“UMI 1”和“UMI 2”)，以便纠正PCR及测序过程中的系统错误，减少这些错误对低频突变检出的影响，降低假阳性突变的检出。

由此，利用本发明的测序接头能够有效地构建基因组DNA样品的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对基因组DNA样品的检测，适于广泛应用。

根据本发明的实施例，上述测序接头还可以具有下列附加技术特征：

根据本发明的实施例，所述第一样本标签序列和第二样本标签序列的总碱基数为8nt，所述第一分子标签序列和第二分子标签序列的总碱基数为8nt。

根据本发明的实施例，所述第一样本标签序列、第二样本标签序列、第一分子标签序列和第二分子标签序列的碱基数均为4nt；或者所述第一样本标签序列和第二分子标签序列的碱基数均为3nt，所述第二样本标签序列和第一分子标签序列的碱基数均为5nt；或者所述第一样本标签序列和第二分子标签序列的碱基数均为5nt，所述第二样本标签序列和第一分子标签序列的碱基数均为3nt。

根据本发明的实施例，所述第一样本标签序列和第二样本标签序列具有如SEQ IDNO：1～24任一所示的核苷酸序列。

根据本发明的实施例，所述第一分子标签序列和第二分子标签序列为随机序列。

根据本发明的实施例，所述第一分子标签序列和第二分子标签序列中每个位置上A、T、G、C四种碱基各自出现的概率分别独立地为24～26％。

根据本发明的实施例，所述测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列。

在本发明的另一方面，本发明提出了一种用于封闭前面所述测序接头的接头封闭序列组。根据本发明的实施例，所述接头封闭序列组包括：第一接头封闭序列，所述第一接头封闭序列使所述测序接头的第一链封闭；以及第二接头封闭序列，所述第二接头封闭序列使所述测序接头的第二链封闭；其中，其中，所述第一接头封闭序列包括与所述第一样本标签序列和第一分子标签序列至少部分互补的第一互补序列，所述第二接头封闭序列包括与所述第二样本标签序列和第二分子标签序列至少部分互补的第二互补序列，并且所述第一接头封闭序列和第二接头封闭序列的3’端碱基均被磷酸化修饰。

本发明的接头封闭序列组封闭效果好，使得探针捕获效率显著提高，数据利用率高，有利于目的基因的检出。由此，利用本发明的接头封闭序列组能够有效地构建基因组DNA样品的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对基因组DNA样品的检测，适于广泛应用。

根据本发明的实施例，所述第一互补序列和第二互补序列均包括兼并序列，所述第一接头封闭序列和第二接头封闭序列包括LNA碱基。

根据本发明的实施例，当所述测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列时，所述第一接头封闭序列具有SEQ ID NO：49所示的核苷酸序列，所述第二接头封闭序列具有SEQ ID NO：50所示的核苷酸序列。

在本发明的又一方面，本发明提出了一种构建测序文库的方法。根据本发明的实施例，所述方法包括：将前面所述测序接头与目的基因相连，以便获得连接产物；将所述连接产物进行扩增，以便获得扩增产物；采用前面所述接头封闭序列组对所述扩增产物进行接头封闭，以便获得接头封闭产物；以及将所述接头封闭产物进行杂交捕获，以便获得测序文库。

由此，利用本发明的构建测序文库的方法能够有效地构建目标基因的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对目标基因的检测。

在本发明的又一方面，本发明提出了一种测序文库。根据本发明的实施例，所述测序文库是由前面所述构建测序文库的方法获得的。利用本发明的测序文库能够准确、高效地实现目标基因的检测，尤其适用于检测低频突变。

在本发明的又一方面，本发明提出了一种低频突变检测方法。根据本发明的实施例，所述包括：根据前面所述构建测序文库的方法构建目的基因的测序文库；对所述目的基因进行测序，以便得到测序结果；以及对所述测序结果进行数据分析，以便确定所述目的基因的突变信息。由此，利用本发明的方法能够准确、高效地实现低频突变检测。

根据本发明的实施例，所述数据分析包括：(1)基于所述测序结果，截取每一条测序序列的第一样本标签序列和第二样本标签序列并合并为组合样本标签；根据所述组合样本标签序列将全部测序序列拆分为不同组，每个组中全部测序序列均具有相同的组合样本标签；分别将每组测序序列的第一样本标签序列和第二样本标签序列与标签参考序列进行比对，以便实现对样本串扰情况的质控，其中第一样本标签和第二样本标签与所述标签参考序列均相同的测序序列用于后续分析；(2)基于步骤(1)所获得的测序序列，截取每一条测序序列的第一分子标签序列和第二分子标签序列并合并为组合分子标签；根据所述组合分子标签将全部测序序列拆分为不同大类，每个大类中全部测序序列均具有相同的组合分子标签；(3)基于步骤(2)所得到的每个大类，根据每一条测序序列中目的基因序列的碱基差异将每个大类中的测序序列分成为不同小类，每个小类中任意两条测序序列中目的基因序列之间的汉明距离不大于3，以便将具有相同组合分子标签但来自于不同DNA模板的测序序列区分开；(4)对步骤(3)所得到的每个小类中各测序序列中目的基因序列的每个碱基互相比对，若某一位点上的碱基在全部测序序列中的一致率不小于80％，则该碱基为所述位点的测序结果；若某一位点上碱基在全部测序序列中的一致率低于80％，则所述位点的测序结果忽略不计，由此，以便获得每个小类中各测序序列的测序结果；(5)按照步骤(3)和(4)的方法获得不同大类的各测序序列的测序结果，以便获得所述目的基因的测序结果。

根据本发明的实施例，所述测序是利用高通量测序技术进行的。

根据本发明的实施例，所述测序是利用Illumina HiSeq X PE150+8+8+150程序进行的。

在本发明的又一方面，本发明提出了一种实施前面所述低频突变检测方法的装置。根据本发明的实施例，所述装置包括：文库构建单元，所述文库制备单元用于构建目的基因测序文库，所述文库构建单元内设置有前面所述测序接头；测序单元，所述测序单元与所述文库构建单元相连，并且从所述文库构建单元接收所述目的基因的测序文库，以便用于对所述目的基因测序文库进行测序，获得测序结果；以及数据分析单元，所述数据分析单元与所述测序单元相连，并且从所述测序单元接收所述测序结果，以便对所述测序结果进行数据分析，确定所述目的基因的突变信息。由此，利用本发明的装置能够准确、高效地实现低频突变检测。

根据本发明的实施例，所述文库构建单元内设置有前面所述的接头封闭序列组。

在本发明的又一方面，本发明提出了一种用于构建测序文库的试剂盒。根据本发明的实施例，所述试剂盒包括：前面所述的测序接头。由此，利用本发明的试剂盒能够有效地构建目标基因的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对目标基因的检测。

根据本发明的实施例，所述试剂盒进一步包括：前面所述的接头封闭序列组。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明一个实施例的测序接头结构示意图；

图2显示了根据本发明一个实施例的接头封闭序列对应探针捕获效果比较分析示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

测序接头

在本发明的一个方面，本发明提出了一种测序接头。根据本发明的实施例，参见图1，测序接头呈Y字型，包括：第一链(图中的“P5”)，第一链包括相连的第一样本标签序列(图中的“index i5”)和第一分子标签序列(图中的“UMI 1”)；以及第二链(图中的“P7”)，第二链包括相连的第二样本标签序列(图中的“index i7”)和第二分子标签序列(图中的“UMI2”)。

在二代测序过程中，会对多个样本(来源于不同受试者)同时进行测序。本发明采用双端index标签用于消除标签交换带来的样本错配，带有双端index标签的文库使得在后续数据分析时，i5index和i7index可以进行双侧验证，只有两端带有完全正确的index序列的reads才能进入样本分析，从而可以剔除样本标签错配，只集中于有正确标签组合的“真正”数据。由此，双端分子标签能够更好地纠正PCR及测序过程中的系统错误，减少这些错误对低频突变检出的影响，降低假阳性突变的检出率。

现有技术的双端Index序列为一组固定序列，来源于同一样本的所有片段均加上相同的样本标签用于后续数据拆分。不加分子标签的情况下，如果原始模板中存在两条序列一致的片段，那么这两条片段在后续分析中会作为PCR duplication过滤(即被认为是同一片段模板经过PCR扩增的产物)，只保留其中一条序列信息，这样会造成原始模板丰度的降低。

因此，发明人将原有的index标签的一部分替换为分子标签序列，分子标签序列是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列，用于区分同一样本中成千上万的不同片段。同一个样本的DNA片段，每一个片段都带有一个特有的分子标签序列，它会随目标序列一起经过文库构建、PCR扩增，然后被一同测序。最终测序得到的序列中，带有不同分子标签的序列，代表它们来自不同的原始DNA片段分子；带有相同分子标签的序列，代表它们来自同一原始DNA片段分子。由于PCR和测序过程中的错误是随机发生的，可根据这些分子标签以排除由于DNA聚合酶和扩增以及测序过程中所引入的错误。因此，每一个样本只能有一个相同的index，但可以有成千上万的UMI。加入UMI至少具有两方面的作用：1)帮助区分PCR duplication与相同原始模板；2)在后续生信分析中作为分子标签，根据分子标签进行聚类互相校准。

根据本发明的实施例，第一样本标签序列和第二样本标签序列的总碱基数为8nt，第一分子标签序列和第二分子标签序列的总碱基数为8nt。在index的设计中，不仅要考虑index序列长度增加，可供选择的种类越多，容错率也越强，还要考虑在2-channel和4-channel平台的通用性、GC平衡、色彩平衡等因素，经过多番考量才设计出的index序列的种类远远降低。发明人经过大量实验选择index碱基数为8nt。由此，既可以保证index和UMI的多样性，也可以减少index串扰(即“标签交换”或“标签错配”)现象发生，从而保证文库构建的准确性，进一步提高后续测序结果的准确性及高效性。

根据本发明的实施例，第一样本标签序列、第二样本标签序列、第一分子标签序列和第二分子标签序列的碱基数均为4nt；或者第一样本标签序列和第二分子标签序列的碱基数均为3nt，第二样本标签序列和第一分子标签序列的碱基数均为5nt；或者第一样本标签序列和第二分子标签序列的碱基数均为5nt，第二样本标签序列和第一分子标签序列的碱基数均为3nt。由此，不仅保证了index的多样性，也减少了index串扰现象发生，从而保证文库构建的准确性，进一步提高后续测序结果的准确性及高效性。

根据本发明的实施例，第一样本标签序列和第二样本标签序列具有如SEQ ID NO：1～24任一所示的核苷酸序列。发明人经过大量实验得到12组样本标签序列，由此可准确地区分不同来源样本，也可减少index串扰现象发生，从而保证文库构建的准确性，进一步提高后续测序结果的准确性及高效性。

表1标签序列

根据本发明的实施例，第一分子标签序列和第二分子标签序列为随机序列。分子标签的随机性(或多样性)使得同一样本的每个原始DNA片段均带有不同的分子标签序列，以彼此区分。如果分子标签序列的随机性差，则不同原始DNA片段获得相同分子标签的概率升高，造成测序结果偏差。

根据本发明的实施例，第一分子标签序列和第二分子标签序列中每个位置上A、T、G、C四种碱基各自出现的概率分别独立地为24～26％，优选为25％；也可以说，在同一样本中所用全部第一分子标签序列和第二分子标签序列的组合中，第一分子标签序列和第二分子标签序列中每个位置上A、T、G、C四种碱基各自的含量分别独立地为24～26％，优选为25％。发明人发现，分子标签随机性良好是保证分子标签种类多样性的前提。极端情况下，比如A:T:C:G的比例分别为70％：10％：10％：10％，会导致分子标签中polyA的比例明显高于其他组合，UMI为AAAAAAAA的比例高达0.7⁸＝5.76％，这样会造成序列来源的误判，例如，有可能将原来序列相同的两条模板判定为PCR重复。将分子标签序列的碱基含量控制在接近25％，能够提高分子标签的随机性(或多样性)，降低不同原始DNA片段获得相同分子标签的概率，提高测序准确性。

根据本发明的实施例，测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列。发明人经过大量实验得到上述测序接头，由此能够准确、有效地构建基因组DNA样品的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对基因组DNA样品的检测，适于广泛应用。

表2测序接头

接头封闭序列组

在本发明的又一方面，本发明提出了一种接头封闭序列组。根据本发明的实施例，接头封闭序列组包括：第一接头封闭序列，该第一接头封闭序列使测序接头的第一链封闭；以及第二接头封闭序列，该第二接头封闭序列使测序接头的第二链封闭，其中，第一接头封闭序列包括与第一样本标签序列和第一分子标签序列至少部分互补的第一互补序列，第二接头封闭序列包括与第二样本标签序列和第二分子标签序列至少部分互补的第二互补序列，并且第一接头封闭序列和第二接头封闭序列的3’端碱基均被磷酸化修饰。

在杂交捕获时，由于接头互补序列之间容易发生退火，使样品DNA与探针的结合效率降低，影响序列捕获效果，同时，没有任何关联的靶DNA可能由于接头之间的退火而相连，并级联放大形成“大分子DNA"，当探针与靶DNA退火结合后，同时也会把与靶DNA相连的其他非靶DNA—起捕获下来，造成捕获序列中存在大量的非靶序列。因此，在杂交捕获之前，采用可以与测序接头互补的封闭序列对测序接头进行接头封闭，封闭序列在杂交时其会优先占位，阻止文库片段间通过接头自连，能明显提高捕获特异性，数据利用率高，有利于目的基因的检出。

本发明所述“接头封闭”是指在芯片杂交捕获中人为添加过量的接头封闭序列，使其与测序接头互补的过程。接头封闭序列与测序接头退火结合，起到占位的作用，从而阻止靶区域与非靶区域通过菊花状粘连而影响捕获特异性。

由于分子标签随机序列的碱基多样性，没有办法加入一种固定序列的接头封闭序列实现接头的完全互补，因此发明人选择了能够与四种碱基均互补配对的兼并碱基I。需要说明的是，第一互补序列和/或第二互补序列既可以是与A、T、G、C均互补的兼并碱基(以下简称方案一)，也可以是根据A-T、G-C的互补配对原则而设计的由A、T、G、C构成的序列或者是包括兼并碱基和由A、T、G、C构成的序列(以下简称方案二)。

针对方案一：根据本发明的实施例，第一接头封闭序列和第二接头封闭序列均包括兼并序列，第一接头封闭序列和第二接头封闭序列包括LNA碱基。

该方案中完全利用兼并碱基I来封闭index和UMI，不区分index标签。兼并碱基I能够与四种碱基互补配对，因此采用其封闭index和UMI。但其与四种碱基的结合能力较AT和GC之间的结合偏弱，测试发现采用这样的接头封闭序列效果并不理想，并不能明显提高探针的捕获效率。可能原因是兼并碱基虽然能够与四种碱基互补配对，但是结合能力低于正常互补碱基，造成封闭体系不稳定。

为了进一步提高探针捕获效率，发明人创造性地在接头封闭序列中设计LNA(锁核酸)，提高接头封闭序列与接头的结合能力，进而弥补兼并碱基I造成的双链不稳定。

LNA(锁核酸)是一种特殊的双环状核苷酸衍生物，其包括A、C、G、T、U、mC六种碱基，其结构中含有一个或多个2′-O,4′-C-亚甲基-β-D-呋喃核糖核酸单体，核糖的2′-O位和4′-C位通过不同的缩水作用形成氧亚甲基桥、硫亚甲基桥或胺亚甲基桥，并连接成环形，这个环形桥锁定了呋喃糖C3′-内型的N构型，降低了核糖结构的柔韧性，增加了磷酸盐骨架局部结构的稳定性。由于LNA与DNA/RNA在结构上具有相同的磷酸盐骨架，故其对DNA、RNA有很好的识别能力和强大的亲和力。与其他寡核苷酸类似物相比，LNA的优点在于其和DNA、RNA互补的双链有很强的热稳定性。

由于捕获后还需要进行PCR扩增，接头封闭序列必须要在PCR变性时与接头分离，因此加入LNA的个数和位置都需要进行评估，以获得适当的封闭强度。优选LNA分布在接头封闭序列互补区段上游或者下游2～30个碱基范围内，每隔3～7个碱基出现一个LNA，更优选在与index和UMI互补区段的上游和下游各有2～4个LNA。

在一个实施例中，当测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列时，第一接头封闭序列具有SEQ ID NO：49所示的核苷酸序列，第二接头封闭序列具有SEQID NO：50所示的核苷酸序列。

5’-AATGATACGGCGACCACCGA*GATCTA*CAC[IIIIIIII]ACA*CTCTT*TCCCTACACGACGCTCTTCCGATCT-PO₄-3’(SEQ ID NO：49)

5’-GATCGGAAGAGCACACGTCTGAA*CTCCAGT*CAC[IIIIIIII]ATCT*CGTA*TGCCGTCTTCTGCTTG-PO₄-3’(SEQ ID NO：50)

N*表示该碱基为LNA碱基，PO₄表示磷酸化修饰。

需要说明的是，本发明对于第一(第二)互补序列与测序接头之间互补关系不作严格限定，可以与第一(第二)样本标签序列和第一(第二)分子标签序列完全互补或者部分互补。对于第一(第二)互补序列的长度也不作严格限定。在一个实施例中，第一接头封闭序列包括与“第一样本标签+第一分子标签”序列长度相等的兼并序列，第二接头封闭序列包括与“第二样本标签+第二分子标签”序列长度相等的兼并序列。在一个实施例中，第一接头封闭序列和第二接头封闭序列各自均包括8nt碱基长度的兼并序列。

针对方案二：第一(第二)互补序列可以不完全采用兼并碱基，而是部分选择以根据A-T、G-C的互补配对原则而设计的由A、T、G、C构成的序列。其中，第一(第二)序列互补中由A、T、C、G构成的序列与测序接头的互补关系不作严格限定，既可以是与第一(第二)样本标签序列的部分或者全部互补，也可以与第一(第二)分子标签序列的部分或者全部互补，还可以同时与第一(第二)样本标签序列和分子标签序列互补。对于接头序列上与第一(第二)互补序列中A、T、C、G构成的序列互补的序列长度也不作严格限定，可以是2nt、3nt、4nt或5nt。

优选地，第一互补序列包括与第一样本标签序列完全互补且由A、T、G、C构成的序列以及与第一分子标签序列长度相等的兼并序列。第二互补序列包括与第二样本标签序列完全互补且由A、T、G、C构成的序列以及与第二分子标签序列长度相等的兼并序列。由此，第一(第二)接头封闭序列可以分别与第一(第二)样本标签序列和第一(第二)分子标签序列互补结合，实现封闭测序接头的目的。

根据本发明的优选实施例，当测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列时，第一接头封闭序列具有SEQ ID NO：49所示的核苷酸序列，第二接头封闭序列具有SEQ ID NO：50所示的核苷酸序列。根据表2罗列的12组测序接头，发明人设计了12组对应的接头封闭序列，如表3所示。需要说明的是，为了清晰地反应出测序接头与对应的接头封闭序列之间的对应关系，表3中的接头封闭序列与表2中对应的测序接头序列基本一致，区别仅在于表3中的分子标签序列为兼并碱基I，表2中的分子标签序列为随机碱基N。由于DNA具有双链互补结构，实际上，表2中的测序接头是与表3中对应的接头封闭序列的互补序列进行互补配对，以实现接头封闭，避免出现接头自连的现象。总之，本发明给出的“样本标签序列”、“分子标签序列”、“接头序列”和“接头封闭序列”等的示意性实例只涉及一条单链，本领域技术人员应当理解，与这些单链互补的序列同样适用于本发明的技术方案，能够解决本发明所述的技术问题并获得本发明所述的技术效果。

表3接头封闭序列组

需要解释的是，兼并序列是指由兼并碱基I组成的序列，兼并碱基I简称dI(deoxyinosine，脱氧肌苷)，是一种修饰碱基，其与A、T、G、C四种碱基均能配对互补。

另外，发明人意外发现，采用方案一的接头封闭序列组进行接头封闭后，探针捕获效率明显优于方案二的接头封闭序列组，可见兼并碱基I与LNA的恰当配合达到了更好地接头封闭效果。因此优选使用方案一的不区分样本标签的接接头封闭序列。

需要说明的是，前面针对测序接头所描述的特征和优点，同样适用于该用于封闭前面所述测序接头的接头封闭序列组，在此不再赘述。

构建测序文库的方法

在本发明的又一方面，本发明提出了构建测序文库的方法。根据本发明的实施例，该方法包括：将前面所述测序接头与目的基因相连，以便获得连接产物；将所述连接产物进行扩增，以便获得扩增产物；采用前面所述接头封闭序列组对所述扩增产物进行接头封闭，以便获得接头封闭产物；以及将所述接头封闭产物进行杂交捕获，以便获得测序文库。

杂交捕获之前，采用前面所述接头封闭序列组对测序接头进行接头封闭。在杂交捕获时，由于接头互补序列之间容易发生退火，使样品DNA与探针的结合效率降低，影响序列捕获效果，同时，没有任何关联的靶DNA可能由于接头之间的退火而相连，并级联放大形成“大分子DNA"，当探针与靶DNA退火结合后，同时也会把与靶DNA相连的其他非靶DNA—起捕获下来，造成捕获序列中存在大量的非靶序列。因此，在杂交捕获之前，通过对测序接头进行接头封闭，以避免接头自连，能明显提高捕获特异性，提高数据利用率，有利于目的基因的检出。由此，利用本发明的构建测序文库的方法高效地应用于测序技术，通过对文库的测序，然后基于对测序结果的数据分析，以获得序列信息，实现高效、准确、快速地对基因组DNA样品的检测，尤其适用于检测低频突变。

需要说明的是，前面针对测序接头和用于封闭该测序接头的接头封闭序列组所描述的特征和优点，同样适用于该构建测序文库的方法，在此不再赘述。

测序文库

在本发明的又一方面，本发明提出了一种测序文库。根据本发明的实施例，该测序文库是由前面所述构建测序文库的方法获得的。利用本发明的测序文库能够准确、高效地实现目标基因的检测，尤其适用于检测低频突变。

本领域技术人员能够理解的是，前面针对构建测序文库的方法所描述的特征和优点，同样适用于该测序文库，在此不再赘述。

低频突变检测方法

在本发明的又一方面，本发明提出了一种低频突变检测方法。根据本发明的实施例，该方法包括：根据前面所述构建测序文库的方法构建目的基因的测序文库；对目的基因进行测序，以便得到测序结果；以及对测序结果进行数据分析，以便确定目的基因的突变信息。由此，利用本发明的方法能够准确、高效地实现低频突变检测。

根据本发明的实施例，数据分析包括：

(1)基于测序结果，截取每一条测序序列的第一样本标签序列和第二样本标签序列并合并为组合样本标签；根据组合样本标签序列将全部测序序列拆分为不同组，每个组中全部测序序列均具有相同的组合样本标签；分别将每组测序序列的第一样本标签序列和第二样本标签序列与标签参考序列进行比对，以便实现对样本串扰情况的质控，其中第一样本标签和第二样本标签与标签参考序列均相同的测序序列用于后续分析；

(2)基于步骤(1)所获得的测序序列，截取每一条测序序列的第一分子标签序列和第二分子标签序列并合并为组合分子标签；根据组合分子标签将全部测序序列拆分为不同大类，每个大类中全部测序序列均具有相同的组合分子标签；

(3)基于步骤(2)所得到的每个大类，根据每一条测序序列中目的基因序列的碱基差异将每个大类中的测序序列分成为不同小类，每个小类中任意两条测序序列中目的基因序列之间的汉明距离不大于3，以便将具有相同组合分子标签但来自于不同DNA模板的测序序列区分开；

受分子标签种类的限制，来源于不同DNA模板的测序序列也可能被添加上相同的组合分子标签，因此需要进一步比对测序序列中目的基因序列之间的碱基差异。优选以3个碱基差异为标准(即汉明距离为3)，认为差异大于3个碱基的测序序列来源于不同的DNA模板，而差异小于3个碱基的测序序列来源于相同的DNA模板。据此将每个大类中的测序序列进一步分为不同的小类，每个小类中的测序序列均来源于相同的DNA模板。

(4)对步骤(3)所得到的每个小类中各测序序列中目的基因序列的每个碱基互相比对，若某一位点上的碱基在全部测序序列中的一致率不小于80％，则该碱基为该位点的测序结果；若某一位点上碱基在全部测序序列中的一致率低于80％，则该位点的测序结果忽略不计，由此，以便获得每个小类中各测序序列的测序结果；

(5)按照步骤(3)和(4)的方法获得不同大类的各测序序列的测序结果，以便获得目的基因的测序结果。

上述步骤(1)～(5)为纠错生信分析，是针对“双端index标签+双端UMI标签”策略专门设计的，能简便、有效地从测序结果中剔除标签错配和纠正系统错误，提高测序结果的准确性。

根据本发明的实施例，测序是利用高通量测序技术进行的。由此，能够实现准确、快速、大量、高效地对文库进行测序。

根据本发明的实施例，测序是利用Illumina HiSeq X PE150+8+8+150程序进行的。由此，以进一步准确、快速、大量、高效地对文库进行测序。

需要说明的是，前面针对构建测序文库的方法所描述的特征和优点，同样适用于该低频突变检测方法，在此不再赘述。

实施低频突变检测方法的装置

在本发明的又一方面，本发明提出了一种实施前面所述低频突变检测方法的装置。根据本发明的实施例，该装置包括：文库构建单元，文库制备单元用于构建目的基因测序文库，文库构建单元内设置有前面所述测序接头；测序单元，测序单元与文库构建单元相连，并且从文库构建单元接收目的基因的测序文库，以便用于对目的基因测序文库进行测序，获得测序结果；以及数据分析单元，数据分析单元与测序单元相连，并且从测序单元接收测序结果，以便对测序结果进行数据分析，确定目的基因的突变信息。由此，利用本发明的装置能够准确、高效地实现低频突变检测。

根据本发明的实施例，文库构建单元内设置有前面所述的接头封闭序列组。由此，在杂交捕获之前，通过对测序接头进行接头封闭，以避免接头自连，能明显提高捕获特异性，数据利用率高，有利于目的基因的检出。

需要说明的是，前面针对测序接头和低频突变检测方法所描述的特征和优点，同样适用于该实施低频突变检测方法的装置，在此不再赘述。

用于构建测序文库的试剂盒

在本发明的又一方面，本发明提出了一种用于构建测序文库的试剂盒。根据本发明的实施例，该试剂盒包括：前面所述的测序接头。由此，利用本发明的试剂盒能够有效地构建目标基因的高通量测序文库，特别是能够有效地构建适用于检测低频突变的高通量测序文库，通过对文库的测序，然后基于对测序结果的数据分析，有效地获得序列信息，实现高效、准确、快速地对目标基因的检测。

根据本发明的实施例，试剂盒进一步包括：前面所述的接头封闭序列组。由此，在杂交捕获之前，通过对测序接头进行接头封闭，以避免接头自连，能明显提高捕获特异性，数据利用率高，有利于目的基因的检出。

需要说明的是，前面针对测序接头所描述的特征和优点，同样适用于该用于构建测序文库的试剂盒，在此不再赘述。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

1、游离DNA的提取

用Streck管采集10ml外周血，1500g，4℃离心10min，吸取上清至另一新的15ml离心管中，再次15000g，4℃离心10min，吸取上清进行提取或冻存。参照QIAamp CirculatingNucleic Acid Kit(55114)提取试剂说明书提取血浆，然后提取其中的游离DNA，采用qPCR法(ALU115)进行定量。

2、样本文库的制备

由血浆提取的游离DNA，按照KAPA Hyper Prep Kits(KK8504)建库说明书，进行2步酶促反应。

2.1末端修复&加A尾

表4末端修复&加A尾反应体系

2.2接头连接

表5接头连接反应体系

测序接头如图1所示。之后，加入Agencourt AMPure XP reagent 88μl，进行磁珠纯化，最后回溶25μl EB进行下一步反应。

3、文库PCR扩增

表6文库PCR扩增反应体系

成分	体积
		2X KAPA HiFi热启动预混缓冲液	25μl
通用引物Mix	5μl
		接头连接文库	20μl
总体积	50μl

通用引物序列如下：

5’-AATGATACGGCGACCACCGAGATC-3’

5’-CAAGCAGAAGACGGCATACGA-3’

表7文库PCR扩增反应程序

4、探针捕获富集

文库质检合格后，采用肺癌55基因panel进行杂交捕获。芯片捕获富集panel如下：

表8肺癌55基因panel列表

采用SEQ ID NO：49和50所示核苷酸序列作为接头封闭序列，采用表9的体系进行杂交捕获。PCR反应后，先除去上一步的M270磁珠，然后重新加入Agencourt AMPure XPreagent 50μl进行磁珠纯化，最后20.5μl low TE洗脱。

表9杂交捕获体系

5、上机测序

采用Illumina HiSeq X PE150+8+8+150程序进行上机测序，按照制造商提供的操作说明书进行上机测序操作。

6、纠错生信分析方法

具体地，与已知样本index序列进行一致性对比，统计如下三个值：

P5 4nt index	P7 4nt index	读段个数
			一致	一致	A
一致	不一致	B
			不一致	一致	C

根据概率模型，按以下公式计算串扰质控值Z：

一般情况下，Z≥1％认为index串扰验证，反馈实验中心检查可能原因，并对样本进行重测。只对Z﹤1％的测序结果进行后续生信分析流程，该步骤会过滤B和C的数据，只保留A部分数据用于后续分析。

(5)按照步骤(3)和(4)的方法获得不同大类的各测序序列的测序结果，以便获得所述目的基因的测序结果。

实施例2分子标签合成随机性评估

理论上，分子标签上每个位置A、T、G、C四种碱基各自出现的概率应该在25％，例如，理想情况下8碱基的分子标签多样性为4⁸＝65336种。然而，对英潍捷基合成分子标签随机性进行评估，四种碱基掺入效率有明显差别，碱基A的含量明显高于其他三种碱基，分子标签中连续七个或者八个碱基A占比高达2％。

分子标签的随机性(或多样性)使得同一样本的每个原始DNA片段均带有不同的分子标签序列，以彼此区分。如果分子标签序列的随机性差，则不同原始DNA片段获得相同分子标签的概率升高，造成测序结果偏差。为了提高分子标签的多样性，将分子标签分别委托IDT公司和英潍捷基公司合成。评估发现，IDT合成分子标签的随机性优于英潍捷基，每个位置四种碱基的含量稳定在24.0％-26.1％。因此，后续实验均采用IDT合成分子标签进行。

表10英潍捷基合成分子标签随机性评估(上海合成，随机碱基混合合成)

表11 IDT合成分子标签随机性评估(25％等比合成)

实施例3接头封闭序列优化筛选

杂交捕获过程中，加入接头封闭序列能明显提高捕获特异性，提高数据利用率。然而，Roche捕获芯片中“根据样本标签添加对应封闭序列”的策略不适用于接头序列中插入分子标签的文库。基于此，发明人提出两种接头封闭策略：(1)根据样本标签添加对应封闭序列，同时随机碱基N通过兼并碱基I进行封闭，具体如表3所示，其中每组接头封闭序列组与表2中的测序接头序列一一对应；(2)采用不区分样本标签的接头封闭序列进行封闭，具体如SEQ ID NO：49和50所示的核苷酸序列。

接头封闭序列效果如图2所示，其中“方案1”是指采用上述第(1)种接头封闭序列，“方案2”是指采用上述第(2)种接头封闭序列。对比发现，不区分样本标签的接头封闭序列(方案2)使得探针捕获特异性明显高于兼并碱基封闭策略(方案1)。因此，优选不区分样本标签的接头封闭序列进行文库接头封闭。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种测序接头，其特征在于，所述测序接头呈Y字型，包括：

第一链，所述第一链包括相连的第一样本标签序列和第一分子标签序列；以及

第二链，所述第二链包括相连的第二样本标签序列和第二分子标签序列。

2.根据权利要求1所述的测序接头，其特征在于，所述第一样本标签序列和第二样本标签序列的总碱基数为8nt，所述第一分子标签序列和第二分子标签序列的总碱基数为8nt，

任选地，所述第一样本标签序列、第二样本标签序列、第一分子标签序列和第二分子标签序列的碱基数均为4nt；或者

所述第一样本标签序列和第二分子标签序列的碱基数均为3nt，所述第二样本标签序列和第一分子标签序列的碱基数均为5nt；或者

所述第一样本标签序列和第二分子标签序列的碱基数均为5nt，所述第二样本标签序列和第一分子标签序列的碱基数均为3nt，

任选地，所述第一样本标签序列和第二样本标签序列具有如SEQ ID NO：1～24任一所示的核苷酸序列，

任选地，所述第一分子标签序列和第二分子标签序列为随机序列，

任选地，所述第一分子标签序列和第二分子标签序列中每个位置上A、T、G、C四种碱基各自出现的概率分别独立地为24～26％，

任选地，所述测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列。

3.用于封闭权利要求1或2所述测序接头的接头封闭序列组，其特征在于，包括：

第一接头封闭序列，所述第一接头封闭序列使所述测序接头的第一链封闭；以及

第二接头封闭序列，所述第二接头封闭序列使所述测序接头的第二链封闭；

其中，所述第一接头封闭序列包括与所述第一样本标签序列和第一分子标签序列至少部分互补的第一互补序列，所述第二接头封闭序列包括与所述第二样本标签序列和第二分子标签序列至少部分互补的第二互补序列，并且所述第一接头封闭序列和第二接头封闭序列的3’端碱基均被磷酸化修饰。

4.根据权利要求3所述的接头封闭序列组，其特征在于，所述第一互补序列和第二互补序列均包括兼并序列，所述第一接头封闭序列和第二接头封闭序列包括LNA碱基；

任选地，当所述测序接头具有如SEQ ID NO：25～48任一所示的核苷酸序列时，所述第一接头封闭序列具有SEQ ID NO：49所示的核苷酸序列，所述第二接头封闭序列具有SEQ IDNO：50所示的核苷酸序列。

5.一种构建测序文库的方法，其特征在于，包括：

将权利要求1或2所述测序接头与目的基因相连，以便获得连接产物；

将所述连接产物进行扩增，以便获得扩增产物；

采用权利要求3或4所述接头封闭序列组对所述扩增产物进行接头封闭，以便获得接头封闭产物；以及

将所述接头封闭产物进行杂交捕获，以便获得测序文库。

6.一种测序文库，其特征在于，是由权利要求5所述构建测序文库的方法获得的。

7.一种低频突变检测方法，其特征在于，包括：

根据权利要求5所述构建测序文库的方法构建目的基因的测序文库；

对所述目的基因进行测序，以便得到测序结果；以及

对所述测序结果进行数据分析，以便确定所述目的基因的突变信息。

8.根据权利要求7所述的方法，其特征在于，所述数据分析包括：

(1)基于所述测序结果，截取每一条测序序列的第一样本标签序列和第二样本标签序列并合并为组合样本标签；根据所述组合样本标签序列将全部测序序列拆分为不同组，每个组中全部测序序列均具有相同的组合样本标签；分别将每组测序序列的第一样本标签序列和第二样本标签序列与标签参考序列进行比对，以便实现对样本串扰情况的质控，其中所述第一样本标签和第二样本标签与所述标签参考序列均相同的测序序列用于后续分析；

(2)基于步骤(1)所获得的测序序列，截取每一条测序序列的第一分子标签序列和第二分子标签序列并合并为组合分子标签；根据所述组合分子标签将全部测序序列拆分为不同大类，每个大类中全部测序序列均具有相同的组合分子标签；

(4)对步骤(3)所得到的每个小类中各测序序列中目的基因序列的每个碱基互相比对，若某一位点上的碱基在全部测序序列中的一致率不小于80％，则该碱基为所述位点的测序结果；若某一位点上碱基在全部测序序列中的一致率低于80％，则所述位点的测序结果忽略不计，由此，以便获得每个小类中各测序序列的测序结果；

(5)按照步骤(3)和(4)的方法获得不同大类的各测序序列的测序结果，以便获得所述目的基因的测序结果；

任选地，所述测序是利用高通量测序技术进行的；

任选地，所述测序是利用Illumina HiSeq X PE150+8+8+150程序进行的。

9.一种实施权利要求7或8所述低频突变检测方法的装置，其特征在于，包括：

文库构建单元，所述文库制备单元用于构建目的基因测序文库，所述文库构建单元内设置有权利要求1或2所述测序接头；

测序单元，所述测序单元与所述文库构建单元相连，并且从所述文库构建单元接收所述目的基因的测序文库，以便用于对所述目的基因测序文库进行测序，获得测序结果；以及

数据分析单元，所述数据分析单元与所述测序单元相连，并且从所述测序单元接收所述测序结果，以便对所述测序结果进行数据分析，确定所述目的基因的突变信息，

优选地，所述文库构建单元内设置有权利要求3或4所述的接头封闭序列组。

10.一种用于构建测序文库的试剂盒，其特征在于，包括：权利要求1或2所述的测序接头，

优选地，所述试剂盒进一步包括：权利要求3或4所述的接头封闭序列组。