CN110168087B

CN110168087B - Dna标签及其应用

Info

Publication number: CN110168087B
Application number: CN201780083033.9A
Authority: CN
Inventors: 柴相花; 甄贺富; 袁玉英; 张现东; 张爱萍; 张红云; 刘娜; 尹烨
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2023-11-14
Anticipated expiration: 2037-04-27
Also published as: CN110168087A; WO2018195878A1; CN116121243A

Abstract

提供一种用于检测微量变异的DNA标签，该标签具有选自下列至少之一的序列：(1)HHATHHHTCACCHHATHHH；或(2)HHHTAHHTAHHHTAHH，其中，H代表A、T或C。

Description

DNA标签及其应用

优先权信息

无

技术领域

本发明涉及生物测序领域，具体地，本发明涉及DNA标签、DNA接头、构建测序文库的方法、测序文库以及测序方法。

背景技术

高通量测序技术的迅猛发展将基因组学水平的研究带入一个新的时期。它不仅可以进行大规模基因组测序，还可以用于基因表达分析、非编码小分析RNA的鉴定等。在医学领域，高通量测序技术打破了疾病研究过程中的通量限制，使得对疾病的多层面、全方位研究成为可能，为疾病的预防、诊断及治疗提供了有效手段。在基因组、基因表达研究或医学遗传学检测中，DNA测序测定、DNA分子定量、RNA丰度分析等具有重要意义。然而，由于高通量测序技术在测序前需要对样本DNA/RNA进行PCR扩增，PCR普遍存在扩增偏向性、扩增错误等问题，同时基于特定测序平台和测序环境，在测序过程中也会产生测序错误，从而导致约1％的碱基不能正确识别，进而限制了对罕见变异和低频变异的检测。

单分子标签(Unique Molecular Identifiers，UMI)技术是通过在DNA/RNA分子片段末端随机添加一段人工合成序列(一般5-12bp)，作为识别该DNA片段的唯一标签，用于记录样本原始DNA/RNA信息。早在2011年由Isaac Kinde,Jian Wu等人为了检测罕见突变运用了唯一标示符(Unique Identifier，UID)技术，这一技术与UMI技术类同。紧接着在2012年，为了解决确定单样本中两个不同分子的相对丰度或多分子的绝对定量，由Teemu Kivioja,Anna 等人首次使用了单分子标签(UMI)技术进行多分子绝对量的计数。同年Michael W.Schmitt等人采用了进一步UMI和双工测序(Duplex Sequencing，DS)技术进行极罕见突变的检测。同样是Scott R Kennedy,Michael W Schmitt等在2014年又针对有效的DS接头合成、文库制备、目标富集以及数据分析流程概述提供了详细的协议。接下来在2015年Michael W Schmitt等又运用DS技术对ABL1基因上的罕见突变进行了检测。

然而，对于基因组极微量变异的检测仍需要进一步开拓。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

本申请发明人基于独创性的UMI序列，研发了一套基因组极微量变异检测和验证系统。本系统可以检测的突变频率最低可以达到0.01％，可以实现与体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。

在本发明的第一方面，本发明提出了一种DNA标签。根据本发明的实施例，所述标签具有选自下列至少之一的序列：(1)HHATHHHTCACCHHATHHH(SEQ ID NO：10)；以及(2)HHHTAHHTAHHHTAHH(SEQ ID NO：11)，其中，H代表A、T或C。利用根据本发明实施例的标签，可实现对极微量(突变频率低至0.01％)变异的检测和验证，对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。

在本发明的第二方面，本发明提出了一种DNA接头。根据本发明的实施例，所述DAN接头含有前面所述的DNA标签。利用根据本发明实施例的DNA接头构建测序文库，进而对测序文库进行测序，可检测出极微量的变异，对突变频率低至0.01％的微量突变或罕见突变的检测灵敏度高。根据本发明实施例的DNA接头对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有十分重要的意义。

在本发明的第三方面，本发明提出了前面所述的DNA标签和前面所述的DNA接头在在检测微量变异中的应用。利用根据本发明实施例的标签和接头，可实现对极微量(突变频率低至0.01％)变异的检测和验证，对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。

在本发明的第四方面，本发明提出了一种构建测序文库的方法。根据本发明的实施例，所述方法包括将连接有前面所述的DNA接头的核酸分子进行富集处理，以便获得测序文库。利用根据本发明实施例的方法构建的测序文库，可用于极微量变异的检测，极微量变异的突变频率可低至0.01％。

在本发明的第五方面，本发明提出了一种测序文库。根据本发明的实施例，所述测序文库是通过前面所述的构建测序文库的方法获得。对该测序文库进行高通量测序，可以检测的突变频率最低可以达到0.01％，可以实现对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。

在本发明的第六方面，本发明提出了一种测序方法。根据本发明的实施例，所述方法包括将前面所述的测序文库进行测序和数据分析处理。利用根据本发明实施例的测序方法，可实现低频突变的检测和验证，同时根据测序深度的不同UMI技术可以检测的突变频率可以达到0.01％，可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的极微量变异检测系统整体分析流程图；

图2为根据本发明一个实施例的数据分析处理流程图；

图3为根据本发明一个实施例的PCR产物的纯化定量及Sanger测序验证图；

图4为根据本发明一个实施例的利用检测2100检测加“T”策略制备的接头的结果图；

图5为根据本发明一个实施例的利用检测2100检测加anchor策略制备的接头的结果图；

图6为根据本发明一个实施例的利用检测2100检测酶切策略制备的接头的结果图；

图7为根据本发明一个实施例的利用检测2100检测测序文库的结果图；

图8为根据本发明一个实施例的样本的累积深度分布图；

图9为根据本发明一个实施例的样本的深度分布图；

图10为根据本发明实施例的样本的UMI序列集分布图；以及

图11为根据本发明实施例的构建双工一致性序列结果图。

发明详细描述

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

对于本发明说明书和权利要求书中所提及的核酸，本领域技术人员应当理解，实际包括互补双链的任意一条，或者两条。为了方便，在本说明书和权利要求书中，虽然多数情况下只给出了一条链，但实际上也公开了与之互补的另一条链。例如，提及SEQ ID NO：1，实际包括其互补序列。本领域技术人员还可以理解，利用一条链可以检测另一条链，反之亦然。

DNA标签

在本发明的第一方面，本发明提出了一种用于检测微量变异的DNA标签。根据本发明的实施例，所述标签具有选自下列至少之一的序列：(1)HHATHHHTCACCHHATHHH；以及(2)HHHTAHHTAHHHTAHH，其中，H代表A、T或C。利用根据本发明实施例的标签，可实现对极微量(突变频率低至0.01％)变异的检测和验证，对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。

DNA接头

根据本发明的再一具体实施例，所述接头具有粘性末端dT。进而，可通过快速的T-A连接，实现接头与待测序基因片段的有效快速连接。

根据本发明的具体实施例，所述DNA接头进一步包括：锚定序列，所述锚定序列形成在所述粘性末端dT与所述标签序列之间。锚定序列和标签序列进行退火反应时，两序列互补配对直至锚定序列3’末端突出碱基T为终止。分子克隆里，平端连接形成突出碱基的稳定性比较差，同时存在一定的失败率；而通过两条序列(其中锚定序列多出dT碱基)进行退火反应，经两条序列的互补配对，最后形成突出的dT端，后者没有连接反应的要求，只要两引物一一互补配对即可，因此引入锚定序列相对于常用的3’端平端连接dT更高效，更牢固。

根据本发明的具体示例，所述锚定序列具有SEQ ID NO：1所示的核苷酸序列。CTATGTCGATGC(SEQ ID NO：1)。根据本发明实施例的锚定序列严格不与其互补序列以外的序列互补，且自身不容易发生连接。此外，dDTP不含dC碱基，因此延伸反应终止，从而可以有效保护锚定序列的互补结构不被破坏。

根据本发明的实施例，所述粘性末端dT形成在所述DNA标签的3’末端。进而可与5’末端连接A的待测序片段进行快速、高效的T-A连接。

根据本发明的具体实施例，连接有锚定序列的接头是依次通过梯度退火处理、dDTP延伸处理以及酒精纯化补nick处理获得的。具体步骤如下所述：

1、梯度退火，具体步骤包括：

1)分别按管壁mol参数加ddH₂O(OAB buffer)稀释至150uM，然后分别取12μl三种序列等体积混合，具体见表1；

表1：

备注：经过实验发现，锚定序列在合成时加dT比接头制备好后再连接dT的稳定性和效率更好，因此在制备有连接锚定序列的接头时，锚定序列合成时就加dT。

2)置PCR仪进行退火反应；

3)反应完成后放置在-20℃保存，标记为pre-Mix-ac；

2、dDTP延伸，具体步骤包括：

1)取35μl pre-Mix-ac，加入试剂，吹打混匀，所得体系如表2所示：

表2：

pre-Mix-ac	35μl
		10×Blue buffer	5μl
dDTP(25mM each)	5μl
		Klenow(3’→5’exo-)(5U/μl)	5μl
In Total	50μl

2)37℃孵育1h；

3)酒精纯化，用ddH2O溶出50μl；

4)放置在-20℃保存，标记为ac-Adpater-1.T.1。

3、酒精纯化补nick，具体步骤包括：

1)取45μl ac-Adpater-1.T.1，加入以下试剂，吹打混匀，所得体系如表3所示；

表3：

ac-Adpater-1.T.1	45μl
		2x Rapid ligation buffer	50μl
T4 DNA Ligase(600U/μl)	5μl
		In Total	50μl

2)37℃孵育30min。

4、酒精纯化，用ddH₂O溶出30μl。取1μl稀释，用于检测2100；

5、反应完成后-20℃保存。

根据本发明的具体示例，所述DNA接头进一步包括：酶切序列，所述酶切序列形成在所述DNA标签的末端，其中，所述酶切序列携带适于产生粘性末端dT的限制性内切酶识别位点。内切酶可切割正义链酶切识别位点后8位碱基，和反义链酶切识别位点后7位碱基，形成3’末端突出1位dT碱基的粘性末端。连接有酶切序列的接头形成3’端突出T末端结构更稳定。

根据本发明的再一具体示例，所述酶切序列为HphI特异性识别位点。HphI特异性识别位点被HphI特异性识别和酶切后，在DNA接头的3’端可以产生粘性末端dT，进而可与待测序片段进行快速、高效的T-A连接。

根据本发明的再一具体示例，连接有HphI特异性识别位点酶切序列的接头是依次通过梯度退火处理、dDTP延伸处理以及Hphl酶切处理获得的。具体地，可通过酶切后短PCR和酶切后长PF两种方式获得。

酶切后短PCR的方式具体如下所述：

1、梯度退火，具体步骤包括：

1)分别按管壁mol参数加ddH2O(OAB buffer)稀释至100uM，然后分别取20μl等体积混合；

2)置PCR仪进行退火反应；

3)反应完成后放置在-20℃保存，标记为pre-Mix-S。

2、dDTP延伸，具体步骤包括：

1)取35ul pre-Mix-S，加入试剂，吹打混匀，体系如表4所示；

表4：

pre-Mix-S	35μl
		10×Blue buffer	5μl
dDTP(25mM each)	5μl
		Klenow(3’→5’exo^-)	5μl
In Total	50μl

2)37℃孵育1h；

3)酒精纯化，用ddH2O溶出20μl，取1μl稀释，用于检测2100高敏；

4)放置在-20℃保存，标记为pre-Adpater-S。

3、Hphl酶切，具体步骤包括：

1)分别取下表体积加入pre-Adpater-S混合，体系如表5所示；

表5：

2)37℃孵育16h，65℃孵育20min灭活；

3)酒精纯化，用ddH₂O溶出30μl，取1μl稀释，用于检测2100高敏；

4)反应完成后-20℃保存。

酶切后长PF(PCR-Free)的方式具体如下所述：

1、梯度退火，具体步骤包括：

2)置PCR仪进行退火反应；

3)反应完成后放置在-20℃保存，标记为pre-Mix-L57。

2、dDTP延伸，具体步骤包括：

1)取35ul pre-Mix-L57，加入以下试剂，吹打混匀，体系如表6所示；

表6：

pre-Mix-L57	35μl
		10×Blue buffer	5μl
dDTP(250nM each)	5μl
		Klenow(3’→5’exo^-)	5μl
In Total	50μl

2)37℃孵育1h；

3)酒精纯化，用ddH₂O溶出20μl，取1μl稀释，用于检测2100高敏；

4)置-20℃保存，分别标记为pre-Adpater-L57。

3、Hphl酶切，具体步骤包括：

1)分别取下表体积加入pre-Adpater-L57混合，体系如表7所示；

表7：

2)37℃孵育16h；65℃孵育20min灭活；

4)反应完成后放置在-20℃保存。

DNA标签和DNA接头在在检测微量变异中的用途

在本发明的第三方面，本发明提出了前面所述的DNA标签和前面所述的DNA接头在在检测微量变异中的用途。利用根据本发明实施例的标签和接头，可实现对极微量(突变频率低至0.01％)变异的检测和验证，在科学研究中，利用根据本发明实施例的标签和接头检测出极微量(突变频率低至0.01％)变异，对极微量变异的科学研究提供了可靠的检测手段，如体细胞线粒体突变率检测、罕见DNA变异检测(如novel易感位点的检测)、利用单分子计数精确计算DNA/RNA拷贝数、遗传性疾病的研究，衰老的研究(如与衰老相关的甲基化位点检测)等。另外，对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。

构建测序文库的方法

具体地，根据本发明的实施例，所述核酸分子是通过如下方式获得的：(1)将待测核酸样本进行PCR扩增，以便获得核酸样本片段；(2)将所述核酸样本片段进行3’末端加A处理；(3)将前面所述的DNA接头与步骤(2)所获得的核酸样本片段进行连接，以便获得所述连接有前面所述的DNA接头的核酸分子。

根据本发明的再一实施例，3’仅具有粘性末端dT或在粘性末端dT与标签序列之间具有锚定序列的DNA接头与待测样本片段连接后，所述富集处理是通过PCR富集实现的。具体步骤如下所述：

1)实验准备。根据实验任务单和样本数编制《PCR反应表》；

2)加模板。根据《PCR反应表》的排版顺序将DNA样本加入到96孔PCR反应板中，批量样本每孔3μL，重扩重提样本每孔5μL。注意核对DNA信息是否与PCR反应表一致，管底或靠壁加样，封口膜封口后2000rpm短暂离心30s，检查管底加样情况，待用；

3)Mix分装。将配制好的mix分装至待用反应板中，批量样本每孔22μL，重扩样本每孔加20μL，悬空加mix。盖胶垫后1500rpm 30s短暂离心，并立即进行PCR仪循环扩增；

4)PCR仪循环扩增；

5)扩增后产物检测，PCR扩增后产物2,000rpm、30秒短暂离心，转移至电泳房待检测。如下机产物不能及时检测时，于4℃保存。

根据本发明的再一实施例，具有酶切序列的接头与待测样本连接后，所述富集处理也可通过上述的PCR富集方式实现。根据本发明的再一具体示例，当具有酶切序列的接头是通过上述的酶切后长PF(PCR-Free)的方式获得的，则具有酶切序列的接头与待测样本连接后，富集处理过程可以省略。

根据本发明的具体示例，所述富集处理之前，进一步包括对连接有前面所述的DNA接头的核酸分子进行纯化处理。具体地，所述纯化处理可通过磁珠纯化进行的。纯化处理过程可去除连接处理过程中相关酶以及相关缓冲液，进而排除对后续富集处理的干扰，连接产物的富集成功率和效率显著提高。

测序文库

在本发明的第五方面，本发明提出了一种测序文库。根据本发明的实施例，所述测序文库是通过前面所述的构建测序文库方法获得的。根据本发明的实施例，所述测序文库是通过前面所述的构建测序文库的方法获得。对该测序文库进行高通量测序，可以检测的突变频率最低可以达到0.01％，可以实现对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。

测序方法

在本发明的第六方面，本发明提出了一种测序方法。根据本发明的实施例，所述方法包括将前面所述的测序文库进行测序和数据分析处理。利用根据本发明实施例的测序方法，可实现低频突变的检测和验证，可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。

根据本发明的具体实施例，所述测序是通过Hiseq2500平台进行的。在Hiseq2500平台上进行高通量测序，可以大幅度降低成本，保证实验数据和分析结果的稳定性，更重要的是根据测序深度的不同UMI技术可以检测的突变频率可以达到0.01％。

根据本发明的具体示例，所述数据分析处理流程参考图2，具体如下所述：

1)数据预处理。对原始测序数据进行预处理，包括过滤低质量的reads，提取UMI接头序列，统计reads信息和UMI接头序列信息等；

2)比对。使用BWA(V0.5.9-r16)把预处理之后的reads比对到参考序列上；

3)过滤比对结果。对比对结果进行统计和过滤；

4)排序。使用samtools(V 0.1.16)对比对结果进行排序；

5)构建单链一致性序列。根据UMI序列集构建单链一致性序列；

6)排序。使用samtools(V0.1.16)对单链一致性序列进行排序；

7)构建双工一致性序列。根据UMI序列集中的互补序列构建双工一致性序列；

8)排序。使用samtools(V0.1.16)对双工一致性序列进行排序；

9)过滤和排序。使用samtools(V0.1.16)对双工一致性序列进行过滤，并对过滤后的结果进行排序；

10)局部比对。使用GATK(V2.4-9)对双工一致性序列进行局部比对；

11)突变信息分析。按照设定的突变率对突变信息进行分析和统计。

综上所述，利用根据本发明实施例的DNA标签、DNA接头、构建测序文库的方法、测序文库以及测序方法，可实现低频突变的检测和验证，可以检测的突变频率最低可以达到0.01％，进而可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。具体如下所述：由于本发明采用了特殊的文库制备和分析策略，即用制备好的接头序列与样本DNA进行连接，虽然接头序列中包含10个简并碱基，但是具体到每个分子，还是有其特定的序列。样本DNA加好接头后，得到的原始测序模板，而每个模板的末端都被加上了19个碱基的分子标签，那每个模板的左、右两端加起来就有38个碱基的分子标签。每个兼并碱基有3种选择，20个碱基就是3^20，等于近3.5亿万种可能性。这保证了每个原始模板在原始文库里都是独一无二的。PCR扩增原始文库，每个模板会形成基于原始模板的2个中间序列互补的分子家族：正向和反向。基于这种文库制备和测序策略，在具体分析中可以通过以下策略排除一些假阳性的突变位点，具体策略如下：

1)在一个分子家族中只出现一次、或者少数几次的突变。而且互补分子家族没有出现同样的突变，这说明这种突变是随机错误，或者是PCR过程中后引入的复制错误，或者是Hiseq机器判读碱基有误。同时说明样本在该位置没有突变；

2)在一个分子家族中统一出现，但在与之互补的分子家族中不出现，这说明这种突变是在PCR的第一个循环中引入的复制错误；

3)在分子家族中统一出现，而且与互补链出现对应的突变。这说明这种突变是真的、可信的。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以采购自Illumina公司。

本发明的实施例用2组DNA样本进行目标区域的PCR，经Sanger测序法确定各自特异碱基点后，以摩尔比例为1：1，1：100,1：1000，1：10000分别混合成4组产物，最后，依次对应三种UMI策略进行测试，详细如表8所示。

表8：

目标区域如表9所示。

目标序列以DRB1*01：01：01(说明：此型别对应的序列是DRB1基因的参考序列，下面展示的序列是该型别在目标区域内的序列)为例，序列如下：

ATGGTGTGTCTGAAGCTCCCTGGAGGCTCCTGCATGACAGCGCTGACAGTGACACTGATGGTGCTGAGCTCCCCACTGGCTTTGGCTGGGGACACCCGAC(SEQ ID NO：4)。

表9：

基因名	外显子	起始位置	终止位置	序列长度
					DRB1	Exome1	211	310	100bp

依据极微量变异检测系统整体分析流程图(参考图1)，以下依次介绍每个步骤的实施情况。

1、DNA提取，具体步骤如下：

(1)向1.5mL离心管中加入20μL蛋白酶K溶液；

(2)向管中加入200μL血液样本；

(3)向管中加入200μL缓冲液AL，涡旋振荡15秒，充分混匀；

(4)56℃水浴10分钟；

(5)在微型离心机中适当离心，使所有液体降到管底；

(6)加入200μL无水乙醇，涡旋振荡15秒，混匀，在微型离心机中适当离心，使所有液体沉到管底；

(7)将上步所得到的所有液体小心转移到纯化柱中，不要沾湿边缘，在高速离心机中8000rpm离心1分钟，弃掉收集管，更换新的收集管；

(8)小心打开管盖，加入500μL缓冲液AW1，不要沾湿边缘，在高速离心机中8000rpm离心1分钟，弃掉收集管，更换新收集管；

(9)打开管盖，加入500μL缓冲液AW2，在高速离心机中，14000rpm，离心3分钟；

(10)弃掉收集管，更换新离心管，在高速离心机中，14000rpm，离心1分种；

(11)弃掉收集管，将纯化柱放入1.5mL离心管中，晾3分钟，加入50μL缓冲液AE或是超纯水，室温下放置5分钟，在高速离心机中，8000rpm，离心1分钟，弃纯化柱，盖上离心管；

(12)在nanodrop 2000上测OD值，记录测量结果；

(13)将提取好的DNA做上标记，放入-20℃冰箱保存。

2、PCR扩增，具体步骤如下：

(1)引物设计；

在上述目标区域上下游区域通过生物信息学分析确定特异且保守的区域作为引物设计的候选区域，再根据引物设计原则完成引物设计。为提高数据利用率PCR引物扩增区域在满足覆盖目标区域条件下尽量短。

按照技术方案中的设计原则，针对以上目标区域最终确定引物序列如表10所示。

表10：

基因名	外显子	正向引物	反向引物	扩增长度
					DRB1	Exome1	CCCTGGAGGCTCCTG(SEQ ID NO：5)	CACCCRCAATGTGCA(SEQ ID NO：6)	75bp

(2)采用高保真PCR酶及已制备的引物对上述DNA样本进行PCR扩增，实现目标序列富集。

3、PCR产物的纯化定量及Sanger测序验证(详见附图3a和b)；

4、末端修复，取200ng以上产物进行末端修复，并纯化；

5、3’末端加dA，即3’末端加“A”，并纯化；

6、加UMI接头，具体步骤如下：

(1)接头制备，具体步骤按照图1三种策略依次进行介绍：

I、加“T”策略，即3’端加dT，具体步骤如下：

1)梯度退火，具体步骤包括：

a)分别按管壁mol参数加ddH₂O(OAB buffer)稀释至100μM，然后分别取20μl等体积混合，具体如表11所示；

表11：

b)置于PCR仪进行退火反应；

c)反应完成后放置在-20℃保存，标记为pre-Mix-T。

2)dDTP延伸，具体步骤包括：

a)取35μl pre-Mix-T，加入试剂，体系如表12所示，吹打混匀：

表12：

pre-Mix-T	35μl
		10×Blue buffer	5μl
dDTP(25mM each)	5μl
		Klenow(3’→5’exo-)(5U/μl)	5μl
In Total	50μl

b)37℃孵育1h；

c)酒精纯化，用ddH2O溶出42ul。

3)加dT，具体步骤包括：

a)在上一步产物中，加入表13试剂。

表13：

上一步产物	42μl
		10×Blue buffer	5μl
dTTP(10mM)	1μl
		Klenow(3’→5’exo^-)(5U/μl)	2μl
In Total	50μl

b)37℃孵育30min。

4)酒精纯化，用ddH2O溶出30μl。取1μl稀释，用于检测2100；(详见附图4)

5)反应完成后-20℃保存，标记为dT-Adpater-T。

II加anchor策略，具体步骤如下：

1)梯度退火，具体步骤包括：

a)分别按管壁mol参数加ddH2O(OAB buffer)稀释至150uM，然后分别取12μl等体积混合，具体见表1；

b)置PCR仪进行退火反应；

c)反应完成后放置在-20℃保存，标记为pre-Mix-ac；

2)dDTP延伸，具体步骤包括：

a)取35μl pre-Mix-ac，加入试剂，体系如表2所示，吹打混匀：

b)37℃孵育1h；

c)酒精纯化，用ddH2O溶出50μl。

d)放置在-20℃保存，标记为ac-Adpater-1.T.1。

3)酒精纯化补nick，具体步骤包括：

a)取45μl ac-Adpater-1.T.1，加入以下试剂，体系如表14所示，吹打混匀；

表14：

b)37℃孵育30min。

4)酒精纯化，用ddH2O溶出30μl。取1μl稀释，用于检测2100；(详见附图5)

5)反应完成后-20℃保存，标记为ac-Adpater。

III、酶切策略，即Hphl酶切，包括短序列方案(S)和长序列方案(L)，即PCR方案和PCR-Free方案，具体步骤如下：

1)梯度退火，具体步骤包括：

a)分别按管壁mol参数加ddH₂O(OAB buffer)稀释至100uM，然后分别取20μl等体积混合；

短序列方案的引物如表15所示：

表15：

长序列方案的引物如表16所示：

表16：

b)置PCR仪进行退火反应；

c)反应完成后放置在-20℃保存，分别标记为pre-Mix-S和pre-Mix-L57。

2)dDTP延伸，具体步骤包括：

a)分别取pre-Mix-S和pre-Mix-L57，加入试剂，体系如表17所示，吹打混匀；

表17：

pre-Mix-S/pre-Mix-L57	35μl
		10×Blue buffer	5μl
dDTP(25mM each)	5μl
		Klenow(3’→5’exo-)(5U/μl)	5μl
In Total	50μl

b)37℃孵育1h；

c)酒精纯化，用ddH2O溶出20μl。

d)放置在-20℃保存，分别标记为pre-Adpater-S和pre-Adpater-L57。

3)Hphl酶切，具体步骤包括：

a)a)分别取表18和表19所示体系混合；

表18：

表19：

b)b)37℃孵育16h，65℃孵育20min灭活。

4)酒精纯化，用ddH2O溶出30μl。取1μl稀释，用于检测2100；(详见附图6a和b)。

5)反应完成后-20℃保存，分别标记为Adpater-S和Adpater-L。

(2)连接制备好的UMI接头

(3)磁珠纯化

7、PCR富集(酶切的长序列方案即PCR-Free此步骤省略)，磁珠纯化

8、文库pooling，即送检2100(详见图7的a、b、c、d)和QPCR定量，QPCR定量结果如表20所示，然后pooling等待上机测序。

表20：

9、PE测序

10、数据分析

限于篇幅，以下实施例仅以酶切长序列方法的样本为例进行说明。

1)对Hiseq2500平台测序下机的PE90的数据进行预处理并提取UMI序列。

2)剔除引物序列并比对(BWA(V0.5.9-r16)；

3)对比对结果进行处理和统计，样本的累积深度分布图和深度分布图分别见附图8和附图9，限于篇幅仅展示UMI-LT57-1的结果.

4)对处理之后的比对结果进行排序(samtools(V 0.1.16))；

5)构建单链一致性序列，该样本的UMI序列集分布图见附图10，限于篇幅仅展示UMI-LT57-1的结果；

6)对单链一致性序列进行排序(samtools(V 0.1.16))；

7)构建双工一致性序列，构建结果以SAM文件格式存储，结果截图见附图11，限于篇幅仅展示UMI-LT57-1的结果；

8)排序，过滤并再次排序(samtools(V 0.1.16))；

9)局部比对(GATK(V2.4-9))；

10)突变信息分析，统计结果如表22-25所示，限于篇幅仅显示包含预设突变位点的区域。

表21：UMI-LT57-1突变信息分析结果表

Chr

Ref

Pos

Total_Depth

Eff_Depth

Total_Mut

A_Mut_Fre

T_Mut_Fre

C_Mut_Fre

G_Mut_Fre

D_ref

C

243

22612

22546

0

0->0.0000

D_ref

A

244

22615

22450

2

0->0.0000

1->0.0000

D_ref

T

245

22616

22410

1

1->0.0000

0->0.0000

D_ref

G

246

22617

22550

2

0->0.0000

1->0.0000

0->0.0000

D_ref

A

247

22620

22416

18128

0->0.0000

18128->0.8087

D_ref

C

248

22621

22533

0

0->0.0000

D_ref

A

249

22612

22296

2

0->0.0000

1->0.0000

D_ref

G

250

22498

22440

0

0->0.0000

D_ref

C

251

22403

22123

17802

0->0.0000

17802->0.8047

0->0.0000

D_ref

G

252

22393

22180

17846

0->0.0000

17845->0.8046

1->0.0000

0->0.0000

D_ref

C

253

22391

22335

0

0->0.0000

备注：确定的突变位点全部检出，加粗表示：分别是A247G，C251T，G252T；表格标题各列的含义：Chr表示参考序列标识符；Ref表示参考碱基；Pos表示参考序列上的位置信息；Total_Depth表示总深度；Eff_Depth表示有效深度；Total_Mut表示总突变碱基数；A_Mut_Fre表示发生A碱基突变的碱基数和该碱基数占有效深度的比率；T_Mut_Fre表示发生T碱基突变的碱基数和该碱基数占有效深度的比率；C_Mut_Fre表示发生C碱基突变的碱基数和该碱基数占有效深度的比率；G_Mut_Fre表示发生G碱基突变的碱基数和该碱基数占有效深度的比率。以下三个表格类同。

表22：UMI-LT57-2突变信息分析结果表

表23：UMI-LT57-3突变信息分析结果表

表24：UMI-LT57-4突变信息分析结果表

Chr

Ref

Pos

Total_Depth

Eff_Depth

Total_Mut

A_Mut_Fre

T_Mut_Fre

C_Mut_Fre

G_Mut_Fre

D_ref

C

243

5273

5252

0

0->0.0000

D_ref

A

244

5273

5199

0

0->0.0000

D_ref

T

245

5273

5193

0

0->0.0000

D_ref

G

246

5286

5247

0

0->0.0000

D_ref

A

247

5288

5187

1

0->0.0000

1->0.0002

D_ref

C

248

5288

5258

0

0->0.0000

D_ref

A

249

5288

5161

1

0->0.0000

1->0.0002

D_ref

G

250

5288

5261

0

0->0.0000

D_ref

C

251

5288

5241

2

0->0.0000

2->0.0004

0->0.0000

D_ref

G

252

5288

5246

1

0->0.0000

1->0.0002

0->0.0000

D_ref

C

253

5288

5253

0

0->0.0000

从分析结果可以看出，检出比例与样本混合比例有很好对应关系，当混合比例为10000:1时也能正确检出确定的突变位点。因此，本系统设计的UMI序列可以检测突变率为0.01％的突变。

工业实用性

本发明的方法，能够有效地应用于低频突变的检测和验证，可以检测的突变频率最低可以达到0.01％，可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

SEQUENCE LISTING

<110> 深圳华大基因股份有限公司

<120> DNA标签及其应用

<130> PIOC3168040PCN

<160> 12

<170> PatentIn version 3.3

<210> 1

<211> 12

<212> DNA

<213> Artificial

<220>

<223> 锚定序列

<400> 1

ctatgtcgat gc 12

<210> 2

<211> 58

<212> DNA

<213> Artificial

<220>

<223> pre-Mix-ac正向引物、pre-Mix-T正向引物、pre-Mix-S正向引物、pre-Mix-L57正向引物

<400> 2

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 3

<211> 62

<212> DNA

<213> Artificial

<220>

<223> pre-Mix-ac引物，H代表A、T或C

<400> 3

gcatcgacat aghhhtahht ahhhtahhag atcggaagag cacacgtctg aactccagtc 60

ac 62

<210> 4

<211> 100

<212> DNA

<213> Artificial

<220>

<223> DRB1*01：01：01在目标区域内的序列

<400> 4

atggtgtgtc tgaagctccc tggaggctcc tgcatgacag cgctgacagt gacactgatg 60

gtgctgagct ccccactggc tttggctggg gacacccgac 100

<210> 5

<211> 15

<212> DNA

<213> Artificial

<220>

<223> DRB1外显子Exome1正向引物的序列

<400> 5

ccctggaggc tcctg 15

<210> 6

<211> 15

<212> DNA

<213> Artificial

<220>

<223> DRB1外显子Exome1反向引物序列

<400> 6

cacccrcaat gtgca 15

<210> 7

<211> 62

<212> DNA

<213> Artificial

<220>

<223> pre-Mix-T引物序列，H代表A、T或C

<400> 7

ctcactcaah hathhhtcac chhathhhag atcggaagag cacacgtctg aactccagtc 60

ac 62

<210> 8

<211> 62

<212> DNA

<213> Artificial

<220>

<223> pre-Mix-S引物序列，H代表A、T或C

<400> 8

ctcactcaah hathhhtcac chhathhhag atcggaagag cacacgtctg aactccagtc 60

ac 62

<210> 9

<211> 94

<212> DNA

<213> Artificial

<220>

<223> pre-Mix-L57引物序列，H代表A、T或C

<400> 9

ctcactcaah hathhhtcac chhathhhag atcggaagag cacacgtctg aactccagtc 60

acgcgactcc atctcgtatg ccgtcttctg cttg 94

<210> 10

<211> 19

<212> DNA

<213> Artificial

<220>

<223> 标签序列，H代表A、T或C

<400> 10

hhathhhtca cchhathhh 19

<210> 11

<211> 16

<212> DNA

<213> Artificial

<220>

<223> 标签序列，H代表A、T或C

<400> 11

hhhtahhtah hhtahh 16

<210> 12

<211> 13

<212> DNA

<213> Artificial

<220>

<223> pre-Mix-ac引物

<400> 12

ctatgtcgat gct 13

Claims

1.一种DNA标签，其特征在于，具有如下所示的序列：

HHATHHHTCACCHHATHHH；

其中，H代表A、T或C。

2.一种DNA接头，其特征在于，含有权利要求1所述的DNA标签。

3.根据权利要求2所述的DNA接头，其特征在于，所述接头具有粘性末端dT。

4.根据权利要求3所述的DNA接头，其特征在于，进一步包括：

锚定序列，所述锚定序列形成在所述粘性末端dT与所述标签序列之间。

5.根据权利要求4所述的DNA接头，其特征在于，所述锚定序列具有如SEQ ID NO：1所示的核苷酸序列。

6.根据权利要求3所述的DNA接头，其特征在于，所述粘性末端dT形成在所述DNA标签的3’末端。

7.根据权利要求5所述的DNA接头，其特征在于，所述接头是依次通过梯度退火处理、dDTP延伸处理以及酒精纯化补nick处理获得的。

8.根据权利要求3所述的DNA接头，其特征在于，进一步包括：

酶切序列，所述酶切序列形成在所述DNA标签的末端，

其中，

所述酶切序列携带适于产生粘性末端dT的限制性内切酶识别位点。

9.根据权利要求8所述的DNA接头，其特征在于，所述酶切序列为HphI特异性识别位点。

10.根据权利要求9所述的DNA接头，其特征在于，所述接头是依次通过梯度退火处理、dDTP延伸处理以及Hphl酶切处理获得的。

11.权利要求1所述的DNA标签或权利要求2-10任一项所述的DNA接头在检测微量变异中的用途。

12.一种构建测序文库的方法，其特征在于，将连接有权利要求2～10任一项所述的DNA接头的核酸分子进行富集处理，以便获得测序文库。

13.根据权利要求12所述的方法，其特征在于，所述核酸分子是通过如下方式获得的：

(1)将待测核酸样本进行PCR扩增，以便获得核酸样本片段；

(2)将所述核酸样本片段进行3’末端加A处理；

(3)将权利要求2～10任一项所述的DNA接头与步骤(2)所获得的核酸样本片段进行连接，以便获得所述连接有权利要求2～10任一项所述的DNA接头的核酸分子。

14.根据权利要求12所述的方法，其特征在于，所述富集处理是通过PCR富集实现的。

15.根据权利要求12所述的方法，其特征在于，所述富集处理之前，进一步包括对连接有权利要求2～10任一项所述的DNA接头的核酸分子进行纯化处理。

16.根据权利要求15所述的方法，其特征在于，所述纯化处理是通过磁珠纯化进行的。

17.一种测序文库，其特征在于，是通过权利要求12～16任一项所述的方法获得的。

18.一种测序方法，其特征在于，包括将权利要求17所述的测序文库进行测序和数据分析处理。

19.根据权利要求18所述的方法，其特征在于，所述测序是通过Hiseq2500平台进行的。