CN115948522A

CN115948522A - 一种寡核苷酸序列一致性的检测方法

Info

Publication number: CN115948522A
Application number: CN202211733871.5A
Authority: CN
Inventors: 姜锋; 张介中; 杜洋; 王娟; 李志民
Original assignee: Annoroad Gene Technology Beijing Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd
Priority date: 2021-12-31
Filing date: 2022-12-30
Publication date: 2023-04-11
Also published as: CN116377046A

Abstract

本发明提供了一种寡核苷酸序列一致性的检测方法，所述方法包括：采用带有待检寡核苷酸序列的引物对对已知DNA序列片段进行扩增，得到扩增产物，对扩增产物直接进行测序，根据测序结果确认待检寡核苷酸的序列一致性。通过已知DNA序列进行数据拆分，可以准确、高通量的批量定性分析不同寡核苷酸序列的交叉污染情况和/或合成错误情况。

Description

一种寡核苷酸序列一致性的检测方法

技术领域

本发明属于高通量基因测序领域，涉及一种质检寡核苷酸序列的方法。

背景技术

高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology)，以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。高通量测序技术可以对数百万个DNA分子同时进行测序，一次平行检测几百甚至上千个样本。在高通量测序中，需要采用大量的标签序来标记不同样本文库，以方便在高通量测序结果中区分不同样本序列。

在二代测序中，往往采用标签引物用于测序数据拆分的标签。每一个文库对应唯一的一个标签序列，才能保证拆分获得的测序数据中，文库间不存在交叉污染。但实际使用过程中发现，不同引物间，存在交叉污染(A引物中混入B引物)，导致不同文库数据间出现交叉污染；另外标签引物合成方法本身的局限性，导致标签引物中存在合成错误现象。若标签引物间存在高比例交叉污染，则可能会导致测序结果准确性下降，出现假阳性、假阴性数据结果报出，影响测序结果准确性。若标签引物中存在高比例合成错误，则会导致下机数据中，未拆分数据比例上升，导致测序成本的高比例上升。

对于NGS标签引物而言，现有技术中，引物合成公司多通过严格工艺流程来控制，将不同批次隔离生产的方式来降低引物间交叉污染的可能性。在质控方面多采用nanodrop浓度检测、毛细管电泳或质谱检测核苷酸数量的质量控制手段。但是其质控手段，不能有效的对NGS标签引物序列准确度进行标定，难以满足下游实验的实际质控和测序测序需求。

发明内容

针对现有技术的不足和实际生产实验需求，本发明提供了一种质检寡核苷酸序列的方法，采用一端与待测寡核苷酸互补的已知寡核苷酸序列作为已知DNA序列与待测寡核苷酸发生PCR扩增反应，扩增产物进行二代测序，通过已知DNA序列进行数据拆分，分析不同寡核苷酸序列的交叉污染情况和/或合成错误情况。

具体的，本发明采用如下技术方案：

1.一种寡核苷酸序列一致性的检测方法，其特征在于，所述方法包括：

采用带有待检寡核苷酸序列的引物对，对已知序列DNA片段的进行扩增；

得到扩增产物，对扩增产物直接上机进行测序，获得测序数据；

根据测序数据确认待检寡核苷酸的序列一致性；

其中，所述引物对包括正链引物序列和反链引物序列，所述的两条引物序列，3’端序列分别带有与所述已知序列DNA片段的3’端特异性识别的互补序列；所述的寡核苷酸序列存在于正链引物序列或反链引物序列中任一条序列上，位于所述的5’端序列与3’端序列之间；

其中，一对带有待检寡核苷酸序列的引物对应一条已知序列DNA片段。

2.根据项1所述的方法，其特征在于，所述已知序列DNA片段包含一段序列已知的非天然寡核苷酸片段，其特征在于所述非天然寡核苷酸片段与现有任一已知物种基因组上任意位置序列完全不同源。

3.根据项1中所述的方法，其特征在于，所述的两条引物序列的5’端序列分别带有与测序平台互补配对的接头序列。

4.根据项1所述的方法，其特征在于，所述待检寡核苷酸的序列一致性是指，所述待检测寡核苷酸序列测得序列与其设计时序列一致和/或所述测序数据中仅含有单一序列数据结果。

5.根据项1所述的方法，其特征在于，所述根据测序数据确认待检寡核苷酸的序列一致性是指通过已知序列DNA片段的序列数据拆分原始测序数据，将含有相同已知序列DNA片段的数据拆分到同一数据集，并确认数据集内待检寡核苷酸的序列一致性。

6.根据项1所述的方法，其特征在于，所述的已知序列DNA片段的长度为50～1000bp，优选为150bp～500bp。

7.根据项1所述的方法，其特征在于，所述的寡核苷酸序列的长度为6～20bp，优选为6～12bp。

8.根据项3中所述的方法，其特征在于，所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率和合成错误率；

优选地，所述交叉污率和合成错误率，为通过统计原始测序数据测序读长中标签序列的种类和数量，计算寡核苷酸序列的交叉污染率和/或合成错误率。

9.根据项1所述的方法，其特征在于，所述的已知序列DNA片段的长度为50～1000bp，优选为150bp～500bp。

10.根据项1所述的方法，其特征在于，所述的寡核苷酸序列的长度为6～20bp，优选为6～12bp。

11.一种二代测序标签引物质控方法，其特征在于采用项1中所述方法在对标签引物进行质控；

优选地，对所述标签引物的交叉污率况和合成错误率进行质控。

发明效果

本项目方法再依托二代测序技术应用时，可建立了一套完整的标签引物序列质检实验、信息分析方法，通过检测已知序列上携带的标签序列，检测待检标签引物的序列准确性。使用人工合成的已知序列作为标签引物检验过程的已知DNA序列，与现有物种已知基因组均不相同，检验过程不会被同批次测序的其他文库污染。

与现有技术相比，本发明可检测多批次寡核苷酸一致性，不受外源DNA同源性影响，可用于建立标准划质控流程。

在依托二代测序技术，可以准确的分析出寡核苷酸测序结果，高通量的完成质检过程。通过具体序列分析其交叉污染情况和合成错误情况，同时提供符合实际试验应用的高通量的质检方法。

附图说明

图1为寡核苷酸序列一致性的检测方法原理

具体实施方式

下面将对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在说明书及项当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及项并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及项当中所提及的“包含”或“包括”为开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然而所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附项所界定者为准。

本发明具体包括，

一种寡核苷酸序列一致性的检测方法，其特征在于，所述方法包括：

根据测序数据确认待检寡核苷酸的序列一致性；

其中，所述引物对包括正链引物序列和反链引物序列，

所述的两条引物序列，3’端分别带有与所述已知序列DNA片段的3’端特异性识别的互补序列；

所述的寡核苷酸序列存在于正链引物序列或反链引物序列中任一条序列上，位于所述的5’端序列与3’端序列之间。

在优选中，所述的两条引物序列的5’端分别带有与测序平台互补配对的接头序列；所述的寡核苷酸序列存在于正链引物序列或反链引物序列中任一条序列上，位于所述的5’端带有与测序平台互补配对的接头的序列与3’端带有与所述已知序列DNA片段的3’端特异性识别的互补的序列之间；

其中，寡核苷酸仅存在于正链引物序列或反链引物序列中的一条序列，位于所述的5’端分别带有与测序平台互补配对的接头序列与3’端分别为所述已知DNA序列3’端特异性识别序列之间；在一具体实施例中，所述的正链引物5’端带测序接头序列为P7互补序列，所述反链引物3’端带测序接头序列为P5互补序列。

本文中术语“寡核苷酸”，是指2～10核苷酸残基以磷酸二酯键连接而成的线性多核苷酸片段，但在使用这一术语时，对核苷酸残基的数目并无严格规定，在不少文献中，把含有30甚至更多核苷酸残基的多核苷酸分子也称作寡核苷酸。寡核苷酸可由仪器自动合成，它可作为DNA合成的引物(Primer)、基因探针(Probe)等。

本文中术语“引物”，是指在核苷酸聚合作用起始时，刺激合成的，一种具有特定核苷酸序列的大分子，与反应物以氢键形式连接，这样的分子称为引物。引物通常是人工合成的两段寡核苷酸序列，即引物对，一个引物与靶区域一端的一条DNA模板链互补，另一个引物与靶区域另一端的另一条DNA模板链互补，其功能是作为核苷酸聚合作用的起始点，核酸聚合酶可由其3端开始合成新的核酸链。

本文中术语“扩增”，是指基因扩增，即某一个特定基因的拷贝数选择性地增加而其它基因的拷贝数并未按比例增加的过程。

天然基因扩增，也称为染色体复制，或基因复制，是生物分子进化过程中产生新遗传物质的主要机制。它指的是任何含有基因的DNA片段的复制。

基因扩增也可以通过以下人工方式进行：

聚合酶链反应(PCR)：通过聚合核苷酸，重复复制靶标DNA片段的方法。

连接酶链反应(LCR)：一种扩增核酸获得探针的基因扩增方法。对于两条DNA链中的每一条，连接酶连接两个部分探针成实际的一条。因此，LCR使用两种酶：DNA聚合酶(用于初始模板扩增)和热稳定的DNA连接酶。

转录介导的扩增：一种等温的基因扩增方法，利用两种酶即RNA聚合酶和逆转录酶，快速扩增靶标RNA/DNA。

本发明中对于扩增的方式没有特殊规定，优选的，采用聚合酶链反应，即PCR扩增方式。

本文中术语“测序”，是指基因测序，是一种新型基因检测技术，能够从血液或唾液中分析测定基因全序列，预测罹患多种疾病的可能性，个体的行为特征及行为合理。基因测序技术能锁定个人病变基因，提前预防和治疗。现有的基因测序技术可以根据其技术特征划分为3代，主要有，一代测序也称Sanger测序、毛细管测序；二代测序(NGS)也称高通量测序、大规模平行测序；三代测序也称单分子测序，三代测序包括Heliscope测序技术，SMRT(Single Molecule Real Time,单分子实时测序)离子半导体测序技术(Ion Torrent)等技术。较为成熟的是SMRT测序技术。

本发明对测序的方法没有限制，优选的，采用二代测序(NGS)。

正链即有义链，也称编码链，一般位于双链DNA上端，方向从左到右为5‘—3’，碱基序列和该基因mRNA基本相同；与该链结合的引物为正链引物；其是沿着正链进行延长的。

负链即无义链，也称非编码链，和正链互补，与该链结合的引物为反链引物，其是沿着负链进行不间断延长的，处于DNA双链上游的引物。

本文中术语“5’端”是指DNA在连接时，上一个核苷酸的磷酸基团和下一个核苷酸的羟基形成磷酸二酯键，在核苷酸链的两端多出一个磷酸基团的磷酸端，本文中术语“3’端”是指在核苷酸链的两端多出一个羟基的羟基端。

本文中术语“测序平台”是指基因测序所使用的仪器或设备或软件，包括但不限于Sanger、2.454、Solid、HiSeq2000、Helicos、DNA Nanoball array、The PacBio RS system、PGM、MiSeq、illuminate等，本发明对测序平台的种类没有限制，优选的，采用illuminate公司的二代测序平台.

本文中术语“互补配对”即碱基互补配对，是指核酸分子中各核苷酸残基的碱基按A与T、A与U和G与C的对应关系互相以氢键相连的现象。

进一步，所述已知DNA序列包含一段已知序列的非天然序列，其特征在于所述非天然序列与现有任一已知物种基因组上任意位置序列完全不同源。这里非天然序列可以是任一方法获得的，例如人工合成。

所述的已知DNA序列的长度50～1000bp，优选150bp～500bp，例如可以是150bp、200bp、250bp、300bp、350bp、400bp、450bp或500bp。

所述的寡核苷酸序列的长度为6～20bp，优选为6～12bp，例如可以是6bp、7bp、8bp、9bp、10bp、11bp、或12bp。

所述根据测序结果确认待检寡核苷酸的序列一致性，为根据已知DNA序列片段拆分测序数据。

所述根据测序数据确认待检寡核苷酸的序列一致性是指通过已知序列DNA片段的序列数据拆分原始测序数据，将含有相同已知序列DNA片段的数据拆分到同一数据集，并确认数据集内待检寡核苷酸的序列一致性。

所述待检寡核苷酸的序列一致性是指，所述待检测寡核苷酸序列与预设序列的测序数据一致和/或所述测序数据中仅含有单一序列数据结果。

所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率和合成错误率；优选地，所述交叉污率和合成错误率，为通过统计原始测序数据测序读长中标签序列的种类和数量，计算寡核苷酸序列的交叉污染率和/或合成错误率。

在一个具体的实施方式中，所述非天然已知序列选自SEQ ID NO.5-SEQ ID NO.29中任意一种或几种。

根据项1中所述的方法，其特征在于，

所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率况和合成错误率。

在一具体实施例中，所述的正链引物和反链引物序列为：

正链引物：

5’-CAAGCAGAAGACGGCATACGAGATNNNN…NNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’，其中，

SEQ ID NO.1：CAAGCAGAAGACGGCATACGAGAT，

SEQ ID NO.30：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT；

反链引物：

SEQ ID NO.2

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTC TTCCGATCT-3’

或

正链引物：

SEQ ID NO.3

5’-CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGC TCTTCCGATCT-3’；

反链引物：

5’-AATGATACGGCGACCACCGAGATCTNNNN…NNNNACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’，其中，

SEQ ID NO.4：AATGATACGGCGACCACCGAGATCT，

SEQ ID NO.31：ACACTCTTTCCCTACACGACGCTCTTCCGATCT。

在一具体实施例中，所述的待检测引物对具体为标签引物。

所述的寡核苷酸序列一致性包括寡核苷酸序列的交叉污染率和/或合成错误率。

所述的交叉污染率为单一已知DNA序列对应的拆分数据中，非特异性序列读数占总读数的比例。

这里的交叉污染是指在批量使用或合成过程中含有不同寡核苷酸(标签)的引物发生相互污染(A引物中混入B引物)。其交叉污染率时值在数据拆分后单一数据集中非单一寡核苷酸序列的reads读数与整个数据集中寡核苷酸序列reads读数的比值。

所述的合成错误为单一已知DNA序列对应的差分数据中，无特异性数据产出。

进一步，本发明还可以根据测序结果进一步分析同批次中具体哪些寡核苷酸间出现了交叉污染。

本发明还包括一种二代测序标签引物质控方法，其特征在于采用权利要求1中所述方法在对标签引物进行质控；优选地，对所述标签引物的交叉污率况和合成错误率进行质控。

实施例1

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径购买得到。

25条已知DNA序列如SEQ ID NO.6-30所示，见表1。

表1 25条已知DNA序列

25条待检测的寡核苷酸序列如SEQ ID NO.31-55所示，见表2

表2 25条待检测的寡核苷酸序列

待检序列	1	CATTGCTT
			待检序列	2	TTCGGATT
待检序列	3	TCATCATT
			待检序列	4	CAACAGGT
待检序列	5	TTCAAGGT
			待检序列	6	CCTAACGT
待检序列	7	CACGTAGT
			待检序列	8	TACCTTCT
待检序列	9	CCAGCGCT
			待检序列	10	ACCAGACT
待检序列	11	CTATAACT
			待检序列	12	CTAGTTAT
待检序列	13	TCTTATAT
			待检序列	14	AATAAGAT
待检序列	15	TATGCCAT
			待检序列	16	ATTCTAAT
待检序列	17	TAATGTTG
			待检序列	18	ATTCACTG
待检序列	19	ATCATATG
			待检序列	20	CTTGATGG
待检序列	21	TTAACCGG
			待检序列	22	CTAAGTCG
待检序列	23	TATTCGCG
			待检序列	24	CCTGTGAG
待检序列	25	CAACTAAG

1.质检用已知DNA序列(已知序列)制备

(1)人工合成25条带PCR接头的已知DNA序列(已知序列如SEQ ID NO.5-29所示)

(2)25条已知序列可使用下述接头引物1和2进行扩增，可持续稳定的获得大量可用已知序列；

接头引物1的序列如SEQ ID NO.55所示：

SEQ ID NO.55：GACTGGAGTTCAGACGTGTGCTCTTCCGATCT

接头引物2的序列如SEQ ID NO.56所示：

SEQ ID NO.56：ACACTCTTTCCCTACACGACGCTCTTCCGATCT

(3)人工合成已知序列稀释：使用qubit HS检测人工合成已知DNA序列(已知序列)浓度，使用elution buffer稀释到1ng/ul；

(4)PCR扩增体系见2表3。

表3

序号	总体系50μL×1管	单个使用量(μL)
			1	已知DNA序列	1
2	HiFi Mix	25
			3	接头引物1(10pmol/μL)	4
4	接头引物2(10pmol/μL)	4
			5	ddH<sub>2</sub>O	16

(5)PCR扩增程序94℃2min；(94℃15s，62℃30s，72℃30s)17cycles；72℃10min；4℃forever；

(6)磁珠纯化：扩增完成后使用1.5倍磁珠纯化，50ul elution buffer洗脱

2.待检标签引物制备

(1)引物溶解

将待检的标签引物干粉溶解成工作液。

其中，引物对中正链引物序列如

5’-CAAGCAGAAGACGGCATACGAGATNNNN…NNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’或

5’-CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’；

反链引物序列如

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’

或

5’-AATGATACGGCGACCACCGAGATCTNNNN…NNNNACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’；

所示的序列中NNNN…NNNN部分替换为表2中显示的待检的寡核苷酸序列得到的序列。

溶解方法：将标签引物干粉置于高速离心机上12000rpm离心5min。用灭菌纯化水稀释引物干粉至10pmol/μL，灭菌纯化水的加入体积为引物nmol数的100倍，加入灭菌纯化水后，振荡混匀，置于掌上离心机短暂离心；静置5min后重复一次振荡混匀，置于掌上离心机短暂离心。

注：标签引物工作液有效期为14个月，储存温度为-15℃以下。

3.PCR反应

(1)取出已知DNA序列，置于室温条件下融化，震荡混匀，瞬时离心，置于冰盒上。用荧光定量仪和

dsDNA HS Assay Kit检测解冻后的已知DNA序列模板浓度，样本检测量1μL。取1μL已知DNA序列，用灭菌纯化水稀释已知DNA序列模板至1ng/μL。

(2)取出KAPA HiFi Hotstart Ready Mix、反链引物，置于室温条件下融化，震荡混匀，瞬时离心，置于冰盒上。根据PCR反应体系配制预混液，配制过程需在冰盒上操作，预混液体系见下表4。将配制好的PCR反应预混液振荡混匀，瞬时离心。

表4

试剂名称	单反应量(μL)
		KAPA HiFi Hotstart Ready Mix	25
反链引物(10pmol/μL)	4
		灭菌纯化水	16

(3)分别吸取45μL PCR反应预混液，加到96孔PCR板的23个孔(或PCR管)。

(4)分别吸取4μL待测标签引物加入到装有PCR反应预混液的PCR板(或PCR管)，振荡混匀，瞬时离心。

(5)分别吸取1μL 1)中稀释后的已知DNA序列，按照下表，对应加到4)中的96孔PCR板(或PCR管)。振荡混匀，瞬时离心。

(6)置于PCR基因扩增仪上，PCR反应条件见下表5。

表5

注：PCR仪热盖温度105℃，体积55μL。

4.PCR反应产物纯化

0.9×磁珠纯化，使用50ul elution buffer洗脱

扩增纯化产物

使用荧光定量仪和

dsDNA HS Assay Kit检测扩增纯化产物的浓度，样本检测量1μL。

按照下表，分别计算扩增纯化产物取样量(体积)，按照取样量(体积)，吸取23个扩增纯化产物加入到1个新的1.5ml离心管中，混合为一管文库。

5.文库质量检测

用荧光定量PCR分析仪测定pooling文库浓度。

6.上机测序

将文库进行上机测序，测序类型：SE40+8，8M reads，75cycles。

7.信息分析

对下机后的数据进行拆分分析，查看每个待检标签引物是否“无数据产出”以及交叉污染率。Nextseq550/500平台处理reads数据集，并统计拆分数据集中的对应待测核苷酸序列reads读数与对应单一数据集reads读数的比值。

结果如表6

表6

分析结论：

25组检测的待测寡核苷酸中，

第8组合第15组存在交叉污染，污染率分别为0.34％和0.37％；第22组存在合成错误。

Claims

根据测序数据确认待检寡核苷酸的序列一致性；

2.根据权利要求1所述的方法，其特征在于，所述已知序列DNA片段包含一段序列已知的非天然寡核苷酸片段，其特征在于所述非天然寡核苷酸片段与现有任一已知物种基因组上任意位置序列完全不同源。

3.根据权利要求1中所述的方法，其特征在于，所述的两条引物序列的5’端序列分别带有与测序平台互补配对的接头序列。

4.根据权利要求1所述的方法，其特征在于，所述待检寡核苷酸的序列一致性是指，所述待检测寡核苷酸序列测得序列与其设计时序列一致和/或所述测序数据中仅含有单一序列数据结果。

5.根据权利要求1所述的方法，其特征在于，所述根据测序数据确认待检寡核苷酸的序列一致性是指通过已知序列DNA片段的序列数据拆分原始测序数据，将含有相同已知序列DNA片段的数据拆分到同一数据集，并确认数据集内待检寡核苷酸的序列一致性。

6.根据权利要求1所述的方法，其特征在于，所述的已知序列DNA片段的长度为50ˉ1000bp，优选为150bpˉ500bp。

7.根据权利要求1所述的方法，其特征在于，所述的寡核苷酸序列的长度为6ˉ20bp，优选为6ˉ12bp。

8.根据权利要求3中所述的方法，其特征在于，所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率和合成错误率；

9.根据权利要求1所述的方法，其特征在于，所述的已知序列DNA片段的长度为50ˉ1000bp，优选为150bpˉ500bp。

10.根据权利要求1所述的方法，其特征在于，所述的寡核苷酸序列的长度为6ˉ20bp，优选为6ˉ12bp。

11.一种二代测序标签引物质控方法，其特征在于采用权利要求1中所述方法在对标签引物进行质控；