CN115323043A

CN115323043A - 一种基于核苷酸二聚体为单体的合成测序方法

Info

Publication number: CN115323043A
Application number: CN202211002982.9A
Authority: CN
Inventors: 成楚; 肖鹏锋
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-11

Abstract

本发明公开了一种基于核苷酸二聚体为单体的合成测序方法，合成测序的核苷酸为核苷酸二聚体，在聚合酶的作用下，核苷酸二聚体如果与测序引物杂交的DNA模板中两个碱基完全配对，则发生核苷酸二聚体的聚合反应，测序引物延伸两个碱基；如果与DNA模板中两个碱基不完全配对，则不发生核苷酸二聚体的聚合反应。该方法提高序列测定的长度及准确度，实现待测核酸序列的高通量检测。

Description

一种基于核苷酸二聚体为单体的合成测序方法

技术领域

本发明涉及生物技术领域，特别涉及一种基于核苷酸二聚体为单体实现核酸序列高通量合成测序方法。

背景技术

DNA测序技术是分子生物学研究中最常用的技术，它的出现极大地推动了生物学的发展。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。高通量测序技术是对传统测序技术的一次革命性提高，一次能同时对几百万甚至几千万条DNA序列进行测序。目前主流的二代高通量测序技术主要有四个代表：Illumina公司的Solexa测序合成技术、Roche公司的454合成测序技术、ABI公司IonTorrent合成测序技术以及SOLiD测序技术。然而，目前高通量DNA测序平台、尤其是主流的高通量DNA测序平台仍然存在着较大的错误率。高错误率使得检测单核苷酸多态性(SNP)或低丰度突变极其困难，限制了高通量DNA测序平台的临床应用，例如主要基于SNP的药物基因组学研究和主要基于低丰度突变的早期临床诊断。目前，Sanger测序因其准确度高(99.999％)仍被认为是金标准，高通量DNA测序平台的结果需要在临床实践中通过桑格测序进行验证。

在现有的高通量DNA测序平台中，虽然SOLiD连接测序平台由于测序时间、测序长度等方面的原因使得其实际应用受到限制，但其原始测序错误效率则分别比NextSeq、454GS FLX和Ion Torrent的合成测序平台低13、16、30和倍，是高通量DNA测序平台最高的，而在15×测序深度下准确率可达99.999％，达到桑格测序因其准确度。SOLiD测序技术的测序错误效率低是由于所有位置的碱基都检测两次，这使得该方法具有纠错和发现SNP/突变位点的特点，即碱基检测两次的信息可以提供固有的校对功能，从而减少原始数据中的错误。

针对现有二代高通量DNA合成测序平台测序错误率高的问题，本发明以核苷酸二聚体作为测序单体，通过两轮DNA测序，即所有碱基检测两次的信息提供校对功能，从而减少原始数据中的错误，提高测序的准确性。本发明有助于提高高通量DNA测序的准确性、提升测序长度，拓展高通量DNA测序技术在识别低丰度序列的能力，拓展高通量DNA测序技术在生物科学研究和临床早期诊断的进一步应用。

发明内容

发明目的：本发明目的是提供一种3’端羟基可逆封闭核苷酸二聚体合成测序法，该方法提高序列测定的长度及准确度，实现待测核酸序列的高通量检测。

技术方案：3’端羟基可逆封闭核苷酸二聚体合成测序法，在聚合酶的作用下，核苷酸二聚体如果与测序引物杂交的DNA模板中两个碱基完全配对，则发生核苷酸二聚体的聚合反应，测序引物延伸两个碱基；如果与DNA模板中两个碱基不完全配对，则不发生核苷酸二聚体的聚合反应。

进一步地，所述核苷酸二聚体的基本结构为两个相同或者不同的核苷酸通过磷酸酯键相连接、其中5’端还包括一个三磷酸基团。核苷酸二聚体包括十六种具体形式、即AA、CC、GG、TT、AC、CA、GT、TG、AG、GA、CT、TC、AT、TA、CG、GC。

进一步地，所述核苷酸二聚体3’端羟基是被包括3’-O-烯丙基、3’-O-氰乙基、3’-O-叠氮甲基、3’-O-氨基等基团封闭。这些3’端修饰的核苷酸二聚体能够参与合成测序反应、且最多只能发生一个核苷酸二聚体的合成。3’端封闭基团在合适的反应条件下可以被脱出、并活化出核苷酸的3’端羟基。

进一步地，所述核苷酸二聚体是用染料标记的，标记的位置可以是5’端碱基位置，5’端磷酸末端，或者3’端羟基位置。特别地，当3’端羟基位置时，同时可以用染料替代权利要求3封闭基团的作用。其中，AA、CC、GG、TT均用第一种染料标记，AC、CA、GT、TG均用第二种染料标记，AG、GA、CT、TC均用第三种染料标记，AT、TA、CG、GC均用第四种染料标记。所述的四种染料的发射波长不能相护干扰，且这些标记的染料可以通过化学或者光化学方法切割，切割后不影响DNA序列的生物化学功能。

进一步地，待测DNA模板片段是指单分子，或者以单分子为模板扩增的相同序列产物。待测DNA模板包括可以是一种序列，也可是不同DNA模板的阵列。

进一步地，待测DNA模板片段测序信息的获得是通过比较四种不同染料的荧光强度确定的，即四种染料中荧光强度最大者定为该DNA模板的有效测序信息、并记录该DNA的测序信息以及位置坐标信息。

进一步地，待测DNA模板的具体碱基信息是通过两轮测序来实现的，每轮测序获得具体的染料(或者编码)信息。两轮测序的测序引物相差一个碱基，其中一轮测序的测序引物对应测序模板一个已知的碱基。待测DNA模板具体碱基信息是通过测序模板一个已知的碱基而依次解码二组碱基片段编码信息而得到的。特别地，对于有参考序列的基因组测序的再测序，两组核苷酸实时合成DNA测序得到的编码即可以直接用于基因组参考序列的比对，而不需要对编码进行解码，而实现对基因组序列的再测序。进一步地，待测DNA模板信息的获得是通过比较染料的荧光强度与背景数值来确定的，当包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时，可以确定该DNA模板为有效测序模板、并记录该DNA的荧光强度以及位置坐标信息。步骤为：

A：大肠杆菌基因组全基因组模板制备：将目标基因组用超声破碎成大小为100-1000bp碱基的片段，并在连接酶的作用下将这些片段化核酸序列用一对序列已知道的通用连接子进行连接，其中连接子1的序列为：CTG CTG TAC CGT ACA GCC TTG GCC G，连接子2的序列为：CGC TTT CCT CTC TAT GGG CAG TCG GTGAT；并进行预扩增10个循环；然后凝胶电泳切割200-800bp DNA片段，并纯化；将这些200-800bp DNA片段进行乳液并行PCR反应或者桥式PCR，扩增片段化的大肠杆菌基因组片段、构建大肠杆菌基因组测序DNA模板芯片上。

B：第一轮测序

a.测序引物杂交：将5’端固定的模板与能和3’端连接子互补的第一个引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物(参见图2)；

b.测序

(1)将100uM四色标记的16个3’-O-叠氮甲基修饰的核苷酸二聚体(参见图1和表1)和包括9°DNA聚合酶的测序体系加入到反应池中进行合成测序反应(60℃反应3分钟)，然后用10mM乙二胺四乙酸二钠(EDTA)缓冲液(pH＝7～8)洗涤未参与反应的标记核苷酸二聚体，成像、记录包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录该DNA的荧光强度以及位置坐标信息；

(2)加入100mM三(2-羧乙基)膦(pH 8.0)在55℃下反应3分钟，然后用10mM EDTA缓冲液(pH＝7～8)洗涤；

(3)按照上述(1)～(2)步骤循环进行合成测序反应，得到一组由编码1、2、3、4构成的测序信息。然后进行第二轮测序反应。

C：第二轮测序

a.用8M尿素在65℃下处理5分钟共2次，将第一轮测序反应中的测序引物、及其测序引物合成链清除，重新得到单链DNA模板；

b.测序引物杂交：将5’端固定的模板与能和3’端连接子互补的第二个引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物(参见图3)；

c.测序

(1)将100uM四色标记的16个3’-O--叠氮甲基修饰的核苷酸二聚体和包括9°DNA聚合酶的测序体系加入到反应池中进行合成测序反应(60℃反应3分钟)，然后用10mM乙二胺四乙酸二钠(EDTA)缓冲液(pH＝7～8)洗涤未参与反应的标记核苷酸二聚体，成像、记录包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录该DNA的荧光强度以及位置坐标信息；

D.解码

利用每个模板两轮测序中得到的核苷酸二聚体编码信息，并利用包含测序模板一个已知碱基的核苷酸二聚体编码信息、解码组装出每个模板相应的碱基序列信息(参见图4)；

E.序列组装

利用所有模板的碱基序列信息、并利用纠错及其SNP识别原理(参见图5)，组装成大肠杆菌基因组序列。

有益效果：本发明与现有技术相比，具有如下优势：

1.本发明采用四色标记的十六种方法进行测序反应核苷酸二聚体作为合成测序原料的最大好处是，所有碱基均相差一个碱基的两个测序引物测定两次，当测序信息存在比对序列时(如参考序列信息或者2×以上测序深度)，通过比对，如果测序信息与比对信息是只有一个编码发生变化，则这个测序编码判断为测序错误；而当测序信息连续二个与参考序列编码不一样的，则判断为SNP。因为这个碱基与前一个碱基，后一个碱基组成核苷酸二聚体而被测序两次，使得测序信息具有校对功能，从而校正原始数据中的错误，提高测序信息的准确性。

2.采用四色标记的十六种方法进行测序反应核苷酸二聚体作为合成测序的原料，保证了每种DNA模板对合成测序的要求，错误合成少，减少了原始测序的错误；采用核苷酸二聚体作为合成测序原料，每个测序反应延伸两个碱基，大幅度提高合成测序的长度。

附图说明

图1是本发明方法的一种核苷酸二聚体单体结构示意图；

图2是本发明方法的第一轮测序原理示意图；

图3是本发明方法的第二轮测序信息的获得原理示意图；

图4是本发明方法的的解码原理示意图；

图5是本发明方法的的的纠错及其SNP识别原理。

具体实施方式

本实施例是基于3’端羟基可逆封闭核苷酸二聚体合成测序法测定大肠杆菌全基因组：

1.标记的核苷酸二聚体：分别合成或者市场购买下列3’端羟基可逆封闭核苷酸二聚体：AA、CC、GG、TT、AC、CA、GT、TG、AG、GA、CT、TC、AT、TA、CG、GC(参见图1和表1)。

2.大肠杆菌基因组全基因组模板制备：将目标基因组用超声破碎成大小为100-1000bp碱基的片段，并在连接酶的作用下将这些片段化核酸序列用一对序列已知道的通用连接子进行连接，其中连接子1的序列为：CTG CTG TAC CGT ACA GCC TTG GCC G，连接子2的序列为：CGC TTT CCT CTC TAT GGG CAG TCG GTGAT；并进行预扩增10个循环；然后凝胶电泳切割200-800bp DNA片段，并纯化；将这些200-800bp DNA片段进行乳液并行PCR反应或者桥式PCR，扩增片段化的大肠杆菌基因组片段、构建大肠杆菌基因组测序DNA模板芯片上。

B：第一轮测序

b.测序

(1)将100uM四色标记的16个3’-O-叠氮甲基修饰的核苷酸二聚体(参见图1和表1)和包括9°DNA聚合酶的测序体系加入到反应池中进行合成测序反应(60℃反应3分钟)，然后用10mM乙二胺四乙酸二钠(EDTA)缓冲液(pH＝7～8)洗涤未参与反应的标记核苷酸二聚体，成像、记录包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录最强荧光强度对应的染料编码记录及位置坐标信息；

C：第二轮测序

c.测序

(1)将100uM四色标记的16个3’-O-叠氮甲基修饰的核苷酸二聚体和包括9⁰DNA聚合酶的测序体系加入到反应池中进行合成测序反应(60℃反应3分钟)，然后用10mM的EDTA缓冲液(pH＝7～8)洗涤未参与反应的标记核苷酸二聚体，成像、记录包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录该DNA的荧光强度以及位置坐标信息；

D.解码

E.序列组装

表1核苷酸二聚体的编码

编码	核苷酸二聚体	标记的染料
			1	AA、CC、GG、TT	FITC(fluorescein isothiocyanate)：异硫氰酸荧光素
2	AC、CA、GT、TG	Cy3(Cyanine 3)：花青素3
			3	AG、GA、CT、TC	Texas Red：德克萨斯红
4	AT、TA、CG、GC	Cy5(Cyanine 5)：花青素5

表2基于核苷酸二聚体为单体的合成测序方法对待测3’-(T)TAATCAGGTCTG-5’序列(其中括号中(T)为已知序列)获得测序编码信息

关于附图的解释说明：

图1是一种基于核苷酸二聚体为单体的合成测序方法的一种核苷酸二聚体单体结构。其中3端羟基用叠氮基团可逆封闭，碱基2上连接可切割的荧光基团。

图2是一种基于核苷酸二聚体为单体的合成测序方法第一轮测序原理。其中1为DNA模板，1-1、1-2为DNA模板两端连接的已知公用序列片段，2为基片，3为测序引物。测序引物杂交固定在基片3上的DNA模板1构成测序芯片，加入16种标记四色染料的核苷酸二聚体，在DNA聚合酶及其反应体系下发生聚合测序反应(1)，洗涤未参与反应的标记核苷酸二聚体，成像、并记录四种染料的荧光强度，当四种染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录最强荧光强度对应的染料编码以及位置坐标信息。然后，加入切割试剂发生切割反应(2)，切割标记染料以及活化出3’端羟基、以便发生下一个聚合测序反应(1)。循环进行(1)、(2)，直到第一轮测序完成，获得每次测序反应DNA模板的测序信息。最后用8M尿素在65℃下处理5分钟(3)共2次，将第一轮测序反应中的测序引物、及其测序引物合成链清除，重新得到单链DNA模板，以便进行第二轮测序。

图3是一种基于核苷酸二聚体为单体的合成测序方法第二轮测序信息的获得原理。其中1为DNA模板，1-1、1-2为DNA模板两端连接的已知公用序列片段，2为基片，3为测序引物。测序引物杂交固定在基片3上的DNA模板1构成测序芯片，加入16种标记四色染料的核苷酸二聚体，在DNA聚合酶及其反应体系下发生聚合测序反应(1)，洗涤未参与反应的标记核苷酸二聚体，成像、并记录四种染料的荧光强度，当四种染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录最强荧光强度对应的染料编码以及位置坐标信息。然后，加入切割试剂发生切割反应(2)，切割标记染料以及活化出3’端羟基、以便发生下一个聚合测序反应(1)。循环进行(1)、(2)，直到第二轮测序完成，获得每次测序反应DNA模板的测序信息。

图4是一种基于核苷酸二聚体为单体的合成测序方法解码原理。基于核苷酸二聚体为单体的合成测序方法对待测3’-(T)TAATCAGGTCTG-5‘序列(其中括号中(T)为已知序列)获得测序编码信息。其中，左图第一行为第一轮测序获得的染料编码信息，第二行为第一轮测序编码信息解码的核苷酸二聚体碱基信息，第三行为第一轮测序编码在已知第一个碱基信息的前提下，依次推知核苷酸二聚体碱基信息的顺序；第四行为第二轮测序编码信息解码的核苷酸二聚体碱基信息；第五行为第二轮测序获得的染料编码信息；第六行为第二轮测序编码在推知第一轮碱基信息的前提下，依次推知核苷酸二聚体碱基信息的顺序。右图为两轮测序合并的信息，第一行为待测DNA模板序列；第二行为两轮测序获得的染料编码信息，其中，单数位为第一轮测序信息，双数位为第二轮测序信息；第三行为已知第一个碱基信息的前提下，一句两轮测序获得的染料编码信息解码出的碱基信息。

图5是一种基于核苷酸二聚体为单体的合成测序方法纠错及其SNP识别原理。参考信息是指在数据库中已知的信息，或者同一位置碱基在不同DNA模板同时测到的信息左图为测序信息与参考信息比对结果发现一个编码不同(对比结果三角形显示处)，这个测序不同的编码判断为测序错误(在2×测序深度下、可以判断是否存在测序错误)、并将这个测序错误编码②校正为正确编码③；右图测序信息与参考信息比对结果发现连续两个编码不同(对比结果三角形显示处)，这个测序信息连续两个不同的编码判断为SNP(在3×以上测序深度下，可以依据概率纠正测序错误)，并确定这个SNP由参考序列碱基G变成了测序序列的碱基C。

Claims

1.一种基于核苷酸二聚体为单体的合成测序方法，其特征在于：合成测序的核苷酸为核苷酸二聚体，在聚合酶的作用下，核苷酸二聚体如果与测序引物杂交的DNA模板中两个碱基完全配对，则发生核苷酸二聚体的聚合反应，测序引物延伸两个碱基；如果与DNA模板中两个碱基不完全配对，则不发生核苷酸二聚体的聚合反应。

2.根据权利要求1所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：所述核苷酸二聚体的基本结构为两个相同或者不同的核苷酸通过磷酸酯键相连接，其5’端还包括一个三磷酸基团，核苷酸二聚体包括十六种具体形式即：AA、CC、GG、TT、AC、CA、GT、TG、AG、GA、CT、TC、AT、TA、CG、GC。

3.根据权利要求1所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：所述核苷酸二聚体3’端羟基被包括3’-O-烯丙基、3’-O-氰乙基、3’-O-叠氮甲基、3’-O-氨基基团封闭，这些3’端修饰的核苷酸二聚体能够参与合成测序反应，且最多只能发生一个核苷酸二聚体的合成，3’端封闭基团在合适的反应条件下可以被脱出、并活化出核苷酸的3’端羟基。

4.根据权利要求1或3所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：所述核苷酸二聚体是用染料标记的，标记的位置可以是5’端碱基位置、5’端磷酸末端、或者3’端羟基位置，特别地，当3’端羟基位置时，可以用染料替代封闭基团的作用。

5.根据权利要求1或4所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：AA、CC、GG、TT均用第一种染料标记，AC、CA、GT、TG均用第二种染料标记，AG、GA、CT、TC均用第三种染料标记，AT、TA、CG、GC均用第四种染料标记，四种染料的发射波长不能相互干扰，且这些标记的染料可以通过化学或者光化学方法切割，切割后不影响DNA序列的生物化学功能。

6.根据权利要求1所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：待测DNA模板片段是指单分子，或者以单分子为模板扩增的相同序列产物，待测DNA模板包括可以是一种序列，也可是不同DNA模板的阵列。

7.根据权利要求1所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：待测DNA模板信息的获得是通过比较染料的荧光强度与背景数值来确定的，当包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时，可以确定该DNA模板为有效测序模板、并记录该DNA的荧光强度以及位置坐标信息。

8.根据权利要求1所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：待测DNA模板的具体碱基信息是通过两轮测序来实现的，每轮测序获得具体的染料或者编码信息，两轮测序的测序引物相差一个碱基，其中一轮测序的测序引物对应测序模板一个已知的碱基，待测DNA模板具体碱基信息是通过测序模板一个已知的碱基而依次解码二组碱基片段编码信息而得到的，对于有参考序列的基因组测序的再测序，两组核苷酸实时合成DNA测序得到的编码即可以直接用于基因组参考序列的比对，而不需要对编码进行解码，而实现对基因组序列的再测序。

9.根据权利要求1-8任一项所述的基于核苷酸二聚体为单体的合成测序方法，其特征在于：包括如下步骤：

A：大肠杆菌基因组全基因组模板制备：将目标基因组用超声破碎成大小为100-1000bp碱基的片段，并在连接酶的作用下将这些片段化核酸序列用一对序列已知道的通用连接子进行连接，其中连接子1的序列为：CTG CTG TAC CGT ACA GCC TTG GCC G，连接子2的序列为：CGC TTT CCT CTC TAT GGG CAG TCG GTGAT；并进行预扩增；然后凝胶电泳切割200-800bp DNA片段，并纯化；将这些200-800bp DNA片段进行乳液并行PCR反应或者桥式PCR，扩增片段化的大肠杆菌基因组片段、构建大肠杆菌基因组测序DNA模板芯片上；

B：第一轮测序

a、测序引物杂交：将5’端固定的模板与能和3’端连接子互补的第一个引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物；

b、测序

(1)将四色标记的16个3’-O--叠氮甲基修饰的核苷酸二聚体和包括9°DNA聚合酶的测序体系加入到反应池中进行合成测序反应，然后用乙二胺四乙酸二钠缓冲液洗涤未参与反应的标记核苷酸二聚体，成像、记录包含测序模板一个已知碱基中四种标记染料中最强的荧光强度明显高于背景数值时、确定该DNA模板为有效测序模板、并记录该DNA的荧光强度以及位置坐标信息；

(2)加入三(2-羧乙基)膦反应，然后用M EDTA缓冲液洗涤；

(3)按照上述(1)～(2)步骤循环进行合成测序反应，得到一组由编码1、2、3、4构成的测序信息，然后进行第二轮测序反应；

C：第二轮测序

a、用尿素处理，将第一轮测序反应中的测序引物、及其测序引物合成链清除，重新得到单链DNA模板；

b、测序引物杂交：将5’端固定的模板与能和3’端连接子互补的第二个引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物；

c、测序

(2)加入三(2-羧乙基)膦，然后用EDTA缓冲液洗涤；

D、解码

利用每个模板两轮测序中得到的核苷酸二聚体编码信息，并利用包含测序模板一个已知碱基的核苷酸二聚体编码信息、解码组装出每个模板相应的碱基序列信息；

E、序列组装

利用所有模板的碱基序列信息、并利用纠错及其SNP识别原理，组装成大肠杆菌基因组序列。