CN108165618B

CN108165618B - 一种包含核苷酸和3’端可逆封闭核苷酸的dna测序方法

Info

Publication number: CN108165618B
Application number: CN201711290873.0A
Authority: CN
Inventors: 肖鹏峰; 陈默然; 王明琛; 龚音; 简柏樑
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2021-06-08
Anticipated expiration: 2037-12-08
Also published as: CN108165618A

Abstract

一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法,单个测序反应由X、Y*两个不同的核苷酸同时进行，其中X为3’端未封闭的核苷酸，Y*为3’端可逆封闭的核苷酸。依据两个不同核苷酸在测序反应中产生相同的检测分子数与合成核苷酸数目N的定量关系，单个测序反应的测序信息包括（N‑1）个具体碱基X和1或0个编码XY。整个测序包括对同一模板进行至少二组测序反应；最后通过比较二组测序信息，确定待测核酸片段的具体碱基序列。也可以进行三组测序，通过比较三组测序反应得到的测序信息，确定出待测核酸片段的具体碱基序列，进一步提高测序准确性。

Description

一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法

技术领域

本发明属于生物技术领域，是一种实现核酸序列高通量测定的方法，具体涉及一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法及其应用。

背景技术

随着人类基因组计划和各种模式生物基因组计划的开展和完成，使人类步入了后基因时代，对当代的生物学研究和医学研究产生了巨大的影响，分子生物学相关学科得到了迅猛的发展。从基因水平上认识生命的差异，疾病发生、发展的规律，以及药物与生命体的相互作用将成为可能。大幅度降低DNA测序的成本将会大大推动生命科学和医学的研究，甚至会带来革命性的变化。目前，全基因组DNA测序技术已经成为国际上一个竞争十分激烈的研究领域。如Roche公司基于乳液PCR产物的高通量并行焦测序技术；Illumina公司的桥式扩增-DNA芯片延伸测序技术；以及Applied Biosestems公司基于乳液PCR产物的杂交-酶连接-酶切割的SOLiD平台、pH敏感场效应管阵列芯片的Ion Torrent平台等高通量测序技术都有成熟的商品化仪器上市。

聚合酶链式反应(PCR)表明合成延伸反应理论上合成测序方法可以测定数千甚至上万个碱基，这无疑代表高通量核酸测序的巨大潜力。然而现有的合成测序要么是简单地每次只加一种核苷酸的方法通过确定每次合成的碱基的个数，或者通过可逆封闭核苷酸单体3端羟基的特殊单体一次只延伸一个核苷酸的方法确定每次合成的碱基种类的来实现的。前者需要四个独立的反应来完成所有模板的一个碱基的测定而增加测序时间，而后者由于在测定下一个碱基前需要将3端羟基的保护基团脱出，而每增加一步反应将导致反应效率的降低，最终导致测序长度的下降。利用检测天然核苷酸单体合成反应实时产生的焦磷酸盐、氢离子而发展的454高通量测序技术(Margulies,et al.Nature,2005.437(7057):376-380)、Ion Torrent测序技术(Rothberg,et al.Nature,475348–352)允许原始DNA的合成，核苷酸被合成后无需进行任何处理步骤。因此，测序过程相当快、准确率高，且序列阅读长度要比标记核苷酸单体的合成测序方法高数倍，目前的水平接近传统的Sanger技术。

根据实时合成测序中，不同核苷酸合成产生相同检测分子的特点，我们曾提出过“一种两核苷酸实时合成解码测序方法”(中国发明专利：ZL 201210128597.9)来实施高通量DNA测序的方法来继续大幅度提高测序长度。然而，这种方法同样存在均聚物片段不能正确测的问题，事实上，即使在单个核苷酸合成的测序反应中，即使采取了算法校正，其单次的测序错误仍然保持在1％左右，其中其绝大部分错误仍然认为来自于均聚物片段(AAAAAAAA、GGGGGGGG、等)。为了克服同聚物片段不能正确测的问题，我们提出了“一种3’端可逆封闭的两核苷酸实时合成测序方法”(中国专利申请号：201610592035.8)，通过采用3’端可逆封闭的两核苷酸来实施测序反应，每次测序反应得到1(或者0)个核苷酸合成的信息，测序反应完成后，活化3’端封闭的羟基、进行下一个测序反应，以此循环实现序列的测定。这种测序方法就能够既保持实时合成测序优点的同时，又克服同聚物或者类准同聚物的测序错误。有关3’端羟基可逆封闭的特殊核苷酸单体包括3’-O-烯丙基修饰的核苷酸(PNAS,2006,103,19635-19640)，3’-O-氰乙基修饰的核苷酸(Chem.Eur.J.2011,17,2903-2915)，3’-O-叠氮甲基修饰的核苷酸((PNAS,2006,105,9145–9150)和3’-O-氨基修饰的核苷酸((PNAS,2010,107,1948–1953)，以及3’端虚拟封闭的核苷酸(Nat Methods.2009,6,593–595)等。但这种测序方法也大幅度减少了测序长度。

当采用包含3’端可逆封闭的核苷酸(用Y*表示)和核苷酸(用X表示)进行一个合成测序反应时，如果这个测序反应没有发生一个核苷酸合成，则得到0个核苷酸合成的测序信息；

当这个测序反应只发生一个核苷酸合成，即可以是一个X发生的合成反应、也可以是一个Y*发生的合成反应，但究竟是哪个核苷酸发生了合成反应是不知道的，因此只能用一个编码(XY)来表示这一个核苷酸的测序信息；

当这个测序反应发生两个核苷酸合成，那么第一个参与合成的核苷酸一定是X(因为如果是Y*先发生合成反应，由于3’端逆封闭而被终止、不能继续发生合成反应)，而第二个核苷酸则既可以是X、也可以是Y*发生的合成反应。因此，这个测序反应的信息为一个明确的碱基X和一个编码(XY)。

依次类推，当这个测序反应发生N个核苷酸合成，那么这个测序反应的信息为(N-1)明确的碱基X和一个编码(XY)。

当采用包含3’端可逆封闭的核苷酸和核苷酸进行DNA测序、且分别使用到四种(A、G、C、T)的3’端可逆封闭的核苷酸方法时，所有类型的聚物片段的碱基将有可能被逐一测定，这样可以消除大幅度减少或者测序错误，同时又能够测定较长的序列长度。

发明内容

解决的技术问题：本发明利用价格便宜的(类)天然核苷酸单体为测序原料，通过一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法，在既确保测序准确性的前提下，又能够获得较长的测序长度，实现待测核酸序列的高通量检测。整个测序包括对同一模板进行至少二组测序反应：每组测序由包含(dX₁TP+dY₁*TP)/(dX₂TP+dY₂*TP)进行的合成循环测序。其中，在同一组循环测序反应中，X₁≠X₂≠Y₁≠Y₂，即四种不同碱基的核苷酸；而在不同组循环测序反应中，两核苷酸的组合方式不同、且按照每种碱基类型的核苷酸在一个循环中只使用一次的方式进行，依据实时产生的检测分子数与合成核苷酸数目N的定量关系，依据实时产生的检测分子数与合成核苷酸数目N的定量关系，单个测序反应的测序信息包括(N-1)个具体碱基X和1或0个编码XY。若干次测序反应后得到由一组按照测序顺序排列的若干具体碱基或者编码构成的测序信息。最后通过比较二组按照测信息，确定待测核酸片段的具体碱基序列。也可以进行三组测序，通过比较三组测序反应得到的测序信息，确定出待测核酸片段的具体碱基序列，并消除其中的测定序错误。

技术方案：一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法，单个测序反应由X、Y*两个不同的核苷酸同时进行，其中X为3’端未封闭的核苷酸，Y*为3’端可逆封闭的核苷酸；依据两个不同核苷酸在测序反应中产生相同的检测分子数与合成核苷酸数目N的定量关系，单个测序反应的测序信息包括N-1个具体碱基X和1或0个编码XY；整个测序包括对同一模板进行至少二组测序反应：每组测序由包含3’端未封闭的dNTP中的两个核苷酸、以及3’端可逆封闭的dN*TP中的两个核苷酸，按照每种核苷酸在一个循环中只使用一次的方式，进行由包含一个3’端未封闭的核苷酸、一个3’端可逆封闭的核苷酸，构成的两个不同核苷酸同时合成测序反应的循环，若干次测序反应后得到由一组按照测序顺序排列的若干具体碱基或者编码构成的测序信息；当该组测序反应完成后，通过变性将测序引物延伸链清除，重新杂交测序引物，进行第二组测序反应，得到第二组测序反应的若干具体碱基或者编码构成的测序信息；最后通过比较二组按照测信息，确定待测核酸片段的具体碱基序列；或再进行三组测序，通过比较三组测序反应得到的测序信息，确定出待测核酸片段的具体碱基序列，并消除其中的测序错误。

上述单个测序反应由dXTP+dY*TP两核苷酸同时进行的合成测序反应，其中X为3’端未封闭的四个核苷酸dATP、dATPαS、dCTP、dGTP、dTTP中的一个，Y*为3’端可逆封闭的核苷酸四个核苷酸dA*TP、dA*TPαS、dC*TP、dG*TP、dT*TP中的一个，且X≠Y。

上述整个测序包括对同一模板进行至少二组测序反应是指：对同一模板进行至少两组(dX₁TP+dY₁*TP)/(dX₂TP+dY₂*TP)的两核苷酸循环合成测序；其中，在同一组循环测序反应中，X₁≠X₂，Y₁≠Y₂，上述X₁、X₂、Y₁、Y₂表示不同缩写的核苷酸；而在不同组循环测序反应中，两核苷酸的组合方式不同、且按照每种碱基类型的核苷酸在一个循环中只使用一次的方式进行组合，所述组合为(dATP+dC*TP)/(dGTP+dT*TP)、(dCTP+dG*TP)/(dATP+dT*TP)、(dATP+dG*TP)、/dCTP+dT*TP)中的一种。

上述核苷酸X是未加任何修饰的dNTPs，或者三磷酸上标记可供检测的分子的dNTPs，所述标记为荧光基团，化学发光底物或者量子点。

上述核苷酸Y*是3’端可逆封闭的dNTPs，或者三磷酸上标记可供检测基团、且3’端可逆封闭dNTPs，所述标记为荧光基团，化学发光底物或者量子点；所述3’端可逆封闭核苷酸Y*的3‘端封闭基团能够被脱出、并活化出核苷酸的3’端羟基。

上述X、Y*在合成测序时产生的检测分子相同，其检测分子是化学发光检测的焦磷酸盐、电化学检测的氢离子、光学检测的荧光分子或者量子点。

上述待测核酸片段是指单分子，或者以单分子为模板扩增的相同序列产物。

在不同待测核酸序列的并行测序中，每个模板需要独立的微反应池。

待测核酸片段的具体碱基信息是通过至少两组测序反应得到的若干具体碱基或者编码构成的测序信息而得到的。

一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法，步骤为：a：全基因组模板制备：将目标基因组用超声破碎成大小为100-1000bp碱基的片段，并在连接酶的作用下将这些片段化核酸序列用一对序列已知的通用连接子进行连接，其中连接子1的序列为：CTGCTG TAC CGT ACA GCC TTG GCC G，连接子2的序列为：CGC TTT CCT CTC TAT GGG CAG TCGGTGA T,并进行预扩增10个循环；然后凝胶电泳切割200-800bp DNA片段，并纯化；将这些200-800bp DNA片段与固定其中一个连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的大肠杆菌基因组片段，并变性得到大肠杆菌基因组测序DNA模板，最后，将这些扩增双链DNA模板的微珠放置到具有反应池的芯片上，每个反应池最多容纳一个微珠；b.测序引物杂交：将5’端固定的模板与能和3’端连接子互补的引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物；c.测序:第一组测序反应：将5’端固定的模板与能和3’端连接子互补的引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物；(1)将100μM的(dATP+dG*TP)、(dTTP+dC*TP)和测序体系分别加入到反应池中进行一个循环的两个合成测序反应，其中dG*TP、dC*TP均为3’-O-氨基修饰的核苷酸，记录每个反应池的测序信息，得到测序反应的明确碱基片段与编码信息，然后用10mM pH＝7～8的EDTA缓冲液洗涤；(2)加入亚硝酸钠和醋酸钠混合溶液，其中亚硝酸钠1M，醋酸钠缓冲溶液pH＝5～6，室温下反应3分钟；然后用10mM pH＝7～8EDTA缓冲液洗涤；(3)按照上述(1)～(2)步骤循环进行实时合成测序，得到一组由明确碱基片段与编码构成的测序信息，然后进行第二组测序反应；第二组测序反应：用8M尿素在65℃下处理5分钟共2次，将第一组测序反应中的测序引物、及其测序引物合成链清除，重新得到单链DNA模板，然后与测序引物进行杂交；(4)将100μM的(dA*TP+dCTP)、(dGTP+dT*TP)和测序体系分别加入到反应池中进行一个循环的两个合成测序反应，其中dA*TP、dT*TP均为3’-O-氨基修饰的核苷酸，记录每个反应池的测序信息，得到测序反应的明确碱基片段与编码信息，然后用10mM pH＝7～8EDTA缓冲液洗涤；(5)加入亚硝酸钠和醋酸钠混合溶液，其中亚硝酸钠1M，醋酸钠缓冲溶液pH＝5～6，室温下反应3分钟；然后用10mM pH＝7～8EDTA缓冲液洗涤；(6)按照上述(4)～(5)步骤循环进行实时合成测序，得到一组由明确碱基片段与编码构成的测序信息；d.待测核酸片段的具体碱基的确定:利用每个模板两组测序中得到的具体碱基及其编码信息，确定待测核酸片段的具体碱基的，按照两组测序中相同位置碱基相同的原则，从两组测序信息中根据对应位置的具体碱基或者编码中找出相同的碱基；e.序列组装:利用所有模板的碱基序列信息，组装成大肠杆菌基因组序列。

有益效果：本发明应用非标记核苷酸A、G、C、T，以及3’端可逆封闭的核苷酸A*、G*、C*、T*对同一模板进行至少两组测序，每组测序由包含四个标记的核苷酸A、G、C、T，按照每种碱基类型核苷酸在一个循环中只使用一次的方式，进行由两个包含3’端可逆封闭的核苷酸和核苷酸同时合成测序反应构成的循环，每进行一个测序反应得到由明确碱基片段和一个编码组成的测序信息，若干次测序反应后得到由一组若干明确碱基片段和一个编码组成构成的核酸序列信息；当该组测序反应完成后，通过变性将测序引物延伸链清除，重新杂交测序引物，进行下一组测序反应，得到第二组测序反应的若干具体碱基或者编码构成的测序信息；最后通过比较二组按照测信息，确定待测核酸片段的具体碱基序列。也可以进行三组测序，进一步消除测序错误，提高测序的准确性。

1.本发明的最大优点是可以通过比较两组(或者三组)测序信息，判断测序信息是否存在错误，提高了测序准确性；同时，同时利用单个模版两组(或者三组)测序信息自身判断正确与否的特征，可以发现低丰都突变序列信息。

2.本发明可以直接采用商品化、非标记的天然核苷酸进行合成测序，降低了测序成本。

3.本发明按照核苷酸分成组的形式进行得到明确碱基片段和编码信息，解码容易。

4.本发明适用面广。可以用于单分子模板、(单分子)多拷贝DNA模板的测序，也可以在现有测序仪器上实现。

5.本发明方法简单，所涉及的方法均能够通过现有成熟技术来实现。

6.本发明方法与现有“一种两核苷酸实时合成解码测序方法”相比，大幅度或者消除了均聚物片段序列测定的错误；与“一种3’端可逆封闭的两核苷酸实时合成测序方法”相比，则可大幅度提高测序长度。

附图说明

以下将结合附图对本发明作进一步说明。

图1是本发明一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法对包含3’-TAATCAGGTCCCATTTTGGCCTA-5’的待测核酸序列，按照(dATP+dG*TP)/(dTTP+dC*TP)，(dA*TP+dCTP)/(dT*TP+dGTP)两组包含3’端可逆封闭的核苷酸和核苷酸的DNA测序信息及其解码结果。其中，第一行为(dATP+dG*TP)/(dTTP+dC*TP)循环测序的所有信息：在按照dATP/dG*TP＝1比例混合加入的两核苷酸实时合成测序中，单个测序反应得到(N-1)个碱基A片段及一个编码(AG＝GA)；或者没有发生核苷酸合成反应的信息(0)。在按照dTTP/dC*TP＝1比例混合加入的两核苷酸实时合成测序中，单个测序反应得到(N-1)个碱基T片段及一个编码(CT＝TC)；或者没有发生核苷酸合成反应的信息(0)。第二行为(dATP+dG*TP)/(dTTP+dC*TP)循环测序中，除去没有发生核苷酸合成反应信息的所有有效测序信息。第五行为(dA*TP+dCTP)/(dT*TP+dGTP)循环测序的所有信息：在按照dA*TP/dCTP＝1比例混合加入的两核苷酸实时合成测序中，单个测序反应得到(N-1)个碱基C片段及一个编码(AC＝CA)；或者没有发生核苷酸合成反应的信息(0)。在按照dT*TP/dGTP＝1比例混合加入的两核苷酸实时合成测序中，单个测序反应得到(N-1)个碱基G片段及一个编码(GT＝TG)；或者没有发生核苷酸合成反应的信息(0)。第四行为(dA*TP+dCTP)/(dT*TP+dGTP)循环测序中，除去没有发生核苷酸合成反应信息的所有有效测序信息。第三行为根据第二、五行测序信息，通过解码确定的待测核酸片段的具体碱基序列。所谓解码，就是将一个编码视为一个碱基，从两组(第二、五行)测序信息相同位置找出相同的碱基，即为解码，依次进行解码、得到所有测序结果的具体碱基序列信息。

图2是本发明一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法对包含3’-TAATCAGGTCCCATTTTGGCCTA-5’的待测核酸序列，利用两组测序信息，判断测序信息是否存在错误的示意。当(dA*TP+dCTP)/(dT*TP+dGTP)加入的循环测序存在一个测序错误(图中用□表示，即由CC错误测定为C)时，由于明确碱基的存在，导致解码无法进行。从而判断测序信息中存在测序错误。很明显，测序信息中这种明确碱基越多，就越能对测序信息进行判断。从而对测序信息进行校正(如利用高通量DNA覆盖度、即同一位置碱基被测定的次数，以多数测定信息为正确信息，少数测定信息判定为错误信息)；如无法进行校正、则将该片段测序信息舍弃。

具体实施方式

以下实施例进一步说明本发明的内容，但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的修改和替换，均属于本发明的范围。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。

实施例1：一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法测定包含3’-TAATCAG GTCTG-5’片段的人工合成序列。

1.模板制备：将5’修饰生物素的人工合成模板用亲合素修饰的磁珠固定，然后将磁珠与液体分离，磁珠固定的人工合成模板用于与测序引物杂交。

2.测序引物杂交：将设计的测序引物与磁珠固定的模板在75℃下保温5分钟，然后自然冷却至室温，然后将磁珠与液体分离，磁珠固定的模板用于DNA测序。

3.将磁珠固定的模板放置于反应器(用半透膜材料将反应器两端堵塞，反应液可以流经半透膜材料、但磁珠不能透过半透膜材料)中进行测序反应：

第一组测序反应：(dA*TPαS+dGTP)/(dC*TP+dTTP)循环加入测序

(1)DNA模版量的确定：选择3’-TAATCAG GTCTGA-5’序列中3’第一个碱基T用于DNA模版的定量。根据序列特征，将包含(dA*TPαS+dGTP)、聚合酶的反应液流经反应器反应1分钟(其中dA*TPαS为3’-O-氨基修饰的核苷酸)，然后收集反应液，用于检测反应生成的焦磷酸，并用下述(2)的将测定信号转化为核苷酸合成数目。由于该反应只发生一个核苷酸的合成反应，其检测焦磷酸的信号强度等于一个核苷酸，并以此为基准将后续由信号强度转化为0、1、2、、3、…、等整数个核苷酸数目，得到其测序信息。

(2)焦磷酸的检测：将包含三磷酸腺苷双磷酸酶、ATP硫酸化酶、5’-磷酰硫酸、荧光素酶、荧光素的反应液与聚合反应生成的焦磷酸混合，通过电荷耦合或者光电倍增管检测其荧光强度，并转化成整数个核苷酸数目，得到其测序信息。

(3)将10mM EDTA缓冲液(pH＝7～8)洗涤液流经反应器，将(1)反应中的(dA*TPαS+dGTP)洗静。

(4)将包含(dC*TP+dTTP)、聚合酶的反应液流经反应器反应1分钟(其中dC*TP为3’-O-氨基修饰的核苷酸)，然后收集反应液，用于检测反应生成的焦磷酸，并用上述(2)的将测定信号转化为整数个核苷酸数目。

(5)将亚硝酸钠和醋酸钠混合溶液(亚硝酸钠1M，pH＝5～6醋酸钠缓冲溶液)流经反应器，室温下反应3分钟；然后用10mM EDTA缓冲液(pH＝7～8)洗涤。

(6)按照(1)～(5)步骤，实施(dA*TPαS+dGTP)、(dC*TP+dTTP)交替进行的测序反应，其14个测序反应的测序信息见表1。

第二组测序反应：(dATPαS+dT*TP)/(dCTP+dG*TP)循环加入测序

(1’)将第一组测序反应完成后的磁珠固定的模板用0.1M NaOH处理5分钟，然后洗涤磁珠3次，然后磁珠固定的模板与测序引物进行杂交，并放置于反应器中进行测序。

(2’)将包含(dATPαS+dT*TP)、聚合酶的反应液流经反应器反应1分钟(其中dT*TP为3’-O-氨基修饰的核苷酸)，然后收集反应液，检测反应生成的焦磷酸，并将测定信号转化为整数个核苷酸数目，得到其测序信息。

(3’)将10mM EDTA缓冲液(pH＝7～8)洗涤液流经反应器，将(1’)反应中的(dATPαS+dC*TP)洗静。

(4’)将包含(dCTP+dG*TP)、聚合酶的反应液流经反应器反应1分钟(其中dG*TP为3’-O-氨基修饰的核苷酸)，然后收集反应液，检测反应生成的焦磷酸，并将测定信号转化为整数个核苷酸数目，得到其测序信息。

(5’)将亚硝酸钠和醋酸钠混合溶液(亚硝酸钠1M，pH＝5～6醋酸钠缓冲溶液)流经反应器，室温下反应3分钟；然后用10mM EDTA缓冲液(pH＝7～8)洗涤。

(6’)按照(1’)～(5’)步骤，实施(dATPαS+dT*TP)、(dCTP+dG*TP)交替进行的测序反应，其12个测序反应的测序信息见表2。

4.将两组测序反应得到的测序信息进行整理，去掉未测定碱基的信息(如表3中第1、2行)。

5.根据两组测序中相同位置碱基相同的原则，由两组测序信息解码得到的碱基片段编码信息(表3中第三行)，从而得到待测3’-TAATCAGGTCTG-5’的互补序列信息。

表1.(dA*TPαS+dGTP)/(dC*TP+dTTP)循环测序每个测序反应测序信息

反应	1	2	3	4	5	6	7	8	9	10	11	12	13	14
															反应单体	A*G	C*T	A*G	C*T	A*G	C*T	A*G	C*T	A*G	C*T	A*G	C*T	A*G	C*T
测序信息	(AG)	T(CT)	(AG)	0	(AG)	T(CT)	0	(CT)	(AG)	0	(AG)	0	(AG)	(CT)

表2.(dATPαS+dT*TP)/(dCTP+dG*TP)循环测序每个测序反应测序信息

表3.两组测序反应得到的有效测序信息

第一组	(AG)T(CT)(AG)(AG)T(CT)(CT)(AG)(AG)(AG)(CT)
		第二组	A(AT)(AT)(AT)(CG)(AT)C(CG)(AT)(CG)(AT)(CG)
解码信息	A T T A G T C C A G A C

实施例2：大肠杆菌基因组的两核苷酸实时合成DNA解码测序

1.全基因组模板制备：将大肠杆菌基因组用超声破碎成大小为100-1000bp碱基的片段，并在连接酶的作用下将这些片段化核酸序列用一对序列已知道的通用连接子(如：连接子1的序列为：CTG CTG TAC CGT ACA GCC TTG GCC G；连接子2的序列为：CGC TTT CCTCTC TAT GGG CAG TCG GTGA T)进行连接，并进行预扩增10个循环；然后凝胶电泳切割200-800bp DNA片段，并纯化。将这些200-800bp DNA片段与固定其中一个连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的大肠杆菌基因组片段，并变性得到大肠杆菌基因组测序DNA模板，最后，将这些扩增双链DNA模板的微珠放置到具有反应池的芯片上，每个反应池最多容纳一个微珠。

2.测序引物杂交：将5’端固定的模板与能和3’端连接子互补的引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物(为了给每个模板定量，需要选择一个发生、且只发生一个核苷酸的合成反应，其信号强度等于一个核苷酸，并以此为基准将后续由信号强度转化为0、1、2、、3、…、等整数个核苷酸数目。如在该实例中连接子中已知碱基为T，每组测序反应中的第一次两核苷酸测序反应中均包含dATP或者dA*TP)。

3.测序

利用天然核苷酸单体合成反应实时产生的焦磷酸盐、或者氢离子可以分别采用454高通量测序平台、或者Ion Torrent高通量测序平台进行序列测定。单体试剂为入dATP、dGTP、dCTP、dTTP，及3’-O-氨基修饰的核苷酸dA*TP、dG*TP、dC*TP、dT*TP。

第一组测序反应：将5’端固定的模板与能和3’端连接子互补的引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物(为了给每个模板定量，需要选择一个发生、且只发生一个核苷酸的合成反应，其信号强度等于一个核苷酸，并以此为基准将后续由信号强度转化为0、1、2、、3、…、等整数个核苷酸数目。如在该实例中连接子中已知碱基为T，每组测序反应中的第一次两核苷酸测序反应中均包含dATP或者dA*TP)。

(1)将100μM的入(dATP+dG*TP)、(dTTP+dC*TP)和测序体系分别加入到反应池中进行一个循环的两个合成测序反应，记录每个反应池的测序信息，得到测序反应的明确碱基片段与编码信息。然后用10mM EDTA缓冲液(pH＝7～8)洗涤；

(2)加入亚硝酸钠和醋酸钠混合溶液(亚硝酸钠1M，pH＝5～6醋酸钠缓冲溶液)，室温下反应5分钟；然后用10mM EDTA缓冲液(pH＝7～8)洗涤；

(3)按照上述(1)～(2)步骤循环进行实时合成测序，得到一组由明确碱基片段与编码)构成的测序信息。然后进行第二组测序反应。

第二组测序反应：用8M尿素在65℃下处理5分钟(2次)，将第一组测序反应中的测序引物、及其测序引物合成链清除，重新得到单链DNA模板，然后与测序引物进行杂交。

(4)将100μM的(dA*TP+dCTP)、(dGTP+dT*TP)和测序体系分别加入到反应池中进行一个循环的两个合成测序反应，记录每个反应池的测序信息，得到测序反应的明确碱基片段与编码信息。然后用10mM EDTA缓冲液(pH＝7～8)洗涤；

(5)加入亚硝酸钠和醋酸钠混合溶液(亚硝酸钠1M，pH＝5～6醋酸钠缓冲溶液，室温下反应3分钟；然后用10mM EDTA缓冲液(pH＝7～8)洗涤；

(6)按照上述(4)～(5)步骤循环进行实时合成测序，得到一组由明确碱基片段与编码构成的测序信息。

按照循环加入的方法进行循环焦测序反应，得到由按照先后顺序排列的单个测序反应的明确碱基片段与编码信息。

4.待测核酸片段的具体碱基的确定

参见图1，利用每个模板两组测序中得到的碱基片段编码信息，从两组测序信息相同位置找出相同的碱基，即为解码，依次进行解码、得到所有测序结果的具体碱基序列信息。同时利用明确碱基对测序信息进行判断(参见图2)，将错误信息进行校正，如无法进行校正、则将该片段测序信息舍弃。

5.序列组装

利用所有模板的碱基序列信息，组装成大肠杆菌基因组序列。

序列表

<110> 东南大学

<120> 一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法

<160> 5

<170> SIPOSequenceListing 1.0

<210> 1

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

ctgctgtacc gtacagcctt ggccg 25

<210> 2

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

cgctttcctc tctatgggca gtcggtgat 29

<210> 3

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

taatcaggtc ccattttggc cta 23

<210> 4

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

taatcaggtc tg 12

<210> 5

<211> 13

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

taatcaggtc tga 13

Claims

1.一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法，其特征在于单个测序反应由X、Y*两个不同的核苷酸同时进行，其中X为3’端未封闭的核苷酸，Y*为3’端可逆封闭的核苷酸；依据两个不同核苷酸在测序反应中产生相同的检测分子数与合成核苷酸数目N的定量关系，单个测序反应的测序信息包括N-1个具体碱基X和1或0个编码XY；整个测序包括对同一模板进行至少二组测序反应：每组测序由包含3’端未封闭的dNTP中的两个核苷酸、以及3’端可逆封闭的dN*TP中的两个核苷酸，按照每种核苷酸在一个循环中只使用一次的方式，进行由包含一个3’端未封闭的核苷酸、一个3’端可逆封闭的核苷酸，构成的两个不同核苷酸同时合成测序反应的循环，若干次测序反应后得到由一组按照测序顺序排列的若干具体碱基或者编码构成的测序信息；当该组测序反应完成后，通过变性将测序引物延伸链清除，重新杂交测序引物，进行第二组测序反应，得到第二组测序反应的若干具体碱基或者编码构成的测序信息；最后通过比较二组测序信息，确定待测核酸片段的具体碱基序列；或再进行三组测序，通过比较三组测序反应得到的测序信息，确定出待测核酸片段的具体碱基序列，并消除其中的测序错误；所述单个测序反应由dXTP+dY*TP两核苷酸同时进行的合成测序反应，其中X为3’端未封闭的四个核苷酸dATP、dCTP、dGTP、dTTP中的一个，Y*为3’端可逆封闭的核苷酸四个核苷酸dA*TP、dC*TP、dG*TP、dT*TP中的一个，且X≠Y；所述整个测序包括对同一模板进行至少二组测序反应是指：对同一模板进行至少两组（dX₁TP+dY₁*TP）/（dX₂TP+dY₂*TP）的两核苷酸循环合成测序；其中，在同一组循环测序反应中，X₁≠X₂，Y₁≠Y₂，上述X₁、X₂、Y₁、Y₂表示不同缩写的核苷酸；而在不同组循环测序反应中，两核苷酸的组合方式不同、且按照每种碱基类型的核苷酸在一个循环中只使用一次的方式进行组合，所述组合为（dATP+dC*TP）/（dGTP+dT*TP）、（dCTP+dG*TP）/（dATP+dT*TP）、（dATP+dG*TP）、/dCTP+dT*TP）中的一种；所述核苷酸X是未加任何修饰的dNTPs，或者三磷酸上标记可供检测的分子的dNTPs，所述标记为荧光基团，化学发光底物或者量子点；所述核苷酸Y*是3’端可逆封闭的dNTPs，或者三磷酸上标记可供检测基团、且3’端可逆封闭dNTPs，所述标记为荧光基团，化学发光底物或者量子点；所述3’端可逆封闭核苷酸Y*的3’端封闭基团能够被脱出、并活化出核苷酸的3’端羟基；所述X、Y*在合成测序时产生的检测分子相同，其检测分子是化学发光检测的焦磷酸盐、电化学检测的氢离子、光学检测的荧光分子或者量子点；所述待测核酸片段是指单分子，或者以单分子为模板扩增的相同序列产物；不同待测核酸序列的并行测序中，每个模板需要独立的微反应池；待测核酸片段的具体碱基信息是通过至少两组测序反应得到的若干具体碱基或者编码构成的测序信息而得到的。

2.根据权利要求1所述的一种包含核苷酸和3’端可逆封闭核苷酸的DNA测序方法，其特征在于步骤为：a：全基因组模板制备：将目标基因组用超声破碎成大小为100-1000bp碱基的片段，并在连接酶的作用下将这些片段化核酸序列用一对序列已知的通用连接子进行连接，其中连接子1的序列为：CTG CTG TAC CGT ACA GCC TTG GCC G，连接子2的序列为：CGCTTT CCT CTC TAT GGG CAG TCG GTGA T,并进行预扩增10个循环；然后凝胶电泳切割200-800bp DNA片段，并纯化；将这些200-800 bp DNA片段与固定其中一个连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的大肠杆菌基因组片段，并变性得到大肠杆菌基因组测序DNA模板，最后，将这些扩增双链DNA模板的微珠放置到具有反应池的芯片上，每个反应池最多容纳一个微珠；b. 测序引物杂交：将5’端固定的模板与能和3’端连接子互补的引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物；c. 测序:第一组测序反应：将5’端固定的模板与能和3’端连接子互补的引物杂交，杂交引物作为所有大肠杆菌基因组DNA模板的测序引物；(1) 将100μM的(dATP+dG*TP)、(dTTP+dC*TP)和测序体系分别加入到反应池中进行一个循环的两个合成测序反应，其中dG*TP、dC*TP均为3’-O-氨基修饰的核苷酸，记录每个反应池的测序信息，得到测序反应的明确碱基片段与编码信息，然后用10mMpH=7～8的EDTA缓冲液洗涤；(2) 加入亚硝酸钠和醋酸钠混合溶液，其中亚硝酸钠1M，醋酸钠缓冲溶液pH=5～6，室温下反应3分钟；然后用10mM pH=7～8 EDTA缓冲液洗涤；(3) 按照上述(1)～(2)步骤循环进行实时合成测序，得到一组由明确碱基片段与编码构成的测序信息，然后进行第二组测序反应；第二组测序反应：用8M尿素在65℃下处理5分钟共2次，将第一组测序反应中的测序引物、及其测序引物合成链清除，重新得到单链DNA模板，然后与测序引物进行杂交；(4) 将100μM的(dA*TP+dCTP)、(dGTP+dT*TP)和测序体系分别加入到反应池中进行一个循环的两个合成测序反应，其中dA*TP、dT*TP均为3’-O-氨基修饰的核苷酸，记录每个反应池的测序信息，得到测序反应的明确碱基片段与编码信息，然后用10mM pH=7～8 EDTA缓冲液洗涤；(5) 加入亚硝酸钠和醋酸钠混合溶液，其中亚硝酸钠1M，醋酸钠缓冲溶液pH=5～6，室温下反应3分钟；然后用10mM pH=7～8 EDTA缓冲液洗涤；(6) 按照上述(4)～(5)步骤循环进行实时合成测序，得到一组由明确碱基片段与编码构成的测序信息；d.待测核酸片段的具体碱基的确定:利用每个模板两组测序中得到的具体碱基及其编码信息，确定待测核酸片段的具体碱基，按照两组测序中相同位置碱基相同的原则，从两组测序信息中根据对应位置的具体碱基或者编码中找出相同的碱基；e. 序列组装:利用所有模板的碱基序列信息，组装成大肠杆菌基因组序列。