CN101240341A

CN101240341A - 利用硫代寡核苷酸探针的dna测序方法

Info

Publication number: CN101240341A
Application number: CNA2008100197828A
Authority: CN
Inventors: 陆祖宏; 罗俊峰; 肖鹏峰; 孙蓓丽; 贾超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2008-03-14
Filing date: 2008-03-14
Publication date: 2008-08-13
Anticipated expiration: 2028-03-14
Also published as: CN101240341B

Abstract

利用硫代寡核苷酸探针的DNA测序方法进一步降低DNA的测序成本，提高每一个序列的测序长度，并缩短每个碱基的阅读时间。通过一种含硫代核苷的测序引物，采用杂交－酶连接－酶切割的高通量测序技术，为DNA序列分析提供一种新方法，建立快速、准确、和低成本的高通量DNA序列测定技术。本发明的最大优点是实现了DNA序列测定的标记杂交序列的简易合成以及方便将标记物切除，由于杂交的高通量引物是通过非常成熟的固相DNA方法合成并纯化得到，因此该方法没有错误延伸的累积效应，能够维持DNA模板和测序引物的量，序列的测定正确可靠。

Description

利用硫代寡核苷酸探针的DNA测序方法

技术领域

本发明属于生物技术中DNA测序领域，特别涉及一种利用硫代寡核苷酸探针的DNA测序方法。

背景技术

现有技术：人类基因组计划和各种模式生物基因组计划的开展和完成，对当代的生物学研究和医学研究产生了巨大的影响。人们能够从基因水平上认识生命现象的差异，疾病发生、发展的规律，以及药物与生命体的相互作用。就基因序列分析而言，后基因组时代的重点已由单个物种的全基因组序列测定转移到了对某一物种在基因组DNA序列层次上个体遗传差异及物种间遗传差异的比较。在基础研究方面，研究疾病基因的遗传规律，克隆致病基因；在应用方面，直接寻找疾病的易感基因突变位点，通过对于某一特定疾病的大量基因组样本中突变基因型的大规模鉴定和检测，可以获得与该疾病相关基因型的信息。目前，在寻找新的功能基因和疾病相关的突变位点方面，人们仍然主要使用常规的Sanger DNA测序法。这一方法存在通量低和成本高的问题。第一个人类基因组序列测定的费用大约为10亿美元，但是尽管目前这一费用已经降低到大约2千万美元以下，功能基因组的研究进展仍然受限于DNA测序技术。为此，美国Venter基金会在2003年提出了1000美元人类全基因组测序的研究目标。2004年初，美国国立卫生院投入巨资支持DNA测序新技术的研究。他们的目标是在近年内发展10万美元的人类全基因组DNA测序技术，并最终减低为1千美元。美国国立卫生研究院人类基因组研究中心主任Collins教授指出：大幅度降低DNA测序的成本将会大大推动生命科学和医学的研究，甚至会带来革命性的变化。目前国际上要完成一个哺乳动物全基因组的测序仍需要上千万美元。以当前最为先进的ABI Prism3730 DNA测序仪为例，完成人类基因组中30亿碱基的测序，需要150台ABI Prism3730 DNA测序仪运转一年，其测序成本达到二千四百万美元。现在以Sanger DNA测序法为基础的，在发展高密度的毛细管阵列，以提高测序的并行性，进而提高DNA的测序速度这一研究思路在提高DNA测序速度和降低成本方面的改进空间也十分有限。目前，国际学术界已经清醒地认识到发展快速低成本的人类个体基因组再测序技术的重要性。美国国立卫生院NIH的近期目标是计划在五年内将DNA测序的成本下降100倍以上，最终在10年内使得测序成本降至1000美元。如何实现个体全基因组DNA序列的快速有效低成本测定，已是当今国际基因组科学及其应用所面临的重要挑战之一，也是我国生命科学和医学发展面临的又一次大的机遇。国家科技部在2006年启动的“十一五”863“生物芯片”重点项目中对低成本快速人类全基因组的测序技术和相关仪器的研究进行了重点支持。该项目提出了一万人民币全基因组测序的目标。在未来的5年中发展出相应的DNA测序模版芯片、试剂和相关的DNA测序仪，并争取实现产业化。新一代DNA测序技术可以分成三大类。即：杂交测序技术(sequenceing by hybridization，SBH)、合成测序(sequenceing bysynthesis，SBS)技术，和DNA单分子测序技术。下面我们将对目前迅速发展的DNA测序创新技术进行讨论。杂交测序的优点是检测速度快，采用标准化的高密度寡核苷酸芯片能够大幅度降低检测的成本。但是，由于序列相似的模板DNA和探针DNA在形成双螺旋结构方面的稳定性差别很小，容易造成信号的假阳性。另外杂交测序方法可能无法阅读人类基因组中大量各种重复序列。合成测序方法通过在大量固定化的DNA测序模板上杂交结合通用的DNA引物，控制四种碱基在DNA引物上的延伸，通过检测延伸反应过程或延伸碱基，实现高通量并行的DNA序列信息的检测。目前，推出商业化的合成测序仪器的公司有罗氏(Roche)公司旗下的454 Life Sciences Corp和英国剑桥大学派生的Solexa公司。454公司的测序仪器中使用了焦测序(pyrosequencing)技术，利用合成时释放的焦磷酸(PPi)分子的有无和多少来进行对所测模板序列的判读。2007年5月底，454 Life Sciences和贝勒医学院人类基因组测序中心合作，使用该公司的Genome Sequencer FLX测序仪，只用了两个月的时间，就完成对DNA双螺旋的发现者之一沃森的个体全基因组序列测定，其测序成本不到100万美元。Solexa公司采用了与454 Life Sciences不同的合成测序原理。Solexa公司采用四种结构新颖的可逆终止核苷酸单体(reversibleterminator)和拥有一系列天然酶分子所不具备性质的新型酶分子，以及标准的微阵列光学检测系统来同时检测阵列中那些被固定DNA链上的引物延伸过程。Solexa的测序技术借助于产生极高密度的单分子阵列，将全基因组分析的大规模并行处理(massively parallel processing)和“一管”样品制备(one-tube samplepreparation)相结合，在降低基因组测序的成本和提高测序的效率方面取得了重要性的突破。Solexa用这种方法对人类DNA中长度为162kb的片段进行了测序，并与人类基因组计划得到的标准参考序列进行比较，其测序结果的准确率超过99.99％，并且发现了已知在这个片段中存在的全部162个常见的SNP突变位点。另外，应用生物系统公司(ABI)发展的SOLiD(Supported Oligo Ligation Detection)测序技术发展也很迅速，SOLiD的测序策略与454公司和Solexa公司都有所不同，SOLiD测序技术使用了DNA连接酶进行测序，因此有时也被称作为连接测序(sequenceing by ligation)。2007年6月，ABI向市场推出了使用该方法的SOLiD测序系统，该系统每运行一次产生大约1Gb的碱基序列信息。目前该系统已经成功的用于对C.elegans和E.coli的再测序。在对E.coli的再测序结果中，该方法发现了一个用Sanger测序法拼接时遗漏的大重复序列。尽管合成测序方法已经取得了重要的进展，但合成测序方法的阅读长度相对较短并且测序DNA模板阵列的制备依赖于PCR扩增，这不仅在测序模板的扩增拷贝过程中容易引入复制错误，而且PCR扩增存在明显的偏向性，这对于有效地获得全基因组测序模板阵列形成了重要的技术瓶颈。

发明内容

技术问题：本发明的目的是提供一种利用硫代寡核苷酸探针的DNA测序方法，该方法进一步降低DNA的测序成本，提高每一个序列的测序长度，并缩短每个碱基的阅读时间。通过一种含硫代核苷的测序引物，采用杂交-酶连接-酶切割的高通量测序技术，为DNA序列分析提供一种新方法，建立快速、准确、和低成本的高通量DNA序列测定技术。

技术方案：本发明利用硫代寡核苷酸探针的DNA测序方法的测序步骤为：

硫代寡核苷酸探针的构建：硫代寡核苷酸探针序列的5’-3’端依次为锚定区、识别区和剪切区，锚定区含有n个核苷酸或碱基类似物，其中0＜n≤10；识别区含有m个核苷酸或碱基类似物，其中0＜m≤10，并且识别区3’端第一个核苷酸或碱基类似物与5’方向邻接着的核苷酸或碱基类似物之间为硫代修饰的磷酸键；剪切区含有k个核苷酸或碱基类似物，其中0＜k≤10；剪切区序列上设有与识别区对应的标记物；

测序循环：

a).利用测序定位引物与待测单链DNA模板进行杂交，清洗去除多余的测序定位引物；

b)将硫代寡核苷酸探针与步骤a所得待测单链DNA模板进行杂交，在连接酶的作用下，与待测单链DNA模板完全匹配的硫代寡核苷酸探针和紧邻着测序定位引物完成连接反应，然后清除未连接以及游离的硫代寡核苷酸探针；

c).读取标记物的信号种类和强度，确定此次与识别区互补的待测单链DNA模板的信息；

d).利用受阻于硫代修饰磷酸键的外切酶去除步骤c所得测序定位引物相连的硫代寡核苷酸探针上的剪切区；

e).重复上述b-d步骤2～10次，完成该轮测序。

f).对步骤e所得产物进行变性，得到初始的待测单链DNA模板，用3’端比上一轮少一个核苷酸的测序定位引物重复a-e步骤；

g).重复f步骤n-1次。

锚定区的5’端为磷酸基团修饰；识别区至少一个核苷酸或碱基类似物的位置和种类明确；锚定区与识别区内的核苷酸或碱基类似物序列之间为正常的磷酸键或硫代修饰的磷酸键。剪切区的核苷酸或碱基类似物序列之间为磷酸键。标记物是荧光、量子点、放射性同位素，标记物的位置位于剪切区内的核苷酸或碱基类似物上。核苷酸为脱氧核糖核苷酸、核糖核苷酸、锁核酸；碱基类似物是脱氧肌苷、脱氧核糖、核糖、次黄嘌呤、甲基腺嘌呤或甲基鸟嘌呤。

有益效果：本发明与现有技术相比，具有如下优点：

1.本发明的最大优点是实现了DNA序列测定的标记杂交序列的简易合成以及方便将标记物切除，由于杂交的高通量引物是通过非常成熟的固相DNA方法合成并纯化得到，因此该方法没有错误延伸的累积效应，能够维持DNA模板和测序引物的量，序列的测定正确可靠。

2.本发明的高通量测序引物由于确定的碱基可以置于任何已知的位置，因此可以通过改变测序定位引物的方法先将某些特定位置碱基序列确定的方法来增加序列测定的阅读长度。此外，该发明均按照常规的分子生物学方法进行，容易在现有的技术上实施。

附图说明

图1是本发明中一组四个含硫代寡核苷酸探针示意图。图中①表示锚定区，②表示标识区，③表示剪切区，s表示硫代修饰的核苷，^*1、^*2、^*3、^*4分别表示4种不同标记物。N表示随机的核苷酸，如脱氧核糖核苷酸、核糖核苷酸、锁核酸(locked nucleic acid，LNA)以及脱氧肌苷、脱氧核糖、核糖、次黄嘌呤、甲基腺嘌呤、甲基鸟嘌呤等能正确与核苷酸形成氢键的其它核苷酸或者碱基类似物基团。

图2是本发明中一组十六个含硫代寡核苷酸探针示意图；图中①表示锚定区，②表示标识区，③表示剪切区，s表示硫代修饰的核苷，^*1、^*2、^*3、^*4分别表示4种不同标记物。N表示随机的核苷酸，如脱氧核糖核苷酸、核糖核苷酸、锁核酸(locked nucleic acid，LNA)以及脱氧肌苷、脱氧核糖、核糖、次黄嘌呤、甲基腺嘌呤、甲基鸟嘌呤等能正确与核苷酸形成氢键的其它核苷酸或者碱基类似物基团。

图3是本发明一种硫代寡核苷酸探针及其连接序列测定方法示意图。图中有：待测单链DNA模板1，测序定位引物2，硫代核苷测序引物3。待测单链DNA模板通过DNA扩增后得到，并与测序定位引物(2)完成杂交，加入标记的一组硫代寡核苷酸探针(3)完成杂交(a)，在连接酶的作用下，紧邻测序定位引物(2)的完全配对的硫代寡核苷酸探针(3-1)与测序定位引物(2)完成连接反应(b)，通过变性、清除未连接的硫代核苷测序引物(3-3)，并扫描记录DNA模板本次杂交-连接列后出现的标记信号，实现对待测单链DNA模板的一个碱基T的测定(c)。重复上述过程，进行下一个碱基的测定(d)。

具体实施方式

实施例1：利用硫代寡核苷酸探针的DNA测序方法

利用硫代寡核苷酸探针的DNA测序方法，测序步骤为：硫代寡核苷酸探针的构建：硫代寡核苷酸探针序列的5’-3’端依次为锚定区、识别区和剪切区，锚定区含有n个核苷酸或碱基类似物，其中0＜n≤10；识别区含有m个核苷酸或碱基类似物，其中0＜m≤10，并且识别区3’端第一个核苷酸或碱基类似物与5’方向邻接着的核苷酸或碱基类似物之间为硫代修饰的磷酸键；剪切区含有k个核苷酸或碱基类似物，其中0＜k≤10；剪切区序列上设有与识别区对应的标记物；测序循环：a).利用测序定位引物与待测单链DNA模板进行杂交，清洗去除多余的测序定位引物；b).将硫代寡核苷酸探针与步骤a所得待测单链DNA模板进行杂交，在连接酶的作用下，与待测单链DNA模板完全匹配的硫代寡核苷酸探针和紧邻着测序定位引物完成连接反应，然后清除未连接以及游离的硫代寡核苷酸探针；c).读取标记物的信号种类和强度，确定此次与识别区互补的待测单链DNA模板的信息；d).利用受阻于硫代修饰磷酸键的外切酶去除步骤c所得测序定位引物相连的硫代寡核苷酸探针上的剪切区；e).重复上述b-d步骤2～10次，完成该轮测序。f).对步骤e所得产物进行变性，得到初始的待测单链DNA模板，用3’端比上一轮少一个核苷酸的测序定位引物重复a-e步骤；g).重复f步骤n-1次。锚定区的5’端为磷酸基团修饰；识别区至少一个核苷酸或碱基类似物的位置和种类明确；锚定区与识别区内的核苷酸或碱基类似物序列之间为正常的磷酸键或硫代修饰的磷酸键。剪切区的核苷酸或碱基类似物序列之间为磷酸键。标记物是荧光、量子点、放射性同位素，标记物的位置位于剪切区内的核苷酸或碱基类似物上。核苷酸为脱氧核糖核苷酸、核糖核苷酸、锁核酸；碱基类似物是脱氧肌苷、脱氧核糖、核糖、次黄嘌呤、甲基腺嘌呤或甲基鸟嘌呤。

实施例2：单碱基杂交-连接测序法测定人全基因组

将人基因组用酶切割(或者超声破碎)成大小为50-200碱基的片断，利用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修补片段末端并形成5’端带有磷酸基团的A粘性末端，在T4连接酶的作用下将这些片段化核酸序列用一对通用连接子(5′-p-CAG TCA GTC AGT CAG TCA G T-3′和3′-T GTC AGT CAGTCA GTC AGT C-p-5′，其中p表示磷酸基团)进行连接，其中的通用连接子的一条寡核苷酸序列与扩增引物的序列完全互补，而通用连接子另一个寡核酸序列与测序定位引物的相同。

将这些连接子连接的片段化核酸序列与固定连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的人全基因组；并将这些微珠固定到平板基片上，通过酶切或者变性得到人全基因组测序模板。

参照附图1和图3，将测序定位引物与人全基因组测序模板杂交，然后将标记四种不同标记物的5′-NNNN-s-AIIIII^*1-3′、5′-NNNN-s-GIIIII^*2-3′、5′-NNNN-s-TIIIII^*3-3′、5′-NNNN-s-CIIIII^*4-3′与人全基因组测序模板完成杂交-连接，其中，N为随机的四种脱氧核糖核苷酸，I为次黄嘌呤，s为硫代修饰，标记物1～4分别为cy3、cy5、6-FAM和ROX，并在清除未连接的标记硫代寡核苷酸探针后，进行扫描分析，确定哪些位置的模板进行了哪些碱基的连接反应，从而确定基因组序列上第5个位置上碱基的序列。用外切酶III将硫代寡核苷酸探针中的剪切区切除。重复上述过程，每重复一次便增加一个碱基的序列测定，直到因每个碱基的延伸效率导致不能准确碱基序列为止，这样便可以知道位置5、10、15、20、…、等位置的碱基序列；停止该轮测序，将延伸上述测定若干个碱基序列的测序定位引物变性掉，并重新杂交3’端比上一轮少一个碱基的测序定位引物，基于同样的道理可以测定4、9、14、19、…、等位置的碱基序列；将获得的碱基种类和位置信息输入序列拼接软件CodonCode Aligner 2.0.1及以上版本，得到明确的单链DNA模板信息。

实施例3：双碱基杂交-连接测序法测定水稻全基因组

将水稻基因组用酶切割(或者超声破碎)成大小为50-200碱基的片断，利用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修补片段末端并形成5’端带有磷酸基团的A粘性末端，在T4连接酶的作用下将这些片段化核酸序列用一对通用连接子(5′-p-CAG TCA GTC AGT CAG TCA G T-3′和3′-T GTC AGT CAGTCA GTC AGT C-p-5′，其中p表示磷酸基团)进行连接，其中的通用连接子的一条寡核苷酸序列与扩增引物的序列完全互补，而通用连接子另一个寡核酸序列与测序定位引物的相同。

将这些连接子连接的片段化核酸序列与固定连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的水稻全基因组；并将这些微珠固定到平板基片上，通过酶切或者变性得到水稻全基因组测序模板。

参照附图2和图3，将测序定位引物与水稻全基因组测序模板杂交，然后将标记四种不同标记物的5′-NNNNA-s-AIIIII^*1-3′、5′-NNNNG-s-AIIIII^*2-3′、5′-NNNNT-s-AIIIII^*3-3′、5′-NNNNC-s-AIIIII^*4-3′等十六条硫代寡核苷酸探针与水稻全基因组测序模板完成杂交-连接，其中，N为随机的四种脱氧核糖核苷酸，I为次黄嘌呤，s为硫代修饰，标记物1～4分别为cy3、cy5、HEX和TET，并在清除未连接的标记硫代寡核苷酸探针后，进行扫描分析，确定哪些位置的模板进行了哪些碱基的连接反应，从而确定基因组序列上第5和6个位置上碱基的序列。用外切酶III将硫代寡核苷酸探针中的剪切区切除。重复上述过程，每重复一次便增加一个碱基的序列测定，直到因每个碱基的延伸效率导致不能准确碱基序列为止，这样便可以知道位置5和6、10和11、15和16、20和21、…、等位置的碱基序列；停止该轮测序，将延伸上述测定若干个碱基序列的测序定位引物变性掉，并重新杂交3’端比上一轮少一个碱基的测序定位引物，基于同样的道理可以测定4和5、9和10、14和15、19和20、…、等位置的碱基序列；将获得的碱基种类和位置信息输入序列拼接软件CodonCode Aligner 2.0.1及以上版本，得到明确的单链DNA模板信息。

实施例4：单碱基杂交-连接测序法测定小鼠全基因组

将小鼠基因组用酶切割(或者超声破碎)成大小为50-200碱基的片断，利用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修补片段末端并形成5’端带有磷酸基团的A粘性末端，在T4连接酶的作用下将这些片段化核酸序列用一对通用连接子(5′-p-CAG TCA GTC AGT CAG TCA G T-3′和3′-T GTC AGT CAGTCA GTC AGT C-p-5′，其中p表示磷酸基团)进行连接，其中的通用连接子的一条寡核苷酸序列与扩增引物的序列完全互补，而通用连接子另一个寡核酸序列与测序定位引物的相同。

将这些连接子连接的片段化核酸序列与固定连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的小鼠全基因组；并将这些微珠固定到平板基片上，通过酶切或者变性得到小鼠全基因组测序模板。

参照附图1和图3，将测序定位引物与小鼠全基因组测序模板杂交，然后将标记四种不同标记物的5′-LLLL-s-AIIIII^*1-3′、5′-LLLL-s-GIIIII^*2-3′、5′-LLLL-s-TIIIII^*3-3′、5′-LLLL-s-CIIIII^*4-3′与小鼠全基因组测序模板完成杂交-连接，其中，L为随机的四种锁核酸，I为次黄嘌呤，s为硫代修饰，标记物1～4分别为cy3、cy5、6-FAM和ROX，并在清除未连接的标记硫代寡核苷酸探针后，进行扫描分析，确定哪些位置的模板进行了哪些碱基的连接反应，从而确定基因组序列上第5个位置上碱基的序列。用外切酶III将硫代寡核苷酸探针中的剪切区切除。重复上述过程，每重复一次便增加一个碱基的序列测定，直到因每个碱基的延伸效率导致不能准确碱基序列为止，这样便可以知道位置5、10、15、20、…、等位置的碱基序列；停止该轮测序，将延伸上述测定若干个碱基序列的测序定位引物变性掉，并重新杂交3’端比上一轮少一个碱基的测序定位引物，基于同样的道理可以测定4、9、14、19、…、等位置的碱基序列；将获得的碱基种类和位置信息输入序列拼接软件CodonCode Aligner 2.0.1及以上版本，得到明确的单链DNA模板信息。

实施例5：双碱基杂交-连接测序法测定拟南芥全基因组

将拟南芥基因组用酶切割(或者超声破碎)成大小为50-200碱基的片断，利用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修补片段末端并形成5’端带有磷酸基团的A粘性末端，在T4连接酶的作用下将这些片段化核酸序列用一对通用连接子(5′-p-CAG TCA GTC AGT CAG TCA G T-3′和3′-T GTC AGTCAG TCA GTC AGT C-p-5，其中p表示磷酸基团)进行连接，其中的通用连接子的一条寡核苷酸序列与扩增引物的序列完全互补，而通用连接子另一个寡核酸序列与测序定位引物的相同。

将这些连接子连接的片段化核酸序列与固定连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的拟南芥全基因组；并将这些微珠固定到平板基片上，通过酶切或者变性得到拟南芥全基因组测序模板。

参照附图2和图3，将测序定位引物与拟南芥全基因组测序模板杂交，然后将标记四种不同标记物的5′-LLLLA-s-AIIIII^*1-3′、5′-LLLLG-s-AIIIII^*2-3′、5′-LLLLT-s-AIIIII^*3-3′、5′-LLLLC-s-AIIIII^*4-3′等十六条硫代寡核苷酸探针与拟南芥全基因组测序模板完成杂交-连接，其中，L为随机的四种锁核酸，I为次黄嘌呤，s为硫代修饰，标记物1～4分别为cy3、cy5、HEX和TET，并在清除未连接的标记硫代寡核苷酸探针后，进行扫描分析，确定哪些位置的模板进行了哪些碱基的连接反应，从而确定基因组序列上第5和6个位置上碱基的序列。用外切酶III将硫代寡核苷酸探针中的剪切区切除。重复上述过程，每重复一次便增加一个碱基的序列测定，直到因每个碱基的延伸效率导致不能准确碱基序列为止，这样便可以知道位置5和6、10和11、15和16、20和21、…、等位置的碱基序列；停止该轮测序，将延伸上述测定若干个碱基序列的测序定位引物变性掉，并重新杂交3’端比上一轮少一个碱基的测序定位引物，基于同样的道理可以测定4和5、9和10、14和15、19和20、…、等位置的碱基序列；将获得的碱基种类和位置信息输入序列拼接软件CodonCode Aligner 2.0.1及以上版本，得到明确的单链DNA模板信息。

实施例6：单碱基杂交-连接测序法测定大鼠全基因组

将大鼠基因组用酶切割(或者超声破碎)成大小为50-200碱基的片断，利用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修补片段末端并形成5’端带有磷酸基团的A粘性末端，在T4连接酶的作用下将这些片段化核酸序列用一对通用连接子(5′-p-CAG TCA GTC AGT CAG TCA G T-3′和3′-T GTC AGT CAGTCA GTC AGT C-p-5′，其中p表示磷酸基团)进行连接，其中的通用连接子的一条寡核苷酸序列与扩增引物的序列完全互补，而通用连接子另一个寡核酸序列与测序定位引物的相同。

将这些连接子连接的片段化核酸序列与固定连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的大鼠全基因组；并将这些微珠固定到平板基片上，通过酶切或者变性得到大鼠全基因组测序模板。

参照附图1和图3，将测序定位引物与大鼠全基因组测序模板杂交，然后将标记四种不同标记物的5′-LLLL-s-ANNNNN^*1-3′、5′-LLLL-s-GNNNNN^*2-3′、5′-LLLL-s-TNNNNN^*3-3′、5′-LLLL-s-CNNNNN^*4-3′与大鼠全基因组测序模板完成杂交-连接，其中，L为随机的四种锁核酸，N为随机的四种脱氧核糖核苷酸，s为硫代修饰，标记物1～4分别为cy3、cy5、6-FAM和ROX，并在清除未连接的标记硫代寡核苷酸探针后，进行扫描分析，确定哪些位置的模板进行了哪些碱基的连接反应，从而确定基因组序列上第5个位置上碱基的序列。用外切酶III将硫代寡核苷酸探针中的剪切区切除。重复上述过程，每重复一次便增加一个碱基的序列测定，直到因每个碱基的延伸效率导致不能准确碱基序列为止，这样便可以知道位置5、10、15、20、…、等位置的碱基序列；停止该轮测序，将延伸上述测定若干个碱基序列的测序定位引物变性掉，并重新杂交3’端比上一轮少一个碱基的测序定位引物，基于同样的道理可以测定4、9、14、19、…、等位置的碱基序列；将获得的碱基种类和位置信息输入序列拼接软件CodonCode Aligner 2.0.1及以上版本，得到明确的单链DNA模板信息。

实施例7：双碱基杂交-连接测序法测定棉花全基因组

将棉花基因组用酶切割(或者超声破碎)成大小为50-200碱基的片断，利用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修补片段末端并形成5’端带有磷酸基团的A粘性末端，在T4连接酶的作用下将这些片段化核酸序列用一对通用连接子(5′-p-CAG TCA GTC AGT CAG TCA G T-3′和3′-T GTC AGT CAGTCA GTC AGT C-p-5′，其中p表示磷酸基团)进行连接，其中的通用连接子的一条寡核苷酸序列与扩增引物的序列完全互补，而通用连接子另一个寡核酸序列与测序定位引物的相同。

将这些连接子连接的片段化核酸序列与固定连接子互补序列的微珠进行乳液并行PCR反应，扩增片段化的棉花全基因组；并将这些微珠固定到平板基片上，通过酶切或者变性得到棉花全基因组测序模板。

参照附图2和图3，将测序定位引物与棉花全基因组测序模板杂交，然后将标记四种不同标记物的5′-LLLLA-s-ANNNNN^*1-3′、5′-LLLLG-s-ANNNNN^*2-3′、5′-LLLLT-s-ANNNNN^*3-3′、5′-LLLLC-s-ANNNNN^*4-3′等十六条硫代寡核苷酸探针与棉花全基因组测序模板完成杂交-连接，其中，L为随机的四种锁核酸，N为随机的四种脱氧核糖核苷酸，s为硫代修饰，标记物1～4分别为cy3、cy5、HEX和TET，并在清除未连接的标记硫代寡核苷酸探针后，进行扫描分析，确定哪些位置的模板进行了哪些碱基的连接反应，从而确定基因组序列上第5和6个位置上碱基的序列。用外切酶III将硫代寡核苷酸探针中的剪切区切除。重复上述过程，每重复一次便增加一个碱基的序列测定，直到因每个碱基的延伸效率导致不能准确碱基序列为止，这样便可以知道位置5和6、10和11、15和16、20和21、…、等位置的碱基序列；停止该轮测序，将延伸上述测定若干个碱基序列的测序定位引物变性掉，并重新杂交3’端比上一轮少一个碱基的测序定位引物，基于同样的道理可以测定4和5、9和10、14和15、19和20、…、等位置的碱基序列；将获得的碱基种类和位置信息输入序列拼接软件CodonCode Aligner 2.0.1及以上版本，得到明确的单链DNA模板信息。

Claims

1.一种利用硫代寡核苷酸探针的DNA测序方法，其特征在于测序步骤为：

A.硫代寡核苷酸探针的构建：

硫代寡核苷酸探针序列的5’-3’端依次为锚定区、识别区和剪切区，锚定区含有n个核苷酸或碱基类似物，其中0＜n≤10；识别区含有m个核苷酸或碱基类似物，其中0＜m≤10，并且识别区3’端第一个核苷酸或碱基类似物与5’方向邻接着的核苷酸或碱基类似物之间为硫代修饰的磷酸键；剪切区含有k个核苷酸或碱基类似物，其中0＜k≤10；剪切区序列上设有与识别区对应的标记物；

B.测序循环：

b).将硫代寡核苷酸探针与步骤a所得待测单链DNA模板进行杂交，在连接酶的作用下，与待测单链DNA模板完全匹配的硫代寡核苷酸探针和紧邻着测序定位引物完成连接反应，然后清除未连接以及游离的硫代寡核苷酸探针；

e).重复上述步骤b-d 2～10次，完成该轮测序。

g).重复f步骤n-1次。

2.根据权利要求1所述的利用硫代寡核苷酸探针的DNA测序方法，其特征在于所述锚定区的5’端为磷酸基团修饰；识别区至少一个核苷酸或碱基类似物的位置和种类明确；锚定区与识别区内的核苷酸或碱基类似物序列之间为正常的磷酸键或硫代修饰的磷酸键。

3.根据权利要求1所述的利用硫代寡核苷酸探针的DNA测序方法，其特征在于所述剪切区的核苷酸或碱基类似物序列之间为磷酸键。

4.根据权利要求1所述的利用硫代寡核苷酸探针的DNA测序方法，其特征在于所述标记物是荧光、量子点、放射性同位素，标记物的位置位于剪切区内的核苷酸或碱基类似物上。

5.根据权利要求2或3所述的利用硫代寡核苷酸探针的DNA测序方法，其特征在于所述核苷酸为脱氧核糖核苷酸、核糖核苷酸、锁核酸；碱基类似物是脱氧肌苷、脱氧核糖、核糖、次黄嘌呤、甲基腺嘌呤或甲基鸟嘌呤。