CN101597643B

CN101597643B - 带背景验证的信号组合编码dna连接测序方法

Info

Publication number: CN101597643B
Application number: CN2009100268902A
Authority: CN
Inventors: 陆祖宏; 涂景; 白云飞; 李燕强; 肖鹏峰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2009-06-03
Filing date: 2009-06-03
Publication date: 2012-06-06
Anticipated expiration: 2029-06-03
Also published as: CN101597643A

Abstract

本发明带背景验证的信号组合编码DNA连接测序方法涉及一种具有背景校验的信号组合编码的DNA连接测序方法，属于生物技术领域。本发明的特征在于在信号组合编码的连接测序反应中的增加了背景校验，成功地对全空信号与未发生连接反应两种情况进行了分辨，提高测序的准确率，增加了信号编码测序的可靠性。本发明在组合信号编码标记物外增加一种背景标记物，利用背景标记物对连接反应是否正常发生进行验证，验证成功后通过不同编码标记物在被检测时组合信号状态进行编码，并与所测碱基的种类一一对应，进行信号编码的连接DNA测序反应，在不降低测序通量的基础上提高测序反应的准确度。

Description

带背景验证的信号组合编码DNA连接测序方法

技术领域

本发明带背景验证的信号组合编码DNA连接测序方法涉及一种采用信号组合编码的DNA连接测序方法，并结合背景验证方案，是一种实现DNA序列分析的方法，属于生物技术领域。

技术背景

随着基因组研究的深入，特别是人类基因组计划和各种模式生物基因组计划的完成，生物学研究和医学研究方式产生了巨大变革。从基因水平上认识生命的差异，疾病发生、发展的规律，药物与生命体的相互作用，不同物种之间的遗传差异以及同一物种内部不同个体间的遗传差异成为可能。尽管导致疾病发生的因素众多，但基因序列差异(包括单核苷酸多态性、DNA甲基化等)被广泛认为是一个重要的内在因素。多数复杂疾病发生和发展，如癌症、糖尿病、心血管疾病、精神疾病等，是众多基因和环境共同作用的结果。通过对某一特定疾病大量基因组样本中基因突变的大规模检测及与非患病对照基因组样本的比对，即可获得与该疾病有关的基因型信息，通过随后对药物敏感基因突变位点的筛查，可以获得对临床治疗与用药具有指导性意义的信息。无论是亲缘关系较近的物种之间遗传差异，还是同一物种内部不同个体之间的遗传差异，都主要是以基因序列差异的形式体现出来。因此，如何快速的筛查基因组中的基因序列差异成为后基因组时代的主要课题之一。

现有的基因序列差异的检测方法主要为：传统Sanger DNA测序法、限制性酶切长度多态性、单链构象多态性和基于基因芯片的寡核苷酸探针杂交法等。在这些方法中，仅有传统的Sanger DNA测序法能完成对目标片段的全方位序列测定，其余方法均只能确定很少的一部分序列信息。但传统的Sanger DNA测序法存在通量低、成本高、耗时长等不足。第一个人类基因组序列测定的费用大约为10亿美元。尽管这一费用目前已经降低到2000万美元，但依然是制约功能基因组研究的瓶颈，大幅度降低DNA测序的成本将会大大推动生命科学的发展。为此，美国Venter基金会在2003年提出了1000美元人类全基因组测序的研究目标。2004年初，美国国立卫生院投入4千多万美元支持DNA测序新技术的研究计划，累计已经超过1亿美元。其目标是发展10万美元的人类全基因组DNA测序技术，并最终减低为1000美元。

目前，除对现有的基于电泳的测序技术的改进外，正在研发的测序技术总体上可以分为四类。第一类是合成测序，合成测序又可分成两种，一种是在碱基加入到正在发生聚合反应的DNA链的过程中进行检测，另一种在寡核苷酸加入到正在发生延伸反应的DNA链的过程中进行检测；第二类是杂交测序法，通过制备一组高密度寡核苷酸微阵列芯片的杂交信号，进行目标基因的序列鉴定；第三类是分子影像等一系列可以在单分子的水平上进行测序的技术；最后一类技术是诱导DNA分子蜿蜒通过非常细微的小孔，在这个过程中借助电子学或者光学的方法对碱基进行读出，也成为纳米孔道测序技术。

目前，除对现有的基于电泳的测序技术的改进外，正在研发的测序技术总体上可以分为四类。第一类是延伸测序法，将信号标记的碱基加入到正在发生聚合反应的DNA链中进行检测，第二类是连接测序法，将信号标记的寡核苷酸片段加入到正在发生连接反应的DNA链中进行检测；第三类是杂交测序法，通过制备一组高密度寡核苷酸微阵列芯片的杂交信号，进行目标基因的序列鉴定；第四类是分子影像等一系列可以在单分子的水平上进行测序的技术；最后一类技术是诱导DNA分子蜿蜒通过非常细微的小孔，在这个过程中借助电子学或者光学的方法对碱基进行读出，也成为纳米孔道测序技术。目前只有延伸测序方法和连接测序方法用于全基因组测序，并且开发出了商品化的仪器和试剂，大大提高了DNA测序的效率，大幅度降低了DNA测序的成本。然而，目前新一代的DNA测序在测序成本、通量和速度等方面仍然不能满足生命科学研究的需要。主要原因之一是在检测核酸的信号标记方法单一、效率不高。例如，在DNA连接测序方法中，受标记物(如荧光基团)种类的限制，每次连接反应一般仅能确定一个碱基的信息，如需在一次连接反应确定两个及两个以上碱基信息，则需要对标记物进行二维或多维编码。然而现有编码方法对多种标记物都“无信号”的状态和未成功发生连接反应的“空信号”之间无法有效分辨，测序反应的存在一定的错误率。

发明内容

本发明的目的就是针对现有DNA的连接测序技术在检测核酸的信号标记方法单一、效率不高，试图通过不同标记物状态的组合进行二维或多维的编码，合成信号编码的DNA测序探针，并通过背景验证标记物的引入，分辨“无信号”和“空信号”，提高连接测序编码方案的准确率，实现使用相同数量的标记物检测较多碱基或碱基组合的目的，建立快速、准确、低成本和高通量的序列测定方法。

DNA连接测序属于一种DNA合成测序方法。DNA连接测序的基本步骤是：首先在待测的DNA模板上杂交一条与特定区域互补配对的测序引物；接着向含有待测模板和测序引物的反应器中加入一种或一组寡核苷酸测序探针，每个寡核苷酸探针由三部分组成：简并碱基或非严格配对碱基、标记物和测序碱基；简并碱基或非严格配对碱基是一组非特异性的可与测序模板杂交的碱基组合，标记物用于标记寡核苷酸探针，便于在发生DNA连接反应后进行检测；测序碱基是一个和多个确定的碱基，用于使得测序探针有选择性地与部分测序模板-测序引物复合物发生连接反应，发生反应的测序模板的相应碱基与测序探针的测序碱基互补配对，同时，测序碱基与标记物存在某种对应关系；在进行了DNA连接测序反应后，利用相应的检测手段对测序模板-引物-探针复合物进行检测，获得对应的信号信息，再利用预先设定的测序碱基和标记物的对应关系判读测序模板中相应位置的碱基信息。

当完成一次连接测序反应后，移除测序模板-引物-探针复合物上的标记物，以测序探针作为新的连接起点进行下一次的连接测序反应，连续进行连接反应直至完成所需测序长度。测序引物与待测模板变性分离，随后在待测模板上杂交与第一条引物序列平移一个和多个碱基的测序引物，进行新一轮多次连接反应；完成后重复变性、杂交、连接过程直至所有位置的碱基信息均完成测定。

本发明技术方案：带背景验证的信号组合编码的DNA连接测序方法，其特征在于针对某一种特定的DNA测序探针，利用一组编码标记物状态的组合结合背景标记物进行标记，对于一批DNA测序探针，采用一组编码标记物状态的不同组合方案结合背景标记物进行标记，制备一套带背景验证的信号组合编码的DNA测序探针，从而实现在检测时对不同DNA测序探针的区分和鉴别：

A 一套带背景验证的信号组合编码的DNA测序探针的制备：首先制备未标记的DNA测序探针，每一种未标记的DNA测序探针由一个或多个测序碱基、一个或多个简并碱基N或非严格配对碱基组成。测序碱基用于通过碱基互补配对法则测定待测DNA中相应位置的碱基信息，简并碱基N为A、T、C、G四种碱基中的任意一个。完成未标记的DNA测序探针的制备后，针对每一种未标记的DNA测序探针，采用多种编码标记物状态的一种组合进行标记，同时标记背景标记物，每种编码标记物在该DNA测序探针上标记与否及标记的量由该编码标记物在状态的组合中所对应的状态决定。采用不同的状态组合方案结合背景标记物对不同的未标记DNA测序探针进行标记，完成一套带背景验证的信号组合编码的DNA测序探针的制备。

B利用上述一套带背景验证的信号组合编码的DNA测序探针的测序流程如下：

a.选取一条测序引物与待测的DNA模板依据碱基互补配对原理进行杂交；

b.向反应体系中加入上述的一套带背景验证的信号组合编码的DNA测序探针和DNA连接酶及其反应体系，进行DNA连接反应；

c.完成DNA连接反应后，检测全部参与状态组合的标记物及背景标记物的信号，首先判读背景标记物是否符合校验，如符合，判读编码标记物信号所处的状态，根据全部编码标记物状态的组合情况，确定发生连接反应的DNA测序探针的种类，从而确定该测序探针上测序碱基的类型和排布，并最终确定被测DNA模板上对应位置的碱基或碱基序列信息；

d.完成对标记物信号的检测后，移除DNA测序探针上的标记物；

e.重复上述步骤b-d直至DNA测序探针达到或超出待测DNA模板待测区域末端；

f.该测序引物与待测DNA模板变性分离，选取第二条测序引物；

g.重复上述步骤a-f，直至全部未知DNA模板的待测区域的全部序列信息得以确定。

所述的多种标记物对未标记DNA测序探针进行组合标记，其方案是对同一DNA测序探针分子同时标记一种或多种标记物，或者分别用不同的标记物标记同一种DNA测序探针的不同分子，随后将上述不同测序探针分子混合。

所述的标记物的状态组合，是标记物的“有信号”、“无信号”两种状态组合，或者是标记物不同信号强度比例状态的组合。

所述的测序引物是指一组只能和所有DNA模板的一段通用序列杂交的寡核苷酸片段，一组测序引物在DNA模板上杂交区域彼此相差一个或数个碱基，能够在数轮测序反应中完成对DNA模板全长的测序工作；测序模板上的通用序列，是在测序模板制备过程中通过连接反应加入，或者在扩增过程中通过引物引入。

所述的DNA模板是通过对待测的DNA片段通过DNA扩增技术增加基因组中感兴趣的目的片段的量，扩增是单重的，即一次扩增一个目的片段，或者是多重的，即一次扩增多个目的片段；所述的待测的DNA模板中的固定是通过化学或者物理方法固定于平面片基上，或固定于“96孔板”、“384孔板”及各种修饰的珠子载体上。

所述的标记物，是采用的荧光基团，或利用测序探针化学的、物理的性质的改变，如电阻变化、电流变化。

所述的检测是指与所述的标记物性质相适应的，在激光激发的荧光标记基团时，激光激发强度可为95％、70％、45％等多个不同强度，光电倍增可以分别为95％、70％、45％等多个检测区间。

所述的标记物的移除，是标记基团通过化学的、物理的方法与DNA测序探针分离，或者DNA测序探针化学的、物理的性质恢复原有状态。标记物的移除，是仅仅移除标记物本身，或者同时移除与标记物相连或不相连的一个或多个碱基及相关基团。

所述的第二条测序引物是一组测序引物中除已经使用的测序引物中的任何一条，并不一定是与已使用的测序引物对应在测序模板上杂交位置最为接近的一条。

技术原理：本发明的目的是提供一种带背景验证信号组合编码的DNA连接测序方法，在一次连接反应中同时检测多个碱基，并通过背景标记物的引入，降低测序反应的错误率。该方法的原理是通过向连接测序反应中添加特定的背景验证标记物，有效分辨“无信号”未成功连接两种状态，提高信号组合编码的连接测序反应的准确率。

信号组合编码的连接测序方法利用不同标记物在被检测信号的有无(二维)和强度差异(多维)进行二进制编码或多进制编码。这里我们以信号的有无为例，当标记物为两种时，通过两种标记物“有信号”和“无信号”排列组合，共得到2²＝4种复合状态，即“标记物1有信号、标记物2有信号”、“标记物1有信号、标记物2无信号”、“标记物1无信号、标记物2有信号”、“标记物1无信号、标记物2无信号”。当标记物数量为n时(n为大于等于2的整数)，记录标记物复合状态为全部n位二进制数，二进制数的每一位记录1种标记物的被检状态，“1”为检测到信号，“0”为未检测到信号，全部2ⁿ个n位二进制数与n个信号标记物的2ⁿ种复合状态一一对应。由于构成DNA的常见碱基共有4种，分别为腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)，因此需要准确检测一个碱基的4种类型需要两种标记物“有信号”和“无信号”的4种复合状态；2个碱基组成的碱基组合共有4×4＝16种类型，需要4种标记物共2⁴＝16种复合状态来检测；依此类推，n个(n为大于等于2的整数)碱基组成的碱基组合共需要2n种标记物共2²ⁿ种复合信号状态来检测，每种复合状态通过一个2n位二进制数来唯一表示，并与测序探针的类型一一对应。

表1带背景验证的二维编码方法，2n种标记物2²ⁿ种复合状态检测n个碱基寡核苷酸配方列表

(表中“1”表示该种标记物修饰该种测序探针，“0”表示该种标记物不修饰该种测序探针)

测序探针类型	背景标记物	标记物1	标记物2	标记物3	……	标记物2n-2	标记物2n-1	标记物2n
									测序探针1	1	1	1	1	……	1	1	1
测序探针2	1	1	1	1	……	1	1	0
									测序探针3	1	1	1	1	……	1	0	1
……	1	……	……	……	……	……	……	……
									测序探针2²ⁿ-2	1	0	0	0		0	1	0
测序探针2²ⁿ-1	1	0	0	0	……	0	0	1
									测序探针2²ⁿ	1	0	0	0	……	0	0	0

然而，单纯的信号组合编码的连接测序方法存在如下问题：当待测碱基或碱基组合对应的互补测序探针没有与之对应的修饰标记物时，由于加入反应体系中的测序探针均不含修饰标记物，因此通过检测全部标记物后我们得到一组全为“无信号”的信号组合；同时，当加入反应体系的测序探针因为连接反应失败等或其他原因导致测序反应失败，通过检测我们同样可以获得一组全为“无信号”的信号组合。此时一组全为“无信号”的信号组合对应了两种可能，传统组合编码的测序方法无法有效分辨这两种可能，因而测序过程存在一定的错误率。

本发明，采用标记物的信号组合编码技术，并增加了一种标记物作为背景标记物(见表1)，在现有方法的测序探针混合物中添加由背景标记物修饰全部各种测序探针或对现有全部测序探针修饰以背景标记物。当进行完连接测序反应后，检测全部参与状态组合的标记物及背景标记物的信号，首先判读背景标记物是否符合校验，如符合，判读编码标记物信号所处的状态，根据全部编码标记物状态的组合情况，确定发生连接反应的DNA测序探针的种类，从而确定该测序探针上测序碱基的类型和排布，并最终确定被测DNA模板上对应位置的碱基或碱基序列信息。并通过背景标记物的引入分辨一组编码标记物全为“无信号”和连接反应失败两种状况。

本发明的有益效果：

1.本发明最大的优点通过背景标记物的引入，有效分辨编码标记物全为“无信号”和未成功发生连接反应两种情况，提高了测序反应的准确率，使得信号编码的循环连接测序法更加具有实用性。通过的编码标记物的组合信号编码，实现在一次连接反应中同时检测较多碱基或碱基组合。

2.由于在单次连接反应中检测多个碱基的类别所需的标记物种类与传统方法相比呈现指数型的下降，使得在单次连接反应中同时检测多个碱基的类别成为可能，成倍缩短了对全部序列测定所需的时间。

3.通过信号组合编码，检测相同长度的序列所需的连接反应次数的减少，测序的成本也成倍降低。同时，通过信号组合编码，检测相同数量的碱基类型所需的标记物种类大幅降低，降低了对检测标记物设备的需求，从而降低成本。

附图说明

以下结合附图对本发明进行进一步说明。

图1是当标记物状态简化为二维时，即信号的“有”或“无”时，通过两种标记物的二维状态组合检测在一次连接测序反应中A、T、C、G四种碱基的原理图，图中实心图标表示“有信号”，空心图标表示“无信号”。1，当待测碱基为A时，首先验证背景标记物(图中黑色实心方块)信号是否符合预期，随后由测序碱基为U的测序探针所对应的编码标记物的组合状态为“标记物1有信号，标记物2有信号”，即“1，1”；2，当待测碱基为C时，首先验证背景标记物(图中黑色实心方块)信号是否符合预期，随后由测序碱基为G的测序探针所对应的编码标记物的组合状态为“标记物1有信号，标记物2无信号”，即“1，0”；3，当待测碱基为G时，首先验证背景标记物(图中黑色实心方块)信号是否符合预期，随后由测序碱基为C的测序探针所对应的编码标记物的组合状态为“标记物1无信号，标记物2有信号”，即“0，1”；4，当待测碱基为T时，首先验证背景标记物(图中黑色实心方块)信号是否符合预期，随后由测序碱基为A的测序探针所对应的编码标记物的组合状态为“标记物1无信号，标记物2无信号”，即“0，0”。

图2是实例2、实例3和实例4共同的工作流程图。1，将P1、P2引物扩增后的PCR产物固定于玻片表面；2，第一条测序引物I1与固定于玻片表面的PCR产物杂交；3，测序引物I1上连接了测序碱基与PCR待测位置互补的寡核苷酸探针；4，完成检测后移除荧光修饰基团；5，I1连接进行第二次测序探针的连接；6，完成检测后再次移除荧光修饰基团；7，I1完成全部4次连接反应；8，测序引物I1与PCR产物变性分离；9，第二条测序引物I2与PCR产物杂交开始新一轮测序反应。

图3是实例2测序引物I1进行前两次测序连接反应的详细图解。1，测序引物I1与固定于玻片表面的PCR产物杂交，I1的全部15个碱基与PCR引物P2互补链5’端15个碱基互补配对；2，进行第一次连接反应，48种寡核苷酸探针(32种编码寡核苷酸探针，16种背景寡核苷酸探针)组成的混合物中测序碱基为“5’-AA-3’”的寡核苷酸单体(寡核苷酸探针其余位置为简并碱基N)与杂交于PCR产物上的I1连接，通过对标记物的检测获得CY7的信号，背景标记物验证通过，查寡核苷酸探针配方表得知当编码标记物均为“无信号”时待测DNA的3’末端第3、4号碱基为“5’-AA-3’”；3，移除寡核苷酸探针末端的荧光修饰基团；4，进行第二次连接，检测待测DNA的3’末端第11、12号碱基。

具体实施方式

本发明的实施方法分为两种：

第一种是针对某一种测序探针，选用若干种编码标记物和一种背景标记物同时对同一测序探针分子进行标记。针对一次连接反应，各个标记物在被检测时分别呈现“有信号”、“无信号”的两种状态，由向测序连接反应体系中加入的特定测序探针决定，制备含有不同编码标记物和背景标记物的测序探针是本发明的关键。加入反应体系中的测序探针由一组标记了不同标记物的寡核苷酸探针组成。每个寡核苷酸探针由一个或多个测序碱基(通过碱基互补配对法则测定待测DNA中相应位置的碱基信息)、一个或多个简并碱基N(N为A、T、C、G四种碱基中的任意一个)或非严格配对碱基(如次黄嘌呤等)和一种具有被检测能力的标记物构成。测序碱基与标记物之间的组合按照表1所列状态制备，当表1中所确定的“测序探针类型i”对应k种标记物的状态为“1”时，则在制备测序碱基为“碱基组合类型i”的测序探针分子时，同时标记表格中“测序探针类型i”所有状态为“1”的标记物；逐行合成表1所列全部2²ⁿ种寡核苷酸探针，该探针混合物即为所需制备的寡核苷酸探针混合物。

第二种是将该种测序探针分为若干部分，每一部分分别标记一种标记物(标记物包含编码标记物和背景标记物)。针对一次连接反应，各个标记物在被检测时分别呈现“有信号”、“无信号”的两种状态，由向测序连接反应体系中加入的特定测序探针决定。因此制备含有不同编码标记物和背景标记物的测序探针是本发明的关键。加入反应体系中的测序探针由一组标记了不同标记物的寡核苷酸探针组成。每个寡核苷酸探针由一个或多个测序碱基(通过碱基互补配对法则测定待测DNA中相应位置的碱基信息)、一个或多个简并碱基N(N为A、T、C、G四种碱基中的任意一个)或非严格配对碱基(如次黄嘌呤等)和一种具有被检测能力的标记物构成。测序碱基与标记物之间的组合按照表1所列状态制备，当表1中所确定的“碱基组合类型i”与“标记物j”所列状态为“1”时，则制备测序碱基为“碱基组合类型i”、标记物为“标记物j”的寡核苷酸探针；如所列状态为“0”时则不合成，合成表1所列全部状态为“1”的寡核苷酸探针，该探针混合物即为所需制备的寡核苷酸探针混合物。

更进一步地，每一种编码标记物的状态可以通过相对信号强度的大小，可以确定为m种状态(m＞2)，同时背景标记物维持一种不变。例如，标记物的信号可以为“0”、“1”、“2”和“3”等四种状态。利用每一种标记物在被检测时有“无信号”、“1/3信号”、“2/3信号”和“全信号”四种状态进行四进制编码，可以把“无信号”记录为“0”，把“1/3信号”记录为“1”，把“2/3信号”记录为“2”，把“全信号”记录为“3”。当对于某一特定的测序探针采用两种编码标记物和一种背景标记物时，通过这两种标记物产生的信号组合，共得到4×4＝16种组合状态，即“00”、“01”、“02”、“03”、“10”、“11”、“12”、“13”、“20”、“21”、“22”、“23”、“30”、“31”、“32”、“33”(二位四进制数的高位记录1号编码标记物的状态，低位记录2号编码标记物的状态)，同时背景标记物单独处理，从而实现了采用3种标记物同时标记16种测序探针。

实施例1：带背景验证的信号组合编码的DNA连接测序方法，其特征在于针对某一种特定的DNA测序探针，利用一组编码标记物状态的组合结合背景标记物进行标记，对于一批DNA测序探针，采用一组编码标记物状态的不同组合方案结合背景标记物进行标记，制备一套带背景验证的信号组合编码的DNA测序探针，从而实现在检测时对不同DNA测序探针的区分和鉴别：

A一套带背景验证的信号组合编码的DNA测序探针的制备：首先制备未标记的DNA测序探针，每一种未标记的DNA测序探针由一个或多个测序碱基、一个或多个简并碱基N或非严格配对碱基组成。测序碱基用于通过碱基互补配对法则测定待测DNA中相应位置的碱基信息，简并碱基N为A、T、C、G四种碱基中的任意一个。完成未标记的DNA测序探针的制备后，针对每一种未标记的DNA测序探针，采用多种编码标记物状态的一种组合进行标记，同时标记背景标记物，每种编码标记物在该DNA测序探针上标记与否及标记的量由该编码标记物在状态的组合中所对应的状态决定。采用不同的状态组合方案结合背景标记物对不同的未标记DNA测序探针进行标记，完成一套带背景验证的信号组合编码的DNA测序探针的制备。

实施例2：带背景验证的四色荧光复合编码法(分别标记方案)检测人类17号染色体上，RP11-354P11克隆上45332-45363共32个碱基对序列；

提取人类全基因组DNA，利用PCR方法扩增目的片段，引物为P1、P2(序列见表2)，引物P1的5’末端采用羟基修饰。扩增后的PCR产物固定于醛基修饰的玻片表面后，加热玻片至95℃使双链PCR产物的一条链与固定链脱离，随后开始测序反应。

向玻片表面加入杂交缓冲液和第一条测序引物I1(序列见表2)，37℃杂交复性20分钟。向反应池中加入表3所列的全部48种寡核苷酸探针组成的混合物，其中CY7为背景标记物，其余四种标记物为编码标记物。作为背景标记物，CY7与所有16种测序碱基分别构成了16种寡核苷酸探针。采用T4核酸连接酶进行连接反应，反应条件为25℃连接30分钟。连接完成后利用激光共聚焦显微镜对玻片进行扫描，扫描分别采用对应于CY7、CY3、CY5、TXR和FTC的对应的波长进行，根据获得的荧光信号判读对应的碱基信息(见附图2)。

表2实例2中相关寡核苷酸序列信息

序列名	序列信息
		待测序列	5’-CACGGACCAGCTGCCCTGGACCAGCTGCAAGA-3’
P1	OH-5’-CGCTATACTACCTCATCTCCTCCTTCACG-3’
		P2	5’-GCAGTTGCCAGTGTTCCAGGAGT-3’
I1	5’-CAGTGTTCCAGGAGT-3’
		I2	5’-GTGTTCCAGGAGTNN-3’
I3	5’-GTTCCAGGAGTNNNN-3’
		I4	5’-GCCAGTGTTCCAGGA-3’

在第一次连接反应中，I1引物与P2互补链上的“5’-AAGAACTCCTGGAACACTG-3’”序列杂交，加入寡核苷酸探针混合物后，寡核苷酸探针混合物中测序碱基如果与待测DNA位于I1引物3’端下游的第3、4号碱基(也是待测DNA的3’末端第3、4号碱基)互补配对，则这些寡核苷酸探针与待测DNA杂交并与引物I1发生连接反应。待测DNA位于I1引物3’端下游的第3、4个碱基为“5’-AA-3’”，其反向互补碱基为“5’-TT-3’”，则所有测序碱基为“5’-TT-3’”的寡核苷酸探针仅有一条，为“5’-NNTTNNNN-3’-CY7”，与待测DNA模板及引物I1发生连接反应(附图3-2)。

在进行信号检测时，成功验证背景标记物状态为“有信号”，随后通过查表得知当编码标记物状态均为“无信号”时，待测DNA的3’末端第3、4号碱基的反向互补链信息为“5’-TT-3’”，从而可以获得待测DNA的3’末端第3、4号碱基为“5’-AA-3’”。

表3寡核苷酸探针混合物详细列表

完成此轮检测后，利用化学方法切除链接与引物I1上寡核苷酸探针3’末端的荧光基团，在3’末端获得一个游离的羟基进行再次连接反应(附图3-3)。向反应池中再次加入表所列全部苷酸探针混合物，进行第二轮连接反应，此次连接反应是检测待测DNA位于I1引物3’端下游的第11、12号碱基(待测DNA的3’末端第11、12号碱基)“5’-CC-3’”，此时三种测序碱基为“5’-GG-3’”的寡核苷酸探针“5’-NNGGNNNN-3’-CY7”、“5’-NNGGNNNN-3’-CY5”、“5’-NNGGNNNN-3’-FTC”发生连接反应，进行荧光检测是同时检测到CY7、CY5、FTC，背景标记物验证成功，随后查表判读并进行反向互补获得待测DNA的3’末端第11、12号碱基为“5’-CC-3’”(附图3-4)。化学方法切除连接上的寡核苷酸末端荧光基团后再次进行I1引物的第3、4轮连接反应，分别测得待测DNA的3’末端第19、20号碱基和第27、28号碱基信息。

完成四轮连接反应后，95℃使测序引物I1与待测DNA分离，向玻片表面加入杂交缓冲液和第二条测序引物I2(序列见表2)，37℃杂交复性20分钟。随后开始四轮连接反应分别检测待测DNA的3’末端第5、6号，13、14号，21、22号以及29、30号四组碱基。

同样的，利用测序引物I3检测待测DNA的3’末端第7、8号，15、16号，23、24号以及31、32号四组碱基，利用测序引物I4检测待测DNA的3’末端第1、2号，9、10号，17、18号以及25、26号四组碱基。

通过所获得序列信息进行拼接即可获得待测DNA全部32个碱基的序列信息。

实施例3：带背景验证的四色荧光复合编码法(共同标记方案)检测人类17号染色体上，RP11-354P11克隆上45332-45363共32个碱基对序列；

提取人类全基因组DNA，利用PCR方法扩增目的片段，引物为P1、P2(序列见表4)，引物P1的5’末端采用羟基修饰。扩增后的PCR产物固定于醛基修饰的玻片表面后，加热玻片至95℃使双链PCR产物的一条链与固定链脱离，随后开始测序反应。

表4实例3中相关寡核苷酸序列信息

向玻片表面加入杂交缓冲液和第一条测序引物I1(序列见表4)，37℃杂交复性20分钟。向反应池中加入表6所列的全部16种寡核苷酸探针组成的混合物，表格每行为一种寡核苷酸探针，其中CY7为背景标记物，其余四种标记物为编码标记物，每个寡核苷酸探针分子依据表格同时标记了0-4种编码荧光分子和一种背景荧光分子CY7。采用T4核酸连接酶进行连接反应，反应条件为25℃连接30分钟。连接完成后利用激光共聚焦显微镜对玻片进行扫描，扫描分别采用对应于CY7、CY3、CY5、TXR和FTC的对应的波长进行，根据获得的荧光信号判读对应的碱基信息(附图2)。

在第一次连接反应中，I1与待测DNA及引物P2互补链上的“5’-AAGAACTCCTGGAAC-3’”序列杂交，加入寡核苷酸探针混合物后，寡核苷酸探针混合物中测序碱基如果与待测DNA位于I1引物3’端下游的第3、4号碱基互补配对，则这些寡核苷酸探针与待测DNA杂交并与引物I1发生连接反应。待测DNA位于I1引物3’端下游的第3、4个碱基为“5’-AA-3’”，其反向互补碱基为“5’-TT-3’”，则测序碱基为“5’-TT-3’”的寡核苷酸探针为“5’-NNAGNNNN-3’”，由表6可知该寡核苷酸探针标记了背景基团CY7，但未标记编码荧光基团，与待测DNA模板及引物I1发生连接反应。在进行信号检测时，成功验证背景标记物CY7状态为“有信号”，随后通过查表得知当编码标记物状态均为“无信号”时，待测DNA的3’末端第3、4号碱基的反向互补链信息为“5’-TT-3’”，从而可以获得待测DNA的3’末端第3、4号碱基为“5’-AA-3’”。

表5寡核苷酸探针混合物详细列表

完成此轮检测后，利用化学方法切除链接与引物I1上寡核苷酸探针3’末端的荧光基团，在3’末端获得一个游离的羟基进行再次连接反应。向反应池中再次加入表6所列全部苷酸探针混合物，进行第二轮连接反应，此次连接反应是检测待测DNA位于I1引物3’端下游的第11、12号碱基(待测DNA的3’末端第11、12号碱基)“5’-CC-3’”，此时三种测序碱基为“5’-GG-3’”的寡核苷酸探针“5’-NNGGNNNN-3’“同时修饰了背景基团CY7和两种编码基团CY5及FTC。发生连接反应，进行荧光检测是同时检测到CY7、CY5、FTC，背景标记物验证成功，随后查表判读并进行反向互补获得待测DNA的3’末端第11、12号碱基为“5’-CC-3’”。化学方法切除连接上的寡核苷酸末端荧光基团后再次进行I1引物的第3、4轮连接反应，分别测得待测DNA的3’末端第19、20号碱基和第27、28号碱基信息。

完成四轮连接反应后，95℃使测序引物I1与待测DNA分离，向玻片表面加入杂交缓冲液和第二条测序引物I2(序列见表4)，37℃杂交复性20分钟。随后开始四轮连接反应分别检测待测DNA的3’末端第5、6号，13、14号，21、22号以及29、30号四组碱基。

实施例4：带背景校验的双色荧光光强组合编码法检测人类17号染色体上，RP11-354P11克隆上45332-45363共32个碱基对序列；

提取人类全基因组DNA，利用PCR方法扩增目的片段，引物为P1、P2(序列见表6)，引物P1的5’末端采用羟基修饰。扩增后的PCR产物固定于醛基修饰的玻片表面后，加热玻片至95℃使双链PCR产物的一条链与固定链脱离，随后开始测序反应。

表6实例4中相关寡核苷酸序列信息

序列名	序列信息
		待测序列	5’-CACGGACCAGCTGCCCTGGACCAGCTGCAAGA-3’
P1	OH-5’-CGCTATACTACCTCATCTCCTCCTTCACG-3’
		P2	5’-GCAGTTGCCAGTGTTCCAGGAGT-3’
I1	5’-GTTCCAGGAGTNNNN-3’
		I2	5’-GTGTTCCAGGAGTNN-3’
I3	5’-CAGTGTTCCAGGAGT-3’
		I4	5’-GCCAGTGTTCCAGGA-3’

向玻片表面加入杂交缓冲液和第一条测序引物I1(序列见表6)，37℃杂交复性20分钟。向反应池中加入表8所列的全部16种寡核苷酸探针组成的混合物，采用T4核酸连接酶进行连接反应，反应条件为25℃连接30分钟。连接完成后利用激光共聚焦显微镜对玻片进行扫描，扫描分别采用对应于CY3、CY5和CY7的波长进行，根据获得的荧光信号判读对应的碱基信息(附图2)。

表7寡核苷酸探针混合物详细列表

(每一行代表一种寡核苷酸探针，CY3比例表示寡核苷酸探针中修饰CY3基团的比例，CY5比例寡核苷酸探针中修饰CY5基团的比例)

测序碱基	寡核苷酸链	背景CY7比例	编码CY3比例	编码CY5比例
					AA	5’-NNAANNNN-3’	100％	100％	100％
AC	5’-NNACNNNN-3’	100％	100％	66.7％
					AG	5’-NNAGNNNN-3’	100％	100％	33.3％
AT	5’-NNATNNNN-3’	100％	100％	0％
					CA	5’-NNCANNNN-3’	100％	66.7％	100％
CC	5’-NNCCNNNN-3’	100％	66.7％	66.7％
					CG	5’-NNCGNNNN-3’	100％	66.7％	33.3％
CT	5’-NNCTNNNN-3’	100％	66.7％	0％
					GA	5’-NNGANNNN-3’	100％	33.3％	100％
GC	5’-NNGCNNNN-3’	100％	33.3％	66.7％
					GG	5’-NNGGNNNN-3’	100％	33.3％	33.3％
GT	5’-NNGTNNNN-3’	100％	33.3％	0％
					TA	5’-NNTANNNN-3’	100％	0％	100％
TC	5’-NNTCNNNN-3’	100％	0％	66.7％
					TG	5’-NNTGNNNN-3’	100％	0％	33.3％
TT	5’-NNTTNNNN-3’	100％	0％	0％

在第一次连接反应中，I1与待测DNA及引物P2互补链上的“5’-AAGAACTCCTGGAAC-3’”序列杂交，加入寡核苷酸探针混合物后，寡核苷酸探针混合物中测序碱基如果与待测DNA位于I1引物3’端下游的第3、4号碱基互补配对，则这些寡核苷酸探针与待测DNA杂交并与引物I1发生连接反应。待测DNA位于I1引物3’端下游的第3、4个碱基为“5’-CT-3’”，其反向互补碱基为“5’-AG-3’”，则测序碱基为“5’-AG-3’”的寡核苷酸探针为“5’-NNAGNNNN-3’”，由表8可知该寡核苷酸探针中100％标记了作为背景校验的CY7基团，100％标记了作为信号编码的CY3基团，33.3％标记了作为信号编码的CY5基团，与待测DNA模板及引物I1发生连接反应。在进行信号检测时，此轮连接反应同时可以检测出CY7、CY3和CY5三种荧光，CY7的荧光强度是标准强度的100％，通过背景校验。同时，CY3荧光强度是标准强度的100％，CY5荧光强度是标准强度的33.3％，通过查表可以判读待测DNA的3’末端第7、8号碱基的反向互补链信息为“5’-AG-3’”，从而可以获得待测DNA的3’末端第7、8号碱基为“5’-CT-3’”。

完成次轮检测后，利用化学方法切除链接与引物I1上寡核苷酸探针3’末端的荧光基团，在3’末端获得一个游离的羟基进行再次连接反应。向反应池中再次加入表6所列全部苷酸探针混合物，进行第二轮连接反应。此次连接反应是检测待测DNA位于I1引物3’端下游的第11、12号碱基(待测DNA的3’末端第15、16号碱基)“5’-TG-3’”，此时测序碱基“5’-CA-3’”对应的寡核苷酸探针为“5’-NNCANNNN-3’”，由表8可知该寡核苷酸探针100％标记了CY7基团，66.7％标记了CY3基团，100％标记了CY5基团，进行连接反应后，同时检测到CY7、CY3和CY5，作为背景校验的CY7荧光强度是标准强度的100％，同时作为编码的CY3荧光强度是标准强度的66.7％，CY5荧光强度是标准强度的100％，查表判读并进行反向互补获得待测DNA的3’末端第15、16号碱基为“5’-TG-3’”。化学方法切除连接上的寡核苷酸末端荧光基团后再次进行I1引物的第3、4轮连接反应，分别测得待测DNA的3’末端第23、24号碱基和第31、32号碱基信息。

完成四轮连接反应后，95℃使测序引物I1与待测DNA分离，向玻片表面加入杂交缓冲液和第二条测序引物I2(序列见表6)，37℃杂交复性20分钟。随后开始四轮连接反应分别检测待测DNA的3’末端第5、6号，13、14号，21、22号以及29、30号四组碱基。

同样的，利用测序引物I3检测待测DNA的3’末端第3、4号，11、12号，19、20号以及27、28号四组碱基，利用测序引物I4检测待测DNA的3’末端第1、2号，9、10号，17、18号以及25、26号四组碱基。

Claims

1.一种带背景验证的信号组合编码的DNA连接测序方法，其特征在于针对某一种特定的DNA测序探针，使用一组标记物状态的组合进行标记，一组标记物中的一种作为背景标记物，剩余的标记物作为编码标记物，对于一批DNA测序探针，采用编码标记物状态的不同组合方案结合背景标记物进行标记，制备一套带背景验证的信号组合编码的DNA测序探针，从而实现在检测时对不同DNA测序探针的区分和鉴别；所述标记物的状态，包括标记物“有信号”、“无信号”两种状态，以及标记物不同信号强度比例的状态：

A 一套带背景验证的信号组合编码的DNA测序探针的制备：首先制备未标记的DNA测序探针，每一种未标记的DNA测序探针由一个或多个测序碱基、一个或多个简并碱基N组成；测序碱基用于通过碱基互补配对法则测定待测DNA中相应位置的碱基信息，简并碱基N为A、T、C、G四种碱基中的任意一个；完成未标记的DNA测序探针的制备后，针对每一种未标记的DNA测序探针，采用多种编码标记物状态的一种组合进行标记，同时标记背景标记物，每种编码标记物在该DNA测序探针上标记与否及标记的量由该编码标记物在状态的组合中所对应的状态决定；采用不同的状态组合方案结合背景标记物对不同的未标记DNA测序探针进行标记，完成一套带背景验证的信号组合编码的DNA测序探针的制备；

B 利用上述一套带背景验证的信号组合编码的DNA测序探针的测序流程如下：

2.根据权利要求1所述的带背景验证的信号组合编码的DNA连接测序方法，其特征在于所述的多种标记物对未标记DNA测序探针进行组合标记，其方案是对同一DNA测序探针分子同时标记一种或多种标记物，或者分别用不同的标记物标记同一种DNA测序探针的不同分子，随后将上述不同测序探针分子混合。

3.根据权利要求1所述的带背景验证的信号组合编码的DNA连接测序方法，其特征在于所述的测序引物是指一组只能和所有DNA模板的一段通用序列杂交的寡核苷酸片段，一组测序引物在DNA模板上杂交区域彼此相差一个或数个碱基，能够在数轮测序反应中完成对DNA模板全长的测序工作；测序模板上的通用序列，是在测序模板制备过程中通过连接反应加入，或者在扩增过程中通过引物引入。

4.根据权利要求1所述的带背景验证的信号组合编码的DNA连接测序方法，其特征在于所述的DNA模板是通过对待测的DNA片段通过DNA扩增技术增加基因组中感兴趣的目的片段的量，扩增是单重的，即一次扩增一个目的片段，或者是多重的，即一次扩增多个目的片段；所述的待测的DNA模板中的固定是通过化学或者物理方法固定于平面片基上，或固定于“96孔板”、“384孔板”及各种修饰的珠子载体上。

5.根据权利要求1所述的带背景验证的信号组合编码的DNA连接测序方法，其特征在于所述的标记物，是采用的荧光基团，或利用测序探针化学的、物理的性质的改变。

6.根据权利要求1所述的带背景验证的信号组合编码的DNA连接测序方法，其特征在于所述的标记物的移除，是标记基团通过化学的、物理的方法与DNA测序探针分离，或者DNA测序探针化学的、物理的性质恢复原有状态；标记物的移除，是仅仅移除标记物本身，或者同时移除与标记物相连或不相连的一个或多个碱基及相关基团。

7.根据权利要求1所述的带背景验证的信号组合编码的DNA连接测序方法，其特征在于所述的第二条测序引物是一组测序引物中除已经使用的测序引物中的任何一条，并不一定是与已使用的测序引物对应在测序模板上杂交位置最为接近的一条。