CN116240272A

CN116240272A - 一种用于获得多核苷酸的序列信息的试剂盒或系统

Info

Publication number: CN116240272A
Application number: CN202310022824.8A
Authority: CN
Inventors: 黄岩谊; 陈子天; 周文雄; 段海峰; 康力; 乔朔
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-11-19
Filing date: 2016-11-16
Publication date: 2023-06-09
Also published as: US12012632B2; WO2017084580A1; CN116083547A; AU2016356395A1; US20210017594A1; US11845984B2; AU2021201594B2; CN116426621A; US10738356B2; AU2016356395B2; US20200407787A1; CN116218970A; US20180251831A1; CN108699599A; AU2021201594A1; EP3377653A1; CA3005671A1; EP3377653A4; CN208038441U

Abstract

本公开提供了一种用于获得目标多核苷酸的序列信息的试剂盒或系统，用于对生物分子如核酸分子进行测序，以及用于检测和/或校正测序结果中测序错误的方法。

Description

一种用于获得多核苷酸的序列信息的试剂盒或系统

本申请是申请日为2016年11月16日，申请号为201680079417.9，发明名称为“获得和校正生物序列信息的方法”的申请的分案申请。

技术领域

本发明涉及一种用于获得多核苷酸的序列信息的试剂盒或系统，属于基因测序领域。

背景技术

高通量测序仪是近几年高速发展的技术。相较于传统桑格测序(Sangersequencing)，高通量测序最大的优势是可以同时读出海量的序列信息。虽然准确性不如传统测序方法，但由于海量数据分析，便可得出超出序列本身的信息，如基因表达量、拷贝数变化。

当今主流测序仪均使用SBS(边合成边测序)方法，如Solexa/Illumina、454、IonTorrent等。这些测序仪的结构相似，都包括流体系统、光学系统和芯片系统。测序反应在芯片内发生。测序过程也很类似，都包括：将反应液通入芯片，发生SBS反应，采集信号，洗涤。接下来，进行新的一轮测序。这是一个循环过程。随着循环的增多，测出连续的单碱基非兼并序列信息(如ACTGACTG)。然而，高通量测序仪无法彻底消除测序错误。测序错误可能来源于：反应偶然错误或累积错误、信号采集错误、信号校正带来的误差等等。现有测序仪中，这些化学或光学、软件上的错误可成为噪声，在单个读出位点无法被识别，只能通过深度测序，利用同一序列在不同位点的多次读出进行消除。更准确的读出是高通量测序发展的重要方向。然而，现有技术对准确性的优化多集中在优化化学反应本身以及后续图像信号处理上，没有从测序逻辑上进行革新。因此存在改进的测序方法的需要。

发明内容

本申请要求以下中国专利申请的优先权：2015年11月19日提交的申请号为CN201510822361.9、标题为“一种磷酸修饰荧光团的核苷酸分子测序方法”的中国专利申请、2015年11月19日提交的申请号为CN201510815685.X、标题为“利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法”的中国专利申请、2015年12月12日提交的申请号为CN201510944878.5、标题为“测序结果中序列数据错误的检测和校正方法”的中国专利申请以及2016年10月14日提交的申请号为CN201610899880.X、标题为“一种从高通量DNA测序的原始信号中读取序列信息的方法”的中国专利申请，所述中国专利申请的全部内容均通过引用整体并入本文。

发明内容并非意图用于限制所要求保护的主题的范围。所要求保护的主题的其他特征、细节、效用和优点将从包括在附图和所附权利要求中公开的那些方面的详细描述中显现。

本文公开了用于获得目标多核苷酸的序列信息的试剂盒或系统，所述试剂盒或系统包括：a)第一测序试剂，其包含至少两种不同的核苷酸单体/第一标记缀合物，所述至少两种不同的核苷酸单体/第一标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的；和b)第二测序试剂，其包含一种或多种核苷酸单体/第二标记缀合物，所述一种或多种核苷酸单体/第二标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入多核苷酸之后基本上是非荧光的，一种或多种核苷酸单体的至少一种不同于第一测序试剂中存在的核苷酸单体，和c)检测器，其用于在将核苷酸单体掺入多核苷酸之后检测第一标记和第二标记导致的荧光发射。在一个实施方案中，试剂盒或系统还包括第一多核苷酸复制催化剂和/或第二多核苷酸复制催化剂。在任何前述实施方案中，第一和/或第二标记缀合于核苷酸单体的末端磷酸基团。在一个实施方案中，试剂盒或系统还包括用于从核苷酸单体的末端磷酸基团释放第一和/或第二标记的活化酶。在任何前述实施方案中，试剂盒或系统还可包括目标多核苷酸被配置为固定化于其上的固体表面。在一个实施方案中，固体表面是微反应器的一部分。

在任何前述实施方案中，试剂盒或系统其还包括基于将核苷酸单体掺入多核苷酸之后由第一标记和第二标记导致的荧光发射获得至少一份目标多核苷酸的序列信息的工具。在一个实施方案中，工具包括含有可执行指令的计算机可读介质，当可执行指令被执行时可基于将核苷酸单体掺入多核苷酸之后由第一标记和第二标记导致的荧光发射获得至少部分目标多核苷酸的序列信息。

在任何前述实施方案中，试剂盒或系统还可包括用于对比多条序列以获得非简并序列和/或减少或消除非简并序列中的序列错误的工具。在一个实施方案中，工具包括含有可执行指令的计算机可读介质，当所述可执行指令被执行时可对比序列以获得非简并序列和/或减少或消除所述非简并序列中的序列错误。

附图说明

图1显示了序列数据错误的校正方法。

图2显示了小提琴图和箱型图示出的第1组至第5组数据的数据分布。黑色代表编码准确性，灰色代表解码准确性。序列中从左到右呈现了第1组至第5组数据。

图3显示了频率分布柱状图，示出了5000条序列数据中每条序列在解码中被修改的信号数目。

图4显示了编码中发生错误的信号的数目、以及解码中被错误修改的信号数目之间的相关关系，横坐标表示编码中发生错误的信号的数目，纵坐标表示解码中被错误修改的信号数目之间的相关关系，颜色的灰度表示该点被计数的次数占所有序列中的比例。

图5显示了均聚物长度对信号线性测定。

图6显示了仅由T组成的均聚物，显示了由四个重复TC组成的均聚物。

图7显示了Bst的温度依赖性活性。

图8显示了固相PCR过程。

图9根据本发明的一个方面，显示了简并碱基荧光基因测序原理。

图10根据本发明的一个方面，显示了简并碱基识别(base-calling)结果。

图11根据本发明的一个方面，显示了ECC测序的信息通讯模型。

图12根据本发明的一个方面，显示了使用动态规划的序列解码结果。

图13根据本发明的一个方面，显示解码提升了ECC测序准确性。

具体实施方式

以下提供所要求保护主题的一个或多个实施方案的详细描述以及说明所要求保护的主题的原理的附图。所要求保护的主题与此类实施方案结合描述，但不限于任何具体实施方案。应理解，所要求保护的主题可以以各种形式来体现，并且涵盖许多替代、修改和等同。因此，本文公开的具体细节不应被解释为限制性的，而是作为权利要求的基础以及作为用于教导本领域技术人员在几乎任何适合的详细系统、结构或方式中采用所要求保护的主题的代表性基础。在以下描述中，提出了许多具体细节，以便提供对本发明的透彻的了解。提供这些细节仅用于示例目的，可以在没有这些具体细节的一些或全部的情况下根据权利要求实践所要求保护的主题。应理解，在不偏离所要求保护主题的范围的情况下，可使用其他实施方案并且可进行结构改变。应理解，在一个或多个单独的实施方案中描述的各种特征和功能不限于它们适用于描述它们的具体实施方案。相反，它们可以单独应用或以某种组合应用于本公开的一个或多个其他实施方案，无论这些实施方案是否被描述，以及这些特征是否被呈现为描述的实施方案的一部分。为了清楚起见，在所要求保护的主题相关的技术领域中已知的技术材料未被详细描述，以免不必要地导致所要求保护的主题模糊不清。

文使用的所有技术术语、符号和其他技术和科学术语意图具有与所要求保护的主题所属领域的普通技术人员通常理解的相同的含义，除非另外定义。在一些情况下，为了清楚和/或便于参考的目的，本文定义了具有通常所理解的含义的术语，并且将此类定义并入本文，但这不应必然理解为表示与本领域通常所理解的含义相比具有实质性的区别。本文描述或参考的很多技术和程序都是本领域技术人员已知并且在使用常规方法时通常采用的。

本申请所涉及的所有出版物，包括专利文件、科学论文和数据库，均出于所有目的以引用的方式整体并入，就如每个单独出版物单独地通过引用并入一样。如果本文阐述的定义与通过引用并入本文的专利、专利申请、公开申请或其他出版物中阐述的定义相反或以其他方式不一致，则本文阐述的定义优先于本文通过引用并入本文的定义。对出版物或文件的引用并不旨在承认它们中的任何一个是相关的现有技术，也不构成对这些出版物或文件的内容或日期的任何承认。

除非特别说明，否则所有标题都是为了方便读者，不应用来限制标题后的文字的含义。

除非另外指出，否则所提供的实施方案的实践将采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和测序技术的常规技术和描述，其在本领域实施的技术人员理解范围之内。此类常规技术包括多肽和蛋白质合成和修饰、多核苷酸合成和修饰、聚合物阵列合成、多核苷酸的杂交和连接以及使用标记检测杂交。参考本文的实施例可以得到合适技术的具体说明。然而，当然也可以使用其他等效常规程序。此类常规技术和描述可见于标准实验室手册，例如Green等人编，Genome Analysis:A LaboratoryManual Series(第I-IV卷)(1999)；Weiner,Gabriel,Stephens编，Genetic Variation:ALaboratory Manual(2007)；Dieffenbach,Dveksler编，PCR Primer:A Laboratory Manual(2003)；Bowtell and Sambrook,DNA Microarrays:A Molecular Cloning Manual(2003)；Mount,Bioinformatics:Sequence and Genome Analysis(2004)；Sambrook and Russell,Condensed Protocols from Molecular Cloning:A Laboratory Manual(2006)；以及Sambrook和Russell,Molecular Cloning:A Laboratory Manual(2002)(均来自ColdSpring Harbor Laboratory Press)；Ausubel等人编，Current Protocols in MolecularBiology(1987)；T.Brown编，Essential Molecular Biology(1991),IRL Press；Goeddel编，Gene Expression Technology(1991),Academic Press；A.Bothwell等人编，Methodsfor Cloning and Analysis of Eukaryotic Genes(1990),Bartlett Publ.；M.Kriegler,Gene Transfer and Expression(1990),Stockton Press；R.Wu等人编，Recombinant DNAMethodology(1989),Academic Press；M.McPherson等人，PCR:A Practical Approach(1991),IRL Press at Oxford University Press；Stryer,Biochemistry(第4版)(1995),W.H.Freeman,New York N.Y.；Gait,Oligonucleotide Synthesis:A Practical Approach(2002),IRL Press,London；Nelson and Cox,Lehninger,Principles of Biochemistry(2000)3rd编，W.H.Freeman Pub.,New York,N.Y.；Berg,et al.,Biochemistry(2002)5th编，W.H.Freeman Pub.,New York,N.Y.；D.Weir&C.Blackwell编，Handbook ofExperimental Immunology(1996),Wiley-Blackwell；Cellular and MolecularImmunology(A.Abbas等人，W.B.Saunders Co.1991,1994)；Current Protocols inImmunology(J.Coligan等人编，1991)，所有所述参考文献均出于所有目的通过引用整体并入本文。

在本公开全文中，所要求保护的主题的各个方面以范围格式呈现。应当理解，范围形式的描述只是为了方便和简洁，并且不应被解释为对所要求保护主题的范围的僵化的限制。因此，范围的描述应被认为已具体公开了所有可能的子范围，以及该范围内的单个数值。例如，在提供一定范围的值的情况下，应当理解，该范围的上限和下限之间的每个中间值以及该规定范围中的任何其他规定值或中间值均涵盖在所要求保护的主题中。这些较小范围的上限和下限可以独立地包括在较小范围内，并且还涵盖在所要求保护的主题中，在规定范围内受到任何明确排除的限制。在所说明范围包括所述限值中的一者或两者时，超出那些包括的限值的任何一者或两者的范围也包括在所要求保护的主题中。这种适用无关于范围的广度。例如，范围诸如从1到6的描述应被认为具体地公开了子范围，诸如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等，以及该范围内的单个数值、例如1、2、3、4、5和6。

I.定义

除非上下文另外明确指示，否则如本文所用，单数形式“一个/种(a/an)”和“所述(the)”包括复数指示物。例如，“一个/种(a/an)”意指“至少一个/种”或“一个或多个/一种或多种”。应理解本文所述的方面和变型包括“由”方面和变型“组成”和/或“基本上由”方面和变型“组成”。

本文所用的术语“约”是指本技术领域的技术人员容易知晓的相应值的常见误差范围。本文中提及“约”某一个值或参数时包括(以及描述)针对所述值或参数本身的实施方式。例如，关于“约X”的描述包括对“X”本身的描述。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中可互换使用以指任何长度的核苷酸的聚合形式，并且包括核糖核苷酸、脱氧核糖核苷酸及其类似物或混合物。术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。其还包含通过例如烷基化和/或通过封端修饰，以及未修饰形式的多核苷酸。更具体地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多脱氧核糖核苷酸(包含2-脱氧-D-核糖)、多核糖核苷酸(包含D-核糖)，其包括tRNA、rRNA、hRNA和mRNA(无论剪接还是未剪接)、为嘌呤或嘧啶碱的N-或C-糖苷的任何其它类型的多核苷酸，以及包含非核苷酸主链的其他聚合物，例如，聚酰胺(例如，肽核酸(“PNA”))和聚吗啉代(polymorpholino)(与Neugene一样，可由Anti-Virals，Inc.，Corvallis，OR商购获得)聚合物，以及其他合成的序列特异性核酸聚合物，条件是聚合物在允许碱基配对和碱基堆积的结构中包含核酸碱基，诸如在DNA和RNA的构造中。因此，这些术语包括例如3'-脱氧-2',5'-DNA、寡脱氧核糖核苷酸N3'至P5'磷酰胺酯、2'-O-烷基-取代的RNA、DNA和RNA之间或PNA和DNA或RNA之间的杂合体；还包括已知类型的修饰，例如，标记、烷基化；“加帽”；一种或多种核苷酸被类似物取代；核苷酸间修饰，例如具有不带电荷的键联(例如甲基膦酸酯、磷酸三酯、磷酰胺酯、氨基甲酸酯等)的修饰；具有带负电荷的键联(例如硫代磷酸酯、二硫代磷酸酯等)的修饰；以及具有带正电荷的键联(例如，氨基烷基磷酰胺酯、氨基烷基磷酸三酯)的修饰；含有侧接部分，例如蛋白(包括酶(例如核酸酶)、毒素、抗体、信号肽、多聚-L-赖氨酸等)的修饰；具有嵌入剂(例如，吖啶、补骨脂素等)的修饰；含有螯合物(例如，金属、放射性金属、硼、氧化金属等的螯合物)的修饰；含有烷化剂的修饰；具有修饰的键联(例如，α异头核酸等)的修饰；以及多核苷酸或寡核苷酸的未修饰形式。核酸通常含有磷酸二酯键，但是在一些情况下可包括具有替代主链的核酸类似物，所述替代主链诸如亚磷酰胺、二硫代磷酸酯或甲基磷酰亚胺键联；或肽核酸骨架和键联。其他核酸类似物包括具有双环结构的那些，包括锁核酸、带正电荷主链(positive backbone)、非离子主链和非核糖主链。可通过对核糖-磷酸主链进行修饰以增加分子的稳定性；例如，PNA:DNA杂合体可在某些环境中展现出更高的稳定性。术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”可包括任何合适长度，诸如至少5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1,000个或更多个核苷酸。

应理解，本文所用的术语“核苷”和“核苷酸”不仅包括已知的嘌呤和嘧啶碱基、还包括被修饰过的其它杂环碱基。此类修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶，或其它杂环。修饰的核苷或核苷酸还可包括在糖基部分上的修饰，例如，其中一个或多个羟基基团被卤素、脂肪族基团取代，或被官能化为醚、胺等。术语“核苷酸单元”意图涵盖核苷和核苷酸。

术语“互补”和“基本上互补”包括杂交或碱基配对，或在核苷酸或核酸之间(例如在双链DNA分子的两个链之间或在寡核苷酸引物和单链核酸上的引物结合位点之间)形成双链体。互补核苷酸通常是A和T(或A和U)或C和G。当一条链的核苷酸(优化地排列和对比以及带有适当的核苷酸插入或删除)与至少约80％的其他链，通常至少约90％至约95％的其他链，甚至约98％至约100％的其他链配对时，可以称为两个单链RNA或DNA分子基本上互补。一方面，核苷酸的两条互补序列能够与相对的核苷酸杂交，优选地少于25％错配，更优选小于15％错配，更加优选小于5％错配，最优选无错配。优选地，两种分子将在高严格性的条件下杂交。

本文所用的“杂交”可以是指两种单链多核苷酸非共价结合以形成稳定双链多核苷酸的过程。一方面，得到的双链多核苷酸可以是“杂合体”或“双链体”。典型的“杂交条件”包括大约小于1M、通常小于约500mM并且可小于约200mM的盐浓度。“杂交缓冲液”包含缓冲的盐溶液，诸如5％ SSPE或本领域已知的其他此类缓冲液。杂交温度可以低至5℃，但通常高于22℃，更通常高于约30℃，通常超过37℃。杂交经常在严格条件下进行，所述严格条件即序列将与其目标序列杂交但不会与其他非互补序列杂交的条件。严格条件是与序列相关的并且在不同情况下是不同的。例如，对于特异性杂交，更长的片段可能需要相比短片段更高的杂交温度。由于包括互补链的碱基组成和长度、存在有机溶剂以及碱基错配程度在内的其他因素可影响杂交的严格性，参数的组合要比单独任一参数绝对度量更重要。通常，严格条件被选择为在限定离子强度和pH下比特定序列的Tm低约5℃。解链温度Tm可以是一群双链核酸分子开始半解离为单链时的温度。用于计算核酸的Tm的多个方程是本领域已知的。如标准参考所示，Tm值的简单估计可通过方程Tm＝81.5+0.41(％G+C)计算，当核酸在水溶液中在1M NaCl下(参见例如，Anderson和Young，Quantitative Filter Hybridization,in Nucleic Acid Hybridization(1985))。其他参考(例如，Allawi和SantaLucia,Jr.,Biochemistry,36:10581-94(1997))包括计算的替代方法，其中考虑将结构和环境以及序列特征用于Tm的计算。

通常，杂合体的稳定性是离子浓度和温度的函数。通常，在较低严格性条件下进行杂交反应，随后以不同但更高的严格性洗涤。示例性严格条件包括在约7.0至约8.3的pH以及至少25℃的温度下，至少0.01M至不超过1M钠离子浓度(或其他盐)的盐浓度。例如，5×SSPE条件(在pH 7.4下，750mM NaCl，50mM磷酸钠，5mM EDTA)和约30℃的温度适于等位基因特异性杂交，不过合适的温度与杂交区域的长度和/或GC含量相关。一方面，确定错配百分比中的“杂交的严格性”可如下所示：1)高严格性：0.1×SSPE，0.1％ SDS，65℃；2)中等严格性：0.2×SSPE，0.1％ SDS，50℃(也称为中度严格性)；和3)低严格性：1.0×SSPE，0.1％SDS，50℃。应理解，使用替代缓冲液、盐和温度可以达到等效严格性。例如，中等严格性杂交可以是指允许诸如探针的核酸分子结合互补核酸分子的条件。杂交核酸分子一般具有至少60％同一性，包括例如至少70％、75％、80％、85％、90％或95％同一性中的任一者。中等严格性条件可以是等效于以下的条件：在50％甲酰胺，5×邓哈特溶液(Denhardt’ssolution)，5×SSPE，0.2％ SDS中在42℃下杂交，随后在0.2×SSPE，0.2％ SDS中在42℃下洗涤。例如，高严格性条件可如下提供：在50％甲酰胺，5×邓哈特溶液，5×SSPE，0.2％SDS中在42℃下杂交，随后在0.1×SSPE和0.1％ SDS中在65℃下洗涤。低严格性杂交可以是指等效于以下的条件：在10％甲酰胺，5×邓哈特溶液，6×SSPE，0.2％ SDS中在22℃下杂交，随后在1x SSPE，0.2％ SDS中，在37℃下洗涤。邓哈特溶液含有1％ Ficoll、1％聚乙烯吡咯烷酮和1％牛血清白蛋白(BSA)。20×SSPE(氯化钠、磷酸钠、EDTA)含有3M氯化钠、0.2M磷酸钠和0.025M EDTA。其他合适的中度严格性和高严格性杂交缓冲液和条件是本领域技术人员所已知的，并且描述于例如Sambrook等人，Molecular Cloning:A LaboratoryManual，第2版，Cold Spring Harbor Press,Plainview,N.Y.(1989)；和Ausubel等人，Short Protocols in Molecular Biology，第4版，John Wiley&Sons(1999)。

或者，当RNA或DNA链将与其补体在选择性杂交条件下杂交时，存在基本互补性。通常，当在至少14至25个核苷酸的序列段上存在至少约65％互补，优选至少约75％，更优选至少约90％互补时，将会发生选择性杂交。参见M.Kanehisa,Nucleic Acids Res.12:203(1984)。

本文所用的“引物”可以是天然的或合成的寡核苷酸，能够在与多核苷酸模板形成双链体后充当核酸合成的启动点，并且能够沿模板从其3'端延伸，从而形成延伸的双链体。通过模板多核苷酸的序列来确定延伸过程中加入的核苷酸序列。通常用聚合酶，例如DNA聚合酶使引物扩增。

“基本上非荧光”的部分是指近似或基本上不发出可检测荧光的部分。例如，在荧光部分和基本上非荧光部分大约相同浓度下，来自荧光部分的可检测绝对荧光发射与来自基本上非荧光部分的可检测绝对值荧光发射的比例为通常大于或等于约500:1，更通常大于或等于约1000:1，更加通常大于或等于约1500:1(例如，约2000:1、约2500:1、约3000:1、约3500:1、约4000:1、约4500:1、约5000:1、约10⁴:1、约10⁵:1、约10⁶:1、约10⁷:1或约10⁸:1)。

“序列测定”等，诸如核苷酸测序方法，包括核酸的核苷酸碱基序列相关信息的测定。该信息可以包括核酸的部分以及全部序列信息的确认或测定。可以用不同程度的统计可靠性或置信度来确定序列信息。一方面，该术语包括确定核酸中多个邻接核苷酸的同一性和排序。“高通量测序”或“下一代测序”包括使用以固有平行方式确定很多(通常数千至数十亿)核酸序列的方法的序列测定，即其中DNA模板被制备用于不是一次一个测序，而是批量处理，并且优选平行读出很多序列，或者使用自身可以平行化的超高通量系列处理。此类方法包括但不限于焦磷酸测序(例如，如由454Life Sciences,Inc.,Branford,CT商业化)；通过连接测序(例如，如在SOLiD^TM技术，Life Technologies,Inc.，Carlsbad，CA中商业化)；通过使用修饰核苷酸合成来测序(诸如在TruSeq^TM和HiSeq^TM技术中由Illumina，Inc.，San Diego，CA商业化；在HeliScope^TM中由Helicos Biosciences Corporation，Cambridge，MA商业化；以及在PacBio RS中由Pacific Biosciences of California，Inc.，MenloPark，CA商业化)，通过离子检测技术(诸如Ion Torrent^TM技术，Life Technologies，Carlsbad，CA)测序；DNA纳米球的测序(Complete Genomics，Inc.，Mountain View，CA)；基于纳米孔的测序技术(例如，如Oxford Nanopore Technologies，LTD，Oxford，UK所开发)，和例如高度并行化的测序方法。

在本文公开的任何实施方案中，获得目标多核苷酸的序列信息的方法可以在多重测定中进行。本文的“多重化”或“多重测定”可以是指测定或其他分析方法其中多个目标(例如多条核酸序列)的存在和/或量可同时被测定，其中每个目标具有至少一种不同的检测特性，例如，荧光特性(例如激发波长、发射波长、发射强度、FWHM(最大峰值一半处的全宽)或荧光寿命)或独特的核酸或蛋白序列特性。

在本文公开的任何实施方案中，目标多核苷酸的测序反应可在阵列，诸如微芯片上进行。阵列可包括例如由设置于阵列上的多个反应室创建的多个反应体积。目标核苷酸序列或其片段可被固定或者固定化于反应体积中，诸如通过吸附或特异性结合到每个反应体积中固体载体上的俘获分子上。在反应混合物中提供反应液并递送至每个反应体积之后，每个反应体积可被封闭和/或与阵列上的其他反应体积分开。然后，可以由每个反应体积检测和/或记录诸如荧光信息的信号。

在本文公开的任何实施方案中，阵列可以是可寻址的。一方面，可寻址性包括微芯片的能力，所述能力引导诸如核酸和酶以及其他扩增组分的物质从微芯片上的一个位置到另一位置(芯片的捕获位点)。在另一方面，可寻址性包括空间编码每个阵列斑点(arrayspot)上的测序反应和/或其测序产物的能力，使得在序列读出之后，测序反应和/或其测序产物可被映射回阵列上的特定斑点，并且与来自该特定斑点的其他识别信息相关联。例如，空间编码标签可被缀合于目标多核苷酸，使得当对缀合目标多核苷酸进行测序时，标记序列揭示了阵列目标所在的位置。

II.测序方法

一方面，本文公开了通过使用磷酸修饰荧光团来对核苷酸分子进行测序的方法。在另一方面，本文公开了使用荧光切换荧光团修饰的核苷酸分子的测序方法。

一方面，本文公开了混合核苷酸的测序方法。在具体实施方案中，本文公开了使用磷酸修饰具有荧光团的混合核苷酸分子的测序方法。此外，本公开还涉及基于具有荧光切换性质的荧光团的测序方法。

一方面，本文公开了使用混合核苷酸分子的测序方法。在具体实施方案中，本文公开了通过使用修饰的具有荧光团的混合核苷酸分子的测序方法。此外，本发明还涉及基于具有荧光切换性质的荧光团的测序方法。本发明将荧光切换测序和混合核苷酸分子测序结合起来，实现了预料不到的技术结果。特殊的信号采集方法和效率使其在基因测序方面前景广阔。

一方面，本文公开了使用核苷酸底物分子的测序方法，其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；每轮测序使用一组反应液，每组反应液包括两份反应液，每份反应液包含具有不同碱基的两种核苷酸。在一个实施方案中，一份反应液中的核苷酸与待测核苷酸序列上的两种碱基互补，另一份反应液中的核苷酸与待测核苷酸序列上的另外两种碱基互补。在一个实施方案中，所述方法包括首先提供待测的核苷酸序列片段(例如，通过将核苷酸序列固定在固体载体上)，然后提供一组反应液中的第一反应液，从而开始第一轮测序。在一个实施方案中，所述方法包括检测和记录来自第一轮测序的荧光信号。在一个实施方案中，所述方法则包括提供同一组反应液的第二反应液，以继续第一轮测序。再次检测和记录荧光信号。一方面，重复上述步骤，第一和第二反应液可以按任何合适顺序相继提供，以通过分析荧光信号获得待测核苷酸序列的编码信息。

在一个实施方案中，每份反应液包含具有不同碱基的两种核苷酸，可以用两种不同的或相同的荧光团标记。

在任何前述实施方案中，可通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面，荧光切换性质是指测序后的荧光信号相比测序反应前的情况有明显改变。

在任何前述实施方案中，荧光切换性质可以是指测序后荧光信号相比测序反应前有明显增强(或者说上升)。

一方面，本文还公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法。一方面，通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面，荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强。每轮测序使用一组反应液，每组反应液包括两份反应液，每份反应液包含两种不同碱基的核苷酸底物分子。一方面，其中一份反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补，另一份反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补。一方面，所述方法包括将待测的核苷酸序列片段固定在反应室中，然后通入一组反应液中的第一反应液。一方面，所述方法包括使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放，从而导致荧光切换。一方面，所述方法包括通入同一组反应液的第二反应液。一方面，所述方法包括使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放，从而导致荧光切换。一方面，所述方法包括以交替方式加入两份反应液，以及通过荧光信息获得待测核苷酸底物的编码信息。

在另一方面，本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法。一方面，通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面，荧光切换性质是指测序后荧光信号强度相比测序反应前的荧光信号强度有明显增强。一方面，每次测序运行使用一组反应液，每组反应液包括至少两份反应液，每份反应液包含A、G、C或T核苷酸底物分子中的至少一种或者A、G、C或U核苷酸底物分子中的至少一种。一方面，首先将待测的核苷酸序列片段固定在反应室中，在反应室中加入来自一组反应液的反应液。测序反应可在合适条件下开始，并记录荧光信号。然后，每次提供一份附加反应液，使得在测序反应中相继提供同一组反应液中的其他反应液。同时，记录来自每份反应液的一个或多个荧光信号。一方面，在包含两种或三种核苷酸分子的反应液组中有至少一份反应液。

在另一方面，本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法，该测序方法是通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸实现的。一方面，荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强。一方面，每次测序运行使用一组反应液，每组反应液至少包括两份反应液，每份反应液包含A、G、C、T核苷酸底物分子中的任一种，或者每份反应液包含A、G、C、U核苷酸底物分子中的任一种。一方面，所述方法包括首先将待测的核苷酸序列片段固定在反应室中，然后通入一组反应液中的一份反应液。一方面，所述方法包括测试和记录荧光信息。一方面，所述方法包括每次加入一份反应液，然后相继加入同一组反应液中的其他反应液。记录来自每次测序反应的荧光信息。

在另一方面，本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法，通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序，荧光切换性质是指测序后荧光信号的强度相比测序反应前的情况明显增强。一方面，每轮测序使用一组反应液，反应液包含A、G、C、T四种核苷酸底物分子，或者反应液包含A、G、C、U四种核苷酸底物分子。一方面，所述方法包括将待测的核苷酸序列片段固定在反应室中，通入反应液，以及记录荧光信息。

在任何前述实施方案中，所述方法还可包括用清洗液清除残留的反应液和荧光分子，然后进行下一轮测序反应。在任何前述实施方案中，反应液可在低温下加入，然后加热至酶反应温度，其中对荧光信号进行检测。在任何前述实施方案中，在反应混合物中加入反应液之后，可封闭反应室，并且可检测和/或记录荧光信息。

在任何前述实施方案中，加入反应液之后，可以用油填充反应室外面的空间，从而将反应室隔离并封闭。在任何前述实施方案中，多聚磷酸的核苷酸底物分子可以是指具有4至8个磷酸分子的核苷酸。在任何前述实施方案中，修饰的具有荧光团核苷酸底物分子可以用一种荧光基团标记，以进行单色测序；或者用不同的荧光团标记，以进行多色测序。

在任何前述实施方案中，所述方法可包括使用酶释放具有荧光切换性质的荧光团的核苷酸底物上的荧光团，其中该酶可任选地包括DNA聚合酶和/或碱性磷酸酶。

在任何前述实施方案中，其中待测核苷酸序列上的两个碱基可包括A、G、C和T碱基或者A、G、C和U碱基中的任何两种；其中碱基C是甲基化C或非甲基化C。

在任何前述实施方案中，反应液可包含酶，即将反应液通入待测基因片段所在的反应区域时，所包含的酶可将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放。

在任何前述实施方案中，反应液和酶可不同时加入；即首先通入一组反应液中的第一反应液，然后通入酶溶液；接下来，通入同一反应液组中的第二反应液，然后通入酶溶液。

在任何前述实施方案中，一组反应液可用于进行一轮测序，或者两组反应液可用于进行两轮测序，或者三组反应液可用于三轮测序。

在任何前述实施方案中，所述方法可包括使用一组反应液进行一轮测序以及获得简并代码结果。

在任何前述实施方案中，所述方法可包括使用两组反应液进行两轮测序，获得碱基序列信息。

在任何前述实施方案中，所述方法可包括用三套反应液进行三轮测序，基于三轮测序之间的交互信息(mutual information)中(任意)两轮测序的(对比)结果进行错误检查和校正。

在任何前述实施方案中，具有荧光切换性质的荧光团可包括具有甲基荧光素、卤代甲基荧光素、DDAO、试卤灵(resorufin)类结构的荧光团。

在任何前述实施方案中，所述方法可包括使用酶将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放，其中最优化任选地包括首先使用DNA聚合酶将多磷酸取代的荧光团释放，然后使用磷酸酶将取代多磷酸切除，从而释放荧光团。

在任何前述实施方案中，反应液可包含两种或多种具有不同碱基的核苷酸，可将该反应液简单分解成两种或者多份反应液，使得每份反应液包含一种或多种核苷酸；并且，至少一份反应液中可包含两种或者三种具有不同碱基的核苷酸。

本文还公开了根据任何前述实施方案的高通量测序方法，其中测序反应在具有多个反应室的芯片上进行。所述方法可任选地包括将待测的核苷酸序列片段固定在反应室中。

在另一方面，本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法，和通过使用5’端多磷酸来修饰具有荧光切换性质的荧光团的核苷酸底物分子进行测序。一方面，本文提供的方法包括首先将待测核苷酸序列片段固定化，以及加入含有核苷酸底物分子的反应液。然后，可使用酶将核苷酸底物上的荧光团释放，从而导致荧光切换。

在一个实施方案中，测序方法还包括利用清洗液清除残留的反应液以及荧光分子，然后进行下一轮测序反应。在任何前述实施方案中，测序方法可包括处于低温下的反应液，然后将该反应液加热至酶反应温度。然后可以检测和/或记录荧光信号。

在任何前述实施方案中，核苷酸底物分子可包括包含A、G、C和T碱基的核苷酸分子或者含有A、G、C和U碱基的核苷酸分子；其中C为甲基化C或非甲基化C。在任何前述实施方案中，核苷酸底物分子可包含经5’端多磷酸修饰的具有荧光切换性质的荧光团。在任何前述实施方案中，核苷酸底物分子可包含经5’端磷酸修饰的具有荧光切换性质的荧光团。

本文还公开了根据任何前述实施方案的方法，其中不同的核苷酸底物分子根据碱基不同，可以连接一种荧光团，进行单色测序，或者连接多种荧光团，进行多色测序。

本文公开了根据任何前述实施方案所述的方法，其中荧光切换性质是指每一步的测序反应后，荧光信号相比测序反应前的情况有明显增强或明显减弱，或者发射光频率范围有明显改变。

本文公开了根据任何前述实施方案所述的方法，其中荧光切换性质是指每一步的测序反应后，荧光信号相比测序反应前的情况有明显增强。

本文公开了根据任何前述实施方案的方法，其中将含有核苷酸底物分子的反应液用于测序。核苷酸底物分子是指A、G、C、T核苷酸底物分子中的任何两种或三种的混合物；或者A、G、C、U核苷酸底物分子中的任何两种或三种的混合物。

本文公开了根据任何前述实施方案的方法，其中将含有核苷酸底物分子的反应液用于测序。核苷酸底物分子是指A、G、C、T核苷酸底物分子中的任何一种；或者A、G、C、U核苷酸底物分子中的任何一种。

本文公开了根据任何前述实施方案使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法，其中每轮测序使用一组反应液，每组反应液包括至少两份反应液，每份反应液包含A、G、C、T核苷酸底物分子中的至少一种，或者每份反应液包含A、G、C、U核苷酸底物分子中的至少一种。一方面，所述方法包括固定待测的核苷酸序列片段，通入一组反应液中的一份反应液，以及记录荧光信息。一方面，所述方法包括每次通入一份反应液，并相继通入同一组反应液中的另一份反应液。一方面，反应液组中有至少一份反应液，该反应液包含两种或三种核苷酸分子。

本文公开了根据任何前述实施方案使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法，其中每轮测序使用一组反应液，每组反应液包括两份反应液，每份反应液包含具有不同碱基的两种核苷酸。一方面，其中一份反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补，另一份反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补。一方面，所述方法包括固定待测的核苷酸序列片段，以及通入一组反应液中的第一反应液。然后，加入同一组反应液中的第二份反应液。两份反应液可以交替方式相继加入，以通过荧光信息获得待测核苷酸底物的编码信息。

在任何前述实施方案中，在测序反应中加入反应液之后，可封闭反应室，然后记录荧光信号。

在任何前述实施方案中，在测序反应中加入反应液之后，用能够将反应室隔离和封闭的油或油类物质填充反应室外面的空间。

在任何前述实施方案中，多磷酸核苷酸底物可以是具有约4至约8个磷酸分子的核苷酸。

在任何前述实施方案中，所述方法可包括使用酶释放具有荧光切换性质的荧光团的核苷酸底物上的荧光团。酶可包括DNA聚合酶和/或碱性磷酸酶。

在任何前述实施方案中，所述方法可包括使用两组反应液进行两轮测序，以及获得碱基序列信息。

在任何前述实施方案中，所述方法可包括使用三份反应液进行三轮测序，以及基于三轮测序中任何两轮测序结果的交互信息(mutual information)进行错误检查和校正。

在任何前述实施方案中，反应液可包含酶。将反应液通入待测基因片段所在的反应区域时，所包含的酶可将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放。

在任何前述实施方案中，反应液和酶可以在不同时间加入。一方面，首先在反应中加入一组反应液的第一反应液，然后加入酶溶液。接下来，加入同一组反应液中的第二反应液，然后加入酶溶液。

在任何前述实施方案中，具有荧光切换性质的荧光团可包括包含诸如甲基荧光素、卤化甲基荧光素、DDAO(7-羟基-9H-(1,3-二氯-9,9-二甲基吖啶-2-酮))和/或试卤灵的基团的荧光团。

在任何前述实施方案中，所述具有荧光切换性质的荧光团的核苷酸底物上的荧光团的释放例如可以使用酶来优化。一方面，优化包括首先使用DNA聚合酶释放被多磷酸取代的荧光团，然后使用磷酸酶切除取代的多磷酸，以释放荧光团。

在任何前述实施方案中，反应液可包含两种或多种具有不同碱基的核苷酸。一方面，可使用两份或多份反应液，使得每份反应液包括一种或多种核苷酸。反应中加入反应液的顺序可以做出适当调整，一方面，至少一份反应液包含两种或三种具有不同碱基的核苷酸。

本文还提供了根据任何前述实施方案的高通量测序方法，其中测序反应在具有多个反应室的芯片上进行。一方面，方法包括将待测的核苷酸序列片段固定化于每个反应室中。

一方面，本发明涉及例如使用混合核苷酸分子的测序方法。更具体地，该测序方法使用修饰(例如经磷酸修饰)的具有荧光团的混合核苷酸分子。此外，本发明还涉及基于具有荧光切换性质的荧光团的测序方法。使用标记有末端磷酸的核苷酸底物对具有荧光切换性质的荧光团进行测序。具有荧光切换性质的荧光团的底物是通过5'端多磷酸或中间磷酸修饰的具有荧光切换性质的荧光团，其特征在于修饰4、5、6或更多个磷酸脱氧核糖核苷酸(包括A、C、G、T、U和其他核苷酸)的末端磷酸或中间磷酸上具有荧光切换性质的荧光团，并且在碱基和3'-羟基上没有标记。该经磷酸修饰的荧光团的吸收光谱和/或发射光谱不同于没有磷酸的荧光团的吸收光谱和/或发射光谱。测序反应通常包括连续且类似的循环。每个循环可包括这样的步骤，如样品注射/涂覆、反应、信号采集和清洗未反应的反应物分子。在之前报告的方法中，当一个带碱基的底物分子进入时，如果其未正确配对将不会出现反应；并且聚合酶将连接底物分子至3'端，释放多磷酸修饰的荧光分子，荧光光谱将会改变。如果与均聚物连续配对，则光谱将会多次改变。在实践中，作为诸如CN104844674涉及的甲基荧光素、卤化甲基荧光素、DDAO、试卤灵和荧光分子等的底物分子的修饰标记，经常使用在末端磷酸酯中没有吸收且释放状态为高量子产率的具有荧光切换性质的荧光团。可以用不同荧光分子来标记四种底物分子。测序过程通过ACGTACGT...中的样品注射或者任何循环或非循环注射过程进行，在有限的阶段中使用包含底物分子的反应液，以获得每个循环的延伸信息，然后获得DNA序列。

一方面，本发明涉及多种核苷酸的测序方法。更具体地，该测序方法使用磷酸来修饰具有荧光团的混合核苷酸分子。通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；每轮测序使用一组反应液，每组反应液包括两份反应液，每份反应液包含两种包含不同碱基的核苷酸；其中一份反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补，另一份反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补；首先，将待测的核苷酸序列片段固定，通入一组反应液中的第一份反应液；测试并记录荧光信息；然后通入同一组反应液中的第二份反应液；测试并记录荧光信息；两份反应液循环加入，通过荧光信息获得待测核苷酸底物的编码信息。

在一些实施方案中，本发明中的反应液是指一般意义上的测序反应液。使辅助溶液如其他清洗液或洗涤液进入反应液之间的空隙。一方面，每份反应液包含两种不同碱基的核苷酸，可以用不同的或相同的荧光团标记。一方面，通过修饰具有荧光切换性质荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；荧光切换性质是指测序后荧光信号相比测序反应前的情况有明显改变。

一方面，荧光切换性质是指测序后的荧光信号相比测序反应前的情况有明显增强(提升)。其发射光的频率很可能会改变，但是发射光的整体强度或发射光在某些频带的强度将会显著增强。

一方面，本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法，其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强；每轮测序使用一组反应液，每组反应液包括两份反应液，每份反应液包含两种不同碱基的核苷酸底物分子；其中一份反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补，另一份反应液中的核苷酸与待测核苷酸序列上的另外两种碱基互补。首先，可将待测的核苷酸序列片段固定在反应室中，然后通入一组反应液中的一份反应液；然后使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放，从而导致荧光切换；然后通入同一组反应液中的第二份反应液；使用酶将具有荧光切换性质的荧光团的核苷酸底物上面的荧光团释放，从而导致荧光切换；两份反应液循环加入，通过荧光信息获得待测核苷酸底物的编码信息。

一方面，本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法，其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强；每轮测序使用一组反应液，每组反应液包括至少两份反应液，每份反应液包含A、G、C或T核苷酸底物分子中的至少一种，或者A、G、C或U核苷酸底物分子中的一种。一方面，可首先将待测的核苷酸序列片段固定在反应室中，通入一组反应液中的一份反应液；测试并记录荧光信息；每次通入一份反应液，相继通入同一组反应液中的另一份反应液。同时，可在通入每份反应液之后检验和记录荧光信息，其中反应液组中有至少一份反应液，该反应液包含两种或三种所述反应液组中的核苷酸分子。

一方面，本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法，其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强；每轮测序使用一组反应液，每组反应液包括至少两份反应液，每份反应液包含A、G、C或T核苷酸底物分子中的任一种，或者A、G、C或U核苷酸底物分子中的任一种。一方面，可首先将待测的核苷酸序列片段固定在反应室中，通入一组反应液中的一份反应液；测试并记录荧光信息；每次通入一份反应液，相继通入同一组反应液中的另一份反应液。同时，可在通入每份反应液之后测试和记录荧光信息。

一方面，本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法，其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序；荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强；每轮测序使用一组反应液，反应液包含A、G、C和T核苷酸底物分子，或者A、G、C和U核苷酸底物分子。一方面，可将待测的核苷酸序列片段固定在反应室中，通入反应液，然后测试和记录荧光信息。

一方面，所述方法还包括利用清洗液清除残留的反应液以及荧光分子，然后进行下一轮测序反应。一方面，所述方法包括在低温下传送反应液，然后将其加热至酶反应温度，并测试荧光信号。一方面，通入反应液之后，所述方法包括将反应室封闭，然后测试和记录荧光信息。

一方面，通入反应液之后，所述方法包括用油填充反应室外部的空间，从而将反应室隔离和封闭。一方面，多磷酸的核苷酸底物分子是指具有4-8个磷酸分子的核苷酸。一方面，修饰有荧光团的核苷酸底物分子，根据碱基的不同，可以用一种荧光基团标记，进行单色测序；也可以用不同的荧光团标记，进行多色测序。

一方面，所述方法包括下列步骤：使用酶(例如DNA聚合酶和/或碱性磷酸酶)将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放。一方面，待测核苷酸序列上的两种碱基是指A、G、C和T碱基中的任何两种或者A、G、C和U碱基中的任何两种，其中碱基C是甲基化C或非甲基化C。一方面，当将反应液通入待测基因片段所位于的反应区域时，反应液中的酶可以释放具有荧光切换性质的荧光团的核苷酸底物上的荧光团。一方面，所述方法包括使用一组反应液进行一轮测序，以及获得简并代码结果。一方面，所述方法包括使用两组反应液进行两轮测序，以及获得碱基序列信息。一方面，所述方法包括使用三份反应液进行三轮测序，并基于三轮测序之间的交互信息中(任意)两轮测序结果进行错误检查和校正。

一方面，本发明涉及混合核苷酸分子的测序方法。更具体地，该测序方法使用磷酸来修饰具有荧光团的混合核苷酸分子。相比未经磷酸修饰的混合核苷酸的测序方法，本方法容易水解，反应完成后未引入其他基团，这有利于延伸测序反应，并且测序反应简单。

一方面，本发明涉及通过使用5’端多磷酸来修饰具有荧光切换性质的荧光团的核苷酸底物分子的混合核苷酸分子的测序方法。一方面，所述方法包括首先固定待测的核苷酸序列片段，并通入包含核苷酸底物分子的反应液。一方面，所述方法包括使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放，从而导致荧光切换。一方面，所述方法还包括利用清洗液清除残留的反应液以及荧光分子，然后进行下一轮测序反应。

在另一个实施方案中，本发明将荧光切换测序和混合核苷酸分子测序结合起来，实现了预料不到的效果。例如，用荧光切换为混合核苷酸分子测序提供了数据冗余和检查的特性，改进了测序数据的准确性。而且，3'端封闭测序还使得序列反应中并不需要实时采集信息，提高了信号的准确性。独立于测序化学原理本身，可与不同的测序化学配合。更进一步的，荧光切换性质的2+2模式(每次进入两个碱基的测序方式)与其它混合核苷酸分子测序相比优势明显。例如，数据解析相对容易，并且还提供了数据冗余和校验的特性。特殊的信号采集方法和效率使其在基因测序方面前景广阔。基于荧光切换的多碱基测序，相比基于非荧光切换的核苷酸分子测序，降低了错误率，并且使得反应更加简单。采用本公开的荧光切换方法的混合核苷酸分子测序方法具有高达99.99％的测序准确率，超过Illumina测序的读长，可以达到300nt或300nt以上，并且原料成本非常低。其采用先反应后扫描的方法，无通量的限制。其单轮反应所需时间较短，可以做到快速测试。采用荧光切换和多种核苷酸分子混合测序的策略，可以延长每个反应循环的序列读长和信息量。比如，Illumina测序每个反应循环读长为1nt(1个碱基)，信息量为2比特。2+2(每次进入两种具有不同碱基的核苷酸分子，使用共计两份反应液)单色测序在每个反应循环的读长为2nt，信息量为2比特。一方面，2+2双色测序在每个反应循环的读长为2nt，信息量为3.4比特。

在一些方面，本文提供荧光发生和荧光发生荧光团。一些荧光团具有取代基发生改变时，荧光光谱(吸收和反射光谱)发生变化的特性，称为荧光切换。一方面，当在特定的激发和采集(发射)条件下，采集到的信号强度上升，称为荧光发生。

在一些方面，本文提供核苷酸和核苷酸标记。一方面，核苷酸分子由核糖骨架，葡糖苷位置上的碱基分子，以及核糖骨架上的5位羟基上连接的多磷酸链构成。核糖环的2C上可以连接有羟基(成为核糖核苷酸)，或仅连接有H(称为脱氧核糖核苷酸)。核苷酸分子可以是4种主要碱基ACGT、尿嘧啶和修饰了的碱基如甲基化碱基、羟甲基化碱基等。磷酸骨架的数目可以为1-8个。其可在多个位置修饰分子基团。在碱基上，核糖骨架的3C羟基上可以有一个或多个修饰位置。例如，磷酸上修饰了荧光团，3C上修饰了乙炔基。

一方面，在发生聚合酶链式反应时，3C上未修饰的多磷酸核苷酸底物(多于3个磷酸)具有3个活性羟基。一方面，只要接下来的碱基依旧可以配对，则聚合酶反应会持续发生，直到缺少配对碱基或结合了3C非羟基的核苷酸分子。在一些方面，本文提供荧光发生核苷酸。一方面，核苷酸分子处于磷酸末端并且标记可被磷酸水解过程切换的荧光发生荧光团，称为荧光发生(或荧光生成)核苷酸。磷酸链的长度可以是4-8。

一方面，磷酸可在末端或侧链上。标记数目可为一个或多个。多个标记可相同或不同。更准确地说，一方面，称其为聚合酶荧光发生核苷酸。另一方面，也可使用不标记在磷酸位置上，也不需要聚合酶的荧光发生的荧光发生核苷酸。核苷酸分子可为核糖核苷酸、脱氧核糖核苷酸或3’C上修饰了的(脱氧)核糖核苷酸。

在一些方面，本文提供荧光发生核苷酸聚合酶反应。一方面，荧光发生核苷酸聚合酶反应使用荧光发生核苷酸，核酸聚合酶(DNA聚合酶)，磷酸酶，与核酸底物一起。在一些实施方案中，首先，DNA聚合酶将荧光发生核苷酸聚合进入核酸底物中，以释放出磷酸化的荧光发生荧光团，然后进一步被磷酸酶水解去除磷酸，并释放荧光状态改变的荧光发生荧光团。

在一些方面，本文提供荧光发生测序方法。一方面，所述方法的目的是利用荧光发生核苷酸聚合酶反应，测试荧光发生荧光团的荧光改变(光强度和光谱)，便可以得到聚合酶发生反应的信息。在一些方面，本文提供荧光发生测序反应液，可包含荧光发生核苷酸、核酸聚合酶(DNA聚合酶)和磷酸酶。

如本文所述的“荧光发生核苷酸”可包含一种或多种荧光发生核苷酸。如本文所述的“核苷酸”可包含一种或多种核苷酸。在一些实施方案中，多种核苷酸可标记有相同或不同的荧光发生底物。在一些方面，本文提供一套荧光发生测序反应液，可包含两种或多种荧光发生测序反应液，例如包含特定浓度的A、C、G和T反应液，或包含特定浓度的AC和GT反应液。

在一些方面，本文提供荧光测序反应循环，可包括使用一种测序反应液来进行一次荧光发生聚合酶反应并测试荧光信号。在一些方面，本文提供一轮荧光发生测序反应，可包括使用一套荧光发生测序反应液组的成员，按照确定顺序进行测序反应循环。在一些方面，本文提供一组荧光发生测序反应，可包括一轮或多轮荧光发生测序。

在一些方面，本文提供单碱基分辨测序反应。一方面，一种方式是(2+2单色两套)，第一份反应液由两种碱基混合(如AC)，第二份反应液由另外两种碱基混合(则为GT)，将两份反应液交替用于测序。这时，每个循环延伸碱基的数目会增加。在N轮测序后，延伸碱基的数目为2N nt。携带的信息为2N比特。完成上述测序的有3个组合，即AC/GT、AG/CT和AT/CG；或按照标准简并碱基(简并核苷酸)标识，写作M/K、R/Y和W/S。三种组合可以分别测序，或再完成一套测序后，再重新测序。DNA序列上测定的第i个碱基一定在两套测序中的某唯一循环中发生配对反应并释放信号。每套测序中，确定的碱基取样注射循环包括两种类型，所以共有2×2＝4种可能的情况，正好对应于四种碱基。测序组合的先后顺序不影响碱基的推断。

表1

表2

表3

在进一步的具体实施中，所述方法还包括在完成两套不同的测序后，使用第三套不同的反应液组合进行测序。DNA序列上测定的第i个碱基必须在三套测序中的某唯一循环中发生配对反应并释放信号。每套测序中，确定的碱基取样注射循环包括两种类型，所以共有2×2×2＝8种可能的情况，只有其中四种是合理的，另外四种不合理。在荧光切换测序中，很可能出现插入或删除错误。针对某一碱基，三套测序中的一套出现测序错误，则无法正确推断出序列，并可断定三套测序中的一套或多套在此处定有测序错误出现。

表4

这种错误可以被校正，因为当单套数据中的测序错误被校正时，后续的大量错误会一并被校正。

另一种具体实施方式是2+2双色两轮模式。第一份反应液由两种碱基的混合物制成，并且携带不同的荧光标记(如AX/CY)，第二份反应液由另外两种碱基的混合物制成(则为GX/TY)。在此情况下，每个循环延伸的碱基会变多，平均为2nt。携带的信息为2N比特。

III.检测和/或校正测序错误的方法

一方面，本文涉及检测和/或校正测序结果中一个或多个序列数据错误的方法，属于核酸测序领域。

一方面，本文提供检测和/或校正测序结果中序列数据错误的方法。一方面，测序反应液包含至少两种类型的具有不同碱基的核苷酸底物分子。一方面，可获得简并基因编码信息。通过对比两种或多种简并编码信息，可以确定一种或多种核苷酸残基中是否出现冲突序列信息。使用本方法来校正序列信息，任何可减少原测序数据中测序错误率的较小改进均可导致校正的序列信息错误率更显著的减少。

一方面，本文公开了检测和/或校正测序结果中序列数据错误的方法。一方面，所述方法包括对核酸序列进行测序，以获得三条或多条正交核苷酸简并序列的序列数据。在另一方面，所述方法还包括通过对比三条或多条正交核苷酸简并序列，检测序列中的错误。一方面，在对比出现错误的位置，通过修改至少一条序列，获得校正的序列。

本文还公开了检测和/或校正测序结果中序列数据错误的方法，其中所述方法包括对核苷酸序列进行测序反应，以获得三条或多条用字母M、K、R、Y、W、S、B、D、H和V表示的简并序列。一方面，根据IUPAC的核酸符号，用表5中的字母表示本发明中的简并碱基。例如，M代表A和/或C碱基。

表5：表示简并碱基的字母

字母	所代表的碱基
		M	AC
K	GT
		R	AG
Y	CT
		W	AT
S	CG
		B	CGT
D	AGT
		H	ACT
V	ACG

在任何前述实施方案中，通过对比三条或者多条简并序列，可以检测序列错误。在任何前述实施方案中，在对比期间识别出错误的核苷酸位置，通过修改至少一条序列，可以获得校正的序列；在任何前述实施方案中，对比期间识别出错误的位置可以是测序错误实际发生的位置。

在另一方面，本文公开了检测和/或校正测序结果中序列数据错误的方法，其中所述方法包括对相同核酸序列进行测序，获得两条或多条用字母M、K、R、Y、W、S、B、D、H和V表示的简并序列，以获得核酸残基A、G、T和C中表示的序列信息或核酸残基A、G、U和C中表示的序列信息。在另一方面，所述方法还包括通过使用在测序反应中偶联至不同碱基的一个或多个官能团所产生的光或电信号来检测序列错误。例如，来自在测序反应中偶联至不同碱基的不同荧光基团的光或电信号可用作“冗余”信息，该信息区分序列中特定位置处的一个碱基与另一碱基。在任何前述实施方案中，在对比期间发现错误的核苷酸位置，通过修改至少一条序列，可以获得校正的序列；在任何前述实施方案中，对比期间识别出错误的位置可以是测序错误实际发生的位置。

另一方面，本文公开了利用核酸序列的记忆性来检测和/或校正测序结果中的序列错误的方法。一方面，所述方法包括对同一核酸序列进行测序，以获得三条或者三条以上正交的核酸简并序列的数据。在另一方面，所述方法还包括综合对比简并序列，以及利用核酸序列的记忆性来检测序列错误。一方面，在对比出现错误的位置，通过修改至少一条序列，可以获得校正的序列。在一些实施方案中，每条简并序列仅代表实际多核苷酸模板的部分序列信息，并且在一条简并序列位置的核苷酸同一性不能表明或不一定表明在另一条简并序列的相同位置的核苷酸同一性。

一方面，本文公开了检测和/或校正测序结果中序列数据错误的方法，其中所述方法包括将序列待测的核酸片段固定在载体上，以及提供反应液以引发测序反应，从该测序反应中获得简并核酸序列。测序反应可重复多轮，使得从每轮测序获得简并核酸序列。N轮测序后，可获得N条简并核酸序列。一方面，通过综合对比N条简并序列，可以检测序列出现错误的位置。一方面，所述方法还可包括在对比出现错误的位置，通过修改至少一条序列，获得校正的序列。在任何前述实施方案中，反应液可包含两种或者多种类型的具有不同碱基的核苷酸底物分子。在任何前述实施方案中，N可以是等于或大于2的正整数。

在任何前述实施方案中，所述方法可包括对比N条简并核酸序列中的N-1条，以获得用A、G、T和C编码的核酸序列信息或用A、G、U和C编码的核酸序列信息。一方面，所述方法还包括对比N条简并核酸序列。在任何前述实施方案中，N可以是等于或大于3的正整数。

在任何前述实施方案中，所述方法可包括对比N条简并核酸序列，以获得用A、G、T和C编码的核酸序列信息或用A、G、U和C编码的核酸序列信息。一方面，所述方法还包括通过使用偶联至核苷酸残基的两个或多个官能团提供的光和/或电磁信息，检测出现错误的位置。在任何前述实施方案中，N可以是等于或大于2的正整数。

在另一方面，本文公开了检测和/或校正测序结果中序列数据错误的方法，其中该方法包括将待测核酸片段固定在载体上。一方面，所述方法还包括提供反应液以引发测序反应，其中所述反应液包含用于测序的核苷酸底物分子并且根据不同碱基被分为三组，每组包括两种不同反应液，每份反应液包含具有不同碱基的核苷酸底物分子。一方面，同一组反应液中两份反应液中的核苷酸的碱基之间没有交集(intersection)。一方面，每轮测序使用一组反应液，提供每组的两份反应液，从而与核酸模板以任何合适的顺序相继反应。一方面，使用三组反应液进行三轮测序，以得到三条简并序列。另一方面，通过综合对比三条简并序列，可以检测序列出现错误的位置。在一个实施方案中，在对比出现错误的位置，通过修改至少一条序列，可以获得校正的序列。

在任何前述实施方案中，测序反应可通过使用具有荧光切换性质的荧光团修饰的核苷酸底物分子(诸如dNTP或ddNTP)进行，其中修饰是在核苷酸底物分子的5’-端多磷酸基团上。一方面，荧光切换性质可以是指测序之后的荧光信号相比测序反应前的情况有明显改变。在另一方面，将核苷酸底物经聚合酶催化并入延伸引物后出现荧光切换。一方面，将待测的核苷酸序列片段固定于载体上，然后提供包含核苷酸底物分子的反应液，从而与模板核苷酸序列片段反应。一方面，然后将酶用于从并入延伸引物(和双链体聚合酶延伸产物)的核苷酸底物释放荧光基团，以导致荧光切换。

一方面，每一步的测序反应后，荧光信号相比测序反应前的情况可明显增强或减弱，或者发射光的频率明显改变。

在任何前述实施方案中，序列错误可包括插入和/或删除。在任何前述实施方案中，当至少两条简并核酸序列在某位置不具有公共碱基时可以认为在该位置出现了序列数据错误。

在任何前述实施方案中，校正序列错误可包括校正至少一条序列的核苷酸残基，使得校正的序列在校正的核苷酸残基后面的至少一个位置具有正确核苷酸残基。一方面，如果在相同核苷酸残基位置确定的任何两轮序列的核酸序列信息与另一轮测序的核酸序列信息并没有不一致，则核苷酸残基是正确的。

在任何前述实施方案中，校正序列错误可包括校正至少一条序列的错误，使得在序列的至少一个位置的公共核苷酸残基可通过对比来自多轮测序的序列信息获得。

在任何前述实施方案中，校正序列错误可包括延伸(例如，通过在认为已出现错误的位置插入核酸残基)和/或缩短(例如，通过删除在认为已出现错误的位置的核酸残基)表示来自多轮测序的核酸序列信息的序列。一方面，通过延伸和/或缩短来自多轮测序的至少一条序列，校正的序列将与来自至少一个核苷酸残基位置的其他轮的序列一致。

在任何前述实施方案中，核酸序列的记忆性可以是指在测序结果中，在特定位置的核酸序列信息不仅涉及模板中其相应核酸中的核苷酸残基，还涉及该序列信息之前的序列信息。

在任何前述实施方案中，使用来自其他两轮测序的测序信号，可以将测序信号中的序列延伸(例如，通过在认为已出现错误的位置插入核酸残基)某些长度，以获得校正的核酸序列。在任何前述实施方案中，使用来自其他两轮测序的测序信号，可以将测序信号中的序列缩短(例如，通过在认为已出现错误的位置删除核酸残基)某些长度，以获得校正的核酸序列。

在任何前述实施方案中，反应液可以根据不同碱基被分为三组，其中碱基包括A、G、C和T碱基或者A、G、C和U碱基。在任何前述实施方案中，碱基可以被甲基化，羟甲基化或被醛基或羧基修饰，或者非甲基化、非羟甲基化，或不被醛基或羧基修饰。

在任何前述实施方案中，核苷酸底物反应液可包含不同碱基，可以根据不同碱基被分为两份反应液，例如，一份反应液中A+G而另一份反应液中C+T；一份反应液中A+C而另一份反应液中G+T；或一份反应液中A+T而另一份反应液中C+G。

在任何前述实施方案中，反应液可包括多份反应液，一份反应液可用于测序反应。一方面，每轮测序使用一份或多份反应液。在另一方面，至少一份反应液包含两种或者多种类型的具有不同碱基的核苷酸底物分子。在任何前述实施方案中，不同轮测序中使用的反应液包含不同的核苷酸底物分子组合。

在任何前述实施方案中，核苷酸底物分子可通过荧光进行标记。一方面，荧光基团(或通过化学反应将具有荧光切换性质的官能团)被偶联至核苷酸残基的碱基。一方面，可使用荧光团或官能团中的一种修饰核苷酸底物分子，或者可以使用多个荧光团或官能团，用不同碱基修饰核苷酸底物分子。

随着近年来人们对基因的理解日益深入，基因测序已经为药学和生物学带来巨大变化。常规测序方法包括桑格DNA、限制性片段长度多态性、单链构象多态性以及基于基因芯片的等位基因特异性寡核苷酸杂交测序方法。由于测序过程中的各种影响因素，诸如不准确的CCD发光、流体移动、环境光、杂DNA、信号校正系统出错或测序反应液不纯，在测序结果中会不可避免地出现错误。作为遗传物质，DNA存储了生物体遗传信息，这一特征也使得DNA能够被用作基本信息的存储介质。当将DNA用于储存信息时，需要将该信息编码至DNA序列中，然后用基因测序方法读取信息。为避免编码和/或读数错误，冗余信息经常会被引入编码过程，会将其用于进行读数中的信号校正。例如，George Church等人，“Next-Generation Digital Information Storage in DNA,”Science，2012，使用Reed Solomon代码将信息编码至DNA序列中，并且使用Illumina测序平台读取DNA序列中的信息。DNA编码-读数技术也用于组合化学及其他领域。在之前的DNA编码技术中，每个碱基的类型通常与其他位置的碱基无关(无记忆编码)，或仅与其邻近的碱基有关。本文提供基于记忆的、分布式、正交DNA编码方法，并且每个碱基的类型与其前面位置的所有碱基有关。此外，方法可基于多组正交代码的综合对比，有效改进编码读数过程直到解码的准确率。

一方面，本发明提供测序结果中编码错误的检测和/或校正方法，其中所述方法包括对同一核酸序列进行测序，以获得三条或多条正交的核苷酸简并序列数据，其中通过对比三条或多条正交的核酸简并序列，可以检测序列中的错误，并且其中通过在对比期间发现错误的位置修改至少一条序列，可以获得校正的序列。

一方面，本发明提供测序结果中代码错误的检测和/或校正方法，其中所述方法包括对同一核酸序列进行测序，以获得三条或多条用字母M、K、R、Y、W、S、B、D、H和V表示的简并序列数据，其中通过对比三条或多条简并序列，可以检测序列中的错误，并且其中通过在对比期间发现错误的位置修改至少一条序列，可以获得校正的序列。一方面，方法适用于常规测序。在另一方面，只要合理设计测序底物，可通过多轮测序获得三个或多个编码结果，其中信息的冗余可用于检测和/或校正错误代码。

一方面，本发明提供利用基因代码的记忆性检测和/或校正代码错误的方法，其中该方法包括对同一核酸序列进行测序，以获得两条或者多条用字母M、K、R、Y、W、S、B、D、H、V表示的简并序列，或者获得用A、G、T、C编码的核酸序列信息，或者用A、G、U、C编码的核酸序列信息，其中将测序反应中由不同碱基上连接的不同官能团导致的光或电信号作为冗余信息，从而检测序列错误，其中通过在对比期间发现错误的位置修改至少一条序列，可以获得校正的序列。

一方面，本发明提供利用基因代码的记忆性检测和/或校正代码错误的方法，其中该方法包括对同一核酸序列进行测序，以获得三条或者多条正交的核苷酸简并序列数据，以及将简并序列综合对比，并利用核酸序列的记忆性检测序列错误，其中通过在对比期间发现错误的位置修改至少一条序列，可以获得校正的序列，其中在简并序列中，每个序列信号表示部分基因序列信息，其中并不能从中间一个此类简并序列上的信号来推定另一条简并序列上同一位置的信号。

在任何前述实施方案中，所述方法可包括将待测核酸片段固定在载体上，提供反应液以引发测序反应，使得每轮测序均获得简并核酸序列；至少经过N轮测序，获得N条简并的核酸序列，其中通过综合对比N条简并序列，可以检测序列出现错误的位置，其中通过在对比期间发现错误的位置修改至少一条序列，可以获得校正的序列，其中反应液可含有两种或者多种类型的具有不同碱基的核苷酸底物分子，并且其中N为等于或大于2的正整数。

一方面，通过对比N-1条简并的核酸序列，可以获得用A、G、T、C编码的核酸序列信息，或用A、G、U、C为编码的核酸序列信息，并且通过对比N条简并的序列，可以检测序列错误的位置。N可以是等于或大于3的正整数。

一方面，通过对比N条简并的核酸序列，可以获得用A、G、T、C编码的核酸序列信息，或用A、G、U、C为编码的核酸序列信息，并且通过对比N条简并的序列，可以检测序列错误的位置。一方面，出现错误的位置可使用连接于碱基的两个或多个官能团所提供的发光信息检测，并且N为等于或大于2的正整数。在另一方面，所述方法包括在反应过程中释放的磷酸和氢离子等分子的信息的测序反应中，将碱基自身的信息变化作为冗余信息，从而进行校正。

一方面，本发明提供检测和/或校正测序结果中代码错误的方法，其中该方法包括固定待测核酸片段，提供反应液以引发测序反应，其中根据不同碱基将用于测序的核苷酸底物分子的反应液分为三组，每组包括两份不同反应液，每份反应液包含具有不同碱基的核苷酸底物分子。一方面，两份反应液中的核苷酸的碱基之间没有交集。在另一方面，每轮测序使用一组反应液，每组的两份反应液交替提供。一方面，所述方法包括使用三组反应液进行三轮测序，以获得三条简并序列，出现错误的位置可通过综合对比三条简并序列来检测，并且可通过在对比期间发现错误的位置修改至少一条序列来获得校正的序列。

一方面，可将含有两种不同碱基的反应液分为两份反应液；方法的其他步骤可以相应地调整。

一方面，反应液可包含多份反应液，一份用于每次测序，其中每轮测序使用一份或多份反应液，其中至少一份反应液含有两种或更多种类型的具有不同碱基的核苷酸底物分子，并且其中用于不同轮测序的反应液包含核苷酸底物分子的不同组合。

一方面，本发明的测序包括通过使用5’-端多磷酸修饰具有荧光切换性质的荧光团的核苷酸底物分子来测序，其中荧光切换性质是指测序后的荧光信号相比测序反应前的情况有明显改变，其中首先将待测核苷酸序列片段固定在载体上，然后提供含有核苷酸底物分子的反应液，然后使用酶将核苷酸底物上的荧光团释放，从而导致荧光切换。

一方面，“测序后荧光信号相比测序反应前有明显改变”是指，每一步的测序反应后，荧光信号相比测序反应前的情况有明显增强或明显减弱，或者发射光频率范围有明显改变。

一方面，序列错误是指插入错误或删除错误。另一方面，序列数据错误是指，当至少两条核酸序列信息在同一位置不表示相同的碱基的时候，认为出现错误。在又一方面，所述方法包括校正至少一条序列的错误，使得在至少一个位置上的后续序列是正确的，其中序列是正确的是指任何两轮序列在同一位置确定的核酸序列信息，同另一轮序列的核酸序列信息不矛盾，或者说，任何两轮序列在同一位置表示的核酸序列信息，同连接到碱基的官能团所提供的发光信息或者另一测序过程中的信息不矛盾。

一方面，所述方法包括通过以下方式校正序列：校正至少一条序列的错误，使得通过综合对比至少一个位置上的序列可以获得公共碱基。

一方面，通过修改至少一条序列，可在出现错误的位置通过延伸或缩短表示核酸序列信息的序列来获得校正的序列，其中延伸或缩短是指同一检测序列长度的增长或减短，其中当编码导致该位置缩短或延伸时，代码所表示的序列信息不变，结果为相同代码。例如，当简并代码M的信号强度为2，即MM时，可将其延伸至3，即MMM。

一方面，核酸序列的记忆性是指，测序结果中，某一位置的核酸序列信息，不仅和它所对应的待测核酸上的序列有关系，还和它前面的序列信息有关系。

一方面，通过延伸或缩短某位置的一些测序信号，将该位置所代表的基因序列延伸或缩短，以使用其他两轮测序信号获得校正的核酸序列，其中延伸测序信号包括将该位置所代表的基因序列加入或插入特定长度，其中缩短一些测序信号包括将该位置所代表的基因序列缩短或删除特定长度，以及使用其他两轮测序信号获得校正的核酸序列。

一方面，根据碱基不同将反应液分为三组，其中该碱基是指A、G、C、T碱基或A、G、C、U碱基，并且其中碱基可以是甲基化、羟甲基化、具有醛基或羧基的碱基，或者是非甲基化、非羟甲基化、无醛基或羧基的碱基。

一方面，可以将包含两种不同碱基的核苷酸底物反应液根据碱基的不同分成两份反应液。

一方面，核苷酸底物分子可通过荧光进行标记。一方面，所述方法包括对通过核苷酸底物分子的碱基上的化学反应对具有荧光切换的荧光团或官能团进行修饰。在另一方面，可使用荧光团或官能团中的一种修饰核苷酸底物分子，或者可以使用多个荧光团或官能团，用不同碱基修饰核苷酸底物分子。

一方面，通过每轮测序可以获得一组简并基因序列信息。一方面，简并基因序列信息是指包含可能的基因序列信息。例如，当反应液包含具有A和G碱基的核苷酸底物分子时，测序获得的简并基因序列信息包含待测核苷酸序列中C和/或T碱基的基因序列信息。当反应液包含具有A和T碱基的核苷酸底物分子时，测序获得的简并基因序列信息包含待测核苷酸序列中C和/或G碱基的基因序列信息。当反应液包含具有A和C碱基的核苷酸底物分子时，测序获得的简并基因序列信息包含待测核苷酸序列中C和/或T碱基的基因序列信息。当反应液包含具有C和G碱基的核苷酸底物分子时，测序获得的基因序列信息包含待测核苷酸序列中A和/或T碱基的基因序列信息。当反应液包含具有C和T碱基的核苷酸底物分子时，测序获得的基因序列信息包含待测核苷酸序列中A和/或C碱基的基因序列信息。而当反应液包含具有T和G碱基的核苷酸底物分子时，测序获得的基因序列信息包含待测核苷酸序列中C和/或A碱基的基因序列信息。

一方面，在三轮测序的信息的综合对比中，如果一轮测序的信号所表示的基因序列信息是偏大错误测序信号，则可以缩短该序列信号所表示的基因序列信息，使得后面至少一个测序信号的对比结果是正确的。

一方面，在三轮测序的信息的综合对比中，如果一轮测序的信号所代表的基因序列信息是较小错误序列信号，则可在该位置所代表的基因序列信息中加入空位或将其延伸，使得此后至少一个测序信号的对比结果得以校正。例如，当简并代码M的信号强度为2，即MM时，可将其延伸至3，即MMM。

一方面，本文提供了检测和/或校正基因测序编码结果中的错误的方法，特别是使用包含具有两种或多种碱基的核苷酸底物分子的一份或多份反应液的测序方法。在一个特定方面，本方法适用于测序用的SBS(通过合成测序)方法。

一方面，本文的简并基因序列信息包括给定目标(或模板)序列的可能的基因序列信息。例如，当反应液包含具有A和G碱基的核苷酸底物分子时，测序获得的简并基因序列信息包含待测核苷酸序列中C和/或T碱基的基因序列信息。假定由测序反应获得的强度信息为3，则意味着待测基因可包含三个C和/或T，诸如三个C或三个T、或一个C和两个T、或一个T两个C，并且无法基于简并序列区分T和/或C的准确相对位置。简并基因序列信息和简并代码是本领域通常使用的术语。

一方面，本文所述的方法可以检测和/或校正测序中的错误，但所述方法无法完全消除序列错误。有可能序列信号中被修改的特定位置不是出现测序错误的实际位置，但概率极其低。最终准确性可进一步改进。例如，如果将MK、RY和WS的修饰信号放在一起，连续N次信号中修改了两次，将认为很可能已经出现错误，并且应当丢弃对应的序列。这里的N可以是等于或大于2的正整数。N值越大，则序列应当丢弃的概率越高，最终解码比率也是如此。一方面，本文中N的优化值为3。

DNA序列为共聚物，例如，DNA区域包括两种不同的脱氧核糖核苷酸，诸如AAC和GGTG。

一方面，检测和/或校正序列数据错误的方法可以检测出现错误的位置，和/或校正序列错误。

一方面，在实际测序过程中，所述方法包括首先通过循环测序反应获得光学或其他信号的相对强度值，此强度值可以特定形式表示。例如，M表示位置的信息和该位置碱基的量(可接受多个碱基)，也可表示简并基因编码结果。通过解码足够量信息的相对强度值，可获得待测的基因序列信息。

一方面，递送或提供试剂或反应液意指向容器中加入试剂或反应液，例如测序反应的反应混合物。一方面，可使用三轮或更多轮测序。可选地，可使用两轮或更多轮测序。一方面，测序信号按次数计数。可记录每次测序时信号的强度信息，并且在一些实施方案中，强度信息完美地与对应共聚物的长度相同。

测序信号可以按水平或按检测特定核苷酸的次数计数。例如，如果信号强度为n，加入反应液中的核苷酸为X，则测序结果表示为XXX...X，其中序列的长度为n个核苷酸。例如，图1中的测序信号当按次数计数时可被转化为按水平计数的测序信号MMMKKKKKMKKKMMK或写为(A/C、A/C、A/C、G/T、G/T、G/T、G/T、G/T、A/C、G/T、G/T、G/T、A/C、A/C和G/T)。

例如，含有dA4P和dC4P(具有4个磷酸基团的核苷酸和标记有荧光基团的端磷酸)的测序反应液可在奇数次使用，含有dG4P和dT4P的测序反应液可在偶数次使用。多次反应后的一组荧光信号值可参见下文表6。

可利用其他荧光标记核苷酸的组合来获得与目标DNA序列相关的荧光信号值。可能的组合实例如下所示：

M/K模式：凡奇数次呈递dA4P和dC4P，凡偶数次呈递dG4P和dT4P；或者二者反过来；

R/Y模式：凡奇数次呈递dA4P和dG4P，凡偶数次呈递dC4P和dT4P；或者二者反过来；以及

W/S模式：凡奇数次呈递dA4P和dT4P，凡偶数次呈递dC4P和dG4P；或者二者反过来。

表6

可将按三种不同核苷酸组合获得的测序数据合并，作为按水平计数的信号。对于每个位置，下一步是解析该位置按水平计数的三个测序信号所表示的核苷酸类型的交集，以获得目标DNA序列。一方面，这是解码信号的基本原理。例如，如果按次数计数的测序信号对应于M/K、R/Y和W/S的组合分别为(3、5、1、3、2、1)、(2、4、3、2、1、3)和(2、1、3、2、3、3、1)，则序列可以总结为AACTTTGGATTGCCT(SEQ ID NO:1)。

一方面，三轮测序反应的结果的综合对比包括将化学发光信号或其他形式的强度信号转化为基因序列信息，然后，对比相同碱基位置的三轮测序结果。如果三轮测序获得的结果的表示一致，则认为该位置的测序是正确的；如果三轮序列获得的结果所表示的基因序列信息不一致，则认为该碱基位置的测序结果是错误的。

一方面，如果由于不准确的CCD发光、流体移动、环境光、杂DNA、信号校正系统出错或测序反应液不纯等因素，使得按次数计数的特定时间的序列信号更大或更小，将导致测序信号按水平计数具有对应位置或后续位置表示的核苷酸类型的空交集(emptyintersection)，则无法解析核苷酸类型。显然，按次数计数的测序信号中的错误可导致按水平计数的测序信号从出现错误的位置总体偏移。因此，按水平计数的测序信号是一种具有记忆的信号。基于按水平计数的测序信号具有记忆的特征，可以校正测序信号中的错误。

一方面，本发明提供检测和/或校正测序结果中序列数据错误的方法。测序反应液含有至少两种类型的具有不同碱基的核苷酸底物分子；可获得简并基因编码信息。该领域的技术人员可以通过对比两个或多个简并编码信息，判断冲突情况是否出现于该位置的代码中。相比于同一待测底物，使用不同引物或直接测试多轮的方法更容易，经一次测试设计即可完成测试。一方面，本文提供的方法完全不同于同一待测基因的测试多轮的方法。在一些方面，本文提供的方法没有校正基础，如果仅有两种互正交简并基因编码结果(不包括在其中加入冗余信息如颜色的情况)。一方面，本文首先假定三个或多个互相正交简并编码中错误的检测和校正导致该测序类型。

一方面，本文提供检测和/或校正测序结果中序列数据错误的方法。特别地，使用5’端多磷酸来修饰具有荧光切换性质的荧光团的核苷酸底物分子进行测序；该方法也称为荧光切换测序法。当使用与2+2测序方法结合的荧光切换测序方法时，测序方法本身可带来很多优势，诸如300bp的长读数和直至99.99％的测序准确率；所有这些均无法通过仅仅使用2+2测序方法或荧光切换测序方法来实现；此外，使用联合方法还有一些其他优势，如容许通量更高、反应简单、错误率低并且不需要实时获取信息。类似地，在具有荧光切换的其他核苷酸底物分子上测序也具有相同的特性。例如，荧光切换测序方法和2+2测序方法提供三轮测序期间除颜色信息以外的冗余信息(发光信息或其他可检测信息)，该冗余信息可被用于校正；其还可以在不改变准确率的情况下延伸有效读数；校正结果取决于测序方法的准确性，并且其可以在测序仪准确性固定的情况下大大改进有效读数的总体准确性；例如，长度为400bp的核酸片段上测序的正确性为直至97.36％。校正后的正确率达到99.17％。因此，如果采用了该错误检测和校正方法的测序仪，则有效读数可被相应地延伸。当使用本文提供的方法进行校正时，可以发现明显的规则：测序方法中可以降低错误率的任何较小改进均可显著降低修改的编码数据的错误率。

实施例

实施例1：通过“2+2单色”方法测序

为了进一步描述本公开，下面提供了具体实施例。除非另外指明，具体参数、步骤等是本领域常规的。具体实施例并不意于限制本发明的范围。

对于通过“2+2单色”方法测序，制备了三套反应液。每套包括两瓶，每瓶包括标记相同荧光基团X的两种碱基。对于每套而言，两瓶恰好包含测序反应的全部四种碱基。6瓶(每套两瓶)溶液彼此不重复。

表7：“2+2单色”方法中的反应液

	第一瓶	第二瓶
			第一套	AX+CX	GX+TX
第二套	AX+GX	CX+TX
			第三套	AX+TX	CX+GX

完整的测序过程包括三轮测序，三轮测序以任何适合的顺序相继进行。每轮测序使用表7中列出的三套反应液中的一套。例如，三轮的顺序可以是第一套→第二套→第三套，或者第二套→第三套→第一套等。每轮的测序过程分别使用上述三套反应液，除此之外其他条件完全相同(例如，三轮均使用相同的测序引物和反应条件)。相同套的反应液中的两个瓶也可按任何适合的顺序使用，例如，第一瓶可以在第二瓶之前或之后使用。

每轮测序包括：

1.将测序引物杂交在已经制备好的DNA阵列上。

2.开始测序反应。可重复2.1-2.4步骤多次。

2.1.向测序反应混合物(例如，在流动池(flowcell)中)中加入第一瓶反应液(例如，第一套的第一瓶或第二瓶)，使反应进行，从荧光基团X采集荧光信号。

2.2.清洗流动池中的全部残留反应液和荧光分子。

2.3.向测序反应混合物中加入第二瓶反应液(例如，第一套的第二瓶或第一瓶)，使反应进行，采集荧光信号。

2.4.清洗流动池中的全部残留反应液和荧光分子。

3.将延伸过的测序引物解旋。

此时，可以开始新的一轮测序反应。

本实施例中使用的溶液可如下制备。测序反应液的清洗液包含：20mM Tris-HClpH 8.8；10mM(NH₄)₂SO₄；50mM KCl；2mM MgSO₄；和0.1％

20。测序反应的主溶液包含：20mM Tris-HCl pH 8.8；10mM(NH₄)₂SO₄；50mM KCl；2mM MgSO₄；0.1％ />

8000单位/mLBst聚合酶；和100单位/mL CIP(碱性磷酸酶，牛肠)。

三套测序反应液如下制备：

第1套(瓶1A和1B)：

瓶1A：主溶液+20μM dA4P-TG+20μM dC4P-TG

瓶1B：主溶液+20μM dG4P-TG+20μM dT4P-TG

第2套(瓶2A和2B)：

瓶2A：主溶液+20μM dA4P-TG+20μM dG4P-TG

瓶2B：主溶液+20μM dC4P-TG+20μM dT4P-TG

第3套(瓶3A和3B)：

瓶3A：主溶液+20μM dA4P-TG+20μM dT4P-TG

瓶3B：主溶液+20μM dC4P-TG+20μM dG4P-TG

将所制备的反应液和主溶液置于4℃冰箱或冰上待用。

为了杂交测序引物，将测序引物溶液(10μM在1×SSC缓冲液中的引物)注射到测序芯片中，然后加热至90℃，然后以5℃/分钟的速率冷却至40℃。然后用清洗液洗去测序引物溶液。

为进行测序反应，将测序芯片置于测序仪上。为进行使用第一组反应液的测序，按以下步骤进行：

1.加入10mL清洗液，以冲洗芯片。

2.将芯片降温至4℃。

3.加入100μL反应液1A。

4.将芯片加热至65℃。

5.等待1分钟。

6.在473nm激发激光波长下，拍摄荧光图像。

7.加入10mL清洗液，以冲洗芯片。

8.将芯片降温至4℃。

9.加入100μL反应液1B。

10.将芯片加热至65℃。

11.等待1分钟。

12.在473nm激发激光波长下，拍摄荧光图像。

13.重复1-12的步骤50次，以得到100个荧光信号。

第二轮测序可如下进行。首先，将芯片冷却至室温。然后加入200μL 0.1M NaOH溶液，以使第一轮测序中延伸的DNA双链变性。然后加入10ml清洗液，以清洗残留NaOH和变性DNA单链。

然后，将测序引物重新杂交于DNA阵列，如上所述。使用第二套反应液的测序反应如下进行：

1.加入10mL清洗液，以冲洗芯片。

2.将芯片降温至4℃。

3.加入100μL反应液2A。

4.将芯片加热至65℃。

5.等待1分钟。

6.在473nm激发激光波长下，拍摄荧光图像。

7.加入10mL清洗液，以冲洗芯片。

8.将芯片降温至4℃。

9.加入100μL反应液2B。

10.将芯片加热至65℃。

11.等待1分钟。

12.在473nm激发激光波长下，拍摄荧光图像。

13.重复1-12的步骤50次，以得到100个荧光信号。

第三轮测序可如下进行。首先，将芯片冷却至室温。然后加入200μL 0.1M NaOH溶液，以使第二轮测序中延伸的DNA双链变性。然后加入10ml清洗液，以清洗残留NaOH和变性DNA单链。

然后，将测序引物重新杂交于DNA阵列，如上所述。使用第三套反应液的测序反应如下进行：

1.加入10mL清洗液，以冲洗芯片。

2.将芯片降温至4℃。

3.加入100μL反应液3A。

4.将芯片加热至65℃。

5.等待1分钟。

6.在473nm激发激光波长下，拍摄荧光图像。

7.加入10mL清洗液，以冲洗芯片。

8.将芯片降温至4℃。

9.加入100μL反应液3B。

10.将芯片加热至65℃。

11.等待1分钟。

12.在473nm激发激光波长下，拍摄荧光图像。

13.重复1-12的步骤50次，以得到100个荧光信号。

此时，三轮测序结束。

实施例2：通过“2+2双色”方法测序

在本实施例中，制备了三套反应液。每套有两瓶，每瓶包括两种核苷酸碱基。用两种不同荧光团标记每瓶中的2种核苷酸碱基(使得其发射波长不同)，以区分来自两种核苷酸碱基的信号。

在本实施例中，荧光团的两种类型是X和Y。对于每套而言，两瓶恰好包含测序反应的全部四种碱基。6瓶(每套两瓶)溶液互不重复。

表8：“2+2双色”方法中的反应液

	第一瓶	第二瓶
			第一套	AX+CY	GX+TY
第二套	AX+GY	CX+TY
			第三套	AX+TY	CX+GY

完整的测序过程包括三轮测序，三轮测序以任何适合的顺序相继进行。每轮测序使用表8中列出的三套反应液中的一套。例如，三轮的顺序可以是第一套→第二套→第三套，或者第二套→第三套→第一套等。每轮的测序过程分别使用上述三套反应液，除此之外其他条件完全相同(例如，三轮均使用相同的测序引物和反应条件)。相同套的反应液中的两个瓶也可按任何适合的顺序使用，例如，第一瓶可以在第二瓶之前或之后使用。

每轮测序包括：

1.将测序引物杂交在已经制备好的DNA阵列上。

2.开始测序反应。可重复2.1-2.4步骤多次。

2.1.向测序反应混合物(例如，在流动池中)中加入第一瓶反应液(例如，第一套的第一瓶或第二瓶)，使反应进行，分别从荧光基团X和荧光基团Y采集荧光信号。

2.2.清洗流动池中的全部残留反应液和荧光分子。

2.3.向测序反应混合物中加入第二瓶反应液(例如，第一套的第二瓶或第一瓶)，使反应进行，分别从荧光基团X和荧光基团Y采集荧光信号。

2.4.清洗流动池中的全部残留反应液和荧光分子。

3.将延伸过的测序引物解旋。

此时，可以开始新的一轮测序反应。

实施例3：对比实施例

对比实施例1

在本对比实施例中，使用四种3’端封闭的核苷酸分子。3’封闭基团可阻碍聚合酶分子使用该核苷酸分子作为底物连续延伸。3’封闭基团可在特殊条件下切除，以生成末端羟基。每种核苷酸分子标记不同的荧光分子基团。此处所使用的分子基团不是具有荧光切换性质的荧光团，并且可在特定条件下切除。荧光标记分别为W、X、Y和Z。标记的核苷酸单体分别为W-A、X-C、Y-G和Z-T。

试剂1为主测序反应液，包含四种3’端封闭的标记荧光的核苷酸分子以及用标记的核苷酸分子进行聚合酶催化延伸的聚合酶。试剂2为清洗液。试剂3为去封闭液，包含切除3’端封闭基团和荧光基团的试剂。

测序时，先将测序引物杂交在模板链上。将试剂1与杂交后的模板混合，以发生聚合酶反应。反应后，使用试剂2将未反应的测序液冲洗干净。采集荧光信号，以判断加至聚合酶延伸反应中测序引物的核苷酸碱基。然后，使用试剂3将全部3’端封闭基团和荧光基团切除。然后，清洗后可将模板多核苷酸用于下一轮测序反应。这种测序方法不具有数据冗余和质量控制特性。

对比实施例2

在本对比实施例中，使用非荧光切换性质的核苷酸进行测序反应。本实施例与实施例1类似，只是荧光标记不在磷酸基团上。本实施例涉及四种核苷酸分子，均可在互补配对的条件下自由被聚合酶延伸。每种核苷酸分子的碱基上标记相同的荧光分子基团，此分子基团不具有荧光切换性质，并且可在特定条件下切除。提供3套反应液，每套两瓶。对于每套而言，两瓶恰好包含测序反应的全部四种碱基。6瓶(每套两瓶)溶液互不重复。

表9：对比实施例2中的反应液

完整的测序过程包括三轮测序，三轮测序以任何适合的顺序相继进行。每轮的测序过程分别使用上述三套反应液，除此之外其他条件完全相同(例如，三轮均使用相同的测序引物和反应条件)。

每轮测序包括：

1.将测序引物杂交在已经制备好的DNA阵列上。

2.开始测序反应。可重复2.1-2.8步骤多次。

2.1.向测序反应混合物中加入第一瓶反应液，使反应进行。

2.2.清洗流动池中的全部残留反应液和荧光分子。

2.3.从荧光基团采集荧光信号。

2.4.加入试剂，以切除荧光标记基团。

2.5.向测序反应混合物中加入第二瓶反应液，使反应进行。

2.6.清洗流动池中的全部残留反应液和荧光分子。

2.7.从荧光基团采集荧光信号。

2.8.加入试剂，以切除荧光标记基团。

3.将延伸过的测序引物解旋。

然后，可以开始新的一轮测序。三轮测序后测序实验结束。

在本实施例中，使用非荧光切换性质的底物(核苷酸分子)，因此需要在测序步骤中引入切割试剂以切除荧光标记，测序过程更久。此外，在生成的双链DNA分子上生成并留下分子伤疤，阻碍进一步延伸。

实施例4：检测和/或校正测序错误

在本实施例中，将待测序的单链DNA分子固定在固体表面上。固定的方法可以是化学交联、分子吸附等。可以把DNA的3’端或者5’端固定于表面。该待测DNA包含一段序列已知的固定片段，可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中，待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。

首先，将测序引物杂交到具有目标DNA的已知序列的片段。各核苷酸底物分子的碱基上连接了具有荧光切换性质的官能团；磷酸分子的数目为4。

向反应体系中加入dG4P和dT4P，以及相应的反应缓冲液、酶和金属离子，以引发产生荧光信号的测序反应。通过CCD(电荷耦合装置)采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。

将反应残留的dG4P和dT4P洗去。然后，向反应体系中加入dA4P和dC4P，引发和上述相同的测序反应，并记录荧光信号的值。该反应应当被记录为第二次反应。该方法也被称为单色2+2测序方法。

重复上述过程。凡奇数次反应加入dG4P和dT4P，凡偶数次反应加入dA4P和dC4P，以得到一组测序信号的值：x＝(2、3、3、1、1、3、2、1、2、1)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dC4P和dT4P，凡偶数次反应加入dA4P和dG4P，以得到一组测序信号的值：y＝(1、4、4、2、2、1、1、4、1、1)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dA4P和dT4P，凡偶数次反应加入dC4P和dG4P，以得到一组测序信号的值：z＝(1、1、2、1、4、3、1、3、1、1、2)。

然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基，三个信号中的公共碱基被识别并列于下表，作为该位置的核苷酸残基。

表10：校正前的测序结果

信号x

K

M

K

M

K

M

K

M

K

M

信号y

Y

R

Y

R

Y

R

Y

R

Y

R

信号z

W

S

W

S

W

S

W

S

W

S

W

公共碱基

T

G

A

？

T

？

G

？

C

？

G

？

G

A

？

当解析三组信号在每个位置上的公共碱基时，若干位置上均无公共碱基。这表明序列中已经出现错误。在本实施例中，将信号Y的第2个值由4改为3，并且将信号X的第6个值由3改为4，则信号将变为如下表所示。

表11：校正后的测序结果

上表中，“信号y的第2个值由4改为3”被表示为一个带删除线的R，“信号X的第6个值由3改为4”被表示为增加一个M(用斜体、下划线标出)。经过这两次修改后，三组信号的所有位置上均有公共碱基，且这些公共碱基组成的序列为待测DNA序列。该结果表明，通过用简并指示符(例如，M、K、R、Y、W、S、B和D)“编码”DNA，所述方法可有效检测出测序过程中发生的错误，而“解码”序列的方法则可有效地将这些错误校正。本实施例的短序列可有效解释本公开提供的错误校正方法。本实施例中使用的修改方法是变动最小的方法，也是实现后续序列最简单匹配的方法。实际应用中，可以构建数学模型以实现这种变动。实际可行的算法中，所有可能的变动都是基于概率来统计的。经过概率参数校正以后，上述变动是最可能的正确变动。一方面，该计算是基于贝叶斯概型的最大似然法的简单应用。另一方面，该计算方法总体为常规数学方法。

通过编码和解码DNA序列，该方法在应用于DNA测序信号时可有效改进测序准确率。为了解码，将测序信号表示成一个赋权图，如图1所示。一个赋权图记为G(V、E、W)，其中V为图的节点，E为图的边，W为每条边的权值(例如，实数)。编码和解码过程解释如下，假设按次数i计数的测序信号为a_i。

1)对于每个信号a_i，若第i次测序反应中提供的核苷酸为X，则绘制h节点a_i，每个节点代表一个X碱基。

2)这a_i个节点按顺序顺次、有序相连，即这个节点中的第1个点指向第2个点，第2个点指向第3个点，以此类推。

3)这个节点的最后一个节点具有一个指向自己的环。

4)第i次的所有节点均指向表示第(i+1)次的第一个节点。

5)根据大量测序数据的统计结果，为所有的边分配权值。

如果一条DNA序列分别用M/K、R/Y、W/S组合各测序一次，则得到3个测序信号。将这3个测序信号分别用上述方法表示成图，如图1所示。

序列5’-TGAACTTTAGCCACGGAGTA-3(SEQ ID NO:2)的三组信号分别为(含错误)：

M/K：2、3、3、1、1、3、2、1、2、1

R/Y：1、4、4、2、2、1、1、4、1、1

W/S：1、1、2、1、4、3、1、3、1、1、2

定义有向赋权图的路径为：有向赋权图中的一组节点，即v₁v₂···v_n。这组节点可以全不相同，或者某些节点相同(例如v₁和v₂代表相同的节点)。并且，对该组节点中任意相邻的两个节点v_i和v_i+1该图中均存在一条有向边从v_i指向v_i+1。定义路径的权值为该路径中所有边的权值之和。若将各测序信号表示成一个赋权图，则该图中的每一条路径均代表了一种可能的DNA序列。信号解码即找所有图之间的最大公共路径。具体实施的方法有穷举法、贪婪法、动态规划法、启发式搜索法等。

实施例5：检测和/或校正测序错误

根据实施例4中所述的测序方法，对于5000条400bp长的DNA序列进行了解码；将全部DNA分为5组，每组1000个DNA。根据实施例4中的测序校正方法，将编码准确率和解码后的准确率总结于下表中。

表12：测序准确率

组	代码准确率	解码后准确率
			1	0.9736	0.9917
2	0.9813	0.9951
			3	0.9878	0.9977
4	0.9953	0.9997
			5	0.9973	0.9999

显然本文所提供的编码-解码方法可有效改进测序的准确率。例如，当错误率是0.0364(换言之，准确率是0.9736)的时候，校正后将变为0.0083(换言之，准确率变为0.9917)。当错误率是0.0047时，校正后变为0.0003。通过对比，当校正前的错误率降低7.74倍(0.0364除以0.0047)时，校正后将会降低27.6倍(0.0083除以0.0003)。总体数据表现出明显的趋势：降低测序错误率，则推断错误率会在校正后进一步降低。换言之，使用本文公开的校正方法，对于测序方法的可以降低错误率的任何微小改进都可导致修正的测序数据的错误率更加明显的降低。

分别统计各组的编码准确率和解码后准确率，并用小提琴图和箱型图表示，如图2所示。

根据编码中被修改的信号的特征，可以筛选出有较大概率解码正确的序列，进一步改进解码准确率。统计上面数据中每条序列在解码中被修改的信号数目，其频率分布直方图如图3所示。该频率分布直方图具有如下特征：在图像的左侧有一个尖峰，而在该峰的右侧频率呈长尾状分布。如果将下图中处于长尾分布区域的序列丢弃，仅将处于峰区域的序列用于分析，则可以进一步将解码后准确率提高2-10倍。

图4表示了编码中发生错误的信号数目和解码中被错误修改的信号数目之间的关系。横坐标表示编码中发生错误的信号数目，纵坐标表示解码中被错误修改的信号数目之间的相关关系。颜色的灰度表示该点被计数的次数占所有序列中的比例。图3显示在大多数情况下，即使解码中发生了错误，被修改的信号和实际发生错误的信号也相隔非常近。因此，可以利用该特征判断解码的质量。如果某一信号及其邻近的信号在解码中均未被修改，则这一信号所代表的碱基类型具有极高的可信度。

实施例6：检测和/或校正测序错误

首先，将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入四种类型的dNTP以及相应的反应缓冲液、酶和金属离子。每种类型的dNTP的3’端被化学基团封闭，此外，dGTP和dTTP各自标记相同颜色的荧光基团，而dATP和dCTP各自标记另一种类型的相同颜色的荧光基团。反应中，与模板DNA上待延伸位置上的碱基互补配对的dNTP被DNA聚合酶掺入至DNA新生链上。反应结束后，将残留的dNTP洗去，使用CCD记录荧光信号。重复上述反应，得到一组测序信号的值：x＝KKMMMKKKMKMMMKKMKKM。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至DNA模板，重复上述测序过程，但dCTP和dTTP标记相同颜色的荧光基团，而dATP和dGTP标记另一种相同颜色的荧光基团。获得该组测序信号的值：y＝YRRRRYYYYRRYYRYRRRRYR。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至DNA模板，重复上述测序过程，但dATP和dTTP标记相同颜色的荧光基团，dCTP和dGTP标记另一种相同颜色的荧光基团。获得该组测序信号的值：z＝WSWWSWWWWSSSWSSSWSWW。

表13：校正前的测序结果

信号x

K

M

K

M

K

M

K

M

K

M

信号y

Y

R

Y

R

Y

R

Y

R

Y

R

信号z

W

S

W

S

W

S

W

S

W

S

W

公共碱基

T

G

A

？

T

？

G

？

C

？

G

？

G

A

？

表14：校正后的测序结果

上表中，“信号y的第2个值由4改为3”被表示为一个带删除线的R，“信号X的第6个值由3改为4”被表示为增加一个M(用斜体、下划线标出)。经过这两次修改后，三组信号的所有位置上均有公共碱基，且这些公共碱基组成的序列为待测DNA序列。该结果表明，通过用简并指示符(例如，M、K、R、Y、W、S、B和D)“编码”DNA，所述方法可有效检测出测序过程中发生的错误，而“解码”序列的方法可有效地将这些错误校正。

实施例7：检测和/或校正测序错误

在本实施例中，待测DNA包含一段序列已知的固定片段，可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中，待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。

首先，将测序引物杂交到具有目标DNA的已知序列的片段。将装有含杂交测序引物的模板DNA分子的反应体积分为三部分，可平行或相继测定。每份均加入四种类型的dNTP、某些类型的ddNTP以及DNA合成反应所必需的酶和缓冲液。在一些方面，所加入的dNTP为天然dNTP，所加入的ddNTP具有可检测的标记(例如可以被仪器检测的标记)，包括但不限于放射性同位素标记、化学荧光基团标记等。第一份中，ddGTP和ddTTP具有相同的标记，而ddATP和ddCTP具有另一种相同的标记。第二份中，ddCTP和ddTTP具有相同的标记，ddATP和ddGTP具有另一种相同的标记。第三份中，ddATP和ddTTP具有相同的标记，ddCTP和ddGTP具有另一种相同的标记。

这三份均在适宜条件下反应一段时间，在此期间发生DNA合成反应。反应完成后，可任选地对反应产物进行清洗或纯化。然后，可对三份反应产物进行DNA电泳。根据电泳条带，可以分别获得三条测序信号：

x＝KKMMMKKKMKMMMKKMKKM

y＝YRRRRYYYYRRYYRYRRRRYR

z＝WSWWSWWWWSSSWSSSWSWW

然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基，三个信号中的公共碱基被识别并列于下表，作为那个位置的核苷酸残基。

表15：校正前的测序结果

信号x

K

M

K

M

K

M

K

M

K

M

信号y

Y

R

Y

R

Y

R

Y

R

Y

R

信号z

W

S

W

S

W

S

W

S

W

S

W

公共碱基

T

G

A

？

T

？

G

？

C

？

G

？

G

A

？

表16：校正后的测序结果

上表中，“信号y的第2个值由4改为3”被表示为一个带删除线的R，“信号X的第6个值由3改为4”被表示为增加一个M(用斜体、下划线标出)。经过这两次修改后，三组信号的所有位置上均有公共碱基，且这些公共碱基组成的序列为待测DNA序列。该结果表明，通过用简并指示符(例如，M、K、R、Y、W、S、B和D)“编码”DNA，所述方法可有效检测出测序过程中发生的错误，而“解码”序列的方法则可有效地将这些错误校正。

实施例8：通过“2+2双色三轮”方法测序

首先，将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入dG4P和dT4P(各自标记发出不同颜色的荧光基团，例如荧光基团X和基团Y)，以及相应的反应缓冲液、酶和金属离子，以引发产生荧光信号的测序反应。通过CCD采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。

然后，将反应残留的dG4P和dT4P洗去。然后，向反应体系中加入dA4P和dC4P(各自标记有发出不同颜色的荧光基团，例如荧光基团X和基团Y)，以引发与上述相同的测序反应，并记录荧光信号的值。该反应应当被记录为第二次反应。

重复上述过程。凡奇数次反应加入dG4P和dT4P，凡偶数次反应加入dA4P和dC4P。每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组信号的值：x＝(1G+1T、2A+1C、0G+3T、1A+0C、1G+0T、1A+2C、2G+0T、1A+0C、1G+1T、1A+0C)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组信号的值：y＝(0C+1T、3A+1G、1C+3T、1A+1G、2C+0T、1A+0G、1C+0T、1A+3G、0C+1T、1A+0G)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dG4P和dT4P，凡偶数次反应加入dA4P和dC4P，且每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组测序信号：z＝(0A+1T、0C+1G、2A+0T、1C+0G、1A+3T、2C+1G、1A+0T、0C+1G、1A+1T)。

该方法被称为“2+2双色”测序方法。可从其任何两轮测序数据的测序数据获得序列信息。可以认为其是正交的测序结果。

表17：校正前的测序结果

x-A

A

x-C

C

x-G

G

x-T

T

y-A

A

y-C

C

y-G

G

y-T

T

z-A

A

z-C

C

z-G

G

z-T

T

公共碱基

T

G

A

？

T

？

C

？

当解析三组信号在每个位置上的公共碱基时，若干位置上均无公共碱基，因此断定序列中出现错误。将信号y的第2个值(3A+1G)改为(2A+1G)，同时将信号X的第6个值(1A+2C)改为(1A+3C)，则信号将变为如下表所示。

表18：校正后的测序结果

上表中，“信号y的第2个值(3A+1G)改为(2A+1G)”被表示为一个带删除线的A，“信号x的第6个值(1A+2C)改为(1A+3C)”被表示为增加一个C(用斜体、下划线标出)。经过这两次修改后，三组信号的所有位置上均有公共碱基，且这些公共碱基组成的序列为待测DNA序列。该结果表明，通过用简并指示符(例如，M、K、R、Y、W、S、B和D)“编码”DNA，所述方法可有效检测出测序过程中发生的错误，而“解码”序列的方法可有效地将这些错误校正。

实施例9：通过“2+2双色两轮”方法测序

表19：校正前的测序结果

x-A

A

x-C

C

x-G

G

x-T

T

y-A

A

y-C

C

y-G

G

y-T

T

公共碱基

T

G

A

？

T

？

C

？

当解析两组信号在每个位置上的公共碱基时，若干位置上均无公共碱基，因此断定序列中出现错误。将信号y的第2个值(3A+1G)改为(2A+1G)，同时将信号X的第6个值(1A+2C)改为(1A+3C)，则信号将变为如下表所示。

表20：校正后的测序结果

实施例10：通过“1+3，单色”方法测序

首先，将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入dC4P、dG4P和dT4P，以及相应的反应缓冲液、酶和金属离子，以引发产生荧光信号的测序反应。通过CCD采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。

然后，将反应残留的dC4P、dG4P和dT4P洗去。然后，向反应体系中加入dA4P，引发和上述相同的测序反应，并记录荧光信号的值。该反应应当被记录为第二次反应。

重复上述过程。凡奇数次反应加入dC4P、dG4P和dT4P，凡偶数次反应加入dA4P。获得一组信号的值：x＝(2、2、4、1、3、1、3、1、2、1)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dA4P、dG4P和dT4P，凡偶数次反应加入dC4P。获得一组信号的值：y＝(4、1、6、2、1、1、6)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dA4P、dC4P和dT4P，凡偶数次反应加入dG4P。获得一组信号的值：z＝(1、1、7、1、4、2、1、1、2)。

例如，利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dT4P，凡偶数次反应加入dA4P、dC4P和dG4P。获得一组信号的值：w＝(1、4、3、9、1、1)。

表21：校正前的测序结果

信号x

B

A

B

A

B

A

B

A

B

A

信号y

D

C

D

C

D

C

D

信号z

H

G

H

G

H

G

H

G

H

信号w

T

V

T

V

T

V

公共碱基

T

G

A

C

T

A

G

？

C

？

G

A

？

当解析两组信号在每个位置上的公共碱基时，若干位置上均无公共碱基，因此断定序列中出现错误。将信号y的第三个值由6改为5，将信号w的第四个值由9改为10，则信号将被改变如下表。

表22：校正后的测序结果

上表中，“信号y的第3三个值由6改为5”被表示为一个带删除线的D，“信号w的第四个值由9改为10”被表示为增加一个V(用斜体、下划线标出)。经过这两次修改后，四组信号的所有位置上均有公共碱基，且这些公共碱基组成的序列为待测目标DNA序列。该结果表明，通过用简并指示符(例如，M、K、R、Y、W、S、B和D)“编码”DNA，所述方法可有效检测出测序过程中发生的错误，而“解码”序列的方法可有效地将这些错误校正。

实施例11：检测和/或校正测序错误的方法

聚合酶动力学研究

连续荧光测序策略的挑战之一在于，需要通过生成的荧光信号准确测量模板上的均聚物或共聚物区域。图5展示了Bst聚合酶对不同均聚物模板的引物延伸。在荧光仪上使用以下条件进行反应：100nM/各模板多聚-T、多聚-TT、多聚-TTTT和多聚-TTTTTTTT，过量的Bst和CIP，2μM TG-dA4P，pH 8.3缓冲液。65℃，并由Mn(II)触发。图5中的结果显示，所生成的荧光信号与连续相同的碱基数目在相对宽的范围内成比例。另外，图6显示，通过在该线性测定中使用dA-dG混合物代替仅使用dA，杂-聚合物(或共聚物)序列多聚-TCTCTCTC可以给出与多聚-TTTTTTTT相同的信号水平。

除了反应速率以外，聚合酶保真度也是2+2测序策略中的关键问题，尤其是考虑到本文所用的聚合酶在一些方面有校对缺陷。错配核苷酸的掺入不仅会降低测序准确性，还会导致每个测序循环的信号衰减。尽管保真度主要是聚合酶的固有能力，但特定反应条件仍可影响聚合酶区分错误的性能。为了评价聚合酶的保真度，设计了误掺入实验，如下所述：

将过量的Bst和CIP、Mn(II)、100nM引物-模板(模板上除了引物的3’端以外具有G未配对的核苷)和2μM dC4P在65℃，pH 8.3下混合，生成的荧光信号为4.5×10⁵。

然后，将具有相同浓度的Bst、CIP、Mn(II)和引物-模板的混合物与2μM dG4P混合，并用氩气鼓泡以防止Mn(II)氧化。接下来，将一半混合物在65℃下温育30分钟，另一半在65℃下温育1小时。温育后，在混合物中加入2μM dC4P，生成的荧光信号为4.6×10⁵和4.5×10⁵。这表明在使用Bst聚合酶情况下，反应系统中的错配延伸几乎不可检测。微小信号差异主要是由于样品混合不准确导致的。非常慢的错配延伸速率在测序反应中是非常优选的，因为一旦引物-模板被错配延伸，就会在当前核苷位点生成替代突变，改变双链前面的双链体结构，从而阻断该引物-模板的进一步延伸。以这种方式，错配延伸将逐渐降低表面接枝的模板阵列的有效浓度，并且导致每个测序循环中显著的信号衰减。本文的研究已经排除了测序反应中错配延伸的影响，并且确认了反应系统的高准确率。

图7显示，Bst的延伸速率是与温度有关的，在65℃下显示最佳酶活性，在4℃下完全无活性。该温度相关性可有利于测序性能，因为最终高通量测序的所有反应将会被分隔开并限定于所开发的测序芯片上的微反应器中。因此，当在4℃下装载底物和酶时，信号生成和扩散都不是关键要求。但是，一旦温度升高到65℃，聚合酶将变为完全活性，并迅速生成具有高信噪比的信号。

底物TPLFN的稳定性也在不同温度下测量。结果显示，温度越高，水解速率越大。但是，水解速率不会超过2ppm/s，这表明自动水解生成的背景仍远低于聚合酶延伸信号。即便如此，为了更好的性能，底物将优选储存在低温下，以预防延伸开始之前的自动水解。

实施例12：错误校正代码荧光DNA测序

简并碱基荧光测序的原理：

在本实施例中，开发出一系列荧光测序底物(使用高性能荧光团东京绿(TG))，以末端标记四磷酸核苷酸(dN4P或dN，参见图9A)。TG提供比之前报告的荧光染料更高的荧光量子产率(在490nm下0.82)、更高的吸收系数、更高的开关比以及更佳的光稳定性。在荧光边合成边测序(SBS)过程中，使用固相PCR将单链DNA模板接枝于玻璃流动池的表面上(图8)。然后，将每个模板用测序引物退火，该测序引物的3'端充当SBS反应的开始点。在每个测序循环中，反应混合物(Bst聚合酶、碱性磷酸酶和荧光核苷酸)与那些固定化的引发DNA模板反应。当聚合酶将校正的核苷酸掺入引物末端上时，将同时释放非荧光“黑暗”状态染料-三磷酸，然后通过脱磷酸立即切换为高度-荧光“发亮”状态。该荧光SBS反应产生天然DNA双链体，使合成链的3'端未终止(仍可延伸，待延伸)。可在引物末端形成正确沃森-克里克配对(Watson-Crick pair)的底物将连续延伸，直到遇到第一错配。

已将该特征用于通过单碱基流图对30-40个碱基进行测序，其中在每个循环中将四个底物之一引入反应中。在本实施例中，使用双碱基流图。例如，在测序的第一个循环中(图9B，K(dG&dT)反应混合物带到起始序列ACTTGAAA的引发DNA模板。DNA聚合酶将掺入一个dT和一个dG以与前两个碱基AC配对并得到两个荧光团，然后在第三个碱基T上由于错配而停止。在下一个M循环中，将两个dA和一个dC与接下来的三个碱基TTG配对，得到三个荧光团。缀合混合物M和K交替引入以与引发的DNA模板反应(图9C)。每个循环产生的荧光团的量等于延伸碱基的数目。

完成聚合酶延伸后，测量荧光信号。归一化荧光信号，表示每个循环中延伸碱基的数目，而非实际组合物和序列，称为简并聚合物长度(DPL)。在图9C中，可将DPL阵列(0、2、3、3、1、...)转化为简并序列(KKMMMKKKM...)，其中M＝A或C，K＝G或T。除了该M-K双碱基流图以外，还有两个附加双碱基流图R(A,G)-Y(C,T)和W(A,T)-S(C,G)，由此可将相同模板表示为不同的简并序列(YRRRYYYYRRYY…)和(WSWWSWWWW…)。为了获得这三个正交简并序列，需要在测序轮之间进行重置操作以使新生链变性并使测序引物退火。每个实际碱基可通过计算简并碱基的交集由三条序列推断。该测序方法称为错误校正代码(ECC)测序，通过该测序方法可以检测和校正测序错误。

简并碱基识别

在本实施例中，建立实验室原型，以使用双碱基流图进行荧光测序。与其他SBS测序方法类似，荧光强度衰减是不可避免的。主要由于反应不完整和模板或引物的丢失造成的这种衰减已经在碱基识别中引起了严重挑战(图10A)。在典型的荧光简并测序运行中，荧光强度降低可通过指数衰减函数归一化，反应循环之间信号下降约1％。每个循环中归一化的荧光信号应当已被舍入至DPL(图10B)。但是，强度和DPL之间的一致性仅可保存于约前30个循环，此后不可忽略失相，也就是说，每个循环的信号变得显著受相邻循环影响。

失相，即引物集合(primer ensemble)的不同步，有两个主要组成部分：“滞后”和“超前”。滞后链主要是由延伸不完全导致的，而在双碱基测序中超前链主要是由于污染碱基导致的意外延伸。在给定的循环中，不同步的引物集合产生的荧光信号不同于对应的DPL。失相的积累将逐渐降低测序信号和DPL阵列之间的相关性。

然而已经表明，可根据一级反应方式较好地估计信号失相和衰减的积累效应，估计值和测量值之间的残差低于0.2。此外，开发了序列非依赖性迭代失相校正算法，以推断每轮测序的DPL阵列。通过失相校正，DPL阵列长度的低误差范围可以从前50个循环(约100nt)显著延长到超过150个循环(约300nt)，超过该循环后，用失相算法不能准确校正邻近错误(crowded errors)(图10C)。对于相同模板，使用RY和WS流图，此校正方法也可应用于的另外两个正交简并序列(图10D-E)。三条简并序列中的每一条均隐藏有不太可能位于相同碱基位置的罕见错误(<1％)。

ECC测序的信息通讯模型

从信息理论角度，分析双碱基测序中的信息冗余。一方面，从一轮双碱基测序采集的DPL阵列无法提供明确的DNA序列。当没有测序错误时，长度为L-nt的随机序列的DNA信息熵为2L比特，而其DPL阵列的信息熵仅为L比特。正交性质确保从不同流图采集的两个DPL阵列的互信息熵为0比特，节点信息熵为2L比特。因此，两条简并序列提供明确DNA序列的既充分、必要的信息(L+L-0＝2L)。利用自不同流图的两个DPL阵列中的简并碱基的交集(intersection)，可以推断出明确的DNA序列。例如，如果MK DPL阵列中的碱基被测序为M(A/C)，在RY DPL阵列中被测序为R(A/G)，则可推断其为碱基A({A，C}∩{A，G}＝{A})。

然而，由于实验测序错误，DPL阵列(称为l)的熵低于L比特。两个包含此错误的DPL阵列提供的节点信息不足以推断DNA序列(l+l-0<2L)。在我们当前的实验错误率下，引入额外DPL阵列以提供互信息/冗余信息(2L<3l<3L)，其可用于检测错误和推断明确序列。

还建立了信息通讯模型，以及含有编码器、解码器和通讯通道的模型，以描绘具有错误检测和校正的内在特性的双碱基测序(图11A)。3个正交双碱基流图将DNA序列、信息来源编码到3个原始DPL阵列(n)中。分析人、酵母和大肠杆菌基因组中的DPL分布，结果发现其接近于P(n)＝1/2ⁿ，即来自随机DNA序列的DPL的理论分布。从图11B中还发现，仅有0.39％的DPL大于8.0。

测序反应被视为通讯通道，通过该通道测序错误会被不可避免地引入所接收的信息中。例如，在R-Y轮的循环3中，原始DPL n＝3被错误地测量为m＝4(3-至-4插入错误，图11A)。在42轮双碱基测序数据中分析原始和测量DPL的一致性。5503/5609(98.1％)的原始DPL(n≤9)被如实传递(图11C)。

通过将码字定义为按MK、RY和WS的顺序来自简并碱基序列相同位置处的简并碱基的3-元组，将测量的DPL阵列重写为简并碱基序列。在图11A的情况下，前几个码字是(KYW)、(KRS)、(MRW)等。此类码字可被进一步编译为二进制格式。将M、R和W归属为逻辑1，将K、Y和S归属为逻辑0。任何单个流图中的每条简并序列变为比特字符串(BS)。将码字的奇偶性限定为其三比特的XOR(异或)操作的结果(图11D)。当且仅当奇偶性为逻辑1时，码字中的简并碱基仅有一个公共碱基，该公共碱基被视为解码结果。特别地，111(MRW)被解码为碱基A，100(MYS)被解码为C，010(KRS)被解码为G，001(KYW)被解码为T。这四个合法码字之间的汉明距离(Hamming distance)为2。另一方面，奇偶性逻辑为0(无公共碱基)的其余四个非法码字指示测序错误。如图11A所示的情况下，将DNA序列从BS解码，在奇偶性检查期间通过解码器捕获第5码字处的3-至-4错误(MRS/110)。通常，汉明距离为2的无记忆码字仅仅是可检测错误的(error-detectable)，但不是可校正的(correctable)。但是，据发现双碱基测序产生BS格式不是无记忆的而是环境依赖性的，这为错误检测以外的错误校正提供了额外信息。

使用动态规划的序列解码

通过基于动态规划的算法进行错误校正解码。双碱基测序错误，即错误测量的DPL，可以容易地通过奇偶性检查在码字中识别。这些独特错误仅仅是BS中的比特插入或删除，而非比特改变。当发现错误时，有可能通过基于BS环境改变对应的DPL来校正。错误必须从第一个错误按次序校正，因为对应于BS移动操作的DPL改变会影响下游码字。

典型实施例显示于图12A。在码字5下检测第一个非法码字，有三个可能的错误来源：(1)M-K轮循环2插入错误，原始DPL(n＝2)被错误地测量为3；(2)R-Y轮循环2中的插入错误，原始DPL(n＝3)被测量为4；和(3)W-S轮循环3中的删除错误，原始DPL(n＝3)被测量为2。R-Y轮的循环2中的插入错误通过自第6比特左移BS2来校正。经过该移动操作，很多以下非法码字同时经奇偶性检查合格。然后，在碱基14下检测第二个错误。该删除错误连同其余非法码字，均通过自第14比特右移BS1解决。在此情况下，仅通过两次校正操作即将9个非法码字合法化，得到无错误解码的DNA序列。

事实上，有多种可能的操作组合来解码序列。此外，组合的数目随读长以指数增加，使得其不可能在实践中通过对所有可能的组合计数来获得最佳序列。

因此，采用动态规划来确定全局最佳解码序列。将码字空间构造为3维矩阵，用三个BS作为其轴。每个节点(i，j，k)表示由BS1的第i比特、BS2的第j比特和BS3的第k比特组成的码字，可根据奇偶性检验将其分类或区分为两种类型，即合格或错误(图12C)。从节点(1，1，1)开始并且仅穿过合格节点的任何路径均表示可能的解码DNA序列。码字空间中给定路径的概率可通过贝叶斯公式计算。出现长度为n的DPL的先验概率为1/2ⁿ(图11B)，可从参考序列获得将按长度m测序的长度为n的DPL的概率P(m|n)，并将数据与理论值对比(图11C)。然后对于第r轮(r是MK、RY或WS)，其长度为m_i的第i次测量的DPL是由长度n_i的DPL产生的后验概率P_r(n_i|m_i)可给出如下：

测量的DPL阵列由特定DNA产生的概率P_r是P_r(n_i|m_i)的累积结果。在三轮ECC测序彼此独立的假设下，给定路径的概率为

P_Path＝P_MKP_RYP_WS

码字空间中每条路径的概率可以按相同方式计算(图12C)。采用动态规划方法来获得具有最大概率的路径。

解码提升ECC测序准确性

ECC解码可以有效校正长测序读数的错误。进行14个较长长度三轮ECC实验，以序列来自λ噬菌体的3个不同模板。在ECC解码之前，在测序信号中偶尔有较小错误。解码后，这些错误在200bp之前被完全消除，在200-250bp也显著减少(图13A-C)。例如在图13A中，尽管在第RY轮的碱基39中出现第一个测序错误，在ECC解码后该错误连同第WS轮中的另外多个测序错误被成功校正。ECC解码后的第一个错误被延迟超过270bp。

ECC解码算法能够准确识别复杂的错误形式。与分散的测序错误相比，相同或不同轮中的相邻错误在校正时更具挑战性，因为在解码算法中需要更多且更精细的校正操作。当三轮测序信号之间的奇偶性检验失败时，算法将计算不同操作的概率。

在一种情况下，第RY轮的3个循环中出现两个测序错误(循环22的1个碱基删除以及循环24的1个碱基插入)。至少两个替代校正途径，各包含两次校正操作，可以修复这些错误(图13B)。第一个方法操作1-至-2插入校正和2-至-1删除校正(p(2|1)*p(1|2)＝0.00015，而第二个方法含有1-至-2插入校正和3-至-2删除校正(p(2|1)*p(3|2)＝0.00022。因此，第二个方法由于概率更高而被优选。

在另一种情况下，两个相邻的长DPL测序错误分别在第MK轮和第RY轮出现。显然，第WS轮一个碱基的左移也可以恢复奇偶性合法(图13C)。然而，因为长的DPL更易错，算法优选通过对比不同方法的概率来校正两个较长的DPL，而不是较短的一个。

荧光简并测序本质上具有高准确性。沿测序读数分析每50nt的不同DPL的错误频率(图13D)。未经ECC校正，在11062个碱基中发现了106个错误。与其他测序方法类似，这些错误更有可能发生在更长的DPL和考后位置上。参见Forgetta等人(2013)Journal ofBiomolecular Techniques,24(1),3949；和Loman等人(2012)Nature Biotechnology,30(5),4349。前100nt中的原始精度为99.82％，前200nt中的原始精度为99.45％。在99％准确性截止值时，可达到超过250nt的读长。

ECC解码消除大部分测序错误。荧光简并测序方法高的原始精度是ECC校正完全消除前200nt中所有错误(包括DPL直到9nt中的错误)的基础，估计的上边界错误率低至0.034％。此外，ECC解码将250nt的累积错误率从0.96％有效降低至0.33％。

Claims

1.一种用于获得多核苷酸的序列信息的试剂盒或系统，所述试剂盒或系统包括：

a)第一测序试剂，其包含至少两种不同的核苷酸单体/第一标记缀合物，所述至少两种不同的核苷酸单体/第一标记缀合物直到根据与目标多核苷酸的互补性将所述核苷酸单体掺入多核苷酸之后基本上是非荧光的；和

b)第二测序试剂，其包含一种或多种核苷酸单体/第二标记缀合物，所述一种或多种核苷酸单体/第二标记缀合物直到根据与所述目标多核苷酸的互补性将所述核苷酸单体掺入多核苷酸之后基本上是非荧光的，所述一种或多种核苷酸单体的至少一种不同于所述第一测序试剂中存在的所述核苷酸单体，和

c)检测器，其用于在将所述核苷酸单体掺入所述多核苷酸之后检测所述第一标记和第二标记导致的荧光发射。

2.根据权利要求1所述的试剂盒或系统，其还包括第一多核苷酸复制催化剂和/或第二多核苷酸复制催化剂。

3.根据权利要求1或2所述的试剂盒或系统，其中所述第一和/或第二标记缀合于所述核苷酸单体的末端磷酸基团。

4.根据权利要求3所述的试剂盒或系统，其还包括用于从所述核苷酸单体的末端磷酸基团释放第一和/或第二标记的活化酶。

5.根据权利要求1-4中任一项所述的试剂盒或系统，其还包括目标多核苷酸被配置为固定化于其上的固体表面。

6.根据权利要求5所述的试剂盒或系统，其中所述固体表面是微反应器的一部分。

7.根据权利要求1-6中任一项所述的试剂盒或系统，其还包括基于将所述核苷酸单体掺入多核苷酸之后由所述第一标记和第二标记导致的所述荧光发射获得至少部分目标多核苷酸的序列信息的工具。

8.根据权利要求7所述的试剂盒或系统，其中所述工具包括含有可执行指令的计算机可读介质，当所述可执行指令被执行时可基于将所述核苷酸单体掺入多核苷酸之后由所述第一标记和第二标记导致的所述荧光发射获得至少部分目标多核苷酸的序列信息。

9.根据权利要求1-8中任一项所述的试剂盒或系统，其还包括用于对比多条序列以获得非简并序列和/或减少或消除所述非简并序列中的序列错误的工具。

10.根据权利要求9所述的试剂盒或系统，其中所述工具包括含有可执行指令的计算机可读介质，当所述可执行指令被执行时可对比序列以获得非简并序列和/或减少或消除所述非简并序列中的序列错误。