CN116083547A

CN116083547A - 一种校正测序期间超前量的方法

Info

Publication number: CN116083547A
Application number: CN202310022841.1A
Authority: CN
Inventors: 黄岩谊; 陈子天; 周文雄; 段海峰; 康力; 乔朔
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-11-19
Filing date: 2016-11-16
Publication date: 2023-05-09
Also published as: US20210017594A1; US11845984B2; US10738356B2; CN116426621A; EP3377653A1; AU2016356395B2; CN108699599A; CN116240272A; US20200407787A1; AU2021201594B2; AU2021201594A1; CN116218970A; WO2017084580A1; EP3377653A4; US20180251831A1; AU2016356395A1; CN208038441U; CA3005671A1

Abstract

本发明公开一种校正测序期间超前量的方法，利用次级超前校正测序结果中超前量。待测的核酸序列进行测序，检测测序产生的对应于核酸序列的信号；测序结果中，通过次级超前校正该信号。本发明同时考虑初级超前、次级超前和滞后现象，将衰减、失相、整体偏移等问题所造成的信号偏差作为一个整体用于校正测序序列信息。

Description

一种校正测序期间超前量的方法

本申请是申请日为2016年11月16日，申请号为201680079417.9，发明名称为“获得和校正生物序列信息的方法”的申请的分案申请。

技术领域

本发明涉及一种校正测序期间超前量的方法，属于基因测序领域。

背景技术

高通量测序仪是近几年高速发展的技术。相较于传统桑格测序(Sangersequencing)，高通量测序最大的优势是可以同时读出海量的序列信息。虽然准确性不如传统测序方法，但由于海量数据分析，便可得出超出序列本身的信息，如基因表达量、拷贝数变化。

当今主流测序仪均使用SBS(边合成边测序)方法，如Solexa/Illumina、454、IonTorrent等。这些测序仪的结构相似，都包括流体系统、光学系统和芯片系统。测序反应在芯片内发生。测序过程也很类似，都包括：将反应液通入芯片，发生SBS反应，采集信号，洗涤。接下来，进行新的一轮测序。这是一个循环过程。随着循环的增多，测出连续的单碱基非兼并序列信息(如ACTGACTG)。然而，高通量测序仪无法彻底消除测序错误。测序错误可能来源于：反应偶然错误或累积错误、信号采集错误、信号校正带来的误差等等。现有测序仪中，这些化学或光学、软件上的错误可成为噪声，在单个读出位点无法被识别，只能通过深度测序，利用同一序列在不同位点的多次读出进行消除。更准确的读出是高通量测序发展的重要方向。然而，现有技术对准确性的优化多集中在优化化学反应本身以及后续图像信号处理上，没有从测序逻辑上进行革新。因此存在改进的测序方法的需要。

发明内容

本申请要求以下中国专利申请的优先权：2015年11月19日提交的申请号为CN201510822361.9、标题为“一种磷酸修饰荧光团的核苷酸分子测序方法”的中国专利申请、2015年11月19日提交的申请号为CN201510815685.X、标题为“利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法”的中国专利申请、2015年12月12日提交的申请号为CN201510944878.5、标题为“测序结果中序列数据错误的检测和校正方法”的中国专利申请以及2016年10月14日提交的申请号为CN201610899880.X、标题为“一种从高通量DNA测序的原始信号中读取序列信息的方法”的中国专利申请，所述中国专利申请的全部内容均通过引用整体并入本文。

发明内容并非意图用于限制所要求保护的主题的范围。所要求保护的主题的其他特征、细节、效用和优点将从包括在附图和所附权利要求中公开的那些方面的详细描述中显现。

本文公开了校正测序期间超前量的方法，包括：获得在测序反应期间来自目标多核苷酸的测序信号，测序信号对应于目标多核苷酸的序列；和任选地使用参数估计，用由于次级超前现象而导致的次级超前量来校正来自目标多核苷酸的测序信号。在一个实施方案中，次级超前现象是指在测序期间，在目标多核苷酸的残基处发生非预期核苷酸延伸，并且非预期延伸被除下一个残基以外的核苷酸进一步延伸。

一方面，来自目标多核苷酸的测序信号包括由于初级超前现象而导致的初级超前量，其中初级超前现象是指在测序期间，在目标多核苷酸的残基处发生非预期核苷酸延伸。

在任何前述实施方案中，如果来自目标多核苷酸的特定核苷酸残基的测序信号接近于单位信号，则测序信号可使用次级超前量进行校正。在任何前述实施方案中，其中测序信号强度与单位信号强度的偏差在约60％以内、约50％以内、约40％以内、约30％以内、约20％以内、约10％以内或约5％以内。

在任何前述实施方案中，当获得第n个测序信号时，方法可包括：将参考多核苷酸的测序信号与参考多核苷酸的已知序列对比，以识别测序期间的错误，以及校正错误的方法；使用在n之前的目标多核苷酸的测序信号以及校正错误的方法，以获得校正测序信号，例如，通过反馈在n之前的目标多核苷酸的测序信号到校正错误的方法中；和通过对比在残基n处目标多核苷酸的测序信号与校正测序信号，确定在残基n处是否存在次级超前量。

在任何前述实施方案中，测序可包括向反应液中加入一种或多种测序试剂，其中所述一种或多种测序试剂任选地包含核苷酸和/或酶。在任何前述实施方案中，在测序中，可在每次测序反应中加入一种、两种或三种类型的核苷酸。在任何前述实施方案中，测序反应涉及多核苷酸的开放或未封闭的3’端。在任何前述实施方案中，在测序中，加入的核苷酸可包含A、G、C和T中的一个或多个，或A、G、C和U中的一个或多个。在任何前述实施方案中，检测的测序信号可包括电信号、生物发光信号、化学发光信号，或其任何组合。

在任何前述实施方案中，参数估计可包括：根据参考多核苷酸的序列推断理想信号h，根据预设的参数计算失相信号(或相错配)s和预测的原始测序信号p，以及计算p和实际原始测序信号f之间的相关系数c。一方面，方法还包括使用最优化方法找到一组参数，使得相关系数c达到最优值。在另一方面，该组参数包括超前系数或量、滞后系数或量、衰减系数、偏移量、单位信号，或其任何组合。

在任何前述实施方案中，在测序期间，可提供两组反应液，每组包含不同于另一组的一种或多种核苷酸，并且每次测序反应中提供一份反应液。一方面，将两组反应液以交替方式用于进行测序反应。在任何前述实施方案中，目标多核苷酸和参考多核苷酸的测序同时进行。

在任何前述实施方案中，参考多核苷酸可用于参数估计，以获得测序反应的以下参数中的一个或多个：超前系数或量、滞后系数或量、衰减系数、偏移量和单位信号。在任何前述实施方案中，可使用通过参数估计获得的测序反应的一个或多个参数来校正目标多核苷酸的信号。在任何前述实施方案中，目标多核苷酸可包含标记，所述标记包含已知序列和/或已知量的核苷酸，并且将已知序列和/或已知量的核苷酸用于生成测序反应的单位信号。在任何前述实施方案中，在每个取样点，例如，在目标多核苷酸的每个核苷酸残基处的单位信号可以不同。

在又一方面，本文公开了包括校正测序信息错误的指令的计算机可读介质。一方面，指令包括：a)接收目标多核苷酸和参考多核苷酸的测序信息；和b)使用本文公开的校正测序信息的任何方法来校正目标多核苷酸的测序信息。

另一方面，提供了用于测序的计算机系统，所述系统包括本文公开的计算机可读介质。

本发明的有益效果

相比背景技术提到的方法，本文公开的方法具有以下效果和优点：

1.在2+2测序方法中，次级超前现象非常显著，所造成的偏差是没有考虑次级超前现象的454专利所无法校正的。在本文中，一方面，考虑了次级超前现象，因此可以很好地校正该现象所造成的信号偏差。

2.在实际运用中，如果只用简单的线性拟合方法来从原始测序信号中读出序列信息，则读取的准确性通常将至多达到大约100bp左右。如果对相同的数据采用本文所描述的方法，将能准确读取到350bp左右，极大地改进测序读长和测序准确率。在一些实施方案中，读数的准确率可达到约400bp、约450bp、约500bp、约550bp、约600bp、约650bp、约700bp、约750bp、约800bp、约850bp、约900bp、约950bp、约1000bp、约1050bp、约1100bp、约1150bp、约1200bp、约1250bp、约1300bp、约1350bp、约1400bp、约1450bp、约1500bp、约1550bp、约1600bp、约1650bp、约1700bp、约1750bp、约1800bp、约1850bp、约1900bp、约1950bp、约2000bp、约2050bp、约2100bp、约2150bp、约2200bp、约2250bp、约2300bp、约2350bp或约2400bp。

3.一方面，本文既能校正单色信号，也能校正双色信号。

4.在另一方面，相比某些本领域方法，例如，如US 2014/0031238 A1和美国专利号9,416,413所公开的Ion Torrent测序方法(边合成边测序方法中的替代核苷酸流)，本文不影响加入样品和/或试剂(例如，dNTP或ddNTP)用于测序的正常顺序。

附图说明

图1显示了失相过程。

图2显示了模拟测序信号(左)和不同位置的DNA浓度分布(右)。色条(灰度条)：DNA比例。(图2a和2b)杂质：0；反应时间：300.(图2c和2d)杂质：0.003；反应时间：300.(图2e和2f)杂质：0；反应时间：100.

图3上图显示了一次通过、多次终止(One Pass,More Stop)原理。下图展示了分布和通量矩阵以及两者的关系。分别将超前ε和滞后λ系数设置为2％和1％。这些两个系数的值相对较大，以显示失相的明显效果，而不是实验数据的估计。

图4显示了校正算法的简化流程图。

图5显示了校正算法的应用。

图6显示了失相校正算法。

图7显示了失相系数对(通量矩阵)T的条件数的影响。

图8显示了失相系数偏差对信号校正的影响。

图9显示了全局白噪声会降低校正信号的准确率，并使后一循环易错。

图10显示了在给定的失相系数和全局白噪声下失相校正后无错误循环的数目。

图11显示了某些循环中信号异常的效果。

图12A显示了失相系数估计算法中每个系数的变化轨迹。图12B总结了多轮测序中的失相系数。图12C显示了失相系数和测序反应时间之间的关系。

图13显示了高通量DNA测序中的失相现象。方块代表模板DNA的核苷酸，圆圈代表组成新生DNA链的核苷酸。带斜线的图案代表测序引物区域，填充白色或灰色的图案代表不同类型的核苷酸。

图14示出了初级超前现象和次级超前现象。

图15显示不再发生三级超前。

图16显示了参数估计的基本过程。

图17显示了信号校正的基本过程。

图18显示了单色2+2原始测序信号。

图19显示了单色2+2测序原始信号的参数估计过程中各参数的变化趋势。

图20显示了单色2+2测序的原始信号和失相信号。

图21显示了单色2+2测序信号的信号校正中的迭代步骤。

图22显示了一次双色2+2测序的原始信号。

图23显示了双色2+2测序的参数估计过程中所有参数的变化趋势。

图24显示了初级双色2+2测序的原始信号和失相信号。

图25显示了双色2+2测序的信号校正中的迭代步骤。

图26显示了多次单色2+2测序的信号校正的统计结果。

具体实施方式

以下提供所要求保护主题的一个或多个实施方案的详细描述以及说明所要求保护的主题的原理的附图。所要求保护的主题与此类实施方案结合描述，但不限于任何具体实施方案。应理解，所要求保护的主题可以以各种形式来体现，并且涵盖许多替代、修改和等同。因此，本文公开的具体细节不应被解释为限制性的，而是作为权利要求的基础以及作为用于教导本领域技术人员在几乎任何适合的详细系统、结构或方式中采用所要求保护的主题的代表性基础。在以下描述中，提出了许多具体细节，以便提供对本发明的透彻的了解。提供这些细节仅用于示例目的，可以在没有这些具体细节的一些或全部的情况下根据权利要求实践所要求保护的主题。应理解，在不偏离所要求保护主题的范围的情况下，可使用其他实施方案并且可进行结构改变。应理解，在一个或多个单独的实施方案中描述的各种特征和功能不限于它们适用于描述它们的具体实施方案。相反，它们可以单独应用或以某种组合应用于本公开的一个或多个其他实施方案，无论这些实施方案是否被描述，以及这些特征是否被呈现为描述的实施方案的一部分。为了清楚起见，在所要求保护的主题相关的技术领域中已知的技术材料未被详细描述，以免不必要地导致所要求保护的主题模糊不清。

文使用的所有技术术语、符号和其他技术和科学术语意图具有与所要求保护的主题所属领域的普通技术人员通常理解的相同的含义，除非另外定义。在一些情况下，为了清楚和/或便于参考的目的，本文定义了具有通常所理解的含义的术语，并且将此类定义并入本文，但这不应必然理解为表示与本领域通常所理解的含义相比具有实质性的区别。本文描述或参考的很多技术和程序都是本领域技术人员已知并且在使用常规方法时通常采用的。

本申请所涉及的所有出版物，包括专利文件、科学论文和数据库，均出于所有目的以引用的方式整体并入，就如每个单独出版物单独地通过引用并入一样。如果本文阐述的定义与通过引用并入本文的专利、专利申请、公开申请或其他出版物中阐述的定义相反或以其他方式不一致，则本文阐述的定义优先于本文通过引用并入本文的定义。对出版物或文件的引用并不旨在承认它们中的任何一个是相关的现有技术，也不构成对这些出版物或文件的内容或日期的任何承认。

除非特别说明，否则所有标题都是为了方便读者，不应用来限制标题后的文字的含义。

除非另外指出，否则所提供的实施方案的实践将采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和测序技术的常规技术和描述，其在本领域实施的技术人员理解范围之内。此类常规技术包括多肽和蛋白质合成和修饰、多核苷酸合成和修饰、聚合物阵列合成、多核苷酸的杂交和连接以及使用标记检测杂交。参考本文的实施例可以得到合适技术的具体说明。然而，当然也可以使用其他等效常规程序。此类常规技术和描述可见于标准实验室手册，例如Green等人编，Genome Analysis:A LaboratoryManual Series(第I-IV卷)(1999)；Weiner,Gabriel,Stephens编，Genetic Variation:ALaboratory Manual(2007)；Dieffenbach,Dveksler编，PCR Primer:A Laboratory Manual(2003)；Bowtell and Sambrook,DNA Microarrays:A Molecular Cloning Manual(2003)；Mount,Bioinformatics:Sequence and Genome Analysis(2004)；Sambrook and Russell,Condensed Protocols from Molecular Cloning:A Laboratory Manual(2006)；以及Sambrook和Russell,Molecular Cloning:A Laboratory Manual(2002)(均来自ColdSpring Harbor Laboratory Press)；Ausubel等人编，Current Protocols in MolecularBiology(1987)；T.Brown编，Essential Molecular Biology(1991),IRL Press；Goeddel编，Gene Expression Technology(1991),Academic Press；A.Bothwell等人编，Methodsfor Cloning and Analysis of Eukaryotic Genes(1990),Bartlett Publ.；M.Kriegler,Gene Transfer and Expression(1990),Stockton Press；R.Wu等人编，Recombinant DNAMethodology(1989),Academic Press；M.McPherson等人，PCR:A Practical Approach(1991),IRL Press at Oxford University Press；Stryer,Biochemistry(第4版)(1995),W.H.Freeman,New York N.Y.；Gait,Oligonucleotide Synthesis:A Practical Approach(2002),IRL Press,London；Nelson and Cox,Lehninger,Principles of Biochemistry(2000)3rd编，W.H.Freeman Pub.,New York,N.Y.；Berg,et al.,Biochemistry(2002)5th编，W.H.Freeman Pub.,New York,N.Y.；D.Weir&C.Blackwell编，Handbook ofExperimental Immunology(1996),Wiley-Blackwell；Cellular and MolecularImmunology(A.Abbas等人，W.B.Saunders Co.1991,1994)；Current Protocols inImmunology(J.Coligan等人编，1991)，所有所述参考文献均出于所有目的通过引用整体并入本文。

在本公开全文中，所要求保护的主题的各个方面以范围格式呈现。应当理解，范围形式的描述只是为了方便和简洁，并且不应被解释为对所要求保护主题的范围的僵化的限制。因此，范围的描述应被认为已具体公开了所有可能的子范围，以及该范围内的单个数值。例如，在提供一定范围的值的情况下，应当理解，该范围的上限和下限之间的每个中间值以及该规定范围中的任何其他规定值或中间值均涵盖在所要求保护的主题中。这些较小范围的上限和下限可以独立地包括在较小范围内，并且还涵盖在所要求保护的主题中，在规定范围内受到任何明确排除的限制。在所说明范围包括所述限值中的一者或两者时，超出那些包括的限值的任何一者或两者的范围也包括在所要求保护的主题中。这种适用无关于范围的广度。例如，范围诸如从1到6的描述应被认为具体地公开了子范围，诸如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等，以及该范围内的单个数值、例如1、2、3、4、5和6。

定义

除非上下文另外明确指示，否则如本文所用，单数形式“一个/种(a/an)”和“所述(the)”包括复数指示物。例如，“一个/种(a/an)”意指“至少一个/种”或“一个或多个/一种或多种”。应理解本文所述的方面和变型包括“由”方面和变型“组成”和/或“基本上由”方面和变型“组成”。

本文所用的术语“约”是指本技术领域的技术人员容易知晓的相应值的常见误差范围。本文中提及“约”某一个值或参数时包括(以及描述)针对所述值或参数本身的实施方式。例如，关于“约X”的描述包括对“X”本身的描述。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中可互换使用以指任何长度的核苷酸的聚合形式，并且包括核糖核苷酸、脱氧核糖核苷酸及其类似物或混合物。术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。其还包含通过例如烷基化和/或通过封端修饰，以及未修饰形式的多核苷酸。更具体地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多脱氧核糖核苷酸(包含2-脱氧-D-核糖)、多核糖核苷酸(包含D-核糖)，其包括tRNA、rRNA、hRNA和mRNA(无论剪接还是未剪接)、为嘌呤或嘧啶碱的N-或C-糖苷的任何其它类型的多核苷酸，以及包含非核苷酸主链的其他聚合物，例如，聚酰胺(例如，肽核酸(“PNA”))和聚吗啉代(polymorpholino)(与Neugene一样，可由Anti-Virals，Inc.，Corvallis，OR商购获得)聚合物，以及其他合成的序列特异性核酸聚合物，条件是聚合物在允许碱基配对和碱基堆积的结构中包含核酸碱基，诸如在DNA和RNA的构造中。因此，这些术语包括例如3'-脱氧-2',5'-DNA、寡脱氧核糖核苷酸N3'至P5'磷酰胺酯、2'-O-烷基-取代的RNA、DNA和RNA之间或PNA和DNA或RNA之间的杂合体；还包括已知类型的修饰，例如，标记、烷基化；“加帽”；一种或多种核苷酸被类似物取代；核苷酸间修饰，例如具有不带电荷的键联(例如甲基膦酸酯、磷酸三酯、磷酰胺酯、氨基甲酸酯等)的修饰；具有带负电荷的键联(例如硫代磷酸酯、二硫代磷酸酯等)的修饰；以及具有带正电荷的键联(例如，氨基烷基磷酰胺酯、氨基烷基磷酸三酯)的修饰；含有侧接部分，例如蛋白(包括酶(例如核酸酶)、毒素、抗体、信号肽、多聚-L-赖氨酸等)的修饰；具有嵌入剂(例如，吖啶、补骨脂素等)的修饰；含有螯合物(例如，金属、放射性金属、硼、氧化金属等的螯合物)的修饰；含有烷化剂的修饰；具有修饰的键联(例如，α异头核酸等)的修饰；以及多核苷酸或寡核苷酸的未修饰形式。核酸通常含有磷酸二酯键，但是在一些情况下可包括具有替代主链的核酸类似物，所述替代主链诸如亚磷酰胺、二硫代磷酸酯或甲基磷酰亚胺键联；或肽核酸骨架和键联。其他核酸类似物包括具有双环结构的那些，包括锁核酸、带正电荷主链(positive backbone)、非离子主链和非核糖主链。可通过对核糖-磷酸主链进行修饰以增加分子的稳定性；例如，PNA:DNA杂合体可在某些环境中展现出更高的稳定性。术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”可包括任何合适长度，诸如至少5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1,000个或更多个核苷酸。

应理解，本文所用的术语“核苷”和“核苷酸”不仅包括已知的嘌呤和嘧啶碱基、还包括被修饰过的其它杂环碱基。此类修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶，或其它杂环。修饰的核苷或核苷酸还可包括在糖基部分上的修饰，例如，其中一个或多个羟基基团被卤素、脂肪族基团取代，或被官能化为醚、胺等。术语“核苷酸单元”意图涵盖核苷和核苷酸。

术语“互补”和“基本上互补”包括杂交或碱基配对，或在核苷酸或核酸之间(例如在双链DNA分子的两个链之间或在寡核苷酸引物和单链核酸上的引物结合位点之间)形成双链体。互补核苷酸通常是A和T(或A和U)或C和G。当一条链的核苷酸(优化地排列和对比以及带有适当的核苷酸插入或删除)与至少约80％的其他链，通常至少约90％至约95％的其他链，甚至约98％至约100％的其他链配对时，可以称为两个单链RNA或DNA分子基本上互补。一方面，核苷酸的两条互补序列能够与相对的核苷酸杂交，优选地少于25％错配，更优选小于15％错配，更加优选小于5％错配，最优选无错配。优选地，两种分子将在高严格性的条件下杂交。

本文所用的“杂交”可以是指两种单链多核苷酸非共价结合以形成稳定双链多核苷酸的过程。一方面，得到的双链多核苷酸可以是“杂合体”或“双链体”。典型的“杂交条件”包括大约小于1M、通常小于约500mM并且可小于约200mM的盐浓度。“杂交缓冲液”包含缓冲的盐溶液，诸如5％ SSPE或本领域已知的其他此类缓冲液。杂交温度可以低至5℃，但通常高于22℃，更通常高于约30℃，通常超过37℃。杂交经常在严格条件下进行，所述严格条件即序列将与其目标序列杂交但不会与其他非互补序列杂交的条件。严格条件是与序列相关的并且在不同情况下是不同的。例如，对于特异性杂交，更长的片段可能需要相比短片段更高的杂交温度。

或者，当RNA或DNA链将与其补体在选择性杂交条件下杂交时，存在基本互补性。通常，当在至少14至25个核苷酸的序列段上存在至少约65％互补，优选至少约75％，更优选至少约90％互补时，将会发生选择性杂交。参见M.Kanehisa,Nucleic Acids Res.12:203(1984)。

本文所用的“引物”可以是天然的或合成的寡核苷酸，能够在与多核苷酸模板形成双链体后充当核酸合成的启动点，并且能够沿模板从其3'端延伸，从而形成延伸的双链体。通过模板多核苷酸的序列来确定延伸过程中加入的核苷酸序列。通常用聚合酶，例如DNA聚合酶使引物扩增。

“基本上非荧光”的部分是指近似或基本上不发出可检测荧光的部分。例如，在荧光部分和基本上非荧光部分大约相同浓度下，来自荧光部分的可检测绝对荧光发射与来自基本上非荧光部分的可检测绝对值荧光发射的比例为通常大于或等于约500:1，更通常大于或等于约1000:1，更加通常大于或等于约1500:1(例如，约2000:1、约2500:1、约3000:1、约3500:1、约4000:1、约4500:1、约5000:1、约10⁴:1、约10⁵:1、约10⁶:1、约10⁷:1或约10⁸:1)。

“序列测定”等，诸如核苷酸测序方法，包括核酸的核苷酸碱基序列相关信息的测定。该信息可以包括核酸的部分以及全部序列信息的确认或测定。可以用不同程度的统计可靠性或置信度来确定序列信息。一方面，该术语包括确定核酸中多个邻接核苷酸的同一性和排序。“高通量测序”或“下一代测序”包括使用以固有平行方式确定很多(通常数千至数十亿)核酸序列的方法的序列测定，即其中DNA模板被制备用于不是一次一个测序，而是批量处理，并且优选平行读出很多序列，或者使用自身可以平行化的超高通量系列处理。此类方法包括但不限于焦磷酸测序(例如，如由454 Life Sciences,Inc.,Branford,CT商业化)；通过连接测序(例如，如在SOLiD^TM技术，Life Technologies,Inc.，Carlsbad，CA中商业化)；通过使用修饰核苷酸合成来测序(诸如在TruSeq^TM和HiSeq^TM技术中由Illumina，Inc.，San Diego，CA商业化；在HeliScope^TM中由Helicos Biosciences Corporation，Cambridge，MA商业化；以及在PacBio RS中由Pacific Biosciences of California，Inc.，MenloPark，CA商业化)，通过离子检测技术(诸如Ion Torrent^TM技术，Life Technologies，Carlsbad，CA)测序；DNA纳米球的测序(Complete Genomics，Inc.，Mountain View，CA)；基于纳米孔的测序技术(例如，如Oxford Nanopore Technologies，LTD，Oxford，UK所开发)，和例如高度并行化的测序方法。

本文的“多重化”或“多重测定”可以是指测定或其他分析方法其中多个目标(例如多条核酸序列)的存在和/或量可同时被测定，其中每个目标具有至少一种不同的检测特性，例如，荧光特性(例如激发波长、发射波长、发射强度、FWHM(最大峰值一半处的全宽)或荧光寿命)或独特的核酸或蛋白序列特性。

在本文公开的任何实施方案中，目标多核苷酸的测序反应可在阵列，诸如微芯片上进行。阵列可包括例如由设置于阵列上的多个反应室创建的多个反应体积。目标核苷酸序列或其片段可被固定或者固定化于反应体积中，诸如通过吸附或特异性结合到每个反应体积中固体载体上的俘获分子上。在反应混合物中提供反应液并递送至每个反应体积之后，每个反应体积可被封闭和/或与阵列上的其他反应体积分开。然后，可以由每个反应体积检测和/或记录诸如荧光信息的信号。

在本文公开的任何实施方案中，阵列可以是可寻址的。一方面，可寻址性包括微芯片的能力，所述能力引导诸如核酸和酶以及其他扩增组分的物质从微芯片上的一个位置到另一位置(芯片的捕获位点)。在另一方面，可寻址性包括空间编码每个阵列斑点(arrayspot)上的测序反应和/或其测序产物的能力，使得在序列读出之后，测序反应和/或其测序产物可被映射回阵列上的特定斑点，并且与来自该特定斑点的其他识别信息相关联。例如，空间编码标签可被缀合于目标多核苷酸，使得当对缀合目标多核苷酸进行测序时，标记序列揭示了阵列目标所在的位置。

在一些方面，本文提供单碱基分辨测序反应。一方面，一种方式是(2+2单色两套)，第一份反应液由两种碱基混合(如AC)，第二份反应液由另外两种碱基混合(则为GT)，将两份反应液交替用于测序。这时，每个循环延伸碱基的数目会增加。在N轮测序后，延伸碱基的数目为2N nt。携带的信息为2N比特。完成上述测序的有3个组合，即AC/GT、AG/CT和AT/CG；或按照标准简并碱基(简并核苷酸)标识，写作M/K、R/Y和W/S。三种组合可以分别测序，或再完成一套测序后，再重新测序。DNA序列上测定的第i个碱基一定在两套测序中的某唯一循环中发生配对反应并释放信号。每套测序中，确定的碱基取样注射循环包括两种类型，所以共有2×2＝4种可能的情况，正好对应于四种碱基。测序组合的先后顺序不影响碱基的推断。

另一种具体实施方式是2+2双色两轮模式。第一份反应液由两种碱基的混合物制成，并且携带不同的荧光标记(如AX/CY)，第二份反应液由另外两种碱基的混合物制成(则为GX/TY)。在此情况下，每个循环延伸的碱基会变多，平均为2nt。携带的信息为2N比特。

一方面，本文涉及读取来自测序反应，诸如高通量DNA测序反应的未加工信号(rawsignals)或原始信号(original signals)的核酸序列信息的方法。在特定方面，本发明涉及读取和/或校正来自第二代测序技术(例如，用于基因或基因组测序)的未加工信号或原始信号的序列信息的方法。一方面，本文考虑了在核酸测序期间导致原始信号与实际序列信息偏差的很多原因，以实现检测序列信息的综合校正，从而由原始测序信号读取准确DNA序列。一方面，本文公开的方法不影响测序反应的正常过程。一方面，本文涉及单色测序信号和多色测序信号两者的处理。一方面，每一类信号的处理均包括参数估计和信号校正。

在高通量DNA测序中，在理想条件下，每次测序反应释放的原始信号的强度与掺入新生DNA链的碱基数目成正比。但是在实际情况中，由于多种原因并不总是存在该比例关系。例如，首先，原始信号的强度一般会由于流体腐蚀、DNA模板的水解和/或碱基错配而衰减。第二，由于测序反应不完全、副(例如不希望的)反应和/或碱基错配，新生DNA链的长度随测序反应进展而逐渐变为去同步化(例如，由于失相现象，新生DNA链的长度不一致)。去同步化的新生DNA链长度进而导致原始信号强度与实际目标DNA序列的偏差。第三，由于核苷酸的自发水解和/或来自测序芯片或底物的背景荧光，原始信号的总体强度将较高。所有这些因素使得难以甚至有时不可能，基于两者在理想条件下的比例关系，直接由原始测序信号的强度读取目标DNA的序列。

从原始测序信号读取序列信息的现有方法仅考虑上文提及的部分原因。例如，454测序技术仅考虑失相现象，校正矩阵变换中失相导致的信号偏差。事实上，由于上述原因同时存在，如果仅考虑失相现象或者如果只是将失相与其他因素诸如衰减和总体高的数值分隔开，将会影响读数DNA序列信息的准确率。此外，454测序技术仅考虑失相现象的初级超前(primary lead)，而忽略了次级超前(secondary lead)，该次级超前也会影响最终结果的准确性。此外，454测序技术的有效性还受到很多人为设定参数的影响，该技术不方便使用。

Ion Torrent测序技术试图通过改变在测序反应中加入核苷酸的顺序来减轻上述原因导致的信号偏差。但是，一方面，该方法仅能减轻信号偏差，而不是真的校正信号偏差。另一方面，改变在测序反应中加入核苷酸的顺序会降低每次测序反应的平均测序读长。

在另一方面，本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法。一方面，通过修改具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面，荧光切换性质是指测序后荧光信号强度相比测序反应前的荧光信号强度有明显增强。一方面，每次测序运行使用一组反应液，每组反应液包括至少两份反应液，每份反应液包含A、G、C或T核苷酸底物分子中的至少一种或者A、G、C或U核苷酸底物分子中的至少一种。一方面，首先将待测的核苷酸序列片段固定在反应室中，在反应室中加入来自一组反应液的反应液。测序反应可在合适条件下开始，并记录荧光信号。然后，每次提供一份附加反应液，使得在测序反应中相继提供同一组反应液中的其他反应液。同时，记录来自每份反应液的一个或多个荧光信号。一方面，反应液组中有至少一份反应液包含两种或三种核苷酸分子。

一方面，高通量测序是为了通过进行一系列酶促反应以及检测反应中释放的信号，获得待测DNA的序列信息。如果某些新生DNA链已被延伸至第n个碱基，并且加入当前酶促反应的核苷酸与待测DNA模板的第n+1和n+m个碱基精确配对并且互补，则理想地酶促反应中的新生DNA链将延伸至第n+m个碱基。如果酶促反应中的新生DNA链实际上已经延伸至超过第n+m个碱基，则该酶促反应的新生DNA链中已经出现“超前”(“lead”)。如果酶促反应中的新生DNA链实际尚未延伸至第n+m个碱基，则该酶促反应的新生DNA链中已经出现“滞后”(“lag”)。“超前”和“滞后”现象统称为失相现象。应注意，当新生DNA链延伸至第n个碱基时，可能已经以任何可能的顺序出现多次“超前”和“滞后”。

如图13所示，在测序反应之前所有新生DNA链具有同一长度1。斜线框、白色框或灰色框分别表示待测序列中的核苷酸。例如，如果斜线框表示A，白色框表示T，灰色框表示C，则图13中显示的模板序列是ATCCTT。测序反应之后，DNA分子1、3和5被延伸，延伸是正常的，长度为2。在DNA分子2中，例如，由于副(例如不希望的)反应，已出现“超前”现象，并且由于延伸已超过2个核苷酸的预期长度，其长度为3。在DNA分子4中，例如，由于反应不完全，已出现“滞后”现象，并且其长度为1。一方面，测序反应之后，新生DNA链的长度不同。图13中显示的5个DNA分子仅为示意图，并不是说实际测序中有5个DNA分子，事实上在实际测序中可以有多个DNA分子。

如图14所示，DNA模板1可具有ATCTTT的序列，DNA模板2可具有ATCCTT的序列。将聚合物A正常延伸(DNA模板1，正常延伸，显示聚合物A具有AT的序列)之后，在同一测序反应中，聚合物A(即，AT)可通过副反应被进一步延伸以生成聚合物B(DNA模板1，初级超前，显示聚合物B具有ATC的序列)。由于该测序反应中仅提供了核苷酸T，并且预期聚合物仅延伸至位置2(即，在位置2具有T)，聚合物B呈“初级超前”，已经延伸至位置3并且具有ATC的序列。应注意，在该测序反应中，仅提供了核苷酸T，未提供核苷酸C，这意味着在位置3的C可以是污染(例如，由上次测序反应)、副反应或聚合酶错误的结果。在本实施例中，聚合物B可被进一步延伸至位置4以生成聚合物C(具有ATCT的序列)，因为序列反应中提供了核苷酸T，该现象称为“次级超前”。将此与DNA模板2对比，后者在位置4为C而不是T。当对DNA模板2进行测序时，因为提供了核苷酸T，可由于副反应而出现初级超前，将聚合物延伸至位置3(C)。然而，一方面，发生另一副反应从而在位置4加入另一个C的概率可忽略不计。因此，DNA模板2不会延伸至位置4，DNA模板2中不会出现次级超前现象。

测序方法

在一些方面，本文采用DNA测序的方法。在一些实施方案中，所述方法包括将待测DNA固定在固体表面，与一个或多个测序引物杂交，和/或连续进行测序反应并检测反应所释放的信号。一方面，每一次反应包括如下步骤：向反应器(如芯片)加入含有核苷酸、酶等反应所必需试剂的反应液，以引发特定的生化反应；检测反应所释放的信号；和/或清洗反应器。所加入的核苷酸可以是天然的脱氧核苷酸，或者是带有化学修饰基团的核苷酸，但在一个方面，其3’端应当有羟基。每次反应所加入的核苷酸类型数目可以是1种、2种或3种，但不能是4种(是指ACGT或ACGU)。一方面，相邻两次反应所加入核苷酸类型的并集包括全部四种核苷酸。例如，如果在第一次反应加入A和G，则在第二次反应中将加入C和T。在另一个实例中，如果在第一次反应加入ACG，则在第二次反应中将加入T。

如果在某一次反应中加入两种类型的核苷酸，则反应中这2种类型的核苷酸可以释放出相同或不同类型的信号。如果在某一次反应中加入3种类型的核苷酸，则这三种类型的核苷酸可以释放出相同或不同类型的信号。可选地，其中两种释放出相同的信号、而另1种释放出不同的信号。本文信号的类型是指信号的形式(例如电信号、生物发光信号、化学发光信号等)，或光学信号的颜色(例如绿色荧光信号、红色荧光信号等)，或其组合。这里为了简便起见，凡是某一次反应中所有核苷酸所释放信号类型全部相同的，称为单色信号；凡是一次反应中所有核苷酸所释放的类型不止一种的，称为多色信号。这里的“颜色”只是为了简便起见，信号的类型并不限于不同颜色的光学信号(例如，波长)。

在某些实施方案中，本文涉及三种类型的含义不同的信号，分别是：

1.理想信号h，是指根据待测DNA的序列及加入核苷酸的顺序，在理想情况下直接推断出的测序信号，直接反映了DNA的序列信息；

2.失相信号s，是指理想信号h遭受到失相现象后而产生偏差形成的信号；

3.预测的原始测序信号p，是指考虑以下多个因素后由失相信号(或相错配(phasemismatch))s形成的信号：被延伸碱基数目、测序信号强度的倍数关系、信号衰减和整体偏移。预测的原始测序信号p是根据预设的参数对实际原始测序信号的预测；

4.实际原始测序信号f，是指高通量DNA测序中仪器直接测量得到的信号。

参数估计

根据已知序列的一个或多个参考DNA分子及实际原始测序信号，推断出测序反应的相关参数的过程称为参数估计。参数估计的基本过程如图16所示。参数估计涉及描述测序反应中相关性质的一组参数，例如失相系数、单位信号强度、衰减系数、整体偏移系数等。

首先，所述方法包括根据参考DNA分子的序列推断理想信号h，然后根据预设的参数计算失相信号(或相错配)s和预测的原始测序信号p。一方面，方法包括计算p和实际原始测序信号f之间的相关系数c。一方面，方法包括使用最优化方法找到一组参数，使得相关系数c达到最优值。本文的相关系数c包括但不限于皮尔逊相关系数(Pearson correlationcoefficient)、斯皮尔曼相关系数(Spearman correlation coefficient,)、平均互信息、欧几里得距离(Euclidean distance)、汉明距离(Hamming distance)、车比雪夫距离(Chebyshev distance)、切比雪夫距离(Chebyshev distance)、马哈兰诺比斯距离(Mahalanobis distance)、曼哈顿距离(Manhattan distance)、明科斯基距离(Minkowskidistance)、对应信号差值的绝对值的最大值或最小值等。这里的最优化方法包括但不限于网格搜索法、穷举法、梯度下降法、牛顿法、Hessian矩阵法、启发式搜索等，其中启发式搜索包括但不限于遗传算法、模拟退火算法、蚁群算法、谐和算法、火花算法、粒子群算法、免疫算法等。这里提到的相关系数和最优化方法均为数学中的常规知识。这里提及的相关系数和优化方法属于一般数学知识。

一个方面，根据超前、滞后和/或偏移对测序信号的影响，可进行理想信号h与实际原始测序信号f之间的转化(或变换)。在另一方面，在参数估计过程中，在推断理想信号h和实际原始测序信号f之间关系的处理中(例如，基于由已知核苷酸序列的参考序列测量的信号)也可获得这些参数(例如，超前、滞后和/或偏移)。在一些方面，估计过程包括使用矩阵(例如，变换矩阵T)和/或函数(例如，变换函数φ)。

如果测序中采集到的是单色信号，则直接如上所述进行计算。如果测序中采集到的是多色信号，则将每种类型的信号与多色信号分离开，并使用上述方法单独计算。

一方面，利用h计算s的实施方法包括根据h的特征及有关参数，构造变换矩阵T，并利用T将h变换为s。一方面，利用s计算p的实施方法包括根据有关参数，构建变换函数φ，并利用d将s变换为p。具体实施方法将在下文详述。

信号校正

一方面，信号校正包括根据(1)参数估计(parameter estimation)所得到的参数，以及(2)未知序列的待测DNA的实际原始测序信号，推断出待测DNA序列信息的过程。一方面，信号校正的基本过程如图17所示，基本上可以看作参数估计的逆过程。

在第一方面，所述过程包括根据参数估计得到的参数，利用变换函数φ的反函数将实际原始测序信号f变换为失相信号(或相错配)s。一方面，所述过程包括将s视为零阶失相信号s₀，根据s₀和有关参数构建变换矩阵T₁，并利用T₁的广义逆矩阵将s₀变换为一阶失相信号s₁。另一方面，该过程还包括根据s₁和有关参数构造变换矩阵T₂，并利用T₂的广义逆矩阵将s₁变换为二阶失相信号s₂。又一方面，该过程还包括根据s_i和有关参数构造变换矩阵T_i+1,并利用T_i+1的广义逆矩阵将s_i变换为(i+1)阶失相信号s_i+1，其中i为2或更大的整数。一方面，该过程包括计算一系列失相信号s₀、s₁、s₂、...、s_i+1、...、s_j。一方面，若计算中发现两个相邻失相信号s_i和s_i+1彼此相等，则停止计算，并返回s_i作为信号校正的结果。

一方面，上述的广义逆矩阵也可以用吉洪诺夫正则化(Tikhonovregularization)的方法代替。

上述利用变换函数φ的反函数将f变换为s的过程，及利用T的广义逆矩阵将s_i变换为s_i+1的过程将在下面详述。

变换矩阵T的构造方法

一方面，变换矩阵T的构造依赖于一条测序有关的信号X及与失相参数。在参数估计中，信号a是理想信号h；在信号校正中，信号x是各阶失相信号s_i。为了改进校正准确率，可以通过在信号x后添加若干个1来延长信号x；在优选的实施方案中，通常添加1-100个1。在具体实施方案中，添加5-10个1。一方面，失相参数包括超前系数ε和滞后系数λ。

一方面，变换矩阵T的构造还包括构造次级矩阵D。一方面，假设信号x具有m个数值，测序反应实际进行了n次，则变换矩阵T和辅助矩阵D均具有n行m列。例如，在辅助矩阵D的第一行中，只有第一列的元素为1，其他元素均为0。

一方面，所述方法包括利用辅助矩阵D的第k行来计算变换矩阵T的第k行。对于变换矩阵T第k行的第1个元素：

1.若k为奇数，则应考虑滞后现象，将该元素指定为(1-λ)D_1i；

2.若k为偶数，则将该元素指定为0。

对于变换矩阵T第k行的第i个元素(第1个元素除外)：

1.若k和i的奇偶性相同，则应考虑滞后现象，将该元素指定为(1-λ)D_ki；

2.若k和i的奇偶性不同，则应考虑初级超前现象，将该元素指定为ε(1-λ)D_k,i-1；

3.若信号x的第i-1个元素小于2，则应考虑次级超前现象，在上述步骤1和2计算结果的基础上，该元素还要再加上变换矩阵T同一行的第i-1个元素T_k,i-1。

一方面，所述方法包括利用变换矩阵T的第k行来计算辅助矩阵的第k+1行。在辅助矩阵D的第1行中，只有第1列的元素为1，其他元素均为0。对辅助矩阵的第k行(第1行除外)：

1.第1个元素为辅助矩阵上一行、同一列的元素D_k-1,i和变换矩阵T中对应元素的上一行、同一列元素T_k-1,i的差值；

2.第i个元素(第1个元素除外)在辅助矩阵上一行、同一列的元素D_k-1,i和变换矩阵T中对应元素的上一行、同一列元素T_k-1,i的差值的基础上，再加上变换矩阵T中对应元素的上一行、上一列元素T_k-1,i-1。

因此，一方面，本文先规定辅助矩阵D的第1行的值，然后根据辅助矩阵D的第1行去计算变换矩阵的第1行。一方面，所述方法还包括利用变换矩阵T的第1行去计算辅助矩阵的第2行；利用辅助矩阵D的第2行去计算变换矩阵T的第2行。以相同的方式得到辅助矩阵和变换矩阵的所有元素的值。

一方面，辅助矩阵D只是为了计算上的简便而引入的，可以通过常规的数学变形将其消去，从而直接计算变换矩阵T。

在上述计算中，失相参数与核苷酸类型有关，也和被计算的元素所处的行号k和列号i有关。在实际计算中，为简便起见，可以使失相系数ε和/或λ保持恒定，或者使失相系数ε和λ随核苷酸的类型、行号k和/或列号i而变化。

一方面，在参数估计中，根据预设的失相系数和理想信号h，按照上述计算方法得到变换矩阵T。一方面，失相信号(或相错配)s为变换矩阵T和理想信号h的乘积。若理想信号h表示为一个列向量，则s为T乘以h；若理想信号表示为一个行向量，则s为h乘以T的转置矩阵。

在参数校正期间，可根据预设的失相系数和第i阶失相信号s_i，按照上述计算方法获得变换矩阵T。一方面，第i+1阶失相信号s为变换矩阵T的广义逆矩阵T⁺和第i阶失相信号的乘积。若s_i表示为一个列向量，则s_i+1为T⁺乘以s_i；若s_i表示为一个行向量，则s_i+1为s_i乘以T⁺的转置矩阵。第i+1阶失相信号s_i+1在按上述方法计算后，可以再进一步舍入。取整方法包括但不限于：

1.四舍五入：取最接近的整数值；

2.向上取整：取为大于s_i+1的最小整数；

3.向下取整：取为小于s_i+1的最大整数

4.向0取整：若s_i+1大于0，则向下取整；若s_i+1小于0，则向上取整。

5.正取整：按上述任何一种方式取整，然后将所有的非正数改为1。

变换函数的构造方法

一方面，变换函数φ与若干参数有关，包括单位信号a(被延伸碱基数目与测序信号强度具有倍数关系)、衰减系数b、整体偏移c等。本文的参数a、b、c可以是单一系数或一组系数。例如，单位信号a与核苷酸的类型以及测序反应发生的次数有关。在计算中，可以为简便起见使用这些参数的单一值，或者为精确起见使这些参数随相关因素而变化，还可以某些参数使用单一值、其他参数随相关因素变化。

变换函数φ(s)的形式包括但不限于：

1.φ(s)＝φ_aφ_bφ_s+φ_c

2.φ(s)＝φ_aφ_b(φ_s+φ_c)

3.φ(s)＝φ_b(φ_aφ_s+φ_c)

4.φ(s)＝φ_a(φ_bφ_s+φ_c).

在上述函数中，其中φ_a、φ_b、φ_c和φ_s为与a、b、c有关的数学函数，包括但不限于常函数、幂函数、指数函数、对数函数、三角函数、反三角函数、取整函数、特殊函数，以及上述函数相互运算、复合、迭代、分段所产生的函数等。在一些实施方案中，特殊函数包括但不限于椭圆函数、伽马函数、贝塞尔函数、贝塔函数等。

一方面，变换函数φ(x)将失相信号(或相错配)s变换为预测的原始测序信号p，即p＝φ(s)。一方面，变换函数φ(x)的反函数φ^-1(x)将实际原始测序信号f变换为失相信号(或相错配)s，即s＝φ^-1。本文的反函数将采用数学中的常规含义。

相比现有方法(例如，454专利方法，如US 2011/0213563 A1中所公开，System andmethod to correct out of phase errors in DNA sequencing data by use of arecursive algorithm，公布为US 8,364,417)，本文主要做了以下三个方面的改进。第一，本文的方法包括同时考虑失相现象中的初级超前、次级超前和滞后来构建变换矩阵，并利用该变换矩阵来校正因失相造成的测序错误。第二，本文的方法包括将衰减、失相或整体偏移所造成的信号偏差作为一个整体来解决。本文的方法既不是只校正单个问题所造成的信号偏差，也不是简单地一个一个地解决问题。第三，改进了信号校正的方法，避免引入需要人为主观因素判断的参数设置，提高了方法的稳健性和可重复性。第四，使用本文公开的方法，既可校正单色信号，也可校正双色信号。

一方面，本文不考虑三级超前(图15)。

一方面，本文公开了反馈模板分子序列数据中迭代生成的错误的方法，包括：a)检测对应于核酸序列的多个信号，这些信号是由于多个核苷酸被引入测序反应而生成的；b)使用检测信号产生定量(归一化或数字化)信息；c)使用参数估计获得一系列超前量和/或滞后量信息；d)使用生成的新核苷酸的量和次级超前量的积累获得相错配；e)使用相错配计算每次反应中生成的新核苷酸的量；和f)重复步骤d)和e)直至每次反应中生成的新核苷酸的量变得收敛，其中所述参数估计是指根据参考序列及其测序信号推断超前量和/或滞后量；其中次级超前量是指在测序反应中出现与该测序反应的核苷酸底物不匹配的延伸，在此基础上，出现与该测序反应的核苷酸底物匹配的延伸；其中相错配是由于超前量和/或滞后的测序结果变化，并且其中新核苷酸的量是加入测序反应液后序列的延伸长度。

一方面，在参数估计中，所述方法还包括获得衰减系数。在另一方面，在参数估计中，所述方法还包括获得偏移量。在另一方面，在参数估计中，所述方法还包括获得单位信号信息。

在另一方面，本文公开了反馈模板分子序列数据中迭代生成的错误的方法，包括：a)检测对应于核酸序列的多个信号，这些信号是由于多个核苷酸被引入测序反应而生成的；b)使用检测信号产生定量(归一化或数字化)信息；c)使用参数估计获得一系列超前量和/或滞后量、衰减系数和偏移量；d)使用生成的新核苷酸的量和次级超前量的积累获得相错配；e)使用相错配计算每次反应中生成的新核苷酸的量；和f)重复步骤d)和e)直至每次反应中生成的新核苷酸的量变得收敛，其中参数估计是指根据参考序列及其测序信号推断超前量和/或滞后量；其中次级超前量是指在测序反应中出现与该测序反应的核苷酸底物不匹配的延伸，在此基础上，出现与该测序反应的核苷酸底物匹配的延伸；其中相错配是由于超前量和/或滞后的测序结果变化，并且其中新核苷酸的量是指加入测序反应液后序列的延伸长度。

一方面，本文公开了使用次级超前量校正测序结果中超前量的方法，其中在测序结果中，如果由特定反应获得的信号类似于单位信号，则所述方法包括使用次级超前量校正信号；其中次级超前量是指在测序反应中出现与测序反应的核苷酸底物不匹配的延伸，然后，出现与该测序反应的核苷酸底物匹配的延伸。

一方面，在测序结果中包括初级超前量，其中初级超前量是指延伸与测序反应中的核苷酸底物不匹配。

一方面，后续超前量的影响包括次级超前量影响，除了第一次级超前量以外的初级超前量将累积到后续测序反应中。

在任何前述实施方案中，由反应获得的信号与单位信号接近是指，由反应获得的信号接近单位信号；由优选反应可获得信号的强度信息同单位信息之间小于约60％的偏差，由进一步优选反应可获得上述两者之间小于约50％的偏差，由进一步优选反应可获得上述两者之间小于约40％的偏差，由进一步优选反应可获得上述两者之间小于约30％的偏差，由进一步优选反应可获得上述两者之间小于约20％的偏差，由进一步优选反应可获得上述两者之间小于约10％的偏差，并且由进一步优选反应可获得上述两者之间小于约5％的偏差。

一方面，在测序反应中，所述方法包括当获得第n个测序信号时，通过反馈模板分子序列数据中迭代产生的错误，使用n之前的测序信号获得校正的测序信号；然后，根据上文所述的判断规则来判断该位置是否存在次级超前量。

在任何前述实施方案中，测序可以是将测序试剂如核苷酸和酶的反应液加入待测核酸序列的过程。

在任何前述实施方案中，在测序中，每次反应中可加入一种类型或两种类型或三种类型或四种类型的核苷酸。

在任何前述实施方案中，测序可以是三个末端开放(ends open)的测序过程。在测序反应中，可以加入一种类型或两种类型或三种类型的核苷酸。在任何前述实施方案中，在测序中，加入的核苷酸可以是A、G、C和T中的一种或多种，或者是A、G、C和U中的一种或多种。

在任何前述实施方案中，在测序中，检测信号可以是电信号、生物发光信号、化学发光信号，或其组合。

在任何前述实施方案中，在参数估计中，所述方法可包括首先根据参考DNA分子推断理想信号h，然后根据预设的参数计算失相信号(或相错配)s以及预测原始测序信号p，以及计算p和实际原始测序信号f之间的相关系数c。

在任何前述实施方案中，方法可包括使用最优化方法找到一组参数，使得相关系数c达到最优值。找到的参数可以包括超前量和/或滞后量，也可包括衰减系数、偏移量和单位信号中的一个或多个。

在任何前述实施方案中，超前量和/或滞后量可以是指由于测序反应中超前量和/或滞后导致的失相程度。

在任何前述实施方案中，在测序中，可将核苷酸分为两组，方法可包括在每次测序反应中加入包含一组核苷酸分子的测序反应液。

实施例

实施例1连续测序失相校正

1.1.信号超前和滞后

对于基于扩增的边合成边测序方法，不可避免的限制因素之一是失相，即延伸的分子失去同步化。这一现象是由于意外加入核苷酸(超前)或不完全延伸(滞后)导致的，并且将导致噪声和测序错误增加。在理想情况下，即，不存在失相的情况下，所有新生DNA分子具有相同的延伸长度；但是当考虑到失相问题时，新生DNA分子可具有不同的延伸长度。随着测序反应的进行，延伸长度的分布会变得越来越分散。

1.2.虚拟测序仪

1.2.1.基于MATLAB的虚拟测序仪

为了监测测序反应中新生DNA延伸长度的分布，通过MATLAB开发出虚拟测序仪程序，用于模拟所有测序反应。对于长度L的DNA序列，考虑的化学反应及其对应的动力学常数如下所示：

表1：虚拟测序仪程序中的化学反应及其相应的动力学常数

其中k＝1,2,…L,并且

Bst指示Bst DNA聚合酶，

DNA_k-1指示待测序DNA的第(k-1)位，

dN_k4P指示末端磷酸标记的荧光核苷酸，其可与DNA的第k位配对，

pFluorescein指示不发荧光的磷酸荧光素，

Phosphatase指示碱性磷酸酶，

p指示磷酸，

Fluorescein指示发荧光的未磷酸化荧光素，

Bst-DNA_k-1、Bst-DNA_k-1-dN_k4P等指示对应的复合物。

模拟中使用的种类的初始浓度列于下表中：

表2：虚拟测序仪程序中各种类的初始浓度

种类	初始浓度
		Bst DNA聚合酶	0.5
碱性磷酸酶	0.1
		待测序的原始DNA	0.05
磷酸化荧光素	0
		磷酸	0
非磷酸化荧光素	0

虚拟测序仪程序根据表格读取给定的DNA序列并自动生成系列化学反应，这些化学反应被传递到MATLAB的SimBiology工具箱，以生成相应的常微分方程(ODE)。ODE中使用的所有化学动力学均为质量作用。用4阶龙格-库塔法(Runge-Kutta method)解ODE。

在第一测序循环中，将DNA₀的原始值设定为0.05，DNA_k(k>0)设定为0。将DNA_k(k≥0)的最终值设定为下一循环的初始值。将其他种类的浓度重新设定为表中列出的值。通过轮换每个循环中dN4P的原始值，模拟测序过程的流图(flowgram)。将Fluorescein的最终值视为每个循环的信号。

在通过虚拟测序仪程序模拟的2+2测序中，如果主要dN4P种类的浓度足够并且修饰核苷酸中不存在杂质，则其在每个循环中给出的信号与每种共聚物的长度成正比，并且所有新生DNA分子将具有完全相同的长度(图2A-B)。模拟中使用的序列为L10115-301，碱基组合为M/K。

当修饰的核苷酸中存在杂质或者反应时间不足时，将出现失相现象，测序信号不再与其对应共聚物的长度成比例。通过虚拟测序仪程序，评估了杂质和反应时间对测序信号的影响，监测了新生DNA分子的浓度分布。当存在杂质而反应时间足够时，观察到超前效应(图2C-D)。当不存在杂质但反应时间不足时，观察到滞后效应(图2E-F)。

1.2.2.一次通过、多次终止原理

为了观察失相对于新生DNA分子延伸长度的分布的影响，将虚拟测序仪程序用于通过常微分方程(ODE)模拟测序反应。在模拟中，将待测序分子设定为K(M)_nKMM，反应液中的主要核苷酸种类设定为K(G和T)，杂质设定为M(A和C)。将诸如反应时间和动力学参数的其他参数设定为估计的正常值。观察到在第一个核苷酸K被主要种类延伸之后，连续M如预期的一样被杂质部分延伸，导致超前效应。如果n＝1，则M后面的K将几乎全部被主要核苷酸种类延伸。然而，如果n>1，则该次级超前将迅速减少(图3上图)。该一次通过、多次终止特性使得能够预测DNA延伸长度分布以及开发以下校正算法(参见下文)。

1.3.通过通量矩阵的失相校正

假设在2+2测序运行中，参数如下定义：N指示测序循环数；M指示待测序分子的共聚物数目；h是列向量，其元素h_j指示第j个共聚物的长度；s为列向量，其元素s_i指示循环i的测序信号；D_N×M指示分布矩阵，其元素d_ij指示新生DNA分子与第i个测序循环中延伸的j个共聚物的比例；T_N×M指示通量矩阵，其元素t_ij指示延伸出(穿过)第i个测序循环中第j个共聚物的新生DNA分子的比例；λ指示滞后系数，即具有相同长度且未被给定循环中主要核苷酸种类延伸的新生DNA分子的比例；ε指示超前系数，即具有相同长度且被给定循环中的杂质核苷酸种类延伸的新生DNA分子的比例；并且h’为列向量，其元素

如图2中所示，失相现象导致信号畸变并且降低测序准确性。开发出算法以校正失相导致的该畸变，下文将对此进行详细论述。图3的下图提供了关键概念的总结和校正算法的概述。图3下图的上部和下部分别是分布矩阵D_N×M和通量矩阵T_N×M的3D展示。D和T的每个条目均表示为立方体，其沿序列轴的尺寸与其对应的共聚物长度相关。矩阵D和T可以按交互和迭代方式计算，两者在其对角或对角附近均为正值，否则为零。最终所有新生DNA链均延伸超过每个共聚物，基于这一事实，T沿循环轴的积累等于1。T沿序列轴的积累即为测量的失相测序信号。矩阵D，T及其沿两个轴的积累均可被分类为三部分：初级、超前和滞后。初级部分是矩阵D和T的对角，表示刚好具有预期长度的新生DNA链。超前和滞后部分是矩阵D和T的上三角和下三角部分，表示长度分别大于或小于预期值的新生DNA链。如图3下图所示，在前几个测序循环中，初级部分在矩阵D，T及其积累中起主导作用，贡献了绝大部分的测序信号。但是，随着测序循环的继续，初级部分减少而超前和滞后部分增多，指示信号畸变。

1.3.1.分布和通量矩阵

作出以下假设：1)在测序反应中没有误掺入核苷酸，因此不是超前的原因；2)超前是由前一循环所残留的杂质核苷酸导致的；3)每个分子的至多一个碱基将被一个给定循环中的杂质核苷酸延伸；4)如果通过杂质核苷酸的共聚物延伸的长度为1，其将会被主要核苷酸进一步延伸，称为次级超前；5)如果被杂质核苷酸延伸的共聚物的长度大于1，将不会发生次级超前；6)次级超前链将不会被杂质核苷酸进一步延伸。第3-6条假设均基于以下事实：杂质核苷酸种类为痕量，与本文通过虚拟测序仪程序的模拟结果一致(一次通过、多次终止原理)。

根据上述假设，对于给定的N、M、h、λ和ε，计算D和T如下：

例如，考虑使用组合M/K与6个循环的序列AAGTCTGTAGGAATCACT的测序，则h＝(2,2,1,3,1,2,2,1,3,1)^T。假设超前和滞后系数均为0.05，则矩阵D和T为：

不同核苷酸的掺入比率和杂质含量也不同，考虑到这一事实，将不同λ和ε用于两种测序混合物。

失相校正算法

h和s之间的关系如下：

s＝T(h’, ε, λ)h (4)

由于dim(s)<dim(h)，该线性方程是不定的，所以摩尔-彭若斯(Moore-Penrose)伪逆(Moore-Penrose pseudo-inverse)和迭代算法用于获得最小范数解(图4)：

1.设定

2.根据公式(2)和(3)计算矩阵D和T。

3.设定

其中

是T的伪逆。

4.对比[h₂]和[h₁]，其中[]是舍入操作。如果两者相等，则返回h₂。否则，跳到步骤5。

5.设定h₁←h₂。跳到步骤2。

图4显示了失相校正算法的简化流程图。简言之，算法采用迭代方法来细化测序信号直至其收敛。通常，迭代将在5个循环以内终止。将其应用于真实测序数据的一个实例显示于图5。图5展示了在失相校正算法的迭代期间的细化过程。

1.3.2.方程的一般解

h和s之间的关系如下：

s＝T(h’, ε, λ)h (4)

由于dim(s)<dim(h)，该线性方程是不定的，存在完全符合方程的无限数目的解。这些解的一般形式如下：

其中I是同一性矩阵，w是任意向量。在失相校正算法中，将w设定为零向量。检查项

以观察其对h有何种影响。将序列设定为L10115-301，碱基组合设定为M/K，超前系数设定为0.007，滞后系数设定为0.005，测序循环设定为100，并且发现第1～99行，第1～99列之间R中的条目非常接近于零(～10^-16)，以至于可将其视为计算误差(图6，其中显示了矩阵

的值)，因此除最后元素外h是实际决定因素。

1.3.3.失相校正算法的稳健性-条件数

将摩尔-彭若斯伪逆矩阵用于失相校正算法。对于通量矩阵T，将条件数定义为：

大的条件数意味着T元素中的小错误可导致解(solution)的条目中的大错误。评价失相系数对于T的条件数的影响。采用的序列是聚(AG)(AGAGAG…)、聚(AAGG)(AAGGAAGG…)、L718-308、L4418-305、L9730-303和L10115-301，碱基组合为M/K。用于评价的超前和滞后系数为0、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09和0.1。对于每条序列和失相系数，根据式(3)计算通量矩阵T，并根据公式(6)计算其条件数。图7显示了在不同失相系数下条件数的对数。在所有序列中，除聚(AAGG)以外，提高超前或滞后系数均导致条件数增加，这表明失相分子越多，校正越差。但是，在其DPL均等于2的序列聚(AAGG)中，增加超前系数导致条件数减少。这表明长DPL(长度>2)对失相具有显著的阻滞效应。

1.3.4.算法稳健性

A)失相系数偏差对信号校正的影响

失相系数通过拟合参考序列的信号获得，并且用于校正其他未知序列。在理想情况下，参考和未知序列的失相系数相同。但是，由于随机原因，两组之间不可避免会存在微小差异。因此，如果系数不准确，有必要测试其在失相校正中将产生多少错误。随机生成100条370bp的DNA序列，计算其在给定失相系数中的失相信号，并使用不同但非常接近的系数校正。将碱基组合设定为M/K，测序循环数目为150，测试的给定失相系数分别为0.001、0.005和0.010。由于即使失相系数准确，校正算法仍将在最后几个循环产生错误，将使用准确和不准确失相系数之间的错误数目差异用于表征性能，其平均值示于图8，其中显示了失相系数偏差对信号校正的影响。每个图中的星号表示准确系数的位置，颜色条仅限于范围0～5，所以任何大于5的错误数目均显示为深红色。结果显示，失相系数偏离越多，其所产生的错误越多，并且对超前偏差的耐受相对而言大于对滞后偏差的耐受。

B)对全局噪声的耐受性

测序信号噪声可能来自失焦成像、CCD成像、流体或不稳定或异常等。检测全局白噪声对失相校正的影响。首先通过虚拟测序仪来模拟220个循环的2+2测序运行。在模拟中，将序列设定为L8703-1012，碱基组合为M/K，反应时间为130，主要种类和杂质的浓度分别为2和0.002。加入用白噪声模拟中的所有信号，并使用上文所述的算法来校正。当白噪声的标准方差σ为0时，算法与信号精确拟合(相关性0.9996)，校正的信号(循环219)中只有1个错误。然而，当σ＝0.01时，算法也能较好拟合信号(相关性0.9994)，但校正的信号中出现了更多错误(循环1～162无错误，循环163至循环220有10个错误循环)。当σ＝0.02时，校正的信号甚至更不精确了(循环1-148无错误，循环149至循环220有27个错误循环)。这些结果表明全局白噪声将降低校正的信号的准确性，并使后一循环易错。

接下来检测在给定的失相系数和全局白噪声下失相校正后无错误循环的数目。计算根据公式(4)的失相信号，加入白噪声，并使用上文所述的算法对信号进行校正。模拟中使用的序列为lam1，碱基组合为M/K，测序循环的数目为500，每个条件(白噪声的给定失相系数和标准变异)重复100次。如果校正的信号中的第一个错误在循环(n_ef+1)中出现，则术语无错误循环数定义为n_ef。当失相系数低至0.30％并且σ＝0.01时，仅有约50个循环是无错误的，但校正之后所有错误均得到校正。随着失相系数或噪声增加，校正后的无错误循环数也在减少，当仍是校正前的至少3倍(图10，其中显示了在给定的失相系数和全局白噪声下失相校正后无错误循环的数目)。这些结果展示了校正算法在增加读数长度方面的有效性，以及噪声对于读长的不利影响。

C)对尖峰噪声的耐受性

还检测了特定循环中信号异常的影响。根据公式(4)计算失相信号s并校正为h。然后信号在具有给定尖峰的特定单个循环中得以增强，并且得到变化的信号s_v，并将s_v校正为h_v。模拟中使用的序列是L29732-497，碱基组合是M/K，测序循环数是220，测试的尖峰是0.01、0.1和0.5，测试的失相系数是0.001、0.005和0.01，加入尖峰的循环是循环1、25、50、75、100、125、150、175和200。在失相系数为0.01、尖峰为0.5的情况下(图11A)，相同尖峰在后面循环中导致比前面循环中更严重的干扰。如果向循环200加入尖峰，h_v和h之间的最大差值可达到47.5，但是有0.5的小尖峰。此外，在单个循环中加入尖峰将导致相邻循环中h_v的偏差。在其他条件下观察到类似现象。

作出在每个条件下|h_v-h|的最大值的热图，将色图的范围设定为[0，1](图11B)。当失相系数、加入的尖峰或循环数目增加时，|h_v-h|的最大值增加。这些结果表明，随着新生DNA长度在测序中更加分散，信号对噪声更不稳健，因为一个循环中测序信号的异常情况将导致更多相邻循环的校正的信号的偏差。

1.4.失相系数测定(拟合)

可以从参考DNA分子(即，具有已知序列的分子)的测序结果估计超前和滞后系数。

对于给定的共聚物长度阵列h、超前系数ε和滞后系数λ，测序信号将为：

s＝T(h’，ε，λ)h (4)

设定f为通过测序仪的CCD直接收集的原荧光信号的阵列，s⁽¹⁾，s⁽²⁾为s的奇偶性分裂，即，

并且

所以，f和s⁽¹⁾，s⁽²⁾之间的关系为：

f＝a·b^t(s⁽¹⁾+s⁽²⁾)+cs^*(1)+ds^*(2))+ξ (11)

其中a、b、c、d和ξ是单位测序信号、衰减系数、两个测序混合物的信号偏移以及白噪声项。t是记录循环数目的阵列，即t＝[1，2，…，N]^T。

所以对于任何给定的h、ε和λ，可计算s，可以找到最拟合公式(5)的一组a、b、c和d。然后，通过梯度降低策略测定最佳ε和λ。整个算法是：

1.定义x＝(ε，λ)。定义函数F(x)如下：根据h和x通过式(4)计算s；使用信赖域反射算法或莱文贝格-马夸特算法(Levenberg-Marquardt algorithm)找到最拟合公式(11)的a*、b*、c*和d*；计算

并且使用f和

之间的皮尔逊相关系数作为F(x)的函数值。

2.将ε和λ的原始值设定为ε₀＝λ₀＝0.01或任何其它合理值。将步长γ_g和γ_s设定为任意小的正数，比如0.01。

3.考虑序列x⁽⁰⁾，x⁽¹⁾，x⁽²⁾，…，，使得

其中

4.如果|F(x⁽ⁿ⁺¹⁾)-F(x⁽ⁿ⁾)|＜∈则停止迭代，其中ε是任意小的正数，比如10^-6。

如果考虑将不同失相系数用于每个测序混合物，则将x定义为x＝(ε₁，ε₂，λ₁，λ₂)，其余可以按相同方式完成。

1.4.1.系数变化轨迹；失相系数的总结；以及失相系数和测序反应时间之间的关系

系数变化轨迹

在一轮典型测序中，使用失相系数估计算法荧光信号拟合于DNA序列，每个系数的变化轨迹描述于图12A，其中显示了失相系数估计算法中每个系数的变化轨迹。X标记：迭代次数。在迭代期间所有系数均收敛到恒定值，这表明了系数的准确估计。

失相系数的总结

所有轮测序中的失相系数均计数并总结于图12B中(失相系数，误差条：标准差)。公式(11)中的符号a、b、c和d称为单位、衰减和两个偏移。

失相系数和测序反应时间之间的关系

为了检查失相系数和测序反应时间之间的关系，在相同泳道连续进行5次2+2测序运行，每次运行的反应时间从15s增加到90s。实验中的DNA模板为L4418-305(SEQ ID NO：1)，碱基组合均为M/K，测序循环数均为40。使用上文所述的算法拟合每次运行的测序信号，结果发现反应时间增加导致超前系数增大和滞后系数减小。其他测序实验的最终反应时间采用60s，以便考虑超前和滞后系数的平衡。图12C显示了不同反应时间的失相系数。

实施例2：校正测序错误的方法

变换矩阵的构造

在本实施例中，使用2+2测序实验方法来形成M/K的组合。凡奇数轮加入A或C，凡偶数轮加入G或T。当待测DNA序列为CCTGTATGACCGTATTCCGGGTCCTGTCGGTA(SEQ ID NO：2)时，所获得的理想信号为h＝(2、3、1、2、3、2、1、2、2、4、2、3、1、3和1)。

为简便起见，在计算中假设M和K的超前系数以及滞后系数均相同。例如，当超前系数为0.02、滞后系数为0.01、共进行10次测序反应时，根据上述方法构造出的变换矩阵为：

为计算准确性起见，在计算中假设M和K的超前系数以及滞后系数均不同。例如，当M的超前系数和滞后系数分别为0.02和0.01，K的超前系数和滞后系数分别为0.01和0.02，共进行10次测序反应时，根据上述方法构造出的变换矩阵为：

如果使用2+2双色测序方法，则变换矩阵的计算方法不变。区别仅在于参数估计和信号校正中的应用方式。

单色2+2测序的参数估计

在本实施例中，使用初级单色2+2测序实验方法来形成Μ/K的核苷酸组合。凡奇数轮加入A或C，凡偶数轮加入G或T。被测序列如下：

AAGAGCTGGACAGCGATACCTGGCAGGCGGAGCTGCATATCGAAGTTTTCCTGCCTGCTCAGGTGCCGGATTCAGAGCTGGATGCGTGGATGGA

GTCCCGGATTTATCCGGTGATGAGCGATATCCCGGCACTGTCAGATTTGATCACCAGTATGGTGGCCAGCGGCTATGACTACCGGCGCGACGATGATG

CGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAATCCTACAATGCCGGTGAAAGGTGC

CGGGACCACCCTGTGGGTTTATAAGGGGAGCGGTGACCCTTACGCGAATCCGCTTTCAGACGTTGACTGGTCGCGTCTGGCAAAAGTTAAAGACCTGA

CGCCCGGCGAACTGACCGCTGAGTCCTATGACGACAG(SEQ ID NO:3)。

共进行200次测序反应，得到实际原始测序信号如图18所示。可以看出：原始测序信号的数值范围大约在100-1500之间，整体呈下降趋势。从大约第80次测序反应开始，信号呈交替波动状，无法从中直接读取序列信息。利用上述参数估计方法，根据待测DNA分子的序列及测序方法，可推断理想信号为h＝(2,1,1,1,1,3,3,1,1,1,1,1,3,3,2,2,1,2,1,1,1,2,2,1,1,1,1,1,2,5,2,2,2,2,1,1,2,4,2,2,1,2,2,1,1,1,1,3,1,2,1,4,1,3,1,2,3,2,1,3,1,1,2,4,1,2,1,1,1,1,1,1,1,1,3,2,3,3,2,1,1,4,1,1,5,2,1,6,3,1,1,2,1,1,1,2,2,1,3,2,1,1,1,1,2,1,1,2,1,2,1,3,1,6,1,3,2,1,2,1,1,1,1,2,2,2,1,3,2,2,3,1,1,2,3,4,1,2,2,1,1,1,1,2,2,3,6,1,2,1,4,2,2,4,3,4,2,3,7,9,1,1,2,4,1,1,1,4,4,2,2,1,1,1,2,1,2,1,1,3,2,1,2,4,2,4,1,1,1,2,1,3,5,3,3,1,3,2,2,1,3,2,1,1,3,2,3,1,1,2,1,2,2,1,1,2,2,1,3,1)。用上述参数估计方法来估计此次测序中的相关参数。构造变换矩阵时，为准确计算起见，假设M和K的超前和滞后系数均不相同。设t为测序反应的次数。构造变换函数φ(s)＝φaφbφs+φc，其中：

1.φa(t)＝a，其中a称为单位信号；

2.φb(t)＝bt，其中b称为衰减系数；

3.

其中d和e分别称为M和K的整体偏移；

4.φs(t)＝s，其中s为失相信号。

参数估计中，所使用的相关系数为皮尔逊相关系数，所使用的最优化方法为梯度下降法。在经过48轮迭代计算后，梯度下降符合收敛条件，得到M的超前系数为0.0117，M的滞后系数为0.0067。K的超前系数为0.0128，K的滞后系数为0.0067。单位信号为519.7，衰减系数为0.9849，M的整体偏移为122.7，K的整体偏移为150.1，相关系数为0.999961。所有参数在迭代计算过程中的变化趋势如图19所示。

单色2+2测序的信号校正

在本实施例中，使用初级单色2+2测序实验：被测序列未知。其实际原始测序信号f，以及经应用实施例1中的变换函数φ(s)的反函数和有关参数变换得到的失相信号如图20所示(倒三角信号表示该位置上的信号强度与理想信号不符)。

可以看出：在经过变换函数φ(s)的反函数变换得到的失相信号中依然有许多位置上的信号值与理想信号不符。经过上述信号校正的步骤，共进行4次迭代，分别得到一阶失相信号s₁、二阶失相信号s₂、三阶失相信号s₃和四阶失相信号s₄。四舍五入后，s₃和s₄的所有信号值均彼此相等，因此停止迭代，输出s₄作为校正结果。这四阶失相信号如图21所示，其中倒三角表示该位置上的信号强度与理想信号不符。可以看到，随着迭代的进行，倒三角信号逐渐变少，表明准确性越来越高。在最终校正结果中，前173次测序反应的信号均被校正至完全正确。直到第174次测序反应起才出现校正错误。

双色2+2测序的参数估计

在本实施例中，使用初级双色2+2测序实验：核苷酸组合为M/K，其中A和G标记相同颜色的荧光基团，C和T标记相同颜色的荧光基团。被测序列为：

AAGAGCTGGACAGCGATACCTGGCAGGCGGAGCTGCATATCGAAGTTTTCCTGCCTGCTCAGGTGCCGGATTCAGAGCTGGATGCGTGGATGGAGTCCCGGATTTATCCGGTGATGAGCGATATCCCGGCACTGTCAGATTTGATCACCAGTATGGTGGCCAGCGGCTATGACTACCGGCGCGACGATGATGCGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAATCCTACAATGCCGGTGAAAGGTGCCGGGACCACCCTGTGGGTTTATAAGGGGAGCGGTGACCCTTACGCGAATCCGCTTTCAGACGTTGACTGGTCGCGTCTGGCAAAAGTTAAAGACCTGACGCCCGGCGAACTGACCGCTGAGTCCTATGACGACAG(SEQ ID NO:3)

共进行200次测序反应，得到实际原始测序信号如图22所示。

可以看出：原始测序信号的数值范围大约在100-1200之间，整体呈下降趋势。从大约第80次测序反应开始，信号呈交替波动状，无法从中直接读取序列信息。由于采用了双色测序方法，因此理想信号、失相信号、原始测序信号等均分别有2条，分别对应A和G标记的荧光基团以及C和T标记的荧光基团。

利用上述参数估计方法，根据待测DNA分子的序列及测序方法，可推断AG标记的荧光基团所对应的理想信号为：h₁＝(2,1,1,1,0,2,2,1,0,1,1,0,1,2,1,2,0,2,1,1,0,1,1,0,1,0,0,1,2,1,0,1,0,1,0,0,1,3,0,2,1,0,1,1,1,1,0,2,1,1,0,3,1,2,1,1,0,2,1,0,1,0,0,3,1,1,1,1,0,1,1,0,1,0,0,2,1,1,1,1,1,1,1,0,2,1,1,4,1,1,0,2,0,0,1,1,1,0,1,2,0,1,0,1,1,1,1,1,1,1,0,3,0,3,1,1,1,1,0,1,1,0,0,1,1,0,1,1,1,0,1,0,1,1,3,2,1,2,1,1,0,0,1,1,0,1,4,0,0,0,3,1,0,3,3,3,0,3,2,4,1,0,2,4,1,1,0,3,1,0,1,1,0,1,2,0,0,1,0,0,1,1,1,2,1,2,0,1,0,1,0,2,4,1,3,1,1,1,1,1)。C和T标记的荧光基团的理想信号为：h₂＝(0,0,0,0,1,1,1,0,1,0,0,1,2,1,1,0,1,0,0,0,1,1,1,1,0,1,1,0,0,4,2,1,2,1,1,1,1,1,2,0,0,2,1,0,0,0,1,1,0,1,1,1,0,1,0,1,3,0,0,3,0,1,2,1,0,1,0,0,1,0,0,1,0,1,3,0,2,2,1,0,0,3,0,1,3,1,0,2,2,0,1,0,1,1,0,1,1,1,2,0,1,0,1,0,1,0,0,1,0,1,1,0,1,3,0,2,1,0,2,0,0,1,1,1,1,2,0,2,1,2,2,1,0,1,0,2,0,0,1,0,1,1,0,1,2,2,2,1,2,1,1,1,2,1,0,1,2,0,5,5,0,1,0,0,0,0,1,1,3,2,1,0,1,0,0,1,2,0,1,3,1,0,1,2,1,2,1,0,1,1,1,1,1,2,0,0,2,1,1,0)。

用上述参数估计方法来估计此次测序中的相关参数。构造变换矩阵时，为准确计算起见，假设M和K的超前和滞后系数均不相同。对于某个根据一些给定的失相系数构造的变换矩阵T，假设A和G标记的荧光基团的失相信号为s₁＝Th₁，C和T标记的荧光基团的失相信号为s₂＝Th₂。设t为测序反应的次数。对于A和G标记的荧光基团以及C和T标记的荧光基团，分别构造变换函数φ1(s)＝φ_a1φ_bφ_s+φ_c1和φ2(s)＝φ_a2φ_bφ_s+φ_c2，其中

1.φ_a1(t)＝a1，φ_a2(t)＝a2，其中a₁和a₂分别是A和G以及C和T标记的荧光基团所释放信号的单位信号；

2.φ_b(t)＝b^t，其中b称为衰减系数；

3.

其中d₁、e₁、d₂和e₂分别是指A、G、C和T的整体偏移；

4.φ_s(t)＝s，其中s为失相信号。

参数估计中，所使用的相关系数为皮尔逊相关系数，所使用的最优化方法为梯度下降法。在经过17轮迭代计算后，梯度下降符合收敛条件，得到M的超前系数为0.0125，M的滞后系数为0.0067。K的超前系数为0.0126，K的滞后系数为0.0068。A和G以及C和T标记的荧光基团所释放信号的单位信号分别为519.8和480.7，衰减系数为0.9860，A的整体偏移为164.5，G的整体偏移为133.2。C的整体偏移为140.7，T的整体偏移为175.7。相关系数为0.999964。所有参数在迭代计算过程中的变化趋势如图23所示。

双色2+2测序的信号校正

初级双色2+2测序实验：凡奇数轮加入G和T，凡偶数轮加入A和C，其中A和G标记相同颜色的荧光基团。C和T标记相同颜色(不同于A和G的颜色)的荧光基团。被测序列未知。本次测序中获得的原始测序信号f，以及经应用实施例4中的变换函数φ1(s)和φ2(s)的反函数和有关参数变换得到的失相信号如图24所示。由于采用了双色测序方法，因此理想信号、失相信号、原始测序信号等均分别有2条，分别对应A和G标记的荧光基团以及C和T标记的荧光基团。可以看出，图24中有很多倒三角信号，表明在失相信号(或相错配)s中，依然有许多位置上的信号与理想信号不符。

经过上述信号校正的步骤，共进行4次迭代，分别得到一阶失相信号s₁、二阶失相信号s₂、三阶失相信号s₃和四阶失相信号s₄。四舍五入后，s₃和s₄的所有信号值均彼此相等，因此停止迭代，输出s₄作为校正结果。这四阶失相信号如图25所示，其中倒三角表示该位置上的信号强度与理想信号不符。可以看到，随着迭代的进行，倒三角信号逐渐变少，表明准确性越来越高。在最终校正结果中，前166次测序反应的信号均被校正至完全正确。直到第167次测序反应起才出现校正错误。

由大量序列得出的综合性能

为综合评估本文从原始测序信号中读取序列信息的准确性，分别进行了五次单色2+2测序实验。一方面，每次测序均进行500次测序反应。每次测序实验中，一部分被测DNA被作为参考，其序列和原始测序信号被用于参数估计；另一部分被测DNA被作为测序样品。将分别使用两种方法进行信号校正：一种根据本文所描述的方法，利用参考DNA所估计出的参数对其进行信号校正；另一种简单地假设原始测序信号和理想信号间存在简单的正比关系，以此推断DNA序列信息。

这五次测序实验中，利用参考DNA的原始测序信号所估计出的失相系数分别为0.001、0.003、0.005、0.010和0.011(参数估计时将超前系数和滞后系数设置为相等)。对于信号校正，分别记录两种方法校正得到的信号中信号强度和理想信号强度不符的第一次测序反应的编号(即完全正确的校正信号的长度)，并绘制成柱状图(如图26所示，误差条(error bar)为标准差)。可以看到，当失相系数为0.001时，根据简单正比关系计算获得的校正信号在不到100次测序反应时即出现校正错误，而本文所描述的方法得到了完全正确的校正结果。随着失相系数的增大，两种方法的校正结果的准确率均有所下降。然而，一方面，在本文获得的校正结果中，完全正确的校正信号的长度依然是根据简单正比关系计算值的3-5倍，这体现了本文在改进从原始测序信号中读取DNA序列的准确性和有效读长上的明显优越性。

Claims

1.一种校正测序期间超前量的方法，其包括：

获得在测序反应期间来自目标多核苷酸的测序信号，所述测序信号对应于所述目标多核苷酸的所述序列；和

任选地使用参数估计，用由所述次级超前现象而导致的次级超前量来校正来自所述目标多核苷酸的所述测序信号；

其中所述次级超前现象是指在测序期间，在所述目标多核苷酸的残基处发生非预期核苷酸延伸，并且所述非预期延伸被除下一个残基以外的核苷酸进一步延伸。

2.根据权利要求1所述的方法，其中来自目标多核苷酸的所述测序信号包括由于初级超前现象而导致的初级超前量，其中所述初级超前现象是指在测序期间，在所述目标多核苷酸的残基处发生非预期核苷酸延伸。

3.根据权利要求1或2所述的方法，其中如果来自所述目标多核苷酸的特定核苷酸残基的所述测序信号接近于单位信号，则使用所述次级超前量来校正所述测序信号，

其中所述测序信号强度与所述单位信号强度的所述偏差在约60％以内、约50％以内、约40％以内、约30％以内、约20％以内、约10％以内或约5％以内。

4.根据权利要求1-3中任一项所述的方法，其中当获得第n个测序信号时，所述方法包括：

将参考多核苷酸的所述测序信号与所述参考多核苷酸的所述已知序列对比，以识别测序期间的错误，以及校正所述错误的方法；

使用在n之前的所述目标多核苷酸的所述测序信号以及所述校正错误的方法，以获得校正的测序信号，例如，通过反馈在n之前的所述目标多核苷酸的所述测序信号到所述校正错误的方法中；和

通过对比在残基n处所述目标多核苷酸的所述测序信号与所述校正的测序信号，确定在残基n处是否存在次级超前量。

5.根据权利要求1-4中任一项所述的方法，其中所述测序包括向所述反应液中加入一种或多种测序试剂，其中所述一种或多种测序试剂任选地包含核苷酸和/或酶。

6.根据权利要求1-5中任一项所述的方法，其中在所述测序中，在每次测序反应中加入一种、两种或三种类型的核苷酸。

7.根据权利要求1-6中任一项所述的方法，其中所述测序反应涉及多核苷酸的开放或未封闭的3’端。

8.根据权利要求1-7中任一项所述的方法，其中在所述测序中，所述加入的核苷酸包含A、G、C和T中的一个或多个，或A、G、C和U中的一个或多个。

9.根据权利要求1-8中任一项所述的方法，其中在所述测序中，所述检测的测序信号包括电信号、生物发光信号、化学发光信号，或其任何组合。

10.根据权利要求1-9中任一项所述的方法，其中所述参数估计包括：

根据所述参考多核苷酸推断所述理想信号h，

基于所述预设参数计算所述失相信号(或所述相错配)s以及所述预测的原始测序信号p，和

计算p与所述实际原始测序信号f之间的所述相关系数c。

11.根据权利要求10所述的方法，其中所述方法还包括使用优化方法来找到一组参数，使得所述相关系数c达到最优值。

12.根据权利要求11所述的方法，其中所述组参数包括超前系数或量、滞后系数或量、衰减系数、偏移量、单位信号，或其任何组合。

13.根据权利要求1-12中任一项所述的方法，其中在所述测序期间，提供了两组反应液，每组包含不同于另一组的一种或多种核苷酸，并且每次测序反应中提供一份反应液。

14.根据权利要求13所述的方法，其中将所述两组反应液以交替方式用于进行所述测序反应。

15.根据权利要求1-14中任一项所述的方法，其中所述目标多核苷酸和所述参考多核苷酸的所述测序同时进行。

16.根据权利要求1-15中任一项所述的方法，其中将所述参考多核苷酸用于参数估计，以获得所述测序反应的以下参数中的一个或多个：超前系数或量、滞后系数或量、衰减系数、偏移量和单位信号。

17.根据权利要求1-16中任一项所述的方法，其中使用通过参数估计获得的所述测序反应的一个或多个参数来校正所述目标多核苷酸的所述信号。

18.根据权利要求1-17中任一项所述的方法，其中所述目标多核苷酸包含标记，所述标记包含已知序列和/或已知量的核苷酸，并且将已知序列和/或已知量的所述核苷酸用于生成所述测序反应的单位信号。

19.根据权利要求1-18中任一项所述的方法，其中每个取样点的所述单位信号不同。