CN104364789A - 用于产生和使用最佳核苷酸流顺序的系统和方法 - Google Patents
用于产生和使用最佳核苷酸流顺序的系统和方法 Download PDFInfo
- Publication number
- CN104364789A CN104364789A CN201380025917.0A CN201380025917A CN104364789A CN 104364789 A CN104364789 A CN 104364789A CN 201380025917 A CN201380025917 A CN 201380025917A CN 104364789 A CN104364789 A CN 104364789A
- Authority
- CN
- China
- Prior art keywords
- sequence
- stream
- order
- nucleic acid
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Physiology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
描述了用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法的实施方案,其包括以下步骤: (a)产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;(b)使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和(c)使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。
Description
技术领域
本发明涉及分子生物学领域。更具体而言,本发明涉及用于产生和采用经优化以尽可能降低通常被称为“边合成边测序(Sequencing-by-Synthesis)”(SBS)技术的技术产生的核酸序列数据中的相位同步误差的引入的流顺序(flow order)的实施方案的系统和方法。
发明背景
边合成边测序(SBS)一般是指用于确定核酸样品中一种或多种核苷酸的身份或序列组成的方法,其中所述方法包括逐步合成与要被确定其核苷酸序列组成的模板核酸分子互补的多核苷酸分子的单链。例如,SBS技术通常通过在对应序列位置向与模板分子的核酸种类互补的新生多核苷酸分子添加单个核酸(也称为核甘酸)种类而工作。一般利用本领域中已知的多种方法来检测核酸种类向新生分子的添加,这些方法包括,但不限于,所谓的焦磷酸测序,所述焦磷酸测序可以包括酶促或电子(即利用ISFET或其它相关技术的pH检测)检测策略或荧光检测方法,在一些实施方案中,其可以采用可逆的终止剂。典型地,该过程迭代,直到合成了完全(即,所有序列位置被表示)或期望的与模板互补的序列长度。在美国专利号6,274,320, 7,211,390; 7,244,559; 7,264,929;和7,335,762中描述了SBS技术的一些实例,所述专利的每一个在此出于所有目的以其整体通过引用并入本文。
在SBS的一些实施方案中,设计寡核苷酸引物以对样品模板分子的预定互补位置退火。在核酸聚合酶存在的情况下,为引物/模板复合物提供核甘酸种类。如果核甘酸种类与对应于样品模板分子上直接与寡核苷酸引物的3’末端相邻的序列位置的核酸种类互补,那么聚合酶将利用所述核甘酸种类延伸所述引物。或者,在一些实施方案中,立刻为引物/模板复合物提供多个目标核甘酸种类(典型地为A、G、C和T),并且在样品模板分子上直接与寡核苷酸引物的3’末端相邻的对应序列位置处互补的核甘酸种类被掺入。如上所述,可以通过本领域中已知的多种方法检测核甘酸种类的掺入,例如,通过以酶促或电子方式检测焦磷酸盐(PPi)或氢(H + )的释放(美国专利号6,210,891; 6,258,568; 和6,828,100中描述的实例,所述专利的每一个在此出于所有目的以其整体通过引用并入本文),或通过结合到核苷酸的可检测标记。在典型的实施方案中,例如,通过洗涤去除未掺入的核苷酸。在使用可检测标记的实施方案中,通常必须在随后合成循环之前将它们灭活(例如,通过化学裂解或光漂白)。如上所述,然后可以利用另一核甘酸种类或多个目标核甘酸种类来查询模板/聚合酶复合物中的下一个序列位置。核甘酸添加、引物延伸、信号采集和洗涤的重复循环导致模板链的核苷酸序列的确定。
在SBS的典型实施方案中,在任何一个测序反应中同时分析大量或“克隆”群体的基本上相同的模板分子(例如103、104、105、106或107个分子),以便获得对于可靠检测而言足够强的信号。对于低信噪比需要在给定反应的群体中与基本上所有模板分子相关联的新生分子的所谓的“均匀延伸”。如本文中使用,术语“均匀延伸”一般是指延伸反应的关系或相位,其中上述基本上相同的模板分子的群体的每个成员均匀地进行反应中的相同步骤。例如,当它们在针对每个相关联的模板分子的相同序列位置进行相同的反应步骤时,可以将与模板分子的群体相关联的每个延伸反应描述为彼此同相(有时也称为相位同步或相位同步性)。
然而,相关领域的普通技术人员将理解,每个群体中的一小部分模板分子与该群体中的其余模板分子失去或脱离相位同步性(即,与该部分模板分子相关联的反应在该群体上进行的测序反应中超前于或落后于其它模板分子)(在Ronaghi,M.的“Pyrosequencing sheds light on DNA sequencing”,Genome Res. 11,3-11(2001)中描述了一些实例,在此出于所有目的以其整体通过引用并入本文)。例如,将一个或更多个核甘酸种类适当地掺入一个或更多个新生分子中以将序列延伸了一个位置的反应的失败导致每个后续反应处于在群体的其余部分的序列位置之后并且与其异相的序列位置。本文中将该效应称为“不完全延伸”(IE)。或者,在本文中将通过在位于群体的其余部分的序列位置之前并且与其异相的序列位置中掺入一个或更多个核甘酸种类而不适当地延伸新生分子称为“推进(carry forward)”(CF)。本文中将CF和IE的组合效应称为CAFIE。
普通技术人员将理解,IE和CF两者误差的潜在可能在延伸反应期间在每个序列位置发生,并由此可能在所得到的序列数据中具有明显的累积效应。例如,在朝向“序列读取”结束时,该效应可能变得尤其引人注目。
此外,IE和CF效应可以为利用SBS方法可靠测序的模板分子的长度(有时称为“读取长度”)强加上限,因为序列数据的质量随着读取长度增加而降低。
SBS的一些实施方案已经成功应用数值建模和模拟方法来将来自SBS测序策略的数据排序,以生物信息学地校正序列数据中的CAFIE误差,以便延伸来自测序运行的可用读取长度。然而,此类方法对于来自SBS测序策略的序列读取中发现的累积CAFIE误差是补偿性的,并且没有提供用于在测序运行期间CAFIE误差的累积的机制。
本文所述的SBS的实施方案根据预先确定的顺序(也称为“流顺序”,“流模式”,或“核苷酸分配顺序”)将每个核苷酸种类个别系列引入测序反应环境。例如,SBS的实施方案可以采用每个循环4个核苷酸种类(诸如核苷酸种类的TACG顺序)的预定顺序的重复循环。在一些实施方案中,根据应用,流顺序可以重复200到400次。然而,在实践中,流顺序不需要是4个核苷酸种类循环重复,诸如如上所述的TACG。事实上,一些SBS应用已经利用订制的流顺序,其针对序列先验已知的扩增子的核苷酸序列,以尽可能增加由最小数量的核苷酸种类流延伸的掺入的碱基数(即,通过设计具有非常高的延伸率)。在所述扩增子类型流顺序实施方案中,流顺序可以被解释为由扩增子序列的序列组成定义的单一流顺序(即非环状)。
因此,期望延伸数值CAFIE校正和定制流顺序设计的概念并实施测序运行期间降低CAFIE类型误差的累积或者可以校正一些CAFIE误差的一个或更多个流顺序。换言之,与将CAFIE校正方法应用于测序数据相反,算法和建模可用于预测测序运行期间降低CAFIE误差的累积或者校正一些CAFIE误差的更优化的流顺序。
本文中引用了多个参考文献,其完整公开内容出于所有目的以其整体通过引用并入本文。此外,不论上文如何表征,这些参考文献中的任一个都不被视为本文中要求保护的主题的发明的现有技术。
发明概述
本发明的实施方案涉及核酸序列的确定。更具体而言,本发明的实施方案涉及用于校正通过SBS对核酸测序期间获得的数据中的相位同步误差的递归方法和系统。
描述了用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法的实施方案,其包括以下步骤: (a) 产生包含k碱基长度的核苷酸种类的多个序列排序(sequential ordering),其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;(b)使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和(c) 使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。
描述了用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法的进一步实施方案,其包括以下步骤:(a) 将包含k碱基长度的核苷酸种类的序列排序引入边合成边测序反应环境,其中所述核苷酸种类的序列排序包含高读取长度特征和低延伸率特征;(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的信号,其中所述信号包含落在延伸相后面的一个或更多个群体的核酸模板分子的子集的误差测量值;(c) 循环重复引入核苷酸种类的序列排序和获取信号用于多次迭代,其中核酸分子的子集与延伸相重新同步,这降低了由于序列排序的高读取长度特征和低延伸率特征导致的误差测量值。
此外,描述了用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法的另一个实施方案,其包括以下步骤: (a) 将核苷酸种类的序列排序引入边合成边测序反应环境;(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的多个第一信号;(c) 使用所述第一信号选择核苷酸种类的第二序列排序,其中核苷酸种类的第二序列排序包含k碱基长度、高读取长度特征和低延伸率特征;(d) 将核苷酸种类的第二序列排序引入边合成边测序反应环境;(e) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的多个第二信号,其中所述第二信号包含落在延伸相后面的一个或更多个群体的核酸模板分子的子集的误差测量值;(f) 循环重复引入核苷酸种类的第二序列排序和获取信号用于多次迭代,其中核酸分子的子集与延伸相重新同步,这降低了由于序列排序的高读取长度特征和低延伸率特征导致的误差测量值。
上述实施方案和实现不一定彼此包括或排斥,可以以任意不冲突的和其它可行的方式相组合,无论它们是否与相同的或不同的实施方案或实现相结合地呈现。一个实施方案或实现的描述无意对其它实施方案和/或实现进行限制。而且,在本说明书别处所述的任意一个或更多个功能、步骤、操作或技术可以在替代实现中与在简述中描述的任意一个或更多个功能、步骤、操作或技术相组合。因而,上述的实施方案和实现是示例性的,而不是限制性的。
因此,本发明提供了用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法,其包括以下步骤:
(a) 产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;
(b) 使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和
(c) 使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。
序列数据的模拟获取可包括使用推进参数和不完全的延伸参数,其模拟相位同步误差的累积。
k碱基长度可选自16、24、32、和40个碱基长度。此外,k碱基长度可包含范围为32-40个碱基的长度。
读取长度参数可以包含含有小于3%的累积相位同步误差的读取长度的测量值
延伸率参数可以包含平均数目的与单核苷酸流可以延伸的模板分子互补的序列位置。
选择的序列排序包含高读取长度参数和低延伸率参数。在一个实施方案中,读取长度参数大于约400 bp,且延伸率参数小于或等于约0.55 bp/流,未完成率为0.5%,并且推进率为0.5%。
本发明还提供了用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法,其包括以下步骤:
(a) 将包含k碱基长度的核苷酸种类的序列排序引入边合成边测序反应环境,其中所述核苷酸种类的序列排序包含高读取长度特征和低延伸率特征;
(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的信号,其中所述信号包含落在延伸相后面的一个或更多个群体的核酸模板分子的子集的误差测量值;
(c) 循环重复引入核苷酸种类的序列排序和获取信号用于多次迭代,其中核酸分子的子集与延伸相重新同步,这降低了由于序列排序的高读取长度特征和低延伸率特征导致的误差测量值。
边合成边测序反应环境可以包含孔的阵列。k碱基长度可选自16、24、32、和40个碱基长度,或者可包含范围为32-40个碱基的长度。读取长度特征可以包含含有小于3%的累积相位同步误差的读取长度的测量值。延伸率特征包含平均数目的与单核苷酸流可以延伸的模板分子互补的序列位置。读取长度参数大于约400 bp,且延伸率参数小于或等于约0.55 bp/流,未完成率为0.5%,推进率为0.5%。
本发明还提供了用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法,其包括以下步骤:
(a) 将包含k碱基长度、高读取长度特征值和低延伸率特征值的核苷酸种类的第一序列排序引入边合成边测序反应环境;
(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的多个第一信号;
(c) 将包含k碱基长度、高读取长度特征值和低延伸率特征值的核苷酸种类的第二序列排序引入边合成边测序反应环境,其中所述核苷酸种类的第二序列排序不同于所述核苷酸种类的第一序列排序;
(d) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的多个第二信号,
其中所述一个或更多个群体的一个或更多个子集落在延伸相后面,并且由于第一或第二序列排序的序列组成而与后续流中的延伸相重新同步。
再次,k碱基长度可选自16、24、32、和40个碱基长度,或者可包含范围为32-40个碱基的长度。
附图说明
结合附图,从下述的详细描述会更清楚地理解以上和其它特征。在附图中,相同的参考数字代表相同的结构、元件或方法步骤,并且参考数字的最左边数字表示参考元件最早出现的附图的编号(例如,元件160最早出现在图1中)。然而,所有这些约定意图是典型的或示例性的,而不是限制性的。
图1是在计算机控制和反应基质下的测序仪器的一个实施方案的原理框图;
图2是使用多个计算流顺序的模拟边合成边测序过程对大肠杆菌参考序列的效果的一个实施方案的简化图示;
图3是使用多个计算流顺序的模拟边合成边测序过程对大肠杆菌参考、嗜热栖热菌和空肠弯曲杆菌序列的平均的效果的一个实施方案的简化图示;和
图4A和4B是对于以流顺序‘EX1’和‘TACG’的运行的映射长度直方图和碱基位置处误差的比较的一个实施方案的简化图示。
发明详述
如下面将更详细地描述的,目前描述的本发明的实施方案包括用于产生和采用经优化以尽可能降低通常被称为“边合成边测序”(SBS)技术的技术产生的核酸序列数据中的相位同步误差的流顺序的实施方案的系统和方法。如本文所述的“相位同步流顺序”可以是在测序和数据采集过程期间至少部分通过动态校正一些引入的CAFIE误差而具有经计算以降低CAFIE误差的累积的序列组成的任何长度。还应当理解的是,相位同步流顺序可以是用于整个测序运行的单一流顺序或循环迭代的较短长度的流顺序。
a. 通用
除非另有定义,本文所用的所有技术和科学术语和本发明所属领域普通技术人员通常理解的具有相同含义。与本文所述的方法或材料相同或等效的方法或材料可以用于本发明的实施中,并且下文描述例举的合适方法和材料。例如,可以描述包含多于两个步骤的方法。在此类方法中,并非需要所有步骤以实现定义的目标,且本发明设想使用分离的步骤来实现这些离散目标。所有出版物、专利申请、专利和其它参考文献的公开内容都通过引用并入本文。此外,材料、方法和实例仅是说明性的,并不旨在进行限制。
术语“流图(flowgram)”通常是指,通过SBS方法、特别是基于焦磷酸盐的测序方法(也称作“焦磷酸测序”)产生的序列数据的图示,且可以更具体地称作“焦磷酸测序谱图”。
本文中使用的术语“读取”或“序列读取”通常是指,从单个核酸模板分子或多个基本上相同的模板核酸分子拷贝群体得到的整个序列数据。
本文中使用的术语“运行”或“测序运行”通常是指,在一个或更多个模板核酸分子的测序操作中进行的一系列测序反应。
本文中使用的术语“流”通常是指将核苷酸种类或试剂单一引入反应环境中,这通常是包含模板核酸分子的迭代的边合成边测序过程的部分。例如,流可以包括溶液,所述溶液包括核苷酸种类和/或一种或多种其它试剂(诸如缓冲剂、洗涤溶液或酶),所述试剂可以用于测序过程中,或减少来自以前的核苷酸种类流的遗留或噪声效应。
本文中使用的术语“流顺序”、“流模式”或“核苷酸分配顺序”通常是指核苷酸种类进入反应环境的流的预定系列。在一些实施方案中,流循环可以包括以T、A、C、G核苷酸种类的顺序或可以重复一种或多种核苷酸种类的其它顺序依次添加4种核苷酸种类。
本文中使用的术语“流循环”通常是指流顺序的迭代,其中在一些实施方案中,流循环是循环间具有相同流顺序的重复循环,尽管在一些实施方案中,流顺序在循环间可变化。
本文中使用的术语“读取长度”通常是指,可以可靠地测序的模板分子的长度的上限。许多因素有利于系统和/或方法的读取长度,包括,但不限于模板核酸分子中的GC含量的程度。
本文中使用的术语“信号下降”通常是指检测到的信号强度随着读取长度增加而下降。
本文中使用的术语“测试片段”或“TF”通常是指,可以用于质量控制、校正或其它相关用途的已知序列组成的核酸成分。
本文中使用的术语“引物”通常是指这样的寡核苷酸:其在一定条件下充当DNA合成的起点,在所述条件下,在合适的温度,在适当的缓冲液中,诱发与核酸链互补的引物延伸产物的合成。引物优选地是单链寡脱氧核糖核苷酸。
“新生分子”通常是指这样的DNA链:其通过掺入与模板分子中的对应核苷酸种类互补的核苷酸种类而被模板-依赖性的DNA聚合酶延伸。
术语“模板核酸”、“模板分子”、“目标核酸”或“靶分子”通常是指,作为测序反应的主题的核酸分子,从所述测序反应产生序列数据或信息。
本文中使用的术语“核苷酸种类”通常是指,通常掺入新生核酸分子中的核酸单体的身份,包括嘌呤(腺嘌呤、鸟嘌呤)和嘧啶(胞嘧啶、尿嘧啶、胸腺嘧啶)。“天然”核苷酸种类包括,例如,腺嘌呤、鸟嘌呤、胞嘧啶、尿嘧啶和胸腺嘧啶。上述天然核苷酸种类的修饰形式包括但不限于,α-硫代-三磷酸衍生物(诸如dATP α S)、次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5, 6-二氢尿嘧啶和5-甲基胞嘧啶。
本文中使用的术语“单体重复”或“同聚物”通常是指,包含相同核苷酸种类(即重复的核苷酸种类)的2个或更多个序列位置。
本文中使用的术语“均匀延伸”通常是指延伸反应的关系或阶段,其中基本上相同的模板分子群体中的每个成员均匀地进行反应中的相同延伸步骤。
本文中使用的术语“完成效率”通常是指,在给定的流期间适当延伸的新生分子的百分比。
本文中使用的术语“不完全延伸率”通常是指,没有适当延伸的新生分子的数目与所有新生分子的数目之比。
本文中使用的术语“基因组文库”或“鸟枪法文库”通常是指这样的分子集合:其源自和/或代表生物体或个体的整个基因组(即基因组的所有区域)。
本文中使用的术语“扩增子”通常是指选择的扩增产物,诸如从聚合酶链式反应或连接酶链式反应技术生产的那些。
本文中使用的术语“变体”或“等位基因”通常是指许多种类中的一种,所述种类各自编码类似的序列组成,但是彼此具有一定程度的区别。所述区别可以包括相关领域的普通技术人员已知的任意类型的变异,包括、但不限于:多态性诸如单核苷酸多态性(SNP)、插入或缺失(插入/缺失事件的组合也称作“indels”)、重复序列的数目的差异(也称作串联重复)和结构变异。
本文中使用的术语“等位基因频率”或“等位基因的频率”通常是指,所有变体在由特定变体组成的群体中的比例。
本文中使用的术语“关键序列(key sequence)”或“关键元件(key element)”通常是指,与在已知位置(即,通常包括在连接的衔接元件中)中的具有已知序列组成的模板核酸分子有关的核酸序列元件(通常在约4个序列位置,即,TGAC或核苷酸种类的其它组合),其被用作从模板分子产生的序列数据的质量控制参照。如果序列数据包括与在正确位置的关键元件有关的已知序列组成,则它通过质量控制。
本文中使用的术语“关键通过(keypass)”或“关键通过孔(keypass well)”通常是指,具有已知序列组成的全长核酸测试序列(即,“测试片段”或上面提及的“TF”)在反应孔中的测序,其中将源自TF序列的序列和/或与TF有关或在与目标核酸结合的衔接头中的关键序列的准确度与TF和/或关键(Key)的已知序列组成相对比,并用于测量测序准确度和用于质量控制。在典型的实施方案中,在测序运行中的孔的总数的比例是关键通过孔,在有些实施方案中,它们可以区域性分布。
本文中使用的术语“平端”与相关领域的普通技术人员的理解一致地进行解释,通常是指具有用一对互补核苷酸碱基种类结尾的末端的线性双链核酸分子,其中一对平端通常相容与彼此的连接。
本文中使用的术语“粘性末端”或“突出端”与相关领域的普通技术人员的理解一致地进行解释,通常是指在分子的一条链的末端处具有一个或更多个未配对的核苷酸种类的线性双链核酸分子,其中所述未配对的核苷酸种类可以存在于任一条链上,且包括单个碱基位置或多个碱基位置(有时也称作“粘端”)。
本文中使用的术语“SPRI”是与相关领域的普通技术人员的理解一致地来解释的,并且通常是指“固相可逆固定(Solid Phase Reversible Immobilization)”的专利技术,其中在存在珠粒的情况下并且在特定的缓冲剂条件下选择性地沉淀目标核酸,其中所述珠粒常常被羧化并且是顺磁性的。所沉淀的目标核酸固定到所述珠粒上并且保持与之结合,直到根据操作者的需要通过洗脱缓冲剂去除(DeAngelis, Margaret M. et al: Solid-Phase Reversible Immobilization for the Isolation of PCR Products. Nucleic Acids Res (1995), Vol. 23:22; 4742-4743,其出于所有目的以其整体通过引用并入本文)。
本文中使用的术语“羧化”是与相关领域的普通技术人员的理解一致地来解释的,并且通常是指通过添加至少一个羧基来修饰材料诸如微粒。羧基是COOH或COO-。
本文中使用的术语“顺磁性”是与相关领域的普通技术人员的理解一致地来解释的,并且通常是指材料的特性,其中只有在存在外加磁场的情况下所述材料才具有磁性,并且一旦去除了外加磁场之后就不再保留任何磁化。
本文中使用的术语“珠粒”或“珠粒基质”通常是指具有任何便利的尺寸、具有不规则或规则形状的任何类型的固相颗粒,并且其是从许多已知材料制作的,所述材料诸如:纤维素、纤维素衍生物、丙烯酸树脂、玻璃、硅胶、聚苯乙烯、明胶、聚乙烯吡咯烷酮、乙烯基和丙烯酰胺的共聚物、与二乙烯基苯等交联的聚苯乙烯(描述在,例如,Merrifield, Biochemistry 1964, 3, 1385-1390)、聚丙烯酰胺、胶乳凝胶、聚苯乙烯、葡聚糖、橡胶、硅、塑料、硝酸纤维素、天然海绵、硅胶、控制孔玻璃、金属、交联的葡聚糖(例如,Sephadex?)、琼脂糖凝胶(琼脂糖?)和本领域技术人员已知的其它固相珠子支持物,尽管可以理解,固相基质可包括一定程度的孔隙率,使得流体和/或生物分子能够渗透到孔中。
本文中使用的术语“反应环境”通常是指通常可以在其中发生反应的一定体积的空间,反应物被至少暂时性地包含或局限在其中从而允许检测至少一种反应产物。反应环境的实例包括,但不限于,比色皿、管、瓶以及平面或非平面基质上的一个或更多凹窝、孔或腔室。
本文中使用的术语“虚拟终止子”通常是指基本上减缓反应动力学的终止子,其中可以采用额外步骤来终止反应,诸如去除反应物。
在下面一般地描述了与样品制备和加工、序列数据的产生和序列数据的分析有关的系统和方法的一些示例性的实施方案,其中的一些或全部适合与本文所述的发明的实施方案一起使用。具体地,描述了用于制备模板核酸分子、扩增模板分子、产生目标特异性的扩增子和/或基因组文库的系统和方法、测序方法和仪器以及计算机系统的示例性的实施方案。
在典型的实施方案中,源自实验样品或诊断样品的核酸分子应该从它的粗形式制备和加工成适合高通量测序的模板分子。所述加工方法可以随应用不同而异,产生包含不同特征的模板分子。例如,在高通量测序的一些实施方案中,优选地产生这样的模板分子:其序列或读取长度至少与特定测序方法可以准确地产生它的序列数据的长度相当。在本实例中,所述长度可以包括约25-30个碱基、约50-100个碱基、约200-300个碱基、约350-500个碱基、约500-1000个碱基、大于1000个碱基的范围,或任何适合特定测序应用的其它长度。在有些实施方案中,使用许多本领域普通技术人员已知的方法,将来自样品(诸如基因组样品)的核酸片段化。在优选的实施方案中,所述方法随机地片段化(即不对特定序列或区域进行选择)核酸,且可以包括所谓的雾化或超声处理方法。但是,应当理解,其它片段化方法,诸如使用限制性内切核酸酶消化,可以用于片段化目的。也在本实施方案中,一些加工方法可以采用本领域已知的大小选择方法,以选择性地分离具有期望的长度的核酸片段。
另外,在一些实施方案中,优选地使额外的功能元件结合每种模板核酸分子。所述元件可以用于多种功能,包括,但不限于,用于扩增和/或测序方法的引物序列、质量控制元件(即诸如关键元件或其它类型的质量控制元件)、编码不同结合(诸如与来源样品或患者样品(sample of origin or patient)的结合)的独特标识符(也称作多路标识符或“MID”)或其它功能元件。
例如,所述发明的一些实施方案包括:使具有已知的且可鉴别的序列组成的MID元件的一个或更多个实施方案与样品结合,并使MID元件的实施方案与来自结合样品的模板核酸分子相偶联。将MID偶联的、来自许多不同样品的模板核酸分子合并成单个“多路化的”样品或组合物,其然后可以有效地加工,以生成每个MID偶联的模板核酸分子的序列数据。解卷积(de-convolute)每个模板核酸的序列数据,以鉴别偶联的MID元件的序列组成和与鉴别的来源样品的结合。在本实施方案中,多路化的组合物可以包括来自约384个样品、约96个样品、约50个样品、约20个样品、约16个样品、约12个样品、约10个样品或其它数目的样品的代表。在研究背景下,每个样品可以与不同的实验条件、处理、材料或个体相结合。类似地,在诊断背景下,每个样品可以与不同的组织、细胞、个体、条件、药物或其它处理相结合。相关领域的普通技术人员将理解,上面列出的样品的数目是用于示例目的,因而不应视作限制性的。
在优选的实施方案中,每个MID元件的序列组成是可容易地鉴别的,且不会导入来自测序过程的误差。MID元件的一些实施方案包括核酸种类的独特序列组成,所述核酸种类具有与天然存在的序列最小的序列相似性。或者,MID元件的实施方案可以包括与天然存在的序列的一定程度的序列相似性。
另外,在优选的实施方案中,已知每个MID元件的位置与模板核酸分子和/或偶联到模板分子上的衔接元件的某些特征有关。已知每个MID的位置,可用于发现序列数据中的MID元件和解释可能出错的MID序列组成,并随后与来源样品相关联。
例如,可用作与MID元件的位置关系的锚的某些特征可以包括、但不限于:模板分子的长度(即已知MID元件具有的从5’或3’端的许多序列位置)、可识别的序列标志物诸如位于MID元件附近的关键元件和/或一种或多种引物元件。在本实施方案中,所述关键元件和引物元件通常包括已知序列组成,所述序列组成通常不会随多路组合物中的样品不同而异,且可以用作检索MID元件的位置参照。可以在计算机130上进行由应用程序135实现的分析算法,以分析对每个MID偶联的模板产生的序列数据,从而鉴别更容易识别的关键元件和/或引物元件,并从那些位置推延,以鉴别据推测包括MID元件序列的序列区域。应用程序135然后可以处理推测区域和在侧接区中可能离开一定距离的序列组成,以确定地鉴别出MID元件和它的序列组成。
一些或所有所述的功能元件可以组合成衔接元件,所述衔接元件在某些加工步骤中偶联至核苷酸序列上。例如,一些实施方案可以将包含互补序列组成的引发序列元件或区域结合到用于扩增和/或测序的引物序列上。此外,相同的元件可以用于所谓的核酸分子的“链选择”和核酸分子向固相基质的固定化。在有些实施方案中,2组引发序列区域(此后称作引发序列A和引发序列B)可以用于链选择,其中仅具有引发序列A的一个拷贝和引发序列B的一个拷贝的单链被选择,且被包括为制备的样品。在替代实施方案中,衔接元件的设计特征消除了对链选择的需求。相同的引发序列区域可以用于扩增和固定化方法中,其中,例如,可以将引发序列B固定化在固体基质上,并从其延伸扩增的产物。
为片段化、链选择以及功能元件和衔接头的添加而加工样品的额外实例描述在:美国专利申请系列号10/767,894,标题为“Method for preparing single-stranded DNA libraries”,提交日为2004年1月28日;美国专利申请系列号12/156,242,标题为“System and Method for Identification of Individual Samples from a Multiplex Mixture”,提交日为2008年5月29日;和美国专利申请系列号12/380,139,标题为“System and Method for Improved Processing of Nucleic Acids for Production of Sequencable Libraries”,提交日为2009年2月23日,它们各自出于所有目的在此以其整体通过引用并入本文。
描述了用于进行模板核酸分子的扩增以产生基本上相同的拷贝群体的系统和方法的不同实施方案。普通技术人员显而易见,在SBS的一些实施方案中,期望产生每个核酸元件的很多拷贝,以在一种或多种核苷酸种类掺入与模板分子的拷贝结合的每个新生分子中时产生更强的信号。本领域已知许多用于产生核酸分子拷贝的技术,例如,使用所谓的细菌载体的扩增、“滚环”扩增(描述在美国专利号6,274,320和7,211,390中,通过上述引用并入)和聚合酶链式反应(PCR)方法,每种技术适合与本文所述的发明一起使用。特别适合高通量应用的一种PCR技术包括所谓的乳剂PCR方法(也称作emPCR方法)。
乳剂PCR方法的典型实施方案包括:建立2种不混溶物质的稳定乳剂,从而建立可以在其中发生反应的水性微滴。具体地,适合用于PCR方法中的乳剂的水性微滴可以包括:第一流体诸如基于水的流体,其作为微滴(也称作不连续相)悬浮或分散在另一种流体诸如疏水流体(也称作连续相)内,所述疏水流体通常包括某些类型的油。可以采用的油的实例包括、但不限于:矿物油、基于有机硅的油或氟化的油。
此外,有些乳剂实施方案可以采用表面活性剂,所述表面活性剂起稳定乳剂的作用,它们可能特别有助于特定加工方法诸如PCR。表面活性剂的一些实施方案可以包括:有机硅或氟化的表面活性剂中的一种或多种。例如,可以采用一种或多种非离子型表面活性剂,包括、但不限于:脱水山梨糖醇单油酸酯(也称作Span 80), 聚氧乙烯脱水山梨糖醇单油酸酯(也称作Tween 80),或在有些优选的实施方案中,采用聚二甲基硅氧烷共聚醇(也称作Abil EM90)、聚硅氧烷、聚烷基聚醚共聚物、聚甘油酯、泊洛沙姆和PVP/十六烷共聚物(也称作Unimer U-151),或在更优选的实施方案中,采用在环戊硅氧烷中的高分子量有机硅聚醚(也称作DC 5225C,可从Dow Corning得到)。
乳剂的微滴也可以称作隔室、微胶囊、微反应器、微环境或相关领域常用的其它名称。水性微滴的大小可以随乳剂组分或组合物的组成、其中含有的内容物和采用的形成技术而变化。所述的乳剂会建立微环境,在所述微环境中可以进行化学反应,诸如PCR。例如,进行期望的PCR反应所需的模板核酸和所有试剂可以包囊在乳剂的微滴中,并化学地分离。在一些实施方案中可以采用额外的表面活性剂或其它稳定剂,以促进如上所述的微滴的额外稳定性。使用微滴可以进行PCR方法的典型热循环操作,以扩增包囊的核酸模板,导致包含模板核酸的许多基本上相同的拷贝的群体的产生。在有些实施方案中,在微滴内的群体可以称作“克隆地分离的”、“隔室化的”、“隔离的”、“包囊的”或“局部化的”群体。也在本实施方案中,一些或所有所述的微滴可以进一步包囊固体基质诸如珠子,所述珠子用于连接模板和扩增的模板拷贝、扩增的与模板互补的拷贝或它们的组合。此外,所述固体基质可以能够用于连接其它类型的核酸、试剂、标记或其它目标分子。
在乳剂破裂和珠粒恢复之后,在典型的实施方案中可能还期望“富集”在其上固定了模板核酸分子的基本上完全相同的拷贝的成功地扩增的群体的珠粒。例如,用于富集“DNA阳性”的珠粒的处理可以包括:把引物种类杂交到通常在适配子序列中找到的已固定的扩增拷贝的游离末端上的区域,利用聚合酶介导的延伸反应延伸引物,以及将引物结合到富集基质诸如磁性或琼脂糖珠粒。可以对包括珠粒的溶液施加选择性条件,诸如磁场或离心作用,其中富集珠粒对所述选择性条件做出响应并且与“DNA阴性”的珠粒分离(即不具有或者只有很少已固定拷贝)。
可以与本文所述的发明一起使用的乳剂的实施方案可以包括:非常高密度的微滴或微胶囊,它们使所述的化学反应能够以整体平行的方式来实现。用于扩增的乳剂的额外实例和它们用于测序应用的用途,描述在美国专利号7,638,276; 7,622,280; 7,842,457; 7,927,797; 和8,012,690以及美国专利申请系列号13/033,240中,它们各自出于所有目的在此以其整体通过引用并入本文。
有时称作超深测序(Ultra-Deep Sequencing)的实施方案也会产生可以与本文所述的发明一起使用的用于测序的目标特异性的扩增子,其包括使用特异性的核酸引物集合来从包含目标核酸的样品扩增选择的一个或更多个目标区域。此外,所述样品可以包括核酸分子群体,所述群体已知或疑似含有这样的序列变体:所述序列变体包含与研究或诊断用途有关的序列组成,其中可以采用引物来扩增样品中的序列变体并提供关于所述序列变体的分布的洞察。例如,可以进行这样的方法,所述方法通过核酸样品中的多个等位基因的特异性扩增和测序来鉴别序列变体。首先用一对PCR引物扩增核酸,所述引物设计成扩增在目标区域周围的区域或核酸群体共有的区段。随后在单独的反应器(诸如上述的基于乳剂的容器)中单个地进一步扩增PCR反应的每种产物(第一扩增子)。对得到的扩增子(在本文中称作第二扩增子,各自源自第一扩增子群体的一个成员)测序,并使用序列集合来确定存在的一个或更多个变体的等位基因频率。重要的是,所述方法不需要事先知道存在的变体,且通常可以鉴别出以<1%频率存在于核酸分子群体中的变体。
所述的目标特异性的扩增和测序方法的一些优点包括:比以前实现的更高水平的灵敏度,且特别可用于包含模板核酸分子的混合群体的策略。此外,采用高通量测序工具的实施方案,诸如采用由454 Life Sciences Corporation提供的所谓的PicoTiterPlate孔阵列(有时也称作PTP平板或阵列)的实施方案,所述方法可以用于产生每次运行或实验超过100,000、超过300,000、超过500,000或超过1,000,000个核酸区域的序列组成,且可能至少部分地取决于用户选择,诸如通过使用衬垫实现的泳道构型等。另外,所述方法会提供低丰度等位基因(其可能占存在于样品中的等位基因变体的1%或更少)的检测灵敏度。所述方法的另一个优点包括:产生包括分析的区域的序列的数据。重要的是,不需要具有待分析的基因座的序列的现有知识。
用于测序的目标特异性的扩增子的额外实例描述在:美国专利申请系列号11/104,781,标题为“Methods for determining sequence variants using ultra-deep sequencing”,提交日为2005年4月12日;PCT专利申请系列号US 2008/003424,标题为“System and Method for Detection of HIV Drug Resistant Variants”,提交日为2008年3月14日;和美国专利号7,888,034,标题为“System and Method for Detection of HIV Tropism Variants”, 提交日为2009年6月17日; 和美国专利申请系列号12/592,243, 标题为“SYSTEM AND METHOD FOR DETECTION OF HIV INTEGRASE VARIANTS”, 提交日为2009年11月19日,它们各自出于所有目的在此以其整体通过引用并入本文。
此外,测序的实施方案可以包括Sanger型技术、通常称作边杂交边测序(SBH)、边连接边测序(SBL)或边掺入边测序(SBI)技术的技术。所述测序技术还可以包括所谓的polony测序技术;纳米孔、波导和其它单分子检测技术;或可逆的终止子技术。如上所述,一种优选的技术可以包括边合成边测序方法。例如,有些SBS实施方案测序基本上相同的核酸模板拷贝的群体,且通常采用一种或多种寡核苷酸引物,所述引物被设计成与样品模板分子的预定互补位置或与模板分子相连的一个或更多个衔接头退火。在有核酸聚合酶存在下,给引物/模板复合物提供核苷酸种类。如果核苷酸种类与核酸种类(其与样品模板分子上的直接邻近寡核苷酸引物的3’末端的序列位置相对应)互补,则所述聚合酶会用核苷酸种类延伸引物。或者,在一些实施方案中,给引物/模板复合物一次性提供许多目标核苷酸种类(通常A、G、C和T),与在样品模板分子上的直接邻近寡核苷酸引物的3’末端的对应序列位置处互补的核苷酸种类被掺入。在所述实施方案中的任一个中,可以化学地阻断核苷酸种类(诸如在3’-O位置),以防止进一步延伸,并需要在下一轮合成之前去阻断。还应当理解,向新生分子的末端添加核苷酸种类的过程,与上面关于向引物末端添加所述的过程基本上相同。
如上所述,通过本领域已知的多种方法,可以检测核苷酸种类的掺入,所述方法例如:通过检测焦磷酸盐(PPi)的释放,其中使用酶促反应方法来生成光,或通过检测H + 的释放和测量pH变化(在美国专利号6,210,891 ;6,258,568 ;和6,828,100中所述的实例,它们各自出于所有目的在此以其整体通过引用并入本文),或通过结合到核苷酸上的可检测标记。可检测标记的一些实例包括、但不限于:质量标签和荧光的或化学发光的标记。在典型的实施方案中,通过例如洗涤,去除未掺入的核苷酸。此外,在一些实施方案中,可以对未掺入的核苷酸进行酶降解,诸如,例如,使用腺苷三磷酸双磷酸酶或焦磷酸酶的降解,这描述在:美国专利申请系列号12/215,455,标题为“System and Method for Adaptive Reagent Control in Nucleic Acid Sequencing”,提交日为2008年6月27日;和12/322,284,标题为“System and Method for Improved Signal Detection in Nucleic Acid Sequencing”,提交日为2009年1月29日;它们各自出于所有目的在此以其整体通过引用并入本文。
在使用可检测标记的实施方案中,它们通常必须在下一个合成循环之前灭活(例如通过化学裂解或光漂白)。然后可以如上所述,用另一个核苷酸种类或多个目标核苷酸种类查询模板/聚合酶复合物中的下一个序列位置。核苷酸添加、延伸、信号获取和洗涤的重复循环会导致模板链的核苷酸序列的确定。续接本实例,通常可以在任一个测序反应中同时地分析大数目或大群体的基本上相同的模板分子(例如103、104、105、106或107分子),从而实现对于可靠检测而言足够强的信号。
另外,在一些实施方案中,可能有利的是,通过采用所谓的“配对末端”测序策略,提高测序过程的读取长度能力和性质。例如,测序方法的一些实施方案对可以产生高质量和可靠读取的分子的总长度具有限制。换而言之,可靠读取长度的序列位置的总数可以不超过25、50、100或500个碱基,这取决于采用的测序实施方案。配对末端测序策略如下延长可靠读取长度:通过单独地测序分子的每个末端(有时称作“标签”末端),所述分子包括在每个末端处通过接头序列连接至中心的原始模板核酸分子的片段。模板片段的原始位置关系是已知的,因而来自序列读取的数据可以重组成具有更长的高质量读取长度的单个读取。配对末端测序实施方案的其它实例描述在:美国专利号7,601,499,标题为“Paired end sequencing”;和美国专利申请系列号12/322,119,标题为“Paired end sequencing”,提交日为2009年1月28日,它们各自出于所有目的在此以其整体通过引用并入本文。
SBS设备的一些实例可以实施前面描述的其中一些或所有方法,并且可以包括诸如以下各项的检测器件中的一项或更多项:用于光学检测的电荷耦合器件(即CCD摄影机)或共焦类型体系结构,用于针对离子或化学品检测的结构的离子敏感场效应晶体管(其也被称作“ISFET”)或化学品敏感场效应晶体管(其也被称作“ChemFET”),微流体腔室或流动池,反应基质,和/或泵和流量阀。以基于焦磷酸盐的测序为例,一些设备的实施方案可以采用产生固有地低水平背景噪声的化学发光检测策略。
在一些实施方案中,用于测序的反应基质可以包括平面基质诸如载玻片型基质、包含其中含有ISFET检测元件的孔型结构的半导体芯片、或在一些实施方案中,其可以包含孔型结构的波导型反应基质。此外,反应基质可以包括所谓的PTP阵列,该阵列可从454 Life Sciences Corporation得到,如上所述,其由纤维光学面板形成,所述面板被酸蚀刻,以产生数十万个或更多个非常小的孔,每个孔能够容纳基本上相同的模板分子群体(即,有些优选的实施方案包含在70 x 75mm PTP阵列上的约330万个孔,孔之间的间距为35 μm )。在一些实施方案中,每个基本上相同的模板分子群体可以安置在固体基质(诸如珠子)上,每个固体基质可以安置在所述孔之一中。例如,装置可以包括:试剂递送元件(用于为PTP平板底座提供流体试剂),以及CCD型检测装置(其能够收集从PTP平板上的每个孔发生出的光的光子)。包含用于提高信号识别的特征的反应基质的实例描述在:美国专利号7,682,816,标题为“THIN-FILM COATED MICROWELL ARRAYS AND METHODS OF MAKING SAME”,提交日为2005年8月30日,其出于所有目的在此以其整体通过引用并入本文。用于进行SBS型测序和焦磷酸盐测序的装置和方法的其它实例描述在:美国专利号7,323,305和7,575,865,它们二者通过上述引用并入。
另外,可以采用使一个或更多个样品制备过程(诸如上述的emPCR过程)自动化的系统和方法。例如,自动化的系统可以用于提供有效的溶液,所述溶液用于产生乳剂,所述乳剂用于emPCR加工、进行PCR热循环操作和富集成功地制备的核酸分子群体进行测序。自动化的样品制备系统的实例描述在:美国专利号7,927,797;和美国专利申请系列号13/045,210,其出于所有目的在此以其整体通过引用并入本文。
另外,本文所述的本发明实施方案的系统和方法可以包括:实现某些设计、分析或其它操作,所述操作使用为了在计算机系统上执行而储存的计算机可读介质。例如,下面详细描述了几个实施方案,它们用于加工检测到的信号和/或分析使用SBS系统和方法产生的数据,其中所述加工和分析实施方案可在计算机系统上实现。
在一些实施方案中,数据处理应用包括用于针对CAFIE误差的累积校正原始序列数据的算法。例如,可以将一些或所有CAIFE误差因素精确地近似并应用到理论流图模型,以提供从实际测序运行获得的真实数据的表示并随后使用数学模型的反演来从观察到的流图近似理论流图。因此,可以将误差的近似应用于观察到的流图中代表的实际测序数据,以产生代表所有或基本上所有误差因素被去除的目标核酸的序列组成的理论流图。CAFIE校正实施方案的额外实例描述于美国专利号8,301,394;和8,364,417,其中每个出于所有目的以其整体通过引用并入本文。
用于与本文所述的发明一起使用的计算机系统的一个示例性实施方案可以包括任意类型的计算机平台,诸如工作站、个人计算机、服务器或任意其它现有的或将来的计算机。但是,本领域普通技术人员会理解,如本文所述的前述计算机平台特别地构造成进行所述发明的专门化操作,且不视作一般目的计算机。计算机通常包括已知的部件如处理器、操作系统、系统内存、内存存储装置、输入输出控制器、输入输出装置、和显示装置。相关领域中的普通技术人员还应当理解,可能会有许多可能的计算机配置和部件,并也可能包括高速缓冲存储器、数据备份单元、和许多其它装置。
显示装置可以包括提供可视信息的显示装置,此信息通常可以被逻辑地和/或物理性地组织为像素阵列。也可以包括界面控制器,界面控制器可以包括任何类型的用于提供输入输出界面的已知或未来的软件程序。例如,界面可以包括通常被定义为“图形用户界面”(通常称作GUI)的界面,图形用户界面提供给用户一个或更多个图形表示。界面通常能够接受用户使用本领域中普通技术人员已知的选择或输入手段进行的输入。
在相同或可替换的实施方案中,计算机上的应用程序可以采用包括被称为“命令行界面”(经常称为CLI)的界面。在应用程序和用户之间,CLI通常提供基于文本的交互。通常,命令行界面通过显示装置显示输出和接收输入作为文本行。例如,一些实现方法可以包括所谓的“壳(shell)”,如相关领域的普通技术人员已知的Unix Shells,或Microsoft Windows Powershell,其采用面向对象类型的编程体系结构例如Microsoft .NET framework。
相关领域的普通技术人员会理解,界面可以包括一个或更多个GUI、CLI或它们的组合。
处理器可以包括可商业得到的处理器,如Intel Corporation生产的Celeron、Core或Pentium处理器,Sun Microsystems公司生产的SPARC处理器,AMD公司生产的Athlon、Sempron、Phenom或Opteron处理器,或它可以是或将要变成可以使用的其它处理器之一。处理器的一些实施方案可以包括所谓的多核处理器,和/或能够在单核或多核配置中采用并行处理技术。例如,多核结构通常包括两个或更多个处理器“执行核”。在本实施方案中,每个执行核可以以作为能够并行执行多个线程的独立处理器而运行。另外,相关领域中的普通技术人员会理解,处理器可以被配置成通常所谓的32位或64位结构,或现在已知或将来可能开发出的其它体系结构。
处理器通常运行操作系统,所述操作系统可以是例如微软公司的WINDOWS型操作系统(诸如Windows XP、Windows Vista或Windows_7);苹果电脑公司的Mac OS X操作系统(诸如Mac OS X v10.6“Snow Leopard”操作系统);可以从许多卖主或所谓的开源得到的Unix或Linux-型操作系统;其它或未来的操作系统;或它们的一些组合。操作系统通过众所周知的方式与固件和硬件接口,并且帮助处理器调整和执行各种可以用多种编程语言书写的计算机程序的功能。操作系统通常与处理器协作地协调和执行计算机的其它部件的功能。操作系统也会提供进度表、输入-输出控制、文件和数据管理、存储管理、以及通信控制及相关服务,所有的都依照已知的技术。
系统存储器可以包括任何类型的已知或未来的内存存储设备。实例包括任何通常可以获得的随机存取存储器(RAM),磁介质例如驻存硬盘或磁带,光学介质例如读和写光盘,或其它内存存储设备。内存存储设备可以包括任何类型已知的或未来的设备,包括光盘驱动、磁带驱动、可移动硬盘驱动、USB或闪存、或磁盘驱动。这种类型的内存存储设备通常读自和/或写入到程序存储介质中例如,分别为光盘、磁带、可移动硬盘、USB或闪存或软盘。这些程序存储介质中的任何一个或其它现在使用的或也许以后会开发的可以视为计算机程序产品。如所期望的,这些程序存储介质通常存储计算机软件程序和/或数据。计算机软件程序,也称为计算机控制逻辑,通常被存储在系统内存中和/或与内存存储设备结合使用的程序存储设备中。
在一些实施方案中,计算机程序产品被描述为包括计算机可用介质,该计算机可用介质具有存储在其中的控制逻辑(计算机软件程序,包括程序代码)。当由处理器执行时,该控制逻辑使得处理器执行本文中所述的功能。在其它实施方案中,一些功能主要由使用例如硬件状态机的硬件实施。实施硬件状态机以便执行本文中所述的功能对于相关领域技术人员来说将是显而易见的。
输入-输出控制器可以包括任何类型的各种已知的用于接收和处理来自用户信息的设备,该用户无论是人还是机器,无论是本地的还是远程的。这样的设备包括,例如调制解调器卡、无线卡、网络接口卡、声卡、或用于任何类型各种已知输入设备的其它类型的控制器。输出控制器可以包括用于向用户显示信息的任何类型的各种已知显示设备的控制器,该用户无论是人还是机器,无论是本地还是远程。在当前描述的实施方案中,计算机的功能元件通过系统总线彼此相互通信。计算机的一些实施方案可以利用网络或其它类型的远程通信与一些功能性的元件互相通信。
正如相关领域的技术人员显然得知的,工具控制和/或数据处理应用,如果用软件实施,则可以被载入并从系统内存和/或内存存储设备中执行。所有或部分工具控制和/或数据处理应用也可以驻留在只读内存中或内存存储设备的类似设备中,这样的设备不要求工具控制和/或数据处理应用通过输入-输出控制器被首先加载。相关领域技术人员会理解,工具控制和/或数据处理应用或它们的一部分可以由处理器以众所周知的方式被载入到系统内存中,或高速缓存中,或二者中,作为执行的优势。
另外,计算机可以包括存储在系统内存中的一个或更多个库文件、试验数据文件、以及因特网客户。例如,试验数据可以包括与一个或更多个试验或测定相关的数据诸如检测信号值,或其它与一个或更多个SBS试验或处理相关联的值。此外,因特网客户可以包括能利用网络访问另一个计算机上的远程服务的应用,并且例如可以包括通常所谓的“网络浏览器”。在本实施方案中,一些通常使用的网络浏览器包括:可从微软公司得到的Microsoft Internet Explorer 8,可从Mozilla公司得到的Mozilla Firefox 3.6,可从苹果计算机公司得到的Safari 4,可从Google公司得到的Google Chrome,或现在已知的或将来要开发的其它类型的网络浏览器。此外,在相同实施方案或其它实施方案中,因特网客户可以包括专用软件应用程序(或可能成为它的一个元件),该专用软件应用程序使得能经由网络(例如用于生物学应用的数据处理应用程序)来访问远程信息。
网络可以包括本领域普通技术人员所众所周知的许多不同类型网络中的一个或更多个。例如,网络可以包括局域网或广域网,其可以使用通常所谓的TCP/IP协议组进行通信。网络可以包括互连的计算机网络的全球系统的网络(其通常称为因特网),或还可以包括各种内联网结构。相关领域的普通技术人员还会理解,一些用户在网络化的环境中可能偏好使用通常所说的“防火墙”(有时候也称为包过滤器(Pocket Filters)或边界保护设备(Border Protection Device))来控制去往和来自硬件和/或软件系统的信息交换。例如,防火墙可以包括硬件或软件元件或它们的一些组合,并且通常设计成强化用户设置的安全规则,诸如,例如网络管理等。
b. 本文所述的发明的实施方案
如上所述,所述发明涉及用于产生和采用经设计以尽可能降低通常被称为SBS策略的技术产生的核酸序列数据中的相位同步误差的累积的相位同步流顺序的实施方案的系统和方法。
在一个典型的测序实施方案中,可以采用一个或更多个仪器元件来自动化一个或更多个过程步骤。例如,使用仪器来自动化和实现一些或所有过程步骤,可以进行测序方法的实施方案。图1提供了用于需要捕获光信号的测序过程的测序仪器100的一个说明性实例,其通常包括光学子系统和流体子系统,它们用于进行在反应基质105上发生的测序反应和数据捕获。但是,应当理解,对于需要其它数据捕获模式(即PH、温度、电流、电化学品等)的测序过程,可以采用数据捕获模式的子系统,它们是相关领域的普通技术人员已知的。例如,可以由用户101或一些自动化实施方案将模板分子的样品加载到反应基质105中,随后利用测序仪器100按照大规模并行方式进行测序,以便产生代表每一个模板分子的序列组成的序列数据。重要的是,用户101可包括任何类型的测序技术的用户。
在一些实施方案中,使用配置以使用仪器100来进行测序必需的一些或所有的样品制备步骤的样品制备仪器180,可以任选地以完全自动化的或部分自动化的方式制备用于测序的样品。本领域普通技术人员将理解,样品制备仪器180被提供用于说明的目的,并且可以代表各自设计用于实施与具体测序测定所需的样品制备相关的一些或所有步骤的一个或更多个仪器。样品制备仪器的实例可以包括机器人平台,诸如可从Hamilton Robotics, Fluidigm Corporation, Beckman Coulter或Caliper Life Sciences得到的那些。
此外,如图1所示,测序仪器100可以可操作地连接至一个或更多个外部计算机组件诸如计算机130,后者可以例如执行系统软件或固件诸如应用程序135,后者可以提供一个或更多个仪器(诸如测序仪器100或样品制备仪器180)的指令控制和/或数据分析功能。计算机130可以另外经由网络150可操作地连接至其它计算机或服务器,所述网络可以实现仪器系统的远程操作和大量数据向能够存储和处理系统的输出。在本实例中,测序仪器100和/或计算机130可以包括本文一般地描述的实施方案的一些或所有组件和特征。
如上所述,一些先前所述的实施方案包括用于通过计算任何已知序列的相位同步损失的程度(假设CF和IE的给定水平)而校正每次流负责累积的CAFIE误差的检测信号值的系统和方法。
下面所示表1提供了对于IE和CF的数学建模阈值的实例,对于不同读取长度,所述阈值提供99%或更好的精确度(例如,读取至少99%表示模板分子的实际序列)。表1中呈现的预测值说明了对于各种读取长度CF和IE效应对测序精确度的影响,以及实现大致99%的读取精确度可以容忍的IE和CF误差的程度。表1显示,对于未校正的读取,可允许不大于1%的CF率(假设对于该群体IE等于零),以便使约100个序列位置的读取长度为99%精确(即,99%或更高的完成效率)。而且,可允许不大于0.25%的IE率(假设CF率等于零),以便使约100个序列位置的读取长度为99%精确。
表1. 在不同读取长度导致99%精确度的预测误差率
将要理解,表1中呈现的值仅仅是出于说明的目的,并且不应被视为限制性的。普通技术人员将理解,几个因素可能有助于值的可变性,诸如基因组或参考序列和用于对预测进行公式化的其它参数。例如,SBS方法的典型实施方案一般实现范围为1-2%的CF率,而IE率范围为0.1-0.4%(即,完成效率范围为99.6-99.9%)。如上所述,CF和IE的校正和/或降低是期望的,因为相位同步性的损失在读取长度上具有累积效应,并随着读取长度增大而使读取质量退化。
在一些前述实施方案中,假设表示CF和IE两者的值在基本上相同的模板分子群体的整个读取中基本恒定,诸如,例如,驻留在PicoTiterPlate阵列或其它类型的孔阵列诸如ISFET型装置的单个孔之内的模板分子群体。这允许利用两个简单参数“完成效率”和“推进”,而没有对模板分子的实际序列的任何先验了解,在整个读取中对每个序列位置进行数值校正。已经发现前述实施方案的系统和方法对于确定和校正在模板分子群体中出现的CF和IE的量非常有效。例如,已经实施了先前的校正实施方案,其针对每个孔中驻留的基本上相同的模板分子的每个群体应用从每个流检测的信号值的校正以说明CF和IE。
前述实施方案将相位同步性的缺少建模为非线性映射:
方程(1):
其中:
- M 为CAFIE映射
- p 为理论流图[作为数组]
- λ 是完成效率参数
- ε 是推进参数
- q 为观察的流图[作为数组]。
可以通过利用方程(1)中给出的映射模型公式将理论流图转换成真实观察的流图以估计IE和CF。可以通过例如通过对具有已知序列的多核苷酸模板分子测序分析被引入到观察的流图(q)的误差,来产生用于此类映射公式的模型。
例如,理论流图(p)提供了与掺入反应环境的核苷酸种类相关的理想信号强度值,其中理论流图的每个理想值是整数或零。在本实例中,值“1”表示由单个核甘酸掺入推导出的100%检测的信号强度,“0”表示0%信号(例如,在包括1百万个基本上相同的模板分子和1百万个新生分子的群体的孔中,“1”表示在每个新生分子被延伸了单个核甘酸时推导出的信号,“2”表示在每个新生分子被延伸了两个核苷酸时推导出的信号,等)。或者,观察的(或模拟的)流图(q)提供了与引入反应环境的核苷酸种类相关的实际检测到的信号强度值。
在本实例中,针对每个流迭代,理论流图(p)和观察的流图(q)之间的信号强度值之差至少部分地表示相位同步的损失。例如,在观察的流图(q)中表示的信号值不是整数,而是针对核苷酸种类流的相同迭代通常稍高于或稍低于理论流图(p)中表示的理想值。
可以利用CF和IE参数的已知值估计表示为“M”的映射模型。例如,CF和IE参数包括ε(推进)参数和λ(完成效率)参数。可以采用CF和IE参数估计映射模型M并将理论流图(p)的信号值转换成观察流图的值(q)。在本实例中,由映射模型M表示的误差值随着流的每一迭代而累积,并以指数方式增长。
继续上文的实例,与基本上相同的模板分子的每个群体相关联的相位同步化测序反应在流迭代之后变成三个不同的相位同步化子群体。所述子群体包括:相位同步化反应的第一子群体,其中在相对于模板分子的合适的序列位置处适当地掺入流中的核甘酸种类(例如没有CAFIE效应);相位同步化反应的第二子群体,其中已经发生来自CF机制的不适当的掺入,并且反应在相对于第一群体的序列位置前面;以及相位同步化反应的第三子群体,其中已经发生来自IE机制的不适当的掺入,并且反应在第一群体的序列位置后面。在本实例中,在下一流迭代时,三个子-子群体将由上述三个子群体的每个形成,等等。相关领域的普通技术人员将理解,在第n个流迭代时,将存在对在流n的信号有贡献的相位同步化反应的3n个群体。
进一步继续上文的实例,映射模型M的反演可以通过估计CF和IE参数的正确值(例如,ε(推进)和λ(完成效率)参数两者的值),以反演观察的流图(q)的信号值,并以给出理论流图(p)的信号值。
一些实施方案以下面概述的两个相继阶段(i)和(ii)执行反演映射:
对于每个核甘酸种类流i:
(i) – 通过核甘酸种类添加延伸新生分子:
对于所有j,使得N j =N i 且 p j > 0
(ii) – 通过先前添加剩余的核甘酸种类延伸新生分子:
对于所有j,使得N j =N i-1 且 p j > 0
其中:
- p i 是在第i个核甘酸种类流的理论(干净)流图信号值
- q i 是在第i个核甘酸种类流的观察的流图信号值
- m i 是对于第i个核甘酸流可用于在流图序列位置处掺入的核甘酸种类分子的一部分
- N i 是第i个核甘酸添加(A,C,G或T)
- ε是推进(CF)参数
- λ是完成效率(IE)参数
- ( j, j’) 是索引对,使得pj'是流图上pj的下一个正值。
在一些实施方案中,逐个流地执行利用映射模型的计算,并且所述计算通过阶段(i)和(ii)递归地更新观察的流图(q)和模板分子m的分数。
如下文将更详细描述的,可以采用正向矩阵模型推导出逆矩阵模型。例如,利用逆矩阵模型进行矩阵计算可用于推导出正确CF和IE参数的估计值。例如,CF和IE参数的各种值可被应用在矩阵计算中并被评估与观察的流图的拟合程度。典型地,提供与观察的流图(q)的最佳拟合的CF和IE参数被确定为CF和IE参数的实际值的良好估计。
在相同实例中,使用正向矩阵模型的正向矩阵计算可以用于产生使用CF和IE参数观察到的流图(q),所述CF和IE参数包括完成效率值λ=0.95和推进值ε=0.05。正向矩阵的与流的迭代相关联的每一行记录对于每个核甘酸流的递归阶段(i,ii)的运算和结果。
可以将方程(1)和递归阶段(i,ii)重新写为矩阵-数组运算:
方程 (2):
其中:
- [M(p’, ε, λ)] 是矩阵
- * 是矩阵-数组乘法
- p’ 是理论流图的二进制编码列表(例如,图1中的流图p,p = [0 1 0 2 0 0 1 0 3 0 1 2]t将被编码为p’ = [0 1 0 1 0 0 1 0 1 0 1 1]t)。
方程(2)的逆形式给出逆映射,将观察的流图(q)103转换回理论流图(p)101:
方程 (3):
其中:
- [M-1(p’,ε,λ)] 是逆矩阵
使用迭代法求解逆方程(3),以获得针对每一读取的理论流图(p)。利用给定的参数对(ε, λ),针对CAFIE反演,进行该迭代:
方程(4):
其中p’(1) = q’ 被用作计算的种子(seed)。
此外,在本文所述实例中,利用逆矩阵模型的逆矩阵计算也可以利用CF和IE参数由观察的流图(q)产生理论流图(p),所述CF和IE参数包括完成效率值λ=0.95,和推进值ε=0.05。
使用阈值的值来表示系统的信噪比的估计值。例如,在一个实施方案中,可以采用固定值,阈值≡0.2。在此类实施方案中,在流图值q大于0.2时,与流图q相关联的二进制编码列表q'将编码值“1”,在流图值q小于或等于0.2时,与流图q相关联的二进制编码列表q'将编码值“0”。在本实例中,阈值0.2是如上所述的信噪比的估计值。
或者,一些实施方案可以采用阈值,对于给定的参数对(ε, λ),可以通过方程(4)反演回到干净的理论流图(p)。在许多实施方案中,流图反演的单次迭代一般足够。在一些实施方案中,可能期望进行流图反演的2、3或更多次迭代直到计算以期望的质量收敛于解,其中利用每次迭代,尤其是对于较长的读取长度,可以改善流图表示的精确度。在一些实施方案中,为了计算效率的缘故,可以进行流图反演的1或2次迭代。而且,由计算机代码实施的一些实施方案可以使用户能够选择迭代的数目,以响应于用户选择进行和/或顺次进行每一迭代。例如,用户可以利用本领域中已知的方法进行选择,诸如在一个或更多个字段中输入值或选择GUI中呈现的按钮。在本实例中,用户可以输入表示要进行的迭代数目的值进行和/或用户可以选择按钮来进行本发明的迭代。此外,用户可以选择数据质量的指示,其中本发明迭代直到达到该数据质量的水平。
在一些实施方案中,可以利用方程(4)确定CF和IE参数的值的估计值。例如,可以利用方程(4),对于完成效率参数输入不同值,同时对于CF参数利用固定值,进行测试计算,来确定完成效率参数(λ)的最佳拟合值。在本实例中,可以依次采用值λ=1、0.999、0.998、……、0.990和固定的CF值ε=0,并针对每一个值获得结果。在不同实施方案中,可以用其它间隔代替输入λ值之间的0.001间隔,诸如,例如,间隔值为0.05、0.01、0.005、0.001、0.0005、0.0001,等等。
继续本实例,如果计算的理论流图(p)中针对流条的任何信号值在利用λ的输入值求解方程(4)之后降到零以下,那么断定该λ值是最佳拟合完成效率参数的值。一旦确定了λ的最佳拟合值,接下来更小的λ值的使用将导致所谓的“过度拟合”并产生人为负的流信号。还是在本实例中,在表示同聚物的一长系列流条(例如一系列包括相同核甘酸种类的序列位置)之后的序列位置处针对某一流条的校正的信号值可能降到零以下。这个过零点在下文将最佳拟合完成效率表示为λ*。
同样地,在一些实施方案中,可以通过类似方法解决CF的效应。例如,可以测试的CF参数的值,其例如可以包括ε=0、0.0025、0.005、0.0075、0.01、……、0.04的值,并且完成效率参数λ固定在先前发现的值λ*。在本实例中,ε的输入值之间的0.0025间隔被呈现用于说明的目的,并且可以被其它小间隔值代替,诸如,例如,0.05、0.01、0.005、0.001、0.0005、0.0001、0.00001等的间隔值。如果计算的理论流图(p)中针对流条的任何信号值在利用ε的输入值求解方程(4)之后降到零以下(例如,除沿λ路径搜索期间降到零以下的针对流条的信号值之外的针对流条的任何信号值),那么断定该ε值是最佳拟合CF参数的值。一旦确定了ε的最佳拟合值,随后更大的值的使用将导致过度拟合,并产生人为负的流信号。还是在本实例中,在表示同聚物的一长系列流条之前的序列位置处针对某一流条的校正的信号值可能降到零以下。这个过零点在下文将最佳拟合CF表示为ε*。
由此,由于CF和IE的量,以及底层模板分子序列p,是先验未知的,所以可以以完全从头分析模式使用本发明的方法。不需要聚合酶掺入效率(即λ)或核甘酸洗出的有效性(即ε)的任何先验知识;也无需任何参考核苷酸序列来进行所述反演。
在一些实施方案中,上述参数估计的搜索过程在ε和λ的每个输入搜索间隔通过阶段(i,ii)构造矩阵[M],这从计算效率的角度来看是限制性的。通过对矩阵构造操作采用逼近可以至少部分地克服这样的限制。例如,人们可以避免在每个搜索间隔重新构造矩阵,并因此大大改善计算速度。下面描述了两种这样的方法:
方法1:
在小的ε和(1-λ)值(例如(1-λ)<=0.001且ε<=.0025)下分解矩阵[M],并将矩阵[M]近似为如下形式:
方程(5):
其中:
- △ε=0.0025和△λ=0.001分别是ε和λ轴中的间隔。
- φ和是矩阵幂,具有性质和。
- 是下对角矩阵,其在小亏量△λ下对IE的效应建模。
- 是上对角矩阵,其在小亏量△ε下对CF的效应建模。
通过该分解,方程(5)沿着搜索路径仅一次构造下对角矩阵L和上对角矩阵U,并且通过矩阵的幂对在搜索网格(ε, λ)处的不完全和推进的程度建模。可以用其它小值,例如,诸如,等,来取代搜索间隔△ε=0.0025和△λ=0.001中的小值。
代替在先前展示的(ε, λ)网格上搜索,本文中该方法分级通过一组网格,其优选是正整数,以便于计算矩阵幂。在过零条件下定义最佳拟合;对应的完成效率和CF参数为 and 。
方法2:
遵循方程(5),在小ε和(1-λ)情况下,进一步由下述逼近下和上对角幂矩阵[L]φ和
方程(6):
方程 (7):
其中:
- [I]是单位矩阵。
- [?] 和 [u] 分别是[L]和[U]的非对角矩阵。
这用公式表示了绕过计算矩阵幂的阶段,并因此提供了计算时间方面的进一步加速(例如,计算时间方面的减少)。中的搜索空间现在包含所有的正实数。在过零条件下定义最佳拟合;对应的完成效率和CF参数为:
方程(8):
。
上面呈现的实施方案基于构造和反演矩阵,以及(ε,λ)平面中的二维搜索,以探查最佳的CAFIE参数对。这些计算通常是在基本上相同的模板分子的每个群体上被进行的,其例如可以包括在基于反应部位的系统的阵列中逐个部位的分析(例如,诸如,PicoTiterPlate孔阵列或ISFET孔阵列)。在一些实施方案中,针对每个群体/部位构造矩阵,以产生最佳的CAFIE值(ε*, λ*)。
上述实施方案还假设在整个测序运行中与恒定完成效率λ和CF ε参数相关联的比率保持恒定。可以通过对流图中包括几个流循环(其中“几个”意味着1和流循环总数之间的任何整数)的所谓的“流窗口”应用CAFIE搜索和反演过程来缓和该假设。例如,每个流窗口是流图中表示的流循环的全集的子集,其中需要找到CAFIE参数对和对应的干净理论流图(p)。在本实例中,布置每个流窗口,使得其从与测序运行相关联的流图中的第一个流开始,并且结束于短于或等于流图中的流循环的全长的特定流,其中每个较小的流窗口被嵌套于较大的流窗口之内。对于每个流窗口k,独立地进行搜索和反演过程,以产生一组CAFIE参数,其现在是窗口索引k的函数: ε* = ε*(k) 和 λ* = λ*(k)。计算的理论流图(p),p(k),也被嵌套,是取决于索引k的CAFIE参数的这些变量值的结果。“缝合(stitching)”过程:对于窗口(k-1)和k之间的流的p = p(k),将流窗口序列p(k)重新组合到最终的流图(p)中。
在相同或替代实施方案中,可以由另一种方法消除λ和ε的恒定值的假设。例如,完成效率λ和CF ε参数可以针对每个核甘酸种类添加“N”(“A”、“G”、“C”或“T”)假定参数形式,例如指数,并作为流位置“i”(1,2,3,……)的函数:
方程(9-10):
其中:
- 是在第i个流处的核甘酸种类“N”的完成效率
- 是在第i个流处的核甘酸种类“N”的CF
- 和是初始值
- 和是衰减率。
在四个参数空间, , 和中应用搜索方法以确定最佳值。
此外,相关领域中的普通技术人员还将理解,可能存在与所述CAFIE机制不相关的其它噪声源。此类噪声源可以包括,但不限于,电子源,例如所谓的“暗电流”、光学源、生物源、化学源、或者本领域中已知的或将来可能被发现的其它源。目前描述的发明的一些实施方案可能对于其它噪声源展示出变化的灵敏度水平,在许多应用中,所述其它源可能处于基本一致和/或可预测的水平。例如,可归因于已知或未知源的噪声的可预测的和一致的水平一般容易校正。一种校正方法是在数学上从与流相关联的所有信号值加上或减去与噪声相关联的值(取决于噪声增加了过多信号还是减少了检测的信号)。
在一些实施方案中,其中噪声水平至少部分地是不可预测的,可以从信号数据中嵌入的信息导出噪声水平的估计值。例如,对于已知的或被预测在序列位置不存在的核甘酸种类,预计实际信号值应当等于零(即,“零链节(0-mer)”位置)。因此,可以将任何检测到的信号可归因于系统中的所有的噪声源。在本实例中,由于目前描述的实施方案估计来自CAFIE机制的噪声,因此可以从揭示的底层噪声和数据去除此类噪声。在本实例中,可以通过查看序列运行中所有“零链节”序列位置来改善估计。在这种情况下,可以针对每个运行动态地确定二进制编码p’(n)方程(4)中的“阈值”的值,以表示其噪声水平,而不是如以上在先前实施方案中所描述的固定值。
甚至进一步地,一些前面描述的实施方案包括所谓的“安全标准”,以防止过度校正观察的流图(q)中表示的序列数据。如上所述,过度校正可能在所述算法迭代时引起引入的误差的指数累积。例如,上述其它噪声源可以确定安全标准,其包括将要应用于信号数据的校正量。例如,一些实施方案可以假定来自其它非CAFIE源的给定噪声水平,并向数据应用所谓的60%校正(例如,100%意味着完全校正)的安全标准。该估计使用“混合”流图,“0.6p+0.4q”,包括60%的计算的干净流图p和40%的观察的流图q。或者,如果非CAFIE噪声处于“低”水平,则可以应用更高百分比的校正,诸如,例如,80%。
此外,描述了其它实施方案,其相对于上述CAFIE校正的实施方案(下文称为“标准CAFIE”)提供了性能改善,给用户提供了显著的优点。如下文将更详细描述的,改善的CAFIE校正方法通过下述来延伸上述标准CAFIE校正方法:采取从标准CAFIE输出的理论流图(p),以及递归地重新估计流图信号,直到正掺入列表收敛于优化结果(以下称为“递归CAFIE”)。在递归校正的流图和正掺入列表收敛时,递归CAFIE方法相对于上述标准CAFIE校正方法产生更好的校正。所述改善包括用于找到相位同步CAFIE参数的改善算法和校正相位同步误差的递归过程。此外,在相同或可选实施方案中,可以采用参考CAFIE校正,其中可以从生物体的已知参考序列获取认可的流列表并将所述流列表用于如上所述地估计阈值,其中可以基于参考序列中的对应序列位置预测二进制编码列表中的位置为不具有信号,由此观察的信号可以归因于来自参考序列的噪声和/或序列变化。要理解,观察的信号的大小一般表示它可以归因于序列变化还是可以归因于噪声,尤其是当与被预测为不具有信号的二进制编码中的其它位置处的信号的大小比较时。
递归CAFIE校正策略的典型实施方案首先利用标准CAFIE校正方法对来自序列读取的观察的流图进行相位同步校正,并通过利用产生CAFIE校正的流图的递归CAFIE算法的迭代,其估计新的二进制编码列表(p’),其比从观察的流图(q)所导出的更精确地反映真实序列。然后使用新的二进制编码列表再次(并且由此更精确地)估计用于序列读取的完成效率λ和推进ε参数。通过要求二进制编码列表的负掺入事件中的校正的信号尽可能地接近实际背景噪声水平,来获得(λ,ε)的新估计值。具体而言,我们在算法中对CAFIE矩阵进行参数λ和ε的微扰(perturbation):
方程 (11-12):
其中M(p’, λ, ε) 是上述CAFIE矩阵,△qλ 和 △qε 是流图响应于利用二进制编码列表p’的微扰△λ和△ε的变化,p是通过标准CAFIE校正计算的理论流图。
在递归CAFIE方法中,通过以下过程获得新的λ和ε:通过使以下表达式最小化来计算微扰增量(t λ, t ε):
方程 (13):
对于p’(i) = 0的i,…
其中噪声是与前48个流的负掺入事件 (p’(i) =0 )相关联的流信号的平均值。在确定t λ和t ε的值之后,将CAFIE校正参数(λ, ε)计算为:
方程 (14-15):
。
以这种方式,确保λ和ε是使异相CAFIE误差最小化的最佳对。最后,进行CAFIE校正
方程 (16):
以获得新的CAFIE校正的理论流图p(1) 。
迭代地重复上述过程:在迭代n+1时,使用流图p(n) 估计二进制编码列表p’(n),通过最小化过程(13)再次进行CAFIE搜索,并通过微扰公式(14-16)获得新的CAFIE校正的流图p(n+1)和CAFIE参数(ε(n+1), λ(n+1))
方程 (17):
。
在一些实施方案中,递归过程持续直到二进制编码列表收敛,p’(n+1) = p’(n)。正流列表i,其中p’(n)(i) = 1, 逼近示出正核甘酸掺入的流位置。通过算法越精确地估计正流列表,就导致越精确的相位异步校正。由此,递归算法迭代地使用CAFIE校正的流图,导致在收敛时递归校正的流图;在每次迭代,该算法获得针对CAFIE参数(ε(n), λ(n))和二进制编码p’(n)的更好估计值,其为下一迭代中的相位误差给出更精确的CAFIE校正。
在一些实施方案中,递归过程持续直到CAFIE参数收敛,(ε(n+1), λ(n+1)) = (ε(n), λ(n)),这还表示通过利用CAFIE参数如何计算二进制编码列表的性质的二进制编码列表的收敛。使用CAFIE参数确定收敛的一个优点在于在计算上其比估计二进制编码列表p’的收敛更有效。
用于相位同步流顺序设计的系统和方法和本文所述用途的实施方案改善SBS过程期间的CAFIE误差累积,这导致测序运行的更长的高质量读取长度和更高的读取精确度。例如,当在SBS运行中实施时,该方法的实施方案驱动的相位同步流顺序实施方案允许已经落在测序反应的正确相位后面的基本上相同的模板分子群体的成员赶上正确相位并在测序运行期间以相位同步流顺序在所述流的特定位置使其自身重新同步。例如,如果来自基本上相同的模板核酸分子群体的模板核酸分子子集在流期间未能掺入核苷酸种类,诸如T种类,则结果是,它落在与群体其余部分的相位同步之外(即该子集在群体其余部分的相位之后)。如果核苷酸种类在之后不久在流中重复(即在1-3个流之内),则存在以下可能性:子集将在群体其余部分进入相位之前掺入T核苷酸(即,通过掺入下一个互补种类),这导致所述子集与群体其余部分重新同步和相位同步误差的恢复。
重要的是注意,本文所述的相位同步流顺序的实施方案不限于4核苷酸循环顺序,并且可以在循环中含有长流顺序序列,诸如24、32、40或更高数量的核苷酸流序列。同样重要的是注意,流顺序序列可以是任何长度,并且不必是4的倍数。
流顺序设计的CAFIE模拟和读取长度
进行用于流顺序设计的CAFIE误差和读取长度的模拟,其包括数值产生的每个循环具有K-碱基核苷酸序列的流顺序。例如,“TACG”流顺序是4-碱基流顺序,且“TCGTGACGTCTA” (Seq ID No:1)循环流是12碱基流顺序。对于给定流顺序和推进和不完全延伸的给定速率,产生预期流图信号的模拟,所述预期流图信号使用SBS方法从大肠杆菌参考序列获得。所述模拟包括来自大肠杆菌参考序列的约10,000个随机选择区域的流图,来模拟基因组的鸟枪法测序。模拟流图通过将流图值四舍五入到最接近的整数而碱基读出(base-called)。没有在模拟流图上进行信号校正,以避免信号处理中CAFIE校正方法的偏差。
因为CAFIE误差,流图信号变得在增加数量的核苷酸流累积误差的相位之外。流图的初始部分具有比测序后段中更好的质量(较低误差率),所述测序后段通常含有具有高误差程度(相位误差)的模糊信号。因此从3'末端截短模拟中的读取长度,使得读取的“高质量”部分对于每次读取具有小于3%的累积误差。
高质量读取长度“L”通过将模拟中所有10,000次读取的修整读取长度取平均值来计算。还计算流顺序的理论延伸率“R”,其被定义为与完美测序条件(无CAFIE)下单核苷酸流可以延伸的模板分子互补的序列位置的平均数。因此,对于流顺序和给定CAFIE率,我们获得了衍生自CAFIE建模和模拟的长度L和延伸率R。
上述程序用通过以流顺序并置4种核苷酸种类(A、T、G和C)构建的各种流顺序重复许多次。这些计算的结果绘制在图2中,其显示每个流循环的核苷酸种类的16、24、32 和40-碱基流顺序的模拟读取长度L vs.延伸率R,其中每个含有通过计算机程序生成的200个流顺序。该模拟假设边合成边测序中0.5%未完成和0.5%推进率,具有作为流顺序的循环重复的1600核苷酸流(模拟SBS系统运行)。例如,图2提供了大肠杆菌序列上随机选择流顺序的模拟读取长度L vs.延伸率R的说明性实例。将读取修整至3%累积误差,并在边合成边测序中用1600碱基流进行模拟,以模拟SBS系统中核苷酸流的数量。虚线划定读取长度的改进饱和的边界。‘TACG’(交叉标志)对应于先前在SBS实施方案中使用的流顺序。EX1~EX8 (交叉)是位于饱和(虚线)曲线附近的流顺序的实例,且代表给出长读取长度与相关延伸率的有效流顺序。
如图2中所示,较长读取长度L可以通过具有较小延伸率R的流顺序实现,其中设计核苷酸流顺序,使得基本上相同模板群体中的相外模板具有更好机会来赶上流顺序期间特定核苷酸流的群体延伸的校正相位并与其重新同步。流顺序中的碱基数还存在依赖性,其中较长读取长度可以用对于给定延伸率的流顺序中包含更高碱基数的流顺序来实现。然而,这种效果在每个循环32 ~ 40碱基的核苷酸流的流顺序达到饱和,超过其则读取长度不会进一步增强(图2)。
在先前SBS实施方案中实施的“TACG”流顺序实施方案的结果也绘制在图2中,作为参考。据观察,TACG流顺序具有高延伸率R,但当CAFIE为0.5%时,给出非常短的读取长度L。在这种情况下,相位误差迅速累积,并且信号校正必须数值施加于读取以校正误差并且恢复读取长度。
“有效的”流顺序应当给出长阅读长度,且还具有高延伸率。因此,图2中饱和曲线(虚线)附近的那些流顺序是有效流顺序的实例。它们中的一些(EX1 ~ EX8)标记在图中,且它们的核苷酸序列列于下表2中。这些中,EX8接近于模拟的最佳值(最长读取长度),具有0.5% CAFIE。因此,应当理解的是,读取长度大于约400 bp且延伸率等于或小于约0.55bp/流的流顺序通常提供更高质量的数据,这是由于CAFIE误差积累率较低。
表2:有效流顺序的实例(对于延伸率R,读取长度L)
(Seq Id No: 2-9)
注意,有效降低CAFIE误差累积的流顺序实施方案取决于CAFIE误差的程度(由CAFIE参数所表示)和模板核酸分子(当测序时)或参考序列(当进行模拟时)的序列组成。本领域普通技术人员也将理解,最终可靠读取长度可以通过将CAFIE校正应用于后续测序处理中如上所述的序列数据而进一步改进。上面呈现的实例通过假设0.5%的不完全效率和0.5%推进率与大肠杆菌作为参考基因组而推导。
为了表明相位同步流顺序实施方案对具有不同序列组成特征的多个基因组的效果,将所述模拟扩展以包括除了大肠杆菌(GC50%)以外的嗜热栖热菌(T. thermophilis)(70%GC含量)和空肠弯曲杆菌(C. jejuni)(30% GC)的参考序列。它们分别代表高GC、低GC和中GC含量的基因组。用上述相同程序进行模拟,但读取长度和延伸率现在是随机选自三个参照基因组的读取的平均值。
图3显示模拟结果,其中相同流顺序EX1 ~ EX8 (表2)也标记在图中。图3说明嗜热栖热菌和空肠弯曲杆菌结果与源自大肠杆菌情况的模拟的结果一致,显示用具有较低延伸率者的流顺序获得的较长读取长度。表2中列出的流顺序EX1 ~ EX8保持有效,并接近饱和线(虚线,图3),所述饱和线接近相应延伸率的最大读取长度。例如,图3提供了用随机选择流顺序的模拟读取长度L vs.延伸率R的说明性实例 - 多个基因组(包括大肠杆菌、嗜热栖热菌和空肠弯曲杆菌)的平均值,具有0.5% CAFIE。将读取修整至3%累积误差,并在边合成边测序中用1600碱基流进行模拟,以模拟SBS系统中核苷酸流的数量。虚线划定读取长度改进饱和的边界,‘TACG’对应于先前在SBS实施方案中使用的流顺序。EX1~EX8是获得的相同流顺序,且显示在图2中。
图2和图3提供的模拟显示,当参考序列可用时,一组有效的流顺序可以源自CAFIE建模和模拟。这些流顺序可以减少相位误差,并导致更长的高质量读取长度,甚至无需在信号处理中数字校正相位误差。当不完全和推进率已知或者可以在测序运行之前估计时,实现最大或接近最大读取长度的流顺序(EX8,例如)可以源自模拟建模。因此,该方法尤其可用于扩增子/靶标测序,其中扩增子的共有序列是可用的,并且有效的流顺序可以衍生来修整样品的核苷酸序列。
在其中参考序列不可用的从头测序或应用中,通用类别的流顺序也可通过在模拟中包括多个基因组而衍生。显示这些流顺序是有效的,并且具体实例诸如EX1至EX8在表2中给出。任何这些流顺序可以在部署用于从头测序应用的测序脚本中实施。
对于重新测序(扩增子)和从头测序应用两者,不完全和推进率可以从用于仪器或试剂的运行历史来推断。例如,据观察,在许多仪器和试剂批次间,对于SBS平台的一些实施方案,未完成率在0.2% ~ 0.5% (或0.998 ~ 0.995完成效率),且推进率为0.5~1%。具有这种CAFIE的一般信息,优化流顺序实施方案可以通过模拟建模获得以给出最长读取长度。在本实例中,流顺序EX8和图中接近EX8的那些是CAFIE为0.5%的实例。
当针对基因组的GC含量模拟时,有效流顺序的列表也可先验推导。对于测序运行的有效相位同步流顺序然后可以根据文库样品的GC含量选自列表,GC含量的信息可以在测序运行之前可得。
或者,有效的相位同步流顺序可以在从足量流获取数据之后在测序运行期间选择,以估计GC含量并实施用于GC含量估计的最佳拟合流顺序。例如,有效的相位同步流顺序实施方案的列表可以在针对CAFIE模拟时先验推导,其可以用任何流顺序或相位同步流顺序的实施方案(例如EX1~8)在测序流的开始阶段(例如运行的前40或80个核苷酸流)的流图信号来针对运行估计。然后可以选择最佳相位同步流顺序,并且针对测序中的剩余核苷酸流来实施,所述最佳相位同步流顺序对于序列组成(即GC含量)和运行时间期间运行的CAFIE误差程度来专门修整。
在一些实施方案中,具有不同组成和/或特征的多个流顺序可以在测序运行中经多次流循环迭代依次采用。在一些实施方案中,各流顺序可具有与其它流顺序的共同特征以及独特特征。还应当理解的是,一个或更多个流顺序可以在测序运行中以随机或非随机方式重复。
流顺序优化算法的另一个实施方案包含相对于参考基因组优化核苷酸流顺序的蒙特卡罗模拟(Monte Carlo simulation)。一组参考序列读取(例如5,000次读取,1,500个碱基长)可以从用户指定的参考基因组(例如大肠杆菌)产生。该算法采取输入流顺序,并基于流顺序产生读取的完美流图。“原始流图”(即具有CAFIE误差的流图)然后通过使用CAFIE矩阵扰乱理想流图来产生,所述CAFIE矩阵假设特定程度的推进(例如0.5%)和完成效率(例如99.5%)。为了衡量流顺序降低相外误差信号的有效性,原始流图通过将强度值四舍五入到最接近的整数而直接碱基读出(base-called)。累积误差直至碱基位置通过比较碱基读出的序列和参考读取来计算。修整读取,使得累积误差低于阈值(例如,3%)。然后计算平均读取长度。流顺序的有效性通过它的理论效率 (每次流掺入的碱基平均数,而无CAFIE效果)和观察的效率 (每次流掺入的碱基平均数,具有CAFIE效果)来测量。通常,随着CAFIE误差越快建立,理论效率越高,观察的效率越低。可以构建质量评分以测量流顺序的有效性,例如,
+,
其中和是针对各自效率给出的权重,例如0.5和0.5。
新的流顺序通过以流顺序重排核苷酸种类的随机配对来生成。重复流图的产生、碱基读出和修整。然后计算新的流顺序的质量评分Q’。如果Q'大于Q,则接受新的流顺序。如果Q'小于Q,则以一定概率接受新的流顺序。
其中T是“温度”,其控制待接受的次优流顺序的机会。重复整个过程,直到尽可能提高质量评分,并且获得相对于参照基因组的最佳流顺序和所选择参数、和T。
如果T非常大,则将接受具有较低质量评分的所有流顺序。相反,如果T非常小,则将不接受任何导致较低质量评分的重排。T的典型值可以通过计算各种重排的量来估计。可以选择T,使得对于的负值接受约一半的移动。
参数T可以逐渐变化,例如,在模拟过程中从高值变为较低值。这种方法,称为模拟退火,可以帮助缩小最佳区域的邻域内的搜索。
完成效率可以逐渐变化,例如,从流图开始时的高值变为流图结束时的低值,以便模拟在整个测序运行中酶效率的变化。推进参数可以以类似方式处理。
可以将模型扩展以优化多个参考基因组。对于每个参考基因组将存在质量评分Qi。可以使用从这些个体质量评分的组合计算的总质量评分。具体而言,可以使用这些个体质量评分的权重平均质量评分。
实施例
测序数据、TACG和流顺序EX1 & EX3的比较
流顺序EX1和EX3(表2)在使用标准试剂盒和材料的SBS仪器中测试。它们的读取长度总结在下表3中,显示(a)在信号处理中无CAFIE校正的 (以避免CAFIE校正的偏差)的结果和(b) 用CAFIE校正的全信号处理的结果。
在测试的流顺序中,平均读取长度为> 400bp,甚至没有CAFIE校正(表中的粗体文本)。作为比较,当没有CAFIE校正序列数据时,用TACG流顺序的SBS运行具有100 ~ 200bp的读取长度。全信号处理后的结果也大大增强;对于映射统计,参见表4。因此,来自有效流顺序实施方案的改进是一致的。
表3:具有相位同步流顺序的SBS,大肠杆菌
表3(续):具有相位同步流顺序的SBS,TT
表3(续):具有相位同步流顺序的SBS,CJ
表4:具有TACG流顺序的SBS,大肠杆菌
表4(续):具有TACG流顺序的SBS,TT
表4(续):具有TACG流顺序的SBS,CJ
测序数据的比较–映射到参考基因组
将结果映射到基因组参考序列总结在下表5中,其显示用流顺序EX1的3次测序运行的结果(表2)。
对于大肠杆菌,映射长度均大于700bp,且对于嗜热栖热菌读取长度是可变的,但所有仍高于500bp(可变性似乎是文库样品依赖的。)。运行数据用数据分析软件处理,全部处理包括CAFIE校正。结果显示,与使用TACG流顺序进行的那些运行相比,用EX1获得多于100bp更长的映射长度。映射的长度直方图的比较和在碱基位置的读取误差率显示于图4中。
表5:在使用流顺序‘EX1’的SBS仪器上的三次测试运行的测序结果
其它相位同步流顺序实施方案
流顺序A特征:
由于重复序列组成结合在前12次流(4碱基流顺序循环3次)之后每25次流发生的在最后三个位置的三个可变位置,将完全顺序解释为循环重复25次流,具有可变组分的流顺序。
重复区域
第一可变位置= G或C
第二可变位置= A、G或C
第三可变位置= T、G或C。
第一 – 第三可变位置的组合 = 至少一个G和一个C
3次迭代,4碱基流顺序; 80次迭代重复/25次流的可变区;2012次总流
流顺序B特征:
由于第一个位置和最后三个位置的重复序列组成结合在前12次流(4碱基流顺序循环3次)之后每33次流发生的29次流可变区域,将完全顺序解释为循环重复33次流,具有实质可变组分的流顺序。
第一个位置=总是A
可变区29个位置=总是具有一个具有8次流的种类,其余7个(不包括使所有种类的流数增加1的重复位置)
最后三个位置=总是TCG
第一和第二重复区域的组合 = 每个核苷酸种类代表一次
3次迭代,4碱基流顺序; 55次迭代重复/33次流的可变区;1827次总流
前面描述了各个实施方案和实现方式,相关领域技术人员应当理解,前面的描述仅仅是说明性而非限制性的,并且仅仅是通过举例的方式给出的。在所示出的实施方案的各个功能元件之间分配功能的许多其它方案也是可能的。在替换实施方案中可以按照多种方式实施任何元件的功能。
序列表
<110> Roche Diagnostics GmbH
F. Hoffmann-La Roche AG
<120> 用于产生和使用最佳核苷酸流顺序的系统和方法
<130> 31006 WO
<140> US 13/801,867
<141> 2013-03-13
<150> US 61/648,783
<151> 2012-05-18
<160> 147
<170> PatentIn version 3.5
<210> 1
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 12-碱基流顺序。
<400> 1
tcgtgacgtc ta 12
<210> 2
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 2
tacgtctgag catcgatcga tgtacagcta cg 32
<210> 3
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 3
agcgtactgc atgcatcagt atgc 24
<210> 4
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 4
catatgcatg atcagctcga tgacgcatgc tg 32
<210> 5
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 5
tgctcgatga tgtcatcgac tgactgacag ca 32
<210> 6
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 6
acagcgtgat actgtcgatg actgcatcat cg 32
<210> 7
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 7
acgtgtacga cgtatcacgt atgcactgag tc 32
<210> 8
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 8
acagtctcga tgacagtata cgtctgcgat gc 32
<210> 9
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 有效流顺序的实例。
<400> 9
tgctacatga tgacgcagac tgtcatagct cg 32
<210> 10
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 10
tacgtacgta cg 12
<210> 11
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 11
agcgtactgc atgcatcagt atgcg 25
<210> 12
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 12
agcgtactgc atgcatcagt atgct 25
<210> 13
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 13
agcgtactgc atgcatcagt atcgc 25
<210> 14
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 14
agcgtactgc atgcatcagt atgac 25
<210> 15
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 15
agcgtactgc atgcatcagt atcgc 25
<210> 16
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 16
agcgtactgc atgcatcagt atgct 25
<210> 17
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 17
agcgtactgc atgcatcagt atgcg 25
<210> 18
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 18
agcgtactgc atgcatcagt atgac 25
<210> 19
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 19
agcgtactgc atgcatcagt atcgc 25
<210> 20
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 20
agcgtactgc atgcatcagt atgct 25
<210> 21
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 21
agcgtactgc atgcatcagt atgcg 25
<210> 22
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 22
agcgtactgc atgcatcagt atgac 25
<210> 23
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 23
agcgtactgc atgcatcagt atgcg 25
<210> 24
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 24
agcgtactgc atgcatcagt atgct 25
<210> 25
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 25
agcgtactgc atgcatcagt atcgc 25
<210> 26
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 26
agcgtactgc atgcatcagt atgac 25
<210> 27
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 27
agcgtactgc atgcatcagt atgcg 25
<210> 28
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 28
agcgtactgc atgcatcagt atcgc 25
<210> 29
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 29
agcgtactgc atgcatcagt atgct 25
<210> 30
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 30
agcgtactgc atgcatcagt atgac 25
<210> 31
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 31
agcgtactgc atgcatcagt atgct 25
<210> 32
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 32
agcgtactgc atgcatcagt atcgc 25
<210> 33
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 33
agcgtactgc atgcatcagt atgcg 25
<210> 34
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 34
agcgtactgc atgcatcagt atgac 25
<210> 35
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 35
agcgtactgc atgcatcagt atcgc 25
<210> 36
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 36
agcgtactgc atgcatcagt atgcg 25
<210> 37
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 37
agcgtactgc atgcatcagt atgac 25
<210> 38
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 38
agcgtactgc atgcatcagt atgct 25
<210> 39
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 39
agcgtactgc atgcatcagt atgcg 25
<210> 40
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 40
agcgtactgc atgcatcagt atcgc 25
<210> 41
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 41
agcgtactgc atgcatcagt atgac 25
<210> 42
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 42
agcgtactgc atgcatcagt atgct 25
<210> 43
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 43
agcgtactgc atgcatcagt atgcg 25
<210> 44
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 44
agcgtactgc atgcatcagt atgct 25
<210> 45
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 45
agcgtactgc atgcatcagt atgac 25
<210> 46
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 46
agcgtactgc atgcatcagt atcgc 25
<210> 47
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 47
agcgtactgc atgcatcagt atgac 25
<210> 48
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 48
agcgtactgc atgcatcagt atcgc 25
<210> 49
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 49
agcgtactgc atgcatcagt atgcg 25
<210> 50
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 50
agcgtactgc atgcatcagt atgct 25
<210> 51
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 51
agcgtactgc atgcatcagt atgcg 25
<210> 52
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 52
agcgtactgc atgcatcagt atgct 25
<210> 53
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 53
agcgtactgc atgcatcagt atgac 25
<210> 54
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 54
agcgtactgc atgcatcagt atcgc 25
<210> 55
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 55
agcgtactgc atgcatcagt atgct 25
<210> 56
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 56
agcgtactgc atgcatcagt atgcg 25
<210> 57
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 57
agcgtactgc atgcatcagt atgac 25
<210> 58
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 58
agcgtactgc atgcatcagt atcgc 25
<210> 59
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 59
agcgtactgc atgcatcagt atgac 25
<210> 60
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 60
agcgtactgc atgcatcagt atgcg 25
<210> 61
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 61
agcgtactgc atgcatcagt atcgc 25
<210> 62
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 62
agcgtactgc atgcatcagt atgct 25
<210> 63
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 63
agcgtactgc atgcatcagt atgcg 25
<210> 64
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 64
agcgtactgc atgcatcagt atgac 25
<210> 65
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 65
agcgtactgc atgcatcagt atcgc 25
<210> 66
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 66
agcgtactgc atgcatcagt atgct 25
<210> 67
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 67
agcgtactgc atgcatcagt atgac 25
<210> 68
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 68
agcgtactgc atgcatcagt atgct 25
<210> 69
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 69
agcgtactgc atgcatcagt atcgc 25
<210> 70
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 70
agcgtactgc atgcatcagt atgcg 25
<210> 71
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 71
agcgtactgc atgcatcagt atgct 25
<210> 72
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 72
agcgtactgc atgcatcagt atcgc 25
<210> 73
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 73
agcgtactgc atgcatcagt atgcg 25
<210> 74
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 74
agcgtactgc atgcatcagt atgac 25
<210> 75
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 75
agcgtactgc atgcatcagt atgcg 25
<210> 76
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 76
agcgtactgc atgcatcagt atgac 25
<210> 77
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 77
agcgtactgc atgcatcagt atcgc 25
<210> 78
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 78
agcgtactgc atgcatcagt atgct 25
<210> 79
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 79
agcgtactgc atgcatcagt atgac 25
<210> 80
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 80
agcgtactgc atgcatcagt atgcg 25
<210> 81
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 81
agcgtactgc atgcatcagt atcgc 25
<210> 82
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 82
agcgtactgc atgcatcagt atgct 25
<210> 83
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 83
agcgtactgc atgcatcagt atgcg 25
<210> 84
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 84
agcgtactgc atgcatcagt atgct 25
<210> 85
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 85
agcgtactgc atgcatcagt atgac 25
<210> 86
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 86
agcgtactgc atgcatcagt atcgc 25
<210> 87
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 87
agcgtactgc atgcatcagt atgct 25
<210> 88
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 88
agcgtactgc atgcatcagt atgac 25
<210> 89
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 89
agcgtactgc atgcatcagt atgcg 25
<210> 90
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序A
<400> 90
agcgtactgc atgcatcagt atcgc 25
<210> 91
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 91
tacgtacgta cg 12
<210> 92
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 92
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 93
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 93
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 94
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 94
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 95
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 95
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 96
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 96
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 97
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 97
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 98
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 98
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 99
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 99
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 100
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 100
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 101
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 101
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 102
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 102
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 103
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 103
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 104
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 104
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 105
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 105
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 106
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 106
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 107
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 107
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 108
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 108
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 109
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 109
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 110
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 110
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 111
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 111
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 112
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 112
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 113
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 113
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 114
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 114
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 115
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 115
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 116
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 116
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 117
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 117
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 118
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 118
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 119
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 119
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 120
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 120
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 121
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 121
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 122
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 122
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 123
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 123
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 124
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 124
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 125
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 125
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 126
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 126
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 127
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 127
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 128
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 128
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 129
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 129
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 130
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 130
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 131
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 131
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 132
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 132
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 133
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 133
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 134
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 134
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 135
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 135
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 136
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 136
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 137
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 137
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 138
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 138
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 139
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 139
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 140
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 140
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 141
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 141
atgtagtcga gcatcatctg acgcagtacg tgc 33
<210> 142
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 142
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 143
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 143
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 144
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 144
agtgactgat cgtcatcagc tagcatcgac tgc 33
<210> 145
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 145
atgatctcag tcagcagcta tgtcagtgca tgc 33
<210> 146
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 146
atagatcgca tgacgatcgc atatcgtcag tgc 33
<210> 147
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 示例性流顺序B
<400> 147
atgtagtcga gcatcatctg acgcagtacg tgc 33
Claims (15)
1.用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法,其包括以下步骤:
(a) 产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;
(b) 使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和
(c) 使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。
2.权利要求1的方法,其中:
序列数据的模拟获取包括使用推进参数和不完全延伸参数,其模拟相位同步误差的累积。
3.权利要求1的方法,其中:
k碱基长度选自16、24、32、和40个碱基长度。
4.权利要求1的方法,其中:
k碱基长度包含范围为32-40个碱基的长度。
5.权利要求1的方法,其中:
读取长度参数包含含有小于3%的累积相位同步误差的读取长度的测量值。
6.权利要求1的方法,其中:
延伸率参数包含平均数目的与单核苷酸流可以延伸的模板分子互补的序列位置。
7.权利要求1的方法,其中:
选择的序列排序包含高读取长度参数和低延伸率参数。
8.用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法,其包括以下步骤:
(a) 将包含k碱基长度的核苷酸种类的序列排序引入边合成边测序反应环境,其中所述核苷酸种类的序列排序包含高读取长度特征和低延伸率特征;
(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的信号,其中所述信号包含落在延伸相后面的一个或更多个群体的核酸模板分子的子集的误差测量值;
(c) 循环重复引入核苷酸种类的序列排序和获取信号用于多次迭代,其中核酸分子的子集与延伸相重新同步,这降低了由于序列排序的高读取长度特征和低延伸率特征导致的误差测量值。
9.权利要求8的方法,其中:
边合成边测序反应环境包含孔的阵列。
10.权利要求8的方法,其中:
k碱基长度选自16、24、32、和40个碱基长度。
11.权利要求8的方法,其中:
k碱基长度包含范围为32-40个碱基的长度。
12.权利要求8的方法,其中:
读取长度特征包含含有小于3%的累积相位同步误差的读取长度的测量值。
13.权利要求8的方法,其中:
延伸率特征包含平均数目的与单核苷酸流可以延伸的模板分子互补的序列位置。
14.权利要求8的方法,其中:
读取长度参数大于约400 bp,且延伸率参数小于或等于约0.55 bp/流,未完成率为0.5%,推进率为0.5%。
15.用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法,其包括以下步骤:
(a) 将包含k碱基长度、高读取长度特征值和低延伸率特征值的核苷酸种类的第一序列排序引入边合成边测序反应环境;
(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的多个第一信号;
(c) 将包含k碱基长度、高读取长度特征值和低延伸率特征值的核苷酸种类的第二序列排序引入边合成边测序反应环境,其中所述核苷酸种类的第二序列排序不同于所述核苷酸种类的第一序列排序;
(d) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的多个第二信号,
其中所述一个或更多个群体的一个或更多个子集落在延伸相后面,并且由于第一或第二序列排序的序列组成而与延伸相重新同步。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261648783P | 2012-05-18 | 2012-05-18 | |
US61/648783 | 2012-05-18 | ||
PCT/EP2013/060152 WO2013171303A2 (en) | 2012-05-18 | 2013-05-16 | System and method for generation and use of optimal nucleotide flow orders |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104364789A true CN104364789A (zh) | 2015-02-18 |
Family
ID=48444397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380025917.0A Pending CN104364789A (zh) | 2012-05-18 | 2013-05-16 | 用于产生和使用最佳核苷酸流顺序的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10192024B2 (zh) |
EP (1) | EP2850551A2 (zh) |
JP (1) | JP6373827B2 (zh) |
CN (1) | CN104364789A (zh) |
CA (1) | CA2873146A1 (zh) |
WO (1) | WO2013171303A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313741A (zh) * | 2016-04-27 | 2019-02-05 | 齐默尔根公司 | 用于生成工厂订货单以控制核苷酸序列生产的方法和系统 |
CN111937075A (zh) * | 2017-10-26 | 2020-11-13 | 齐默尔根公司 | 用于规划和执行高通量基因组制造操作的装置无关系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965076B2 (en) * | 2010-01-13 | 2015-02-24 | Illumina, Inc. | Data processing system and methods |
CN106460044B (zh) * | 2014-04-25 | 2021-03-19 | DNAe集团控股有限公司 | 测序方法 |
EP3519586B1 (en) * | 2016-09-28 | 2024-03-13 | Life Technologies Corporation | Methods for sequencing nucleic acids using termination chemistry |
JP2022533801A (ja) | 2019-05-03 | 2022-07-25 | ウルティマ ジェノミクス, インコーポレイテッド | 合成による高速フォワードシークエンシング |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662662A (zh) * | 2002-06-17 | 2005-08-31 | 英特尔公司 | 通过信号扩展和数据整合进行的核酸测序 |
CN101390101A (zh) * | 2006-02-16 | 2009-03-18 | 454生命科学公司 | 用于校正核酸序列数据中的引物延伸误差的系统和方法 |
EP1689881B1 (en) * | 2003-10-20 | 2011-08-24 | Isis Innovation Limited | Parallel nucleic acid sequencing methods |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9620209D0 (en) | 1996-09-27 | 1996-11-13 | Cemu Bioteknik Ab | Method of sequencing DNA |
GB9626815D0 (en) | 1996-12-23 | 1997-02-12 | Cemu Bioteknik Ab | Method of sequencing DNA |
DE69826697T2 (de) | 1997-07-07 | 2006-02-16 | Medical Research Council | In vitro selektionsmethode |
GB9901475D0 (en) | 1999-01-22 | 1999-03-17 | Pyrosequencing Ab | A method of DNA sequencing |
US7211390B2 (en) | 1999-09-16 | 2007-05-01 | 454 Life Sciences Corporation | Method of sequencing a nucleic acid |
US7244559B2 (en) | 1999-09-16 | 2007-07-17 | 454 Life Sciences Corporation | Method of sequencing a nucleic acid |
US6274320B1 (en) | 1999-09-16 | 2001-08-14 | Curagen Corporation | Method of sequencing a nucleic acid |
GB0127564D0 (en) | 2001-11-16 | 2002-01-09 | Medical Res Council | Emulsion compositions |
WO2004069849A2 (en) | 2003-01-29 | 2004-08-19 | 454 Corporation | Bead emulsion nucleic acid amplification |
US7575865B2 (en) | 2003-01-29 | 2009-08-18 | 454 Life Sciences Corporation | Methods of amplifying and sequencing nucleic acids |
CA2553833C (en) | 2004-01-28 | 2012-10-02 | 454 Corporation | Nucleic acid amplification with continuous flow emulsion |
JP2006130685A (ja) | 2004-11-02 | 2006-05-25 | Fuji Photo Film Co Ltd | 微粒子積層基板及びその製造方法 |
US7682816B2 (en) | 2005-04-07 | 2010-03-23 | 454 Life Sciences Corporation | Thin film coated microwell arrays and methods of using same |
US20060228721A1 (en) | 2005-04-12 | 2006-10-12 | Leamon John H | Methods for determining sequence variants using ultra-deep sequencing |
US20090233291A1 (en) | 2005-06-06 | 2009-09-17 | 454 Life Sciences Corporation | Paired end sequencing |
WO2007145612A1 (en) | 2005-06-06 | 2007-12-21 | 454 Life Sciences Corporation | Paired end sequencing |
US8364417B2 (en) | 2007-02-15 | 2013-01-29 | 454 Life Sciences Corporation | System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm |
JP2010521156A (ja) | 2007-03-16 | 2010-06-24 | 454 ライフ サイエンシーズ コーポレイション | Hiv薬物耐性バリアントの検出のためのシステムおよび方法 |
EP2164985A4 (en) | 2007-06-01 | 2014-05-14 | 454 Life Sciences Corp | SYSTEM AND METHOD FOR IDENTIFYING INDIVIDUAL SAMPLES FROM A MULTIPLEX MIXTURE |
EP2173898A2 (en) * | 2007-06-28 | 2010-04-14 | 454 Life Sciences Corporation | System and method for adaptive reagent control in nucleic acid sequencing |
US20090203086A1 (en) | 2008-02-06 | 2009-08-13 | 454 Life Sciences Corporation | System and method for improved signal detection in nucleic acid sequencing |
US20110003701A1 (en) | 2008-02-27 | 2011-01-06 | 454 Life Sciences Corporation | System and method for improved processing of nucleic acids for production of sequencable libraries |
US7888034B2 (en) | 2008-07-01 | 2011-02-15 | 454 Life Sciences Corporation | System and method for detection of HIV tropism variants |
US20100136516A1 (en) | 2008-12-01 | 2010-06-03 | 454 Life Sciences Corporation | System and method for detection of HIV integrase variants |
EP3878975A1 (en) * | 2011-04-08 | 2021-09-15 | Life Technologies Corporation | Phase-protecting reagent flow orderings for use in sequencing-by-synthesis |
-
2013
- 2013-03-13 US US13/801,867 patent/US10192024B2/en active Active
- 2013-05-16 CN CN201380025917.0A patent/CN104364789A/zh active Pending
- 2013-05-16 JP JP2015512060A patent/JP6373827B2/ja not_active Expired - Fee Related
- 2013-05-16 CA CA2873146A patent/CA2873146A1/en not_active Abandoned
- 2013-05-16 EP EP13722769.0A patent/EP2850551A2/en not_active Withdrawn
- 2013-05-16 WO PCT/EP2013/060152 patent/WO2013171303A2/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662662A (zh) * | 2002-06-17 | 2005-08-31 | 英特尔公司 | 通过信号扩展和数据整合进行的核酸测序 |
EP1689881B1 (en) * | 2003-10-20 | 2011-08-24 | Isis Innovation Limited | Parallel nucleic acid sequencing methods |
CN101390101A (zh) * | 2006-02-16 | 2009-03-18 | 454生命科学公司 | 用于校正核酸序列数据中的引物延伸误差的系统和方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313741A (zh) * | 2016-04-27 | 2019-02-05 | 齐默尔根公司 | 用于生成工厂订货单以控制核苷酸序列生产的方法和系统 |
CN111937075A (zh) * | 2017-10-26 | 2020-11-13 | 齐默尔根公司 | 用于规划和执行高通量基因组制造操作的装置无关系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6373827B2 (ja) | 2018-08-15 |
JP2015519662A (ja) | 2015-07-09 |
EP2850551A2 (en) | 2015-03-25 |
US10192024B2 (en) | 2019-01-29 |
US20130311105A1 (en) | 2013-11-21 |
WO2013171303A3 (en) | 2014-05-01 |
WO2013171303A2 (en) | 2013-11-21 |
CA2873146A1 (en) | 2013-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210062186A1 (en) | Next-generation sequencing libraries | |
CN103917654B (zh) | 用于对长核酸进行测序的方法和系统 | |
EP3049979B1 (en) | Structure based predictive modeling | |
CN101965410B (zh) | 用于产生可测序文库的改进的核酸处理的系统和方法 | |
CN105358709B (zh) | 用于检测基因组拷贝数变化的系统和方法 | |
CN102834828B (zh) | 通过利用递归算法校正dna测序数据中的异相误差的系统和方法 | |
CN104364789A (zh) | 用于产生和使用最佳核苷酸流顺序的系统和方法 | |
US11555218B2 (en) | Sequencing from multiple primers to increase data rate and density | |
CA2852098A1 (en) | Colorectal cancer associated circulating nucleic acid biomarkers | |
CN103038365A (zh) | 用于在dna测序技术中针对酶促效率调整核苷酸浓度的系统和方法 | |
Schwartz et al. | New generations: Sequencing machines and their computational challenges | |
Gaur et al. | Sequencing Technologies: Introduction and Applications | |
Edwards | Whole-genome sequencing for marker discovery | |
Margulies et al. | The 454 life sciences picoliter sequencing system | |
Mishra et al. | Strategies and tools for sequencing and assembly of plant genomes | |
Wood | Mitochondrial Haplogrouping and Short Tandem Repeat Analyses in Anthropological Research using Next-Generation Sequencing Technologies | |
Udayaraja | Personal diagnostics using DNA-sequencing | |
Josko | Platforms | |
WO2022197942A9 (en) | Phase protective reagent flow ordering | |
KR20230165273A (ko) | 어댑터 이량체 검출을 갖는 핵산 라이브러리 서열분석 기술 | |
Ray | PLATE-Seq: An Efficient and Scalable Method for Using RNA-Seq as a Primary Output in High Throughput Drug Screens | |
Roy et al. | Meeting review: bioinformatics of biochips: accelerating discovery in functional genomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150218 |
|
RJ01 | Rejection of invention patent application after publication |