CN105683980A - 在使用终止化学物质的测序中建立分阶段效应模型的方法和系统 - Google Patents

在使用终止化学物质的测序中建立分阶段效应模型的方法和系统 Download PDF

Info

Publication number
CN105683980A
CN105683980A CN201480054627.3A CN201480054627A CN105683980A CN 105683980 A CN105683980 A CN 105683980A CN 201480054627 A CN201480054627 A CN 201480054627A CN 105683980 A CN105683980 A CN 105683980A
Authority
CN
China
Prior art keywords
base
stream
tfr
molecule
rmr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480054627.3A
Other languages
English (en)
Other versions
CN105683980B (zh
Inventor
C·科勒
M·西科拉
P·范德霍恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of CN105683980A publication Critical patent/CN105683980A/zh
Application granted granted Critical
Publication of CN105683980B publication Critical patent/CN105683980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Physiology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种用于核酸测序的方法,其包括从接收并且在终止合成测序过程中处理样品核酸的测序仪器接收观测到或测量到的核酸测序数据。所述方法还包括针对所述观测到或测量到的核酸测序数据,通过测定候选序列的预测信号,使用模拟框架来产生一组碱基候选序列。所述模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),所述RMR大于或等于零并且所述TFR小于一。所述方法还包括从所述组碱基候选序列鉴别出一个候选序列,其在对应于所述样品核酸的序列时,使得求解函数最佳化。

Description

在使用终止化学物质的测序中建立分阶段效应模型的方法和系统
相关申请的交叉引用
本申请要求2013年10月4日提交的美国临时申请第61/886,878号的优先权,所述申请以全文引用的方式并入本文中。
技术领域
本申请大体上涉及用于核酸测序的方法、系统以及计算机可读媒体,并且更确切地说,涉及用于在核酸测序中建立分阶段效应模型的方法、系统以及计算机可读媒体。
背景技术
测定核酸分子中的核苷酸顺序的核酸测序在广泛多种医学应用,如生物研究、基因测试等中变得无处不在。此类应用中所利用的一种类型测序是合成测序,其中通过合成对应链来测定核酸链中的核苷酸顺序。虽然合成测序是许多当前平台中采用的高产量方法,但仍存在与其使用相关的若干缺点。举例来说,合成测序平台产生大量测序数据,其必须随后经处理以测定给定核酸链中的核苷酸的顺序。此外,经由这些方法获得的测序数据可能包括多种误差,如阶段同步损失(即,相同模板的同步合成损失),其妨碍作出精确碱基判读的能力。因此,需要解决这些问题并且能够经由合成测序平台更精确和有效地操作大量所获得的测序数据的系统和方法。
发明内容
本发明的示例性实施例可以解决上文所提到的问题中的一个或多个和/或可以展现上文所提到的所需特征中的一个或多个。其它特征和/或优势可以从以下描述变得显而易见。
根据至少一个示例性实施例,用于核酸测序的方法包括从经配置以接收样品核酸并且在终止合成测序过程中处理样品核酸的测序仪器接收观测到或测量到的核酸测序数据。所述方法还包括针对观测到或测量到的核酸测序数据,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数。用于模拟可能的状态转换的模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),RMR大于或等于零并且TFR小于一。所述方法进一步包括从所述组碱基候选序列鉴别出一个候选序列,其在对应于所述样品核酸的序列时,使得求解函数最佳化。
根据至少一个示例性实施例,核酸测序系统包括测序仪器,其经配置以接收样品核酸、具有收端基团的至少一个核苷酸、引子以及聚合酶,并且在终止合成测序过程中处理样品核酸以产生原始核酸测序数据。处理器经配置以接收原始核酸测序数据并且针对样品核酸,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数。用于模拟可能的状态转换的模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),RMR值大于或等于零并且TFR值小于一。
根据至少一个示例性实施例,设备包括机器可读存储器和经配置以执行机器可读指令的处理器,所述指令在被执行时使得设备从经配置以接收样品核酸并且在终止合成测序过程中处理样品核酸的测序仪器接收观测到或测量到的核酸测序数据;并且针对观测到或测量到的核酸测序数据,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数。用于模拟可能的状态转换的模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),其中RMR大于或等于零并且TFR小于一。
在以下描述内容中将部分阐述本发明的额外目标、特征和/或优点,并且其将部分从所述描述内容显而易见,或可以通过实践本发明和/或权利要求习得。这些目标和优点中的至少一些可以通过在所附权利要求书中特别指出的元素和组合来实现并且获得。
应理解,前述一般描述和以下详细描述都仅仅是示例性和解释性的,并且不限制权利要求;实际上权利要求应被授予其完全宽度范围,包括等效物。
附图说明
可以单独或与随附图式一起从以下详细描述理解本发明。包括图式以提供对本发明的进一步理解,并且并入在本说明书中并且构成在本说明书的一部分。图式说明本教示内容的一个或多个示例性实施例并且与描述一起用以解释某些原则和操作。
图1是说明根据本发明的实施例的合成测序系统的示意图。
图2是说明根据本发明的实施例的用于鉴别核酸序列的方法的流程图。
图3是根据本发明的实施例的用于计算预测电离图的模拟框架的示意性图示。
图4说明根据本发明的实施例的图3的模拟框架内的示例性单元以及可能的状态和状态转换。
图5说明根据本发明的另一个实施例的图3的模拟框架内的示例性单元以及可能的状态和状态转换。
图6说明根据本发明的实施例的用于计算预测电离图的模拟框架的简化示意性图示;
图7说明根据本发明的实施例的图6的模拟框架内的示例性单元以及可能的状态和状态转换。
图8说明根据本发明的实施例的用于计算预测电离图的模拟框架的简化示意性图示。
图9说明根据本发明的实施例的图8的模拟框架内的示例性单元以及可能的状态和状态转换。
图10A-10D说明根据本发明的实施例的针对低噪音电平的标准分阶段和终止子分阶段的模拟比较。
图11A-11D说明根据本发明的实施例的针对中等噪声水平的标准分阶段和终止子分阶段的模拟比较。
图12A-12D说明根据本发明的实施例的针对高噪声水平的标准分阶段和终止子分阶段的模拟比较。
图13A-13H说明模拟根据本发明的实施例的终止化学物质合成测序过程中0.5%的不完全延伸率的结果。
图14A-14H说明根据本发明的实施例的终止化学物质合成测序过程中1.5%的不完全延伸率的模拟结果。
图15A-15H说明根据本发明的实施例的终止化学物质合成测序过程中2.5%的不完全延伸率的模拟结果。
图16A-16H说明根据本发明的实施例的终止化学物质合成测序过程中3.5%的不完全延伸率的模拟结果。
图17A-17H说明根据本发明的实施例的终止化学物质合成测序过程中4.5%的不完全延伸率的模拟结果。
具体实施方式
说明示例性实施例的本实施方式和随附图式不应视为限制性的。可以在不脱离本描述和权利要求(包括等效物)的范围的情况下做出各种机械、组成、结构、电气以及操作改变。在一些情况下,未显示或详细描述熟知结构和技术以免混淆本发明。两个或更多个图中的相同编号表示相同或类似元件。此外,参考一个实施例详细描述的元件和其相关特征可以(只要可行)包括在其未尤其显示或描述的其它实施例中。举例来说,如果参考一个实施例详细描述元件并且未参考第二实施例描述,那么所述元件尽管如此仍可以要求为包括于第二实施例中。
出于本说明书和所附权利要求书的目的,除非另外指示,否则说明书和权利要求中所使用的所有表示量、百分比或比例的数字和其它数值应理解为在所有实例中被术语“约”修饰,达到其还未被如此修饰的程度。因此,除非相反地指示,否则在以下说明书和所附权利要求中所阐述的数值参数是可以取决于设法获得的所需特性变化的近似值。最低限度地,并且不试图限制等效物原则应用于权利要求书的范围,至少应根据所报告的有效数字的数目并且通过应用一般四舍五入技术来解释每个数值参数。
应注意,除非明确地并且肯定地限于一个指示物,否则如本说明书和所附权利要求书中所使用的单数形式“一(a/an)”和“所述”和任何词的任何单数用途包括复数个指示物。如本文所使用,术语“包括”和其语法变化形式意欲为非限制性的,使得清单中项目的列举不排除可以取代或添加到所列项目中的其它类似项目。
根据各种示例性实施例,本发明涵盖用于评估样品核酸序列的系统、方法以及计算机可读媒体,包括通过处理和/或分析可能被能够引起利用终止化学物质的合成测序过程中的测序误差的分阶段效应的存在污染的核酸测序数据来作出碱基判读。举例来说,在一些实施例中,可以通过使在分阶段模型下计算的值的预测组与经由实验,例如使用测序仪器获得的值的测量组之间的距离减到最小(例如经由最小平方拟合框架)而找到鉴别核酸样品中的碱基序列的测序问题的解决方案。在一些实施例中,可以通过用树基求解程序搜索或穿越可能的序列来确认最小化问题的解决方案。以此方式,本发明的各种示例性实施例可以通过考虑一种或多种分阶段效应实现碱基判读而不需要去除或纠正此类分阶段效应。
在各种示例性实施例中,终止合成测序过程中出现的一种或多种分阶段效应以估算和提供为分阶段模型的输入的参数形式捕获。可以选择参数以解释由于待测序核酸分子的相同模板中的异步合成发生的多种分阶段误差。举例来说,分阶段模型可以并入不完全延伸、推进、下降、再活化分子、终止失败和/或失活分子的参数。以此方式,各种示例性实施例可以减少或消除由于终止化学物质合成测序过程中所存在的一种或多种分阶段效应而判读不正确碱基的可能性。参考图式下文更详细地论述各种示例性实施例的这些和其它特征。
图1说明能够测定核酸样品中所存在的核苷酸顺序的核酸测序系统10。聚核苷酸可以包括通过磷酸二酯键连接的天然脱氧核糖核苷(例如脱氧腺苷、脱氧胞苷、脱氧鸟苷以及脱氧胸苷(针对DNA)或其核糖对应物(针对RNA))。然而,其还可以包括非天然核苷酸类似物,例如包括经修饰的碱基、糖或核苷间键。在一个示例性实施例中,聚核苷酸可以由字母(大写或小写)序列表示,如“ATGCCTG”,并且应理解,核苷酸从左到右按5′→3′顺序,并且除非另外指示或上下文显而易见,否则“A”指示脱氧腺苷,“C”指示脱氧胞苷,“G”指示脱氧鸟苷,并且“T”指示脱氧胸苷,并且“I”指示脱氧肌苷,并且“U”指示脱氧尿苷。
核酸测序系统10包括控制和处理系统12,其从用于分析和/或处理的测序仪器14接收核酸测序数据。测序仪器14经配置以进行使用终止化学物质的合成测序过程(“终止合成测序”)。如本文所使用,术语“终止合成测序”涵盖采用任何类型的终止化学物质的所有合成测序过程。举例来说,终止合成测序包括(但不限于)经由将一种或多种终止子,如化学上改变的dNTP(例如化学上改变的dATP、dCTP、dGTP和/或dTTP),包括2′,3′双脱氧核苷酸(ddNTP)(例如ddATP、ddCTP、ddGTP、ddTTP)并入到反应混合物中,以逐步方式可逆地或不可逆地终止核酸复制的合成测序过程。
在流量控制器18的控制下以各种浓度提供一种或多种材料16。在所说明的实施例中,材料包括核酸聚合酶20、核酸引子22、核酸模板24、脱氧核苷酸(dNTP)(例如dATP、dCTP、dGTP、dTTP)26以及2′,3′双脱氧核苷酸(ddNTP)(例如ddATP、ddCTP、ddGTP、ddTTP)28,但如下文所详细论述,为给定应用提供的材料16可以例如取决于实施特定考虑而变化。
控制和处理系统12的所说明的实施例包括内部总线30,其与处理器32连接以使得能够与多种其它系统组件联通。控制和处理系统12还包括随机存取存储器(RAM)或其它动态存储器,其耦合到总线30以便存储打算由处理器32执行的指令。RAM34也可以用于在执行打算由处理器32执行的指令期间存储临时变量或其它中间信息。此外,提供只读存储器(ROM)36或其它静态存储装置以便存储处理器32的静态信息和指令。控制和处理系统12还可以包括存储装置38,如磁盘、光盘或固态驱动器(SSD)以便存储信息或指令。存储装置38可以包括媒体驱动器和可移动存储介面。媒体驱动器可以包括用以支持固定的或可移动的存储媒体的驱动器或其它机制,如硬盘驱动器、软盘驱动器、磁带驱动器、光盘驱动器、CD或DVD驱动器(R或RW)、闪存驱动器或其它可移动的或固定的媒体驱动器。存储装置38可以进一步包括其中存储特定计算机软件、指令或数据的计算机可读存储媒体。
控制和处理系统12还可以包括使得软件和/或数据能够在计算机系统控制和处理系统12与一个或多个外部装置之间传送的通信接口40。通信接口40的实例包括调制解调器、网络接口(如乙太网(Ethernet)或其它NIC卡)、通信端口(如USB端口、RS-232C串行端口)、PCMCIA插槽和卡、蓝牙等。经由通信接口40传送的软件和数据可以呈信号的形式,这些信号可以是能够通过通信接口40接收的电子、电磁、光学或其它信号。这些信号可以经由信道通过通信接口40传输和接收,所述信道如无线媒体、导线或电缆、光纤或其它通信媒体。
一个或多个控制输入端42可以经由通信接口40与处理器32联通。控制输入端42可以经由一个或多个输入装置提供,如键盘;交互式显示器,如经配置有触摸屏输入能力的LCD显示器;光标控制件,如鼠标等。此外,处理器32还可以经由总线30耦合到显示器44,如阴极射线管(CRT)或液晶显示器(LCD),以便为用户显示信息。
在操作核酸测序系统期间,测序仪器14进行终止合成测序过程,从而产生对应于并入信号的原始数据,所述信号指示并入到核酸链中的一个或多个核苷酸在测序操作中合成。此外,在如上文所提及的所说明的核酸测序系统10中,提供核酸聚合酶20、核酸引子22、待测序的核酸模板24、dNTP26以及ddNTP28作为适用于终止合成测序过程的测序仪器14的输入端。然而,如本领域技术人员所理解,提供到测序仪器14的特定类型、混合物以及反应物时序将取决于多种实施特定考虑变化,所述考虑如所采用的合成测序方法类型、所使用的终止化学物质类型、可获得的成像或感测平台等。因此,图1中示出的材料16是可以提供到测序仪器的反应物类型的非限制性实例。
在各种示例性实施例中,提供到测序仪器14的终止子可以包括适用于终止引子延伸的终止子的多种类别中的任一种。举例来说,适合的终止子包括不可逆终止子,如不具有3′羟基的ddNTP,并且因此借助于替代3′位置处的羟基的氢中断核复制。作为额外实例,还可以利用可逆终止子。此类终止子可以包括3′-O-封端可逆终止子和3′-未封端可逆终止子。适合的3′-O-封端可逆终止子可以包括连接到戊糖的3′羟基的氧原子的收端基团。可以在不同实施方案中利用这种类型的若干市售终止子,包括(但不限于)3′-ONH2可逆终止子、3′-O-烯丙基可逆终止子以及3′-O-叠氮甲基可逆终止子。适合的3′-未封端可逆终止子包括连接到用于终止引子延伸的碱基的完整3′羟基和收端基团。可以在不同实施方案中利用这种类型的若干市售终止子,包括(但不限于)称为“虚拟终止剂”的3′-OH未封端可逆终止子和称为“LighteningTerminatorsTM”的3′-OH未封端核苷酸,其具有连接到羟甲基化核碱基的终止2-硝基苯甲基部分。
取决于所选终止剂类型,适用于测序仪器14所进行的过程的所选特定聚合酶20可以改变。即,针对核酸测序所选核苷酸类似物类型可以影响将产生最佳效率的DNA聚合酶20类型。举例来说,在一个实施例中,可以选择LighteningTerminatorsTM用作终止子,并且可以利用与LighteningTerminatorsTM一起使用的所研发的TherminatorTMDNA聚合酶以使效率最佳化。
此外,取决于所选合成测序过程类型和所采用的终止化学物质类型,可以通过流量控制器18改变dNTP26和/或ddNTP28的顺序和混合物。举例来说,如果选择桑格测序过程来由测序仪器14执行,那么可以执行四个单独测序反应,各包括四种类型的ddNTP和另外三种dNTP中的一种(例如一种反应应包括ddATP,还有dGTP、dCTP以及dTTP)。对于其它实例,如果选择染料终止测序过程来由测序仪器14采用,那么流量控制器18可以调节包括所有四种ddNTP28(即,ddATP、ddCTP、ddGTP、ddTTP)的反应物,各耦合到不同颜色荧光标记以例如经由基于荧光的成像系统实现鉴别。
根据一个示例性实施例,测序仪器14可以经配置以进行基于电子或电荷的核酸终止合成测序。在利用基于电子或电荷的测序(采用终止化学物质)(例如基于pH的测序)的此类实施例中,可以通过检测作为聚合酶催化的核苷酸延伸反应的天然副产物产生的离子(例如氢离子)测定由核苷酸并入事件产生的并入信号。此情况可以用于定序样品或模板核酸,其可以是例如相关核酸序列的片段并且其可以作为纯系种群直接或间接连接到固体载体(如粒子、微粒、珠粒等)。样品或模板核酸24可以可操作地关联到引子22和聚合酶20。模板核酸24可以进行终止子和洗涤的重复循环或“流”(其在本文中可以称作“核苷酸流”,由此可以在并入信号的对应产生的情况下使得核苷酸并入)。在一个实施例中,所利用的终止子可以是LighteningTerminatorsTM中的一种,并且聚合酶可以是TherminatorTMDNA聚合酶中的一种,如TherminatorIII。
引子22可以退火到样品或模板24以使得引子的3′端可以通过聚合酶延伸,只要添加例如与模板中的下一个碱基互补的ddNTP28。随后,基于核苷酸流的已知序列和各核苷酸流期间测量到的并入信号,可以测定与反应腔室中所存在的样品核酸24相关的类型、序列和核苷酸数目身份。
核苷酸流的序列可以基于由核苷酸流的较短预定循环的连续重复序列组成的循环重复图案(例如四个核苷酸流的预定序列的连续重复序列,如“ACTGACTG...”);可以完全或部分基于核苷酸流的一些其它图案(如2012年10月18日公布的Hubbell等人的美国专利申请第2012/0264621号中论述或涵盖的各种核苷酸流顺序中的任一个);或还可以基于其某种组合。
在一个实施例中,将四种不同种类的ddNTP依次添加到反应腔室中,以使得各反应物一次一个地曝露于四种不同ddNTP。在一个示例性实施例中,按以下顺序添加四种不同种类的ddNTP:ddATP、ddCTP、ddGTP、ddTTP、ddATP、ddCTP、ddGTP、ddTTP等,各曝露继而洗涤步骤。各曝露于ddNTP继而洗涤步骤可以视为“核苷酸流”。四个连续核苷酸流可以视为一个“循环”。举例来说,两个循环核苷酸流顺序可以由以下表示:ddATP、ddCTP、ddGTP、ddTTP、ddATP、ddCTP、ddGTP、ddTTP,各曝露继而洗涤步骤。在某些实施例中,采用终止化学物质,利用上文所论述的终止子中的一种或多种,各核苷酸流可以在引子延伸终止之前导致单核苷酸并入。
图2说明用于鉴别DNA模板的核酸序列的方法50的一个实施例。方法50包括接收呈经由测序操作获得的测量到或观测到的数据形式的原始数据(步骤52)。举例来说,原始数据可以在运行终止合成测序过程之后通过控制和处理系统12的处理器32从测序仪器14接收。处理器32可以包括求解器,其经配置以将在步骤52接收到的原始数据转化成与样品核酸模板成读数相关的碱基判读和编译连续碱基判读,其中各碱基判读参考特定核苷酸鉴别(例如dATP(“A”)、dCTP(“C”)、dGTP(“G”)、dTTP(“T”))。
为了将此原始数据转化成碱基判读,可以产生分阶段模型以模拟终止合成测序过程中可能发生的分阶段效应并且使得能够在处理或分析原始数据时考虑此类分阶段效应以测定碱基判读。为此,在所说明的实施例中,可以在步骤54、56、58、60、62和64估算六个参数中的一个或多个的估算值。具体来说,方法50可以包括获得推进率(CFR)的估算值(步骤54)。CFR可以是涵盖正框移并且对应于核酸拷贝并入不同于给定流循环中流动的一个核苷酸的比率的参数。
方法50还可包含获得不完全延伸率(IER)的估算值(步骤56)。IER可以是涵盖负框移并且对应于核酸拷贝未能在流循环期间延伸的比率的参数。方法50可以进一步包括获得下降率(DR)的估算值(步骤58),其对应于活性核酸拷贝在循环期间变得非活性的比率。例如由于未完全去除收端基团或聚合酶失活,可能发生从活性到非活性的转变。
再者,方法50可以包括获得再活化分子率(RMR)的估算值(步骤60)。RMR对应于非活性核酸拷贝在预期后的时间点变得再活化的比率。此参数可以涵盖收端基团先前保持完整并且稍后去除的实例。另外,方法50可以包括获得终止失败率(TFR)的估算值(步骤62)。TFR对应于由于引子延伸的无效终止发生分阶段误差的比率。举例来说,在采用3′-未封端可逆终止子的实施例中,TFR可以包括收端基团未能防止聚合酶识别3′羟基并且因此并入额外核苷酸的比率。TFR还可以包括上文详细描述的另一种类型的终止子未能终止引子延伸的比率和给定聚合酶未能辨别3′位置处的收端基团,因此并入额外核苷酸的比率。
另外,方法50可以包括获得失活分子率(IMR)的估算值(步骤64)。IMR对应于核酸拷贝在其已经并入碱基之后并且在已检测到对应并入信号之后变得非活性的比率。例如由于使用不可逆终止子或由于使用可逆终止子时反向终止普遍失效,可能发生此类失活。
在获得六个经鉴别的参数或取决于实施方式所采用的六个参数中的一个或多个的子组的估算值后,方法50包括通过模拟各流和碱基处活性和非活性分子可能的分子状态转换产生一组候选序列(步骤66)以及鉴别所产生的序列组中的哪组序列使求解函数最佳化(步骤68)。
举例来说,在一个实施例中,求解器可以配置为软件工具或具有从一组可能的或候选的碱基序列有效地解决或确定哪个序列在某种程度上最与一些观测到或测量到的原始数据一致的功能的应用。可能的或候选的序列可以通过预测在一个或多个并入估算参数的预测模型下此类序列应预期的数据并且测定在一些距离标准下预测数据与观测到的数据的“接近”程度来评估。
为了说明这一点,假设Y表示观测到或测量到的数据(例如,如观测到或测量到的电离图或流程图的值或其它测序值的矢量),假设X表示预测数据(例如包含A、C、G以及T的可能的序列组;包含至多具有一定长度的A、C、G以及T的可能的序列组或任何候选序列的其它子组),假设A表示一组可能的或候选的核酸或碱基序列(例如,如预测电离图或流程图的值的矢量),并且假设P表示一个或多个预测模型所使用的参数集合(例如不完全延伸、推进、下降、再活化分子、终止失败率、失活率的参数中的一个或多个)。随后,在一个实施例中,求解程序可以认为是函数f,其针对包含一个或多个样品核酸的一些限定空间或反应限制区域,由组A确定“最佳”候选序列A*,从而
A*=f(Y,X(A,P))=argA,PminD(Y-X(A,P)),
其中
argx,yminf(x,y)
大体上指示应大体上使函数f(x,y)最小化的一个或多个x和y值并且其中D(y-x)指示y与x之间的“距离”的某一函数(例如矢量之间的距离的平方距离或任何其它测量值的总和)。
此类求解程序可以原则上考虑组A中的序列的可能的组合和组P中的参数值以鉴别序列和参数值的最佳组合。理所当然,此类穷尽性的检索可能是计算上昂贵的并且潜在地非常费时的。实际上,检索可以有利地限于序列子组和参数候选值子组。在一个实施例中,可以通过与最佳化分开进行参数估算(例如如在图2的步骤54、56、58、60、62和64中)来促进检索,将过程分成两个阶段。举例来说,在第一步骤中,可以估算所述参数,并且在第二步骤中,可以将参数估算值处理为固定的并且作为输入供应到求解程序问题,其可以随后变为
A*=f(Y,X,A,P)=argAminD(Y-X(A|P)),
其中X(A|P)指示假定一些固定参数P,X随A变化。
在一个实施例中,例如在P包括前五种参数(例如分别表示为IER、CFR、DR、RMR以及TFR的不完全延伸、推进、下降、再活化分子以及终止失败比率)的情况下,那么可以发现最佳序列A*如下:首先,可以使用任何适合的方法获得IER、CFR、DR、RMR以及TFR的估算值。参考2011年10月27日提交的Davey等人的美国专利第8,666,678号并且在2013年8月15日提交的Davey等人的美国公开案第2014/0051584号(其以全文引用的方式并入本文中并且公开用于估算IER、CFR以及DR的示例性技术)中,其中本领域技术人员理解可以如何应用此类技术以提供额外参数估算,例如还通过使用所公开的技术来估算RMR、TFR和/或IMR。此外,在一些实施例中,可以针对动态编程矩阵中的各单元(例如针对下文所描述的矩阵70、120和/或130中的各单元)单独地估算所述参数中的一个或多个,从而产生跨越给定矩阵的单元的估算参数的变化形式。在另一个实施例中,针对动态编程矩阵中的给定行,所述参数中的一个或多个可以设定为固定估算值,而矩阵不同列中的其余参数中的一个或多个因单元而不同。实际上,矩阵的单元中的每一个的参数估算可以在多种适合的方式方面不同,取决于给定实施方案。
其次,A*可以通过求解以下得到
A*=argAminD(Y-X(A|IER,CFR,DR,RMR,TFR)),
其中X(A|P)指示假定一些固定参数P(例如此实例中的IER、CFR、DR、RMR以及TFR),X随A变化。可以使用任何适合的最佳化方法来解决此问题,如使用树基求解程序。此外,应注意可以使用上文所描述的六个参数的不同数目或组合应用前述途径,并且应理解以上五个参数是一个非限制性示范性说明。
实际上,在一些实施例中,可以利用六个所公开的参数的子组。举例来说,在一个实施例中,可以在终止合成测序过程的情况下利用三个参数IER、CFR以及DR。在另一个实施例中,可以利用四个参数,例如组合IER、CFR、DR以及RMR,其中TFR设定为零,或组合IER、CFR、DR以及TFR,其中RMR设定为零。然而,在其它实施例中,前述五种参数可以并入模型中,其中RMR和TFR都设定为大于零的值,但TMR小于1。利用不可逆终止子的又一个实施例可以并入所有六个所公开的参数,包括IER、CFR、DR、TFR、RMR以及IMR。实际上,本文所提供的参数模型的可能的置换使得根据各种示例性实施例的分阶段模型能够跨越多种测序平台(包括并未利用终止化学物质的平台)为可应用的。举例来说,在并未采用终止化学物质的一个实施例中,可以通过如下文更详细描述将RMR设定为零并且将TFR设定为一,使上文所描述的五个参数模型收缩成三个参数模型。
图3-9说明可以用于计算预测电离图的模拟构架和矩阵的示例性实施例。针对给定应用所选择的特定模拟框架和矩阵可以取决于多种实施特定考虑和因素,如合成测序过程中利用的终止化学物质类型。举例来说,图3和4分别说明模拟框架和矩阵,其可以用于计算利用例如如上文所公开的可逆终止子的终止合成测序过程中的预测电离图。对于其它实例,图3和5分别说明模拟框架和矩阵,其可以用于计算利用例如如上文所公开的不可逆终止子的终止合成测序过程中的预测电离图。
更具体来说,图3示意性地说明根据本发明的一个实施例的用于计算预测电离图的模拟框架70。表述包括各种步骤并且可以认为是核苷酸流(例如列表示流1、2、3等)和核苷酸碱基(例如排表示碱基1、2、3等)的矩阵。碱基可以在或可以不在特定预期流期间并入,并且此外可以在非预期流期间并入,如下文进一步详细描述。预期并入、并入失败和/或非预期并入的模拟沿着此类矩阵单元产生路径。
五个参数分阶段模型
图4说明根据一个所公开的实施例的图3中所说明的矩阵内的示例性单元80,其中标记可能的分子状态和状态转换。此类单元说明并入五个参数IER、CFR、DR、RMR以及TFR的参数分阶段模型中在第N个核苷酸流期间第K个碱基处存在的活性分子(例如在具有活性聚合酶的流期间主动合成的分子)和非活性分子可能发生的事情。此类分阶段模型可以适用于使用例如可逆终止子的终止合成测序平台。为实现这一点,活性分子包括在流N中并入碱基K-1或在流N-1中未并入碱基K的那些。非活性分子包括在N-1流中并入K-1碱基的分子。
对于在流N中并入碱基K-1的活性分子(在图4中标记为Q1),那么在节点82处存在两种可能性。收端基团未能终止引子延伸(例如Q1′,其等于Q1×[TFR])或终止逆转(例如Q1",其等于Q1-Q1′或Q1×[1-TFR])。如下文将进一步论述,Q1′子组传送到节点86,在其中其可能随后经历单元80内的三个可能性中的一个(即,在针对流N的第K个碱基处),并且Q1"子组传送到节点89。由于未能在N-1流中并入碱基K,进入单元80的活性分子由图4中的Q2表示,并且此子组活性分子也传送到图4中的节点86。
对于进入单元80的N-1流中并入K-1碱基的非活性分子(标记Q6),那些非活性分子可以在节点84变得再活化(Q6′)或保留非活性(Q6")。如同其它活性分子,子组Q6′传送到节点86。
因此,到达节点86是单元80中的活性分子(Q1′、Q2以及Q6′)的总和。在节点86处,可能发生三种可能性中的一种。活性分子可能未能延伸或经历不完全延伸,其子组Q8传送到节点89;其可以变得非活性的并且经历下降,其子组Q5传送到节点90;或其可以经历正常延伸或推进事件并且在流N中并入碱基K,其分子Q4子组变为在流N中并入碱基K的活性分子并且沿着流列N移动到下一单元。
五个参数分阶段模型-第K个碱基匹配第N流
参考如图4中所说明的矩阵内的示例性单元80,在第K个碱基匹配第N流的情形下,在各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和两个输出(Q1′=Q1×[TFR]和Q1"=Q1×[1-TFR]);节点84具有一个输入(Q6)和两个输出(Q6′=Q6×[RMR]和Q6″=Q6×[1-RMR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[IER×(1-DR)]、Q5=(Q1′+Q2+Q6′)×[DR]以及Q4=(Q1′+Q2+Q6′)×([1-IER]×[1-DR]));节点89具有两个输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);并且节点90具有两个输入(Q5和Q6")和一个输出(Q7=Q5+Q6")。因此,相对于示例性单元80的输出(Q3、Q4以及Q7),可以直接或间接由基于四个转变因数(基于五个参数中的四个)的先前状态确定Q3。那些转变因数分别是[TFR]、[1-TFR]、[RMR]以及[IER×(1-DR)]。可以由基于三个转变因数([TFR]、[RMR]以及([1-IER]×[1-DR]))的先前状态直接或间接确定Q4。可以由基于四个转变因数([TFR]、[RMR]、(1-[RMR])以及[DR])的先前状态直接或间接确定Q7
将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[IER×(1-DR)]获得Q8,并且Q1乘以转变因数[1-TFR]获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q1′+Q2+Q6′)乘以转变因数[(1-IER)×(1-DR)]获得Q4)确定。
此外,将为非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过呈达到转变的先前活性或非活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[DR]获得Q5,并且Q6乘以转变因数[1-RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。
五个参数分阶段模型-第K个碱基不匹配第N流
在第K个碱基不匹配第N流的情形下,在图4中的各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和两个输出(Q1′=Q1×[TFR]和Q1"=Q1×[1-TFR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[(1-CFRM)+CFRM×IER×(1-DR)]、Q5=(Q1′+Q2+Q6′)×[CFRM×DR]以及Q4=(Q1′+Q2+Q6′)×(CFRM×[1-IER]×[1-DR]));节点89具有两个输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);节点84具有一个输入(Q6)和两个输出(Q6′=Q6×[RMR]和Q6"=Q6×[1-RMR]);并且节点90具有两个输入(Q5和Q6")和一个输出(Q7=Q5+Q6"),其中M是最小数目以使得第(N-M)流匹配第K个碱基。因此,相对于第K个碱基不缠结第N流时示例性单元80的输出,Q3可以直接或间接由基于四个转变因数(基于五个参数)的先前状态确定。那些因数是[TFR]、[1-TFR]、[RMR]以及[(1-CFRM)+CFRM×IER×(1-DR)])]。可以直接或间接由基于三个转变因数([TFR]、[RMR]以及(CFRM×[1-IER]×[1-DR]))的先前状态确定Q4,并且可以直接或间接由基于四个转变因数([TFR]、[RMR]、(1-[RMR])以及[CFRM×DR])的先前状态确定Q7
在第K个碱基不匹配第N流的情况下,将保留活性并且不会在流N中并入碱基K的分子的比例(例如Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以包含术语[(1-CFRM)+(CFRM×IER×(1-DR))]的转变因数,其中M是最小数目以使得第(N-M)流匹配第K个碱基,以获得Q8,并且Q1乘以转变因数[1-TFR]获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q1′+Q2+Q6′)乘以包含术语[CFRM×(1-IER)×(1-DR)]的转变因数获得Q4)确定。此外,将为非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过组合呈先前状态的分子的数量(例如数目、浓度等)与对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[CFRM×DR]获得Q5,并且Q6乘以转变因数[1-RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。
六个参数分阶段模型
图5说明根据另一个示例的图3中所说明的矩阵内的示例性单元110,其中标记可能的分子状态和状态转换,其中第六参数并入到上文详细描述的分阶段模型中。此额外参数是失活分子比率(IMR)并且对应于失活分子的比率,其可以适用于使用不可逆终止子或当可逆终止子的逆转处理不完美时的实施方案。
示例性单元110说明并入IMR的六个参数模型中在第N个核苷酸流期间第K个碱基处存在的活性分子(例如在具有活性聚合酶的流期间主动合成的分子)和非活性分子可能发生的事情。为实现这一点,活性分子包括在流N中并入碱基K-1或在流N-1中未并入碱基K的那些。非活性分子包括在N-1流中并入K-1碱基的分子。
对于在流N中并入碱基K-1的活性分子(在图5中标记为Q1),那么在节点82处存在三种可能性。收端基团未能终止引子延伸(例如Q1′,其等于Q1乘以终止失败率或Q1×[TFR],分子失活(例如Q1″′,其等于Q1×[IMR]),或终止逆转(例如Q1",其等于Q1-Q1′-Q1″′或Q1×[1-TFR-IMR])。如下文将进一步论述,Q1′子组传送到节点86,在其中其可能随后经历单元80内的三个可能性中的一个(即,在针对流N的第K个碱基处),Q1"子组传送到节点89,并且Q1″′子组传送到节点84。由于未能在N-1流中并入碱基K,进入单元80的活性分子由图5中的Q2表示,并且此子组活性分子也传送到图5中的节点86。
对于进入单元80的N-1流中并入K-1碱基的非活性分子(Q6),那些非活性分子与节点84处的失活分子(Q1″′)组合,并且节点84处的分子可以随后变得再活化(Q6′)或保留非活性(Q6")。如同其它活性分子,子组Q6′传送到节点86。
因此,到达节点86是单元80中的活性分子(Q1′、Q2以及Q6′)的总和。在节点86处,可能发生三种可能性中的一种。活性分子可能未能延伸或经历不完全延伸,其子组Q8传送到节点89;其可以变得非活性的并且经历下降,其子组Q5传送到节点90;或其可以经历正常延伸或推进事件并且在流N中并入碱基K,其分子Q4子组变为在流N中并入碱基K的活性分子并且沿着流列N移动到下一单元。
六个参数分阶段模型-第K个碱基匹配第N流
参考如图5中所说明的矩阵内的示例性单元110,在第K个碱基匹配第N流的情形下,在各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和三个输出(Q1′=Q1×[TFR]、Q1"=Q1×[1-TFR-IMR]以及Q″′=Q1×[IMR]);节点84具有两个输入(Q1″′和Q6)和两个输出(Q6′=(Q6+Q1″′)×[RMR]和Q6"=(Q6+Q1″′)×[1-RMR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[IER×(1-DR)]、Q5=(Q1′+Q2+Q6′)×[DR]以及Q4=(Q1′+Q2+Q6′)×([1-IER]×[1-DR]));节点89具有两个输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);并且节点90具有两个输入(Q5和Q6")和一个输出(Q7=Q5+Q6")。
因此,相对于示例性单元110的输出(Q3、Q4以及Q7),可以直接或间接由使用基于六个参数中的五个的五个转变因数的先前状态确定Q3,五个转变因数为[IMR]、[TFR]、[1-TFR-IMR]、[RMR]以及[IER×(1-DR)]。可以由基于转变因数[IMR]、[TFR]、[RMR]以及([1-IER]×[1-DR])的先前状态直接或间接确定Q4。可以由基于转变因数[IMR]、[TFR]、[RMR]、(1-[RMR])以及[DR]的先前状态直接或间接确定Q7
将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[IER×(1-DR)]获得Q8,并且Q1乘以转变因数[1-TFR-IMR]获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q1′+Q2+Q6′)乘以转变因数[(1-IER)×(1-DR)]获得Q4)确定。此外,将为非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过呈达到转变的先前活性或非活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[DR]获得Q5,并且(Q6+Q1″′)乘以转变因数[1-RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。
六个参数分阶段模型-第K个碱基不匹配第N流
参考如图5中所说明的矩阵内的示例性单元110,在第K个碱基不匹配第N流的情形下,在各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和三个输出(Q1′=Q1×[TFR]、Q1″′=Q1×[IMR]以及Q1"=Q1×[1-TFR-IMR]);节点84具有两个输入(Q1″′和Q6)和两个输出(Q6′=(Q6+Q1″′)×[RMR]和Q6″=(Q6+Q1″′)×[1-RMR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[(1-CFRM)+CFRM×IER×(1-DR)]、Q5=(Q1′+Q2+Q6′)×[CFRM×DR]以及Q4=(Q1′+Q2+Q6′)×([CFRM]×[1-IER]×[1-DR]);节点89具有两个输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);并且节点90具有两个输入(Q5和Q6″)和一个输出(Q7=Q5+Q6″)。
因此,相对于示例性单元110的输出(Q3、Q4以及Q7),可以直接或间接由使用基于六个参数的五个转变因数的先前状态确定Q3,五个转变因数为[IMR]、[TFR]、[1-TFR-IMR]、[RMR]以及[(1-CFRM)+(CFRM×IER×(1-DR)]),可以直接或间接由基于转变因数[IRR]、[TFR]、[RMR]以及[CFRM×(1-IER)×(1-DR)]的先前状态确定Q4,并且可以直接或间接由基于转变率[IRR]、[TFR]、[RMR]、[1-RMR]以及[CFRM×DR]的先前状态确定Q7
将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[(1-CFRM)+(CFRM×IER×(1-DR)]获得Q8,并且Q1乘以转变因数[1-TFR-IMR]获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q1′+Q2+Q6′)乘以转变因数[(CFRM)×(1-IER)×(1-DR)]获得Q4)确定。此外,将为非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过呈达到转变的先前活性或非活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[CFRM×DR]获得Q5,并且(Q6+Q1″′)乘以转变因数[1-RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。
未使用终止化学物质时的分阶段模型
图6示意性地说明根据一个实施例的用于计算预测电离图的模拟框架120,其中未利用终止化学物质。在此类实施例中,对于上文所论述的五个或六个参数,RMR可以设定为零,并且TFR可以设定为一,并且IMR(如果使用)也可以设定为零。当RMR设定为零时,无需追踪失活分子,因为此类分子将不再参与任何反应。因此,如前所述,表述包括各种步骤并且可以认为是流(列表示流1、2、3等)和碱基(排表示碱基1、2、3等)的矩阵。再次,碱基可以或可以不响应于流并入,并且并入(或其不存在)的模拟沿着此类矩阵单元产生路径。
图7说明根据一个实施例的如图6中所说明的矩阵内的示例性单元122以及可能的状态和状态转换。此类单元122说明在第N流期间第K个碱基处存在的活性分子(例如聚合酶)可以发生的事情。为实现这一点,分子在流N中并入碱基K-1或在流N-1中未并入碱基K。那么存在若干可能性。分子可以经历正常延伸或推进事件,并且在流N中并入碱基K。分子还可能未能延伸或经历不完全延伸事件,并且在流N中未并入碱基K。最后,分子可以变得非活性的并且因此经历下降。对于分子种群,呈可能的后续状态的分子的比例将取决于输入种群和状态迁移参数。
参考如图7中所说明的矩阵内的示例性单元122,在第K个碱基匹配第N流的情形下,将保留活性并且不会在流N中并入碱基K的分子的比例(例如Q3)可以通过呈两种先前状态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含术语[IER×(1-DR)](其中IER是不完全延伸率并且DR是下降率)的转变因数确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(例如Q4)可以通过呈两种先前状态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含术语[(1-IER)×(1-DR)]的转变因数确定。
参考如图7中所说明的矩阵内的示例性单元122,在第K个碱基不匹配第N流的情形下,将保留活性并且不会在流N中并入碱基K的分子的比例(例如Q3)可以通过呈两种先前状态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含术语[(1-CFRM)+(CFRM×IER×(1-DR))](其中CFR是推进率并且M是最小数目以使得第(N-M)流匹配第K个碱基)的转变因数确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(例如Q4)可以通过呈两种先前状态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含术语[CFRM×(1-IER)×(1-DR)]的转变因数确定。
图8示意性地说明根据一个实施例的用于计算预测电离图的模拟框架130,其中RMR比率、TFR比率以及IMR比率(如果建模)设定为零。通过将这些参数设定为零,动态编程矩阵减少成上三角矩阵,如图8中所示。如图6和7的实施例中,当RMR设定为零时,无需追踪失活分子,因为此类分子将不参与任何反应。因此,如前所述,表述包括各种步骤并且可以认为是流(列表示流1、2、3等)和碱基(排表示碱基1、2、3等)的矩阵。再次,碱基可以或可以不响应于流并入,并且并入(或其不存在)的模拟沿着此类矩阵单元产生路径。
图9说明根据一个所公开的实施例的图8中所说明的矩阵内的示例性单元132,其中标记可能的分子状态和状态转换。此类单元说明在第N个核苷酸流期间第K个碱基处存在的活性分子(例如在具有活性聚合酶的流期间主动合成的分子)可能发生的事情。为实现这一点,活性分子包括在流N中并入碱基K-1或在流N-1中未并入碱基K的那些。在此模型中,在流N中并入碱基K-1的活性分子(图9中的Q1)传送到节点89。由于未能在N-1流中并入碱基K,进入单元132的活性分子由图9中的Q2表示,并且此子组活性分子传送到图9中的节点86。
在节点86处,可能发生三种可能性中的一种。活性分子可能未能延伸或经历不完全延伸,其由图9中的Q8表示并且传送到节点89;其可以变得非活性的并且经历下降,其由图9中的子组Q5表示;或其可以经历正常延伸或推进事件并且在流N中并入碱基K,其由图9中的Q4表示,其变为在流N中并入碱基K的活性分子并且沿着流列N移动到下一单元。
参考如图9中所说明的矩阵内的示例性单元80,在第K个碱基匹配第N流的情形下,在各种接合点处的各种转换可以如下:节点86具有一个输入(Q2)和三个输出(Q8=(Q2)×[IER×(1-DR)]、Q5=(Q2)×[DR]以及Q4=(Q2)×([1-IER]×[1-DR]));节点89具有两个输入(Q1和Q8)和一个输出(Q3=Q1+Q8)。
因此,相对于示例性单元80的输出(Q3和Q4),可以直接或间接由基于转变比率[IER×(1-DR)]的先前状态确定Q3,并且可以直接或间接由基于转变比率([1-IER]×[1-DR])的先前状态确定Q4。将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q2)乘以转变因数[IER×(1-DR)]获得Q8,并且Q8和Q1相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q2)乘以转变因数[(1-IER)×(1-DR)]获得Q4)确定。
在第K个碱基不匹配第N流的情形下,在各种接合点处的各种转换可以如下:节点86具有一个输入(Q2)和三个输出(Q8=(Q2)×[(1-CFRM)+CFRM×IER×(1-DR)]、Q5=(Q2)×[DR]以及Q4=(Q2)×([CFRM]×[1-IER]×[1-DR]);节点89具有两个输入(Q1和Q8)和一个输出(Q3=Q1+Q8)。因此,相对于示例性单元80的输出(Q3和Q4),可以直接或间接由基于转变因数[(1-CFRM)+CFRM×IER×(1-DR)]的先前状态确定Q3,并且可以直接或间接由基于转变因数([CFRM]×[1-IER]×[1-DR])的先前状态确定Q4。将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量(例如(Q2)乘以转变因数[(1-CFRM)+CFRM×IER×(1-DR)]获得Q8,并且Q8和Q1相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q2)乘以转变因数[CFRM×(1-IER)×(1-DR)]获得Q4)确定。
模拟研究
图10A-10D、11A-11D和12A-12D说明显示使用本文所公开的五个参数IER、CFR、DR、RMR以及TFR的终止化学物质分阶段模型(通过图中的三角形和缩写“term”显示)与并未采用终止化学物质的用于测序系统的标准分阶段模型(通过图中的圆圈和缩写“flow”显示)之间的比较的模拟图,所述模型都具有相同模拟分阶段误差。图6和7中详述的实施例用于模拟标准分阶段,而图8和9中详述的实施例用于模拟终止化学物质分阶段。在所呈现的模拟中,RMR设定为零并且TFR设定为小于1。图10A-10D说明显示针对低噪音电平的模拟结果的图(其中噪音标准差设定为0.03加法,0.03乘法);图11A-11D说明显示针对中等噪音电平的模拟结果的图(其中噪音标准差设定为0.1加法,0.05乘法);并且图12A-12D说明显示针对高噪音电平的模拟结果的图(其中噪音标准差设定为0.2加法,0.05乘法)。如以下图中所示,当经历相同分阶段参数时,相比于标准模型,终止化学物质模型每流展现降低的误差率。此外,基于所呈现的模拟,针对较长均聚物,本文提供的终止化学物质模型实现出人意料的并且明显较大的结果准确性。
具体来说,图10A、11A和12A分别说明针对较低、中等以及较高噪声电平的误差率与均聚物长度。如这些图中所示,与在每一种噪声电平下的标准误差率相比,终止化学物质误差率明显降低。图10B、11B和12B分别说明针对较低、中等以及较高噪声电平的误差率与流。如这些图中所示,本文提供的终止化学物质模型每流实现降低的误差率。图10C、11C和12C分别说明针对较低、中等以及较高噪声电平的经由模板测序所需流数目。图10D、11D和12D分别说明针对较低、中等以及较高噪声电平的每个碱基的平均误差率,同样显示终止化学物质模型的误差率降低。
图13A-13H、图14A-14H、图15A-15H、图16A-16H和图17A-17H分别说明针对0.5、1.5、2.5、3.5以及4.5的不完全延伸水准,比较终止化学物质建模和标准建模的模拟。组A-D和E-F模拟相同组碱基序列和不同核苷酸流顺序的分阶段参数。噪音标准差设定为0.05加法,0.05乘法。如所说明的模拟中所示,针对较长均聚物长度,终止化学物质模型提供改进的误差率,如从图13A、13E、14A、14E、15A、15E、16A、16E可见。分阶段效应随时间推移积聚以使得后期流一般经历比早期流更大的误差率。尽管使用终止化学物质需要总计更多流以经由给定长度的模板序列测序(参见图C),但每流模拟的峰误差率(其总是在后期流中发生,朝向模板末端)不超过并且大体上保持明显低于非终止子测序的模拟的峰误差率。所观测到的模拟误差率随着核苷酸流顺序变化。举例来说,在图16B中,终止化学物质模型的误差峰在与标准模型的误差峰相比更后的时刻发生并且高度更低。类似效应在图17B和17F中实现,其中终止模型的误差率保持较低,因为与标准模型相比流更多。在图13D、13H-17D、17H(除17D外)中,终止化学物质模型模拟结果指示更低的每碱基误差率并且因此更高的总体碱基准确性。
鉴于本文中的公开内容,本领域技术人员将显而易见其它修改和替代实施例。举例来说,系统和方法可以包括为了操作清楚起见从图式和说明书中省去的额外组分或步骤。因此,本说明书应理解为仅为说明性的并且出于教示本领域技术人员执行本发明的通用方式的目的。应理解,本文中显示并且描述的各种实施例视为示例性的。元件和材料以及那些元件和材料的布置可以取代本文中说明并且描述的那些,部分和处理可以逆转,并且可以独立地利用本教示内容的某些特征,在具有本文说明书的益处之后所有都如对于本领域技术人员显而易见的那样。在不背离本教示内容和以上权利要求的精神和范围的情况下,可以对本文所描述的元件作出改变。
应理解,本文中阐述的特定实例和实施例是非限制性的,并且可以在不背离本教示内容的范围的情况下对结构、尺寸、材料以及方法作出修改。
考虑到本文所公开的说明书和本发明的实践,本领域技术人员将显而易见根据本发明的其它实施例。希望说明书和实例仅被视为示例性的,其中权利要求应被授予其完全宽度和范围,包括等效物。

Claims (20)

1.一种用于核酸测序的方法,其包含:
从经配置以接收样品核酸并且在终止合成测序过程中处理所述样品核酸的测序仪器接收观测到或测量到的核酸测序数据;
针对所述观测到或测量到的核酸测序数据,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数,其中用于模拟所述可能的状态转换的所述模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),所述RMR大于或等于零并且所述TFR小于一;以及
从所述组碱基候选序列鉴别出一个候选序列,其在对应于所述样品核酸的序列时,使得求解函数最佳化。
2.根据权利要求1所述的方法,其中所述模拟框架包含通过建立以下模型模拟所述第K个碱基匹配所述第N个核苷酸流的情形的可能的状态转换:(i)使用第一组状态转变因数将保留活性或变得活性并且不会在流N中并入碱基K的分子的比例和(ii)使用第二组状态转变因数将保留活性并且在流N中并入碱基K的分子的比例。
3.根据权利要求2所述的方法,其中:
所述第一组状态转变因数包含状态转变因数[1-TFR]、状态转变因数[TFR]、状态转变因数[RMR]以及状态转变因数[(IER×(1-DR))];以及
所述第二组状态转变因数包含状态转变因数[TFR]、状态转变因数[RMR]以及状态转变因数[(1-IER)×(1-DR)]。
4.根据权利要求1所述的方法,其中所述模拟框架包含通过建立以下模型模拟所述第K个碱基不匹配所述第N个核苷酸流的情形的可能的状态转换:(i)使用第一组状态转变因数将保留活性或变得活性并且不会在流N中并入碱基K的分子的比例和(ii)使用第二组状态转变因数将保留活性并且在流N中并入碱基K的分子的比例。
5.根据权利要求4所述的方法,其中:
所述第一组状态转变因数包含状态转变因数[1-TFR]、状态转变因数[TFR]、状态转变因数[RMR]以及状态转变因数[(1-CFRM)+(CFRM×IER×(1-DR))];以及
所述第二组状态转变因数包含状态转变因数[TFR]、状态转变因数[RMR]以及状态转变因数[CFRM×(1-IER)×(1-DR)],其中M是最小数目以使得第(N-M)流匹配所述第K个碱基。
6.根据权利要求1所述的方法,其中所述终止合成测序过程包含利用可逆终止子的可逆终止测序以沿着所述样品核酸可逆地终止引子延伸。
7.根据权利要求6所述的方法,其中所述可逆终止子包含3′-O-封端可逆终止子,其具有连接到所述可逆终止子的戊糖的3′羟基的封端基团的氧原子。
8.根据权利要求6所述的方法,其中所述可逆终止子包含3′-未封端可逆终止子,其具有未封端3′羟基和连接到碱基的可逆收端基团。
9.根据权利要求1所述的方法,其中所述终止合成测序过程包含利用不可逆终止子的不可逆终止测序以沿着所述样品核酸可逆地终止引子延伸,并且用于模拟所述可能的状态转换的所述模拟框架进一步并入估算的失活分子率(IMR)。
10.一种核酸测序系统,其包含:
测序仪器,其经配置以接收样品核酸、具有收端基团的至少一个核苷酸、引子以及聚合酶,并且在终止合成测序过程中处理所述样品核酸以产生原始核酸测序数据;
处理器,其经配置以接收所述原始核酸测序数据并且针对样品核酸,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数,其中用于模拟所述可能的状态转换的所述模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),所述RMR的值大于或等于零并且所述TFR的值小于一。
11.根据权利要求10所述的系统,其中所述RMR的值是零并且所述TFR的值是零。
12.根据权利要求10所述的系统,其中所述处理器进一步经配置以从所述组碱基候选序列鉴别出一个候选序列,其在对应于所述样品核酸的正确序列时,使得求解函数最佳化。
13.根据权利要求10所述的系统,其进一步包含流量控制器,其经配置以控制所述样品核酸、所述具有收端基团的至少一个核苷酸、所述引子以及所述聚合酶流到所述测序仪器的时序和数量。
14.根据权利要求13所述的系统,其中所述至少一个核苷酸包含呈ddATP、ddCTP、ddGTP以及ddTTP形式的2′,3′双脱氧核苷酸,并且所述流量控制器经配置以使ddATP、ddCTP、ddGTP以及ddTTP的混合物同时流到所述测序仪器中。
15.根据权利要求13所述的系统,其中所述至少一个核苷酸包含呈ddATP、ddCTP、ddGTP以及ddTTP形式的2′,3′双脱氧核苷酸,并且所述流量控制器经配置以使ddATP、ddCTP、ddGTP以及ddTTP中的每一种一次一个地流到所述测序仪器中。
16.根据权利要求13所述的系统,其中所述测序仪器包含离子半导体测序设备,其经配置以检测在聚合期间、在合成与所述样品核酸互补的核酸链期间释放的氢离子。
17.一种设备,其包含:
机器可读存储器;以及
处理器,其经配置以执行机器可读指令,所述指令在被执行时使得所述设备:
从经配置以接收样品核酸并且在终止合成测序过程中处理所述样品核酸的测序仪器接收观测到或测量到的核酸测序数据;以及
针对所述观测到或测量到的核酸测序数据,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数,其中用于模拟所述可能的状态转换的所述模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),并且其中所述RMR大于或等于零并且所述TFR小于一。
18.根据权利要求17所述的设备,其中所述处理器进一步经配置以执行机器可读指令,所述指令在被执行时使得所述设备从所述组碱基候选序列鉴别出一个候选序列,其在对应于所述样品核酸的正确序列时,使得求解函数最佳化。
19.根据权利要求17所述的设备,其中所述TFR是零。
20.根据权利要求17所述的设备,其中用于模拟所述可能的状态转换的所述模拟框架进一步并入估算失活分子率(IMR)。
CN201480054627.3A 2013-10-04 2014-10-03 在使用终止化学物质的测序中建立分阶段效应模型的方法和系统 Active CN105683980B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361886878P 2013-10-04 2013-10-04
US61/886,878 2013-10-04
PCT/US2014/059191 WO2015051338A1 (en) 2013-10-04 2014-10-03 Methods and systems for modeling phasing effects in sequencing using termination chemistry

Publications (2)

Publication Number Publication Date
CN105683980A true CN105683980A (zh) 2016-06-15
CN105683980B CN105683980B (zh) 2018-08-24

Family

ID=51842844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480054627.3A Active CN105683980B (zh) 2013-10-04 2014-10-03 在使用终止化学物质的测序中建立分阶段效应模型的方法和系统

Country Status (5)

Country Link
US (3) US10410739B2 (zh)
EP (1) EP3053072B1 (zh)
JP (1) JP6532456B2 (zh)
CN (1) CN105683980B (zh)
WO (1) WO2015051338A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015051338A1 (en) 2013-10-04 2015-04-09 Life Technologies Corporation Methods and systems for modeling phasing effects in sequencing using termination chemistry
AU2018205218B2 (en) * 2017-01-06 2024-02-15 Illumina, Inc. Phasing correction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101389956A (zh) * 2005-12-21 2009-03-18 柳在泉 生物存储盘及其驱动装置和采用其驱动装置的分析方法
CN101627129A (zh) * 2006-10-06 2010-01-13 雀巢产品技术援助有限公司 用于测量生理健康的生物介体的组合物和多路检验
WO2012058459A2 (en) * 2010-10-27 2012-05-03 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US20130060482A1 (en) * 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing

Family Cites Families (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4800159A (en) 1986-02-07 1989-01-24 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US6054034A (en) 1990-02-28 2000-04-25 Aclara Biosciences, Inc. Acrylic microchannels and their use in electrophoretic applications
US5210015A (en) 1990-08-06 1993-05-11 Hoffman-La Roche Inc. Homogeneous assay system using the nuclease activity of a nucleic acid polymerase
JP3080178B2 (ja) 1991-02-18 2000-08-21 東洋紡績株式会社 核酸配列の増幅方法およびそのための試薬キット
US5587128A (en) 1992-05-01 1996-12-24 The Trustees Of The University Of Pennsylvania Mesoscale polynucleotide amplification devices
US6001229A (en) 1994-08-01 1999-12-14 Lockheed Martin Energy Systems, Inc. Apparatus and method for performing microfluidic manipulations for chemical analysis
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
CA2591550C (en) 1996-06-04 2009-04-28 University Of Utah Research Foundation Monitoring hybridization during pcr
US6074827A (en) 1996-07-30 2000-06-13 Aclara Biosciences, Inc. Microfluidic method for nucleic acid purification and processing
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US7348181B2 (en) 1997-10-06 2008-03-25 Trustees Of Tufts College Self-encoding sensor with microspheres
JP2001520377A (ja) 1997-10-15 2001-10-30 アクレイラ バイオサイエンシズ,インコーポレイティド 積層状マイクロ構造式装置および積層状マイクロ構造式装置製造方法
WO1999057321A1 (en) 1998-05-01 1999-11-11 Arizona Board Of Regents Method of determining the nucleotide sequence of oligonucleotides and dna molecules
US6780591B2 (en) 1998-05-01 2004-08-24 Arizona Board Of Regents Method of determining the nucleotide sequence of oligonucleotides and DNA molecules
US7875440B2 (en) 1998-05-01 2011-01-25 Arizona Board Of Regents Method of determining the nucleotide sequence of oligonucleotides and DNA molecules
AU4355899A (en) 1998-06-26 2000-01-17 Visible Genetics Inc. Method for sequencing nucleic acids with reduced errors
GB9901475D0 (en) 1999-01-22 1999-03-17 Pyrosequencing Ab A method of DNA sequencing
WO2000068671A2 (en) 1999-05-12 2000-11-16 Aclara Biosciences, Inc. Multiplexed fluorescent detection in microfluidic devices
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
US6783934B1 (en) 2000-05-01 2004-08-31 Cepheid, Inc. Methods for quantitative analysis of nucleic acid amplification reaction
GB0016472D0 (en) 2000-07-05 2000-08-23 Amersham Pharm Biotech Uk Ltd Sequencing method and apparatus
AU2001287010A1 (en) 2000-09-01 2002-03-13 Fred Hutchinson Cancer Research Center Statistical modeling to analyze large data arrays
GB0022069D0 (en) 2000-09-08 2000-10-25 Pyrosequencing Ab Method
US6939451B2 (en) 2000-09-19 2005-09-06 Aclara Biosciences, Inc. Microfluidic chip having integrated electrodes
EP1384022A4 (en) 2001-04-06 2004-08-04 California Inst Of Techn AMPLIFICATION OF NUCLEIC ACID USING MICROFLUIDIC DEVICES
CN100429509C (zh) 2001-11-16 2008-10-29 株式会社Bio-X Fet型传感器
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
JP2005516300A (ja) 2002-01-25 2005-06-02 アプレラ コーポレイション 製品およびサービスに対する注文を発注し、受理し、および充足する方法
US20030215816A1 (en) 2002-05-20 2003-11-20 Narayan Sundararajan Method for sequencing nucleic acids by observing the uptake of nucleotides modified with bulky groups
AU2003256298A1 (en) 2002-06-25 2004-01-06 Pel-Freez Clinical Systems, Llc Method for sequencing nucleic acids
US20040197845A1 (en) 2002-08-30 2004-10-07 Arjang Hassibi Methods and apparatus for pathogen detection, identification and/or quantification
US20040197793A1 (en) 2002-08-30 2004-10-07 Arjang Hassibi Methods and apparatus for biomolecule detection, identification, quantification and/or sequencing
US7575865B2 (en) 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
AU2004209001B2 (en) 2003-01-29 2007-10-11 454 Life Sciences Corporation Bead emulsion nucleic acid amplification
CA2515938A1 (en) 2003-02-12 2004-08-26 Genizon Svenska Ab Methods and means for nucleic acid sequencing
GB0324456D0 (en) 2003-10-20 2003-11-19 Isis Innovation Parallel DNA sequencing methods
JP3903183B2 (ja) 2004-02-03 2007-04-11 独立行政法人物質・材料研究機構 遺伝子検出電界効果デバイスおよびこれを用いた遺伝子多型解析方法
CA2558510A1 (en) 2004-03-04 2005-09-15 The University Of British Columbia Thrombomodulin (thbd) haplotypes predict outcome of patients
ITTO20040386A1 (it) 2004-06-09 2004-09-09 Infm Istituto Naz Per La Fisi Dispositivo ad effetto di campo per la rilevazione di piccole quantita' di carica elettrica, come quelle generate in processi biomolecolari, immobilizzate nelle vicinanze della superficie.
PT1801209E (pt) 2004-08-24 2011-05-26 Toray Industries Arn gen?mico do v?rus humano modificado da hepatite c com capacidade de replica??o aut?noma
WO2006022370A1 (ja) 2004-08-27 2006-03-02 National Institute For Materials Science 電界効果デバイスを用いたdna塩基配列解析方法及び塩基配列解析装置
WO2006041224A1 (en) 2004-10-14 2006-04-20 Kabushiki Kaisha Toshiba Fet-based nucleic acid detecting sensor
US7424371B2 (en) 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
US7785862B2 (en) 2005-04-07 2010-08-31 454 Life Sciences Corporation Thin film coated microwell arrays
US8445194B2 (en) 2005-06-15 2013-05-21 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
JP4353958B2 (ja) 2005-09-15 2009-10-28 株式会社日立製作所 Dna計測装置、及びdna計測方法
US8364417B2 (en) 2007-02-15 2013-01-29 454 Life Sciences Corporation System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
JP5808515B2 (ja) 2006-02-16 2015-11-10 454 ライフ サイエンシーズ コーポレイション 核酸配列データのプライマー伸長誤差を補正するためのシステムおよび方法
JP4857820B2 (ja) 2006-03-03 2012-01-18 学校法人早稲田大学 Dnaセンシング方法
EP2071927A2 (en) 2006-09-28 2009-06-24 Illumina, Inc. Compositions and methods for nucleotide sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2639579B1 (en) 2006-12-14 2016-11-16 Life Technologies Corporation Apparatus for measuring analytes using large scale FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US7932034B2 (en) 2006-12-20 2011-04-26 The Board Of Trustees Of The Leland Stanford Junior University Heat and pH measurement for sequencing of DNA
CA2676570C (en) 2007-01-26 2016-05-03 Illumina, Inc. Nucleic acid sequencing system and method
US8481259B2 (en) 2007-02-05 2013-07-09 Intelligent Bio-Systems, Inc. Methods and devices for sequencing nucleic acids in smaller batches
CN101720359A (zh) 2007-06-01 2010-06-02 454生命科学公司 从多重混合物中识别个别样本的系统和方法
US8182993B2 (en) 2007-06-06 2012-05-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
WO2009005753A2 (en) 2007-06-28 2009-01-08 454 Life Sciences Corporation System and method for adaptive reagent control in nucleic acid sequencing
US8518640B2 (en) 2007-10-29 2013-08-27 Complete Genomics, Inc. Nucleic acid sequencing and process
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
US20100035253A1 (en) 2008-03-19 2010-02-11 Intelligent Bio-Systems, Inc. Methods And Compositions For Incorporating Nucleotides
US7782237B2 (en) 2008-06-13 2010-08-24 The Board Of Trustees Of The Leland Stanford Junior University Semiconductor sensor circuit arrangement
GB2461127B (en) 2008-06-25 2010-07-14 Ion Torrent Systems Inc Methods and apparatus for measuring analytes using large scale FET arrays
EP2304420A4 (en) 2008-06-26 2013-10-30 Life Technologies Corp METHODS AND APPARATUS FOR DETECTING MOLECULAR INTERACTIONS USING FET ARRAYS
US8407012B2 (en) 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
US20100035252A1 (en) 2008-08-08 2010-02-11 Ion Torrent Systems Incorporated Methods for sequencing individual nucleic acids under tension
US8383369B2 (en) 2008-09-24 2013-02-26 Pacific Biosciences Of California, Inc. Intermittent detection during analytical reactions
US8392126B2 (en) 2008-10-03 2013-03-05 Illumina, Inc. Method and system for determining the accuracy of DNA base identifications
US20100301398A1 (en) 2009-05-29 2010-12-02 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
CN102301228A (zh) 2008-10-22 2011-12-28 生命技术公司 用于生物和化学分析的集成式传感器阵列
US8546128B2 (en) 2008-10-22 2013-10-01 Life Technologies Corporation Fluidics system for sequential delivery of reagents
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8370079B2 (en) * 2008-11-20 2013-02-05 Pacific Biosciences Of California, Inc. Algorithms for sequence determination
US20110246084A1 (en) 2008-11-26 2011-10-06 Mostafa Ronaghi Methods and systems for analysis of sequencing data
US9175338B2 (en) * 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
WO2010077859A2 (en) 2008-12-15 2010-07-08 Advanced Liquid Logic, Inc. Nucleic acid amplification and sequencing on a droplet actuator
US8236532B2 (en) 2008-12-23 2012-08-07 Illumina, Inc. Multibase delivery for long reads in sequencing by synthesis protocols
US20100323348A1 (en) 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
US8407554B2 (en) 2009-02-03 2013-03-26 Complete Genomics, Inc. Method and apparatus for quantification of DNA sequencing quality and construction of a characterizable model system using Reed-Solomon codes
US8772473B2 (en) 2009-03-30 2014-07-08 The Regents Of The University Of California Mostly natural DNA sequencing by synthesis
US8673627B2 (en) 2009-05-29 2014-03-18 Life Technologies Corporation Apparatus and methods for performing electrochemical reactions
CA2786564A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
US20110257889A1 (en) 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
AU2011226792A1 (en) 2010-06-11 2012-01-12 Life Technologies Corporation Alternative nucleotide flows in sequencing-by-synthesis methods
US10273540B2 (en) 2010-10-27 2019-04-30 Life Technologies Corporation Methods and apparatuses for estimating parameters in a predictive model for use in sequencing-by-synthesis
US9594870B2 (en) 2010-12-29 2017-03-14 Life Technologies Corporation Time-warped background signal for sequencing-by-synthesis operations
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
WO2012092515A2 (en) 2010-12-30 2012-07-05 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
US10146906B2 (en) 2010-12-30 2018-12-04 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
EP3878975A1 (en) 2011-04-08 2021-09-15 Life Technologies Corporation Phase-protecting reagent flow orderings for use in sequencing-by-synthesis
US20140274732A1 (en) 2013-03-15 2014-09-18 Pacific Biosciences Of California, Inc. Methods and compositions for nucleic acid sequencing using electronic sensing elements
WO2015051338A1 (en) 2013-10-04 2015-04-09 Life Technologies Corporation Methods and systems for modeling phasing effects in sequencing using termination chemistry

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101389956A (zh) * 2005-12-21 2009-03-18 柳在泉 生物存储盘及其驱动装置和采用其驱动装置的分析方法
CN101627129A (zh) * 2006-10-06 2010-01-13 雀巢产品技术援助有限公司 用于测量生理健康的生物介体的组合物和多路检验
WO2012058459A2 (en) * 2010-10-27 2012-05-03 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
EP2633470A2 (en) * 2010-10-27 2013-09-04 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
WO2012058459A3 (en) * 2010-10-27 2013-09-06 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US20130060482A1 (en) * 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing

Also Published As

Publication number Publication date
JP6532456B2 (ja) 2019-06-19
JP2016540279A (ja) 2016-12-22
EP3053072A1 (en) 2016-08-10
WO2015051338A1 (en) 2015-04-09
US11636922B2 (en) 2023-04-25
US20200043571A1 (en) 2020-02-06
CN105683980B (zh) 2018-08-24
EP3053072B1 (en) 2024-02-21
US20150100247A1 (en) 2015-04-09
US10410739B2 (en) 2019-09-10
US20230307095A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
US10984887B2 (en) Systems and methods for detecting structural variants
US20230131684A1 (en) Methods and Apparatuses for Estimating Parameters in a Predictive Model for Use in Sequencing-by-Synthesis
US20180268103A1 (en) Systems and methods to detect copy number variation
CN102834828B (zh) 通过利用递归算法校正dna测序数据中的异相误差的系统和方法
Goldman Phylogenetic information and experimental design in molecular systematics
CN105861645A (zh) 用于合成测序中的相保护试剂流排序
CN107075571A (zh) 用于检测结构变异体的系统和方法
US20210108254A1 (en) Methods and systems for reducing phasing errors when sequencing nucleic acids using termination chemistry
US20230307095A1 (en) Methods and systems for modeling phasing effects in sequencing using termination chemistry
Kinz-Thompson et al. Precisely and accurately inferring single-molecule rate constants
CN104364789A (zh) 用于产生和使用最佳核苷酸流顺序的系统和方法
US11473133B2 (en) Methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures
US20170017820A1 (en) Automatic Processing Selection Based on Tagged Genomic Sequences
US20170206313A1 (en) Using Flow Space Alignment to Distinguish Duplicate Reads
Oxendine Bioinformatics Analysis of Chronic Stress Using Targeted Oxford Nanopore Sequencing
US20190100797A1 (en) Systems and methods for paired end sequencing
Yeh et al. A Novel DNA-Based Parallel Computation for Solving Graph Coloring Problems
Josko Platforms
WO2015196154A1 (en) System, method, data module and kit for detecting variant nucleotide sequences
WO2011137356A2 (en) Systems and methods for identifying exon junctions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant