CN106460044B - 测序方法 - Google Patents

测序方法 Download PDF

Info

Publication number
CN106460044B
CN106460044B CN201580021282.6A CN201580021282A CN106460044B CN 106460044 B CN106460044 B CN 106460044B CN 201580021282 A CN201580021282 A CN 201580021282A CN 106460044 B CN106460044 B CN 106460044B
Authority
CN
China
Prior art keywords
sequence
nucleotides
nucleotide
predicted
reaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580021282.6A
Other languages
English (en)
Other versions
CN106460044A (zh
Inventor
丹尼尔·莫利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DNAE Group Holdings Ltd
Original Assignee
DNAE Group Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1407334.0A external-priority patent/GB201407334D0/en
Priority claimed from GB201503465A external-priority patent/GB201503465D0/en
Application filed by DNAE Group Holdings Ltd filed Critical DNAE Group Holdings Ltd
Publication of CN106460044A publication Critical patent/CN106460044A/zh
Application granted granted Critical
Publication of CN106460044B publication Critical patent/CN106460044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

描述了用于通过借助合成测序来对多核苷酸链进行测序的方法,所述方法包括选择核苷酸的预定顺序以提供测序反应,选择所述顺序以与所述多核苷酸链的预测序列相关联;监测所述反应以检测核苷酸向合成的多核苷酸链中的掺入;其中在检测到核苷酸掺入的情况下,接下来以所述预定顺序提供下一个核苷酸。在未检测到核苷酸掺入的情况下,可以修订所述多核苷酸链的所述预测序列并且选择核苷酸的新的预定顺序,其中选择所述新的预定顺序以与所述修订的预测序列相关联。以这种方式,测序反应提供反馈以修改所提供的核苷酸的顺序,从而提高测序反应的效率。

Description

测序方法
发明领域
本发明涉及用于使用借助合成方法的测序来对多核苷酸链进行测序的方法;并且具体涉及具有改善或优化的核苷酸流的顺序的方法。本发明的方面涉及用于改善或优化通过合成方法的测序中核苷酸流的顺序的方法。
发明背景
借助合成方法测序通常在下一代测序(NGS)技术中使用。与靶多核苷酸片段互补的核苷酸链通过借助聚合酶的核苷酸(例如dNTP)掺入延伸,并且检测掺入;例如,在聚合期间通过荧光或通过检测释放的氢离子。后一种技术用于离子半导体测序方法。给定的dNTP向链中的掺入意指在模板链的所述位置存在互补的核苷酸。
在一些技术中,为不同的核苷酸提供不同的可检测标记,以使得可以确定所掺入的具体核苷酸。然而,备选方法仅是每次将一种单独类型的核苷酸加入至聚合酶反应中;如果检测到核苷酸的掺入,则模板链中的互补核苷酸是已知的。通常,测序反应将会通过所有四种核苷酸按顺序循环进行,并且在测序的持续时间内将此重复。然而,这对该过程施加了时间限制,因为需要按顺序重复循环多次以获得序列,并且取决于模板链中核苷酸的顺序,可能需要多至四种核苷酸流以对单个碱基获得信息。
然而,对于许多借助合成技术测序的应用来说,模板的预期序列是已知的,或者至少部分是已知的。例如,可以分析患者样品的疑似病原体的存在,由此检测针对给定病原体为诊断性的序列。在这个实例中,待检测的序列是已知的。备选地,例如,可以检测某些基因序列中的变体从而确定存在或不存在给定的多态性或突变。在这里,再一次地,序列的至少一部分是已知的。在借助合成测序的某些应用中,通过连接或另外掺入测序引物可以与其结合的已知序列的适体(adapter),制备用于测序的多核苷酸片段。测序反应的至少该部分可以受益于对待测序区域的了解。
US2014/0031238描述了备选的核苷酸流排序的用途,其不仅仅是所有四种核苷酸的连续重复。据称这种备选的排序解决了由不完全延伸引起的相位同步的丧失的潜在问题。未表明可以通过利用已知序列的存在来修饰核苷酸流的顺序。
将会有益的是提供其中核苷酸流的顺序可以得到改善或优化的借助合成方法的测序。在某些实施方案中,这利用待检测的序列的先验(priori)知识而获得。在其他实施方案中,可以选择可能的候选序列,并且基于存在某些序列的可能性确定核苷酸流。在又一个实施方案中,可以在借助合成的测序期间使用反馈机制修改核苷酸流。
发明概述
根据本发明的第一方面,提供一种用于通过借助合成测序来对多核苷酸链进行测序的方法,所述方法包括下列步骤:
a)在反应中提供待测序的多核苷酸链、引物、和聚合酶;
b)以预定顺序向反应提供核苷酸,其中选择所述预定顺序以与所述多核苷酸链的预测序列相关联;
c)监测所述反应以检测核苷酸向合成的多核苷酸链中的掺入;
其中在检测到核苷酸掺入的情况下,接下来以所述预定顺序提供下一个核苷酸。
所述方法还可以包括,其中,在未检测到核苷酸掺入的情况下,修订所述多核苷酸链的所述预测序列并且选择核苷酸的新的预定顺序,其中选择所述新的预定顺序以与所述修订的预测序列相关联。
作为修订预测序列和继续合成的备选方案,可以简单地将反应停止。在使用测序确定特定预测序列的存在的情况下(因此如果其不存在,可以将反应停止),或者在已经检测到多种可能的候选预测序列的情况下,这可能会是理想的。停止反应的再一个备选方案将会是选择代表所有四种核苷酸的多个循环(例如,重复的A、C、G、T)的核苷酸的新的预定顺序。在已经检测到可能的候选预测序列的情况下,这可能会是有益的,并且实际序列仍然是未知的;因此可以将测序恢复为四种核苷酸的简单重复循环。
因此,在本方法中,基于对待测序的多核苷酸的了解选择将核苷酸提供至反应的顺序。如果预测序列是正确的,则在每次提供核苷酸时将会发生核苷酸合成(允许合成错误,并且假定预定顺序与预测序列完全互补)。核苷酸掺入的检测确认预测序列是正确的,并且提供下一个核苷酸。如果未检测到核苷酸掺入,则(再一次地,允许合成错误)预测的核苷酸序列是不正确的。之后可以修订预测序列以考虑误差,并且相应地修改核苷酸的顺序。
本方法因此是适应性的,原因在于,其利用来自合成反应的反馈从而告知并且修改提供核苷酸的顺序。这允许核苷酸掺入的预期比率从1比4(其中,在每4个核苷酸流中,仅有一个是正确的)上升至更高;多至1比1,其中完美地预测了序列——尽管在实践中较低。这不仅可以减少进行测序操作所需的时间,而且还可以减少所需的试剂的量。
核苷酸优选是dNTP;更优选提供四种不同的dNTP(A、C、G、T)。
术语“选择以......相关联”优选意指核苷酸的顺序匹配与所述预测多核苷酸序列互补的序列的顺序。“互补”优选意指“完全互补”,尽管可以存在使用稍微小于100%互补的情况。
可以基于先验信息预测所述预测的多核苷酸序列。例如,可以基于对可能检测到的序列的了解来预测序列。例如,在疑似患者患有细菌或其他感染的临床环境中,临床情况如症状、近期病历、或任何其他患者详情的了解可以使某些特定感染比其他感染更有可能。可以基于该信息确定预测的序列。例如,如果疑似患者患有MRSA感染,则可以选择预测序列以诊断MRSA感染。可以考虑多种不同感染是可能的,但是具有不同的概率。因此,所述方法可以包括下列步骤:确定多个预测序列的最初相关可能性,和在所述多个预测序列中选择最可能的最初预测序列。所述方法还可以包括下列步骤:当修订所述预测序列时,选择所述多个预测序列中下一个最可能的作为所述修订的预测序列。以这种方式,可以考虑多种可能性并且确认或拒绝。
备选地,或此外,预测序列可以基于已知的目标序列。例如,如果进行测定以检测存在或不存在特定生物,则可以使用诊断该生物的多核苷酸序列作为预测的序列。这还可以延伸至涵盖一系列不同生物——例如,16S和23S核糖体基因可以诊断许多不同生物,并且可以使用一个或另一个或二者作为最初预测序列。这可以与其中首先选择最可能的序列的之前实施方案组合,并且之后在未检测到核苷酸掺入的情况下将其修订为下一个最可能的预测序列。可以使用许多其他诊断序列;例如,癌基因、细菌毒素。
在某些实施方案中,监测所述反应以检测核苷酸的掺入的步骤还可以包括,在检测到掺入的情况下,将代表所述核苷酸的数据加入至代表所述待测序的多核苷酸的记录的序列数据中。代表核苷酸的数据可以代表该核苷酸的互补体。这允许在测序进行时记录序列信息。在未检测到核苷酸掺入的情况下,也可以将代表从序列中不存在该核苷酸(或其互补体)的数据加入至记录的序列数据中。
修订预测序列数据的步骤可以包括将记录的序列数据(在相关的情况下,包括不存在给定核苷酸的信息)与在数据库中储存的多核苷酸序列数据进行比较,和从匹配所述记录的序列数据的数据库中选择最可能的候选序列作为修订的预测序列。数据库可以是远程数据库;例如,可以经由计算机网络如互联网访问;其可以是可公开获取的(例如GenBank序列数据库)。备选地,数据库可以是本地数据库;例如,储存在本地计算机存储器或本地数据储存设备中。数据库可以代表序列信息的有限子集,如仅被认为可能是目标的那些序列。例如,数据库可以仅包括来自常见病原的16S和23S序列数据;有限数据库的使用可以减少将记录的序列数据与数据库中的序列进行比较所花费的时间。
所述方法在步骤(b)之前还可以包括同时向所述反应提供多种不同的核苷酸。多个不同的核苷酸可以缺少四种核苷酸中的一种或两种。这允许多核苷酸序列区域的快速延伸,直到遇到缺失的核苷酸。在序列区域已知的情况下,所述方法的这个方面可以是有用的,但是对于测序目的来说不认为是提供信息的或令人感兴趣的;可以选择一种或多种缺失的核苷酸以允许序列延伸至、或接近目标区域。以这种方式,可以迅速绕开非目标区域。非目标的已知序列的区域可以包括,例如,适体序列、或基因的高度保守的区域。可以基于非目标的已知区域选择要提供的多个不同核苷酸,从而确保快速合成在达到目标区域之前终止。可以使用提供多种不同的核苷酸的多个轮次。
所述方法可以用于要对单个多核苷酸序列进行测序的情况;或要对多个不同多核苷酸序列进行测序的情况。在后一种情况中,可以选择核苷酸的预定顺序以与多个不同多核苷酸序列中的两个以上、优选全部的预测序列相关联。优选地,选择核苷酸的顺序以允许所述两个以上不同的多核苷酸序列中的每一个的有效测序。“有效”可以定义为,与在其中全部四种碱基以重复方式循环的顺序(例如重复的A、C、G、T)相比,提供所掺入的碱基与在考虑中的全部序列中提供的核苷酸的改善比率的核苷酸的顺序。例如,可以比较不同的序列并且确定共有序列;核苷酸的顺序可以与共有序列(或其互补体)对应。可以使用其他确定核苷酸的顺序的方法。所述顺序不需要提供最有效的测序,因为出于其他实际原因,最有效的顺序可能会是不可能的。还在本文中还使用术语“优化的”以指代提供有效测序的序列;再一次地,“优化的”并不意味着序列提供最有效的测序。因此,一些序列可能比其他序列更优化。
本发明的另一个方面提供一种用于优化借助合成反应的测序中提供的核苷酸的顺序的方法,所述方法包括下列步骤:
a)确定待测序的多核苷酸的预测序列;和
b)确定要提供至测序反应的核苷酸的预定顺序,其中选择所述预定顺序以与所述多核苷酸链的预测序列相关联。
所述方法还可以包括下列步骤:
c)通过将核苷酸提供至包含所述待测序的多核苷酸的测序反应,确定所述多核苷酸链的实际序列;
d)将所述预测序列与所述实际序列进行比较;和
e)在所述预测序列与所述实际序列不同的情况下,基于所述实际序列修订所述多核苷酸链的所述预测序列并且选择核苷酸的新的预定顺序,其中选择所述新的预定顺序以与所述修订的预测序列相关联。
本发明的这个方面的其他特征与上述第一方面相同。
本发明的再一个方面提供一种用于通过借助合成测序来对多核苷酸链进行测序的方法,所述方法包括下列步骤:
a)在反应中提供待测序的多核苷酸链、引物、和聚合酶;
b)向所述反应同时提供多种不同的核苷酸,其中所述多种不同的核苷酸缺少四种核苷酸A、C、G、T中的至少一种;
c)随后以预定顺序向反应提供核苷酸,其中选择所述预定顺序以与所述多核苷酸链的预测序列相关联;和
d)监测所述反应以检测所述预定顺序的所述核苷酸向合成的多核苷酸链中的掺入。
所述方法还可以包括下列步骤:
e)在检测到核苷酸掺入的情况下,接下来以所述预定顺序提供下一个核苷酸;或
f)在未检测到核苷酸掺入的情况下,修订所述多核苷酸链的所述预测序列并且选择核苷酸的新的预定顺序,其中选择所述新的预定顺序以与所述修订的预测序列相关联。
在某些实施方案中,监测所述反应以检测核苷酸的掺入的步骤还可以包括,在检测到掺入的情况下,将代表所述核苷酸的数据加入至代表所述待测序的多核苷酸的记录的序列数据中。代表所述核苷酸的数据可以代表核苷酸的互补体。这允许在测序进行时记录序列信息。在未检测到核苷酸掺入的情况下,也可以将代表从序列中不存在核苷酸(或其互补体)的数据加入至记录的序列数据中。
修订预测序列数据的步骤可以包括将记录的序列数据(在相关的情况下,包括不存在给定核苷酸的信息)与在数据库中储存的多核苷酸序列数据进行比较,和从匹配所述记录的序列数据的所述数据库中选择最可能的候选序列作为修订的预测序列。数据库可以是远程数据库;例如,可以经由计算机网络如互联网访问;其可以是可公开获取的(例如GenBank序列数据库)。备选地,数据库可以是本地数据库;例如,储存在本地计算机存储器或本地数据储存设备中。数据库可以代表序列信息的有限子集,如仅被认为可能是目标的那些序列。例如,数据库可以仅包括来自常见病原的16S和23S序列数据;有限数据库的使用可以减少将记录的序列数据与数据库中的序列数据比较所花费的时间。
本发明的又一个方面提供一种用于通过借助合成测序来对多核苷酸链进行测序的方法,所述方法包括下列步骤:
a)在反应中提供多个不同的待测序的多核苷酸链、一个或多个引物、和聚合酶;
b)以预定顺序向反应提供核苷酸,其中选择所述预定顺序以与所述多个不同的多核苷酸链的预测序列相关联;和
c)监测所述反应以检测所述预定顺序的所述核苷酸向合成的多核苷酸链中的掺入;
其中选择核苷酸的所述预定顺序以允许所述多个不同的多核苷酸序列中的每一个的有效测序。
“有效”可以定义为,与在其中全部四种碱基简单循环的顺序(例如重复的A、C、G、T)相比,提供所掺入的碱基与在考虑中的全部序列中提供的核苷酸的改善比率的核苷酸的顺序。例如,可以比较不同的序列并且确定共有序列;核苷酸的顺序可以与共有序列(或其互补体)对应。可以使用其他确定核苷酸的顺序的方法。所述顺序不需要提供最有效的测序,因为出于其他实际原因,最有效的顺序可能会是不可能的。
发明详述
本发明涉及通过改变核苷酸递送的顺序来减少确定特定多核苷酸样品的核苷酸序列所花费的时间。通常,在借助合成方法的测序中,以固定顺序(例如,A、C、G、T)将核苷酸单独提供至测序反应;如果存在要加入至合成的链中的下一个核苷酸,则链将会延伸,并且检测延伸。从反应中洗涤未使用的核苷酸,并且加入序列中的下一个核苷酸。使用ISFET传感器对DNA进行测序通常包括核苷酸(T、G、C、A)在芯片上的连续流动。如果横跨芯片流动的特定核苷酸在模板链上发现其互补核苷酸,则氢离子被释放并且作为以mV表示的改变而被ISFET传感器检测。通常,每个单独的传感器检测从DNA模板的克隆群体中释放的氢离子,所述克隆群体可以通过克隆扩增技术如emPCR产生,并且固定在孔内的珠上。每个克隆群体可以含有数百万个相同的DNA拷贝。
在文献中报道,当使用标准的4-核苷酸循环时,随机DNA序列每个循环将会延伸大约2.4个碱基。这是因为不是每个核苷酸流都在模板链上具有相应的互补碱基,结果是大约40%的流返回零或0聚体结果。
发明人在本文中描述了许多可以用于优化递送至生长链的核苷酸的顺序的方法,并且因此减少了对样品进行测序所花费的时间。方法在本文中单独描述,但是应该理解的是,一个或多个可以组合使用。本发明意在减少对特定目标样品进行测序所花费的时间。序列可以允许在较短时间内读取某一长度的序列,或者允许在相同时间段内较长的读取长度。所有方法共享共有特征:基于对待测序样品的一些了解事先确定要提供至反应的核苷酸的顺序。在某些方法中,目前可以在测序期间基于测序结果修改核苷酸的顺序。考虑到各种临床因素,可以基于概率算法将核苷酸的顺序选择为先验。
在预测正确序列的情况中,通过调整核苷酸流以匹配预测序列,每个流动事件的效率增加至高达100%。
在本发明的一个实例中,目标样品可以是靶序列,其中可以做出关于样品匹配某序列的概率的假设。例如,在可以将其他患者数据提供给系统以确定某些传染原可能存在的临床环境中。在另一个实例中,取决于关于已经确定的DNA序列的反馈,可以在整个检测过程中智能地确定和升级向芯片的核苷酸递送的序列。
与从头或极高通量DNA测序相比,本发明考虑了当样品靶向至特定的基因区域时的特定相关性。可以针对样品序列匹配已知参照序列的概率做出假设。
对于靶向测序应用来说,存在通过减少进行检测所花费的时间来提高性能的余地。归因于靶向序列可以是已知的或者可以在某种程度上预测的事实,可以调节核苷酸流动形式以增加检测的通量和效率。如在本文中讨论的,确定了在其中可以应用这个概念的四种主要方式:
1.预测性核苷酸流
2.适应性核苷酸流
3.多核苷酸流
4.多个模板的优化流
如以下给出的,可以以多种方式实施本发明。
1)预测性序列流
在可能在对处于询问中的特定样品进行检测之前做出概率评估的情况中。这可以包括样品的“未知”区域和“已知”区域(如用于预扩增或文库制备的引物序列)二者。概率评估可以包括从各种其他来源获得的进一步的临床患者数据,其之后被输入至测序仪器中。可以由医师简单地进行概率评估(例如,在回顾患者的病史和症状之后,它们推断感染最可能是细菌#1,但是存在感染是细菌#2、或细菌#3的较小的可能性)。备选地,概率评估可以利用用于确定各种感染的相关可能性(relative likelihood)的专家系统或相似的自动化工具。
专家系统可以根据在测序仪器上进行的概率评估(或者实际上作为单独的系统,例如,执行适合的计算机程序的计算机系统)而执行以鉴别对于给定患者来说“最可能的”传染原。
-由临床医师输入仪器的数据包括,例如,相关的患者病史(近期手术或创伤、近期感染、用药等)和本地医院数据(传染疾病概况、近期抗生素抗性爆发等)
-如以下表中(其仅是说明性的实例)的,算法基于输入的数据预测最可能的传染原。
-调节最初核苷酸流以完全匹配预测的传染原的核苷酸流。
传染原 感染概率
<u>细菌1</u> <u>50%</u>
细菌2 20%
细菌3 10%
细菌4 2%
细菌5 2%
细菌6 <1%
在备选方案中,医师可以检查患者和推断感染最可能由第一传染原导致,但是存在感染归因于第二或第三传染原的较小的可能性(即不使用专家系统或不直接分配定量概率)。在这种情况下,医师(或技术人员)可以将三种潜在传染原的清单直接输入至测序仪器中;仪器之后将会按顺序选取三种潜在传染原中的每一个作为预测的传染原,并且因此将最初核苷酸流调整为第一预测的传染原。
在大多数情况中,可以选择提供信息的基因用于测序(例如,来自细菌的核糖体基因),并且在最可能的预测的传染原中的该基因的序列用于确定最初核苷酸流的序列。
2)适应性序列流
依赖于来自测序仪器的实时反馈,并且相应地调整核苷酸的形式。这将会包括将输出数据引用(连续地,或在某些时间点)至数据库,并且基于已经产生的数据调整将来的核苷酸流形式。在关于处于询问中的序列已知较少或者最初预测的序列证明是不正确的情况下,这种方法是有用的。
适应性序列流基于来自仪器的实时反馈改变流形式。
实施例
如上所述进行最初概率评估,并且测序仪器确定核苷酸流的最初顺序,所述顺序被调节为“最可能的”传染原。如果预测序列不正确,则由仪器检测到无法使模板延伸,并且确定修订的预测序列并且使用其确定新的核苷酸流的顺序。
例如,最初评估提供以下概率:
传染原 感染概率
<u>细菌1</u> <u>50%</u>
细菌2 20%
细菌3 10%
细菌4 2%
细菌5 2%
细菌6 <1%
感染实际上是细菌#3。算法基于概率评估不正确地预测了细菌#1,并且仪器开始将核苷酸流调节为细菌#1序列。
-细菌#3:样品序列
GCACCTGTCTCAGAGTTCCCGAAGGCACCAAAGCATC
-基于细菌#1的流形式
CGTGGACAGAGTGC
在每个核苷酸在靶链上使模板延伸时,仪器记录代表每个核苷酸和靶和/或合成链的序列的数据。
在遇到第一错配的碱基时,仪器经由核苷酸进行循环以寻找正确的碱基:
-细菌#3:样品序列
GCACCTGTCTCAGAGTTCCCGAAGGCACCAAAGCATC
细菌#1 CGTGGACAGAGTGT
在这种情况下,核苷酸顺序预测C将会是序列中的下一个碱基,以匹配细菌#1序列。然而,C不使模板序列延伸;因此,仪器未检测到延伸事件,并且提供其余的核苷酸(A、G、T)以确定哪一个使模板延伸。在这种情况下,T使模板延伸。将该信息加入至合成序列的记录中。基于所获得的序列,仪器将目前获得的序列与下一个最可能的序列(在这种情况下,是细菌#2)进行比较,并且如果在这种情况下,下一个最可能的序列匹配目前的合成链,则下一个最可能的序列成为新的预测序列,并且修订核苷酸流顺序以对应于新的预测序列。仪器之后重新开始将核苷酸流调节为细菌#2:
-细菌#3:样品序列
GCACCTGTCTCAGAGTTCCCGAAGGCACCAAGCATC
-基于细菌#2的流形式
CGTGGACAGAGTGTCAAGGGCTTCCGTGGTTA
在遇到另一个错配(在这里,当将预测序列引导至A的流顺序时为G)时,仪器再次无法检测到延伸事件并且再次经由其余核苷酸进行循环以寻找正确的碱基插入:
-细菌#3:样品序列
GCACCTGTCTCAGAGTTCCCGAAGGCACCAAGCATC
CGTGGACAGAGTGTCAAGGGCTTCCGTGGTTC
基于所获得的序列和各种传染原的相关可能性,算法将预测序列修订为细菌#3的序列,并且重新开始将核苷酸流调节为细菌#3。
-细菌#3:样品序列
GCACCTGTCTCAGAGTTCCCGAAGGCACCAAAGCATC
-基于细菌#3的流形式
CGTGGACAGAGTCTCAAGGGCTTCCGTGGTTTCGTAG
当达到合成序列末端而没有进一步的错配时,做出感染是细菌#3的结论。仪器停止运行,并且显示表示检测到的感染的输出信息。
3)多核苷酸流
上述途径利用利用在每个流事件中每次提供一个单个核苷酸的方法。当其是测序的目标区域时这是优选的,因为它允许将检测的序列与预测序列进行比较,并且如果需要,修订预测序列。然而,在许多情况下,将会存在需要在可以对目标区域测序之前测序的至少一些非目标区域;例如,可以在待分析的样品中包含用于制备用于测序的样品的引物或适体,并且对于目标区域的确定来说,这些区域不提供信息。备选地,基因中高度保守的区域可能不被认为是目标的,因为它们不允许使用者在备选序列之间进行区分。通过在特定流事件中结合2或3个核苷酸,可以“快速前进(fast-track)”通过已知序列的区域。例如,可以使已知引物序列以非常小的数量的流延伸,而不使“未知”的目标序列延伸。这可以用于使高度保守的区域延伸,例如在细菌16S和23S rRNA基因中,或在人癌基因的罕见突变区域中。
-如上,可以进行“概率评估”以将传染原按可能性顺序排名,并且确定核苷酸的顺序以匹配“最可能的”传染原的序列。基于该序列开始核苷酸流。
-例如,序列的最初部分可以是在细菌之间保守的
-细菌4 CACCTGTCACTCTACTAACGTATGGCTACCCT
-细菌5 CACCTGTCCGAATGAGTATCTTATTACCATTG
-细菌6 CACCTGTCATACGACGCATACGGTTCGAAACA
-在这种情况下,可以通过混合2钟以上核苷酸来“快速前进”通过保守区域,而不是使单独的核苷酸流动以对最初的不提供信息的CACCTGTC部分进行测序。这可以使用混合核苷酸的专用试剂储库(reservior)完成,或者通过“在传输过程中(on-the-fly)”混合核苷酸完成。
-在标准核苷酸命名中:
·“C和A”可以由“M”表示(对于含有氨基(aMion)的核苷酸来说)
·“T和G”可以由“K”表示(对于含有酮基(Keto)的核苷酸来说)
-在这个实例中,M接着K的最初流将会在保守区域中延伸7个碱基:
-细菌4 CACCTGTCACTCTACTAACGTATGGCTACCCT
-细菌5 CACCTGTCCGAATGAGTATCTTATTACCATTG
-细菌6 CACCTGTCATACGACGCATACGGTTCGAAACA
-多核苷酸流M>>>K>>
-尽管仪器将会检测到已经发生了延伸事件,哪个核苷酸使序列延伸将不会是明显的。然而,对于这个保守区域来说,这不是令人担忧的。在一些实施方案中,可以一起提供三种核苷酸;例如,提供A、C、和T的混合物将会使CACCT的最初序列延伸,并且在随后的G停止。在这个最初序列“快速前进”通过已知的保守区域之后,可以将核苷酸的顺序恢复为如以上所讨论的预测性或适应性序列,以继续测序检测。
4)多个序列的优化流
在许多应用中,将会存在>1个需要测序的序列。在这种情况下,可以创建算法以确定用于对全部模板进行序列的最有效的核苷酸流形式。实际上,模拟显示,当根据以下所述的基本算法优化流形式时,可以使对三个50bp靶模板进行测序所需的核苷酸流的数量降低多至28%。
-如上,可以进行“概率评估”以将传染原按可能性顺序排名,并且确定核苷酸的顺序以匹配“最可能的”传染原的序列。基于该序列使核苷酸流开始。
-存在具有>1个处于询问中的序列的情况。例如,在肿瘤应用中,可能存在许多待测序的癌基因。
-对于血流感染来说,如果需要检测以提供详细鉴别,甚至在单一生物内,也可以存在>1个处于询问中的基因组区域。
-以下序列代表可能需要同时测序的多个序列
·序列1
ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
·序列2
CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
·序列3
ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
·使用T、G、C、A循环流形式需要100个流事件以对全部三个靶标进行测序。
·最佳流形式在72个流事件中对全部模板进行测序:
-ACTGACTGACGTACGTATCGACTAGTCAGTACAGTGACTGACTACGTACTGATCGATCGATCGTCGATCGAT-
-流持续时间降低28%
-可以将最佳形式确定为使流事件数量最小化的形式以对全部目标模板进行测序。可以使用备选定义。
-在这种情况中,序列不彼此类似或共享显著同源性的区域。然而,可以确定在最短的可能时间内完成全部序列的延伸的非循环核苷酸流形式。
-与这个方面结合使用的预测性和适应性算法将会进一步优化检测并且减少持续时间。
以下给出了多个靶区域,以及对全部靶标进行测序所需的循环的降低的另一个实例:
代表性的靶序列:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
使用全部四种核苷酸的简单循环,这些中的每一种将会分别选取84、72、和100个核苷酸以完全测序。使用优化的序列,ACTGACTGACGTACGTATCGACTAGTCAGTACAGTGACTGACTACGTACTGATCGATCGATCGTCGATCGAT,可以在72个核苷酸中完成全部靶序列的测序。
如下给出优化过程的实例。注意,这仅是一个实例;可以使用其他算法,并且可能的是,这样的其他算法将会提供更大的优化程度。
简而言之,算法观察每个DNA链中下一个待测序的碱基,并且选择最可能出现的碱基。如果存在两个以上相同可能出现的碱基,其选择已经等待流动时间最长的碱基。
作为用于描述算法的起点,假定我们希望对我们确信含有以下DNA序列中的一个的样品进行序列:
序列1:
ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
序列2:
CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
序列3:
ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
对于每个序列来说,算法维持朝向下一个待测序的碱基的指针(pointer)。在以下详情中,这些指针被表示为每个序列下方的箭头。以下部分示出了算法的前十个步骤以说明其是如何工作的。
流步骤1
在第一核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
^
在这种情况中,序列中的两个是A并且一个是C。因此,要流动的第一核苷酸将会是A,因为这更有可能得到延伸。
流步骤2
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况下,核苷酸中的两个是C并且一个是T。算法选择C,因为这最有可能得到延伸。
流步骤3
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况下,核苷酸中的两个是T并且一个是G。算法选择T,因为这最有可能得到延伸。
流步骤4
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况下,三个核苷酸C、G、和A都是相同可能的。等待最长的核苷酸是G,并且因此将其选择为序列中的下一个核苷酸。
流步骤5
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况中,核苷酸A是最可能的,因此选择它。
流步骤6
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^在这种情况中,核苷酸C是最可能的,因此我们选择它。
流步骤7
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况中,核苷酸T是最可能的,因此我们选择它。
流步骤8
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况中,核苷酸G是最可能的,因此我们选择它。
流步骤9
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况下,所有序列都需要核苷酸A,因此我们选择它。
流步骤10
在这个核苷酸流之前,每个序列中的当前位置如下所示:
序列1 ACTCTACTAACGTATGGCTACCCTTAGTGGGGATGCTACCTAAAACCCTTC
-^
序列2 CGAATGAGTATCTTATTACCATTTTGCAGTCCAATGTTTTAATTGTGTTGT
-^
序列3 ATACGACGCATACGGTTCGAAACAAGAACGTACAATGTACGGAACTCGACA
-^
在这种情况中,核苷酸C是最可能的,因此选择它。
在许多应用中,将会有益的是组合以上实施方法中的若干个。例如,在血流感染工具中,概率算法可以预测最可能的传染原。通过预测多个16S扩增子的序列,可以确定优化的流形式。在检测期间,如果预测的传染原结果是不正确的,智能的适应性流可以基于修订的概率算法调节最佳核苷酸流形式。
考虑到对确定多个靶序列的最佳流序列的限制,本发明的各个方面可能主要适用于其中可能存在仅一个或少量的序列的情况。
Figure IPA0000230781930000011
Figure IPA0000230781930000021
Figure IPA0000230781930000031
Figure IPA0000230781930000041
Figure IPA0000230781930000051

Claims (15)

1.一种用于通过借助合成测序来对多核苷酸链进行测序的方法,所述方法包括下列步骤:
a)在反应中提供待测序的多核苷酸链、引物、和聚合酶;
b)以预定顺序向反应提供核苷酸,其中选择所述预定顺序以与所述多核苷酸链的预测序列相关联;
c)监测所述反应以检测核苷酸向合成的多核苷酸链中的掺入;
其中在检测到核苷酸掺入的情况下,接下来以所述预定顺序提供下一个核苷酸;和
其中在未检测到核苷酸掺入的情况下,进行选自以下各项组成的组的步骤:修订所述多核苷酸链的所述预测序列以选择核苷酸的新的预定顺序,其中选择所述新的预定顺序以与所述修订的预测序列相关联,或选择核苷酸的新的预定顺序,其代表全部四种核苷酸的多个循环,或停止所述反应。
2.权利要求1所述的方法,其中核苷酸的顺序匹配与所述预测多核苷酸序列互补的序列的顺序。
3.权利要求1所述的方法,其中基于先验信息预测所述预测的多核苷酸序列。
4.权利要求1所述的方法,所述方法包括下列步骤:确定多个预测序列的最初相关可能性,和在所述多个预测序列中选择最可能的最初预测序列。
5.权利要求4所述的方法,所述方法还包括下列步骤:当修订所述预测序列时,选择所述多个预测序列中下一个最可能的作为所述修订的预测序列。
6.权利要求1所述的方法,其中所述预测序列基于已知的目标序列。
7.权利要求1所述的方法,其中监测所述反应以检测核苷酸的掺入的步骤还包括,在检测到掺入的情况下,将代表所述核苷酸的数据加入至代表所述待测序的多核苷酸的记录的序列数据中。
8.权利要求1所述的方法,其中监测所述反应以检测核苷酸的掺入的步骤还包括,在未检测到核苷酸掺入的情况下,将代表不存在所述核苷酸的数据加入至代表所述待测序的多核苷酸的记录的序列数据中。
9.权利要求8所述的方法,其中修订所述多核苷酸链的所述预测序列的步骤包括将所述记录的序列数据与在数据库中储存的多核苷酸序列数据进行比较,和从匹配所述记录的序列数据的所述数据库中选择最可能的候选序列作为修订的预测序列。
10.权利要求1所述的方法,所述方法还包括在步骤(b)之前同时向所述反应提供多种不同的核苷酸。
11.权利要求10所述的方法,其中所述多种不同的核苷酸缺少四种核苷酸A、G、C、T中的一种或两种。
12.权利要求10所述的方法,其中使用提供多种不同的核苷酸多个轮次。
13.权利要求1所述的方法,其中选择核苷酸的所述预定顺序以与两个以上待测序的不同多核苷酸的预测序列相关联。
14.权利要求13所述的方法,其中选择核苷酸的顺序以允许所述两个以上不同的多核苷酸序列中的每一个的有效测序。
15.一种用于通过借助合成测序来对多核苷酸链进行测序的方法,所述方法包括下列步骤:
a)在反应中提供待测序的多核苷酸链、引物、和聚合酶;
b)向所述反应同时提供多种不同的核苷酸,其中所述多种不同的核苷酸缺少四种核苷酸A、C、G、T中的至少一种;
c)随后以预定顺序向反应提供核苷酸,其中选择所述预定顺序以与所述多核苷酸链的预测序列相关联;和
d)监测所述反应以检测所述预定顺序的所述核苷酸向合成的多核苷酸链中的掺入;和
e)在检测到核苷酸掺入的情况下,接下来以所述预定顺序提供下一个核苷酸;和
f)在未检测到核苷酸掺入的情况下,进行选自以下各项组成的组的步骤:修订所述多核苷酸链的所述预测序列以选择核苷酸的新的预定顺序,其中选择所述新的预定顺序以与所述修订的预测序列相关联,或选择代表全部四种核苷酸的多个循环的核苷酸的新的预定顺序,或停止所述反应。
CN201580021282.6A 2014-04-25 2015-04-27 测序方法 Active CN106460044B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1407334.0 2014-04-25
GBGB1407334.0A GB201407334D0 (en) 2014-04-25 2014-04-25 Integrated nucleic acid test system, instrument and method
GB1503465.5 2015-03-02
GB201503465A GB201503465D0 (en) 2015-03-02 2015-03-02 Sequencing methods
PCT/GB2015/051215 WO2015162438A1 (en) 2014-04-25 2015-04-27 Sequencing methods

Publications (2)

Publication Number Publication Date
CN106460044A CN106460044A (zh) 2017-02-22
CN106460044B true CN106460044B (zh) 2021-03-19

Family

ID=53015832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580021282.6A Active CN106460044B (zh) 2014-04-25 2015-04-27 测序方法

Country Status (6)

Country Link
US (1) US10323275B2 (zh)
EP (1) EP3134542B1 (zh)
JP (1) JP6590831B2 (zh)
CN (1) CN106460044B (zh)
ES (1) ES2813825T3 (zh)
WO (1) WO2015162438A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011156707A2 (en) * 2010-06-11 2011-12-15 Life Technologies Corporation Alternative nucleotide flows in sequencing-by-synthesis methods
CN103764845A (zh) * 2011-04-08 2014-04-30 生命科技股份有限公司 用于合成测序中的相保护试剂流排序
CN104245958A (zh) * 2012-02-20 2014-12-24 斯比戴克斯私人有限公司 核酸的检测

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009011230A (ja) * 2007-07-04 2009-01-22 Hitachi High-Technologies Corp ヌクレオチド制限伸長を利用した塩基配列解析法
US8901043B2 (en) * 2011-07-06 2014-12-02 Advanced Liquid Logic, Inc. Systems for and methods of hybrid pyrosequencing
US10192024B2 (en) * 2012-05-18 2019-01-29 454 Life Sciences Corporation System and method for generation and use of optimal nucleotide flow orders
US8971089B2 (en) 2012-06-27 2015-03-03 Intel Corporation Low power phase change memory cell
US20140296080A1 (en) * 2013-03-14 2014-10-02 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011156707A2 (en) * 2010-06-11 2011-12-15 Life Technologies Corporation Alternative nucleotide flows in sequencing-by-synthesis methods
CN103764845A (zh) * 2011-04-08 2014-04-30 生命科技股份有限公司 用于合成测序中的相保护试剂流排序
CN104245958A (zh) * 2012-02-20 2014-12-24 斯比戴克斯私人有限公司 核酸的检测

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Single-nucleotide polymorphism analysis by pyrosequencing;afshin ahmadian et.al;<Analytical biochemistry >;20000101;摘要,第103页第2列,图1,第107页第1列,和108页第2列 *

Also Published As

Publication number Publication date
JP2017513492A (ja) 2017-06-01
JP6590831B2 (ja) 2019-10-16
US20170044604A1 (en) 2017-02-16
CN106460044A (zh) 2017-02-22
WO2015162438A1 (en) 2015-10-29
ES2813825T3 (es) 2021-03-25
EP3134542A1 (en) 2017-03-01
US10323275B2 (en) 2019-06-18
EP3134542B1 (en) 2020-06-03

Similar Documents

Publication Publication Date Title
US20210173842A1 (en) Systems and Methods for Annotating Biomolecule Data
CN106062214B (zh) 用于检测遗传变异的方法和系统
US8084598B1 (en) Bioionformality detectable group of novel regulatory oligonucleotides and uses thereof
CN107531528B (zh) 预测规则生成系统、预测系统、预测规则生成方法和预测方法
JP7373047B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
EP2923293B1 (en) Efficient comparison of polynucleotide sequences
US20070031843A1 (en) Bioinformatically detectable group of novel regulatory bacterial and bacterial associated oligonucleotides and uses thereof
CN111051529A (zh) 用于与生物靶相关的表征的同源基因组区域
CA3128894A1 (en) Compositions, methods, and systems to detect hematopoietic stem cell transplantation status
EP3378001A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Röttger et al. How little do we actually know? On the size of gene regulatory networks
KR20230141873A (ko) 시퀀싱 공정
US20150100242A1 (en) Method, kit and array for biomarker validation and clinical use
CN110021365B (zh) 确定检测靶点的方法、装置、计算机设备和存储介质
CA3173571A1 (en) Compositions, methods, and systems for paternity determination
CN106460044B (zh) 测序方法
CN115176032A (zh) 用于评估微生物群体的组合物和方法
US20210118527A1 (en) Using Machine Learning to Optimize Assays for Single Cell Targeted DNA Sequencing
WO2021192395A1 (ja) 塩基のメチル化度の算出方法及びプログラム
Perraudeau et al. Accurate Determination of Bacterial Abundances in Human Metagenomes Using Full-length 16S Sequencing Reads
Roy A new algorithm for primer design
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
Yang et al. Machine learning-optimized targeted detection of alternative splicing
Prášilová Tools for microbial community analysis using high-throughput amplicon sequencing data
Guha Roy A new algorithm for primer design

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant