CN107002130B - 多程测序 - Google Patents

多程测序 Download PDF

Info

Publication number
CN107002130B
CN107002130B CN201580061261.7A CN201580061261A CN107002130B CN 107002130 B CN107002130 B CN 107002130B CN 201580061261 A CN201580061261 A CN 201580061261A CN 107002130 B CN107002130 B CN 107002130B
Authority
CN
China
Prior art keywords
sequence
target sequence
concatemer
target
copies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580061261.7A
Other languages
English (en)
Other versions
CN107002130A (zh
Inventor
Y·汤姆·唐
于竞
蒋慧
章文蔚
范广意
张和
麻凯龙
耿春雨
李汉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN107002130A publication Critical patent/CN107002130A/zh
Application granted granted Critical
Publication of CN107002130B publication Critical patent/CN107002130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • G01N27/44756Apparatus specially adapted therefor
    • G01N27/44791Microapparatus
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores

Abstract

提供了改进的单分子测序方法、组合物和装置。在第一方面,本发明提供使用纳米孔测序对靶序列进行测序的多程方法,所述方法包括:i)提供包含所述靶序列的多个拷贝的非天然存在的多联体核酸分子;ii)对所述多联体中的所述靶序列的至少三个拷贝进行纳米孔测序,由此获得多程序列数据集,其中所述多程序列数据集包含所述靶序列的所述至少三个拷贝的靶序列数据集;以及iii)使用所述多程序列数据集来确定所述靶序列。

Description

多程测序
相关申请的交叉引用
本申请要求2014年11月11日提交的美国临时申请No.62/078,306的权益和优先权,其全部内容通过引用并入本文用于所有目的。
背景技术
单分子测序(SMS)方法,例如纳米孔测序,具有优于其他下一代测序方法的一些优点。特别地,SMS是快速的并且产生长的阅读长度。然而,常规的SMS方法的特征在于原始阅读中的高错误率。错误率可以表示为%错误,对应于每100个调用碱基的错误数。替代地,错误率可以表示为“Q”值。可以使用以下公式计算“Q”:-10×log10(P),其中P是错误碱基调用(base call)的概率。参见Ewing&Green,1998,GenomeRes.8:186-194。例如,Q10指的是1/10的误差概率,或90%的精确度,而Q30是指1/1000的误差概率,或99.9%的精确度。据报道,纳米孔测序提供了仅在Q5至Q7(约70-85%)范围内的碱基调用精确度。其他SMS方法(例如,零模式波导测序;SMRT Pacific Biosciences)也具有高的错误率。
纳米孔和使用纳米孔测序的方法是本领域已知的。参见例如Clarke等人,2009,“Continuous base identification for single-molecule Nanoore DNA sequencing”,Nature Nanotechnology 4:265-70;Riehnet等人,2007,“Nanochannels for Genomic DNAAnalysis:The Long and the Short of It”,in Integrated Biochipsfor DNAAnalysis.Springer New York,151-186;Min et al.,2011,"Fast DNA sequencing witha graphene-based nanochannel device."Nature Nanotechnology 6.3:162-65;美国专利No.6,673,615;No.7,258,838;No.7,238,485;No.7,189,503;No.6,627,067;No.6,464,842;和No.6,267,872;美国专利申请公开2008/0248561,2008/0171316,and 2008/0102504;以及国际专利申请公开No.WO 2014/096830,其各自通过引用并入本文。最常见的是,当平移通过纳米孔时,针对一条单链DNA确定序列。双链多核苷酸的两条链可以通过在双链分子的一端引入发夹环并顺序地测序连接的有义链和反义链来测序(参见WO 2013/014451)。已经提出了对平移通过纳米孔的双链DNA进行测序(参见,Wendell等人,2009,“Translocation of double-stranded DNA through membrane-adapted phi29motorprotein nanopores”Nature Nanotechnology4:765-72)。在某些方法中RNA被测序。
常规的纳米孔测序是单程测序,即,含有靶序列的一个拷贝的单个分子一次平移通过纳米孔以产生“单程序列信息”。共享相同靶序列的不同多核苷酸(例如,基因组DNA片段)可以通过平移通过在多孔阵列中的分离的纳米孔以产生多个阅读进行测序。然后可以使用多个阅读来产生共有序列。已经提出了在两个方向上移动多核苷酸通过纳米孔的方法,使得单个分子的序列可以在两个方向上阅读(参见Cherf等人,2012,“AutomatedForward and Reverse Ratcheting of DNA in an Nanopore at FiveAngstrom Precision“Nat Biotechnol.30:344-48)。然而,目前还不清楚是否会导致错误减少,而且实际执行这样的系统似乎存在重大障碍。
因此,需要改进的测序方法。
发明内容
在第一方面,本发明提供了一种使用纳米孔测序对靶序列进行测序的多程方法,所述方法包括:i)提供包含所述靶序列的多个拷贝的非天然存在的多联体(concatemer)核酸分子;ii)对所述多联体中的所述靶序列的至少三个拷贝进行纳米孔测序,由此获得多程序列数据集,其中所述多程序列数据集包含所述靶序列的所述至少三个拷贝的靶序列数据集;以及iii)使用所述多程序列数据集来确定所述靶序列。
在一些实施方案中,所述靶序列的相邻拷贝通过具有预定序列的非靶同步序列分隔,并且所述纳米孔测序还包括测序至少三个或四个同步序列。在某些情况下,所有同步序列是相同的。在一些情况下,所述同步序列比所述靶序列短。在一些情况下,该方法包括使用所述同步序列来对齐(align)所述靶序列数据集。
在一些实施方案中,多程序列具有Q6、Q10、Q20、Q30、Q40或更高的精确度。在一些实施方案中,所述多联体包含所述靶序列的至少5个拷贝,任选至少8个拷贝。在一些实施方案中,所述多联体包括校准序列。在一些实施方案中,所述提供所述多联体包括使包含所述靶序列的核酸片段环化以产生环状核酸;以及使用所述环状核酸作为滚环复制的模板,从而提供多联体。
在第二方面,本发明提供了一种利用单纳米孔分辨率校准的纳米孔测序方法,其包括:i)提供包含校准序列和靶序列的非天然存在的核酸分子;ii)对所述核酸分子进行纳米孔测序,由此获得校准信息和靶序列信息;以及iii)使用所述校准信息和所述靶序列信息来确定所述靶序列。
在一些实施方案中,步骤iii)进一步包括从所述校准信息产生纳米孔特异性碱基调用模型并将所述纳米孔特异性碱基调用模型应用于所述靶序列信息。在一些情况下,所述方法进一步包括用多个纳米孔对所述核酸分子的多个拷贝进行纳米孔测序。在一些情况下,所述方法进一步包括用单个纳米孔对所述靶序列的多个拷贝进行纳米孔测序。在一些情况下,所述方法包括提供含有所述靶序列的所述多个拷贝的非天然存在的多联体核酸分子。在一些情况下,所述提供所述多联体核酸包括滚环复制。
在第三方面,本发明提供了一种多联体核酸,其包含靶序列的多个拷贝和具有预定序列的多个非靶同步序列,其中所述非靶同步序列位于所述靶序列的相邻拷贝之间,其中所述多联体与纳米孔物理相关。在一些实施方案中,多联体核酸进一步包括校准序列,其中所述校准序列是预定的。在一些实施方案中,所述多联体核酸包含所述靶序列的至少10个拷贝,至少50个拷贝或至少100个拷贝。
在第四方面,本发明提供了一种组合物,其包含多联体核酸的文库,其中所述文库的所述多联体核酸各自包含靶序列和具有预定序列的多个非靶同步序列的多个拷贝,其中所述非靶同步序列位于所述靶序列的相邻拷贝之间。在一些实施方案中,所述多联体核酸各自含有所述靶序列的至少10个,至少50个,或至少100个拷贝。在一些实施方案中,所述文库含有至少1,000个不同的靶序列,任选地至少10,000个不同的靶序列。在一些实施方案中,所述靶序列包含哺乳动物RNA或基因组DNA序列。在一些实施方案中,所述靶序列包含人类RNA或人类DNA序列。
在第五方面,本发明提供一种纳米孔的阵列,其中所述阵列的每个纳米孔与多联体核酸物理相关联,其中所述多联体核酸包含靶序列的多个拷贝和具有预定序列的多个非靶同步序列,并且其中所述非靶同步序列位于所述靶序列的相邻拷贝之间。在一些实施方案中,所述阵列的每个纳米孔与包含结构不同的靶序列的多联体核酸物理相关联。
在第六方面,本发明提供了一种大规模并行的随机分布的纳米孔测序装置,其包括:包含多个随机分布的纳米孔的表面,其中至少10%的所述随机分布的纳米孔可操作地连接到唯一电极。在一些实施方案中,少于50%的所述纳米孔可操作地连接到唯一电极。在一些情况下,至少1亿个纳米孔可操作地连接到唯一电极。在一些实施方案中,所述装置包括有序的电极阵列,每个电极构造成能够与纳米孔可操作地连接。
具体实施方式
I.概述
从单分子测序平台提高序列信息的准确性的当前策略是不充分的。相比之下,本发明公开的多程测序(MPS)方法产生精确的序列,同时保留了长的阅读长度和速度的优点。MPS发现利用纳米孔测序的特定应用,并且还有利地与其它单分子测序方法(例如基于纳米通道的测序)结合使用(例如,Schmidt,2004,“A nanoelectrode lined nanochannel forsingle molecule sequencing”(Thesis)卡内基梅隆大学)或零模式波导测序(例如,SMRTPacific Biosciences)。因此,尽管以下讨论关注MPS在纳米孔测序中的应用,但应理解的是,相同的多联体分子、文库和分析方法可用于任何合适的SMS方法。
如本文所用,“纳米孔测序”涉及使用跨膜纳米孔来确定多核苷酸的序列。通常,纳米孔测序涉及多核苷酸通过跨膜纳米孔的平移(或等同地,“移位”)。当多核苷酸平移通过纳米孔时,纳米孔处的一种或多种电性质以序列依赖的方式改变。通过检测一种或多种电性质(例如通过纳米孔的离子电流)的这种变化,可以推导出多核苷酸的碱基序列。示例性纳米孔包括但不限于生物纳米孔(α溶血素,耻垢分枝杆菌孔蛋白A)和固态纳米孔。多核苷酸通过纳米孔的移位可以通过施加的电压、酶(例如,聚合酶)或其组合介导。
然而,在一些情况下,可以在多核苷酸不平移通过纳米孔的情况下进行纳米孔测序。例如,纳米孔可用于检测多核苷酸的聚合或杂交产物。在一个示例性实施方案中,多核苷酸可以在碱基特异性标记的核苷酸存在下与膜包埋的纳米孔和聚合酶物理相关联(例如直接或间接共价连接)。聚合酶可以用多核苷酸作为模板分子进行模板定向聚合。在一些情况下,碱基特异性标记的核苷酸对于每种不同的碱基有不同的大小。由于标记的核苷酸被并入新合成的链中,因此标记物可以通过聚合酶从核苷酸释放。释放的标记可以平移通过纳米孔(例如通过纳米孔上施加的电压电势介导),其中它们以序列特异性方式改变纳米孔的一种或多种电性质(例如,通过纳米孔的离子电流)。通过检测一种或多种电性质的这种变化,可以推导出多核苷酸的碱基序列。
在一个示例性实施方案中,碱基特异性标记的核苷酸含有不同长度的聚合物接头,因此在通过纳米孔移位时提供依赖于序列的信号。各种聚合物接头是本领域已知的,例如聚乙二醇接头或其衍生物。在一些情况下,接头结合到核苷酸和附加可鉴定的部分上。在一些情况下,选择附加的可鉴定部分以增强序列特异性信号的产生。示例性的附加的可鉴定的部分是香豆素分子,基于香豆素的染料或其衍生物。参见例如Kumar等人,ScientificReports,2:684pp 1-8(2012);美国专利No.8,088,575;美国专利申请公开No.2013/0264,207;以及国际专利公开No.WO 2007/146,158;和WO 2013/191,793,其内容通过引用整体并入本文。
在本发明的多程测序方法中,通过单分子测序(例如,纳米孔测序)测定包含靶序列的多个拷贝的单个多核苷酸的序列。因此,在一些实施方案中,当单一多联体多核苷酸或其部分通过纳米孔时,相同靶序列被多次测序。在一些实施方案中,通过在碱基特异性标记的核苷酸的存在下使多联体多核苷酸模板与聚合酶接触来对相同的靶序列进行多次测序。聚合酶可以进行模板定向聚合以产生与多联体模板互补的聚合产物。当核苷酸被并入聚合产物时,碱基特异性核苷酸标记可以通过聚合酶从核苷酸释放。然后释放的碱基特异性标记可以通过纳米孔。
因此,针对多核苷酸获得“多程序列数据集”,并且针对靶序列的每个拷贝确定“序列数据集”(即,获得多个序列数据集)。基于多个序列数据集确定高精确度(或“HighQ”)的靶序列。这种方法结合下面描述的其他创新方法,允许提高碱基调用精确度和测序效率。除了其他优点之外,MPS还避免或减少用不同的多核苷酸分子在不同时间从不同的纳米孔进行测量而导致的变化的影响,不同的纳米孔可以位于阵列中的不同位置。这些参数和其他参数中的每一个都是使用常规方法的噪声源。例如,各个纳米孔可以在它们的电性能和其对核苷酸碱基通过孔的平移的电响应方面差别很大,阵列中不同位置的纳米孔可能受温度梯度或其他环境差异的影响,并且随时间推移而变化,这是由于温度、电压、电流或功率波动可能会影响纳米孔的电学性质,从而导致信号的变化。
在本发明的一些实施方式中,靶序列的拷贝(或“叠代序列”或“重复序列”)通过预定的“同步序列”(通常称为“同步(sync)序列”)分隔开。同步序列是已知的(即预先确定的),一般是标定靶序列重复序列的边界(开始和/或结束)的短的非靶序列。可以检测同步序列并将其用于组合来自多联体的多种靶序列重复序列。在一种方法中,同步序列用于确定靶序列的统一的持续时间(例如,用于相同多联体的重复序列的靶序列移位时间的平均值)并且靶序列数据集(通过对靶序列进行测序产生的信息)基于统一的持续时间进行标准化,并组合以产生HighQ靶序列。
在本发明的一些实施方式中,多联体包括校准序列的一个或多个拷贝。通过校准序列(即“校准数据集”或“校准信息”)的移位或聚合产生的信号可用于对每个通道的碱基调用进行建模,并且例如用于均衡化在不同的纳米孔或由相同的纳米孔在不同时间产生的信号或数据集。
本发明的MPS方法可用于确定来自源核酸的大量HighQ靶序列。然后可以使用本领域已知的方法组装HighQ靶序列以产生较长的序列。
II.多联体的性质和产生
本发明提供了通过以下方式来改进对靶序列进行纳米孔测序的方法:(i)制备含有靶序列的多个拷贝的核酸多联体,(ii)将所述多联体(或多联体的含有靶序列的至少三个拷贝的一部分)通过纳米孔移位,同时测量当多联体通过纳米孔移位时以序列依赖性方式变化的电性质,并使用步骤(ii)中获得的测量值来确定靶序列。
在一些情况下,本发明提供了通过以下方式来改进对靶序列进行纳米孔测序的方法:(i)制备包含靶序列的多个拷贝的核酸多联体模板,和(ii)使所述多联体模板(或多联体的含有靶序列的至少三个拷贝的部分)与聚合酶在碱基特异性标记的核苷酸的存在下进行模板定向聚合。然后将标记的核苷酸并入聚合产物中可以释放或切割碱基特异性核苷酸标记,然后该标记可以平移通过纳米孔。可以测量和使用当碱基特异性标记通过纳米孔移位时以序列依赖性方式变化的电性质来确定靶序列。
如本文所用,“多联体”是指包含串联连接的单体序列(“单体”)的多个拷贝的核酸。对于本发明的多联体,单体包含靶序列,并且任选地包含一种或多种同步序列。在一些实施方案中,单体包括一种或多种同步序列和一种或多种不同的校准序列两者。多联体还可以包括不包含在单体中的其它序列,其包括一种或多种校准序列,侧接于多个连接的单体的衔接子序列等。应当理解,术语“单体”用于表示结构(序列元件的关系),并不意图要求或暗示构建多联体的特定方法。
多联体核酸通常是DNA,但可以是包括DNA、RNA或嵌合核酸的任何可序列的核酸。在一些实施方案中,多联体是单链核酸,例如单链DNA。多联体的长度可以是至少约1kb,通常更长,例如至少约2kb、3kb、4kb、5kb、7kb、10kb、12kb、14kb、16kb、18kb、20kb、25kb、30kb、35kb、40kb,或50kb或更长。在一些实施方案中,所述多联体为至少约50kb、60kb、70kb、80kb、90kb、100kb、150kb、200kb、250kb或300kb或更长。在一些实施方案中,多联体的长度为1kb至约300kb,有时为约10kb至约200kb。在一些实施方案中,多联体为8kb至20kb。
多联体中靶序列的拷贝数将取决于靶序列的长度,多联体的长度,以及非靶序列(如多联体中的同步序列和校准序列)的长度。在一些实施方案中,多联体包含靶序列的至少2个,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个,至少12个,至少15个,至少20个,至少50个,或至少100个拷贝。在一些实施方案中,多联体含有靶序列的5-300个拷贝。在一些实施方案中,多联体含有靶序列的5-12个拷贝。
在一些实施方案中,多联体含有靶序列的5-12个拷贝,靶序列的长度为1-2kb。
在一些实施方案中,靶序列大小的长度为至少约250个核苷酸碱基。在一些实施方案中,靶序列的长度为至少300个、350个、400个、450个、500个、550个、600个、650个、700个、750个、800个、850个、900个或950个核苷酸碱基。在一些情况下,靶序列的长度为至少1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb或10kb。在一些实施方案中,靶序列的长度为从100个、200个、300个、350个、400个、450个、500个、550个、600个、650个、700个、750个、800个、850个、900个或950个核苷酸碱基的长度至1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb或10kb的长度。在一些实施方案中,靶序列长度为100个核苷酸至10kb,长度为200个核苷酸至10kb,长度为300个核苷酸至10kb,长度为400个核苷酸至10kb,长度为500个核苷酸至10kb,长度为100个核苷酸至5kb,长度为200个核苷酸至5kb,长度为300个核苷酸至5kb,长度为400个核苷酸至5kb,长度为500个核苷酸至5kb,长度为100个核苷酸至2kb,长度为200核苷酸至2kb,长度为300个核苷酸至2kb,长度为400个核苷酸至2kb,长度为500个核苷酸至2kb,长度为100个核苷酸至1kb,长度为200个核苷酸至1kb,长度为300个核苷酸至1kb,长度为400个核苷酸至1kb,长度为500个核苷酸至1kb。
在其中单体包含靶序列和一种或多种同步序列的实施方案中,在一些实施方案中,单体序列的大小的长度可以为至少约260个核苷酸碱基。在一些实施方案中,包含靶序列和一种或多种同步序列的单体序列的长度为至少300、350、400、450、500、550、600、600、700、750、800、650、900或950个核苷酸碱基。在一些情况下,单体序列的长度至少为1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、12kb、14kb、16kb、18kb、20kb或25kb。在一些实施方案中,包含靶序列和一种或多种同步序列的单体序列的长度为从300个、350个、400个、450个、500个、550个、600个、650个、700个、750个、800个、850个、890个、900或950个核苷酸碱基至1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb或10kb。在一些实施方案中,包含靶序列和一种或多种同步序列的单体序列的长度为100个核苷酸至10kb,长度为200个核苷酸至10kb,长度为300个核苷酸至10kb,长度为400个核苷酸至10kb,长度为500个核苷酸至10kb,长度为100个核苷酸至5kb,长度为200个核苷酸至5kb,长度为300个核苷酸至5kb,长度为400个核苷酸至5kb,长度为500个核苷酸至5kb,长度为100个核苷酸到2kb,长度为200个核苷酸至2kb,长度为300个核苷酸至2kb,长度为400个核苷酸至2kb,长度为500个核苷酸至2kb,长度为100个核苷酸至1kb,长度为200个核苷酸至1kb,长度为300个核苷酸至1kb,长度为400个核苷酸至1kb,长度为500个核苷酸至1kb。
在一些情况下,多联体中靶序列的拷贝数小于或约等于多联体的长度除以靶序列拷贝数并除以靶序列的长度。在一些情况下,多联体包含的模板序列的拷贝的数量小于或约等于多联体长度除以包含靶序列和一个或两个同步序列的单体的长度。一般来说,给定长度的多联体可以比较短的多联体包含更多数量的模板拷贝。
如本文所述,多联体核酸通常至少含有靶序列的三个拷贝。因此,靶序列的长度通常可以是长达多联体核酸长度的约三分之一的任何序列长度。
估计在一些实施方式中,当组合包含少于约8倍冗余度的序列信息时,本文所述的多程测序方法可以提供具有至少约Q30的精确度的序列阅读。因此,多程测序方法可以使用小于约8-10kb的多联体来提供1kb靶序列的Q30阅读。此外,由于本文提供的多程测序方法可以产生比10kb长得多的多联体核酸,并且在一些情况下,单分子测序方法可以提供比10kb长得多的序列阅读,甚至可以获得更高等级的精确度。
例如,报道了高达100kb的序列阅读长度。因此,可以通过使纳米孔与含有10kb模板序列的8-10个拷贝的约100kb或更长的多联体接触来提供Q30序列精确度。替代地,通过利用较短的模板或较长的多联体或其组合,可以提供诸如Q40的较高水平的精确度。多联体长度、模板序列长度和期望的序列精确度的额外置换对于本领域技术人员将是显而易见的。
在一些实施方案中,多联体包含以相同的5'至3'取向连接的靶序列或单体拷贝。在一些实施方案中,多联体包含以头对尾配置、随机取向或不可预测取向连接的多种模板序列的拷贝。应当理解,模板和单体序列的取向可以与用于产生多联体的方法相关联。
如以下在第V部分所讨论的,通常对多核苷酸(例如多种不同的基因组片段)进行异构文库或群体的测序。在一些文库或群体中,源核酸的大小可能是异质的(例如,mRNA群体)。在这些情况下,所得到的多联体群体可包含靶大小的范围。
在一个实施方案中,文库的多联体包含至少104个,有时至少105个,有时至少106个不同的靶序列。在一个实施方案中,文库的多联体包含或至少平均含有靶序列的4-15或5-10个拷贝,并且靶序列的中值长度或平均长度在1-2kb的范围内。
示例性靶序列可以是例如(但不限于)基因组DNA、从mRNA或rRNA转录的互补DNA或来自动物(例如人、哺乳动物或脊椎动物)、植物、细菌、真菌或病毒的RNA(例如,mRNA、rRNA等)。在一些实施方案中,参考序列可用于核酸源(例如,人类基因组DNA)。
III.同步化(同步)序列
在一些实施方案中,非天然存在的多联体核酸包含靶序列和一个或多个非靶同步元件的多个拷贝。同步元件是位于靶序列的相邻拷贝之间的预定非靶序列。通常,多联体包含单体单元,所述单体单元包含在一个或两个末端连接到同步序列的靶序列。通常,同步序列比靶序列短。在一些实施方式中,示例性非靶同步序列的长度为6-25个碱基。
在一些实施方式中,同步序列被设计为提供易于与靶序列区分的信号和/或在测序平台中提供具有特定特性的信号。可以使用同步序列来生成有助于识别、捕获或检测的特定电信号模式。例如,同步序列可以具有在所使用的测序平台中给出清楚的无歧义性信号的序列。
在一些情况下,同步序列包括多种短的串联的重复序列。例如,同步序列可以包含一种或多种二核苷酸重复序列的多个拷贝。作为另一个实例,同步序列可以包含一种或多种三核苷酸重复序列的多个拷贝。本领域技术人员将认识到单体重复长度可以是1个、2个、3个、4个、5个、6个、7个、8个、9或10个或更多个核苷酸中的任何一种。此外,同步序列可以包含单体重复的组合。例如,同步序列可以包含两种或更多种不同二核苷酸重复序列的一个或多个拷贝。作为另一个实例,同步序列可以包含二核苷酸重复的一个或多个拷贝和三核苷酸重复的一个或多个拷贝。在一些情况下,同步序列包含至少两种不同重复单体的交替拷贝。
示例性同步序列可以包括但不限于以下序列中的一种或多种:SEQ ID NO:1(AGAGAGAGAGAGAGAGAG);SEQ ID NO:2(ATGATGATGATG);或SEQ ID NO:3(CAGCAGCAG)。
在一些实施方案中,同步序列的长度为4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。在某些情况下,同步序列的长度为4-25个、6-25个或10-25个核苷酸。在一些实施方案中,同步序列的长度为10-15或15-20个核苷酸。在一些情况下,同步序列长度为至少约6个、7个、8个、9个、10个、11个、12个、13个、14个或15个核苷酸。在一些情况下,同步序列的长度小于约35个、34个、33个、32个、31个、30个、28个、27个、26个、25个、24个、23个、22个或21个核苷酸。
在一些实施方式中,同步序列可以用于靶序列边界的校准以及用于靶序列边界的分界。尽管它们可能用于校准,但是同步序列与“校准序列”不同,以下至少基于位置来讨论。如本文所使用的,同步序列在所有或几乎所有重复的单体中表示,并且例如可以存在大致与校准序列的拷贝一样多的同步序列的拷贝。相比之下,“校准序列”不在单体中表示,并且校准序列的每个多联体可以存在少至一个拷贝。在一些实施方案中,每个多联体存在不超过1个、不超过2个、不超过3个或不超过5个校准序列。在一些实施方式中,存在同步序列和校准序列两这个,并且各个同步序列显著短于校准序列(例如长度的一半或四分之一)。
例如,为了说明而不是限制,多联体可以包括以下任何结构(T=靶序列,S=同步序列,S1和S2是不同的同步序列,C=校准序列,N=3-300):
i)[S-T]N
ii)C-[S-T]N
iii)C-[S-T]N-C
iv)C-[S-T]N-C-[S-T]N-C
v)C-[S1-T-S2]N
等等。
在一些实施方案中,单体(和多联体)可以包括两种或更多种不同的靶序列(例如T1和T2)。示例性结构将是:
vi)[S-T1-S-T2]N
数据分析中同步序列的使用将在下面的VI部分进行讨论。
IV.校准序列
在一些实施方案中,多联体包含至少一个校准序列。在一些实施方案中,多联体包含两个或更多个校准序列,两个或更多个校准序列可以相同或不同。校准序列用于优化碱基调用模型,以允许识别各个纳米孔的性质变化,并且将信号归一化(例如,归一化数据集),以检测或拒绝异常值,和/或提供针对一个或多个数据集的质量或预测的碱基调用精确度得分。校准序列可以是在核酸的任何位置。在一些情况下,校准序列在核酸中的已知位置(例如,在核酸的5'末端、3'末端或5'末端和3'末端)。
如上所述,在一些情况下,同步序列可以用于与校准序列相同的目的(例如,用于优化碱基调用模型等)。然而,校准序列的最佳核苷酸组成可能不是用于划定靶序列边界的同步序列的组成。如上所述,校准序列通常比同步序列长。
在一些情况下,多联体核酸分子含有单个校准序列和多个同步序列。在一些情况下,多联体核酸分子含有多个校准序列和多个同步序列。
校准序列可用于组合来自多个纳米孔的序列信息,或优化每个序列阅读的读取精确度。例如,可以将模板序列的多个拷贝与多个纳米孔接触,其中每个拷贝含有校准序列。可以获得序列信息,并确定校准序列。然后可以使用校准序列以标准化来自每个纳米孔的序列信息,使得其可以组合(例如,平均化)。作为另一个实例,校准序列可以用于针对每个纳米孔或者每个序列阅读改进通用碱基调用模型。
V.生成DNA多联体和多联体文库
根据本发明使用的多联体可以通过本领域已知的多种方法产生。例如,多联体可以通过连接、滚环复制(也称为滚环扩增)或其组合产生。通常,使用DNA多联体的异构文库进行测序,其中所述多联体包含多种不同的靶序列(其可衍生自相同或不同的源核酸)。例如,如果源核酸是生物体的基因组DNA,则文库的成员可以包含对应于不同基因组DNA片段的序列。如果源核酸是mRNA,则文库的成员可以包含对应于各个mRNA分子的cDNA序列。如果源核酸是微生物组,则文库的成员可以包含来自个体微生物的核酸序列。在一些实施方式中,给定文库内的多联体的大小是近似均匀的。在一些实施方案中,特别是当来自不同源核酸(例如,不同的受试者)的靶序列混合(comingled)时,所述多联体可以包括条码或独特的分子标识符(UMI)以识别所述来源或分子。可选地,条码可以在单体中。在一些实施方案中,使用不同的同步序列构建靶序列的各个群体,因此可以在混合时识别靶序列的各个群体。
在一些情况下,多联体是通过连接产生的。例如,可以在促进分子间连接的条件下在反应容器中将靶多核苷酸序列的多个拷贝连接,从而产生含有靶序列的多个拷贝的多核苷酸的多联体。参见例如Szostak,1992,Biochemistry 31,10643-51。
在一些情况下,通过滚环复制(RCR,也称为滚环扩增)产生多联体。在这种情况下,可以通过任何数量的公知的方法(包括将同步序列连接到靶序列,标记等)制备含有一种或多种单体序列(例如,靶序列和任选的同步序列)的线性分子,并环化以进行RCR。替代地,可以将同步序列(例如)插入到现有的环形多核苷酸中。
在一些情况下,包含一种或多种单体的线性分子通过将衔接子连接到核酸片段的5'末端并将第二个衔接子连接到核酸片段的3'末端并扩增片段而被环化以进行滚环复制。衔接子可以被配置为含有彼此杂交以形成环化核酸片段的互补单链末端。
RCR方法是公知的。通常将环状多核苷酸与聚合酶和任选的解旋酶或单链核酸结合蛋白接触。由于发生环状模板的复制,所以新合成的核酸链置换在前一次运转中合成的链,得到含有与环状模板链互补的线性系列的序列(单体)的聚合产物。环状模板可以是双链或单链。关于选择RCR反应的条件和试剂的指导可以在普通技术人员参考的许多参考文献中提供,如通过每个通过引用并入本文的以下参考文献所证明的:Gilbert&Dressier,1968,Cold SpringHarbor Symposium.Quant.Biol.33:473-84;Baker&Kornberg,1992,DNAReplication(Freeman,N.Y.);和美国专利No.5,648,245;No.5,714,320;No.6,143,495;No.5,426,180;No.5,854,033;No.6,143,495和No.5,871,921。用于生成环化模板或进行滚环扩增以产生多联体核酸的其它方法包括美国专利No.8,445,196中公开的那些方法。
通常,RCR反应组分包括单链DNA环,退火成DNA环的一种或多种引物,具有链置换活性以延伸退火成DNA环的引物的3'端的DNA聚合酶,核苷三磷酸酯和常规聚合酶反应缓冲液。这些组分在允许引物退火成DNA环并通过DNA聚合酶延伸以形成DNA环互补物的多联体的条件下组合。示例性的RCR反应方案如下:在50μL反应混合物中,组装以下成分:2-50pmol环状DNA,0.5单位/μL噬菌体phi29 DNA聚合酶,0.2μg/μL BSA,3mM dNTP,1×phi29 DNA聚合酶反应缓冲液(Amersham)。RCR反应可以在30℃下进行12小时。在一些实施方案中,聚合酶反应中环状DNA的浓度可以选择为低(约每毫升10-100亿个环,或每皮升10-100个环),以避免缠结和其他分子间相互作用。
可以在测序之前存储多联体或多联体文库,并且可以以与常规非连接多核苷酸相同的方式进行测序。
VI.数据分析
如本文所述,在含有多个靶序列、任选的同步序列和任选的校准序列的多联体核酸可以通过纳米孔移位时,测量以序列依赖性方式改变的电性质。如本文所述,可以在碱基特异性标记的核苷酸的存在下,将含有多个靶序列、任选的同步序列和任选的校准序列的多联体核酸与聚合酶接触。聚合酶可以进行模板定向聚合以产生与多联体模板互补的聚合产物。当核苷酸被并入聚合产物时,碱基特异性核苷酸标记可以通过聚合酶从核苷酸释放。然后,在释放的碱基特异性标记可以通过纳米孔时,检测以标记特异性方式改变的电性质。
测量的电性能可以包括但不限于选自电流、电流变化、电压、电压变化、电阻、电阻变化、电感、电感变化、电容、电容变化、电抗、和电抗变化中的一种或多种电性质。通常,纳米孔位于浸入两个隔室中的膜中或分离两个隔室中的膜中。通常,纳米孔被嵌入具有高电阻的膜中,通过设置跨越膜的电压电势使离子电流通过纳米孔,并且当多核苷酸或碱基特异性标记通过纳米孔从一个隔室到另一个隔室时测量电流的变化。
当多核苷酸或碱基特异性标记平移通过纳米孔时,序列信息可以由连续的电信号集合表示。替代地,序列信息可以由当多核苷酸或碱基特异性标记平移通过纳米孔时所测得的电信号的样本表示。例如,可以以足以检测序列信息并推断多核苷酸序列的频率(例如,10-100kHz)监测纳米孔的核苷酸特异性或标记特异性电性质。足够的采样频率可以基于多核苷酸或碱基特异性标记平移的速度和方式的不同而变化。通常,采样频率应足以检测针对每个平移的核苷酸碱基、k-mer或标记的序列信息的至少一个数据点。每个平移的核苷酸碱基、k-mer或标记的多个数据点的检测通常是合乎期望的。序列信息集可以以图形、模拟或数字格式表示和存储,并且在本发明中被称为序列数据集。
序列数据集用于通过将所测得的电性质值或测得的电性质值的变化(通常电流的变化)与不同核苷酸碱基、碱基的组合或碱基特异性标记的移位的预期的(例如经验确定的)值相关联来确定多核苷酸的序列。在一些情况下,通过将k-mer核苷酸的集合的所测得的电性质值或这些值的变化的集合与k-mer移位的预期值相关联来确定序列。用于纳米孔测序的k-mer测量和分析算法的应用是本领域已知的,并且在例如国际专利公开WO 2014/096830中描述。k的典型值包括2、3、4、5、6、7、8、9或10。在一些实施方式中,使用隐马尔可夫模型来检测和分析k-mer。例如,维特比算法可用于将序列分配给所检测的k-mer核苷酸。参见例如Timp等人,2012,BiophysJ.102:L37-9。
常规的纳米孔测序产生对应于靶序列的一个拷贝的数据集。MPS生成对应于包含多个靶序列(例如,靶序列和相关同步序列的多个拷贝)和校准序列的多个单体的“多程序列数据集”(当多联体多核苷酸通过纳米孔平移时,纳米孔的电性质的离散或连续测量值的集合)。通过(1)提取对应于靶序列的各个拷贝的数据(“靶序列数据集”);和(2)组合靶序列数据集以产生高精确度靶序列(“HighQ靶序列”),使用多程序列数据集确定靶序列。在一种方法中,将每个靶序列数据集转换为核苷酸序列,并且使用多个核苷酸序列产生共有(HighQ)靶序列。在另一方法中,组合多个靶序列数据集以产生“共有序列”数据集,并且从“共有序列”数据集导出HighQ靶序列。
可以通过识别对应于靶序列的多个串联拷贝的多程序列数据集中的重复模式来提取对应于靶序列的各个拷贝的数据。当多联体包括同步序列时,同步序列可用于精确地划分对应于靶序列边界的信号边界。不对应于已知同步序列的多程序列数据集的部分可以被识别为靶序列。
在一种方法中,同步序列用于定义每个靶序列的持续时间(多核苷酸经过纳米孔的时间)。确定统一的持续时间(例如,靶序列的多个拷贝的统计平均或中值纳米孔平移时间或聚合时间),并且将靶序列信号(或数据集)中的每一个对齐或标准化以匹配统一的持续时间。然后可以组合(例如,平均化)数据集以降低噪声水平。然后可以将碱基调用模型应用于所得到的组合数据集,从而以高精确度获得靶序列。在某些情况下,碱基调用模型是一般的碱基调用模型。在一些情况下,例如,通过针对对应于一种或多种校准序列的数据集的部分优化碱基调用模型,将碱基调用模型优化为组合数据集的一种或多种特性。
靶序列数据集(靶序列的相应各个拷贝)可以组合(例如,平均化)并用于确定靶序列。用于组合多个数据集的方法包括但不限于从多个单程数据集中确定平均(平均值或中值的)数据集。例如,在信号事件水平可以执行平均化(例如,每个信号事件被平均化),在特征水平可以执行平均化(例如,数据集被分析以识别特征,并且特征被一起平均化)或在k-mer水平可以执行平均化(例如,可以对与k-mer对应的特征进行平均化)。这种平均化方法可以是特别有用的,其中主要的误差源或噪声是随机的。在这种情况下,当在组合步骤中包括足够数量的数据集时,随机错误可以部分或完全抵消。
在一些情况下,通过从多个靶序列数据集中确定加权平均数据集来组合从多程数据集提取的多个靶序列数据集。加权平均值可以通过针对每个数据集,针对每个检测到的电子事件,针对每个识别的特征,或针对与单个碱基、成组的碱基(例如,对应于特征、或k-mer)或碱基特异性标记的移位对应的数据集的每个区域来计算并应用权重。在某些情况下,权重根据数据集的一部分来计算,并应用于数据集的较大部分或整个数据集。例如,可以基于对应于一种或多种校准序列或一种或多种同步序列的数据集的部分来计算权重。在某些情况下,权重被计算作为碱基调用精确度的预期概率的度量。
权重可以从数据集的局部或全局性质(例如幅度(例如,平均峰值幅度、最大峰值幅度等)、峰值形状、分辨率、峰值重叠等)计算。在某些情况下,权重基于低精确度区域的以下指示物中的一种或多种的存在、不存在或程度计算:非常短的持续时间的电信号(例如,电流的变化);异常长持续时间的电信号(例如电流变化);具有在针对两种不同碱基、k-mer或碱基特异性标记(指示错误的碱基调用的高概率)观察到的平均幅度分布之间的振幅的电信号;相邻电信号之间(例如,在电流变化之间)的较长持续时间;或者在给定数据集区域处的高水平的噪声(例如,由于基线漂移,近端纳米孔之间的随机或系统串扰,或序列依赖性影响)。
在一些情况下,可以在组合之前或之后过滤数据集(例如,从多程数据集提取的靶序列数据集)。在某些情况下,过滤步骤可用于去除异常数据集,并提高所得组合数据集的精确度。在一些情况下,诸如多程、靶序列或组合数据集之类的数据集可以经受低通、带通或高通滤波器以去除系统噪声。作为另一示例,各个数据集可以被分析以确定噪声的度量,并且当所测得的噪声的值高于设定的阈值或动态确定的阈值时被拒绝。用于过滤数据集的各种方法在本领域中是已知的,并且包括例如基于傅里叶变换的方法。用于确定数据集或数据集的部分的噪声水平或滤除噪声数据集或噪声数据集的部分的各种方法在本领域中是已知的,并且包括在例如美国专利申请公开No.2014/0248,608中描述的方法,其全部内容通过引用并入本文。
在某些情况下,可以在组合之前对数据集(例如,从多程数据集提取的靶序列数据集)进行归一化。归一化算法可用于确保来自多个数据集的电信号事件是类似的。在某些情况下,归一化将数据集放在绝对标尺上。在其他情况下,归一化将数据集放在相对标尺上。归一化算法可以包括缩放算法。例如,缩放算法可以应用于多个数据集,以确保最大或最小电信号被缩放以对应于不同数据集。额外的过滤、归一化或缩放方法被描述于例如美国专利No.8,652,779;和美国专利申请公开No.2010/0331194;和No.2014/0248608,其全部内容通过引用并入本文。
在一些实施方案中,例如针对来自多程数据集的每个靶序列数据集确定碱基序列,并且使用公知方法基于多个碱基序列确定共有序列。用于对齐和产生共有序列的方法是本领域公知的。例如,可以利用来自Wisconsion Package GCG核酸分析软件套件的程序PILEUP。参见例如Curr.Protoc.Bioinformatics 2003年2月;第3章:单元3.6。作为另一个实例,可以通过为对齐的碱基序列集合中的每个核苷酸位置选择最频繁分配的碱基来产生共有序列。
在一些情况下,各个靶序列的调用碱基可以被给予权重,例如质量或预测的碱基调用精确度分数。在某些情况下,为每个被调用的碱基提供权量。在一些情况下,为成组的调用碱基(例如有2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个连续碱基的组)提供权量。可以从序列数据集(例如,靶序列、多程或组合数据集)的局部或全局性质计算权重,例如幅度、峰形、分辨率、峰重叠等。在某些情况下,权重基于如上所述的低精确度区域的一种或多种指示物的存在、不存在或程度来计算。
该权重可用于产生共有序列。例如,可以通过以下方式产生共有序列:为对齐的碱基序列集合中的每个核苷酸位置选择最频繁分配的碱基;针对对齐的碱基序列集合中的每个核苷酸位置选择最高加权分配碱基;或其组合。例如,当在一位置处的不同分配的碱基的数量等于或大于对齐的碱基序列的数量的情况下,权重可以用于打破连接或克服歧义性。
靶序列数据集或组合数据集的碱基调用可以用广义或纳米孔特异性碱基调用模型来执行。在一些情况下,广义的调用模型由纳米孔装置的商业供应商提供。例如,MinION装置的数据集可以上传到基于云的Mitrichor服务器,Mitrichor服务器分析数据以确定相应的核苷酸序列,并提供包含核苷酸序列以及其他信息的文件。
如上所述,在一些实施方式中,可以通过检测对应于核酸中的已知序列或特征的数据集的部分(例如,对应于多联体的校准序列)来生成纳米孔特异性碱基调用模型并将碱基调用模型优化成导出数据集的纳米孔的特定电学和物理性质。例如,核酸片段可以用可以在核酸通过纳米孔移位时提供可识别的信号的已知的序列或非核酸部分进行标记。然后可识别的信号可用于校准该纳米孔的碱基调用模型。
因为同步序列是已知的,它们也可以用于校准信号。在这种情况下,“校准”是指改善在纳米孔检测到的信号与碱基序列之间的关系的模型。即使在多核苷酸平移或聚合的时间内,信号也可能随着温度变化、离子环境、功率波动等而变化或漂移,因此,针对已知同步序列(或序列)频繁校准的能力是有利的。
VII.用碱基特异性或序列特异性标记的信号放大
在一些实施方案中,含有靶序列的核酸片段(例如,含有靶序列的多个拷贝的多联体)用一种或多种碱基特异性标记进行标记,以放大当模板序列平移通过纳米孔时产生的电信号。例如,标记可以与一个或多个核苷酸碱基结合并由此增加一个或多个核苷酸碱基的大小。作为另一个实例,标记可以向一个或多个核苷酸碱基赋予电荷。在某些情况下,标记是特异性识别靶序列中相邻鸟嘌呤残基的双齿铂配体。参见例如Teletchéa等人,2006,Chemistry 12:3741-53。在一些情况下,一种或多种碱基特异性标记可以碱基特异性的方式氢键键合到靶序列的一个或多个核苷酸碱基。参见例如美国专利No.5,470,707。
在一个实施方案中,一种或多种氢键标记可以含有核苷和可变数目的磷酸酯基团。例如,一种或多种标记可以包括具有零个、一个、两个或三个5'磷酸酯的胸苷(例如脱氧胸苷)。胸苷可以碱基特异性的方式氢键键合到靶序列中相应的腺苷。作为另一个实例,一种或多种标记可以包括具有零个、一个、两个或三个5'磷酸酯的胞苷(例如脱氧胞苷)。胞苷可以碱基特异性的方式氢键键合到靶序列中的相应鸟苷。作为另一个实例,一种或多种标记可以包括具有零个、一个、两个或三个5'磷酸酯的鸟苷(例如,脱氧鸟苷)。鸟苷可以碱基特异性的方式氢键键合到靶序列中相应的胞嘧啶。使用可变数目的磷酸酯基团可以进一步放大信号。例如,一个碱基特异性标记可以包含单个5'磷酸酯,而另一个碱基特异性标记含有两个5'磷酸酯,第三个碱基特异性标记含有三个5'磷酸酯。
美国专利公开No.20110236984“DNA Sequencing Methods And Detectors AndSystems For Carrying Out The Same”描述了可以与靶DNA分子杂交并用于检测沿着靶分子存在的各种序列的编码寡核苷酸的用途。
在一些实施方式中,标记针对一种或多种同步序列是特定的。例如,同步序列可以在平移通过纳米孔之前用序列特异性多核苷酸杂交探针标记。然后可以检测和使用与标记的同步序列相对应的序列信息,以促进在多联体的通过多个纳米孔的多程测序期间或单程测序期间产生的单程序列数据集的对齐(alignment)。
VIII.其他测序平台
本文所述的多联体、同步序列和校准序列的使用可以与其它单分子测序方法一起使用。特别地,可以将来自Pacific Biosciences的SMRT系统与多联体接触以产生多程序列信息。SMRT系统是一种单分子实时测序的方法,其中单个DNA聚合酶固定在可操作地连接到零模式波导(ZMW)的容器的底部。ZMW产生足够限制的观察体积,以将观察结果限制在由聚合酶并入的DNA的单个核苷酸上。核苷酸在聚合过程中用通过聚合酶裂解的荧光团进行标记,并且在下一个核苷酸被并入之前通常会扩散出观察体积。SMRT系统通常提供约3-9kb的平均阅读长度,具体取决于样品制备、染料化学和聚合酶。因此,例如,使用SMRT系统,约9kb的多联体可以针对1kb靶序列提供9倍的冗余。
用SMRT系统分析的多联体可以根据需要包含附加的同步或校准序列。然后可以使用本领域已知的方法(例如本文所述的那些方法)来组合多程序列信息,以提高所得序列的精确度。例如,可以通过对原始数据进行平均或加权平均来组合序列数据集。作为另一实例,可以通过对齐调用序列的多个实例来组合该序列并获得共有序列。
IX.新型纳米装置
商售的纳米孔测序装置包含可操作地连接到电极的有序的纳米孔阵列,以在多核苷酸平移通过时感测纳米孔的电学性质。例如,MinIONTM装置(Oxford NanoporeTechnologies)有512个这样的纳米孔,提供512个不同的信号通道。每个纳米孔位于与其自身电极相关联的微孔中。然而,不是给定装置中的所有信号通道都必须是可操作的。
这样的装置提供比其他高吞吐量测序方法少得多的吞吐量。例如,在512个纳米孔径和小于约10kb的平均阅读长度(对于典型的片段化的核酸样品),MinIONTM装置可以每次运行提供约最大5×106个碱基的序列数据。可以使用传统的芯片制造方法(例如点样、光刻、电子束照射等)来增加有序纳米孔阵列装置中的纳米孔的密度和数量。然而,由于这些方法在特征尺寸方面的固有限制,在有序纳米孔阵列测序装置中可以获得的纳米孔的数量存在实际限制。
本文描述的纳米孔测序装置包括含有随机分布的纳米孔的膜。这可以避免传统芯片制造技术的固有局限性,允许装置中纳米孔的数量和密度显著增加。纳米孔密度和数量的急剧增加可以显著提高序列吞吐量。本文提供了具有至少1×109个电传感器(电极)和至少1×109个随机或伪随机分布的纳米孔的纳米孔测序装置。该装置中至少10%的电极可操作地连接到单个纳米孔。因此,该装置提供至少1×108个有效信号信道。因此,假设平均阅读长度为10kb,则装置每次运行可以提供约最大(1×108*10kb=)1×1212个碱基的序列数据。假设该装置提供10kb的平均阅读长度,并且该装置与平均具有靶序列的10个拷贝的多联体核酸接触,则该装置每次运行可以提供最大约1×108*10kb/10拷贝=)1×1011碱基的高精确度序列数据。
在一个实施方案中,包含含有随机或伪随机分布的纳米孔的膜的装置含有脂质膜。脂质膜本质上是流体性的。如果不以某种方式锚定或固定,则穿过脂质膜的纳米孔可以移动。多个纳米孔可以被加载到脂质膜上并允许在膜内随机扩散或分布。分布模式可能随时间推移而变化。为了增加膜的流动性,可以将胆固醇或其它膜改性剂施加到脂质中。
在一些情况下,在纳米孔充分分布之后,它们能被固定。纳米孔可以通过各种方法固定。例如,膜(和其中分布的纳米孔)可以冷却到转变温度以下。作为另一个实例,膜(和其中分布的纳米孔)可以与交联化学品接触。作为另一个实例,膜(和其中分布的纳米孔)可以暴露于紫外线辐射以使纳米孔或膜光交联。作为另一个实例,纳米孔的物理位置可以通过将电极并入纳米孔测序装置来固定,以阻碍各个纳米孔的迁移。
在一些情况下,纳米孔测序装置中的电极是微尺度电极。在一些情况下,微尺度电极是微量移液器(例如,玻璃移液器)。在一些情况下,电极是具有小于1微米的开口尖端直径的微量移液器。外部微量移液器可以以类似于典型的膜片钳设置中使用的方式附接或密封在膜上。在某些情况下,电极随机附接在膜上。由电极尖端包围的直径可以在微米范围内,通常含有一个或零个纳米孔。
在一些情况下,移液器的内部填充有与其中浸入了膜的浴溶液的离子组成相匹配的相同溶液。可以将线(例如,氯化银线)放置成与该溶液接触以将电流传导到外部记录器/放大器。微量移液管可以被压在膜上并施加抽吸以帮助在玻璃和膜之间形成高电阻密封。高电阻密封可以将一种或多种电子特性中的变化与环境中的其他噪声或信号进行电子隔离。高电阻密封也可以为装置提供一些机械稳定性。例如,密封可阻碍其中所含的纳米孔的移动或固定其中所含的纳米孔。
在一些情况下,可以将至少约1×103个、1×104个、1×105个、1×106个、1×107个、1×108个、1×109个或1×1010个微电极施加到膜上。微尺度电极可以以固定的阵列方式施加,或者它们可以是随机分布的。当纳米孔随机分布在膜上时,这些电极的群体将包含一个纳米孔在其中,并提供有效的信号通道,而其他的信号通道不会记录任何信号。在一些情况下,可以检测和忽略、失活或禁用含有多于一个或零个纳米孔的电极,以用于测序。在一些情况下,选择含有仅一个纳米孔的电极用于信号检测或记录。
X.说明性示例
将包含靶序列的核酸片段连接到包含非靶同步序列的衔接子。将核酸片段环化并通过滚环扩增进行扩增。所得扩增产物是含有靶序列的5至100拷贝或更多个拷贝的非天然存在的连接核酸,靶序列的每个拷贝通过非靶同步序列的拷贝分离。使多联体与纳米孔测序装置接触并通过施加电压电位平移通过纳米孔。记录表示当多联体的核苷酸穿过纳米孔时通过纳米孔的电流的变化的数据集。分析数据集以识别与非靶同步序列相对应的区域。对应于非靶同步序列的区域用于识别对应于靶序列的拷贝的数据集的部分。通过平均化来组合对应于靶序列的拷贝的数据集的部分以获得共有序列信号。分析共有序列信号以确定靶序列。
XI.通过参考并入
在整个本发明中参考和引用的其他文献,例如专利、专利申请、专利出版物、期刊、书籍、论文和网页内容,通过引用将其全文引入本文用于所有目的。
XII.等同方案
本发明可以以其他具体形式实施,而不脱离本文中广泛描述并在此后要求保护的其结构、方法或其它基本特征。所描述的实施方案在所有方面被认为仅是说明性的而不是限制性的。因此,本发明的范围由所附权利要求而不是前面的描述来指示。在权利要求的等同物的含义和范围内的所有变化将被包括在其范围内。

Claims (28)

1.一种使用纳米孔测序对靶序列进行测序的多程方法,所述方法包括:
i)提供包含单体单元的非天然存在的多联体核酸分子,所述单体单元包含(a)所述靶序列和(b)具有预定序列的非靶同步序列,
其中所述靶序列的相邻拷贝通过划分靶序列边界的非靶同步序列分隔,
其中所述多联体包括所述靶序列的多个拷贝和所述非靶同步序列的多个拷贝;以及然后
ii)对所述多联体中的所述靶序列的至少三个拷贝进行纳米孔测序,由此获得多程序列数据集,其中所述多程序列数据集包含所述靶序列的所述至少三个拷贝的靶序列数据集;以及
iii)使用所述多程序列数据集来确定所述靶序列,其中使用所述非靶同步序列来对齐所述多程序列数据集中的所述靶序列。
2.根据权利要求1所述的方法,其中所述纳米孔测序还包括对至少四个同步序列测序。
3.根据权利要求2所述的方法,其中所有的所述同步序列是相同的。
4.根据权利要求2或3所述的方法,其中所述同步序列比所述靶序列短。
5.根据权利要求1所述的方法,其中所述多程序列具有Q6、Q10、Q20、Q30、Q40或更高的精确度。
6.根据权利要求1所述的方法,其中所述多联体包含所述靶序列的至少5个拷贝。
7.根据权利要求1所述的方法,其中所述多联体包含所述靶序列的至少8个拷贝。
8.根据权利要求1所述的方法,其中所述多联体包括校准序列。
9.根据权利要求1所述的方法,其中所述提供所述多联体包括使包含所述靶序列的核酸片段环化以产生环状核酸;以及
使用所述环状核酸作为滚环复制的模板,从而提供多联体。
10.一种利用单纳米孔分辨率校准的纳米孔测序方法,其包括:
i)提供包含校准序列和靶序列的非天然存在的核酸分子;
ii)对所述核酸分子进行纳米孔测序,由此获得校准序列信息和靶序列信息,其中所述校准序列通过纳米孔的移位产生信号,该信号用于产生纳米孔特异性碱基调用模型;以及
iii)将所述纳米孔特异性碱基调用模型应用于所述靶序列信息来确定所述靶序列。
11.根据权利要求10所述的方法,其中所述方法进一步包括用多个纳米孔对所述核酸分子的多个拷贝进行纳米孔测序。
12.根据权利要求10所述的方法,其中所述方法进一步包括用单个纳米孔对所述靶序列的多个拷贝进行纳米孔测序。
13.根据权利要求12所述的方法,其中所述方法包括提供含有所述靶序列的所述多个拷贝的非天然存在的多联体核酸分子。
14.根据权利要求13所述的方法,其中所述提供所述多联体核酸包括滚环复制。
15.一种多联体核酸,其包含靶序列的多个拷贝和具有预定序列的多个非靶同步序列,其中所述非靶同步序列位于所述靶序列的相邻拷贝之间,其中所述多联体与纳米孔物理相关,其中所述多联体核酸进一步包括校准序列,其中所述校准序列是预定的。
16.根据权利要求15所述的多联体核酸,其中所述多联体核酸包含所述靶序列的至少10个拷贝。
17.根据权利要求15所述的多联体核酸,其中所述多联体核酸包含所述靶序列的至少50个拷贝。
18.根据权利要求15所述的多联体核酸,其中所述多联体核酸包含所述靶序列的至少100个拷贝。
19.一种组合物,其包含多联体核酸的文库,其中所述文库的所述多联体核酸各自包含靶序列的多个拷贝和具有预定序列的多个非靶同步序列,其中所述非靶同步序列位于所述靶序列的相邻拷贝之间,其中所述多联体核酸进一步包括校准序列,其中所述校准序列是预定的。
20.根据权利要求19所述的组合物,其中所述多联体核酸各自含有所述靶序列的至少10个拷贝。
21.根据权利要求19所述的组合物,其中所述多联体核酸各自含有所述靶序列的至少50个拷贝。
22.根据权利要求19所述的组合物,其中所述多联体核酸各自含有所述靶序列的至少100个拷贝。
23.根据权利要求19所述的组合物,其中所述文库含有至少1,000个不同的靶序列。
24.根据权利要求19所述的组合物,其中所述文库含有至少10,000个不同的靶序列。
25.根据权利要求19所述的组合物,其中所述靶序列包含哺乳动物RNA或基因组DNA序列。
26.根据权利要求19所述的组合物,其中所述靶序列包含人类RNA或人类DNA序列。
27.一种纳米孔的阵列,其中所述阵列的每个纳米孔与多联体核酸物理相关联,其中所述多联体核酸包含靶序列的多个拷贝和具有预定序列的多个非靶同步序列,并且其中所述非靶同步序列位于所述靶序列的相邻拷贝之间,其中所述多联体核酸进一步包括校准序列,其中所述校准序列是预定的。
28.根据权利要求27所述的阵列,其中所述阵列的每个纳米孔与包含结构不同的靶序列的多联体核酸物理相关联。
CN201580061261.7A 2014-11-11 2015-11-10 多程测序 Active CN107002130B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462078306P 2014-11-11 2014-11-11
US62/078,306 2014-11-11
PCT/US2015/059903 WO2016077313A1 (en) 2014-11-11 2015-11-10 Multi-pass sequencing

Publications (2)

Publication Number Publication Date
CN107002130A CN107002130A (zh) 2017-08-01
CN107002130B true CN107002130B (zh) 2022-02-01

Family

ID=55954931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580061261.7A Active CN107002130B (zh) 2014-11-11 2015-11-10 多程测序

Country Status (5)

Country Link
US (1) US10626455B2 (zh)
EP (1) EP3218519B1 (zh)
CN (1) CN107002130B (zh)
DK (1) DK3218519T3 (zh)
WO (1) WO2016077313A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US8825412B2 (en) 2010-05-18 2014-09-02 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2656263B1 (en) 2010-12-22 2019-11-06 Natera, Inc. Methods for non-invasive prenatal paternity testing
RU2717641C2 (ru) 2014-04-21 2020-03-24 Натера, Инк. Обнаружение мутаций и плоидности в хромосомных сегментах
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
JP6867045B2 (ja) * 2015-08-12 2021-04-28 ザ チャイニーズ ユニバーシティ オブ ホンコン 血漿dnaの単分子配列決定
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
WO2018211497A1 (en) * 2017-05-14 2018-11-22 Foresee Genomic Ltd Dna construct for sequencing and method for preparing the same
SG11202001858PA (en) * 2017-10-09 2020-04-29 Psomagen Inc Single molecule sequencing and unique molecular identifiers to characterize nucleic acid sequences
US20210079461A1 (en) * 2018-04-20 2021-03-18 The Regents Of The University Of California Nucleic Acid Sequencing Methods and Computer-Readable Media for Practicing Same
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
WO2020113581A1 (zh) * 2018-12-07 2020-06-11 深圳华大生命科学研究院 纳米孔测序方法
CN109852678A (zh) * 2019-03-01 2019-06-07 天津大学 基于碳纳米管和单链dna缠绕结构的dna测序方法
CN113646471A (zh) * 2019-09-20 2021-11-12 武汉华大医学检验所有限公司 测序文库的构建方法、测序方法及试剂盒和应用
CN113257351A (zh) * 2020-02-12 2021-08-13 赛纳生物科技(北京)有限公司 一种用于多碱基基因测序的基因文库及其构建方法
CA3170856A1 (en) * 2020-02-13 2021-08-19 Garvan Institute Of Medical Research Reference ladders and adaptors
AU2021230282A1 (en) 2020-03-03 2022-09-22 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing double stranded nucleic acids

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1225234A2 (en) * 2001-01-20 2002-07-24 Agilent Technologies, Inc. (a Delaware corporation) Synthesis of nucleic acid
WO2006095169A1 (en) * 2005-03-08 2006-09-14 Lingvitae As Method for preparing polynucleotides for analysis
US8153375B2 (en) * 2008-03-28 2012-04-10 Pacific Biosciences Of California, Inc. Compositions and methods for nucleic acid sequencing
WO2013185137A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2183388A4 (en) 2007-07-26 2010-09-08 Pacific Biosciences California SEQUENCING MOLECULAR REDUNDANT
WO2010117470A2 (en) * 2009-04-10 2010-10-14 Pacific Biosciences Of California, Inc. Nanopore sequencing devices and methods
WO2012135658A2 (en) 2011-03-30 2012-10-04 Noblegen Biosciences, Inc. Sequence preserved dna conversion for optical nanopore sequencing
JP6298404B2 (ja) 2011-07-25 2018-03-20 オックスフォード ナノポール テクノロジーズ リミテッド 膜貫通ポアを用いる二重鎖ポリヌクレオチド配列決定のためのヘアピンループ方法
US20130040827A1 (en) * 2011-08-14 2013-02-14 Stephen C. Macevicz Method and compositions for detecting and sequencing nucleic acids
US10152569B2 (en) 2011-09-26 2018-12-11 Gen-Probe Incorporated Algorithms for sequence determinations
US20130296173A1 (en) * 2012-04-23 2013-11-07 Complete Genomics, Inc. Pre-anchor wash
JP2014029594A (ja) * 2012-07-31 2014-02-13 Canon Inc 情報端末及びその制御方法、並びにプログラム
GB201313477D0 (en) * 2013-07-29 2013-09-11 Univ Leuven Kath Nanopore biosensors for detection of proteins and nucleic acids

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1225234A2 (en) * 2001-01-20 2002-07-24 Agilent Technologies, Inc. (a Delaware corporation) Synthesis of nucleic acid
WO2006095169A1 (en) * 2005-03-08 2006-09-14 Lingvitae As Method for preparing polynucleotides for analysis
US8153375B2 (en) * 2008-03-28 2012-04-10 Pacific Biosciences Of California, Inc. Compositions and methods for nucleic acid sequencing
WO2013185137A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
High-throughput DNA sequencing errors are reduced by orders of magnitude using circle sequencing;Dianne I.Lou等;《PNAs》;20131203;第110卷(第49期);第19872-19877页 *
第三代测序技术及其应用;张得芳 等;《中国生物工程杂志》;20130515;第33卷(第5期);第125-131页 *

Also Published As

Publication number Publication date
US10626455B2 (en) 2020-04-21
EP3218519A4 (en) 2018-07-25
EP3218519A1 (en) 2017-09-20
WO2016077313A1 (en) 2016-05-19
US20180282800A1 (en) 2018-10-04
EP3218519B1 (en) 2020-12-02
CN107002130A (zh) 2017-08-01
DK3218519T3 (da) 2020-12-21

Similar Documents

Publication Publication Date Title
CN107002130B (zh) 多程测序
CA2890218C (en) Nucleic acid sequencing using tags
EP2794927B1 (en) Amplification primers and methods
US20070224613A1 (en) Massively Multiplexed Sequencing
US11274341B2 (en) Assay methods using DNA binding proteins
EP3146075B1 (en) Ion sensor dna and rna sequencing by synthesis using nucleotide reversible terminators
JP6664575B2 (ja) 核酸分子数計測法
EP3532635B1 (en) Barcoded circular library construction for identification of chimeric products
JP6789935B2 (ja) データの速度および密度を増大させるための多数のプライマーからのシーケンシング
CA2740973A1 (en) High throughput nucleic acid sequencing by spacing
EP2956550B1 (en) Enhanced probe binding
CN108138228B (zh) 用于下一代测序的高分子量dna样品追踪标签
US20210238674A1 (en) Bi-directional in situ analysis
US20200377944A1 (en) Compositions and methods for unidirectional nucleic acid sequencing
EP3878972A1 (en) Barcoding technology for sequencing of nucleic acid molecules
CN105648084A (zh) 一种两核苷酸实时合成测序检测碱基连续突变序列的方法
CN116497102A (zh) 用于表征目标多核苷酸的衔接体、方法及其用途

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1240629

Country of ref document: HK

Ref country code: HK

Ref legal event code: DE

Ref document number: 1240627

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee after: BGI SHENZHEN

Patentee after: Shenzhen Huada Gene Technology Co., Ltd.

Address before: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Shenzhen City, Guangdong Province

Patentee before: BGI SHENZHEN

Patentee before: Shenzhen Huada Gene Technology Co., Ltd.

CP03 Change of name, title or address