CN109952382A - 随机测序方法的碱基识别 - Google Patents

随机测序方法的碱基识别 Download PDF

Info

Publication number
CN109952382A
CN109952382A CN201780062141.8A CN201780062141A CN109952382A CN 109952382 A CN109952382 A CN 109952382A CN 201780062141 A CN201780062141 A CN 201780062141A CN 109952382 A CN109952382 A CN 109952382A
Authority
CN
China
Prior art keywords
state
probability
signal value
nucleotide
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780062141.8A
Other languages
English (en)
Other versions
CN109952382B (zh
Inventor
J.曼尼恩
M.马格尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of CN109952382A publication Critical patent/CN109952382A/zh
Application granted granted Critical
Publication of CN109952382B publication Critical patent/CN109952382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • G01N27/44756Apparatus specially adapted therefor
    • G01N27/44791Microapparatus
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Dispersion Chemistry (AREA)
  • Electrochemistry (AREA)

Abstract

本发明提供了处理测序单元中随时间从核酸测量的信号值的方法。信号值可用于创建直方图,从该直方图确定不同状态(例如,每个对应于不同核苷酸)的概率函数。每个概率函数(例如,如使用混合模型确定的)可以指定对应于特定核苷酸的信号的发射概率。

Description

随机测序方法的碱基识别
背景
具有内径在大约1纳米的孔大小的纳米孔膜设备已显示了在快速核苷酸测序中的前景。当跨沉浸在导电流体中的纳米孔施加电压电位时,能够存在归因于离子跨所述纳米孔传导的小离子电流。电流的大小对孔径和哪个分子在纳米孔中敏感。分子可以是与特定核苷酸连接的特定标签,从而允许在核酸的特定位置检测核苷酸。可以测量包括纳米孔的电路中的电压或其他信号(例如,在积分电容器处)作为测量分子电阻的方式,从而允许检测哪个分子在纳米孔中。
基于纳米孔的测序芯片可以用于DNA测序。基于纳米孔的测序芯片可以包括配置成阵列的大量传感器单元。例如,100万个单元的阵列可以包括1000行乘以1000列的单元。
由于制造的可变性,所测量的信号可能在芯片之间以及同一芯片的单元之间变化。因此,可能难以确定正确的分子,其可能是或对应于单元中特定核酸或其他聚合物中的正确核苷酸。此外,测量信号中的其他时间相关的非理想因素可能导致不准确。并且,因为这些电路采用生化电路元件,例如脂质双层、纳米孔等,所以电学特征的可变性可能比传统半导体电路高得多。此外,测序方法本质上是随机的,且因此可变性可以在各种系统中发生,包括不使用纳米孔的测序装置。
因此,需要改进的表征技术以提高测序方法的准确性和稳定性。
概述
各种实施方案提供了与测序单元中核酸序列的测量相关的方法、技术和系统,所述测序单元可以在测序单元阵列中(例如,芯片上的纳米孔阵列)。
根据一个实施方案,从测序单元中的核酸随时间测量信号值。信号值可用于创建直方图,从该直方图确定不同状态(例如,每个对应于不同核苷酸)的概率函数。每个概率函数(例如,如使用混合模型确定的)可以指定对应于特定核苷酸的信号的发射概率。状态和发射概率之间的转变概率可用于确定随时间的最可能的一组状态,从而提供核酸序列的碱基(核苷酸)的测量。直方图和概率函数可以是针对测序单元特异性的,从而在确定特定测序单元的核酸序列中提供增加的准确性。使用从直方图确定的概率函数还可以通过针对所测量的特定数据定制发射概率来提高准确性。
根据另一个实施方案,从测序单元中的核酸随时间测量信号值。信号值可用于创建直方图,从该直方图确定不同状态(例如,每个对应于不同核苷酸)的概率函数。每个概率函数(例如,如使用混合模型确定的)可以指定对应于特定核苷酸的信号的发射概率。可以进一步使用初始概率函数,例如作为更新程序的一部分来确定概率函数。以这种方式,概率函数可以随时间多次更新以对核酸进行测序。这些时间依赖性概率函数可用于最可能的状态,从而提供核酸序列的碱基(核苷酸)的测量。时间相关的概率函数可以通过考虑物理测序单元的属性的漂移来提高准确性。
根据另一个实施方案,从测序单元中的核酸随时间测量信号值。信号值可以对应于聚合酶的不同结合状态,包括不同的核苷酸结合状态(统称为结合状态)和未结合状态。2状态分类器可以在不同时间步长将信号值分类为对应于结合状态或未结合状态。可以使用第二分类器进一步分析对应于结合状态的信号亚组,以区分各种核苷酸结合状态。最可能的核苷酸结合状态可用于提供核酸序列的碱基(核苷酸)的测量。
因此,本发明提供了使用测序单元的方法,且从而提供了对核酸进行测序的方法,其特征在于所有上文和下文公开的技术特征。本发明还包括计算机产品,其包括存储多个指令的计算机可读介质,所述指令用于控制计算机系统以执行所公开的任何方法的操作。本发明还包括系统和仪器,其包括上面公开的计算机产品;以及一个或多个用于执行存储在计算机可读介质上的指令的处理器。
附图简述
图1是根据本发明实施方案的具有纳米孔单元阵列的纳米孔传感器芯片的实施方案的顶视图。
图2示出了根据本发明实施方案的纳米孔传感器芯片中的纳米孔单元的实施方案,其可用于表征多核苷酸或多肽。
图3示出了根据本发明实施方案的使用基于纳米孔的合成测序(Nano-SBS)技术进行核苷酸测序的纳米孔单元的实施方案。
图4示出了根据本发明实施方案的纳米孔单元中的电路的实施方案。
图5示出了根据本发明实施方案的在AC循环的亮周期(部分)和暗周期(部分)期间从纳米孔单元捕获的实例数据点。
图6示出了根据本发明实施方案的使用具有附着标签的核苷酸进行核酸测序的方法的实施方案。
图7示出了根据本发明实施方案的测序单元和相应数据层的简化图(模板(SEQ IDNO:1);酶(SEQ ID NO:2);孔数据(SEQ ID NO:3)。
图8示出了根据本发明实施方案的由脉冲组成的实例酶层。
图9示出了根据本发明实施方案的呈穿越状态的来自图7的测序单元和某些层中样品数据的简化图(模板(SEQ ID NO:1);酶(SEQ ID NO:2);孔数据(SEQ ID NO:3)。
图10是示出根据本发明实施方案的在模板核酸测序期间重建测序单元的物理状态的方法1000的流程图。
图11显示了归一化信号值的图和不同归一化值处的测量直方图,如通过根据本发明实施方案的开放通道(OC)值的一部分所测量的。
图12显示了根据本发明实施方案的包括5个状态的实例HMM。
图13显示了使用隐马尔可夫模型(HMM)确定隐藏状态的时间轨迹1300。
图14A显示了成对转移概率的实例转换矩阵。图14B显示了成对转移概率的实例转换矩阵,其中结合状态之间具有非零概率。
图15A显示了实例发射表,其包括观察到的参数在每五个状态的不同范围内的概率。图15B显示了根据本发明实施方案的5种状态(S0-S4)中的每一种的实例发射概率函数。
图16显示了根据本发明实施方案的四个孔状态的实例概率函数。
图17A显示了根据本发明实施方案的五个时间步长的四种状态的观察表。图17B显示了根据本发明实施方案的四种状态和五个时间步长的实例格图。
图18是根据本发明实施方案的使用测序单元确定时间依赖性概率函数用于测序核酸的方法的流程图。
图19是根据本发明实施方案的使用2状态分类器和第二分类器使用测序单元对核酸进行测序的方法的流程图。
图20显示了根据本发明实施方案的信号迹线、放大迹线、归一化信号值和直方图的实例。
图21显示了根据本发明实施方案的归一化信号值、中间视图和最高缩放视图。
图22显示了根据本发明实施方案的高缩放视图和前三个最可能的隐藏状态。
图23显示了根据本发明实施方案的系统和方法可使用的实例计算机系统的方框图。
术语
除非另有定义,否则本文使用的技术和科学术语具有如由本领域普通技术人员通常理解相同的含义。与本文描述的那些类似或等同的方法、装置和材料可用于所公开技术的实践中。提供以下术语是为了便于理解经常使用的某些术语,并不意味着限制本发明的范围。本文使用的缩写在化学和生物学领域中具有其常规含义。
“核酸”可以指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸及其聚合物。该术语可以包括含有已知核苷酸类似物或修饰的骨架残基或键合的核酸,其是合成的、天然存在的和非天然存在的,其具有与参考核酸相似的结合特性,并且其以类似于参考核苷酸的方式代谢。此类类似物的实例可包括但不限于硫代磷酸酯、亚磷酰胺、甲基膦酸酯、手性-甲基膦酸酯、2-O-甲基核糖核苷酸、肽-核酸(PNA)。除非另有说明,否则特定核酸序列也隐含地包括其保守修饰的变体(例如 ,简并密码子取代)和互补序列,以及明确指出的序列。具体地,简并密码子取代可以通过产生其中一个或多个选定(或所有)密码子的第三位置被混合碱基和/或脱氧肌苷残基取代的序列来实现(BatzerNucleic Acid Res.19:5081(1991);OhtsukaJ.Biol.Chem.260:2605-2608(1985);RossoliniMol. Cell. Probes 8:91-98(1994))。术语核酸可与基因、cDNA、mRNA、寡核苷酸和多核苷酸互换使用。
术语“模板”可以指单链核酸分子,其被复制到用于DNA合成的DNA核苷酸的互补链中。在一些情况下,模板可以指在mRNA合成期间复制的DNA序列。
术语“引物”可以指提供DNA合成起点的短核酸序列。催化DNA合成的酶,例如DNA聚合酶,可以在引物中添加新的核苷酸用于DNA复制。
聚合酶 ”可以指进行多核苷酸的模板指导合成的酶。该术语包括全长多肽和具有聚合酶活性的结构域。DNA聚合酶是本领域技术人员公知的,包括但不限于从激烈火球菌(Pyrococcus furiosus) 、 海滨嗜热球菌(Thermococcus litoralis)和海栖热袍菌(Thermotoga maritime)分离或衍生的DNA聚合酶,或其修饰形式。它们包括DNA依赖性聚合酶和RNA依赖性聚合酶,例如逆转录酶。已知至少五个DNA依赖性DNA聚合酶家族,尽管大多数属于A、B和C家族。各家族之间几乎没有或没有序列相似性。大多数家族A聚合酶是单链蛋白,其可以包含多种酶功能,包括聚合酶、3'至5'核酸外切酶活性和5'至3'核酸外切酶活性。家族B聚合酶通常具有单个催化结构域(其具有聚合酶和3'至5'核酸外切酶活性)以及辅助因子。家族C聚合酶通常是具有聚合和3'至5'核酸外切酶活性的多亚基蛋白质。在大肠杆菌(E. coli)中,已发现三种类型的DNA聚合酶,DNA聚合酶I(家族A)、II(家族B)和III(家族C)。在真核细胞中,三种不同的家族B聚合酶——DNA聚合酶α、δ和ε与核复制有关,且家族A聚合酶——聚合酶γ用于线粒体DNA复制。其他类型的DNA聚合酶包括噬菌体聚合酶。类似地,RNA聚合酶通常包括真核RNA聚合酶I、II和III,以及细菌RNA聚合酶以及噬菌体和病毒聚合酶。RNA聚合酶可以是DNA依赖性的和RNA依赖性的。
纳米孔”是指在膜中形成或以其他方式在膜中提供的孔、通道或通路。膜可以是有机膜,例如脂双层,或合成膜,例如由聚合物材料形成的膜。所述纳米孔可以被设置为邻近或接近感知电路或与感知电路偶联的电极(例如,互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路)。在某些实例中,纳米孔具有在0.1纳米(nm)至约1000nm的级别的特征宽度或直径。在一些实施中,纳米孔可以是蛋白质。
除了表示天然存在的核糖核苷酸或脱氧核糖核苷酸单体以外,术语"核苷酸"还可以被理解为表示其有关的结构变体,包括衍生物和类似物,它们就在其中使用所述核苷酸的特定背景(例如,与互补碱基杂交)而言在功能上等同,除非上下文另外清楚地指出。
标签”可以指可检测的部分,其可以是原子或分子,或原子或分子的集合。标签可以提供光学、电化学、磁性或静电(例如,电感、电容)特征(signature),该特征可以借助纳米孔检测。通常,当核苷酸与标签连接时,它被称为“带标签的核苷酸”。标签可以通过磷酸酯部分与核苷酸连接。
术语“亮周期”通常可以指通过AC信号施加的电场将带标签的核苷酸的标签强制进入纳米孔的时间段。术语“暗周期”通常可以指通过AC信号施加的电场将带标签的核苷酸的标签推出纳米孔的时间段。AC循环可以包括亮周期和暗周期。在不同的实施方案中,施加到纳米孔单元以使纳米孔单元进入亮周期(或暗周期)的电压信号的极性可以是不同的。亮周期和暗周期可以对应于交流信号相对于参考电压的不同部分。
术语“信号值”可以指从测序单元输出的测序信号的值。根据某些实施方案,测序信号可以是从一个或多个测序单元的电路中的点测量和/或输出的电信号,例如,信号值可以是(或表示)电压或电流。信号值可以表示电压和/或电流的直接测量的结果和/或可以表示间接测量,例如,信号值可以是电压或电流达到指定值所花费的测量的持续时间。信号值可以表示与纳米孔的电阻率相关并且可以从其衍生出纳米孔(穿越和/或未穿越)的电阻率和/或电导率的任何可测量。作为另一个实例,信号值可以对应于光强度,例如,来自附着于核苷酸的荧光团,所述核苷酸被聚合酶催化成核酸。
术语“直方图”可以指存储针对指定数量的间隔中的每一个的多个信号值的计数的数据结构(箱)。每个箱可以对应于信号值的离散值(例如,由ADC的分辨率确定)或者对应于间隔内的可能信号值的范围。
核苷酸状态”可以指在给定时间的核酸状态。当核酸通过纳米孔时,核苷酸状态可以对应于确定在时间上该时刻通过纳米孔的核苷酸。因此,可能存在四种核苷酸状态。当使用聚合酶时,核苷酸状态可以对应于结合状态,其可以包括四种核苷酸的四种结合状态和没有核苷酸存在于聚合酶的活性位点中的第五种状态。
详细描述
实施方案可以提供核酸序列测量的改进的准确性,例如,考虑测序方法的随机性质。一些实施方案可以使用特定于给定测序单元的基于时间的测量(例如,形成直方图)以产生用于确定在指定时间段内测量的碱基序列的定制模型。该模型可以包括概率函数,每个概率函数对应于不同的状态(例如,纳米孔的不同状态)。这样的概率函数可以适合于针对该特定单元获得的测量值的直方图,从而通过针对该特定单元定制概率函数来提供增加的准确性。概率函数可以随核酸的测序运行更新,从而可以考虑测序单元的物理性质的漂移。
在一些实施方案中,隐马尔可夫模型(HMM)可以使用这种概率函数作为用于确定随时间的最可能的核苷酸状态的发射概率。通过在聚合酶的结合和未结合状态之间进行2状态分类(例如,核苷酸是否在聚合酶的活性位点中),可以获得对涉及聚合酶的测序单元的其他益处(例如,用于计算效率)。可以通过第二分类器进一步分析结合区域以区分对应于不同结合核苷酸的状态。
介绍部分描述了可以在实施方案中使用的各种生物过程和电气设备。然后描述实例测序单元的不同物理层和相应数据层。提供了用于重建从测序单元测量的信号值以测量核酸序列的管线。进一步描述了一个或多个隐马尔可夫模型的使用。实施方案可以提供质量评分,其可以用于选择特定信号值以用于生成例如概率函数的模型。还描述了时间相关的概率函数和两个分类阶段的使用。
I. 基于纳米孔的测序芯片
图1是具有纳米孔单元150的阵列140的纳米孔传感器芯片100的实施方案的顶视图。每个纳米孔单元150包括集成在纳米孔传感器芯片100的硅衬底上的控制电路。在某些实施方案中,可以在阵列140中包括侧壁136以分离纳米孔单元150的集合,使得每个集合可以接受不同的样品用于表征。每个纳米孔单元可用于测序核酸。在某些实施方案中,纳米孔传感器芯片100可以包括盖板130。在一些实施方案中,纳米孔传感器芯片100还可包括多个引脚110,其用于与其他电路(例如计算机处理器)接口。
在一些实施方案中,纳米孔传感器芯片100可以在同一封装中包括多个芯片,例如,多芯片模块(MCM)或系统级封装(SiP)。芯片可以包括例如存储器、处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数据转换器、高速I/O接口等。
在某些实施方案中,纳米孔传感器芯片100可以联接到(例如,对接至)纳米芯片工作站120,其可以包括用于实施(例如,自动地实施)本文公开的方法的多个实施方案的多个部件,包括例如,分析物递送机构诸如用于递送脂质悬浮液或其他膜结构悬浮液、分析物溶液和/或其他液体、悬浮液或固体的移液器、机器人臂、计算机处理器和/或存储器。可以在纳米孔单元150的阵列140上检测多个多核苷酸。在一些实施方案中,每个纳米孔单元150可以是可单独寻址的。
II. 纳米孔测序单元
纳米孔传感器芯片100中的纳米孔单元150可以以许多不同方式实施。例如,在一些实施方案中,不同大小和/或化学结构的标签可以连接到待测序的核酸分子中的不同核苷酸。在一些实施方案中,可以通过使不同聚合物带标签的核苷酸与模板杂交来合成待测序核酸分子的模板的互补链。在一些实施方案中,核酸分子和附着的标签可以都穿过纳米孔 ,并且穿过纳米孔的离子电流可以指示纳米孔中的核苷酸,这是因为附着至核苷酸的标签的特定大小和/或结构。在一些实施中,可以仅将标签移动到纳米孔中。还可以有许多不同的方法来检测纳米孔中的不同标签。
A. 纳米孔测序单元结构
图2示出了纳米孔传感器芯片中的纳米孔单元200的实施方案,例如图1的纳米孔传感器芯片100中的纳米孔单元150,其可用于表征多核苷酸或多肽。纳米孔单元200可包括:由介电层201和204形成的孔205;膜,例如在孔205上形成的脂质双层214;和脂质双层214上并通过脂质双层214与孔205分开的样品室215。孔205可以包含一定体积的电解质206,并且样品室215可以容纳包含纳米孔的本体电解质208,例如可溶性蛋白质纳米孔跨膜分子复合物(PNTMC)和目标分析物(例如,待测序的核酸分子)。
纳米孔单元200可包括位于孔205底部的工作电极202和设置在样品室215中的对电极210。信号源228可以在工作电极202和对电极210之间施加电压信号。可以通过由电压信号引起的电穿孔过程将单个纳米孔(例如,PNTMC)插入脂质双层214中,从而在脂质双层214中形成纳米孔216。阵列中的各个膜(例如,脂质双层214或其他膜结构)彼此可以既不化学连接也不电连接。因此,阵列中的每个纳米孔单元可以是独立的测序机,其产生对与纳米孔相关的单个聚合物分子所特有的数据,所述纳米孔对目标分析物起作用并调节通过以其他方式不可渗透的脂质双层的离子电流。
如图2中所示,纳米孔单元200可以形成在衬底230上,例如硅衬底。介电层201可以形成在衬底230上。用于形成介电层201的介电材料可包括例如玻璃、氧化物、氮化物等。用于控制电刺激和处理从纳米孔单元200检测到的信号的电路222可以形成在衬底230上和/或在介电层201内。例如,可以在介电层201中形成多个图案化金属层(例如,金属1至金属6),并且可以在衬底230上制造多个有源器件(例如,晶体管)。在一些实施方案中,包括信号源228作为电路222的一部分。电路222可以包括例如放大器、集成电路、模数转换器、噪声滤波器、反馈控制逻辑和/或各种其他组件。电路222可以进一步耦合到耦合到存储器226的处理器224,其中处理器224可以分析测序数据以确定已经在阵列中测序的聚合物分子的序列。
工作电极202可以形成在介电层201上,并且可以形成孔205的底部的至少一部分。在一些实施方式中,工作电极202是金属电极。对于非感应电流传导,工作电极202可以由金属或其他耐腐蚀和氧化的材料制成,例如铂、金、氮化钛和石墨。例如,工作电极202可以是具有电镀铂的铂电极。在另一实例中,工作电极202可以是氮化钛(TiN)工作电极。工作电极202可以是多孔的,从而增加其表面积和与工作电极202相关的最终电容。因为纳米孔单元的工作电极可以独立于另一纳米孔单元的工作电极,所以在本公开中工作电极可以称为单元电极。
介电层204可以形成在介电层201上方。介电层204在孔205周围形成壁。用于形成介电层204的介电材料可包括例如玻璃、氧化物、一氮化硅(SiN)、聚酰亚胺或其他合适的疏水绝缘材料。介电层204的顶表面可以硅烷化。硅烷化在介电层204的顶表面上方形成疏水层220。在一些实施方案中,疏水层220的厚度为约1.5纳米(nm)。
由介电层204的壁形成的孔205包括在工作电极202上方的电解质206的体积。电解质206的体积可以是缓冲的,并且可以包括以下中的一种或多种:氯化锂(LiCl)、氯化钠(NaCl)、氯化钾(KCl)、谷氨酸锂、谷氨酸钠、谷氨酸钾、乙酸锂、乙酸钠、乙酸钾、氯化钙(CaCl2)、氯化锶(SrCl2)、氯化锰(MnCl2)和氯化镁(MgCl2)。在一些实施方案中,电解质206的体积具有约3微米(µm)的厚度。
还如图2所示,膜可以形成在介电层204的顶部上并跨越孔205。在一些实施方案中,膜可包括形成在疏水层220顶部的脂质单层218。当膜到达孔205的开口时,脂质单层218可以转变为跨越孔205的开口的脂质双层214。脂质双层可包含磷脂或由磷脂组成,例如,所述磷脂选自二植烷酰-磷脂酰胆碱(DPhPC)、1,2-二植烷酰-sn-甘油-3-磷酸胆碱、1,2-二-O-植烷基-sn-甘油-3-磷酸胆碱(DoPhPC)、棕榈酰-油酰-磷脂酰胆碱(POPC)、二油酰-磷脂酰-甲酯(DOPME)、二棕榈酰磷脂酰胆碱(DPPC)、磷脂酰胆碱、磷脂酰乙醇胺、磷脂酰丝氨酸、磷脂酸、磷脂酰肌醇、磷脂酰甘油、鞘磷脂、1,2-二-O-植烷基-sn-甘油;1,2-二棕榈酰基-sn-甘油基-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-350];1,2-二棕榈酰基-sn-甘油基-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-550];1,2-二棕榈酰基-sn-甘油基-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-750];1,2-二棕榈酰基-sn-甘油基-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-1000];1,2-二棕榈酰基-sn-甘油基-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000];1,2-二油酰基-sn-甘油-3-磷酸乙醇胺-N-乳糖;GM1神经节苷脂、溶血磷脂酰胆碱(LPC)或其任何组合。
如所示,脂质双层214嵌入有单个纳米孔216,例如,由单个PNTMC 形成。如上所述,可以通过电穿孔将单个PNTMC插入脂质双层214中来形成纳米孔216。纳米孔216可以足够大以使脂质双层214的两侧之间传递至少一部分目标分析物和/或小离子(例如,Na+、K+、Ca2+、Cl-)。
样品室215位于脂质双层214上方,并且可以容纳目标分析物的溶液用于表征。所述溶液可以是含有本体电解质208的水溶液并且被缓冲至最适离子浓度和维持在最适pH以保持纳米孔216开放。纳米孔216横跨脂质双层214,并且提供了离子流从主体电解液208到工作电极202的唯一通路。除了纳米孔(例如,PNTMC)和目标分析物之外,本体电解质208还可以包含以下中的一种或多种:氯化锂(LiCl)、氯化钠(NaCl)、氯化钾(KCl)、谷氨酸锂、钠谷氨酸、谷氨酸钾、乙酸锂、乙酸钠、乙酸钾、氯化钙(CaCl2)、氯化锶(SrCl2)、氯化锰(MnCl2)和氯化镁(MgCl2)。
对电极210可以是电化学电位传感器。在一些实施方案中,对电极210在多个纳米孔单元之间共享,并且因此也称作共同电极。在一些情况下,共同电位和共同电极可以是所有纳米孔单元共有的,或者至少是特定分组内的所有纳米孔单元共有的。共同电极可以被配置为向与纳米孔216接触的本体电解质208施加共同电位。对电极210和工作电极202可以耦合到信号源228,用于跨脂双层214提供电刺激(例如,电压偏置),并且可以用于感测脂双层214的电特性(例如,电阻、电容和离子电流)。在一些实施方案中,纳米孔单元200还可包括参比电极212。
在一些实施方案中,可以在创建纳米孔单元期间进行各种检查作为校准的一部分。一旦产生纳米孔单元,就可以进行进一步的校准步骤,例如,以鉴定根据需要进行的纳米孔单元(例如,单元中的一个纳米孔)。这种校准检查可以包括物理检查、电压校准、开放通道校准和具有单个纳米孔的单元识别。
B. 纳米孔测序单元的检测信号
纳米孔传感器芯片中的纳米孔单元,例如纳米孔传感器芯片100中的纳米孔单元150,可以通过合成(Nano-SBS)技术使用基于单分子纳米孔的测序实现平行测序。
图3示出了使用Nano-SBS技术进行核苷酸测序的纳米孔单元300的实施方案。在Nano-SBS技术中,可以将待测序的模板332(例如,核苷酸分子或另一种感兴趣的分析物)和引物引入纳米孔单元300的样品室中的本体电解质308中。作为示例,模板332可以是环状或线性的。核酸引物可以与模板332(可以向其添加四种不同的聚合物带标签的核苷酸338)的一部分杂交。
在一些实施方案中,酶(例如,聚合酶334,例如DNA聚合酶)可以与纳米孔316结合,用于合成与模板332的互补链。例如,聚合酶334可以共价连接至纳米孔316。聚合酶334可以使用单链核酸分子作为模板催化核苷酸338掺入到引物上。核苷酸338可包含标签物质(“标签”),其中核苷酸是四种不同类型之一:A、T、G或C。当带标签的核苷酸与聚合酶334正确结合时,可以通过电力将标签拉伸(加载)到纳米孔中,所述电力例如在由跨越脂质双层314和/或纳米孔316施加的电压产生的电场存在下产生的力。带标签的尾部可以定位在纳米孔316的桶中。由于标签的不同化学结构和/或尺寸,保持在纳米孔316的桶中的标签可以产生独特的离子阻挡信号340,从而以电子方式识别标签所附着的添加的碱基。
如本文所用,“加载的”或“穿越的”标签可以是位于纳米孔中和/或保持在纳米孔中或附近,持续可观量的时间例如0.1毫秒(ms)至10000毫秒的的标签。在一些情况下,在从核苷酸释放之前将标签加载到纳米孔中。在一些情况下,加载的标签在核苷酸掺入事件后释放之后通过纳米孔(和/或被纳米孔检测)的概率合适地高,例如90%至99%。
在一些实施方案中,在聚合酶334与纳米孔316连接之前,纳米孔316的电导可以是高的,例如约300皮西门子(300pS ) 。当标签加载在纳米孔中时,由于标签的不同化学结构和/或尺寸,产生独特的电导信号(例如,信号340)。例如,纳米孔的电导可以是约60pS、80pS、100pS或120pS,各自对应于四种类型的标签核苷酸中的一种。聚合酶可以然后经过异构化和转磷酸化反应,将核苷酸掺入生长中的核酸分子,并释放标签分子。
在一些情况下,一些带标签的核苷酸可能与核酸分子(模板)的当前位置不匹配(互补碱基)。未与核酸分子碱基配对的带标签的核苷酸也可以通过纳米孔。这些非配对的核苷酸可以在一定时间尺度内被聚合酶排斥,所述时间尺度比正确配对的核苷酸保持与聚合酶结合的时间尺度更短。与非配对的核苷酸结合的标签可以快速通过纳米孔,并且可以在短时间内(例如,小于10ms)被检测到,而与配对的核苷酸结合的标签可以被加载到纳米孔中并且被检测很长一段时间(例如,至少10ms)。因此,可以至少部分地基于在纳米孔中检测核苷酸的时间通过下游处理器来鉴定非配对的核苷酸。
可以通过穿过纳米孔的电流测量包括加载的(穿越的)带标签的纳米孔的电导(或者等同地,电阻),从而提供标签物质的鉴定,并由此提供当前位置的核苷酸。在一些实施方案中,可以将直流(DC)信号施加到纳米孔单元(例如,使得标签移动通过纳米孔的方向不反转)。然而,使用直流电操作纳米孔传感器长时间可改变电极的组成,使跨越纳米孔的离子浓度失衡,并且具有可影响纳米孔单元寿命的其他不期望的效果。施加交流(AC)波形可以减少电迁移以避免这些不期望的效果并且具有如下所述的某些优点。本文描述的利用带标签的核苷酸的核酸测序方法与施加的AC电压完全兼容,因此可以使用AC波形来实现这些优点。
当使用消耗电极,即在载流反应中改变分子特征的电极(例如,包含银的电极)或在载流反应中改变分子特征的电极时,在AC检测循环期间对电极再充电的能力可能是有利的。当使用直流信号时,电极可能在检测周期期间耗尽。再充电可以防止电极达到耗尽极限,例如变得完全耗尽,这在电极很小时可能是个问题(例如,当电极足够小以提供每平方毫米具有至少500个电极的电极阵列时)。在某些情况下,电极寿命与电极的宽度成比例,并且至少部分地取决于电极的宽度。
用于测量通过纳米孔的离子电流的合适条件是本领域已知的,并且本文提供了实例。可以在跨膜和孔施加电压的情况下进行测量。在一些实施方案中,使用的电压可以为-400mV至+400mV。使用的电压优选地是在具有选自-400mV、-300mV、-200mV、-150mV、-100mV、-50mV、-20mV和0 mV的下限和独立地选自+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV和+400mV的上限的范围内。使用的电压可以更优选地是在100mV至240mV范围内,且最优选地是在160mV至240mV的范围内。使用增加的施加的电位可以通过纳米孔增加不同核苷酸之间的区分。使用AC波形和带标签的核苷酸对核酸进行测序描述于2013年11月6日提交的名称为"使用带标签的核酸测序(Nucleic Acid Sequencing Using Tags)"的美国专利公开号US2014/0134616中,其整体通过引用并入本文。除了在中描述的带标签的核苷酸以外,使用缺乏糖或无环部分的核苷酸类似物,例如,五种常见核碱基腺嘌呤、胞嘧啶、鸟嘌呤、尿嘧啶和胸苷的(S)-甘油核苷三磷酸酯(gNTP)可以执行测序(Horhota等人.Organic Letters, 8:5345-5347 [2006])。
C. 纳米孔测序单元的电路
图4示出了纳米孔单元(例如纳米孔单元200)中的电路400(其可以包括图2中的电路222的部分)的实施方案。如上所述,在一些实施方案中,电路400包括对电极410,其可以在纳米孔传感器芯片中的多个纳米孔单元或所有纳米孔单元之间共享,因此也可以称为公共电极。公共电极可以被配置为通过连接到电压源VLIQ 420将公共电位施加到与纳米孔单元中的脂质双层(例如,脂质双层214)接触的本体电解质(例如,本体电解质208)。在一些实施方案中,AC非法拉第模式可用于利用AC信号(例如,方波)调制电压V liq并将其施加到与纳米孔单元中的脂质双层接触的本体电解质。在一些实施方案中,Vliq是方波,其幅度为±200-250mV,并且频率在例如25和400Hz之间。对电极410和脂质双层( 例如,脂质双层214)之间的本体电解质可以通过大电容器(未示出)(例如100 μ F或更大)模造。
图4还示出了代表工作电极402(例如,工作电极202)和脂质双层( 例如,脂质双层214)的电特性的电学模型422。电模型422包括模拟与脂质双层相关联的电容的电容器426(C双层)和模拟与纳米孔相关联的可变电阻的电阻器428(R),其可以基于纳米孔中特定标签的存在而改变。电气模型422还包括具有双层电容(C双层)并且代表工作电极402和孔205的电特性的电容器424。工作电极402可以配置成独立于其他纳米孔单元中的工作电极施加不同的电位。
通过装置406是可用于将脂质双层和工作电极与电路400连接或断开的开关。通过装置406可以由控制线407控制,以启用或禁用跨越纳米孔单元中的脂质双层而施加的电压刺激。在沉积脂质以形成脂质双层之前,两个电极之间的阻抗可能非常低,因为纳米孔单元的孔未被密封,因此传递装置406可以保持打开以避免短路状况。在将脂质溶剂沉积到纳米孔单元以密封纳米孔单元的孔之后,可以关闭通过装置406。
电路400还可以包括芯片上积分电容器408(ncap)。可以通过使用复位信号403来预充电积分电容器408以闭合开关401,使得积分电容器408连接到电压源VPRE405。在一些实施方案中,电压源VPRE405提供具有例如900mV幅度的恒定参考电压。当开关401闭合时,可以将积分电容器408预充电到电压源VPRE405的参考电压水平。
在积分电容器408被预充电之后,复位信号403可用于打开开关401,使得积分电容器408与电压源VPRE405断开。此时,取决于电压源Vliq的水平,对电极410的电位可以处于高于工作电极402(和积分电容器408)的电位的水平,反之亦然。例如,在来自电压源 Vliq的方波的正相位(例如,AC电压源信号周期的亮或暗周期)期间,对电极410的电位处于高于工作电极402的电位的水平。在来自电压源 Vliq的方波的负相位(例如,AC电压源信号周期的暗或亮周期)期间,对电极410的电位处于低于工作电极402的电位的水平。因此,在一些实施方案中,可以在从电压源VPRE405 的预充电电压水平到较高水平的亮周期期间进一步对积分电容器408充电,并且在暗周期期间放电到较低水平(由于对电极410和工作电极402之间的电位差)。在其他实施方案中,充电和放电可分别在暗周期和亮周期中发生。
积分电容器408可以在固定的时间段内充电或放电,这取决于模拟-数字转换器(ADC)435的采样速率,其可以高于1kHz、5kHz、10kHz、100kHz,或者更多。例如,在采样速率为1kHz的情况下,积分电容器408可以充电/放电约1ms的时段,然后可以在积分时段结束时由ADC435对电压水平进行采样和转换。特定电压水平将对应于纳米孔中的特定标签物质,因此对应于模板上当前位置处的核苷酸。
在通过ADC 435采样之后,可以通过使用复位信号403来关闭开关401来再次对积分电容器408进行预充电,使得积分电容器408再次连接到电压源VPRE405。对积分电容器408进行预充电,等待用于积分电容器408充电或放电的固定时间段,以及通过ADC 435对积分电容器的电压水平进行采样和转换的步骤可以在整个测序过程的循环中重复。
数字处理器430可处理ADC输出数据,例如,用于归一化、数据缓冲、数据滤波、数据压缩、数据减少、事件提取,或将来自纳米孔单元阵列的ADC输出数据组装成各种数据帧。在一些实施方案中,数字处理器430可以执行进一步的下游处理,例如碱基确定。数字处理器430可以实现为硬件(例如,在GPU、FPGA、ASIC等中)或者实现为硬件和软件的组合。
因此,跨纳米孔施加的电压信号可用于检测纳米孔的特定状态。当纳米孔的桶中不存在附着有带标签的多磷酸酯时,纳米孔的可能状态之一是开放通道状态,在本文中也称为纳米孔的无穿越状态。纳米孔的另外四种可能状态各自对应于四种不同类型的附着带标签的多磷酸核苷酸(A、T、G或C)中的一种保持在纳米孔的桶中时的状态。纳米孔的另一种可能状态是脂质双层破裂时。
当在固定的时间段之后测量积分电容器408 上的电压水平时,纳米孔的不同状态可导致不同电压水平的测量值。这是因为积分电容器408上的电压衰减(通过放电而减小或通过充电而增加)的速率(即,积分电容器408上的电压的斜率相对于时间的曲线的陡度)取决于纳米孔电阻(例如,电阻器R 428的电阻)。更具体地,由于不同状态下与纳米孔相关的电阻由于分子(标签)的不同的化学结构而不同,可以观察到不同的相应电压衰减速率并且可以用于识别纳米孔的不同状态。电压衰减曲线可以是具有RC时间常数τ= RC的指数曲线,其中R是与纳米孔相关的电阻(即,R428),C是与和R平行的膜相关的电容(即,电容器426(C双层))。纳米孔单元的时间常数可以是例如约200-500ms。由于双层的详细实施,衰减曲线可能不完全拟合指数曲线,但衰减曲线可能类似于指数曲线并且是单调的,因此允许检测标签。
在一些实施方案中,在开放通道状态下与纳米孔相关的电阻可以在100MΩ至20MΩ的范围内。在一些实施方案中,在标签位于纳米孔的桶内的状态下与纳米孔相关的电阻可以在200MΩ至40MΩ的范围内。在其他实施方案中,可以省略积分电容器408,因为通向ADC 435的电压仍将由于电气模型422中的电压衰减而变化。
积分电容器408上的电压衰减速率可以以不同方式确定。如上所解释的,可以通过测量固定时间间隔期间的电压衰减来确定电压衰减的速率。例如,积分电容器408上的电压可以在时间t1由ADC 435首先测量,然后在时间t2由ADC 435再次测量电压。当积分电容器408上的电压随时间变化的曲线的斜率更陡时,电压差更大,并且当电压曲线的斜率较不陡时,电压差更小。因此,电压差可以用作用于确定积分电容器408上的电压衰减速率的度量,并因此确定纳米孔单元的状态。
在其他实施方案中,可以通过测量选定量的电压衰减所需的持续时间来确定电压衰减的速率。例如,可以测量电压从第一电压水平V1下降或增加到第二电压水平V2所需的时间。当电压-时间曲线的斜率更陡时,所需时间更短,并且当电压-时间曲线的斜率较不陡时,所需时间更长。因此,测量的所需的时间可以用作用于确定积分电容器ncap408上的电压衰减速率的度量,并因此确定纳米孔单元的状态。本领域技术人员将理解可用于测量纳米孔的电阻的各种电路,例如,包括电流测量技术。
在一些实施方案中,电路400可以不包括在芯片上制造的传递装置(例如,传递装置406)和额外电容器(例如,积分电容器408(ncap)),从而有助于减小基于纳米孔的测序芯片的尺寸。由于膜(脂质双层)的薄性质,单独与膜(例如,电容器426(C双层 ))相关联的电容可能足以产生所需的RC时间常数而无需额外的芯片上电容。因此,电容器426可以用作积分电容器,并且可以通过电压信号VPRE预充电,并且随后通过电压信号VLIQ放电或充电。消除否则在电路中芯片上制造的额外电容器和传递装置可以显著减少纳米孔测序芯片中单个纳米孔单元的范围,从而促进纳米孔测序芯片的缩放以包括更多的单元(例如,在纳米孔测序芯片中具有数百万个单元)。
D. 纳米孔单元中的数据采样
为了进行核酸的测序,可以通过ADC(例如,ADC 435)对积分电容器(例如,积分电容器408(ncap)或电容器426(C双层))的电压水平进行采样和转换,同时带标签的核苷酸被添加到核酸中。核苷酸的标签可以通过跨越纳米孔的电场被推入纳米孔的桶中,所述电场通过对电极和工作电极施加,例如,当施加的电压使得Vliq低于VPRE时。
1. 穿越
穿越事件是当带标签的核苷酸附着于模板(例如,核酸片段),并且标签进出纳米孔的桶时。这可能在穿越事件期间多次发生。当标签位于纳米孔的桶中时,纳米孔的电阻可以更高,并且更低的电流可以流过纳米孔。
在测序期间,标签可能在一些AC循环中不在纳米孔中(称为开放通道状态),其中电流是最高的,因为纳米孔的电阻较低。当标签被吸引到纳米孔的桶中时,纳米孔处于亮模式。当标签被推出纳米孔的桶时,纳米孔处于暗模式。
2. 亮和暗周期
在AC循环期间,ADC可以对积分电容器上的电压进行多次采样。例如,在一个实施方案中,AC电压信号以例如约100Hz跨越系统施加,并且ADC的采集速率可以是每个单元约2000Hz。因此,每个AC循环(AC波形的循环)可以捕获大约20个数据点(电压测量值)。对应于AC波形的一个循环的数据点可以称为一组。在AC循环的一组数据点中,可能存在当例如Vliq低于VPRE时捕获的亚组,其可以对应于标签被强制进入纳米孔的桶的亮模式(周期)。另一个亚组可以对应于暗模式(周期),其中当例如Vliq高于VPRE时,通过施加的电场将标签推出纳米孔的桶。
3. 测量的电压
对于每个数据点,当开关401开放时,积分电容器(例如,积分电容器408(ncap)或电容器426(C双层))处的电压将由于通过VLIQ的充电/放电而以衰减方式改变,例如,当VLIQ高于VPRE时从V PRE增加到VLIQ或者当VLIQ低于VPRE时从VPRE降低至VLIQ。当工作电极充电时,最终电压值可能偏离Vliq 。积分电容器上的电压水平的变化速率可以由双层电阻的值控制,双层电阻可以包括纳米孔,纳米孔又可以包括纳米孔中的分子(例如,带标签的核苷酸的标签)。可以在开关401打开之后的预定时间测量电压水平。
开关401可以以数据获取的速率操作。开关401可以在两次数据采集之间关闭相对短的时间段,通常恰好在ADC测量之后。该开关允许在VLIQ的每个AC循环的每个子周期(亮或暗)期间收集多个数据点。如果开关401保持开放,则积分电容器上的电压水平以及由此导致的 ADC的输出值将完全衰减并保持在那里。相反,当开关401闭合时,积分电容器再次预充电(至VPRE )并准备好进行另一次测量。因此,开关401允许针对每个AC循环的每个子周期(亮或暗)收集多个数据点。这样的多次测量可以允许具有固定ADC的更高分辨率(例如,由于更多次数的测量,8-bit到14-bit,其可以被平均化)。多次测量还可以提供关于穿入纳米孔的分子的动力学信息。定时信息可以允许确定穿越发生多长时间。这也可用于帮助确定添加到核酸链的多个核苷酸是否正在测序。
图5示出了在AC循环的亮周期和暗周期期间从纳米孔单元捕获的示例数据点。在图5中,为了说明的目的,夸大了数据点的变化。施加到工作电极或积分电容器的电压(VPRE)处于恒定水平,例如900mV。施加到纳米孔单元的对电极的电压信号510(VLIQ)是显示为矩形波的AC信号,其中工作循环可以是任何合适的值,例如小于或等于50%,例如,大约40%。
在亮周期520期间,施加到对电极的电压信号510(VLIQ)低于施加到工作电极的电压VPRE,使得标签可以通过电场而被强制进入纳米孔的桶中,所述电场由在工作电极和对电极处施加的不同电压水平(例如,由于标签上的电荷和/或离子的流动)引起。当开关401开放时,ADC之前的节点处的电压(例如,在积分电容器处)将减小。在捕获电压数据点之后(例如,在指定的时间段之后),可以闭合开关401并且测量节点处的电压将再次增加回到VPRE。该过程可以重复以测量多个电压数据点。以这种方式,可以在亮周期期间捕获多个数据点。
如图5所示,在VLIQ信号的指示改变之后的亮周期中的第一数据点522(也称为第一点德尔塔(FPD))可以低于后续数据点524。这可能是因为纳米孔(开放通道)中没有标签,因此它具有低电阻和高放电率。在一些情况下,第一数据点522可以超过V LIQ水平,如图5所示。这可能是由将信号偶联到芯片上电容器的双层的电容引起的。可以在穿越事件发生之后捕获数据点524,即,标签被迫进入纳米孔的桶中,其中纳米孔的电阻以及因此积分电容器的放电速率取决于被迫进入纳米孔的桶中的标签的特定类型。由于在C双层424处建立的电荷,数据点524可以针对每次测量略微减小,如下所述。
在暗周期530期间,施加到对电极的电压信号510(VLIQ)高于施加到工作电极的电压(VPRE),使得任何标签将被推出纳米孔的桶。当开关401开放时,测量节点处的电压增加,因为电压信号510(VLIQ)的电压水平高于VPRE。在捕获电压数据点之后(例如,在指定的时间段之后),可以闭合开关401并且测量节点处的电压将再次减小回到VPRE。该过程可以重复以测量多个电压数据点。因此,可以在暗周期期间捕获多个数据点,包括第一点δ532和后续数据点534。如上所述,在暗周期期间,任何核苷酸标签被推出纳米孔,因此除了用于归一化之外,还获得关于任何核苷酸标签的最小信息。
图5还示出了在亮周期540期间,即使施加到对电极的电压信号510(VLIQ)低于施加到工作电极的电压(VPRE),也不会发生穿越事件(开放通道)。因此,纳米孔的电阻低,并且积分电容器的放电率高。结果,捕获的数据点(包括第一数据点542和后续数据点544)显示低电压水平。
对于纳米孔的恒定电阻的每次测量,可以预期在亮或暗周期期间测量的电压大致相同(例如,在给定AC循环的亮模式期间做出,而一个标签在纳米孔中),但是当电荷在双层电容器424(C双层)处累积时可能不是这种情况。该电荷积聚可导致纳米孔单元的时间常数变得更长。结果,可以移动电压水平,从而使得测量值在一个循环中对于每个数据点减小。因此,在一个循环内,数据点可以从数据点稍微改变到另一个数据点,如图5所示。
关于测量的进一步细节可见于例如标题为“Nanopore-Based Sequencing WithVarying Voltage Stimulus,”的美国专利公开号2016/0178577 、标题为“Nanopore-BasedSequencing With Varying Voltage Stimulus,”的美国专利公开号2016/0178554 、标题为“Non-Destructive Bilayer Monitoring Using Measurement Of Bilayer ResponseTo Electrical Stimulus,”的美国专利申请号15/085,700和标题为“ElectricalEnhancement Of Bilayer Formation,”的美国专利申请号15/085,713,其公开内容为了所有目的以其整体通过引用并入。
4. 归一化和碱基识别
对于纳米孔传感器芯片的每个可用的纳米孔单元,可以运行生产模式以对核酸进行测序。可以对在测序期间捕获的ADC输出数据进行归一化以提供更高的准确度。归一化可以解决偏移效应,例如循环形状、增益漂移、电荷注入补偿和基线偏移。在一些实施中,可以平坦化对应于穿越事件的亮周期循环的信号值,使得针对该循环获得单个信号值(例如,平均值),或者可以对测量的信号进行调整以减小内部-循环衰减(一种类型的循环形状效应)。增益漂移通常会对整个信号进行缩放,并且按顺序变化为成百上千秒。例如,增益漂移可以通过溶液的变化(孔隙电阻)或双层电容的变化来触发。基线偏移以~100ms的时间尺度发生,并且与工作电极处的电压偏移有关。由于需要将测序单元中的电荷平衡从亮周期保持到暗周期,因此可以通过来自穿线的有效整流比的变化来驱动基线偏移。
在归一化之后,实施方案可确定穿越通道的电压簇,其中每个簇对应于不同的标签物质,因此对应于不同的核苷酸。簇可用于确定对应于给定核苷酸的给定电压的概率。作为另一个例子,簇可以用于确定用于区分不同核苷酸(碱基)的截止电压。
下面提供了基于信号测量确定核酸的碱基的实例方法。尽管实例可以使用电压测量来说明,但是实例技术同样适用于其他信号测量,例如电流测量。
III. 测序单元的状态
需要模板核酸的序列,但需要从测量推断序列的具体碱基。系统的各种物理特性可能使得难以执行这样的测定。在从信号测量(例如,ADC层)确定模板核酸(模板层)的序列的过程中,各种数据层可以对应于不同的推断水平。各种数据层包括模板层、酶层、孔层和单层。在讨论各种数据层之前,说明了标签的核苷酸和穿线的各种掺入状态。
A. 基于纳米孔的合成测序
图6示出了根据本发明实施方案的使用具有附着标签的核苷酸进行核酸测序的方法600的实施方案。阶段A显示了使用这种带标签的核苷酸进行核苷酸测序的测序单元。在膜602中形成纳米孔601。酶603 (例如,聚合酶,如DNA聚合酶)与纳米孔结合。在一些情况下,聚合酶603共价连接至纳米孔601。聚合酶603与待测序的核酸分子604结合。在一些实施方式中,所述核酸分子604是环形的。在一些情况下中,核酸分子604是线性的。在一些实施方式中,核酸引物605杂交到核酸分子604的一部分。聚合酶603使用单链核酸分子604作为模板,催化核苷酸606并入到引物605上。核苷酸606包含标签种类("标签") 607。
在阶段A,带标签的核苷酸(四个不同类型:A、T、G或C之一)没有与聚合酶结合。阶段A对应于核苷酸的未结合状态(因为没有核苷酸与聚合酶603或核酸604结合)和任何标签的未穿越状态(因为没有标签在孔601中)。在阶段B,带标签的核苷酸与聚合酶结合。阶段B对应于核苷酸606的结合状态,但对应于标签607的未穿越状态。
在阶段C,聚合酶对接到纳米孔,并且标签穿越入纳米孔中。在对接期间,标签被电力拉入纳米孔中,例如在通过跨越膜和/或纳米孔施加电压而生成的电场的存在下而产生的力。“穿越的"标签可以是定位在纳米孔中和/或停留在纳米孔中或附近持续可观察的时间量(例如0.1毫秒至10,000毫秒)的标签。阶段C对应于核苷酸的结合状态和标签的未穿越状态。
在阶段D,释放的标签通过纳米孔。一些结合的带标签的核苷酸不是与核酸分子配对的碱基。这些非配对的核苷酸通常在一定时间尺度内被聚合酶排斥,所述时间尺度比正确配对的核苷酸保持与聚合酶结合的时间尺度更短。由于非配对核苷酸仅与聚合酶瞬时结合,因此如图6所示的方法600通常不进行超出阶段D。例如,在B阶段由聚合酶排斥未配对的核苷酸或在该过程之后不久进入阶段C。
在各种实施方案中,在聚合酶对接纳米孔之前,纳米孔的电导可为~300皮西门子(300pS)。作为其他实例,在阶段C,纳米孔的电导可以是约60pS、80pS、100pS或120pS,分别对应于四种类型的带标签的核苷酸之一。聚合酶经过异构化和转磷酸化反应,将核苷酸并入生长中的核酸分子,并释放标签分子。具体地,当标签保持在纳米孔中时,由于标签的不同特化学结构产生独特的信号,从而通过电学方式确定所添加的碱基。重复所述循环(即,阶段A至E),允许核酸分子的测序。
在一些情况下,没有并入生长中的核酸分子的带标签的核苷酸也将通过纳米孔,如图6的阶段F中所见。阶段F对应于未结合的核苷酸和穿越的标签。在一些情况下,通过纳米孔可以检测未掺入的核苷酸,但是实施方案可以区分掺入的核苷酸和未掺入的核苷酸,例如,基于在纳米孔中检测核苷酸的时间。与未掺入的核苷酸结合的标签快速通过纳米孔,并且在短的时间段(例如,小于10 ms)被检测到,而与掺入的核苷酸结合的标签穿越入纳米孔中,并且在长的时间段(例如,至少10 ms)被检测到。
B. 数据层
图7显示了根据本发明实施方案的测序单元700和相应数据层的简化图。显示使用膜714中的纳米孔701通过酶703将模板核酸分子704合成测序。图7显示了在将核苷酸706催化成模板核酸分子704的过程中的酶703。因此,酶703处于对应于碱基T的结合状态。标签707没有穿越入纳米孔701中,并且因此处于未穿越状态。ADC 735可以测量处于未穿越状态(如图所示)和穿越状态的纳米孔701的电阻(例如,通过电压或电流测量),以便鉴定标签707,其提供核苷酸706的鉴定,从而获得模板核酸分子704的序列中的一个碱基。
信号值的测量(例如,通过ADC 735测量的电压值)对应于信号层。纳米孔701中的各种标签的穿越事件对应于孔层,其可以使用测量的信号值来确定。可以基于信号层的测量信号值将穿越事件鉴定为对应于特定碱基。在时间间隔内鉴定的穿越事件可用于确定那种核苷酸在该时间间隔内结合。鉴定为结合的核苷酸可用于鉴定哪种核苷酸实际上已被催化成模板核酸分子704。各种物理过程可能导致难以获得精确的模板层,其实例在下面描述。
1. 模板层
模板核酸分子704的序列对应于模板层中的碱基。模板核酸分子704的序列应对应于催化为模板核酸分子704的核苷酸的催化状态。图7显示了GAGTTTTATCGCTTCC (SEQ ID NO:1)的实例序列。该序列是由计算机系统使用测量的信号值实现的碱基识别程序的期望输出。但是,如下所解释,不直接测量序列。因此,模板层可以被认为是隐藏层。模板层可以被认为是物理状态的最高水平的信息,并且可以被认为具有零误差,因为它对应于实际的物理分子。
2. 酶层
酶层是自由浮动核苷酸与酶703相关的活性位点的结合事件的序列。图7显示实例酶层GAAGTTATATC-CTTCC (SEQ ID NO:2)。酶层也不直接测量,且因此可以被认为是隐藏层。
酶层应该由对应于模板层中活性位点的互补核苷酸的结合事件构成。但是,酶703可以找到匹配的碱基,并且然后在核苷酸催化之前释放。在核苷酸与活性位点解离之前,核苷酸(例如A)可以结合相对长的一段时间。在核苷酸脱落后,DNA聚合酶等待另一个核苷酸与活性位点结合。
在暂时结合期间,执行测量。可能难以鉴定核苷酸的暂时结合与核苷酸的永久催化之间的差异。因此,当相同类型的另一个核苷酸最终被催化到活性位点时,可能难以确定是否仅存在一个A或者是否连续存在多个A。因此,错误模式可以涉及插入。在图7中,红色碱基对应于插入,如可以相对于模板层所见。这可以在位置2(对应于碱基A)的结合中看到,其中具有碱基A的核苷酸不催化和脱落。如酶层的位置3中所示,结合并最终催化另一个具有碱基A的核苷酸。
因此,可能难以确定在两个连续位置处是否存在两个A,或者在一个位置处仅存在一个A。因此,单一结合事件可能被错误识别为两个单独的结合事件,或者两个结合事件可能被错误识别为一个结合事件。在一些实施方案中,可以鉴定插入错误以便提供准确的模板层。
图8显示了根据本发明实施方案的由脉冲(例如810a-810c)构成的实例酶层800。脉冲810a-810c可以从具有较短持续时间的多个穿越事件确定。对于不同的碱基,不同的脉冲可以具有不同的高度。如所示,存在三个突显的脉冲810a-810c。第一脉冲810a相对较长,但不知道脉冲810a是否对应于一个结合事件,部分是因为当在上述AC模式下工作时没有一个连续脉冲。相反,存在一系列较短脉冲,如图9所示。
3. 孔层
孔层对应于穿越事件,显示在理想化的酶-标签结合事件下方。图7显示了实例孔层:
GGGGGGAAAAAAAAAAAAGGGGGGGTTTTTTTTAAAAAATTATCCCCCCCCCCCC-CCCCTTTCCCCCCCCCCC (SEQ ID NO:3)。
孔层也不是直接测量的,且因此可以认为是隐藏层。
如所示,存在一系列相同碱基的穿越事件,其对应于酶层的一个结合状态。可能存在其中没有穿越事件的AC信号的循环,如由“-”所示。因此,信息内容可能降级,因为可能难以确定是否存在两个结合事件或仅一个长结合事件,以及是否两个结合事件都导致催化,且因此对应于模板DNA链上的各个位置。
酶层在对应于孔层的位置34-39的位置7处也显示出错误,其中A在短时间内结合并且未被催化。该错误导致酶层具有A而不是T。这种错误可以由在非催化A被鉴定为仅两个催化的T,而不是三个催化的T之前的T穿越事件引起。
4. 信号层(例如,ADC层)
信号层被示为由ADC 735测量的电压,其对应于在开关打开(例如,开关401)之后的指定时间段之后进行的电压测量。电压测量可以对应于积分电容器408处的电压(ncap)。也可以使用其他信号值。
信号层是观察层。从这些电压测量,实施方案可以在该采样期间推断孔的电阻,尽管可能存在噪声,从而导致隐藏数据层中的误差。ADC是测量的实际信号,且从中推断出隐藏数据层。
在该实例信号层的测量数据中,在顶部和底部显示对应于开放通道亮模式和开放通道暗模式的两个带。亮通道中的下降对应于结合事件。孔层中的每个穿越事件可以对应于信号层中的单独循环,其中测量穿越信号。该实例信号层显示对应于上述AC信号的许多周期的测量。
C. 重建数据层
图9显示了来自图7的呈穿越状态的测序单元700和根据本发明实施方案的某些层中的样品数据的简化图。图9示显示了作为观察层的信号层910。图9显示测序单元700,其中核苷酸706处于结合状态且标签707处于穿越状态。标签707的这种穿越将引起纳米孔701的电阻增加,从而引起测量的ADC值减小。
信号层910示出了经AC信号应用于测序单元700的大约17个周期的ADC值的特写。可以在簇(例如,穿越簇915)中看到某些周期的穿越ADC值,其可以与不显示任何穿越的周期(例如,未穿越簇917)区分开。给定周期的穿越簇的ADC值可以对应于穿越事件。因此,在一些实施方案中,每个循环最多可存在一个穿越事件,并且ADC值的穿越簇可对应于酶层中的单一结合事件930。在其他实施方案中,每个信号值可以用作对碱基识别程序(例如,HMM)的观察结果。
ADC值可以归一化,例如,如标题为“Formation And Calibration Of NanoporeSequencing Cells,”的美国专利申请15/632,190中所公开的,其通过引用整体并入。这种归一化可以解决测量值随时间的偏移,因为这可能由于测序单元700的变化(例如,由于膜714的厚度变化或测序单元700中的电荷累积)而发生。归一化后,同一标签经多个循环的穿越事件的ADC值应提供大致相同的值。可以在具有相同高度的穿越事件920中看到归一化。穿越事件920示出了孔数据层的重建。穿越事件920反映ADC值中的穿越簇,即使这些实例描述可能不显示一一对应关系。归一化的ADC值的簇可以被分类,例如,对应于不同标签或无标签的不同孔状态。可以使用混合模型来执行这样的分类,该混合模型可以将概率分配给不同的分类(状态)。
如所示,穿越事件形成一系列较短脉冲,因为在亮周期911之间存在暗周期912,其中可以发生穿越。如所示,脉冲具有不同的宽度,这是由于穿越起始的不同延迟。当AC波形从暗模式切换到亮模式时,附着到核苷酸706的标签707可能不会立即穿越入纳米孔701。在纳米孔701的收缩内存在强电场,因此可以立即拉入标签707。但是,标签可以随随机运动扩散,并且因此可能不会立即或在给定周期内与孔附近的强电场相互作用。即使存在明确的穿越率,也不一定意味着穿越在明亮模式起始后的同一时间发生。由于标签已经与电场相互作用,所以标签从纳米孔701中排出确实同时发生。
在图9中,存在一个没有脉冲的空间925,当在一个周期的亮模式中没有发生穿越时可能发生这种情况。因此,物理状态的信息可能降级,因为可能难以确定是存在两个结合事件还是仅存在一个长结合事件。还可能难以确定两个结合事件是否都导致催化,且因此对应于模板核酸704上的各个位置。
可以重建一系列穿越事件920以形成事件930。该重建过程决定哪些穿越脉冲彼此组合(即,合并)以形成酶层的结合事件。在一些实施方案中,隐马尔可夫模型(HMM)可用于确定哪个穿越脉冲对应于特定核苷酸的结合事件。然后可以从结合事件重建模板层,例如,通过一致建立程序。
IV. 重建流水线
用于重建一个或多个隐藏层(例如,孔层、酶层和模板层)的过程可以在碱基识别流水线中进行,所述碱基识别流水线可以包括硬件和/或软件。这种碱基识别流水线可以使用计算机系统实现,例如图1的纳米芯片工作站120、图2的处理器224和/或图4的数字处理器430。
图10是示出根据本发明实施方案的在模板核酸测序期间重建测序单元的物理状态的方法1000的流程图。方法1000可以使用使用纳米孔、聚合酶或两者的组合(例如,使用如上所述的标签)测量的信号值。实施方案可以应用于纳米孔测序方法,其中核酸通过纳米孔。实施方案也可以与非纳米孔技术一起使用,例如,其中不存在核苷酸掺入步骤之间的明确分离,如同所有核苷酸同时存在于测序单元中时可能发生的那样。
在框1010,对测序单元执行校准检查。可以对测序芯片上的全部或部分测序单元进行校准检查。在测序开始之前,可以在创建测序单元期间进行各种检查。一旦产生了测序单元,就可以进行进一步的校准步骤,例如,以鉴定根据需要进行的测序单元(例如,单元中的一个纳米孔)。这种校准检查可以包括物理检查、电压校准、开放通道校准和具有单个纳米孔的孔的鉴定。在标题为“Formation And Calibration Of Nanopore SequencingCells”的美国专利申请15/632,190中描述了这种校准检查的进一步细节。一旦鉴定出芯片的可用单元,就可以进行生产模式以对核酸进行测序,每个可用单元一个。
在框1020,针对测序单元起始测序模式。可以通过向测序单元提供带标签的核苷酸来起始测序模式。在一些实施方案中,可以跨测序单元施加电压,例如AC或DC信号,使得可以测量电信号值。在其他实施方案中,可以例如从附着于核苷酸的荧光团测量光信号。
在框1030,测量信号值,例如,作为第一组信号值。本文描述了信号值的实例。信号值可以不仅限于附着于核苷酸的标签。可以针对AC信号的每个周期测量一个或多个信号值。如本文所述,这些测量的信号值符合信号层。第一组信号值可以包括测序单元的四种单元状态(例如,孔状态)的每一种的测量值,四种单元状态对应于核酸的不同核苷酸,当不同的标签穿越入孔中时可能发生。可以使用其他孔状态(例如,开放通道状态、部分穿越状态或未结合的穿越状态)。当核酸通过纳米孔时,不需要开放通道状态。在不使用纳米孔的实施方案中,单元状态可以对应于作为核苷酸与核酸结合的代理而测量的发光状态或电状态。
在框1040处,可以任选地对信号值进行归一化。归一化可以提供更高的准确性,因为可以考虑物理测序单元中的波动(例如,膜714的物理结构或电流电荷分布和测序单元),使得相同标签种类的测量提供相似的信号值。归一化可以解决偏移效应,例如循环形状、增益漂移、电荷注入补偿和基线偏移。亮周期中的归一化信号值名义上可以放在0到1的范围内(可以是略大于1的值),其中1对应于开放通道信号值(即,孔中没有标签)并且小于1的值对应于不同的穿越值。
在一些实施方案中,在进行归一化之前测量测序单元的所有信号值。在其他实施方案中,可以在测量信号值的同时执行至少一些归一化。例如,在测量一定数量的信号值之后,可以使用第一组测量值开始归一化程序,其中一些新信号值在测量结束之前被归一化。
在框1050处,从一组信号值创建直方图。信号值可以归一化,但如果测序单元的操作随时间足够稳定,则可能不会归一化。直方图可以形成存储多个计数的数据结构。例如,可以计算测量ADC值(例如,0-255或0-511)的次数,其中每个ADC值可以对应于直方图的箱。因此,每个计数可以对应于箱内的多个信号值。除了单独的离散值之外,箱可以对应于一系列值。在任一实施中,直方图的每个箱可以对应于不同的数值。
图11显示了归一化信号值的图1100和不同归一化值处的测量直方图1150,如通过根据本发明实施方案的开放通道(OC)值的一部分所测量的。图1100的纵轴显示归一化的电压,其中将电压除以任何给定时间(横轴)的开放通道电压的估计值。归一化的电压表示为OC分数。可以使用其他归一化和非归一化的信号值。电压值可以是对应于给定周期的中值或平均值、或各个值的ADC值(例如,由ADC 435测量)。
直方图1150显示具有特定值的信号值的数量(在该实例中的OC分数)。如所示,纵轴对应于OC分数(与图1100相同)。当垂直观察时,横轴将对应于OC分数值。另一个轴对应于具有特定数值(例如,范围或具体数量)的多个测量信号值的计数。如所示,最大峰值(大部分信号值)接近1,这对应于OC值。其他较小的峰对应于不同的碱基A、C、T或G。这些信号值的簇可用于确定碱基识别,例如通过将混合模型拟合到直方图。由于峰很好地分离,因此取代误差可以是低的。
在框1060处,基于直方图将发射概率分配给对应于特定碱基的归一化(或非归一化)的信号值。对于四个单元状态的每个单元状态,概率函数可以将处于单元状态的概率分配给不同的数值。可以使用直方图的箱的多个计数来确定概率函数。可以例如基于截止值、对应于直方图中的峰的信号值或混合模型来确定各种类型的概率函数。一旦确定了概率函数,就可以使用对应于该单元状态的概率函数来确定在对应于特定单元状态(例如,对应于C)的给定时间测量的特定信号值的概率。可以为每个信号值确定四个概率;每个概率函数提供一个概率。
例如,可以在直方图中鉴定信号值的簇,例如,作为直方图中的峰。簇可用于确定用于区分不同碱基的截止值。可以确定截止值在簇之间,例如,允许将某一范围的归一化信号值分配给某一碱基。在这样的实例中,碱基(例如,A)可以对应于0.5-0.6之间的归一化的信号值,其中100%的概率被分配给落入该范围内的归一化的信号值。在其他实施方案中,可以针对给定碱基确定中心值(例如,在由截止值设置的范围的中间),其中对应于碱基的信号值的概率降低,信号值进一步远离中心值。
在一些实施方案中,可以从归一化的信号值确定混合模型。混合模型可以具有针对不同碱基的4个概率(混合)函数,并且当实施涉及开放通道时,可能一个概率函数针对开放通道。给定单元状态(碱基)的函数可以形成拟合至直方图的峰值的分布(例如,峰值处于最常见的信号值或簇的质心)。在各种实施方案中,每个函数可以独立地拟合至单独的峰值(例如,单独的优化程序),或者函数可以共同适合作为共同优化程序的一部分。
混合函数可以是各种形式,例如高斯,其中是函数在其峰值的高度,是峰值的中心(例如,碱基的信号值或预期值的簇的质心、平均值、中值或模式),且c是标准偏差。另一个实例是使用Laplacian函数的Laplacian混合模型:,其中与高斯相同。每个函数下的区域可以约束为1。可以使用具有指数衰减函数的各种函数。可以使用具有混合函数的高度、位置或宽度的更多参数的更复杂的函数。
混合函数的参数(例如,宽度)可以被确定为拟合(优化)程序的一部分,该程序识别混合函数的最佳参数以最佳地近似直方图中的基础信号值。在各种实施中,可以使用期望最大化程序、矩匹配、谱方法或马尔可夫链蒙特卡罗来优化混合函数对直方图的拟合。
在使用纳米孔的实施方案中,概率的分配可以提供用于确定孔层的机制,其中使用混合函数确定每个孔状态(4种穿越状态和1种未穿越状态)的概率。在一些实施中,混合模型可应用于测量每个测序单元的信号值。在其他实施中,信号值可以在相同芯片的单元之间或从芯片到芯片之间是稳定的。因此,可以在芯片的单元之间或芯片之间使用相同的混合模型。在确定具体测序单元的混合模型的实施方案中,可以基于从其他单元或其他芯片进行的测量来确定初始混合模型。然后可以将该初始混合模型更新为优化(拟合)程序的一部分,使得优化可以具有更好的初始估计。
在框1070处,使用分配的概率用隐马尔可夫模型(HMM)确定核苷酸状态(例如,当使用聚合酶时的结合状态)。分配的概率可以用作HMM的发射值。混合模型的每种混合函数(分布)可以对应于HMM的隐藏结合状态,从而提供酶层的结合状态。对于不使用合成的实施方案(例如,核酸移动通过纳米孔),核苷酸状态将不对应于结合状态。当孔状态与酶状态存在一一对应关系时,可以单独从概率函数(例如,采用具有最高概率的概率函数)生成碱基识别,但是HMM可以提供增加的准确性。
图12显示了根据本发明实施方案的包括5个状态的实例HMM。如所示,状态0对应于无结合的标签。状态1对应于酶和核酸之间的活性位点中结合的碱基“A”。状态2对应于活性位点中结合的碱基“C”。状态3对应于活性位点中的碱基“T”。状态4对应于活性位点中的碱基“G”。测序单元1200以状态0显示。尽管示出了5种状态,但是可以使用更多状态,例如,对应于未结合但是穿越的状态。
指示状态的测量的可观察量(即,信号值)的概率由圆圈内的值表示。例如,当A结合时测量的信号可包括孔中结合的A标签(由PA表示)的测量值,以及任何未结合(自由)标签(由A+C+T+G表示)。对于其他状态显示了类似的配置。对于状态0,P表示在孔中未检测到标签的概率。
状态0和其他结合状态之间的时间转换率用状态0和相应状态之间的箭头示出。Kon_A=进入活性位点的核苷酸(标签)A的结合率。从活性位点释放的核苷酸的速率是K释放_A =Kcat_A + Koff_A,其是“催化”速率(停留在模板核酸上的核苷酸)和“解离”速率(核苷酸从活性位点脱落)的总和。可以以各种方式确定(估计)转换率。从一个实验到另一个实验,转换率通常是稳定的,例如,使用相同类型的孔、标签类型和电解质溶液。
可以从一个或多个单元的测量结果执行碱基识别程序;在确定碱基识别后,可以使用有序状态对之间的时间和转换频率来确定转换率。在一个实施中,转换率定义了随时间的指数衰减,并且因此可以从观察到的不同时间的转换频率来确定。在其他实施方案中,可以搜索转变矩阵的各种值以找到值的最佳集,例如,通过对已知基因组(例如,细菌)的样品进行测序并将输出与已知基因组进行比较。在一些实施方案中,可以潜在地随时间更新给定测序单元的转换矩阵,例如,以类似于随时间更新概率函数的方式,如下面更详细描述的。
这些转换率(例如,提供转换矩阵的成对转换概率)可以与指定的概率(例如,作为发射概率)组合使用,以将最可能的一系列结合状态确定为随时间的路径。HMM可以提供一个框架,用于建模随机运行的随机过程,但是根据具体的统计分布。同质和/或异质HMM可用于碱基识别过程的各个部分。稍后提供关于HMM的操作的进一步细节。
在框1080处,从核苷酸状态确定模板核酸的碱基。例如,可以在芯片上对来自主体样品的核酸进行测序,并且可以将核苷酸状态的初步序列彼此进行比较以确定碱基的共有序列。这样的过程可以涉及初步序列的组装,例如通过从头组装和/或通过与参考基因组比较。在一些实施中,单个初步序列与参考基因组的比较可单独用作确定模板层的最终碱基序列的一部分。各种其他技术(例如,启发法)可用于鉴定核苷酸状态的校正以获得碱基序列。
在框1090处,提供模板核酸的序列。作为实例,序列可以显示给用户,保存在数据库中供以后查看,或者提供给其他模块以供进一步处理。例如,可以分析芯片上的全部或部分核酸(例如,来自相同样品)的序列以检测变异,例如拷贝数变异、相对于一个或多个参考基因组序列变异(例如,单核苷酸多态性、体细胞突变、新生突变等)、易位等。
V. 隐马尔可夫模型(HMM)的实现
各种实施方案可以在流水线中的各个点处使用一个或多个HMM。例如,HMM的隐藏序列可以是随时间的结合状态(事件)的序列。通过使用AC模式可以使得对这种隐藏的确定更加困难。在DC模式下,每次有结合事件时,标签将在一些短延迟后穿越。将存在一系列脉冲,每个脉冲对应于结合事件,当连续结合事件针对不同碱基时可能具有不同的信号水平。但是因为正在使用AC模式,所以将这种脉冲切割成较小的观察结果,例如AC信号的亮周期。
结合事件的确定可能更复杂,如以下实例中所示。纳米孔可能处于这样的状态,其中A结合在聚合酶的活性位点中,并且相应的标签穿越连续几次,从而看到几个短的A脉冲。然后在下一个AC亮周期而不是穿越上,A标签错过了一个穿越事件,因此在早期的穿越周期和后面的穿越周期之间存在间隙。可能难以确定两组穿越周期(其间存在一个间隙(hap))是对应于单个A还是两个A。在非穿越亮周期期间,还可能存在G的游离标签(附着的G未被结合),所述游离标签在该时间期间被捕获在孔中。以这种方式,可能存在多种污染单个结合事件的标签类型。使用HMM的实施方案可用于解决这些问题。
A. HMM的时间序列
图13显示了使用隐马尔可夫模型(HMM)确定隐藏状态的时间轨迹1300。在该实例中,隐藏状态可对应于聚合酶(结合)状态或孔(穿越)状态。追踪1300多个离散时间步长1310(例如,由时间戳或时间索引鉴定)。作为实例,每个时间步长可以对应于不同的测量信号值(即,连续的测量信号可以来自相同的亮周期)或者对应于AC周期(例如,每个亮周期一个点,其可以从被鉴定为对应于穿越事件的信号值确定)。在各种实施中,单个值可以被确定为给定亮周期的穿越信号值的平均值或中值。基于区分开放通道和穿越通道的截止值(带有权重的硬截止或软截止),可以将亮周期的穿越信号值与非穿越信号(例如,可能在穿越不是立即的亮周期开始时发生)区分开来。
变量S对应于隐藏状态1320,例如,当隐藏状态是结合状态时包括不同碱基的一种未结合状态和四种结合状态的5种状态,或者当隐藏状态是孔状态时包括一个开放通道和四种穿越状态的5种状态。变量Y对应于观察值1330,例如,如可以通过电压或电流测量的孔隙电阻值。
在这些具体的时间步长中,系统在任何时间点都处于这五种状态之一。实际上从未直接观察到隐藏状态,例如,碱基是否结合在聚合酶的活性侧或标签是否穿越孔中。这些观察结果取决于系统所处的状态,但观察值与系统状态之间不一定存在一一对应关系;单个信号值可以不直接对应于特定的结合状态(例如,当使用AC模式时或者当未结合的标签可以进入孔时,结合状态可以包括开放通道值和穿越值)。可以基于对应于特定状态的时间步长处的观测值的发射概率和从时间t的状态到时间t+1的状态的转换概率来确定状态的这种时间序列。未来状态的概率仅取决于当前状态,而不是取决于它之前的状态,从而使该过程无记忆。
在各种实施方案中,可以存在多个隐藏层(例如,上述数据层),其可以通过单独的HMM单独确定或者压缩成一个隐藏层用于通过一个HMM确定。作为涉及多个隐藏层的实例,可以使用一个HMM来确定随时间的隐藏孔状态,并且HMM可以使用孔状态作为用于确定结合状态的观察值。作为另一示例,第一HMM(或其他过滤程序)可以使用测量的信号值来区分结合和未结合状态,并且第二HMM可以使用在对应于结合状态的时间间隔期间获得的测量信号值来确定在不同时间哪个碱基结合。过滤程序可以减少搜索空间,使得HMM仅需要区分四种结合状态。在稍后的部分中更详细地描述了这种过滤程序。
B. 定义状态
HMM方法的初始部分描述了各种可能的状态。如上所述,在一些实施方案中,可存在5种酶状态,其对应于四种碱基的四种结合状态(可能对应于一种共同结合状态)和一种未结合状态。可以为孔隙状态定义各种状态。例如,可以定义穿越和非穿越(开放通道)的两种状态,例如,当使用过滤程序来鉴定对应于结合状态和未结合状态的时间时。在这种情况下,可以确定两个概率函数(例如,对于混合模型):一个穿越概率函数和一个未穿越概率函数。当穿越状态被分解为不同标签的四种穿越状态时,可以定义五种孔状态。
在一些实施方案中,聚合酶状态和孔状态可以用一个HMM确定,因此对于一个隐藏层可以存在更隐藏的状态。例如,附着于未结合的核苷酸的标签(称为未结合的标签)可以穿过纳米孔,从而导致特定于未结合的标签(例如未结合的G标签)类型的信号。也可以存在状态的组合,例如,A标签被结合但没有穿越,并且未结合的G标签发生穿越。
这种组合状态可以称为系统状态。系统状态可以包括没有结合的核苷酸且没有标签、没有结合的核苷酸和穿越的游离标签、没有结合的核苷酸且没有标签穿越但具有背景结构(例如,聚合酶结构靠近孔以改变孔隙抗性)。因此,可能存在对应于六种可能的孔状态的未结合聚合酶的六种系统状态:未穿越的、穿越的不同标签的4种和背景的一种。每种结合的聚合酶状态可以对应于六种系统状态,从而在这样的示例中提供30种系统状态。可以从确定的系统状态中提取实际的聚合酶状态,以获得聚合酶状态。
其他可能的状态包括部分结合状态,其对应于在纳米孔中部分穿越的特定标签。这些部分结合的状态也可以被称为部分积分的状态,因为在ADC(例如,ADC 435)之前的电容器(例如,电容器408)处的累积电荷量仅是该量将成为的量的一部分,因为标签仅在测量周期的一部分处于孔中。例如,当标签在整个孔中时,孔/标签组合将具有一定的电阻。如果该标签经积分时间穿越一半(例如,在打开开关401和通过ADC 435测量之间),则累积不同量的电荷,导致对孔/标签组合的电阻的不同测量。这些部分积分状态可以取决于穿越何时发生。对于测量其他信号(例如电流或光强度)的实施方案,也可以定义这种部分状态。
对于CPU时间和存储器存储而言,如此大量的系统状态在计算上可能是昂贵的,因为计算要求随着状态数的平方而放大。一些实施方案可以通过将问题分解成孔状态(例如,涉及混合模型)并然后在聚合酶状态上使用HMM来减少这种计算工作量。如上所述,实施方案可以通过使用两个HMM进一步提供增加的计算效率:第一HMM从未结合状态鉴定结合状态,且第二HMM区分结合状态的不同碱基。
C. 转换概率
一旦定义了状态,就可以确定状态之间的转移概率。这种成对转移概率形成转换矩阵。转换矩阵是方阵。因此,如果存在30种状态,则转换矩阵将是30×30矩阵。转换矩阵描述了基于对这些状态之间的转换统计的知识,测序单元从一种状态移动到下一种状态的时间概率。
矩阵中的值可以从物理测量中确定。一种测量标准是穿越率。在一些实施方案中,由于存在新数据,不依赖于其他参数的参数(例如,转换或发射概率)可以通过观察直接拟合。然后,可以将那些现在校准的参数输入到更复杂的模型中以确定转换概率。另一种参数包括结合事件的怀疑持续时间,其影响相应的转换概率。在一些实施中,不对每个新数据集重置持续时间。估算器功能可以变得更加准确,并且可以进行新的测量。一些实施方案可以具有循环,其中在许多实验上运行估计和重新估计循环。HMM中的每个参数可以稍微不同地处理。一些参数可能需要长时间来校准,而其他参数可以更稳定。
图14A显示了成对转移概率的实例转换矩阵。显示五种状态,例如,对应于一种未结合状态和四种碱基的四种结合状态。行对应于开始状态,且列对应于结束状态。任何给定行的总数为1。转换概率反映了图12中描绘的状态图。空白矩阵要素为0。作为零或极低的转换表示进行特定转换的无概率或非常小的概率。
对角线要素最高。当单元处于状态S1时,单元最有可能在下一个循环中停留在S1中。因此,转换矩阵中的对角线值可以接近1。例如,如果给定亮周期的当前聚合酶状态是A结合,则下一个亮周期可能也具有A结合(例如,因为A的相应标签将再次穿越)。通常,无论聚合酶处于何种状态,下一个状态最可能是相同的,因为状态比观察时间持续更长。转换矩阵的非对角线项提供从一种状态到另一种状态的转换。各种状态中的任何一种(例如,如本文所述)可以包括在转换矩阵中。
一些其他状态可能只能从其他状态的某个亚组到达。这些限制可以编码到转换矩阵中。例如,系统只能在到达状态S3之前从状态S0(未结合)到达S1。因此,S0可以被认为是以这种方式的过渡态,因为它处于两种其他状态之间。这种限制和转换可以提供重要信息,因为可以知道关于系统的某些物理特性。在一些实施方案中,两种结合状态之间的转换可具有非零概率。图14B显示了成对转移概率的实例转换矩阵,其中结合状态之间具有非零概率。
D. 发射概率
发射表或函数提供关于给定状态的观察参数的信息。例如,每种状态通常可以具有观察参数的特定值范围,例如,与纳米孔中的特定标签相关联的电压或电流。
1. 表
图15A显示了实例发射表,其包括观察到的参数在每五个状态的不同范围内的概率。行对应于五种状态S0-S4,例如,对应于一种未结合状态和四种结合状态。列Y0-Y4对应于不同范围的信号值(例如,对于归一化的信号值),例如:Y0对应于(> 0.9);Y1对应于(0.9-0.67);Y2对应于(0.45-0.67);Y3对应于(0.23-0.45);和Y4对应于(0.0-0.23)。尽管显示了5种范围,但是可以使用另外的范围。该范围可以与其中零概率处于给定状态的忽略的范围之间的值不相交。
给定范围内的信号的任何数值(例如,对于Y2)对应于发射表中的给定列。然后,该列提供在该范围内测量的信号处于五种状态中的每一种状态的概率。对于S1,最有可能观察到Y1,但是观察到来自其他范围的值并非不可能。因此,不是为该范围内的每个数值分配单独的概率,而是为该信号值分配一个概率的硬截止。当以这种方式离散信号值时可能丢失一定量的信息,但是使用该表可能更有效。
Baum-Welch算法可用于确定传输矩阵和发射矩阵以及求解。然而,这种技术在计算上是昂贵的。相反,实施方案可以使用概率函数。
2. 发射概率函数
发射函数(例如,概率密度函数,PDF)可以将概率提供为连续函数,而不是将相同范围内观察参数的所有值都处理为具有相同的发生概率。PDF可以为观察参数的给定值提供处于每个状态的概率。
图15B显示了根据本发明实施方案的5种状态(S0-S4)中的每一种的实例发射概率函数。每个函数的纵轴是概率,且横轴是观察参数的值(信号值)。例如,横轴可以是图11的OC分数,且横轴从左边的大约1开始并向右延伸到0。
与图11一致,开放通道状态最可能具有接近1.0的信号值。不同标签的每个孔状态具有不同数值的峰。在一些实施方案中,每个穿越孔状态可以在开放通道值附近具有一些非零概率(例如,由于部分穿越或慢速穿越),从而具有包括开放通道测量的亮周期。
3. 使用直方图确定概率函数
在一些实施方案中,可以进行峰和/或谷检测技术以确定峰的位置。例如,可以使用戴维斯谷检测方法,例如,其中谷可以在负方向上转换成峰,并且颠倒的谷之间的间隔可以被鉴定为峰。如本领域技术人员将理解的,可以使用各种峰和/或谷检测技术。可以平滑直方图,例如,使用核密度估计(KDE)来平滑装箱伪像,从而允许更容易地进行峰检测。
在一些实施中,峰检测可以有利地不具有关于数据形状、峰值数量等的假设。没有这样的假设的情况下,可能需要针对给定运行的给定测序单元的所有信号值。要求所有数据被称为离线,并且可以延迟输送量。峰检测可以对于形成差或非常稀疏的数据工作良好。通过指定应存在的峰的数量(例如,对应于5种孔状态的5个峰),可以帮助这种检测。因此,五个最高峰的位置可用于确定发射概率函数。
可以基于峰的位置确定概率函数。例如,具有相同宽度的相同概率函数可以在每个峰值处居中。作为另一实例,每个概率函数可以独立地拟合至正好峰附近的数据,从而允许确定每个孔状态的概率函数的宽度(例如,半最大宽度)。
在进一步的实施中,指定数量的概率函数可以拟合至直方图(或平滑的直方图)。概率函数可以是混合模型的一部分,且每个概率函数是混合成分,各自对应于不同的孔状态。因此,可以将所有不同的概率函数视为来自混合模型中的不同组件。在一个实施方案中,使用Laplacian混合模型,并且可以在获得更多信号值时在线更新。可以基于使用相似孔和标签从其他测序单元的测量来确定混合模型(或其他PDF)的参数的初始值。以这种方式,优化程序可以更有效地拟合概率函数。这些参数可以包括PDF的峰的位置和PDF的宽度。
图16示出了根据本发明实施方案的用于四种孔状态的实例概率函数(PDF)。每种孔状态具有发射函数,且各自在不同的OC分数值处达到峰值,这是归一化的信号值的实例。可以看出,将概率函数拟合至直方图,且概率函数的高度对应于直方图中的峰,概率函数的宽度对应于峰附近的箱计数中的伸展。
PDF 1610对应于状态1。当OC分数为约0.3时,纳米孔最可能处于状态1。类似地,~0.55的OC分数表明状态2是最可能的,依此类推。发射PDF可能重叠,导致不同结合标签(状态)之间的一些串扰,但峰通常是分开的。
因此,对于给定的信号值,每个状态的PDF可用于提供该给定信号值处于该状态的概率。如果信号值处于PDF的峰值,那么相应的状态将具有高概率。如果PDF的尾部确实覆盖了信号值,则概率会更小但仍然是有限的。因此,测量的信号可用于基于PDF确定所有状态的概率。
在一些实施方案中,可以针对不同的时间间隔确定不同的概率函数。信号值的峰值可能随时间漂移。因此,可以使用不同组的概率函数来确定不同时间步长的发射概率。
E. 解码器-确定隐藏状态的最佳序列
一旦定义了状态并确定了转换概率和发射概率函数,就可以解码隐藏状态以确定已经与模板核酸结合的碱基。在一些实施方案中,在解码隐藏状态之前,可以在给定单元的整个测序运行中完全确定转移概率和发射概率函数。
多个解码器可以与不同的观察参数一起使用,例如,一个模型使用各个信号值,且另一个模型使用AC循环的给定亮周期的单个统计(汇总)值。摘要值的使用可以更快地运行,但是使用单独的ADC值可以允许在状态中更多的描述,例如,如上所述的更多和各种状态。
1. 观察表
在每个时间步长使用PDF和测量的信号值,可以生成观察表。对于每个时间步长,测量的信号值可用于确定每种状态(例如,酶状态)的概率。
图17A显示了根据本发明实施方案的五个时间步长的四种状态的观察表。四种状态是S1-S4,五个时间步长是T1-T5。可以使用更多状态和更多时间步长。观察表中的值对应于每个状态的不同概率,如基于各个时间步长的测量信号值确定的。
作为实例,对于观察一(即,时间步长T1),可以使用信号值来基于相应的PDF确定每个状态的对应概率(P11、P21、P31和P41)。对于每个测量信号值可以进行相同操作,每个测量信号值对应于不同的时间步长。时间步长的数目可以是单元中给定核酸的部分或全部测量。例如,测量的某一段可以一起解码为一个数据块(chunk),而核酸的另一部分的另一段测量可以解码为不同的数据块。
在图16的实例中,概率函数与酶状态存在一一对应关系,因为存在孔状态与酶状态的一一对应关系。在其他实施中,可存在比酶状态更多的孔状态,例如涉及未结合标签或背景结构的孔状态。在这种情况下,超过概率函数可以对应于给定的酶状态。因此,给定时间步长的给定状态的概率(例如,P11)可以被确定为从多个概率函数确定的概率值的总和。例如,未结合的酶状态可以具有来自对应于穿越孔的未结合标签的概率函数的贡献。在使用组合酶和孔状态的系统状态的其他实施方案中,可以使用具有未结合标签的状态,但概率函数对应于一种系统状态。
在一些实施方案中,观察表可以从发射表生成,例如,如果使用离散水平的观察参数。一旦生成观察表,就可以以相同的方式处理连续和离散的HMM。
2. 通过格图的最佳路径
转换矩阵和观察表可用于生成格图(图),其中通过格子的最佳路径提供结合事件。通过格图的最佳路径可以基于马尔可夫特性来确定,所述特性是系统是无记忆的。在每个时间点,在确定该时间的状态时可以仅考虑前一列。可能不会考虑更早的列。在格图中,一个时间步长处的核苷酸状态可以根据成对转换概率与下一个时间步长处的核苷酸状态连接。
图17B显示了根据本发明实施方案的四种状态和五个时间步长的实例格图。四种状态S1-S4中的每一个显示为由数字1-4的二进制值表示。列对应于时间步长,如观察表中所示。红色箭头对应于最佳路径。通过最优化,路径可以具有从一个时间步长到另一个时间步长的每个转换的最高概率。格图中的第一列可以将时间= 0时的状态的概率称为P(S0)用于指定初始条件。概率P(St+1|St)指定转换动力学,例如,如图14A中的转换矩阵中所指定的。概率P(Yt|St)指定传感器模型,例如,如由发射概率函数所定义。
每个箭头1705具有通过组合来自观察表和转换矩阵的对应值而确定的相关值。例如,可以基于对应于(S1,S1)的转换矩阵要素和P12的值来确定转换的可能性1710。因此,假设状态在T1处是S1(即,00),可以基于转换矩阵要素和PDF概率来确定转换的可能性1710。这些可能性可以由解码器(例如,Viterbi解码器)使用来确定最佳路径。
作为确定格图的一部分,可以确定系统在每个单个时间点处于任何状态的可能性。可能性可取决于特定转换是否允许和/或可能以及取决于实际测量的信号值,其用于提供如观察表中所确定的系统处于给定状态的概率。在一个实施方案中,可以通过将来自转换矩阵的对应值与来自观察表的对应值相乘来确定转换的可能性。可以在日志空间中执行计算。
通常可以假设T1处的状态是其中没有结合的状态0。然后,作为确定到T2的最佳路径的一部分,可以知道从S0到S1的转换是不可能的或具有低概率。并且,那么下一个最佳猜测可能是从S0到S2的转换,这是可能的并且可以具有高转换率。可能在T2处于S1中的观察概率高于处于状态2的概率,但是转换概率的差异可导致选择S2。
可以执行向前通过格图以确定系统在任何时间点处于任何给定状态的可能性。一个实施方案可以在每个时间点采用最大概率。另外,可以执行回溯以确定是否获得相同的路径,作为前向-后向算法的一部分。在确定最佳路径时,一些实施方案可以仅使用当前状态来确定下一状态。
在每个时间步长,结果状态可以对应于仅使用结合状态时的结合事件。当使用其他状态(例如,部分结合状态和未结合状态)时,可以搜索格图以提取结合状态。在一些实施方案中,如果在两个未结合状态之间存在多个结合状态,则可以进一步分析那些结合状态以确定是否实际存在多个碱基或它们是否对应于单个核苷酸的掺入。
当存在非结合状态时,还可以确定进一步的信息。例如,可以确定穿越时间。这可以通过分析状态从结合且未穿越(例如,开放通道状态)到结合且穿越的实例来完成。通过查看网格上的结果,可以确定所有这些实例的穿越时间。或者,可以仅确定在给定时间结合的内容以便确定碱基识别。
在一些实施方案中,网格上的最佳路径可以提供孔数据层和酶数据层(结合事件),这取决于对系统定义哪些状态。层的不同组合和来自不同组合的所有状态可以称为系统状态,即酶层状态和孔层状态的组合。系统状态可以描述这两个层的所有组合,如果以这种方式定义,这两个层都可以从一个网格中读出。
F. 确定碱基识别
在一个实施方案中,为了确定碱基识别,可以将每个结合事件作为碱基识别。如果测序单元没有卡顿(stutter),例如掺入核苷酸但不催化且相同类型的新核苷酸随后被掺入并催化,则这种程序可能是准确的。例如,假设每次有一个结合事件,则它有50%的几率在催化之前脱落。可以分析结合事件列表以减少碱基识别的数量。例如,每次两个或更多个连续的结合事件是针对相同碱基时,该数量可以被分成两半。可以进行修改以解释有时仅核苷酸的一行中的一个结合事件,而不是两个或更多个。
在一些实施中,当决定是否合并在时间上相邻但由未结合状态分开的两个结合状态(对应于相同碱基)时,可以确定当核苷酸在全部时间结合时错过穿越事件的可能性。这可以与两个在时间上非常接近地发现相同状态的两个结合状态的可能性相平衡。在测序单元的操作中,通过稀释带标签的核苷酸可以将结合事件之间的等待时间设计得足够大,使得在结合事件之间存在大量的等待时间。但是,结合事件之间越长,通量越慢。
VI. 质量评分
在一些实施方案中,可以提供碱基的质量评分。质量评分可以反映单分子观察所固有的随机行为。碱基识别的质量可能不会随着时间或读取长度而降低,但是对于在给定的模板核酸上在不同时间点随机地不同的碱基识别,可以存在不同的质量评分。碱基识别的较高质量评分可以表明正确碱基识别的更高置信度。例如,接近PDF峰的信号值可以导致碱基识别具有比远离PDF峰的信号值更高的质量评分。碱基识别者的输出之一(例如,使用HMM)可以是这样的质量评分。
在一些实施方案中,可以如下计算质量评分。
可以从概率函数中确定,和可以从转换概率中确定。
质量评分Q提供了在四种碱基之间正确识别酶状态的可能性的量度,并且适用时可能用于未结合状态。可以将Q值指定在特定范围内,例如,具有更高的Q值,从而提供更高的准确性置信度。在一些方面,Q评分的分量可以包括合并相同信号水平的结合(biding)或孔事件的置信度,例如,产生自AC模式将一个结合事件分成更小的脉冲。
作为使用HMM确定质量评分的实例,通过隐藏空间的不同次优路径(例如,格图)。可以对相对概率进行加权以给出质量的信息判断(informative sense),即碱基识别的确定程度。
例如,解码器可以鉴定标签的一系列穿越信号,所述标签在多个循环中具有与单个结合的核苷酸相对应的相似值。当生成Q评分时,可以考虑其他次优路径以确定是否仍然可以产生测量的信号值,并且如果它完成该组合路径和测量的信号值的概率。可以针对该给定观察集的所有隐藏状态计算概率。质量评分可以提供可能状态之间的相对分离。如果另一种状态的概率略低,那么质量评分会相对较低。
在一些实施方案中,来自归一化程序的信息可用于确定质量评分。例如,可以从卡尔曼滤波器获得不确定性的估计,该卡尔曼滤波器用于估计用于确定OC分数的当前开放通道电压。不确定性可用于调整Q评分。可以将不确定性视为归一化运行的良好情况。
VII. 更新发射PDfS(时间依赖性混合模型)
如上所述,混合模型(或其他PDF)的参数的初始值可以基于使用相似孔和标签的其他测序单元的测量来确定。可以基于最近的测量来更新PDF,并且可以基于每个孔确定PDF。从一个实验到另一个实验,一些状态的PDF可以非常稳定。可以表征这种状态,并确定发射函数的形状。其他状态可以随时间变化和/或从一个孔到另一个孔而不同。
因此,实施方案可以确定PDF的初始参数,例如,峰的位置,每个PDF的宽度,以及每个PDF的指数衰减的速率。然后,可以测量一组信号值并用于确定直方图,该直方图可以用于更新PDF的参数。基于实际测量实时更新PDF是有帮助的,因为它允许基于每个传感器(例如,孔)调整碱基识别程序。因此,可以在给定单元中随时间调整核酸测序的概率函数。
在一些实施方案中,可以使用贝叶斯统计来更新PDF。可以将初始PDF视为先前分布,并且可以使用给定孔的测量信号值将更新的PDF确定为后验分布。在一些实施中,第一组测量的信号值仅是在单元的给定运行中针对核酸测量的信号值的一部分。后面组的信号值可用于核酸的后续部分随测序时间更新PDF。以这种方式,可以获得时间依赖性PDF(例如,时间依赖性混合模型)。
在确定后验分布时,可以使用先验分布(例如,使用HMM,分离预期簇的截止值,或者具有来自先验分布的最高概率的碱基)来确定初始碱基识别。具体碱基的碱基识别可以用于使用该碱基的先验分布来确定对应于该碱基的后验分布,而不是同时确定所有或多个后验分布。在一些实施中,仅使用明确对应于具体碱基的信号值(例如,具有高于阈值的发射概率,其可以与另一碱基的第二高概率相关)来确定给定时间段的后验概率。可以基于与信号值对应的碱基识别的质量评分来选择信号值。此外或可选地,仅使用某些信号值(例如,对于具有高于阈值的质量评分的碱基识别)来确定先前分布。
在其他实施方案中,更新PDF可以仅使用给定单元的第一组测量,但是具有从其他测序单元和/或测序芯片获得的值处的优化程序开始的初始值。可以将这样的约束添加到优化程序中,使得新参数不会过于显著地偏离初始值。除了参数的个体值与初始值没有显著变化之外,可以对参数的相对值施加约束(例如,PDF的两个峰的位置之间的距离可以被约束在指定范围内)。在这种情况下,更新PDF可以是在值上一组峰的位置向上或向下的偏移。如果新测量确实导致PDF的参数显著改变(或达到约束),则给定的测序单元可能存在问题。例如,两个PDF的峰位置可能变得太近。这样的问题可能导致丢弃该单元的数据。
此外,或代替使用来自其他单元和/或芯片的初始参数值,可以使用初始组的信号值来确定初始直方图,将其用于确定PDF。例如,可以使用单元的测序运行的信号值的三分之一来确定PDF的参数值。
A. 用于确定时间依赖性PDF的方法
图18是根据本发明的实施方案使用测序单元确定用于测序核酸的时间依赖性概率函数的方法1800的流程图。方法1800的方面可以以与方法1000类似的方式执行。
在框1810处,获得测序单元经第一时间间隔内从核酸测量的第一组信号值。第一组信号值可包括测序单元的四种单元状态(例如,孔状态)中每一种的测量值,其中四种单元状态对应于不同类型的核苷酸。在一些实施中(例如,涉及聚合酶),可以使用五种单元状态,例如,具有对应于活性位点中当前没有核苷酸的第五单元状态。信号值携带如图10的方框1030所述的方式的单元中的测量值。
可以通过接收在处理器(例如,图2的处理器224)处的信号值(来自电路222的接收的信号值)来获得第一组信号值。在一些实施中,所述获得可包括使用测序单元测量信号值。可以对第一组信号值进行归一化,例如,如图10的方框1040中所述。
在方框1820处,从第一组信号值创建第一直方图。方框1820可以以与图10的方框1050类似的方式实现。例如,第一直方图可以是存储多个计数的数据结构,每个计数对应于直方图的箱内的多个信号值。第一直方图的每个箱可以对应于不同的数值,例如,如关于图11所描述的。
可以针对四种单元状态的每种单元状态执行方框1830和1840。当使用更多单元状态时,也可以针对那些单元状态执行方框1830和1840。
在方框1830处,获得初始概率函数,其将处于单元状态的发射概率分配给不同的数值。上面描述了初始概率函数的实例。例如,可以使用从一个或多个其他测序单元测量的信号值来确定初始概率函数。例如,来自其他单元的信号值可以用于创建初始概率函数可以拟合的直方图(可能所有初始概率函数一起确定)。作为另一实例,可以使用从比第一时间间隔更早的时间间隔测量的信号值来确定初始概率函数。
作为又一实例,初始概率函数可以使用在较大时间间隔上测量的信号值来确定,所述较大时间间隔包括在测序核酸中的第一时间间隔和其他时间间隔。例如,较大的时间间隔可以跨越该单元的整个测序运行。从较大时间间隔使用的信号值可以仅包括某些信号值,例如,在紧密簇中的信号值,如可以由距质心的阈值信号距离来定义。在较大时间间隔内的所有信号值上用碱基识别器(例如,HMM或仅使用截止值)的第一次通过可以提供初始碱基识别以及质量评分,因为可以选择对应于具有高质量评分的碱基识别的信号值用于确定给定单元状态的初始概率函数(例如,对应于特定穿越标签的孔状态)。以这种方式,初始概率函数可以具有更窄的宽度与更准确的峰位置,因为它对应于高度指示具体核苷酸的结合状态的信号值。
在方框1840处,初始概率函数和第一直方图用于确定对应于第一时间间隔的第一概率函数。第一概率函数将处于单元状态的发射概率分配给不同的数值。以上提供了用于确定第一可能函数的实例技术。例如,贝叶斯程序可以使用初始概率函数作为先验分布,且第一直方图是提供第一概率函数作为后验分布的新测量。
在方框1850处,确定对应于第二时间间隔的第二概率函数。第二概率函数将对应于四种单元状态。第一概率函数和第二概率函数(可能与其他时间间隔的其他概率函数一起)可以形成一组时间-依赖性概率函数。这组时间依赖性概率函数可以在创建观察表作为HMM碱基识别程序的一部分中提供增加的准确性。
时间间隔可以是各种长度,例如,每个为一个AC周期长、或许多个AC周期长。不同的时间间隔可以对应于时间(或数据)的数据块,并且可以是百秒长,但可以更大或更小。如果使用较小的数据块,则可以更频繁地更新时间-依赖性概率函数,但是然后可以给予先验分布更多权重,使得每次更新的调整量小于当使用更大的数据块时。概率分布随时间的变化可能相对较慢,例如,在一小时内它们可能漂移10%、15%或30%。变化是渐进的,因此可以使概率函数更新而不会丢失对概率函数和特定单元状态的对应关系的跟踪。
可以使用第一概率函数和第二直方图来确定第二概率函数,所述第二直方图从测序单元的经第二时间间隔的核酸测量的第二组信号值确定。可以以与第一概率函数类似的方式确定第二概率函数,但是第一概率函数现在充当初始概率函数。
在方框1860处,使用时间-依赖性概率函数的组确定包含核酸序列的碱基。可以以各种方式确定碱基,例如,将对应于具有给定时间步长的最高概率的单元状态的碱基作为碱基识别。在另一个实施方案中,可以使用HMM,因此可以使用图10的方框1070。也可以使用方框1080的方面。
在方框1870处,提供核酸的序列。可以以与方框1090类似的方式执行方框1870。
B. 具有HMM的2次通过
如上所述,可以使用测序运行中的信号值来确定初始概率函数。这些初始概率函数可以确定为时间-独立的PDF。可以执行碱基识别器(例如,使用HMM)以确定初始碱基识别,例如,以与方法1000的实施方案中描述的类似方式。使用时间-独立的PDF的碱基识别器的这种第一次通过可以鉴定高度指示特定标签/碱基(例如,相关碱基识别的更高概率和/或质量评分)的干净的信号值。这些高质量信号值可用于确定对时间依赖性PDF的更新,从而减少来自确定时间依赖性PDF的噪声。
然后,碱基识别器可以经时间步长在第二次通过中使用时间依赖性PDF。可以创建新的观察表,从而生成新的格图。实现这种两次通过方法可以提高边缘碱基识别的准确性。由于时间依赖性PDF相对于时间独立的PDF的准确性提高,因此可以进行改进。这种改进也可以发生,因为给定时间步长的特定功能信号值可以归因于特定标签/碱基。因此,对于给定时间间隔的将PDF拟合到直方图可以更准确,因为许多信号值可以归因于特定的单元状态(例如,孔状态),并且因此归因于特定的PDF。
因此,在一些实施方案中,可以使用初始概率函数确定核酸的初始碱基识别的初始序列。可以为每个初始碱基识别确定质量评分。可以基于相应的初始碱基识别的质量评分从第一时间间隔内的所有信号值中选择第一组信号值。用于结合状态的碱基识别可以对应于基于覆盖包括信号值的时间段的结合状态的信号值。
C. 未结合标签的概率函数
额外的孔状态的发射PDF可以变化,例如,当用各自的PDF表示未结合的标签时。例如,未结合的G标签的PDF可以具有在与结合的G PDF的不同位置处达到峰的形状。对于部分积分状态,当标签从未穿越状态进入穿越状态时,PDF可以具有从开放通道下降到峰的更均匀的分布。因此,部分积分状态可以具有单独的PDF,其将是两种状态(例如开放通道和A)之间的连接。
这样的额外状态(例如,定义为系统状态)可以允许时间依赖性转换,而将越多的孔状态包括在单个PDF中(例如,所有未结合的状态表示为单个PDF而不是单独的PDF),关于时间依赖性方面已知的越少,例如部分积分状态持续多长时间以及部分状态相对于其他状态的顺序。因此,可以将未结合和/或部分状态信息放入单独的PDF中,但是由于状态数量的增加而增加了计算工作量。
VIII. 使用2状态分类器的初始分类
在使用聚合酶的实施方案中,聚合酶可以是具有四种核苷酸之一的结合状态或处于活性位点中没有核苷酸的未结合状态。代替用相同程序(例如,如本文所述)对所有五个结合状态进行分类,一些实施方案可以使用初始分类器将测量的信号值分类为对应于结合状态或未结合状态。这种2状态分类器可以是具有两种隐藏状态的HMM,但是也可以使用其他2状态分类器。
然后,可以使用4状态分类器进一步分析对应于结合状态的时间步长。由于之间较少的状态来区分,因此4状态分类器可以更有效地操作,从而导致较低的存储器要求和较快的计算速度。当仅使用由2状态分类器鉴定的结合区域中的信号值时,也可以从更准确的PDF获得增加的准确性。
初始的2状态分类器可以鉴定对应于结合状态的时间步长。2状态分类器不需要区分哪种类型的结合状态对应于结合的状态(例如,哪个标签在孔中),只是存在一个结合状态。在初始2-状态分类器鉴定对应于结合的状态的信号值之后,信号值可用于确定四个PDF:每种核苷酸一个。可以通过将混合模型拟合到对应于结合的状态的信号值的直方图来确定PDF。
A. 第一分类器(2状态分类器)
第一分类器可以对归一化或非归一化的信号值进行操作。在使用标签和孔的实施方案中,2-状态分类器可以确定信号值是否对应于开放通道状态还是穿越状态(其中标签在孔中)。作为归一化信号值(例如,OC分数)的实例,未结合状态的峰值可以是约1.0,并且充分低于1.0(例如,低于0.9)的任何值对应于结合状态。
在该2状态分类器的更复杂版本中,可以有两个PDF:一个用于结合状态且一个用于未结合状态,其可以视为等同于穿越状态和未穿越状态。在使用孔的实施方案中,可以认为2-状态分类器在孔状态之间进行分类。PDF可以与HMM结合使用,以确定哪个状态对应于哪个时间步长。
未结合状态可以包括各种子状态,例如,对应于背景、噪声带或游离标签。即使游离标签在其返回到开放通道值之前导致一个时间步长的信号值中的短暂变化,由于一个信号值的暂时性质,2-状态分类器可以确定未结合状态仍然存在。因此,2状态分类器(解码器)可以查看开放通道信号在确定未结合状态中持续多长时间,并且可以查看穿越信号在确定结合状态中持续多长时间。对于HMM实现,转换矩阵可以包含有关结合事件应该如何的信息。
作为实例,观察表可以表示为0或1的向量,其中零对应于一种状态,而一对应于另一种状态。0可以被视为0%概率而1被视为100%概率;也可以使用其他概率值。在1对应于结合状态的情况下,可以分析矢量以确定是否存在1的足够长的组,以便鉴别结合状态。即使存在分散的0,仍然可以鉴别结合状态。类似地,当少数1个分散地出现在0的组中时,可以将该系列时间步长鉴定为对应于未结合状态。
可以将2状态分类器视为差分滤波器,其分析相对于在时间上接近的其他信号值的信号值。这样的差分滤波器可以帮助在构建发射PDF之前滤除最可能是背景的数据。
B. 使用两个分类器的方法
图19是根据本发明实施方案的使用2状态分类器和第二分类器使用测序单元对核酸进行测序的方法1900的流程图。方法1900的方面可以以与方法1000和/或方法1800类似的方式执行。
在方框1910处,获得第一组信号值。对于包含聚合酶的测序单元,经第一时间间隔从核酸测量这些信号值。第一组信号值可包括测序单元的五种结合状态中的每一种的测量值。四种结合状态可以对应于不同类型的核苷酸,且第五种结合状态可以对应于没有核苷酸存在于聚合酶的活性位点中。四种结合状态可以共同对应于结合状态,且第五种结合状态可以是未结合状态。可以以与方框1810类似的方式执行方框1910。
在方框1920处,使用第一分类程序将T时间步长的第一组信号值中的每一个分类为对应于结合状态或未结合状态。第一分类程序可以是2状态分类器。2-状态分类器可以如本文所述操作。
在方框1930处,将信号值的亚组鉴定为对应于结合状态。亚组可以对应于被鉴定为对应于结合状态的不相交区域。在一些实施中,被标识为对应于结合状态的区域内的所有信号值可以包括在亚组中。可以在方法1900的后期阶段独立地(例如,并行地)分析或共同分析这样的不相交区域。在一个实施方案中,信号值的亚组可用于确定结合区域的直方图,其中直方图可用于确定不同标签/核苷酸的相应PDF。
在方框1940处,使用第二分类程序将信号值的每个亚组分类为对应于四种结合状态之一以获得N个结合状态。第二分类程序可以在至少4种结合状态之间进行分类。在一些实施中,第二分类程序可以在更多结合状态(例如,包括部分穿越状态)中进行分类。第二分类程序还可以包括非结合状态,例如,以确认在所鉴定的结合区域内不存在未结合状态。
第二分类器可以在被鉴定为对应于结合状态的区域中操作。仅关注这样的区域可以改善PDF的估计,例如,因为直方图可以不包括对应于未结合状态的任何信号值。混合模型可以更准确地拟合至这种更具体的数据。因此,在一些实施方案中,可以创建一个或多个附加的格图,各自对应于具有结合状态的一个或多个时间步长的单独结合区域。然后,可以基于发射概率和成对转移概率确定通过格图的一个或多个额外最佳路径。
在方框1950处,使用N结合状态确定包含核酸序列的碱基。方框1950可以以与方法1800的方框1860类似的方式实现。
在方框1960处,提供核酸的序列。方框1960可以以与方法1800的方框1870类似的方式实现。
IX. 实例和列表解码器
图20显示了根据本发明实施方案的信号迹线2010、放大迹线2020、归一化信号值2030和直方图2040的实例。在用于信号追踪2010的该实例中,HMM解码器将最可能的结合状态的序列鉴定为:ATAGCTAGCACAGAGAGCGACAGCATACTACTCACTGACGCAGAGCG (SEQ ID NO:4)。放大的轨迹2020显示了开放通道和暗通道的两个暗带。归一化信号值2030(去除暗通道)显示比放大的迹线2020更扁平的数据,作为归一化的结果。直方图2040对应于归一化的信号值2030的曲线图中表示的时间间隔中的一组信号值。
图21显示了根据本发明实施方案的归一化信号值2030、中间视图2140和最高缩放视图2150。中间视图2140显示了用于查看各个事件的缩放水平。条形表示各个结合事件,可能指示其中可能存在多于特定类型的一个结合事件的区域。例如,柱2142指示解码器鉴定A的一个结合状态,但是有三个较小的柱指示实际上可能存在A的三个结合状态。下一个柱中柱2145之间的间隙表示之间没有穿越孔状态。柱2147表示在没有结合任何时间之后,检测到G结合事件。高缩放视图2150显示最后两个A结合事件和G结合事件。
图22显示了根据本发明实施方案的高缩放视图2150和前三个最可能的隐藏状态2210-2230。从三个顶级状态可以看出,可能不清楚发生了多少个A结合事件。在一些实施方案中,可以例如使用列表解码器来确定这些序列中的每一个的概率,所述列表解码器是维特比的修改版本,其不仅确定最可能的识别,而且确定附加的次优识别。例如,可以确定K最可能隐藏的状态。不同序列的这种概率可以向下游传递到基因组分析的后期阶段。
X. 计算机系统
本文提及的任何计算机系统可以利用任何合适数目的子系统。此类子系统的实例显示于图23的计算机系统10中。在一些实施方案中,计算机系统包括单一计算机装置,其中子系统可以是计算机装置的部件。在其他实施方案中,计算机系统可以在内部部件中包括多个计算机装置,其各自为子系统。计算机系统可以包括台式计算机和便携式计算机、平板电脑、移动电话和其他移动设备。
图23中显示的子系统经系统总线75相互连接。显示了另外的子系统诸如打印机74、键盘78、存储设备79、监视器76(其连接至显示适配器82)及其他。偶联到I/O控制器71的外围设备和输入/输出(I/O)设备可以通过本领域已知的任何数量的装置,例如输入/输出(I/O)端口77(例如,USB,FireWire®)连接到计算机系统。例如,I/O 端口77或外部界面81(例如以太网、Wi-Fi等)可以用于将计算机系统10连接至广域网诸如互联网、鼠标输入装置或扫描仪。经由系统总线75的相互连接允许中央处理器73与每个子系统通信并控制来自系统存储器72或存储设备79(例如,固定磁盘,例如硬盘驱动器,或光盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储装置79可以体现计算机可读介质。另一子系统是数据收集设备85,例如相机、麦克风、加速度计等。任何本文提及的数据可以从一个部件输出至另一部件且可以输出给用户。
计算机系统可以包括多个相同的部件或子系统,例如通过外部界面81、通过内部界面、或经可以连接及从一个部件移除至另一部件的可移除存储装置来连接在一起。在一些实施方案中,计算机系统、子系统或装置可以经网络通信。在此类情况下,一台计算机可以认为是客户端且另一计算机为服务器,其中每一个可以是相同计算机系统的部分。客户端和服务器可以各自包括多个系统、子系统或部件。
实施方案的各方面可以使用硬件电路(例如,专用集成电路或现场可编程门阵列)的控制逻辑的形式和/或以模块化或集成方式使用具有通常可编程处理器的计算机软件来实现。如本文所用,处理器可以包括单核处理器、同一集成芯片上的多核处理器或单一电路板或网络上的多处理单元以及专用硬件。基于本文提供的公开和教导,本领域普通技术人员将知晓和理解使用硬件和硬件和软件的组合实现本发明的实施方案的其他方式和/或方法。
本申请中所述的任何软件部件或函数可以作为软件代码由处理器使用任何合适的计算机语言诸如例如Java、C、C++、C#、Objective-C、Swift或脚本语言诸如Perl或Python使用例如常规或面向对象的技术执行来实现。软件代码可以作为一系列指令或命令存储在计算机可读介质上用于存储和/或传输。合适的非瞬时计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质诸如硬盘驱动器或软盘、或光学介质诸如光盘(CD)或DVD(数字通用光盘)、闪存等等。计算机可读介质可以是此类存储或传输装置的任何组合。
此类程序还可以使用符合多种协议,包括互联网的适配于经有线、光学和/或无线网络传输载波信号来编码和传输。这样,可以使用用这样的程序编码的数据信号来创建计算机可读介质。用程序代码编码的计算机可读介质可以用兼容设备包装或者与其他装置分开提供(例如经互联网下载)。任何此类计算机可读介质可以存在于单一计算机产品(例如硬盘驱动器、CD或整个计算机系统)之上或之内,并且可以呈现在系统或网络内的不同计算机产品之上或之内。计算机系统可以包括用于给用户提供本文提及的任何结果的监视器、打印机或其他合适的显示器。
本文所述的任何方法可以总体地或部分地用包括一个或多个处理器的计算机系统来进行,所述处理器可以配置以执行步骤。因此,实施方案可以涉及配置用于执行本文所述的任何方法的步骤的计算机系统(潜在地具有执行各个步骤或各组步骤的不同组件)。尽管作为经编号的步骤呈现,但本文方法的步骤可以同时或在不同时间或者以不同次序来进行。另外,这些步骤的部分可以与来自其他方法的其他步骤的部分一起使用。而且,步骤的全部或部分可以是任选的。另外,任何方法的任何步骤可以用模块、单元、电路或用于进行这些步骤的系统的其他装置来进行。
"一个/种(a或an)"或"所述/该(the)"的记载旨在意指"一个/种或多个/种",除非明确地表示与其相反。除非另有明确说明,否则“或”的使用旨在表示“包含性的或”,而不是“排他性的或”。对“第一”组件的引用不一定要求提供第二组件。此外,除非明确说明,否则对“第一”或“第二”组件的引用不将所引用的组件限制到特定位置。

Claims (21)

1.使用测序单元的方法,所述方法包括:
- 获得测序单元经第一时间间隔从核酸测量的第一组信号值,其中所述第一组信号值包括测序单元的四种单元状态的每一种的测量值,所述四种单元状态对应于不同类型的核苷酸;
- 创建第一组信号值的第一直方图,所述第一直方图是存储多个计数的数据结构,每个计数对应于箱内的多个信号值,第一直方图的每个箱对应于不同的数值;
对于四种单元状态的每种单元状态:
- 确定将处于单元状态的发射概率分配给不同数值的概率函数,使用针对所述第一直方图的箱的多个计数确定概率函数;
- 确定在核酸的四种核苷酸状态之间提供成对转换概率的传输矩阵,四种核苷酸状态对应于不同类型的核苷酸;
- 经T时间步长创建格图,每个时间步长对应于所述第一组信号值的一个信号值,其中给定时间步长的格图包括四种核苷酸状态,每种状态具有使用对应单元状态的概率函数确定的发射概率,并且其中根据成对转换概率,一个时间步长处的核苷酸状态与下一个时间步长处的核苷酸状态连接;
- 基于发射概率和成对转移概率确定通过格图的最佳路径,以鉴定每个时间步长处的核苷酸状态;
- 使用T时间步长的核苷酸状态确定包含核酸序列的碱基;和
- 提供核酸的序列。
2.根据权利要求1所述的方法,其中所述测序单元还包括纳米孔并且具有跨所述测序单元施加的电压,并且其中所述四种单元状态对应于所述纳米孔的孔状态。
3.根据权利要求2所述的方法,其中所述电压包括交流信号,所述交流信号具有相对于参考电压的第一部分和第二部分,并且其中在所述交流信号的第一部分期间测量所述第一组信号值。
4.根据权利要求3所述的方法,其中测序单元包括用于测序核酸的聚合酶,其中核苷酸状态对应于聚合酶的结合状态,并且其中第一组信号值还包括对应于没有标签分子附着至正在纳米孔中穿越的核苷酸的测序单元的第五种单元状态的测量值。
5.根据权利要求4所述的方法,其中所述核苷酸状态对应于包括所述单元状态的亚状态和所述聚合酶的结合状态的系统状态,并且其中所述系统状态包括所述聚合酶的未结合状态和孔状态的穿越状态的组合。
6.根据权利要求1所述的方法,其进一步包括:
- 获得从其他测序单元的其他核酸测量的其他组的信号值;并对于其他测序单元的每一个:
从另一组信号值创建另一个直方图,
使用所述第一直方图确定对所述测序单元特定的概率函数,和
使用对所述测序单元特定的概率函数来确定包含测序单元中核酸序列的碱基。
7.根据权利要求1所述的方法,其中使用第一直方图确定概率函数包括将每个概率函数拟合到第一直方图中的峰。
8.根据权利要求1所述的方法,其中,使用维特比解码器确定通过格图的最佳路径。
9.根据权利要求1所述的方法,其进一步包括:
确定对应于第二时间间隔的第二概率函数,概率函数和第二概率函数形成一组时间依赖性概率函数,其中第二概率函数使用概率函数确定,并且从测序单元经第二时间间隔的核酸测量的第二组信号值确定第二直方图,其中使用时间依赖性概率函数组确定包含核酸序列的碱基。
10.根据权利要求1所述的方法,其中所述测序单元包括用于对所述核酸测序的聚合酶,其中所述第一组信号值包括对所述测序单元的五种结合状态中的每一种的测量值,其中四种结合状态对应于不同类型的核苷酸且第五种结合状态对应于聚合酶活性位点中没有核苷酸,其中四种结合状态共同对应于结合状态,且第五种结合状态是未结合状态,该方法还包括:
- 使用第一分类程序将第一组信号值中的每一个分类为对应于结合状态或未结合状态,其中第一分类程序是2状态分类器;和
- 将信号值的亚组鉴定为对应于结合状态,其中将格图用于确定对应于信号值亚组的核苷酸状态。
11.根据权利要求1所述的方法,其中所述测序单元包括附着于纳米孔用于测序核酸的聚合酶,并且其中获得所述第一组信号值包括在所述测序单元上施加电压,其中所述电压包括相对于参考电压具有第一部分和第二部分的交流信号,
其中,当标签分子穿过所述测序单元的纳米孔时,在交流信号的第一部分期间测量第一组信号值的至少一部分,所述标签分子对应于特定核苷酸。
12.使用测序单元的方法,所述方法包括:
- 获得测序单元经第一时间间隔的从核酸测量的第一组信号值,其中所述第一组信号值包括测序单元的四种单元状态的每一种的测量值,所述四种单元状态对应于不同类型的核苷酸;
- 创建第一组信号值的第一直方图,所述第一直方图是存储多个计数的数据结构,每个计数对应于箱内的多个信号值,第一直方图的每个箱对应于不同的数值;
对于四种单元状态的每种单元状态:
- 获得初始概率函数,所述初始概率函数将处于单元状态的发射概率分配给不同的数值;和
- 使用初始概率函数和第一直方图来确定将处于小区状态的发射概率分配给不同数值的第一概率函数,所述第一概率函数对应于第一时间间隔;
- 确定对应于第二时间间隔的第二概率函数,所述第一概率函数和第二概率函数形成一组时间依赖性概率函数,其中所述第二概率函数使用第一概率函数确定,且第二直方图从测序单元经第二时间间隔的核酸测量的第二组信号值确定;
- 使用时间依赖性概率函数的所述组确定包含核酸序列的碱基;和
- 提供核酸的序列。
13.根据权利要求12所述的方法,其中使用从一个或多个其他测序单元测量的信号值来确定所述初始概率函数。
14.根据权利要求12所述的方法,其中使用从比第一时间间隔更早的时间间隔测量的信号值来确定初始概率函数。
15.根据权利要求12所述的方法,其中使用在较大时间间隔上测量的信号值确定所述初始概率函数,所述较大时间间隔包括测序所述核酸中的第一时间间隔和其他时间间隔。
16.根据权利要求12所述的方法,其中将所述第一概率函数用作先验分布用于使用贝叶斯统计将所述第二概率函数确定为后验分布。
17.根据权利要求12所述的方法,其中使用时间依赖性概率函数的所述组确定碱基包括:
- 确定在核酸的四种核苷酸状态之间提供成对转换概率的传输矩阵,所述四种核苷酸状态对应于核酸的不同核苷酸;
- 经T时间步长创建格图,每个时间步长对应于所述第一组信号值的一个信号值,其中给定时间步长的格图包括四种核苷酸状态,每种状态具有使用相应单元状态的时间依赖性概率函数确定的且对应于给定时间步长的发射概率,并且其中根据成对转换概率,一个时间步长处的核苷酸状态与下一个时间步长处的核苷酸状态连接;和
- 基于发射概率和成对转移概率确定通过格图的最佳路径,以鉴定每个时间步长处的碱基识别。
18.使用测序单元的方法,所述方法包括:
- 获得包含聚合酶的测序单元经第一时间间隔的从核酸测量的第一组信号值,其中所述第一组信号值包括测序单元的五种结合状态的每一种的测量值,其中四种结合状态对应于不同类型的核苷酸,且第五种结合状态对应于聚合酶的活性位点中没有核苷酸,其中所述四种结合状态共同对应于结合状态,且第五种结合状态是未结合状态;
- 使用第一分类程序将T时间步长处的第一组信号值中的每一个分类为对应于结合状态或未结合状态,其中第一分类程序是2状态分类器;
- 鉴定信号值的亚组为对应于结合状态;
- 使用第二分类程序将信号值亚组的每一个分类为对应于四种结合状态之一以获得N个结合状态,其中第二分类程序在至少4种结合状态之间进行分类;
- 使用N结合状态确定包含核酸序列的碱基;和
- 提供核酸的序列。
19.根据权利要求18所述的方法,其中,使用第一分类程序包括:
- 创建信号值亚组的直方图,所述直方图是存储多个计数的数据结构,每个计数对应于箱内的多个信号值,所述直方图的每个箱对应于不同的数值;
对于结合状态和未结合状态的每个状态:
- 确定将处于状态中的发射概率分配给不同数值的概率函数,使用针对所述直方图的箱的多个计数确定概率函数;
- 确定未结合状态和结合状态之间的转换概率;
- 经T时间步长创建格图,其中给定时间步长处的格图包括结合状态和未结合状态,并且其中根据转换概率,将一个时间步长处的状态与下一个时间步长处的状态连接;和
- 基于发射概率和转换概率确定通过格图的最佳路径,以鉴定如在每个时间步长处存在的结合状态或未结合状态。
20.根据权利要求18所述的方法,其中,所述第二分类程序是4状态分类器。
21.根据权利要求18所述的方法,其中,使用第二分类程序包括:
- 创建信号值亚组的直方图,所述直方图是存储多个计数的数据结构,每个计数对应于箱内的多个信号值,所述直方图的每个箱对应于不同的数值;
对于所述结合状态的每个结合状态:
- 确定将处于结合状态中的发射概率分配给不同数值的概率函数,使用针对所述直方图的箱的多个计数确定概率函数;
- 确定在核酸的四种结合状态之间提供成对转换概率的传输矩阵;
- 经多个时间步长创建格图,每个时间步长对应于信号值亚组的一个信号值,其中给定时间步长处的格图包括四种结合状态,并且其中根据成对转换概率,将一个时间步长处的结合状态与下一个时间步长处的结合状态连接;和
- 基于发射概率和成对转移概率确定通过格图的最佳路径,以鉴定每个时间步长处的结合状态。
CN201780062141.8A 2016-08-08 2017-08-04 随机测序方法的碱基识别 Active CN109952382B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662372258P 2016-08-08 2016-08-08
US62/372258 2016-08-08
US201662384650P 2016-09-07 2016-09-07
US62/384650 2016-09-07
PCT/EP2017/069820 WO2018029108A1 (en) 2016-08-08 2017-08-04 Basecalling for stochastic sequencing processes

Publications (2)

Publication Number Publication Date
CN109952382A true CN109952382A (zh) 2019-06-28
CN109952382B CN109952382B (zh) 2023-11-14

Family

ID=59677206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780062141.8A Active CN109952382B (zh) 2016-08-08 2017-08-04 随机测序方法的碱基识别

Country Status (5)

Country Link
US (3) US10648027B2 (zh)
EP (1) EP3497233B1 (zh)
JP (1) JP6814875B2 (zh)
CN (1) CN109952382B (zh)
WO (1) WO2018029108A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114502714A (zh) * 2019-07-31 2022-05-13 安序源有限公司 评估靶分子的系统和方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3497233B1 (en) * 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
EP3512963A1 (en) 2016-09-15 2019-07-24 H. Hoffnabb-La Roche Ag Nanopore-based sequencing using voltage mode with hybrid mode stimuli
TWI738018B (zh) * 2018-06-27 2021-09-01 瑞士商赫孚孟拉羅股份公司 用於核酸定序之感測器晶片及方法、定序系統、及電腦產品
JP2022511880A (ja) * 2018-12-11 2022-02-01 エフ.ホフマン-ラ ロシュ アーゲー 膜における自己制限性プロテイン細孔挿入のためのシステム及び方法
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11423306B2 (en) 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
EP4107735A2 (en) 2020-02-20 2022-12-28 Illumina, Inc. Artificial intelligence-based many-to-many base calling
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
WO2023059599A1 (en) 2021-10-04 2023-04-13 F. Hoffmann-La Roche Ag Online base call compression
CN113854990B (zh) * 2021-10-27 2024-05-31 青岛海信日立空调系统有限公司 一种心跳检测方法及装置
EP4419714A1 (en) * 2021-11-23 2024-08-28 Pleno, Inc. Encoded assays
WO2024124497A1 (zh) * 2022-12-15 2024-06-20 深圳华大生命科学研究院 基于机器学习的纳米孔测序信号状态的识别方法、机器学习模型的训练方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150065353A1 (en) * 2013-05-06 2015-03-05 Pacific Biosciences Of California, Inc. Real-time electronic sequencing
US20160178577A1 (en) * 2014-12-19 2016-06-23 Genia Technologies, Inc. Nanopore-based sequencing with varying voltage stimulus

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9702008D0 (sv) 1997-05-28 1997-05-28 Pharmacia Biotech Ab A method and a system for nucleic acid seouence analysis
US7039238B2 (en) 2000-12-01 2006-05-02 Sri International Data relationship model
CN101401101B (zh) 2006-03-10 2014-06-04 皇家飞利浦电子股份有限公司 用于通过谱分析鉴定dna模式的方法和系统
US8703422B2 (en) 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
CA2689626C (en) 2007-06-06 2016-10-25 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8452546B1 (en) 2008-11-07 2013-05-28 Electronic Biosciences, Inc. Method for deducing a polymer sequence from a nominal base-by-base measurement
US8370079B2 (en) 2008-11-20 2013-02-05 Pacific Biosciences Of California, Inc. Algorithms for sequence determination
US9175338B2 (en) 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
WO2010068289A2 (en) 2008-12-11 2010-06-17 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
US9017937B1 (en) * 2009-04-10 2015-04-28 Pacific Biosciences Of California, Inc. Nanopore sequencing using ratiometric impedance
CA2760155A1 (en) 2009-04-27 2010-11-11 Pacific Biosciences Of California, Inc. Real-time sequencing methods and systems
US9063156B2 (en) 2009-06-12 2015-06-23 Pacific Biosciences Of California, Inc. Real-time analytical methods and systems
WO2012071434A2 (en) 2010-11-22 2012-05-31 Life Technologies Corporation Model-based residual correction of intensities
EP3269825B1 (en) 2011-09-23 2020-02-19 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
CN104379761B (zh) 2012-04-09 2017-03-01 纽约哥伦比亚大学理事会 纳米孔的制备方法和其用途
ES2779699T3 (es) 2012-06-20 2020-08-18 Univ Columbia Secuenciación de ácidos nucleicos mediante detección en nanoporos de moléculas de etiqueta
US9605309B2 (en) 2012-11-09 2017-03-28 Genia Technologies, Inc. Nucleic acid sequencing using tags
US20160171153A1 (en) 2013-01-17 2016-06-16 Edico Genome, Inc. Bioinformatics Systems, Apparatuses, And Methods Executed On An Integrated Circuit Processing Platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
EP2994749A4 (en) 2013-01-17 2017-07-19 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
ES2735015T3 (es) 2013-11-26 2019-12-13 Illumina Inc Composiciones y métodos para secuenciar polinucleótidos
HUE050641T2 (hu) 2013-12-03 2020-12-28 Illumina Inc Eljárások és rendszerek képadat elemzésére
EP3084002A4 (en) 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
US9697327B2 (en) 2014-02-24 2017-07-04 Edico Genome Corporation Dynamic genome reference generation for improved NGS accuracy and reproducibility
EP3120277A1 (en) 2014-03-21 2017-01-25 Oxford Nanopore Technologies Limited Analysis of a polymer from multi-dimensional measurements
GB201408652D0 (en) 2014-05-15 2014-07-02 Oxford Nanopore Tech Ltd Model adjustment during analysis of a polymer from nanopore measurements
US9863904B2 (en) 2014-12-19 2018-01-09 Genia Technologies, Inc. Nanopore-based sequencing with varying voltage stimulus
CN107209814B (zh) * 2015-01-13 2021-10-15 10X基因组学有限公司 用于使结构变异和相位信息可视化的系统和方法
WO2016164363A1 (en) 2015-04-06 2016-10-13 The Regents Of The University Of California Methods for determing base locations in a polynucleotide
WO2016179437A1 (en) 2015-05-07 2016-11-10 Pacific Biosciences Of California, Inc. Multiprocessor pipeline architecture
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
CN108885648A (zh) 2016-02-09 2018-11-23 托马生物科学公司 用于分析核酸的系统和方法
US11124827B2 (en) 2016-06-23 2021-09-21 Roche Sequencing Solutions, Inc. Period-to-period analysis of AC signals from nanopore sequencing
WO2017223515A1 (en) 2016-06-23 2017-12-28 F. Hoffman-La Roche Ag Formation and calibration of nanopore sequencing cells
EP3497233B1 (en) * 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
WO2018109102A1 (en) * 2016-12-15 2018-06-21 F. Hoffmann-La Roche Ag Adaptive nanopore signal compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150065353A1 (en) * 2013-05-06 2015-03-05 Pacific Biosciences Of California, Inc. Real-time electronic sequencing
US20160178577A1 (en) * 2014-12-19 2016-06-23 Genia Technologies, Inc. Nanopore-based sequencing with varying voltage stimulus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WINSTON TIMP等: "DNA Base-Calling from a Nanopore Using a Viterbi Algorithm", 《BIOPHYS J》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114502714A (zh) * 2019-07-31 2022-05-13 安序源有限公司 评估靶分子的系统和方法

Also Published As

Publication number Publication date
WO2018029108A1 (en) 2018-02-15
JP6814875B2 (ja) 2021-01-20
JP2019531536A (ja) 2019-10-31
US10648027B2 (en) 2020-05-12
US11788132B2 (en) 2023-10-17
CN109952382B (zh) 2023-11-14
EP3497233B1 (en) 2021-11-10
US11293062B2 (en) 2022-04-05
US20200232026A1 (en) 2020-07-23
US20180037948A1 (en) 2018-02-08
US20220267840A1 (en) 2022-08-25
EP3497233A1 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
CN109952382A (zh) 随机测序方法的碱基识别
US11965210B2 (en) Nanopore based molecular detection and sequencing
Robertson et al. The utility of nanopore technology for protein and peptide sensing
Oukhaled et al. Sensing proteins through nanopores: fundamental to applications
Reiner et al. Disease detection and management via single nanopore-based sensors
CN109313177B (zh) 来自纳米孔测序的交流信号的周期至周期分析
CN109791138B (zh) 纳米孔电压方法
CN104350162A (zh) 芯片设置和高精确度核酸测序
CN110268045B (zh) 自适应纳米孔信号压缩
JP6795612B2 (ja) 二重層形成の電気的促進
US11029306B2 (en) Nanopore-based sequencing using voltage mode with hybrid mode stimuli
CN112292462B (zh) 生化传感器阵列中的多路复用模拟部件
CN111512155B (zh) 测量和去除来自交流信号驱动的纳米孔dna测序系统的随机信号中的噪声
CN109313178A (zh) 在纳米孔测序测定池中抵消渗透不平衡
Soni et al. Over 30-Fold Enhancement in DNA Translocation Dynamics through Nanoscale Pores Coated with an Anionic Surfactant
CN113260449B (zh) 用于膜中自限性蛋白质孔插入的系统和方法
CN115485553A (zh) 用于使用捕获的电荷形成双层以及以纳米孔阵列插入孔的系统和方法
Liu et al. Single Nucleotide Discrimination by α-Hemolysin Nanopore
CN118266034A (zh) 在线碱基识别压缩
Chingarande Real-Time Detection of Dopamine–Aptamer Interactions in a Nanopore: A Label-Free Toolkit for Study of Nucleic-Acid-Based Molecular Sensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment