CN111615629A - 纳米孔sbs信号的标准化和基线移位移除 - Google Patents

纳米孔sbs信号的标准化和基线移位移除 Download PDF

Info

Publication number
CN111615629A
CN111615629A CN201880087631.8A CN201880087631A CN111615629A CN 111615629 A CN111615629 A CN 111615629A CN 201880087631 A CN201880087631 A CN 201880087631A CN 111615629 A CN111615629 A CN 111615629A
Authority
CN
China
Prior art keywords
signal
signal values
nanopore
voltage
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880087631.8A
Other languages
English (en)
Other versions
CN111615629B (zh
Inventor
S.霍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of CN111615629A publication Critical patent/CN111615629A/zh
Application granted granted Critical
Publication of CN111615629B publication Critical patent/CN111615629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Food Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Nanotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)

Abstract

一种使用测序单元(300)的方法包括:跨测序单元之上施加交流电压(328),同时对核酸测序(332),从测序单元获取多个信号值(P(ti)),同时将标签分子(338)样式匹配到测序单元的纳米孔(316)中,以及获取与多个获取的信号值(P(ti))的相应值相互关联的多个相互关联的信号值(X(ti)),由此形成多个二维数据点(1201,1203,1205,1207,1209,1303,1305,1307,1309,1311)。二维数据点包括针对获取的信号值的第一维度和针对相互关联的信号值的第二维度。该方法进一步包括:通过对二维数据点应用二维变换来计算多个经变换的信号值。

Description

纳米孔SBS信号的标准化和基线移位移除
相关申请的交叉引用
本申请要求2017年11月27日提交的美国临时专利申请No.62/591,099的权益,该美国临时专利申请的内容通过引用整体地并入本文中。
背景技术
具有在内径方面约为一纳米的孔大小的纳米孔膜器件在快速核苷酸测序方面显示出前景。当电势施加在浸入导电流体中的纳米孔之上时,归因于离子在纳米孔之上的传导,可以存在小的离子电流。电流的大小对孔大小以及哪个分子在纳米孔中是敏感的。该分子可以是附接到特定核苷酸的特定标签,由此允许在核酸的特定位置处的核苷酸检测。可以测量包括纳米孔的电路中的电压(例如,在积分电容器处),作为测量分子电阻的方式,由此允许检测哪个分子在纳米孔中。
基于纳米孔的测序芯片可以被用于DNA测序。基于纳米孔的测序芯片可以并入被配置为阵列的大量传感器单元。例如,一百万个单元的阵列可以包括1000行乘1000列的单元。
由于制造可变性,被测量的电压可能因不同芯片以及因同一芯片的不同单元而不同。因此,可能难以确定正确的分子,该正确的分子可以是或可以对应于细胞中特定核酸或其他聚合物中的正确核苷酸。此外,所测量的电压中其他时间依赖的非理想性也会导致不准确性。并且,因为这些电路采用生物化学电路元件,例如,脂质双分子层、纳米孔等,所以电特性中的可变性可以比针对传统半导体电路的高得多。
因此,期望信号标准化技术来改进测序过程的准确性和稳定性。
发明内容
各种实施例提供了与处理来自基于多单元纳米孔的测序芯片的单元的输出信号有关的技术和系统。可以通过采用本文中公开的各种实施例来构建改进的基于多单元纳米孔的测序芯片。例如,实施例可以包括用于实行测序信号处理的系统和方法,其可以补偿可以由例如零点电压波动/漂移、增益漂移和基线移位引起的测序信号中的非理想性。
根据一个实施例,可以通过使用改进的信号处理技术来补偿测序信号中的非理想性,该改进的信号处理技术可以更有效地补偿测序信号中诸如基线移位引发的误差之类的影响。该技术可以包括:通过将每个亮模式信号值与对应的相互关联的信号值相关联,根据一维亮模式信号值来生成二维信号值,即,二维数据点。二维数据点然后可以被用来确定一个或多个二维变换,该一个或多个二维变换可以减少亮模式数据中的方差。该技术还可以包括:将二维变换应用于新获取的亮模式信号值,以减少新获取的亮模式信号值中的方差。
根据另一个实施例,可以通过改进的信号处理系统和方法来补偿测序信号中的非理想性,该系统和方法采用暗模式信号作为从亮模式信号中减去的基线。暗模式信号是在AC信号的“暗模式”时期期间获取的,当暗模式信号被施加到测序单元时,标签被施加的电场推出纳米孔的圆筒。例如,为了补偿单元的零点电压中的波动,可以通过从亮模式开放通道信号值和亮模式匹配样式(threaded)信号值二者中减去暗模式信号值来计算零点补偿信号值。零点补偿信号值可以被用作对其他中间处理阶段的输入,该其他中间处理阶段例如是采用如下所述的运行(running)直方图和/或二维处理方法的阶段。即使零点电压本身的值是未知的,该技术也可以针对由诸如在单元的零点电压中的变化和/或漂移之类的现象所引发的误差来校正测序信号。
根据另一个实施例,可以使用改进的信号处理技术来确定标准化因子的改进的估计。该技术可以使用运行/移动直方图来基于在任何时刻处的历史测量结果的集合确定在该时刻处的开放通道孔状态(例如,孔中没有标签)。历史数据对直方图的贡献可以通过根据历史数据的经时(age)对其进行加权/折现(discount)来控制。用于在对利用孔中的标签所测量的信号进行标准化时使用的标准化因子可以被确定为与运行/移动直方图中的最大峰值相关联的测序信号值。
以上技术可以独立地使用或以任何组合或次序使用,以改进基于纳米孔的测序单元的测序信号。以上技术中的一个或多个也可以在逐单元的基础上应用,以改进基于多单元纳米孔的测序芯片的测序信号。
其他实施例涉及与本文中描述的方法相关联的系统和计算机可读介质。
参照以下详细描述和附图,可以得到对本发明实施例的性质和优点的更好理解。
附图说明
图1是具有纳米孔单元的阵列的纳米孔传感器芯片的实施例的俯视图。
图2图示了可以被用来表征多核苷酸或多肽的纳米孔传感器芯片中的纳米孔单元的实施例。
图3图示了使用基于纳米孔的合成测序(纳米-SBS)技术实行核苷酸测序的纳米孔单元的实施例。
图4图示了纳米孔单元中的电路的实施例。
图5示出了在AC循环的亮时期和暗时期期间从纳米孔单元捕获的示例数据点。
图6A-6B图示了根据一些实施例的理想化ADC信号的标准化概念。
图7示出了根据某些实施例的遭受增益漂移影响的理想化信号。
图8示出了根据某些实施例的展现基线移位的理想化信号。
图9示出了在近似5秒的过程之内从纳米孔单元测量到的原始测序信号的样本数据的一个示例。
图10示出了图示了根据某些实施例的用于处理测序信号以移除非零和变化的V 0 的影响的方法1000的流程图。
图11示出了根据某些实施例的已经仅使用逐点开放通道标准化例程来标准化的数据的示例,该逐点开放通道标准化例程使用开放通道值来标准化所测量的亮模式信号。
图12A-12C示出了根据某些实施例的通过在暗-亮平面中旋转进行的偏移移位校正。
图13A-13B示出了图示了根据某些实施例的通过由积分历史值和亮值限定的2D平面中的变换进行偏移移位校正的方法的标绘图。
图14示出了图示了根据某些实施例的使用测序单元的方法1400的流程图。
图15示出了图示了根据某些实施例的使用测序单元的方法的流程图。
图16A和图16B示出了根据某些实施例的仅通过逐点标准化处理的与通过在积分历史亮模式平面中的二维变换、继之以逐点标准化处理的样本数据的比较。
图17示出了一个示例运行直方图1701,其可以根据类似于图16B中所示的经处理的测序信号数据来计算。
图18示出了图示了根据某些实施例的使用测序单元的方法的流程图。
图19示出了根据一些实施例的用于标准化和偏移校正的示例系统。
图20是根据本公开的某些方面的计算机系统。
术语
除非另行限定,否则本文中使用的技术和科学术语具有与本领域普通技术人员通常理解的相同的含义。与本文中描述的方法、设备和材料类似或等同的方法、设备和材料可以在所公开技术的实践中使用。提供以下术语以便于理解某些频繁使用的术语,并且不意味着限制本公开的范围。本文中使用的缩写在化学和生物领域内具有其常规含义。
核酸”可以指代采用单链或双链形式的脱氧核糖核苷酸或核糖核苷酸及其聚合物。该术语可以涵盖含有已知核苷酸类似物或修饰的主链残基或键的核酸,该已知核苷酸类似物或修饰的主链残基或键是合成的、天然存在的和非天然存在的,它们具有与参考核酸类似的结合属性,并且以与参考核苷酸类似的方式代谢。这样的类似物的示例可以包括但不限于硫代磷酸酯、亚磷酰胺、甲基膦酸酯、手性甲基膦酸酯、2-O-甲基核糖核苷酸、肽核酸(PNA)。除非另行指示,否则特定的核酸序列也隐含地涵盖其保守修饰的变体(例如,简并密码子替换)和互补序列,以及明确指示的序列。具体地,简并密码子替换可以通过生成序列来实现,在所述序列中,一个或多个所选(或所有)密码子的第三位置被用混合碱基和/或脱氧肌苷残基替换(Batzer等人,Nucleic Acid Res. 19:5081(1991);Ohtsuka等人,J. Biol. Chem. 260:2605-2608(1985);Rossolini等人,Mol. Cell. Probes 8:91-98(1994))。术语核酸可以与基因、cDNA、mRNA、寡核苷酸和多核苷酸可交换地使用。
术语“模板”可以指代被拷贝到DNA核苷酸中用于DNA合成的互补链中的单链核酸分子。在一些情况下,模板可以指代在mRNA的合成期间拷贝的DNA序列。
术语“引物”可以指代为DNA合成提供起始点的短核酸序列。诸如DNA聚合酶之类的催化DNA合成的酶可以为用于DNA复制的引物添加新的核苷酸。
聚合酶”可以指代实行多核苷酸的模板导向合成的酶。该术语涵盖全长多肽和具有聚合酶活性的结构域二者。DNA聚合酶是本领域技术人员公知的,并且包括但不限于隔离自或源自激烈火球菌、嗜热高温球菌海洋热球菌或其修饰形式的DNA聚合酶。它们包括依赖于DNA的聚合酶和依赖于RNA的聚合酶二者,诸如逆转录酶。已知至少五个依赖于DNA的DNA聚合酶家族,尽管大多数落入家族A、B和C中。在不同的家族当中几乎没有或没有序列类似性。大多数家族A聚合酶是单链蛋白质,其可以包含多个酶功能,该多个酶功能包括聚合酶、3’至5’核酸外切酶活性和5’至3’核酸外切酶活性。家族B聚合酶通常具有单个催化结构域,其具有聚合酶和3’至5’核酸外切酶活性,以及辅助因子。家族C聚合酶通常是具有聚合和3’至5’核酸外切酶活性的多亚基蛋白质。在大肠杆菌中,已经发现了三种类型的DNA聚合酶,即DNA聚合酶I(家族A)、II(家族B)和III(家族C)。在真核细胞中,三个不同的家族B聚合酶——即DNA聚合酶
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
——与核复制方面有关,并且家族A聚合酶——即聚合酶
Figure 697674DEST_PATH_IMAGE004
——被用于线粒体DNA复制。其他类型的DNA聚合酶包括噬菌体聚合酶。类似地,RNA聚合酶通常包括真核RNA聚合酶I、II和III,和细菌RNA聚合酶以及噬菌体和病毒聚合酶。RNA聚合酶可以是依赖于DNA和依赖于RNA的。
纳米孔”指代在膜中形成或以其他方式提供的孔、通道或通路。膜可以是诸如脂质双分子层之类的有机膜,或者是诸如由聚合材料形成的膜之类的合成膜。纳米孔可以被设置成与感测电路或被耦合到感测电路的电极相邻或在其附近,该感测电路诸如例如是互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路。在一些示例中,纳米孔具有约为0.1纳米(nm)至大约1000 nm的特性宽度或直径。在一些实现方式中,纳米孔可以是蛋白质。
术语“核苷酸”除了指代天然存在的核糖核苷酸或脱氧核糖核苷酸单体之外,还可以被理解成指代包括衍生物和类似物的其相关的结构变体,它们在功能上关于其中使用该核苷酸(例如,与互补碱基的杂交)的特定环境等同,除非环境另外清楚地指示。
术语“标签”可以指代可检测的部分,其可以是原子或分子,或者是原子或分子的集合。标签可以提供光学的、电化学的、磁性的或静电的(例如,感应的、电容的)签名,该签名可以借助于纳米孔来检测。通常,当核苷酸附接到标签时,它被叫做“标记核苷酸”。标签可以经由磷酸部分附接到核苷酸。
术语“亮时期”通常可以指代由通过AC信号施加的电场强制标记核苷酸的标签进入纳米孔中的时间段。术语“暗时期”通常可以指代由通过AC信号施加的电场将标记核苷酸的标签推出纳米孔的时间段。AC循环可以包括亮时期和暗时期。在不同的实施例中,被施加到纳米孔单元以将纳米孔单元置于亮时期(或暗时期)的电压信号的极性可以不同。亮时期和暗时期可以对应于交流信号相对于参考电压的不同部分。
术语“信号值”可以指代从测序单元输出的测序信号的值。根据某些实施例,测序信号可以是从一个或多个测序单元的电路中的一点测量和/或输出的电信号,例如,信号值可以是(或可以表示)电压或电流。信号值可以表示电压和/或电流的直接测量结果,和/或可以表示间接测量结果,例如,信号值可以是电压或电流达到指定值所花费的测量的持续时间。信号值可以表示与纳米孔的电阻率相互关联的任何可测量的量,并且根据该信号值可以得出纳米孔(匹配样式和/或未匹配样式)的电阻率和/或电导。作为另一个示例,信号值可以对应于光强度,例如,来自与利用聚合酶被催化成核酸的核苷酸附接的荧光团的光强度。
术语“直方图”可以指代为指定数量的间隔(分箱)中的每一个存储多个信号值的计数的数据结构。每个分箱可以对应于信号值的离散值(例如,如由ADC的分辨率确定的)或对应于间隔内的可能信号值的范围。
具体实施方式
根据某些实施例,本文中公开的方法和系统涉及纳米孔测序信号的处理中的改进,该纳米孔测序信号例如是,如由连接到纳米孔单元的ADC测量的电压信号。更具体地,本文中公开的方法和系统校正纳米孔测序信号中的增益漂移和基线移位二者。
纳米孔测序信号中的基线移位现象可能与在测量过程期间发生的、在充电和放电循环期间、在系统中的某些固有电容式元件(例如,单元的工作电极)上积聚的电荷不平衡有关。信号的增益漂移可以由膜电容中相对慢(数百或数千秒)的改变所引起,其中膜(例如,双分子层)覆盖孔。这样的膜电容可以以确定的方式、例如响应于双分子层中的物理改变而改变。
可以通过二维变换来(在逐单元的基础上)移除信号的基线漂移,其例如通过在2维空间中旋转或展平单元的数据,其中2维空间的一个轴线被限定为测量的亮通道电压,并且另一个轴线被限定为用作单元内电荷不平衡的代理的导出值。在一些实施例中,代理可以是亮通道电压或暗通道电压的时间加权积分历史。为了计算积分历史,历史电压值可以被加在一起(即,积分),其中较旧的数据对总和的贡献随着历史值的老化而被降级。在时间上降级的时间常数与单元的步长响应时间有关,该响应时间可以在逐单元的基础上独立地测量。
增益漂移的补偿可以通过对单元的亮通道信号进行逐点标准化来(在逐单元的基础上)实现。例如,为了使信号标准化,每个测量的原始电压可以除以峰值OC电压的估计。可以使用在本文中被称为“移动直方图方法”的内容来找到峰值OC电压的估计。峰值OC电压可以被标识为数据的时间加权运行直方图中的最大峰值的最大值。对于要被标准化的每个点,例如使用其中历史数据对每个新直方图的贡献随着老化而指数降级的更新过程,可以在每次获取新电压时确定直方图。用于在移动直方图方法中进行指数降级的时间常数也可以与单元的增益进行改变的速率有关。
在单元的零点电压V0中的漂移或波动的补偿可以通过改进的处理技术来实现,该改进的处理技术不需要明确地测量和跟踪V0。例如,通过使用暗模式信号作为从开放通道信号和匹配样式信号二者中减去的基线信号,可以补偿V0漂移对测序信号的影响。另外,由V0的方差引起的原始测序信号值中的方差被大大减少或甚至被消除,而不需要在测序操作期间或之前进行任何附加的测量来明确地跟踪每个单元的V0
I、纳米孔测序单元
纳米孔传感器芯片100中的纳米孔单元150可以以许多不同的方式实现。例如,在一些实施例中,不同大小和/或化学结构的标签可以附接到要测序的核酸分子中的不同核苷酸。在一些实施例中,可以通过将不同聚合物标记的核苷酸与模板杂交来合成对于要测序的核酸分子的模板而言的互补链。在一些实现方式中,核酸分子和附接的标签都可以移动通过纳米孔,并且由于附接到核苷酸的标签的特定大小和/或结构,通过纳米孔的离子流可以指示处于纳米孔中的核苷酸。在一些实现方式中,只有标签可以移动到纳米孔中。也可以存在用于检测纳米孔中的不同标签的许多不同方式。
A、纳米孔测序单元结构
图2图示了可以被用来表征多核苷酸或多肽的纳米孔传感器芯片中的纳米孔单元200(诸如图1的纳米孔传感器芯片100中的纳米孔单元150)的实施例。纳米孔单元200可以包括:阱205,其由介电层201和204形成;膜,诸如在阱205上方形成的脂质双分子层214;和样本腔室215,其在脂质双分子层214上并且通过脂质双分子层214与阱205分离。阱205可以包含一定体积的电解质206,并且样本腔室215可以容纳本体电解质208,其包含纳米孔(例如,可溶性蛋白质纳米孔跨膜分子复合物(PNTMC))和感兴趣的分析物(例如,要测序的核酸分子)。
纳米孔单元200可以包括:位于阱205底部处的工作电极202和被设置在样本腔室215中的反电极210。信号源228可以在工作电极202与反电极210之间施加电压信号。可以通过由电压信号引起的电穿孔过程来将单个纳米孔(例如,PNTMC)插入到脂质双分子层214中,由此在脂质双分子层214中形成纳米孔216。阵列中的个体膜(例如,脂质双分子层214或其他膜结构)可以彼此既不化学连接也不电连接。因此,阵列中的每个纳米孔单元可以是独立的测序机,其产生对于与纳米孔相关联的单个聚合物分子而言唯一的数据,该独立的测序机对感兴趣的分析物进行操作,并且调制通过在其他方面不可渗透的脂质双分子层的离子流。
如在图2中所示,纳米孔单元200可以在诸如硅衬底之类的衬底230上形成。介电层201可以在衬底230上形成。被用来形成介电层201的介电材料可以包括例如玻璃、氧化物、氮化物等等。用于控制电刺激和用于处理从纳米孔单元200检测到的信号的电路222可以在衬底230上和/或在介电层201内形成。例如,可以在介电层201中形成多个图案化的金属层(例如,金属1到金属6),并且可以在衬底230上制造多个有源器件(例如,晶体管)。在一些实施例中,信号源228被包括作为电路222的部分。电路222可以包括例如放大器、积分器、模数转换器、噪声滤波器、反馈控制逻辑和/或各种其他组件。电路222可以进一步耦合到处理器224,该处理器224耦合到存储器226,其中处理器224可以分析测序数据以确定已经在阵列中被测序的聚合物分子的序列。
工作电极202可以在介电层201上形成,并且可以形成阱205底部的至少一部分。在一些实施例中,工作电极202是金属电极。对于非法拉第传导,工作电极202可以由诸如例如铂、金、氮化钛和石墨之类的抗腐蚀和抗氧化的金属或其他材料制成。例如,工作电极202可以是具有电镀铂的铂电极。在另一个示例中,工作电极202可以是氮化钛(TiN)工作电极。工作电极202可以是多孔的,由此增加其表面积和与工作电极202相关联的所得电容。因为纳米孔单元的工作电极可以独立于另一纳米孔单元的工作电极,所以在本公开中工作电极可以被称为单元电极。
介电层204可以在介电层201之上形成。介电层204形成围绕阱205的壁。被用来形成介电层204的介电材料可以包括例如玻璃、氧化物、氮化硅(SiN)、聚酰亚胺或其他合适的疏水绝缘材料。介电层204的顶表面可以被硅烷化。该硅烷化可以在介电层204的顶表面之上形成疏水层220。在一些实施例中,疏水层220具有大约1.5纳米(nm)的厚度。
由介电层204的壁形成的阱205包括在工作电极202之上的电解质体积206。电解质体积206可以被缓冲,并且可以包括以下各项中的一个或多个:氯化锂(LiCl)、氯化钠(NaCl)、氯化钾(KCl)、谷氨酸锂、谷氨酸钠、谷氨酸钾、乙酸锂、乙酸钠、乙酸钾、氯化钙(CaCl2)、氯化锶(SrCl2)、氯化锰(MnCl2)和氯化镁(MgCl2)。在一些实施例中,电解质体积206具有大约三微米(µm)的厚度。
如还在图2中所示,膜可以在介电层204的顶部上形成并且跨越阱205。在一些实施例中,膜可以包括在疏水层220顶部上形成的脂质单分子层218。在膜达到阱205的开口时,脂质单分子层218可以转变成跨越阱205的开口的脂质双分子层214。脂质双分子层可以包括磷脂或由磷脂组成,该磷脂例如选自以下各项:二苯甲酰基-磷脂酰胆碱(DPhPC)、1,2-二苯甲酰基-sn-甘油-3-磷酸胆碱、1,2-二-O-植烷基-sn-甘油-3-磷酸胆碱(DPhPc)、棕榈酰基-油酰基-磷脂酰胆碱(POPC)、二油酰基-磷脂酰基-甲酯(DOPME)、二棕榈酰磷脂酰胆碱(DPPC)、磷脂酰胆碱、磷脂酰乙醇胺、磷脂酰丝氨酸、磷脂酸、磷脂酰肌醇、磷脂酰甘油、鞘磷脂、1,2-二-O-植烷基-sn-甘油;1,2-二棕榈酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-350];1,2-二棕榈酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-550];1,2-二棕榈酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-750];1,2-二棕榈酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-1000];1,2-二棕榈酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000];N-乳糖基-1,2-二油酰基-sn-甘油-3-磷酸乙醇胺;神经节苷脂GM1,溶血磷脂酰胆碱(LPC)或其任何组合。
如所示出的,脂质双分子层214嵌有单个纳米孔216,该单个纳米孔216例如由单个PNTMC形成。如上所述,纳米孔216可以通过电穿孔将单个PNTMC插入脂质双分子层214中而形成。纳米孔216可以足够大,以使感兴趣的分析物的至少一部分和/或小离子(例如,Na+、K+、Ca2+、CI-)在脂质双分子层214的两侧之间通过。
样本腔室215在脂质双分子层214上方,并且可以容纳感兴趣的分析物的溶液以供表征。该溶液可以是包含本体电解质208的水溶液,并且被缓冲至最佳离子浓度并维持在最佳pH以使纳米孔216保持开放。纳米孔216穿过脂质双分子层214,并且为离子从本体电解质208到工作电极202的流动提供了仅有路径。除了纳米孔(例如,PNTMC)和感兴趣的分析物之外,本体电解质208可以进一步包括以下各项中的一个或多个:氯化锂(LiCl)、氯化钠(NaCl)、氯化钾(KCl)、谷氨酸锂、谷氨酸钠、谷氨酸钾、乙酸锂、乙酸钠、乙酸钾、氯化钙(CaCl2)、氯化锶(SrCl2)、氯化锰(MnCl2)和氯化镁(MgCl2)。
反电极210可以是电化学电势传感器。在一些实施例中,反电极210可以在多个纳米孔单元之间共享,并且因此可以被称为公共电极。在一些情况下,公共电势和公共电极可以对于所有纳米孔单元或者特定分组内的至少所有纳米孔单元是公共的。公共电极可以被配置成向与纳米孔216接触的本体电解质208施加公共电势。反电极210和工作电极202可以耦合到信号源228,以用于跨脂质双分子层214之上提供电刺激(例如,电压偏置),并且可以被用于感测脂质双分子层214的电特性(例如,电阻、电容和离子流的流动)。在一些实施例中,纳米孔单元200还可以包括参考电极212。
在一些实施例中,作为校准的部分,可以在纳米孔单元的创建期间进行各种检查。一旦纳米孔单元被创建,就可以实行进一步的校准步骤,例如,以标识如期望的那样实行的纳米孔单元(例如,单元中的一个纳米孔)。这样的校准检查可以包括物理检查、电压校准、开放通道校准以及对具有单个纳米孔的单元的标识。
B、纳米孔测序单元的检测信号
纳米孔传感器芯片中的纳米孔单元(诸如纳米孔传感器芯片100中的纳米孔单元150可以使用基于单分子纳米孔的合成测序(纳米SBS)技术使能实现并行测序。
图3图示了使用纳米SBS技术实行核苷酸测序的纳米孔单元300的实施例。在纳米SBS技术中,要测序的模板332(例如,核苷酸分子或另一种感兴趣的分析物)和引物可以被引入到纳米孔单元300的样本腔室中的本体电解质308中。作为示例,模板332可以是圆形的或线性的。核酸引物可以与模板332的一部分杂交,其中可以向该模板332的一部分添加四个不同的聚合物标记的核苷酸338。
在一些实施例中,酶(例如,聚合酶334,诸如DNA聚合酶)可以与纳米孔316相关联,以用于在合成对模板332的互补链时使用。例如,聚合酶334可以共价附接到纳米孔316。聚合酶334可以使用单链核酸分子作为模板来催化核苷酸338并入到引物上。核苷酸338可以包括标签种类(“标签”),其中核苷酸是四种不同类型A、T、G或C中的一种。
当标记核苷酸与聚合酶334正确结合时,可以通过电的力将标签拉入(装载)到纳米孔中,该电的力诸如是在存在由跨脂质双分子层314和/或纳米孔316之上施加的电压所生成的电场的情况下所生成的力。可以使用被连接到工作电极和反电极310的电压源328来施加电压。标签的尾部可以定位在纳米孔316的圆筒中。由于标签的有区别的化学结构和/或大小,保持在纳米孔316的圆筒中的标签可以生成唯一的离子阻滞信号340,由此电子地标识标签所附接到的添加碱基。
如本文中使用的,“装载的”或“匹配样式的”标签可以是被定位在纳米孔中和/或被保持在纳米孔中或附近长达可感知量的时间的标签,该可感知量的时间例如是0.1毫秒(ms)至10,000毫秒。在一些情况下,标签在从核苷酸中被释放之前被装载在纳米孔中。在一些实例中,装载的标签在核苷酸并入事件时被释放之后,其通过纳米孔(和/或被纳米孔检测到)的概率适合地较高,例如90%至99%。
在一些实施例中,在聚合酶334连接到纳米孔316之前,纳米孔316的电导可以是高的,诸如例如是大约300微微西门子(300 pS)。在标签被装载在纳米孔中时,由于标签的有区别的化学结构和/或大小,会生成唯一的电导信号(例如,信号340)。例如,纳米孔的电导可以是大约60 pS、80 pS、100 pS或120 pS,每个对应于四种类型的标记核苷酸中的一种。聚合酶然后可以经历异构化和转磷酸化反应,以将核苷酸并入到正在生长的核酸分子中并且释放标签分子。
在一些情况下,一些标记核苷酸可能与核酸分子(模板)的当前位置不匹配(互补碱基)。不与核酸分子碱基配对的标记核苷酸也可以通过纳米孔。这些未配对的核苷酸可以在比正确配对的核苷酸与聚合酶保持相关联的时间尺度更短的时间尺度内被聚合酶拒绝。结合到非配对核苷酸的标签可以快速通过纳米孔,并且在短时间段内(例如,小于10 ms)被检测到,而结合到配对核苷酸的标签可以被装载到纳米孔中,并且在长时间段内(例如,至少10 ms)被检测到。因此,下游处理器可以至少部分地基于在其间在纳米孔中检测到核苷酸的时间来标识非配对核苷酸。
包括装载的(匹配样式的)标签的纳米孔的电导(或等效地电阻)可以经由通过纳米孔的电流来测量,由此提供对标签种类、以及因此在当前位置处的核苷酸的标识。在一些实施例中,直流(DC)信号可以被施加到纳米孔单元(例如,使得标签移动通过纳米孔的方向不被反转)。然而,使用直流在长时间段内操作纳米孔传感器可以改变电极的组成、使跨纳米孔之上的离子浓度失衡,并且具有可能影响纳米孔单元的寿命的其他不合期望的影响。施加交流(AC)波形可以减少电迁移,以避免这些不合期望的影响,并且具有如下所述的某些优点。本文中描述的利用标记核苷酸的核酸测序方法与施加的AC电压完全兼容,并且因此AC波形可以被用来实现这些优点。
当使用牺牲电极(即在载流反应中改变分子特性的电极(例如,包含银的电极)或在载流反应中改变分子特性的电极)时,在AC检测循环期间对电极再充电的能力可以是有利的。当使用直流信号时,电极可能在检测循环期间耗尽。再充电可以防止电极达到耗尽极限(诸如变得完全耗尽),这在电极很小(例如,当电极足够小可以提供具有每平方毫米至少500个电极的电极阵列时)时可能是一个问题。在一些情况下,电极寿命与电极宽度成比例,并且至少部分地取决于电极宽度。
用于测量通过纳米孔的离子流的合适条件在本领域中是已知的,并且在本文中提供了示例。测量可以利用跨膜和孔之上施加电压来实行。在一些实施例中,所使用的电压的范围可以是从-400 mV到+400 mV。所使用的电压优选地在具有以下下限和以下上限的范围内,该下限选自-400 mV、-300 mV、-200 mV、-150 mV、-100 mV、-50 mV、-20 mV和0 mV,并且该上限独立地选自+10 mV、+20 mV、+50 mV、+100 mV、+150 mV、+200 mV、+300 mV和+400mV。所使用的电压可以更优选地在100 mV至240 mV的范围内,并且最优选地在160 mV至240mV的范围内。由纳米孔使用增加的施加电势来增加不同核苷酸之间的区别是可能的。于2013年11月6日提交的题为“Nucleic Acid Sequencing Using Tags”的美国专利公开No.US2014/0134616中描述了使用AC波形和标记核苷酸对核酸进行测序,该美国专利公开通过引用整体地并入本文中。除了在US2014/0134616中描述的标记核苷酸之外,还可以使用不含糖或非循环部分的核苷酸类似物来实行测序,该核苷酸类似物例如是五种常见核酸碱基的(S)-甘油核苷三磷酸(gNTP):腺嘌呤、胞嘧啶、鸟嘌呤、尿嘧啶和胸腺嘧啶(Horhota等人,Organic Letters,8:5345-5347[2006])。
C、纳米孔测序单元的电路
图4图示了纳米孔单元(诸如纳米孔单元200)中的电路400(其可以包括图2中的电路222的部分)的实施例。如上所述,在一些实施例中,电路400包括反电极410,该反电极410可以在纳米孔传感器芯片中的多个纳米孔单元或所有纳米孔单元之间共享,并且因此也可以被称为公共电极。公共电极可以被配置成通过连接到电压源VLIQ420向与纳米孔单元中的脂质双分子层(例如,脂质双分子层214)接触的本体电解质(例如,本体电解质208)施加公共电势。在一些实施例中,可以利用AC非法拉第模式来利用AC信号(例如,方波)调制电压VLIQ,并且将其施加到与纳米孔单元中的脂质双分子层接触的本体电解质。在一些实施例中,VLIQ是具有量值为±200-250 mV以及在例如25与400 Hz之间的频率的方波。反电极410与脂质双分子层(例如,脂质双分子层214)之间的本体电解质可以由诸如例如100 μF或更大的大电容器(未示出)来建模。
图4还示出了表示工作电极402(例如,工作电极202)和脂质双分子层(例如,脂质双分子层214)的电属性的电模型422。电模型422包括对与脂质双分子层相关联的电容进行建模的电容器426(C双分子层)和对与纳米孔相关联的可变电阻进行建模的电阻器428(R),与纳米孔相关联的可变电阻可以基于纳米孔中特定标签的存在而改变。电模型422还包括电容器424,该电容器424具有双层电容(C双层),并且表示工作电极402和阱205的电属性。工作电极402可以被配置成在其他纳米孔单元中施加独立于工作电极的有区别的电势。
通过器件406是一个开关,其可以被用来将脂质双分子层和工作电极与电路400连接或断开。通过器件406可以由控制线407控制,以使能或禁用跨纳米孔单元中的脂质双分子层之上施加电压刺激。在脂质被沉积以形成脂质双分子层之前,两个电极之间的阻抗可以非常低,因为纳米孔单元的阱未被密封,并且因此通过器件406可以保持打开以避免短路状况。可以在脂质溶剂已经沉积到纳米孔单元之后关闭通过器件406,以密封纳米孔单元的阱。
电路400可以进一步包括芯片上积分电容器408(ncap)。积分电容器408可以通过使用复位信号403来闭合开关401而被预充电,使得积分电容器408连接到电压源VPRE 405。在一些实施例中,电压源VPRE 405提供具有量值例如为900 mV的恒定参考电压。当开关401闭合时,积分电容器408可以被预充电到电压源VPRE 405的参考电压水平。
在积分电容器408被预充电之后,复位信号403可以被用来打开开关401,使得积分电容器408与电压源VPRE 405断开。此时,取决于电压源VLIQ的水平,反电极410的电势可以在高于工作电极402(和积分电容器408)的电势的水平处,或反之亦然。例如,在来自电压源VLIQ的方波的正相位期间(例如,AC电压源信号循环的亮或暗时期),反电极410的电势在高于工作电极402的电势的水平处。在来自电压源VLIQ的方波的负相位期间(例如,AC电压源信号循环的暗或亮时期),反电极410的电势在低于工作电极402的电势的水平处。因此,在一些实施例中,由于反电极410与工作电极402之间的电势差,积分电容器408可以在亮时期期间从电压源VPRE 405的预充电电压水平进一步充电到更高水平,并且在暗时期期间放电到更低水平。在其他实施例中,充电和放电可以分别在暗时期和亮时期中发生。
取决于模数转换器(ADC)435的采样速率,积分电容器408可以被充电或放电长达固定的时间段,该采样速率可以高于1 kHz、5 kHz、10 kHz、100 kHz或更高。例如,利用1kHz的采样速率,积分电容器408可以被充电/放电长达大约1 ms的时期,并且然后电压水平可以在积分时期的结束时被ADC 435采样和转换。特定的电压水平将对应于纳米孔中特定的标签种类,并且因此对应于模板上当前位置处的核苷酸。
在被ADC 435采样之后,积分电容器408可以通过使用复位信号403来闭合开关401而再次被预充电,使得积分电容器408再次连接到电压源VPRE 405。可以在贯穿测序过程的循环中重复以下步骤:预充电积分电容器408、等待积分电容器408充电或放电长达固定的时间段、以及由ADC 435对积分电容器的电压水平进行采样和转换。
数字处理器430可以处理ADC输出数据,例如,用于标准化、数据缓冲、数据过滤、数据压缩、数据缩减、事件提取,或者将来自纳米孔单元阵列的ADC输出数据组装成各种数据帧。在一些实施例中,数字处理器430可以实行进一步的下游处理,诸如碱基确定。数字处理器430可以被实现为硬件(例如,以GPU、FPGA、ASIC等的形式)或者可以被实现为硬件和软件的组合。
因此,跨纳米孔之上施加的电压信号可以被用来检测纳米孔的特定状态。纳米孔的一种可能状态是当附接有标签的多磷酸盐不存在于纳米孔的圆筒时的开放通道状态,其在本文中也被称为纳米孔的未匹配样式状态。纳米孔的另外四个可能状态各自对应于当四种不同类型的附接有标签的多磷酸核苷酸(A、T、G或C)中的一种被保持在纳米孔的圆筒中时的状态。纳米孔的又另一种可能状态是当脂质双分子层破裂时的状态。
当在固定的时间段之后测量积分电容器408上的电压水平时,纳米孔的不同状态可以导致不同电压水平的测量。这是因为积分电容器408上的电压衰减速率(通过放电而减小或通过充电而增加)(即,积分电容器408上的电压斜率相对于时间标绘图的陡度)取决于纳米孔电阻(例如,电阻器R 428的电阻)。更特别地,由于在不同状态中与纳米孔相关联的电阻是不同的(这是由于分子(标签)的有区别的化学结构),不同的对应电压衰减速率可以被观察到,并且可以被用来标识纳米孔的不同状态。电压衰减曲线可以是具有RC时间常数
Figure DEST_PATH_IMAGE005
的指数曲线,其中R是与纳米孔(即,R 428)相关联的电阻,并且C是与同R并联的膜(即,电容器426(C双分子层))相关联的电容。纳米孔单元的时间常数可以例如是大约200-500ms。由于双分子层的详细实现方式,衰减曲线可能不精确地适合指数曲线,但是衰减曲线可以类似于指数曲线并且是单调的,从而允许标签的检测。
在一些实施例中,与处于开放通道状态中的纳米孔相关联的电阻可以在100 MΩ至20 GΩ的范围内。在一些实施例中,与处于以下状态中的纳米孔相关联的电阻可以在200MΩ至40 GΩ的范围内,在该状态中标签位于纳米孔的圆筒内部。在其他实施例中,可以省略积分电容器408,因为通向ADC 435的电压仍然将由于电模型422中的电压衰减而变化。
积分电容器408上的电压的衰减速率可以采用不同的方式来确定。如上面解释的,电压衰减的速率可以通过测量在固定的时间间隔期间的电压衰减来确定。例如,积分电容器408上的电压可以首先在时间t1处由ADC 435测量,并且然后在时间t2处由ADC 435再次测量。当积分电容器408上的电压对比时间曲线的斜率较陡时,电压差较大,并且当电压曲线的斜率不太陡时,电压差较小。因此,电压差可以被用作用于确定积分电容器408上的电压的衰减速率,并且因此确定纳米孔单元的状态的度量。
在其他实施例中,可以通过测量对于所选量的电压衰减所需要的持续时间来确定电压衰减的速率。例如,可以测量对于电压从第一电压水平V1下降或增加到第二电压水平V2所需要的时间。当电压对比时间曲线的斜率较陡时,所需要的时间较少,并且当电压对比时间曲线的斜率不太陡时,所需要的时间较大。因此,所需要的测量时间可以被用作用于确定积分电容器ncap 408上的电压的衰减速率,并且因此确定纳米孔单元的状态的度量。本领域技术人员将领会到可以被用来测量纳米孔的电阻的各种电路,例如包括电流测量技术。
在一些实施例中,电路400可以不包括在芯片上制造的通过器件(例如,通过器件406)和额外的电容器(例如,积分电容器408(ncap)),由此便于在基于纳米孔的测序芯片的大小方面的缩减。由于膜(脂质双分子层)的薄特性,仅与膜相关联的电容(例如,电容器426(C双分子层))就可以足以创建所需要的RC时间常数,而不需要附加的芯片上电容。因此,电容器426可以被用作积分电容器,并且可以由电压信号VPRE预充电,并且随后通过电压信号VLIQ放电或充电。对在电路中以其他方式在芯片上制造的额外电容器和通过器件的消除可以显著减少纳米孔测序芯片中的单个纳米孔单元的占位面积,由此便于纳米孔测序芯片的缩放以包括越来越多的单元(例如,在纳米孔测序芯片中具有数百万个单元)。
D、纳米孔单元中的数据采样
为了实行核酸的测序,在标记核苷酸被添加到核酸时,积分电容器(例如,积分电容器408(ncap)或电容器426(C双分子层))的电压水平可以被ADC(例如,ADC 435)采样和转换。例如,当所施加的电压为使得VLIQ低于VPRE时,通过跨纳米孔之上的电场可以将核苷酸的标签推入到纳米孔的圆筒中,该电场是通过反电极和工作电极施加的。
1、匹配样式
匹配样式事件是标记核苷酸附接到模板(例如,核酸片段)的情况,并且标签进入和走出纳米孔的圆筒。在匹配样式事件期间,这可能多次发生。当标签在纳米孔的圆筒中时,纳米孔的电阻可能更高,并且更低的电流可以流过纳米孔。
在测序期间,在一些AC循环中,标签可能不在纳米孔中(其被称为开放通道状态),在该情况下,由于纳米孔的较低电阻,所以电流是最高的。当标签被吸引到纳米孔的圆筒中时,纳米孔处于亮模式。当标签被推出纳米孔的圆筒时,纳米孔处于暗模式。
2、亮时期和暗时期
在AC周期期间,积分电容器上的电压可以由ADC多次采样。例如,在一个实施例中,跨系统之上施加例如以大约100 Hz的AC电压信号,并且ADC的采集速率可以是每个单元大约2000 Hz。因此,可以存在每个AC循环(AC波形的循环)所捕获的大约20个数据点(电压测量结果)。与AC波形的一个周期相对应的数据点可以被称为集合。在AC循环的数据点的集合中,可以存在当例如VLIQ低于VPRE时所捕获的子集,其可以对应于其中标签被强制进入纳米孔的圆筒中的亮模式(时期)。另一个子集可以对应于暗模式(时期),其中当例如VLIQ高于VPRE时,标签被施加的电场推出纳米孔的圆筒。
3、所测量的电压
对于每个数据点,当开关401打开时,在积分电容器(例如,积分电容器408(ncap)或电容器426(C双分子层))处的电压将由于VLIQ的充电/放电而以衰减的方式改变,例如,如当VLIQ高于VPRE时,从VPRE增加到VLIQ,或者当VLIQ低于VPRE时,从VPRE减小到VLIQ。随着工作电极进行充电,最终电压值可能偏离VLIQ。积分电容器上的电压水平的改变速率可以由双分子层的电阻值管控,该双分子层可以包括纳米孔,而该纳米孔进而可以包括纳米孔中的分子(例如,标记核苷酸的标签)。可以在开关401打开之后的预定时间处测量电压水平。
开关401可以以数据采集的速率进行操作。开关401可以在两次数据采集之间的相对较短的时间段内闭合,通常是刚好在由ADC进行的测量之后。开关允许在VLIQ的每个AC循环的每个子周期(亮或暗)期间收集多个数据点。如果开关401保持打开,则积分电容器上的电压水平,并且因此ADC的输出值将完全衰减并停留在那里。代替地,当开关401闭合时,积分电容器被再次预充电(到VPRE),并且为另一测量做好准备。因此,开关401允许为每个AC循环的每个子时期(亮或暗)收集多个数据点。这样的多个测量可以允许利用固定的ADC得到更高分辨率(例如,由于更大数量的测量所致的8位到14位,其可以被平均)。多个测量还可以提供关于样式匹配到纳米孔中的分子的动力学信息。定时信息可以允许来确定匹配样式发生了多久。这也可以在帮助确定被添加到核酸链的多个核苷酸是否被测序时使用。
图5示出了在AC循环的亮时期和暗时期期间从纳米孔单元捕获的示例数据点。在图5中,出于说明性目的,数据点中的改变被放大。被施加到工作电极或积分电容器的电压(VPRE)处于恒定水平,诸如例如900 mV。被施加到纳米孔单元的反电极的电压信号510(VLIQ)是被示为矩形波的AC信号,其中占空比可以是任何合适的值,诸如小于或等于50%,例如大约40%。
在亮时期520期间,被施加到反电极的电压信号510(VLIQ)低于被施加到工作电极的电压VPRE,使得标签可以被电场强制进入纳米孔的圆筒中,该电场由被施加在工作电极和反电极处的不同电压水平(例如,由于标签上的电荷和/或离子的流动)引起。当开关401打开时,在ADC之前的节点处(例如,在积分电容器处)的电压将减小。在捕获到电压数据点之后(例如,在指定的时间段之后),开关401可以闭合,并且测量节点处的电压将往回再次增加到VPRE。该过程可以进行重复,以测量多个电压数据点。这样,可以在亮时期期间捕获多个数据点。
如在图5中所示,在VLIQ信号的符号中的改变之后的亮时期中的第一数据点522(也被称为第一点增量(FPD))可以低于后续数据点524。这可能是因为在纳米孔(开放通道)中没有标签,并且因此它具有低电阻和高放电速率。在一些实例中,第一数据点522可能超过如在图5中所示的VLIQ水平。这可能是由将信号耦合到芯片上电容器的双分子层的电容引起的。数据点524可以在匹配样式事件已经发生之后被捕获,即,标签被强制进入纳米孔的圆筒中,其中纳米孔的电阻,并且因此积分电容器的放电速率取决于被强制进入纳米孔的圆筒中的标签的特定类型。如下面提到的,由于在C双层424处积聚的电荷,数据点524对于每次测量可能略微减小。
在暗时期530期间,被施加到反电极的电压信号510(VLIQ)高于被施加到工作电极的电压(VPRE),使得任何标签将被推出纳米孔的圆筒。当开关401打开时,测量节点处的电压增加,因为电压信号510(VLIQ)的电压水平高于VPRE。在捕获到电压数据点之后(例如,在指定的时间段之后),开关401可以闭合,并且测量节点处的电压将往回再次减小到VPRE。该过程可以进行重复,以测量多个电压数据点。因此,可以在暗时期期间捕获多个数据点,其包括第一点增量532和后续数据点534。如上所述,在暗时期期间,任何核苷酸标签被推出纳米孔,并且因此除了在标准化中使用之外,获得了关于任何核苷酸标签的最小信息。
图5还示出了在亮时期540期间,即使被施加到反电极的电压信号510(VLIQ)低于被施加到工作电极的电压(VPRE),也不发生匹配样式事件(开放通道)。因此,纳米孔的电阻为低,并且积分电容器的放电速率为高。结果,包括第一数据点542和后续数据点544的捕获的数据点示出了低电压水平。
对于纳米孔的恒定电阻的每个测量(例如,在一个标签在纳米孔中时,在给定AC循环的亮模式期间进行的测量),在亮或暗时期期间测量的电压可能预期是大约相同的,但是当电荷在双层电容器424(C双层)处积聚时,情况可能不是这样。该电荷积聚可以使得纳米孔单元的时间常数变得更长。结果,电压水平可能移位,由此使得对于循环中每个数据点的测量值减小。因此,在一循环内,数据点可以从数据点到另一个数据点稍微改变,如在图5中所示。
关于测量的进一步细节可以在例如题为“Nanopore-Based Sequencing WithVarying Voltage Stimulus”的美国专利公开公开No.2016/0178577、题为“Nanopore-Based Sequencing With Varying Voltage Stimulus”的美国专利公开No.2016/0178554、题为“Non-Destructive Bilayer Monitoring Using Measurement Of Bilayer ResponseTo Electrical Stimulus”的美国专利申请No.15/085,700、以及题为“ElectricalEnhancement Of Bilayer Formation”的美国专利申请No.15/085,713中找到,以上各项的公开内容出于所有目的通过引用整体地并入。
4、标准化和碱基调用
对于纳米孔传感器芯片的每个可用纳米孔单元,可以运行生产模式来对核酸进行测序。在测序期间捕获的ADC输出数据可以被标准化,以提供更大的准确性。标准化可以计及偏移效应,诸如循环形状、增益漂移、电荷注入偏移和基线移位。在一些实现方式中,对应于匹配样式事件的亮时期循环的信号值可以被展平,使得获得针对该循环的单个信号值(例如,平均值),或者可以对所测量的信号进行调整以减少周期内衰减(一种类型的循环形状效应)。增益漂移通常缩放整个信号,并且大约改变到数百到数千秒。作为示例,增益漂移可以通过溶液(孔电阻)中的改变或双分子层电容中的改变来触发。基线移位以~100 ms的时间尺度发生,并且与工作电极处的电压偏移有关。基线移位可以通过来自匹配样式的有效整流比中的改变来驱动,这是由于需要从亮时期到暗时期维持测序单元中的电荷平衡。
在标准化之后,实施例可以确定用于匹配样式通道的电压簇,其中每个簇对应于不同的标签种类,并且因此对应于不同的核苷酸。簇可以被用来确定对应于给定核苷酸的给定电压的概率。作为另一个示例,簇可以被用来确定用于在不同核苷酸(碱基)之间进行辨别的截止电压。
下面提供了基于信号测量结果来确定核酸碱基的示例方法。尽管示例可以使用电压测量结果进行说明,但是示例技术同等地适用于诸如电流测量结果之类的其他信号测量结果。
II、误差源
一旦芯片的可用单元被标识,就可以运行生产模式来对核酸进行测序,例如,每个单元对一个核酸进行测序。在测序期间测量的信号值可以被标准化,以提供更大的准确性。例如,在AC驱动电压的亮时期期间获取的电压水平数据(在本文中被称为“亮模式电压”或者替换地被称为“亮时期电压”)可以被标准化。例如,当纳米孔处于未匹配样式状态中时,可以通过将每个测量的亮模式数据点除以单元的亮模式电压来使亮模式电压标准化,其在本文中被称为“开放通道电压”或“亮模式开放通道电压”。通过使亮模式电压水平数据标准化,原始ADC测量结果的动态范围被重新缩放到标准化范围,以通常提供0与1之间的范围,尽管大于1的值也是可能的,这取决于被用于亮模式开放通道电压的特定值。
标准化可以允许补偿对系统的改变,例如,测序单元的电属性中的改变。例如,电路400的电容可以随时间改变。例如,电容器426(C双分子层)的电容可以由于双分子层区域或厚度(例如,在阱的边缘处)的物理改变而改变,在该情况下,这样的改变被称为增益漂移。作为另一个示例,由于在亮时期与暗时期之间的电荷转移中的差异,电荷可以在单元中积聚,其被称为基线移位(并且有时是快速基线移位)。测量电路中的可变性和双分子层膜的电属性中的改变可以引起慢的基线移位。下面更详细地描述这些示例。
这样的改变可能影响针对完全相同的状态所测量的值,由此导致不稳定性。然而,标准化可以补偿这样的改变,以提供随时间的推移稳定的标准化值(例如,电压或电流),由此在确定核酸的序列时允许更大的准确性。
A、理想化的标准化
图6A-6B图示了根据一些实施例的理想化的ADC信号的标准化概念。图6A示出了理想化的亮模式数据601和理想化的暗模式数据603,例如,如上所述,它们如可以由ADC在测序操作期间测量。图6A-6B的理想化的ADC数据也在比例如上面参考图5描述的数据长得多的时间尺度上示出。照此,个体AC循环在图5中是不可见的。然而,应当理解到,亮模式数据601和暗模式数据603是在AC驱动电压Vliq的不同半循环期间获取的。另外,图6A中所示的数据在不存在噪声、增益漂移和/或基线移位的意义上是理想化的,即,开放通道电压(亮模式和暗模式二者)在个体AC循环之内是恒定的,以及随时间的推移是恒定的。
此外,亮模式数据601示出了与两个不同标记核苷酸的两个单独假设的匹配样式事件相对应的匹配样式事件605和607。由于被样式匹配的不同的标记核苷酸,匹配样式事件605和607处的测量的电压不同。如此处所示,匹配样式事件发生在若干个AC循环之内,并且在足够快的时间尺度上发生,以至于在匹配样式事件期间,未测量到亮模式开放通道信号。在一些实施例中,匹配样式事件605和607中的一个或多个可以引起ADC值中的增加,而不是减少。这样的值可以被称为上述开放通道。
在图6A中,用于亮模式的开放通道ADC值由P0表示,P0可以被用来使匹配样式事件605和607的ADC值标准化。在该理想化的示例中,此标准化因子P0t = 0处的测量值是恒定的,其在该示例中是150个ADC值。为了在这种情况下实行标准化,所有的亮模式数据都可以除以相同的常数:P0=150。为了易于描述,贯穿公开内容使用了通过除法进行标准化的示例;然而,本领域普通技术人员将理解到,乘以倒数在数学上是等价的,并且因此也可以在不脱离本公开的范围的情况下被使用。
图6B示出了由使图6A的理想化亮模式数据601标准化而得到的标准化的亮模式数据610。在标准化的亮模式数据中,开放通道水平和标签水平不是原始的ADC值,而是跨越从0到1的范围。因为在这种情况下亮模式开放通道电压是恒定的,所以标准化因子P0可以被用来跨测序运行的整个持续时间之上使整个信号标准化。然而,真实信号遭受多个非理想因素的影响,这些非理想因素使得该简单的单值标准化不准确。真实测序系统中误差的两个主要原因是基线移位和增益漂移。
B、增益漂移
每个测序单元具有取决于脂质双分子层电容的电压增益。该增益对应于在两个电极(例如,反电极210和工作电极202)之间实现的电压差。例如,给定用于电容器的C=q/V方程,随着电容增加,电压将在存在相同量的电荷的时候减小。因此,如果脂质双分子层电容随时间的推移改变,则电压增益就随时间的推移改变。如果电压增益随时间的推移改变,则亮模式和暗模式(开放通道和匹配样式二者)可以随时间的推移改变。在任何真实系统中,双分子层电容可以随时间的推移——例如,随着双分子层变形——而改变。这样的改变通常发生在数百或数千秒的时间尺度上,并且尽管比典型的匹配样式事件慢,但如果期望高准确性测量的话,仍然应当被计及。
图7示出了遭受增益漂移的影响的理想化信号(其中对于匹配样式事件和非真实感增益漂移二者都具有非真实感的时间尺度,以允许两种现象都在同一曲线图上清楚地示出)。像图6A-6B一样,图7示出了理想化的亮模式数据701和理想化的暗模式数据703,它们将由ADC在测序操作期间测量。增益漂移被图示为针对亮模式和暗模式两者的开放通道电压中的总体漂移,其中该漂移在亮模式与暗模式之间是反相互关联的(例如,当亮模式增加时,暗模式减小,以及反之亦然)。为了阐明增益漂移对同一标签随时间的推移所测量的ADC水平的影响,还示出了4个匹配样式事件,其中每个匹配样式事件涉及相同种类的标签,从而导致来自当前开放通道电压的电压降相同。然而,尽管事实是在每个事件期间使相同的标签样式匹配,但是此标签的ADC值随时间的推移而漂移。因此,对于该单元可能的情况是:在120到150范围内的任何地方都可以检测到相同的标签。因此,非标准化的水平将易于出错。
为了校正增益漂移,可以实行类似于上面参考图6A-6B描述的标准化过程。然而,与图6A-6B中的情况不同,在亮模式中的开放通道电压随时间的推移不是恒定的,因此上述单值标准化(即,将所有项都除以P0)未能随时间的推移使整个信号标准化。代替于恒定的标准化,还可以应用更复杂的变量标准化,例如,可以通过将每个原始的亮模式测量的ADC值除以该点的开放通道值的估计来实现标准化。对于每个非匹配样式的区域,可以通过任何多种方式来进行开放通道电压的估计,例如,通过取得局部平均值或者通过使用更复杂的信号处理技术(诸如集成直方图技术),如下面更详细描述的。因此,可以获得对于亮模式的开放通道值的局部估计,以便于使用对该数据点是局部的估计电压来使该数据点标准化。
另一方面,信号的匹配样式区域可以提供挑战。对于一些匹配样式事件,如果匹配样式速率足够慢,例如,如在匹配样式事件705和707中所示,就可以存在可用的开放通道数据。当匹配样式速率相对慢时,可以在标签被样式匹配之前测量开放通道值。可以针对每个循环来测量这样的开放通道值。该行为在针对匹配样式事件705和707所示的梳状线中被描绘。在这些情况下,有限的开放通道数据可以被用来在匹配样式事件期间估计真正的开放通道值。该受限的开放通道数据(即,相对于在没有匹配样式发生时受限的)可以被用来获得开放通道值的局部估计(例如,在时间内的局部估计,以便于计及增益漂移)。
然而,这可能是匹配样式足够快以至于在亮模式中没有捕获到开放通道数据的情况,例如,如对于匹配样式事件709和711所示。当匹配样式速率足够快时,标签立即被样式匹配,并且没有开放通道值被测量到。当试图确定开放通道的局部估计时,开放通道电压的该缺乏可能是有问题的;如果在给定的时间间隔内不存在开放通道值,则不可以确定针对该时间间隔的局部估计。在这些情况下,使用暗模式数据来确定对于亮模式中的开放通道数据的局部估计是可能的,如下面进一步详细描述的。
C、基线移位
基线移位是一种现象,其与在测量过程期间发生的、在充电和放电循环期间、在单元中的某些元素(例如,C双层)上积聚的电荷不平衡有关。例如,在测量过程期间,过量的电荷可以积聚在单元的工作电极上,如图4中的C双层表示的。在一个示例中,电荷不平衡是由纳米孔和标签二者都具有非线性I-V特性这一事实引起的。由于该非线性性,充电和放电循环可能不给电容式元件添加或移除相同量的电荷。例如,随着时间的推移,负离子和正离子可能不以相同的速率从一个电极经由孔移动到另一电极,例如,从而引起正电荷在阱中积聚。注意到,占空比可以是60%暗模式和40%亮模式,以设法解决正离子和负离子的传输速率中的典型差异,但是当速率改变时,占空比将不得不改变,这可能难以做到。
由于该累积的电荷不平衡,单元中的电压测量结果将增加(例如,当正电荷在阱中积聚时)。基线电压中的此移位可以增加,直到它产生足够高的电压来抵消最初由于电荷不平衡而建立的相反电压。在该点处,电荷可以重新平衡。基线移位可以在暗模式和亮模式开放通道状态二者中发生,以及在四个匹配样式状态的每一个中发生,其中移位的量值和时间常数在开放通道和四个匹配样式状态中的每一个中潜在地是不同的。结果,基线移位可以以通常随机的方式改变,这反映了在孔处的标签的随机结合事件。
图8示出了展现基线移位的理想化信号。像图6A-6B和图7一样,图8示出了理想化的亮模式数据801和理想化的暗模式数据803。该类型的基线移位通常发生在约为标签在孔中的停留时间的时间尺度上,该时间尺度通常比增益移位的时间尺度快得多。因此,图8中未示出增益移位。
在匹配样式事件810之前,单元已经达到均衡,即,基线电压是确保在亮模式和暗模式期间相等的电荷转移(例如,到C双层)所需要的电压。然而,一旦匹配样式事件810开始,系统就被驱动而失去均衡。更具体地,虽然当单元处于暗模式时孔的有效电阻保持相同,但是在亮模式中,孔的有效电阻增加了。与匹配样式事件发生之前相比,在亮模式中增加的电阻使得在该模式期间移动更少电荷。因此,电荷不平衡开始形成,这导致了分别在标签水平和暗模式开放通道水平二者中的向上移位805和807。
如和增益移位现象一样,为了补偿基线移位,可以应用可变的逐点标准化,例如,可以通过将每个原始的亮模式测量的ADC值除以该点的开放通道值的估计来实现标准化。然而,由于开放通道与匹配样式通道信号之间的动态差异,这样的校正方法可能无法正确地使匹配样式信号标准化。例如,如果在时间t处的开放通道信号由
Figure DEST_PATH_IMAGE007
给出,并且在时间t处的各种匹配样式标签水平由
Figure DEST_PATH_IMAGE009
给出,其中i = A、C、G或T,则系统的动态特性可以通过以下两个方程来建模:
Figure DEST_PATH_IMAGE011
其中,
Figure 991645DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
t = 0处的开放通道和第i个匹配样式通道的值,bt = 0处的开放通道基线移位,b i 是针对第i个匹配样式通道的在t = 0处的基线移位,并且T是与基线移位相关联的时间尺度。通过将方程(1)和(2)除以方程(1),可以有效地对标准化方法进行建模,该标准化方法依赖于将亮模式数据逐点除以对应的亮模式开放通道信号,这产生分别用于标准化的开放通道和标签水平的方程(3)和(4):
Figure DEST_PATH_IMAGE015
如在方程(3)-(4)中可以看到的,OC水平针对任何时间都是完美标准化的(按照定义)。此外,如果
Figure 833700DEST_PATH_IMAGE016
,则时间依赖性脱离,并且方程(4)约简成
Figure 822384DEST_PATH_IMAGE018
然而,一般而言,
Figure DEST_PATH_IMAGE019
并且方程(4)中的时间依赖性保持,从而导致标签水平并非对于所有时间都保持恒定。因此,主要依赖于通过开放通道信号值的逐点除法的标签水平的任何标准化都可以导致标准化的标签值即使在标准化之后也仍然是依赖于时间的。标签水平的时间上的变化如果足够大,就可以导致下游测序错误,并且因此采用信号处理技术(除了通过开放通道值进行逐点标准化之外)来正确地校正用于基线移位的数据是有益的。
D、零点电压中的变化
出于电子原因,每个单元可以有不同的零点电压。术语零点电压指代当将0 V作为输入施加到单元时,由该单元输出的电压,并且在本文中被称为V 0 V 0 中的变化可能是由制造缺陷或在芯片中的不同单元的模拟电路之间的变化所引起的。而且,出于电化学原因,可以向单元中内置偏压。此外,电极的表面化学性质可能使它们充当电池,并且因此每个单元可以具有略微不同的电势,这可能有助于针对每个单元的V 0 。单元中具有非零V0的净效应在于:测量的ADC信号取决于V 0 的值而被人为地上推或下推。因此,如果V 0 随时间的推移变化,则可能导致测序错误。
E、示出增益漂移和基线移位的样本数据
图9示出了在近似5秒的过程之内从纳米孔单元测量的原始测序信号的样本数据的一个示例。该信号包括亮模式数据910和暗模式数据920,该亮模式数据910包括多个匹配样式事件。响应于匹配样式事件,亮模式和暗模式数据二者都可能遭受相对短期的基线移位的影响,如在插图中所示。在更长的时间尺度上,例如,约为几秒,信号也可以展现增益漂移,这在图9中表现为在亮通道信号与暗通道信号之间的间隔方面随时间的推移的轻微且逐渐的改变。如在图9中可以看到的,亮通道和暗通道中的偏移移位是相互关联的,即,偏移移位导致亮模式信号和暗模式信号在相同的方向上移动,例如,两种模式都向上移位或者都向下移位。相比之下,增益漂移在亮通道与暗通道之间是反相互关联的,即,增益漂移导致亮模式信号和暗模式信号在相反的方向上移动,例如,如果亮模式向上漂移,则暗模式将向下漂移。
III、信号校正
从纳米孔测序单元捕获的原始测序信号可能遭受多个非理想因素的影响,这些非理想因素包括例如增益漂移、基线移位、零点电压中的变化和如上面讨论的其他校准问题。可以采用一种或多种信号处理技术来改进原始测序信号,以使得测序误差最小化。
以下章节描述了用于处理原始测序信号以改进信号准确性和稳定性的方法。章节III(A)描述了用于在不明确了解任何单元的V 0 的情况下校正和/或移除零点电压的影响的方法。章节III(B)描述了即使在开放通道和匹配样式通道信号的动态特性不同的情况下,也可以使基线移位的影响最小化的方法。章节III(C)描述了可以被用来实行改进的逐点标准化以使用开放通道信号值校正增益漂移的方法,使用移动直方图技术来跟踪开放通道信号值。这些方法可以独立地使用或以任何组合使用,以在纳米孔测序单元中提供改进的信号处理方法。
A、在没有V 0 的情况下的标准化
如在题为“Formation and Calibration of Nanopore Sequencing cells”的美国专利申请No.15/632,190中所述的,实施例可以实行校准过程以计及V0(也被称为VMZERO),该美国专利申请的公开内容出于所有目的通过引用整体地并入。例如,作为在每个测序过程之前运行的诊断例程的部分,可以针对测序芯片的每个单元直接测量V0。V0可以被定期测量和更新、被存储在存储器中,并且然后在实行上述2D变换处理和标准化过程之前从测量的亮模式和暗模式值中被减去。然而,如果在V 0 的实际测量与被从测量的测序信号中减去的时间之间的时间段之内,V 0 的值从所存储的值漂移,则仍然可以导致不准确性。根据某些实施例,该系统可以采用改进的处理方法,该改进的处理方法移除了对于跟踪和移除V0的要求,并且因此有助于减轻由依赖于时间的V0引起的误差。
为了说明该方法的实施例,采用明确计及V0的函数形式来表达亮模式和暗模式电压值是有用的
Figure DEST_PATH_IMAGE021
其中V +是由ADC测量的亮模式电压,V-是由ADC测量的暗模式电压,m是系统的增益,并且V pos V neg 分别是在亮模式和暗模式期间跨单元的纳米孔之上的电压。通常,取决于纳米孔的状态,V pos 可以取5个不同的值:
Figure DEST_PATH_IMAGE023
用于开放通道状态,并且
Figure DEST_PATH_IMAGE025
用于与i=A、C、G和T相对应的匹配样式状态中的每一个。
如上面在章节II(A)中描述的,标准化过程可以涉及将测量的亮模式信号值除以对应的开放通道亮模式信号值。使用由方程(6)引入的亮模式数据的函数形式,针对每一个匹配样式状态的标准化值f i 可以采用明确计及零点电压V0的形式来书写
Figure DEST_PATH_IMAGE027
其中,
Figure DEST_PATH_IMAGE029
是针对i=A、C、G或T的测量的亮模式匹配样式值,并且
Figure DEST_PATH_IMAGE031
V o 是测量的亮模式开放通道值。
方程(8)示出了如果V o 随时间的推移改变,则即使原始匹配样式电压
Figure DEST_PATH_IMAGE033
和原始开放通道电压
Figure DEST_PATH_IMAGE035
各自随时间的推移是恒定的,针对标准化标签水平的特定数值还将改变。标准化标签水平中的这样的漂移可以导致下游测序误差。如上面已经简要提到的,为了校正此误差源,可以频繁地测量零点电压V o 的值,并且在标准化完成之前,从测量的开放通道和匹配样式通道值中减去该零点电压V o 的值。然而,此解决方案是有问题的,因为它需要投入宝贵的测序时间来测量V o ;并且因此在测序过程中引入了时间上的盲点或停滞时间。根据某些实施例,可以采用经修改的标准化过程,其不需要V o 的先验知识,并且因此不需要对V o 进行测量或跟踪。
例如,通过意识到零点电压V o 仅作为两个方程(6)和(7)中的偏移而示出,可以标识不依赖于V o 的替代标准化。因此,可以通过从由方程(6)表达的亮模式数据中减去由方程(7)表达的暗模式数据来消除偏移。对亮模式开放通道数据
Figure DEST_PATH_IMAGE037
和亮模式匹配样式数据
Figure DEST_PATH_IMAGE039
二者实行此减法导致了用于标准化的以下替换形式
Figure DEST_PATH_IMAGE041
用于标准化的值的此替换形式移除了对V 0 的任何显式依赖性,并且因此对于实行标准化而言不需要知道V 0 。另外,方程(9)中的各种项各自在典型的测序运行期间被测量,并且因此不需要附加的测量来实行该标准化。附加地,如果期望的话,可以基于以下关系,根据重新限定的标准化的值
Figure DEST_PATH_IMAGE043
来计算原始标准化的值f i
Figure DEST_PATH_IMAGE045
其中i=A、C、G或T,并且
Figure DEST_PATH_IMAGE047
通过从方程(9)的分子和分母二者中减去暗模式电压,可以补偿V 0 漂移的影响。在一些实施例中,由V 0 的方差引起的原始信号值中的任何方差都被大大减少或甚至消除,而不需要在测序期间进行任何附加的测量来明确地跟踪V 0 。如本文中使用的,方程(9)的分子和分母分别被称为开放通道和匹配样式通道零点补偿的信号值。
鉴于由方程(9)表示的重新限定的标准化,应当注意到,下面参考章节III(B)描述的2D变换过程也可以受益。更具体地,在使用图12A-12C中所示的积分历史进行旋转校正的情况下,可以通过使用零点补偿的亮模式数据作为用于计算积分历史的输入信号(x轴)来修改该过程。同样地,对于y轴数据,可以使用零点补偿的亮模式数据。通过使用补偿的数据,由亮模式数据中的改变的V 0 引起的任何方差都可以被移除或最小化。
图10示出了说明根据某些实施例的用于处理测序信号以移除非零和变化的V 0 的影响的方法1000的流程图。在一些实施例中,方法1000可以由图2的处理器224、数字处理器430和/或与测序单元的电路耦合的任何控制逻辑来实行。
在步骤1010中,从测序单元获得多个测序信号值P(t i )。该测序信号值可以是由ADC测量并被发送到数字处理器(例如,ADC 410和数字处理器430)的电压,如图4中所示。数字处理器可以是包括其他组件的计算机系统的部分,例如,如下面参考图20更详细描述的。电压可以对应于在一个或多个亮时期内测量的电压,该一个或多个亮时期本身在一个或多个不同的AC循环内,即,不要求所有测量的数据都来自单个AC循环内的同一亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。在一些情况下,由于单元的零点电压随时间的推移的变化,获取的电压可能因不同的点而不同(即使对于纳米孔的相同状态也是如此)。所施加的电压可以是交流信号,例如,具有相对于参考电压的第一部分(例如,亮时期,在本文中也被称为“亮模式”)和第二部分(例如,暗时期,在本文中也被称为“暗模式”)的AC信号。根据某些实施例,参考电压可以是被施加到积分电容器(例如,ncap)的参考电压(例如,图4中的VPRE 405),如图4中所示的。
在步骤1020中,确定一个或多个信号值的第一集合,例如,由数字处理器430选择在交流信号的亮时期期间测量的一个或多个电压。电压的第一集合可以对应于各种亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。另外,一个或多个信号值的第一集合可以对应于各种亮模式匹配样式通道信号值
Figure DEST_PATH_IMAGE049
,如上面参考方程(6)-(9)所述的。
在步骤1030中,确定一个或多个信号值的第二集合,例如,由数字处理器430选择在交流信号的亮时期期间测量的一个或多个电压。电压的第一集合可以对应于各种亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。另外,一个或多个信号值的第二集合可以对应于各种亮模式开放通道信号值
Figure DEST_PATH_IMAGE051
,如上面参考方程(6)-(9)所述的。
在步骤1040中,确定在交流信号的第二部分期间测量的一个或多个信号值的第三集合,例如,可以由数字处理器430选择在交流信号的暗时期期间测量的一个或多个电压。一个或多个电压的第三集合可以跨各种暗时期之上被测量,并且将对应于上面参考方程(6)-(9)所述的暗模式电压信号值V -
在步骤1050中,从一个或多个信号值的第一集合中减去一个或多个信号值的第三集合中的对应值,由此生成一个或多个零点补偿信号值的第一集合。例如,可以由数字处理器430实行方程(9)的分子中所示的减法。如上所述,参考方程(9),由于减法运算大大降低了波动的零点电压的影响这一事实,补偿的亮模式匹配样式信号值的所得集合将具有减少的方差。
在步骤1060中,从一个或多个信号值的第二集合中减去一个或多个信号值的第三集合中的对应值,由此生成一个或多个零点补偿信号值的第二集合。例如,可以由数字处理器430实行方程(9)的分母中所示的减法。如上所述,参考方程(9),由于减法运算大大降低了波动的零点电压的影响这一事实,补偿的亮模式匹配样式信号值的所得集合将具有减少的方差。
一旦确定了亮模式和暗模式零点补偿信号值,它们于是就可以被用于任何其他下游信号处理方法。例如,开放通道亮模式零点补偿信号值可以被用作用以使亮模式匹配样式信号值的集合标准化的标准化因子。在一些实施例中,亮和/或暗模式补偿信号值可以使用二维变换来被进一步处理,以移除偏移移位的影响,如下面在章节III(B)中描述的。在其他实施例中,亮模式补偿信号值可以被用来形成直方图,并且该直方图可以被用来获得对要被用于标准化因子的亮模式开放通道值的改进估计,如下面在章节III(C)中描述的。同样地,如通过以上方法确定的零点补偿信号值可以由零点校正模块1903确定并且从零点校正模块1903输出,如下面参考图19进一步详细描述的。
B、通过二维变换的基线移位移除
如上面参考方程(1)-(5)描述的,如果开放通道信号和匹配样式信号的动态特性相同,逐点标准化技术就可以有效地校正增益漂移和偏移移位二者。然而,开放通道和匹配样式通道信号的动态特性可能并不相同。为了更好地校正匹配样式信号中的增益漂移和基线移位二者,可以采用一种方法,该方法借助于二维变换来处理所测量的二维测序信号,例如,通过使用旋转或展平变换来处理,如下面进一步详细描述的。
测量的亮模式数据可以由信号值P(t i )的一维阵列来表示,其中,例如,阵列中的每个点是在时间t i 处获取的亮模式信号值。这样的一维数据的示例在图9中示出,图9示出了在近似3.5秒的时间段内获取的亮模式数据。理想情况下,一维阵列的值P(t i )将仅取决于纳米孔的状态,并且因此随时间的推移将是一致的。然而,在任何真实信号中,与给定的孔状态相对应的给定的信号值可以在时间上变化,并且因此,通过各自具有某个平均值的有限宽度分布来最准确地描述与不同的纳米孔状态(开放通道和四个匹配样式状态)相对应的信号值的总体(population)。换言之,在某个时间段内获取的信号值的直方图将具有5个具有有限宽度的峰值,其中每个直方图峰值的宽度取决于与不同的纳米孔状态相对应的信号值中的方差。图11中的直方图1103和1105示出了这样的示例。更具体地,直方图1105示出了开放通道峰值1105a和匹配样式通道峰值1105b、1105c和1105d。
对于给定的孔状态(例如,与“A”标签的匹配样式状态相对应的孔状态),在匹配样式通道值中具有大的方差是不理想的,因为这使得对该匹配样式标签的标识变得复杂(再次,在理想情况下,单个匹配样式状态将随着时间的推移具有单个一致的信号值)。如果一个或多个匹配样式状态信号值中的方差足够大,则针对两个不同匹配样式状态的信号值分布可能重叠,从而使得它们在测序信号内的标识困难且易于出错。
根据某些实施例,可以通过意识到1维数据P(t i )的方差可能是由在数据采集时期期间漂移或变化的某个其他不受控制的变量的变化所引起的,来计及以及最小化1维数据P(t i )中的方差。例如,P(t i )的特定值在某个时间t i 处也可以取决于单元内的电荷量不平衡,其在本文中被称为Q(t i )。用以计及P(t i )的方差的一种方式是,也在每个时间t i 处测量电荷不平衡Q(t i ),并且然后使用某个类型的二维变换来处理此二维数据,以移除P(t i )中的方差。更一般地,P(t i )的每个测量结果可以与另一个量X(t i )的测量结果配对(该另一个量X(t i )在本文中被称为相互关联的信号值),以生成二维信号数据点
Figure DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE055
。虽然下面的描述聚焦于二维信号数据的示例,但是在不脱离本公开的范围的情况下,在形式上可以扩展到多于二维。
该新的二维数据集S 2D 可以被用来找到一个或多个二维变换R 2D ,其使P(t i )维度中的方差最小化。一般而言,二维变换R 2D 可以被表示为如下二乘二矩阵:
Figure DEST_PATH_IMAGE057
S 2D 可以被表示为列向量,并且因此经变换的信号值
Figure DEST_PATH_IMAGE059
可以被写为
Figure DEST_PATH_IMAGE061
根据某些实施例,相互关联的信号值X(t i )可以被挑选为是直接测量或作为对亮模式信号值P(t i )的方差有贡献的现象的代理的任何事物。例如,如上所述,偏移移位可以是测量的P(t i )值中的方差的来源,因为每个测量的亮模式点都可能具有略微不同的偏移移位。另外,偏移移位可能由单元的一个或多个电容式元件上的电荷不平衡引起。因此,为了在该示例中移除方差,相互关联的信号值X(t i )应当被挑选为是电荷不平衡本身的测量结果、或电荷不平衡的代理,即,X(t i )应当随着电荷不平衡而线性变化。在接下来的两个示例中,相互关联的信号值X(t i )被挑选为是1)对应的暗模式信号值,或者2)在本文中被称为亮模式信号值的积分历史的值。相互关联的信号值的这两个示例都是电荷不平衡的代理(例如,与电荷不平衡线性地相互关联),并且因此可以被用来校正亮模式信号数据中的偏移漂移。如本领域普通技术人员在受益于本公开内容的情况下将领会到的,对于相互关联的信号值,许多其他选择是可能的。
在一些实施例中,采用2D变换可以是有益的,该2D变换在一个或多个数据簇被变换之后不维护它们的纵横比。例如,这样的2D变换由如下变换矩阵给出
Figure DEST_PATH_IMAGE063
这样的变换因为如下理由可以是有益的:由于其仅包括单个变换参数
Figure 805732DEST_PATH_IMAGE064
(其在本文中也被称为“变换参数”)这一事实,因此在计算上不太需要既确定数据又应用于数据。在一些实施例中,方程(16)中所示的变换可以独立地应用于2D平面中不同的信号值簇,可能地在不同的
Figure 487249DEST_PATH_IMAGE064
被应用于不同的簇的情况下,如下面更详细描述的。例如,将仅应用于亮模式开放通道数据簇(例如,图12A中的簇1201)的变换参数称为
Figure DEST_PATH_IMAGE065
,并且将仅应用于亮模式匹配样式通道数据簇(例如,簇1203、1205、1207和1209)的组的变换参数称为
Figure 223124DEST_PATH_IMAGE066
。在每种情况下,约简的变换导致信号数据的两个维度之间的线性混合。例如,对于变换亮模式开放通道数据
Figure DEST_PATH_IMAGE068A
的情况,经变换的开放通道数据
Figure DEST_PATH_IMAGE070A
由以下方程给出
Figure 815167DEST_PATH_IMAGE072
并且因此,经变换的信号值是原始的开放通道信号值,其具有来自向其添加的相互关联的信号值的某种贡献。由变换参数
Figure 218466DEST_PATH_IMAGE065
的量值来确定来自相互关联的信号值的贡献。
根据一些实施例,变换参数
Figure 946251DEST_PATH_IMAGE065
被确定为是导致经变换的开放通道数据
Figure DEST_PATH_IMAGE074A
的最平坦簇的变换参数,例如,通过经变换的簇的线拟合的斜率为零。
匹配样式信号值也可以类似地被变换。例如,可以应用以下变换
Figure 762897DEST_PATH_IMAGE076
变换参数
Figure DEST_PATH_IMAGE078A
可以被挑选成提供在数据的直方图内的匹配样式峰值之间的最大可区分性,如下面更详细描述的。
在本文中公开的说明性示例中,用于2D变换的特定形式可以通过找到以下2D变换来确定,该2D变换使在测量的数据的直方图中的不同峰值之间的可区分性最大化。可以通过对落入某些分箱内的信号值的数量进行计数来根据信号值的测量的时间序列数据计算直方图,其中分箱跨越信号值的动态范围(作为电压或ADC计数所测量的)。图11示出了直方图1103,其是使用原始数据计算的,并且结果,在峰值之间具有较差的可区分性,例如,峰值1105d作为一个模糊的峰值是可见的,而在理想情况下它应当是两个单独的峰值。相比之下,图16B示出了直方图1605,其是使用先前使用2D变换而被变换的数据来计算的,直方图1605具有比直方图1103的峰值更可区分的峰值。
在一些实施例中,可以通过优化直方图的属性来计算最优2D变换,并且将该最佳2D变换存储在存储器中以用于随后的测序运行和/或可以被周期性地更新。例如,最优2D变换可以被确定为是使直方图数据中的峰值(或峰值的子集)之间的最小值最小化的2D变换。在另一个示例中,最优2D变换可以被确定为是使直方图的峰值(或峰值的子集)之间的距离最大化的2D变换。在一些实施例中,直方图可以使用混合模型(例如,高斯或拉普拉斯混合模型)来被建模,并且模型的各种参数(例如,峰值位置、最小值等)可以被用作优化函数中用于确定最佳2D变换的参数。
在一些实施例中,最优2D变换可以是导致2D平面中最平坦的簇的集合或簇的子集的变换。当使用水平线(即,使用在x维中恒定的阈值)对2D数据的簇进行分区时,可以通过确定使簇混合最小化的2D变换来找到这样的变换。
为了简单起见,本文中讨论的说明性示例假设信号采集时间对于亮模式信号值和相互关联的信号值二者是相同的。然而,在其他实施例中,这不需要是真的,并且只要可以在一个时间处测量的亮模式值与在某个其他时间处得到的相互关联的信号值之间进行某种关联,就可以在不同的时间处获取亮模式和相互关联的信号值。
1、暗-亮平面中的2D变换
根据某些实施例,暗模式信号数据被挑选为是相互关联的信号值X(t i ),其对于每个测量的亮模式信号值P(t i )具有对应的值。在该示例中,暗模式信号也被用作对于在原始测序信号中的电荷不平衡引起的基线移位的代理。因此,可以测量暗模式信号值,并且将其与每个亮通道信号值配对,以生成二维测序信号S 2D ,其然后可以被用来找到使亮模式信号P(t i )中的方差最小化的二维变换R 2D
简要地返回到图9,从插图中可以看到,亮和暗通道数据二者都遭受基线移位现象的影响。另外,可以看到,亮模式数据910和暗模式数据920的基线移位是相互关联的。根据某些实施例,用于校正亮模式数据中的偏移移位的改进方法可以利用该相互关联。例如,可以捕获二维测序信号
Figure DEST_PATH_IMAGE079
Figure 421281DEST_PATH_IMAGE080
,其中,在这种情况下,相互关联的信号值X(t i )对应于获取的暗模式信号值。然后,此二维测序信号可以被用来标识二维变换R 2D ,该二维变换R 2D 在被应用于二维测序信号时,会减少亮模式信号数据P(t i )中的方差。为了简单起见,此变换在本文中将被称为暗-亮平面中的“旋转”,但是通常可以采用任何二维变换(不仅仅是旋转),而不脱离本公开的范围。另外,如在受益于本公开内容的情况下的本领域普通技术人员将领会到的,数据簇的旋转或坐标系的旋转是等效的,并且因此,在不脱离本公开的范围的情况下,可以采用任一方法。
图12A-12C示出了根据某些实施例的通过暗-亮平面中的旋转进行的偏移移位校正。图12A示出了暗-亮平面中的二维测序信号
Figure 679087DEST_PATH_IMAGE082
的标绘图的示例,以便图示用于该方法的起始点。更具体地,任何点的x坐标由在时间t i 处测量的暗模式值X(t i )给出,并且y坐标是对应的亮模式值P(t i )。根据某些实施例,针对包括S 2D 的亮点和暗点的相应测量时间不需要是相同的或同时的,而是代替地可以是不同的时间,而不脱离本公开的范围。在一些实施例中,基于时间将亮模式信号值与暗模式信号值配对,例如,亮模式时期中的第一获取的亮模式点与在下一个暗模式时期中找到的第一获取的暗模式点配对,或者例如,亮模式信号值与暗模式值配对,该暗模式值要么紧接在从中获取亮模式信号值的亮时期之前要么紧接在其之后,使得亮模式信号值与暗模式信号值之间的持续时间尽可能小。在其他示例中,平均暗模式值与一个或多个亮模式值配对。如受益于本公开内容的本领域普通技术人员可以领会到的,许多其他组合是可能的。
如在图12A中可以看到的,在暗-亮平面中标绘数据示出了各种数据点S 2D 形成了自然簇1201、1203、1205、1207和1209,其分别表示与C、A、T和G碱基相对应的四个不同标签的开放通道测量结果和匹配样式值。这些簇在形状上通常是细长的,其中它们的主轴指向上方和左侧,即,相对于暗模式轴线不是水平的。因此,预处理的数据未被优化来使P(t i )维度(即,垂直维度)中的数据的方差最小化。事实上,数据簇的自然形状暗示了这一事实,即存在二维变换R 2D ,其可以旋转和/或展平每个个体簇,以使得P(t i )维度中的方差被最小化。
在数据在暗-亮平面中变换之前,可以通过缩放对数据进行预处理,以在一个或多个方向上压缩或扩展信号的动态范围。例如,图12B示出了原始信号,其中y轴值通过将这些值取1/5的幂来缩放,即,
Figure 843352DEST_PATH_IMAGE084
。在该示例中,数据的原始y范围(近似)从0.5跨越到2.5,并且在缩放变换之后,y范围被压缩成(近似)从0.7跨越到1.4。如本领域普通技术人员在受益于本公开内容的情况下将领会到的,此缩放步骤是可选的,并且此外,可以在不脱离本公开的范围的情况下,应用任何形式的缩放函数(在x维度或者y维度上)。
图12C示出了在将R 2D 应用于二维数据之后的所得数据。在此示例中,2D变换R 2D 保留每个原始数据点的x坐标不改变,并且将y坐标映射到新的位置:
Figure 819398DEST_PATH_IMAGE086
替换地,2D变换可以由矩阵乘法来表示
Figure 953576DEST_PATH_IMAGE088
其中在这种情况下,x分量由暗模式值给出,并且y分量由亮模式值给出,如上面参考图12A-12C已经描述的。
在上述示例中,相同的变换R 2D 被应用于每个数据点,而不管它属于哪个簇。根据某些实施例,基于数据点所属于的簇,可以对每个数据点应用独立的变换。例如,可以使用一个变换来展平/旋转开放通道数据簇,可以通过不同的变换来展平/旋转匹配样式的C簇。在一些实施例中,可以使用一个变换来变换开放通道簇,而表示匹配样式值的四个簇可以使用不同的变换进行变换。同样地,对于使用暗模式数据的应用,可以使用第三变换来变换暗模式数据簇,该第三变换不同于对亮模式开放通道和匹配样式值所使用的变换。一般而言,可以通过例如优化变换以使得对变换数据的线性拟合具有零斜率、或者例如通过找到使匹配样式水平之间的间隔最大化的变换,来对2D变换R 2D 的精确条目进行数值确定。
2、积分历史中的2D变换——亮模式平面
如上所述,根据某些实施例,不是使用暗模式信号值,而是将亮模式数据的运行平均值的形式(其在本文中被称为亮模式数据的“积分历史”)挑选为是相互关联的信号值X(t i )。在此示例中,积分历史信号也被用作原始测序信号中电荷不平衡引起的基线移位的代理。因此,积分的历史信号值可以被测量,并且与每个亮通道信号值配对,以生成二维测序信号S 2D ,其然后可以被用来找到使亮模式信号P(t i )中的方差最小化的二维变换R 2D
可以通过对特定时间窗口内的历史亮模式数据求和(即,积分)来计算积分历史,以计算单个积分历史值。在一些实现方式中,可以在运行的基础上、针对每个新获取的测量的亮模式数据点P(t i )来计算积分历史。这可以使用递归关系来实现(比如下面在方程(22)中所示的递归关系),其使用积分历史的先前值H(t i-1 )来计算对应的经更新的积分历史值H (t i )。较旧的数据点也可以随着时间的推移而被折现,例如,历史数据可以随着该值按照对该数据进行缩放的方式老化而被有效地以指数方式折现,该缩放通过在数据增加的情况下随着老化而减小的加权因子来进行,例如,如下面在方程(22)中所做的那样。
在其他实现方式中,要被用于积分的每个所获取的数据点的经时可以被单独存储,并且然后在计算积分之前被用来应用数据点特定的加权因子。例如,指数加权因子
Figure DEST_PATH_IMAGE089
Figure 65889DEST_PATH_IMAGE090
可以被应用于每个所获取的数据点,并且然后通过对所有单独加权的点求和来实行积分。在该示例中,dt是采集时期(以秒为单位测量的),n是数据点的经时(自获取了数据点以来已经过去的采集时期的数量),并且T是指数衰减参数,可以基于人们期望多么快地使历史数据对积分的贡献降级来挑选该指数衰减参数。
返回到通过递归关系计算的积分历史的示例,上述时间加权的积分历史过程可以通过软件、硬件或其任何组合来实现,其导致以下递归关系的计算:
Figure 135476DEST_PATH_IMAGE092
其中
Figure DEST_PATH_IMAGE093
是一常数,在计算每个积分历史时,该常数对相对于当前数据点在多大程度上对历史数据进行加权进行参数化。参数a被称为衰减率,并且由下式给出
Figure DEST_PATH_IMAGE095
其中dt是采集时间步长,并且T是与单元中的工作电极的步长响应相关联的测量的时间常数,并且a是“记忆率”参数,其可以被设置成增加或减小该算法“忘记”历史数据所花费的时间,即,其可以设置历史数据被多么快地降级。方程(22)具有的有益属性是,H(t i )的标称值等于输入的标称值。例如,在长开放通道时期期间,即,在没有匹配样式事件情况下的长时期期间,积分历史等于开放通道水平。
为了形成2D数据点,在时间t i 处测量的亮模式数据点与对应的积分历史值H(t i )相关联,并且这两个点可以形成二维测序信号
Figure DEST_PATH_IMAGE097
以作为2维数据来被处理,类似于上面参考图12A-12C描述的过程。例如,可以使用以下方程来计算经变换的数据
Figure DEST_PATH_IMAGE099
其中索引k在被变换的不同簇——例如,开放通道或匹配样式通道簇——之上运行。例如,具有变换参数为
Figure DEST_PATH_IMAGE101
的一个变换可以被应用于展平开放通道数据簇,并且具有变换参数为
Figure DEST_PATH_IMAGE103
的不同的变换可以被应用于展平匹配样式数据簇。
例如,对于匹配样式值的情况,经变换的信号值可以通过以下方程来计算
Figure DEST_PATH_IMAGE105
经变换的匹配样式信号值
Figure DEST_PATH_IMAGE107
然后可以根据以下方程被标准化
Figure DEST_PATH_IMAGE109
其中除了
Figure DEST_PATH_IMAGE111
除以
Figure DEST_PATH_IMAGE113
之外的数学运算被相加,以保持标准化水平N Th (t i )在从0到1的范围内,并且还使匹配样式标记分数对于
Figure 772387DEST_PATH_IMAGE114
的所有值保持恒定。因此,如果
Figure 851201DEST_PATH_IMAGE114
较小,则方程(26)约简为以上在方程(5)中限定的通常的标准化,即
Figure 818020DEST_PATH_IMAGE116
在一些实施例中,暗模式数据也可以经由二维变换进行变换,以展平该数据,从而移除基线移位的影响。例如,原始暗模式数据D(t i )可以根据以下方程进行变换
Figure 589667DEST_PATH_IMAGE118
其中D(t i )是暗模式信号值,并且
Figure DEST_PATH_IMAGE119
是被确定以展平/旋转暗模式数据簇的变换参数,并且H(t i )再次是亮模式信号的积分历史。在一些实施例中,经变换的暗模式数据
Figure 133781DEST_PATH_IMAGE120
可以被用于可选的零点校正,如上面参考章节III(A)描述的。在这种情况下,为了使从负通道到正通道的噪声传播最小化,在使用平坦的负通道数据之前,可以通过指数滤波器对该平坦的负通道数据进行滤波。在一些实施例中,可以利用像亮模式开放通道值一样的移动直方图来跟踪暗模式水平,如下面参考章节III(C)描述的。
图13A-13B示出了图示了根据某些实施例的通过由积分历史值和亮值限定的2D平面中的变换进行偏移移位校正的方法的标绘图。在此二维空间中标绘的是相关亮模式信号,例如,OC、A、C、G和T,它们分别清楚地示为数据点的五个有区别的簇1303、1305、1307、1309和1311。像上面参考图12A-12C描述的簇一样,它们相对于水平轴线(积分历史轴线)倾斜。
根据某些实施例,图13A-13B中所示的2D数据的处理以类似于上面参考图12A-12C描述的方式发生,并且为了简明起见,在这里将不再重复细节。像图12C一样,图13B示出了“旋转的”或“展平的”数据,它们具有各种水平之间的间隔,这相对于未处理的数据而言得到改进。
3、2D变换方法的说明性流程图
图14示出了图示了根据某些实施例的使用测序单元的方法1400的流程图。更具体地,图14描述了一种用于确定二维变换的方法,该二维变换可以被用来校正测序信号数据。在一些实施例中,方法1400可以由图2的处理器224、数字处理器430和/或与测序单元的电路耦合的任何控制逻辑来实行。
在步骤1401中,可以跨包括核酸的测序单元之上施加电压。所施加的电压可以是交流信号,例如,具有相对于参考电压的第一部分(例如,亮时期,在本文中也被称为“亮模式”)和第二部分(例如,暗时期,在本文中也被称为“暗模式”)的AC信号。根据某些实施例,参考电压可以是被施加到积分电容器(例如,ncap)的参考电压(例如,图4中的VPRE 405),如图4中所示。
在步骤1403中,从测序单元获取多个测序信号值P(t i )。根据一些实施例,测序信号值可以是由ADC测量并且被发送到数字处理器(例如,ADC 410和数字处理器430)的电压,如图4中所示。数字处理器可以是包括其他组件的计算机系统的部分,例如,如下面参考图20更详细描述的。电压可以对应于在一个或多个亮时期内测量的电压,该一个或多个亮时期本身在一个或多个不同的AC循环内,即,不要求所有测量的数据都来自单个AC循环内的同一亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。在一些情况下,由于单元的偏移移位中的变化,获取的电压可能因不同的点而不同(即使对于纳米孔的相同状态也是如此)。因此,作为总体而取得的获取的电压的集合将具有某种变化(被量化为方差),其至少部分地由于偏移移位中的变化。
在步骤1404中,由例如数字处理器来确定对应的相互关联的信号值X(t i )的集合。如上面在章节III(B)(1)-(2)中描述的,相互关联的信号值可以通过多种不同的方式来确定,这些方式例如是通过采取对应的暗模式值、或者通过计算对应的积分历史值(积分历史)。在任一情况下,原始1维测量的信号值P(t i )的数据被扩展成二维数据点
Figure 750707DEST_PATH_IMAGE122
的集合,其中在时间t i 处测量的每个信号值P(t i )与对应的相互关联的信号值X(t i )配对。
在步骤1405中,由数字处理器来确定使多个测量的信号值的变化减少的二维变换。在一些实施例中,二维变换被确定为使得当它被应用于二维数据点的集合时,它会补偿单元的电压偏移移位中的方差。更具体地,对于可以在由值
Figure 837612DEST_PATH_IMAGE124
限定的二维空间中表达的二维数据,变换被挑选成使P(t i )维度中的方差最小化(即,以展平数据),该P(t i )维度即是由最初测量的亮模式信号值P(t i )限定的维度。在一些实施例中,二维变换可以采取以上方程(11)和/或(16)的形式。
如上面参考图12-13描述的,数据S 2D 可以自然地形成数据簇,例如,与纳米孔的开放通道状态和纳米孔的四个匹配样式状态相对应的五个数据簇。在一些实施例中,挑选以相同方式变换所有簇的单个二维变换,例如,将所有簇旋转某个角度
Figure DEST_PATH_IMAGE125
。在这样的情况下,变换可以被挑选成使仅一个簇的方差最小化、同时使多于一个簇的方差最小化、或者使簇之间的间隔最大化,如上面在章节III(B)中描述的。在其他实施例中,可以采用多于一个变换,例如,可以发现五个不同的变换,它们不同地变换五个数据簇,以分别使每个簇中的方差最小化。
在步骤1407中,二维变换被存储在存储器中、例如在被数字处理器和/或计算机系统可访问的存储器中,该数字处理器和/或计算机系统已经被编程为在获取测序信号数据时对其进行变换。
一旦二维变换被确定并且存储在存储器中,其就可以被用来处理测序信号数据,以减少或最小化基线移位对信号值的影响。例如,取决于数据点所属于的簇,可以使用方程(24)、(25)或(26)、根据测量的信号数据来计算每个新处理的数据点。
图15描述了采集和变换循环,在获取新的数据点时,该采集和变换循环可以通过在逐点的基础上对测序信号数据应用二维变换来提供基线移位移除。在一些实施例中,方法1500可以由图2的处理器224、数字处理器430和/或与测序单元的电路耦合的任何控制逻辑来实行。
在步骤1501中,以类似于上面参考图14、步骤1401描述的方式、跨测序单元之上施加电压。
在步骤1503中,在交流信号的第一部分期间,从测序单元获取一个或多个信号值。该步骤再次类似于上面参考图14、步骤1403描述的步骤。
在步骤1505中,以类似于上面参考图14、步骤1405描述的方式获取一个或多个相互关联的信号值。
在步骤1507中,通过对二维数据点应用二维变换来计算一个或多个经变换的信号值。例如,如上面在章节III中描述的,二维变换R 2D 可以被应用于二维数据点
Figure DEST_PATH_IMAGE127
。根据某些实施例,R 2D 可以被表示为2乘2矩阵,并且应用该变换可以涉及实行矩阵乘法R 2D S 2D 。例如,根据上面参考图14描述的方法,可以经由存储器预先确定和访问R 2D 的分量。
根据某些实施例,相同的变换R 2D 可以被应用于所有二维数据点,或者不同的变换可以被应用于数据点的不同类别或簇。例如,如果数据点被确定成很可能是开放通道数据点(或者属于开放通道数据点的簇),则可以对该数据点应用开放通道特定的变换。同样地,如果数据点被确定成很可能是匹配样式数据点(或者属于匹配样式标签数据点的一个或四个簇),则可以应用匹配样式状态特定的变换。另外,还有可能基于数据点与特定标签的匹配样式状态相关联的确定来应用标签特定的变换。根据某些实施例,要处理的数据点的特定类别可以基于数据点的亮模式值的原始值来估计,即,通过原始P(t i )的值来估计。例如,可以预定一个或多个阈值,并且可以基于值P(t i )是在(一个或多个)阈值以上、以下还是之内来估计数据点的类别。例如,在某个阈值以上的P(t i )值可以被确定为开放通道值,并且因此可以对这些值应用开放通道特定的变换。在一些实施例中,取决于数据点所属于的簇,可以通过使用方程(24)、(25)或(26)、根据测量的信号数据点来计算每个新处理的数据点。
在步骤1509中,做出是否继续采集和变换循环——即,是否获取和处理另一个数据点——的判定。该考虑可以考虑任何数量的因素,包括例如存储器和/或带宽限制,或者例如系统是否被预编程以在循环期间获取和处理某个数量的数据点。尽管此处示出的示例说明了每个数据点在逐点基础上通过二维变换被处理的情况,但是该变换可以在获取一组数据点之后被应用,而不脱离本公开的范围。
虽然上面例如参考图14-15描述的方法涉及对表示电压的信号值的采集和变换,但是其他类型的信号也是可能的,并且因此可以处理其他类型的信号值,而不脱离本公开的范围。例如,单元的电路可以被配置成使得信号值表示电压、电流或任何其他量(例如,时间)的测量结果,该测量结果可以被用来导出测序单元的电路中的任何点处的电压和/或电流。
4、逐点标准化与2D变换的比较
原始亮模式数据(例如,图9中所示的原始测序信号910)可以使用逐点开放通道标准化例程来处理,该逐点开放通道标准化例程将每个测量的亮模式数据点除以对应的测量的(或估计的)亮模式开放通道值。例如,可以如美国专利申请No.15/632,190中描述的那样使用这样的标准化方法。
图11示出了已经仅使用逐点开放通道标准化例程来标准化的数据的示例,该逐点开放通道标准化例程使用开放通道值(如果有测量值可用,则为测量值,或者如果没有测量值可用,则为估计值)使测量的亮模式信号标准化。开放通道值1101被相当好地标准化;数据通常是平坦的,并且被聚类在为1的值周围。然而,即使在标准化信号中,匹配样式值(标签水平)也被较差地区分,如可以通过直方图1103和1105中的匹配样式值峰值之间的低对比度看到的。
理想情况下,直方图应当具有用于OC、A、C、G和T匹配样式水平的5个清晰描绘的峰值,每个峰值由具有近似零计数的最小值分离。代替地,直方图仅示出了容易地可区分的四个峰值,例如,峰值1105a、1105b、1105c和1105d。另外,在最终的峰值1105d内,两个匹配样式标签水平似乎一起模糊。标签水平之间的这样的不良间隔可以导致对于负责标识哪个碱基在哪个时间处被测序的任何过程的严重困难。
为了提供匹配样式信号水平之间的改进的区分,一个或多个实施例可以在应用任何逐点标准化例程之前,使用上面参考章节III(B)(1)-III(B)(3)描述的2D变换之一来预处理测序信号。
图16A和图16B示出了仅通过逐点标准化而被处理的样本数据(为了方便起见,图11被再现为图16A)与通过在积分历史亮模式窗格中的二维变换、继之以逐点标准化而被处理的样本数据(底部窗格)的比较。如通过直方图1603和1605以及相应的插图可以看到的,对于所有不同的信号水平,已经通过使用积分历史的2D变换预处理的信号(在直方图1605中示出)与裸逐点标准化(在直方图1603中示出)相比具有优越的对比度。与直方图1603相比,直方图1605对于开放通道1605a和四个匹配样式通道1605b、1605c、1605d、1605e具有更多可区分的峰值。因此,采用二维变换的处理技术可以仅使用逐点标准化技术来提供更准确的测序相对性。
C、使用在运行直方图的情况下的开放通道跟踪的标准化
亮模式开放通道电压可以被跟踪,并且被用来使原始测序信号标准化,如上面在章节III(A)中简要描述的、以及在美国专利申请No.15/632,190中详细描述的。确定要用于标准化的亮模式开放通道值的一种方式是要挑选在时间上最接近要被标准化的数据点的亮模式开放通道数据点。然而,在一些情况中,数据中可能不存在合适的亮模式开放通道值。例如,出于与匹配样式动态特性有关的原因,在亮模式采集时间段之内,可能存在非常少(即便有的话)的开放通道数据点。其他方法可以使用对应的暗模式值来计算所估计的亮模式开放通道值,但是对于某些系统架构而言,没有暗模式数据可用于此计算。例如,在某些架构中,芯片某个区域的所有ADC都可以专用于在某个时间段期间仅获得亮模式数据。根据某些实施例,在其他方法失败或产生非理想结果的情况中,可以采用滚动直方图方法来跟踪亮模式开放通道值的估计。
图17示出了一个示例运行直方图1701,其可以根据类似于在图16B中所示的经处理的测序信号数据来计算。根据某些实施例,直方图1701可以针对获取的亮模式数据的总体来计算。例如,在采集运行的窗口(例如,~4 s)期间获取的数据(像在图14中所示的一样)可以被组织成直方图数据结构,像直方图1701一样。为了计算直方图,可以挑选分箱宽度以跨越ADC的动态范围,例如,直方图可以包括与0到255的ADC值相对应的256个单位宽度的分箱。在获取新的数据点时,可以对映射到获取的ADC值的适当分箱的计数进行更新,以随时间的推移保持更新直方图。一旦计算了比如直方图1701的直方图,就可以通过定位直方图中具有最大总体的分箱(例如,峰值1703)来标识开放通道电压。
1、单点运行直方图
为了实现单点“运行”直方图,系统可以被配置成通过根据一个或多个规则将一个或多个新获取的数据点与历史数据进行组合来随时间的推移更新直方图。例如,可以在滚动的基础上计算直方图,由此通过基于数据点的经时而使每个点对分箱的总计数的贡献指数地降级,较旧的数据对任何给定分箱的贡献较小。例如,考虑表示直方图中的第i个分箱的分箱B(i)(例如,等于127的ADC值的第128个分箱),并且假设此分箱的计数是1,即,它包括一个先前测量的数据点。进一步假设此先前测量的数据点是在ADC的上一个采集时期期间获取的。现在假设新获取的数据点也具有127的ADC值,并且因此也应当被添加到与先前数据点相同的分箱。为了根据指数减少的降级规则来组合两个数据点,当前数据点被计数为1计数,并且先前数据点被计数为1的某个分数,其中该分数是通过计算降级系数并且然后基于该降级系数对历史数据的计数进行加权来确定的。
在一些实施例中,可以采用指数降级系数(诸如
Figure DEST_PATH_IMAGE129
),其中dt是采集时期(以秒为单位测量的),n是数据点的经时(自获取了数据点以来已经过去的采集时期的数量),并且T是指数衰减参数,可以基于人们期望多么快地使历史数据的贡献降级来挑选该指数衰减参数。在该示例中,为了简单起见,假设T = dt。因为历史数据点是在上一个采集循环期间获取的,所以n = 1,并且因此
Figure 701532DEST_PATH_IMAGE130
。因此,新的分箱值将是1.37(而不是2,在没有使用降级的情况下是2)。上述简单的降级示例可以扩展到任何数量的分箱和数据集合,该任何数量的分箱和数据集合具有任何数量的带有相关联的时间戳的数据点。根据某些实施例,用于在移动直方图方法中的指数降级的时间常数T也可以与用于增益改变的时间尺度有关。
2、迭代运行直方图
在一些实施例中,可以通过根据以下方法更新直方图分箱总体值B t (i)来实现运行直方图方法。首先,通过在某个预定的初始化时间段t init 内获取数据来初始化直方图。然后,当获取新的数据点时,首先确定该新的数据点属于哪个直方图分箱,其在本文中被称为活动直方图分箱k。接下来,活动分箱中的总体B将根据以下递归关系来更新
Figure 873887DEST_PATH_IMAGE132
并且非活动分箱(其中
Figure DEST_PATH_IMAGE133
的分箱)中的总体将根据以下递归关系来降级
Figure DEST_PATH_IMAGE135
其中
Figure 622400DEST_PATH_IMAGE136
是降级系数,其起作用以使较旧直方图数据对经更新的总体的贡献逐步降级。参数N e 在本文中被称为直方图分箱的有效数量,并且被挑选为在测序运行的过程内使直方图的全部总体保持近似恒定。更具体地,在没有按方程(28)中的N e 进行缩放的情况下,直方图中总的总体可能随着时间的推移而减小,因为根据方程(29),分箱(
Figure 829390DEST_PATH_IMAGE133
)中的总体将被降级。因此,挑选N e 的值来抵消该减少,该抵消通过将近似相等的总体添加到以下活动分箱来进行,由于方程(29)的应用,该活动分箱被从非活动分箱中移除。在一些实施例中,分箱的有效数量N e 被设置成是直方图中具有非零总体的分箱的数量,并且可以是例如直方图中的分箱总数的一半。
将指数n引入方程(29),以将非活动直方图分箱的更新速率与数据采集去耦。例如,在一些实施例中,对于n = 1,活动直方图分箱和剩余分箱二者在每个采集循环被更新。同样地,对于n = 2,非活动分箱仅每2个循环被更新。仅每n个采集循环更新非活动分箱可以减小运行直方图方法的总体处理时间。
采用上述滚动直方图方法之一来定位和跟踪亮模式开放通道值可以比其他方法更稳健,因为该方法不需要任何暗通道数据,并且因此可以被用在没有可用暗通道数据的系统的某些高吞吐量模式中。另外,因为该方法以运行直方图的形式保留历史信息,所以该方法可以被用来跟踪开放通道水平,即使例如由于匹配样式事件的高速率,最小和/或没有开放通道数据可用也可以。最后,用于跟踪和估计开放通道数据的滚动直方图方法可以是相对于其他方法(诸如卡尔曼滤波器的使用)的改进,因为其不取决于硬编码的阈值来限定很可能的开放通道值驻留于其中的范围。而是,可以基于直方图本身中的数据来找到开放通道,例如,使用峰值寻找例程。这是可能的,因为开放通道值往往将是直方图中的最大峰值,例如最大振幅峰值。
在一些实施例中,具有最大总体(例如,直方图中的最大峰值)的直方图分箱可以被取作开放通道值。实施例可以进一步采用窗口方法,该窗口方法仅在最大峰值处于允许的窗口之内的情况下才接受该最大峰值,以避免在长匹配样式事件(也被称为停留事件)期间跟踪匹配样式水平。在一些实施例中,窗口宽度可以被动态地更新成直方图中的开放通道峰值的某个分数,例如,半高全宽(FWHM)的2.3倍。
在新的开放通道值在窗口外部的情况下,在旧的开放通道峰值与新的最大峰值之间搜索次级峰值(例如,第二最大峰值)。如果发现次级峰值,其满足峰值高度要求,并且该次级峰值处于窗口之内,则它被接受作为新的OC值。通过允许次级峰值可能地用作开放通道峰值,可以适应永久的开放通道水平跳跃。该次级峰值搜索还可以确保的是:只要在停留期间也发生了一定量的开放通道事件,那么即使在长停留事件期间,也跟踪适当的开放通道值。这样的次级峰值跟踪可以提供改进,以在AOC(开放通道以上)水平以及在开放通道以下查看时设法解决开放通道的故障率。
在一些实施例中,用以运行直方图的输入数据通过如上所述的二维变换来处理(例如,展平)。例如,开放通道值P OC (t i )可以与积分历史值H(t i )配对,并且可以根据以下方程进行处理:
Figure 677261DEST_PATH_IMAGE138
一旦确定了开放通道值,该值就可以被用来使其他信号值标准化,以确保标签水平的值在时间上是恒定的。例如,可以应用标准化,该标准化将每个匹配样式信号值除以由运行直方图方法确定的开放通道值的估计。
3、用于运行直方图标准化方法的说明性流程图
图18示出了根据某些实施例的图示了使用测序单元的方法的流程图。更具体地,图18描述了使用运行直方图对测序信号值进行标准化的方法,如上面在章节III(C)(1)-(2)中描述的。在一些实施例中,方法1800可以由图2的处理器224、数字处理器430和/或与测序单元的电路耦合的任何控制逻辑来实行。
在步骤1810中,从测序单元获得多个测序信号值P(t i )。该测序信号值可以是由ADC测量并被发送到数字处理器(例如,ADC 410和数字处理器430)的电压,如图4中所示。数字处理器可以是包括其他组件的计算机系统的部分,例如,如下面参考图20更详细描述的。电压可以对应于在一个或多个亮时期内测量的电压,该一个或多个亮时期本身在一个或多个不同的AC循环内,即,不要求所有测量的数据都来自单个AC循环内的同一亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。在一些情况下,由于单元的零点电压随时间的推移的变化,获取的电压可能因不同的点而不同(即使对于纳米孔的相同状态也是如此)。所施加的电压可以是交流信号,例如,具有相对于参考电压的第一部分(例如,亮时期,在本文中也被称为“亮模式”)和第二部分(例如,暗时期,在本文中也被称为“暗模式”)的AC信号。根据某些实施例,参考电压可以是被施加到积分电容器(例如,ncap)的参考电压(例如,图4中的VPRE 405),如图4中所示的。
在步骤1820中,确定信号值的第一集合,例如,由数字处理器430选择在交流信号的亮时期期间测量的一个或多个电压。电压的第一集合可以对应于各种亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。另外,一个或多个信号值的第一集合可以对应于各种亮模式匹配样式通道信号值。
在步骤1830中,根据信号值的第一集合来创建直方图,例如,如上面在章节III(C)(1)-(2)中描述的。例如,可以通过对测量的信号值进行分箱,并且对具有特定ADC计数的特定信号值落入特定分箱内的次数进行计数来计算测量的信号的直方图(或分布)。
在步骤1840中,通过标识直方图中的峰值来确定标准化因子。根据某些实施例,在步骤1810中获得测量的测序信号数据之前,既不需要知道峰值,也不需要知道峰值宽度。例如,峰值检测例程可以检测峰值的边界和特性,例如,以标识直方图中的最大峰值。在其他实施例中,如果第二最大峰值的信号值处于与可接受(或很可能的)开放通道信号值的范围(开放通道范围)相对应的信号值的预定范围内,则可以挑选第二最大峰值,例如,如在上面的章节中描述的。在一些实施例中,在初始峰值检测例程期间,可以忽略在信号范围的最末端处或最末端附近的分箱,以避免边缘效应。可以经由来自其他测序运行、单元、芯片等的经验数据来建立用于标识峰的信号范围。
在步骤1850中,确定信号值的第二集合。再次,如之前那样,信号值的第二集合可以对应于各种亮时期。这样的测量可以如本文中描述的那样出现,并且可以在对给定单元的核酸的不同部分进行测序的不同时间处出现。另外,一个或多个信号值的第二集合可以对应于各种亮模式匹配样式通道信号值。
在步骤1860中,使用标准化因子对信号值的第二集合中的至少一个值进行标准化,以获得至少一个标准化的信号值,例如,通过将信号值的第二集合中的至少一个值除以标准化因子来进行。可以获得多个标准化的信号值。
IV、标准化和偏移校正系统以及数据流
图19示出了根据一些实施例的用于标准化和偏移校正的示例系统。更具体地,图19图示了以组合的形式采用上述数据处理技术中的每一个的系统的数据流和逻辑示图的示例,即,图19中的系统采用零点校正、通过二维变换的基线移位移除以及使用移动直方图的标准化。图19中表示的模块可以作为仅硬件、仅软件或硬件和软件的组合被结合在纳米孔测序系统内,例如,在纳米孔测序系统的一个或多个计算机系统和数字处理器内,例如,逻辑可以在图1的纳米芯片工作站、图2的处理器224和存储器226以及图4的数字处理器430中的一个或多个中实现。此外,图19中所示的每一个模块可以可操作地连接到一个或多个计算机存储器(未示出),使得每个模块既可以访问被存储在一个或多个计算机存储器中的数据,又可以将数据保存在一个或多个计算机存储器中。另外,每个模块或模块的集合可以采取计算机可读指令或程序代码的形式,该计算机可读指令或程序代码可以由计算机系统(例如,图20中所示的计算机系统)的一个或多个处理器执行。
A、针对零点电压V 0 的校正
在输入1901处从ADC接收一个或多个原始测序信号值(在本文中也被称为“数据点”)。例如,可以接收在所施加的AC信号的亮模式和/或暗模式期间测量的一个或多个电压,如上面参考图5描述的。在图19中所示的实施例中,获取的测序信号值首先被零点校正模块1903处理。在一些实施例中,零点校正模块1903可以采用不需要知道
Figure DEST_PATH_IMAGE139
的具体值的零点校正方案,例如,它可以从亮模式信号值中减去对应的暗模式信号值,以移除变化的零点电压V 0 的任何影响,如上面参考图10在章节III(C)中描述的。替换地,零点校正模块1903可以减去已经存储在存储器中的V 0 的先前测量的值。
零点校正数据然后被传递到两个单独的处理流程——匹配样式值处理流程1902和标准化因子计算流程1904。根据某些实施例,匹配样式值处理流程1902通过对匹配样式值应用二维变换来处理匹配样式值,以针对偏移移位校正这些值。根据某些实施例,标准化因子计算流程1904使用移动直方图方法来计算标准化因子(要被用来针对增益漂移校正匹配样式值)。
B、匹配样式信号的二维变换
首先转向匹配样式值处理流程1902,首先在维度添加模块1905处理数据。维度添加模块1905可以针对每个获取的亮模式信号值计算第二相互关联的数据点。例如,维度添加模块1905可以将每个亮通道值与对应的暗通道值配对,如上面参考图13A-13C描述的。在一些实施例中,维度添加模块1905可以实行亮通道值的积分历史,并且然后将每个测量的亮通道值与相互关联的积分历史值配对,例如,通过实现在方程(22)中体现的递归关系,如上面在章节III(B)(2)中描述的。
在每个亮通道数据点被维度添加模块1905转换成二维数据点之后,亮通道值及其相关联的相互关联的值被发送到二维变换模块1909,该二维变换模块1909应用二维变换来校正匹配样式值中的偏移漂移。根据某些实施例,二维变换模块1909可以采取矩阵乘法器的形式,该矩阵乘法器将二维变换(诸如旋转或展平变换)应用于每一个二维数据点,如上面在章节III(B)(1)-(3)中描述的。例如,如在图14A-14B中所示的,二维变换可以导致匹配样式通道数据的簇,该簇在跨越二维数据点的2维空间中被旋转/展平。换句话说,与未处理的数据相比,经变换的簇相对于x轴更水平。换言之,二维变换的动作是要减少当沿着y维度查看时五个簇之间的重叠。然后,标准化模块1915对该经变换的数据进行标准化,其中,根据某些实施例,每个值被缩放成(即,除以)在标准化因子计算流程1904中计算的开放通道值。
C、使用运行直方图的标准化因子确定
转到标准化因子计算流程1904,亮通道值及其相关联的相互关联的值被发送到二维变换模块1907,该二维变换模块1907应用二维变换来校正开放通道值中的偏移漂移。根据某些实施例,二维变换模块1907可以将以矩阵乘法形式的变换应用于每一个二维数据点。二维变换模块1907所应用的变换可以导致开放通道数据的方差在一个维度上被减少,类似于如何通过上面参考匹配样式值处理流程1902描述的二维变换来减少匹配样式通道数据的方差。经变换的开放通道信号值然后被发送到运行直方图模块1911,在此基于被存储在存储器中的历史数据和新数据来计算数据的经更新的运行直方图(即,总体分布)。
根据某些实施例,可以按照如上面参考章节III(C)描述的多种方式、根据历史数据来计算经更新的运行直方图。例如,历史数据对运行直方图的贡献可以基于经时而被降级。一旦新获取的数据与历史数据组合以形成经更新的运行直方图,峰值检测模块1913就执行峰值寻找例程来定位直方图中的最大峰值(即,序列信号数据中总体最多的值),并且然后选择对应的信号值作为开放通道信号值的最佳估计来被用作标准化因子。由该方法确定的标准化因子导致对开放通道电压值的改进的估计,即使当最近的测量结果可能不包括任何开放通道值也是如此。
返回到匹配样式值处理流程1902,由2D变换模块1909输出的经变换的匹配样式数据使用标准化因子来被标准化,从而导致例如使用方程(5)或(26)在输出节点1917处输出的标准化的匹配样式信号。匹配样式值不仅更水平(即,在匹配样式值的每个簇内,亮通道值中的变化更小),而且数据也被缩放,使得动态范围近似在0和1之间。结果,本文中描述的处理系统导致了更容易彼此区分的匹配样式值(即,标签值),以及还有随着时间的推移更稳定的值,因为增益漂移和偏移移位二者的影响已经被最小化。
V. 计算机系统
本文中提到的任何计算机系统都可以利用任何合适数量的子系统。这样的子系统的示例在图20中的计算机系统2010中示出。在一些实施例中,计算机系统包括单个计算机装置,其中子系统可以是计算机装置的组件。在其他实施例中,计算机系统可以包括多个计算机装置,每个计算机装置都是具有内部组件的子系统。计算机系统可以包括台式和膝上型计算机、平板设备、移动电话和其他移动设备。
图20中所示的子系统经由系统总线2075互连。示出了附加的子系统,诸如打印机2074、键盘2078、(一个或多个)存储设备2079、耦合到显示适配器2082的监视器2076、以及其他的子系统。耦合到输入/输出(I/O)控制器2071的外围设备和I/O设备可以通过本领域中已知的任何数量的部件连接到计算机系统,该部件诸如是输入/输出(I/O)端口2077(例如,USB、FireWire®)。例如,I/O端口2077或外部接口2081(例如,以太网、Wi-Fi等)可以被用来将计算机系统2010连接到诸如互联网之类的广域网、鼠标输入设备或扫描仪。经由系统总线2075的互连允许中央处理器2073与每个子系统通信,并且控制来自系统存储器2072或(一个或多个)存储设备2079(例如,固定盘,诸如硬盘驱动器,或光盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器2072和/或(一个或多个)存储设备2079可以体现计算机可读介质。另一个子系统是数据收集设备85,诸如相机、传声器、加速度计等等。本文中提到的任何数据都可以从一个组件输出到另一个组件,并且可以输出给用户。
计算机系统可以包括多个相同的组件或子系统,其例如通过外部接口2081或通过内部接口连接在一起。在一些实施例中,计算机系统、子系统或装置可以通过网络进行通信。在这样的实例中,一台计算机可以被视为客户端,并且另一台计算机可以被视为服务器,其中每台计算机都可以是同一计算机系统的部分。客户端和服务器可以各自包括多个系统、子系统或组件。
可以使用硬件(例如,专用集成电路或现场可编程门阵列)和/或使用具有以模块化或集成方式的一般可编程处理器的计算机软件、以控制逻辑的形式来实现实施例的各方面。如在本文中使用的,处理器包括单核处理器、同一集成芯片上的多核处理器、或者单个电路板或联网的多个处理单元。基于本文中提供的公开和教导,本领域普通技术人员将知道和领会到用以使用硬件以及硬件与软件的组合来实现本发明的实施例的其他方式和/或方法。
本申请中描述的任何软件组件或功能可以被实现为由处理器使用任何合适的计算机语言来执行的软件代码,该任何合适的计算机语言诸如例如是Java、C、C++、C#、Objective-C、Swift、或使用例如常规或面向对象的技术的诸如是Perl或Python之类的脚本语言。软件代码可以作为一系列指令或命令存储在计算机可读介质上,以用于存储和/或传输。合适的非暂时性计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、诸如硬盘驱动器或软盘之类的磁性介质、或者诸如紧凑盘(CD)或DVD(数字多功能盘)之类的光学介质、闪速存储器等等。计算机可读介质可以是这样的存储或传输设备的任何组合。
这样的程序也可以使用载波信号进行编码和传输,该载波信号适于经由符合多种协议的有线、光学和/或无线网络(包括互联网)进行传输。照此,可以使用利用这样的程序编码的数据信号来创建计算机可读介质。利用程序代码编码的计算机可读介质可以与兼容设备封装在一起,或者与其他设备分离地提供(例如,经由互联网下载)。任何这样的计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)上或在其之内,并且可以存在于系统或网络内的不同计算机产品上或在其之内。计算机系统可以包括监视器、打印机或其他合适的显示器,以用于向用户提供本文中提到的任何结果。
本文中描述的任何方法可以全部或部分地利用包括一个或多个处理器的计算机系统来实行,该处理器可以被配置成实行所述步骤。因此,实施例可以涉及被配置成实行本文中描述的任何方法的步骤的计算机系统,其中,潜在地不同的组件实行相应的步骤或相应的步骤组。本文中的方法的步骤尽管被呈现为编号的步骤,但是可以同时或以不同的次序来实行它们。附加地,这些步骤的部分可以与来自其他方法的其他步骤的部分一起使用。而且,步骤的全部或部分可以是可选的。附加地,任何方法的任何步骤都可以利用模块、单元、电路或用于实行这些步骤的其他部件来实行。
在不脱离本发明实施例的精神和范围的情况下,可以以任何合适的方式组合特定实施例的具体细节。然而,本发明的其他实施例可以涉及与每个单独方面或这些单独方面的具体组合有关的具体实施例。
出于说明和描述的目的,已经呈现了本发明的示例实施例的以上描述。不意图是穷举性的或将本发明限制到所描述的精确形式,并且鉴于以上教导,许多修改和变化是可能的。
除非特别指示相反的情况,否则“一”、“一个”或“该”的叙述意图意味着“一个或多个”。除非特别指示相反的情况,否则使用“或”意图意味着“包含的或”,而不是“排他的或”。对“第一”组件的引用不一定要求提供第二组件。此外,除非明确陈述,否则对“第一”或“第二”组件的引用不将所引用的组件限制到特定位置。
在本文中提到的所有专利、专利申请、出版物和描述出于所有目的通过引用整体地并入。没有一个被承认是现有技术。

Claims (23)

1.一种使用测序单元的方法,所述方法包括:
跨测序单元之上施加电压,测序单元包括核酸,其中,所施加的电压包括相对于参考电压具有第一部分和第二部分的交流信号;
在交流信号的第一部分期间,从测序单元获取多个信号值,其中,在交流信号的第一部分期间,标签分子被样式匹配到测序单元的纳米孔中,标签分子对应于特定的核苷酸,其中,信号值随时间的推移变化;
获取与多个获取的信号值的相应值相互关联的多个相互关联的信号值,由此形成多个二维数据点,其中,多个二维数据点包括在第一维度上等于多个获取的信号值的值和在第二维度上等于多个相互关联的信号值的值;以及
通过对多个二维数据点应用二维变换来计算多个经变换的信号值,其中,所述二维变换补偿获取的信号值的变化。
2.根据权利要求1所述的方法,其中,通过计算多个获取的电压的多个积分历史来确定多个相互关联的信号值。
3.根据权利要求1所述的方法,其中,多个相互关联的信号值是在交流信号的第二部分期间获取的多个获取的信号值,其中,在交流信号的第二部分期间,没有标签分子被样式匹配到测序单元的纳米孔中。
4.权利要求1所述的方法,其中,二维变换是矩阵乘法。
5.根据权利要求1所述的方法,进一步包括:
基于多个经变换的信号值的直方图来计算标准化因子;
使用标准化因子来标准化多个经变换的信号值,以获得多个标准化的信号值;以及
基于多个标准化的信号值来标识纳米孔的一个或多个状态。
6.根据权利要求5所述的方法,其中,标准化因子被确定为在多个经变换的信号值的直方图中具有最大振幅峰值的获取的信号值。
7.根据权利要求6所述的方法,进一步包括通过将至少一个经变换的信号值除以标准化因子来标准化多个经变换的信号值中的至少一个经变换的信号值。
8.根据权利要求1所述的方法,进一步包括:
将二维变换确定为减少多个信号值的变化的变换,其中,二维变换被应用于多个二维数据点,并且其中,二维变换补偿单元的电压偏移移位。
9.一种使用测序单元的方法,所述方法包括:
获得针对具有跨测序单元之上施加的电压的测序单元的多个测量信号值,所述单元包括核酸,其中,所施加的电压包括相对于参考电压具有第一部分和第二部分的交流信号;
确定在交流信号的第一部分期间测量的信号值的第一集合;
根据信号值的第一集合来创建直方图;
通过标识直方图中的峰值来确定标准化因子,其中,峰值对应于测序单元的开放通道信号值;
确定在交流信号的第一部分期间测量的信号值的第二集合;以及
使用标准化因子来标准化信号值的第二集合中的至少一个值,以获得至少一个标准化的信号值。
10.根据权利要求9所述的方法,其中,标识直方图中的峰值包括挑选最大振幅峰值作为与测序单元的开放通道信号值相对应的峰值。
11.根据权利要求9所述的方法,其中,标识直方图中的峰值包括:当第二最大振幅峰值的信号值在限定了开放通道范围的信号值的范围内、并且最大振幅峰值的信号值在信号值的范围外部时,挑选第二最大振幅峰值作为与测序单元的开放通道信号值相对应的峰值。
12.根据权利要求9所述的方法,其中,根据信号值的第一集合来创建直方图包括:对于信号值的第一集合的每个点,基于每个点的经时,对每个点对直方图的贡献进行折现。
13.根据权利要求9所述的方法,进一步包括:在创建直方图之前,
获得相互关联的信号值的第一集合,所述相互关联的信号值的第一集合与在交流信号的第一部分期间测量的信号值的第一集合相互关联,由此形成二维数据点的集合;
基于二维数据点的集合来确定经变换的信号值的集合,其中,通过对二维数据点的集合应用二维变换来计算经变换的信号值;以及
使用经变换的信号值的集合来创建直方图。
14.一种使用测序单元的方法,所述方法包括:
获得针对具有跨测序单元之上施加的电压的测序单元的多个测量信号值,所述单元包括核酸,其中,所施加的电压包括相对于参考电压具有第一部分和第二部分的交流信号;
当标签分子样式匹配到测序单元的纳米孔中时,确定在交流信号的第一部分期间测量的一个或多个信号值的第一集合,标签分子对应于特定的核苷酸;
当标签分子没有样式匹配到测序单元的纳米孔中时,确定在交流信号的第一部分期间测量的一个或多个信号值的第二集合;
当标签分子没有样式匹配到测序单元的纳米孔中时,确定在交流信号的第二部分期间测量的一个或多个信号值的第三集合;
从一个或多个信号值的第一集合中减去一个或多个信号值的第三集合中的对应值,由此生成一个或多个零点补偿信号值的第一集合;以及
从一个或多个信号值的第二集合中减去一个或多个信号值的第三集合中的对应值,以生成一个或多个零点补偿信号值的第二集合。
15.根据权利要求14所述的方法,进一步包括:
确定与一个或多个零点补偿信号值的第一集合和第二集合相对应的对应的相互关联的信号值,由此形成多个二维数据点;以及
应用二维变换来减少一个或多个零点补偿信号值的第一集合的变化。
16.根据权利要求14所述的方法,进一步包括:
根据一个或多个零点补偿信号值的第一集合和第二集合来创建直方图;
通过标识直方图中的峰值来确定标准化因子,其中,峰值对应于测序单元的开放通道信号值;以及
通过除以标准化因子来标准化一个或多个零点补偿信号值的第一集合。
17.根据权利要求14所述的方法,其中,一个或多个零点补偿信号值的第二集合中的至少一个信号值被确定为标准化因子,以用于标准化一个或多个零点补偿信号值的第一集合中的至少一个信号值。
18.一种计算机产品,其包括存储多个指令的计算机可读介质,所述多个指令用于控制计算机系统来实行以上方法中的任一个的操作。
19.一种系统,其包括:
权利要求18所述的计算机产品;以及
一个或多个处理器,用于执行被存储在计算机可读介质上的指令。
20.一种包括装置的系统,所述装置用于实行以上方法中的任一个。
21.一种包括一个或多个处理器的系统,所述一个或多个处理器被配置成实行以上方法中的任一个。
22.一种包括模块的系统,所述模块分别实行以上方法中的任一个的步骤。
23.一种系统,其包括:
测序芯片,其包括多个测序单元,其中,第一测序单元包括纳米孔,所述纳米孔被配置成接收被连接到核苷酸的标签,由此创建匹配样式事件;
信号源,其跨第一测序单元的纳米孔之上施加交流信号,交流信号的每个循环包括第一部分和第二部分,其中,第二部分的电压水平与第一部分的电压水平相比与参考电压相反;
模数转换器,其在交流信号的多个循环的第一部分期间获取信号值数据的第一集合,其中,信号值数据的第一集合中的每个数据点对应于纳米孔在不同时间处的电阻值,其中当标签被接收在纳米孔内时,纳米孔的电阻改变;以及
一个或多个处理器,其被配置成实行以上方法中的任一个的操作。
CN201880087631.8A 2017-11-27 2018-11-20 纳米孔sbs信号的标准化和基线移位移除 Active CN111615629B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762591099P 2017-11-27 2017-11-27
US62/591099 2017-11-27
PCT/US2018/062081 WO2019104076A1 (en) 2017-11-27 2018-11-20 Normalization and baseline shift removal for nanopore-sbs signals

Publications (2)

Publication Number Publication Date
CN111615629A true CN111615629A (zh) 2020-09-01
CN111615629B CN111615629B (zh) 2022-09-27

Family

ID=64650568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880087631.8A Active CN111615629B (zh) 2017-11-27 2018-11-20 纳米孔sbs信号的标准化和基线移位移除

Country Status (5)

Country Link
US (2) US11639524B2 (zh)
EP (1) EP3717905A1 (zh)
JP (1) JP7042910B2 (zh)
CN (1) CN111615629B (zh)
WO (1) WO2019104076A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7042910B2 (ja) * 2017-11-27 2022-03-28 エフ.ホフマン-ラ ロシュ アーゲー ナノポア-sbs信号のための規格化およびベースラインシフト除去
CN112988732B (zh) * 2021-04-14 2023-10-20 湖南工程学院 一种观测数据中异常值的处理方法
WO2024081464A1 (en) * 2022-10-13 2024-04-18 Illumina, Inc. Nanopore sequencing systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140248608A1 (en) * 2011-06-24 2014-09-04 Electronic Biosciences, Inc. Methods for characterizing a device component based on a contrast signal to noise ratio
WO2017050720A1 (en) * 2015-09-24 2017-03-30 Genia Technologies, Inc. Encoding state change of nanopore to reduce data size
CN107250780A (zh) * 2014-12-19 2017-10-13 豪夫迈·罗氏有限公司 利用变化的电压刺激的基于纳米孔的测序

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0523282D0 (en) 2005-11-15 2005-12-21 Isis Innovation Methods using pores
DE112011105207T5 (de) 2011-05-31 2014-07-17 Hitachi, Ltd. Biomolekülinformationen-Analysevorrichtung
US9605309B2 (en) 2012-11-09 2017-03-28 Genia Technologies, Inc. Nucleic acid sequencing using tags
WO2015140535A1 (en) * 2014-03-21 2015-09-24 Oxford Nanopore Technologies Limited Analysis of a polymer from multi-dimensional measurements
US9557294B2 (en) 2014-12-19 2017-01-31 Genia Technologies, Inc. Nanopore-based sequencing with varying voltage stimulus
JP7042910B2 (ja) * 2017-11-27 2022-03-28 エフ.ホフマン-ラ ロシュ アーゲー ナノポア-sbs信号のための規格化およびベースラインシフト除去

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140248608A1 (en) * 2011-06-24 2014-09-04 Electronic Biosciences, Inc. Methods for characterizing a device component based on a contrast signal to noise ratio
CN107250780A (zh) * 2014-12-19 2017-10-13 豪夫迈·罗氏有限公司 利用变化的电压刺激的基于纳米孔的测序
WO2017050720A1 (en) * 2015-09-24 2017-03-30 Genia Technologies, Inc. Encoding state change of nanopore to reduce data size

Also Published As

Publication number Publication date
US11639524B2 (en) 2023-05-02
CN111615629B (zh) 2022-09-27
EP3717905A1 (en) 2020-10-07
JP2021504701A (ja) 2021-02-15
WO2019104076A1 (en) 2019-05-31
JP7042910B2 (ja) 2022-03-28
US20200283844A1 (en) 2020-09-10
US20230279488A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
US11892444B2 (en) Formation and calibration of nanopore sequencing cells
US11788132B2 (en) Basecalling for stochastic sequencing processes
CN109313177B (zh) 来自纳米孔测序的交流信号的周期至周期分析
US20230279488A1 (en) Normalization and baseline shift removal by rotation in added data dimensions
CN109791138B (zh) 纳米孔电压方法
CN111512155B (zh) 测量和去除来自交流信号驱动的纳米孔dna测序系统的随机信号中的噪声
CN112292462A (zh) 生化传感器阵列中的多路复用模拟部件
CN111212919B (zh) 纳米孔测序单元中的双电层电容的测量

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant