CN104321441B

CN104321441B - 聚合物的测量的分析

Info

Publication number: CN104321441B
Application number: CN201380020403.6A
Authority: CN
Inventors: 斯图尔特·威廉·里德; 詹姆斯·安东尼·克拉克; 詹姆斯·怀特; 加文·哈珀
Original assignee: Oxford Nanopore Technologies PLC
Current assignee: Oxford Nanopore Technologies PLC
Priority date: 2012-02-16
Filing date: 2013-02-18
Publication date: 2016-10-19
Anticipated expiration: 2033-02-18
Also published as: JP2015509710A; EP2814980A1; CA2866587C; EP2814980B8; BR112014020211A2; WO2013121224A1; IN2014DN06795A; US20150057948A1; KR20140125874A; CA2866587A1; JP6226888B2; AU2013220179B2; CN104321441A; EP3736339B1; US11959906B2; EP2814980B1; US20190154655A1; KR102106499B1; EP3736339A1; AU2013220179A1

Abstract

分析了聚合物通过纳米孔易位过程中进行的聚合物的时序系列的测量。测量取决于纳米孔中的k链节的特性，k链节是聚合物的k个聚合物单元，其中，k是正整数。所述方法包括：从测量系列得出代表测量特性的时序特征的特征向量；以及测定得出的特征向量和至少一种其他特征向量之间的相似性。

Description

聚合物的测量的分析

技术领域

本发明总体上涉及分析在聚合物通过纳米孔的易位过程中进行的包含聚合物单元的聚合物，例如但不限于多核苷酸的测量的领域。

背景技术

通常，通过使用膜限制溶液的两个池之间的物质流动，进行纳米孔测量。提供在膜中的孔以允许物质从溶液的一个池转移到另一个。孔具有纳米尺度上的至少一个尺寸。随着物质通过孔易位，测量该物质。最常用的设置依赖施加电压的应用以驱动分子物种通过纳米孔。将电极放置在每个溶液体积中，并且溶液包含电解质，通常为盐，如1 M NaCl。在电极之间施加的电压还驱动电解质通过孔并且产生电流。当物质通过孔时，其改变在电流测量中直接观察到的离子的流动。电流阻塞的程度和物质花费在纳米孔中的持续时间指示物质的特性。

通过使聚合物通过纳米孔来分析聚合物的原始概念由Branton等人(US-5,795,782)在1996年提出。在这种情况下，DNA分子通过嵌入在脂膜中的纳米孔。将电极放置在膜的每一侧上，并且施加的电压用于驱动DNA分子从膜的一侧至另一侧。在DNA分子的易位过程中，测量通过孔的跨膜电流。示出的是：当DNA通过纳米孔时，DNA的不同序列将引起不同的观察电流。使用核苷酸的均聚物进行这些早期实验，其中，聚合物自由地易位纳米孔。在这些实验中，聚合物易位的速率非常快(～5μs/碱基)，造成聚合物中的单个核苷酸的特性难以确定。

为了克服快速DNA易位的限制，Branton等人公开了使用聚合酶以控制DNA通过纳米孔易位的速度。该优雅方案已经被本领域中的许多研究者采用并修改，其已经导致了许多出版物。基本概念是给聚合物的运动提供棘轮，这可以包括分子发动机或分子制动。

早期研究集中在使用聚合酶来控制DNA的运动。使用Klenow片段进行了许多研究，但这些实验受限于纳米孔顶部上的DNA-酶复合物的短持续时间。研发了许多方案以补偿这种弱结合(例如，参见Olasagasti等，Nat Nanotechnol.2010 Nov；5(11):798-806，Ashkenasy等，Angew Chem Int Ed Engl.2005 Feb 18；44(9):1401-4)。

在2010，Akeson等人公开了Phi29 DNA聚合酶(DNAP)可以在纳米孔的顶部上起作用(例如，参见Lieberman等，J Am Chem Soc.2010 Dec22；132(50):17961-72,61/402,903)。Phi29 DNAP粘合至模板DNA的强度足以允许在纳米孔的顶部上进行多重酶循环，从而，允许以棘轮方式拉动DNA通过纳米孔。文章还披露了在其中抑制酶运动的条件下，Phi29DNAP可以用于控制DNA运动通过纳米孔。在这些条件下，对于酶促作用而言必不可少的Mg2+有效地通过加入金属螯合剂乙二胺四乙酸(EDTA)去除。施加的电压提供了DNA链上的力，并且Phi29 DNAP通过孔限制链的“拉开(unzipping)”。该研究表明纳米孔系统中的酶可以起分子发动机的作用或起分子制动的作用。

除了使用聚合酶作为分子棘轮之外，已经证明的是：一些解旋酶家族可以用于提供控制多核苷酸运动通过纳米孔(例如，参见US 61/549,998(N115020)、US 61/581,332(N115505)、US 61/581,340(N115506))。解旋酶(helicase)具有许多使得它们适合用于纳米孔系统的性能。

减缓靶单链DNA易位的替代方法是沿着靶链的长度杂交ssDNA(hyb-DNA)的附加部分。在施加的电压下，DNA的靶链迅速穿过孔。一旦链的双链部分到达纳米孔的收缩处，链的易位停止，允许在固定位置处读取聚合物的电流。通过外加场的力，hyb-DNA部分未杂交，并且靶DNA链继续易位纳米孔直至遇到另一个hyb-DNA。以这种方式，获得了在多个固定位置处针对DNA链的电流标记。通过使用复杂样品制备技术，Derrington等人提出使用该方法测序DNA链的方法。

从这些方法产生的数据共享主要特征；DNA的易位发生在谨慎的阶段，其中，每一个阶段代表纳米孔中的聚合物的位置并且每一个聚合物位置具有特征电流水平。有时，电流水平可以表现出波动，称为偏差。这些特征导致了采用“嘈杂阶梯波(noisy step wave)”形式的信号。

更通常地，系统的一些性能取决于纳米孔中的聚合物单元，并且采用了该性能的测试。例如，可以通过将纳米孔放置在绝缘膜中，并且在分析物分子的存在下测量通过纳米孔的电压驱动的离子转运来产生测量系统。通过纳米孔控制聚合物的运动导致许多表明聚合物序列的测量的不同水平。

在之前的研究中，焦点已经在于测定聚合物的基础序列。通常，在这些方法中，通过比较这些状态的电流水平与来自参考数据的已知电流水平，已经单独地分析了信号中的每一状态。该方法将电流信号转化成评价聚合物序列。对此进行说明的另一种方式是该方法将来自信号空间的信息转化成序列空间。然而，在研发可以可靠地确定序列的测量系统中存在实际困难。

对于依赖于k个聚合物单元的组的每一测量值，典型的是许多类型的测量系统，包括大多数的目前已知的纳米孔，其中，k是复数的整数，以下称为‘k链节’。这是由于多于一个聚合物单元有助于观察到的离子电流，并且可以被概念性地认为具有比被测量的聚合物单元更大的“钝读取头(blunt reader head)”的测量系统。在这种情形下，待解决的不同k链节的数目增加了k的乘幂。例如，如果存在n个可能的聚合物单元，待解决的不同k链节的数目是nk。尽管可期望的是具有对于不同k链节测量之间的清楚分离，对于这些测量中的一些，常见的是重叠。特别地，具有高数目的k链节，可能难以解析由不同k链节产生的测量，难以解析关于聚合物的衍生信息的损害，例如，评价聚合物单元的基础序列。

许多研究已经旨在设计提供依赖于单个聚合物单元的可解析测量的测量系统。然而，例如，由于可以产生基础物理或生物系统中固有变化的改变程度的测量中的变化，和/或由于被测量的小幅度性能而不可避免的测量噪音，这已经在实践中被证明困难。其他工作已经接受依赖于k链节的测量，但已经旨在设计其中来自不同k链节的测量可彼此解析的测量系统。然而，实际限制再次意味着这非常困难。由一些不同k链节产生的信号分布通常可以重叠。

发明内容

根据本发明，提供了分析聚合物通过纳米孔的易位过程中进行的聚合物时序系列测量(聚合物的时序测量结果，time-ordered series of measurements of a polymer)的方法，其中，测量(测量结果，measurement)取决于纳米孔中的k链节(k-mers)的特性(identity)，k链节是聚合物的k个聚合物单元，其中，k是正整数，所述方法包括：

从测量系列中得出代表测量的特性的时序特征的特征向量；以及

测定得出的特征向量和至少一种其他特征向量之间的相似性。

尽管之前的研究已经尝试得出来自测量的精确序列，本发明利用许多应用不需要待指定的精确的聚合物序列的优点。这些包括显著量的诊断、临床、科学、基因应用，其中，可以廉价地、迅速地获得期望结果，并且在没有依赖于序列信息的情况下达到更高的精确度。特别地，本发明涉及代表测量特性的时序特征的特征向量的得出。然后，测定提供可用于许多应用中的信息的得出的特征向量和至少一种其他特征向量之间的相似性。

因此，本发明不需要指定聚合物序列，即，测量信号转化成序列空间不是必须的。这在许多应用中提供了聚合物的有用分析，但由于没有必要解析序列中的每一个单个的聚合物单元，减少了测量系统操作上的负担。测量系统限制的这种减少还增加了测量系统的范围。这可以允许使用更容易设计或操作的测量系统，或可以允许使用具体地适合于分析聚合物的特定特性的测量系统，甚至在不能够提供完全的序列信息的情况下。

本发明的基础特征是将为测量的时序系列的原始信号转化成时序特征的特征向量。当聚合物通过纳米孔易位时，得出测量的系列，并且由此提供整个序列上的信息，即使这是不完全的。特征向量的得出提供了也是时序性的但具有减少的数据集的表示。该特征向量可以被认为聚合物的“标记”。然后，将特征向量与至少一种其他特征向量相比较以测定相似性。至少一种其他特征向量可以是例如储存在存储器中的特征向量或以相同方式得出的另一个特征向量。根据相似性，可以得出聚合物的特性。

在一些信号下，存在连续测量的组依赖于对于每一个组不同的各个k链节的每一个k链节的足够的分辨率。在这种情况下，得出特征向量的步骤可以包括识别连续测量的组，并且，相对于各个组，得出代表组的测量特性的一种或更多种特征的值。例如，特征可以包括：测量组的平均值；测量组的周期；测量组的偏差(方差，variance)；测量组的分布；或它们的任何组合。

本发明还可适用于具有较小分辨率的信号，使得一些k链节可以提供仅单个测量或根本没有测量。

如以上所提及的，在一些情况下，相对于至少一个类别，得出的特征向量可以与储存在存储器中的至少一种其他特征向量相比较。在这种情况下，可以在全部或部分得出的特征向量和储存在存储器中的至少一种其他特征向量整体之间，或可替换地，在全部或部分得出的特征向量和储存在存储器中的至少一种其他特征向量的部分之间测定相似性。

该方法可以进一步包括：根据测定的相似性，将从其中得到得出的特征向量的聚合物分类为属于所述类别。这提供了研究的聚合物的特性。

可以根据待测定的聚合物选择储存在存储器中的至少一种其他特征向量，或可替换地，可以使用储存在存储器中的多个其他特征向量的库。

在一些应用中，可以从具有重叠区域的两种或更多种特征向量获得结合的特征向量，其中，在结合的特征向量之间测定得出的特征向量的相似性。结合的特征向量的非重叠区域可以用于测定得出的特征向量之间的相似性，例如，以识别得出的特征向量的特定的局部区域。

因此，所述方法可以用于测定得出的特征向量和一种或更多种特征向量的连续或非连续区域之间的相似性。

在一些应用中，得出的特征向量的多个部分可以与储存的特征向量的全部、部分或多个部分相比较。

如以上所提及的，在其他情况下，得出的特征向量可以与作为使用相同方法得出的特征向量的至少一种其他特征向量相比较。相对于彼此，这提供了研究的多种聚合物的特性识别。在这种情况下，所述方法可以进一步包括将相似特征向量的簇识别为一类，并且将由其得出特征向量的聚合物分类为属于识别的类。

在一个实例中，其中，存在使用相同方法得出的多个其他特征向量，该方法可以进一步包括根据特征向量的重叠部分的相似性，识别从作为共同聚合物的片段的聚合物得出的特征向量。

当将聚合物分类时，该方法可以进一步包括计数属于不同类别的特征向量的数目。这提供了研究的聚合物的群体分析。

当将聚合物分类时，该方法可以进一步包括识别局部区域，其中，得出的特征向量不同于相对于其中聚合物被分类为属于其的类别的特征向量。

在相似的技术中，其中，聚合物具有期望的特性，得出的特征向量可以与储存在存储器中的特征向量相比较，并且相似性的测定包括测定其中得出的特征向量不同于储存在存储器中的至少一种其他特征向量的局部区域。

其中得出的特征向量不同于所期望的局部区域的这种识别提供了在许多应用中非常有力的分析技术，其中聚合物的长序列的相对小的区域中的变化显著。这种技术的一个实例是识别作为多核苷酸的聚合物中的突变。

该方法可以在之前已经做出的一系列测量上进行。可替换地，该方法可以进一步包括：通过纳米孔易位聚合物，以及形成聚合物的测量的连续系列。

分析测量系列的方法可以用于根据分析来评价目标聚合物的存在、不存在或量的方法中。

在这种情况下，聚合物可以包括两种或更多种聚合物的混合物，并且可以测定一种或更多种聚合物的相对量。

评价靶聚合物的存在、不存在或量的方法可以应用至包括以下的方法中的聚合物分析物：将聚合物分析物破碎成聚合物；以及执行评价破碎的聚合物的方法。当聚合物是多核苷酸并且聚合物单元是核苷酸时，可以通过限制性酶破碎聚合物分析物。

分析测量的系列的方法可以应用在包括以下的测定聚合物中的改变的方法中：在一段时期内，通过纳米孔反复易位聚合物；在每一次易位过程中，形成聚合物的测量的连续系列；分析测量的每一系列。在这种情况下，测定得出的特征向量和至少一种其他特征向量之间的相似性的步骤可以包括：(a)测定从测量的各个系列得出的得出特征向量和相同的至少一种其他特征向量之间的相似性，或(b)测定从测量的系列得出的所有得出特征向量之间的相似性。

当聚合物是多核苷酸并且聚合物单元是核苷酸时，该方法可以用于测定修饰碱基或点突变的存在。

通常，这些方法可以用于引导治疗或诊断或用于识别个体。

本发明具有许多应用。一些非限制性实例或应用如下。

本发明可以应用至用于聚合物的分析的单分子标签自由检测系统，例如，纳米孔系统。对于这种系统，通常包括在给出的聚合物位置处被多于一种单体单元影响的识别元件。在这些系统中，提取测量和聚合物序列之间的关系可以具有挑战性或资源需求。

本发明可以应用至任何聚合物分析系统，其中，聚合物标记指明聚合物的特性，并且其中，确切的聚合物序列对于测定所述特性不是必须知晓的。实例包括但不限于：检测单核苷酸多态性(SNP)、存在或不存在特定序列、分组和计数聚合物序列、设计标签和生物标记、以及识别修饰或损坏的DNA。

例如，该方法可以用于测定样品中的靶聚合物分析物的存在、不存在或量。该方法可以用于测量相对于阈值的量。该方法可以用于测定聚合物的混合物中的一种或更多种靶聚合物的相对量。

根据单个样品的分析，该方法可以用于引导治疗或诊断。可替换地，例如，在一段时期内所述方法可以进行多次以监视个体的疾病或改善的进展。例如，在用作治疗诊断时，该方法可以用于监视治疗效能。

例如，所述方法可以用在法医应用中以例如通过测定短串联重复、可变串联重复等的存在来检测线粒体DNA中的SNP用于个体DNA图谱、用于个体的遗传指纹。

在没有评价聚合物的聚合物单元序列的情况下，可以执行所有方法。

附图说明

为了能够更好的理解，现在将通过非限制性实施例，参照附图，来描述本发明的实施方式，其中：

图1是包括纳米孔的测量系统的示意图；

图2是通过测量系统，随着时间测定的事件的信号的绘图；

图3是在包括纳米孔的测量系统中的两种不同多核苷酸的测量的频率分布的图；

图4和图5分别是643链节系数和10245链节系数相对于来自应用至实验得出的电流测量的集合的一阶线性模型的预测值的绘图；

图6是分析包括聚合物测量的输入信号的方法的流程图；

图7是图6的状态检测步骤的流程图；

图8和图9分别是经历状态检测步骤的输入信号和得到的测量系列的绘图；

图10和图11是图6的相似性测定步骤的实施例的流程图；

图12是针对该方法的实施例2，针对由它们的重叠识别的序列的三个片段的特征向量的绘图；

图13是与实施例2中的所有库序列相比较，候选分子的相似性得分的绘图；

图14是与实施例2中的最佳匹配库分子比对的候选分子的绘图；

图15是针对实施例2中的176候选分子的分类的直方图；

图16是该方法的实施例3中的特征向量的曲线图，说明了SNP对于分子13的影响；

图17是针对具有实施例3中的分子13中的三个SNP的176候选分子的分类的直方图；

图18是测定的分子与实施例3中的库特征向量比对的曲线图；

图19是测量值和库特征向量之间的位置解析差异的绘图，说明了实施例3中SNP的位置；

图20是测量值和没有实施例3中SNP的库特征向量之间的位置解析差异的绘图；

图21是数据与该方法的实施例4中一致的标记的最终比对的绘图；

图22是在实施例4中的近似位置337处的候选分子51-60中的位置解析差异的绘图；

图23和图24是通过该方法的实施例5中分别针对两簇和三簇数据集的比对相似性得分上的邻近连接形成的树图；

图25至图27是与针对实施例5中的每一个识别簇的最终比对数据一致的标记的曲线图；

图28和图29是实施例5中分别针对两簇和三簇实验分类的直方图；

图30是通过该方法的实施例6中的比对相似性得分上的邻近连接形成的树图；以及

图31是与针对实施例6中的三个片段的每一个的数据最终比对一致的标记的曲线图。

具体实施方式

可以应用的聚合物如下。

聚合物可以是生物聚合物。聚合物可以是天然的或合成的。聚合物可以是多核苷酸(或核酸)、多肽如蛋白质、多糖、或任何其他聚合物。在多肽的情况下，聚合物单元可以是天然存在或合成的氨基酸。在多糖的情况下，聚合物单元可以是单糖。

可以应用的多核苷酸如下。

多核苷酸如核酸是包含两种或更多种核苷酸的大分子。多核苷酸或核酸可以包括任何核苷酸的任何组合。核苷酸可以是天然存在的或人造的。靶多核苷酸中的一种或更多种核苷酸可以被氧化或甲基化。靶多核苷酸中的一种或更多种核苷酸可以被损坏。靶多核苷酸中的一种或更多种核苷酸可以例如用标签或标记修饰。靶多核苷酸可以包括一个或更多个间隔。

核苷酸通常包含核碱基、糖和至少一个磷酸根基团。核碱基通常是杂环的。核碱基包括但不限于，嘌呤和嘧啶，并且更具体的是腺嘌呤、鸟嘌呤、胸腺嘧啶、尿嘧啶和胞嘧啶。糖通常是戊糖。核苷酸糖包括但不限于，核糖和脱氧核糖。核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常包括单磷酸酯、二磷酸酯或三磷酸酯。磷酸酯可以连接在核苷酸的5′或3′侧上。

核苷酸包括但不限于，腺苷一磷酸(AMP)、腺苷二磷酸(ADP)、腺苷三磷酸(ATP)、鸟苷一磷酸(GMP)、鸟苷二磷酸(GDP)、鸟苷三磷酸(GTP)、胸苷一磷酸(TMP)、胸苷二磷酸(TDP)、胸苷三磷酸(TTP)、尿苷一磷酸(UMP)、尿苷二磷酸(UDP)、尿苷三磷酸(UTP)、胞苷一磷酸(CMP)、胞苷二磷酸(CDP)、胞苷三磷酸(CTP)、5-甲基胞苷一磷酸、5-甲基胞苷二磷酸、5-甲基胞苷三磷酸、5-羟甲基胞苷一磷酸、5-羟甲基胞苷二磷酸、5-羟甲基胞苷三磷酸、环腺苷一磷酸(cAMP)、环鸟苷一磷酸(cGMP)、脱氧腺苷一磷酸(dAMP)、脱氧腺苷二磷酸(dADP)、脱氧腺苷三磷酸(dATP)、脱氧鸟苷一磷酸(dGMP)、脱氧鸟苷二磷酸(dGDP)、脱氧鸟苷三磷酸(dGTP)、脱氧胸苷一磷酸(dTMP)、脱氧胸苷二磷酸(dTDP)、脱氧胸苷三磷酸(dTTP)、脱氧尿苷一磷酸(dUMP)、脱氧尿苷二磷酸(dUDP)、脱氧尿苷三磷酸(dUTP)、脱氧胞苷一磷酸(dCMP)、脱氧胞苷二磷酸(dCDP)以及脱氧胞苷三磷酸(dCTP)、5-甲基-2′-脱氧胞苷一磷酸、5-甲基-2′-脱氧胞苷二磷酸、5-甲基-2′-脱氧胞苷三磷酸、5-羟甲基-2′-脱氧胞苷一磷酸、5-羟甲基-2′-脱氧胞苷二磷酸以及5-羟甲基-2′-脱氧胞苷三磷酸。核苷酸优选选自AMP、TMP、GMP、UMP、dAMP、dTMP、dGMP、或dCMP。核苷酸可以是无碱基的(即，缺乏核碱基)。核苷酸可以包括其他修饰。特别地，合适的修饰的核苷酸包括但不限于，2′-氨基嘧啶(如，2′-氨基胞苷和2′-氨基尿苷)、2′-羟基嘌呤(如，2′-氟嘧啶(如，2′-氟胞苷和2′-氟尿苷)、羟基嘧啶(如，5′-α-P-borano尿苷)、2′-O-甲基核苷酸(如，2′-O-甲基腺苷、2′-O-甲基鸟苷、2′-O-甲基胞苷和2′-O-甲基尿苷)、4′-硫代嘧啶(如，4′-硫代尿苷和4′-硫代胞苷)以及核苷酸具有核碱基的修饰(如，5-戊炔基-2′-脱氧尿苷、5-(3-氨基丙基)-尿苷和1,6-二氨基己基-N-5-氨基甲酰基甲基尿苷)。

核苷酸可以是无碱基的(即，缺乏核碱基)。

多核苷酸可以是单链或双链。多核苷酸可以包括一种或更多种双链区域以及一种或更多种单链区域。多核苷酸可以是核酸，如脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶多核苷酸可以包括杂交至DNA的一条链的RNA的一条链。多核苷酸可以是本领域中已知的任何合成核酸，如肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁定的核酸(LNA)或具有核苷酸侧链的其他合成聚合物。

使用该方法可以表征全部或仅部分的靶多核苷酸。靶多核苷酸可以是任何长度。例如，多核苷酸的长度可以是至少10、至少50、至少100、至少150、至少200、至少250、至少300、至少400、或至少500个核苷酸对。多核苷酸的长度可以是1000或更多个核苷酸对、5000或更多个核苷酸对，或长度是100000或更多个核苷酸对。

靶多核苷酸存在于任何合适的样品中。本发明通常在已知包括或疑似包括靶多核苷酸的样品上进行。可替换地，本发明可以在样品上进行以确认它们在样品中的存在是已知或期望的一种或更多种靶多核苷酸的特性。

可以研究的样品如下。

样品可以是生物样品。本发明可以在从任何生物或微生物获得或提取的样品上体外进行。生物或微生物通常是古生物、原核生物或真核生物，并且通常属于五界之一：植物界、动物界、真菌界、原核生物界和原生生物界。本发明可以在从任何病毒获得或提取的样品上体外进行。样品优选是流体样品。样品的原始状态可以是固体或半固体，其随后被处理以提供流体样品。这种的实例是排泄物、皮肤、组织、毛发、骨和肌肉。样品通常包括患者的体液。样品可以选自例如尿、血液、血浆、血清、淋巴液、唾液、间隙液、泪液、粘液或羊水。通常，样品是人源的，但可替换地，其可以来自其他哺乳动物，如来自商业农场动物，如马、牛、绵羊或猪，或可以可替换地是宠物，如猫或狗。可替换地，植物来源的样品通常从以下获得：经济作物，如谷类、豆类、水果或蔬菜，例如，小麦、大麦、燕麦、芸苔、玉米、大豆、水稻、香蕉、苹果、西红柿、土豆、葡萄、烟草、黄豆、扁豆、甘蔗、可可、棉花。

样品可以是非生物样品。非生物样品优选是流体样品。非生物样品的实例包括手术流体，水如饮用水、海水或河水，以及工业样品，如用于实验室试验的试剂、从聚合物试剂的合成获得的样品。

通常在测定之前处理样品，例如，通过离心法或通过经过过滤掉不想要的分子或细胞如红血细胞的膜。样品可以在被取出时立即测量。在测定之前，样品通常还可以被储存，优选地，在-70℃以下。

还可以对样品进行在US 61/490860中提出的任何处理、设计或修饰。

可以用在测量系统中的膜如下。

根据本发明，可以使用任何膜。合适的膜在本领域中众所周知。膜优选是两亲性层。两亲性层是由两亲性分子如磷脂形成的层，其具有亲水性和亲油性。两亲性层可以是单层或双层。膜可以是共嵌段聚合物如由(Gonzalez-Perez et al.,Langmuir,2009,25,10447-10450)所公开的。

膜可以是脂双层。脂双层是细胞膜的模型，并且对于一系列实验研究起优异平台的作用。例如，通过单通道记录，脂双层可以用于膜蛋白的体外研究。可替换地，脂双层可以用作生物传感器以检测一系列物质的存在。合适的两亲性层包括但不限于，平面脂双层、支撑双层或脂质体。脂双层优选是平面脂双层。国际申请号PCT/GB08/000563(以WO 2008/102121公开)、国际申请号PCT/GB08/004127(以WO 2009/077734公开)以及国际申请号PCT/GB2006/001057(以2006/100484公开)中公开了合适的脂双层。

用于形成脂双层的方法在本领域中是已知的。实施例中公开了合适的方法。通常通过Montal和Mueller的方法(Proc.Natl.Acad.Sci.USA.,1972；69:3561-3566)形成脂双层，其中，在穿过垂直于界面的孔的任一侧的水溶液/空气界面上形成脂单层。

Montal和Mueller的方法普遍使用，因为该方法是形成适合蛋白孔插入的良好质量的脂双层的具有成本效益并且相对直接的方法。双层形成的其他常见方法包括尖部浸渍、涂漆双层以及脂质体双层的膜片夹紧。

在一个优选的实施方式中，如在国际申请号PCT/GB08/004127(以WO 2009/077734公布)中所描述的形成两亲性层。

在另一个优选的实施方式中，膜是固态层。固态层不是生物起源。换句话说，固态层不是获得自或分离自生物环境，如生物或细胞，或生物可获得结构的合成制造版本。可以从包括但不限于以下的有机或无机物质形成固态层：微电子材料，绝缘材料如Si₃N₄、Al₂O₃以及SiO，有机和无机聚合物如聚酰胺，塑料如或弹性体如双组分加成固化硅橡胶，以及玻璃。固态层可以由单原子层如石墨、或仅几个原子厚度的层形成。国际申请号PCT/US2008/010637(以WO 2009/035647公开)中公开了合适的石墨层。固态膜还可以支撑由生物材料获得的纳米孔，Hall等(Nat Nanotechnol.2010 Dec；5(12):874-7)和Bell等(Nano Lett.2012 Jan11；12(1):512-7)以及国际申请号PCT/US2011/039621(以WO/2012/005857公开)已经公开了非限制性实例。

该方法通常使用(i)包括孔的人造两亲性层，(ii)包括孔的分离的、天然存在的两亲性层；或(iii)具有插入在其中的孔的单元来进行。该方法优选使用人造两亲性层来进行。双层可以包括除了孔之外的其他跨膜和/或膜内蛋白以及其他分子。以下讨论了合适的装置和条件。本发明的方法通常在体外进行。

可以应用的纳米孔如下。

测量系统包括纳米孔。在聚合物通过纳米孔的易位过程中进行测量。聚合物通过纳米孔的易位产生可以观察到的测量性能中的特性信号，并且可以整体被称为“事件”。

纳米孔是通常具有广泛地说纳米级的尺寸的孔，其允许聚合物通过其中。在此，提及“孔”是指该意义上的纳米孔。

纳米孔可以是生物孔或固态孔。

固态孔通常是固态层中的孔。固态孔可以与提供聚合物的替换或附加测量的其他组件如隧道电极(Ivanov AP et al.,Nano Lett.2011 Jan12；11(1):279-85)，或场效应晶体管(FET)器件(国际申请WO 2005/124888)结合使用。可以通过包括例如WO 00/79257中描述的那些的已知方法形成固态孔。

纳米孔优选是跨膜蛋白孔。跨膜蛋白孔是允许水合离子从膜的一侧流向膜的另一侧的多肽或多肽集合。在本发明中，跨膜蛋白孔能够形成允许通过施加的电压驱动的水合离子从膜的一侧流向另一侧的孔。跨膜蛋白孔允许聚合物如DNA或RNA通过孔移动。

跨膜蛋白孔可以是单体或低聚物。孔优选由几个重复亚基如6、7或8个亚基组成。孔更优选是七聚体或八聚体孔。

跨膜蛋白孔通常包括通过其离子可以流动的桶或通道。孔的亚基通常围绕中心轴并且有助于与跨膜β桶或通道或跨膜α螺旋束或通道成链。

跨膜蛋白孔的桶或通道通常包括促进与分析物如聚合物、核苷酸、多核苷酸或核酸的相互作用的氨基酸。这些氨基酸优选位于桶或通道的收缩部附近。跨膜蛋白孔通常包括一种或更多种带正电荷的氨基酸，如精氨酸、赖氨酸或组氨酸，或芳香族氨基酸，如酪氨酸或色氨酸。这些氨基酸通常促进孔和聚合物、核苷酸、多核苷酸或核酸之间的相互作用。

根据本发明使用的跨膜蛋白孔可以获得自β桶孔或α螺旋束孔。β桶孔包括桶或由β链形成的通道。合适的β桶孔包括但不限于，α-毒素，如α-溶血素、炭疽毒素和杀白细胞素，以及细菌的外膜蛋白/孔蛋白，如耻垢分枝杆菌孔蛋白(Msp)，例如，MspA，外膜孔蛋白F(OmpF)、外膜孔蛋白G(OmpG)、外膜磷脂酶A以及奈瑟球菌属(Neisseria)自转运脂蛋白脂蛋白(NalP)。α-螺旋束孔包含由α-螺旋形成的桶或通道。合适的α-螺旋束孔包括但不限于，内膜蛋白和外膜蛋白，如WZA和ClyA毒素。跨膜孔可以获得自Msp或获得自α-溶血素(α-HL)。

跨膜蛋白孔优选获得自Msp，优选地，获得自MspA。这种孔将是低聚物并且通常包括获得自Msp的7、8、9或10个单体。孔可以是获得自包括相同单体的Msp的同源低聚孔。可替换地，孔可以是获得自包括不同于其他的至少一种单体的Msp的杂低聚孔。优选地，孔获得自MspA或其同系物或横向同源物(paralog)。

获得自Msp的单体包括SEQ ID NO:2中示出的序列或其变体。SEQ ID NO:2是MspA单体的MS-(B1)8突变体。它包括以下突变：D90N、D91N、D93N、D118R、D134R和E139K。SEQ IDNO:2的变体是具有不同于SEQ ID NO:2并且保留其形成孔的能力的氨基酸序列的多肽。可以使用本领域中已知的任何方法测定变体形成孔的能力。例如，可以随同其他适当的亚基一起将变体插入脂双层中，并且可以测定其寡聚化以形成孔的能力。用于将亚基插入膜如脂双层中的方法在本领域中是已知的。例如，亚基可以以纯化形式悬浮在包含脂双层的溶液中，使得其扩散至脂双层并且通过结合至脂双层并且组装成功能状态而插入。可替换地,可以使用M.A.Holden,H.Bayley.J.Am.Chem.Soc.2005,127,6502-6503和国际申请号PCT/GB2006/001057(以WO 2006/100484公开)中描述的“拾取放置(pick and place)”方法将亚基直接插入膜中。

在SEQ ID NO:2的整个氨基酸序列长度上，基于氨基酸一致性，变体将优选与该序列至少50％同源。更优选地，基于氨基酸一致性，变体可以与SEQ ID NO:2的氨基酸序列在整个序列上至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％，并且更优选至少95％、97％或99％同源。在100或更多，例如125、150、175或200或更多个连续氨基酸的延伸中，可以存在至少80％，例如至少85％、90％或95％的氨基酸一致性(“硬同源性”)。

本领域中的标准方法可以用于确定同源性。例如，UWGCG软件包提供了可以用于计算同源性的BESTFIT程序(例如，使用它的默认设置)(Devereux et al(1984)NucleicAcids Research 12，p387-395)。例如，如Altschul S.F.(1993)J Mol Evol 36:290-300；Altschul,S,F et al(1990)J Mol Biol 215:403-10中描述的，PILEUP和BLAST算法可以用于计算同源性或对序列进行比对(如，识别等价残基或相应的序列(通常，使用它们的默认设置))。用于进行BLAST分析的软件公众可以从美国国家生物技术信息中心(NationalCenter for Biotechnology Information)(http://www.ncbi.nlm.nih.gov/)获得。

SEQ ID NO:2是MspA单体的MS-(B1)8突变体。变体可以包括与MspA相比较的MspB、C或D单体中的任何突变。MspB、C和D的成熟形式示出在SEQ ID NO:15至17中。特别地，变体可以包括存在于MspB中的以下取代：A138P。变体可以包括存在于MspC中的一种或更多种以下取代：A96G、N102E和A138P。变体可以包括存在于MspD中的一种或更多种以下突变：缺失G1、L2V、E5Q、L8V、D13G、W21A、D22E、K47T、I49H、I68V、D91G、A96Q、N102D、S103T、V104I、S136K和G141A。变体可以包括一种或更多种突变和来自Msp B、C以及D的取代的组合。变体可以包括突变L88N。除了MS-B1的所有突变之外，SEQ IDNO:2的变体具有突变L88N，并且被称为MS-B2。用于本发明中的孔可以是MS-(B2)8或MS-(B2C)8。

除了以上所讨论的那些，可以对SEQ ID NO:2的氨基酸序列进行氨基酸取代，例如最高达1、2、3、4、5、10、20或30个取代。保守取代用相似化学结构、相似化学性能或相似侧链体积的其他氨基酸代替氨基酸。引入的氨基酸可以与它们替换的氨基酸具有相似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可替换地，保守取代可以引入芳香族或脂肪族的其他氨基酸以替代之前存在的芳香族或脂肪族氨基酸。保守氨基酸变化在本领域中众所周知并且可以根据以下表2中限定的20种主要氨基酸的性能进行选择。在氨基酸具有相似的极性时，这还可以通过参考表3中的氨基酸侧链的疏水尺度来确定。

表2-氨基酸的化学性能：

表3-亲水尺度：

可以从以上描述的多肽中额外缺失SEQ ID NO:2的氨基酸序列的一个或更多个氨基酸残基。可以缺失最高达1、2、3、4、5、10、20或30个残基，或更多个。

变体可以包括SEQ ID NO:2的片段。这种片段保留了孔形成活性。片段长度可以为至少50、100、150或200个氨基酸。这种片段可以用于生产孔。片段优选地包括SEQ ID NO:2的孔形成结构域。片段必须包括SEQ ID NO:2的残基88、90、91、105、118和134之一。通常，片段包括SEQ ID NO:2的所有残基88、90、91、105、118和134。

可以将一个或更多个氨基酸可替换地或额外地加至以上描述的多肽。在SEQ IDNO:2的氨基酸序列或其多肽变体或片段的氨基端或羧基端，可以提供一段延长片段(extension)。延长片段可以非常短，例如长度为1至10个氨基酸。可替换地，延长片段可以较长，例如最高达50或100个氨基酸。根据本发明，可以将载体蛋白融合于氨基酸序列。以下更详细地讨论了其他融合蛋白。

如以上所讨论的，变体是具有不同于SEQ ID NO:2并且保留其形成孔的能力的氨基酸序列的多肽。变体通常包括负责孔形成的SEQ ID NO:2的区域。在每个亚基中，β-片提供了包括β-桶的Msp的孔形成能力。SEQ ID NO:2的变体通常包括形成β-片的SEQ ID NO:2中的区域。只要生成的变体保留它的形成孔的能力，可以对形成β-片的SEQ ID NO:2的区域进行一种或更多种修饰。SEQ ID NO:2的变体优选在其α-螺旋和/或环区中包括一种或更多种修饰,如取代、添加或缺失。

可以修饰获得自Msp的单体以有助于它们的识别或纯化，例如通过添加组氨酸残基(hist标签)、天冬氨酸残基(asp标签)、链亲和素标签或flag标签，或通过添加信号序列以促进从其中多肽天然地不含这种序列的细胞中它们的分泌。引入遗传标记的可替换方案是将标签化学反应到孔上的天然或工程化位置上。这种的实例将是使凝胶位移试剂与设计在孔的外面的半胱氨酸反应。这已经被证明是用于分离溶血素杂低聚物的方法(ChemBiol.1997 Jul；4(7):497-505)。

获得自Msp的单体可以用显示标签标记。显示标签可以是允许孔被检测的任何合适标签。合适的标签包括但不限于，荧光分子；放射性同位素例如125I、35S；酶；抗体；抗原；多核苷酸；以及配体如生物素。

获得自Msp的单体还可以使用D-氨基酸生产。例如，获得自Msp的单体可以包括L-氨基酸和D-氨基酸的混合物。在本领域中，这类蛋白或肽的生产是常规的。

获得自Msp的单体包括一种或更多种具体修饰以促进核苷酸区别。只要它们不干扰孔形成，获得自Msp的单体还可以包括其他非特异性修饰。许多非特异性侧链修饰在本领域中是已知的并且可以在获得自Msp的单体的侧链上进行。这种修饰包括，例如通过与醛的反应，随后通过用NaBH₄还原，用甲基乙酰亚氨酸(methylacetimidate)进行脒化(amidination)，或用乙酸酐进行酰化，的氨基酸的还原烷基化。

获得自Msp的单体可以使用本领域中已知的标准方法生产。获得自Msp的单体可以通过合成或通过重组方法制备。例如，可以通过体外翻译和转录(IVTT)合成孔。国际申请号PCT/GB09/001690(以WO 2010/004273公开)、PCT/GB09/001679(以WO 2010/004265公开)或PCT/GB10/000133(以2010/086603公开)中讨论了用于生产孔的合适方法。讨论了用于将孔插入膜中的方法。

跨膜蛋白孔还优选获得自α-溶血素(α-HL)。野生型α-HL孔由7个相同的单体或亚基形成(即，其是七聚体)。α-溶血素-NN的一个单体或亚基的序列示出在SEQ ID NO:4中。跨膜蛋白孔优选包括七个单体，每一个包括示出在SEQ ID NO:4中的序列或其变体。SEQ IDNO:4的氨基酸1、7至21、31至34、45至51、63至66、72、92至97、104至111、124至136、149至153、160至164、173至206、210至213、217、218、223至228、236至242、262至265、272至274、287至290以及294形成环区。SEQ ID NO:4的残基113和147形成α-HL的桶或通道的收缩部的一部分。

在这种实施方式中，包括各自包含示出在SEQ ID NO:4中的序列或其变体的七个蛋白或单体的孔优选用在本发明的方法中。七个蛋白可以相同(均七聚体)或不同(杂七聚体)。

SEQ ID NO:4的变体是具有不同于SEQ ID NO:4并且保留其形成孔的能力的氨基酸序列的蛋白。可以使用本领域中已知的任何方法测定变体形成孔的能力。例如，可以随同其他适当的亚基一起将变体插入脂双层中，并且可以测定其寡聚化以形成孔的能力。用于将亚基插入膜如脂双层中的方法在本领域中是已知的。以上讨论了合适的方法。

变体可以包括促进共价连接至解旋酶或与解旋酶相互作用的修饰。变体优选包括促进连接至解旋酶的一种或更多种反应性半胱氨酸残基。例如，变体可以在SEQ ID NO：4的位置8、9、17、18、19、44、45、50、51、237、239和287的一处或更多处和/或在氨基末端或羧基末端处包括半胱氨酸。优选的变体包括用半胱氨酸对SEQ ID NO：4的位置8、9、17、237、239和287处的残基的取代(A8C、T9C、N17C、K237C、S239C或E287C)。变体优选是国际申请号PCT/GB09/001690(以WO 2010/004273公开)、PCT/GB09/001679(以WO 2010/004265公开)或PCT/GB10/000133(以2010/086603公开)中描述的任何一种变体。

变体还可以包括促进与核苷酸的任何相互作用的修饰。

变体可以是通过生物体例如通过葡萄球菌细菌天然表达的天然存在的变体。可替换地，变体可以体外表达或通过细菌如大肠杆菌重组表达。变体还包括通过重组技术产生的非天然存在的变体。在SEQ ID NO:4的整个氨基酸序列长度上，基于氨基酸一致性，变体将优选与该序列至少50％同源。更优选地，基于氨基酸一致性，变体多肽可以与SEQ ID NO:4的氨基酸序列在整个序列上至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％，并且更优选至少95％、97％或99％同源。在200或更多，例如230、250、270或280或更多个连续氨基酸的延伸中，可以存在至少80％，例如至少85％、90％或95％的氨基酸一致性(“硬同源性”)。可以如以上所讨论的来确定同源性。

除了以上所讨论的那些，可以对SEQ ID NO:4的氨基酸序列进行氨基酸取代，例如最高达至1、2、3、4、5、10、20或30个取代。可以如以上所讨论的来进行保守取代。

可以从以上描述的多肽中额外缺失SEQ ID NO:4的氨基酸序列的一个或更多个氨基酸残基。可以缺失最高达1、2、3、4、5、10、20或30个残基，或更多个。

变体可以是SEQ ID NO:4的片段。这种片段保留了孔形成活性。片段长度可以为至少50、100、200或250个氨基酸。片段优选地包括SEQ ID NO:4的孔形成结构域。片段通常包括SEQ ID NO:4的残基119、121、135、113和139。

可以将一个或更多个氨基酸可替换地或额外地加至以上描述的多肽。在SEQ IDNO:4的氨基酸序列或其变体或片段的氨基端或羧基端，可以提供延长片段。延长片段可以非常短，例如长度为1至10个氨基酸。可替换地，延长片段可以较长，例如最高达50或100个氨基酸。可以将载体蛋白融合至孔或变体。

如以上所讨论的，SEQ ID NO:4的变体是具有不同于SEQ ID NO:4并且保留其形成孔的能力的氨基酸序列的亚基。变体通常包括负责孔形成的SEQ ID NO:4的区域。在每个亚基中，β-链提供了包括β-桶的α-HL的孔形成能力。SEQ ID NO:4的变体通常包括形成β-链的SEQ ID NO:4中的区域。以上讨论了形成β-链的SEQ ID NO:4的氨基酸。只要生成的变体保留它的形成孔的能力，可以对形成β-链的SEQ ID NO:4的区域进行一种或更多种修饰。以上讨论了可以对SEQ ID NO:4的β-链区域进行的特异性修饰。

SEQ ID NO:4的变体优选在其α-螺旋和/或环区中包括一种或更多种修饰,如取代、添加或缺失。以上讨论了形成α-螺旋和环的氨基酸。

可以如以上所讨论的，修饰变体以有助于其识别或纯化。

可以参考获得自Msp的孔，如以上所讨论的来制备获得自α-HL的孔。

在一些实施方式中，化学修饰跨膜蛋白孔。可以以任何方式并且在任何位点化学修饰孔。优选地，通过将分子附接至一个或更多个半胱氨酸(半胱氨酸连接)、将分子附接至一个或更多个赖氨酸、将分子附接至一个或更多个非天然氨基酸，表位的酶修饰或末端的修饰，来化学修饰跨膜蛋白孔。本领域中众所周知用于进行这种修饰的合适方法。可以通过任何分子的附接，来化学修饰跨膜蛋白孔。例如，可以通过附接染料或荧光团来化学修饰孔。

可以化学修饰孔中的任何数量的单体。优选地，如以上所讨论的化学修饰一种或更多种，如2、3、4、5、6、7、8、9或10种单体。

如在国际申请号PCT/GB09/001690(以WO 2010/004273公开)、PCT/GB09/001679(以WO 2010/004265公开)或PCT/GB10/000133(以WO 2010/086603公开)中公开的，分子(用其化学修饰孔)可以直接附接至孔或通过接头附接。

可以使用的棘轮如下。

聚合物通过纳米孔的易位可以以棘轮的方式进行。在这种情况下，用纳米孔记录聚合物的连续k链节。以这种方式，每次测量依赖于特定的k链节。如果记录保持足够长的时间，那么多个测量的组将依赖于特定的k链节。根据易位的性质，记录的周期可以是不可预知的并且长度可以变化。根据记录的周期，相对于测量采样速率，可能的是不存在依赖于序列中的每一个k链节的多个测量，或甚至是信号测量。

可以通过控制聚合物通过孔运动的分子棘轮来控制聚合物的易位。分子棘轮可以是聚合物结合蛋白。对于多核苷酸，多核苷酸结合蛋白优选是多核苷酸处理酶。多核苷酸处理酶是能够与多核苷酸的至少一种性能相互作用并且修饰多核苷酸的至少一种性能的多肽。酶可以通过切割多核苷酸以形成单个核苷酸或较短链的核苷酸如二-或三核苷酸来修饰多核苷酸。酶可以通过将多核苷酸取向或将其移动至特定位置来修饰多核苷酸。只要多核苷酸处理酶能够结合靶多核苷酸并且控制其移动通过孔，多核苷酸处理酶不需要显示酶活性。例如，酶可以被修饰以移除其酶活性或可以在防止其起酶的作用的条件下使用。以下更详细地讨论了这种条件。

多核苷酸处理酶可以获得自溶核酶(nucleolytic enzyme)。用于酶构造该酶的多核苷酸处理酶更优选获得自酶分类(EC)组3.1.11、3.1.13、3.1.14、3.1.15、3.1.16、3.1.21、3.1.22、3.1.25、3.1.26、3.1.27、3.1.30和3.1.31中的任何成员。酶可以是国际申请号PCT/GB10/000133(以WO2010/086603公开)中公开的那些中的任何酶。

优选的酶是聚合酶、外切核酸酶、解旋酶和拓扑异构酶如促旋酶。合适的酶包括但不限于,来自大肠杆菌的外切核酸酶I(SEQ ID NO:8)、来自大肠杆菌的外切核酸酶III酶(SEQ ID NO:10)、来自T.thermophilus的RecJ(SEQ ID NO:12)以及细菌噬菌体λ外切核酸酶(SEQ ID NO:14)及它们的变体。包括示出在SEQ ID NO:14中的序列或其变体的三个亚基相互作用以形成三聚体外切核酸酶。酶优选获得自Phi29 DNA聚合酶。获得自Phi29聚合酶的酶包括示出在SEQ ID NO:6中的序列或其变体。

SEQ ID NO:6、8、10、12或14的变体是具有不同于SEQ ID NO:6、8、10、12或14并且保留多核苷酸结合能力的氨基酸序列的酶。变体可以包括促进结合多核苷酸和/或促进其在高盐浓度和/或室温下的活性的修饰。

在SEQ ID NO:6、8、10、12或14的整个氨基酸序列长度上，基于氨基酸一致性，变体将优选与该序列至少50％同源。更优选地，基于氨基酸一致性，变体多肽可以与SEQ ID NO:6、8、10、12或14的氨基酸序列在整个序列上至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％，并且更优选至少95％、97％或99％同源。在200或更多，例如230、250、270或280或更多个连续氨基酸的延伸中，可以存在至少80％，例如至少85％、90％或95％的氨基酸一致性(“硬同源性”)。如以上所描述的确定同源性。相对于SEQID NO:2，变体可以以以上所讨论的任何方式不同于野生型序列。如以上所讨论的酶可以共价连接至孔。

用于单链DNA测序的两种策略是DNA通过纳米孔易位，顺至反和反至顺，顺着或逆着施加电压。链测序的最有利的机制是在施加电压下控制单链DNA通过纳米孔易位。进行地或持续地作用在双链DNA上的外切核酸酶可以用在孔的顺侧上以在施加电压下进料其余的单链，或在反向电压下反侧进料。同样，也可以以相似方式使用解开双链DNA的解旋酶。对于逆着施加电压下要求链易位的测序应用也存在可能性，但在反向电压或无电压下，DNA必须被酶首先“捕捉”。然后，在粘结后电压切换返回时，链将顺侧至反侧地通过孔，并且通过电流保持在伸展构象中。单链DNA外切核酸酶或单链DNA依赖性聚合酶可以起分子发动机的作用从而以控制的逐步方式、反侧至顺侧、逆着施加电压，将最近易位的单链拉回通过孔。可替换地，单链DNA依赖性聚合酶可以起减缓多核苷酸移动通过孔的分子刹车的作用。

在一个优选的实施方式中，使用获得自Msp和Phi29 DNA聚合酶的孔进行链测序。该方法包括：(a)将多核苷酸加入至溶液；(b)允许靶多核苷酸与检测器在膜中相互作用，其中，检测器包括获得自Msp和Phi29DNA聚合酶的孔，使得聚合酶控制靶多核苷酸移动通过孔以及靶多核苷酸中一定比例的核苷酸与孔相互作用；以及(c)测量在每一次相互作用过程中通过孔的电流，从而测定靶多核苷酸的序列，其中，使用横过孔施加的电压来进行步骤(b)和(c)。当靶多核苷酸与Phi29 DNA聚合酶和获得自Msp的孔接触时，靶多核苷酸首先与Phi29 DNA聚合酶形成络合物。当横过孔施加电压时，靶多核苷酸/Phi29 DNA聚合酶络合物形成与孔的络合物，并且控制靶多核苷酸移动通过孔。

野生型Phi29 DNA聚合酶具有聚合酶和外切核酸酶活性。它还可以在正确条件下拉开双链多核苷酸。因此，酶可以以三种模式起作用。这将在以下更详细地讨论。

Phi29 DNA聚合酶可以包括示出在SEQ ID NO:6中的序列或其变体。SEQ ID NO:6的变体是具有不同于SEQ ID NO:6并且保留多核苷酸结合活性的氨基酸序列的酶。变体必须在以下讨论的三种模式中的至少一种中起作用。优选地，变体以所有三种模式起作用。变体可以包括促进处理多核苷酸和/或促进其在高盐浓度和/或室温下的活性的修饰。

在SEQ ID NO:6的整个氨基酸序列长度上，基于氨基酸一致性，变体将优选与该序列至少40％同源。更优选地，基于氨基酸一致性，变体多肽可以与SEQ ID NO:6的氨基酸序列在整个序列上至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％，并且更优选至少95％、97％或99％同源。在200或更多，例如230、250、270或280或更多个连续氨基酸的延伸中，可以存在至少80％，例如至少85％、90％或95％的氨基酸一致性(“硬同源性”)。如以上所描述的确定同源性。相对于SEQ ID NO:2，变体可以以以上所讨论的任何方式不同于野生型序列。

根据该优选的实施方式，可以使用以上所讨论的任何系统、装置或条件。盐浓度通常为0.15M至0.6M。盐优选为KCl。

根据Phi29 DNA聚合酶的三种模式，所述方法可以以三种优选方式之一进行。每一种方式包括校对序列的方法。首先，所述方法优选使用Phi29 DNA聚合酶作为聚合酶来进行。在该实施方式中，步骤(b)和(c)在游离核苷酸和酶辅助因子的存在下进行，使得聚合酶逆着由施加的电压产生的场，移动靶多核苷酸通过孔。靶多核苷酸在5′至3′方向上移动。游离核苷酸可以是以上讨论的任何单个核苷酸的一种或更多种。酶辅助因子是允许Phi29DNA聚合酶起聚合酶或外切核酸酶作用的因子。酶辅助因子优选二价金属阳离子。二价金属阳离子优选Mg²⁺、Mn²⁺、Ca²⁺或Co²⁺。酶辅助因子最优选Mg²⁺。该方法优选进一步包括：(d)去除游离核苷酸，使得顺着由施加的电压产生的场(即，在3′和5′方向上)，聚合酶移动靶多核苷酸通过孔，并且靶多核苷酸中的一定比例的核苷酸与孔相互作用，以及(e)测量在每一次相互作用过程中通过孔的电流，从而校对步骤(c)中获得的靶多核苷酸的序列，其中，步骤(d)和(e)也可以顺着横过孔施加的电压来进行。

其次，所述方法优选使用Phi29 DNA聚合酶作为外切核酸酶来进行。在该实施方式中，其中，步骤(b)和(c)在不存在游离核苷酸和存在酶辅助因子下进行，使得聚合酶顺着由施加的电压产生的场，移动靶多核苷酸通过孔。靶多核苷酸在3′至5′方向上移动。该方法优选进一步包括：(d)加入游离核苷酸，使得逆着由施加的电压产生的场(即，在5′至3′方向上)，聚合酶移动靶多核苷酸通过孔，并且靶多核苷酸中的一定比例的核苷酸与孔相互作用，以及(e)测量在每一次相互作用过程中通过孔的电流，从而校对步骤(c)中获得的靶多核苷酸的序列，其中，步骤(d)和(e)也可以顺着横过孔施加的电压来进行。

再次，所述方法优选使用Phi29 DNA聚合酶以拉开模式来进行。在该实施方式中，步骤(b)和(c)在不存在游离核苷酸并且不存在酶辅助因子下进行，使得聚合酶顺着由施加的电压产生的场，控制靶多核苷酸移动通过孔(由于其被拉开)。在该实施方式中，在施加的电压的影响下，聚合酶起类似于阻止靶多核苷酸过快地移动通过孔的刹车作用。该方法优选进一步包括：(d)降低横过孔施加的电压，使得靶多核苷酸在步骤(b)和(c)的相反方向上移动通过孔(即，由于其再退火)，并且靶多核苷酸中的一定比例的核苷酸与孔相互作用，以及(e)测量在每一次相互作用过程中通过孔的电流，从而校对步骤(c)中获得的靶多核苷酸的序列，其中，步骤(d)和(e)也可以顺着横过孔施加的电压来进行。

在另一个优选的实施方式中，解旋酶用作多核苷酸的棘轮(例如，如在通过引用合并于此的US 61/549,998(N115020)、US 61/581,332(N115505)、US 61/581,340中公开的)。已经表明的是，解旋酶具有令人惊讶地高耐盐性。解旋酶可以在两个方向上移动靶多核苷酸，即顺着或逆着由施加的电压产生的场。因此，所述方法可以以两种优选的模式之一进行。根据靶多核苷酸移动通过孔的方向，即在场方向上或逆着场方向上，获得不同的信号。解旋酶通常移动靶多核苷酸通过孔，一次一个核苷酸。因此，解旋酶可以起类似于单碱基棘轮的作用。当然，由于基本上全部，如果不是全部，的靶多核苷酸中的核苷酸使用孔可以识别，当测序靶多核苷酸时这是有利的。解旋酶能够控制单链多核苷酸和双链多核苷酸的运动。解旋酶表现出对于由施加的电压产生的场非常具有耐受性。观察到了在“拉开”条件下多核苷酸的非常小的运动。这是重要的，因为其意味着当逆着由施加的电压产生的场移动多核苷酸时，不存在来自不希望的“向后”的复杂情况。

该方法包括：(a)使靶多核苷酸与跨膜孔和解旋酶接触，使得解旋酶控制靶多核苷酸移动通过孔并且靶多核苷酸中的核苷酸与孔相互作用；以及(b)测量在一次或更多次相互作用过程中通过孔的电流以测量靶多核苷酸的一个或更多个特性，从而表征靶多核苷酸。

如以上所讨论的，相对于纳米孔，解旋酶可以以两种模式起作用。对于在3′至5′方向上易位的解旋酶，两种模式如下。首先，所述方法优选使用解旋酶来进行，使得解旋酶顺着由施加的电压产生的场，移动靶序列通过孔。在该模式中，DNA的3′端首先在纳米孔中捕获，并且酶移动DNA进入纳米孔，使得靶序列顺着场通过纳米孔直至其最终通过双层的反侧易位。可替换地，所述方法优选地进行，使得酶逆着由施加的电压产生的场，移动靶序列通过孔。在该模式中，DNA的5′端首先在纳米孔中捕获，并且酶移动DNA通过纳米孔，使得靶序列逆着施加的场从纳米孔中拉出直至最终排出返回至双层的顺侧。

对于在5′至3′方向上易位的解旋酶，两种模式如下。首先，所述方法优选使用解旋酶来进行，使得解旋酶顺着由施加的电压产生的场，移动靶序列通过孔。在该模式中，DNA的5′端首先在纳米孔中捕获，并且酶移动DNA进入纳米孔，使得靶序列顺着场通过纳米孔直至其最终易位通过至双层的反侧。可替换地，所述方法优选地进行，使得酶逆着由施加的电压产生的场，移动靶序列通过孔。在该模式中，DNA的3′端首先在纳米孔中捕获，并且酶移动DNA通过纳米孔，使得靶序列逆着施加的场从纳米孔拉出直至最终排出返回至双层的顺侧。

可以使用的测量系统如下。

可以使用适合用于研究其中将孔插入膜中的膜/孔系统的任何装置来执行所述方法。该方法可以使用适合用于跨膜孔传感的任何装置来进行。例如，装置包括含有水溶液和将区室分离成两部分的阻挡层的区室。阻挡层具有其中形成包括细孔的膜的孔。

该方法可以使用国际申请号PCT/GB08/000562(WO 2008/102120)中描述的装置来进行。

该方法可以包括测量在与核苷酸的一次或更多次相互作用过程中通过孔的电流。因此，装置还可以包括能够施加电势并且测量穿过膜和孔的电信号的电路。该方法可以使用膜片箝或电压箝来进行。该方法优选包括使用电压箝。

本发明的方法可以包括测量在与核苷酸的一次或更多次相互作用过程中通过孔的电流。用于测量通过跨膜蛋白孔的离子电流的合适条件在本领域中是已知的并且公开在实施例中。该方法通常顺着横过膜和孔施加的电压来进行。使用的电压通常是+2V至-2V，通常是-400mV至+400mV。使用的电压优选在具有选自-400mV、-300mV、-200mV、-150mV、-100mV、-50mV、-20mV和0mV的下限和单独地选自+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV和+400mV的上限的范围内。使用的电压更优选在100mV至240mV的范围内，并且最优选在120mV至220mV的范围内。通过使用增加的施加电压，通过孔可以增加不同核苷酸之间的区别。

该方法通常在任何电荷载体，如金属盐，例如碱金属盐、卤盐，例如盐酸盐，如碱金属盐酸盐的存在下进行。电荷载体可以包括离子液体或有机盐，例如四甲基氯化铵、三甲基苯基氯化铵、苯基三甲基氯化铵、或1-乙基-3-甲基咪唑鎓氯化物。在以上讨论的示例性装置中，盐以水溶液存在于区室中。通常使用氯化钾(KCl)、氯化钠(NaCl)或氯化铯。优选的是NaCl。盐浓度可以在饱和下。盐浓度可以是3M或更低并且通常是0.1M至2.5M、0.3M至1.9M、0.5M至1.8M、0.7M至1.7M、0.9M至1.6M、或1M至1.4M。盐浓度优选为150mM至1M。该方法优选使用至少0.3M，如至少0.4M、至少0.5M、至少0.6M、至少0.8M、至少1.0M、至少1.5M、至少2.0M、至少2.5M、或至少3.0M的盐浓度来进行。高盐浓度提供了高的信号与噪声比例，并且使得电流能够在逆着正常电流波动背景下指示待识别的聚合物的存在。

该方法通常在缓冲剂的存在下进行。在以上讨论的示例性装置中，缓冲剂以水溶液存在于区室中。任何缓冲剂可以用于本发明的方法中。通常，缓冲剂是HEPES。另一种合适的缓冲剂是Tris-HCl缓冲剂。该方法通常在4.0至12.0、4.5至10.0、5.0至9.0、5.5至8.8、6.0至8.7、或7.0至8.8、或7.5至8.5的pH下进行。使用的pH优选为约7.5。

该方法可以在0℃至100℃、15℃至95℃、16℃至90℃、17℃至85℃、18℃至80℃、19℃至70℃、或20℃至60℃下进行。该方法通常在室温下进行。该方法可选地在支持酶功能的温度如约37℃下进行。

该方法通常在存在游离核苷酸或游离核苷酸类似物以及促进分子棘轮或酶的作用的酶辅助因子下进行。游离核苷酸可以是以上讨论的任何单个核苷酸的一种或更多种。游离核苷酸包括但不限于，腺苷一磷酸(AMP)、腺苷二磷酸(ADP)、腺苷三磷酸(ATP)、鸟苷一磷酸(GMP)、鸟苷二磷酸(GDP)、鸟苷三磷酸(GTP)、胸苷一磷酸(TMP)、胸苷二磷酸(TDP)、胸苷三磷酸(TTP)、尿苷一磷酸(UMP)、尿苷二磷酸(UDP)、尿苷三磷酸(UTP)、胞苷一磷酸(CMP)、胞苷二磷酸(CDP)、胞苷三磷酸(CTP)、环腺苷一磷酸(cAMP)、环鸟苷一磷酸(cGMP)、脱氧腺苷一磷酸(dAMP)、脱氧腺苷二磷酸(dADP)、脱氧腺苷三磷酸(dATP)、脱氧鸟苷一磷酸(dGMP)、脱氧鸟苷二磷酸(dGDP)、脱氧鸟苷三磷酸(dGTP)、脱氧胸苷一磷酸(dTMP)、脱氧胸苷二磷酸(dTDP)、脱氧胸苷三磷酸(dTTP)、脱氧尿苷一磷酸(dUMP)、脱氧尿苷二磷酸(dUDP)、脱氧尿苷三磷酸(dUTP)、脱氧胞苷一磷酸(dCMP)、脱氧胞苷二磷酸(dCDP)以及脱氧胞苷三磷酸(dCTP)。游离核苷酸优选选自AMP、TMP、GMP、CMP、UMP、dAMP、dTMP、dGMP、或dCMP。游离核苷酸优选腺苷三磷酸(ATP)。酶辅助因子是允许酶起作用的因子。酶辅助因子优选二价金属阳离子。二价金属阳离子优选Mg²⁺、Mn²⁺、Ca²⁺或Co²⁺。酶辅助因子最优选Mg²⁺。

靶聚合物可以以任何顺序与分子棘轮(molecular ratchet)和孔接触。优选的是，当目标聚合物与分子棘轮和孔接触时，目标聚合物首先与分子棘轮形成络合物。当横过孔施加电压时，目标聚合物/分子棘轮络合，然后形成与孔的络合物，并且控制聚合物移动通过孔。

测量的性质可以如下。

可以测量取决于聚合物单元通过孔易位的性能。性能可以与聚合物和孔之间的相互作用相关。在孔的收缩区域，可以发生聚合物的相互作用。测量系统测量性能，产生取决于聚合物的聚合物单元的测量。

可以形成测量的许多不同类型。这包括但不限于：电气测量和光学测量。可能的电气测量包括：离子电流测量、阻抗测量、隧道测量(Ivanov AP et al.,Nano Lett.2011 Jan12；11(1):279-85)和FET测量(国际申请WO2005/124888)。光学测量可以与电气测量结合(Soni GV et al.,Rev Sci Instrum.2010 Jan；81(1):014301)。测量可以是跨膜电流测量，如流过孔的离子电流测量。

可以使用如在Stoddart D等，Proc Natl Acad Sci,12；106(19):7702-7、Lieberman KR等，J Am Chem Soc.2010；132(50):17961-72和国际申请WO-2000/28312中描述的标准单通道记录设备进行电气测量。可替换地，可以使用例如，如在国际申请WO-2009/077734和国际申请WO-2011/067559中描述的多通道系统进行电气测量。

可以使用多于一种性能的测量。例如，一种可能性是使用离子电流测量连同除了离子电流之外的至少一种其他性能的测量，例如包括FET测量、光学测量、或两者。

测量系统可以包括多个孔。装置优选进一步包括多个聚合物棘轮。装置优选进一步包括用于进行本发明的方法的指示。装置可以是用于聚合物分析的任何常规装置如阵列或芯片。参照本发明的方法，以上讨论的任何实施方式等同地适用于本发明的装置。

优选地，设置装置以进行本发明的方法。

装置可以包括：能够支持膜和多个孔并且使用孔可操作以进行聚合物表征的传感器装置；用于保持用于进行表征的材料的至少一个储存器；配置以可控地将来自至少一个储存器的材料供应给传感器装置的流体系统；以及用于接收各个样品的多个容器，配置流体系统以将选择性地来自容器的样品供应给传感器装置。装置可以是国际申请号PCT/GB08/004127(以WO 2009/077734公开)、PCT/GB10/000789(以WO 2010/122293公开)、国际申请号PCT/GB10/002206(尚未公开)或国际申请号PCT/US99/25679(以WO 00/28312公开)中描述的那些中的任何装置，所有这些申请通过引用合并于此。

装置可以是诊断设备。诊断设备可以是台式或手提式设备。设备可以与夹座(cartridge)一起操作，夹座包括纳米孔检测组件并且用于接收流体样品。夹座可以放置在设备中或另外地可操作地与设备可连接。随后可以将夹座移除或与设备断开以清洗夹座用于重新使用，或用于处理。之后，可以与设备一起使用未使用的或经清洗的夹座。夹座可以是设备的整体部件，其中，设备在使用之后可丢弃。夹座将通常具有用于接收流体样品的样品应用区。样品应用区可以是微流体通道或多孔样品垫，例如以直接接收尿样品。样品的尺寸将通常在0.25uL至10mL的范围内。样品应用区可以起直接接收来自患者的样品，例如用手指针刺获得的血液样品的作用。夹座可以包括用于过滤红血细胞的红血细胞过滤器。夹座可以包括干燥的试剂如盐、抗凝剂、或缓冲剂。设备将通常包括数据输入和输出端口以及用于发送或接收并且存储数据，如与特征向量、患者ID、以及测量结果有关的信息的存储器。设备可以具有用于与远程服务器或医学专业人士通信的无线连接。通常，设备和夹座不限于特定分析物的测量，并且可以能够测量任何特定分析物，并且感兴趣的特定分析物相关的特征向量可以上传并存储在存储器中。

尽管理想地，测量将取决于单个聚合物单元(其可以被看作包括k个聚合物单元的k链节，其中，k＝1)，使用许多典型的测量系统，测量取决于包括k个聚合物单元的k链节，其中，k是复数整数。即，每个测量依赖于k链节中的每个聚合物单元的序列。通常，测量的是与聚合物和测量系统之间的相互作用相关的性能。

在本发明的一些实施方式中，优选的是使用依赖于聚合物单元的小组，例如聚合物单元双体或聚合物单元三体(即，其中，k＝2或k＝3)的测量。在其他实施方式中，优选的是使用依赖于聚合物单元的较大组，即具有“宽”分辨率的测量。这种宽分辨率对于检查均聚物区域特别有用。

在测量依赖于k链节时，可期望的是测量对于尽可能多的可能k链节是可解析的(即，分离)。通常，如果通过不同k链节产生的测量在测量范围内很好地伸展和/或具有狭窄的分布，这可以达到。通过不同的测量系统，这可以达到不同程度。然而，本发明的特殊优势是：对于由不同k链节产生的测量，其不必要地是可解析的。

图1示意性地描述了包括作为插入在生物膜2(如脂双层)中的生物孔1的纳米孔的测量系统8的实例。包括一系列聚合物单元4的聚合物3通过如由箭头示出的生物孔1进行易位。聚合物3可以是其中聚合物单元4是核苷酸的多核苷酸。聚合物3与生物孔1的活性部件5相互作用，造成电性能如跨膜电流依赖生物孔1内部的k链节变化。在该实施例中，活性部件5被描述为与三个聚合物单元4的k链节相互作用，但这不是限制性的。设置在生物膜2的每一侧上的电极6连接至测量电性能的测量线路7。因此，测量依赖于生物孔1内部的k链节。

根据本发明，由测量系统输出的特定类型信号并且其为待分析的输入信号是“噪声阶梯波”，尽管不限于该信号类型。具有该形式的输入信号的实例示出在针对使用包括纳米孔的测量系统获得的离子电流测量的情况的图2中。

该类型输入信号包括其中连续组的多个测量依赖于相同k链节的测量的输入系列。每个组中的多个测量是不变的，经历以下讨论的一些变化，并且因此，相应于测量系统中的状态形成信号的“水平”。信号在可以是较大集合的一系列水平之间移动。考虑到仪器的采样速率和信号上的噪声，水平之间的转换可以被认为是瞬时的，因而，信号可以是通过理想化步骤迹线进行近似。

相应于每种状态的测量在事件的时间尺度上是不变的，但大多数测量系统在短时间尺度上将经历变化。变化可以由测量噪声引起，例如起于电路和信号处理，在电生理学的特定情况下显著地来自放大器。由于被测量的性能的较小量，这种测量噪声是不可避免的。变化还可以由固有变化引起，或在测量系统的基础物理或生物系统中传播。甚至在避免了测量噪声的理想化情况下，大多数测量系统也将经历或大或小程度的固有变化。对于任何给出的测量系统，两个变化来源可以有贡献，或这些噪声来源之一可以占主导。

此外，通常，在组中不存在测量次数的先验知识，其不可预知地变化。

例如，在组较短和/或两个连续组的测量水平彼此接近时，变化和缺乏测量次数知识这两种因素可以使得其难以区分一些组。

信号采用这种形式作为发生在测量系统中的物理或生物过程的结果。因此，测量的每一个组可以被称为“状态”。

例如，在包括纳米孔的一些测量系统中，由聚合物通过纳米孔易位构成的事件可以以棘轮方式发生。在棘轮运动的每个步骤过程中，在横过纳米孔的给定电压下流过纳米孔的离子电流是恒定的、经历以上讨论的变化。因此，每一组测量与棘轮运动的步骤相关。每一个步骤相应于其中聚合物在相对于纳米孔的相应位置的状态。尽管在状态周期的过程中在精确位置处可以存在一些变化，在状态之间存在聚合物的大规模移动。根据测量系统的性能，由于纳米孔中的结合事件，状态可以发生。

可以存在作为测量部分或从提供记录信息的其他来源可得到的其他信息。该其他信息可以使得状态能够被识别。

可替换地，信号可以采取任何形式。在这些情况下，还可以在一系列发射和转换方面描述相应于k链节的测量。例如，依赖于特定k链节的测量可以包括以可符合这些方法的描述的方式发生的一系列测量。

可以通过实验检验给出的测量系统提供依赖于k链节和k链节的尺寸的测量的程度。例如，已知聚合物可以被合成并且保持在相对于测量系统的预定位置处以从所得的测量研究测量如何依赖于与测量系统相互作用的k链节的特性。

一种可能的方法是使用除了针对该集合的每一聚合物不同的预定位置处的k链节之外，具有相同序列的一组聚合物。k链节的尺寸和特性可以改变以研究对于测量的影响。

另一种可能的方法是使用其中在预定位置处所研究的k链节外面的聚合物单元针对该集合的每一聚合物变化的一组聚合物。作为这种方法的实例，图3是包括纳米孔的测量系统中的两种多核苷酸的电流测量的频率分布。在多核苷酸(标记为polyT)之一中，纳米孔区域中的每一个碱基是T(标记为polyT)，并且在另一种多核苷酸(标记为N11-TATGAT-N8)中，特定的固定的6-链节(具有序列TATGAT)的左侧的11个碱基和右侧的8个碱基允许改变。图3的实例在电流测量方面示出了两条链的优异的分离。由N11-TATGAT-N8链看出的值的范围还比由polyT所看出的仅仅稍微较宽。以这种方式并且利用其他序列测量聚合物还可以确定：对于所提及的特定的测量系统，测量依赖于6-链节的良好的近似。

该方法，或类似的，可以概括为：使得位置和最小k链节描述能够被测定的任何测量系统。

类似的方法可以用于识别在一般测量系统中很好地近似k链节的位置和宽度。在图3的实例中，这通过改变6-链节相对于孔的位置(例如，通过改变Ns前后的数目)以检测最佳近似k链节的位置以及从6增加和减少固定碱基的数目来达到。k的值可以最小地经历足够窄的值的扩展。可以选择k链节的位置以最小化峰宽。

对于典型的测量系统，通常情况是依赖于不同k链节的测量并非全部唯一地可分辨。例如，在图3涉及的测量系统中，观察到的是由具有固定的6-链节的DNA链产生的测量范围是2pA的级别，并且该系统的大致测量范围在30pA和70pA之间。对于6-链节，存在4096个可能的k链节。鉴于这些中的每一个具有2pA的相似变化，清楚的是：在40pA的测量范围内，这些信号将不会被唯一地分辨。即使在一些k链节的测量是可分辨地时，通常观察到的是许多其他k链节的测量是不可分辨的。

对于许多实际的测量系统，不可能识别变换k测量的功能，其每一个部分地依赖于相同聚合物单元，以获得在聚合物单元的水平下解析的单个值，或更通常地，k链节测量不可由小于k链节的数目的一系列参数来描述。

通过实例，现在将证明：包括通过实验获得自多核苷酸的离子电流测量的纳米孔的特定测量系统不可精确地由简单的一阶线性模型描述。这说明了以下更详细描述的两个连串(training)集合。针对该说明使用的简单的一阶线性模型是：

电流＝总和[fn(Bn)]+E

其中，fn是针对发生在测量系统中的每个位置n处的每个碱基Bn的系数，并且E代表由于实验变化引起的随机误差。尽管可以可替代地使用本领域中已知的许多方法中的任何一种，通过最小二乘法，数据适合该模型。图4和图5是针对电流测量的最佳模式拟合的绘图。如果数据由该模型很好地描述，那么点应当紧密地符合典型试验误差中的对角线(例如，2pA)。这不是示出针对任一组系数，数据没有被该线性模型很好地描述的情况。

现在，将描述分析测量的时序序列的具体方法。

方法示出在图6中，并且在图6中示意性描述的分析设备10中可以计算机实现。分析设备10可以由在计算机装置中执行的计算机程序来实施，或可以由专用硬件设备、或它们的任何组合来实施。在任一种情况下，通过该方法使用的数据储存在分析装置10中的存储器中。在使用时，计算机装置可以是任何类型的计算机系统，但通常具有常规构造。可以以任何合适的编程语言，写入计算机程序。计算机程序可以储存在计算机可读存储介质(即，非暂时性介质)中，其可以是任何类型，例如：可插入计算系统的驱动中并且可以磁性地、光学地或光-磁性地存储信息的记录介质；计算机系统的固定记录介质，如硬驱；或计算机存储器。

首先描述的是具有包括在以上描述的类型的一系列测量(或更通常地，任何数量的序列，如在以下进一步描述的)的足够的时间分辨率的输入信号11上进行的方法，其中，测量是时序性的并且在不存在任何组中的测量数目的先验知识的情况下，包括依赖于相同k链节的多个测量的连续组。

这种输入信号11的实例示出在如之前描述的图2中。

在状态检测步骤S1中，处理输入信号11以识别测量的连续组。

可以使用示出在图7中、如下寻找输入信号11的衍生物中的短期增加的方法来进行状态检测步骤S1。

在步骤S1-1中，微分输入信号11以得出其衍生物。

在步骤S1-2中，来自步骤S1-1的微分经历低通过滤以抑制高频噪声(该微分趋向于扩大)。

在步骤S1-3中，将来自步骤S1-2的过滤微分进行阈值化以检测测量的组之间的过渡点，从而识别数据组。

在步骤S2中，每个识别组中的测量用于导出相对于各个组的代表性特性的一种或更多种特征的值。在最简单的方法中，导出单个值，例如，平均值，但代表相同或不同特性的特征的多个值可以用于增加信息量。可以使用的特征的实例包括：测量的组的平均(平均值或中间值或其他平均数)；测量的组的周期；测量的组的变化；测量的组的分布；不对称信息；测量的可靠度；或它们的任何组合。

从步骤S2输出的特征值形成特征向量12，其中，该值以与从其中获得它们的组相同顺序是时序性的。

步骤S2具有提供输入信号11的代表的结果，其中，减少了信息的量，但其中保持了信号的显著特性。

一般而言，其他方法可以可替换地用于替换步骤S1和/或S2以导出代表输入信号11的特性的一种或更多种特征的、与输入信号11相同顺序的时序性的值的特征向量12。

特别地，特异性地识别组不是必须的，并且这样在时间分辨率降低至一些k链节可以仅提供单个测量或根本没有测量时，这种方法可以应用至输入信号。

状态检测步骤的可能的简化是使用滑动窗口分析，由此人们比较两个相邻的数据窗口的平均值。然后，阈值可以直接放置在平均差上，或可以根据两个窗口中的数据点的变化进行设置(例如，通过计算学生t统计(Student’s t-statistic))。这些方法的特殊优势是它们可以在没有对数据施加许多假设的情况下应用。

通过实例，图8示出了通过实验测定的通过移动窗口t检验减小的输入信号11。特别地，图8示出了作为浅线的输入信号11。在状态检测之后的水平示出叠加作为暗线。图9示出了针对整个迹线导出的值、从过渡之间的平均值计算每一状态的水平。

在步骤S3中，将步骤2中导出的特征向量12与至少一种其他特征向量13相比较以确定它们之间的相似性。如通过虚线示出的，其他特征向量13可以是储存在分析装置10的存储器15中的一种或更多种特征向量14，或可替换地，可以是使用来自其他聚合物的系列测量的输入信号11的步骤S1和S2导出的一种或更多种特征向量12。

可以以许多方式实施步骤S3以获得关于所研究的聚合物的有用的信息。步骤S3的一些非限制性实例如下。

在示出在图10中的步骤S3的第一实例中，将步骤S2中导出的特征向量12与作为相对于作为库的至少一个类别的储存在分析设备10的存储器15中的多个特征向量14的一个或更多个的其他特征向量相比。在这种情况下，步骤S3中产生根据确定的相似性将从其中导出导出的特征向量12的聚合物分类为属于类别之一的分类数据16。

根据由存储器15中的特征向量14表示的聚合物的性质，可以确定整个或部分导出特征向量12和储存在存储器15中的整个特征向量14之间、或整个或部分导出特征向量12和储存在存储器15中的部分特征向量14之间的相似性。

在这种情况下，可选地，该方法可以在作为例如来自相同样品的其他聚合物的系列测量的输入信号11上重复。在那种情况下，可以进行以下步骤S4和S5中的任一个或两者。

在步骤S4中，可以计数每一类别中聚合物的数目。这提供了所研究的聚合物的群体曲线信息。

在步骤S5中，导出特征向量12再次与储存在导出特征向量12的聚合物分类为属于其中的类别的存储器15中的特征向量14相比较。在这种比较中，再次确定相似性，但这次是识别其中相对于该类别，得出特征向量12不同于特征向量14的局部区域。其中得出的特征向量不同于所期望的局部区域的这种识别提供了许多应用中非常有力的分析技术，其中聚合物的长序列的相对小的区域中的变化显著。这种技术的一个实例是识别作为多核苷酸的聚合物中的突变。

在步骤S3中，根据待测定的聚合物，用于比较的特征向量13可以选自储存在存储器中的特征向量14。

储存在存储器15中的特征向量14可以包括具有重叠区域的两种或更多种特征向量。在那种情况下，步骤S3中可以确定相似性，特征向量14的非重叠区域用于确定与得出特征向量12的相似性。

在示出在图11中的第二实例中，相对于通过在多个聚合物，例如来自相同样品的聚合物或作为共同聚合物的片段的聚合物上进行步骤S1和S2得出的多个特征向量进行步骤S3。

在该第二实例中，步骤S3包括以下步骤。

在步骤S3-1中，将多个得出特征向量12彼此比较，并且确定它们之间的相似性。

在步骤S3-2中，多个得出特征向量12根据它们的相似性集簇。特别地，将相似特征向量12的簇识别为一类。步骤S3-2生产将由其得出每个得出特征向量12的聚合物分类为属于类别之一的分类数据16。

可以通过如以上所描述的步骤S4和/或S5处理分类数据16。

在第三实例中，相对于通过在作为共同聚合物的片段的多个聚合物上进行步骤S1和S2得出的多个特征向量12进行步骤S3。在这种情况下，在步骤S3中，将多个得出特征向量12彼此相比较，并且在特征向量12的重叠部分中确定它们之间的相似性。这允许从片段的输入信号建立关于共同聚合物的信息。

步骤S3的第四实例相似于步骤S5，但包括得出特征向量12、储存在存储器15中的特征向量14的比较。在这种比较中，确定相似性以识别其中导出特征向量12不同于存储器中的特征向量14的局部区域。该第四实例具有与以上步骤S5相似的优势，但在期望类型的聚合物预先已知时是可应用的，并且因此，相对于那种期望的类型，用特征向量14可以进行比较，而不需要首先分类得出特征向量12。

现在，将讨论一些可以应用于步骤S3和S5中以确定相似性的数学技术。

一种方法是修改现有的配对动态程序序列比对算法，例如，针对整体比对的Needleman-Wunsch算法或针对局部比对的Smith-Waterman算法。

修改可以包括用在特征向量上操作的距离测量代替取代矩阵。例如，距离测量可以是数据点之间电流的绝对差值的测量。距离函数还可以考虑每个位置处的多个测量，例如电流测量的平均值和方差。

还可以对如在本领域中已知的空位得分机制进行修改，例如恒定空位罚分、线性空位罚分、或仿射空位罚分。

这些算法输出作为两个特征向量函数，距离函数和空位罚分，的比对得分。比对得分可以用于确定相似性。

这些修改的比对算法可以用于集簇、一致构建(consensus building)、以及模式匹配，尽管其他方法也可以用于实现这些任务。

也可以以与针对配对比对描述的那些相似的方法，修改多个比对算法。

不是通过使用如以上描述的空位比对技术匹配特征向量，可替换的方法是在较短的子向量方面代表特征向量，通常包括特征向量的连续输入。例如，如果特征向量是(1,2,3,4,5)，那么我们可以通过长度3子向量表示它以产生新表示{(1,2,3),(2,3,4),(3,4,5)}。对于我们的申请，子向量通常被认为较长(>10)，以维持多数时序信息。

然后，基于子向量的集合如何紧密匹配来定义基于子向量的特征向量的相似性。由于我们可以在不允许空位的情况下直接比较子向量，这具有成为比空位比对型算法更有效的手段的潜力。

如果特征子向量适当地离散(例如，通过舍入每个数字至最接近的0.1)，然后，可以使用子向量的精确或部分匹配，并且在子向量匹配或部分匹配的比例方面计算相似性。离散化还可以使得整数运算能够用于比较。可替换地，可以将散列函数应用至子向量以产生表示可以快速比较的子向量的存在或不存在的固定长度“指纹”(参见例如Karp,R.,Rabin,M.(1987)“Efficient randomized pattern matching algorithms”/IBMJ.Res.Development 31:249-260.)。

通过算法如将数据拆分成短片段并且针对较大库匹配这些的BLAST(Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.&Lipman,D.J.(1990)"Basic local alignmentsearch tool."J.Mol.Biol.215:403-410.)使用就匹配子串而言的类似想法。

可替换的方法是使用如下的HMM(Hidden Markov Model)维特比路径(Viterbipath)。

一般而言，配对相似性的基于比对和基于子向量的测量处理以相同方式进行比较的特征向量对。结果是给出的特征向量A和B的对，A与B的相似性等于B与A的相似性。

然而，在待比较的特征向量之一是库特征向量时，可以自然地处理问题就像特征向量是“模型”或“连串序列(training sequence)”。在这种情况下，可以使用以与之前描述的“强制路径”系列模型(training model)(US 61/538,721、GB 1117574.2)相似的方式构建的模型下的HMM方法进行比对。还可以应用除了本领域中已知的维特比之外的算法，例如，Forwards-Backwards算法。如在比对算法的情况下，存在可以用作相似性测量的输出分数。在维特比的情况下，这是路径的总可能性。如果我们交换两种特征向量的角色，不能保证总可能性相等，然而，尤其是对于分类问题，这通常不是问题。

对于集簇，可以使用以下方法。

集簇在来自聚合物的测量群体的输入信号11上进行，并且包括根据一些相似性标准测定存在的聚合物的数目和/或类型。

考虑到距离矩阵(或相似性/不相似性)，用于分层集簇的方法众所周知，并且涵盖在标准专著(例如，Gordon,A.D.(1999)Classification,2^nd edition.Chapman and Hall/CRC)中。分层聚类法也可以用于程序包如CLUSTAL(Higgins,D.G.and Sharp,P.M.(1988)。CLUSTAL：用于在微型计算机上进行多个序列比对的程序包(a package for performingmultiple sequence alignment on a microcomputer)。Gene,73,237-244.)中的序列比对。

使用全局或局部比对算法，所有特征向量彼此配对对齐，使得我们具有每一对特征向量之间的相似性(或在一些情况下是距离)的测量。可以以具有包括第m至第n个特征向量的相似性的第(m,n)条目的相似性矩阵记录下这些相似性值。然后，根据相似性矩阵，使用集簇技术(通常是分层聚集集簇)。

聚集集簇的两个极端是单链路(根据最相似特征向量对，在聚集步骤过程中的一对簇的得分)和完整链路(根据最不相似的特征向量对，一对簇的得分)集簇。确定相似性的算法以及集簇技术的最佳组合依赖于针对给出的应用所期望的簇的性质。

例如，如果期望簇由具有示出高相似性的特征向量对的重叠片段的特征向量组成，局部比对得分和单链路聚集集簇将是一个合适的选择。这种情况的一个实例示出在工作实例2中，其中，序列1和2如序列2和3一样重叠。如果在我们的集簇任务中，我们希望识别这些作为一些其他特征向量中的单个簇，使用局部比对得分以正确地识别短重叠区域，我们将最可能成功。由于1与2具有重叠并且2与3具有重叠，单链路集簇将序列加入至相同簇，然而，由于序列1和3在序列空间中不具有实际重叠并且因此可能具有特征向量方面的低相似性，完整链路聚集集簇将是较差的选择。

在期望簇在横过整个特征向量上几乎相同时(例如，在相对于已知参比，特征向量已经被确定为在大约相同地方开始和结束，以及，我们正在寻找以发现细微地不同于参比的类别时)，全局比对得分和完整链路聚集集簇将更合适。

在许多情况下，有用的是能够产生单一参考特征向量以代表相似和重叠的特征向量的组/簇/类。以下是可以用于实现这一点的迭代算法的概要。

1.生成较长的初始特征向量。我们称这为界标向量。

2.将每一个特征向量与界标向量对齐。

3.生成新的空的界标向量。

4.沿着来自步骤2的对齐的特征向量从开始移动至结束，无论对齐的特征向量的比例p是否位于范围r内，将那个位置处的平均值加入至界标向量。

5.重复2-4直至步骤4产生的界标向量对于连续迭代相同，或达到最大数目的迭代。

可替换地，可以根据许多或所有可能的比对更新界标向量。

由于使用与其对齐的特征向量该方法产生的界标向量产生特征向量的“一致”。

在步骤1中，可以对齐所有特征向量对，并且具有挑选的最多数状态的对齐对经历一些最小水平的相似性，在其中状态对齐的每一位置处取得平均值以产生初始特征向量。替换是可能的，例如仅挑选最长的特征向量。

以上描述了用于步骤2中的配对比对算法。

在步骤4中，p和r可以根据特定情况变化，平均值可以被一些其他位置测量取代，并且r可以被一些其他扩展测量代替。

这种一致构建方法(consensus building process)提供了就特征向量而言的多重比对算法。界标对齐状态给出了代表每个特征向量的固定长度向量。

分类的一些方法如下。

用于分类的任务是指派“查询”特征向量给对于整数m>1的m类之一。存在属于这些m类别的存储器15中的“靶”特征向量14的库。

解决方法依赖于靶特征向量是否是不同的(在全局水平下互相不同)，或是同一的(所有在全局上彼此相似，具有一些相对微小区别，通常是局部的区别)，尽管清楚地存在位于其中方法的混合是合适的这些极端之间的情况。

在不同的情况下，用于类别测定的最简单的方法是通过以上描述的方法之一计算查询特征向量和靶特征向量之间的相似性，并且分配查询特征向量给具有最大相似性的靶特征向量的类别。

如果每个类别中存在多个靶特征向量，那么针对包括例如那个类别中的靶特征向量上的平均值的每个类别，可以导出并且如之前进行的汇总的靶特征向量。对于基于比对的相似性测量，首先需要使用例如，如以上描述的“一致构建(consensus building)”方法进行特征向量的多重比对。

可替换地，可以独立地处理每个靶特征向量。例如，在最简单的情况下，将查询特征向量分配给最接近的靶特征向量的类别。为了使该方法尽可能成功，经常可期望说明每个类别的靶特征向量的不同数目的统计的重新加权。

尽管贯穿所有类别的所有靶特征向量的比对在不同情况下通常是不可能的，我们仍然可以使用学习算法得出分类器。距离或与靶特征向量的不相似性向量可以用作多变量学习技术如多级线性判别分析的输入以产生改善的分类器。可替换地，可以使用如较早描述的标准散列算法和用作学习算法的输入的这种，由子向量产生固定长度向量。更多关于同一情况下的学习算法如下。

通常，对于许多方法，可以输出不仅是最可能的类别，而且是正确的分类的可能性。

在同一的情况下，可以如在不同情况下应用相同或相似方法，然而，贯穿特征向量的随机变化可以很好地掩盖为主要感兴趣的并且提供主要信息以正确区别类别的系统的局部变化。

因此，经常更有效的是获知靶特征向量之间的主要区别是什么；或更通常地，在给出具有已知类别的特征向量的系列组的情况下，更有效地学习针对允许我们预测特征向量的类别的正确分类的规则。

不同于不同的情况，特征向量可以最初被对齐至共同参考特征向量(例如，来自靶特征向量的一致比对的界标)，相似于以上的“一致构建(Consensus building)”情况，以及对齐至以固定长度输入向量提供给学习算法的界标的状态。

在给出已知类别的特征向量的系列组的情况下，标准统计和机器学习分类技术可以用于预测新特征向量的类别。例如，决策树分类器(例如，但不限于C4.5.Quinlan,J.R.(1993)C4.5:Programs for Machine Learning.Morgan Kaufmann Publishers)可以得知参比对齐的特征向量的特定位置是以上针对仅一个类别的特定值。所谓的黑盒子方法如神经网络、随机森林和支持向量机器可以用于预测类别成员，而不一定产生可解释的规则。在可替换的方法中，可以实施贝叶斯网络，其中，专家知识也可以被并入。

尤其有趣的可以是其中比对参比之后，类别围绕相同位置变化(例如，相应于基因组的较小保守区域)。在这种情况下，给定比对，人们可以直接寻找具有与类内变化比较较高的类间变化的一个或更多个连续位置。

通常，有益的是使用标准技术如交叉验证并且用这些方法保持设置以避免过度拟合，并且获得可概括性的想法。

不是开始于比对步骤，我们还使用子向量作为学习算法的输入。可以使用如较早讨论述的标准散列算法和用作学习算法的输入的这种，由子向量产生固定长度向量。可替换地，可以直接使用子向量本身-例如，用搜索仅具有类内近邻的子向量的算法。

可以使用来自两种情况的方法的混合来处理并非显然地落入同一或不同情况中的问题，特别地，通过首先使用集簇将问题空间细分成类别的同一组(类似于以上描述的“集簇”)。

现在，将描述测定其中导出特征向量12不同于例如在步骤S5或步骤S3的第四个实例中的另一个特征向量的局部区域的方法。

通常，进行比对靶特征向量，然后，识别查询特征向量和靶特征向量之间变化的位置。

在存在来自单一类的多于一个靶特征向量时，从靶特征向量产生参考特征向量(例如，以上在“一致构建(Consensus Buliding)”中描述的界标)，并且将靶特征向量对齐参考特征向量以获得位置和参比中的每个位置处的变化性(例如，通过计算那个位置处的对齐的靶特征向量的平均值和标准偏差)的理想值。然后，可以识别其中查询特征向量示出靶类型中不可能产生的值的模式的局部化区域，例如如果我们假定每个分布是具有由靶特征向量评估的平均值和标准偏差的高斯分布时，通过查找贯穿许多连续参考-对齐状态的总可能性。

方法可以扩展至查找如在以上类别的同一情况下讨论的特征向量的类别之间的差别。这些类可以是预定义的，例如它们可以是来自具有或不具有特定疾病的患者的DNA样品。可替换地，它们可以通过第一实例中的集簇得出。

同样，在同一分类方法的上下文中，以上讨论的许多统计和机器学习技术(如决策树)也用于发现在特征向量的对或类之间不同的局部区域。

现在，将描述的是由例如以上步骤S3的第三实例中的特征向量片段组装(assembly)成较大特征向量的方法。

可以修改大多数的现有组装算法以使用现存类型的特征向量。以上描述的一致性方法可以适用于一些组件应用。通常，可以使用以下方法。

首先将特征向量“离散化”。将变换应用到每个测量系列可以包括以下任何一种或组合：

1.将特征向量表示为一些列δ。

2.根据电流水平，将特征向量表示为一系列类别。

3.将特征向量表示为一些列重要的(milestone)(很好表征的)特征。

一旦将迹线离散化，可以使用标准组装算法。例如，可以提取种子序列，并且重叠使用。然后，使用特征向量空间转换，重叠层将定向读取。

可以应用的现有组装算法包括Zerbino&Birney,“Velvet:Algorithms for denovo short read assembly using de Bruijn graphs”,Genome Res.2008.18:821-829和Batzoglou,S.“Algorithmic challenges in mammalian genome sequence assembly”,(2005)Encyclopaedia of genomics,proteomics and bioinformatics,ed Dunn,M.,etal.(John Wiley and Sons,New York)。

现在，通过非限制性实施例阐述本发明的一些具体应用。

第一个应用在于针对分子的已知库或小组对分子计数，这可以使用涉及步骤S3的第一实例的方法。

库包括储存在存储器15中的特征向量14。根据针对用于了解特征向量的每个分子或分子集合的单个实验，可以使用监督或无监督学习以产生这种库用于以后使用。

例如，人们可以具有已知疾病的一系列DNA/RNA序列。这些分子的指纹可以预先已知，来自测量或由模型产生。给出分子测量，这可以针对已知库和分子与测量的库成员的相似性进行比较。这使得能够识别测量的每个分子(该识别可以是“其他的”)以及量化测量的每一类型分子的相对数目。

可以参考库或参考组计数的事物的实例如下：

表达谱：通过匹配特征向量，比较mRNA转录本的丰度。这可以用于测量表达水平的变化。在发展、疾病、治疗疾病过程中，这种基因表达可以在一个器官和另一个之间变化。

生物标记miRNA的丰度：通常，这些是在血液中循环的20-25-链节RNA寡核苷酸，并且这些的组的表达水平的变化与某些疾病，尤其是癌症有关。人们可以比较定义的组，因此，针对模式匹配，将存在相对小的搜索空间。

循环血液中胎儿拷贝数变化：破碎的胎儿DNA在母血中循环。如果胎儿具有非整倍体性，例如，染色体21、18、11(不是立即致命的主要染色体)的额外拷贝，将可以针对例如感兴趣的染色体的外显子设计捕获探针，以富集它们用于孔分析，并且然后，比较这些与参考特征向量并且计数。用于其的现有方法的主要限制是不能在母体和胎儿染色体之间区分。在对于使用PCR的下一代序列测定不可见的胎儿和母体DNA之间的甲基化状态中存在差别，但这作为特征向量中的差别可以是可见的。

比较基因组杂交(CGH)：在肿瘤细胞(并且也在如以上描述的胎儿中)中可以改变不同基因组区域的拷贝数目的变化。持续一段时间，通过比较基因组杂交，即，在通过将破碎的基因组DNA杂交至阵列上的一组探针将患者/样品与参比比较时，对其进行识别。由于使用胎儿测试，特征向量空间可以用于画出这些拷贝数目变化的曲线。

病毒或细菌负荷：感染严重性的测量。可能地，与一些富集形式结合，测量了每ml血液中病原体RNA或DNA拷贝数目。将没有必要在整个病原体基因组上进行。可以进行早期阶段和晚期阶段的测量以识别抗原漂移和/或抗原变异。

该方法可以应用在流行病学中，例如应用在识别(菌株分型)以及疾病如何蔓延或发展。例如，该方法可以用于监测特殊药物治疗的疗效或监测疾病从身体的一个区域到另一个区域的传播或患者之间疾病的传播。

探针：提供了小种群探针(例如，针对生物标记组的适体)，其中的一些附接至靶分子。将没有结合的那些与结合的那些分离，并且以未结合群体或以结合群体计数分子以量化靶分子。

例如，在食物或培养物中可以确定有机体的特性。

第二个应用在于量化主要群体并且测量存在于样品中的“其他群体”。

例如，人们可以考虑合成DNA低聚物。当前的质量控制方法通常包括聚丙烯酰胺凝胶电泳法(PAGE)、高效液相色谱法(HPLC)以及质谱法。人们可以测量合成的DNA样品并且确定存在的主要群体的标记。然后，可以计数不同于主要群体的样品中的分子的数目，可能地，表明合成中的误差。特别地，如果差别发生在特征向量的特定位置处，这可以是由于通过调整合成条件改正的系统误差。然后，通过重复纳米孔测量，可以验证任何改进。

第三个应用在于测量在位置处的修改/差别以及量化分子群体中的那些修改/差别。

一个实施例称为单核苷酸多态性(SNP)。与四个(或更多个)相比的已知位置，允许那个位置处的核苷酸。与“野生型”相比，已知位置处存在和/或不存在SNP。这可以使得能够识别新位点。同样地，它可以使得能够识别如以后将讨论的非等位基因同源重组(NAHR)中的横向同源物的特异性变体。

另一个实施例涉及甲基化。可以在已知的甲基化位点进行测量。该方法允许识别这些位点处存在、不存在和/或量化甲基化。该方法还允许识别未知位点。该方法允许评估单个分子的“本体(bulk)”甲基化状态，例如，是否100％的群体是50％修饰的或50％的群体是100％修饰的，例如，用于如以上描述的胎儿筛选。某些基因的甲基化状态可以用作针对癌症的生物标记。

另一个实施例是识别剪接变体和/或易位断点。这相似于较早描述的实例，但人们识别其中特征向量停止匹配或其中特征向量的一半映射至一个位点并且另一半映射至其他地方的位置。

第四个应用在于识别特定已知分子的期望的可靠性的存在和/或不存在。

这类似于与第一个应用比较，但此处可以在一个特定分子中存在兴趣。

该方法可以用于识别相关分子群体，但不等同于已知分子达到例如在快速突变疾病中可靠性的特定程度(类似于DNA或蛋白序列的同源性测量)。

另一个实施例涉及如剪接变体中的融合转录本。具体融合转录本的检测用于癌症诊断中，例如，Bcl-abl融合转录本的存在表明白血病。

另一个实施例涉及NAHR的诊断。在减数分裂过程中，相似但非等位基因位点之间的重组导致相当大块的基因组的缺失或复制，对于由这种配子产生的胎儿造成悲惨后果。这将引起受影响的位点的拷贝数目的变化(参见以上CGH)，但还导致非等位基因同源物的融合，这将由查看PSV(像SNP但不同)可检测。

另一个实施例涉及其中得出特征向量的多个部分与多个储存的特征向量相比的情况。例如，已知蛋白结构域的DNA序列可以用于产生库特征向量以及编码测量的未知蛋白的DNA。例如，得出特征向量的部分可以用催化结构域识别，并且另一部分例如用DNA结合域识别。因此，可以推断出蛋白的功能。

第五个应用涉及组装。

从读取较小的、部分重叠的特征向量，随机地拆分、系统地拆分、或通过来自较大分子的一些其他机理拆分的分子的集合，人们可以组装完全较大的特征向量。可以使用(适用于)用于序列组装的那些的类似算法。可替换地，人们可以由分子的已知性能(例如，如果DNA序列是已知的)产生粗模板特征向量和映射到模板特征向量的小片段。在其中模板是近似的情况下，可以贯穿整个过程改善模板。

可以通过实验得出库或通过信息学产生库。

使用的库类型的实例可以包括但不限于使用模型由已知DNA序列、已知蛋白序列、已知聚合物构建的特征向量，实验得出的特征向量，由重叠得出的特征向量组装的特征向量，由集簇测量的一致性得出的特征向量。库可以包括多个相关特征向量、多个不相关特征向量、不同一或同一尺寸的特征向量、具有局部差别的类似特征向量。

其中相应于DNA片段的特征向量的库由实验获得的实例可以使用例如通过酶片段化系统产生的片段，或例如通过机械剪切或通过非选择性酶作用随机产生的片段。可以优选将随机破碎的得出特征向量组装成用于库的较大的得出特征向量。系统片段库可以优选地用作覆盖与片段化模式相似区域的库特征向量。

其中特征向量的库信息学地获得的实例可以利用可获得的数据库，例如NIH基因库数据库(Nucleic Acids Research,2011 Jan；39(Database issue):D32-7)，其包括可公开获得的DNA序列。例如，为了获得针对相应于那些序列的平均电流的特征向量可以使用由系列方法如之前使用的(US 61/538,721、GB 1117574.2、N114722)得出的模型。库可以减少至对于特定应用感兴趣的那些序列，例如，库可以减少至人类基因组的编码区域。

现在，将描述使用本发明的用途的一些实施例。

实施例1涉及在以下实验条件下在典型纳米孔实验中的数据获取。

缓冲溶液：1M NaCl、100mM Hepes pH 8.0、1mM ATP、1mM MgCl₂、1mM DTT、10mM亚铁氰化钾(II)、10mM铁氰化钾(III)、Pt电极。

纳米孔：MS(B2C)8 MspAMS-(G75S/G77S/L88N/D90N/D91N/D93N/D118R/Q126R/D134R/E139K)8

酶：解旋酶100nM

从插入在1,2-双植烷酰基-甘油基-3-磷酸胆碱脂(Avanti极性脂)双层中的单个MspA纳米孔获得电气测量。通过Montal-Mueller技术，在20μm厚的PTFE膜(在定制的聚甲醛树脂室中)中横跨～100μm的直径孔形成双层，分离两个1mL的缓冲溶液。在所述缓冲溶液中进行所有实验。在装配有1440A数字化仪的Axopatch 200B放大器(Molecular Devices)上测量单通道电流。将Pt电极连接至缓冲溶液，使得顺式区室(向其加入纳米孔和酶/DNA)连接至Axopatch头部(headstage)的接地(ground)，并且反式区室连接至头部(headstage)的活性电极。

在实现双层中的单个孔之后，将DNA多核苷酸和解旋酶加入至100μL的缓冲液并且预温育5min(DNA＝1.5nM，酶＝1μM)。将该预温育混合物加入至电生理学室的顺式区室中的900μL的缓冲液以开始捕获MspA纳米孔中的解旋酶-DNA络合物(以产生DNA＝0.15nM，酶＝0.1μM的最终浓度)。如通过将二价金属(1mM MgCl₂)和NTP(1mM ATP)加入至顺式区室获得的，引发解旋酶ATP酶活性。在+120mV的恒定电压下进行实验。

如ANA ID NO.1-19示出用于该研究中的分析物DNA样品。

实施例2涉及识别并且量化来自DNA分子组的特定DNA分子。该实施例描述了来自特征向量的预定库的处于溶液中的DNA分子的识别方法。

如下进行库构建。通过采用18个约400链节序列(ANA ID NO 1至18)，每个重叠之前序列约100个碱基(来自5千碱基基因组(PhiX174))，来构建库。例如，ANA ID NO 2将与ANA ID NO 1分享100个碱基并且与ANA ID NO 3分享100个碱基。这些序列包括开始处的序列和结束处的序列，所有链相同而不是较大基因组的部分。即使在存在较大相似区域的情况下，重叠序列也允许表明识别不同的分子。通过考虑与每5链节位置(1024值)相关的电流模型，针对平均电流构建库特征向量。之前已经公开了该类型模型的测量(例如，在US 61/538,721、GB 1117574.2,N114722中)。

针对序列1、2和3的特征向量示出在图12中，这表明重叠部分。针对该图示，已经除去每个序列的共同端(如以上描述的)。

如下获得候选分子特征向量。使用以上和在实施例1中描述的实验方法获得候选分子。候选物减少至由之前描述的识别转换之间的平均电流构成的特征向量。

考虑属于序列(ANA ID NO 1至18)之一的实例候选物。使用如以上描述的比对算法，针对库(ANA ID NO 1至18)比较该分子。来自比对的输出得分用作与每一个库成员的相似性的测量。

进行比对比较。来自库比较的输出得分示出在图13中。人们可以看到针对库成员之一的得分远高于针对所有其他库成员的那些。贯穿比对的合理参数化范围，这是正确的。此处，示出了-1的空位罚分和相互绝对差值的得分函数(即，匹配越紧密，得分越高)。

与库分子13(ANA ID NO 13)比对的接近检查表明接近的匹配确实存在，如在图14中示出的。

对于该实验中的所有候选分子(所有分子13)，这是运行的，并且人们可以看到在多数情况中分子被正确识别为分子13。在其中分子没有被正确识别的情况下，这些被错误识别为分子12(ANA ID NO 12)。这些是典型地部分读取分子，包括多数共享的重叠序列。识别的直方图示出在图15中。我们计数正确地在该实验中识别的分子13的168个实例。

实施例3涉及DNA片段中单核苷酸多态性(SNP)的测量。

使用以上所述的方法产生库构建和特征向量，然而，针对分子13(ANA ID NO 13)的库特征向量中，对序列做出了三个变化[旧][位置][新]，T335A、G357T、C385A(ANA ID NO19)。相对于库分子(即，3 SNP)，分子13的任何实例将在这些位置具有变化。这些SNP对于库特征向量的影响示出在图16中。

重复之前实施例的基于比对的识别方法，表明这些SNP对于分子识别不具有显著影响。大多数分子仍可以被正确识别，对于给出SNP具有稍微较高错误识别倾向。增加的趋势是由于ANA ID NO 12的序列共享相同序列但不存在SNP。识别的直方图示出在图17中。

对于SNP信号(SNP calling)，由于与例如具有之前使用的参数的Needleman-Wunsch相比，这具有较好的路径约束(即，将通过错误匹配SNP区域更好地比对)，HMM和维特比路径用于比对。示出在图18中的比对很好地与较早示出的理想库突变比较。三个SNP在图18中可清楚地观察到。

查看整个176分子的数据集，可以清楚地识别这些SNP位置。图19示出了维特比比对库和候选特征向量之间的电流差。在335和357的情况下，在几个位置处几个测量的特征的被各单个变化影响(即，序列的单个变化影响几个邻近的千链节)下，三个SNP是可见的。

在不存在SNP的情况下，使用ANA ID NO 13的库特征向量，运行该实验的对照版本。在这种情况下，没有从库识别一致差异，如在图20中示出的，其中，没有位置显示一致偏差。

实施例4涉及主要群体的识别和类似但不同的子群体的测量。

通过用模拟数据完成该实施例。60特征向量(平均电流)的组模拟ANA ID NO 13。模拟中的十个还包括SNP。将具有1pA的标准偏差的高斯噪声加入至每个值，并且随机删除每个向量中的5％的值。除了模拟数据之外，不再使用序列的知识。

使用该数据集(以及没有序列的知识)，通过之前描述的界标方法，构建了一致性。图21示出了该方法的最终输出，所有数据比对一致性。我们清楚地看到其中在约位置337处包括SNP的区域。

进行与实施例3相同的分析，人们可以看见SNP通常在分子51-60中被识别，如图22中示出的。

实施例5涉及群体数目的识别，库和相对计数的产生。

考虑到了两种情况，第一，在存在两种物质下，以及第二，在存在三种物质下。使用来自实施例2的ANA ID NO 13,9和5序列模拟数据。然而，对于该实施例，除了模拟初始数据集之外，没有利用序列或模型信息。使用配对比对得分作为相似性测量，由如在本领域中已知的邻近连接构建树。如在图23和图24中示出的，这些数据集分别很好地集簇成两个和三个群体。还清楚的是，可以定义阈值(线的长度代表相似性)以分离这些簇。

在三个簇实验的情况下，建立了针对每个簇的界标一致性。这种的结果示于图25至图27中。

针对两个实验，运行针对实施例2的识别。图28和图29示出了对于两个簇和三个簇实验的针对三个簇的计数。我们看见我们已经正确地量化每个实验中的混合物。

实施例6涉及由较小的特征向量组装较大的库特征向量。

该实施例使用来自如以上描述的重叠序列S1-S18的模拟数据。然而，为了说明组装过程，我们去除起始和终止处的序列，所有序列共同的序列(如在实施例2中描述的)，使得序列重叠而不存在任何错误匹配区域(如在图12中示出的)。由于保证序列重叠，可以使用相对简单的方法。这不是人们可以使用如以上描述的由本领域中已知的那些改版的更复杂的组装算法。

构建了通过邻近连接配对比对得分的树，类似于实施例5。然而，由于期望相对大的非相似区域，使用在比对的开始或结束没有如在对比中一样强烈的罚分空白的得分函数。树示出在图30中。在此，可以看出的是，所有序列与两个其他序列具有相似关系，代表～100个碱基重叠，每个序列共享任一侧的序列。

通过树关联的进展，使用来自用作特征向量(其中对连接至另一个序列)的序列对的输出界标构建了比对序列的一致界标。方法的输出是完全组装的特征向量。将原始数据比对组装特征，用于说明。针对三个片段的比对示出在图31中，其中，可以清楚地看见重叠。

Claims

1.一种分析聚合物通过纳米孔的易位过程中进行的聚合物的时序系列测量的方法，其中，所述测量取决于所述纳米孔中的k链节的特性，k链节是所述聚合物的k个聚合物单元，其中，k是正整数，所述方法包括：

从所述系列测量得出代表所述测量的特性的时序特征的特征向量；以及

测定所述得出的特征向量和至少一种其他特征向量之间的相似性。

2.根据权利要求1所述的方法，其中，所述至少一种其他特征向量是在至少一个类别方面储存在存储器中的至少一种其他特征向量。

3.根据权利要求2所述的方法，其中，根据待测量的聚合物，选择储存在所述存储器中的所述至少一种其他特征向量。

4.根据权利要求2或3所述的方法，其中，储存在所述存储器中的所述至少一种其他特征向量包括由片段的所述特征向量构成的共同聚合物的总体特征向量。

5.根据权利要求2或3所述的方法，其中，所述测定相似性的步骤包括测定全部或部分所述得出的特征向量和储存在所述存储器中的全部所述至少一种其他特征向量之间的相似性。

6.根据权利要求2或3所述的方法，其中，所述测定相似性的步骤包括测定全部或部分所述得出的特征向量所述得出的特征向量和储存在所述存储器中的部分的所述至少一种其他特征向量之间的相似性。

7.根据权利要求2或3所述的方法，进一步包括根据所测定的相似性，将所述得出的特征向量由其得出的所述聚合物分类为属于所述类别。

8.根据权利要求1所述的方法，其中，所述至少一种其他特征向量是使用相同方法得出的特征向量。

9.根据权利要求8所述的方法，其中，所述至少一种其他特征向量是使用相同方法得出的多个其他特征向量，并且所述方法进一步包括根据所述特征向量的重叠部分的相似性，识别从作为共同聚合物的片段的聚合物得出的特征向量。

10.根据权利要求8所述的方法，进一步包括从所识别片段的所述特征向量构成所述共同聚合物的总体特征向量。

11.根据权利要求8所述的方法，其中，所述至少一种其他特征向量是使用相同方法得出的多个其他特征向量，并且所述方法进一步包括将相似特征向量的簇识别为一类以及将所述特征向量由其得出的所述聚合物分类为属于识别类。

12.根据权利要求7所述的方法，进一步包括计数属于不同类别的特征向量的数目。

13.根据权利要求7所述的方法，进一步包括识别局部区域，其中，所述得出的特征向量不同于在所述聚合物被分类为属于其的所述类别的特征向量。

14.根据权利要求1所述的方法，其中，所述至少一种其他特征向量包括储存在存储器中的特征向量，并且所述测定相似性的步骤包括测定其中所述得出的特征向量不同于储存在所述存储器中的所述至少一种其他特征向量的局部区域。

15.根据权利要求1-3中任一项所述的方法，其中：

连续测量组取决于对于每个组不同的各个k链节，以及

所述得出特征向量的步骤包括识别连续测量组，并且，对于每个组，得出代表所述组的所述测量的特性的一种或多种特征的值。

16.根据权利要求1-3中任一项所述的方法，其中，所述特征包括：

所述测量组的平均值；

所述测量组的周期；

所述测量组的偏差；

不对称信息；

所述测量的可靠性信息；

所述测量组的分布；或

它们的任何组合。

17.根据权利要求1-3中任一项所述的方法，其中，所述测量是电气测量。

18.根据权利要求1-3中任一项所述的方法，其中，所述测量包括测量通过所述纳米孔的离子电流。

19.根据权利要求18所述的方法，其中，所述测量进一步包括测量除了离子电流之外的至少一种其他性能。

20.根据权利要求19所述的方法，其中，所述至少一种其他性能的测量包括FET测量、光学测量、或两者。

21.根据权利要求1-3中任一项所述的方法，其中，所述聚合物是生物聚合物。

22.根据权利要求1-3中任一项所述的方法，其中，所述聚合物是多核苷酸，并且所述聚合物单元是核苷酸。

23.根据权利要求1-3中任一项所述的方法，其中，所述纳米孔是生物孔。

24.根据权利要求1-3中任一项所述的方法，其中，所述聚合物通过所述纳米孔的所述易位以其中用所述纳米孔记录连续的k链节的棘轮方式进行。

25.根据权利要求1-3中任一项所述的方法，其中，通过分子棘轮控制所述聚合物的所述易位。

26.根据权利要求25所述的方法，其中，所述分子棘轮是聚合物结合蛋白。

27.根据权利要求1-3中任一项所述的方法，进一步包括：

使所述聚合物易位通过纳米孔；以及

进行所述聚合物的连续系列测量。

28.一种评价靶聚合物的存在、不存在或量的方法，所述方法包括：

使聚合物易位通过纳米孔；

进行所述聚合物的连续系列测量；

使用根据权利要求1至26中任一项所述的方法分析所述系列测量；以及

根据所述分析，评价靶聚合物的存在、不存在或量。

29.根据权利要求28所述的方法，其中，所述聚合物包括两种或更多种聚合物的混合物，并且测定一种或多种聚合物的相对量。

30.一种评价聚合物分析物中靶聚合物的存在、不存在或量的方法，所述方法包括：

将所述聚合物分析物破碎成多个聚合物；以及

在所述破碎的聚合物上进行根据权利要求28或29所述的方法。

31.根据权利要求30所述的方法，其中，所述聚合物是多核苷酸，并且所述聚合物单元是核苷酸，并且其中，通过限制性酶破碎所述聚合物分析物。

32.根据权利要求28至31中任一项所述的方法，其中，在没有评价所述聚合物的聚合物单元的整个序列的情况下测定聚合物的存在、不存在或量。

33.一种测定聚合物中的改变的方法，包括：

在一段时期内，使聚合物反复地易位通过纳米孔；

在每一次易位过程中，进行所述聚合物的连续系列测量；以及

使用根据权利要求1至26中任一项所述的方法，分析每个系列测量，其中，所述测定所述得出的特征向量和至少一种其他特征向量之间的相似性的步骤包括：(a)测定从每个系列测量得出的所述得出的特征向量和相同的至少一种其他特征向量之间的相似性，或(b)测定从所述系列测量得出的所有所述得出的特征向量之间的相似性。

34.根据权利要求28至31中任一项或权利要求33所述的方法，其中，所述聚合物是多核苷酸，并且所述聚合物单元是核苷酸，并且所述方法用于测定修饰碱基或点突变的存在。

35.一种诊断装置，包括：

配置以进行根据权利要求1至34中任一项所述方法的分析装置；以及

包括聚合物能够通过其易位的纳米孔的测量系统，所述测量系统被布置为在易位过程中进行所述聚合物的连续系列测量。