CN111356772B

CN111356772B - 酶筛选方法

Info

Publication number: CN111356772B
Application number: CN201880068428.6A
Authority: CN
Inventors: A.阿耶; G.M.丘奇; M.帕拉; F.佩平; S.S.R.A.蓬塔姆巴克; P.B.斯特兰杰斯
Original assignee: F Hoffmann La Roche AG; Harvard University
Current assignee: F Hoffmann La Roche AG; Harvard University
Priority date: 2017-08-23
Filing date: 2018-08-22
Publication date: 2023-10-03
Anticipated expiration: 2038-08-22
Also published as: EP3673085A1; WO2019040546A1; JP2020531016A; EP3673085A4; US20200283842A1; JP7084470B2; CN111356772A

Abstract

本发明涉及使用基于纳米孔的测序以多重方式推导至少两种不同的酶变体的多种动力学参数(240)的组合物和方法。在一些实施方案中，所述系统和方法可用于筛选不同的纳米孔变体，或纳米孔变体和酶变体两者的不同组合。

Description

酶筛选方法

关于联邦资助的研究的声明

本发明用美国国家科学基金会授予的1445570下的政府支持进行。政府在本发明中具有某些权利。

相关申请的交叉引用

本发明要求在2017年8月23日提交的美国临时专利申请号62/549,246的申请日的权益，所述美国临时专利申请的公开内容在此以其整体通过引用并入本文。

发明背景

DNA测序的重要性自四十年前其开始时已急剧增加。其被认为是生物学和医学的大多数领域的关键技术，且被认为是个性化和精准医学的新范式的基础。关于个体的基因组和表观基因组的信息可以帮助揭示他们的疾病倾向、临床预后以及对治疗法的应答，但基因组测序在医学中的常规应用将需要以及时且经济有效的方式提供全面的数据。

基于纳米孔的核酸测序是已被广泛研究的方法。在过去的二十年中，已非常关注利用纳米孔用于聚合物表征和用于以低成本、快速、单分子的方式区分核苷酸。例如，Kasianowicz等人表征单链多核苷酸，因为它们通过嵌入脂质双层中的α溶血素纳米孔电移位(参见，例如，Kasianowicz, J. (1996), Characterization of IndividualPolynucleotide Molecules using a Membrane Channel. Proc. Natl. Acad. Sci.,93, 13770-3)。据表明，在多核苷酸移位期间，随着离子电流的降低，可以测量纳米孔孔径的部分阻断。类似地，Gundlach等人证明了一种测序DNA的方法，其结合被称为双链体中断测序的过程使用源自耻垢分枝杆菌的低噪声纳米孔(“MspA”)(参见，例如，Derrington, I.等人 (2010), Nanopore DNA Sequencing with MspA. Proc. Natl. Acad. Sci., 107(37), 16060-16065)。此处，使用双链双链体将核酸的单链部分暂时保持在MspA压缩物中。Akeson等人 (参见，例如，PCT公开号WO/20150344945)公开了用于表征纳米孔中的多核苷酸的方法，其利用邻近定位的分子马达来控制多核苷酸通过或邻近纳米孔孔的移位速率。

一般地，已经追求三种纳米孔测序方法：链测序，其中当DNA的碱基依次穿过纳米孔时鉴别它们；基于外切核酸酶的纳米孔测序，其中核苷酸从DNA分子被一个接一个酶促切割并且当它们被纳米孔捕获并穿过纳米孔时进行监测；和纳米孔边合成边测序(SBS)方法，其中可鉴别的聚合物标签附接至核苷酸并在酶催化的DNA合成期间在纳米孔中记录。所有这些方法共同的是需要精确控制反应速率，使得按顺序确定每个碱基。链测序需要用于减慢DNA穿过纳米孔和解码通道内的多个碱基的方法；为此目的，已经开发了利用分子马达的棘轮方法。基于外切核酸酶的测序需要释放足够接近孔的每个核苷酸，以确保其捕获和其以足够慢的速率通过孔转运，以获取有效的离子电流信号。另外，这两种方法均依赖于四种天然碱基(两种相对类似的嘌呤和两种类似的嘧啶)之间的区别。纳米孔SBS方法利用附接至核苷酸的合成聚合物标签，其经专门设计以产生独特且容易区分的离子电流阻断特征用于序列测定。

DNA聚合酶是通过从亲本模板合成新的互补DNA链而复制遗传信息、由此保持遗传信息的酶。迄今为止，已经通过定向进化生成聚合酶突变体，并且用于DNA聚合酶突变体的大规模筛选的方法已经是诱变、噬菌体展示和隔室化的自我复制方法。这已经导致鉴别和开发不同的聚合酶用于许多生物技术应用。

发明概述

本发明提供了这样的系统、组合物和方法，其促进多种酶变体(例如DNA聚合酶变体)、诸如用纳米孔或用基于纳米孔的测序的多重筛选，使得可以阐明具有独特或期望的特性的酶变体。本发明允许快速筛选酶变体(诸如DNA聚合酶变体)，使得可以快速且准确地确定不同的酶特性，包括效力、稳定性、持续合成能力和保真度，而不是一次一种筛选酶，这可能耗时且昂贵。本发明还使得能够工程改造具有新型功能和/或具有定制需求的酶(例如DNA聚合酶)，例如可以并入非天然底物或温度敏感性突变体的聚合酶。在一些实施方案中，本发明还提供了这样的系统、组合物和方法，其促进多种纳米孔变体的多重筛选，使得可以阐明具有独特或期望的特性的纳米孔变体。当然，纳米孔变体和酶变体两者均可以在同一生物芯片中一起筛选，例如，以阐明具有期望的特性的纳米孔变体和酶变体对。

因此，在本发明的一个方面是使用基于纳米孔的测序来筛选多种不同酶变体的方法，其包括：获得包括多种不同纳米孔测序复合物的生物芯片，其中多种不同纳米孔测序复合物的每种不同纳米孔测序复合物包括具有独特分子条形码的多核苷酸，且其中所述不同纳米孔测序复合物中的至少两种包括不同的酶变体；对于装载至所述芯片上的每种不同纳米孔测序复合物生成测序数据集；基于所述不同纳米孔测序复合物的多核苷酸中包括的独特分子条形码的鉴别，将生成的测序数据集各自分类为与多种不同酶变体中的一种不同酶变体相关；和对于所述多种不同酶变体中的酶变体中的每一种推导多种参数，其中基于与所述不同酶变体中的相应一种相关的分类的序列数据集，推导所述不同酶变体中的每一种的多种参数。

在一些实施方案中，在不同纳米孔测序复合物中包括的独特分子条形码的鉴别包括：(i)过滤质量读取值以满足最小阈值碱基长度；(ii)使用基于自动化比对的算法推导概率评分；和(iii)评估计算的概率评分是否至少满足预定的阈值概率评分值。在一些实施方案中，所述预定的阈值概率评分值为0.80。在一些实施方案中，基于自动化比对的分类算法通过如下推导概率评分：(i)鉴别原始读取值中的所有条形码迭代边界；(ii)将所述迭代边界分为单独的条形码读取值；(iii)使用自动化多序列比对算法比对单独的条形码读取值，以从所述比对生成共有条形码；(iv)将生成的共有条形码与利用的所有可能的条形码进行局部比对；和(v)基于序列同一性来鉴别最可能的条形码候选物。

在一些实施方案中，被分类为与多种不同酶变体中的一种不同酶变体相关的单一序列数据集被用于推导该一种不同酶变体的多种参数。在一些实施方案中，被分类为与多种不同酶变体中的一种不同酶变体相关的至少两种序列数据集被用于推导该一种不同酶变体的多种参数。

在一些实施方案中，所述不同酶变体中的每一种的多种参数选自停留时间、标记核苷酸并入的完整催化循环的速率、核苷酸并入后相关的标签释放、标签捕获速率和标签捕获停留时间。在一些实施方案中，对于每种不同核苷酸类型推导多种参数。在一些实施方案中，所述方法进一步包括对推导的多种不同酶变体中的不同酶变体中的每一种的多种参数进行主成分分析。在一些实施方案中，所述方法进一步包括评估所述多种不同酶变体的第一不同酶变体与所述多种不同酶变体的第二不同酶变体相比至少一个核苷酸的持续合成速率是否改变(例如提高)。在一些实施方案中，所述评估包括将所述第一不同酶变体的多种参数中的至少一种参数与所述第二不同酶变体的相同的至少一种参数进行比较。

在一些实施方案中，所述酶是聚合酶或逆转录酶。在一些实施方案中，所述不同纳米孔测序复合物中的至少三种包含三种不同聚合酶变体。在一些实施方案中，所述不同聚合酶变体之一是对照，且其中其他不同聚合酶变体各自包括至少一个与对照相比不同的突变。

在一些实施方案中，所述独特分子条形码包含具有10至200个碱基的核酸序列。在一些实施方案中，所述独特分子条形码包含具有10至150个碱基的核酸序列。在一些实施方案中，所述独特分子条形码包含具有10至100个碱基的核酸序列。在一些实施方案中，所述独特分子条形码包含具有10至50个碱基的核酸序列。在一些实施方案中，所述独特分子条形码包含具有10至25个碱基的核酸序列。在一些实施方案中，所述独特分子条形码各自与彼此具有小于85%序列同一性。在一些实施方案中，所述独特分子条形码包含具有SEQ IDNO:1至3中任一者的核酸序列。在一些实施方案中，所述多核苷酸包含独特分子条形码和共同读取区域。在一些实施方案中，所述多核苷酸是与引物退火的环化的条形码化的核酸模板。

在本发明的另一个方面是使用基于纳米孔的测序来筛选至少两种酶变体的方法，其包括：获得包括多个单独可寻址的纳米孔的生物芯片，且其中获得的生物芯片至少包含第一和第二不同的纳米孔测序复合物，所述第一纳米孔测序复合物包含第一酶变体和第一多核苷酸，且所述第二纳米孔测序复合物包含第二酶变体和第二多核苷酸，其中所述第一和第二多核苷酸各自包括不同的分子条形码，且其中所述第一和第二酶变体是不同的；对于所述第一和第二纳米孔测序复合物中的至少每一种生成测序数据集；将生成的测序数据集各自分类为与至少第一酶变体或第二酶变体相关，其中基于至少所述第一和第二多核苷酸包括的独特分子条形码的鉴别，将所述序列数据集各自分类为与至少第一酶变体或第二酶变体相关；和基于与所述第一酶变体或所述第二酶变体相关的分类数据集，推导所述第一和第二酶变体各自的多种动力学参数。

在一些实施方案中，所述方法进一步包括将第三纳米孔测序复合物装载在所述生物芯片上，所述第三纳米孔测序复合物包含第三酶变体和第三多核苷酸，其中所述第三酶变体不同于所述第一和第二酶变体，且其中所述第三多核苷酸包含与所述第一和第二多核苷酸变体不同的分子条形码。

在一些实施方案中，所述第一和第二酶变体是聚合酶变体。在一些实施方案中，所述基于纳米孔的测序包括检测核苷酸并入事件的副产物。在一些实施方案中，用与每个单独可寻址的纳米孔相邻设置的电极检测所述副产物。

在一些实施方案中，所述第一和第二不同的多核苷酸具有结构-[引物]-[共同读取区域]-[独特条形码]，其中“共同读取区域”对于所述第一和第二多核苷酸两者是相同的，且可以是具有10至100个碱基的多核苷酸序列；且其中“独特条形码”是具有5至50个碱基的寡核苷酸序列，且其中每个“独特条形码”是不同的。在一些实施方案中，所述第一和第二不同的多核苷酸具有结构-[引物]-[共同读取区域]-[独特条形码]，其中“共同读取区域”对于所述第一和第二多核苷酸两者是相同的，且可以是具有10至50个碱基的多核苷酸序列；且其中“独特条形码”是具有8至25个碱基的寡核苷酸序列，且其中每个“独特条形码”是不同的。在一些实施方案中，“独特条形码”拥有具有SEQ ID NO:1至3中任一者的核酸序列。在一些实施方案中，所述第一和第二不同的多核苷酸具有结构-[引物]-[预定序列]，其中所述第一和第二多核苷酸各自包括不同的“预定序列”。

在本发明的另一个方面是使用基于纳米孔的测序来筛选至少两种纳米孔变体的方法，其包括：获得包括多个单独可寻址的纳米孔的生物芯片，且其中获得的生物芯片至少包含第一和第二不同的纳米孔测序复合物，所述第一纳米孔测序复合物包含第一纳米孔变体和第一多核苷酸，且所述第二纳米孔测序复合物包含第二纳米孔变体和第二多核苷酸，其中所述第一和第二多核苷酸各自包括不同的分子条形码，且其中所述第一和第二纳米孔变体是不同的；对于所述第一和第二纳米孔测序复合物中的至少每一种生成测序数据集；将生成的测序数据集各自分类为与至少第一纳米孔变体或第二纳米孔变体相关，其中基于至少所述第一和第二多核苷酸包括的独特分子条形码的鉴别，将所述序列数据集各自分类为与至少第一纳米孔变体或第二纳米孔变体相关；和基于与所述第一纳米孔变体或所述第二纳米孔变体相关的分类数据集，推导所述第一和第二纳米孔变体各自的多种动力学参数。在一些实施方案中，在所述第一和第二不同的纳米孔测序复合物内包括的酶是相同的(例如，它们均包含相同的聚合酶变体)。在一些实施方案中，在所述第一和第二不同的纳米孔测序复合物内包括的酶是不同的(例如，它们均包含不同的聚合酶变体)。

在一些实施方案中，所述生物芯片至少包含第三和第四不同的纳米孔测序复合物，所述第三纳米孔测序复合物包含第三纳米孔变体和第三多核苷酸，且所述第四纳米孔测序复合物包含第四纳米孔变体和第四多核苷酸，其中所述第一、第二、第三和第四多核苷酸各自包括不同的(即独特的)分子条形码。在一些实施方案中，所述第一、第二、第三和第四纳米孔测序复合物包括两种不同的纳米孔和两种不同的酶的组合。在一些实施方案中，所述第三纳米孔与所述第一纳米孔相同，但所述第一纳米孔复合物内的酶变体与所述第三纳米孔复合物内的酶不同；且，同样，所述第四纳米孔与所述第二纳米孔相同，但所述第二纳米孔复合物内的酶变体与所述第二纳米孔复合物内的酶不同。

在本发明的另一个方面是包含多种不同纳米孔测序复合物的生物芯片，每种不同纳米孔测序复合物都包含不同多核苷酸模板，其中所述不同多核苷酸模板各自包括独特分子条形码，且其中所述多种不同纳米孔测序复合物的不同纳米孔测序复合物中的至少两种包含不同的多核苷酸结合蛋白，且其中所述不同的多核苷酸结合蛋白是彼此的变体。

在一些实施方案中，所述第一和第二不同的多核苷酸具有结构-[引物]-[共同读取区域]-[独特条形码]，其中“共同读取区域”对于所述第一和第二多核苷酸两者是相同的，且可以是具有10至100个碱基的多核苷酸序列；且其中“独特条形码”是具有5至50个碱基的寡核苷酸序列，且其中每个“独特条形码”是不同的。在一些实施方案中，所述多核苷酸模板各自包括共同读取区域。在一些实施方案中，每种不同的多核苷酸模板的至少一部分包含具有独特可鉴别的核酸序列的部分。在一些实施方案中，所述不同的多核苷酸模板具有结构-[引物]-[共同读取区域]-[独特条形码]，其中对于所有不同模板，“共同读取区域”是相同的；且其中“独特条形码”是具有8至25个碱基的寡核苷酸序列，且其中对于每种不同的模板，每个“独特条形码”不同。在一些实施方案中，所述不同的多核苷酸模板具有结构-[引物]-[预定序列]，其中所述不同的模板各自包括独特的“预定序列”。

在一些实施方案中，所述生物芯片装载有至少三种不同的纳米孔测序复合物，其包括至少三种不同的多核苷酸结合蛋白变体。在一些实施方案中，所述多核苷酸结合蛋白变体是聚合酶变体。在一些实施方案中，所述多核苷酸结合蛋白变体是DNA聚合酶变体。在一些实施方案中，所述多核苷酸结合蛋白变体是RNA聚合酶变体。在一些实施方案中，所述多核苷酸结合蛋白变体是逆转录酶变体。在一些实施方案中，所述多核苷酸结合蛋白变体是解旋酶变体。在一些实施方案中，所述多核苷酸结合蛋白变体是外切核酸酶变体。

在一些实施方案中，所述生物芯片内的多个纳米孔各自是单独可寻址的。在一些实施方案中，每个单独可寻址的纳米孔适于检测在通过聚合酶变体聚合标记的核苷酸后从标记的核苷酸释放的标签。在一些实施方案中，每个纳米孔分别偶联至传感电路。在一些实施方案中，将每种纳米孔测序复合物插入膜(例如脂质双层)中。

在本发明的另一个方面是包含多种不同纳米孔测序复合物的生物芯片，每种不同纳米孔测序复合物都包含不同多核苷酸模板，其中所述不同多核苷酸模板各自包括独特分子条形码，且其中所述多种不同纳米孔测序复合物的不同纳米孔测序复合物中的至少两种包含不同的纳米孔，且其中所述不同的纳米孔是彼此的变体。在一些实施方案中，至少四种不同的纳米孔测序复合物，其中所述不同纳米孔测序复合物中的至少两种包括两种不同的纳米孔，且其中所述不同纳米孔测序复合物中的至少两种包含两种不同的多核苷酸结合模板。在一些实施方案中，所述多核苷酸模板各自包括共同读取区域。在一些实施方案中，每种不同的多核苷酸模板的至少一部分包含具有独特可鉴别的核酸序列的部分。在一些实施方案中，所述不同的多核苷酸模板具有结构-[引物]-[共同读取区域]-[独特条形码]，其中对于所有不同模板，“共同读取区域”是相同的；且其中“独特条形码”是具有8至25个碱基的寡核苷酸序列，且其中对于每种不同的模板，每个“独特条形码”不同。在一些实施方案中，所述不同的多核苷酸模板具有结构-[引物]-[预定序列]，其中所述不同的模板各自包括独特的“预定序列”。

在本发明的另一个方面是系统，其包括生物芯片(诸如上文鉴别或本文公开的任何生物芯片)和偶联至所述生物芯片的一个或多个处理器，其中将所述一个或多个处理器编程以辅助基于所述核酸序列内包括的分子条形码，将检测到的核酸序列分类为与特定多核苷酸结合蛋白变体相关。在一些实施方案中，将所述一个或多个处理器进一步编程以推导每种不同的多核苷酸结合蛋白变体的一种或多种参数(例如动力学参数)。

在本发明的另一个方面是试剂盒，其包含：(a)装置，其包含：(i)具有包含膜嵌入的纳米孔的膜的纳米孔阵列，和(ii)在所述膜的顺侧的参考电极和在所述膜的反侧的单独可寻址的电极阵列；和(b)一组不同的酶(例如聚合酶)，其各自负载或复合有不同的条形码化的核酸模板，诸如环化的条形码化的核酸模板。

序列表

使用如37 C.F.R. 1.822中所定义的核苷酸碱基的标准字母缩写和氨基酸的三个字母代码显示本文提供的核酸和氨基酸序列。序列表作为ASCII文本文件提交，其命名为"P34416WO_ST25.txt"，在2018年8月21日创建，1KB，其通过引用并入本文。

附图简述

为了总体理解本发明的特征，参考附图。在附图中，通篇使用类似的参考数字来标识相同的要素。

图1A举例说明通过具有聚合物-标记的核苷酸(140)的纳米孔的单分子DNA测序。四种核苷酸各自携带不同的标签。在纳米孔延续期间，经由核苷酸的5'-磷酸酯附接的这些标签在它们产生独特的电流阻断特征(150)的情况下一次一个释放至纳米孔(130)中。

图1B举例说明偶联至纳米孔(130)且装载有引发的环状模板(110)的DNA聚合酶(120)被插入纳米孔阵列上的脂质双层中。通过添加标记的核苷酸开始测序，所述标记的核苷酸在并入期间提供特征性的离子电流阻断特征。举例说明互补金属氧化物半导体(CMOS)芯片上的纳米孔-聚合酶-模板复合物的条形码化的DNA模板测序的代表性图(例如，显示在典型DNA测序实验期间单个孔的标记的核苷酸捕获的归一化电流相比于时间的迹线。鉴别的碱基调用在放大的区域中以标准Sanger颜色突出显示)。

图2描述流程图，其提供了根据本发明的一些实施方案的至少两种酶变体的多重筛选的步骤的概述。

图3A、3B和3C举例说明纳米孔阵列上的条形码鉴别。通过基于比对的条形码分类器计算的装载有三种独特的DNA模板(CBT1、CBT2和CBT3)的三种聚合酶变体(图3A RPol1、图3B RPol2和图3C RPol3)的条形码匹配概率指数(BMPI)值。在图3A、3B和3C中的每一个中，当质量原始读取值与正确和不正确的条形码比对时，显示条形码分类。对于每种RPol:CBT组合，当将原始读取值与正确的模板进行比较时，平均条形码匹配概率指数(“BMPI”)值为> 0.80，并且当与不正确的模板进行比较时，平均条形码匹配概率指数(“BMPI”)值为<0.80。线条表示0.8 BMPI截止值。在每个盒形图上，中心标记指示平均值，且盒形图的底部和顶部边缘分别指示第25和第75百分位数。

图4A举例说明衍生自单分子标记的核苷酸捕获信号的某些动力学参数的推导。

图4B举例说明聚合酶变体动力学，其中每个点代表对应于图3A、3B和3C中对于四种(A、C、T和G)核苷酸各自所述的RPol:CBT组合各自的标记的核苷酸并入的平均催化速率(FCR)和平均停留时间(t停留)值(3x3x4=36个总点)。不同形状的标记分别对应于CBT1(■)、CBT2 (●)和CBT3 (▲)条形码。动力学特性各自与模板背景无关，并且对于四种标记的核苷酸无偏差。

图5A、5B和5C举例说明装载有环状条形码化的模板(CBT) 1 (图5A)、CBT2 (图5B)和CBT3 (图5C)的三种聚合酶(RPol1-3)各自的四种标记的核苷酸各自的平均停留时间分布。所述图举例说明条形码之间的分布没有差异。这表明停留时间(聚合酶相关的动力学特性)与条形码选择无关。另一方面，对于每种聚合酶变体，平均停留时间是不同的：分别在约1.3、0.7和0.5 s居中。因此，停留时间是可以用来区分聚合酶变体的动力学特性。

图6A、6B和6C举例说明聚合酶变体的主成分(PCA)分析。每种主成分是从单分子标记的核苷酸捕获数据推导的20种动力学参数的线性组合。基于PCA的2D投影至前三种(分别为图6A、6B和6C)主成分上显示三种聚合酶变体各自的巨大分离。通过将每种主成分的所有数据点进行居中和按比例缩放，将这图上的数据点转换为z评分。

图7A和7B举例说明在多重芯片上实验中的三种不同聚合酶变体(RPol 1、RPol2和RPol3)的实验观察到的条形码的分布。环状条形码化的模板(CBT) 1-32与聚合酶变体1(RPol1)复合，CBT33-64与RPol2复合，且CBT65-96与RPol3复合。图7A举例说明所有96种可能的条形码通过基于比对的分类算法独特地鉴别(参见本文的实施例)。图7B举例说明在针对RPol1:CBT1- 32、RPol2:CBT33-64和RPol3:CBT65-96的单独测序实验中鉴别的条形码的分布。为了清楚起见，计数通过箱的宽度来缩放。预期的条形码以低假阳性率被独特地鉴别。图7B进一步举例说明条形码计数在反映不同的聚合酶持续合成能力中的不均匀分布。

图8A举例说明对于每种测试的聚合酶变体可以观察到不同的处理速率，且进一步举例说明即使将不同的模板混合在一起(富集内或富集后)，模板一旦与聚合酶结合也不交换。

图8B举例说明对于在单个实验中测试的每种聚合酶变体可以观察到不同的均聚物比对概况，且进一步举例说明即使将不同的模板混合在一起(富集内或富集后)，模板一旦与聚合酶结合也不交换。

图8C举例说明对于在单个实验中测试的每种聚合酶变体可以观察到不同的碱基插入概况，且进一步举例说明即使将不同的模板混合在一起(富集内或富集后)，模板一旦与聚合酶结合也不交换。

图8D举例说明对于在单个实验中测试的每种聚合酶变体可以观察到不同的缺失速率，且进一步举例说明即使将不同的模板混合在一起(富集内或富集后)，模板一旦与聚合酶结合也不交换。

图9A和9B举例说明具有相同纳米孔复合物的三种模板的测序结果。数据显示，当用相同的纳米孔复合物(包括聚合酶)进行测序时，不同的条形码化的模板的测序概况是相同的。

图10举例说明条形码化的DNA模板切换。(实验1)当与预期的条形码CBT2比较时，孔蛋白-聚合酶-模板复合物RPol2-CBT2的条形码匹配概率指数(BMPI)值。质量原始读取值的数目(N) = 612。(实验2)当与不正确的条形码进行比较时，测序准确度急剧下降。(实验3)在纳米孔-聚合酶-条形码复合后立即掺入的非复合条形码(CBT1)的存在不指示条形码替换。(实验4)当将3中的读取值与错误的条形码进行比较时，观察到与我们在2中的对照情况类似的结果。(实验5)甚至在与第二条形码(CBT1)孵育过夜后之后，也没有观察到条形码替换。(实验6)当在孔插入后将第二条形码与标记的核苷酸一起掺入时，还测试芯片上条形码替换。(实验7和8)再次，结果表明聚合酶变体用它们相应的条形码独特地标记并且在实验中没有被替换。

图11提供了用于独特鉴别的条形码设计的举例说明。使用Smith-Waterman局部比对算法计算96种环状条形码化的模板(CBT)的序列同一性值的热图。将每个条形码序列(x-轴)与同一条形码组中的所有其他96种CBT(y-轴)进行比较，并记录序列同一性值。在右侧显示局部比对的概率标度，其中0意指完全错配，且1表示完全匹配。当条形码与自身比对时，对角线代表完全同一性。对于所有非对角CBT，当模板与彼此局部比对时，序列同一性为<85%。

图12阐述由分类器使用的原始读取值与环状条形码化的模板(CBT)比较的代表性热图。将每种原始读取值(x-轴)与所有96种CBT(y-轴)进行比较，并记录条形码匹配概率指数(BMPI)值(方法)。BMPI是条形码鉴别的概率量度，其中可能的范围为[0,1]，如比例尺中所示，其中0意指完全错配，且1表示完全匹配。高于0.80阈值的最大评分BMPI值鉴别每列中的最可能的条形码候选物。0的BMPI值(蓝色)意味着，在初始分类步骤中，原始读取值不满足质量读取标准(方法)。从下游分析丢弃最大BMPI值<0.80和BMPI值为0的读取值。为了清楚起见，此处仅显示50个原始读取评估。

图13阐述条形码化示意图，其举例说明生成条形码文库、纳米孔测序和条形码鉴别的步骤。

详述

定义

还应理解，除非明显相反指示，否则在本文请求保护的包括多个步骤或动作的任何方法中，该方法的步骤或动作的顺序不必限于其中叙述该方法的步骤或动作的顺序。

如本文所用，单数术语"一个/种"和"该/所述"包括复数对象，除非上下文另有清楚指示。类似地，词语“或(or)”意在包括“和(and)”，除非上下文另有清楚指示。包括性定义术语“包括”，使得“包括A或B”意指包括A、B或A和B。

如在说明书和权利要求中所用，“或”应被理解为具有与如上所定义的“和/或”相同的含义。例如，当分开列表中的项目时，“或”或“和/或”应被解释为包括性的，即包括要素的数目或列表中的至少一种，但也包括其中的多于一种，和任选地额外未列出的项目。仅清楚相反地指示的术语，例如“仅之一”或“确切之一”，或当在权利要求书中使用时，“由...组成”将是指包括要素的数目或列表中的确切一种要素。通常，当之前为排他性的术语、诸如"任一"、"之一"、"仅之一"或"确切之一"时，如本文所用的术语“或”应当仅被解释为指示排他性替代方案(例如“一者或另一者，但不是两者”。当在权利要求中使用时，“基本上由…组成”应具有在专利法领域中使用的普通含义。

如本文所用，术语“包含”、“包括”、“具有”等可互换使用且具有相同含义。类似地，“包含”、“包括”、“具有”等可互换使用且具有相同含义。具体地，每个术语都与通常美国专利法“包含”的定义一致地定义，并且因此被解释为开放术语，意指“至少以下”，并且还被解释为不排除额外的特征、限制、方面等。因此，例如，“具有组件a、b和c的装置”意味着该装置至少包括组件a、b和c。类似地，短语：“涉及步骤a、b和c的方法”意味着该方法至少包括步骤a、b和c。此外，尽管本文可以以特定顺序概述所述步骤和过程，但技术人员将认识到，排序步骤和过程可以变化。

如本文在说明书和权利要求中所用，涉及一种或多种要素的列表的短语“至少一种”应理解为意指选自要素的列表中的任何一种或多种要素的至少一种要素，但不一定包括要素的列表内具体列出的各种和每种要素中的至少一种，并且不排除要素的列表中的要素的任何组合。该定义还允许除了短语“至少一种”所指的要素的列表内特别鉴别的要素以外的元件可以任选地存在，无论与特别鉴别的那些要素相关还是无关。因此，作为非限制性实例，“A和B中的至少一种”(或等效地，“A或B中的至少一种”，或等效地“ A和/或B中的至少一种”)可以，在一个实施方案中，是指至少一种A，任选地包括多于一种A，而不存在B(且任选地包括除了B以外的要素)；在另一个实施方案中，是指至少一种B，任选地包括多于一种B，而不存在A(且任选地包括除了A以外的要素)；在又另一个实施方案中，是指至少一种A，任选地包括多于一种A，和至少一种B，任选地包括多于一种B(且任选地包括其他要素)；等。

如本文所用，术语“比对”是指鉴别一对核酸序列中的相似区域。例如，可以比对条形码序列，例如通过Smith & Waterman, Adv. Appl. Math. 2:482 (1981)的局部同源性算法，通过Needleman & Wunsch, J. Mol. Biol. 48:443 (1970)的同源性比对算法，通过Pearson & Lipman, Proc.Nat'l. Acad. Sci. USA 85:2444 (1988)的相似性搜索方法，通过这些算法的计算机化执行(Wisconsin Genetics Software Package, GeneticsComputer Group, 575 Science Dr., Madison, Wis.中的GAP、BESTFIT、FASTA和TFASTA)等等。共同的组分的分数或百分比与核酸序列之间的同源性或同一性相关。比对可用于鉴别保守的结构域和这些结构域内的相关性。

如本文所用，在阵列的上下文中的术语“可寻址的”是指位于离散和限定的区域中的阵列的成员。在本发明的上下文中，每个纳米孔，诸如芯片或生物芯片上的每个纳米孔，都是单独可寻址的，使得可以为每个纳米孔独立地产生测序数据，如本文所述。

如本文所用，术语“条形码”意指存在于核酸序列中以便对其进行鉴别的寡核苷酸。如本文所用，术语“停留时间”是指酶(例如聚合酶)在结合反应期间保持与核苷酸结合的时间长度。在一些实施方案中，酶的停留时间是酶的活性位点中的核苷酸是否正确地以模板核苷酸为基础的函数。例如，携带不正确的核苷酸的酶结合多核苷酸并迅速解离，由于缺乏正确核苷酸结合所赋予的稳定性而产生短的停留时间。相反，携带正确的核苷酸的酶结合多核苷酸并导致更长的停留时间，其包括动力学步骤核苷酸结合和催化。

如本文所用，术语“碱基调用(base call)”、“碱基调用(base calls)”或“碱基调用(base calling)”是指将碱基(核碱基)分配给在测序期间获得的信息的过程，例如通过将核苷酸分配给色谱峰(例如，参见，本文的图1A和4A)。

如本文所用，本文的术语“酶-模板复合物”是指与聚合物(例如，多核苷酸模板)结合/偶联的酶。

如本文所用，术语“纳米孔”是指在膜中形成或以其他方式提供的孔、通道或通路。纳米孔可以通过膜中的分子(例如，蛋白)定义。膜可以是有机膜，诸如脂质双层，或合成膜，诸如由聚合物材料形成的膜。可以将纳米孔设置为邻近或接近传感电路，诸如，例如，互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路。纳米孔可以具有0.1纳米(nm)至约1000 nm的数量级的特征性宽度或直径。一些纳米孔是蛋白。α溶血素是蛋白纳米孔的一个实例。

如本文所用，术语“纳米孔测序复合物”是指与酶(例如，聚合酶)连接或偶联(其进而与聚合物(例如，多核苷酸模板)结合)的纳米孔。所述纳米孔测序复合物位于膜(例如，脂质双层)中，其在所述膜(例如，脂质双层)中发挥功能以鉴别聚合物组分(例如，核苷酸或氨基酸)。

如本文所用，术语“纳米孔测序”或“基于纳米孔的测序”是指借助于纳米孔测定多核苷酸的序列的方法。在一些实施方案中，以模板依赖性方式测定多核苷酸的序列。本文公开的方法不受限于任何纳米孔测序方法、系统或装置。

如本文所用，术语“核酸”是指包含一个或多个核酸亚基的分子。核酸可以包括选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)的一个或多个亚基(碱基)。这些碱基的衍生物例举于PCR Systems, Reagents and Consumables (Perkin ElmerCatalogue 1996-1997, Roche Molecular Systems, Inc., Branchburg, N.J., USA)，其以其整体通过引用并入本文。在一些实例中，核酸是脱氧核糖核酸(DNA)或核糖核酸(RNA)，或其衍生物。核酸可以是单链的或双链的。核酸可以包括任何核酸分子，包括，但不限于，DNA、RNA及其杂合体或变体。

如本文所用，术语“参数”是指表征物理特性或该特性的代表(例如，所评估的酶的动力学特性)的数值。在一些情况下，参数在数值上表征定量数据集和/或定量数据集之间的数值关系。

如本文所用，术语“聚合酶”是指能够催化聚合反应的任何酶。聚合酶的实例包括，但不限于，核酸聚合酶、转录酶或连接酶。聚合酶可以是聚合的酶。“DNA聚合酶”催化脱氧核苷酸的聚合。“RNA聚合酶”催化核糖核苷酸的聚合。

如本文所用，“多核苷酸”是包含如本文所定义的一个或多个核苷酸的聚合物或寡聚物。多核苷酸或寡核苷酸可以包含DNA多核苷酸或寡核苷酸，RNA多核苷酸或寡核苷酸，或DNA多核苷酸或寡核苷酸和/或RNA多核苷酸或寡核苷酸的一个或多个部分。

如本文所用，术语“概率评分”是指与两个核酸序列之间的比对相关的统计值，其中该值范围为0至1，其中0的值指示两个比对的核酸序列之间的完全错配，且其中1的值指示两个比对的核酸序列之间的完全匹配。因此，与接近于零的那些值相比，接近于1的值将指示两个比对的核酸序列之间的更好的匹配。在本发明的上下文中，可以基于生成的测序数据与已知(或对照)核酸序列之间的比对来推导概率评分。

如本文所用，术语“持续合成能力”是指酶(例如聚合酶)保持附接至模板并进行多重修饰反应的能力。“修饰反应”包括但不限于聚合和外切核酸裂解性切割。在一些实施方案中，“持续合成能力”是指酶(例如DNA聚合酶)进行一系列聚合步骤而不干预酶从生长中的DNA链的解离的能力。通常，DNA聚合酶的“持续合成能力”通过这样的核苷酸的数目(例如20 nt、300 nt、0.5-1 kb或更多)来测量，所述核苷酸在DNA聚合酶从生长中的DNA链解离之前通过聚合酶并入(即聚合)至生长中的DNA链。DNA聚合酶的DNA合成的持续合成能力被定义为在从DNA模板解离之前在单个模板结合事件期间聚合酶可以并入DNA的核苷酸的数目。当聚合酶的持续合成能力增加时，DNA合成的总体效率增加。可以根据本文和WO 01/92501A1(其公开内容以其整体通过引用并入本文)中定义的方法测量持续合成能力。持续合成能力涵盖静态持续合成能力和复制性持续合成能力。

如本文所用，术语“读取值”或“序列读取值”是指从核酸分子的任何部分或全部测序的一串核苷酸。在一些实施方案中，术语“读取值”是指从核酸样品的一部分读取的序列。通常，尽管不是必需的，但读取值代表样品中连续碱基的短序列。所述读取值可以通过样品部分的碱基序列(在ATCG中)象征性地代表。其可以在存储装置中读取并适当时进行处理，以确定其是否与参考序列匹配或是否满足其他标准。可以从测序设备直接获得读取值，或者可以从涉及样品的存储的序列信息间接获得读取值。在一些情况下，读取值是足够长度(例如，至少约25个碱基)的序列，其可以用于鉴别较大的序列或区域，例如，其可以进行比对并特异性分配给多核苷酸模板。在一些实施方案中，读取值可以包含小量碱基调用，例如约8个核苷酸(碱基调用)，但同样可以含有大量碱基调用，诸如16个或更多碱基调用，25个或更多碱基调用，50个或更多碱基调用，100个或更多碱基调用，或120个或更多核苷酸或碱基调用。读取值的长度也可以表示为一个或多个样品模板的碱基数。

如本文所用，术语“测序”是指确定核酸中的碱基的顺序和位置。

如本文所用，术语“标签”是指可以是原子或分子或原子或分子的集合的可检测部分。标签可以提供光学、电化学、磁性或静电(例如，感应，电容)特征，其可以借助于纳米孔来检测。

如本文所用，术语“标记的核苷酸”是指具有在其末端磷酸酯处附接的标签的核苷酸。

如本文所用，术语“阈值”是指用作截止值以表征样品、核酸或其部分(例如，读取值)的任何数字。可以将该阈值与测量或计算的值进行比较，以确定是否应当以特定方式对产生这种值的来源进行分类。阈值可以凭经验或分析来鉴别。阈值的选择取决于用户希望具有以进行分类的置信度水平。有时，出于特定目的(例如，以平衡灵敏度和选择性)来选择它们。

如本文所用，术语“变体”是指修饰的蛋白，例如，变体Pol6聚合酶，当与亲本蛋白相比时，其表现出改变的特征，例如，改变的持续合成能力。

酶变体的多重筛选

本文描述了用于使用纳米孔或基于纳米孔的测序多重筛选至少两种不同的酶变体的系统和方法。在一些实施方案中，本文描述的系统和方法使得能够在单分子DNA测序期间监测酶动力学。在一些实施方案中，据信基于纳米孔的测序促进单个核苷酸并入事件的准确检测，并且该技术可以用于以多重和高通量的方式快速筛选酶变体，例如，可以使用纳米孔SBS确定与碱基调用期间的标记核苷酸并入和标签捕获相关的各种度量。

在一些实施方案中，本文描述的系统和方法还可用于筛选不同的纳米孔变体。在其他实施方案中，本文描述的系统和方法还可用于筛选纳米孔变体和酶变体的不同组合。例如，可以筛选具有两种不同的纳米孔变体(N1和N2)和两种不同的酶变体(E1和E2)的四种不同的纳米孔测序复合物(N1E1、N1E2、N2E1、N2E2)。通过进一步实例的方式，对于特定的聚合酶变体(POL*)、条形码和给定组的标记核苷酸，可以缀合多个纳米孔变体(POREn)以形成用于多重测序实验的POREn-POL*纳米孔测序复合物。在一些实施方案中，可以比较标签捕获特征、碱基调用准确度、读取长度和任何其他测序参数，以找到最佳的孔变体(具有给定的POL*和标记的核苷酸)。

尽管本文公开的某些实施方案描述利用间接检测技术的基于纳米孔的测序的用途，即测量作为核苷酸并入事件的副产物的释放的标签，但此类实施方案仅用于说明性目的，并且可以使用任何类型的纳米孔或基于纳米孔的测序方法进行任何两种酶变体的多重筛选，例如可以评估不同的酶变体，其中所述酶变体各自均用作分子马达以驱动单个多核苷酸链通过纳米孔，或者其中可以评估不同的酶变体，其中所述酶变体用于控制多核苷酸转运接近纳米孔。此外，尽管某些实施方案可以描述包括聚合酶突变体的纳米孔测序复合物的形成和测序数据的产生，使得可以推导与各种聚合酶突变体相关的动力学参数，但本文描述的方法可以适于推导任何酶或多核苷酸结合蛋白(例如核酸内切酶、逆转录酶等)的动力学参数。

纳米孔测序

多核苷酸(例如DNA或RNA)的纳米孔测序可以通过多核苷酸序列的链测序和/或外测序来实现。在一些实施方案中，链测序包括这样的方法，通过所述方法，当多核苷酸模板的核苷酸穿过纳米孔时直接测定样品多核苷酸链的核苷酸碱基。在一些实施方案中，多核苷酸可以通过使其穿过膜中的微观孔而进行测序。碱基可以通过它们影响离子从膜的一侧通过所述孔流至另一侧的方式来鉴别。在一些实施方案中，一个蛋白分子可以将DNA螺旋“解压”成两条链。第二蛋白可以在膜中产生孔并容纳“衔接子”分子。通过孔的离子流可以产生电流，由此每个碱基都可以在不同程度上阻断离子流，从而改变电流。所述衔接子分子可以将碱基就地保持足够长时间以使其能够被电子鉴别(参见PCT公开号WO/2018/034745和美国专利申请公开号2018/0044725和2018/0201992，其内容在此以其整体通过引用并入本文)。在一些实施方案中，可以根据Oxford Nanopore (Oxford, UK)、Illumina (SanDiego, Calif.)的基于解旋酶和外切核酸酶的方法或Stratos Genomics (Seattle,Wash.)的边扩增边纳米孔测序方法进行测序。

在一些实施方案中，纳米孔可用于对核酸分子进行间接测序，即，间接测序可以包括任何方法，其中聚合的核酸分子在测序期间不通过纳米孔。在这些实施方案中，所述核酸分子可以至少部分位于纳米孔的前庭中，但不在纳米孔的孔(即，最窄的部分)中。所述核酸分子可以在距纳米孔和/或接近纳米孔的任何合适的距离内通过，并且任选地在一定距离内通过，使得在纳米孔中检测到从核苷酸并入事件释放的副产物(例如，如下所述从标记的核苷酸切割的标签)。

在一些实施方案中，基于纳米孔的测序利用酶，诸如接近纳米孔定位的酶，其将核苷酸并入生长中的多核苷酸链中，其中生长中的多核苷酸链与相应的模板核酸链互补。核苷酸并入事件通过酶、诸如DNA聚合酶或其任何突变体或变体催化，并且使用与模板分子的碱基对相互作用来选择可用于在每个位置处并入的核苷酸。“核苷酸并入事件”是核苷酸并入生长中的多核苷酸链中。核苷酸并入事件的副产物可以通过纳米孔检测。在一些实施方案中，副产物可以与给定类型的核苷酸的并入相关。在一些实施方案中，所述副产物穿过所述纳米孔和/或生成在所述纳米孔中可检测的信号。释放的标签分子(如下所述)是核苷酸并入事件的副产物的实例。通过实例的方式，图1A描绘与纳米孔(130)紧邻结合的DNA聚合酶(120)。将待测序的多核苷酸模板(110)与引物(所述模板与所述酶结合)一起添加。向该纳米孔测序复合物(包括引物)中，将四种不同标记的核苷酸(140)添加至主体水相中。在聚合酶催化的正确核苷酸的并入之后，所述标签将被释放并穿过纳米孔(130)以生成独特的离子电流阻断信号(150)，由此电子地鉴别添加的碱基，因为所述标签各自具有不同的化学结构。与此类基于纳米孔的测序系统和方法相关的额外细节描述于美国专利号9,605,309和9,557,294，其公开内容在此以其整体通过引用并入本文。

在一些实施方案中，用于对核酸样品测序的方法包括(a)聚合标记的核苷酸(例如，使用酶，所述酶使用第一核酸分子作为模板一次并入一个标记的核苷酸)，其中在聚合后释放与单独的核苷酸结合的标签，和(b)借助纳米孔检测释放的标签。在一些实施方案中，所述酶从标记的核苷酸的合并物吸引。如本文所示，每种类型的核苷酸都偶联至不同的标签分子，使得当标签被释放并在纳米孔附近或通过纳米孔穿过时，它们可以基于生成的信号而与彼此区分(参见，例如，图1A)。在一些实施方案中，每个标签可以具有不同的可检测信号，例如，不同的信号强度，不同的信号幅度等，其可以诸如通过碱基调用算法来解释。

在一些实施方案中，并入的核苷酸是标记的核苷酸。标记的核苷酸的实例描述于美国专利申请公开号2015/0368710和2018/0073071，其公开内容在此以其整体通过引用并入本文(还参见Kumar等人, PEG-Labeled Nucleotides and Nanopore Detection forSingle Molecule DNA Sequencing by Synthesis, Sci Rep. 2012; 2:684)。在一些实施方案中，核苷酸并入事件从标记的核苷酸释放标签，其中检测到释放的标签(参见图1A)。以此方式，可以鉴别并入的碱基(即，A、C、G、T或U)，因为从每种类型的核苷酸(即，A、C、G、T或U)释放独特的标签。

在一些实施方案中，释放的标签流过纳米孔或紧邻纳米孔，使得当标签穿过或接近纳米孔时，传感电路检测与标签相关的电信号(参见图1A和1B) 。可以将检测到的信号(即测序数据)收集并储存在存储器位置中，并且后来用于构建核酸的序列。可以将收集的信号处理以解释检测到的信号中的任何异常，诸如误差。合适的纳米孔检测器描述于美国专利申请公开号2011/0193570和2018/0073071，其公开内容在此以其整体通过引用并入本文。同样地，美国专利号9,377,437和8,324,914描述了来自基于纳米孔的测序系统的电信号的收集和分析，其公开内容也在此以其整体通过引用并入本文。

所述纳米孔可以被形成或以其他方式嵌入邻近于传感电路、诸如集成电路的传感电极设置的膜中。所述集成电路可以是应用特异性的集成电路(ASIC)。在一些实例中，所述集成电路是场效应晶体管或互补金属氧化物半导体(CMOS)。所述传感电路可以位于具有纳米孔的芯片或其他装置中，或者位于所述芯片或装置之外，诸如在芯片外构型中。所述半导体可以是任何半导体，包括但不限于IV族(例如，硅)和III-V族半导体(例如，砷化镓)。

用于对核酸样品进行测序的芯片可以包含多个单独可寻址的纳米孔。所述多个中的单独可寻址的纳米孔可以含有在与集成电路相邻设置的膜中形成的至少一个纳米孔。每个单独可寻址的纳米孔都能够检测与单个核苷酸结合的标签。

酶

偶联或以其他方式缀合至纳米孔的酶包括多核苷酸加工酶，例如DNA和RNA聚合酶、逆转录酶、外切核酸酶和解折叠酶。在一些实施方案中，所述酶可以是野生型酶，或者其可以是野生型酶的变体形式。

可以工程改造变体酶以具有相对于亲本酶的特征改变的那些。在一些实施方案中，改变的酶是聚合酶，例如，修饰的聚合酶。如本文所用，术语“修饰的DNA聚合酶”是指源自另一种(即，亲本)DNA聚合酶并且与亲本DNA聚合酶相比含有一个或多个氨基酸改变(例如，氨基酸取代、缺失或插入)的DNA聚合酶。在一些实施方案中，本发明的修饰的DNA聚合酶源自或修饰自天然存在的或野生型DNA聚合酶。在一些实施方案中，本发明的修饰的DNA聚合酶源自或修饰自重组或工程改造的DNA聚合酶，包括但不限于嵌合DNA聚合酶、融合DNA聚合酶或另一种修饰的DNA聚合酶。通常，与亲本聚合酶相比，修饰的DNA聚合酶具有至少一种改变的表型。修饰的聚合酶的实例描述于美国专利申请公开号2016/0222363，其公开内容以其整体通过引用并入本文。

在一些实施方案中，聚合酶的改变的特征可以包括酶活性、保真度、持续合成能力(本文所述)、延伸速率、稳定性或溶解度的改变。“保真度”通常是指聚合酶将正确的核苷酸并入核酸模板的拷贝中的准确度。DNA聚合酶保真度可以被测量为当核苷酸以相同的浓度存在以竞争在聚合酶-引物-模板DNA二元复合物中相同位点处的引物延伸时正确与错误核苷酸并入的比率。在一些实施方案中，可以将所述聚合酶突变以降低聚合酶将核苷酸并入核酸链(例如，生长中的核酸链)的速率。在一些实施方案中，可以通过纳米孔蛋白的位点特异性诱变和DNA加工酶、例如DNA聚合酶并入纳米孔的组合来实现降低的速度(和提高的灵敏度)。

独特可鉴别的多核苷酸模板

参考图2，筛选酶变体中的第一步(200)是形成多种不同的模板，所述模板经设计成与纳米孔测序复合物的酶结合。当在同一生物芯片上以多重方式筛选酶时，存在生成的大量异源测序数据，并且模板最终用于基于与纳米孔测序复合物的特定酶结合的模板(或模板的部分)的鉴别将从每种单独的纳米孔测序复合物获得的测序数据关联回特定酶变体。

例如，如果第一纳米孔测序复合物包括包含第一可鉴别分子条形码的第一模板且第二纳米孔测序复合物包括包含第二可鉴别分子条形码的第二模板，并且进一步假设每种纳米孔测序复合物包括不同的酶变体，当使用基于纳米孔的测序对不同的纳米孔测序复合物内包括的模板进行测序时，可以生成测序数据，使得可以在生成的数据集内检测到第一和第二可鉴别的分子条形码，并且通过将可鉴别分子条形码追踪回特定酶(例如，通过使用如本文所述的分类算法)，从序列数据集推导的动力学数据也可以归因于特定的酶或酶变体。

在一些实施方案中，模板的至少一部分包括独特分子条形码。在一些实施方案中，所述模板包括独特分子条形码和共同读取区域。在一些实施方案中，对于所有模板，共同读取区域是相同的，而对于所有模板，独特分子条形码是不同的。在一些实施方案中，独特分子条形码被附加至共同读取区域以形成多种不同的模板。在一些实施方案中，所述独特分子条形码可以在生成的测序数据内检测到，并且用于鉴别与如本文所述的具有独特分子条形码的模板结合的特定酶。

在一些实施方案中，模板可以具有一般结构：

–[引物]–[共同读取区域]–[独特条形码]，

其中“共同读取区域”对于所有模板都是相同的，且可以是具有10至500个碱基的多核苷酸序列；且其中“独特条形码”是具有5至100个碱基的寡核苷酸序列，且其中每个“独特条形码”是不同的。例如，第一模板可以包含-[引物1]-[共同读取区域1]-[独特条形码1]；而第二不同模板可以包含-[引物1]-[共同读取区域1]-[独特条形码2]。在其他实施方案中，“独特条形码”是具有5至50个碱基的寡核苷酸序列，且其中每个“独特条形码”是不同的。在还有其他实施方案中，“独特条形码”是具有8至25个碱基的寡核苷酸序列，且其中每个“独特条形码”是不同的。在一些实施方案中，所述共同读取区域可以用于表征酶，即，当对于模板的共同读取区域部分生成序列数据时，可以推导度量(诸如如本文所述的标签并入率等)，其可以进行分析且最终用于表征酶。

在一些实施方案中，设计每个“独特条形码”，使得每个条形码与任何其他条形码具有小于85%序列同一性。在一些实施方案中，“独特条形码”与SEQ ID NO:1至3中任一者具有至少90%同一性。在其他实施方案中，“独特条形码”与SEQ ID NO:1至3中任一者具有至少95%同一性。在还有其他实施方案中，“独特条形码”具有SEQ ID NO:1至3中任一者的序列。

在其他实施方案中，整个模板(除了引物区域除以外)可以充当独特标识符。在一些实施方案中，模板可以具有一般结构-[引物]-[预定序列])(还参见本文的实施例1和8)。在一些实施方案中，第一模板可以包括具有500个碱基的“预定序列”，且第二模板也可以包含具有500个碱基的“预定序列”，但其中所述第一和第二模板的预定序列共有少于85%序列同一性。在一些实施方案中，第一模板可以包括具有200个碱基的“预定序列”，且第二模板也可以包含具有200个碱基的“预定序列”，但其中所述第一和第二模板的预定序列共有少于85%序列同一性。在一些实施方案中，第一模板可以包括具有100个碱基的“预定序列”，且第二模板也可以包含具有100个碱基的“预定序列”，但其中所述第一和第二模板的预定序列共有少于85%序列同一性。在一些实施方案中，第一模板可以包括具有50个碱基的“预定序列”，且第二模板也可以包含具有50个碱基的“预定序列”，但其中所述第一和第二模板的预定序列共有少于85%序列同一性。在一些实施方案中，生成的与“预定序列”相关的序列数据可用于独特鉴别和与模板结合的酶的动力学参数的推导。

在一些实施方案中，所述模板多核苷酸可以是环状或哑铃形的。环状模板的实例显示于图1B中且进一步描述于本文的实施例1中。在一些实施方案中，所述环状模板和哑铃形模板可以各自测序多次，例如，5次、10次、20次、50次等。

在一些实施方案中，条形码化核酸模板通过包括以下的方法产生：(a)提供单链核酸模板的群体，其中每种单链核酸模板都包含侧接引物序列的独特条形码序列；(b)消除所述单链核酸模板的一个或多个区域，其具有高碱基配对概率；和(c)选择所述单链核酸模板的亚群，其中所述亚群的每个独特条形码序列与所述亚群的任何其他独特条形码序列是不同的。在一些实施方案中，计算设计单链DNA分子，使得其在中间部分中包括独特的32-碱基条形码区域，其在末端侧接共同19-碱基引物区域，其中最终长度为51-碱基。在一些实施方案中，所述32-碱基区域是独特标识符，而19-碱基区域用于环化(即，其据信除了帮助比对之外没有其他功能)。在一些实施方案中，所述独特标识符包含20至100个碱基。在其他实施方案中，所述独特标识符包含30至80个碱基。在一些实施方案中，计算与条形码相关的最小自由能(MFE)，选择阈值以消除具有高碱基配对概率的区域，其可能形成据信对于聚合酶读取困难的二级结构。在一些实施方案中，所有条形码与彼此具有小于85%序列同一性。

将多核苷酸模板装载至芯片上用于纳米孔测序

在形成多种不同的模板(步骤200)之后，将不同的模板各自与纳米孔-酶缀合物(即，与酶连接的纳米孔)复合，并且装载至芯片(210)上用于基于纳米孔的测序，条件是所有芯片装载有具有两种不同酶变体的至少两种不同的纳米孔测序复合物。

在一些实施方案中，每种不同的纳米孔测序复合物可以包括(i)相同的酶变体和不同的多核苷酸模板；或(ii)不同的酶和不同的多核苷酸模板，再次条件是装载至任何生物芯片上的不同的纳米孔测序复合物中的至少两种包括两种不同的酶变体。通过实例的方式，假设三种聚合酶变体(P1、P2和P3)待根据本文描述的方法筛选。还假设六种不同的模板(T1、T2、T3、T4、T5和T6)可用于与三种不同的聚合酶变体中的任一种复合。一组不同的纳米孔测序复合物可以包括P1T1、P1T2、P2T3、P2T4、P3T5和P3T6。值得注意的是，六种不同的纳米孔测序复合物中的三种包括三种不同的酶变体，允许三种不同的酶变体的动力学的多重分析。另一组纳米孔测序复合物可以包括P1T1、P1T2、P1T3、P2T4、P2T5、P3T6。再一次，六种不同的纳米孔测序复合物中的三种包括三种不同的酶变体，再次促进三种不同的酶变体的动力学的多重分析。又另一替代组酶-模板复合物可以包括P1T1、P1T2、P1T3、P12T4、P2T5、P2T6。在该实例中，在该组不同的纳米孔测序复合物内仅包括两种不同的酶变体，但仍然可以根据本文描述的方法以多重方式筛选两种不同的酶变体。

尽管以上实例举例说明具有最多达三种不同的酶变体的多重检测，但据信对于可以在任何单个芯片上测试的不同酶变体的数目没有上限，即对于具有不同的酶变体的不同的纳米孔测序复合物的数目没有上限。在一些实施方案中，可以根据本发明在单个生物芯片上筛选的酶变体的数目范围为2至约1000。在其他实施方案中，可以根据本发明在单个生物芯片上筛选的酶变体的数目范围为2至约500。在其他实施方案中，可以根据本发明在单个生物芯片上筛选的酶变体的数目范围为2至约250。在其他实施方案中，可以根据本发明在单个生物芯片上筛选的酶变体的数目范围为2至约150。在其他实施方案中，可以根据本发明在单个生物芯片上筛选的酶变体的数目范围为2至约100。在还有其他实施方案中，可以根据本发明筛选的酶变体的数目范围为2至约50。在进一步实施方案中，可以根据本发明筛选的酶变体的数目范围为2至约10。在又进一步实施方案中，可以根据本发明筛选的酶变体的数目范围为3至约8。在甚至进一步实施方案中，可以根据本发明筛选的酶变体的数目范围为4至约8。

在一些实施方案中，每种不同的纳米孔测序复合物可以包括(i)相同的纳米孔变体和不同的多核苷酸模板；或(ii)不同的纳米孔和不同的多核苷酸模板，再次条件是装载至任何生物芯片上的不同的纳米孔测序复合物中的至少两种包括两种不同的纳米孔变体。通过实例的方式，假设三种纳米孔变体(N1、N2和N3)待根据本文描述的方法筛选。还假设六种不同的模板(T1、T2、T3、T4、T5和T6)可用于与三种不同的纳米孔变体中的任一种复合。一组不同的纳米孔测序复合物可以包括N1T1、N1T2、N2T3、N2T4、N3T5和N3T6。值得注意的是，六种不同的纳米孔测序复合物中的三种包括三种不同的纳米孔变体，允许三种不同的纳米孔变体的动力学的多重分析。另一组纳米孔测序复合物可以包括N1T1、N1T2、N1T3、N2T4、N2T5、N3T6。再一次，六种不同的纳米孔测序复合物中的三种包括三种不同的纳米孔变体，再次促进三种不同的酶变体的动力学的多重分析。

然后可以将不同的纳米孔测序复合物(例如，包括不同的酶变体、不同的纳米孔变体或其任何组合的那些)各自插入膜(例如脂质双层)中，并邻近或接近传感电路(诸如基于纳米孔的传感器(例如生物芯片)的集成电路)的传感电极设置(参见图1A)。用于组装纳米孔测序复合物的方法描述于美国专利申请公开号2017/0268052，其公开内容在此以其整体通过引用并入本文。用于将不同的模板各自复合成纳米孔-酶缀合物的其他合适方法包括在PCT公开号WO2014/074727、WO2006/028508和WO2012/083249(各自的公开内容在此以其整体通过引用并入本文)中描述的那些。

可以提供多个纳米孔传感器作为阵列，诸如芯片或生物芯片上存在的阵列。纳米孔的阵列可以具有任何合适数目的纳米孔。在一些情况下，所述阵列包含约200、约400、约600、约800、约1000、约1500、约2000、约3000、约4000、约5000、约10000、约15000、约20000、约40000、约60000、约80000、约100000、约200000、约400000、约600000、约800000、约1000000等个纳米孔。生物芯片和用于制备生物芯片的方法描述于PCT公开号WO2015/061511，其公开内容在此以其整体通过引用并入本文。包含多个纳米孔的另外的合适的生物芯片描述于美国专利申请公开号2017/0268052，其公开内容在此以其整体通过引用并入本文。还有另外的合适的纳米孔阵列描述于美国专利号8,986,928，其公开内容在此以其整体通过引用并入本文。

所述纳米孔测序复合物的纳米孔包括但不限于生物纳米孔、固态纳米孔和杂合生物-固态纳米孔。所述纳米孔测序复合物的生物纳米孔包括来自大肠杆菌物种、沙门氏菌物种(Salmonella sp.)、志贺氏菌物种(Shigella sp.)和假单胞菌物种(Pseudomonas sp.)的OmpG，以及来自金黄色葡萄球菌物种(S. aureus sp.)的α溶血素，来自耻垢分枝杆菌物种(M. smegmatis sp.)的MspA。所述纳米孔可以是野生型纳米孔、变体纳米孔或修饰的变体纳米孔。参见，例如，美国专利申请公开号2017/0088588，其公开内容在此以其整体通过引用并入本文。在一些实施方案中，将所述纳米孔测序复合物的变体纳米孔工程改造以降低其来源的亲本纳米孔的离子电流噪声。还有其他纳米孔描述于美国专利申请公开号2017/0268052和2018/0201993，其公开内容在此以其整体通过引用并入本文。现在已知或以后发现的任何纳米孔变体可以根据本文描述的方法进行筛选，诸如与一种或多种酶变体的筛选同时进行筛选(例如，以鉴别提供期望的特性的纳米孔变体和酶变体对)。

对于每种不同的模板生成序列数据集

在将不同的纳米孔测序复合物装载至芯片上之后(步骤210)，进行基于纳米孔的测序，并且生成数据(步骤220)，即，对于每种纳米孔测序复合物独立地生成测序数据。换句话说，当各自被测序时，对于与每个纳米孔结合的每个多核苷酸模板获取测序数据。此类测序数据(即生成的测序数据集)不仅包括与模板的核苷酸序列相关的数据，而且还包括多种度量，诸如与核苷酸并入率相关的度量。在一些实施方案中，所述度量推导值为准确度、百分比插入、百分比缺失、并入率、加工率、停留时间(例如，标签与纳米孔测序复合物结合的时间)、等待时间(即，停留时间之间的时间)、催化速率、标签-核苷酸“结合速率”、标签核苷酸“解离速率”、标签穿过速率、测序寿命和孔寿命。例如，对于具有独特分子条形码和共同读取区域的模板，用于独特分子条形码部分的数据集内的测序数据可用于鉴别和分类目的(本文所述)，并且共同读取区域的数据集内的测序数据可用于基于例如共同读取区域的测序期间标签并入事件的速率来推导酶动力学。

在一些实施方案中，核酸的测序包括制备如本文所述的纳米孔测序复合物，和确定多核苷酸序列，诸如通过使用标记的核苷酸，如PCT公开号WO/2014/074727(其公开内容在此以其整体通过引用并入本文)中所述。例如，位于与一个或多个传感电极相邻或传感接近的膜中的纳米孔测序复合物可以检测酶(例如，聚合酶)对标记的核苷酸的并入，因为核苷酸碱基被并入与和酶(例如聚合酶)结合的模板互补的链中，并且因此通过纳米孔检测核苷酸的标签。每种标签都生成特征性且分离良好的信号，因此独特地标识添加的碱基。当标签在移动至多核苷酸模板中的下一个碱基之前被聚合酶切割时，并入事件结束。可以收集有价值的测序数据，包括与在碱基调用期间与标记的核苷酸并入和标签捕获相关的多种度量(参见图1B和4A)。可以实时收集和/或监控度量，这增加关于单分子酶(例如聚合酶)动力学的信息。

在一些实施方案中，生成数据文件，其包括每个纳米孔的各种测序参数。在一些实施方案中，利用用于多重酶促筛选的多种测序参数的子集，即核苷酸并入的完整催化循环的速率，核苷酸并入后标签释放的速率，不同核苷酸并入的时间持续时间(t停留)，两次不同核苷酸并入之间的时间持续时间(t等待)，核苷酸并入转变(N→N，其中并入的核苷酸与其之前的核苷酸相同，或N→M，其中并入的核苷酸与先前的核苷酸不同，其中N是A、C、T或G之一)的速率，不同标签捕获的时间持续时间，和每单位时间核苷酸并入期间观察到的电流阻断事件的数目，或可以从与酶活性相关的单分子纳米孔信号推导的任何其他动力学参数。

在一些实施方案中，所述纳米孔可以是包括两个电极的电路的一部分。两个电极之间的电流可以基于哪种核苷酸(碱基)或相应的标签在纳米孔中而变化。可以使用用于测量电路中的电压或电流的任何合适的技术来检测第一电信号。在一些实施方案中，可以通过将纳米孔与电压源偶联而跨纳米孔应用电压(参见图1A)，且随后可以将电压源从纳米孔解偶联，使得可以测定跨纳米孔的电压的衰减速率。根据该方法，可以凭借测量电压和/或衰减速率来将纳米孔内的一个分子(例如正在通过或接近纳米孔穿过的新生链上的标签或核苷酸)与另一分子区分开。在一些实施方案中，通过测量在固定时间间隔期间发生的电压衰减来测定电压衰减的速率。此类方法进一步描述于美国专利号9,557,294和美国专利申请公开号2018/0201933，其公开内容在此以其整体通过引用并入本文。

通常，使用进行各种数据转换(例如，将信号发射转换为碱基调用(参见图4A)，将碱基调用转换为用于序列模板的共有序列，等)的软件和/或统计算法来进行通过测序生成的数据的分析。此类软件、统计算法及其用途详细描述于美国专利申请公开号2009/0024331、2017/0044606和PCT公开号WO/2018/034745，其公开内容在此以其整体通过引用并入本文。在一些实施方案中，使用概率碱基调用算法将电压信号事件转换为原始读取值。

将每个生成的测序数据集分类为与特定酶变体相关

在对于每种纳米孔测序复合物独立生成测序数据(步骤220)之后，将所获取的生成的测序数据集分类为与特定酶变体相关(步骤230)(或者如果利用纳米孔变体，则与特定纳米孔变体相关)。简而言之，该步骤使得对于每个纳米孔获取的测序数据(测序数据集)能够归因于特定的酶或酶变体。在一些实施方案中，基于模板(参见本文的实施例4和8)或与测序的每种不同模板(即与每种不同的纳米孔测序复合物一起包括或结合的模板)相关的独特的可鉴别条形码，将生成的测序数据集各自分类为与特定的酶或酶变体相关。

通过实例的方式，对于使用两种不同的独特条形码与两种不同的酶变体多重化，假设对纳米孔测序复合物P1T1和P2T2内包括的模板T1和T2进行测序并生成两组测序数据，一组测序数据用于P1T1和P2T2中的每一种。进一步假设模板T1和T2中的每一种都包括独特的分子条形码。给定与每种纳米孔测序复合物相关的独特可鉴别的分子条形码，即T1和T2内包含的独特分子条形码，通过使用自动分类算法鉴别原始测序数据中的模板T1和T2(或模板的分子条形码)，生成的P1T1和P2T2的测序数据集可以各自与酶变体P1或P2相关。例如，可以提供过滤的读取数据(满足某些序列长度标准的读取数据)，并且可以将每个测序数据集的读取值针对T1和T2的已知模板序列(或分别已知分子条形码序列)进行比较，使得可以生成概率评分并针对阈值进行比较。满足或超过预定截止值或阈值概率评分值的那些比对用于鉴别模板(或模板的分子条形码部分)和酶。通过扩展，也可以筛选N种聚合酶变体，其装载有N种独特的条形码。对于上述示例(其中N=2)，可以应用相同的分类算法。据信，此处对于N的唯一的限制因素是测序运行期间电极阵列上可用的活性纳米孔的数目，以及具有统计意义的独特条形码所需的观察值的数目。例如，对于128K芯片且对于每个条形码需要至少10次观察，即聚合酶变体，假设孔活性孔产率为100%，可以筛选N=10000种变体；或者假设孔产率为10%，则可以筛选N=1000种变体。

在一些实施方案中，测序的独特分子条形码的鉴别包括：(i)过滤质量读取值以满足最小阈值碱基长度(参见实施例2C)；(ii)使用基于自动化比对的算法推导概率评分(参见实施例2D)；和(iii)评估计算的概率评分是否至少满足预定的阈值概率评分值(参见，例如，本文的实施例4)。在一些实施方案中，通过要求它们的读取长度大于一次完整条形码迭代(51个碱基)且小于十次完整条形码迭代且其共有序列长度大于10个碱基来过滤出质量读取值。在一些实施方案中，为了过滤出用于条形码鉴别的质量原始读取值，可以生成所有筛选的聚合酶变体的累积条形码匹配概率指数(“ BMPI”)作为完整条形码迭代的函数。通常，观察到随着读取长度增加，条形码的BMPI渐近增加，直至分别对于RPol1、RPol2和RPol3进行约10、约14和约20次迭代(参见本文的实施例)。在一些实施方案中，如本文的实施例中进一步描述，可以采取保守的方法，其中考虑具有至多10次完整迭代的原始读取值用于条形码鉴别，而在下游分析中丢弃其他序列的剩余部分。(参见图10)。

在一些实施方案中，所述预定的阈值概率评分值为0.80。在一些实施方案中，基于自动化比对的算法将过滤的质量读取值(即，在处理后保留的满足阈值读取长度标准的获取的核酸序列)与已知分子条形码进行比对，其中已知分子条形码是每种多核苷酸模板内包括(且在不同的纳米孔测序复合物中的每一种内包括或与之结合)的那些独特分子条形码中的每一种。技术人员将理解，与不正确的分子条形码相比，当任何给定序列与其正确的已知分子条形码对比时，将返回更高的概率评分(参见本文的实施例4)。

可以结合本发明使用的算法包括，但不限于，Burrows-Wheeler Aligner(“BWA”)-short (Li和Durbin, Bioinformatics 25, 14:1754-1760 (2009))，BWA-long(Li和Durbin, Bioinformatics 26, 5:589-595 (2010))，和Sequence Search andAlignment by Hashing Algorithm (“SSAHA”) (Ning, Cox和Mullikin, GenomeResearch 11, 10:1725-1729 (2001))。在一些实施方案中，基于比对的算法是基于Smith-Waterman比对的分类算法(参见Smith, T.F.和Waterman, M.S. 1981, Identificationof common molecular subsequences, J. Mol. Biol. 147 195–197，其公开内容在此以其整体通过引用并入本文)。在Smith-Waterman算法中，可以将生成的序列数据与查询序列(例如，已知的模板序列或分子标签序列)进行比较。如Smith-Waterman算法所熟悉，概率评分可归因于所比较的核碱基的不同出现和重叠。在本文的实施例4和8中阐述了对不同纳米孔测序复合物内包括的不同模板各自的测序数据进行分类的实例。

通常，算法接收条形码的原始测序读取值(来自纳米孔实验)，并输出概率评分，即条形码匹配概率指数(BMPI)。在一些实施方案中，该评分描述了与测量集中的其他可能条形码相比可以如何独特地鉴别条形码的相对量度。由于利用的条形码是环状的，测序读取值含有在彼此之后串联的多个条形码读取值，通常最长达500个碱基。该设计帮助从原始读取值鉴别条形码，所述原始读取值是固有地易错的。

在一些实施方案中，通过要求其读取长度大于一次(51个碱基)条形码迭代来过滤出质量读取值。接下来，鉴别原始读取值中的所有条形码迭代边界并将其分成单独的条形码读取值(相同类型的，因为它们从相同的环状条形码生成)(例如，来自1至约10个条形码读取值)。随后，可以使用标准的多序列比对算法来比对这些条形码读取值，并从该比对获得共有条形码。然后，如果共有序列为至少10个碱基，则将共有条形码与筛选实验中使用的所有可能的条形码(例如96个条形码)进行局部比对(参见图10)。最后，最大评分比对(例如，来自所有96次比较)基于序列同一性(条形码中的匹配碱基/总碱基)来鉴别最可能的条形码候选物。因为据信纳米孔测序不是100%准确的，所以可以利用条形码的环状性质来多次读取条形码，以增强在条形码的合并物中独特地鉴别条形码的置信度。

在其中多种不同的纳米孔测序复合物共享同一酶变体的实施方案中，可以将分类为与同一酶变体相关的任何生成的序列数据合并在一起，并且可以从那些合并的测序数据集推导动力学参数。使用上述实例，再次假设待筛选三种聚合酶变体(P1、P2和P3)，并且还假设六种不同的模板(T1、T2、T3、T4、T5和T6)可用于与三种不同的聚合酶变体中的任一种复合。一组不同的纳米孔测序复合物可以再次包括P1T1、P1T2、P2T3、P2T4、P3T5和P3T6。在生成每种不同的纳米孔测序复合物(即，对于P1T1、P1T2、P2T3、P2T4、P3T5和P3T6中的每一种)的测序数据集和随后将每个数据集分类为属于特定酶(即，基于模板序列或模板序列内的条形码的鉴别，为P1、P2或P3)，在该实例中，可以将与酶P1相关的所有数据集合并在一起(即，可以将P1T1和P2T2的数据集合并在一起)。同样，可以将与酶P2或酶P3相关的所有数据集分别合并在一起。然后可以从合并的数据集推导动力学参数(参见本文的实施例9)。

每种不同酶变体的动力学参数的推导

在将生成的数据集分类为属于特定酶变体(步骤230)之后，使用分类的数据集(或合并的如上所述的分类的数据集)，使得可以为每种不同的酶变体推导动力学参数(步骤240)。

在一些实施方案中，可以推导的动力学参数包括，但不限于：(i)停留时间(对于不同碱基调用的时间持续时间，其为标记核苷酸结合纳米孔测序复合物之后且直至标签释放的所有动力学步骤的函数)；(ii) FCR(标记核苷酸并入的完整催化循环的速率)；(iii)核苷酸并入之后的标记释放速率(TRR)；(iv)标签捕获速率(每单位时间在碱基调用期间观察到的电流阻断事件的数目)；和(v)标签捕获停留时间(TCD)(用于不同标签捕获的平均时间持续时间)。在图4A中举例说明，与接收的信号和电流图相比，这些动力学参数各自的推导。还参见本文的实施例7。

通过实例的方式，技术人员可能对筛选具有定义组的动力学特性的特定DNA聚合酶突变体感兴趣，所述动力学特性的特征在于酶保真度、持续合成能力、延伸速率或芯片寿命。在该实例中，可以从由单分子事件产生的电压信号推导与在碱基调用期间的标记核苷酸并入和标记捕获相关的各种动力学参数。此处，停留时间可以被定义为用于不同碱基调用的时间持续时间，其为标记核苷酸结合三元复合物之后且直至标签释放的所有动力学步骤的函数。另外，完整催化速率(FCR)可以定义为两个连续催化事件(标记核苷酸并入的催化循环和通过聚合酶的标签切割)的速率(参见，例如，图3A)。

在一些实施方案中，对于每种核苷酸(即对于A、T、C和G中的每一种)推导动力学参数。例如，当对于每种类型核苷酸推导五种上述类型的动力学参数中的每一种时，可以推导总共20种动力学参数。

在一些实施方案中，可以在单独的动力学参数之间进行比较，并且凭借比较，可以评估所测试的每种不同酶变体的持续合成能力。在一些实施方案中，使用特定酶变体、例如聚合酶变体的测序操作的持续时间可以基于推导的度量进行测量。例如，如果特定聚合酶变体提高持续合成能力，则会预期使用这种聚合酶变体会引起测序寿命的延长。根据我们计算的指标，我们可以平均衡量测序持续多长时间。

装载有多核苷酸结合蛋白-模板复合物的生物芯片

在本发明的另一个方面是装载有多种不同纳米孔测序复合物的生物芯片，其中所述不同的纳米孔测序复合物各自包含不同的多核苷酸模板(例如，各自具有至少一部分，其具有独特可鉴别的条形码)，其中所述多种纳米孔测序复合物中的至少两种不同的纳米孔测序复合物包括两种不同的多核苷酸结合蛋白。换句话说，在生物芯片上提供的所有纳米孔测序复合物中，所述不同的纳米孔测序复合物中的至少两种包含两种不同的多核苷酸结合蛋白或其变体。在一些实施方案中，所述至少两种不同的多核苷酸结合蛋白是两种不同的突变体，例如，包含取代的单个氨基酸改变的突变体。在一些实施方案中，至少两种不同的多核苷酸结合蛋白中的一种是对照，且至少两种不同的多核苷酸结合蛋白中的另一种与对照相比包含至少一种修饰，其中可以引入这种修饰以相对于对照改变所述多核苷酸结合蛋白的活性。

如本文所用的术语“多核苷酸结合蛋白”是指能够结合多核苷酸(例如模板多核苷酸)和控制其相对于纳米孔、例如通过纳米孔的运动的任何蛋白。在一些实施方案中，所述模板被所述多核苷酸结合蛋白结合。在一些实施方案中，多核苷酸结合蛋白包括衍生自多核苷酸处理或加工酶的那些。多核苷酸加工酶是能够与多核苷酸相互作用且修饰或加工多核苷酸的至少一种特性的多肽。所述蛋白可以通过展开双螺旋的链以形成单链DNA的区域来加工多核苷酸。在其他实施方案中，所述蛋白可以通过切割多核苷酸以形成单个核苷酸来加工多核苷酸。所述蛋白可以是例如解旋酶、外切核酸酶、聚合酶、转录因子或其他核酸处理蛋白。

在本发明的另一个方面是用于筛选至少两种多核苷酸结合蛋白的生物芯片，所述生物芯片包括阵列，所述阵列包括设置在膜中的多种不同的纳米孔测序复合物，每种纳米孔测序复合物具有与多核苷酸结合蛋白偶联的纳米孔，所述多核苷酸结合蛋白与特定多核苷酸模板相关，且其中所述多种不同的纳米孔测序复合物中的每种不同的纳米孔测序复合物包含不同的模板，且其中在所述阵列内包括的所述多种不同的纳米孔测序复合物的不同的纳米孔测序复合物中的至少两种具有两种不同的多核苷酸结合蛋白。在一些实施方案中，所述纳米孔测序复合物各自的纳米孔被设置为邻近或接近电极或其他传感电路。在一些实施方案中，每个纳米孔是单独可寻址的。在一些实施方案中，每个纳米孔包括单个多核苷酸-结合蛋白-模板复合物。在一些实施方案中，每个单独的纳米孔被配置为检测穿过纳米孔的核苷酸，或者在一个替代方案中，在通过多核苷酸-结合蛋白将核苷酸并入生长中的多核苷酸链中期间检测与标记的核苷酸相关的标签。

在一些实施方案中，所述多核苷酸结合蛋白是解旋酶，且其中所述解旋酶控制靶标多核苷酸通过纳米孔的运动。在一些实施方案中，本发明提供了装载有至少两种不同的纳米孔测序解旋酶-模板复合物(即与模板结合或结合的解旋酶，与纳米孔偶联的解旋酶)的生物芯片，其中每种不同的复合物包含不同的模板，其使得能够独特鉴别每种复合物；且其中装载至所述芯片上的不同的复合物中的至少两种包括不同的解旋酶(例如两种不同的解旋酶变体)。以这种方式，可以根据本文描述的方法以多重方式筛选解旋酶变体。在一些实施方案中，可以筛选所述解旋酶变体以确定所述变体之间的差异如何改变所述解旋酶变体控制模板多核苷酸的运动的能力。

在一些实施方案中，所述多核苷酸结合蛋白是外切核酸酶，且其中所述外切核酸酶控制从所述模板多核苷酸切割单个核苷酸。在一些实施方案中，本发明提供了装载有至少两种不同的纳米孔测序外切核酸酶-模板复合物(即与模板结合或结合的外切核酸酶，与纳米孔偶联的外切核酸酶)的生物芯片，其中每种不同的复合物包含不同的模板，其使得能够独特鉴别每种复合物；且其中装载至所述芯片上的不同的复合物中的至少两种包括不同的外切核酸酶(例如两种不同的外切核酸酶变体)。以这种方式，可以根据本文描述的方法以多重方式筛选外切核酸酶变体。在一些实施方案中，可以筛选所述外切核酸酶变体以确定所述变体之间的差异如何改变所述外切核酸酶变体切割核苷酸的能力。

在一些实施方案中，所述多核苷酸结合蛋白是聚合酶。在一些实施方案中，本发明提供了装载有至少两种不同的纳米孔测序复合物(即与模板结合或结合的聚合酶，其中所述聚合酶与纳米孔偶联)的生物芯片，其中每种不同的聚合酶-模板复合物包含不同的模板，其使得能够独特鉴别每种复合物；且其中装载至所述芯片上的不同的复合物中的至少两种包括不同的聚合酶(例如两种不同的聚合酶变体)。以这种方式，可以根据本文描述的方法以多重方式筛选聚合酶变体。

实施例

实施例1 –环状DNA模板制备、聚合酶制备和孔蛋白-聚合酶-模板复合物形成

在本文描述的3-重实验(参见实施例3)中，计算机设计51-碱基单链DNA(ssDNA)寡核苷酸，其具有随机的32-碱基条形码区域，其侧接通用的19-碱基引物区域，以独特标识每种聚合酶。将合成模板DNA (IDT, Coralville, IA)使用CircLigase II (EpiCentre,Madison, WI)环化，用外切核酸酶I (NEB, Ipswich, MA)处理，以除去未共价封闭的任何线性模板，且随后进行柱纯化。作为环化的替代策略，使用相同的测序引物作为夹板，以接合模板的末端。由于所述引物跨越在模板的每个末端的约十个碱基，所以T4连接酶然后用于连接和环化。用外切核酸酶I和III处理消化未连接的线性ssDNA模板、过量的引物和双链DNA(形成的发夹)。将所得的引物-退火的环状DNA模板浓缩，脱盐并通过异丙醇沉淀或通过柱纯化(Zymo Oligo Clean and Concentrator, D4060)进行回收。将沉淀物重悬浮于水中，并柱纯化，以从先前的连接步骤除去任何残余的ATP。该方法产生高浓度(与CircLigase方法相比为>10倍)的起始模板/引物复合物，且因此相应地按比例放大最终反应中的模板:聚合酶:孔比率。然后通过加热至95℃持续3分钟、随后以0.1℃/s的速率冷却至20℃，将引物(5’-ATTTTAGCCAGAGTGGGGA–3’)退火至环状条形码化模板。

对于本文描述的高通量多重实验(参见实施例8和9)，计算设计一组96种独特的条形码化ssDNA模板并订购(IDT, Coralville, IA)。构建32-碱基条形码化区域，使得当所述模板中的任一种与全组中的所有其他模板局部比对时，计算的序列同一性始终<85%，以使它们充当独特标识符。然后将它们分为三个单独组(组1 = CBT 1至32；组2 = CBT 33至65，且组3 = CBT 66至96)，其中每组由32种模板组成，或将所有96种模板合并在一起。将这些组的32或96合并模板各自进行环化，引物退火，且然后与独特的聚合酶复合。然后将与独特的聚合酶复合的每组与1:6孔孵育过夜，稀释至2 nM最终浓度，并装载至芯片上。

梭菌噬菌体φCPV4 DNA聚合酶(GenBank:AFH27113.1)被用作野生型。通过定点诱变将专有的位点特异性突变引入DNA聚合酶基因(Roche Sequencing Solutions, SantaClara, CA)，以利用多核苷酸标记的核苷酸增强聚合酶的动力学特性以接近天然核苷酸并入特征。

通过将每0.1M的1:6孔的0.1 M聚合酶和0.1 M的引物-退火的环化DNA模板在4℃下孵育过夜，将纯化的聚合酶和期望的模板与所述孔结合。对于测试模板替换的掺入实验(参见本文实施例5)，将2倍摩尔过量的期望的模板与聚合酶一起孵育，且然后与1:6孔一起孵育过夜，然后装载至芯片上。

实施例2A – 纳米孔实验数据采集

将合成的脂质1,2-二-O-植烷-sn-甘油-3-磷酸胆碱(Avanti Polar Lipids,Alabaster, AL)在十三烷(Sigma-Aldrich, St. Louis, MO)中稀释至15 mg/mL的最终浓度。在CMOS芯片表面上形成平面脂质双层，如本文所述(还参见Stranges, P. B.等人Design and characterization of a nanopore-coupled polymerase for single-molecule DNA sequencing by synthesis on an electrode array. Proc. Natl. Acad.Sci. (2016). doi:10.1073/pnas.1608271113)。测序实验在不对称条件下进行。顺式隔室填充有含有300 mM KGlu、3 mM MgCl2、10 mM LiCl、5 mM TCEP和20 mM HEPES pH 8.0的缓冲液，且反式隔室填充有380 mM KGlu、3 mM MgCl₂和20 mM HEPES pH 8.0，其中MnCl2是在聚合酶延伸反应期间引发和维持沿着模板DNA的连续核苷酸添加的催化阳离子源。将纯化的孔蛋白-聚合酶-模板缀合物在缓冲液中稀释至2 nM的最终浓度。在将10 μL等分试样泵至顺式隔室之后，将单一孔嵌入平面脂质双层中，所述平面脂质双层分开两个隔室，每个隔室含有~5 μL的缓冲液。实验在27℃下用添加至顺式孔中的10 μM标记的核苷酸进行。

实施例2B –数据获取

在与硅基底集成电路的单独可寻址的铂电极之间测量通过纳米孔的离子电流。其由集成的膜片钳放大器(Roche Sequencing Solutions, Santa Clara, CA)组成，所述放大器在跨脂质双层以电压钳模式应用的50 Hz下提供具有占空度为40%的矩形波(Vmax = +220 mV, Vmin = -10 mV)的非法拉第AC调制。使用基于电路的模数转换和噪声过滤(RocheSequencing Solutions, Santa Clara, CA)在每个室以异步配置以2 kHz带宽记录数据，这允许在每个孔复合物处进行独立的序列读取。在各个实验步骤期间，以自动化方式利用精确注射泵(Tecan, Männedorf, Switzerland)将试剂以1 μL/s的流速递送至CMOS芯片的微流体腔室中。软件控制在Python中执行，其经由RS 232通信协议与泵交界。

实施例2C – 原始读取值质量

为了过滤出用于条形码鉴别的高质量原始读取值，生成所有三种聚合酶变体的累积BMPI作为功能完整条形码迭代。观察到，通常，随着读取长度增加，条形码的BMPI渐近增加，直至分别对于RPol1、2和3进行10、14和20次迭代。作为保守的方法，考虑原始读取最多进行10次完整迭代用于条形码鉴别，而在下游分析管道中丢弃其他序列的剩余部分。

实施例2D – 条形码的分类

使用商业概率碱基调用算法(版本2.9.2, Roche Sequencing Solutions, SantaClara, CA)，将离子电流事件转换为原始读取值。然后，将质量原始读取值作为输入值送给基于Smith-Waterman (SW)比对的条形码分类算法，所述算法输出概率评分，条形码匹配概率指数(BMPI)，其描述了与测量组中的其他可能的条形码相比可以如何独特地鉴别条形码的相对量度。更具体地，第一步是将原始环状读取值中的不同区域分类为条形码读取值。这通过将原始读取序列与已知的连接的条形码序列进行局部比对来实现。一旦鉴别所有条形码迭代边界，我们就利用来自Bioinformatics Toolbox of MATLAB (2017a, MathWorks,Natick, MA)的多重比对功能来进行重复的条形码序列的渐进性多重比对。接下来，我们使用“seqconsensus”生成这些多重比对读取值的共有序列，随后将其与实验组中的所有潜在条形码进行局部比对。最终，最大评分(SW)比对鉴别最可能的条形码候选物，其基于特定的输入序列进行评估。该评分被定义为BMPI，并且用于测量条形码鉴别概率，可能范围为[0,1]，其中0意指完全错配，且1表示完全匹配。对于所有比对，模板中的均聚物序列以及原始测序读取值中相同核苷酸的重复碱基调用被视为单个碱基。

在一些实施方案中，环状条形码(诸如其中整个条形码是独特的)的使用通过连续多次读取条形码来校正任何纳米孔测序的不准确性，其用于生成共有条形码。该共有条形码可以被认为是与测序运行中存在的所有其他可能条形码进行比较的“模板”。对于采用由共同读取区域(CRR)和分子条形码构成的环状模板的那些实施方案，概率评分的推导将是相同的。在该情况下，用户将选择使用整个模板(CRR+条形码)或仅使用“真实”条形码区域用于共有序列生成。通常，CRR将帮助确定条形码迭代边界。

实施例3 – 独特模板的测序

为了测试是否可以使用聚合酶-纳米孔系统鉴别环状模板，构建三种合成的单链DNA (ssDNA)分子，其由侧接共同的19-碱基引物区域的独特的32-碱基条形码区域组成(参见实施例1)。所有环状条形码化模板(CBT)都满足两个设计规范：(1)当模板与彼此局部比对以使其充当独特标识符时，所有序列同一性都<85%；和(2)优化结构以消除环化后的高碱基配对概率的区域。利用由Roche Sequencing Solutions工程改造的三种不同的φCPV4DNA聚合酶变体(下文称为RPol)，如实施例1中所阐述。将孔蛋白-聚合酶缀合物与三种独特的环化DNA模板(RPol:CBT)的每一种复合，最后将其装载至芯片上用于九次单独的测序运行。通过实例的方式，如果条形码的二级结构的最小自由能(“MFE”)值高于-10 kcal/mol(例如，由MATLAB脚本'rnafold'用默认设置计算)，则所述条形码的二级结构具有高碱基配对概率。还参见Wuchty, S., Fontana, W., Hofacker, I., 和Schuster, P. (1999).Complete suboptimal folding of RNA and the stability of secondary structures.Biopolymers 49, 145–165; 以及 Matthews, D., Sabina, J., Zuker, M., 和 Turner,D. (1999). Expanded sequence dependence of thermodynamic parameters improvesprediction of RNA secondary structure. J. Mol. Biol. 288, 911–940，其公开内容在此以其整体通过引用并入本文。

为了测量通过纳米孔的电流，利用由Roche Sequencing Solutions开发的含有数千个单独可寻址的电极的互补金属氧化物半导体(CMOS)芯片。在该第二代原型中，通过在跨通道应用AC波形(+220 mV/-10 mV)以50 Hz的频率以40%占空度采样测量值，其使得能够在并入期间重复询问相同的标记的核苷酸(参见实施例2)。依次核苷酸添加被检测为与通过孔的特征性电流水平的所有四种标记的核苷酸相关的连续标签捕获事件。每种标签都生成不同且良好分离的信号，独特地标识添加的碱基。在以离线模式采集数据之后，使用由Roche Sequencing Solutions开发的概率碱基调用软件将记录的离子电流信号转换为原始读取值。收集每种RPol:CBT组合的超过1,000个质量原始读取值，并且在环状模板周围观察到多次完整迭代。这些结果证实聚合酶可以装载有环状模板并且可以对模板进行测序。因此，显示在CMOS芯片上的模板鉴别是可行的。图9A和9B举例说明即使不同的纳米孔测序复合物具有与酶(在此为聚合酶)结合的不同模板，也可以区分和鉴别该每种模板。这些图显示使用对照和三种不同的聚合酶进行的纳米孔测序测定(针对每种碱基C、A、G、T)的结果，每种聚合酶分别与不同的分子条形码结合。当单独测试时，观察到条形码模板的准确度和动力学概况是相当的。

实施例4 – 条形码鉴别

为了证明条形码鉴别的适用性，利用基于Smith-Waterman比对的条形码分类算法，其计算概率评分，其被定义为条形码匹配概率指数(BMPI)，其描述了与测量组中的其他可能的条形码相比可以如何独特地鉴别条形码的相对量度。首先，通过要求它们的读取长度大于一次完整条形码迭代(51个碱基)且其共有序列长度大于10个碱基来过滤出质量读取值。然后，我们使用该分类器来分析RPol1:CBT1测序数据，以估计技术人员可以用其来鉴别装载的条形码化DNA模板的准确度。当将过滤的原始读取值与正确模板(CBT1)进行比较时，计算的BMPI值的平均值为0.85(参见图3A，左小图)。相反，当将相同的读取值与不正确的模板(CBT2和CBT3)进行比对时，平均BMPI值降低至~0.65(图3A，左小图)。使用该条形码鉴别策略，用与两种其他环状模板(其分别分析RPol1:CBT2和RPol1:CBT3测序数据集)结合的相同的聚合酶变体进行类似的分类。对于两种情况，当将原始读取值与正确的模板进行比较时，平均BMPI值为> 0.80，并且当与不正确的模板进行比较时，平均BMPI值为<0.80(图3A，中间和右小图)。类似地，如对于CBT1所示，CBT2和CBT3两者均基于上面建立的测序比对度量独特地鉴别聚合酶变体。接下来，将其他两种孔蛋白-聚合酶变体(RPol2、RPol3)(其各自装载有三种独特的环状DNA模板)的测序数据集与上述RPol1类似地进行分类。对于所有情况，成功地鉴别装载在聚合酶变体上的条形码化模板(图3B和3C)。为了进一步测试分类器的可行性，确定当特定原始读取值的BMPI值为>0.80时，通过计算混淆矩阵，错误鉴别条形码的概率仅为~2%。由于该原因，选择0.8 BMPI作为阈值以高置信度鉴别条形码。该证据表明，当获得>50个碱基的读取值时，可以基于BMPI值鉴别与聚合酶结合的模板。

实施例5 – 条形码替换

在证实可以在CMOS芯片上鉴别装载在每种聚合酶上的DNA模板之后，确定一旦形成孔蛋白-聚合酶-模板复合物，是否可以用不同的模板替换模板。为了测试该假设，组装RPol2:CBT2复合物，随后将其装载至芯片上用于四种不同的测序运行。首先，实施对照运行，其中在孔插入后仅添加标记的核苷酸。通过采用本文所述的条形码分类器，确定当将原始测序读取值与正确模板(CBT2)进行比较时，平均BMPI值为0.85。相反，当相同的读取值与不正确的模板(CBT1)进行比对时，该值降低至~0.70。如前所示，这证实0.8 BMPI可用作条形码鉴别的阈值。接下来，在第二组实验中，在孔蛋白-聚合酶-模板组装后立即掺入5倍摩尔过量的次级条形码(CBT1)，其模拟在组装期间用在相同反应体积中存在的一组条形码的多重情形。在两个单独的实验中，将该复合物在短暂(<5分钟)孵育时段后和过夜(~12小时)孵育时段后插入膜中，其提供了两个不同的时间持续时间用于添加的二级模板替换已经与孔蛋白-聚合酶结合的一级模板。然后，添加标记的核苷酸用于随后的测序反应。对于两种情况，当将原始读取值与正确的模板进行比较时，平均BMPI值为> 0.80，并且当与不正确的模板进行比较时，平均BMPI值为<0.80。结果表明，即使在与第二条形码孵育过夜之后，也没有发生条形码替换。此外，还测试芯片上条形码替换的可能性，其模拟用在CMOS芯片的顺式腔室中的相同反应空间中存在的多个条形码的高通量情形。在该最后实验中，当第二条形码(CBT1)在孔插入后与标记的核苷酸一起掺入时，条形码分类结果表明聚合酶变体用其相应的条形码独特地标记。再次，对于正确的模板(CBT2)和错误的模板(CBT1)，平均BMPI评分分别高于和低于0.80的阈值。这证实，一旦聚合酶装载有条形码，其就不被另一模板替换。单一运行中的大量质量原始读取值连同为特定聚合酶变体分配独特条形码，提供了可以筛选多种聚合酶并且可以区分装载在每种聚合酶上的不同模板的置信度。图8A-8D举例说明对于测试的三种不同的聚合酶，即使将复合物混合在一起，与聚合酶结合的模板也不交换。这些图显示纳米孔测序测定的结果，其表明条形码化模板可用于区分相同测序芯片上的不同聚合酶动力学。对于每组三种聚合酶都使用两种不同的富集策略(内-和后-)，但未观察到差异。

实施例6 – 聚合酶的动力学特性

可以从由单分子事件产生的电信号推导与在碱基调用期间的标记核苷酸并入和标记捕获相关的各种动力学参数。此处，停留时间被定义为用于不同碱基调用的时间持续时间，其为标记的核苷酸结合三元复合物之后且直至标签释放的所有动力学步骤的函数，并且标记的核苷酸并入的完整催化循环的速率被定义为FCR(图4A)。作为初始测试，对于装载有独特CBT的三种聚合酶变体中的每一种，从图3A-3C中显示的已经收集的测序数据计算这些动力学参数。当比较各自装载有相同模板的三种不同的聚合酶突变体时，确定对于所有四种碱基(A、C、T和G)，RPol1的平均FCR为~0.6 s-1，RPol2的平均FCR为~1.4 s-1，且RPol3的平均FCR为~2.0 s-1，而无论装载的DNA模板的序列背景(图4B)。类似地，标记的核苷酸捕获的平均停留时间的分析也与条形码含量无关，其中分别地，RPol1的计算值为~1.3s，RPol2的计算值为~0.7 s，且RPol3的计算值为~0.5 s(图5A、5B和5C)。这些结果表明，对于每种聚合酶变体，动力学参数是统计学不同的，并且它们与条形码序列背景无关(图4B)。由于该原因，将装载有不同模板的三种聚合酶变体的每一种的测序数据归至同一数据集中用于下游分析。这允许我们基于模板鉴别对聚合酶动力学进行分类。

实施例7 –主成分分析

由于每种聚合酶变体具有独特的动力学参数组，这打开了使用纳米孔阵列上的测序在各种聚合酶突变体中直接区分它们的潜能。为了评估这种可能性，定义在主成分分析(PCA)中待使用的三种额外动力学参数，即核苷酸并入后的标签释放速率(TRR)、作为每单位时间在碱基调用期间观察到的电流阻断事件的数目的标签捕获速率(TCR)以及作为不同标签捕获(即在AC捕获时段期间的标签穿过事件)的平均时间持续时间的标签捕获停留时间(TCD)(图4A)。通过要求其读取长度大于一次且小于十次的完整条形码迭代来过滤出质量读取值。该阈值使下游分析中固有易错的原始读取值(在纳米孔测序期间生成)的存在最大化。然后，基于20种推导的动力学特性(即，四种标记核苷酸各自的五种独特动力学参数)，对三种聚合酶变体各自的过滤的测序数据使用PCA(参见，例如，下表1，其显示Rpol1的PCA系数)。每种聚合酶的动力学特征至前三主成分上的基于PCA的2D投影显示不同的分离(图6A、6B和6C)。因此，表明可以通过使用来自多种动力学参数的信息来独特地鉴别聚合酶变体。

表1：从RPol1的单分子测序信号推导的20种动力学特性的前三主成分的系数。FCR：标记核苷酸并入的完整催化循环的速率，TRR：核苷酸并入后标签释放的速率，t停留：不同碱基调用的时间持续时间，TCD：不同标签捕获的平均时间持续时间，TCR：每单位时间在碱基调用期间观察到的电流阻断事件的数目。动力学参数前面的大写字母是指四种标记核苷酸中的每一种。将每种主成分归一化，使得所有其系数之和为1。

使用来自MATLAB (2017a, MathWorks, Natick, MA)的统计和机器学习工具箱的pca函数进行标准主成分分析。将输入变量按比例缩放以具有零平均值和单位方差，并且从整个数据集确定所得的第一、第二和第三主成分。为了生成主成分散点图(图6A至6C)，首先将每种聚合酶变体的所有测序数据投影至这前三种主成分上。然后，通过将每种主成分的所有数据点进行居中和按比例缩放，将这些值转换为z评分。

实施例8 –多重聚合酶测量

实施例3至7确立条形码化的聚合酶筛选的原理。实际上，技术人员可能希望在定向进化方案中的这些技术来找到具有期望的动力学特性的聚合酶变体。作为原理的证明，在单独的模板结合反应中，使用随机分配(RPol1:CBT1、RPol2:CBT2和RPol3:CBT3)，将三种纳米孔偶联的聚合酶变体装载有独特的ssDNA模板。接下来，将它们以等摩尔比合并，且插入CMOS芯片中用于测序反应。计算生成的随机的51-碱基序列以及第二模板(由随机的32-聚体条形码区域与通用的19-碱基侧接引物位点构成)用作对照模板。利用我们的条形码分类算法，当将原始读取值与聚合酶上装载的(正确)模板(相比于两种随机模板)进行比较时，平均而言，我们发现高于0.8的阈值的更高的BMPI评分。尽管在该合并实验中每种RPol:CBT的平均BMPI值为~0.70，但高置信度条形码鉴别仍然是可能的，因为原始读取数据中的~67%被鉴别为三种条形码中的任一种，其最初已装载至合并的3-重测序实验中的聚合酶变体上。

为了探索高通量多重化的潜能，设计具有与“单重”实验所述相同的环状拓扑学的96种合成的独特的条形码化ssDNA模板。计算构建32-碱基条形码化区域，使得当所述模板中的任一种与全组中的所有其他模板局部比对时，计算的序列同一性始终<85%，以使它们充当独特标识符。未对结构进行MFE-优化，因为我们已经显示条形码分类器与二级结构差异无关。为了进一步测试这些模板设计用于高准确度条形码鉴别，我们实施计算机芯片上算法，其从“单重”测序实验中采样1000个随机质量读取值，随后通过将它们与实验特异性(正确)模板或与从我们的96个序列的列表随机选择的模板(不正确的模板)进行比较对其进行分类。将随机选择的质量读取值与正确的模板进行比较时，平均BMPI值为0.85。相反，当将相同的读取值与从我们的列表随机选择的模板进行比较时，平均BMPI值迁移低于~0.55。该计算机芯片上测试表明独特可鉴别的聚合酶-条形码分配方案的可行性。

接下来，为了实验评估这些条形码化的模板，纳米孔-偶联的RPol2装载有这96种独特的CBT，随后将其插入脂质双层中用于测序实验。然后，使用所述分类器来分析RPol2:CBT1-96测序数据，用于估计技术人员可以用其来鉴别单一实验中的装载的CBT中的每一种的准确度。将获得的每组质量读取值与所有96种CBT进行比较，并记录BMPI评分。高于0.80阈值的最大评分BMPI值鉴别用于每种比较的最可能的条形码候选物。从下游分析丢弃具有小于0.80的最大BMPI值的读取值。将所有此类分类的条形码进行计数并显示在柱状图上。使用该分类方案，通过评估1,067个质量原始读取值，可以独特地鉴别96种可能的条形码中的94种条形码(98%)。平均而言，在测量期间至少20次观察到单独的条形码。这些观察通过孔蛋白-聚合酶-模板组装的随机性质以及在测量18前将复合物插入脂质双层中而如所预期随机分布。因此表明可以以96重方式鉴别聚合酶结合的条形码化的DNA模板。

在证实大规模条形码鉴别的能力之后，进一步评估本文所述的方法以显示在同一实验中的多种聚合酶的多重动力学概况。为了对此进行测试，在分开的模板结合反应中，三种纳米孔偶联的聚合酶变体中的每一种都装载有来自我们的96种独特CBT的文库的第一组32种模板(RPol1:CBT1-32)、第二组33至64种模板(RPol2:CBT33-64)和第三组65-96种模板。随后，然后将它们以等摩尔比混合，且插入CMOS芯片中用于测序反应。使用与用于96-重实验相同的条形码分类策略，并且如所预期获得随机分布的频率柱状图(图7A)。通过评估1,958个质量原始读取值，基于BMPI截止值鉴别所有96种可能的条形码。平均而言，对单独的条形码进行至少20次采样，并且观察频率在测量期间范围为2-68。条形码计数的不均匀分布(CBT1-32：低，CBT33-64：高，CBT65-96：高)反映先前观察到的三种不同聚合酶变体的持续合成能力差异。还对三种制备的复合物中的每一种单独地进行三次分别的对照实验，以评价合并测序反应中的条形码鉴别特异性。使用与对于单聚合酶、96-重实验相同的分类方案，从每组的32种可能的条形码，对于RPol1:CBT1-32(质量原始读取值的数目，n = 67)独特地鉴别20种条形码(63%)，对于RPol2:CBT33-64 (n =249)和RPol3:CBT65-96 (n =383)两者独特地鉴别29种条形码(90%)。对于RPol1，以5的平均频率观察到单独的条形码，其反映其缓慢的持续合成能力。同时，对于RPol2和RPol3，将条形码平均而言至少10次计数，范围为1-28个不同的观察值。因此，显示可以独特地鉴别在其相应组中的条形码，其中平均假阳性率为仅~13%。此处，表明可以以96-重方式鉴别装载有多种不同条形码化的模板的三种聚合酶变体。

实施例9 –多重动力学测量

最后，为了表明我们的方法的最终实用效用，我们试图确定条形码测序数据如何好地映射回聚合酶变体的已经确定的动力学特性(参见图6A至6C)。首先，对基于如上述实例中的20种推导的动力学特性的图7A中显示的多重测序数据使用PCA，其中在一组中累积每个条形码组(分别为CBT1-32、CBT33-64和CBT65-96)中的所有鉴别的条形码。在大多数情况下，当与从单独的“单重” RPol-CBT实验推导的原始PCA簇覆盖时，这些条形码组各自的动力学特性的2D投影至前两个主成分上良好地映射回(图6A至6C)。此处，簇覆盖是分类器准确度的量度，其描述了其如何好地仅基于条形码测序信息区分聚合酶变体动力学。对应于第二条形码集(CBT33-64)的测序数据无法良好地映射回，这可能是由于该集中的条形码鉴别的高假阳性率。另一方面，对应于单独的条形码的测序数据可以以高准确度映射回，其突出了在多重实验中鉴别单一聚合酶变体的潜能。在此，已经显示，可以通过应用本文所述的基于纳米孔的条形码测序技术来独特地鉴别具有期望组的动力学特性的聚合酶变体。这指向在定向进化方案中鉴别具有期望的动力学特性的聚合酶变体的未来效用，其可以用多重设计(影响动力学特性的关键残基变化)、构造(定点诱变)和测试(聚合酶突变体合并物的条形码测序)循环迭代地精化。

在纳米孔-SBS中，在模板DNA测序期间测量聚合酶动力学，并且不需要另外的样品制备。结果证实我们可以用环状模板装载聚合酶并测序这些模板。通过实现相同条形码化模板的重复询问，我们表明使用基于比对的分类算法的高灵敏度条形码鉴别。这些DNA模板还使得我们能够区分由定点诱变产生的聚合酶的动力学参数，所述聚合酶已装载有独特的条形码化模板。最后，我们在CMOS芯片的数千个单独可寻址的孔中显示高多重潜能。从条形码测序信息获得的每种聚合酶变体的独特动力学特征允许在同一样品中区分它们。因此，这种基于纳米孔的平台可以充当DNA聚合酶的多重筛选工具的基础，并且可以通过将期望的分子事件与观察到的通过纳米孔的离子电流改变关联进一步扩展至单分子酶活性或蛋白-蛋白相互作用研究中的广泛范围的应用。

在纳米孔-SBS中，在模板DNA测序期间测量聚合酶动力学，并且不需要另外的样品制备。本文呈现的结果证实聚合酶可以装载有环状模板并且可以对那些模板进行测序。通过实现相同条形码化模板的重复询问，我们表明使用基于比对的分类算法的高灵敏度条形码鉴别。这些DNA模板还使得我们能够区分由定点诱变产生的聚合酶的动力学参数，所述聚合酶已装载有独特的条形码化模板。最后，我们在CMOS芯片的数千个单独可寻址的孔中显示高多重潜能。从条形码测序信息获得的每种聚合酶变体的独特动力学特征允许在同一样品中区分它们。

额外实施方案

在本发明的另一个方面是鉴别具有一组期望的动力学特性的聚合酶的方法，所述方法包括：(a)提供装置，其包含(i)具有包含膜嵌入的纳米孔的膜的纳米孔阵列，其中每个纳米孔均与聚合酶结合，所述聚合酶与环化条形码化核酸模板复合，其中所述纳米孔中的至少两个与不同的聚合酶变体结合，所述聚合酶变体各自与不同的环化条形码化核酸模板复合，(ii)在所述膜的顺侧的参考电极和在所述膜的反侧的单独可寻址的电极阵列，和(iii)与两个电极接触的电解质溶液；(b)使所述纳米孔阵列与一组核苷酸接触，其中每个核苷酸具有不同的标签，当在碱基并入期间捕获标签时，所述标签产生不同的信号；和(c)经一段时间检测不同的信号(i)以鉴别对应于环化条形码化核酸模板的条形码序列的核酸序列，和(ii)推导独特的动力学特征，其各自对应于所述纳米孔阵列的单一聚合酶，由此鉴别具有期望组的动力学特性的聚合酶。在一些实施方案中，步骤(c)被重复多次，例如，至少10次。在一些实施方案中，其中(c)的检测步骤包括测量以下动力学特性中的至少一种：标记核苷酸并入的完整催化循环的速率(FCR)，核苷酸并入后的标签释放的速率(TRR)，对于不同的碱基调用的时间持续时间(t停留)，不同标记捕获的平均时间持续时间(TCD)，和每单位时间在碱基调用期间观察到的电流阻断事件的数目(TCR)。

在一些实施方案中，具有期望组的动力学特性的聚合酶通过包括以下的方法鉴别：对环化的条形码化核酸模板进行测序，产生原始测序读取值的群体，和从所述群体除去长度短于线性条形码化核酸模板的长度的测序读取值，其中每个原始测序读取值含有与彼此连接的多个条形码读取值；通过以下将原始测序读取值分类为条形码序列读取值：将所述原始测序读取值与已知条形码序列比对，其任选地使用通过下式计算的连接乘数(CM)：CM=sup(Lraw/Lbar)，其中Lraw是原始读取值的长度，Lbar是已知条形码序列的长度；将渐进多重序列比对算法应用于条形码序列读取值，产生条形码比对，和基于条形码比对产生共有条形码；和将所述共有条形码与步骤(a)的不同的环化的条形码化核酸模板的条形码比对，产生最大比对评分，和基于所述最大比对评分鉴别具有期望组的动力学特性的聚合酶，其中0的最大比对评分指示完全错配，且1的最大比对评分指示完全匹配。在一些实施方案中，其中所述原始测序读取值具有100至100000；或100至10000；100至1000个核苷酸碱基；400至600个核苷酸碱基；或500个核苷酸碱基的长度。在一些实施方案中，所述共有条形码具有至少10个核苷酸的长度。

在一些实施方案中，将所述环化的条形码化的核酸模板与引物退火。在一些实施方案中，所述膜是脂质双层。在一些实施方案中，所述聚合酶是DNA聚合酶。在一些实施方案中，不同的聚合酶是相同类型的聚合酶的变体。在一些实施方案中，不同的聚合酶是不同类型的聚合酶。在一些实施方案中，所述纳米孔阵列包含至少10种不同的聚合酶。在一些实施方案中，所述纳米孔阵列包含至少50种不同的聚合酶。在一些实施方案中，所述纳米孔阵列包含10至100,000种不同的聚合酶。在一些实施方案中，步骤(c)(i)的核酸序列使用概率碱基调用算法从不同信号产生。

在一些实施方案中，所述条形码化核酸模板通过包括以下的方法产生：(a)提供单链核酸模板的群体，其中每种单链核酸模板都包含侧接引物序列的独特条形码序列；(b)消除所述单链核酸模板的一个或多个区域，其具有高碱基配对概率；和(c)选择所述单链核酸模板的亚群，其中所述亚群的每个独特条形码序列与所述亚群的任何其他独特条形码序列是不同的。

在本发明的另一个方面是装置，其包含：(a)具有包含膜嵌入的纳米孔的膜的纳米孔阵列，其中至少两种纳米孔与不同的聚合酶结合，每种不同的聚合酶与不同的环化的条形码化的核酸模板复合，(b)在所述膜的顺侧的参考电极，和在所述膜的反侧的单独可寻址的电极阵列，和(c)与两个电极接触的电解质溶液。在一些实施方案中，所述装置进一步包含一组核苷酸，其中每种核苷酸具有不同的标签，当所述标签在碱基并入期间被捕获于阵列的纳米孔中时，所述标签产生不同的信号。在一些实施方案中，将所述环化的条形码化的核酸模板与引物退火。在一些实施方案中，所述膜是脂质双层。在一些实施方案中，所述聚合酶是DNA聚合酶。在一些实施方案中，不同的聚合酶是相同类型的聚合酶的变体。在一些实施方案中，不同的聚合酶是不同类型的聚合酶。在一些实施方案中，所述纳米孔阵列包含至少10种不同的聚合酶。在一些实施方案中，所述纳米孔阵列包含至少50种不同的聚合酶。在一些实施方案中，所述纳米孔阵列包含10至100,000种不同的聚合酶。

在本发明的另一个方面是试剂盒，其包含：装置，其包含：(i)具有包含膜嵌入的纳米孔的膜的纳米孔阵列，和(ii)在所述膜的顺侧的参考电极和在所述膜的反侧的单独可寻址的电极阵列；和一组不同的聚合酶，每种酶都装载或复合有不同的环化的条形码化的核酸模板。在一些实施方案中，所述试剂盒进一步包含一组核苷酸，其中每种核苷酸具有不同的标签，当所述标签被捕获于阵列的纳米孔中时，所述标签产生不同的信号。在一些实施方案中，所述试剂盒进一步包含电解质溶液。在一些实施方案中，该组不同的聚合酶包含至少10种不同的聚合酶。

在本发明的另一个方面是用于生成条形码化的核酸模板的方法，所述方法包括：(a)提供单链核酸模板的群体，其中每种单链核酸模板都包含侧接引物序列的独特条形码序列；(b)消除所述单链核酸模板的至少一个区域，其具有高碱基配对概率，任选地其中高碱基配对概率是通过MATLAB脚本'rnafold'计算的高于-10 kcal/mol的最小自由能(MFE)值，和(c)选择所述单链核酸模板的亚群，其中所述亚群的每个独特条形码序列与所述亚群的任何其他独特条形码序列是不同的。在一些实施方案中，步骤(b)包括确定与所述亚群的独特条形码序列相关的MFE，基于所述MFE选择阈值，和基于所述阈值消除一个或多个区域。

在一些实施方案中，所述独特条形码序列具有20至50个核苷酸或30至40个核苷酸的长度。在一些实施方案中，所述引物序列与彼此具有至少95%同一性，或与彼此具有100%同一性。在一些实施方案中，所述引物序列的长度是10至30个核苷酸，或20至25个核苷酸。在一些实施方案中，所述群体和/或亚群的单链核酸模板具有40至200个核苷酸、40至100或45至55个核苷酸的长度。在一些实施方案中，所述亚群包含至少100、至少1000、至少10000或至少100,000种单链核酸模板，所述单链核酸模板包含独特条形码序列。在一些实施方案中，所述方法进一步包括环化所述亚群的单链核酸模板。

在一些实施方案中是使用基于纳米孔的测序来筛选多种不同酶变体的方法，其包括：获得包括多种不同纳米孔测序复合物的生物芯片，其中多种不同纳米孔测序复合物的每种不同纳米孔测序复合物包括具有独特分子条形码的多核苷酸，且其中所述不同纳米孔测序复合物中的至少两种包括不同的酶变体；对于装载至所述芯片上的每种不同纳米孔测序复合物生成测序数据集；基于所述不同纳米孔测序复合物的多核苷酸中包括的独特分子条形码的鉴别，将生成的测序数据集各自分类为与多种不同酶变体中的一种不同酶变体相关；和对于所述多种不同酶变体中的酶变体中的每一种推导多种参数，其中基于与所述不同酶变体中的相应一种相关的分类的序列数据集，推导所述不同酶变体中的每一种的多种参数。在利用环化模板的实施方案中，通过以下将生成的测序数据集各自分类为与特定酶相关：(a)从生成的测序数据集除去长度短于线性化的条形码化的核酸模板的长度的测序读取值，其中每个原始测序读取值含有与彼此连接的多个条形码读取值；(b)通过以下将测序数据集中的原始测序读取值分类为条形码序列读取值：将所述原始测序读取值与已知(对照)条形码序列比对，其任选地使用通过下式计算的连接乘数(CM)：CM=sup(Lraw/Lbar)，其中Lraw是原始读取值的长度，Lbar是已知条形码序列的长度；将渐进多重序列比对算法应用于条形码序列读取值，产生条形码比对，和基于条形码比对产生共有条形码；和将所述共有条形码与对其生成测序数据集的纳米孔测序复合物的不同模板的条形码比对；其中0的最大比对评分指示完全错配，且1的最大比对评分指示完全匹配。

在一些实施方案中，且为了测试我们是否可以使用聚合酶-纳米孔系统鉴别环状模板，设计三种合成的单链DNA (ssDNA)分子，其由侧接共同的19-碱基引物区域的独特的32-碱基条形码区域组成。使用CircLigase或T4连接酶利用引物区域作为夹板将它们环化，然后用相同的通用引物引发以生成环状条形码化的模板(CBT)。所有CBT都满足两种设计规范：(1)当将模板与彼此局部比对以使其充当独特标识符时，所有序列同一性都<85%，和(2)优化结构以消除环化后高碱基配对概率的区域。

在一些实施方案中，为了表明条形码鉴别的适用性，执行基于Smith-Waterman比对的条形码分类算法，其计算概率评分，此后被定义为条形码匹配概率指数(BMPI)，其描述了与测量组中的其他可能的条形码相比可以如何独特地鉴别条形码的相对量度。首先，通过要求它们的读取长度大于一个完整条形码迭代(51个碱基)且小于十个完整条形码迭代且其共有序列长度大于10个碱基来过滤出质量读取值。

在一些实施方案中，使用商业概率碱基调用算法(版本2.9.2, Roche SequencingSolutions, Santa Clara, CA)，将电压信号事件转换为原始读取值。然后将读取长度大于一次完整条形码迭代(51个碱基)的原始读取值作为输入送至基于Smith-Waterman (SW)比对的条形码分类算法，其将BMPI值分配给该读取值。更具体地，第一步是将原始环状读取值中的不同区域分类为条形码读取值。这通过将原始读取序列与已知的连接的条形码序列进行局部比对来实现，其中连接乘数(CM)通过下式计算：

CM=sup(L_raw/L_bar )

其中Lraw是原始读取值的长度；Lbarcode是条形码的长度，且CM是整数。一旦鉴别所有条形码迭代边界，我们就利用来自MATLAB (2017a, MathWorks, Natick, MA)的生物信息学工具箱的多重比对功能来进行重复的条形码序列的渐进性多重比对。接下来，我们使用seqconsensus生成这些多重比对读取值的共有序列，随后如果共有序列长度为至少10个碱基，则将其与实验组中的所有潜在条形码进行局部比对。最终，最大评分(SW)序列鉴别最可能的条形码候选物，其基于特定的输入序列进行评估。该评分被定义为BMPI，并且用于测量条形码鉴别概率，可能范围为[0,1]，其中0意指完全错配，且1表示完全匹配。对于所有比对，模板中的均聚物序列以及原始测序读取值中相同核苷酸的重复碱基调用被视为单个碱基。

在本说明书中提及和/或在申请数据表中列出的所有美国专利、美国专利申请公开、美国专利申请、外国专利、外国专利申请和非专利出版物以其整体通过引用并入本文。如果必要，可以修改实施方案的方面，以采用各种专利、申请和出版物的概念以提供另外的实施方案。

尽管已经参考许多说明性实施方案描述了本发明，但应当理解，本领域技术人员可以设计落入本发明的原理的精神和范围内的许多其他修改和实施方案。更具体地，在不背离本发明的精神的情况下，在前述公开、附图和所附权利要求的范围内的主题组合排列的组成部分和/或排列中的合理变化和修改是可能的。除了组成部分和/或排列的变化和修改之外，替代用途对于本领域技术人员也是显而易见的。

Claims

1.使用基于纳米孔的测序来筛选多种不同DNA聚合酶的方法，其包括：

a.获得包括多种不同纳米孔测序复合物的生物芯片，其中所述多种不同纳米孔测序复合物的每种不同纳米孔测序复合物包括具有独特分子条形码的多核苷酸，且其中所述不同纳米孔测序复合物中的至少两种具有不同的DNA聚合酶；

b.对于装载至所述芯片上的每种不同纳米孔测序复合物生成测序数据集；

c.基于所述不同纳米孔测序复合物的多核苷酸中包括的独特分子条形码的鉴别，将生成的测序数据集各自分类为与多种不同DNA聚合酶中的一种不同DNA聚合酶相关；和

d.对于所述多种不同DNA聚合酶中的DNA聚合酶中的每一种推导多种参数，其中基于与所述不同DNA聚合酶中的相应一种相关的分类的序列数据集，推导所述不同DNA聚合酶中的每一种的多种参数；

其中在所述不同纳米孔测序复合物中包括的独特分子条形码的鉴别包括：(i)过滤质量读取值以满足最小阈值碱基长度；(ii)使用基于自动化比对的算法推导概率评分；和(iii)评估计算的概率评分是否至少满足预定的阈值概率评分值，和

其中基于自动化比对的分类算法通过如下推导概率评分：(i)鉴别原始读取值中的所有条形码迭代边界；(ii)将所述迭代边界分为单独的条形码读取值；(iii)使用自动化多序列比对算法比对单独的条形码读取值，以从所述比对生成共有条形码；(iv)将生成的共有条形码与所述筛选中利用的所有可能的条形码进行局部比对；和(v)基于序列同一性来鉴别最可能的条形码候选物。

2.权利要求1的方法，其中所述预定的阈值概率评分值为0.80。

3.权利要求1的方法，其中被分类为与一种不同DNA聚合酶相关的单一序列数据集被用于推导该一种不同DNA聚合酶的多种参数。

4.权利要求1的方法，其中被分类为与一种不同DNA聚合酶相关的至少两个序列数据集被用于推导该一种不同DNA聚合酶的多种参数。

5.权利要求1的方法，其中所述不同DNA聚合酶中的每一种的多种参数选自停留时间、标记核苷酸并入的完整催化循环的速率、核苷酸并入后相关的标签释放、标签捕获率和标签捕获停留时间。

6.权利要求5的方法，其中对于每种不同核苷酸类型推导多种参数。

7.权利要求6的方法，其进一步包括对推导的多种不同DNA聚合酶中的不同DNA聚合酶中的每一种的多种参数进行主成分分析。

8.权利要求6的方法，其进一步包括评估所述多种不同DNA聚合酶的第一不同DNA聚合酶与所述多种不同DNA聚合酶的第二不同DNA聚合酶相比至少一个核苷酸的持续合成速率是否改变。

9.权利要求8的方法，其中所述评估包括将所述第一不同DNA聚合酶的多种参数中的至少一种参数与所述第二不同DNA聚合酶的相同的至少一种参数进行比较。