CN113735948A

CN113735948A - 孔蛋白单体的突变体、蛋白孔及其应用

Info

Publication number: CN113735948A
Application number: CN202111143311.XA
Authority: CN
Inventors: 刘少伟; 李倩雯; 谢馥励; 张子朋; 朱丽梅
Original assignee: Chengdu Qitan Technology Ltd
Current assignee: Chengdu Qitan Technology Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-03
Anticipated expiration: 2041-09-28
Also published as: CN113735948B

Abstract

本发明属于靶分析物特性的表征技术领域，具体提供了一种孔蛋白单体的突变体、包含其的蛋白孔、以及其检测靶分析物的应用，其中所述孔蛋白单体的突变体的氨基酸包括SEQ ID NO:1所示的序列或与其具有至少99％、98％、97％、96％、95％、90％、80％、70％、60％或50％同一性的序列，并且所述孔蛋白单体的突变体的氨基酸包括在对应SEQ ID NO:1的H74、E123、和D129的一个或多个位置处的突变。

Description

孔蛋白单体的突变体、蛋白孔及其应用

技术领域

本发明属于靶分析物特性的表征技术领域，特别涉及一种孔蛋白单体的突变体、包含其的蛋白孔以及其检测靶分析物的应用。

背景技术

随着对核酸结构和序列的研究，核酸测序技术不断发展，成为生命科学研究的核心领域，对生物、化学、电学、生命科学、医学等领域的技术发展起到巨大的推动作用。利用纳米孔研究出新型的快速、准确、低成本、高精度及高通量的核酸测序技术是后人类基因组计划的热点之一。

纳米孔(Nanopore)测序技术，又被称为第四代测序技术，是一种以单链核酸分子作为测序单元，利用一个能够提供离子电流通道的纳米孔，使得单链核酸分子在电泳驱动下通过该纳米孔，当核酸通过纳米孔时，会减少纳米孔的电流，对产生的不同信号实时读取序列信息的基因测序技术。

纳米孔测序主要特点是：读长很长，准确率较高，错误区大都发生在均聚寡核苷酸区域。纳米孔测序不但可实现天然DNA和RNA测序还可直接获取DNA和RNA的碱基修饰信息，例如它能够直接读取出甲基化的胞嘧啶，而不必像二代测序方法那样需要事先对基因组进行重亚硫酸盐(bisulfite)处理，这对于在基因组水平直接研究表观遗传相关现象有极大推动。纳米孔检测技术作为一个新型平台，具有低成本、高通量、非标记等优势。

纳米孔分析技术起源于Coulter计数器的发明以及单通道电流的记录技术。生理与医学诺贝尔奖获得者Neher和Sakamann在1976年利用膜片钳技术测量膜电势，研究膜蛋白及离子通道，推动了纳米孔测序技术的实际应用进程。1996年，Kasianowicz等提出了利用α-溶血素对DNA测序的新设想，是生物纳米孔单分子测序的里程碑标志。随后，MspA孔蛋白、噬菌体Phi29连接器等生物纳米孔的研究报道，丰富了纳米孔分析技术的研究。Li等在2001年开启了固态纳米孔研究的新时代。受限于半导体和材料工业的发展，固态纳米孔测序进展缓慢。

纳米孔测序技术的关键点之一在于所设计的一种特殊生物纳米孔，孔内缢缩区形成的读取头结构可在当单链核酸(例如ssDNA)分子通过纳米孔时，造成孔道电流的阻塞，从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的)，最后高灵敏度的电子设备检测到这些变化从而鉴定所通过的碱基。目前采用蛋白孔作为纳米孔进行测序，孔蛋白主要以大肠杆菌为来源。

目前纳米孔蛋白单一，需要开发替代的纳米孔蛋白实现纳米孔测序技术。孔蛋白也与测序精度密切相关，而且孔蛋白还涉及与控速蛋白的相互作用的模式变化，进一步优化孔蛋白与控速蛋白相互作用界面的稳定性，对提高测序数据的一致性和稳定性有积极影响。纳米孔测序技术的准确率也有待改善，因此，需要开发改进的纳米孔蛋白，以进一步提高纳米孔测序的分辨率。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种替代的孔蛋白单体的突变体、包含其的蛋白孔、及其应用。

第一方面，本发明实施例提供了一种孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸包括SEQ ID NO:1所示的序列或与其具有至少99％、98％、97％、96％、95％、90％、80％、70％、60％或50％同一性的序列，或由其组成，并且所述孔蛋白单体的突变体的氨基酸包括在对应SEQ ID NO:1的H74、E123、D129中的一个或多个位置处的突变；

H74、E123、D129中的一个或多个具体为，(1)H74、E123和D129；(2)H74和E123；(3)H74和D129；(4)E123和D129；(5)H74；(6)E123；或(7)D129。

优选地，所述孔蛋白单体的突变体的氨基酸包括在对应SEQ ID NO:1的71-129、74-213、71-213、或74-129的一个或多个位置处的突变。

优选地，所述孔蛋白单体的突变体的氨基酸包括：

(1)对应SEQ ID NO:1的Q71、H74、S77、D109、E123、和D129的一个或多个位置处具有氨基酸的插入、缺失和/或替换；或者(2)对应SEQ ID NO:1的H74、L75、E123、D129、和D213的一个或多个位置处具有氨基酸的插入、缺失和/或替换。

在一个实施例中，所述孔蛋白单体的突变体的氨基酸突变选自以下：

(a)对应SEQ ID NO:1的Q71突变为G、A、V、L、I中的0至5种；H74突变为T、S、C、U、M中的0至5种；S77突变为T、S、C、U、M中的0至5种；D109突变为N、D、E、Q中的0至4种；E123突变为N、D、E、Q中的0至4种；D129突变为N、D、E、Q中的0至4种；和

(b)对应SEQ ID NO:1的H74突变为G、A、V、L、I中的0至5种；L75突变为G、A、V、L、I中的0至5种；E123突变为N、D、E、Q中的0至4种；D129突变为N、D、E、Q中的0至4种；D213突变为G、A、V、L、I中的0至5种。

在一个实施例中，孔蛋白单体的突变体的氨基酸突变选自以下：

(a)对应SEQ ID NO:1的Q71突变为G、A、V、L或I；H74突变为T、S、C、U、或M；S77突变为T、C、U、或M；D109突变为N、E、或Q；E123突变为N、D、或Q；D129突变为N、E、或Q；和

(b)对应SEQ ID NO:1的H74突变为G、A、V、L、或I；L75缺失；E123突变为N、D、或Q；D129突变为N、E、或Q；D213突变为G、A、V、L、或I。

(a)对应SEQ ID NO:1的Q71G、H74T、S77T、D109N、E123N、和D129N；和

(b)对应SEQ ID NO:1的H74G和缺失L75、或缺失H74和L75G、E123N、D129N、和D213G。

第二方面，本发明实施例提供了一种孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸包括SEQ ID NO:1所示的序列或与其具有至少99％、98％、97％、96％、95％、90％、80％、70％、60％或50％同一性的序列，并且所述孔蛋白单体的突变体包括：

(1)在对应SEQ ID NO:1的Q71、H74、L75、S77、D109、E123、D129、和D213的一个或多个位置处具有氨基酸的突变；

(2)在对应SEQ ID NO:1的Q71G、H74T/H74G、L75缺失、S77T、D109N、E123N、D129N和D213G的一个或多个位置处具有突变；

(3)在对应SEQ ID NO:1的H74、E123、和/或D129处具有突变，并额外在Q71、L75、S77、D109、和D213的至少一个位置处具有突变；

(4)在对应SEQ ID NO:1的H74T/H74G、E123N、和/或D129N处具有突变；或者

(5)在对应SEQ ID NO:1的H74T/H74G、E123N、和/或D129N处具有突变，并额外在Q71G、L75缺失、S77T、D109N、和D213G的至少一个位置处具有突变。

在一个实施例中，在第二方面的孔蛋白单体的突变体的(1)中的突变中：Q71突变为G、A、V、L、I中的0至5种；H74突变为T、S、C、U、M中的0至5种，或者突变为G、A、V、L、I中的0至5种；L75突变为G、A、V、L、I中的0至5种；S77突变为T、S、C、U、M中的0至5种；D109突变为N、D、E、Q中的0至4种；E123突变为N、D、E、Q中的0至4种；D129突变为N、D、E、Q中的0至4种；D213突变为G、A、V、L、I中的0至5种。

0至N种包括0、1、2、3、4……N种。例如，Q71突变为G、A、V、L、I中的0至5种，指Q71突变为G、A、V、L、I中的0种，1种，2种，3种，4种或5种。

在一个实施例中，当突变为1种氨基酸时，突变前后的氨基酸不相同。例如，对于S77突变为T、S、C、U、M中的0至5种而言，当此为1种时，S77并不突变为S，而只能突变为T、C、U、M中的任一种；当此为2种时，S77可突变为T、S、C、U、M中的任意两种，以此类推。例如，当S77突变为T、S、C、U、M中的0种时，指S77缺失。

第三方面，本发明实施例提供了一种蛋白孔，包括至少一个孔蛋白单体的突变体。

第四方面，本发明实施例提供了一种用于表征靶分析物的复合物，其特征在于：所述的蛋白孔及与其配合使用的控速蛋白。

第五方面，本发明实施例提供了编码孔蛋白单体的突变体、蛋白孔、或复合物的核酸。

第六方面，本发明实施例提供了包含所述核酸的载体或遗传工程化的宿主细胞。

第七方面，本发明实施例提供了孔蛋白单体的突变体、其蛋白孔、复合物、核酸、载体或宿主细胞在检测靶分析物存在、不存在或一个或多个特征或制备检测靶分析物存在、不存在或一个或多个特征的产品中的应用。

第八方面，本发明实施例提供了一种产生蛋白孔或其多肽的方法，包括用所述的载体转化所述的宿主细胞，诱导所述宿主细胞表达所述的蛋白孔或其多肽。

第九方面，本发明实施例提供了一种用于确定靶分析物存在、不存在或一个或多个特征的方法，包括：

a.使靶分析物与蛋白孔、复合物、或复合物中的蛋白孔接触，使得所述靶分析物相对于所述蛋白孔移动；以及

b.在所述靶分析物相对于所述蛋白孔移动时获取一个或多个测量值，从而确定所述靶分析物的存在、不存在或一个或多个特征。

在一个实施例中，所述方法包括：所述靶分析物与存在于膜中的所述蛋白孔相互作用从而使得所述靶分析物相对所述蛋白孔移动。

在一个实施例中，靶分析物是核酸分子。

在一个实施例中，用于确定靶分析物存在、不存在或一个或多个特征的方法包括将所述靶分析物偶联到膜上；和所述靶分析物与存在于所述膜中的所述蛋白孔相互作用从而使得所述靶分析物相对所述蛋白孔移动。

第十方面，本发明实施例提供了一种用于确定靶分析物存在、不存在或一个或多个特征的试剂盒，包括所述的孔蛋白单体的突变体、所述的蛋白孔、所述的复合物、所述的核酸、或所述的载体或宿主，和所述的膜的组分。

第十一方面，本发明实施例提供了一种用于确定靶分析物存在、不存在或一个或多个特征的装置，包括所述的蛋白孔或所述复合物，和所述的膜。

在一个实施例中，所述靶分析物包括多糖、金属离子、无机盐、聚合物、氨基酸、肽、蛋白、核苷酸、寡核苷酸、多核苷酸、染料、药物、诊断剂、爆炸物或环境污染物；

优选地，所述靶分析物包括多核苷酸，

更优选地，所述多核苷酸包括DNA或RNA；和/或，所述一个或多个特征选自(i)所述多核苷酸的长度；(ii)所述多核苷酸的一致性；(iii)所述多核苷酸的序列；(iv)所述多核苷酸的二级结构和(v)所述多核苷酸是否经修饰；和/或，所述复合物中所述控速蛋白包括多核苷酸结合蛋白。

附图说明

所描述的附图仅是示意性的而非限制性的。

图1示出了根据一个实施例的纳米孔的基本工作原理。

图2示出了根据一个实施例的DNA测序的示意图。

图3示出了根据一个实施例核苷酸穿过蛋白孔时相应的堵孔信号。

图4A、4B和4C示出了根据一个实施例的野生型蛋白孔通道表面结构和飘带图模型。图4A为表面结构模型侧视图，图4B为表面结构模型俯视图，及图4C为飘带结构模型。

图5示出了根据一个实施例的野生型通道缢缩区氨基酸残基分布和缢缩区直径。

图6A示出了根据一个实施例的野生型通道单体表面电势图，图6B示出了单体飘带模型及其缢缩区氨基酸残基分布的棍棒模型。

图7示出了根据一个实施例的突变孔1氨基酸模型图的顶视图。

图8示出了根据一个实施例的突变孔1基于同源建模的卡通示意图。

图9示出了根据一个实施例的DNA构建体BS7-4C3-SE1的结构。

图10A示出了根据一个实施例的突变孔1在±180mV电压下开孔电流及其门控特征。

图10B示出了根据一个实施例的突变孔1在+180mV电压下的核酸过孔情况。

图11A和11B示出了根据一个实施例当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-SE1穿过突变孔1移位时的示例电流轨迹。

图12是图11A实施例单独一条信号的区域放大显示图。

图13A示出了根据一个实施例的突变孔2在±180mV电压下开孔电流及其门控特征。

图13B示出了根据一个实施例的突变孔2在+180mV电压下的核酸过孔情况。

图14A和14B示出了根据一个实施例当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-SE1穿过突变孔2移位时的示例电流轨迹。

图15是图14A和B实施例单独一条信号的区域放大显示图。

图16示出了根据一个实施例突变体1的SDS-PAGE电泳检测结果。

具体实施方式

应理解，所公开的产品和方法的不用应用可根据所属领域的特定需要来调适。还应理解，本文所用的术语仅出于描述本发明的特定实施例的目的，并且不打算是限制性的。

另外除非上下文另外明确规定，否则如本说明书和权利要求书中所使用，单数形式“一”和“所述”包括多个。举例来说，提及“核苷酸”包括两个或更多个核苷酸，提及“一个解旋酶”包括两个或更多解旋酶。

如本文所使用的，术语“包括”是指必须包括任何所列举的要素，并且也可以任选地包括其他元素。“由...组成”是指不包括所有未列举的元素。由这些术语中的每一个定义的实施例在本发明的范围内。

如本文所用的“核苷酸序列”、“DNA序列”或“核酸分子”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。该术语仅指分子的一级结构。因此，该术语包括双链和单链DNA和RNA。

本文所用的术语“核酸”是指单链或双链共价连接的核苷酸序列，其中每个核苷酸上的3'和5'末端通过磷酸二酯键连接。核苷酸可以由脱氧核糖核苷酸碱基或核糖核苷酸碱基组成。核酸可以包括DNA和RNA，并可以在体外合成制备或从自然资源中分离。核酸可以进一步包括修饰的DNA或RNA，例如甲基化的DNA或RNA，或经过翻译后修饰的RNA，例如用7-甲基鸟苷进行的5'-盖帽，3'-端加工，例如裂解和多腺苷化，以及拼接。核酸还可以包括合成核酸(XNA)，例如己糖醇核酸(HNA)，环己烯核酸(CeNA)，苏糖核酸(TNA)，甘油核酸(GNA)，锁核酸(LNA)和肽核酸(PNA)。核酸(或多核苷酸)的大小通常用双链多核苷酸的碱基对(bp)数目表示，或在单链多核苷酸的情况下用核苷酸的数目(nt)表示。1千个bp或nt等于一个千碱基对(kb)。长度小于约40个核苷酸的多核苷酸通常称为“寡核苷酸”，并且可以包含用于DNA操作(例如通过聚合酶链式反应(PCR))中的引物。

多核苷酸，例如核酸，是包含两个或多个核苷酸的大分子。所述多核苷酸或核酸可以包含任意核苷酸的任意组合。所述核苷酸可以是天然存在的或人工合成的。所述多核苷酸中的一个或多个核苷酸可以被氧化或甲基化。所述多核苷酸中的一个或多个核苷酸可以被损伤。例如，所述多核苷酸可以包含嘧啶二聚体。这种二聚体通常与由紫外线造成的损伤有关并且是皮肤黑色素瘤的主要成因。所述多核苷酸中的一个或多个核苷酸可以被修饰，例如用常规的标记或标签。所述多核苷酸可以包含一个或多个无碱基的(即缺少核碱基)、或缺少核碱基和糖(即为C3)的核苷酸。

所述多核苷酸中的核苷酸可以任意方式相互连接。所述核苷酸通常通过其糖基和磷酸基团连接，如在核酸中一样。所述核苷酸可以通过其核碱基连接，如在啼啶二聚体中一样。

多核苷酸可以是单链或双链的。多核苷酸的至少一部分优选是双链的。多核苷酸可以是核酸，例如脱氧核糖核酸(DNA)或核糖核酸(RNA)。多核苷酸可以包含一条RNA链，所述RNA链杂合到一条DNA链。多核苷酸可以是任意现有技术已知的合成核酸，例如肽核酸(PNA)，甘油核酸(GNA)，苏糖核酸(TNA)，锁核酸(LNA)或具有核苷酸侧链的其他合成聚合物。所述PNA骨架是由通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元组成。所述GNA骨架是由通过磷酸二酯键连接的重复乙二醇单元组成。所述TNA骨架是由通过磷酸二酯键连接在一起的重复苏糖基组成。LNA由上述核糖核酸形成，具有连接核糖部分中2’氧和4’碳的额外桥连结构。桥连的核酸(BNA)是修饰的RNA核苷酸。它们也可以称为限制的或不可接近的RNA13BNA单体可以含有5元，6元或甚至7元桥连结构并带有“固定的”C3’-内糖折叠结构(C3’-endo sugar puckering)。所述桥连结构被合成引入核糖的2’，4’-位，以产生2’，4’-BNA单体。

多核苷酸最优选核糖核酸(RNA)或脱氧核糖核酸(DNA)。多核苷酸可以为任意长度。例如，多核苷酸的长度可以是至少10，至少50，至少100，至少150，至少200，至少250，至少300，至少400或至少500个核苷酸或核苷酸对。所述多核苷酸的长度可以为1000个或更多个核苷酸或核苷酸对，5000个或更多个核苷酸或核苷酸对或100000个或更多个核苷酸或核苷酸对。

任意数量的多核苷酸可以被研究。例如实施例的方法可以涉及表征2、3、4、5、6、7、8、9、10、20、30、50、100个或更多个多核苷酸。如果两个或更多个多核苷酸被表征，它们可以是不同的多核苷酸或相同多核苷酸的情形。

多核苷酸可以是天然存在的或人工合成的。例如，所述方法可用于验证所制备的寡核苷酸的序列。所述方法通常在体外进行。

在本公开的上下文中，术语“氨基酸”以其最广义的意义使用，并且意指包括含有胺(NH₂)和羧基(COOH)官能团以及每种氨基酸所特有的侧链(例如R基团)的有机化合物。在一些实施方案中，氨基酸是指天然存在的Lα-氨基酸或残基。本文使用天然存在的氨基酸的常用单字母和三字母缩写：A＝Ala；C＝Cys；D＝Asp；E＝Glu；F＝Phe；G＝Gly；H＝His；I＝Ile；K＝Lys；L＝Leu；M＝Met；N＝Asn；P＝Pro；Q＝Gln；R＝Arg；S＝Ser；T＝Thr；V＝Val；W＝Trp；和Y＝Tyr(Lehning e r,A.L.,(1 975)BioChemis try，第2版，第71-92页，WorthPublishers,New York)。通用术语“氨基酸”还包括D-氨基酸、逆-反氨基酸以及经化学修饰的氨基酸(诸如氨基酸类似物)，通常不并入蛋白质中的天然存在的氨基酸(诸如正亮氨酸)及具有本领域已知是氨基酸特征的性质的化学合成化合物(诸如β-氨基酸)。例如，在氨基酸的定义中包括苯丙氨酸或脯氨酸的类似物或模拟物，这些类似物或模拟物允许如同天然Phe或Pro一样对肽化合物进行相同的构象限制。此类类似物和模拟物在本文中称为相应氨基酸的“功能等效物”。Roberts和Vellaccio,The Peptides:Analysis,Synthesis,Biology,Gross和Meiehofer编辑，第5卷第341页，Academic Press,Inc.,N.Y.1983列出了氨基酸的其他实例，其通过引用并入本文。

术语“蛋白质”、“多肽”和“肽”在本文中进一步可互换使用，是指氨基酸残基的聚合物以及氨基酸残基的变体和合成类似物。因此，这些术语适用于其中一个或多个氨基酸残基是合成的非天然存在的氨基酸，诸如相应天然存在的氨基酸的化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。多肽还可经历成熟或翻译后修饰过程，这些过程可以包括但不限于：糖基化、蛋白水解裂解、脂化、信号肽裂解、前肽裂解、磷酸化等。

蛋白质的“同源物”涵盖相对于所讨论的未修饰的或野生型蛋白质具有氨基酸取代、缺失和/或插入并且具有与它们所来源的未修饰的蛋白质相似的生物和功能活性的肽、寡肽、多肽、蛋白质和酶。如本文所用，术语“氨基酸同一性”是指在比较窗口中，在氨基酸-氨基酸的基础上，序列相同的程度。因此，通过以下方式计算“序列同一性百分比”：在比较窗口中比较两个最佳比对的序列，确定两个序列中出现相同氨基酸残基(例如，Ala、Pro、Ser、Thr、Gly、Val、Leu、Ile、Phe、Tyr、Trp、Lys、Arg、His、Asp、Glu、Asn、Gln、Cys和Met)的位置数量以得到匹配位置数量，将匹配位置数量除以比较窗口中的位置总数(即窗口大小)，并将结果乘以100得到序列同一性百分比。

序列同一性也可以是全长多核苷酸或多肽的片段或部分。因此，序列可与全长参考序列仅有50％的整体序列同一性，但是特定区、结构域或亚基的序列可与参考序列具有80％、90％或高达99％的序列同一性。

术语“野生型”是指从天然存在的来源分离的基因或基因产物。野生型基因是在群体中最常观测到的基因，因此任意地设计为该基因的“正常”或“野生型”形式。相反，术语“经修饰的”、“突变”或“变体”是指与野生型基因或基因产物相比，显示出序列修饰(例如，取代、截短或插入)、翻译后修饰和/或功能性质(例如，特性改变)的基因或基因产物。注意，可以分离天然存在的突变体；这些突变体是通过与野生型基因或基因产物相比，它们具有改变的特征这一事实来鉴定的。引入或取代天然存在的氨基酸的方法是本领域众所周知的。例如，可以通过在编码突变的单体的多核苷酸中的相关位置用精氨酸的密码子(CGT)置换蛋氨酸的密码子(ATG)，用精氨酸(R)取代蛋氨酸(M)。引入或取代非天然存在的氨基酸的方法也是本领域众所周知的。例如，可以通过在用于表达突变的单体的IVTT系统中包括合成的氨酰基-tRNA来引入非天然存在的氨基酸。可替代地，可以通过在广古菌(Euryarchaeota archaeon)中表达突变的单体来引入非天然存在的氨基酸，广古菌在那些特定氨基酸的合成(即非天然存在的)类似物的存在下对于特定氨基酸而言为营养缺陷型。如果突变的单体是使用部分肽合成法产生的，则它们也可以通过裸连接产生。保守性取代将氨基酸置换为具有相似化学结构、相似化学性质或相似侧链体积的其他氨基酸。引入的氨基酸可以具有与它们所置换的氨基酸相似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可替代地，保守性取代可以引入另一种芳族或脂肪族氨基酸代替预先存在的芳族或脂肪族氨基酸。保守性氨基酸变化是本领域众所周知的，并且可以根据下表1中定义的20种主要氨基酸的性质进行选择。在氨基酸具有相似极性的情况下，这也可以参考表2中氨基酸侧链的亲水性量表来确定。

表1-氨基酸的化学性质

表2-亲水性量表

侧链	亲水性
		Ile,I	4.5
Val,V	4.2
		Leu,L	3.8
Phe,F	2.8
		Cys,C	2.5
Met,M	1.9
		Ala,A	1.8
Gly,G	-0.4
		Thr,T	-0.7
Ser,S	-0.8
		Trp,W	-0.9
Tyr,Y	-1.3
		Pro,P	-1.6
His,H	-3.2
		Glu,E	-3.5
Gln,Q	-3.5
		Asp,D	-3.5
Asn,N	-3.5
		Lys,K	-3.9
Arg,R	-4.5

众所周知，性质相似氨基酸彼此之间保守性替换通常不会影响肽序列的活性，保守性替换如表3。

表3保守氨基酸替换

突变或经修饰的蛋白质、单体或肽也可以任何方式在任何位点进行化学修饰。突变或经修饰的单体或肽优选通过分子与一个或多个半胱氨酸的附接(半胱氨酸连接)，分子与一个或多个赖氨酸的附接，分子与一个或多个非天然氨基酸的附接，表位的酶修饰或末端的修饰来进行化学修饰。进行此类修饰的合适方法是本领域众所周知的。经修饰的蛋白质、单体或肽的突变体可以通过任何分子的附接进行化学修饰。例如，经修饰的蛋白质、单体或肽的突变体可以通过染料或荧光团的附接进行化学修饰。在一些实施方案中，用促进包含单体或肽的孔与靶核苷酸或靶多核苷酸序列之间的相互作用的分子衔接子化学修饰突变或经修饰的单体或肽。分子衔接子优选为环状分子、环糊精、能够杂交的物质、DNA结合剂或嵌入剂、肽或肽类似物、合成聚合物、芳族平面分子、带正电荷的小分子或能够氢键键合的小分子。

衔接子的存在改善了孔和核苷酸或多核苷酸序列的主-客体化学，从而改善了由突变的单体形成的孔的测序能力。主-客体化学的原理是本领域众所周知的。衔接子对孔的物理或化学性质有影响，这种影响改善了孔与核苷酸或多核苷酸序列的相互作用。衔接子可以改变孔的桶或通道的电荷，或与核苷酸或多核苷酸序列特异性相互作用或结合，从而促进其与孔的相互作用。

“蛋白孔”是跨膜蛋白结构，其限定了允许分子和离子从膜的一侧易位到另一侧的通道或孔。离子物质通过孔的易位可以由施加到孔任一侧的电位差驱动。“纳米孔”是一种蛋白孔，其中分子或离子所通过的通道的最小直径为纳米级(10^-9米)。在一些实施方案中，蛋白孔可以是跨膜蛋白孔。蛋白孔的跨膜蛋白结构本质上可以是单体或寡聚体。通常，孔包含多个围绕中心轴排列的多肽亚基，从而形成基本上垂直于纳米孔所驻留的膜延伸的蛋白内衬通道。多肽亚基的数量没有限制。通常，亚基的数量为5至30，合适地亚基的数量为6至10。可替代地，亚基的数量不像在产气荚膜梭菌溶素(perfringolysin)或相关大膜孔的情况下那样定义。纳米孔内形成蛋白内衬通道的蛋白亚基部分通常包含可包括一个或多个跨膜β-桶和/或α-螺旋部分的二级结构基序。

在一个实施例中，蛋白孔包含一个或多个孔蛋白单体。每个孔蛋白单体可以来自广古菌(Euryarchaeota archaeon)。在一个实施例中，蛋白孔包括一个或多个孔蛋白单体的突变体(即一个或多个孔蛋白突变的单体)。

在一个实施例中，孔蛋白来自生物界野生型蛋白、野生型同源物、或其突变体。突变体可以成为修饰的孔蛋白或孔蛋白突变体。突变体中的修饰包括但不限于本文公开的任何一种或多种修饰或所述修饰的组合。在一个实施例中，生物界野生型蛋白是来自广古菌的蛋白。在一个实施例中，生物界野生型蛋白是来自广古菌(Gene：CMA64_09980)的蛋白。

在一个实施例中，孔蛋白同源物是指与SEQ ID NO:1所示的蛋白具有至少99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、85％、80％、75％、70％、65％、60％、55％、50％的完整序列同一性的多肽。

在一个实施例中，孔蛋白同源物是指与SEQ ID NO:2所示的蛋白的编码多核苷酸具有至少99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、85％、80％、75％、70％、65％、60％、55％、50％的完整序列同一性的多核苷酸。所述多核苷酸序列可以包含基于遗传密码的简并性而与SEQ ID NO:2不同的序列。

多核苷酸序列可以采用本领域的标准方法进行衍生和复制。编码野生型孔蛋白的染色体DNA可以从产生孔的生物体如广古菌中提取。编码所述孔亚基的基因可以使用包括特异性引物的PCR进行扩增。所述扩增的序列随后可以进行定点突变。定点突变的合适方法是本领域已知的并且包括，例如，组合链式反应。编码实施例的构建的多核苷酸可以采用本领域公知的技术制备，例如在Sambrook,J.and Russell，D.(2001).Molecular Cloning ALaboratory Manual,3rd Edition.Cold Spring Harbor Laboratory Press,Cold SpringHarbor，NY中描述的那些。

所得到的多核苷酸序列随后可以被整合到重组可复制载体上，例如克隆载体。所述载体可以用于在相容的宿主细胞中复制所述多核苷酸。因此多核苷酸序列可以通过将多核苷酸引入到可复制载体中，将载体引入相容的宿主细胞中，并在引起载体复制的条件下使宿主细胞生长而进行制备。所述载体可以从所述宿主细胞中回收。

纳米孔或蛋白孔的基本工作原理

在一个实施例中，在充满电解液的腔100内，带有纳米级小孔的绝缘膜102将腔体分成2个小室，如图1所示，当电压作用于电解液室，离子或其他小分子物质在电场力作用下穿过小孔，形成稳定的可检测的离子电流。掌握纳米孔的尺寸和表面特性、施加的电压及溶液条件，可检测不同类型的生物分子。

由于组成DNA的四种碱基腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)的分子结构及体积大小均不同，单链DNA(ssDNA)在控速酶和电场驱使下通过纳米级的小孔时，不同碱基的化学性质差异导致穿越纳米孔或蛋白孔时引起的电流的变化幅度不同，从而得到所测核酸例如DNA的序列信息。

图2示出了DNA测序的示意图200。如图2所示，在一个典型的纳米孔/蛋白孔测序实验中，纳米孔是磷脂膜两侧离子通过的唯一通道。控速蛋白例如多核苷酸结合蛋白充当核酸分子例如DNA的马达蛋白，拉动DNA链使其以单个核苷酸的步长依次通过纳米孔/蛋白孔。每当一个核苷酸穿过纳米孔/蛋白孔，相应的堵孔信号会被记录下来(图3)。通过相应算法分析这些序列相关的电流信号，可以反推出核酸分子例如DNA的序列信息。

在实施例中，孔蛋白通过生物信息学手段和进化角度，从自然界不同物种(主要是细菌和古细菌)进行筛选。在一个实施例中，孔蛋白来自于任何生物体，优选来自于广古菌。通过序列分析，孔蛋白具有完整功能结构域。利用结构生物学手段预测分析孔蛋白3D结构模型，选择具有合适读取头架构形式的通道蛋白。之后利用基因工程、蛋白质工程、蛋白质定向进化和计算机辅助蛋白质设计等手段，对候选通道蛋白(或孔蛋白)进行改造、测试和优化，经过几轮迭代，得到同源蛋白突变体多个，优选两个(不同同源蛋白骨架)，有不同的信号特征和信号分布模式。

实施例中的孔蛋白可应用于第四代测序技术。在一个实施例中，孔蛋白是纳米孔蛋白。在一个实施例中，孔蛋白可应用于固态孔进行测序。

在一个实施例中，采用新的蛋白骨架，形成新的缢缩区(读取头区域)结构，从而在测序过程中提供全新的作用模式。实施例的孔蛋白具有良好的跳边分布和与磷脂膜重组的效率。

在一个实施例中，对野生型孔蛋白单体进行基因突变改造形成孔蛋白单体的突变体。在一个实施例中，孔蛋白单体的突变体的氨基酸包括SEQ ID NO:1所示的序列或包括与其具有至少99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、85％、80％、75％、70％、65％、60％、55％、或50％同一性的序列，并且所述孔蛋白单体的突变体的氨基酸对应SEQ ID NO:1的H74、E123、和D129的一个或多个位置处具有突变。

在一个实施例中，突变包括氨基酸的插入、缺失和/或替换。在一个实施例中，SEQID NO:1的H74、E123、和D129的一个或多个位置处具有突变，是SEQ ID NO:1的H74、E123、和D129中的一个或多个位置处具有氨基酸插入、缺失和/或替换。

在一个实施例中，所述孔蛋白单体的突变体的氨基酸对应SEQ ID NO:1的(1)71-129位、(2)74-213位、(3)71-213位、或(4)74-129位的一个或多个位置处具有突变。

在一个实施例中，所述孔蛋白单体的突变体的氨基酸对应SEQ ID NO:1的(1)71-129位、(2)74-213位、(3)71-213位、或(4)74-129位的一个或多个位置处具有氨基酸的插入、缺失和/或替换。

在一个实施例中，所述孔蛋白单体的突变体的氨基酸仅在对应SEQ ID NO:1的Q71、H74、S77、D109、E123、和D129具有突变，或在一个或多个位置处具有氨基酸的插入、缺失和/或替换。

在一个实施例中，所述孔蛋白单体的突变体的氨基酸仅在对应SEQ ID NO:1的H74、L75、E123、D129、和D213具有突变，或在一个或多个位置处具有氨基酸的插入、缺失和/或替换。

“一个或多个位置处”指1个、2个、3个、4个、5个、6个、7个、8个、9个、10个……或直至全部位置。例如，5个氨基酸的一个或多个位置处为1个、2个、3个、4个或5个位置处。

在一个实施例中，对应SEQ ID NO:1的位置是指无论是否通过氨基酸插入或缺失或采用同一性序列从而使得序列编号发生变化时，相对位置不变，依然可采用SEQ ID NO:1序列的编号。例如，对应SEQ ID NO:1的Q71可突变为Q71 G，即使SEQ ID NO:1序列编号变化或采用与SEQ ID NO:1具有本文限定的同一性的序列，相对应于SEQ ID NO:1的71位的氨基酸Q(即使在另一序列中并非为71位)也可突变为G，仍在本发明的保护范围内。

在一个实施例中，孔蛋白单体的突变体的氨基酸由SEQ ID NO:1所示的序列组成，或由与其具有至少99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、85％、80％、75％或70％、65％、60％、55％、或50％同一性的序列组成，并且所述孔蛋白单体的突变体的氨基酸对应SEQ ID NO:1的H74、E123、和D129位的一个或多个位置处具有突变。

在一个实施例中，孔蛋白单体的SEQ ID NO:1序列来自广古菌。编码SEQ ID NO:1氨基酸的核苷酸序列为SEQ ID NO:2。

在一个实施例中，Q71突变为G、A、V、L、或I；H74突变为T、S、C、U、或M；S77突变为T、C、U、或M；D109突变为N、E、或Q；E123突变为N、D、或Q；D129突变为N、E、或Q。

在一个实施例中，对应SEQ ID NO:1的H74突变为G、A、V、L、或I；L75缺失；E123突变为N、D、或Q；D129突变为N、E、或Q；D213突变为G、A、V、L、或I。

在一个实施例中，孔蛋白单体的突变体，其中氨基酸突变选自以下：

(a)对应SEQ ID NO:1的Q71G、H74T、S77T、D109N、E123N、和D129N；和

(b)对应SEQ ID NO:1的H74G、缺失L75、E123N、D129N、和D213G。

在一个实施例中，所述孔蛋白单体的突变体的氨基酸序列包括SEQ ID NO:13、SEQID NO:14，或由其组成。

在一个实施例中，蛋白孔包括至少一个孔蛋白单体的突变体(或孔蛋白突变的单体)。在一个实施例中，蛋白孔包括至少两个、三个、四个、五个、六个、七个、八个、九个或十个或更多孔蛋白单体的突变体。在一个实施例中，蛋白孔包括至少两个孔蛋白单体的突变体，所述孔蛋白单体的突变体可以是相同的或不同的。在一个实施例中，蛋白孔包括两个或多个孔蛋白单体的突变体，优选为两个或多个单体的突变体相同。在一个实施例中，蛋白孔的缢缩区孔道直径为0.7nm-2.2nm、0.9nm-1.6nm、1.4-1.6nm或

孔蛋白单体的突变体或包括其的蛋白孔用于检测靶分析物存在、不存在或一个或多个特征中的应用。在一个实施例中，孔蛋白单体的突变体或蛋白孔用于检测核酸分子的序列，或表征多核苷酸序列，例如测序多核苷酸序列，因为它们可以高灵敏度区分不同的核苷酸。孔蛋白单体的突变体或包括其的蛋白孔可以区分DNA和RNA中的四种核苷酸，甚至可以区分甲基化和未甲基化的核苷酸，并且分辨率出人预料的高。孔蛋白单体的突变体或蛋白孔显示对全部四种DNA/RNA核苷酸的几乎完全分离。基于在蛋白孔中的停留时间和流过蛋白孔的电流，进一步区分脱氧胞嘧啶单磷酸(dCMP)和甲基-dCMP。

孔蛋白单体的突变体或蛋白孔还可以在一系列条件下区分不同核苷酸。特别地，所述孔蛋白单体的突变体或蛋白孔在有利于核酸表征如测序的条件下区分核苷酸。通过改变施加的电势，盐浓度，缓冲液，温度和添加剂如脲，甜菜碱和DTT的存在，可以控制孔蛋白单体的突变体或蛋白孔区分不同核苷酸的程度。这允许孔蛋白单体的突变体或蛋白孔的功能被精细调控，特别是在测序时。孔蛋白单体的突变体或蛋白孔也可以用于通过与一种或多种单体的相互作用而不是在以核苷酸为基础的核苷酸上，来鉴定多核苷酸聚合物。

孔蛋白单体的突变体或蛋白孔可以是分离的，基本上分离的，纯化的或基本纯化的。如果完全不含任何其它组分，例如脂质体或其它蛋白孔/孔蛋白，则实施例的孔蛋白单体的突变体或蛋白孔被分离或纯化。如果孔蛋白单体的突变体或蛋白孔与不会干扰其预期用途的载体或稀释剂混合，则该孔蛋白单体的突变体或蛋白孔基本上被分离。例如，如果孔蛋白单体的突变体或蛋白孔以包含小于10％，小于5％，小于2％或小于1％的其它组分如三嵌段共聚物，脂质体或其它蛋白孔/孔蛋白的形式存在，则所述孔蛋白单体的突变体或蛋白孔基本上被分离或基本上被纯化。替代地，孔蛋白单体的突变体或蛋白孔可以存在于膜中。

例如，膜优选为两亲层。两亲层是由两亲分子形成的层，例如，磷脂，其具有亲水性和亲油性。两亲分子可以是合成的或天然存在的。两亲层可以是单层或双层。两亲层通常是平面的。两亲层可以是弯曲的。可以对两亲层进行支撑。膜可以为脂质双层。脂质双层是由脂质的两个相对的层形成的。脂质的两层被排列为使得它们的疏水性尾部基团面向彼此以形成疏水性内部。脂质的亲水性头部基团面向外朝向该双层的每一侧上的含水环境。膜包括固态层。固态层可以由有机和无机材料形成。如果膜包括固态层，则孔通常存在于两亲膜中或固态层内包括的层中，例如，固态层内的孔洞、阱、间隙、通道、沟槽或狭缝中。

分析物的表征

实施例提供一种确定靶分析物的存在、不存在或一种或多种特性的方法。该方法涉及将所述靶分析物与孔蛋白单体的突变体或蛋白孔接触，使得所述靶分析物相对于，例如穿过，所述孔蛋白单体的突变体或蛋白孔移动，并且当所述靶分析物相对于所述孔蛋白单体的突变体或蛋白孔移动时获取一个或多个测量值，从而确定所述靶分析物的存在、不存在或一种或多种特性。所述靶分析物也可以被称为模板分析物或感兴趣的分析物。

靶分析物优选为多糖、金属离子，无机盐，聚合物，氨基酸，肽，多肽，蛋白，核苷酸，寡核苷酸，多核苷酸，染料，药物，诊断剂，爆炸物或环境污染物。所述方法可以涉及确定两种或更多种相同类别的靶分析物的存在、不存在或一种或多种特性，例如，两种以上蛋白，两种以上核苷酸或两种以上药物。或者，所述方法可以涉及确定两种或更多种不同类别的靶分析物的存在、不存在或一种或多种特性，例如，一种或多种蛋白，一种或多种核苷酸和一种或多种药物。

所述方法包括将所述靶分析物与孔蛋白单体的突变体或蛋白孔接触，使得所述靶分析物移动穿过所述孔蛋白单体的突变体或蛋白孔。所述蛋白孔一般包含至少1个，至少2个，至少3个，至少4个，至少5个，至少6个，至少7，至少8，至少9或至少10个孔蛋白突变的单体，例如，7，8，9或10个单体。所述蛋白孔包括相同的单体或不同的孔蛋白单体，优选包含8或9个相同的单体。所述单体中的一个或多个，例如2、3、4、5、6、7、8、9或10个，优选如上述讨论的被化学修饰。在一个实施例中，每个单体的氨基酸包括SEQ ID NO:1及其上述突变体。在一个实施例中，每个单体的氨基酸由SEQ ID NO:1及其上述突变体组成。

实施例的方法可以测量多核苷酸的两个、三个、四个或五个或更多个特征。所述一个或多个特征优选选自(i)多核苷酸的长度，(ii)多核苷酸的身份，(iii)多核苷酸的序列，(iv)多核苷酸的二级结构，以及(v)多核苷酸是否被修饰。在一个实施例中，可以测量(i)至(v)的任意组合。

对于(i)，可以例如通过确定多核苷酸和蛋白单体的突变体/蛋白孔之间相互作用的数量或多核苷酸和蛋白单体的突变体/蛋白孔之间相互作用的持续时间对多核苷酸的长度进行测量。

对于(ii)，可以以多种方式测量多核苷酸的身份，多核苷酸的身份可以结合多核苷酸序列的测量或不结合多核苷酸序列的测量进行测量。前者较为简单；对多核苷酸进行测序进而进行识别。后者可以通过几种不同方式完成。例如，可以测量多核苷酸中特定基序的存在(无需测量多核苷酸的其余序列)。或者，所述方法中特定的电和/或光信号的测量可以识别出所述多核苷酸来自特定来源。

对于(iii)，多核苷酸的序列可以如先前所述进行测定。合适的测序方法，特别是使用电学测量方法的测序方法，描述在Stoddart D et al.,ProC Natl Acad Sci,12；106(19)7702-7，Lieberman KR et al,J Am Chem SoC.2010；132(50)17961-72,以及国际申请W02000/28312中。

对于(iv)，二级结构可以采用多种方法测量。例如，如果所述方法涉及电学测量方法，则可以使用停留时间的变化或流过孔的电流的变化来测量所述二级结构。这允许区分单链和双链多核苷酸的区域。

对于(v)，可以测量是否存在任何修饰。所述方法优选包括，测定多核苷酸是否通过甲基化，氧化，损伤，用一种或多种蛋白或用一种或多种标记，标签或进行无碱基或缺少核碱基和糖的修饰。特定的修饰将导致与所述孔的特异性相互作用，其可以使用下述方法进行测量。例如，甲基胞嘧啶可以基于其与每个核苷酸相互作用期间流过所述孔的电流而与胞嘧啶区分开来。

所述靶多核苷酸与蛋白单体的突变体/蛋白孔接触，例如如实施例的蛋白单体的突变体/蛋白孔。所述蛋白单体的突变体/蛋白孔通常存在于膜中。合适的膜如前文所述。所述方法可以使用适合于研究膜/蛋白孔或孔蛋白单体的突变体系统—其中蛋白单体的突变体/蛋白孔存在于膜中的任何装置进行。所述方法可以使用适合用于跨膜孔感侧的任何装置进行。例如，所述装置包括包含水性溶液的腔室和将腔室分成两个部分的屏障。所述屏障通常具有孔洞，在孔洞中形成包含孔的膜。或者所述屏障形成膜，所述膜中存在蛋白单体的突变体/蛋白孔。该方法可以使用描述于国际申请号PCT/GB08/000562(WO 2008/102120)中的装置进行。

可以进行各种不同类型的测量。这包括但不限于电学测量和光学测量。电学测量包括电压测量、电容测量、电流测量，阻抗测量，隧道测量(tunnelling measurement)(Ivanov AP et al.,Nano Lett.2011Jan12；11(I):279-85)以及FET测量(国际申请WO2005/124888)。光学测量可以与电学测量结合(Soni GV et al.,Rev SciInstrum.2010Jan；81(1)014301)。所述测量可以是跨膜电流测量，例如流过所述孔的离子电流的测量。在一个实施例中，电学测量或光学测量可采用常规的电学或光学测量。

电学测量可以使用描述在Stoddart D et al·,ProC Natl Acad Sci，12；106(19)7702-7，Lieberman KR et al，J Am Chem SoC.2010；132(50)17961-72和国际申请WO2000/28312中的标准单通道记录设备进行。替代地，电学测量可以使用多通道系统进行，例如如国际申请W02009/077734和国际申请WO 2011/067559中描述的。

所述方法优选采用跨膜施加的电势进行。所述施加的电势可以是电压电势。替代地，所施加的电势可以是化学电势。其一实例为采用跨膜，例如双亲性分子层的盐梯度进行。盐梯度被公开在Holden et al.，J Am Chem SoC.2007Jul 11；129(27):8650-5中。在一些情况下，多核苷酸相对所述蛋白单体的突变体/蛋白孔移动时流过所述蛋白单体的突变体/蛋白孔的电流用于估算或确定所述多核苷酸的序列。这就是链测序。

所述方法可以包括测量多核苷酸相对所述孔移动时流过所述孔的电流。因此用于所述方法的设备也可以包括能够施加电势并测量穿过膜和孔的电信号的电路。所述方法可以采用膜片钳或电压钳进行。

可以包括测量多核苷酸相对所述孔移动时流过所述孔的电流。测量通过跨膜蛋白孔的离子流的合适条件是本领域已知的并且在实施例中公开。所述方法通常通过施加在所述膜和所述孔上的电压进行。所使用的电压通常为从+5V至-5V，例如从从+4V至-4V，从+3V至-3V或从+2V至-2V。所使用的电压通常为从-600mV至+600V或-400mV至+400mV。所使用的电压优选在具有选自-400mV，-300mV，-200mV，-150mV，-100mV，-50mV，-20mV和0mV的下限和独立地选自+10mV，+20mV，+50mV，+100mV，+150mV，+200mV，+300nA^P+400mV的上限的范围内。所使用的电压更优选在100mV至240mV的范围内并且最优选在120mV至220mV的范围内。通过使用增加的施加电势，可以增加孔对不同核苷酸的识别。

所述方法通常在存在任何电荷载体的情况下进行，例如金属盐例如碱金属盐，卤化物盐例如氯化物盐，例如碱金属氯化物盐。电荷载体可以包括离子液体或有机盐，例如四甲基氯化铵，三甲基苯基氯化铵，苯基三甲基氯化铵或1-乙基-3-甲基咪唑鑰氯化物。在上述示例性装置中，盐存在于所述腔室中的水性溶液中。通常使用氯化钾(KCl)，氯化钠(NaCl)，氯化铯(CsCl)或亚铁氰化钾和铁氰化钾的混合物。KCl，NaCl和亚铁氰化钾和铁氰化钾的混合物是优选的。电荷载体在所述膜上可以是不对称的。例如，电荷载体的类型和/或浓度可以在所述膜的每一侧上不同。

所述盐的浓度可以是饱和的。所述盐的浓度可以为3M或更低，并且通常为0.1至2.5M，0.3至1.9M，0.5至1.8M，0.7至1.7M，0.9至1.6M或1M至1.4M。所述盐的浓度优选为150mM至1M。所述方法优选使用至少0.3M，例如至少0.4M，至少0.5M，至少0.6M，至少0.8M，至少1.0M，至少1.5M，至少2.0M，至少2.5M或至少3.0M的盐浓度进行。高盐浓度提供高的信噪比，并允许通过电流指示在正常电流波动背景下待识别的核苷酸的存在。

所述方法通常在存在缓冲液的情况下进行。在上述示例性装置中，所述缓冲液存在于所述腔室中的水性溶液中。任意缓冲液可以用于本发明的方法。通常地，所述缓冲液为磷酸缓冲液。其他合适的缓冲液为HEPES或Tris-HCl缓冲液。所述方法通常在pH为4.0至12.0、4.5至10.0、5.0至9.0、5.5至8.8、6.0至8.7、7.0至8.8、或7.5至8.5下进行。使用的pH值优选约7.5。

所述方法可以在0℃至100℃，15℃至95℃，16℃至90℃，17℃至85℃，18℃至80℃，19℃至70℃或20℃至60℃温度下进行。所述方法通常在室温下进行。所述方法任选的在支持酶功能的温度下进行，例如约37℃。

在一个实施例中，用于确定靶分析物(例如多核苷酸)存在、不存在或一个或多个特征的方法包括将所述靶分析物偶联到膜上；和所述靶分析物与存在于所述膜中的所述蛋白孔相互作用(例如接触)从而使得所述靶分析物相对所述蛋白孔移动(例如穿过所述蛋白孔)。在一个实施例中，测量所述靶分析物相对于所述蛋白孔移动时通过所述蛋白孔的电流，从而确定所述靶分析物的存在、不存在或一个或多个特征(例如为多核苷酸的序列)。

控速蛋白

控速蛋白为可以控制靶分析物(例如多核苷酸)相对于蛋白孔移动速度(例如减慢其移动速度)从而使得此速度能够实现对靶分析物的存在、不存在或一个或多个特征进行检测(例如多核苷酸的测序)的蛋白。蛋白孔与控速蛋白配合使用用于表征靶分析物。在一个实施例中，控速蛋白减慢多核苷酸穿过蛋白孔的速度从而实现测序。控速蛋白包括下文介绍的多核苷酸结合蛋白。

多核苷酸结合蛋白

实施例的表征方法优选包括使多核苷酸与多核苷酸结合蛋白接触，使得所述蛋白控制多核苷酸相对于蛋白单体的突变体/蛋白孔的移动，例如，通过所述蛋白单体的突变体/蛋白孔。

更优选地，所述方法包括(a)使多核苷酸与蛋白单体的突变体/蛋白孔和多核苷酸结合蛋白接触，使得所述蛋白控制多核苷酸相对于蛋白单体的突变体/蛋白孔的移动，例如，通过蛋白单体的突变体/蛋白孔，和(b)当多核苷酸相对于蛋白单体的突变体/蛋白孔移动时获取一个或多个测量值，其中，所述测量值指示多核苷酸的一个或多个特征，从而表征多核苷酸。

更优选地，所述方法包括(a)使多核苷酸与蛋白单体的突变体/蛋白孔和多核苷酸结合蛋白接触，使得所述蛋白控制多核苷酸相对于蛋白单体的突变体/蛋白孔的移动，例如，通过蛋白单体的突变体/蛋白孔，和(b)当多核苷酸相对于蛋白单体的突变体/蛋白孔移动时测量通过蛋白单体的突变体/蛋白孔的电流，其中，所述电流指示多核苷酸的一个或多个特征，从而表征多核苷酸。

多核苷酸结合蛋白可以是能够结合多核苷酸并控制其移动通过孔的任何蛋白。多核苷酸结合蛋白通常与多核苷酸相互作用并改性多核苷酸的至少一种性质。蛋白可以通过裂解多核苷酸以形成各单个核苷酸或核苷酸的短链(例如，二核苷酸或三核苷酸)来对其进行改性。蛋白可以通过使多核苷酸定向或将其移动到特定位置来对其进行改性，即，控制它的移动。

多核苷酸结合蛋白优选衍生自多核苷酸处理酶。多核苷酸处理酶是能够与多核苷酸相互作用并改性多核苷酸的至少一种性质的多肽。所述酶可以通过裂解多核苷酸以形成各单个核苷酸或核苷酸的短链(例如，二核苷酸或三核苷酸)来对其进行改性。所述酶可以通过使多核苷酸定向或将其移动到特定位置来对其进行改性。多核苷酸处理酶不需要显示酶活性，只要其能够结合多核苷酸并控制其通过孔的移动即可。例如，可以对所述酶进行改性以去除其酶活性，或者可以在防止其用作酶的条件下进行使用。

多核苷酸处理酶优选为聚合酶、外切核酸酶、解旋酶和拓扑异构酶，例如，促旋酶。在一个实施例中，所述酶优选为解旋酶，例如Hel308Mbu、Hel308Csy、Hel308Tga、Hel308Mhu、Tral Eco、XPD Mbu、Dda或其变体。实施例中可以使用任何解旋酶。

在一个实施例中，可以使用任何数量的解旋酶。例如，可以使用I，2，3，4，5，6，7，8，9，10或更多个解旋酶。在一些实施例中，可以使用不同数目的解旋酶。

实施例的方法优选包括使多核苷酸与两个或更多个解旋酶接触。所述两个或更多个解旋酶通常是相同的解旋酶。所述两个或更多个解旋酶可以是不同的解旋酶。

所述两个或更多个解旋酶可以是上述解旋酶的任意组合。所述两个或更多个解旋酶可以是两个或更多个Dda解旋酶。所述两个或更多个解旋酶可以是一种或多种Dda解旋酶和一种或多种TrwC解旋酶。

所述两个或更多个解旋酶可以是相同解旋酶的不同变体。

所述两个或更多个解旋酶优选地彼此连接。所述两个或更多个解旋酶更优选地彼此共价连接。解旋酶可以以任何顺序并使用任何方法连接。

试剂盒

本发明还提供一种用于表征靶分析物(例如靶多核苷酸)的试剂盒。试剂盒包含实施例的孔和膜的组分。膜优选地由组分形成。孔优选地存在于膜中。试剂盒可包含上文所公开的任一个膜(如两亲层或三嵌段共聚物膜)的组分。试剂盒可进一步包含多核苷酸结合蛋白。可使用上文所论述的任一个多核苷酸结合蛋白。

在一个实施例中，膜为两亲层、固态层、或脂双层。

试剂盒可进一步包含用于使多核苷酸与膜偶联的一或多个锚。

试剂盒优选地是用于表征双链多核苷酸，并优选地包含Y衔接子和发夹环衔接子。

Y衔接子优选地具有所连接的一或多个解螺旋酶，且发夹环衔接子优选地具有所连接的一或多个分子制动器。Y衔接子优选地包含用于使多核苷酸与膜偶联的一或多个第一锚，发夹环衔接子优选地包含用于使多核苷酸与膜偶联的一或多个第二锚，且发夹环衔接子与膜偶联的强度优选地大于Y衔接子与膜偶联的强度。

试剂盒可另外包含使得能够进行上文提到的任一个实施例的一或多个其它试剂或仪器。此类试剂或仪器包括以下中的一或多个：合适缓冲液(水性溶液)、从个体获得样本的装置(如包含针的容器或仪器)、用于扩增和/或表达多核苷酸的装置，或电压或贴片钳设备。试剂可以干态形式存在于试剂盒中，使得流体样本再悬浮试剂。试剂盒还可任选地包含使得能够用本发明的方法使用试剂盒的说明书或关于何种生物体可使用所述方法的详情。

设备(或装置)

本发明还提供了一种用于表征靶分析物(例如，靶多核苷酸)的设备。所述设备包括单个或多个蛋白单体的突变体/蛋白孔、和单个或多个膜。所述蛋白单体的突变体/蛋白孔优选存在于所述膜中。孔和膜的数量优选相等。优选地，每个膜中存在单个孔。

所述设备优选地还包括用于实施实施例中方法的指令。所述设备可以是任一用于分析物分析的常规设备，例如，阵列或芯片。结合实施例的所述方法所讨论的任一实施例同样适用于所述设备。所述设备还可以包括本述试剂盒中存在的任何特征。用于实施例的设备具体可为齐碳科技基因测序仪QNome-9604。

上述提及的现有技术以全文引用的方式并入本文。

以下实施例用以阐述本发明，但不具有限制作用。

实施例1

在实施例中，野生型孔蛋白来自广古菌，并且该野生型孔蛋白的氨基酸序列是SEQID NO:1，编码此氨基酸序列的核苷酸序列由SEQ ID NO:2所示。孔蛋白单体的突变体1是野生型孔蛋白在对应SEQ ID NO:1的多处具有突变，具体为Q71G、H74T、S77T、D109N、E123N、和D129N。包括孔蛋白单体的突变体1的蛋白孔为突变孔1。蛋白单体的突变体1的氨基酸序列如SEQ ID NO:13所示。

实施例2

在实施例中，野生型孔蛋白来自广古菌，并且该野生型孔蛋白的氨基酸序列是SEQID NO:1，编码此氨基酸的序列的核苷酸序列由SEQ ID NO:2所示。孔蛋白单体的突变体2是野生型孔蛋白在对应SEQ ID NO:1的多处具有突变，具体为H74G、缺失L75、E123N、D129N、和D213G。包括孔蛋白单体的突变体2的蛋白孔为突变孔2。蛋白单体的突变体2的氨基酸序列如SEQ ID NO:14所示。

实施例3

采用SWISS MODEL对野生型孔蛋白进行同源建模，野生型孔蛋白单体的氨基酸由SEQ ID NO:1所示。图4A是预测蛋白结构模型的侧视图400，其中颜色较深的部分显示的为一个蛋白单体402。图4B是表面结构模型俯视图404，其中颜色较深的部分显示的为一个蛋白单体406。图4C为飘带结构模型图408，颜色较深部分为蛋白单体410。

图5示出了野生型通道缢缩区氨基酸残基分布和缢缩区直径。两个孔蛋白单体502和504中间的缢缩区孔道直径最大约为

其次约为

最小直径约为

中间显示的是缢缩区结构的氨基酸组成即L75、H74和Q71。

图6A显示了野生型通道单体表面电势图，其中颜色深浅代表电性强弱。图6B显示了单体飘带模型及其缢缩区氨基酸残基分布的棍棒模型，放大显示缢缩区loop氨基酸组成及其编号，其中部分602是指向蛋白孔道中心区域的氨基酸残基。

采用SWISS MODEL对突变孔1进行同源建模。图7显示的是氨基酸模型图的顶视图，其中最狭窄区域直径约为

棍棒模型显示了突变体孔道狭窄区域的关键氨基酸残基分布，指向孔道中心的氨基酸残基为74位的苏氨酸。

图8显示了突变孔1基于同源建模的卡通示意图，区域1对应于冠状体形成区域，区域2对应于收缩和环形(constriction and loops)区域，区域3对应于跨膜β桶状体区域。

实施例4-制备DNA构建体

制备DNA构建体BS7-4C3-SE1，其结构如图9所示，序列信息如下所示：

a:30*C3

b:5’-TTTTT TTTTT-3’(即SEQ ID NO:3)

c:控速蛋白

d:4*C18

e:5’-AATGT ACTTC GTTCA GTTAC GTATT GCT-3’(即SEQ ID NO:4)

f:5’P-GC AATAC GTAAC TGAAC GAAGT TCACTATCGCATTCTCATGA-3’(即SEQ ID NO:5)

g:胆固醇标签

h:5’-TCATG AGAAT GCGAT AGTGA-3’(即SEQ ID NO:6)

i:5’-AAAAA AAAAA AAAAA AAAAA AAAAA AAAAA AAAAA AAAAA AAGCA ATACGTAACT GAACG AAGTA CATTA AAAAA AAAAA AAAAA AAAA-3’(即SEQ ID NO:7)

j:5’-ATCCT TTTTT TTTTT TTTTT TTTT-3’(即SEQ ID NO:8)

k:5’-AATGT ACTTC GTTCA GTTAC GTATT GCTTT TTTTT TTTTT TTTTT TTT-3’(即SEQ ID NO:9)

l:dSpacer

m:5’-TTTTT TTTTT TTTTT TTTTT-3’(即SEQ ID NO:10)

C3、C18、dSpacer及iSpC3是指示孔测序分辨率特征而引入的标记(marker)序列。

在本实施例中，图9中的c控速蛋白为解旋酶Mph-MP1-E105C/A362C(具有突变E105C/A362C)，氨基酸序列为SEQ ID NO:11，核酸序列为SEQ ID NO:12。

实施例5

突变孔1作为蛋白孔，采用单孔测序的技术方法进行检测。在将氨基酸序列为突变体1的单个孔蛋白插入磷脂双分子层之后，使缓冲液(625mM KCl，10mM HEPES pH 8.0，50mMMgCl₂)流经该系统，以除去任何过量的突变体1纳米孔。将DNA构建体BS7-4C3-SE1(1～2nM终浓度)加入所述突变体1纳米孔实验系统中，混匀后，使缓冲液(625mM KCl，10mM HEPESpH 8.0，50mM MgCl₂)流经该系统，以除去任何过量的DNA构建体BS7-4C3-SE1。然后将解旋酶(Mph-MP1-E105C/A362C，15nM终浓度)、燃料(ATP 3mM终浓度)预混物加入所述单个突变体1纳米孔实验系统中，并在+180mV电压下监测突变体1孔蛋白的测序情况。

突变孔1在±180mV电压下开孔。图10A显示突变孔1在±180mV电压下开孔电流及其门控特征。图10B显示突变孔1在+180mV电压下的单链核酸过孔情况。核酸可以过孔。加入单链核酸后，向下的线显示的核酸过孔信号。

采用单孔测序技术方法，通过突变孔1对DNA构建体BS7-4C3-SE1进行测序，完成嵌孔后添加测序体系出现的核酸测序信号。图11A和11B示出了当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-SE1穿过突变孔1移位时的示例电流轨迹。根据该信号特征可以得出突变孔1测序分辨率，稳定性，信号一致性等相关特征。该孔台阶清晰，跳变分布明显，具备高精度测序能力。从信号特征来看，测序信号一致性较高。

图12是将图11A的部分显示出电流轨迹的放大结果。具有虚线框和箭头的图(中间图)为原始信号滤波处理后的结果(两条轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s))。虚线箭头指示部分显示了电流轨迹的放大结果。此单独一条信号的区域放大显示图，表明该突变孔对核酸测序具备高分辨率。

实施例6

与实施例5类似，实施例6采用突变孔2进行空测和过孔检测。

图13A显示突变孔2在±180mV电压下开孔电流及其门控特征。图13B显示突变孔2在+180mV电压下的单链核酸过孔情况。核酸可以过孔。加入单链核酸后，向下的线显示的核酸过孔信号。

采用单孔测序技术方法，通过突变孔2对DNA构建体BS7-4C3-SE1进行测序，完成嵌孔后添加测序体系出现的核酸测序信号。图14A和14B示出了当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-SE1穿过突变孔2移位时的示例电流轨迹。根据该信号特征，突变孔2可以用来核酸测序。

图15显示出部分电流轨迹的放大结果。具有虚线框和箭头的图为原始信号滤波处理后的结果(两条轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s))。虚线箭头指示部分显示了电流轨迹的放大结果。此单独一条信号的区域放大显示图，进一步证明突变孔2可以用来核酸测序。

突变孔2比突变孔1测序精度差。

实施例7

将含有孔蛋白单体的突变体1核酸序列(其对应氨基酸序列如SEQ ID NO:13)的重组质粒通过热击法转化到BL21(DE3)感受态细胞，加入0.5ml LB培养基经30℃培养1h后取适量菌液涂布于氨苄抗性固体LB平板，37℃过夜培养，次日挑取单克隆菌落，接种至50ml含有氨苄抗性的液体LB培养基中37℃培养过夜。按1％的接种量转接至氨苄抗性的TB液体培养基中进行扩大培养，37℃、220rpm条件下培养，并连续不断的测量其OD600值。当OD600＝2.0-2.2时，将TB培养基中的培养液冷却至16℃，并添加异丙基硫代半乳糖苷(Isopropylβ-D-Thiogalactoside，IPTG)诱导表达，使得终浓度达到0.015mM。诱导表达20-24h后，离心收集菌体。菌体用破碎缓冲液重悬后高压破碎，通过Ni-NTA亲和层析方法进行纯化，收集目的洗脱样品。孔蛋白单体的突变体2按如上方法纯化得到。

示例性的，图16示出了突变体1的蛋白纯化结果，1-7泳道显示的是分离的不同组分的SDS-PAGE电泳检测结果。

SEQUENCE LISTING

<110> 成都齐碳科技有限公司

<120> 孔蛋白单体的突变体、蛋白孔及其应用

<130> SPI214152-63

<160> 14

<170> PatentIn version 3.5

<210> 1

<211> 292

<212> PRT

<213> Euryarchaeota archaeon

<400> 1

Met Asn Lys Ile Phe Ser Ile Ile Leu Val Ala Met Phe Leu Val Gly

1 5 10 15

Cys Thr Ala Thr Val Ser Asn Asn Thr Tyr Lys Lys His Tyr Ser Asp

20 25 30

Ala Gly Val Gln Asn Ala Ser Gln Asp Val Lys Asn Phe Pro Lys Leu

35 40 45

Asp Gly Pro Leu Ile Thr Val Ala Val Tyr Gln Phe Ser Asp Leu Thr

50 55 60

Gly Gln Arg Lys Pro Gly Gln Ile Ala His Leu Ser Ser Ala Val Thr

65 70 75 80

Gln Gly Ala Gly Ala Tyr Leu Ile Glu Thr Leu Lys Glu Val Gly Asp

85 90 95

Ser Ser Trp Phe Gln Val Val Glu Arg Thr Gly Ile Asp His Leu Ile

100 105 110

Lys Glu Arg Gln Ile Ile Arg Gln Thr Arg Glu Leu Asn Lys Asp Gln

115 120 125

Asp Val Leu Gln Pro Leu Leu Phe Ala Gly Val Leu Ile Glu Gly Ala

130 135 140

Ile Val Gly Tyr Asp Ser Asn Leu Glu Ser Gly Gly Tyr Gly Ala Arg

145 150 155 160

Val Leu Gly Ile Gly Ala Asn Thr Gln Tyr Thr Arg Asp Thr Val Thr

165 170 175

Val Ser Ile Arg Leu Val Ser Val Ser Ser Gly Glu Val Leu Leu Thr

180 185 190

Ser Thr Thr Thr Lys Thr Ile Ile Ser Val Lys Thr Gln Gly Asp Val

195 200 205

Phe Arg Trp Met Asp Ala Gly Thr Glu Pro Leu Glu Ala Glu Val Gly

210 215 220

Thr Ala Leu Asn Glu Pro Val Asn Val Ala Thr Arg Leu Ala Ile Glu

225 230 235 240

Leu Ala Val Cys Asn Leu Ile Glu Lys Gly Lys Gln Lys Asn Leu Trp

245 250 255

Ala Tyr Lys Lys Val Asn Glu Val Lys Glu Ser Lys Gln Glu Ile Lys

260 265 270

Thr Glu Leu Lys Glu Glu Lys Val Ile Val Asp Ser Trp Val Pro Asp

275 280 285

Thr Phe Asn Arg

290

<210> 2

<211> 879

<212> DNA

<213> Euryarchaeota archaeon

<400> 2

atgaacaaga tattttcaat aatcctagtt gctatgttct tggtaggctg tacagcgaca 60

gttagtaata atacttacaa aaagcattat tctgacgctg gtgtacaaaa tgcctcacaa 120

gatgtcaaga actttccaaa gctagatggt ccactaatta ctgtagcagt atatcaattt 180

agtgacttaa ctggccaaag aaagcctgga caaatagcac atttaagctc agcagttacc 240

caaggtgctg gtgcttatct aatagaaact cttaaagaag taggagatag tagttggttc 300

caagttgttg aacgaactgg tattgatcac cttataaaag aaagacaaat tataagacaa 360

acaagagagc ttaataaaga ccaagatgta ctacaacctc tattgtttgc tggagtttta 420

atagaaggag ccatagttgg atacgacagc aaccttgaat caggagggta cggagctcga 480

gtgctaggca ttggagcaaa tactcaatat acaagagata cagtaacggt cagtattaga 540

ttagtatctg tatcaagcgg agaagtttta ttaacatcta ctacaacaaa aacaatcata 600

agtgtaaaaa cacaaggtga tgttttccgt tggatggatg ctggaacaga accacttgaa 660

gcagaagtag gaacggcact taatgaacca gtaaatgtag ctacaagact tgctattgaa 720

ttagcagtct gtaacttgat tgaaaaaggt aaacaaaaaa atctttgggc ttataagaaa 780

gtaaatgaag tgaaagaatc taaacaagaa ataaagacag aactaaaaga agaaaaagtc 840

attgttgata gttgggttcc ggacactttt aatagataa 879

<210> 3

<211> 10

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 3

tttttttttt 10

<210> 4

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 4

aatgtacttc gttcagttac gtattgct 28

<210> 5

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 5

gcaatacgta actgaacgaa gttcactatc gcattctcat ga 42

<210> 6

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 6

tcatgagaat gcgatagtga 20

<210> 7

<211> 89

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 7

aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aagcaatacg taactgaacg 60

aagtacatta aaaaaaaaaa aaaaaaaaa 89

<210> 8

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 8

atcctttttt tttttttttt tttt 24

<210> 9

<211> 48

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 9

aatgtacttc gttcagttac gtattgcttt tttttttttt tttttttt 48

<210> 10

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> part of BS7-4C3-SE1

<400> 10

tttttttttt tttttttttt 20

<210> 11

<211> 441

<212> PRT

<213> Artificial Sequence

<220>

<223> helicase

<400> 11

Met Ile Thr Ile Asp Gln Leu Thr Glu Gly Gln Phe Asp Ser Leu Gln

1 5 10 15

Arg Ala Lys Val Leu Ile Gln Glu Ala Thr Lys Asn Asp Gly Asn Trp

20 25 30

Asn His Arg Thr Lys His Leu Thr Ile Asn Gly Pro Ala Gly Thr Gly

35 40 45

Lys Thr Thr Met Met Lys Phe Leu Val Ser Trp Leu Arg Asp Glu Gly

50 55 60

Ile Thr Gly Val Ala Leu Ala Ala Pro Thr His Ala Ala Lys Lys Val

65 70 75 80

Leu Ala Asn Ala Val Gly Glu Glu Val Ser Thr Ile His Ser Ile Leu

85 90 95

Lys Ile Asn Pro Thr Thr Tyr Glu Cys Lys Gln Phe Phe Glu Gln Ser

100 105 110

Ala Pro Pro Asp Leu Ser Lys Ile Arg Ile Leu Ile Cys Glu Glu Cys

115 120 125

Ser Phe Tyr Asp Ile Lys Leu Phe Glu Ile Leu Met Asn Ser Ile Gln

130 135 140

Pro Trp Thr Ile Ile Ile Gly Ile Gly Asp Arg Ala Gln Leu Arg Pro

145 150 155 160

Ala Asp Asp Lys Gly Ile Ser Arg Phe Phe Thr Asp Gln Arg Phe Glu

165 170 175

Gln Thr Tyr Leu Thr Glu Ile Lys Arg Ser Asn Met Pro Ile Ile Glu

180 185 190

Val Ala Thr Glu Ile Arg Asn Gly Gly Trp Ile Arg Glu Asn Ile Ile

195 200 205

Asp Asp Leu Gly Val Lys Gln Asp Lys Ser Val Ser Glu Phe Met Thr

210 215 220

Asn Tyr Phe Lys Val Val Lys Ser Ile Asp Asp Leu Tyr Glu Thr Arg

225 230 235 240

Met Tyr Ala Tyr Thr Asn Asn Ser Val Asp Thr Leu Asn Lys Ile Ile

245 250 255

Arg Lys Lys Leu Tyr Glu Thr Glu Gln Asp Phe Ile Val Gly Glu Pro

260 265 270

Ile Val Met Gln Glu Pro Leu Ile Arg Asp Ile Asn Tyr Glu Gly Lys

275 280 285

Arg Phe Gln Glu Ile Val Phe Asn Asn Gly Glu Tyr Leu Glu Val Ser

290 295 300

Glu Ile Lys Pro Met Glu Ser Val Leu Lys Cys Arg Asn Ile Asp Tyr

305 310 315 320

Gln Leu Val Leu His Tyr Tyr Gln Leu Lys Val Lys Ser Ile Asp Thr

325 330 335

Gly Glu Ser Gly Leu Ile Asn Thr Ile Ser Asp Lys Asn Glu Leu Asn

340 345 350

Lys Phe Tyr Met Phe Leu Gly Lys Val Cys Gln Asp Tyr Lys Ser Gly

355 360 365

Thr Ile Lys Ala Phe Trp Asp Asp Phe Trp Lys Ile Lys Asn Asn Tyr

370 375 380

His Arg Val Lys Pro Leu Pro Val Ser Thr Ile His Lys Gly Gln Gly

385 390 395 400

Ser Thr Val Asp Asn Ser Phe Leu Tyr Thr Pro Cys Ile Thr Lys Tyr

405 410 415

Ala Glu Pro Asp Leu Ala Ser Gln Leu Leu Tyr Val Gly Val Thr Arg

420 425 430

Ala Arg His Asn Val Asn Phe Val Gly

435 440

<210> 12

<211> 1326

<212> DNA

<213> Artificial Sequence

<220>

<223> helicase

<400> 12

atgatcacca tcgaccagct gaccgaaggt cagttcgact ctctgcagcg tgctaaagtt 60

ctgatccagg aagctaccaa aaacgacggt aactggaacc accgtaccaa acacctgacc 120

atcaacggtc cggctggtac cggtaaaacc accatgatga aattcctggt ttcttggctg 180

cgtgacgaag gtatcaccgg tgttgctctg gctgctccga cccacgctgc taaaaaagtt 240

ctggctaacg ctgttggtga agaagtttct accatccact ctatcctgaa aatcaacccg 300

accacctacg aatgcaaaca gttcttcgaa cagtctgctc cgccggacct gtctaaaatc 360

cgtatcctga tctgcgaaga atgctctttc tacgacatca aactgttcga aatcctgatg 420

aactctatcc agccgtggac catcatcatc ggtatcggtg accgtgctca gctgcgtccg 480

gctgacgaca aaggtatctc tcgtttcttc accgaccagc gtttcgaaca gacctacctg 540

accgaaatca aacgttctaa catgccgatc atcgaagttg ctaccgaaat ccgtaacggt 600

ggttggattc gtgaaaacat catcgacgac ctgggtgtta aacaggacaa atctgtttct 660

gaatttatga ccaactactt caaagttgtt aaatctatcg acgacctgta cgaaacccgt 720

atgtacgctt acaccaacaa ctctgttgac accctgaaca aaatcatccg taaaaaactg 780

tacgaaaccg aacaggactt catcgttggt gaaccgatcg ttatgcagga accgctgatc 840

cgtgacatca actacgaagg taaacgtttc caggaaatcg ttttcaacaa cggtgaatac 900

ctggaagttt ctgaaatcaa accgatggaa tctgttctga aatgccgtaa catcgactac 960

cagctggttc tgcactacta ccagctgaaa gttaaatcta tcgacaccgg tgaatctggt 1020

ctgatcaaca ccatctctga caaaaacgaa ctgaacaaat tctacatgtt cctgggtaaa 1080

gtttgccagg actacaaatc tggtaccatc aaagcgttct gggacgactt ctggaaaatc 1140

aaaaacaact accaccgtgt taaaccgctg ccggtttcta ccatccacaa aggtcagggt 1200

tctaccgttg acaactcttt cctgtacacc ccgtgcatca ccaaatacgc tgaaccggac 1260

ctggcttctc agctgctgta cgttggtgtt acccgtgctc gtcacaacgt taacttcgtt 1320

ggttaa 1326

<210> 13

<211> 292

<212> PRT

<213> Artificial Sequence

<220>

<223> mutant 1

<400> 13

Met Asn Lys Ile Phe Ser Ile Ile Leu Val Ala Met Phe Leu Val Gly

1 5 10 15

Cys Thr Ala Thr Val Ser Asn Asn Thr Tyr Lys Lys His Tyr Ser Asp

20 25 30

Ala Gly Val Gln Asn Ala Ser Gln Asp Val Lys Asn Phe Pro Lys Leu

35 40 45

Asp Gly Pro Leu Ile Thr Val Ala Val Tyr Gln Phe Ser Asp Leu Thr

50 55 60

Gly Gln Arg Lys Pro Gly Gly Ile Ala Thr Leu Ser Thr Ala Val Thr

65 70 75 80

Gln Gly Ala Gly Ala Tyr Leu Ile Glu Thr Leu Lys Glu Val Gly Asp

85 90 95

Ser Ser Trp Phe Gln Val Val Glu Arg Thr Gly Ile Asn His Leu Ile

100 105 110

Lys Glu Arg Gln Ile Ile Arg Gln Thr Arg Asn Leu Asn Lys Asp Gln

115 120 125

Asn Val Leu Gln Pro Leu Leu Phe Ala Gly Val Leu Ile Glu Gly Ala

130 135 140

Ile Val Gly Tyr Asp Ser Asn Leu Glu Ser Gly Gly Tyr Gly Ala Arg

145 150 155 160

Val Leu Gly Ile Gly Ala Asn Thr Gln Tyr Thr Arg Asp Thr Val Thr

165 170 175

Val Ser Ile Arg Leu Val Ser Val Ser Ser Gly Glu Val Leu Leu Thr

180 185 190

Ser Thr Thr Thr Lys Thr Ile Ile Ser Val Lys Thr Gln Gly Asp Val

195 200 205

Phe Arg Trp Met Asp Ala Gly Thr Glu Pro Leu Glu Ala Glu Val Gly

210 215 220

Thr Ala Leu Asn Glu Pro Val Asn Val Ala Thr Arg Leu Ala Ile Glu

225 230 235 240

Leu Ala Val Cys Asn Leu Ile Glu Lys Gly Lys Gln Lys Asn Leu Trp

245 250 255

Ala Tyr Lys Lys Val Asn Glu Val Lys Glu Ser Lys Gln Glu Ile Lys

260 265 270

Thr Glu Leu Lys Glu Glu Lys Val Ile Val Asp Ser Trp Val Pro Asp

275 280 285

Thr Phe Asn Arg

290

<210> 14

<211> 291

<212> PRT

<213> Artificial Sequence

<220>

<223> mutant 2

<400> 14

Met Asn Lys Ile Phe Ser Ile Ile Leu Val Ala Met Phe Leu Val Gly

1 5 10 15

Cys Thr Ala Thr Val Ser Asn Asn Thr Tyr Lys Lys His Tyr Ser Asp

20 25 30

Ala Gly Val Gln Asn Ala Ser Gln Asp Val Lys Asn Phe Pro Lys Leu

35 40 45

Asp Gly Pro Leu Ile Thr Val Ala Val Tyr Gln Phe Ser Asp Leu Thr

50 55 60

Gly Gln Arg Lys Pro Gly Gln Ile Ala Gly Ser Ser Ala Val Thr Gln

65 70 75 80

Gly Ala Gly Ala Tyr Leu Ile Glu Thr Leu Lys Glu Val Gly Asp Ser

85 90 95

Ser Trp Phe Gln Val Val Glu Arg Thr Gly Ile Asp His Leu Ile Lys

100 105 110

Glu Arg Gln Ile Ile Arg Gln Thr Arg Asn Leu Asn Lys Asp Gln Asn

115 120 125

Val Leu Gln Pro Leu Leu Phe Ala Gly Val Leu Ile Glu Gly Ala Ile

130 135 140

Val Gly Tyr Asp Ser Asn Leu Glu Ser Gly Gly Tyr Gly Ala Arg Val

145 150 155 160

Leu Gly Ile Gly Ala Asn Thr Gln Tyr Thr Arg Asp Thr Val Thr Val

165 170 175

Ser Ile Arg Leu Val Ser Val Ser Ser Gly Glu Val Leu Leu Thr Ser

180 185 190

Thr Thr Thr Lys Thr Ile Ile Ser Val Lys Thr Gln Gly Asp Val Phe

195 200 205

Arg Trp Met Gly Ala Gly Thr Glu Pro Leu Glu Ala Glu Val Gly Thr

210 215 220

Ala Leu Asn Glu Pro Val Asn Val Ala Thr Arg Leu Ala Ile Glu Leu

225 230 235 240

Ala Val Cys Asn Leu Ile Glu Lys Gly Lys Gln Lys Asn Leu Trp Ala

245 250 255

Tyr Lys Lys Val Asn Glu Val Lys Glu Ser Lys Gln Glu Ile Lys Thr

260 265 270

Glu Leu Lys Glu Glu Lys Val Ile Val Asp Ser Trp Val Pro Asp Thr

275 280 285

Phe Asn Arg

290

Claims

1.一种孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸包括SEQ ID NO:1所示的序列或与其具有至少99％、98％、97％、96％、95％、90％、80％、70％、60％或50％同一性的序列，并且所述孔蛋白单体的突变体的氨基酸包括在对应SEQ ID NO:1的H74、E123、和D129的一个或多个位置处的突变。

2.根据权利要求1所述的孔蛋白单体的突变体，所述孔蛋白单体的突变体的氨基酸包括在对应SEQ ID NO:1的71-129、74-213、71-213、或74-129的一个或多个位置处的突变。

3.根据权利要求1或2所述的孔蛋白单体的突变体，所述孔蛋白单体的突变体的氨基酸包括：

4.根据前述权利要求任一项所述的孔蛋白单体的突变体，其中所述SEQ ID NO:1所示的序列来源于广古菌。

5.根据前述权利要求任一项所述的孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸突变选自以下：

6.根据前述权利要求任一项所述的孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸突变选自以下：

(a)对应SEQ ID NO:1的Q71G、H74T、S77T、D109N、E123N、和D129N；和

7.根据前述权利要求任一项所述的孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸序列包括SEQ ID NO:13、或SEQ ID NO:14，或由其组成。

8.一种孔蛋白单体的突变体，其中所述孔蛋白单体的突变体的氨基酸包括SEQ ID NO:1所示的序列或与其具有至少99％、98％、97％、96％、95％、90％、80％、70％、60％或50％同一性的序列，并且所述孔蛋白单体的突变体包括：

9.一种蛋白孔，包括至少一个前述权利要求任一项所述的孔蛋白单体的突变体。

10.根据权利要求9所述的蛋白孔，其中所述蛋白孔包括至少两个所述的孔蛋白单体的突变体。

11.根据权利要求9-10任一项所述的蛋白孔，其中所述蛋白孔的缢缩区孔道直径为0.7nm-2.2nm、0.9nm-1.6nm、1.4nm-1.6nm或

12.一种用于表征靶分析物的复合物，其特征在于：包括权利要求9-11任一项所述的蛋白孔及与其配合使用的控速蛋白。

13.一种核酸，其编码权利要求1-8任一项所述的孔蛋白单体的突变体、权利要求9-11任一项所述的蛋白孔、或权利要求12所述的复合物。

14.根据权利要求13所述的核酸，其中孔蛋白单体的核苷酸序列为SEQ ID NO:2所示的序列。

15.包含权利要求13-14任一项所述的核酸的载体或遗传工程化的宿主细胞。

16.权利要求1-8任一项所述的孔蛋白单体的突变体、权利要求9-11任一项所述的蛋白孔、权利要求12所述复合物、权利要求13-14任一所述核酸、或权利要求15所述载体或宿主细胞在检测靶分析物存在、不存在或一个或多个特征或制备检测靶分析物存在、不存在或一个或多个特征的产品中的应用。

17.一种产生蛋白孔或其多肽的方法，包括用包含权利要求15所述的载体转化权利要求15所述的宿主细胞，诱导所述宿主细胞表达权利要求9-11任一所述的蛋白孔或其多肽。

18.一种用于确定靶分析物存在、不存在或一个或多个特征的方法，包括：

a.使靶分析物与权利要求9-11任一项所述的蛋白孔、权利要求12所述复合物、或权利要求12所述复合物中的所述蛋白孔接触，使得所述靶分析物相对于所述蛋白孔移动；以及

19.根据权利要求18所述的方法，其中所述方法包括：

所述靶分析物与存在于膜中的所述蛋白孔相互作用从而使得所述靶分析物相对所述蛋白孔移动。

20.一种用于确定靶分析物存在、不存在或一个或多个特征的试剂盒，包括权利要求1-8任一项所述的孔蛋白单体的突变体、权利要求9-11任一项所述的蛋白孔、权利要求12所述的复合物、权利要求13-14任一项所述的核酸、或权利要求15所述的载体或宿主，和权利要求19中限定的膜的组分。

21.一种用于确定靶分析物存在、不存在或一个或多个特征的装置，包括权利要求9-11任一项所述的蛋白孔或权利要求12所述复合物，和权利要求19中限定的膜。

22.根据权利要求16-21中任一所述的应用、方法、试剂盒或装置，其中所述靶分析物包括多糖、金属离子、无机盐、聚合物、氨基酸、肽、蛋白、核苷酸、寡核苷酸、多核苷酸、染料、药物、诊断剂、爆炸物或环境污染物；

优选地，所述靶分析物包括多核苷酸，