CN114957412A

CN114957412A - 一种新型孔蛋白单体及其应用

Info

Publication number: CN114957412A
Application number: CN202210471257.XA
Authority: CN
Inventors: 白净卫; 毕莹; 刘少伟; 谢馥励; 张子朋
Original assignee: Qitan Technology Ltd Beijing; Tsinghua University
Current assignee: Qitan Technology Ltd Beijing; Tsinghua University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-30
Anticipated expiration: 2042-04-28
Also published as: CN114957412B

Abstract

本发明提供了一种新型孔蛋白单体，一种突变孔及其在表征靶分析物中的应用。特别是，所述的孔蛋白单体包含多位点突变，提供了在纳米孔测序过程中全新的作用模式，对孔蛋白与控速蛋白相互作用界面的稳定性，提高纳米孔测序的分辨率有积极影响。

Description

一种新型孔蛋白单体及其应用

技术领域

本发明涉及纳米孔测序技术领域，具体涉及一种新型孔蛋白单体及其应用。

背景技术

随着对DNA结构和序列的研究，DNA测序技术不断发展，成为生命科学研究的核心领域，对生物、化学、电学、生命科学、医学等领域的技术发展起到巨大的推动作用。利用纳米孔研究出新型的快速、准确、低成本、高精度及高通量的DNA测序技术是后人类基因组计划的热点之一。

Nanopore sequencing即纳米孔DNA测序技术，又被称为第四代测序技术，是Oxford Nanopore Technologies公司首先推出产品的新一代的测序技术。目前DNA测序最长长度可以达到Mb级别，并可实现天然DNA和RNA测序并可直接获取DNA和RNA的碱基修饰信息。纳米孔检测技术作为一个新型平台，具有低成本、高通量、非标记等优势，可将基因组测序的成本降低到1000美元以下。

纳米孔分析技术起源于Coulter计数器的发明以及单通道电流的记录技术。生理与医学诺贝尔奖获得者Neher和Sakamann在1976年利用膜片钳技术测量膜电势，研究膜蛋白及离子通道，推动了纳米孔测序技术的实际应用进程。1996年，Kasianowicz等提出了利用α-溶血素对DNA测序的新设想，是生物纳米孔单分子测序的里程碑标志。随后，MspA孔蛋白、噬菌体Phi29连接器等生物纳米孔的研究报道，丰富了纳米孔分析技术的研究。Li等在2001年开启了固态纳米孔研究的新时代。受限于半导体和材料工业的发展，固态纳米孔测序进展缓慢。目前以ONT为主流的纳米孔测序公司和商业化产品均采用生物孔作为纳米孔测序的主要实现手段。生物纳米孔发展到今天，以大肠杆菌来源的CsgG蛋白为骨架的单读取头突变孔(对应ONT的R9系列孔)和CsgG-CsgF为骨架的双读取头突变孔(对应ONT的R10系列孔)的单次测序精度已经超过99％，使该技术展示出了强大的应用潜力。

目前，纳米孔测序技术与二代技术相比，测序准确度较低，最高单次测序准确率为99.2％，与二代测序相比具有较大差距。而准确率与孔蛋白直接相关。另外，与测序体系(包括孔蛋白)相关的生化体系对测序精度的影响也至关重要。孔蛋白还涉及到与控速蛋白的相互作用的模式变化，进一步优化孔蛋白与控速蛋白相互作用界面的稳定性，对提高测序数据的一致性和稳定性有积极影响。因此研发新型孔蛋白，进一步提高纳米孔测序的分辨率尤为重要。

发明内容

本发明制备了一种新型突变孔，基于其特定的来源和本申请设计的突变，使得其可以用于纳米孔测序，应用本发明所述的突变孔进行纳米孔测序，可以明显的看出各种不同核苷酸电流信号的差别，具备较高的测序精确度。

具体地，第一方面，提供了一种孔蛋白单体。

所述的孔蛋白单体来自于β变形菌类群，例如卡巴列罗菌属，也叫特产卡伯球藻菌(Caballeronia telluris)，序列参见AWB66_04472。

所述的孔蛋白单体包括SEQ ID NO:1的突变体，所述的突变体为与SEQ ID NO:1具有至少70％、75％、80％、85％、90％、95％或至少99％同一性的氨基酸序列，所述的突变体包含在SEQ ID NO:1的74-130位具有任何一个或多个氨基酸突变的氨基酸序列。

优选的，所述的突变包含氨基酸的插入、缺失和/或替换。

优选的，所述的突变体包括在SEQ ID NO:1的74-83、75-83、78-83、75-130或78-130位的一个或多个位置处的突变。

优选的，所述的突变体还包括在SEQ ID NO:1的1-73或131-314位的一个或多个位置处的突变。

优选的，所述的突变体包括在SEQ ID NO:1的S78、D80、S82或F83位中的一种或两种以上的组合的突变；进一步优选包含下列任一种或两种以上的组合：

A)S78突变为78V或78Y；

B)D80突变为80N或D80缺失；

C)S82突变为82A、82N或82V；

D)F83突变为83Q或83A。

优选的，所述的突变体还包括在SEQ ID NO:1的Y75和/或S81的突变；进一步优选包含Y75突变为75F，和/或，S81突变为81A。

优选的，所述的突变体还包括在SEQ ID NO:1的Q74、E127和/或D130位中的一种、两种或三种的突变，进一步优选包含Q74突变为74L、E127突变为127R和/或D130突变为130K。

在本发明的一个具体实施方式中，所述的突变位置包括：

(1)对应SEQ ID NO:1的S78、D80、S82和F83的一个或多个位置处具有氨基酸的插入、缺失和/或替换；

(2)SEQ ID NO:1的Y75、S78、D80、S81、S82和F83的一个或多个位置处具有氨基酸的插入、缺失和/或替换；或，

(3)SEQ ID NO:1的Q74、Y75、S78、D80、S81、S82、F83、E127和D130的一个或多个位置处具有氨基酸的插入、缺失和/或替换。

在本发明的一个具体实施方式中，所述的孔蛋白单体的突变体包括以下突变：

(a)SEQ ID NO:1的S78V、D80N、S82A和F83Q；

(b)SEQ ID NO:1的Y75F、S78Y、D80缺失、S81A、S82N和F83A；或，

(c)SEQ ID NO:1的Q74L、Y75F、S78Y、D80缺失、S81A、S82V、F83A、E127R和D130K。

在本发明的一个具体实施方式中，所述的a)中突变体的氨基酸序列包括SEQ IDNO：3或与SEQ ID NO：3具有70％、75％、80％、85％、90％、95％或99％同一性的氨基酸序列。

在本发明的一个具体实施方式中，所述的b)中突变体的氨基酸序列包括SEQ IDNO：4或与SEQ ID NO：4具有70％、75％、80％、85％、90％、95％或99％同一性的氨基酸序列。

在本发明的一个具体实施方式中，所述的c)中突变体的氨基酸序列包括SEQ IDNO：5或与SEQ ID NO：5具有70％、75％、80％、85％、90％、95％或99％同一性的氨基酸序列。

第二方面，提供了一种构建体，所述的构建体包含至少一个上述的孔蛋白单体。其中，所述的构建体保留了形成孔的能力。

优选的，所述的构建体包含来源于Caballeronia telluris的野生型孔蛋白单体(序列参见AWB66_04472)。

优选的，所述的构建体包含如SEQ ID NO：1所示的野生型孔蛋白单体。

优选的，所述构建体包含1-20(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20)个SEQ ID NO：1的突变体，其中所述的突变体相同或不同。

优选的，其中所述构建体含有1-20(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20)个野生型孔蛋白单体。

优选的，其中所述的突变体和突变体、野生型孔蛋白单体和野生型孔蛋白单体、突变体与野生型孔蛋白单体共价连接。

第三方面，提供了一种突变孔，包括至少一个上述的孔蛋白单体。

优选的，所述的突变孔包含来源于Caballeronia telluris的野生型孔蛋白单体(序列参见AWB66_04472)。

优选的，所述的突变孔包含如SEQ ID NO：1所示的野生型孔蛋白单体。

优选的，所述突变孔包含1-20(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20)个SEQ ID NO：1的突变体，其中所述突变体相同或不同。

优选的，其中所述突变孔含有1-20(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20)个野生型孔蛋白单体。

在本发明的一个具体实施方式中，所述的共价连接可以采用化学交联剂、线性分子或催化剂连接。所述的化学交联剂包括但不限于马来酰亚胺，活性酯，琥珀酰亚胺，叠氮化物，炔烃(诸如二苯并环辛炔醇(DIBO或DBCO)，二氟环炔烃和线性炔烃)等；化学交联剂的长度可以从一个碳(碳酰氯型连接器)到多个埃变化。所述的线性分子包括但不限于聚乙二醇(PEGs)，多肽，多糖，脱氧核糖核酸(DNA)，肽核酸(PNA)，苏糖核酸(TNA)，甘油核酸(GNA)，饱和的和不饱和的烃，聚酰胺。所述的催化剂包括但不限于TMAD等任何可以使得突变体和突变体、野生型孔蛋白单体和野生型孔蛋白单体、突变体与野生型孔蛋白单体之间产生共价键的催化剂。

优选的，当多核苷酸单链通过包含至少一个SEQ ID NO：1的突变体的突变孔时，其孔内缢缩区形成的读取头结构可在当多核苷酸单链通过突变孔时，导致由不同类型核苷酸的物理或化学性质差异引起的孔阻力差异，例如电流的阻塞，从而短暂地影响流过突变孔的电流强度(每种碱基所影响的电流变化幅度是不同的)。

优选的，所述的突变导致电荷性质或者氨基酸疏水性质变化。

优选的，所述的孔阻力差异是指可用于表征多核苷酸的特征，所述的特征包括多核苷酸的来源、长度、大小、分子量、同一性、序列、二级结构、浓度或多核苷酸是否被修饰。进一步优选的，所述的孔阻力差异是指可用于表征多核苷酸的序列特征，即所述的突变孔可以用于测序，精确的区分多核苷酸的不同碱基。

优选的，所述的多核苷酸可以是天然存在的或人工合成的。进一步优选的，所述的多核苷酸可以是天然的DNA、RNA或者经过修饰的DNA或RNA。

优选的，多核苷酸可以为任意长度。例如，多核苷酸的长度可以是至少10，至少50，至少100，至少150，至少200，至少250，至少300，至少400或至少500个核苷酸或核苷酸对。所述多核苷酸的长度可以为1000个或更多个核苷酸或核苷酸对，5000个或更多个核苷酸或核苷酸对或100000个或更多个核苷酸或核苷酸对。

更进一步优选的，所述的多核苷酸中的一个或多个核苷酸可以是经过修饰的，例如甲基化、氧化、损伤、脱碱基的、蛋白标记、带有标签或多核苷酸序列中间连接一段间隔物。

更进一步优选的，所述人工合成的核酸选自肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁定核酸(LNA)或其他具有核苷侧链的合成聚合物。

优选的，所述的多核苷酸为单链、双链或至少一部分是双链的。

优选的，所述突变孔包含冠状体形成区、缢缩区、环形区域和/或跨膜β桶状体区域。

优选的，其中包含至少一种突变体的突变孔的缢缩区的孔径小于由SEQ ID NO：1所示的野生型孔蛋白单体组成的孔蛋白的缢缩区中的孔径。

优选的，所述突变孔的缢缩区孔道直径为

优选的，所述的突变包含在缢缩区的一个或多个位置处的突变。优选的，为促进突变孔在测序过程中能提供良好的信号特征，冠状体形成区域、环形区域和/或跨膜β桶状体区域也可以包含一个或多个位置处的突变。

优选的，所述的突变孔是允许水合离子在施加的电势的驱动下从膜的一侧流向膜的另一侧的结构。进一步优选的，所述的突变孔为纳米孔，所述的纳米孔为跨膜孔。所述跨膜孔为多核苷酸的移动提供了通道。

所述的膜可以为任何现有技术中存在的膜，优选为两性分子层，即一种由具有至少一个亲水性部分和至少一个亲脂性或疏水性部分的两性分子诸如磷脂质形成的层，两性分子可以是合成的或天然存在的。进一步优选的，所述的膜为脂质双层膜。

所述的多核苷酸可以使用任何已知的方法连接到膜上。如果膜是两性分子层，如脂质双分子层，所述多核苷酸优选通过在所述膜中存在的多肽或通过在所述膜中存在的疏水锚被连接到该膜上。其中，疏水锚优选为脂质、脂肪酸、甾醇、碳纳米管或氨基酸。

第四方面，提供了一种用于表征靶分析物的复合物，所述的复合物包括上述的突变孔，以及与其配合使用的控速蛋白。

优选的，所述的控速蛋白包括核酸结合蛋白、解旋酶、核酸外切酶、端粒酶、拓扑异构酶、转录酶、转位酶和/或聚合酶中的一种或多种组合。

进一步优选的，所述的核酸结合蛋白包括但不限于修饰或者野生的真核单链结合蛋白、细菌单链结合蛋白、古生单链结合蛋白、病毒单链结合蛋白或双链结合蛋白中的一种或两种以上的组合。所述的核酸结合蛋白包括但不限于来自Escherichia coli的SSBEco、来自Bartonella henselae的SSBBhe、来自Coxiella burnetii的SSBCbu、来自Thermathogamaritima的SSBTma、来自Helicobacter pylori的SSBHpy、来自Deinococcusradiodurans的SSBDra、来自Thermus aquaticus的SSBTaq、来自Mycobacterium smegmatis的SSBMsm、来自Sulfolobus solfataricus的SSBSso、来自Sulfolobus solfataricus的SSBSso7D、来自Homo sapiens的SSBMHsmt、来自Mycobacterium leprae的SSBMle、来自Bacteriohage T4的gp32T4、来自Bacteriophage RB69的gp32RB69或来自Bacteriohage T7的gp2.5T7。

进一步优选的，所述的聚合酶包括但不限于修饰或者野生的DNA聚合酶，包括但不限于Phi29 DNA聚合酶、Tts DNA聚合酶、M2DNA聚合酶、VENT DNA聚合酶、T5DNA聚合酶、PRD1DNA聚合酶、Bst DNA聚合酶或REPLI-gscDNA聚合酶。

进一步优选的，所述的核酸外切酶包括但不限于修饰或者野生的来自大肠杆菌的核酸外切酶I、来自大肠杆菌的核酸外切酶III、来自噬菌体λ核酸外切酶或者来自嗜热栖热菌的RecJ。

进一步优选的，所述的解旋酶可以为任一Hel308家族解旋酶及修饰的Hel308家族解旋酶、RecD解旋酶及其变体、TrwC解旋酶及其变体、Dda解旋酶及其变体、TraI Eco及其变体、XPD Mbu及其变体、Pif1-like解旋酶及其变体。

优选的，所述的解旋酶为Pif1-like解旋酶及其变体，所述的Pif1-like解旋酶选自Pba-PM2、Aph-Acj61、Aph-PX29、Avi-Aeh1、Sph-CBH8、Eph-Pei26、Aph-AM101、PphPspYZU05、Eph-EcS1、Eph-Cronus2或Mph-MP1。

优选的，所述的解旋酶为Mph-MP1变体，所述的Mph-MP1的变体包含E105C和/或A362C突变，更进一步优选的，所述的变体的氨基酸序列如SEQ ID NO:17所示，编码所述的变体的核苷酸序列如SEQ ID NO:18所示。

第五方面，提供了编码上述的孔蛋白单体、上述的构建体、上述的突变孔、或上述的复合物的核酸。

第六方面，提供了包含上述的核酸的载体。

优选的，所述载体包含启动子，所述的启动子可操作地连接到包含编码孔蛋白单体、构建体、突变孔或复合物的核苷酸序列。

优选的，其中所述启动子是诱导型启动子或组成型启动子。

第七方面，提供了包含上述的核酸或载体的宿主细胞。

第八方面，提供了上述的孔蛋白单体、上述的构建体、上述的突变孔、上述的复合物、上述的核酸、上述的载体或宿主细胞在检测靶分析物存在、不存在或一个或多个特征或制备检测靶分析物存在、不存在或一个或多个特征的产品中的应用。

第九方面，提供了一种产生突变孔或其多肽的方法，包括用上述的载体转化所述的宿主细胞，诱导所述宿主细胞表达所述的突变孔或其多肽。

第十方面，提供了一种用于确定靶分析物存在、不存在或一个或多个特征的方法，包括：

a.使靶分析物与上述的突变孔、上述的复合物、或复合物中的突变孔接触，使得所述靶分析物相对于所述突变孔移动；以及

b.在所述靶分析物相对于所述突变孔移动时获取一个或多个测量值，从而确定所述靶分析物的存在、不存在或一个或多个特征。

在本发明的一个具体实施方式中，所述方法包括：所述靶分析物与存在于膜中的所述突变孔相互作用从而使得所述靶分析物相对所述突变孔移动。

在本发明的一个具体实施方式中，靶分析物是核酸分子。

在一个实施例中，所述靶分析物包括多糖、金属离子、无机盐、聚合物、氨基酸、肽、蛋白、核苷酸、寡核苷酸、多核苷酸、染料、药物、诊断剂、爆炸物或环境污染物。

优选地，所述靶分析物包括多核苷酸。优选的，所述的多核苷酸可以是天然存在的或人工合成的。进一步优选的，所述的多核苷酸可以是天然的DNA、RNA或者经过修饰的DNA或RNA。

所述一个或多个特征选自(i)所述多核苷酸的长度；(ii)所述多核苷酸的身份；(iii)所述多核苷酸的序列；(iv)所述多核苷酸的二级结构和(v)所述多核苷酸是否经修饰。

对于(i)，可以例如通过确定多核苷酸和突变体/突变孔之间相互作用的数量或多核苷酸和突变体/突变孔之间相互作用的持续时间对多核苷酸的长度进行测量。

对于(ii)，可以以多种方式测量多核苷酸的身份，多核苷酸的身份可以结合多核苷酸序列的测量或不结合多核苷酸序列的测量进行测量。前者较为简单；对多核苷酸进行测序进而进行识别。后者可以通过几种不同方式完成。例如，可以测量多核苷酸中特定基序的存在(无需测量多核苷酸的其余序列)。或者，所述方法中特定的电和/或光信号的测量可以识别出所述多核苷酸来自特定来源。

对于(iii)，多核苷酸的序列可以如先前所述进行测定。合适的测序方法，特别是使用电学测量方法的测序方法，描述在Stoddart D et al.,ProC Natl Acad Sci,12；106(19)7702-7，Lieberman KR et al,J Am Chem SoC.2010；132(50)17961-72，以及国际申请W02000/28312中。

对于(iv)，二级结构可以采用多种方法测量。例如，如果所述方法涉及电学测量方法，则可以使用停留时间的变化或流过孔的电流的变化来测量所述二级结构。这允许区分单链和双链多核苷酸的区域。

对于(v)，可以测量是否存在任何修饰。所述方法优选包括，测定多核苷酸是否通过甲基化，氧化，损伤，用一种或多种蛋白或用一种或多种标记，标签或进行无碱基或缺少核碱基和糖的修饰。特定的修饰将导致与所述孔的特异性相互作用，其可以使用下述方法进行测量。例如，甲基胞嘧啶可以基于其与每个核苷酸相互作用期间流过所述孔的电流而与胞嘧啶区分开来。

在本发明的一个具体实施方式中，所述的方法包括将所述靶分析物偶联到膜上；和所述靶分析物与存在于所述膜中的所述突变孔相互作用从而使得所述靶分析物相对所述突变孔移动。

优选的，所述的方法包括在靶分析物与突变孔、复合物、或复合物中的突变孔接触上施加电势差的步骤。

优选的，所述的一个或多个特征通过电测量和/或光学测量进行。

进一步优选的，通过电测量和/或光测量产生电信号和/或光信号，而每种核苷酸对应一种信号水平，继而将电信号和/或光信号转化为核苷酸的特征。

在本发明的一个具体实施方式中，所述的电测量包括但不限于电流测量、阻抗测量、隧道测量、风洞测量或场效应晶体管(FET)测量等等。

本发明所述的电信号选自电流、电压、隧穿、电阻、电位、电导率或横向电测量的测量值。

在本发明的一个具体实施方式中，所述的电信号为穿过所述孔的电流。

优选的，所述的方法还包括应用改进型维特比算法。

具体的，在充满电解液的腔内，带有突变孔的绝缘防渗膜将腔体分成2个小室，如图1，当电压作用于电解液室，离子或其他小分子物质在电场力作用下穿过突变孔，形成稳定的可检测的离子电流。本申请制备的突变孔的尺寸和表面特性，配合施加的电压及溶液条件，可检测不同类型的生物分子。

由于组成DNA的四种碱基腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)的分子结构及体积大小均不同，单链DNA(ssDNA)在控速酶和电场驱使下通过突变孔时，不同碱基的化学性质差异导致穿越突变孔时引起的电流的变化幅度不同，从而得到所测DNA的序列信息。

在一个典型的突变孔测序实验中(图2)，突变孔是磷脂膜两侧离子通过的唯一通道。控速酶充当DNA的马达蛋白，拉动DNA链使其以单个核苷酸的步长依次通过突变孔，每当一个核苷酸穿过突变孔，相应的堵孔信号会被记录下来(图3)。通过相应算法分析这些序列相关的电流信号，可以反推出DNA的序列信息。

当然，本申请制备的突变孔也可以实现固态纳米孔测序，可在一定程度上具有高分辨率测序的潜力。

优选的，所述的方法包括改变施加的电势，盐浓度，缓冲液，温度和添加剂如脲，甜菜碱和DTT的存在，控制突变孔区分不同核苷酸的程度。

第十一方面，提供了一种用于确定靶分析物存在、不存在或一个或多个特征的试剂盒，包括所述的孔蛋白单体、所述的构建体、所述的突变孔、所述的复合物、所述的核酸、或所述的载体或宿主细胞，和所述的膜。

第十二方面，提供了一种用于确定靶分析物存在、不存在或一个或多个特征的装置，包括上述的突变孔或上述复合物，和上述的膜。

优选地，所述靶分析物包括多核苷酸。

本发明所述的“包含”或“包括”在本申请中用于描述蛋白质或核酸的序列时，所述蛋白质或核酸可以是由所述序列组成，或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸，但仍然具有本发明所述的活性。

本发明所述的“一个或多个位置处”指1个、2个、3个、4个、5个、6个、7个、8个、9个、10个……或直至全部位置。

本发明所述的“蛋白质”、“多肽”和“肽”在本文中进一步可互换使用，是指氨基酸残基的聚合物以及氨基酸残基的变体和合成类似物。因此，这些术语适用于其中一个或多个氨基酸残基是合成的非天然存在的氨基酸，诸如相应天然存在的氨基酸的化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。多肽还可经历成熟或翻译后修饰过程，这些过程可以包括但不限于：糖基化、蛋白水解裂解、脂化、信号肽裂解、前肽裂解、磷酸化等。

本发明所述的“野生型”是指从天然存在的来源分离的基因或基因产物(例如蛋白)。野生型基因是在群体中最常观测到的基因，因此任意地设计为该基因的“正常”或“野生型”形式。相反，术语“经修饰的”、“突变”或“变体”是指与野生型基因或基因产物(例如蛋白)相比，显示出序列修饰(例如，取代、截短或插入)、翻译后修饰和/或功能性质(例如，特性改变)的基因或基因产物(例如蛋白)。

突变或经修饰的蛋白质、单体或肽也可以任何方式在任何位点进行化学修饰。经修饰的蛋白质、单体或肽的突变体可以通过任何分子的附接进行化学修饰。例如，经修饰的蛋白质、单体或肽的突变体可以通过染料或荧光团的附接进行化学修饰。在一些实施方案中，用促进包含单体或肽的孔与靶核苷酸或靶多核苷酸序列之间的相互作用的分子衔接子化学修饰突变或经修饰的单体或肽。分子衔接子优选为环状分子、环糊精、能够杂交的物质、DNA结合剂或嵌入剂、肽或肽类似物、合成聚合物、芳族平面分子、带正电荷的小分子或能够氢键键合的小分子。

衔接子的存在改善了孔和核苷酸或多核苷酸序列的主-客体化学，从而改善了由突变的单体形成的孔的测序能力。主-客体化学的原理是本领域众所周知的。衔接子对孔的物理或化学性质有影响，这种影响改善了孔与核苷酸或多核苷酸序列的相互作用。衔接子可以改变孔的桶或通道的电荷，或与核苷酸或多核苷酸序列特异性相互作用或结合，从而促进其与孔的相互作用。

本发明所述的“突变孔”是一种蛋白孔，是跨膜蛋白结构，其限定了允许分子和离子从膜的一侧易位到另一侧的通道或孔。离子物质通过孔的易位可以由施加到孔任一侧的电位差驱动。其中分子或离子所通过的通道的最小直径为纳米级(10^-9米)。突变孔的跨膜蛋白结构本质上可以是单体或寡聚体。纳米孔内形成蛋白内衬通道的蛋白亚基部分通常包含可包括一个或多个跨膜β-桶和/或α-螺旋部分的二级结构基序。

本发明所述的“控速蛋白”为可以控制靶分析物(例如多核苷酸)相对于突变孔移动速度(例如减慢其移动速度)从而使得此速度能够实现对靶分析物的存在、不存在或一个或多个特征进行检测(例如多核苷酸的测序)的蛋白。突变孔与控速蛋白配合使用用于表征靶分析物。在一个实施例中，控速蛋白减慢多核苷酸穿过突变孔的速度从而实现测序。

本发明所述的“核酸结合蛋白”可以是能够结合多核苷酸并控制其移动通过孔的任何蛋白。核酸结合蛋白通常与多核苷酸相互作用并改性多核苷酸的至少一种性质。其可以通过裂解多核苷酸以形成各单个核苷酸或核苷酸的短链(例如，二核苷酸或三核苷酸)来对其进行改性。也可以通过使多核苷酸定向或将其移动到特定位置来对其进行改性，即，控制它的移动。

有益效果：本发明通过前期大量的筛选工作，最终确定了新的蛋白骨架，形成缢缩区(读取头区域)结构由完全不同的氨基酸残基组成，从而在测序过程中提供全新的作用模式，测序信号区间与以CsgG蛋白为骨架的单读取头突变孔(对应ONT的R9系列孔)，信号更清晰，具有不同的信号特征和信号分布模式，具有更优的跳变分布，进一步优化了孔蛋白与控速蛋白相互作用界面的稳定性，提高测序数据的一致性和稳定性，提高了纳米孔测序的分辨率，不只可以区分碱基A、T、C、G、U，甚至可以区分甲基化和未甲基化的核苷酸，脱氧胞嘧啶单磷酸(dCMP)和甲基-dCMP。而且，该突变孔具有更高的与磷脂膜重组的效率。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1:纳米孔技术反应池示意图；

图2:纳米孔测序实验示意图；

图3：核苷酸穿过突变孔时相应的堵孔信号示意图；

图4A：野生型通道表面结构模型侧视图；

图4B：野生型通道表面结构模型俯视图；

图4C：野生型通道飘带结构模型；

图5：野生型通道缢缩区氨基酸残基分布和缢缩区直径；

图6：单体缢缩区棍棒模型展示及其放大图；

图7：突变孔1缢缩区关键氨基酸残基分布特征和缢缩区直径；

图8：突变孔1基于同源建模的卡通示意图，区域1对应于冠状体形成区域；区域2对应于缢缩区和环形区域；区域3对应于跨膜β桶状体区域；

图9：BS7-4C3-PLT的结构示意图；

图10：突变体1蛋白多聚体的分子筛纯化结果，箭头指示位置为目标蛋白峰位置，其中，横坐标上方灰色编号为分子筛分离出的各组分编号；

图11A：突变孔1在±180mV电压下开孔电流及其门控特征，其中，y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图11B：突变孔1在+180mV电压下的核酸过孔情况,其中，y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图12：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔1移位时的示例电流轨迹，轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图13：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔1移位时的示例电流轨迹，轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s)，中间图为原始信号滤波处理后的结果，虚线箭头指示部分显示了电流轨迹的放大结果；

图14：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体phage10k穿过突变孔1移位时的芯片测试电流轨迹，y轴坐标＝电流(pA)，x轴坐标＝采样点(个)；

图15A：突变孔2在±180mV电压下开孔电流及其门控特征，其中，y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图15B：突变孔2在+180mV电压下的核酸过孔情况,其中，y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图16：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔2移位时的示例电流轨迹，轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图17：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔2移位时的示例电流轨迹，轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s)，中间图为原始信号滤波处理后的结果，虚线箭头指示部分显示了电流轨迹的放大结果；

图18A：突变孔3在±180mV电压下开孔电流及其门控特征，其中，y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图18B：突变孔3在+180mV电压下的核酸过孔情况,其中，y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图19：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔3移位时的示例电流轨迹，两条轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s)；

图20：当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔3移位时的示例电流轨迹，轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s)，中间图为原始信号滤波处理后的结果，虚线箭头指示部分显示了电流轨迹的放大结果；

图21：突变体1的蛋白多聚体纯化结果，1-5泳道显示的是分子筛层析后分离的不同组分，分别对应图10中编号8-12的SDS-PAGE电泳检测结果，M为marker。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的部分实施例，而不是全部。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1突变体蛋白1的设计

在实施例中，野生型孔蛋白来自Caballeronia telluris，并且该野生型孔蛋白的氨基酸序列如SEQ ID NO:1所示，编码此氨基酸序列的核苷酸序列如SEQ ID NO:2所示。孔蛋白单体的突变体1是野生型孔蛋白在对应SEQ ID NO:1的多处具有突变，具体为S78V、D80N、S82A和F83Q(如SEQ ID NO:3所示)。包括孔蛋白单体的突变体1的蛋白孔为突变孔1。

实施例2突变体蛋白2的设计

在实施例中，野生型孔蛋白来自Caballeronia telluris，并且该野生型孔蛋白的氨基酸序列是SEQ ID NO:1，编码此氨基酸的序列的核苷酸序列如SEQ ID NO:2所示。孔蛋白单体的突变体2是野生型孔蛋白在对应SEQ ID NO:1的多处具有突变，具体为Y75F、S78Y、D80的缺失、S81A、S82N和F83A(如SEQ ID NO:4所示)。包括孔蛋白单体的突变体2的蛋白孔为突变孔2。

实施例3突变体蛋白3的设计

在实施例中，野生型孔蛋白来自Caballeronia telluris，并且该野生型孔蛋白的氨基酸序列是SEQ ID NO:1，编码此氨基酸的序列的核苷酸序列如SEQ ID NO:2所示。孔蛋白单体的突变体3是野生型孔蛋白在对应SEQ ID NO:1的多处具有突变，具体为Q74L、Y75F、S78Y、D80的缺失、S81A、S82V、F83A、E127R和D130K(如SEQ ID NO:5所示)。包括孔蛋白单体的突变体3的蛋白孔为突变孔3。

实施例4突变体1-3蛋白的制备

将孔蛋白单体的突变体1核酸序列(其对应氨基酸序列如SEQ ID NO:3)的重组质粒通过热击法转化到BL21(DE3)感受态细胞，加入0.5ml LB培养基经30℃培养1h后取适量菌液涂布于氨苄抗性固体LB平板，37℃过夜培养，次日挑取单克隆菌落，接种至50ml含有氨苄抗性的液体LB培养基中37℃培养过夜。按1％的接种量转接至氨苄抗性的TB液体培养基中进行扩大培养，37℃、220rpm条件下培养，并连续不断的测量其OD600值。当OD600＝2.0-2.2时，将TB培养基中的培养液冷却至16℃，并添加异丙基硫代半乳糖苷(Isopropylβ-D-Thiogalactoside，IPTG)诱导表达，使得终浓度达到0.015mM。诱导表达20-24h后，离心收集菌体。菌体用破碎缓冲液重悬后高压破碎，通过Ni-NTA亲和层析方法进行纯化，收集目的洗脱样品。孔蛋白单体的突变体2-3按如上方法纯化得到，其中，突变体2的氨基酸序列如SEQID NO:4所示，突变体3的氨基酸序列如SEQ ID NO:5所示。

示例性的，图10示出了突变体1的蛋白多聚体的分子筛纯化结果，箭头指示位置为目标蛋白峰寡聚态分布。图21示出了突变体1的多聚体蛋白纯化结果，1-5泳道显示的是分离的不同组分的SDS-PAGE电泳检测结果，具体分别对应组分8-12，更进一步证明组分12为目标纯化蛋白。

实施例5野生型孔蛋白和突变孔1同源建模

采用SWISS MODEL对野生型孔蛋白进行同源建模(模板pdb号4uv3.1)，野生型孔蛋白单体的氨基酸如SEQ ID NO:1所示。图4A是预测蛋白结构模型的侧视图，其中颜色较深的部分显示的为一个蛋白单体。图4B是表面结构模型俯视图，其中颜色较深的部分显示的为一个蛋白单体。图4C为飘带结构模型图，颜色较深部分为蛋白单体。

图5示出了野生型通道缢缩区氨基酸残基分布和缢缩区直径。两个孔蛋白单体中间的缢缩区孔道直径最大约为

其次约为

最小直径约为

中间显示的是缢缩区结构的关键氨基酸组成即S78、S82和F83。

图6显示了单体飘带模型及其缢缩区氨基酸残基分布的棍棒模型，放大显示缢缩区环形区关键氨基酸组成及其编号，其中方框部分是指向蛋白孔道中心区域的氨基酸残基。

采用SWISS MODEL(模板pdb号4uv3.1)对突变孔1进行同源建模。图7显示的是突变孔1缢缩区关键氨基酸残基分布特征和缢缩区直径。棍棒模型显示了突变孔1的孔道狭窄区域的关键氨基酸残基分布，指向孔道中心的氨基酸残基为78位的缬氨酸，81位的丝氨酸，83位的谷氨酰胺。两个孔蛋白单体中间的缢缩区孔道最狭窄区域直径约为

最宽区域直径约为

中间直径约为

图8显示了突变孔1基于同源建模的卡通示意图，区域1对应于冠状体形成区域，区域2对应于缢缩区和环形区域，区域3对应于跨膜β桶状体区域。

实施例6制备DNA构建体

制备DNA构建体BS7-4C3-PLT。BS7-4C3-PLT的结构如图9所示，序列信息如下所示：

a:30*C3

b:TTTTT TTTTT(SEQ ID NO:6)

c:控速蛋白

d:4*C18

e:AATGT ACTTC GTTCA GTTAC GTATT GCT(SEQ ID NO:7)

f:5’P-GC AATAC GTAAC TGAAC GAAGT TCACTATCGCATTCTCATGA-3’(SEQ ID NO:8)

g:胆固醇标签

h:5’-TCATG AGAAT GCGAT AGTGA–3’(SEQ ID NO:9)

i:5’-AAAAAAAAAAAAAAAAAAAAAAAAAAAA(SEQ ID NO:10)/dSpacer/AAAAAAAAAAAA(SEQ ID NO:11)/dSpacer/AAAAAAAAAAAAAATCTCTGAATCTCTGAATCTCTGAATCTCTAAAAAAAAAAAAGAAAAAAAAAAAACAAAAAAAAAAAATAAAAAAAAAAAAAGCAATACGTAACTGAACGAAGTACATTAAAAAAAAAA(SEQ ID NO:12)-3’

j：5’-ATCCTTTTTTTTTTAATGTACTTCGTTCAGTTACGTATTGCT-3’(SEQ ID NO:13)

k:5’P-TTTTTTTTTTTTATTTTTTTTTTTTGTTTTTTTTTTTTCTTTTTTTTTTTTAGAGATTCAGAGATTCAGAGATTCAGAGATTTTTTTTTTTTTT(SEQ ID NO:14)/dSpacer/TTTTTTTTTTTT(SEQ IDNO:15)/iSpC3/TTTTTTTTTTTTTTTTTTTTTTTTTTTT(SEQ ID NO:16)-3’

C3、C18、dSpacer及iSpC3是指示孔测序分辨率特征而引入的标记(marker)序列。

在本实施例中，图9中的c：控速蛋白为解旋酶Mph-MP1-E105C/A362C(具有突变E105C/A362C)，氨基酸序列为SEQ ID NO:17，核酸序列为SEQ ID NO:18。

实施例7突变孔1单孔测序检测

使用突变孔1作为蛋白孔，采用单孔测序的技术方法进行检测。在将氨基酸序列为突变体1的单个孔蛋白插入磷脂双分子层之后，使缓冲液(625mM KCl，10mM HEPES pH 8.0，50mMMgCl₂)流经该系统，以除去任何过量的突变体1纳米孔。将DNA构建体BS7-4C3-PLT(1～2nM终浓度)加入所述突变孔1实验系统中，混匀后，使缓冲液(625mM KCl，10mM HEPESpH8.0，50mM MgCl₂)流经该系统，以除去任何过量的DNA构建体BS7-4C3-PLT。然后将解旋酶(Mph-MP1-E105C/A362C，15nM终浓度)、燃料(ATP 3mM终浓度)预混物加入单个野生型孔蛋白或突变孔1实验系统中，并在+180mV电压下监测野生型孔蛋白或突变孔1的测序情况。

突变孔1在±180mV电压下开孔。图11A显示突变孔1在±180mV电压下开孔电流及其门控特征。图11B显示突变孔1在+180mV电压下的单链核酸过孔情况。核酸可以过孔。加入单链核酸后，向下的线显示的核酸过孔信号。

采用单孔测序技术方法，通过突变孔1对DNA构建体BS7-4C3-PLT进行测序，完成嵌孔后添加测序体系出现的核酸测序信号。图12示出了当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔1移位时的示例电流轨迹。根据该信号特征，突变孔1可以用来核酸测序。

图13是将图12的部分显示出电流轨迹的放大结果。具有虚线框和箭头的图(中间图)为原始信号滤波处理后的结果(两条轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s))。虚线箭头指示部分显示了电流轨迹的放大结果。

图14示出了当解旋酶Mph-MP1-E105C/A362C控制DNA构建体噬菌体基因组文库phage10k穿过突变孔1移位时的芯片测试电流轨迹。根据该信号特征，突变孔1可以用来核酸测序。

野生型孔蛋白无法检测到测序电流。

实施例8突变孔2单孔测序检测

与实施例7测序条件及步骤类似，实施例8采用突变孔2进行空测和过孔检测。

图15A显示突变孔2在±180mV电压下开孔电流及其门控特征。图15B显示突变孔2在+180mV电压下的单链核酸过孔情况。核酸可以过孔。加入单链核酸后，向下的线显示的核酸过孔信号。

采用单孔测序技术方法，通过突变孔2对DNA构建体BS7-4C3-PLT进行测序，完成嵌孔后添加测序体系出现的核酸测序信号。图16示出了当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔2移位时的示例电流轨迹。根据该信号特征，突变孔2可以用来核酸测序。

图17显示出部分电流轨迹的放大结果。具有虚线框和箭头的图为原始信号滤波处理后的结果(两条轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s))。虚线箭头指示部分显示了电流轨迹的放大结果。此单独一条信号的区域放大显示图，进一步表明该突变孔2可对核酸测序。

实施例9突变孔3单孔测序检测

与实施例7测序条件及步骤类似，实施例9采用突变孔3进行空测和过孔检测。

图18A显示突变孔3在±180mV电压下开孔电流及其门控特征。图18B显示突变孔3在+180mV电压下的单链核酸过孔情况。核酸可以过孔。加入单链核酸后，向下的线显示的核酸过孔信号。

采用单孔测序技术方法，通过突变孔3对DNA构建体BS7-4C3-PLT进行测序，完成嵌孔后添加测序体系出现的核酸测序信号。图19示出了当解旋酶Mph-MP1-E105C/A362C控制DNA构建体BS7-4C3-PLT穿过突变孔3移位时的示例电流轨迹。根据该信号特征，突变孔3可以用来核酸测序。

图20显示出部分电流轨迹的放大结果。具有虚线框和箭头的图为原始信号滤波处理后的结果(两条轨迹的y轴坐标＝电流(pA)，x轴坐标＝时间(s))。虚线箭头指示部分显示了电流轨迹的放大结果。此单独一条信号的区域放大显示图，进一步表明突变孔3可用来核酸测序。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

序列表

<110> 清华大学

北京齐碳科技有限公司

<120> 一种新型孔蛋白单体及其应用

<130> 1

<160> 18

<170> SIPOSequenceListing 1.0

<210> 1

<211> 314

<212> PRT

<213> Caballeronia telluris

<400> 1

Met Asn Lys Asn Ala Ala Lys Thr Thr Ala Met Arg Thr Thr Leu Ala

1 5 10 15

Ala Met Val Phe Ser Thr Met Leu Leu Thr Gly Cys Val Thr Gln Pro

20 25 30

Met Ala Ser Ala Gly Asn Ala Thr Leu Thr Pro Pro Thr Arg Val Thr

35 40 45

Arg Asp Leu Thr His Leu Pro Pro Pro Lys Gly Arg Ile Thr Ala Ala

50 55 60

Val Tyr Gly Phe Arg Asp Leu Thr Gly Gln Tyr Lys Pro Ser Pro Asp

65 70 75 80

Ser Ser Phe Ser Ser Gln Val Thr Gln Gly Gly Ala Ser Phe Leu Val

85 90 95

Lys Ala Met Arg Asp Ser Gly Trp Phe Thr Pro Val Glu Arg Glu Asn

100 105 110

Leu Gln Asp Leu Leu Thr Glu Arg Lys Ile Met Arg Ala Leu Glu Thr

115 120 125

Pro Asp Asp Lys Asn Arg Val Ile Pro Gln Ile Gly Ala Leu Ala Pro

130 135 140

Ala Ser Ile Val Leu Glu Gly Gly Ile Val Gly Tyr Asp Ser Asn Ile

145 150 155 160

Arg Thr Gly Gly Ala Gly Ile Ala Tyr Leu Gly Ile Ser Ala Ser Gln

165 170 175

Gln Tyr Arg Val Asp Gln Val Thr Val Asn Leu Arg Ala Val Asp Ile

180 185 190

Arg Asn Gly Thr Ile Leu Asn Ser Val Ser Thr Thr Lys Thr Ile Tyr

195 200 205

Ser Ile Gln Ile Asp Thr Gly Val Tyr Arg Phe Ile Gly Phe Lys Asp

210 215 220

Leu Leu Gln Ala Glu Ile Gly Met Thr Arg Asn Glu Pro Gln Gln Leu

225 230 235 240

Cys Val Asn Glu Ala Ile Glu Ser Ala Leu Val His Leu Ile Val Gln

245 250 255

Gly Val Ala Asn Gln Thr Trp Ser Leu Lys Asp Met Lys Asp Trp Tyr

260 265 270

Asp Pro Thr Met Gln Arg Tyr Leu Gln Glu Asn Gln Gly Tyr Ala Gln

275 280 285

Thr Met Glu Ala Val Asn Pro Pro Tyr Asp Pro Ala Lys Val Asp Pro

290 295 300

Pro Lys Ala Val Gly Ser Gly Val Ser Gly

305 310

<210> 2

<211> 945

<212> DNA

<213> Caballeronia telluris

<400> 2

atgaacaaga atgccgcgaa aaccaccgcc atgcgcacga ctctggctgc aatggtcttc 60

tcgacgatgc tgctcacggg ttgcgtgacc cagccgatgg cctcggccgg caacgcgacg 120

ctcacgccgc cgacgcgcgt cacgcgggac ctcacgcacc tgccgccgcc caagggcagg 180

atcaccgccg ccgtgtacgg ctttcgcgac ctgaccggcc agtacaagcc gtcgccagac 240

agttcgttct cgtcgcaggt gacgcagggc ggcgcctcgt tccttgtcaa ggcgatgcgc 300

gattccggct ggttcacgcc ggtcgaacgc gagaaccttc aggacctgct gaccgaacgc 360

aagatcatgc gcgcactgga gacgcccgac gacaagaacc gcgtgatccc gcagatcggc 420

gcgctggcgc ccgcgagcat cgtgctcgaa ggcggcatcg tcggctacga ctcaaatatc 480

cgcacgggcg gagcgggcat cgcgtatctg gggatctcgg cgtcgcagca gtatcgcgtc 540

gatcaggtga cggtgaacct gcgcgccgtg gatatccgca acggcacgat cctcaacagc 600

gtctcgacga ccaagaccat ctattcgatc cagatcgaca ccggcgtgta ccgcttcatc 660

ggcttcaagg atttgctgca ggccgagatc ggaatgacgc gcaacgagcc gcagcagttg 720

tgcgtgaacg aggcgatcga atccgcgctc gtgcacctga tcgtgcaggg tgtggctaac 780

cagacctggt cgctcaagga catgaaggac tggtacgacc cgacgatgca gcgctatctg 840

caggaaaacc agggctacgc gcagacgatg gaagcggtga atccgcccta cgacccggcc 900

aaggtcgatc cgcccaaggc cgttggcagc ggcgtgagcg gttga 945

<210> 3

<211> 314

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 3

Met Asn Lys Asn Ala Ala Lys Thr Thr Ala Met Arg Thr Thr Leu Ala

1 5 10 15

Ala Met Val Phe Ser Thr Met Leu Leu Thr Gly Cys Val Thr Gln Pro

20 25 30

Met Ala Ser Ala Gly Asn Ala Thr Leu Thr Pro Pro Thr Arg Val Thr

35 40 45

Arg Asp Leu Thr His Leu Pro Pro Pro Lys Gly Arg Ile Thr Ala Ala

50 55 60

Val Tyr Gly Phe Arg Asp Leu Thr Gly Gln Tyr Lys Pro Val Pro Asn

65 70 75 80

Ser Ala Gln Ser Ser Gln Val Thr Gln Gly Gly Ala Ser Phe Leu Val

85 90 95

Lys Ala Met Arg Asp Ser Gly Trp Phe Thr Pro Val Glu Arg Glu Asn

100 105 110

Leu Gln Asp Leu Leu Thr Glu Arg Lys Ile Met Arg Ala Leu Glu Thr

115 120 125

Pro Asp Asp Lys Asn Arg Val Ile Pro Gln Ile Gly Ala Leu Ala Pro

130 135 140

Ala Ser Ile Val Leu Glu Gly Gly Ile Val Gly Tyr Asp Ser Asn Ile

145 150 155 160

Arg Thr Gly Gly Ala Gly Ile Ala Tyr Leu Gly Ile Ser Ala Ser Gln

165 170 175

Gln Tyr Arg Val Asp Gln Val Thr Val Asn Leu Arg Ala Val Asp Ile

180 185 190

Arg Asn Gly Thr Ile Leu Asn Ser Val Ser Thr Thr Lys Thr Ile Tyr

195 200 205

Ser Ile Gln Ile Asp Thr Gly Val Tyr Arg Phe Ile Gly Phe Lys Asp

210 215 220

Leu Leu Gln Ala Glu Ile Gly Met Thr Arg Asn Glu Pro Gln Gln Leu

225 230 235 240

Cys Val Asn Glu Ala Ile Glu Ser Ala Leu Val His Leu Ile Val Gln

245 250 255

Gly Val Ala Asn Gln Thr Trp Ser Leu Lys Asp Met Lys Asp Trp Tyr

260 265 270

Asp Pro Thr Met Gln Arg Tyr Leu Gln Glu Asn Gln Gly Tyr Ala Gln

275 280 285

Thr Met Glu Ala Val Asn Pro Pro Tyr Asp Pro Ala Lys Val Asp Pro

290 295 300

Pro Lys Ala Val Gly Ser Gly Val Ser Gly

305 310

<210> 4

<211> 313

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 4

Met Asn Lys Asn Ala Ala Lys Thr Thr Ala Met Arg Thr Thr Leu Ala

1 5 10 15

Ala Met Val Phe Ser Thr Met Leu Leu Thr Gly Cys Val Thr Gln Pro

20 25 30

Met Ala Ser Ala Gly Asn Ala Thr Leu Thr Pro Pro Thr Arg Val Thr

35 40 45

Arg Asp Leu Thr His Leu Pro Pro Pro Lys Gly Arg Ile Thr Ala Ala

50 55 60

Val Tyr Gly Phe Arg Asp Leu Thr Gly Gln Phe Lys Pro Tyr Pro Ala

65 70 75 80

Asn Ala Ser Ser Gln Val Thr Gln Gly Gly Ala Ser Phe Leu Val Lys

85 90 95

Ala Met Arg Asp Ser Gly Trp Phe Thr Pro Val Glu Arg Glu Asn Leu

100 105 110

Gln Asp Leu Leu Thr Glu Arg Lys Ile Met Arg Ala Leu Glu Thr Pro

115 120 125

Asp Asp Lys Asn Arg Val Ile Pro Gln Ile Gly Ala Leu Ala Pro Ala

130 135 140

Ser Ile Val Leu Glu Gly Gly Ile Val Gly Tyr Asp Ser Asn Ile Arg

145 150 155 160

Thr Gly Gly Ala Gly Ile Ala Tyr Leu Gly Ile Ser Ala Ser Gln Gln

165 170 175

Tyr Arg Val Asp Gln Val Thr Val Asn Leu Arg Ala Val Asp Ile Arg

180 185 190

Asn Gly Thr Ile Leu Asn Ser Val Ser Thr Thr Lys Thr Ile Tyr Ser

195 200 205

Ile Gln Ile Asp Thr Gly Val Tyr Arg Phe Ile Gly Phe Lys Asp Leu

210 215 220

Leu Gln Ala Glu Ile Gly Met Thr Arg Asn Glu Pro Gln Gln Leu Cys

225 230 235 240

Val Asn Glu Ala Ile Glu Ser Ala Leu Val His Leu Ile Val Gln Gly

245 250 255

Val Ala Asn Gln Thr Trp Ser Leu Lys Asp Met Lys Asp Trp Tyr Asp

260 265 270

Pro Thr Met Gln Arg Tyr Leu Gln Glu Asn Gln Gly Tyr Ala Gln Thr

275 280 285

Met Glu Ala Val Asn Pro Pro Tyr Asp Pro Ala Lys Val Asp Pro Pro

290 295 300

Lys Ala Val Gly Ser Gly Val Ser Gly

305 310

<210> 5

<211> 313

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 5

Met Asn Lys Asn Ala Ala Lys Thr Thr Ala Met Arg Thr Thr Leu Ala

1 5 10 15

Ala Met Val Phe Ser Thr Met Leu Leu Thr Gly Cys Val Thr Gln Pro

20 25 30

Met Ala Ser Ala Gly Asn Ala Thr Leu Thr Pro Pro Thr Arg Val Thr

35 40 45

Arg Asp Leu Thr His Leu Pro Pro Pro Lys Gly Arg Ile Thr Ala Ala

50 55 60

Val Tyr Gly Phe Arg Asp Leu Thr Gly Leu Phe Lys Pro Tyr Pro Ala

65 70 75 80

Val Ala Ser Ser Gln Val Thr Gln Gly Gly Ala Ser Phe Leu Val Lys

85 90 95

Ala Met Arg Asp Ser Gly Trp Phe Thr Pro Val Glu Arg Glu Asn Leu

100 105 110

Gln Asp Leu Leu Thr Glu Arg Lys Ile Met Arg Ala Leu Arg Thr Pro

115 120 125

Lys Asp Lys Asn Arg Val Ile Pro Gln Ile Gly Ala Leu Ala Pro Ala

130 135 140

Ser Ile Val Leu Glu Gly Gly Ile Val Gly Tyr Asp Ser Asn Ile Arg

145 150 155 160

Thr Gly Gly Ala Gly Ile Ala Tyr Leu Gly Ile Ser Ala Ser Gln Gln

165 170 175

Tyr Arg Val Asp Gln Val Thr Val Asn Leu Arg Ala Val Asp Ile Arg

180 185 190

Asn Gly Thr Ile Leu Asn Ser Val Ser Thr Thr Lys Thr Ile Tyr Ser

195 200 205

Ile Gln Ile Asp Thr Gly Val Tyr Arg Phe Ile Gly Phe Lys Asp Leu

210 215 220

Leu Gln Ala Glu Ile Gly Met Thr Arg Asn Glu Pro Gln Gln Leu Cys

225 230 235 240

Val Asn Glu Ala Ile Glu Ser Ala Leu Val His Leu Ile Val Gln Gly

245 250 255

Val Ala Asn Gln Thr Trp Ser Leu Lys Asp Met Lys Asp Trp Tyr Asp

260 265 270

Pro Thr Met Gln Arg Tyr Leu Gln Glu Asn Gln Gly Tyr Ala Gln Thr

275 280 285

Met Glu Ala Val Asn Pro Pro Tyr Asp Pro Ala Lys Val Asp Pro Pro

290 295 300

Lys Ala Val Gly Ser Gly Val Ser Gly

305 310

<210> 6

<211> 10

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

tttttttttt 10

<210> 7

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

aatgtacttc gttcagttac gtattgct 28

<210> 8

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

gcaatacgta actgaacgaa gttcactatc gcattctcat ga 42

<210> 9

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

tcatgagaat gcgatagtga 20

<210> 10

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

aaaaaaaaaa aaaaaaaaaa aaaaaaaa 28

<210> 11

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

aaaaaaaaaa aa 12

<210> 12

<211> 132

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

aaaaaaaaaa aaaatctctg aatctctgaa tctctgaatc tctaaaaaaa aaaaagaaaa 60

aaaaaaaaca aaaaaaaaaa ataaaaaaaa aaaaagcaat acgtaactga acgaagtaca 120

ttaaaaaaaa aa 132

<210> 13

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

atcctttttt ttttaatgta cttcgttcag ttacgtattg ct 42

<210> 14

<211> 94

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

tttttttttt ttattttttt tttttgtttt ttttttttct tttttttttt tagagattca 60

gagattcaga gattcagaga tttttttttt tttt 94

<210> 15

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

tttttttttt tt 12

<210> 16

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

tttttttttt tttttttttt tttttttt 28

<210> 17

<211> 441

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 17

Met Ile Thr Ile Asp Gln Leu Thr Glu Gly Gln Phe Asp Ser Leu Gln

1 5 10 15

Arg Ala Lys Val Leu Ile Gln Glu Ala Thr Lys Asn Asp Gly Asn Trp

20 25 30

Asn His Arg Thr Lys His Leu Thr Ile Asn Gly Pro Ala Gly Thr Gly

35 40 45

Lys Thr Thr Met Met Lys Phe Leu Val Ser Trp Leu Arg Asp Glu Gly

50 55 60

Ile Thr Gly Val Ala Leu Ala Ala Pro Thr His Ala Ala Lys Lys Val

65 70 75 80

Leu Ala Asn Ala Val Gly Glu Glu Val Ser Thr Ile His Ser Ile Leu

85 90 95

Lys Ile Asn Pro Thr Thr Tyr Glu Cys Lys Gln Phe Phe Glu Gln Ser

100 105 110

Ala Pro Pro Asp Leu Ser Lys Ile Arg Ile Leu Ile Cys Glu Glu Cys

115 120 125

Ser Phe Tyr Asp Ile Lys Leu Phe Glu Ile Leu Met Asn Ser Ile Gln

130 135 140

Pro Trp Thr Ile Ile Ile Gly Ile Gly Asp Arg Ala Gln Leu Arg Pro

145 150 155 160

Ala Asp Asp Lys Gly Ile Ser Arg Phe Phe Thr Asp Gln Arg Phe Glu

165 170 175

Gln Thr Tyr Leu Thr Glu Ile Lys Arg Ser Asn Met Pro Ile Ile Glu

180 185 190

Val Ala Thr Glu Ile Arg Asn Gly Gly Trp Ile Arg Glu Asn Ile Ile

195 200 205

Asp Asp Leu Gly Val Lys Gln Asp Lys Ser Val Ser Glu Phe Met Thr

210 215 220

Asn Tyr Phe Lys Val Val Lys Ser Ile Asp Asp Leu Tyr Glu Thr Arg

225 230 235 240

Met Tyr Ala Tyr Thr Asn Asn Ser Val Asp Thr Leu Asn Lys Ile Ile

245 250 255

Arg Lys Lys Leu Tyr Glu Thr Glu Gln Asp Phe Ile Val Gly Glu Pro

260 265 270

Ile Val Met Gln Glu Pro Leu Ile Arg Asp Ile Asn Tyr Glu Gly Lys

275 280 285

Arg Phe Gln Glu Ile Val Phe Asn Asn Gly Glu Tyr Leu Glu Val Ser

290 295 300

Glu Ile Lys Pro Met Glu Ser Val Leu Lys Cys Arg Asn Ile Asp Tyr

305 310 315 320

Gln Leu Val Leu His Tyr Tyr Gln Leu Lys Val Lys Ser Ile Asp Thr

325 330 335

Gly Glu Ser Gly Leu Ile Asn Thr Ile Ser Asp Lys Asn Glu Leu Asn

340 345 350

Lys Phe Tyr Met Phe Leu Gly Lys Val Cys Gln Asp Tyr Lys Ser Gly

355 360 365

Thr Ile Lys Ala Phe Trp Asp Asp Phe Trp Lys Ile Lys Asn Asn Tyr

370 375 380

His Arg Val Lys Pro Leu Pro Val Ser Thr Ile His Lys Gly Gln Gly

385 390 395 400

Ser Thr Val Asp Asn Ser Phe Leu Tyr Thr Pro Cys Ile Thr Lys Tyr

405 410 415

Ala Glu Pro Asp Leu Ala Ser Gln Leu Leu Tyr Val Gly Val Thr Arg

420 425 430

Ala Arg His Asn Val Asn Phe Val Gly

435 440

<210> 18

<211> 1326

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

atgatcacca tcgaccagct gaccgaaggt cagttcgact ctctgcagcg tgctaaagtt 60

ctgatccagg aagctaccaa aaacgacggt aactggaacc accgtaccaa acacctgacc 120

atcaacggtc cggctggtac cggtaaaacc accatgatga aattcctggt ttcttggctg 180

cgtgacgaag gtatcaccgg tgttgctctg gctgctccga cccacgctgc taaaaaagtt 240

ctggctaacg ctgttggtga agaagtttct accatccact ctatcctgaa aatcaacccg 300

accacctacg aatgcaaaca gttcttcgaa cagtctgctc cgccggacct gtctaaaatc 360

cgtatcctga tctgcgaaga atgctctttc tacgacatca aactgttcga aatcctgatg 420

aactctatcc agccgtggac catcatcatc ggtatcggtg accgtgctca gctgcgtccg 480

gctgacgaca aaggtatctc tcgtttcttc accgaccagc gtttcgaaca gacctacctg 540

accgaaatca aacgttctaa catgccgatc atcgaagttg ctaccgaaat ccgtaacggt 600

ggttggattc gtgaaaacat catcgacgac ctgggtgtta aacaggacaa atctgtttct 660

gaatttatga ccaactactt caaagttgtt aaatctatcg acgacctgta cgaaacccgt 720

atgtacgctt acaccaacaa ctctgttgac accctgaaca aaatcatccg taaaaaactg 780

tacgaaaccg aacaggactt catcgttggt gaaccgatcg ttatgcagga accgctgatc 840

cgtgacatca actacgaagg taaacgtttc caggaaatcg ttttcaacaa cggtgaatac 900

ctggaagttt ctgaaatcaa accgatggaa tctgttctga aatgccgtaa catcgactac 960

cagctggttc tgcactacta ccagctgaaa gttaaatcta tcgacaccgg tgaatctggt 1020

ctgatcaaca ccatctctga caaaaacgaa ctgaacaaat tctacatgtt cctgggtaaa 1080

gtttgccagg actacaaatc tggtaccatc aaagcgttct gggacgactt ctggaaaatc 1140

aaaaacaact accaccgtgt taaaccgctg ccggtttcta ccatccacaa aggtcagggt 1200

tctaccgttg acaactcttt cctgtacacc ccgtgcatca ccaaatacgc tgaaccggac 1260

ctggcttctc agctgctgta cgttggtgtt acccgtgctc gtcacaacgt taacttcgtt 1320

ggttaa 1326

Claims

1.一种孔蛋白单体，其特征在于，所述的孔蛋白单体包括SEQ ID NO:1的突变体，所述的突变体为与SEQ ID NO:1具有至少70％、75％、80％、85％、90％、95％或至少99％同一性的氨基酸序列，所述的突变体包含在SEQ ID NO:1的74-130位具有任何一个或多个氨基酸突变的氨基酸序列。

2.根据权利要求1所述的孔蛋白单体，其特征在于，所述的突变体包括在SEQ ID NO:1的74-83、75-83、78-83、75-130或78-130位的一个或多个位置处的突变。

3.根据权利要求1或2所述的孔蛋白单体，其特征在于，所述的突变体还包括在SEQ IDNO:1的1-73或131-314位的一个或多个位置处的突变。

4.根据权利要求1-3任一所述的孔蛋白单体，其特征在于，所述的突变体包括在SEQ IDNO:1的S78、D80、S82或F83位中的一种或两种以上的组合的突变；优选包含下列任一种或两种以上的组合：

A)S78突变为78V或78Y；

B)D80突变为80N或D80缺失；

C)S82突变为82A、82N或82V；

D)F83突变为83Q或83A。

5.根据权利要求4所述的孔蛋白单体，其特征在于，所述的突变体还包括在SEQ ID NO:1的Y75和/或S81的突变；优选包含Y75突变为75F，和/或，S81突变为81A。

6.根据权利要求4或5所述的孔蛋白单体，其特征在于，所述的突变体还包括在SEQ IDNO:1的Q74、E127和/或D130位中的一种、两种或三种的突变，优选包含Q74突变为74L、E127突变为127R和/或D130突变为130K。

7.根据权利要求1-6任一所述的孔蛋白单体，其特征在于，所述的突变体包括以下突变：

(a)SEQ ID NO:1的S78V、D80N、S82A和F83Q；

(b)SEQ ID NO:1的Y75F、S78Y、D80缺失、S81A、S82N和F83A；或，

8.根据权利要求1-7任一所述的孔蛋白单体，其特征在于，所述的突变体的氨基酸序列包含SEQ ID NO：3-5中的任一项或与SEQ ID NO：3-5中的任一项具有70％、75％、80％、85％、90％、95％或99％同一性的氨基酸序列。

9.一种构建体，其特征在于，所述的构建体包含至少一个权利要求1-8任一所述的孔蛋白单体。

10.一种突变孔，其特征在于，所述的突变孔包括至少一个权利要求1-8任一所述的孔蛋白单体。

11.根据权利要求10所述的突变孔，其特征在于，所述突变孔包含1-20个SEQ ID NO：1的突变体，其中，所述的突变体相同或不同。

12.根据权利要求10或11所述的突变孔，其特征在于，所述的突变孔包含1-20个SEQ IDNO：1所示野生型孔蛋白单体。

13.根据权利要求10-12任一所述的突变孔，其特征在于，其中所述的突变体与突变体、野生型孔蛋白单体与野生型孔蛋白单体、突变体与野生型孔蛋白单体共价连接。

14.根据权利要求10-13任一所述的突变孔，其特征在于，所述突变孔包含冠状体形成区、缢缩区、环形区域和/或跨膜β桶状体区域。

15.根据权利要求14所述的突变孔，其特征在于，所述突变孔的缢缩区孔道直径为

16.一种用于表征靶分析物的复合物，其特征在于，所述的复合物包括权利要求10-15任一所述的突变孔，以及与其配合使用的控速蛋白。

17.根据权利要求16所述的复合物，其特征在于，所述的控速蛋白包括核酸结合蛋白、解旋酶、核酸外切酶、端粒酶、拓扑异构酶、转录酶、转位酶和/或聚合酶中的一种或多种组合。

18.根据权利要求17所述的复合物，其特征在于，所述的解旋酶选自Hel308家族解旋酶及修饰的Hel308家族解旋酶、RecD解旋酶及其变体、TrwC解旋酶及其变体、Dda解旋酶及其变体、TraI Eco及其变体、XPD Mbu及其变体、Pif1-like解旋酶及其变体。

19.根据权利要求18所述的复合物，其特征在于，所述的解旋酶为Pif1-like解旋酶及其变体，优选的，所述的Pif1-like解旋酶选自Pba-PM2、Aph-Acj61、Aph-PX29、Avi-Aeh1、Sph-CBH8、Eph-Pei26、Aph-AM101、PphPspYZU05、Eph-EcS1、Eph-Cronus2或Mph-MP1，进一步优选的，所述的解旋酶为Mph-MP1变体，所述的Mph-MP1的变体包含E105C和/或A362C突变，更优选的，所述的变体的氨基酸序列如SEQ ID NO:17所示，编码所述的变体的核苷酸序列如SEQ ID NO:18所示。

20.编码权利要求1-8任一所述的孔蛋白单体、权利要求9所述的构建体、权利要求10-15任一所述的突变孔、或权利要求16-19任一所述的复合物的核酸。

21.一种包含权利要求20所述的核酸的载体或宿主细胞。

22.权利要求1-8任一所述的孔蛋白单体、权利要求9所述的构建体、权利要求10-15任一所述的突变孔、权利要求16-19任一所述的复合物、权利要求20所述的核酸或权利要求21所述的载体或宿主细胞在检测靶分析物存在、不存在或一个或多个特征或制备检测靶分析物存在、不存在或一个或多个特征的产品中的应用。

23.一种产生突变孔或其多肽的方法，其特征在于，包括用权利要求21所述的载体转化宿主细胞，诱导所述的宿主细胞表达突变孔或其多肽。

24.一种用于确定靶分析物存在、不存在或一个或多个特征的方法，其特征在于，所述的方法包括：

a.使靶分析物与权利要求10-15任一所述的突变孔、或权利要求16-19任一所述的复合物或复合物中的突变孔接触，使得所述靶分析物相对于所述突变孔移动；以及

b.在所述靶分析物相对于所述的突变孔移动时获取一个或多个测量值，从而确定所述靶分析物的存在、不存在或一个或多个特征。

25.根据权利要求24所述的方法，其特征在于，所述的靶分析物与存在于膜中的所述突变孔相互作用从而使得所述靶分析物相对所述突变孔移动。

26.根据权利要求24或25所述的方法，其特征在于，所述的靶分析物是核酸分子。

27.根据权利要求24或25所述的方法，其特征在于，所述的方法包括将所述靶分析物偶联到膜上；和所述靶分析物与存在于所述膜中的所述突变孔相互作用从而使得所述靶分析物相对所述突变孔移动。

28.根据权利要求24或25所述的方法，其特征在于，所述的方法包括在靶分析物与突变孔、复合物、或复合物中的突变孔接触上施加电势差的步骤。

29.一种用于确定靶分析物存在、不存在或一个或多个特征的试剂盒，其特征在于，所述的试剂盒包括权利要求1-8任一所述的孔蛋白单体、权利要求9所述的构建体、权利要求10-15任一所述的突变孔、权利要求16-19任一所述的复合物、权利要求20所述的核酸或权利要求21所述的载体或宿主细胞，和权利要求27所述的膜。

30.一种用于确定靶分析物存在、不存在或一个或多个特征的装置，其特征在于，所述的装置包括权利要求10-15任一所述的突变孔或权利要求16-19任一所述的复合物，和权利要求27所述的膜。