CN117106037A

CN117106037A - 新颖蛋白孔

Info

Publication number: CN117106037A
Application number: CN202310895485.4A
Authority: CN
Inventors: 汉·瑞曼特; 桑德尔·埃格伯特·范德维伦; 纳尼·范格文; 拉科马·尼尚萨·贾亚辛格; 伊丽莎白·杰恩·华莱士; 普拉提克·拉吉·辛格; 理查德·乔治·汉布利; 迈克尔·罗伯特·乔丹; 约翰·约瑟夫·基尔戈
Original assignee: Oxford Nanopore Technology Public Co ltd; Vlaams Instituut voor Biotechnologie VIB; Universite Libre de Bruxelles ULB
Current assignee: Oxford Nanopore Technology Public Co ltd; Vlaams Instituut voor Biotechnologie VIB; Universite Libre de Bruxelles ULB
Priority date: 2017-06-30
Filing date: 2018-07-02
Publication date: 2023-11-24
Also published as: SG11201913174PA; US20220162264A9; AU2018294660B2; EP3645552A1; CN117106038A; EP4273156A2; WO2019002893A1; US20220024985A9; KR20200030070A; JP2020530276A; US11945840B2; EP4273156A3; US12084477B2; CN110914290A; JP2023113692A; EP3645552B1; US20230079731A1; US20210284696A1; US11572387B2; US20210147486A1

Abstract

本发明涉及新颖蛋白孔及其在分析物检测和表征中的用途。本发明尤其涉及一种由CsgG样孔和经修饰的CsgF肽，或其同源物或突变体形成的分离的孔复合物，从而在纳米孔中并入附加通道收缩段或读取头。本发明还涉及一种跨膜孔复合物和用于产生所述孔复合物的方法，及其在分子感测和核酸测序应用中的用途。

Description

新颖蛋白孔

本专利申请是申请号为2018800440243、申请日为2018年7月2日、发明名称为“新颖蛋白孔”的专利申请的分案申请。

技术领域

本发明涉及新颖蛋白孔及其在分析物检测和表征中的用途。本发明还涉及一种跨膜孔复合物和用于产生所述孔复合物的方法，及其在分子感测和核酸测序应用中的用途。

背景技术

纳米孔感测是一种分析物检测和表征的方法，该方法依赖于观测分析物分子与离子传导通道之间的单个结合或相互作用事件。通过将单个纳米尺寸的孔放置在电绝缘膜中，并在分析物分子的存在下测量通过该孔的电压驱动离子电流，可以产生纳米孔感测器。纳米孔内部或附近的分析物的存在会改变通过该孔的离子流，导致在通道上测量到改变的离子或电流。分析物的特性通过其独特的电流特征来揭示，特别是通过电流阻断的持续时间和程度以及在分析物与孔相互作用期间电流水平的变化来揭示。分析物可以是有机和无机小分子，以及各种生物或合成大分子和聚合物，包括多核苷酸、多肽和多糖。纳米孔感测可以揭示所感测的分析物的特性并进行所感测的分析物的单分子计数，但是也可以提供有关以下的信息：分析物组成，诸如核苷酸、氨基酸或聚糖序列，以及碱基、氨基酸或聚糖修饰的存在，诸如甲基化和酰化、磷酸化、羟基化、氧化、还原、糖基化、脱羧、脱氨基等。纳米孔感测具有实现快速且低成本的多核苷酸测序的潜力，提供数十个至数万个碱基长度的多核苷酸的单分子序列读段。

使用纳米孔感测进行聚合物表征的其中两个基本组成部分是：(1)控制聚合物通过该孔的运动；(2)区别聚合物移动通过该孔时的组成构建块(building block)。在纳米孔感测期间，孔最窄的部分形成读取头，就电流特征而言，纳米孔最有区别的部分随正通过的分析物而变化。CsgG经鉴定为来自大肠杆菌(Escherichia coli)的无门控、非选择性蛋白质分泌通道(Goyal等人，2014)，并已用作检测和表征分析物的纳米孔。还公开了在这种情况下改善孔的性质的野生型CsgG孔的突变(WO2016/034591、WO2017/149316、WO2017/149317和WO2017/149318，PCT/GB2018/051191，全部通过引用并入本文)。

对于是多核苷酸的分析物，核苷酸的区别是经由通过这种突变孔的通路来实现的，但已证实电流特征具有序列依赖性，并且多个核苷酸有助于观测到电流，使得通道收缩段的高度以及表面与分析物相互作用的程度会影响观测到的电流与多核苷酸序列之间的关系。虽然通过CsgG孔的突变改善了核苷酸区别的电流范围，但是如果可以进一步改善核苷酸之间的电流差异，则测序系统将具有更高的性能。因此，需要鉴定改善纳米孔感测特性的新颖方法。

发明内容

本公开涉及经修饰的CsgF肽，尤其是截短的CsgF片段，其结合CsgG孔并由此在CsgG孔内引入另一附加的通道或孔收缩段。本发明的其他方面还涉及分离的跨膜孔复合物，以及所述CsgG:CsgF复合物和经修饰的CsgF肽或片段在具有两个连续读取头的纳米孔感测平台中的用途。

本发明的第一方面涉及包含CsgG孔和CsgF肽的孔。一方面，CsgF肽包含CsgG结合区和在孔中形成收缩段的区。一方面，CsgF肽是缺少CsgF的C端头部结构域的截短的CsgF肽。另一方面，CsgF肽是缺少CsgF的C端头部结构域和一部分颈部结构域的截短的CsgF肽。另一方面，CsgF肽是缺少CsgF的C端头部结构域和颈部结构域的截短的CsgF肽。孔在本文中也称为孔复合物和分离的孔复合物。分离的孔复合物包含CsgG孔或其同源物或突变体，以及经修饰的CsgF肽或其同源物或突变体，尤其是截短的CsgF片段或其同源物或突变体。在一个实施方案中，所述经修饰的CsgF肽或其同源物或突变体位于CsgG孔或其同源物或突变体的内腔中。在另一个实施方案中，所述分离的孔复合物具有两个或更多个通道收缩段，一个通道收缩段由CsgG孔定位或提供，由其收缩环形成，另一个附加通道收缩段或读取头由经修饰的CsgF肽或其同源物或突变体引入。在一个实施方案中，所述CsgG孔或CsgG样孔不是野生型孔，它是突变的CsgG孔，在特定的实施方案中，例如在所述通道收缩环中存在突变。在另一个实施方案中，包含经修饰的CsgF肽或其同源物或突变体的分离的孔复合物具有直径在0.5nm至2.0nm范围内的CsgF通道收缩段。在一个实施方案中，孔复合物包含：(i)CsgG孔，其包含第一开口、包含β桶的中间区段、第二开口以及从第一开口延伸通过中间区段到达第二开口的内腔，其中所述中间区段的内腔表面限定CsgG收缩段；和(ii)多个经修饰的CsgF肽，每个经修饰的CsgF肽具有CsgF收缩区和CsgG结合区(在本文中也称为CsgF的CsgG结合结构域或结合区)，其中所述经修饰的CsgF肽在所述CsgG孔的β桶内形成CsgF收缩段，并且其中所述CsgG收缩段和所述CsgF收缩段在所述CsgG孔的β桶内同轴间隔开。CsgG孔的内腔表面可包含CsgG单体的限定CsgG收缩段的一个或多个环区。CsgF收缩区和CsgF结合区通常与CsgF成熟肽的N端部分相对应。在一个实施方案中，孔复合物不包括CsgA、CsgB和CsgE。

在第二方面，本发明涉及一种经修饰的CsgF肽或其同源物或突变体，其中所述蛋白质或肽通过部分蛋白质的截短或缺失得以修饰，产生SEQ ID NO:6的CsgF片段或其同源物或突变体。一个实施方案涉及一种经修饰或截短的CsgF肽，或CsgF同源物或突变体的经修饰肽，所述经修饰肽包含SEQ ID NO:39或SEQ ID NO:40，或其同源物或突变体，可替代地，所述经修饰肽包含SEQ ID NO:15，或其同源物或突变体，可替代地包含SEQ ID NO:54，或SEQ ID NO:55，或其同源物或突变体。另一个实施方案公开了一种经修饰的CsgF肽，其中在包含SEQ ID NO:15的区中的一个或多个位置被修饰，并且其中所述突变需要在与包含SEQ ID NO:15的区相对应的肽片段中保持与SEQ ID NO:15至少35％的氨基酸同一性。

一个实施方案涉及一种包含CsgG孔和经修饰的CsgF肽的孔，其中所述经修饰的CsgF肽与CsgG结合并在所述孔中形成收缩段

一个实施方案涉及一种编码根据本发明第二方面的所述经修饰的CsgF肽或其同源物或突变体的多核苷酸。在另一个实施方案中，包含CsgG孔和经修饰的CsgF肽或其同源物或突变体的分离的孔复合物的特征在于，所述经修饰的CsgF肽是由本发明第二方面中公开的肽提供的肽。

另一个实施方案涉及分离的孔复合物，其中经修饰的CsgF肽和CsgG孔或所述孔的单体，或其同源物或突变体共价偶联。甚至更具体地，所述偶联是在与SEQ ID NO:3或其同源物的132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209相对应的位置，通过半胱氨酸残基或通过CsgG单体中的非天然反应性或光反应性氨基酸进行的。

一个优选的实施方案涉及一种分离的跨膜孔复合物或膜组合物，其包含本发明的分离的孔复合物和膜的组分。具体地，所述跨膜孔复合物或膜组合物由本发明的分离的孔复合物以及膜或绝缘层的组分组成。

一个实施方案涉及一种用于产生如本文所公开的孔的方法，该方法包括使如本文所公开的一个或多个CsgG单体和如本文所公开的CsgF肽在宿主细胞中共表达，从而允许在细胞中形成跨膜孔复合物。CsgF肽可通过裂解经修饰的CsgF肽或蛋白质而产生，所述经修饰的CsgF肽或蛋白质在氨基酸序列的合适位置处包含酶裂解位点。

一个实施方案涉及一种用于产生如本文所公开的孔的方法，该方法包括使一个或多个纯化CsgG单体与一个或多个纯化的经修饰的CsgF肽接触，从而允许在体外形成孔。经修饰的CsgF肽可以是在氨基酸序列的合适位置处包含酶裂解位点的肽，该肽在孔形成之前或之后被裂解。

本发明的第三方面涉及一种用于产生所述跨膜孔复合物的方法，其中所述孔是由CsgG孔或其同源物或突变体和经修饰的CsgF肽或其同源物或突变体形成的分离的复合物，该方法包括以下步骤：使CsgG SEQ ID NO:2或其同源物或突变体，以及经修饰或截短的CsgF(包含SEQ ID NO:5的片段)或其同源物或突变体在合适的宿主中共表达，从而允许在体内形成孔复合物。在具体实施方案中，所述经修饰的CsgF肽或其同源物或突变体包含SEQID NO:12或SEQ ID NO:14，或其同源物或突变体。可替代地，用于产生分离的孔复合物的方法包括以下步骤：使SEQ ID NO:3的CsgG单体或其同源物或突变体与经修饰的CsgF肽或其同源物或突变体接触，以便体外重构孔复合物。在特定实施方案中，所述方法的经修饰的CsgF肽包含SEQ ID NO:15或SEQ ID NO:16，或其同源物或突变体。

本发明的另一方面涉及一种用于确定靶分析物的存在、不存在或一个或多个特征的方法，所述方法包括以下步骤：

(i)使靶分析物与所述分离的孔复合物或跨膜孔复合物接触，使得靶分析物移动到孔通道中；并且

(ii)在分析物移动通过孔通道时进行一项或多项测量，从而确定所述分析物的存在、不存在或一个或多个特征。

在一个实施方案中，所述分析物是多核苷酸。具体而言，使用多核苷酸作为分析物的所述方法可替代地包括确定一个或多个选自以下的特征：(i)多核苷酸的长度，(ii)多核苷酸的同一性，(iii)多核苷酸的序列，(iv)多核苷酸的二级结构以及(v)多核苷酸是否被修饰。

在另一个实施方案中，分析物是蛋白质或肽，并且在其他实施方案中，所述分析物是多糖或小的有机或无机化合物，例如但不限于药理活性化合物、有毒化合物和污染物。

在另一个实施方案中，描述了一种使用分离的跨膜孔复合物表征多核苷酸或(多)肽的方法，其中所述孔复合物是分离的复合物，其包含CsgG孔或其同源物或突变体以及经修饰的CsgF肽或其同源物或突变体。具体而言，所述CsgG孔或其同源物或突变体，包含六至十个形成CsgG孔通道的CsgG单体。

本发明的另一方面公开了根据本发明前述方面的所述分离的孔复合物或跨膜孔复合物用于确定靶分析物的存在、不存在或一个或多个特征的用途。此外，本发明还涉及用于表征靶分析物的试剂盒，其包含(a)所述分离的孔复合物和(b)膜的组分。

附图说明

所描述的附图仅是示意性的而非限制性的。在附图中出于说明目的，一些元件的尺寸可能被放大并且未按比例绘制。

图1:CsgG孔的结构以及与CsgF形成复合物的界面。表面(A)和带状(B、C)表示中CsgG寡聚物(例如，九聚体)(金)的横截面视图(A)、侧视图(B)和俯视图(C)，其中单个CsgG前体为浅蓝色(D)(基于CsgG X射线结构PDB条目：4uv3)。CsgG收缩环(CL环)跨越SEQ IDNO:3的残基46至61，在所有图中以深灰色表示，并且与(E)左下方提供的环相对应。侧链面向CsgGβ-桶的内腔的CsgG残基如图所示为中灰色，并且在(E)和(D)的β链中有标记。这些残基代表可用于取代天然或非天然氨基酸的位点，例如，适合孔驻留肽(包括例如经修饰的CsgF肽或其同源物)附接(例如，共价交联)到CsgG孔或单体的位点。在一些实施方案中，交联残基包括Cys以及反应性和光反应性氨基酸，诸如叠氮高丙氨酸、高炔丙基甘氨酸、高烯丙基甘氨酸、对乙酰基-Phe、对叠氮基-Phe、对炔丙基氧基-Phe和对苯甲酰基-Phe(Wang等人，2012；Chin等人，2002)，并且根据SEQ ID NO:3可以取代到位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209中。(E)示出了CsgG单体的CL环和跨膜β链的放大图。CsgG收缩环(深蓝色)在CsgG孔中形成孔口或最窄的通路(图A)。在一些实施方案中，根据SED ID NO:3，CL环中的三个位置56、55和51对于CsgG通道孔口或“读取头”的直径以及化学和物理性质特别重要。这些代表用于改变CsgG孔和同源物的纳米孔感测性质的优选位置。

图2:CsgG:CsgF复合蛋白的共表达和复合物纯化。(A)从大肠杆菌培养物共表达CsgG(SEQ ID NO:2+C端StrepII标签)和CsgF(SEQ ID NO:4+C端6xHis标签)开始的CsgG:CsgF复合物的纯化方案的示意图。该方案涉及破坏重新悬浮的细胞并进行膜结合蛋白的1％ DDM提取。CsgG:CsgF复合物和过量的CsgF在镍IMAC色谱柱上通过亲和纯化进行第一次富集，然后在链霉亲和素色谱柱上进行第二次基于亲和力的CsgG:CsgF复合物富集。(B)IMAC(左)和链霉亲和素(右)纯化步骤的考马斯染色SDS-PAGE。标记与CsgG和CsgF相对应的蛋白质条带。值得注意的是，IMAC洗脱物包含N端截短的CsgF片段(标记*)，使用CsgG结合的Strep标签未将该片段保留在亲和力下拉物中，表明与CsgG形成复合物需要CsgF N端。

图3:体外重构后CsgG:CsgF复合蛋白的纯化。(A)CsgG(浅灰色)和补充有过量CsgF的CsgG(深灰色)的尺寸排阻色谱(SEC)运行(使用BioRad Enrich 650 10/300色谱柱)的叠加色谱图。色谱图显示了对应于以下的洗脱峰：用于CsgG色谱分析的CsgG 9聚体(a)和CsgG18聚体(b)；和过量的游离CsgF(c)，以及由于CsgF并入复合物中而以更高流体动力学半径(分子量)洗脱的9聚体CsgG:CsgF复合物(d)和18聚体CsgG:CsgF复合物(e)。(B)图(A)中标记的代表性物类的天然PAGE分析，证实了由于CsgF并入CsgG9聚体和CsgG 18聚体复合物中而转变为更高的分子量。这些实验证明，可以从纯化组分开始体外重构CsgG:CsgF复合物。(C)先前在Goyal等人2014(PDB条目4uv3)中报道的CsgG 9聚体和CsgG 18聚体的带状表示。CsgG 18聚体由CsgG 9聚体的二聚体形成。图A和图B中显示的SEC和天然PAGE分析证明，CsgG 18聚体适合与CsgF形成复合物。

图4:在冷冻电子显微镜(cryo-EM)中确定的CsgG:CsgF结构。(A)CsgG:CsgF复合物的冷冻电子显微照片显示存在9聚体和18聚体CsgG:CsgF复合物，其中9聚体和18聚体形式的许多单个颗粒分别以完整圆圈和虚线圆圈突出显示。(B)从侧面观察的CsgG:CsgF 9聚体复合物的两个代表性类别平均值。类别平均值分别包括6020和4159个单个颗粒。类别平均值揭示在CsgG颗粒上面存在额外密度，这与CsgF的寡聚复合物相对应。在CsgF寡聚物中可以看到三个不同的区：“头部”和“颈部”区，以及留在CsgGβ-桶内腔内并形成堆叠在CsgG CL环形成的收缩段(标记为G)上面的收缩段或狭窄通路(标记为F)的区。后一个CsgF区称为CsgF收缩肽(FCP)。

图5:CsgG:CsgF复合物的三维结构模型。根据分配给21个类别平均值的20.000个颗粒计算的CsgG:CsgF 9聚体复合物的3D cryoEM电子密度的横截面视图。右图显示了CsgG9聚体X射线结构(PDB条目：4uv3)对接到cryoEM密度中的叠加。指出了与CsgG、CsgF和CsgF头部、颈部和FCP结构域相对应的区。横截面显示CsgF FCP区在CsgG通道中，在CsgG收缩环(标记为G)上方约2nm处形成附加收缩段(标记为F)。

图6:基于cryo-EM结构的CsgG:CsgF孔复合物的示意图。(A)以横截面视图表示的隐匿单个收缩段(标记为(1))的CsgG纳米孔的示意图。基于CsgG的纳米孔形成3.5–4nm宽的通道，该通道含有由CsgG收缩环形成的0.5–1.5nm孔口(根据SEQ ID NO:3的残基46至61)。与CsgF复合时，第二收缩孔或孔口引入CsgG通道(标记为(2)/F)，并且通道出口被CsgF头部结构域阻塞(参见图5)。当使用经修饰的CsgF肽(例如，对应于缺少颈部和头部区的CsgF收缩肽(FCP))时，形成具有两个连续通道收缩段或孔口((1)和(2))的CsgG:CsgF孔复合物，如图(B)中的CsgG:CsgF cryo-EM密度的横截面视图以及图(C)中的示意图所示。去除经修饰的CsgF肽中的颈部和头部区减轻了它们对通道出口的阻塞。

图7:CsgG:CsgF孔复合物用于(生物)聚合物(A)或单分子分析物(B)的纳米孔感测应用的用途的示意图。当用于聚合物感测时，由经修饰的CsgF肽引入的第二通道收缩段会增加与分析物的接触区，并且形成第二相互作用位点和读取头。当用于单分子纳米孔感测时，由经修饰的CsgF肽引入的第二通道收缩段会产生第二独立的分析物相互作用位点。(C)通过连续的CsgG(1)和CsgF(2)收缩段或读取头并与之相互作用的小分子(以六边形或三角形表示)的理论通道电导曲线的示意图。

图8:示例性CsgF同源物的多序列比对。将比对的序列示为成熟蛋白(即，缺少其N端信号肽(SP))。在一些实施方案中，带方框的序列指示序列保守的CsgF区(成对序列同一性在35和100％之间-参见图10)，该区与CsgF收缩肽(FCP)相对应。多序列比对中包括的CsgF同源物是Q88H88；A0A143HJA0；Q5E245；Q084E5；F0LZU2；A0A136HQR0；A0A0W1SRL3；B0UH01；Q6NAU5；G8PUY5；A0A0S2ETP7；E3I1Z1；F3Z094；A0A176T7M2；D2QPP8；N2IYT1；W7QHV5；D4ZLW2；D2QT92；A0A167UJA2。大肠杆菌CsgF(SEQ ID NO:15)的FCP区和所示的CsgF同源物与SEQ ID No:18-36相对应。

图9:形成CsgG相互作用序列和CsgF收缩肽(FCP)的大肠杆菌CsgF区的实验评估。图(A)显示了与大肠杆菌CsgG(SEQ ID NO:2)共表达的四个N端CsgF片段(SEQ ID NO:8_CsgF残基1-27；SEQ ID NO:10；SEQ ID NO:12和SEQ ID NO:14)的成熟序列(即去除CsgF信号肽之后，该CsgF信号肽与SEQ ID NO:5的残基1-19相对应)。(B)CsgG和CsgF共表达实验的粗制细胞裂解物的SDS-PAGE运行的抗Strep(左)和抗His(右)蛋白质印迹分析。抗strep分析证明在所有共表达实验中CsgG表达，而抗his蛋白质印迹分析表明仅对于截短突变体CsgF 1-64(SEQ ID NO:14)而言，存在可检测水平的CsgF片段。用His标记的纳米抗体(Nb)作为阳性对照。(C)CsgG:CsgF共表达实验中对CsgF片段的存在的抗His点印迹分析。上排显示全细胞裂解物，中排和下排显示Strep亲和力下拉实验的洗脱物和流过物(flowthrough)。这些数据证明，CsgF片段1-64，以及在较小程度上CsgF 1-48，特别作为与Strep标记的CsgG的复合物下拉。CsgF片段1-27和1-38并未产生可检测水平的相应CsgF片段，并且没有显示出与CsgG形成复合物的迹象。

图10:形成CsgG相互作用序列和CsgF收缩肽(FCP)的CsgF区的多序列比对。该图显示了CsgF肽及其已知同源物在与CsgG相互作用相对应的区中的多序列比对和共有序列。通过PFAM结构域PF03783限定CsgF同源物。这些肽结合CsgG，并定位到CsgGβ-桶的内腔，在内腔中它们在CsgG通道中形成附加收缩段。这些肽及其同源物是CsgF收缩肽或FCP的实例。在所示FCP中成对序列同一性范围在35％和98％之间。

图11:CsgG:CsgF复合物的高分辨率cryoEM结构。CsgG以浅灰色显示，CsgF以深灰色显示。A.CsgG:CsgF复合物在分辨率下的最终电子密度图。侧视图。B.显示CsgG:CsgF的cryoEM结构的俯视图，包含9:9的化学计量比，具有C9对称性。C.CsgG:CsgF复合物的内部体系结构。GC，CsgG收缩段；FC，CsgF收缩段。D.CsgG和CsgF蛋白之间的相互作用。CsgG和CsgG收缩段分别为浅灰色和灰色。CsgF为深灰色。CsgG和CsgF中的残基分别用浅灰色和黑色标记。

图12:CsgG:CsgF复合物的两个读取头。CsgG以浅灰色显示，CsgG孔的读取头以深灰色显示。CsgF以黑色显示，CsgF的读取头带有标记。

图13:CsgG与CsgFWT在体内的共表达。将具有氨苄青霉素(ampicillin)抗性的pT7载体中编码C端strep标记的CsgG多肽的基因和具有卡那霉素(kanamycin)抗性的pRham载体中编码C端His标记的CsgF多肽的基因在氨苄青霉素和卡那霉素两者的存在下一起转化到大肠杆菌BL21DE3细胞中。蛋白质在18℃、250rpm下表达过夜，并且使用Strep标签纯化法，接着使用His标签纯化法来纯化CsgG-CsgF复合物。A.strep纯化前的蛋白质样品(一式两份)。B.His纯化后的蛋白质样品(三个洗脱级分)。蛋白质在4-20％Tris凝胶上进行电泳。

图14:CsgG和CsgF的体外共表达以及CsgG-CsgF复合物的热稳定性。不同载体中的CsgG和CsgF DNA在体外转录和翻译反应中共表达。蛋白质用S-35蛋氨酸进行放射标记，并在X射线胶片上曝光。通过在不同温度下孵育反应混合物10分钟来评估复合物的稳定性。

图15:使用蛋白酶裂解位点制备CsgG:CsgF复合物。A.TEV或C3或任何其他蛋白酶裂解位点都可以并入到CsgF肽的所需位点(例如：seq ID No.6的30和31、35和36、40和41、45和46之间)。CsgG以金色显示且CsgF结构域以红色显示。为了清楚起见，一个CsgF亚基的1-35为绿色。36-45以紫色显示。10-组氨酸标签以粉红色显示且CsgG上的strep标签以蓝色显示。B.全长CsgG:CsgF复合物的蛋白酶裂解的SDS-PAGE(4-20％ TGX)，其中在seq ID 6的35-36之间插入了TEV蛋白酶裂解位点。M：分子量标记，泳道1：CsgG:CsgF全长复合物strep纯化后，泳道2：strep纯化后的浓缩物，泳道3：凝胶过滤后，泳道4：用TEV蛋白酶裂解产生CsgG:CsgF复合物，泳道5：strep纯化后CsgG:CsgF的流过物，泳道6：在60℃下加热10分钟的CsgG:CsgF。泳道7：从链霉亲和素色谱柱洗脱的CsgG:CsgF复合物，泳道8：作为对照的CsgG孔，泳道9：作为对照的TEV蛋白酶。

图16:CsgG:CsgF复合物的热稳定性。M：分子量标记，泳道1：CsgG孔，泳道2：室温下的CsgG:CsgF复合物：泳道3-9：将CsgG:CsgF样品在不同温度(分别为40、50、60、70、80、90、100℃)下加热10分钟。泳道1：

A.Y51A/F56Q/N55V/N91R/K94Q/R97W-del(V105-I107):CsgF-(1-45)。

B.Y51A/F56Q/N55V/N91R/K94Q/R97W-del(V105-I107):CsgF-(1-35)。

C.Y51A/F56Q/N55V/N91R/K94Q/R97W-del(V105-I107):CsgF-(1-30)。

将样品在7.5％ TGX凝胶上进行SDS-PAGE。具有CsgF-(1-45)和CsgF-(1-35)两者的CsgG:CsgF复合物显示从泳道1中的CsgG孔带转变。因此，很明显那两种复合物在高达90℃时是热稳定的。复合物和孔在100℃下分解为CsgG单体(泳道9)。尽管用CsgG:CsgF复合物与CsgF-(1-30)看到相同的热稳定性模式，但很难看到CsgG孔(泳道1)和CsgG-CsgF复合物(泳道2-8)的蛋白质条带之间的转变。

图17:使用合成CsgF肽通过体外重构形成CsgG:CsgF。显示使用野生型CsgG或具有改变的收缩段Y51A/F56Q/K94Q/R97W/R192D-del(V105-l107)的CsgG突变体通过体外重构形成CsgG:CsgF的天然PAGE。在室温下在15分钟内按2:1的摩尔比将与成熟CsgF(Seq ID No6)的前34个残基相对应的Alexa 594标记的CsgF肽添加到在50mM Tris、100mM NaCl、1mMEDTA、5mM LDAO/C8D4中的纯化的Strep标记的CsgG或Y51A/F56Q/K94Q/R97W/R192D-del(V105-l107)中以使其进行重构。将CsgG-strep下拉到StrepTactin珠粒上后，在天然PAGE上分析样品。WT和Y51A/F56Q/K94Q/R97W/R192D-del(V105-l107)CsgG两者均结合CsgF N端肽，如通过荧光标签可见的那样。

图18:稳定CsgG:CsgF或CsgG:FCP复合物。A.CsgG(SEQ ID NO:3和CsgF(SEQ IDNO:.6)配对中已鉴定的可以产生S-S键的氨基酸位置。B.显示CsgG-Q153C和CsgF-G1C之间的S-S键的示意图。

图19:CsgG:CsgF复合物的半胱氨酸交联。A.单独纯化Y51A/F56Q/N91R/K94Q/R97W/Q153C-del(V105-I107)和CsgF-G1C蛋白，并在4℃下一起孵育1小时或过夜，以形成复合物并使其形成S-S。未添加氧化剂来促进S-S形成。将对照CsgG孔(Y51A/F56Q/N91R/K94Q/R97W/Q153C-DEL(V105-I107))和复合物(有和无DTT)在100℃下加热10分钟，以使复合物分解成CsgG单体(CsgG_m，30KDa)和CsgF单体(CsgF_m，15KDa)。在不存在还原剂的情况下，可以看到CsgG_m和CsgF_m之间的二聚体(CsgG_m-CsgF_m，45KDa)，从而证实了S-S键的形成。与孵育一小时相比，孵育过夜可以看到二聚体的形成增加。B.对来自过夜孵育的凝胶纯化的CsgG_m-CsgF_m条带进行质谱分析。将蛋白进行蛋白水解裂解以产生胰蛋白酶肽。进行LC-MS/MS测序方法，从而鉴定出与所示连接肽相对应的上述前体离子。将该前体离子碎裂，得到所观测到的碎片离子。这些包括每个肽的离子，以及并入完整二硫键的碎片。该数据为CsgF的C1和CsgG的C153之间存在二硫键提供了有力的证据。

图20:提高CsgG:CsgF复合物的半胱氨酸交联效率。泳道1：Y51A/F56Q/N91R/K94Q/R97W/N133C-del(V105-I107)和CsgF-T4C蛋白质共表达，纯化CsgG:CsgF复合物。泳道2：在DTT的存在下加热复合物以使复合物分解为取代基单体(CsgG_m和CsgF_m)。如果形成，DTT将破坏CsgG-N133C和CsgF-T4C之间的所有S-S键。泳道3：将该复合物与氧化剂铜-邻二氮杂菲一起孵育以促进S-S键形成。泳道4：在不存在DTT的情况下，在100℃下加热氧化样品以分解复合物。出现与CsgG_m-CsgF_m相对应的45KDa新条带，证实了S-S键的形成。

图21:DNA链通过CsgG:CsgF复合物时的电流特征。通过共表达含有C端strep标签的CsgG孔(Y51A/F56Q/N91R/K94Q/R97W-del(V105-I107))与含有C端His标签和在seq IDno.6的35和36之间的TEV蛋白酶裂解位点的全长CsgF蛋白来制备复合物。然后用TEV蛋白酶裂解纯化复合物，以制备指定的CsgG:CsgF复合物。注意，TEV裂解在裂解位点留下ENLYFQ序列。A.CsgF的位置17无突变。B.CsgF中的N17S突变。

图22:DNA链通过CsgG:CsgF复合物时的电流特征。通过将含有C端strep标签的Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-(1-35)突变体一起孵育来制备复合物。A.CsgF-N17S-(1-35)。B.CsgF-N17V-(1-35)。

图23:DNA链通过CsgG:CsgF复合物时的电流特征。

通过将含有C端strep标签的不同CsgG孔与CsgF-N17S-(1-35)一起孵育来制备复合物。A.CsgG孔是Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)。B.CsgG孔是Y51T/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)。C.CsgG孔是Y51A/N55I/F56Q/N91R/K94Q/R97W-del(V105-I107)。D.CsgG孔是Y51A/F56A/N91R/K94Q/R97W-del(V105-I107)。E.CsgG孔是Y51A/F56I/N91R/K94Q/R97W-del(V105-I107)。F.CsgG孔是Y51S/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)。

图24:DNA链通过CsgG:CsgF复合物时的电流特征。

通过将含有C端strep的大肠杆菌纯化Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与三种不同长度CsgF一起孵育来制备复合物。A.CsgF-(1-29)，B.CsgF-(1-35)，C.CsgF-(1-45)。箭头指示信号范围。令人惊讶的是，与CsgF-(1-29)的复合物产生最大范围的信号。

图25:DNA链通过CsgG:CsgF复合物时电流特征的信噪比。通过将不同的CsgG孔(1-Y51A/F56Q/N91R/K94Q/R97W-del(V105-I107)2-Y51A/N55I/F56Q/N91R/K94Q/R97W-del(V105-I107)3-Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)4-Y51A/F56A/N91R/K94Q/R97W-del(V105-I107)5-Y51A/F56I/N91R/K94Q/R97W-del(V105-I107)6-Y51A/F56V/N91R/K94Q/R97W-del(V105-I107)7-Y51S/N55A/F56Q/N91R/K94Q/R97W-del(V105-I107)8-Y51S/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)9-Y51T/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107))与相同的CsgF肽CsgF-(1-35)一起孵育来制备不同的CsgG:CsgF复合物。在DNA易位实验中观测到不同的波形曲线模式，并测量了它们的信噪比。信噪比越大，可以获得越高的精度。

图26:用狭窄读取头产生的测序误差。DNA碱基与CsgG孔读取头相互作用的示意图。当DNA链通过孔易位时，在任何给定时间，大约有5个碱基主导电流信号。B.信号映射图。针对缺少均聚物运行的混合序列以及包含三个10T均聚物运行的序列，使用自定义HMM映射到模拟信号的多个读段的事件检测信号。

图27:映射CsgG:CsgF复合物的读取头。CsgG:CsgF复合物的读取头区别图。当每个读取头位置处的碱基改变时，模拟电流的平均变化。为了计算长度为k且字母长度为n的模型在位置i处的读取头区别，我们将读取头位置i处的区别定义为大小为n的nk-1个组中的每一个的电流水平的标准偏差的中值，其中位置i改变而其他位置保持不变。B.映射读取头的静态DNA链：创建了一组polyA DNA链(SS20至SS38)，其中DNA骨架(iSpc3)中缺少一个碱基。在每条链中，iSpc3的位置从3′末端移到5′末端。根据先前用CsgG孔进行的实验，预计DNA的第7个位置位于CsgG收缩段内。突出显示与该DNA相对应的SS26。根据来自(A)的模型，预计4-5个碱基将CsgG和CsgF读取头隔开。因此，预计大约位置12和13在CsgF收缩段内。突出显示了与那些位置相对应的SS31和SS32 DNA链。C和D。映射两个读取头：每条链3′末端的生物素修饰与单价链霉亲和素复合，并在MinION装置中记录由每条链产生的电流阻塞。当iSpc3位置存在于孔内收缩段的上方或下方时，预计无偏转。然而，当iSpc3位于收缩段内时，预计有更高的电流水平通过该孔-因缺少碱基而产生的额外空间会让更多的离子通过。因此，通过绘制每条DNA链上通过的电流，可以映射两个读取头的位置。正如预期的，当DNA链的位置7被iSpc3占据时(C)，看到电流的最大偏转。在位置6和8处的iSpc3也会产生比平均polyA电流水平更高的偏转。因此，DNA链的位置6、7和8代表第一读取头-CsgG读取头。正如预期的，当位置12和13被iCsp3占据时，观测到与基线polyA的另一个偏差(D)。这表示孔的第二读取头–CsgF读取头。结果还证实两个读取头相距大约4-5个碱基。

图28:读取头区别和碱基贡献。左侧图展示了每个突变孔的读取头区别：当每个读取头位置处的碱基改变时，模拟电流的平均变化。为了计算长度为k且字母长度为n的模型在位置i处的读取头区别，我们将读取头位置i处的区别定义为大小为n的n^k-1个组中的每一个的电流水平的标准偏差的中值，其中位置i改变而其他位置保持不变。右侧图展示了碱基贡献图：在读取头的位置i处具有碱基b(A、T、G或C)的所有序列情况下的中值电流。

图29:双读取头孔的误差曲线。A.CsgG:CsgF复合物的示意图以及DNA碱基与两个读取头的相互作用。红色：强烈的相互作用，橙色：弱相互作用，灰色：无相互作用。B.缺失误差的比较。来自Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)和Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)的读段：从大肠杆菌DNA的相同区对CsgF-N17S-(1-35)孔进行碱基识别。使用Minimap2(https://arxiv.org/abs/1708.01492)将读段与参考基因组进行比对，然后在Savant Genome Browser(https://www.ncbi.nlm.nih.gov/pubmed/20562449)中将所得比对结果可视化。大多数Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)读段在T均聚物中含有单个碱基缺失(黑色方框)，在大多数CsgG:CsgF读段中均不存在碱基缺失。C.来自于由Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)(蓝色)和Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107):CsgF-N17S-(1-35)孔(绿色)产生的原始数据的共有准确性相对于均聚物长度的比较。

图30:CsgG:CsgF复合物的均聚物识别。具有(A)中所示序列的DNA通过Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)孔(B)和Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107):CsgF-N17S-(1-35)孔(C)易位，并且针对(A)中以红色显示的第一polyT部分分析了它们的信号。当polyT部分通过含有单个读取头的CsgG孔(模型基于位于读取头中的5个碱基)时，它将在信号中产生一条平整的线。因此，难以确定该区中通常引起缺失误差的碱基的确切数量。当DNA通过含两个读取头的CsgG:CsgF复合物时(模型基于位于两个读取头内部和之间的9个碱基)，polyT部分显示出多个梯级，而不是一条平整的线。这些梯级中的信息可以用于正确地鉴定均聚物区中的碱基数量。该附加信息可显著减少缺失误差并提高总体共有准确性。

图31:CsgG孔(Y51A/F56Q/N91R/K94Q/R97W/-del(V105-I107)的表征。A.CsgG孔的读取头区别。当每个读取头位置处的碱基改变时，模拟电流的平均变化。为了计算长度为k且字母长度为n的模型在位置i处的读取头区别，我们将读取头位置i处的区别定义为大小为n的n^k-1个组中的每一个的电流水平的标准偏差的中值，其中位置i改变而其他位置保持不变。B.CsgG孔的碱基贡献图。在读取头的位置I处具有碱基b(A、T、G或C)的所有k聚体上的中值电流。C.DNA链通过CsgG孔时的电流特征。

具体实施方式

将针对特定实施方案并参考某些附图来描述本发明，但本发明不限于此，而仅由权利要求书限制。权利要求中的任何参考符号都不应解释为限制范围。当然，应当理解，根据本发明的任何特定实施方案，不一定可以实现所有方面或优点。因此，例如本领域技术人员将认识到，本发明可以以实现或优化如本文所教导的一个优点或一组优点的方式来体现或执行，而不必实现本文所教导或建议的其他方面或优点。

当结合附图阅读时，通过参考下面的详细描述可以最好地理解本发明的组织和操作方法以及其特性和优点。参考下文描述的实施方案，本发明的各方面和优点将显而易见并得到阐明。在本说明书全篇提到“一个实施方案”或“一实施方案”意指结合该实施方案描述的特定特性、结构或特征包括在本发明的至少一个实施方案中。因此，短语“在一个实施方案中”或“在一实施方案中”在本说明书全篇各处的出现不一定都指同一实施方案，但是可以指同一实施方案。类似地，应当认识到，在本发明的示例性实施方案的描述中，有时将本发明的各种特征一起分组在单个实施方案、附图或其描述中，以简化公开内容并帮助理解各个发明方面中的一个或多个方面。然而，本公开的这种方法不应解释为反映了这样一种意图，即所要求保护的发明需要比每项权利要求中明确叙述的特征更多的特征。相反，如所附权利要求所反映的那样，发明方面并非在于前述公开的单个实施方案的所有特征。

另外，如说明书和所附权利要求书中所用，除非内容另外明确指出，否则单数形式“一”、“一种(个)”和“所述(该)”包括复数指示物。因此，例如，提到“一个多核苷酸”包括两个或更多个多核苷酸，提到“一种多核苷酸结合蛋白”包括两种或更多种这样的蛋白，提到“一种解旋酶”包括两种或更多种解旋酶，提到“一个单体”是指两个或更多个单体，提到“一个孔”包括两个或更多个孔等等。

在本文的所有讨论中，使用了氨基酸的标准单字母密码。这些如下：丙氨酸(A)、精氨酸(R)、天冬酰胺(N)、天冬氨酸(D)、半胱氨酸(C)、谷氨酸(E)、谷氨酰胺(Q)、甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、蛋氨酸(M)、苯丙氨酸(F)、脯氨酸(P)、丝氨酸(S)、苏氨酸(T)、色氨酸(W)、酪氨酸(Y)和缬氨酸(V)。也使用标准取代符号，即Q42R意指位置42处的Q被R置换。

在本文中用/符号将特定位置的不同氨基酸隔开的段落中，/符号意指“或”。例如，Q87R/K意指Q87R或Q87K。

在本文中用/符号将特定位置隔开的段落中，/符号意指“和”，使得Y51/N55为Y51和N55。

除非有相反的说明，否则本文公开的所有氨基酸取代、缺失和/或添加均参考包含SEQ ID NO:3所示序列的变体的突变CsgG单体。

提到包含SEQ ID NO:3所示序列的变体的突变CsgG单体，涵盖包含如下面公开的其他SEQ ID NO所示的序列的变体的突变CsgG单体。可以对包含不同于SEQ ID NO:3所示的序列的变体的CsgG单体进行氨基酸取代、缺失和/或添加，其等效于本文针对包含SEQ IDNO:3所示序列的变体的突变CsgG单体所公开的那些取代、缺失和/或添加。

本文(无论是上文还是下文)引用的所有出版物、专利和专利申请，均特此通过引用整体并入本文。

定义

在提到单数名词时使用不定冠词或定冠词，例如“一”、“一种(个)”和“所述(该)”的情况下，除非明确说明，否则这包括该名词的复数形式。在本说明书和权利要求书中使用术语“包含”的情况下，不排除其他要素或步骤。此外，说明书和权利要求书中的术语第一、第二、第三等用于区分相似要素，而不一定是用于先后顺序或时间顺序。应当理解，如此使用的术语在适当的情况下是可互换的，并且本文描述的本发明的实施方案能够以不同于本文描述或示出的顺序的其他顺序来操作。仅提供以下术语或定义来帮助理解本发明。除非本文明确定义，否则本文使用的所有术语具有对于本发明领域的技术人员而言相同的含义。从业者尤其注意Sambrook等人，Molecular Cloning:A Laboratory Manual，第4版，Cold Spring Harbor Press,Plainsview,New York(2012)；以及Ausubel等人，CurrentProtocols in Molecular Biology(Supplement 114),John Wiley&Sons,New York(2016)中对本领域的定义和术语。本文所提供的定义不应解释为范围比本领域普通技术人员所理解的范围小。

当提到诸如量、时距等的可测量值时，如本文所用的“约”意在涵盖与指定值相差达±20％或±10％，更优选±5％，甚至更优选±1并且还更优选±0.1％的变化，因为此类变化适于执行所公开的方法。

如本文所用的“核苷酸序列”、“DNA序列”或“核酸分子”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。该术语仅指分子的一级结构。因此，该术语包括双链和单链DNA和RNA。如本文所用的术语“核酸”是单链或双链共价连接的核苷酸序列，其中每个核苷酸的3′和5′末端通过磷酸二酯键连接。多核苷酸可以由脱氧核糖核苷酸碱基或核糖核苷酸碱基组成。核酸可以体外合成制备或从天然来源分离。核酸还可包括经修饰的DNA或RNA，例如已经甲基化的DNA或RNA，或已进行翻译后修饰的RNA，所述翻译后修饰例如用7-甲基鸟苷进行5′-帽化，3′-加工(诸如裂解和聚腺苷酸化)和剪接。核酸还可包括合成核酸(XNA)，诸如己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、甘油核酸(GNA)、锁核酸(LNA)和肽核酸(PNA)。核酸(在本文中也称为“多核苷酸”)的大小通常表示为双链多核苷酸的碱基对(bp)的数量，或者在单链多核苷酸的情况下表示为核苷酸(nt)的数量。一千bp或nt等于一千碱基(kb)。长度小于约40个核苷酸的多核苷酸通常称为“寡核苷酸”，并且可包含用于DNA操纵(诸如通过聚合酶链反应(PCR))的引物。

如本文所用，“基因”包括基因的启动子区以及编码序列。它既指基因组序列(包括可能的内含子)，又指源自剪接信使的与启动子序列可操作地连接的cDNA。

“编码序列”是核苷酸序列，当置于适当调控序列的控制下时，该核苷酸序列转录成mRNA和/或翻译成多肽。编码序列的边界由5′-端的翻译起始密码子和3′-端的翻译终止密码子确定。编码序列可以包括但不限于mRNA、cDNA、重组核苷酸序列或基因组DNA，而在某些情况下也可以存在内含子。

在本公开的上下文中，术语“氨基酸”以其最广义的意义使用，并且意指包括含有胺(NH₂)和羧基(COOH)官能团以及每种氨基酸所特有的侧链(例如R基团)的有机化合物。在一些实施方案中，氨基酸是指天然存在的Lα-氨基酸或残基。本文使用天然存在的氨基酸的常用单字母和三字母缩写：A＝Ala；C＝Cys；D＝Asp；E＝Glu；F＝Phe；G＝Gly；H＝His；I＝Ile；K＝Lys；L＝Leu；M＝Met；N＝Asn；P＝Pro；Q＝Gln；R＝Arg；S＝Ser；T＝Thr；V＝Val；W＝Trp；和Y＝Tyr(Lehninger,A.L.,(1975)Biochemistry，第2版，第71-92页，WorthPublishers,New York)。通用术语“氨基酸”还包括D-氨基酸、逆-反氨基酸以及经化学修饰的氨基酸(诸如氨基酸类似物)，通常不并入蛋白质中的天然存在的氨基酸(诸如正亮氨酸)及具有本领域已知是氨基酸特征的性质的化学合成化合物(诸如β-氨基酸)。例如，在氨基酸的定义中包括苯丙氨酸或脯氨酸的类似物或模拟物，这些类似物或模拟物允许如同天然Phe或Pro一样对肽化合物进行相同的构象限制。此类类似物和模拟物在本文中称为相应氨基酸的“功能等效物”。Roberts和Vellaccio,The Peptides:Analysis,Synthesis,Biology,Gross和Meiehofer编辑，第5卷第341页，Academic Press,Inc.,N.Y.1983列出了氨基酸的其他实例，其通过引用并入本文。

术语“蛋白质”、“多肽”和“肽”在本文中进一步可互换使用，是指氨基酸残基的聚合物以及氨基酸残基的变体和合成类似物。因此，这些术语适用于其中一个或多个氨基酸残基是合成的非天然存在的氨基酸，诸如相应天然存在的氨基酸的化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。多肽还可经历成熟或翻译后修饰过程，这些过程可以包括但不限于：糖基化、蛋白水解裂解、脂化、信号肽裂解、前肽裂解、磷酸化等。“重组多肽”意指使用重组技术例如通过表达重组或合成多核苷酸制备的多肽。当重组生产嵌合多肽或其生物活性部分时，它也优选基本上不含培养基，例如，培养基占蛋白制剂体积的小于约20％，更优选小于约10％，最优选小于约5％。“分离的”意指基本上或实质上不含在其天然状态下通常伴随其的组分的材料。例如，如本文所用，“分离的多肽”是指已从在其天然状态下与所述多肽侧接的分子中纯化的多肽，例如已从生产宿主中与所述多肽相邻的分子中取出的蛋白质复合物或CsgF肽。分离的CsgF肽(任选地截短的CsgF肽)可以通过氨基酸化学合成来产生或者可以通过重组生产来产生。分离的复合物可以在纯化复合物的组分例如CsgG孔和CsgF肽之后通过体外重构来产生，或者可以通过重组共表达来产生。

“直系同源物”和“旁系同源物”涵盖用于描述基因祖先关系的进化概念。旁系同源物是同一物种内通过祖先基因的复制而起源的基因；直系同源物是来自不同生物体，通过物种形成而起源，并且也源自共同的祖先基因的基因。

蛋白质的“同源物”涵盖相对于所讨论的未修饰的或野生型蛋白质具有氨基酸取代、缺失和/或插入并且具有与它们所来源的未修饰的蛋白质相似的生物和功能活性的肽、寡肽、多肽、蛋白质和酶。如本文所用，术语“氨基酸同一性”是指在比较窗口中，在氨基酸-氨基酸的基础上，序列相同的程度。因此，通过以下方式计算“序列同一性百分比”：在比较窗口中比较两个最佳比对的序列，确定两个序列中出现相同氨基酸残基(例如，Ala、Pro、Ser、Thr、Gly、Val、Leu、Ile、Phe、Tyr、Trp、Lys、Arg、His、Asp、Glu、Asn、Gln、Cys和Met)的位置数量以得到匹配位置数量，将匹配位置数量除以比较窗口中的位置总数(即窗口大小)，并将结果乘以100得到序列同一性百分比。

术语“CsgG孔”定义包含多个CsgG单体的孔。每个CsgG单体可以是来自大肠杆菌的野生型单体(SEQ ID NO:3)，大肠杆菌CsgG的野生型同源物，例如具有SEQ ID NO:68至88所示氨基酸序列中的任一个的单体，或其任一个的变体(例如SEQ ID NO:3和68至88中任一个的变体)。变体CsgG单体也可以称为经修饰的CsgG单体或突变CsgG单体。变体中的修饰或突变包括但不限于本文公开的任何一种或多种修饰或所述修饰的组合。

对于本发明的所有方面和实施方案，CsgG同源物是指与SEQ ID NO:3所示的野生型大肠杆菌CsgG具有至少50％、60％、70％、80％、90％、95％或99％的完整序列同一性的多肽。CsgG同源物也指含有CsgG样蛋白所特有的PFAM结构域PF03783的多肽。可以在http:// pfam.xfam.org//family/PF03783中找到当前已知的CsgG同源物和CsgG体系结构的列表。同样，CsgG同源多核苷酸可以包含与SEQ ID NO:1所示的野生型大肠杆菌CsgG具有至少50％、60％、70％、80％、90％、95％或99％的完整序列同一性的多核苷酸。SEQ ID NO:3所示的CsgG同源物的实例具有SEQ ID NO:68至88所示的序列。

术语“经修饰的CsgF肽”或“CsgF肽”定义了已经从其C末端截短(例如，为N端片段)和/或经修饰为包括裂解位点的CsgF肽。CsgF肽可以是野生型大肠杆菌CsgF(SEQ ID NO:5或SEQ ID NO:6)的片段，或大肠杆菌CsgF的野生型同源物的片段，例如包含SEQ ID NO:17至36中所示的任一氨基酸序列的肽，或其任一个的变体(例如，经修饰为包括裂解位点的变体)。

对于本发明的所有方面和实施方案，CsgF同源物是指与SEQ ID NO:6所示的野生型大肠杆菌CsgF具有至少50％、60％、70％、80％、90％、95％或99％的完整序列同一性的多肽。在一些实施方案中，CsgG同源物也指含有CsgF样蛋白所特有的PFAM结构域PF10614的多肽。可以在http://pfam.xfam.org//family/PF10614中找到当前已知的CsgF同源物和CsgF体系结构的列表。同样，CsgF同源多核苷酸可以包含与SEQ ID NO:4所示的野生型大肠杆菌CsgG具有至少50％、60％、70％、80％、90％、95％或99％的完整序列同一性的多核苷酸。SEQID NO:6所示的CsgF同源物的截短区的实例具有SEQ ID NO:17至36所示的序列。

术语“CsgF成熟肽的N端部分”是指具有对应于从CsgF成熟肽的N端开始的前60、50或40个氨基酸残基的氨基酸序列的肽(无信号序列)。CsgF成熟肽可以是野生型或突变体(例如，具有一个或多个突变)。

序列同一性也可以是全长多核苷酸或多肽的片段或部分。因此，序列可与全长参考序列仅有50％的整体序列同一性，但是特定区、结构域或亚基的序列可与参考序列具有80％、90％或高达99％的序列同一性。CsgG同源物的SEQ ID NO:1或CsgF同源物的SEQ IDNO:4的核酸序列同源性不仅限于序列同一性。许多核酸序列尽管具有明显较低的序列同一性，但是仍可展示出彼此在生物学上显著的同源性。同源核酸序列被认为是将会在低严格条件下彼此杂交的序列(M.R.Green,J.Sambrook,2012,Molecular Cloning:A LaboratoryManual，第4版，Books 1-3,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,NY)。

术语“野生型”是指从天然存在的来源分离的基因或基因产物。野生型基因是在群体中最常观测到的基因，因此任意地设计为该基因的“正常”或“野生型”形式。相反，术语“经修饰的”、“突变”或“变体”是指与野生型基因或基因产物相比，显示出序列修饰(例如，取代、截短或插入)、翻译后修饰和/或功能性质(例如，特性改变)的基因或基因产物。注意，可以分离天然存在的突变体；这些突变体是通过与野生型基因或基因产物相比，它们具有改变的特征这一事实来鉴定的。引入或取代天然存在的氨基酸的方法是本领域众所周知的。例如，可以通过在编码突变单体的多核苷酸中的相关位置用精氨酸的密码子(CGT)置换蛋氨酸的密码子(ATG)，用精氨酸(R)取代蛋氨酸(M)。引入或取代非天然存在的氨基酸的方法也是本领域众所周知的。例如，可以通过在用于表达突变单体的IVTT系统中包括合成的氨酰基-tRNA来引入非天然存在的氨基酸。可替代地，可以通过在大肠杆菌中表达突变单体来引入非天然存在的氨基酸，大肠杆菌在那些特定氨基酸的合成(即非天然存在的)类似物的存在下对于特定氨基酸而言为营养缺陷型。如果突变单体是使用部分肽合成法产生的，则它们也可以通过裸连接产生。保守性取代将氨基酸置换为具有相似化学结构、相似化学性质或相似侧链体积的其他氨基酸。引入的氨基酸可以具有与它们所置换的氨基酸相似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可替代地，保守性取代可以引入另一种芳族或脂肪族氨基酸代替预先存在的芳族或脂肪族氨基酸。保守性氨基酸变化是本领域众所周知的，并且可以根据下表1中定义的20种主要氨基酸的性质进行选择。在氨基酸具有相似极性的情况下，这也可以参考表2中氨基酸侧链的亲水性量表来确定。

表1–氨基酸的化学性质

表2-亲水性量表

突变或经修饰的蛋白质、单体或肽也可以任何方式在任何位点进行化学修饰。突变或经修饰的单体或肽优选通过分子与一个或多个半胱氨酸的附接(半胱氨酸连接)，分子与一个或多个赖氨酸的附接，分子与一个或多个非天然氨基酸的附接，表位的酶修饰或末端的修饰来进行化学修饰。进行此类修饰的合适方法是本领域众所周知的。经修饰的蛋白质、单体或肽的突变体可以通过任何分子的附接进行化学修饰。例如，经修饰的蛋白质、单体或肽的突变体可以通过染料或荧光团的附接进行化学修饰。在一些实施方案中，用促进包含单体或肽的孔与靶核苷酸或靶多核苷酸序列之间的相互作用的分子衔接子化学修饰突变或经修饰的单体或肽。分子衔接子优选为环状分子、环糊精、能够杂交的物质、DNA结合剂或嵌入剂、肽或肽类似物、合成聚合物、芳族平面分子、带正电荷的小分子或能够氢键键合的小分子。

衔接子的存在改善了孔和核苷酸或多核苷酸序列的主-客体化学，从而改善了由突变单体形成的孔的测序能力。主-客体化学的原理是本领域众所周知的。衔接子对孔的物理或化学性质有影响，这种影响改善了孔与核苷酸或多核苷酸序列的相互作用。衔接子可以改变孔的桶或通道的电荷，或与核苷酸或多核苷酸序列特异性相互作用或结合，从而促进其与孔的相互作用。因此，如本公开中所提供的经修饰的CsgF肽可以与酶或蛋白质偶联，从而提供所述蛋白质或酶与孔更好的接近性，这可以促进包含经修饰的CsgF肽的孔复合物的某些应用。

关于这点，蛋白质也可以是融合蛋白，尤其是指例如通过重组DNA技术产生的遗传融合物。如本文所用，蛋白质也可以缀合或“缀合至......”，尤其是指产生稳定的共价连接的化学和/或酶促缀合。

当几个多肽或蛋白质单体相互结合或相互作用时，蛋白质可以形成蛋白质复合物。“结合”意指任何直接或间接的相互作用。直接相互作用暗指结合伴侣之间的接触，例如通过共价连接或偶联进行的接触。间接相互作用意指在两种以上化合物的复合物中相互作用伴侣借此相互作用的任何相互作用。相互作用可以是完全间接的，借助于一个或多个桥接分子，或者是部分间接的，其中在伴侣之间仍然存在直接接触，这种直接接触通过一种或多种化合物的附加相互作用而得以稳定。如本公开中所提到的“复合物”定义为一组两个或更多个缔合的蛋白质，这些蛋白质可以具有不同的功能。蛋白质复合物的不同多肽之间的缔合可能是通过非共价相互作用，例如疏水或离子作用力，或者可能是共价结合或偶联，诸如二硫桥或肽键。共价“结合”或“偶联”在本文中可互换使用，并且还可涉及“半胱氨酸偶联”或“反应性或光反应性氨基酸偶联”，分别指半胱氨酸之间或(光)反应性氨基酸之间的生物缀合，这种生物缀合是形成稳定复合物的化学共价连接。光反应性氨基酸的实例包括叠氮高丙氨酸、高炔丙基甘氨酸、高烯丙基甘氨酸、对乙酰基-Phe、对叠氮基-Phe，对-炔丙基氧基-Phe和对苯甲酰基-Phe(Wang等人，2012，在Protein Engineering中，DOI:10.5772/28719；Chin等人，2002,Proc.Nat.Acad.Sci.USA 99(17)；11020-24)。

“生物孔”是跨膜蛋白结构，其限定了允许分子和离子从膜的一侧易位到另一侧的通道或孔。离子物质通过孔的易位可以由施加到孔任一侧的电位差驱动。“纳米孔”是一种生物孔，其中分子或离子所通过的通道的最小直径为纳米级(10^-9米)。在一些实施方案中，生物孔可以是跨膜蛋白孔。生物孔的跨膜蛋白结构本质上可以是单体或寡聚体。通常，孔包含多个围绕中心轴排列的多肽亚基，从而形成基本上垂直于纳米孔所驻留的膜延伸的蛋白内衬通道。多肽亚基的数量没有限制。通常，亚基的数量为5至30，合适地亚基的数量为6至10。可替代地，亚基的数量不像在产气荚膜梭菌溶素(perfringolysin)或相关大膜孔的情况下那样定义。纳米孔内形成蛋白内衬通道的蛋白亚基部分通常包含可包括一个或多个跨膜β-桶和/或α-螺旋部分的二级结构基序。

如本文可互换使用的，术语“孔”、“孔复合物”或“复合物孔”是指寡聚物孔，其中例如至少CsgG单体(包括例如一个或多个CsgG单体，诸如两个或更多个CsgG单体、三个或更多个CsgG单体)或CsgG孔(由CsgG单体组成)和CsgF肽(例如，经修饰或截短的CsgF肽)缔合成复合物，并一起形成孔或纳米孔。本公开的孔复合物具有生物孔的特征，即它具有典型的跨膜蛋白结构。当在具有膜组分、膜、细胞或绝缘层的环境中提供孔复合物时，孔复合物将插入膜或绝缘层中，形成“跨膜孔复合物”。

本公开的孔复合物或跨膜孔复合物适于分析物表征。在一些实施方案中，本文所述的孔复合物或跨膜复合物可用于例如对多核苷酸序列进行测序，因为它可以高度灵敏地区别不同的核苷酸。本公开的孔复合物可以是基本上分离、纯化或基本上纯化的分离的孔复合物。如果本公开的孔复合物完全不含任何其他组分诸如脂质或其他孔，或通常在其天然状态下与其缔合的其他蛋白质例如CsgE、CsgA CsgB，或者如果从膜隔室中充分富集，则本公开的孔复合物是“分离的”或纯化的。如果将孔复合物与不会干扰其预期用途的载体或稀释剂混合，则是基本上分离的。例如，如果孔复合物以包含少于10％、少于5％、少于2％或少于1％的其他组分诸如三嵌段共聚物、脂质或其他孔的形式存在，则是基本上分离的或基本上纯化的。可替代地，当存在于膜中时，本发明的孔复合物可以是跨膜孔复合物。本公开提供了包含均聚-寡聚物孔的分离的孔复合物，所述均聚-寡聚物孔源自包含相同突变单体的CsgG，CsgG也可以含有CsgG单体的突变形式作为其同源物。可替代地，提供了包含杂-寡聚CsgG孔的分离的孔复合物，所述杂-寡聚CsgG孔可以是由突变和野生型CsgG单体或不同形式的CsgG变体、突变体或同源物组成的CsgG孔。分离的孔复合物通常包含至少7个、至少8个、至少9个或至少10个CsgG单体和1个或多个(经修饰的)CsgF肽，诸如2、3、4、5、6、7、8、9、10个CsgF肽。孔复合物可以包含任何比率的CsG单体:CsgF肽。在一个实施方案中，CsG单体:CsgF肽的比率为1:1。

如本文可互换使用的“收缩段”、“孔口”、“收缩区”、“通道收缩段”或“收缩位点”是指由孔或孔复合物的内腔表面限定的孔眼，其作用是允许离子和靶分子(例如但不限于多核苷酸或单个核苷酸)通过孔复合物通道，但其他非靶分子则不通过。在一些实施方案中，收缩段是孔或孔复合物中最窄的孔眼。在该实施方案中，收缩段可用于限制分子通过该孔。收缩段的大小通常是决定纳米孔对核酸测序应用的适用性的关键因素。如果收缩段太小，则待测序的分子将无法通过。然而，为了对流经通道的离子流产生最大影响，收缩段不应太大。例如，收缩段不应宽于靶分析物的溶剂可及横向直径。理想地，任何收缩段的直径都应尽可能接近于通过的分析物的横向直径。对于核酸和核酸碱基的测序，合适的收缩段直径在纳米范围(10^-9米范围)内。适当地，直径应在0.5至2.0nm的区内，通常，直径在0.7至1.2nm的区内。野生型大肠杆菌CsgG中收缩段的直径为大约(0.9nm)。在包含CsgG样孔和经修饰的CsgF肽或其同源物或突变体的孔复合物中形成的CsgF收缩段的直径在0.5至2nm的范围内或0.7至1.2nm的范围内，因此适于核酸测序。

当存在两个或更多个收缩段并将其间隔开时，每个收缩段可同时相互作用或“读取”核酸链内的单独核苷酸。在这种情况下，流过通道的离子流减少将是所有含核苷酸的收缩段中对流动的组合限制的结果。因此，在一些情况下，双收缩段可能导致复合电流信号。在某些情况下，当存在两个此类读取头时，可能无法单独确定一个收缩段或“读取头”的电流读数。野生型大肠杆菌CsgG(SEQ ID NO:3)的收缩段由两个相邻蛋白质单体中位置51处的酪氨酸残基(Tyr 51)以及分别位置56和55处的苯丙氨酸和天冬酰胺残基(Phe 56和Asn55)并置形成的两个环形圆圈组成(图1)。在大多数情况下，通过重组遗传技术对CsgG的野生型孔结构进行工程改造，以扩大、改变或去除构成CsgG收缩段的两个环形圆圈中的一个(在本文中称为“CsgG通道收缩段”)，留下单个定义明确的读取头。CsgG寡聚物孔中的收缩基序位于SEQ ID NO:3所描绘的野生型单体大肠杆菌CsgG多肽中位置38至63处的氨基酸残基处。在考虑该区时，证实在野生型CsgG结构的通道内氨基酸残基位置50至53、54至56和58至59中任一处的突变，以及Tyr51、Asn55和Phe56侧链的定位关键对于更改或改变读取头的特征是有利的。本公开涉及包含CsgG孔和经修饰的CsgF肽或其同源物或突变体的孔复合物，令人惊讶地向含CsgG的孔复合物添加了另一收缩段(在本文中称为“CsgF通道收缩段”)，通过与经修饰的CsgF肽形成复合物，在孔中形成了合适的附加第二读取头。所述附加CsgF通道收缩段或读取头邻近于CsgG孔或突变GcsG孔的收缩环定位。所述附加CsgF通道收缩段或读取头距CsgG孔或突变GcsG孔的收缩环大约10nm或更小，诸如5nm或更小，诸如1、2、3、4、5、6、7、8、9nm定位。本公开的孔复合物或跨膜孔复合物包括具有两个读取头的孔复合物，意味着通道收缩段以提供合适的单独读取头的方式定位，而不会干扰其他收缩通道读取头的准确性。因此所述孔复合物可以包括CsgG突变孔(参见并入的参考文献WO2016/034591、WO2017/149316、WO2017/149317、WO2017/149318和国际专利申请号PCT/GB2018/051191，每个考文献都列出了野生型CsgG孔的改善该孔性质的突变)以及野生型CsgG孔或其同源物，连同经修饰的CsgF肽或其同源物或突变体，其中所述CsgF肽具有形成读取头的另一收缩通道。

孔

本发明涉及与胞外定位的CsgF肽复合的CsgG孔，该CsgF肽令人惊讶地在孔复合物中引入了附加通道收缩段或读取头。而且，本公开提供了由CsgF肽形成的收缩段在孔复合物内的位置信息，该肽插入CsgG孔的内腔中，并且收缩位点在CsgF蛋白的N-端部分中。此外，证实本公开的经修饰或截短的CsgF肽足以形成孔复合物，并提供了用于生物感测应用的手段和方法。本公开包含与经修饰或截短的CsgF肽及其突变体或同源物组合的野生型和突变CsgG孔(如在例如WO2016/034591、WO2017/149316、WO2017/149317、WO2017/149318及其国际专利申请号PCT/GB2018/051191中公开的)，或其同源物或突变体，这些全部一起提高了CsgG样孔复合物与分析物(诸如多核苷酸)相互作用的能力。通过与(经修饰或截短的)CsgF肽形成复合物而在CsgG样纳米孔通道中引入的附加收缩段扩大了与通过的分析物的接触表面，并且可以充当第二读取头用于分析物检测和表征。包含与新颖CsgF突变形式或修饰形式组合的突变CsgG单体的孔可以改善分析物(诸如多核苷酸)的表征，从而在多核苷酸移动通过该孔时观测到的电流之间提供更具区别性的直接关系。具体而言，通过使两个堆叠的读取头以限定的距离间隔开，CsgG:CsgF孔复合物可以促进多核苷酸的表征，所述多核苷酸含至少一个均聚物延伸段，例如相同核苷酸的几个连续拷贝，其超过单个CsgG读取头的相互作用长度。另外，通过使两个堆叠的收缩段以限定的距离间隔开，通过CsgG:CsgF复合孔的小分子分析物(包括有机或无机药物以及污染物)将连续通过两个独立的读取头。任一读取头的化学特性都可以独立修改，各自提供与分析物的独特相互作用性质，从而在分析物检测期间提供了附加区别能力。

在第一方面，本发明涉及分离的孔复合物，该复合物包含CsgG孔或其同源物或突变体，或CsgG样孔，和经修饰的CsgF肽或其同源物或突变体。事实上，本公开涉及经修饰的CsgG生物孔，该生物孔包含经修饰的CsgF肽(可以是截短的)，其突变体和/或变体。在一个实施方案中，所述经修饰的CsgF肽或其同源物或突变体之间的相互作用区位于CsgG孔或其同源物或突变体的内腔中。在另一个实施方案中，孔复合物具有两个或更多个收缩位点或读取头，所述收缩位点或读取头由CsgG孔的至少一个收缩段和由CsgF肽引入的至少一个收缩段提供，从而与CsgG孔形成复合物。经证实N端CsgF位置，包括在SEQ ID NO:5的氨基酸残基39-64的范围内，或更具体地在SEQ ID NO:5的氨基酸残基49-64的范围内的位置，允许可检测量的稳定CsgG:CsgF复合物。在一个实施方案中，由经修饰的CsgF肽(例如，本文所述的CsgF肽)产生的CsgF收缩段在孔复合物的CsgG孔中与第一收缩段相邻或头对头。对于CsgG或CsgG样蛋白孔，已确定收缩位点是由β链的环区形成的(参见图1)。

在一个实施方案中，经修饰的CsgF肽是这样的肽，其中所述修饰尤其是指截短的CsgF蛋白或片段，包括通过限制限定为包含收缩区并结合CsgG单体或其同源物或突变体的N端CsgF肽片段。所述经修饰的CsgF肽可以另外包含可以促进孔复合物的某些性质的突变或同源序列。在一个特定实施方案中，与野生型前蛋白(SEQ ID NO:5)或成熟蛋白(SEQ IDNO:6)序列或其同源物相比，经修饰的CsgF肽包含CsgF蛋白截短。这些经修饰的肽旨在用作孔复合物组分，在由CsgG和经修饰或截短的CsgF肽形成的CsgG样孔内引入附加收缩位点或读取头。下面描述了截短的经修饰的肽的实例。

经修饰的CsgF肽的同源物的实例例如在实施例3中进行了确定，并且揭示了不同细菌菌株中包含同源或相似收缩区的CsgF样蛋白或CsgF肽，其在相似孔复合物的使用中有用。源自各种CsgF同源物的CsgF肽中的结构性质和CsgG结合元件是保守的，使得CsgF肽可以与不同的野生型或突变CsgG孔组合使用。这包括CsgG孔与非同源CsgF的复合物，这意味着CsgG孔和CsgF源自其中的亲本CsgF同源SEQ物不需要来源于相同操纵子、细菌物种或菌株。

在替代实施方案中，孔复合物中的CsgG孔不是野生型孔，而是还包含突变或修饰以增加孔的性质。由CsgG孔或其同源物和经修饰的CsgF肽或其同源物形成的本公开的分离的孔复合物，可以由CsgG孔的野生型形式形成，或者可以在CsgG孔中进行进一步修饰，例如通过特定氨基酸残基的定向诱变，以进一步增强CsgG孔在孔复合物中使用所需的性质。例如，在本发明的实施方案中，考虑到了突变以改变通道内收缩段的数量、大小、形状、放置或取向。包含经修饰的突变CsgG孔的孔复合物可以通过已知的基因工程技术制备，所述技术在多肽序列中引起特定靶氨基酸残基的插入、取代和/或缺失。在寡聚CsgG孔的情况下，可以在每个单体多肽亚基，或任何一个单体或所有单体中产生突变。适当地，在本发明的一个实施方案中，对寡聚蛋白结构内的所有单体多肽产生所述突变。突变CsgG单体是其序列与野生型CsgG单体的序列不同并且保持形成孔的能力的单体。确认突变单体形成孔的能力的方法是本领域众所周知的。本公开包含与经修饰或截短的CsgF肽及其突变体或同源物组合的野生型和突变CsgG孔(例如，如在WO2016/034591、WO2017/149316、WO2017/149317、WO2017/149318及其国际专利申请号PCT/GB2018/051191中公开的)，或其同源物，这些全部一起提高了CsgG样孔复合物与分析物(诸如多核苷酸)相互作用的能力。突变CsgG孔可以包含一个或多个突变单体。CsgG孔可以是包含相同单体的均聚物，或是包含两个或更多个不同单体的SEQ杂聚物。单体可以具有下述任意组合的一种或多种突变。

包含经修饰的CsgF肽的纳米孔复合物与SEQ ID NO:6中描绘的野生型CsgF蛋白相比有所不同，因为在某些实施方案中，经修饰的CsgF肽仅包含野生型CsgF蛋白的N-端片段或截短体。然而，从产生突变如氨基酸取代以允许由包含CsgG孔和经修饰的CsgF肽的复合物形成的孔中有更好的第二收缩位点的意义上说，经修饰的CsgF肽可以另外或可替代地为突变CsgF肽。当所述复合物用于核苷酸测序时，突变单体同样可能具有改善的多核苷酸读取性质，即，除了复合物包含两个读取头的改善特征之外，还显示出改善的多核苷酸捕获和核苷酸区别。具体而言，由突变肽构建的孔比野生型更容易捕获核苷酸和多核苷酸。另外，由突变肽构建的孔可显示出增加的电流范围，这使得更容易区别不同的核苷酸，并且显示出减少的状态变化，这增加了信噪比。另外，当多核苷酸移动通过由突变体构建的孔时对电流有贡献的核苷酸的数量可以减少。这使得更容易鉴定当多核苷酸移动通过该孔时观测到的电流与多核苷酸序列之间的直接关系。另外，由突变肽构建的孔可以显示出增加的通过量，例如更有可能与分析物诸如多核苷酸相互作用。这使得更容易使用孔来表征分析物。由突变肽构建的孔可以更容易地插入膜中，或者可以提供更容易的方式将其他蛋白质保持在孔复合物的附近。

在一个替代实施方案中，本发明的孔复合物中提供的CsgF收缩位点的直径在0.5nm至2.0nm的范围内，从而如上所述提供了适于核酸测序的孔复合物。

孔可以通过CsgF肽与CsgG孔的共价附接而得以稳定。共价连接可以例如是二硫键或点击化学。CsgF肽和CsgG孔可以例如经由分别与SEQ ID NO:6和SEQ ID NO:3的以下一对或多对位置相对应的位置处的残基而共价连接：1和153、4和133、5和136、8和187、8和203、9和203、11和142、11和201、12和149、12和203、26和191，以及29和144。

在孔中，CsgF肽和CsgG孔之间的相互作用可以例如经由分别与SEQ ID NO:6和SEQID NO:3的以下一对或多对位置相对应的位置处的疏水相互作用或静电相互作用而稳定：1和153、4和133、5和136、8和187、8和203、9和203、11和142、11和201、12和149、12和203、26和191，以及29和144。

可以修饰CsgF和/或CsgG中在以上列出的一个或多个位置的残基，以便增强孔中CsgG和CsgF之间的相互作用。

在一个实施方案中，本发明的孔可以是分离的，基本上分离的，纯化的或基本上纯化的。如果本发明的孔完全不含任何其他组分，诸如脂质或其他孔，则孔是分离或纯化的。如果将孔与不会干扰其预期用途的载体或稀释剂混合，则是基本上分离的。例如，如果孔以包含少于10％、少于5％、少于2％或少于1％的其他组分诸如三嵌段共聚物、脂质或其他孔的形式存在，则是基本上分离的或基本上纯化的。可替代地，本发明的孔可以存在于膜中。下面讨论合适的膜。

本发明的孔可以作为单独或单个孔存在。可替代地，本发明的孔可以存在于两个或更多个孔的同源或异源群体中。

CsgF肽

本发明的第二方面涉及新颖的经修饰的CsgF单体(肽)，或截短的CsgF蛋白，或CsgF同源物或突变体的经修饰或截短的肽。那些新颖的经修饰的CsgF肽可用于孔复合物中以整合第二或附加读取头。所述修饰或截短优选产生野生型CsgF或突变或同源CsgF蛋白的片段，更优选N-端片段。

成熟CsgF(如SEQ ID NO:6所示)可分为三个主要区：“CsgF收缩肽”(FCP)、“颈部”区和“头部”区(如图4和5所示)。CsgF肽的“头部”区不同于本文所述的孔的读取头。CsgF肽的“头部”区也可以称为“C-端头部结构域”。

FCP与CsgGβ-桶形成接触区，在此处产生附加收缩段。颈部区从β-桶中突出。在CsgG:CsgF寡聚物中，它形成了将FCP连接到球形头部区的薄壁空心管。

基于多序列比对(图8)，共纯化实验(图9)和在分辨率下CsgG:CsgF复合物的cryoEM重建(图11)，CsgF收缩肽、颈部和头部区可定义为成熟CsgF中的三个连续残基延伸段。

FCP大致跨越成熟CsgF(SEQ ID NO:6)的残基1至35。当比较不同的CsgF直系同源物时，FCP形成蛋白质最保守的区(图8、图10)。CryoEM 3D重建显示FCP形成了定义明确的结构，该结构通过与CsgG跨膜发夹TM1(Seq ID NO:3的残基134至154)和TM2(Seq ID NO:3的残基184至208)之间的非共价接触而结合在CsgGβ-桶的内部(图1E；图11)(TM1和TM2在Goyal P等人，2014中有定义)。在重建过程中，FCP的九个拷贝结合CsgG寡聚物(包含9个单体)，并一起在CsgG收缩段上方大约2nm处产生附加收缩段，CsgG收缩段由跨越成熟CsgG的残基46至61的连续环形成(Seq ID NO:3；图1E；图11)。

cryoEM 3D重建还显示CsgF N端残基结合在CsgGβ-桶的底部或顶部附近(这取决于方向)，并在残基32处离开β-桶。这与显示了CsgG:CsgF结合界面中残基对的平均接触时间的MD模拟良好吻合(表4)。cryoEM结构和MD模拟显示，残基33-34位于CsgGβ-桶的外部，其中非常(尽管不是严格地)保守的Pro残基(Seq ID NO:6中的Pro 35)过渡到CsgF颈部区。在CsgG:CsgF 3D重建中，未在原子细节上分辨出CsgF颈部，指出其构象灵活性。基于多序列比对和二级结构预测，预计CsgF颈部从残基36大致跨越到残基50(SEQ ID NO:6)。CsgF头部区形成CsgF的C端部分，并且预测大致从残基51跨越到CsgF C端。在CsgG:CsgF复合物中，该区寡聚产生球形结构，球形结构似乎将CsgG:CsgF通道帽化(图4、图5)。CsgF直系同源物的多序列比对显示CsgF颈部是保守性最低的区，表明它的长度可因直系同源物而异(图8)。

形成本发明一部分的CsgF肽是缺少C端头部；缺少CsgF的C端头部和一部分颈部结构域(例如，截短的CsgF肽可以仅包含CsgF的一部分颈部结构域)；或缺少CsgF的C端头部和颈部结构域的截短的CsgF肽。CsgF肽可缺少CsgF颈部结构域的一部分，例如CsgF肽可包含一部分颈部结构域，例如从颈部结构域N末端的氨基酸残基36开始(参见SEQ ID:NO:6)(例如SEQ ID:NO:6的残基36-40、36-41、36-42、36-43、36-45、36-46直到残基36-50或36-60)。CsgF肽优选包含CsgG结合区和在孔中形成收缩段的区。CsgG结合区通常包含CsgF蛋白(SEQID NO:6或来自另一物种的同源物)的残基1至8和/或29至32，并且可以包括一个或多个修饰。在孔中形成收缩段的区通常包含CsgF蛋白(SEQ ID NO:6或另一物种的同源物)的残基9至28，并且可以包括一个或多个修饰。残基9至17包含保守性基序N₉PXFGGXXX₁₇并且形成转向区。残基9至28形成α-螺旋。X₁₇(SEQ ID NO:6中的N17)形成收缩区的顶点，与孔中CsgF收缩段最窄的部分相对应。CsgF收缩区还主要在SEQ ID NO:6的残基9、11、12、18、21和22处与CsgGβ-桶产生稳定接触。

CsgF肽通常长度为28至50个氨基酸，诸如29至49、30至45或32至40个氨基酸。优选地，CsgF肽包含29至35个氨基酸或29至45个氨基酸。CsgF肽包含整个或部分FCP，与SEQ IDNO:6的残基1至35相对应。在CsgF肽比FCP短的情况下，优选在C-末端进行截短。

SEQ ID NO:6或其同源物或突变体的CsgF片段长度可以为24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54或55个氨基酸。

CsgF肽可包含SEQ ID NO:6的氨基酸序列，从SEQ ID NO:6的残基1到残基25至60，诸如27至50，例如28至45中的任一个，或来自SEQ ID NO:6的同源物的相应残基，或其中任一者的变体。更具体地，CsgF肽可包含SEQ ID NO:39(SEQ ID NO:6的残基1至29)，或其同源物或变体。

此类CsgF肽的实例包含以下序列，基本上由以下序列组成或由以下序列组成：SEQIDNO:15(SEQ ID NO:6的残基1至34)、SEQ ID NO:54(SEQ ID NO:6的残基1至30)、SEQ IDNO:40(SEQ ID NO:6的残基1至45)或SEQ ID NO:55(SEQ ID NO:6的残基1至35)及其任一个的同源物或变体。CsgF肽的其他实例包含以下序列，基本上由以下序列组成或由以下序列组成：SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:16。

在CsgF肽中，例如SEQ ID NO:15、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:54或SEQ ID NO:55中的一个或多个残基可以是修饰的。

例如，CsgF肽可以在与SEQ ID NO:6中的以下一个或多个位置相对应的位置处包含修饰：G1、T4、F5、R8、N9、N11、F12、A26和Q29。

可以修饰CsgF肽以例如在与SEQ ID NO:6中的以下一个或多个位置相对应的位置处引入半胱氨酸、疏水性氨基酸、带电荷的氨基酸、非天然反应性氨基酸或光反应性氨基酸：G1、T4、F5、R8、N9、N11、F12、A26和Q29。

例如，CsgF肽可以在与SEQ ID NO:6中的以下一个或多个位置相对应的位置处包含修饰：N15、N17、A20、N24和A28。CsgF肽可以在与D34相对应的位置处包含修饰以稳定CsgG-CsgF复合物。在特定实施方案中，CsgF肽包含以下取代中的一个或多个：N15S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C、N17S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C、A20S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C、N24S/T/Q/A/G/L/V/I/F/Y/W/R/K/D/C、A28S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C和D34F/Y/W/R/K/N/Q/C。CsgF肽可以例如包含以下取代中的一个或多个：G1C、T4C、N17S和D34Y或D34N。

可以通过用酶裂解较长的蛋白质，诸如全长CsgF来产生CsgF肽。可以通过修饰较长的蛋白质(诸如全长CsgF)以在适当位置包括酶裂解位点来指导特定位点的裂解。在SEQID NO:56至67中示出了已经修饰为包括此类酶裂解位点的CsgF氨基酸序列的实例。裂解后，整个或部分添加的酶裂解位点可存在于与CsgG缔合形成孔的CsgF肽中。因此，CsgF肽还可以在其C末端包含酶裂解位点的全部或部分。

下表3中示出了合适的CsgF肽的一些实例：

表3：CsgF肽

在特定实施方案中，所述CsgF片段包含氨基酸序列SEQ ID NO:39，或其突变体或同源物。具体而言，SEQ ID NO:39包含成熟CsgF肽(SEQ ID NO:6)的前29个氨基酸。在另一个实施方案中，本发明的经修饰的CsgF肽是包含SEQ ID NO:40的截短肽。具体而言，SEQ IDNO:40包含成熟CsgF肽(SEQ ID NO:6)的前45个氨基酸。具体而言，CsgF收缩位点和与CsgG的结合位点位于N-端CsgF肽区内，进一步特征在于SEQ ID NO:5的氨基酸39至64(存在于SEQ ID NO:39和SEQ ID NO:40中)，或尤其是SEQ ID NO:5的氨基酸49至64(存在于SEQ IDNO:40中，但不存在于SEQ ID NO:39中，由SEQ ID NO:39编码的后一个片段显示出与CsgG的相互作用较弱(参见实施例))，赋予了复合物更高的稳定性。因此，本公开提供了通过将蛋白质截短成所述肽或包含所述N端片段或收缩位点区的肽来对CsgF蛋白进行修饰以允许与CsgG孔或其同源物或突变体在体内形成复合物。在一个实施方案中提供了关于包含SEQ IDNO:37或SEQ ID NO:38的经修饰的CsgF肽的进一步限制。最后，鉴定CsgF同源肽，特别是在收缩区内对齐的CsgF同源肽(FCP肽)，还提供了可以形成所述分离的复合物的一部分的经修饰的CsgF肽同源物(例如，参见图8和图10)。

另一个实施方案涉及包含SEQ ID NO:15的经修饰或截短的CsgF肽，其中所述SEQID NO:15含有CsgF蛋白的区，该区包括来自CsgG结合和/或收缩位点的区的，足以体外重构包含CsgG或其同源物和经修饰的CsgF肽的复合物孔的几个残基，以产生包含CsgF通道收缩段的分离的孔复合物。另一个实施方案描述了包含SEQ ID NO:16的所述经修饰的CsgF肽，其含有CsgF蛋白的N-端片段和两个附加氨基酸(KD)，附加氨基酸将会增加(合成)肽的溶解性和稳定性，也允许体外重构所述复合物孔。提供了其他实施方案，其中所述经修饰的CsgF肽包含SEQ ID NO:15、SEQ ID NO:16或其同源物或突变体，其中所述经修饰的CsgF肽进一步突变，但在经修饰的CsgF肽对应于所述SEQ ID NO:15或16的区内仍然分别保持与SEQ.ID.NO:15或SEQ ID NO:16最低35％的氨基酸同一性，例如40％、50％、60％、70％、80％、85％、90％的氨基酸同一性。提供了其他实施方案，其中所述经修饰的CsgF肽包含SEQID NO:15、SEQ ID NO:16或其同源物或突变体，其中所述经修饰的CsgF肽进一步突变，但在经修饰的CsgF肽对应于所述SEQ ID NO:15或16的区内仍然分别保持与SEQ.ID.NO:15或SEQID NO:16最低40％、45％、50％、60％、70％、80％、85％或90％的氨基酸同一性。如以上所讨论的，那些突变区旨在改变和/或改善CsgF收缩位点的特征，因此例如可以获得更准确的靶标分析。另一个实施方案公开了经修饰的CsgF肽，其中包含SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:54或SEQ ID NO:55的区中的一个或多个位置被修饰，并且其中所述突变在与包含SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:54或SEQ ID NO:55的区相对应的肽片段中保持与SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:54或SEQ ID NO:55最低35％的氨基酸同一性，或40％、50％、60％、70％、80％、85％、90％、95％的氨基酸同一性。

因此，本发明的其他实施方案涉及分离的孔复合物，其包含CsgG孔或其同源物或突变体，以及经修饰的CsgF肽，或其同源物或突变体，其中所述经修饰的CsgF肽的定义如本发明的第二方面所述。

另外的实施方案涉及一种分离的孔复合物，其中所述CsgG孔至少经由一个单体与经修饰的CsgF肽通过共价结合而偶联。在一种情况下，所述共价连接或结合可以通过半胱氨酸连接来实现，其中半胱氨酸的巯基侧基与另一氨基酸残基或部分共价连接。在第二种可能性中，通过非天然(光)反应性氨基酸之间的相互作用获得共价连接。(光)反应性氨基酸是指天然氨基酸的人工类似物，其可以用于蛋白质复合物的交联，并且可以在体内或体外并入蛋白质和肽中。常用的光反应性氨基酸类似物是亮氨酸和蛋氨酸的光反应性双吖丙啶类似物，和对苯甲酰基-苯基-丙氨酸，以及叠氮高丙氨酸、高炔丙基甘氨酸、高烯丙基甘氨酸、对乙酰基-Phe、对叠氮基-Phe、对炔丙基氧基-Phe和对苯甲酰基-Phe(Wang等人，2012；Chin等人，2002)。暴露于紫外线后，它们被活化并与光反应性氨基酸类似物几埃范围内的相互作用蛋白共价结合。然而，CsgG单体中可以发生所述共价连接的位置取决于对经修饰的CsgF肽的暴露。如图1所示，几个氨基酸处于提供共价连接的位置，即SEQ ID NO:3或其同源物的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209。

本发明的另一方面涉及包含所述经修饰的CsgF肽的构建体，其中所述肽共价附接。“构建体”包含源自经修饰的CsgF和/或CsgG或其同源物的两个或更多个共价附接的单体。换句话说，构建体可以含有不止一个单体。在另一方面，本发明还提供了包含本发明的至少一种构建体的孔复合物。孔复合物含有足够的构建体，并且如有必要，还含有单体以形成所述孔。例如，八聚体孔可以包含(a)四个各含两个单体的构建体，(b)两个各含四个单体的构建体，(c)一个含两个单体的构建体和六个不形成构建体的一部分的单体，或(d)一个构建体中的一个或两个CsgF单体，以及一个具有六至七个CsgG单体的构建体，或甚至(e)除了另一仅含CsgG单体的构建体之外，还包含具有CsgF和CsgG单体的构建体。例如，对于九聚体孔提供了相同的和其他的可能性。技术人员可以设想构建体和单体的其他组合。本发明的一种或多种构建体可以用于形成用于对多核苷酸进行表征(诸如测序)的孔复合物。构建体可以包含至少2个，至少3个，至少4个，至少5个，至少6个，至少7个，至少8个，至少9个或至少10个单体。构建体优选包含两个单体。所述两个或更多个单体可以相同或不同，可以是CsgF、CsgG、CsgG/CsgF融合单体或其同源物，或其任何组合。

另一个实施方案涉及编码本发明的所述经修饰的CsgF肽或其同源物或突变体的多核苷酸或核酸分子，或编码如上所述的构建体的多核苷酸。

某些实施方案涉及一种分离的跨膜孔复合物，其包含根据本发明的第一和第二方面的分离的孔复合物，以及膜的组分。所述分离的跨膜孔复合物可直接适用于分子感测，诸如核酸测序。可替代地，提供了一种膜组合物，其包含如本文根据本发明的分离的孔复合物描述的经修饰的CsgG/CsgF生物孔，以及膜、膜组分或绝缘层。一个实施方案涉及一种分离的跨膜孔复合物，其由根据本发明的分离的孔复合物和膜的组分组成。

尽管CsgG:CsgF复合物非常稳定，但是当CsgF被截短时，与包含全长CsgF的复合物相比，CsgG:CsgF复合物的稳定性降低。因此，可以在CsgG和CsgF之间产生二硫键以使复合物更稳定，例如在本文鉴定的位置引入半胱氨酸残基之后。可以在先前提到的任何方法中制备孔复合物，并且可以通过使用氧化剂(例如：铜-邻二氮杂菲)来诱导二硫键的形成。也可以在那些位置中使用其他相互作用(例如：疏水相互作用、电荷-电荷相互作用/静电相互作用)来代替半胱氨酸相互作用。

在另一个实施方案中，非天然氨基酸也可以并入那些位置。在该实施方案中，可以通过点击化学形成共价键。例如，可以在这些位置中的一处或多处引入具有叠氮化物或炔或具有二苯并环辛炔(DBCO)基团和/或双环[6.1.0]壬炔(BCN)基团的非天然氨基酸。

此类稳定性突变可以与对CsgG和/或CsgF的任何其他修饰，例如本文公开的修饰组合。

CsgG孔可包含至少一个，例如2、3、4、5、6、7、8、9或10个CsgG单体，所述单体经修饰以促进与CsgF肽的附接。例如，可以在与SEQ ID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207和209相对应的一个或多个位置，和/或在表4中鉴定为预计会与CsgF接触的任何一个位置引入半胱氨酸残基，以促进与CsgG的共价附接。作为通过半胱氨酸残基共价附接的替代或补充，可以通过疏水相互作用或静电相互作用来稳定所述孔。为了促进此类相互作用，在与SEQ ID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207和209中的一个或多个相对应的位置，和/或在表4中鉴定为预计会与CsgF接触的任何一个位置引入非天然反应性或光反应性氨基酸。

可以修饰CsgF肽以促进与CsgG孔的附接。例如，可以在与SEQ ID NO:6的位置1、4、5、8、9、11、12、26或29相对应的一个或多个位置，和/或在表4中鉴定为预计会与CsgF接触的任何一个位置引入半胱氨酸残基，以促进与CsgG的共价附接。作为通过半胱氨酸残基共价附接的替代或补充，可以通过疏水相互作用或静电相互作用来稳定所述孔。为了促进此类相互作用，在与SEQ ID NO:6的位置1、4、5、8、9、11、12、26或29中的一个或多个相对应的位置，和/或在表4中鉴定为预计会与CsgF接触的任何一个位置引入非天然反应性或光反应性氨基酸。

优选的示例性CsgF肽包括相对于SEQ ID NO:6的以下突变：N15X₁/N17X₂/A20X₃/N24X₄/A28X₅/D34X₆，其中X₁为N/S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C，X₂为N/S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C，X₃为A/S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C，X₄为N/S/T/Q/A/G/L/V/I/F/Y/W/R/K/D/C，X₅为A/S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C且X₅为D/F/Y/W/R/K/N/Q/C。位置N15、N17、A20、N24和A28处的突变是收缩突变，并且位置34处的突变影响CsgF与CsgG孔底部的相互作用，以稳定该相互作用。

CsgG孔

CsgG孔可以是包含本发明的相同突变单体的均聚-寡聚物孔。CsgG孔可以是源自CsgG的杂-寡聚物孔，例如包含至少一个如本文所公开的突变单体。

CsgG孔可以含有任何数量的突变单体。该孔通常包含至少7个、至少8个、至少9个或至少10个相同的突变单体，诸如7、8、9或10个突变单体。CsgG孔优选包含八个或九个相同的突变单体。

在一个优选实施方案中，杂-寡聚CsgG孔中的所有单体(诸如其中10、9、8或7个单体)是如本文所公开的突变单体，其中它们中的至少一个彼此不同。它们可全部彼此不同。

CsgG孔中的突变单体优选全部为大致相同的长度或为相同的长度。在孔中的本发明的突变单体的桶优选为大致相同的长度或相同的长度。长度可以按氨基酸的数量和/或长度单位来测量。

突变单体可以是SEQ ID NO:3的变体。在SEQ ID NO:3的氨基酸序列的整个长度上，基于氨基酸同一性，变体将优选与该序列至少50％同源。更优选地，在整个序列上基于氨基酸同一性，变体可以与SEQ ID NO:3的氨基酸序列至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％且更优选地至少95％、97％或99％同源。在100个或更多个(例如125、150、175或200个或更多个)连续氨基酸的延伸段上，可存在至少80％，例如至少85％、90％或95％的氨基酸同一性(“硬同源性”)。

CsgG单体是高度保守的(正如从WO2017/149317的图45至图47可以容易地认识到的那样)。此外，从与SEQ ID NO:3有关的突变的认识，可以确定除SEQ ID NO:3之外的CsgG单体突变的等效位置。

因此，提到包含如SEQ ID NO:3所示序列的变体及其如权利要求书和说明书中其他地方阐述的特定氨基酸突变的突变CsgG单体也涵盖了包含SEQ ID NO:68至88所示序列的变体及其相应氨基酸突变的突变CsgG单体。同样提到与包含如SEQ ID NO:3所示序列的变体及其如权利要求书和说明书中其他地方阐述的特定氨基酸突变的突变CsgG单体有关的构建体、孔或涉及使用孔的方法也涵盖与包含根据以上公开的SEQ ID NO的序列的变体及其相应氨基酸突变的突变CsgG单体的构建体、孔或方法。应当进一步认识到，本发明扩展到说明书中未明确鉴定的显示处高度保守性区的其他变体CsgG单体。

可以使用本领域的标准方法测定同源性。例如，UWGCG软件包提供了BESTFIT程序，该程序可用于计算同源性，例如以其默认设置使用(Devereux等人(1984)Nucleic AcidsResearch12，第387-395页)。PILEUP和BLAST算法可用于计算同源性或校正序列(诸如鉴定等效残基或相应序列(通常在其默认设置下))，例如Altschul S.F.(1993)J Mol Evol36:290-300；Altschul,S.F等人(1990)J Mol Biol 215:403-10所述。可通过国家生物技术信息中心(http://www.ncbi.nlm.nih.gov/)公开获得用于进行BLAST分析的软件。

SEQ ID NO:3是来自大肠杆菌K-12亚株MC4100的野生型CsgG单体。SEQ ID NO:3的变体可以包含另一CsgG同源物中存在的任何取代。SEQ ID NO:68至88中示出了优选的CsgG同源物。与SEQ ID NO:3相比，变体可包含SEQ ID NO:68至88中存在的一种或多种取代的组合。例如，可以在SEQ ID NO:3中的任何一个或多个位置产生突变，所述位置在SEQ ID NO:3与SEQ ID NO:68至88中的任何一个之间不同。此类突变可以是用来自SEQ ID NO:68至88中任一个的相应位置的氨基酸取代SEQ ID NO:3中的氨基酸。可替代地，在这些位置的任何一处的突变可以是用任何氨基酸取代，或者可以是缺失或插入突变，诸如1至10个氨基酸，诸如2至8个或3至6个氨基酸的缺失或插入。除了本文公开的突变以外，在SEQ ID NO:3与所有SEQ ID NO:66至88之间保守的氨基酸优选存在于本发明的变体中。然而，可以在SEQ IDNO:3和所有SEQ ID NO:66至88之间保守的这些位置中的任何一处或多处进行保守性突变。

本发明提供了成孔的CsgG突变单体，其在CsgG单体结构中与SEQ ID NO:3中的特定位置相对应的位置处包含本文所述的被取代到SEQ ID NO:3的特定位置中的任何一个或多个氨基酸。相应的位置可以通过本领域的标准技术确定。例如，上面提到的PILEUP和BLAST算法可用于将CsgG单体的序列与SEQ ID NO:3进行比对，从而鉴定相应的残基。

成孔的突变单体通常保持形成与野生型CsgG单体相同的3D结构，诸如与具有SEQID NO:3的序列的CsgG单体相同的3D结构的能力。CsgG的3D结构是本领域已知的，并且例如在Goyal等人(2014)Nature 516(7530):250-3中公开。除了本文所述的突变以外，可以在野生型CsgG序列中产生任何数量的突变，条件是CsgG突变单体保持本发明的突变所赋予它的改善性质。

通常，CsgG单体将保持形成包括三个α-螺旋和五个β-折叠的结构的能力。可以至少在第一α螺旋N端的CsgG区中(从SEQ ID NO:3中的S63开始)，在第二α螺旋中(从SEQ IDNO:3的G85到A99)，在第二α螺旋和第一β折叠之间的环中(从SEQ ID NO:3的Q100到N120)，在第四和第五β折叠中(分别为SEQ ID NO:3的S173到R192和R198到T107)以及在第四和第五β折叠之间的环中(SEQ ID NO:3的F193至Q197)产生突变，而不影响CsgG单体形成跨膜孔的能力，该跨膜孔能够使多肽易位。因此，设想可以在任何CsgG单体的任何这些区中产生其他突变，而不影响单体形成可以使多核苷酸易位的孔的能力。还预期可以在其他区，诸如在任何α螺旋(SEQ ID NO:3的S63至R76、G85至A99或V211至L236)或在任何β折叠(SEQ ID NO:3的I121至N133、K135至R142、I146至R162、S173至R192或R198至T107)中产生突变，而不影响单体形成可以使多核苷酸易位的孔的能力。还预期可以在连接α螺旋和β折叠的任何环区中和/或在CsgG单体的N-端和/或C-端区中产生一个或多个氨基酸的缺失，而不影响单体形成可以使多核苷酸易位的孔的能力。

除了以上讨论的那些氨基酸取代之外，还可以对SEQ ID NO:3的氨基酸序列进行氨基酸取代，例如多达1、2、3、4、5、10、20或30个取代。保守性取代将氨基酸置换为具有相似化学结构、相似化学性质或相似侧链体积的其他氨基酸。引入的氨基酸可以具有与它们所置换的氨基酸相似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可替代地，保守性取代可以引入另一种芳族或脂肪族氨基酸代替预先存在的芳族或脂肪族氨基酸。保守性氨基酸变化是本领域众所周知的，并且可以根据上面表1中定义的20种主要氨基酸的性质进行选择。在氨基酸具有相似极性的情况下，这也可以参考表2中氨基酸侧链的亲水性量表来确定。

可另外使SEQ ID NO:3的氨基酸序列的一个或多个氨基酸残基从上述多肽中缺失。可以缺失多达1、2、3、4、5、10、20或30个或更多个残基。

变体可以包括SEQ ID NO:3的片段。此类片段保持了成孔活性。片段的长度可为至少50个、至少100个、至少150个、至少200个或至少250个氨基酸。此类片段可用于产生孔。片段优选包含SEQ ID NO:3的跨膜结构域，即K135-Q153和S183-S208。

可替代地或另外可以向上述多肽添加一个或多个氨基酸。可以在SEQ ID NO:3的氨基酸序列或其多肽变体或片段的氨基端或羧基端提供延伸。延伸可以很短，例如长度为1至10个氨基酸。可替代地，延伸可以较长，例如多达50或100个氨基酸。可以将载体蛋白融合至根据本发明的氨基酸序列。下面更详细地讨论了其他融合蛋白。

如本文所述的CsgG孔包括野生型CsgG孔，或其同源物或突变体/变体。变体是具有的氨基酸序列不同于SEQ ID NO:3的氨基酸序列，并且保持其形成孔的能力的多肽。变体通常含有SEQ ID NO:3中负责形成孔的区。含有β-桶的CsgG的成孔能力由每个亚基中的β-折叠提供。SEQ ID NO:3的变体通常包含SEQ ID NO:3中形成-折叠的区，即K134-Q154和S183-S208。可以对SEQ ID NO:3中形成β-折叠的区进行一个或多个修饰，只要所得变体保持其形成孔的能力即可。SEQ ID NO:3的变体优选在其α-螺旋和/或环区内包含一个或多个修饰，诸如取代、添加或缺失。

突变CsgG单体可以这样的突变CsgG单体，其是序列与野生型CsgG单体的序列不同并且保持形成孔的能力的单体。突变单体在本文中也可以称为变体。确认突变单体形成孔的能力的方法是本领域众所周知的，并且在下面进行了更详细的讨论。

在CsgG孔中可以包括的特定成孔CsgG突变单体可以包含以下一种或多种修饰：

-在与SEQ ID NO:3中的R97相对应的位置处为W；

-在与SEQ ID NO:3中的R93相对应的位置处为W；

-在与SEQ ID NO:3中的R97相对应的位置处为Y；

-在与SEQ ID NO:3中的R93相对应的位置处为Y；

-在与SEQ ID NO:3中R93和R97相对应的每个位置处为Y；

-在与SEQ ID NO:3中的R192相对应的位置处为D；

-在与SEQ ID NO:3中的V105-I107相对应的位置处的残基缺失；

-在与SEQ ID NO:3中的F193至L199相对应的一个或多个位置处的残基缺失；

-在与SEQ ID NO:3中的F195至L199相对应的位置处的残基缺失；

-在与SEQ ID NO:3中的F193至L199相对应的位置处的残基缺失；

-在与SEQ ID NO:3中的F191相对应的位置处为T；

-在与SEQ ID NO:3中的K49相对应的位置处为Q；

-在与SEQ ID NO:3中的K49相对应的位置处为N；

-在与SEQ ID NO:3中的K42相对应的位置处为Q；

-在与SEQ ID NO:3中的E44相对应的位置处为Q；

-在与SEQ ID NO:3中的E44相对应的位置处为N；

-在与SEQ ID NO:3中的L90相对应的位置处为R；

-在与SEQ ID NO:3中的L91相对应的位置处为R；

-在与SEQ ID NO:3中的I95相对应的位置处为R；

-在与SEQ ID NO:3中的A99相对应的位置处为R；

-在与SEQ ID NO:3中的E101相对应的位置处为H；

-在与SEQ ID NO:3中的E101相对应的位置处为K；

-在与SEQ ID NO:3中的E101相对应的位置处为N；

-在与SEQ ID NO:3中的E101相对应的位置处为Q；

-在与SEQ ID NO:3中的E101相对应的位置处为T；

-在与SEQ ID NO:3中的Q114相对应的位置处为K。

CsgG成孔单体优选进一步在与SEQ ID NO:3中的Y51相对应的位置处包含A和/或在与SEQ ID NO:3中的F56相对应的位置处包含Q。

在对靶多核苷酸进行表征(或测序)时，与在97处无修饰的其他方面相同的孔相比，由在与SEQ ID NO:3的位置97相对应的位置处具有R至W取代的CsgG单体构建的孔显示出提高的准确性。当CsgG单体在与SEQ ID NO:3的位置97相对应的位置处包含R至W的修饰，或在与SEQ ID NO:3的位置93和97相对应的位置处包含R至Y的修饰而不是R97W时，也看到提高的准确性。因此，孔可以由一个或多个突变CsgG单体构建，所述突变CsgG单体在与SEQID NO:3的R97或R93相对应的位置处包含修饰，使得该修饰增加了氨基酸的疏水性。例如，此类修饰可以包括用含有疏水性侧链的任何氨基酸(包括但不限于W和Y)进行氨基酸取代。

在与SEQ ID NO:3的位置192相对应的位置处包含R至D、Q、F、S或T的突变的CsgG单体比在位置192处没有取代的单体更易于表达，这可能是由于正电荷减少。因此，位置192可以用减少正电荷的氨基酸取代。包含R192D/Q/F/S/T的单体也可以包含其他修饰，这些修饰改善由所述单体形成的突变孔与分析物诸如多核苷酸相互作用并对其进行表征的能力。然而，在一个实施方案中，优选在与SEQ ID NO:3的位置193相对应的位置处的残基为R或K，更优选为R。

包含含有V105、A106和I107的缺失，F193、I194、D195、Y196、Q197、R198和L199的缺失或D195、Y196、Q197、R198和L199的缺失和/或F191T的CsgG单体的孔，在对靶多核苷酸进行表征(或测序)时显示出提高的准确性。位置105至107处的氨基酸对应于纳米孔帽中的顺式环，而位置193至199处的氨基酸对应于孔另一端的反式环。不希望受理论束缚，认为顺式环的缺失改善了酶与孔的相互作用，而反式环的去除减少了孔的反面上DNA之间的任何不良相互作用。

包含在对应于SEQ ID NO:3的K94的位置处包含K到Q或K到N的突变的CsgG单体的孔，与在94处无突变的相同孔相比，在对靶多核苷酸进行表征(或测序)时显示出噪声孔(即那些导致信噪比增加的孔)的数量减少。在孔的前庭内发现位置94，并且发现该位置相对于电流信号的噪声是特别敏感的位置。

包含含有T104K或T104R、N91R、E101K/N/Q/T/H、E44N/Q、Q114K、A99R、I95R、N91R、L90R、E44Q/N和/或Q42K或相应突变的CsgG单体的孔与在这些位置没有取代的相同孔相比，当用于对靶多核苷酸进行表征(或测序)时，全部展示出捕获靶多核苷酸的能力提高。

在一个实施方案中，CsgG孔包含一个或多个是SEQ ID NO:3的变体的单体，所述变体包含(a)在以下位置的一个或多个突变(即在以下一个或多个位置的突变)I41、R93、A98、Q100、G103、T104、A106、I107、N108、L113、S115、T117、Y130、K135、E170、S208、D233、D238和E244和/或(b)D43S、E44S、F48S/N/Q/Y/W/I/V/H/R/K、Q87N/R/K、N91K/R、K94R/F/Y/W/L/S/N、R97F/Y/W/V/I/K/S/Q/H、E101I/L/A/H、N102K/Q/L/I/V/S/H、R110F/G/N、Q114R/K、R142Q/S、T150Y/A/V/L/S/Q/N、R192D/Q/F/S/T和D248S/N/Q/K/R中的一个或多个。变体可以包含(a)；(b)；或(a)和(b)。在一些实施方案中，变体包含R97W。在一些实施方案中，变体包含R192D/Q/F/S/T，诸如R192D/Q。在(a)中，变体可以在任意数量的位置和位置组合处，诸如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或19个位置处包含修饰。

在(a)中，变体优选包含I41N、R93F/Y/W/L/I/V/N/Q/S、A98K/R、Q100K/R、G103F/W/S/N/K/R、T104R/K、A106R/K、I107R/K/W/F/Y/L/V、N108R/K、L113K/R、S115R/K、T117R/K、Y130W/F/H/Q/N、K135L/V/N/Q/S、E170S/N/Q/K/R、S208V/I/F/W/Y/L/T、D233S/N/Q/K/R、D238S/N/Q/K/R和E244S/N/Q/K/R中的一个或多个。

在(a)中，变体优选包含一个或多个修饰，所述修饰提供靶多核苷酸相对于(诸如通过)包含单体的跨膜孔的更一致的运动。具体而言，在(a)中，变体优选包含在以下位置的一个或多个突变(即，在以下一个或多个位置的突变)：R93，G103和I107。变体可以包含R93；G103；I107；R93和G103；R93和I107；G103和I107；或R93、G103和I107。变体优选包含R93F/Y/W/L/I/V/N/Q/S、G103F/W/S/N/K/R和I107R/K/W/F/Y/L/V中的一个或多个。这些可以以对于位置R93、G103和I107所示的任何组合存在。

在(a)中，变体优选包含一个或多个修饰，所述修饰允许由突变单体构建的孔优选更容易地捕获核苷酸和多核苷酸。具体而言，在(a)中，变体优选包含在以下位置的一个或多个突变(即，在以下一个或多个位置的突变)：I41、T104、A106、N108、L113、S115、T117、E170、D233、D238和E244。变体可以在任意数量的位置和位置组合处，诸如1、2、3、4、5、6、7、8、9、10或11个位置处包含修饰。变体优选包含I41N、T104R/K、A106R/K、N108R/K、L113K/R、S115R/K、T117R/K、E170S/N/Q/K/R、D233S/N/Q/K/R、D238S/N/Q/K/R和E244S/N/Q/K/R中的一个或多个。另外或可替代地，变体可以包含(c)Q42K/R、E44N/Q、L90R/K、N91R/K、I95R/K、A99R/K、E101H/K/N/Q/T和/或Q114K/R。

在(a)中，变体优选包含一个或多个修饰，所述修饰提供更一致的运动并增加捕获。具体而言，在(a)中，变体优选包含在以下位置的一个或多个突变(即，在以下一个或多个位置的突变)：(i)A98，(ii)Q100，(iii)G103和(iv)I107。变体优选包含以下的一种或多种：(i)A98R/K，(ii)Q100K/R，(iii)G103K/R和(iv)I107R/K。

增加对分析物诸如多核苷酸的捕获的特别优选的突变单体包括在位置Q42、E44、E44、L90、N91、I95、A99、E101和Q114中的一处或多处的突变，所述突变去除了突变位置的负电荷并/或增加了突变位置的正电荷。具体而言，在本发明的突变单体中可以包括以下突变，以产生捕获分析物(优选多核苷酸)的能力改善的CsgG孔：Q42K、E44N、E44Q、L90R、N91R、I95R、A99R、E101H、E101K、E101N、E101Q、E101T和Q114K。包含这些突变之一与其他有益突变的组合的特定突变单体的实例为：

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-Q42K

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E44N

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E44Q

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-L90R

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-N91R

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-I95R

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-A99R

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E101H

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E101K

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E101N

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E101Q

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-E101T

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)-Q114K。

在(a)中，变体优选包含一个或多个提供增加的表征准确性的修饰。具体而言，在(a)中，变体优选包含在以下位置的一个或多个突变(即，在以下一个或多个位置的突变)：Y130、K135和S208，诸如Y130；K135；S208；Y130和K135；Y130和S208；K135和S208；或Y130、K135和S208。变体优选包含Y130W/F/H/Q/N、K135L/V/N/Q/S和R142Q/S中的一个或多个。这些取代可以以如同针对Y130、K135和S208阐述的任何数量和组合存在。

在(b)中，变体可以包含任意数量和组合的取代，诸如1、2、3、4、5、6、7、8、9、10、11或12个取代。在(b)中，变体优选包含一个或多个修饰，所述修饰提供靶多核苷酸相对于(诸如通过)包含单体的跨膜孔的更一致的运动。具体而言，在(b)中，变体优选包含以下的一种或多种：(i)Q87N/R/K，(ii)K94R/F/Y/W/L/S/N，(iii)R97F/Y/W/V/I/K/S/Q/H，(iv)N102K/Q/L/I/V/S/H和(v)R110F/G/N。更优选地，变体包含K94D或K94Q和/或R97W或R97Y。经修饰以提供靶多核苷酸相对于(例如通过)包含单体的跨膜孔更一致的运动的其他优选变体包括(vi)R93W和R93Y。优选的变体可以包含R93W和R97W，R93Y和R97W，R93W和R97W，或更优选地R93Y和R97Y。

在(b)中，变体优选包含一个或多个修饰，所述修饰允许由突变单体构建的孔优选更容易地捕获核苷酸和多核苷酸。具体而言，在(b)中，变体优选包含以下的一种或多种：(i)D43S，(ii)E44S，(iii)N91K/R，(iv)Q114R/K和(v)D248S/N/Q/K/R。

在(b)中，变体优选地包括一个或更多个修改，其提供更一致的运动并增加捕获。具体而言，在(b)中，变体优选包含以下的一种或多种：Q87R/K、E101I/L/A/H和N102K，诸如Q87R/K；E101I/L/A/H；N102K；Q87R/K和E101I/L/A/H；Q87R/K和N102K；E101I/L/A/H和N102K；或Q87R/K、E101I/L/A/H和N102K。

在(b)中，变体优选包含一个或多个提供增加的表征准确性的修饰。具体而言，在(a)中，变体优选包含F48S/N/Q/Y/W/I/V。

在(b)中，变体优选包含一个或多个修饰，所述修饰提供增加的表征准确性和增加的捕获。具体而言，在(a)中，变体优选包含F48H/R/K。

变体可以包含(a)和(b)中提供更一致的运动的修饰。变体可以包含(a)和(b)中提供增加的捕获的修饰。

本发明提供了SEQ ID NO:3的变体，使用包含该变体的孔为用于表征分析物诸如多核苷酸的测定提供了增加的通过量。此类变体可以包含在K94处的突变，优选K94Q或K94N，更优选K94Q。包含K94Q或K94N突变与其他有益突变的组合的特定突变单体的实例为：

CsgG-(WT-Y51A/F56Q/R97W/R192D-StrepII)9-K94N

CsgG-(WT-Y51A/F56Q/R97W/R192D-StrepII)9-K94Q。

使用为SEQ ID NO:3变体的单体形成CsgG孔可以在用于表征分析物诸如多核苷酸的测定中提供提高的表征准确性。此类变体包括包含以下的变体：F191处的突变，优选F191T；V105-I107的缺失；F193-L199或D195-L199的缺失；和/或R93和/或R97处的突变，优选R93Y、R97Y，或更优选R97W、R93W或R97Y和R97Y两者。包含这些突变中的一种或多种与其他有益突变的组合的特定突变单体的实例为：

CsgG-(WT-Y51A/F56Q/R97W/R192D-StrepII)9-del(D195-L199)

CsgG-(WT-Y51A/F56Q/R97W/R192D-StrepII)9-del(F193-L199)

CsgG-(WT-Y51A/F56Q/R97W/R192D-StrepII)9-F191T

CsgG-(WT-Y51A/F56Q/R97W/R192D-del(V105-I107)-StrepII)9

CsgG-(WT-Y51A/F56Q/K94Q/R97W/R192D-del(V105-I107)

CsgG-(WT-Y51A/F56Q/R192D-StrepII)9-R93W

CsgG-(WT-Y51A/F56Q/R192D-StrepII)9-R93W-del(D195-L199)

CsgG-(WT-Y51A/F56Q/R192D-StrepII)9-R93Y/R97Y。

在另一个实施方案中，SEQ ID NO:3的变体包含(A)一个或多个位置R192、F193、I194、D195、Y196、Q197、R198、L199、L200和E201的缺失和/或(B)V139/G140/D149/T150/V186/Q187/V204/G205(本文称为条带1)、G137/G138/Q151/Y152/Y184/E185/Y206/T207(本文称为条带2)和A141/R142/G147/A148/A188/G189/G202/E203(本文称为条带3)中的一个或多个的缺失。

在(A)中，变体可以包含任意数量的位置和位置组合，诸如1、2、3、4、5、6、7、8、9或10个位置的缺失。在(A)中，变体优选包含以下缺失：

-D195、Y196、Q197、R198和L199；

-R192、F193、I194、D195、Y196、Q197、R198、L199和L200；

-Q197、R198、L199和L200；

-I194、D195、Y196、Q197、R198和L199；

-D195、Y196、Q197、R198、L199和L200；

-Y196、Q197、R198、L199、L200和E201；

-Q197、R198、L199、L200和E201；

-Q197、R198、L199；或

-F193、I194、D195、Y196、Q197、R198和L199。

更优选地，变体包含D195、Y196、Q197、R198和L199或F193、I194、D195、Y196、Q197、R198和L199的缺失。在(B)中，任意数量的条带1至3及其组合可以缺失，例如条带1；条带2；条带3；条带1和2；条带1和3；条带2和3；或条带1、2和3。变体可以包含根据(A)；(B)；或(A)和(B)的缺失。

包含根据上面(A)和/或(B)的一个或多个位置的缺失的变体还可包含上面和下面讨论的任何修饰或取代。如果在SEQ ID NO:3中的缺失位置之后出现的一个或多个位置进行修饰或取代，则必须相应地调整修饰或取代的一个或多个位置的编号。例如，如果L199缺失，则E244变为E243。类似地，如果条带1缺失，则R192变为R186。

在另一个实施方案中，SEQ ID NO:3的变体包含(C)一个或多个位置V105、A106和I107的缺失。除了根据(A)和/或(B)的缺失之外，还可以产生根据(C)的缺失。

上述缺失通常降低会与靶多核苷酸相对于(例如通过)包含单体的跨膜孔的运动相关的噪声。因此，可以更准确地表征靶多核苷酸。

在上面用/符号将特定位置的不同氨基酸隔开的段落中，/符号意指“或”。例如，Q87R/K意指Q87R或Q87K。

增加对分析物诸如多核苷酸的捕获的SEQ ID NO:3变体可包含在T104处的突变，优选T104R或T104K；在N91处的突变，优选N91R的突变；在E101处的突变，优选E101K/N/Q/T/H；在位置E44处的突变，优选E44N或E44Q，和/或在位置Q42处的突变，优选Q42K。

SEQ ID NO:3中不同位置的突变可以任何可能的方式组合。具体而言，CsgG孔中的单体可以包含一个或多个提高准确性的突变，一个或多个降低噪声的突变和/或一个或多个增强分析物捕获的突变。

SEQ ID NO:3的变体优选包含以下的一种或多种：(i)在以下位置的一个或多个突变(即在以下一个或多个位置的突变)：N40、D43、E44、S54、S57、Q62、R97、E101、E124、E131、R142、T150和R192，诸如在以下位置的一个或多个突变(即在以下一个或多个位置的突变)：N40、D43、E44、S54、S57、Q62、E101、E131和T150或N40、D43、E44、E101和E131；(ii)在51/N55、Y51/F56、N55/F56或Y51/N55/F56处的突变；(iii)Q42R或Q42K；(iv)K49R；(v)N102R、N102F、N102Y或N102W；(vi)D149N、D149Q或D149R；(vii)E185N、E185Q或E185R；(viii)D195N、D195Q或D195R；(ix)E201N、E201Q或E201R；(x)E203N、E203Q或E203R；和(xi)以下一个或多个位置的缺失：F48、K49、P50、Y51、P52、A53、S54、N55、F56和S57。变体可以包含(i)至(xi)的任何组合。

如果变体包含(i)和(iii)至(xi)中的任一种，则其还可以包含在Y51、N55和F56中的一处或多处，诸如在Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56处的突变。

在(i)中，变体可以包含N40、D43、E44、S54、S57、Q62、R97、E101、E124、E131、R142、T150和R192中任意数量和组合的突变。在(i)中，变体优选包含在以下位置的一个或多个突变(即，在以下一个或多个位置的突变)：N40、D43、E44、S54、S57、Q62、E101、E131和T150。在(i)中，变体优选包含在以下位置的一个或多个突变(即，在以下一个或多个位置的突变)：N40、D43、E44、E101和E131。在(i)中，变体优选包含在S54和/或S57处的突变。在(i)中，变体更优选包含以下位置的突变：(a)S54和/或S57及(b)Y51、N55和F56中的一处或多处，诸如Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56。如果在(xi)中S54和/或S57缺失，则在(i)中无法对它/它们进行突变，反之亦然。在(i)中，变体优选包含在T150处的突变，诸如T150I。可替代地，变体优选包含以下位置的突变：(a)T150及(b)Y51、N55和F56中的一处或多处，诸如Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56。在(i)中，变体优选包含在Q62处的突变，诸如Q62R或Q62K。可替代地，变体优选包含以下位置的突变：(a)Q62及(b)Y51、N55和F56中的一处或多处，诸如Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56。变体可以包含在D43、E44、Q62或其任何组合，诸如D43、E44、Q62、D43/E44、D43/Q62、E44/Q62或D43/E44/Q62处的突变。可替代地，变体优选包含以下位置的突变：(a)D43、E44、Q62、D43/E44、D43/Q62、E44/Q62或D43/E44/Q62及(b)Y51、N55和F56中的一处或多处，诸如Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56。

在用/符号将不同位置隔开的(ii)和本申请的其他地方，/符号意指“和”，使得Y51/N55为Y51和N55。在(ii)中，变体优选包含在Y51/N55处的突变。已经有人提出CsgG中的收缩段是由三个由残基Y51、N55和F56的侧链形成的堆叠同心圆圈组成的(Goyal等人，2014,Nature,516,250-253)。因此，(ii)中这些残基的突变可以减少当多核苷酸移动通过孔时对电流有贡献的核苷酸的数量，从而使得更容易鉴定观测到的电流(当多核苷酸移动通过孔时)与多核苷酸之间的直接关系。F56可以以下面参考可用于本发明方法中的变体和孔所讨论的任何方式突变。

在(v)中，变体可以包含N102R、N102F、N102Y或N102W。变体优选包含(a)N102R、N102F、N102Y或N102W和(b)在Y51、N55和F56中的一处或多处，诸如在Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56处的突变。

在(xi)中，K49、P50、Y51、P52、A53、S54、N55、F56和S57的任何数量和组合可以缺失。优选地，K49、P50、Y51、P52、A53、S54、N55和S57中的一个或多个可以缺失。如果在(xi)中Y51、N55和F56缺失，则在(ii)中无法对它/它们进行突变，反之亦然。

在(i)中，变体优选包含以下的一种或多种取代：N40R、N40K、D43N、D43Q、D43R、D43K、E44N、E44Q、E44R、E44K、S54P、S57P、Q62R、Q62K、R97N、R97G、R97L、E101N、E101Q、E101R、E101K、E101F、E101Y、E101W、E124N、E124Q、E124R、E124K、E124F、E124Y、E124W、E131D、R142E、R142N、T150I、R192E和R192N，诸如N40R、N40K、D43N、D43Q、D43R、D43K、E44N、E44Q、E44R、E44K、S54P、S57P、Q62R、Q62K、E101N、E101Q、E101R、E101K、E101F、E101Y、E101W、E131D和T150I中的一种或多种，或N40R、N40K、D43N、D43Q、D43R、D43K、E44N、E44Q、E44R、E44K、E101N、E101Q、E101R、E101K、E101F、E101Y、E101W和E131D中的一种或多种。变体可以包含任意数量的这些取代及其组合。在(i)中，变体优选包含S54P和/或S57P。在(i)中，变体优选包含(a)S54P和/或S57P及(b)在Y51、N55和F56中的一处或多处，诸如在Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56处的突变。Y51、N55和F56中的一处或多处的突变可以是下面讨论的任何突变。在(i)中，变体优选包含F56A/S57P或S54P/F56A。变体优选包含T150I。可替代地，变体优选包含以下位置的突变：(a)T150I及(b)Y51、N55和F56中的一处或多处，诸如Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56。

在(i)中，变体优选包含Q62R或Q62K。可替代地，变体优选包含(a)Q62R或Q62K及(b)在Y51、N55和F56中的一处或多处，诸如在Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56处的突变。变体可以包含D43N、E44N、Q62R或Q62K或其任何组合，诸如D43N、E44N、Q62R、Q62K、D43N/E44N、D43N/Q62R、D43N/Q62K、E44N/Q62R、E44N/Q62K、D43N/E44N/Q62R或D43N/E44N/Q62K。可替代地，变体优选包含(a)D43N、E44N、Q62R、Q62K、D43N/E44N、D43N/Q62R、D43N/Q62K、E44N/Q62R、E44N/Q62K、D43N/E44N/Q62R或D43N/E44N/Q62K及(b)在Y51、N55和F56中的一处或多处，诸如在Y51、N55、F56、Y51/N55、Y51/F56、N55/F56或Y51/N55/F56处的突变。

在(i)中，变体优选包含D43N。

在(i)中，变体优选包含E101R、E101S、E101F或E101N。

在(i)中，变体优选包含E124N、E124Q、E124R、E124K、E124F、E124Y、E124W或E124D，诸如E124N。

在(i)中，变体优选包含R142E和R142N。

在(i)中，变体优选包含R97N、R97G或R97L。

在(i)中，变体优选包含R192E和R192N。

在(ii)中，变体优选包含F56N/N55Q、F56N/N55R、F56N/N55K、F56N/N55S、F56N/N55G、F56N/N55A、F56N/N55T、F56Q/N55Q、F56Q/N55R、F56Q/N55K、F56Q/N55S、F56Q/N55G、F56Q/N55A、F56Q/N55T、F56R/N55Q、F56R/N55R、F56R/N55K、F56R/N55S、F56R/N55G、F56R/N55A、F56R/N55T、F56S/N55Q、F56S/N55R、F56S/N55K、F56S/N55S、F56S/N55G、F56S/N55A、F56S/N55T、F56G/N55Q、F56G/N55R、F56G/N55K、F56G/N55S、F56G/N55G、F56G/N55A、F56G/N55T、F56A/N55Q、F56A/N55R、F56A/N55K、F56A/N55S、F56A/N55G、F56A/N55A、F56A/N55T、F56K/N55Q、F56K/N55R,F56K/N55K、F56K/N55S、F56K/N55G、F56K/N55A、F56K/N55T、F56N/Y51L、F56N/Y51V、F56N/Y51A、F56N/Y51N、F56N/Y51Q、F56N/Y51S、F56N/Y51G、F56Q/Y51L、F56Q/Y51V、F56Q/Y51A、F56Q/Y51N、F56Q/Y51Q、F56Q/Y51S、F56Q/Y51G、F56R/Y51L、F56R/Y51V、F56R/Y51A、F56R/Y51N、F56R/Y51Q、F56R/Y51S、F56R/Y51G、F56S/Y51L、F56S/Y51V、F56S/Y51A、F56S/Y51N、F56S/Y51Q、F56S/Y51S、F56S/Y51G、F56G/Y51L、F56G/Y51V、F56G/Y51A、F56G/Y51N、F56G/Y51Q、F56G/Y51S、F56G/Y51G、F56A/Y51L、F56A/Y51V、F56A/Y51A、F56A/Y51N、F56A/Y51Q、F56A/Y51S、F56A/Y51G、F56K/Y51L、F56K/Y51V、F56K/Y51A、F56K/Y51N、F56K/Y51Q、F56K/Y51S、F56K/Y51G、N55Q/Y51L、N55Q/Y51V、N55Q/Y51A、N55Q/Y51N、N55Q/Y51Q、N55Q/Y51S、N55Q/Y51G、N55R/Y51L、N55R/Y51V、N55R/Y51A、N55R/Y51N、N55R/Y51Q、N55R/Y51S、N55R/Y51G、N55K/Y51L、N55K/Y51V、N55K/Y51A、N55K/Y51N、N55K/Y51Q、N55K/Y51S、N55K/Y51G、N55S/Y51L、N55S/Y51V、N55S/Y51A、N55S/Y51N、N55S/Y51Q、N55S/Y51S、N55S/Y51G、N55G/Y51L、N55G/Y51V、N55G/Y51A、N55G/Y51N、N55G/Y51Q、N55G/Y51S、N55G/Y51G、N55A/Y51L、N55A/Y51V、N55A/Y51A、N55A/Y51N、N55A/Y51Q、N55A/Y51S、N55A/Y51G、N55T/Y51L、N55T/Y51V、N55T/Y51A、N55T/Y51N、N55T/Y51Q、N55T/Y51S、N55T/Y51G、F56N/N55Q/Y51L、F56N/N55Q/Y51V、F56N/N55Q/Y51A、F56N/N55Q/Y51N、F56N/N55Q/Y51Q、F56N/N55Q/Y51S、F56N/N55Q/Y51G、F56N/N55R/Y51L、F56N/N55R/Y51V、F56N/N55R/Y51A、F56N/N55R/Y51N、F56N/N55R/Y51Q、F56N/N55R/Y51S、F56N/N55R/Y51G、F56N/N55K/Y51L、F56N/N55K/Y51V、F56N/N55K/Y51A、F56N/N55K/Y51N、F56N/N55K/Y51Q、F56N/N55K/Y51S、F56N/N55K/Y51G、F56N/N55S/Y51L、F56N/N55S/Y51V、F56N/N55S/Y51A、F56N/N55S/Y51N、F56N/N55S/Y51Q、F56N/N55S/Y51S、F56N/N55S/Y51G、F56N/N55G/Y51L、F56N/N55G/Y51V、F56N/N55G/Y51A、F56N/N55G/Y51N、F56N/N55G/Y51Q、F56N/N55G/Y51S、F56N/N55G/Y51G、F56N/N55A/Y51L、F56N/N55A/Y51V、F56N/N55A/Y51A、F56N/N55A/Y51N、F56N/N55A/Y51Q、F56N/N55A/Y51S、F56N/N55A/Y51G、F56N/N55T/Y51L、F56N/N55T/Y51V、F56N/N55T/Y51A、F56N/N55T/Y51N、F56N/N55T/Y51Q、F56N/N55T/Y51S、F56N/N55T/Y51G、F56Q/N55Q/Y51L、F56Q/N55Q/Y51V、F56Q/N55Q/Y51A、F56Q/N55Q/Y51N、F56Q/N55Q/Y51Q、F56Q/N55Q/Y51S、F56Q/N55Q/Y51G、F56Q/N55R/Y51L、F56Q/N55R/Y51V、F56Q/N55R/Y51A、F56Q/N55R/Y51N、F56Q/N55R/Y51Q、F56Q/N55R/Y51S、F56Q/N55R/Y51G、F56Q/N55K/Y51L、F56Q/N55K/Y51V、F56Q/N55K/Y51A、F56Q/N55K/Y51N、F56Q/N55K/Y51Q、F56Q/N55K/Y51S、F56Q/N55K/Y51G、F56Q/N55S/Y51L、F56Q/N55S/Y51V、F56Q/N55S/Y51A、F56Q/N55S/Y51N、F56Q/N55S/Y51Q、F56Q/N55S/Y51S、F56Q/N55S/Y51G、F56Q/N55G/Y51L、F56Q/N55G/Y51V、F56Q/N55G/Y51A、F56Q/N55G/Y51N、F56Q/N55G/Y51Q、F56Q/N55G/Y51S、F56Q/N55G/Y51G、F56Q/N55A/Y51L、F56Q/N55A/Y51V、F56Q/N55A/Y51A、F56Q/N55A/Y51N、F56Q/N55A/Y51Q、F56Q/N55A/Y51S、F56Q/N55A/Y51G、F56Q/N55T/Y51L、F56Q/N55T/Y51V、F56Q/N55T/Y51A、F56Q/N55T/Y51N、F56Q/N55T/Y51Q、F56Q/N55T/Y51S、F56Q/N55T/Y51G、F56R/N55Q/Y51L、F56R/N55Q/Y51V、F56R/N55Q/Y51A、F56R/N55Q/Y51N、F56R/N55Q/Y51Q、F56R/N55Q/Y51S、F56R/N55Q/Y51G、F56R/N55R/Y51L、F56R/N55R/Y51V、F56R/N55R/Y51A、F56R/N55R/Y51N、F56R/N55R/Y51Q、F56R/N55R/Y51S、F56R/N55R/Y51G、F56R/N55K/Y51L、F56R/N55K/Y51V、F56R/N55K/Y51A、F56R/N55K/Y51N、F56R/N55K/Y51Q、F56R/N55K/Y51S、F56R/N55K/Y51G、F56R/N55S/Y51L、F56R/N55S/Y51V、F56R/N55S/Y51A、F56R/N55S/Y51N、F56R/N55S/Y51Q、F56R/N55S/Y51S、F56R/N55S/Y51G、F56R/N55G/Y51L、F56R/N55G/Y51V、F56R/N55G/Y51A、F56R/N55G/Y51N、F56R/N55G/Y51Q、F56R/N55G/Y51S、F56R/N55G/Y51G、F56R/N55A/Y51L、F56R/N55A/Y51V、F56R/N55A/Y51A、F56R/N55A/Y51N、F56R/N55A/Y51Q、F56R/N55A/Y51S、F56R/N55A/Y51G、F56R/N55T/Y51L、F56R/N55T/Y51V、F56R/N55T/Y51A、F56R/N55T/Y51N、F56R/N55T/Y51Q、F56R/N55T/Y51S、F56R/N55T/Y51G、F56S/N55Q/Y51L、F56S/N55Q/Y51V、F56S/N55Q/Y51A、F56S/N55Q/Y51N、F56S/N55Q/Y51Q、F56S/N55Q/Y51S、F56S/N55Q/Y51G、F56S/N55R/Y51L、F56S/N55R/Y51V、F56S/N55R/Y51A、F56S/N55R/Y51N、F56S/N55R/Y51Q、F56S/N55R/Y51S、F56S/N55R/Y51G、F56S/N55K/Y51L、F56S/N55K/Y51V、F56S/N55K/Y51A、F56S/N55K/Y51N、F56S/N55K/Y51Q、F56S/N55K/Y51S、F56S/N55K/Y51G、F56S/N55S/Y51L、F56S/N55S/Y51V、F56S/N55S/Y51A、F56S/N55S/Y51N、F56S/N55S/Y51Q、F56S/N55S/Y51S、F56S/N55S/Y51G、F56S/N55G/Y51L、F56S/N55G/Y51V、F56S/N55G/Y51A、F56S/N55G/Y51N、F56S/N55G/Y51Q、F56S/N55G/Y51S、F56S/N55G/Y51G、F56S/N55A/Y51L、F56S/N55A/Y51V、F56S/N55A/Y51A、F56S/N55A/Y51N、F56S/N55A/Y51Q、F56S/N55A/Y51S、F56S/N55A/Y51G、F56S/N55T/Y51L、F56S/N55T/Y51V、F56S/N55T/Y51A、F56S/N55T/Y51N、F56S/N55T/Y51Q、F56S/N55T/Y51S、F56S/N55T/Y51G、F56G/N55Q/Y51L、F56G/N55Q/Y51V、F56G/N55Q/Y51A、F56G/N55Q/Y51N、F56G/N55Q/Y51Q、F56G/N55Q/Y51S、F56G/N55Q/Y51G、F56G/N55R/Y51L、F56G/N55R/Y51V、F56G/N55R/Y51A、F56G/N55R/Y51N、F56G/N55R/Y51Q、F56G/N55R/Y51S、F56G/N55R/Y51G、F56G/N55K/Y51L、F56G/N55K/Y51V、F56G/N55K/Y51A、F56G/N55K/Y51N、F56G/N55K/Y51Q、F56G/N55K/Y51S、F56G/N55K/Y51G、F56G/N55S/Y51L、F56G/N55S/Y51V、F56G/N55S/Y51A、F56G/N55S/Y51N、F56G/N55S/Y51Q、F56G/N55S/Y51S、F56G/N55S/Y51G、F56G/N55G/Y51L、F56G/N55G/Y51V、F56G/N55G/Y51A、F56G/N55G/Y51N、F56G/N55G/Y51Q、F56G/N55G/Y51S、F56G/N55G/Y51G、F56G/N55A/Y51L、F56G/N55A/Y51V、F56G/N55A/Y51A、F56G/N55A/Y51N、F56G/N55A/Y51Q、F56G/N55A/Y51S、F56G/N55A/Y51G、F56G/N55T/Y51L、F56G/N55T/Y51V、F56G/N55T/Y51A、F56G/N55T/Y51N、F56G/N55T/Y51Q、F56G/N55T/Y51S、F56G/N55T/Y51G、F56A/N55Q/Y51L、F56A/N55Q/Y51V、F56A/N55Q/Y51A、F56A/N55Q/Y51N、F56A/N55Q/Y51Q、F56A/N55Q/Y51S、F56A/N55Q/Y51G、F56A/N55R/Y51L、F56A/N55R/Y51V、F56A/N55R/Y51A、F56A/N55R/Y51N、F56A/N55R/Y51Q、F56A/N55R/Y51S、F56A/N55R/Y51G、F56A/N55K/Y51L、F56A/N55K/Y51V、F56A/N55K/Y51A、F56A/N55K/Y51N、F56A/N55K/Y51Q、F56A/N55K/Y51S、F56A/N55K/Y51G、F56A/N55S/Y51L、F56A/N55S/Y51V、F56A/N55S/Y51A、F56A/N55S/Y51N、F56A/N55S/Y51Q、F56A/N55S/Y51S、F56A/N55S/Y51G、F56A/N55G/Y51L、F56A/N55G/Y51V、F56A/N55G/Y51A、F56A/N55G/Y51N、F56A/N55G/Y51Q、F56A/N55G/Y51S、F56A/N55G/Y51G、F56A/N55A/Y51L、F56A/N55A/Y51V、F56A/N55A/Y51A、F56A/N55A/Y51N、F56A/N55A/Y51Q、F56A/N55A/Y51S、F56A/N55A/Y51G、F56A/N55T/Y51L、F56A/N55T/Y51V、F56A/N55T/Y51A、F56A/N55T/Y51N、F56A/N55T/Y51Q、F56A/N55T/Y51S、F56A/N55T/Y51G、F56K/N55Q/Y51L、F56K/N55Q/Y51V、F56K/N55Q/Y51A、F56K/N55Q/Y51N、F56K/N55Q/Y51Q、F56K/N55Q/Y51S、F56K/N55Q/Y51G、F56K/N55R/Y51L、F56K/N55R/Y51V、F56K/N55R/Y51A、F56K/N55R/Y51N、F56K/N55R/Y51Q、F56K/N55R/Y51S、F56K/N55R/Y51G、F56K/N55K/Y51L、F56K/N55K/Y51V、F56K/N55K/Y51A、F56K/N55K/Y51N、F56K/N55K/Y51Q、F56K/N55K/Y51S、F56K/N55K/Y51G、F56K/N55S/Y51L、F56K/N55S/Y51V、F56K/N55S/Y51A、F56K/N55S/Y51N、F56K/N55S/Y51Q、F56K/N55S/Y51S、F56K/N55S/Y51G、F56K/N55G/Y51L、F56K/N55G/Y51V、F56K/N55G/Y51A、F56K/N55G/Y51N、F56K/N55G/Y51Q、F56K/N55G/Y51S、F56K/N55G/Y51G、F56K/N55A/Y51L、F56K/N55A/Y51V、F56K/N55A/Y51A、F56K/N55A/Y51N、F56K/N55A/Y51Q、F56K/N55A/Y51S、F56K/N55A/Y51G、F56K/N55T/Y51L、F56K/N55T/Y51V、F56K/N55T/Y51A、F56K/N55T/Y51N、F56K/N55T/Y51Q,F56K/N55T/Y51S、F56K/N55T/Y51G、F56E/N55R、F56E/N55K、F56D/N55R、F56D/N55K、F56R/N55E、F56R/N55D、F56K/N55E或F56K/N55D。

在(ii)中，变体优选包含Y51R/F56Q、Y51N/F56N、Y51M/F56Q、Y51L/F56Q、Y51I/F56Q、Y51V/F56Q、Y51A/F56Q、Y51P/F56Q、Y51G/F56Q、Y51C/F56Q、Y51Q/F56Q、Y51N/F56Q、Y51S/F56Q、Y51E/F56Q、Y51D/F56Q、Y51K/F56Q或Y51H/F56Q。

在(ii)中，变体优选包含Y51T/F56Q、Y51Q/F56Q或Y51A/F56Q。

在(ii)中，变体优选包含Y51T/F56F、Y51T/F56M、Y51T/F56L、Y51T/F56I、Y51T/F56V、Y51T/F56A、Y51T/F56P、Y51T/F56G、Y51T/F56C、Y51T/F56Q、Y51T/F56N、Y51T/F56T、Y51T/F56S、Y51T/F56E、Y51T/F56D、Y51T/F56K、Y51T/F56H或Y51T/F56R。

在(ii)中，变体优选包含Y51T/N55Q、Y51T/N55S或Y51T/N55A。

在(ii)中，变体优选包含Y51A/F56F、Y51A/F56L、Y51A/F56I、Y51A/F56V、Y51A/F56A、Y51A/F56P、Y51A/F56G、Y51A/F56C、Y51A/F56Q、Y51A/F56N、Y51A/F56T、Y51A/F56S、Y51A/F56E、Y51A/F56D、Y51A/F56K、Y51A/F56H或Y51A/F56R。

在(ii)中，变体优选包含Y51C/F56A、Y51E/F56A、Y51D/F56A、Y51K/F56A、Y51H/F56A、Y51Q/F56A、Y51N/F56A、Y51S/F56A、Y51P/F56A或Y51V/F56A。

在(xi)中，变体优选包含Y51/P52、Y51/P52/A53、P50至P52、P50至A53、K49至Y51、K49至A53的缺失和用单个脯氨酸(P)的置换，K49至S54的缺失和用单个P的置换，Y51至A53、Y51至S54、N55/F56、N55至S57、N55/F56的缺失和用单个P的置换，N55/F56的缺失和用单个甘氨酸(G)的置换，N55/F56的缺失和用单个丙氨酸(A)的置换，N55/F56的缺失和用单个P的置换和Y51N，N55/F56的缺失和用单个P的置换和Y51Q，N55/F56的缺失和用单个P的置换和Y51S，N55/F56的缺失和用单个G的置换和Y51N，N55/F56的缺失和用单个G的置换和Y51Q，N55/F56的缺失和用单个G的置换和Y51S，N55/F56的缺失和用单个A的置换和Y51N，N55/F56的缺失和用单个A的置换/Y51Q或N55/F56的缺失和用单个A的置换和Y51S。

变体更优选地包含D195N/E203N、D195Q/E203N、D195N/E203Q、D195Q/E203Q、E201N/E203N、E201Q/E203N、E201N/E203Q、E201Q/E203Q、E185N/E203Q、E185Q/E203Q、E185N/E203N、E185Q/E203N、D195N/E201N/E203N、D195Q/E201N/E203N、D195N/E201Q/E203N、D195N/E201N/E203Q、D195Q/E201Q/E203N、D195Q/E201N/E203Q、D195N/E201Q/E203Q、D195Q/E201Q/E203Q、D149N/E201N、D149Q/E201N、D149N/E201Q、D149Q/E201Q、D149N/E201N/D195N、D149Q/E201N/D195N、D149N/E201Q/D195N、D149N/E201N/D195Q、D149Q/E201Q/D195N、D149Q/E201N/D195Q、D149N/E201Q/D195Q、D149Q/E201Q/D195Q、D149N/E203N、D149Q/E203N、D149N/E203Q、D149Q/E203Q、D149N/E185N/E201N、D149Q/E185N/E201N、D149N/E185Q/E201N、D149N/E185N/E201Q、D149Q/E185Q/E201N、D149Q/E185N/E201Q、D149N/E185Q/E201Q、D149Q/E185Q/E201Q、D149N/E185N/E203N、D149Q/E185N/E203N、D149N/E185Q/E203N、D149N/E185N/E203Q、D149Q/E185Q/E203N、D149Q/E185N/E203Q、D149N/E185Q/E203Q、D149Q/E185Q/E203Q、D149N/E185N/E201N/E203N、D149Q/E185N/E201N/E203N、D149N/E185Q/E201N/E203N、D149N/E185N/E201Q/E203N、D149N/E185N/E201N/E203Q、D149Q/E185Q/E201N/E203N、D149Q/E185N/E201Q/E203N、D149Q/E185N/E201N/E203Q、D149N/E185Q/E201Q/E203N、D149N/E185Q/E201N/E203Q、D149N/E185N/E201Q/E203Q、D149Q/E185Q/E201Q/E203Q、D149Q/E185Q/E201N/E203Q、D149Q/E185N/E201Q/E203Q、D149N/E185Q/E201Q/E203Q、D149Q/E185Q/E201Q/E203N、D149N/E185N/D195N/E201N/E203N、D149Q/E185N/D195N/E201N/E203N、D149N/E185Q/D195N/E201N/E203N、D149N/E185N/D195Q/E201N/E203N、D149N/E185N/D195N/E201Q/E203N、D149N/E185N/D195N/E201N/E203Q、D149Q/E185Q/D195N/E201N/E203N、D149Q/E185N/D195Q/E201N/E203N、D149Q/E185N/D195N/E201Q/E203N、D149Q/E185N/D195N/E201N/E203Q、D149N/E185Q/D195Q/E201N/E203N、D149N/E185Q/D195N/E201Q/E203N、D149N/E185Q/D195N/E201N/E203Q、D149N/E185N/D195Q/E201Q/E203N、D149N/E185N/D195Q/E201N/E203Q、D149N/E185N/D195N/E201Q/E203Q、D149Q/E185Q/D195Q/E201N/E203N、D149Q/E185Q/D195N/E201Q/E203N、D149Q/E185Q/D195N/E201N/E203Q、D149Q/E185N/D195Q/E201Q/E203N、D149Q/E185N/D195Q/E201N/E203Q、D149Q/E185N/D195N/E201Q/E203Q、D149N/E185Q/D195Q/E201Q/E203N、D149N/E185Q/D195Q/E201N/E203Q、D149N/E185Q/D195N/E201Q/E203Q、D149N/E185N/D195Q/E201Q/E203Q、D149Q/E185Q/D195Q/E201Q/E203N、D149Q/E185Q/D195Q/E201N/E203Q、D149Q/E185Q/D195N/E201Q/E203Q、D149Q/E185N/D195Q/E201Q/E203Q、D149N/E185Q/D195Q/E201Q/E203Q、D149Q/E185Q/D195Q/E201Q/E203Q、D149N/E185R/E201N/E203N、D149Q/E185R/E201N/E203N、D149N/E185R/E201Q/E203N、D149N/E185R/E201N/E203Q、D149Q/E185R/E201Q/E203N、D149Q/E185R/E201N/E203Q、D149N/E185R/E201Q/E203Q、D149Q/E185R/E201Q/E203Q、D149R/E185N/E201N/E203N、D149R/E185Q/E201N/E203N、D149R/E185N/E201Q/E203N、D149R/E185N/E201N/E203Q、D149R/E185Q/E201Q/E203N、D149R/E185Q/E201N/E203Q、D149R/E185N/E201Q/E203Q、D149R/E185Q/E201Q/E203Q、D149R/E185N/D195N/E201N/E203N、D149R/E185Q/D195N/E201N/E203N、D149R/E185N/D195Q/E201N/E203N、D149R/E185N/D195N/E201Q/E203N、D149R/E185Q/D195N/E201N/E203Q、D149R/E185Q/D195Q/E201N/E203N、D149R/E185Q/D195N/E201Q/E203N、D149R/E185Q/D195N/E201N/E203Q、D149R/E185N/D195Q/E201Q/E203N、D149R/E185N/D195Q/E201N/E203Q、D149R/E185N/D195N/E201Q/E203Q、D149R/E185Q/D195Q/E201Q/E203N、D149R/E185Q/D195Q/E201N/E203Q、D149R/E185Q/D195N/E201Q/E203Q、D149R/E185N/D195Q/E201Q/E203Q、D149R/E185Q/D195Q/E201Q/E203Q、D149N/E185R/D195N/E201N/E203N、D149Q/E185R/D195N/E201N/E203N、D149N/E185R/D195Q/E201N/E203N、D149N/E185R/D195N/E201Q/E203N、D149N/E185R/D195N/E201N/E203Q、D149Q/E185R/D195Q/E201N/E203N、D149Q/E185R/D195N/E201Q/E203N、D149Q/E185R/D195N/E201N/E203Q、D149N/E185R/D195Q/E201Q/E203N、D149N/E185R/D195Q/E201N/E203Q、D149N/E185R/D195N/E201Q/E203Q、D149Q/E185R/D195Q/E201Q/E203N、D149Q/E185R/D195Q/E201N/E203Q、D149Q/E185R/D195N/E201Q/E203Q、D149N/E185R/D195Q/E201Q/E203Q、D149Q/E185R/D195Q/E201Q/E203Q、D149N/E185R/D195N/E201R/E203N、D149Q/E185R/D195N/E201R/E203N、D149N/E185R/D195Q/E201R/E203N、D149N/E185R/D195N/E201R/E203Q、D149Q/E185R/D195Q/E201R/E203N、D149Q/E185R/D195N/E201R/E203Q、D149N/E185R/D195Q/E201R/E203Q、D149Q/E185R/D195Q/E201R/E203Q、E131D/K49R、E101N/N102F、E101N/N102Y、E101N/N102W、E101F/N102F、E101F/N102Y、E101F/N102W、E101Y/N102F、E101Y/N102Y、E101Y/N102W、E101W/N102F、E101W/N102Y、E101W/N102W、E101N/N102R、E101F/N102R、E101Y/N102R或E101W/N102F。

形成的孔中在多核苷酸移动通过该孔时更少的核苷酸对电流有贡献的本发明的优选变体包含Y51A/F56A、Y51A/F56N、Y51I/F56A、Y51L/F56A、Y51T/F56A、Y51I/F56N、Y51L/F56N或Y51T/F56N或更优选Y51I/F56A、Y51L/F56A或Y51T/F56A。如以上所讨论的，这使得更容易鉴定观测到的电流(当多核苷酸移动通过该孔时)与多核苷酸之间的直接关系。

形成显示范围增加的孔的优选变体包含以下位置的突变：

Y51、F56、D149、E185、E201和E203；

N55和F56；

Y51和F56；

Y51、N55和F56；或

F56和N102。

形成显示范围增加的孔的优选变体包含：

Y51N、F56A、D149N、E185R、E201N和E203N；

N55S和F56Q；

Y51A和F56A；

Y51A和F56N；

Y51I和F56A；

Y51L和F56A；

Y51T和F56A；

Y51I和F56N；

Y51L和F56N；

Y51T和F56N；

Y51T和F56Q；

Y51A、N55S和F56A；

Y51A、N55S和F56N；

Y51T、N55S和F56Q；或

F56Q和N102R。

形成的孔中在多核苷酸移动通过该孔时更少的核苷酸对电流有贡献的优选变体包含以下位置的突变：

N55和F56，诸如N55X和F56Q，其中X是任何氨基酸；或

Y51和F56，诸如Y51X和F56Q，其中X是任何氨基酸。

特别优选的变体包含Y51A和F56Q。

形成显示通过量增加的孔的优选变体包含以下位置的突变：

D149、E185和E203；

D149、E185、E201和E203；或

D149、E185、D195、E201和E203。

形成显示通过量增加的孔的优选变体包含：

D149N、E185N和E203N；

D149N、E185N、E201N和E203N；

D149N、E185R、D195N、E201N和E203N；或

D149N、E185R、D195N、E201R和E203N。

形成的孔中多核苷酸的捕获增加的优选变体包含以下突变：

D43N/Y51T/F56Q；

E44N/Y51T/F56Q；

D43N/E44N/Y51T/F56Q；

Y51T/F56Q/Q62R；

D43N/Y51T/F56Q/Q62R；

E44N/Y51T/F56Q/Q62R；或

D43N/E44N/Y51T/F56Q/Q62R。

优选变体包含以下突变：

D149R/E185R/E201R/E203R或Y51T/F56Q/D149R/E185R/E201R/E203R；D149N/E185N/E201N/E203N或Y51T/F56Q/D149N/E185N/E201N/E203N；

E201R/E203R或Y51T/F56Q/E201R/E203R

E201N/E203R或Y51T/F56Q/E201N/E203R；

E203R或Y51T/F56Q/E203R；

E203N或Y51T/F56Q/E203N；

E201R或Y51T/F56Q/E201R；

E201N或Y51T/F56Q/E201N；

E185R或Y51T/F56Q/E185R；

E185N或Y51T/F56Q/E185N；

D149R或Y51T/F56Q/D149R；

D149N或Y51T/F56Q/D149N；

R142E或Y51T/F56Q/R142E；

R142N或Y51T/F56Q/R142N；

R192E或Y51T/F56Q/R192E；或

R192N或Y51T/F56Q/R192N。

优选变体包含以下突变：

Y51A/F56Q/E101N/N102R；

Y51A/F56Q/R97N/N102G；

Y51A/F56Q/R97N/N102R；

Y51A/F56Q/R97N；

Y51A/F56Q/R97G；

Y51A/F56Q/R97L；

Y51A/F56Q/N102R；

Y51A/F56Q/N102F；

Y51A/F56Q/N102G；

Y51A/F56Q/E101R；

Y51A/F56Q/E101F；

Y51A/F56Q/E101N；或

Y51A/F56Q/E101G

变体优选还包含在T150处的突变。形成显示插入增加的孔的优选变体包含T150I。T150处的突变，诸如T150I，可以与上面讨论的任何突变或突变的组合结合。

SEQ ID NO:3的优选变体包含(a)R97W和(b)Y51和/或F56处的突变。SEQ ID NO:3的优选变体包括(a)R97W和(b)Y51R/H/K/D/E/S/T/N/Q/C/G/P/A/V/I/L/M和/或F56R/H/K/D/E/S/T/N/Q/C/G/P/A/V/I/L/M。SEQ ID NO:3的优选变体包含(a)R97W和(b)Y51L/V/A/N/Q/S/G和/或F56A/Q/N。SEQ ID NO:3的优选变体包含(a)R97W和(b)Y51A和/或F56Q。SEQ IDNO:3的优选变体包括R97W、Y51A和F56Q。

SEQ ID NO:3的变体优选包含R192处的突变。变体优选包含R192D/Q/F/S/T/N/E、R192D/Q/F/S/T或R192D/Q。SEQ ID NO:3的优选变体包含(a)R97W，(b)Y51和/或F56处的突变和(c)R192处的突变，诸如R192D/Q/F/S/T/N/E、R192D/Q/F/S/T或R192D/Q。SEQ ID NO:3的优选变体包含(a)R97W，(b)Y51R/H/K/D/E/S/T/N/Q/C/G/P/A/V/I/L/M和/或F56 R/H/K/D/E/S/T/N/Q/C/G/P/A/V/I/L/M和(c)R192处的突变，诸如R192D/Q/F/S/T/N/E、R192D/Q/F/S/T或R192D/Q。SEQ ID NO:3的优选变体包含(a)R97W，(b)Y51L/V/A/N/Q/S/G和/或F56A/Q/N，和(c)R192处的突变，诸如R192D/Q/F/S/T/N/E、R192D/Q/F/S/T或R192D/Q。SEQ ID NO:3的优选变体包含(a)R97W，(b)Y51A和/或F56Q和(c)R192处的突变，诸如R192 D/Q/F/S/T/N/E、R192D/Q/F/S/T或R192D/Q。SEQ ID NO:3的优选变体包含R97W、Y51A、F56Q和R192D/Q/F/S/T或R192D/Q。SEQ ID NO:3的优选变体包含R97W、Y51A、F56Q和R192D。SEQ ID NO:3的优选变体包含R97W、Y51A、F56Q和R192Q。在上面用/符号将特定位置的不同氨基酸隔开的段落中，/符号意指“或”。例如，R192D/Q意指R192D或R192Q。

上述SEQ ID NO:3的任何上述优选变体还可包含R93处的突变。SEQ ID NO:3的优选变体包含(a)R93W和(b)Y51和/或F56处的突变，优选Y51A和F56Q。

SEQ ID NO:3的任何上述优选变体均可包含K94N/Q突变。SEQ ID NO:3的任何上述优选变体均可包含F191T突变。

可以修饰CsgG单体以促进与CsgF肽的附接。例如，可以在与SEQ ID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207和209相对应的一个或多个位置，和/或在表4中鉴定为预计会与CsgF接触的任何一个位置引入半胱氨酸残基，以促进与CsgG的共价附接。作为通过半胱氨酸残基共价附接的替代或补充，可以通过疏水相互作用或静电相互作用来稳定所述孔。为了促进此类相互作用，在与SEQ ID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207和209中的一个或多个相对应的位置，和/或在表4中鉴定为预计会与CsgF接触的任何一个位置引入非天然反应性或光反应性氨基酸。

优选的示例性孔包括至少一种相对于SEQ ID NO:3具有以下突变的CsgG单体：Y51X₁/N55X₂/F56X₃/N91R/K94Q/R97W/R192D-del(V105-I107)，其中X₁为I/V/S/T，X₂为N/I/V/S/T和/或X₃为Q/I/V/S/T。

引入或取代天然存在的氨基酸的方法是本领域众所周知的。例如，可以通过在编码突变单体的多核苷酸中的相关位置用精氨酸的密码子(CGT)置换蛋氨酸的密码子(ATG)，用精氨酸(R)取代蛋氨酸(M)。然后可以如下面所讨论的那样表达多核苷酸。

双孔

CsgG/CsgF孔可以是包含第一孔和第二孔的双孔。至少第一孔是本文公开的CsgG/CsgF孔。第二孔可以是CsgG孔或CsgG/CsgF孔。在一个实施方案中，第一孔和第二孔均为本文所公开的CsgG/CsgF孔。第一孔和第二孔可以相同或不同。除本文公开的任何突变外，在双孔中，CsgG单体还可包含一个或多个下面描述的附加突变。

在双孔中，第一孔可以通过疏水相互作用和/或通过一个或多个二硫键附接到第二CsgG孔。第一孔和/或第二孔中的一个或多个，诸如2、3、4、5、6、8、9个，例如所有单体可以被修饰以增强此类相互作用。这可以以任何合适的方式来实现。

在第一孔和第二孔之间的界面处第一孔的氨基酸序列中的至少一个半胱氨酸残基可以与在第一孔和第二孔之间的界面处第二孔的氨基酸序列中的至少一个半胱氨酸残基经二硫键键合。第一孔中的半胱氨酸残基和/或第二孔中的半胱氨酸残基可以是野生型CsgG单体中不存在的半胱氨酸残基。在双孔中的两个孔之间可以形成多个二硫键，诸如2、3、4、5、6、7、8或9至16、18、24、27、32、36、40、45、48、54、56或63个。第一孔或第二孔中的一个或两个可以包含至少一个单体，诸如最多8、9或10个单体，所述单体在第一和第二孔之间的界面处，在与SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113相对应的位置处包含半胱氨酸残基。

第一孔中的至少一个单体和/或第二孔中的至少一个单体可在第一孔和第二孔之间的界面处包含至少一个残基，该残基比野生型CsgG单体中的相应位置存在的残基更具疏水性。例如，第一孔和/或第二孔中2至10个，例如3、4、5、6、7、8或9个残基可以比相应野生型CsgG单体中相同位置的残基更具疏水性。此类疏水性残基增强了双孔中两个孔之间的相互作用。在第一孔和第二孔之间的界面处的所述至少一个残基可以在与SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113相对应的位置。在野生型CsgG单体中界面处的残基为R、Q、N或E的情况下，疏水性残基通常为I、L、V、M、F、W或Y。在野生型CsgG单体中界面处的残基为I的情况下，疏水性残基通常为L、V、M、F、W或Y。在野生型CsgG单体中界面处的残基为L的情况下，疏水性残基通常为I、V、M、F、W或Y。

双孔可包含一个或多个在孔之间的界面处包含一个或多个半胱氨酸残基的单体和一个或多个在孔之间的界面处包含一个或多个引入的疏水性残基的单体，或者可包含一个或多个包含此类半胱氨酸残基和此类疏水性残基的单体。例如，单体中与SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113相对应的位置中的一个或多个，诸如任何2、3或4个，可包含半胱氨酸(C)残基并且单体中与SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113相对应的位置中的一个或多个，诸如任何2、3或4个，可包含疏水性残基，诸如I、L、V、M、F、W或Y。

双孔可在尾部区中的一个或多个(诸如2、3、4、5、6或7个)位置处包含大体积残基，这些残基通常在第一孔和第二孔之间的界面处并且比野生型CsgG单体中相应位置存在的残基更大。这些残基的大体积防止了在双孔中的第一孔和第二孔之间的界面处的孔壁中形成洞。在第一孔和第二孔之间的界面处的所述至少一个大体积残基通常在与SEQ ID NO:3的A98、A99、T104、V105、L113、Q114或S115相对应的位置。在野生型CsgG单体中界面处的残基为A的情况下，大体积残基通常为I、L、V、M、F、W、Y、N、Q、S或T。在野生型CsgG单体中界面处存在的残基为T的情况下，大体积残基通常为L、M、F、W、Y、N、Q、R、D或E。在野生型CsgG单体中界面处存在的残基为V的情况下，大体积残基通常为I、L、M、F、W、Y、N、Q。在野生型CsgG单体中界面处存在的残基为L的情况下，大体积残基通常为M、F、W、Y、N、Q、R、D或E。在野生型CsgG单体中界面处存在的残基为Q的情况下，大体积残基通常为F、W或Y。在野生型CsgG单体中界面处存在的残基为S的情况下，大体积残基通常为M、F、W、Y、N、Q、E或R。

特别是在第二孔位于膜外部的情况下，第二孔以及任选地第一孔优选在孔的桶区中包含与野生型CsgG孔的桶中的电荷相比减少了桶内部的负电荷的残基。这些突变使枪桶更具亲水性。双孔的第一孔中的至少一个单体和/或第二孔中的至少一个单体可以在孔的桶区中包含至少一个残基，该残基具有比野生型CsgG单体中的相应位置存在的残基更少的负电荷。桶内部的电荷具有足够中性或正电荷，使得带负电荷的分析物(诸如多核苷酸)不会因静电电荷而排斥进入孔中。在孔的桶区中与SEQ ID NO:3的D149、E185、D195、E210和/或E203相对应的位置处的至少一个残基，诸如2、3、4或5个残基可以是中性或带正电荷的氨基酸。在孔的桶区中与SEQ ID NO:3的D149、E185、D195、E210和/或E203相对应的位置处的至少一个残基，诸如2、3、4或5个残基优选为N、Q、R或K。

SEQ ID NO:3中去除电荷的突变的特定实例包括以下：E185N/E203N、D149N/E185R/D195N/E201R/E203N、D149N/E185R/D195N/E201N/E203N、D149R/E185N/D195N/E201N/E203N、D149R/E185N/E201N/E203N、D149N/E185N/D195/E201N/E203N、D149N/E185N/E201N/E203N、D149N/E185N/E203N、D149N/E185N/E201N、D149N/E203N、D149N/E201N/D195N、D149N/E201N、D195N/E201N/E203N、E201N/E203N、D195N/E203、E203R、E203N、E201R、E201N、D195R、D195N、E185R、E185N、D149R和D149N。

第一孔中的至少一个CsgG单体可以在第一孔的桶区的收缩段中包含至少一个残基，与野生型CsgG孔相比该残基减小、维持或增加了收缩段的长度，和/或第二CsgG孔中的至少一个单体可在第二孔的桶区的收缩段中包含至少一个残基，与野生型CsgG孔相比该残基减小、维持或增加了收缩段的长度。优选地，第一孔中收缩段的长度和/或第二孔中收缩段的长度至少与野生型孔中一样长，更优选为更长。

可以通过将残基插入与SEQ ID NO:3的位置K49和F56之间的区相对应的区来增加孔的长度。可以在参考SEQ ID NO:3定义的以下任何一个或多个位置插入1至5个，诸如2、3或4个氨基酸残基：K49和P50，P50和Y51，Y51和P52，P52和A53，A53和S54，S54和N55和/或N55和F56。优选将总共1至10个，诸如2至8个，或3至5个氨基酸残基插入单体序列中。优选地，第一孔中的所有单体和/或第二孔中的所有单体在该区中具有相同数量的插入。插入的残基可以增加与SEQ ID NO:3的Y51和N55相对应的残基之间的环的长度。插入的残基可以是A、S、G或T的任意组合以保持柔性；可以是P以向环中添加纽结；和/或可以是S、T、N、Q、M、F、W、Y、V和/或I以有助于当分析物在施加的电位差下与孔的桶相互作用时产生的信号。插入的氨基酸可以是S、G、SG、SGG、SGS、GS、GSS和/或GSG的任意组合。

在双孔中，第一孔和/或第二孔的桶中的收缩段可包含至少一个残基，诸如2、3、4或5个残基，当用于检测或表征分析物时，与使用具有野生型收缩段的第一孔或第二孔相比，所述残基会影响孔的性质，其中孔的桶区的收缩段中的所述至少一个残基在与SEQ IDNO:3的Y51、N55、Y51、P52和/或A53相对应的位置。所述至少一个残基可以是在与SEQ IDNO:3的F56相对应的位置处的Q或V；在与SEQ ID NO:3的Y51相对应的位置处的A或Q；和/或在与SEQ ID NO:3的N55相对应的位置处的V。

双孔可在第一CsgG孔中包含至少一个单体和/或在第二CsgG孔中包含至少一个单体，所述单体包含以上定义的两个或更多个突变。

双孔中的CsgG单体可以在与SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和L113相对应的位置处包含半胱氨酸残基。

双孔中的CsgG单体可以在与SEQ ID NO:3的R97、Q100、I107、R110、E101、N102和L113中的任何一个或多个相对应的位置处包含下述残基，该残基比在SEQ ID NO:3的相应位置，诸如SEQ ID NO:68至88中任一个的相应位置存在的残基更具疏水性，其中与R97和/或I107相对应的位置处的残基为M，与R110相对应的位置处的残基为I、L、V、M、W或Y，和/或与E101或N102相对应的位置处的残基为V或M。与Q100相对应的位置处的残基通常为I、L、V、M、F、W或Y；和/或与L113相对应的位置处的残基通常为I、V、M、F、W或Y。

特定单体可以具有SEQ ID NO 3所示的序列，其包含Y51A、F56Q取代以及R97I/V/L/M/F/W/Y、I107L/V/M/F/W/Y、R110I/V/L/M/F/W/Y、Q100I/V/L/M/F/W/Y、E101I/V/L/M/F/W/Y、呈组合的N102I/V/L/M/F/W/Y和L113CI/V/L/M/F/W/Y、呈组合的R97I/V/L/M/F/W/Y和N102I/V/L/M/F/W/Y和/或呈组合的R97I/V/L/M/F/W/Y和E101I/V/L/M/F/W/Y。I107可能已经在两个孔之间形成疏水相互作用。

双孔中至少一个孔中的CsgG单体可以在与SEQ ID NO:3的A98、A99、T104、V105、L113、Q114和S115中的任何一个或多个相对应的位置处包含下述残基，该残基比在SEQ IDNO:3的相应位置，诸如SEQ ID NO:68至88中任一个的相应位置存在的残基体积更大，其中与T104相对应的位置处的残基为L、M、F、W、Y、N、Q、D或E，与L113相对应的位置处的残基为M、F、W、Y、N、G、D或E，和/或与S115相对应的位置处的残基为M、F、W、Y、N、Q或E。与A98或A99相对应的位置处的残基通常为I、L、V、M、F、W、Y、N、Q、S或T。与V105相对应的位置处的残基为I、L、M、F、W、Y、N或Q。与Q114相对应的位置处的残基为F、W或Y。与E210相对应的位置处的残基为N、Q、R或K。

特定单体可以具有SEQ ID NO 3中所示的序列，其包含Y51A、F56Q取代和1、2、3、4、5、6个或所有以下取代：A98I/L/V/M/F/W/Y/N/Q/S/T；A99I/L/V/M/F/W/Y/N/Q/S/T；T104N/Q/L/R/D/E/M/F/W/Y；V105I/L/M/F/W/Y/N/Q；L113M/F/W/Y/N/Q/D/E/L/R；Q114Y/F/W；和S115N/Q/M/F/W/Y/E/R。

双孔中至少一个孔中的CsgG单体可以在孔的桶区中，在与D149、E185、D195、E210和E203中的任何一个或多个相对应的位置处包含下述残基，该残基比在SEQ ID NO:3的相应位置，诸如SEQ ID NO:68至88中任一个的相应位置存在的残基的负电荷更少，其中在与D149、E185、D195和/或E203相对应的位置处的残基为K。

双孔中至少一个孔中的CsgG单体可以在孔的桶区的收缩段中包含至少一个残基，与野生型CsgG孔相比，该残基增加了收缩段的长度。所述至少一个残基是野生型CsgG孔的收缩段中存在的残基附加的。

可以通过将残基插入与SEQ ID NO:3的位置K49和F56之间的区相对应的区来增加孔的长度。可以在参考SEQ ID NO:3定义的以下任何一个或多个位置插入1至5个，诸如2、3或4个氨基酸残基：K49和P50，P50和Y51，Y51和P52，P52和A53，A53和S54，S54和N55和/或N55和F56。优选将总共1至10个，诸如2至8个，或3至5个氨基酸残基插入单体序列中。插入的残基可以增加与SEQ ID NO:3的Y51和N55相对应的残基之间的环的长度。插入的残基可以是A、S、G或T的任意组合以保持柔性；可以是P以向环中添加纽结；和/或可以是S、T、N、Q、M、F、W、Y、V和/或I以有助于当分析物在施加的电位差下与孔的桶相互作用时产生的信号。插入的氨基酸可以是S、G、SG、SGG、SGS、GS、GSS和/或GSG的任意组合。

双孔中至少一个孔中的CsgG单体可以在孔的桶区的收缩段中，在与SEQ ID NO:3的N55、P52和/或A53相对应的位置处包含至少一个残基，该残基与相应野生型单体中存在的残基不同，其中在与N55相对应的位置处的残基为V。

在同一单体中可以存在上述任何两个或更多个残基。

具体而言，单体可以包含至少一个所述半胱氨酸残基，至少一个所述疏水性残基，至少一个所述大体积残基，至少一个所述中性或带正电荷的残基和/或至少一个增加收缩段长度的所述残基。

双孔中的CsgG单体可另外包含一个或多个，诸如2、3、4或5个残基，当用于检测或表征分析物时，与使用具有野生型收缩段的第一孔或第二孔相比，所述残基会影响孔的性质，其中孔的桶区的收缩段中的所述至少一个残基在与SEQ ID NO:3的Y51、N55、Y51、P52和/或A53相对应的位置。所述至少一个残基可以是在与SEQ ID NO:3的F56相对应的位置处的Q或V；在与SEQ ID NO:3的Y51相对应的位置处的A或Q；和/或在与SEQ ID NO:3的N55相对应的位置处的V。

制备经修饰的蛋白的方法

引入或取代非天然存在的氨基酸的方法也是本领域众所周知的。例如，可以通过在用于表达突变单体的IVTT系统中包括合成的氨酰基-tRNA来引入非天然存在的氨基酸。可替代地，可以通过在大肠杆菌中表达突变单体来引入非天然存在的氨基酸，大肠杆菌在那些特定氨基酸的合成(即非天然存在的)类似物的存在下对于特定氨基酸而言为营养缺陷型。如果突变单体是使用部分肽合成法产生的，则它们也可以通过裸连接产生。

可以修饰源自CsgG的单体以帮助对其的鉴定或纯化，例如通过添加链霉亲和素标签或通过添加信号序列以促进其从细胞中分泌，在所述细胞中单体天然不含此类序列。下面更详细地讨论了其他合适的标签。单体可以用显露标记物标记。显露标记物可以是允许检测出单体的任何合适的标记物。合适的标记物如下所述。

源自CsgG的单体也可以使用D-氨基酸产生。例如，源自CsgG的单体可以包含L-氨基酸和D-氨基酸的混合物。这在产生此类蛋白质或肽的领域中是常规的。

源自CsgG的单体含有一种或多种特异性修饰以促进核苷酸的区别。源自CsgG的单体还可以含有其他非特异性修饰，只要它们不干扰孔的形成即可。许多非特异性侧链修饰是本领域已知的，并且可以对源自CsgG的单体的侧链产生非特异性侧链修饰。此类修饰包括，例如，通过与醛反应，然后用NaBH₄还原对氨基酸进行还原烷基化，用亚氨酰乙酸甲酯进行酰胺化或用乙酸酐进行酰化。

源自CsgG的单体可以使用本领域已知的标准方法来产生。源自CsgG的单体可以合成制备或通过重组方式制备。例如，可以通过体外翻译和转录(IVTT)来合成单体。在国际申请WO 2010/004273、WO 2010/004265或WO 2010/086603中讨论了产生孔和单体的合适方法。用于将孔插入膜中的方法是已知的。

孔中的两个或更多个CsgG单体可以彼此共价附接。例如，至少2个，至少3个，至少4个，至少5个，至少6个，至少7个，至少8个，至少9个或至少10个单体可以共价附接。共价附接的单体可以相同或不同。

单体可以任选地通过接头遗传融合，或例如通过化学交联剂化学融合。在WO2017/149316、WO2017/149317和WO2017/149318中公开了用于共价附接单体的方法。

在一些实施方案中，突变单体经化学修饰。可以以任何方式在任何位点对突变单体进行化学修饰。突变单体优选通过分子与一个或多个半胱氨酸的附接(半胱氨酸连接)，分子与一个或多个赖氨酸的附接，分子与一个或多个非天然氨基酸的附接，表位的酶修饰或末端的修饰来进行化学修饰。进行此类修饰的合适方法是本领域众所周知的。突变单体可以通过任何分子的附接进行化学修饰。例如，突变单体可以通过染料或荧光团的附接进行化学修饰。

在一些实施方案中，用促进包含单体的孔与靶核苷酸或靶多核苷酸序列之间的相互作用的分子衔接子化学修饰突变单体。衔接子的存在改善了孔和核苷酸或多核苷酸序列的主-客体化学，从而改善了由突变单体形成的孔的测序能力。主-客体化学的原理是本领域众所周知的。衔接子对孔的物理或化学性质有影响，这种影响改善了孔与核苷酸或多核苷酸序列的相互作用。衔接子可以改变孔的桶或通道的电荷，或与核苷酸或多核苷酸序列特异性相互作用或结合，从而促进其与孔的相互作用。

分子衔接子优选为环状分子、环糊精、能够杂交的物质、DNA结合剂或嵌入剂、肽或肽类似物、合成聚合物、芳族平面分子、带正电荷的小分子或能够氢键键合的小分子。

衔接子可为环状。环状衔接子优选具有与孔相同的对称性。衔接子优选具有八倍或九倍对称性，因为CsgG通常在中心轴周围具有八个或九个亚基。这将在下面更详细地讨论。

衔接子通常通过主-客体化学与核苷酸或多核苷酸序列相互作用。衔接子通常能够与核苷酸或多核苷酸序列相互作用。衔接子包含一个或多个能够与核苷酸或多核苷酸序列相互作用的化学基团。所述一个或多个化学基团优选通过非共价相互作用，诸如疏水相互作用、氢键结合、范德华力(Van der Waal’s forces)、π-阳离子相互作用和/或静电力，与核苷酸或多核苷酸序列相互作用。能够与核苷酸或多核苷酸序列相互作用的所述一个或多个化学基团优选带正电荷。能够与核苷酸或多核苷酸序列相互作用的所述一个或多个化学基团更优选包含氨基。所述氨基可以附接到伯碳、仲碳或叔碳原子上。衔接子甚至更优选包含氨基环，诸如6、7或8个氨基的环。衔接子最优选包含八个氨基的环。质子化氨基的环可以与核苷酸或多核苷酸序列中带负电荷的磷酸基团相互作用。

衔接子在孔中的正确定位可以通过衔接子和包含突变单体的孔之间的主-客体化学来促进。衔接子优选包含一个或多个能够与孔中的一个或多个氨基酸相互作用的化学基团。衔接子更优选包含能够通过非共价相互作用，诸如疏水相互作用、氢键结合、范德华力、π-阳离子相互作用和/或静电力与孔中的一个或多个氨基酸相互作用的一个或多个化学基团。能够与孔中的一个或多个氨基酸相互作用的化学基团通常为羟基或胺。所述羟基可以附接到伯碳、仲碳或叔碳原子上。所述羟基可与孔中不带电荷的氨基酸形成氢键。可以使用促进孔与核苷酸或多核苷酸序列之间的相互作用的任何衔接子。

合适的衔接子包括但不限于环糊精、环肽和葫芦脲(cucurbituril)。衔接子优选为环糊精或其衍生物。环糊精或其衍生物可以是Eliseev,A.V.和Schneider,H-J.(1994)J.Am.Chem.Soc.116,6081-6088中公开的那些中的任一种。衔接子更优选为七-6-氨基-β-环糊精(am₇-βCD)、6-单脱氧-6-单氨基-β-环糊精(am₁-βCD)或七-(6-脱氧-6-胍基)-环糊精(gu₇-βCD)。gu₇-βCD中的胍基的pKa比am₇-βCD中的伯胺高得多，因此带正电更多。这种gu₇-βCD衔接子可用于增加核苷酸在孔中的停留时间，提高测得的残余电流的准确性，以及提高在高温或低数据采集率下的碱基检测率。

如果如下面更详细地讨论的那样使用3-(2-吡啶基二硫代)丙酸琥珀酰亚胺酯(SPDP)交联剂，则衔接子优选为七(6-脱氧-6-氨基)-6-N-单(2-吡啶基)二硫代丙酰基-β-环糊精(am₆amPDP₁-βCD)。

更合适的衔接子包括γ-环糊精，其包含9个糖单元(因此具有九倍对称性)。γ-环糊精可以含有接头分子，或者可以修饰为包含在以上讨论的β-环糊精实例中使用的所有或更多个经修饰的糖单元。

分子衔接子可以共价附接到突变单体。可以使用本领域已知的任何方法将衔接子共价附接到孔上。衔接子通常通过化学连接而附接。如果分子接头通过半胱氨酸连接而附接，则优选通过取代将一个或多个半胱氨酸引入突变体，例如引入桶中。可以通过分子衔接子与突变单体中的一个或多个半胱氨酸的附接来化学修饰突变单体。所述一个或多个半胱氨酸可以是天然存在的，即在SEQ ID NO:3中的位置1和/或215处。可替代地，可以通过分子与其他位置引入的一个或多个半胱氨酸的附接来化学修饰突变单体。可以例如通过取代来去除位置215处的半胱氨酸，以确保分子衔接子不附接到该位置，而是附接到位置1处的半胱氨酸或另一位置引入的半胱氨酸。

半胱氨酸残基的反应性可通过对相邻残基的修饰得以增强。例如，侧翼的精氨酸、组氨酸或赖氨酸残基的碱性基团将会使半胱氨酸硫醇基团的pKa变为反应性更高的S^-基团的pKa。半胱氨酸残基的反应性可以受到硫醇保护基诸如dTNB的保护。在接头附接之前，它们可以与突变单体的一个或多个半胱氨酸残基反应。

分子可以直接附接到突变单体上。优选使用接头，诸如化学交联剂或肽接头使分子附接到突变单体上。

合适的化学交联剂是本领域众所周知的。优选的交联剂包括2,5-二氧吡咯烷-1-基3-(吡啶-2-基二硫烷基)丙酸酯、2,5-二氧吡咯烷-1-基4-(吡啶-2-基二硫烷基)丁酸酯和2,5-二氧吡咯烷-1-基8-(吡啶-2-基二硫烷基)辛酸酯。最优选的交联剂是3-(2-吡啶基二硫代)丙酸琥珀酰亚胺基(SPDP)。通常，在将分子/交联剂复合物共价附接到突变单体之前，将分子共价附接到双官能交联剂上，但是也可以在将双官能交联剂/单体复合物附接到分子之前将双官能交联剂共价附接到单体上。

接头优选对二硫苏糖醇(DTT)具有抗性。合适的接头包括但不限于基于碘乙酰胺和基于马来酰亚胺的接头。

在其他实施方案中，单体可以附接到多核苷酸结合蛋白上。这样形成了可以在本发明的测序方法中使用的模块化测序系统。下面讨论多核苷酸结合蛋白。

多核苷酸结合蛋白优选共价附接到突变单体上。可以使用本领域已知的任何方法将蛋白质共价附接到单体上。单体和蛋白质可以化学融合或遗传融合。如果整个构建体由单个多核苷酸序列表达，则单体和蛋白质是遗传融合的。在WO 2010/004265中讨论了单体与多核苷酸结合蛋白的遗传融合。

如果多核苷酸结合蛋白通过半胱氨酸连接而附接，则优选通过取代将所述一个或多个半胱氨酸引入突变体中。优选将所述一个或多个半胱氨酸引入环区中，在同源物中该环区具有低保守性，表明可以耐受突变或插入。因此，它们适于附接多核苷酸结合蛋白。在此类实施方案中，可以去除位置251处天然存在的半胱氨酸。如上所述，可以通过修饰增强半胱氨酸残基的反应性。

多核苷酸结合蛋白可以直接附接到突变单体上，或通过一个或多个接头附接。可以使用如WO 2010/086602中所述的杂交接头将分子附接到突变单体。可替代地，可以使用肽接头。肽接头是氨基酸序列。通常将肽接头的长度、柔性和亲水性设计成使其不扰乱单体和分子的功能。优选的柔性肽接头是2至20个，诸如4、6、8、10或16个丝氨酸和/或甘氨酸氨基酸的延伸段。更优选的柔性接头包括(SG)₁、(SG)₂、(SG)₃、(SG)₄、(SG)₅和(SG)₈，其中S为丝氨酸且G为甘氨酸。优选的刚性肽接头是2至30个，诸如4、6、8、16或24个脯氨酸氨基酸的延伸段。更优选的刚性接头包括(P)₁₂，其中P是脯氨酸。

化学修饰

突变CsgG单体或CsgF肽可以用分子衔接子和多核苷酸结合蛋白进行化学修饰。

分子(用其对单体或肽进行化学修饰)可以直接附接到单体或肽上，或通过接头附接，如WO 2010/004273、WO 2010/004265或WO 2010/086603中公开的。

可以修饰本文所述的任何蛋白质，诸如CsgG单体和/或CsgF肽，以有助于对其进行鉴定或纯化，例如通过添加组氨酸残基(his标签)、天冬氨酸残基(asp标签)、链霉亲和素标签、flag标签、SUMO标签、GST标签或MBP标签，或通过添加信号序列以促进其从多肽并非天然包含此类序列的细胞中分泌。引入遗传标签的替代方案是使标签与蛋白质上的天然或工程化位置发生化学反应。这样的一个实例是使凝胶迁移试剂与蛋白质外部工程化的半胱氨酸反应。已经证明这是用于分离溶血素异源寡聚物的方法(Chem Biol.1997年7月；4(7):497-505)。

本文所述的任何蛋白质，诸如CsgG单体和/或CsgF肽，可以用显露标记物标记。显露标记物可以是允许检测蛋白质的任何合适的标记物。合适的标记物包括但不限于荧光分子、放射性同位素(例如¹²⁵I、³⁵S)、酶、抗体、抗原、多核苷酸和配体(诸如生物素)。

本文所述的任何蛋白质，诸如CsgG单体和/或CsgF肽，可以合成制备或通过重组方式制备。例如，可以通过体外翻译和转录(IVTT)来合成蛋白质。可以将蛋白质的氨基酸序列修饰为包括非天然存在的氨基酸或增加蛋白质的稳定性。当通过合成方式生产蛋白质时，可以在生产期间引入此类氨基酸。也可以在合成或重组生产后改变蛋白质。

也可以使用D-氨基酸生产蛋白质。例如，蛋白质可以包含L-氨基酸和D-氨基酸的混合物。这在产生此类蛋白质或肽的领域中是常规的。

蛋白质还可以含有其他非特异性修饰，只要它们不干扰蛋白质的功能即可。许多非特异性侧链修饰是本领域已知的，并且可以对蛋白质的侧链产生非特异性侧链修饰。此类修饰包括，例如，通过与醛反应，然后用NaBH₄还原对氨基酸进行还原烷基化，用亚氨酰乙酸甲酯进行酰胺化或用乙酸酐进行酰化。

可以使用本领域已知的标准方法来产生本文所述的任何蛋白质，诸如CsgG单体和/或CsgF肽。编码蛋白质的多核苷酸序列可以使用本领域的标准方法得到并复制。可以使用本领域的标准技术在细菌宿主细胞中表达编码蛋白质的多核苷酸序列。可以通过使多肽从重组表达载体原位表达而在细胞中产生蛋白质。表达载体任选地携带诱导型启动子以控制多肽的表达。这些方法在Sambrook,J.and Russell,D.(2001).Molecular Cloning:ALaboratory Manual，第3版Cold Spring Harbor Laboratory Press,Cold SpringHarbor,NY中进行了描述。

在通过任何蛋白质液相色谱系统从产生蛋白质的生物体中纯化后或在重组表达后，可以大规模生产蛋白质。典型的蛋白质液相色谱系统包括FPLC、AKTA系统、Bio-Cad系统、Bio-Rad BioLogic系统和Gilson HPLC系统。

产生孔的方法

在第三方面，本发明提供了在体内和体外产生拥有两个或更多个收缩位点的CsgG:经修饰的CsgF孔复合物的方法。一个实施方案提供了一种通过共表达产生跨膜孔复合物的方法，所述跨膜孔复合物包含CsgG孔或其同源物或突变体形式，以及经修饰的CsgF肽或其同源物或突变体。所述方法包括以下步骤：在合适的宿主细胞中表达CsgG单体(表达为SEQ ID NO:2中提供的前蛋白，或其同源物或突变体)，并且表达经修饰或截短的CsgF单体，从而允许在体内形成复合物孔。所述复合物包含与CsgG孔复合的经修饰的CsgF肽，以为孔提供附加读取头。使用经修饰的CsgF肽通过所述方法产生的所得孔复合物提供了足以使用该孔复合物表征靶分析物(诸如核酸测序)的结构，因为它允许分析物，尤其是多核苷酸链通过，并且包含两个或更多个读取头，用于改善在针对所述应用的适当环境中使用时对所述多核苷酸序列的读取。

更特别地，在所述方法中表达的经修饰的CsgF肽包含SEQ ID NO:8、10、12或14中描绘的前蛋白或其同源物。那些序列将该方法限于那些能够在孔复合物中引入收缩位点并与CsgG蛋白孔结合以获得生物孔的CsgF片段。

产生由CsgG和CsgF蛋白等形成的分离的孔复合物的另一种方法涉及所述单体的体外重构以获得功能性孔。所述方法包括使SEQ ID NO:3中描绘的成熟CsgG单体或其同源物或突变体与经经修饰的CsgF肽或其同源物或突变体在合适的系统中接触以允许复合物形成的步骤。所述系统可以是“体外”系统，这是指至少包含执行所述方法的必要组分和环境的系统，并且利用在其正常的天然存在的环境之外的生物分子、生物体、细胞(或细胞的一部分)，容许比用整个生物体可以进行的分析更详细、更方便或更有效的分析。体外系统还可以包含在试管中提供的合适的缓冲液组合物，其中已经添加了形成复合物的所述蛋白质组分。本领域的技术人员知道提供所述系统的选择。在特定实施方案中，在用于体外重构的所述方法中应用的所述经修饰的CsgF肽等是包含SEQ ID NO:15或SEQ ID NO:16，或其突变体或同源物的肽，所述肽可以合成或重组产生。可替代地，在所述方法中提供了包含SEQID NO:40、39、38或37、15、54、55或其同源物或突变体的经修饰的CsgF肽，用于与CsgG或CsgG样孔接触以产生孔复合物。

CsgG/CsgF孔可以通过任何合适的方法制备。描述了此类合适方法的实例。

在一个实施方案中，CsgG/CsgF孔可以通过共表达产生。在该实施方案中，一个载体中的至少一个编码CsgG单体多肽(可以是突变多肽)的基因和第二载体中的编码至少一个全长或截短的CsgF多肽(可以是突变多肽)的基因可以一起转化以表达蛋白质，并在转化细胞中产生复合物。这可以是在体内或在体外。可替代地，可以将编码CsgG和CsgF多肽的两个基因置于一个载体中处于单个启动子的控制下或处于两个可以相同或不同的单独启动子的控制下。

在另一个实施方案中，通过使CsgG单体与CsgF肽单独表达来产生CsgG/CsgF孔。可以从用一种编码至少一种CsgG单体的载体或用多于一种各自表达CsgG单体的载体转化的细胞中纯化CsgG单体或CsgG孔。可以从用编码至少一种CsgF肽的载体转化的细胞中纯化CsgF肽。然后可以将纯化的CsgG单体/孔与CsgF肽一起孵育以制备孔复合物。

在另一个实施方案中，通过体外翻译和转录(IVTT)单独产生CsgG单体和/或CsgF肽。然后可以将CsgG单体与CsgF肽一起孵育以制备孔复合物。图14中说明了这种方法的用途。

上述实施方案可以组合，使得例如，(i)在体内产生CsgG且在体内产生CsgF；(ii)在体外产生CsgG，而在体内产生CsgF；(iii)在体内产生CsgG，而在体外产生而CsgF；(iv)在体外产生CsgG且在体外产生CsgF。

可以标记CsgG单体和CsgF肽之一或两者以促进纯化。当CsgG单体和/或CsgF肽未标记时，也可以进行纯化。本领域已知的方法(例如离子交换、凝胶过滤、疏水相互作用柱色谱法等)可以单独地或以不同组合用于纯化孔的组分。

任何已知的标签均可用于两种蛋白质中的任何一种中。在一个实施方案中，可以使用双标签纯化法从CsgG孔和CsgF中纯化CsgG:CsgF复合物。例如，可以在CsgG中使用Strep标签，而在CsgF中使用His标签，反之亦然。图13对此进行了例示。当将两种蛋白质单独纯化并混合在一起，然后进行另一轮Strep和His纯化时，可以获得相似的最终结果。

当全长CsgF蛋白与CsgG形成复合物时，CsgF的颈部和头部结构域(图4B)(以红色方框示出)从CsgG孔的β桶中突出。

因此，如果在单通道记录实验中使用包含CsgG孔和全长CsgF的孔，则头部结构域可能会阻碍或阻止孔插入膜中。它们也可能会阻塞孔中分析物要通过的通路。因此，将孔插入膜中时，最好减少从β-桶悬垂下来的柔性多肽的数量。本文提供了CsgF蛋白的截短形式，其模拟在复合物的cryo EM结构中分辨的FCP区并保持结构完整性。

CsgG/CsgF孔可以在插入膜中之前或在将CsgG孔插入膜中之后制备。当在插入膜中之前制备孔复合物时，优选使用截短突变体。然而，可以将CsgG孔插入膜中，然后再添加CsgF肽，使得可以原位形成CsgG和CsgF复合物。例如，在其中膜的反面可接近的系统(例如在用于电生理学测量的芯片或腔室中)的一个实施方案中，可将CsgG孔插入膜中，然后可从膜的反面添加CsgF肽，使得可以原位形成复合物。在其中原位形成CsgG孔的任何实施方案中，可以使用更大的CsgF肽。例如，CsgF肽可包含CsgF的整个或部分颈部结构域(大约从SEQID NO:6的残基36开始)。在一些实施方案中，CsgF可包含整个颈部结构域和部分头部结构域(SEQ ID NO:6的残基36至XX)。

根据制备复合物的方法和具有特定截短的复合物的稳定性，可以用不同的方法制备CsgG:CsgF和CsgG:FCP复合物。

在一个实施方案中，直接使用所需长度的CsgF多肽的截短形式。

另一个实施方案使用CsgF的全长多肽或比其中插入蛋白酶裂解位点(例如，TEV、HRV 3或任何其他蛋白酶裂解位点)的所需截短物更长(足以保持复合物稳定)的多肽，使得通过蛋白酶裂解产生所需长度的CsgF肽。在该实施方案中，一旦形成CsgG/CsgF复合物，就使用蛋白酶在所需位点裂解CsgF。可替代地，可以在复合物组装之前使用蛋白酶产生CsgF肽。

一些蛋白酶位点在裂解后会留下附加标签。例如，TEV蛋白酶裂解序列是ENLYFQS。TEV蛋白酶在Q和S之间裂解蛋白质，在CsgF肽的C端留下完整的ENLYFQ。图15显示了使用包含TEV裂解位点的经修饰的CsgF的实例，在复合物形成后使用TEV蛋白酶裂解经修饰的CsgF。

作为另一个实例，HRV C3裂解位点是LEVLFQGP，并且酶在Q和G之间裂解，在CsgF肽的C端留下完整的LEVLFQ。

表征分析物的方法

在另一方面，本发明提供了一种确定靶分析物的存在、不存在或一个或多个特征的方法。该方法包括使靶分析物与分离的孔复合物或跨膜孔(诸如本发明的孔)接触，使得靶分析物相对于孔通道移动，例如进入或通过孔通道并且在分析物相对于孔移动时进行一项或多项测量，从而确定分析物的存在、不存在或一个或多个特征。靶分析物也可以称为模板分析物或目标分析物。分离的孔复合物通常包含至少7个、至少8个、至少9个或至少10个单体，诸如7、8、9或10个CsgG单体。分离的孔复合物优选包含八个或九个相同的CsgG单体。优选对一个或多个，诸如2、3、4、5、6、7、8、9或10个CsgG单体进行化学修饰，或者对CsgF肽进行化学修饰。分离的孔复合物单体，诸如CsgG单体，或其同源物或突变体，以及经修饰的CsgF单体，或其同源物或突变体，可以源自任何生物体。分析物可以先通过CsgG收缩段，然后通过CsgF收缩段。在一个替代实施方案中，根据膜中CsgG/CsgF复合物的取向，分析物可以先通过CsgF收缩段，然后通过CsgG收缩段。

该方法用于确定靶分析物的存在、不存在或一个或多个特征。该方法可以用于确定至少一种分析物的存在、不存在或一个或多个特征。该方法可以涉及确定两种或更多种分析物的存在、不存在或一个或多个特征。该方法可以包括确定任意数量的分析物，诸如2、5、10、15、20、30、40、50、100或更多种分析物的存在、不存在或一个或多个特征。可以确定所述一种或多种分析物的任意数量的特征，诸如1、2、3、4、5、10种或更多种特征。

分子结合在孔复合物的通道中或通道任一开口的附近将对通过该孔的开口通道离子流产生影响，这是孔通道“分子感测”的基本。以类似于核酸测序应用的方式，可以使用合适的测量技术通过电流的变化来测量开口通道离子流的变化(例如，WO 2000/28312和D.Stoddart等人，Proc.Natl.Acad.Sci.,2010,106,7702-7或WO 2009/077734)。正如通过电流的减少所测量的，离子流的减少程度与孔内或附近的堵塞物大小有关。因此，目标分子(也称为“分析物”)结合在孔中或附近提供了可检测和可测量的事件，从而形成了“生物感测器”的基础。适于纳米孔感测的分子包括核酸；蛋白质；肽；多糖和小分子(此处是指低分子量(例如，<900Da或<500Da)的有机或无机化合物)，诸如药物、毒素、细胞因子和污染物。检测生物分子的存在可用于个性化药物开发、医学、诊断、生命科学研究、环境监测以及安全和/或国防工业。

另一方面，含有野生型或经修饰的大肠杆菌CsgG纳米孔或其同源物或突变体，以及为复合物中的孔提供通道收缩段的经修饰的CsgF肽的分离的孔复合物或跨膜孔复合物，可以用作分子或生物感测器。在一些实施方案中，CsgG纳米孔可以源自或分离自细菌蛋白(例如，大肠杆菌、伤寒沙门氏菌(Salmonella typhi))。在一些实施方案中，CsgG纳米孔可以重组产生。分析物检测的程序在Howorka等人Nature Biotechnology(2012年)6月7日；30(6):506-7中进行了描述。待检测的分析物分子可以结合在通道的任一面上，或结合在通道本身的内腔中。结合的位置可由待感测的分子大小决定。

靶分析物优选为金属离子、无机盐、聚合物、氨基酸、肽、多肽、蛋白质、核苷酸、寡核苷酸、多核苷酸、多糖、染料、漂白剂、药物、诊断剂、消遣性药物、爆炸性物质、有毒化合物或环境污染物。该方法可以涉及确定两种或更多种相同类型的分析物(诸如两种或更多种蛋白质、两种或更多种核苷酸或两种或更多种药物)的存在、不存在或一个或多个特征。可替代地，该方法可以涉及确定两种或更多种不同类型的分析物(诸如一种或多种蛋白质、一种或多种核苷酸或一种或多种药物)的存在、不存在或一个或多个特征。

靶分析物可以从细胞中分泌出来。可替代地，靶分析物可以是存在于细胞内部的分析物，使得在可以进行该方法之前必须从细胞中提取分析物。

野生型孔可以充当感测器，但常常通过重组或化学方法进行修饰，以增加待感测分子的结合强度、结合位置或结合特异性。典型的修饰包括添加与待感测分子的结构互补的特异性结合部分。在分析物分子包含核酸的情况下，该结合部分可以包含环糊精或寡核苷酸；对于小分子而言，这可以是已知的互补结合区，例如抗体或非抗体分子的抗原结合部分，包括单链可变片段(scFv)区或来自T细胞受体的抗原识别结构域(TCR)；或者对于蛋白质而言，它可以是靶蛋白的已知配体。这样，可以使野生型或经修饰的大肠杆菌CsgG纳米孔或其同源物能够充当分子感测器，用于检测样品中合适抗原(包括表位)的存在，所述抗原可包括细胞表面抗原(包括受体、实体瘤或血液癌细胞(例如淋巴瘤或白血病)的标志物)、病毒抗原、细菌抗原、原生动物抗原、过敏原、过敏相关分子、白蛋白(例如人、啮齿动物或牛)、荧光分子(包括荧光素)、血型抗原、小分子、药物、酶、酶或酶底物的催化位点以及酶底物的过渡态类似物。如上所述，可以使用已知的基因工程和重组DNA技术来实现修饰。任何适应化(adaptation)的位置将取决于待感测分子的性质，例如大小、三维结构及其生物化学性质。适应化结构的选择可以利用计算结构设计。可以使用下述技术，诸如使用表面等离子体共振检测分子相互作用的(BIAcore,Inc.,Piscataway,NJ；还请参见www.biacore.com)，研究对蛋白质-蛋白质相互作用或蛋白质-小分子相互作用的测定和优化。

在一个实施方案中，分析物是氨基酸、肽、多肽或蛋白质。氨基酸、肽、多肽或蛋白质可以是天然存在的或非天然存在的。多肽或蛋白质可在其中包含合成的或经修饰的氨基酸。氨基酸的几种不同类型的修饰是本领域已知的。合适的氨基酸及其修饰如上所述。应当理解，可以通过本领域中可用的任何方法来修饰靶分析物。

在另一个实施方案中，分析物是定义为包含两个或更多个核苷酸的大分子的多核苷酸，诸如核酸。核酸特别适于纳米孔测序。DNA和RNA中天然存在的核酸碱基可以通过其实际大小来区分。当核酸分子或单个碱基通过纳米孔的通道时，碱基之间的大小差异会导致通过该通道的离子流直接相关地减少。可以记录离子流的变化。适于记录离子流变化的电测量技术在例如WO 2000/28312和D.Stoddart等人，Proc.Natl.Acad.Sci.,2010,106，第7702-7页(单通道记录设备)；以及例如在WO 2009/077734(多通道记录技术)中进行了描述。通过合适的校准，离子流的特征性减少可用于实时鉴定经过通道的特定核苷酸和相关碱基。在典型的纳米孔核酸测序中，由于核苷酸部分阻塞通道，当目标核酸序列的单个核苷酸依次通过纳米孔的通道时，开放通道离子流减少。这是使用上述合适的记录技术测得的这种离子流的减少。可以将离子流的减少校准为针对通过通道的已知核苷酸所测得的离子流的减少，从而得到一种用于确定正在通过该通道的核苷酸的方式，因此，当依次进行时，得到一种确定通过纳米孔的核酸的核苷酸序列的途径。为了准确地确定单个核苷酸，通常需要使通过通道的离子流的减少与通过收缩段(或“读取头”)的单个核苷酸的大小直接相关。应当认识到，例如，可以对完整的核酸聚合物进行测序，所述完整的核酸聚合物通过相关聚合酶的作用“穿过”该孔。可替代地，可以通过使已经依次从靠近孔的靶核酸中移除的核苷酸三磷酸碱基通过来确定序列(参见例如WO 2014/187924)。

多核苷酸或核酸可以包含任何核苷酸的任何组合。核苷酸可以是天然存在的或人工的。多核苷酸中的一个或多个核苷酸可以氧化或甲基化。多核苷酸中的一个或多个核苷酸可能受损。例如，多核苷酸可以包含嘧啶二聚体。此类二聚体通常与受紫外线损伤相关，并且是皮肤黑素瘤的主要原因。可以例如用本领域技术人员已知其合适实例的标记物或标签修饰多核苷酸中的一个或多个核苷酸。多核苷酸可以包含一个或多个间隔区。核苷酸通常含有核碱基、糖和至少一个磷酸基团。核碱基和糖形成核苷。核碱基通常为杂环。核碱基包括但不限于嘌呤和嘧啶，更具体地包括腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。糖通常是戊糖。核苷酸糖包括但不限于核糖和脱氧核糖。糖优选为脱氧核糖。多核苷酸优选包含以下核苷：脱氧腺苷(dA)、脱氧尿苷(dU)和/或脱氧胸苷(dT)、脱氧鸟苷(dG)和脱氧胞苷(dC)。核苷酸通常为核糖核苷酸或脱氧核糖核苷酸。核苷酸通常含有单磷酸、二磷酸或三磷酸。核苷酸可包含多于三个磷酸，例如4或5个磷酸。磷酸可以附接在核苷酸的5′或3′侧。多核苷酸中的核苷酸可以任何方式彼此附接。如核酸中那样，核苷酸通常通过糖和磷酸基团附接。如嘧啶二聚体中那样，核苷酸可以通过其核碱基连接。多核苷酸可以是单链或双链。多核苷酸的至少一部分优选为双链。多核苷酸最优选为核糖核酸(RNA)或脱氧核糖核酸(DNA)。具体而言，使用多核苷酸作为分析物的所述方法可替代地包括确定一个或多个选自以下的特征：(i)多核苷酸的长度，(ii)多核苷酸的同一性，(iii)多核苷酸的序列，(iv)多核苷酸的二级结构以及(v)多核苷酸是否被修饰。

多核苷酸可以是任何长度(i)。例如，多核苷酸的长度可以是至少10个，至少50个，至少100个，至少150个，至少200个，至少250个，至少300个，至少400个或至少500个核苷酸或核苷酸对。多核苷酸的长度可以是1000个或更多个核苷酸或核苷酸对，5000个或更多个核苷酸或核苷酸对，或者长度是100000个或更多个核苷酸或核苷酸对。可以研究任意数量的多核苷酸。例如，该方法可以涉及表征2、3、4、5、6、7、8、9、10、20、30、50、100个或更多个多核苷酸。如果表征两个或更多个多核苷酸，则它们可以是不同的多核苷酸或相同多核苷酸的两个示例。多核苷酸可以是天然存在的或人工的。例如，该方法可以用于检验制造的寡核苷酸的序列。该方法通常在体外进行。

核苷酸可以具有任何同一性(ii)，包括但不限于单磷酸腺苷(AMP)、单磷酸鸟苷(GMP)、单磷酸胸苷(TMP)、单磷酸尿苷(UMP)、单磷酸5-甲基胞苷、单磷酸5-羟甲基胞苷、单磷酸胞苷(CMP)、单磷酸环腺苷(cAMP)、单磷酸环鸟苷(cGMP)、单磷酸脱氧腺苷(dAMP)、单磷酸脱氧鸟苷(dGMP)、单磷酸脱氧胸苷(dTMP)、单磷酸脱氧尿苷(dUMP)、单磷酸脱氧胞苷(dCMP)和单磷酸脱氧甲基胞苷。核苷酸优选选自AMP、TMP、GMP、CMP、UMP、dAMP、dTMP、dGMP、dCMP和dUMP。核苷酸可以是脱碱基的(即缺乏核碱基)。核苷酸也可以缺少核碱基和糖(即为C3间隔区)。核苷酸的序列(iii)通过在整个多核苷酸链中沿链的5′至3′方向彼此附接的相随核苷酸的连续同一性来确定。

包含CsgG孔和CsgF肽的孔在分析均聚物中特别有用。例如，所述孔可用于确定包含两个或更多个，例如至少3、4、5、6、7、8、9或10个相同的连续核苷酸的多核苷酸的序列。例如，所述孔可用于对包含polyA、polyT、polyG和/或polyC区的多核苷酸进行测序。

CsgG孔收缩段由SEQ ID NO:3的51、55和56位置的残基组成。CsgG及其收缩突变体的读取头通常很敏锐。当DNA通过收缩段时，在任何给定时间，DNA的大约5个碱基与孔的读取头的相互作用将主导电流信号。尽管这些更敏锐的读取头非常擅于读取DNA的混合序列区(当A、T、G和C混合时)，但是当DNA中存在均聚物区(例如：polyT、polyG、polyA、polyC)时，信号将变得平坦且缺乏信息。因为5个碱基主导CsgG及其收缩突变体的信号，因此不使用其他停留时间信息，很难区别长于5个的光敏聚合物。然而，如果DNA通过第二读取头，则更多的DNA碱基将会与组合读取头相互作用，从而增加了可以区别的均聚物的长度。实施例和附图显示，使用包含CsgG孔和CsgF肽的孔实现了均聚物测序准确性的这种提高。

试剂盒

另一方面，本发明还提供了一种用于表征靶多核苷酸的试剂盒。该试剂盒包含根据本发明的分离的孔复合物，以及膜或绝缘层的组分。膜优选地由所述组分形成。分离的孔复合物优选存在于膜或绝缘层中，一起形成跨膜孔复合物通道。该试剂盒可包含任何类型的膜，诸如两亲性层或三嵌段共聚物膜的组分。该试剂盒还可包含多核苷酸结合蛋白。该试剂盒还可包一种或多种用于将多核苷酸偶联至膜的锚。该试剂盒可以另外包含一种或多种使以上提到的任何实施方案能够实现的其他试剂或仪器。此类试剂或仪器包括以下的一种或多种：合适的缓冲液(水溶液)，用于从受试者获得样品的装置(诸如包含针头的容器或仪器)，用于扩增和/或表达多核苷酸的装置或电压钳或膜片钳设备。试剂可以呈干燥状态存在于试剂盒中，使得液体样品使试剂重新悬浮。该试剂盒还可以任选地包含使该试剂盒能够用于本发明的方法中的说明书或关于该方法可以用于哪种生物体的详情。最后，该试剂盒还可包含可用于肽表征的附加组分。

在一个实施方案中，如本发明所提供的，分离的孔复合物或跨膜孔复合物用于核酸测序。对于所述用途，Phi29 DNA聚合酶(DNAP)可以用作分子马达，其中CsgG:CsgF纳米孔复合物位于膜内，以允许寡聚探针DNA链通过孔的受控运动。可以在孔上施加电压，并且由于纳米孔任一侧的盐溶液中的离子运动而产生电流。当探针DNA移动通过孔时，通过孔的离子流相对于DNA发生变化。已经证实该信息具有序列依赖性，并允许从电流测量中准确读取探针的序列。

应当理解，尽管本文已经针对根据本发明的工程细胞和方法讨论了特定实施方案、具体构造以及材料和/或分子，但是在不背离本发明的范围和精神的前提下，可以在形式和细节上进行各种变化或修改。提供以下实施例是为了更好地说明特定实施方案，并且不应将这些实施例视为限制了本申请。本申请仅受权利要求书的限制。

实施例

介绍

CsgG孔是VIII型多组分分泌系统(也称为curli生物合成系统)的一部分，该系统负责形成大肠杆菌中称为curli的聚集纤维。curli是细胞外蛋白质纤维，主要参与细菌生物膜的形成以及与非生物表面的附接。curli生物合成由大肠杆菌中称为csgBAC和csgDEFG(curli特异性基因)的两个操纵子指导(Hammar等人，1995)。curli亚基CsgA和CsgB的分泌取决于CsgG，CsgG是一种发现会在外膜中形成寡聚分泌通道的专用脂蛋白。为了转运，CsgG与周质和细胞外辅助蛋白CsgE和CsgF协同作用。CsgE形成CsgG介导的转运的特异性因子，而CsgF似乎将CsgA的分泌与以CsgB为模板聚集成细胞外纤维偶联起来。

CsgG分泌通道的晶体结构证明CsgG会形成直径和高度的九聚体转运复合物，该复合物使OM通过内径的36链-桶(Goyal等人，2014；图1)。通过虹膜状隔膜与跨膜β-桶隔开的通道的周质结构域，形成的大的溶剂可及空腔。该隔膜由每个亚基中发现的保守性12残基“收缩环”(CL)形成，其在CsgG寡聚物中的同心组织形成不包括溶剂的直径约为～0.6nm且高度为～1.5nm的孔口(图1)。当充当蛋白质分泌通道时，CsgG通道中的这个孔口或收缩段形成了与易位多肽相互作用的主要位点。当CsgG用作纳米孔感测平台时，对于留在通道中或通过通道的分析物，这个孔口起到主读取头的作用。可以通过与SEQID NO:3的残基46至61相对应的蛋白质区中的氨基酸取代、缺失或插入来改变孔口的直径及其物理和化学性质(图1D)。具体而言，根据SEQ ID NO:3的位置51、55和56的突变一起或单独地对纳米孔的电导特征及其与分析物(包括多核苷酸)的相互作用具有有益影响。

组装因子CsgF代表curli分泌设备的组分。CsgF前蛋白通过SEC途径到达周质，此后以CsgG依赖性方式发现成熟CsgF(12.9KDa)为表面暴露蛋白。在CsgG的存在下，CsgF随OM一起分离，并且免疫共沉淀实验表明这两种蛋白直接接触。可用数据证明，CsgF对于生产性亚基分泌而言不是必需的，相反表明该蛋白通过协调或伴护CsgB亚基的成核功能，形成CsgA分泌和细胞外聚合成curli纤维之间的偶联因子。

实施例1：CsgG:CsgF复合物蛋白的产生(CsgG与CsgF合成肽的共表达、体外重构、体外偶联转录和翻译及重构)

为了产生CsgG:CsgF复合物，可以在合适的革兰氏阴性宿主诸如大肠杆菌中共表达两种蛋白，并作为复合物从外膜中提取并纯化。体内形成CsgG孔和CsgG:CsgF复合物需要使蛋白质靶向外膜。为此，使CsgG表达为在成熟蛋白(SEQ ID NO:3)的N端具有具有脂蛋白信号肽(Juncker等人2003,Protein Sci.12(8):1652-62)和Cys残基的前原蛋白(prepro-protein)。此类脂蛋白信号肽的实例是SEQ ID NO:2所示的全长大肠杆菌CsgG的残基1-15。对前原CsgG的加工导致信号肽裂解和成熟CsgG脂化，随后将成熟脂蛋白转移到外膜，在外膜中以寡聚物孔的形式插入(Goyal等人，2014,Nature 516(7530):250-3)。为了形成CsgG:CsgF复合物，可以使CsgF与CsgG共表达并借助于前导序列(诸如与SEQ ID NO:5的残基1-19相对应的天然信号肽)使其靶向周质。然后可以使用洗涤剂从外膜中提取CsgG:CsgF组合孔，并通过色谱法纯化为均匀的复合物(图2)。

可替代地，可以使用CsgG孔和CsgF通过体外重构来产生CsgG:CsgF孔复合物–参见下文和图3。

对于图2所示实例中体内CsgG:CsgF复合物的形成，使用其天然信号肽使大肠杆菌CsgF(SEQ ID NO:5)和CsgG(SEQ ID NO:2)共表达以确保两种蛋白质靶向周质，以及CsgG的N端脂化。另外，为了易于纯化，通过引入C端6x组氨酸标签来修饰CsgF，并且使CsgG C端与Strep-II标签融合。如方法中所述，进行共表达和复合物纯化。对His亲和纯化洗脱物的SDS-PAGE分析揭示了CsgF-His的富集以及CsgG-Strep的共纯化，表明后者与CsgF呈复合物(图2B)。另外，SDS-PAGE揭示，很大一部分洗脱的CsgF由于蛋白质N端片段的丢失而以较低的分子量运行(图2B，用星号表示)。对第二次亲和纯化的His-trap洗脱物的汇集级分的SDS-PAGE分析揭示存在明显等摩尔浓度的CsgG和CsgF，以及在His-trap洗脱物中看到CsgF截短片段的丢失(图2B)。在Strep亲和纯化中CsgF的共洗脱表明该蛋白与CsgG作为非共价复合物存在。令人惊讶的是，CsgF的N端截短片段在Strep亲和纯化中丢失，表明CsgF N端是结合CsgG所需的(图2B)。

图13显示了通过体内共表达形成CsgG:CsgF复合物的另一个实例。在该实例中，CsgG蛋白经C端Strep-II标签修饰，而CsgF全长蛋白经C端10X组氨酸标签修饰。通过Strep标签纯化，然后通过组氨酸标签纯化将共表达的CsgG:CsgF复合物从其组成组分中纯化出来，如用于分析物表征的材料和方法部分中所述。由于分子量的差异，可以在SDS-PAGE分析中将CsgG:CsgF复合物与CsgG孔明确地区分开(图13A)。如图13.B所示，两种标签纯化法可以成功地应用于将CsgG:CsgF复合物从其组成组分中纯化出来。

为了通过体外重构产生CsgG:CsgF复合物，在分别用pPG1和pNA101转化的单独大肠杆菌培养物中表达CsgG和CsgF，并且纯化，然后体外重构CsgG:CsgF复合物(参见方法)。为了进行比较，使纯化的CsgG与复合物类似地在Superose 6色谱柱上运行。CsgG Superose6运行显示存在两个对应于九聚体CsgG孔(图3A(a)和3C)以及九聚体CsgG孔的二聚体(图3A(b)和3C)的离散群体，如先前在Goyal等人(2014)中所述。CsgG:CsgF重构的Superose 6运行揭示存在三个对应于过量CsgF(图3A(c))、九聚体CsgG:CsgF复合物(图3A(d))和九聚体CsgG:CsgF的二聚体(图3A(e))的离散群体。为了提供对CsgG:CsgF复合物形成的独立确认，在天然PAGE上分析了各个Superose 6洗脱峰(图3B)。

令人惊讶的是，CsgG:CsgF复合物也可以通过体外转录和翻译(IVTT)方法来制备，如用于分析物表征的材料和方法部分中所述。可以通过在相同的IVTT反应中表达CsgG和CsgF蛋白或在两个不同的IVTT反应中分别重构CsgG和CsgF来制备复合物。在图14所示的实例中，已使用大肠杆菌T7-S30环状DNA提取系统(Promega)在一种反应混合物中制备CsgG:CsgF复合物，并在SDS-PAGE上对蛋白质进行分析。由于IVTT中的蛋白质表达不使用蛋白质表达的天然分子机制，因此用于在IVTT中表达蛋白质的DNA缺少编码信号肽区的DNA。当在不存在CsgF的DNA的情况下在IVTT中表达CsgG的DNA时，只能产生CsgG的单体。令人惊讶的是，这些表达的单体可以通过使用IVTT反应混合物中存在的细胞提取物膜原位组装成CsgG寡聚物孔(图14，泳道1)。尽管CsgG的寡聚物是SDS稳定的，但是将样品加热到100℃时，它会分解成其组成单体(图14，泳道2)。当在不存在CsgG的DNA的情况下在IVTT中表达CsgF的DNA时，只可以看到CsgF单体(图14，泳道3)。当CsgG和CsgF的DNA以1:1的比率混合并在同一IVTT反应混合物中同时表达时，生成的CsgF蛋白与组装的CsgG孔高效地相互作用，以产生CsgG:CsgF复合物(图14，泳道5)。这种在IVTT中产生的SDS稳定的复合物至少在高达70℃时具有热稳定性(图14，泳道6-12)。

具有截短的CsgF的CsgG:CsgF复合物也可以通过使用编码截短的而不是全长形式的CsgF的DNA，通过以上所示的任何方法制备。然而，在FCP结构域以下截短CsgF时，复合物的稳定性可能受损。另外，一旦形成全长CsgG:CsgF复合物，就可以通过在适当的位置裂解全长CsgF来制备具有截短的CsgF的CsgG:CsgF复合物。可以通过在需要裂解的位置并入蛋白酶裂解位点来修饰编码CsgF蛋白的DNA来进行截短(图15.A)。Seq ID No.56-67显示了为产生具有截短的CsgF的CsgG:CsgF复合物在CsgF的各个位置并入的TEV或HCV C3蛋白酶位点。显示了用Seq ID No.61制备的CsgG:CsgF复合物的TEV裂解的SDS-PAGE分析(图15.B)。如用于分析表征的材料和方法部分中所述，用TEV蛋白酶处理CsgG:CsgF复合物(具有全长CsgF)时，CsgF在位置35处被截短(图15.B，泳道3和4)。然而，TEV裂解在裂解位点的C端留下了额外的6个氨基酸。因此，与CsgG孔复合的剩余CsgF截短蛋白为42个氨基酸长。这种复合物和CsgG孔(无CsgF)的分子量差异在SDS-PAGE中仍然可见(图15.B，泳道7和8)。

令人惊讶的是，也可以通过用适当长度的合成肽重构纯化的CsgG孔(通过体内或体外制备)来制备具有截短的CsgF的CsgG:CsgF复合物。由于重构是在体外进行的，因此制备CsgG:CsgF复合物不需要CsgF的信号肽。此外，该方法不会在CsgF的C端留下额外的氨基酸。也可以容易地向合成CsgF肽中并入突变和修饰。因此，该方法是非常方便的使不同的CsgG孔或其突变体或同源物与不同的CsgF肽或其突变体或同源物重构以产生不同的CsgG:CsgF复合物变体的途径。当超过FCP结构域截短CsgF时，复合物的稳定性可能受损。表3显示了用于产生CsgG:CsgF复合物变体的截短的CsgF和FCP肽的实例。令人惊讶的是，对用这种方法与CsgF-(1-45)(图16.A)、CsgF-(1-35)(图16.B)和CsgF-(1-30)(图16.C)制备的CsgG:CsgF复合物的热稳定性的SDS-PAGE分析显示至少CsgF-(1-45)和CsgF-(1-35)肽与CsgG产生在至少90℃下具有热稳定性的复合物。由于CsgG孔在90℃下分解成其组成单体，因此难以评估复合物在90℃以上的稳定性。由于SDS-PAGE中CsgG孔的条带与CsgG:CsgF-(1-30)复合物的条带之间的差异最小，该方法不足以分析CsgG:CsgF-(1-30)复合物的热稳定性(图16.C)。然而，在所有三种情况下都观测到了CsgG:CsgF复合物，甚至在电生理实验中观测到了CsgG:CsgF-(1-29)，表明甚至CsgF-(1-29)肽也产生了至少一些CsgG:CsgF复合物(图24)。

实施例2：通过cryo-EM进行的CsgG:CsgF结构分析

为了获得对CsgG:CsgF复合物的结构认识，通过透射电子显微镜分析了共纯化或体外重构的CsgG:CsgF颗粒。在准备cryo-EM分析时，将500μL双亲和纯化的CsgG:CsgF复合物的峰级分注入到用缓冲液D(25mM Tris pH8、200mM NaCl和0.03％ DDM)平衡的Superose6 10/30色谱柱上，并以0.5mL/分钟运行。基于计算的280nm下的吸光度并假定化学计量为1:1，确定蛋白质浓度。如方法中所述，分析用于冷冻电子显微镜检查的样品。图4显示了CsgG:CsgF复合物的cryo-EM显微照片以及来自挑选的CsgG:CsgF颗粒的两个选定类别平均值。显微照片显示存在九聚体孔的以及九聚体孔复合物的二聚体。对于图像重构，挑选九聚体CsgG:CsgF颗粒并使用RELION进行比对。作为侧视图的CsgG:CsgF复合物的类别平均值以及3D重建的电子密度显示，存在对应于CsgF的附加密度，被视为位于CsgGβ-桶侧面的来自CsgG颗粒的突起(图4B、图5)。附加密度揭示了三个不同的区，包括球形头部结构域，中空颈部结构域和与CsgGβ-桶相互作用的结构域。后一CsgF区，称为CsgF收缩肽或FCP，插入CsgGβ-桶的内腔并且可以看到形成了CsgG孔的附加收缩段(在图4B、图5中标记为F)，该收缩段位于由CsgG收缩环形成的收缩段(图4B、图5中标记为G)上方大约2nm处。

实施例3：通过截短CsgF鉴定CsgF相互作用和收缩肽

与仅CsgG的孔相比，CsgG:CsgF孔复合物中第二收缩段的存在为纳米孔感测应用提供了机会，在纳米孔中提供了第二个孔口，该孔口可用作第二读取头或用作由CsgG收缩环提供的主读取头的延伸(图6、图7)。然而，当与全长CsgF复合时，CsgG:CsgF组合孔的出口侧被CsgF颈部和头部结构域阻塞。因此，我们试图确定需要与CsgGβ-桶相互作用并插入其中的CsgF区。我们的Strep-tactin亲和纯化实验提示CsgG相互作用需要CsgF的N端区，因为在His-trap亲和纯化中存在的CsgF的N端截短片段丢失，没有与CsgG共纯化(图2B)。CsgF同源物的特征在于存在PFAM结构域PF03783。当进行革兰氏阴性细菌中发现的CsgG同源物的多序列比对(MSA)时(图8显示了所选CsgF同源物的MSA)，发现了与成熟CsgF(SEQ ID NO:6)的前～30-35个氨基酸相对应的序列保守区(成对序列同一性介于35至100％之间)。基于组合数据，假设CsgF的这个N端区会形成CsgG相互作用肽或FCP。图10中显示了已知CsgF同源物中FCP的多序列比对。

为了检验以下假设：CsgF N端与CsgG结合区相对应并且形成留在CsgGβ-桶内腔中的CsgF收缩肽，使Strep标记的CsgG和His标记的CsgF截短体在大肠杆菌中共同过表达(参见方法)。pNA97、pNA98、pNA99和pNA100编码与CsgF(SEQ ID NO:5)的残基1-27、1-38、1-48和1-64相对应的N端CsgF片段。这些肽包括与SEQ ID NO:5的残基1-19相对应的CsgF信号肽，因此将会产生与成熟CsgF(SEQ ID NO:6；图9A)的前8、19、29和45个残基相对应的周质肽，每个周质肽都包含C端6x His标签。对全细胞裂解物的SDS-PAGE分析揭示，所有样品中都存在CsgG，并且存在与成熟CsgF(SEQ ID NO:6；图9B)的前45个残基相对应的CsgF片段。对于较短的N端CsgF片段，在全细胞裂解物中未发现肽的可检测表达。在两个冷冻/解冻循环后，各种CsgG:CsgF片段的细胞团块通过纯化进一步富集。将全细胞裂解物以及Strep亲和纯化的洗脱级分点到硝酸纤维素膜上，使用抗His抗体进行斑点印迹分析，以检测His标记的CsgF片段(图9C)。斑点印迹显示CsgF 20:64肽与CsgG共纯化，证明该CsgF片段足以与CsgG形成稳定的非共价复合物。对于CsgG 20:48片段，可以发现少量肽与CsgG共纯化，而在全细胞裂解液或Strep亲和纯化中，对于CsgF 20:27或CsgF 20:38均未发现可检测水平(图9C)，表明后面这些肽未在大肠杆菌中稳定表达，和/或未与CsgG形成稳定复合物。

实施例4：以原子级分辨率描述CsgG：CsgF相互作用。

为了获得关于CsgG:CsgF相互作用的原子水平的详情，我们确定了CsgG:CsgF复合物的高分辨率cryoEM结构。为此，使CsgG和CsgF在大肠杆菌中重组表达并且通过洗涤剂提取从大肠杆菌外膜中分离，并使用串联亲和纯化法纯化。通过将3μl样品点到涂有氧化石墨烯的R2/1多孔网格(Quantifoil)上制备用于冷冻电子显微镜检查的样品，并在带有GatanK2直接电子检测器的300kV TITAN Krios上在计数模式下收集数据。使用62.000个单个CsgG:CsgF颗粒计算分辨率下的最终电子密度图(图11A)。该图允许CsgG晶体结构的明确对接和局部重建，以及成熟CsgF的N端35个残基(即Seq ID No.5的残基20:54)的从头构建，所述35个残基涵盖结合CsgG并在CsgG跨膜β-桶的高度形成第二收缩段的FCP(图11C、D)。cryoEM结构显示CsgG:CsgF具有9:9的化学计量比，具有C9对称性(图11B)。FCP结合在CsgGβ-桶的内部，CsgF的C端指向CsgGβ-桶的外面，而CsgF N端位于CsgG收缩段附近。该结构显示成熟CsgF中的P35位于CsgGβ-桶的外部，并且在CsgF FCP与颈部区之间形成连接。由于相对于CsgG:CsgF复合物的主体具有灵活性，因此无法在高分辨率cryoEM图中分辨CsgF的颈部和头部区。CsgGβ-桶中的三个区使CsgG:CsgF相互作用稳定：(IR1)成熟CsgG(SEQ IDNO:3)中的残基Y130、D155、S183、N209和T207与成熟CsgF(SEQ ID NO:6)的N端胺和残基1-4形成相互作用网络，包括四个氢键和一种静电相互作用；(IR2)成熟CsgG(SEQ ID N0:3)中的残基Q187、D149和E203与成熟CsgF(SEQ ID NO 6)中的R8和N9形成相互作用网络，涵盖三个H键和两种静电相互作用；和(IR3)成熟CsgG(SEQ ID NO:3)中的残基F144、F191、F193和L199与成熟CsgF(SEQ ID NO:6)中的残基F21、L22和A26形成疏水相互作用表面。后者位于由成熟CsgF的残基19-30形成的α-螺旋(螺旋1)中。保守序列N-P-X-F-G-G(SEQ ID NO:6中的残基9-14)形成连接残基15-19形成的环区与CsgF螺旋1的向内转角。这些元件一起在CsgG:CsgF复合物中产生收缩段，其中残基17(成熟大肠杆菌CsgF，即SEQ ID NO:6中的N17)形成最窄的点，从而产生直径为的孔口(图11C)。第二收缩段(F收缩段或FC)分别位于CsgG残基46至59形成的收缩段(G收缩段或GC)的顶部和底部上方大约和处。

实施例5：提高CcgG-CsgF复合物稳定性的模拟

进行了分子动力学模拟，以确定CsgG和CsgF中的哪些残基紧密靠近。使用该信息设计可增加复合物稳定性的CsgG和CsgF突变体。

使用GROMACS软件包4.6.5版本，以及GROMOS 53a6力场和SPC水模型进行模拟。在模拟中使用CsgG-CsgF复合物的cryo-EM结构。将复合物溶剂化，然后使用最速下降算法将能量降至最低。在整个模拟过程中，对复合物的骨架施加限制，然而残基侧链可以自由移动。使用Berendsen恒温器和Berendsen恒压器在300K下，以NPT系综对系统进行20纳秒的模拟。

使用GROMACS分析软件和本地编写的代码分析CsgG和CsgF之间的接触。如果两个残基在3埃以内，则定义为已进行接触。结果示于下面表4中。

表4：CsgG/CsgF复合物中残基对的预测接触频率：

用于CsgG:CsgF复合物结构确定的材料和方法：

克隆

为了使大肠杆菌CsgG表达为外膜定位孔，将大肠杆菌CsgG的编码序列(SEQ IDNO:1)克隆到pASK-Iba12中，得到质粒pPG1(Goyal等人，2013)。

为了使C端6x-His标记的CsgF在大肠杆菌细胞质中表达，使用用引物“CsgF-His_pET22b_FW”(SEQ ID NO:46)和“CsgF-His_pET22b_Rev”(SEQ ID NO:47)产生的PCR产物，将成熟大肠杆菌CsgF(SEQ ID NO:6；即没有其信号序列的CsgF)的编码序列经由NdeI和EcoRI位点克隆到pET22b中，得到CsgF-His表达质粒pNA101。

基于pGV5403(整合了pDEST14盒的pTrc99a)，产生pNA62质粒，一种表达csgF-His和csgG-strep的基于pTrc99a的载体。将pGV5403氨苄青霉素抗性盒置换为链霉素/壮观霉素抗性盒。用引物csgEFG_pDONR221_FW(SEQ ID NO:48)和csgEFG_pDONR221_Rev(SEQ ID NO:49)产生涵盖与csgE、csgF和csgG的编码序列相对应的大肠杆菌MC4100csgDEFG操纵子的一部分的PCR片段，并通过BP 重组插入pDONR221(ThermoFisherScientific)中。接下来，通过LR重组将来自pDONR221供体质粒的这种重组csgEFG操纵子插入带有链霉素/壮观霉素抗性盒的pGV5403中。通过PCR，使用引物Mut_csgF_His_FW(SEQ ID NO:50)和Mut_csgF_His_Rev(SEQ ID NO:51)将6xHis标签添加到CsgF C端。最后，通过向外PCR(引物DelCsgE_FW(SEQ ID NO:52)和DelCsgE_Rev(SEQ ID NO:53))去除csgE以获得pNA62。

通过对pNA62(一种表达CsgF-his和CsgG-strep的基于pTrc99a的载体)进行向外PCR，产生用于周质表达与假定收缩肽相对应的C端His标记的CsgF片段(图9A)的构建体。引物组合如下：pNa62_CsgF_his标签_Fw(SEQ ID NO:45)作为正向引物，CsgF_d27_末端(SEQID NO:41)、CsgF_d38_末端(SEQ ID NO:42)、CsgF_d48_末端(SEQ ID NO:43)或CsgF_d64_末端(SEQ ID NO:44)作为反向引物用于分别产生pNA97、pNA98、pNA99和pNA100。

在pNA97中，将csgF截短为SEQ ID NO:7，其编码包含残基1-27的CsgF片段(SEQ IDNO:8)；在pNA98中，将csgF截短为SEQ ID NO:9，其编码包含残基1-38的CsgF片段(SEQ IDNO:10)；在pNA99中，将csgF截短为SEQ ID NO:11，其编码包含残基1-48的CsgF片段(SEQ IDNO:12)；在pNA100中，将csgF截短为SEQ ID NO:13，其编码包含残基1-64的CsgF片段(SEQID NO:14)。pNA97、pNA98、pNA99和pNA100在大肠杆菌中表达确实引起在外膜中产生CsgG孔(SEQ ID NO:3)，以及具有如下序列的CsgF来源的肽靶向周质：

分别为“GTMTFQFRHHHHHH”(SEQ ID NO:37+6xHis)、“GTMTFQFRNPNFGGNPNNGHHHHHH“(SEQ ID NO:38+6xHis)、“GTMTFQFRNPNFGGNPNNGAFLLNSAQAQHHHHHH”(SEQ ID NO:39+6xHis)和“GTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDPSYNDDFGIETHHHHHH”(SEQ ID NO:40+6xHis)。

菌株

对于所有克隆程序而言均使用大肠杆菌Top10(F-mcrAΔ(mrr^-hsdRMS^-mcrBC)Φ80lacZΔM15ΔlacX74recA1araD139Δ(araleu)7697galUgalKrpsL(StrR)endA1nupG)。对于蛋白质产生，使用大肠杆菌C43(DE3)(F^–ompT hsdSB(rB^-mB^-)gal dcm(DE3))和Top10。

通过共表达产生重组CsgG:CsgF复合物

为了共表达大肠杆菌CsgF(SEQ ID NO:5)和CsgG(SEQ ID NO:2)，将两个重组基因(包括其天然夏因-达尔加诺序列(Shine Dalgarno sequence))置于pTrc99a来源的质粒中处于诱导型trc启动子的控制下以形成质粒pNA62。使CsgG和CsgF在用质粒pNA62转化并在37℃下在Terrific Broth培养基中生长的大肠杆菌C43(DE3)细胞中过表达。当细胞培养物达到600nm光密度(OD)为0.7时，用0.5mM IPTG诱导重组蛋白表达，并使其在28℃下生长15小时，然后通过5500g离心进行收获。

通过体外重组产生重组CsgG:CsgF复合物

使经C端StrepII标签修饰的全长大肠杆菌CsgG(SEQ ID NO:2)在用质粒pPG1转化的大肠杆菌BL21(DE3)细胞中过表达(Goyal等人，2013)。使细胞在Terrific Broth培养基中于37℃下生长至OD 600nm为0.6。用0.0002％的脱水四环素(Sigma)诱导重组蛋白产生，并且使细胞在25℃下再生长16小时，然后通过5500g离心进行收获。

使C端与6x His标签融合的大肠杆菌CsgF(SEQ ID NO:6；即，缺少CsgF信号序列)在用质粒pNA101转化的大肠杆菌BL21(DE3)细胞的细胞质中过表达。使细胞在37℃下生长至600nm的OD，然后通过1mM IPTG诱导，并使其在37℃下表达蛋白质15小时，然后通过5500g离心进行收获。

CsgG:CsgF复合物、CsgG和CsgF的重组蛋白纯化

经pNA62转化并且共表达CsgG-Strep和CsgF-His的大肠杆菌细胞重新悬浮在50mMTris-HCl pH 8.0、200mM NaCl、1mM EDTA、5mM MgCl₂、0.4mM AEBSF、1μg/mL亮抑酶肽(Leupeptin)、0.5mg/mL DNA酶I和0.1mg/mL溶菌酶中。使用TS系列细胞破碎仪(ConstantSystems Ltd)以20kPsi破坏细胞，并将裂解的细胞悬浮液与1％正十二烷基-β-d-麦芽吡喃糖苷(DDM；Inalco)一起孵育30′，以进一步裂解细胞并提取外膜组分。接下来，将剩余的细胞碎片和膜通过100.000g超速离心40’进行沉淀。将上清液上样到在缓冲液A(25mM TrispH8、200mM NaCl、10mM咪唑、10％蔗糖和0.06％ DDM)中平衡的5mL HisTrap色谱柱上。用>10CV的5％缓冲液B(25mM Tris pH8、200mM NaCl、500mM咪唑、10％蔗糖和0.06％ DDM)离子缓冲液A洗涤色谱柱，并用60mL以上一定梯度的5-100％缓冲液B洗脱。

将洗脱物稀释2倍，然后上样到用缓冲液C(25mM Tris pH8、200mM NaCl、10％蔗糖和0.06％ DDM)平衡的5mL Strep-tactin色谱柱(IBA GmbH)上过夜。用>10CV的缓冲液C洗涤色谱柱，并通过添加2.5mM脱硫生物素来洗脱蛋白。接下来，将500μL双亲和纯化复合物的峰级分注入到用缓冲液D(25mM Tris pH8、200mM NaCl和0.03％ DDM)平衡的Superose 610/30(GE Healthcare)上，并以0.5mL/分钟运行以制备用于电子显微镜检查的样品。基于计算的280nm下的吸光度并假设化学计量为1/1确定蛋白质浓度。缓冲液D(25mM Tris pH8、200mM NaCl和0.03％ DDM)

当在缓冲液中省略蔗糖并绕过IMAC和尺寸排阻步骤时，用于体外重构的CsgG-strep纯化与CsgG:CsgF的方案相同。

通过将细胞团块重新悬浮在50mM Tris-HCl pH 8.0、200mM NaCl、1mM EDTA、5mMMgCl2、0.4mM AEBSF、1μg/mL亮抑酶肽、0.5mg/mL DNA酶I和0.1mg/mL溶菌酶中进行用于体外重构的CsgF-His纯化。使用TS系列细胞破碎仪(Constant Systems Ltd)以20kPsi破坏细胞，并将裂解的细胞悬浮液以10.000g离心30分钟，以去除完整的细胞和细胞碎片。将上清液添加到用缓冲液A(25mM Tris pH8、200mM NaCl、10mM咪唑)平衡的5mL Ni-IMAC-珠粒(Workbeads 40IDA，Bio-Works Technologies AB)中，并在4℃下孵育1小时。将Ni-NTA珠粒汇集到重力流柱中，并用100mL的5％缓冲液B(稀释于缓冲液A中的25mM Tris pH8、200mMNaCl、500mM咪唑)洗涤。通过逐步增加缓冲液B(10％步骤各5mL)洗脱结合的蛋白质。

CsgG:CsgF复合物的体外重构

汇集纯化的CsgG和CsgF，并用于体外重构复合物。因此混合摩尔比为1CsgG:2CsgF，使CsgG桶中充满CsgF。接下来，将重构混合物注入到用缓冲液D(25mM Tris pH8、200mM NaCl和0.03％ DDM)平衡的Superose 6 10/30色谱柱(GE Healthcare)上，并以0.5mL/分钟运行以制备用于电子显微镜检查的样品(图3)。基于计算的280nm下的吸光度并假设化学计量为1/1确定蛋白质浓度。

使用电子显微镜检查法进行结构分析

使用负染电子显微镜检查法探测尺寸排阻级分的样品行为。将样品用1％甲酸铀酰染色，并使用配有LaB6细丝的内部120kV JEM 1400(JEOL)显微镜成像。通过将2μL样品点到R2/1连续碳(2nm)涂覆的网格(Quantifoil)上制备用于冷冻电子显微镜检查的样品，手动涂印并使用内部插入装置插入液体乙烷中。在内部JEOL JEM 1400上对样品质量进行筛选，然后在配有Falcon-3直接电子检测相机的200kV TALOS ARCTICA(FEI)显微镜上收集数据集。使用MotionCor2.1(Zheng等人，2017)对图像进行运动校正，使用ctffind4(Rohou和Grigorieff，2015)确定散焦值，并且使用RELION(Scheres，2012)和EMAN2(Ludtke，2016)的组合进一步分析数据。在3D模型生成和精化过程中将C9对称性施加于选定的2D类别平均值，其特征在于对于头部基团具有附加密度。

对于高分辨率cryoEM分析，通过将3μl样品点到涂有氧化石墨烯(Sigma Aldrich)的R2/1多孔网格(Quantifoil)上制备CsgG:CsgF样品用于冷冻电子显微镜检查，手动涂印并使用CP3柱塞(Gatan)插入液体乙烷中。在内部JEOL JEM 1400上对样品质量进行筛选，然后在配有K2 Summit直接电子检测器(Gatan)的300kV TITAN KRIOS(FEI，Thermo-Scientific)显微镜上收集数据集。该检测器以计数模式使用，在50帧中每分布的累积电子剂量为56个电子。收集2045张像素大小为的图像。使用MotionCor2.1(Zheng等人，2017)对图像进行运动校正，并使用ctffind4(Rohou和Grigorieff，2015)确定散焦值。使用Gautomatch(Dr.Kai Zhang)自动挑选颗粒，并使用RELION2.0(Kimanius等人，2016，Elife5.pii:e18722)和EMAN2(Ludtke，2016)的组合进一步分析数据。在3D模型生成和精化过程中，将C9对称性施加于选定的2D类别平均值，其特征在于对于与CsgF相对应的头部基团具有附加密度。使用62.000个颗粒以的分辨率计算最终图。用COOT进行CsgF的从头模型构建(Brown等人2015Acta Crystallogr D Biol Crystallogr 71(Pt 1):136-53)，并用PHENIX(Afonine 2018,Acta Crystallogr D Struct Biol 74(Pt 6):531-544)真实空间精化与COOT组合进行完整复合物的模型构建和精化的迭代循环。

CsgG:CsgF片段的蛋白质表达和纯化

使CsgF片段和CsgG共表达，其中CsgF片段C端有His标签，并且CsgG的C端与Strep标签融合。使CsgG:CsgF片段复合物在用质粒pNA97、pNA98、pNA99或pNA100转化的大肠杆菌Top10细胞中过表达。将平板在37℃ ON下培养，并将菌落重新悬浮在补充有链霉素/壮观霉素的LB培养基中。当细胞培养物达到600nm光密度(OD)为0.7时，用0.5mM IPTG诱导重组蛋白表达，并使其在28℃下生长15小时，然后通过5500g离心进行收获。

将沉淀物在-20℃冷冻

将用于共表达各种CsgG:CsgF片段的细胞团块重新悬浮在200mL 50mM Tris-HClpH 8.0、200mM NaCl、1mM EDTA、5mM MgCl₂、0.4mM AEBSF、1μg/mL亮抑酶肽、0.5mg/mL DNA酶I和0.1mg/mL溶菌酶中，超声处理并与1％正十二烷基-β-d-麦芽吡喃糖苷(DDM；Inalco)一起孵育，以进一步裂解细胞并提取外膜组分。接下来，将剩余的细胞碎片和膜通过15.000g离心40’进行沉淀。将上清液与100μLStrep-tactin珠粒在室温下孵育30分钟。通过离心，用缓冲液(25mM Tris pH8、200mM NaCl和1％ DDM)洗涤Strep珠粒，并通过在25mMTris pH8、200mM NaCl、0.01％ DDM中添加2.5mM脱硫生物素来洗脱结合的蛋白。

通过体外重构产生CsgG:FCP。

将与成熟CsgF(SEQ ID NO:6)N端的34个残基相对应的合成肽在缓冲液0.1M MES、0.5M NaCl、0.4mg/ml EDC(1-乙基-3-(3-二甲基氨基丙基)碳二亚胺)、0.6mg/ml NHS(N-羟基琥珀酰亚胺)中稀释为1mg/ml，并且在室温下孵育15分钟以允许肽羧基末端激活。接下来，在2小时孵育期间添加1mg/ml的Cadaverin-Alexa594的PBS溶液，以允许在室温下共价偶联。使用Zeba Spin过滤器，通过将缓冲液交换为50mM Tris、NaCl、1mM EDTA、0.1％DDM而淬灭反应。

在室温下在15分钟内以2:1的摩尔比将标记的肽添加到在50mM Tris、100mMNaCl、1mM EDTA、5mM LDAO/C8D4中的strep亲和纯化的CsgG中，以允许CsgG:FCP复合物重构。将CsgG-strep下拉到StrepTactin珠粒上后，在天然PAGE上分析样品。

实施例6：通过共价交联进一步稳定CsgG:CsgF复合物

尽管CsgF的全长形式和一些截短形式与CsgG孔产生稳定的CsgG:CsgF复合物，但在某些条件下仍然可以从CsgG孔的桶区强行去除CsgF。因此，期望在CsgG和CsgF亚基之间产生共价连接。基于分子模拟研究，已经鉴定出彼此紧密靠近的CsgG和CsgF的位置(实施例5和表4)。这些鉴定的位置中的一些已经修饰为在CsgG和CsgF中都并入半胱氨酸。图19显示了在CsgG的Q153位置和CsgF的G1位置之间形成硫醇-硫醇键的实例。用含有G1C突变的CsgF重构含有Q153C突变的CsgG孔，并孵育1小时以使得能够形成S-S键。在不存在DTT的情况下将复合物加热至100℃时，可以看到对应于CsgG单体与CsgF单体之间的二聚体(CsgGm-CsgFm)的45kDa条带，表明这两种单体之间形成S-S键(CsgGm为30kDa且CsgFm为15kDa)(图19.A)。当在DTT的存在下进行加热时，该条带消失。DTT分解了S-S键。将CsgG:CsgF复合物孵育过夜而不是1小时时，CsgGm-CsgFm二聚体形成的范围增加(图19.A)。已经进行了质谱法以进一步鉴定二聚体条带。将凝胶纯化的蛋白质进行蛋白水解裂解以产生胰蛋白酶肽。进行了LC-MS/MS测序方法，从而鉴定了CsgG的Q153位置与CsgF的G1位置之间的S-S键(图19.B)。氧化剂诸如铜-邻二氮杂菲可用于增强S-S键的形成。如方法部分所述，在铜-邻二氮杂菲的存在下，将含N133C修饰的CsgG孔与含T4C修饰的CsgF重构，然后通过在不存在DTT的情况下加热至100℃分解成其组成单体时，可以在SDS-PAGE上观测到与CsgGm-CsgFm相对应的强二聚体条带(图20，泳道3和4)。当在DTT的存在下进行加热时，二聚体分解成其组成单体(图20，泳道1和2)。

实施例7：CsgG:CsgF复合物的电生理学表征

将孔插入共聚物膜中并且使用Oxford Nanopore Technologies的MinION进行实验时，可以很好地表征当DNA链通过CsgG易位时观测到的信号(图31)。CsgG的每个亚基的Y51、N55和F56形成CsgG孔的收缩段(图12)。这种敏锐的收缩段作为CsgG孔的读取头(图31A)，并且能够准确地区别A、C、G和T通过孔时的混合序列。这是因为测得的信号包含特征电流偏转，从中可以得出序列的同一性。然而，在DNA的均聚物区中，测得的信号可能未显示出足够幅度的电流偏转而无法进行单碱基鉴定；使得不能从测得的信号的幅度来准确地确定均聚物的长度(图26B和图26C)。CsgG读取头准确性的降低与均聚物区的长度相关(图29C)。当CsgF与CsgG孔相互作用形成CsgG:CsgF复合物时，CsgF在CsgG桶中引入第二读取头。第二读取头主要由Seq.ID No.6的N17位置组成。进行如方法部分和图27中所述的静态链实验，以实验方式映射CsgG:CsgF复合物的两个读取头，结果表明存在两个彼此间隔大约5-6个碱基的读取头(图27B、图27C和图27D)。CsgG:CsgF复合物的读取头区别图显示，由CsgF引入的第二读取头对碱基区别的贡献要小于CsgG读取头(图27A)。令人惊讶的是，当第二读取头由CsgF引入CsgG桶中时，先前平坦的均聚物区显示出步进信号(图30B和图30C)。这些步骤包含的信息可用于准确鉴定序列，从而减小误差。与CsgG孔本身的准确性分布相比，CsgG:CsgF复合物的DNA信号的准确性在较长的均聚物长度上保持相对恒定(图29C)。

在方法部分中描述的任何方法中制备的CsgG:CsgF复合物均可用于在DNA测序实验中表征复合物。图21-24中示出了λDNA链通过各种CsgG:CsgF复合物的信号，这些复合物是通过不同方法制备的，由不同的CsgG突变孔和不同长度的不同CsgF肽组成。图28(A-H)中示出了那些孔复合物的读取头区别及其碱基贡献曲线。令人惊讶的是，在CsgG孔和CsgF肽两者的收缩段处的不同修饰可以显著地改变CsgG:CsgF孔复合物的信号。例如，当用相同的CsgG孔，但用两个相同长度的在位置17(Seq ID No.6)处含有Asn或Ser的不同CsgF肽制备CsgG:CsgF复合物时(通过共表达全长CsgF蛋白的相同方法制备，然后用TEV蛋白酶在位置35和36之间裂解CsgF)，产生的信号彼此不同(图21)。与在CsgF肽的位置17处具有Asn的CsgG:CsgF复合物相比，在CsgF肽的位置17处具有Ser的CsgG:CsgF复合物显示出更低的噪声和更高的信噪比。类似地，当相同的CsgG孔与两个相同长度(Seq ID No.6的1-35)，但在位置17处具有Ser或Val的不同CsgF肽重构以制备CsgG:CsgF复合物时，在CsgF的位置17处具有Val的复合物比在CsgF的位置17处具有Ser的复合物显示出噪声更大的信号(图22)。当相同长度的相同CsgF肽与在CsgG读取头(位置51、55和56)处含有不同突变的不同CsgG孔重构时，所得的CsgG:CsgF复合物显示出非常不同的信号(图23A-F)，具有不同的信噪比(图25)。令人惊讶的是，当含有相同收缩区的不同长度的CsgF肽与相同CsgG孔重构以制备CsgG:CsgF复合物时，它们产生不同范围的信号(图24)。含有最短CsgF肽(Seq ID No.6的1-29)的CsgG:CsgF复合物显示出最大的范围，含有最长CsgF肽(Seq ID No.6的1-45)的CsgG:CsgF复合物显示出最小的范围(图24)。

用于分析物表征的材料和方法：

通过下述方法产生的蛋白质可以与通过上面关于结构确定描述的方法产生的蛋白质互换使用。

方法

通过共表达来表达CsgG:CsgF或CsgG:FCP复合物

在含有氨苄青霉素抗性基因的pT7载体中构建编码CsgG蛋白及其突变体的基因。在含有卡那霉素抗性基因的pRham载体中构建编码CsgF或FCP蛋白及其突变体的基因。在冰上将1uL的两种质粒与50uL Lemo(DE3)ΔCsgEFG混合10分钟。然后在42℃下加热样品45秒，然后再放回冰上保持5分钟。添加150uL NEB SOC生长培养基，并将样品在37℃下以250rpm振荡孵育1小时。将全部体积涂到含有卡那霉素(40ug/mL)、氨苄青霉素(100ug/mL)和氯霉素(34ug/ml)的琼脂板上，并在37℃下孵育过夜。从板中取出单个菌落，并接种到100mL含卡那霉素(40ug/mL)、氨苄青霉素(100ug/mL)和氯霉素(34ug/mL)的LB培养基中，并在37℃下以250rpm振荡孵育过夜。将25mL起子培养物添加到500mL含3mM ATP、15mM MgSO₄、卡那霉素(40ug/mL)、氨苄青霉素(100ug/mL)和氯霉素(34ug/ml)的LB培养基中，并在37℃下孵育过夜。使培养物生长7小时，此时OD₆₀₀大于3.0。添加乳糖(最终浓度为1.0％)、葡萄糖(最终浓度为0.2％)和鼠李糖(最终浓度为2mM)，并使温度降至18℃，同时保持250rpm振荡16小时。将培养物在4℃下以6000rpm离心20分钟。弃去上清液并保留沉淀物。将细胞储存在-80℃下直至纯化。

有或无C端Strep标签的CsgG孔和有或无C端Strep或His标签的CsgF的表达

在含有氨苄青霉素抗性基因的pT7载体中构建编码所有CsgG蛋白和CsgF或FCP蛋白的所有基因。表达程序与以上相同，除了在所有培养基和缓冲液中都省略了卡那霉素以外。

细胞裂解(共表达的复合物或单个CsgG/CsgF/FCP蛋白)

裂解缓冲液由50mM Tris(pH 8.0)、150mM NaCl、0.1％ DDM、1x Bugbuster蛋白提取试剂(Merck)、2.5uL Benzonase核酸酶(原液≥250单位/μL)/100mL裂解缓冲液和1片Sigma蛋白酶抑制剂混合物/100mL裂解缓冲液制成。使用5X体积的裂解缓冲液裂解1X重量的收获细胞。使细胞重新悬浮并在室温下离心4小时，直至产生均质裂解物。将裂解物在4℃下以20,000rpm离心35分钟。小心萃取上清液，并通过0.2uM Acrodisc注射器过滤器过滤。

CsgG含C端Strep标签而CsgF或FCP含C端His标签时CsgG或CsgF/FCP蛋白或共表达复合物的Strep纯化

然后以以下参数，将过滤后的样品上样到5mL StrepTrap色谱柱上：上样速度：0.8mL/分钟，完全样品上样量：10mL，洗出未结合的：10CV(5mL/分钟)，额外洗涤：10CV(5mL/分钟)，洗脱：3CV(5mL/分钟)。亲和缓冲液：50mL Tris(pH 8.0)、150mM NaCl、0.1％DDM；洗涤缓冲液：50mL Tris(pH 8.0)、2M NaCl、0.1％ DDM；洗脱缓冲液：50mL Tris(pH8.0)、150mM NaCl、0.1％ DDM、10mM脱硫生物素。收集洗脱的样品。

CsgG含C端Strep标签而CsgF或FCP含C端His标签时CsgG或CsgF/FCP蛋白或共表达复合物的His纯化

除了用以下缓冲液除以外，使用与以上相同的参数，将来自Strep纯化(在复合物的情况下)的过滤样品或汇集的洗脱峰上样到5mL HisTrap色谱柱上：亲和和洗涤缓冲液：50mL Tris(pH 8.0)、150mM NaCl、0.1％ DDM、25mM咪唑；洗脱：50mL Tris(pH 8.0)、150mMNaCl、0.1％ DDM、350mM咪唑。峰洗脱，在30kDa MWCO Merck Milipore离心装置中浓缩至500uL体积。

用体内纯化的组分在体外形成复合物。

将单独表达和纯化的CsgG和CsgF/FCP蛋白以不同比率混合以鉴定正确的比率。但总是在过量的CsgF条件下。然后将复合物在25℃下孵育过夜。为了除去过量的CsgF并且从缓冲液中去除DTT，再次将混合物注入在50mM Tris(pH 8.0)、150mM NaCl、0.1％ DDM中平衡的Superdex Increase 200 10/300上。复合物通常在该柱上洗脱9至10mL。

通过凝胶过滤对复合物(共表达或体外制备的)进行抛光步骤

如有必要，Strep纯化的或His纯化的或先His纯化然后Strep纯化的CsgG:CsgF或CsgG:FCP可以通过凝胶过滤进行进一步抛光。将500uL样品注入1mL样品回路中，并注入在50mM Tris(pH 8.0)、150mM NaCl、0.1％ DDM中平衡的Superdex Increase 200 10/300上。当以1mL/分钟运行时，与该复合物相关的峰通常在该柱上洗脱9至10mL。将样品在60℃下加热15分钟，并以21,000rcf离心10分钟。取上清液用于试验。对样品进行SDS-PAGE以确认并鉴定随复合物洗脱的级分。

在TEV蛋白酶位点裂解CsgF或FCP

如果CsgF或FCP含有TEV裂解位点，则将具有C端组氨酸标签的TEV蛋白酶添加到含2mM DTT的样品中(添加的量根据蛋白质复合物的大致浓度确定)。在4℃下将样品在辊式混合器上在25rpm下孵育过夜。然后使混合物再次运行通过5mL HisTrap柱，并收集流过物。未裂解的任何物质都将保持与柱结合，裂解的蛋白质将会洗脱。使用与上述His纯化相同的缓冲液和参数以及最终加热步骤。

纯化具有体内纯化CsgG孔和合成FCP的CsgG:FCP复合物

从Genscript和Lifetein接收冻干FCP肽。将1mg肽溶解在1mL无核酸酶的ddH₂O中，获得1mg/mL的样品。涡旋样品直至没有肽可见。由于CsgG孔和突变体的表达水平有差异，因此难以准确测量浓度。SDS-PAGE上针对已知标志物的蛋白条带强度可用于获得样品的粗略估计值。然后将CsgG和FCP以大约1:50的摩尔比混合，并在25℃下以700rpm孵育过夜。在60℃下加热样品15分钟，并以21,000rcf离心10分钟。取上清液用于试验。如果需要，可以如以上在共表达中所述纯化复合物。

纯化含有半胱氨酸突变体的CsgG:CsgF或CsgG:FCP

如果任一种或两种组分都含有半胱氨酸，则可以使用与上述相同的程序纯化CsgG:CsgF或CsgG:FCP复合物(下面的I或II或III)，除了His和Strep纯化中的亲和缓冲液、洗涤缓冲液和洗脱缓冲液以及用于凝胶过滤的缓冲液的组成以外。为了纯化半胱氨酸突变体，所有这些缓冲液均应含有2mM DTT。当含有半胱氨酸的合成肽溶解在ddH2O中时，也添加了2mM DTT

I.共表达CsgG和CsgF或FCP

II.用体内纯化的单个组分在体外制备CsgG:CsgF或CsgG:FCP复合物

III.用体内纯化的CsgG和合成FCP在体外制备CsgG:CsgF或CsgG:FCP复合物

确定半胱氨酸键形成

分离两管各50uL的最终洗脱物。在其中一支管中，添加2mM DTT作为还原剂，在另一支管中，添加100μM的Cu(II):1–10邻二氮杂菲(33mM:100mM)作为氧化剂。将样品与含有4％ SDS的Laemmli缓冲液1:1混合。一半样品经热处理10分钟达到100度，一半样品不进行处理，之后在TGS缓冲液中在4-20％ TGX凝胶(Bio-rad Criterion)上运行。

偶联的体外转录和翻译(IVTT)

所有蛋白质均通过使用环状DNA的大肠杆菌T7-S30提取系统(Promega)，通过偶联的体外转录和翻译(IVTT)生成。完整的1mM氨基酸混合物减去半胱氨酸和完整的1mM氨基酸混合物减去蛋氨酸以等体积混合，以获得产生高浓度蛋白质所需的工作氨基酸溶液。将氨基酸(10uL)与预混液(40uL)、[35S]L-蛋氨酸(2uL，1175Ci/mmol，10mCi/mL)、质粒DNA(16uL，400ng/uL)和T7 S30提取物(30uL)和利福平(2uL，20mg/mL)混合以产生100uL的IVTT蛋白反应物。在30℃下进行合成4小时，然后在室温下孵育过夜。如果在共表达中制备CsgG:CsgF或CsgG:FCP复合物，则将编码每种组分的质粒DNA等量混合，并使用一部分混合物(16uL)进行IVTT。孵育后，将管以22000g离心10分钟，弃去管中的上清液。使所得沉淀物重新悬浮并在MBSA(10mM MOPS、1mg/ml BSA pH7.4)中洗涤，并在相同条件下再次离心。使沉淀物中存在的蛋白质重新悬浮在1X Laemmli样品缓冲液中，并在300V下在4-20％TGX凝胶中运行25分钟。然后将凝胶干燥，并暴露于MR膜过夜。然后对膜进行处理，并且凝胶中的蛋白质可视化。

用于在MinIONs中的试验的样品

在试验之前，在室温下将所有样品与Brij58(最终浓度为0.1％)一起孵育10分钟，然后补足孔插入所需的后续孔稀释液。

制备和运行静态链的方法

通过集成DNA技术(IDT)获得了一组polyA DNA链(图27的SS20至SS38)，其中DNA主链(iSpc3)缺少一个碱基。这些链中每一条的3′末端也包含生物素修饰。将静态链与单价链霉亲和素在室温下孵育20分钟，引起生物素与链霉亲和素结合。将链霉亲和素-静态链复合物在25mM HEPES、430mM KCl、30mM ATP、30mM MgCl2、2.15mM EDTA(pH8)(称为RBFM)中稀释至500nM(B，图27)和2uM(C，图27)。在MinION装置中记录每条静态链产生的残余电流。按照标准运行方案冲洗MinIOn流通池，然后以1分钟的静态轻弹开始测序程序。最初产生10分钟的开孔记录，然后添加150uL第一链霉亲和素-静态链复合物。10分钟后，将800uL RBFM冲洗通过流通池，然后添加下一链霉亲和素-静态链复合物之前。对所有链霉亲和素-静态链重复该过程。一旦将最终的链霉亲和素-静态链复合物在流通池上孵育后，就将800uL RBFM冲洗通过流通池，并在完成实验之前产生10分钟的开孔记录。

制作区别曲线图的方法

读取头区别曲线显示了当每个读取头位置处的碱基改变时模拟电流的平均变化。为了计算长度为k且字母长度为n的模型在位置i处的读取头区别，我们将读取头位置i处的区别定义为大小为n的n^k-1个组中的每一个的电流水平的标准偏差的中值，其中位置i改变而其他位置保持不变。

本公开的方面

1.一种分离的孔复合物，其包含CsgG孔或其同源物或突变体，和经修饰的CsgF肽或其同源物或突变体。

2.根据1所述的分离的孔复合物，其中所述经修饰的CsgF肽或其同源物或突变体插入所述CsgG孔或其同源物或突变体的内腔中。

3.根据2所述的分离的孔复合物，其中所述孔复合物具有两个或更多个包含CsgG通道收缩段和CsgF通道收缩段的通道。

4.根据1至3中任一项所述的分离的孔复合物，其中所述CsgG孔或其同源物或突变体是突变CsgG孔。

5.根据3或4所述的分离的孔复合物，其中所述CsgF通道收缩段的直径在0.5nm至2.0nm的范围内。

6.一种经修饰的CsgF肽或CsgF同源物或突变体的经修饰肽，其中所述修饰包括CsgF蛋白SEQ ID NO:6或其同源物或突变体的截短。

7.根据6所述的经修饰的CsgF肽或CsgF同源物或突变体的经修饰肽，其中所述经修饰的CsgF肽包含SEQ ID NO:39或SEQ ID NO:40，或其同源物或突变体。

8.根据6所述的经修饰的CsgF肽或CsgF同源物或突变体的经修饰肽，其中所述经修饰的CsgF肽包含SEQ ID NO:15，或其同源物或突变体。

9.根据8所述的经修饰的CsgF肽，或CsgF同源物或突变体的经修饰肽，其中包含SEQ ID NO:15的区中的一个或多个位置突变，与SEQ ID NO:15具有至少35％的氨基酸同一性。

10.一种编码6至9中任一项所述的经修饰的CsgF肽的多核苷酸。

11.根据1至5中任一项所述的分离的孔复合物，其中所述经修饰的CsgF肽或其同源物或突变体是根据6至9中任一项所述的肽。

12.根据11所述的分离的孔复合物，其中所述经修饰的CsgF肽和所述CsgG孔或其同源物或突变体共价偶联。

13.根据12所述的分离的孔复合物，其中所述共价偶联是借助于：

(i)在与SEQ ID NO:3或其同源物的132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209相对应的位置处的半胱氨酸残基；

(ii)在与SEQ ID NO:3或其同源物的132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209相对应的位置处的非天然反应性或光反应性氨基酸。

14.一种分离的跨膜孔复合物，其包含根据1至5或11至13中任一项所述的分离的孔复合物，以及膜的组分。

15.一种用于产生跨膜孔复合物的方法，其中所述孔复合物由CsgG孔和经修饰的CsgF肽或其同源物或突变体形成，所述方法包括使如SEQ ID NO:2中所示的CsgG或其同源物或突变体，和经修饰的CsgF肽或其同源物或突变体在合适的宿主细胞中共表达，从而允许在体内形成跨膜孔复合物。

16.根据15所述的方法，其中所述经修饰的CsgF肽或其同源物或突变体包含SEQID NO:12或SEQ ID NO:14或其同源物或突变体。

17.一种用于产生分离的孔复合物的方法，其中所述分离的孔由CsgG孔或其同源物或突变体，和经修饰的CsgF肽或其同源物或突变体形成，所述方法包括使SEQ ID NO:3的CsgG单体或其同源物或突变体与经修饰的CsgF肽或其同源物或突变体接触，从而允许体外重构所述分离的孔复合物。

18.根据17所述的方法，其中所述经修饰的CsgF肽或其同源物或突变体包含SEQID NO:15或SEQ ID NO:16或其同源物或突变体。

19.一种用于确定靶分析物的存在、不存在或一个或多个特征的方法，其包括以下步骤：

(i)使所述靶分析物与根据1至5或11至13中任一项所述的孔复合物或与根据14所述的跨膜孔复合物接触，使得所述靶分析物移动到所述孔复合物中；以及

(ii)在所述分析物移动通过所述孔复合物时进行一项或多项测量，从而确定所述分析物的存在、不存在或一个或多个特征。

20.根据19所述的方法，其中所述分析物是多核苷酸。

21.根据19所述的方法，其中所述分析物是(多)肽。

22.根据19所述的方法，其中所述分析物是多糖。

23.根据19所述的方法，其中所述分析物是小的有机或无机化合物，例如药理活性化合物、有毒化合物和污染物。

24.根据20所述的方法，其包括确定一个或多个选自以下的特征：(i)所述多核苷酸的长度，(ii)所述多核苷酸的同一性，(iii)所述多核苷酸的序列，(iv)所述多核苷酸的二级结构以及(v)所述多核苷酸是否被修饰。

25.一种使用分离的跨膜孔复合物表征多核苷酸或(多)肽的方法，其中所述孔复合物是包含CsgG孔或其同源物或突变体以及经修饰的CsgF肽或其同源物或突变体的复合物。

26.根据25所述的方法，其中所述CsgG孔或其同源物或突变体包含六至十个单体。

27.根据1至5或11至13中任一项所述的分离的孔复合物或根据14所述的跨膜孔复合物用于确定靶分析物的存在、不存在或一个或多个特征的用途。

28.一种用于表征靶分析物的试剂盒，其包含(a)根据1至5或11至13中任一项所述的分离的孔复合物和(b)膜的组分。

序列

序列说明：

SEQ ID NO:1显示了来自菌株K12的包括信号序列(基因ID：945619)的野生型大肠杆菌CsgG的多核苷酸序列。

SEQ ID NO:2显示了包括信号序列(Uniprot登录号P0AEA2)的野生型大肠杆菌CsgG的氨基酸序列。

SEQ ID NO:3显示了作为成熟蛋白(Uniprot登录号P0EAEA2)的野生型大肠杆菌CsgG的氨基酸序列。

SEQ ID NO:4显示了来自菌株K12的包括信号序列(基因ID：945622)的野生型大肠杆菌CsgF的多核苷酸序列。

SEQ ID NO:5显示了包括信号序列(Uniprot登录号P0AE98)的野生型大肠杆菌CsgF的氨基酸序列。

SEQ ID NO:6显示了作为成熟蛋白(Uniprot登录号P0AE98)的野生型大肠杆菌CsgF的氨基酸序列。

SEQ ID NO:7显示了编码氨基酸1至27和C端6His标签的野生型大肠杆菌CsgF片段的多核苷酸序列。

SEQ ID NO:8显示了涵盖氨基酸1至27和C端6His标签的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:9显示了编码氨基酸1至38和C端6His标签的野生型大肠杆菌CsgF片段的多核苷酸序列。

SEQ ID NO:10显示了涵盖氨基酸1至38和C端6His标签的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:11显示了编码氨基酸1至48和C端6His标签的野生型大肠杆菌CsgF片段的多核苷酸序列。

SEQ ID NO:12显示了涵盖氨基酸1至48和C端6His标签的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:13显示了编码氨基酸1至64和C端6His标签的野生型大肠杆菌CsgF片段的多核苷酸序列。

SEQ ID NO:14显示了涵盖氨基酸1至64和C端6His标签的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:15显示了与大肠杆菌CsgF的残基20至53相对应的肽的氨基酸序列

SEQ ID NO:16显示了与包括在其C端的KD的大肠杆菌CsgF的残基20至42相对应的肽的氨基酸序列

SEQ ID NO:17显示了与CsgF同源物Q88H88的残基23至55相对应的肽的氨基酸序列

SEQ ID NO:18显示了与CsgF同源物A0A143HJA0的残基25至57相对应的肽的氨基酸序列

SEQ ID NO:19显示了与CsgF同源物Q5E245的残基21至53相对应的肽的氨基酸序列SEQ ID NO:20显示了与CsgF同源物Q084E5的残基19至51相对应的肽的氨基酸序列SEQID NO:21显示了与CsgF同源物F0LZU2的残基15至47相对应的肽的氨基酸序列

SEQ ID NO:22显示了与CsgF同源物A0A136HQR0的残基26至58相对应的肽的氨基酸序列

SEQ ID NO:23显示了与CsgF同源物A0A0W1SRL3的残基21至53相对应的肽的氨基酸序列

SEQ ID NO:24显示了与CsgF同源物B0UH01的残基26至59相对应的肽的氨基酸序列

SEQ ID NO:25显示了与CsgF同源物Q6NAU5的残基22至53相对应的肽的氨基酸序列

SEQ ID NO:26显示了与CsgF同源物G8PUY5的残基7至38相对应的肽的氨基酸序列

SEQ ID NO:27显示了与CsgF同源物A0A0S2ETP7的残基25至57相对应的肽的氨基酸序列

SEQ ID NO:28显示了与CsgF同源物E3I1Z1的残基19至51相对应的肽的氨基酸序列SEQ ID NO:29显示了与CsgF同源物F3Z094的残基24至55相对应的肽的氨基酸序列

SEQ ID NO:30显示了与CsgF同源物A0A176T7M2的残基21至53相对应的肽的氨基酸序列

SEQ ID NO:31显示了与CsgF同源物D2QPP8的残基14至45相对应的肽的氨基酸序列SEQ ID NO:32显示了与CsgF同源物N2IYT1的残基28至58相对应的肽的氨基酸序列

SEQ ID NO:33显示了与CsgF同源物W7QHV5的残基26至58相对应的肽的氨基酸序列

SEQ ID NO:34显示了与CsgF同源物D4ZLW2的残基23至55相对应的肽的氨基酸序列

SEQ ID NO:35显示了与CsgF同源物D2QT92的残基21至53相对应的肽的氨基酸序列

SEQ ID NO:36显示了与CsgF同源物A0A167UJA2的残基20至51相对应的肽的氨基酸序列

SEQ ID NO:37显示了涵盖氨基酸20至27的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:38显示了涵盖氨基酸20至38的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:39显示了涵盖氨基酸20至48的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:40显示了涵盖氨基酸20至64的野生型大肠杆菌CsgF片段的氨基酸序列。

SEQ ID NO:41显示了引物CsgF_d27_末端的核苷酸序列

SEQ ID NO:42显示了引物CsgF_d38_末端的核苷酸序列

SEQ ID NO:43显示了引物CsgF_d48_末端的核苷酸序列

SEQ ID NO:44显示了引物CsgF_d64_末端的核苷酸序列

SEQ ID NO:45显示了引物pNa62_CsgF_histag_Fw的核苷酸序列

SEQ ID NO:46显示了引物CsgF-His_pET22b_FW的核苷酸序列

SEQ ID NO:47显示了引物CsgF-His_pET22b_Rev的核苷酸序列

SEQ ID NO:48显示了引物csgEFG_pDONR221_FW的核苷酸序列

SEQ ID NO:49显示了引物csgEFG_pDONR221_Rev的核苷酸序列

SEQ ID NO:50显示了引物Mut_csgF_His_FW的核苷酸序列

SEQ ID NO:51显示了引物Mut_csgF_His_Rev的核苷酸序列

SEQ ID NO:52显示了引物DelCsgE_Rev的核苷酸序列

SEQ ID NO:53显示了引物DelCsgE FW的核苷酸序列

SEQ ID NO:54显示了成熟大肠杆菌CsgF的残基1至30的氨基酸序列

SEQ ID NO:55显示了成熟大肠杆菌CsgF的残基1至35的氨基酸序列

SEQ ID NO:56显示了具有信号序列，和插入成熟蛋白序列的残基35和36之间的TEV蛋白酶裂解位点(ENLYFQS)的突变(T4C/N17S)CsgF序列的氨基酸序列。

SEQ ID NO:57显示了具有信号序列，和插入成熟蛋白序列的残基35和36之间的TEV蛋白酶裂解位点(ENLYFQS)的突变(N17S-Del)CsgF序列的氨基酸序列。

SEQ ID NO:58显示了具有信号序列，和插入成熟蛋白序列的残基35和36之间的TEV蛋白酶裂解位点(ENLYFQS)的突变(G1C/N17S)CsgF序列的氨基酸序列。

SEQ ID NO:59显示了具有信号序列，和插入成熟蛋白序列的残基35和36之间的TEV蛋白酶裂解位点(ENLYFQS)的突变(G1C)CsgF序列的氨基酸序列。

SEQ ID NO:60显示了具有信号序列，插入成熟蛋白序列的残基45和46之间的TEV蛋白酶裂解位点(ENLYFQS)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:61显示了具有信号序列，插入成熟蛋白序列的残基35和36之间的TEV蛋白酶裂解位点(ENLYFQS)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:62显示了具有信号序列，插入成熟蛋白序列的残基30和31之间的TEV蛋白酶裂解位点(ENLYFQS)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:63显示了具有信号序列，插入成熟蛋白序列的残基45和51之间的TEV蛋白酶裂解位点(ENLYFQS)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:64显示了具有信号序列，插入成熟蛋白序列的残基30和37之间的TEV蛋白酶裂解位点(ENLYFQS)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:65显示了具有信号序列，插入成熟蛋白序列的残基34和36之间的HCVC3蛋白酶裂解位点(LEVLFQGP)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:66显示了具有信号序列，插入成熟蛋白序列的残基42和43之间的HCVC3蛋白酶裂解位点(LEVLFQGP)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:67显示了具有信号序列，插入成熟蛋白序列的残基38和47之间的HCVC3蛋白酶裂解位点(LEVLFQGP)和C端的His₁₀标签的CsgF序列的氨基酸序列。

SEQ ID NO:68显示了假定蛋白CKO_02032[柯氏柠檬酸杆菌(Citrobacterkoseri)ATCC BAA-895]的YP_001453594.1:1-248的氨基酸序列，其与SEQ ID NO:3具有99％同一性。

SEQ ID NO:69显示了curli生产组装/转运组分CsgG(部分)[肠道沙门氏菌(Salmonella enterica)]的WP_001787128.1:16-238的氨基酸序列，其与SEQ ID NO:3具有98％同一性。

SEQ ID NO:70显示了curli生产组装/转运蛋白CsgG[无丙二酸柠檬酸杆菌(Citrobacter amalonaticus)]的KEY44978.1|:16-277的氨基酸序列，其与SEQ ID NO:3具有98％同一性。

SEQ ID NO:71显示了curli生产组装/转运组分(部分[鼠柠檬酸杆菌(Citrobacter rodentium)ICC168])的YP_003364699.1:16-277的氨基酸序列，其与SEQ IDNO:3具有97％同一性。

SEQ ID NO:72显示了curli生产组装/转运组分(部分CsgG[阿斯布肠杆菌(Enterobacter asburiae)LF7a])的YP_004828099.1:16-277的氨基酸序列，其与SEQ IDNO:3具有94％同一性。

SEQ ID NO:73显示了转运蛋白[雷金斯堡约克氏菌(Yokenella regensburgei)]的WP_006819418.1:19-280的氨基酸序列，与SEQ ID NO:3具有91％同一性。

SEQ ID NO:74显示了curli生产组装/转运蛋白CsgG[阪崎肠杆菌(Cronobacterpulveris)]的WP_024556654.1:16-277的氨基酸序列，其与SEQ ID NO:3具有89％同一性。

SEQ ID NO:75显示了curli生产组装/转运蛋白CsgG[水生拉恩菌(Rahnellaaquatilis)HX2]的YP_005400916.1:16-277的氨基酸序列，其与SEQ ID NO:3具有84％同一性。

SEQ ID NO:76显示了CsgG家族curli生产组装/转运组分[抗坏血酸克吕沃尔菌(Kluyvera ascorbata)ATCC 33433]的KFC99297.1:20-278的氨基酸序列，其与SEQ ID NO:3具有82％同一性。

SEQ ID NO:77显示了CsgG家族curli生产组装/转运组分[蜂窝哈夫尼亚菌(Hafnia alvei)ATCC 13337]的KFC86716.1|:16-274的氨基酸序列，其与SEQ ID NO:3具有81％同一性。

SEQ ID NO:78显示了未表征的参与形成curli聚合物的蛋白[肠杆菌科细菌菌株FGI 57]的YP_007340845.1|:16-270的氨基酸序列，与SEQ ID NO:3具有76％同一性。

SEQ ID NO:79显示了curli生产组装/转运蛋白CsgG[类志贺邻单胞菌(Plesiomonas shigelloides)]的WP_010861740.1:17-274的氨基酸序列，其与SEQ ID NO:3具有70％同一性。

SEQ ID NO:80显示了curli生产组装/转运外膜脂蛋白组分CsgG[费氏弧菌(Vibrio fischeri)ES114]的YP_205788.1:23-270的氨基酸序列，其与SEQ ID NO:3具有60％同一性。

SEQ ID NO:81显示了curli生产组装蛋白CsgG[变形菌(Aliivibrio logei)]的WP_017023479.1:23-270的氨基酸序列，其与SEQ ID NO:3具有59％同一性。

SEQ ID NO:82显示了Curli生产组装/转运组分CsgG[发光杆菌属(Photobacterium sp.)AK15]的WP_007470398.1:22-275的氨基酸序列，其与SEQ ID NO:3具有57％同一性。

SEQ ID NO:83显示了curli生产组装蛋白CsgG[维氏气单胞菌(Aeromonasveronii)]的WP_021231638.1:17-277的氨基酸序列，其与SEQ ID NO:3具有56％同一性。

SEQ ID NO:84显示了Curli生产组装/转运蛋白CsgG[希瓦氏菌属(Shewanellasp.)ECSMB14101]的WP_033538267.1:27-265的氨基酸序列，其与SEQ ID NO:3具有56％同一性。

SEQ ID NO:85显示了curli生产组装蛋白CsgG[恶臭假单胞菌(Pseudomonasputida)]的WP_003247972.1:30-262的氨基酸序列，其与SEQ ID NO:3具有54％同一性。

SEQ ID NO:86显示了curli生产组装/转运组分CsgG[紫色希瓦氏菌(Shewanellaviolacea)DSS12]的YP_003557438.1:1-234的氨基酸序列，其与SEQ ID NO:3具有53％同一性。

SEQ ID NO:87显示了curli生产组装/转运蛋白CsgG[詹氏海杆菌(Marinobacterium jannaschii)]的WP_027859066.1:36-280的氨基酸序列，其与SEQ IDNO:3具有53％同一性。

SEQ ID NO:88显示了Curli生产组装/转运组分CsgG[校园金黄杆菌(Chryseobacterium oranimense)G311]的CEJ70222.1:29-262的氨基酸序列，其与SEQ IDNO:3具有50％同一性。

SEQ ID NO:1(>P0AEA2；来自大肠杆菌K12的WT CsgG的编码序列)

SEQ ID NO:2(>P0AEA2(1:277)；来自大肠杆菌K12的WT前原CsgG)

SEQ ID NO:3(＞P0AEA2(16:277)；来自大肠杆菌K12的成熟CsgG)

SEQ ID NO:4(＞P0AE98；来自大肠杆菌K12的WT CsgF的编码序列)

SEQ ID NO:5(＞P0AE98(1:138)；来自大肠杆菌K12的WT前CsgF)

SEQ ID NO:6(>P0AE98(20:138)；来自大肠杆菌K12的WT成熟CsgF)

SEQ ID NO:7(>P0AE98；CsgF 1:27_6His的编码序列)

SEQ ID NO:8(>P0AE98(1:28)；CsgF 20:27_6His的前蛋白)

SEQ ID NO:9(>P0AE98；CsgF 1:38_6His的编码序列)

SEQ ID NO:10(>P0AE98(1:39)；CsgF 20:38_6His的前蛋白)

SEQ ID NO:11(>P0AE98；CsgF 1:48_6His的编码序列)

SEQ ID NO:12(>P0AE98(1:49)；CsgF 20:48_6His的前蛋白)

SEQ ID NO:13(>P0AE98；CsgF 1:64_6His的编码序列)

SEQ ID NO:14(>P0AE98(1:65)；CsgF 20:64_6His的前蛋白)

SEQ ID NO:15(>P0AE98(20:53)；CsgF 20:53的成熟肽)

SEQ ID NO:16(>P0AE98(20:42)；CsgF 20:42+KD的成熟肽)

SEQ ID NO:17(>>Q88H88_PSEPK(23:55))

SEQ ID NO:18(>A0A143HJA0_9GAMM(25:57))

SEQ ID NO:19(>Q5E245_VIBF1(21:53))

SEQ ID NO:20(>Q084E5_SHEFN(19:51))

SEQ ID NO:21(>F0LZU2_VIBFN(15:47))

SEQ ID NO:22(>A0A136HQR0_9ALTE(26:58))

SEQ ID NO:23(>A0A0W1SRL3_9GAMM(21:53))

SEQ ID NO:24(>B0UH01_METS4(26:59))

SEQ ID NO:25(>Q6NAU5_RHOPA(22:53))

SEQ ID NO:26(>G8PUY5_PSEUV(7:38))

SEQ ID NO:27(>A0A0S2ETP7_9RHIZ(25:57))

SEQ ID NO:28(>E3I1Z1_RHOVT(19:51))

SEQ ID NO:29(>F3Z094_DESAF(24:55))

SEQ ID NO:30(>A0A176T7M2_9FLAO(21:53))

SEQ ID NO:31(>D2QPP8_SPILD(14:45))

SEQ ID NO:32(>N2IYT1_9PSED(26:58))

SEQ ID NO:33(>W7QHV5_9GAMM(26:58))

SEQ ID NO:34(>D4ZLW2_SHEVD(23:55))

SEQ ID NO:35(>D2QT92_SPILD(21:53))

SEQ ID NO:36(>A0A167UJA2_9FLAO(20:51))

SEQ ID NO:37(>P0AE98(20:28)；CsgF 20:27的成熟肽)

SEQ ID NO:38(>P0AE98(20:39)；CsgF 20:38的成熟肽)

SEQ ID NO:39(>P0AE98(20:49)；CsgF 20:48的成熟肽)

SEQ ID NO:40(>P0AE98(20:65)；CsgF 20:64的成熟肽)

SEQ ID NO:41(CsgF_d27_末端)

SEQ ID NO:42(CsgF_d38_末端)

SEQ ID NO:43(CsgF_d48_末端)

SEQ ID NO:44(CsgF_d64_末端)

SEQ ID NO:45(pNa62_CsgF_histag_Fw)

SEQ ID NO:46(CsgF-His_pET22b_FW)

SEQ ID NO:47：(CsgF-His_pET22b_Rev)

SEQ ID NO:48：(csgEFG_pDONR221_FW)

SEQ ID NO:49：(csgEFG_pDONR221_Rev)

SEQ ID NO:50：(Mut_csgF_His_FW)

SEQ ID NO:51：(Mut_csgF_His_Rev)

SEQ ID NO:52：(DelCsgE_Rev)

SEQ ID NO:53：(DelCsgE FW)

SEQ ID NO:54(>P0AE98(20:50)；CsgF 1:30的成熟肽)

SEQ ID NO:55(>P0AE98(20:54)；CsgF 1:35的成熟肽)

制成蛋白质的具有蛋白酶裂解位点的CsgF序列的实例。信号肽以粗体显示，TEV蛋白酶裂解位点以粗体和下划线显示，并且HCV C3蛋白酶裂解位点以下划线显示。StrepII表示C端的Strep标签，H10表示C端的10x组氨酸标签，并且**表示终止密码子。

SEQ ID NO:56Pro-CsgF-Eco-(WT-T4C/N17S/P35-TEV-S36)-StrepII

SEQ ID NO:57Pro-CsgF-Eco-(WT-N17S-Del(P35-[TEV]-S36)-StrepII

SEQ ID NO:58Pro-CsgF-Eco-(WT-G1C/N17S/P35-[TEV]-S36)-StrepII

SEQ ID NO:59 Pro-CsgF-Eco-(WT-G1C/P35-[TEV]-S36)-StrepII

SEQ ID NO:60 Pro-CsgF-Eco-(WT-T45-TEV-P46)-H10

SEQ ID NO:61 Pro-CsgF-Eco-(WT-P35-TEV-S36)-H10

SEQ ID NO:62 Pro-CsgF-Eco-(WT-N30-TEV-S31)-H10

SEQ ID NO:63 Pro-CsgF-Eco-(WT-T45-TEV-F51)-H10

SEQ ID NO:64 Pro-CsgF-Eco-(WT-N30-TEV-Y37)-H10

SEQ ID NO:65 Pro-CsgF-Eco-(WT-D34-[C3]-S36)

SEQ ID NO:66 Pro-CsgF-Eco-(WT-I42-[C3]-E43)

SEQ ID NO:67 Pro-CsgF-Eco-(WT-N38-[C3]-S47)

SEQ ID NO:68

SEQ ID NO:69

SEQ ID NO:70

SEQ ID NO:71

SEQ ID NO:72

SEQ ID NO:73

SEQ ID NO:74

SEQ ID NO:75

SEQ ID NO:76

SEQ ID NO:77

SEQ ID NO:78

SEQ ID NO:79

SEQ ID NO:80

SEQ ID NO:81

SEQ ID NO:82

SEQ ID NO:83

SEQ ID NO:84

SEQ ID NO:85

SEQ ID NO:86

SEQ ID NO:87

SEQ ID NO:88

参考文献

Chin JW.,Martin AB.,King DS.,Wang L.,Schultz PG.(2002)Addition of aphotocrosslinking amino acid to the genetic code of Escherichia coli.Proc NatAcad Sci USA 99(17):11020-11024.

GoyalP,Van Gerven N,Jonckheere W,RemautH.(2013)Crystallization andpreliminary X-ray crystallographic analysis of the curli transporterCsgG.Acta Crystallogr Sect F Struct Biol Cryst Commun.69(Pt 12):1349-53.

GoyalP,Krasteva PV,Van Gerven N,Gubellini F,Van den Broeck I,Troupiotis-A,Jonckheere W,Péhau-Arnaudet G,Pinkner JS,Chapman MR,Hultgren SJ,Howorka S,Fronzes R,RemautH.(2014)Structural and mechanisticinsights into the bacterial amyloid secretion channel CsgG.Nature 516(7530):250-3.

HammarM,Arnqvist A,Bian Z,Olsén A,NormarkS.(1995)Expression of twocsg operons is required for production of fibronectin-and congo red-bindingcurli polymers in Escherichia coli K-12.Mol Microbiol.18(4):661-70.

Juncker AS,Willenbrock H,Von Heijne G,Brunak S,Nielsen H,Krogh A.(2003)Prediction of lipoprotein signal peptides in Gram-negativebacteria.Protein Sci.12(8):1652-62.

Ludtke SJ.2016,Single-particle refinement and variability analysis inEMAN2.1.Methods Enzymol.579:159-89.

Rohou A andGrigorieff N 2015,CTFFIND4:Fast and accurate defocusestimation from electron micrographs.J Struct Biol.192(2):216-21.

Robinson LS,Ashman EM,Hultgren SJ,Chapman MR.(2006)Secretion of curlifibre subunits is mediated by the outermembrane-localizedCsgGprotein.Molecular Microbiology 59,870–881.

Scheres 2012,RELION:implementation of a Bayesian approach to cryo-EMstructure determination.J.Struct.Biol.180(3):519-30.

Wang A.,Winblade Nairn N.,Marelli M.,Grabstein K.(2012).ProteinEngineering with Non-Natural Amino Acids.Protein Engineering,Prof.PravinKaumaya(Ed.),InTech,DOI:10.5772/28719.

Zheng SQ.,Palovcak E.,Armache J-P.,Verba KA.,Cheng Y.,Agard DA.(2017)MotionCor2:anisotropic correction of beam-induced。

Claims

1.一种截短的CsgF肽，其中所述截短的CsgF肽缺少CsgF的C端头部结构域和CsgF的颈部结构域的至少一部分，并且所述截短的CsgF肽包含CsgG结合区和在包含CsgG和所述截短的CsgF肽的孔中形成收缩段的区。

2.根据权利要求1所述的CsgF肽，其长度为25至50个氨基酸。

3.根据权利要求1或2所述的CsgF肽，其包含：

(i)从SEQ ID NO:6的残基1到SEQ ID NO:6的残基28至45中的任一个的氨基酸序列，或与SEQ ID NO:6具有至少80％的序列同一性的其同源物或变体；

(ii)SEQ ID NO:39(SEQ ID NO:6的残基1至29)，或与SEQ ID NO:6具有至少80％的序列同一性的其同源物或变体；

(iii)SEQ ID NO:15(SEQ ID NO:6的残基1至34)，或与SEQ ID NO:6具有至少80％的序列同一性的其同源物或变体；

(iv)SEQ ID NO:54(SEQ ID NO:6的残基1至30)，或与SEQ ID NO:6具有至少80％的序列同一性的其同源物或变体；

(v)SEQ ID NO:40(SEQ ID NO:6的残基1至45)，或与SEQ ID NO:6具有至少80％的序列同一性的其同源物或变体；

(vi)SEQ ID NO:55(SEQ ID NO:6的残基1至35)，或与SEQ ID NO:6具有至少80％的序列同一性的其同源物或变体。

4.根据权利要求1至3中任一项所述的CsgF肽，其中在SEQ ID NO:6、SEQ ID NO:15、SEQID NO:39、SEQ ID NO:40、SEQ ID NO:54或SEQ ID NO:55(残基1至35)的残基1和28至45之间的区中的一个或多个残基被修饰，可选地，其中所述修饰在以下位置中的一个或多个处：G1、T4、F5、R8、N9、N11、F12、A26和Q29，并且其中所述修饰是引入半胱氨酸、疏水性氨基酸、带电荷的氨基酸、非天然反应性氨基酸或光反应性氨基酸。

5.根据权利要求4所述的CsgF肽，其在以下位置中的一个或多个处包含修饰：N15、N17、A20、N24、A28和D34，并且其包含以下取代中的一个或多个：N15S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C、N17S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C、A20S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C、N24S/T/Q/A/G/L/V/I/F/Y/W/R/K/D/C、A28S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C和D34F/Y/W/R/K/N/Q/C。

6.根据权利要求4或5所述的CsgF肽，其包含以下取代中的一个或多个：G1C、T4C、N17S和D34Y或D34N。

7.根据权利要求1至6中任一项所述的CsgF肽，其在C末端还包含酶裂解位点的全部或部分和/或信号肽。

8.一种包含CsgG孔和根据权利要求1至7中任一项所述的截短的CsgF肽的孔，其中所述截短的CsgF肽与CsgG结合并在所述孔中形成收缩段。

9.根据权利要求8所述的孔，其中所述截短的CsgF肽插入所述CsgG孔的内腔中。

10.根据权利要求8或9所述的孔，其中所述CsgG孔包含6至10个CsgG单体。

11.根据权利要求8至10中任一项所述的孔，其中所述孔中CsgG单体与截短的CsgF肽的比率为1:1。

12.根据权利要求8至11中任一项所述的孔，其中所述CsgF肽和所述CsgG孔共价偶联，并且其中所述共价偶联是借助于：

(i)在与SEQ ID NO:3或其同源物的132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209相对应的位置处的半胱氨酸残基；或

13.根据权利要求8至12中任一项所述的孔，其中所述CsgG孔包含至少一个单体，所述至少一个单体包含与SEQ ID NO:3中的以下修饰相对应的一个或多个修饰：

(i)在一个或多个位置Y51、N55和F56的修饰，和可选地，至少一个选自Y51A/I/V/S/T、N55A/I/V/S/T和F56/A/I/V/S/T/Q的取代；

(ii)至少一个选自R97W或R97Y和R93W或R93Y的取代；

(iii)SEQ ID NO:3的V105、A106和I107的缺失；

(iv)SEQ ID NO:3的位置R192、F193、I194、D195、Y196、Q197、R198、L199和E201中的一处或多处的缺失，或SEQ ID NO:3的D195、Y196、Q197、R198和L199的缺失；

(v)至少一个选自K94N/Q/R/F/Y/W/L/S、D43S、E44S、F48S/N/Q/Y/W/I/V/H/R/K、Q87N/R/K、N91K/R、R97F/Y/W/V/I/K/S/Q/H、E101I/L/A/H、N102K/Q/L/I/V/S/H、R110F/G/N、Q114R/K、R142Q/S、T150Y/A/V/L/S/Q/N的取代；

(vi)在位置I41、R93、A98、Q100、G103、T104、A106、I107、N108、L113、S115、T117、Y130、K135、E170、S208、D233、D238、E244、Q42、E44、L90、N91、I95、A99、E101和Q114中的一处或多处的修饰；

(vii)V105、A106和I107的缺失；

(viii)至少一个选自Q42K或Q42R；E44N或E44Q；L90R或L90K；N91R或N91K；I95R或I95K；A99R或A99K；E101H、E101K、E101N、E101Q或E101T；和/或Q114K的取代；和/或

(ix)取代N55V。

14.根据权利要求8至13中任一项所述的孔，其中所述CsgG孔包含至少一个单体，所述至少一个单体在与SEQ ID NO:3的R192相对应的位置处包含R或K。

15.一种用于产生根据权利要求8至14中任一项所述的孔的方法，所述方法包括使一个或多个CsgG单体和CsgF肽在宿主细胞中共表达，从而允许在所述细胞中形成跨膜孔复合物，或使一个或多个纯化CsgG单体与经修饰的CsgF肽接触，从而允许在体外形成所述孔。

16.根据权利要求15所述的用于产生孔的方法，其中所述方法包括表达包含酶裂解位点的经修饰的CsgF肽，所述酶裂解位点被定位成使得裂解所述CsgF肽产生包含CsgG结合区和在所述孔中形成收缩段的区的截短的CsgF肽，并且其中所述方法包括裂解所述CsgF肽。

17.一种用于确定靶多核苷酸的存在、不存在或一个或多个特征的方法，其包括以下步骤：

(i)使所述靶多核苷酸与根据权利要求8至14中任一项所述的孔接触，使得所述靶多核苷酸移动到所述孔复合物中；以及

(ii)在所述多核苷酸移动通过所述孔复合物时进行一项或多项测量，从而确定所述多核苷酸的存在、不存在或一个或多个特征。

18.一种用于表征靶分析物的试剂盒，其包含(a)根据权利要求8-14中任一项所述的孔和(b)膜的组分。