CN113195736A - 孔 - Google Patents

Download PDF

Info

Publication number
CN113195736A
CN113195736A CN201980073675.XA CN201980073675A CN113195736A CN 113195736 A CN113195736 A CN 113195736A CN 201980073675 A CN201980073675 A CN 201980073675A CN 113195736 A CN113195736 A CN 113195736A
Authority
CN
China
Prior art keywords
protein
nanopore
csgg
csgf
pore
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980073675.XA
Other languages
English (en)
Inventor
汉·瑞曼特
S·E·范德韦伦
纳尼·范格文
拉科马·尼尚萨·贾亚辛格
伊丽莎白·杰恩·华莱士
普拉提克·拉吉·辛格
理查德·乔治·汉布利
迈克尔·罗伯特·乔丹
约翰·约瑟夫·基尔戈
A·J·赫伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Flemish Biotechnology Institute
Universite Libre de Bruxelles ULB
Oxford Nanopore Technologies PLC
Original Assignee
Flemish Biotechnology Institute
Universite Libre de Bruxelles ULB
Oxford Nanopore Technologies PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1818216.2A external-priority patent/GB201818216D0/en
Priority claimed from GBGB1819054.6A external-priority patent/GB201819054D0/en
Application filed by Flemish Biotechnology Institute, Universite Libre de Bruxelles ULB, Oxford Nanopore Technologies PLC filed Critical Flemish Biotechnology Institute
Publication of CN113195736A publication Critical patent/CN113195736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Peptides Or Proteins (AREA)
  • Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Immobilizing And Processing Of Enzymes And Microorganisms (AREA)

Abstract

一种用于表征靶多核苷酸的系统,所述系统包括膜和孔复合物;其中所述孔复合物包括:(i)定位在所述膜中的纳米孔;以及(ii)附接到所述纳米孔的辅助蛋白或肽;其中所述纳米孔和所述辅助蛋白或肽一起形成跨所述膜的连续通道,所述通道包括第一收缩区域和第二收缩区域;其中所述第一收缩区域由所述纳米孔的一部分形成,并且其中所述第二收缩区域由所述辅助蛋白或肽的至少一部分形成。

Description

技术领域
本发明涉及新颖纳米孔复合物、包括膜和新型纳米孔复合物的用于表征多核苷酸的系统以及使用系统表征多核苷酸的方法。
背景技术
纳米孔感测是一种依赖于对分析物分子与离子传导通道之间的个别结合或相互作用事件的观察的分析物检测和表征方法。可以通过在电绝缘膜中放置纳米尺寸的单孔和测量在存在分析物分子的情况下通过孔的电压驱动的离子电流来产生纳米孔传感器。纳米孔内部或附近的分析物的存在将改变通过孔的离子流,从而引起在通道上测量的离子或电流改变。分析物的同一性通过其独特的电流特征揭露,尤其是电流块的持续时间和程度以及与孔相互作用期间电流电平的变化。分析物可以是有机和无机小分子以及包含多核苷酸、多肽和多糖的各种生物或合成大分子和聚合物。纳米孔感测可以揭露被感测分析物的同一性并执行单分子计数,而且还可以提供关于如核苷酸、氨基酸或聚糖序列等分析物组成以及碱基、氨基酸或聚糖修饰(如甲基化和酰化、磷酸化、羟基化、氧化、还原、糖基化、脱羧、脱氨等)的存在的信息。纳米孔感测可能允许快速且廉价的多核苷酸测序,从而提供数十到数万个碱基长度的多核苷酸的单分子序列读段。
使用纳米孔感测的聚合物表征的基本组成部分中的两个组成部分是:(1)控制聚合物移动通过孔;以及(2)在聚合物移动通过孔时区分构成的构建块。在纳米孔感测期间,孔的最窄部分形成读取器头——纳米孔相对于随通过的分析物变化的电流特征的最具区分力的部分。
对于作为多核苷酸的分析物,核苷酸区分通过穿过这种突变孔来实现,但是电流特征已被证明是序列依赖性的,并且多个核苷酸有助于观察到的电流,使得通道收缩部的高度和与分析物的相互作用表面的程度会影响观察到的电流与多核苷酸序列之间的关系。虽然已经通过CsgG孔突变提高了用于核苷酸区分的电流范围,但是如果可以进一步提高核苷酸之间的电流差异,则测序系统将具有更高的性能。因此,需要鉴定改进纳米孔感测特征的新颖方法。
发明内容
本公开涉及用于表征靶多核苷酸的系统。所述系统包括其中存在跨膜孔的膜。所述孔是跨膜纳米孔和辅助蛋白或辅助肽的复合物。所述孔包括至少两个收缩部,所述收缩部可以在多核苷酸表征方法中用作读取器头,其中第一收缩部存在于跨膜纳米孔中,并且第二收缩部由辅助蛋白或辅助肽提供。由于所述孔具有至少两个收缩部,所述收缩部可以用作能够区分不同核苷酸的位点,因此所述孔显示出改善的核苷酸识别性。因此,所述孔对于测序多核苷酸是有利的。孔中存在能够区分不同核苷酸的多于一个位点不仅允许确定核酸序列的长度,还允许更有效地确定多核苷酸的序列。
具体地,本文所述的多个读取器头孔复合物可以提供核苷酸均聚物段的改进的碱基调用(即测序)。尖锐的收缩部可以充当孔的读取器头,并且能够区分A、C、G和T穿过孔时的混合序列。这是因为测得的信号含有每个核苷酸与收缩部相互作用时产生的特性电流偏转,从中可以得出序列的同一性。但是,在DNA的均聚物区域中,测得的信号可能未示出足够大以允许单碱基鉴定的电流偏转;使得不能仅根据测得的信号的大小来准确确定均聚物的长度。使用辅助蛋白或肽结合跨膜纳米孔引入第二收缩部,所述跨膜纳米孔与在空间上与第一收缩部相互作用的核苷酸分开的核苷酸相互作用,导致产生信号步骤,所述信号步骤含有允许比在没有辅助蛋白或肽的情况下使用跨膜孔时更准确地确定均聚物序列的信息,特别是针对较长的均聚物序列片段。
在第一方面,本发明提供了用于表征靶多核苷酸的系统,所述系统包括膜和孔复合物,其中所述孔复合物包括:(i)定位在所述膜中的纳米孔;以及(ii)附接到所述纳米孔的辅助蛋白或肽,其中所述纳米孔和所述辅助蛋白或肽一起形成跨所述膜的连续通道,所述通道包括由所述纳米孔的一部分孔形成的第一收缩区域和由所述辅助蛋白或肽的至少一部分形成的第二收缩区域。
在一个实施例中,辅助蛋白是多聚体蛋白。
在一个实施例中,辅助蛋白是跨膜蛋白纳米孔或其片段。在一个实施例中,跨膜蛋白纳米孔选自MspA、α-溶血素、CsgG、胞溶素、InvG、GspD、杀白细胞素、FraC、气单胞菌溶素、NetB以及其功能同源物和片段。
在一个实施例中,辅助蛋白包括跨膜蛋白孔复合物的组分的片段。
在一个实施例中,辅助蛋白是不在膜中天然形成纳米孔和/或不包括在膜中天然形成的跨膜孔复合物的组分或其片段的蛋白。
在一个实施例中,辅助蛋白或肽是环形的。在一个实施例中,辅助蛋白或肽是不在膜中天然形成纳米孔和/或不包括在膜中天然形成的跨膜孔复合物的组分或其片段的环形蛋白或肽。在某些实施例中,辅助蛋白选自GroES、CsgF或CsgF肽、正五聚蛋白、SP1以及其功能同源物和片段。
在一些实施例中,辅助蛋白是跨膜蛋白纳米孔或其片段。例如,在某些实施例中,跨膜蛋白孔选自MspA、α-溶血素、CsgG、胞溶素、InvG、GspD、杀白细胞素、FraC、气单胞菌溶素、NetB以及其功能同源物和片段。在特定实施例中,当纳米孔是CsgG孔时,辅助蛋白不是CsgF或其同源物、片段或修饰形式。
在一个实施例中,复合物中的纳米孔是第一跨膜蛋白纳米孔,并且辅助蛋白是第二跨膜蛋白纳米孔或其片段。在一些实施例中,第一跨膜蛋白纳米孔和第二跨膜蛋白纳米孔或其片段属于相同的跨膜蛋白纳米孔类型。在一些更具体的实施例中,第一跨膜蛋白纳米孔和第二跨膜蛋白纳米孔是相同的。在其它实施例中,第一跨膜蛋白纳米孔和第二跨膜蛋白纳米孔或其片段属于不同的跨膜蛋白纳米孔类型。在特定实施例中,当第一跨膜蛋白纳米孔是CsgG孔或其同源物、片段或修饰形式时,第二跨膜蛋白纳米孔不是CsgG纳米孔或其同源物、片段或修饰形式。相反,当第二跨膜蛋白纳米孔是CsgG纳米孔或其同源物、片段或修饰形式时,第一跨膜蛋白纳米孔不是CsgG纳米孔或其同源物、片段或修饰形式。
在一些实施例中,第一跨膜蛋白纳米孔和/或第二跨膜蛋白纳米孔或其片段是同源寡聚体。在其它实施例中,第一跨膜蛋白纳米孔和/或第二跨膜蛋白纳米孔或其片段是异源寡聚体。
在一个实施例中,纳米孔选自MspA、CsgG以及其功能同源物和片段,并且其中辅助蛋白是GroES或其功能同源物或片段。
在一些实施例中,与对应的天然存在的跨膜蛋白纳米孔相比,第一跨膜蛋白纳米孔和/或第二跨膜蛋白纳米孔包括至少一个氨基酸修饰。例如,经修饰的跨膜蛋白纳米孔可以包括:(i)跨膜蛋白纳米孔与辅助蛋白之间的界面处的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的跨膜蛋白纳米孔中;和/或(ii)形成第一收缩部的部分的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的跨膜蛋白纳米孔中。
在一个实施例中,膜包括两亲分子层,和/或膜是或包括固态层。在一个实施例中,纳米孔是在固态层中形成的固态纳米孔。
在孔复合物中,在一个实施例中,辅助蛋白或肽的至少一部分定位在纳米孔的腔内。例如,第二收缩部可以由辅助蛋白或肽的至少一部分形成,所述部分定位在纳米孔的腔内。在一个实施例中,辅助蛋白或肽完全定位在纳米孔的腔内。在另一个实施例中,辅助蛋白或肽定位在纳米孔的腔外部。
在一个实施例中,辅助蛋白或肽通过一个或多个共价键和/或一种或多种非共价相互作用附接到纳米孔。
在一些实施例中,辅助蛋白是经修饰的辅助蛋白或肽,其与对应的天然存在的辅助蛋白或肽相比包括至少一个氨基酸修饰。例如,经修饰的辅助蛋白或肽包括:(i)跨膜蛋白纳米孔与辅助蛋白或肽之间的界面处的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的辅助蛋白或肽中;和/或(ii)形成第二收缩部的部分的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的辅助蛋白或肽中。
在一个实施例的孔复合物中,第一收缩部和/或所述第二收缩部的最小直径为约0.5nm到约2nm或约0.5nm到约4nm。
在另外的实施例中,系统适合于表征包括均聚物区域的靶多核苷酸。
在一些实施例中,系统进一步包括第一腔室和第二腔室,其中第一腔室和第二腔室由膜分隔开。在一个实施例中,靶多核苷酸短暂地定位在连续通道内,并且其中靶多核苷酸的一端定位在第一腔室中,并且靶多核苷酸的一端定位在第二腔室中。系统还可以进一步包括与纳米孔接触的导电溶液、跨膜提供电压电势的电极以及用于测量通过纳米孔的电流的测量系统。
在第二方面,本公开涉及一种分离的孔复合物,其包括(i)纳米孔;和(ii)附接到所述纳米孔的辅助蛋白或肽;
其中纳米孔和辅助蛋白或肽一起限定连续通道,所述通道包括第一收缩区域和第二收缩区域;
其中第一收缩区域由纳米孔的一部分形成,并且其中第二收缩区域由辅助蛋白或肽的至少一部分形成。
分离的孔复合物可以具有本文中参考本发明的第一方面所述的特征中的任何一个或多个特征。
在第三方面,本公开涉及一种用于表征靶多核苷酸的方法,所述方法包括以下步骤:
(a)使本文公开的系统与靶多核苷酸接触;
(b)跨所述膜施加电势,使得所述靶多核苷酸进入由所述孔复合物形成的所述连续通道;以及
(c)在所述多核苷酸相对于所述连续通道移动时进行一次或多次测量,由此表征所述多核苷酸。
在一个实施例中,步骤(c)包括测量通过连续通道的电流,其中电流指示靶多核苷酸的存在和/或一个或多个特性,并且由此检测和/或表征靶多核苷酸。在所述方法的一个实施例中,靶多核苷酸中的核苷酸与连续通道内的第一收缩区域和第二收缩区域相互作用,并且其中第一收缩区域和第二收缩区域中的每个收缩区域能够区分不同的核苷酸,使得通过连续通道的总电流受到第一收缩区域和第二收缩区中的每个收缩区域与定位在所述区域中的每个区域处的核苷酸之间的相互作用的影响。在一个实施例中,多核苷酸通过通道移动并跨膜易位。在一个实施例中,使用多核苷酸结合蛋白来控制多核苷酸相对于孔移动。在一个实施例中,特性选自:(i)多核苷酸的长度;(ii)多核苷酸的同一性;(iii)多核苷酸的序列;(iv)多核苷酸的二级结构;以及(v)多核苷酸是否被修饰。在一个实施例中,所述方法包括确定靶多核苷酸的核苷酸序列。在一个实施例中,靶多核苷酸包括均聚物区域。
附图说明
图1示出了包括CsgG孔作为跨膜纳米孔和第二CsgG孔作为辅助蛋白的孔复合物的结构。两个CsgG孔呈尾对尾取向,并且指示两个读取器头。
图2示出了图1中所示的CsgG孔复合物(双孔)的壁中的孔。本发明人已产生表明双孔电流小于单孔电流的一半(在较高电压下)的数据。本发明人提出这可能是由于电流从两个孔的界面处的侧袋泄漏造成的。可通过将这个区域中的一个或多个氨基酸残基改变为更大的氨基酸残基来填补这些间隙。
图3示出了图1中所示的CsgG孔复合物(双孔)中的两个CsgG孔之间的界面的部分的结构。突变在包括Y51A和F56Q突变(AQ=CP1-(WT-Y51A/F56Q-StrepII(C))9)的孔中示出。所指示的Cys突变体对可以形成S-S键。
图4示出了(左)图1中所示的CsgG孔复合物(双孔)的部分的结构,其中单链DNA分子插入孔中。两个收缩部(读取器头)之间存在大约15个核苷酸。两个读取器头由非DNA相互作用区域分隔开。基于建模数据还示出了(中间)通过孔复合物的通道的可视化和(右)示出通过孔复合物的通道的孔半径的孔半径曲线。
图5A示出了CsgG孔的横截面,所述横截面示出了插入单链DNA的收缩部(读取器头)。
图5B示出了野生型CsgG孔的横截面,其中指示了三个主要的氨基酸残基:F56(中心环顶部的侧链残基,中灰色)、N55(中心环,深灰色)和Y51(中心环的底部,浅灰色)。收缩部以相对非结构化的环定位在桶内(在顶部处)。可以通过在现有位置处进行突变或通过插入另外的氨基酸残基来延长读取器头。例如,可以通过在三个所指示位置中的每一个处进行突变和/或通过在52、53和54位置处进行突变来加宽读取器头。
图5C示出了CsgG孔的单体中从K49到F56的残基的位置。可以通过增加51与55之间的环的长度使51进一步向下移动。可以在51与52、52与53、53与54或54与55之间插入新的氨基酸残基。例如,可以插入1个、2个、3个或更多个氨基酸残基。为保持环的柔性性质,可插入A/S/G/T。为了给环添加扭结,可以插入P。新的A氨基酸残基可能有助于信号(例如,S/T/N/Q/M/F/W/Y/V/I)。同样,可以在55与56(1个或2个或更多个)之间插入新的氨基酸。其可以是以上氨基酸中的任一个。还可以通过将氨基酸插入到Y51上方的环的两侧使Y51向下移动。例如,可以将S或G或SG或SGG或SGS或GS或GSS或GSG或其它合适的氨基酸(1个或2个或更多个)插入(i)(49与50)之间和(52与53)之间;(ii)(50与51)之间和(51与52)之间;(iii)1和2的组合;或(iv)(i)到(iii)中的任一个可以与其它插入物(例如,55与56之间的插入物)组合。
图6示出了在实例中使用的基线CsgG孔(A)、具有延长的读取器头的CsgG孔(B)和双CsgG孔(C)的结构和读取器头。当使用延长的读取器头孔或双孔时,与基线相比,均聚物碱基调用有所改善。
图7示出了CsgG孔的结构和用于与CsgF形成复合物的界面。表面(A)和碳带(B,C)表示中的CsgG寡聚体(例如九聚体)的横截面图(A)、侧视图(B)和顶视图(C),其中单个CsgG原聚体的颜色为浅灰色(D)(基于CsgG X射线结构PDB条目:4uv3)。CsgG收缩环(CL环)跨越根据SEQ ID NO:3的残基46到61,并且在所有分图中以深灰色指示,并且对应于在(E)的左下方提供的环。如(E)和(D)中的β链所指示和标记的,侧链面向CsgGβ-桶的腔的CsgG残基的颜色为中灰色。这些残基表示可以用于取代天然或非天然氨基酸的位点,例如,适于孔驻留肽(包含例如经修饰的CsgF肽或其同源物)与CsgG孔或单体的附接(例如,共价交联)。在一些实施例中,交联残基包含Cys以及反应性和光反应性氨基酸,如叠氮基高丙氨酸、高炔丙基甘氨酸、同等位甘氨酸、对乙酰基-Phe、对叠氮基-Phe、对炔丙基氧基-Phe和对苯甲酰基-Phe(Wang等人,2012;Chin等人,2002),并且可以被替换到根据SEQ ID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207或209中。(E)示出了CsgG单体的CL环和跨膜β链的放大。CsgG收缩环(深蓝色)在CsgG孔(分图A)中形成孔口或最窄的通路。在一些实施例中,CL环中根据SED ID NO:3的三个位置56、55和51对于CsgG通道孔口或“读取器头”的直径以及化学和物理性质特别重要。这些表示改变CsgG孔和同源物的纳米孔感测性质的优选位置。
图8示出了在cryo-EM中确定的CsgG:CsgF结构。(A)CsgG:CsgF复合物的冷冻电子显微照片示出了9聚体和18聚体CsgG:CsgF复合物的存在,其中9聚体和18聚体形式的许多单个粒子分别用实心圆圈和虚线圆圈突出显示。(B)从侧面看CsgG:CsgF 9聚体复合物的两个代表性的类平均值。类平均值分别包含6020个和4159个单独粒子。类平均值揭露了在CsgG粒子的顶部存在另外的密度,这对应于CsgF的寡聚体复合物。在CsgF寡聚体中可以看到三个不同的区域:“头部”和“颈部”区域,以及位于CsgGβ-桶的腔内部并形成收缩部或狭窄通路(标记为F)的区域,所述狭窄通道堆叠在由CsgG CL环(标记为G)形成的收缩部的顶部。这种后面的CsgF区域被称为CsgF收缩肽(FCP)。
图9示出了CsgG:CsgF复合物的三维结构模型。CsgG:CsgF 9聚体复合物的3DcryoEM电子密度的横截面图根据分配给21个类平均值的20.000个粒子计算得出。右侧图片示出了CsgG 9聚体X射线结构(PDB条目:4uv3)对接到cryoEM密度中的叠加。指示了对应于CsgG、CsgF和CsgF头部、颈部和FCP结构域的区域。横截面示出了CsgF FCP区域在CsgG通道中形成另外的收缩部(标记为F),所述收缩部大约在CsgG收缩环(标记为G)上方2nm处。
图10示出了对形成CsgG相互作用序列和CsgF收缩肽(FCP)的大肠杆菌CsgF区域的实验评估。分图(A)示出了与大肠杆菌CsgG(SEQ ID NO:2)共表达的四个N末端CsgF片段(SEQ ID NO:8_CsgF残基1-27;SEQ ID NO:10;SEQ ID NO:12和SEQ ID NO:14)的成熟序列(即去除CsgF信号肽之后,所述CsgF信号肽对应于SEQ ID NO:5的残基1-19)。(B)CsgG和CsgF共表达实验的粗制细胞裂解物的SDS-PAGE运行的抗Strep(左)和抗His(右)的蛋白质印迹分析。抗strep分析展现了CsgG在所有共表达实验中的表达,而抗his蛋白质印迹分析仅针对截短突变体CsgF 1-64(SEQ ID NO:14)示出了可检测水平的CsgF片段。His标记的纳米抗体(Nb)被用作阳性对照。(C)CsgF片段在CsgG:CsgF共表达实验中的存在的抗His斑点印迹分析。上排示出了全细胞裂解物,中排和下排示出了Strep亲和力下拉实验的洗脱液和流过液。这些数据表明,CsgF片段1-64,以及在更小的程度上CsgF 1-48,作为与Strep标记的CsgG的复合物被特异性下拉。CsgF片段1-27和1-38不产生可检测水平的对应CsgF片段,并且没有示出与CsgG形成复合物的迹象。
图11示出了CsgG:CsgF复合物的高分辨率cryoEM结构。CsgG以浅灰色示出,并且CsgF以深灰色示出。A.CsgG:CsgF复合物在
Figure BDA0003055639270000061
分辨率下的最终电子密度图。侧视图。B.用于示出CsgG:CsgF的cryoEM结构的顶视图包括9:9的化学计量比,具有C9对称性。C.CsgG:CsgF复合物的内部架构。GC、CsgG收缩部、FC、CsgF收缩部。D.CsgG与CsgF蛋白之间的相互作用。CsgG和CsgG收缩部的颜色分别为浅灰色和灰色。CsgF的颜色为深灰色。CsgG和CsgF中的残基分别以浅灰色和黑色标记。
图12示出了CsgG:CsgF复合物的两个读取器头。CsgG以浅灰色示出,并且CsgG孔的读取器头以深灰色示出。CsgF以黑色显示,并且CsgF的读取器头带有标签。
图13示出了CsgG:CsgF复合物的热稳定性。M:分子量标志物,泳道1:CsgG孔,泳道2:室温下的CsgG:CsgF复合物:泳道3-9:CsgG:CsgF样品在不同温度(分别为40℃、50℃、60℃、70℃、80℃、90℃、100℃)下加热10分钟。泳道1:
A.Y51A/F56Q/N55V/N91R/K94Q/R97W-del(V105-I107):CsgF-(1-45)。
B.Y51A/F56Q/N55V/N91R/K94Q/R97W-del(V105-I107):CsgF-(1-35)。
C.Y51A/F56Q/N55V/N91R/K94Q/R97W-del(V105-I107):CsgF-(1-30)。
将样品在7.5%TGX凝胶上进行SDS-PAGE。具有CsgF-(1-45)和CsgF-(1-35)两者的CsgG:CsgF复合物示出从泳道1中的CsgG孔带易位。因此,很明显,这两种复合物在高达90℃的温度下具有热稳定性。复合物和孔在100℃下分解为CsgG单体(泳道9)。尽管看到CsgG:CsgF复合物与CsgF-(1-30)具有相同的热稳定性,但很难看到CsgG孔(泳道1)与CsgG-CsgF复合物(泳道2-8)的蛋白质带之间的移位。
图14示出了使用合成的CsgF肽通过体外重组形成CsgG:CsgF。天然PAGE示出了使用野生型CsgG或具有改变的收缩部Y51A/F56Q/K94Q/R97W/R192D-del(V105-l107)的CsgG突变体通过体外重组形成CsgG:CsgF。在50mM Tris、100mM NaCl、1mM EDTA、5mM LDAO/C8D4中,将对应于成熟CsgF(Seq ID No 6)的前34个残基的Alexa 594标记的CsgF肽在室温下在15分钟期间以2:1的摩尔比添加到纯化的Strep标记的CsgG或Y51A/F56Q/K94Q/R97W/R192D-del(V105-l107)中以进行重组。在StrepTactin珠上下拉CsgG-strep之后,在native-PAGE上分析样品。WT和Y51A/F56Q/K94Q/R97W/R192D-del(V105-l107)CsgG两者均与CsgF N末端肽结合,如通过荧光标签显示的。
图15示出了稳定的CsgG:CsgF或CsgG:FCP复合物。A.可以形成S-S键的CsgG(SEQID NO:3)和CsgF(SEQ ID NO:6)对的经鉴定的氨基酸位置。B.示出CsgG-Q153C与CsgF-G1C之间的S-S键的示意性图示。
图16示出了CsgG:CsgF复合物的半胱氨酸交联。A.分别对Y51A/F56Q/N91R/K94Q/R97W/Q153C-del(V105-I107)和CsgF-G1C蛋白进行纯化,并在4℃下一起温育1小时或过夜,以形成复合物并允许S-S形成。没有添加氧化剂来促进S-S形成。将对照CsgG孔(Y51A/F56Q/N91R/K94Q/R97W/Q153C-DEL(V105-I107))和复合物(具有和没有DTT)在100℃下加热10分钟,以将复合物分解成CsgG单体(CsgGm,30KDa)和CsgF单体(CsgFm,15KDa)。在不存在还原剂的情况下,可以看到CsgGm与CsgFm之间的二聚体(CsgGm-CsgFm,45KDa),从而证实S-S键形成。与温育一小时相比,可以看到过夜温育的二聚体形成增加。B.对过夜温育的凝胶纯化的CsgGm-CsgFm带进行质谱分析。蛋白质被蛋白水解裂解以产生胰蛋白酶肽。执行了LC-MS/MS测序方法,结果鉴定出对应于所示连接肽的上述前体离子。使此前体离子碎片化,得到观察到的碎片离子。这些碎片离子包含肽中的每一个的离子以及并入完整二硫键的片段。此数据为CsgF的C1与CsgG的C153之间二硫键的存在提供了有力的证据。
图17示出了CsgG:CsgF复合物的半胱氨酸交联的效率提高。泳道1:Y51A/F56Q/N91R/K94Q/R97W/N133C-del(V105-I107)和CsgF-T4C蛋白共表达,CsgG:CsgF复合物被纯化。泳道2:在存在DTT的情况下加热复合物以将复合物分解成取代基单体(CsgGm和CsgFm)。DTT将分解CsgG-N133C与CsgF-T4C之间的任何S-S键(如果形成)。泳道3:将复合物与氧化剂铜-邻二氮菲一起温育以促进S-S键形成。泳道4:在不存在DTT的情况下将氧化的样品在100℃下加热以分解复合物。出现对应于CsgGm-CsgFm的45KDa的新带,从而证实S-S键形成。
图18示出了DNA链穿过CsgG:CsgF复合物时的电流特征。通过将含有C末端strep标签的CsgG孔(Y51A/F56Q/N91R/K94Q/R97W-del(V105-I107))与含有C末端His标签和位于seq ID no.6的35与36之间的TEV蛋白酶裂解位点的全长CsgF蛋白共表达来制备复合物。然后用TEV蛋白酶裂解纯化的复合物,以制备给定的CsgG:CsgF复合物。注意,TEV裂解在裂解位点处留下ENLYFQ序列。A.CsgF的17位置处无突变。B.CsgF中的N17S突变。
图19示出了DNA链穿过CsgG:CsgF复合物时的电流特征。通过将含有C末端strep标签的Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-(1-35)突变体一起温育来制备复合物。A.CsgF-N17S-(1-35)。B.CsgF-N17V-(1-35)。
图20示出了DNA链穿过CsgG:CsgF复合物时的电流特征。通过将含有C末端strep标签的不同CsgG孔与CsgF-N17S-(1-35)一起温育来制备复合物。A.CsgG孔是Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)。B.CsgG孔是Y51T/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)。C.CsgG孔是Y51A/N55I/F56Q/N91R/K94Q/R97W-del(V105-I107)。D.CsgG孔是Y51A/F56A/N91R/K94Q/R97W-del(V105-I107)。E.CsgG孔是Y51A/F56I/N91R/K94Q/R97W-del(V105-I107)。F.CsgG孔是Y51S/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)。
图21示出了DNA链穿过CsgG:CsgF复合物时的电流特征。通过将含有C末端strep的大肠杆菌纯化的Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与三种不同长度的CsgF一起温育来制备复合物。A.CsgF-(1-29),B.CsgF-(1-35),C.CsgF-(1-45)。箭头指示信号的范围。出乎意料的是,与CsgF-(1-29)的复合物产生最大范围的信号。
图22示出了DNA链穿过CsgG:CsgF复合物时电流特征的信噪比。通过将不同的CsgG孔(1-Y51A/F56Q/N91R/K94Q/R97W-del(V105-I107)2-Y51A/N55I/F56Q/N91R/K94Q/R97W-del(V105-I107)3-Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)4-Y51A/F56A/N91R/K94Q/R97W-del(V105-I107)5-Y51A/F56I/N91R/K94Q/R97W-del(V105-I107)6-Y51A/F56V/N91R/K94Q/R97W-del(V105-I107)7-Y51S/N55A/F56Q/N91R/K94Q/R97W-del(V105-I107)8-Y51S/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)9-Y51T/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107))与相同的CsgF肽CsgF-(1-35)一起温育来制备不同的CsgG:CsgF复合物。在DNA易位实验中观察到了不同的曲线图案,并测量了其信噪。采用更大的信噪比可以获得更高的精度。
图23示出了窄读取器头的测序错误。DNA碱基与CsgG孔的读取器头的相互作用的表示。当DNA链通过孔易位时,在任何给定的时间,大约有5个碱基主导电流特征。B.信号的映射图。对于缺少均聚物运行的混合序列,以及对于含有三个10T均聚物运行的序列,使用定制HMM将多个读段的事件检测信号映射到建模信号。
图24示出了CsgG:CsgF复合物的读取器头的映射。CsgG:CsgF复合物的读取器头区分度图。每个读取器头位置处的碱基发生变化时建模电流的平均变化。为了计算具有长度为n的字母的长度为k的模型在位置i处的读取头区分度,将读取头位置i处的区分度定义为大小为n的nk-1组中的每一组的电流电平的标准偏差的中值,其中位置i是变化的,而其它位置保持不变。B.映射读取器头的静态DNA链:创建了一组polyADNA链(SS20到SS38),其中DNA主链(iSpc3)中缺少一个碱基。在每条链中,iSpc3的位置从3'端向5'端移动。基于先前采用CsgG孔进行的实验,预计DNA的第7位置定位在CsgG收缩部内。突出显示对应于此DNA的SS26。基于来自(A)的模型,预计4-5个碱基将CsgG和CsgF读取器头分隔开。因此,预计大约位置12和13在CsgF收缩部内。突出显示对应于那些位置的SS31和SS32 DNA链。C和D.映射两个读取器头:每条链的3'端处的生物素修饰与单价链霉亲和素复合,并且从每条链产生的电流阻滞记录在MinION装置中。当iSpc3位置存在于孔内的收缩部上方或下方时,预计不会出现偏转。但是,当iSpc3定位在收缩部内时,预计会有更高的电流电平通过孔——由于缺乏碱基而产生的额外空间让更多的离子通过。因此,通过绘制穿过每条DNA链的电流,可以映射两个读取器头的位置。如所预期的,当DNA链的位置7被iSpc3(C)占据时,可以看到电流的最高偏转。位置6和8处的iSpc3也会在平均polyA电流电平上产生更高的偏转。因此,DNA链的位置6、7和8表示第一读取器头——CsgG读取器头。如所预期的,当第12和第13位置被iCsp3占据时,观察到与基线polyA的另一个偏差(D)。这指示孔的第二个读取器头——CsgF读取器头。结果还证实两个读取器头相距大约4-5个碱基。
图25示出了读取器头区分度和碱基贡献。左侧分图展现了每个突变体孔的读取头区分度:每个读取头位置处的碱基发生变化时的模拟电流的平均变化。为了计算具有长度为n的字母的长度为k的模型在位置i处的读取头区分度,将读取头位置i处的区分度定义为大小为n的nk-1组中的每一组的电流电平的标准偏差的中值,其中位置i是变化的,而其它位置保持不变。右侧分图展现了碱基贡献图:在读取器头的位置i处具有碱基b(A、T、G或C)的所有序列上下文的中值电流。A.CsgG Y51A/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF(1-35)肽的复合物。B.CsgG Y51T/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-N17S-(1-35)的复合物。C.CsgG Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-N17S-(1-35)的复合物。D.CsgG Y51T/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-N17S-(1-35)的复合物。E.CsgG Y51A/N55I/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-N17S-(1-35)的复合物。F.CsgG Y51S/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-N17S-(1-35)的复合物。G.CsgG Y51A/F56I/N91R/K94Q/R97W-del(V105-I107)孔与CsgF-N17S-(1-35)的复合物。F.CsgG Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)孔与CsgF-N17S-(1-45)的复合物。
图26示出了双读取器头孔的误差曲线。A.CsgG:CsgF复合物的示意性表示和DNA的碱基与两个读取器头的相互作用。红色:强相互作用,橙色:弱相互作用,灰色:无相互作用。B.缺失中的错误比较。来自Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)和Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107)的读段:CsgF-N17S-(1-35)孔从大肠杆菌DNA的同一区域进行碱基调用。使用Minimap2(https://arxiv.org/abs/1708.01492)将读段与参考基因组进行比对,并且最终的比对结果在Savant基因组浏览器(https://www.ncbi.nlm.nih.gov/pubmed/20562449)中显示。在T均聚物中,大多数Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)读段含有单个碱基缺失(黑盒),这在大多数CsgG:CsgF读段中不存在。C.从Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)(蓝色)和Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107):CsgF-N17S-(1-35)孔(绿色)生成的未修饰数据与均聚物长度的一致准确度比较。
图27示出了CsgG:CsgF复合物的均聚物调用。具有如(A)所示的序列的DNA通过Y51A/F56Q/N91R/K94Q/R97W/R192D-del(V105-I107)孔(B)和Y51A/N55V/F56Q/N91R/K94Q/R97W-del(V105-I107):CsgF-N17S-(1-35)孔(C)易位,并且针对(A)中以浅灰色示出的第一polyT区段分析其信号。当polyT区段穿过含有单个读取器头的CsgG孔(模型基于定位在读取器头中的5个碱基)时,其在信号中生成一条平线。因此,很难确定此区域中通常引起缺失错误的碱基的确切数量。当DNA穿过含有两个读取器头的CsgG:CsgF复合物(模型基于定位在两个读取器头内和之间的9个碱基)时,polyT区段示出多个步骤,而不是一条平线。这些步骤中的信息可以用于正确鉴定均聚物区域中的碱基的数量。此另外的信息显著减少缺失错误并提高总体一致准确度。
图28示出了CsgG孔(Y51A/F56Q/N91R/K94Q/R97W/-del(V105-I107))的表征。A.CsgG孔的读取器头区别。每个读取器头位置处的碱基发生变化时建模电流的平均变化。为了计算具有长度为n的字母的长度为k的模型在位置i处的读取头区分度,将读取头位置i处的区分度定义为大小为n的nk-1组中的每一组的电流电平的标准偏差的中值,其中位置i是变化的,而其它位置保持不变。B.CsgG孔的碱基贡献图。在读取器头的位置I处具有碱基b(A、T、G或C)的所有小片段的中值电流。C.DNA链穿过CsgG孔时的电流特征。
图29:左)根据本公开的包括纳米孔和辅助蛋白的系统的示意性表示。纳米孔和辅助蛋白两者都含有能够区分分析物的至少一个读取器头(收缩区域),所述读取器头示意性地表示为穿过复合物的连续通道中的最窄点。右)用于表征多核苷酸(例如出于对多核苷酸进行测序的目的)的包括纳米孔和辅助蛋白的系统的示意性表示,其中多核苷酸通过系统的移动由另一个实体控制,最优选地例如多核苷酸结合运动酶。
图30:示例辅助蛋白的3D表示。A)来自美洲鲎的正五聚蛋白(pdb=3FLT,3FLP)。B)SP1的寡聚形式(pdb=1TR0)。C)大肠杆菌GroES蛋白的寡聚形式(pdb=1PCQ)。附图示出了从上方(顶行)和从侧面(底行)观察的蛋白质。从上方可以清楚地看到通过蛋白质和最小直径收缩部的通道。蛋白质的侧视图沿中心轴切开以露出内部。附图标记有蛋白质的大致内部和外部尺寸。
图31:GroES与放置在通道内的单链DNA之间的相互作用。来自两次不同运行的数据显示,GroES(大肠杆菌)的L49、E50、N51、E53和Y71氨基酸与DNA链相互作用。可以对这些位置进行工程化以提高信号的分辨率。
图32:示例辅助蛋白(在此情况下为GroES)可以与纳米孔(在此情况下为CsgG)偶联以创建具有不同性质的不同系统的各种方式的示意性图示。附图展示了辅助蛋白如何偶联到纳米孔的任一端。例如,对于从膜的一侧易位到另一侧的分析物,这将以不同的顺序遇到两个读取器。同样,附图还展示了辅助蛋白的任一端可以与纳米孔偶联。这些变化可以用于控制系统的几何形状以及读取器之间的距离。虽然未展示,但是可以组合所展示的场景,例如可以将辅助蛋白偶联到纳米孔的两端,例如以创建三读取器头系统。在图43-45中示出了具有CsgG纳米孔和两种辅助蛋白GroES和CsgF的类似实例。
图33:具有辅助蛋白FCP(CsgF肽的1-36)的CsgG的孔复合物的表示。A)从侧面看复合物的模型表示。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-FCP蛋白复合物的通道的孔半径。
图34:MspA(PDB=1UUN)和GroES(PDB=1PCQ)的孔复合物的表示。A)从侧面看复合物的模型表示。将GroES辅助蛋白放置在MspA纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过MspA-GroES蛋白复合物的通道的半径。
图35:MspA(PDB=1UUN)和SP1(PDB=1TRO)的孔复合物的表示。A)从侧面看复合物的模型表示。将SP1辅助蛋白放置在MspA纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过MspA-SP1蛋白复合物的通道的半径。
图36:MspA(PDB=1UUN)和正五聚蛋白(PDB=3FLP)的孔复合物的表示。A)从侧面看复合物的模型表示。将正五聚蛋白辅助蛋白放置在MspA纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过MspA-正五聚蛋白的蛋白复合物的通道的半径。
图37:α-溶血素(PDB=7AHL)和GroES(PDB=1PCQ)的孔复合物的表示。A)从侧面看复合物的模型表示。将GroES辅助蛋白放置在α-溶血素纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过α-溶血素-GroES蛋白复合物的通道的半径。
图38:α-溶血素(PDB=7AHL)和SP1(PDB=1TRO)的孔复合物的表示。A)从侧面看复合物的模型表示。将SP1辅助蛋白放置在α-溶血素纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过α-溶血素-SP1蛋白复合物的通道的半径。
图39:α-溶血素(PDB=7AHL)和正五聚蛋白(PDB=3FLP)的孔复合物的表示。A)从侧面看复合物的模型表示。将SP1辅助蛋白放置在α-溶血素纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过α-溶血素-正五聚蛋白的蛋白复合物的通道的半径。
图40:CsgG(PDB=4UV3)和GroES(PDB=1PCQ)的孔复合物的表示。A)从侧面看复合物的模型表示。将GroES辅助蛋白放置在CsgG纳米孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-GroES蛋白复合物的通道的半径。
图41:CsgG(PDB=4UV3)和SP1(PDB=1TRO)的纳米孔复合物的表示。A)从侧面看复合物的模型表示。将SP1辅助蛋白放置在CsgG孔的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-SP1蛋白复合物的通道的半径。
图42:CsgG(PDB=4UV3)和正五聚蛋白(PDB=3FLP)的孔复合物的表示。A)从侧面看复合物的模型表示。将SP1辅助蛋白放置在CsgG纳米孔顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-正五聚蛋白的蛋白复合物的通道的半径。
图43:具有辅助蛋白FCP(CsgF肽的1-36)和GroES(PDB=1PCQ)的CsgG的孔复合物的表示。A)从侧面看复合物的模型表示。将GroES辅助蛋白放置在CsgG-FCP复合物的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-FCP-GroES蛋白复合物的通道的半径。
图44:具有辅助蛋白FCP(CsgF肽的1-36)和SP1(PDB=1TRO)的CsgG的孔复合物的表示。A)从侧面看复合物的模型表示。将GroES辅助蛋白放置在CsgG-FCP复合物的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-FCP-SP1蛋白复合物的通道的半径。
图45:具有辅助蛋白FCP(CsgF肽的1-36)和正五聚蛋白(PDB=3FLP)的CsgG的孔复合物的表示。A)从侧面看复合物的模型表示。将GroES辅助蛋白放置在CsgG-FCP复合物的顶部,使得蛋白质之间的距离最小化。B)通过孔复合物的通道的可视化。C)孔复合物的孔半径曲线,其示出了通过CsgG-FCP-正五聚蛋白的蛋白复合物的通道的半径。
图46:来自大肠杆菌(PDB=1PCQ)和嗜热栖热菌(PDB=1WNR)的MspA纳米孔和GroES辅助蛋白的孔半径曲线。数据表明,GroES的收缩区域的尺寸与MspA纳米孔的收缩区域的尺寸相当。
图47:放置在GroES的通道内的单链DNA分子的示意性图示(PDB=1PCQ)。
具体实施方式
本发明将相对于具体实施例并参考某些附图来说明,但本发明并不受限于此而只受权利要求限制。权利要求中的任何附图标记不应被解释为限制范围。当然,应当理解的是,不一定所有方面或优点可以根据本发明的任何特定实施例来实现。因此,例如,本领域技术人员将认识到,本发明可以以实现或优化如本文所教导的一个优点或一组优点的方式体现或执行,而不必实现如本文可以教导或建议的其它方面或优点。
当结合附图阅读时,通过参考以下详细描述,可以最好地理解本发明(关于组织和操作方法两者)以及其特征和优点。本发明的各方面和优点将根据下文描述的一个或多个实施例而变得显而易见,并且将参考所述实施例进行阐述。在整个本说明书中对“一个实施例”或“实施例”的提及意味着结合实施例描述的特定特征、结构或特性包含在本发明的至少一个实施例中。因此,在整个本说明书中各个地方出现的短语“在一个实施例中(in oneembodiment)”或“在一个实施例中(in an embodiment)”不一定都是指同一个实施例,但是可以指代同一个实施例。类似地,应理解,在本发明的示例性实施例的描述中,出于简单化本公开并且帮助理解各种发明性方面中的一个或多个的目的,本发明的各种特征有时被一起分组在单个实施例、附图或其描述中。然而,本公开的方法不应被解释为反映所要求保护的发明需要的特征比在每个权利要求中明确地叙述的更多的意图。相反,如以下权利要求书所反映,发明性方面在于比单个前述公开的实施例的所有特征更少。
另外,如在本说明书和所附权利要求中所使用的,除非内容另外明确指明,否则单数形式的“一种(a)”、“一个(an)”以及“所述(the)”均包含复数对象。因此,例如,对“多核苷酸”的提及包含两个或更多个多核苷酸;对“多核苷酸结合蛋白”的提及包含两个或更多个此类蛋白质;对“解旋酶”的提及包含两个或更多个解旋酶;对“单体”的提及是指两个或更多个单体;对“孔”的提及包含两个或更多个孔等。
在本文的所有讨论中,使用针对氨基酸的标准单字母代码。这些代码如下:丙氨酸(A)、精氨酸(R)、天冬酰胺(N)、天冬氨酸(D)、半胱氨酸(C)、谷氨酸(E)、谷氨酰胺(Q)、甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、甲硫氨酸(M)、苯丙氨酸(F)、脯氨酸(P)、丝氨酸(S)、苏氨酸(T)、色氨酸(W)、酪氨酸(Y)和缬氨酸(V)。也使用标准的取代记法,即Q42R意指位置42处的Q被R置换。
在于特定位置处的不同氨基酸通过/符号分隔的本文段落中,/符号意指“或”。举例来说,Q87R/K意指Q87R或Q87K。
在不同位置处通过/符号分隔的本文段落中,/符号意指“和”以使得Y51/N55是Y51和N55。
本文公开的所有氨基酸取代、缺失和/或添加都是参考包括SEQ ID NO:3中所示序列的变体的突变CsgG单体,除非相反地说明。
提及包括SEQ ID NO:3中所示序列的变体的突变CsgG单体涵盖包括序列的变体的突变CsgG单体。可以对包括除SEQ ID NO:3中所示之外的序列的突变CsgG单体进行等效于本文所公开的参考包括SEQ ID NO:3中所示序列的变体的突变CsgG单体的那些取代、缺失和/或添加的氨基酸取代、缺失和/或添加。
本文引用的所有出版物、专利和专利申请,无论是上文还是下文,均通过引用整体并入本文。
定义
当提及单数名词(例如“一个(a)”或“一种(an)”、“所述(the)”)时使用不定冠词或定冠词时,除非另有具体说明,否则这包含所述名词的复数形式。在本说明书和权利要求书中使用术语“包括(comprising)”时,其并不排除其它要素或步骤。此外,说明书和权利要求书中的术语第一、第二、第三等用于区分相似要素,而不一定用于描述顺序或时间次序。应该理解的是,如此使用的术语在适当情况下是可互换的,并且在此描述的本发明的实施例能够以不同于在此描述或说明的其它顺序操作。提供以下术语或定义仅用于帮助理解本发明。除非本文另有具体定义,否则在本文中使用的所有术语具有对本发明所属领域的技术人员来说相同的含义。针对本领域的定义和术语,执业医师特别参照Sambrook等人,《分子克隆:实验室手册(Molecular Cloning:ALaboratory Manual)》,第4版,冷泉港出版社(Cold Spring Harbor Press),纽约普莱恩维尤(2012);和Ausubel等人,《分子生物学最新方案(Current Protocols in Molecular Biology)》(副刊114),约翰威利父子出版社(John Wiley&Sons),纽约(2016)。本文提供的定义不应被解释为具有小于本领域普通技术人员所理解的范围。
当提及如量、持续时间等可测量的值时,本文所使用的术语“约”意味着涵盖与指定值的±20%或±10%,更优选±5%,甚至更优选±1%,以及还更优选±0.1%的偏差,因为此类偏差适合于执行所公开的方法。
本文所使用的术语“核苷酸序列”、“DNA序列”或“一个或多个核酸分子”是指任何长度的核苷酸的聚合形式,无论是核糖核苷酸还是脱氧核糖核苷酸。此术语仅指分子的一级结构。因此,此术语包含双链和单链DNA,以及RNA。本文所使用的术语“核酸”是单链或双链共价连接的核苷酸序列,其中每个核苷酸上的3'和5'端通过磷酸二酯键连接。多核苷酸可以由脱氧核糖核苷酸碱基或核糖核苷酸碱基构成。核酸可以在体外合成制造,或者从天然来源中分离。核酸可以进一步包含经修饰的DNA或RNA,例如已经被甲基化的DNA或RNA,或已经经受翻译后修饰的RNA,所述翻译后修饰例如是采用7-甲基鸟苷的5'封端、如裂解和聚腺苷酸化等3'加工以及剪接。核酸还可以包含合成核酸(XNA),如己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、甘油核酸(GNA)、锁核酸(LNA)和肽核酸(PNA)。核酸(在本文中也称为“多核苷酸”)的大小通常表示为双链多核苷酸的碱基对(bp)的数量,或在单链多核苷酸的情况下,表示为核苷酸(nt)的数量。一千bp或nt等于千碱基(kb)。长度小于约40个核苷酸的多核苷酸通常被称为“寡核苷酸”,并且可以包括用于如通过聚合酶链反应(PCR)操纵DNA的引物。
如此处所使用的,“基因”包含基因的启动子区域以及编码序列两者。其既指基因组序列(包含可能的内含子),也指可操作地连接到启动子序列的源自剪接信使的cDNA。
“编码序列”是核苷酸序列,当放置在适当调节序列的控制下时,其被转录成mRNA和/或翻译成多肽。编码序列的边界由5'末端处的翻译起始密码子和3'末端处的翻译终止密码子确定。编码序列可以包含但不限于mRNA、cDNA、重组核苷酸序列或基因组DNA,而内含子在某些情况下也可以存在。
在本公开的上下文中,术语“氨基酸”以其最广泛的意义使用,并且意指包含含有胺(NH2)和羧基(COOH)官能团以及对每种氨基酸具有特异性的侧链(例如R基团)的有机化合物。在一些实施例中,氨基酸是指天然存在的Lα-氨基酸或残基。本文中使用天然存在的氨基酸的一个和三个常用的字母缩写:A=Ala;C=Cys;D=Asp;E=Glu;F=Phe;G=Gly;H=His;I=Ile;K=Lys;L=Leu;M=Met;N=Asn;P=Pro;Q=Gln;R=Arg;S=Ser;T=Thr;V=Val;W=Trp;以及Y=Tyr(Lehninger,A.L.,(1975)《生物化学(Biochemistry)》,第2版,第71-92页,沃思出版社(Worth Publishers),纽约)。一般术语“氨基酸”进一步包含D-氨基酸、逆反式氨基酸以及化学修饰的氨基酸,如氨基酸类似物、通常不并入到蛋白质中的天然存在的氨基酸(如正亮氨酸)以及具有本领域已知为氨基酸特性的性质的化学合成的化合物(如β-氨基酸)。例如,允许肽化合物具有与天然Phe或Pro相同的构象限制的苯丙氨酸或脯氨酸的类似物或模拟物包含在氨基酸的定义中。此类类似物和模拟物在本文中被称为相应氨基酸的“功能等同物”。氨基酸的其它实例由Roberts和Vellaccio,《肽:分析、合成、生物学(The Peptides:Analysis,Synthesis,Biology)》,Gross和Meiehofer编辑,第5期第341页,学术出版社(Academic Press,Inc.),纽约1983列出,所述文献通过引用并入本文。
术语“多肽”和“肽”在本文中可进一步互换使用以指代氨基酸残基的聚合物以及其变体和合成类似物。因此,这些术语适用于氨基酸聚合物,其中一个或多个氨基酸残基是合成的非天然存在的氨基酸,如对应的天然存在的氨基酸的化学类似物,以及适用于天然存在的氨基酸聚合物。多肽还可以经历成熟或翻译后修饰过程,所述过程可以包含但不限于:糖基化、蛋白水解裂解、脂化、信号肽裂解、前肽裂解、磷酸化等。“重组多肽”意指使用重组技术例如通过表达重组或合成的多核苷酸制备的多肽。当重组产生嵌合多肽或其生物活性部分时,所述嵌合多肽或其生物活性部分也优选地基本上不含培养基,例如,培养基表示蛋白质制剂体积的小于约20%,更优选小于约10%,最优选小于约5%。“分离”意指基本上或本质上不含通常以其天然状态伴随的组分的物质。例如,本文所使用的“分离的多肽”是指已经从以天然存在状态存在于其侧翼的分子中纯化的多肽,例如,已经从与所述多肽相邻的产生宿主中存在的分子中去除的CsgF肽。分离的肽可以通过氨基酸化学合成来产生,或者可以通过重组产生来生成。分离的复合物可以在复合物的组分(例如CsgG孔和一个或多个CsgF肽)纯化之后通过体外重组来产生,或者可以通过重组共表达来产生。
术语“蛋白质”用于描述具有二级或三级结构的折叠多肽。蛋白质可以由单个多肽构成,或者可以包括组装形成多聚体的多个多肽。多聚体可以是同源寡聚体或异源寡聚体。蛋白质可以是天然存在的或野生型蛋白质,或者是经修饰的或非天然存在的蛋白质。蛋白质可以例如通过一个或多个氨基酸的添加、取代或缺失而不同于野生型蛋白质。
“直系同源物”和“旁系同源物”涵盖用于描述基因的祖先关系的进化概念。旁系同源物是同一物种内通过复制祖先基因而起源的基因;直系同源物是来自不同生物体的基因,其通过物种形成起源而且还来源于共同的祖先基因。
蛋白质的“变体”、“一个同源物”和“多个同源物”涵盖肽、寡肽、多肽、蛋白质和酶,其相对于所讨论的未经修饰的或野生型蛋白质具有氨基酸取代、缺失和/或插入,并且具有与其所衍生的未经修饰的蛋白质类似的生物和功能活性。如本文所使用的,术语“氨基酸同一性”是指序列在氨基酸对氨基酸的基础上在比较窗口上相同的程度。因此,“序列同一性百分比”通过以下来计算:在比较窗口上比较两个经过最佳比对的序列,确定相同的氨基酸残基(例如,Ala、Pro、Ser、Thr、Gly、Val、Leu、Ile、Phe、Tyr、Trp、Lys、Arg、His、Asp、Glu、Asn、Gln、Cys和Met)出现在这两个序列中的位置的数量以产生匹配位置的数量,用匹配位置的数量除以比较窗口中的位置的总数(即,窗口大小),以及将结果乘以100以产生序列同一性百分比。
术语“跨膜蛋白孔”定义了包括多个孔单体的孔。每个单体可以是野生型单体或其变体。变体单体也可以被称为经修饰的单体或突变单体。变体中的修饰或突变包含但不限于本文所公开的修饰中的任何一种或多种或所述修饰的组合。
术语“CsgG孔”定义了包括多个CsgG单体的孔。每个CsgG单体可以是来自大肠杆菌的野生型单体(SEQ ID NO:3)、大肠杆菌CsgG的野生型同源物(例如具有SEQ ID NO:68到88中所示的氨基酸序列中的任一个的单体),或其任何变体(例如SEQ ID NO:3和68到88中的任一个的变体)。变体CsgG单体也可以被称为经修饰的CsgG单体或突变CsgG单体。变体中的修饰或突变包含但不限于本文所公开的修饰中的任何一种或多种或所述修饰的组合。
对于本发明的所有方面和实施例,同源物是指与对应的野生型蛋白质的氨基酸序列具有至少50%、60%、70%、80%、90%、95%或99%完整序列同一性的多肽。例如,CsgG同源物与SEQ ID NO:3中所示的大肠杆菌CsgG具有至少50%、60%、70%、80%、90%、95%或99%的完整序列同一性。CsgG同源物还指含有PFAM结构域PF03783的多肽,所述结构域是CsgG样蛋白的特性。可以在以下网址找到当前已知的CsgG同源物和CsgG架构的列表:http://pfam.xfam.org//family/PF03783。同样,同源多核苷酸可以包括与编码野生型蛋白的核酸序列具有至少50%、60%、70%、80%、90%、95%或99%完整序列同一性的多核苷酸。例如,CsgG同源多核苷酸可以包括与SEQ ID NO:1中所示的大肠杆菌CsgG具有至少50%、60%、70%、80%、90%、95%或99%的完整序列同一性的多核苷酸。SEQ ID NO:3中所示的CsgG的同源物的实例具有SEQ ID NO:68到88中所示的序列。
术语“经修饰的CsgF肽”或“CsgF肽”定义了从其C末端(例如,N末端片段)被截短和/或被修饰成包含裂解位点的CsgF肽。CsgF肽可以是野生型大肠杆菌CsgF(SEQ ID NO:5或SEQ ID NO:6)的片段,或大肠杆菌CsgF的野生型同源物,例如包括SEQ ID NO:17到36中所示的氨基酸序列中的任一个的肽,或其任何变体(例如被修饰成包含切割位点的肽)。
对于本发明的所有方面和实施例,CsgF同源物是指与SEQ ID NO:6中所示的野生型大肠杆菌CsgF具有至少50%、60%、70%、80%、90%、95%或99%完整序列同一性的多肽。在一些实施例中,CsgF同源物还指含有PFAM结构域PF10614的多肽,所述结构域是CsgF样蛋白的特性。可以在以下网址找到当前已知的CsgF同源物和CsgF架构的列表:http:// pfam.xfam.org//family/PF10614。同样,CsgF同源多核苷酸可以包括与SEQ ID NO:4中所示的野生型大肠杆菌CsgF具有至少50%、60%、70%、80%、90%、95%或99%的完整序列同一性的多核苷酸。SEQ ID NO:6中所示的CsgF的同源物的截短区域的实例具有SEQ ID NO:17到36中所示的序列。
术语“CsgF成熟肽的N末端部分”是指具有对应于从CsgF成熟肽的N末端开始的前60个、50个或40个氨基酸残基(无信号序列)的氨基酸序列的肽。CsgF成熟肽可以是野生型或突变体(例如,具有一种或多种突变)。
序列同一性还可以是全长多核苷酸或多肽的片段或部分。因此,序列可以与全长参考序列具有仅50%的整体序列同一性,但是特定区域、结构域或亚基的序列可以与参考序列共享80%、90%或多达99%的序列同一性。CsgG同源物的SEQ ID NO:1或CsgF同源物的SEQ ID NO:4的核酸序列的同源性不仅限于序列同一性。尽管许多核酸序列具有明显低的序列同一性,但其可以展现出彼此之间生物学上显著的同源性。同源核酸序列被认为是在低严格性条件下能够相互杂交的序列(M.R.Green,J.Sambrook,2012,《分子克隆:实验室手册》,第四版,第1-3册,冷泉港出版社,纽约冷泉港)。
术语“野生型”是指与天然存在的来源分离的基因或基因产物。野生型基因是群体中最常观察到的基因,并且因此被任意设计为基因的“正常”或“野生型”形式。相反,术语“经修饰的”、“突变体”或“变体”是指与野生型基因或基因产物相比显示序列的修饰(例如,取代、截短或插入)、翻译后修饰和/或功能特性质(例如,改变的特性)的基因或基因产物。注意,天然存在的突变体可以被分离;通过与野生型基因或基因产物相比其具有改变的特性这一事实来鉴定这些突变体。用于引入或取代天然存在的氨基酸的方法在本领域是众所周知的。举例来说,可通过在编码突变单体的多核苷酸中的相关位置处用精氨酸的密码子(CGT)置换甲硫氨酸的密码子(ATG),而用精氨酸(R)来取代甲硫氨酸(M)。用于引入或取代非天然存在的氨基酸的方法在本领域也是众所周知的。举例来说,可以通过在用于表达突变单体的IVTT系统中包含合成氨基酰基-tRNA来引入非天然存在的氨基酸。可替代地,其可以通过在大肠杆菌中表达突变单体来引入,所述突变单体在存在那些特定氨基酸的合成(即非天然存在的)类似物的情况下对于特定氨基酸是营养缺陷型的。如果突变单体使用部分肽合成产生,则其还可以通过裸接合产生。保守取代用具有相似化学结构、相似化学特性或相似侧链体积的其它氨基酸代替氨基酸。引入的氨基酸可以具有与其代替的氨基酸类似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可替代地,保守取代可以引入芳香族或脂肪族的另一种氨基酸代替预先存在的芳香族或脂肪族氨基酸。保守氨基酸改变在本领域是众所周知的,并且可以根据如在下表1中限定的20种主要氨基酸的性质来进行选择。在氨基酸具有类似极性的情况下,还可以参考表2中的氨基酸侧链的亲水性尺度来确定这一点。
表1——氨基酸的化学性质
Figure BDA0003055639270000161
表2——亲水性标度
Figure BDA0003055639270000162
Figure BDA0003055639270000171
突变体或经修饰的蛋白质、单体或肽还可以以任何方式和在任何位点进行化学修饰。优选地通过将分子附接到一个或多个半胱氨酸(半胱氨酸连接)、将分子附接到一个或多个赖氨酸、将分子附接到一个或多个非天然氨基酸、表位的酶修饰或末端的修饰对突变体或经修饰的单体进行化学修饰。用于进行此类修饰的合适方法在本领域是众所周知的。经修饰的蛋白质、单体或肽的突变体可以通过任何分子的附接进行化学修饰。举例来说,经修饰的蛋白质、单体或肽的突变体可以通过染料或荧光团的附接进行化学修饰。
蛋白质还可以是例如通过重组DNA技术制备的融合蛋白质,特别是指遗传融合。如本文所使用的,蛋白质还可以是缀合的或“缀合到”,其特别是指导致稳定的共价连接的化学和/或酶促缀合。例如,多聚体辅助蛋白和/或纳米孔的多肽亚基中的两个、更多个或全部可以被融合,和/或辅助蛋白的多肽亚基可以与纳米孔的单体融合。
当若干多肽或蛋白质单体相互结合或相互作用时,蛋白质可以形成蛋白质复合物。“结合”意指任何相互作用,无论是直接的还是间接的。直接相互作用意味着结合伴侣之间例如通过共价连接或偶联的接触。间接相互作用意指相互作用伴侣在多于两种化合物的复合物中相互作用的任何相互作用。在一个或多个桥联分子的帮助下,相互作用可以是完全间接的,或者在伙伴之间仍然存在直接接触的情况下,可以是部分间接的,所述部分间接通过一种或多种化合物的另外的相互作用而得以稳定。本公开中提到的“复合物”被定义为一组两种或更多种可能具有不同功能的相关蛋白质。蛋白质复合物的不同多肽之间的缔合可能通过非共价相互作用(如疏水力或离子力)进行,或者也可以是共价结合或偶联(如二硫键或肽键)。共价“结合”或“偶联”在本文中可互换使用,并且还可以涉及分别指半胱氨酸之间或(光)反应性氨基酸之间的生物偶联的“半胱氨酸偶联”或“反应性或光反应性氨基酸偶联”,这是形成稳定复合物的化学共价连接。光反应性氨基酸的实例包含叠氮基高丙氨酸、高炔丙基甘氨酸、同等位甘氨酸、对乙酰基-Phe、对叠氮基-Phe、对炔丙基氧基-Phe和对苯甲酰基-Phe(Wang等人,2012,《蛋白质工程(Protein Engineering)》,DOI:10.5772/28719;Chin等人,2002,《美国国家科学院院刊(Proc.Nat.Acad.Sci.USA)》99(17);11020-24)。
“跨膜蛋白孔”或“生物孔”是限定允许分子和离子从膜的一侧易位到另一侧的通道或孔的跨膜蛋白结构。离子物质通过孔的易位可以由施加到孔的任一侧的电势差驱动。“纳米孔”是分子或离子穿过的通道的最小直径在纳米量级(10-9米)的孔。最小直径是收缩部的最窄点处的直径。跨膜蛋白孔本质上可以是单体的或寡聚的。通常,孔包括多个多肽亚基,所述多个多肽亚基围绕中心轴布置,由此形成基本上垂直于纳米孔所驻留的膜延伸的蛋白质内衬通道。多肽亚基的数量没有限制。通常,亚基的数量为5到多达30个,亚基的合适数量为6到10个。可替代地,亚基的数量不像在产气荚膜梭菌溶血素(perfringolysin)或相关的大膜孔的情况下那样定义。纳米孔内形成蛋白质内衬通道的蛋白质亚基的部分通常包括二级结构基序,所述二级结构基序可以包含一个或多个跨膜β-桶和/或α-螺旋区段。
术语“孔复合物”是指寡聚孔,其中纳米孔和辅助蛋白或肽在复合物中缔合并一起形成具有两个收缩区域的连续通道。当在具有膜组分、膜、细胞或绝缘层的环境中提供孔复合物时,孔复合物将插入膜或绝缘层中,并形成“跨膜孔复合物”。
本公开的孔复合物或跨膜孔复合物适于分析物表征。在一些实施例中,本文所述的孔复合物或跨膜复合物可以用于对多核苷酸序列进行测序,例如,因为其可以高度敏感地区分不同的核苷酸。本公开的孔复合物可以是分离的孔复合物、基本上分离的、纯化的或基本上纯化的。如果本公开的孔复合物完全不含任何其它组分(如脂质和/或其它孔)或通常以其天然状态与其缔合的其它蛋白质,例如CsgG和/或CsgF、CsgE、CsgA、CsgB,或者如果其从膜状隔室中充分富集,则本公开的孔复合物是“分离的”或纯化的。如果孔复合物与不会干扰其预期用途的载体或稀释剂混合,则孔复合物是基本上分离的。举例来说,如果孔复合物以包括小于10%、小于5%、小于2%或小于1%的其它组分(如三嵌段共聚物、脂质或其它孔)的形式存在,则孔复合物是基本上分离的或基本上纯化的。可替代地,当存在于膜中时,本公开的孔复合物可以是跨膜孔复合物。
在本文中可互换使用的“收缩部”、“孔口”、“收缩区域”、“通道收缩部”、“收缩位点”或“读取器头”是指由孔或孔复合物的腔表面限定的孔隙,所述孔隙的作用是允许离子和靶分子(例如但不限于多核苷酸或单独的核苷酸)穿过而不允许其它非靶分子通过由孔和辅助蛋白或肽形成的孔通道或连续通道。在一些实施例中,一个或多个收缩部是孔或孔复合物内的一个或多个最窄的孔隙。在此实施例中,一个或多个收缩部可以用于限制分子穿过孔。收缩部的大小通常是确定纳米孔对核酸测序应用的适用性的关键因素。如果收缩部太小,则要测序的分子将无法穿过。然而,为了实现对通过通道的离子流的最大影响,收缩部不应太大。例如,收缩部应优选地不宽于目标分析物的溶剂可及横径。理想地,任何收缩部的直径应尽可能接近穿过的分析物的横径。对于核酸和核酸碱基的测序,合适的收缩部直径在纳米范围内(10-9米范围)。适当地,直径应在0.5到2.0nm或0.5到4.0nm的范围内,通常,直径在0.7到1.2nm的范围内,如0.9nm
Figure BDA0003055639270000181
这种直径可能特别适合于单链核酸的测序。更大的直径(如约1.2nm到约4nm,如约2到约4nm或约3nm到约4nm)可能特别适合于双链核酸的测序。
当存在两个或更多个收缩部并间隔开时,每个收缩部可以同时与核酸链内的分离的核苷酸相互作用或“读取”分离的核苷酸。在这种情况下,通过通道的离子流减少将导致所有含有核苷酸的收缩部的流动受到联合限制。因此,在一些情况下,双重收缩部可能导致复合电流信号。在某些情况下,当存在两个此类读取头时,可能无法单独确定一个收缩部或“读取头”的电流读数。由辅助蛋白或肽提供的另外的通道收缩部或读取器头可以定位在距纳米孔的收缩区域约15nm或更小的位置,如约12nm或更小、约11nm或更小、约10nm或更小或约5nm或更小、或约1nm、2nm、3nm、4nm、5nm、6nm、7nm、8nm、9nm、10nm、11nm、12nm、13nm、14nm或15nm。本公开的孔复合物或跨膜孔复合物包含具有两个读取器头的孔复合物,即通道收缩部以这样的方式定位,以提供合适的分离的读取器头而不干扰其它收缩通道读取器头的准确度。
收缩区域或收缩位点可以由跨膜蛋白纳米孔和/或辅助蛋白或肽的蛋白质序列内的一个或多个特定氨基酸残基形成。
野生型大肠杆菌CsgG(SEQ ID NO:3)的收缩部例如由相邻蛋白质单体中位置51(Tyr 51)处的酪氨酸残基并列形成的两个环形圈以及分别位于位置56和55(Phe 56和Asn55)处的苯丙氨酸和天冬酰胺残基构成(图1)。在大多数情况下,CsgG的野生型孔结构通过重组遗传技术再工程化,以加宽、改变或去除构成CsgG收缩部(在本文中被称为“CsgG通道收缩部”)的两个环形圈之一,从而留下单个明确定义的读取头。CsgG寡聚孔中的收缩部基序定位在野生型单体大肠杆菌CsgG多肽中位置38到63处的氨基酸残基处,如SEQ ID NO:3中所描绘的。在考虑此区域时,氨基酸残基位置50到53、54到56以及58到59中的任一个处的突变以及Tyr51、Asn55和Phe56的侧链在野生型CsgG结构的通道内的定位关键被证明是有利的,以便修饰或改变读取头的特性。本公开涉及孔复合物,其包括CsgG孔和经修饰的CsgF肽或其同源物或突变体,令人惊讶地向含有CsgG的孔复合物添加另一个收缩部(在本文中被称为“CsgF通道收缩部”),通过与经修饰的CsgF肽形成复合物,在孔中形成合适的另外的第二读取器头。所述另外的CsgF通道收缩部或读取器头定位在与CsgG孔或突变的CsgG孔的收缩环相邻的位置。所述另外的CsgF通道收缩部或读取器头定位在距CsgG孔或突变的CsgG孔的收缩环大约10nm或更小的位置,如5nm或更小,如1nm、2nm、3nm、4nm、5nm、6nm、7nm、8nm、9nm。本公开的孔复合物或跨膜孔复合物包含具有两个读取器头的孔复合物,即通道收缩部以这样的方式定位,以提供合适的分离的读取器头而不干扰其它收缩通道读取器头的准确度。因此,所述孔复合物可以包含CsgG突变孔(参见并入的参考文献WO2016/034591、WO2017/149316、WO2017/149317、WO2017/149318和国际专利申请第PCT/GB2018/051191号,所述参考文献中的每一个都列出了改善孔的性质的野生型CsgG孔的突变)以及野生型CsgG孔或其同源物,连同经修饰的CsgF肽或其同源物或突变体,其中所述CsgF肽具有形成读取器头的另一个收缩通道。
孔复合物
本公开涉及与辅助蛋白或肽复合以产生具有至少两个收缩部的通道的纳米孔。在一个实施例中,孔复合物包括:(i)定位在膜中的纳米孔;以及(ii)附接到纳米孔的辅助蛋白或肽,其中纳米孔和辅助蛋白或肽一起形成跨所述膜的连续通道,所述通道包括第一收缩区域和第二收缩区域,并且其中第一收缩区域由纳米孔的一部分形成,并且其中第二收缩区域由辅助蛋白质或肽的至少一部分形成。
连续通道通常提供多核苷酸可以穿过的通路。例如,通道可以容纳多核苷酸,其中多核苷酸的一端朝向或伸出通道的一端,而多核苷酸的另一端朝向或伸出通道的另一端。在孔复合物定位于膜中的情况下,连续通道适合于多核苷酸跨膜易位。
辅助蛋白或肽的全部或部分可以定位在纳米孔的腔内。在此实施例中,由辅助蛋白或肽形成的收缩部可以位于纳米孔的腔的部分的内部或外部,或位于纳米孔的腔的入口处。可替代地,辅助蛋白或肽以及因此由辅助蛋白或肽形成的收缩部可以完全定位在纳米孔的腔外部。在辅助蛋白或肽的全部或部分定位在纳米孔的腔外部的情况下,其可以从纳米孔的任一侧延伸或与之相邻。孔复合物可以包括定位在纳米孔的一侧上的第一辅助蛋白或肽以及定位在纳米孔的同一侧或另一侧上的第二辅助蛋白或肽,使得两种辅助蛋白或肽以及纳米孔一起限定连续通道。第一辅助蛋白或肽和第二辅助蛋白或肽可以相同或不同。在孔复合物存在于具有顺面和反面的膜中的情况下,辅助蛋白或肽可以定位在膜的顺面上或膜的反面上。
辅助蛋白或肽以及纳米孔可以被配置在复合物中,使得通过连续通道易位的多核苷酸的每个相互作用的核苷酸首先与由纳米孔形成的收缩区域相互作用,并且然后与由辅助蛋白或肽形成的收缩区域相互作用。例如,其中多核苷酸穿过膜的顺面到达反面,由纳米孔形成的收缩区域定位在连续通道中比由辅助蛋白或肽形成的收缩区域更靠近膜的顺面的位置。
可替代地,辅助蛋白或肽以及纳米孔可以配置在复合物中,使得通过连续通道易位的多核苷酸的每个相互作用的核苷酸首先与由辅助蛋白或肽形成的收缩区域相互作用,并且然后与由纳米孔形成的收缩区域相互作用。例如,其中多核苷酸穿过膜的顺面到达反面,由辅助蛋白或肽形成的收缩区域定位在连续通道中比由纳米孔形成的收缩区域更靠近膜的顺面的位置。
在辅助蛋白或肽定位在孔的外部的情况下,辅助蛋白或肽本身通常具有形成孔复合物中连续通道的部分的中心孔隙,并且包含收缩区域。换句话说,辅助蛋白或肽可以是环形的。在一些实施例中,环形辅助蛋白或肽可以定位在纳米孔的腔内部或部分地定位在腔内部。
在辅助蛋白或肽至少部分地定位在孔的内部的情况下,辅助蛋白或肽本身可以或可以不含有形成孔复合物中连续通道的部分的中心孔隙,并且包含收缩区域。换句话说,辅助蛋白或肽可以是环形的。可替代地,只有在辅助蛋白或肽与纳米孔相互作用时才会形成收缩区域。例如,辅助肽可以与纳米孔相互作用以收缩纳米孔的腔并且因此在通道中形成收缩部。在一个实施例中,孔复合物可以包括肽的多个分子,其中每个分子与蛋白质纳米孔的一个单体相互作用,从而产生形成收缩部的肽同心环。
在一个实施例中,复合物包括两种或更多种辅助蛋白或肽,其中每种辅助蛋白或肽形成与纳米孔的通道连续的通道的腔的部分,并且各自形成收缩部。在此实施例中,纳米孔可以或可以不含有收缩部。在此实施例的一种形式中,第一辅助蛋白或肽可以定位在纳米孔的一侧并且第二辅助蛋白或肽可以定位在纳米孔的另一侧,使得两种辅助蛋白或肽以及纳米孔一起限定连续通道。第一辅助蛋白或肽和第二辅助蛋白或肽可以相同或不同。
在一个实施例中,收缩区域的最小直径可以为约0.5到约4.0纳米,如约0.5到约3.0纳米或约0.5到约2.0纳米,优选约0.7到约1.8纳米、约0.8到约1.7纳米、约0.9到约1.6纳米,或约1.0到约1.5纳米,如约1.1纳米、1.2纳米、1.3纳米或1.4纳米。孔复合物的通道中的两个或更多个收缩区域可以具有相同的最小直径,或者两个通道可以具有不同的最小直径。收缩区域的长度可以使得定位在通道中的多核苷酸中仅一个核苷酸影响流经孔复合物的电流,或者使得多核苷酸中的2个或更多个,如3个、4个、5个、6个或7个核苷酸影响电流。两个收缩部的长度还可以相同、类似或不同。例如,孔复合物中的两个收缩部之一可能产生受1个或2个核苷酸影响的信号,并且另一个收缩部可能产生受4个或5个核苷酸影响的信号。因此,一个收缩部可以用作尖锐的读取器头,而另一收缩部可以用作较宽的读取器头。
收缩区域的直径可以随收缩部的长度变化。在一个实施例中,收缩区域可以被定义为直径范围为约0.5到约4.0纳米的孔,如约0.5到约2.0纳米,优选地约0.7到约1.8纳米、约0.8到约1.7纳米、约0.9到约1.6纳米,或约1.0到约1.5纳米,如约1.1、1.2、1.3或1.4纳米。在一个实施例中,第一收缩区域与第二收缩区域之间沿通道长度的距离为约1到约10纳米,或约2到约10纳米,例如约2到约9纳米、约3到约8纳米、约4到约7纳米;或约1、约2、约3、约4、约5、约6、约7、约8、约9、或约10纳米。
在一个实施例中,第一收缩区域和第二收缩区域中的每一个都能够区分多核苷酸的不同核苷酸。因此,当离子电流通过孔并且通道中存在多核苷酸时,由多核苷酸与收缩区域相互作用产生的电流阻滞或信号指示了哪个或那些核苷酸与收缩区域相互作用。电流阻滞或信号通常受多核苷酸的不同部分与第一收缩区域和第二收缩区域中的每一个的同时相互作用的影响。
通过与辅助蛋白或肽形成复合物而在纳米孔通道中引入的另外的收缩部扩大了与通过的核苷酸(或其它分析物)的接触表面,并且可以充当用于核苷酸(或其它分析物)检测和表征的第二读取器头。包括与辅助蛋白或肽结合的纳米孔的孔复合物可以改善多核苷酸的特性,当多核苷酸通过孔移动时,在观察到的电流之间提供更具区分性的直接关系。具体地,通过使两个堆叠的读取器头以限定的距离间隔开,孔复合物可以促进含有至少一个均聚物段的多核苷酸的表征,例如,在其它方面超过单个纳米孔读取器头的相互作用长度的相同核苷酸的若干连续拷贝。
另外,通过使两个堆叠的收缩部以限定的距离间隔开,小分子分析物(包含有机或无机药物以及穿过复合物孔的污染物)将连续穿过两个独立的读取器头。任一读取器头的化学性质都可以独立修改,每个提供与分析物的独特相互作用性质,从而在分析物检测期间提供另外的区分能力。
辅助蛋白
在一个实施例中,辅助蛋白可以是环形的。在一个实施例中,环形蛋白包括围绕中心腔或孔隙布置的多个亚基或单体。在孔复合物中,中心腔或孔隙与纳米孔的腔对齐以形成连续通道。
中心腔或孔隙的最窄点通常形成连续通道中的收缩部。收缩部的最小直径可以为0.5nm到约4.0纳米,如约0.5到约3.0纳米或约0.5到约2.0纳米,优选地约0.7到约1.8纳米、约0.8到约1.7纳米、约0.9到约1.6纳米,或约1.0到约1.5纳米,如约1.1、1.2、1.3或1.4纳米。环形蛋白的外径可以更大或更小,或与纳米孔的外径大致相同。例如,环形蛋白的最大外径可以为约2nm到约20nm,如约5nm到约10nm或约5nm到约15nm,例如6nm到9nm或7nm到8nm。在一些实施例中,辅助蛋白可以从其天然状态被修饰成提供具有期望最小直径的收缩部。例如,辅助蛋白可以比被修饰的期望内径更宽,如通过靶向突变引入一个或多个大的残基以产生最小直径在以上指定范围内的收缩部。在一个实施例中,辅助蛋白的最大高度为约3nm到约20nm,如约4nm到约10nm。在一个实施例中,辅助蛋白中通道的长度为约3nm到约20nm,如约4nm到约10nm。高度是辅助蛋白在垂直于膜的方向上的尺寸。
环形辅助蛋白可以具有与纳米孔相同的对称性。例如,在纳米孔包括围绕中心轴的八个单体的情况下,辅助蛋白优选地具有八重对称性(即包括围绕中心轴的八个单体),或者在纳米孔包括围绕中心轴的九个单体的情况下,辅助蛋白优选地具有九重对称性(即具有围绕中心轴的九个亚基)等。可替代地,环形辅助蛋白可以包括比纳米孔更多或更少的单体,如多一个或少一个单体。
辅助蛋白通常在中心腔或孔隙内包括如位于或接近(例如在收缩部的约1、2、3、4或5nm内)收缩部的一个或多个带正电荷的氨基酸,如精氨酸、赖氨酸或组氨酸,或芳香族氨基酸,如酪氨酸或色氨酸。这些氨基酸通常促进孔与多核苷酸之间的相互作用。
辅助蛋白或肽可以选自GroES、CsgF、正五聚蛋白或SP1。辅助蛋白或肽可以是无活性的λ核酸外切酶或无活性的蛋白酶,如来自枯草芽孢杆菌(Bacillus subtilis)的Zn依赖性D-氨基肽酶DppA、HslUV蛋白酶的AAA+环或来自大肠杆菌的Lon蛋白酶。
在一个实施例中,辅助蛋白或肽不是CsgF或CsgF肽或其功能同源物、片段或修饰形式。在一个实施例中,辅助蛋白或肽不是CsgG纳米孔或其同源物、片段或修饰形式。
在一个实施例中,辅助蛋白是正五聚蛋白,也称为穿透素。正五聚蛋白是包括正五聚蛋白蛋白质结构域的多功能保守蛋白的超家族。正五聚蛋白是通常由5个或更多个单体形成的环形多聚体蛋白质。正五聚蛋白通常具有独特的扁平β果冻卷结构。正五聚蛋白的实例包含血清淀粉样P组分(SAP)、C反应蛋白(CRP)、雌性蛋白(FP)、神经正五聚蛋白I(NPTXI)、神经正五聚蛋白II(NPTXII)、NPTXR、顶体正五聚蛋白(apexin)、正五聚蛋白3(PTX3)(也称为TNF诱导基因14蛋白(TSG-14))、G蛋白偶联受体144(GPR144)和SVEP1。示例正五聚蛋白氨基酸序列在参考文献Q8WQK3下的UniProt数据库中进行描述。在一个实施例中,正五聚蛋白可以包括如UniProt参考文献Q8WQK3中所述的一个单体的氨基酸序列。
在一个实施例中,辅助蛋白是GroES。GroES是人体中与热休克10kDa蛋白1(Hsp10)(也称为伴侣蛋白10(cpn10)或早孕因子(EPF))同源的蛋白。在包含大肠杆菌的生物体中,GroES是已知的。孔复合物可以包括GroES或其同源物或修饰形式,如片段。修饰形式或片段可以是GroES的同源物的修饰形式或片段。GroES是包括六个与八个之间相同亚基的环形同源寡聚体。修饰形式或片段具有环形,并且通常包括一个或多个,优选地六个到八个经修饰的或经截短的亚基。大肠杆菌GroES的示例GroES氨基酸序列在参考文献P0A6F9下的UniProt数据库中进行描述。在一个实施例中,GroES蛋白可以包括如UniProt参考文献P0A6F9中所述的一个单体的氨基酸序列。
在一个实施例中,辅助蛋白是稳定蛋白1(SP1)。SP1可以由12个单体组成,所述单体可以是相同的,其形成环形蛋白复合物。示例SP1氨基酸序列在参考文献Q9AR79下的UniProt数据库中进行描述。SP1蛋白可以包括如GenBank登记号AJ276517.1所示的由108个氨基酸残基组成的一个单体的氨基酸序列。在一个实施例中,SP1蛋白可以包括如UniProt参考文献Q9AR79中所述一个单体的氨基酸序列。
在一个实施例中,辅助蛋白是DNA夹。DNA夹,也称为滑动夹或β夹或DnaN或增殖细胞核抗原(PCNA),是一类封闭多核苷酸的蛋白质。DNA夹存在于细菌、古细菌、真核细胞和某些病毒中。DNA夹是寡聚环形蛋白,其具有多核苷酸通过的约2-4nm直径的中心通道(与大多数直系同源物类似)。对其进行了很好的研究,并且许多DNA夹的结构是已知的。尽管其名称如此,但DNA夹不一定对DNA具有特异性。DNA夹通常封闭dsDNA,但可能封闭ssDNA。
例如,在一个实施例中,辅助蛋白可以是细菌DNA夹或其修饰形式。辅助蛋白可以是二聚体,例如同源二聚体,如由β夹的两个相同的β亚基构成的同源二聚体,其具体实例是DNA聚合酶IIIβ夹。细菌DNS夹氨基酸序列(来自大肠杆菌)的实例在参考文献P0A988下的UniProt数据库中进行描述。细菌DNS夹氨基酸序列(来自大肠杆菌)的实例在参考文献1MMI下的PDB中进行描述。在一个实施例中,DNA夹蛋白可以包括如UniProt参考文献P0A988或参考文献1MMI下的PDB中所述的一个单体的氨基酸序列。
在另一个实施例中,辅助蛋白可以是古细菌或真核起源的DNA夹或其修饰形式。辅助蛋白可以例如是三聚体,例如同源三聚体,如由三个PCNA分子构成的三聚体。真核(人)DNA夹氨基酸序列的实例在参考文献P12004下的UniProt数据库中进行描述。人DNA夹氨基酸序列的实例在参考文献1axc下的PDB中进行描述。在一个实施例中,DNA夹蛋白可以包括如UniProt参考文献P12004或参考文献1axc下的PDB中所述的一个单体的氨基酸序列。古细菌(激烈热球菌)DNA夹氨基酸序列的实例在参考文献O73947下的UniProt数据库中进行描述。古细菌(激烈热球菌)DNA夹氨基酸序列的实例在参考文献1ISQ下的PDB中进行描述。在一个实施例中,DNA夹蛋白可以包括如UniProt参考文献O73947或参考文献1ISQ下的PDB中所述的一个单体的氨基酸序列。
在另一个实施例中,辅助蛋白可以是病毒DNA夹,如来自T4噬菌体的DNA夹或其修饰形式。例如,辅助蛋白可以是gp45。Gp45例如是结构类似于PCNA的三聚体,但缺乏与PCNA或细菌β夹的序列同源性。病毒(T4噬菌体)DNA夹氨基酸序列的实例在参考文献P04525下的UniProt数据库中进行描述。病毒(T4噬菌体)DNA夹氨基酸序列的实例在参考文献1CZD下的PDB中进行描述。在一个实施例中,DNA夹蛋白可以包括如UniProt参考文献P04525或参考文献1CZD下的PDB中所述的一个单体的氨基酸序列。
在一个实施例中,辅助蛋白是门脉复合蛋白。门脉复合蛋白是本质上形成供多核苷酸进入和离开大量病毒中任一种(如噬菌体)的病毒衣壳的专门门脉的部分的蛋白质。门脉复合蛋白可以例如是构成噬菌体的许多环形蛋白质中的任何一种。环形(环状)蛋白通常具有中心通道。环形蛋白通常具有如本文所定义的修饰之前或之后的辅助蛋白的尺寸。环形蛋白通常具有一种或多种性质(如水溶性)、为与另一种环形蛋白对接而优化的一种或多种界面、在各种极端条件下的强健稳定性。
形成门脉复合物的蛋白质在本领域是众所周知的,并且构成复合物的许多蛋白质的结构是已知的。例如,门脉机械表征良好的噬菌体包含:Phi29、T4、G20C、SPP1和P22噬菌体。孔复合物中的门脉复合蛋白通常是寡聚的(例如同源寡聚的)。例如,门脉复合蛋白可以由约6个到多于约14个单体亚基(如约12个亚基)形成。
门脉复合蛋白可以是多蛋白复合物中的主要蛋白。其通常被称为“门脉蛋白”。门脉蛋白通常是由12个相同的单元形成的十二聚体寡聚体,但可以具有不同数量的寡聚体,或者是异源寡聚体的。许多门脉蛋白的结构是已知的。每种蛋白质类别与直系同源物之间的精确尺寸是不同的。通常,门脉蛋白的中心通道的最小收缩部的直径范围为约1nm到约4nm。
门脉蛋白可以被适配成跨越膜。在所公开的孔复合物中可以使用能够跨膜的门脉蛋白作为辅助蛋白和/或跨膜孔。在一些实施例中,门脉蛋白可以是下表中所示的蛋白之一。
Figure BDA0003055639270000231
在每个生物体中,完整的门脉复合物将含有许多单独的环形寡聚蛋白,其与“门脉蛋白”对接并彼此对接,以创建多核苷酸可以通过的连续中心通道。辅助蛋白可以是或包括此类“对接”或“辅助”蛋白中的任何一种或多种。对接蛋白可以例如是门脉复合物的“衔接蛋白”、“终止子蛋白”或“运动蛋白”组分。这些众所周知的噬菌体是良好表征的,许多结构是已知的,并且多核苷酸将通过的内部通道的尺寸通常在1nm到大于4nm之间变化。
可以用作辅助蛋白的环形蛋白的具体实例包含来自SPP1噬菌体的gp15和gp16,以及其它直系同源物。Gp15或“衔接子蛋白”对接到门脉蛋白(gp6)的底部,并且g16或“终止子蛋白”对接到Gp15的底部。
Gp15和gp16蛋白含有直径小于约1nm到大于约2nm的内部通道。像本文公开的其它辅助蛋白一样,Gp15和gp16蛋白的内部通道可以通过诱变(使收缩部中的残基突变、将残基添加到环中、删除环等)加宽或变窄,以提高分析物区分度或通路,在需要时由分子结构和分子建模指导。
在一个实施例中,孔复合物可以包括作为跨膜孔的门脉蛋白和作为辅助蛋白的“对接”门脉复合蛋白。孔复合物可以例如包括两种或更多种“对接”蛋白。
Figure BDA0003055639270000241
在一个实施例中,辅助蛋白是运动蛋白。运动蛋白为环形结构,其具有中心通道以容纳单链或双链形式的DNA或RNA。运动蛋白是寡聚的,通常由约6个或更多个单体亚基形成。寡聚体可以是同源寡聚体或异源寡聚体。其具有用于容纳单链或双链形式的DNA或RNA的中心通道。
在单链多核苷酸上起作用的运动蛋白的一些实例包含但不限于:RepA(~1.9nm最小直径通道)、TrwB(~1.5nm最小直径通道)、ssoMCM(~1.8nm最小直径通道)、Rho(~1.7nm最小直径通道)、E1解旋酶(~1.3nm最小直径通道)、T7-gp4D(~1.2nm最小直径通道)。
在双链多核苷酸上起作用的运动蛋白的一些实例包含但不限于:FtsK(~3.4nm最小直径通道)、Phi29 gp10(~3.6nm最小直径通道)、P22 gp1(~3.5nm最小直径通道)、T4gp17(~3.6nm最小直径通道)、T7 gp8(~4.0nm最小直径通道)、HK97家族噬菌体门脉蛋白(~3.3nm最小直径通道)。
在一个实施例中,辅助蛋白是另一种环形蛋白。例如,在一个实施例中,环形蛋白可以是λ核酸外切酶。λ核酸外切酶是良好表征的同源三聚体环形蛋白,其内部通道的直径为约1.5nm到3nm。(PDB 1AVQ,Uniprot P03697)。在一个实施例中,DNA夹蛋白可以包括如UniProt参考文献P03697或参考文献1AVQ下的PDB中所述的一个单体的氨基酸序列。
环形蛋白的另一个实例是TRAP。TRAP是来自如枯草芽孢杆菌和嗜热脂肪芽孢杆菌等生物体的细菌RNA结合蛋白。TRAP具有11个以环状结构布置的亚基,其中心通道的直径为约2nm(PDB 1QAW,uniprot Q9X6J6)。在一个实施例中,DNA夹蛋白可以包括如UniProt参考文献Q9X6J6或参考文献1QAW下的PDB中所述的一个单体的氨基酸序列。
在一个实施例中,辅助蛋白不是多核苷酸结合蛋白。在一个实施例中,辅助蛋白不是功能性多核苷酸结合蛋白,例如辅助蛋白不是具有酶活性的多核苷酸结合蛋白。辅助蛋白可以是除核酸处理酶以外的蛋白质,例如,辅助蛋白不是解旋酶或聚合酶或源自此类酶的蛋白质。在一个实施例中,辅助蛋白不具有酶活性。在一个实施例中,在靶多核苷酸穿过在孔复合物中形成的连续通道后,辅助蛋白不经历构象变化。
在一个实施例中,除了形成跨膜孔的组分以外,辅助蛋白或肽是纳米孔系统的组分或此类系统的经修饰的组分。此类组分的实例是CsgF或CsgF的截短形式。在一个实施例中,孔复合物包括CsgF蛋白或肽和CsgG孔,或其同源物或修饰形式,如片段。在另一个实施例中,孔复合物包括CsgF蛋白或肽和非CsgG孔,其同源物或修饰形式,如片段。
在一个实施例中,辅助蛋白是跨膜蛋白孔。在辅助蛋白是跨膜蛋白孔的情况下,辅助蛋白和纳米孔可以相同或不同。包括作为纳米孔的辅助蛋白的孔复合物可以被称为双孔。在此实施例中,纳米孔和辅助蛋白可以被称为第一孔和第二孔。辅助蛋白可以是本文定义的跨膜蛋白孔中的任一种。
在一个实施例中,辅助肽是CsgF肽,其可以是截短的、突变的和/或变异的CsgF肽。在一个实施例中,在纳米孔是CsgG孔的情况下,辅助肽不是CsgF肽,并且辅助蛋白不是CsgF。在一个实施例中,在辅助肽是CsgF肽的情况下,纳米孔不是CsgG孔或其同源物或突变体。在另一个实施例中,孔复合物具有多于两个收缩位点或读取器头,其中至少一个是CsgG孔的收缩部,一个由CsgF肽引入,并且另外的收缩位点由存在于孔复合物中的第二辅助蛋白或肽引入。
在一个实施例中,经修饰的CsgF肽是一种肽,其中所述修饰尤其是指经截短的CsgF蛋白或片段,其包括由限制定义的含有收缩区域并结合CsgG单体或其同源物或突变体的N末端CsgF肽片段。所述经修饰的CsgF肽可以另外包括突变或同源序列,所述突变或同源序列可以促进孔复合物的某些性质。在特定实施例中,与野生型前蛋白(SEQ ID No:5)或成熟蛋白质(SEQ ID NO:6)序列或其同源物相比,经修饰的CsgF肽包括CsgF蛋白截短物。这些经修饰的肽旨在用作孔复合物组分,其在由CsgG和经修饰的或经截短的CsgF肽形成的CsgG样孔内引入另外的收缩位点或读取器头。
经截短的CsgF肽缺少:C末端头部;CsgF的C末端头部和颈部结构域的一部分;或CsgF的C末端头颈结构域。CsgF肽可能缺少CsgF颈部结构域的部分,例如CsgF肽可以包括一部分颈部结构域,例如来自颈部结构域的N末端处的氨基酸残基36(参见SEQ ID:NO:6)(例如,残基36-40、36-41、36-42、36-43、36-45、36-46,直到SEQ ID NO:6的残基36-50或36-60)。CsgF肽优选地包括CsgG结合区域和在孔中形成收缩部的区域。CsgG结合区域通常包括CsgF蛋白的残基1到8和/或29到32(SEQ ID NO:6或来自另一物种的同源物),并且可以包含一种或多种修饰。在孔中形成收缩部的区域通常包括CsgF蛋白的残基9到28(SEQ ID NO:6或来自另一物种的同源物),并且可以包含一种或多种修饰。残基9到17包括保守的基序N9PXFGGXXX17并形成转折区域。残基9到28形成α-螺旋。X17(SEQ ID NO:6中的N17)形成对应于孔中CsgF收缩部的最窄部分的收缩区域的顶点。CsgF收缩区域也主要在SEQ ID NO:6的残基9、11、12、18、21和22处与CsgGβ-桶稳定接触。
CsgF肽通常具有28到50个氨基酸的长度,如29到49个、30到45个或32到40个氨基酸。优选地,CsgF肽包括29到35个氨基酸或29到45个氨基酸。CsgF肽包括对应于SEQ ID NO:6的残基1到35的FCP的全部或部分。在CsgF肽比FCP短的情况下,优选地在C末端处进行截短。
SEQ ID NO:6或其同源物或突变体的CsgF片段的长度可以为24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54或55个氨基酸。
CsgF肽可以包括SEQ ID NO:6的氨基酸序列,所述氨基酸序列来自残基1直到SEQID NO:6的残基25到60,如27到50,例如28到45中的任一个,或来自SEQ ID NO:6的同系物的对应残基或其任一种变体。更具体地,CsgF肽可以包括SEQ ID NO:6的残基1到29,或其同源物或变体。
此类CsgF肽的实例包括以下、基本上由以下组成或由以下组成:SEQ ID NO:6的残基1到34、SEQ ID NO:6的残基1到30、SEQ ID NO:6的残基1到45、或SEQ ID NO:6的残基1到35,和其任何同源物或变体。在CsgF肽中,一个或多个残基可以被修饰。例如,CsgF肽可以在对应于SEQ ID NO:6的以下位置中的一个或多个位置的位置处包括修饰:G1、T4、F5、R8、N9、N11、F12、A26和Q29,如在这些位置中的任何一个或多个位置处引入半胱氨酸、疏水性氨基酸、带电荷的氨基酸、非天然反应性氨基酸或光反应性氨基酸。
例如,CsgF肽可以在对应于SEQ ID NO:6的以下位置中的一个或多个位置的位置处包括修饰:N15、N17、A20、N24和A28。CsgF肽可以在对应于D34的位置处包括修饰以使CsgG-CsgF复合物稳定。在特定实施例中,CsgF肽包括以下取代中的一个或多个:N15S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C、N17S/A/T/Q/G/L/V/I/F/Y/W/R/K/D/C、A20S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C、N24S/T/Q/A/G/L/V/I/F/Y/W/R/K/D/C、A28S/T/Q/N/G/L/V/I/F/Y/W/R/K/D/C和D34F/Y/W/R/K/N/Q/C。CsgF肽可以例如包括以下取代中的一个或多个:G1C、T4C、N17S和D34Y或D34N。
纳米孔
纳米孔是通过膜的孔或通道,其允许施加电势驱动下的水合离子跨膜或在膜内流动。孔复合物中的纳米孔可以是在某种程度上横穿膜的蛋白质孔,或者可以是具有在某种程度上横穿膜的结构的非蛋白质孔,如多核苷酸孔或固态孔。孔可以是DNA折纸孔(origamipore)。孔可以是生物的或人工的。
在一个实施例中,纳米孔是跨膜蛋白孔。跨膜蛋白孔通常跨越整个膜,并且可以具有在一侧或两侧延伸到膜之外的结构。跨膜蛋白孔是允许水合离子从膜的一侧流向膜的另一侧的单个蛋白或多聚体蛋白。跨膜蛋白孔包含允许多核苷酸(如DNA或RNA)移动或被移动到孔中和/或通过孔的通道。
跨膜蛋白孔可以是单体或寡聚体。寡聚体优选地由若干重复的亚基构成,如至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个或至少16个亚基。例如,孔可以是六聚体孔、七聚体孔、八聚体孔或九聚体孔。孔可以是所有亚基都相同的同源寡聚体,或者是包括两种或更多种(如3种、4种、5种或6种)不同亚基的异源寡聚体。
跨膜蛋白孔通常包括离子可以通过其流动的桶或通道。孔的亚基通常围绕中心轴,并向跨膜β-桶或通道或跨膜α-螺旋束或通道贡献链。
跨膜蛋白孔的桶或通道通常包括促进与多核苷酸的相互作用的氨基酸。这些氨基酸优选地定位在桶或通道的收缩部附近(如1nm、2nm、3nm、4nm或5nm内)。跨膜蛋白质孔通常包含一个或多个带正电荷的氨基酸,如精氨酸、赖氨酸或组氨酸,或芳香族氨基酸,如酪氨酸或色氨酸。这些氨基酸通常促进孔与核苷酸、多核苷酸或核酸之间的相互作用。
根据本发明使用的跨膜蛋白孔可以源自β-筒形孔或α-螺旋束孔。β-桶孔包括由β-链形成的桶或通道。合适的β-桶孔包含但不限于β-毒素,如α-溶血素(αHL)、炭疽毒素和杀白细胞素,和细菌的外膜蛋白/孔蛋白,如耻垢分枝杆菌(Mycobacterium smegmatis)孔蛋白(Msp),例如MspA、MspB、MspC或MspD、CsgG,外膜孔蛋白F(OmpF)、外膜孔蛋白G(OmpG)、外膜磷脂酶A和奈瑟氏球菌(Neisseria)自转运体脂蛋白(NalP)以及其它孔,如胞溶素。α-螺旋束孔包括由α-螺旋形成的桶或通道。合适的α-螺旋束孔包含但不限于内膜蛋白和α外膜蛋白,如WZA。
跨膜孔可以源自或基于Msp、α-溶血素(α-HL)、胞溶素、CsgG、SP1、溶血性蛋白质fragaceatoxin C(FraC)、如InvG或GspD等分泌素、杀白细胞素、气单胞菌溶素、NetB、如OmpG(外膜蛋白G)或VdaC(电压依赖性阴离子通道)等孔蛋白、VCC(霍乱弧菌溶胞素)、炭疽保护性抗原或ATPase转子,如酵母线粒体ATPase的C10转子环、来自海氏肠球菌的V-ATPase的K环、酒石酸泥杆菌ATPase的C11转子环或专性嗜碱芽孢杆菌ATPase的C13转子环。因此,在一些实施例中,跨膜蛋白纳米孔选自MspA、α-溶血素、CsgG、胞溶素、InvG、GspD、杀白细胞素、FraC、气单胞菌溶素、NetB以及其功能同源物和片段。跨膜蛋白孔的结构可在蛋白质数据库中获得,例如MspA、α-HL和CsgG分别是蛋白质数据库条目1UUN、7AHL和4UV3。
在一个实施例中,纳米孔是CsgG孔,例如来自大肠杆菌菌株K-12亚株MC4100或其同源物或突变体的CsgG。突变CsgG孔可以包括一个或多个突变单体。CsgG孔可以是包括相同单体的均聚物,或包括两种或更多种不同单体的杂聚物。源自CsgG的合适的孔公开于WO2016/034591、WO2017/149316、WO2017/149317、WO2017/149318以及国际专利申请第PCT/GB2018/051191号和P第PCT/GB2018/051858号中。
跨膜孔可以源自胞溶素。源自胞溶素的合适的孔公开于WO 2013/153359中。
在一个实施例中,纳米孔是分泌素孔,例如GspD或InvG,或其同源物或突变体。分泌素纳米孔在WO2018/146491中进行描述。
在一个实施例中,跨膜孔可以是门脉蛋白或经修饰的门脉蛋白。在此实施例中,作为跨膜孔的门脉蛋白优选与作为门脉蛋白辅助蛋白的辅助蛋白复合。第一收缩部或读取器头由门脉蛋白形成,并且第二收缩部或读取器头由辅助蛋白形成。可以对用作跨膜孔的门脉蛋白进行修饰,使得其能够跨越膜。在一个实施例中,包括作为跨膜孔的门脉蛋白的复合物不是天然存在的复合物。非天然存在的门脉复合物可以包括一种或多种经修饰的蛋白质和/或可能缺少天然存在的孔复合物的一种或多种组分。
形成门脉复合物的蛋白质在本领域是众所周知的,并且构成复合物的许多蛋白质的结构是已知的。例如,门脉机械表征良好的噬菌体包含:如以上描述的Phi29、T4、G20C、SPP1和P22噬菌体。孔复合物中的门脉复合蛋白通常是寡聚的(例如同源寡聚的)。例如,门脉复合蛋白可以由约6个到多于约14个单体亚基(如约12个亚基)形成。
门脉蛋白通常是由12个相同的单元形成的十二聚体寡聚体,但可以具有不同数量的寡聚体,如6个、7个、8个、9个或10个到11个、12个、13个或14个亚基,和/或是异源寡聚体的。许多门脉蛋白的结构是已知的。每种蛋白质类别与直系同源物之间的精确尺寸是不同的。通常,门脉蛋白的中心通道的最小收缩部的直径范围为约1nm到约4nm。门脉蛋白的内部通道可以例如通过诱变(使收缩部中的残基突变、将残基添加到环中、删除环等)加宽或变窄,以提高分析物区分度或多核苷酸通过孔的通路,在需要时由分子结构和分子建模指导。
在一些实施例中,跨膜纳米孔是天然存在的跨膜纳米孔,或源自天然存在的跨膜纳米孔的孔,如其修饰形式。在一些实施例中,孔复合物内的跨膜蛋白纳米孔不是野生型孔,而是包括突变或修饰以增加其核苷酸感测性质。例如,可以对跨膜蛋白纳米孔进行改变通道内收缩部的数量、大小、形状、位置或取向的突变。可以通过导致多肽序列中特定靶氨基酸残基的插入、取代和/或缺失的已知的遗传工程技术来制备包括经修饰的跨膜蛋白纳米孔的孔复合物。
在寡聚跨膜蛋白孔的情况下,可以在每个单体多肽亚基或单体的任何一个或多个单体中进行突变。适当地,在本发明的一个实施例中,对寡聚蛋白内的所有单体进行所述突变。突变单体是其序列不同于野生型孔单体并且保持形成孔的能力的单体。用于确认突变单体形成孔的能力的方法在本领域是众所周知的。
在一个实施例中,纳米孔是固态纳米孔。固态纳米孔通常是在合成膜(通常为SiNx或SiO2)中形成的纳米级孔。孔通常通过聚焦的离子束或电子束制造,因此孔的大小可以自由调整。固态纳米孔可以由例如氮化硅或石墨烯膜制造,或者由这些固态材料的修饰形式制成的膜制造。
孔复合物的稳定化
可以通过将辅助蛋白或肽共价附接到纳米孔来稳定孔。共价连接可以例如是二硫键或点击化学。通过另外的实例,半胱氨酸残基可以借助于如BMOE等接头连接。辅助蛋白或肽和/或跨膜蛋白纳米孔可以被修饰成促进此类共价相互作用。
在孔复合物中,纳米孔(优选地是跨膜蛋白纳米孔)可以通过疏水相互作用和/或通过一个或多个二硫键附接到辅助蛋白。一个或两个孔中的单体中的一个或多个,如2个、3个、4个、5个、6个、8个、9个,例如所有单体可以被修饰成增强此类相互作用。这可以以任何合适的方式实现。另外的合适的相互作用包含盐桥、静电相互作用和π-π相互作用。
纳米孔与辅助蛋白之间的界面处的跨膜蛋白纳米孔的氨基酸序列中的至少一个半胱氨酸残基可以被二硫键结合到纳米孔与辅助蛋白之间的界面处的辅助蛋白的氨基酸序列中的至少一个半胱氨酸残基。纳米孔中的半胱氨酸残基和/或辅助蛋白中的半胱氨酸残基可以是在野生型跨膜蛋白孔单体或野生型辅助蛋白中不存在的半胱氨酸残基。可以在孔复合物中的纳米孔与辅助蛋白之间形成多个二硫键,如2个、3个、4个、5个、6个、7个、8个或9个到16个、18个、24个、27个、32个、36个、40个、45个、48个、54个、56个或63个。纳米孔和辅助蛋白之一或两者可以包括至少一个单体或亚基,如多达8个、9个或10个单体或亚基,所述单体或亚基包括纳米孔与辅助蛋白之间的界面处的半胱氨酸残基。例如,在CsgG中,半胱氨酸残基可以包含在对应于SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113的位置处。
纳米孔和/或辅助蛋白可以包括纳米孔与辅助蛋白之间的界面处的一个或多个疏水性氨基酸残基,所述疏水性氨基酸残基比存在于野生型纳米孔或辅助蛋白中的对应位置处的残基更具疏水性。纳米孔中的至少一个单体或亚基和/或辅助蛋白中的至少一个单体或亚基可以包括纳米孔与辅助蛋白之间的界面处的至少一个残基,所述残基比存在于野生型孔或辅助蛋白单体中的对应位置处的残基更具疏水性。例如,纳米孔和/或辅助蛋白中的2到10个,如3个、4个、5个、6个、7个、8个或9个残基可以比对应的野生型纳米孔和/或辅助蛋白中的相同位置处的残基更具疏水性。此类疏水残基增强了孔复合物中的纳米孔与辅助蛋白之间的相互作用。在野生型纳米孔或辅助蛋白中的界面处的残基是R、Q、N或E的情况下,疏水残基通常是I、L、V、M、F、W或Y。在野生型纳米孔或辅助蛋白中的界面处的残基是I的情况下,疏水残基通常是L、V、M、F、W或Y。在野生型纳米孔或辅助蛋白中的界面处的残基是L的情况下,疏水残基通常是I、V、M、F、W或Y。例如,在复合物中的纳米孔和/或辅助蛋白是CsgG的情况下,纳米孔与辅助蛋白之间的界面处的至少一个残基可以位于对应于SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113的位置处。
孔复合物中的纳米孔和/或辅助蛋白可以包括包含孔之间的界面处的一个或多个半胱氨酸残基的一个或多个单体和包含孔之间的界面处的一个或多个引入的疏水残基的一个或多个单体,或者可以包括包含此类半胱氨酸残基和此类疏水残基的一个或多个单体。例如,界面处的单体中的位置中的一个或多个,如任何2个、3个或4个位置(在孔是CsgG的情况下,这些位置可以对应于SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113处的位置)可以包括半胱氨酸(C)残基,并且单体中的位置中的一个或多个,如任何2个、3个或4个位置(在孔是CsgG的情况下,这些位置可以对应于SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113处的位置)可以包括疏水残基,如I、L、V、M、F、W或Y。
可以执行分子动力学模拟来确定辅助蛋白和纳米孔中的哪些残基紧密相邻。此信息可以用于设计可以提高复合物的稳定性的辅助蛋白和/或跨膜蛋白纳米孔突变体。例如,可以使用GROMACS包版本4.6.5进行模拟,其中GROMOS 53a6力场和SPC水模型使用蛋白质的cryo-EM结构。可以将复合物溶剂化,并且然后使用最陡下降算法使能量最小化。在整个模拟过程中,可以对蛋白质的主链施加约束,但是残基侧链可以自由移动。使用达到300K的Berendsen恒温器和Berendsen恒压器,系统可以在NPT系综中模拟20纳秒。可以使用GROMACS分析软件和/或本地编写的代码来分析辅助蛋白与纳米孔之间的接触。如果两个残基之间的距离在3埃以内,则可以将其定义为产生接触。
例如,在孔复合物中,CsgF肽与CsgG孔之间的相互作用可以例如通过疏水相互作用或静电相互作用在分别对应于SEQ ID NO:6和SEQ ID NO:3的以下位置对中的一个或多个的位置处稳定:1和153、4和133、5和136、8和187、8和203、9和203、11和142、11和201、12和149、12和203、26和191以及29和144。可以对这些位置中一个或多个位置处的CsgF和/或CsgG中的残基进行修饰,以增强孔中CsgG与CsgF之间的相互作用。
共价连接或结合例如通过半胱氨酸连接,其中半胱氨酸的巯基侧基与另一个氨基酸残基或部分共价连接,和/或通过非天然(光)反应性氨基酸之间的相互作用。(光)反应性氨基酸是指天然氨基酸的人造类似物,其可以用于蛋白复合物的交联,并且可以在体内或体外并入到蛋白质和肽中。常用的光反应性氨基酸类似物是亮氨酸和甲硫氨酸的光反应性双吖丙啶类似物、对苯甲酰基-苯基-丙氨酸以及叠氮基高丙氨酸、高炔丙基甘氨酸、同等位甘氨酸、对乙酰基-Phe、对叠氮基-Phe、对炔丙基氧基-Phe和对苯甲酰基-Phe(Wang等人,2012;Chin等人,2002)。在暴露于紫外线后,其被活化并与光反应性氨基酸类似物的几埃范围内的相互作用蛋白质共价结合。
可以通过使用氧化剂(例如:铜-邻二氮菲)来制备孔复合物并诱导二硫键形成。也可以在那些位置上使用其它相互作用(例如:疏水相互作用、电荷-电荷相互作用/静电相互作用)来代替半胱氨酸相互作用。在另一个实施例中,非天然氨基酸也可以并入那些位置。在此实施例中,通过点击化学进行共价连接。例如,可以在这些位置中的一个或多个位置处引入带有叠氮化物或炔烃或带有二苯并环辛炔(DBCO)基团和/或双环[6.1.0]壬炔(BCN)基团的非天然氨基酸。
例如,CsgG孔可以包括至少一种,如2种、3种、4种、5种、6种、7种、8种、9种或10种CsgG单体,其被修饰成促进与CsgF肽或其它辅助蛋白或肽的附接。例如,可以在对应于SEQID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207和209的位置中的一个或多个位置处,和/或在表4中鉴定为预计与CsgF接触的位置中的任一位置处引入半胱氨酸残基,以促进与CsgF或另一种辅助蛋白的共价附接。作为通过半胱氨酸残基的共价连接的替代或补充,可以通过疏水相互作用或静电相互作用使孔稳定。为了促进此类相互作用,非天然反应性或光反应性氨基酸位于对应于SEQ ID NO:3的位置132、133、136、138、140、142、144、145、147、149、151、153、155、183、185、187、189、191、201、203、205、207和209中的一个或多个位置的位置处。
例如,CsgF肽可以被修饰成促进与CsgG孔的附接。例如,可以在对应于SEQ ID NO:6的位置1、4、5、8、9、11、12、26或29的位置中的一个或多个位置处,和/或在表4中鉴定为预计与CsgF接触的位置中的任一位置处引入半胱氨酸残基,以促进与CsgG的共价附接。作为通过半胱氨酸残基的共价连接的替代或补充,可以通过疏水相互作用或静电相互作用使孔稳定。为了促进此类相互作用,非天然反应性或光反应性氨基酸位于对应于SEQ ID NO:6的位置1、4、5、8、9、11、12、26或29中的一个或多个位置的位置处。
此类稳定突变可以与对辅助蛋白和/或跨膜蛋白纳米孔的任何其它修饰结合,例如用于改善孔复合物与多核苷酸的相互作用或用于改善纳米孔或辅助蛋白中读取器头的性质的修饰。
在一个实施例中,可以分离、基本上分离、纯化或基本上纯化纳米孔。如果孔完全不含任何其它组分(如脂质或其它孔),则其被分离或纯化。如果孔与将不干扰其既定用途的载体或稀释剂混合,则其大体上被分离。举例来说,如果孔是以包含小于10%、小于5%、小于2%或小于1%的其它组分(如三嵌段共聚物、脂质或其它孔)的形式存在,则其大体上被分离或大体上被纯化。可替代地,孔可以存在于膜中。下文讨论了合适的膜。
孔复合物可以作为单独的孔或单个孔存在于膜中。可替代地,孔复合物可以存在于两个或更多个孔的同源或异源群体中。
辅助蛋白可以直接附接到跨膜蛋白纳米孔,或者可以使用接头(如化学交联剂或肽接头)附接两种蛋白。
合适的化学交联剂在本领域是众所周知的。优选的交联剂包含2,5-二氧吡咯烷-1-基3-(吡啶-2-基二磺酰基)丙酸酯、2,5-二氧吡咯烷-1-基4-(吡啶-2-基二磺酰基)丁酸酯和2,5-二氧吡咯烷-1-基8-(吡啶-2-基二磺酰基)辛酸酯。最优选的交联剂是琥珀酰亚胺基3-(2-吡啶二硫代)丙酸酯(SPDP)。通常,在分子/交联剂复合物共价附接到突变单体之前,分子共价附接到双功能交联剂,但也有可能在双功能交联剂/单体复合物附接到分子之前将双功能交联剂共价附接到单体。
接头优选地对二硫苏糖醇(DTT)具有抗性。合适的接头包含但不限于基于碘乙酰胺和基于马来酰亚胺的接头。
辅助蛋白可以与跨膜蛋白纳米孔遗传融合。例如,在环形辅助蛋白具有与纳米孔相同的对称性的实施例中,可以将纳米孔的每个单体或亚基与辅助蛋白的单体或亚基融合。如果从单个多核苷酸编码序列表达整个构建体,则单体和蛋白质是遗传融合的。辅助蛋白的单体或亚基可以直接与跨膜蛋白纳米孔的单体或亚基融合。可替代地,可以通过一个或多个接头将辅助蛋白的单体或亚基与跨膜蛋白纳米孔的单体或亚基融合。
在一个实施例中,可以使用在WO 2010/086602中描述的杂交接头。可替代地,可以使用肽接头。肽接头的长度、柔性和亲水性通常被设计为使得其不干扰单体和分子的功能。在一个实施例中,肽接头的长度通常在1与20个氨基酸之间,优选2与10个氨基酸之间,如3与5个氨基酸之间,例如4个氨基酸。接头可以例如由以下氨基酸中的一种或多种构成:赖氨酸、丝氨酸、精氨酸、脯氨酸、甘氨酸和丙氨酸。合适的柔性肽接头的实例是具有2到20个,如4个、6个、8个、10个或16个丝氨酸和/或甘氨酸氨基酸的段。刚性接头的实例是具有2到30个,如4个、6个、8个、16个或24个脯氨酸氨基酸的段。合适的接头的实例包含但不限于以下:GGGS、PGGS、PGGG、RPPPPP、RPPPP、VGG、RPPG、PPPP、RPPG、PPPPPPPPP、PPPPPPPPPPPP、RPPG、GG、GGG、SG、SGSG、SGSGSG、SGSGSGSG、SGSGSGSGSG和SGSGSGSGSGSGSGSG,其中G是甘氨酸,P是脯氨酸,R是精氨酸,S是丝氨酸,并且V是缬氨酸。
可以使用常规建模技术来设计适当的连接基团。接头通常具有足够的柔性,以允许单体或亚基组装成其相应的蛋白质寡聚体,并沿其共同的对称轴排列,以便在孔复合物内产生连续通道。
缩小纳米孔与辅助蛋白之间的间隙。
辅助蛋白和/或跨膜蛋白纳米孔可以在孔复合物中的蛋白质之间的界面处的一个或多个位置,例如2个、3个、4个、5个、6个或7个位置处含有大的残基,特别是在辅助蛋白在孔复合物中定位在跨膜蛋白孔通道外部的实施例中。辅助蛋白和/或跨膜蛋白纳米孔可以被修饰成包括比存在于野生型蛋白质的对应位置中的残基更大的氨基酸。这些残基的体积防止在孔复合物中的蛋白质之间的界面处的孔壁中形成孔。在界面处的残基是A的情况下,大的残基通常是I、L、V、M、F、W、Y、N、Q、S或T。在存在于野生型蛋白质中的界面处的残基是T的情况下,大的残基通常是L、M、F、W、Y、N、Q、R、D或E。在存在于野生型蛋白质中的界面处的残基是V的情况下,大的残基通常是I、L、M、F、W、Y、N、Q。在存在于野生型蛋白质中的界面处的残基是L的情况下,大的残基通常是M、F、W、Y、N、Q、R、D或E。在存在于野生型蛋白质中的界面处的残基是Q的情况下,大的残基通常是F、W或Y。在存在于野生型蛋白质中的界面处的残基是S的情况下,大的残基通常是M、F、W、Y、N、Q、E或R。例如,在孔是CsgG的情况下,第一孔与第二孔之间的界面处的至少一个大的残基通常位于对应于SEQ ID NO:3的A98、A99、T104、V105、L113、Q114或S115的位置处。还可以通过为离子流创建能量屏障来填充间隙。例如,可以通过突变引入静电荷,以对阳离子和/或阴离子产生静电屏障。
可以执行分子建模,以建立在辅助蛋白与纳米孔之间的界面处间隙存在于两种蛋白质之间的界面上的位置。此信息可以用于设计更精确地组合在一起的辅助蛋白和/或跨膜蛋白纳米孔突变体,并且因此减少当膜中存在孔复合物且离子电流流经孔复合物时发生的任何电流泄漏。例如,可以使用GROMACS包版本4.6.5进行模拟,其中GROMOS 53a6力场和SPC水模型使用蛋白质的cryo-EM结构。可以将复合物溶剂化,并且然后使用最陡下降算法使能量最小化。在整个模拟过程中,可以对蛋白质的主链施加约束,但是残基侧链可以自由移动。使用达到300K的Berendsen恒温器和Berendsen恒压器,系统可以在NPT系综中模拟20纳秒。可以使用GROMACS分析软件和/或本地编写的代码来分析辅助蛋白与纳米孔之间的间隙。
用于改善多核苷酸感测的修饰
辅助蛋白和/或纳米孔可以被修饰成在其中心通道区域中包括一个或多个氨基酸残基,所述氨基酸残基与一种或多种野生型蛋白质的中心通道区域中的电荷相比减少了负电荷。辅助蛋白中的至少一个单体和/或纳米孔中的至少一个单体可以在连续通道中包括至少一个残基,所述残基具有比野生型蛋白质中的对应位置处存在的残基更小的负电荷。通道内部的电荷足够中性或正性,使得带负电荷的分析物(如多核苷酸)不会因静电荷而排斥进入孔中。此类电荷改变突变在本领域中使已知的。
例如,在孔是CsgG的情况下,在对应于SEQ ID NO:3的D149、E185、D195、E210和/或E203的位置处的孔的通道区域中的至少一个残基,如2个、3个、4个或5个残基可以是中性或带正电荷的氨基酸。在对应于SEQ ID NO:3的D149、E185、D195、E210和/或E203的位置处的孔的通道区域中的至少一个残基,如2个、3个、4个或5个残基优选地是N、Q、R或K。
跨膜蛋白孔和/或辅助蛋白可以在收缩部中包括至少一个残基,所述残基与野生型蛋白质相比减少、维持或增加了收缩部的长度。
例如,在CsgG孔中,可以通过将残基插入到对应于SEQ ID NO:3的位置K49与F56之间的区域的区域中来增加收缩部的长度。可以将1到5个,如2个、3个或4个氨基酸残基插入在通过参考SEQ ID NO:3定义的以下位置中的任何一个或多个位置处:K49和P50、P50和Y51、Y51和P52、P52和A53、A53和S54、S54和N55和/或N55和F56。优选地将总共1到10个,如2到8个或3到5个氨基酸残基插入到单体的序列中。优选地,第一孔中的所有单体和/或第二孔中的所有单体在此区域中具有相同数量的插入物。插入的残基可以增加对应于SEQ IDNO:3的Y51和N55的残基之间的环的长度。插入的残基可以是以下的任何组合:维持柔性的A、S、G或T;将扭结添加到环的P;和/或有助于当分析物在施加的电势差下与孔的通道相互作用时产生的信号的S、T、N、Q、M、F、W、Y、V和/或I。插入的氨基酸可以是S、G、SG、SGG、SGS、GS、GSS和/或GSG的任何组合。
在孔复合物中,辅助蛋白中的收缩纳米孔和/或收缩部可以包括至少一个残基,如2个、3个、4个或5个残基,所述残基与使用具有对应野生型收缩部的孔复合物相比当用于检测或表征分析物时会影响孔复合物的性质。例如,在纳米孔和/或辅助蛋白是CsgG的情况下,孔的桶区域的收缩部中的至少一个残基可以位于对应于SEQ ID NO:3的Y51、N55、Y51、P52和/或A53的位置处。例如,至少一个残基可以是:对应于SEQ ID NO:3的F56的位置处的Q或V;对应于SEQ ID NO:3的Y51的位置处的A或Q;和/或对应于SEQ ID NO:3的N55的位置处的V。
在某些实施例中,在纳米孔和/或辅助蛋白是CsgG的情况下,孔复合物中的CsgG单体可以包括对应于SEQ ID NO:3的R97、I107、R110、Q100、E101、N102和/或L113的位置处的半胱氨酸残基。CsgG单体可以在对应于SEQ ID NO:3的R97、Q100、I107、R110、E101、N102和L113中的任何一个或多个的位置包括残基,所述残基比存在于SEQ ID NO:3的对应位置处的残基更具疏水性,其中对应于R97和/或I107的位置处的残基是M,对应于R110的位置处的残基是I、L、V、M、W或Y,和/或对应于E101或N102的位置处的残基是V或M。对应于Q100的位置处的残基通常是I、L、V、M、F、W或Y;和/或对应于L113的位置处的残基通常是I、V、M、F、W或Y。
在某些实施例中,在纳米孔和/或辅助蛋白是CsgG的情况下,纳米孔和/或辅助蛋白中的CsgG单体可以包括对应于SEQ ID NO:3的A98、A99、T104、V105、L113、Q114和S115中的任何一个或多个的位置处的残基,所述残基比存在于SEQ ID NO:3的对应位置(如SEQ IDNO:68到88中的任一个的对应位置)处的残基更大,其中对应于T104的位置处的残基为L、M、F、W、Y、N、Q、D或E,对应于L113的位置处的残基为M、F、W、Y、N、G、D或E,和/或对应于S115的位置处的残基为M、F、W、Y、N、Q或E。对应于A98或A99的位置处的残基通常是I、L、V、M、F、W、Y、N、Q、S或T。对应于V105的位置处的残基是I、L、M、F、W、Y、N或Q。对应于Q114的位置处的残基是F、W或Y。对应于E210的位置处的残基是N、Q、R或K。
在某些实施例中,在纳米孔和/或辅助蛋白是CsgG的情况下,纳米孔和/或辅助蛋白中的CsgG单体可以在对应于D149、E185、D195、E210和E203中的任何一个或多个的位置处的孔的桶区域中包括比存在于SEQ ID NO:3的对应位置(如SEQ ID NO:68到88中的任一个的对应位置)处的残基具有更小负电荷的残基,其中对应于D149、E185、D195和/或E203的位置处的残基是K。
在某些实施例中,在纳米孔和/或辅助蛋白是CsgG的情况下,纳米孔和/或辅助蛋白中的CsgG单体可以在孔的桶区域的收缩部中包括至少一个残基,所述残基与野生型CsgG孔相比增加了收缩部的长度。所述至少一个残基是除存在于野生型CsgG孔的收缩部中的残基之外的残基。例如,可以通过将残基插入到对应于SEQ ID NO:3的位置K49与F56之间的区域的区域中来增加孔的长度。可以将1到5个,如2个、3个或4个氨基酸残基插入在通过参考SEQ ID NO:3定义的以下位置中的任何一个或多个位置处:K49和P50、P50和Y51、Y51和P52、P52和A53、A53和S54、S54和N55和/或N55和F56。优选地将总共1到10个,如2到8个或3到5个氨基酸残基插入到单体的序列中。插入的残基可以增加对应于SEQ ID NO:3的Y51和N55的残基之间的环的长度。插入的残基可以是以下的任何组合:维持柔性的A、S、G或T;将扭结添加到环的P;和/或有助于当分析物在施加的电势差下与孔的桶相互作用时产生的信号的S、T、N、Q、M、F、W、Y、V和/或I。插入的氨基酸可以是S、G、SG、SGG、SGS、GS、GSS和/或GSG的任何组合。
在某些实施例中,在纳米孔和/或辅助蛋白是CsgG的情况下,纳米孔和/或辅助蛋白中的CsgG单体可以在对应于SEQ ID NO:3的N55、P52和/或A53的位置处的孔的桶区域的收缩部中包括至少一个残基,所述残基不同于存在于对应的野生型单体中的残基,其中对应于N55的位置处的残基是V。
上述修饰中的任何两种或更多种可以存在于辅助蛋白或纳米孔中。具体地,单体可以包括至少一个所述半胱氨酸残基、至少一个所述所述疏水残基、至少一个所述大的残基、至少一个所述中性或带正电荷的残基,和/或至少一个增加收缩部的长度的所述残基。
在某些实施例中,在纳米孔和/或辅助蛋白是CsgG的情况下,纳米孔和/或辅助蛋白中的CsgG单体可以另外包括一个或多个,如2个、3个、4个或5个残基,所述残基与使用具有野生型收缩部的CsgG纳米孔和/或CsgG辅助蛋白相比当用于检测或表征分析物时会影响孔的性质,其中孔的桶区域的收缩部中的至少一个残基位于对应于SEQ ID NO:3的Y51、N55、Y51、P52和/或A53的位置处。至少一个残基可以是:对应于SEQ ID NO:3的F56的位置处的Q或V;对应于SEQ ID NO:3的Y51的位置处的A或Q;和/或对应于SEQ ID NO:3的N55的位置处的V。
在一些实施例中,当孔复合物用于核苷酸测序时,所述复合物具有改善的多核苷酸读取性质,即显示出改善的多核苷酸捕获和/或核苷酸区别力。
具体地,由经修饰的辅助蛋白构建的孔复合物可以比由野生型辅助蛋白构建的孔更容易捕获核苷酸和多核苷酸。另外,由经修饰的辅助蛋白构建的孔复合物可以显示增加的电流范围,这使得更容易区分不同的核苷酸,以及减少的状态变化,其增加了信噪比。另外,在多核苷酸通过包括经修饰的辅助蛋白的孔构建体移动时,对电流有贡献的核苷酸的数量可以减少。这使得更容易鉴定在多核苷酸通过孔复合物的通道时观察到的电流与多核苷酸序列之间的直接关系。另外,由经修饰的辅助蛋白构建的孔复合物可以显示出增加的通量,例如,更可能与分析物(如多核苷酸)相互作用。这使得更容易使用孔复合物表征分析物。由经修饰的辅助蛋白构建的孔复合物可以更容易地插入膜中,或者可以提供将另外的蛋白质保留在孔复合物附近的更容易的方式。
具体地,由经修饰的纳米孔构建的孔复合物可以比由野生型纳米孔构建的孔更容易捕获核苷酸和多核苷酸。另外,由经修饰的纳米孔构建的孔复合物可以显示增加的电流范围,这使得更容易区分不同的核苷酸,以及减少的状态变化,其增加了信噪比。另外,在多核苷酸通过包括经修饰的纳米孔的孔构建体移动时,对电流有贡献的核苷酸的数量可以减少。这使得更容易鉴定在多核苷酸通过孔复合物的通道时观察到的电流与多核苷酸序列之间的直接关系。另外,由经修饰的纳米孔构建的孔复合物可以显示出增加的通量,例如,更可能与分析物(如多核苷酸)相互作用。这使得更容易使用孔复合物表征分析物。由经修饰的纳米孔构建的孔复合物可以更容易地插入膜中,或者可以提供将另外的蛋白质保留在孔复合物附近的更容易的方式。
用于制备经修饰的蛋白质的方法
用于引入或取代非天然存在的氨基酸的方法在本领域也是众所周知的。举例来说,可以通过在用于表达突变单体的IVTT系统中包含合成氨基酰基-tRNA来引入非天然存在的氨基酸。可替代地,其可以通过在大肠杆菌中表达突变单体来引入,所述突变单体在存在那些特定氨基酸的合成(即非天然存在的)类似物的情况下对于特定氨基酸是营养缺陷型的。如果突变单体使用部分肽合成产生,则其还可以通过裸接合产生。
可以例如通过添加组氨酸残基(his标签)、天冬氨酸残基(asp标签)、链霉亲和素标签、flag标签、SUMO标签、GST标签或MBP标签,或通过添加信号序列以促进其从单体或亚基天然不含这种序列的细胞中分泌,将跨膜蛋白纳米孔和辅助蛋白,或更具体地其单体或亚基修饰成有助于其鉴定或纯化。引入基因标签的替代性方案是将标签化学反应到蛋白质上的原生或经工程化的位置上。这种情况的实例是使凝胶转移试剂与蛋白质外部的经工程化的半胱氨酸反应。
单体或亚基可以用显露标记来标记。显露标记可以是允许单体或亚基被检测的任何合适的标记。合适的标记包含但不限于荧光分子、放射性同位素(例如125I、35S)、酶、抗体、抗原、多核苷酸和如生物素等配体。
在一个实施例中,可以使用D-氨基酸产生跨膜蛋白纳米孔和/或辅助蛋白。举例来说,跨膜蛋白纳米孔和/或辅助蛋白可以包括L-氨基酸和D-氨基酸的混合物。这在用于产生此类蛋白质或肽的领域中是常规的。
跨膜蛋白纳米孔和/或辅助蛋白可以包括一种或多种特异性修饰以促进核苷酸区分。跨膜蛋白纳米孔和/或辅助蛋白还可以含有其它非特异性修饰,只要其不干扰孔的形成。许多非特异性侧链修饰在本领域中是已知的,并且可以对跨膜蛋白纳米孔和/或辅助蛋白中的氨基酸的侧链进行修饰。此类修饰包含例如,通过与醛反应然后用NaBH4还原、用甲基乙酰亚胺酯进行酰胺化或用乙酸酐进行酰化的氨基酸的还原烷基化。
可以使用本领域已知的标准方法来产生跨膜蛋白纳米孔和/或辅助蛋白。可以通过合成或重组手段来制备跨膜蛋白纳米孔和/或辅助蛋白。例如,可以通过体外翻译和转录(IVTT)来合成蛋白质。蛋白质的氨基酸序列可以被修饰成包含非天然存在的氨基酸或增加蛋白质的稳定性。当通过合成手段产生蛋白质时,可以在产生期间引入此类氨基酸。蛋白质还可以在合成或重组产生后改变。用于产生跨膜蛋白纳米孔的合适方法在国际申请WO2010/004273、WO 2010/004265或WO 2010/086603中进行讨论。用于将孔插入膜中的方法是已知的。
可以使用本领域中的标准方法得出编码蛋白质的多核苷酸序列并进行复制。可以使用本领域中的标准技术在细菌宿主细胞中表达编码蛋白质的多核苷酸序列。可以通过从重组表达载体原位表达多肽在细胞中产生蛋白质。表达载体任选地携带诱导性启动子以控制多肽的表达。这些方法描述于Sambrook,J.和Russell,D.(2001)《分子克隆:实验室手册》,第3版冷泉港实验室出版社,纽约冷泉港。
在通过任何蛋白质液相色谱系统从产生蛋白质的生物体中纯化后,或者在重组表达之后,可以大规模产生蛋白质。典型的蛋白质液相色谱系统包含FPLC、AKTA系统、Bio-Cad系统、Bio-Rad BioLogic系统和Gilson HPLC系统。
纳米孔和/或辅助蛋白中的两个或更多个单体或亚基可以彼此共价附接。例如,至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个或至少10个单体或亚基可以共价附接。共价附接的单体或亚基可以相同或不同。
单体或亚基可以任选地通过接头遗传融合,或例如通过化学交联剂化学融合。用于共价附接单体或亚基的方法公开于WO2017/149316、WO2017/149317和WO2017/149318中。
在一些实施例中,跨膜蛋白纳米孔和/或辅助蛋白被化学修饰。跨膜蛋白纳米孔和/或辅助蛋白可以以任何方式和在任何位点进行化学修饰。例如,可以通过将分子附接到一个或多个半胱氨酸(半胱氨酸连接)、将分子附接到一个或多个赖氨酸、将分子附接到一个或多个非天然氨基酸、表位的酶修饰或末端的修饰对跨膜蛋白纳米孔和/或辅助蛋白进行化学修饰。用于进行此类修饰的合适方法在本领域是众所周知的。跨膜蛋白纳米孔和/或辅助蛋白可以通过任何分子的附接进行化学修饰。举例来说,跨膜蛋白纳米孔和/或辅助蛋白可以通过染料或荧光团的附接进行化学修饰。
合适的化学交联剂在本领域是众所周知的。优选的交联剂包含2,5-二氧吡咯烷-1-基3-(吡啶-2-基二磺酰基)丙酸酯、2,5-二氧吡咯烷-1-基4-(吡啶-2-基二磺酰基)丁酸酯和2,5-二氧吡咯烷-1-基8-(吡啶-2-基二磺酰基)辛酸酯。最优选的交联剂是琥珀酰亚胺基3-(2-吡啶二硫代)丙酸酯(SPDP)。通常,在分子/交联剂复合物共价附接到突变单体之前,分子共价附接到双功能交联剂,但也有可能在双功能交联剂/单体复合物附接到分子之前将双功能交联剂共价附接到单体。以上定义了肽接头的合适实例。
接头优选地对二硫苏糖醇(DTT)具有抗性。合适的接头包含但不限于基于碘乙酰胺和基于马来酰亚胺的接头。
在其它实施例中,辅助蛋白和/或纳米孔可以附接到多核苷酸结合蛋白。这形成了可以在本发明的测序方法中使用的模块测序系统。多核苷酸结合蛋白可以共价附接到辅助蛋白和/或纳米孔。
产生孔复合物的方法
在一个实施例中,可以通过共表达来制备包括辅助蛋白和跨膜蛋白纳米孔的孔复合物。所述方法包括在合适的宿主细胞中表达孔单体和辅助蛋白两者或辅助蛋白亚基或单体的步骤,并允许体内复合物孔形成。在此实施例中,一个载体中编码孔单体的至少一个基因和编码辅助蛋白的基因,或第二载体中的至少一个辅助蛋白亚基或单体可以一起转化,以表达蛋白质并在经转化的细胞中制备复合物。这优选地离体或在体外进行。可替代地,可以在单个启动子的控制下或在两个独立启动子的控制下将编码孔单体和辅助蛋白或其亚基的两个基因放置在一个载体中,所述两个独立启动子可以相同或不同。
用于产生由辅助蛋白和跨膜蛋白纳米孔形成的孔复合物的另一种方法是在体外重组蛋白质以获得功能孔。所述方法包括在合适的系统中使跨膜蛋白纳米孔的单体与辅助蛋白或辅助蛋白亚基或单体接触以允许复合物形成的步骤。所述系统可以是“体外系统”,其是指{至少包括执行所述方法所必需的组分和环境的系统,并且利用其正常天然存在的环境外部的生物分子、生物体、细胞(或细胞的一部分),从而允许比用整个生物体进行的分析更详细、更方便或更高效的分析。体外系统还可以包括试管中提供的合适的缓冲液组合物,其中已经添加了形成复合物的所述蛋白质组分。本领域技术人员知道提供所述系统的选项。
在此实施例中,可以通过与辅助蛋白分开表达单体来产生纳米孔。可以从用编码至少一种孔单体的载体或用各自表达孔单体的多于一种载体转化的细胞中纯化孔单体或纳米孔。可以从用编码至少一种辅助蛋白亚基的载体转化的细胞中纯化辅助蛋白或其亚基。然后可以将一个或多个纯化的孔单体/纳米孔与辅助蛋白或一个或多个亚基一起温育以制备孔复合物。
在另一个实施例中,一个或多个纳米孔单体和/或其辅助蛋白或一个或多个亚基分别通过体外翻译和转录(IVTT)产生。然后可以将一个或多个纳米孔单体与辅助蛋白或其亚基一起温育以制备孔复合物。
上述实施例可以被组合,使得例如,(i)纳米孔在体内产生并且辅助蛋白在体内产生;(ii)纳米孔在体外产生,并且辅助蛋白在体内产生;(iii)纳米孔在体内产生,并且辅助蛋白在体外产生;或者(iv)纳米孔在体外产生,并且辅助蛋白在体外产生。
可以标记纳米孔单体和辅助蛋白或其亚基之一或两者,以促进纯化。当纳米孔单体和/或辅助蛋白或其亚基未标记时也可以执行纯化。本领域已知的方法(例如离子交换、凝胶过滤、疏水相互作用柱色谱法等)可以单独使用或以不同组合使用以纯化孔复合物的组分。
任何已知标签可以在两种蛋白质中的任一种中使用。在一个实施例中,可以使用双标签纯化以从其组成部分中纯化孔复合物。例如,可以在纳米孔中使用Strep标签,并且可以在辅助蛋白中使用His标签,反之亦然。当将两种蛋白质分别纯化并混合在一起,然后进行另一轮Strep和His纯化时,可以获得类似的最终结果。
可以在将纳米孔插入到膜中之前或者在将纳米孔插入到膜中之后制备孔复合物。但是,可以将纳米孔插入到膜中,并且然后添加辅助蛋白,使得孔复合物可以原位形成。例如,在一个实施例中,在膜的反面或顺面是可接近的系统中(例如在用于电生理学测量的芯片或腔室中),可以将纳米孔插入到膜中,并且然后可以从膜的反面或顺面添加辅助蛋白,使得复合物可以原位形成。
在一个实施例中,辅助蛋白可以包括蛋白酶裂解位点(例如,TEV、HRV 3或任何其它蛋白酶裂解位点),并且在与纳米孔缔合之前或之后被裂解。例如,全长辅助蛋白(或其亚基)可以用于形成孔。可以从辅助蛋白中裂解不形成通道结构的部分并且不需要与跨膜孔相互作用的氨基酸残基。在此实施例中,一旦形成孔复合物,就使用蛋白酶裂解辅助蛋白。可替代地,可以在孔复合物组装之前使用蛋白酶产生辅助蛋白。
某些蛋白酶位点在裂解后会留下另外的标签。例如,TEV蛋白酶裂解序列是ENLYFQS。TEV蛋白酶在Q与S之间裂解蛋白质,使ENLYFQ在CsgF肽的C末端处保持完整。通过另一个实例,HRV C3裂解位点是LEVLFQGP,并且酶在Q与G之间裂解,使LEVLFQ在CsgF肽的C末端处保持完整。
系统
在另一方面,本公开涉及一种用于表征靶多核苷酸的系统,所述系统包括膜和孔复合物;
其中孔复合物包括:(i)定位在膜中的纳米孔;以及(ii)附接到纳米孔的辅助蛋白或肽;
其中纳米孔和辅助蛋白或肽一起形成跨膜的连续通道,所述通道包括第一收缩区域和第二收缩区域;
其中第一收缩区域由纳米孔的一部分形成,并且其中第二收缩区域由辅助蛋白或肽的至少一部分形成。
孔复合物、纳米孔和辅助蛋白或肽可以是本文以上所述的任一种。
在一个实施例中,系统进一步包括第一腔室和第二腔室,其中第一腔室和第二腔室由膜分隔开。当用于表征靶多核苷酸时,系统可以进一步包括靶多核苷酸,其中靶多核苷酸短暂地定位在连续通道内,并且其中靶多核苷酸的一端定位在第一腔室中,并且靶多核苷酸的一端定位在第二腔室中。
在一个实施例中,系统进一步包括与纳米孔接触的导电溶液、跨膜提供电压电势的电极以及用于测量通过纳米孔的电流的测量系统。在一个实施例中,跨膜和孔复合物施加的电压为+5V到-5V,如-600mV到+600mV或-400mV到+400mV。所使用的电压优选地在100mV到240mV的范围内,并且更优选地在120mV到220mV的范围内。通过使用增加的施加电势,可以通过孔增加不同核苷酸之间的区分度。可以使用任何合适的导电溶液。例如,溶液可以包括电荷载体,如金属盐,例如碱金属盐;卤盐,例如氯化物盐,如碱金属氯化物盐。电荷载体可以包含离子液体或有机盐,例如四甲基氯化铵、三甲基苯基氯化铵、苯基三甲基氯化铵或1-乙基-3-甲基氯化咪唑。在示例性系统中,盐存在于腔室中的水溶液中。通常使用氯化钾(KCl)、氯化钠(NaCl)、氯化铯(CsCl)或亚铁氰化钾与铁氰化钾的混合物。KCl、NaCl和亚铁氰化钾与铁氰化钾的混合物是优选的。电荷载体可以是跨膜不对称的。举例来说,(例如每个腔室中的)膜的每一侧上的电荷载体的类型和/或浓度可以不同。
盐浓度可以处于饱和状态。盐浓度可以是3M或更低,并且通常是0.1到2.5M、0.3到1.9M、0.5到1.8M、0.7到1.7M、0.9到1.6M或1M到1.4M。盐浓度优选地是150mM到1M。所述方法优选使用至少0.3M的盐浓度进行,例如至少0.4M、至少0.5M、至少0.6M、至少0.8M、至少1.0M、至少1.5M、至少2.0M、至少2.5M或至少3.0M。高盐浓度提供高信噪比并允许相对于正常电流波动的背景鉴定指示核苷酸的存在的电流。
导电溶液中可以存在缓冲剂。通常,缓冲液是磷酸盐缓冲液。其它合适的缓冲液是HEPES和Tris-HCl缓冲液。导电溶液的pH可以是4.0到12.0、4.5到10.0、5.0到9.0、5.5到8.8、6.0到8.7或7.0到8.8或7.5到8.5。所使用的pH优选地是约7.5。
系统可以包括存在于膜中的孔复合物的阵列。在优选实施例中,阵列中的每个膜包括一种孔复合物。由于阵列形成的方式,例如,阵列可以包括一个或多个不包括孔复合物的膜,和/或一个或多个包括两个或更多个孔复合物的膜。阵列可以包括约2到约1000,如约10到约800、约20到约600或约30到约500个膜。
系统可以包括在设备中。设备可以是用于分析物分析的任何常规设备,如阵列或芯片。设备优选地被设置成执行所公开的方法。例如,设备可以包括包含水溶液的腔室和将腔室分成两段的屏障。屏障通常具有孔口,在其中形成含有孔的膜。可替代地,屏障形成其中存在孔的膜。
在一个实施例中,设备包括:
传感器装置,其能够支撑多个孔和膜并且可操作用于使用孔和膜来执行分析物表征;以及
至少一个通口,其用于递送执行表征用的材料。
在一个实施例中,设备包括:
传感器装置,其能够支撑多个孔和膜并且可操作用于使用孔和膜来执行分析物表征;以及
至少一个储槽,其用于盛放执行表征用的材料。
在一个实施例中,设备包括:
传感器装置,其能够支撑所述膜和多个孔和膜并且可操作用于使用孔和膜来执行分析物表征;
至少一个储槽,其用于盛放执行表征用的材料;
流体系统,其被配置成可控地将材料从至少一个储槽供应到传感器装置;以及
一个或多个容器,其用于容纳相应样品,所述流体系统被配置成选择性地将样品从一个或多个容器供应到传感器装置。
设备还可以包括能够施加电势并且测量跨膜和孔复合物的电信号的电路。
设备可以是描述于WO 2008/102120、WO 2009/077734、WO 2010/122293、WO 2011/067559或WO 00/28312中的那些设备中的任一种。
系统中可以使用任何合适的膜。膜优选地是两亲层。两亲层是由如磷脂等两亲分子形成的层,其具有亲水性和亲脂性两者。两亲分子可以是合成的或天然存在的。非天然存在的两亲物和形成单层的两亲物在本领域中是已知的,并且包含例如嵌段共聚物(Gonzalez-Perez等人,《朗缪尔(Langmuir)》,2009,25,10447-10450)。嵌段共聚物是聚合在一起的两个或更多个单体亚基产生单个聚合物链的聚合材料。嵌段共聚物通常具有由每个单体亚基贡献的性质。然而,嵌段共聚物可以具有由单独的亚基形成的聚合物不拥有的独特性质。嵌段共聚物可以进行工程化,使得单体亚基中的一个在水性介质中是疏水性的(即亲脂性),而其它亚基是亲水性的。在这种情况下,嵌段共聚物可以拥有两亲性质,并且可以形成模拟生物膜的结构。嵌段共聚物可以是二嵌段的(其由两个单体亚基组成),但也可以由多于两个单体亚基构建以形成表现为两亲物的更复杂布置。共聚物可以是三嵌段、四嵌段或五嵌段共聚物。膜优选地是三嵌段共聚物膜。
古细菌双极性四醚脂质是天然存在的脂质,其被构建成使得脂质形成单层膜。这些脂质一般发现于在苛刻生物环境中存活的嗜极生物、嗜热生物、嗜盐生物和嗜酸生物中。其稳定性被认为是源于最终双层的融合性质。直接了当的做法是,通过产生具有一般基序亲水性-疏水性-亲水性的三嵌段聚合物来构建模拟这些生物实体的嵌段共聚物材料。这种材料可以形成表现类似于脂质双层并且涵盖从囊泡到层状膜的一系列阶段表现的单体膜。由这些三嵌段共聚物形成的膜在生物脂质膜上保持若干优势。因为三嵌段共聚物是合成的,所以可以小心地控制准确的构建以提供形成膜和与孔和其它蛋白质相互作用所需的正确链长度和性质。
还可以由不归类为脂质亚材料的亚基来构建嵌段共聚物,例如可以由硅氧烷或其它非烃基单体来制备疏水性聚合物。嵌段共聚物的亲水性亚区段还可以具备低蛋白质结合性质,这允许产生当暴露于原始生物样品时具有高度抗性的膜。这种头基单元还可以源自非经典的脂质头基。
与生物脂质膜进行比较,三嵌段共聚物膜还具有增加的机械和环境稳定性,例如高许多的操作温度或pH范围。嵌段共聚物的合成性质提供定制用于广泛范围应用的基于聚合物的膜的平台。
膜最优选地是国际申请第WO2014/064443号或第WO2014/064444号中所公开的膜之一。
两亲分子可以进行化学修饰或官能化,以便于偶联多核苷酸。两亲层可以是单层或双层。两亲层通常是平面的。两亲层可以是弯曲的。两亲层可以是支撑式的。
两亲膜通常是天然可移动的,基本上以大致10-8cm s-1的脂质扩散速率充当二维液体。这意味着孔和偶联的多核苷酸可以通常在两亲膜内移动。
膜可以是脂质双层。脂质双层是细胞膜的模型,并且用作一系列实验研究的极佳平台。例如,脂质双层可以用于通过单通道记录对膜蛋白进行活体外研究。可替代地,脂质双层可以用作检测一系列物质的存在的生物传感器。脂质双层可以是任何脂质双层。合适的脂质双层包含但不限于平面脂质双层、支持双层或脂质体。脂质双层优选地是平面脂质双层。合适的脂质双层公开于WO 2008/102121、WO 2009/077734和WO 2006/100484中。
用于形成脂质双层的方法在本领域中是已知的。脂质双层通常通过Montal和Mueller的方法(《美国国家科学院院刊》,1972;69:3561-3566)来形成,其中脂质单层携载于通过孔隙两侧的水溶液/空气界面上,所述孔隙垂直于所述界面。通常通过首先将脂质溶解在有机溶剂中,并且然后使在孔隙两侧上的水溶液的表面上蒸发一滴溶剂,来将脂质添加到水性电解质溶液的表面。一旦有机溶剂已蒸发,则孔隙两侧上的溶液/空气界面来回物理地移动通过孔隙,直到形成双层为止。可以跨膜中的孔隙或跨凹槽中的开口形成平面脂质双层。
Montal和Mueller的方法很受欢迎,因为这是形成适合于蛋白质孔插入的高质量脂质双层的成本有效且相对简单的方法。双层形成的其它常见方法包含脂质体双层的尖端浸没、双层涂刷和贴片夹持。
尖端浸没双层形成需要使孔隙表面(例如移液管尖端)接触到携载脂质单层的测试溶液的表面。同样,通过将溶解于有机溶剂中的一滴脂质在溶液表面处蒸发来首先在溶液/空气界面处产生脂质单层。然后,通过朗缪尔-沙佛(Langmuir-Schaefer)过程形成双层,并且需要机械自动以使孔隙相对于溶液表面移动。
对于涂刷的双层,将溶解于有机溶剂中的一滴脂质直接应用于孔隙,所述孔隙浸没在水性测试溶液中。使用笔刷或等效物,使脂质溶液稀薄地扩散在孔隙内。溶剂的薄化使得形成脂质双层。然而,从双层完全去除溶剂是非常困难的,并且因此通过这种方法形成的双层较不稳定且更倾向于在电化学测量期间具有噪声。
贴片夹持是在生物细胞膜研究中常用的。通过抽汲将细胞膜夹持到移液管的末端,并且膜贴片变为附接在孔隙内。所述方法适用于通过夹持然后爆裂以离开密封在移液管的孔隙内的脂质双层的脂质体来产生脂质双层。所述方法需要稳定的、巨大且单层的脂质体,和在具有玻璃表面的材料上制造小孔。
脂质体可以通过超声处理、挤出或Mozafari方法(Colas等人(2007)《微米(Micron)》38:841-847)来形成。
在优选实施例中,如国际申请第WO 2009/077734号中所描述的形成脂质双层。在此方法中有利的是,脂质双层由干燥脂质形成。在最优选实施例中,跨开口形成脂质双层,如WO2009/077734中所描述的。
脂质双层由脂质的两个相对层形成。两个脂质层被布置成使得其疏水尾基面朝彼此,以形成疏水性内部。脂质的亲水性头基朝外面向双层每侧上的水性环境。双层可以存在于多种脂质阶段中,所述脂质阶段包含但不限于液体无序阶段(液体片层)、液体有序阶段、固体有序阶段(片层凝胶阶段、交错结合的凝胶阶段)和平面双层晶体(片层亚凝胶阶段、片层结晶阶段)。
可以使用形成脂质双层的任何脂质组合物。选择脂质组合物,使得形成具有所需性质,如表面电荷、支持膜蛋白的能力、充填密度或机械性质的脂质双层。脂质组合物可以包括一种或多种不同脂质。举例来说,脂质组合物可以含有多达100种脂质。脂质组合物优选地含有1到10种脂质。脂质组合物可以包括天然存在的脂质和/或人工脂质。
脂质通常包括头基、界面部分和可以相同或不同的两个疏水尾基。合适的头基包含但不限于中性头基,如二酰基甘油酯(DG)和脑酰胺(CM);两性离子头基,如磷脂酰胆碱(PC)、磷脂酰乙醇胺(PE)和鞘磷脂(SM);带负电荷的头基,如磷脂酰甘油(PG);磷脂酰丝氨酸(PS)、磷脂酰肌醇(PI)、磷脂酸(PA)和心磷脂(CA);以及带正电荷的头基,如三甲基铵丙烷(TAP)。合适的界面部分包含但不限于天然存在的界面部分,如基于甘油或基于脑酰胺的部分。合适的疏水尾基包含但不限于:饱和烃链,如月桂酸(正十二烷酸)、肉豆蔻酸(正十四烷酸)、棕榈酸(正十六烷酸)、硬脂酸(正十八烷酸)和花生酸(正二十烷酸);不饱和烃链,如油酸(顺-9-十八烷酸);和支链烃链,如植烷酰基。链的长度和不饱和烃链中的双键的位置和数量可以变化。链的长度和支链烃链中的支链(如甲基)的位置和数量可以变化。疏水尾基可以作为醚或酯连接到界面部分。脂质可以是分枝菌酸。
脂质还可以进行化学修饰。脂质的头基或尾基可以进行化学修饰。头基已进行化学修饰的合适的脂质包含但不限于:经PEG修饰的脂质,如1,2-二酰基-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000];官能化PEG脂质,如1,2-二硬脂酰基-sn-甘油-3磷酸乙醇胺-N-[生物素基(聚乙二醇)2000];以及针对缀合修饰的脂质,如1,2-二油酰基-sn-甘油-3-磷酸乙醇胺-N-(琥珀酰基)和1,2-二棕榈酰基-sn-甘油-3-磷酸乙醇胺-N-(生物素基)。尾基已进行化学修饰的合适的脂质包含但不限于:可聚合脂质,如1,2-双(10,12-二十三碳二炔基)-sn-甘油-3-磷酸胆碱;氟化脂质,如1-软脂酰基-2-(16-氟软脂酰基)-sn-甘油-3-磷酸胆碱;氘化脂质,如1,2-二棕榈酰基-D62-sn-甘油-3-磷酸胆碱;以及醚连接的脂质,如1,2-二-O-植烷基-sn-甘油-3-磷酸胆碱。脂质可以进行化学修饰或官能化,以便于偶联多核苷酸。
两亲层(例如脂质组合物)通常包括将影响层的性质的一种或多种添加剂。合适的添加剂包含但不限于:脂肪酸,如棕榈酸、肉豆蔻酸和油酸;脂肪醇,如棕榈醇、肉豆蔻醇和油醇;甾醇,如胆固醇、麦角固醇、羊毛甾醇、谷甾醇和豆甾醇;溶血磷脂,如1-酰基-2-羟基-sn-甘油-3-磷酸胆碱;以及神经酰胺。
在另一个优选实施例中,膜包括固态层。固态层可以由有机材料和无机材料两者形成,所述材料包含但不限于:微电子材料、绝缘材料(如Si3N4、A12O3和SiO)、有机和无机聚合物(如聚酰胺)、塑料(如
Figure BDA0003055639270000401
)或弹性体(如双组分加成固化硅橡胶)以及玻璃。固态层可以由石墨烯形成。合适的石墨烯层公开于WO 2009/035647中。如果膜包括固态层,则孔通常存在于两亲膜或层中,所述两亲膜或层包含在固态层内,例如在固态层内的孔洞、孔、间隙、通道、沟槽或缝隙内。技术人员可以制备合适的固态/两亲性杂合系统。合适的系统公开于WO 2009/020682和WO 2012/005857中。可以使用以上所论述的两亲膜或层中的任一个。
通常使用以下来实行方法:(i)包括孔的人工两亲层,(ii)包括孔的分离的天然存在的脂质双层,或(iii)其中插入孔的细胞。通常使用人工两亲层(如人工三嵌段共聚物层)来实行方法。层可以包括其它跨膜和/或膜内蛋白质以及除孔以外的其它分子。以下论述了合适的设备和条件。通常在体外进行本发明的方法。
表征分析物的方法
在另外的方面,公开了一种确定目标分析物的存在、不存在或一个或多个特性的方法。所述方法涉及使目标分析物与包括孔复合物的膜接触,使得目标分析物相对于(如进入或通过)连续通道移动,所述连续通道包括分别由孔复合物中的纳米孔和辅助蛋白或肽提供的至少两种结构,并且当分析物相对于通道移动时进行一次或多次测量,从而确定分析物的存在、不存在或一个或多个特性。分析物可以穿过纳米孔收缩部,然后穿过辅助蛋白收缩部。在替代实施例中,取决于膜中孔复合物的取向,分析物可以穿过辅助蛋白收缩部,然后穿过纳米孔收缩部。
在一个实施例中,方法用于确定目标分析物的存在、不存在或一个或多个特性。方法可以用于确定至少一种分析物的存在、不存在或一个或多个特性。方法可以涉及确定两种或更多种分析物的存在、不存在或一个或多个特性。方法可以包括确定任何数量的分析物(如2种、5种、10种、15种、20种、30种、40种、50种、100种或更多种分析物)的存在、不存在或一个或多个特性。可以确定一种或多种分析物的任何数量的特性,如1种、2种、3种、4种、5种、10种或更多种特性。
分子在孔复合物的通道中或通道的任一开口附近的结合将对通过孔的开放通道离子流产生影响,这是孔通道的“分子感测”的本质。以与核酸测序应用类似的方式,可以使用合适的测量技术通过电流的变化来测量开放通道离子流的变化(例如,WO 2000/28312和D.Stoddart等人,《美国国家科学院院刊》,2010,106,7702-7或WO 2009/077734)。通过电流的减少测量的离子流的减少程度与孔内或孔附近的障碍物的大小有关。因此,孔中或孔附近的所关注分子(也称为“分析物”)的结合提供了可检测和可测量的事件,从而形成了“生物传感器”的基础。用于纳米孔感测的合适的分子包含核酸;蛋白质;肽;多糖和小分子(此处指低分子量(例如,<900Da或<500Da)有机或无机化合物),如药物、毒素、细胞因子和污染物。检测生物分子的存在可应用于个性化药物开发、医学、诊断、生命科学研究、环境监测以及安全和/或国防工业。
目标分析物可以是金属离子、无机盐、聚合物、氨基酸、肽、多肽、蛋白质、核苷酸、寡核苷酸、多核苷酸、多糖、染料、漂白剂、药物、诊断剂、娱乐性药物、爆炸物、有毒化合物或环境污染物。方法可以涉及确定两种或更多种相同类型的分析物(例如两种或更多种蛋白质、两种或更多种核苷酸或两种或更多种药物)的存在、不存在或一个或多个特性。可替代地,方法可以涉及确定两种或更多种不同类型的分析物(例如一种或多种蛋白质、一种或多种核苷酸和一种或多种药物)的存在、不存在或一个或多个特性。
可以从细胞分泌目标分析物。可替代地,目标分析物可以是存在于细胞内部的分析物,使得在实施方法之前必须从细胞中提取分析物。
在一个实施例中,分析物是氨基酸、肽、多肽或蛋白质。氨基酸、肽、多肽或蛋白质可以是天然存在的或非天然存在的。多肽或蛋白质可以包含在合成或经修饰的氨基酸内。对氨基酸的若干不同类型的修饰在本领域中是已知的。合适的氨基酸和其修饰如上所述。应理解,可以通过本领域中可用的任何方法来修饰目标分析物。
在优选实施例中,分析物是多核苷酸,如核酸。多核苷酸定义为包括两个或更多个核苷酸的大分子。DNA和RNA中天然存在的核酸碱基可以通过其物理大小来区分。当核酸分子或单独的碱基穿过纳米孔的通道时,碱基之间的大小差异会导致通过通道的离子流直接相关地减少。可以记录离子流的变化。用于记录离子流变化的合适的电测量技术描述于例如WO 2000/28312和D.Stoddart等人,《美国国家科学院院刊》,2010,106,第7702-7页(单通道记录设备);以及例如WO 2009/077734(多通道记录技术)中。通过适当的校准,离子流的特性减少可以用于实时鉴定穿过通道的特定核苷酸和相关碱基。在典型的纳米孔核酸测序中,由于通道被核苷酸部分堵塞,当所关注的核酸序列的单个核苷酸按顺序穿过纳米孔的通道时,开放通道离子流减少。使用上述合适的记录技术测量的正是这种离子流的减少。可以将离子流的减少校准为通过通道的已知核苷酸的测量离子流的减少,从而产生用于确定哪个核苷酸正在穿过通道的手段,并且因此,当按顺序进行时,产生确定穿过纳米孔的核酸的核苷酸序列的方式。为了准确地确定单独的核苷酸,通常需要使通过通道的离子流的减少与穿过收缩部(或“读取头”)的单独的核苷酸的大小直接相关。应当理解,例如,可以对完整的核酸聚合物执行测序,所述完整的核酸聚合物例如通过相关聚合酶或解旋酶的作用“穿过”孔。可替代地,可以通过使已经从邻近孔的靶核酸中按顺序去除的核苷酸三磷酸碱基的通路来确定序列(参见例如WO 2014/187924)。
多核苷酸或核酸可以包括任何核苷酸的任何组合。核苷酸可以是天然存在的或人工的。多核苷酸中的一或多个核苷酸可以是氧化的或甲基化的。多核苷酸中的一或多个核苷酸可以是受损的。举例来说,多核苷酸可以包括嘧啶二聚体。此类二聚体通常与紫外线损伤有关并且是皮肤黑色素瘤的主要病因。多核苷酸中的一或多个核苷酸可以例如用标记或标签修饰,所述标记或标签的合适的实例是技术人员已知的。多核苷酸可以包括一或多个间隔子。核苷酸通常含有核碱基、糖和至少一个磷酸基。核碱基和糖形成核苷。核碱基通常是杂环的。核碱基包含但不限于嘌呤和嘧啶,并且更具体地包含腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。糖通常是戊糖。核苷酸糖包含但不限于核糖和脱氧核糖。糖优选地是脱氧核糖。多核苷酸优选地包括以下核苷:脱氧腺苷(dA)、脱氧尿苷(dU)和/或胸苷(dT)、脱氧鸟苷(dG)和脱氧胞苷(dC)。核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常含有单磷酸、二磷酸或三磷酸。核苷酸可以包括多于三个磷酸,如4个或5个磷酸。磷酸可以附接在核苷酸的5'或3'侧上。多核苷酸中的核苷酸可以以任何方式彼此附接。核苷酸通常通过其糖和磷酸基附接,如在核酸中那样。核苷酸可以通过其核碱基连接,如在嘧啶二聚体中那样。多核苷酸可以是单链的或双链的。多核苷酸的至少一部分优选地是双链的。多核苷酸最优选地是核糖核酸(RNA)或脱氧核糖核酸(DNA)。具体地,使用多核苷酸作为分析物的所述方法可替代地包括确定选自以下的一个或多个特性:(i)多核苷酸的长度;(ii)多核苷酸的同一性;(iii)多核苷酸的序列;(iv)多核苷酸的二级结构;和(v)多核苷酸是否被修饰。
多核苷酸可以是任何长度(i)。例如,多核苷酸的长度可以是至少10个、至少50个、至少100个、至少150个、至少200个、至少250个、至少300个、至少400个或至少500个核苷酸或核苷酸对。多核苷酸的长度可以是1000个或更多个核苷酸或核苷酸对、5000个或更多个核苷酸或核苷酸对、或100000个或更多个核苷酸或核苷酸对。可以研究任何数量的多核苷酸。举例来说,方法可以涉及表征2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、50个、100个或更多个多核苷酸。如果表征两个或更多个多核苷酸,则其可以是不同的多核苷酸或同一多核苷酸的两个实例。多核苷酸可以是天然存在的或人工的。举例来说,方法可以用于验证所制造寡核苷酸的序列。方法通常在体外进行。
核苷酸可以具有任何同一性(ii),并且包含但不限于单磷酸腺苷(AMP)、单磷酸鸟苷(GMP)、单磷酸胸苷(TMP)、单磷酸尿苷(UMP)、单磷酸5-甲基胞苷、单磷酸5-羟基甲基胞苷、单磷酸胞苷(CMP)、单磷酸环腺苷(cAMP)、单磷酸环鸟苷(cGMP)、单磷酸脱氧腺苷(dAMP)、单磷酸脱氧鸟苷(dGMP)、单磷酸脱氧胸苷(dTMP)、单磷酸脱氧尿苷(dUMP)、单磷酸脱氧胞苷(dCMP)和单磷酸脱氧甲基胞苷。核苷酸优选地是选自AMP、TMP、GMP、CMP、UMP、dAMP、dTMP、dGMP、dCMP和dUMP。核苷酸可以无碱基(即缺乏核碱基)。核苷酸还可以缺乏核碱基和糖(即,是C3间隔子)。核苷酸(iii)的序列由链的5'到3'方向上在整个多核苷酸菌株中彼此附接的以下核苷酸的连续同一性确定。
包括至少两个读取器头的孔复合物在分析均聚物时特别有用。例如,孔可以用于确定包括两个或更多个,如至少3个、4个、5个、6个、7个、8个、9个或10个相同的连续核苷酸的多核苷酸的序列。例如,孔可以用于对包括polyA、polyT、polyG和/或polyC区域的多核苷酸进行测序。
例如,CsgG孔收缩部由SEQ ID NO:3的51、55和56位置处的残基构成。CsgG和其收缩突变体的读取器头通常很尖锐。当DNA穿过收缩部时,在任何给定时间,大约5个碱基的DNA与孔的读取器头的相互作用主导电流信号。尽管这些较为尖锐的读取器头非常擅长读取DNA的混合序列区域(当A、T、G和C混合时),但是当DNA中存在均聚物区域(例如:polyT、polyG、polyA、polyC)时,信号将变得平坦且缺少某些信息。由于5个碱基主导CsgG和其收缩突变体的信号,因此在不使用另外的停留时间信息的情况下很难区分长于5个的均聚物。但是,如果DNA穿过第二读取器头,则更多的DNA碱基将与组合的读取器头相互作用,从而增加了可以区分的均聚物的长度。实例和附图显示,均聚物测序准确性的这种提高是使用包括CsgG孔和第二读取器头的孔实现的。
试剂盒
在另外的方面,本发明还提供了一种用于表征靶多核苷酸的试剂盒。试剂盒包括所公开的孔复合物和膜的组分。膜优选地由组分形成。孔复合物优选存在于膜中,从而一起形成跨膜孔复合物通道。试剂盒可以包括任何类型的膜的组分,如两亲层或三嵌段共聚物膜。试剂盒可以进一步包括多核苷酸结合蛋白,如核酸处理酶,例如聚合酶或解旋酶。试剂盒可以进一步包括用于将多核苷酸偶联到膜的一个或多个锚,如胆固醇。试剂盒可以进一步包括一个或多个多核苷酸衔接子,其可以附接到靶多核苷酸以促进多核苷酸的表征。在一个实施例中,锚(如胆固醇)附接到多核苷酸衔接子。试剂盒可以另外包括使得以上提到的实施例中的任何实施例能够被实施的一种或多种其它试剂或仪器。此类试剂或仪器包含以下中的一个或多个:一种或多种合适的缓冲液(水溶液)、用于从受试者获得样品的装置(如包括针的容器或仪器)、用于扩增和/或表达多核苷酸的装置,或电压或贴片夹设备。试剂可以以干态形式存在于试剂盒中,使得流体样品再悬浮试剂。试剂盒还可以任选地包括使所述试剂盒能够用于本发明方法的说明书或关于所述方法可以用于何种生物体的详情。最后,试剂盒还可以包括可在多核苷酸表征中使用的其它组分。
应当理解,虽然本文已经针对根据本发明的工程化细胞和方法讨论了特定实施例、特定构造以及材料和/或分子,但是可以在不脱离本发明的范围和精神的情况下在形式和细节上进行各种改变或修改。提供以下实例以更好地说明特定实施例,并且不应将其视为限制本申请。本申请仅由权利要求书限制。
实例
实例1:双孔产生
将编码多肽Pro-CP1-Eco-(突变体-StrepII(C))(SEQ ID NO:90)的DNA(SEQ IDNO:89)克隆到含有氨苄青霉素抗性基因的pT7载体中。将DNA溶液的浓度调整到400μg/μL。1μl DNA用于转化细胞系ONT001,所述细胞系是Lemo BL21 DE3细胞系,其中编码CsgG蛋白的基因被负责卡那霉素抗性的DNA代替。然后将细胞向外涂铺在含有氨苄青霉素(0.1mg/ml)和卡那霉素(0.03mg/ml)的LB琼脂上,并在37℃下温育大约16小时。
可以假定在含有氨苄青霉素和卡那霉素的LB板上生长的细菌菌落并入了CP1质粒,而无内源性产生。一个此类菌落用于接种含有羧苄青霉素(0.1mg/ml)和卡那霉素(0.03mg/ml)两者的LB培养基的起子培养物(100mL)。使起子培养物在37℃下在搅动下生长,直到OD600达到1.0-1.2为止。起子培养物用于接种新鲜的500ml培养物并且OD600为0.1。LB培养基含有以下添加剂:羧苄青霉素(0.1mg/ml)、卡那霉素(0.03mg/ml)、500μM鼠李糖、15mM MgSO4和3mM ATP。使培养物在37℃下在搅动下生长直到进入固定相,并保持另外一小时——固定相通过所测量OD600的平稳段确定。然后将培养物的温度调整到18℃,并且添加葡萄糖到0.2%的最终浓度。一旦培养物在18℃下稳定,就通过添加乳糖到最终浓度1%来开始诱导。诱导在18℃下在搅动下进行大约18小时。
在诱导后,通过在6,000g下离心30分钟来沉淀培养物。将沉淀物重新悬浮于含有蛋白酶抑制剂的50mM Tris、300mM NaCl(默克密理博公司(Merck Millipore)539138)、全能核酸酶(Benzonase Nuclease,西格玛公司(Sigma)E1014)、1X Bugbuster(默克密理博公司70921)和0.1%Brij 58pH 8.0(每克沉淀物大约10ml缓冲液)中。将悬浮液充分混合直到其完全均匀,然后将样品转移到4℃下的辊式混合器持续大约5小时。通过在20,000g下离心45分钟来使裂解物沉淀,并且通过0.22μM PES针筒过滤器来过滤上清液。获取含有CP1的上清液以通过柱色谱纯化。
将样品应用于5ml Strep Trap柱(GE医疗集团(GE Healthcare))。用25mM Tris、150mM NaCl、2mM EDTA、0.1%Brij 58pH 8来洗涤柱,直到维持10柱体积的稳定基线为止。然后,在返回到150mM缓冲液之前,用25mM Tris、2M NaCl、2mM EDTA、0.1%Brij 58pH 8洗涤柱。用10mM脱硫生物素进行洗脱。汇集洗脱峰,并且然后在1ml Q HP柱(GE医疗集团)上使用25mM Tris、150mM NaCl、2mM EDTA、0.1%Brij 58pH 8作为结合缓冲液和25mM Tris、500mM NaCl、2mM EDTA、0.1%Brij 58pH 8作为洗脱缓冲液进行离子交换纯化。观察到流通峰含有二聚体和单体蛋白两者,在大约400毫秒/秒下观察到洗脱峰含有单体孔。通过vivaspin柱(100kd MWCO)浓缩流通峰,并在24ml S200增加柱(GE医疗集团)上使用缓冲液25mM Tris、150mM NaCl、2mM EDTA、0.1%Brij 58、0.1%SDS pH 8进行尺寸排阻色谱。在9ml下洗脱二聚体(双)孔,而在10.5ml下洗脱单体孔。
实例2:CsgG:CsgF复合蛋白产生(CsgG与CsgF合成肽的共表达、体外重组、偶联体外转录和翻译以及重组)
为了产生CsgG:CsgF复合物,可以在合适的革兰氏阴性宿主(如大肠杆菌)中共表达两种蛋白质,并从外膜中提取并纯化为复合物。CsgG孔和CsgG:CsgF复合物的体内形成需要将蛋白质靶向外膜。这样,CsgG被表达为具有脂蛋白信号肽的前原蛋白(Juncker等人,2003,《蛋白质科学(Protein Sci.)》12(8):1652-62)以及成熟蛋白质的N末端位置处的Cys残基(SEQ ID No:3)。此类脂蛋白信号肽的实例是如SEQ ID No:2所示的全长大肠杆菌CsgG的残基1-15。前原CsgG的加工引起信号肽裂解和成熟CsgG脂质化,随后成熟脂蛋白转移到外膜,在所述外膜处其作为寡聚孔插入(Goyal等人,2014,《自然(Nature)》516(7530):250-3)。为了形成CsgG:CsgF复合物,可以将CsgF与CsgG共表达并通过前导序列(如对应于SEQID No:5的残基1-19的天然信号肽)靶向周质。然后可以使用洗涤剂从外膜中提取CsgG:CsgF组合孔,并通过色谱法纯化为均匀的复合物。
可替代地,可以使用CsgG孔和CsgF通过体外重组产生CsgG:CsgF孔复合物——参见下文。
对于体内CsgG:CsgF复合物的形成,使用其天然信号肽共表达大肠杆菌CsgF(SEQID NO:5)和CsgG(SEQ ID NO:2)以确保两种蛋白质的周质靶向以及CsgG的N末端脂质化。另外,为了便于纯化,通过引入C末端6x组氨酸标签对CsgF进行修饰,并将CsgG与Strep-II标签在C末端融合。如方法中所述执行共表达和复合物纯化。对His亲和纯化洗脱液的SDS-PAGE分析揭露了CsgF-His的富集以及CsgG-Strep的共纯化,表明后者与CsgF形成复合物。另外,SDS-PAGE揭露了洗脱的CsgF的很大一部分由于蛋白质的N末端片段丢失而以较低的分子量运行。对第二亲和纯化的His-trap洗脱液的汇集级分的SDS-PAGE分析揭露了明显等摩尔浓度的CsgG和CsgF的存在以及在His-trap洗脱液中看到的CsgF截短片段的丢失。在Strep亲和纯化中共洗脱CsgF指示了蛋白质与CsgG以非共价复合物形式存在。令人惊讶的是,CsgF的N末端截短片段在Strep亲和纯化中丢失,这表明需要CsgF的N末端来与CsgG结合。
为了产生CsgG:CsgF复合物,将CsgG和CsgF在分别用pPG1和pNA101转化的单独的大肠杆菌培养物中表达并进行纯化,然后进行CsgG:CsgF复合物的体外重组(参见方法)。为了进行比较,将经纯化的CsgG类似地在Superose 6柱上作为复合物运行。CsgG Superose 6运行示出了两个离散群体的存在,其对应于九聚体CsgG孔以及九聚体CsgG孔的二聚体,如Goyal等人(2014)先前所述。CsgG:CsgF重组的Superose 6运行揭露了三个离散群体的存在,其对应于过量的CsgF、九聚体CsgG:CsgF复合物和九聚体CsgG:CsgF的二聚体。为了提供对CsgG:CsgF复合物形成的独立确认,在天然PAGE上分析了各种Superose 6洗脱峰。
出乎意料的是,CsgG:CsgF复合物还可以通过如用于表征分析物的材料和方法章节中所述的偶联体外转录和翻译(IVTT)方法制备。可以通过在同一IVTT反应中表达CsgG和CsgF蛋白或在两个不同的IVTT反应中分别重组制备的CsgG和CsgF来制备复合物。在一个实例中,用于环状DNA的大肠杆菌T7-S30提取系统(普洛麦格公司(Promega))已用于在一种反应混合物中制备CsgG:CsgF复合物,并在SDS-PAGE上分析蛋白质。由于IVTT中的蛋白质表达不使用蛋白质表达的天然分子机制,因此用于在IVTT中表达蛋白质的DNA缺少编码信号肽区域的DNA。当在不存在CsgF的DNA的情况下在IVTT中表达CsgG的DNA时,只能产生CsgG的单体。出乎意料的是,这些表达的单体可以通过使用存在于IVTT反应混合物中的细胞提取膜原位组装成CsgG寡聚孔。尽管CsgG的寡聚体是SDS稳定的,但当样品被加热到100℃时,其会分解成其组成单体。当在不存在CsgG的DNA的情况下在IVTT中表达CsgF的DNA时,只能看见CsgF单体。当CsgG和CsgF的DNA以1:1的比例混合并在同一IVTT反应混合物中同时表达时,所产生的CsgF蛋白与组装的CsgG孔高效相互作用,以制备CsgG:CsgF复合物。这种在IVTT中制备的SDS稳定复合物至少在高达70℃下是热稳定的。
还可以通过以上所示的方法中的任何方法通过使用编码截短CsgF而不是全长形式的DNA来制备具有截短CsgF的CsgG:CsgF复合物。然而,当CsgF在FCP结构域以下被截短时,复合物的稳定性可能受到损害。另外,一旦形成全长CsgG:CsgF复合物,就可以通过在适当的位置切割全长CsgF来制备具有截短CsgF的CsgG:CsgF复合物。可以通过在需要切割的位置处并入蛋白酶切割位点对编码CsgF蛋白的DNA进行修饰来完成截短。Seq ID No.56-67示出了并入CsgF的各个位置以产生具有截短CsgF的CsgG:CsgF复合物的TEV或HCV C3蛋白酶位点。当利用如用于表征分析物的材料和方法章节中所述的TEV蛋白酶处理CsgG:CsgF复合物(具有全长CsgF)时,CsgF在位置35处被截短。然而,TEV切割在切割位点的C末端处留下额外6个氨基酸。因此,与CsgG孔复合的剩余CsgF截短蛋白长42个氨基酸。在SDS-PAGE中仍然可以看到此复合物和CsgG孔(没有CsgF)的分子量差异。
出乎意料的是,CsgG:CsgF复合物还可以通过用适当长度的合成肽重组纯化的CsgG孔来制备(在体内或体外制备)。由于重组在体外发生,因此不需要CsgF的信号肽来制备CsgG:CsgF复合物。进一步地,此方法不会在CsgF的C末端处留下额外的氨基酸。突变和修饰也可以容易地并入到合成的CsgF肽中。因此,此方法是用不同的CsgF肽或其突变体或同源物重组不同的CsgG孔或其突变体或同源物以产生不同的CsgG:CsgF复合物变体的非常方便的方法。当CsgF在FCP结构域之外被截短时,复合物的稳定性可能受到损害。出乎意料的是,用CsgF-(1-45)(图13.A)、CsgF-(1-35)(图13.B)和CsgF-(1-30)(图13.C)通过此方法制备的CsgG:CsgF复合物的热稳定性的SDS-PAGE分析显示,至少CsgF-(1-45)和CsgF-(1-35)肽与在至少90℃下具有热稳定性的CsgG形成复合物。由于CsgG孔在90℃下分解成其组成单体,因此难以评估复合物在90℃以上的稳定性。由于在SDS-PAGE中CsgG孔带与CsgG:CsgF-(1-30)复合物带之间的差异很小,因此该方法不足以分析CsgG:CsgF-(1-30)复合物(图13.C)的热稳定性。但是,在所有三种情况下都观察到CsgG:CsgF复合物,并且甚至在电生理实验中也观察到CsgG:CsgF-(1-29),这指示甚至CsgF-(1-29)肽也产生了至少一些CsgG:CsgF复合物(图21)。
实例3:通过cryo-EM进行的CsgG:CsgF结构分析
为了获得CsgG:CsgF复合物的结构洞察,通过透射电子显微术对共纯化或体外重组的CsgG:CsgF粒子进行了分析。在准备cryo-EM分析时,将500μL双重亲和纯化的CsgG:CsgF复合物的峰级分注射到用缓冲液D(25mM Tris pH8、200mM NaCl和0.03%DDM)平衡的Superose6 10/30柱(GE医疗集团)上,并以0.5毫升/分钟的速度运行。基于在280nm下计算的吸光度并假设化学计量比为1:1来确定蛋白质浓度。如方法中所述分析用于电子冷冻电子显微术的样品。图8示出了CsgG:CsgF复合物的cryo-EM显微照片以及从挑选的CsgG:CsgF粒子中选择的两个类平均值。显微照片示出了九聚体孔的存在以及九聚体孔复合物的二聚体。为了进行图像重建,使用RELION挑选九聚体CsgG:CsgF粒子并进行比对。如侧视图中的CsgG:CsgF复合物的类平均值以及3D重建的电子密度示出了存在对应于CsgF的另外的密度,其作为定位在CsgGβ-桶的侧面处的从CsgG粒子伸出的突出物被看到(图8B、9)。另外的密度揭露了三个不同的区域,涵盖球形头部结构域、中空颈部结构域和与CsgGβ-桶相互作用的结构域。后面的CsgF区域(被称为CsgF收缩肽或FCP)插入CsgGβ-桶的腔中,并且可以看到形成了CsgG孔的另外的收缩部(在图8B、5中标记为F),其定位在由CsgG收缩环形成的收缩部(图8B、5中标记为G)上方大约2nm。
实例4:通过截短CsgF来鉴定CsgF相互作用和收缩肽
与仅CsgG孔相比,CsgG:CsgF孔复合物中第二收缩部的存在为纳米孔感测应用提供了机会,从而在纳米孔中提供可以用作第二读取器头或作为由CsgG收缩环提供的主读取器头的扩展的第二个孔。但是,当与全长CsgF复合时,CsgG:CsgF组合孔的出口侧被CsgF的颈部和头部结构域阻塞。因此,我们试图确定与CsgGβ-桶相互作用并插入其中所需的CsgF区域。Strep-tactin亲和纯化实验提示CsgG相互作用需要CsgF的N末端区域,因为在His-trap亲和纯化中存在的CsgF的N末端截短片段丢失了,并且没有与CsgG共纯化。CsgF同源物的特征在于存在PFAM结构域PF03783。当对在革兰氏阴性细菌中发现的CsgG同源物执行多序列比对(MSA)时,看到了序列保守区域(35%与100%之间的成对序列同一性)对应于成熟CsgF的前约30-35个氨基酸(SEQ ID NO:6)。基于组合数据,假设CsgF的此N末端区域形成CsgG相互作用肽或FCP。
为了检测CsgF N末端对应于CsgG结合区域并形成驻留在CsgGβ-桶腔中的CsgF收缩肽的假设,在大肠杆菌中对Strep标记的CsgG和His标记的CsgF截短蛋白进行共过表达(参见方法)。pNA97、pNA98、pNA99和pNA100编码对应于CsgF的残基1-27、1-38、1-48和1-64的N末端CsgF片段(SEQ ID NO:5)。这些肽包含对应于SEQ ID NO:5的残基1-19的CsgF信号肽,并且因此将产生对应于成熟CsgF的前8个、19个、29个和45个残基的周质肽(SEQ ID NO:6;图10A),每个包含C末端6x His标签。对全细胞裂解物的SDS-PAGE分析揭露了所有样品中均存在CsgG,并且存在对应于成熟CsgF的前45个残基的CsgF片段(SEQ ID NO:6;图10B)。对于较短的N末端CsgF片段,在全细胞裂解物中未看到肽的可检测表达。在两个冷冻/解冻循环后,各种CsgG:CsgF片段的细胞团通过纯化进一步富集。将全细胞裂解物以及Strep亲和纯化的洗脱级分点样到硝酸纤维素膜上,使用抗His抗体进行斑点印迹分析,以检测His标记的CsgF片段(图10C)。斑点印迹示出了CsgF 20:64肽与CsgG共纯化,展现了此CsgF片段足以与CsgG形成稳定的非共价复合物。对于CsgG 20:48片段,可以看到少量肽与CsgG共纯化,而在整个细胞裂解物或Strep亲和纯化中未看到CsgF 20:27或CsgF 20:38的可检测水平(图10C),这表明后面的肽在大肠杆菌中未稳定表达,和/或不能与CsgG形成稳定的复合物。
实例5:原子分辨率下的CsgG:CsgF相互作用的描述。
为了获得关于CsgG:CsgF相互作用的原子级详细信息,确定了CsgG:CsgF复合物的高分辨率cryoEM结构。为此目的,将CsgG和CsgF在大肠杆菌中重组表达,并通过洗涤剂提取从大肠杆菌外膜中分离出CsgG:CsgF复合物,然后使用串联亲和纯化进行纯化。通过将3μl样品点样在涂有氧化石墨烯的R2/1多孔网格(Quantifoil)上来制备用于电子冷冻显微术的样品,并在300kV TITAN Krios上用Gatan K2直接电子检测器以计数模式收集数据。使用62.000单个CsgG:CsgF粒子计算
Figure BDA0003055639270000472
分辨率下的最终电子密度图(图11A)。所述图允许CsgG晶体结构的明确对接和局部重建,以及成熟CsgF的N末端35个残基(即Seq ID No.5的20:54残基)的从头构建,其涵盖与CsgG结合的FCP并在CsgG跨膜β-桶的高度处形成第二收缩部(图11C、D)。cryoEM结构示出CsgG:CsgF包括9:9的化学计量比,具有C9对称性(图11B)。FCP结合CsgG β-桶的内部,CsgF的C末端指向CsgGβ-桶外,并且CsgF N末端定位在CsgG收缩部附近。结构示出了成熟CsgF中的P35位于CsgGβ-桶外部,并在CsgF FCP与颈部区域之间形成连接。由于CsgG:CsgF复合物的主体具有柔性,因此无法在高分辨率cryoEM图中解析CsgF颈部和头部区域。CsgGβ-桶中的三个区域使CsgG:CsgF相互作用稳定:(IR1)成熟CsgG中的残基Y130、D155、S183、N209和T207(SEQ ID NO:3)与N末端胺和成熟CsgF的残基1-4(SEQ IDNO:6)形成相互作用网络,包括四个H键和静电相互作用;(IR2)成熟CsgG(SEQ ID NO:3)中的残基Q187、D149和E203与成熟CsgF中的R8和N9(SEQ ID NO:6)形成相互作用网络,涵盖三个H键和两种静电相互作用;和(IR3)成熟CsgG中的残基F144、F191、F193和L199(SEQ IDNO:3)与成熟CsgF(SEQ ID NO:6)中的残基F21、L22和A26形成疏水相互作用表面。后者定位在由成熟CsgF中的残基19-30形成的α-螺旋(螺旋1)中。保守序列N-P-X-F-G-G(SEQ ID NO:6中的残基9-14)形成向内的转角,其将由残基15-19形成的环区与CsgF螺旋1连接。这些元素一起产生CsgG:CsgF复合物中的收缩部,所述收缩部的残基17(成熟大肠杆菌CsgF中的N17,SEQ ID NO:6)形成最窄点,从而形成直径为
Figure BDA0003055639270000473
的孔口(图11C)。第二收缩部(F收缩部或FC)分别位于由CsgG残基46到59(G收缩部或GC)形成的收缩部的顶部和底部上方约
Figure BDA0003055639270000474
Figure BDA0003055639270000475
处。
实例6:改善CcgG-CsgF复合物稳定性的模拟
执行了分子动力学模拟,以确定CsgG和CsgF中的哪些残基紧密相邻。此信息用于设计能够增加复合物的稳定性的CsgG和CsgF突变体。
使用GROMACS包4.6.5版、利用GROMOS 53a6力场和SPC水模型执行了模拟。在模拟中使用了CsgG-CsgF复合物的cryo-EM结构。将复合物溶剂化,并且然后使用最陡下降算法使能量最小化。在整个模拟过程中,对复合物的主链施加了约束,但是残基侧链可以自由移动。使用达到300K的Berendsen恒温器和Berendsen恒压器,系统在NPT系综中模拟20纳秒。
使用GROMACS分析软件以及本地编写的代码两者分析了CsgG与CsgF之间的接触。如果两个残基在3埃范围内,则将其定义为产生接触。结果示于下表4中。
表4:CsgG/CsgF复合物中的残基对的预测接触频率:
Figure BDA0003055639270000471
Figure BDA0003055639270000481
Figure BDA0003055639270000491
Figure BDA0003055639270000501
用于CsgG:CsgF复合物的结构确定的材料和方法:
克隆
为了将大肠杆菌CsgG表达为外膜局部孔,将大肠杆菌CsgG的编码序列(SEQ IDNO:1)克隆到pASK-Iba12中,从而得到质粒pPG1(Goyal等人,2013)。
为了在大肠杆菌细胞质中表达C末端6x-His标记的CsgF,使用引物“CsgF-His_pET22b_FW”(SEQ ID NO:46)和“CsgF-His_pET22b_Rev”(SEQ ID NO:47)产生的PCR产物通过NdeI和EcoRI位点将成熟大肠杆菌CsgF的编码序列(SEQ ID NO:6;即没有其信号序列的CsgF)克隆到pET22b中,从而得到CsgF-His表达质粒pNA101。
基于pGV5403(具有集成的pDEST14
Figure BDA0003055639270000502
盒的pTrc99a)创建了pNA62质粒——一种表达csgF-His和csgG-strep的基于pTrc99a的载体。pGV5403氨苄青霉素耐药盒被链霉素/大观霉素耐药盒代替。用引物csgEFG_pDONR221_FW(SEQ ID NO:48)和csgEFG_pDONR221_Rev(SEQ ID No:49)产生涵盖对应于csgE、csgF和csgG的编码序列的大肠杆菌MC4100 csgDEFG操纵子的部分的PCR片段,并通过BP
Figure BDA0003055639270000503
重组将其插入pDONR221(赛默飞世尔科技公司)中。接下来,通过LR
Figure BDA0003055639270000504
重组将来自pDONR221供体质粒的重组csgEFG操纵子插入具有链霉素/大观霉素耐药盒的pGV5403中。通过PCR,使用引物Mut_csgF_His_FW(SEQ ID NO:50)和Mut_csgF_His_Rev(SEQ ID NO:51)将6×His标签添加到CsgF C末端。最后,通过外向PCR(引物DelCsgE_FW(SEQ ID NO:52)和DelCsgE_Rev(SEQ IDNO:53))去除csgE以获得pNA62。
通过在pNA62(表达CsgF-his和CsgG-strep的基于pTrc99a的载体)上进行外向PCR,创建了用于对应于假定收缩肽(图10A)的C末端His标记的CsgF片段的周质表达的构建体。引物组合如下:pNa62_CsgF_histag_Fw(SEQ ID NO:45)作为正向引物,CsgF_d27_端(SEQ ID NO:41)、CsgF_d38_端(SEQ ID NO:42)、CsgF_d48_端(SEQ ID NO:43)或CsgF_d64_端(SEQ ID NO:44)作为反向引物,以分别创建pNA97、pNA98、pNA99和pNA100。
在pNA97中,csgF被截短为SEQ ID NO:7,其编码包含残基1-27(SEQ ID NO:8)的CsgF片段;在pNA98中,csgF被截短为SEQ ID NO:9,其编码包含残基1-38(SEQ ID NO:10)的CsgF片段;在pNA99中,csgF被截短为SEQ ID NO:11,其编码包含残基1-48(SEQ ID NO:12)的CsgF片段;并且在pNA100中,csgF被截短为SEQ ID NO:13,其编码包含残基1-64(SEQ IDNO:14)的CsgF片段。在大肠杆菌中表达pNA97、pNA98、pNA99和pNA100确实会导致在外膜中产生CsgG孔(SEQ ID NO:3),以及分别具有以下序列的CsgF衍生的肽的周质靶向:
“GTMTFQFRHHHHHH”(SEQ ID NO:37+6xHis)、“GTMTFQFRNPNFGGNPNNGH HHHHH”(SEQID NO:38+6xHis)、“GTMTFQFRNPNFGGNPNNGAFLLNSAQAQHHHH HH”(SEQ ID NO:39+6xHis)和“GTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDP SYNDDFGIETHHHHHH”(SEQ ID NO:40+6xHis)。
菌株
大肠杆菌前10(F-mcrAΔ(mrr-hsdRMS-mcrBC)Φ80lacZΔM15ΔlacX74 recA1araD139Δ(araleu)7697galU galK rpsL(StrR)endA1 nupG)用于所有克隆程序。大肠杆菌C43(DE3)(FompT hsdSB(rB-mB-)gal dcm(DE3))和前10用于蛋白质产生。
通过共表达产生重组CsgG:CsgF复合物
为了共表达大肠杆菌CsgF(SEQ ID NO:5)和CsgG(SEQ ID NO:2),将两个重组基因(包含其天然Shine Dalgarno序列)置于pTrc99a衍生质粒的诱导性trc启动子的控制下,以形成质粒pNA62。CsgG和CsgF在用质粒pNA62转化的大肠杆菌C43(DE3)细胞中过表达,并在37℃下在极品肉汤(Terrific Broth)培养基中生长。当细胞培养物在600nm下的光密度(OD)达到0.7时,在通过在5500g下离心采集之前,用0.5mM IPTG诱导重组蛋白表达,并保持在28℃下生长15小时。
通过体外重组产生重组CsgG:CsgF复合物
用C末端StrepII标签修饰的全长大肠杆菌CsgG(SEQ ID NO:2)在用质粒pPG1转化的大肠杆菌BL21(DE3)细胞中过表达(Goyal等人,2013)。使细胞在37℃下在极品肉汤培养基中生长到OD 600nm为0.6。用0.0002%脱水四环素(西格玛公司)诱导重组蛋白产生,并且在通过在5500g下离心采集之前,使细胞在25℃下生长另外16小时。
与6x His标签C末端融合的大肠杆菌CsgF(SEQ ID NO:6;即缺乏CsgF信号序列)在用质粒pNA101转化的大肠杆菌BL21(DE3)细胞的细胞质中过表达。细胞在37℃下生长到600nm的OD,然后通过1mM IPTG诱导,并且在通过在5500g下离心采集之前在37℃下表达蛋白质持续15小时。
CsgG:CsgF复合物、CsgG和CsgF的重组蛋白纯化
用pNA62转化并且共表达CsgG-Strep和CsgF-His的大肠杆菌细胞重新悬浮于50mMTris-HCl pH 8.0、200mM NaCl、1mM EDTA、5mM MgCl2、0.4mM AEBSF、1μg/mL亮肽素、0.5mg/mL DNase I和0.1mg/mL溶菌酶中。使用TS系列细胞粉碎机(常数系统有限公司(ConstantSystems Ltd))以20kPsi破坏细胞,并将裂解的细胞悬浮液与1%正十二烷基-β-d-麦芽糖苷(DDM;英纳克公司(Inalco))温育30秒以进一步裂解细胞并提取外膜组分。接下来,通过以100.000g超离心40秒将剩余的细胞碎片和膜旋转下来。将上清液加载到在缓冲液A(25mMTris pH8、200mM NaCl、10mM咪唑、10%蔗糖和0.06%DDM)中平衡的5mL HisTrap柱上。用>10CVs 5%缓冲液B(25mM Tris pH8、200mM NaCl,500mM咪唑,10%蔗糖和0.06%DDM)离子缓冲液A洗涤柱,并用60mL以上的5-100%梯度的缓冲液B洗脱。
将洗脱液稀释2倍,然后在用缓冲液C(25mM Tris pH8、200mM NaCl、10%蔗糖和0.06%DDM)平衡的5mL Strep-tactin柱(IBA GmbH)上加载过夜。用>10CVs缓冲液C洗涤柱,并通过添加2.5mM脱硫生物素洗脱蛋白质。接下来,将500μL双重亲和纯化复合物的峰级分注入到用缓冲液D(25mM Tris pH8、200mM NaCl和0.03%DDM)平衡的Superose 6 10/30(GE医疗集团)上,并以0.5毫升/分钟的速度运行以制备用于电子显微术的样品。基于在280nm下计算的吸光度并假设化学计量比为1/1来确定蛋白质浓度。缓冲液D(25mM Tris pH8、200mM NaCl和0.03%DDM)
当在缓冲液中省略蔗糖并绕过IMAC和尺寸排阻步骤时,体外重组的CsgG-strep纯化与CsgG:CsgF的方案相同。
通过将细胞团重新悬浮于50mM Tris-HCl pH 8.0、200mM NaCl、1mM EDTA、5mMMgCl2、0.4mM AEBSF、1μg/mL亮肽素、0.5mg/mL DNase I和0.1mg/mL溶菌酶中执行体外重组的CsgF-His纯化。使用TS系列细胞粉碎机(常数系统公司)以20kPsi破坏细胞,并将裂解的细胞悬浮液在10.000g下离心30分钟,以去除完整的细胞和细胞碎片。将上清液添加到用缓冲液A(25mM Tris pH8、200mM NaCl,10mM咪唑)平衡的5mL Ni-IMAC-珠(Workbeads 40IDA,生物工程技术公司(Bio-Works Technologies AB))中,并在4℃下温育1小时。Ni-NTA珠汇集在重力流柱中,并用在缓冲液A中稀释的100mL 5%缓冲液B(25mM Tris pH8、200mMNaCl、500mM咪唑)洗涤。通过逐步增加缓冲液B(每5mL 10%步骤)洗脱结合蛋白。
CsgG:CsgF复合物的体外重组
汇集纯化的CsgG和CsgF并用于在体外重组复合物。因此,混合1CsgG:2CsgF的摩尔比以使CsgG桶充满CsgF。接下来,将重组混合物注入到用缓冲液D(25mM Tris pH8、200mMNaCl和0.03%DDM)平衡的Superose 6 10/30柱(GE医疗集团)上,并以0.5毫升/分钟的速度运行以制备用于电子显微术的样品。基于在280nm下计算的吸光度并假设化学计量比为1/1来确定蛋白质浓度。
使用电子显微术进行结构分析
使用负染色电子显微术探测尺寸排阻级分的样品行为。用1%甲酸铀酰对样品进行染色,并使用装配有LaB6细丝的内部120kV JEM 1400(JEOL)显微镜成像。通过将2μL样品点样到R2/1连续碳(2nm)涂覆的网格(Quantifoil公司)上,手动涂抹并使用内部插入装置将其浸入液体乙烷中来制备用于电子冷冻显微术的样品。在内部JEOL JEM 1400上对样品质量进行筛选,之后在装配有Falcon-3直接电子检测相机的200kV TALOS ARCTICA(FEI)显微镜上收集数据集。用MotionCor2.1(Zheng等人,2017)对图像进行运动校正,使用ctffind4(Rohou和Grigorieff,2015)确定散焦值,并使用RELION(Scheres,2012)和EMAN2(Ludtke,2016)的组合进一步分析数据。在3D模型生成和细化期间对以头基的另外密度为特征的选定的2D类平均值施加C9对称性。
为了进行高分辨率cryoEM分析,通过将3μl样品点样在涂覆有氧化石墨烯(西格玛奥德里奇(Sigma Aldrich))的R2/1多孔网格(Quantifoil公司)上,手动涂抹并用CP3柱塞(Gatan公司)将其浸入液体乙烷中来制备用于电子冷冻显微术的CsgG:CsgF样品。在内部JEOL JEM 1400上对样品质量进行筛选,之后在装配有K2 Summit直接电子检测器(Gatan公司)的300kV TITAN KRIOS(FEI,赛默飞世尔科技公司)显微镜上收集数据集。检测器以计数模式使用,其中50帧内的累计电子剂量为每
Figure BDA0003055639270000521
扩展56个电子。收集了2045张像素大小为
Figure BDA0003055639270000522
的图像。用MotionCor2.1(Zheng等人,2017)对图像进行运动校正并使用ctffind4(Rohou和Grigorieff,2015)确定散焦值。使用Gautomatch(Kai Zhang博士)自动挑选粒子,并使用RELION2.0(Kimanius等人,2016,《Elife》5.pii:e18722)和EMAN2(Ludtke,2016)的组合进一步分析数据。在3D模型生成和细化期间对以对应于CsgF的头基的另外密度为特征的选定的2D类平均值施加C9对称性。使用62.000个粒子计算出分辨率为
Figure BDA0003055639270000523
的最终图。通过COOT(Brown等人,2015《结晶学报》D部分:生物分子结晶学(Acta Crystallogr D BiolCrystallogr)71(第1部分):136-53)完成了CsgF的从头模型构建,并且通过PHENIX(Afonine 2018,《结晶学报》D部分:结构生物学(Acta Crystallogr D Struct Biol)74(第6部分):531-544)真实空间细化与COOT组合完成了整个复合物的模型构建和细化的迭代循环。
CsgG:CsgF片段的蛋白质表达和纯化
共表达CsgF片段和CsgG,其中CsgF片段是C末端His标记的,并且CsgG在C末端与Strep标签融合。CsgG:CsgF片段复合物在用质粒pNA97、pNA98、pNA99或pNA100转化的大肠杆菌前10细胞中过表达。培养皿在37℃下生长,并且将菌落重新悬浮于补充有链霉素/孢菌素的LB培养基中。当细胞培养物在600nm下的光密度(OD)达到0.7时,在通过在5500g下离心采集之前,用0.5mM IPTG诱导重组蛋白表达,并保持在28℃下生长15小时。将沉淀物在-20℃下冷冻。
将各种CsgG:CsgF片段共表达的细胞团块重新悬浮于200mL 50mM Tris-HCl pH8.0、200mM NaCl、1mM EDTA、5mM MgCl2、0.4mM AEBSF、1μg/mL亮肽素、0.5mg/mL DNase I和0.1mg/mL溶菌酶中,进行超声处理并与1%正十二烷基-β-d-麦芽糖苷(DDM;英纳克公司)一起温育,以进一步裂解细胞并提取外膜组分。接下来,通过在15.000g下离心40秒使剩余的细胞碎片和膜旋转沉降。将上清液与100μL Strep-tactin珠在室温下一起温育30分钟。通过离心用缓冲液(25mM Tris pH8、200mM NaCl和1%DDM)洗涤Strep珠,并通过在25mM TrispH8、200mM NaCl、0.01%DDM中添加2.5mM脱硫生物素洗脱结合的蛋白质。
通过体外重组产生CsgG:FCP
在0.1M MES、0.5M NaCl、0.4mg/ml EDC(1-乙基-3-(3-二甲基氨基丙基)碳二亚胺)、0.6mg/ml NHS(N-羟基琥珀酰亚胺)缓冲液中将对应于成熟CsgF(SEQ ID NO:6)的N末端34个残基的合成肽稀释至1mg/ml,并在室温下温育15分钟,以允许肽羧基末端活化。接下来,在2小时温育期间添加含1mg/ml Cadaverin-Alexa594的PBS溶液,以使其在室温下共价偶联。使用Zeba Spin过滤器通过缓冲液交换将反应淬火到50mM Tris、NaCl、1mM EDTA、0.1%DDM。
在室温下将标记的肽在15分钟内以2:1摩尔比添加到含链球菌亲和纯化的CsgG的50mM Tris、100mM NaCl、1mM EDTA、5mM LDAO/C8D4溶液中,以重组CsgG:FCP复合物。在StrepTactin珠上下拉CsgG-strep之后,在native-PAGE上分析样品。
实例7:通过共价交联进一步稳定CsgG:CsgF复合物
虽然全长和一些截短形式的CsgF与CsgG孔形成稳定的CsgG:CsgF复合物,但在某些条件下,CsgF仍然可以从CsgG孔的桶区域移出。因此,期望在CsgG与CsgF亚基之间建立共价连接。基于分子模拟研究,已经鉴定出彼此紧密相邻的CsgG和CsgF的位置(实例6和表4)。这些鉴定的位置中的一些位置已被修改为在CsgG和CsgF两者中都并入半胱氨酸。图16示出了在CsgG的Q153位置与CsgF的G1位置之间形成硫醇-硫醇键的实例。用含有G1C突变的CsgF重组含有Q153C突变的CsgG孔,并温育1小时以形成S-S键。当在不存在DTT的情况下将复合物加热到100℃时,可以看到对应于CsgG单体与CsgF单体(CsgGm-CsgFm)之间的二聚体的45kDa带,其指示在这两个单体之间的形成S-S键(CsgGm为30kDa并且CsgFm为15kDa)(图16.A)。当在存在DTT的情况下进行加热时,此带消失。DTT分解S-S键。当CsgG:CsgF复合物温育过夜而不是温育1小时,CsgGm-CsgFm二聚体形成的范围增加(图16.A)。已经进行了质谱法以进一步鉴定二聚体带。凝胶纯化的蛋白质被蛋白水解切割以产生胰蛋白酶肽。执行了LC-MS/MS测序方法,从而鉴定了CsgG的Q153位置与CsgF的G1位置之间的S-S键(图16.B)。可以使用如铜-邻二氮菲等氧化剂来增强S-S键的形成。如方法章节所述,当含有N133C修饰的CsgG孔在存在铜-邻二氮菲的情况下用含有T4C修饰的CsgF重构并且然后通过在不存在DTT的情况下加热到100℃分解成其组成单体时,在SDS-PAGE上可以观察到对应于CsgGm-CsgFm的强二聚体带(图17,泳道3和4)。当在存在DTT的情况下进行加热时,二聚体分解成其组成单体(图17,泳道1和2)。
实例8:CsgG:CsgF复合物的电生理学表征
当孔被插入共聚物膜中并且使用牛津纳米孔技术公司(Oxford NanoporeTechnologies)的MinION进行实验时,可以很好地表征当DNA链通过CsgG易位时观察到的信号(图28)。CsgG的每个亚基的Y51、N55和F56形成CsgG孔的收缩部(图12)。此尖锐的收缩部充当CsgG孔的读取器头(图28A),并且能够准确地区分A、C、G和T穿过孔时的混合序列。这是因为测得的信号含有特性电流偏转,从中可以得出序列的同一性。但是,在DNA的均聚物区域中,测得的信号可能未示出足够大以允许单碱基鉴定的电流偏转;使得不能仅根据测得的信号的大小来准确确定均聚物的长度(图23B和C)。CsgG读取器头的准确度的降低与均聚物区域的长度有关(图26C)。
当CsgF与CsgG孔相互作用以形成CsgG:CsgF复合物时,CsgF在CsgG桶内引入了第二读取器头。此第二读取器头主要由SeqID No.6的N17位置组成。进行了方法章节和图24中所述的静态链实验,以实验式地绘制CsgG:CsgF复合物的两个读取器头,并且结果指示存在彼此间隔开大约5-6个碱基的两个读取器头(图24B、C和D)。CsgG:CsgF复合物的读取器头区分度图显示,由CsgF引入的第二读取器头对碱基区分度的贡献要小于CsgG读取器头(图24A)。出乎意料的是,当第二读取器头由CsgF引入CsgG桶内时,以前平坦的均聚物区域显示出步进式信号(图27的B和C)。这些步骤含有可以用于准确鉴定序列的信息,从而减少错误。与CsgG孔本身的准确性相比,CsgG:CsgF复合物的DNA信号的准确度在更长的均聚物长度上保持相对恒定(图26C)。
以方法章节中描述的方法中的任何方法制备的CsgG:CsgF复合物可以用于表征DNA测序实验中的复合物。穿过由不同的CsgG突变孔和不同长度的CsgF肽组成的不同方法制成的各种CsgG:CsgF复合物的λDNA链的信号在图18-21中示出。这些孔复合物的读取器头区分度和其碱基贡献曲线在图25(A-H)中示出。出乎意料的是,CsgG孔和CsgF肽两者的收缩部处的不同修饰可以显著改变CsgG:CsgF孔复合物的信号。例如,当CsgG:CsgF复合物用相同的CsgG孔但是在(Seq ID No.6的)位置17处用含有Asn或Ser的相同长度的两种不同CsgF肽制成(通过共表达全长CsgF蛋白随后在位置35与36之间对CsgF进行TEV蛋白酶切割的相同方法制成)时,产生的信号彼此不同(图18)。与在CsgF肽的位置17处具有Asn的CsgG:CsgF复合物相比,在CsgF肽的位置17处具有Ser的CsgG:CsgF复合物显示出更低的噪声和更高的信噪比。类似地,当相同的CsgG孔用相同长度的两种不同的CsgF肽(Seq ID No.6的1-35)但是在位置17位处用Ser或Val重组以制备CsgG:CsgF复合物时,在CsgF的位置17处具有Val的复合物显示出比在CsgF的位置17处具有Ser的复合物更嘈杂的信号(图19)。当相同长度的相同CsgF肽用在CsgG读取器头(位置51、55和56)处含有不同突变的不同CsgG孔重组时,得到的CsgG:CsgF复合物显示出非常不同的信号(图20,A-F),具有不同的信噪比(图22)。出乎意料的是,当用相同的CsgG孔重组含有相同收缩区域的不同长度的CsgF肽以制备CsgG:CsgF复合物时,其给出了不同范围的信号(图21)。含有最短CsgF肽(Seq ID No.6的1-29)的CsgG:CsgF复合物显示出最大的范围,并且含有最长CsgF肽(Seq ID No.6的1-45)的CsgG:CsgF复合物显示出最小范围(图21)。
用于表征分析物的材料和方法:
关于结构确定,通过以下所述方法产生的蛋白质可以与通过以上所述方法产生的蛋白质互换使用。
方法
通过共表达表达CsgG:CsgF或CsgG:FCP复合物
在含有氨苄青霉素抗性基因的pT7载体中构建编码CsgG蛋白和其突变体的基因。在含有卡那霉素抗性基因的pRham载体中构建编码CsgF或FCP蛋白和其突变体的基因。在冰上将1μL的两种质粒与50μL的Lemo(DE3)ΔCsgEFG混合10分钟。然后将样品在42℃下加热45秒,然后再放回冰中持续另外5分钟。添加150μL的NEB SOC生长培养基,并将样品在37℃下以250rpm摇动温育1小时。将整个体积铺在含有卡那霉素(40ug/mL)、氨苄青霉素(100ug/mL)和氯霉素(34ug/ml)的琼脂板上,并在37℃下温育过夜。从板中取出单菌落,并接种到100mL含有卡那霉素(40ug/mL)、氨苄青霉素(100ug/mL)和氯霉素(34ug/ml)的LB培养基中,并在37℃下以250rpm振荡温育过夜。将25mL起子培养物添加到500mL含有3mM ATP、15mMMgSO4、卡那霉素(40ug/mL)、氨苄青霉素(100ug/mL)和氯霉素(34ug/ml)的LB培养基中,并在37℃下温育过夜。使培养物生长7小时,这时OD600大于3.0。添加乳糖(1.0%最终浓度)、葡萄糖(0.2%最终浓度)和鼠李糖(2mM最终浓度),并且温度降至18℃,并维持以250rpm振荡持续16小时。将培养物在4℃下以6000rpm离心20分钟。丢弃上清液并保留沉淀物。将细胞储存在-80℃下直到纯化。
具有或不具有C末端Strep标签的CsgG孔以及具有或不具有C末端Strep或His标签的CsgF的表达
在含有氨苄青霉素抗性基因的pT7载体中构建编码所有CsgG蛋白和CsgF或FCP蛋白的所有基因。表达程序与上文相同,除了在所有培养基和缓冲液中均省略了卡那霉素。
细胞裂解(共表达复合物或单个CsgG/CsgF/FCP蛋白)
裂解缓冲液由以下制成:50mM Tris pH 8.0、150mM NaCl、0.1%DDM、1xBugbuster蛋白提取试剂(默克公司(Merck))、2.5μL全能核酸酶(储备液≥250单位/μL)/100mL裂解缓冲液和1片西格玛蛋白酶抑制剂混合物/100mL裂解缓冲液。使用5X体积的裂解缓冲液裂解1X重量的收获细胞。将细胞重新悬浮并在室温下旋转4小时,直到产生均质的裂解物。将裂解物在4℃下以20,000rpm旋转35分钟。小心地提取上清液,并通过0.2uMAcrodisc针筒式滤器进行过滤。
在CsgG含有C末端Strep标签并且CsgF或FCP含有C末端His标签的情况下CsgG或CsgF/FCP蛋白或共表达复合物的Strep纯化
然后将过滤后的样品按以下参数加载到5mL StrepTrap柱上:加载速度:0.8毫升/分钟,完整样品加载:10mL,非结合洗出:10CV(5毫升/分钟),额外洗涤:10CV(5毫升/分钟),洗脱:3CV(5毫升/分钟)。亲和缓冲液:50mL Tris,pH 8.0、150mM NaCl、0.1%DDM;洗涤缓冲液:50mL Tris,pH 8.0、2M NaCl、0.1%DDM;洗脱缓冲液:50mL Tris,pH 8.0、150mM NaCl、0.1%DDM、10mM脱硫生物素。收集洗脱的样品。
在CsgG含有C末端Strep标签并且CsgF或FCP含有C末端His标签的情况下CsgG或CsgF/FCP蛋白或共表达复合物的His纯化
使用与上述相同的参数将来自Strep纯化(在复合物的情况下)的过滤样品或汇集的洗脱峰加载到5mL HisTrap柱上,除了使用以下缓冲液:亲和和洗涤缓冲液:50mL Tris,pH 8.0、150mM NaCl、0.1%DDM、25mM咪唑;洗脱:50mL Tris,pH 8.0、150mM NaCl、0.1%DDM、350mM咪唑;洗脱峰,在30kDa MWCO默克公司Milipore离心装置中浓缩至500uL。
用体内纯化的组分在体外形成复合物。
将分别表达和纯化的CsgG和CsgF/FCP蛋白以各种比例混合以鉴定正确的比例,但是总是在过量的CsgF条件下。然后将复合物在25℃下温育过夜。为了从缓冲液中去除过量的CsgF和DTT,将混合物再次注射到在50mM Tris,pH 8.0、150mM NaCl、0.1%DDM中平衡的Superdex Increase 200 10/300上。复合物通常在9与10mL之间在此柱上洗脱。
复合物的凝胶过滤抛光步骤(共表达或体外制备)
如有必要,可以通过凝胶过滤对Strep纯化的或His纯化的或His然后是Strep纯化的CsgG:CsgF或CsgG:FCP进行进一步的抛光。将500μL的样品注射到1mL的样品环中,并注射在50mM Tris,pH 8.0、150mM NaCl、0.1%DDM中平衡的Superdex Increase 200 10/300上。当以1毫升/分钟运行时,与复合物相关的峰通常在9与10mL之间在此柱上洗脱。将样品在60℃下加热15分钟,并以21,000rcf离心10分钟。摄取上清液以进行测试。对样品进行SDS-PAGE以确定和鉴定用复合物洗脱的级分。
在TEV蛋白酶位点切割CsgF或FCP
如果CsgF或FCP含有TEV切割位点,则将具有C末端组氨酸标签的TEV蛋白酶添加到具有2mM DTT的样品中(添加量根据蛋白质复合物的粗略浓度确定)。样品在滚筒混合器上以25rpm的速度在4℃下温育过夜。然后混合物通过5mL HisTrap柱流回,并且收集通过的流体。任何未经切割的蛋白质将保持与柱的结合,并且经切割的蛋白质将洗脱。使用与上述His纯化相同的缓冲液和参数以及最终的加热步骤。
用体内纯化的CsgG孔和合成FCP纯化CsgG:FCP复合物
从金斯瑞公司(Genscript)和Lifetein公司获得冻干的FCP肽。将1mg的肽溶解在1mL无核酸酶的ddH2O中,以获得1mg/mL样品。对样品进行涡流处理直到没有肽可见。由于CsgG孔和突变体的表达水平不同,因此很难准确测量浓度。可以使用蛋白质带在SDS-PAGE上相对于已知标记的强度获得样品的粗略估计。然后将CsgG和FCP以大约1:50的摩尔比混合,并在25℃下以700rpm温育过夜。将样品在60℃下加热15分钟,并以21,000rcf离心10分钟。摄取上清液以进行测试。如果需要,复合物可以如以上在共表达中详细描述的那样纯化。
纯化含有半胱氨酸突变体的CsgG:CsgF或CsgG:FCP
如果除了His和Strep纯化中的亲和、洗涤和洗脱缓冲液的组合以及凝胶过滤中使用的缓冲液之外,任何一种或两种组分含有半胱氨酸,则可以使用与上文相同的程序来纯化CsgG:CsgF或CsgG:FCP复合物(具有以下I或II或III)。为了纯化半胱氨酸突变体,所有这些缓冲液都应含有2mM DTT。当含有半胱氨酸的合成肽溶解在ddH2O中时,还添加了2mMDTT。
I.CsgG和CsgF或FCP的共表达
II.用体内纯化的单独组分在体外制备CsgG:CsgF或CsgG:FCP复合物
III.用体内纯化的CsgG和合成的FCP在体外制备CsgG:CsgF或CsgG:FCP复合物
Cys键形成的确定
从最终洗脱液中分离出两个各自50μL的试管。在其中一个试管中,添加2mM DTT作为还原剂,并且在另一个试管中,添加100μM的Cu(II):1-10邻二氮菲(33mM:100mM)作为氧化剂。将样品与含有4%SDS的Laemmli缓冲液1:1混合。一半样品在100℃下热处理10分钟(变性条件),一半样品未经处理,然后在TGS缓冲液中在4-20%TGX凝胶(Bio-rad标准)上运行。
偶联体外转录和翻译(IVTT)
所有蛋白质都是使用大肠杆菌T7-S30环状DNA提取系统(普洛麦格公司)通过偶联体外转录和翻译(IVTT)产生的。完整的1mM氨基酸混合物减去半胱氨酸和完整的1mM氨基酸混合物减去甲硫氨酸以等体积混合,以获得产生高浓度蛋白质所需的工作氨基酸溶液。将氨基酸(10uL)与预混液(40uL)、[35S]L-甲硫氨酸(2uL,1175Ci/mmol,10mCi/mL)、质粒DNA(16uL,400ng/uL)和T7 S30提取物(30uL)以及利福平(2uL,20mg/mL)混合,以产生100μLIVTT蛋白反应。在30℃下进行合成持续4小时,然后在室温下温育过夜。如果在共表达中制备CsgG:CsgF或CsgG:FCP复合物,则等量混合编码每种组分的质粒DNA,并将一部分混合物(16uL)用于IVTT。温育后,将试管在22000g下离心10分钟,丢弃上清液。重新悬浮所得沉淀物并在MBSA(10mM MOPS、1mg/ml BSA pH7.4)中洗涤,并在相同条件下再次离心。将存在于沉淀物中的蛋白质重新悬浮于1X Laemmli样品缓冲液中,并在300V下在4-20%TGX凝胶中运行25分钟。然后将凝胶干燥并暴露于
Figure BDA0003055639270000571
MR膜过夜。然后处理膜并观察凝胶中的蛋白质。
用于在MinION中测试的样品
测试前,将所有样品在室温下与Brij58(最终浓度为0.1%)一起温育10分钟,然后补足孔插入所需的后续孔稀释液。
用于制备和运行静态链的方法
通过整合DNA技术(IDT)获得一组polyA DNA链(图24的SS20到SS38),其中DNA主链(iSpc3)中缺少一个碱基。这些链的每条链的3'端还包括生物素修饰。将静态链与单价链霉亲和素在室温下温育20分钟,从而使生物素与链霉亲和素结合。将链霉亲和素-静态链复合物在25mM HEPES、430mM KCl、30mM ATP、30mM MgCl2、2.15mM EDTA、pH8(称为RBFM)中稀释至500nM(图24的B)和2uM(图24的C)。每个静态链产生的剩余电流都记录在MinION装置中。按照标准运行方案冲洗MinIOn流通池,然后以1分钟的静态微跳开始测序方案。在添加150μL的第一链霉亲和素-静态链复合物之前,生成最初10分钟的开孔记录。10分钟后,将800μL的RBFM通过流通池冲洗,然后添加下一个链霉亲和素-静态链复合物。对所有链霉亲和素-静态链重复此过程。一旦最终的链霉亲和素-静态链复合物已经在流动池上温育,将800μL的RBFM通过流动池冲洗,并且在完成实验之前生成10分钟的开孔记录。
用于区分度曲线图的方法
读取器头区分度曲线示出了当每个读取器头位置处的碱基发生变化时建模电流的平均变化。为了计算具有长度为n的字母的长度为k的模型在位置i处的读取器头区分度,将读取器头位置i处的区分度定义为大小为n的nk-1组中的每一组的电流电平的标准偏差的中值,其中位置i是变化的,而其它位置保持不变。
实例9:孔复合物模型
分子建模是预测分析物与纳米孔相互作用的强大且准确的手段,并已广泛用于纳米孔感测领域。其对于预测蛋白质组分和/或分析物之间的几何形状和距离特别有用。分子建模已用于准确预测纳米孔复合物中的多核苷酸的最大区分度位置。在本领域中已知的是,最接近纳米孔的收缩区域的最窄点的多核苷酸中的碱基是最大程度地改变流经通道的电流的碱基,并且因此在收缩区域处达到最大区分度。通过将轮廓建模(使用HOLE)与通过通道延伸的多核苷酸的建模组合,能够准确地预测多核苷酸中的哪些碱基将最大程度地改变流经孔的电流。
图33-45示出了由在不同的示例跨膜蛋白纳米孔与辅助蛋白之间形成的孔复合物产生的分子建模结果。跨膜蛋白纳米孔MspA、α-溶血素(αHL)和CsgG单独地用环形辅助蛋白CsgF肽(图33)、GroES(图34、37、40、43)、正五聚蛋白(图36、39、42、45)和SP1(图35、38、41、44)中的每一种进行建模。CsgG被进一步建模为具有CsgF和环形辅助蛋白的三组分孔复合物(图43-45)。
图33-45的部分A)示出了通过孔复合物的通道延伸的单链DNA的建模。部分B)示出了使用HOLE映射软件生成的通道的内部几何轮廓。部分C)示出了由HOLE软件生成的沿孔复合物的z轴的通道内半径的曲线。添加了标记纳米孔和辅助蛋白两者中的主要收缩部的虚线以帮助查看。根据本公开,针对每种孔复合物的建模证明了跨膜蛋白纳米孔和辅助蛋白对齐以形成包括至少两个收缩区域的连续通道。
建模能够根据收缩部的半径以及收缩点之间的核苷酸距离预测区分的程度。虽然难以确定多核苷酸在孔复合物的通道中的确切配位,因为其取决于酶运动在孔复合物顶部的位置和施加的电压(其影响多核苷酸的伸展),但是建模很好地预测了区分度峰之间的相对核苷酸距离。CsgG+CsgF肽复合物的建模预测了与CsgG和CsgF肽读取器的区分度最大值之间的距离为约5-6个核苷酸(图33),这由完全组装复合物中的DNA区分度的实验电学测量结果证实(图24-25)。
方法:
MspA、αHL、CsgG、GroES、正五聚蛋白和SP1的结构摘自蛋白质数据库(如上文参考附图说明所述的蛋白质数据库参考文献)。CsgG/CsgF结构独立获得。通过将每种辅助蛋白放置在每个孔的顶部使得蛋白质之间的距离最小化来进行建模。
使用可公开获得的软件HOLE(http://www.holeprogram.org/)生成孔半径曲线,以通过孔/辅助蛋白组合中的每一种绘制孔半径。
使用来自HOLE软件的输出以及分子可视化包VMD(https://www.ks.uiuc.edu/ Research/vmd/)生成通过孔/辅助蛋白组合的连续通道的可视化,以显示通过每个孔/辅助蛋白的通道。
序列
序列说明:
SEQ ID NO:1示出了来自菌株K12的野生型大肠杆菌CsgG的多核苷酸序列,包含信号序列(基因ID:945619)。
SEQ ID NO:2示出了野生型大肠杆菌CsgG的氨基酸序列,包含信号序列(Uniprot登录号P0AEA2)。
SEQ ID NO:3示出了作为成熟蛋白质的野生型大肠杆菌CsgG的氨基酸序列(Uniprot登录号P0AEA2)。
SEQ ID NO:4示出了来自菌株K12的野生型大肠杆菌CsgF的多核苷酸序列,包含信号序列(基因ID:945622)。
SEQ ID NO:5示出了野生型大肠杆菌CsgF的氨基酸序列,包含信号序列(Uniprot登录号P0AE98)。
SEQ ID NO:6示出了作为成熟蛋白质的野生型大肠杆菌CsgF的氨基酸序列(Uniprot登录号P0AE98)。
SEQ ID NO:7示出了野生型大肠杆菌CsgF的片段的多核苷酸序列,其对氨基酸1到27和C末端6His标签进行编码。
SEQ ID NO:8示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸1到27和C末端6His标签。
SEQ ID NO:9示出了野生型大肠杆菌CsgF的片段的多核苷酸序列,其对氨基酸1到38和C末端6His标签进行编码。
SEQ ID NO:10示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸1到38和C末端6His标签。
SEQ ID NO:11示出了野生型大肠杆菌CsgF的片段的多核苷酸序列,其对氨基酸1到48和C末端6His标签进行编码。
SEQ ID NO:12示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸1到48和C末端6His标签。
SEQ ID NO:13示出了野生型大肠杆菌CsgF的片段的多核苷酸序列,其对氨基酸1到64和C末端6His标签进行编码。
SEQ ID NO:14示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸1到64和C末端6His标签。
SEQ ID NO:15示出了对应于大肠杆菌CsgF的残基20到53的肽的氨基酸序列。
SEQ ID NO:16示出了对应于大肠杆菌CsgF的残基20到42的肽的氨基酸序列,包含其C末端处的KD。
SEQ ID NO:17示出了对应于CsgF同源物Q88H88的残基23到55的肽的氨基酸序列。
SEQ ID NO:18示出了对应于CsgF同源物A0A143HJA0的残基25到57的肽的氨基酸序列。
SEQ ID NO:19示出了对应于CsgF同源物Q5E245的残基21到53的肽的氨基酸序列。
SEQ ID NO:20示出了对应于CsgF同源物Q084E5的残基19到51的肽的氨基酸序列。
SEQ ID NO:21示出了对应于CsgF同源物F0LZU2的残基15到47的肽的氨基酸序列。
SEQ ID NO:22示出了对应于CsgF同源物A0A136HQR0的残基26到58的肽的氨基酸序列。
SEQ ID NO:23示出了对应于CsgF同源物A0A0W1SRL3的残基21到53的肽的氨基酸序列。
SEQ ID NO:24示出了对应于CsgF同源物B0UH01的残基26到59的肽的氨基酸序列。
SEQ ID NO:25示出了对应于CsgF同源物Q6NAU5的残基22到53的肽的氨基酸序列。
SEQ ID NO:26示出了对应于CsgF同源物G8PUY5的残基7到38的肽的氨基酸序列。
SEQ ID NO:27示出了对应于CsgF同源物A0A0S2ETP7的残基25到57的肽的氨基酸序列。
SEQ ID NO:28示出了对应于CsgF同源物E3I1Z1的残基19到51的肽的氨基酸序列。
SEQ ID NO:29示出了对应于CsgF同源物F3Z094的残基24到55的肽的氨基酸序列。
SEQ ID NO:30示出了对应于CsgF同源物A0A176T7M2的残基21到53的肽的氨基酸序列。
SEQ ID NO:31示出了对应于CsgF同源物D2QPP8的残基14到45的肽的氨基酸序列。
SEQ ID NO:32示出了对应于CsgF同源物N2IYT1的残基28到58的肽的氨基酸序列。
SEQ ID NO:33示出了对应于CsgF同源物W7QHV5的残基26到58的肽的氨基酸序列。
SEQ ID NO:34示出了对应于CsgF同源物D4ZLW2的残基23到55的肽的氨基酸序列。
SEQ ID NO:35示出了对应于CsgF同源物D2QT92的残基21到53的肽的氨基酸序列。
SEQ ID NO:36示出了对应于CsgF同源物A0A167UJA2的残基20到51的肽的氨基酸序列。
SEQ ID NO:37示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸20到27。
SEQ ID NO:38示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸20到38。
SEQ ID NO:39:示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸20到48。
SEQ ID NO:40示出了野生型大肠杆菌CsgF的片段的氨基酸序列,其涵盖氨基酸20到64。
SEQ ID NO:41示出了引物CsgF_d27_端的核苷酸序列。
SEQ ID NO:42示出了引物CsgF_d38_端的核苷酸序列。
SEQ ID NO:43示出了引物CsgF_d48_端的核苷酸序列。
SEQ ID NO:44示出了引物CsgF_d64_端的核苷酸序列。
SEQ ID NO:45示出了引物pNa62_CsgF_histag_Fw的核苷酸序列。
SEQ ID NO:46示出了引物CsgF-His_pET22b_FW的核苷酸序列。
SEQ ID NO:47示出了引物CsgF-His_pET22b_Rev的核苷酸序列。
SEQ ID NO:48示出了引物csgEFG_pDONR221_FW的核苷酸序列。
SEQ ID NO:49示出了引物csgEFG_pDONR221_Rev的核苷酸序列。
SEQ ID NO:50示出了引物Mut_csgF_His_FW的核苷酸序列。
SEQ ID NO:51示出了引物Mut_csgF_His_Rev的核苷酸序列。
SEQ ID NO:52示出了引物DelCsgE_Rev的核苷酸序列。
SEQ ID NO:53示出了引物DelCsgE FW的核苷酸序列。
SEQ ID NO:54示出了成熟大肠杆菌CsgF的残基1到30的氨基酸序列。
SEQ ID NO:55示出了成熟大肠杆菌CsgF的残基1到35的氨基酸序列。
SEQ ID NO:56示出了具有信号序列的突变的(T4C/N17S)CsgF序列的氨基酸序列,以及插入在成熟蛋白质的序列的残基35与36之间的TEV蛋白酶切割位点(ENLYFQS)。
SEQ ID NO:57示出了具有信号序列的突变的(N17S-Del)CsgF序列的氨基酸序列,以及插入在成熟蛋白质的序列的残基35与36之间的TEV蛋白酶切割位点(ENLYFQS)。
SEQ ID NO:58示出了具有信号序列的突变的(G1C/N17S)CsgF序列的氨基酸序列,以及插入在成熟蛋白质的序列的残基35与36之间的TEV蛋白酶切割位点(ENLYFQS)。
SEQ ID NO:59示出了具有信号序列的突变的(G1C)CsgF序列的氨基酸序列,以及插入在成熟蛋白质的序列的残基35与36之间的TEV蛋白酶切割位点(ENLYFQS)。
SEQ ID NO:60示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基45与46之间的TEV蛋白酶切割位点(ENLYFQS)以及C末端处的His10标签。
SEQ ID NO:61示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基35与36之间的TEV蛋白酶切割位点(ENLYFQS)以及C末端处的His10标签。
SEQ ID NO:62示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基30与31之间的TEV蛋白酶切割位点(ENLYFQS)以及C末端处的His10标签。
SEQ ID NO:63示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基45与51之间的TEV蛋白酶切割位点(ENLYFQS)以及C末端处的His10标签。
SEQ ID NO:64示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基30与37之间的TEV蛋白酶切割位点(ENLYFQS)以及C末端处的His10标签。
SEQ ID NO:65示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基34与36之间的HCV C3蛋白酶切割位点(LEVLFQGP)以及C末端处的His10标签。
SEQ ID NO:66示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基42与43之间的HCV C3蛋白酶切割位点(LEVLFQGP)以及C末端处的His10标签。
SEQ ID NO:67示出了具有信号序列的CsgF序列的氨基酸序列、插入在成熟蛋白质的序列的残基38与47之间的HCV C3蛋白酶切割位点(LEVLFQGP)以及C末端处的His10标签。
SEQ ID NO:68示出了假定蛋白CKO_02032[柯氏柠檬酸杆菌(Citrobacterkoseri)ATCC BAA-895]的YP_001453594.1:1-248的氨基酸序列,其与SEQ ID NO:3具有99%的同一性。
SEQ ID NO:69示出了卷曲产生组装/转运组分CsgG、部分[肠道沙门氏菌(Salmonella enterica)]的WP_001787128.1:16-238的氨基酸序列,其与SEQ ID NO:3具有98%的同一性。
SEQ ID NO:70示出了卷曲产生组装/转运蛋白CsgG[无丙二酸柠檬酸杆菌属(Citrobacter amalonaticus)]的KEY44978.1|:16-277的氨基酸序列,其与SEQ ID NO:3具有98%的同一性。
SEQ ID NO:71示出了卷曲产生组装/转运组分[鼠柠檬酸杆菌(Citrobacterrodentium)ICC168]的YP_003364699.1:16-277的氨基酸序列,其与SEQ ID NO:3具有97%的同一性。
SEQ ID NO:72示出了卷曲产生组装/转运组分CsgG[阿氏肠杆菌(Enterobacterasburiae)LF7a]的YP_004828099.1:16-277的氨基酸序列,其与SEQ ID NO:3具有94%的同一性。
SEQ ID NO:73示出了转运体[雷金斯堡约克氏菌(Yokenella regensburgei)]的WP_006819418.1:19-280的氨基酸序列,其与SEQ ID NO:3具有91%的同一性。
SEQ ID NO:74示出了卷曲产生组装/转运蛋白CsgG[粉末克罗诺杆菌(Cronobacter pulveris)]的WP_024556654.1:16-277的氨基酸序列,其与SEQ ID NO:3具有89%的同一性。
SEQ ID NO:75示出了卷曲产生组装/转运蛋白CsgG[水生拉恩氏菌(Rahnellaaquatilis)HX2]的YP_005400916.1:16-277的氨基酸序列,其与SEQ ID NO:3具有84%的同一性。
SEQ ID NO:76示出了CsgG家族卷曲产生组装/转运组分[抗坏血酸克吕沃菌(Kluyvera ascorbata)ATCC 33433]的KFC99297.1:20-278的氨基酸序列,其与SEQ ID NO:3具有82%的同一性。
SEQ ID NO:77示出了CsgG家族卷曲产生组装/转运组分[蜂房哈夫尼亚菌(Hafniaalvei)ATCC 13337]的KFC86716.1|:16-274的氨基酸序列,其与SEQ ID NO:3具有81%的同一性。
SEQ ID NO:78示出了涉及形成卷曲聚合物的未表征蛋白质[肠杆菌科细菌菌株FGI 57]的YP_007340845.1|:16-270的氨基酸序列,其与SEQ ID NO:3具有76%的同一性。
SEQ ID NO:79示出了卷曲产生组装/转运蛋白CsgG[类志贺邻单胞菌(Plesiomonas shigelloides)]的WP_010861740.1:17-274的氨基酸序列,其与SEQ ID NO:3具有70%的同一性。
SEQ ID NO:80示出了卷曲产生组装/转运外膜脂蛋白组分CsgG[费氏弧菌(Vibriofischeri)ES114]的YP_205788.1:23-270的氨基酸序列,其与SEQ ID NO:3具有60%的同一性。
SEQ ID NO:81示出了卷曲产生组装蛋白CsgG[火神另类弧菌(Aliivibriologei)]的WP_017023479.1:23-270的氨基酸序列,其与SEQ ID NO:3具有59%的同一性。
SEQ ID NO:82示出了卷曲产生组装/转运组分CsgG[发光杆菌属(Photobacteriumsp.)AK15]的WP_007470398.1:22-275的氨基酸序列,其与SEQ ID NO:3具有57%的同一性。
SEQ ID NO:83示出了卷曲产生组装蛋白CsgG[维氏气单胞菌(Aeromonasveronii)]的WP_021231638.1:17-277的氨基酸序列,其与SEQ ID NO:3具有56%的同一性。
SEQ ID NO:84示出了卷曲产生组装/转运蛋白CsgG[希瓦氏菌属(Shewanellasp.)ECSMB14101]的WP_033538267.1:27-265的氨基酸序列,其与SEQ ID NO:3具有56%的同一性。
SEQ ID NO:85示出了卷曲产生组装蛋白CsgG[恶臭假单胞菌(Pseudomonasputida)]的WP_003247972.1:30-262的氨基酸序列,其与SEQ ID NO:3具有54%的同一性。
SEQ ID NO:86示出了卷曲产生组装/转运组分CsgG[堇色希瓦氏菌(Shewanellaviolacea)DSS12]的YP_003557438.1:1-234的氨基酸序列,其与SEQ ID NO:3具有53%的同一性。
SEQ ID NO:87示出了卷曲产生组装/转运蛋白CsgG[詹氏海杆菌(Marinobacterium jannaschii)]的WP_027859066.1:36-280的氨基酸序列,其与SEQ IDNO:3具有53%的同一性。
SEQ ID NO:88示出了卷曲产生组装/转运组分CsgG[奥兰校园金黄杆菌(Chryseobacterium oranimense)G311]的CEJ70222.1:29-262的氨基酸序列,其与SEQ IDNO:3具有50%的同一性。
SEQ ID NO:89示出了编码Pro-CP1-Eco-(WT-Y51A/F56Q/D149N/E185N/E201N/E203N-StrepII(C)))的DNA序列。
SEQ ID NO:90示出了编码Pro-CP1-Eco-(WT-Y51A/F56Q/D149N/E185N/E201N/E203N-StrepII(C)))的DNA序列。
SEQ ID NO:1(>P0AEA2;来自大肠杆菌K12的WT CsgG的编码序列)
ATGCAGCGCTTATTTCTTTTGGTTGCCGTCATGTTACTGAGCGGATGCTTAACCGCCCCGCCTAAAGAAGCCGCCAGACCGACATTAATGCCTCGTGCTCAGAGCTACAAAGATTTGACCCATCTGCCAGCGCCGACGGGTAAAATCTTTGTTTCGGTATACAACATTCAGGACGAAACCGGGCAATTTAAACCCTACCCGGCAAGTAACTTCTCCACTGCTGTTCCGCAAAGCGCCACGGCAATGCTGGTCACGGCACTGAAAGATTCTCGCTGGTTTATACCGCTGGAGCGCCAGGGCTTACAAAACCTGCTTAACGAGCGCAAGATTATTCGTGCGGCACAAGAAAACGGCACGGTTGCCATTAATAACCGAATCCCGCTGCAATCTTTAACGGCGGCAAATATCATGGTTGAAGGTTCGATTATCGGTTATGAAAGCAACGTCAAATCTGGCGGGGTTGGGGCAAGATATTTTGGCATCGGTGCCGACACGCAATACCAGCTCGATCAGATTGCCGTGAACCTGCGCGTCGTCAATGTGAGTACCGGCGAGATCCTTTCTTCGGTGAACACCAGTAAGACGATACTTTCCTATGAAGTTCAGGCCGGGGTTTTCCGCTTTATTGACTACCAGCGCTTGCTTGAAGGGGAAGTGGGTTACACCTCGAACGAACCTGTTATGCTGTGCCTGATGTCGGCTATCGAAACAGGGGTCATTTTCCTGATTAATGATGGTATCGACCGTGGTCTGTGGGATTTGCAAAATAAAGCAGAACGGCAGAATGACATTCTGGTGAAATACCGCCATATGTCGGTTCCACCGGAATCCTGA
SEQ ID NO:2(>P0AEA2(1:277);来自大肠杆菌K12的WT前原CsgG)
MQRLFLLVAVMLLSGCLTAPPKEAARPTLMPRAQSYKDLTHLPAPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAINNRIPLQSLTAANIMVEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEVGYTSNEPVMLCLMSAIETGVIFLINDGIDRGLWDLQNKAERQNDILVKYRHMSVPPES
SEQ ID NO:3(>P0AEA2(16:277);来自大肠杆菌K12的成熟CsgG)
CLTAPPKEAARPTLMPRAQSYKDLTHLPAPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAINNRIPLQSLTAANIMVEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEVGYTSNEPVMLCLMSAIETGVIFLINDGIDRGLWDLQNKAERQNDILVKYRHMSVPPES
SEQ ID NO:4(>P0AE98;来自大肠杆菌K12的WT CsgF的编码序列)
ATGCGTGTCAAACATGCAGTAGTTCTACTCATGCTTATTTCGCCATTAAGTTGGGCTGGAACCATGACTTTCCAGTTCCGTAATCCAAACTTTGGTGGTAACCCAAATAATGGCGCTTTTTTATTAAATAGCGCTCAGGCCCAAAACTCTTATAAAGATCCGAGCTATAACGATGACTTTGGTATTGAAACACCCTCAGCGTTAGATAACTTTACTCAGGCCATCCAGTCACAAATTTTAGGTGGGCTACTGTCGAATATTAATACCGGTAAACCGGGCCGCATGGTGACCAACGATTATATTGTCGATATTGCCAACCGCGATGGTCAATTGCAGTTGAACGTGACAGATCGTAAAACCGGACAAACCTCGACCATCCAGGTTTCGGGTTTACAAAATAACTCAACCGATTTT
SEQ ID NO:5(>P0AE98(1:138);来自大肠杆菌K12的WT前CsgF)
MRVKHAVVLLMLISPLSWAGTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDPSYNDDFGIETPSALDNFTQAIQSQILGGLLSNINTGKPGRMVTNDYIVDIANRDGQLQLNVTDRKTGQTSTIQVSGLQNNSTDF
SEQ ID NO:6(>P0AE98(20:138);来自大肠杆菌K12的WT成熟CsgF)
GTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDPSYNDDFGIETPSALDNFTQAIQSQILGGLLSNINTGKPGRMVTNDYIVDIANRDGQLQLNVTDRKTGQTSTIQVSGLQNNSTDF
SEQ ID NO:7(>P0AE98;CsgF 1:27_6His的编码序列)
ATGCGTGTCAAACATGCAGTAGTTCTACTCATGCTTATTTCGCCATTAAGTTGGGCTGGAACCATGACTTTCCAGTTCCGTCATCACCATCACCATCACTAAGCCC
SEQ ID NO:8(>P0AE98(1:28);CsgF 20:27_6His的前蛋白)
MRVKHAVVLLMLISPLSWA GTMTFQFR HHHHHH
SEQ ID NO:9(>P0AE98;CsgF 1:38_6His的编码序列)
ATGCGTGTCAAACATGCAGTAGTTCTACTCATGCTTATTTCGCCATTAAGTTGGGCTGGAACCATGACTTTCCAGTTCCGTAATCCAAACTTTGGTGGTAACCCAAATAATGGCCATCACCATCACCATCACTAAGCCC
SEQ ID NO:10(>P0AE98(1:39);CsgF 20:38_6His的前蛋白)
MRVKHAVVLLMLISPLSWAGTMTFQFRNPNFGGNPNNG HHHHHH
SEQ ID NO:11(>P0AE98;CsgF 1:48_6His的编码序列)
ATGCGTGTCAAACATGCAGTAGTTCTACTCATGCTTATTTCGCCATTAAGTTGGGCTGGAACCATGACTTTCCAGTTCCGTAATCCAAACTTTGGTGGTAACCCAAATAATGGCGCTTTTTTATTAAATAGCGCTCAGGCCCAACATCACCATCACCATCACTAAGCCC
SEQ ID NO:12(>P0AE98(1:49);CsgF 20:48_6His的前蛋白)
MRVKHAVVLLMLISPLSWAGTMTFQFRNPNFGGNPNNGAFLLNSAQAQ HHHHHH
SEQ ID NO:13(>P0AE98;CsgF 1:64_6His的编码序列)
ATGCGTGTCAAACATGCAGTAGTTCTACTCATGCTTATTTCGCCATTAAGTTGGGCTGGAACCATGACTTTCCAGTTCCGTAATCCAAACTTTGGTGGTAACCCAAATAATGGCGCTTTTTTATTAAATAGCGCTCAGGCCCAAAACTCTTATAAAGATCCGAGCTATAACGATGACTTTGGTATTGAAACACATCACCATCACCATCACTAAGCCC
SEQ ID NO:14(>P0AE98(1:65);CsgF 20:64_6His的前蛋白)
MRVKHAVVLLMLISPLSWAGTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDPSYNDDFGIETHHHHHH
SEQ ID NO:15(>P0AE98(20:53);CsgF 20:53的成熟肽)
GTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKD
SEQ ID NO:16(>P0AE98(20:42);CsgF 20:42+KD的成熟肽)
GTMTFQFRNPNFGGNPNNGAFLLKD
SEQ ID NO:17(>Q88H88_PSEPK(23:55))
TELVYTPVNPAFGGNPLNGTWLLNNAQAQNDY
SEQ ID NO:18(>A0A143HJA0_9GAMM(25:57))
TELIYEPVNPNFGGNPLNGSYLLNNAQAQDRH
SEQ ID NO:19(>Q5E245_VIBF1(21:53))
SELVYTPVNPNFGGNPLNTSHLFGGANAINDY
SEQ ID NO:20(>Q084E5_SHEFN(19:51))
TQLVYTPVNPAFGGSYLNGSYLLANASAQNEH
SEQ ID NO:21(>F0LZU2_VIBFN(15:47))
SSLVYEPVNPTFGGNPLNTTHLFSRAEAINDY
SEQ ID NO:22(>A0A136HQR0_9ALTE(26:58))
TELVYEPINPSFGGNPLNGSFLLSKANSQNAH
SEQ ID NO:23(>A0A0W1SRL3_9GAMM(21:53))
TEIVYQPINPSFGGNPMNGSFLLQKAQSQNAH
SEQ ID NO:24(>B0UH01_METS4(26:59))
SSLVYQPVNPAFGGPQLNGSWLQAEANAQNIPQ
SEQ ID NO:25(>Q6NAU5_RHOPA(22:53))
GSLVYTPTNPAFGGSPLNGSWQMQQATAGNH
SEQ ID NO:26(>G8PUY5_PSEUV(7:38))
QQLIYQPTNPSFGGYAANTTHLFATANAQKTA
SEQ ID NO:27(>A0A0S2ETP7_9RHIZ(25:57))
GDLVYTPVNPSFGGSPLNSAHLLSIAGAQKNA
SEQ ID NO:28(>E3I1Z1_RHOVT(19:51))
AELGYTPVNPSFGGSPLNGSTLLSEASAQKPN
SEQ ID NO:29(>F3Z094_DESAF(24:55))
TELVFSFTNPSFGGDPMIGNFLLNKADSQKR
SEQ ID NO:30(>A0A176T7M2_9FLAO(21:53))
QQLVYKSINPFFGGGDSFAYQQLLASANAQND
SEQ ID NO:31(>D2QPP8_SPILD(14:45))
QALVYHPNNPAFGGNTFNYQWMLSSAQAQDR
SEQ ID NO:32(>N2IYT1_9PSED(26:58))
TELVYTPKNPAFGGSPLNGSYLLGNAQAQNDY
SEQ ID NO:33(>W7QHV5_9GAMM(26:58))
GQLIYQPINPSFGGDPLLGNHLLNKAQAQDTK
SEQ ID NO:34(>D4ZLW2_SHEVD(23:55))
TQLIYTPVNPNFGGSYLNGSYLLANASVQNDH
SEQ ID NO:35(>D2QT92_SPILD(21:53))
QAFVYHPNNPNFGGNTFNYSWMLSSAQAQDRT
SEQ ID NO:36(>A0A167UJA2_9FLAO(20:51))
QGLIYKPKNPAFGGDTFNYQWLASSAESQNK
SEQ ID NO:37(>P0AE98(20:28);CsgF 20:27的成熟肽)
GTMTFQFR
SEQ ID NO:38(>P0AE98(20:39);CsgF 20:38的成熟肽)
GTMTFQFRNPNFGGNPNNG
SEQ ID NO:39(>P0AE98(20:49);CsgF 20:48的成熟肽)
GTMTFQFRNPNFGGNPNNGAFLLNSAQAQ
SEQ ID NO:40(>P0AE98(20:65);CsgF 20:64的成熟肽)
GTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDPSYNDDFGIET
SEQ ID NO:41(CsgF_d27_端)
ACGGAACTGGAAAGTCATGGTTCC
SEQ ID NO:42(CsgF_d38_端)
GCCATTATTTGGGTTACCACCAAAGTTTGG
SEQ ID NO:43(CsgF_d48_端)
TTGGGCCTGAGCGCTATTTAATAAAAAAGC
SEQ ID NO:44(CsgF_d64_端)
TGTTTCAATACCAAAGTCATCGTTATAGCTCGG
SEQ ID NO:45(pNa62_CsgF_histag_Fw)
CATCACCATCACCATCACTAAGCCC
SEQ ID NO:46(CsgF-His_pET22b_FW)
CCCCCATATGGGAACCATGACTTTCCAGTTCC
SEQ ID NO:47:(CsgF-His_pET22b_Rev)
CCCCGAATTCCTAATGGTGATGGTGATGGTGGTAAAAATCGGTTGAGTTATTTTG
SEQ ID NO:48:(csgEFG_pDONR221_FW)
GGGGACAAGTTTGTACAAAAAAGCAGGCTACCTCAGGCGATAAAGCCATGAAACGTTA
SEQ ID NO:49:(csgEFG_pDONR221_Rev)
GGGGACCACTTTGTACAAGAAAGCTGGGTGTTTAAACTCATTTTTCGAACTGCGGGTGGCTCCAAGCGCTGG
SEQ ID NO:50:(Mut_csgF_His_FW)
CAAAATAACTCAACCGATTTTCATCACCATCACCATCACTAAGCCCCAGCTTCATAAGG
SEQ ID NO:51:(Mut_csgF_His_Rev)
CCTTATGAAGCTGGGGCTTAGTGATGGTGATGGTGATGAAAATCGGTTGAGTTATTTTG
SEQ ID NO:52:(DelCsgE_Rev)
AGCCTGCTTTTTTGTACAAAC
SEQ ID NO:53:(DelCsgE FW)
ATAAAAAATTGTTCGGAGGCTGC
SEQ ID NO:54(>P0AE98(20:50);CsgF 1:30的成熟肽)
GTMTFQFRNPNFGGNPNNGAFLLNSAQAQN
SEQ ID NO:55(>P0AE98(20:54);CsgF 1:35的成熟肽)
GTMTFQFRNPNFGGNPNNGAFLLNSAQAQNSYKDP
蛋白酶切割位点制成蛋白质的CsgF序列的实例。信号肽以粗体示出,TEV蛋白酶切割位点以粗体和下划线示出,并且HCV C3蛋白酶切割位点以下划线示出。StrepII指示C末端处的Strep标签,H10指示C末端处的10x组氨酸标签,并且**指示STOP密码子。
SEQ ID NO:56Pro-CsgF-Eco-(WT-T4C/N17S/P35-TEV-S36)-StrepII
Figure BDA0003055639270000661
SEQ ID NO:57Pro-CsgF-Eco-(WT-N17S-Del(P35-[TEV]-S36)-StrepII
Figure BDA0003055639270000662
SEQ ID NO:58Pro-CsgF-Eco-(WT-G1C/N17S/P35-[TEV]-S36)-StrepII
Figure BDA0003055639270000663
SEQ ID NO:59Pro-CsgF-Eco-(WT-G1C/P35-[TEV]-S36)-StrepII
Figure BDA0003055639270000664
SEQ ID NO:60 Pro-CsgF-Eco-(WT-T45-TEV-P46)-H10
Figure BDA0003055639270000671
SEQ ID NO:61 Pro-CsgF-Eco-(WT-P35-TEV-S36)-H10
Figure BDA0003055639270000672
SEQ ID NO:62 Pro-CsgF-Eco-(WT-N30-TEV-S31)-H10
Figure BDA0003055639270000673
SEQ ID NO:63 Pro-CsgF-Eco-(WT-T45-TEV-F51)-H10
Figure BDA0003055639270000674
SEQ ID NO:64 Pro-CsgF-Eco-(WT-N30-TEV-Y37)-H10
Figure BDA0003055639270000675
SEQ ID NO:65 Pro-CsgF-Eco-(WT-D34-[C3]-S36)
Figure BDA0003055639270000676
SEQ ID NO:66 Pro-CsgF-Eco-(WT-I42-[C3]-E43)
Figure BDA0003055639270000677
SEQ ID NO:67 Pro-CsgF-Eco-(WT-N38-[C3]-S47)
Figure BDA0003055639270000678
SEQ ID NO:68
MPRAQSYKDLTHLPMPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAINNRIPLQSLTAANIMVEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEIGYTSNEPVMLCLMSAIETGVIFLINDGIDRGLWDLQNKAERQNDILVKYRHMSVPPES
SEQ ID NO:69
CLTAPPKQAAKPTLMPRAQSYKDLTHLPAPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAMNNRIPLQSLTAANIMVEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEIGYTSNEPVMLCLMSAIETG
SEQ ID NO:70
CLTAPPKEAAKPTLMPRAQSYKDLTHLPIPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFVPLERQGLQNLLNERKIIRAAQENGTVAINNRIPLQSLTAANIMVEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEIGYTSNEPVMLCLMSAIETGVIFLINDGIDRGLWDLQNKADRQNDILVKYRHMSVPPES
SEQ ID NO:71
CLTTPPKEAAKPTLMPRAQSYKDLTHLPVPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAINNRIPLPSLTAANIMVEGSIIGYESNVKSGGAGARYFGIGADTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEIGYTSNEPVMLCLMSAIETGVIFLINDGIDRGLWDLQNKADRQNDILVKYRQMSVPPES
SEQ ID NO:72
CLTAPPKEAAKPTLMPRAQSYRDLTHLPAPTGKIFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSHWFIPLERQGLQNLLNERKIIRAAQENGTVANNNRMPLQSLAAANVMIEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEVLSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEIGYTSNEPVMMCLMSAIETGVIFLINDGIDRGLWDLQNKADAQNPVLVKYRDMSVPPES
SEQ ID NO:73
CLTAPPKEAAKPTLMPRAQSYRDLTHLPLPSGKVFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVTALKDSRWFVPLERQGLQNLLNERKIIRAAQENGTVADNNRIPLQSLTAANVMIEGSIIGYESNVKSGGVGARYFGIGADTQYQLDQIAVNLRVVNVSTGEVLSSVNTSKTILSYEVQAGVFRFVDYQRLLEGEIGYTSNEPVMLCLMSAIETGVIYLINDGIERGLWDLQQKADVDNPILARYRNMSAPPES
SEQ ID NO:74
CLTAPPKEAAKPTLMPRAQSYRDLTNLPDPKGKLFVSVYNIQDETGQFKPYPASNFSTAVPQSATSMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAENNRMPLQSLVAANVMIEGSIIGYESNVKSGGVGARYFGIGGDTQYQLDQIAVNLRVVNVSTGEVLSSVNTSKTILSYEVQAGVFRFIDYQRLLEGEIGYTANEPVMLCLMSAIETGVIHLINDGINRGLWELKNKGDAKNTILAKYRSMAVPPES
SEQ ID NO:75
CLTAAPKEAARPTLLPRAPSYTDLTHLPSPQGRIFVSVYNIQDETGQFKPYPACNFSTAVPQSATAMLVSALKDSKWFIPLERQGLQNLLNERKIIRAAQENGSVAINNQRPLSSLVAANILIEGSIIGYESNVKSGGVGARYFGIGASTQYQLDQIAVNLRAVDVNTGEVLSSVNTSKTILSYEVQAGVFRFIDYQRLLEGELGYTTNEPVMLCLMSAIESGVIYLVNDGIERNLWQLQNPSEINSPILQRYKNNIVPAES
SEQ ID NO:76
CITSPPKQAAKPTLLPRSQSYQDLTHLPEPQGRLFVSVYNISDETGQFKPYPASNFSTSVPQSATAMLVSALKDSNWFIPLERQGLQNLLNERKIIRAAQENGTVAVNNRTQLPSLVAANILIEGSIIGYESNVKSGGAGARYFGIGASTQYQLDQIAVNLRVVNVSTGEVLSSVNTSKTILSYEFQAGVFRYIDYQRLLEGEVGYTVNEPVMLCLMSAIETGVIYLVNDGISRNLWQLKNASDINSPVLEKYKSIIVP
SEQ ID NO:77
CLTAPPKQAAKPTLMPRAQSYQDLTHLPEPAGKLFVSVYNIQDETGQFKPYPASNFSTAVPQSATAMLVSALKDSGWFIPLERQGLQNLLNERKIIRAAQENGTAAVNNQHQLSSLVAANVLVEGSIIGYESNVKSGGAGARFFGIGASTQYQLDQIAVNLRVVDVNTGQVLSSVNTSKTILSYEVQAGVFRYIDYQRLLEGEIGYTTNEPVMLCVMSAIETGVIYLVNDGINRNLWTLKNPQDAKSSVLERYKSTIVP
SEQ ID NO:78
CITTPPQEAAKPTLLPRDATYKDLVSLPQPRGKIYVAVYNIQDETGQFQPYPASNFSTSVPQSATAMLVSSLKDSRWFVPLERQGLNNLLNERKIIRAAQQNGTVGDNNASPLPSLYSANVIVEGSIIGYASNVKTGGFGARYFGIGGSTQYQLDQVAVNLRIVNVHTGEVLSSVNTSKTILSYEIQAGVFRFIDYQRLLEGEAGFTTNEPVMTCLMSAIEEGVIHLINDGINKKLWALSNAADINSEVLTRYRK
SEQ ID NO:79
ITEVPKEAAKPTLMPRASTYKDLVALPKPNGKIIVSVYSVQDETGQFKPLPASNFSTAVPQSGNAMLTSALKDSGWFVPLEREGLQNLLNERKIIRAAQENGTVAANNQQPLPSLLSANVVIEGAIIGYDSDIKTGGAGARYFGIGADGKYRVDQVAVNLRAVDVRTGEVLLSVNTSKTILSSELSAGVFRFIEYQRLLELEAGYTTNEPVMMCMMSALEAGVAHLIVEGIRQNLWSLQNPSDINNPIIQRYMKEDVP
SEQ ID NO:80
PETSESPTLMQRGANYIDLISLPKPQGKIFVSVYDFRDQTGQYKPQPNSNFSTAVPQGGTALLTMALLDSEWFYPLERQGLQNLLTERKIIRAAQKKQESISNHGSTLPSLLSANVMIEGGIVAYDSNIKTGGAGARYLGIGGSGQYRADQVTVNIRAVDVRSGKILTSVTTSKTILSYEVSAGAFRFVDYKELLEVELGYTNNEPVNIALMSAIDSAVIHLIVKGVQQGLWRPANLDTRNNPIFKKY
SEQ ID NO:81
PDASESPTLMQRGATYLDLISLPKPQGKIYVSVYDFRDQTGQYKPQPNSNFSTAVPQGGTALLTMALLDSEWFYPLERQGLQNLLTERKIIRAAQKKQESISNHGSTLPSLLSANVMIEGGIVAYDSNIKTGGAGARYLGIGGSGQYRADQVTVNIRAVDVRSGKILTSVTTSKTILSYELSAGAFRFVDYKELLEVELGYTNNEPVNIALMSAIDSAVIHLIVKGIEEGLWRPENQNGKENPIFRKY
SEQ ID NO:82
PETSKEPTLMARGTAYQDLVSLPLPKGKVYVSVYDFRDQTGQYKPQPNSNFSTAVPQGGAALLTTALLDSRWFMPLEREGLQNLLTERKIIRAAQKKDEIPTNHGVHLPSLASANIMVEGGIVAYDTNIQTGGAGARYLGVGASGQYRTDQVTVNIRAVDVRTGRILLSVTTSKTILSKELQTGVFKFVDYKDLLEAELGYTTNEPVNLAVMSAIDAAVVHVIVDGIKTGLWEPLRGEDLQHPIIQEYMNRSKP
SEQ ID NO:83
CATHIGSPVADEKATLMPRSVSYKELISLPKPKGKIVAAVYDFRDQTGQYLPAPASNFSTAVTQGGVAMLSTALWDSQWFVPLEREGLQNLLTERKIVRAAQNKPNVPGNNANQLPSLVAANILIEGGIVAYDSNVRTGGAGAKYFGIGASGEYRVDQVTVNLRAVDIRSGRILNSVTTSKTVMSQQVQAGVFRFVEYKRLLEAEAGFSTNEPVQMCVMSAIESGVIRLIANGVRDNLWQLADQRDIDNPILQEYLQDNAP
SEQ ID NO:84
ASSSLMPKGESYYDLINLPAPQGVMLAAVYDFRDQTGQYKPIPSSNFSTAVPQSGTAFLAQALNDSSWFIPVEREGLQNLLTERKIVRAGLKGDANKLPQLNSAQILMEGGIVAYDTNVRTGGAGARYLGIGAATQFRVDTVTVNLRAVDIRTGRLLSSVTTTKSILSKEITAGVFKFIDAQELLESELGYTSNEPVSLCVASAIESAVVHMIADGIWKGAWNLADQASGLRSPVLQKY
SEQ ID NO:85
QDSETPTLTPRASTYYDLINMPRPKGRLMAVVYGFRDQTGQYKPTPASSFSTSVTQGAASMLMDALSASGWFVVLEREGLQNLLTERKIIRASQKKPDVAENIMGELPPLQAANLMLEGGIIAYDTNVRSGGEGARYLGIDISREYRVDQVTVNLRAVDVRTGQVLANVMTSKTIYSVGRSAGVFKFIEFKKLLEAEVGYTTNEPAQLCVLSAIESAVGHLLAQGIEQRLWQV
SEQ ID NO:86
MPKSDTYYDLIGLPHPQGSMLAAVYDFRDQTGQYKAIPSSNFSTAVPQSGTAFLAQALNDSSWFVPVEREGLQNLLTERKIVRAGLKGEANQLPQLSSAQILMEGGIVAYDTNIKTGGAGARYLGIGVNSKFRVDTVTVNLRAVDIRTGRLLSSVTTTKSILSKEVSAGVFKFIDAQDLLESELGYTSNEPVSLCVAQAIESAVVHMIADGIWKRAWNLADTASGLNNPVLQKY
SEQ ID NO:87
LTRRMSTYQDLIDMPAPRGKIVTAVYSFRDQSGQYKPAPSSSFSTAVTQGAAAMLVNVLNDSGWFIPLEREGLQNILTERKIIRAALKKDNVPVNNSAGLPSLLAANIMLEGGIVGYDSNIHTGGAGARYFGIGASEKYRVDEVTVNLRAIDIRTGRILHSVLTSKKILSREIRSDVYRFIEFKHLLEMEAGITTNDPAQLCVLSAIESAVAHLIVDGVIKKSWSLADPNELNSPVIQAYQQQRI
SEQ ID NO:88
PSDPERSTMGELTPSTAELRNLPLPNEKIVIGVYKFRDQTGQYKPSENGNNWSTAVPQGTTTILIKALEDSRWFIPIERENIANLLNERQIIRSTRQEYMKDADKNSQSLPPLLYAGILLEGGVISYDSNTMTGGFGARYFGIGASTQYRQDRITIYLRAVSTLNGEILKTVYTSKTILSTSVNGSFFRYIDTERLLEAEVGLTQNEPVQLAVTEAIEKAVRSLIIEGTRDKIW
SEQ ID NO:89(编码Pro-CP1-Eco-(WT-Y51A/F56Q/D149N/E185N/E201N/E203N-StrepII(C))的DNA序列)
ATGCAGCGTCTGTTTCTGCTGGTCGCGGTGATGCTGCTGAGCGGTTGTCTGACCGCACCGCCGAAAGAAGCGGCACGTCCGACCCTGATGCCGCGTGCACAGAGCTATAAAGATCTGACCCATCTGCCGGCTCCGACGGGCAAAATCTTCGTTTCTGTCTACAACATCCAGGACGAAACCGGTCAATTTAAACCAGCTCCTGCGTCAAATCAATCGACTGCCGTTCCGCAGTCAGCAACCGCTATGCTGGTCACGGCACTGAAAGATTCGCGTTGGTTCATTCCGCTGGAACGCCAGGGCCTGCAAAACCTGCTGAATGAACGTAAAATTATCCGCGCAGCTCAGGAAAACGGTACCGTGGCCATTAACAATCGCATCCCGCTGCAAAGTCTGACGGCGGCCAACATCATGGTTGAAGGCTCCATTATCGGTTATGAAAGCAATGTCAAATCTGGCGGTGTGGGCGCACGTTATTTCGGCATTGGTGCTAATACCCAGTACCAACTGGACCAGATCGCAGTTAACCTGCGCGTGGTTAATGTCAGCACCGGCGAAATTCTGAGCTCTGTGAATACCAGTAAAACGATCCTGTCCTACAACGTGCAGGCTGGTGTTTTTCGTTTCATTGATTATCAACGCCTGCTGAATGGCAACGTCGGTTACACCAGCAACGAACCGGTGATGCTGTGTCTGATGTCTGCGATTGAAACGGGTGTTATTTTTCTGATCAATGATGGCATCGACCGTGGTCTGTGGGATCTGCAGAACAAAGCGGAACGTCAAAATGACATTCTGGTGAAATACCGCCACATGTCAGTTCCGCCGGAAAGTTCCGCATGGAGCCACCCGCAGTTCGAAAAA
SEQ ID NO:90(Pro-CP1-Eco-(WT-Y51A/F56Q/D149N/E185N/E201N/E203N-StrepII(C))的氨基酸序列)
MQRLFLLVAVMLLSGCLTAPPKEAARPTLMPRAQSYKDLTHLPAPTGKIFVSVYNIQDETGQFKPAPASNQSTAVPQSATAMLVTALKDSRWFIPLERQGLQNLLNERKIIRAAQENGTVAINNRIPLQSLTAANIMVEGSIIGYESNVKSGGVGARYFGIGANTQYQLDQIAVNLRVVNVSTGEILSSVNTSKTILSYNVQAGVFRFIDYQRLLNGNVGYTSNEPVMLCLMSAIETGVIFLINDGIDRGLWDLQNKAERQNDILVKYRHMSVPPESSAWSHPQFEK
参考文献
Chin JW.、Martin AB.、King DS.、Wang L.、Schultz PG.(2002)将光交联氨基酸添加到大肠杆菌的遗传密码中(Addition of a photocrosslinking amino acid to thegenetic code of Escherichia coli)《美国国家科学院院刊(Proc Nat Acad Sci USA)》99(17):11020-11024。
Goyal P、Van Gerven N、Jonckheere W、Remaut H.(2013)卷曲转运体CsgG的结晶和初步X射线晶体学分析(Crystallization and preliminary X-ray crystallographicanalysis of the curli transporter CsgG)《结晶学报》F部分:结构生物学与晶体通信(Acta Crystallogr Sect F Struct Biol Cryst Commun)69(Pt 12):1349-53。
Goyal P、Krasteva PV、Van Gerven N、Gubellini F、Van den Broeck I、
Figure BDA0003055639270000721
A、Jonckheere W、Péhau-Arnaudet G、Pinkner JS、Chapman MR、HultgrenSJ、Howorka S、Fronzes R、Remaut H.(2014)对细菌淀粉样蛋白分泌通道CsgG的结构和机制见解(Structural and mechanistic insights into the bacterial amyloidsecretion channel CsgG)《自然(Nature)》516(7530):250-3。
Hammar M、Arnqvist A、Bian Z、Olsén A、Normark S.(1995)在大肠杆菌K-12中产生纤连蛋白结合和刚果红结合卷曲聚合物需要表达两个csg操纵子(Expression of twocsg operons is required for production of fibronectin-and congo red-bindingcurli polymers in Escherichia coli K-12)《分子微生物学(Mol Microbiol.)》18(4):661-70。
Juncker AS、Willenbrock H、Von Heijne G、Brunak S、Nielsen H、Krogh A.(2003)对革兰氏阴性细菌中脂蛋白信号肽的预测(Prediction of lipoprotein signalpeptides in Gram-negative bacteria)《蛋白质科学(Protein Sci.)》12(8):1652-62。
Ludtke SJ.2016,EMAN2.1中的单粒子细化和变异性分析(Single-particlerefinement and variability analysis in EMAN2.1)《酶学方法(Methods Enzymol.)》579:159-89。
Rohou A和Grigorieff N 2015,CTFFIND4:通过电子显微照片快速准确地估计散焦(Fast and accurate defocus estimation from electron micrographs)《结构生物学杂志(J Struct Biol.)》192(2):216-21。
Robinson LS、Ashman EM、Hultgren SJ、Chapman MR.(2006)卷曲纤维亚基的分泌由外膜局部CsgG蛋白介导(Secretion of curli fibre subunits is mediated by theouter membrane-localized CsgG protein)《分子微生物学》59,870–881。
Scheres 2012,RELION:实施贝叶斯方法进行cryo-EM结构确定(RELION:implementation of a Bayesian approach to cryo-EM structure determination)《结构生物学杂志》180(3):519-30。
Wang A.、Winblade Nairn N.、Marelli M.、Grabstein K.(2012)非天然氨基酸的蛋白质工程(Protein Engineering with Non-Natural Amino Acids)《蛋白质工程(Protein Engineering)》,Pravin Kaumaya教授(编辑),InTech,DOI:10.5772/28719。
Zheng SQ.、Palovcak E.、Armache J-P.、Verba KA.、Cheng Y.、Agard DA.(2017)MotionCor2:光束诱导的各向异性校正(MotionCor2:anisotropic correction of beam-induced)
序列表
<110> 牛津纳米孔科技公司(OXFORD NANOPORE TECHNOLOGIES LIMITED)
<120> 孔
<130> N415139WO
<150> GB1818216.2
<151> 2018-11-08
<150> GB1819054.6
<151> 2018-11-22
<160> 112
<170> PatentIn版本3.5
<210> 1
<211> 834
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AEA2;来自大肠杆菌K12的WT CsgG的编码序列
<400> 1
atgcagcgct tatttctttt ggttgccgtc atgttactga gcggatgctt aaccgccccg 60
cctaaagaag ccgccagacc gacattaatg cctcgtgctc agagctacaa agatttgacc 120
catctgccag cgccgacggg taaaatcttt gtttcggtat acaacattca ggacgaaacc 180
gggcaattta aaccctaccc ggcaagtaac ttctccactg ctgttccgca aagcgccacg 240
gcaatgctgg tcacggcact gaaagattct cgctggttta taccgctgga gcgccagggc 300
ttacaaaacc tgcttaacga gcgcaagatt attcgtgcgg cacaagaaaa cggcacggtt 360
gccattaata accgaatccc gctgcaatct ttaacggcgg caaatatcat ggttgaaggt 420
tcgattatcg gttatgaaag caacgtcaaa tctggcgggg ttggggcaag atattttggc 480
atcggtgccg acacgcaata ccagctcgat cagattgccg tgaacctgcg cgtcgtcaat 540
gtgagtaccg gcgagatcct ttcttcggtg aacaccagta agacgatact ttcctatgaa 600
gttcaggccg gggttttccg ctttattgac taccagcgct tgcttgaagg ggaagtgggt 660
tacacctcga acgaacctgt tatgctgtgc ctgatgtcgg ctatcgaaac aggggtcatt 720
ttcctgatta atgatggtat cgaccgtggt ctgtgggatt tgcaaaataa agcagaacgg 780
cagaatgaca ttctggtgaa ataccgccat atgtcggttc caccggaatc ctga 834
<210> 2
<211> 277
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AEA2(1:277);来自大肠杆菌K12的WT前原CsgG
<400> 2
Met Gln Arg Leu Phe Leu Leu Val Ala Val Met Leu Leu Ser Gly Cys
1 5 10 15
Leu Thr Ala Pro Pro Lys Glu Ala Ala Arg Pro Thr Leu Met Pro Arg
20 25 30
Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Ala Pro Thr Gly Lys
35 40 45
Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe Lys
50 55 60
Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala Thr
65 70 75 80
Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Ile Pro Leu
85 90 95
Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile Arg
100 105 110
Ala Ala Gln Glu Asn Gly Thr Val Ala Ile Asn Asn Arg Ile Pro Leu
115 120 125
Gln Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser Ile Ile Gly
130 135 140
Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe Gly
145 150 155 160
Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn Leu
165 170 175
Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser Val Asn Thr
180 185 190
Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg Phe
195 200 205
Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Val Gly Tyr Thr Ser Asn
210 215 220
Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val Ile
225 230 235 240
Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp Leu Gln Asn
245 250 255
Lys Ala Glu Arg Gln Asn Asp Ile Leu Val Lys Tyr Arg His Met Ser
260 265 270
Val Pro Pro Glu Ser
275
<210> 3
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AEA2(16:277);来自大肠杆菌K12的成熟CsgG
<400> 3
Cys Leu Thr Ala Pro Pro Lys Glu Ala Ala Arg Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Ala Pro Thr Gly
20 25 30
Lys Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Ile Asn Asn Arg Ile Pro
100 105 110
Leu Gln Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Val Gly Tyr Thr Ser
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp Leu Gln
225 230 235 240
Asn Lys Ala Glu Arg Gln Asn Asp Ile Leu Val Lys Tyr Arg His Met
245 250 255
Ser Val Pro Pro Glu Ser
260
<210> 4
<211> 414
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98;来自大肠杆菌K12的WT CsgF的编码序列
<400> 4
atgcgtgtca aacatgcagt agttctactc atgcttattt cgccattaag ttgggctgga 60
accatgactt tccagttccg taatccaaac tttggtggta acccaaataa tggcgctttt 120
ttattaaata gcgctcaggc ccaaaactct tataaagatc cgagctataa cgatgacttt 180
ggtattgaaa caccctcagc gttagataac tttactcagg ccatccagtc acaaatttta 240
ggtgggctac tgtcgaatat taataccggt aaaccgggcc gcatggtgac caacgattat 300
attgtcgata ttgccaaccg cgatggtcaa ttgcagttga acgtgacaga tcgtaaaacc 360
ggacaaacct cgaccatcca ggtttcgggt ttacaaaata actcaaccga tttt 414
<210> 5
<211> 138
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(1:138);来自大肠杆菌K12的WT前CsgF
<400> 5
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Glu Thr
50 55 60
Pro Ser Ala Leu Asp Asn Phe Thr Gln Ala Ile Gln Ser Gln Ile Leu
65 70 75 80
Gly Gly Leu Leu Ser Asn Ile Asn Thr Gly Lys Pro Gly Arg Met Val
85 90 95
Thr Asn Asp Tyr Ile Val Asp Ile Ala Asn Arg Asp Gly Gln Leu Gln
100 105 110
Leu Asn Val Thr Asp Arg Lys Thr Gly Gln Thr Ser Thr Ile Gln Val
115 120 125
Ser Gly Leu Gln Asn Asn Ser Thr Asp Phe
130 135
<210> 6
<211> 119
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:138);来自大肠杆菌K12的WT成熟CsgF
<400> 6
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln Asn Ser Tyr
20 25 30
Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala
35 40 45
Leu Asp Asn Phe Thr Gln Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu
50 55 60
Leu Ser Asn Ile Asn Thr Gly Lys Pro Gly Arg Met Val Thr Asn Asp
65 70 75 80
Tyr Ile Val Asp Ile Ala Asn Arg Asp Gly Gln Leu Gln Leu Asn Val
85 90 95
Thr Asp Arg Lys Thr Gly Gln Thr Ser Thr Ile Gln Val Ser Gly Leu
100 105 110
Gln Asn Asn Ser Thr Asp Phe
115
<210> 7
<211> 106
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98;CsgF 1:27_6His的编码序列
<400> 7
atgcgtgtca aacatgcagt agttctactc atgcttattt cgccattaag ttgggctgga 60
accatgactt tccagttccg tcatcaccat caccatcact aagccc 106
<210> 8
<211> 33
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(1:28);CsgF 20:27_6His的前蛋白
<400> 8
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg His His His His His
20 25 30
His
<210> 9
<211> 139
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98;CsgF 1:38_6His的编码序列
<400> 9
atgcgtgtca aacatgcagt agttctactc atgcttattt cgccattaag ttgggctgga 60
accatgactt tccagttccg taatccaaac tttggtggta acccaaataa tggccatcac 120
catcaccatc actaagccc 139
<210> 10
<211> 44
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(1:39);CsgF 20:38_6His的前蛋白
<400> 10
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly His His His His His His
35 40
<210> 11
<211> 169
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98;CsgF 1:48_6His的编码序列
<400> 11
atgcgtgtca aacatgcagt agttctactc atgcttattt cgccattaag ttgggctgga 60
accatgactt tccagttccg taatccaaac tttggtggta acccaaataa tggcgctttt 120
ttattaaata gcgctcaggc ccaacatcac catcaccatc actaagccc 169
<210> 12
<211> 54
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(1:49);CsgF 20:48_6His的前蛋白
<400> 12
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
His His His His His His
50
<210> 13
<211> 217
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98;CsgF 1:64_6His的编码序列
<400> 13
atgcgtgtca aacatgcagt agttctactc atgcttattt cgccattaag ttgggctgga 60
accatgactt tccagttccg taatccaaac tttggtggta acccaaataa tggcgctttt 120
ttattaaata gcgctcaggc ccaaaactct tataaagatc cgagctataa cgatgacttt 180
ggtattgaaa cacatcacca tcaccatcac taagccc 217
<210> 14
<211> 70
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(1:65);CsgF 20:64_6His的前蛋白
<400> 14
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Glu Thr
50 55 60
His His His His His His
65 70
<210> 15
<211> 34
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:53);CsgF 20:53的成熟肽
<400> 15
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln Asn Ser Tyr
20 25 30
Lys Asp
<210> 16
<211> 25
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:42);CsgF 20:42+KD的成熟肽
<400> 16
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Lys Asp
20 25
<210> 17
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Q88H88_PSEPK (23:55)
<400> 17
Thr Glu Leu Val Tyr Thr Pro Val Asn Pro Ala Phe Gly Gly Asn Pro
1 5 10 15
Leu Asn Gly Thr Trp Leu Leu Asn Asn Ala Gln Ala Gln Asn Asp Tyr
20 25 30
<210> 18
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> A0A143HJA0_9GAMM (25:57)
<400> 18
Thr Glu Leu Ile Tyr Glu Pro Val Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Leu Asn Gly Ser Tyr Leu Leu Asn Asn Ala Gln Ala Gln Asp Arg His
20 25 30
<210> 19
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Q5E245_VIBF1 (21:53)
<400> 19
Ser Glu Leu Val Tyr Thr Pro Val Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Leu Asn Thr Ser His Leu Phe Gly Gly Ala Asn Ala Ile Asn Asp Tyr
20 25 30
<210> 20
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Q084E5_SHEFN (19:51)
<400> 20
Thr Gln Leu Val Tyr Thr Pro Val Asn Pro Ala Phe Gly Gly Ser Tyr
1 5 10 15
Leu Asn Gly Ser Tyr Leu Leu Ala Asn Ala Ser Ala Gln Asn Glu His
20 25 30
<210> 21
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> F0LZU2_VIBFN (15:47)
<400> 21
Ser Ser Leu Val Tyr Glu Pro Val Asn Pro Thr Phe Gly Gly Asn Pro
1 5 10 15
Leu Asn Thr Thr His Leu Phe Ser Arg Ala Glu Ala Ile Asn Asp Tyr
20 25 30
<210> 22
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> A0A136HQR0_9ALTE (26:58)
<400> 22
Thr Glu Leu Val Tyr Glu Pro Ile Asn Pro Ser Phe Gly Gly Asn Pro
1 5 10 15
Leu Asn Gly Ser Phe Leu Leu Ser Lys Ala Asn Ser Gln Asn Ala His
20 25 30
<210> 23
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> A0A0W1SRL3_9GAMM (21:53)
<400> 23
Thr Glu Ile Val Tyr Gln Pro Ile Asn Pro Ser Phe Gly Gly Asn Pro
1 5 10 15
Met Asn Gly Ser Phe Leu Leu Gln Lys Ala Gln Ser Gln Asn Ala His
20 25 30
<210> 24
<211> 33
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> B0UH01_METS4 (26:59)
<400> 24
Ser Ser Leu Val Tyr Gln Pro Val Asn Pro Ala Phe Gly Gly Pro Gln
1 5 10 15
Leu Asn Gly Ser Trp Leu Gln Ala Glu Ala Asn Ala Gln Asn Ile Pro
20 25 30
Gln
<210> 25
<211> 31
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Q6NAU5_RHOPA (22:53)
<400> 25
Gly Ser Leu Val Tyr Thr Pro Thr Asn Pro Ala Phe Gly Gly Ser Pro
1 5 10 15
Leu Asn Gly Ser Trp Gln Met Gln Gln Ala Thr Ala Gly Asn His
20 25 30
<210> 26
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> G8PUY5_PSEUV (7:38)
<400> 26
Gln Gln Leu Ile Tyr Gln Pro Thr Asn Pro Ser Phe Gly Gly Tyr Ala
1 5 10 15
Ala Asn Thr Thr His Leu Phe Ala Thr Ala Asn Ala Gln Lys Thr Ala
20 25 30
<210> 27
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> A0A0S2ETP7_9RHIZ (25:57)
<400> 27
Gly Asp Leu Val Tyr Thr Pro Val Asn Pro Ser Phe Gly Gly Ser Pro
1 5 10 15
Leu Asn Ser Ala His Leu Leu Ser Ile Ala Gly Ala Gln Lys Asn Ala
20 25 30
<210> 28
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> E3I1Z1_RHOVT (19:51)
<400> 28
Ala Glu Leu Gly Tyr Thr Pro Val Asn Pro Ser Phe Gly Gly Ser Pro
1 5 10 15
Leu Asn Gly Ser Thr Leu Leu Ser Glu Ala Ser Ala Gln Lys Pro Asn
20 25 30
<210> 29
<211> 31
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> F3Z094_DESAF (24:55)
<400> 29
Thr Glu Leu Val Phe Ser Phe Thr Asn Pro Ser Phe Gly Gly Asp Pro
1 5 10 15
Met Ile Gly Asn Phe Leu Leu Asn Lys Ala Asp Ser Gln Lys Arg
20 25 30
<210> 30
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> A0A176T7M2_9FLAO (21:53)
<400> 30
Gln Gln Leu Val Tyr Lys Ser Ile Asn Pro Phe Phe Gly Gly Gly Asp
1 5 10 15
Ser Phe Ala Tyr Gln Gln Leu Leu Ala Ser Ala Asn Ala Gln Asn Asp
20 25 30
<210> 31
<211> 31
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> D2QPP8_SPILD (14:45)
<400> 31
Gln Ala Leu Val Tyr His Pro Asn Asn Pro Ala Phe Gly Gly Asn Thr
1 5 10 15
Phe Asn Tyr Gln Trp Met Leu Ser Ser Ala Gln Ala Gln Asp Arg
20 25 30
<210> 32
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> N2IYT1_9PSED (26:58)
<400> 32
Thr Glu Leu Val Tyr Thr Pro Lys Asn Pro Ala Phe Gly Gly Ser Pro
1 5 10 15
Leu Asn Gly Ser Tyr Leu Leu Gly Asn Ala Gln Ala Gln Asn Asp Tyr
20 25 30
<210> 33
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> W7QHV5_9GAMM (26:58)
<400> 33
Gly Gln Leu Ile Tyr Gln Pro Ile Asn Pro Ser Phe Gly Gly Asp Pro
1 5 10 15
Leu Leu Gly Asn His Leu Leu Asn Lys Ala Gln Ala Gln Asp Thr Lys
20 25 30
<210> 34
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> D4ZLW2_SHEVD (23:55)
<400> 34
Thr Gln Leu Ile Tyr Thr Pro Val Asn Pro Asn Phe Gly Gly Ser Tyr
1 5 10 15
Leu Asn Gly Ser Tyr Leu Leu Ala Asn Ala Ser Val Gln Asn Asp His
20 25 30
<210> 35
<211> 32
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> D2QT92_SPILD (21:53)
<400> 35
Gln Ala Phe Val Tyr His Pro Asn Asn Pro Asn Phe Gly Gly Asn Thr
1 5 10 15
Phe Asn Tyr Ser Trp Met Leu Ser Ser Ala Gln Ala Gln Asp Arg Thr
20 25 30
<210> 36
<211> 31
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> A0A167UJA2_9FLAO (20:51)
<400> 36
Gln Gly Leu Ile Tyr Lys Pro Lys Asn Pro Ala Phe Gly Gly Asp Thr
1 5 10 15
Phe Asn Tyr Gln Trp Leu Ala Ser Ser Ala Glu Ser Gln Asn Lys
20 25 30
<210> 37
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:28);CsgF 20:27的成熟肽
<400> 37
Gly Thr Met Thr Phe Gln Phe Arg
1 5
<210> 38
<211> 19
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:39);CsgF 20:38的成熟肽
<400> 38
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly
<210> 39
<211> 29
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:49);CsgF 20:48的成熟肽
<400> 39
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
20 25
<210> 40
<211> 45
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:65);CsgF 20:64的成熟肽
<400> 40
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln Asn Ser Tyr
20 25 30
Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Glu Thr
35 40 45
<210> 41
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物CsgF_d27_端
<400> 41
acggaactgg aaagtcatgg ttcc 24
<210> 42
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物CsgF_d38_端
<400> 42
gccattattt gggttaccac caaagtttgg 30
<210> 43
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物CsgF_d48_端
<400> 43
ttgggcctga gcgctattta ataaaaaagc 30
<210> 44
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物CsgF_d64_端
<400> 44
tgtttcaata ccaaagtcat cgttatagct cgg 33
<210> 45
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物pNa62_CsgF_histag_Fw
<400> 45
catcaccatc accatcacta agccc 25
<210> 46
<211> 32
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物CsgF-His_pET22b_FW
<400> 46
cccccatatg ggaaccatga ctttccagtt cc 32
<210> 47
<211> 55
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物CsgF-His_pET22b_Rev
<400> 47
ccccgaattc ctaatggtga tggtgatggt ggtaaaaatc ggttgagtta ttttg 55
<210> 48
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物csgEFG_pDONR221_FW
<400> 48
ggggacaagt ttgtacaaaa aagcaggcta cctcaggcga taaagccatg aaacgtta 58
<210> 49
<211> 72
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物csgEFG_pDONR221_Rev
<400> 49
ggggaccact ttgtacaaga aagctgggtg tttaaactca tttttcgaac tgcgggtggc 60
tccaagcgct gg 72
<210> 50
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物Mut_csgF_His_FW
<400> 50
caaaataact caaccgattt tcatcaccat caccatcact aagccccagc ttcataagg 59
<210> 51
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物Mut_csgF_His_Rev
<400> 51
ccttatgaag ctggggctta gtgatggtga tggtgatgaa aatcggttga gttattttg 59
<210> 52
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物DelCsgE_Rev
<400> 52
agcctgcttt tttgtacaaa c 21
<210> 53
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物DelCsgE FW
<400> 53
ataaaaaatt gttcggaggc tgc 23
<210> 54
<211> 30
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:50);CsgF 1:30的成熟肽
<400> 54
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln Asn
20 25 30
<210> 55
<211> 35
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> P0AE98(20:54);CsgF 1:35的成熟肽
<400> 55
Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly Gly Asn Pro
1 5 10 15
Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln Asn Ser Tyr
20 25 30
Lys Asp Pro
35
<210> 56
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-T4C/N17S/P35-TEV-S36)-StrepII
<400> 56
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Cys Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Ser Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Glu Asn Leu Tyr Phe Gln Ser Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe Ser Ala Trp Ser His Pro Gln Phe Glu Lys
145 150 155
<210> 57
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-N17S-Del(P35-[TEV]-S36)-StrepII
<400> 57
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Ser Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Glu Asn Leu Tyr Phe Gln Ser Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe Ser Ala Trp Ser His Pro Gln Phe Glu Lys
145 150 155
<210> 58
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-G1C/N17S/P35-[TEV]-S36)-StrepII
<400> 58
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Cys Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Ser Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Glu Asn Leu Tyr Phe Gln Ser Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe Ser Ala Trp Ser His Pro Gln Phe Glu Lys
145 150 155
<210> 59
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-G1C/P35-[TEV]-S36)-StrepII
<400> 59
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Cys Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Glu Asn Leu Tyr Phe Gln Ser Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe Ser Ala Trp Ser His Pro Gln Phe Glu Lys
145 150 155
<210> 60
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-T45-TEV-P46)-H10
<400> 60
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Glu Thr
50 55 60
Glu Asn Leu Tyr Phe Gln Ser Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe His His His His His His His His His His
145 150 155
<210> 61
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-P35-TEV-S36)-H10
<400> 61
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Glu Asn Leu Tyr Phe Gln Ser Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe His His His His His His His His His His
145 150 155
<210> 62
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-N30-TEV-S31)-H10
<400> 62
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Glu Asn Leu Tyr Phe Gln Ser Ser Tyr Lys Asp Pro Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe His His His His His His His His His His
145 150 155
<210> 63
<211> 149
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-T45-TEV-F51)-H10
<400> 63
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Glu Thr
50 55 60
Glu Asn Leu Tyr Phe Gln Ser Phe Thr Gln Ala Ile Gln Ser Gln Ile
65 70 75 80
Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr Gly Lys Pro Gly Arg Met
85 90 95
Val Thr Asn Asp Tyr Ile Val Asp Ile Ala Asn Arg Asp Gly Gln Leu
100 105 110
Gln Leu Asn Val Thr Asp Arg Lys Thr Gly Gln Thr Ser Thr Ile Gln
115 120 125
Val Ser Gly Leu Gln Asn Asn Ser Thr Asp Phe His His His His His
130 135 140
His His His His His
145
<210> 64
<211> 149
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-N30-TEV-Y37)-H10
<400> 64
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Gly Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Glu Asn Leu Tyr Phe Gln Ser Tyr Asn Asp Asp Phe Gly Ile Glu
50 55 60
Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln Ala Ile Gln Ser Gln Ile
65 70 75 80
Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr Gly Lys Pro Gly Arg Met
85 90 95
Val Thr Asn Asp Tyr Ile Val Asp Ile Ala Asn Arg Asp Gly Gln Leu
100 105 110
Gln Leu Asn Val Thr Asp Arg Lys Thr Gly Gln Thr Ser Thr Ile Gln
115 120 125
Val Ser Gly Leu Gln Asn Asn Ser Thr Asp Phe His His His His His
130 135 140
His His His His His
145
<210> 65
<211> 155
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-D34-[C3]-S36)
<400> 65
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Cys Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Leu Glu Val Leu Phe Gln Gly Pro Ser Tyr Asn
50 55 60
Asp Asp Phe Gly Ile Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr Gln
65 70 75 80
Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn Thr
85 90 95
Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile Ala
100 105 110
Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr Gly
115 120 125
Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr Asp
130 135 140
Phe Ser Ala Trp Ser His Pro Gln Phe Glu Lys
145 150 155
<210> 66
<211> 156
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-I42-[C3]-E43)
<400> 66
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Cys Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Ser Tyr Asn Asp Asp Phe Gly Ile Leu Glu
50 55 60
Val Leu Phe Gln Gly Pro Glu Thr Pro Ser Ala Leu Asp Asn Phe Thr
65 70 75 80
Gln Ala Ile Gln Ser Gln Ile Leu Gly Gly Leu Leu Ser Asn Ile Asn
85 90 95
Thr Gly Lys Pro Gly Arg Met Val Thr Asn Asp Tyr Ile Val Asp Ile
100 105 110
Ala Asn Arg Asp Gly Gln Leu Gln Leu Asn Val Thr Asp Arg Lys Thr
115 120 125
Gly Gln Thr Ser Thr Ile Gln Val Ser Gly Leu Gln Asn Asn Ser Thr
130 135 140
Asp Phe Ser Ala Trp Ser His Pro Gln Phe Glu Lys
145 150 155
<210> 67
<211> 148
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CsgF-Eco-(WT-N38-[C3]-S47)
<400> 67
Met Arg Val Lys His Ala Val Val Leu Leu Met Leu Ile Ser Pro Leu
1 5 10 15
Ser Trp Ala Cys Thr Met Thr Phe Gln Phe Arg Asn Pro Asn Phe Gly
20 25 30
Gly Asn Pro Asn Asn Gly Ala Phe Leu Leu Asn Ser Ala Gln Ala Gln
35 40 45
Asn Ser Tyr Lys Asp Pro Ser Tyr Asn Leu Glu Val Leu Phe Gln Gly
50 55 60
Pro Ser Ala Leu Asp Asn Phe Thr Gln Ala Ile Gln Ser Gln Ile Leu
65 70 75 80
Gly Gly Leu Leu Ser Asn Ile Asn Thr Gly Lys Pro Gly Arg Met Val
85 90 95
Thr Asn Asp Tyr Ile Val Asp Ile Ala Asn Arg Asp Gly Gln Leu Gln
100 105 110
Leu Asn Val Thr Asp Arg Lys Thr Gly Gln Thr Ser Thr Ile Gln Val
115 120 125
Ser Gly Leu Gln Asn Asn Ser Thr Asp Phe Ser Ala Trp Ser His Pro
130 135 140
Gln Phe Glu Lys
145
<210> 68
<211> 248
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 假定蛋白CKO_02032[柯氏柠檬酸杆菌ATCC BAA-895]的
YP_001453594.1:1-248
<400> 68
Met Pro Arg Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Met Pro
1 5 10 15
Thr Gly Lys Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly
20 25 30
Gln Phe Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln
35 40 45
Ser Ala Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe
50 55 60
Ile Pro Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys
65 70 75 80
Ile Ile Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Ile Asn Asn Arg
85 90 95
Ile Pro Leu Gln Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser
100 105 110
Ile Ile Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg
115 120 125
Tyr Phe Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala
130 135 140
Val Asn Leu Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser
145 150 155 160
Val Asn Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val
165 170 175
Phe Arg Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr
180 185 190
Thr Ser Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr
195 200 205
Gly Val Ile Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp
210 215 220
Leu Gln Asn Lys Ala Glu Arg Gln Asn Asp Ile Leu Val Lys Tyr Arg
225 230 235 240
His Met Ser Val Pro Pro Glu Ser
245
<210> 69
<211> 223
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运组分CsgG,部分[肠道沙门氏菌]的
WP_001787128.1:16-238
<400> 69
Cys Leu Thr Ala Pro Pro Lys Gln Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Ala Pro Thr Gly
20 25 30
Lys Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Met Asn Asn Arg Ile Pro
100 105 110
Leu Gln Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Ser
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly
210 215 220
<210> 70
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运蛋白CsgG [无丙二酸柠檬酸杆菌属]的
KEY44978.1:16-277
<400> 70
Cys Leu Thr Ala Pro Pro Lys Glu Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Ile Pro Thr Gly
20 25 30
Lys Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Val Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Ile Asn Asn Arg Ile Pro
100 105 110
Leu Gln Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Ser
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp Leu Gln
225 230 235 240
Asn Lys Ala Asp Arg Gln Asn Asp Ile Leu Val Lys Tyr Arg His Met
245 250 255
Ser Val Pro Pro Glu Ser
260
<210> 71
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运组分[鼠柠檬酸杆菌ICC168]的
YP_003364699.1:16-277
<400> 71
Cys Leu Thr Thr Pro Pro Lys Glu Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Val Pro Thr Gly
20 25 30
Lys Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Ile Asn Asn Arg Ile Pro
100 105 110
Leu Pro Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Ala Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Ser
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp Leu Gln
225 230 235 240
Asn Lys Ala Asp Arg Gln Asn Asp Ile Leu Val Lys Tyr Arg Gln Met
245 250 255
Ser Val Pro Pro Glu Ser
260
<210> 72
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运组分CsgG [阿氏肠杆菌LF7a]的
YP_004828099.1:16-277
<400> 72
Cys Leu Thr Ala Pro Pro Lys Glu Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Arg Asp Leu Thr His Leu Pro Ala Pro Thr Gly
20 25 30
Lys Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser His Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Asn Asn Asn Arg Met Pro
100 105 110
Leu Gln Ser Leu Ala Ala Ala Asn Val Met Ile Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Ser
195 200 205
Asn Glu Pro Val Met Met Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp Leu Gln
225 230 235 240
Asn Lys Ala Asp Ala Gln Asn Pro Val Leu Val Lys Tyr Arg Asp Met
245 250 255
Ser Val Pro Pro Glu Ser
260
<210> 73
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 转运体[雷金斯堡约克氏菌]的WP_006819418.1:19-280
<400> 73
Cys Leu Thr Ala Pro Pro Lys Glu Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Arg Asp Leu Thr His Leu Pro Leu Pro Ser Gly
20 25 30
Lys Val Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Val Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Asp Asn Asn Arg Ile Pro
100 105 110
Leu Gln Ser Leu Thr Ala Ala Asn Val Met Ile Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Val Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Ser
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Tyr Leu Ile Asn Asp Gly Ile Glu Arg Gly Leu Trp Asp Leu Gln
225 230 235 240
Gln Lys Ala Asp Val Asp Asn Pro Ile Leu Ala Arg Tyr Arg Asn Met
245 250 255
Ser Ala Pro Pro Glu Ser
260
<210> 74
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运蛋白CsgG [粉末克罗诺杆菌]的
WP_024556654.1:16-277
<400> 74
Cys Leu Thr Ala Pro Pro Lys Glu Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Arg Asp Leu Thr Asn Leu Pro Asp Pro Lys Gly
20 25 30
Lys Leu Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ser Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Glu Asn Asn Arg Met Pro
100 105 110
Leu Gln Ser Leu Val Ala Ala Asn Val Met Ile Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Gly Asp Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Ala
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile His Leu Ile Asn Asp Gly Ile Asn Arg Gly Leu Trp Glu Leu Lys
225 230 235 240
Asn Lys Gly Asp Ala Lys Asn Thr Ile Leu Ala Lys Tyr Arg Ser Met
245 250 255
Ala Val Pro Pro Glu Ser
260
<210> 75
<211> 262
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运蛋白CsgG [水生拉恩氏菌HX2]的
YP_005400916.1:16-277
<400> 75
Cys Leu Thr Ala Ala Pro Lys Glu Ala Ala Arg Pro Thr Leu Leu Pro
1 5 10 15
Arg Ala Pro Ser Tyr Thr Asp Leu Thr His Leu Pro Ser Pro Gln Gly
20 25 30
Arg Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Cys Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Ser Ala Leu Lys Asp Ser Lys Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Ser Val Ala Ile Asn Asn Gln Arg Pro
100 105 110
Leu Ser Ser Leu Val Ala Ala Asn Ile Leu Ile Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Ser Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Ala Val Asp Val Asn Thr Gly Glu Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Leu Gly Tyr Thr Thr
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Ser Gly Val
210 215 220
Ile Tyr Leu Val Asn Asp Gly Ile Glu Arg Asn Leu Trp Gln Leu Gln
225 230 235 240
Asn Pro Ser Glu Ile Asn Ser Pro Ile Leu Gln Arg Tyr Lys Asn Asn
245 250 255
Ile Val Pro Ala Glu Ser
260
<210> 76
<211> 259
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> CsgG家族卷曲产生组装/转运组分[抗坏血酸克吕沃菌ATCC 33433]的
KFC99297.1:20-278
<400> 76
Cys Ile Thr Ser Pro Pro Lys Gln Ala Ala Lys Pro Thr Leu Leu Pro
1 5 10 15
Arg Ser Gln Ser Tyr Gln Asp Leu Thr His Leu Pro Glu Pro Gln Gly
20 25 30
Arg Leu Phe Val Ser Val Tyr Asn Ile Ser Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ser Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Ser Ala Leu Lys Asp Ser Asn Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Val Ala Val Asn Asn Arg Thr Gln
100 105 110
Leu Pro Ser Leu Val Ala Ala Asn Ile Leu Ile Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Ala Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Ala Ser Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asn Val Ser Thr Gly Glu Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Phe Gln Ala Gly Val Phe Arg
180 185 190
Tyr Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Val Gly Tyr Thr Val
195 200 205
Asn Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Tyr Leu Val Asn Asp Gly Ile Ser Arg Asn Leu Trp Gln Leu Lys
225 230 235 240
Asn Ala Ser Asp Ile Asn Ser Pro Val Leu Glu Lys Tyr Lys Ser Ile
245 250 255
Ile Val Pro
<210> 77
<211> 259
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> CsgG家族卷曲产生组装/转运组分[蜂房哈夫尼亚菌ATCC 13337]的
KFC86716.1:16-274
<400> 77
Cys Leu Thr Ala Pro Pro Lys Gln Ala Ala Lys Pro Thr Leu Met Pro
1 5 10 15
Arg Ala Gln Ser Tyr Gln Asp Leu Thr His Leu Pro Glu Pro Ala Gly
20 25 30
Lys Leu Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Lys Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Ser Ala Leu Lys Asp Ser Gly Trp Phe Ile Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Glu Asn Gly Thr Ala Ala Val Asn Asn Gln His Gln
100 105 110
Leu Ser Ser Leu Val Ala Ala Asn Val Leu Val Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Glu Ser Asn Val Lys Ser Gly Gly Ala Gly Ala Arg Phe Phe
130 135 140
Gly Ile Gly Ala Ser Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn
145 150 155 160
Leu Arg Val Val Asp Val Asn Thr Gly Gln Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Val Gln Ala Gly Val Phe Arg
180 185 190
Tyr Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ile Gly Tyr Thr Thr
195 200 205
Asn Glu Pro Val Met Leu Cys Val Met Ser Ala Ile Glu Thr Gly Val
210 215 220
Ile Tyr Leu Val Asn Asp Gly Ile Asn Arg Asn Leu Trp Thr Leu Lys
225 230 235 240
Asn Pro Gln Asp Ala Lys Ser Ser Val Leu Glu Arg Tyr Lys Ser Thr
245 250 255
Ile Val Pro
<210> 78
<211> 255
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 涉及形成卷曲聚合物的未表征蛋白质[肠杆菌科细菌菌株FGI 57]的
YP_007340845.1:16-270
<400> 78
Cys Ile Thr Thr Pro Pro Gln Glu Ala Ala Lys Pro Thr Leu Leu Pro
1 5 10 15
Arg Asp Ala Thr Tyr Lys Asp Leu Val Ser Leu Pro Gln Pro Arg Gly
20 25 30
Lys Ile Tyr Val Ala Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe
35 40 45
Gln Pro Tyr Pro Ala Ser Asn Phe Ser Thr Ser Val Pro Gln Ser Ala
50 55 60
Thr Ala Met Leu Val Ser Ser Leu Lys Asp Ser Arg Trp Phe Val Pro
65 70 75 80
Leu Glu Arg Gln Gly Leu Asn Asn Leu Leu Asn Glu Arg Lys Ile Ile
85 90 95
Arg Ala Ala Gln Gln Asn Gly Thr Val Gly Asp Asn Asn Ala Ser Pro
100 105 110
Leu Pro Ser Leu Tyr Ser Ala Asn Val Ile Val Glu Gly Ser Ile Ile
115 120 125
Gly Tyr Ala Ser Asn Val Lys Thr Gly Gly Phe Gly Ala Arg Tyr Phe
130 135 140
Gly Ile Gly Gly Ser Thr Gln Tyr Gln Leu Asp Gln Val Ala Val Asn
145 150 155 160
Leu Arg Ile Val Asn Val His Thr Gly Glu Val Leu Ser Ser Val Asn
165 170 175
Thr Ser Lys Thr Ile Leu Ser Tyr Glu Ile Gln Ala Gly Val Phe Arg
180 185 190
Phe Ile Asp Tyr Gln Arg Leu Leu Glu Gly Glu Ala Gly Phe Thr Thr
195 200 205
Asn Glu Pro Val Met Thr Cys Leu Met Ser Ala Ile Glu Glu Gly Val
210 215 220
Ile His Leu Ile Asn Asp Gly Ile Asn Lys Lys Leu Trp Ala Leu Ser
225 230 235 240
Asn Ala Ala Asp Ile Asn Ser Glu Val Leu Thr Arg Tyr Arg Lys
245 250 255
<210> 79
<211> 258
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运蛋白CsgG [类志贺邻单胞菌]的
WP_010861740.1:17-274
<400> 79
Ile Thr Glu Val Pro Lys Glu Ala Ala Lys Pro Thr Leu Met Pro Arg
1 5 10 15
Ala Ser Thr Tyr Lys Asp Leu Val Ala Leu Pro Lys Pro Asn Gly Lys
20 25 30
Ile Ile Val Ser Val Tyr Ser Val Gln Asp Glu Thr Gly Gln Phe Lys
35 40 45
Pro Leu Pro Ala Ser Asn Phe Ser Thr Ala Val Pro Gln Ser Gly Asn
50 55 60
Ala Met Leu Thr Ser Ala Leu Lys Asp Ser Gly Trp Phe Val Pro Leu
65 70 75 80
Glu Arg Glu Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile Arg
85 90 95
Ala Ala Gln Glu Asn Gly Thr Val Ala Ala Asn Asn Gln Gln Pro Leu
100 105 110
Pro Ser Leu Leu Ser Ala Asn Val Val Ile Glu Gly Ala Ile Ile Gly
115 120 125
Tyr Asp Ser Asp Ile Lys Thr Gly Gly Ala Gly Ala Arg Tyr Phe Gly
130 135 140
Ile Gly Ala Asp Gly Lys Tyr Arg Val Asp Gln Val Ala Val Asn Leu
145 150 155 160
Arg Ala Val Asp Val Arg Thr Gly Glu Val Leu Leu Ser Val Asn Thr
165 170 175
Ser Lys Thr Ile Leu Ser Ser Glu Leu Ser Ala Gly Val Phe Arg Phe
180 185 190
Ile Glu Tyr Gln Arg Leu Leu Glu Leu Glu Ala Gly Tyr Thr Thr Asn
195 200 205
Glu Pro Val Met Met Cys Met Met Ser Ala Leu Glu Ala Gly Val Ala
210 215 220
His Leu Ile Val Glu Gly Ile Arg Gln Asn Leu Trp Ser Leu Gln Asn
225 230 235 240
Pro Ser Asp Ile Asn Asn Pro Ile Ile Gln Arg Tyr Met Lys Glu Asp
245 250 255
Val Pro
<210> 80
<211> 248
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运外膜脂蛋白组分CsgG [费氏弧菌ES114]的
YP_205788.1:23-270
<400> 80
Pro Glu Thr Ser Glu Ser Pro Thr Leu Met Gln Arg Gly Ala Asn Tyr
1 5 10 15
Ile Asp Leu Ile Ser Leu Pro Lys Pro Gln Gly Lys Ile Phe Val Ser
20 25 30
Val Tyr Asp Phe Arg Asp Gln Thr Gly Gln Tyr Lys Pro Gln Pro Asn
35 40 45
Ser Asn Phe Ser Thr Ala Val Pro Gln Gly Gly Thr Ala Leu Leu Thr
50 55 60
Met Ala Leu Leu Asp Ser Glu Trp Phe Tyr Pro Leu Glu Arg Gln Gly
65 70 75 80
Leu Gln Asn Leu Leu Thr Glu Arg Lys Ile Ile Arg Ala Ala Gln Lys
85 90 95
Lys Gln Glu Ser Ile Ser Asn His Gly Ser Thr Leu Pro Ser Leu Leu
100 105 110
Ser Ala Asn Val Met Ile Glu Gly Gly Ile Val Ala Tyr Asp Ser Asn
115 120 125
Ile Lys Thr Gly Gly Ala Gly Ala Arg Tyr Leu Gly Ile Gly Gly Ser
130 135 140
Gly Gln Tyr Arg Ala Asp Gln Val Thr Val Asn Ile Arg Ala Val Asp
145 150 155 160
Val Arg Ser Gly Lys Ile Leu Thr Ser Val Thr Thr Ser Lys Thr Ile
165 170 175
Leu Ser Tyr Glu Val Ser Ala Gly Ala Phe Arg Phe Val Asp Tyr Lys
180 185 190
Glu Leu Leu Glu Val Glu Leu Gly Tyr Thr Asn Asn Glu Pro Val Asn
195 200 205
Ile Ala Leu Met Ser Ala Ile Asp Ser Ala Val Ile His Leu Ile Val
210 215 220
Lys Gly Val Gln Gln Gly Leu Trp Arg Pro Ala Asn Leu Asp Thr Arg
225 230 235 240
Asn Asn Pro Ile Phe Lys Lys Tyr
245
<210> 81
<211> 248
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装蛋白CsgG [火神另类弧菌]的WP_017023479.1:23-270
<400> 81
Pro Asp Ala Ser Glu Ser Pro Thr Leu Met Gln Arg Gly Ala Thr Tyr
1 5 10 15
Leu Asp Leu Ile Ser Leu Pro Lys Pro Gln Gly Lys Ile Tyr Val Ser
20 25 30
Val Tyr Asp Phe Arg Asp Gln Thr Gly Gln Tyr Lys Pro Gln Pro Asn
35 40 45
Ser Asn Phe Ser Thr Ala Val Pro Gln Gly Gly Thr Ala Leu Leu Thr
50 55 60
Met Ala Leu Leu Asp Ser Glu Trp Phe Tyr Pro Leu Glu Arg Gln Gly
65 70 75 80
Leu Gln Asn Leu Leu Thr Glu Arg Lys Ile Ile Arg Ala Ala Gln Lys
85 90 95
Lys Gln Glu Ser Ile Ser Asn His Gly Ser Thr Leu Pro Ser Leu Leu
100 105 110
Ser Ala Asn Val Met Ile Glu Gly Gly Ile Val Ala Tyr Asp Ser Asn
115 120 125
Ile Lys Thr Gly Gly Ala Gly Ala Arg Tyr Leu Gly Ile Gly Gly Ser
130 135 140
Gly Gln Tyr Arg Ala Asp Gln Val Thr Val Asn Ile Arg Ala Val Asp
145 150 155 160
Val Arg Ser Gly Lys Ile Leu Thr Ser Val Thr Thr Ser Lys Thr Ile
165 170 175
Leu Ser Tyr Glu Leu Ser Ala Gly Ala Phe Arg Phe Val Asp Tyr Lys
180 185 190
Glu Leu Leu Glu Val Glu Leu Gly Tyr Thr Asn Asn Glu Pro Val Asn
195 200 205
Ile Ala Leu Met Ser Ala Ile Asp Ser Ala Val Ile His Leu Ile Val
210 215 220
Lys Gly Ile Glu Glu Gly Leu Trp Arg Pro Glu Asn Gln Asn Gly Lys
225 230 235 240
Glu Asn Pro Ile Phe Arg Lys Tyr
245
<210> 82
<211> 254
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运组分CsgG [发光杆菌属AK15]的
WP_007470398.1:22-275
<400> 82
Pro Glu Thr Ser Lys Glu Pro Thr Leu Met Ala Arg Gly Thr Ala Tyr
1 5 10 15
Gln Asp Leu Val Ser Leu Pro Leu Pro Lys Gly Lys Val Tyr Val Ser
20 25 30
Val Tyr Asp Phe Arg Asp Gln Thr Gly Gln Tyr Lys Pro Gln Pro Asn
35 40 45
Ser Asn Phe Ser Thr Ala Val Pro Gln Gly Gly Ala Ala Leu Leu Thr
50 55 60
Thr Ala Leu Leu Asp Ser Arg Trp Phe Met Pro Leu Glu Arg Glu Gly
65 70 75 80
Leu Gln Asn Leu Leu Thr Glu Arg Lys Ile Ile Arg Ala Ala Gln Lys
85 90 95
Lys Asp Glu Ile Pro Thr Asn His Gly Val His Leu Pro Ser Leu Ala
100 105 110
Ser Ala Asn Ile Met Val Glu Gly Gly Ile Val Ala Tyr Asp Thr Asn
115 120 125
Ile Gln Thr Gly Gly Ala Gly Ala Arg Tyr Leu Gly Val Gly Ala Ser
130 135 140
Gly Gln Tyr Arg Thr Asp Gln Val Thr Val Asn Ile Arg Ala Val Asp
145 150 155 160
Val Arg Thr Gly Arg Ile Leu Leu Ser Val Thr Thr Ser Lys Thr Ile
165 170 175
Leu Ser Lys Glu Leu Gln Thr Gly Val Phe Lys Phe Val Asp Tyr Lys
180 185 190
Asp Leu Leu Glu Ala Glu Leu Gly Tyr Thr Thr Asn Glu Pro Val Asn
195 200 205
Leu Ala Val Met Ser Ala Ile Asp Ala Ala Val Val His Val Ile Val
210 215 220
Asp Gly Ile Lys Thr Gly Leu Trp Glu Pro Leu Arg Gly Glu Asp Leu
225 230 235 240
Gln His Pro Ile Ile Gln Glu Tyr Met Asn Arg Ser Lys Pro
245 250
<210> 83
<211> 261
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装蛋白CsgG [维氏气单胞菌]的WP_021231638.1:17-277
<400> 83
Cys Ala Thr His Ile Gly Ser Pro Val Ala Asp Glu Lys Ala Thr Leu
1 5 10 15
Met Pro Arg Ser Val Ser Tyr Lys Glu Leu Ile Ser Leu Pro Lys Pro
20 25 30
Lys Gly Lys Ile Val Ala Ala Val Tyr Asp Phe Arg Asp Gln Thr Gly
35 40 45
Gln Tyr Leu Pro Ala Pro Ala Ser Asn Phe Ser Thr Ala Val Thr Gln
50 55 60
Gly Gly Val Ala Met Leu Ser Thr Ala Leu Trp Asp Ser Gln Trp Phe
65 70 75 80
Val Pro Leu Glu Arg Glu Gly Leu Gln Asn Leu Leu Thr Glu Arg Lys
85 90 95
Ile Val Arg Ala Ala Gln Asn Lys Pro Asn Val Pro Gly Asn Asn Ala
100 105 110
Asn Gln Leu Pro Ser Leu Val Ala Ala Asn Ile Leu Ile Glu Gly Gly
115 120 125
Ile Val Ala Tyr Asp Ser Asn Val Arg Thr Gly Gly Ala Gly Ala Lys
130 135 140
Tyr Phe Gly Ile Gly Ala Ser Gly Glu Tyr Arg Val Asp Gln Val Thr
145 150 155 160
Val Asn Leu Arg Ala Val Asp Ile Arg Ser Gly Arg Ile Leu Asn Ser
165 170 175
Val Thr Thr Ser Lys Thr Val Met Ser Gln Gln Val Gln Ala Gly Val
180 185 190
Phe Arg Phe Val Glu Tyr Lys Arg Leu Leu Glu Ala Glu Ala Gly Phe
195 200 205
Ser Thr Asn Glu Pro Val Gln Met Cys Val Met Ser Ala Ile Glu Ser
210 215 220
Gly Val Ile Arg Leu Ile Ala Asn Gly Val Arg Asp Asn Leu Trp Gln
225 230 235 240
Leu Ala Asp Gln Arg Asp Ile Asp Asn Pro Ile Leu Gln Glu Tyr Leu
245 250 255
Gln Asp Asn Ala Pro
260
<210> 84
<211> 239
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运蛋白CsgG [希瓦氏菌属ECSMB14101]的
WP_033538267.1:27-265
<400> 84
Ala Ser Ser Ser Leu Met Pro Lys Gly Glu Ser Tyr Tyr Asp Leu Ile
1 5 10 15
Asn Leu Pro Ala Pro Gln Gly Val Met Leu Ala Ala Val Tyr Asp Phe
20 25 30
Arg Asp Gln Thr Gly Gln Tyr Lys Pro Ile Pro Ser Ser Asn Phe Ser
35 40 45
Thr Ala Val Pro Gln Ser Gly Thr Ala Phe Leu Ala Gln Ala Leu Asn
50 55 60
Asp Ser Ser Trp Phe Ile Pro Val Glu Arg Glu Gly Leu Gln Asn Leu
65 70 75 80
Leu Thr Glu Arg Lys Ile Val Arg Ala Gly Leu Lys Gly Asp Ala Asn
85 90 95
Lys Leu Pro Gln Leu Asn Ser Ala Gln Ile Leu Met Glu Gly Gly Ile
100 105 110
Val Ala Tyr Asp Thr Asn Val Arg Thr Gly Gly Ala Gly Ala Arg Tyr
115 120 125
Leu Gly Ile Gly Ala Ala Thr Gln Phe Arg Val Asp Thr Val Thr Val
130 135 140
Asn Leu Arg Ala Val Asp Ile Arg Thr Gly Arg Leu Leu Ser Ser Val
145 150 155 160
Thr Thr Thr Lys Ser Ile Leu Ser Lys Glu Ile Thr Ala Gly Val Phe
165 170 175
Lys Phe Ile Asp Ala Gln Glu Leu Leu Glu Ser Glu Leu Gly Tyr Thr
180 185 190
Ser Asn Glu Pro Val Ser Leu Cys Val Ala Ser Ala Ile Glu Ser Ala
195 200 205
Val Val His Met Ile Ala Asp Gly Ile Trp Lys Gly Ala Trp Asn Leu
210 215 220
Ala Asp Gln Ala Ser Gly Leu Arg Ser Pro Val Leu Gln Lys Tyr
225 230 235
<210> 85
<211> 233
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装蛋白CsgG [恶臭假单胞菌]的WP_003247972.1:30-262
<400> 85
Gln Asp Ser Glu Thr Pro Thr Leu Thr Pro Arg Ala Ser Thr Tyr Tyr
1 5 10 15
Asp Leu Ile Asn Met Pro Arg Pro Lys Gly Arg Leu Met Ala Val Val
20 25 30
Tyr Gly Phe Arg Asp Gln Thr Gly Gln Tyr Lys Pro Thr Pro Ala Ser
35 40 45
Ser Phe Ser Thr Ser Val Thr Gln Gly Ala Ala Ser Met Leu Met Asp
50 55 60
Ala Leu Ser Ala Ser Gly Trp Phe Val Val Leu Glu Arg Glu Gly Leu
65 70 75 80
Gln Asn Leu Leu Thr Glu Arg Lys Ile Ile Arg Ala Ser Gln Lys Lys
85 90 95
Pro Asp Val Ala Glu Asn Ile Met Gly Glu Leu Pro Pro Leu Gln Ala
100 105 110
Ala Asn Leu Met Leu Glu Gly Gly Ile Ile Ala Tyr Asp Thr Asn Val
115 120 125
Arg Ser Gly Gly Glu Gly Ala Arg Tyr Leu Gly Ile Asp Ile Ser Arg
130 135 140
Glu Tyr Arg Val Asp Gln Val Thr Val Asn Leu Arg Ala Val Asp Val
145 150 155 160
Arg Thr Gly Gln Val Leu Ala Asn Val Met Thr Ser Lys Thr Ile Tyr
165 170 175
Ser Val Gly Arg Ser Ala Gly Val Phe Lys Phe Ile Glu Phe Lys Lys
180 185 190
Leu Leu Glu Ala Glu Val Gly Tyr Thr Thr Asn Glu Pro Ala Gln Leu
195 200 205
Cys Val Leu Ser Ala Ile Glu Ser Ala Val Gly His Leu Leu Ala Gln
210 215 220
Gly Ile Glu Gln Arg Leu Trp Gln Val
225 230
<210> 86
<211> 234
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运组分CsgG [堇色希瓦氏菌DSS12]的
YP_003557438.1:1-234
<400> 86
Met Pro Lys Ser Asp Thr Tyr Tyr Asp Leu Ile Gly Leu Pro His Pro
1 5 10 15
Gln Gly Ser Met Leu Ala Ala Val Tyr Asp Phe Arg Asp Gln Thr Gly
20 25 30
Gln Tyr Lys Ala Ile Pro Ser Ser Asn Phe Ser Thr Ala Val Pro Gln
35 40 45
Ser Gly Thr Ala Phe Leu Ala Gln Ala Leu Asn Asp Ser Ser Trp Phe
50 55 60
Val Pro Val Glu Arg Glu Gly Leu Gln Asn Leu Leu Thr Glu Arg Lys
65 70 75 80
Ile Val Arg Ala Gly Leu Lys Gly Glu Ala Asn Gln Leu Pro Gln Leu
85 90 95
Ser Ser Ala Gln Ile Leu Met Glu Gly Gly Ile Val Ala Tyr Asp Thr
100 105 110
Asn Ile Lys Thr Gly Gly Ala Gly Ala Arg Tyr Leu Gly Ile Gly Val
115 120 125
Asn Ser Lys Phe Arg Val Asp Thr Val Thr Val Asn Leu Arg Ala Val
130 135 140
Asp Ile Arg Thr Gly Arg Leu Leu Ser Ser Val Thr Thr Thr Lys Ser
145 150 155 160
Ile Leu Ser Lys Glu Val Ser Ala Gly Val Phe Lys Phe Ile Asp Ala
165 170 175
Gln Asp Leu Leu Glu Ser Glu Leu Gly Tyr Thr Ser Asn Glu Pro Val
180 185 190
Ser Leu Cys Val Ala Gln Ala Ile Glu Ser Ala Val Val His Met Ile
195 200 205
Ala Asp Gly Ile Trp Lys Arg Ala Trp Asn Leu Ala Asp Thr Ala Ser
210 215 220
Gly Leu Asn Asn Pro Val Leu Gln Lys Tyr
225 230
<210> 87
<211> 245
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运蛋白CsgG [詹氏海杆菌]的WP_027859066.1:36-280
<400> 87
Leu Thr Arg Arg Met Ser Thr Tyr Gln Asp Leu Ile Asp Met Pro Ala
1 5 10 15
Pro Arg Gly Lys Ile Val Thr Ala Val Tyr Ser Phe Arg Asp Gln Ser
20 25 30
Gly Gln Tyr Lys Pro Ala Pro Ser Ser Ser Phe Ser Thr Ala Val Thr
35 40 45
Gln Gly Ala Ala Ala Met Leu Val Asn Val Leu Asn Asp Ser Gly Trp
50 55 60
Phe Ile Pro Leu Glu Arg Glu Gly Leu Gln Asn Ile Leu Thr Glu Arg
65 70 75 80
Lys Ile Ile Arg Ala Ala Leu Lys Lys Asp Asn Val Pro Val Asn Asn
85 90 95
Ser Ala Gly Leu Pro Ser Leu Leu Ala Ala Asn Ile Met Leu Glu Gly
100 105 110
Gly Ile Val Gly Tyr Asp Ser Asn Ile His Thr Gly Gly Ala Gly Ala
115 120 125
Arg Tyr Phe Gly Ile Gly Ala Ser Glu Lys Tyr Arg Val Asp Glu Val
130 135 140
Thr Val Asn Leu Arg Ala Ile Asp Ile Arg Thr Gly Arg Ile Leu His
145 150 155 160
Ser Val Leu Thr Ser Lys Lys Ile Leu Ser Arg Glu Ile Arg Ser Asp
165 170 175
Val Tyr Arg Phe Ile Glu Phe Lys His Leu Leu Glu Met Glu Ala Gly
180 185 190
Ile Thr Thr Asn Asp Pro Ala Gln Leu Cys Val Leu Ser Ala Ile Glu
195 200 205
Ser Ala Val Ala His Leu Ile Val Asp Gly Val Ile Lys Lys Ser Trp
210 215 220
Ser Leu Ala Asp Pro Asn Glu Leu Asn Ser Pro Val Ile Gln Ala Tyr
225 230 235 240
Gln Gln Gln Arg Ile
245
<210> 88
<211> 234
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 卷曲产生组装/转运组分CsgG [奥兰校园金黄杆菌G311]的
CEJ70222.1:29-262
<400> 88
Pro Ser Asp Pro Glu Arg Ser Thr Met Gly Glu Leu Thr Pro Ser Thr
1 5 10 15
Ala Glu Leu Arg Asn Leu Pro Leu Pro Asn Glu Lys Ile Val Ile Gly
20 25 30
Val Tyr Lys Phe Arg Asp Gln Thr Gly Gln Tyr Lys Pro Ser Glu Asn
35 40 45
Gly Asn Asn Trp Ser Thr Ala Val Pro Gln Gly Thr Thr Thr Ile Leu
50 55 60
Ile Lys Ala Leu Glu Asp Ser Arg Trp Phe Ile Pro Ile Glu Arg Glu
65 70 75 80
Asn Ile Ala Asn Leu Leu Asn Glu Arg Gln Ile Ile Arg Ser Thr Arg
85 90 95
Gln Glu Tyr Met Lys Asp Ala Asp Lys Asn Ser Gln Ser Leu Pro Pro
100 105 110
Leu Leu Tyr Ala Gly Ile Leu Leu Glu Gly Gly Val Ile Ser Tyr Asp
115 120 125
Ser Asn Thr Met Thr Gly Gly Phe Gly Ala Arg Tyr Phe Gly Ile Gly
130 135 140
Ala Ser Thr Gln Tyr Arg Gln Asp Arg Ile Thr Ile Tyr Leu Arg Ala
145 150 155 160
Val Ser Thr Leu Asn Gly Glu Ile Leu Lys Thr Val Tyr Thr Ser Lys
165 170 175
Thr Ile Leu Ser Thr Ser Val Asn Gly Ser Phe Phe Arg Tyr Ile Asp
180 185 190
Thr Glu Arg Leu Leu Glu Ala Glu Val Gly Leu Thr Gln Asn Glu Pro
195 200 205
Val Gln Leu Ala Val Thr Glu Ala Ile Glu Lys Ala Val Arg Ser Leu
210 215 220
Ile Ile Glu Gly Thr Arg Asp Lys Ile Trp
225 230
<210> 89
<211> 861
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CP1-Eco-(WT-Y51A/F56Q/D149N/E185N/E201N/E203N-StrepII( C))
<400> 89
atgcagcgtc tgtttctgct ggtcgcggtg atgctgctga gcggttgtct gaccgcaccg 60
ccgaaagaag cggcacgtcc gaccctgatg ccgcgtgcac agagctataa agatctgacc 120
catctgccgg ctccgacggg caaaatcttc gtttctgtct acaacatcca ggacgaaacc 180
ggtcaattta aaccagctcc tgcgtcaaat caatcgactg ccgttccgca gtcagcaacc 240
gctatgctgg tcacggcact gaaagattcg cgttggttca ttccgctgga acgccagggc 300
ctgcaaaacc tgctgaatga acgtaaaatt atccgcgcag ctcaggaaaa cggtaccgtg 360
gccattaaca atcgcatccc gctgcaaagt ctgacggcgg ccaacatcat ggttgaaggc 420
tccattatcg gttatgaaag caatgtcaaa tctggcggtg tgggcgcacg ttatttcggc 480
attggtgcta atacccagta ccaactggac cagatcgcag ttaacctgcg cgtggttaat 540
gtcagcaccg gcgaaattct gagctctgtg aataccagta aaacgatcct gtcctacaac 600
gtgcaggctg gtgtttttcg tttcattgat tatcaacgcc tgctgaatgg caacgtcggt 660
tacaccagca acgaaccggt gatgctgtgt ctgatgtctg cgattgaaac gggtgttatt 720
tttctgatca atgatggcat cgaccgtggt ctgtgggatc tgcagaacaa agcggaacgt 780
caaaatgaca ttctggtgaa ataccgccac atgtcagttc cgccggaaag ttccgcatgg 840
agccacccgc agttcgaaaa a 861
<210> 90
<211> 287
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Pro-CP1-Eco-(WT-Y51A/F56Q/D149N/E185N/E201N/E203N-StrepII( C))
<400> 90
Met Gln Arg Leu Phe Leu Leu Val Ala Val Met Leu Leu Ser Gly Cys
1 5 10 15
Leu Thr Ala Pro Pro Lys Glu Ala Ala Arg Pro Thr Leu Met Pro Arg
20 25 30
Ala Gln Ser Tyr Lys Asp Leu Thr His Leu Pro Ala Pro Thr Gly Lys
35 40 45
Ile Phe Val Ser Val Tyr Asn Ile Gln Asp Glu Thr Gly Gln Phe Lys
50 55 60
Pro Ala Pro Ala Ser Asn Gln Ser Thr Ala Val Pro Gln Ser Ala Thr
65 70 75 80
Ala Met Leu Val Thr Ala Leu Lys Asp Ser Arg Trp Phe Ile Pro Leu
85 90 95
Glu Arg Gln Gly Leu Gln Asn Leu Leu Asn Glu Arg Lys Ile Ile Arg
100 105 110
Ala Ala Gln Glu Asn Gly Thr Val Ala Ile Asn Asn Arg Ile Pro Leu
115 120 125
Gln Ser Leu Thr Ala Ala Asn Ile Met Val Glu Gly Ser Ile Ile Gly
130 135 140
Tyr Glu Ser Asn Val Lys Ser Gly Gly Val Gly Ala Arg Tyr Phe Gly
145 150 155 160
Ile Gly Ala Asn Thr Gln Tyr Gln Leu Asp Gln Ile Ala Val Asn Leu
165 170 175
Arg Val Val Asn Val Ser Thr Gly Glu Ile Leu Ser Ser Val Asn Thr
180 185 190
Ser Lys Thr Ile Leu Ser Tyr Asn Val Gln Ala Gly Val Phe Arg Phe
195 200 205
Ile Asp Tyr Gln Arg Leu Leu Asn Gly Asn Val Gly Tyr Thr Ser Asn
210 215 220
Glu Pro Val Met Leu Cys Leu Met Ser Ala Ile Glu Thr Gly Val Ile
225 230 235 240
Phe Leu Ile Asn Asp Gly Ile Asp Arg Gly Leu Trp Asp Leu Gln Asn
245 250 255
Lys Ala Glu Arg Gln Asn Asp Ile Leu Val Lys Tyr Arg His Met Ser
260 265 270
Val Pro Pro Glu Ser Ser Ala Trp Ser His Pro Gln Phe Glu Lys
275 280 285
<210> 91
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS20)
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 91
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaa 45
<210> 92
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS21)
<220>
<221> misc_feature
<222> (44)..(44)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 92
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaana 45
<210> 93
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS22)
<220>
<221> misc_feature
<222> (43)..(43)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 93
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aanaa 45
<210> 94
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS23)
<220>
<221> misc_feature
<222> (42)..(42)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 94
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa anaaa 45
<210> 95
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS24)
<220>
<221> misc_feature
<222> (41)..(41)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 95
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa naaaa 45
<210> 96
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS25)
<220>
<221> misc_feature
<222> (40)..(40)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 96
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaan aaaaa 45
<210> 97
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS26)
<220>
<221> misc_feature
<222> (39)..(39)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 97
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaana aaaaa 45
<210> 98
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS27)
<220>
<221> misc_feature
<222> (38)..(38)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 98
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaanaa aaaaa 45
<210> 99
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS28)
<220>
<221> misc_feature
<222> (37)..(37)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 99
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaanaaa aaaaa 45
<210> 100
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS29)
<220>
<221> misc_feature
<222> (36)..(36)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 100
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaanaaaa aaaaa 45
<210> 101
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS30)
<220>
<221> misc_feature
<222> (35)..(35)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 101
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaanaaaaa aaaaa 45
<210> 102
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS31)
<220>
<221> misc_feature
<222> (34)..(34)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 102
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaanaaaaaa aaaaa 45
<210> 103
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS32)
<220>
<221> misc_feature
<222> (33)..(33)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 103
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aanaaaaaaa aaaaa 45
<210> 104
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS33)
<220>
<221> misc_feature
<222> (32)..(32)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 104
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa anaaaaaaaa aaaaa 45
<210> 105
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS34)
<220>
<221> misc_feature
<222> (31)..(31)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 105
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa naaaaaaaaa aaaaa 45
<210> 106
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS35)
<220>
<221> misc_feature
<222> (30)..(30)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 106
aaaaaaaaaa aaaaaaaaaa aaaaaaaaan aaaaaaaaaa aaaaa 45
<210> 107
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS36)
<220>
<221> misc_feature
<222> (29)..(29)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 107
aaaaaaaaaa aaaaaaaaaa aaaaaaaana aaaaaaaaaa aaaaa 45
<210> 108
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS37)
<220>
<221> misc_feature
<222> (28)..(28)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 108
aaaaaaaaaa aaaaaaaaaa aaaaaaanaa aaaaaaaaaa aaaaa 45
<210> 109
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> polyA DNA链(SS38)
<220>
<221> misc_feature
<222> (27)..(27)
<223> Int C3间隔子
<220>
<221> misc_feature
<222> (45)..(45)
<223> 3’生物素化
<400> 109
aaaaaaaaaa aaaaaaaaaa aaaaaanaaa aaaaaaaaaa aaaaa 45
<210> 110
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 通过质谱法鉴定的S-S复合物片段(序列1)(图16B)
<220>
<221> DISULFID
<222> (11)..(11)
<223> 二硫键与CTMTFQFR中的N末端半胱氨酸结合
<400> 110
Tyr Phe Gly Ile Gly Ala Asp Thr Gln Tyr Cys Leu Asp Gln Ile Ala
1 5 10 15
Val Asn Leu Arg
20
<210> 111
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 通过质谱法鉴定的S-S复合物片段(序列2)(图16B)
<220>
<221> DISULFID
<222> (1)..(1)
<223> 二硫键与YFGIGADTQYCLDQIAVNLR中的半胱氨酸(残基11)结合
<400> 111
Cys Thr Met Thr Phe Gln Phe Arg
1 5
<210> 112
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 用于比较缺失误差的含有T均聚物的大肠杆菌DNA的片段(图26B)
<400> 112
cagtcgcatc ggtttttact gcgggctg 28

Claims (43)

1.一种用于表征靶多核苷酸的系统,所述系统包括膜和孔复合物;
其中所述孔复合物包括:(i)定位在所述膜中的纳米孔;以及(ii)附接到所述纳米孔的辅助蛋白或肽;
其中所述纳米孔和所述辅助蛋白或肽一起形成跨所述膜的连续通道,所述通道包括第一收缩区域和第二收缩区域;
其中所述第一收缩区域由所述纳米孔的一部分形成,并且其中所述第二收缩区域由所述辅助蛋白或肽的至少一部分形成。
2.根据权利要求1所述的系统,其中所述辅助蛋白是多聚体蛋白。
3.根据权利要求1或2所述的系统,其中所述辅助蛋白不在膜中天然形成纳米孔和/或不包括在膜中天然形成的跨膜孔复合物的组分或其片段。
4.根据前述权利要求中任一项所述的系统,其中所述辅助蛋白或肽是环形的。
5.根据权利要求1到4中任一项所述的系统,其中所述辅助蛋白选自GroES、CsgF、正五聚蛋白、SP1以及其功能同源物和片段。
6.根据权利要求1或2所述的系统,其中所述辅助蛋白是跨膜蛋白纳米孔或其片段。
7.根据权利要求3或6所述的系统,其中所述跨膜蛋白孔选自MspA、α-溶血素、CsgG、胞溶素、InvG、GspD、杀白细胞素、FraC、气单胞菌溶素、NetB以及其功能同源物和片段。
8.根据权利要求1或2所述的系统,其中所述辅助蛋白包括跨膜蛋白孔复合物的组分的片段(其中当所述纳米孔是CsgG孔时,所述片段不是CsgF的片段)。
9.根据前述权利要求中任一项所述的系统,其中所述辅助蛋白或肽的至少一部分定位在所述纳米孔的腔内。
10.根据前述权利要求中任一项所述的系统,其中所述第二收缩部由所述辅助蛋白或肽的至少一部分形成,所述部分定位在所述纳米孔的腔内。
11.根据前述权利要求中任一项所述的系统,其中所述辅助蛋白或肽完全定位在所述纳米孔的腔内。
12.根据权利要求1到8中任一项所述的系统,其中所述辅助蛋白或肽定位在所述纳米孔的腔外部。
13.根据前述权利要求中任一项所述的系统,其中所述辅助蛋白或肽通过一个或多个共价键附接到所述纳米孔。
14.根据前述权利要求中任一项所述的系统,其中所述辅助蛋白或肽通过一种或多种非共价相互作用附接到所述纳米孔。
15.根据前述权利要求中任一项所述的系统,其中所述辅助蛋白是经修饰的辅助蛋白或肽,与对应的天然存在的辅助蛋白或肽相比,所述经修饰的辅助蛋白或肽包括至少一个氨基酸修饰。
16.根据权利要求15所述的系统,其中所述经修饰的辅助蛋白或肽包括:(i)所述跨膜蛋白纳米孔与所述辅助蛋白或肽之间的界面处的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的辅助蛋白或肽中;和/或(ii)形成所述第二收缩部的部分的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的辅助蛋白或肽中。
17.根据前述权利要求中任一项所述的系统,其中所述第一收缩部和/或所述第二收缩部的最小直径为约0.5nm到约2nm。
18.根据前述权利要求中任一项所述的系统,其中所述膜包括两亲分子层。
19.根据前述权利要求中任一项所述的系统,其中所述膜是固态层。
20.根据前述权利要求中任一项所述的系统,其中所述纳米孔是跨膜蛋白纳米孔。
21.根据权利要求20所述的系统,其中所述跨膜蛋白孔选自MspA、α-溶血素、CsgG、胞溶素、InvG、GspD、杀白细胞素、FraC、气单胞菌溶素、NetB以及其功能同源物和片段。
22.根据权利要求20或21所述的系统,其中所述纳米孔是第一跨膜蛋白纳米孔,并且所述辅助蛋白是第二跨膜蛋白纳米孔或其片段。
23.根据权利要求22所述的系统,其中所述第一跨膜蛋白纳米孔和所述第二跨膜蛋白纳米孔或其片段属于相同的跨膜蛋白纳米孔类型。
24.根据权利要求22或23所述的系统,其中所述第一跨膜蛋白纳米孔和/或所述第二跨膜蛋白纳米孔或其片段是同源寡聚体。
25.根据权利要求22或23所述的系统,其中所述第一跨膜蛋白纳米孔和/或所述第二跨膜蛋白纳米孔或其片段是异源寡聚体。
26.根据权利要求22到25中任一项所述的系统,其中所述第一跨膜蛋白纳米孔和所述第二跨膜蛋白纳米孔是相同的。
27.根据权利要求22所述的系统,其中所述第一跨膜蛋白纳米孔和所述第二跨膜蛋白纳米孔或其片段属于不同的跨膜蛋白纳米孔类型。
28.根据权利要求20或21所述的系统,其中所述纳米孔选自MspA、CsgG以及其功能同源物和片段,并且其中所述辅助蛋白是GroES或其功能同源物或片段。
29.根据权利要求20到28中任一项所述的系统,其中所述纳米孔是经修饰的跨膜蛋白纳米孔,与对应的天然存在的跨膜蛋白纳米孔相比,所述经修饰的跨膜蛋白纳米孔包括至少一个氨基酸修饰。
30.根据权利要求29所述的系统,其中所述经修饰的跨膜蛋白纳米孔包括:(i)所述跨膜蛋白纳米孔与所述辅助蛋白之间的界面处的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的跨膜蛋白纳米孔中;和/或(ii)形成所述第一收缩部的部分的至少一个氨基酸残基,所述氨基酸残基不存在于对应的天然存在的跨膜蛋白纳米孔中。
31.根据权利要求19所述的系统,其中所述纳米孔是在所述固态层中形成的固态纳米孔。
32.根据前述权利要求中任一项所述的系统,其中所述靶多核苷酸包括均聚物区域。
33.根据前述权利要求中任一项所述的系统,其进一步包括第一腔室和第二腔室,其中所述第一腔室和第二腔室由所述膜分隔开。
34.根据权利要求33所述的系统,其进一步包括靶多核苷酸,其中所述靶多核苷酸短暂地定位在所述连续通道内,并且其中所述靶多核苷酸的一端定位在所述第一腔室中,并且所述靶多核苷酸的一端定位在所述第二腔室中。
35.根据前述权利要求中任一项所述的系统,其进一步包括:与所述纳米孔接触的导电溶液、跨所述膜提供电压电势的电极以及用于测量通过所述纳米孔的电流的测量系统。
36.一种分离的孔复合物,其包括:(i)纳米孔;以及(ii)附接到所述纳米孔的辅助蛋白或肽;
其中所述纳米孔和所述辅助蛋白或肽一起限定连续通道,所述通道包括第一收缩区域和第二收缩区域;
其中所述第一收缩区域由所述纳米孔的一部分形成,并且其中所述第二收缩区域由所述辅助蛋白或肽的至少一部分形成。
37.一种用于表征靶多核苷酸的方法,所述方法包括以下步骤:
(a)使根据权利要求1到35中任一项所述的系统与所述靶多核苷酸接触;
(b)跨所述膜施加电势,使得所述靶多核苷酸进入由所述孔复合物形成的所述连续通道;以及
(c)在所述多核苷酸相对于所述连续通道移动时进行一次或多次测量,由此表征所述多核苷酸。
38.根据权利要求37所述的方法,其中步骤(c)包括测量通过所述连续通道的电流,其中所述电流指示所述靶多核苷酸的存在和/或一个或多个特性,并且由此检测和/或表征所述靶多核苷酸。
39.根据权利要求38所述的方法,其中所述靶多核苷酸中的核苷酸与所述连续通道内的所述第一收缩区域和所述第二收缩区域相互作用,并且其中所述第一收缩区域和所述第二收缩区域中的每个收缩区域能够区分不同的核苷酸,使得通过所述连续通道的总电流受到所述第一收缩区域和所述第二收缩区中的每个收缩区域与定位在所述区域中的每个区域处的核苷酸之间的相互作用的影响。
40.根据权利要求37到39中任一项所述的方法,其中所述多核苷酸移动通过所述通道并跨所述膜易位。
41.根据权利要求37到40中任一项所述的方法,其中使用多核苷酸结合蛋白来控制所述多核苷酸相对于所述孔移动。
42.根据权利要求37到41中任一项所述的方法,其中所述方法包括测定所述靶多核苷酸的核苷酸序列。
43.根据权利要求37到42中任一项所述的方法,其中所述靶多核苷酸包括均聚物区域。
CN201980073675.XA 2018-11-08 2019-11-07 Pending CN113195736A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB1818216.2A GB201818216D0 (en) 2018-11-08 2018-11-08 Pore
GB1818216.2 2018-11-08
GB1819054.6 2018-11-22
GBGB1819054.6A GB201819054D0 (en) 2018-11-22 2018-11-22 Pore
PCT/GB2019/053153 WO2020095052A1 (en) 2018-11-08 2019-11-07 Pore

Publications (1)

Publication Number Publication Date
CN113195736A true CN113195736A (zh) 2021-07-30

Family

ID=68531572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980073675.XA Pending CN113195736A (zh) 2018-11-08 2019-11-07

Country Status (7)

Country Link
US (1) US20220056517A1 (zh)
EP (1) EP3877547A1 (zh)
JP (1) JP2022518095A (zh)
CN (1) CN113195736A (zh)
AU (1) AU2019375476A1 (zh)
CA (1) CA3118808A1 (zh)
WO (1) WO2020095052A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023060420A1 (zh) * 2021-10-12 2023-04-20 成都齐碳科技有限公司 孔蛋白单体的突变体、蛋白孔及其应用

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4273156A3 (en) 2017-06-30 2024-01-17 Vib Vzw Novel protein pores
WO2024033447A1 (en) * 2022-08-09 2024-02-15 Oxford Nanopore Technologies Plc De novo pores
WO2024033443A1 (en) * 2022-08-09 2024-02-15 Oxford Nanopore Technologies Plc Novel pore monomers and pores
GB202211602D0 (en) * 2022-08-09 2022-09-21 Oxford Nanopore Tech Plc Novel pore monomers and pores
GB202211607D0 (en) * 2022-08-09 2022-09-21 Oxford Nanopore Tech Plc Novel pore monomers and pores
GB202216905D0 (en) 2022-11-11 2022-12-28 Oxford Nanopore Tech Plc Novel pore monomers and pores

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506575A (ja) * 2011-02-11 2014-03-17 オックスフォード ナノポール テクノロジーズ リミテッド 変異体細孔
CN106574300A (zh) * 2014-05-02 2017-04-19 牛津纳米孔技术公司 改善目标多核苷酸相对于跨膜孔移动的方法
CN107735686A (zh) * 2015-04-14 2018-02-23 鲁汶天主教大学 具有内部蛋白质衔接子的纳米孔

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
GB0505971D0 (en) 2005-03-23 2005-04-27 Isis Innovation Delivery of molecules to a lipid bilayer
EP2122344B8 (en) 2007-02-20 2019-08-21 Oxford Nanopore Technologies Limited Lipid bilayer sensor system
EP3543357A1 (en) 2007-05-08 2019-09-25 Trustees of Boston University Chemical functionalization of solid-state nanopores and nanopore arrays and applications thereof
WO2009035647A1 (en) 2007-09-12 2009-03-19 President And Fellows Of Harvard College High-resolution molecular graphene sensor comprising an aperture in the graphene layer
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
CA2730068A1 (en) 2008-07-07 2010-01-14 Oxford Nanopore Technologies Limited Base-detecting pore
US20110229877A1 (en) 2008-07-07 2011-09-22 Oxford Nanopore Technologies Limited Enzyme-pore constructs
WO2010086603A1 (en) 2009-01-30 2010-08-05 Oxford Nanopore Technologies Limited Enzyme mutant
AU2010240670B2 (en) 2009-04-20 2015-08-20 Oxford Nanopore Technologies Limited Lipid bilayer sensor array
US9127313B2 (en) 2009-12-01 2015-09-08 Oxford Nanopore Technologies Limited Biochemical analysis instrument
WO2012005857A1 (en) 2010-06-08 2012-01-12 President And Fellows Of Harvard College Nanopore device with graphene supported artificial lipid membrane
CA2869546C (en) 2012-04-10 2020-07-21 Oxford Nanopore Technologies Limited Mutant lysenin pores
AU2013336430B2 (en) 2012-10-26 2018-02-15 Oxford Nanopore Technologies Limited Droplet interfaces
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
ES2817425T3 (es) 2013-05-24 2021-04-07 Illumina Cambridge Ltd Secuenciado pirofosforolítico usando nanoporos
CN117164683A (zh) 2014-09-01 2023-12-05 弗拉芒区生物技术研究所 突变csgg孔
CA3016245A1 (en) 2016-03-02 2017-09-08 Oxford Nanopore Technologies Limited Mutant csgg pores and their use in polynucleotide detection and characterisation
EP3580228B1 (en) 2017-02-10 2021-07-28 Oxford Nanopore Technologies Limited Modified nanopores, compositions comprising the same, and uses thereof
EP4273156A3 (en) * 2017-06-30 2024-01-17 Vib Vzw Novel protein pores

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506575A (ja) * 2011-02-11 2014-03-17 オックスフォード ナノポール テクノロジーズ リミテッド 変異体細孔
CN106574300A (zh) * 2014-05-02 2017-04-19 牛津纳米孔技术公司 改善目标多核苷酸相对于跨膜孔移动的方法
CN107735686A (zh) * 2015-04-14 2018-02-23 鲁汶天主教大学 具有内部蛋白质衔接子的纳米孔

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID STODDART,ET AL: "multiple base-recognition sites in a biological nanopore-two heads are better than one", 《ANGEW CHEM INT ED ENGL》, vol. 49, no. 3, pages 557 *
KHERIM WILLEMS,ET AL: "single molecule nanopore enzymology", 《PHILOSOPHICAL TRANSACTIONS》, vol. 372, no. 1726, pages 3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023060420A1 (zh) * 2021-10-12 2023-04-20 成都齐碳科技有限公司 孔蛋白单体的突变体、蛋白孔及其应用

Also Published As

Publication number Publication date
CA3118808A1 (en) 2020-05-14
WO2020095052A1 (en) 2020-05-14
AU2019375476A1 (en) 2021-06-03
JP2022518095A (ja) 2022-03-14
EP3877547A1 (en) 2021-09-15
WO2020095052A8 (en) 2021-05-14
US20220056517A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
US11945840B2 (en) Protein pores
CN113195736A (zh)
US20230295715A1 (en) Mutant pores
EP3619224B1 (en) Transmembrane pore consisting of two csgg pores
JP2021078500A (ja) 変異体ポア
KR102083695B1 (ko) 돌연변이체 리세닌 기공
KR102472805B1 (ko) 돌연변이체 포어
EP2682460A1 (en) Enzyme-pore constructs
KR20140108706A (ko) 효소 방법
CN113677693A (zh)
WO2024033421A2 (en) Novel pore monomers and pores

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: oxford

Applicant after: Oxford nanopore Technology Public Co.,Ltd.

Applicant after: VIB VZW

Applicant after: UNIVERSITE LIBRE DE BRUXELLES

Address before: Oxfordshire

Applicant before: Oxford nanopore technology Co.

Applicant before: VIB VZW

Applicant before: UNIVERSITE LIBRE DE BRUXELLES