CN109069662A

CN109069662A - 可用于纳米孔系统的位点特异性生物缀合方法和组合物

Info

Publication number: CN109069662A
Application number: CN201780019277.0A
Authority: CN
Inventors: D.格雷米亚钦斯基; C.齐齐洛尼斯
Original assignee: Genia Technologies Inc
Current assignee: F Hoffmann La Roche AG
Priority date: 2016-03-24
Filing date: 2017-03-23
Publication date: 2018-12-21
Anticipated expiration: 2037-03-23
Also published as: EP3432935A1; EP3432935B1; ES2911439T3; US20210230232A1; US11866464B2; WO2017162828A1; JP6959251B2; JP2019512509A; CN109069662B; US20240166698A1; US11001611B2; US20190002509A1

Abstract

本公开涉及提供蛋白(诸如孔形成蛋白α‑溶血素)与生物分子(诸如DNA聚合酶)的快速、有效的位点选择性缀合的方法和相关组合物，以及此类位点选择性蛋白‑生物分子缀合物在纳米孔装置和方法中的用途。

Description

可用于纳米孔系统的位点特异性生物缀合方法和组合物

技术领域

本公开涉及用于将蛋白(诸如孔形成蛋白、α-溶血素)与生物分子(诸如抗体、受体和酶，诸如DNA聚合酶)缀合的快速、有效的化学反应。

背景

已经开发了使用纳米孔的单分子边合成边测序(SBS)技术。参见例如，美国专利公开号2013/0244340 A1和2013/0264207 A1。纳米孔SBS涉及使用聚合酶来合成与靶序列模板互补的DNA链，且随着每个核苷酸单体添加至正在生长的链而确定其身份，由此确定所述靶序列。经由位于聚合酶活性位点和正在生长的链附近的纳米孔，检测每个添加的核苷酸单体。获得准确的信号要求将聚合酶活性位点适当定位在纳米孔附近。通常通过将聚合酶共价连接至构成纳米孔的孔-蛋白来实现适当的定位。

单体孔形成蛋白具有范围少至5 kDa至80 kDa的分子量，且这些单体形成6、7、8、9、10或更多个单体的大多聚复合物，其具有160 kDa、180 kDa、200 kDa、220 kDa或更多的分子量。在合适的条件下，这些多聚复合物通过脂质双层膜自发地形成孔。来自金黄色葡萄球菌的充分研究的孔形成蛋白α-溶血素(α-HL)具有33 kDa的单体分子量且自发地形成具有231 kDa的分子量的七聚孔复合物。聚合酶是分子量范围为约60 kDa至100 kDa的大蛋白，并且在一些情况下是甚至大得多的多聚复合物(例如，RNA聚合酶~400 kDa多聚体)。DNA聚合酶I的Klenow片段具有68 kDa的分子量。

因此，为了提供纳米孔传感器将这些孔形成蛋白(如α-溶血素七聚体)与大生物分子(如DNA聚合酶)缀合的任何反应的动力学都将受到用此类大型大分子可实现(且可用相对低的量)的低浓度的极大限制。此类大蛋白在水溶液中的最大溶解度通常限于近似0.1至10 mg/mL。因此，用于缀合反应的溶液中的两种大分子的浓度限于~1 µM至1000 µM。例如，α-溶血素蛋白孔由7个相同的亚基组成，总共约235,000分子量。因此，10 mg/ml的溶液具有约42 µM的浓度。这种相对低的浓度范围有效地将活性缀合化学限制至具有极快、不可逆反应速率的那些。

WO2015/148402A1描述了可用于纳米孔测序的标记的核苷酸，且描述了用于将α-溶血素附接至聚合酶的两种方法。一种方法涉及使用SpyTag-SpyCatcher酶促缀合反应(参见例如，Zakeri和Howarth (2010).JACS 132:4526-7)。在该方法中，SpyTag肽片段与α-HL单体的C端附接作为重组融合物，并且SpyCatcher蛋白片段与Phi29 DNA聚合酶的N端附接作为重组融合物。第二种方法涉及在用反式环辛烯基团修饰的α-HL和用6-甲基-四嗪基团修饰的聚合酶之间使用反电子需求的Diels-Alder (IEDDA)反应。

天然化学连接(NCL)最初被开发为合成方法，其允许通过连接多肽片段延伸合成多肽，同时维持天然肽键合结构。(参见例如，Dawson等人, “Synthesis of proteins bynative chemical ligation,” Science 1994, 266, 776–779)。NCL的化学计量效率和位点特异性使其可用于糖肽合成和其中保留天然肽键重要的其他合成方法。(参见例如，Shin等人, “Fmoc-Based Synthesis of Peptide-α-Thioesters: Application to the TotalChemical Synthesis of a Glycoprotein by Native Chemical Ligation,” J. Am.Chem. Soc. 1999, 121, 11684–11689.)

由于通常用于形成SBS的纳米孔检测系统的相对低浓度的孔-蛋白和聚合酶，开发高效且位点特异性的缀合反应是至关重要的，所述缀合反应允许在这两种相对大的蛋白复合物之间进行强的、选择性的共价缀合。还至关重要的是，缀合反应允许附接位点选择的自由度，以优化定位缀合分子用于特定用途(诸如纳米孔测序)，其需要精确的大分子取向。因此，仍然需要更快和更有效的方法将蛋白复合物(诸如纳米孔)与其他生物分子(诸如酶)缀合。

概述

本公开提供了用于孔形成蛋白和生物分子的位点特异性缀合的方法，以及包含修饰的孔形成蛋白、生物分子和由使用制备方法产生的缀合物的组合物。进一步，本公开提供了包含缀合物的纳米孔系统和组合物，以及相关用途，包括在纳米孔测序中的用途。

如本文所公开的用于蛋白与生物分子的位点选择性缀合的方法通常包括如下步骤(a) – (c)：

(a)在合适的反应条件下，使蛋白(其中所述蛋白包含硫醇基团)与式(I)的化合物接触

其中，A是硫醇反应性基团；L_A是接头；且X是点击化学反应性基团；且由此形成式(II)的修饰的蛋白

其中S是所述蛋白的硫醇基团的硫原子；

(b)使式(ii)的修饰的蛋白与式(iii)的化合物接触

其中，B是反应性基团；L_B是接头；且Y是点击化学反应性基团，其经历与式(II)的化合物的同源点击化学反应性基团X的点击化学反应；由此形成结构式(IV)的修饰的蛋白

和，

(c)在合适的反应条件下使式(IV)的修饰的蛋白与生物分子接触，其中所述生物分子包含反应性基团Z，其中Z能够与反应性基团B形成共价键，由此形成式(V)的蛋白-生物分子缀合物

其中，S是所述蛋白的硫醇基团的硫原子；A是硫醇反应性基团；L_A是接头；X是点击化学反应性基团；Y是点击化学反应性基团，其经历与反应性基团X的点击化学反应；L_B是接头；B是反应性基团；且Z是能够与反应性基团B形成共价键的反应性基团。

在一些实施方案中，本公开还提供了包含结构式(IVa)的修饰的孔形成蛋白的组合物

其中，S是所述孔形成蛋白的硫醇基团的硫原子；A是硫醇反应性基团；L_A是接头；X是点击化学反应性基团；Y是点击化学反应性基团，其经历与反应性基团X的点击化学反应；L_B是接头；且B是反应性基团。

在一些实施方案中，本公开还提供了包含式(V)的蛋白-生物分子缀合物的组合物

在本文公开的位点选择性缀合方法和相关组合物的实施方案中，反应性基团B包含SpyTag肽，且反应性基团Z包含SpyCatcher蛋白。在一些实施方案中，其中SpyTag肽包含选自以下的氨基酸序列：AHIVMVDAYKPTK (SEQ ID NO:1)、AHIVMVDAYK (SEQ ID NO:2)、AHIVMVDA (SEQ ID NO:3)和ahA-AHIVMVDAYKPTK (SEQ ID NO:4)。在一些实施方案中，包含反应性基团Z的生物分子是与SpyCatcher蛋白的融合物，任选地其中SpyCatcher蛋白包含SEQ ID NO:6、7或8的氨基酸序列。

在一些实施方案中，本公开进一步提供了包含式(V)的蛋白-生物分子缀合物的纳米孔组合物，其中所述蛋白是孔形成蛋白，其是纳米孔的一部分。在一些实施方案中，纳米孔被嵌入膜中，且任选地，该膜可以附接至固体基底，和/或形成该膜，使得其跨越固体基底中的孔或凹陷或孔，其任选地包含选自聚合物、玻璃、硅及其组合的材料。在一些实施方案中，所述固体基底进一步包含邻近于纳米孔的传感器、传感电路或与传感电路(任选地，互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路)偶联的电极。

本公开还提供了在蛋白与生物分子的位点选择性缀合的方法中形成为中间体的化合物和组合物，包括包含结构式(IVa)的修饰的孔形成蛋白的中间组合物。

在本文公开的位点选择性缀合方法和相关组合物的实施方案中，所述蛋白是选自α-溶血素、β-溶血素、γ-溶血素、气单胞菌溶素、溶细胞素、杀白细胞素、蜂毒肽、MspA孔蛋白和孔蛋白A的孔形成蛋白。在一个实施方案中，所述孔形成蛋白是来自金黄色葡萄球菌(Staphylococcus aureus)的α-溶血素。在一个实施方案中，所述孔形成蛋白是α-溶血素C46(“α-HL C46”)，其包含具有K46C氨基酸残基取代的来自金黄色葡萄球菌的α-溶血素。在一些实施方案中，所述孔形成蛋白能够形成直径为约0.5纳米至约25纳米的纳米孔。

在制备式(I)的缀合物组合物的方法的一些实施方案中，所述蛋白和/或生物分子以小于1000 μM、750 μM、500 μM、250 μM、100 μM、50 μM、10 μM、5 μM或1 μM或更低的浓度存在于反应溶液中。

在本文公开的位点选择性缀合方法和相关组合物的实施方案中，所述蛋白是具有至少20 kDa、30 kDa、40 kDa、50 kDa或更高的分子量的孔形成蛋白。在所述方法和组合物的一些实施方案中，所述生物分子具有至少30 kDa、40 kDa、50 kDa、60 kDa、70 kDa、80kDa或更高的分子量。在一些实施方案中，所述孔形成蛋白具有至少30 kDa的分子量，且所述生物分子具有至少50 kDa的分子量。

在本文公开的位点选择性缀合方法和相关组合物的实施方案中，所述蛋白是孔形成蛋白，其是多聚复合物的一部分，其中所述多聚体选自六聚体、七聚体、八聚体、九聚体、十聚体或更大多聚体。在一些实施方案中，所述蛋白是孔形成蛋白，其是作为多聚复合物的一部分的单一单体，其中所述复合物的其他单体不包含式(V)的缀合物组合物(即，仅多聚体的单一单体与生物分子缀合)。

在本文公开的位点选择性缀合方法和相关组合物的实施方案中，所述蛋白是嵌入膜中的孔形成蛋白。在一些实施方案中，所述蛋白是孔形成蛋白，其是纳米孔的一部分。在一些实施方案中，所述蛋白附接至固体基底，且任选地，所述固体基底包含选自聚合物、玻璃、硅及其组合的材料。

在本文公开的位点选择性缀合方法和相关组合物的实施方案中，所述生物分子是能够催化聚合物合成的酶。在一些实施方案中，所述生物分子是选自DNA聚合酶、RNA聚合酶、逆转录酶和DNA连接酶的酶。在一些实施方案中，所述生物分子是天然存在的或非天然存在的(例如，工程改造的)酶，其具有5´→3´ DNA聚合酶活性和强链置换活性，但缺乏5´→3´外切核酸酶活性。在一些实施方案中，所述生物分子是DNA聚合酶，其任选地选自9^oN聚合酶、大肠杆菌DNA聚合酶I、大肠杆菌DNA聚合酶II、细菌噬菌体T4 DNA聚合酶、测序酶、TaqDNA聚合酶、9^oN聚合酶(外-)A485L/Y409V、DNA聚合酶Bst 2.0和Phi29 DNA聚合酶(ϕ29DNA聚合酶)。在一些实施方案中，所述生物分子是包含SEQ ID NO:9的氨基酸的DNA聚合酶Pol6。在一些实施方案中，包含反应性基团Z的生物分子是DNA聚合酶Pol6和SpyCatcher蛋白的融合物，任选地包含SEQ ID NO:10的氨基酸序列的融合物。

在包含式(I)的化合物的组合物和制备方法的一些实施方案中，接头L_A和L_B包含2至100个原子的共价键合链，其包含以下化学基团中的一种或多种：直链(C₁-C₅)烷基、直链(C₁-C₅)烯基、直链(C₁-C₅)炔基、酯、醚、胺、酰胺、酰亚胺、磷酸二酯和/或聚乙二醇(PEG)。在一些实施方案中，接头L_A和L_B通过至A和/或B上的巯基基团的硫醚键或通过至A和/或B的伯胺基团的肽键附接至A和B。在一些实施方案中，接头L_A和L_B包含1至50个聚乙二醇(PEG)部分的聚合物。在包含式(I)的化合物的组合物和制备方法的一些实施方案中，接头L_A和L_B独立地选自式(VIa) – 式(VIe)的结构。

附图简述

图1示意性(从上到下)描绘根据本公开的方法和组合物经由DBCO-叠氮化物点击化学和天然化学连接(NCL)的组合将聚合酶(“POL”)与纳米孔(“孔”)的位点选择性缀合的示例性方法中的反应步骤和试剂使用。对于将α-HL七聚纳米孔复合物与Pol6 DNA聚合酶缀合的特定情况，可用于图1中描绘的反应中的示例性材料和方法详细描述于实施例1中。

图2示意性(从上到下)描绘根据本公开的方法和组合物经由组合点击化学和SpyTag/SpyCatcher反应将聚合酶(“POL”)与纳米孔(“孔”)的位点选择性缀合的示例性方法中的反应步骤和试剂使用。对于将α-HL七聚纳米孔复合物与Pol6 DNA聚合酶缀合的特定情况，可用于图2中描绘的反应中的示例性材料和方法详细描述于实施例2中。

详述

本公开涉及蛋白(例如，孔形成蛋白、α-溶血素)与其他生物分子(例如，DNA聚合酶寡核苷酸、抗体和受体)的位点选择性缀合的方法和所得的式(V)的蛋白-生物分子缀合物

本公开还提供了在蛋白与生物分子的位点选择性缀合的方法中形成为中间体的化合物和组合物，包括包含结构式(IVa)的修饰的孔形成蛋白的中间组合物

其中，S是所述孔形成蛋白的硫醇基团的硫原子；A是硫醇反应性基团；L_A是接头；且X是点击化学反应性基团；Y是点击化学反应性基团，其经历与反应性基团X的点击化学反应；L_B是接头；且B是反应性基团。

如本文所公开的用于蛋白与生物分子的位点选择性缀合的方法通常包括以下步骤：

其中S是所述蛋白的硫醇基团的硫原子；

(b)使式(ii)的修饰的蛋白与式(iii)的化合物接触

和，

(c)在合适的反应条件下使式(IV)的修饰的蛋白与生物分子接触，其中所述生物分子包含反应性基团Z，其中Z能够与反应性基团B形成共价键，由此形成式(V)的蛋白-生物分子缀合物。

公开的方法和组合物允许蛋白和其他生物分子之间以相对低浓度且没有一种试剂相比于另一种试剂的大摩尔过量地快速、有效缀合。因此，用于制备本文公开的缀合物的组合物和化学方法特别好地适用于制备纳米孔组合物，所述纳米孔组合物包含与生物分子(诸如DNA聚合酶)共价连接的嵌入膜中的孔形成蛋白。此类纳米孔组合物可用于需要纳米孔检测的应用(包括单分子DNA边合成边测序)中。

用于蛋白与生物分子的位点选择性缀合的方法中的组合物、方法和参数的进一步细节在下文中描述。

对于本文中的描述和所附权利要求，单数形式“一个/种(a)”和“一个/种(an)”包括复数指示物，除非上下文另外清楚地指出。因此，例如，对“一种蛋白”的提及包括多于一种蛋白，且对“一种化合物”的提及是指多于一种化合物。“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“包括(include)”、“包括(includes)”和“包括(including)”的使用是可互换的，且无意为限制性的。应当进一步理解，在各个实施方案的描述使用术语“包含”的情况下，本领域技术人员会理解，在一些具体情况下，可以可替代地使用语言“基本上由……组成”或“由……组成”描述一个实施方案。

在提供值的范围的情况下，除非上下文另外清楚地指明，否则应当理解，在该范围的上限和下限之间的所述值的每个居间整数和所述值的每个居间整数的每个十分之一(除非上下文另外清楚地指明)以及该所述范围内的任何其他所述值或居间值均被涵盖在本发明内。这些较小范围的上限和下限可以独立地被包括在所述较小范围内，并且也被涵盖在本发明内，受所述范围内任何具体排除的限值的约束。在所述范围包括一个或两个限值的情况下，排除那些包括的限值中的(i)任一个或(ii)两个限值的范围也被包括在本发明中。例如“1-50”包括“2-25”、“5-20”、“25-50”、“1-10”等。

应当理解，前述一般描述(包括附图)和下述详细描述仅仅是示例性和解释性的，且不限制本公开。

定义

在本文描述中使用的技术和科学术语将具有本领域普通技术人员通常理解的含义，除非另外明确定义。因此，下述术语意图具有下述含义。

“蛋白”、“多肽”和“肽”在本文中可互换使用，以表示通过酰胺键共价连接的至少两个氨基酸的聚合物，无论长度或翻译后修饰(例如，糖基化、磷酸化、脂质化、肉豆蔻酰化、泛素化等)。

如本文所用的“孔形成蛋白”或“孔蛋白”是指能够在屏障材料(诸如脂质双层或细胞膜)中形成孔或通道结构的天然的或非天然存在的蛋白。如本文所用的该术语意图包括溶液中的孔形成蛋白和被嵌入膜或屏障材料中或固定化在固体基底或支持物上的孔形成蛋白。如本文所用的该术语意图包括作为单体且也作为它们能够组装成的任何多聚形式的孔形成蛋白。可以用于本公开的组合物和方法中的示例性孔形成蛋白包括α-溶血素(例如，来自金黄色葡萄球菌)、β-溶血素、γ-溶血素、气单胞菌溶素、溶细胞素(例如，肺炎链球菌溶血素)、杀白细胞素、蜂毒肽和孔蛋白A(例如，来自耻垢分枝杆菌(Mycobacterium smegmatis)的MspA)。

如本文所用的“聚合酶”是指能够催化聚合反应(诸如核苷酸单体的聚合)以形成核酸聚合物的任何天然的或非天然存在的酶或其他催化剂。可以用于本公开的组合物和方法中的示例性聚合酶包括核酸聚合酶诸如DNA聚合酶(例如，类别EC 2.7.7.7的酶)、RNA聚合酶(例如，类别EC 2.7.7.6或EC 2.7.7.48的酶)、逆转录酶(例如，类别EC 2.7.7.49的酶)和DNA连接酶(例如，类别EC 6.5.1.1的酶)。

如本文所用的“核酸”通常是指一个或多个核酸亚基的分子，所述核酸亚基包含核碱基腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体之一。核酸可以是指核苷酸(例如，dAMP、dCMP、dGMP、dTMP)的聚合物，也被称为多核苷酸或寡核苷酸，且包括单链和双链形式的DNA、RNA，及其杂合体。

“天然存在的”或“野生型”是指自然界中发现的形式。例如，天然存在的或野生型蛋白是具有生物体中存在的序列的蛋白，其可以分离自自然界中发现的来源且没有通过人工操作有意地修饰。

“工程改造的”、“重组的”或“非天然存在的”当关于例如细胞、核酸或多肽使用时，是指这样的物质：其已经以在自然界中否则不会存在的方式修饰，或与其相同，但从合成的物质和/或通过使用重组技术的操作产生或衍生。

如本文所用的“SpyCatcher蛋白”是指包含酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的N端片段的氨基酸序列，其包括Lys31、但不包括Asp117。在本公开的方法中可用作SpyCatcher蛋白的CNAB2 N端序列片段包括Li等人, J.Mol.Biol. 2014 January23; 426(2):309-317中公开的SpyCatcher蛋白。

如本文所用的“SpyTag蛋白”是指包含酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的C端片段的氨基酸序列，其包括Asp117，但不包括Lys31。

如本文所用的“纳米孔”是指在膜或其他屏障材料中形成或以其他方式提供的孔、通道或通路，其具有约0.1 nm至约1000 nm的特征性宽度或直径。纳米孔可以由天然存在的孔形成蛋白、诸如来自金黄色葡萄球菌的α-溶血素或野生型孔形成蛋白的突变体或变体(非天然存在的(即，工程改造的)诸如α-HL-C46，或天然存在的)制成。膜可以是有机膜，诸如脂质双层，或由非天然存在的聚合材料制成的合成膜。可以将纳米孔布置在相邻或邻近于传感器、传感电路或与传感电路(诸如，例如，互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路)偶联的电极。

如本文所用的“接头”是指在两个或更多个分子、分子基团和/或分子部分之间提供具有一定空间的键合连接的任何分子部分。可用于本公开的组合物和方法中的示例性接头可以包括2至100个聚乙二醇(PEG)部分的聚合链，所述聚合链可以进一步包括烷基、烯烃、炔烃、酯、醚、酰胺、酰亚胺和/或磷酸二酯基团。

如本文所用的“固体基底”或“固体支持物”是指生物分子可以附接的任何固相材料。可以与本公开的组合物和方法一起使用的示例性固体基底包括由各种固相材料(包括玻璃、聚合物和硅)制成的珠粒、载片、孔、芯片。

实施方案的详述

本文公开的用于制备蛋白(诸如孔形成蛋白、α-溶血素)和生物分子(诸如DNA聚合酶)之间的缀合物的位点选择性缀合方法通常需要包含接头和反应性基团(或反应性部分)的试剂，所述反应性基团(或反应性部分)与蛋白或生物分子上的基团反应。该缀合方法通常包括以下步骤(a)、(b)和(c)：

其中S是所述蛋白的硫醇基团的硫原子；

(b)使式(II)的修饰的蛋白与式(III)的化合物接触

和，

(c)在合适的反应条件下使式(IV)的修饰的蛋白与能够催化核苷酸聚合物合成的生物分子接触，其中所述生物分子包含反应性基团Z，其中Z能够与反应性基团B形成共价键，由此形成式(V)的蛋白-生物分子缀合物。

如上所示，一般方法需要式(I)和(III)的试剂化合物，且产生两种式(II)和(IV)的修饰的蛋白中间体。因此，式(V)的蛋白-生物分子缀合物由步骤(a)、(b)和(c)各自的三个共价键形成反应产生。

步骤(a)

步骤(a)包括用包含式(I)的点击化学反应性基团的接头共价修饰蛋白上的硫醇基团，产生式(II)的修饰的蛋白。该步骤基本上修饰蛋白，使得其能够经由容易且有效的点击化学反应进一步修饰。

在一些实施方案中，所述蛋白具有一个反应性硫醇基团，使得式(II)的修饰的蛋白在单个氨基酸残基位置被修饰。例如，反应性硫醇基团可以是位于蛋白的表面上的半胱氨酸氨基酸残基的硫醇基团或暴露于溶剂、使得其可以与式(I)的化合物的硫醇反应性基团A反应的任何其他区域。在一些实施方案中，所述蛋白是已经经由重组DNA技术工程改造以便仅具有可被式(I)的化合物修饰的单个半胱氨酸残基的变体。

在一个实施方案中，所述蛋白是孔形成蛋白，来自金黄色葡萄球菌(Staphyloccocus aureus)的α-溶血素(在本文中也被称为“α-HL”)。α-HL是孔形成蛋白类别中被研究得最多的成员之一，且已经被测序，克隆，使用宽范围的技术(包括定点诱变和化学标记)在结构上和在功能上广泛地表征(参见例如，Valeva等人(2001)，和其中引用的参考文献)。具体而言，α-HL具有在许多位置插入的半胱氨酸残基取代，允许通过马来酰亚胺接头化学(同上)共价修饰蛋白。在一些实施方案中，可用于本公开的方法中的α-溶血素可以是非天然存在的工程改造的孔形成蛋白α-溶血素-C46(“α-HL-C46”)，其包含具有K46C氨基酸残基取代的来自金黄色葡萄球菌的α-溶血素。

如以上结构描绘所示，式(I)的化合物通常包含：硫醇反应性基团，A，接头，L_A，和点击化学反应性基团，X。通常，式(I)的化合物应当在相对温和的水性条件下有效和选择性地反应，以便在蛋白上的硫醇基团和点击化学反应性基团X之间形成共价键。此外，点击化学反应性基团X不应当在其中硫醇反应性基团A与蛋白的硫醇基团反应的条件下与蛋白反应，因为X必须可用于经历在步骤(b)与其同源点击化学反应性基团Y的反应。

如上所示，必须选择点击化学反应性基团X，以便与步骤(b)中使用的其同源点击化学反应性基团Y配对。在该方法中有用的点击化学反应性基团X和Y可以选自以下对的点击化学反应性基团：叠氮化物和炔烃；叠氮化物和环辛炔；以及叠氮化物和二苯并环辛炔-胺。因此，在式(I)的化合物的一些实施方案中，点击化学反应性基团X选自炔烃、环辛炔和二苯并环辛炔-胺。或者，在一些实施方案中，式(I)的化合物，点击化学反应性基团，X是叠氮化物基团。

在温和条件下与蛋白半胱氨酸基团选择性反应的许多硫醇反应性基团是本领域已知的。已知与上述点击化学反应性基团对相容且因此在本公开的方法中作为硫醇反应性基团A特别有用的硫醇反应性基团A是马来酰亚胺基团和卤代乙酰胺基团。因此，在式(I)的化合物的一些实施方案中，硫醇反应性基团A选自马来酰亚胺和卤代乙酰胺。

通常，接头L_A应当提供共价系链，同时还在蛋白和点击化学反应性基团X之间提供足够的间隔，且最终提供经由该方法缀合的生物分子。因为步骤(a) – (c)的方法包括步骤(b)中使用的式(III)的化合物中的第二接头，L_B，还可以考虑由两个接头(作为式(V)的缀合物的部分的L_A和L_B)的组合提供的间隔。

因此，在本公开的一般实施方案中，用于实施包括步骤(a)-(c)的位点选择性缀合方法的式(I)和(III)的化合物中有用的接头基团L_A和L_B可以包括2至100个原子的共价键合的链，其包含以下化学基团中的一种或多种：直链(C₁-C₅)烷基、直链(C₁-C₅)烯烃、直链(C₁-C₅)炔烃、酯、醚、胺、酰胺、酰亚胺、磷酸二酯和/或聚乙二醇(PEG)。众所周知PEG接头用于缀合生物分子。因此，在本公开的组合物的某些实施方案中，接头L_A和L_B包含1至50个PEG部分的聚合物，在一些实施方案中，2至25个PEG部分的聚合物，且在一些实施方案中，2至15个PEG部分的聚合物。在一些实施方案中，接头L_A和L_B具有不同的长度和/或结构。还考虑在一些实施方案中，L_A和L_B是相同的。

可用于本公开的方法中的特定接头基团是众所周知的并且可商购获得，用于缀合或交联蛋白或其他生物分子。(参见例如，可得自www.piercenet.com的ThermoScientific, USA或www.sigmaaldrich.com的Sigma-Aldrich, USA的“crosslinkingreagents”的目录)。

以下更详细地提供式(I)的化合物的具体实施方案。

在一些实施方案中，式(I)的化合物包含如表1中所示的式(Ia)或(Ib)的化合物。

表 1

其中R₃是选自F、Cl、Br和I的卤素原子。

在一些实施方案中，式(I)的化合物包含选自如表2中所示的式(Ic)、(Id)、(Ie)、(If)、(Ig)和(Ih)的化合物的化合物。

表 2

其中R₃是选自F、Cl、Br和I的卤素原子；

其中R₃是选自F、Cl、Br和I的卤素原子。

在一些实施方案中，式(I)的化合物包含选自如表3中所示的式(Ii)和(Ij)的化合物的化合物。

表 3

其中，

n = 1至50，且q、r和s各自独立地= 0、1、2或3

其中，

n = 1至50，且q、r和s各自独立地= 0、1、2或3；且

R₃是选自F、Cl、Br和I的卤素原子。

在一些实施方案中，式(I)的化合物包含选自如表4中所示的式(Ik)和(Im)的化合物的化合物。

表 4

其中R₃是选自F、Cl、Br和I的卤素原子。

步骤(b)

步骤(b)包括在式(II)的修饰的蛋白上的点击化学反应基团X，和在式(III)的试剂化合物上的同源点击化学基团Y。该步骤产生式(IV)和(IVa)的中间修饰的蛋白组合物(参见上文)。其为式(IV)的该中间体化合物上的反应性基团B，其经历步骤(c)中与生物分子的最终的位点选择性反应。

如以上结构描绘所示，用作步骤(b)中的试剂的式(I)的化合物通常包含：点击化学反应性基团，Y，接头，L_B，和反应性基团，B。必须选择点击化学反应性基团Y，以便与步骤(b)中使用的其同源点击化学反应性基团X配对。如上所示，在该方法中有用的点击化学反应性基团X和Y可以选自以下对的点击化学反应性基团：叠氮化物和炔烃；叠氮化物和环辛炔；以及叠氮化物和二苯并环辛炔-胺。在式(III)的化合物的一些实施方案中，点击化学反应性基团Y是叠氮化物基团。叠氮化物基团将经历与选自炔烃、环辛炔和二苯并环辛炔-胺的同源X基团的点击化学反应。或者，在式(III)的化合物的一些实施方案中，点击化学反应性基团Y选自炔烃、环辛炔和二苯并环辛炔-胺。

式(III)的试剂化合物的同源点击化学反应性基团Y将在相对温和的条件下有效且选择性反应，以与式(II)的修饰的蛋白的点击化学反应性基团X形成共价键。所得的式(IV)的进一步修饰的蛋白包含共价键，其在本文示意性描述(参见上文式(IV)的化合物)为X和Y之间的单线，然而，该键包含杂环(例如，三唑)化学部分，其具有取决于两个点击化学反应性基团X和Y的结构。

通常，接头L_B应当提供共价系链，同时还在蛋白和点击化学反应性基团Y之间提供足够的间隔，且最终提供经由该方法缀合的生物分子。如上所示，因为步骤(a) – (c)的方法包括两个接头，即L_A和L_B，所以可以在选择式(III)的化合物中的接头L_B中考虑通过组合两个接头的组合提供的间距。

因此，在一些实施方案中，可用于式(III)的化合物中的接头基团L_B可以包括2至100个原子的共价键合链，其包含以下化学基团中的一种或多种：直链(C₁-C₅)烷基、直链(C₁-C₅)烯烃、直链(C₁-C₅)炔烃、酯、醚、胺、酰胺、酰亚胺、磷酸二酯和/或聚乙二醇(PEG)。

接头L_B的选择还可以取决于选择用于式(III)的化合物的反应性基团B。如下面更详细讨论，可以使用较短的接头L_B(例如，2-3个碳)，其中反应性基团B是SpyTag肽，其包含13个氨基酸的链，或者当反应性基团B是苄基硫酯基团时，可以选择更长的接头L_B(例如，5-50个碳)。

式(IV)的修饰的蛋白的各个实施方案(其中蛋白是如(IVa)中的孔形成蛋白，并且其说明在反应性基团Y和活性基团X的点击反应后可以形成的各种杂环共价键结构)在下表5中显示为式(IVb) - (IVi)的化合物。

表 5

其中，n = 1至50，且q、r和s各自独立地= 0、1、2或3。

通常，式(III)的化合物的反应性基团B的选择将取决于反应性基团Z，其为用于步骤(c)的反应中的位点选择性缀合的生物分子的靶标基团。

在一个实施方案中，生物分子的反应性基团Z包含N端半胱氨酸残基，且选择的反应性基团B是硫酯。硫酯反应性基团B可以经历“天然化学连接”反应(在本文中也称为“NCL反应”)，其形成包含肽键的共价键。(参见例如Dawson等人, “Synthesis of proteins bynative chemical ligation,” Science 1994, 266, 776–779.) 下文更详细地提供了有用的式(III)的化合物的实施方案(其中生物分子的反应性基团Z包含N端半胱氨酸残基且NCL反应用于缀合)。

在其中反应性基团Z包含N端半胱氨酸残基的一些实施方案中，式(III)的化合物可以包含如表6中所示的式(IIIa)或(IIIb)的化合物。

表 6

其中

R₄选自直链或支链(C₁-C₆)烷基、直链或支链(C₁-C₆)烯基、直链或支链(C₁-C₆)炔基、未取代或对位取代的6-元芳基环和未取代或对位取代的6-元杂芳基环。

在其中生物分子的反应性基团Z包含N端半胱氨酸残基的具体实施方案中，反应性基团B是苄基硫酯。

在其中反应性基团Z包含N端半胱氨酸残基的进一步具体实施方案中，式(III)的化合物可以包含如表7中所示的式(IIIc)或(IIId)的化合物。

表 7

其中

在另一个实施方案中，生物分子的反应性基团Z包含SpyCatcher蛋白，且选择的反应性基团B是SpyTag肽。SpyCatcher蛋白和SpyTag肽在蛋白的赖氨酸残基和肽的天冬氨酸残基之间经历反应，产生将两者缀合的共价键。(参见例如，Zakeri和Howarth (2010).JACS132:4526-7; 和Li等人, J.Mol.Biol. 2014 January 23; 426(2): 309-317.) 下文更详细地提供了有用的式(III)的化合物的实施方案(其中生物分子的反应性基团Z包含SpyCatcher蛋白且SpyCatcher-SpyTag反应用于缀合)。

通常，在本公开的方法中，当反应性基团Z包含SpyCatcher蛋白时，式(III)的化合物的反应性基团B应当包含SpyTag肽。因此，在具体实施方案中，式(III)的化合物可以包含如表8中所示的式(IIIe)或(IIIf)的化合物。

表 8

此外，由于式(IV)的修饰的蛋白是步骤(b)的结果，因此考虑在一些实施方案中，式(IV)的反应性基团B包含SpyTag肽。因此，在具体实施方案中，式(IV)的修饰的蛋白化合物可以包含如表9中所示的式(IVi)或(Vk)的化合物。

表 9

如本文别处所述，SpyTag肽和SpyCatcher蛋白各自包含来自酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的氨基酸序列的片段。(参见例如，Li等人, J.Mol.Biol.2014 January 23; 426(2): 309-317)。通常，SpyTag肽包含来自较小C端片段(例如，8-20个氨基酸)的反应性天冬氨酸残基，且SpyCatcher蛋白包含来自较大N端片段(例如，100-140个氨基酸)的反应性赖氨酸残基。SpyTag肽的反应性天冬氨酸残基以最佳构象天然结合SpyCatcher蛋白，使得天冬氨酸与赖氨酸反应以在两者之间形成共价键。

在本公开的方法和组合物中可用作SpyTag肽的示例性C端CnaB2结构域序列片段包含来自Li等人, J.Mol.Biol.2014 January 23; 426(2):309-317的以下13 aa氨基酸序列：AHIVMVDAYKPTK (SEQ ID NO:1)。在本公开的方法和组合物中可用作SpyTag肽的其他CnaB2 C端序列片段可以包括SEQ ID NO:1的SpyTag肽的较短片段，诸如AHIVMVDAYK (SEQID NO:2)和AHIVMVDA (SEQ ID NO:3)。

在一些实施方案中，考虑在本公开的方法和组合物中有用的SpyTag肽可以包含额外的氨基酸，诸如修饰的氨基酸，其允许SpyTag与接头共价附接。在一些实施方案中，SpyTag可以在其N端包含叠氮基修饰的氨基酸，诸如4-叠氮基-L-高丙氨酸(“L-ahA”)。因此，示例性SpyTag肽可以包含以下氨基酸序列：(L-ahA)AHIVMVDAYKPTK (SEQ ID NO:4)。可用于点击化学和其他容易的、高效共价附接化学的一系列叠氮基、炔基和其他基团修饰的氨基酸是本领域已知的且市售的(参见例如，www.jenabioscience.com, Jena BioscienceGmbH, Jena, Germany)。

SpyCatcher蛋白可以包含一系列氨基酸序列，其包含酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的N端片段(其包括Lys31、但不包括Asp117)。

在一些实施方案中，本公开的方法中有用的SpyCatcher蛋白可以包括SEQ ID NO:2的138 aa氨基酸序列。

在本公开的方法中可用作SpyCatcher蛋白的酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域可以包括来自Li等人, J.Mol.Biol. 2014 January 23; 426(2):309-317的以下144 aa序列：

。

在本公开的方法中可用作SpyCatcher蛋白的示例性N端CnaB2结构域序列片段包括以下129 aa氨基酸序列：

。在一些实施方案中，在本公开的方法中可用作SpyCatcher蛋白的N端CnaB2结构域序列片段包括来自Li等人, J.Mol.Biol. 2014January 23; 426(2):309-317的以下138 aa氨基酸序列：

。

考虑本公开的方法和缀合物组合物中有用的SpyCatcher蛋白可以在N和C端包含额外的氨基酸接头以促进纯化和与生物分子(例如DNA聚合酶)的融合。包含额外的氨基酸序列(例如，N端His标签和C端GGS接头)的示例性SpyCatcher蛋白具有以下143 aa序列：

。

在本公开的方法和组合物的一些实施方案中，考虑可以使用SpyCatcher蛋白和生物分子的融合物。在一些实施方案中，所述融合物包含经由其C端附接至生物分子aa序列的N端的SpyCatcher蛋白序列，其中所述融合物任选地包含SpyCatcher蛋白和生物分子之间的多肽接头序列。

类似地，SpyTag肽可以包含一系列氨基酸序列，其包含酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的C端片段(其包括Asp117、但不包括Lys31)。在一些实施方案中，在本公开的方法和组合物中有用的SpyTag肽可以包括选自SEQ ID NO:1、2、3和4的氨基酸序列。在一个实施方案中，SpyTag肽包含SEQ ID NO:1的氨基酸序列。

步骤(c)

步骤(c)包括在结构式(IV)的修饰的蛋白的反应性基团B和生物分子的反应性基团Z之间的最终的形成共价键的反应。该反应导致形成式(V)的蛋白-生物分子缀合物组合物。如上所述，反应性基团B和Z的选择将决定步骤(c)的合适反应条件。NCL反应条件和SpyTag-SpyCatcher反应条件两者都是本领域众所周知的，并且可用于本公开的步骤(c)反应中。(参见例如，Dawson等人, (1994) Science 266, 776–779; Zakeri和Howarth (2010)JACS 132:4526-7; 和Li等人 (2014) J.Mol.Biol. 23; 426(2): 309-317.)

作为步骤(c)反应的产物的式(V)的蛋白-生物分子缀合物组合物的各个实施方案在下表10中显示为式(Vb) - (Vm)的化合物。

表 10

其中，n = 1至50，且q、r和s各自独立地= 0、1、2或3。

公开的包括步骤(a)-(c)的位点选择性缀合方法允许蛋白和其他生物分子之间以相对低浓度且没有一种试剂相比于另一种试剂的大摩尔过量地快速、有效缀合。因此，用于制备本文公开的缀合物的组合物和化学方法特别好地适用于制备纳米孔组合物，所述纳米孔组合物包含与生物分子(诸如DNA聚合酶)共价连接的嵌入膜中的孔形成蛋白。此类纳米孔组合物可用于需要纳米孔检测的应用(包括单分子DNA边合成边测序)中。

本文公开的包括步骤(a)-(c)的一般位点选择性缀合方法可以与天然存在和非天然存在的(例如，工程改造的或重组的)蛋白形式的宽范围的孔形成蛋白一起使用。宽范围的孔形成蛋白是本领域已知的，并且由于其共同的氨基酸聚合结构，本文提供的缀合试剂和方法应当广泛适用于它们。因此，在本公开的一些实施方案中，包括步骤(a) - (c)的方法中使用的孔形成蛋白选自α-溶血素、β-溶血素、γ-溶血素、气单胞菌溶素、溶细胞素、杀白细胞素、蜂毒肽、MspA孔蛋白和孔蛋白A。

本文公开的包括步骤(a)-(c)的位点选择性缀合方法的令人惊讶的优点是，即使孔形成蛋白和生物分子两者都是大蛋白且因此仅以相对低浓度在反应溶液中可用，也快速且有效地形成式(V)的缀合物组合物。例如，在制备式(I)的缀合物组合物的方法的一些实施方案中，所述蛋白和/或生物分子以小于1000 μM、750 μM、500 μM、250 μM、100 μM、50 μM、10 μM、5 μM或1 μM或更低的浓度存在于反应溶液中。

因为包括步骤(a)-(c)的快速且有效的位点选择性缀合方法允许此类低反应物浓度，所以组合物和制备方法中，蛋白和生物分子在高得多的重量范围内。因此，在本文公开的组合物和制备方法的一些实施方案中，所述蛋白具有至少20 kDa、30 kDa、40 kDa、50kDa或更高的分子量。在所述组合物的一些实施方案中，所述生物分子具有至少30 kDa、40kDa、50 kDa、60 kDa、70 kDa、80 kDa或更高的分子量。在一些实施方案中，所述蛋白具有至少30 kDa的分子量，且所述生物分子具有至少50 kDa的分子量。

此外，包括步骤(a)-(c)的位点选择性缀合方法具有允许形成式(II)、(IV)和(V)的缀合物的令人惊讶的优点，其中所述蛋白是大多聚蛋白复合物的一部分。因此，在本文公开的组合物和制备方法的一些实施方案中，所述蛋白是孔形成蛋白，其是多聚复合物的一部分，其中所述多聚体选自六聚体、七聚体、八聚体、九聚体、十聚体或更大多聚体。在一些实施方案中，所述孔形成蛋白是作为多聚复合物的一部分的单一单体，其中所述复合物的其他单体在步骤(a) – (c)的方法中未被修饰(即，仅多聚体的单一单体与生物分子缀合)。

通常，本公开的实施方案中有用的孔形成蛋白能够在膜中自发地自组装纳米孔，其中所述纳米孔具有约0.5纳米至约25纳米范围内的直径。在本文公开的组合物和方法的一些实施方案中，所述蛋白是孔形成蛋白，其嵌入膜中，且由此通过膜(或其他屏障材料)形成纳米孔。因此，在一些实施方案中，所述蛋白是孔形成蛋白，其为纳米孔的一部分，和/或是形成纳米孔的多聚蛋白复合物或组装体的一部分。

在孔形成蛋白是α-HL的情况下，α-HL单体的七聚复合物可以在脂质双层中自发地形成纳米孔。已经显示，包含6:1的天然α-HL:突变α-HL比率的α-HL的七聚体可以形成纳米孔(参见例如，Valeva等人(2001)，和其中引用的参考文献)。因此，在一些实施方案中，本公开的组合物和方法可以包含纳米孔，其中所述纳米孔包含七聚α-HL复合物，其具有6:1天然α-HL:α-HL-C46，且进一步其中在进行步骤(a)-(c)时，α-HL-C46与生物分子缀合。在一些实施方案中，与纳米孔缀合的生物分子是DNA聚合酶。

此外，考虑可以进行包括步骤(a)-(c)的位点选择性缀合方法，其中所述蛋白是孔形成蛋白，其为已形成纳米孔的多聚复合物的一部分。因此，在一些实施方案中，形成缀合物的方法包括首先形成包含孔形成蛋白的纳米孔，然后进行该方法的步骤(a) – (c)，其中所述孔形成蛋白是多聚体的一部分。因此，在一些实施方案中，本公开提供了包含七聚α-HL纳米孔的组合物，其中α-HL单体单元中的至少一个被共价修饰，如在式(II)、(IV)和(V)的化合物中。在一些实施方案中，七聚α-HL纳米孔包含6个天然α-HL单体和1个α-HL突变体单体，所述α-HL突变体单体包含用点击反应性基团X共价修饰的氨基酸残基，如式(II)的化合物中。在一些实施方案中，1个α-HL突变体单体是α-HL-C46，其包含单个半胱氨酸残基。

在一些实施方案中，考虑可以进行包括步骤(a)-(c)的位点选择性缀合方法，其中所述蛋白是溶液中的孔形成蛋白，其是纳米孔的一部分。然而，还考虑在一些实施方案中，可以进行步骤(a)-(c)的缀合方法，其中所述孔形成蛋白是固定化(诸如通过共价或非共价(直接或间接)附接至固体支持物)的纳米孔的一部分。

考虑包含本公开的式(V)的孔形成蛋白缀合物组合物的纳米孔可用于典型的纳米孔应用和装置、诸如单分子核酸测序中。纳米孔装置及其制备和使用方法公开于例如美国专利号7,005,264 B2；7,846,738；6,617,113；6,746,594；6,673,615；6,627,067；6,464,842；6,362,002；6,267,872；6,015,714；5,795,782；和美国公开号2013/0264207，2013/0244340，2004/0121525和2003/0104428，其各自在此通过引用整体并入。在此类纳米孔实施方案中，所述孔形成蛋白通常嵌入附接至固体基底的膜中。通常，所述固体基底包含选自聚合物、玻璃、硅及其组合的材料。另外，所述固体基底可以进一步包含邻近于纳米孔的传感器、传感电路或与传感电路(任选地，互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路)偶联的电极。

通常，本公开的实施方案中有用的生物分子可以是任何蛋白或核酸，其可能需要与孔形成蛋白缀合，且由此位于纳米孔附近，且伴随纳米孔检测系统。在一个实施方案中，考虑本公开的缀合物组合物可用于基于纳米孔的核酸测序装置中。因此，在本文公开的组合物和方法的一些实施方案中，所述生物分子是能够催化核苷酸聚合物合成的酶。在一些实施方案中，所述生物分子是选自DNA聚合酶、RNA聚合酶、逆转录酶和DNA连接酶的酶。在一些实施方案中，所述生物分子是天然存在的或非天然存在的(例如，工程改造的)酶，其具有5´→3´ DNA聚合酶活性和强链置换活性，但缺乏5´→3´外切核酸酶活性。

宽范围的聚合酶和连接酶是本领域已知的，且由于其共同的氨基酸聚合结构，本文提供的缀合试剂和方法应当广泛适用于它们。可以在本公开的组合物和方法中使用的示例性聚合酶包括核酸聚合酶诸如DNA聚合酶(例如，类别EC 2.7.7.7的酶)、RNA聚合酶(例如，类别EC 2.7.7.6或EC 2.7.7.48的酶)、逆转录酶(例如，类别EC 2.7.7.49的酶)和DNA连接酶(例如，类别EC 6.5.1.1的酶)。在一些实施方案中，所述生物分子包含来自嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)的DNA聚合酶。在一些实施方案中，所述生物分子包含来自嗜热脂肪芽孢杆菌(B. stearothermophilus)的DNA聚合酶的大片段。在一个实施方案中，所述生物分子是DNA聚合酶Bst 2.0 (可商购得自New England BioLabs, Inc.,Massachusetts, USA)。在一些实施方案中，所述生物分子是9^oN聚合酶、大肠杆菌DNA聚合酶I、细菌噬菌体T4 DNA聚合酶、测序酶、Taq DNA聚合酶、9^oN聚合酶(外-)A485L/Y409V或Phi29 DNA聚合酶(φ29 DNA聚合酶)。

在一些实施方案中，本公开的方法和缀合物组合物中有用的DNA聚合酶是Pol6，其具有以下726 aa序列：

。

如本文别处所述，生物分子(例如，DNA聚合酶)和SpyCatcher蛋白的融合多肽可用于本公开的方法和组合物中。因此，在一些实施方案中，SpyCatcher蛋白序列与HIS标签和SEQ ID NO:8的接头以及SEQ ID NO:9的726个氨基酸Pol6聚合酶序列的融合物。本公开的方法和组合物中有用的一种这种示例性的DNA聚合酶Pol6和SpyCatcher蛋白的融合多肽包含以下875个氨基酸序列：

。

普通技术人员将认识到示例性的SEQ ID NO:10的875 aa SpyCatcher-Pol6融合多肽序列可以由任何宽范围的简并核苷酸(nt)编码序列编码。在一个实施方案中，SpyCatcher-Pol6融合序列由2610 nt序列编码：

。

在具体实施方案中，本公开提供了步骤(a) – (c)的方法和包含式(I)、(II)、(III)、(IV)和(V)的化合物的相关组合物，其中接头L_A和L_B独立地选自如下表11中所示的式(VIa) – 式(VIe)的结构。

表 11

其中，n = 1至50，且q、r和s各自独立地= 0、1、2或3；

其中，n = 1至50，且q、r和s各自独立地= 0、1、2或3。

实施例

实施例1：使用点击化学和天然化学连接将孔形成蛋白与聚合酶进行位点选择性缀合

本实施例说明使用本文公开的步骤(a) – (c)的位点选择性缀合方法，其中B和Z反应性基团在步骤(c)中经历天然化学连接(NCL)反应。本实施例表明式(V)的组合物的制备，其中作为七聚纳米孔复合物的一部分的α-HL-C46孔形成蛋白的半胱氨酸侧链与DNA聚合酶(Pol)的N端缀合，如图1中示意性描绘。

材料和方法

A. 孔形成蛋白(例如，α-HL)纯化：使用的孔形成蛋白单体是天然α-HL和工程改造的α-HL-C46，两者均与用于纯化的6-His标签一起编码。使用标准蛋白工程改造技术制备具有6-His标签的金黄色葡萄球菌α-HL单体的K46C(位置46的赖氨酸被半胱氨酸取代)突变体(“α-HL-C46”) (参见例如，Valeva等人 (2001)和Palmer等人(1993))。天然α-HL和α-HL-C46单体在大肠杆菌中重组表达，并使用标准技术进行亲和纯化。简而言之，野生型α-HL和α-HL-C46如“PrepEase” His-标记的蛋白纯化试剂盒(USB-Affymetrix; USA)的方案中所述进行纯化，并且以1.0 mg/mL蛋白浓度交换至具有1mM三-羧乙基-膦(TCEP)的1x PBS (pH 7.2)中。所有α-HL纯化步骤均在还原剂(TCEP或DTT)存在的情况下进行。

B.6:1七聚纳米孔形成：如下将纯化的α-HL-C46与野生型α-HL在脂质存在的情况下混合以形成七聚体。为了获得具有最佳6:1比率的天然α-HL单体:α-HL-C46突变体单体的七聚孔复合物，使用11:1比率用于寡聚化。将脂质(1,2-二植烷酰基-sn-甘油-3-磷酸胆碱，粉末，Avanti Polar Lipids)以5 mg/mL的最终浓度添加于50 mM tris, 200 mM NaCl, pH8.0中，在40℃下持续30分钟。如通过澄清所评价，将5％辛基-β-葡糖苷(β-OG)添加至pop囊泡中以溶解蛋白。然后使用100K MWCO过滤器浓缩样品，并以24000 RPM旋转30分钟以沉淀沉淀的蛋白。在用pH 7.5的30 mM βOG, 75 mM KCl, 20 mM HEPES平衡尺寸排阻柱后，在低压下装载500 μL浓缩样品以从单体分离七聚的6:1 α-HL孔复合物。在两个连续的尺寸排阻柱中浓缩至5 mL后，将样品装载至Mono S 5/50 GL柱(GE Healthcare; New Jersey, USA)上。进一步的FPLC用于将6:1 α-HL:α-HL-C46孔与具有不同亚基化学计量(例如7:0, 5:2)的那些分离。FPLC流动相由以下组成：A，运行缓冲液：20 mM 2-(N-吗啉代)乙磺酸(MES)，0.1% Tween^®20，pH 5；B，洗脱缓冲液：2M NaCl，20 mM MES，0.1% Tween^®20，pH 5。从如下进行纯化：经21分钟的100％ A等度，随后是持续20分钟的0-100％ B的线性梯度，且然后经另外2分钟的100％ B等度。流速为1 ml/min。纯天然7:0 α-HL七聚孔复合物首先洗脱，且6:1α-HL:α-HL-C46七聚孔复合物洗脱，保留时间为约24.5 min至约25.5 min。

C. 步骤(a)的DBCO-马来酰亚胺试剂反应和式(II)的DBCO-修饰的孔形成蛋白的分离：通过缓冲液交换从纯化的6:1七聚α-HL纳米孔复合物中除去还原剂TCEP或DTT，并将缀合缓冲液的pH调节至pH 7。将DBCO马来酰亚胺试剂(Click Chemistry Tools, A108P-100)溶解于无水DMF中至100 mM的浓度。马来酰亚胺试剂以相对于蛋白10倍过量添加，并将混合物在4℃下孵育过夜。在下一反应步骤之前通过缓冲液交换将过量的马来酰亚胺试剂与DBCO-修饰的纳米孔反应混合物分离。

D. 制备式(III)的叠氮化物修饰的苄基硫酯同源点击试剂：叠氮化物硫酯同源点击试剂的合成使用如下所示的一般反应方案进行。

简而言之，在室温下将叠氮化物-PEG₄-NHS (0.1 g, 0.00026 mol)于DMF (2 mL)中的溶液逐滴添加至苄基硫醇(36 µL, 0.00031 mol, 1.2 eq)于DMF (3 mL)和三乙胺(108 µL, 0.00077 mol, 3 eq)中的溶液中。将所得反应混合物在室温(RT)下搅拌，并通过TLC监测反应的进程。完成后，将该反应混合物稀释于二氯甲烷中，并用NaHCO₃饱和溶液洗涤，用水2x100 mL洗涤，且然后干燥(Na₂SO₄)。将所得油状物在快速色谱(己烷:EA混合物10:1中的SiO₂)上分离，以产生0.06 g产物(~58％)产率。所得叠氮化物修饰的苄基硫酯的质谱在399 (M+1)处具有主要离子。将叠氮化物修饰的苄基硫酯化合物溶解于DMF中至147 mM的浓度。

E. 式(II)和(III)的化合物的步骤(b)中的点击反应和式(IV)的苄基硫酯修饰的孔-蛋白的分离/纯化：将本实施例的步骤D中制备的式(III)的叠氮化物修饰的苄基硫酯化合物以10倍过量添加至本实施例的步骤C中制备的DBCO-马来酰亚胺修饰的孔蛋白纳米孔复合物中。使所得混合物在4℃下反应过夜。18小时后，通过缓冲液交换(脱盐)将式(IV)的苄基硫酯修饰的孔蛋白与过量的未反应的化合物分离。

F. 产生式(V)的位点特异性α-HL-聚合酶缀合物的天然化学连接(NCL)反应：将用N端半胱氨酸工程改造的Pol6 DNA聚合酶(SEQ ID NO:9)，和步骤E中制备的式(IV)的苄基硫酯修饰的孔蛋白(作为6:1纳米孔复合物)与天然化学连接催化剂4-巯基苯乙酸(MPAA)以分别10:1:100的相对比率在4℃下孵育18小时。预期的α-HL-聚合酶缀合物通过凝胶电泳和通过进行如本文别处所述的纳米孔测序实验来表征。

实施例2：使用点击化学和SpyCatcher-SpyTag反应将孔形成蛋白与聚合酶进行位点选择性缀合

本实施例说明使用用B和Z反应性基团的本文公开的步骤(a) – (c)的位点选择性缀合方法，所述B和Z反应性基团提供步骤(c)中的SpyTag肽与SpyCatcher蛋白的反应。本实施例表明式(V)的组合物的制备，其中作为七聚纳米孔复合物的一部分的α-HL-C46孔形成蛋白的SpyTag-修饰的C46残基与SpyCatcher-Pol6 DNA聚合酶融合物位点特异性缀合，如图2中示意性描绘。

材料和方法

A. 孔形成蛋白(例如，α-HL)纯化：使用的孔形成蛋白单体是天然α-HL和工程改造的α-HL-C46，两者均与用于纯化的6-His标签一起编码。使用标准蛋白工程改造技术制备具有6-His标签的金黄色葡萄球菌α-HL单体的K46C(位置46的赖氨酸被半胱氨酸取代)突变体(“α-HL-C46”) (参见例如，Valeva等人 (2001)和Palmer等人 (1993))。天然α-HL和α-HL-C46单体在大肠杆菌中重组表达，并使用标准技术进行亲和纯化。简而言之，野生型α-HL和α-HL-C46如“PrepEase” His-标记的蛋白纯化试剂盒(USB-Affymetrix; USA)的方案中所述进行纯化，并且以1.0 mg/mL蛋白浓度交换至具有1mM三-羧乙基-膦(TCEP)的1x PBS (pH 7.2)中。所有α-HL纯化步骤均在还原剂(TCEP或DTT)存在的情况下进行。

D. 制备式(III)的叠氮化物修饰的SpyTag同源点击试剂：具有N端L-叠氮基-高丙氨酸(“ahA”)残基的SpyTag肽氨基酸序列AHIVMVDAYKPTK (SEQ ID NO:1)使用标准自动化肽合成方法合成和纯化。所得的式(III)的N-叠氮基修饰的SpyTag同源点击试剂具有序列ahA-AHIVMVDAYKPTK (SEQ ID NO:4)。将该SpyTag同源点击试剂溶解于20 mM HEPES缓冲液pH 7.0(“缀合缓冲液”)中，用于下一步骤中。

E. 用于步骤(b)中的式(II)和(III)的化合物的点击反应和式(IV)的SpyTag修饰的孔-蛋白的任何中间体分离或纯化的条件：将10倍过量的SpyTag同源点击试剂(在步骤D中制备)添加至DBCO修饰的孔形成蛋白(在步骤C中制备)中。使所得点击反应混合物在4℃下反应过夜。18小时后，通过缓冲液交换(脱盐)将所得的式(IV)的SpyTag-修饰的孔蛋白与任何过量的未反应的同源点击试剂分离。

F. SpyCatcher-Pol6聚合酶融合蛋白的制备：将编码SEQ ID NO:9的Pol6聚合酶的序列重组修饰，使得编码SEQ ID NO:8的SpyCatcher蛋白序列的序列从聚合酶的N端延伸。所得SpyCatcher-Pol6融合物具有SEQ ID NO:10的氨基酸序列，其包括用于亲和纯化的N端His标签以及Pol6和SpyCatcher之间的GGS肽接头。融合构建物由SEQ ID NO:11的核苷酸序列编码。

G. SpyCatcher-SpyTag缀合反应和式(V)的α-HL-聚合酶的最终产物缀合物的分离：将包括SpyTag-修饰的α-HL孔蛋白(在步骤E中制备)的纳米孔复合物与SpyCatcher-Pol6融合物(在步骤F中制备)以1:4摩尔比在4℃下孵育过夜。SpyCatcher蛋白和SpyTag肽在SpyCatcher蛋白的赖氨酸残基和SpyTag肽的天冬氨酸残基之间经历自发的共价键形成反应。该共价键形成产生将Pol6聚合酶与在本文通过式(Vm)一般性说明的七聚纳米孔复合物的α-HL-C46缀合的特定键。如实施例3中所述，通过凝胶电泳且通过使用缀合物用于纳米孔测序来表征位点特异性缀合物的形成。

实施例3：在纳米孔阵列中使用如实施例2中制备的α-HL-Pol6 SpyTag-SpyCatcher缀合物的纳米孔测序

本实施例说明在纳米孔阵列中使用如实施例2中制备的α-HL-Pol6纳米孔缀合物用于将核酸测序。α-HL-Pol6纳米孔缀合物嵌入在可单独寻址的集成电路芯片的阵列上形成的膜中。该α-HL-Pol6纳米孔阵列暴露于JAM1A自引发DNA模板和一组对应于四种核苷酸dA、dC、dG和dT的四种不同的5'-标记的核苷酸底物。由于捕获与DNA模板互补的特异性5'-标记的核苷酸并与Pol6聚合酶活性位点结合，标签部分的“尾部”变得位于缀合在附近的α-HL纳米孔中。在施加的AC电位下，与开孔电流(即，纳米孔中没有标签的电流)相比，孔中标签的存在引起独特的阻断电流。当Pol6合成与模板互补的链时测量的阻断电流的序列鉴定DNA模板的序列。

纳米孔检测系统：使用包含CMOS微芯片的纳米孔阵列微芯片进行纳米孔阻断电流测量，所述CMOS微芯片具有在浅孔内的128,000个银电极的阵列(由Genia Technologies,Mountain View, CA, USA制造的芯片)。关于制造和使用此类纳米孔阵列微芯片的方法还可以见于美国专利申请公开号2013/0244340 A1、US 2013/0264207 A1和US2014/0134616A1，其各自在此通过引用并入本文。使用标准的CMOS工艺用表面修饰制造所述阵列中的每个孔，所述表面修饰允许与生物学试剂和传导性盐的恒定接触。每个孔可以支持磷脂双层膜，所述磷脂双层膜具有嵌入其中的纳米孔-聚合酶缀合物。在每个孔处的电极可通过计算机接口单独寻址。使用计算机控制的注射泵将使用的所有试剂引入阵列微芯片上方的简单流动室中。所述芯片支持模拟至数字转换并以超过1000点/秒的速率独立地报告来自所有电极的电测量。可以在所述阵列中在128K个可寻址的含有纳米孔的膜中的每一个处以每毫秒(msec)至少一次异步地进行纳米孔阻断电流测量，并记录在接口的计算机上。

脂质双层在芯片上的形成：使用1,2-二植烷酰基-sn-甘油-3-磷酸胆碱(AvantiPolar Lipids)制备在芯片上的磷脂双层膜。将脂质粉末以15 mM溶解于癸烷中，且然后在芯片上的孔间的层中涂层。然后通过穿过阵列孔的顺侧泵送空气开始薄化工艺，因此将多层脂质膜减小至单个双层。使用0-1000 mV的渐变电压测试双层形成。典型的单一双层在300-500 mV之间的施加电压下暂时地开放。

纳米孔-聚合酶缀合物插入膜中：在阵列芯片的孔上形成脂质双层之后，将3 μM的5’-标记的核苷酸、0.1 μM的6:1 α-HL-Pol6纳米孔-聚合酶缀合物、0.4 μM的期望的“JAM1A”DNA模板(都在3 mM CaCl₂、20 mM Hepes和500 mM谷氨酸钾pH8的缓冲溶液中)在20℃下添加至芯片的顺侧。所述混合物中的纳米孔-聚合酶缀合物自发地插入脂质双层中。由于仅存在Ca²⁺且不存在Mg²⁺ 金属离子，三元复合物能够在Pol6活性位点处形成，但标记的核苷酸未被掺入，且5’-磷酸酯-连接的标签未被释放。

“JAM1A”DNA模板是一种99-聚体自引发单链，其具有序列5’-TTTTTGCGCTCGAGATCTCCGTAAGGAGATCTCGAGCGCGGGACTACTACTGGGATCATCATAGCCACCTCAGCTGCACGTAAGTGCAGCTGAGGTGGC-3’ (SEQ ID NO:12)。该DNA模板在模板上具有第一个可用的位置用于结合互补dT核苷酸。

在本实施例中，在混合物中用作聚合酶底物的四种标记的核苷酸是：dA6P-Cy3-T4-(idSp-T)4-T18-C3 (SEQ ID NO:13)、dC6P-Cy3-T30-C3(SEQ ID NO:14)、dT6P-Cy3-dT4(N3-CE-dT)3-dT23-C3(SEQ ID NO:15)、dG6P-T6-Tmp6-T19-C3 (SEQ ID NO:16)。然而，可获得对纳米孔装置有用的宽范围的5'-标记的核苷酸，诸如以下中所述的那些：2014年3月24日提交的题为“Chemical Methods for Producing Tagged Nucleotides”的美国临时申请号61/969,628，其出于所有目的在此通过引用并入本文。

纳米孔阻断电流测量：用作纳米孔电流阻断测量的电解质溶液的缓冲溶液是500mM谷氨酸钾，pH 8，3 mM MgCl₂，20 mM Hepes，5mM TCEP，在20℃。使用Pt/Ag/AgCl电极设置，并施加-10 mV至200 mV正方形波形的AC电流。AC电流对于纳米孔检测可以具有某些优点，因为其允许标签被重复地导入纳米孔且然后从纳米孔排出，由此提供更多机会来检测。AC电流也可以随时间为更稳定的电流信号和更少的电极降解提供更稳定的电位。

从四种不同的5'-标记的核苷酸观察到代表四种不同的电流阻断事件的信号，因为它们被用JAM1A DNA模板引发的α-HL-Pol6纳米孔-聚合酶缀合物捕获。分析了阻塞电流事件的记录图。持续超过10ms且将开放通道电流从0.8降低至0.2的事件被认为表明α-HL-Pol6纳米孔-聚合酶缀合物的生产性核苷酸捕获。在三个不同的实验中，JAM1A DNA序列以45％、48％和73％的比率正确地调用，具有非常低的错配调用，但几个区域的插入调用不正确。这些结果表明，本公开的方法可以提供能够使用纳米孔装置检测和/或测序特定DNA的α-HL-Pol6纳米孔-聚合酶缀合物。阵列条件的进一步优化可以导致更高的正确序列调用率。

本申请中引用的所有出版物、专利、专利申请和其他文献出于所有目的在此以其整体通过引用并入，其程度等同于每个单独的出版物、专利、专利申请或其他文件被单独指明出于所有目的通过引用并入。

尽管已经说明和描述了各个具体实施方案，但应当理解，在不脱离本发明的精神和范围的情况下，可以进行各种改变。

序列表

<110> Genia Technologies, Inc.

<120> 可用于纳米孔系统的位点特异性生物缀合方法和组合物

<130> P33506-WO

<150> US 62/313,086

<151> 2016-03-24

<160> 16

<170> PatentIn version 3.5

<210> 1

<211> 13

<212> PRT

<213> 人工序列

<220>

<223> 合成肽

<400> 1

Ala His Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10

<210> 2

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 合成肽

<400> 2

Ala His Ile Val Met Val Asp Ala Tyr Lys

1 5 10

<210> 3

<211> 8

<212> PRT

<213> 人工序列

<220>

<223> 合成肽

<400> 3

Ala His Ile Val Met Val Asp Ala

1 5

<210> 4

<211> 14

<212> PRT

<213> 人工序列

<220>

<223> 合成肽

<220>

<221> MOD_RES

<222> (1)..(1)

<223> X是2-氨基丁酸

<400> 4

Xaa Ala His Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10

<210> 5

<211> 143

<212> PRT

<213> 人工序列

<220>

<223> 酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的143 aa片段

<400> 5

Ser Tyr Tyr His His His His His His Asp Tyr Asp Ile Pro Thr Thr

1 5 10 15

Glu Asn Leu Tyr Phe Gln Gly Ala Met Val Asp Thr Leu Ser Gly Leu

20 25 30

Ser Ser Glu Gln Gly Gln Ser Gly Asp Met Thr Ile Glu Glu Asp Ser

35 40 45

Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Lys Glu Leu

50 55 60

Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser

65 70 75 80

Thr Trp Ile Ser Asp Gly Gln Val Lys Asp Phe Tyr Leu Tyr Pro Gly

85 90 95

Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala

100 105 110

Thr Ala Ile Thr Phe Thr Val Asn Glu Gln Gly Gln Val Thr Val Asn

115 120 125

Gly Lys Ala Thr Lys Gly Asp Ala His Ile Val Met Val Asp Ala

130 135 140

<210> 6

<211> 129

<212> PRT

<213> 人工序列

<220>

<223> 酿脓链球菌纤连蛋白结合蛋白FbaB的129 aa N端CnaB2结构域序列片段

<400> 6

Asp Tyr Asp Ile Pro Thr Thr Glu Asn Leu Tyr Phe Gln Gly Ala Met

1 5 10 15

Val Asp Thr Leu Ser Gly Leu Ser Ser Glu Gln Gly Gln Ser Gly Asp

20 25 30

Met Thr Ile Glu Glu Asp Ser Ala Thr His Ile Lys Phe Ser Lys Arg

35 40 45

Asp Glu Asp Gly Lys Glu Leu Ala Gly Ala Thr Met Glu Leu Arg Asp

50 55 60

Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly Gln Val Lys

65 70 75 80

Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu Thr Ala Ala

85 90 95

Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr Val Asn Glu

100 105 110

Gln Gly Gln Val Thr Val Asn Gly Lys Ala Thr Lys Gly Asp Ala His

115 120 125

Ile

<210> 7

<211> 138

<212> PRT

<213> 人工序列

<220>

<223> 酿脓链球菌纤连蛋白结合蛋白FbaB的138 aa N端CnaB2结构域序列片段

<400> 7

Ser Tyr Tyr His His His His His His Asp Tyr Asp Ile Pro Thr Thr

1 5 10 15

Glu Asn Leu Tyr Phe Gln Gly Ala Met Val Asp Thr Leu Ser Gly Leu

20 25 30

Ser Ser Glu Gln Gly Gln Ser Gly Asp Met Thr Ile Glu Glu Asp Ser

35 40 45

Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Lys Glu Leu

50 55 60

Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser

65 70 75 80

Thr Trp Ile Ser Asp Gly Gln Val Lys Asp Phe Tyr Leu Tyr Pro Gly

85 90 95

Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala

100 105 110

Thr Ala Ile Thr Phe Thr Val Asn Glu Gln Gly Gln Val Thr Val Asn

115 120 125

Gly Lys Ala Thr Lys Gly Asp Ala His Ile

130 135

<210> 8

<211> 143

<212> PRT

<213> 人工序列

<220>

<223> 酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的片段与N端His标签和C端GGS接头的融合物

<400> 8

Met His His His His His His His His Ser Gly Asp Tyr Asp Ile Pro

1 5 10 15

Thr Thr Glu Asn Leu Tyr Phe Gln Gly Ala Met Val Asp Thr Leu Ser

20 25 30

Gly Leu Ser Ser Glu Gln Gly Gln Ser Gly Asp Met Thr Ile Glu Glu

35 40 45

Asp Ser Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Lys

50 55 60

Glu Leu Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr

65 70 75 80

Ile Ser Thr Trp Ile Ser Asp Gly Gln Val Lys Asp Phe Tyr Leu Tyr

85 90 95

Pro Gly Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu

100 105 110

Val Ala Thr Ala Ile Thr Phe Thr Val Asn Glu Gln Gly Gln Val Thr

115 120 125

Val Asn Gly Lys Ala Thr Lys Gly Asp Ala His Ile Gly Gly Ser

130 135 140

<210> 9

<211> 726

<212> PRT

<213> 梭状芽孢杆菌噬菌体phiCPV4

<400> 9

Asp Lys His Thr Gln Tyr Val Lys Glu His Ser Phe Asn Tyr Asp Glu

1 5 10 15

Tyr Lys Lys Ala Asn Phe Asp Lys Ile Glu Cys Leu Ile Phe Asp Thr

20 25 30

Glu Ser Cys Thr Asn Tyr Glu Asn Asp Asn Thr Gly Ala Arg Val Tyr

35 40 45

Gly Trp Gly Leu Gly Val Thr Arg Asn His Asn Met Ile Tyr Gly Gln

50 55 60

Asn Leu Asn Gln Phe Trp Glu Val Cys Gln Asn Ile Phe Asn Asp Trp

65 70 75 80

Tyr His Asp Asn Lys His Thr Ile Lys Ile Thr Lys Thr Lys Lys Gly

85 90 95

Phe Pro Lys Arg Lys Tyr Ile Lys Phe Pro Ile Ala Val His Asn Leu

100 105 110

Gly Trp Asp Val Glu Phe Leu Lys Tyr Ser Leu Val Glu Asn Gly Phe

115 120 125

Asn Tyr Asp Lys Gly Leu Leu Lys Thr Val Phe Ser Lys Gly Ala Pro

130 135 140

Tyr Gln Thr Val Thr Asp Val Glu Glu Pro Lys Thr Phe His Ile Val

145 150 155 160

Gln Asn Asn Asn Ile Val Tyr Gly Cys Asn Val Tyr Met Asp Lys Phe

165 170 175

Phe Glu Val Glu Asn Lys Asp Gly Ser Thr Thr Glu Ile Gly Leu Cys

180 185 190

Leu Asp Phe Phe Asp Ser Tyr Lys Ile Ile Thr Cys Ala Glu Ser Gln

195 200 205

Phe His Asn Tyr Val His Asp Val Asp Pro Met Phe Tyr Lys Met Gly

210 215 220

Glu Glu Tyr Asp Tyr Asp Thr Trp Arg Ser Pro Thr His Lys Gln Thr

225 230 235 240

Thr Leu Glu Leu Arg Tyr Gln Tyr Asn Asp Ile Tyr Met Leu Arg Glu

245 250 255

Val Ile Glu Gln Phe Tyr Ile Asp Gly Leu Cys Gly Gly Glu Leu Pro

260 265 270

Leu Thr Gly Met Arg Thr Ala Ser Ser Ile Ala Phe Asn Val Leu Lys

275 280 285

Lys Met Thr Phe Gly Glu Glu Lys Thr Glu Glu Gly Tyr Ile Asn Tyr

290 295 300

Phe Glu Leu Asp Lys Lys Thr Lys Phe Glu Phe Leu Arg Lys Arg Ile

305 310 315 320

Glu Met Glu Ser Tyr Thr Gly Gly Tyr Thr His Ala Asn His Lys Ala

325 330 335

Val Gly Lys Thr Ile Asn Lys Ile Gly Cys Ser Leu Asp Ile Asn Ser

340 345 350

Ser Tyr Pro Ser Gln Met Ala Tyr Lys Val Phe Pro Tyr Gly Lys Pro

355 360 365

Val Arg Lys Thr Trp Gly Arg Lys Pro Lys Thr Glu Lys Asn Glu Val

370 375 380

Tyr Leu Ile Glu Val Gly Phe Asp Phe Val Glu Pro Lys His Glu Glu

385 390 395 400

Tyr Ala Leu Asp Ile Phe Lys Ile Gly Ala Val Asn Ser Lys Ala Leu

405 410 415

Ser Pro Ile Thr Gly Ala Val Ser Gly Gln Glu Tyr Phe Cys Thr Asn

420 425 430

Ile Lys Asp Gly Lys Ala Ile Pro Val Tyr Lys Glu Leu Lys Asp Thr

435 440 445

Lys Leu Thr Thr Asn Tyr Asn Val Val Leu Thr Ser Val Glu Tyr Glu

450 455 460

Phe Trp Ile Lys His Phe Asn Phe Gly Val Phe Lys Lys Asp Glu Tyr

465 470 475 480

Asp Cys Phe Glu Val Asp Asn Leu Glu Phe Thr Gly Leu Lys Ile Gly

485 490 495

Ser Ile Leu Tyr Tyr Lys Ala Glu Lys Gly Lys Phe Lys Pro Tyr Val

500 505 510

Asp His Phe Thr Lys Met Lys Val Glu Asn Lys Lys Leu Gly Asn Lys

515 520 525

Pro Leu Thr Asn Gln Ala Lys Leu Ile Leu Asn Gly Ala Tyr Gly Lys

530 535 540

Phe Gly Thr Lys Gln Asn Lys Glu Glu Lys Asp Leu Ile Met Asp Lys

545 550 555 560

Asn Gly Leu Leu Thr Phe Thr Gly Ser Val Thr Glu Tyr Glu Gly Lys

565 570 575

Glu Phe Tyr Arg Pro Tyr Ala Ser Phe Val Thr Ala Tyr Gly Arg Leu

580 585 590

Gln Leu Trp Asn Ala Ile Ile Tyr Ala Val Gly Val Glu Asn Phe Leu

595 600 605

Tyr Cys Asp Thr Asp Ser Ile Tyr Cys Asn Arg Glu Val Asn Ser Leu

610 615 620

Ile Glu Asp Met Asn Ala Ile Gly Glu Thr Ile Asp Lys Thr Ile Leu

625 630 635 640

Gly Lys Trp Asp Val Glu His Val Phe Asp Lys Phe Lys Val Leu Gly

645 650 655

Gln Lys Lys Tyr Met Tyr His Asp Cys Lys Glu Asp Lys Thr Asp Leu

660 665 670

Lys Cys Cys Gly Leu Pro Ser Asp Ala Arg Lys Ile Ile Ile Gly Gln

675 680 685

Gly Phe Asp Glu Phe Tyr Leu Gly Lys Asn Val Glu Gly Lys Lys Gln

690 695 700

Arg Lys Lys Val Ile Gly Gly Cys Leu Leu Leu Asp Thr Leu Phe Thr

705 710 715 720

Ile Lys Lys Ile Met Phe

725

<210> 10

<211> 869

<212> PRT

<213> 人工序列

<220>

<223> 合成的融合蛋白(Pol6-SpyCatcher)

<400> 10

Met His His His His His His His His Ser Gly Asp Tyr Asp Ile Pro

1 5 10 15

Thr Thr Glu Asn Leu Tyr Phe Gln Gly Ala Met Val Asp Thr Leu Ser

20 25 30

Gly Leu Ser Ser Glu Gln Gly Gln Ser Gly Asp Met Thr Ile Glu Glu

35 40 45

Asp Ser Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Lys

50 55 60

Glu Leu Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr

65 70 75 80

Ile Ser Thr Trp Ile Ser Asp Gly Gln Val Lys Asp Phe Tyr Leu Tyr

85 90 95

Pro Gly Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu

100 105 110

Val Ala Thr Ala Ile Thr Phe Thr Val Asn Glu Gln Gly Gln Val Thr

115 120 125

Val Asn Gly Lys Ala Thr Lys Gly Asp Ala His Ile Gly Gly Ser Asp

130 135 140

Lys His Thr Gln Tyr Val Lys Glu His Ser Phe Asn Tyr Asp Glu Tyr

145 150 155 160

Lys Lys Ala Asn Phe Asp Lys Ile Glu Cys Leu Ile Phe Asp Thr Glu

165 170 175

Ser Cys Thr Asn Tyr Glu Asn Asp Asn Thr Gly Ala Arg Val Tyr Gly

180 185 190

Trp Gly Leu Gly Val Thr Arg Asn His Asn Met Ile Tyr Gly Gln Asn

195 200 205

Leu Asn Gln Phe Trp Glu Val Cys Gln Asn Ile Phe Asn Asp Trp Tyr

210 215 220

His Asp Asn Lys His Thr Ile Lys Ile Thr Lys Thr Lys Lys Gly Phe

225 230 235 240

Pro Lys Arg Lys Tyr Ile Lys Phe Pro Ile Ala Val His Asn Leu Gly

245 250 255

Trp Asp Val Glu Phe Leu Lys Tyr Ser Leu Val Glu Asn Gly Phe Asn

260 265 270

Tyr Asp Lys Gly Leu Leu Lys Thr Val Phe Ser Lys Gly Ala Pro Tyr

275 280 285

Gln Thr Val Thr Asp Val Glu Glu Pro Lys Thr Phe His Ile Val Gln

290 295 300

Asn Asn Asn Ile Val Tyr Gly Cys Asn Val Tyr Met Asp Lys Phe Phe

305 310 315 320

Glu Val Glu Asn Lys Asp Gly Ser Thr Thr Glu Ile Gly Leu Cys Leu

325 330 335

Asp Phe Phe Asp Ser Tyr Lys Ile Ile Thr Cys Ala Glu Ser Gln Phe

340 345 350

His Asn Tyr Val His Asp Val Asp Pro Met Phe Tyr Lys Met Gly Glu

355 360 365

Glu Tyr Asp Tyr Asp Thr Trp Arg Ser Pro Thr His Lys Gln Thr Thr

370 375 380

Leu Glu Leu Arg Tyr Gln Tyr Asn Asp Ile Tyr Met Leu Arg Glu Val

385 390 395 400

Ile Glu Gln Phe Tyr Ile Asp Gly Leu Cys Gly Gly Glu Leu Pro Leu

405 410 415

Thr Gly Met Arg Thr Ala Ser Ser Ile Ala Phe Asn Val Leu Lys Lys

420 425 430

Met Thr Phe Gly Glu Glu Lys Thr Glu Glu Gly Tyr Ile Asn Tyr Phe

435 440 445

Glu Leu Asp Lys Lys Thr Lys Phe Glu Phe Leu Arg Lys Arg Ile Glu

450 455 460

Met Glu Ser Tyr Thr Gly Gly Tyr Thr His Ala Asn His Lys Ala Val

465 470 475 480

Gly Lys Thr Ile Asn Lys Ile Gly Cys Ser Leu Asp Ile Asn Ser Ser

485 490 495

Tyr Pro Ser Gln Met Ala Tyr Lys Val Phe Pro Tyr Gly Lys Pro Val

500 505 510

Arg Lys Thr Trp Gly Arg Lys Pro Lys Thr Glu Lys Asn Glu Val Tyr

515 520 525

Leu Ile Glu Val Gly Phe Asp Phe Val Glu Pro Lys His Glu Glu Tyr

530 535 540

Ala Leu Asp Ile Phe Lys Ile Gly Ala Val Asn Ser Lys Ala Leu Ser

545 550 555 560

Pro Ile Thr Gly Ala Val Ser Gly Gln Glu Tyr Phe Cys Thr Asn Ile

565 570 575

Lys Asp Gly Lys Ala Ile Pro Val Tyr Lys Glu Leu Lys Asp Thr Lys

580 585 590

Leu Thr Thr Asn Tyr Asn Val Val Leu Thr Ser Val Glu Tyr Glu Phe

595 600 605

Trp Ile Lys His Phe Asn Phe Gly Val Phe Lys Lys Asp Glu Tyr Asp

610 615 620

Cys Phe Glu Val Asp Asn Leu Glu Phe Thr Gly Leu Lys Ile Gly Ser

625 630 635 640

Ile Leu Tyr Tyr Lys Ala Glu Lys Gly Lys Phe Lys Pro Tyr Val Asp

645 650 655

His Phe Thr Lys Met Lys Val Glu Asn Lys Lys Leu Gly Asn Lys Pro

660 665 670

Leu Thr Asn Gln Ala Lys Leu Ile Leu Asn Gly Ala Tyr Gly Lys Phe

675 680 685

Gly Thr Lys Gln Asn Lys Glu Glu Lys Asp Leu Ile Met Asp Lys Asn

690 695 700

Gly Leu Leu Thr Phe Thr Gly Ser Val Thr Glu Tyr Glu Gly Lys Glu

705 710 715 720

Phe Tyr Arg Pro Tyr Ala Ser Phe Val Thr Ala Tyr Gly Arg Leu Gln

725 730 735

Leu Trp Asn Ala Ile Ile Tyr Ala Val Gly Val Glu Asn Phe Leu Tyr

740 745 750

Cys Asp Thr Asp Ser Ile Tyr Cys Asn Arg Glu Val Asn Ser Leu Ile

755 760 765

Glu Asp Met Asn Ala Ile Gly Glu Thr Ile Asp Lys Thr Ile Leu Gly

770 775 780

Lys Trp Asp Val Glu His Val Phe Asp Lys Phe Lys Val Leu Gly Gln

785 790 795 800

Lys Lys Tyr Met Tyr His Asp Cys Lys Glu Asp Lys Thr Asp Leu Lys

805 810 815

Cys Cys Gly Leu Pro Ser Asp Ala Arg Lys Ile Ile Ile Gly Gln Gly

820 825 830

Phe Asp Glu Phe Tyr Leu Gly Lys Asn Val Glu Gly Lys Lys Gln Arg

835 840 845

Lys Lys Val Ile Gly Gly Cys Leu Leu Leu Asp Thr Leu Phe Thr Ile

850 855 860

Lys Lys Ile Met Phe

865

<210> 11

<211> 2610

<212> DNA

<213> 人工序列

<220>

<223> 编码Pol6-SpyCatcher融合蛋白的合成的核苷酸序列

<400> 11

atgcatcacc atcatcatca ccaccacagc ggtgactacg acatcccgac caccgagaac 60

ctgtacttcc agggcgccat ggtggacaca ctgagcggtc tgagcagtga acagggccag 120

agcggcgaca tgaccattga agaggacagc gccacccaca tcaagttcag caagcgtgac 180

gaggacggta aggaactggc cggcgccacc atggaactgc gtgacagcag cggcaagacc 240

atcagcacct ggatcagcga tggccaggtg aaggacttct acctgtaccc gggcaagtac 300

accttcgtgg agacagccgc accggacggt tacgaggttg ccaccgccat caccttcacc 360

gtgaacgagc agggccaagt gaccgttaac ggcaaggcca ccaagggtga cgcccacatc 420

ggcggttccg acaaacacac gcagtacgtc aaagagcata gcttcaatta tgacgagtat 480

aagaaagcga atttcgacaa gatcgagtgc ctgatctttg acaccgagag ctgcacgaat 540

tatgagaacg ataataccgg tgcacgtgtt tacggttggg gtcttggcgt cacccgcaac 600

cacaatatga tctacggcca aaatctgaat cagttttggg aagtatgcca gaacattttc 660

aatgattggt atcacgacaa caaacatacc attaagatta ccaagaccaa gaaaggcttc 720

ccgaaacgta agtacattaa gtttccgatt gcagttcaca atttgggctg ggatgttgaa 780

ttcctgaagt atagcctggt ggagaatggt ttcaattacg acaagggtct gctgaaaact 840

gtttttagca agggtgcgcc gtaccaaacc gtgaccgatg ttgaggaacc gaaaacgttc 900

catatcgtcc agaataacaa catcgtttat ggttgtaacg tgtatatgga caaattcttt 960

gaggtcgaga acaaagacgg ctctaccacc gagattggcc tgtgcttgga tttcttcgat 1020

agctataaga tcatcacgtg tgctgagagc cagttccaca attacgttca tgatgtggat 1080

ccaatgttct acaaaatggg tgaagagtat gattacgata cttggcgtag cccgacgcac 1140

aagcagacca ccctggagct gcgctaccaa tacaatgata tctatatgct gcgtgaagtc 1200

atcgaacagt tttacattga cggtttatgt ggcggcgagc tgccgctgac cggcatgcgc 1260

accgcttcca gcattgcgtt caacgtgctg aaaaagatga cctttggtga ggaaaagacg 1320

gaagagggct acatcaacta ttttgaattg gacaagaaaa ccaaattcga gtttctgcgt 1380

aagcgcattg aaatggaatc gtacaccggt ggctatacgc acgcaaatca caaagccgtt 1440

ggtaagacta ttaacaagat cggttgctct ttggacatta acagctcata cccttcgcag 1500

atggcgtaca aggtctttcc gtatggcaaa ccggttcgta agacctgggg tcgtaaacca 1560

aagaccgaga agaacgaagt ttatctgatt gaagttggct ttgacttcgt ggagccgaaa 1620

cacgaagaat acgcgctgga tatctttaag attggtgcgg tgaactctaa agcgctgagc 1680

ccgatcaccg gcgctgtcag cggtcaagag tatttctgta cgaacattaa agacggcaaa 1740

gcaatcccgg tttacaaaga actgaaggac accaaattga ccactaacta caatgtcgtg 1800

ctgaccagcg tggagtacga gttctggatc aaacacttca attttggtgt gtttaagaaa 1860

gacgagtacg actgtttcga agttgacaat ctggagttta cgggtctgaa gattggttcc 1920

attctgtact acaaggcaga gaaaggcaag tttaaacctt acgtggatca cttcacgaaa 1980

atgaaagtgg agaacaagaa actgggtaat aagccgctga cgaatcaggc aaagctgatt 2040

ctgaacggtg cgtacggcaa attcggcacc aaacaaaaca aagaagagaa agatttgatc 2100

atggataaga acggtttgct gaccttcacg ggtagcgtca cggaatacga gggtaaagaa 2160

ttctatcgtc cgtatgcgag cttcgttact gcctatggtc gcctgcaact gtggaacgcg 2220

attatctacg cggttggtgt ggagaatttt ctgtactgcg acaccgacag catctattgt 2280

aaccgtgaag ttaacagcct cattgaggat atgaacgcca ttggtgaaac catcgataaa 2340

acgattctgg gtaaatggga cgtggagcat gtctttgata agtttaaggt cctgggccag 2400

aagaagtaca tgtatcatga ttgcaaagaa gataaaacgg acctgaagtg ttgcggtctg 2460

ccgagcgatg cccgtaagat tatcattggt caaggtttcg acgagtttta tctgggcaaa 2520

aatgtcgaag gtaagaagca acgcaaaaaa gtgatcggcg gttgcctgct gctggacacc 2580

ctgtttacga tcaagaaaat catgttctaa 2610

<210> 12

<211> 99

<212> DNA

<213> 人工序列

<220>

<223> 自引发的DNA模板序列

<400> 12

tttttgcgct cgagatctcc gtaaggagat ctcgagcgcg ggactactac tgggatcatc 60

atagccacct cagctgcacg taagtgcagc tgaggtggc 99

<210> 13

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸标签

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'-青色素3(cyanine3)-磷酸酯-dT

<220>

<221> misc_feature

<222> (5)..(5)

<223> 呋喃亚酰胺化物(furan amidite)

<220>

<221> misc_feature

<222> (7)..(7)

<223> 呋喃亚酰胺化物(furan amidite)

<220>

<221> misc_feature

<222> (9)..(9)

<223> 呋喃亚酰胺化物(furan amidite)

<220>

<221> misc_feature

<222> (11)..(11)

<223> 呋喃亚酰胺化物(furan amidite)

<220>

<221> misc_feature

<222> (30)..(30)

<223> 3'-丙醇-dT

<400> 13

ttttntntnt nttttttttt tttttttttt 30

<210> 14

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸标签

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'-青色素3(cyanine3)-磷酸酯-dT

<220>

<221> misc_feature

<222> (30)..(30)

<223> 3'-丙醇-dT

<400> 14

tttttttttt tttttttttt tttttttttt 30

<210> 15

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸标签

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5'-青色素3(cyanine3)-磷酸酯-dT

<220>

<221> misc_feature

<222> (5)..(7)

<223> N3-氰基乙基-dT

<220>

<221> misc_feature

<222> (30)..(30)

<223> 3'-丙醇-dT

<400> 15

ttttnnnttt tttttttttt tttttttttt 30

<210> 16

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸标签

<220>

<221> misc_feature

<222> (7)..(12)

<223> 胸苷甲基膦酸酯

<220>

<221> misc_feature

<222> (31)..(31)

<223> 3'-丙醇-dT

<400> 16

ttttttnnnn nntttttttt tttttttttt t 31

Claims

1.制备蛋白和生物分子的缀合物的方法，所述方法包括：

(a) 在合适的反应条件下，使蛋白与式(I)的化合物接触，其中所述蛋白包含硫醇基团

其中，

A是硫醇反应性基团；

L_A是接头；且

X是点击化学反应性基团；

由此形成式(II)的修饰的蛋白

其中S是所述蛋白的硫醇基团的硫原子；

(b) 使式(II)的修饰的蛋白与式(III)的化合物接触

其中，

B是反应性基团；

L_B是接头；且

Y是点击化学反应性基团，其经历与式(II)的化合物的同源点击化学反应性基团X的点击化学反应；

由此形成结构式(IV)的修饰的蛋白

(c) 在合适的反应条件下使式(IV)的修饰的蛋白与生物分子接触，其中所述生物分子包含反应性基团Z，其中Z能够与反应性基团B形成共价键，

由此形成式(V)的缀合物

。

2.权利要求1的方法，其中所述硫醇反应性基团A是马来酰亚胺或卤代乙酰胺。

3.包含结构式(IVa)的修饰的孔形成蛋白的组合物

其中，

S是所述孔形成蛋白的硫醇基团的硫原子；

A是硫醇反应性基团；

L_A是接头；且

X是点击化学反应性基团；

Y是点击化学反应性基团，其经历与反应性基团X的点击化学反应；

L_B是接头；且

B是反应性基团。

4.权利要求3的组合物，其中所述硫醇反应性基团A是马来酰亚胺或卤代乙酰胺，其中卤素原子选自F、Cl、Br和I。

5.权利要求3-4中任一项的组合物，其中所述点击化学反应性基团X和Y是选自以下对点击化学反应性基团的对：叠氮化物和炔烃；叠氮化物和环辛炔；以及叠氮化物和二苯并环辛炔-胺。

6.权利要求3-5中任一项的组合物，其中式(IVa)的修饰的孔形成蛋白包含选自式(IVb)、(IVc)、(IVd)、(IVe)、(IVf)和(IVg)的化合物的化合物：

。

7.包含式(V)的蛋白和生物分子的缀合物的组合物

其中，

S是所述蛋白的硫醇基团的硫原子；

A是硫醇反应性基团；

L_A是接头；且

X是点击化学反应性基团；

L_B是接头；

B是反应性基团；

且

Z是能够与反应性基团B形成共价键的反应性基团。

8.权利要求7的组合物，其中所述硫醇反应性基团A是马来酰亚胺。

9.权利要求7-8中任一项的组合物，其中所述点击化学反应性基团X和Y是选自以下对点击化学反应性基团的对：叠氮化物和炔烃；叠氮化物和环辛炔；以及叠氮化物和二苯并环辛炔-胺。

10.权利要求7-9中任一项的组合物，其中式(V)的缀合物包含选自式(Vb)、(Vc)、(Vd)、(Ve)、(Vf)和(Vg)的化合物的化合物：

。

11.权利要求10的组合物，其中反应性基团B包含SpyTag肽，且反应性基团Z包含SpyCatcher蛋白。

12.权利要求11的组合物，其中所述SpyTag肽和SpyCatcher蛋白各自包含来自酿脓链球菌纤连蛋白结合蛋白FbaB的CnaB2结构域的氨基酸序列的片段。

13.权利要求10-12中任一项的组合物，其中所述蛋白是孔形成蛋白，其任选地选自α-溶血素、β-溶血素、γ-溶血素、气单胞菌溶素、溶细胞素、杀白细胞素、蜂毒肽、MspA孔蛋白和孔蛋白A。

14.权利要求10-13中任一项的组合物，其中所述蛋白是嵌入膜中的孔形成蛋白。

15.权利要求10-14中任一项的组合物，其中所述生物分子是能够催化聚合物合成的酶，其任选地选自DNA聚合酶、RNA聚合酶、逆转录酶和DNA连接酶。