CN117062828A

CN117062828A - 在环或末端处与肽标签相互作用的多肽及其用途

Info

Publication number: CN117062828A
Application number: CN202280024145.8A
Authority: CN
Inventors: 马克·豪沃思; 维卡什·亚达夫; 马泰奥·费拉
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxford University Innovation Ltd
Priority date: 2021-04-08
Filing date: 2022-04-01
Publication date: 2023-11-14
Also published as: BR112023020647A2; CA3214614A1; JP2024513126A; AU2022254857A1; WO2022214795A1; EP4320140A1; US20240182530A1; GB202104999D0; KR20230165919A

Abstract

本发明涉及多肽，其形成两部分接头中的一部分，其中该多肽与肽标签自发形成异肽键；该肽标签是该两部分接头中的第二部分。还提供了编码该多肽的核酸分子、包含所述核酸分子的载体、以及包含所述载体和核酸分子的宿主细胞。还提供了试剂盒，其包含所述两部分接头(即，肽标签和多肽结合配偶体)，和/或核酸分子/载体。还提供了产生这些多肽的方法以及本发明的多肽的用途。

Description

在环或末端处与肽标签相互作用的多肽及其用途

技术领域

本发明在一个方面涉及多肽，其形成两部分接头中的一部分，其中该多肽(蛋白质)与肽标签(两部分接头中的第二部分)自发形成异肽键。特别地，两部分接头可以被视为肽标签和多肽结合配偶体同源对，当在允许在本发明的多肽和肽标签之间自发形成异肽键的条件下接触时，该肽标签和多肽结合配偶体同源对可以经由共价键缀合。在第二方面，本发明还提供了亲和纯化系统，其包含经修饰的多肽(蛋白质)，该经修饰的多肽(蛋白质)与其同源肽标签(配体)选择性地(例如特异性地)和可逆地结合，即不与肽标签自发形成异肽键。还提供了编码多肽的核酸分子、包含所述核酸分子的载体、以及包含所述载体和核酸分子的宿主细胞。还提供了试剂盒，其包含所述多肽(例如肽标签和多肽结合配偶体)，和/或核酸分子/载体。还提供了包含所述多肽的另外的产品以及本发明的多肽的用途。

背景技术

细胞功能依赖于大量可逆的非共价蛋白质-蛋白质相互作用，并且蛋白质在络合物中的精确排列影响并决定它们的功能。因此，工程化共价蛋白质-蛋白质相互作用的能力可以为基础研究、合成生物学和生物技术带来一系列新的机会。特别地，将两种或更多种蛋白质缀合形成所称的“融合蛋白”可以产生具有有用的特征的分子。例如，聚集单一种类的蛋白质通常会大大增强生物信号，例如疫苗上的重复抗原结构。聚集具有不同活性的蛋白质也可以产生具有改善的活性的络合物，例如通过酶传送的底物。

典型地，共价蛋白质相互作用通过二硫键介导，但二硫化物是可逆的，不适用于减少细胞区室，并且可能干扰蛋白质折叠。肽标签是蛋白质分析和修饰的便捷工具，因为它们的小尺寸最大限度地减少了对蛋白质功能的干扰。肽标签易于遗传编码，并且其小尺寸减少了来自以下的破坏：(i)干扰其他相互作用，(ii)生物合成的成本以及(iii)免疫原性的引入。然而，肽标签与其肽或多肽结合配偶体之间的相互作用很少具有高亲和力，这限制了它们在形成稳定的络合物中的效用。

能够自发形成异肽键的蛋白质(所称的“异肽蛋白质”)已被有利地用于开发肽标签/多肽结合配偶体对(即两部分接头)，它们彼此共价结合并且提供不可逆的相互作用(参见例如WO 2011/098772、WO 2016/193746、WO 2018/197854和WO 2020/183198，所有均通过引用并入本文)。在此方面，能够自发形成异肽键的蛋白质可以表达为单独的片段，以给出肽标签和针对肽标签的多肽结合配偶体，其中这两个片段能够通过异肽键形成共价重构，从而连接与肽标签及其多肽结合配偶体融合的分子或组分。

异肽键是在羧基/羧酰胺和氨基基团之间形成的酰胺键，其中羧基或氨基基团中的至少一个在蛋白质主链(蛋白质的骨架)之外。这样的键在典型的生物条件下是化学不可逆的，并且它们对大多数蛋白酶具有抗性。由于异肽键本质上是共价的，因此它们可引起一些最强的测量的蛋白质相互作用。由肽标签及其多肽结合配偶体形成的异肽键在非共价相互作用会迅速解离的条件(例如在长时间段(例如数周)内、在高温(达到至少95℃)下、在强力下、或具有苛刻的化学处理(例如pH 2-11、有机溶剂、洗涤剂或变性剂))下是稳定的。

简言之，两部分接头(即肽标签及其多肽结合配偶体(所称的肽标签/结合配偶体对))可以衍生自能够自发形成异肽键的蛋白质(异肽蛋白质)，其中将蛋白质的结构域单独地表达以产生包含参与异肽键的残基中的一个(例如天冬氨酸盐或天冬酰胺)的肽标签、以及包含参与异肽键的其它残基(例如赖氨酸)和形成异肽键所需的至少一个其他残基(例如谷氨酸盐)的肽或多肽结合配偶体(或“捕获体”)。将肽标签和结合配偶体混合促使标签和结合配偶体之间自发形成异肽键。因此，通过将肽标签和结合配偶体单独地与不同的分子或组分(例如蛋白质)融合，可以经由肽标签和结合配偶体之间形成的异肽键将所述分子或组分共价连接在一起，即在与肽标签和结合配偶体融合的分子或组分之间形成接头。

有许多有效的方式可以在它们的末端连接蛋白质，从经典的基因融合到先进的酶连接以及两部分肽标签/多肽结合配偶体对(即两部分接头)，例如本文披露和上文引用的那些。已经做了大量的工作(包括天然化学连接、断裂型内含肽、分选酶和蝶豆粘酶)来建立蛋白质单元的翻译后连接。然而，这些连接方法中的几种不适合在内部位点处连接蛋白质。例如，断裂型内含肽必须在蛋白质的末端处。类似地，分选酶几乎总是用在蛋白质的末端处，并且需要非常高浓度的寡甘氨酸反应物。与在末端处相比，对在内部位点处的蛋白质-蛋白质连接的关注要少得多，那里有更多的空间位阻和更少的可接触化学。天然蛋白质的N-末端和C-末端通常具有高柔性且暴露得更多，有利于反应，而内部环可能采用不同的结构，并且在环中插入干扰蛋白质折叠或功能的肽标签的实例数不胜数。因此，由于较低的柔性和可变性更大的环境，在内部位点(例如蛋白质环)处将蛋白质连接在一起要困难得多。

然而，在一些应用中，有必要或希望在内部位点处将蛋白质连接在一起。许多蛋白质不适合在其末端处融合，包括具有对蛋白质(例如蛋白酶体)的功能而言是关键的末端的那些，或者具有位于质膜(例如四次穿膜蛋白和许多离子通道)的细胞内侧或掩蔽在蛋白质间界面(例如Qβ病毒样颗粒)处的末端的那些。即使当末端是可能的融合位点时，内部融合(例如环融合)仍然可以是优选的，以控制蛋白质取向，例如在诊断剂表面、在多酶络合物中或在疫苗缀合物中。

本发明的诸位发明人先前开发了另一种基于化脓性链球菌(Streptococcuspyogenes)FbaB蛋白的CnaB2结构域(Zakeri等人,2012,Proc Natl Acad Sci U S A[美国国家科学院院刊]109,E690-E697)的两部分肽标签/多肽结合配偶体系统，称为SpyTag/SpyCatcher。该系统的最新版本SpyTag003/SpyCatcher003是先前建立的在末端处具有最快的蛋白质-蛋白质反应的反应性的对(参见WO 2020/183198，通过引用并入本文)。然而，如实例所示，尽管SpyTag003可以在内部插入某些蛋白质的特定环区，并且可以与其同源配偶体SpyCatcher003进行反应，但当与在同一蛋白质的末端处融合SpyTag003时相比，反应速率显著降低。此外，在某些情况下，当SpyTag003插入给定蛋白质的环区时，蛋白质的表达根本不可能。

可以通过单独表达包含参与异肽键形成的残基的异肽蛋白质的结构域(即作为三个单独的片段，即两个肽和一个多肽)来提供在内部位点处将蛋白质接合在一起的可替代的系统(参见例如Fierer等人2014,PNAS[美国国家科学院院刊]E1176-E1181)。一种这样的系统是由本发明的诸位发明人基于RrgA(参见WO 2018/189517，通过引用并入本文)开发的。RrgA蛋白质断裂成三个单独的组分；第一肽标签(称为SnoopTagJr)，其包含参与异肽键的残基中的一个(例如赖氨酸)；第二肽标签(称为DogTag)，其包含参与异肽键的其他残基(例如天冬酰胺)；和多肽(称为SnoopLigase)，其包含参与介导异肽键形成的残基(例如谷氨酸盐)。将全部三个片段(即两个肽和多肽)混合促使包含反应以形成异肽键的残基的两个肽之间(即SnoopTagJr和DogTag之间)形成异肽键。然而，SnoopLigase的反应速率相对较慢(约48h才能完成)，这限制了它的应用，尤其是在细胞系统中。另外，SnoopLigase系统与某些缓冲液不兼容，并且需要相对高浓度的组成组分，这在实践中并不总是可行的，特别是例如在哺乳动物表达系统中。

因此，需要改善的接头系统，其能够在内部位点处接合蛋白质。

肽标签/结合配偶体对(两部分接头)(称为RrgATag/RrgACatcher)衍生自肺炎链球菌(Streptococcus pneumoniae)的黏附蛋白RrgA，肺炎链球菌是革兰氏阳性细菌，可引起人类败血病、肺炎和脑膜炎。在RrgA的D4免疫球蛋白样结构域中在残基Lys742与Asn854之间形成自发的异肽键。该D4结构域先前断裂成一对接头，称为RrgATag(SEQ ID NO:4)和RrgACatcher(SEQ ID NO:6)(参见WO 2016/193746，将其通过引用并入本文)。RrgATag衍生自RrgA蛋白质的残基838-856，并且因此包括Asn854残基，而RrgACatcher(也称为R2Catcher)对应于RrgA蛋白质的残基734-837，并且因此包括Lys742残基。因此，RrgATag(SEQ ID NO:4)和RrgACatcher(SEQ ID NO:6)能够自发形成异肽键。

虽然纯化的RrgATag和RrgACatcher可以在混合后成功地重构和反应，但异肽键形成的速率相对较慢，特别是当接头以等同于细胞表达水平的浓度存在时。RrgATag(DogTag，SEQ ID NO:3)的工程化版本被证明具有更快的重构，即与RrgACatcher形成异肽键的速率更快。RrgATag在对应于RrgA的位置842的位置处含有Thr残基，而不是Gly残基。该序列被进一步修饰来延伸肽以含有对应于RrgA的残基857-860的残基，并且对应于RrgATag中的位置848的Asp残基被Gly取代。具有这两种修饰(C-末端延伸和D848G)的RrgATag被称为RrgATag2(SEQ ID NO:5)。另外，对应于RrgATag和RrgATag2中的RrgA的位置847的Asn残基被Asp取代。具有这些修饰中的全部三种(C-末端延伸、N847D和D848G)的RrgATag被称为DogTag(SEQ ID NO:3)。

相对于RrgATag和其他版本的标签(例如如实例所示的R2Tag(SEQ ID NO:17))，DogTag与RrgACatcher的反应速率有所改善，但在低浓度下的反应速率仍然缓慢。此外，观察到RrgACatcher多肽在某些条件下具有有限的溶解度。

发明内容

本发明的诸位发明人现在出人意料地确定，通过修饰(即突变)RrgACatcher多肽的氨基酸序列，可以显著增加RrgACatcher多肽的反应速率至少一个数量级，并且可以显著增加多肽在常见缓冲液和条件下的溶解度。值得注意和出人意料的是，导致反应速率和溶解度增加的修饰不会对多肽的其他期望的特性产生不利影响。因此，本发明的经修饰的RrgACatcher多肽(称为DogCatcher，SEQ ID NO:1)与DogTag的反应速率比原来的RrgACatcher多肽高一个数量级以上，并且由于其溶解度增加，可以在宽范围的条件下用于各种应用。

虽然不希望受到理论的束缚，但假设在导致DogCatcher多肽的RrgACatcher多肽的十种修饰中，其中七种(称为“溶解度修饰”)可以独立地起增加多肽的溶解度的作用。含有溶解度修饰的全部七种的RrgACatcher的序列称为RrgACatcherB或R2CatcherB(SEQ IDNO:8)。据认为，将DogCatcher与RrgACatcher区分的其余三种修饰(称为“反应性修饰”)可以独立地起增加与DogTag肽的反应速率的作用。含有反应性修饰的全部三种的RrgACatcher序列在SEQ ID NO:9中提供。因此，考虑到相对于RrgACatcher的氨基酸序列，本发明的多肽(DogCatcher(SEQ ID NO:1)或DogCatcher变体(例如SEQ ID NO:8或9))中的溶解度和反应性修饰中的每一个可以分别单独提高多肽的溶解度和反应性。

进一步考虑的是可以在不显著降低多肽的活性情况下将本文例举的多肽(即DogCatcher，SEQ ID NO:1)在N-末端处和/或在C-末端处截短。特别地，可以将SEQ ID NO:1在N-末端处截短至长达4个氨基酸(例如1、2、3或4个氨基酸)和/或在C-末端处截短至长达5个氨基酸(例如1、2、3、4或5个氨基酸)。

有利地，因此，本发明的多肽(突变体“捕获体”或肽标签结合配偶体)(DogCatcher，SEQ ID NO:1)可以与其同源肽标签(例如DogTag(SEQ ID NO:3)(即作为两部分接头))一起用于只有低浓度的肽标签和多肽结合配偶体可用(例如在体内)的效用中。本发明的多肽(肽标签结合配偶体)在需要高灵敏度和/或速度的分析测定(例如肽标签(例如DogTag，SEQ ID NO:3)用作表位标签的蛋白质印迹)中也可以特别有用。本发明的突变体捕获体(多肽)的改善的速率常数在标签和/或捕获体与可能减缓反应的分子或组分(例如大蛋白)融合的反应中以及在与标签和/或捕获体融合的分子或组分引起空间位阻的反应中(例如在用于疫苗组装的病毒样颗粒的形成中)也是有利的。

在这方面，本发明的诸位发明人指出，衍生DogTag的RrgA结构域4的序列(残基838-860)形成β-发夹，其中包含反应性Asn854残基，并且因此假设这可以形成环友好标签/捕获体对(即能够在内部位点(例如蛋白质环)处接合蛋白质的标签/捕获体对)的基础。出人意料且有利地发现，可以将DogTag插入不同蛋白质中的一系列环位点中而不破坏所述蛋白质的表达或功能，并且无论将DogTag在末端位点处还是在内部(例如环)位点处插入蛋白质中，本发明的多肽(DogCatcher，SEQ ID NO:1)与其结合配偶体(DogTag，SEQ ID NO:3)之间的反应速率相当。当肽标签插入某些蛋白质环位点时，涉及本发明的多肽的DogTag/DogCatcher两部分接头比SpyTag003/SpyCatcher003展现出的反应速率快大约10倍。如以下实例中更详细说明的，当DogTag内部插入主要是α-螺旋、主要是β-折叠、或α+β折叠的蛋白质中时，DogTag/DogCatcher两部分接头被证明是功能性的。此外，由于前述突变，DogCatcher多肽可溶于一系列不同的缓冲液，并且因此DogTag/DogCatcher两部分接头可以在各种条件下以较低的浓度使用。

因此，本发明的多肽(DogCatcher，SEQ ID NO:1)形成两部分接头系统的一部分，该系统能够以高反应速率自发形成异肽键，其中肽标签在目的分子或组分中内部插入，例如将其在内部蛋白质(例如环)位点处插入。因此，这两部分接头提供了在某些蛋白质之间引入共价蛋白质连接的改善的方法，特别是在蛋白质中的至少一种的末端不是融合的最佳位点的情况下。

可替代地来看，本发明的多肽(DogCatcher，SEQ ID NO:1)与其同源肽标签(DogTag，SEQ ID NO:3)组合提供了两部分接头系统，该系统可特别用于在内部位点(例如蛋白质环)处将蛋白质连接在一起。

因此，在一个方面，本发明提供了包含以下的多肽(肽标签结合配偶体)：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中如果该氨基酸序列包含在位置75处的脯氨酸，它还包含选自1)-6)和8)-10)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:1中的位置的位置处；或者

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸以及以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

其中如果该氨基酸序列包含在位置71处的脯氨酸，它还包含选自1)-5)和7)-9)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:2中的位置的位置处，

并且其中所述多肽能够与包含如SEQ ID NO:3所示的氨基酸序列的肽自发形成异肽键，其中所述异肽键在SEQ ID NO:3的位置17处的天冬酰胺残基与在SEQ ID NO:1的位置9或SEQ ID NO:2的位置5处的赖氨酸残基之间形成。

在可替代的实施例中，本发明的多肽可以包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:1中的位置的位置处；或者

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸、以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:2中的位置的位置处，

可替代地来看，本发明提供了包含以下的多肽(肽标签结合配偶体)：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中：(A)如果该氨基酸序列包含在位置75处的脯氨酸，它还包含选自1)-6)和8)-10)的一个或多个氨基酸残基；或者(B)该氨基酸序列包含选自1)-5)、7)和10)的至少一个氨基酸残基以及选自6)、8)和9)的一个氨基酸残基，

并且其中这些指定的氨基酸残基在等同于SEQ ID NO:1中的位置的位置处；或者

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

其中：(A)如果该氨基酸序列包含在位置71处的脯氨酸，它还包含选自1)-5)和7)-9)的一个或多个氨基酸残基；或者(B)该氨基酸序列包含选自1)-4)、6)和9)的至少一个氨基酸残基以及选自5)、7)和8)的1个氨基酸残基，

并且其中这些指定的氨基酸残基在等同于SEQ ID NO:2中的位置的位置处，

在另一方面，本发明提供了重组或合成多肽，该重组或合成多肽包含与本发明的多肽连接的肽或多肽。

在另一方面，本发明提供了本发明的多肽经由异肽键缀合两个分子或组分的用途，其中经由异肽键缀合的所述分子或组分包含：

a)含有本发明的多肽的第一分子或组分；以及

b)含有选自以下的肽的第二分子或组分：

(i)包含如SEQ ID NO:3-5或17中的任一个所示的氨基酸序列的肽；以及

(ii)包含与如SEQ ID NO:3-5或17中的任一个所示的序列具有至少80％序列同一性(例如与如SEQ ID NO:3-5或17中的任一个所示的序列具有至少85％、90％或95％序列同一性)的氨基酸序列的肽，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基，

并且其中所述肽能够与包含如SEQ ID NO:1所示的氨基酸序列的多肽自发形成异肽键，其中所述异肽键在SEQ ID NO:3、4、5或17的位置17处的天冬酰胺残基与在SEQ IDNO:1的位置9处的赖氨酸残基之间形成。

可替代地来看，本发明提供了用于将两个分子或组分经由异肽键缀合的方法，该方法包括：

a)提供包含本发明的多肽的第一分子或组分；

b)提供包含选自以下的肽的第二分子或组分：

其中所述肽能够与包含如SEQ ID NO:1所示的氨基酸序列的多肽自发形成异肽键，其中所述异肽键在SEQ ID NO:3、4、5或17的位置17处的天冬酰胺残基与在SEQ ID NO:1的位置9处的赖氨酸残基之间形成；以及

c)在能够在该多肽与肽之间自发形成异肽键的条件下使所述第一分子或组分和第二分子或组分接触，从而经由异肽键将所述第一分子或组分与所述第二分子或组分缀合以形成络合物。

在又另一方面，本发明提供了试剂盒，优选地用于在本发明的用途或方法中使用，其中所述试剂盒包含：

(a)本发明的多肽，任选地与分子或组分缀合或融合；以及

(b)肽，任选地与分子或组分缀合或融合，其中该肽选自：

(ii)包含与如SEQ ID NO:3-5或17中的任一个所示的序列具有至少80％序列同一性(例如与如SEQ ID NO:3-5中的任一个所示的序列具有至少85％、90％或95％序列同一性)的氨基酸序列的肽，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基，

其中所述肽能够与包含如SEQ ID NO:1所示的氨基酸序列的多肽自发形成异肽键，其中所述异肽键在SEQ ID NO:3、4、5或17的位置17处的天冬酰胺残基与在SEQ ID NO:1的位置9处的赖氨酸残基之间形成；和/或

(c)编码如(a)所定义的多肽的核酸分子，特别是载体；和/或

(d)编码如(b)所定义的肽的核酸分子，特别是载体。

诸位发明人先前已经确定可以对“捕获体”多肽进行修饰以建立其同源肽标签的亲和纯化系统(参见例如WO 2020/115252，将其通过引用并入本文)。因此，该系统可被视为包含多肽(亲和纯化多肽)及其同源肽标签(亲和标签)的两部分系统，该多肽(亲和纯化多肽)及其同源肽标签(亲和标签)能够形成可以在适当的条件下解离以促进与所述肽标签缀合或融合的分子或组分(融合配偶体)的分离和/或纯化的稳定且可逆的非共价络合物(即多肽:配体络合物)。

在确定可以通过引入在DogCatcher中发现的突变来改善RrgACatcher多肽的特性后，诸位发明人鉴定了修饰上文所定义的多肽以建立DogTag亲和纯化系统的可能性。虽然不希望受到理论的束缚，但认为DogCatcher多肽在RrgA的D4结构域中激活性谷氨酸残基的位置(803E)处的突变足以消除DogCatcher与DogTag之间的异肽键的形成，同时保持与DogTag的选择性，稳定和可逆的非共价相互作用。

因此，在另外的方面，本发明提供了多肽(亲和纯化多肽)，其包含：

i)如SEQ ID NO:18所示的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸(即，在位置70处的X可以是除谷氨酸或天冬氨酸以外的任何氨基酸)，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸；

ii)含有如SEQ ID NO:19所示的氨基酸序列的(i)的一部分，其中在位置66处的X不是谷氨酸或天冬氨酸，任选地其中在位置66处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸；

iii)与如SEQ ID NO:18所示的序列具有至少80％序列同一性的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸，并且其中该氨基酸序列包含以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中如果该氨基酸序列包含在位置75处的脯氨酸，它还包含选自1)-6)和8)-10)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:18中的位置的位置处；或者

iv)含有与如SEQ ID NO:19所示的序列具有至少80％序列同一性的氨基酸序列的(iii)的一部分，其中在位置66处的X不是谷氨酸或天冬氨酸，任选地其中在位置66处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸，并且其中该氨基酸序列包含以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

其中如果该氨基酸序列包含在位置71处的脯氨酸，它还包含选自1)-5)和7)-9)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:19中的位置的位置处，

并且其中该多肽与包含如SEQ ID NO:3所示的氨基酸序列的肽选择性地和可逆地结合。

在可替代的方面，本发明提供了多肽(亲和纯化多肽)，其包含：

i)如SEQ ID NO:18所示的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸；

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；

3)在位置85处的精氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:19中的位置的位置处，

可替代地来看，本发明提供了多肽(亲和纯化多肽)，其包含：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

并且其中这些指定的氨基酸残基在等同于SEQ ID NO:18中的位置的位置处；或者

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

并且其中这些指定的氨基酸残基在等同于SEQ ID NO:19中的位置的位置处，

在另外的方面，本发明提供了用于纯化或分离包含具有与如SEQ ID NO:3-5或17中的一个所示的序列具有至少80％序列同一性的氨基酸序列的肽的分子或组分的方法，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基，所述方法包括：

a)提供固体基底，该固体基底上固定如上文所定义的多肽(亲和纯化多肽)；

b)提供包含所述分子或组分的样品；

c)在能够将所述肽与所述多肽选择性地结合的条件下使a)的固体基底与b)的样品接触，从而在固定在该固体基底上的所述多肽与包含所述肽的分子或组分之间形成非共价络合物；

d)将该固体基底用缓冲液洗涤；

e)将包含该肽的该分子或组分与固定在该固体基底上的该多肽分离。

在又另一实施例中，本发明提供了如上文所定义的多肽(亲和纯化多肽)纯化或分离包含具有与如SEQ ID NO:3-5或17中的一个所示的序列具有至少80％序列同一性的氨基酸序列的肽的分子或组分的用途，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基。

在另一方面，本发明提供了用于在上文所定义的方法或用途中使用的设备，该设备包含在其上固定如上文所定义的多肽(亲和纯化多肽)的固体基底。

在另外的方面，本发明提供了用于在制备在其上固定如上文所定义的多肽(亲和纯化多肽)的固体基底中使用的试剂盒，该试剂盒包含：

a)如上文所定义的多肽(亲和纯化多肽)；以及

b)用于将a)的多肽固定在固体基底上的方法。

在另外的方面，本发明提供了包含编码上文所定义的本发明的多肽或本发明的重组或合成多肽的核苷酸序列的核酸分子。

在仍另一方面，本发明提供了包含本发明的核酸分子的载体。

在另一方面，本发明提供了包含本发明的核酸分子或载体的细胞。

本发明还提供了用于产生或表达本发明的多肽或重组多肽的方法，该方法包括以下步骤：

a)用本发明的载体转化或转染宿主细胞；

b)在允许该多肽表达的条件下培养该宿主细胞；以及任选地

c)分离该多肽。

具体实施方式

如上文所讨论，考虑到相对于RrgACatcher在DogCatcher中的溶解度和反应性突变中的每一个可以分别单独地和独立地提高多肽的溶解度和反应性。因此，在一些实施例中，多肽包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的两个或更多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸以及以下中的两个或更多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

在一些实施例中，其中该多肽包含选自上文1)-10)的两个或更多个残基，该多肽包含溶解度修饰中的至少一个(即，1)-5)、7)或10)中的至少一个)以及反应性修饰中的至少一个(即，6)、8)或9)中的至少一个)。

基于表1中的数据，并且不希望受到理论的约束，假设在等同于SEQ ID NO:1的位置75(等同于SEQ ID NO:2的位置71)的位置处存在的脯氨酸残基对本发明的多肽的溶解度具有特别有益的影响。在一些实施例中，多肽包含在等同于SEQ ID NO:1的位置75(等同于SEQ ID NO:2的位置71)的位置处的脯氨酸残基。因此，两个或更多个氨基酸可以是在SEQID NO:1的位置75处的脯氨酸以及1)-6)和8)-10)中的任何一个或多个或者在SEQ ID NO:2的位置71处的脯氨酸，以及2)-6)和8)-10)(或1)-5)和7)-9)，使用上文部分(iv)中的编号)中的任何一个或多个。然而，本文涵盖了来自上文列出的那些的两个或更多个氨基酸的任何组合。在一些实施例中，两个或更多个氨基酸可以是在SEQ ID NO:1的位置75处的脯氨酸以及1)、4)和10)中的任何一个或多个或者在SEQ ID NO:2的位置71处的脯氨酸，以及4)或10)(或3)或9)，使用上文部分(iv)中的编号)中的一个或两个。

在本发明的另外的实施例中，多肽包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸，在位置70处的谷氨酸以及以下中的三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个，或九个或更多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸，在位置66处的谷氨酸以及以下中的三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个或八个或更多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

在一些实施例中，四个或更多个残基包括残基1)、4)、7)和10)以及任选地6)、8)和9)中的一个、两个或三个(使用上文部分(iii)中的编号)。

如上所述，在对RrgACatcher多肽(SEQ ID NO:6)进行的产生DogCatcher多肽(SEQID NO:1)的十种修饰中，其中七种(称为“溶解度修饰”)被认为具有增加多肽的溶解度的功能，并且其中三种(称为“反应性修饰”)被认为具有增加与DogTag肽的反应速率的功能。

就原始RrgA蛋白质中的残基而言，七种溶解度修饰是：D737E、N774D、N746T、N780D、K792T、A808P和N825D。就SEQ ID NO:1中的残基而言，这些溶解度修饰对应于：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸。

如上所述，含有溶解度修饰的全部七种的RrgACatcher的序列称为RrgACatcherB或R2CatcherB(SEQ ID NO:8)。在一些实施例中，本发明的多肽可以包含全部溶解度修饰，即，可以包含如SEQ ID NO:8所示的氨基酸序列或其产生如本文所定义的功能性多肽(例如能够与包含如SEQ ID NO:3所示的氨基酸序列的肽自发形成异肽键)的变体氨基酸序列。可替代地表达，本发明的多肽可以包含：

i)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ ID NO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的全部：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸

ii)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(i)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸以及以下中的全部：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

就原始RrgA蛋白质中的残基而言，三种反应性修饰是：F802I、A820S和Q822R。就SEQ ID NO:1中的残基而言，这些溶解度修饰对应于：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸。

如上所述，含有反应性修饰中的全部三种的RrgACatcher序列在SEQ ID NO:9中提供。在一些实施例中，本发明的多肽可以包含全部反应性修饰，即，可以包含如SEQ ID NO:9所示的氨基酸序列或其产生如本文所定义的功能性多肽(例如在合适的条件下能够与包含如SEQ ID NO:3所示的氨基酸序列的肽自发形成异肽键)的变体氨基酸序列。可替代地表达，本发明的多肽可以包含：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

在一些实施例中，本发明的多肽包含在等同于SEQ ID NO:1的位置75(等同于SEQID NO:2的位置71)的位置处的脯氨酸残基。因此，本发明的多肽可以包含在所述位置处的脯氨酸残基，以及反应性修饰中的一种或多种。在这方面，本发明的多肽可以包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、在位置75处的脯氨酸以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸、在位置71处的脯氨酸以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

在另外的实施例中，本发明的多肽包含在等同于SEQ ID NO:1的位置75的位置处的脯氨酸残基、一种或多种另外的溶解度修饰、以及一种或多种反应性修饰。也就是说，本发明的多肽可以包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、在位置75处的脯氨酸、以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；以及

6)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸、在位置71处的脯氨酸、以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；以及

5)在位置88处的天冬氨酸；

以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

在另外的实施例中，本发明的多肽包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸，在位置70处的谷氨酸，以及以下中的两个或更多个、三个或更多个、四个或更多个、五个或更多个或六个或更多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个(例如两个或三个)：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸，在位置66处的谷氨酸，以下中的两个或更多个、三个或更多个、四个或更多个或五个或更多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

以及以下中的一个或多个(例如两个或三个)：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

在一些实施例中，从溶解度修饰的列表中选择的两个或更多个氨基酸可以是在SEQ ID NO:1的位置75处的脯氨酸以及1)-5)和7)中的任何一个或多个(使用上文部分(iii)中的编号)或者在SEQ ID NO:2的位置71处的脯氨酸，以及1)-4)和6)中的任一个(使用上文部分(iii)中的编号)。然而，本文涵盖了来自上文列出的那些的两个或更多个氨基酸的任何组合。在一些实施例中，多肽至少包含在位置4处的谷氨酸；在位置47处的天冬氨酸；在位置75处的脯氨酸；以及在位置92处的天冬氨酸。在一些实施例中，截短的多肽(多肽部分)至少包含在位置43处的天冬氨酸；在位置71处的脯氨酸；以及在位置88处的天冬氨酸。

在一些实施例中，本发明的多肽包含全部溶解度修饰以及反应性修饰中的一种或多种，例如全部。因此，本发明的多肽可以包含：

i)如SEQ ID NO:1所示的氨基酸序列；或者

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:1所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的全部：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

iv)包含与如SEQ ID NO:2所示的序列具有至少80％序列同一性(例如与如SEQ IDNO:2所示的序列具有至少85％、90％、95％、96％、97％、98％或99％同一性)的氨基酸序列的(iii)的一部分，其中该氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸以及以下中的全部：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

在特别优选的实施例中，上述将DogCatcher与RrgACatcher区分的与SEQ ID NO:1相关的氨基酸中的全部十种(与SEQ ID NO:2相关的九种)存在于本发明的变体多肽中。在本发明的多肽变体(即序列同一性相关的多肽及其部分)不含有上文指定的全部残基的实施例中，典型地优选变体在指定位置中含有RrgACatcher多肽(SEQ ID NO:6)中的等同位置处的氨基酸残基或其保守取代。可以通过例如使用BLASTP算法将多肽变体的氨基酸序列与SEQ ID NO:6进行比较而容易地确定等同位置。

因此，举例来说，在本发明的多肽包含与本文所定义的(例如如SEQ ID NO:1或18所示的)序列具有至少80％序列同一性的氨基酸序列的实施例中，如果在位置4(或等同位置)处的残基不是谷氨酸，则优选地残基是天冬氨酸。类似地，如果在位置11(或等同位置)处的残基不是天冬氨酸，则优选地残基是天冬酰胺。如果在位置13(或等同位置)处的残基不是苏氨酸，则优选地残基是天冬酰胺。如果在位置47(或等同位置)处的残基不是天冬氨酸，则优选地残基是天冬酰胺。如果在位置59(或等同位置)处的残基不是苏氨酸，则优选地残基是赖氨酸。如果在位置69(或等同位置)处的残基不是异亮氨酸，则优选地残基是苯丙氨酸。如果在位置75(或等同位置)处的残基不是脯氨酸，则优选地残基是丙氨酸。如果在位置87(或等同位置)处的残基不是丝氨酸，则优选地残基是丙氨酸。如果在位置89(或等同位置)处的残基不是精氨酸，则优选地残基是谷氨酰胺。如果在位置92(或等同位置)处的残基不是天冬氨酸，则优选地残基是天冬酰胺。这适用于以下指定的其他残基。

然而，在一些实施例中，如果在位置87(或等同位置)处的残基不是丝氨酸，则优选地残基是谷氨酸。如下图9所示，在此位置处的谷氨酸残基可以进一步提高多肽的溶解度。因此，在一些实施例中，多肽包含“反应性”修饰中的仅两种、在位置69(或等同位置)处的异亮氨酸以及在位置89(或等同位置)处的精氨酸以及包含在位置87(或等同位置)处的谷氨酸。

在一些实施例中，本发明的多肽变体可以与SEQ ID NO:1或18相差例如，1至30、1至25、1至20、1至15、1至10、1至8、1至6、1至5、1至4，例如1、2或3个氨基酸取代、插入、和/或缺失，优选地1至21、1至20、1至15、1至10、1至8、1至6、1至5、1至4，例如1、2至3个氨基酸取代和/或1至15、1至10、1至9、1至8、1至6、1至5、1至4，例如1、2或3个氨基酸缺失。如下文所讨论，在一些实施例中，优选地在N-末端和/或C-末端处进行缺失，即，截短，从而产生如上文所定义的SEQ ID NO:1的多肽部分，例如SEQ ID NO:2或19。

在一些实施例中，存在于本发明的多肽中相对于所例举的多肽(例如SEQ ID NO:1或18)的任何突变都可以是保守氨基酸取代。保守氨基酸取代是指用保留多肽的物理化学特征的另一种氨基酸替代氨基酸(例如D可以被E替代，反之亦然，N被Q替代，或者L或I被V替代反之亦然)。因此，通常取代氨基酸具有与被取代氨基酸相似的特性，例如疏水性、亲水性、电负性、大体积侧链等。可以掺入天然L-氨基酸(例如D-氨基酸)的异构体。

因此，在本发明的多肽变体不含有上文和下文进一步指定的全部残基(即，SEQ IDNO:1或18相对于SEQ ID NO:6的全部突变)的一些实施例中，在本文指定的位置、特别地下文指定的位置中，变体可以含有在RrgACatcher肽(SEQ ID NO:6)中的等同位置处的氨基酸残基的保守取代。因此，例如，如果在位置69(或等同位置)处的残基不是异亮氨酸或苯丙氨酸，则优选地该残基表示在SEQ ID NO:1、6或18中的等同位置处的残基(例如亮氨酸)的保守取代。

如本文所用，术语“接头”是指具有将两个分子或组分优选通过共价键(例如异肽键)连接(即缀合或接合)在一起而起作用的分子。因此，本发明的多肽(肽标签结合配偶体)及其肽标签可以被视为两部分接头，其中第一部分(即多肽)与第二部分(即肽标签)之间的异肽键的形成重构了接头，从而使融合或缀合到该接头的所述第一部分和第二部分的分子或组分接合。可替代地说明，本发明的多肽(肽标签结合配偶体)及其肽标签可以被视为作为接头起作用的同源对，即，肽标签和多肽同源对或肽标签和结合配偶体同源对。这些术语在整个描述中可互换使用。

术语“同源”是指共同起作用或特异地相互作用的组分。因此，在本发明的上下文中，同源对可以是指一起自发反应以形成异肽键的本发明的肽标签和多肽(肽标签结合配偶体)。因此，包含在能够自发形成异肽键的条件下一起有效地反应以形成所述异肽键的肽标签和多肽的两部分接头还可以称为“互补对”，即，肽标签和多肽互补对。

在一些实施例中，同源对是指非共价结合以形成络合物(即，多肽:肽标签络合物)的本发明的肽标签(即，DogTag或其变体)和多肽(亲和纯化多肽)。

因此，在一些实施例中，同源肽标签是指与本发明的多肽自发反应以形成异肽键的DogTag肽或其变体，例如RrgATag或RrgATag2(例如包含SEQ ID NO:3-5或17中的任一个所示的氨基酸序列的肽)。在一些实施例中，同源肽标签可以是包含与如SEQ ID NO:3-5或17中的一个所示的氨基酸序列具有至少80％(例如至少85％、90％或95％)序列同一性的氨基酸序列的肽，该肽能够与包含如SEQ ID NO:1所示的氨基酸序列的多肽自发形成异肽键，例如在同源肽标签中的天冬酰胺(即，在等同于SEQ ID NO:3-5或17中的任一个的位置17的位置处的天冬酰胺)与SEQ ID NO:1的位置9处的赖氨酸残基之间。

在一些实施例中，同源肽标签是指可以与本发明的多肽(亲和纯化多肽)选择性地(例如特异性地)和可逆地结合的如本文所定义的肽标签(例如包含SEQ ID NO:3-5或17中的一个所示的氨基酸序列的肽)。

因此，在一些优选的实施例中，肽标签包含以下或由以下组成：SEQ ID NO:3、4、5或17所示的氨基酸序列，或与如SEQ ID NO:3-5或17中的任一个所示的序列具有至少80％序列同一性(例如与如SEQ ID NO:3-5或17中的任一个所示的序列具有至少85％、90％或95％序列同一性)的氨基酸序列的肽，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基。因此，在一些实施例中，肽标签包含以下或由以下组成：与如SEQ ID NO:3所示的序列具有至少80％序列同一性(例如与如SEQ ID NO:3所示的序列具有至少85％、90％或95％同一性)的氨基酸序列，其中该氨基酸序列包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基、在位置11处的甘氨酸残基以及在位置17处的天冬酰胺残基。

因此，本发明进一步提供了两部分接头，其包含肽(肽标签)和多肽(肽标签结合配偶体)，其中：

a)所述多肽(肽标签结合配偶体)包含如上文所定义的氨基酸序列(即，SEQ IDNO:1或其变体)；以及

b)所述肽(肽标签)包含如上文所定义的氨基酸序列(例如SEQ ID NO:3、4或5所示的氨基酸序列，或其变体)，

并且其中所述肽(肽标签)和多肽(肽标签结合配偶体)能够在肽标签中的天冬酰胺残基(例如在SEQ ID NO:3、4或5的位置17处)与在SEQ ID NO:1的位置9处的赖氨酸残基之间自发形成异肽键。

本发明的多肽(肽标签结合配偶体)的在位置9处的赖氨酸残基(例如SEQ ID NO:1)与SEQ ID NO:3、4、5或17中的在位置17处的天冬酰胺残基在各种条件下自发形成异肽键，这些条件包括以下解释的适合于在所述肽标签与多肽(肽标签结合配偶体)之间形成异肽键的那些。从以下实例中可以明显看出，本发明的多肽(肽标签结合配偶体)在一系列条件下具有活性并且能够与多种肽标签(特别是SEQ ID NO:3-5)反应。

例如，多肽(肽标签结合配偶体)在包括以下的多种缓冲液(在有和没有EDTA两者的情况下)中具有活性(即，能够与如本文所述的肽标签自发形成异肽键)：磷酸盐缓冲盐水(PBS)、4-(2-羟基乙基)-1-哌嗪乙磺酸(HEPES)、HEPES缓冲盐水(HBS)、Tris(三(羟基甲基)氨基甲烷)和Tris缓冲盐水(TBS)。多肽(肽标签结合配偶体)在约5.5-11.0(例如5.5-10.0、6.0-9.5，例如约6.0-8.5或6.5-9.0)的pH下，在宽范围的温度(例如0℃-40℃，例如1℃、2℃、3℃、4℃、5℃、10℃、12℃、15℃、18℃、20℃、22℃、25℃、28℃、30℃、35℃或37℃，优选地约25℃-35℃，例如约25℃)内具有活性。本发明的多肽(肽标签结合配偶体)在常用的洗涤剂(例如Tween 20和Triton X-100(例如高达约1％(v/v)的浓度))的存在下以及在还原剂(例如二硫苏糖醇(DTT))的存在下也具有活性。技术人员将容易地确定其他合适的条件。

因此，在一些实施例中，适合于在本发明的多肽(肽标签结合配偶体)与同源肽标签(例如包含如SEQ ID NO:3-5所示的氨基酸序列或由其组成的肽)之间形成异肽键的条件包括使本发明的肽标签和多肽(肽标签结合配偶体)接触导致在所述肽标签和多肽(肽标签结合配偶体)之间、特别地在SEQ ID NO:3、4或5的位置17处的天冬酰胺残基与在SEQ IDNO:1位置9(或等同位置)处的赖氨酸残基之间自发形成异肽键的任何条件。例如，在缓冲条件(例如在缓冲溶液中或在用缓冲液(例如PBS)平衡的固相(例如柱)上)下使所述肽标签和多肽(肽标签结合配偶体)接触。接触步骤可以在任何合适的pH，例如约pH 5.5-11.0，例如5.5-10.0，例如约pH 5.6、5.8、6.0、6.2、6.4、6.6、6.8、7.0、7.2、7.4、7.6、7.8、8.0、8.2、8.4、8.6、8.8、9.0、9.2、9.4或9.6下。另外地或可替代地，接触步骤可以是在任何合适的温度，例如约0℃-40℃，例如约1℃-39℃、2℃-38℃、3℃-37℃、4℃-36℃、5℃-35℃、6℃-34℃、7℃-33℃、8℃-32℃、9℃-31℃或10℃-30℃，例如约10℃、12℃、15℃、18℃、20℃、22℃、25℃、28℃、30℃、33℃、35℃或37℃，优选地约25℃-35℃，例如约25℃下。

如上所述，在本文所述的肽标签与本发明的多肽(肽标签结合配偶体)之间的异肽键的形成是自发的。在此方面，多肽(肽标签结合配偶体)包含在位置70(或等同位置，基于SEQ ID NO:1的编号)处的谷氨酸，其分别促进例如诱导、促使或催化在肽标签和多肽(肽标签结合配偶体)中的天冬酰胺与赖氨酸残基之间形成异肽键。

如本文所用，术语“自发”是指可以在没有任何其他药剂(例如酶催化剂)存在的情况下和/或在没有蛋白质或肽的化学修饰(例如在没有天然化学连接或使用1-乙基-3-(3-二甲基氨基丙基)碳二亚胺(EDC)的化学偶联下)在蛋白质中或在肽或蛋白质之间(例如两个肽或一个肽与蛋白质之间，即，本发明的肽标签与多肽(肽标签结合配偶体)之间)形成异肽键。因此，不进行天然化学连接以修饰具有C-末端硫酯的肽或蛋白质。

因此，当分离时且在没有对本发明的肽标签和/或多肽进行化学修饰的情况下，可以在如本文所定义的肽标签与本发明的多肽(肽标签结合配偶体)之间形成自发的异肽键。因此，在不存在酶或其他外源物质的情况下且在没有对本发明的肽标签和/或多肽进行化学修饰的情况下，自发的异肽键可以自行形成。

自发的异肽键可以在与本发明的肽标签和多肽(肽标签结合配偶体)接触后几乎立即(例如在1、2、3、4、5、10、15、20、25或30分钟内，或在1、2、4、8、12、16、20或24小时内)形成。

异肽形成的速度将取决于肽标签和多肽反应物的浓度以及反应条件(例如温度)。在一些实施例中，对于约80％或更多的反应物，自发的异肽键形成可以在约20分钟或更短的时间内完成，例如，其中在约25℃的反应温度下，反应物各自以约5μM的浓度存在。

可替代地来看，在一些实施例中，对于约80％或更多的反应物，自发的异肽键形成可以在约20分钟或更短的时间内完成，例如，其中在约25℃的反应温度下，反应物各自以约μM的浓度存在。

用于确定上文所定义的反应速度的其他反应条件(例如缓冲液、pH等)可以是本文所定义的任何条件。在一些实施例中，反应条件是在实例中使用的那些。例如，在一些实施例中，自发的异肽键形成在约7.5的pH下在PBS缓冲液中以上文指定的量完成。

本发明的多肽涵盖了多肽(即，肽标签结合配偶体或亲和纯化多肽)的突变体形式(即，本文称为同源物、变体或衍生物)，该多肽在结构上类似于SEQ ID NO:1和18所示的例举的多肽。本发明的多肽(肽标签结合配偶体)变体能够作为肽标签结合配偶体(捕获体)起作用，即，能够在如本文所定义的肽标签的位置17(或等同位置)处的天冬酰胺与在多肽(肽标签结合配偶体)变体的位置9(或等同位置)处的赖氨酸之间在如上文所定义的合适的条件下自发形成异肽键。本发明的亲和纯化多肽变体能够在如本文所定义的合适的条件下与同源肽标签选择性地和可逆地结合。

在多肽变体相对于SEQ ID NO:1或18包含突变(例如缺失或插入)的情况下，上文指定的残基在等同于变体多肽序列中的氨基酸位置处存在。在一些实施例中，本发明的多肽变体的缺失不是N-末端和/或C-末端截短。

然而，如上所述，考虑的是可以将本文所例举的多肽(例如SEQ ID NO:1或18)在N-末端和/或C-末端处截短，而不显著降低多肽的活性或功能。特别地，可以将SEQ ID NO:1或18在N-末端处截短至长达4个氨基酸(例如1、2、3或4个氨基酸)和/或在C-末端处截短至长达5个氨基酸(例如1、2、3、4或5个氨基酸)。因此，如本文所用，术语变体包括所例举的多肽的截短变体。可替代地来看，可以看出本发明提供了所例举的多肽的一部分，其中所述部分包含如SEQ ID NO:2或19所示的氨基酸序列或其变体，如上文所讨论。

如本文所提及，“部分”包含如例如SEQ ID NO:2或19所示的至少一个氨基酸序列，即含有如SEQ ID NO:2所示的氨基酸序列的SEQ ID NO:1或18(衍生其序列)的至少95、96、97、98、99、100、101、102或103个氨基酸。因此，所述部分可以从序列的中心或N-末端或C-末端部分中获得。优选地，所述部分从中心部分中获得，即，它包含N-末端和/或C-末端截短，如上文所定义。值得注意的是，如本文所述的“部分”是本发明的多肽，并且因此满足本文所述的同一性(相对于相当区域)条件和功能性等同条件。

在一些实施例中，用于与本发明的多肽一起使用的肽标签可以是本文所述的序列的变体，例如可以与SEQ ID NO:3-5相差例如1至5、1至4，例如1、2至3个氨基酸取代、插入和/或缺失，优选地取代，如上文所定义。在一些实施例中，本发明的多肽变体可以与例如如上文所定义的SEQ ID NO:1或18不同。然而，肽和多肽变体靶向保留其功能活性，例如它们分别与其同源结合配偶体和肽自发形成异肽键的能力，或者它们形成络合物(即，多肽:肽标签络合物)的能力。

序列同一性可以通过本领域已知的任何合适的手段(例如使用SWISS-PROT蛋白序列数据库使用具有可变参数因子的FASTA pep-cmp，并且将空位产生罚分设置为12.0，且空位延伸罚分设置为4.0，以及具有2个氨基酸的窗口)来确定。用于确定氨基酸序列同一性的其他程序包括来自威斯康星大学(University of Wisconsin)的遗传学计算机集团(Genetics Computer Group，GCG)版本10软件包的BestFit程序。该程序使用Smith和Waterman的局部同源性算法，默认值为：空位产生罚分-8，空位延伸罚分＝2，平均匹配＝2.912，平均错配＝-2.003。

优选地，所述比较在序列的全长范围内进行，但也可以在比较的较小的窗口(例如少于100、80或50个连续氨基酸)内进行。

优选地，肽标签和多肽(肽标签结合配偶体)变体(例如序列同一性相关变体)在功能上等同于分别具有SEQ ID NO:3-5或SEQ ID NO:1或2所示的序列的肽标签和多肽(肽标签结合配偶体)。如本文所提及，“功能性等同”是指本文所定义的肽标签和上文所讨论的本发明的多肽(肽标签结合配偶体)的变体，这些变体相对于亲本分子(即与其显示序列同源性的分子)可以在与其各自配偶体自发形成异肽键方面显示出一些降低的功效(例如较低的表达产率、较低的反应速率或在有限范围的反应条件(例如较窄的温度范围，例如10℃-30℃等)下的活性)，但优选地是同样有效或更有效的。

具有与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性“等同”的活性的突变体或变体肽标签可以具有与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性类似(即，相当)的活性，即，使得肽标签的实际应用不会受到显著影响，例如在实验误差的范围内。因此，等同的肽标签活性意指突变体或变体肽标签在相同条件下能够与多肽(肽标签结合配偶体，例如包含如SEQ ID NO:1或2所示的氨基酸序列或由其组成)自发形成异肽键，其中反应速率(即，如下文所讨论的速率常数)和/或产率与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签类似。

类似地，具有与包含如SEQ ID NO:1、2、18或19(优选地SEQ ID NO:1或18)所示的氨基酸序列或由其组成的多肽的活性“等同”的活性的本发明的突变体或变体多肽可以具有与包含如SEQ ID NO:1、2、18或19(优选地SEQ ID NO:1或18)所示的氨基酸序列或由其组成的多肽的特性类似(即，相当)的功能特性(例如溶解度和/或活性(例如反应性或亲和力))，即，使得多肽的实际应用不会受到显著影响，例如在实验误差的范围内。

因此，在一些实施例中，等同的多肽(肽标签结合配偶体)活性或功能意指本发明的突变体或变体多肽(肽标签结合配偶体)能够在相同条件下与肽标签(例如包含如SEQ IDNO:3-5中的一个所示的氨基酸序列或由其组成)自发形成异肽键，其中反应速率(即，如下文所讨论的速率常数)和/或产率与包含如SEQ ID NO:1或2(优选地SEQ ID NO:1)所示的氨基酸序列或由其组成的多肽(肽标签结合配偶体)类似。

在一些实施例中，等同的多肽功能意指本发明的突变体或变体多肽(例如肽标签结合配偶体)在相同条件下具有与包含如SEQ ID NO:1、2、18或19(优选地SEQ ID NO:1或18)所示的氨基酸序列或由其组成的多肽(肽标签结合配偶体)类似的溶解度特征。值得注意的是，在一些实施例中，具有与包含如SEQ ID NO:1或2(优选地SEQ ID NO:1)所示的氨基酸序列或由其组成的多肽(肽标签结合配偶体)的溶解度特征类似的等同的多肽还必须能够与如本文所定义的肽标签(例如包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成)自发形成异肽键。优选地，等同的多肽与包含如SEQ ID NO:1或2(优选地SEQ IDNO:1)所示的氨基酸序列或由其组成的多肽(肽标签结合配偶体)在相同条件下具有类似的溶解度、反应速率和/或产率。

在一些实施例中，具有与包含如SEQ ID NO:18或19(优选地SEQ ID NO:18)所示的氨基酸序列或由其组成的多肽(亲和纯化多肽)类似的溶解度特征的等同的多肽还必须能够在如本文所定义的合适的条件下与同源肽标签选择性地和可逆地结合。优选地，等同的多肽与包含如SEQ ID NO:18或19(优选地SEQ ID NO:18)所示的氨基酸序列或由其组成的多肽(亲和纯化多肽)在相同条件下具有类似的溶解度、结合亲和力和/或产率。

因此，可以看出本发明的突变体或变体多肽可以具有与包含如SEQ ID NO:1、2、18或19(优选地SEQ ID NO:1或18)所示的氨基酸序列或由其组成的多肽的溶解度类似(即，相当)的溶解度，即，使得多肽的实际应用不会受到显著影响，例如在实验误差的范围内。

在相同反应条件(例如如上文所例举的温度、底物(即，肽标签或多肽序列)及其浓度、缓冲液、盐等)下测量的不同肽标签和多肽(例如分别为SEQ ID NO:3相对于突变体以及SEQ ID NO:1相对于突变体)的活性可以容易地进行比较以确定每个肽标签和多肽的活性是更高、更低或是等同的。

特别地，本文所定义的肽标签变体和本发明的多肽变体可以与分别具有如SEQ IDNO:3-5或者SEQ ID NO:1或2所示的序列的肽标签和多肽具有等同的速率常数。速率常数是指与在给定温度下反应速率(异肽键的形成)比反应物的浓度的乘积(即本发明的肽标签和多肽的浓度的乘积)相关的比例的系数。

因此，本文披露的变体(例如突变体)肽标签的活性(例如速率常数)可以是包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性(例如速率常数)的至少60％，例如至少70％、75％、80％、85％或90％，例如包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性的至少91％、92％、93％、94％或95％。可替代地来看，突变体肽标签的活性(例如速率常数)可以比包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性(例如速率常数)低不超过40％，例如比包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性(例如速率常数)低不超过35％、30％、25％或20％，例如比包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签的活性(例如速率常数)低不超过10％、9％、8％、7％、6％或5％。

类似地，本发明的变体多肽(肽标签结合配偶体)的活性(例如速率常数)可以是包含如SEQ ID NO:1或2所示的氨基酸序列或由其组成的多肽的活性(例如速率常数)的至少60％，例如至少70％、75％、80％、85％或90％，例如包含如SEQ ID NO:1或2所示的氨基酸序列或由其组成的多肽的活性(例如速率常数)的至少91％、92％、93％、94％、95％、96％、97％、98％或99％。可替代地来看，变体多肽的活性可以比包含如SEQ ID NO:1或2所示的氨基酸序列或由其组成的多肽的活性(例如速率常数)低不超过40％，例如比包含如SEQ IDNO:1或2所示的氨基酸序列或由其组成的多肽的活性(例如速率常数)低不超过35％、30％、25％或20％，例如比包含如SEQ ID NO:1或2所示的氨基酸序列或由其组成的多肽的活性(例如速率常数)低不超过10％、9％、8％、7％、6％、5％、4％、3％、2或1％。

此外，当在相同条件下(例如缓冲液、温度、pH等)测量时，本发明的变体多肽的溶解度可以是包含如SEQ ID NO:1、2、18或19所示的氨基酸序列或由其组成的多肽的溶解度的至少60％，例如至少70％、75％、80％、85％或90％，例如包含如SEQ ID NO:1或2所示的氨基酸序列或由其组成的多肽的溶解度的至少91％、92％、93％、94％、95％、96％、97％、98％或99％。可替代地来看，当在相同条件下(例如缓冲液、温度、pH等)测量时，变体多肽的溶解度可以比包含如SEQ ID NO:1、2、18或19所示的氨基酸序列或由其组成的多肽的溶解度低不超过40％，例如比包含如SEQ ID NO:1、2、18或19所示的氨基酸序列或由其组成的多肽的溶解度低不超过35％、30％、25％或20％，例如比包含如SEQ ID NO:1、2、18或19所示的氨基酸序列或由其组成的多肽的溶解度低不超过10％、9％、8％、7％、6％、5％、4％、3％、2或1％。多肽的溶解度可以使用本领域已知的任何合适的手段来测量。例如，如实例所示，溶解度可以通过确定在指定条件下从合适的宿主细胞(例如大肠杆菌(E.coli))中的表达中获得的可溶性蛋白质的产率来测量。在另外的代表性实例中，蛋白质的相对溶解度可以使用旋转浓缩器来测量，其中蛋白质溶液被浓缩直到发生蛋白质聚集，并且聚集点可用于确定蛋白质的相对溶解度。

值得注意的是，当肽标签和/或多肽与比分离的肽标签和多肽扩散慢的大分子或组分(例如蛋白质)融合时，本文披露的肽标签和本发明的多肽的反应的速率常数可以低于在实例中描述的值。此外，如果与肽标签和/或多肽融合的分子或组分对反应造成空间位阻，则可以降低速率常数。因此，当测量本文披露的肽标签变体和本发明的多肽变体的反应的速率常数时，优选地使用分离的肽标签和多肽(即，肽标签和多肽未与其他分子或组分融合或缀合)进行测量。

然而，如实例所示，使用与多肽融合的肽标签来测量本发明的多肽变体的反应的速率常数通常很方便。因此，当使用与多肽融合的肽标签测量和比较不同多肽变体的速率常数时，优选地在所有反应中与肽标签融合的多肽具有相同的大小，优选地具有相同的序列。

将显而易见的是，与大分子或组分的融合和/或空间位阻也会影响其他肽标签和多肽的速率常数，例如RrgATag、RrgATag2和RrgACatcher。因此，除了本发明的多肽及其同源肽标签在低浓度下使用外，当它们在高浓度(例如约至少10μM)下使用时(例如，当与大分子或组分融合时)，本发明的多肽的速率常数的增强可以仍然是有利的。

反应速率和速率常数可以通过本领域已知的任何合适的手段来评估，如实例和WO2018/197854中所述(通过引用并入本文)。例如，反应速率可以通过以下来监测：(i)在SDS或其他会破坏所有非共价相互作用的强变性处理中煮沸后，在SDS-PAGE上评估反应产物的迁移率，或(ii)质谱法。

因此，可以对SEQ ID NO:1进行任何修饰或修饰的组合以产生本发明的变体多肽(肽标签结合配偶体)，条件是该变体多肽(肽标签结合配偶体)包含如上文所定义的在等同于SEQ ID NO:1的位置9的位置处的赖氨酸残基以及在等同于SEQ ID NO:1的位置70的位置处的谷氨酸残基以及在等同于SEQ ID NO:1的位置4、11、13、47、59、69、75、87、89和92的位置处的至少一个(优选地两个或更多个)其他氨基酸残基(包括其中至少一个氨基酸是在位置75处的脯氨酸，氨基酸序列还包含如上文所定义的在等同于SEQ ID NO:1的位置4、11、13、47、59、69、87、89和92的位置处的至少一个其他氨基酸残基)，并且保留上文所定义的功能特征，即，它使多肽(肽标签结合配偶体)能够与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签自发形成异肽键，并且任选地相对于具有如SEQ ID NO:1所示的氨基酸序列的多肽(肽标签结合配偶体)具有等同的或更高的产率、反应速率，例如速率常数、溶解度、对温度和/或缓冲液变化的耐受性。

在一些另外的实施例中，本发明的变体多肽包含上文指定的残基，并且保留上文所定义的功能特征，即，它使多肽(肽标签结合配偶体)能够与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签自发形成异肽键，并且任选地相对于具有如SEQID NO:1所示的氨基酸序列的多肽(肽标签结合配偶体)具有等同的或更高的产率、反应速率，例如速率常数、溶解度、对温度和/或缓冲液范围变化的耐受性。

可替代地来看，可以对SEQ ID NO:2进行任何修饰或修饰(优选地取代)的组合以产生本发明的变体多肽(肽标签结合配偶体)，条件是该变体多肽(肽标签结合配偶体)包含如上文所定义的在等同于SEQ ID NO:2的位置5的位置处的赖氨酸残基以及在等同于SEQID NO:2的位置66的位置处的谷氨酸残基以及在等同于SEQ ID NO:2的位置7、9、43、55、65、71、83、85和88的位置处的至少一个(优选地两个或更多个)其他氨基酸残基(包括其中至少一个氨基酸是在位置71处的脯氨酸，氨基酸序列还包含如上文所定义的在等同于SEQ IDNO:2的位置7、9、43、55、65、71、83、85和88的位置处的至少一个其他氨基酸残基)，并且保留上文所定义的功能特征，即，它使多肽(肽标签结合配偶体)能够与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签自发形成异肽键，并且任选地相对于具有如SEQ ID NO:2所示的氨基酸序列的多肽(肽标签结合配偶体)具有等同的或更高的产率、反应速率，例如速率常数、溶解度、对温度和/或缓冲液范围变化的耐受性。

在一些另外的实施例中，本发明的截短的变体多肽包含上文指定的残基，并且保留上文所定义的功能特征，即，它使多肽(肽标签结合配偶体)能够与包含如SEQ ID NO:3-5中的一个所示的氨基酸序列或由其组成的肽标签自发形成异肽键，并且任选地相对于具有如SEQ ID NO:2所示的氨基酸序列的多肽(肽标签结合配偶体)具有等同的或更高的产率、反应速率，例如速率常数、溶解度、对温度和/或缓冲液范围变化的耐受性。

本文披露的肽标签中的等同位置优选地通过参考SEQ ID NO:3的氨基酸序列来确定。本发明的多肽(肽标签结合配偶体)中的等同位置通过参考SEQ ID NO:1或2的氨基酸序列来确定。可以例如使用BLAST算法基于序列之间的同源性或同一性通过排列同源物(突变体、变体或衍生物)肽标签的序列和SEQ ID NO:3的序列或者同源物(突变体、变体或衍生物)多肽(肽标签结合配偶体)的序列和SEQ ID NO:1或2的序列来容易地推导同源位置或相应位置。

如本文所用，术语“标签”和“肽标签”通常是指肽或寡肽。

如本文所用，术语“肽标签结合配偶体”、“结合配偶体”或“捕获体”通常是指多肽或蛋白质。

在此方面，关于肽的含义和多肽的含义之间的大小边界没有标准的定义。典型地，肽可以被视为包含2-39个氨基酸之间。因此，多肽可以被视为包含至少40个氨基酸，优选地至少50、60、70、80、90或100个氨基酸。

因此，在优选的实施例中，如本文所定义的肽标签可以被视为包含至少12个氨基酸，例如12-39个氨基酸，例如像长度为13-35、14-34、15-33、16-31、17-30个氨基酸，例如它可以包含12、13、14、15、16、17、18、19、20、21、22或23个氨基酸或由其组成。

如本文所定义的本发明的多肽(例如肽标签结合配偶体、结合配偶体或“捕获体”或亲和纯化多肽)可以被视为包含至少95个氨基酸，例如95-150氨基酸，例如像长度为95-140、95-130、95-120个氨基酸，例如它可以包含95、96、97、98、99、100、101、102、103或104个氨基酸或由其组成。

如上文所讨论，两部分接头(例如标签和捕获体系统或对，即同源对)具有大量的效用，并且本发明的多肽(肽标签结合配偶体)及其一个或多个同源肽标签(例如SEQ IDNO:3-5)可特别用于两个分子或组分经由异肽键的缀合(即接合或连接)。例如，肽标签和多肽(肽标签结合配偶体)可以与目的分子或组分单独缀合或融合，并且随后在适合于允许在肽标签和多肽(肽标签结合配偶体)之间自发形成异肽键的条件下在一起接触，从而经由异肽键与分子或组分接合(即，连接或缀合)。

因此，在一些实施例中，可以看出本发明提供了如本文所定义的肽(肽标签)和多肽(肽标签结合配偶体)将两个分子或组分经由异肽键缀合的用途，

其中经由异肽键缀合的所述分子或组分包含：

a)包含(例如缀合或融合至)如本文所定义的本发明的多肽(肽标签结合配偶体)的第一分子或组分；以及

b)包含(例如缀合或融合至)如本文所定义的肽(肽标签)的第二分子或组分。

将显而易见的是，上文所述的肽标签和多肽(肽标签结合配偶体)对(即，两部分接头)的用途包括如上所述在适合于能够(例如促使或促进)在所述肽标签和多肽(肽标签结合配偶体)之间自发形成异肽键的条件下使所述第一分子和第二分子接触。

如上所述，将肽标签在内部位点处(即，不在分子或组分的末端之一处)掺入所述分子或组分中时，上文所述的肽标签和多肽(肽标签结合配偶体)对(即，两部分接头)特别有效。因此，在一些实施例中，第二分子或组分可以包含在内部位点处(例如在环中)的如本文所定义的肽(肽标签)。可替代地表达，如本文所定义的肽标签可以在第二分子或组分中在内部位点处存在。

如本文所用，术语“内部位点”是指分子或组分内的位点，向其中要掺入本发明的肽标签或多肽(肽标签结合配偶体)，本发明的肽标签或多肽不在所述分子或组分的任一末端，即在所述分子或组分的内部。在分子或组分是蛋白质的情况下，内部位点可以是与蛋白质的末端相距至少1个或多个残基的位点，例如与蛋白质的末端相距至少2、3、4、5、10、15、20或25个或更多个残基。内部位点可以是在分子或组分内部的任何点。当分子或组分是蛋白质时，优选内部位点在蛋白质环区内，即在连接蛋白质内定义的规则二级结构的两个区的区内。

因此，在一些实施例中，第二分子或组分可以是蛋白质，并且可以包含在内部位点处的如本文所定义的肽(肽标签)。在优选的实施例中，第二分子或组分可以是蛋白质，并且可以包含在环区或结构域中的如本文所定义的肽(肽标签)。

a)提供包含(例如缀合或融合至)如本文所定义的本发明的多肽(肽标签结合配偶体)的第一分子或组分；

b)提供包含(例如缀合或融合至)如本文所定义的肽(肽标签)的第二分子或组分；

c)在能够(例如促使或促进)在如上所述肽与多肽之间自发形成异肽键的条件下使所述第一分子或组分和第二分子或组分接触，从而经由异肽键将所述第一分子或组分与所述第二分子或组分缀合以形成络合物。

同样，在一些实施例中，第二分子或组分可以包含在内部位点处的如本文所定义的肽(肽标签)。在优选的实施例中，第二分子或组分是蛋白质，并且如本文所定义的肽标签在所述蛋白质的内部位点处存在，优选地在环区或结构域中存在。

在本发明关于使两个或更多个分子或组分连接以形成络合物的上下文中，术语“缀合”或“连接”是指经由共价键、特别是在掺入或融合至所述分子或组分(例如蛋白质(例如肽标签和多肽(肽标签结合配偶体)))的肽标签和多肽(肽标签结合配偶体)之间形成的异肽键将所述分子或组分(例如蛋白质)连接或缀合可以形成待缀合或连接在一起的蛋白质结构域。

如上所述，在一些实施例中，本文披露的肽标签和/或本发明的多肽与其他分子或其他组分或实体融合或缀合。这样的分子或组分(即，实体)可以是核酸分子、蛋白质(例如抗体或其抗原结合片段)、肽、小分子有机化合物、荧光团、金属配体络合物、多糖、纳米颗粒、2D单层(例如石墨烯)、脂质、纳米管、聚合物、细胞、病毒、病毒样颗粒、病毒载体或这些的任何组合。在一些实施例中，与肽标签和/或多肽融合或缀合的组分或实体是固体支持物，即，固体基底或固相，如以下所定义。

因此，可替代地来看，本发明提供了核酸分子、蛋白质(例如抗体或其抗原结合片段)、肽、小分子有机化合物、荧光团、金属配体络合物、多糖、纳米颗粒、2D单层(例如石墨烯)、脂质、纳米管、聚合物、细胞、病毒、病毒样颗粒、病毒载体或其任何组合或与本发明的肽标签和/或多肽融合或缀合的固体支持物。

细胞可以是原核或真核细胞。在一些实施例中，细胞是原核细胞，例如细菌细胞。在一些实施例中，细胞是真核细胞，例如动物细胞，例如人细胞。

在一些实施例中，肽标签和/或多肽(例如肽标签结合配偶体)可以与具有治疗性或预防性效果的化合物或分子(例如抗生素、抗病毒剂、疫苗、抗肿瘤剂，例如放射性化合物或同位素、细胞因子、毒素、寡核苷酸和核酸编码基因或核酸疫苗)缀合或融合。

在一些实施例中，肽标签和/或多肽(例如肽标签结合配偶体)可以与标记物(例如放射性标记物、荧光标记物、发光标记物、发色团标记物)缀合或融合以及与生成可检测信号的物质和酶(例如辣根过氧化物酶、萤光素酶或碱性磷酸酶)缀合或融合。该检测可以应用于常规使用抗体的多种测定，包括蛋白质印迹/免疫印迹、组织化学、酶联免疫吸附测定(ELISA)或流式细胞术(FACS)形式。用于磁共振成像的标记物、正电子发射断层造影术探针和用于中子俘获疗法的硼10也可以与本发明的肽标签和/或多肽(肽标签结合配偶体)缀合。特别地，肽标签和/或多肽(例如肽标签结合配偶体)可以与另一种肽(例如His标签)融合或产生，并且/或者可以与另一种蛋白质(例如其目的是通过与麦芽糖结合蛋白融合来增强重组蛋白表达)融合或产生。

在一些实施例中，本发明的多肽可以包含例如经由接头或间隔子序列(例如SEQID NO:16)与其C-末端融合的肽(例如c-myc标签)，例如相对于没有C-末端肽的多肽，这可以进一步提高多肽的溶解度。

在一些实施例中，将半胱氨酸残基引入本发明的多肽中以将多肽与另一分子或组分(例如标记物，例如荧光标记物或固体基底)偶联可以是有用的。例如，半胱氨酸残基的引入将允许多肽与含有马来酰亚胺官能团的另一分子或组分偶联(例如标记物，例如荧光标记物)。

如上所述，上文所定义的肽标签结合配偶体多肽(“捕获体”)可以被修饰以消除多肽与其同源肽标签之间自发形成异肽键。有利地，经修饰的多肽可以固定在固体基底(相)上，以提供用于分离和/或纯化包含本文所定义的肽标签的分子或组分的亲和纯化系统。因此，上文所定义的多肽中的任一个可以通过取代在SEQ ID NO:1的位置70处或在SEQ IDNO:2的位置66(或等同位置)处的谷氨酸来修饰以提供在亲和纯化系统中具有效用的多肽，使得经修饰的多肽不可以与如本文所定义的肽标签自发形成异肽键。因此，经修饰的多肽(即，亲和纯化多肽)可以包含在SEQ ID NO:1的位置70处或在SEQ ID NO:2的位置66(或等同位置)处的谷氨酸的非保守取代。可替代地来看，经修饰的多肽不含有在SEQ ID NO:1的位置70处或在SEQ ID NO:2的位置66(或等同位置)处的谷氨酸或天冬氨酸。在一些实施例中，在SEQ ID NO:1的位置70处或在SEQ ID NO:2的位置66(或等同位置)处的谷氨酸可以被丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸取代。

因此，在一个实施例中，本发明提供了多肽(亲和纯化多肽)，其包含：

i)如SEQ ID NO:18所示的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸(即，除谷氨酸或天冬氨酸以外的任何氨基酸)，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸；

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

在另外的实施例中，本发明提供了多肽(亲和纯化多肽)，其包含：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

在一些实施例中，在SEQ ID NO:18的位置70(或等同位置)处的X是除酸性氨基酸以外的常规(标准)氨基酸，即，X不是D或E。

在一些实施例中，在SEQ ID NO:18的位置70(或等同位置)处的X不是碱性氨基酸(例如R、K或H)、芳香族氨基酸(例如F、Y或W)、半胱氨酸(C)和/或脯氨酸(P)。

因此，在一些实施例中，在SEQ ID NO:18的位置70(或等同位置)处的X选自A、G、I、L、M、N、Q、S、T和V。在一些实施例中，在位置70(或等同位置)处的X选自A、G、S、N和T。

“常规或标准氨基酸”是在体内使用以产生多肽或蛋白质分子(即，蛋白原氨基酸)的氨基酸。换言之，具有标准或常规R-基团的氨基酸，或具有由标准遗传密码编码的侧链的氨基酸，即，“编码氨基酸”。

上文指定的关于本发明的肽标签结合配偶体多肽(即，能够与如本文所定义的肽标签自发形成异肽键的多肽，例如DogCatcher及其功能变体)的“溶解度修饰”和/或“活性修饰”的组合同样适用于上文所定义的经修饰的(亲和纯化)多肽。例如，亲和纯化多肽可以包含如上文所定义的全部“溶解度修饰”和/或全部“活性修饰”、或其任何选择或组合。

在本发明的亲和纯化多肽中，可能不需要在SEQ ID NO:1的位置9处的赖氨酸残基，因为该多肽不与如本文所定义的肽标签自发形成异肽键。然而，由于该残基可以与肽标签非共价相互作用以促进多肽与肽标签的选择性结合，因此将其保留在本发明的亲和纯化多肽中可以是有利的。

因此，在一些实施例中，上文所定义的(亲和纯化)多肽包含与如SEQ ID NO:18或19所示的序列具有至少80％序列同一性的氨基酸序列，并且其中该氨基酸序列在等同于SEQ ID NO:18的位置9或SEQ ID NO:19的位置5的位置处包含赖氨酸。

如上所述，将半胱氨酸残基引入本发明的多肽中以将多肽与另一分子或组分(特别地固体基底)偶联可以是有用的，例如用于在如本文所定义的亲和纯化系统或设备中使用。在一些实施例中，可以通过添加如SEQ ID NO:20所示的包含半胱氨酸残基的N-末端或C-末端氨基酸序列(例如标签)将半胱氨酸残基掺入到多肽中。

因此，在一些实施例中，上文所定义的多肽(例如亲和纯化多肽)包含含有半胱氨酸残基的另外的N-末端或C-末端序列。

在一些实施例中，可以通过用半胱氨酸残基取代氨基酸将半胱氨酸残基引入到多肽中。在优选的实施例中，半胱氨酸残基不在上文所定义的溶解度或活性修饰残基中的任一个的位置处被引入。在一些实施例中，在等同于SEQ ID NO:18的位置31的位置或者等同于SEQ ID NO:19的位置27的位置处的天冬氨酸被半胱氨酸残基取代。在一些实施例中，在等同于SEQ ID NO:18的位置41的位置或者等同于SEQ ID NO:19的位置37的位置处的谷氨酰胺被半胱氨酸残基取代。

因此，在一些实施例中，(亲和纯化)多肽包含多肽，该多肽包含：

i)如SEQ ID NO:21或22所示的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸；

ii)含有如SEQ ID NO:23或24所示的氨基酸序列的(i)的一部分，其中在位置66处的X不是谷氨酸或天冬氨酸，任选地其中在位置66处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸；

iii)与如SEQ ID NO:21或22所示的序列具有至少80％序列同一性的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸，并且其中该氨基酸序列包含在位置31或41处的半胱氨酸以及以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:21或22中的位置的位置处，并且任选地其中：(A)如果该氨基酸序列包含在位置75处的脯氨酸，它还包含选自1)-6)和8)-10)的一个或多个氨基酸残基；或者(B)该氨基酸序列包含选自1)-5)、7)和10)的至少一个氨基酸残基以及选自6)、8)和9)的一个氨基酸残基；或者

iv)含有与如SEQ ID NO:23或24所示的序列具有至少80％序列同一性的氨基酸序列的(iii)的一部分，其中在位置66处的X不是谷氨酸或天冬氨酸，任选地其中在位置66处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸，并且其中该氨基酸序列包含在位置27或37处的半胱氨酸以及以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:23或24中的位置的位置处，并且任选地其中：(A)如果该氨基酸序列包含在位置71处的脯氨酸，它还包含选自1)-5)和7)-9)的一个或多个氨基酸残基；或者(B)该氨基酸序列包含选自1)-4)、6)和9)的至少一个氨基酸残基以及选自5)、7)和8)的1个氨基酸残基，

在一些实施例中，上文所定义的(亲和纯化)多肽包含与如SEQ ID NO:21至24中的任一个所示的序列具有至少80％序列同一性的氨基酸序列，其中该氨基酸序列包含在等同于SEQ ID NO:21或22的位置9的位置或SEQ ID NO:23或24的位置5处的赖氨酸。

术语“选择性地结合”是指(亲和纯化)多肽的以下能力：多肽与其同源肽标签非共价结合(例如通过范德华力和/或氢键合)的亲和力和/或特异性比存在肽标签的样品(例如待从其分离或纯化肽标签(以及与肽标签融合或缀合的相关分子或组分，即融合配偶体)的样品)中的其他组分更高。因此，本发明的(亲和纯化)多肽可以可替代地被视为在合适的条件下与其同源肽标签(即，DogTag肽或其变体)(例如包含如SEQ ID NO:3、4、5或17所示的氨基酸序列的肽)特异性地和可逆地结合。

与同源肽标签的结合可以区别于与样品中存在的其他分子(例如肽或多肽)(即非同源分子)的结合。本发明的(亲和纯化)多肽既不与样品中存在的其他分子(例如肽或多肽)结合，或者可以忽略不计或不可检测，以至于任何这样的非特异性结合(如果发生)可以容易地与同源肽标签的结合区分开来。

特别地，如果本发明的(亲和纯化)多肽与除同源肽标签以外的分子结合，则这样的结合必须是瞬时的，并且结合亲和力必须小于(亲和纯化)多肽对同源肽标签的结合亲和力。因此，(亲和纯化)多肽对肽标签的结合亲和力应该比样品中存在的其他分子(即非同源分子)高至少一个数量级。优选地，(亲和纯化)多肽对同源肽标签的结合亲和力应该比对非同源分子(例如肽或多肽)的结合亲和力至少高2、3、4、5或6个数量级。

因此，选择性或特异性结合是指本发明的(亲和纯化)多肽对其同源肽标签的亲和力，其中多肽对于同源肽标签的解离常数小于约10^-3M。在优选的实施例中，多肽对于其同源肽标签的解离常数小于约10^-4M、10^-5M、10^-6M、10^-7M、10^-8M或10^-9M。

本发明的(亲和纯化)多肽的结合选择性(例如特异性)也可以基于在下文定义的分离或纯化方法中获得的与肽标签融合或缀合的产物(即，同源肽标签和相关分子或组分(融合配偶体，例如多肽))的产率和/或纯度来定义。在一些实施例中，本发明的(亲和纯化)多肽在下文定义的方法中产生纯度为至少约75％，例如至少约80％、85％或90％的产物。使用本发明的方法和(亲和纯化)多肽获得的产物的纯度可以使用任何合适的手段(例如通过WO 2020/115252中描述的SDS-PAGE方法(通过引用引入本文))来确定。

在一些实施例中，本发明的(亲和纯化)多肽在下文定义的方法中产生产率为至少约50％，例如约60％、70％、75％、80％、85％或90％的产物。使用本发明的方法和(亲和纯化)多肽获得的产物的产率可以使用任何合适的手段来确定。

因此，本发明的多肽(亲和纯化多肽)必须与包含如SEQ ID NO:3-5和17所示的氨基酸序列或由其组成的至少一种肽选择性地和可逆地结合。在优选的实施例中，本发明的(亲和纯化)多肽必须与包含如SEQ ID NO:3所示的氨基酸或由其组成的肽选择性地和可逆地结合。因此，本发明的(亲和纯化)多肽以比存在肽标签的样品中的其他组分(即，非同源分子)更高的亲和力和/或特异性与包含如SEQ ID NO:3-5或17所示的氨基酸序列或由其组成的至少一种肽结合。样品可以是来自待分离或纯化肽标签(以及与肽标签融合或缀合的相关分子或组分，即融合配偶体)的任何样品(例如如下所述的细胞裂解物等)。然而，本发明的多肽还可以与如本文所定义的其他同源肽标签结合。

非同源分子、特别是非同源肽或多肽可以定义为不含有由与如本文所定义的肽标签(即，SEQ ID NO:3、4、5或17)具有至少60％序列同一性的氨基酸序列组成的氨基酸序列的肽或多肽。优选地，非同源分子不含有与如本文所定义的肽标签(即SEQ ID NO:3、4、5或17)具有超过约60％、55％、50％、45％、40％、35％、30％、25％或20％的序列同一性的19-23个氨基酸的连续序列。其他非同源分子包括碳水化合物、糖、脂质、离子和小分子。

(亲和纯化)多肽与其同源肽标签的选择性或特异性结合的合适的条件可以使用常规实验来确定。例如，合适的条件可以包括上文关于本发明的肽标签结合配偶体多肽列出的条件以及与如本文所定义的肽标签形成异肽键的条件。

术语“可逆的”或“可逆地结合”是指(亲和纯化)多肽与其待破坏的同源肽标签之间的相互作用的能力，导致络合物在合适的条件下的分离(解离)。换言之，由亲和纯化多肽:同源肽标签络合物形成的非共价相互作用可以在合适的条件下被打破，以使组成部分能够分离。将络合物解离的合适的条件可以包括能够破坏或打破形成络合物所需的非共价键的任何条件，并且可以使用常规实验来确定。

将显而易见的是，解离亲和纯化多肽:同源肽标签络合物的条件优选地应该不会导致DogTag肽和/或融合配偶体的活性不可逆地丧失。例如，应该避免阻止DogTag与本发明的肽标签结合配偶体多肽(例如DogCatcher)自发反应以形成异肽键的条件。类似地，改变或抑制(例如变性)与DogTag肽(即融合配偶体，例如多肽)融合的分子或组分的条件不适合于解离亲和纯化多肽:同源肽标签络合物，同样条件将限制DogTag融合在下游应用中的效用。这样的条件将取决于融合配偶体的性质，并且技术人员可以容易地基于本领域已知的方法确定哪些条件是合适的(或不合适的)。举例来说，将亲和纯化多肽:同源肽标签络合物煮沸并且/或者用1％十二烷基硫酸钠(SDS)处理将解离亲和纯化多肽:同源肽标签络合物，但可以不可逆地改变(例如变性)融合配偶体。

如本文所提及，“功能性等同”是指本文所述的同源肽标签和上文所讨论的本发明的亲和纯化多肽的变体，这些变体相对于亲本分子(即与其显示序列同源性的分子)可以在与其各自配偶体结合(例如，非共价络合物的形成)方面显示出一些降低的选择性(例如特异性)或亲和力(例如在本发明的方法中较低的纯度或产率，或在有限范围的反应条件(例如较窄的温度范围，例如10℃-30℃等)下的活性)，但优选地是同样有效或更有效的。

具有与包含如SEQ ID NO:3-5或17中的一个所示的氨基酸序列或由其组成的同源肽标签的活性“等同”的活性的本文所述的突变体或变体同源肽标签可以具有与包含如SEQID NO:3-5或17中的一个所示的氨基酸序列或由其组成的肽标签的活性类似(即，相当)的活性，即，使得肽标签的实际应用不会受到显著影响，例如在实验误差的范围内。

因此，在一些实施例中，等同的肽标签活性意指所描述的突变体或变体同源肽标签能够与本发明的亲和纯化多肽选择性地和可逆地结合。在一些优选的实施例中，突变体或变体同源肽标签能够与如本文所定义的肽标签结合配偶体多肽自发形成异肽键，其中与包含如SEQ ID NO:3-5或17中的一个所示的氨基酸序列或由其组成的肽标签在相同条件下具有类似的反应速率(即，如上文所讨论的速率常数)和/或产率。

类似地，具有与包含如SEQ ID NO:18所示的氨基酸序列(优选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸)或由其组成的多肽的活性“等同”的活性的本发明的突变体或变体亲和纯化多肽可以具有与包含如SEQ ID NO:18所示的氨基酸序列(优选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸)或由其组成的多肽的活性类似(即，相当)的活性，即，使得多肽的实际应用不会受到显著影响，例如在实验误差的范围内。因此，等同的多肽活性意指本发明的突变体或变体亲和纯化多肽能够与本文所述的同源肽标签(例如包含如SEQ ID NO:3-5或17中的一个所示的氨基酸序列或由其组成)选择性地和可逆地结合，其中与包含如SEQ ID NO:18所示的氨基酸序列(优选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸)或由其组成的多肽在相同条件下具有类似的如上所述的亲和力和/或产率。

具有与包含如SEQ ID NO:18所示的氨基酸序列(优选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸)或由其组成的多肽的活性“等同”的活性的本发明的突变体或变体多肽可以与包含如SEQ ID NO:18所示的氨基酸序列(优选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸)或由其组成的多肽竞争结合如本文所定义的同源肽标签(例如SEQ ID NO:3-5或17中的一个或全部)。

在如上文所例举的相同反应条件(例如温度、配体(即同源肽标签序列)及其浓度、缓冲液、盐等)下测量的不同多肽(例如SEQ ID NO:18相对于突变体)的活性可以容易地进行比较以确定每种多肽的亲和力和/或产率是更高，更低还是等同的。

在特别有用的实施例中，肽标签和/或多肽(例如肽标签结合配偶体)与另一种肽或多肽融合或缀合。例如，可以使用如下文所讨论的重组技术来产生肽标签和/或多肽(例如肽标签结合配偶体)作为另一种肽或多肽的一部分，即，作为重组或合成蛋白质或多肽。

将显而易见的是，本文披露的肽标签和/或本发明的多肽(例如肽标签结合配偶体)可以与任何蛋白质或多肽融合。蛋白质可以衍生自或获得自任何合适的来源。例如，蛋白质可以从生物和临床样品(例如生物(真核生物、原核生物)的任何细胞或组织样品)，或任何体液或其衍生的制剂，以及细胞培养物、细胞制剂、细胞裂解物等样品中进行体外翻译或纯化。蛋白质可以从环境样品(例如还包括土壤和水样品或食物样品)中衍生或获得(例如纯化)。样品可以是新鲜制备的，或者它们可以以任何方便的方式进行预处理，例如用于储存。

如上所述，在优选的实施例中，可以重组产生与本文披露的肽标签和/或本发明的多肽融合的肽或蛋白质，并且因此编码所述重组蛋白的核酸分子可以从任何合适的来源(例如任何病毒或细胞材料，包括所有原核或真核细胞、病毒、噬菌体、支原体、原生质体和细胞器)中衍生或获得。因此，这样的生物材料可以包含所有类型的哺乳动物和非哺乳动物动物细胞、植物细胞、藻类(包括蓝绿藻)、真菌、细菌、原生动物、病毒等。在一些实施例中，蛋白质可以是合成蛋白质。例如，本文披露的肽和多肽(蛋白质)可以通过化学合成(例如固相肽合成)来产生。

肽标签和/或多肽(例如肽标签结合配偶体)可以位于重组或合成蛋白质内任何方便的位置。在一些实施例中，肽标签和/或多肽(肽标签结合配偶体)可以位于重组或合成多肽的N-末端或C-末端。在一些实施例中，肽标签和/或多肽(例如肽标签结合配偶体)可以位于重组或合成多肽的内部。因此，在一些实施例中，肽标签和/或多肽(例如肽标签结合配偶体)可以被视为重组或合成多肽的N-末端、C-末端或内部结构域。

如上所述，本发明的肽标签和肽标签结合配偶体多肽在需要经由至少一个环区将蛋白质偶联在一起的情况下特别有效。因此，在一些实施例中，肽标签优选地位于重组或合成多肽的内部。在优选的实施例中，肽标签位于重组或合成多肽的环区或结构域内。因此，在一些实施例中，肽标签可以被视为重组或合成多肽的内部结构域。

在一些实施例中，在待接合或缀合的肽或多肽与肽标签和/或多肽(例如肽标签结合配偶体)之间包括一个或多个间隔子(例如肽间隔子)可以是有用的。因此，肽或多肽与肽标签和/或多肽(例如肽标签结合配偶体)可以直接彼此连接，或者它们可以通过一个或多个间隔子序列间接连接。因此，间隔子序列可以将重组或合成多肽的两个或更多个单独部分间隔或分离。在一些实施例中，间隔子可以是肽标签和/或多肽(例如肽标签结合配偶体)的N-末端或C-末端，例如当肽标签和/或多肽(例如肽标签结合配偶体)位于待接合或缀合的肽或多肽的N-末端或C-末端时。如上所述，本发明的肽标签和多肽(例如肽标签结合配偶体)特别适合于在肽标签位于待接合或缀合的(或分离或纯化)肽或多肽的内部位点的情况下使用。例如，可以将肽标签插入到环区中。因此，在一些实施例中，间隔子可以在肽标签的两侧。

间隔子序列的精确性质可以具有可变长度和/或序列，例如它可以具有1-40个，更特别地2-20、1-15、1-12、1-10、1-8或1-6个残基，例如6、7、8、9、10个或更多个残基。作为代表性实例，间隔子序列(如果存在)可以具有1-15、1-12、1-10、1-8或1-6个残基等。残基的性质并不重要，并且它们可以例如是任何氨基酸，例如中性氨基酸、或脂肪族氨基酸，或者可替代地它们可以是疏水性氨基酸、或极性氨基酸或带电荷的氨基酸或结构形成氨基酸，例如脯氨酸。在一些优选的实施例中，接头是富含丝氨酸和/或甘氨酸的序列。示例性接头/间隔子序列如SEQ ID NO:16所示。

因此，示例性间隔子序列包括任何单个氨基酸残基，例如S、G、L、V、P、R、H、M、A或E或由这样的残基中的一个或多个组成的二肽、三肽、四肽、五肽或六肽。

因此，在一些实施例中，本发明提供了重组或合成多肽，其包含如上文所定义的本发明的多肽(例如肽标签结合配偶体)，即，包含与本发明的多肽(肽标签结合配偶体)融合的肽或多肽(例如异源肽或多肽，即，通常与本发明的多肽不相关(例如来自不同生物)的肽或多肽)的重组或合成多肽。重组或合成多肽任选地包含如上文所定义的间隔子。

本发明的重组或合成多肽还可以(例如在下文讨论的本发明的方法和用途中使用之前)包含纯化部分或标签以促进其纯化。任何合适的纯化部分或标签都可以掺入到多肽中，并且这样的部分是本领域熟知的。例如，在一些实施例中，重组或合成多肽可以包含肽纯化标签或部分，例如His-标签或C-标签序列。这样的纯化部分或标签可以掺入多肽内的任何位置。在一些优选的实施例中，纯化部分位于或朝向多肽的N-末端或C-末端(即在5、10、15、20个氨基酸内)。在一些实施例中，标签可以包含半胱氨酸残基以促进重组或合成多肽与另一分子或组分(例如固体基底)的缀合。

如上所述，本发明的优势事实上来源于可以完全遗传编码掺入到肽或多肽(例如本发明的重组或合成多肽)中的本发明的肽标签和/或多肽。因此，在另外的方面，本发明提供了编码如上文所定义的多肽(例如肽标签结合配偶体)或重组多肽的核酸分子。

在一些实施例中，核酸分子被密码子优化用于在宿主细胞中表达。因此，在一些实施例中，核酸分子被密码子优化用于在细菌细胞(例如大肠杆菌，例如如SEQ ID NO:7所示的核苷酸序列)中表达。在一些实施例中，核酸分子被密码子优化用于在哺乳动物细胞(例如人细胞，例如HEK细胞)中表达。

在一些实施例中，编码上文所定义的多肽结合配偶体的核酸分子包含如SEQ IDNO:7所示的核苷酸序列、或与如SEQ ID NO:7所示的序列具有至少80％序列同一性的核苷酸序列。

优选地，上文核酸分子与SEQ ID NO:7具有至少85％、90％、95％、96％、97％、98％、99％或100％同一性。

核酸序列同一性可以通过例如FASTA搜索(具有默认值和可变参数因子，并且将空位产生罚分设置为12.0，且空位延伸罚分设置为4.0，以及具有6个核苷酸的窗口)使用GCG包来确定。优选地，所述比较在序列的全长范围内进行，但也可以在比较的较小的窗口(例如少于300、200、100或50个连续核苷酸)内进行。

本发明的核酸分子可以由能够参与Watson-Crick类型或类似的碱基对相互作用的核糖核苷酸和/或脱氧核糖核苷酸以及合成残基(例如合成核苷酸)组成。优选地，核酸分子是DNA或RNA。

上文所述的核酸分子可以与表达控制序列或含有这样的重组DNA分子的重组DNA克隆运载体或载体可操作地连接。这允许将本发明的肽和多肽作为基因产物进行细胞表达，其表达由引入目的细胞的一个或多个基因指导。基因表达由目的细胞中具有活性的启动子指导，并且可以插入到任何形式的线性或环状核酸(例如DNA)载体中，以掺入基因组中或用于独立复制或瞬时转染/表达。合适的转化或转染技术在文献中有很好的描述。可替代地，可以将裸核酸(例如DNA或RNA，其可以包括一个或多个合成残基，例如碱和/或糖类似物)分子直接引入到细胞中以产生本发明的多肽。可替代地，核酸可以通过体外转录转化为mRNA，并且相关蛋白质可以通过体外翻译产生。

适当的表达载体包括适当的控制序列，例如像在与本发明的核酸分子匹配阅读框中连接的翻译控制元件(例如起始和终止密码子、核糖体结合位点)和转录控制元件(例如启动子-操纵子区、终止停止序列)。适当的载体可以包括质粒和病毒(包括噬菌体和真核病毒两者)。合适的病毒载体包括杆状病毒以及腺病毒、腺相关病毒、慢病毒、疱疹和痘苗病毒/天花病毒。本领域描述了许多其他病毒载体。合适的载体的实例包括细菌和哺乳动物表达载体pGEX-KG、pEF-neo和pEF-HA。

如上所述，本发明的重组或合成多肽可以包含另外的序列(例如促进多肽的纯化的肽/多肽标签)，并且因此核酸分子可以方便地与编码另外的肽或多肽(例如His标签、麦芽糖结合蛋白等)的DNA融合，以在表达时产生融合蛋白。

因此，从另外的方面来看，本发明提供了载体，优选地表达载体，其包含如上文所定义的核酸分子。

本发明的其他方面包括用于制备根据本发明的重组核酸分子的方法，这些方法包括将编码本发明的多肽(肽标签结合配偶体)的本发明的核酸分子插入到载体核酸中。

可以将本发明的核酸分子(优选地含有在载体中)通过任何适当的手段引入到细胞中。合适的转化或转染技术在文献中有很好的描述。许多技术是已知的，并且可以用于将这样的载体引入到原核或真核细胞中进行表达。用于此目的的优选的宿主细胞包括昆虫细胞系、酵母、哺乳动物细胞系或大肠杆菌，例如菌株BL21(DE3)。本发明还延伸至转化或转染的原核或真核宿主细胞，其含有核酸分子，特别是如上文所定义的载体。

因此，在另一方面，提供了重组宿主细胞，其含有如上所述的核酸分子和/或载体。

“重组”是指核酸分子和/或载体已被引入到宿主细胞中。宿主细胞可以天然地或可以非天然地含有核酸分子的内源性拷贝，但它是重组的，因为已经引入了核酸分子和/或载体的外源性或进一步的内源性拷贝。

本发明的另外的方面提供了制备如上文所定义的本发明的多肽或重组多肽的方法，该方法包括在表达如上文所定义的编码所述多肽的核酸分子的条件下培养含有所述核酸分子的宿主细胞，以及回收由此产生的所述分子(多肽)。表达的多肽形成本发明的另外的方面。

在一些实施例中，本文披露的(或用于在本发明的方法和用途中使用的)肽标签和/或本发明的多肽可以例如通过连接氨基酸或更小的合成生成的肽、或者更方便地如上文所述通过重组表达编码所述多肽的核酸分子来合成生成。

本发明的核酸分子可以通过本领域已知的任何合适的手段来合成生成。

因此，本文披露的肽标签和/或本发明的多肽可以是分离的、纯化的、重组的或合成的肽标签或多肽。

术语“多肽”在本文中可与术语“蛋白质”互换使用。如上所述，术语多肽或蛋白质典型地包括任何氨基酸序列，该氨基酸序列包含至少40个连续的氨基酸残基，例如至少50、60、70、80、90、100、150个氨基酸，例如40-1000、50-900、60-800、70-700、80-600、90-500、100-400个氨基酸。

类似地，本发明的核酸分子可以是分离的、纯化的、重组的或合成的核酸分子。

因此，可替代地来看，本发明的多肽和核酸分子优选地是非天然的(即，非天然存在的)分子。

本文使用了标准氨基酸命名法。因此，氨基酸残基的全名可以与一字母代码或三字母缩写互换使用。例如，赖氨酸可以用K或Lys取代，异亮氨酸可以用I或Ile取代等。此外，术语天冬氨酸盐和天冬氨酸、以及谷氨酸盐和谷氨酸在本文中可互换使用，并且可以分别用Asp或D、或Glu或E替代。

虽然设想可以重组产生本文披露的肽标签和本发明的(以及在本发明中使用的)多肽，并且这是本发明的优选的实施例，但将显而易见的是，本文披露的肽标签和本发明的多肽可以通过其他方式与如上文所定义的蛋白质或其他实体(例如分子或组分)缀合。换言之，肽标签或多肽以及其他分子、组分或实体(例如蛋白质或固体基底)可以通过任何合适的手段(例如重组)单独产生，并随后缀合(接合)以形成可用于在本发明的方法和用途中使用的肽标签-其他组分缀合物或多肽-其他组分缀合物。例如，如上所述，本文披露的肽标签和/或本发明的多肽可以合成地或重组地产生，并且经由非肽接头或间隔子(例如化学接头或间隔子)与另一组分(例如蛋白质)缀合。

与上文讨论的其他实施例一样，肽标签可以在内部位点处(即不在其他组分的末端之一处)与另一组分缀合(接合)。其中其他组分是蛋白质，肽标签可以优选地与所述蛋白质内的环区缀合(接合)。

如上文所讨论，本发明的亲和纯化多肽形成两部分亲和纯化系统的一部分，并且可特别用于纯化(即，分离(isolating或separating))包含(例如接合或缀合到)如本文所定义的同源肽标签的分子或组分(融合配偶体)。

因此，在另外的方面，本发明可以被视为提供了上文所定义的本发明的亲和纯化多肽(例如SEQ ID NO:18)用以纯化或分离分子或组分的用途，该分子或组分包含如本文所定义的同源肽标签，例如具有与如SEQ ID NO:3-5或17中的一个所示的序列具有至少80％序列同一性的氨基酸序列的肽标签，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基。

亲和纯化系统典型地利用固定在固体基底上的捕获分子(例如受体)来促进靶配体的捕获、洗涤和洗脱。因此，本发明的亲和纯化多肽可以固定(例如融合、缀合或连接)到固体基底(即，固相或固体支持物)上。将显而易见的是，这可以通过任何方便的方式实现。可替代地来看，本发明提供了固体支持物，在其上固定本发明的多肽。

固定的方式或手段和固体支持物可以根据选择从本领域众所周知的并在文献中描述的任意数量的固定手段和固体支持物中选择。因此，本发明的多肽可以与支持物直接结合，例如经由多肽的结构域或部分(例如化学交联)。在一些实施例中，多肽可以通过接头基团或通过一个或多个中间结合基团(例如通过生物素-链霉亲和素相互作用)间接结合。因此，多肽可以与固体支持物共价或非共价连接。在某些实施例中，将多肽经由共价键固定在固体基底上。

连接可以是可逆的(例如可切割的)或不可逆的连接。因此，在一些实施例中，连接可以通过酶促切割、化学切割或用光切割，例如该连接可以是光敏感连接。

因此，在一些实施例中，肽标签和/或多肽以及其他组分(例如蛋白质或固体基底)可以通过键直接接合在一起或者通过连接基团间接接合在一起。在采用连接基团的情况下，可以选择这样的基团以提供肽标签或多肽以及其他实体(例如蛋白质或固体基底)通过连接基团的共价附接。目的连接基团可以根据其他实体(例如蛋白质)的性质而广泛地变化。在许多实施例中，连接基团(当存在时)具有生物惰性。

许多连接基团是本领域技术人员已知的，并且可用于本发明。在代表性实施例中，连接基团通常为至少约50道尔顿，通常至少约100道尔顿，并且可以大至1000道尔顿或更大，例如如果连接基团含有间隔子，则高达1000000道尔顿，但是通常不会超过约500道尔顿，并且通常不会超过约300道尔顿。通常，这样的接头将包含在任一端终止的间隔子基团，其反应性官能团能够与肽标签或多肽以及其他分子或组分(例如蛋白质或固体基底)共价键合。

目的间隔子基团可以包括脂肪族和不饱和烃链、含有杂原子如氧(醚如聚乙二醇)或氮(多胺)的间隔子、肽、碳水化合物、可能含有杂原子的环状或非环状系统。间隔子基团也可以由与金属结合的配体构成，使得金属离子的存在配位两个或更多个配体以形成络合物。特定的间隔子元件包括：1,4-二氨基己烷、苯二甲基二胺、对苯二甲酸、3,6-二氧苯贰酸、乙二胺-N,N-二乙酸、1,1’-亚乙基双(5-氧代-3-吡咯烷甲酸)、4,4’-亚乙基二哌啶、寡核苷酸乙二醇和聚乙二醇。潜在的反应性官能团包括亲核官能团(胺、醇、硫醇、酰肼)、亲电子官能团(醛、酯、乙烯基酮、环氧化物、异氰酸酯、马来酰亚胺)、能够进行环加成反应、形成二硫键或者与金属结合的官能团。特定的实例包括伯胺和仲胺、异羟肟酸、N-羟基琥珀酰亚胺基酯、N-羟基琥珀酰亚胺基磷酸酯、氧羰基咪唑、硝基苯基酯、三氟乙基酯、缩水甘油醚、乙烯基砜、和马来酰亚胺。可用于肽标签/多肽结合配偶体缀合物中的特定的接头基团包括杂功能性化合物，例如叠氮基苯甲酰基酰肼、N-[4-(p-叠氮基水杨基氨基)丁基]-3’-[2’-吡啶基二硫代]丙酰胺)、双-磺基琥珀酰亚胺基辛二酸酯、二甲基二吡啶酸酯、二琥珀酰亚胺基酒石酸盐、N-马来酰亚胺基丁酰氧基琥珀酰亚胺酯、N-羟基磺基琥珀酰亚胺基-4-叠氮基苯甲酸盐、N-琥珀酰亚胺基[4-叠氮基苯基]-1,3’-二硫代丙酸盐、N-琥珀酰亚胺基[4-碘代乙酰基]氨基苯甲酸盐、戊二醛、以及琥珀酰亚胺基-4-[N-马来酰亚胺甲基]环己烷-1-甲酸酯、3-(2-吡啶基二硫代)丙酸N-羟基琥珀酰亚胺酯(SPDP)、4-(N-马来酰亚胺甲基)-环己烷-1-甲酸N-羟基琥珀酰亚胺酯(SMCC)等。例如，间隔子可以由叠氮化物与炔烃反应来形成，或者由四嗪与反式环辛烯或降冰片烯反应来形成。

在一些实施例中，修饰肽标签和/或多肽中的一个或多个残基以促进这些分子的缀合并且/或者改善肽标签和/或多肽的稳定性可以是有用的。因此，在一些实施例中，本文披露的肽标签或本发明的(或用于在本发明中使用的)多肽可以包含非天然或非标准氨基酸。

在一些实施例中，本文披露的肽标签或本发明的(或用于在本发明中使用的)多肽可以包含一个或多个，例如1、2、3、4、5或更多个非常规氨基酸，即，具有未通过标准遗传密码编码的侧链的氨基酸，本文称为“非编码氨基酸”。这样的氨基酸是本领域熟知的，并且可以选自通过代谢方法形成的氨基酸(例如鸟氨酸或牛磺酸)、和/或人工修饰的氨基酸(例如9H-9-芴基甲氧基羰基(Fmoc)、叔丁氧基羰基(Boc)、2,2,5,7,8-五甲基色满-6-磺酰基(Pmc)保护的氨基酸、或具有苄氧基-羰基(Z)基团的氨基酸)。

可用于本发明的(以及用于在本发明中使用的)肽标签或多肽的非标准或结构类似物氨基酸的实例是D氨基酸、酰胺电子等排体(例如N-甲基酰胺、逆反酰胺、硫代酰胺、硫酯、膦酸酯、酮亚甲基、羟基亚甲基、氟乙烯基、(E)-乙烯基、亚甲基氨基、亚甲基硫代或链烷)、L-N甲基氨基酸、D-α甲基氨基酸、D-N-甲基氨基酸。可用于本文披露的肽标签和/或本发明的(以及用于在本发明中使用的)多肽的另外的非标准氨基酸披露于Willis和Chin,Nat Chem.[自然化学]2018；10(8):831-837中，WO 2018/189517和WO 2018/197854的表1中，将其所有通过引用并入本文。

因此，在一些实施例中，本发明的肽标签或多肽可以具有用于在支持物上提供的固定的手段(例如能够与其结合配偶体(即同源结合伴侣，例如链霉亲和素或抗体)结合的亲和结合配偶体，例如生物素或半抗原)。在一些实施例中，肽标签或多肽与固体支持物之间的相互作用必须足够稳健以允许洗涤步骤，即，肽标签或多肽与固体支持物之间的相互作用不会被洗涤步骤破坏(显著破坏)。例如，优选的是，随着每个洗涤步骤，将肽标签或多肽的少于5％、优选地少于4％、3％、2％、1％、0.5％或0.1％从固相中去除或洗脱。

固体支持物(相或基底)可以是目前广泛使用或建议用于固定、分离等的熟知的支持物或基质中的任一个。这些可以采用颗粒(例如，可以是具有磁性、顺磁性或非磁性的珠)、片、凝胶、过滤器、膜、纤维、毛细管、载玻片、阵列或微量滴定带、管、板或孔等形式。

支持物可以由以下制成：玻璃、二氧化硅、乳胶或聚合材料，例如多糖聚合物材料，例如琼脂糖(例如琼脂糖凝胶)。合适的是呈现用于与本发明的多肽结合的高表面积的材料。这样的支持物可以具有不规则的表面，并且可以是例如多孔的或颗粒的，例如颗粒、纤维、网、烧结物或筛。颗粒材料，例如由于其更大的结合能力而有用的珠，特别是聚合物珠。

方便的是，根据本发明使用的颗粒固体支持物将包含球形珠。珠的大小并不重要，但它们可以例如具有至少约1μm并且优选地至少约2μm、5μm、10μm或20μm的直径量级，并且具有优选地不超过约500μm并且例如不超过约100μm的最大直径。

单分散颗粒，即大小基本上均匀的那些(例如具有直径标准偏差小于5％的大小)的优势是它们提供了非常均匀的反应再现性。代表性单分散聚合物颗粒可以通过US-A-4336173中描述的技术来产生。

然而，为了帮助操作和分离，磁珠是有利的。如本文所用，术语“磁力”意指当置于磁场中时，支持物能够赋予其磁矩，并且因此在该磁场的作用下是可置换的。换言之，包含磁性颗粒的支持物可以容易地通过磁聚集去除，这提供了按照异肽键形成步骤来分离颗粒的快速、简单和有效的方式。

在一些实施例中，固体支持物是树脂，例如直链淀粉树脂。在一些实施例中，固体支持物是硫醇反应性树脂。因此，在一些实施例中，固体基底可以包含碘乙酰基基团，例如固体基底可以是碘乙酰基激活的基底。

在另外的实施例中，本发明提供了试剂盒，特别是用于在本发明的方法和用途中使用的试剂盒，即，用于经由异肽键将两个分子或组分缀合的试剂盒，其中络合物中的分子或组分中的两个经由异肽键缀合，其中所述试剂盒包含：

(a)如上文所定义的肽标签结合配偶体多肽，任选地与分子或组分(例如蛋白质，例如包含如上文所定义的肽标签结合配偶体多肽的重组或合成多肽)缀合或融合；以及

(b)如上文所定义的肽(肽标签)，任选地与分子或组分(例如蛋白质)缀合或融合；和/或

(c)编码如(a)所定义的肽标签结合配偶体多肽的核酸分子，特别是载体；和/或

(d)编码如(b)所定义的肽标签的核酸分子，特别是载体。

将显而易见的是，本文披露的一个或多个肽标签和本发明的肽标签结合配偶体多肽具有宽范围的效用。可替代地来看，本文披露的肽标签和本发明的肽标签结合配偶体多肽可以应用于多种行业。

例如，在一些实施例中，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可用于将荧光或其他生物物理探针或标记物靶向特定蛋白质。在此方面，目的蛋白质可以被修饰以掺入肽标签(例如SEQ ID NO:3-5中的一个)，如上文所讨论，并且荧光或其他生物物理探针或标记物可以与多肽(肽标签结合配偶体，例如SEQ ID NO:1或2)融合或缀合。经修饰的蛋白质和探针或标记物可以在适合于允许在肽标签和多肽(肽标签结合配偶体)之间自发形成异肽键的条件下在一起接触，从而经由异肽键用标记或探针标记蛋白质。例如，本发明的经标记的多肽可用于无抗体蛋白质印迹，即其中经标记的多肽用于检测含有DogTag或RrgATag/RrgATag2肽(例如具有SEQ ID NO:3-5中的一个所示的氨基酸序列的肽)的多肽，而不需要单独的经标记的抗体。

在一些实施例中，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可用于蛋白质组学的蛋白质固定。在此方面，目的蛋白质可以被修饰以掺入肽标签(例如SEQ ID NO:3-5中的一个)，并且固体基底可以与多肽(肽标签结合配偶体，例如SEQID NO:1或2)融合或缀合。经修饰的蛋白质和固体基底可以在适合于允许在肽标签和多肽(肽标签结合配偶体)之间自发形成异肽键的条件下在一起接触，从而经由异肽键在固体基底上固定蛋白质。将显而易见的是，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可以用于将多种蛋白质同时固定在固相/基底上，即，在多重反应中。

在仍另外的实施例中，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可用于抗原与病毒样颗粒、病毒、病毒载体、细菌或用于疫苗接种的多聚化支架的缀合。例如，在表面上产生展示本发明的多肽(肽标签结合配偶体)(例如SEQ ID NO:1或2)的病毒样颗粒、病毒、病毒载体或细菌将促进包含肽标签(例如SEQ ID NO:3-5中的一个)的抗原与其表面经由异肽键的缀合。在此方面，抗原多聚化使免疫应答大大增强。因此，在一些实施例中，与本发明的多肽融合的分子或组分是病毒衣壳蛋白，并且/或者与肽标签融合的分子或组分是抗原，例如与特定疾病(例如感染、自身免疫性疾病、过敏性反应或癌症)相关的抗原。

在其他实施例中，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可以用于环化蛋白质(例如酶)，例如通过将肽标签和结合配偶体与蛋白质(例如酶)中的每一端融合，以及随后允许在肽标签和多肽(肽标签结合配偶体)之间的自发形成异肽键。在此方面，酶的环化已被证明可增加酶的恢复力。

特别地，酶或酶聚合物(融合蛋白)的环化可以改善酶聚合物中蛋白质或蛋白质单元的热稳定性。在此方面，酶在许多方法中都是有价值的工具，但是不稳定且难以回收。酶聚合物对温度、pH和有机溶剂具有更高的稳定性，并且人们越来越希望在工业方法中使用酶聚合物。然而，酶聚合物生成通常使用戊二醛非特异性反应，并且这将破坏或变性许多潜在有用的酶(即降低其活性)。使用本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)通过异肽键将蛋白质与链(聚合物)的位点特异性连接预期增强酶恢复力，例如在添加到动物饲料中的诊断剂或酶中。在特别优选的实施例中，酶可以通过环化来稳定，如上文所讨论。

本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)还可用于将多种酶连接到促使代谢效率的途径中，如WO 2016/193746中所述。在此方面，酶通常聚集在一起以在细胞内的途径中起作用，并且传统上很难在细胞外(体外)将多种酶连接在一起。因此，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可用于与酶偶联或缀合以产生融合蛋白，并且因此增强多步骤酶途径的活性，这可用于一系列工业转化和诊断。

本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)还将可用于生产抗体聚合物。在此方面，抗体是最重要的一类药物，并且通常用于与表面附接。然而，样品中混合的抗原，并且因此在所述样品中所述抗原的捕获，在表面附近效率低下。通过延伸抗体的链，预计将改善捕获效率。这对于循环肿瘤细胞分离尤其有价值，这是目前实现早期癌症诊断的最有希望的方式之一。

在仍另外的实施例中，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可用于生产用于激活细胞信号传导的药物。在此方面，激活细胞功能的最有效方式中的许多都是通过蛋白质配体。然而，事实上，蛋白质配体通常将不会单独起作用，而是与其他信号传导分子的特定组合一起起作用。因此，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)允许生成定制的融合蛋白(即蛋白质组)，这可以提供细胞信号传导的最佳激活。这些融合蛋白(即蛋白质组)可应用于控制细胞存活、分裂或分化。

在又另外的实施例中，本文披露的一个或多个肽标签和本发明的多肽(肽标签结合配偶体)可用于生成用于生长真核细胞(例如神经元、干细胞)的水凝胶、生物材料的制备、用染料或酶的抗体功能化以及通过环化稳定酶。

本发明的亲和纯化多肽的主要效用是分离和/或纯化包含如本文所定义的肽标签的分子或组分。因此，在另外的方面，本发明提供了用于纯化或分离包含具有与如SEQ IDNO:3-5或17中的一个所示的序列具有至少80％序列同一性的氨基酸序列的肽(即，同源肽标签)的分子或组分的方法，其中该氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基，所述方法包括：

a)提供固体基底，在其上固定本发明的亲和纯化多肽(例如SEQ ID NO:18)；

b)提供包含所述分子或组分的样品；

d)将该固体基底用缓冲液洗涤；

本文所述的亲和纯化系统的同源肽标签可以与其他分子或与其他组分或实体(即，融合配偶体)融合或缀合以促进它们在其他下游应用(例如使同源肽标签与肽标签结合配偶体多肽(例如DogCatcher，即，包含如SEQ ID NO:1所示的氨基酸序列的多肽)反应)之前的纯化。这样的分子或组分(即，实体)可以是核酸分子、蛋白质(例如抗体)、肽、脂质、小分子有机化合物、荧光团、金属配体络合物、多糖、纳米颗粒、纳米管、聚合物、细胞、细胞器、囊泡、病毒、病毒样颗粒、病毒载体或这些的任何组合。

因此，本发明的方法或用途可以用于以下的纯化或分离：核酸分子、蛋白质(例如抗体)、肽、脂质、小分子有机化合物、荧光团、金属配体络合物、多糖、纳米颗粒、纳米管、聚合物、细胞、细胞器、囊泡、病毒、病毒样颗粒、病毒载体或与同源肽标签融合或缀合的这些的任何组合。上文提供了可以与肽标签融合或缀合的分子或组分的另外的实例。

在本发明关于使同源肽标签与分子或组分连接用于在本发明的方法或用途中的纯化或分离的上下文中，术语“缀合”或“连接”是指将所述肽标签与所述分子或组分(例如蛋白质)经由共价键、特别地在肽标签与多肽之间的肽键接合。关于本发明的亲和纯化多肽与固体基底的连接，“缀合”或“连接”是指将所述多肽与所述固体基底(例如珠)经由共价键、特别地在多肽(例如多肽中的半胱氨酸残基)和固体基底之间的硫醚键接合。

在本发明的方法中使用的样品(即，包含含有同源肽标签的分子或组分，例如重组蛋白)可以来自任何生物或临床样品，例如生物(真核生物、原核生物)的任何细胞或组织样品，或任何体液或其衍生的制剂，以及细胞培养物、细胞制剂、细胞裂解物等样品。样品可以是新鲜制备的，或者它们可以以任何方便的方式进行预处理，例如用于储存。

在一些实施例中，将包含肽的分子或组分与固定在固体基底上的多肽分离的步骤可以包括使固体基底经受适合于破坏(亲和纯化)多肽:同源肽标签络合物(即破坏多肽和同源肽标签之间的非共价相互作用)的条件。合适的条件可以取决于与多肽连接或缀合的分子或组分，并且可以通过常规实验来确定。

在代表性实施例中，适合于破坏多肽:同源肽标签络合物的条件可以包括使所述络合物与包含咪唑(例如至少1.0M，例如1.0-4.0M、1.0-3.0M或2.0-3.0M，优选地约2.5M咪唑)的溶液接触。可以适合于破坏络合物的其他条件包括使固体基底与低pH溶液或缓冲液(例如在4℃下，0.1M甘氨酸pH 2.0)接触，使所述络合物经受高温(例如至少30℃、35℃、40℃或45℃，例如30℃-65℃、35℃-60℃、40℃-55℃)、并且/或者使所述络合物与包含竞争物(例如如上文所定义的同源肽标签，例如SEQ ID NO:3)的溶液一起孵育。

在一些实施例中，固体基底可以重复经受这些条件(例如2、3、4、5或更多次)，以便最大化待纯化的分子或组分的产率。在一些实施例中，使用最大化待纯化的分子或组分的产率的条件的组合可以是有利的，例如第一步骤使用包含咪唑的溶液，并且第二步骤使用低pH溶液或缓冲液。可以使用任何合适的条件的组合并且其都在技术人员的范围内。在使用竞争性肽洗脱的实施例中，即其中将络合物与竞争物(例如同源肽标签)一起孵育，洗脱步骤可以重复多次，例如2、3、4、5次或更多次。

“低pH溶液或缓冲液”可以被视为适合于破坏本发明的(亲和纯化)多肽与其同源肽标签配偶体之间的非共价相互作用的任何溶液或缓冲液。在一些实施例中，低pH溶液或缓冲液是抗体洗脱缓冲液。在此方面，显而易见的是，破坏本发明的(亲和纯化)多肽与其同源肽标签配偶体之间的相互作用所必需的溶液的pH可以取决于溶液中的组分。举例来说，抗体洗脱缓冲液可以包含50mM甘氨酸(pH 2.2-2.8)或100mM柠檬酸缓冲液(pH 3.5-4.0)或由其组成。因此，在一些实施例中，低pH溶液或缓冲液的pH为4.0或更低，例如3.9、3.8、3.7、3.6、3.5、3.4、3.3、3.2、3.1、3.0或更低，例如约1.5-3.5、1.6-3.4、1.7-3.3、1.8-3.2、1.9-3.1或2.0-3.0，例如约2.2-2.8或2.5-2.7。

优选地，用于破坏(亲和纯化)多肽:同源肽标签络合物的条件是使得同源肽标签仍可用于下游应用，即这些条件不会导致同源肽标签的活性的不可逆的损失。

虽然使用如本文所定义的肽标签进行亲和纯化是特别有利的，因为它为纯化的分子或组分提供了下游功能性(即经由本发明的肽标签结合配偶体多肽与其他分子缀合的能力)，但是本发明的方法可用于仅纯化或分离目标分子或组分(即没有肽标签)。这可以经由将肽标签与靶分子或组分切割的切割反应通过将靶分子或组分与固定在固体基底上的多肽分离来实现。

因此，在一些实施例中，将包含肽的分子或组分与固定在固体基底上的多肽分离的步骤可以包括使固体基底经受适合于将肽标签与包含肽标签的分子或组分切割(例如通过树脂上标签切割)的条件。这可以掺入(例如遗传编码)切割位点来完成，该切割位点可以被针对肽标签和靶分子或组分之间的位点具有特异性的一种或多种蛋白酶识别。一种或多种特异性蛋白酶在切割位点处对靶分子:肽标签融合体的切割将靶分子或组分从多肽:同源肽标签络合物中释放出来，使肽标签仍与多肽结合。合适的蛋白酶及其各自的识别位点是本领域熟知的，并且任何适当的设置都可以用于本方法中。

因此，在一些实施例中，包含肽标签的分子或组分含有在肽标签和分子或组分之间的切割位点，例如连接肽标签和分子或组分的切割位点。可替代地来看，肽标签与分子或组分间接经由可切割的接头融合或缀合。在一些实施例中，切割位点或可切割的接头是蛋白酶切割位点，例如TEV识别位点。因此，在一些实施例中，将包含肽的分子或组分与固定在固体基底上的多肽分离的步骤可以包括在适合于切割切割位点或可切割的接头的条件下使固体基底与实体(例如蛋白酶，例如SuperTEV)接触，从而从固定在固体基底上的肽标签和多肽中释放分子或组分。

在将所述络合物与固体基底分离之前用缓冲液洗涤固体基底的步骤可以利用任何合适的缓冲液，例如TBS。缓冲液可以基于与肽标签缀合或连接的分子或组分来选择。此外，洗涤固体基底的步骤可以重复多次，例如2、3、4、5或更多次。可替代地来看，在一些实施例中，该方法包括多个洗涤步骤，其中可以在每个步骤中使用相同或不同的洗涤条件。

其中固体基底包含珠(例如基于琼脂糖的珠)，洗涤步骤中使用的缓冲液的体积可以是珠的体积的至少约2倍，例如珠的体积的至少约3、4、5、6、7、8、9或10倍。

在一些实施例中，固体基底经受严格的洗涤条件。严格的洗涤条件的性质将取决于与肽标签和/或固体基底的组合物缀合或连接的分子或组分。技术人员可以常规选择这样的条件。

洗涤和分离(洗脱)步骤的温度可以由本领域技术人员基于常规实验容易地确定，并且可以取决于待分离或纯化的分子或组分的性质。在一些实施例中，洗涤和/或分离步骤在10℃或更低，例如9℃、8℃、7℃、6℃、5℃或4℃或更低下进行。

虽然在与包含含有同源肽标签的分子或组分的样品接触之前，将本发明的亲和纯化多肽固定在固体支持物上可以是有用的，但将显而易见的是这不是必需的。例如，本发明的多肽与包含同源肽标签的组分的结合可以在溶液中进行，其随后应用到固体支持物或固相(例如柱)上，用于随后的洗涤和分离(例如洗脱)步骤。在一些实施例中，多肽:同源肽标签络合物可以在适合于在固相上固定络合物条件下经由多肽(例如多肽上的固定结构域)应用到固相上，在适当的条件下洗涤并且随后经受上述条件中的一种或多种，例如与包含咪唑的溶液接触，以破坏络合物，从而分离多肽和包含同源肽标签的组分。

在另外的方面，本发明提供了用于在上文所定义的方法或用途中使用的设备，该设备包括在其上固定本发明的(亲和纯化)多肽的固体基底。

在一些实施例中，设备可以包含色谱柱，该色谱柱包含在其上固定本发明的(亲和纯化)多肽的固体基底。设备可以进一步包含用于使固体基底与样品接触的手段、洗涤和洗脱缓冲液和/或用于从固体基底中去除(例如吸出)或收集液体(例如洗涤、洗脱级分)的手段。

在另外的方面，本发明提供了试剂盒，特别是用于在制备在其上固定本发明的(亲和纯化)多肽的固体基底中使用的试剂盒，该试剂盒包含：

a)本发明的(亲和纯化)多肽；以及

b)用于将a)的多肽固定在固体基底上的手段。

在另外的实施例中，试剂盒进一步包含如上文所定义的固体基底。

用于将本发明的多肽固定在固体基底上的手段可以包括用于激活固体基底(例如树脂)和/或多肽(例如三(2-羧基乙基)膦)的试剂，用于将多肽与固体基底偶联的试剂(例如偶联缓冲液，例如50mM Tris-HCl，5mM EDTA，pH 8.5)和/或用于封闭固体基底的试剂(例如在偶联缓冲液中的L-半胱氨酸-HCl)。

现在将参考以下附图在以下非限制性实例中更详细地描述本发明：

图1R2Tag/R2Catcher的酰胺键形成速率，其中在25℃下在PBS(pH 7.5)中用5μM的每种蛋白质测量到使用DogTag(DogTag/R2Catcher曲线)时和使用DogCatcher(DogTag/DogCatcher曲线)时的增加。基于SDS-PAGE密度测定的平均值±1s.d.，n＝3。某些误差条太小而不可见。

图2DogTag/DogCatcher和R2Tag/R2Catcher的二阶速率常数确定。(A)DogTag/DogCatcher或R2Tag/R2Catcher的反应的时间过程。将5μM AviTag-DogTag-MBP和5μMDogCatcher或5μM AviTag-R2Tag-MBP和5μM R2Catcher在PBS(pH 7.5)中在25℃下孵育，通过SDS-PAGE/考马斯(Coomassie)和密度测定进行定量(平均值±1s.d.，n＝3)。某些误差条太小而不可见。标记所得的二阶速率常数(平均值±1s.d.，n＝3)。(B)从(A)缩放y轴，以使R2Tag/R2Catcher的数据更清晰。

图3R2Catcher(SEQ ID NO:6)与DogCatcher(SEQ ID NO:1)的序列比对。下划线和黑体显示创建DogCatcher的突变。

图4DogTag/DogCatcher反应性的条件依赖性。(A)pH依赖性。将2μM AviTag-DogTag-MBP和2μM DogCatcher在25℃下在SPG缓冲液中在指示的pH反应30min。(B)温度依赖性。将2μM AviTag-DogTag-MBP和2μM DogCatcher在25℃下在SPG(pH 7.0)中在指示的温度反应30min。(C)缓冲液依赖性。将5μM AviTag-DogTag-MBP和5μM DogCatcher在25℃下在指示的缓冲液(HBS是HEPES缓冲盐水；TBS是Tris缓冲盐水)中在pH 7.5下反应5min。数据表示平均值±1s.d.，n＝3；某些误差条太小而不可见。

图5当DogTag在内部时DogTag/DogCatcher反应完全。(A)HaloTag7SS中内部DogTag与DogCatcher的反应速率与AviTag-DogTag-MBP中不受约束的DogTag的反应速率类似。数据表示平均值±1s.d.，n＝3；某些误差条太小而不可见。(B)测试DogTag/DogCatcher反应完全。将DogCatcher与HaloTag7SS-DogTag在PBS(pH 7.5)中孵育200min，然后用考马斯染色进行SDS-PAGE。+＝10μM，++＝20μM。M＝分子量标志物。根据密度测量，在存在过量的DogCatcher的情况下，对于HaloTag7SS-DogTag发现98％损失。在存在过量的HaloTag7SS-DogTag的情况下，对于DogCatcher发现98％损失。

图6DogTag在sfGFP的β-桶结构域内良好地起作用，并且反应比SpyTag003快。比较sfGFP环A中DogCatcher与DogTag的反应速度相对于SpyCatcher003与SpyTag003的反应速度的二阶反应图。平均值±1s.d.，n＝3。某些误差条太小而不可见。

图7标签插入异戊醛还原酶的环后的标签反应性和酶活性。二阶反应图。在Gre2p的环B中，DogTag/DogCatcher的反应比SpyTag003/SpyCatcher003快。

图8DogTag/DogCatcher正交性。(A)DogTag与DogCatcher反应但不与SnoopCatcher或SpyCatcher003反应。将15μM DogCatcher、Affi-SnoopCatcher或SpyCatcher003与10μM HaloTag7SS-DogTag在PBS(pH 7.5)中在25℃下孵育24h，然后用考马斯染色进行SDS-PAGE。(B)DogCatcher与DogTag和SnoopCatcher反应。将15μMDogCatcher与10μM HaloTag7SS-DogTag、SpyTag003-MBP、SnoopTagJr-Affi、Affi-SnoopCatcher或SpyCatcher003在PBS(pH 7.5)中在25℃下孵育24h，然后用考马斯染色进行SDS-PAGE。M＝分子量标志物。

图9条形图显示了基于Ni-NTA纯化后1L大肠杆菌培养物的可溶性蛋白质的产率，R2Catcher的各种修饰对其溶解度的影响。

图10示出了使用DogTag/DogCatcher在特异性靶向哺乳动物细胞表面的离子通道的结果。(A)DogTag插入对离子通道打开的影响很小。来自一个96孔板的代表性细胞内钙测量(Ca²⁺ _i)(平均值±1SE，n＝4)，其显示TRPC5-SYFP2(灰色轨迹)或TRPC5-DogTag-SYFP2(中间轨迹)在HEK 293细胞中被30nM(-)-englerin A(在用水平线标记的期间存在)的激活。(-)-englerin A在空载体转染细胞(较低轨迹)中没有诱导钙应答。(B)通过DogCatcher在细胞表面快速标记。将表达TRPC5-DogTag-SYFP2或TRPC5-SYFP2对照的COS-7细胞与5μM生物素-DogCatcher-MBP在25℃下孵育指定的时间。细胞裂解物在对生物素(上小图)或荧光蛋白(下小图)印迹前用GFP-Trap进行免疫沉淀。(C)DogCatcher反应对离子通道打开的影响很小。来自一个96孔板的代表性细胞内钙测量(Ca²⁺ _i)(平均值±1SE，n＝6)，其显示在用5μM生物素-DogCatcher-MBP(灰色轨迹)或不用5μM生物素-DogCatcher-MBP(黑色轨迹)预处理30min的情况下，HEK293细胞中TRPC5-DogTag-SYFP2被10nM(-)-englerin A(在用水平线标记的期间存在)的激活。

实例

实例1：源自RrgA结构域4的Tag-Catcher对的改善

RrgA是由4个结构域组成的来自肺炎链球菌的黏附蛋白。结构域4(残基734-861)通过由Glu803指导的在Lys742与Asn854之间的转酰胺基反应形成自发的分子内异肽键。该结构域先前断裂且工程化以产生蛋白质偶联试剂R2Catcher(也称为RrgACatcher(SEQ IDNO:6)，对应于RrgA的残基734-838，并且含有反应性Lys和催化Glu)和R2Tag(SEQ ID NO:17，其对应于RrgA的残基838-860)。

据发现，R2Tag和R2Catcher在混合后确实成功地重构并反应，但速率低(图1)。在25℃下在PBS(pH 7.4)中，二阶速率常数确定为3±0.1M^-1s^-1(平均值±1s.d.，n＝3)(图2)。R2Tag被工程化用于更快的重构。β-链内在842处的柔性Gly被Thr取代，维持亲水性并在β-折叠内是有利的。Asp848被Gly取代，以有利于紧密转角形成。Asn847被Asp取代，以改善与Lys 849的静电相互作用。具有突变G842T、N847D和D848G的R2Tag(称为DogTag，SEQ ID NO:3)与R2Catcher的反应改善了10倍。DogTag与R2Catcher的二阶速率常数为30±2M^-1s^-1(平均值±1s.d.，n＝3)。

R2Catcher的主要问题是它在PBS(pH 7.4)(约140μM)中的溶解度有限，与SpyCatcher(>1mM)相比时较低。SnoopLigase是源自RrgA的D4结构域的多肽，先前已经经由PROSS和Rosetta进行了计算优化，导致突变D737S、D838G和I839V。然而，R2Catcher变体中酸性残基的突变导致在中性pH下高度不可溶的蛋白质。诸位发明人观察到R2Catcher的预测pI接近中性(6.6)，并且假设引入增加R2Catcher的表面负性变化的突变可以提高蛋白质的溶解度。诸位发明人鉴定了许多可以增加多肽的表面负性变化的突变。Rosetta评估所选突变，发现突变不会大大降低多肽的预测稳定性(参见表1)。

表1：R2Catcher中突变的预测稳定性变化。Rosetta计算蛋白质稳定性为异肽键形成版本的相对能量单位(DREU)相对于R2Catcher的差异

除了A808P之外，将突变D737E、N744D、N746T、N780D、K792T和N825D的组合引入以降低R2Catcher中β-转角的构象柔性，这将在PBS(pH 7.4)中的溶解度增加到316μM。所得的突变体称为R2CatcherB(SEQ ID NO:8)。

实例2：R2Catcher反应性的改善

新蛋白质支架的噬菌体展示经常会遇到障碍，包括错误折叠、周质降解、噬菌体感染性的丧失以及移码或截短的变体的累积。因此，在尝试定向进化之前，有必要合理地优化R2Catcher。在具有高可溶性的R2CatcherB的情况下，诸位发明人应用定向进化以提高反应速度。R2CatcherB中的突变的文库通过易错PCR来生成。在常规噬菌体展示淘选过程中，通过甘氨酸(pH 2.5)等条件从诱饵蛋白质中洗脱非共价结合的噬菌体。在目前的方法中，该相同的洗涤用于去除任何非共价结合的噬菌体，以仅选择允许发生异肽键形成的变体。然后使用TEV蛋白酶特异性洗脱噬菌体。经过多轮噬菌体展示以及对不同噬菌体文库的评估后，性能最好的变体(称为DogCatcher(SEQ ID NO:1))与AviTag-DogTag-MBP的反应比R2Catcher快25倍(760±20M^-1s^-1，平均值±1s.d.，n＝3)(图1和图2)。与R2CatcherB(F802I、A820S和Q822R)相比，DogCatcher含有3个另外的突变(图3)。使用Rosetta单独评估这些突变对结构域稳定性的影响，并且仅发现微小的预测变化(上表1)。总体而言，DogTag/DogCatcher与最初的断裂对(R2Tag和R2Catcher)相比反应速率提高了250倍(图1和图2)。

实例3：DogTag/DogCatcher的特征

对DogTag/DogCatcher对进行表征以确定其对反应条件的依赖性(图4)。

DogTag/DogCatcher在pH 4和5下反应不佳，其中在pH 7时反应性急剧上升，在pH8和9时维持高反应性(图4A)。DogTag/DogCatcher被证明在4℃下具有显著的活性，在25℃-37℃下具有高反应性(图4B)。DogTag/DogCatcher在一系列缓冲液(HEPES、PBS、Tris)中显示出高反应性，并且对螯合剂(EDTA)或洗涤剂具有耐受性(图4C)。

实例4：在环内插入DogTag保留了良好的DogCatcher反应性

Tag/Catcher方法已被用于数百种蛋白质，其中绝大多数将Tag在目的蛋白质的柔性末端处插入。鉴于DogTag预计形成β-发夹来重构结构域4结构，诸位发明人假设DogTag在蛋白质的结构化内部位点的限制将允许有效的异肽键形成。因此，诸位发明人测定了42kDaHaloTag7蛋白质(名为HaloTag7SS的版本)的α-螺旋中在残基139与140之间插入的DogTag。与非限制DogTag(N-末端融合到MBP结构域)的反应的比较揭示了DogTag在这些不同的环境中表现出相似的反应性(图5A)。

还测试了DogTag/DogCatcher反应完全的能力。在两倍过量的DogCatcher时，98％的HaloTag7SS-DogTag发生反应(图5B)。相反，在两倍过量的HaloTag7SS-DogTag时，98％的DogCatcher发生反应(图5B)。

实例5：对于Superfolder GFP中的Catcher反应性而言，DogTag优于SpyTag003

理想情况下，SpyTag003或DogTag等Tag到蛋白质内的环的插入应该允许与Catcher蛋白质的高反应性，以及保留宿主蛋白的功能。在第一种情况下，两侧侧翼为G₅S接头的DogTag或SpyTag003被克隆到superfolder GFP(sfGFP)内的环中，sfGFP是先前证明允许用于环插入的β-桶蛋白质。sfGFP的所有变体都被可溶地表达(连同DogTag或SpyTag003和环A、B或C)。

在Catcher之间观察到反应性的主要差异。对于环A内DogTag与DogCatcher的反应(图6)，二阶速率常数是1.0±0.08×10³M^-1s^-1(平均值±1s.d.，n＝3)，这与对于末端DogTag融合而言的速率相当(图2)。相比之下，SpyCatcher003与SpyTag003在sfGFP的同一环中反应的二阶速率常数为87±8M^-1s^-1(平均值±1s.d.，n＝3)，比作为末端融合的SpyTag003慢6,000倍(5.5±0.6×10⁵M^-1s^-1)。

sfGFP的所有环插入变体都显示出与未融合的WT sfGFP相当的吸收强度和光谱。类似地，变体中的任一个的荧光发射的强度或光谱变化很小。因此，DogTag或SpyTag003的插入对保留荧光蛋白功能具有良好的耐受性。

实例6：可以将DogTag插入酶内的环中，同时维持催化活性

Tag/Catcher反应已用于多酶络合物的支架和催化水凝胶的创建。在此应用中，异戊醛还原酶Gre2p与SpyTag/SpyCatcher一起使用，并且具有混合的β-α-β罗斯曼(Rossmann)折叠。选择该蛋白质来测试DogTag/DogCatcher是否可以用于必须针对有效功能维持柔性的酶中。选择Gre2p内远离活性位点的三个环以插入侧翼为G₅S接头的DogTag或SpyTag003。SpyTag003或DogTag的所有插入都允许可溶性酶表达。通过Gre2p将异戊醛还原为异戊醇是NADPH依赖性的。NADPH氧化成NADP⁺后的吸光度变化用于跟踪野生型(WT)和环插入的Gre2p变体的反应。在每个环中的SpyTag003或DogTag情况下，异戊醛还原酶活性成功维持在WT Gre2p的2倍以内(表2)。

表2：Gre2p变体的特异性酶活性。将每种Gre2p变体与异戊醛和NADPH在磷酸盐缓冲液中在25℃下孵育，并且用分光光度法监测反应(平均值±1s.d.，n＝3个生物学重复)。

对于Gre2p环B，DogTag与DogCatcher反应的二阶速率常数为527±80M^-1s^-1，而SpyTag003与SpyCatcher003的反应要慢得多(93±13M^-1s^-1；平均值±1s.d.，n＝3，图7)。

实例7：DogTag/DogCatcher正交性测试

SnoopTagJr/SnoopCatcher源自RrgA的D4结构域，并且与Tag/Catcher的SpyTag/SpyCatcher家族正交。测试了DogTag/DogCatcher与SnoopTagJr/SnoopCatcher或SpyTag003/SpyCatcher003的交叉反应性。DogTag仅与DogCatcher反应(图8A)，即使在高蛋白质浓度下24h后也是如此。DogCatcher仅与包含DogTag的Tag/Cather构建体反应(图8B)。因此，DogCatcher不与SpyTag003、SpyCatcher003或SnoopTagJr反应。相比之下，DogCatcher与HaloTag7SS-DogTag或SnoopCatcher反应完全(图8B)。DogCatcher与SnoopCatcher反应，因为SnoopCatcher在其C-末端含有类似于DogTag的序列(其中DogCatcher在其N-末端同样含有类似于SnoopTag的序列)。

实例8：DogCatcher与哺乳动物细胞表面的离子通道发生特异性反应

各种细胞表面蛋白质缺乏可在质膜处可及的N或C末端。因此，环介导的连接可以促进与外源探针的共价标记。

经典瞬时受体电位5(TRPC5)是对于Na⁺和Ca²⁺可渗透的离子通道，并且参与各种病症，包括焦虑、肾脏疾病以及心血管和代谢疾病。TRPC5的两个末端都在膜的胞质侧。

将DogTag在远离孔的位点处遗传地插入到残基460与461之间的TRPC5的第二细胞外环中。明亮且快速成熟的黄色荧光蛋白SYFP2与C-末端融合，这允许对总TRPC5的分布进行成像，但不突出显示活性表面池。

在瞬时转染的HEK293细胞中进行细胞内钙测量，以通过用倍半萜类激活剂(-)-englerin A刺激TRPC5打开来测试DogTag插入的功能性。DogTag融合形成具有有效激动剂应答的功能通道(图10A)。

通过将生物素-DogCatcher-MBP添加到表达TRPC5-DogTag-SYFP2的COS-7细胞中来测试在细胞表面的DogCatcher识别的功效。在SYFP2融合物的GFP-Trap下拉后，用链霉亲和素-HRP印迹全细胞裂解物。DogCatcher与TRPC5-DogTag-SYFP2反应迅速，仅在孵育1min后即可检测到，其中缺乏DogTag融合物的阴性对照细胞上的信号最小(图10B)。

还测试了用生物素-DogCatcher-MBP标记后HEK293细胞中TRPC5的功能性。DogCatcher标记对由(-)-englerin A刺激的TRPC5介导的钙流入到这些细胞中没有影响(图10C)。

为了可视化表面暴露的TRPC5池，在DogCatcher的N-末端引入独特的半胱氨酸，并偶联到马来酰亚胺-Alexa Fluor 647，以得到DogCatcher-647。与缺乏DogTag的对照相比，DogCatcher-647允许在COS-7细胞中选择性染色TRPC5-DogTag-SYFP2，其中通过共聚焦荧光显微镜可视化受体。

DogCatcher染色最早在添加后1min观察到，10min时染色最佳。总体而言，DogTag/DogCatcher允许对不同哺乳动物细胞类型表面的离子通道进行快速和选择性共价标记。

结论

DogTag/DogCatcher对对于不同蛋白质环中的共价蛋白质-蛋白质反应是有效的。DogTag/DogCatcher显示了许多使系统易于应用的特征。两配偶体均可从常规的20种氨基酸中进行遗传编码，其中反应对一系列条件(4℃-37℃，pH 6-8，洗涤剂、和不同缓冲液)具有耐受性。反应可以进行约98％的转化，没有可检测的副产物，并留下预期具有高稳定性的酰胺键。DogTag和DogCatcher均不含有任何半胱氨酸残基，因此可以在需要还原或氧化条件的蛋白质上进行偶联。

DogTag与在蛋白质的末端处或者插入到主要是α-螺旋，主要是β-折叠或α+β折叠的蛋白质内部中的DogCatcher有效反应。观察到当插入sfGFP的不同环中时良好的荧光特征的维持，以及在Gre2p的不同环中的良好催化活性。在膜蛋白(TRCP5)的环内插入DogTag也能够标记哺乳动物细胞。在HaloTag的情况下，将DogTag插入到二级结构元件中。

获得具有快速和高产率反应的Tag/Catcher对是相当大的挑战。文献中的大多数Tag/Catcher对需要高微摩尔浓度和数日进行显著偶联。在一些情况下，断裂蛋白质完全没有显示反应性。因此，需要大量的蛋白质工程化努力来实现本文所证明的有效的自发分子间异肽键形成。DogTag/DogCatcher反应的速率在末端位点或环位点处相当，并且因此DogTag/DogCatcher对表示与各种环反应的优选配对。

材料与方法

质粒和构建体的克隆

使用Q5高保真聚合酶(NEB)或KOD聚合酶(EMD密理博公司(EMD Millipore))和Gibson组装通过标准方法进行基于PCR的克隆和定点诱变。pDEST14-R2Catcher是通过将来自肺炎链球菌TIGR4(GenBank AAK74622)(其中基于PDB ID 2WW8进行编号)的RrgA黏附蛋白的残基734-838克隆到来自pDEST14 SpyCatcher(GenBank JQ478411，Addgene公司质粒ID 35044)的骨架中而衍生的。突变D737E、N744D、N746T、N780D、K792T、A808P和N825D通过Gibson组装覆盖到R2Catcher上以形成pDEST14-R2CatcherB。噬菌粒载体pFab5cHis-R2CatcherB衍生自pFab5cHis-SpyCatcher-gIII。pDEST14-DogCatcher(图3)通过Gibson组装通过包含F802I、A820S和Q822R突变从pDEST14-R2CatcherB衍生。已经描述了pDEST14-SpyCatcher003(GenBank登录号MN433887，Addgene公司质粒ID 133447)。pET28-AviTag-R2Tag-MBP衍生自pET28a-SpyTag003-MBP(GenBank登录号MN433888，Addgene公司质粒ID133450)。pET28-AviTag-DogTag-MBP衍生自pET28a-SpyTag003-MBP(GenBank登录号MN433888，Addgene公司质粒ID 133450)。pET28-AviTag-DogTag NA-MBP通过Gibson组装衍生自pET28-AviTag-DogTag-MBP。pET28a-HaloTag7SS-DogTag编码在HaloTag7中的残基D139和E140之间的插入的DogTag，以及HaloTag7中的C61S和C261S突变以封闭二硫键形成。通过Gibson组装通过插入来自酿酒酵母的Gre2p异戊醛还原酶(作为具有针对大肠杆菌B菌株表达优化的密码子的合成基因块)代替sfGFP，pET28-Gre2p衍生自pET28-SpyTag003-sfGFP(Addgene公司质粒ID 133454)。通过Gibson组装通过在残基Lys140与Ser141(pET28-Gre2p-SpyTag003环A)、Glu229与Asp230(pET28-Gre2p-SpyTag003环B)、或Ser297与Thr303(pET28-Gre2p-SpyTag003环C)之间插入间隔子-SpyTag003-间隔子(序列GGGGSRGVPHIVMVDAYKRYKGGGGS，SEQ ID NO:10)，pET28-Gre2p-SpyTag003环插入衍生自pET28-Gre2p。通过Gibson组装通过在残基Lys140与Ser141(pET28-Gre2p-DogTag环A)、Glu229与Asp230(pET28-Gre2p-DogTag环B)、或Ser297与Thr303(pET28-Gre2p-DogTag环C)之间插入间隔子-DogTag-间隔子(序列GGGGSDIPATYEFTDGKHYITNEPIPPKGGGGS，SEQ ID NO:11)，pET28-Gre2p-DogTag环插入衍生自pET28-Gre2p。通过Gibson组装通过缺失N-末端SpyTag003，pET28-sfGFP衍生自pET28-SpyTag003-sfGFP(Addgene公司质粒ID 133454)。通过Gibson组装通过在残基Val22与Asn23(pET28-sfGFP-SpyTag003环A)、Asp102与Asp103(pET28-sfGFP-SpyTag003环B)、或Asp173与Gly174(pET28-sfGFP-SpyTag003环C)之间插入间隔子-SpyTag003-间隔子(SEQ ID NO:10)，pET28-sfGFP-SpyTag003环插入衍生自pET28-sfGFP。通过Gibson组装通过在残基Val22与Asn23(pET28-sfGFP-DogTag环A)、Asp102与Asp103(pET28-sfGFP-DogTag环B)、或Asp173与Gly174(pET28-sfGFP-DogTag环C)之间插入间隔子-DogTag-间隔子(SEQ ID NO:11)，pET28-sfGFP-DogTag环插入衍生自pET28-sfGFP。pGEX-2T-GST-BirA是来自牛津大学(University of Oxford)Chris O’Callaghan的馈赠。pET28-MBP-sTEV是经修饰的TEV蛋白酶构建体，其具有结构域排列MBP-His₆-TEV蛋白酶-Arg₆，但在MBP和TEV蛋白酶之间没有内部TEV切割位点。TEV蛋白酶结构域含有以下溶解度/稳定性突变(数字是指标准TEV蛋白酶编号方案)：C19V L56V C110V C130S S135G和S219D。pET28 Affi-SnoopCatcher是通过将抗HER2亲和体克隆到pET28 SnoopCatcher(GenBank登录号KU500646，Addgene公司质粒ID 72322)的N-末端而创建的。通过Gibson组装通过在TEV切割位点和DogCatcher部分之间插入半胱氨酸，pDEST14-Cys-DogCatcher衍生自pDEST14-DogCatcher。

蛋白表达与纯化

R2Catcher、DogCatcher变体、AviTag-R2Tag-MBP、DogTag-MBP融合物、SpyTag003-MBP、SpyCatcher003-sfGFP和His₆-MBP在大肠杆菌BL21 DE3 RIPL(安捷伦公司(Agilent))中表达。SpyCatcher003在大肠杆菌C41 DE3(来自牛津大学Anthony Watts的馈赠)中表达。将单个菌落接种到含有100μg/mL氨苄青霉素(SpyCatcher003、SpyCatcher003-sfGFP、R2Catcher或DogCatcher变体)或50μg/mL卡那霉素(His6-MBP、SpyTag003-MBP、AviTag-R2Tag-MBP和DogTag融合)的10mL LB中，并且在37℃下以200rpm振荡生长16h。对于二次培养，将1/100稀释的饱和过夜培养物接种在1L自诱导LB液体培养基加0.8％(v/v)葡萄糖以及适当的抗生素中，并且在37℃下在超高产率带挡板烧瓶(汤姆森仪器公司(ThomsonInstrument Company))中以200rpm振荡生长，直到OD₆₀₀为0.5，然后在30℃下用0.42mMIPTG伴随以200rpm振荡4小时诱导过表达。收获细胞并且在50mM Tris-HCl(pH 8.0)(含有300mM NaCl和10mM咪唑(含有混合蛋白酶抑制剂(cOmplete迷你无EDTA蛋白酶抑制剂混合物，罗氏公司(Roche)))和1mM苯甲基磺酰氟(PMSF))中在冰上通过声处理裂解，并且通过Ni-NTA(凯杰公司(Qiagen))纯化。使用3.5kDa截留分子量透析管(光谱实验室(SpectrumLabs))将蛋白质透析到PBS(137mM NaCl、2.7mM KCl、10mM Na₂HPO₄、1.8mM KH₂PO₄)(pH7.5)中。如上所述表达和纯化MBP-sTEV，但不含蛋白酶抑制剂混合物片剂。使用来自ExPASyProtParam的消光系数从OD₂₈₀测定蛋白质浓度。

GST-BirA在大肠杆菌BL21 DE3 RIPL(安捷伦公司)中表达。将单个菌落接种到含有100μg/mL氨苄青霉素的10mL LB中，并且在37℃下以200rpm振荡生长16h。对于二次培养，将1/100稀释的饱和过夜培养物接种在1L自诱导LB液体培养基加0.8％(v/v)葡萄糖以及适当的抗生素中，并且在37℃下在超高产率带挡板烧瓶(汤姆森仪器公司(ThomsonInstrument Company))中以200rpm振荡生长，直到OD₆₀₀为0.5。在30℃下用0.42mM IPTG伴随以200rpm振荡4h诱导细胞。如(Fairhead和Howarth,2015)所述使用谷胱甘肽-琼脂糖凝胶纯化来纯化蛋白质。

如(Fairhead和Howarth,2015)所述在SDS-PAGE上用GST-BirA进行AviTag生物素化和检查。简而言之，主混合物由100μM诱饵蛋白质在952μL PBS、5μL 1M MgCl₂、20μL100mM ATP、20μL 50μM GST-BirA和1.5mM生物素中制成。将其在30℃下以800rpm振荡孵育1h。再添加20μL 50μM GST-BirA，然后再孵育1h。最后，将诱饵在4℃下在PBS缓冲液(pH7.5)中透析。通过链霉亲和素凝胶转移测定来测试蛋白质生物素化的程度。

Superfolder GFP(sfGFP)变体在大肠杆菌BL21 DE3 RIPL中表达。将单个菌落接种到LB加50μg/mL卡那霉素中，并且在37℃下以200rpm振荡生长16h。对于二次培养，将1/100稀释的饱和过夜培养物接种到LB加50μg/mL卡那霉素中，在37℃下以200rpm振荡生长，直到OD₆₀₀达到0.5，此时添加0.42mM IPTG，并且培养物在22℃下生长18h。收获细胞并且在50mM Tris-HCl(pH 8.0)(含有300mM NaCl和10mM咪唑(含有cOmplete迷你无EDTA蛋白酶抑制剂混合物)和1mM PMSF)中在冰上通过声处理裂解，并且使用标准程序通过Ni-NTA(凯杰公司(Qiagen))纯化。使用3.5kDa截留分子量透析管(光谱实验室)将蛋白质透析到PBS(pH7.5)中。根据具有修改的制造商的说明书，将使用皮尔斯(Pierce)二辛可宁酸(BCA)蛋白质测定试剂盒(赛默飞世尔公司(Thermo Fisher))对蛋白质进行定量，该修改是在读取吸光度之前将蛋白质在测定溶液中在60℃下孵育1h。

Gre2p变体在大肠杆菌BL21 DE3 RIPL中表达。将单个菌落接种到LB加50μg/mL卡那霉素中，并且在37℃下以200rpm振荡生长16h。对于二次培养，将1/100稀释的饱和过夜培养物接种到LB加50μg/mL卡那霉素中，在37℃下以200rpm振荡生长，直到OD₆₀₀达到0.5，此时添加0.42mM IPTG，并且培养物在25℃下生长18h。收获细胞并且在50mM Tris(pH 8.0)(含有300mM NaCl和10mM咪唑(含有混合蛋白酶抑制剂(cOmplete迷你无EDTA蛋白酶抑制剂混合物，罗氏公司(Roche)))和1mM苯甲基磺酰氟(PMSF))中在冰上通过声处理裂解，并且使用标准程序通过Ni-NTA(凯杰公司(Qiagen))纯化。使用3.5kDa截留分子量透析管(光谱实验室)将蛋白质透析到100mM磷酸钾(pH 7.4)中[通过将100mM磷酸二氢钾(KH₂PO₄)溶液和磷酸氢二钾(K₂HPO₄)溶液混合形成]。根据制造商的说明书，使用皮尔斯BCA蛋白质测定试剂盒(赛默飞世尔公司)对蛋白质进行定量。

R2Catcher突变的建模

Rosetta3用于模拟突变对R2Catcher的影响(Leaver-Fay等人,2011)。具有A808P突变的RrgA(PDB代码2WW8)残基734-838的晶体结构被松弛，并且使用pmut_scan方案以计算每个突变体的Rosetta能量单位。

R2CatcherB WT噬菌体产生

选择两种不同的细胞系来鉴定R2CatcherB噬菌体产生的更好条件，因为R2CatcherB最初在噬菌体表面上展示不佳。将R2CatcherB噬菌粒转化进入大肠杆菌XL1-Blue(安捷伦公司)或大肠杆菌K12 ER2738(卢西根公司(Lucigen))，并且在18℃、25℃或30℃下生长16h用于噬菌体产生。转化细胞在具有100μg/mL氨苄青霉素和10μg/mL四环素和0.2％(v/v)甘油的50mL 2YT中在37℃、200rpm下生长，直到OD₆₀₀＝0.5(约2-3h)。将细胞用10¹²个R408辅助噬菌体(安捷伦公司)在对数期感染，并且在37℃下以80rpm孵育30min。用0.1mM IPTG诱导R2CatcherB-pIII的表达，并且将细胞在18℃、25℃或30℃下以200rpm孵育18-20h。每4体积上清液使用一体积沉淀缓冲液[无菌，20％(w/v)PEG8000，2.5M NaCl]收获噬菌体(Keeble等人,2017)。简而言之，将上清液与沉淀缓冲液混合，并且在4℃下孵育3-4h。通过在4℃下以15,000g离心30min沉淀噬菌体，并且去除上清液。将噬菌体沉淀重悬于PBS(每100mL培养物2mL)中，并且在4℃下以15,000g离心10min以清除任何残留细胞，然后将上清液转移到新管中。如先前将混合物再次沉淀，但这次重悬于0.25mL PBS/100mL培养物中。将样品在4℃下以15,000g离心10min，并且将噬菌体沉淀第三次并重悬于最终体积为0.25mL PBS/100mL培养物中。用20％甘油(v/v)作为冷冻保护剂，将样品在4℃下短期储存(1-2周)、或者在-80℃下长期储存。噬菌体在再次感染后通过铺板连续稀释液进行定量。

噬菌体文库生成

为了创建随机诱变文库，pFab5cHis R2CatcherB噬菌粒构建体被用作PCR反应的模板。使用KOD聚合酶(EMD密理博公司)和寡核苷酸引物(正向引物：5’-GGATCCAGTGGTAGCGAAAACCTCTAC(SEQ ID NO:12)；反向引物：5’-CATGGCGCCCTGATCTCGAGG(SEQ ID NO:13))扩增载体。根据制造商的方案，使用GeneMorph II随机诱变试剂盒(安捷伦公司)用正向引物5’-GACCTCGAGATCAGGGCGCCATG(SEQ ID NO:14)和反向引物5’-GAAGTAGAGGTTTTCGCTACCACTGGATC(SEQ ID NO:15)扩增插入物。热循环后添加DpnI，在37℃下孵育1h，并且在80℃下热灭活20min。通过琼脂糖凝胶电泳分离扩增的片段，并且通过凝胶萃取(赛默飞科技公司(Thermo Scientific))纯化载体和插入物的DNA条带。在优化的载体:插入物摩尔比为1:3下进行连接，其中在20μL的总体积中约500ng的DNA。将等体积的2×主混合物Gibson(新英格兰生物技术公司(New England Biotech))添加到插入物-载体混合物中，并且在50℃下孵育16h。将DNA在自旋过滤器上(Wizard PCR纯化试剂盒；普洛麦格公司(Promega))浓缩，并且将3μL(约700ng)的DNA通过在具有2.5kV电压设置的GenePulserXcell(伯乐公司(Bio-Rad))中的Bio-Rad 2mm电穿孔比色皿中电穿孔而转化进入50μL电感受态ER2738琥珀终止密码子抑制细胞(卢西根公司)中。通过添加950μL SOC培养基在37℃下1h回收转化体，然后在37℃下在含有100μg/mL氨苄青霉素和10μg/mL四环素的50mL 2YT培养基中进一步生长16h。通过在具有100μg/mL氨苄青霉素和10μg/mL四环素的琼脂板上将1mL拯救培养物的连续稀释液进行铺板来确定转化效率。将等分试样快速冷冻并储存在-80℃下。为了收获文库，将1mL的过夜培养物添加到具有100μg/mL氨苄青霉素和10μg/mL四环素和0.2％(v/v)甘油的250mL 2YT培养基中，并且在37℃下以200rpm生长，直至OD₆₀₀ 0.5(约2-3h)。将细胞用10¹²个R408辅助噬菌体(安捷伦公司)感染，并且在37℃下以80rpm孵育30min。用0.1mM IPTG诱导R2CatcherB-pIII文库的表达，并且将其在18℃下以200rpm孵育18-20h。通过在4℃下以15,000g离心10min去除细胞，并且如上所述将噬菌体纯化。

噬菌体选择

生物素化的AviTag-DogTag-MBP被用作诱饵与R2CatcherB噬菌体文库反应。非反应性诱饵变体(生物素化的AviTag-DogTag NA-MBP)被包括在平行选择中以评估淘选的效率。在具有3％(w/v)牛血清白蛋白(BSA；西格玛公司(Sigma)A9418)并且补充有25μM His₆-MBP(以反选择与MBP结合的任何DogCatcher变体)的PBS(pH 7.5)中在25℃下进行反应。在第一轮选择中，将10¹²个噬菌体与0.5μM诱饵混合并且反应18h。在严格度提高(第2轮0.2μM诱饵和60min反应；第3轮0.1μM诱饵和15min反应；第4轮0.05μM诱饵和10min反应)的情况下进行随后的三轮选择。通过添加100倍过量的不含AviTag的诱饵(DogTag MBP)来停止反应。

通过PEG-NaCl沉淀从未反应的生物素化的诱饵纯化噬菌体。将含有噬菌体生物素化的诱饵加合物的沉淀重悬于PBS(pH 7.5)以及0.1％(v/v)Tween-20中。将200μL噬菌体与20μL Biotin-Binder Dynabeads(赛默飞世尔科技公司(Thermo Fisher Scientific))在96孔低结合Nunc板中混合，该板已在25℃下用3％(w/v)BSA在PBS(pH 7.5)+0.1％(v/v)Tween-20中预封闭2h。将珠用200μL/孔的PBS(pH 7.5)+0.1％(v/v)Tween-20预洗涤四次。将噬菌体生物素化的诱饵加合物与微量滴定板中的珠在25℃下在艾本德热混合器中伴随以800rpm振荡孵育1h。为了去除弱结合的噬菌体，将珠在25℃下用150μL甘氨酸-HCl(pH2.2)洗涤一次，然后在25℃下用150μL TBS(50mM Tris-HCl+150mM NaCl，pH 7.5)和0.5％(v/v)Tween-20洗涤四次。通过将TEV蛋白酶在34℃下在50mM Tris-HCl(pH 8.0)和0.5mMEDTA中消化2h，将噬菌体从珠洗脱。通过感染ER2738细胞的10mL中对数期(OD₆₀₀＝0.5)培养物来拯救洗脱的噬菌体。将细胞在37℃下以80rpm生长30min，然后转移到补充有氨苄青霉素(100μg/mL)、四环素(10μg/mL)、0.2％(v/v)甘油的200mL 2YT中，并且在37℃下以200rpm生长约2h(直到OD₆₀₀＝0.5)。将培养物用10¹²R408辅助噬菌体感染，并且在37℃下以80rpm孵育30min。用0.1mM IPTG诱导R2CatcherB-pIII的表达，并且将细胞在18℃下以200rpm孵育18-20h。通过将来自10mL拯救培养物的连续稀释液铺板来定量洗脱的噬菌体的数量。

异肽键形成测定

反应通常在25℃下在PBS(pH 7.5)中进行。在180V下使用XCell SureLock系统(赛默飞世尔公司)通过SDS-PAGE对16％(w/v)聚丙烯酰胺凝胶的反应进行分析。在伯乐公司C1000热循环仪中添加6×SDS上样缓冲液[0.23M Tris-HCl(pH 6.8)、24％(v/v)甘油、120μM溴酚蓝、0.23M SDS]后，将反应在95℃下淬灭5min。蛋白质使用InstantBlue(艾本德公司(Expedeon))考马斯进行染色。使用Gel Doc XR成像仪和Image Lab 5.0软件(伯乐公司)量化条带强度。通过将共价络合物的条带强度除以泳道中所有条带的强度并乘以100来计算异肽键形成的百分比。

当5μM AviTag-DogTag-MBP和5μM Catcher蛋白质反应时，共价络合物形成的二阶速率常数是通过监测R2Catcher或DogCatcher的条带的相对强度的降低来确定的，以得到未反应的Catcher变体的浓度变化。在反应曲线的线性部分期间分析时间点。1/[Catcher变体]相对于时间进行作图，并且使用Excel(微软公司(Microsoft))和Origin2015(OriginLab公司(OriginLab Corporation))通过线性回归进行分析(包括计算最佳拟合的s.d.)。数据表示一式三份测量的平均值±1s.d.。

温度依赖性的DogTag:DogCatcher异肽键形成在4℃、25℃或37℃下在琥珀酸盐–磷酸盐–甘氨酸(SPG)缓冲液(12.5mM琥珀酸、43.75mM NaH₂PO₄、43.75mM甘氨酸；使用NaOH调节pH至7.0)中用2μM的AviTag-DogTag-MBP和DogCatcher一式三份进行，其中在15min时间点进行评估。

pH依赖性的DogTag:DogCatcher异肽键形成在pH 4、5、6、7、8、或9下在SPG缓冲液中用2μM AviTag-DogTag-MBP和2μM DogCatcher中的每一者一式三份进行，其中在30min时间点进行评估。

缓冲液依赖性的DogTag:DogCatcher异肽键形成在一系列缓冲液(所有pH 7.5)中用5μM AviTag-DogTag-MBP和5μM DogCatcher进行，其中在5min时间点进行评估。所用的缓冲液是PBS、PBS+1mM DTT、PBS+1mM EDTA、PBS+1％(v/v)Triton X-100、PBS+1％(v/v)Tween-20、HBS(50mM HEPES+150mM NaCl)、TBS(50mM Tris-HCl+150mM NaCl)、或Tris(50mMTris-HCl)。

如下确定条件依赖性的SpyTag003/SpyCatcher003。对于温度依赖性测定，将100nM SpyCatcher003-sfGFP和SpyTag003-MBP在补充有0.2％(w/v)BSA的PBS(pH 7.4)中在4℃、25℃、30℃或37℃下反应2min。对于缓冲液依赖性测定，将100nM SpyCatcher003-sfGFP和SpyTag003-MBP在25℃下在以下一系列缓冲液中反应2min：PBS(pH 7.4)、PBS(pH7.4)+1mM EDTA(乙二胺四乙酸)、PBS(pH 7.4)+1％(v/v)Triton X-100、PBS(pH 7.4)+1％(v/v)Tween-20、HBS(20mM HEPES(pH 7.4)+150mM NaCl)、或TBS(20mM Tris-HCl(pH 7.4)+150mM NaCl)。每个缓冲液补充有0.2％(w/v)BSA。对于pH依赖性测定，将1μMSpyCatcher003和SpyTag003-MBP在25℃下在SPG缓冲液中反应。

用10或20μM DogCatcher与10或20μM HaloTag7SS-DogTag在PBS(pH 7.5)中反应200min来测试DogCatcher与DogTag反应完全。5μM DogCatcher与5μMHaloTag7SS-DogTag或AviTag-DogTag-MBP在PBS(pH 7.5)中反应以比较在环(HaloTag7SS-DogTag)中限制的或不受此限制(AviTag-DogTag-MBP)的DogTag的反应。

sfGFP或Gre2p的环变体的反应在25℃下在PBS(pH 7.5)中进行，其中5μM环变体与5μM DogCatcher或SpyCatcher003反应。

测试了在25℃下在PBS(pH 7.5)中24h的DogCatcher(15μM)和HaloTag7SS-DogTag(10μM)与Affi-SnoopCatcher、SnoopTagJr-AffiHer2、SpyCatcher003、SpyTag003-MBP(全部在10μM下测试DogCatcher反应性；其中Affi-SnoopCatcher和SpyCatcher003在15μM下与HaloTag7SS-DogTag反应)的交叉反应性。

光谱测量

使用激发波长为488nm的Horiba-Yvon Fluoromax 4在25℃下在PBS(pH 7.5)中收集0.5μM sfGFP变体的光谱，并且使用单色器在500至660nm之间收集荧光发射，并且使用偏振器设置为魔角(54.7°)收集数据。使用Jasco V-550UV/VIS分光光度计在25℃下在PBS(pH7.5)中收集10μM sfGFP变体的吸光度光谱。从250nm到600nm每nm收集一次数据，其中扫描速度为200nm/min，响应速度快，并且条带宽度为2.0nm。数据表示生物一式三份的平均值。

Gre2p活性测定

在25℃下将50nM Gre2p变体与1.5mM异戊醛(默克公司(Merck))和0.25mM还原烟酰胺二核苷酸磷酸酯(NADPH)(ChemCruz)在100mM磷酸钾(pH 7.4)[通过将100mM磷酸二氢钾(KH₂PO₄)溶液和磷酸氢二钾(K₂HPO₄)溶液混合形成]+0.1％(w/v)BSA+1mM二硫苏糖醇(DTT)中一起孵育。通过将100μL的15mM异戊醛原液在100mM磷酸钾(pH 7.4)中移液到反应混合物中来引发反应，并且通过使用具有中等响应和5.0nm条带宽度的Jasco V-550UV/VIS分光光度计测量A₃₄₀的降低来测量进展。在200s内每秒收集一次数据。

DogCatcher染料标记

染料标记是用箔包裹的管进行的，以最大限度减少光暴露。将Alexa Fluor 647-马来酰亚胺(赛默飞世尔公司)溶解在DMSO中至10mg/mL。将Cys-DogCatcher透析至TBS(pH7.4)中，并且在25℃下用1mM TCEP[三(2-羧乙基)膦]还原30分钟。将100μMCys-DogCatcher与3倍摩尔过量的染料:蛋白质一起孵育，并且在25℃下以颠倒旋转反应4hr。在25℃下用1mM DTT淬灭未反应的马来酰亚胺30min后，将样品在4℃下以16,000g离心5min以去除任何聚集体。使用Sephadex G-25树脂(默克公司)去除游离染料，并且在4℃下在PBS(pH 7.4)中透析三次，每次至少3小时。

细胞内钙测量

将HEK 293细胞在6孔板上以0.8×10⁶个细胞/孔铺板，持续24hr，然后转染。使用jetPRIME转染试剂(VWR)用pcDNA4/TO(空载体)、TRPC5-SYFP2、或TRPC5-DogTag-SYFP2的2μg DNA转染细胞。转染后24hr，将细胞以每孔60,000个细胞铺板至黑色透明底的96孔板(格瑞纳公司(Greiner))上，并使其粘附16-18hr。对于细胞内钙记录，将培养基去除，并且用含有2μM Fura-2 AM(赛默飞世尔公司)和0.01％(v/v)普朗尼克酸(pluronic acid)的SBS替换。SBS含有(以mM为单位)：NaCl 130、KCl 5、葡萄糖8、HEPES10、MgCl₂ 1.2、CaCl₂ 1.5，用NaOH滴定至pH 7.4。然后将细胞在37℃下孵育1hr。孵育后，去除Fura-2 AM并用新鲜SBS替换。将细胞在25℃下孵育30min。然后用记录缓冲液[SBS以及0.01％(v/v)普朗尼克酸和0.1％(v/v)DMSO，以匹配化合物缓冲液]替换SBS。对于确定DogCatcher标记对TRPC5功能的影响的实验，在Fura-2AM孵育后将细胞用SBS洗涤两次。添加含有或不含有5μM生物素-DogCatcher-MBP的SBS，并且将细胞在25℃下孵育30min。然后缓冲液被记录缓冲液替换。通过使用FlexStation3(分子仪器公司(Molecular Devices))使用340nm和380nm的激发以及510nm的发射测量细胞内钙。以5s的间隔记录5min。在60s时，激动剂(-)-englerin A(PhytoLab公司)从含有化合物缓冲液[SBS以及0.01％(v/v)普朗尼克酸和(-)-englerinA]的化合物板中添加至终浓度为30nM(图10A)或10nM(图10C)。

序列表

<110> 牛津大学创新有限公司（Oxford University Innovation Limited）

<120> 在环或末端处与肽标签相互作用的多肽及其用途

<130> P23116057WP

<150> GB2104999.4

<151> 2021-04-08

<160> 24

<170> PatentIn 3.5版

<210> 1

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> DogCatcher

<400> 1

Lys Leu Gly Glu Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Ile Glu Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 2

<211> 95

<212> PRT

<213> 人工序列

<220>

<223> DogCatcher截短

<400> 2

Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys Pro Leu Arg Gly

1 5 10 15

Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr Pro Asp Ile Tyr

20 25 30

Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val Arg Thr Gly Glu

35 40 45

Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly Lys Tyr Arg Leu

50 55 60

Ile Glu Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val Gln Asn Lys Pro

65 70 75 80

Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg Asp Val Thr

85 90 95

<210> 3

<211> 23

<212> PRT

<213> 人工序列

<220>

<223> DogTag

<400> 3

Asp Ile Pro Ala Thr Tyr Glu Phe Thr Asp Gly Lys His Tyr Ile Thr

1 5 10 15

Asn Glu Pro Ile Pro Pro Lys

20

<210> 4

<211> 19

<212> PRT

<213> 人工序列

<220>

<223> RrgATag

<400> 4

Asp Ile Pro Ala Thr Tyr Glu Phe Thr Asn Asp Lys His Tyr Ile Thr

1 5 10 15

Asn Glu Pro

<210> 5

<211> 23

<212> PRT

<213> 人工序列

<220>

<223> RrgATag2

<400> 5

Asp Ile Pro Ala Thr Tyr Glu Phe Thr Asn Gly Lys His Tyr Ile Thr

1 5 10 15

Asn Glu Pro Ile Pro Pro Lys

20

<210> 6

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> RrgACatcher

<400> 6

Lys Leu Gly Asp Ile Glu Phe Ile Lys Val Asn Lys Asn Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asn Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Lys Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Phe Glu Asn Ser Glu Pro Ala Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ala Phe Gln Ile Val Asn Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 7

<211> 312

<212> DNA

<213> 人工序列

<220>

<223> DogCatcher DNA

<400> 7

aaactgggcg agattgaatt tattaaagtg gacaaaaccg ataaaaagcc gctgcgtggt 60

gccgtgttta gcctgcagaa acagcatccc gactatcccg atatctatgg cgcgattgat 120

cagaatggga cctatcaaga tgtgcgtacc ggcgaagatg gtaaactgac ctttacgaat 180

ctgagcgatg gcaaatatcg cctgattgaa aatagcgaac ccccgggcta taaaccggtg 240

cagaataagc cgattgtgag ctttcgtatt gtggatggcg aagtgcgtga tgtgaccagt 300

attgtgccgc ag 312

<210> 8

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> RrgACatcherB

<400> 8

Lys Leu Gly Glu Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Phe Glu Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ala Phe Gln Ile Val Asp Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 9

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> 具有反应性修饰的RrgACatcher

<400> 9

Lys Leu Gly Asp Ile Glu Phe Ile Lys Val Asn Lys Asn Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asn Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Lys Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Ile Glu Asn Ser Glu Pro Ala Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ser Phe Arg Ile Val Asn Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 10

<211> 26

<212> PRT

<213> 人工序列

<220>

<223> 间隔子-SpyTag003-间隔子

<400> 10

Gly Gly Gly Gly Ser Arg Gly Val Pro His Ile Val Met Val Asp Ala

1 5 10 15

Tyr Lys Arg Tyr Lys Gly Gly Gly Gly Ser

20 25

<210> 11

<211> 33

<212> PRT

<213> 人工序列

<220>

<223> 间隔子-DogTag-间隔子

<400> 11

Gly Gly Gly Gly Ser Asp Ile Pro Ala Thr Tyr Glu Phe Thr Asp Gly

1 5 10 15

Lys His Tyr Ile Thr Asn Glu Pro Ile Pro Pro Lys Gly Gly Gly Gly

20 25 30

Ser

<210> 12

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 12

ggatccagtg gtagcgaaaa cctctac 27

<210> 13

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 13

catggcgccc tgatctcgag g 21

<210> 14

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 14

gacctcgaga tcagggcgcc atg 23

<210> 15

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 15

gaagtagagg ttttcgctac cactggatc 29

<210> 16

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> 接头

<400> 16

Gly Thr Ser Gly Ser Gly Gly Ser Gly

1 5

<210> 17

<211> 23

<212> PRT

<213> 人工序列

<220>

<223> R2Tag

<400> 17

Asp Ile Pro Ala Gly Tyr Glu Phe Thr Asn Asp Lys His Tyr Ile Thr

1 5 10 15

Asn Glu Pro Ile Pro Pro Lys

20

<210> 18

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> 亲和纯化多肽

<220>

<221> MISC_FEATURE

<222> (70)..(70)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 18

Lys Leu Gly Glu Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Ile Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 19

<211> 95

<212> PRT

<213> 人工序列

<220>

<223> 截短的亲和纯化多肽

<220>

<221> MISC_FEATURE

<222> (66)..(66)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 19

Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys Pro Leu Arg Gly

1 5 10 15

Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr Pro Asp Ile Tyr

20 25 30

Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val Arg Thr Gly Glu

35 40 45

Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly Lys Tyr Arg Leu

50 55 60

Ile Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val Gln Asn Lys Pro

65 70 75 80

Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg Asp Val Thr

85 90 95

<210> 20

<211> 131

<212> PRT

<213> 人工序列

<220>

<223> 亲和纯化多肽延伸

<220>

<221> MISC_FEATURE

<222> (97)..(97)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 20

Met Ser Tyr Tyr His His His His His His Asp Tyr Asp Ile Pro Thr

1 5 10 15

Thr Glu Asn Leu Tyr Phe Gln Gly Gly Cys Gly Lys Leu Gly Glu Ile

20 25 30

Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys Pro Leu Arg Gly Ala

35 40 45

Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr Pro Asp Ile Tyr Gly

50 55 60

Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val Arg Thr Gly Glu Asp

65 70 75 80

Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly Lys Tyr Arg Leu Ile

85 90 95

Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val Gln Asn Lys Pro Ile

100 105 110

Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg Asp Val Thr Ser Ile

115 120 125

Val Pro Gln

130

<210> 21

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> 亲和纯化多肽D31C

<220>

<221> MISC_FEATURE

<222> (70)..(70)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 21

Lys Leu Gly Glu Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Cys Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Ile Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 22

<211> 104

<212> PRT

<213> 人工序列

<220>

<223> 亲和纯化多肽Q41C

<220>

<221> MISC_FEATURE

<222> (70)..(70)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 22

Lys Leu Gly Glu Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys

1 5 10 15

Pro Leu Arg Gly Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr

20 25 30

Pro Asp Ile Tyr Gly Ala Ile Asp Cys Asn Gly Thr Tyr Gln Asp Val

35 40 45

Arg Thr Gly Glu Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly

50 55 60

Lys Tyr Arg Leu Ile Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val

65 70 75 80

Gln Asn Lys Pro Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg

85 90 95

Asp Val Thr Ser Ile Val Pro Gln

100

<210> 23

<211> 95

<212> PRT

<213> 人工序列

<220>

<223> 截短的亲和纯化多肽D27C

<220>

<221> MISC_FEATURE

<222> (66)..(66)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 23

Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys Pro Leu Arg Gly

1 5 10 15

Ala Val Phe Ser Leu Gln Lys Gln His Pro Cys Tyr Pro Asp Ile Tyr

20 25 30

Gly Ala Ile Asp Gln Asn Gly Thr Tyr Gln Asp Val Arg Thr Gly Glu

35 40 45

Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly Lys Tyr Arg Leu

50 55 60

Ile Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val Gln Asn Lys Pro

65 70 75 80

Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg Asp Val Thr

85 90 95

<210> 24

<211> 95

<212> PRT

<213> 人工序列

<220>

<223> 截短的亲和纯化多肽Q37C

<220>

<221> MISC_FEATURE

<222> (66)..(66)

<223> Xaa不是谷氨酸或天冬氨酸

<400> 24

Ile Glu Phe Ile Lys Val Asp Lys Thr Asp Lys Lys Pro Leu Arg Gly

1 5 10 15

Ala Val Phe Ser Leu Gln Lys Gln His Pro Asp Tyr Pro Asp Ile Tyr

20 25 30

Gly Ala Ile Asp Cys Asn Gly Thr Tyr Gln Asp Val Arg Thr Gly Glu

35 40 45

Asp Gly Lys Leu Thr Phe Thr Asn Leu Ser Asp Gly Lys Tyr Arg Leu

50 55 60

Ile Xaa Asn Ser Glu Pro Pro Gly Tyr Lys Pro Val Gln Asn Lys Pro

65 70 75 80

Ile Val Ser Phe Arg Ile Val Asp Gly Glu Val Arg Asp Val Thr

85 90 95

Claims

1.一种多肽，其包含：

i)如SEQ ID NO:1所示的氨基酸序列；

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的两个或更多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中如果所述氨基酸序列包含在位置75处的脯氨酸，它还包含选自1)-6)和8)-10)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:1中的位置的位置处；或者

iv)含有与如SEQ ID NO:2所示的序列具有至少80％序列同一性的氨基酸序列的(iii)的一部分，其中这些氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸以及以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

其中如果所述氨基酸序列包含在位置71处的脯氨酸，它还包含选自1)-5)和7)-9)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:2中的位置的位置处，

2.如权利要求1所述的多肽，其中所述多肽包含与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的三个或更多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:1中的位置的位置处。

3.如权利要求1所述的多肽，其中所述多肽包含与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、在位置75处的脯氨酸以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

4.如权利要求3所述的多肽，其中所述多肽进一步包含以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；以及

6)在位置92处的天冬氨酸；

5.一种多肽，其包含：

i)如SEQ ID NO:1所示的氨基酸序列；

ii)含有如SEQ ID NO:2所示的氨基酸序列的(i)的一部分；

iii)与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

iv)含有与如SEQ ID NO:2所示的序列具有至少80％序列同一性的氨基酸序列的(iii)的一部分，其中所述氨基酸序列包含在位置5处的赖氨酸、在位置66处的谷氨酸、以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

6.如权利要求5所述的多肽，其中所述多肽包含与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、以下中的两个或更多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

7.如权利要求1至6中任一项所述的多肽，其中所述多肽包含与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸、在位置75处的脯氨酸、以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；以及

6)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

其中这些指定的氨基酸残基在等同于SEQ ID NO:1中的位置的位置处，

8.如权利要求1至7中任一项所述的多肽，其中所述多肽包含与如SEQ ID NO:1所示的序列具有至少80％序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置9处的赖氨酸、在位置70处的谷氨酸以及以下中的全部：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

9.如权利要求1至8中任一项所述的多肽，其中所述多肽与以下缀合：核酸分子、蛋白质、肽、小分子有机化合物、荧光团、金属配体络合物、多糖、纳米颗粒、2D单层(例如石墨烯)、脂质、纳米管、聚合物、细胞、病毒、病毒样颗粒、病毒载体或其组合。

10.一种多肽，其包含：

iii)与如SEQ ID NO:18所示的序列具有至少80％序列同一性的氨基酸序列，其中在位置70处的X不是谷氨酸或天冬氨酸，任选地其中在位置70处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸，并且其中所述氨基酸序列包含以下中的一个或多个：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置69处的异亮氨酸；

7)在位置75处的脯氨酸；

8)在位置87处的丝氨酸；

9)在位置89处的精氨酸；以及

10)在位置92处的天冬氨酸；

其中如果所述氨基酸序列包含在位置75处的脯氨酸，它还包含选自1)-6)和8)-10)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:18中的位置的位置处；或者

iv)含有与如SEQ ID NO:19所示的序列具有至少80％序列同一性的氨基酸序列的(iii)的一部分，其中在位置66处的X不是谷氨酸或天冬氨酸，任选地其中在位置66处的X选自丙氨酸、甘氨酸、丝氨酸、天冬酰胺、或苏氨酸，并且其中所述氨基酸序列包含以下中的一个或多个：

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置65处的异亮氨酸；

6)在位置71处的脯氨酸；

7)在位置83处的丝氨酸；

8)在位置85处的精氨酸；以及

9)在位置88处的天冬氨酸；

其中如果所述氨基酸序列包含在位置71处的脯氨酸，它还包含选自1)-5)和7)-9)的一个或多个氨基酸残基，并且其中这些指定的氨基酸残基在等同于SEQ ID NO:19中的位置的位置处，

并且其中所述多肽与包含如SEQ ID NO:3所示的氨基酸序列的肽选择性地和可逆地结合。

11.一种多肽，其包含：

1)在位置4处的谷氨酸；

2)在位置11处的天冬氨酸；

3)在位置13处的苏氨酸；

4)在位置47处的天冬氨酸；

5)在位置59处的苏氨酸；

6)在位置75处的脯氨酸；以及

7)在位置92处的天冬氨酸；

以及以下中的一个或多个：

1)在位置69处的异亮氨酸；

2)在位置87处的丝氨酸；以及

3)在位置89处的精氨酸；

1)在位置7处的天冬氨酸；

2)在位置9处的苏氨酸；

3)在位置43处的天冬氨酸；

4)在位置55处的苏氨酸；

5)在位置71处的脯氨酸；以及

6)在位置88处的天冬氨酸；

以及以下中的一个或多个：

1)在位置65处的异亮氨酸；

2)在位置83处的丝氨酸；以及

3)在位置85处的精氨酸；

12.如权利要求10或11所述的多肽，其中所述多肽包含与如SEQ ID NO:18或19所示的序列具有至少80％序列同一性的氨基酸序列，并且其中所述氨基酸序列在等同于SEQ IDNO:18的位置9或SEQ ID NO:19的位置5的位置处包含赖氨酸。

13.如权利要求10至12中任一项所述的多肽，其中所述多肽包含含有半胱氨酸残基的另外的N-末端或C-末端序列。

14.如权利要求10至12中任一项所述的多肽，其中所述多肽包含与如SEQ ID NO:18或19所示的序列具有至少80％序列同一性的氨基酸序列，其中所述多肽包含半胱氨酸残基。

15.如权利要求14所述的多肽，其中所述半胱氨酸残基在等同于SEQ ID NO:18的位置31或41的位置处或者在等同于SEQ ID NO:19的位置27或37的位置处。

16.如权利要求1至15中任一项所述的多肽，其中所述多肽固定在固体基底上。

17.如权利要求1至16中任一项所述的多肽，其中所述多肽经由共价键固定在固体基底上。

18.如权利要求10至15中任一项所述的多肽，其中所述多肽经由在半胱氨酸残基与固体基底之间的共价键固定在固体基底上。

19.一种重组或合成多肽，其包含与如权利要求1至18中任一项所述的多肽连接的肽或多肽。

20.一种核酸分子，其包含编码如权利要求1至8或10至18中任一项所述的多肽或如权利要求19所述的重组多肽的核苷酸序列。

21.一种载体，其包含如权利要求20所述的核酸分子。

22.一种细胞，其包含如权利要求20所述的核酸分子或如权利要求21所述的载体。

23.一种用于产生或表达如权利要求1至8或10至18中任一项所述的多肽或如权利要求19所述的重组多肽的方法，所述方法包括以下步骤：

a)用如权利要求21所述的载体转化或转染宿主细胞；

b)在允许所述多肽表达的条件下培养所述宿主细胞；以及任选地

c)分离该多肽。

24.如权利要求1至9或16中任一项所述的多肽将两个分子或组分经由异肽键缀合的用途，

其中经由异肽键缀合的所述分子或组分包含：

a)含有如权利要求1至9或16中任一项所述的多肽的第一分子或组分；以及

b)含有选自以下的肽的第二分子或组分：

(ii)包含与如SEQ ID NO:3-5或17中的任一个所示的序列具有至少80％序列同一性的氨基酸序列的肽，其中所述氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基，

并且其中所述肽能够与包含如SEQ ID NO:1所示的氨基酸序列的多肽自发形成异肽键，其中所述异肽键在SEQ ID NO:3、4、5或17的位置17处的天冬酰胺残基与在SEQ ID NO:1的位置9处的赖氨酸残基之间形成。

25.如权利要求24所述的用途，其中所述第二分子或组分包含在内部位点处的所述肽。

26.如权利要求24或25所述的用途，其中所述第二分子或组分是蛋白质，并且其中所述蛋白质包含在环内的所述肽。

27.一种用于将两个分子或组分经由异肽键缀合的方法，所述方法包括：

a)提供包含如权利要求1至9或16中任一项所述的多肽的第一分子或组分；

b)提供包含选自以下的肽的第二分子或组分：

c)在能够在所述多肽与肽之间自发形成异肽键的条件下使所述第一分子或组分和第二分子或组分接触，从而经由异肽键将所述第一分子或组分与所述第二分子或组分缀合以形成络合物。

28.如权利要求27所述的方法，其中所述第二分子或组分包含在内部位点处的所述肽。

29.如权利要求27或28所述的方法，其中所述第二分子或组分是蛋白质，并且其中所述蛋白质包含在环内的所述肽。

30.一种试剂盒，其优选地用于在如权利要求24至26中任一项所述的用途或如权利要求27至29中任一项所述的方法中使用，其中所述试剂盒包含：

(a)如权利要求1至9或16中任一项所述的多肽，所述多肽任选地与分子或组分缀合或融合；以及

(b)选自以下的肽，所述肽任选地与分子或组分缀合或融合：

其中所述肽能够与包含如SEQ ID NO:1所示的氨基酸序列的多肽自发形成异肽键，其中所述异肽键在SEQ ID NO:3、4、5或17的位置17处的天冬酰胺残基与在SEQ ID NO:1的位置9处的赖氨酸残基之间形成，所述肽任选地与分子或组分缀合或融合；和/或

(c)编码如(a)所定义的多肽的核酸分子，特别是载体；和/或

(d)编码如(b)所定义的肽的核酸分子，特别是载体。

31.如权利要求24至26中任一项所述的用途，如权利要求27至29中任一项所述的方法或如权利要求30所述的试剂盒，其中所述肽选自：

(i)包含如SEQ ID NO:3所示的氨基酸序列的肽；以及

(ii)包含与如SEQ ID NO:3所示的序列具有至少80％序列同一性的氨基酸序列的肽，其中所述氨基酸序列包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基以及在位置17处的天冬酰胺残基，

其中这些指定的氨基酸残基在等同于SEQ ID NO:3中的位置的位置处。

32.一种用于纯化或分离分子或组分的方法，所述分子或组分包含具有与如SEQ IDNO:3-5或17中的一个所示的序列具有至少80％序列同一性的氨基酸序列的肽，其中所述氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基，所述方法包括：

a)提供固体基底，所述固体基底上固定如权利要求10至15中任一项所述的多肽；

b)提供包含所述分子或组分的样品；

c)在能够将所述肽与所述多肽选择性地结合的条件下使a)的固体基底与b)的样品接触，从而在固定在所述固体基底上的所述多肽与包含所述肽的分子或组分之间形成非共价络合物；

d)将所述固体基底用缓冲液洗涤；

e)将包含所述肽的所述分子或组分与固定在所述固体基底上的所述多肽分离。

33.如权利要求10至18中任一项所述的多肽用于纯化或分离分子或组分的用途，所述分子或组分包含具有与如SEQ ID NO:3-5或17中的一个所示的序列具有至少80％序列同一性的氨基酸序列的肽，其中所述氨基酸序列包含在位置17处的天冬酰胺残基，并且任选地包含在位置5处的苏氨酸残基、在位置10处的天冬氨酸残基以及在位置11处的甘氨酸残基。

34.一种设备，其用于在如权利要求32所述的方法或如权利要求33所述的用途中使用，所述设备包含固体基底，所述固体基底上固定如权利要求10至15中任一项所述的多肽。

35.一种试剂盒，其用于在制备固体基底中使用，所述固体基底上固定如权利要求10至15中任一项所述的多肽，所述试剂盒包含：

a)如权利要求10至15中任一项所述的多肽；以及

b)用于将a)的多肽固定在固体基底上的方法。

36.如任一前述权利要求所述的用途、方法或试剂盒，其中所述肽包含如SEQ ID NO:3所示的氨基酸序列。