CN110709412B

CN110709412B - 自发性异肽键形成速率提高的蛋白质和肽标签及其用途

Info

Publication number: CN110709412B
Application number: CN201880027190.2A
Authority: CN
Inventors: M·豪沃思; A·基布尔
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxford University Innovation Ltd
Priority date: 2017-04-24
Filing date: 2018-04-24
Publication date: 2024-05-24
Anticipated expiration: 2038-04-24
Also published as: KR20190141229A; US11873323B2; AU2018258000A1; EP3615556B1; US20200131233A1; KR102642896B1; CN118580325A; US11059867B2; DK3615556T3; EP3615556A1; GB201706430D0; ES2887004T3; AU2018258000B2; CN110709412A; CA3060025A1; US20220119459A1; WO2018197854A1

Abstract

本发明涉及包含肽标签(肽)和多肽(蛋白质)的两部分接头，其能够自发形成异肽键，特别是其中：a)所述肽包含SEQ ID NO：1所示的氨基酸序列，其中：(i)在位置1处的X是精氨酸或无氨基酸；(ii)在位置2处的X是甘氨酸或无氨基酸；(iii)在位置5处的X是组氨酸或苏氨酸；(iv)在位置11处的X是丙氨酸、甘氨酸或缬氨酸；以及(v)在位置14处的X是精氨酸或赖氨酸，其中当在位置1处的X无氨基酸时，在位置2处的X无氨基酸；并且b)所述多肽包含：i)SEQ ID NO：2所示的氨基酸序列；ii)包含SEQ ID NO：101所示的氨基酸序列的(i)的一部分；iii)与SEQ ID NO：2所示的序列具有至少80％的序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置34处的赖氨酸、在位置80处的谷氨酸和以下中的一个或多个：1)在位置5处的苏氨酸；2)在位置16处的脯氨酸；3)在位置40处的精氨酸；4)在位置65处的组氨酸；5)在位置92处的脯氨酸；6)在位置100处的天冬氨酸；7)在位置108处的谷氨酸；8)在位置116处的苏氨酸，其中指定的氨基酸残基位于与SEQ ID NO：2中的位置等同的位置；或iv)包含与SEQ ID NO：101所示序列具有至少80％的序列同一性的氨基酸序列的(iii)的一部分，其中所述氨基酸序列在位置10处包含赖氨酸，在位置56处包含谷氨酸和以下中的一个或多个：1)在位置16处的精氨酸；2)在位置41处的组氨酸；3)在位置68处的脯氨酸；和4)在位置76处的天冬氨酸，其中指定的氨基酸残基位于与SEQ ID NO：101中的位置等同的位置，并且其中所述肽和多肽能够在SEQ ID NO：1的位置10处的天冬氨酸残基和SEQ ID NO：2的位置34处或SEQ ID NO：101的位置10处的赖氨酸残基之间自发形成异肽键。

Description

自发性异肽键形成速率提高的蛋白质和肽标签及其用途

技术领域

本发明涉及两部分接头，其包含肽标签和多肽(蛋白质)，其能够自发形成异肽键。特别地，本发明的两部分接头可以看作是肽标签和多肽结合伴侣同源物对，当在允许肽标签与其多肽结合伴侣之间自发形成异肽键的条件下接触时，所述同源物对可以通过共价键缀合。还提供了编码所述两部分接头(即肽标签和多肽结合伴侣)的所述每部分的核酸分子、包含所述核酸分子的载体以及包含所述载体和核酸分子的宿主细胞。还提供了包含所述两部分接头(即肽标签和多肽结合伴侣)和/或核酸分子/载体的试剂盒。还提供了产生所述两部分接头(即肽标签和多肽结合伴侣)的方法以及本发明的两部分接头的用途。

背景技术

细胞功能取决于大量可逆的非共价蛋白质-蛋白质相互作用，蛋白质在复合物中的精确排列会影响并决定其功能。因此，工程共价蛋白-蛋白相互作用的能力可以为基础研究、合成生物学和生物技术带来一系列新的机会。特别地，两种或更多种蛋白质的缀合以形成所谓的“融合蛋白”可以产生具有有用特性的分子。例如，将一种蛋白质聚集在一起通常会大大增强生物信号，例如疫苗上的重复抗原结构。具有不同活性的聚集蛋白也可以产生具有改善的活性的复合物，例如，通过酶的底物通道效应(substrate channeling byenzymes)。

通常，共价蛋白相互作用是通过二硫键介导的，但是二硫键是可逆的，不适用于还原性细胞区室，并且可以干扰蛋白折叠。肽标签是蛋白质分析和修饰的便捷工具，因为它们的小尺寸可最大程度地减少对蛋白质功能的干扰。肽标签易于遗传编码，其小尺寸可减少干扰其他相互作用的扰乱、生物合成的成本和免疫原性的引入。然而，肽标签与其肽或多肽结合伴侣之间的相互作用很少具有高亲和力，这限制了它们在稳定复合物形成中的效用。

能够自发形成异肽键的蛋白质(所谓的“异肽蛋白”)已被有利地用于开发肽标签/多肽结合伴侣对(即两部分接头)，其彼此共价结合并提供不可逆的相互作用(参见例如WO2011/098772和WO 2016/193746，都通过引用并入本文)。在这方面，能够自发形成异肽键的蛋白质可以表达为单独的片段，以给出肽标签和该肽标签的多肽结合伴侣，其中该两个片段能够通过异肽键形成而共价重构，从而与肽标签及其多肽结合伴侣融合的分子或组分的连接。由肽标签及其多肽结合伴侣形成的异肽键在非共价相互作用会迅速解离的条件下是稳定的，这些条件例如是经过长时间(例如数周)、高温(至少95℃)、强力或经过严格的化学处理(例如pH 2-11，有机溶剂、清洁剂或变性剂)。

异肽键是在羧基/羧酰胺和氨基之间形成的酰胺键，其中羧基或氨基中的至少一个在蛋白质主链(蛋白质的骨架)之外。这样的键在典型的生物学条件下是化学不可逆的，并且它们对大多数蛋白酶具有抗性。由于异肽键本质上是共价键，因此可导致某些最强的蛋白质相互作用。

简而言之，两部分接头，即肽标签及其多肽结合伴侣(所谓的肽标签/结合伴侣对)可以衍生自能够自发形成异肽键的蛋白质(异肽蛋白质)，其中该蛋白质的结构域分别表达以产生包含一个与异肽键有关的残基(例如天冬氨酸或天冬酰胺)的肽标签以及包括在该异肽键中涉及的另一个残基(例如赖氨酸)和至少一个形成异肽键所需的至少一个其他残基(例如谷氨酸)的肽或多肽结合伴侣(或“捕获剂”)。混合肽标签和结合伴侣会导致标签和结合伴侣之间自发形成异肽键。因此，通过将肽标签和结合伴侣分别融合到不同的分子或组分(例如蛋白质)上，可以通过在该肽标签和结合伴侣之间形成的异肽键将所述分子或组分共价连接在一起，即在与肽标签和结合伴侣融合的分子或组分之间形成接头。

肽标签/结合伴侣对(两部分接头)，称为谍标签/谍捕获剂(SpyTag/SpyCatcher)，源自于化脓性链球菌FbaB蛋白质的CnaB2结构域(Zakeri等,2012,Proc Natl Acad Sci US A 109,E690-697)，并且用于多种应用，包括生物材料(Botyanszki等,2015,Biotechnology and bioengineering 112,2016-2024；Chen等,2014,Proc Natl Acad SciU S A 108,11399-11404)、下一代测序(Stranges等,2016,Proc Natl Acad Sci U S A113,E6749-E6756)、酶稳定作用(Schoene等,2016,Scientific reports 6,21151)和疫苗开发(Brune等,2016,Scientific reports 6,19234；Thrane等,2016,Journal ofnanobiotechnology 14,30)。但是，虽然谍标签和谍捕获剂之间的异肽键形成的速度对于纯化的成分是令人满意的，但该速度在细胞表达水平上受到限制。

因此，需要开发接头，例如肽标签(“标签”)和多肽结合伴侣(“捕获剂”)对，其具有与衍生自异肽蛋白(即肽标签和多肽结合伴侣)的标签/捕获剂系统相关的有利特性，形成了如上所述的稳定而强大的共价键，其反应速率足够高以使得能够在低浓度下、特别是在细胞表达水平下有效反应。

本发明人惊奇地确定，通过修饰(即突变)谍标签肽和谍捕获剂多肽(分别为SEQID NO：6和7)的氨基酸序列，可以显著提高谍标签和谍捕获剂肽的反应速率。如实施例中详细讨论的，需要许多步骤来确定谍标签和谍捕获剂的反应速率是否可以提高，如果可以，则对谍标签肽和谍捕获剂多肽的哪些修饰将增加反应速率而不会对肽标签和结合伴侣对的其他理想特性产生不利影响。

首先，发明人必须确定能够成功筛选改善谍标签和谍捕获剂，即谍标签肽(SEQ IDNO：6)和谍捕获剂多肽(SEQ ID NO：7)中的残基可以被修饰而基本上不降低反应速率的程度。假设谍标签肽的活性主要由一些“锚定”残基决定。由于锚定残基的突变很可能掩盖了其他位置的突变对反应速率仅产生中等程度积极影响的影响，因此假定生成肽标签的突变体文库，其中序列中任何位置均允许突变，这实际上会降低鉴定具有改进活性的肽的可能性。因此，发明人选择了谍标签的两个N末端残基和谍标签的六个C末端残基进行修饰，并确定允许在N末端和/或C末端添加残基。建立了随机突变的谍捕获剂多肽库，用于筛选方法。在这方面，难以基于谍捕获剂的晶体结构设计突变，因为并非所有残基都在晶体结构中可见。

其次，发明人确定N端和C端的谍标签突变体应单独筛选，并设计合适的筛选方法以鉴定具有改进活性的突变谍标签肽和谍捕获剂多肽。因此，产生了两个在谍标签的N-或C-末端具有突变的文库的子集，并针对其提高的活性在使用谍捕获剂作为诱饵的噬菌体展示系统中进行了筛选。使用谍捕获剂突变体库(使用谍标签作为诱饵)进行单独的筛选。

在噬菌体展示系统中选择参数的设计并不简单。在这方面，假设谍标签肽和谍捕获剂多肽相互作用的速率可能限制反应速率。因此，开发合适的筛选系统需要选择反应条件，在该条件下谍标签肽和谍捕获剂多肽之间的反应速率不是最佳的。谍标签和谍捕获剂之间的反应速度最快的反应条件(例如pH、温度等)的使用将分别阻碍检测突变肽和多肽相对于谍标签和谍捕获剂的反应性差异。

鉴定突变体肽和多肽的另一关键来自条件设计，该条件用于从由异肽键连接的复合物中分离通过非共价键相连的未反应的突变型标签-捕获剂复合物。如实施例中所述，将低pH缓冲液和蛋白酶处理的组合用于分离非共价和共价复合物，从而确保仅能够与它们各自的伴侣自发形成异肽键的突变肽和多肽针对分析和进一步的修饰进行选择。

在这方面，相对于谍标签和谍捕获剂具有改进的反应速率的突变体“标签”和“捕获剂”的开发需要设计和引入的各种其他修饰(即突变)至从筛选过程中鉴定出的突变体肽和多肽。当与它们的未突变伴侣发生反应时，修饰不仅导致突变的“标签”和“捕获剂”多肽具有提高的反应速率(例如，与未突变的谍捕获剂反应的突变标签的增加＞6倍，且与未突变谍标签反应的突变捕获剂的增加＞3倍)，但令人惊讶地确定，当一起使用时，突变对突变体“标签”和“捕获剂”的反应速率的效果是累积的(即相对于所述谍标签和谍捕获剂对，突变体标签和捕获剂对在反应速度方面的增加＞10倍)。因此，有利的是，本发明的突变标签和捕获剂(即两部分接头)在低浓度下特别有用。如下文进一步讨论的，在其中标签和/或捕获剂融合到可能减慢反应的分子或组分(例如大蛋白)的反应中，以及在融合至本发明的突变标签和/或捕获物的分子或组分引起空间位阻的反应中，本发明的突变标签和捕获物的改进的速率常数也是有利的。而且，提高反应速度所需的修饰不会影响与谍标签和谍捕获剂相关的其他有用性质，即热稳定性、跨越一定范围的pH值和温度下以及在宽范围的缓冲液中(包括存在去污剂，以及在大肠杆菌中高效表达)的反应。

发明内容

因此，一方面，本发明因此提供了一种肽，即肽标签，其包含如SEQ ID NO：1所示的氨基酸序列，其中：

(i)在位置1处的X是精氨酸或无氨基酸；

(ii)在位置2处的X是甘氨酸或无氨基酸；

(iii)在位置5处的X是苏氨酸或组氨酸，优选是组氨酸；

(iv)在位置11处的X是丙氨酸、甘氨酸或缬氨酸，优选是丙氨酸；以及

(v)在位置14处的X是精氨酸或赖氨酸，优选是精氨酸，

其中当在位置1处的X无氨基酸时，在位置2处的X无氨基酸；并且

并且其中所述肽(肽标签)能够与包含SEQ ID NO：2所示的氨基酸序列的多肽(即多肽结合伴侣)自发形成异肽键，其中所述异肽键形成在SEQ ID NO：1的位置10处的天冬氨酸残基与SEQ ID NO：2的位置34处的赖氨酸残基之间。

因此，相对于原始的谍标签肽，本发明的肽标签包含至少四个(例如五个或六个)修饰(例如添加和取代)。

如以下实施例中所述，相对于谍标签，在N端筛选中鉴定出的先导突变体肽标签(谍标签变体肽)包含3个N端氨基酸，并确定可以去除其中的两个残基而不会显著影响肽的反应速率。因此，在一些实施方案中，本发明的肽标签在SEQ ID NO：1的位置1和2处不包含氨基酸，即，当位置1处的X没有氨基酸时，位置2处的X没有氨基酸，并且当位置2处的氨基酸没有氨基酸时，位置1处的X没有氨基酸。另一方面，在一些实施方案中，肽标签包含SEQ IDNO：8所示的氨基酸序列或由其组成，其中：

(i)在位置3处的X是苏氨酸或组氨酸，优选是组氨酸；

(ii)在位置9处的X是丙氨酸、甘氨酸或缬氨酸，优选是丙氨酸；和

(iii)第位置12处的X为精氨酸或赖氨酸，优选是精氨酸。

然而，发明人已经确定，在N-末端包含精氨酸和甘氨酸残基进一步提高了谍标签变体的反应速率。因此，在优选的实施方案中，本发明的肽标签包含SEQ ID NO：1所示的氨基酸序列，其中：

(i)在位置1处的X是精氨酸；

(ii)在位置2处的X是甘氨酸；

(iii)在位置5处的X是苏氨酸或组氨酸，优选是组氨酸；

(v)在位置14处的X是精氨酸或赖氨酸，优选是精氨酸，

另一方面，在一些实施方案中，肽标签包含SEQ ID NO：9所示的氨基酸序列或由其组成，其中：

(i)在位置5处的X是苏氨酸或组氨酸，优选是组氨酸；

(ii)在位置11处的X是丙氨酸、甘氨酸或缬氨酸，优选是丙氨酸；以及

(iii)在位置14处的X是精氨酸或赖氨酸，优选是精氨酸。

考虑到可以容许在SEQ ID NO：1和9的位置11和14处(等同于SEQ ID NO：8的位置9和12处)的保守取代，而不会显著影响肽标签的活性。然而，在一些实施方案中，优选SEQ IDNO：1和9的位置11处(等同于SEQ ID NO：8的位置9)是丙氨酸和/或SEQ ID NO：1和9的14位(等同于SEQ ID NO：8的位置12)是精氨酸。

在实施例中所述的N-末端筛选中鉴定的先导突变体肽标签(谍标签变体肽)在位置3处含有缬氨酸残基，在位置5处含有苏氨酸残基(使用SEQ ID NO：1的编号)，其分别对应于在谍标签(SEQ ID NO：6)中的位置-1和2。假设从筛选过程中鉴定出的每个氨基酸突变都有助于改善谍标签变体肽的活性，但发明人查询了谍标签变体肽中的非保守突变。在这方面，SEQ ID NO：1的位置3处的缬氨酸残基代表相对于化脓链球菌FbaB蛋白(谍标签衍生于该蛋白)的CnaB2结构域的等同位置上的天冬氨酸残基的非保守突变。此外，相对于谍标签中等同位置处的组氨酸残基，SEQ ID NO：1的位置5处的苏氨酸残基代表了非保守取代。令人惊讶地，发明人确定缬氨酸残基对于谍标签变体的活性改善是必不可少的，因为其缺失显著降低了活性。此外，在SEQ ID NO：1的位置5处用组氨酸取代苏氨酸残基(即回复至谍标签序列)出人意料地提高了活性。

因此，在优选的实施方案中，本发明的肽标签包含SEQ ID NO：1所示的氨基酸序列，其中：

(i)在位置1处的X是精氨酸；

(ii)在位置2处的X是甘氨酸；

(iii)在位置5处的X是组氨酸；

(v)在位置14处的X是精氨酸或赖氨酸，优选是精氨酸，

另一方面，在一些实施方案中，本发明的肽标签包含SEQ ID NO：10所示的氨基酸序列，其中：

(i)在位置11处的X是丙氨酸、甘氨酸或缬氨酸，优选是丙氨酸；

(ii)在位置14处的X是精氨酸或赖氨酸，优选是精氨酸。

因此，在一些实施方案中，本发明的肽标签包含SEQ ID NO：3、4或5所示的氨基酸序列，优选SEQ ID NO：4或5所示的氨基酸序列，最优选SEQ ID NO：5所示的氨基酸序列。

如上所述，噬菌体展示筛选鉴定了相对于谍捕获剂具有改进的活性的变体(即，突变体)多肽(肽标签结合伴侣或捕获剂)。考虑本发明(SEQ ID NO：2，即谍捕获剂多肽变体)的多肽(肽标签结合伴侣)中的每个取代相对于谍捕获剂氨基酸序列(SEQ ID NO：7)可以分别提高多肽(肽标签结合伴侣)的活性。

此外，考虑到谍捕获剂多肽可以在其N末端和C末端被截短而不显著影响其活性的事实(Li等,2014,J Mol Biol.；426(2):309–317)，预期本文举例的多肽(即SEQ ID NO：2)可以在N-末端和/或C-末端被截短而不显著降低多肽的活性。特别地，SEQ ID NO：2可以在N端被截短多达24个氨基酸(例如5、10、15或20个氨基酸)和/或在C端被截短多达9个氨基酸(例如1、2、3、4、5、6、7、8或9个氨基酸)。

因此，在另一方面，本发明提供了一种多肽(肽标签结合伴侣)，其包括：

i)SEQ ID NO：2所示的氨基酸序列；

ii)包含SEQ ID NO：101所示的氨基酸序列的(i)的一部分；

iii)与SEQ ID NO：2所示的序列具有至少80％的序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置34处的赖氨酸、在位置80处的谷氨酸和以下中的一个或多个：

1)在位置5处的苏氨酸；

2)在位置16处的脯氨酸；

3)在位置40处的精氨酸；

4)在位置65处的组氨酸；

5)在位置92处的脯氨酸；

6)在位置100处的天冬氨酸；

7)在位置108处的谷氨酸；和

8)在位置116处的苏氨酸，

其中指定的氨基酸残基位于与SEQ ID NO：2中的位置等同的位置；或

iv)包含与SEQ ID NO：101所示序列具有至少80％(例如与SEQ ID NO：101所示序列至少85％、90％、95％、96％、97％、98％或99％相同)的序列同一性的氨基酸序列的(iii)的一部分，其中所述氨基酸序列包含在位置10处(或等同于SEQ ID NO：2中位置34的位置)的赖氨酸、在位置56处(或等同于SEQ ID NO：2中位置80的位置)的谷氨酸和以下中的一个或多个：

1)在位置16处(或等同于SEQ ID NO：2中位置40的位置)的精氨酸；

2)在位置41处(或等同于SEQ ID NO：2中位置65的位置)的组氨酸；

3)在位置68处(或等同于SEQ ID NO：2中位置92的位置)的脯氨酸；

4)在位置76处(或等同于SEQ ID NO：2中位置100的位置)的天冬氨酸，

其中指定的氨基酸残基位于与SEQ ID NO：101(或SEQ ID NO：2)中的位置等同的位置，

并且其中所述多肽能够与包含SEQ ID NO：5所示氨基酸序列的肽(肽标签)自发形成异肽键，其中所述异肽键形成在SEQ ID NO：5的位置10处的天冬氨酸残基和SEQ ID NO：2的位置34处或SEQ ID NO：101的位置10处的赖氨酸残基之间。

在本发明的多肽(肽标签结合伴侣)变体(即与序列同一性相关的多肽及其部分)不包含上述指定的所有残基的实施方案中，优选除位置5(下文讨论)外，所述变体在指定的位置包含在谍捕获剂肽(SEQ ID NO：7)的等同位置的氨基酸残基。通过比较多肽(肽标签结合伴侣)变体的氨基酸序列与SEQ ID NO：7，例如使用BLASTP算法，可以容易地确定等同位置。

因此，举例来说，在其中本发明的多肽(肽标签结合伴侣)包含与SEQ ID NO：2所示的序列具有至少80％的序列同一性的氨基酸序列的实施方案中，如果在位置16(或等同位置)处的残基不是脯氨酸，优选该残基是谷氨酰胺。类似地，如果在位置40(或等同位置)处的残基不是精氨酸，则优选该残基为赖氨酸。如果在位置65(或等同位置)处的残基不是组氨酸，则优选该残基是谷氨酰胺。如果在位置92(或等同位置)处的残基不是脯氨酸，则优选该残基是丙氨酸。如果在位置100(或等同位置)处的残基不是天冬氨酸，则优选该残基是谷氨酰胺。如果在位置108(或等同位置)处的残基不是谷氨酸，则优选该残基是赖氨酸。如果在位置116(或等同位置)处的残基不是苏氨酸，则优选该残基是异亮氨酸。

在一些实施方案中，本发明的多肽(肽标签结合伴侣)变体可以与SEQ ID NO：2相差例如1至50、1至45、1至40、1至35、1至30、1至25、1至20、1至15、1至10、1至8、1至6、1至5、1至4，例如1、2或3个氨基酸的取代、插入和/或缺失，优选1至23、1至20、1至15、1至10、1至8、1至6、1至5、1至4，例如1、2至3个氨基酸取代和/或1至33、1至30、1至25、1至20、1至15、1至10、1至8、1至6、1至5、1至4，例如1、2或3个氨基酸缺失。如下所述，在一些实施方案中，优选缺失在N-和/或C-末端，即截短，从而产生如上定义的SEQ ID NO：2的多肽部分。

在一些实施方案中，相对于示例性多肽(SEQ ID NO：2)存在于本发明的多肽(肽标签结合伴侣)中的任何突变可以是保守氨基酸取代。保守氨基酸取代是指氨基酸被另一种氨基酸取代而保留了多肽的理化特性(例如D可以用E代替，反之亦然，N可以用Q代替，L或I可以用V代替，反之亦然)。因此，通常，取代的氨基酸与被取代的氨基酸具有相似的特性，例如疏水性、亲水性、电负性、侧链体积等。天然L-氨基酸的异构体例如D-氨基酸可以掺入。

因此，在其中本发明的多肽(肽标签结合伴侣)变体不包含以上指定的所有残基(即，相对于SEQ ID NO：7的SEQ ID NO：2中的所有突变)的一些实施方案中，除位置5外，在指定位置该变体可在谍捕获剂肽(SEQ ID NO：7)的等同位置上包含氨基酸残基的保守取代。因此，例如，如果位置16(或等同位置)处的残基不是脯氨酸或谷氨酰胺，则优选该残基为天冬酰胺。

因此，在一些实施方案中，本发明的多肽(肽标签结合伴侣)可包含与SEQ ID NO：2所示的序列具有至少80％的序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置34处的赖氨酸、在位置80处的谷氨酸和以下任意两个、三个、四个、五个、六个、七个或八个：

1)在位置5处的苏氨酸；

2)在位置16处的脯氨酸；

3)在位置40处的精氨酸；

4)在位置65处的组氨酸；

5)在位置92处的脯氨酸；

6)在位置100处的天冬氨酸；

7)在位置108处的谷氨酸；和

8)在位置116处的苏氨酸，

其中指定的氨基酸残基位于与SEQ ID NO：2中的位置等同的位置。

如以下实施例中所述，发明人意外地确定了多肽(肽标签结合伴侣)突变体(即变体)的位置5(基于SEQ ID NO：2和SEQ ID NO：7的编号)上存在天冬氨酸残基，其在噬菌体展示筛选中确定，导致形成不需要的副反应-多肽(肽标签结合伴侣)二聚体，其中多肽通过异肽键缀合。显示位置5的天冬氨酸残基突变为苏氨酸或丙氨酸可消除不需要的副反应，并进一步提高多肽(肽标签结合伴侣)活性的速率。因此，在一些实施方案中，本发明的多肽(肽标签结合伴侣)可包含与SEQ ID NO：2所示的序列具有至少80％的序列同一性的氨基酸序列，其中所述氨基酸序列包含在位置5处的苏氨酸、在位置34处的赖氨酸、在位置80处的谷氨酸和以下一个或多个：

1)在位置16处的脯氨酸；

2)在位置40处的精氨酸；

3)在位置65处的组氨酸；

4)在位置92处的脯氨酸；

5)在位置100处的天冬氨酸；

6)在位置108处的谷氨酸；和

7)在位置116处的苏氨酸，

考虑本发明的多肽(肽标签结合伴侣)可包含以上所定义的指定氨基酸残基的任何一个或任何组合(例如，两个、三个、四个、五个、六个或七个上述指定的氨基酸残基的任何组合)，例如1)和2)、1)和3)、1和4)、1)和5)、1)和6)、1)和7)、1)和8)、2)和3)、2)和4)等，1)、2)和3)，1)、3)和4)，1)、3)和5)等。但是，一些特别优选的组合包括：

a)1)在位置5处的苏氨酸；

2)在位置16处的脯氨酸；

3)在位置34处的赖氨酸；

4)在位置40处的精氨酸；

5)在位置65处的组氨酸；

6)在位置80处的谷氨酸

7)在位置108处的谷氨酸；和

8)在位置116处的苏氨酸；

b)1)在位置5处的苏氨酸；

2)在位置16处的脯氨酸；

3)在位置34处的赖氨酸；

4)在位置40处的精氨酸；

5)在位置65处的组氨酸；

6)在位置80处的谷氨酸

7)在位置92处的脯氨酸

8)在位置108处的谷氨酸；和

9)在位置116处的苏氨酸；以及

c)1)在位置5处的苏氨酸；

2)在位置16处的脯氨酸；

3)在位置34处的赖氨酸；

4)在位置40处的精氨酸；

5)在位置65处的组氨酸；

6)在位置80处的谷氨酸

7)在位置92处的脯氨酸

8)在位置100处的天冬氨酸

9)在位置108处的谷氨酸；和

10)在位置116处的苏氨酸，

在一些其他实施方案中，以上定义的多肽(肽标签结合伴侣)变体还可包含在位置12处的甘氨酸和/或在位置22处的苏氨酸。

因此，本发明的多肽(肽标签结合伴侣)特别地可以与SEQ ID NO：2所示的示例性序列至少80％相同，并且更特别地与SEQ ID NO：2至少85、90、95、96、97、98、99或99％相同，其中该多肽变体包含在位置34(或等同位置)处的赖氨酸、在位置80(或等同位置)处的谷氨酸和以下中的一个或多个：

1)在位置5处的苏氨酸；

2)在位置16处的脯氨酸；

3)在位置40处的精氨酸；

4)在位置65处的组氨酸；

5)在位置92处的脯氨酸；

6)在位置100处的天冬氨酸；

7)在位置108处的谷氨酸；和

8)在位置116处的苏氨酸，

本文所用的术语“接头”是指起到将两个分子或组分连接(即缀合或联结)的作用的分子，优选通过共价键，例如通过异肽键。因此，本发明的肽标签和多肽可以看作是一种两部分接头，其中在第一部分即肽标签和第二部分即多肽之间的异肽键的形成重构了该接头，从而连接了与所述接头的所述第一和第二部分融合或缀合的分子或组分。换句话说，可以将本发明的肽标签和多肽视为具有接头功能的同源物对，即肽标签和多肽同源对或肽标签和结合伴侣同源物对。这些术语在整个说明书中可互换使用。

术语“同源物”(cognate)是指一起起作用的组件。因此，在本发明的上下文中，同源物对是指本发明的肽标签和多肽，其自发反应一起形成异肽键。因此，包含肽标签和多肽的两部分接头，其在能够自发形成所述异肽键的条件下有效地反应一起以形成异肽键，也可以称为“互补对”，即肽标签和多肽互补对。

因此，本发明进一步提供了包含肽(肽标签)和多肽(肽标签结合伴侣)的两部分接头，其中：

a)所述肽(肽标签)包含如上定义的氨基酸序列；和

b)所述多肽(肽标签结合伴侣)包含如上定义的氨基酸序列，

其中所述肽(肽标签)和多肽(肽标签结合伴侣)能够自发地在SEQ ID NO：1的位置10处的天冬氨酸残基和SEQ ID NO：2的位置34处的赖氨酸残基之间形成异肽键。

本发明的肽标签和多肽(肽标签结合伴侣)自发地在SEQ ID NO：1的位置10处的天冬氨酸残基与SEQ ID NO：2的位置34处的赖氨酸残基之间在下文解释的适于在所述肽标签和多肽(肽标签结合伴侣)之间形成异肽键的各种条件下形成异肽键。从下面的实施例中可以明显看出，本发明的肽标签和多肽(肽标签结合伴侣)在一定条件下具有活性。

例如，肽标签和多肽(肽标签结合伴侣)在多种缓冲液中具有活性，这些缓冲液包括磷酸盐缓冲液(PBS)、4-(2-羟乙基)-1-哌嗪乙磺酸(HEPES)、HEPES缓冲盐溶液(HBS)、Tris缓冲盐溶液(TBS)，具有或不具有EDTA。肽标签和多肽(肽标签结合伴侣)在约3.0-8.0的pH下(例如4.0-7.0、5.0-7.0，例如约5.5-6.5)具有活性，温度范围很广，例如0-40℃，例如1、2、3、4、5、10、12、15、18、20、22、25、28、30、35或37℃，优选约25-35℃，例如约25℃。本发明的肽标签和多肽(肽标签结合伴侣)在通常使用的去污剂诸如吐温20和Triton X-100以例如最高浓度约为1％(v/v)的存在下也具有活性，并且在尿素例如最高约3M的浓度的存在下也具有活性。技术人员将能够容易地确定其他合适的条件。

因此，在一些实施方案中，适合于在本发明的所述肽标签和多肽(肽标签结合伴侣)之间形成异肽键的条件包括使肽标签和多肽(肽标签结合伴侣)接触的任何条件。本发明导致在所述肽标签和多肽(肽标签结合伴侣)之间，特别是在SEQ ID NO：1的位置10(或等同位置)的天冬氨酸残基与在SEQ ID NO：2的位置34(或等同位置)的赖氨酸残基之间自发形成异肽键。例如，在缓冲条件下，例如在缓冲溶液中或在已用缓冲液(例如PBS)平衡的固相(例如柱)上，是所述肽标签和多肽(肽标签结合伴侣)接触。接触的步骤可以在任何合适的pH下，例如pH 3.0-8.0，例如pH 4.0-7.0，例如pH 4.2、4.4、4.6、4.8、5.0、5.2、5.4、5.6、5.8、6.0、6.2、6.4、6.6、6.8或7.0。另外或可替代地，接触步骤可以在任何合适的温度下，例如大约0-40℃，例如大约1-39、2-38、3-37、4-36、5-35、6-34、7-33、8-32、9-31或10-30℃，例如大约10、12、15、18、20、22、25、28、30、33、35或37℃，优选大约25-35℃，例如约25℃。

在一些实施方案中，“在能够自发形成异肽键的条件下”使本发明的肽标签和多肽(肽标签结合伴侣)接触包括在化学分子伴侣的存在下使所述肽标签和多肽接触。所述化学分子伴侣例如是增强或改善肽标签和多肽(肽标签结合伴侣)反应性的分子。在一些实施方案中，化学分子伴侣是TMAO(三甲胺N-氧化物)。在一些实施方案中，化学分子伴侣如TMAO以至少约0.2M的浓度存在于反应中，例如至少0.3、0.4、0.5、1.0、1.5、2.0或2.5M，例如约0.2-3.0M、0.5-2.0M、1.0-1.5M。

如上所述，本发明的肽标签和多肽(肽标签结合伴侣)之间的异肽键的形成是自发的。在这方面，多肽(肽标签结合伴侣)包含在位置80(或基于SEQ ID NO：2的编号的等同位置)处的谷氨酸，该谷氨酸有助于例如分别诱导、促进或催化肽标签和多肽(肽标签结合伴侣)中的天冬氨酸和赖氨酸残基之间的异肽键形成。

如本文所用，术语“自发”是指异肽键，其可以在蛋白质中或在肽或蛋白质之间形成(例如，在两个肽之间或在肽与蛋白质之间，即本发明的肽标签和多肽(肽标签结合伴侣)之间)而没有其他任何试剂(例如酶催化剂)存在和/或没有蛋白质或肽的化学修饰，例如无需使用1-乙基-3-(3-二甲基氨基丙基)碳二亚胺(EDC)进行天然化学连接或化学偶联。因此，未进行天然化学连接以修饰具有C末端硫酯的肽或蛋白质。

因此，当分离并且不对本发明的肽标签和/或多肽进行化学修饰时，本发明的肽标签和多肽(肽标签结合伴侣)之间可以形成自发的异肽键。因此，在不存在酶或其他外源性物质且不对本发明的肽标签和/或多肽进行化学修饰的情况下，自发的异肽键可以自行形成。

自发的异肽键几乎可以在本发明的肽标签和多肽(肽标签结合伴侣)接触后立即形成，例如在1、2、3、4、5、10、15、20、25或30分钟内，或在1、2、4、8、12、16、20或24小时内。

本发明的肽标签和多肽(肽标签结合伴侣)包括肽标签和多肽(肽标签结合伴侣)的突变形式(即在本文中称为同系物、变体或衍生物)，其在结构上分别与示例性的SEQ IDNO：3-5中所示的肽标签和SEQ ID NO：2中所示的多肽(肽标签结合伴侣)类似。本发明的肽标签和多肽(肽标签结合伴侣)变体能够作为肽标签和结合伴侣(捕获剂)，即能够在肽标签变体的位置10(或等同位置)的天冬氨酸和在多肽(肽标签结合伴侣)变体的位置34(或等效位置)处的赖氨酸之间在如上定义的合适条件下自发形成异肽键。

在肽标签或多肽(肽标签结合伴侣)变体分别相对于SEQ ID NO：1和2包含突变(例如缺失或插入)的情况下，以上指定的残基存在于变体肽标签和多肽(肽标签结合伴侣)序列中的等同氨基酸位置。在一些实施方案中，本发明的肽标签和多肽(肽标签结合伴侣)变体中的缺失不是N末端和/或C末端截短。

然而，如上所述，考虑本文举例的多肽(即，SEQ ID NO：2)可以在N-末端和/或C-末端被截短而不显著降低多肽的活性。特别地，SEQ ID NO：2可以在N端的截短可多达24个氨基酸(例如5、10、15或20个氨基酸)和/或在C端的截短可多达9个氨基酸(例如1、2、3、4、5、6、7、8或9个氨基酸)。因此，本文所用的术语变体包括示例性多肽的截短变体。从另一方面看，可以看出本发明提供了示例性多肽的一部分，其中，所述部分包含如上所述的SEQ ID NO：101所示的氨基酸序列或其变体。

如本文所指，“部分”(portion)至少包含SEQ ID NO：101所示的氨基酸序列，即包含SEQ ID NO：101所示的氨基酸序列的至少83、84、85、86、87、88、89、90、95、100、105、110或更多个SEQ ID NO：2(其来源序列)的氨基酸。因此，所述部分可以从序列的中央或N-末端或C-末端部分获得。优选地，所述部分从中央部分获得，即，其包括如上所定义的N-末端和/或C-末端截短。尤其是，本文所述的“部分”是本发明的多肽，因此满足本文提及的同一性(相对于可比区域)条件和功能等同条件。

在一些实施方案中，本发明的肽标签变体可以与SEQ ID NO：1相差例如1至5、1至4，例如1、2至3个如上所述的氨基酸取代、插入和/或缺失，优选取代。在一些实施方案中，本发明的多肽(肽标签结合伴侣)变体可以不同于如上定义的SEQ ID NO：2。

序列同一性可以通过本领域已知的任何合适的方法来确定。使用SWISS-PROT蛋白序列数据库，使用具有可变pam因子的FASTA pep-cmp，并将空位产生罚分设置为12.0，并将空位延伸罚分设置为4.0，并且包含2个氨基酸的窗口。用于确定氨基酸序列同一性的其他程序包括威斯康星大学的遗传计算机组(GCG)版本10软件包的BestFit程序。该程序使用Smith和Waterman的本地同源性算法，其默认值为：缺口创建罚分-8，缺口延伸罚分＝2，平均匹配＝2.912，平均不匹配＝-2.003。

优选地，所述比较是在序列的整个长度上进行的，但是可以在较小的比较窗口上进行，例如少于100、80或50个连续氨基酸。

优选地，肽标签和多肽(肽标签结合伴侣)变体(例如，序列同一性相关变体)在功能上等同于具有如SEQ ID NO：3-5或SEQ ID NO：2或101所示的序列的肽标签和多肽(肽标签结合伴侣)。如本文所指，“功能上等同”是指以上讨论的本发明的肽标签和多肽(肽标签结合伴侣)的变体，其在与其各自的伴侣自发形成异肽键时显示出降低的功效(例如相对于亲本分子(即与之表现出序列同源性的分子)的较低的表达产量、较低的反应速率或在反应条件的有限范围内(例如，较窄的温度范围，如10-30℃等)的活性，但优选同样有效或更有效。

具有与包括SEQ ID NO：3-5之一所示的氨基酸序列或由其组成的肽标签的活性“等同”的活性的本发明的突变体或变体肽标签可以具有与包含SEQ ID NO：3-5所述的氨基酸序列或由其组成的肽标签的活性相似(即可比的)的活性，也就是说，使得肽标签的实际应用不受显著影响，例如在实验误差范围内。因此，等同的肽标签活性是指本发明的突变体或变体肽标签能够与多肽(肽标签结合伴侣，例如包含或由SEQ ID NO：2、7或101所示的氨基酸序列组成)以相似的反应速率(即如下所述的速率常数)和/或产率与包含或由SEQ IDNO：3-5之一所示的氨基酸序列组成的肽标签在相同条件下自发形成异肽键。

类似地，与包含SEQ ID NO：2或101(优选SEQ ID NO：2)所示氨基酸序列或由其组成的多肽(肽标签结合伴侣)的活性“等同”的本发明的突变体或变体多肽(肽标签结合伴侣)的活性可具有与包含SEQ ID NO：2或101(优选SEQ ID NO：2)所示氨基酸序列或由其组成的多肽(肽标签结合伴侣)的活性相似(即可比)的活性，也就是说，使得多肽(肽标签结合伴侣)的实际应用不受显著影响，例如在实验误差范围内。因此，等同多肽(肽标签结合伴侣)活性是指本发明的突变体或变体多肽(肽标签结合伴侣)能够与肽标签(例如包含如SEQID NO：3-6之一所示的氨基酸序列或由其组成)以相似的反应速率(即如下所述的速率常数)和/或产率与对包含或由SEQ ID NO：2或101(优选SEQ ID NO：2)组成的氨基酸序列在相同条件下自发形成异肽键。

在相同的反应条件下，不同肽标签和多肽(例如，SEQ ID NO：5对突变体，或SEQ IDNO：2对突变体)的活性可以容易地在上述温度、底物(即肽标签或多肽序列)及其浓度、缓冲液、盐等的温度下，能够容易地比较以确定每种肽标签和多肽的活性是较高、较低还是等效。

特别地，本发明的肽标签和多肽变体与具有分别如SEQ ID NO：3-5或SEQ ID NO：2或101所示的序列的肽标签和多肽具有等同的速率常数。速率常数是指在给定温度下反应(形成异肽键)速率与反应物浓度乘积(即本发明的肽标签和多肽的浓度乘积)的比例系数。

因此，变体(例如突变体)肽标签的活性，例如速率常数，可以是包含或由SEQ IDNO：3-5之一所示氨基酸序列组成的肽标签的活性例如速率常数的至少60％，例如至少70、75、80、85或90％，如为包含SEQ ID NO：3-5之一所示氨基酸序列或由其组成的肽标签活性的至少91、92、93、94、95、96、97、98或99％。或者，突变肽标签的活性，例如速率常数，可以是比包含或由SEQ ID NO：3-5之一所示的氨基酸序列组成的肽标签的活性，例如速率常数，低不超过40％，例如比包含或由SEQ ID NO：3-5之一所示的氨基酸序列组成的肽标签的活性，例如速率常数，低不超过35％、30％、25％或20％，如比包含或由SEQ ID NO：3-5之一所示的氨基酸序列组成的肽标签的活性，例如速率常数，低不超过10、9、8、7、6、5、4、3、2或1％。

类似地，本发明的变体(例如，突变体)多肽(肽标签结合伴侣)的活性，例如速率常数，可以是包含或由SEQ ID NO：2或101所示氨基酸序列组成的多肽的活性例如速率常数的至少60％，例如至少70、75、80、85或90％，如为包含SEQ ID NO：2或101所示氨基酸序列或由其组成的多肽的活性例如速率常数的至少91、92、93、94、95、96、97、98或99％。另一方面，突变多肽的活性可以比包含SEQ ID NO：2或101中所示氨基酸序列或由其组成的多肽的活性，例如速率常数，低不超过40％。例如比包含SEQ ID NO：2或101中所示氨基酸序列或由其组成的多肽的活性，例如速率常数，低不超过35％、30％、25％或20％，如比包含SEQ ID NO：2或101中所示氨基酸序列或由其组成的多肽的活性，例如速率常数，低不超过10、9、8、7、6、5、4、3、2或1％。

值得注意的是，当肽标签和/或多肽与扩散比分离的肽标签和多肽慢的大分子或组分(例如蛋白质)融合时，本发明的肽标签和多肽的反应的速率常数可以低于实施例中描述的值。此外，如果与肽标签和/或多肽融合的分子或组分对反应造成空间位阻，则速率常数可以降低。因此，当测量本发明的肽标签和多肽变体的反应的速率常数时，优选地，使用分离的肽标签和多肽，即未与其他分子或组分融合或缀合的肽标签和多肽进行测量。

显然，与大分子或组分的融合和/或位阻也将影响其他肽标签和多肽的速率常数，例如谍标签和谍捕获剂。因此，除了在低浓度应用外，当本发明的肽标签和多肽以高浓度使用时(例如当与大分子或组分融合时)，本发明的肽标签和多肽的速率常数的增强仍然可能是有利的。

反应速率和速率常数可以通过本领域已知的和如实施例中所述的任何合适的方法来评估。例如，可以通过评估在SDS中沸腾或其他会破坏所有非共价相互作用的强变性处理后的反应产物在SDS-PAGE上的迁移率或通过质谱监测反应速率。

因此，可以对SEQ ID NO：2进行任何修饰或修饰的组合以产生本发明的变体多肽(肽标签结合伴侣)，条件是该变体多肽(肽标签结合伴侣)包含在等同于SEQ ID NO：2的位置34处的赖氨酸残基，以及在等同于SEQ ID NO：2的位置80处的谷氨酸残基和在等同于SEQID NO：2的位置5、16、40、65、92、100、108、116和任选地12和22处的如上定义的其他氨基酸残基中的至少一个(优选2、3、4、5、6、7、8、9或10个)并保留以上所定义的功能特征，即产生能够与肽标签自发形成异肽键的多肽(肽标签结合伴侣)，即，其使得能够与包含或由SEQID NO：3-6之一所示的氨基酸序列组成的肽标签自发形成异肽键的多肽(肽标签结合伴侣)并任选地相对于具有SEQ ID NO：2所示氨基酸序列的多肽(肽标签结合伴侣)具有等同或更高的产率、反应速率(例如速率常数)、温度和/或缓冲液范围。

另一方面，可以对SEQ ID NO：101进行任何修改或修改的组合(优选取代)以产生本发明的变体多肽(肽标签结合伴侣)，条件是该变体多肽(肽标签结合伴侣)包含在等同于SEQ ID NO：101的位置10处包含赖氨酸残基、在等同于SEQ ID NO：101的位置56处的谷氨酸残基，以及在等同于SEQ ID NO：101的位置16、41、68和76处的如上定义的其他氨基酸中的至少一个(优选2、3、4个)并保留如上定义的功能特征，即产生能够与包含或由SEQ ID NO：3-6之一所示的氨基酸序列组成的肽标签自发形成异肽键的多肽(肽标签结合伴侣)并且任选地相对于具有SEQ ID NO：101所示氨基酸序列的多肽(肽标签结合伴侣)具有等同或更高的产率、反应速率(例如速率常数)、温度和/或缓冲液范围。

本发明的肽标签中的等同位置优选通过参照SEQ ID NO：1或5的氨基酸序列来确定。本发明的多肽(肽标签结合伴侣)中的等同位置通过参照SEQ ID NO：2或101的氨基酸序列确定。通过排列同源(突变、变体或衍生物)肽标签的序列和SEQ ID NO：1或5的序列或同源(突变、变体或衍生物)多肽(肽标签结合伴侣)的序列和SEQ ID NO：2或101的序列，可以基于序列之间的同源性或同一性容易地推导出同源或相应位置。例如使用BLAST算法。

本文所用的术语“标签”和“肽标签”通常是指肽或寡肽。

如本文所用，术语“肽标签结合伴侣”、“结合伴侣”或“捕获剂”通常是指多肽或蛋白质。

在这方面，没有关于肽或寡肽之间的大小界限的标准定义。通常，可以认为肽包含2-20个氨基酸且寡肽包含21-39个氨基酸。因此，可以认为多肽包含至少40个氨基酸，优选至少50、60、70、80、90、100或110个氨基酸。

因此，在优选的实施方案中，如本文所定义的肽标签可以被视为包含至少12个氨基酸，例如12-39个氨基酸，例如长度为13-35、14-34、15-33、16-31、17-30个氨基酸，例如可以包含或由12、13、14、15、16、17、18、19或20个氨基酸组成。

如本文所定义的本发明的多肽(肽标签结合伴侣、结合伴侣或“捕获剂”)可以被视为包含至少80个氨基酸，例如80-150个氨基酸，例如长度为80-140、80-130、80-120个氨基酸，例如它可以包含或由83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119或120个氨基酸组成。

如上所述，两部分接头(例如标签和捕获剂系统或对，即同源物对)具有大量效用，并且本发明的肽标签和多肽(肽标签结合伴侣)在缀合(即连接或联结)两个分子或成分的异肽键中发现特别的效用。例如，可以将肽标签和多肽(肽标签结合伴侣)分别偶联或融合到目标分子或组分上，然后在适合于在肽标签和多肽(肽标签结合伴侣)之间自发形成异肽键的条件下接触在一起，从而通过异肽键联结(即连接或缀合)分子或组分。

因此，在一些实施方案中，可以看出本发明提供了本文定义的肽(肽标签)和多肽(肽标签结合伴侣)对通过异肽键缀合两个分子或组分的用途，其中所述分子或组分通过异肽键缀合的化合物包括：

a)包含(例如缀合于或融合于)本发明的肽(肽标签)的第一分子或组分；和

b)包含(例如缀合于或融合于)本发明的多肽(肽标签结合伴侣)的第二分子或组分。

显而易见的是，上述肽标签和多肽(肽标签结合伴侣)对(即两部分接头)的用途包括在适于使(例如提升或促进)如上所述的肽标签和多肽(肽标签结合伴侣)之间自发形成异肽键的条件下接触所述第一和第二分子。

另一方面，本发明提供了通过异肽键结合两个分子或组分的方法，该方法包括：

a)提供包含(例如缀合于或融合于)本发明的肽(肽标签)的第一分子或组分；

b)提供包含(例如缀合于或融合于)本发明的多肽(肽标签结合伴侣)的第二分子或组分；

c)在使(例如提升或促进)如上所述的肽和多肽之间自发形成异肽键的条件下接触所述第一和第二分子或组分，从而通过异肽键将所述第一分子或组分缀合到所述第二分子或组分上以形成复合物。

在本发明的上下文中，术语“缀合”或“连接”涉及连接两个或多个分子或组分以形成复合物时是指使所述分子或组分例如蛋白质通过共价键结合或缀合，所述共价键特别是在肽标签和多肽(肽标签结合伴侣)之间形成且结合到或融合至所述分子或组分中的异肽键，所述分子或组分例如是蛋白质(例如肽标签和多肽(肽标签结合伴侣)可以形成待缀合或连接在一起的蛋白质的结构域)。

如上所述，在一些实施方案中，本发明的肽标签和/或多肽(肽标签结合伴侣)与其他分子或其他组分或实体融合或缀合。这样的分子或组分(即实体)可以是核酸分子、蛋白质、肽、小分子有机化合物、荧光团、金属配体复合物、多糖、纳米颗粒、纳米管、聚合物、细胞、病毒、病毒样颗粒或它们的任何组合。在一些实施方案中，与肽标签和/或多肽(肽标签结合伴侣)融合或缀合的组分或实体是固体支持物，即如下文所定义的固体底物或固体相。

因此，另一方面，本发明提供了核酸分子、蛋白质、肽、小分子有机化合物、荧光团、金属-配体配合物、多糖、纳米颗粒、纳米管、聚合物、细胞、病毒、病毒样颗粒或其任意组合或与本发明的肽标签和/或多肽(肽标签结合伴侣)融合或缀合的固体支持物。

该细胞可以是原核或真核细胞。在一些实施方案中，细胞是原核细胞，例如细菌细胞。

在一些实施方案中，肽标签和/或多肽(肽标签结合伴侣)可以与具有治疗或预防作用的化合物或分子缀合或融合，例如抗生素、抗病毒剂、疫苗、抗肿瘤剂、例如放射性化合物或同位素、细胞因子、毒素、寡核苷酸和编码基因或核酸疫苗的核酸。

在一些实施方案中，肽标签和/或多肽(肽标签结合伴侣)可以缀合或融合至标记物，例如放射性标记、荧光标记、发光标记、生色团标记以及产生可检测底物的酶，例如辣根过氧化物酶、荧光素酶或碱性磷酸酶。该检测可用于常规使用抗体的多种测定中，包括蛋白质印迹/免疫印迹、组织化学、酶联免疫吸附测定(ELISA)或流式细胞术(FACS)的形式。用于磁共振成像的标记、正电子发射断层扫描探针和用于中子俘获治疗的硼10也可以与本发明的肽标签和/或多肽(肽标签结合伴侣)缀合。特别地，肽标签和/或多肽(肽标签结合伴侣)可以与另一种肽例如His6标签融合或产生，和/或可以与另一种蛋白融合或产生，例如以通过融合至麦芽糖结合蛋白来增强重组蛋白表达的目的。

在特别有用的实施方案中，肽标签和/或和/或多肽(肽标签结合伴侣)与另一种肽、寡肽或多肽融合或缀合。例如，可以使用下面讨论的重组技术将肽标签和/或多肽(肽标签结合伴侣)作为另一种肽、寡肽或多肽的一部分生产，即重组或合成的蛋白质或多肽。

显然，本发明的肽标签和/或多肽(肽标签结合伴侣)可与任何蛋白质或多肽融合。该蛋白质可以从任何合适的来源衍生或获得。例如，可以从生物学和临床样品，例如生物体(真核、原核)的任何细胞或组织样品，或任何体液或由其衍生的制品，以及例如细胞培养物、细胞制品、细胞裂解液等的样品，翻译或纯化该蛋白。蛋白质可以衍生或获得，例如从环境样品(例如还包括土壤和水样或食物样)中纯化。样品可以是新鲜制备的，也可以以任何方便的例如用于存储的方式预处理。

如上所述，在一个优选的实施方案中，融合至和/或多肽(肽标签结合伴侣)的肽、寡肽或蛋白质可以重组产生，因此编码所述重组蛋白质的核酸分子可以衍生自或从任何合适的来源获得，例如，任何病毒或细胞物质，包括所有原核或真核细胞、病毒、噬菌体、支原体、原生质体和细胞器。因此，此类生物材料可包含所有类型的哺乳动物和非哺乳动物动物细胞、植物细胞、藻类(包括蓝绿藻)、真菌、细菌、原生动物、病毒等。在一些实施方案中，蛋白质可以是合成蛋白质。例如，本文公开的肽和多肽(蛋白质)可以通过化学合成，例如固相肽合成来产生。

肽标签和/或多肽(肽标签结合伴侣)在重组或合成蛋白中的位置不是特别重要。因此，在一些实施方案中，肽标签和/或多肽(肽标签结合伴侣)可以位于重组或合成多肽的N-末端或C-末端。在一些实施方案中，肽标签和/或多肽(肽标签结合伴侣)可以位于重组或合成多肽的内部。因此，在一些实施方案中，肽标签和/或多肽(肽标签结合伴侣)可以被视为重组或合成多肽的N末端、C末端或内部结构域。

在一些优选的实施方案中，多肽(肽标签结合伴侣)优选位于重组或合成多肽的N-末端或C-末端。因此，在一些实施方案中，多肽(肽标签结合伴侣)可以被视为重组或合成多肽的N末端、或C末端结构域。

在一些实施方案中，包括一个或多个在待与肽标签和/或多肽(肽标签结合伴侣)连接或缀合的肽、寡肽或多肽之间的间隔物(例如肽间隔物)是有用的。因此，肽、寡肽或多肽和肽标签和/或多肽(肽标签结合伴侣)可以彼此直接连接，或者可以通过一个或多个间隔物序列间接连接。因此，间隔物序列可以间隔或分开重组或合成多肽的两个或更多个单独部分。在一些实施方案中，间隔物可以在肽标签和/或多肽(肽标签结合伴侣)的N-末端或C-末端。在一些实施方案中，间隔物可以在肽标签和/或多肽(肽标签结合伴侣)的两侧。

间隔物序列的精确性质不是关键性的，它可以具有可变的长度和/或序列，例如它可以具有1-40，更特别地为2-20、1-15、1-12、1-10、1-8或1-6个残基，例如6、7、8、9、10个或更多残基。举例来说，间隔物序列如果存在的话可以具有1-15、1-12、1-10、1-8或1-6个残基等。残基的性质不是关键的，它们可以例如是任何氨基酸，例如中性氨基酸或脂族氨基酸，或者它们可以是疏水的、或极性的或带电荷的或形成结构的，例如脯氨酸。在一些优选的实施方案中，所述接头是富含丝氨酸和/或甘氨酸的序列。

因此，示例性的间隔物序列包括任何单个氨基酸残基，例如，S、G、L、V、P、R、H、M、A或E或由一个或多个此类残基组成的二、三、四、五或六肽。

因此，在一些实施方案中，本发明提供了包含如上定义的本发明的肽标签和/或多肽(肽标签结合伴侣)的重组或合成多肽，即，包含融合至本发明的肽标签和/或多肽(肽标签结合伴侣)的肽、寡肽或多肽(例如异源肽、寡肽或多肽，即通常不与本发明的肽标签或多肽相关的肽、寡肽或多肽，例如来自其他生物肽、寡肽或多肽)的重组或合成多肽。重组或合成多肽任选地包含如上文所定义的间隔物。

本发明的重组或合成多肽还可包含纯化部分或标签以促进其纯化(例如，在用于以下讨论的本发明的方法和用途之前)。可以将任何合适的纯化部分或标签掺入多肽中，并且这些部分是本领域众所周知的。例如，在一些实施方案中，重组或合成的多肽可包含肽纯化标签或部分，例如His标签序列。这样的纯化部分或标签可以掺入多肽内的任何位置。在一些优选的实施方案中，纯化部分位于或接近于多肽的N-或C-末端(即在其的5、10、15、20个氨基酸内)。

如上所述，本发明的优点来自以下事实：掺入肽、寡肽或多肽(例如本发明的重组或合成多肽)中的肽标签和/或多肽(肽标签结合伴侣)可以被完全遗传编码。因此，在另一方面，本发明提供了编码如上所定义的肽标签、多肽(肽标签结合伴侣)或重组或合成多肽的核酸分子。

在一些实施方案中，编码以上定义的肽标签的核酸分子包含SEQ ID NO：11-13中任一项所示的核苷酸序列或与SEQ ID NO：11-13中任一项所示的序列具有至少80％序列同一性的核苷酸序列。

在一些实施方案中，编码以上定义的结合伴侣的核酸分子包含SEQ ID NO：14所示的核苷酸序列或与SEQ ID NO：14所示的序列具有至少80％序列同一性的核苷酸序列。

优选地，上述核酸分子与其被比较的序列至少85、90、95、96、97、98、99或100％相同。

核酸序列同一性可以通过例如DNA序列测定。FASTA搜索使用GCG程序包，具有默认值和可变的pam因子，并将空位创建罚分设置为12.0，并将空位延伸罚分设置为4.0，并带有6个核苷酸的窗口。优选地，所述比较是在序列的整个长度上进行的，但是可以在较小的比较窗口上进行，例如少于600、500、400、300、200、100或50个连续核苷酸。

本发明的核酸分子可以由以下组成：核糖核苷酸和/或脱氧核糖核苷酸以及合成残基例如能够参与Watson-Crick类型或类似碱基对相互作用的合成核苷酸。优选地，核酸分子是DNA或RNA。

上述核酸分子可以与表达控制序列或含有这种重组DNA分子的重组DNA克隆载体或载运体可操作地连接。这允许本发明的肽和多肽作为基因产物在细胞表达，其表达由引入目的细胞的基因指导。基因表达由在目标细胞中有活性的启动子指导，可以插入任何形式的线性或环状核酸(例如DNA)载体以整合进基因组或独立复制或瞬时转染/表达。合适的转化或转染技术在文献中有很好的描述。或者，裸露的核酸(例如DNA或RNA，其可以包括一个或多个合成残基，例如碱基类似物)分子可以直接引入细胞中以产生本发明的肽和多肽。或者，可以通过体外转录将核酸转化为mRNA，并且可以通过体外翻译产生相关的蛋白质。

适当的表达载体包括合适的控制序列，例如翻译(例如起始和终止密码子，核糖体结合位点)和转录控制元件(例如启动子-操纵子区域，终止终止序列)，以匹配的阅读框与本发明的核酸分子连接。适当的载体可以包括质粒和病毒(包括噬菌体和真核病毒)。合适的病毒载体包括杆状病毒以及腺病毒、腺伴随病毒、疱疹和牛痘/痘病毒。本领域描述了许多其他病毒载体。合适的载体的实例包括细菌和哺乳动物表达载体pGEX-KG、pEF-neo和pEF-HA。

如上所述，本发明的重组或合成多肽可包含另外的序列(例如促进多肽纯化的肽/多肽标签)，因此核酸分子可方便地与编码另外的肽或多肽的DNA融合，例如His标签、麦芽糖结合蛋白，可在表达时产生融合蛋白。

因此，从另一方面来看，本发明提供了一种载体，优选地一种表达载体，其包含如上所定义的核酸分子。

本发明的其他方面包括制备根据本发明的重组核酸分子的方法，包括将编码本发明的肽标签和/或多肽(肽标签结合伴侣)的本发明的核酸分子插入载体核酸。

优选包含在载体中的本发明的核酸分子可以通过任何合适的方式引入细胞中。合适的转化或转染技术在文献中有很好的描述。多种技术是已知的，并且可用于将这些载体引入原核或真核细胞中进行表达。为此目的优选的宿主细胞包括昆虫细胞系、酵母、哺乳动物细胞系或大肠杆菌，例如菌株BL21/DE3。本发明还扩展到含有核酸分子，特别是如上定义的载体的转化或转染的原核或真核宿主细胞。

因此，另一方面，提供了包含如上所述的核酸分子和/或载体的重组宿主细胞。

“重组”是指已将核酸分子和/或载体引入宿主细胞。宿主细胞可以天然存在或可以不天然包含核酸分子的内源拷贝，但是它是重组的，因为已经引入了核酸分子和/或载体的外源或其他内源拷贝。

本发明的另一方面提供了制备如上文所定义的本发明的肽标签和/或多肽(肽标签结合伴侣)的方法，该方法包括在包含表达编码上述肽标签和/或多肽(肽标签结合伴侣)的核酸分子的条件下培养含有如上所定义的核酸分子的宿主细胞，并回收由此产生的所述分子(肽标签和/或多肽(肽标签结合伴侣))。表达的肽标签和/或多肽(肽标签结合伴侣)形成本发明的另一方面。

在一些实施方案中，本发明的肽标签和/或多肽(肽标签结合伴侣)，或用于本发明的方法和用途的肽标签和/或多肽可以合成地产生，例如通过连接氨基酸或较小的合成产生的肽，或更方便地通过重组表达编码上述多肽的核酸分子来实现。

本发明的核酸分子可以通过本领域已知的任何合适的方法合成产生。

因此，本发明的肽标签和/或多肽(肽标签结合伴侣)可以是分离、纯化、重组或合成的肽标签或多肽。

术语“多肽”在本文中与术语“蛋白”互换使用。如上所述，术语多肽或蛋白质通常包括包含至少40个连续氨基酸残基的任何氨基酸序列，例如至少50、60、70、80、90、100、150个氨基酸，例如40-1000、50-900、60-800、70-700、80-600、90-500、100-400个氨基酸。类似地，本发明的核酸分子可以是分离、纯化、重组或合成的核酸分子。

因此，从另外的角度来看，本发明的肽标签、多肽和核酸分子优选是非天然的，即非天然存在的分子。

本文使用标准氨基酸命名法。因此，氨基酸残基的全名可以与一个字母代码或三个字母缩写互换使用。例如，赖氨酸可以被K或Lys取代，异亮氨酸可以被I或IIe取代，等等。此外，术语天冬氨酸盐和天冬氨酸，以及谷氨酸盐和谷氨酸在本文中可互换使用，并且可以分别用Asp或D或Glu或E代替。

尽管设想了本发明的肽标签和多肽(肽标签结合伴侣)以及用于本发明的肽标签和多肽可以重组产生，这是本发明的一个优选的实施方案，显然本发明的肽标签和多肽(肽标签结合伴侣)可以与蛋白质或如上文定义的其他实体(例如分子或组分)通过其他手段缀合。换句话说，肽标签或多肽(肽标签结合伴侣)和其他分子、组分或实体例如蛋白质可以通过任何合适的方式，例如通过重组、然后缀合(连接)的方式以形成可用于本发明的方法和用途的肽标签-其它组分缀合物或多肽(肽标签结合伴侣)-其它组分缀合物。例如，本发明的肽标签和/或多肽(肽标签结合伴侣)可以如上所述通过合成或重组产生，并与另一种成分(例如蛋白质)通过非肽接头或间隔物(例如化学接头或间隔物)缀合。

因此，在一些实施方案中，肽标签和/或多肽(肽标签结合伴侣)和其他组分(例如蛋白质)可以直接通过键或通过连接基团间接连接在一起。在使用连接基团的情况下，可以选择这样的基团以提供肽标签或多肽(肽标签结合伴侣)和其他实体(例如蛋白质)通过连接基团的共价连接。感兴趣的连接基团可以根据另一实体(例如蛋白质)的性质而变化很大。当存在时，该连接基团在许多实施方案中是生物学惰性的。

许多连接基团是本领域技术人员已知的，并且可以在本发明中找到用途。在代表性的实施方案中，连接基团通常为至少约50道尔顿，通常至少约100道尔顿，并且可以大至1000道尔顿或更大，例如如果连接基团包含间隔物则至多为1000000道尔顿，但通常不会超过约500道尔顿且通常不会超过约300道尔顿。通常，此类接头将包含在任一端末端的间隔物，该间隔物具有能够共价键合至肽标签或结合伴侣和其他分子或组分(例如蛋白质)可的反应性官能团。

感兴趣的间隔物可包括脂族和不饱和烃链、含有杂原子氧(醚，例如聚乙二醇)或氮(聚胺)的间隔物、肽、碳水化合物、可能含有杂原子的环状或无环系统。间隔物也可以由与金属结合的配体组成，使得金属离子的存在与两个或更多个配体配位形成复合物。具体的间隔物包括：1,4-二氨基己烷、二甲苯二胺、对苯二甲酸、3,6-二氧八辛二酸、乙二胺-N,N-二乙酸、1,1'-亚乙基双(5-氧代-3-吡咯烷羧酸)、4,4′-亚乙基二哌啶、低聚乙二醇和聚乙二醇。潜在的反应性官能团包括亲核官能团(胺、醇、硫醇、酰肼)、亲电子官能团(醛、酯、乙烯基酮、环氧化物、异氰酸酯、马来酰亚胺)，能够通过环加成反应形成二硫键或与金属结合的官能团。具体实例包括伯胺和仲胺、异羟肟酸、N-羟基琥珀酰亚胺基碳酸酯、N-羟基琥珀酰亚胺基碳酸酯、氧羰基咪唑、硝基苯酯、三氟乙基酯、缩水甘油基醚、乙烯基砜和马来酰亚胺。特定的接头基团可以在本发明的封闭剂发现有用，包括杂官能化合物，例如叠氮基苯甲酰肼、N-[4-(对-叠氮基水杨酰胺基氨基)丁基]-3'-[2'-吡啶基二硫代]丙酰胺)、双磺基琥珀酰亚胺辛二酸酯、二甲基二亚氨基酸酯，二琥珀酰亚胺基酒石酸酯、N-马来酰亚胺基丁酰氧基琥珀酰亚胺基苯甲酸酯、N-羟基磺基嘧啶、N-琥珀酰亚胺基[4-叠氮基苯基]-1,3'-二硫代丙酸酯、N-琥珀酰亚胺基[4-碘乙酰基]氨基苯甲酸酯、戊二醛和琥珀酰亚胺基-4-[N-马来酰亚胺甲基]环己烷-1-羧酸酯、3-(2-吡啶基二硫代)丙酸N-羟基琥珀酰亚胺酯(SPDP)、4-(N-马来酰亚胺甲基)-环己烷-1-甲酸N-羟基琥珀酰亚胺酯(SMCC)等。例如，间隔物可以由与炔反应的叠氮化物形成或与反式环辛烯或降冰片烯反应的四嗪形成。

在一些实施方案中，修饰肽标签和/或多肽(肽标签结合伴侣)中的一个或多个残基以促进这些分子的缀合和/或改善肽标签和/或多肽(肽标签结合伴侣)的稳定性可能是有用的。因此，在一些实施方案中，本发明或用于本发明的肽标签或多肽(肽标签结合伴侣)可包含非天然或非标准氨基酸。

在一些实施方案中，本发明的或用于本发明的肽标签或多肽(肽标签结合伴侣)可包含一种或多种，例如，至少1、2、3、4、5个非常规氨基酸，例如10、15、20或更多个非常规氨基酸，即具有未通过标准遗传密码编码的侧链的氨基酸，称为本文中的“非编码氨基酸”(例如参见表1)。这些可以选自通过代谢过程形成的氨基酸，例如鸟氨酸或牛磺酸，和/或人工修饰的氨基酸，例如9H-芴-9-基甲氧基羰基(Fmoc)、(叔)-丁基氧碳酰(Boc)、2,2,5,7,8-五甲基苯并吡喃-6-磺酰基(Pmc)保护的氨基酸或具有苄氧基-羰基(Z)基团的氨基酸。

可用于本发明的肽标签和/或多肽(肽标签结合伴侣)的非标准或结构类似氨基酸的实例，以及用于本发明的非标准或结构类似氨基酸的实例是D氨基酸、酰胺等排体(例如N-甲基酰胺、逆反酰胺、硫代酰胺、硫代酸酯、膦酸酯、酮亚甲基、羟亚甲基、氟乙烯基、(E)-乙烯基、亚甲基氨基、亚甲硫基或烷烃)、L-N甲基氨基酸、D-α甲基氨基酸、D-N-甲基氨基酸。表1列出了非常规(即非编码)氨基酸的实例。

表1

在一些实施方案中，将本发明的肽标签和/或多肽(肽标签结合伴侣)融合或缀合至固相底物(即固相或固体载体)可能是有用的，并且显然这可以以任何方便的方式实现。因此，固定化的方式或手段以及固体支持物可以根据选择从本领域中广泛已知的并且在文献中描述的任何数量的固定化手段和固体支持物中选择。因此，肽标签或多肽(肽标签结合伴侣)可以例如通过肽标签或多肽的结构域或部分直接结合至支持物(例如化学交联)。在一些实施方案中，肽标签或多肽(肽标签结合伴侣)可通过接头基团或通过中间结合基团间接结合(例如，通过生物素-链霉亲和素相互作用)。因此，肽标签或多肽(肽标签结合伴侣)可以与固体支持物共价或非共价连接。所述连接可以是可逆的(例如可裂解的)或不可逆的连接。因此，在一些实施方案中，可以例如通过酶、化学或光裂解连接。所述连接可以是光敏连接。

因此，在一些实施方案中，肽标签或多肽(肽标签结合伴侣)可以提供用于固定的手段(例如亲和力结合伴侣，例如生物素或半抗原，其能够结合其结合伴侣，例如同源结合伴侣，例如链霉亲和素或抗体)提供的载体。在一些实施方案中，肽标签或多肽(肽标签结合伴侣)与固体支持物之间的相互作用必须足够坚固以允许进行洗涤步骤，即肽标签或多肽(肽标签结合伴侣)与固体支持物之间的相互作用不会被洗涤步骤破坏(明显破坏)。例如，优选在每个洗涤步骤中，从固相中除去或洗脱少于5％，优选少于4、3、2、1、0.5或0.1％的肽标签或多肽(肽标签结合伴侣)。

固体载体(相或底物)可以是当前广泛使用或提议用于固定、分离的任何已知的载体或基质。这些可以采取颗粒(例如可以是磁性、顺磁性或非磁性的珠粒)、片、凝胶、过滤器、膜、纤维、毛细管、载玻片、阵列或微量滴定条、管、板或孔等的形式。

载体可以由玻璃、二氧化硅、乳胶或聚合材料制成。具有高表面积用于融合蛋白结合的材料是合适的。这样的载体可以具有不规则的表面，并且可以是例如多孔的或颗粒的，例如颗粒、纤维、网、烧结物或筛。颗粒材料，例如珠粒，由于其更大的结合能力而有用，特别是聚合物珠粒。

方便地，根据本发明使用的颗粒状固体载体将包含球形珠。珠的尺寸不是关键的，但是它们可以例如为至少1μm的直径的量级，优选为至少2μm的量级，并且其最大直径优选为不大于10，例如不大于6μm。

单分散颗粒，即尺寸基本均匀的颗粒(例如，直径标准偏差小于5％的尺寸)具有提供非常均匀的反应再现性的优点。代表性的单分散聚合物颗粒可以通过US-A-4336173中描述的技术生产。

然而，为了有利于操纵和分离，磁珠是有利的。如本文所用，术语“磁性的”是指当置于磁场中时，载体能够具有施加的磁矩，并且因此在该磁场的作用下可移动。换句话说，可以容易地通过磁性聚集去除包含磁性颗粒的载体，这提供了在异肽键形成步骤之后分离颗粒的快速、简单和有效的方式。

在一些实施方案中，固体支持物是直链淀粉树脂。

在另一个实施方案中，本发明提供了试剂盒，特别是用于本发明的方法和用途的试剂盒，即用于通过异肽键缀合两个分子或组分，其中复合物中的两个分子或组分通过异肽键缀合，其中所述试剂盒包括：

(a)如上所定义的肽(肽标签)，其任选地缀合或融合至例如蛋白质的分子或组分；和

(b)如上所定义的多肽(肽标签结合伴侣)，其任选地缀合或融合于例如蛋白质的分子或组分，所述蛋白质例如是包含如上所定义的多肽(肽标签结合伴侣)的重组或合成多肽；和/或

(c)编码(a)中定义的肽(肽标签)的核酸分子，特别是载体；和

(d)编码(b)中定义的多肽(肽标签结合伴侣)的核酸分子，特别是载体。

显然，本发明的肽标签和多肽(肽标签结合伴侣)具有广泛的用途。另一方面，本发明的肽标签和多肽(肽标签结合伴侣)可用于多种工业。

例如，在一些实施方案中，本发明的肽标签和多肽(肽标签结合伴侣)可用于将荧光或其他生物物理探针或标记物靶向特定蛋白质。在这方面，可以修饰目的蛋白质以掺入本发明的肽标签(例如SEQ ID NO：3-5中的任一个)，如上所述，和荧光或其他生物物理探针或标记融合或缀合至多肽(肽标签结合伴侣，例如，SEQ ID NO：2)。修饰的蛋白质和探针或标记可以在适合于允许在肽标签和多肽(肽标签结合伴侣)之间自发形成异肽键的条件下接触在一起，从而通过异肽键用标记或探针标记蛋白质。

在一些实施方案中，本发明的肽标签和多肽(肽标签结合伴侣)可用于蛋白质组学的蛋白质固定中。在这方面，可以修饰目的蛋白质以掺入本发明的肽标签(例如，SEQ IDNO：3-5中的任一个)和固体底物可以与多肽(肽标签结合伴侣，例如，SEQ ID NO：2)融合或缀合。修饰的蛋白质和固体底物可以在适合于允许在肽标签和多肽(肽标签结合伴侣)之间自发形成异肽键的条件下接触在一起，从而通过异肽键将蛋白质固定在固体底物上。显然，本发明的肽标签和多肽(肽标签结合伴侣)可用于同时将多种蛋白质固定在固相/底物上。

在另外的实施方案中，本发明的肽标签和多肽(肽标签结合伴侣)可用于将抗原缀合至病毒样颗粒、病毒、细菌或用于疫苗接种的多聚支架。例如，在表面上展示本发明的多肽(肽标签结合伴侣)(例如SEQ ID NO：2)的病毒样颗粒、病毒或细菌的产生，将有助于通过第二肽键将包含本发明的肽标签(例如，SEQ ID NO：3-5中的任一个)的抗原缀合至其表面。在这方面，抗原多聚引起强烈增强的免疫反应。因此，在一些实施方案中，与本发明的多肽融合的分子或组分是病毒衣壳蛋白，和/或与本发明的肽标签融合的分子或组分是抗原，例如与特定疾病(如感染)相关的抗原。

在其他实施方案中，肽标签和多肽(肽标签结合伴侣)可以用于环化酶，例如通过将肽标签和结合伴侣融合到酶的每个末端，然后允许在所述肽标签和多肽(肽标签结合伴侣)之间的异肽键的自发形成。在这方面，已经证明酶的环化增加了酶的恢复能力。

特别地，酶或酶聚合物(融合蛋白)的环化可以改善酶聚合物中的蛋白或蛋白单元的热稳定性。在这方面，酶在许多过程中都是有价值的工具，但其不稳定且难以回收。酶聚合物对温度、pH和有机溶剂具有更大的稳定性，并且人们越来越希望在工业过程中使用酶聚合物。然而，酶聚合物的产生通常使用戊二醛非特异性反应，并且这将破坏或变性(即降低其活性)许多潜在有用的酶。使用本发明的肽标签和多肽(肽标签结合伴侣)通过异肽键将蛋白质的位点特异性连接成链(聚合物)，有望增强酶的回弹力，例如用于诊断或添加到动物饲料中的酶。在特别优选的实施方案中，如上所述，可以通过环化来稳定酶。

如WO 2016/193746中所述，本发明的肽标签和多肽(肽标签结合伴侣)也可以用于将多种酶连接到途径中以促进代谢效率。在这方面，酶通常在细胞内部的途径中共同起作用，并且传统上很难将多种酶在细胞外部(体外)连接在一起。因此，本发明的肽标签和多肽(肽标签结合伴侣)可用于偶联或缀合酶以产生融合蛋白，并因此增强多步酶途径的活性，这可用于一系列工业转化和诊断。

本发明的肽标签和多肽(肽标签结合伴侣)也可用于抗体聚合物的生产中。在这方面，抗体是最重要的药物类别之一，通常用于附着在表面上。然而，样品中的抗原混合以及因此在所述样品中的所述抗原的捕获在表面附近是无效的。通过延长抗体链，预期捕获效率将提高。这在循环肿瘤细胞分离中将特别有价值，目前这是实现早期癌症诊断的最有希望的方法之一。

在另一个实施方案中，本发明的肽标签和多肽(肽标签结合伴侣)可用于生产用于激活细胞信号转导的药物。在这方面，许多激活细胞功能的最有效方法是通过蛋白质配体。然而，实际上，蛋白质配体通常不会单独起作用，而是与其他信号分子的特定组合一起起作用。因此，本发明的肽标签和多肽(肽标签结合伴侣)允许产生定制的融合蛋白(即蛋白组)，其可以给出细胞信号的最佳活化。这些融合蛋白(蛋白质组)可用于控制细胞存活，分裂或分化。

在另外的实施方案中，本发明的肽标签和多肽(肽标签结合伴侣)可用于产生用于真核细胞(例如神经元)、干细胞的培养的水凝胶，制备生物材料，用染料或酶进行抗体功能化以及通过环化来稳定化酶。

附图说明

现在将参照以下附图在下述非限制性实施例中更详细地描述本发明：

图1显示了用于选择M 13噬菌体的pIII上展示的谍标签变体的淘选的流程图。

图2显示了(A)说明使用野生型(WT)谍捕获剂诱饵相比于使用无反应性谍捕获剂EQ进行选择后回收的谍标签噬菌体的数量，以菌落形成单位(cfu)量化(平均值±1sd，n＝3)的柱状图；以及(B)从最后一轮N末端文库(NLib1-3，SEQ ID NO：15-17)和随后的C末端文库(CLib1-10，SEQ ID NO：18-27)中选择的谍标签变体的序列表格。WT是指谍标签的序列(SEQ ID NO：6)，而谍标签002是指具有提高的反应速率的变体SEQ ID NO：3。

图3显示了谍捕获剂与谍标签N端库最强反应性的变异体(NLibl-MBP)的缺失变异体反应的时间过程图。PPVPT表示SEQ ID NO：15，PVPT表示SEQ ID NO：30，VPT表示SEQ IDNO：31，PT表示SEQ ID NO：32。数据显示为重复三次的平均值±1s.d.。一些误差线太小而不可见。

图4显示了(A)用于加速的谍捕获剂变体的噬菌体展示选择方案的示意图。在从链霉亲和素珠上洗脱TEV蛋白酶之前，将M13噬菌体上的谍捕获剂突变体针对生物素化的Avi标签-谍标签-MBP诱饵进行淘选。(B)显示说明用WT谍标签-MBP或无反应性谍标签DA-MBP对照进行筛选后回收的谍捕获剂噬菌体，定量为cfu(平均值±1s.d.，n＝3)。

图5显示了从最后一轮谍捕获剂文库选择中选择的变体的氨基酸序列的比对。*无变化：非常保守的变化。保守的变化，差距表示遥远的变化。WT表示SEQ ID NO：7，L1C1表示SEQ ID NO：33，L1C4表示SEQ ID NO：34，L1C2表示SEQ ID NO：35，L2C1表示SEQ ID NO：36，L1C3表示SEQ ID NO：37，L1C6指SEQ ID NO：38，L2C8指SEQ ID NO：39，SC002指SEQ ID NO：40。

图6显示了噬菌体选择的谍捕获剂变体的反应时间过程的图。将谍标签-MBP与谍捕获剂和选择的变体一起温育，每种蛋白在25℃在pH 7.5的PBS中为1μM。煮沸后，通过考马斯染色的SDS-PAGE分析反应。数据显示重复反应的平均值。谍捕获剂指SEQ ID NO：7，L1C1指SEQ ID NO：33，L1C4指SEQ ID NO：34，L1C2指SEQ ID NO：35，L2C1指SEQ ID NO：36，L1C3指SEQ ID NO：37，L1C6指SEQ ID NO：38，L2C8指SEQ ID NO：39。

图7显示(A)SDS-PAGE凝胶，其显示L1C6谍捕获剂变体的自反应在谍捕获剂002中被阻断。L1C6和谍捕获剂002在分离或在与谍标签002-MBP反应后通过考马斯亮蓝染色的SDS-PAGE进行分析。标记了一小部分共价L1C6二聚体，以及来自与谍标签002-MBP反应的L1C6二聚体的产物。反应条件：10μM(+)谍捕获剂变体，13μM(++)谍标签002-MBP，PBS pH7.5在25℃持续1h；(B)谍标签(SEQ ID NO：41)的氨基酸序列的一部分与谍捕获剂L1C6(SEQID NO：42)的N-末端的比对。L1C6D5T的N末端(SEQ ID NO：43)阻止了自反应。

图8显示了表现用谍捕获剂002覆盖的谍捕获剂的差示扫描量热法。Tm值显示为嵌入图。

图9显示(A)SDS-PAGE凝胶，其描述了谍捕获剂002和谍标签002之间自发的异肽键形成的特征。将谍捕获剂002和谍标签002-MBP在pH 7.0的琥珀酸酯-磷酸-甘氨酸缓冲液中以10μM混合1小时，并在煮沸后通过考马斯染色的SDS-PAGE进行分析。还显示了未反应的对照蛋白、谍捕获剂002 EQ和谍标签002 DA-MBP；(B)在pH 7.0的琥珀酸酯-磷酸-甘氨酸缓冲液中，谍捕获剂002-sfGFP与谍标签002-MBP反应或谍捕获剂-sfGFP与谍标签-MBP反应在0.1μM时的时间过程图。(重复三次的平均值±1s.d.；一些误差线太小而不可见)。

图10显示了在pH 7.0的琥珀酸酯-磷酸-甘氨酸缓冲液中，谍捕获剂002-sfGFP与谍标签002-MBP反应或谍捕获剂-sfGFP与谍标签-MBP反应在(A)1μM和(B)10μM的时间过程图。(重复三次的平均值±1s.d.；一些误差线太小而不可见)(B)。

图11显示了根据三次重复测量(显示每个数据点)，量化谍捕获剂002与谍标签002-MBP反应的速率常数的示意图。0.5μM的每种蛋白质在pH7.0的琥珀酸磷酸酯-甘氨酸缓冲液中，25℃。显示了趋势线方程和相关系数。

图12显示了SDS-PAGE凝胶，其描述了谍捕获剂002/谍标签002反应完成的测试。将谍捕获剂002与谍标签002-MBP在琥珀酸-磷酸盐-甘氨酸缓冲液pH 7.0中于25℃孵育1小时，然后通过SDS-PAGE和考马斯亮蓝染色进行分析。蛋白质为10μM(+)或20μM(+++)。

图13显示了(A)描述通过SDS-PAGE和考马斯染色分析谍捕获剂002与谍标签002-MBP在25℃在琥珀酸酯-磷酸-甘氨酸缓冲液中进行1或5分钟的反应的pH依赖性的图。(B)显示在pH 7.5的PBS中进行(A)中的反应的温度依赖性的条形柱状图。(C)显示在25℃和pH7.5的PBS、PBS+1mM EDTA、50mM HEPES、50mM HEPES缓冲盐溶液(HBS)或Tris缓冲盐溶液(TBS)中进行(A)中的反应的缓冲液依赖性的柱状图；(D)显示在25℃和PBS pH 7.5的无洗涤剂(PBS)、含1％Triton X-100的PBS或含1％吐温-20的PBS中进行(A)中的反应的去污剂依赖性的柱状图；(E)显示在25℃和pH 7.5下在PBS中谍捕获剂002与谍标签002-MBP反应30或120分钟的尿素依赖性的图。所有图均显示为重复三次的平均值±1s.d.；一些误差线太小而不可见。

图14显示了(A)说明MBPx-谍捕获剂和MBPx-谍捕获剂002与谍标签002-MBP反应的时间过程图，其中每种蛋白质在PBS pH 7.5中在25℃下以0.5μM，经过煮沸后通过考马斯亮蓝染色的SDS-PAGE进行分析，并且表明当蛋白质融合到N端时，谍捕获剂002的反应性比谍捕获剂更高。(B)用谍捕获剂或谍捕获剂002温育1或5分钟的AffiEGFR-谍标签002的反应性的柱状图，每种蛋白质在25℃在pH 7.5的PBS中为2μM，并通过考马斯亮蓝染色的SDS-PAGE进行分析。数据显示为重复三次的平均值±1s.d。一些误差线太小而不可见。这表明，当谍标签002位于C端时，与谍捕获剂相比，谍捕获剂002的改进的反应性得以保留。

图15显示了描述0.5μM D5T谍捕获剂002(SEQ ID NO：40)与(A)0.5μM谍标签002-MBP(SEQ ID NO：3-MBP)或谍标签002 T3H-MBP(SEQ ID NO：4-MBP)，以及(B)0.5μM谍标签002-T3H-MBP(SEQ ID NO：4-MBP)或谍标签002 RG T3H-MBP(SEQ ID NO：5-MBP)反应的时间过程图。反应在25℃下的磷酸盐缓冲盐溶液(PBS)pH 7.5中进行，并通过SDS-PAGE和考马斯染色进行分析，数据显示为重复反应三次的平均值±1s.d。显示了趋势线和相关系数的方程式。反应的二级速率常数来自趋势线的斜率，并且具有μM^-1min^-1的单位。

图16显示了描述0.5μM D5A谍捕获剂002变体(SEQ ID NOs：44-47)在pH 7.5的磷酸盐缓冲盐水(PBS)中与0.5μM AP-谍标签002-MBP(SEQ ID NO：3-MBP)在25℃下反应的速率分析的图。通过SDS-PAGE和考马斯染色分析所有反应，数据显示为重复三次的平均值±1s.d.。显示了趋势线和相关系数的方程式。反应的二级速率常数来自趋势线的斜率，并且具有μM-¹min-¹的单位。

具体实施方式

实施例

实施例1-谍标签(SEQ ID NO：6)的噬菌体展示优化

谍标签/谍捕获剂是肽相互作用的一种非常规方法，并且相互作用的某些特征无法通过合理的设计进行预测。从噬菌体文库中进行选择已有数十年的历史，困难之处通常是检测弱相互作用，而不是筛选不可逆相互作用的挑战。我们最初建立了模型选择，以研究有效的异肽键形成选择。

我们发现能够成功淘选谍标签-噬菌体的第一个关键功能是捕获溶液中的谍捕获剂(SEQ ID NO：7)诱饵，而不是将谍捕获剂附着在珠子上。溶液捕获剂使滴定剂浓度易于滴定，并减少了噬菌体与珠子的非特异性结合的背景(图1)。

第二个关键特征是通过生物素和谍捕获剂之间的TEV蛋白酶位点，使用蛋白酶裂解从链霉亲和素珠上特异性洗脱噬菌体(图1)。

第三个关键特征是建立足以使噬菌体-肽变异体几乎所有非共价相互作用解离但又不至于使噬菌体的传染性遭到破坏的足够严格的条件。我们决定先用甘氨酸-HCl pH2.2洗涤一次，然后用0.5％(v/v)吐温-20洗涤四次。

对于模型选择，我们使用M13噬菌体在pIII上展示谍标签。诱饵通过Avi标签进行位点特异性的生物素化，连接至谍捕获剂或阴性对照谍捕获剂EQ(其具有共价键形成必需的谷氨酸突变)。在沉淀除去过量诱饵、链霉亲和素珠捕获、洗涤和TEV洗脱后，通过定量PCR(qPCR)检测封装在噬菌体中的DNA来测量回收的噬菌体。在优化了淘选条件之后，该测试显示wt谍捕获剂的浓度比谍捕获剂EQ高4个数量级(图2A)。

以前的定点诱变已经显示了谍标签中中心β链残基的关键作用，因此我们在谍标签的N端和C端随机化了两个不同的文库(图2B)。通过N末端随机化和轮次噬菌体淘选，NLib1(PPVPTIVMVDAYKPTK，SEQ ID NO：15)给出了最快的反应。NLibl比亲本谍标签长3个残基，因此我们测试了究竟额外的N末端残基数量为多少时是重要的。NLib 1可以在N末端被两个残基截短，而对速率的影响很小，但是截短3个残基会大大减少反应(图3)。因此，此后在N端使用了VPT-，而C端则根据该前导被随机分配。经过几轮噬菌体库筛选后，显示了富集的命中CLib1-10(图2B)。在这些变体中，CLibl对于与谍捕获剂的反应是最快的，并令人感兴趣地保留C端YK序列。但是，由于存在二聚作用的可能性，CLib1中的半胱氨酸是不可取的，因此该残基被还原为A(图2B)。此外，我们发现谍标签的末端K(在噬菌体文库中不存在)提高了反应速率。因此，通过噬菌体选择和合理设计的结合，我们得到了优化的标签，谍标签002(VPTIVMVDAYKRYK，SEQ ID NO：3)(图2B)。

实施例2-谍捕获剂(SEQ ID NO：7)的噬菌体展示优化

谍捕获剂的噬菌体展示选择以类似于选择谍标签变体的方式来进行，尽管在噬菌体表面展示分裂的蛋白质提供了进一步的挑战。我们发现对有效选择重要的关键特征是谍捕获剂和噬菌体上的pIII之间的TEV蛋白酶切割位点(允许从磁珠中特异性洗脱噬菌体)以及使用DsbA信号序列进行共翻译易位，从而改善了谍捕获剂在pIII上的展示。诱饵是生物素化的Avi标签-谍标签-MBP，谍捕获剂变异体是通过易错PCR制备的(图4A)。我们最初使用所需的诱饵(谍标签)或阴性对照谍标签DA优化了模型选择，所述谍标签DA非共价结合至谍捕获剂但不反应。通过qPCR对回收的噬菌体进行评估。该选择显示wt谍标签诱饵与谍标签DA诱饵相比的捕获能力提高了约1000倍(图4B)。

经过严格程度增加的淘选后，所选克隆的序列如图5所示。突变广泛分布在结构上，许多突变残基远离谍标签结合位点。命中在大肠杆菌中以可溶性蛋白表达，并评估它们与谍标签-MBP的反应速度。最佳的反应顺序是L1C6(图6)。

在此过程中，重组表达L1C6谍捕获剂变体后，在SDS-PAGE上发现了一条新条带(图7A)。由于该条带在与谍标签002-MBP混合后完全移动，并且具有大约谍捕获剂两倍的迁移率，因此我们有信心认为该条带代表共价谍捕获剂二聚体。考虑了增强谍捕获剂反应性已经促进了这种意想不到的自我反应的形成。在谍捕获剂中寻找与谍标签相似的序列，我们发现谍捕获剂的N端GAMVDT(SEQ ID NO：42)类似于谍标签的IVMVDA(SEQ ID NO：41)(图7B)。我们很高兴看到在我们的加速变体(谍捕获剂002，图5)中将GAMVDT(SEQ ID NO：42)突变为GAMVTT(SEQ ID NO：43)消除了这种副反应(图7A)。

为了探索突变对谍捕获剂折叠的影响，我们通过差示扫描量热法(DSC)测试了构建体。DSC显示，谍捕获剂(49.3℃)和谍捕获剂002(49.9℃)之间的展开转变点变化很小，因此诱变并未破坏热稳定性(图8)。

实施例3-谍标签002和谍捕获剂002变异率的验证

在拥有谍标签002和谍捕获剂002之后，我们仔细地验证了它们的反应行为。通过显示谍标签002(DA)或谍捕获剂002(EQ)中的单个突变消除的反应，我们证实了假定的反应性残基的关键作用(图9A)。

谍标签/谍捕获剂反应在高浓度下是有效的。为了分析低浓度时的反应，在聚丙烯酰胺电泳后，使其与超折叠GFP(superfolder GFP,sfGFP)反应，用于荧光检测共价键的形成。如果样品未煮沸，即使在存在SDS的情况下，sfGFP仍可保持折叠并发荧光。该分析表明，与亲本版本相比，谍标签002和谍捕获剂002的反应速率有了显著提高(图9B)。如所预期的，当两个伴侣的浓度增加至1μM和10μM时，差异较小，但是002版本在10μM时仍然更快(图10A和B)。反应速率非常符合二阶反应(图11)。在25℃，pH 7.0时，谍标签002-MBP与谍捕获剂002反应的速率常数为2.0±0.2×10⁴M^-1.s^-1(比谍标签-MBP与谍捕获剂的反应快12倍)。谍标签002和谍捕获剂002都显示向后兼容，可以有效地与亲本版本(表2)进行反应。

表2：在25℃下在pH 7.0的琥珀酸磷酸盐-葡聚糖缓冲液中谍捕获剂或谍捕获剂002与谍标签-MBP或谍标签002-MBP反应的速率常数(平均值±1s.d.，n＝3)。

速率常数(M^-1.s^-1)	谍标签-MBP	谍标签002-MBP
			谍捕获剂	1,680±440	10,300±640
谍捕获剂002	5,470±30	20,220±1,760

谍标签系统具有较低的反应性基团(胺和羧酸)固有反应性，因此减少了副反应的发生率，例如酯或硫代酯的水解。接近定量的收率对于多个顺序反应尤其重要，例如在固相多酚合成中或在临床开发中，均匀性很重要。由于其伴侣的两倍过量，在1小时内，>99％的谍捕获剂002和>97％的谍标签002-MBP反应(图12)。

还通过电喷雾电离质谱法利用预期反应中H₂O的损失证实了谍标签002和谍捕获剂002之间的异肽键形成。

实施例4-谍标签002和谍捕获剂002变异反应条件的验证

我们在各种条件下测试了谍标签002和谍捕获剂002反应的弹性。以上速率常数是在pH 7时计算的，但反应性在pH 4时相似，在pH 5和6时略高(图13A)。反应在4、25和37℃下快速进行(图13B)。反应相对独立于缓冲液，可以有效地与磷酸盐，Tris或HEPES缓冲液反应，对特定的一价或二价阴离子或阳离子的依赖性相对较小(图13C)。谍标签002和谍捕获剂002的反应可以很好地耐受清洁剂Triton X-100或Tween-20的存在，从而使反应性略有提高(图13D)。谍标签002和谍捕获剂002的反应也耐受3M尿素(图13E)。

在噬菌体上选择谍捕获剂002作为与药丸的N端融合体。我们证实谍捕获剂002也表现出C端融合的良好性能，显示出MBPx-谍捕获剂002与谍标签002-MBP的有效反应(图14A)。我们验证了当在N末端融合为谍标签002-MBP(图12)或在C末端融合为AffiEGFR-谍标签002(图14B)时，谍标签002能够有效反应。

实施例5-谍标签002的进一步优化

谍标签002-MBP融合物与谍捕获剂002的反应速率为0.40μM^-1min^-1。我们令人惊讶地确定，通过对谍标签002肽引入额外的修饰可以进一步提高反应速率。

用组氨酸取代谍标签002(SEQ ID NO：3)位置3处的苏氨酸残基，即还原为谍标签中等同位置的残基，得到的肽(SEQ ID NO：4)的反应速率为0.53-0.55μM^-1min^-1，即活性增加约35％(图15A)。

改进的肽的修饰使得在N端(SEQ ID NO：5)包含精氨酸和甘氨酸残基，将反应速率提高了一倍以上，达到1.21μM^-1min^-1(图15B)。

实施例6-谍捕获剂002的进一步优化

在位置5处含有丙氨酸残基的谍捕获剂002的变体(谍捕获剂002 D5A SEQ ID NO：44)与谍标签002-MBP的反应速率为0.45μM^-1min^-1。我们令人惊讶地确定，通过对谍捕获剂002多肽引入额外的修饰可以进一步提高反应速率。

用脯氨酸取代谍捕获剂002变体(SEQ ID NO：44)的位置92处的丙氨酸残基，得到反应速率为0.84μM^-1min^-1的多肽(肽标签结合伴侣，SEQ ID NO：45)，即活性增加了约85％(图16)。

尽管不希望受到理论的束缚，但据推测脯氨酸残基在多肽中该位置的插入降低了多肽环中的柔性。在这方面，脯氨酸的phi角是固定的，而所有其他残基的phi角可以实质性地变化。在这里，我们发现Ala具有适合由脯氨酸替代的phi角，并且还判断脯氨酸侧链大小的增加在空间上是可以忍受的。根据我们对谍标签/谍捕获剂相互作用的晶体学的研究，我们还认为谍捕获剂的这个环对于相互作用特别重要，因为谍标签的接近性。因此，我们假设该突变将使谍捕获剂变体构象预先定向用于谍标签对接，从而提高反应速度。

类似地，用天冬氨酸取代在谍捕获剂002变体(谍捕获剂002D5A SEQ ID NO：44)的位置100处的谷氨酰胺残基导致多肽(肽标签结合伴侣，SEQ ID NO：46)的反应速率为0.93μM^-1min^-1，即在活性上有约105％的增加(图16)。认为在该位置的天冬氨酸可与赖氨酸111形成静电相互作用，因此增加了谍捕获剂变体的两个环之间相互作用的稳定性。我们假设这种突变将使谍捕获剂构象预先定向于谍标签对接，从而提高了反应速度。

结合上述取代(SEQ ID NO：47)，进一步将反应速率提高至1.22μM^-1min^-1，从而表明每种突变对反应速率具有单独的作用。值得注意的是，用苏氨酸取代SEQ ID NO：47的位置5处的丙氨酸(即产生SEQ ID NO：2)进一步提高了反应速率(图16)。

方法

克隆

Q5高保真聚合酶(NEB)用于执行所有PCR和定点诱变。按照制造商的说明使用Gibson Assembly Master Mix(NEB)。首先将所有构建体克隆到具有化学感受态的大肠杆菌NEB5α细胞(NEB)中。

先前已经描述了质粒pET28a谍标签-MBP(Addgene质粒ID 35050)、pET28A谍标签-DA-MBP、pDEST14谍捕获剂(GenBank JQ478411，Addgene质粒ID 35044)以及pDEST14谍捕获剂EQ(Addgene质粒ID 35045)(Zakeri等,2012,Proc Natl Acad Sci U S A 109,E690-697)。pDEST14AP-谍捕获剂(GenBank登录号KU500645，Addgene质粒ID 72326)作为WT和EQ版本，包含肽标签(AP)用于在N末端的位点特异性生物素化，使用引物5'-GATTACGACATCCCAACGACCGAAAACCTG(SEQ ID NO:48),5'-GCCTGAACGATATTTTTGAAGCGCAGAAAATTGAATGGCATGAAGGCGATTACGACATCCCAACGACCGAAAACCTG(SEQ ID NO:49),5'-GTGATGGTGATGGTGATGGTAGTACGACATATG(SEQ ID NO:50)和

5'-TGCCATTCAATTTTCTGCGCTTCAAAAATATCGTTCAGGCCGCTGCCGTGATGGTGATGGTGATGGTAGTACGACATATG(SEQ ID NO:51)的SLIM PCR从pNEST14谍捕获剂(WT/EQ)构建。pET28aAP-谍标签-MBP和AP-谍标签DA-MBP是通过使用5’-ATTACATATGGGTCTGAATGATATTTTCGAAGCGCAGAAAATTGAATGGCATGAAGGTAGCGGAGCCCACATCGTGATGGTG(SEQ ID NO:52)和5’-GGGGAAGCTTTTACGAGCTCGAATTAGTCTG(SEQ ID NO:53)将相同的生物素化标签N端(但没有TEV蛋白酶切割位点)插入pET28a谍标签(WT/DA)-MBP来构建的。用HindIII(NEB)和Ndel(NEB)消化插入物，并连接到pET28a中。

使用QuikChange PCR以pET28a谍标签-MBP作为模板创建单个谍标签变体(包括谍标签002DA-MBP)，并将其转化为NEB5α细胞。单独的谍捕获剂变体从pFab5cHis噬菌粒载体克隆至pDEST14以用于通过PCR扩增谍捕获剂基因来表达可溶性蛋白质，该PCR使用正向(5’-CCGAAAACCTGTATTTTCAGGGCGCCATG(SEQ ID NO:54))和反向(5’-GCATCAACCATTTAGCTACCACTGGATCC(SEQ ID NO:55))引物。反向引物保留了pFab5cHis的GSGGS肽接头，该接头位于谍捕获剂蛋白的C末端，可与pDEST14载体随后重叠。通过QuikChange PCR诱变引入了在选定的谍捕获剂变体(包括谍捕获剂002 EQ非活性版本)中的其他点突变。通过测序验证所有突变和构建体。

编码与超折叠GFP(sfGFP)融合的谍捕获剂的质粒pJ404-谍捕获剂-sfGFP来自Karl Brune(牛津大学)的馈赠，由三部分组成的Gibson组件(Gibson Assembly)生产。使用正向(GTTTAACTTTAATAAGGAGATA TACCATGTCGTACTACCATCACCATCACC(SEQ ID NO:56))和反向(5’-CTTTACGGCCTGAACCACCAATATGAGCGTCACCTTTAGTTGC(SEQ ID NO:57))引物从pDEST14谍捕获剂质粒扩增谍捕获剂基因(包括His-tag和TEV蛋白酶切割位点)。带有GGSG接头的sfGFP使用正向(5’-GGTGGTTCAGGCCGTAAAGG(SEQ ID NO:58))和反向(5’-CCTTGGGGCTCGAGTTATCATTTGTACAGTTCATCCATACCATGC(SEQ ID NO:59))引物从pJ404-sfGFP质粒(DNA2.0)扩增。质粒骨架采用正向(5’-CATGGTATATCTCCTTATTAAAGTTAAACAAAATTATTTCTACAGGG(SEQ IDNO:60))和反向(5’-TGATAACTCGAGCCCCAAGG(SEQ ID NO:61))引物进行扩增。然后通过Gibson组件将这三个PCR产物连接起来。质粒pJ404-谍捕获剂002-sfGFP是通过使用正向(5’-CATGGTATATCTCCTTATTAAAGTTAAACAAAATTATTTCTACAGGG(SEQ ID NO:62))和反向(5’-TGATAACTCGAGCCCCAAGG(SEQ ID NO:63))引物从pDEST14-谍标签002中扩增谍标签002而创造的。载体骨架在两部分中采用四个引物(5’-GGTGGTTCAGGCCGTAAAGGCGAAGAGCTG(SEQ IDNO:64)；5’-CGCGATTTGCTGGTGACCCAATGCGACCAGATGCTCCACGCCCAGTCGCGTACCGTCCTC(SEQ IDNO:65)；5’-GCCCTGAAAATACAGGTTTTCGGTCGTTGGG(SEQ ID NO:66)；和5’-GAGGACGGTACGCGACTGGGCGTGGAGCATCTGGTCGCATTGGGTCAC CAGCAAATCGCG(SEQ ID NO:67))进行扩增，并Gibson组装以产生最终的构建体。

pET21 MBPx-谍捕获剂(N端His6标签-MBPmt-间隔子-MBPmt-间隔子-谍捕获剂)(GenBank登录号KU361183，Addgene质粒ID 72327)先前已有描述(Veggiani et al.,2016Proc Natl Acad Sci U S A 113,1202-1207)。pET21MBPx-谍捕获剂002通过3部分的Gibson组件生成。使用正向((5’-CGAGCTCGGGTTCGGGCGGTAGTGGTGCCATGGTAACCACCTTATCAGGTTTATCAGGTG(SEQ ID NO:68))和反向(5’-GTGGTGGTGCTCGAGTGCGGCCGCAAGCTTCTATTAAGTATGAGCGTCACCTTTAGTTGC(SEQ ID NO:69))引物从pDEST14-谍捕获剂002扩增谍捕获剂002。模板骨架以两部分使用四个引物(5’-GGTTTCGCCACCTCTGACTTGAGCGTCG(SEQ ID NO:70)；5’-CATGGCACCACTACCGCCCGAACCCGAGCTCG(SEQ ID NO:71),5’-AAGCTTGCGGCCGCACTCGAGCACCACCACCACCACCACTGAGATCCGGC(SEQ IDNO:72)；5’-CGACGCTCAAGTCAGAGGTGGCGAAACC(SEQ ID NO:73))从质粒pET21MBPx-谍捕获剂产生，并Gibson组装以产生最终产物。

通过两部分Gibson组件使用四个引物(5’-GGCAGCATTGAATTTATTAAAGTGAACAAAGGCAGTGGTGAGTCG GGATCCGGAGCTAGC(SEQ ID NO:74)；5’-GTTTATTATTTATAGCGTTTGTAGGCGTCCACCATAACAATAGTAGGAACACCGGAACCTTCCCCGGATCCCTCGAGGCC(SEQ ID NO:75)；5’-GGACGCCTACAAACGCTATA AATAATAAACTCTAGCACCACTGAGATCCGGCTGCTAAC(SEQ ID NO:76)；5’-ACTGCCTTTGTTCACTTTA ATAAATTCAATGCTGCCCAGTTTCCCCATATGGCTGCCGCG(SEQ ID NO:77))使用pET28a探标签-AffiEGFR-谍标签(GenBank登录号KU296973)作为模板产生pET28aAffiEGFR-谍标签002。

如Zakeri等(2012，见上文)所述，通过将来自pMAL载体(NEB)的麦芽糖结合蛋白基因克隆到pET28a载体中来创建pET28a His-MBP。

编码含有S219V突变的MBP-His₆-TEV蛋白酶的pRK793，以降低自溶速率，并对其进行了进一步修饰，以防止TEV蛋白酶通过TEV识别位点的突变而自MBP自我裂解，从而抑制裂解。

噬菌粒质粒是pFab5c.His的变体，其编码PelB前导序列、克隆位点，并且仅编码M13噬菌体pIII的最终C末端结构域的基因III的部分。谍标签噬菌粒质粒(pFab5cHis-PelB-谍标签-gIII)是通过在PelB前导序列和gIII之间插入编码谍标签的DNA来创建的。用XhoI(NEB)和Notl(NEB)消化pFab5cHis质粒。使引物5’-TCGAGGGCGGCGCCCACATCGTGATGGTGGACGCCTACAAGCCGACG AAGGGCGC(SEQ ID NO:78)和5’-GGCCGCCTTCGTCGGCTTGTAGGCGTCCACCATCACGATGTGGGCGC CGCCC(SEQ ID NO:79)退火并连接至pFab5cHis。为了产生pFab5cHis谍标签DA，用XhoI和NotI消化pFab5cHis。使引物5’-TCGAGGGCGGCGCCCACATCG TGATGGTGGCCGCCTACAAGCCGACGAAGGGCGC(SEQ ID NO:80)和5’-GGCCGCCTTCGTCGGCTTGTAGCGGCCACCATCACGATGTGGGCGCCGCCC(SEQ ID NO:81)退火并连接到pFab5cHis。pFab5cHis-DsbA-谍捕获剂-GSSGS-TEV蛋白酶切割位点-gIII以两步法构建。第一步是谍捕获剂，然后序列GSSGSENLYFQGSG与PelB前导序列和gIII一起通过扩增在读框内克隆。使用5’-TAATCTCGAGATCAGGGCGCCATG GTTGATACCTTATC(SEQ ID NO:82)和5’-ATATGCGGCCGCTCCACTCCCCTGGAAGTAGAGGTTTTC(SEQ ID NO:83)从pDEST14谍捕获剂中扩增谍捕获剂。使用XhoI和NotI消化插入物和载体，然后连接。在第二步中，使用5’-GCGTTTAGCGCATCGGCGGGCAGCTACCCATACGATGTTCCAGATTACGCTGGTGCAGCTGCAGGTCG(SEQ ID NO:84)、5’-CGCCGATGCGCTAAACGCTAAAACTAAACCAGCCAGCGCCAGCCAAATCTTTTTCATAGCTGTTTCCTGTGTGAAATTG(SEQ ID NO:85)、5’-GGTGCAGCTGCAGGTCG(SEQ ID NO:86)和5’-TTTCATA GCTGTTTCCTGTGTGAAATTG(SEQ IDNO:87)通过SLIM PCR将PelB信号序列替换为DsbA信号序列。

生成谍标签的随机N末端文库

通过连接，从一个噬菌粒pFab5cHis-PelB-谍标签-gIII的PCR扩增片段和一个限制性消化的载体组装该文库。使用在向内添加XhoI和NdeI限制性位点的谍标签基因侧翼的正向(5’-ACCTCGAGATNNKNNKNNKNNKNNKATCGTGATGGTGGACGCCTACAAGCC(SEQ ID NO:88))和反向(5’-ATTCATATGGTTTACCAGCGCCAAAGACAAAAGGG(SEQ ID NO:89))引物通过PCR扩增插入物。在热循环后，将DpnI添加到插入物PCR混合物中，并在37℃下孵育1小时，并在80℃下热灭活20分钟。用XhoI和NdeI在CutSmart缓冲液(NEB)中于37℃消化载体DNA 1.5小时，并在65℃热灭活20分钟。将全部插入物和载体反应混合物与6×DNA负载染料混合，并通过琼脂糖凝胶电泳分离。通过凝胶提取纯化对应于载体和插入物的DNA带。将插入物DNA用XhoI和Ndel在CutSmart缓冲液中于37℃消化1小时，并于65℃加热灭活20分钟。使用ThermoScientific旋转柱清洁和浓缩消化的刀片，并在MilliQ水中洗脱。以优化的载体:插入物的摩尔比为1:7(1:1重量比)以每种片段627ng DNA在总体积150μL中进行连接。将DNA和水加热至65℃持续5分钟，冷却，加入T4DNA连接酶(NEB)和缓冲液，并将混合物在25℃温育1小时。将DNA浓缩在旋转过滤器上，并通过电穿孔转化入电感受态ER2738琥珀终止密码子抑制细胞(Lucigen)。通过在37℃下添加950μL SOC培养基1小时回收转化体，并将其平板接种在含有100μg/mL氨苄青霉素和25μg/mL四环素的LB琼脂上。将板在37℃下孵育16小时。为了收获文库，将5mL LB添加至板表面，并用塑料撒布器刮擦细胞，移液至50mL Falcon管中，再用5mL重复。从所有平板收集后，将细胞在2,500×g在4℃下沉淀10分钟，重悬于含有氨苄青霉素(100μg/mL)、四环素(25μg/mL)和22％的(v/v)甘油的10mL LB中。将等分试样急冻并储存在-80℃。

生成随机C末端谍标签库

该文库由噬菌粒pFab5cHis-PelB-谍标签-gIII的两个PCR扩增片段组装而成。在第一个PCR中，正向引物(5’-CGACCTCGAGATGTGCCTACTATCGTGATGGTGGACNNKNNKNNKNNKNNKGCGGCCGCAGGCTCTAAAGATATCAGACC(SEQ ID NO:90))除了引入C末端突变外还将谍标签的N末端转化至起始VPT而非AH，并且反向引物从氨苄青霉素抗性基因(5’-GATCGTTGTCAGAAGTAAGTTGGCC(SEQ ID NO:91))引发。在第二个PCR反应中，正向引物从氨苄青霉素基因(5’-GGCCAACTTACTTCTGACAACGATC(SEQ ID NO:92))引发并且反向引物(5’-GTCCACCATCACGATAGTAGGCACATCTCGAGGTCGACCTGC(SEQ ID NO:93))在该区域正要发生突变之前从VPT-谍标签的起始部位开始。如上所述，将两种PCR产物用DpnI消化，与DNA负载染料混合并通过琼脂糖凝胶电泳分离。DNA条带通过凝胶提取纯化，并由Gibson组件连接。清洁、浓缩DNA，并将其转化为电感受态ER2738细胞。

通过易错PCR生成谍捕获剂变体文库

通过Gibson组件，从噬菌粒pFab5cHis-DsbA-谍捕获剂变体-GSSGS-TEV蛋白酶切割位点-gIII的两个PCR扩增的片段组装文库。使用KOD聚合酶以谍捕获剂基因侧翼向外的寡核苷酸引物扩增载体(正向引物：5’-GGATCCAGTGGTAGCGAAAACC(SEQ ID NO:94)；反向引物：5’-AACCATGGCGCCCTGATCTCG(SEQ ID NO:95))。用Taq聚合酶在易错条件下(0.4mMMnCl₂；非平衡dNTP，0.24mM dGTP，0.2mM dATP/dCTP/dTTP终浓度)用寡核苷酸引物侧翼谍捕获剂并向内(正向引物：5’-CCTCGAGATCAGGGCGCCATGG(SEQ ID NO:96)；反向引物：5’-GAAGTAGAGGTTTTCGCTACCACTGGATC(SEQ ID NO:97))进行18-23个循环来扩增插入物，根据不同的谍捕获剂的突变负荷改变循环数。热循环后添加DpnI，在37℃下孵育1小时，并在80℃下热灭活20分钟。将全部反应混合物与6×DNA负载染料混合并通过琼脂糖凝胶电泳分离。通过凝胶提取(Thermo Scientific)纯化载体和插入物的DNA条带，并通过Gibson组件(NEB)连接。将DNA清洗、浓缩并转化为电感受态XL1Blue琥珀终止密码子抑制细胞(AgilentTechnologies)。

噬菌体的生产

通过感染将XL1Blue中的谍捕获剂库和ER2738细胞中的谍标签库转换为噬菌体展示的蛋白库。对于第一轮淘选，需要使用250mL 2xTY和氨苄西林(100μg/mL)，四环素(25μg/mL)和0.2％(v/v)甘油的较大噬菌体生长，以生产谍捕获剂噬菌体。用从如上所述产生的初始文库产生的细胞，用100μl的-80℃的文库培养物接种该培养基。对于随后的淘选回合，使用600μl的-80℃的文库培养储备液(如下所述生产)接种100mL的生长培养基。为了纯化单克隆噬菌体变体，使用过夜的起始培养物(在生长培养基中生长)来接种(以1:100的稀释度)15mL的生长培养基。在所有情况下，将培养物在37℃以200rpm培养直到达到OD600为0.5(约3-4h)，并用10¹²R408辅助噬菌体感染，并在37℃下缓慢混合(80rpm)孵育30分钟。用IPTG(0.42mM用于谍标签噬菌体产物，0.1mM用于谍捕获剂噬菌体产物)诱导谍捕获剂/谍标签-pIII蛋白的表达，并在25℃(谍标签噬菌体)或18℃(谍捕获剂噬菌体)以200rpm孵育18-20小时。

通过沉淀纯化噬菌体

将感染的细菌培养物在4℃下以15,000×g离心10分钟以去除细菌细胞。将一体积的沉淀缓冲液[无菌，20％(w/v)PEG8000，2.5M NaCl]加入4体积的上清液中。混合上清液，并在4℃下孵育3-4小时。通过在4℃下以15,000×g离心30分钟来沉淀噬菌体，并除去上清液。将噬菌体沉淀重悬于pH 7.5的PBS中(每100mL培养物2mL)，并在4℃以15,000×g离心10分钟以清除任何残余细胞，然后将上清液转移至新的试管中。如前所述，再次使混合物沉淀，但是这次重悬于每100mL培养物的0.25mL PBS的终体积中。将样品在4℃下以15,000×g离心10分钟以清除任何残留的细胞，并第三次沉淀噬菌体，并以每100mL培养物0.25mL PBS的终体积重悬浮。样品在4℃短期保存(1-2周)，或在-80℃长期保存。通常，100mL培养物给予250μL的约10¹²噬菌体/mL。

噬菌体定量

纯化的噬菌体通过裂解噬菌体(通过在PBS内在95℃煮沸7分钟)的使用特异于gIII基因的引物(5’-GTCTGACCTGCCTCAACCTC(SEQ ID NO:98)and 5’-TCACCGGAACCAGAGCCAC(SEQ ID NO:99))的qPCR进行定量。将5μL噬菌体裂解液添加到qPCR管(Qiagen)中的10μL qPCR混合液(Bioline)中产生1×SensiMix缓冲液(Bioline)和0.25μM每种引物的最终浓度。测试了已知噬菌体浓度为10⁴至10⁹噬菌体/mL的标准品以创建标准曲线，并包括水+缓冲液预混液样品作为阴性对照。使用以下样品一式两份地运行：45个循环，初始变性为95℃，10分钟(仅第一个循环)；变性95℃，10s；60℃退火10s；延伸72℃，15分钟。获得；在Rotor-Gene Q qPCR仪(Qiagen)上的绿色10黄色5，HRM 7。使用制造商的软件对数据进行分析，使用0.2的上限，并在曲线的背景噪声正上方校正斜率，以得出计数(Ct)值。使用标准品绘制噬菌体数量与Ct的关系图。

库变体淘选

使用生物素化的AP-谍捕获剂(WT/EQ)和AP-谍标签(WT/EQ)-MBP作为诱饵分别与谍标签和谍捕获剂噬菌体库反应。非反应性诱饵变体(谍捕获剂EQ和谍标签-DA-MBP)包括在平行选择中，以评估后续洗涤的效率。反应在25℃下于含有3％(w/v)BSA的pH 7.5的PBS并补充25μM His₆-MBP(用于谍捕获剂噬菌体选择，以反选与MBP而非谍标签结合的谍捕获剂噬菌体变体)中进行。在第一轮淘选中，在诱饵浓度(用于谍标签-噬菌体淘选的为0.5μMbio-AP-谍捕获剂；并且用于谍捕获剂-噬菌体淘选的为0.5μM bio-AP-谍标签-MBP)包括1×10¹²个噬菌体进入反应，并反应5小时(谍标签-噬菌体)或18小时(谍捕获剂-噬菌体)。对于谍标签-噬菌体，进行了随后的两轮淘选(第2轮为0.2μM bio-AP-谍捕获剂和30分钟反应，第3轮为0.2μM bio-AP-谍捕获剂和10分钟反应)，其中第3轮反应中进行了添加了10mMDTT的修改。对于谍捕获剂-噬菌体，进行了三轮后续选择(第2轮为0.2μM bio-AP-谍标签和30分钟反应，第3轮为0.2μM bio-AP-谍标签和10分钟反应；第4轮为0.05μM bio-AP-谍标签和10分钟反应。在每种情况下，反应时间都是通过添加过量的(50-100μM)没有AP标签并因此没有生物素化(谍捕获剂用于谍标签噬菌体淘选，而谍标签-MBP用于谍捕获剂-噬菌体)的诱饵蛋白来控制的。使用PEG/NaCl沉淀从未反应的生物素化诱饵中纯化噬菌体，弃去上清液。将含有噬菌体生物素化诱饵加合物的沉淀物重悬于200-800μL PBS pH 7.5 0.1％(v/v)吐温20中，以适合选择轮次(预期具有更长的反应时间的更早的轮次和更高的生物素化诱饵浓度需要更大数量的珠子以确保所有变体都被结合)。将生物素结合剂Dynabeads(ThermoFisher Scientific)按每孔25μl添加到96孔低结合Nunc板中，该板已在25℃下用在PBS pH 7.5中的3％(w/v)BSA+0.1％(v/v)吐温20预封闭2h。使用96孔微量滴定板磁分离架(NEB)捕获珠子，并用200μL每孔的PBS pH 7.5+0.1％(v/v)吐温-20洗涤4次。对于微量滴定板中的每个孔，将珠粒重悬于200μL含噬菌体生物素化诱饵加合物的PBS pH 7.5 0.1％(v/v)吐温-20中，并在25℃下以800rpm摇动孵育1小时。为了除去弱结合的噬菌体，将珠子用150μL甘氨酸-HCl pH 2.2洗涤一次，然后用具有0.5％(v/v)吐温-20的150μL TBS洗涤四次。通过使用50μL 0.72mg/mL的MBP-TEV蛋白酶在含有0.5mM EDTA的50mM Tris pH 8.0中以1000rpm的速度在34℃摇动2小时的TEV蛋白酶消化，从珠子上洗脱噬菌体。通过补充了25μg/mL四环素的LB中在37℃以80rpm持续30分钟的培养的ER2738(对于谍标签-噬菌体)或XL-1蓝色(对于谍捕获剂-噬菌体)的中对数(OD₆₀₀＝0.5)培养物1mL的感染挽救洗脱的噬菌体。然后将细胞稀释至100mL 2xTY(补充1％(v/v)葡萄糖、100μg/mL氨苄青霉素和25μg/mL四环素)中，并在200rpm摇动下培养12-16小时，直到细胞进入固定相。加入甘油至终浓度为20％(v/v)后，将细胞等分试样快速冷冻并储存在-80℃。洗脱的噬菌体数目通过平板系列稀释液定量。

改进的变体的体外“噬菌体上”动力学验证

在将测序的单克隆噬菌体变体克隆到细菌表达载体中之前，对这些变体进行预筛选以使其能够比同等的野生型噬菌体更好地反应。在表达和纯化噬菌体(如上所述)之后，将噬菌体浓度相对于产生的(每次都包括野生型变体)通常为2×10¹²噬菌体/mL的值进行标准化，然后使用改良版的淘选方案测定其与诱饵的反应性。所使用的反应条件是在25℃下用200-500μM生物素-AP-诱饵(AP-谍标签-MBP或AP-谍捕获剂)的PBS pH 7.5+2.5％(w/v)BSA。为了引发反应，将2μL噬菌体添加至PCR管中的6μL反应缓冲液中。在所需的反应时间(通常为15分钟)之后，将反应物用非生物素化的诱饵(终浓度100μM)在25℃淬灭20分钟。随后，加入7μL噬菌体沉淀缓冲液并在4℃下孵育1小时。将PCR管以15,000×g离心30分钟，弃去上清液，并将噬菌体沉淀重悬于200μL的PBS+0.1％(v/v)吐温20中。然后如先前所述将噬菌体添加至生物素结合的Dynabeads中，以用珠子淘选噬菌体。用150μL/mL甘氨酸-HCl pH2.2洗涤磁珠一次，然后用150μL/mL的TBS-吐温20(0.5％v/v)洗涤四次后，将磁珠最终重悬于150μL PBS中，并将50μL移入新鲜的PCR管，通过在95℃煮沸7分钟裂解噬菌体。如上所述，用MagRack 6磁铁(GE)捕获珠子，并通过qPCR定量上清液的噬菌体数量。

谍捕获剂和谍标签变体的表达和纯化

谍捕获剂变体(包括谍捕获剂002-EQ)在大肠杆菌C41 DE3(由Anthony Watts(牛津大学)提供)中表达，谍标签-MBP变体(包括谍标签002-DA-MBP)在大肠杆菌BL21 DE3RIPL(Stratagene)中表达。将单个菌落挑入含有氨苄青霉素(pDEST14)或卡那霉素(pET28a)的10mL LB中，并过夜培养。在高产量带挡板的烧瓶中，向补充有0.8％(w/v)的葡萄糖和适当抗生素的1L LB接种1/100稀释的饱和过夜培养物，并在37℃下以200rpm摇动生长。在达到OD₆₀₀ 0.5-0.6后，将培养物用0.42mM IPTG接种，并在30℃下以200rpm摇动温育4-5小时。收获细胞并在含有混合蛋白酶抑制剂(完全无EDTA的蛋白酶抑制剂鸡尾酒混合物；Roche)和1mM PMSF的TBS中通过超声处理裂解，并通过Ni-NTA(Qiagen)纯化。更换三种缓冲液将蛋白质透析到PBS中。AP-谍捕获剂(WT/EQ)、AP-谍标签(WT/DA)-MBP、谍捕获剂-sfGFP、谍捕获剂002-sfGFP、MBPx-谍捕获剂、His6-MBP、MBP-x-谍捕获剂002的表达和纯化采用相同的过程进行。NH₂-MBP-His₆-TEV蛋白酶以相似的方式表达和纯化，并修改了程序使得蛋白质在50mM Tris HCl pH 8.0+0.5mM EDTA中透析3次。

异肽键重构实验

如先前所述(Zakeri等，2012，同上)监测异肽键的形成。使用的缓冲液为：HEPES[50mM 4-(2-羟乙基)-1-哌嗪pH 7.5]、HBS(50mM HEPES+150mM NaCl pH 7.5)、TBS[50mM三羟甲基氨基甲烷+150mM NaCl pH 7.5)、PBS，PBS+1mM EDTA(乙二胺四乙酸)pH 7.5。通过添加6x SDS-PAGE负载染料(0.23M Tris HCl pH 6.8、24％(v/v)甘油、120μM溴酚蓝、0.23MSDS)淬灭时间点，然后在Bio-Rad C1000热循环仪中95℃加热6分钟。使用SDS-PAGE在16％聚丙烯酰胺凝胶上分析反应，使用InstantBlue(Expedeon)考马斯蓝进行染色，并使用GelDoc XR成像仪和Image Lab 5.0软件(Bio-Rad)对条带强度进行定量。通过将共价复合物的条带强度除以泳道中所有条带的强度并乘以100可计算出异肽重构百分比。针对谍捕获剂:谍标签-MBP共价复合物的形成的二阶速率常数是通过监控谍捕获剂的条带强度相对于未与谍标签-MBP孵育的对照的降低确定的，从而得出未反应的谍捕获剂的浓度。在反应进程曲线的线性部分中分析时间点。将1/[谍捕获剂]根据时间绘制为图表，并使用Excel通过线性回归进行分析。

当以0.1μM进行测定时(图9B)，使用了谍捕获剂-sfGFP和谍捕获剂002-sfGFP。加入SDS-负载缓冲液以保持sfGFP的荧光后，将反应在50℃的较低温度下淬灭。反应在16％SDS-PAGE上进行，使用荧光图像分析仪FLA-3000(FujiFilm)和ImageGauge 4.21版软件对未反应的谍捕获剂-sfGFP和谍标签-MBP:谍捕获剂-sfGFP共价产物带进行定量。

在PBS pH 7.5中测量反应的温度依赖性(因为其pH随温度仅有很小变化)，每种蛋白质为0.5μM。对于pH依赖性，将每种蛋白质在琥珀酸磷酸盐-甘氨酸缓冲液(12.5mM琥珀酸、43.75mM NaH₂PO₄、43.75mM甘氨酸；pH使用HCl或NaOH调节)中于0.5μM和25℃下混合，使得在很广的pH值范围内能够实现适当的缓冲。

在pH 7.5的PBS(±EDTA)、HBS、HEPES或TBS中在25℃下以0.5μM的每种蛋白质测量缓冲液依赖性。在补充有1％(v/v)吐温20或1％(v/v)Triton X-100的PBS pH 7.5中，对于每种蛋白质在0.5℃下以0.5μM测量洗涤剂依赖性。

测试谍捕获剂002和谍标签002是否反应完成的分析是在25℃的pH 7.0的琥珀酸酯-磷酸-甘氨酸缓冲液中进行1小时。为了测试谍捕获剂002是否反应完成，使10μM谍捕获剂002与20μM谍标签002-MBP反应。为了测试谍标签002-MBP是否反应完成，使10μM谍标签002-MBP与20μM谍捕获剂002反应。

在包含所需尿素(0-8M)浓度的PBS中进行测定谍捕获剂002与谍标签002-MBP的尿素浓度升高反应的分析，然后使用HCl将其调节至pH 7.5。所有反应均使用新鲜制备的含脲缓冲液在25℃下以2μM每种蛋白质一式三份进行。在30分钟和120分钟后分析反应程度。

通过QuikChange定点诱变构建谍捕获剂002-EQ和谍标签002-DA-MBP突变体。在25℃在pH 7.0的琥珀酸-磷酸-甘氨酸缓冲液中以10μM的每种蛋白质持续1小时进行分析测定。

蛋白质浓度定量

使用ProtParam计算的消光系数，通过在280nm处的吸光度确定蛋白质浓度。

质谱

使95μM谍捕获剂002与220μM含有谍标签002的肽(KGVPTIVMVDAYKRYK(SEQ ID NO:100)，由Insight Biotechnology以＞95％的纯度固相合成)在25℃在pH 7.5的PBS中反应3小时。使用3.5kDa截止值Spectra/Por透析管(Spectrum labs)用pH 7.5的10mM醋酸铵在4℃下透析反应三次，每次持续3h。在样品通过Merck Chromolith C18 2×5mm保护柱后，使用配备有电喷雾接口的Waters LCT Premier XE(Waters Corporation)进行质谱分析。用于分析数据并将m/z谱转换为分子量分布图的软件是MassLynx 4.1(具有OpenLynx开放访问权限)(Waters Corporation)。考虑到N端fMet的裂解并减去形成异肽键的18Da，使用ExPASy ProtParam计算了共价复合物的预测分子量。

序列比对

使用Clustal Omega产生多个序列比对。

序列表

<110> 牛津大学创新有限公司 (OXFORD UNIVERSITY INNOVATION LIMITED)

<120> 自发性异肽键形成速率提高的蛋白质和肽标签及其用途

<130> 20.131607/01

<150> GB1706430.4

<151> 2017-04-24

<160> 101

<170> PatentIn 版本 3.5

<210> 1

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签002 共有

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> X是精氨酸或无氨基酸

<220>

<221> 尚未归类的特性

<222> (2)..(2)

<223> X是甘氨酸或无氨基酸

<220>

<221> 尚未归类的特性

<222> (5)..(5)

<223> X是苏氨酸或组氨酸，优选是组氨酸

<220>

<221> 尚未归类的特性

<222> (11)..(11)

<223> X是丙氨酸，甘氨酸或缬氨酸，优选是丙氨酸

<220>

<221> 尚未归类的特性

<222> (14)..(14)

<223> X为精氨酸或赖氨酸，优选是精氨酸

<400> 1

Xaa Xaa Val Pro Xaa Ile Val Met Val Asp Xaa Tyr Lys Xaa Tyr Lys

1 5 10 15

<210> 2

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂002 A92P Q100D

<400> 2

Gly Ala Met Val Thr Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Pro Ile Thr Phe Thr

85 90 95

Val Asn Glu Asp Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 3

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签002

<400> 3

Val Pro Thr Ile Val Met Val Asp Ala Tyr Lys Arg Tyr Lys

1 5 10

<210> 4

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签002 T3H

<400> 4

Val Pro His Ile Val Met Val Asp Ala Tyr Lys Arg Tyr Lys

1 5 10

<210> 5

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签002 RG-T3H

<400> 5

Arg Gly Val Pro His Ile Val Met Val Asp Ala Tyr Lys Arg Tyr Lys

1 5 10 15

<210> 6

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签

<400> 6

Ala His Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10

<210> 7

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂

<400> 7

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Ser Glu Gln Gly Gln

1 5 10 15

Ser Gly Asp Met Thr Ile Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Lys Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

Gln Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Lys Ala Thr Lys Gly

100 105 110

Asp Ala His Ile

115

<210> 8

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 截短的谍标签002 共有

<220>

<221> 尚未归类的特性

<222> (3)..(3)

<223> X是苏氨酸或组氨酸，优选是组氨酸

<220>

<221> 尚未归类的特性

<222> (9)..(9)

<223> X是丙氨酸，甘氨酸或缬氨酸，优选是丙氨酸

<220>

<221> 尚未归类的特性

<222> (12)..(12)

<223> X为精氨酸或赖氨酸，优选是精氨酸

<400> 8

Val Pro Xaa Ile Val Met Val Asp Xaa Tyr Lys Xaa Tyr Lys

1 5 10

<210> 9

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签002 RG变体

<220>

<221> 尚未归类的特性

<222> (5)..(5)

<223> X是苏氨酸或组氨酸，优选是组氨酸

<220>

<221> 尚未归类的特性

<222> (11)..(11)

<223> X是丙氨酸，甘氨酸或缬氨酸，优选是丙氨酸

<220>

<221> 尚未归类的特性

<222> (14)..(14)

<223> X为精氨酸或赖氨酸，优选是精氨酸

<400> 9

Arg Gly Val Pro Xaa Ile Val Met Val Asp Xaa Tyr Lys Xaa Tyr Lys

1 5 10 15

<210> 10

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签002 RG H5变体

<220>

<221> 尚未归类的特性

<222> (11)..(11)

<223> X是丙氨酸，甘氨酸或缬氨酸，优选是丙氨酸

<220>

<221> 尚未归类的特性

<222> (14)..(14)

<223> X为精氨酸或赖氨酸，优选是精氨酸

<400> 10

Arg Gly Val Pro His Ile Val Met Val Asp Xaa Tyr Lys Xaa Tyr Lys

1 5 10 15

<210> 11

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> SEQ ID NO: 3的核苷酸序列

<400> 11

gtgccgacca tcgtgatggt ggacgcctac aagcgttaca ag 42

<210> 12

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> SEQ ID NO: 4的核苷酸序列

<400> 12

gtgcctcata tcgtgatggt ggacgcctac aagcgttaca ag 42

<210> 13

<211> 48

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> SEQ ID NO: 5的核苷酸序列

<400> 13

cgtggcgtgc ctcatatcgt gatggtggac gcctacaagc gttacaag 48

<210> 14

<211> 348

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> SEQ ID NO: 2的核苷酸序列

<400> 14

ggcgccatgg taaccacctt atcaggttta tcaggtgagc aaggtccgtc cggtgatatg 60

acaactgaag aagatagtgc tacccatatt aaattctcaa aacgtgatga ggacggccgt 120

gagttagctg gtgcaactat ggagttgcgt gattcatctg gtaaaactat tagtacatgg 180

atttcagatg gacatgtgaa ggatttctac ctgtatccag gaaaatatac atttgtcgaa 240

accgcagcac cagacggtta tgaggtagca actccaatta cctttacagt taatgaggac 300

ggtcaggtta ctgtaaatgg cgaagcaact aaaggtgacg ctcatact 348

<210> 15

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib1

<400> 15

Pro Pro Val Pro Thr Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10 15

<210> 16

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib2

<400> 16

Arg Pro Cys Tyr Val Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10 15

<210> 17

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib3

<400> 17

Gly Arg Tyr Ala Trp Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10 15

<210> 18

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib1

<400> 18

Val Pro Thr Ile Val Met Val Asp Cys Tyr Lys Arg Tyr

1 5 10

<210> 19

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib2

<400> 19

Val Pro Thr Ile Val Met Val Asp Cys Cys Leu Phe Cys

1 5 10

<210> 20

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib3

<400> 20

Val Pro Thr Ile Val Met Val Asp Phe Trp Met Arg Cys

1 5 10

<210> 21

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib4

<400> 21

Val Pro Thr Ile Val Met Val Asp Cys Arg Leu Asp Ser

1 5 10

<210> 22

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib5

<400> 22

Val Pro Thr Ile Val Met Val Asp Cys Gln Leu Ala Ser

1 5 10

<210> 23

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib6

<400> 23

Val Pro Thr Ile Val Met Val Asp Cys Ser Leu Ser Pro

1 5 10

<210> 24

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib7

<400> 24

Val Pro Thr Ile Val Met Val Asp Pro Tyr Gln Gly Thr

1 5 10

<210> 25

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib8

<400> 25

Val Pro Thr Ile Val Met Val Asp Tyr Pro Ser Arg Cys

1 5 10

<210> 26

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib9

<400> 26

Val Pro Thr Ile Val Met Val Asp Cys Tyr Lys Arg Tyr

1 5 10

<210> 27

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> CLib10

<400> 27

Val Pro Thr Ile Val Met Val Asp Phe Ile Leu Ala Asn

1 5 10

<210> 28

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib1的N端

<400> 28

Pro Pro Val Pro Thr

1 5

<210> 29

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib1-1的N端

<400> 29

Pro Val Pro Thr

1

<210> 30

<211> 15

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib1-1

<400> 30

Pro Val Pro Thr Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10 15

<210> 31

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib1-2

<400> 31

Val Pro Thr Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10

<210> 32

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> NLib1-3

<400> 32

Pro Thr Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys

1 5 10

<210> 33

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L1C1

<400> 33

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Ser Asp Gln Gly Gln

1 5 10 15

Ser Cys Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Val Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Ala Met Glu

35 40 45

Leu Arg Asp Pro Ser Gly Glu Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Ser Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Tyr Gly Lys Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 34

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L1C4

<400> 34

Gly Ala Met Val Asp Thr Phe Ser Gly Leu Ser Gly Glu Gln Gly Arg

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Arg Gly Gln Val Thr Val Asn Gly Lys Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 35

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L1C2

<400> 35

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Ser Glu Gln Gly Arg

1 5 10 15

Ser Gly Asp Met Thr Ser Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Glu Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Lys Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 36

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L2C1

<400> 36

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Ser Glu Gln Cys Gln

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

Arg Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Lys Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 37

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L1C3

<400> 37

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Ser Glu Gln Gly Gln

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Thr Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Ala Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Lys Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 38

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L1C6

<400> 38

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 39

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L2C8

<400> 39

Gly Ala Met Val Asp Thr Leu Ser Gly Leu Ser Ser Glu Gln Gly Gln

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 40

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂002 (SC002)

<400> 40

Gly Ala Met Val Thr Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 41

<211> 6

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍标签的部分

<400> 41

Ile Val Met Val Asp Ala

1 5

<210> 42

<211> 6

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂 L1C6的N端

<400> 42

Gly Ala Met Val Asp Thr

1 5

<210> 43

<211> 6

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> L1C6 D5T的N端

<400> 43

Gly Ala Met Val Thr Thr

1 5

<210> 44

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂002 D5A

<400> 44

Gly Ala Met Val Ala Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 45

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂002 D5A A92P

<400> 45

Gly Ala Met Val Ala Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Pro Ile Thr Phe Thr

85 90 95

Val Asn Glu Gln Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 46

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂002 D5A Q100D

<400> 46

Gly Ala Met Val Ala Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Ala Ile Thr Phe Thr

85 90 95

Val Asn Glu Asp Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 47

<211> 116

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 谍捕获剂002 D5A A92P Q100D

<400> 47

Gly Ala Met Val Ala Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro

1 5 10 15

Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe

20 25 30

Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu

35 40 45

Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly

50 55 60

His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu

65 70 75 80

Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Pro Ile Thr Phe Thr

85 90 95

Val Asn Glu Asp Gly Gln Val Thr Val Asn Gly Glu Ala Thr Lys Gly

100 105 110

Asp Ala His Thr

115

<210> 48

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 48

gattacgaca tcccaacgac cgaaaacctg 30

<210> 49

<211> 77

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 49

gcctgaacga tatttttgaa gcgcagaaaa ttgaatggca tgaaggcgat tacgacatcc 60

caacgaccga aaacctg 77

<210> 50

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 50

gtgatggtga tggtgatggt agtacgacat atg 33

<210> 51

<211> 80

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 51

tgccattcaa ttttctgcgc ttcaaaaata tcgttcaggc cgctgccgtg atggtgatgg 60

tgatggtagt acgacatatg 80

<210> 52

<211> 82

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 52

attacatatg ggtctgaatg atattttcga agcgcagaaa attgaatggc atgaaggtag 60

cggagcccac atcgtgatgg tg 82

<210> 53

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 53

ggggaagctt ttacgagctc gaattagtct g 31

<210> 54

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 54

ccgaaaacct gtattttcag ggcgccatg 29

<210> 55

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 55

gcatcaacca tttagctacc actggatcc 29

<210> 56

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 56

gtttaacttt aataaggaga tataccatgt cgtactacca tcaccatcac c 51

<210> 57

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 57

ctttacggcc tgaaccacca atatgagcgt cacctttagt tgc 43

<210> 58

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 58

ggtggttcag gccgtaaagg 20

<210> 59

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 59

ccttggggct cgagttatca tttgtacagt tcatccatac catgc 45

<210> 60

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 60

catggtatat ctccttatta aagttaaaca aaattatttc tacaggg 47

<210> 61

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 61

tgataactcg agccccaagg 20

<210> 62

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 62

catggtatat ctccttatta aagttaaaca aaattatttc tacaggg 47

<210> 63

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 63

tgataactcg agccccaagg 20

<210> 64

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 64

ggtggttcag gccgtaaagg cgaagagctg 30

<210> 65

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 65

cgcgatttgc tggtgaccca atgcgaccag atgctccacg cccagtcgcg taccgtcctc 60

<210> 66

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 66

gccctgaaaa tacaggtttt cggtcgttgg g 31

<210> 67

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 67

gaggacggta cgcgactggg cgtggagcat ctggtcgcat tgggtcacca gcaaatcgcg 60

<210> 68

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 68

cgagctcggg ttcgggcggt agtggtgcca tggtaaccac cttatcaggt ttatcaggtg 60

<210> 69

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 69

gtggtggtgc tcgagtgcgg ccgcaagctt ctattaagta tgagcgtcac ctttagttgc 60

<210> 70

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 70

ggtttcgcca cctctgactt gagcgtcg 28

<210> 71

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 71

catggcacca ctaccgcccg aacccgagct cg 32

<210> 72

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 72

aagcttgcgg ccgcactcga gcaccaccac caccaccact gagatccggc 50

<210> 73

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 73

cgacgctcaa gtcagaggtg gcgaaacc 28

<210> 74

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 74

ggcagcattg aatttattaa agtgaacaaa ggcagtggtg agtcgggatc cggagctagc 60

<210> 75

<211> 80

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 75

gtttattatt tatagcgttt gtaggcgtcc accataacaa tagtaggaac accggaacct 60

tccccggatc cctcgaggcc 80

<210> 76

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 76

ggacgcctac aaacgctata aataataaac tctagcacca ctgagatccg gctgctaac 59

<210> 77

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 77

actgcctttg ttcactttaa taaattcaat gctgcccagt ttccccatat ggctgccgcg 60

<210> 78

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 78

tcgagggcgg cgcccacatc gtgatggtgg acgcctacaa gccgacgaag ggcgc 55

<210> 79

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 79

ggccgccttc gtcggcttgt aggcgtccac catcacgatg tgggcgccgc cc 52

<210> 80

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 80

tcgagggcgg cgcccacatc gtgatggtgg ccgcctacaa gccgacgaag ggcgc 55

<210> 81

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 81

ggccgccttc gtcggcttgt agcggccacc atcacgatgt gggcgccgcc c 51

<210> 82

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 82

taatctcgag atcagggcgc catggttgat accttatc 38

<210> 83

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 83

atatgcggcc gctccactcc cctggaagta gaggttttc 39

<210> 84

<211> 68

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 84

gcgtttagcg catcggcggg cagctaccca tacgatgttc cagattacgc tggtgcagct 60

gcaggtcg 68

<210> 85

<211> 79

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 85

cgccgatgcg ctaaacgcta aaactaaacc agccagcgcc agccaaatct ttttcatagc 60

tgtttcctgt gtgaaattg 79

<210> 86

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 86

ggtgcagctg caggtcg 17

<210> 87

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 87

tttcatagct gtttcctgtg tgaaattg 28

<210> 88

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<220>

<221> 尚未归类的特性

<222> (11)..(12)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (13)..(13)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (14)..(15)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (16)..(16)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (17)..(18)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (19)..(19)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (20)..(21)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (22)..(22)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (23)..(24)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (25)..(25)

<223> k是g或t

<400> 88

acctcgagat nnknnknnkn nknnkatcgt gatggtggac gcctacaagc c 51

<210> 89

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 89

attcatatgg tttaccagcg ccaaagacaa aaggg 35

<210> 90

<211> 80

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<220>

<221> 尚未归类的特性

<222> (37)..(38)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (39)..(39)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (40)..(41)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (42)..(42)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (43)..(44)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (45)..(45)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (46)..(47)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (48)..(48)

<223> k是g或t

<220>

<221> 尚未归类的特性

<222> (49)..(50)

<223> n是a, c, g, 或t

<220>

<221> 尚未归类的特性

<222> (51)..(51)

<223> k是g或t

<400> 90

cgacctcgag atgtgcctac tatcgtgatg gtggacnnkn nknnknnknn kgcggccgca 60

ggctctaaag atatcagacc 80

<210> 91

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 91

gatcgttgtc agaagtaagt tggcc 25

<210> 92

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 92

ggccaactta cttctgacaa cgatc 25

<210> 93

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 93

gtccaccatc acgatagtag gcacatctcg aggtcgacct gc 42

<210> 94

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 94

ggatccagtg gtagcgaaaa cc 22

<210> 95

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 95

aaccatggcg ccctgatctc g 21

<210> 96

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 96

cctcgagatc agggcgccat gg 22

<210> 97

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 97

gaagtagagg ttttcgctac cactggatc 29

<210> 98

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 98

gtctgacctg cctcaacctc 20

<210> 99

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 引物

<400> 99

tcaccggaac cagagccac 19

<210> 100

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 包含肽的谍标签002

<400> 100

Lys Gly Val Pro Thr Ile Val Met Val Asp Ala Tyr Lys Arg Tyr Lys

1 5 10 15

<210> 101

<211> 83

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 截短的谍捕获剂002变体

<400> 101

Asp Ser Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Arg

1 5 10 15

Glu Leu Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr

20 25 30

Ile Ser Thr Trp Ile Ser Asp Gly His Val Lys Asp Phe Tyr Leu Tyr

35 40 45

Pro Gly Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu

50 55 60

Val Ala Thr Pro Ile Thr Phe Thr Val Asn Glu Asp Gly Gln Val Thr

65 70 75 80

Val Asn Gly

Claims

1.一种包含肽和多肽的两部分接头，其中：

a)所述肽由SEQ ID NO：3-5任一所示的氨基酸序列组成；并且

b)所述多肽由SEQ ID NO：2、40或44-47任一所示的氨基酸序列组成。

2.根据权利要求1所述的两部分接头，其中所述肽由SEQ ID NO：5所示的氨基酸序列组成。

3.根据权利要求1或2所述的两部分接头，其中所述肽和/或所述多肽缀合至核酸分子、蛋白质、肽、小分子有机化合物、荧光团、金属-配体配合物、多糖、纳米颗粒、纳米管、聚合物、细胞、病毒、病毒样颗粒或其组合。

4.根据权利要求1或2所述的两部分接头，其中所述肽和/或多肽被固定在固体基质上。

5.一种肽，其由SEQ ID NO：3-5任一所示的氨基酸序列组成。

6.根据权利要求5所述的肽，其中所述肽缀合至核酸分子、蛋白质、肽、小分子有机化合物、荧光团、金属-配体配合物、多糖、纳米颗粒、纳米管、聚合物、细胞、病毒、病毒样颗粒或其组合。

7.根据权利要求5或6所述的肽，其中所述肽被固定在固体基质上。

8.一种多肽，其由SEQ ID NO：2、40或44-47任一所示的氨基酸序列组成。

9.根据权利要求8所述的多肽，其中所述多肽缀合至核酸分子、蛋白质、肽、小分子有机化合物、荧光团、金属-配体配合物、多糖、纳米颗粒、纳米管、聚合物、细胞、病毒、病毒样颗粒或其组合。

10.一种核酸分子，其包含编码(i)根据权利要求5至7任一项中所定义的肽或(ii)根据权利要求8或9中所定义的多肽的核苷酸序列。

11.一种载体，其包含根据权利要求10所述的核酸分子。

12.一种细胞，其包含根据权利要求10所述的核酸分子或含根据权利要求10所述的核酸分子的载体。

13.一种产生或表达根据权利要求5至7中任一项所述的肽和/或根据权利要求8或9所述的多肽的方法，其包括以下步骤：

a)用载体转化或转染宿主细胞，所述载体包含权利要求10中所定义的编码所述肽和/或多肽的核苷酸序列；

b)在允许所述肽和/或多肽表达的条件下培养所述宿主细胞；并且任选地

c)分离所述肽和/或多肽。

14.根据权利要求1或2所述的两部分接头肽用于通过异肽键缀合两个分子或组分的用途，

其中所述通过异肽键缀合的所述分子或组分包括：

a)包含权利要求5至7中任一项所述的肽的第一分子或组分；和

b)包含权利要求8或9所述的多肽的第二分子或组分。

15.一种通过异肽键缀合两个分子或组分的方法，包括：

a)提供包含权利要求5至7中任一项所述的肽的第一分子或组分；

b)提供包含权利要求8或9所述的多肽的第二分子或组分；

c)在使所述肽和多肽之间自发形成异肽键的条件下接触所述第一和第二分子或组分，从而通过异肽键将所述第一分子或组分与所述第二分子或组分缀合以形成复合物。

16.一种试剂盒，其中所述试剂盒包含：

(a)根据权利要求5至7中任一项所述的肽；和

(b)根据权利要求8或9所述的多肽；和/或

(c)编码(a)中定义的肽的核酸分子；和

(d)编码(b)中定义的多肽的核酸分子。

17.根据权利要求16所述的试剂盒，其中编码(a)中定义的肽的核酸分子和/或编码(b)中定义的多肽的核酸分子是载体。