CN100357314C

CN100357314C - 一种分子物质连接的方法

Info

Publication number: CN100357314C
Application number: CNB008153167A
Authority: CN
Inventors: G·伯姆; U·施密特; C·帕蒂尔; C·京特
Original assignee: ACGT Progenomics AG
Current assignee: ACGT Progenomics AG
Priority date: 1999-11-03
Filing date: 2000-11-03
Publication date: 2007-12-26
Anticipated expiration: 2020-11-03
Also published as: JP4112859B2; EP1227848A2; WO2001032684A3; DE50012831D1; WO2001032684A2; EP1227848B1; AU2154801A; DE19952956A1; CN1390140A; US20060252130A1; JP2003517300A; ATE326984T1; US7807782B2

Abstract

本发明涉及一种将两种或更多种分子物质连接起来的方法。借助衔接头片段，基于富含脯氨酸的氨基酸序列与WW型蛋白质结构域之间的亲合性，该方法产生了靶向相互作用。

Description

一种分子物质连接的方法

本发明涉及一种使用衔接头片段将两个或更多个分子物质连接起来的方法，该衔接头(adapter segments)片段引起基于富含脯氨酸的氨基酸序列与WW型蛋白质结构域片段之间的亲和力而产生的定向作用。

发明范围和现有技术状况

在生物技术和医药研究、开发和应用领域中经常遇到两个或更多的分子物质之间相互作用的问题。特别是作为分子物质的两个或多个蛋白质或肽之间的相互作用通常因此受到考虑。这些相互作用通常作为生物化学和细胞生物学研究的一部分予以探究，例如，细胞外通讯和细胞内通讯、分子水平信号转导或蛋白质-蛋白质相互作用分析(除了别的以外，，使用双杂交系统及其衍生方法)。而且，生物分子的缔合，特别是两个或更多个蛋白质分子在体外合成融合蛋白，对许多生物技术方法具有重要意义。用这样方法生产的融合蛋白，如异源双功能(二价的)抗体(所谓“双体”(diabodies)；参见，O.Perisic，P.A.Webb，P.Holliger，G.Winters &R.L.Williams，一种双体——二价抗体片段的晶体结构，Structure 2，pp.1217-1226，1994)，其包含了两个不同抗体的结合域(Fab/Fv/scFv片段)。因此，举例而言，如果抗体的两个价分别针对肿瘤细胞或自然杀伤细胞，那么双价杂交融合蛋白于是就可以介导杀伤细胞附着于肿瘤细胞。就免疫毒素来说，抗体结合了毒性物质，细胞毒素借助特异的抗原抗体相互作用进入预定细胞类型(参见M.A.Ghetie &E.S.Vitetta，免疫毒素治疗的新进展，Curr.Opin.Immunol.6，707-714，1994)。

在多种蛋白质的融合结构或集合体的帮助下，基本上来说任何效应物可以与其它效应物结合，利用与抗原的适当相互作用或其他生物效应，一个杂交分子可以获得两种功能或特性。关于此点已报道很多实例(J.P.McGrath，X.Cao，A.Schutz，P.Lynch，T.Ebendal，M.J.Coloma，S.L.Morrison & S.D.Putney，神经生长因子与一种运铁蛋白抗体之间的双功能融合，J.Neurosci.Res.47，123-133，1997；J.M.Betton，J.P.Jacob，M.Hofnung，J.K.Broome-Smith，通过在麦芽糖糊精结合蛋白中插入β-内酰胺酶产生一种双功能蛋白，Nat.Biotechnol.15，1276-1279，199.7；Y.Maeda，H.Ueda，T.Hara，J.Kazami，G.Kawano，E.Suzuki & T.Nagamune，在哺乳动物细胞中表达一种双功能嵌合蛋白——A-Vargula hilgendorfii萤光素酶，Biotechniques 20，116-121，1996；W.Wels，I.M.Harwerth，M.Zwickl，N.Hardman，B.Groner & N.E.Hynes，一种定向于人erbB-2受体的双功能单链抗体-磷酸酶融合蛋白的构建、细菌表达及特性描述，生物工艺学(Biotechnology)(纽约)10，1128-1132，1992)。

异源双重功能结构通常是通过基因水平上合成融合蛋白而产生。这一般以两组分间的合适的连接元件(接头)，以及多肽链的可及末端为前提。但在有些不利情况下，组分间融合会导致融合产物失去活性，例如因为融合蛋白不能形成正确的三维折叠拓扑结构。所以，通常值得在体外进行两种融合组分的连接，更确切地说，是在两种组分分别合成和折叠之后进行。举例而言，这种方法也使得单一元件的多种结合的快速产生和分析成为可能，而不需要每次构建新的遗传结构。对于这些组分的融合而言，衔接头片段是必需的。通过衔接头片段，有关组分间的融合或定向缔合过程与其产品分离开来。而且，因此衔接头元件(结构域或肽序列)必须与有关组分紧密结合，并且它们的专一性不能发生改变。

在其他应用中，希望在两种分子之间形成短暂但强烈的的相互作用。所以，肽和小的蛋白结构域具有特别重要的作用，因为在蛋白质的重组生产过程中，它们可以相对容易地安插在想得到的目的蛋白上。这一方法的应用在于，例如，通过特异的结合片段纯化重组产生的蛋白质。通常在镍螯合柱上结合一种多聚组氨酸肽片段(参见：P.Hengen，从大肠杆菌中纯化His-Tag融合蛋白，trends Biochem.Sci.20，285-286，1995)，或在链霉亲合素上结合一个称作Strep-Tag的肽片段(T.G.Schmidt，J.Koepke，R.Frank & A.Skerra，Strep-Tag亲和肽与其同源目的物，链霉亲合素之间的分子间相互作用，J.Mol.Biol.255，753-766，1996)。然而，组氨酸标记法(His-Tag)存在一个缺点，即，多聚组氨酸多肽片段只能与含有镍离子的结构结合；而两个天然蛋白质或肽的连接不能使用这种方法。所以，对分子物质的连接而言，该方法是不适用的，或者只在例外情况下适用。在用这种方法纯化的制剂中，人们也常常在其溶液中发现镍离子，这使得这种系统在医药治疗应用中不引人注意。对于Strep-标记法(Strep-Tag)，具有结合作用的组分中介导结合的区域相对较大，所以由于空间原因，这种方法不适于多种连接。另外，抗生物素蛋白与链霉亲合素都含有4个结合位点，因而在溶液中很难控制两个不同连接分子物的形成。

除了以这样的一种方式用于纯化标记蛋白外，将蛋白质固定在固态惰性基质上也具有很高的的生物技术重要性，例如在基质上将蛋白质再折叠以阻止折叠中的聚集过程(参见：G.Stempfer，B.Holl-Neugebauer & R.Rudolph，对一种固定化融合蛋白的改良再折叠，Nat.Biotechnol.14，329-334，1996)，或者在生物反应器中酶的固定化。然而，上述方法中提到的到现在为止仍使用的聚离子序列存在一个缺点，即，它们的相互作用严重地受到了聚离子存在的干扰，如溶液中的DNA，或者也因为多种可溶性添加剂。

本发明的目的是提供一种不存在现有技术上述缺点的一种分子物质连接方法。

根据本发明，通过基于权利要求1所述的越过衔接头片段将两个或多个分子物质相互连接的方法，达到了此目的，其特征在于：

分子物质之一以这样的一种方式修饰，即，它，至少在其一个区域作为衔接头片段，展示一个WW结构域或其衍生结构，

另一种分子物质以这样的一种方式修饰，即，它，至少在其一个区域作为衔接头片段，展示一个与WW结构域或其衍生结构结合的富含脯氨酸序列，

通过WW结构域或其衍生结构与富含脯氨酸序列的缔合，分子物质相互间产生相互作用从而实现彼此键联。

实施本发明的有利方式公开在所附的权利要求书及说明书中。

发明概述

将两个或更多不同的分子物质(分子种类)连接为一个融合结构，通常是异源双功能结构，是一种具有重要生物技术与制药价值的方法。通常，作为本发明所适应用的一部分，蛋白质和(或)多肽是被用作连接的分子种类，因为本发明中的衔接头片段也源于这类化学物质。根据本发明，其它具有本发明中衔接头片段之一的分子物质也是可以使用的。例如，与本发明一致，一种分子物质可以通过特定衔接头片段加载到一种固态基质上。在多数情况下，被连接的两种物质必须相互稳定、共价地连接起来。相反地，在某些应用中，也期望两种分子种类之间的相互作用是在有限的时间里，并且可以很快再次解离，例如通过引入添加剂。仍在另外的一些应用中，一种分子物质必须固定化一段时间，从而以专一性的方式与基质发生作用，例如在重组蛋白质的生产中用于从细胞粗提液中纯化蛋白，或用于蛋白质的介质支持再折叠。本方法正适合于这些应用。

基于本发明，例如，一种蛋白质可以直接包装于类似病毒外壳的内部，或者是两个或更多不同蛋白质可以连接成为一个具有新特性的嵌合蛋白，例如双价抗体。类似地，这种相互作用还可以用于一种分子物质的固定化，例如，用于从混合物中分离这种物质。

除了通过衔接头片段，基于WW结构域与富含脯氨酸序列间的相互作用的连接以外，还可以发生分子物质间的共价键连接。这种共价连接例如，通过在两种分子物质的适宜位点人为引入半胱氨酸从而产生二硫键，从而在两种分子物质之间产生稳固连接。通过二硫键，可以产生在生理及各种普通溶剂条件中稳定存在的双功能融合分子，因而也可用于医药、治疗、诊断及生物技术过程。

上述本发明的可能应用形式也在图1中以示范形式给出。

遵照本发明实现两种或更多种分子物质连接时，应用了被称为WW结构域的蛋白片段与富含脯氨酸肽序列(在由2至6个氨基酸组成的短肽连续片段中脯氨酸含量超过50％)。当它们在一起孵育时，这两种分子表现出非常强的相互作用(解离常数K_D为20至100nM)。两部分的缓慢解离导致这种相互作用最初是暂时有效的事实。如果不希望这样，可以通过在结合组分上引入二硫键进行固定来防止解离。人为地将半胱氨酸引入两个衔接头片段的适宜位点或衔接头片段区。在组分缔合之后，通过选择合适的氧化还原条件氧化半胱氨酸对，以这种方式使组分相互稳定地共价结合。产生的杂交融合蛋白表现出各个组成分子的基本特性。

WW结构域是一个小的球状蛋白结构域，通常包含30至40个氨基酸(参见：M.Sudol，WW结构域与多聚脯氨酸的结合及其与人类疾病的相关性，Exp.& Mol.Medicine 28，65-69，1996)，但是，也已知它的截短变体。WW结构域对富含脯氨酸的配体具有很高的自然亲和性，它们结合时的解离常数为20-100nM。富含脯氨酸的配体是一个脯氨酸含量大于50％，具有与5至15个氨基酸结合所必须的最短长度的片段，藉此，通常这种直接的相互作用发生在一个有2至6个氨基酸(脯氨酸含量大于50％)的局部片段中。因此，天然配体几乎只是其氨基酸序列中包含富含脯氨酸片段的蛋白质，而富含脯氨酸的肽也是WW结构域的专一性配体。

WW结构域得名于观察资料，即，在间隔20至22个氨基酸的区域内存在两个保守的色氨酸残基(简写为WW)；第二个色氨酸与一些同样保守的重要的疏水性氨基酸从而形成了富含脯氨酸配体的结合口袋。在第二个色氨酸之后，间隔2个氨基酸之处，常有一个保守的脯氨酸。已知一系列不同类型的WW结构域，它们目前被分为4类，并且互不相同，特别在优先结合的肽配体方面。原则上，WW结构域可以同SH3-结构域(在结构上不具有相关性)竞争结合富含脯氨酸配体，但是SH3-结构域的配体表现出偏差共有序列，所以，与WW结构域专一性结合的富含脯氨酸配体可以衍生而来。而且，WW结构域与富含脯氨酸配体的结合通常强于SH3结构域与之的结合。下表举出了WW结构域蛋白的类型及其配体结合特性的概况。

WW结构域类型	富含脯氨酸配体的特异结合基序^*	举例/作用物
WW结构域类型	富含脯氨酸配体的特异结合基序^*	举例/作用物	I	Pro-Pro-(任意氨基酸)-(Tyr)	YAP65，Pin1，肌营养不良蛋白
II	Pro-Pro-Leu-Pro	FBP11，FE65	I	Pro-Pro-(任意氨基酸)-(Tyr)	YAP65，Pin1，肌营养不良蛋白
II	Pro-Pro-Leu-Pro	FBP11，FE65	III	Pro-Gly-Met	FBP21，PRP40
IV	二氧磷基-Ser/二氧磷基-Thr	Pin1，Nedd4	III	Pro-Gly-Met	FBP21，PRP40

^*与富含脯氨酸序列(脯氨酸含量大于50％)直接临近的部位，例如，通过I型WW结构域序列中的氨基酸变换L14W(14位亮氨酸变换为色氨酸)和H16G(16位组氨酸变换为甘氨酸)，可以实现将WW结构域从I型转化为II型，并将随之产生关于富含脯氨酸的肽的专一性上的改变。I型的一种作用物结构表明(Yes缔合蛋白(Yes associated protein，YAP))这类WW结构域包含一个由三条β-链组成的β-片层(参见：M.Macias，M.Hyvonen，E.Baraldi，J.Schultz，M.Sudol，M.Saraste & Mr.Oschkinat，与富含脯氨酸肽形成复合体的WW结构域之结构，自然382，646-649，1996)。配体结合口袋是由β-片层的第二个β-链与第二个保守色氨酸合作形成。

WW结构域的最主要的生物学作用明显体现在细胞内信号转导中。此外，已知WW结构域直接或间接地与一些疾病有关，如遗传性Liddle氏综合征、肌肉萎缩症与Alzheimers症；所以，它们是一系列治疗战略的靶点。最后，WW结构域在肾脏的胚期发育及逆转录病毒的细胞内生命周期中发挥了生物学作用。

作为本发明的一部分，人们发现，吃惊的是，WW结构域在通常的溶剂条件下可以形成一个稳定的结构(折叠的拓扑结构)，即使它们是从原始的分子环境中分离出来遗传融合进，或根据情况，融合到其他蛋白上，例如病毒外壳蛋白。例如，这将应用于来自非常小、只有31个氨基酸的形成素结合蛋白的WW结构域，该WW结构域在这些条件下形成稳定结构(折叠的拓扑结构)。令人注意的是，在有利条件下，将WW结构域和丝氨酸与甘氨酸组成的接头片段引入蛋白质外部环，明显地不会干扰该蛋白的折叠，也不会因此使WW结构域的结合特性受到负面影响。并且可以表明这也应用于WW结构域的变体，例如，在特定位点其氨基酸被替换为半胱氨酸。这同样适用于WW结构域衍生而来的附加结构，例如，象几个连续通过连贯结合而型成的WW结构域，它们对连接的贡献或是分别相加，或是在有利情况下是协作效应，截短或延长WW结构域，甚或是根据应用需要，例如使其在富含脯氨酸序列上的结合比天然蛋白结构域更强或更弱，让WW结构域带有单个氨基酸的定点变换。举例而言，使用当前的噬菌体展示技术方法通过相互作用筛选，就可以获得这些被改变的WW结构域。

内部含有插入(即，在宿主蛋白多肽链的合适环形区域引入)或融合[分别位于宿主蛋白的N-端和(或)C-端]的WW结构域的蛋白质对富含脯氨酸序列表现出很高亲合性。所以，这些富含脯氨酸序列可以与其他种蛋白质、肽以及其它分子物质融合。利用附加的相互作用部分(WW结构域和富含脯氨酸序列)，于是可以实现任意两种分子物质的接触。这种缔合首要基于WW结构域与富含脯氨酸配体所介导的疏水相互作用。但是，这种相互作用可以调节以便获得更高专一性和灵活性，例如通过建立离子相互作用或在WW结构域与富含脯氨酸配体间引入共价键。所以，通过引入附加的不同电荷性质的氨基酸，或通过在衔接头中或其附近引入点突变，富含脯氨酸配体与WW结构域间的聚集可以加强或更加专一地结合。反过来，两种成分间的共价二硫键可以使结合在那的衔接头片段和分子物质可能产生持久且牢固的结合。

遵照本发明，两种以上分子物质间的连接也是可能的。

相互作用的动力学参数，如解离常数(K_D)，可以作为基于表面胞质团共振测量法的相互作用测量研究的一部分而被确定。通过这些数据，可以看出WW结构域与富含脯氨酸序列之间的相互作用基本上适合于本发明所述的应用领域。

衔接头片段相互作用的性质排除了异体杂交物的开发，这种物质一部分带有WW结构域，一部分带有富含脯氨酸序列。排除了产生同功能分子群(同型二聚体)的可能。利用可比参数与其他系统进行比较，所用WW结构域突出地具有小而紧凑的优点。因而它在很多应用中比其它配体结合结构域(如脂质运载蛋白和抗生成素)具有明显的优势，如在抗原抗体相互作用中。

此外，可能表明，除了WW结构域与富含脯氨酸序列之间相互作用以外，在WW结构域中与富含脯氨酸的底物中的特定位点引入半胱氨酸，可被用于在缔合组分间产生共价结合，从而使蛋白质部分以稳定连接方式融合到衔接头片段上。这样，即使在不利条件下，例如，非常高或非常低的盐浓度，或生理极限温度下，也不会造成相互连接组分的解离。为了达到这个目的，可以在一些位点如Asp8(按形成素结合蛋白FBP11在WW结构域上的结合位点算起)或Lys19处替换为半胱氨酸。这些位点只选作例证；在WW结构域的其它位点及其周围，富含脯氨酸序列及其周围，引入特异的半胱氨酸也是有用和成功的。

本方法的独特优势在于，在另一方面，只有异源双功能物(异二聚体)可以产生，由于WW结构域与富含脯氨酸序列之间的强烈作用，起初只有两种衔接头片段的二者之间形成结合。接着，在氧化条件下形成二硫键，从而导致直接形成共价结合的异源物。由于缔合形态中局部部位半胱氨酸浓度(近似值)很高，在较低还原性条件下，二硫键也可以成功形成，从而产生独特特异性。相反，在随机形成二硫键的情况下，就是说，不存在衔接头片段相互间的必要的强亲合性时(此非本专利所涉及的应用)，在氧化条件下将会以副产物的方式产生不合需要的两种相互作用组份的同型二聚体。

本发明所述方法适用于在溶液中(体外)将任意作用组份连接起来，藉此，两种组份的暂时和永久连接都是可能的。同样地，本方法也可用于从混合物中专一地分离蛋白质、肽或其他分子物质，这些物质都带有两种类型的衔接头(WW结构域或富含脯氨酸序列)中的一种。这可以通过与已经共价结合各自作用组分的基质可逆性的结合而实现。这种强结合如此有效使得在苛刻的溶剂条件下分子仍然附着在基质上。因而，举例而言，这种方法使快速有效的从细菌或真核细胞的细胞粗提液中纯化重组蛋白成为可能，条件是重组分子(欲被纯化的分子)以融合或插入方式带有两种衔接头片段(WW结构域或富含脯氨酸序列)之一，而与该衔接头片段相对应的另一个衔接头片段固定于固定相位。

同样地，这种固定化方法适用于实施特定修饰或使固定在基质上的蛋白质发生再折叠，从而避免凝集过程。最后，借助本发明，也可能实现这些应用，其中分子物质简单且稳定的固定化，例如，在生物传感器或生物反应器中起了关键性作用(参见：R.S.Phadke，生物传感器与酶固定化电极，Biosystems 27，203-206，1992；M.Abdul-Mazid，生物催化和固定化酶/细胞生物反应器，生物反应器技术领域的前景技术，生物技术(Biotechnology)(纽约)11，690-695，1993)。

除了蛋白质与多肽，本发明所述方法也可以应用于其它物质。因而，肽衍生物、肽类抗生素、带有修饰侧链的蛋白质，如荧光标记、烷基化、乙酰基化、含巯基物质的二硫化物混合物以及类似变化可以以相似方法予以应用。本方法也可以使用蛋白质或肽与糖类、核酸或脂类成分的偶联物。同样地，核酸如DNA、RNA，核酶，人工合成核酸如肽核酸，或它们的杂交体可以与一种衔接头片段连接，例如通过化学方法。这样，它们同样适合参与和类似作用组份的相互作用。对这些应用的唯一要求是所使用衔接头片段之一的稳定结合。

在本发明所涉及的应用领域中，抗体、抗体类似物、酶、结构蛋白质、病毒或噬菌体的壳粒均被特别地看作蛋白质。

原则上，WW结构域或富含脯氨酸序列及其衍生结构的插入或附加于一个分子物质可以发生在该分子物质的任意位点，只要WW结构域的结构不会因此受到本质影响。如果可行，在使用合适的接头片段时，如实施例1所述应用于PyVP1-WW150蛋白质，实施附加或插入有一定优点。在插入蛋白质的情况下，有利于找到其中不存在像α-螺旋或β-片层这样的周期性二级结构成分的蛋白结构区域。而在按照习惯定义存在转角区或不规则螺旋区的蛋白结构中插入WW结构域或富含脯氨酸序列最有益。

两种衔接头片段的相互结合被认为存在几种不同的物理作用。因而，疏水作用在稳定这种相互作用的同时起到控制作用，这将在后面的实施例7中加以解释。但是，其它作用形式也对结合有贡献，如离子相互作用、偶极-离子相互作用、偶极-偶极相互作用、氢键、范德华力及分散力。最后，除了前面提到的非共价结合的范例以外，两种分子物质之间也可以发生共价连接。于是，相互作用组份的两个原子之间产生化合的稳定原子键，优选的是两个参与反应的半胱氨酸侧链形成二硫键形式。

为了实现一种衔接头片段(WW结构域或富含脯氨酸序列)的固定化，基质可被赋予电荷，例如，可以通过富含脯氨酸序列或WW结构域的氨基端(与基质的N-羟基琥珀酰亚氨酯结合)，或通过富含脯氨酸序列或WW结构域内的某一半胱氨酸的一个巯基(与基质的碘乙酰胺基团结合)。基于现有技术，琼脂糖及琼脂糖衍生物、琼脂糖颗粒、琼脂糖凝胶、葡聚糖、糖类或类似聚合物都可以用作基质。

本发明的应用在下面的实施例中予以说明，但是，本发明的保护范围并不局限于此。

以下是本说明及实施例中参考的图形。

图1、是本发明图示。使用了基于富含脯氨酸序列与WW结构域相互走用为基础的衔接头片段及及其衍生结构。(a)两种分子物质A与B通过衔接头片段的连接。(b)与(a)相似，为两种分子物质A与B的连接，但是增加了二硫键以便在组分间形成共价连接。(c)通过衔接头片段(一种分子代表介质或介质的一部分)将一种分子物质固定在基质上(该分子代表基质或基质的一部分)。衔接头片段可以附加在分子末端或以插入物形式结合。

图2、表示(a)通过SDS-PAGE方法，比较了多瘤病毒蛋白质VP1的不同变体的蛋白分子量及纯化效率，所用变体是PyVP1-CallS-T249C变体(与天然蛋白质进行比较)与第150位氨基酸附近的环形区域插入了一个WW结构域的PyVP1-WW150变体。实施例1对变体产生与纯化进行了全面描述。对所有两种变体来说，表现出较小分子量的蛋白质降解产物通常会出现。(b)PyVP1-WW150变体与PyVP1-CallS-T249C变体的圆二色谱(CD)。在150位插入的WW结构域表现出自然折叠状态，因而在CD-谱中β-片层结构的份额有所增加。

图3、根据实施例2，本图表现了PyVP1-WW150与带有固定化富含脯氨酸肽的传感芯片的结合情况。根据表面胞质团共振法的三次测量表明溶剂添加剂对相互作用的亲合力及专一性有微弱的影响，其中，(b)和(c)中使用的添加剂分别代表复杂的生理混合物。(a)PyVP1-WW150在正常溶剂条件下与传感芯片表面的结合。(b)PyVP1-WW150在使用Dulbecco’PBS作为工作缓冲液的条件下与传感芯片表面的结合。(c)PyVP1-WW150在添加小牛胎儿血清(FCS)作为生理相关物质混合物模型的条件下与传感芯片表面的结合。

图4、为SDS凝胶图，说明PyVP1-WW150与带有脯氨酸肽的基质的专一性结合。

泳道1：所用的VP1-WW150(如实施例1所述进行纯化)；泳道2与泳道3：不同的洗涤组分；泳道4与泳道5：洗脱缓冲液中含有1％SDS的洗脱组分；

泳道6：10kDa的分子量标准。本实施例表明包含WW结构域的蛋白可以被可逆地固定在基质上。检测到的PyVP1变体双带代表天然蛋白质和在所有制备过程中经常出现的蛋白质水解形成的降解产物。

图5、为凝胶过滤图(TSK凝胶G5000PWXL，TosoHaas)，说明一个富含脯氨酸肽与一个具有插入VP1并暴露在衣壳表面的WW结构域的病毒样衣壳表面的结合。在实施例4所表明的条件下，可以发生PyVP1-WW150蛋白装配进衣壳。富含脯氨酸肽可以结合在病毒样衣壳上，这可以通过连接其上的染料的特异性吸收予以证实。左上：通过测定260和280nm的吸收，证实了衣壳的形成；衣壳的洗脱体积是6-8ml，未装配的自由五聚体出现在9-10ml。左下：荧光标记肽在490nm处的吸收；该肽的洗脱与衣壳洗脱平行，五聚体洗脱在6-10ml时。大于10ml时，剩余的自由肽与荧光染料一起洗脱出来。右上：自由未结合肽与介质不作用，只在大于10ml时洗脱出来。右下：左上与左下的色谱图的叠加图，以便说明结合肽与衣壳组分的共洗脱。

图6、显示出(a)PyVP1-3C-WW1和PyVP1-3C-WW[N-14]变体的纯化。SDS凝胶(12％)展现了没有WW结构域的PyVP1蛋白质(泳道2)，来自实施例1的PyVP1-WW150变体(泳道3)，来自实施例8的所有两种变体(PyVP1-3C-WW1在泳道4和泳道5，PyVP1-3C-WW[N-14]在泳道6)。泳道1和泳道7是分子量标准(梯级为10kDa)。(b)GFP的变体GFP-PLP的纯化，SDS(15％)凝胶分析。泳道M，分子量标准(梯级为10kDa)；泳道Int，内含肽亲和柱的洗涤组分；组分1-9，GFP-PLP蛋白的不同洗脱组分片段。

图7、为分子物质在多瘤病毒VP1变体的病毒样衣壳内部的包装。(a)GFP-PLP包装进入包含PyVP1-3C-WW1的衣壳中。GFP-PLP在标准条件下进行装配前，以6倍摩尔量添加GFP-PLP。所示凝胶过滤实验(TSK凝胶G6000PWXL，TosoHaas)显示出，衣壳组分(洗脱体积为9ml)被从PyVP1变体的自由的、未装配五聚体及GFP蛋白质(洗脱体积为11-13ml)中分离出来。在衣壳片段内存在，通过WW结构域/多聚脯氨酸作用，GFP被导入衣壳内部，所以在衣壳组分中存在可检测量的GFP。(b)N-端带有WW结构域的GFP壳体化于病毒样衣壳内部，该衣壳由PyVP1-3C-[N-14]-PLP(在截短的N-端具有富含脯氨酸序列)装配起来的。与(a)中的实施例相似，GFP-WW1与PyVP1-3C-[N-14]-PLP温育，衣壳在标准条件下通过装配产生。这样，通过与WW结构域的亲和性，多聚脯氨酸肽被带入衣壳的内部。(c)荧光标记肽(富含脯氨酸的序列)壳体化于病毒样衣壳内部。与(a)中的实施例相似，该肽与PyVP1-3C-WW[N-14]温育，衣壳在标准条件下通过装配产生。这样，通过与WW结构域的亲和性，多聚脯氨酸肽被带入衣壳的内部。(d)将C-端带有富含脯氨酸序列的GFP包装于病毒样衣壳内部，该病毒样衣壳是由PyVP1-3C-WW[N-14]装配而成。与(a)中的实施例相似，GFP-PLP与PyVP1-3C-WW[N-14]温育，衣壳在标准条件下通过装配产生。这样，通过与WW结构域的亲和性，GFP-PLP被带入衣壳的内部。

图8、为SDS凝胶结果，说明从混合物，这里为细胞粗提物中纯化带有WW结构域的蛋白。泳道1：10kDa分子量标准；泳道2：(PyVP1-3C-WW1)-内含肽-CBD融合蛋白粗提物；泳道3：全蛋白成分；泳道4-10依次为融合蛋白洗脱的不同组分，洗脱缓冲液含有2％SDS。这里的融合蛋白通过一个与富含脯氨酸肽共价结合的柱子时，发生固定化。加入粗提物后，用含有2M NaCl、总量为10倍柱体积的缓冲液洗柱子。除了融合蛋白质外，还发现了其降解产物及与PyVP1结合的陪伴分子。

图9、给出了一种分子物质与WW结构域的二硫键的形成，为了达到亲和纯化的目的，这种WW结构域与谷胱甘肽S-转移酶(GST)相融合。为了实现键合，使用了WW结构域的两种变体，其中每种变体的一个位置的氨基酸被替换为半胱氨酸。即，其中一种是D8C变体，其WW结构域第8位处的天冬氨酸被替换为半胱氨酸，另外一种是K19C变体，它的第19位的赖氨酸被替换为半胱氨酸。这里使用的分子物质是带有CSGP₈LP序列的富含脯氨酸肽，它在其氨基端的氨基上带有用于分析的荧光染料(Oregon Green，OG，Firma MolecularProbes)。二硫键的形成依实施例7所述方法进行。为了分析键的形成，样品进行反相HPLC(HPLC柱：YMC protein-Rp C₁₈：工作缓冲液A：0.1％TFA inH₂O，工作缓冲液B：80％CAN，0.1％TFA)。利用这些色谱图，WW结构域和自由的、未键合的肽可以相互分开(洗脱时间：肽是12分钟，WW结构域是25-27分钟)，而形成二硫键的肽和WW结构域几乎是共洗脱(28分钟)。通过肽的荧光标记法，与WW结构域在一起的肽可被检测出现。图9(a)显示这种情况发生在WW结构域变体K19C中，而不是D8C中。这可能是因为变体D8C的半胱氨酸存在空间不相容性。为了证明WW结构域键合的特异性，在一个平行的实验中分析了不含有半胱氨酸的WW结构域变体，同样地它没有发生键合。图9(b)显示出WW结构域变体K19C与富含脯氨酸肽之间的共价作用可以通过添加还原剂(50mM二硫苏糖醇)遭到破坏。这样荧光标记的蛋白质又会以完全自由的形式存在。

实施例1、将WW结构域插入到一种体外装配的、病毒样蛋白衣壳(PyVP1-WW150)的外部片段中

在第一个实施例中一个氨基酸序列为Gly-Ser-Gly-Trp-Thr-Glu-His-Lys-Ser-Pro-Asp-Gly-Arg-Thr-Tyr-Tyr-Tyr-Asn-Thr-Glu-Thr-Lys-Gln-Ser-Thr-Trp-Glu-Lys-Pro-Asp-Asp的WW结构域插入病毒外壳蛋白的一个特定环中。同时，在WW结构域之前和之后再插入一个氨基酸Gly-Ser交互出现构成的接头。在给出的实施例中，所用的病毒核心蛋白质是溶液中以五聚体形式存在的多瘤病毒VP1核心蛋白质，根据现有技术，这种蛋白可以在体外装配成病毒样衣壳。根据蛋白质的晶体结构，辨认出150位氨基酸附近结构中的环形区域可能适合WW结构域的插入，因为在五聚体蛋白质装配成病毒样衣壳时，发现这个环形区域位于衣壳的外部。

PyVP1-WW150的表达和纯化是以融合蛋白形式进行的，该融合蛋白羧基端融合有内含肽结构域，其上连接一个几丁质结合结构域(CBD)。为了这个目的，首先，用源于IMPACT-系统(New England Biolabs)的载体pCYB2，构建了一个质粒。通过pCYB2的多克隆位点，利用限制性位点Nde I-Xma I(New England Biolabs)，用PCR和标准方法扩增和克隆了一个编码小鼠多瘤病毒VP1基因变体的DNA片段。

作为上述工作的基础，用到了一种无论怎样其序列中也不展示半胱氨酸的多瘤病毒变体；通过传统的突变技术，野生型蛋白质的六个半胱氨酸分别被提前替换为丝氨酸。这个PyVP1变体的优点是溶液的氧化还原条件对蛋白质的状态没有影响；所以在很多应用中很容易操作。另外，通过后来在插入的WW结构域内引入半胱氨酸，使WW结构域与富含脯氨酸序列之间可以形成特异的二硫键。进一步突变是在第249位，天然蛋白质中此处的苏氨酸被替换为半胱氨酸。通过现有技术，蛋白的这个位点被带上荧光染料标记，进一步增加了它的应用优势。五聚体中受保护的定位，使这一位点的标记不产生副作用。这里使用的多瘤病毒VP1变体被正确命名为PyVP1-CallS-T249C，以后缩写为PyVP1。

PCR中使用了以下的寡核苷酸序列作为引物：vp1N I mp(5’-TAT ACA TATGGC CCC CAA AAG AAA AAG C-3’)，和vp1 CImp(5’-ATA TCC CGG GAGGAA ATA CAG TCT TTG TTT TTC C-3’)。通过这个PCR，天然VP1蛋白质的C-端氨基酸Gly383-Asn384被同时转变为Pro383-Gly384，因为位于C-端的天冬氨酸不利于内含肽剪切系统的剪切性质。指定的点突变对PyVP1蛋白质的性质没有本质的影响。pCYB2载体的tac启动子只能表达少量的融合蛋白质，所以，通过再一次PCR过程将融合结构PyVP1-内含肽-CBD从pCYB2载体中分离出来，克隆到带有T71ac启动子的高效表达pET载体的Nde I-EcoR I位点中(质粒pET21a，Novagen)。寡核苷酸：vp1-NImp(5’-TAT ACA TAT GGC CCC CAA AAG AAAAAG C-3’)和5’-ATA TGA ATT CCA GTC ATT GAA GCT GCC ACA AGG-3’。

作为在PyVP1蛋白质第148与149位氨基酸之间的外部环形区域的插入物的WW结构域的克隆分几步完成。利用寡核苷酸FBP11-WWaN(5’-ATA CTC TTCAGG CAG CGG CTG GAC AGA ACA TAA ATC ACC TGA TGG-3’)和FBP11-WWaC(5’-ATA CTC TTC TAC CAC TAC CAT CAT CCG GCT TTT CCCAGG TAG ACT G-3’)，用包含来自生物体mus musculus(鼠)的形成素结合蛋白质11(FBP11)的DNA片段，进行PCR。除了别的以外，WW结构域在本基因序列中得以编码。每个寡核苷酸同时被插入了一个由5个氨基酸组成的短接头，这个序列中包含交互的甘氨酸与丝氨酸。利用寡核苷酸vp1NImp(见上)和vp1-150-WWaC(5’-ATA CTC TTC AGG TAG CGG CGT AAA CAC AAA AGGAAT TTC CAC TCC AG-3’)，在上述提到的载体上做的第二个PCR，扩增了PyVP1的1-148位氨基酸之间的N-端片段。最后，利用寡核苷酸vp1-150-WWaN(5’-ATACTC TTC AGC CGC TGC CTG TAT CTG TCG GTT TGT TGA ACC CAT G-3’)和vp1CImp(见上)，第三个PCR也扩增出PyVP1的149位氨基酸与该蛋白C-端之间的C-端片段。

随后，三次PCR产物全部用II S型限制性内切酶Eam I 104 I(Stratagene公司产品)进行消化。PyVP1的N-端与C-端片段(PCR产物2和3，见上)用碱性磷酸酶(CIP，New England Biolabs公司产品)去磷酸化，以便从三次制备性PCR片段按照下述连接步骤产生基因序列，即，(PyVP1-N-端)-WW结构域片段-(PyVP1-C-端)。然后利用寡核苷酸vp1NImp和vp1CImp(见上)进行的PCR扩增出三个片段的连接反应产物，以后简写为PyVP1-WW150。然后，利用标准方法将PCR产物克隆进入载体pCR-blunt(Invitrogen公司产品)。用限制性内切酶Nde I-Sma将克隆片段PyVP1-WW150切下，最后，将其克隆进入前面提到的质粒pET21中。

最后产生的载体使在E.coli BL21(DE3)细胞(mfr.：Novagen)中，借助高表达性启动子T71ac的帮助下，融合蛋白质(PyVP1-WW150)-内含肽-CBD的表达成为可能。为了表达蛋白质，将转化细胞接入含有2升LB培养基的5升三角锥瓶中，37℃培养至培养物的OD600达到2.0-2.5。向培养基中加入1mM IPTG来诱导蛋白质的表达。随后，将培养物放于15℃继续培养20小时；，低温可以降低体内条件下融合蛋白质的内含肽部分的裂解。离心收集细胞，用70ml重悬缓冲液(20mM HEPES，1mM EDTA，100mM NaCl，5％(w/v)甘油，pH8.0)悬浮，通过高压匀浆化裂解细胞。将粗提物在48,000G离心60分钟之后，得到清澈的细胞提取物。提取物在10℃下、以0.5ml/分钟的流速通过一个10ml的几丁质亲和柱(NewEngland Biolabs公司产品)。接着，分别用3倍柱体积的重悬缓冲液，高离子强度的、15倍柱体积的洗涤液(20mM HEPES，1mM EDTA，2M NaCl，5％(w/v)甘油，pH8.0)，3倍柱体积的重悬缓冲液清洗柱子；从而所有不需要的E.coli宿主的蛋白质被从几丁质基质上洗去。

通过内含肽自身剪切活性，将PyVP1-WW150单体从融和蛋白质上剪切下来的过程，是在重悬缓冲液中，通过一个分别由50mM二硫苏糖醇(DTT)、50mM羟胺或同时含有30mM DTT与30mM羟胺组成的冲击液(3倍柱体积)诱导的。为了达到这一目的，加样的几丁质基质置于其中一种指示的溶液中在10℃温育14小时。这样，通过柱层析的标准方法，PyVP1-WW150蛋白质可以从几丁质基质完全释放并被分离，而融合蛋白质的其余部分则吸附在基质上。为了达到这一目的，适当使用了浓度在0.1-2.0M NaCl的线性盐梯度。根据生产者提供的使用说明，几丁质的再生可以通过用3倍柱体积的、含有SDS的缓冲液(含有1％SDS(w/v)的重悬缓冲液)清洗基质而实现。

在上述方法中，PyVP1-WW150蛋白质是以可溶解的五聚体形式表达，并且是天然形态。图2a为野生型PyVP1(或其变体PyVP1-CallS-T249C)与由于插入了外源氨基酸而具有较大的分子量的PyVP1-WW150变体的纯化组分的SDS凝胶电泳结果。图2b为生成的蛋白质在10mM HEPES、150mM NaCl、pH7.2条件下的比较圆二色谱，其显示出蛋白质的正确折叠。根据现有技术，两种圆二色谱的去卷积计算表明，与PyVP1蛋白质相比，PyVP1-WW150结构域中存在明显的β-片层结构增加现象。这表明插入的WW结构域保持了它的天然结构，即β-片层。

另人惊奇的是，本实施例表明，在合适的条件下，WW结构域可以以正确折叠方式被插入蛋白质结构的环形区域，并不严重破坏其天然结构。在溶液中以五聚体形式存在的PyVP1-WW150蛋白质，含有插入其多肽链的天然WW结构域，并在装配后将它们呈现于病毒样衣壳的外部(见实施例2)。

实施例2、PyVP1-WW150性质描述

通过实施例1所述方法，生成了一种含有人为插入的WW结构域的蛋白质(PyVP1-WW150)。PyVP1-WW150与富含脯氨酸配体的结合性，可以通过多种方法来描述。比较好的方法是表面胞质团共振；本给定实施例中，使用的仪器是Biacore X(Biacore AB)。根据生产者提供的使用说明，一个合成的、序列为Cys-Ser-Gly-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro的肽，通过巯基或氨基偶合，与CM5型传感芯片相连。在本方法中，先将量度为80共振单位的一种指示蛋白质(RU)被固定在表面上。随后的测量一直在25℃、流速20ul/分钟的条件下进行。

对PyVP1-WW150在传感芯片上的连接研究是在多种溶剂条件下，使用固定化富含脯氨酸肽来进行。第一次测量是在标准的溶剂条件下进行的，即，10mMHEPES、1mM EDTA、150mM NaCl、pH7.2。PyVP1-WW150的蛋白质浓度变化范围为5-50nM。在图3a中， PyVP1-WW150与传感芯片的结合有明显的高亲和性。与预想的一样，结合量与使用的蛋白质浓度成比例。因而PyVP1-WW150蛋白质的结合常数K_D被确定为5nM(图3a)。图中还可以明显看出，结合并不是持久的，但在加到传感芯片表面后，另一方面而言，蛋白质解离处于很缓慢的过程中。这表明，作用组份间的作用是可逆的。

为了检验在生理性强离子条件下的结合，第二次测量使用Dulbecco磷酸缓冲盐溶液(Gibco)作为溶剂，其它的实验条件与前面的第一次实验相似。图3b显示出，在Dulbecco磷酸缓冲盐溶液条件下，PyVP1-WW150的结合与在标准条件下的结合(图3a)没有显著差异。在这个实验中，可以得到结合的参数，其中结合常数(Kon＝2×10⁵M^-1s^-1)和解离常数(Koff＝1.8×10^-3s^-1)的。本实施例表明，溶剂条件的改变对PyVP1-WW150与富含脯氨酸肽的结合没有严重的影响，同时表明两种组份之间的作用也可以在生理条件下稳定发生。所以，这个系统也可以在临床条件下，在诊断与治疗领域基本应用。

为了确定结合的专一性，在第三次测量中使用含有10％FCS(小牛胎儿血清，Gibco)的Dulbecco’s MEM培养基作为工作缓冲液。这里的FCS是一种系统模型，代表生物系统中相关的不同蛋白质和其它物质的混合物。图3c表明，在这样的条件下，PyVP1-WW150蛋白质在传感芯片表面的重要和专一性结合也很显著。如同前面所述的两次测量中一样，传感芯片的表面的响应信号在这里也与加入的PyVP1-WW150蛋白质的浓度成比例。于是，表明PyVP1-WW150与固定化富含脯氨酸肽的相互作用不依赖于其他物质的混合物的存在，如血清中存在其它物质混合物。

总之，借助Biacore技术及带有固定化富含脯氨酸肽的传感表面，这三种分析表明，带有WW结构域和富含脯氨酸配体的分子物质之间的结合具有很高的亲和性及专一性。由此产生的相互作用作用是可逆的，而且不十分依赖所选择的溶剂条件。与结合相比，解离是很慢的，解离常数是20nM.

实施例3、基质上的固定化

进一步确定结合特性的一种方法是WW结构域在一种惰性基质上的可逆性的固定。为了达到这一目的，根据生产者提供的使用说明，一个合成的富含脯氨酸肽(序列为Cys-Ser-Gly-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro)，通过巯基与SulfoLink柱基质(Pierce)偶合。用这种方法修饰的基质来填充一个层析柱。这样，样品就可以加载到基质上，且可以在不同条件下洗脱结合的蛋白质。按照实施例1所述纯化的PyVP1-WW150蛋白质加到这种柱子上(溶剂10mM HEPES、1mM EDTA、150mM NaCl、5％甘油、pH7.2)。图4表明，蛋白质与基质发生结合，在洗涤组分中只出现微量蛋白。接着，通过在工作缓冲液中添加1％SDS或300mM精氨酸，将蛋白质从基质上洗脱下来。

这个实验表明，PyVP1-WW150蛋白质可以与带有富含脯氨酸肽的基质可逆结合。所以，可以发生暂时固定化。蛋白质与基质的分离可以通过在工作缓冲液中使用添加剂来实现。

实施例4、富含脯氨酸肽与衣壳的结合

在另一个实验中，研究了一种带有富含脯氨酸序列的、荧光标记的蛋白质结合在病毒样衣壳的表面(外部)。以现有技术为基础，蛋白质的装配条件与以上提到条件相似(参见：Salunke，Caspar & Garcea，多瘤病毒衣壳蛋白质PyVP1装配的多态性，Biophys.J.56，887-900，1989)。将蛋白质在10mM HEPES、50mM NaCl、0.5mMCaCl₂、5％甘油、pH7.2条件下进行透析，得到病毒样衣壳。根据生产者提供的使用说明，对富含脯氨酸肽Cys-Ser-Gly-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro，用荧光剂-马来酰亚胺衍生物(分子探针)在其N-端半胱氨酸位点进行特定标记。在病毒蛋白质变体装配进入衣壳后，加入10倍摩尔过量荧光标记肽。通过凝胶过滤(TSKGel G5000PWXL柱，TosoHaas)，病毒样衣壳外膜可以被明显发现，且与自由的、未结合的衣壳元件、多余肽和荧光染料分开。与位于衣壳表面的WW结构域结合的肽洗脱在衣壳组分中，可以通过荧光染料的特异性吸收来证实(图5)。

这个实施例表明，在合适条件下，PyVP1-WW150变体可以形成衣壳结构(病毒样衣壳)。这些衣壳可以和富含脯氨酸肽结合。这样，通过WW结构域和富含脯氨酸序列之间特异而强烈的相互作用，分子物质可以以定向方式被带到病毒样结构的表面(外部)。

实施例5、GFP在病毒样蛋白质衣壳内部的包装

在这个实施例中，通过对衔接头片段的合适定位，分子物质定位于病毒衣壳或病毒样衣壳(衣壳)的内部可以发生。利用现有技术，根据多瘤病毒VP1的三级空间结构，可知蛋白质的N-端在装配进入壳粒后，位于衣壳的内部。因此，蛋白质的前14个氨基酸可能没有用处，因为在衣壳的×-射线结构中不能发现它们。这样，产生了PyVP1蛋白质的两个不同变体，它们可以是在天然蛋白质的氨基端含有WW结构域(变体PyVP1-3C-WW1)或在被切掉14个氨基酸的N-端含有WW结构域(变体PyVP1-3C-WW[N-14])，也可以是在N-端含有富含脯氨酸序列的PyVP1蛋白质变体(PyVP1-3C-[N-14]-PLP)。这些变体的基础是一个包含半胱氨酸C19和C114的PyVP1变体，它带有一个外部引入的新的特定半胱氨酸(与变体PyVP1-CallS-T249C相似)。这个变体以后简称为PyVP1-3C。

首先，通过PCR方法扩增了WW结构域；因此，与实施例1相似，以鼠的FBP11基因作为模板。PCR中应用的寡核苷酸因而为5’-AAT ATA TCA TAT GTCCAT CAT CCG GCT TTT CCC AGG TAG ACT-3’(带有Nde I位点)，和5’-TATTAA TCA TAT GAG CGG CTG GAC AGA ACA TAA ATC ACC TGA TGG-3’。通过寡核苷酸引入的Nde I-Nde I切割位点，所得PCR产物随后被克隆进来自实施例1的表达载体pET21a，它带有融合蛋白PyVP1-内含肽-CBD的基因；在这个基因的5’末端，发现了单个的Nde I限制性位点。这个载体的基因表达产物就是目的蛋白质PyVP1-3C-WW1。与其相似，基于实施例1所述标准方法，进行了被截掉14个氨基酸的PyVP1-3C片段(PyVP1-3C-WW[N-14])的克隆。为了达到这个目的，在PyVP1基因片段上进行PCR，使用的是5’-GCG CGC GCA TAT GAG CACCAA GGC TAG CCC AAG ACC CG-3’和寡核苷酸vp1CImp(见实施例1)。所得PCR产物用限制性内切酶Nde I-Sma I进行消化，再用标准方法将所得片段克隆进来自实施例1的载体pET21a中。根据实施例1进行两种蛋白质的表达与纯化。纯化蛋白质与图6a中的PyVP1和PyVP1-WW150变体进行比较。这表明所产生的蛋白质是可溶的并可天然产生。通过引入WW结构域引起的N-端改变对蛋白质形成病毒样壳状结构所需的装配能力没有显著的负面影响。

通过类似方法，进行了GFP变体的制备和纯化。GFP是一种在天然条件下显示绿色荧光(最大吸收在490nm)的蛋白质。它极利于标记复合体与装配体。为了制备带有富含脯氨酸末端序列的GFP变体，首先以质粒pEGFP-N1(Clontech公司产品)为模板，用PCR方法扩增GFP基因。同时，PCR产物中引入了合适的限制性酶切位点。利用寡核苷酸5’-TTA TTT ACA TAT GGT GAG CAA GGG CGAGGA G-3’(带有Nde I切点)，和5’-ATA TCT TAA GTA CAG CTC GTC CAT GCCG-3’(带有AflII切点)进行PCR。然后，所得PCR产物被克隆在pTIP载体的酶切位点中，进行表达。pTIP载体是实施例1所记录的内含肽纯化载体的一种衍生物，以pET21a为基础，含有附加插入的富含脯氨酸序列。这样构建的载体，可以使富含脯氨酸序列选择性地与在整合进多克隆位点的基因的5’或3’端融合。这里使用的富含脯氨酸序列主要包括Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro。按照实施例1中的方法，GFP-PLP蛋白的制备和纯化采用了几丁质亲和层析。GFP-PLP的成功制备和纯化用图6b予以证明。其C-端带有富含脯氨酸序列Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro的GFP-PLP蛋白，可以在溶液中大量生产。蛋白质溶液的绿色荧光同时表明蛋白质可以折叠成它的天然结构。

Py-VP1-3C-PLP变体的制备过程相似。为了制备这个PyVP1变体，PyVP1-3C-[N-14]被克隆进入载体pTIP，这样，载体中的富含脯氨酸序列与Py-VP1-3C-[N-14]的N-端融合。

为了考察在各自的N-端带有WW结构域的所有两种PyVP1变体的功能特性，将所有两种变体与带有富含脯氨酸序列的蛋白质温育。PyVP1-3C-WW1蛋白质与已制备的GFP-PLP蛋白质(摩尔比1∶6)温育10分钟(10mM HEPES、1mM EDTA、150mM NaCl、5％甘油、pH7.2)；使用含有0.5mMCaCl₂的缓冲液进行透析(见实施例4)，诱导PyVP1变体的衣壳形成。衣壳的成功检测到衣壳的结果(图7a)表明PyVP1-3C-WW1变体能够在合适条件下装配。通过凝胶过滤分析(TSKGelG6000PWXL柱，TosoHaas)，发现衣壳组分(洗脱体积在9-10ml之间)中含有一小部分天然GFP-PLP蛋白质(可由490nm的特异吸收来确定)(图7a)。这意味着，在GFP-PLP蛋白质与PyVP1-3C-WW[N-14]变体温育过程中，发生了两种蛋白质之间的相互结合，从而GFP在随后的衣壳装配过程中被导入病毒样颗粒的内部。

实施例6、将肽包装于病毒样蛋白质外壳的内部

在与实施例5相似的另一个实验中，PyVP1-3C-WW-[N-14]以摩尔比1∶10与一个已用荧光标记的富含脯氨酸肽共同温育。根据生产者提供的使用说明书，在这里，肽(Cys-Ser-Gly-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro)的标记是利用荧光素马来酰亚胺(分子探针)的马来酰亚胺偶合将染料与N-端的半胱氨酸结合。又如实施例5中一样，发现在PyVP1-3C-WW[N-14]变体装配后，PyVP1-3C-WW[N-14]能在合适条件下进行装配。另外，这个蛋白质可以和富含脯氨酸肽结合；同时，在装配进入蛋白质外壳的过程中，可以把富含脯氨酸肽带入衣壳内部。这个过程用图7b中的凝胶过滤予以说明，通过与蛋白质共价结合的荧光染料在490nm处的特异吸收，发现蛋白质主要出现在衣壳的洗脱区(9-10ml)。

而且，利用变体PyVP1-3C-[N-14]-PLP(其N-端富含脯氨酸序列)和GFP-WW1(其N-端存在WW结构域)，可以进行相似的装配。这表明WW结构域和富含脯氨酸配体在被连接物质上的位置颠倒，即，将富含脯氨酸序列置于多瘤病毒核心蛋白质(衣壳)上而WW结构域置于被包装蛋白质上，也可以使GFP成功定位于病毒样衣壳的内部。

总之，实施例5和实施例6中的实验表明N-端融合WW结构域的PyVP1变体，在合适条件下，可以与富含脯氨酸序列以及其上具有富含脯氨酸序列的任何分子物质结合并在衣壳装配过程中引导它们进入病毒样衣壳的内部。因此，所述过程适于将分子物质定向包装于病毒或病毒样衣壳内。同时表明N-端融合富含脯氨酸序列的PyVP1变体可以与WW结构域和其上具有WW结构域的分子物质结合。

实施例7、用于以修饰后的WW结构域和富含脯氨酸肽为基础的共价连接的二硫键

实施例1到6所述研究表明通过WW结构域与富含脯氨酸序列之间的相互作用，可以出现两种衔接头片段的暂时聚集。相互作用组份之间的持久桥接的形成可以通过在所有两种衔接头片段上配备特定引入的半胱氨酸来实现，借助合适的位置布置，这些半胱氨酸可能在结合组分缔合后形成二硫键。

通过按照现有技术的常规方法进行的点突变，可以使WW结构域与配体中的富含脯氨酸序列中对两种衔接头片段缔合不重要的单个氨基酸变成半胱氨酸。在合适的氧化还原(氧化过程)条件下，含有一个或多个半胱氨酸的结合在一起的WW结构域与富含脯氨酸配体可以形成特定二硫键。由于WW结构域与配体之间的相互作用，所以形成的这个键肯定是有益的。未连在一起的WW结构域与富含脯氨酸配体间的暂时相互作用持续足够长的时间，以便可以通过二硫键形成共价连接。通过这种方法，所有两种衔接头片段之间的相互作用变得不受时间限制，因为二硫键在生理条件下是稳定的，举例而言，正如它们在细胞外部空间时一样稳定。如果需要，在还原条件下(如50Mm DTT、DTE或β-巯基乙醇)，WW结构域与富含脯氨酸配体之间的二硫键可以在体外再次消除；去除还原试剂，还可以再连接。

以鼠多瘤病毒核心蛋白质VP1的PyVP1-WW150变体为基础，通过突变，一个天冬氨酸(WW结构域的第8位点)被转变为半胱氨酸。产生的含有半胱氨酸的变体随后被命名为PyVP1-WW150-D8C。通过基于表面胞质团共振的结合情况研究，发现即使没有二硫键的形成，这种WW结构域变体也可结合富含脯氨酸配体Cys-Ser-Gly-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro。然而，这个相互作用的程度有点轻于使用PyVP1-WW150的情况。这明显可归于新引入的半胱氨酸。可以发现，通过加入500mM硫酸铵，可以加强这种累积作用。因而，富含脯氨酸配体与WW结构域之间的疏水作用大概加强了。所以，可以通过溶剂中的硫酸胺浓度来调节作用强度。

富含脯氨酸配体与WW结构域之间的二硫键可以随后在微弱的氧化条件下形成。为了这个目的，使用了一种既含有硫酸胺并且保持氧化还原条件不变的缓冲液。后一条件是通过在氧化还原缓冲液(50mM Tris、pH8.5、1mM EDTA、500mM硫酸胺)中使用1mM GSSG和5mM GSH来获得的；氧化型(GSSG)或还原型谷胱甘肽(GSH)在这里作为二硫键形成的氧化还原变换系统发挥作用(参见：R.Rudolph，包含体蛋白质的体外折叠，FASEB J.10，49-56，1996)。二硫键形成的条件是15℃、24小时，然后在条件50mM Tris、1mM EDTA、pH7下透析，完成建的形成。在上面最后提到的条件下，不会发生二硫键交换；所形成的二硫键是稳定的。

总之，可以说，半胱氨酸残基引入WW结构域使与至少含有一个半胱氨酸的富含脯氨酸配体与WW结构域的共价结合成为可能，因而导致WW结构域与配体间形成稳定的共价连接(见图9)。

实施例8、通过衔接头片段纯化蛋白质(多聚脯氨酸/WW亲和层析)

本发明的另一应用领域是分子物质从混合物中的分离，其典型应用于从粗提物(细胞提取物)中纯化蛋白质。在这一过程中，应用了WW结构域与富含脯氨酸配体的亲和性将含有WW结构域的蛋白质从复杂的蛋白质混合物(粗提取物)中分离出来(亲和层析原理)。为了这个目的，使用了与实施例3一样的柱子；根据生产者提供的使用说明，通过一个巯基，使SulfoLink材料(Pierce，具有巯基的基质活性基于位于含有10个CH₂基团的接头的末端的碘乙酰胺基团)与多肽Cys-Ser-Gly-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro偶合，用于装柱。

相似地，多肽也可与其它基质偶合，例如通过肽的N-端连接的AffiGel10(Biorad，具有NH₂基团的基质活性基于含有10个CH₂基团的接头的末端的N-羟基琥珀酰亚氨基团)。同样地，对以CH-sepharose 4B为基础的基质(Sigma，基质的活性基团也是N-羟基琥珀酰亚氨酯)，肽的偶合可发生在其N-端。与在这里，也会发生富含脯氨酸配体共价偶合到载体材料上这种偶合因而使含WW结构域的蛋白质纯化成为可能。

与实施例1的详述相似，来自实施例5的PyVP1变体，PyVP1-3C-WW1(在PyVP1蛋白质的N-端存在WW结构域)可以作为与内含肽和几丁质结构域形成的融合蛋白而产生([PyVP1-3C-WW1]-内含肽-CBD)。然而，它不以所述的标准方法纯化，而是用几丁质亲和层析法。在细胞裂解和离心之后，细胞提取物上于前面提到的柱子上。于是将10mM HEPES、150mM NaCl、1mM EDTA、5％甘油、pH8.0用作工作缓冲液。将提取物加入后，用10倍柱体积的添加有2M NaCl的含有10mM HEPES(pH8.0)、1mM EDTA、5％甘油的缓冲液清洗柱子。通过这个清洗过程，所有非特异吸附的蛋白质和细胞成分被从SulfoLink基质上冲洗下来。然后，用含有2％SDS的缓冲液将结合的融合蛋白质[PyVP1-3C-WW1]-内含肽-CBD洗脱下来。从图8中可以看出，融合蛋白质[PyVP1-3C-WW1]-内含肽-CBD的结合是通过WW结构域和固定在SulfoLink基质上的富含脯氨酸肽之间的相互作用实现的。这样，融合蛋白质与基质结合，细胞提取物中的大多数其它蛋白质在流通池或洗涤过程中被除去。接下来，SDS洗脱几乎只洗下所有含有WW结构域的融合蛋白质，及其蛋白水解所产生的降解产物(对PyVP1来说，出现在以现有技术为基础所有可比较的制备方法中)和陪伴分子。人所公知，陪伴分子可直接与PyVP1结合且一般不易被分开。除了通过SDS洗脱方法洗脱结合的含有WW结构域的融合蛋白质，还可以通过在工作缓冲液中加入300mM精氨酸来洗脱天然蛋白质。随后通过对洗出液进行透析除去精氨酸，就可以获得纯化的天然蛋白质。

总之，这个实施例表明，对于所述系统，可以从混合物质(粗提物)中分离纯化特异的分子。

实施例9、通过衔接头片段实现分子的特异性二聚化

通过衔接头片段(WW结构域和富含脯氨酸肽)的相互作用，在体外可以制备双功能或双价杂交分子。为了这个目的，产生了两种分子物质，根据其用途它们可以具有相同或不同的性质，而且每个都通常带有共价结合的衔接头片段之一。在所选择的实施例中，进行了易于被被检测的GFP蛋白质二聚体的制备。

为了这个目的，与PyVP1的制备相似，借助来自实施例1中的以内含肽为基础的表达系统的帮助，制备了一种在GFP的N-端带有WW结构域的GFP变体(GFP-WW1)。首先，在载体pEGFP-N1(Clontech，见实施例5)上，利用寡核苷酸5’-TAT AGC TAG CGT GAG CAA GGG CGA GGA GCT GTT C-3’和5’-GGGAAT TAA GTA CAG CTC GTC CAT GCC G-3’作PCR。通过切割位点Nhe I-SmaI，将PCR产物连接进入来自实施例5的载体pET21a中，其中在该载体的插入位点的3’端，包含实施例1所述的由内含肽和几丁质结合结构域(CBD)组成的融合蛋白质。在插入位点的5’端，存在实施例5所述的WW结构域。这样，制备了序列为WW结构域-GFP-内含肽-CBD的融合蛋白质。编码融合蛋白质的质粒可以被转化进入E.coli菌株BL21(DE3)。与实施例1和3相似，可以进行融合蛋白质的制备与纯化。用所述方法，可以产生纯化形式的GFP-WW1蛋白质。

与之相似，制备了其C-端带有富含脯氨酸片段(Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Leu-Pro)的第二种GFP变体，。这里，GFP-PLP蛋白质的制备与纯化与实施例5中有关蛋白的描述相同。

然后，将所有两种GFP变体一起温育。因而，通过衔接头片段所有两种蛋白质产生互相连接，结果产生了GFP二聚体。使用TSK-PW2000XL凝胶过滤柱(TosoHaas)，通过凝胶过滤方法，可以区分GFP二聚体和GFP单体。

本实施例证明，通过使用本发明的方法，可以进行任意分子物质的连接，这些物质带有以WW结构域或富含脯氨酸肽为基础的合适衔接头片段。因而，可以形成同功能或异功能的装配体。

P12604序列

序列列表

<110>ACGT前基因组公司(ACGT ProGenomics AG)

<120>一种将分子物质连接的方法

<130>P12604

<140>PCT/EP00/10873

<141>2000-11-03

<150>PCT/EP00/10873

<151>2000-11-03

<150>DE 199 52 956.6

<151>1999-11-03

<160>21

<170>PatentIn version 3.1

<210>1

<211>1266

<212>DNA

<213>人工序列

<220>

<223>在WW结构域的第8位点具有氨基酸交换D8C的VP1-WW150的半胱氨酸变体(PyVP1-WW150-D8C)

<220>

<221>CDS

<222>(1)..(1266)

<223>

<220>

<221>misc_feature

<222>(445)..(558)

<223>插入的WW结构域(WW150)

<220>

<221>misc_feature

<222>(481)..(483)

<223>在WW结构域插入半胱氨酸(WW150)

<400>1

atg gcc ccc aaa aga aaa agc ggc gtc tct aaa agc gag aca aaa agc

48

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

aca aag gct agc cca aga ccc gca ccc gtt ccc aaa ctg ctt att aaa

96

Thr Lys Ala Ser Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac agt gtg aca

144

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca ccc acc cct

192

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc aga ggg att

240

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

aat ttg gct aca tca gat aca gag gat tcc cca gga aat aat aca ctt

288

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc aat gag gac

336

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

ctc acg tct gac acc cta caa atg tgg gag gca gtc tca gtg aaa acc

384

Leu Thr Ser Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg ttc aac aaa

432

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

ccc aca gat aca ggc agc ggc agc ggc tgg aca gaa cat aaa tca cct

480

Pro Thr Asp Thr Gly Ser Gly Ser Gly Trp Thr Glu His Lys Ser Pro

145 150 155 160

tgt gga agg act tat tat tac aat act gaa aca aaa cag tct acc tgg

528

Cys Gly Arg Thr Tyr Tyr Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp

165 170 175

gaa aag cca gat gat ggt agt ggt agc ggc gta aac aca aaa gga att

576

Glu Lys Pro Asp Asp Gly Ser Gly Ser Gly Val Asn Thr Lys Gly Ile

180 185 190

tcc act cca gtg gaa ggc agc caa tat cat gtg ttt gct gtg ggc ggg

624

Ser Thr Pro Val Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly

195 200 205

gaa ccg ctt gac ctc cag gga ctt gtg aca gat gcc aga aca aaa tac

672

Glu Pro Leu Asp Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr

210 215 220

aag gaa gaa ggg gta gta aca atc aaa aca atc aca aag aag gac atg

720

Lys Glu Glu Gly Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met

225 230 235 240

gtc aac aaa gac caa gtc ctg aat cca att agc aag gcc aag ctg gat

768

Val Asn Lys Asp Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp

245 250 255

aag gac gga atg tat cca gtt gaa atc tgg cat cca gat cca gca aaa

816

Lys Asp Gly Met Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys

260 265 270

aat gag aac aca agg tac ttt ggc aat tac act gga ggc acg tgc acc

864

Asn Glu Asn Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr

275 280 285

cca ccc gtc ctg cag ttc aca aac acc ctg aca act gtg ctc cta gat

912

Pro Pro Val Leu Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp

290 295 300

gaa aat gga gtt ggg ccc ctc agc aaa gga gaa ggt cta tac ctc tcg

960

Glu Asn Gly Val Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser

305 310 315 320

agc gta gat ata atg ggc tgg aga gtt aca aga aac tat gat gtc cat

1008

Ser Val Asp Ile Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His

325 330 335

cac tgg aga ggg ctt ccc aga tat ttc aaa atc acc ctg aga aaa aga

1056

His Trp Arg Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg

340 345 350

tgg gtc aaa aat ccc tat ccc atg gcc tcc ctc ata agt tcc ctt ttc

1104

Trp Val Lys Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe

355 360 365

aac aac atg ctc ccc caa gtg cag ggc caa ccc atg gaa ggg gag aac

1152

Asn Asn Met Leu Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn

370 375 380

acc cag gta gag gag gtt aga gtg tat gat ggg act gaa cct gta ccg

1200

Thr Gln Val Glu Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro

385 390 395 400

ggg gac cct gat atg acg cgc tat gtt gac cgc ttt gga aaa aca aag

1248

Gly Asp Pro Asp Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys

405 410 415

act gta ttt cct ccc ggg

1266

Thr Val Phe Pro Pro Gly

420

<210>2

<211>422

<212>PRT

<213>人工序列

<220>

<221>misc_feature

<222>(445)..(558)

<223>插入的WW结构域(WW150)

<220>

<221>misc_feature

<222>(481)..(483)

<223>在WW结构域中插入半胱氨酸(WW150)

<400>2

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

Thr Lys Ala Ser Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

Leu Thr Ser Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

Pro Thr Asp Thr Gly Ser Gly Ser Gly Trp Thr Glu His Lys Ser Pro

145 150 155 160

Cys Gly Arg Thr Tyr Tyr Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp

165 170 175

Glu Lys Pro Asp Asp Gly Ser Gly Ser Gly Val Asn Thr Lys Gly Ile

180 185 190

Ser Thr Pro Val Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly

195 200 205

Glu Pro Leu Asp Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr

210 215 220

Lys Glu Glu Gly Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met

225 230 235 240

Val Asn Lys Asp Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp

245 250 255

Lys Asp Gly Met Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys

260 265 270

Asn Glu Asn Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr

275 280 285

Pro Pro Val Leu Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp

290 295 300

Glu Asn Gly Val Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser

305 310 315 320

Ser Val Asp Ile Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His

325 330 335

His Trp Arg Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg

340 345 350

Trp Val Lys Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe

355 360 365

Asn Asn Met Leu Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn

370 375 380

Thr Gln Val Glu Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro

385 390 395 400

Gly Asp Pro Asp Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys

405 410 415

Thr Val Phe Pro Pro Gly

420

<210>3

<211>1266

<212>DNA

<213>人工序列

<220>

<223>VP1-WW150，已插入来自形成素结合蛋白11(FBP11)的WW结构域

<220>

<221>CDS

<222>(1)..(1266)

<223>

<220>

<221>misc_feature

<222>(445)..(558)

<223>WW结构域

<400>3

atg gcc ccc aaa aga aaa agc ggc gtc tct aaa agc gag aca aaa agc

48

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

aca aag gct agc cca aga ccc gca ccc gtt ccc aaa ctg ctt att aaa

96

Thr Lys Ala Ser Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac agt gtg aca

144

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca ccc acc cct

192

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc aga ggg att

240

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

aat ttg gct aca tca gat aca gag gat tcc cca gga aat aat aca ctt

288

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc aat gag gac

336

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

crc acg tct gac acc cta caa atg tgg gag gca gtc tca gtg aaa acc

384

Leu Thr Ser Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg ttc aac aaa

432

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

ccc aca gat aca ggc agc ggc agc ggc tgg aca gaa cat aaa tca cct

480

Pro Thr Asp Thr Gly Ser Gly Ser Gly Trp Thr Glu His Lys Ser Pro

145 150 155 160

gat gga agg act tat tat tac aat act gaa aca aaa cag tct acc tgg

528

Asp Gly Arg Thr Tyr Tyr Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp

165 170 175

gaa aag cca gat gat ggt agt ggt agc ggc gta aac aca aaa gga att

576

Glu Lys Pro Asp Asp Gly Ser Gly Ser Gly Val Asn Thr Lys Gly Ile

180 185 190

tcc act cca gtg gaa ggc agc caa tat cat gtg ttt gct gtg ggc ggg

624

Ser Thr Pro Val Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly

195 200 205

gaa ccg ctt gac ctc cag gga ctt gtg aca gat gcc aga aca aaa tac

672

Glu Pro Leu Asp Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr

210 215 220

aag gaa gaa ggg gta gta aca atc aaa aca atc aca aag aag gac atg

720

Lys Glu Glu Gly Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met

225 230 235 240

gtc aac aaa gac caa gtc ctg aat cca att agc aag gcc aag ctg gat

768

Val Asn Lys Asp Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp

245 250 255

aag gac gga atg tat cca gtt gaa atc tgg cat cca gat cca gca aaa

816

Lys Asp Gly Met Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys

260 265 270

aat gag aac aca agg tac ttt ggc aat tac act gga ggc acg tgc acc

864

Asn Glu Asn Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr

275 280 285

cca ccc gtc ctg cag ttc aca aac acc ctg aca act gtg ctc cta gat

912

Pro Pro Val Leu Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp

290 295 300

gaa aat gga gtt ggg ccc ctc agc aaa gga gaa ggt cta tac ctc tcg

960

Glu Asn Gly Val Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser

305 310 315 320

agc gta gat ata atg ggc tgg aga gtt aca aga aac tat gat gtc cat

1008

Ser Val Asp Ile Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His

325 330 335

cac tgg aga ggg crt ccc aga tat ttc aaa atc acc ctg aga aaa aga

1056

His Trp Arg Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg

340 345 350

tgg gtc aaa aat ccc tat ccc atg gcc tcc ctc ata agt tcc ctt ttc

1104

Trp Val Lys Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe

355 360 365

aac aac atg ctc ccc caa gtg cag ggc caa ccc atg gaa ggg gag aac

1152

Asn Asn Met Leu Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn

370 375 380

acc cag gta gag gag gtt aga gtg tat gat ggg act gaa cct gta ccg

1200

Thr Gln Val Glu Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro

385 390 395 400

ggg gac cct gat atg acg cgc tat gtt gac cgc ttt gga aaa aca aag

1248

Gly Asp Pro Asp Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys

405 410 415

act gta ttt cct ccc ggg

1266

Thr Val Phe Pro Pro Gly

420

<210>4

<211>422

<212>PRT

<213>人工序列

<220>

<223>VP1-WW150，已插入来自形成素结合蛋白11(FBP11)的WW结构域

<220>

<221>misc_feature

<222>(445)..(558)

<223>WW结构域

<400>4

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

Thr Lys Ala Ser Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

Leu Thr Ser Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

Pro Thr Asp Thr Gly Ser Gly Ser Gly Trp Thr Glu His Lys Ser Pro

145 150 155 160

Asp Gly Arg Thr Tyr Tyr Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp

165 170 175

Glu Lys Pro Asp Asp Gly Ser Gly Ser Gly Val Asn Thr Lys Gly Ile

180 185 190

Ser Thr Pro Val Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly

195 200 205

Glu Pro Leu Asp Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr

210 215 220

Lys Glu Glu Gly Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met

225 230 235 240

Val Asn Lys Asp Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp

245 250 255

Lys Asp Gly Met Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys

260 265 270

Asn Glu Asn Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr

275 280 285

Pro Pro Val Leu Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp

290 295 300

Glu Asn Gly Val Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser

305 310 315 320

Ser Val Asp Ile Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His

325 330 335

His Trp Arg Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg

340 345 350

Trp Val Lys Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe

355 360 365

Asn Asn Met Leu Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn

370 375 380

Thr Gln Val Glu Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro

385 390 395 400

Gly Asp Pro Asp Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys

405 410 415

Thr Val Phe Pro Pro Gly

420

<210>5

<211>1251

<212>DNA

<213>人工序列

<220>

<223>PyVP1-3C-WW1，氨基端具有WW结构域

<220>

<221>CDS

<222>(1)..(1251)

<223>

<220>

<221>misc_feature

<222>(9)..(93)

<223>WW结构域

<400>5

atg agc ggc tgg aca gaa cat aaa tca cct gat gga agg act tat tat

48

Met Ser Gly Trp Thr Glu His Lys Ser Pro Asp Gly Arg Thr Tyr Tyr

1 5 10 15

tac aat act gaa aca aaa cag tct acc tgg gaa aag cca gat gat gga

96

Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp Glu Lys Pro Asp Asp Gly

20 25 30

cat atg gcc ccc aaa aga aaa agc ggc gtc tct aaa tct gag aca aaa

144

His Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys

35 40 45

agc aca aag gcc tgt cca aga ccc gca ccc gtt ccc aaa ctg ctt att

192

Ser Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile

50 55 60

aaa ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac agt gtg

240

Lys Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val

65 70 75 80

aca gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca ccc acc

288

Thr Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr

85 90 95

cct gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc aga ggg

336

Pro Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly

100 105 110

att aat ttg gct aca tca gat aca gag gat tcc cca gga aat aat aca

384

Ile Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr

115 120 125

ctt ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc aat gag

432

Leu Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu

130 135 140

gac ctc acc tgt gac acc cta caa atg tgg gag gca gtc tca gtg aaa

480

Asp Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys

145 150 155 160

acc gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg ttc aac

528

Thr Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn

165 170 175

aaa ccc aca gat aca gta aac aca aaa gga att tcc act cca gtg gaa

576

Lys Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val Glu

180 185 190

ggc agc caa tat cat gtg ttt gct gtg ggc ggg gaa ccg ctt gac ctc

624

Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp Leu

195 200 205

cag gga ctt gtg aca gat gcc aga aca aaa tac aag gaa gaa ggg gta

672

Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly Val

210 215 220

gta aca atc aaa aca atc aca aag aag gac atg gtc aac aaa gac caa

720

Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp Gln

225 230 235 240

gtc ctg aat cca att agc aag gcc aag ctg gat aag gac gga atg tat

768

Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met Tyr

245 250 255

cca gtt gaa atc tgg cat cca gat cca gca aaa aat gag aac aca agg

816

Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr Arg

260 265 270

tac ttt ggc aat tac act gga ggc acg tgc act cca ccc gtc ctg cag

864

Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu Gln

275 280 285

ttc aca aac acc ctg aca act gtg ctc cta gat gaa aat gga gtt ggg

912

Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val Gly

290 295 300

ccc ctc agc aaa gga gag ggc cta tac ctc tcg agc gta gat ata atg

960

Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile Met

305 310 315 320

ggc tgg aga gtt aca aga aac tat gat gtc cat cac tgg aga ggg ctt

1008

Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly Leu

325 330 335

ccc aga tat ttc aaa atc acc ctg aga aaa aga tgg gtc aaa aat ccc

1056

Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn Pro

340 345 350

tat ccc atg gcc tcc ctc ata agt tcc ctt ttc aac aac atg ctc ccc

1104

Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu Pro

355 360 365

cga gtg cag ggc caa ccc atg gaa ggg gag aac acc cag gta gag gag

1152

Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu Glu

370 375 380

gtt aga gtg tat gat ggg act gaa cct gta ccg ggg gac cct gat atg

1200

Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp Met

385 390 395 400

acg cgc tat gtt gac cgc ttt gga aaa aca aag act gta ttt cct ccc

1248

Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro Pro

405 410 415

ggg

1251

Gly

<210>6

<211>417

<212>PRT

<213>人工序列

<220>

<223>PyVP1-3C-WW1，氨基端具有WW结构域

<220>

<221>misc_feature

<222>(9)..(93)

<223>WW结构域

<400>6

Met Ser Gly Trp Thr Glu His Lys Ser Pro Asp Gly Arg Thr Tyr Tyr

1 5 10 15

Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp Glu Lys Pro Asp Asp Gly

20 25 30

His Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys

35 40 45

Ser Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile

50 55 60

Lys Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val

65 70 75 80

Thr Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr

85 90 95

Pro Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly

100 105 110

Ile Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr

115 120 125

Leu Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu

130 135 140

Asp Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys

145 150 155 160

Thr Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn

165 170 175

Lys Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val Glu

180 185 190

Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp Leu

195 200 205

Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly Val

210 215 220

Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp Gln

225 230 235 240

Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met Tyr

245 250 255

Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr Arg

260 265 270

Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu Gln

275 280 285

Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val Gly

290 295 300

Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile Met

305 310 315 320

Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly Leu

325 330 335

Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn Pro

340 345 350

Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu Pro

355 360 365

Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu Glu

370 375 380

Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp Met

385 390 395 400

Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro Pro

405 410 415

Gly

<210>7

<211>1179

<212>DNA

<213>人工序列

<220>

<223>PyVP1-3C-[N-14]-PLP，在截断的氨基端存在富含脯氨酸序列

<220>

<221>CDS

<222>(1)..(1179)

<223>

<220>

<221>misc_feature

<222>(4)..(33)

<223>富含脯氨酸序列

<400>7

atg ccg cca cct cca ccg cca cct ccg tta cca ggc cta ggc cgg cgt

48

Met Pro Pro Pro Pro Pro Pro Pro Pro Leu Pro Gly Leu Gly Arg Arg

1 5 10 15

ggg cta gcg acg tcc cat ggc tta agt aca aag gct tgt cca aga ccc

96

Gly Leu Ala Thr Ser His Gly Leu Ser Thr Lys Ala Cys Pro Arg Pro

20 25 30

gca ccc gtt ccc aaa ctg ctt att aaa ggg ggt atg gag gtg ctg gac

144

Ala Pro Val Pro Lys Leu Leu Ile Lys Gly Gly Met Glu Val Leu Asp

35 40 45

ctt gtg aca ggg cca gac tgt gtg aca gaa ata gaa gct ttt ctg aac

192

Leu Val Thr Gly Pro Asp Cys Val Thr Glu Ile Glu Ala Phe Leu Asn

50 55 60

ccc aga atg ggg cag cca ccc acc cct gaa agc cta aca gag gga ggg

240

Pro Arg Met Gly Gln Pro Pro Thr Pro Glu Ser Leu Thr Glu Gly Gly

65 70 75 80

caa tac tat ggt tgg agc aga ggg att aat ttg gct aca tca gat aca

288

Gln Tyr Tyr Gly Trp Ser Arg Gly Ile Asn Leu Ala Thr Ser Asp Thr

85 90 95

gag gat tcc cca gga aat aat aca ctt ccc aca tgg agt atg gca aag

336

Glu Asp Ser Pro Gly Asn Asn Thr Leu Pro Thr Trp Ser Met Ala Lys

100 105 110

ctc cag ctt ccc atg ctc aat gag gac ctc acg tgt gac acc cta caa

384

Leu Gln Leu Pro Met Leu Asn Glu Asp Leu Thr Cys Asp Thr Leu Gln

115 120 125

atg tgg gag gca gtc tca gtg aaa acc gag gtg gtg ggc tct ggc tca

432

Met Trp Glu Ala Val Ser Val Lys Thr Glu Val Val Gly Ser Gly Ser

130 135 140

ctg tta gat gtg cat ggg ttc aac aaa ccc aca gat aca gta aac aca

480

Leu Leu Asp Val His Gly Phe Asn Lys Pro Thr Asp Thr Val Asn Thr

145 150 155 160

aaa gga att tcc act cca gtg gaa ggc agc caa tat cat gtg ttt gct

528

Lys Gly Ile Ser Thr Pro Val Glu Gly Ser Gln Tyr His Val Phe Ala

165 170 175

gtg ggc ggg gaa ccg ctt gac ctc cag gga ctt gtg aca gat gcc aga

576

Val Gly Gly Glu Pro Leu Asp Leu Gln Gly Leu Val Thr Asp Ala Arg

180 185 190

aca aaa tac aag gaa gaa ggg gta gta aca atc aaa aca atc aca aag

624

Thr Lys Tyr Lys Glu Glu Gly Val Val Thr Ile Lys Thr Ile Thr Lys

195 200 205

aag gac atg gtc aac aaa gac caa gtc ctg aat cca att agc aag gcc

672

Lys Asp Met Val Asn Lys Asp Gln Val Leu Asn Pro Ile Ser Lys Ala

210 215 220

aag ctg gat aag gac gga atg tat cca gtt gaa atc tgg cat cca gat

720

Lys Leu Asp Lys Asp Gly Met Tyr Pro Val Glu Ile Trp His Pro Asp

225 230 235 240

cca gca aaa aat gag aac aca agg tac ttt ggc aat tac act gga ggc

768

Pro Ala Lys Asn Glu Asn Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly

245 250 255

acg tgc acc cca ccc gtc ctg cag ttc aca aac acc ctg aca act gtg

816

Thr Cys Thr Pro Pro Val Leu Gln Phe Thr Asn Thr Leu Thr Thr Val

260 265 270

ctc cta gat gaa aat gga gtt ggg ccc ctc agc aaa gga gaa ggt cta

864

Leu Leu Asp Glu Asn Gly Val Gly Pro Leu Ser Lys Gly Glu Gly Leu

275 280 285

tac ctc tcg agc gta gat ata atg ggc tgg aga gtt aca aga aac tat

912

Tyr Leu Ser Ser Val Asp Ile Met Gly Trp Arg Val Thr Arg Asn Tyr

290 295 300

gat gtc cat cac tgg aga ggg ctt ccc aga tat ttc aaa atc acc ctg

960

Asp Val His His Trp Arg Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu

305 310 315 320

aga aaa aga tgg gtc aaa aat ccc tat ccc atg gcc tcc ctc ata agt

1008

Arg Lys Arg Trp Val Lys Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser

325 330 335

tcc ctt ttc aac aac atg ctc ccc caa gtg cag ggc caa ccc atg gaa

1056

Ser Leu Phe Asn Asn Met Leu Pro Gln Val Gln Gly Gln Pro Met Glu

340 345 350

ggg gag aac acc cag gta gag gag gtt aga gtg tat gat ggg act gaa

1104

Gly Glu Asn Thr Gln Val Glu Glu.Val Arg Val Tyr Asp Gly Thr Glu

355 360 365

cct gta ccg ggg gac cct gat atg acg cgc tat gtt gac cgc ttt gga

1152

Pro Val Pro Gly Asp Pro Asp Met Thr Arg Tyr Val Asp Arg Phe Gly

370 375 380

aaa aca aag act gta ttt cct ccc ggg

1179

Lys Thr Lys Thr Val Phe Pro Pro Gly

385 390

<210>8

<211>393

<212>PRT

<213>人工序列

<220>

<223>PyVP1-3C-[N-14]-PLP，在截断的氨基端存在富含脯氨酸序列

<220>

<221>misc_feature

<222>(4)..(33)

<223>富含脯氨酸序列

<400>8

Met Pro Pro Pro Pro Pro Pro Pro Pro Leu Pro Gly Leu Gly Arg Arg

1 5 10 15

Gly Leu Ala Thr Ser His Gly Leu Ser Thr Lys Ala Cys Pro Arg Pro

20 25 30

Ala Pro Val Pro Lys Leu Leu Ile Lys Gly Gly Met Glu Val Leu Asp

35 40 45

Leu Val Thr Gly Pro Asp Cys Val Thr Glu Ile Glu Ala Phe Leu Asn

50 55 60

Pro Arg Met Gly Gln Pro Pro Thr Pro Glu Ser Leu Thr Glu Gly Gly

65 70 75 80

Gln Tyr Tyr Gly Trp Ser Arg Gly Ile Asn Leu Ala Thr Ser Asp Thr

85 90 95

Glu Asp Ser Pro Gly Asn Asn Thr Leu Pro Thr Trp Ser Met Ala Lys

100 105 110

Leu Gln Leu Pro Met Leu Asn Glu Asp Leu Thr Cys Asp Thr Leu Gln

115 120 125

Met Trp Glu Ala Val Ser Val Lys Thr Glu Val Val Gly Ser Gly Ser

130 135 140

Leu Leu Asp Val His Gly Phe Asn Lys Pro Thr Asp Thr Val Asn Thr

145 150 155 160

Lys Gly Ile Ser Thr Pro Val Glu Gly Ser Gln Tyr His Val Phe Ala

165 170 175

Val Gly Gly Glu Pro Leu Asp Leu Gln Gly Leu Val Thr Asp Ala Arg

180 185 190

Thr Lys Tyr Lys Glu Glu Gly Val Val Thr Ile Lys Thr Ile Thr Lys

195 200 205

Lys Asp Met Val Asn Lys Asp Gln Val Leu Asn Pro Ile Ser Lys Ala

210 215 220

Lys Leu Asp Lys Asp Gly Met Tyr Pro Val Glu Ile Trp His Pro Asp

225 230 235 240

Pro Ala Lys Asn Glu Asn Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly

245 250 255

Thr Cys Thr Pro Pro Val Leu Gln Phe Thr Asn Thr Leu Thr Thr Val

260 265 270

Leu Leu Asp Glu Asn Gly Val Gly Pro Leu Ser Lys Gly Glu Gly Leu

275 280 285

Tyr Leu Ser Ser Val Asp Ile Met Gly Trp Arg Val Thr Arg Asn Tyr

290 295 300

Asp Val His His Trp Arg Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu

305 3l0 315 320

Arg Lys Arg Trp Val Lys Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser

325 330 335

Ser Leu Phe Asn Asn Met Leu Pro Gln Val Gln Gly Gln Pro Met Glu

340 345 350

Gly Glu Asn Thr Gln Val Glu Glu Val Arg Val Tyr Asp Gly Thr Glu

355 360 365

Pro Val Pro Gly Asp Pro Asp Met Thr Arg Tyr Val Asp Arg Phe Gly

370 375 380

Lys Thr Lys Thr Val Phe Pro Pro Gly

385 390

<210>9

<211>1209

<212>DNA

<213>人工序列

<220>

<223>PyVP1-3C-WW[N-14](具有截断的氨基端，WW结构域存在于截断的氨基端)

<220>

<221>CDS

<222>(1)..(1209)

<223>

<220>

<221>misc_feature

<222>(9)..(93)

<223>WW结构域

<400>9

atg agc ggc tgg aca gaa cat aaa tca cct gat gga agg act tat tat

48

Met Ser Gly Trp Thr Glu His Lys Ser Pro Asp Gly Arg Thr Tyr Tyr

1 5 10 15

tac aat act gaa aca aaa cag tct acc tgg gaa aag cca gat gat gga

96

Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp Glu Lys Pro Asp Asp Gly

20 25 30

cat atg agc acc aag gct tgt cca aga ccc gca ccc gtt ccc aaa ctg

144

His Met Ser Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu

35 40 45

ctt att aaa ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac

192

Leu Ile Lys Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp

50 55 60

agt gtg aca gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca

240

Ser Val Thr Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro

65 70 75 80

ccc acc cct gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc

288

Pro Thr Pro Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser

85 90 95

aga ggg att aat ttg gct aca tca gat aca gag gat tcc cca gga aat

336

Arg Gly Ile Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn

100 105 110

aat aca ctt ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc

384

Asn Thr Leu Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu

115 120 125

aat gag gac ctc acg tgt gac acc cta caa atg tgg gag gca gtc tca

432

Asn Glu Asp Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser

130 135 140

gtg aaa acc gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg

480

Val Lys Thr Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly

145 150 155 160

ttc aac aaa ccc aca gat aca gta aac aca aaa gga att tcc act cca

528

Phe Asn Lys Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro

165 170 175

gtg gaa ggc agc caa tat cat gtg ttt gct gtg ggc ggg gaa ccg ctt

576

Val Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu

180 185 190

gac ctc cag gga ctt gtg aca gat gcc aga aca aaa tac aag gaa gaa

624

Asp Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu

195 200 205

ggg gta gta aca atc aaa aca atc aca aag aag gac atg gtc aac aaa

672

Gly Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys

210 215 220

gac caa gtc ctg aat cca att agc aag gcc aag ctg gat aag gac gga

720

Asp Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly

225 230 235 240

atg tat cca gtt gaa atc tgg cat cca gat cca gca aaa aat gag aac

768

Met Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn

245 250 255

aca agg tac ttt ggc aat tac act gga ggc acg tgc acc cca ccc gtc

816

Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val

260 265 270

ctg cag ttc aca aac acc ctg aca act gtg ctc cta gat gaa aat gga

864

Leu Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly

275 280 285

gtt ggg ccc ctc agc aaa gga gaa ggt cta tac ctc tcg agc gta gat

912

Val Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp

290 295 300

ata atg ggc tgg aga gtt aca aga aac tat gat gtc cat cac tgg aga

960

Ile Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg

305 310 315 320

ggg ctt ccc aga tat ttc aaa atc acc ctg aga aaa aga tgg gtc aaa

1008

Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys

325 330 335

aat ccc tat ccc atg gcc tcc ctc ata agt tcc ctt ttc aac aac atg

1056

Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met

340 345 350

ctc ccc caa gtg cag ggc caa ccc atg gaa ggg gag aac acc cag gta

l104

Leu Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val

355 360 365

gag gag gtt aga gtg tat gat ggg act gaa cct gta ccg ggg gac cct

1152

Glu Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro

370 375 380

gat atg acg cgc tat gtt gac cgc ttt gga aaa aca aag act gta ttt

1200

Asp Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe

385 390 395 400

cct ccc ggg

1209

Pro Pro Gly

<210>10

<211>403

<212>PRT

<213>人工序列

<220>

<221>misc_feature

<222>(9)..(93)

<223>WW结构域

<400>10

Met Ser Gly Trp Thr Glu His Lys Ser Pro Asp Gly Arg Thr Tyr Tyr

1 5 10 15

Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp Glu Lys Pro Asp Asp Gly

20 25 30

His Met Ser Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu

35 40 45

Leu Ile Lys Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp

50 55 60

Ser Val Thr Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro

65 70 75 80

Pro Thr Pro Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser

85 90 95

Arg Gly Ile Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn

100 105 110

Asn Thr Leu Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu

115 120 125

Asn Glu Asp Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser

130 135 140

Val Lys Thr Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly

145 150 155 160

Phe Asn Lys Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro

165 170 175

Val Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu

180 185 190

Asp Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu

195 200 205

Gly Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys

210 215 220

Asp Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly

225 230 235 240

Met Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn

245 250 255

Thr Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val

260 265 270

Leu Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly

275 280 285

Val Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp

290 295 300

Ile Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg

305 310 315 320

Gly Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys

325 330 335

Asn Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met

340 345 350

Leu Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val

355 360 365

Glu Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro

370 375 380

Asp Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe

385 390 395 400

Pro Pro Gly

<210>11

<211>765

<212>DNA

<213>人工序列

<220>

<223>GFP-PLP，在羧基端存在富含脯氨酸序列

<220>

<221>CDS

<222>(1)..(765)

<223>

<220>

<221>misc_feature

<222>(736)..(765)

<223>富含脯氨酸序列

<400>11

atg gtg agc aag ggc gag gag ctg ttc acc ggg gtg gtg ccc atc ctg

48

Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu

1 5 10 15

gtc gag ctg gac ggc gac gta aac ggc cac aag ttc agc gtg tcc ggc

96

Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly

20 25 30

gag ggc gag ggc gat gcc acc tac ggc aag ctg acc ctg aag ttc atc

144

Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile

35 40 45

tgc acc acc ggc aag ctg ccc gtg ccc tgg ccc acc ctc gtg acc acc

192

Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr

50 55 60

ctg acc tac ggc gtg cag tgc ttc agc cgc tac ccc gac cac atg aag

240

Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys

65 70 75 80

cag cac gac ttc ttc aag tcc gcc atg ccc gaa ggc tac gtc cag gag

288

Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu

85 90 95

cgc acc atc ttc ttc aag gac gac ggc aac tac aag acc cgc gcc gag

336

Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu

100 105 110

gtg aag ttc gag ggc gac acc ctg gtg aac cgc atc gag ctg aag ggc

384

Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly

115 120 125

atc gac ttc aag gag gac ggc aac atc ctg ggg cac aag ctg gag tac

432

Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr

130 135 140

aac tac aac agc cac aac gtc tat atc atg gcc gac aag cag aag aac

480

Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn

145 150 155 160

ggc atc aag gtg aac ttc aag atc cgc cac aac atc gag ggc ggc agc

528

Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Gly Gly Ser

165 170 175

gtg cag ctc gcc gac cac tac cag cag aac acc ccc atc ggc gac ggc

576

Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly

180 185 190

ccc gtg ctg ctg ccc gac aac cac tac ctg agc acc cag tcc gcc ctg

624

Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu

195 200 205

agc aaa gac ccc aac gag aag cgc gat cac atg gtc ctg ctg gag ttc

672

Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe

210 215 220

gtg acc gcc gcc ggg atc act ctc ggc atg gac gag ctg tac tta agc

720

Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Leu Ser

225 230 235 240

cga cgt gcc tca ggt ccg ccg cct cca ccg cca ccg cct tta ccc

765

Arg Arg Ala Ser Gly Pro Pro Pro Pro Pro Pro Pro Pro Leu Pro

245 250 255

<210>12

<211>255

<212>PRT

<213>人工序列

<220>

<223>GFP-PLP，在羧基端存在富含脯氨酸序列

<220>

<221>misc_feature

<222>(736)..(765)

<223>富含脯氨酸序列

<400>12

Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu

1 5 10 15

Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly

20 25 30

Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile

35 40 45

Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr

50 55 60

Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys

65 70 75 80

Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu

85 90 95

Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu

100 105 110

Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly

115 120 125

Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr

130 135 140

Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn

145 150 155 160

Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Gly Gly Ser

165 170 175

Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly

180 185 190

Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu

195 200 205

Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe

210 215 220

Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Leu Ser

225 230 235 240

Arg Arg Ala Ser Gly Pro Pro Pro Pro Pro Pro Pro Pro Leu Pro

245 250 255

<210>13

<211>837

<212>DNA

<213>人工序列

<220>

<223>GFP-WW1，在氨基端存在WW结构域

<220>

<221>CDS

<222>(1)..(837)

<223>

<220>

<221>misc_feature

<222>(9)..(93)

<223>WW结构域

<400>13

atg agc ggc tgg aca gaa cat aaa tca cct gat gga agg act tat tat

48

Met Ser Gly Trp Thr Glu His Lys Ser Pro Asp Gly Arg Thr Tyr Tyr

1 5 10 15

tac aat act gaa aca aaa cag tct acc tgg gaa aag cca gat gat gga

96

Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp Glu Lys Pro Asp Asp Gly

20 25 30

cat atg agc acc aag gct agc gtg agc aag ggc gag gag ctg ttc acc

144

His Met Ser Thr Lys Ala Ser Val Ser Lys Gly Glu Glu Leu Phe Thr

35 40 45

ggg gtg gtg ccc atc ctg gtc gag ctg gac ggc gac gta aac ggc cac

192

Gly Val Val Pro Ile Leu Val Glu Leu Asp Gly Asp Val Asn Gly His

50 55 60

aag ttc agc gtg tcc ggc gag ggc gag ggc gat gcc acc tac ggc aag

240

Lys Phe Ser Val Ser Gly Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys

65 70 75 80

ctg acc ctg aag ttc atc tgc acc acc ggc aag ctg ccc gtg ccc tgg

288

Leu Thr Leu Lys Phe Ile Cys Thr Thr Gly Lys Leu Pro Val Pro Trp

85 90 95

ccc acc ctc gtg acc acc ctg acc tac ggc gtg cag tgc ttc agc cgc

336

Pro Thr Leu Val Thr Thr Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg

100 105 110

tac ccc gac cac atg aag cag cac gac ttc ttc aag tcc gcc atg ccc

384

Tyr Pro Asp His Met Lys Gln His Asp Phe Phe Lys Ser Ala Met Pro

115 120 125

gaa ggc tac gtc cag gag cgc acc atc ttc ttc aag gac gac ggc aac

432

Glu Gly Tyr Val Gln Glu Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn

130 135 140

tac aag acc cgc gcc gag gtg aag ttc gag ggc gac acc ctg gtg aac

480

Tyr Lys Thr Arg Ala Glu Val Lys Phe Glu Gly Asp Thr Leu Val Asn

145 150 155 160

cgc atc gag ctg aag ggc atc gac ttc aag gag gac ggc aac atc ctg

528

Arg Ile Glu Leu Lys Gly Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu

165 170 175

ggg cac aag ctg gag tac aac tac aac agc cac aac gtc tat atc atg

576

Gly His Lys Leu Glu Tyr Asn Tyr Asn Ser His Asn Val Tyr Ile Met

180 185 190

gcc gac aag cag aag aac ggc atc aag gtg aac ttc aag atc cgc cac

624

Ala Asp Lys Gln Lys Asn Gly Ile Lys Val Asn Phe Lys Ile Arg His

195 200 205

aac atc gag gac ggc agc gtg cag ctc gcc gac cac tac cag cag aac

672

Asn Ile Glu Asp Gly Ser Val Gln Leu Ala Asp His Tyr Gln Gln Asn

210 215 220

acc ccc atc ggc gac ggc ccc gtg ctg ctg ccc gac aac cac tac ctg

720

Thr Pro Ile Gly Asp Gly Pro Val Leu Leu Pro Asp Asn His Tyr Leu

225 230 235 240

agc acc cag tcc gcc ctg agc aaa gac ccc aac gag aag cgc gat cac

768

Ser Thr Gln Ser Ala Leu Ser Lys Asp Pro Asn Glu Lys Arg Asp His

245 250 255

atg gtc ctg ctg gag ttc gtg acc gcc gcc ggg atc act ctc ggc atg

816

Met Val Leu Leu Glu Phe Val Thr Ala Ala Gly Ile Thr Leu Gly Met

260 265 270

gac gag ctg tac tta att ccc

837

Asp Glu Leu Tyr Leu Ile Pro

275

<210>14

<211>279

<212>PRT

<213>人工序列

<220>

<223>GFP-WW1，在氨基端存在WW结构域

<220>

<221>misc_feature

<222>(9)..(93)

<223>WW结构域

<400>14

Met Ser Gly Trp Thr Glu His Lys Ser Pro Asp Gly Arg Thr Tyr Tyr

1 5 10 15

Tyr Asn Thr Glu Thr Lys Gln Ser Thr Trp Glu Lys Pro Asp Asp Gly

20 25 30

His Met Ser Thr Lys Ala Ser Val Ser Lys Gly Glu Glu Leu Phe Thr

35 40 45

Gly Val Val Pro Ile Leu Val Glu Leu Asp Gly Asp Val Asn Gly His

50 55 60

Lys Phe Ser Val Ser Gly Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys

65 70 75 80

Leu Thr Leu Lys Phe Ile Cys Thr Thr Gly Lys Leu Pro Val Pro Trp

85 90 95

Pro Thr Leu Val Thr Thr Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg

100 105 110

Tyr Pro Asp His Met Lys Gln His Asp Phe Phe Lys Ser Ala Met Pro

115 120 125

Glu Gly Tyr Val Gln Glu Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn

130 135 140

Tyr Lys Thr Arg Ala Glu Val Lys Phe Glu Gly Asp Thr Leu Val Asn

145 150 155 160

Arg Ile Glu Leu Lys Gly Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu

165 170 175

Gly His Lys Leu Glu Tyr Asn Tyr Asn Ser His Asn Val Tyr Ile Met

180 185 190

Ala Asp Lys Gln Lys Asn Gly Ile Lys Val Asn Phe Lys Ile Arg His

195 200 205

Asn Ile Glu Asp Gly Ser Val Gln Leu Ala Asp His Tyr Gln Gln Asn

210 215 220

Thr Pro Ile Gly Asp Gly Pro Val Leu Leu Pro Asp Asn His Tyr Leu

225 230 235 240

Ser Thr Gln Ser Ala Leu Ser Lys Asp Pro Asn Glu Lys Arg Asp His

245 250 255

Met Val Leu Leu Glu Phe Val Thr Ala Ala Gly Ile Thr Leu Gly Met

260 265 270

Asp Glu Leu Tyr Leu Ile Pro

275

<210>15

<211>13

<212>PRT

<213>人工序列

<220>

<223>富含脯氨酸序列(PLP)

<400>15

Cys Ser Gly Pro Pro Pro Pro Pro Pro Pro Pro Leu Pro

1 5 10

<210>16

<211>1152

<212>DNA

<213>人工序列

<220>

<223>多瘤病毒VP1蛋白的PyVP1-CallS-T249C变体，具有11位的半胱氨酸被丝氨酸取代以及249位苏氨酸替换为半胱氨酸

<220>

<221>CDS

<222>(1)..(1152)

<223>

<400>16

atg gcc ccc aaa aga aaa agc ggc gtc tct aaa agc gag aca aaa agc

48

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

aca aag gct agc cca aga ccc gca ccc gtt ccc aaa ctg ctt att aaa

96

Thr Lys Ala Ser Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac agt gtg aca

144

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca ccc acc cct

192

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc aga ggg att

240

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

aat ttg gct aca tca gat aca gag gat tcc cca gga aat aat aca ctt

288

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc aat gag gac

336

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

ctc acg tct gac acc cta caa atg tgg gag gca gtc tca gtg aaa acc

384

Leu Thr Ser Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg ttc aac aaa

432

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

ccc aca gat aca gta aac aca aaa gga att tcc act cca gtg gaa ggc

480

Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val Glu Gly

145 150 155 160

agc caa tat cat gtg ttt gct gtg ggc ggg gaa ccg ctt gac ctc cag

528

Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp Leu Gln

165 170 175

gga ctt gtg aca gat gcc aga aca aaa tac aag gaa gaa ggg gta gta

576

Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly Val Val

180 185 190

aca atc aaa aca atc aca aag aag gac atg gtc aac aaa gac caa gtc

624

Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp Gln Val

195 200 205

ctg aat cca att agc aag gcc aag ctg gat aag gac gga atg tat cca

672

Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met Tyr Pro

210 215 220

gtt gaa atc tgg cat cca gat cca gca aaa aat gag aac aca agg tac

720

Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr Arg Tyr

225 230 235 240

ttt ggc aat tac act gga ggc acg tgc acc cca ccc gtc ctg cag ttc

768

Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu Gln Phe

245 250 255

aca aac acc ctg aca act gtg ctc cta gat gaa aat gga gtt ggg ccc

816

Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val Gly Pro

260 265 270

ctc agc aaa gga gaa ggt cta tac ctc tcg agc gta gat ata atg ggc

864

Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile Met Gly

275 280 285

tgg aga gtt aca aga aac tat gat gtc cat cac tgg aga ggg ctt ccc

912

Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly Leu Pro

290 295 300

aga tat ttc aaa atc acc ctg aga aaa aga tgg gtc aaa aat ccc tat

960

Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn Pro Tyr

305 310 315 320

ccc atg gcc tcc ctc ata agt tcc ctt ttc aac aac atg ctc ccc caa

1008

Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu Pro Gln

325 330 335

gtg cag ggc caa ccc atg gaa ggg gag aac acc cag gta gag gag gtt

1056

Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu Glu Val

340 345 350

aga gtg tat gat ggg act gaa cct gta ccg ggg gac cct gat atg acg

1104

Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp Met Thr

355 360 365

cgc tat gtt gac cgc ttt gga aaa aca aag act gta ttt cct ccc ggg

1152

Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro Pro Gly

370 375 380

<210>17

<211>384

<212>PRT

<213>人工序列

<220>

<400>17

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

Thr Lys Ala Ser Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

Leu Thr Ser Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val Glu Gly

145 150 155 160

Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp Leu Gln

165 170 175

Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly Val Val

180 185 190

Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp Gln Val

195 200 205

Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met Tyr Pro

210 215 220

Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr Arg Tyr

225 230 235 240

Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu Gln Phe

245 250 255

Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val Gly Pro

260 265 270

Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile Met Gly

275 280 285

Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly Leu Pro

290 295 300

Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn Pro Tyr

305 310 315 320

Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu Pro Gln

325 330 335

Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu Glu Val

340 345 350

Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp Met Thr

355 360 365

Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro Pro Gly

370 375 380

<210>18

<211>1110

<212>DNA

<213>人工序列

<220>

<223>多瘤病毒VP1蛋白的VP1-3C-[N-14]变体，氨基端截去14个残基，6个半胱氨酸中有4个被丝氨酸取代，并具有249位苏氨酸替换为半胱氨酸

<220>

<221>CDS

<222>(1)..(1110)

<223>

<400>18

atg agc acc aag gct tgt cca aga ccc gca ccc gtt ccc aaa ctg ctt

48

Met Ser Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu Leu

1 5 10 15

att aaa ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac agt

96

Ile Lys Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser

20 25 30

gtg aca gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca ccc

144

Val Thr Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro

35 40 45

acc cct gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc aga

192

Thr Pro Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg

50 55 60

ggg att aat ttg gct aca tca gat aca gag gat tcc cca gga aat aat

240

Gly Ile Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn

65 70 75 80

aca ctt ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc aat

288

Thr Leu Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn

85 90 95

gag gac ctc acg tgt gac acc cta caa atg tgg gag gca gtc tca gtg

336

Glu Asp Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val

100 105 110

aaa acc gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg ttc

384

Lys Thr Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe

115 120 125

aac aaa ccc aca gat aca gta aac aca aaa gga att tcc act cca gtg

432

Asn Lys Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val

130 135 140

gaa ggc agc caa tat cat gtg ttt gct gtg ggc ggg gaa ccg ctt gac

480

Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp

145 150 155 160

ctc cag gga ctt gtg aca gat gcc aga aca aaa tac aag gaa gaa ggg

528

Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly

165 170 175

gta gta aca atc aaa aca atc aca aag aag gac atg gtc aac aaa gac

576

Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp

180 185 190

caa gtc ctg aat cca att agc aag gcc aag ctg gat aag gac gga atg

624

Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met

195 200 205

tat cca gtt gaa atc tgg cat cca gat cca gca aaa aat gag aac aca

672

Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr

210 215 220

agg tac ttt ggc aat tac act gga ggc acg tgc acc cca ccc gtc ctg

720

Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu

225 230 235 240

cag ttc aca aac acc ctg aca act gtg ctc cta gat gaa aat gga gtt

768

Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val

245 250 255

ggg ccc ctc agc aaa gga gaa ggt cta tac ctc tcg agc gta gat ata

816

Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile

260 265 270

atg ggc tgg aga gtt aca aga aac tat gat gtc cat cac tgg aga ggg

864

Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly

275 280 285

ctt ccc aga tat ttc aaa atc acc ctg aga aaa aga tgg gtc aaa aat

912

Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn

290 295 300

ccc tat ccc atg gcc tcc ctc ata agt tcc ctt ttc aac aac atg ctc

960

Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu

305 310 315 320

ccc caa gtg cag ggc caa ccc atg gaa ggg gag aac acc cag gta gag

1008

Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu

325 330 335

gag gtt aga gtg tat gat ggg act gaa cct gta ccg ggg gac cct gat

1056

Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp

340 345 350

atg acg cgc tat gtt gac cgc ttt gga aaa aca aag act gta ttt cct

1104

Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro

355 360 365

ccc ggg

1110

Pro Gly

370

<210>19

<211>370

<212>PRT

<213>人工序列

<220>

<400>19

Met Ser Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu Leu

1 5 10 15

Ile Lys Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser

20 25 30

Val Thr Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro

35 40 45

Thr Pro Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg

50 55 60

Gly Ile Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn

65 70 75 80

Thr Leu Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn

85 90 95

Glu Asp Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val

100 105 110

Lys Thr Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe

115 120 125

Asn Lys Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val

130 135 140

Glu Gly Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp

145 150 155 160

Leu Gln Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly

165 170 175

Val Val Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp

180 185 190

Gln Val Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met

195 200 205

Tyr Pro Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr

210 215 220

Arg Tyr Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu

225 230 235 240

Gln Phe Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val

245 250 255

Gly Pro Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile

260 265 270

Met Gly Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly

275 280 285

Leu Pro Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn

290 295 300

Pro Tyr Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu

305 310 315 320

Pro Gln Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu

325 330 335

Glu Val Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp

340 345 350

Met Thr Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro

355 360 365

Pro Gly

370

<210>20

<211>1152

<212>DNA

<213>人工序列

<220>

<223>多瘤病毒VP1蛋白的PyVP1-3C变体，6个半胱氨酸中有4个被丝氨酸取代，并具有249位苏氨酸替换为半胱氨酸

<220>

<221>CDS

<222>(1)..(1152)

<223>

<400>20

atg gcc ccc aaa aga aaa agc ggc gtc tct aaa agc gag aca aaa agc

48

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

aca aag gcc tgt cca aga ccc gca ccc gtt ccc aaa ctg ctt att aaa

96

Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

ggg ggt atg gag gtg ctg gac ctt gtg aca ggg cca gac agt gtg aca

144

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

gaa ata gaa gct ttt ctg aac ccc aga atg ggg cag cca ccc acc cct

192

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

gaa agc cta aca gag gga ggg caa tac tat ggt tgg agc aga ggg att

240

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

aat ttg gct aca tca gat aca gag gat tcc cca gga aat aat aca ctt

288

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Asn Thr Leu

85 90 95

ccc aca tgg agt atg gca aag ctc cag ctt ccc atg ctc aat gag gac

336

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

ctc acc tgt gac acc cta caa atg tgg gag gca gtc tca gtg aaa acc

384

Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

gag gtg gtg ggc tct ggc tca ctg tta gat gtg cat ggg ttc aac aaa

432

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

ccc aca gat aca gta aac aca aaa gga att tcc act cca gtg gaa ggc

480

Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val Glu Gly

145 150 155 160

agc caa tat cat gtg ttt gct gtg ggc ggg gaa ccg ctt gac ctc cag

528

Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp Leu Gln

165 170 175

gga ctt gtg aca gat gcc aga aca aaa tac aag gaa gaa ggg gta gta

576

Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly Val Val

180 185 190

aca atc aaa aca atc aca aag aag gac atg gtc aac aaa gac caa gtc

624

Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp Gln Val

195 200 205

ctg aat cca att agc aag gcc aag ctg gat aag gac gga atg tat cca

672

Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met Tyr Pro

210 215 220

gtt gaa atc tgg cat cca gat cca gca aaa aat gag aac aca agg tac

720

Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr Arg Tyr

225 230 235 240

ttt ggc aat tac act gga ggc acg tgc acc cca ccc gtc ctg cag ttc

768

Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu Gln Phe

245 250 255

aca aac acc ctg aca act gtg ctc cta gat gaa aat gga gtt ggg ccc

816

Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val Gly Pro

260 265 270

ctc agc aaa gga gaa ggt cta tac ctc tcg agc gta gat ata atg ggc

864

Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile Met Gly

275 280 285

tgg aga gtt aca aga aac tat gat gtc cat cac tgg aga ggg ctt ccc

912

Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly Leu Pro

290 295 300

aga tat ttc aaa atc acc ctg aga aaa aga tgg gtc aaa aat ccc tat

960

Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn Pro Tyr

305 310 315 320

ccc atg gcc tcc ctc ata agt tcc ctt ttc aac aac atg ctc ccc caa

1008

Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu Pro Gln

325 330 335

gtg cag ggc caa ccc atg gaa ggg gag aac acc cag gta gag gag gtt

1056

Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu Glu Val

340 345 350

aga gtg tat gat ggg act gaa cct gta ccg ggg gac cct gat atg acg

1104

Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp Met Thr

355 360 365

cgc tat gtt gac cgc ttt gga aaa aca aag act gta ttt cct ccc ggg

1152

Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro Pro Gly

370 375 380

<210>21

<211>384

<212>PRT

<213>人工序列

<220>

<400>21

Met Ala Pro Lys Arg Lys Ser Gly Val Ser Lys Ser Glu Thr Lys Ser

1 5 10 15

Thr Lys Ala Cys Pro Arg Pro Ala Pro Val Pro Lys Leu Leu Ile Lys

20 25 30

Gly Gly Met Glu Val Leu Asp Leu Val Thr Gly Pro Asp Ser Val Thr

35 40 45

Glu Ile Glu Ala Phe Leu Asn Pro Arg Met Gly Gln Pro Pro Thr Pro

50 55 60

Glu Ser Leu Thr Glu Gly Gly Gln Tyr Tyr Gly Trp Ser Arg Gly Ile

65 70 75 80

Asn Leu Ala Thr Ser Asp Thr Glu Asp Ser Pro Gly Asn Ash Thr Leu

85 90 95

Pro Thr Trp Ser Met Ala Lys Leu Gln Leu Pro Met Leu Asn Glu Asp

100 105 110

Leu Thr Cys Asp Thr Leu Gln Met Trp Glu Ala Val Ser Val Lys Thr

115 120 125

Glu Val Val Gly Ser Gly Ser Leu Leu Asp Val His Gly Phe Asn Lys

130 135 140

Pro Thr Asp Thr Val Asn Thr Lys Gly Ile Ser Thr Pro Val Glu Gly

145 150 155 160

Ser Gln Tyr His Val Phe Ala Val Gly Gly Glu Pro Leu Asp Leu Gln

165 170 175

Gly Leu Val Thr Asp Ala Arg Thr Lys Tyr Lys Glu Glu Gly Val Val

180 185 190

Thr Ile Lys Thr Ile Thr Lys Lys Asp Met Val Asn Lys Asp Gln Val

195 200 205

Leu Asn Pro Ile Ser Lys Ala Lys Leu Asp Lys Asp Gly Met Tyr Pro

210 215 220

Val Glu Ile Trp His Pro Asp Pro Ala Lys Asn Glu Asn Thr Arg Tyr

225 230 235 240

Phe Gly Asn Tyr Thr Gly Gly Thr Cys Thr Pro Pro Val Leu Gln Phe

245 250 255

Thr Asn Thr Leu Thr Thr Val Leu Leu Asp Glu Asn Gly Val Gly Pro

260 265 270

Leu Ser Lys Gly Glu Gly Leu Tyr Leu Ser Ser Val Asp Ile Met Gly

275 280 285

Trp Arg Val Thr Arg Asn Tyr Asp Val His His Trp Arg Gly Leu Pro

290 295 300

Arg Tyr Phe Lys Ile Thr Leu Arg Lys Arg Trp Val Lys Asn Pro Tyr

305 310 315 320

Pro Met Ala Ser Leu Ile Ser Ser Leu Phe Asn Asn Met Leu Pro Gln

325 330 335

Val Gln Gly Gln Pro Met Glu Gly Glu Asn Thr Gln Val Glu Glu Val

340 345 350

Arg Val Tyr Asp Gly Thr Glu Pro Val Pro Gly Asp Pro Asp Met Thr

355 360 365

Arg Tyr Val Asp Arg Phe Gly Lys Thr Lys Thr Val Phe Pro Pro Gly

370 375 380

Claims

1.通过衔接头片段将两种或更多种分子物质互相连接起来的方法，其特征在于：

分子物质之一以这样一种方式被修饰，以致其至少在其一个区域作为衔接头片段，展示一个WW结构域，

另一种分子物质以这样一种方式被修饰，以致其至少在其一个区域作为衔接头片段，展示一个能够与WW结构域结合的富含脯氨酸序列，

以及，通过WW结构域与富含脯氨酸序列的连接，使分子物质建立相互作用，以便达到彼此结合。

2.根据权利要求1所述方法，其特征在于：用于连接的分子物质选自蛋白质或肽，在这些分子内部或表面，用于装配的一个WW结构域与一个富含脯氨酸序列可以整合。

3.根据权利要求1所述方法，其特征在于：用于连接的分子物质选自至少一种肽核酸、核酸、DNA、RNA、或核酶、或者它们的杂种，在这些分子内部或表面，用于装配的一个WW结构域与一个富含脯氨酸序列可以整合。

4.根据权利要求1或2所述的方法，其特征在于：用于连接的分子物质选自抗体、酶、结构蛋白、病毒和噬菌体的衣壳蛋白亚单位、肽类抗生素、催化功能或调节蛋白的结构域、蛋白片段、肽、抗原承受物、糖蛋白、脂蛋白、蛋白聚糖、或上述物质的组合物，在这些分子内部或表面，用于装配的一个WW结构域与一个富含脯氨酸序列可以整合。

5.根据权利要求1所述的方法，其特征在于：分子物质之一为固定相基质分子。

6.根据权利要求1所述的方法，其特征在于：WW结构域出现在蛋白结构的环状区或者蛋白或肽结构的N或C末端。

7.根据权利要求1所述的方法，其特征在于：富含脯氨酸序列出现在蛋白结构的环状区或者蛋白或肽结构的N或C末端。

8.根据权利要求1所述的方法，其特征在于：作为分子物质之一，使用的病毒或噬菌体衣壳蛋白亚单位，其在衣壳蛋白亚单位的那样一个位置展示出WW结构域或富含脯氨酸序列，以致，其他分子物质，在与第一种分子物质发生结合或缔合并与更多的衣壳蛋白亚单位装配成病毒或噬菌体衣壳之后，可在病毒或噬菌体衣壳内部找到。

9.根据权利要求1所述的方法，其特征在于：作为分子物质之一，使用的病毒或噬菌体衣壳蛋白亚单位，其在衣壳蛋白亚单位的那样一个位置展示出WW结构域或富含脯氨酸序列，以致与更多的衣壳蛋白亚单位装配成病毒或噬菌体衣壳之后，可在衣壳的外部找到它。

10.根据权利要求1所述的方法，其特征在于：除了衔接头片段之间的结合以外，通过WW结构域和富含脯氨酸序列间的相互作用，分子物质间形成共价键。

11.根据权利要求1的方法，其特征在于：通过在WW结构域区域特异引入一个或几个半胱氨酸，同时在富含脯氨酸序列的区域特异引入一个或几个半胱氨酸，导致分子物间形成共价连接。

12.根据权利要求1所述的方法，其特征在于：分子物质间形成可逆或不可逆的连接。

13.根据权利要求1所述的方法，其特征在于：WW结构域和富含脯氨酸序列与分子物质间形成共价或非共价的结合。

14.根据权利要求1所述的方法，其特征在于：至少一种分子物质和/或结合区为合成生产。

15.根据权利要求1所述的方法，其特征在于：使用了从WW结构域衍生而来的结构，即，变体，与天然WW结构域相比，其被缩短、延长或经过个别氨基酸位点的改变，或者其在空间适合位置包含半胱氨酸，或者其包含一前一后几个WW结构域。

16.根据权利要求8或9的方法，其特征在于：来自病毒或噬菌体衣壳的修饰或未修饰的单体、双体、寡聚体成分被作为重组产生的病毒衣壳蛋白亚单位或噬菌体衣壳蛋白亚单位予以使用。

17.通过衔接头片段而结合的分子物质，其特征在于：分子物质之一是以那样一种方式修饰，以致其至少在其一个区域作为衔接头片段，展示一个WW结构域，另一种分子物质以这样一种方式被修饰，以致其至少展示一个作为衔接头片段，能够与WW结构域结合的富含脯氨酸序列，以及，通过WW结构域和富含脯氨酸区的缔合作用，使分子物质相互间建立相互作用，以便达到彼此结合。