CN113195521B

CN113195521B - Mtu ΔI-CM内含肽变体和其应用

Info

Publication number: CN113195521B
Application number: CN201980083379.8A
Authority: CN
Inventors: 林章凛; 王婷婷; 赵青; 王胥; 周碧红; 邢磊
Original assignee: Tsinghua University; South China University of Technology SCUT
Current assignee: Tsinghua University; South China University of Technology SCUT
Priority date: 2018-12-19
Filing date: 2019-12-19
Publication date: 2023-05-12
Anticipated expiration: 2039-12-19
Also published as: US11136360B2; WO2020125707A1; US20200199183A1; CN113195521A

Abstract

本发明提供MtuΔI‑CM内含肽变体或其变体的生物学活性片段，和使用其制备和纯化目的分子的方法。

Description

Mtu ΔI-CM内含肽变体和其应用

技术领域

本发明涉及生物工程领域。更具体地，本发明涉及Mtu ΔI-CM内含肽变体或其变体的生物学活性片段，和使用其制备和纯化目的分子的方法。

背景技术

内含肽(Intein)是一种自我剪接型蛋白质，存在于一些特定的宿主的蛋白质中。内含肽能够通过自我剪接反应，使自身从前体蛋白质中分离出来，并且使在两个侧翼区的外显肽通过肽键连接，成为具有生物活性的成熟蛋白质。

内含肽的一个主要用途是和纯化标签结合应用于蛋白质纯化领域。通过把自我剪接型内含肽一端的活性氨基酸突变成丙氨酸，可沉默其一端活性，或再经过适当的进化与改造，得到只在N端或C端切割的内含肽，即可应用于基于纯化标签的纯化方法中。通常地，内含肽的N端切割由硫醇试剂诱导发生，C端切割则可被pH改变或硫醇试剂诱导发生。相对硫醇试剂诱导的内含肽切割，pH诱导的切割具有三大特点：1)pH诱导的切割属于C端切割，可产生目的分子的真实N端，对医药多肽的生产尤为重要；2) 不使用还原剂，利于含二硫键的多肽和蛋白质的生产；3)仅需要改变缓冲液的pH值，经济方便。据估计，硫醇试剂诱导切割的缓冲液花费和便宜的蛋白酶差不多(如GE公司的PreScission蛋白酶或者Qiagen公司的TagZyme蛋白酶)。但pH诱导的缓冲液的价格可比硫醇试剂缓冲液或便宜的酶的价格低两个数量级，并且因此pH诱导的切割具有很大的应用潜力。但是，在应用pH诱导型C端切割的内含肽(如Mtu ΔI-CM内含肽)时，在重组宿主中融合蛋白质表达过程中会发生比较严重的不成熟切割。所以，开发更加可控的pH诱导型内含肽将有力促进基于纯化标签的蛋白质纯化方法的应用。

发明内容

本发明提供了含有一个或多个突变的Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段，以及使用其来制备和纯化目的分子的方法，具体技术方案如下：

在第一方面，本发明涉及一种分离的多肽，其包含Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段，所述Mtu ΔI-CM内含肽具有如SEQ ID NO:1所示的氨基酸序列，其中所述多肽在对应于Mtu ΔI-CM内含肽的H157和H167周围

范围内的位置上包括氨基酸取代，并且所述多肽的N端切割活性保持沉默；以及与SEQ ID NO:1所示的Mtu ΔI-CM内含肽相比，所述氨基酸取代使得所述多肽在第一pH值有降低的C端切割效率且在第二pH值有相似或升高的C端切割效率。

在第二方面，本发明涉及一种分离的融合蛋白，其包括第一方面所述的多肽、纯化标签和目的分子，其中，所述纯化标签位于所述多肽的N端，且所述目的分子位于所述多肽的C端。

在第三方面，本发明涉及一种分离的多核苷酸，其包含编码第一方面所述的多肽的核苷酸序列。

在第四方面，本发明还涉及一种分离的多核苷酸，其包含编码第二方面所述的融合蛋白的核苷酸序列。

在第五方面，本发明涉及包含第三方面或第四方面的多核苷酸的重组载体。

在第六方面，本发明涉及包含第三方面或第四方面的多核苷酸或第五方面的重组载体的宿主细胞。

在另一个方面，本发明涉及制备目的分子的方法，所述方法包括以下步骤：a)培养包含第四方面所述的多核苷酸的宿主细胞以表达所述融合蛋白；b)破碎所述宿主细胞，在第一pH值下回收步骤a)中产生的所述融合蛋白；c)在第二pH值下，切割所述融合蛋白以释放所述目的分子；以及d)回收所述目的分子。

在另一个方面，本发明涉及从样品中纯化目的分子的方法，其包括以下步骤：a)提供含有第二方面所述的融合蛋白的样品；b)通过纯化标签收集所述融合蛋白；c)调节 pH值以使得所述目的分子从所述融合蛋白被切割；以及d)回收所述目的分子。

在另一个方面，本发明涉及筛选用于制备或纯化目的分子的多肽的方法，所述方法包括以下步骤：a)制备融合蛋白，其包含SEQ ID NO:1所示的Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段以及连接于其C端的所述目的分子；以及b)在使所述融合蛋白具有活性的条件下，筛选与SEQ ID NO:1所示的Mtu ΔI-CM内含肽相比在第一pH值时有降低的C端切割效率且在第二pH值时有相似或升高的C端切割效率的所述变体或所述变体的生物学活性片段，其中，所述变体或所述变体的生物学活性片段的 N端切割活性被沉默。

附图说明

图1为构建FRET系统的示意图。阳性对照体系C-I-Y，阴性对照体系C-Ia-Y，图中显示了阳性和阴性对照分别对应的切割产物及相关的FRET值。

图2：所示为96孔板中阳性对照和阴性对照在体内和体外的FRET光谱图。其中，(a)阳性和阴性对照在体内的FRET光谱图；(b)阳性和阴性对照在体外的FRET光谱图。图中，横坐标均为发射波长(nm)，纵坐标均为荧光强度(RFU)。

图3：所示为H73位点第1块96孔板的初筛结果。其中，(a)H73位点第1块96 孔板的体内初筛结果，其右侧所示为阳性、阴性对照及突变株12-G的体内FRET光谱图；(b)H73位点第1块96孔板的体外初筛结果，其右侧所示为阳性、阴性对照及突变株12-G的体外FRET光谱图。图中，C3和F10所示的为阳性对照，D6和H12所示的为阴性对照，剩余灰色标记所示的为其他筛选到的突变株。

图4：所示为本发明的融合蛋白表达载体图谱。

图5：所示为单突变株在L₆KD-I-LipA体系中的验证结果。其中，(a)到(e)分别为变体H73Y、H73V、T158S、K74N和E154S在L₆KD-I-LipA体系中的验证结果。泳道1 为细胞裂解液上清；泳道2为细胞裂解液沉淀；泳道3为切割后的沉淀；泳道4为切割后的上清；泳道I、II、III为BSA标准品(BSA浓度分别为1000、250和125μg/ml)。

图6：所示为单突变株在L₆KD-I-GLP1体系中的验证结果。其中，(a)、(b)分别为变体T158S、H73V、H73Y、K74N和E154S在L₆KD-I-GLP1体系的结果，(c)为切割后上清的结果。泳道1为细胞裂解液沉淀；泳道2为切割后的沉淀；泳道3为切割后的上清；泳道I、II和III为BSA和抑肽酶标准品(对于BSA分别为1000、250和125μg/ml；且对于抑肽酶分别为500、250和125μg/ml)。

图7：双突变株在L₆KD-I-LipA体系中的验证结果。其中，(a)、(b)、(c)分别为变体H73Y/T158V,H73V/T158S,H73V/T158C在L₆KD-I-LipA体系中的结果。泳道1为细胞裂解液上清；泳道2为细胞裂解液沉淀；泳道3为切割后的沉淀；泳道4为切割后的上清；泳道I、II、III和IV为BSA标准品(分别为1000、500、250和125μg/ml)。

图8：双突变株在L₆KD-I-GLP1体系中的验证结果。(a)为变体H73Y/T158V, H73V/T158S,H73V/T158C在L₆KD-I-GLP1体系中的结果，且(b)为切割后上清的检测结果。其中，泳道1为细胞裂解液沉淀；泳道2为切割后的沉淀；泳道3为切割后的上清；泳道I、II、III和IV为BSA和抑肽酶标准品(对于BSA分别为1000、500、250和125μg/ml；对于抑肽酶分别为250、125和67.5μg/ml)。

发明详述

Mtu ΔI-CM内含肽是由Wood组(David W.Wood et al.,A genetic systemyields self-cleaving inteins for bioseparations,Nat Biotechnol.,17(9):889-92(1999))改造而来的可在C端被快速切割的内含肽。首先Wood组将来自于结核分枝杆菌(Mycobacterium tuberculosis)的Mtu RecA特大型内含肽(440aa)删除核酸内切酶结构域，保留了N端110 个氨基酸和C端58个氨基酸，而将Mtu RecA特大型内含肽改造为极小型内含肽。进一步地，Wood组对该极小型内含肽进行了进化，引入了四个点突变：C1A，封闭N端切割活性；V67L，修复内含肽稳定性(删除了核酸内切酶结构域后，该内含肽不稳定)；D24G，表型无影响；D150G(对应于Mtu RecA特大型内含肽中的突变位点D422G)，切断C端切割和N端切割的联系，提高内含肽C端切割活性，形成的变体称为Mtu ΔI-CM 内含肽。MtuΔI-CM内含肽可进行C端快速切割。在本文中，术语“Mtu ΔI-CM内含肽”的氨基酸序列包含突变C1A，以及V67L、D24G和D150G(对应于Mtu RecA特大型内含肽中的突变位点D422G)中的一个或多个突变。在本文的一个实施方案中，Mtu Δ I-CM内含肽的氨基酸序列包含突变C1A、V67L和D150G(对应于Mtu RecA特大型内含肽中的突变位点D422G)。在本发明的一个具体实施方案中，Mtu ΔI-CM内含肽具有 SEQ ID NO:1所示的氨基酸序列，长度为168个氨基酸，分子量为18.5KDa。在本发明的一个实施方案中，对Mtu ΔI-CM内含肽中的H157和H167周围

范围内的位置上的氨基酸E152、V153、E154、E155、L156、T158、L159、V166、H167、L2、H73、 K74、V75、W81、H157、和V165中的一个或多个进行定点突变。

在本文中，术语“变体”是指与其亲本相比包含一个或多个氨基酸或核苷酸突变的多肽或多核苷酸。在本文中，术语“变体”与“突变体”可互换使用。在一些实施方案中，术语“模板”是指亲本，即Mtu ΔI-CM内含肽。

在本文中，术语“生物学活性”实体或具有“生物学活性”的实体是指具有在第一pH值下具有与Mtu ΔI-CM内含肽相比降低的C端切割效率，但在第二pH值下具有与 Mtu ΔI-CM内含肽相比相似或升高的C端切割效率的实体。在本文中，“Mtu ΔI-CM内含肽变体的生物学活性片段”是表现出与本发明的Mtu ΔI-CM内含肽的变体活性相似但不必相同的活性片段。在一个实施方案中，Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段的A1位置的氨基酸不发生突变。在一个实施方案中，Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段的A1的氨基酸不发生突变以及L67、G150(对应于 Mtu RecA特大型内含肽中的突变位点G422)或G24位置的氨基酸中的一个或多个不发生突变。在一个具体的实施方案中，Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段的A1、L67和G150位置的氨基酸不发生突变。

在本文中，术语“氨基酸”为含有氨基基团和羧酸基团的有机化合物。在本发明中，氨基酸包括20种天然氨基酸、非天然氨基酸和氨基酸类似物(即其中的α碳具有侧链的氨基酸)。天然氨基酸包括选自以下组中的氨基酸：酪氨酸、甘氨酸、苯丙氨酸、甲硫氨酸、丙氨酸、丝氨酸、异亮氨酸、亮氨酸、苏氨酸、缬氨酸、脯氨酸、赖氨酸、组氨酸、谷氨酰胺、谷氨酸、色氨酸、精氨酸、天冬氨酸、天冬酰胺和半胱氨酸。天然氨基酸残基的缩写示于下表1中：

表1

非天然氨基酸和氨基酸类似物的实例为本领域技术人员已知，并且包括但不限于2- 氨基己二酸(Aad)、3-氨基己二酸(Baad)、β-丙氨酸/β-氨基-丙酸(Bala)、2-氨基丁酸(Abu)、 6-氨基己酸(Acp)、2-氨基庚酸(Ahe)、2-氨基异丁酸(Aib)、3-氨基异丁酸(Baib)、2-氨基庚二酸(Apm)、2,4-二氨基丁酸(Dbu)、锁链素(Des)、2,2'-二氨基庚二酸(Dpm)、2,3-二氨基丙酸(Dpr)、N-乙基甘氨酸(EtGly)、N-乙基天冬酰胺(EtAsn)、羟赖氨酸(Hyl)、别-羟赖氨酸(Ahyl)、3-羟脯氨酸(3Hyp)、4-羟脯氨酸(4Hyp)、异锁链素(Ide)、别-异亮氨酸(Aile)、 N-甲基甘氨酸、肌氨酸(MeGly)、N-甲基异亮氨酸(MeIle)、6-N-甲基赖氨酸(MeLys)、N- 甲基缬氨酸(MeVal)、正缬氨酸(Nva)、正亮氨酸(Nle)和鸟氨酸(Orn)。

在本文中，术语“多肽”表示由通过肽键连接的氨基酸组成的生物分子。在本文中，术语“多肽”、“肽”和“蛋白质”可互换使用。

在本文中，术语“对应于”是指本领域技术人员利用已知的序列比对方法以最大化匹配来比对两个或更多个相关多肽或核酸序列(包括分子的序列、分子的区域和/或理论序列)从而获得最高等级匹配时，互相对齐的部分、位置或区域。换句话说，在两个或更多个多肽或核酸序列最适比对时，两个类似位置(或部分或区域)对齐。当比对两个或更多个序列时，基于沿线性核酸或氨基酸序列的位置鉴定类似部分/位置/区域。

在本文中，术语“宿主细胞”是指用于接受、保持、复制和扩增载体的细胞。宿主细胞特别可用来表达载体所编码的本发明的融合多肽。可用于本发明的宿主细胞包括但不限于原核生物和真核生物来源的细胞。在一个实施方式中，原核生物选自：埃希氏菌属(Escherichia)、分枝杆菌属(Mycobecterium，例如，结核分枝杆菌(MycobecteriumTuberculosis))、芽孢杆菌属(Bacillus)、沙门氏菌属(Salmonella)以及假单胞菌属(Pseudomonas)和链霉菌属(Streptomyces)的细菌。在优选的实施方案中，宿主细胞是埃希氏菌属细胞，更优选为大肠杆菌(Escherichia coli)。在本发明的一个具体实施方案中，所使用的宿主细胞为大肠杆菌BL21(DE3)菌株细胞。在一个实施方式中，真核生物选自：毕赤氏酵母属(Pichia)。

因此，在第一方面，本发明涉及一种分离的多肽，其是Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段，所述Mtu ΔI-CM内含肽具有如SEQ ID NO:1所示的氨基酸序列，其中所述多肽在对应于Mtu ΔI-CM内含肽中的H157和H167周围

范围内的位置上包括氨基酸取代，并且所述多肽的N端切割活性保持沉默；以及与SEQ ID NO: 1所示的Mtu ΔI-CM内含肽相比，所述氨基酸取代使得所述多肽在第一pH值有降低的 C端切割效率且在第二pH值有相似或升高的C端切割效率。其中，所述降低的切割效率是指在相同条件下，从MtuΔI-CM内含肽的87％的切割效率降低至18％-45％的切割效率，优选低于35％；所述不变的或升高的切割效率是指在相同条件下，从Mtu ΔI-CM 内含肽的85％的切割效率变化至71％-92％的切割效率，优选高于80％。

在一个实施方案中，第一pH值是中性至弱碱性的。在一个特定的实施方案中，第一pH值是宿主细胞内的pH值或接近于宿主细胞内的pH值。在一个具体的实施方案中，第一pH值为7.2-8.5。在一个优选的实施方案中，第一pH值为7.4-7.8。在一个更优选的实施方案中，第一pH值为7.4-7.6。在最优选的实施方案中，第一pH值为7.5。在一个实施方案中，第二pH值是指呈弱酸性的pH值。在一个优选的实施方案中，第二pH 值为5.5-6.8，并优选为5.5-6.5。在一个最优选的实施方案中，第二pH值为6.0。

在一个实施方式中，所述氨基酸取代包括在对应于SEQ ID NO:1的E152、V153、E154、E155、L156、T158、L159、V166、H167、L2、H73、K74、V75、W81、H157、和V165位置中的一个或多个处的取代。在一个优选的实施方案中，所述氨基酸取代包括对应于SEQ ID NO:1的H73、K74、E152、E154、E155和T158位置中的一个或多个的取代。在一个优选的实施方案中，所述氨基酸取代包括对应于SEQ ID NO:1的H73、 K74、E154、T158位置中的一个或多个的取代。在更一个优选的实施方式中，所述氨基酸取代发生在对应于SEQ ID NO:1的H73和T158位置上。在另一个实施方案中，所述氨基酸取代选自以下组：对应于SEQ ID NO:1的H73Y、H73V；K74N；E154S；和/ 或T158V、T158C或T158S。在一个具体实施方案中，所述氨基酸取代为对应于SEQ ID NO:1的H73Y和T158V；H73V和T158S；或H73V和T158C。

在多肽中引入氨基酸突变的方法为本领域技术人员所熟知。例如参见Ausubel,Current Protocols in Molecular Biology,John Wiley and Sons,Inc.(1994)；T.Maniatis等, Molecular Cloning:A Laboratory Manual,Cold Spring Harborlaboratory,Cold Spring Harbor,N.Y.(1989)。例如，可使用市售试剂盒，例如QuikChange^TM定点诱变试剂盒 Stratagene，或者直接通过化学法合成具有突变的多肽。

本领域技术人员明白，可对本发明第一方面的多肽进行进一步的修饰，例如通过引入额外的一个或多个氨基酸的取代、添加或缺失，而仍保持Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段的生物学活性，即经进一步修饰的多肽在第一pH值下具有与Mtu ΔI-CM内含肽相比降低的C端切割效率，但在第二pH值下具有与Mtu ΔI-CM内含肽相比相似或升高的C端切割效率。在本文中，“所述降低的切割效率”是指在相同的第一pH值条件下，本发明的Mtu ΔI-CM内含肽变体的切割效率与Mtu ΔI-CM内含肽相比降低大约30％至大约40％，优选地降低大约40％至大约50％，更优选地降低大约 50％至大约70％，进一步更优选地降低大约70％至大约80％或更多。在一个具体的实例中，在第一pH值条件下，与Mtu ΔI-CM内含肽的约87％的切割效率相比，本发明的 Mtu ΔI-CM内含肽变体的切割效率降低至18％-45％，优选低于35％。在本文中，“所述不变的或升高的切割效率”是指在相同的第二pH值条件下，本发明的Mtu ΔI-CM内含肽变体的切割效率与Mtu ΔI-CM内含肽相比降低不超过大约20％，优选不超过大约 10％，或更优选不超过大约5％或基本上保持不变，或升高大约5％，优选升高大约10％，或更优选升高大约20％或更多。在一个具体的实施例中，在第二pH值条件下，与Mtu ΔI-CM内含肽的约85％的切割效率相比，本发明的Mtu ΔI-CM内含肽变体的切割效率为71％-92％，优选高于80％。

在一个实施方案中，可对所述多肽进行保守性氨基酸取代。在本文中，术语“保守性氨基酸取代”是一种氨基酸残基被另一种具有类似化学性质，例如电荷或疏水性的侧链R基团的氨基酸残基所取代。一般而言，保守性氨基酸取代不会在实质上改变蛋白质的功能性质。

具有类似化学性质的侧链的氨基酸组的实例包括：1)脂肪族侧链：甘氨酸、丙氨酸、缬氨酸、亮氨酸及异亮氨酸；2)脂肪族羟基侧链：丝氨酸及苏氨酸；3)含有酰胺的侧链：天冬酰胺及谷氨酰胺；4)芳香族侧链：苯丙氨酸、酪氨酸及色氨酸；5)碱性侧链：赖氨酸、精氨酸及组氨酸；6)酸性侧链：天冬氨酸及谷氨酸；和7)含硫侧链：半胱氨酸及甲硫氨酸。优选的保守性氨基酸取代包括：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸、谷氨酸-天冬氨酸和天冬酰胺-谷氨酰胺。本领域技术人员可以根据现有技术的教导来确定是否一种氨基酸取代属于保守性氨基酸取代。保守性氨基酸取代可以按照下表2进行：

表2

原有残基	保守性氨基酸取代
		Ala(A)	Gly；Ser
Arg(R)	Lys
		Asn(N)	Gln；His
Cys(C)	Ser
		Gln(Q)	Asn
Glu(E)	Asp
		Gly(G)	Ala；Pro
His(H)	Asn；Gln
		Ile(I)	Leu；Val
Leu(L)	Ile；Val
		Lys(K)	Arg；Gln；Glu
Met(M)	Leu；Tyr；Ile
		Phe(F)	Met；Leu；Tyr
Ser(S)	Thr
		Thr(T)	Ser
Trp(W)	Tyr
		Tyr(Y)	Trp；Phe
Val(V)	Ile；Leu

在本文中，当用于定义多肽或多核苷酸序列时，术语“包含”、“包括”或“具有”是开放式的，其表示在所定义的多肽或多核苷酸序列的一个或两个末端可选地包含其它氨基酸或核苷酸残基。在本文中，当用于定义多肽或多核苷酸序列时，术语“由...组成”是封闭式的，其表示在所定义的多肽或多核苷酸序列的两个末端不再包含其它氨基酸或核苷酸残基。

在一个实施方案中，所述多肽包含SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、 SEQID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8或SEQ ID NO:9的氨基酸序列。在一个优选的实施方案中，所述多肽由SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8或SEQ ID NO:9 的氨基酸序列组成。

在本文中，术语“序列相同性”是指氨基酸或核苷酸序列不变的程度。用于评价氨基酸或核苷酸之间的序列相同性程度的方法是本领域技术人员已知的。例如，氨基酸序列相同性通常使用序列分析软件来测量。例如，可使用NCBI数据库的BLAST程序来确定相同性。对于序列相同性的确定，可以参见例如：Computational Molecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988；Biocomputing:Informatics andGenome Projects,Smith,D.W.,ed.,Academic Press,New York,1993；Computer Analysisof Sequence Data,Part I,Griffin,A.M.,and Griffin,H.G.,eds.,Humana Press,NewJersey,1994； Sequence Analysis in Molecular Biology,von Heinje,G.,AcademicPress,1987和Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,MStockton Press,New York,1991。

在一个实施方式中，第一方面的多肽具有保守性氨基酸取代。因此在一个实施方案中，第一方面的多肽的氨基酸序列与SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ IDNO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8或SEQ ID NO:9所示的氨基酸序列相比具有一个或几个氨基酸取代、缺失和/或添加。在另一个实施方案中，所述多肽包含与SEQ IDNO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8或SEQ ID NO:9所示的任一序列具有至少85％、86％、87％、 88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列相同性的氨基酸序列。在上述实施方案中，因为氨基酸取代为保守性氨基酸取代，本发明的多肽仍保持Mtu ΔI-CM内含肽的生物学活性，并与Mtu ΔI-CM内含肽相比在第一pH值下具有降低的切割效率，但在第二pH值下具有相似或升高的切割效率。其中，所述降低的切割效率是指在相同的第一pH值条件下，本发明的Mtu ΔI-CM内含肽变体的切割效率与Mtu ΔI-CM内含肽相比降低大约30％至大约40％，优选地降低大约40％至大约 50％，更优选地降低大约50％至大约70％，进一步更优选地降低大约70％至大约80％或更多。在一个具体的实例中，在第一pH值条件下，与Mtu ΔI-CM内含肽的约87％的切割效率相比，本发明的Mtu ΔI-CM内含肽变体的切割效率降低至18％-45％，优选低于 35％。所述不变的或升高的切割效率是指在相同的第二pH值条件下，本发明的Mtu ΔI-CM内含肽变体的切割效率与Mtu ΔI-CM内含肽相比降低不超过大约20％，优选不超过大约10％，或更优选不超过大约5％或基本上保持不变，或升高大约5％，优选升高大约10％，或更优选升高大约20％或更多。在一个具体的实施例中，在第二pH值条件下，与Mtu ΔI-CM内含肽的约85％的切割效率相比，本发明的Mtu ΔI-CM内含肽变体的切割效率为71％-92％，优选高于80％。

第二方面，本发明涉及一种分离的融合蛋白，其包括第一方面所述的多肽以及纯化标签和目的分子，其中，纯化标签位于多肽的N端，目的分子位于多肽的C端。

在本文中，术语“纯化标签”是指利用其自身的性质对目的分子进行纯化的分子。现已开发出许多不同类型的纯化标签(根据其功能)，包括亲和型标签、聚集型标签、复合型标签，根据要采用的纯化方法的不同选择不同的标签类型。它们的形式也多种多样，有短肽、抗原表位、折叠蛋白结构域等等。这些标签与目的分子一起表达，使目的分子通过一定的方法被快速地选择性地捕获和/或纯化，例如，亲和型标签利用可与其特异性结合的亲和树脂实现捕获和/或纯化；聚集型标签利用自身可聚集型或者诱导可聚集型通过离心实现捕获和/或纯化等等。许多标签同时具有除纯化外的其他功能，如促溶或使目的分子容易检测。

在一个优选的实施方案中，纯化标签为亲和型标签。在另一个优选的实施方案中，纯化标签为聚集型标签。在另一个具体的实施方案中，所述的聚集型标签为两亲性自组装短肽。

在本文中，术语“自组装短肽”是指一种具有两亲性(亲水性、疏水性)的小肽，其由亲水性(极性)氨基酸和疏水性(非极性)氨基酸按照一定规律排列构成。两亲肽分为两大类，一类是含有除氨基酸残基外其他有机分子的，如脂肪酸链等；另一类是纯天然氨基酸构成的。后者又可根据二级结构的不同分为α-螺旋、β-折叠和无规卷曲三类。在一个实施方案中，本发明的两亲性自组装短肽选自：18A(DWLKAFYDKVAEKLKEAF) (SEQ ID NO:45)、ELK16(LELELKLKLELELKLK)(SEQ ID NO:46)、L₆KD(LLLLLLKD) (SEQ ID NO:47)、EFR8(FEFRFEFR)(SEQ ID NO:48)、EFK8(FEFKFEFK)(SEQ ID NO: 49)。在一个具体的实施方案中，本发明的两亲性自组装短肽为L₆KD(LLLLLLKD)(SEQ ID NO:47)。

在本文中，术语“间隔物”是指具有一定长度的由低疏水性和低电荷效应的氨基酸组成的多肽，其用于融合蛋白时可以使所连接的各部分充分展开、互不干扰地充分折叠成各自的天然构象。本领域常用的间隔物包括例如，富含甘氨酸(G)和丝氨酸(S)的柔性的GS型接头；富含脯氨酸(P)和苏氨酸(T)的刚性的PT型接头。在一些实施方案中，纯化标签通过间隔物连接于多肽的N端。在一个优选的实施方案中，所述间隔物为PT型接头。在一些具体实施方案中，所述间隔物包含序列PTPPTTPTPPTTPTPT(SEQ ID NO: 10)。

在一个实施方案中，所述目的分子为肽段。在一个优选的实施方案中，所述肽段的长度为20、50、70、100、150、200、250、300、350、400、450或500个氨基酸残基，或长度介于以上任意两个长度之间的任一长度。

另一方面，本发明涉及一种分离的多核苷酸，其包含编码第一方面所述的实施方式中的分离的多肽的核苷酸序列。

编码Mtu ΔI-CM内含肽的多核苷酸序列可通过本领域可获取的序列数据库获得。例如，编码Mtu RecA特大型内含肽的多核苷酸序列可根据NCBI数据库中Mtu RecA特大型内含肽的氨基酸序列，并通过引入Wood组所做的突变获得(David W.Wood等,A geneticsystem yields self-cleaving inteins for bioseparations(1999))。

在一个实施方案中，本发明的分离的多核苷酸包括以下核苷酸序列：SEQ ID NO:11、 SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ IDNO:17或SEQ ID NO:18所示的核苷酸序列。在一个优选的实施方案中，本发明的分离的多核苷酸，由以下核苷酸序列：SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQID NO:15、SEQ ID NO:16、SEQ ID NO:17或SEQ ID NO:18所示的核苷酸序列组成。在一个实施方案中，本发明的分离的多核苷酸包括与SEQ ID NO:11、 SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17或SEQ ID NO:18所示的核苷酸序列具有至少85％、86％、87％、88％、89％、90％、 91％、92％、93％、94％、95％、96％、97％、98％或99％的序列相同性的核苷酸序列。在一个实施方案中，本发明的分离的多核苷酸包括在严格条件下与SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQID NO:15、SEQ ID NO:16、SEQ ID NO:17 或SEQ ID NO:18所示的核苷酸序列杂交的多核苷酸序列。在上述实施方案中，本发明的多核苷酸编码仍保持Mtu ΔI-CM内含肽的生物学活性的多肽，且所述多肽与Mtu ΔI-CM内含肽相比在第一pH值下具有降低的切割效率，但在第二pH值下具有相似或升高的切割效率。

在本文中，术语“在严格条件下杂交”是指多核苷酸分子与靶核酸分子通过互补的碱基配对退火。本领域技术人员熟悉影响特异性杂交的参数，例如特定分子的长度和组成。与杂交特别相关的参数还包括例如退火和洗涤温度、缓冲液组成和盐浓度。在一个实施方式中，在严格条件下杂交是指在高度严格条件下杂交，即0.1×SSPE，0.1％SDS，65℃。在一个实施方式中，在严格条件下杂交是指在中度严格条件下杂交，即0.2×SSPE，0.1％ SDS，50℃。在一个实施方式中，在严格条件下杂交是指在低度严格条件下杂交，即 0.2×SSPE，0.1％SDS，40℃。等效的严格条件是本领域已知的。本领域技术人员能够调整影响杂交的参数，以在低、中或高度严格条件下实现多核苷酸分子与靶核酸分子的杂交。

另一方面，本发明还涉及一种分离的多核苷酸，其包含编码前述任一项实施方式所述的融合蛋白的核苷酸序列。

另一方面，本发明也涉及包含编码前述多肽或融合蛋白的多核苷酸的重组载体。在一个实施方案中，编码所述融合蛋白的多核苷酸的序列与表达控制序列可操纵地连接以进行希望的转录及最终产生所述融合蛋白。合适的表达控制序列包括但不限于启动子、增强子、核糖体作用位点如核糖体结合位点、聚腺苷酸化位点、转录剪接序列、转录终止序列和稳定mRNA的序列等等。

在一个实施方案中，用于构建本发明的重组载体的载体包括但不限于那些在宿主细胞中自主复制的载体，如质粒载体；以及能够整合到宿主细胞DNA中并和宿主细胞DNA 一起复制的载体。在一个实施方案中，所述载体为可商购获得的载体。在一个具体实施方案中，本发明的表达构建体衍生自Novagen公司的pET30a(+)。

另一方面，本发明涉及一种宿主细胞，其包含前述任一实施方案所述的分离的多核苷酸或者前述任一实施方案所述的重组载体。在一个实施方案中，重组载体通过转化进入宿主细胞。在一个实施方案中，宿主细胞表达本发明的融合蛋白。

在本文中，术语“转化”是指宿主细胞被转入以包含本发明的分离的多核苷酸或重组载体的一、二或多个拷贝。本领域技术人员已知将外源多核苷酸或载体导入宿主细胞的方法，所述方法包括但不限于：显微注射(Capechi等,1980,Cell,22:479)、Ca₂(PO₄)₃介导的转染(Chen等,1987,Mol.Cell Biol.,7:2745)、DEAE葡聚糖介导的转染、电穿孔法 (Chu等,1987,Nucleic Acid Res.,15:1311)、脂质体转染/脂质体融合(Feigner等,1987,Proc.Natl.Acad.Sci.,USA84:7413)、粒子轰击(Yang等,1990,Proc.Natl.Acad.Sci.,USA 87:9568)和基因枪。

术语“表达”通常是指通过多核苷酸的转录和翻译产生多肽的过程。在本文中，术语“表达”可理解为“异源表达”，即是指在宿主细胞中表达或体外表达由异源核酸编码的多肽。

另一方面，本发明还提供了一种制备目的分子的方法，其包括以下步骤：培养包含编码前述任一实施方案中的融合蛋白的多核苷酸的宿主细胞以表达融合蛋白；破碎所述宿主细胞，在第一pH值下回收不溶性沉淀；在第二pH值下，切割不溶性沉淀以释放目的分子；以及回收目的分子，其中，不溶性沉淀是不溶性的活性融合蛋白的聚集体。

在一个实施方案中，第一pH值是指宿主细胞内的pH值或接近于宿主细胞内的pH值，其是中性至弱碱性的。在一个优选的实施方案中，第一pH值为7.2-8.5。在一个优选的实施方案中，第一pH值为7.4-7.8。在一个最优选的实施方案中，第一pH值为7.5。在一个实施方案中，第二pH值为弱酸性pH值。在一个优选的实施方案中，第二pH值为5.5-6.8。在一个优选的实施方案中，第一pH值为5.5-6.5。在一个最优选的实施方案中，第二pH值为6.0。

在一个具体的实施方案中，在生理条件(如：正常温度18-37℃、中性pH值7.4-7.8)下培养宿主细胞以表达本发明的融合蛋白，所述融合蛋白可直接形成处于包涵体内的不溶性沉淀。与可溶状态的蛋白质表达相比，形成不溶性沉淀可防止融合蛋白在胞内被降解，并因此大大增加融合蛋白或目的分子的稳定性。同时，由于表达是在正常生理条件下培养的宿主细胞内进行，既避免了宿主细胞培养周期的延长，同时因培养条件适宜可提高融合蛋白的产量和产率。

术语“使所述宿主细胞破碎”是指使用一定的方法使宿主细胞裂解，释放细胞质中的物质。可用于本发明的使宿主细胞破碎的方法包括但不限于以下处理方式：超声破碎法、匀浆、高压(例如在弗氏压碎器中)、低渗(osmolysis)、去垢剂、裂解酶、有机溶剂或其组合。在一个实施方案中，所述破碎步骤裂解宿主细胞的细胞膜和包涵体，将不溶性沉淀从包涵体中释放且仍然保持不溶的状态。在一个实施方案中，所述破碎步骤中释放的不溶性沉淀通过离心进行回收。因此省略了通过改变环境条件(例如温度、离子浓度、pH值等)以获得沉淀状态的融合蛋白的步骤，也避免了剧烈的环境条件变化对蛋白质稳定性及活性的影响。

在一个实施方案中，在第二pH值下重悬获得的不溶性沉淀，回收包含目的分子的上清液。因此可直接进行后续纯化处理，无需很高的盐浓度，从而避免离子残留，减少操作次数，降低成本。

另一方面，本发明涉及从样品中纯化目的分子的方法，其包括以下步骤：(a)提供含有前述任一实施方案中所述的融合蛋白的样品；(b)通过纯化标签收集所述融合蛋白；(c)调节pH值以使得所述目的分子从所述融合蛋白被切割；以及(d)回收所述目的分子。在一些实施方案中，步骤(c)包括这样的步骤，调整含有从步骤(b)收集的融合蛋白的溶液的pH值，使得所述目的分子从所述融合蛋白被切割。

在一个实施方案中，纯化标签为亲和型标签，且步骤(b)通过亲和层析完成所述融合蛋白的收集，以及步骤(d)通过洗脱层析柱完成对所述目的分子的回收。在一个实施方案中，纯化标签为聚集型标签，且步骤(b)通过聚集型标签聚集形成不溶性沉淀经离心完成所述融合蛋白的收集，以及步骤(d)通过进一步离心将溶于上清的目的分子与不溶性沉淀分离。在一个具体的实施方案中，聚集型标签为双亲性自组装短肽。在一个实施方案中，本发明的自组装短肽选自：18A(DWLKAFYDKVAEKLKEAF)(SEQ ID NO:45)、ELK16(LELELKLKLELELKLK)(SEQ ID NO:46)、L₆KD(LLLLLLKD)(SEQ ID NO:47)、EFR8 (FEFRFEFR)(SEQ ID NO:48)、EFK8(FEFKFEFK)(SEQ ID NO:49)。在一个具体的实施方案中，本发明的自组装短肽为L₆KD(LLLLLLKD)(SEQ ID NO:47)。

在一个实施方案中，步骤(c)中的调整pH值包括将pH从第一pH值调整至第二pH值。在一个实施方案中，第一pH值是中性至弱碱性的。在一个特定实施方案中，第一 pH值为7.2-8.5。在一个优选的实施方案中，第一pH值是7.4-7.8。在一个更优选的实施方案中，第一pH值是7.4-7.6。在一个最优选的实施方案中，第一pH值是7.5。在一个实施方案中，第二pH值是指弱酸性的pH值。在一个优选的实施方案中，第二pH值是5.5-6.8，且优选5.5-6.5。在一个最优选的实施方案中，第二pH值是6.0。

另一方面，本发明还涉及筛选用于制备或纯化目的分子的多肽的方法，所述方法包括以下步骤：(a)制备融合蛋白，其包含SEQ ID NO:1所示的Mtu ΔI-CM内含肽的变体或所述变体的生物学活性片段以及连接于其C端的所述目的分子；以及(b)在使所述融合蛋白具有活性的条件下，筛选与SEQ ID NO:1所示的Mtu ΔI-CM内含肽相比在pH 7.2-8.5时有降低的C端切割效率且在pH 5.5-6.8时有相似或升高的C端切割效率的多肽，其中，所述变体或所述变体的生物学活性片段的N端切割活性被沉默。在一个实施方案中，步骤(a)中的融合蛋白进一步包含位于其N端的标签蛋白。在一个优选的实施方案中，所述标签蛋白为荧光蛋白。

在一个实施方案中，变体或变体的生物学活性片段相对于SEQ ID NO:1所示的MtuΔI-CM内含肽包含一个或多个突变。在一个优选的实施方案中，突变为在对应于SEQ IDNO:1所示序列中的H157和H167周围

范围内的位置上的一个或多个氨基酸取代。

除非另有定义，否则与本发明关联使用的科学及技术术语应具有本领域普通技术人员通常所了解的含义。除非另有定义，否则本发明的方法及技术一般根据本领域公知的和常规的方法来进行。除非另有定义，否则当本案使用术语“一”、“一个”或“一种”时，其意为“至少一个(种)”或“一或多个(种)”。此外，除非另有定义，否则本文中的单数术语和其对应的复数形式可互换使用。除实施例或另有说明外，在本说明书和权利要求书中所使用的所有表达成分量、反应条件等的数字在所有情况下应被理解为被术语“大约”所修饰。因此，除非有相反表示，说明书和权利要求书中表述的数字参数均为近似值。本文中所引用的所有出版物均以全文引用的方式并入本文中。

实施例

为使本发明的技术方案和优点更加清楚，下面将通过实施例对本发明实施方式作进一步地详细描述。应当理解实施例不应理解为限制性的，本领域技术人员能够基于本发明的原理对实施方式做进一步的调整。

以下实施例中所用方法如无特别说明均为常规方法，具体步骤可参见，例如，《Molecular Cloning:A Laboratory Manual》(Sambrook，J.，Russell,David W.，Molecular Cloning:A Laboratory Manual，3rd edition，2001，NY，Cold SpringHarbor)。所用引物均由英骏生物(Invitrogen)合成。

实施例1：CFP-Mtu ΔI-CM-YFP筛选体系表达载体的构建

本发明中基于Amitai等人的工作建立了基于96孔板和荧光共振能量转移现象(fluorescence resonance energy transfer，FRET)的高通量筛选方法(Amitai等,2009,Proc. Natl.Acad.Sci.,USA,106:11005)，如图1所示。将Mtu ΔI-CM内含肽N端和C端分别连接“青色荧光蛋白CFP(cyan fluorescent protein)和黄色荧光蛋白YFP(yellowfluorescent protein)”，当CFP和YFP之间的距离小于

即可发生FRET。发现Mtu ΔI-CM N端A1和C端N168之间的距离为

所以该构建可以发生FRET。

本实施例中构建了CFP-Mtu ΔI-CM-YFP(C-I-Y)阳性对照体系与CFP-Mtu ΔI-CM(N168A)-YFP(C-Ia-Y)阴性对照体系。阳性对照体系中使用的是具有C端切割活性的Mtu ΔI-CM内含肽，阴性对照体系中使用的是将具有沉默的C端切割活性的Mtu ΔI-CM 内含肽(N168A)。阳性对照内含肽在体内发生不成熟切割，会导致FRET强度减弱，阴性对照内含肽体内不发生切割，则FRET强度较强。如图1所示。具体构建方法如下。

从NCBI数据库中获得编码Mtu ΔI-CM内含肽的氨基酸序列，在其氨基酸序列(168aa)中引入Wood组所做的突变(C1A、V67L和D150G)，获得Mtu ΔI-CM内含肽氨基酸序列。MtuΔI-CM内含肽的基因由南京金斯瑞公司进行大肠杆菌密码子优化后合成，并将其插入pUC18质粒。

CFP-YFP基因由南京金斯瑞公司进行大肠杆菌密码子优化后合成，并将其插入pET30(a)质粒的NdeI和XhoI位点之间，为pET30(a)-CFP-YFP。在CFP与YFP基因之间有GSGGS-EcoRI-HindIII-GSGGS基因序列，其中，EcoRI与HindIII限制性位点之间用来插入Mtu ΔI-CM内含肽。

使用Oligo 7软件设计并合成如表3所示的引物。以南京金斯瑞公司构建的pUC18-Mtu ΔI-CM质粒为模板，表3中N-Mtu为上游引物，Mtu-down-positive-FRET 或Mtu-down-negative-FRET为下游引物，按照常规方法进行PCR扩增获得上下游分别带有EcoRI和HindIII限制性位点的Mtu ΔI-CM和Mtu ΔI-CM(N168A)多核苷酸片段。 PCR反应体系及反应程序如表4所示。反应结束后，使用1％琼脂糖凝胶电泳法分析PCR 扩增产物，结果PCR扩增出与预期相符的正确条带。

表3本实施例中所用引物序列

a序列中带有下划线的核苷酸代表括号内相应的限制性内切酶识别位点。如无特殊说明，下同。

表4扩增Mtu ΔI-CM内含肽反应体系以及程序

试剂	体积(μL)
		5×Q5 buffer	20
dNTPs(2.5mM)	8
		模板DNA(1ng/μL)	2
上游引物(20μM)	2.5
		下游引物(20μM)	2.5
Q5高保真DNA聚合酶	1
		灭菌蒸馏水	补至100

^a退火温度为上下游引物的Tm+5℃，延伸时间为30s/Kb。

将这两个基因片段用EcoRI和HindIII酶进行双酶消化，并与经过同样的内切酶消化后的载体pET30(a)-CFP-YFP连接，并然后，将连接产物转化到大肠杆菌BL21(DE3)(Novagen)感受态细胞，将转化细胞涂布于含有50μg/mL卡那霉素的LB平板上筛选阳性克隆。然后提取阳性克隆的质粒并测序，测序结果表明构建体pET30a(+)-C-I-Y与 pET30a(+)-C-Ia-Y的序列均正确。

实施例2：96孔板中筛选体系的表达与体内体外FRET测定方法

将重组菌E.coli BL21(DE3)/pET30a(+)-C-I-Y及E.coli BL21(DE3)/pET30a(+)-C-Ia-Y接种在含卡那霉素(50μg/mL)的LB平板上，37℃过夜培养。将C-I-Y突变株以及阳性阴性对照菌株接种到96孔板中，所述96孔板含有200μL LB培养基(卡那霉素浓度为50μg/mL)，置于摇床中(250rpm)并于37℃过夜培养。10μL 每个培养物转接到新96深孔板中，所述新96深孔板含有500μL LB培养基(50μg/mL 卡那霉素)。当OD 600达到0.4–0.6吸光单位(AU)，加入终浓度为0.2mM的IPTG(异丙基-β-D-硫代半乳糖苷)以启动蛋白表达，然后在30℃(250rpm)继续培养C-I-Y突变株及对照菌株用于表达26h。

表达结束后，96孔板中体内测定FRET的方法为：将培养物用等体积LB培养基稀释，并转移至黑色平底96孔测定板中。通过在390nm处激发液体培养物，依据切割活性筛选样品，并以Infinite M200 microplate reader(TECAN,Zürich,Switzerland)在460 nm–555nm范围内检测荧光。96孔板体外测定FRET的方法为：按上述方法表达后，首先通过在4℃、3,000×g离心10min收集细胞。将沉淀冻融3次，并然后通过用每500μL 液体培养物30μLB-PER-II处理沉淀来提取蛋白质。然后将样品在室温孵育15min，此过程会对细胞进行破碎以提取蛋白质。之后在4℃、15,000×g离心样品10min以分离上清与沉淀。为了各个分析，取含有融合蛋白C-I-Y的10μL的上清(其中)加入黑色平底96孔测定板的每孔中的190μL内含肽切割缓冲液(Buffer B4：50mM Na₂HPO₄-NaH₂PO₄，pH 6.0)中，以启动C-I-Y融合蛋白中的内含肽的切割。通过将样品随着摇动(250rpm)在25℃孵育3h且然后在4℃过夜来进行内含肽切割反应。体外 FRET发生由Infinite M200 microplate reader(TECAN,Zürich,Switzerland)确定，使用如体外FRET测定法中所述的相同方法。

阳性对照和阴性对照在体内和体外的FRET光谱如图2所示(各挑取了5个克隆)，体内体外阳性和阴性对照均有明显的差异。

实施例3：Mtu ΔI-CM内含肽的半理性设计

本发明利用半理性设计的方法对Mtu ΔI-CM内含肽进行位点选择。

本发明人推测，四个保守的氨基酸在Mtu ΔI-CM的C端切割中起关键作用，它们分别是：原Mtu RecA特大型内含肽的F区中的D422(Wood等人已将其突变为Gly，从而切断了C端切割和N端切割的联系，有利于C端切割，对应于SEQ ID NO:1序列中的G150)、F区中的H429(对应于SEQ ID NO:1序列中的H157)、G区中的H439(对应于SEQ ID NO:1序列中的H167)和N440(对应于SEQ ID NO:1序列中的N168)。

本发明人根据可能的切割机理推测，H157和H167残基的pK_a值可能会影响Mtu ΔI-CM内含肽在C端的pH诱导的切割。由于氢键、电荷相互作用、溶剂化效应等均会对氨基酸的pK_a值产生影响，尤其是电荷作用和氢键，发明人因此设想通过改变H157 和H167周围的氨基酸以改变H157和H167残基的pK_a值，从而得到在大肠杆菌细胞内 (pH 7.4–7.8)切割效率降低，但体外pH 6.0条件下仍能高效切割的Mtu ΔI-CM突变株。本实施例中选择H157和H167周围

范围内的氨基酸进行定点饱和突变，主要针对可能会形成氢键或有电荷作用的氨基酸。发现在H157位点

范围内有9个氨基酸，分别是E152、V153、E154、E155、L156、T158、L159、V166和H167；在H167位点

范围内有10个氨基酸，分是L2、H73、K74、V75、W81、H157、T158、L159、V165和V166。本发明人首先选择了E152、E154、E155、T158、H73、K74这些极性氨基酸位点进行改造。

实施例4：定点饱和突变文库的构建

以Mtu ΔI-CM内含肽为模板，利用NNK简并密码子(N代表A、G、C和T这4种碱基的混合物，K代表G和T这2种碱基的混合物)在实施例3中所述的6个位点上分别引入20种氨基酸，建立每个位点的定点饱和突变(SDSM)文库，所用引物如表5所示。以T158与H73位点的SDSM文库为例说明建立文库过程。

表5定点饱和突变文库的构建所用引物序列

a序列中粗体显示的核苷酸为简并密码子NNK和MNN。NNK，定点饱和突变上游引物中使用； MNN，定点饱和突变下游引物中使用。其中，M代表C和A这2种碱基的混合物。

对于T158文库的构建，以pUC18-Mtu ΔI-CM质粒为模板，以表5中N-Mtu和 Mtu-down-T158为上下游引物，扩增得到带有T158位点饱和突变的Mtu ΔI-CM基因片段，PCR反应体系及反应程序如表6所示。反应结束后，使用1％琼脂糖凝胶电泳法分析PCR扩增产物，结果扩增出与预期相符的正确条带。预期的扩增得到的片段上下游分别带有EcoRI和HindIII识别位点。通过DNA胶回收纯化片段后，用EcoRI和HindIII 酶双消化基因片段，并与经过同样的内切酶双消化且脱磷酸化后的载体 pET30(a)-CFP-YFP连接，同时以不加入消化的基因片段的连接反应作为阴性对照(载体自连)。将目的及对照连接产物转化入E.coli BL21(DE3)中，获得Mtu ΔI-CM在T158位点的SDSM文库。LB平板上，T158的SDSM文库的菌落数约为700个，而阴性对照菌落数仅为7个，说明SDSM文库以高克隆效率构建，并可用于下一步筛选。E152、 E154和E155处的SDSM文库的构建与T158的相同。

表6扩增Mtu ΔI-CM T158位点突变株反应体系以及程序

试剂	体积(μL)
		5×Q5 buffer	20
dNTPs(2.5mM)	8
		模板DNA(1ng/μL)	2
上游引物(20 μM)	2.5
		下游引物(20μM)	2.5
Q5高保真DNA聚合酶	1
		灭菌蒸馏水	补至100

反应程序
	1.98℃ 30s
2.98℃ 10s
	3^a.68℃ 30s
4^a.72℃ 44s
	5.回到2,重复34个循环
6.72℃ 5min

^a退火温度为上下游引物的Tm+5℃，延伸时间为30s/Kb。

对于H73文库的构建，同样以pUC18-Mtu ΔI-CM质粒为模板，按照表6所示的 PCR体系和程序，以表5中N-Mtu和Mtu-down-H73为上下游引物，扩增出携带H73 突变的上游片段，同时以Mtu-up-H73和C-Mtu分别为上下游引物扩增出携带H73突变的下游片段。将得到的两个片段以等摩尔混合液为模板，重叠扩增全长基因。不加引物反应19个循环后，添加引物N-Mtu和C-Mtu，继续反应34个循环。具体的反应体系和程序如表7所示。以此得到带有H73位点饱和突变的Mtu ΔI-CM全长基因。剩余步骤与T158位点的相同。K74处的SDSM文库的构建与H73处的相同。以上，建立了6个 SDSM文库，用于下一步筛选。

表7扩增Mtu ΔI-CM H73位点突变株重叠PCR的反应体系和程序

试剂	体积(μL)
		5×Q5 buffer	20
dNTPs(2.5mM)	8
		上游片段	40ng
下游片段	60ng
		上游引物(20μM)^a	—
下游引物(20μM)^a	—
		Q5高保真DNA聚合酶	1
灭菌蒸馏水	补至100

反应程序步骤1	反应程序步骤2
		1.98℃ 30s	1.98℃ 30s
2.98℃ 10s	2.98℃ 10s
		3.68℃ 30s	3.68℃ 30s
4.72℃ 20s	4.72℃ 20s
		5.回到2,重复19个循环	5.回到2,重复34个循环
6.72℃ 5min	6.72℃ 5min

^a步骤1结束后，将上、下游引物加入反应体系，然后开始步骤2。

实施例5：定点饱和突变文库的筛选

利用实施例2中所建立的筛选方法用Infinite M200 microplate reader(TECAN,Zürich,Switzerland)对6个饱和文库进行筛选，且每个文库挑选180个菌落(合2块96孔板)，突变覆盖率为99％。筛选流程如下：首先在96孔板中进行初筛。将SDSM文库中的单克隆先在LB平板(含50μg/mL卡那霉素)上划线进行备份，再接种到含有200μL LB 培养基(含50μg/mL卡那霉素)的96孔板中，同时接种空白(仅有LB培养基)、阳性及阴性对照各两株，在37℃摇动(250rpm)过夜培养。将每孔中的10μL各培养物转接到每孔含有500μL LB培养基的新96深孔板中。当OD 600达到0.4–0.6AU，加入终浓度为 0.2mM的IPTG至培养物。培养物在30℃摇动(250rpm)继续培养26h，以诱导C-I-Y 突变物表达。表达后，按照实施例2中所述方法在体内和体外分别测定FRET。将体内的FRET测定结果与体外的FRET测定结果进行对比分析，挑选出体内FRET现象明显 (接近阴性对照)但体外FRET现象不明显(接近阳性对照)的突变株，以三平行的方式进行96孔板复筛，筛选流程与初筛流程相同。将96孔板复筛得到的突变株测序以鉴定基因型改变。排除相同基因型的变体后，然后将得到的变体在试管中进行三平行实验进一步确认。

按照实施例2中的筛选流程，首先对每个文库进行96孔板初筛，如图3所示为H73位点第1块96孔板的初筛结果，以YFP/CFP的值来表征。图中，C3和F10所示的为阳性对照，D6和H12所示的为阴性对照，剩余灰色所示的为初筛获得的突变株。发现确实有一些突变株体内切割效率降低(YFP/CFP的值接近阴性对照)，但仍可保持较高的体外切割效率(YFP/CFP的值接近阳性对照)，如突变株12-G。对三平行中通过初筛到的突变株复筛，测序并排除相同基因型的变体，并在三平行中在试管中验证得到的变体，最终得到性能较好的5株突变株，即H73Y、H73V、K74N、E154S和T158S。这5株突变物发生在4个不同位点，其中73位点处有2株。

实施例6：单位点突变株在L₆KD-I-LipA蛋白纯化体系中的验证

将实施例5中筛选得到的Mtu ΔI-CM突变株首先构建到L₆KD-I-LipA体系(LipA为191aa，其氨基酸序列如SEQ ID NO:50所示，且其核苷酸序列如SEQ ID NO:52所示) 进行验证。构建图谱如图4所示。构建所用引物如表8所示。提取实施例5中筛选得到的突变株中的质粒pET30a-C-I(mutant)-Y，且然后以这些质粒为模板，按照表4中所示的PCR反应体系和程序，以表8中N-Mtu和Mtu-LipA-down为上下游引物扩增出 I(mutant)-LipA的上游片段I(mutant)，同时以pET30a-L₆KD-I-LipA为模板，Mtu-LipA-up 和C-LipA为上下游引物扩增出I(mutant)-LipA的下游片段LipA。按照表9所示的重叠 PCR反应体系和程序，扩增得到完整的I(mutant)-LipA基因。将该基因片段用EcoRI和 XhoI酶进行双酶消化，并与经过同样内切酶消化后的载体pET30a-L₆KD-I-LipA连接，将连接产物化转入大肠杆菌。然后经过菌落PCR和测序鉴定克隆。另外，本研究中还用相同方法构建了pET30(a)-L₆KD-I(N168A)-LipA重组质粒，作为后续表征的阴性对照。

表8扩增I(mutant)-LipA所用引物序列

表9扩增I(mutant)-LipA重叠PCR的反应体系和程序

反应程序步骤1	反应程序步骤2
		1.98℃ 30s	1.98℃ 30s
2.98℃ 10s	2.98℃ 10s
		3.68℃ 30s	3.68℃ 30s
4.72℃ 40s	4.72℃ 40s
		5.回到2,重复19个循环	5.回到2,重复34个循环
6.72℃ 5min	6.72℃ 5min

将带有pET30(a)-L₆KD-I(mutant)-LipA的大肠杆菌及对照菌株按照接种到含有50 μg/mL卡那霉素的LB培养基中，在37℃摇动(250rpm)培养过夜。按1:50的比例将培养物转接到含有50μg/mL卡那霉素的LB培养基中，且当OD₆₀₀达到0.4–0.6(对数期) 通过0.2mMIPTG诱导大肠杆菌中重组蛋白的表达，加入终浓度为0.2mM的IPTG在 18℃诱导大肠杆菌表达重组蛋白24h。表达后，测定菌液终浓度OD 600，4℃、6,000 ×g的条件下离心10min，收获细胞沉淀，并置于-80℃冰箱保存。

使用Buffer B1(20mM Tris-HCl，500mM NaCl，1mM EDTA，pH 8.5)将收集的细胞沉淀重悬起来。将细胞沉淀置于冰水混合物中，然后用超声破碎法破碎细胞。对于1mL20OD₆₀₀/mL的样品，破碎条件为：使用φ2超声探头，超声时间2s，间隔时间2s，循环99次，功率100W(2s×2s×99times)。在4℃以15,000×g离心20min来从沉淀分离上清级分。用等体积的Buffer B1洗涤沉淀2次，以尽量去除沉淀中的可溶杂质。留取一定量细胞裂解液上清和洗涤重悬后的沉淀样品用于后续分析检测。将上述获得的沉淀用诱导内含肽切割缓Buffer B2(50mM Na₂HPO₄-NaH₂PO₄缓冲液，500mM NaCl， pH 6.0)等体积重悬起来，25℃切割3h，并然后继续在4℃过夜。切割后，在4℃以 15,000×g离心20min，分离上清与沉淀，将沉淀用等体积Buffer B1重悬后，连同上清一起用于后续检测。

图8所示分别为H73Y、H73V、T158S、K74N和E154S突变株在L₆KD-I-LipA体系中的SDS-PAGE检测结果。定量结果如表10所示。

表10具有单突变的变体在L₆KD-I-LipA体系中的定量

a体内切割百分比，即内含肽不成熟切割效率，定义为在体内发生切割的融合蛋白聚集体与融合蛋白聚集体的理论值的质量比。

b以“菌液浓度OD₆₀₀为2时，细胞湿重为2.66±0.99mg/ml LB培养基”计算。

c切割效率定义为在体外被切割的融合蛋白聚集体与实际得到的融合蛋白聚集体的质量比。

d优势定义为(突变株的目的蛋白产量-来自Mtu ΔI-CM的目的蛋白产量)/来自Mtu ΔI-CM的目的蛋白产量×100％。

这5株突变株应用于L₆KD-I-LipA体系时的体内不成熟切割效率确实有降低，且同时仍能保持体外切割效率，这导致提高LipA蛋白的产量。相比模板Mtu ΔI-CM体系，融合蛋白的体内切割比例从87％下降到30％–65％，最终LipA的产量提高了25％–65％，为6.0–7.9μg/mg细胞湿重。其中含突变株H73Y的融合蛋白体内切割比例从87％降低到32％，使LipA的产量提高了65％；含突变株H73V的融合蛋白体内切割比例从87％降低到39％，使LipA的产量提高了50％；含突变株T158S的融合蛋白体内切割比例从 87％降低到30％，使LipA的产量提高了60％，但该突变株的体外切割效率略有下降(从 84％下降到75％)。

实施例7：单位点突变株在L₆KD-I-GLP1蛋白纯化体系中的验证

本实施例中将筛到的5株单位点突变株构建到L₆KD-I-GLP1体系(GLP1为31aa，其氨基酸序列如SEQ ID NO:51所示，且其核苷酸序列如SEQ ID NO:53所示)中进行验证，看它们对多肽制备是否也有效果。构建方法参照实施例6中L₆KD-I(mutant)-LipA 体系的构建，所用引物如表11所示。

表11扩增I(mutant)-GLP1所用引物序列

将带有pET30(a)-L₆KD-I(mutant)-GLP1重组质粒的大肠杆菌及对照菌株按照实施例 6中的方法表达、纯化，所得样品用SDS-PAGE进行检测分析，检测结果如图6所示。由于切割后的上清中(泳道3)含有GLP-1条带，而GLP-1的分子量仅为3355.7Da，用常规12％的SDS-PAGE检测不到，需用4-12％的Bis-Tris SDS-PAGE进行检测(图6(c))。定量结果如表12所示。

同样的，这5株突变株应用于L₆KD-I-GLP1体系时的体内不成熟切割效率也有不同程度的降低，且仍保持高效的体外切割效率，进而提高了GLP-1的产量。如表12所示，相比原始Mtu ΔI-CM体系，突变株的应用使L₆KD-I-GLP1体系融合蛋白的体内切割比例从68％降至31％–54％，GLP-1的产量提高了50％–3.3倍，为1.34–3.92μg/mg细胞湿重。其中含突变株T158S的融合蛋白体内切割比例从68％降低到31％，使GLP-1的产量提高了2.3倍；含突变株H73V的融合蛋白体内切割比例68％降低到42％，使GLP-1 的产量提高了1.4倍；含突变株H73Y的融合蛋白体内切割比例从68％降低到35％，使 GLP-1的产量提高了3.3倍。综合考量这5株突变株在L₆KD-I-LipA体系和L₆KD-I-GLP1 体系中的应用结果，突变株H73Y、H73V和T158S性能较好。

表12单位点突变株在L₆KD-I-GLP1体系中的定量

d优势定义为(来自突变株的目的蛋白产量-来自Mtu ΔI-CM的目的蛋白产量)/来自Mtu ΔI-CM 的目的蛋白产量×100％。

实施例8：组合活性位点饱和测试文库的构建与筛选

H73和T158这两个位点的突变株在cSAT方法中的性能较好。本实施例对73和158这两个位点进行组合，希望进一步改善Mtu ΔI-CM内含肽的性能。由于H73位点和T158 位点之间的距离为

本发明人推测它们之间可能会产生协同作用。因此利用Reetz 等人在SDSM方法的基础上开发的组合活性位点饱和突变(Combinatorial active-sitesaturation testing，CASTing)的方法对H73位点和T158位点进行组合建库。

以Mtu ΔI-CM内含肽为模板，利用NDT简并密码子在H73和T158位点同时引入 12种氨基酸，建立CASTing文库。以pUC18-Mtu ΔI-CM质粒为模板，以表13中 Mtu-up-73-158和CAST-Mtu-down-73为上下游引物，扩增出突变位点H73的上游片段，同时以CAST-Mtu-up-73和Mtu-down-73-158为上下游引物扩增出突变位点H73的下游片段，下游引物Mtu-down-73-158同时也将突变引入T158位点。将等摩尔混合的两个片段为模板，进行重叠PCR以扩增全长基因。不加引物反应19个循环后，添加引物 Mtu-up-73-158和Mtu-down-73-158，继续反应34个循环。反应体系和程序与表7相同。以此得到同时带有H73位点和T158饱和突变的Mtu ΔI-CM全长基因，且上下游分别有 EcoRI和HindIII识别位点，将该基因进行DNA凝胶纯化，用EcoRI和HindIII酶进行双酶消化，然后将基因与经过同样的内切酶双酶消化且脱磷酸化后的载体 pET30(a)-CFP-YFP连接，同时以不加入双消化基因的连接反应作为阴性对照(载体自连对照)，获得目的及对照连接产物。将连接产物化转入E.coli BL21(DE3)中，获得Mtu Δ I-CM在H73和T158位点的CASTing文库。

表13本实施例中所用引物序列

a序列中粗体显示的核苷酸为简并密码子NDT和AHN。NDT，组合活性位点饱和突变上游引物中使用的简并密码子，其中D代表三种碱基：A、T和G的混合物；AHN，组合活性位点饱和突变下游引物中使用的简并密码子。其中，H代表C、A和T这3种碱基的混合物。

利用Infinite M200 microplate reader(TECAN,Zürich,Switzerland)采用实施例5所述的筛选流程对H73和T158位点的组合文库进行了筛选，共挑选540个菌落(合6块96孔板)，突变覆盖率为98％。最终得到在C-I-Y体系内体内切割效率降低但仍能有效体外切割的组合位点突变株6株，分别是：H73Y/T158V、H73V/T158S、H73V/T158C、 H73V/T158N、H73S/T158N和H73C/T158S。其中，突变株H73V/T158S是定点饱和突变获得的两株性能较好的单突变株(H73V和T158S)的组合。

实施例9：组合位点突变株在L₆KD-I-LipA体系中的表征

本实施例中将筛选获得的6株组合位点突变株构建到L₆KD-I-LipA体系中进行验证，看它们对多肽制备是否也有效果。构建方法参照实施例6中L₆KD-I(mutant)-LipA 体系的构建，所用引物如表8所示。

将带有pET30(a)-L₆KD-I(mutant)-GLP1重组质粒的大肠杆菌及对照菌株按照实施例 6中的方法表达、纯化，所得样品用SDS-PAGE进行检测分析，检测结果如图7所示，定量结果如表14所示。

表14组合位点突变株在L₆KD-I-LipA体系中的定量

突变株H73Y/T158V的融合蛋白的体内切割比例从87％降低到27％，在所有获得的突变株中最低，使LipA的产量提高了94％；突变株H73V/T158S的融合蛋白的体内切割比例从87％降低到36％，使LipA的产量提高了71％。但这两个突变株的体外切割效率略有下降。突变株H73V/T158C的融合蛋白的体内切割比例从87％降低到45％，使 LipA的产量提高了71％。其他3个突变株效果不如之前的单位点突变株，所以接下来将不再被构建到L₆KD-I-GLP1体系中进行验证。

实施例10：组合位点突变株在L₆KD-I-GLP1体系中的表征

本实施例中将筛到的3株组合位点突变株构建到L₆KD-I-GLP1体系中进行验证，看它们对多肽制备是否也有效果。构建方法参照实施例6中L₆KD-I(mutant)-LipA体系的构建，所用引物如表11所示。

将带有pET30(a)-L₆KD-I(mutant)-GLP1重组质粒的大肠杆菌及对照菌株按照实施例 6中的方法表达、纯化，所得样品用SDS-PAGE进行检测分析，检测结果如图8所示。定量结果如表15所示。

同样的，这3株组合位点突变株也能不同程度的降低L₆KD-I-GLP1体系的体内切割比例，提高GLP-1的产量。突变株H73Y/T158V的融合蛋白的体内切割比例从68％降低到18％，但其体外切割效率大大下降，从85％降为48％，从而GLP-1的产量相比原始体系只提高了41％。但该突变株在L₆KD-I-LipA体系的体外切割效率仅略有下降(如表15)。突变株H73V/T158S的融合蛋白的体内切割比例从68％降低到21％，使GLP-1 的产量提高了3.8倍。突变株H73V/T158C的融合蛋白的体内切割比例从68％降低到 25％，使GLP-1的产量提高了3.4倍。尽管突变株H73Y/T158V在该体系的体外切割效率下降，但与L₆KD-I-LipA体系相同，突变株H73Y/T158V的体内切割效率在所有获得的突变株内最低，低于定点饱和突变获得的两株好突变株的组合突变株H73Y/T158S，说明73位点和158位点之间确实有一定的协同作用，显示了应用组合活性位点饱和突变测试方法进行位点组合时的有效性。

表15单位点突变株在L₆KD-I-GLP1体系中的定量

本领域技术人员应明白，本文中描述的发明除了那些明确描述的之外的变化和修改是容许的。应理解，本发明包括所有的这些变化和修改。本发明还包括所有在说明书中单独地或共同地提及或表明的步骤、特征、组合物和化合物，以及任意的和所有的组合，或者任何两或多个所述步骤或特征。

序列表

<110> 清华大学

华南理工大学

<120> Mtu ΔI-CM 内含肽变体和其应用

<130> TC5714

<150> PCT/CN2018/122075

<151> 2018-12-19

<160> 53

<170> PatentIn version 3.5

<210> 1

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 1

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp His Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Thr Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 2

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 2

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp Tyr Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Thr Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 3

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 3

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp Val Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Thr Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 4

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 4

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp His Asn Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Thr Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 5

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 5

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp His Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Ser Glu Leu His Thr Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 6

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 6

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp His Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Ser Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 7

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 7

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp Tyr Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Val Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 8

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 8

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp Val Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Ser Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 9

<211> 168

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 9

Ala Leu Ala Glu Gly Thr Arg Ile Phe Asp Pro Val Thr Gly Thr Thr

1 5 10 15

His Arg Ile Glu Asp Val Val Asp Gly Arg Lys Pro Ile His Val Val

20 25 30

Ala Ala Ala Lys Asp Gly Thr Leu His Ala Arg Pro Val Val Ser Trp

35 40 45

Phe Asp Gln Gly Thr Arg Asp Val Ile Gly Leu Arg Ile Ala Gly Gly

50 55 60

Ala Ile Leu Trp Ala Thr Pro Asp Val Lys Val Leu Thr Glu Tyr Gly

65 70 75 80

Trp Arg Ala Ala Gly Glu Leu Arg Lys Gly Asp Arg Val Ala Gln Pro

85 90 95

Arg Arg Phe Asp Gly Phe Gly Asp Ser Ala Pro Ile Pro Ala Arg Val

100 105 110

Gln Ala Leu Ala Asp Ala Leu Asp Asp Lys Phe Leu His Asp Met Leu

115 120 125

Ala Glu Glu Leu Arg Tyr Ser Val Ile Arg Glu Val Leu Pro Thr Arg

130 135 140

Arg Ala Arg Thr Phe Gly Leu Glu Val Glu Glu Leu His Cys Leu Val

145 150 155 160

Ala Glu Gly Val Val Val His Asn

165

<210> 10

<211> 17

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 10

Pro Thr Pro Pro Thr Thr Pro Thr Pro Pro Thr Thr Pro Thr Pro Thr

1 5 10 15

Pro

<210> 11

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 11

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggattata aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca taccctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 12

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 12

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggatgtga aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca taccctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 13

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 13

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggatcata atgtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca taccctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 14

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 14

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggatcata aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtga gtgaactgca taccctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 15

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 15

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggatcata aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca ttctctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 16

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 16

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggattata aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca tgttctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 17

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 17

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggatgtta aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca tagtctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 18

<211> 504

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 18

gcgctggctg aaggcacgcg catttttgat ccggtcacgg gcacgacgca ccgcattgaa 60

gatgttgttg atggccgcaa gccgattcat gtggttgcgg ccgcaaaaga tggcaccctg 120

cacgcccgtc cggtcgtgag ttggtttgat cagggtacgc gtgacgtcat tggtctgcgt 180

atcgcgggcg gtgcaattct gtgggcaacc ccggatgtta aagtgctgac ggaatatggc 240

tggcgtgctg cgggtgaact gcgtaagggt gaccgtgttg cacagccgcg tcgctttgat 300

ggcttcggtg acagcgcacc gattccggct cgcgttcaag ccctggcaga tgctctggat 360

gacaagttcc tgcacgacat gctggcggaa gaactgcgtt actctgttat ccgcgaagtc 420

ctgccgaccc gtcgcgcccg cacgtttggt ctggaagtgg aagaactgca ttgtctggtt 480

gcggaaggcg ttgtggttca taac 504

<210> 19

<211> 34

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 19

ccggaattcg cgctggctga aggcacgcgc attt 34

<210> 20

<211> 39

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 20

cccaagcttg ttatgaacca caacgccttc cgcaaccag 39

<210> 21

<211> 39

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 21

cccaagcttg gcatgaacca caacgccttc cgcaaccag 39

<210> 22

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (59)..(60)

<223> n is a, c, g, or t

<400> 22

cccaagcttg ttatgaacca caacgccttc cgcaaccagg gtatgcagtt cttccacmnn 60

cagaccaaac gtgcg 75

<210> 23

<211> 66

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (53)..(54)

<223> n is a, c, g, or t

<400> 23

cccaagcttg ttatgaacca caacgccttc cgcaaccagg gtatgcagtt cmnncacttc 60

cagacc 66

<210> 24

<211> 66

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (50)..(51)

<223> n is a, c, g, or t

<400> 24

cccaagcttg ttatgaacca caacgccttc cgcaaccagg gtatgcagmn nttccacttc 60

cagacc 66

<210> 25

<211> 56

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (41)..(42)

<223> n is a, c, g, or t

<400> 25

cccaagcttg ttatgaacca caacgccttc cgcaaccagm nnatgcagtt cttcca 56

<210> 26

<211> 35

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (14)..(15)

<223> n is a, c, g, or t

<400> 26

ggcaaccccg gatnnkaaag tgctgacgga atatg 35

<210> 27

<211> 43

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (16)..(17)

<223> n is a, c, g, or t

<400> 27

tccgtcagca ctttmnnatc cggggttgcc cacagaattg cac 43

<210> 28

<211> 44

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (17)..(18)

<223> n is a, c, g, or t

<400> 28

ggcaaccccg gatcatnnkg tgctgacgga atatggctgg cgtg 44

<210> 29

<211> 43

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (16)..(17)

<223> n is a, c, g, or t

<400> 29

tattccgtca gcacmnnatg atccggggtt gcccacagaa ttg 43

<210> 30

<211> 39

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 30

cccaagcttg ttatgaacca caacgccttc cgcaaccag 39

<210> 31

<211> 37

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 31

ttgtggttca taaccaccat caccatcacc accccac 37

<210> 32

<211> 39

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 32

gatggtgatg gtggttatga accacaacgc cttccgcaa 39

<210> 33

<211> 37

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 33

ttgtggttca tgcccaccat caccatcacc accccac 37

<210> 34

<211> 41

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 34

gtgatggtga tggtgggcat gaaccacaac gccttccgca a 41

<210> 35

<211> 40

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 35

agtctactcg agtcaattcg tattctggcc cccgccgttc 40

<210> 36

<211> 37

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 36

gttgtggttc ataaccatgc agaaggcacc tttacca 37

<210> 37

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 37

gtgccttctg catggttatg aaccacaacg ccttccgcaa cc 42

<210> 38

<211> 39

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 38

gcgttgtggt tcatgcccat gcagaaggca cctttacca 39

<210> 39

<211> 42

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 39

gtgccttctg catgggcatg aaccacaacg ccttccgcaa cc 42

<210> 40

<211> 35

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 40

atctgactcg agtcaaccac gacctttaac cagcc 35

<210> 41

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 41

ccggaattcg cgctggctga aggcacg 27

<210> 42

<211> 35

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (14)..(14)

<223> n is a, c, g, or t

<400> 42

ggcaaccccg gatndtaaag tgctgacgga atatg 35

<210> 43

<211> 43

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (17)..(17)

<223> n is a, c, g, or t

<400> 43

tccgtcagca ctttahnatc cggggttgcc cacagaattg cac 43

<210> 44

<211> 62

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<220>

<221> misc_feature

<222> (42)..(42)

<223> n is a, c, g, or t

<400> 44

cccaagcttg ttatgaacca caacgccttc cgcaaccaga hnatgcagtt cttccacttc 60

ca 62

<210> 45

<211> 18

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 45

Asp Trp Leu Lys Ala Phe Tyr Asp Lys Val Ala Glu Lys Leu Lys Glu

1 5 10 15

Ala Phe

<210> 46

<211> 16

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 46

Leu Glu Leu Glu Leu Lys Leu Lys Leu Glu Leu Glu Leu Lys Leu Lys

1 5 10 15

<210> 47

<211> 8

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 47

Leu Leu Leu Leu Leu Leu Lys Asp

1 5

<210> 48

<211> 8

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 48

Phe Glu Phe Arg Phe Glu Phe Arg

1 5

<210> 49

<211> 8

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 49

Phe Glu Phe Lys Phe Glu Phe Lys

1 5

<210> 50

<211> 191

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 50

His His His His His His Pro Thr Pro Met Ala Glu His Asn Pro Val

1 5 10 15

Val Met Val His Gly Ile Gly Gly Ala Ser Phe Asn Phe Ala Gly Ile

20 25 30

Lys Ser Tyr Leu Val Ser Gln Gly Trp Ser Arg Asp Lys Leu Tyr Ala

35 40 45

Val Asp Phe Trp Asp Lys Thr Gly Thr Asn Tyr Asn Asn Gly Pro Val

50 55 60

Leu Ser Arg Phe Val Gln Lys Val Leu Asp Glu Thr Gly Ala Lys Lys

65 70 75 80

Val Asp Ile Val Ala His Ser Met Gly Gly Ala Asn Thr Leu Tyr Tyr

85 90 95

Ile Lys Asn Leu Asp Gly Gly Asn Lys Val Ala Asn Val Val Thr Leu

100 105 110

Gly Gly Ala Asn Arg Leu Thr Thr Gly Lys Ala Leu Pro Gly Thr Asp

115 120 125

Pro Asn Gln Lys Ile Leu Tyr Thr Ser Ile Tyr Ser Ser Ala Asp Met

130 135 140

Ile Val Met Asn Tyr Leu Ser Arg Leu Asp Gly Ala Arg Asn Val Gln

145 150 155 160

Ile His Gly Val Gly His Ile Gly Leu Leu Tyr Ser Ser Gln Val Asn

165 170 175

Ser Leu Ile Lys Glu Gly Leu Asn Gly Gly Gly Gln Asn Thr Asn

180 185 190

<210> 51

<211> 31

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 51

His Ala Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly

1 5 10 15

Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Lys Gly Arg Gly

20 25 30

<210> 52

<211> 573

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 52

caccatcacc atcaccaccc cacccctatg gctgaacaca atccagtcgt tatggttcac 60

ggtattggag gggcatcatt caattttgcg ggaattaaga gctatctcgt atctcagggc 120

tggtcgcggg acaagctgta tgcagttgat ttttgggaca agacaggcac aaattataac 180

aatggaccgg tattatcacg atttgtgcaa aaggttttag atgaaacggg tgcgaaaaaa 240

gtggatattg tcgctcacag catggggggc gcgaacacac tttactacat aaaaaatctg 300

gacggcggaa ataaagttgc aaacgtcgtg acgcttggcg gcgcgaaccg tttgacgaca 360

ggcaaggcgc ttccgggaac agatccaaat caaaagattt tatacacatc catttacagc 420

agtgccgata tgattgtcat gaattactta tcaagattag atggtgctag aaacgttcaa 480

atccatggcg ttggacacat cggccttctg tacagcagcc aagtcaacag cctgattaaa 540

gaagggctga acggcggggg ccagaatacg aat 573

<210> 53

<211> 93

<212> DNA

<213> Artificial Sequence

<220>

<223> Synthetic Construct

<400> 53

catgcagaag gcacctttac cagcgatgtt agcagctatc tggaaggtca ggcagcaaaa 60

gaatttattg catggctggt taaaggtcgt ggt 93

Claims

1.一种分离的多肽，其为MtuΔI-CM内含肽的变体，其中所述MtuΔI-CM内含肽具有如SEQ ID NO:1所示的氨基酸序列，

其中所述多肽由以下组成：

选自SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ IDNO:7、SEQ ID NO:8或SEQ ID NO:9的氨基酸序列；以及

其中与所述如SEQ ID NO:1所示的MtuΔI-CM内含肽相比，所述多肽在第一pH值具有降低的C端切割效率且在第二pH值具有相似或升高的C端切割效率，并且所述多肽的N端切割活性保持沉默，其中所述第一pH值是pH 7.2-8.5，以及所述第二pH值是pH5.5-6.8。

2.权利要求1所述的多肽，其中所述第一pH值是7.4-7.8。

3.权利要求1所述的多肽，其中所述第一pH值是7.5。

4.权利要求1所述的多肽，其中所述第二pH值是5.5-6.5。

5.权利要求1所述的多肽，其中所述第二pH值是6.0。

6.一种分离的融合蛋白，其包括权利要求1至5中任一项所述的多肽、纯化标签和目的分子，其中，所述纯化标签位于所述多肽的N端，且所述目的分子位于所述多肽的C端。

7.权利要求6所述的融合蛋白，其中所述纯化标签通过间隔物连接于所述多肽的N端。

8.权利要求7所述的融合蛋白，其中所述间隔物包含SEQ ID NO:10所示序列。

9.权利要求6至8中任一项所述的融合蛋白，其中所述纯化标签为亲和型标签。

10.权利要求6至8中任一项所述的融合蛋白，其中所述纯化标签为聚集型标签。

11.权利要求10所述的融合蛋白，其中所述纯化标签为两亲性自组装短肽。

12.权利要求6至8中任一项所述的融合蛋白，其中所述目的分子为长度为20、50、70、100、150、200、250、300、350、400、450或500个氨基酸残基的肽段，或为任意两个上述长度之间的任意长度。

13.一种分离的多核苷酸，其包含编码权利要求1至5中任一项所述的分离的多肽的核苷酸序列。

14.一种分离的多核苷酸，其包含编码权利要求6至12中任一项所述的融合蛋白的核苷酸序列。

15.重组载体，其包含权利要求13或权利要求14所述的多核苷酸。

16.宿主细胞，其包含权利要求13或权利要求14所述的多核苷酸或者权利要求15所述的重组载体。

17.权利要求16所述的宿主细胞，其中所述宿主细胞是原核生物来源的。

18.权利要求16所述的宿主细胞，其中所述原核生物为大肠杆菌。

19.权利要求16所述的宿主细胞，其中所述宿主细胞是真核生物来源的。

20.权利要求16所述的宿主细胞，其中所述真核生物选自毕赤酵母。

21.制备目的分子的方法，所述方法包括以下步骤：

(a)培养包含权利要求14所述的多核苷酸的宿主细胞以表达所述融合蛋白；

(b)破碎所述宿主细胞，并在所述第一pH值下回收步骤(a)中产生的所述融合蛋白；

(c)在所述第二pH值下，切割所述融合蛋白以释放所述目的分子；以及

(d)回收所述目的分子。

22.从样品中纯化目的分子的方法，其包括以下步骤：

(a)提供含有权利要求6至12中任一项所述的融合蛋白的样品；

(b)通过所述纯化标签收集所述融合蛋白；

(c)调节含有收集自步骤(b)的所述融合蛋白的溶液的pH值以使得所述目的分子从所述融合蛋白被切割；以及

(d)回收所述目的分子。