CN114057886A

CN114057886A - 一种索玛鲁肽衍生物及其制备方法

Info

Publication number: CN114057886A
Application number: CN202010724452.XA
Authority: CN
Inventors: 陈卫; 张振山; 吴松; 怀汉青
Original assignee: Ningbo Kunpeng Biotech Co Ltd
Current assignee: Ningbo Kunpeng Biotech Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2022-02-18
Anticipated expiration: 2040-07-24
Also published as: CN114057886B

Abstract

本发明提供了一种索玛鲁肽衍生物及其制备方法。具体地，本发明提供了包含绿色荧光蛋白折叠单元和索玛鲁肽或其活性片段的融合蛋白。本发明的融合蛋白表达量显著提高，并且，本发明融合蛋白中的绿色荧光蛋白折叠单元可以被蛋白酶消化成小片段，和目的蛋白相比分子量差别大，容易分离。本发明还提供了利用该融合蛋白制备索玛鲁肽的方法及制备中间体。

Description

一种索玛鲁肽衍生物及其制备方法

技术领域

本发明涉及生物医药领域，更具体地涉及一种索玛鲁肽衍生物及其制备方法。

背景技术

糖尿病是全球范围内威胁人类健康的一大疾病。在中国，随着人民生活方式的改变和老龄化进程的加快，糖尿病的患病率呈快速上升趋势。糖尿病的急慢性并发症，尤其是慢性并发症累计多个器官，致残、致死率高，严重影响患者的身心健康，并给个人、家庭和社会带来沉重的负担。

索玛鲁肽是由Novo Nordisk开发的一种降糖药物，该产品能显著降低2型糖尿病患者的糖化血红蛋白(HbA1c)水平及减轻体重，同时大大降低低血糖的风险。Semeglutide是通过对GLP-1(7-37)进行修饰和改造获得。与Liraglutide相比，Semeglutide的脂肪链更长，疏水性增加，但是Semeglutide经过短链的PEG 修饰，亲水性大大增强。PEG修饰后不但可以与白蛋白紧密结合，掩盖DPP-4 酶水解位点，还能降低肾排泄，可延长生物半衰期，达到长循环的效果。

索玛鲁肽的CAS号：910463-68-2，英文名Semaglutide，其序列如下： H-His1-Aib2-Glu3-Gly4-Thr5-Phe6-Thr7-Ser8-Asp9-Val10-Ser11-Ser12-Tyr13-Le u14-Glu15-Gly16-Gln17-Ala18-Ala19-Lys20(PEG2-PEG2-γ-Glu-Octadecanedioic acid)-Glu21-Phe22-Ile23-Ala24-Trp25-Leu26-Val27-Arg28-Gly29-Arg30-Gly31- OH。

专利申请号为CN201611095162，其采用片段缩合的方法合成得到全保护索玛鲁肽，裂解后获得索玛鲁肽粗肽。由于该方法采用片段进行缩合，其原料不易获得，且成本高昂。另外，先缩合主链至第5位的Thr，再脱除20位Lys的侧链保护基团Alloc，进行侧链的缩合。此方法在合成过程中易造成片段2树脂的缩聚，大大降低20位Lys后的氨基酸及片段1的偶联效率，且易产生消旋杂质，不利于工业化生产。

专利申请号为CN201511027176，采用固相合成方法获得全保护索玛鲁肽树脂，经裂解后获得索玛鲁肽粗肽，经纯化获得索玛鲁肽精品。此方法采用先缩合主链，再脱除Lys侧链保护基团Alloc，进行侧链的缩合。此方法在合成过程中易造成树脂的缩聚，大大降低偶联效率，且易产生消旋杂质，特别是造成最后一个氨基酸His的消旋，大大降低了产品的收率，增加了生产成本。

因此，本领域技术人员致力于新的方法生产索玛鲁肽。

发明内容

本发明的目的在于提供一种索玛鲁肽衍生物及其应用。

在本发明的第一方面，提供了一种索玛鲁肽前体融合蛋白，所述的索玛鲁肽融合蛋白从N端到C端具有式I所示的结构：

A-FP-TEV-EK-G (I)

式中，

“-”代表肽键；

A为无或前导肽序列，

FP为绿色荧光蛋白折叠单元；

TEV为第一酶切位点，较佳地为TEV酶酶切位点(如序列ENLYFQG所示，SEQ ID NO:8)；

EK为第二酶切位点，较佳地为肠激酶酶切位点(如序列DDDDK所示，SEQ ID NO:9)；

G为索玛鲁肽前体或其片段；

其中，所述的绿色荧光蛋白折叠单元包含2-6个选自下组的β-折叠单元：

在另一优选例中，所述的绿色荧光蛋白折叠单元为u2-u3、u4-u5、u1-u2-u3、 u3-u4-u5或u4-u5-u6。

在另一优选例中，所述G为Boc修饰的索玛鲁肽前体，所述的索玛鲁肽前体缺失索玛鲁肽主链N端的2-7个氨基酸，并且，所述的索玛鲁肽前体中包含的赖氨酸被Boc修饰。

在另一优选例中，所述Boc修饰的赖氨酸的ε氨基是用叔丁氧羰基修饰的。

在另一优选例中，所述的索玛鲁肽主链的氨基酸序列如SEQ ID NO:3所示。

在另一优选例中，所述的索玛鲁肽前体包括：

第14位被Boc修饰的索玛鲁肽第一前体，所述第一前体的氨基酸序列如SEQ IDNO:1所示；

第15位被Boc修饰的索玛鲁肽第二前体，所述第二前体的氨基酸序列如SEQ IDNO:2所示；

或者，第16位被Boc修饰的索玛鲁肽第三前体，所述第三前体的氨基酸序列如 SEQID NO:23所示。

SEQ ID NO:1：TSDVSSYLEGQAAKEFIAWLVRGRG(GLP-1(13-37))

SEQ ID NO:2：FTSDVSSYLEGQAAKEFIAWLVRGRG(GLP-1(12-37))

SEQ ID NO:23：TFTSDVSSYLEGQAAKEFIAWLVRGRG(GLP-1(11-37))

(K为Boc修饰的赖氨酸)

在另一优选例中，所述的索玛鲁肽前体C端第4位氨基酸为精氨酸或赖氨酸。

在另一优选例中，所述的索玛鲁肽前体C端第4位精氨酸可以被赖氨酸取代。

在另一优选例中，所述的融合蛋白C端第4位氨基酸为精氨酸或赖氨酸。

在另一优选例中，所述的融合蛋白C端第4位精氨酸可以被赖氨酸取代。

在本申请中，定义完整的索马鲁肽序列(H(Aib)EGTFTSDVSSYLEGQAAKEFIAWLVRGRG，SEQ ID NO:3)为索玛鲁肽主链，N端氨基酸缺失的索马鲁肽定义为索玛鲁肽前体。对于Fmoc修饰的索玛鲁肽主链，其N端的H被Fmoc修饰；对于Boc修饰的索玛鲁肽主链，其第20位赖氨酸为Nε-(叔丁氧羰基)-赖氨酸。

在另一优选例中，所述的绿色荧光蛋白折叠单元为u3-u4-u5。

在另一优选例中，所述前导肽的氨基酸序列如SEQ ID NO:7所示。

在另一优选例中，所述索玛鲁肽前体的第14位、第15位或第16位为Nε-(叔丁氧羰基)-赖氨酸。

在本发明的第二方面，提供了一种Fmoc和Boc修饰的索玛鲁肽主链，其特征在于，所述索玛鲁肽主链的第20位为保护赖氨酸，所述的保护赖氨酸为Nε-(叔丁氧羰基)-赖氨酸，并且，所述索玛鲁肽主链的N端为Fmoc修饰的组氨酸。

在另一优选例中，所述的Fmoc为芴甲氧羰基。

在本发明的第三方面，提供了一种Boc修饰的索玛鲁肽前体，所述的索玛鲁肽前体包括：

在本发明的第四方面，提供了一种Fmoc修饰的索玛鲁肽主链，其特征在于，所述索玛鲁肽主链的N端为Fmoc修饰的组氨酸，并且，所述的索玛鲁肽主链的氨基酸序列SEQID NO:3所示。

在本发明的第五方面，提供了一种制备索玛鲁肽的方法，所述方法包括步骤：

(A)利用重组菌进行发酵，制备索玛鲁肽前体融合蛋白，

(B)利用所述的索玛鲁肽前体融合蛋白，制备索玛鲁肽，

其中，所述的索玛鲁肽融合蛋白如本发明第一方面所述。

在另一优选例中，所述的步骤(B)还包括步骤：

(i)对所述的索玛鲁肽前体融合蛋白进行酶切处理，从而获得Boc修饰的索玛鲁肽前体，所述的Boc修饰的索玛鲁肽前体缺失索玛鲁肽主链N端的X个氨基酸，其中X为2-7的整数；

(ii)在所述Boc修饰的索玛鲁肽前体的N端连接Fmoc复合物，从而制得Fmoc和 Boc修饰的索玛鲁肽主链，

其中，所述的Fmoc复合物包含索玛鲁肽主链N端的X个氨基酸，并且所述的 Fmoc复合物的N端氨基酸是被Fmoc修饰的；

(iii)对所述的Fmoc和Boc修饰的索玛鲁肽主链进行脱Boc处理，并将其与索玛鲁肽侧链进行反应，从而制得Fmoc修饰的索玛鲁肽；和

(iv)对所述的Fmoc修饰的索玛鲁肽进行脱Fmoc处理，从而制得脱Fmoc索玛鲁肽；

(v)对所述的脱Fmoc索玛鲁肽进行侧链脱tBu处理，从而制得索玛鲁肽。

在另一优选例中，在步骤(i)中，利用肠激酶进行酶切处理。

在另一优选例中，所述的Boc修饰的索玛鲁肽前体包括：

在另一优选例中，所述的Fmoc复合物为Fmoc-H-Aib-E-G-T-F、 Fmoc-H-Aib-E-G-T、或Fmoc-H-Aib-E-G。

在另一优选例中，在步骤(i)和步骤(ii)中，X的数值相同。

在另一优选例中，所述的Fmoc和Boc修饰的索玛鲁肽主链如本发明第二方面所述。

在另一优选例中，步骤(ii)的反应如下所示：

或

在另一优选例中，所述索玛鲁肽侧链如下所示：

在另一优选例中，在步骤(ii)中，加入Fmoc复合物、DIPEA(N,N-二异丙基乙胺)和DMF(N,N-二甲基甲酰胺)，从而将Fmoc复合物连接于所述Boc修饰的索玛鲁肽前体的N端。

在另一优选例中，加入的Fmoc复合物、DIPEA与Boc修饰的索玛鲁肽前体的摩尔比为(1.0-3.0)：(10-14)：(0.8-1.2)，较佳地为(2-2.8)：(11-13)：(0.8-1.2)。

在另一优选例中，在步骤(ii)和步骤(iii)之间，还包括对制得的Fmoc和Boc 修饰的索玛鲁肽主链进行纯化的步骤。

在另一优选例中，所述纯化处理为向反应溶液中加入有机溶剂，从而制得固体产物，更佳地所述有机溶剂为甲叔醚/石油醚混合液。

在另一优选例中，在步骤(iii)中，还包括步骤：

(a)加入TFA溶液，低温搅拌，进行脱Boc处理，制得脱Boc产物；

(b)向步骤(a)的反应溶液中加入有机溶剂，从而制得固体脱Boc产物，较佳地所述有机溶剂为甲叔醚/石油醚混合液；

(c)将脱Boc产物与索玛鲁肽侧链混合，制得Fmoc修饰的索玛鲁肽。

在另一优选例中，在步骤(c)中，将所述的固体脱Boc产物与索玛鲁肽侧链在DMF中混合并在室温下进行反应。

在另一优选例中，在步骤(c)中，所述的反应体系中还包含DIPEA。

在另一优选例中，在步骤(iv)中，加入含有哌啶的DMF溶液，进行脱Fmoc 处理，从而制得脱Fmoc索玛鲁肽。

在另一优选例中，在步骤(v)中，加入TFA、TIS和DCM的混合溶液，进行脱侧链tBu保护基处理，从而制得索马鲁肽。

在另一优选例中，在步骤(v)中，包括对制得的索玛鲁肽进行纯化的步骤。

在另一优选例中，所述Boc修饰的索玛鲁肽前体利用基因重组技术制备。

在另一优选例中，在步骤(A)中，从所述重组菌的发酵液中分离获得索玛鲁肽前体融合蛋白包涵体，对所述的包涵体进行变复性和酶切后，获得索玛鲁肽前体融合蛋白。

在另一优选例中，在步骤(i)之前和之后，还包括纯化步骤，较佳地为反向层析。

在另一优选例中，所述的重组菌中包含或整合有表达索玛鲁肽前体融合蛋白的表达盒。

在另一优选例中，所述的方法如下：

在另一优选例中，所述方法包括步骤：

(i)提供本发明第一方面所述的索玛鲁肽前体融合蛋白，酶切获得化合物1，

(ii)将化合物1与Fmoc-H-Aib-E-G-T-F复合物连接，从而制得化合物2，

(iii)对所述的化合物2进行脱Boc处理，并将其与索玛鲁肽侧链进行反应，从而制得化合物4；和

(iv)对化合物4进行脱Fmoc处理，从而制得化合物5；

(v)对化合物5进行侧链脱tBu处理，从而制得化合物6所示的索玛鲁肽。

在另一优选例中，所述的方法如下：

在另一优选例中，所述方法包括步骤：

(i)提供本发明第一方面所述的索玛鲁肽前体融合蛋白，酶切获得化合物7，

(ii)将化合物7与Fmoc-H-Aib-E-G-T复合物连接，从而制得化合物2，

(iv)对化合物4进行脱Fmoc处理，从而制得化合物5；

在另一优选例中，所述的方法如下：

在另一优选例中，所述方法包括步骤：

(i)提供本发明第一方面所述的索玛鲁肽前体融合蛋白，酶切获得化合物8，

(ii)将化合物8与Fmoc-H-Aib-E-G复合物连接，从而制得化合物2，

(iv)对化合物4进行脱Fmoc处理，从而制得化合物5；

本发明的第六方面，提供了一种分离的多核苷酸，所述多核苷酸编码本发明第一方面所述的索玛鲁肽前体融合蛋白、本发明第二方面所述的Fmoc和Boc修饰的索玛鲁肽主链、本发明第三方面所述的Boc修饰的索玛鲁肽前体或本发明第四方面所述的Fmoc修饰的索玛鲁肽主链。

本发明的第七方面，提供了一种载体，所述载体包括本发明第六方面所述的多核苷酸。

在另一优选例中，所述的载体选自下组：DNA、RNA、质粒、慢病毒载体、腺病毒载体、逆转录病毒载体、转座子、或其组合。

本发明的第八方面，提供了一种宿主细胞，所述的宿主细胞含有本发明第七方面所述的载体、或染色体中整合有外源的本发明第六方面所述的多核苷酸。

在另一优选例中，所述的宿主细胞为大肠杆菌、枯草芽孢杆菌、酵母细胞、昆虫细胞、哺乳动物细胞或其组合。

本发明的第九方面，提供了一种制剂，所述的制剂包含本发明第一方面所述的索玛鲁肽前体融合蛋白、本发明第二方面所述的Fmoc和Boc修饰的索玛鲁肽主链、本发明第三方面所述的Boc修饰的索玛鲁肽前体或本发明第四方面所述的 Fmoc修饰的索玛鲁肽主链。

本发明的第十方面，提供了一种索玛鲁肽制剂，所述的索玛鲁肽制剂使用本发明第五方面所述的方法制备。

附图说明

图1显示了质粒pBAD-FP-TEV-EK-GLP-1(16)图谱。

图2显示了质粒pEvol-pylRs-pylT图谱。

图3显示了Boc-索玛鲁肽前体融合蛋白的SDS-PAGE电泳图。

图4显示了Boc-索玛鲁肽前体的HPLC检测图谱。

具体实施方式

本发明人经过广泛而深入地研究，发现了一种新的制备索玛鲁肽产品的方法。具体地，所述方法利用Fmoc正交保护法进行索玛鲁肽的制备过程中侧链加成步骤，并优化了制备过程中的纯化和合成的条件。本发明的方法不需要昂贵的固相合成仪器，缩短了生产周期，生产工艺简单，提高了产品纯度和收率。

索玛鲁肽

索玛鲁肽由诺和诺德公司研制，英文名Semaglutide，CAS号：204656-20 -2，是一种人胰高血糖素样肽-1(GLP-1)类似物，序列为：H-His1-Aib2-Glu3-Gl y4-Thr5-Phe6-Thr7-Ser8-Asp9-Val10-Ser11-Ser12-Tyr13-Leu14-Glu15-Gly16-Gln 17-Ala18-Ala19-Lys20(PEG2-PEG2-γ-Glu-Octadecanedioic acid)-Glu21-Phe22 -Ile23-Ala24-Trp25-Leu26-Val27-Arg28-Gly29-Arg30-Gly31-OH。与人的天然GL P-1的序列同源性达97％。

索玛鲁肽是由Novo Nordisk开发的一种降糖药物，该产品能显著降低2型糖尿病患者的糖化血红蛋白(HbA1c)水平及减轻体重，同时大大降低低血糖的风险。Semeglutide是通过对GLP-1(7-37)进行修饰和改造获得。与Liraglutide相比，Semeglutide的脂肪链更长，疏水性增加，但是Semeglutide经过短链的PEG 修饰，亲水性大大增强。PEG修饰后不但可以与白蛋白紧密结合，掩盖DPP-4 酶水解位点，还能降低肾排泄，可延长生物半衰期，达到长循环的效果。能够显著降低2型糖尿病患者空腹或者餐后的血糖而达到调节体内血糖水平，同时能够降低患者体重和降低心血管疾病患者的死亡风险。

融合蛋白

利用绿色荧光蛋白折叠单元，本发明构建了索玛鲁肽前体融合蛋白，如本发明第一方面所述。

本发明的融合蛋白中包含的绿色荧光蛋白折叠单元FP包含2-6个，较佳地2-3 个选自下组的β-折叠单元：

在另一优选例中，所述的绿色荧光蛋白折叠单元FP可以选自：u8、u9、 u2-u3、u4-u5、u8-u9、u1-u2-u3、u2-u3-u4、u3-u4-u5、u5-u6-u7、u8-u9-u10、 u9-u10-u11、u3-u5-u7、u3-u4-u6、u4-u7-u10、u6-u8-u10、u1-u2-u3-u4、u2-u3-u4-u5、 u3-u4-u3-u4、u3-u5-u7-u9、u5-u6-u7-u8、u1-u3-u7-u9、u2-u2-u7-u8、u7-u2-u5-u11、 u3-u4-u7-u10、u1-I-u2、u1-I-u5、u2-I-u4、u3-I-u8、u5-I-u6、或u10-I-u11。

在另一优选例中，所述的绿色荧光蛋白折叠单元为u3-u4-u5或u4-u5-u6。

如本文所用，术语“融合蛋白”还包括具有上述活性的变异形式。这些变异形式包括(但并不限于)：1-3个(通常为1-2个，更佳地1个)氨基酸的缺失、插入和/或取代，以及在C末端和/或N末端添加或缺失一个或数个(通常为3个以内，较佳地为2个以内，更佳地为1个以内)氨基酸。例如，在本领域中，用性能相近或相似的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末端和/或N末端添加或缺失一个或数个氨基酸通常也不会改变蛋白质的结构和功能。此外，所述术语还包括单体和多聚体形式的本发明多肽。该术语还包括线性以及非线性的多肽(如环肽)。

本发明还包括上述融合蛋白的活性片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持本发明融合蛋白的功能或活性的多肽。本发明的多肽片段、衍生物或类似物可以是(i)有一个或几个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的多肽，或(ii)在一个或多个氨基酸残基中具有取代基团的多肽，或(iii)多肽与另一个化合物(比如延长多肽半衰期的化合物，例如聚乙二醇)融合所形成的多肽，或(iv)附加的氨基酸序列融合于此多肽序列而形成的多肽(与前导序列、分泌序列或6His等标签序列融合而形成的融合蛋白)。根据本文的教导，这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。

一类优选的活性衍生物指与本发明的氨基酸序列相比，有至多3个，较佳地至多2个，更佳地至多1个氨基酸被性质相似或相近的氨基酸所替换而形成多肽。这些保守性变异多肽最好根据表A进行氨基酸替换而产生。

表A

最初的残基	代表性的取代	优选的取代
			Ala(A)	Val；Leu；Ile	Val
Arg(R)	Lys；Gln；Asn	Lys
			Asn(N)	Gln；His；Lys；Arg	Gln
Asp(D)	Glu	Glu
			Cys(C)	Ser	Ser
Gln(Q)	Asn	Asn
			Glu(E)	Asp	Asp
Gly(G)	Pro；Ala	Ala
			His(H)	Asn；Gln；Lys；Arg	Arg
Ile(I)	Leu；Val；Met；Ala；Phe	Leu
			Leu(L)	Ile；Val；Met；Ala；Phe	Ile
Lys(K)	Arg；Gln；Asn	Arg
			Met(M)	Leu；Phe；Ile	Leu
Phe(F)	Leu；Val；Ile；Ala；Tyr	Leu
			Pro(P)	Ala	Ala
Ser(S)	Thr	Thr
			Thr(T)	Ser	Ser
Trp(W)	Tyr；Phe	Tyr
			Tyr(Y)	Trp；Phe；Thr；Ser	Phe
Val(V)	Ile；Leu；Met；Phe；Ala	Leu

本发明还提供本发明融合蛋白的类似物。这些类似物与本发明的多肽的差别可以是氨基酸序列上的差异，也可以是不影响序列的修饰形式上的差异，或者兼而有之。类似物还包括具有不同于天然L-氨基酸的残基(如D-氨基酸)的类似物，以及具有非天然存在的或合成的氨基酸(如β、γ-氨基酸)的类似物。应理解，本发明的多肽并不限于上述例举的代表性的多肽。

此外，还可以对本发明融合蛋白进行修饰。修饰(通常不改变一级结构)形式包括：体内或体外的多肽的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化，如那些在多肽的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的多肽。这种修饰可以通过将多肽暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸，磷酸丝氨酸，磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的多肽。

术语“编码本发明融合蛋白的多核苷酸”可以是包括编码本发明融合蛋白的多核苷酸，也可以是还包括附加编码和/或非编码序列的多核苷酸。

本发明还涉及上述多核苷酸的变异体，其编码与本发明有相同的氨基酸序列的多肽或融合蛋白的片段、类似物和衍生物。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的，等位变异体是一个多核苷酸的替换形式，它可能是一个或多个核苷酸的取代、缺失或插入，但不会从实质上改变其编码的融合蛋白的功能。

本发明还涉及与上述的序列杂交且两个序列之间具有至少50％，较佳地至少70％，更佳地至少80％相同性的多核苷酸。本发明特别涉及在严格条件(或严紧条件)下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中，“严格条件” 是指：(1)在较低离子强度和较高温度下的杂交和洗脱，如0.2×SSC，0.1％SDS， 60℃；或(2)杂交时加有变性剂，如50％(v/v)甲酰胺，0.1％小牛血清/0.1％Ficoll， 42℃等；或(3)仅在两条序列之间的相同性至少在90％以上，更好是95％以上时才发生杂交。

本发明的融合蛋白和多核苷酸优选以分离的形式提供，更佳地，被纯化至均质。

本发明多核苷酸全长序列通常可以通过PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。通常，通过先合成多个小片段，然后再进行连接可获得序列很长的片段。

目前，已经可以完全通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的 DNA分子(或如载体)和细胞中。

应用PCR技术扩增DNA/RNA的方法被优选用于获得本发明的多核苷酸。特别是很难从文库中得到全长的cDNA时，可优选使用RACE法(RACE-cDNA末端快速扩增法)，用于PCR的引物可根据本文所公开的本发明的序列信息适当地选择，并可用常规方法合成。可用常规方法如通过凝胶电泳分离和纯化扩增的 DNA/RNA片段。

表达载体

本发明也涉及包含本发明的多核苷酸的载体，以及用本发明的载体或本发明融合蛋白编码序列经基因工程产生的宿主细胞，以及经重组技术产生本发明所述多肽的方法。

通过常规的重组DNA技术，可利用本发明的多聚核苷酸序列可用来表达或生产重组的融合蛋白。一般来说有以下步骤：

(1).用本发明的编码本发明融合蛋白的多核苷酸(或变异体)，或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞；

(2).在合适的培养基中培养的宿主细胞；

(3).从培养基或细胞中分离、纯化蛋白质。

本发明中，编码融合蛋白的多核苷酸序列可插入到重组表达载体中。术语 “重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒如腺病毒、逆转录病毒或其他载体。只要能在宿主体内复制和稳定，任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。

本领域的技术人员熟知的方法能用于构建含本发明融合蛋白编码DNA序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、 DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上，以指导mRNA合成。这些启动子的代表性例子有：大肠杆菌的 lac或trp启动子；λ噬菌体PL启动子；真核启动子包括CMV立即早期启动子、 HSV胸苷激酶启动子、早期和晚期SV40启动子、反转录病毒的LTRs和其他一些已知的可控制基因在原核或真核细胞或其病毒中表达的启动子。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。

此外，表达载体优选地包含一个或多个选择性标记基因，以提供用于选择转化的宿主细胞的表型性状，如真核细胞培养用的二氢叶酸还原酶、新霉素抗性以及绿色荧光蛋白(GFP)，或用于大肠杆菌的四环素或氨苄青霉素抗性。

包含上述的适当DNA序列以及适当启动子或者控制序列的载体，可以用于转化适当的宿主细胞，以使其能够表达蛋白质。

宿主细胞可以是原核细胞，如细菌细胞；或是低等真核细胞，如酵母细胞；或是高等真核细胞，如哺乳动物细胞。代表性例子有：大肠杆菌，链霉菌属；鼠伤寒沙门氏菌的细菌细胞；真菌细胞如酵母、植物细胞(如人参细胞)。

本发明的多核苷酸在高等真核细胞中表达时，如果在载体中插入增强子序列时将会使转录得到增强。增强子是DNA的顺式作用因子，通常大约有10到300 个碱基对，作用于启动子以增强基因的转录。可举的例子包括在复制起始点晚期一侧的100到270个碱基对的SV40增强子、在复制起始点晚期一侧的多瘤增强子以及腺病毒增强子等。

本领域一般技术人员都清楚如何选择适当的载体、启动子、增强子和宿主细胞。

用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物如大肠杆菌时，能吸收DNA的感受态细胞可在指数生长期后收获，用CaCl₂法处理，所用的步骤在本领域众所周知。另一种方法是使用MgCl₂。如果需要，转化也可用电穿孔的方法进行。当宿主是真核生物，可选用如下的 DNA转染方法：磷酸钙共沉淀法，常规机械方法如显微注射、电穿孔、脂质体包装等。

获得的转化子可以用常规方法培养，表达本发明的基因所编码的多肽。根据所用的宿主细胞，培养中所用的培养基可选自各种常规培养基。在适于宿主细胞生长的条件下进行培养。当宿主细胞生长到适当的细胞密度后，用合适的方法(如温度转换或化学诱导)诱导选择的启动子，将细胞再培养一段时间。

在上面的方法中的重组多肽可在细胞内、或在细胞膜上表达、或分泌到细胞外。如果需要，可利用其物理的、化学的和其它特性通过各种分离方法分离和纯化重组的蛋白。这些方法是本领域技术人员所熟知的。这些方法的例子包括但并不限于：常规的复性处理、用蛋白沉淀剂处理(盐析方法)、离心、渗透破菌、超处理、超离心、分子筛层析(凝胶过滤)、吸附层析、离子交换层析、高效液相层析(HPLC)和其它各种液相层析技术及这些方法的结合。

索玛鲁肽表达载体的构建

合成带有目的基因的FP-TEV-EK-GLP1(14、15或16位)片段，片段两端具有限制性内切酶Nco Ⅰ和Xho Ⅰ的识别位点。该序列进行了密码子优化，可以实现功能蛋白在大肠杆菌中的高水平表达。表达后使用限制性内切酶Nco Ⅰ和 Xho Ⅰ酶切表达载体“pBAD/His A(Kana^R)”和含有“FP-TEV-EK-GLP1(14、15 或16位)”目的基因的质粒，酶切产物通过琼脂糖电泳进行分离，再使用琼脂糖凝胶DNA回收试剂盒进行提取，最后使用T4 DNA连接酶将两个DNA片段连接起来。将所述连接产物以化学法转化至大肠杆菌Top10细胞，将所述转化的细胞培养在含有50μg/mL卡那霉素的LB琼脂培养基(10g/L酵母蛋白胨，5g/L 酵母浸粉，10g/L NaCl，1.5％琼脂)上过夜。挑取3个活菌落，在5mL含有50μg/mL 卡那霉素的液体LB培养基(10g/L酵母蛋白胨，5g/L酵母浸粉，10g/L NaCl)中过夜培养，使用质粒小量提取试剂盒进行质粒提取。然后，将所述提取的质粒使用测序寡核苷酸引物5’-ATGCCATAGCATTTTTATCC-3’(SEQ ID NO:15)进行测序，以确认正确插入。最终得到的质粒被命名为“pBAD-FP-TEV-EK-GLP1 (14、15或16位)”。

Fmoc修饰

在生物医药领域中，多肽的用途越来越大，氨基酸是合成多肽技术的基本原料，氨基酸都含有α-氨基和羧基，有些还含有侧链活泼基团，如：羟基、氨基、胍基和杂环等，因此，氨基和侧链活泼基团在接肽反应中都需要保护起来，合成多肽后再脱去保护基团，否者会发生氨基酸的错接和许多副反应。

芴甲氧羰基(Fmoc)为碱敏感保护基，能在浓氨水或二氧六环-甲醇-4N Na OH(30：9：1)以及哌啶、乙醇胺、环己胺、1,4-二氧六环、吡咯烷酮等氨类的50％二氯甲烷溶液中脱去。

在碳酸钠或碳酸氢钠等弱碱性条件下，一般用Fmoc-Cl或Fmoc-OSu引入 Fmoc保护基。相对Fmoc-Cl来说，Fmoc-OSu更容易控制反应条件，且副反应较少。

Fmoc具有很强的紫外吸收，最大吸收波长为267nm(ε18950)， 290nm(ε5280)，301nm(ε6200)，因此可用紫外吸收来检测，给仪器自动多肽合成带来许多方便。再者可与大范围的溶剂、试剂相兼容，机械稳定性高，可用多种载体和多种活化方式等。因此当今多肽合成中最常用的就是Fmoc保护基团。

Fmoc-OSu(芴甲氧羰酰琥珀酰亚胺)

索玛鲁肽侧链

tBuO-Ste-Glu(AEEA-AEEA-OSu)-OtBu为索玛鲁肽侧链。

索玛鲁肽的制备，是先利用基因重组技术得到14、15或16位为Boc保护赖氨酸的索玛鲁肽前体，再连接索玛鲁肽侧链 tBuO-Ste-Glu(AEEA-AEEA-OSu)-OtBu，从而得到索玛鲁肽。

索玛鲁肽的的制备

本发明的提供了索玛鲁肽合成路线有三种，分别如下式A、式B或式C所示，从Boc-索玛鲁肽前体(化合物1、7或8)制备Fmoc复合物修饰的化合物2，化合物2脱 Boc保护后得化合物3，化合物3与活化的索玛鲁肽侧链 tBuO-Ste-Glu(AEEA-AEEA-OSu)-OtBu反应，得到化合物4，再经脱去Fmoc反应得到化合物5，侧链脱除tBu保护基，最后得到索玛鲁肽化合物6。

具体地，本发明提供一种制备索玛鲁肽的方法，所述方法包括步骤：

(i)提供一Boc修饰的索玛鲁肽前体；

(ii)对所述的Boc修饰的索玛鲁肽前体进行Fmoc化合物的修饰，从而制得Fmoc 和Boc修饰的索玛鲁肽主链；

(iv)对所述的Fmoc修饰的索玛鲁肽进行脱Fmoc与侧链脱tBu处理，从而制得索玛鲁肽。

本发明的主要优点包括：

(1)本发明直接利用生物合成的方式生产Boc修饰的索玛鲁肽前体，不需要采用稀释、超滤换液等方法去除发酵液上清中过量的无机盐。在本发明的方法中，使用层析柱分离Boc-索玛鲁肽前体，一步收率在70％以上，比常规方法高3 倍，Boc-索玛鲁肽前体的产量约800-1000mg/L。并且，本发明的方法能除去绝大部分色素，缩减原来的多步工艺降低了工艺时间和设备投资成本；

(2)由于20位Boc-赖氨酸的保护，本发明可以直接利用与Fmoc保护的正交反应，合成索玛鲁肽。

(3)本发明的方法合成的索玛鲁肽无N端脂肪酸酰化的杂质，利于下游纯化，降低成本。

(4)与固相合成相比，本发明的方法不会产生消旋的杂质多肽，并且不需使用大量的修饰氨基酸，不使用大量的有机试剂，对环境污染小，成本更低；

(5)本发明的融合蛋白中包含索玛鲁肽主链的比重高(融合比增加)，融合蛋白中的绿色荧光蛋白包含精氨酸、赖氨酸，可以被蛋白酶消化成小片段，和目的蛋白相比分子量差别大，容易分离。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。

实施例1索玛鲁肽表达菌株的构建

索玛鲁肽表达质粒的构建参照专利申请号201910210102.9中实施例的记载。将融合蛋白FP-TEV-EK-GLP-1(14)、FP-TEV-EK-GLP-1(15)、或 FP-TEV-EK-GLP-1(16)的DNA片段，克隆至表达载体质粒pBAD/His A(购自 NTCC公司，卡那霉素抗性)的araBAD启动子下游NcoI-XhoI位点，得到质粒 pBAD-FP1-TEV-EK-GLP-1(14)、pBAD-FP2-TEV-EK-GLP-1(15)、或pBAD-FP2-TEV-EK-GLP-1(16)。质粒图谱如图1所示。

基于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:23所示的N端缺失6个、5 个或4个氨基酸的索玛鲁肽前体，构建了融合蛋白1(FP-TEV-EK-GLP-1(14))、融合蛋白2(FP-TEV-EK-GLP-1(15))和融合蛋白3(FP-TEV-EK-GLP-1(16))。

融合蛋白1的氨基酸序列如SEQ ID NO:4所示：

MVSKGEELFTGVKLTLKFICTTYVQERTISFKDTYKTRAEVKFEGD ENLYFQGDDDDKTSDVSSYLEGQAAKEFIAWLVRGRG

融合蛋白2的氨基酸序列如SEQ ID NO:5所示

MVSKGEELFTGVYVQERTISFKDTYKTRAEVKFEGDTLVNRIELKGIDF ENLYFQGDDDDKFTSDVSSYLEGQAAKEFIAWLVRGRG

融合蛋白3的氨基酸序列如SEQ ID NO:24所示

MVSKGEELFTGVYVQERTISFKDTYKTRAEVKFEGDTLVNRIELKGIDF ENLYFQGDDDDKTFTSDVSSYLEGQAAKEFIAWLVRGRG

并且，所述融合蛋白的C端第4位精氨酸可以为赖氨酸。

其中，前导肽序列为MVSKGEELFTGV(SEQ ID NO:7)

绿色荧光蛋白折叠单元(FP)的序列为

FP1:KLTLKFICTTYVQERTISFKDTYKTRAEVKFEGD(U3-U4-U5,SEQ ID NO:6)

FP2:YVQERTISFKDTYKTRAEVKFEGDTLVNRIELKGIDF(U4-U5-U6, SEQ ID NO:10)

TEV酶酶切位点为ENLYFQG(SEQ ID NO:8)；

肠激酶酶切位点为DDDDK(SEQ ID NO:9)

N端缺失2-7个氨基酸的索玛鲁肽前体如SEQ ID NO:1或SEQ ID NO:2所示。

SEQ ID NO:1：TSDVSSYLEGQAAKEFIAWLVRGRG

SEQ ID NO:2：FTSDVSSYLEGQAAKEFIAWLVRGRG

SEQ ID NO:23：TFTSDVSSYLEGQAAKEFIAWLVRGRG

(K为Boc修饰的赖氨酸，所述前体的C端第4位精氨酸可以为赖氨酸)

再将pylRs的DNA序列，克隆至表达载体质粒pEvol-pBpF(购自NTCC公司，氯霉素抗性)的araBAD启动子下游SpeI-SalI位点，同时在proK启动子下游，以 PCR方法插入赖氨酰-tRNA合成酶的tRNA(pylTcua)的DNA序列。该质粒命名为 pEvol-pylRs-pylT。质粒图谱如图2所示。

将构建的质粒pBAD-FP1-TEV-EK-GLP-1(16)和pEvol-pylRs-pylT共同转化至大肠杆菌TOP10菌株，筛选获得表达索玛鲁肽前体融合蛋白 FP-TEV-EK-GLP-1(16)的重组菌株。

实施例2Boc-索玛鲁肽前体的表达

将实施例1制备的重组大肠杆菌种子液，按5％的接种量分别接种到发酵培养基中，37℃，pH7.0，分批培养至pH上升至7.05，进行碳氮源分开补料，根据恒pH法进行碳氮源流加。补料后自动流加7.5M氨水，pH控制在7.0-7.2。培养 4-6小时，加入L-阿拉伯糖进行诱导，持续诱导14±2h。获得包含索玛鲁肽前体融合蛋白的发酵液。

实施例3Boc-索玛鲁肽前体包涵体的制备

将实施例2所发酵液离心后，将湿菌体按1：1体积与破菌缓冲液混合，悬浮3h，接着使用高压均质机破菌，破菌后离心收集包涵体，利用缓冲液对其进行清洗，清洗后称重，得到融合蛋白的包涵体约40-43g/L。

SDS-PAGE电泳结果如图3所示。

实施例4Boc-索玛鲁肽前体包涵体的变复性及酶切

向实施例3所得包涵体中以重量体积比1:15的比例加入8mol/L尿素溶解缓冲液，室温搅拌溶解，Bradford法测定蛋白浓度，控制包涵体溶解液的总蛋白浓度在20mg/ml左右，NaOH调节pH 9.0±1.0。将包涵体溶解液滴加至复性缓冲液中，使包涵体溶解液稀释5-10倍复性，维持融合蛋白复性液pH值在9.0-10.0，温度控制在4-8℃，复性时间为10-20h。

结果显示，溶解后，融合蛋白占比约为31％。

实施例5Boc-索玛鲁肽融合蛋白的初步纯化

取实施例4得到的融合蛋白复性液，经0.45μm的滤膜过滤，去除未溶解的物质；根据蛋白质等电点的差异，采用阴离子交换柱对融合蛋白进行初步纯化。

实验结果显示，阴离子交换层析后Boc-索玛鲁肽前体融合蛋白的纯度均达到65％以上，载量约18mg/mL，收率大于80％。

实施例6Boc-索玛鲁肽前体融合蛋白的酶切

将实施例5初步纯化的Boc-索玛鲁肽前体融合蛋白除盐，调节pH值为 7.5-8.5，控制温度为18-25℃，加入肠激酶酶切，酶切时间为8-24h，获得Boc- 索玛鲁肽前体，Boc-索玛鲁肽前体约1.0g/L，酶切效率≥95％。

实施例7Boc-索玛鲁肽前体的反相层析

根据多肽和蛋白质的疏水性差异，采用反相层析对Boc-索玛鲁肽前体进行纯化，除去绝大多数杂蛋白。

向实施例6获得的Boc-索玛鲁肽前体的酶切溶液，加入稀盐酸，调节pH值至2.0-3.0，用0.45μm过滤膜过滤澄清后，加入适量乙腈，进行反相层析分离纯化。

以含有三氟乙酸的水溶液作为流动相A；以含有三氟乙酸的乙腈溶液作为流动相B。Boc-索玛鲁肽前体与填料结合，控制Boc-索玛鲁肽前体上样量不高于10mg/mL，梯度洗脱，收集Boc-索玛鲁肽前体。实验结果显示，反相层析收集的Boc-索玛鲁肽前体纯度≥90％，收率大于80％，纯化后Boc-索玛鲁肽前体的 HPLC检测图谱见图4。

实施例8利用Boc-索玛鲁肽前体制备索玛鲁肽(Fmoc-H-Aib-E-G，线路1)

取实施例7得到的Boc-索玛鲁肽前体(化合物8，本投料以30mg为例)，按照表1的摩尔比加入Fmoc-H-Aib-E-G、DIPEA及DMF，反应8-12小时，制得Fmoc 和Boc保护的索玛鲁肽主链。向反应溶液中加入甲叔醚和石油醚的混合溶液，沉淀离心，用甲叔醚洗涤沉淀2-3次进行粗纯化，获得Fmoc和Boc保护的化合物 2：Fmoc-GLP-1(Lys²⁰Boc)。

表1投料的摩尔比

	Boc-索玛鲁肽前体	Fmoc-H-Aib-E-G	DIPEA	DMF
					当量或体积	1.0eq	2.5eq	12eq	1V

取粗纯化后的化合物2，加入TFA溶液，低温搅拌0.5-2.0h，向反应液中加入15-20倍体积的甲基叔丁醚和石油醚混合液，沉淀离心，用混合液洗涤沉淀2～ 3次，最终获得脱除Boc的固体化合物3：Fmoc-GLP-1(Lys²⁰NH₂)。

取Boc脱除后的化合物3，加入DMF及12eq的DIPEA，室温温和搅拌5min。将2.5eq的tBuO-Ste-Glu(AEEA-AEEA-OSu)-OtBu溶解于DMF溶液，并加入到所得混合物中，将反应混合物在室温下温和摇动2-3小时。向反应体系中加入15-20 倍于反应体系体积的甲基叔丁醚和石油醚的混合溶液，沉淀离心，固体用混合溶液洗涤2-3次，真空干燥，获得化合物4：Fmoc-GLP-1-(tBuO-Ste- Glu(AEEA-AEEA)-OtBu)(20)。

取化合物4，加入含有20％哌啶的DMF溶液，室温反应0.5-2.0h小时。接着反应体系中内加入甲叔醚和石油醚混合溶剂，沉淀离心，固体用甲叔醚和石油醚混合溶剂洗涤3-5次，得到脱除Fmoc后的化合物5：Fmoc- GLP-1-(tBuO-Ste-Glu(AEEA-AEEA)-OtBu)(20)。

取化合物5，加入TFA(三氟乙酸)、TIS(三异丙基硅烷)及DCM(二氯甲烷) 的混合溶液，室温震荡反应2-4小时脱除侧链tBu保护基，在反应体系内加入 10-20倍体积的甲叔丁醚和石油醚混合溶剂，沉淀离心，固体用甲叔醚和石油醚混合溶剂洗涤3次，得到终产物。HPLC纯化后，得到纯度大于98％索玛鲁肽。

对比例

采用实施例1-3类似的方法进行融合蛋白表达菌株的构建及表达，其区别仅在于用于表达的融合蛋白的氨基酸序列如SEQ ID NO:22所示。

MKKLLFAIPLVVPFYSHSTMELEICSWYHMGIRSFLEQKLISEEDLNSAV DDDDDKTFTSDVSSYLEGQAAKEFIAWLVRGRG(SEQ ID NO:22)

上述融合蛋白中，包含gⅢ信号肽。结果显示，包涵体的得率约为29g湿重包涵体。

上述结果表明，与常规结构融合蛋白的表达相比，本发明的融合蛋白表达量显著提高。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 宁波鲲鹏生物科技有限公司

<120> 一种索玛鲁肽衍生物及其制备方法

<130> P2020-1293

<160> 24

<170> SIPOSequenceListing 1.0

<210> 1

<211> 25

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 1

Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly Gln Ala Ala Lys Glu Phe

1 5 10 15

Ile Ala Trp Leu Val Arg Gly Arg Gly

20 25

<210> 2

<211> 26

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 2

Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly Gln Ala Ala Lys Glu

1 5 10 15

Phe Ile Ala Trp Leu Val Arg Gly Arg Gly

20 25

<210> 3

<211> 31

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 3

His Xaa Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly

1 5 10 15

Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Arg Gly Arg Gly

20 25 30

<210> 4

<211> 83

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 4

Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Lys Leu Thr Leu

1 5 10 15

Lys Phe Ile Cys Thr Thr Tyr Val Gln Glu Arg Thr Ile Ser Phe Lys

20 25 30

Asp Thr Tyr Lys Thr Arg Ala Glu Val Lys Phe Glu Gly Asp Glu Asn

35 40 45

Leu Tyr Phe Gln Gly Asp Asp Asp Asp Lys Thr Ser Asp Val Ser Ser

50 55 60

Tyr Leu Glu Gly Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Arg

65 70 75 80

Gly Arg Gly

<210> 5

<211> 87

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 5

Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Tyr Val Gln Glu

1 5 10 15

Arg Thr Ile Ser Phe Lys Asp Thr Tyr Lys Thr Arg Ala Glu Val Lys

20 25 30

Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile Asp

35 40 45

Phe Glu Asn Leu Tyr Phe Gln Gly Asp Asp Asp Asp Lys Phe Thr Ser

50 55 60

Asp Val Ser Ser Tyr Leu Glu Gly Gln Ala Ala Lys Glu Phe Ile Ala

65 70 75 80

Trp Leu Val Arg Gly Arg Gly

85

<210> 6

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 6

Lys Leu Thr Leu Lys Phe Ile Cys Thr Thr Tyr Val Gln Glu Arg Thr

1 5 10 15

Ile Ser Phe Lys Asp Thr Tyr Lys Thr Arg Ala Glu Val Lys Phe Glu

20 25 30

Gly Asp

<210> 7

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 7

Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val

1 5 10

<210> 8

<211> 7

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 8

Glu Asn Leu Tyr Phe Gln Gly

1 5

<210> 9

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 9

Asp Asp Asp Asp Lys

1 5

<210> 10

<211> 37

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 10

Tyr Val Gln Glu Arg Thr Ile Ser Phe Lys Asp Thr Tyr Lys Thr Arg

1 5 10 15

Ala Glu Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu

20 25 30

Lys Gly Ile Asp Phe

35

<210> 11

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 11

Val Pro Ile Leu Val Glu Leu Asp Gly Asp Val Asn Gly

1 5 10

<210> 12

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 12

His Lys Phe Ser Val Arg Gly Glu Gly Glu Gly Asp Ala Thr

1 5 10

<210> 13

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 13

Lys Leu Thr Leu Lys Phe Ile Cys Thr Thr

1 5 10

<210> 14

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 14

Tyr Val Gln Glu Arg Thr Ile Ser Phe Lys Asp

1 5 10

<210> 15

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 15

Thr Tyr Lys Thr Arg Ala Glu Val Lys Phe Glu Gly Asp

1 5 10

<210> 16

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 16

Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile Asp Phe

1 5 10

<210> 17

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 17

His Asn Val Tyr Ile Thr Ala Asp Lys Gln

1 5 10

<210> 18

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 18

Gly Ile Lys Ala Asn Phe Lys Ile Arg His Asn Val Glu Asp

1 5 10

<210> 19

<211> 14

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 19

Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly

1 5 10

<210> 20

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 20

His Tyr Leu Ser Thr Gln Ser Val Leu Ser Lys Asp

1 5 10

<210> 21

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 21

His Met Val Leu Leu Glu Phe Val Thr Ala Ala Gly Ile

1 5 10

<210> 22

<211> 83

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 22

Met Lys Lys Leu Leu Phe Ala Ile Pro Leu Val Val Pro Phe Tyr Ser

1 5 10 15

His Ser Thr Met Glu Leu Glu Ile Cys Ser Trp Tyr His Met Gly Ile

20 25 30

Arg Ser Phe Leu Glu Gln Lys Leu Ile Ser Glu Glu Asp Leu Asn Ser

35 40 45

Ala Val Asp Asp Asp Asp Asp Lys Thr Phe Thr Ser Asp Val Ser Ser

50 55 60

Tyr Leu Glu Gly Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Arg

65 70 75 80

Gly Arg Gly

<210> 23

<211> 27

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 23

Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly Gln Ala Ala Lys

1 5 10 15

Glu Phe Ile Ala Trp Leu Val Arg Gly Arg Gly

20 25

<210> 24

<211> 88

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 24

Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Tyr Val Gln Glu

1 5 10 15

Arg Thr Ile Ser Phe Lys Asp Thr Tyr Lys Thr Arg Ala Glu Val Lys

20 25 30

Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile Asp

35 40 45

Phe Glu Asn Leu Tyr Phe Gln Gly Asp Asp Asp Asp Lys Thr Phe Thr

50 55 60

Ser Asp Val Ser Ser Tyr Leu Glu Gly Gln Ala Ala Lys Glu Phe Ile

65 70 75 80

Ala Trp Leu Val Arg Gly Arg Gly

85

Claims

1.一种索玛鲁肽前体融合蛋白，其特征在于，所述的索玛鲁肽融合蛋白从N端到C端具有式I所示的结构：

A-FP-TEV-EK-G (I)

式中，

“-”代表肽键；

A为无或前导肽序列，

FP为绿色荧光蛋白折叠单元；

G为索玛鲁肽前体或其片段；

β-折叠单元氨基酸序列 u1 VPILVELDGDVNG(SEQ ID NO:11) u2 HKFSVRGEGEGDAT(SEQ ID NO:12) u3 KLTLKFICTT(SEQ ID NO:13) u4 YVQERTISFKD(SEQ ID NO:14) u5 TYKTRAEVKFEGD(SEQ ID NO:15) u6 TLVNRIELKGIDF(SEQ ID NO:16) u7 HNVYITADKQ(SEQ ID NO:17) u8 GIKANFKIRHNVED(SEQ ID NO:18) u9 VQLADHYQQNTPIG(SEQ ID NO:19) u10 HYLSTQSVLSKD(SEQ ID NO:20) u11 HMVLLEFVTAAGI(SEQ ID NO:21)。

2.如权利要求1所述的融合蛋白，其特征在于，所述的绿色荧光蛋白折叠单元为u2-u3、u4-u5、u1-u2-u3、u3-u4-u5或u4-u5-u6。

3.如权利要求1所述的融合蛋白，其特征在于，所述G为Boc修饰的索玛鲁肽前体，所述的索玛鲁肽前体包括：

第14位被Boc修饰的索玛鲁肽第一前体，所述第一前体的氨基酸序列如SEQ ID NO:1所示；

第15位被Boc修饰的索玛鲁肽第二前体，所述第二前体的氨基酸序列如SEQ ID NO:2所示；

或者，第16位被Boc修饰的索玛鲁肽第三前体，所述第三前体的氨基酸序列如SEQ IDNO:23所示。

4.如权利要求1所述的融合蛋白，其特征在于，所述融合蛋白的氨基酸序列如SEQ IDNO:4、5或24所示。

5.一种Fmoc和Boc修饰的索玛鲁肽主链，其特征在于，所述索玛鲁肽主链的第20位为保护赖氨酸，所述的保护赖氨酸为Nε-(叔丁氧羰基)-赖氨酸，并且，所述索玛鲁肽主链的N端为Fmoc修饰的组氨酸。

6.一种Boc修饰的索玛鲁肽前体，其特征在于，所述的索玛鲁肽前体包括：

7.一种Fmoc修饰的索玛鲁肽主链，其特征在于，所述索玛鲁肽主链的N端为Fmoc修饰的组氨酸，并且，所述的索玛鲁肽主链的氨基酸序列SEQ ID NO:3所示。

8.一种分离的多核苷酸，其特征在于，所述多核苷酸编码权利要求1所述的索玛鲁肽前体融合蛋白、权利要求5所述的Fmoc和Boc修饰的索玛鲁肽主链、权利要求6所述的Boc修饰的索玛鲁肽前体或权利要求7所述的Fmoc修饰的索玛鲁肽主链。

9.一种宿主细胞，其特征在于，所述的宿主细胞的染色体中整合有外源的权利要求8所述的多核苷酸、或表达权利要求1所述的索玛鲁肽前体融合蛋白、权利要求5所述的Fmoc和Boc修饰的索玛鲁肽主链、权利要求6所述的Boc修饰的索玛鲁肽前体或权利要求7所述的Fmoc修饰的索玛鲁肽主链。

10.一种制备索玛鲁肽的方法，其特征在于，所述方法包括步骤：(A)利用重组菌进行发酵，制备索玛鲁肽前体融合蛋白，(B)利用所述的索玛鲁肽前体融合蛋白，制备索玛鲁肽，其中，所述的索玛鲁肽前体融合蛋白如权利要求1所述。