CN117186210A

CN117186210A - 胶原域、胶原蛋白、重组胶原蛋白表达菌及应用

Info

Publication number: CN117186210A
Application number: CN202311135222.XA
Authority: CN
Inventors: 张萌; 张瑞雪; 许菲; 齐静静
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-08

Abstract

本发明公开了胶原域、胶原蛋白、重组胶原蛋白表达菌及应用，属于基因工程领域。本发明对人源胶原蛋白进行稳定性预测和序列设计，获得与天然人员胶原蛋白同源性高的胶原蛋白结构域，并在大肠杆菌中直接表达出带有三股螺旋结构的重组人源胶原蛋白。本发明设计的高热稳定性胶原蛋白片段均能正确折叠形成三股螺旋结构，而低热稳定性片段无法正确折叠，且设计的高热稳定性重组人源I型胶原蛋白可以自组装形成类似于天然I型胶原的周期性明暗条纹。本发明的胶原域、胶原蛋白还能够用于对有结构功能的仿生重组胶原蛋白的生物医学和组织工程领域，可用于组织培养、牙组织修复等。

Description

胶原域、胶原蛋白、重组胶原蛋白表达菌及应用

技术领域

本发明涉及胶原域、胶原蛋白、重组胶原蛋白表达菌及应用，具体涉及一种可在大肠杆菌中直接表达出带有三股螺旋结构的重组胶原蛋白的方法，并且重组表达的人源I型胶原蛋白能自组装成规则的仿生纤维，属于基因工程技术领域。

背景技术

胶原蛋白是人体中含量最丰富的结构蛋白，约占体内总蛋白质的30％左右，在骨骼、肌腱、软骨、皮肤等组织中广泛分布。胶原蛋白是由三条多肽链围绕中心轴形成右手三股螺旋结构，三股螺旋结构可以进一步组装形成高阶的胶原纤维，在生物体内发挥功能，因此胶原蛋白的三股螺旋结构是其发挥生物学功能的基础。I、II、III型胶原蛋白占人体胶原蛋白总量的80-90％，I型胶原蛋白是动物体内丰度最高的功能性蛋白，其自组装形成的胶原纤维，在透射电子显微镜下表征，重叠和间隙区域呈明暗相间的带状形貌，俗称D-周期。D-周期被认为是赋予胶原蛋白各种功能的关键结构元素，与组织的承重特性、骨骼的矿化以及组织发育过程中细胞分化和粘附的调节有关。II型胶原蛋白存在于肋骨、鼻子、喉部和气管的软骨中，可以控制关节相关疾病的症状，如骨关节炎等。III型胶原蛋白与I型一起在皮肤、韧带、血管和关节中起作用，与皮肤损伤修复过程和修复质量紧密相关。近年来随着生物工程智能制造的发展，对高性能仿生生物材料的需求也日益增加。而胶原蛋白材料由于其具有良好的生物相容性、低免疫原性等优势，在皮肤损伤治疗、血管支架工程、软骨、骨缺损修复、护肤、止血海绵和药物输送，包括涂层与医疗纳米粒子等方面有巨大的应用潜力。

目前胶原蛋白的主要来源是通过动物提取获取，但潜在的免疫原性，限制了其在生物医学材料领域的应用；也可通过化学合成来获得具有胶原特征序列的多肽链，但是成本高，且合成的多肽链受长度的限制，不适合大规模生产。通过基因工程手段将人源胶原蛋白的天然序列或者优化后的序列在微生物中表达以获得重组胶原蛋白越来越受到关注，成为研究的热点。这不仅可以解决传统提取方法存在的病毒隐患问题，也可以根据实际需求对序列进行改造，来增加胶原蛋白的亲水性，获得质量稳定、安全性高的样品。

微生物表达系统具有遗传背景清晰、便于遗传操作以及发酵周期短、表达量高等优点，广泛用于蛋白质的异源表达。然而由于目前微生物表达系统难以实现人源化的翻译后修饰，表达的人源胶原蛋白无法被修饰从而折叠形成三股螺旋结构，以及自组装形成高阶结构。此外，由于胶原蛋白结构的特殊性，目前对于胶原蛋白折叠的作用力研究尚不完全清晰，也使得人源胶原蛋白异源表达的序列设计缺乏足够的理论支撑，因此，重组表达人源胶原蛋白折叠形成三股螺旋结构、并进一步组装形成规则的胶原蛋白高阶结构的问题仍难以解决。

目前，已经有些报道显示能够通过大肠杆菌等微生物异源表达出人源胶原蛋白，但是存在如下至少一个问题：

(1)与天然胶原蛋白序列同源性低，序列为凭借经验的随机截取、改造并重复/拼接得到，有经圆二色谱验证的三螺旋结构。比如，文献《The self-assembly of a mini-fibril with axial periodicity from a designed collagen-mimetic triple helix》及《To achieve self-assembled collagen mimetic fibrils using designedpeptides》中报道的108个氨基酸的胶原域Col108是来源于人源I型胶原蛋白的胶原域中4个短序列片段的拼接，与天然序列的同源性仅为45.61％；CN115521373A公开了一种三螺旋重组人源化I型胶原蛋白、制备方法及其应用，所表达的重组人源化I型胶原蛋白具有三螺旋结构，并可自组装形成胶原纤维，上述专利的胶原域片段为上述文献中报道的Col108片段内部插入功能基序，与天然序列的同源性较低；学位论文《重组类人胶原蛋白的制备结构表征及性能分析》设计了38个氨基酸序列的重组类人胶原蛋白单片段并分别重复4或8次，利用大肠杆菌进行表达，所合成的类人胶原蛋白具有三股螺旋结构，但是对该单片段胶原蛋白序列进行序列搜索无法匹配到人源胶原蛋白；CN115819557A公开了一种三螺旋重组人源化Ⅱ型胶原蛋白、制备方法及应用，表达的重组人源化Ⅱ型胶原蛋白具有三螺旋结构，并可自组装形成胶原纤维，序列与人源胶原蛋白序列最长匹配连续7个氨基酸残基；以及CN115521372A，公开了一种三螺旋重组人源化III型胶原蛋白、制备方法及应用，与天然序列最长连续匹配9个氨基酸，对序列进行序列搜索均无法匹配到人源胶原蛋白。

(2)所表达胶原蛋白稳定性低，室温下无三螺旋结构。比如，文献《Recombinantexpression of hydroxylated human collagen in Escherichia coli》通过共表达拟态病毒的脯氨酰和赖氨酰羟化酶及人源III型胶原蛋白片段促进其折叠形成三股螺旋结构，但T_m值只有24.3℃，稳定性低的胶原蛋白在体内体外应用中容易失去三螺旋结构，从而无法发挥功能。

(3)所表达的胶原蛋白未经过标准化三螺旋表征，无法确定三螺旋结构。依据《重组人源化胶原蛋白原材料评价指导原则》以及Nature Protocols,2006:VOL.1,NO.6,2527等，文献《Selective expression of nonsecreted triple-helical and secretedsingle-chain recombinant collagen fragments in the yeast Pichia pastoris》在毕赤酵母中重组表达了人源III型胶原蛋白片段，以及其后续研究《Expression ofrecombinant human type I-III collagens in the yeast Pichia pastoris》在毕赤酵母中共表达脯氨酸羟化酶与人源I、II、III型胶原蛋白，但是均未对三股螺旋结构进行表征；《Production of human type I collagen in yeast reveals unexpected newinsights into the molecular assembly of collagen trimers》通过共表达鸡脯氨酸羟化酶及人源I型胶原蛋白促进其折叠形成三股螺旋结构，但文章仅通过197nm处的热变曲线测得T_m值为30℃，该波长下吸收峰往往与未折叠状态下的蛋白图谱类似，无法作为标准的胶原蛋白三螺旋表征方法，因此无法确定三螺旋结构；CN114276435A公开了一种重组人源Ⅲ型胶原蛋白及其应用，选取一段含有123个氨基酸序列区段，并将该区段序列中三肽序列定向替换，并对其进行重复，同时在-C末端连接特定序列，利用毕赤酵母进行表达，未进行三级螺旋结构表征；CN114774460A公开了酵母重组人源I型三螺旋胶原蛋白及其制备方法，选取人源I型胶原蛋白α1链序列与羟化酶共同表达，以及专利CN114480471A公开了酵母重组人源III型三螺旋胶原蛋白及其制备方法，选取人源III型胶原蛋白α1链序列与羟化酶共同表达；CN111087464B公开了一种具有功能结构的重组人源III型胶原蛋白及其表达方法，选取人源III型胶原蛋白部分序列片段，并与羟化酶共同表达；CN112851797B公开了一种重组人III型胶原蛋白及其制备方法和用途，对人III型胶原蛋白中具有与细胞结合能力的片段进行拼接片段，并与羟化酶共同表达；CN116555320A公开了一种重组人源Ⅲ型三螺旋胶原蛋白工程菌及其构建方法和应用，选取人源III型胶原蛋白α1链序列与羟化酶共同表达；CN116082494A公开了重组人源Ⅲ型胶原蛋白多肽、表达载体、表达菌株、及其构建方法，选取人源III型胶原蛋白序列中亲水性和稳定性较强的54个氨基酸的多肽片段在毕赤酵母中进行表达。上述七个专利均未对三股螺旋结构进行表征，是否能真的形成三股螺旋结构还未可知。

此外，在前期研究过程中，发明人团队的CN111333715B(一种类I型胶原蛋白纤维的制备方法)，公开了以N和C端(GPP)_n序列为基础，在中间插入连续的Gly-Xaa-Yaa三联体的胶原蛋白序列，形成具有周期性明暗相间条纹的带状纤维，以及CN111499729B(一种调控类I型胶原蛋白纤维条纹周期长度的方法)，以N和C端(PPG)_n序列为基础，在中间插入连续的具有不同数量Gly-Xaa-Yaa三联体的胶原蛋白序列，形成具有不同暗条纹长度的周期性明暗相间条纹的带状纤维，以上均未对人源胶原蛋白序列进行系统设计；发明人团队闫皓洁硕士论文《多重非共价作用力诱导的胶原多肽分级自组装》，通过选取人源I型胶原蛋白序列片段在大肠杆菌中进行表达，可以形成三股螺旋结构，但是未组装形成与天然人源胶原蛋白类似的纤维结构。

因此，有必要基于系统性热稳定性分析，开发与天然人源胶原蛋白同源性高的且能够实现外源表达三股螺旋结构的胶原蛋白的序列。

发明内容

为了解决上述重组人源胶原蛋白存在的至少一个问题，比如与天然人源胶原蛋白同源性较低、难以异源表达形成三股螺旋结构、或难以进一步自组装形成高阶结构等，本发明通过系统的热稳定性预测分析，截取人源Ι、II、III型胶原蛋白的胶原片段进行序列拼接和设计，得到了与天然胶原蛋白同源性高的胶原域(又称为胶原蛋白结构域或胶原蛋白域)；进一步地，在胶原域的两端引入重复序列模块(GPP)_n，将设计的胶原蛋白序列在大肠杆菌中表达，发现设计的高热稳定性胶原蛋白片段均能正确折叠形成三股螺旋结构，而低热稳定性片段无法正确折叠。此外，设计的高热稳定性重组人源I型胶原蛋白可以自组装形成类似于天然I型胶原的周期性明暗条纹。本发明开发了与天然人源胶原蛋白同源性高的可实现外源表达三股螺旋结构的胶原蛋白的序列，并实现了表达，能够满足生物医学和组织工程领域对有结构功能的重组胶原蛋白的需求。

本发明的第一个目的是提供编码胶原域的氨基酸序列，所述氨基酸序列具有：

(1)如SEQ ID NO.1～7所示的氨基酸序列，或者

(2)SEQ ID NO.1～3的任意两条序列组合得到的氨基酸序列，或者

(3)SEQ ID NO.1～7任一所示的序列进行2～3个重复得到的氨基酸序列。

在一种实施方式中，所述SEQ ID NO.1～7所示的氨基酸序列，是从天然Ι、II、III型人源胶原蛋白的胶原片段进行序列截取或者进一步序列拼接和设计得到的。

在一种实施方式中，所述SEQ ID NO.1～7所示的氨基酸序列，是通过对天然Ι、II、III型人源胶原蛋白进行热稳定性预测，选取高预测T_m值的序列进行截取或者拼接得到的。以所述氨基酸序列作为胶原域的胶原蛋白三螺旋结构的预测T_m值在38-39℃。

所述氨基酸序列作为胶原域的胶原蛋白三螺旋结构的预测T_m值，具体预测方法是：以三螺旋结构的第一个三联体单元(XYG)作为连续编号的起点，为每个XYG三联体计算平均相对稳定性，获得每个三联体的热稳定性值；然后取n个连续的三联体，计算这n个连续的三联体的热稳定性值的平均值，即为胶原域序列的热稳定性预测值；其中，单个三联体i的热稳定性值是指区间[i-5,i+5)的10个连续的三联体组成的窗口的热稳定性值；窗口的热稳定性值T_windows由窗口主链倾向性值T_bb和窗口侧链间相互作用值T_side决定，

本发明的第二个目的是提供一种用于表达胶原蛋白的蛋白单链，所述蛋白单链含有上述编码胶原域的氨基酸序列。

在一种实施方式中，所述蛋白单链的结构包括：折叠域、重复序列模块、胶原域。

在一种实施方式中，折叠域的引入是辅助胶原蛋白折叠形成三股螺旋结构。可选地，折叠域为V-domain，其氨基酸序列如SEQ ID NO.13；可选地，折叠域为coiled-coildomain，其氨基酸序列如SEQ ID NO.14。

在一种实施方式中，所述重复序列模块的引入可以辅助胶原三股螺旋的折叠和提高其热稳定性。可选地，重复序列模块有多个，位于胶原域的两端或者多个胶原域的两端；比如，表达II型胶原蛋白时，可以有多个胶原域，多个胶原域之间通过重复序列模块连接。可选地，重复序列模块的序列可以相同或者不同。

在一种实施方式中，所述重复序列模块采用(GPP)_n。可选地，当含有多个重复序列模块时，各重复序列模块(GPP)_n中n取值可以相同也可以不同。可选地，对重复序列模块(GPP)_n的n数量的调节，分子可以进一步组装形成纤维结构。可选地，对于可组装成纤维形貌的(GPP)_nCollagen(GPP)_n模式，两个n是相等的，(GPP)_n中n取值满足5＜n≤30，可以参考发明人团队前期研究中公开的CN 111333715 B中公开的n取值。可选地，对于II型和III型成三螺旋的(GPP)_nCollagen(GPP)_nCollagen(GPP)_n模式，三个n可以不相等。

在一种实施方式中，所述折叠域、重复序列模块之间通过酶切位点连接，比如LVPRGSP(序列如SEQ ID NO.21)连接。可选地，所述折叠域V-domain和重复序列模块(GPP)_n之间通过LVPRGS(序列如SEQ ID NO.22所示)连接。

在一种实施方式中，所述用于表达胶原蛋白的蛋白单链的结构，从N端到C端，依次包括：折叠域、酶切位点、{重复序列模块、胶原域}m、重复序列模块；其中m大于等于1。可选地，m为1或2。

在一种实施方式中，所述折叠域前端(N端)具有6×His标签。

在一种实施方式中，所述用于表达胶原蛋白的蛋白单链，结构如图10所示；或者结构如图11所示。

本发明的第三个目的是提供编码所述胶原域的核苷酸序列，或者编码所述用于表达胶原蛋白的蛋白单链的核苷酸序列，或者编码所述用于表达胶原蛋白的蛋白单链的基因，以及表达所述基因的质粒或细胞。

可选地，所述的质粒可以是pColdIII系列或pET系列的质粒。所述的细胞为大肠杆菌细胞，包括E.coli BL21、E.coli BL21(DE3)、E.coli Rosetta(DE3)、E.coli BL21(DE3)pLysS/pLysE或E.coli Origami2(DE3)等。

本发明的第四个目的是提供一种胶原蛋白，由三条上述的蛋白单链围绕一个共同的中心轴盘绕，构成三螺旋结构。

本发明的第五个目的是提供所述胶原蛋白高聚自组装形成的胶原蛋白纤维。

在一种实施方式中，所述胶原蛋白为I型胶原蛋白。可选地，所述胶原蛋白纤维具有周期性明暗相间条纹的纤维；可选地，所述胶原蛋白纤维在TEM下负染呈现亮条纹的形貌特征。

在一种实施方式中，所述胶原蛋白纤维可以通过(GPP)_n数量的调节获得；可选地，调控中重复序列模块为(GPP)₁₀，对应亮条纹的长度为10nm。

在一种实施方式中，在I型胶原蛋白胶原域区域引入本发明的胶原域的氨基酸序列，使胶原蛋白纤维中的暗条纹达到：(胶原域区域的氨基酸个数÷3×0.9)±1nm。

本发明的第六个目的是提供含有本发明的胶原蛋白的产品。

所述产品为美容、化工、食品保健品、医疗/生物医学领域、化妆品、饲料领域的产品，比如，美容化妆品(面膜、精华、膏霜、面膜等)、人造胶原肠衣、营养保健品(胶原蛋白粉、口服液)、医用敷料、止血材料、人工骨支架、注射填充物、人工血管、眼药水、药物缓释载体等等。

本发明的第七个目的是提供在生物、化工、食品、医药、生物材料、组织工程或化妆品领域制备含胶原蛋白的产品中的应用，所述应用包括利用本发明的编码胶原域的氨基酸序列、蛋白单链、胶原蛋白、胶原蛋白纤维，或者编码所述编码所述胶原域的核苷酸序列、编码所述用于表达胶原蛋白的蛋白单链的核苷酸序列、编码所述用于表达胶原蛋白的蛋白单链的基因，或者表达所述基因的质粒或细胞。

本发明提供的重组人源胶原蛋白能够折叠形成三股螺旋结构，并可控自组装形成规则的高阶仿生纤维结构。本发明通过对天然Ι、II、III型胶原蛋白进行热稳定性预测，选取高/低预测T_m值的序列，组成胶原域，可选地，向如图10所示结构或如图11所示结构的胶原域引入设计的不同种类的胶原蛋白序列；折叠域(比如序列如SEQ ID NO.13的V-domain或如SEQ ID NO.14的coiled-coil domain)的引入是辅助胶原蛋白折叠形成三股螺旋结构；重复序列模块(比如(GPP)_n)的引入可以辅助胶原三股螺旋的折叠和提高其热稳定性；通过(GPP)_n数量的调节，分子可以进一步组装形成纤维结构，其在TEM下负染呈现亮条纹的形貌特征。

本发明还对获得重组胶原蛋白进行了热稳定性分析，进行了TEM的表征，确定了I、II、III型胶原蛋白设计中高热稳定性片段。虽然实际T_m值与预测T_m值(38-39℃)有偏差，但是均能正确折叠形成三股螺旋结构，而预测低热稳定性片段无法折叠形成三股螺旋结构。

有益效果

1.本发明的胶原蛋白结构域胶原域，是截取天然人源Ι、II、III型胶原蛋白的胶原片段进行序列拼接和设计得到的，与天然人源胶原蛋白的同源性高；其中，直接从天然人源胶原蛋白中截取的片段与天然序列同源性达100％，拼接得到的胶原域序列与天然序列同源性达57％以上。

2.本发明基于对人源胶原蛋白序列热稳定性的预测，进行序列筛选和设计，成功实现了不同类型人源胶原蛋白高热稳定性片段的在大肠杆菌中的异源表达。

3.本发明的源胶原蛋白序列，预测的T_m值在38-39℃之间；利用圆二色谱测定的胶原域的热变温度T_m值也较为接近人体温度。

4.本发明利用与人源胶原蛋白同源性高的序列，实现了在大肠杆菌中表达带有三股螺旋结构、可自组装形成规则的高阶仿生纤维结构的人源I型胶原蛋白，解决了目前重组人源胶原蛋白表达的困境。并且制得的人源I型胶原蛋白均能自组装成具有周期性明暗相间条纹的纤维，和I型胶原蛋白的形貌特征类似。能够满足生物医学和组织工程领域对有结构功能的重组胶原蛋白的需求。

5.本发明在设计的高稳定性人源I型胶原蛋白序列中引入/带有整合素结合位点，能折叠形成稳定的三股螺旋结构，并可自组装形成纤维形貌。本发明为重组胶原蛋白能够应用于组织培养、牙组织修复等方面，也为在胶原蛋白序列中引入其他功能性基序提供了参考依据。

附图说明

图1为胶原蛋白的三螺旋结构中轴向和横向侧链相互作用示意图。

图2为I型胶原蛋白的相对稳定性图谱。

图3为胶原蛋白的序列设计示意图。

图4为胶原蛋白纯化后的SDS-PAGE鉴定图；其中泳道1-7分别为纯化后的V-HC1-1、V-HC1-2、V-HC1-3、V-HC1-12、V-HC1-22、V-HC1F和V-HC1E，箭头代表目的条带；M：proteinmarker。

图5为胶原蛋白纯化后的SDS-PAGE鉴定图；其中泳道1-2、4-6分别为纯化后的V-HC2A、V-HC2B、V-HC3A、V-HC3B和V-HC3C，箭头代表目的条带；M：protein marker。

图6为所设计I型胶原蛋白的圆二色谱鉴定图；(a)为全波长图谱；(b)为热变曲线。

图7为所设计II、III型胶原蛋白的圆二色谱鉴定图；(a)为II型胶原蛋白全波长图谱和热变曲线；(b)为III型胶原蛋白全波长图谱和热变曲线。

图8为所设计胶原蛋白自组装的纤维形貌；(a)-(b)为HC1-1、HC1-2和HC1-3的TEM表征和明暗条纹带宽统计。

图9为所设计胶原蛋白自组装的纤维形貌；(c)-(d)为HC1-12和HC1-22的TEM表征和明暗条纹带宽统计。

图10为用于表达胶原蛋白的蛋白单链，其结构为折叠域-重复序列-胶原域-重复序列。

图11为用于表达胶原蛋白的蛋白单链，其结构为折叠域-重复序列-胶原域-重复序列-胶原域-重复序列。

具体实施方式

培养基：

LB培养基(g/L)：胰蛋白胨10，酵母粉5，NaCl 10，琼脂粉15(固)；

TB培养基(g/L)：胰蛋白胨12，酵母粉24，甘油4mL，KH₂PO₄ 2.31，K₂HPO₄ 12.54；

培养方法：从保存有目的基因的甘油管中吸取菌液50μL至20mL的LB(Amp抗性)中，37℃200r/min过夜培养。转接1％至100mL的TB发酵液(Amp抗性)中，37℃200r/min培养24h后，添加IPTG至终浓度为1mmol/L，25℃200r/min发酵培养10h，再转入15℃发酵14h。

蛋白纯化方法：待发酵结束后收集菌体，破碎离心后收集上清，经0.45μm水系滤膜过滤。然后用His Trap^TM HP 5mL亲和纯化，先用5倍柱体积结合缓冲液A(20mmol/LNa₂HPO₄、20mmol/L NaH₂PO₄、500mmol/L NaCl、10mmol/L Iminazole、pH 7.4)平衡，再以5mL/min的流速上样。上样结束后，用洗脱缓冲液B(20mmol/L Na₂HPO₄、20mmol/L NaH₂PO₄、500mmol/L NaCl、500mmol/L Iminazole、pH 7.4)进行梯度洗脱获得目的蛋白，并利用SDS-PAGE分析纯化情况。

胰蛋白酶切除盐：将纯化后的胶原蛋白用水溶成浓度为4mg/mL，分别取200μL样品，按照摩尔比20:1、200:1以及2000:1加入浓度为2.5g/L的胰蛋白酶，在16℃水浴锅酶切，每隔3h取样，最终在恒温箱中酶切12h，经SDS-PAGE分析验证纯度。在最优条件下酶切后，用HiTrap Desalting做脱盐处理，收集峰样并进行真空冷冻干燥。

样品稳定性鉴定：将除盐后的样品进行真空冷冻干燥，用圆二色谱进行全波长和热稳定性的鉴定。具体步骤为：将冻干后的样品用10mmol/L、pH 7.0的磷酸钠缓冲液溶解成1mg/mL的溶液，4℃平衡48h后进行圆二色谱鉴定。全波长是在4℃下以1nm为间隔测定190-250nm的CD光谱，平均扫描时间为5s。热变曲线是通过监测225nm处的CD信号，以10℃/h的升温速率从4℃升高到70℃获得的，每个温度下平衡8s，熔融温度(T_m)通过取拟合热变曲线在4℃和70℃所对应的吸光值取中值求得，该数据表示样品的稳定性。

透射电镜表征：将冻干后的胶原蛋白样品，溶解于10mmol/L、pH 7.0的磷酸钠缓冲液中，配置成终浓度为0.5mmol/L的溶液，于4℃下自组装4天。取5μL组装后的样品滴在铜网上吸附30s，用滤纸吸去多余液体，然后滴加5μL 0.75％的磷钨酸进行负染，维持20s后吸去染液，晾干后于日立H-7650透射电子显微镜在80kV的电压下观察成像。选取至少5幅视野清晰的TEM图像，利用ImageJ测量明条纹和暗条纹的带宽，每个样品测量至少200次求平均值。

热稳定性分析方法：

步骤包括：

(1)将编码结构如图10所示或结构如图11所示蛋白的基因在大肠杆菌E.coliBL21(DE3)中表达；

(2)将胞内表达的产物纯化，获得纯化后的蛋白，并进行SDS-PAGE鉴定；

(3)用胰蛋白酶对纯化后的样品消化，经SDS-PAGE鉴定V-domain完全切除后，进行除盐冻干处理；

(4)将冻干的胶原蛋白样品用10mmol/L磷酸钠缓冲液配成终浓度为1mg/mL的溶液，在4℃平衡48h，进行圆二色谱全波长和热变温度扫描的鉴定

(5)将冻干后的I型胶原蛋白样品用10mmol/L磷酸钠缓冲液配成终浓度为0.5mmol/L的胶原蛋白溶液，在4℃平衡4天，后进行TEM的表征。

实施例1：胶原域序列的设计

对天然人源胶原蛋白的全长序列，进行蛋白质计算分析和热稳定性预测，获得热稳定性较高的序列片段，直接截取该片段或者进一步将截取的片段进行拼接，得到胶原域序列。获得的目标胶原域序列，以该序列作为胶原域的胶原蛋白三螺旋结构的热稳定性预测值T_m值在38～39℃。

其中，胶原域序列形成的胶原蛋白三螺旋结构的热稳定性预测值(T_m)的预测方法是：以三螺旋结构的第一个三联体单元(XYG)作为连续编号的起点，为每个XYG三联体计算平均相对稳定性，获得每个三联体的热稳定性值；然后取n个连续的三联体，计算这n个连续的三联体的热稳定性值的平均值，即为胶原域序列的热稳定性预测值。本发明的目标胶原域序列，在n尽量大的情况下保证胶原域序列的热稳定性预测值T_m值在38～39℃。

其中，单个三联体i的热稳定性值，是指区间[i-5,i+5)的10个连续的三联体组成的窗口的热稳定性值。

所述窗口的热稳定性值T_windows由窗口主链倾向性值T_bb和窗口侧链间相互作用值T_side决定，其中，

所述T_bb按照如下方法得到：

(1)基于主-客体系统，以最稳定三联体Pro-Hyp-Gly作为主体，仅对X位Pro进行19种非Pro残基的单点突变构建得到客体，测定每个客体的热稳定性值T_m，即为不同X位的主链倾向值；同理，仅对Pro-Hyp-Gly三联体中Y位的Hyp的20种天然氨基酸单点突变构建得到客体，测定的每个客体的热稳定性值T_m，即为不同Y位的主链倾向值；

(2)针对任意三联体XYG的主链倾向值的计算，是根据该三联体中X、Y位残基的种类，找到(1)中对应的X位的主链倾向值、Y位的主链倾向值，由对应的X位的主链倾向值T_X和Y位的主链倾向值T_Y相加得到，即T_X+T_Y。例如Ala-Ala-Gly三联体，其主链倾向性值为T_X+T_Y，T_X(X＝Ala)表示Ala-Hyp-Gly测定的T_m值，T_Y(Y＝Ala)表示Pro-Ala-Gly测定的T_m值；

(3)窗口主链倾向性值T_bb，是基于(2)中的任意三联体XYG的主链倾向值的计算方法，对窗口中所有的三联体进行主链倾向值求和得到；其中，窗口中包括3条链，每条链上有10个三联体(即包括60个三联体)，即

T_bb＝∑(T_X+T_Y)。

所述T_side由窗口内所有侧链相互作用产生，T_side＝∑ΔT_Lat+∑ΔT_Axi。

其中，ΔT_Axi代表相邻三联体在两链之间的轴向相互作用值，ΔT_Lat代表相邻三联体在两链之间的横向相互作用值。

三螺旋折叠结构将相邻链间的相互作用约束为两类几何结构：轴向和横向(图1)。两个相邻链的Y位与X位相互作用，其相互作用的方向与螺旋轴平行，称为轴向相互作用；两个相邻链的Y位与X位相互作用，其相互作用的方向垂直于螺旋轴，则称为横向相互作用。

ΔT_Axi和ΔT_Lat，通过双突变实验测定并计算获得，分别代表轴向或横向几何结构中Y位和X位双突变的热稳定性与Y位或X位单点突变稳定性之和间的差异，公式如下所示：

ΔT＝T_YX-(T_YP+T_OX)-T_OP；

其中，T_OP表示Y位为Hyp且X位为Pro时实验测得的T_m值；T_OX表示单点突变X位且Y位仍然为Hyp时实验测得的T_m值；T_YP表示单点突变Y位且X位仍然为Pro时实验测得的T_m值；T_YX表示当Y位和X位双突变，即Y位不是Hyp且X位不是Pro时，实验测得的T_m值。

例如，计算Y位Lys且X位为Asp时的横向作用值(ΔT_Lat)时，双突变测定的热稳定性值为T_YX(Y＝Lys，X＝Asp)，而与之对应的X位单点突变测定T_m值为T_OX(X＝Asp，Y＝Hyp)，Y位单点突变测定Tm值为T_YP(Y＝Lys，X＝Pro)。主体热稳定值T_OP不变，表示Y＝Hyp，X＝Pro。横向相互作用中Y位可以突变成其他20种天然氨基酸，X位可以突变成其他19种天然氨基酸，不同Y位X位的两两组合共有20×19＝380个组合，对应380个横向相互作用值(ΔT_Lat)。轴向相互作用(ΔT_Axi)采用类似方法测定，同样可得380个轴向相互作用值，具体参见发明人团队刘晗硕士学位论文《氨基酸组分对类胶原多肽热稳定性的影响》。

基于窗口单元包含了3条链(a，b，c链)，以错位一个残基排列，每条链共有10个三联体(如图1所示)。链a和链b之间、链b和链c之间，均包含10个横向和9个轴向相互作用对；链c和链a之间涵盖了9个横向和8个轴向相互作用对。因此在10个三联体的窗口中，3条链之间共有29个横向相互作用值和26个轴向相互作用对，对其分别求和得到

∑ΔT_Lat和∑ΔT_Axi。窗口内所有的轴向和横向侧链相互作用对的贡献总和为T_side。

上述方法中，涉及到通过实验测定T_m的，是采用圆二色谱进行热稳定性测定，具体是：将冻干纯主体或客体胶原蛋白肽粉末称重并溶解于10mM磷酸盐缓冲液(pH 7.0)中，以制备高浓度(1mM)储备溶液。将宿主肽和客体肽的母液进一步稀释至0.2mM终浓度，按a链，b链和c链1:1:1的比例混合，在80℃下加热10分钟使已折叠的三螺旋展开呈现单链无序状态，然后将混合液置于4℃下孵育24小时以上使其充分自组装形成折叠完好的胶原三螺旋；圆二色谱(CD)实验在Chirascan仪器(Applied Photophysics Ltd,England)中进行。在4℃下进行190nm到260nm的波长扫描，每步间隔1nm。在225nm处进行热变实验，以1℃/6min梯度升温速率从4℃升温至80℃。通过拟合热变曲线的一阶导数求取T_m值。

如图2，是按照上述方法，对天然I型人源胶原蛋白序列中每个三联体的热稳定性值进行计算并绘制平均相对稳定性曲线，得到的I型胶原蛋白的相对稳定性图谱。可以从图2中截取热稳定性值高的连续三联体，得到热稳定性较高的序列片段，或者进一步将截取的热稳定性较高的序列进行拼接，得到胶原域序列。

参照上述方法，从天然I型人源胶原蛋白α1链(NCBI登录号NP_000079.2)、II型人源胶原蛋白α1链(NCBI登录号NP_001835.3)、III型人源胶原蛋白α1链(NCBI登录号NP_000081.2)中截取热稳定性较高的序列片段，或者进一步将截取的热稳定性较高的序列进行拼接，得到胶原域序列。选取预测T_m值在38～39℃、三股螺旋倾向性高的胶原域序列作为目标序列，T_m值较低、三股螺旋倾向性低的序列作为对照。

其中，不同类型胶原蛋白预测T_m值在38～39℃的几条序列如下：

(1)SEQ ID NO.1～7所示的氨基酸序列；(其中，SEQ ID NO.1～3是从天然I型人源胶原蛋白中选取的片段或多个片段拼接得到的，命名为I型胶原蛋白的HC1-1、HC1-2、HC1-3，预测T_m分别为38.4℃、38.5℃、38.2℃；SEQ ID NO.4是从天然II型人源胶原蛋白中截取的片段或多个片段拼接得到的，命名为II型胶原蛋白的HC2A，预测T_m为38.3℃；SEQ IDNO.5～7是从天然III型人源胶原蛋白中截取的片段或多个片段拼接得到的，命名为III型胶原蛋白的HC3A、HC3B、HC3C，预测T_m分别为38.8℃、38.8℃、39.0℃)

(2)SEQ ID NO.1～3的任意两条序列组合得到的氨基酸序列，比如SEQ ID NO.1和SEQ ID NO.2组合得到的SEQ ID NO.8(命名为HC1-12，预测T_m为38.4℃)；

(3)SEQ ID NO.1～7任一所示的序列进行2～3个重复得到的氨基酸序列，比如SEQID NO.2重复2个得到的SEQ ID NO.9(命名为HC1-22，预测T_m为38.4℃)。

预测的T_m值较低(36-37℃)的几条序列如下：SEQ ID NO.10～12(命名为HC1E、HC1F、HC2B，预测T_m分别为37.1℃、36.3℃、36.5℃)。

如表1所示，SEQ ID NO.1～12中，所有直接选取的序列片段未经序列改造(与天然人源胶原蛋白序列同源性100％)，且所有拼接得到的胶原域序列与天然人源胶原蛋白序列同源性大于57％。

表1

序列名称	与天然序列同源性(％)
		HC1-1	57.05
HC1-2	100
		HC1-3	62.80
HC2A	85.59
		HC3A	64.91
HC3B	65.00
		HC3C	66.95
HC1E	100
		HC1F	82.35
HC2B	63.49

实施例2：胶原蛋白序列的设计

设计含有实施例1的胶原域的蛋白单链。其中，所述蛋白单链的结构包括：折叠域、重复序列模块、胶原域。

所述折叠域的引入是辅助胶原蛋白折叠形成三股螺旋结构。可选地，折叠域为V-domain或者coiled-coil domain；可选地，V-domain的氨基酸序列如SEQ ID NO.13；可选地，coiled-coil domain的氨基酸序列如SEQ ID NO.14。

所述重复序列模块的引入可以辅助胶原三股螺旋的折叠和提高其热稳定性。可选地，重复序列模块有多个，位于胶原域的两端或者多个胶原域的两端；比如，表达II型胶原蛋白时，可以有多个胶原域，多个胶原域之间通过重复序列模块连接。可选地，重复序列模块的序列可以相同或者不同。可选地，所述重复序列模块采用(GPP)_n。可选地，含有多个重复序列模块时，各重复序列模块(GPP)_n中n取值可以相同也可以不同。

作为示例，本实施例设计结构如图10所示的胶原蛋白的蛋白单链的氨基酸序列。其中，折叠域V-domain的氨基酸序列如SEQ ID NO.13所示；胶原域序列使用实施例1的SEQID NO.1～12。

其中，作为其中一个示例，如图3所示，针对I型胶原蛋白来源的序列，在实施例1的序列HC1-1、HC1-2、HC1-3、HC1-12、HC1-22、HC1E、HC1F的两端插入重复序列模块(Gly-Pro-Pro)₁₀短肽，缩写为(GPP)₁₀(SEQ ID NO.23)，并在N端插入折叠域V-domain后，将序列分别命名为V-HC1-1、V-HC1-2、V-HC1-3、V-HC1-12、V-HC1-22、V-HC1E、V-HC1F，其中HC1-12序列是HC1-1序列和HC1-2序列的拼接组合，HC1-22序列是两个HC1-2序列的拼接组合。V-HC1-1的氨基酸序列如SEQ ID NO.15所示，编码V-HC1-1的核苷酸序列如SEQ ID NO.16所示。V-HC1-2、V-HC1-3、V-HC-12、V-HC1-22、V-HC1E、V-HC1F的氨基酸序列就是在V-HC1-1的氨基酸序列的基础上，将实施例1中对应的胶原域序列进行对应替换得到的。

针对II和III型胶原蛋白来源的序列，考虑到与天然胶原蛋白形貌匹配，在序列HC2A、HC2B、HC3A、HC3B、HC3C中胶原片段的N端、中间和C端插入(Gly-Pro-Pro)₅、(Gly-Pro-Pro)₄、(Gly-Pro-Pro)₆短肽，缩写为(GPP)₅(SEQ ID NO.24)、(GPP)₄(SEQ ID NO.25)、(GPP)₆(SEQ ID NO.26)，并将序列分别命名为V-HC2A、V-HC2B、V-HC3A、V-HC3B、V-HC3C，序列设计如图3所示。V-HC2A的氨基酸序列如SEQ ID NO.17所示，编码V-HC2A的核苷酸序列如SEQ IDNO.18所示。V-HC2B的氨基酸序列就是在V-HC2A的氨基酸序列的基础上，将实施例1中对应的胶原域序列进行对应替换得到的。V-HC3A的氨基酸序列如SEQ ID NO.19所示，编码V-HC3A的核苷酸序列如SEQ ID NO.20所示。V-HC3B、V-HC3C的氨基酸序列就是在V-HC3A的氨基酸序列的基础上，将实施例1中对应的胶原域序列进行对应替换得到的。

实施例3：重组质粒和重组菌的构建

合成蛋白单链的核苷酸序列时(如实施例2的蛋白单链)，在5'侧翼端引入碱基GC，并在5'和3'端分别引入Nco I和Bam HI酶切位点。后续将合成的上述基因分别插入到pColdIII-M质粒的Nco I和Bam HI之间，得到相应的重组胶原蛋白质粒，所述pColdIII-M质粒是将pColdIII质粒上的NdeⅠ酶切位点突变为Nco I酶切位点。将测序正确的重组质粒分别转化至E.coli BL21(DE3)感受态细胞中，涂布在含有氨苄的LB平板上，培养筛选，并甘油管保菌，获得含有重组胶原蛋白的重组菌。

实施例4：胶原蛋白序列的表达纯化及酶切优化

将实施例3得到的重组菌进行摇瓶发酵培养，收集菌体破碎离心后，取上清用HisTrap^TM HP 5mL进行亲和纯化，收集咪唑浓度为175mmol/L和400mmol/L下的样品，样品的SDS-PAGE鉴定见图4和图5。V-HC1-1、V-HC1-2、V-HC1-3、V-HC1-12、V-HC1-22、V-HC1E和V-HC1F的理论分子量分别为25.13kDa、24.81kDa、28.15kDa、34.38kDa、34.33kDa、25.15kDa和26.09kDa，其在SDS-PAGE上的表观分子量分别在36kDa、35kDa、40kDa、48kDa、48kDa、37kDa和38kDa左右(如图4所示)；V-HC2A、V-HC2B、V-HC3A、V-HC3B和V-HC3C的理论分子量分别为34.32kDa、37.15kDa、34.70kDa、34.28kDa和32.61kDa，其在SDS-PAGE上的表观分子量分别在37kDa、44kDa、43kDa、43kDa和38kDa左右(如图5所示)，约为理论分子量的1.4倍，这可能是由于胶原蛋白序列中含有较多的脯氨酸，导致目的蛋白在SDS-PAGE上的迁移速度较相同分子量的蛋白慢，和文献报道一致。

折叠域的去除是胶原分子通过横向、头尾方式交错排列进行自组装的先决条件，最终促进横纹原纤维的形成，因此设计序列时，在胶原结构域和折叠域之间引入胰蛋白酶酶切位点LVPRGS序列，所以可以通过添加适量的胰蛋白酶消化处理去除折叠域，得到纯胶原域结构。在胰蛋白酶的作用下，V-domain会被消化成多条含有2-20个氨基酸残基的短肽，若胶原结构域在V-domain的作用下正确折叠形成刚性的三股螺旋结构，则短时间内不会被胰蛋白酶消化。

选取V-HC1-2为模式蛋白，进行胰蛋白酶酶切条件的优化。结果显示，当摩尔比为20:1，酶切3h，V-domain和杂蛋白基本被消化完全，只有一条分子量约为25kDa的条带，与HC1-2胶原域分子量的1.4倍相对应；12h后条带变浅，可能是在高浓度的胰蛋白酶溶液中消化太久，导致少部分三股螺旋被切割；摩尔比为200:1时，在3h处还有些许未酶切完全的条带，6h后消失，说明此时V-domain基本切除，12h内条带没有明显变浅的迹象；当摩尔比为2000:1，酶切9h时V-domain还未切干净；12h左右酶切前条带才逐渐消失。根据酶切结果，选择摩尔比200:1进行酶切，控制酶切时长在6-12h。

实施例5：胶原蛋白酶切后的SDS-PAGE鉴定分析

在实施例4最优酶切优化条件下，对5种胶原蛋白进行酶切，结果显示，胶原蛋白V-HC1-1、V-HC1-2、V-HC1-3和V-HC1-22经胰蛋白酶消化后均为单一的条带，且纯度达到电泳纯，表观分子量和酶切后理论分子量的1.4倍相对应。

实施例6：形成三螺旋结构的胶原蛋白，及序列的圆二色谱表征

为了确认胶原域的二级结构，将实施例5的酶切脱盐后的胶原蛋白冻干样品用10mmol/L的磷酸钠缓冲液配置成1mg/mL的溶液，在4℃下平衡48h。待平衡结束后，利用圆二色谱进行全波长扫描。

对于I型人源胶原蛋白的设计，如图6(a)所示，HC1-1、HC1-2和HC1-3均在225nm处出现特征性正吸收峰，表明3种胶原蛋白都在V-domain的辅助下正确折叠形成三股螺旋结构。而如图6所示，作为对照的低预测片段HC1E和HC1F则在225nm处无特征性正吸收峰，表明其无法正确折叠形成三股螺旋结构。进一步利用圆二色谱测定胶原域的热变温度，HC1-1、HC1-2和HC1-3的预测T_m分别为38.4℃、38.5℃和38.2℃，如图6(b)所示，利用圆二色谱检测225nm下从4℃到70℃的热变曲线，对热变曲线进行拟合(见表1)；结果显示，HC1-1、HC1-2和HC1-3的T_m分别为37.2℃、38.7℃和32.4℃，而作为对照的低预测片段HC1E和HC1F的预测T_m分别为37.1℃和36.3℃，利用圆二色谱检测225nm下从4℃到70℃的热变曲线，如图6所示，无法测得HC1E和HC1F的热转变，说明HC1E和HC1F未正确折叠形成三股螺旋结构。

此外，将热稳定性较高的片段1、2进行组合后的胶原蛋白HC1-12和HC1-22，也能正确折叠形成三股螺旋结构；其中，HC1-12和HC1-22的预测T_m分别为38.4℃和38.4℃，经圆二色谱检测HC1-12和HC1-22的T_m值分别为33.0℃和33.6℃，表明胶原域的延长会在一定程度上导致热稳定性的下降。分析原因可能是胶原序列的增长以及两段序列的拼接，使得V-domain辅助三股螺旋折叠的作用力不足以从N端传递向更远的C端，导致部分区域形成的三股螺旋刚性不足，比较松散，解折叠较快，故热稳定性下降。

对于II、III型人源胶原蛋白的设计，为了确认胶原域的二级结构，利用圆二色谱进行全波长扫描，如图7所示，HC2A、HC3A、HC3B和HC3C均在225nm处出现特征性正吸收峰，表明4种胶原蛋白都在V-domain的辅助下正确折叠形成三股螺旋结构。而作为对照的低预测片段HC2B则在225nm处无特征性正吸收峰，表明其无法正确折叠形成三股螺旋结构。进一步利用圆二色谱测定胶原域的热变温度，HC2A、HC3A、HC3B和HC3C的预测T_m分别为38.3℃、38.8℃、38.8℃和39.0℃，作为低稳定性预测的HC2B的预测T_m为36.5℃。如图7所示，利用圆二色谱检测225nm下从4℃到70℃的热变曲线，对热变曲线进行拟合(见表2)，HC2A、HC3A、HC3B和HC3C的T_m分别为28.2℃、25.1℃、28.2℃和30.3℃，无法测得低预测片段HC2B的热转变，说明HC2B未正确折叠形成三股螺旋结构。

以上结果表明，本发明设计的预测T_m在38-39℃的高热稳定性胶原蛋白片段，均能正确折叠形成三股螺旋结构，而预测T_m小于38℃的低热稳定性片段无法正确折叠，说明通过计算预测人源胶原蛋白热稳定性，可以有效设计不同热稳定性的胶原蛋白片段，并在大肠杆菌中异源表达。

表2人源胶原蛋白的预测和拟合T_m

实施例7：胶原蛋白高聚自组装形成的胶原蛋白纤维(胶原蛋白序列自组装形貌表征)

为了观察胶原域能否在高浓度的溶液中自组装成高阶结构，将冻干后的实施例1序列的I型胶原蛋白HC1-1、HC1-2、HC1-3、HC1-12和HC1-22用10mmol/L的磷酸钠缓冲液溶解，配置成0.5mmol/L的溶液，在4℃下组装4天后进行负染，然后用TEM表征其形貌特征。

如图8和图9所示，在视野中可观察到具有周期性明暗条纹的带状纤维，和天然I型胶原蛋白的纤维形态相似，表明设计的胶原蛋白的胶原域均可自组装形成仿生微纤维结构。文献中报道每个Gly-Pro-Pro三联体的长度为1.0nm，每个XYG三联体的长度为0.9nm。利用ImageJ进行明暗条纹长度的测量(见表3)，结果显示HC1-1、HC1-2、HC1-3、HC1-12和HC1-22的明条纹长度分别约为10.6nm、10.3nm、11.7nm、10.2nm和9.9nm，与(GPP)₁₀重复序列模块的理论长度10nm相对应；暗条纹长度分别约为32.2nm、32.3nm、42.8nm、63.8nm和64.5nm，均与理论值相符。

此外，可从图8和图9中观察到，视野中HC1-22组装的带状纤维要多于HC1-12，表明HC1-22的自组装效果比HC1-12好，可能是由于HC1-2本身的热稳定性要高于HC1-1，影响组装效果。同时，从结果中也发现，HC1-12和HC1-22可观察到的带状纤维较少，不论在纤维长度或者纤维聚集形态上来说，都不如短的HC1-1和HC1-2自组装效果好。

表3胶原蛋白纤维带宽的统计

实施例8含有胶原蛋白的产品

一种含有胶原蛋白的产品，可以是美容、化工、食品保健品、医疗/生物医学领域、化妆品、饲料领域的产品；比如，美容化妆品(面膜、精华、膏霜、面膜等)、人造胶原肠衣、营养保健品(胶原蛋白粉、口服液)、医用敷料、止血材料、人工骨支架、注射填充物、人工血管、眼药水、药物缓释载体等等。

所述含有胶原蛋白的产品中，所述胶原蛋白具有本发明实施例1的胶原域序列，或者具有实施例2制备的胶原蛋白序列。

进一步地，所述胶原蛋白为表达出三螺旋结构的胶原蛋白。

进一步地，所述胶原蛋白为I型、II型或III型胶原蛋白。

进一步地，上述含有胶原蛋白的产品中，其他组分、配方、制备工艺，本领域技术人员可以采用现有的任意一种方法来实现。

本发明涉及的序列：

SEQ ID NO.1：HC1-1的氨基酸序列

GARGLPGTAGLPGMKGHRGFPGERGLDGAKGDAGPAGPKGEPGSPGENGAPGQMGP RGPQGPPGPPGPKGNSGEPGAPGSKGDTGAKGEPGPVGVQGPPGPAGEEGKR

SEQ ID NO.2：HC1-2的氨基酸序列

GFPGERGVQGPPGPAGPRGANGAPGNDGAKGDAGAPGAPGSQGAPGLQGMPGERGA AGLPGPKGDRGDAGPKGADGSPGKDGVRGLTGPIGPPGPAGAPGDKGESGPS

SEQ ID NO.3：HC1-3的氨基酸序列

GPAGFAGPPGADGQPGAKGEPGDAGAKGDAGPPGPAGPAGPPGPIGESGREGAPGAEGSPGRDGSPGAKGDRGETGPAGPPGFPGERGAPGPAGPAGPVGPVGARGPAGPQGPRGDKGETGEQGDRGIKGHRGFSGLQ

SEQ ID NO.4：HC2A的氨基酸序列

GLTGPAGEPGREGSPGADGPPGRDGAAGVKGDRGETGAVGAPGAPGPPGDRGEAGA QGPMGPSGPAGARGIQGPQGPRGDKGEAGEPGERGLKGHRGFTGLQGLPGPPGPS

SEQ ID NO.5：HC3A的氨基酸序列

GFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPGERGSPGPK GDKGEPGPPGADGVPGKDGPRGPTGPIGPPGPAGQPGDKGEP

SEQ ID NO.6：HC3B的氨基酸序列

GFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPGERGAKGE PGPRGERGEAGIPGVPGAKGEDGKPGEPGPKGDAGAPGAPGPKGDAGAPGER

SEQ ID NO.7：HC3C的氨基酸序列

GFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPGERGAKGEPGPRGERGEAGIPGVPGAKGEDGRDGNPGSDGLPGRDGSPGPKGDRGENGSP

SEQ ID NO.8：HC1-12的氨基酸序列

GARGLPGTAGLPGMKGHRGFPGERGLDGAKGDAGPAGPKGEPGSPGENGAPGQMGPRGPQGPPGPPGPKGNSGEPGAPGSKGDTGAKGEPGPVGVQGPPGPAGEEGKRGFPGERGVQGPPGPAGPRGANGAPGNDGAKGDAGAPGAPGSQGAPGLQGMPGERGAAGLPGPKGDRGDAGPKGADGSPGKDGVRGLTGPIGPPGPAGAPGDKGESGPS

SEQ ID NO.9：HC1-22的氨基酸序列

GFPGERGVQGPPGPAGPRGANGAPGNDGAKGDAGAPGAPGSQGAPGLQGMPGERGAAGLPGPKGDRGDAGPKGADGSPGKDGVRGLTGPIGPPGPAGAPGDKGESGPSGFPGERGVQGPPGPAGPRGANGAPGNDGAKGDAGAPGAPGSQGAPGLQGMPGERGAAGLPGPKGDRGDAGPKGADGSPGKDGVRGLTGPIGPPGPAGAPGDKGESGPS

SEQ ID NO.10：HC1E的氨基酸序列

GPMGPSGPRGLPGPPGAPGPQGFQGPPGEPGEPGASGPMGPRGPPGPPGKNGDDGEAGKPGRPGERGPPGPQGARGLPGTAGLPGMKGHRGFSGLDGAKGDAGPAGPK

SEQ ID NO.11：HC1F的氨基酸序列

GPRGLPGPPGAPGPQGFQGPPGEPGEPGASGPMGPRGPPGPPGKNGDDGEAGKPGRPGERGPPGPQGARGLPGTAGLPGMKGPAGSPGFQGLPGPAGPPGEAGKPGEQGVPGDLGAPGPS

SEQ ID NO.12：HC2B的氨基酸序列

GANGDPGRPGEPGLPGARGLTGRPGDAGPQGKVGPSGAPGEDGRPGPPGPQGARGQPGVMGFPGPKGANGEPGKAGEKGLPGAPGLRGLPGKDGETGAAGERGSPGAQGLQGPRGLPGTPGTDGPK

SEQ ID NO.13：V-domain的氨基酸序列

ADEQEEKAKVRTELIQELAQGLGGIEKKNFPTLGDEDLDHTYMTKLLTYLQEREQAENSWRKRLLKGIQDHALD

SEQ ID NO.14：coiled-coil domain的氨基酸序列

GEIAAIKQEIAAIKKEIAAIKWEIAAIKQGYG

SEQ ID NO.15：V-HC1-1的氨基酸序列

HHHHHHADEQEEKAKVRTELIQELAQGLGGIEKKNFPTLGDEDLDHTYMTKLLTYLQEREQAENSWRKRLLKGIQDHALDLVPRGSPGPPGPPGPPGPPGPPGPPGPPGPPGPPGPPGARGLPGTAGLPGMKGHRGFPGERGLDGAKGDAGPAGPKGEPGSPGENGAPGQMGPRGPQGPPGPPGPKGNSGEPGAPGSKGDTGAKGEPGPVGVQGPPGPAGEEGKRGPPGPPGPPGPPGPPGPPGPPGPPGPPGPPG

SEQ ID NO.16：V-HC1-1的核苷酸序列

CACCATCACCATCACCACGCCGACGAGCAAGAAGAAAAGGCCAAAGTTCGCACCGAGCTGATTCAAGAACTGGCGCAAGGTCTGGGCGGCATCGAAAAGAAAAACTTCCCGACGCTGGGCGATGAAGATCTGGACCACACCTACATGACGAAGCTGCTGACCTATCTGCAAGAACGTGAACAAGCCGAGAATAGCTGGCGCAAACGTCTGCTGAAAGGCATCCAAGATCATGCGCTGGATCTGGTGCCACGTGGCAGCCCGGGCCCGCCGGGCCCGCCGGGCCCACCGGGTCCACCGGGCCCGCCGGGCCCACCGGGTCCGCCGGGTCCGCCGGGTCCGCCGGGCCCACCGGGCGCCCGTGGTCTGCCGGGCACCGCCGGTCTGCCGGGCATGAAAGGCCATCGCGGTTTCCCGGGTGAACGTGGTCTGGATGGCGCCAAAGGTGATGCGGGTCCAGCCGGTCCGAAAGGCGAACCGGGCAGCCCGGGCGAAAATGGTGCGCCGGGCCAGATGGGTCCGCGTGGTCCACAAGGCCCGCCGGGCCCACCGGGCCCGAAAGGCAATAGCGGTGAACCGGGCGCCCCGGGCAGTAAAGGCGATACCGGTGCGAAAGGTGAACCGGGCCCGGTTGGTGTTCAAGGCCCACCGGGCCCAGCGGGTGAAGAAGGTAAACGTGGTCCGCCGGGTCCACCGGGTCCACCGGGTCCACCGGGCCCACCGGGCCCGCCGGGCCCACCGGGTCCGCCGGGCCCGCCGGGCCCACCGGGCTAA

SEQ ID NO.17：V-HC2A的氨基酸序列

HHHHHHADEQEEKAKVRTELIQELAQGLGGIEKKNFPTLGDEDLDHTYMTKLLTYLQEREQAENSWRKRLLKGIQDHALDLVPRGSPGPPGPPGPPGPPGPPGLTGPAGEPGREGSPGADGPPGRDGAAGVKGDRGETGAVGAPGAPGPPGDRGEAGAQGPMGPSGPAGARGIQGPQGPRGDKGEAGEPGERGLKGHRGFTGLQGLPGPPGPSGPPGPPGPPGPPGLTGPAGEPGREGSPGADGPPGRDGAAGVKGDRGETGAVGAPGAPGPPGDRGEAGAQGPMGPSGPAGARGIQGPQGPRGDKGEAGEPGERGLKGHRGFTGLQGLPGPPGPSGPPGPPGPPGPPGPPGPPG

SEQ ID NO.18：V-HC2A的核苷酸序列

CATCACCATCACCATCATGCGGATGAACAAGAAGAAAAAGCGAAAGTGCGCACCGAACTGATTCAAGAACTGGCGCAAGGCCTGGGCGGCATTGAAAAAAAAAACTTTCCGACCCTGGGCGATGAAGATCTGGATCATACCTATATGACCAAACTGCTGACCTATCTGCAAGAACGCGAACAAGCGGAAAACAGCTGGCGCAAACGCCTGCTGAAAGGCATTCAAGATCACGCCCTGGACTTAGTGCCGCGCGGTAGCCCGGGTCCGCCGGGTCCGCCGGGCCCGCCGG GTCCGCCGGGTCCGCCGGGCTTAACCGGCCCGGCCGGCGAACCGGGCCGTGAGGGCAGCCCGGGCGCCGATGGCCCGCCGGGCCGCGACGGCGCGGCCGGCGTGAAGGGCGATCGTGGCGAAACGGGCGCGGTGGGTGCGCCGGGTGCGCCGGGCCCGCCGGGCGATCGTGGTGAAGCGGGCGCCCAAGGCCCAATGGGCCCAAGTGGTCCGGCGGGTGCGCGCGGCATCCAAGGCCCGCAAGGCCCGCGCGGTGACAAAGGCGAAGCGGGCGAACCGGGCGAACGTGGCTTAAAAGGCCACCGCGGCTTTACGGGTCTGCAAGGTTTACCGGGTCCGCCGGGTCCAAGTGGTCCACCGGGTCCGCCGGGCCCACCGGGCCCGCCGGGCTTAACCGGTCCGGCCGGCGAGCCGGGCCGTGAAGGCAGCCCGGGCGCCGATGGCCCACCGGGCCGCGATGGCGCCGCGGGCGTGAAGGGTGATCGCGGTGAGACCGGCGCCGTGGGCGCCCCGGGCGCGCCGGGTCCGCCGGGCGACCGCGGCGAGGCCGGTGCGCAAGGTCCGATGGGCCCGAGCGGTCCGGCCGGTGCGCGTGGCATTCAAGGCCCGCAAGGCCCACGCGGTGATAAAGGCGAAGCCGGTGAACCGGGCGAACGCGGCCTGAAAGGCCATCGTGGTTTTACCGGTTTACAAGGTCTGCCGGGCCCGCCGGGCCCAAGTGGTCCACCGGGCCCGCCGGGCCCACCGGGCCCACCGGGCCCACCGGGCCCGCCGGGCTAA

SEQ ID NO.19：V-HC3A的氨基酸序列

HHHHHHADEQEEKAKVRTELIQELAQGLGGIEKKNFPTLGDEDLDHTYMTKLLTYLQEREQAENSWRKRLLKGIQDHALDLVPRGSPGPPGPPGPPGPPGPPGFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPGERGSPGPKGDKGEPGPPGADGVPGKDGPRGPTGPIGPPGPAGQPGDKGEPGPPGPPGPPGPPGFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPGERGSPGPKGDKGEPGPPGADGVPGKDGPRGPTGPIGPPGPAGQPGDKGEPGPPGPPGPPGPPGPPGPPG

SEQ ID NO.20：V-HC3A的核苷酸序列

CATCACCATCACCATCATGCGGATGAACAAGAAGAAAAAGCGAAAGTGCGCACCGAACTGATTCAAGAACTGGCGCAAGGCCTGGGCGGCATTGAAAAAAAAAACTTTCCGACCCTGGGCGATGAAGATCTGGATCATACCTATATGACCAAACTGCTGACCTATCTGCAAGAACGCGAACAAGCGGAAAACAGCTGGCGCAAACGCCTGCTGAAAGGCATTCAAGATCATGCCCTGGATTTAGTGCCGCGCGGCAGCCCGGGTCCACCGGGTCCGCCGGGCCCGCCGGGCCCACCGGGTCCGCCGGGCTTTCCGGGCATGAAGGGCCATCGCGGTTTTGATGGCCGCAACGGCGAAAAAGGCGAAACGGGTGCCCCGGGCCTGAAAGGCGAAAACGGTTTACCGGGCGAGAACGGCGCGCCGGGCCCGATGGGTCCGCGTGGTGCGCCGGGCGAACGCGGCAGCCCGGGCCCAAAAGGTGATAAGGGTGAACCGGGTCCGCCGGGCGCCGACGGTGTGC CGGGCAAAGATGGCCCGCGCGGCCCGACGGGCCCGATTGGCCCGCCGGGCCCGGCGGGCCAACCGGGCGACAAAGGTGAACCGGGCCCGCCGGGCCCGCCGGGCCCACCGGGTCCACCGGGTTTTCCGGGCATGAAGGGCCATCGCGGCTTTGATGGTCGTAACGGCGAGAAGGGCGAAACCGGTGCGCCGGGCTTAAAAGGTGAAAACGGCCTGCCGGGCGAGAACGGCGCGCCGGGTCCGATGGGCCCACGTGGCGCCCCGGGCGAGCGCGGCAGTCCGGGCCCGAAGGGCGATAAAGGCGAACCGGGCCCGCCGGGCGCGGATGGCGTGCCGGGCAAAGATGGCCCACGCGGTCCAACGGGTCCGATCGGCCCGCCGGGCCCGGCGGGTCAGCCGGGCGATAAGGGTGAGCCGGGCCCGCCGGGCCCGCCGGGCCCGCCGGGCCCGCCGGGCCCACCGGGCCCACCGGGTTAA

SEQ ID NO.21：LVPRGSP

SEQ ID NO.22：LVPRGS

SEQ ID NO.23：GPPGPPGPPGPPGPPGPPGPPGPPGPPGPP

SEQ ID NO.24：GPPGPPGPPGPPGPP

SEQ ID NO.25：GPPGPPGPPGPP

SEQ ID NO.26：GPPGPPGPPGPPGPPGPP

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.编码胶原域的氨基酸序列，其特征在于，所述氨基酸序列具有：

(1)如SEQ ID NO.1～7所示的氨基酸序列，或者

(2)SEQ ID NO.1～3的任意两条序列组合得到的氨基酸序列，或者

2.一种用于表达胶原蛋白的蛋白单链，其特征在于，所述蛋白单链含有权利要求1的编码胶原域的氨基酸序列。

3.根据权利要求2所述的蛋白单链，其特征在于，所述蛋白单链的结构从N段到C段包括：折叠域、重复序列模块、胶原域。

4.根据权利要求3所述的蛋白单链，其特征在于，折叠域的引入是辅助胶原蛋白折叠形成三股螺旋结构；可选地，折叠域为V-domain或coiled-coil domain；可选地，折叠域为V-domain，其氨基酸序列如SEQ ID NO.13；可选地，折叠域为coiled-coil domain，其氨基酸序列如SEQ ID NO.14。

5.根据权利要求3所述的蛋白单链，其特征在于，所述重复序列模块有多个，位于胶原域的两端或者多个胶原域的两端；可选地，重复序列模块的序列可以相同或者不同；可选地，所述重复序列模块采用(GPP)_n；可选地，(GPP)_n中n取值满足5＜n≤30；可选地，所述折叠域、重复序列模块之间通过酶切位点连接。

6.根据权利要求1所述的蛋白单链，其特征在于，所述用于表达胶原蛋白的蛋白单链的结构，从N端到C端，依次包括：折叠域、酶切位点、{重复序列模块、胶原域}m、重复序列模块；其中m大于等于1；可选地，m为1或2；可选地，折叠域前段还有组氨酸标签。

7.编码权利要求1所述胶原域的核苷酸序列，或者编码权利要求2-6任一所述的用于表达胶原蛋白的蛋白单链的核苷酸序列，或者编码权利要求2-6任一所述的用于表达胶原蛋白的蛋白单链的基因，以及表达所述基因的质粒或细胞。

8.一种胶原蛋白，由权利要求2-6任一所述的蛋白单链围绕一个共同的中心轴盘绕，构成三螺旋结构。

9.权利要求8所述的胶原蛋白高聚自组装形成的胶原蛋白纤维。

10.含有权利要求8所述胶原蛋白的产品；可选地，所述产品为美容、化工、食品保健品、医疗/生物医学领域、化妆品、饲料领域的产品，比如，美容化妆品(面膜、精华、膏霜、面膜等)、人造胶原肠衣、营养保健品(胶原蛋白粉、口服液)、医用敷料、止血材料、人工骨支架、注射填充物、人工血管、眼药水、药物缓释载体等。