CN114496063A

CN114496063A - 基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法和装置

Info

Publication number: CN114496063A
Application number: CN202210038596.9A
Authority: CN
Inventors: 李静; 何建锋; 梁国龍; 刘月峰; 周凤丽; 樊欣迎; 闻亚磊
Original assignee: Beijing Bokangjian Gene Technology Co ltd; Beijing Institute of Technology BIT
Current assignee: Beijing Bokangjian Gene Technology Co ltd; Beijing Institute of Technology BIT
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-13
Anticipated expiration: 2042-01-13
Also published as: CN114496063B

Abstract

本发明属于生物信息分析领域，公开了一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法和装置。本发明针对传统的蛋白质结构预测方法在构建信号肽的结构上存在的困难，提供了一种能够方便操作、准确性高的从头算建模方法和装置，具有非常好的实用价值。

Description

基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法和装置

技术领域

本发明涉及一种信号肽的特异性设计与结构建模方法和装置，尤其涉及一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法和装置，属于短肽的设计、生物信息学和分子动力学领域。

背景技术

信号肽是分泌蛋白质中引导蛋白质穿膜转移的氮端氨基酸序列。信号肽由三个区域组成:N端N区(1-5个氨基酸)通常包含一个或多个氨基酸，带正电荷；位于中间的H区主要由7-15个氨基酸组成，其中许多是疏水性的，以中性氨基酸为主，是信号肽的功能区；C区一般由3-7个氨基酸组成，在切割位点前的-1和-3位，多为中性短链氨基酸，是信号肽加工区，信号序列切割位点位于此区。研究表明，信号肽能够指导蛋白质多肽链在细胞内的输运与转移。在信号肽的引导下，合成过程中的蛋白质通过由核糖体大亚基的中央管和转运体易位蛋白形成的通道而穿膜进入内质网腔，随后信号肽被内质网腔中的信号肽酶切除。由于能将附加的蛋白质转运进细胞膜，信号肽已广泛用于生物工程和医药生产等领域。例如，利用大肠杆菌系统，在外源基因的N端融合一段细菌蛋白的疏水信号肽，如OmpA、OmpF、PelB等，可将目标蛋白运送到周质腔，便于分离和纯化。有研究发现，OmpA信号肽序列的微小不同，都可能影响膜外成熟OmpA的前体蛋白合成水平和组装水平，从而影响蛋白的生产水平，造成这种结果的原因尚不清楚。实际应用中，考虑到合成、水解、稳定性等因素，人们期望获得生物学性质更好的信号肽。这些需求促使我们去探索新的策略和设计更好的信号肽。

蛋白质的结构决定其生物学功能。深入地理解含有信号肽序列的分泌蛋白质的折叠、迁移和穿膜等功能机制，首先需要确定其空间结构。晶体衍射、冷冻电镜和核磁共振等技术可以解析分泌蛋白的结构。然而，到目前为止，解析的大多数是酶切后的分泌蛋白，通常缺少氮端的信号肽。因而，根据氨基酸序列构建这些缺失的信号肽结构非常必要。信号肽属于短肽，一般由15～30个氨基酸组成。在生理环境中，信号肽极少折叠成三级结构，常形成含有helix的二级结构。传统的蛋白质结构预测方法，如同源建模和Threading，构建信号肽的结构存在一些困难。因而，迫切需要发展一种针对信号肽特性的“从头算”建模技术。

本发明致力于解决上述信号肽研究和应用领域迫切需要解决的问题，提出了基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法和装置。本发明提出了基于天然氨基酸序列设计信号肽的策略，设计了几种新的信号肽，并提出了基于序列的信号肽的从头算建模技术，本发明将对信号肽的设计与建模具有实用价值。

发明内容

本发明的目的是针对目前缺乏好的信号肽设计策略和高效的结构建模技术的现状，提出了一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法和装置。

本发明所述方法基于目标蛋白质的信号肽的天然氨基酸序列，通过改变中间功能区的氨基酸来设计新型的信号肽的氨基酸序列，采用基于生物信息学的从头算方法预测这些信号肽的二级结构，然后以预测的结构为初始构象在溶剂环境中对信号肽进行分子动力学模拟，从轨迹中获取它们的稳定结构。

为此，本发明一方面提供了一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法，包括以下步骤：

1、获取目标蛋白质的信号肽的天然氨基酸序列；

2、根据目标蛋白质的信号肽的天然氨基酸序列，设计目标蛋白质的新型的信号肽氨基酸序列；

3、构建目标蛋白质的信号肽和新型信号肽的初始构象，进行分子动力学模拟；

4、提取目标蛋白质的信号肽和新型信号肽的稳定结构。

为达到上述目的，本发明采取如下技术方案。

所述基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法，包括以下步骤：

步骤1：获取目标蛋白质的信号肽的天然氨基酸序列；

其中，目标蛋白质的信号肽的天然氨基酸序列从序列数据库UniProt下载；

步骤2：根据目标蛋白质的信号肽的天然氨基酸序列，设计目标蛋白质的新型的信号肽氨基酸序列，具体为：

根据目标蛋白质的信号肽的天然氨基酸序列，保持其氮端和碳端的带电氨基酸不变，改变中间功能区的氨基酸，获得目标蛋白质的新型的信号肽氨基酸序列；

步骤3：构建目标蛋白质的信号肽和新型信号肽的初始构象，进行分子动力学模拟；

步骤3具体包含如下子步骤：

步骤3.1构建目标蛋白质的信号肽和新型信号肽的初始构象，具体为：

基于步骤1的信号肽的天然氨基酸序列和步骤2的新型信号肽的氨基酸序列，采用基于生物信息学的从头算方法，构建目标蛋白质的信号肽和新型信号肽的初始构象；

其中，基于生物信息学的从头算方法的一种优选方案是采用多肽结构预测PEP-FOLD3方法；

步骤3.2对目标蛋白质的信号肽和新型信号肽进行溶剂化，具体为：

采用步骤3.1构建的目标蛋白质的信号肽和新型信号肽的初始构象，选择合适的力场和水模型，生成体系的拓扑文件，定义溶剂盒子的形状和大小，给溶剂盒子加水分子，添加抗衡离子，设置盐浓度；

其中，所述力场的一种优选方案是Charmm36力场，水模型的一种优选方案为TIP3P；

其中，所述溶剂盒子的一种优选方案是立方体盒子，盒子的大小的一种优选方案为盒子边界离蛋白质距离为

其中，所述抗衡离子的优选方案为Na⁺和Cl^-，使目标蛋白质的信号肽和新型信号肽体系呈电中性；

其中，所述盐浓度的一种优选方案为150mMol的NaCl；

步骤3.3对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行能量极小化；

其中，能量极小化的一种优选方案为采用最速下降算法，适当设置能量极小化的步数，确保能量极小化后原子间作用力小于1000kJ/mol nm；

步骤3.4在步骤3.3的基础上，采用恒温器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NVT平衡；

其中，恒温器的一种优选方案为修正的Berendsen恒温器，温度的一种优选方案为310K，NVT平衡时间的一种优选方案为大于等于100ps；

步骤3.5在步骤3.4的基础上，采用恒压器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NPT平衡；

其中，恒压器的一种优选方案为Parrinello-Rahman耦合器，压强的一种优选方案为1.0bar，NPT平衡时间的一种优选方案为大于等于100ps；

步骤3.6在步骤3.5的基础上，对溶剂化的目标蛋白质的信号肽和新型信号肽进行长时间的分子动力学计算，存储体系的坐标、速度、能量等数据；

其中，分子动力学计算在NPT系统中进行，其温度、压强保持与步骤3.5的NPT平衡相同；

其中，分子动力学计算过程中存储体系的坐标、速度、能量等数据的时间间隔的一种优选方案为小于等于10ps；

其中，分子动力学计算时间的选取需确保目标蛋白质的信号肽和新型信号肽的构象趋于稳定；

步骤4：提取目标蛋白质的信号肽和新型信号肽的稳定结构，具体为：

基于步骤3.6分子动力学计算的数据，分析目标蛋白质的信号肽和新型信号肽的构象时间演化特征，确定稳定性好、含α-helix结构的时间区域，从该时间区域提取代表性结构，即为最终构建的目标蛋白质的信号肽和新型信号肽的结构；

其中，分析目标蛋白质的信号肽和新型信号肽的构象时间演化特征可以监测轨迹变化，一种优选方案是监测目标蛋白质的信号肽和新型信号肽的α-helix含量和相对于初始构象的RMSD随时间的变化；

其中，α-helix含量表述为如下(1)式：

式中，K₀是步骤3.1构建的初始构象中α-helix的氨基酸数目，K(t)是步骤3.6分子动力学计算的t时刻构象中α-helix的氨基酸数目，Hα的数值在[0,1]之间。

其中，RMSD表述为如下(2)式：

式中，N是目标蛋白质的信号肽或新型信号肽的中心碳原子总数，i是中心碳原子的序号，i为1到N的整数，X_i是步骤3.1构建的初始构象中第i个中心碳原子的坐标，Y_i是步骤3.6分子动力学计算的t时刻构象中第i个中心碳原子的坐标。

其中，确定稳定性好、含α-helix结构的时间区域的一种优选方案是通过α-helix含量和相对于初始构象RMSD随时间的演化来找寻波动幅度较小、稳定时间较长的时间区域；

至此，从步骤1到步骤4，完成了基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法。

本发明再一方面提供了一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模装置，包括以下模块：

1、获取模块，用于获取目标蛋白质的信号肽的天然氨基酸序列；

2、设计模块，用于根据目标蛋白质的信号肽的天然氨基酸序列，设计目标蛋白质的新型的信号肽氨基酸序列；

3、构建和模拟模块，用于构建目标蛋白质的信号肽和新型信号肽的初始构象，进行分子动力学模拟；

4、提取模块，用于提取目标蛋白质的信号肽和新型信号肽的稳定结构。

在本发明所述的装置中，构建和模拟模块还包括：

a、初始构象构建模块，用于基于获取模块获取的信号肽的天然氨基酸序列和设计模块设计的新型信号肽的氨基酸序列，基于生物信息学的从头算方法，构建目标蛋白质的信号肽和新型信号肽的初始构象；

b、溶剂化模块，用于对目标蛋白质的信号肽和新型信号肽进行溶剂化；

c、能量极小化模块，用于对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行能量极小化；

d、NVT平衡模块，用于在能量极小化模块的基础上，采用恒温器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NVT平衡；

e、NPT平衡模块，用于在NVT平衡模块的基础上，采用恒压器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NPT平衡；

f、计算和存储模块，用于在NPT平衡模块的基础上，对溶剂化的目标蛋白质的信号肽和新型信号肽进行长时间的分子动力学计算，存储体系的坐标、速度、能量等数据。

在本发明所述的装置中，设计模块采用如下的方式：

根据目标蛋白质的信号肽的天然氨基酸序列，保持其氮端和碳端的带电氨基酸不变，改变中间功能区的氨基酸，获得目标蛋白质的新型的信号肽氨基酸序列。

在本发明所述的装置中，初始构象构建模块中所述的基于生物信息学的从头算方法是采用多肽结构预测PEP-FOLD3方法。

在本发明所述的装置中，溶剂化模块采用如下的方式：

采用初始构象构建模块构建的目标蛋白质的信号肽和新型信号肽的初始构象，选择合适的力场和水模型，生成体系的拓扑文件，定义溶剂盒子的形状和大小，给溶剂盒子加水分子，添加抗衡离子，设置盐浓度。

在本发明所述的装置中，力场是Charmm36力场；水模型为TIP3P；溶剂盒子为立方体盒子，盒子边界离蛋白质距离为

抗衡离子为Na⁺和Cl^-，使目标蛋白质的信号肽和新型信号肽体系呈电中性；盐浓度为150mMol的NaCl。

在本发明所述的装置中，能量极小化模块中能量极小化采用最速下降算法，适当设置能量极小化的步数，确保能量极小化后原子间作用力小于1000kJ/mol nm。

在本发明所述的装置中，NVT平衡模块中的恒温器为修正的Berendsen恒温器，温度为310K，NVT平衡时间为大于等于100ps。

在本发明所述的装置中，NPT平衡模块中的恒压器为Parrinello-Rahman耦合器，压强为1.0bar，NPT平衡时间为大于等于100ps。

在本发明所述的装置中，计算和存储模块中的分子动力学计算在NPT系统中进行，其温度、压强保持与NPT平衡模块的NPT平衡相同；分子动力学计算过程中存储体系的坐标、速度、能量等数据的时间间隔为小于等于10ps；分子动力学计算时间的选取需确保目标蛋白质的信号肽和新型信号肽的构象趋于稳定。

在本发明所述的装置中，提取模块采用如下的方式：

基于计算和存储模块中分子动力学计算的数据，分析目标蛋白质的信号肽和新型信号肽的构象时间演化特征，确定稳定性好、含α-helix结构的时间区域，从该时间区域提取代表性结构，即为最终构建的目标蛋白质的信号肽和新型信号肽的结构。

在本发明所述的装置中，分析目标蛋白质的信号肽和新型信号肽的构象时间演化特征是监测目标蛋白质的信号肽和新型信号肽中的α-helix含量和相对于初始构象的RMSD随时间的变化；确定稳定性好、含α-helix结构的时间区域是通过α-helix含量和相对于初始构象RMSD随时间的演化来找寻波动幅度较小、稳定时间较长的区域。

在本发明所述的装置中，α-helix含量表述为如下公式(1)：

式中，K₀是初始构象构建模块构建的初始构象中α-helix的氨基酸数目，K(t)是计算和存储模块中分子动力学计算的t时刻构象中α-helix的氨基酸数目，Hα的数值在[0,1]之间。

其中，RMSD表述为如下公式(2)：

式中，N是目标蛋白质的信号肽和新型信号肽的中心碳原子总数，i是中心碳原子的序号，i为1到N的整数，X_i是初始构象构建模块构建的初始构象中第i个中心碳原子的坐标，Y_i是计算和存储模块中分子动力学计算的t时刻构象中第i个中心碳原子的坐标。

在本发明所述的装置中，目标蛋白质为外膜蛋白A，其信号肽的氨基酸序列为附图5所示的ompA信号肽序列，信号肽的结构如附图8所示，其新型的信号肽的氨基酸序列如附图5的设计1-7所示，新型信号肽的结构如附图8所示。

有益效果

鉴于信号肽的研究与应用现状，本发明的基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法，具有如下有益效果：

1、本发明的方法基于天然氨基酸序列，通过改变其中间功能区的某些氨基酸获得新的信号肽，为信号肽的设计提供了一种实用的策略；

2、本发明基于一种天然信号肽的氨基酸序列设计几个新型的信号肽，这些新型的信号肽可用于相关的医药开发，有利于提高目标蛋白的合成与生产水平；

3、本发明的信号肽的二级结构从头算建模方法是基于生物信息学的结构预测与分子动力学模拟相结合的方法，是一种从头算技术，这为信号肽及其他短肽的二级结构建模提供了一种有效的方案；

4、本发明的信号肽的二级结构从头算建模方法能够弥补目标蛋白氮端信号肽结构经常缺失的现状，为信号肽及目标蛋白的输运与转移机制研究奠定了基础；

5、本发明提出的方法采用计算机模拟进行信号肽的设计和二级结构建模，速度快、效率高，能够节省研发成本。

附图说明

图1为本发明建模方法的整体流程图；

图2为本发明建模方法的优选流程图；

图3为本发明建模装置的整体结构图；

图4为本发明建模装置的优选结构图；

图5为外膜蛋白A信号肽及7个新型信号肽的氨基酸序列；

图6为采用PEP-FOLD3方法预测的外膜蛋白A信号肽结构；

图7为外膜蛋白A信号肽的α-helix含量和相对于初始构象的RMSD随时间的演化；

图8为最终构建的外膜蛋白A信号肽及7个新型信号肽的结构。

具体实施方式

为了更好的说明本方法的目的和优点，结合附图及具体实施例对本发明具体实施内容做进一步详细说明。

实施例

本实施例详细阐述了本发明所述的基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法在具体实施时针对基于外膜蛋白A信号肽氨基酸序列的新型信号肽设计与二级结构从头算建模。

基于外膜蛋白A信号肽氨基酸序列的新型信号肽设计与二级结构从头算建模的具体实施过程如下：

步骤1：获取外膜蛋白A信号肽的天然氨基酸序列，具体为：

在序列数据库UniProt(www.uniprot.org)中，搜索外膜蛋白A或其基因名称，下载外膜蛋白A信号肽的天然氨基酸序列，保存为signal.fasta文件；

其中，外膜蛋白A的名称为outer membrane protein A，其基因名称为ompA；

其中，图5给出了外膜蛋白A信号肽的天然氨基酸序列；由图可见，外膜蛋白A信号肽(ompA信号肽)由21个氨基酸组成；

步骤2：设计新型外膜蛋白A信号肽，具体为：

根据外膜蛋白A信号肽的天然氨基酸序列，保持氮端和碳端的带电氨基酸不变，改变中间功能区的某些氨基酸，保存这些新型外膜蛋白A信号肽的氨基酸序列；

其中，本发明设计了7个新型外膜蛋白A信号肽，分别命名为：设计1、设计2、设计3、设计4、设计5、设计6、设计7；

其中，图5给出了7个新型外膜蛋白A信号肽的氨基酸序列；设计1是将外膜蛋白A信号肽的第14位甘氨酸替换为精氨酸(G14→R14)，有21个氨基酸；设计2是将外膜蛋白A信号肽的第8位异亮氨酸替换为天冬氨酸(I8→N8)，有21个氨基酸；设计3是将外膜蛋白A信号肽的第2位赖氨酸去除、第3位赖氨酸和第4位苏氨酸替换为谷氨酸和丝氨酸(K2K3T4→E3S4)，有20个氨基酸；设计4是将外膜蛋白A信号肽的第7位丙氨酸、第8位异亮氨酸和第9位丙氨酸去除(去除A7I8A9)，有18个氨基酸；设计5是将外膜蛋白A信号肽的第9位丙氨酸替换为缬氨酸(A9→V9)，有21个氨基酸；设计6是将外膜蛋白A信号肽的第8位异亮氨酸替换为丙氨酸(I8→A8)，有21个氨基酸；设计7是将外膜蛋白A信号肽的第8位异亮氨酸和第9位丙氨酸去除(去除I8A9)，有19个氨基酸；

步骤3：构建外膜蛋白A信号肽和7个新型信号肽的初始构象，进行分子动力学模拟；

步骤3具体包含如下子步骤：

步骤3.1构建外膜蛋白A信号肽和7个新型信号肽的初始构象，具体为：

基于步骤1和步骤2的外膜蛋白A信号肽和7个新型信号肽的氨基酸序列，采用多肽结构预测PEP-FOLD3方法，构建外膜蛋白A信号肽和7个新型信号肽的初始构象，保存这些初始构象为pdb文件；

其中，外膜蛋白A信号肽和7个新型信号肽的初始构象主要由二级结构α-helix构成；

其中，外膜蛋白A信号肽的初始结构如图6所示，可以看出，它形成了一个直的全α-helix结构，即Met1-Ala21全部为二级结构α-helix；

步骤3.2对外膜蛋白A信号肽和7个新型信号肽进行溶剂化，具体为：

采用步骤3.1构建的外膜蛋白A信号肽和7个新型信号肽的初始构象，选择Charmm36力场和TIP3P水模型，生成体系的拓扑文件，定义立方体溶剂盒子，盒子的边长设置为

给溶剂盒子加水分子，添加抗衡离子，设置盐浓度为150mMol的NaCl；

其中，添加抗衡离子时，如果外膜蛋白A信号肽和7个新型信号肽带N个单位负电荷，则添加N个Na⁺，使体系呈电中性；如果外膜蛋白A信号肽和7个新型信号肽带M个单位正电荷，则添加M个Cl^-，使体系呈电中性；

其中，外膜蛋白A信号肽和7个新型信号肽的氮端设置为NH₃ ⁺封端，碳端选择COO^-封端；

步骤3.3对溶剂化的外膜蛋白A信号肽和7个新型信号肽体系进行能量极小化；

其中，能量极小化采用最速下降算法，能量极小化的步数为50000步以上，能量极小化后原子间的最大作用力小于1000kJ/mol nm；

步骤3.4在步骤3.3的基础上，采用恒温器对溶剂化的外膜蛋白A信号肽和7个新型信号肽体系进行NVT平衡；

其中，恒温器选择修正的Berendsen恒温器，温度为310K，NVT平衡的时间步长设为2fs，计算时间为100ps；

步骤3.5在步骤3.4的基础上，采用恒压器对溶剂化的外膜蛋白A信号肽和7个新型信号肽体系进行NPT平衡；

其中，恒压器的选择Parrinello-Rahman耦合器，压强为1.0bar，NPT平衡的时间步长设为2fs，计算时间为100ps；

步骤3.6在步骤3.5的基础上，对溶剂化的外膜蛋白A信号肽和7个新型信号肽进行长时间的分子动力学计算，存储体系的坐标、速度、能量等数据；

其中，分子动力学计算的温度、压强等保持与步骤3.5的NPT平衡相同；

其中，每隔10ps存储一次体系的坐标、速度、能量等数据；

其中，分子动力学计算时间为50ns，在这个时长内外膜蛋白A信号肽和7个新型信号肽的构象可以趋于稳定；

步骤4：提取外膜蛋白A信号肽和7个新型信号肽的稳定结构，具体为：

基于步骤3.6分子动力学计算的数据，分析外膜蛋白A信号肽和7个新型信号肽的构象时间演化特征，确定稳定性好、含α-helix结构的时间区域，从该时间区域提取代表性结构，即为最终构建的外膜蛋白A信号肽和7个新型信号肽的结构；

其中，分析外膜蛋白A信号肽和7个新型信号肽的构象时间演化特征的方法为监测外膜蛋白A信号肽和7个新型信号肽轨迹中的α-helix含量和相对于初始构象的RMSD随时间的变化；

其中，α-helix含量采用发明内容步骤4所述公式(1)构建；

式中，K₀是步骤3.1构建的外膜蛋白A信号肽和7个新型信号肽的初始构象中α-helix的氨基酸数目，K(t)是步骤3.6分子动力学计算的t时刻构象中α-helix的氨基酸数目；

其中，RMSD采用发明内容步骤4所述公式(2)构建；

式中，N是外膜蛋白A信号肽或7个新型信号肽的中心碳原子总数，i是中心碳原子的序号，i为1到N的整数，X_i是步骤3.1构建的外膜蛋白A信号肽或7个新型信号肽的初始构象中第i个中心碳原子的坐标，Y_i是步骤3.6分子动力学计算的t时刻构象中第i个中心碳原子的坐标；

其中，外膜蛋白A信号肽的α-helix含量和相对于初始构象的RMSD随时间的演化如图7所示；此图作为一个例子展示了找寻稳定性好、含α-helix结构的时间区域的过程；图中，横轴为时间(单位为ps)，纵轴分别为α-helix含量和相对于初始构象的RMSD(单位为nm)；在0～50000ps，RMSD在0.05～0.93nm之间变化，α-helix含量在1.0～0.33之间变化；从图中可以看出，外膜蛋白A信号肽有5个主要的结构稳定的时间区域，分别位于6000～9500ps、15100～24700ps、25500～31700ps、32100～38100ps、39200～50000ps；显然，39200～50000ps为结构稳定时间较长的区域，RMSD的值在0.7nm附近波动，α-helix含量的值在0.5附近波动；最终构建的外膜蛋白A信号肽的结构从此时间区域提取；

其中，最终构建的外膜蛋白A信号肽和7个新型信号肽的结构如图8所示；图中标识了氮端和碳端；氮端的甲硫氨酸(Met)带电为+1，碳端的丙氨酸(Ala)带电为-1；可以看出，外膜蛋白A信号肽和7个新型信号肽没有形成三级空间结构，它们的稳定结构以局域二级结构为主；在外膜蛋白A信号肽(ompA信号肽)的稳定结构中，Lys3-Ala13片段为α-helix结构，Met1-Lys2和Gly14-Ala21片段为无规卷曲结构；在设计1的稳定结构中，Thr4-Val18片段为α-helix结构，Met1-Lys3和Ala19-Ala21片段为无规卷曲结构；在设计2的稳定结构中，Lys3-Ala13片段为α-helix结构，Met1-Lys2和Gly14-Ala21片段为无规卷曲结构；在设计3的稳定结构中，Ile5-Ala12片段为α-helix结构，Met1-Ala4和Gly13-Ala20片段为无规卷曲结构；在设计4的稳定结构中，Thr4-Gln17片段为α-helix结构，Met1-Lys3和Ala18片段为无规卷曲结构；在设计5的稳定结构中，Lys3-Ala13片段为α-helix结构，Met1-Lys2和Gly14-Ala21片段为无规卷曲结构；在设计6的稳定结构中，Lys3-Leu12片段为α-helix结构，Met1-Lys2和Ala13-Ala21片段为无规卷曲结构；在设计7的稳定结构中，Ala5-Ala9片段为α-helix结构，Met1-Thr4和Leu10-Ala19片段为无规卷曲结构；

其中，对比分析外膜蛋白A信号肽和7个新型信号肽的结构，可以挑选潜在的生物学性质好的新型信号肽；图8显示，设计1和设计4的α-helix结构分别由15和14个氨基酸残基组成，天然外膜蛋白A信号肽(ompA信号肽)的α-helix结构由11个氨基酸残基组成；设计1和设计4的N区、C区的氨基酸与天然外膜蛋白A信号肽的一致，它们的α-helix结构明显比天然外膜蛋白A信号肽的更丰富；由于细胞膜为脂双层结构，有疏水性，α-helix结构有利于穿过细胞膜的脂双层；本实施例的结果提示设计1和设计4的新型信号肽可能有利于引导目标蛋白的穿膜转移。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模方法，包括以下步骤：

(1)获取目标蛋白质的信号肽的天然氨基酸序列；

(2)根据目标蛋白质的信号肽的天然氨基酸序列，设计目标蛋白质的新型的信号肽氨基酸序列；

(3)构建目标蛋白质的信号肽和新型信号肽的初始构象，进行分子动力学模拟；

(4)提取目标蛋白质的信号肽和新型信号肽的稳定结构。

2.根据权利要求1所述的方法，其中步骤(3)包括以下步骤：

(a)基于步骤(1)的信号肽的天然氨基酸序列和步骤(2)的新型信号肽的氨基酸序列，基于生物信息学的从头算方法，构建目标蛋白质的信号肽和新型信号肽的初始构象；

(b)对目标蛋白质的信号肽和新型信号肽进行溶剂化；

(c)对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行能量极小化；

(d)在步骤(c)的基础上，采用恒温器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NVT平衡；

(e)在步骤(d)的基础上，采用恒压器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NPT平衡；

(f)在步骤(e)的基础上，对溶剂化的目标蛋白质的信号肽和新型信号肽进行长时间的分子动力学计算，存储体系的坐标、速度、能量等数据。

优先地，其中步骤(2)采用如下的方式：

优选地，其中步骤(a)中所述的基于生物信息学的从头算方法是采用多肽结构预测PEP-FOLD3方法。

还优选地，其中步骤(b)采用如下的方式：

采用步骤(a)构建的目标蛋白质的信号肽和新型信号肽的初始构象，选择合适的力场和水模型，生成体系的拓扑文件，定义溶剂盒子的形状和大小，给溶剂盒子加水分子，添加抗衡离子，设置盐浓度。

更优选地，其中力场是Charmm36力场；水模型为TIP3P；溶剂盒子为立方体盒子，盒子边界离蛋白质距离为

3.根据权利要求1-2中任一项所述的方法，其中步骤(c)中能量极小化采用最速下降算法，适当设置能量极小化的步数，确保能量极小化后原子间作用力小于1000kJ/mol nm。

优选地，其中步骤(d)中的恒温器为修正的Berendsen恒温器，温度为310K，NVT平衡时间为大于等于100ps。

优选地，其中步骤(e)中的恒压器为Parrinello-Rahman耦合器，压强为1.0bar，NPT平衡时间为大于等于100ps。

优选地，其中步骤(f)中的分子动力学计算在NPT系综中进行，其温度、压强保持与步骤(e)的NPT平衡相同；分子动力学计算过程中存储体系的坐标、速度、能量等数据的时间间隔为小于等于10ps；分子动力学计算时间的选取需确保目标蛋白质的信号肽和新型信号肽的构象趋于稳定。

4.根据权利要求1-3中任一项所述的方法，其中步骤(4)采用如下的方式：

基于步骤(f)分子动力学计算的数据，分析目标蛋白质的信号肽和新型信号肽的构象时间演化特征，确定稳定性好、含α-helix结构的时间区域，从该时间区域提取代表性结构，即为最终构建的目标蛋白质的信号肽和新型信号肽的结构。

优选地，其中分析目标蛋白质的信号肽和新型信号肽的构象时间演化特征是监测目标蛋白质的信号肽和新型信号肽中的α-helix含量和相对于初始构象的RMSD随时间的变化；确定稳定性好、含α-helix结构的时间区域是通过α-helix含量和相对于初始构象RMSD随时间的演化来找寻波动幅度较小、稳定时间较长的区域。

5.根据权利要求1-4任一项所述的方法，其中α-helix含量表述为如下公式(1)：

式中，K₀是步骤(a)构建的初始构象中α-helix的氨基酸数目，K(t)是步骤(f)分子动力学计算的t时刻构象中α-helix的氨基酸数目，Hα的数值在[0,1]之间。

其中，RMSD表述为如下公式(2)：

式中，N是目标蛋白质的信号肽和新型信号肽的中心碳原子总数，i是中心碳原子的序号，i为1到N的整数，X_i是步骤(a)构建的初始构象中第i个中心碳原子的坐标，Y_i是步骤(f)分子动力学计算的t时刻构象中第i个中心碳原子的坐标。

优选地，其中目标蛋白质为外膜蛋白A，其信号肽的氨基酸序列为附图5所示的ompA信号肽序列，信号肽的结构如附图8所示，其新型的信号肽的氨基酸序列如附图5的设计1-7所示，新型信号肽的结构如附图8所示。

6.一种基于天然氨基酸序列的信号肽设计与二级结构从头算建模装置，包括以下模块：

(1)获取模块，用于获取目标蛋白质的信号肽的天然氨基酸序列；

(2)设计模块，用于根据目标蛋白质的信号肽的天然氨基酸序列，设计目标蛋白质的新型的信号肽氨基酸序列；

(3)构建和模拟模块，用于构建目标蛋白质的信号肽和新型信号肽的初始构象，进行分子动力学模拟；

(4)提取模块，用于提取目标蛋白质的信号肽和新型信号肽的稳定结构。

7.根据权利要求6所述的装置，其中构建和模拟模块包括：

(a)初始构象构建模块，用于基于获取模块获取的信号肽的天然氨基酸序列和设计模块设计的新型信号肽的氨基酸序列，基于生物信息学的从头算方法，构建目标蛋白质的信号肽和新型信号肽的初始构象；

(b)溶剂化模块，用于对目标蛋白质的信号肽和新型信号肽进行溶剂化；

(c)能量极小化模块，用于对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行能量极小化；

(d)NVT平衡模块，用于在能量极小化模块的基础上，采用恒温器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NVT平衡；

(e)NPT平衡模块，用于在NVT平衡模块的基础上，采用恒压器对溶剂化的目标蛋白质的信号肽和新型信号肽体系进行NPT平衡；

(f)计算和存储模块，用于在NPT平衡模块的基础上，对溶剂化的目标蛋白质的信号肽和新型信号肽进行长时间的分子动力学计算，存储体系的坐标、速度、能量等数据。

优选地，其中设计模块采用如下的方式：

优选地，其中初始构象构建模块中所述的基于生物信息学的从头算方法是采用多肽结构预测PEP-FOLD3方法。

优选地，其中溶剂化模块采用如下的方式：

优选地，其中力场是Charmm36力场；水模型为TIP3P；溶剂盒子为立方体盒子，盒子边界离蛋白质距离为

8.根据权利要求6-7中任一项所述的装置，其中能量极小化模块中能量极小化采用最速下降算法，适当设置能量极小化的步数，确保能量极小化后原子间作用力小于1000kJ/mol nm。

优选地，其中NVT平衡模块中的恒温器为修正的Berendsen恒温器，温度为310K，NVT平衡时间为大于等于100ps。

优选地，其中NPT平衡模块中的恒压器为Parrinello-Rahman耦合器，压强为1.0bar，NPT平衡时间为大于等于100ps。

9.根据权利要求6-8中任一项所述的装置，其中计算和存储模块中的分子动力学计算在NPT系统中进行，其温度、压强保持与NPT平衡模块的NPT平衡相同；分子动力学计算过程中存储体系的坐标、速度、能量等数据的时间间隔为小于等于10ps；分子动力学计算时间的选取需确保目标蛋白质的信号肽和新型信号肽的构象趋于稳定。

优选地，其中提取模块采用如下的方式：

10.根据权利要求6-9任一项所述的装置，其中α-helix含量表述为如下公式(1)：

其中，RMSD表述为如下公式(2)：