CN110428865B

CN110428865B - 一种高通量预测抗冻蛋白质的方法

Info

Publication number: CN110428865B
Application number: CN201910750385.6A
Authority: CN
Inventors: 张健; 叶楠; 段雪源
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2021-08-20
Anticipated expiration: 2039-08-14
Also published as: CN110428865A

Abstract

本发明属于生物信息学、数据挖掘及智能计算领域，具体涉及一种高通量预测抗冻蛋白质的方法。包括以下步骤：S1，根据抗冻蛋白质的生物属性，计算与抗冻性能相关的特征；S2，通过最小化一个目标函数，把额外的约束或者惩罚项加到已有模型上，防止过拟合，LASSO迫使弱的特征所对应的正则化系数为0，得到稀疏矩阵，实现特征选择；S3，采用多元非线性逻辑回归函数构建抗冻蛋白质预测模型；S4，对于未知蛋白质，如果已知其种族属性，选择相对应的模型进行预测；如果未知其种族属性，则使用4种模型分别进行预测，给出输出结果；本发明能够预测不同类型的抗冻蛋白质，极大地提高识别的准确率和效率，给大规模预测抗冻蛋白质提供便捷。

Description

一种高通量预测抗冻蛋白质的方法

技术领域

本发明属于生物信息学、数据挖掘及智能计算领域，具体涉及一种高通量预测抗冻蛋白质的方法。

背景技术

抗冻蛋白质(Antifreeze proteins)是一种能够保证生命体在低温(零度以下)环境中生存的特殊蛋白质。抗冻蛋白质能够在冰晶表面吸附，阻止冰晶体的生长，维持生命体在低温环境下的正常活动和化学反应。抗冻蛋白质广泛分布在细菌、真菌、植物和动物中。抗冻蛋白质是指具有提高生物抗冻能力的蛋白质类化合物的总称。

抗冻蛋白质具有重要的科研、医疗和商业价值。例如，增加农作物和水产品在寒冷气候区域或者环境下的产量，提高冷冻手术的效果，增强医学移植和组织的保存效果，延长冷冻食品的保质期等。近年来，冻伤患者的治疗中使用抗冻蛋白质可以有效避免伤口发炎，寒带的鱼类中的抗冻蛋白质已经成功运用到冰激凌和酸奶产品的制作中。

考虑到抗冻蛋白质的重要性，众多生物公司、科研机构纷纷开展对其的深入研究。生物学家们常常使用各种精密的生物物理、生物化学设备分析探究抗冻蛋白质。这些仪器设备昂贵，操作精密，花费时间较长，对操作人员的要求非常高。因此，这些方法普遍效率较低，当需要预测大规模未知蛋白质或者蛋白质组的时候，显得力不从心。

而且，使用传统的生物物理、生物化学仪器探测抗冻蛋白质存在以下不足：

①分析探测抗冻蛋白质的仪器设备不仅昂贵，而且对操作人员的专业水平要求很高。这就影响了探测的准确性和可重复性；

②抗冻蛋白质必须在特定的低温条件下才能发挥自身作用，一旦温度回升，或是酸碱度降低时，抗冻蛋白又会完全失去活性。实验中既需要模拟这种特定的低温环境，又需要确保生物体的活性，对实验环境的要求较高；同样，低温环境可能会给生物体组织的活性造成不可预见的影响；

③不同种类的抗冻蛋白质的抗冻机理和探测方法有较大的不同，因此，需要多种不同的设备对这些抗冻蛋白质进行研究。如果事先并不知道抗冻蛋白质的类型，实验中对其进行探测就很容易出现错误。

发明内容

本发明旨在提供一种高通量预测抗冻蛋白质的方法，可以广泛适用于蛋白质组学上的研究。

为实现上述目的，本发明采用如下技术方案：

一种高通量预测抗冻蛋白质的方法，包括以下步骤：

S1，特征提取与特征空间：分别构建细菌、真菌、植物或者动物中任一种族相关的抗冻蛋白质和非抗冻蛋白质的基准数据集；在基准数据集上，进行特征提取，根据抗冻蛋白质的生物属性，计算与抗冻性能相关的特征，构建特征向量空间

与抗冻性能相关的特征包括：进化保守性特征，二级结构特征，物理化学属性；

S2，LASSO特征选择：在S1的构建的特征向量空间的基础上，使用LASSO方法进行特征选择，通过最小化一个目标函数，把额外的约束或者惩罚项加到已有模型上，防止过拟合，LASSO迫使弱的特征所对应的正则化系数为0，得到稀疏矩阵，最后选择正则化系数不为0的特征组成最优特征子集；

S3，多元非线性模型构建：在最优特征子集的基础上，采用多元非线性逻辑回归函数构建预测模型，多元非线性逻辑回归函数构建预测模型为：

式中：y表示预测结果，x表示最优特征向量空间，最优特征向量空间对应最优特征子集中特征的具体数值；

S4，种族特异性策略：参照S1-S3的步骤，分别构建细菌、真菌、植物或者动物中其他三个种族的预测模型；

对于未知抗冻性蛋白质，如果已知其种族属性，选择相对应种族的预测模型进行预测；如果未知其种族属性，则使用4个种族的模型分别进行预测，给出每种模型的输出结果，预测数值最高的即为该预测模型所属种族最可能的抗冻蛋白质；

其中，利用S1-S2的方法构建未知蛋白质的最优特征子集，然后利用预测模型得出结果，输出概率值在0到1之间，0代表了预测为抗冻蛋白质的概率值为0％，1代表该概率值为100％。

进一步的，S1具体包括以下步骤：

(1)使用PSIBALST计算抗冻蛋白质的进化保守性特征，使用PSIBLAST默认参数计算多序列比对图谱(MLA)，其中包括PSSM(位置特异性打分矩阵)和WOP(加权观察矩阵)，PSSM和WOP均由大小为L×20的得分矩阵构成，其中L表示蛋白质序列的残基个数，20表示20种标准氨基酸：

在PSSM和WOP的基础上，分别累计20种氨基酸在PSSM和WOP上的平均得分，如下所示：

最后，抗冻蛋白质的进化保守性特征由PSSM₄₀₀和WOP₄₀₀共同构成；

(2)使用PSIPRED计算抗冻蛋白质的二级结构特征，二级结构特征包括二级结构motif特征、二级结构含量特征，二级结构motif特征包括统计以下24种motif的占比：CHC、CHE、EHC、EHE、HCH、ECH、HCE、ECE、CEC、HEC、CEH、HEH、XHC、XHE、CHX、EHX、XCH、XCE、HCX、ECX、XEC、XEH、CEX、HEX。其中CHE，X-和-X分别代表卷曲、螺旋、折叠、序列头部和序列尾部，二级结构含量特征分别统计卷曲、螺旋和折叠三种二级结构在所有结构中的百分比；

(3)收集7种与抗冻蛋白质相关的物理化学属性，具体包括：亲水性、疏水性、极性、转化自由能特性、溶剂接触面积、柔性和激酶活性，本发明首先计算抗冻蛋白质所有残基在这7种物理化学属性上的具体数值，然后归一化到[0-1]范围内。

进一步的，S2具体为：

使用Matlab自带的LASSO算法，并使用默认参数进行计算，对于输出的稀疏矩阵，逐一选择每一列挑选其中不为0的位置所对应的特征，选择特征子集在基准训练集上构建模型并使用5折交叉验证获得对应的预测结果，本发明使用最佳预测结果所对应的特征子集即为最优特征子集。

与现有技术相比，本发明具有如下技术效果：

本发明提出了一种高通量预测抗冻蛋白质的方法。分别构建细菌、真菌、植物和动物的抗冻蛋白质数据集，并构造与抗冻功能相关的进化保守性特征、二级结构特征和物理化学属性特征；采用LASSO算法构造特征空间的稀疏矩阵并进行特征选择；使用逻辑回归函数构建预测模型；针对4种不同种族的蛋白质构建种族特异性模型。相较于传统的生物物理、生物化学实验方法，本发明是一种基于计算的预测方法，具备高通量、高效率、易实现的特征，并且可以大规模应用于各种蛋白质组的预测中，具有较高的实用价值。

附图说明

图1为本发明方案流程图。

图2为24种二级结构motif在抗冻蛋白质和非抗冻蛋白质数据集上的分布。

图3为LASSO特征选择得到的最优特征子集中各种类型特征的分布情况。

图4为种族特异性模型和一般模型的预测结果对比。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明，但不应理解为本发明的限制。如未特殊说明，下述实施例中所用的技术手段为本领域技术人员所熟知的常规手段，下述实施例中所用的数据、材料等，如无特殊说明，均可从商业途径得到。

实施例1

S1，首先，分别构建细菌、真菌、植物或者动物中任一种族相关的抗冻蛋白质和非抗冻蛋白质的基准数据集。具体地，从Uniprot数据库(https://www.uniprot.org/)中，分别搜索“antifreeze AND bacteria”、“antifreeze AND epiphyte”、“antifreeze ANDplant”和“antifreeze AND animal”获得抗冻蛋白质；分别搜索“Not contains:antifreeze，AND bacteria”、“Not contains:antifreeze，AND epiphyte”、“Notcontains:antifreeze，AND plant”、“Not contains:antifreeze，AND animal”获得非抗冻蛋白质。在基准数据集上，进行特征提取和构建特征空间：根据抗冻蛋白质的生物属性，计算与抗冻性能相关的特征。具体包括以下步骤：

(1)使用PSIBALST在nr数据库(nr是non-redundant的缩写，意为非冗余蛋白质序列数据库，PSIBLAST可从官方网站ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+下载得到，nr数据库可从ftp://ftp.ncbi.nlm.nih.gov/blast/db/下载得到)上的比对生成PSSM(PSSM是position specific score matrix的缩写，意为位置特异性打分矩阵)文件。这里使用PSIBLAST默认参数进行计算，PSIBLAST的输入为抗冻蛋白质和非抗冻蛋白质序列，输出为序列比对图谱。PSSM文件包括计算抗冻蛋白质的进化保守性特征，使用PSIBLAST默认参数计算多序列比对图谱(MLA)，其中包括PSSM(位置特异性打分矩阵)和(WOP)加权观察矩阵，PSSM和WOP均由大小为L×20的得分矩阵构成，其中L表示蛋白质序列的残基个数，20表示20种标准氨基酸，得出：

式1和式2中，L表示蛋白质序列长度，A-V代表20种标准氨基酸。

式3和式4中，A-V代表20种标准氨基酸。最后，抗冻蛋白质的进化保守性特征由PSSM₄₀₀和WOP₄₀₀共同构成；

(2)使用PSIPRED(PSIPRED可从http://bioinf.cs.ucl.ac.uk/psipred/下载)计算抗冻蛋白质的二级结构特征。PSIPRED的输入为蛋白质一级序列，输出为蛋白质上每个氨基酸的预测二级结构信息。本发明涉及的二级结构特征包括二级结构motif特征、二级结构含量特征，二级结构motif特征包括统计以下24种motif的占比：CHC、CHE、EHC、EHE、HCH、ECH、HCE、ECE、CEC、HEC、CEH、HEH、XHC、XHE、CHX、EHX、XCH、XCE、HCX、ECX、XEC、XEH、CEX、HEX。其中C代表卷曲，H代表螺旋，E代表折叠，X-代表序列头部，-X代表序列尾部，二级结构含量特征分别统计卷曲、螺旋和折叠三种二级结构在所有结构中的百分比。图2给出了24种motif在抗冻蛋白质和非抗冻蛋白质数据集上的分布情况；

(3)从已发表文献中，收集7种与抗冻蛋白质相关的物理化学属性，具体包括：亲水性、疏水性、极性、转化自由能特性、溶剂接触面积、柔性和激酶活性，本发明首先计算抗冻蛋白质所有残基在这7种物理化学属性上的具体数值，然后归一化到[0-1]范围内；

表1给出了不同类型特征以及不同组合的特征在基准训练集(从基准数据集中随机抽取70％的抗冻蛋白质和相同数目的非抗冻蛋白质构成基准训练集)进行5折交叉验证上的预测效果。三种特征分别给出了0.19～0.24的MCC值和0.56～0.62的AUC值；相比较而言，两种不同类型特征的组合能够取得较好的预测效果，MCC值提升到0.25～0.31，AUC值提升到0.63～0.71；三种特征的组合取得了最好的预测结果，敏感性和特异性分别为0.68和0.80，MCC值和AUC值为0.33和0.74，这些均为各种不同类型特征(组合)中最佳的预测结果。

表1.各特征(组合)在基准训练集上的预测效果

S2，在S1的构建的特征向量空间的基础上，使用LASSO方法进行特征选择。LASSO的原理是通过最小化一个目标函数，把额外的约束或者惩罚项加到已有模型上，防止过拟合，LASSO迫使弱的特征所对应的正则化系数为0，得到稀疏矩阵，最后选择正则化系数不为0的特征组成最优特征子集；

具体的，使用Matlab自带的LASSO算法，并使用默认参数进行计算，输入特征向量空间，对于输出的稀疏矩阵，逐一选择每一列挑选其中不为0的位置所对应的特征，选择特征子集在基准训练集上构建模型并使用5折交叉验证获得对应的预测结果，本发明使用AUC值最高的预测模型所对应的特征子集即为最优特征子集；

表2给出了不同特征选择方法在基准训练集上的预测效果。其中wrapper方法的敏感性为0.71，特异性为0.83，MCC值和AUC值分别为0.35和0.76；相比较而言，filter方法略微高于wrapper方法，也取得了0.36的MCC值和0.77的AUC值。本发明采用的LASSO方法获得了最佳的预测效果。其敏感性值达到了0.77，特异性值为0.86，MCC值、F1值和AUC值分别为0.40、0.39和0.80，均为三种特征选择方法的最高值。

表2.不同特征选择方法在基准训练集上的预测效果

S3，多元非线性模型构建：在最优特征子集的基础上，采用多元非线性逻辑回归函数构建预测模型，

多元非线性逻辑回归函数构建预测模型为：

在多元非线性模型中，损失函数的确定非常重要，其直接决定模型的准确性和泛化性，本发明使用的损失函数为：

图4给出了种族特异性模型和一般模型的预测结果对比。相比较而言，种族特异性模型的结果优于一般模型。这里，一般模型指的是不考虑抗冻蛋白质种族特异性的情况下，使用所有抗冻蛋白质和相同数目的非抗冻蛋白质构建的模型。图4中，建立在细菌和真菌上的特异性模型的结果提升更高。两者的MCC值分别为0.44和0.43，AUC值分别为0.86和0.85。相对于一般模型的MCC值0.39，AUC值0.80，分别提升了约13％和6％。植物和动物特异性模型也有提升，但总体上不如细菌和真菌，这是因为在这两种类型中存在的抗冻蛋白质更多，因此模型具有更高的精确性。另一种方面，也证明了本发明采用的种族特异性策略的有效性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种高通量预测抗冻蛋白质的方法，其特征在于，包括以下步骤：

S1，特征提取与特征空间：分别构建细菌、真菌、植物或者动物中任一种族相关的抗冻蛋白质和非抗冻蛋白质的基准数据集；在基准数据集上，进行特征提取，根据抗冻蛋白质的生物属性，计算与抗冻性能相关的特征，构建特征向量空间；

具体包括以下步骤：

(1)使用PSIBALST计算抗冻蛋白质的进化保守性特征，使用PSIBLAST默认参数计算多序列比对图谱，其中包括PSSM和WOP加权观察矩阵，PSSM和WOP均由大小为L×20的得分矩阵构成，P_i→A和W_i→A分别代表PSSM和WOP中第i位置的残基被替代成其它残基的得分，L表示蛋白质序列的残基个数，20表示20种标准氨基酸：

其中，P_A→A和W_A→A分别代表20种氨基酸在PSSM和WOP上的平均替代得分，最后，抗冻蛋白质的进化保守性特征由PSSM₄₀₀和WOP₄₀₀共同构成；

(2)使用PSIPRED计算抗冻蛋白质的二级结构特征，二级结构特征包括二级结构motif特征、二级结构含量特征，二级结构motif特征包括统计以下24种motif的占比：CHC、CHE、EHC、EHE、HCH、ECH、HCE、ECE、CEC、HEC、CEH、HEH、XHC、XHE、CHX、EHX、XCH、XCE、HCX、ECX、XEC、XEH、CEX、HEX，其中C、H、E、X-和-X分别代表卷曲、螺旋、折叠、序列头部和序列尾部，二级结构含量特征分别统计卷曲、螺旋和折叠三种二级结构在所有结构中的百分比；

(3)收集7种与抗冻蛋白质相关的物理化学属性，具体包括：亲水性、疏水性、极性、转化自由能特性、溶剂接触面积、柔性和激酶活性，首先计算抗冻蛋白质所有残基在这7种物理化学属性上的具体数值，然后归一化到0-1范围内；

2.根据权利要求1所述的一种高通量预测抗冻蛋白质的方法，其特征在于，S2具体为：

使用Matlab自带的LASSO算法，并使用默认参数进行计算，对于输出的稀疏矩阵，逐一选择每一列挑选其中不为0的位置所对应的特征，选择特征子集在基准训练集上构建模型并使用5折交叉验证获得对应的预测结果，使用最佳预测结果所对应的特征子集即为最优特征子集。