CN110517730A

CN110517730A - 一种基于机器学习识别嗜热蛋白的方法

Info

Publication number: CN110517730A
Application number: CN201910824182.7A
Authority: CN
Inventors: 王鲜芳; 杜志勇; 郜鹏; 刘依锋; 李鸿飞; 陆凡
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-11-29

Abstract

本发明涉及蛋白质分类技术领域，具体是一种基于机器学习识别嗜热蛋白的方法，蛋白质序列特征提取：运用g‑gap氨基酸组成的方法提取蛋白质序列特征；S2、特征降维：运用主成分分析方法对提取出的特征集进行降维；S3、训练模型：将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集，将训练集导入SVM中，对模型进行训练；S4、评价模型；S5、预测和识别嗜热蛋白：训练、测试完成的SVM模型，可以对新的蛋白质序列进行识别，以判断其是否为嗜热蛋白。本发明可以广泛应用于识别嗜热蛋白的相关研究，利用本发明及其提供的预测程序，可以快速预测新蛋白质是否为嗜热蛋白，用于实验鉴定或者其他用途。

Description

一种基于机器学习识别嗜热蛋白的方法

技术领域

本发明涉及蛋白质分类技术领域，具体是一种基于机器学习识别嗜热蛋白的方法。

背景技术

嗜热微生物，主要分布在高温环境下，如地热环境、海底温泉、陆地温泉等，由于它的特殊性质，在工业领域可以将其运用在发酵工业中。存在于嗜热微生物体内的嗜热蛋白在高温环境下，可以保持较好的活性和稳定性，基于这一性质，可以通过对嗜热蛋白的研究来进一步了解蛋白的热稳定性。而且，对嗜热蛋白的研究，能进一步帮助我们对蛋白质折叠、蛋白质结构和功能的关系的认识，同时由于嗜热蛋白可以在极端环境下生存，在工业领域可以设计用于极端环境的生物催化剂。

当前，识别嗜热蛋白主要通过传统的生物学方法完成，使用实验方法对嗜热蛋白进行鉴定，需要耗费大量的人力物力，且成本高，效率低。因此，使用机器学习来进行生物信息学预测，可自动化实现，速度快，成本低，是解决鉴别蛋白质的有效途径。因此，建立一种准确快速的生物信息学预测和识别算法，成为当前这一领域需要解决的主要问题。

因此，针对以上现状，迫切需要开发一种基于机器学习识别嗜热蛋白的方法，以克服当前实际应用中的不足。

发明内容

本发明的目的在于提供一种基于机器学习识别嗜热蛋白的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于机器学习识别嗜热蛋白的方法，包括以下步骤：

S1、蛋白质序列特征提取：将不可直接用于计算的蛋白质序列样本数据转化为方便计算的向量形式的数据样本，运用g-gap氨基酸组成的方法提取蛋白质序列特征，每条蛋白质序列由400维特征表示；

S2、特征降维：运用主成分分析方法对提取出的特征集进行降维，简化机器学习算法的计算开销，提高效率；

S3、训练模型：将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集，将训练集导入SVM中，对模型进行训练；

S4、评价模型：用测试集对训练后的SVM模型进行测试，并通过性能评价指标对模型进行评估，以获得性能最好的SVM模型；

S5、预测和识别嗜热蛋白：训练、测试完成的SVM模型，可以对新的蛋白质序列进行识别，以判断其是否为嗜热蛋白。

作为本发明进一步的方案：步骤S1中，g-gap氨基酸组成方法的具体计算方法为：

表示g-gap的第u(u＝1,2,3，…，400)个特征的频率，的表达公式如下：

其中，L表示蛋白质序列的长度，表示第u个g-gap特征在蛋白质序列中出现的次数，g表示两氨基酸残基间隔，将g取0到5，通过比较，获得对识别结果最好的特征集。

作为本发明进一步的方案：步骤S2中，运用主成分分析方法对提取出的特征集进行降维，实现步骤如下：

S21、输入蛋白质样本集D＝{X₁,X₂,X₃，...，X_m}；

S22、对所有数据集中的蛋白质样本进行中心化：

S23、计算样本的协方差矩阵：XX^T；

S24、对协方差矩阵XX^T做特征值分解；

S25、取最大的d个特征值所对应的特征向量w₁,w₂,...,w_d。

作为本发明进一步的方案：步骤S3中，SVM的核函数选用RBF核函数，其参数惩罚因子运用网络搜索方法和五折交叉测试来确定。

作为本发明进一步的方案：步骤S4中，用测试集对训练后的SVM进行测试，并通过性能评价指标对模型进行评估，评价指标使用如下方法：

对于二分类问题，将机器学习算法对样本的预测结果与真实情况进行比较，可以将结果划分为四种情况：真正例，假正例，真反例，假反例，如下表所示：

使用召回率、精确率和F1指标综合预测模型的性能，判断所得模型的优劣：

精确度ACC：

查准率P：

查全率R：

F1指标：

与现有技术相比，本发明的有益效果是：本发明可以广泛应用于识别嗜热蛋白的相关研究，利用本发明及其提供的预测程序，可以快速预测新蛋白质是否为嗜热蛋白，用于实验鉴定或者其他用途。

附图说明

图1为基于机器学习识别嗜热蛋白的方法的步骤流程图。

图2为基于机器学习识别嗜热蛋白的方法中氨基酸种类图。

图3为基于机器学习识别嗜热蛋白的方法中降维结果示意图。

图4为基于机器学习识别嗜热蛋白的方法中模型性能预测图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

下面详细描述本专利的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本专利，而不能理解为对本专利的限制。

请参阅图1-4，一种基于机器学习识别嗜热蛋白的方法，包括以下步骤：

S1、蛋白质序列特征提取；

S2、特征降维；

S3、训练模型；

S4、评价模型；

S5、预测和识别嗜热蛋白。

本实施例中采用的数据集来自UniProt(UniProt是UniversalProtein的英文缩写，是信息最丰富、资源最广的蛋白质数据库)，根据最适温度的标记分别从136个原核有机体中选取嗜热蛋白和常温蛋白序列，并通过严格的筛选和去除冗余序列的过程，最终得到了包含915个嗜热蛋白和793个常温蛋白的数据集。

S1、蛋白质序列特征提取

首先对数据集中的蛋白质样本特征向量化。蛋白质由20种氨基酸脱水缩合而成，参与构成蛋白质分子的二十种常见氨基酸如图2所示，蛋白质序列是由字符组成的一条字符序列，这个字符集合为{A,V,L,I,F,P,M,S,T,C,W,Y,N,Q,D,E,K,R,H,G}，分别代表这20种氨基酸。

本发明采用g-gap氨基酸组成的方法表征蛋白质序列，将不可直接用于计算的蛋白质序列样本数据转化为方便计算的向量形式的数据样本。

g-gap氨基酸组成方法的具体计算方法为：

表示g-gap的第u(u＝1,2,3，…，400)个特征的频率。的表达公式为：

其中，L表示蛋白质序列的长度，表示第u个g-gap特征在蛋白质序列中出现的次数；

本发明中，将g分别取0到5，并通过交叉验证的方法对其结果进行比较，当g取值为3时，最终预测精度最优，通过g-gap氨基酸组成的方法，数据集中的每一条蛋白质序列由400维特征表示；

S2、特征降维

为简化机器学习算法的计算开销，提高效率，本发明运行主成分分析的方法对特征提取后的蛋白质序列进行特征降维处理，具体步骤为：

给定数据样本(输入蛋白质样本集)D＝{X₁,X₂,X₃，...，X₁₇₀₈}；

对所有数据集中的蛋白质样本进行中心化处理，即∑_ix_i＝0；假定投影变换后得到的新坐标系为{w₁,w₂,...,w₄₀₀}，其中的w_i是标准正交基向量，||w_i||₂＝1，将原来的特征维度降到d维，则x_i在低纬坐标系中的投影为z_i＝(z_i1；z_i2；...；z_id)，其中是x_i在低纬坐标系下第j维坐标；

投影后样本的最大方差为优化目标为s.t.W^TW＝I；

使用拉格朗日乘子法得XX^TW＝λW,对协方差矩阵XX^T进行特征值分解并对特征值进行排序，取前d个特征值对应的特征向量构成降维后的特征向量W＝(w₁,w₂,...,w_d)；

按照以上步骤，在本实例中将d从1取值到400，通过比较，找出对预测结果最优的维数，其结果如图3所示，最终将d取为22，即将蛋白质序列特征提取出的400维特征降为22维；

S3、训练模型

将数据集中蛋白质样本特征提取并降维后，将数据集随机划分为训练集和测试集。根据SVM算法建立并使用训练数据训练好的分类模型，核函数选用RBF核函数，惩罚因子参数通过网格搜索方法和五倍交叉测试所得到，其中惩罚因子C选为1.0，gamma选为0.001。

在确定过SVM的运行参数后，对实施例中数据进行了训练和预测，预测准确率达到93.27％；

S4、评价模型

精确度ACC：

精确率P：

召回率R：

F1指标：

其结果如图4所示，从图4中可看出，本文训练的模型对嗜热蛋白的预测精度达到93％，对常温蛋白的预测达到94％，平均预测精度为93％，预测结果较为理想。

S5、预测和识别嗜热蛋白

训练好的模型可以对新的蛋白质序列进行识别，将一条新的蛋白质序列输入本发明的模型中，模型会识别其是否为嗜热蛋白。

以上的仅是本发明的优选实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。

Claims

1.一种基于机器学习识别嗜热蛋白的方法，其特征在于，包括以下步骤：

S2、特征降维：运用主成分分析方法对提取出的特征集进行降维；

S4、评价模型：用测试集对训练后的SVM模型进行测试，并通过性能评价指标对模型进行评估，获得性能最好的SVM模型；

2.根据权利要求1所述的基于机器学习识别嗜热蛋白的方法，其特征在于，步骤S1中，g-gap氨基酸组成方法的具体计算方法为：

3.根据权利要求2所述的基于机器学习识别嗜热蛋白的方法，其特征在于，步骤S2中，运用主成分分析方法对提取出的特征集进行降维，实现步骤如下：

S21、输入蛋白质样本集D＝{X₁,X₂,X₃，...，X_m}；

S22、对所有数据集中的蛋白质样本进行中心化：

S23、计算样本的协方差矩阵：XX^T；

S24、对协方差矩阵XX^T做特征值分解；

S25、取最大的d个特征值所对应的特征向量w₁,w₂,...,w_d。

4.根据权利要求1-3任一所述的基于机器学习识别嗜热蛋白的方法，其特征在于，步骤S3中，SVM的核函数选用RBF核函数，其参数惩罚因子运用网络搜索方法和五折交叉测试来确定。

5.根据权利要求4所述的基于机器学习识别嗜热蛋白的方法，其特征在于，步骤S4中，用测试集对训练后的SVM进行测试，并通过性能评价指标对模型进行评估，评价指标使用如下方法：

对于二分类问题，将机器学习算法对样本的预测结果与真实情况进行比较，将结果划分为四种情况：真正例TP、假正例FP、真反例TN、假反例FN，使用召回率、精确率和F1指标综合预测模型的性能，判断所得模型的优劣：

精确度ACC：

查准率P：

查全率R：

F1指标：