CN110517730A - 一种基于机器学习识别嗜热蛋白的方法 - Google Patents

一种基于机器学习识别嗜热蛋白的方法 Download PDF

Info

Publication number
CN110517730A
CN110517730A CN201910824182.7A CN201910824182A CN110517730A CN 110517730 A CN110517730 A CN 110517730A CN 201910824182 A CN201910824182 A CN 201910824182A CN 110517730 A CN110517730 A CN 110517730A
Authority
CN
China
Prior art keywords
protein
thermophilic
model
feature
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910824182.7A
Other languages
English (en)
Inventor
王鲜芳
杜志勇
郜鹏
刘依锋
李鸿飞
陆凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201910824182.7A priority Critical patent/CN110517730A/zh
Publication of CN110517730A publication Critical patent/CN110517730A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及蛋白质分类技术领域,具体是一种基于机器学习识别嗜热蛋白的方法,蛋白质序列特征提取:运用g‑gap氨基酸组成的方法提取蛋白质序列特征;S2、特征降维:运用主成分分析方法对提取出的特征集进行降维;S3、训练模型:将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集,将训练集导入SVM中,对模型进行训练;S4、评价模型;S5、预测和识别嗜热蛋白:训练、测试完成的SVM模型,可以对新的蛋白质序列进行识别,以判断其是否为嗜热蛋白。本发明可以广泛应用于识别嗜热蛋白的相关研究,利用本发明及其提供的预测程序,可以快速预测新蛋白质是否为嗜热蛋白,用于实验鉴定或者其他用途。

Description

一种基于机器学习识别嗜热蛋白的方法
技术领域
本发明涉及蛋白质分类技术领域,具体是一种基于机器学习识别嗜热蛋白的方法。
背景技术
嗜热微生物,主要分布在高温环境下,如地热环境、海底温泉、陆地温泉等,由于它的特殊性质,在工业领域可以将其运用在发酵工业中。存在于嗜热微生物体内的嗜热蛋白在高温环境下,可以保持较好的活性和稳定性,基于这一性质,可以通过对嗜热蛋白的研究来进一步了解蛋白的热稳定性。而且,对嗜热蛋白的研究,能进一步帮助我们对蛋白质折叠、蛋白质结构和功能的关系的认识,同时由于嗜热蛋白可以在极端环境下生存,在工业领域可以设计用于极端环境的生物催化剂。
当前,识别嗜热蛋白主要通过传统的生物学方法完成,使用实验方法对嗜热蛋白进行鉴定,需要耗费大量的人力物力,且成本高,效率低。因此,使用机器学习来进行生物信息学预测,可自动化实现,速度快,成本低,是解决鉴别蛋白质的有效途径。因此,建立一种准确快速的生物信息学预测和识别算法,成为当前这一领域需要解决的主要问题。
因此,针对以上现状,迫切需要开发一种基于机器学习识别嗜热蛋白的方法,以克服当前实际应用中的不足。
发明内容
本发明的目的在于提供一种基于机器学习识别嗜热蛋白的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于机器学习识别嗜热蛋白的方法,包括以下步骤:
S1、蛋白质序列特征提取:将不可直接用于计算的蛋白质序列样本数据转化为方便计算的向量形式的数据样本,运用g-gap氨基酸组成的方法提取蛋白质序列特征,每条蛋白质序列由400维特征表示;
S2、特征降维:运用主成分分析方法对提取出的特征集进行降维,简化机器学习算法的计算开销,提高效率;
S3、训练模型:将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集,将训练集导入SVM中,对模型进行训练;
S4、评价模型:用测试集对训练后的SVM模型进行测试,并通过性能评价指标对模型进行评估,以获得性能最好的SVM模型;
S5、预测和识别嗜热蛋白:训练、测试完成的SVM模型,可以对新的蛋白质序列进行识别,以判断其是否为嗜热蛋白。
作为本发明进一步的方案:步骤S1中,g-gap氨基酸组成方法的具体计算方法为:
表示g-gap的第u(u=1,2,3,…,400)个特征的频率,的表达公式如下:
其中,L表示蛋白质序列的长度,表示第u个g-gap特征在蛋白质序列中出现的次数,g表示两氨基酸残基间隔,将g取0到5,通过比较,获得对识别结果最好的特征集。
作为本发明进一步的方案:步骤S2中,运用主成分分析方法对提取出的特征集进行降维,实现步骤如下:
S21、输入蛋白质样本集D={X1,X2,X3,...,Xm};
S22、对所有数据集中的蛋白质样本进行中心化:
S23、计算样本的协方差矩阵:XXT
S24、对协方差矩阵XXT做特征值分解;
S25、取最大的d个特征值所对应的特征向量w1,w2,...,wd
作为本发明进一步的方案:步骤S3中,SVM的核函数选用RBF核函数,其参数惩罚因子运用网络搜索方法和五折交叉测试来确定。
作为本发明进一步的方案:步骤S4中,用测试集对训练后的SVM进行测试,并通过性能评价指标对模型进行评估,评价指标使用如下方法:
对于二分类问题,将机器学习算法对样本的预测结果与真实情况进行比较,可以将结果划分为四种情况:真正例,假正例,真反例,假反例,如下表所示:
使用召回率、精确率和F1指标综合预测模型的性能,判断所得模型的优劣:
精确度ACC:
查准率P:
查全率R:
F1指标:
与现有技术相比,本发明的有益效果是:本发明可以广泛应用于识别嗜热蛋白的相关研究,利用本发明及其提供的预测程序,可以快速预测新蛋白质是否为嗜热蛋白,用于实验鉴定或者其他用途。
附图说明
图1为基于机器学习识别嗜热蛋白的方法的步骤流程图。
图2为基于机器学习识别嗜热蛋白的方法中氨基酸种类图。
图3为基于机器学习识别嗜热蛋白的方法中降维结果示意图。
图4为基于机器学习识别嗜热蛋白的方法中模型性能预测图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。
请参阅图1-4,一种基于机器学习识别嗜热蛋白的方法,包括以下步骤:
S1、蛋白质序列特征提取;
S2、特征降维;
S3、训练模型;
S4、评价模型;
S5、预测和识别嗜热蛋白。
本实施例中采用的数据集来自UniProt(UniProt是UniversalProtein的英文缩写,是信息最丰富、资源最广的蛋白质数据库),根据最适温度的标记分别从136个原核有机体中选取嗜热蛋白和常温蛋白序列,并通过严格的筛选和去除冗余序列的过程,最终得到了包含915个嗜热蛋白和793个常温蛋白的数据集。
S1、蛋白质序列特征提取
首先对数据集中的蛋白质样本特征向量化。蛋白质由20种氨基酸脱水缩合而成,参与构成蛋白质分子的二十种常见氨基酸如图2所示,蛋白质序列是由字符组成的一条字符序列,这个字符集合为{A,V,L,I,F,P,M,S,T,C,W,Y,N,Q,D,E,K,R,H,G},分别代表这20种氨基酸。
本发明采用g-gap氨基酸组成的方法表征蛋白质序列,将不可直接用于计算的蛋白质序列样本数据转化为方便计算的向量形式的数据样本。
g-gap氨基酸组成方法的具体计算方法为:
表示g-gap的第u(u=1,2,3,…,400)个特征的频率。的表达公式为:
其中,L表示蛋白质序列的长度,表示第u个g-gap特征在蛋白质序列中出现的次数;
本发明中,将g分别取0到5,并通过交叉验证的方法对其结果进行比较,当g取值为3时,最终预测精度最优,通过g-gap氨基酸组成的方法,数据集中的每一条蛋白质序列由400维特征表示;
S2、特征降维
为简化机器学习算法的计算开销,提高效率,本发明运行主成分分析的方法对特征提取后的蛋白质序列进行特征降维处理,具体步骤为:
给定数据样本(输入蛋白质样本集)D={X1,X2,X3,...,X1708};
对所有数据集中的蛋白质样本进行中心化处理,即∑ixi=0;假定投影变换后得到的新坐标系为{w1,w2,...,w400},其中的wi是标准正交基向量,||wi||2=1,将原来的特征维度降到d维,则xi在低纬坐标系中的投影为zi=(zi1;zi2;...;zid),其中是xi在低纬坐标系下第j维坐标;
投影后样本的最大方差为优化目标为s.t.WTW=I;
使用拉格朗日乘子法得XXTW=λW,对协方差矩阵XXT进行特征值分解并对特征值进行排序,取前d个特征值对应的特征向量构成降维后的特征向量W=(w1,w2,...,wd);
按照以上步骤,在本实例中将d从1取值到400,通过比较,找出对预测结果最优的维数,其结果如图3所示,最终将d取为22,即将蛋白质序列特征提取出的400维特征降为22维;
S3、训练模型
将数据集中蛋白质样本特征提取并降维后,将数据集随机划分为训练集和测试集。根据SVM算法建立并使用训练数据训练好的分类模型,核函数选用RBF核函数,惩罚因子参数通过网格搜索方法和五倍交叉测试所得到,其中惩罚因子C选为1.0,gamma选为0.001。
在确定过SVM的运行参数后,对实施例中数据进行了训练和预测,预测准确率达到93.27%;
S4、评价模型
对于二分类问题,将机器学习算法对样本的预测结果与真实情况进行比较,可以将结果划分为四种情况:真正例,假正例,真反例,假反例,如下表所示:
使用召回率、精确率和F1指标综合预测模型的性能,判断所得模型的优劣:
精确度ACC:
精确率P:
召回率R:
F1指标:
其结果如图4所示,从图4中可看出,本文训练的模型对嗜热蛋白的预测精度达到93%,对常温蛋白的预测达到94%,平均预测精度为93%,预测结果较为理想。
S5、预测和识别嗜热蛋白
训练好的模型可以对新的蛋白质序列进行识别,将一条新的蛋白质序列输入本发明的模型中,模型会识别其是否为嗜热蛋白。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。

Claims (5)

1.一种基于机器学习识别嗜热蛋白的方法,其特征在于,包括以下步骤:
S1、蛋白质序列特征提取:将不可直接用于计算的蛋白质序列样本数据转化为方便计算的向量形式的数据样本,运用g-gap氨基酸组成的方法提取蛋白质序列特征,每条蛋白质序列由400维特征表示;
S2、特征降维:运用主成分分析方法对提取出的特征集进行降维;
S3、训练模型:将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集,将训练集导入SVM中,对模型进行训练;
S4、评价模型:用测试集对训练后的SVM模型进行测试,并通过性能评价指标对模型进行评估,获得性能最好的SVM模型;
S5、预测和识别嗜热蛋白:训练、测试完成的SVM模型,可以对新的蛋白质序列进行识别,以判断其是否为嗜热蛋白。
2.根据权利要求1所述的基于机器学习识别嗜热蛋白的方法,其特征在于,步骤S1中,g-gap氨基酸组成方法的具体计算方法为:
表示g-gap的第u(u=1,2,3,…,400)个特征的频率,的表达公式如下:
其中,L表示蛋白质序列的长度,表示第u个g-gap特征在蛋白质序列中出现的次数,g表示两氨基酸残基间隔,将g取0到5,通过比较,获得对识别结果最好的特征集。
3.根据权利要求2所述的基于机器学习识别嗜热蛋白的方法,其特征在于,步骤S2中,运用主成分分析方法对提取出的特征集进行降维,实现步骤如下:
S21、输入蛋白质样本集D={X1,X2,X3,...,Xm};
S22、对所有数据集中的蛋白质样本进行中心化:
S23、计算样本的协方差矩阵:XXT
S24、对协方差矩阵XXT做特征值分解;
S25、取最大的d个特征值所对应的特征向量w1,w2,...,wd
4.根据权利要求1-3任一所述的基于机器学习识别嗜热蛋白的方法,其特征在于,步骤S3中,SVM的核函数选用RBF核函数,其参数惩罚因子运用网络搜索方法和五折交叉测试来确定。
5.根据权利要求4所述的基于机器学习识别嗜热蛋白的方法,其特征在于,步骤S4中,用测试集对训练后的SVM进行测试,并通过性能评价指标对模型进行评估,评价指标使用如下方法:
对于二分类问题,将机器学习算法对样本的预测结果与真实情况进行比较,将结果划分为四种情况:真正例TP、假正例FP、真反例TN、假反例FN,使用召回率、精确率和F1指标综合预测模型的性能,判断所得模型的优劣:
精确度ACC:
查准率P:
查全率R:
F1指标:
CN201910824182.7A 2019-09-02 2019-09-02 一种基于机器学习识别嗜热蛋白的方法 Pending CN110517730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910824182.7A CN110517730A (zh) 2019-09-02 2019-09-02 一种基于机器学习识别嗜热蛋白的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910824182.7A CN110517730A (zh) 2019-09-02 2019-09-02 一种基于机器学习识别嗜热蛋白的方法

Publications (1)

Publication Number Publication Date
CN110517730A true CN110517730A (zh) 2019-11-29

Family

ID=68630498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910824182.7A Pending CN110517730A (zh) 2019-09-02 2019-09-02 一种基于机器学习识别嗜热蛋白的方法

Country Status (1)

Country Link
CN (1) CN110517730A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397138A (zh) * 2020-09-21 2021-02-23 内蒙古民族大学 基于ai技术绘制毒株蛋白质二维谱的方法
CN112906755A (zh) * 2021-01-27 2021-06-04 深圳职业技术学院 一种植物抗性蛋白识别方法、装置、设备和存储介质
CN113971985A (zh) * 2021-12-13 2022-01-25 电子科技大学长三角研究院(衢州) 基于集成学习的嗜热蛋白的识别方法、存储介质及设备
CN115472229A (zh) * 2022-09-13 2022-12-13 苏州大学 一种嗜热蛋白预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009405A (zh) * 2017-12-26 2018-05-08 重庆佰诺吉生物科技有限公司 一种基于机器学习技术预测细菌外膜蛋白质的方法
WO2019041333A1 (zh) * 2017-08-31 2019-03-07 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019041333A1 (zh) * 2017-08-31 2019-03-07 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN108009405A (zh) * 2017-12-26 2018-05-08 重庆佰诺吉生物科技有限公司 一种基于机器学习技术预测细菌外膜蛋白质的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刀福英等: "基于物化性质对嗜热蛋白的预测", 《生物信息学》 *
张光亚等: "基于支持向量机识别嗜热和常温蛋白的研究", 《计算机与应用化学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397138A (zh) * 2020-09-21 2021-02-23 内蒙古民族大学 基于ai技术绘制毒株蛋白质二维谱的方法
CN112397138B (zh) * 2020-09-21 2024-02-13 闽南师范大学 基于ai技术绘制毒株蛋白质二维谱的方法
CN112906755A (zh) * 2021-01-27 2021-06-04 深圳职业技术学院 一种植物抗性蛋白识别方法、装置、设备和存储介质
CN113971985A (zh) * 2021-12-13 2022-01-25 电子科技大学长三角研究院(衢州) 基于集成学习的嗜热蛋白的识别方法、存储介质及设备
CN115472229A (zh) * 2022-09-13 2022-12-13 苏州大学 一种嗜热蛋白预测方法及装置
CN115472229B (zh) * 2022-09-13 2024-10-18 苏州大学 一种嗜热蛋白预测方法及装置

Similar Documents

Publication Publication Date Title
CN110517730A (zh) 一种基于机器学习识别嗜热蛋白的方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN108897989A (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
CN102693452A (zh) 基于半监督回归学习的多模型软测量方法
CN103530321A (zh) 一种基于机器学习的排序系统
CN109508740B (zh) 基于高斯混合噪声生成式对抗网络的物体硬度识别方法
CN109543731A (zh) 一种自训练框架下的三优选半监督回归算法
CN109448787A (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN110265085A (zh) 一种蛋白质相互作用位点识别方法
CN117434429B (zh) 芯片的稳定性测试方法及相关装置
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
CN105096345A (zh) 一种基于动态测量矩阵的目标跟踪方法及系统
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
CN105930859A (zh) 基于线性流形聚类的雷达信号分选方法
CN115472233A (zh) 基于热扩散标签传播的半监督集成工业过程软测量建模方法、系统
CN103310205A (zh) 一种手写体数字识别方法及装置
CN109993188B (zh) 数据标签识别方法、行为识别方法及装置
CN106250818A (zh) 一种全序保持投影的人脸年龄估计方法
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN109886151A (zh) 一种虚假身份属性检测方法
CN113033683B (zh) 一种基于静态与动态联合分析的工业系统工况监测方法和系统
CN112348700B (zh) 一种结合som聚类与ifou方程的线路容量预测方法
CN104573727A (zh) 一种手写体数字图像降维方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication