CN113971985A

CN113971985A - 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

Info

Publication number: CN113971985A
Application number: CN202111517151.0A
Authority: CN
Inventors: 邹权; 李静; 丁漪杰
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-25

Abstract

基于集成学习的嗜热蛋白的识别方法、存储介质及设备，属于蛋白质识别技术和计算机技术交叉领域。为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。本发明首先获取待处理的嗜热蛋白数据，并提取嗜热蛋白数据集的数据特征，利用嗜热蛋白的分类模型进行识别；在嗜热蛋白的分类模型的构建过程中，采用M种特征提取方法提取嗜热蛋白数据集的数据特征，采用MRMD算法分别对每个特征文件中的特征进行特征选择，得到特征与实例类别具有相关性的特征子集；引入个机器学习算法与选择后的特征子集进行结合以生成基分类器；然后对基分类器进行筛选并进行集成，通过投票法生成最终的分类结果，进而确定分类模型。主要用于嗜热蛋白的识别。

Description

基于集成学习的嗜热蛋白的识别方法、存储介质及设备

技术领域

本发明属于蛋白质识别技术和计算机技术交叉领域，具体涉及一种嗜热蛋白的识别方法。

背景技术

自极端嗜热微生物基因组(methanococcus jannaschij)发表以来，基因组比较方法(蛋白质组学)被广泛应用于蛋白质热稳定性的研究。嗜热蛋白广泛应用于食品、医药、制革和石油钻探等领域。通过对蛋白质序列的分析，得到了蛋白质序列的超结构和性质，从而有效地预测了蛋白质的种类。基于蛋白质序列特性可以对嗜热蛋白进行预测。Liang等使用氨基酸耦合模型去区分嗜热与嗜常温蛋白。Zhang等利用二肽和氨基酸组分来区分嗜热与嗜常温蛋白，其中五折交叉验证精度达86.6％，后来Gromiha和Suresh将他们的数据去除冗余后，在神经网络的基础上运用氨基酸组分得到的五折交叉验证精度达到了89％。Montanucci等运用支持向量机去预测蛋白质热稳定性，jackknife交叉检验的预测精度为88％。Wu等提议运用决策树来预测蛋白质热稳定性，其预测精度在80％以上。尽管以上这些研究都获得了好的结果，但预测精度还有待提高。

发明内容

本发明的目的是为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。进而提出一种基于集成学习的嗜热蛋白的识别方法，利用嗜热的序列数据进行建模，实现对嗜热蛋白的更准确的识别。

基于集成学习的嗜热蛋白的识别方法，包括以下步骤：

首先获取待处理的嗜热蛋白数据，采用M种特征提取方法提取嗜热蛋白数据集的数据特征，生成M个特征文件；然后利用嗜热蛋白的分类模型进行识别；

所述的嗜热蛋白的分类模型的构建过程包括以下步骤：

S1、获取嗜热蛋白数据集；

S2、采用M种特征提取方法提取嗜热蛋白数据集的数据特征，生成M个特征文件；

S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择，得到特征与实例类别具有相关性的特征子集；

S4、引入N个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成M*N个基分类器；

S5、对步骤4中生成的基分类器进行筛选，选取分类准确率在准确率阈值以上的基分类器，然后对基分类器进行集成通过投票法生成最终的分类结果，进而确定分类模型，即得到了嗜热蛋白的分类模型。

进一步地，所述的准确率阈值为80％。

进一步地，S5中集成基分类器是采用投票的方式进行，筛选出分类结果在准确率阈值以上的基分类器；如果某一个特征文件全部小于准确率阈值，则放弃该特征文件生成的全部基分类器；即：选取分类准确率在准确率阈值以上的基分类器数量为N'，N'≤N。

进一步地，对基分类器进行集成通过投票法生成最终的分类结果，进而确定分类模型过程中，选取分类准确率在准确率阈值以上的基分类器数量为N'，每一个基分类器对一个单独的样本都有一个分类结果，如果预测为正样本，则记为1；如果预测为负样本，则记为0，对上述的N'个标签求和，如果结果大于等于

则该样本的最终标签为1，否则为0；

表示向下取整。

进一步地，S2所述的多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC。

进一步地，所述的机器学习算法包括Bays Net、Random Forest、Decision treeJ4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classification via Regression和支持向量机。

进一步地，采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中，MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。

进一步地，所述MRMD算法的具体处理过程包括以下步骤：

对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个circRNA实例类别与特征之间的皮尔逊系数，MD_i表示第i个circRNA实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个circRNA实例的特征向量，C_i表示第i个circRNA实例的类别向量，M表示circRNA实例的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个circRNA实例特征之间的Euclidean距离，COS_i表示第i个circRNA实例特征之间的Cosine距离，TC_i表示第i个circRNA实例特征之间的Tanimoto系数。

一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以基于集成学习的嗜热蛋白的识别方法。

基于集成学习的嗜热蛋白的识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于集成学习的嗜热蛋白的识别方法。

本发明的有益效果：

(1)本发明提出了一种全新的嗜热蛋白识别方法，利用序列信息进行建模，能够实现对嗜热蛋白的准确识别，为相应药物开发提供了理论基础。

(2)本发明可以找出分类蛋白质的关键特征。

(3)本发明通过对基分类器进行集成，生成了综合性能更优，应用更加广泛的嗜热蛋白模型。

附图说明

图1为具体实施方式一的流程示意图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

具体实施方式一：

本实施方式为一种基于集成学习的嗜热蛋白识别方法，如图1所示，包括以下步骤：

S1、下载嗜热蛋白数据文件，获取待处理的嗜热蛋白数据集；

原始嗜热蛋白特征数据集包括正例数据集和反例数据集，正例数据集为已被认证的嗜热蛋白序列文件，反例数据集为已被认证的非嗜热蛋白序列文件。

本发明实施例中，正例数据集中的数据包括915个嗜热蛋白和反例数据集中的793个非嗜热蛋白。数据的标签有正的和负的。提取的特征对实验结果有很大的影响。氨基酸特征提取的理论基础是位置信息和结构组成。

S2、采用多种特征提取方法提取原始嗜热蛋白数据集的数据特征，生成多个特征文件；

本实施例中多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC；这些特征提取方法没有使用顺序；AAC根据出现次数提取氨基酸的特征；DDE算法是基于二肽的形成，计算理想均值和理想方差，得到最终指标；CKSAAGP算法的设计理论是氨基酸的频度，通过推理获取相应的特征值；TPC算法中主要考虑的因素是蛋白质种类的数量；上述的特征提取方法均为现有技术，来自http：//ilearn.erc.monash.edu/。

S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择，得到特征与实例类别具有相关性的特征子集：

在步骤S2生成了13个特征文件，MRMD会分别对这13个特征文件进行特征排序，按照排序前后决定特征的关键程度，选取与实例类别具有较强相关性的特征；同时，冗余特征会被去除后就是特征子集，去除了冗余特征的特征文件叫降维后的特征文件；

MRMD(Max-Relevance-Max-Distance)是邹权等人在2015年开发的一种降维方法，用户指南和完整的runtime程序可以从网上公开获取和下载。特征选择的本质是用特定的评价标准来衡量给定特征子集的优势。通过特征选择，去除原始集合中的冗余特征和无关特征，保留有用的特征。特征选择时机器学习的重点。考虑到训练集的数量和特征提取方法的多样性，本发明的特征选择不仅是必要的，而且能够极大地提升最后的识别结果准确率，而且还可以在很大程度上较小计算量、提升处理效率。在选择特征选择方法时，预测效果的稳定性是最重要的指标。综上所述，MRMD通过对高维特征进行排序来过滤无信息数据，能够平衡特征排序和预测的准确性和稳定性。与其他特征选择算法相比，MRMD最大的优点是可以兼顾特征选择和降维后的稳定性，可以保证降维后的特征仍然具有良好的性能。优秀的特征表示可以提升模型的性能，更容易理解数据的特征和底层结构，更方便地改进模型和算法。

在MRMD算法中，特征与实例数据间的相关性用皮尔逊系数表征，皮尔逊系数越大说明特征与实例类别之间的相关性越强，关系越紧密；特征之间的冗余性用欧式距离表征，欧式距离又与Euclidean距离ED，Cosine距离COS和Tanimoto系数TC相关，欧式距离越大说明特征之间的冗余性越低。

采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个circRNA实例类别与特征之间的皮尔逊系数，MD_i表示第i个circRNA实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

为F_i中所有元素的平均值，

S4、引入8个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成13*8个基分类器，步骤3生成了13个特征文件，每个特征文件都在上述的8个机器学习算法中进行训练，得到13*8个基分类器；

本实施例中机器学习算法包括Bays Net、Random Forest、Decision tree J4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classificationvia Regression和支持向量机。

S5、对步骤4中生成的基分类器进行筛选(选取分类准确率在80％以上的基分类器)，然后对基分类器进行集成通过投票法生成最终的分类结果，进而确定分类模型，即得到了嗜热蛋白的分类模型；在实际使用时利用利用嗜热蛋白的分类模型进行识别。

本发明集成基分类器是采用投票的方式进行，筛选出分类结果在80％以上的基分类器。如果某一个特征文件全部小于80％，则放弃该特征文件生成的全部基分类器；本发明并不强制要求必须使用全部特征提取方法，本发明的第一目的是生成效果更好的模型，并不是必须使用某个特征文件。

在集成基分类器的过程中，基分类器的输出是label，也就是说如果最终筛选出来了7个分类器，每一个基分类器对一个单独的样本都有一个分类结果，如果预测为正样本，则记为1；如果预测为负样本，则记为0，对上述的7个标签求和，如果结果大于3，则该样本的最终标签为1，否则为0。

近年来，集成方法得到了越来越多的认可和关注。对多个分类器进行综合考虑，而不是依赖于单个分类器，目的是利用不同分类器之间的差异来提高模型的泛化能力。当单个分类器精度较高但差异较大时，综合效果尤其明显。集成学习能使嗜热蛋白模型的性能得到进一步的提升。

具体实施方式二：

本实施方式为一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以基于集成学习的嗜热蛋白的识别方法。

具体实施方式三：

本实施方式为基于集成学习的嗜热蛋白的识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于集成学习的嗜热蛋白的识别方法。

实施例：

实验及性能：原始数据包括915个嗜热蛋白和793个非嗜热蛋白。我们在WEKA上运行(交叉验证设置为10倍)。选取8个分类器，即贝叶斯网络、朴素贝叶斯、决策树J4.8、Bagging元学习、Logistic函数、Multielass elassifier、通过回归和随机森林分类。

在本实验中，我们共使用了8个分类器，与13个特征文件进行结合生成了13*8个基分类器。然后，筛选准确率大于80％的基分类器进行集成学习。

表1直接展示了未进行特征排序之前的13个特征文件与随机森林相结合的结果。从表1可以看出，氨基酸(AAC)显示出最好的结果，为90.57％。

表2直接展示了进行特征排序之后的13个特征文件与随机森林相结合的结果。从表2可以看出，氨基酸(AAC)依旧表现最好，为90.93％。AAC与随机森林结合生成的基分类器不仅达到了更高的精度，而且利用了更少的信息(只用了19维特征，表1中是20维。)。

表1

表2

表1的结果是在降维之前，每个特征文件与随机森林生成的基分类器的结果。表2是降维之后的每个特征文件与随机森林生成的基分类器的结果。

经过实验，当使用AAC与LIBSVM(c＝2，g＝-2)、随机森林和PARI(默认参数)，DDE与Logistic，TPC与Simple logistics和CKSAAGP与Multi-class classifier的所有7个基分类器效果最好，为93.03％。值得特别说明的是，所有实验的交叉验证倍数都设置为10倍。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于集成学习的嗜热蛋白的识别方法，其特征在于，包括以下步骤：

所述的嗜热蛋白的分类模型的构建过程包括以下步骤：

S1、获取嗜热蛋白数据集；

2.根据权利要求1所述基于集成学习的嗜热蛋白的识别方法，其特征在于，所述的准确率阈值为80％。

3.根据权利要求2所述基于集成学习的嗜热蛋白的识别方法，其特征在于，S5中集成基分类器是采用投票的方式进行，筛选出分类结果在准确率阈值以上的基分类器；如果某一个特征文件全部小于准确率阈值，则放弃该特征文件生成的全部基分类器；即：选取分类准确率在准确率阈值以上的基分类器数量为N'，N'≤N。

4.根据权利要求3所述基于集成学习的嗜热蛋白的识别方法，其特征在于，对基分类器进行集成通过投票法生成最终的分类结果，进而确定分类模型过程中，选取分类准确率在准确率阈值以上的基分类器数量为N'，每一个基分类器对一个单独的样本都有一个分类结果，如果预测为正样本，则记为1；如果预测为负样本，则记为0，对上述的N'个标签求和，如果结果大于等于

则该样本的最终标签为1，否则为0；

表示向下取整。

5.根据权利要求4所述基于集成学习的嗜热蛋白的识别方法，其特征在于，S2所述的多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC。

6.根据权利要求5所述基于集成学习的嗜热蛋白的识别方法，其特征在于，所述的机器学习算法包括Bays Net、Random Forest、Decision tree J4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classification via Regression和支持向量机。

7.根据权利要求1至6之一所述基于集成学习的嗜热蛋白的识别方法，其特征在于，采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中，MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。

8.根据权利要求7所述基于集成学习的嗜热蛋白的识别方法，其特征在于，所述MRMD算法的具体处理过程包括以下步骤：

maxMD_i值的计算公式如下：

为F_i中所有元素的平均值，

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。

10.基于集成学习的嗜热蛋白的识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。