CN113971985A - 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 - Google Patents

基于集成学习的嗜热蛋白的识别方法、存储介质及设备 Download PDF

Info

Publication number
CN113971985A
CN113971985A CN202111517151.0A CN202111517151A CN113971985A CN 113971985 A CN113971985 A CN 113971985A CN 202111517151 A CN202111517151 A CN 202111517151A CN 113971985 A CN113971985 A CN 113971985A
Authority
CN
China
Prior art keywords
thermophilic
thermophilic protein
feature
features
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111517151.0A
Other languages
English (en)
Inventor
邹权
李静
丁漪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202111517151.0A priority Critical patent/CN113971985A/zh
Publication of CN113971985A publication Critical patent/CN113971985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

基于集成学习的嗜热蛋白的识别方法、存储介质及设备,属于蛋白质识别技术和计算机技术交叉领域。为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。本发明首先获取待处理的嗜热蛋白数据,并提取嗜热蛋白数据集的数据特征,利用嗜热蛋白的分类模型进行识别;在嗜热蛋白的分类模型的构建过程中,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;引入个机器学习算法与选择后的特征子集进行结合以生成基分类器;然后对基分类器进行筛选并进行集成,通过投票法生成最终的分类结果,进而确定分类模型。主要用于嗜热蛋白的识别。

Description

基于集成学习的嗜热蛋白的识别方法、存储介质及设备
技术领域
本发明属于蛋白质识别技术和计算机技术交叉领域,具体涉及一种嗜热蛋白的识别方法。
背景技术
自极端嗜热微生物基因组(methanococcus jannaschij)发表以来,基因组比较方法(蛋白质组学)被广泛应用于蛋白质热稳定性的研究。嗜热蛋白广泛应用于食品、医药、制革和石油钻探等领域。通过对蛋白质序列的分析,得到了蛋白质序列的超结构和性质,从而有效地预测了蛋白质的种类。基于蛋白质序列特性可以对嗜热蛋白进行预测。Liang等使用氨基酸耦合模型去区分嗜热与嗜常温蛋白。Zhang等利用二肽和氨基酸组分来区分嗜热与嗜常温蛋白,其中五折交叉验证精度达86.6%,后来Gromiha和Suresh将他们的数据去除冗余后,在神经网络的基础上运用氨基酸组分得到的五折交叉验证精度达到了89%。Montanucci等运用支持向量机去预测蛋白质热稳定性,jackknife交叉检验的预测精度为88%。Wu等提议运用决策树来预测蛋白质热稳定性,其预测精度在80%以上。尽管以上这些研究都获得了好的结果,但预测精度还有待提高。
发明内容
本发明的目的是为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。进而提出一种基于集成学习的嗜热蛋白的识别方法,利用嗜热的序列数据进行建模,实现对嗜热蛋白的更准确的识别。
基于集成学习的嗜热蛋白的识别方法,包括以下步骤:
首先获取待处理的嗜热蛋白数据,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;然后利用嗜热蛋白的分类模型进行识别;
所述的嗜热蛋白的分类模型的构建过程包括以下步骤:
S1、获取嗜热蛋白数据集;
S2、采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;
S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;
S4、引入N个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成M*N个基分类器;
S5、对步骤4中生成的基分类器进行筛选,选取分类准确率在准确率阈值以上的基分类器,然后对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型,即得到了嗜热蛋白的分类模型。
进一步地,所述的准确率阈值为80%。
进一步地,S5中集成基分类器是采用投票的方式进行,筛选出分类结果在准确率阈值以上的基分类器;如果某一个特征文件全部小于准确率阈值,则放弃该特征文件生成的全部基分类器;即:选取分类准确率在准确率阈值以上的基分类器数量为N',N'≤N。
进一步地,对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型过程中,选取分类准确率在准确率阈值以上的基分类器数量为N',每一个基分类器对一个单独的样本都有一个分类结果,如果预测为正样本,则记为1;如果预测为负样本,则记为0,对上述的N'个标签求和,如果结果大于等于
Figure BDA0003407044190000021
则该样本的最终标签为1,否则为0;
Figure BDA0003407044190000022
表示向下取整。
进一步地,S2所述的多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC。
进一步地,所述的机器学习算法包括Bays Net、Random Forest、Decision treeJ4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classification via Regression和支持向量机。
进一步地,采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中,MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。
进一步地,所述MRMD算法的具体处理过程包括以下步骤:
对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0003407044190000031
maxMDi值的计算公式如下:
Figure BDA0003407044190000032
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003407044190000033
为Fi中所有元素的平均值,
Figure BDA0003407044190000034
为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以基于集成学习的嗜热蛋白的识别方法。
基于集成学习的嗜热蛋白的识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于集成学习的嗜热蛋白的识别方法。
本发明的有益效果:
(1)本发明提出了一种全新的嗜热蛋白识别方法,利用序列信息进行建模,能够实现对嗜热蛋白的准确识别,为相应药物开发提供了理论基础。
(2)本发明可以找出分类蛋白质的关键特征。
(3)本发明通过对基分类器进行集成,生成了综合性能更优,应用更加广泛的嗜热蛋白模型。
附图说明
图1为具体实施方式一的流程示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
具体实施方式一:
本实施方式为一种基于集成学习的嗜热蛋白识别方法,如图1所示,包括以下步骤:
S1、下载嗜热蛋白数据文件,获取待处理的嗜热蛋白数据集;
原始嗜热蛋白特征数据集包括正例数据集和反例数据集,正例数据集为已被认证的嗜热蛋白序列文件,反例数据集为已被认证的非嗜热蛋白序列文件。
本发明实施例中,正例数据集中的数据包括915个嗜热蛋白和反例数据集中的793个非嗜热蛋白。数据的标签有正的和负的。提取的特征对实验结果有很大的影响。氨基酸特征提取的理论基础是位置信息和结构组成。
S2、采用多种特征提取方法提取原始嗜热蛋白数据集的数据特征,生成多个特征文件;
本实施例中多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC;这些特征提取方法没有使用顺序;AAC根据出现次数提取氨基酸的特征;DDE算法是基于二肽的形成,计算理想均值和理想方差,得到最终指标;CKSAAGP算法的设计理论是氨基酸的频度,通过推理获取相应的特征值;TPC算法中主要考虑的因素是蛋白质种类的数量;上述的特征提取方法均为现有技术,来自http://ilearn.erc.monash.edu/。
S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集:
在步骤S2生成了13个特征文件,MRMD会分别对这13个特征文件进行特征排序,按照排序前后决定特征的关键程度,选取与实例类别具有较强相关性的特征;同时,冗余特征会被去除后就是特征子集,去除了冗余特征的特征文件叫降维后的特征文件;
MRMD(Max-Relevance-Max-Distance)是邹权等人在2015年开发的一种降维方法,用户指南和完整的runtime程序可以从网上公开获取和下载。特征选择的本质是用特定的评价标准来衡量给定特征子集的优势。通过特征选择,去除原始集合中的冗余特征和无关特征,保留有用的特征。特征选择时机器学习的重点。考虑到训练集的数量和特征提取方法的多样性,本发明的特征选择不仅是必要的,而且能够极大地提升最后的识别结果准确率,而且还可以在很大程度上较小计算量、提升处理效率。在选择特征选择方法时,预测效果的稳定性是最重要的指标。综上所述,MRMD通过对高维特征进行排序来过滤无信息数据,能够平衡特征排序和预测的准确性和稳定性。与其他特征选择算法相比,MRMD最大的优点是可以兼顾特征选择和降维后的稳定性,可以保证降维后的特征仍然具有良好的性能。优秀的特征表示可以提升模型的性能,更容易理解数据的特征和底层结构,更方便地改进模型和算法。
在MRMD算法中,特征与实例数据间的相关性用皮尔逊系数表征,皮尔逊系数越大说明特征与实例类别之间的相关性越强,关系越紧密;特征之间的冗余性用欧式距离表征,欧式距离又与Euclidean距离ED,Cosine距离COS和Tanimoto系数TC相关,欧式距离越大说明特征之间的冗余性越低。
采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0003407044190000051
maxMDi值的计算公式如下:
Figure BDA0003407044190000061
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0003407044190000062
为Fi中所有元素的平均值,
Figure BDA0003407044190000063
为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
S4、引入8个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成13*8个基分类器,步骤3生成了13个特征文件,每个特征文件都在上述的8个机器学习算法中进行训练,得到13*8个基分类器;
本实施例中机器学习算法包括Bays Net、Random Forest、Decision tree J4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classificationvia Regression和支持向量机。
S5、对步骤4中生成的基分类器进行筛选(选取分类准确率在80%以上的基分类器),然后对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型,即得到了嗜热蛋白的分类模型;在实际使用时利用利用嗜热蛋白的分类模型进行识别。
本发明集成基分类器是采用投票的方式进行,筛选出分类结果在80%以上的基分类器。如果某一个特征文件全部小于80%,则放弃该特征文件生成的全部基分类器;本发明并不强制要求必须使用全部特征提取方法,本发明的第一目的是生成效果更好的模型,并不是必须使用某个特征文件。
在集成基分类器的过程中,基分类器的输出是label,也就是说如果最终筛选出来了7个分类器,每一个基分类器对一个单独的样本都有一个分类结果,如果预测为正样本,则记为1;如果预测为负样本,则记为0,对上述的7个标签求和,如果结果大于3,则该样本的最终标签为1,否则为0。
近年来,集成方法得到了越来越多的认可和关注。对多个分类器进行综合考虑,而不是依赖于单个分类器,目的是利用不同分类器之间的差异来提高模型的泛化能力。当单个分类器精度较高但差异较大时,综合效果尤其明显。集成学习能使嗜热蛋白模型的性能得到进一步的提升。
具体实施方式二:
本实施方式为一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以基于集成学习的嗜热蛋白的识别方法。
具体实施方式三:
本实施方式为基于集成学习的嗜热蛋白的识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于集成学习的嗜热蛋白的识别方法。
实施例:
实验及性能:原始数据包括915个嗜热蛋白和793个非嗜热蛋白。我们在WEKA上运行(交叉验证设置为10倍)。选取8个分类器,即贝叶斯网络、朴素贝叶斯、决策树J4.8、Bagging元学习、Logistic函数、Multielass elassifier、通过回归和随机森林分类。
在本实验中,我们共使用了8个分类器,与13个特征文件进行结合生成了13*8个基分类器。然后,筛选准确率大于80%的基分类器进行集成学习。
表1直接展示了未进行特征排序之前的13个特征文件与随机森林相结合的结果。从表1可以看出,氨基酸(AAC)显示出最好的结果,为90.57%。
表2直接展示了进行特征排序之后的13个特征文件与随机森林相结合的结果。从表2可以看出,氨基酸(AAC)依旧表现最好,为90.93%。AAC与随机森林结合生成的基分类器不仅达到了更高的精度,而且利用了更少的信息(只用了19维特征,表1中是20维。)。
表1
Figure BDA0003407044190000081
表2
Figure BDA0003407044190000082
表1的结果是在降维之前,每个特征文件与随机森林生成的基分类器的结果。表2是降维之后的每个特征文件与随机森林生成的基分类器的结果。
经过实验,当使用AAC与LIBSVM(c=2,g=-2)、随机森林和PARI(默认参数),DDE与Logistic,TPC与Simple logistics和CKSAAGP与Multi-class classifier的所有7个基分类器效果最好,为93.03%。值得特别说明的是,所有实验的交叉验证倍数都设置为10倍。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.基于集成学习的嗜热蛋白的识别方法,其特征在于,包括以下步骤:
首先获取待处理的嗜热蛋白数据,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;然后利用嗜热蛋白的分类模型进行识别;
所述的嗜热蛋白的分类模型的构建过程包括以下步骤:
S1、获取嗜热蛋白数据集;
S2、采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;
S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;
S4、引入N个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成M*N个基分类器;
S5、对步骤4中生成的基分类器进行筛选,选取分类准确率在准确率阈值以上的基分类器,然后对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型,即得到了嗜热蛋白的分类模型。
2.根据权利要求1所述基于集成学习的嗜热蛋白的识别方法,其特征在于,所述的准确率阈值为80%。
3.根据权利要求2所述基于集成学习的嗜热蛋白的识别方法,其特征在于,S5中集成基分类器是采用投票的方式进行,筛选出分类结果在准确率阈值以上的基分类器;如果某一个特征文件全部小于准确率阈值,则放弃该特征文件生成的全部基分类器;即:选取分类准确率在准确率阈值以上的基分类器数量为N',N'≤N。
4.根据权利要求3所述基于集成学习的嗜热蛋白的识别方法,其特征在于,对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型过程中,选取分类准确率在准确率阈值以上的基分类器数量为N',每一个基分类器对一个单独的样本都有一个分类结果,如果预测为正样本,则记为1;如果预测为负样本,则记为0,对上述的N'个标签求和,如果结果大于等于
Figure FDA0003407044180000011
则该样本的最终标签为1,否则为0;
Figure FDA0003407044180000012
表示向下取整。
5.根据权利要求4所述基于集成学习的嗜热蛋白的识别方法,其特征在于,S2所述的多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC。
6.根据权利要求5所述基于集成学习的嗜热蛋白的识别方法,其特征在于,所述的机器学习算法包括Bays Net、Random Forest、Decision tree J4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classification via Regression和支持向量机。
7.根据权利要求1至6之一所述基于集成学习的嗜热蛋白的识别方法,其特征在于,采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中,MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。
8.根据权利要求7所述基于集成学习的嗜热蛋白的识别方法,其特征在于,所述MRMD算法的具体处理过程包括以下步骤:
对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure FDA0003407044180000021
maxMDi值的计算公式如下:
Figure FDA0003407044180000022
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure FDA0003407044180000023
为Fi中所有元素的平均值,
Figure FDA0003407044180000024
为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。
10.基于集成学习的嗜热蛋白的识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。
CN202111517151.0A 2021-12-13 2021-12-13 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 Pending CN113971985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111517151.0A CN113971985A (zh) 2021-12-13 2021-12-13 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111517151.0A CN113971985A (zh) 2021-12-13 2021-12-13 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

Publications (1)

Publication Number Publication Date
CN113971985A true CN113971985A (zh) 2022-01-25

Family

ID=79590619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111517151.0A Pending CN113971985A (zh) 2021-12-13 2021-12-13 基于集成学习的嗜热蛋白的识别方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113971985A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472229A (zh) * 2022-09-13 2022-12-13 苏州大学 一种嗜热蛋白预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012977A (zh) * 2010-12-21 2011-04-13 福建师范大学 一种基于概率神经网络集成的信号肽预测方法
CN110517730A (zh) * 2019-09-02 2019-11-29 河南师范大学 一种基于机器学习识别嗜热蛋白的方法
CN113611355A (zh) * 2021-08-18 2021-11-05 东北林业大学 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012977A (zh) * 2010-12-21 2011-04-13 福建师范大学 一种基于概率神经网络集成的信号肽预测方法
CN110517730A (zh) * 2019-09-02 2019-11-29 河南师范大学 一种基于机器学习识别嗜热蛋白的方法
CN113611355A (zh) * 2021-08-18 2021-11-05 东北林业大学 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董红斌 等: "一种改进的microRNA预测模型集成方法", 计算机科学, 15 February 2018 (2018-02-15), pages 69 - 75 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472229A (zh) * 2022-09-13 2022-12-13 苏州大学 一种嗜热蛋白预测方法及装置

Similar Documents

Publication Publication Date Title
Scheirer et al. Meta-recognition: The theory and practice of recognition score analysis
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Poh et al. A user-specific and selective multimodal biometric fusion strategy by ranking subjects
US20110106734A1 (en) System and appartus for failure prediction and fusion in classification and recognition
CN101807254A (zh) 面向数据特点的合成核支持向量机的实现方法
CN113489685B (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
Gohar et al. Terrorist group prediction using data classification
Singh et al. Speaker specific feature based clustering and its applications in language independent forensic speaker recognition
CN113971985A (zh) 基于集成学习的嗜热蛋白的识别方法、存储介质及设备
Ayllón-Gavilán et al. Convolutional and deep learning based techniques for time series ordinal classification
Qiao et al. LMNNB: Two-in-One imbalanced classification approach by combining metric learning and ensemble learning
Nancy et al. A comparative study of feature selection methods for cancer classification using gene expression dataset
Zhang et al. Plant leaf classification using plant leaves based on rough set
Zainuddin et al. Radial basis function neural networks in protein sequence classification
Assiroj et al. Measuring memetic algorithm performance on image fingerprints dataset
Papakostas et al. Evolutionary feature subset selection for pattern recognition applications
Zheng et al. Network intrusion detection model based on Chi-square test and stacking approach
Zhou et al. Benchmarking binary classification models on data sets with different degrees of imbalance
Sagala et al. A comparative study for classification on different domain
Prasad et al. Max-margin feature selection
Kashef et al. MLIFT: enhancing multi-label classifier with ensemble feature selection
Wolff et al. Combining sources of description for approximating music similarity ratings
Hijazi Semi-supervised Margin-based Feature Selection for Classification
CN110827919A (zh) 一种应用于基因表达谱数据的降维方法
Alabed et al. Genetic algorithms as a feature selection tool in heart failure disease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination