CN113971985A - 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 - Google Patents
基于集成学习的嗜热蛋白的识别方法、存储介质及设备 Download PDFInfo
- Publication number
- CN113971985A CN113971985A CN202111517151.0A CN202111517151A CN113971985A CN 113971985 A CN113971985 A CN 113971985A CN 202111517151 A CN202111517151 A CN 202111517151A CN 113971985 A CN113971985 A CN 113971985A
- Authority
- CN
- China
- Prior art keywords
- thermophilic
- thermophilic protein
- feature
- features
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012509 protein identification method Methods 0.000 title claims abstract description 12
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 65
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims abstract description 3
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- QILCUDCYZVIAQH-UHFFFAOYSA-N 1-$l^{1}-oxidanyl-2,2,5,5-tetramethylpyrrole-3-carboxylic acid Chemical compound CC1(C)C=C(C(O)=O)C(C)(C)N1[O] QILCUDCYZVIAQH-UHFFFAOYSA-N 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 150000001413 amino acids Chemical class 0.000 description 15
- 230000009467 reduction Effects 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 108010016626 Dipeptides Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000288113 Gallirallus australis Species 0.000 description 1
- 241000203353 Methanococcus Species 0.000 description 1
- 102100032341 PCNA-interacting partner Human genes 0.000 description 1
- 101710196737 PCNA-interacting partner Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- -1 tanning Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
基于集成学习的嗜热蛋白的识别方法、存储介质及设备,属于蛋白质识别技术和计算机技术交叉领域。为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。本发明首先获取待处理的嗜热蛋白数据,并提取嗜热蛋白数据集的数据特征,利用嗜热蛋白的分类模型进行识别;在嗜热蛋白的分类模型的构建过程中,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;引入个机器学习算法与选择后的特征子集进行结合以生成基分类器;然后对基分类器进行筛选并进行集成,通过投票法生成最终的分类结果,进而确定分类模型。主要用于嗜热蛋白的识别。
Description
技术领域
本发明属于蛋白质识别技术和计算机技术交叉领域,具体涉及一种嗜热蛋白的识别方法。
背景技术
自极端嗜热微生物基因组(methanococcus jannaschij)发表以来,基因组比较方法(蛋白质组学)被广泛应用于蛋白质热稳定性的研究。嗜热蛋白广泛应用于食品、医药、制革和石油钻探等领域。通过对蛋白质序列的分析,得到了蛋白质序列的超结构和性质,从而有效地预测了蛋白质的种类。基于蛋白质序列特性可以对嗜热蛋白进行预测。Liang等使用氨基酸耦合模型去区分嗜热与嗜常温蛋白。Zhang等利用二肽和氨基酸组分来区分嗜热与嗜常温蛋白,其中五折交叉验证精度达86.6%,后来Gromiha和Suresh将他们的数据去除冗余后,在神经网络的基础上运用氨基酸组分得到的五折交叉验证精度达到了89%。Montanucci等运用支持向量机去预测蛋白质热稳定性,jackknife交叉检验的预测精度为88%。Wu等提议运用决策树来预测蛋白质热稳定性,其预测精度在80%以上。尽管以上这些研究都获得了好的结果,但预测精度还有待提高。
发明内容
本发明的目的是为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。进而提出一种基于集成学习的嗜热蛋白的识别方法,利用嗜热的序列数据进行建模,实现对嗜热蛋白的更准确的识别。
基于集成学习的嗜热蛋白的识别方法,包括以下步骤:
首先获取待处理的嗜热蛋白数据,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;然后利用嗜热蛋白的分类模型进行识别;
所述的嗜热蛋白的分类模型的构建过程包括以下步骤:
S1、获取嗜热蛋白数据集;
S2、采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;
S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;
S4、引入N个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成M*N个基分类器;
S5、对步骤4中生成的基分类器进行筛选,选取分类准确率在准确率阈值以上的基分类器,然后对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型,即得到了嗜热蛋白的分类模型。
进一步地,所述的准确率阈值为80%。
进一步地,S5中集成基分类器是采用投票的方式进行,筛选出分类结果在准确率阈值以上的基分类器;如果某一个特征文件全部小于准确率阈值,则放弃该特征文件生成的全部基分类器;即:选取分类准确率在准确率阈值以上的基分类器数量为N',N'≤N。
进一步地,对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型过程中,选取分类准确率在准确率阈值以上的基分类器数量为N',每一个基分类器对一个单独的样本都有一个分类结果,如果预测为正样本,则记为1;如果预测为负样本,则记为0,对上述的N'个标签求和,如果结果大于等于则该样本的最终标签为1,否则为0;表示向下取整。
进一步地,S2所述的多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC。
进一步地,所述的机器学习算法包括Bays Net、Random Forest、Decision treeJ4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classification via Regression和支持向量机。
进一步地,采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中,MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。
进一步地,所述MRMD算法的具体处理过程包括以下步骤:
对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
maxMDi值的计算公式如下:
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,为Fi中所有元素的平均值,为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以基于集成学习的嗜热蛋白的识别方法。
基于集成学习的嗜热蛋白的识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于集成学习的嗜热蛋白的识别方法。
本发明的有益效果:
(1)本发明提出了一种全新的嗜热蛋白识别方法,利用序列信息进行建模,能够实现对嗜热蛋白的准确识别,为相应药物开发提供了理论基础。
(2)本发明可以找出分类蛋白质的关键特征。
(3)本发明通过对基分类器进行集成,生成了综合性能更优,应用更加广泛的嗜热蛋白模型。
附图说明
图1为具体实施方式一的流程示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
具体实施方式一:
本实施方式为一种基于集成学习的嗜热蛋白识别方法,如图1所示,包括以下步骤:
S1、下载嗜热蛋白数据文件,获取待处理的嗜热蛋白数据集;
原始嗜热蛋白特征数据集包括正例数据集和反例数据集,正例数据集为已被认证的嗜热蛋白序列文件,反例数据集为已被认证的非嗜热蛋白序列文件。
本发明实施例中,正例数据集中的数据包括915个嗜热蛋白和反例数据集中的793个非嗜热蛋白。数据的标签有正的和负的。提取的特征对实验结果有很大的影响。氨基酸特征提取的理论基础是位置信息和结构组成。
S2、采用多种特征提取方法提取原始嗜热蛋白数据集的数据特征,生成多个特征文件;
本实施例中多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC;这些特征提取方法没有使用顺序;AAC根据出现次数提取氨基酸的特征;DDE算法是基于二肽的形成,计算理想均值和理想方差,得到最终指标;CKSAAGP算法的设计理论是氨基酸的频度,通过推理获取相应的特征值;TPC算法中主要考虑的因素是蛋白质种类的数量;上述的特征提取方法均为现有技术,来自http://ilearn.erc.monash.edu/。
S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集:
在步骤S2生成了13个特征文件,MRMD会分别对这13个特征文件进行特征排序,按照排序前后决定特征的关键程度,选取与实例类别具有较强相关性的特征;同时,冗余特征会被去除后就是特征子集,去除了冗余特征的特征文件叫降维后的特征文件;
MRMD(Max-Relevance-Max-Distance)是邹权等人在2015年开发的一种降维方法,用户指南和完整的runtime程序可以从网上公开获取和下载。特征选择的本质是用特定的评价标准来衡量给定特征子集的优势。通过特征选择,去除原始集合中的冗余特征和无关特征,保留有用的特征。特征选择时机器学习的重点。考虑到训练集的数量和特征提取方法的多样性,本发明的特征选择不仅是必要的,而且能够极大地提升最后的识别结果准确率,而且还可以在很大程度上较小计算量、提升处理效率。在选择特征选择方法时,预测效果的稳定性是最重要的指标。综上所述,MRMD通过对高维特征进行排序来过滤无信息数据,能够平衡特征排序和预测的准确性和稳定性。与其他特征选择算法相比,MRMD最大的优点是可以兼顾特征选择和降维后的稳定性,可以保证降维后的特征仍然具有良好的性能。优秀的特征表示可以提升模型的性能,更容易理解数据的特征和底层结构,更方便地改进模型和算法。
在MRMD算法中,特征与实例数据间的相关性用皮尔逊系数表征,皮尔逊系数越大说明特征与实例类别之间的相关性越强,关系越紧密;特征之间的冗余性用欧式距离表征,欧式距离又与Euclidean距离ED,Cosine距离COS和Tanimoto系数TC相关,欧式距离越大说明特征之间的冗余性越低。
采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
maxMDi值的计算公式如下:
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,为Fi中所有元素的平均值,为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
S4、引入8个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成13*8个基分类器,步骤3生成了13个特征文件,每个特征文件都在上述的8个机器学习算法中进行训练,得到13*8个基分类器;
本实施例中机器学习算法包括Bays Net、Random Forest、Decision tree J4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classificationvia Regression和支持向量机。
S5、对步骤4中生成的基分类器进行筛选(选取分类准确率在80%以上的基分类器),然后对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型,即得到了嗜热蛋白的分类模型;在实际使用时利用利用嗜热蛋白的分类模型进行识别。
本发明集成基分类器是采用投票的方式进行,筛选出分类结果在80%以上的基分类器。如果某一个特征文件全部小于80%,则放弃该特征文件生成的全部基分类器;本发明并不强制要求必须使用全部特征提取方法,本发明的第一目的是生成效果更好的模型,并不是必须使用某个特征文件。
在集成基分类器的过程中,基分类器的输出是label,也就是说如果最终筛选出来了7个分类器,每一个基分类器对一个单独的样本都有一个分类结果,如果预测为正样本,则记为1;如果预测为负样本,则记为0,对上述的7个标签求和,如果结果大于3,则该样本的最终标签为1,否则为0。
近年来,集成方法得到了越来越多的认可和关注。对多个分类器进行综合考虑,而不是依赖于单个分类器,目的是利用不同分类器之间的差异来提高模型的泛化能力。当单个分类器精度较高但差异较大时,综合效果尤其明显。集成学习能使嗜热蛋白模型的性能得到进一步的提升。
具体实施方式二:
本实施方式为一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以基于集成学习的嗜热蛋白的识别方法。
具体实施方式三:
本实施方式为基于集成学习的嗜热蛋白的识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现基于集成学习的嗜热蛋白的识别方法。
实施例:
实验及性能:原始数据包括915个嗜热蛋白和793个非嗜热蛋白。我们在WEKA上运行(交叉验证设置为10倍)。选取8个分类器,即贝叶斯网络、朴素贝叶斯、决策树J4.8、Bagging元学习、Logistic函数、Multielass elassifier、通过回归和随机森林分类。
在本实验中,我们共使用了8个分类器,与13个特征文件进行结合生成了13*8个基分类器。然后,筛选准确率大于80%的基分类器进行集成学习。
表1直接展示了未进行特征排序之前的13个特征文件与随机森林相结合的结果。从表1可以看出,氨基酸(AAC)显示出最好的结果,为90.57%。
表2直接展示了进行特征排序之后的13个特征文件与随机森林相结合的结果。从表2可以看出,氨基酸(AAC)依旧表现最好,为90.93%。AAC与随机森林结合生成的基分类器不仅达到了更高的精度,而且利用了更少的信息(只用了19维特征,表1中是20维。)。
表1
表2
表1的结果是在降维之前,每个特征文件与随机森林生成的基分类器的结果。表2是降维之后的每个特征文件与随机森林生成的基分类器的结果。
经过实验,当使用AAC与LIBSVM(c=2,g=-2)、随机森林和PARI(默认参数),DDE与Logistic,TPC与Simple logistics和CKSAAGP与Multi-class classifier的所有7个基分类器效果最好,为93.03%。值得特别说明的是,所有实验的交叉验证倍数都设置为10倍。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.基于集成学习的嗜热蛋白的识别方法,其特征在于,包括以下步骤:
首先获取待处理的嗜热蛋白数据,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;然后利用嗜热蛋白的分类模型进行识别;
所述的嗜热蛋白的分类模型的构建过程包括以下步骤:
S1、获取嗜热蛋白数据集;
S2、采用M种特征提取方法提取嗜热蛋白数据集的数据特征,生成M个特征文件;
S3、采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;
S4、引入N个机器学习算法与步骤S3生成的选择后的特征子集进行结合以生成M*N个基分类器;
S5、对步骤4中生成的基分类器进行筛选,选取分类准确率在准确率阈值以上的基分类器,然后对基分类器进行集成通过投票法生成最终的分类结果,进而确定分类模型,即得到了嗜热蛋白的分类模型。
2.根据权利要求1所述基于集成学习的嗜热蛋白的识别方法,其特征在于,所述的准确率阈值为80%。
3.根据权利要求2所述基于集成学习的嗜热蛋白的识别方法,其特征在于,S5中集成基分类器是采用投票的方式进行,筛选出分类结果在准确率阈值以上的基分类器;如果某一个特征文件全部小于准确率阈值,则放弃该特征文件生成的全部基分类器;即:选取分类准确率在准确率阈值以上的基分类器数量为N',N'≤N。
5.根据权利要求4所述基于集成学习的嗜热蛋白的识别方法,其特征在于,S2所述的多种特征提取方法包括CKSAAGP、AAC、CKSAAP、CTPC、GAAC、GTPC、GDPC、CTDC、DDE、DPC、CTDT、KSCTRIAD和TPC。
6.根据权利要求5所述基于集成学习的嗜热蛋白的识别方法,其特征在于,所述的机器学习算法包括Bays Net、Random Forest、Decision tree J4.8、Bagging meta learning、Logistic function、Multiclass classifier、Classification via Regression和支持向量机。
7.根据权利要求1至6之一所述基于集成学习的嗜热蛋白的识别方法,其特征在于,采用MRMD算法分别对每个特征文件中的特征进行特征选择的过程中,MRMD算法用皮尔逊系数表征特征与实例数据间的相关性。
8.根据权利要求7所述基于集成学习的嗜热蛋白的识别方法,其特征在于,所述MRMD算法的具体处理过程包括以下步骤:
对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
maxMDi值的计算公式如下:
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,为Fi中所有元素的平均值,为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。
10.基于集成学习的嗜热蛋白的识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于集成学习的嗜热蛋白的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111517151.0A CN113971985A (zh) | 2021-12-13 | 2021-12-13 | 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111517151.0A CN113971985A (zh) | 2021-12-13 | 2021-12-13 | 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113971985A true CN113971985A (zh) | 2022-01-25 |
Family
ID=79590619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111517151.0A Pending CN113971985A (zh) | 2021-12-13 | 2021-12-13 | 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971985A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115472229A (zh) * | 2022-09-13 | 2022-12-13 | 苏州大学 | 一种嗜热蛋白预测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012977A (zh) * | 2010-12-21 | 2011-04-13 | 福建师范大学 | 一种基于概率神经网络集成的信号肽预测方法 |
CN110517730A (zh) * | 2019-09-02 | 2019-11-29 | 河南师范大学 | 一种基于机器学习识别嗜热蛋白的方法 |
CN113611355A (zh) * | 2021-08-18 | 2021-11-05 | 东北林业大学 | 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法 |
-
2021
- 2021-12-13 CN CN202111517151.0A patent/CN113971985A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012977A (zh) * | 2010-12-21 | 2011-04-13 | 福建师范大学 | 一种基于概率神经网络集成的信号肽预测方法 |
CN110517730A (zh) * | 2019-09-02 | 2019-11-29 | 河南师范大学 | 一种基于机器学习识别嗜热蛋白的方法 |
CN113611355A (zh) * | 2021-08-18 | 2021-11-05 | 东北林业大学 | 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法 |
Non-Patent Citations (1)
Title |
---|
董红斌 等: "一种改进的microRNA预测模型集成方法", 计算机科学, 15 February 2018 (2018-02-15), pages 69 - 75 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115472229A (zh) * | 2022-09-13 | 2022-12-13 | 苏州大学 | 一种嗜热蛋白预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Scheirer et al. | Meta-recognition: The theory and practice of recognition score analysis | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
Poh et al. | A user-specific and selective multimodal biometric fusion strategy by ranking subjects | |
US20110106734A1 (en) | System and appartus for failure prediction and fusion in classification and recognition | |
CN101807254A (zh) | 面向数据特点的合成核支持向量机的实现方法 | |
CN113489685B (zh) | 一种基于核主成分分析的二次特征提取及恶意攻击识别方法 | |
Gohar et al. | Terrorist group prediction using data classification | |
Singh et al. | Speaker specific feature based clustering and its applications in language independent forensic speaker recognition | |
CN113971985A (zh) | 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 | |
Ayllón-Gavilán et al. | Convolutional and deep learning based techniques for time series ordinal classification | |
Qiao et al. | LMNNB: Two-in-One imbalanced classification approach by combining metric learning and ensemble learning | |
Nancy et al. | A comparative study of feature selection methods for cancer classification using gene expression dataset | |
Zhang et al. | Plant leaf classification using plant leaves based on rough set | |
Zainuddin et al. | Radial basis function neural networks in protein sequence classification | |
Assiroj et al. | Measuring memetic algorithm performance on image fingerprints dataset | |
Papakostas et al. | Evolutionary feature subset selection for pattern recognition applications | |
Zheng et al. | Network intrusion detection model based on Chi-square test and stacking approach | |
Zhou et al. | Benchmarking binary classification models on data sets with different degrees of imbalance | |
Sagala et al. | A comparative study for classification on different domain | |
Prasad et al. | Max-margin feature selection | |
Kashef et al. | MLIFT: enhancing multi-label classifier with ensemble feature selection | |
Wolff et al. | Combining sources of description for approximating music similarity ratings | |
Hijazi | Semi-supervised Margin-based Feature Selection for Classification | |
CN110827919A (zh) | 一种应用于基因表达谱数据的降维方法 | |
Alabed et al. | Genetic algorithms as a feature selection tool in heart failure disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |