CN111524551A - 一种基于随机森林与相关向量机融合的抗癌肽识别方法 - Google Patents
一种基于随机森林与相关向量机融合的抗癌肽识别方法 Download PDFInfo
- Publication number
- CN111524551A CN111524551A CN202010264520.9A CN202010264520A CN111524551A CN 111524551 A CN111524551 A CN 111524551A CN 202010264520 A CN202010264520 A CN 202010264520A CN 111524551 A CN111524551 A CN 111524551A
- Authority
- CN
- China
- Prior art keywords
- acp
- rvm
- vector machine
- determining
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 title claims abstract description 25
- 230000001093 anti-cancer Effects 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 16
- 150000001413 amino acids Chemical class 0.000 claims abstract description 48
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 235000001014 amino acid Nutrition 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 9
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 claims description 6
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 6
- 239000004471 Glycine Substances 0.000 claims description 3
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 claims description 3
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 claims description 3
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 claims description 3
- 235000018417 cysteine Nutrition 0.000 claims description 3
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 4
- 206010028980 Neoplasm Diseases 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 102000044503 Antimicrobial Peptides Human genes 0.000 description 3
- 108700042778 Antimicrobial Peptides Proteins 0.000 description 3
- 229920006227 ethylene-grafted-maleic anhydride Polymers 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000003910 polypeptide antibiotic agent Substances 0.000 description 2
- KIUKXJAPPMFGSW-DNGZLQJQSA-N (2S,3S,4S,5R,6R)-6-[(2S,3R,4R,5S,6R)-3-Acetamido-2-[(2S,3S,4R,5R,6R)-6-[(2R,3R,4R,5S,6R)-3-acetamido-2,5-dihydroxy-6-(hydroxymethyl)oxan-4-yl]oxy-2-carboxy-4,5-dihydroxyoxan-3-yl]oxy-5-hydroxy-6-(hydroxymethyl)oxan-4-yl]oxy-3,4,5-trihydroxyoxane-2-carboxylic acid Chemical compound CC(=O)N[C@H]1[C@H](O)O[C@H](CO)[C@@H](O)[C@@H]1O[C@H]1[C@H](O)[C@@H](O)[C@H](O[C@H]2[C@@H]([C@@H](O[C@H]3[C@@H]([C@@H](O)[C@H](O)[C@H](O3)C(O)=O)O)[C@H](O)[C@@H](CO)O2)NC(C)=O)[C@@H](C(O)=O)O1 KIUKXJAPPMFGSW-DNGZLQJQSA-N 0.000 description 1
- 125000003345 AMP group Chemical group 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 125000000129 anionic group Chemical group 0.000 description 1
- 230000000844 anti-bacterial effect Effects 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 229940044683 chemotherapy drug Drugs 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 231100000433 cytotoxic Toxicity 0.000 description 1
- 230000001472 cytotoxic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229920002674 hyaluronan Polymers 0.000 description 1
- 229960003160 hyaluronic acid Drugs 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明是一种基于随机森林与相关向量机融合的抗癌肽识别方法。所述方法具体为:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。本发明优于目前的大部分研究人员所采用传统简单的方法识别ACP,解决了识别精度较低,充分为生物实验提供技术支撑以降低成本、提高效率。
Description
技术领域
本发明涉及抗癌肽识别技术领域,是一种基于随机森林与相关向量机融合的抗癌肽识别方法。
背景技术
人类已经开发出许多控制和杀死癌症的技术:放射疗法,靶向疗法和化学疗法等传统方法可以一定程度上的抑制癌症,而昂贵的成本以及治疗的副作用和癌细胞对当前抗癌化疗药物的耐药性是这些治疗方案无法避免的缺陷。
1972年,Boman发现了透明质酸的抗菌肽一级结构。后来,许多研究人员发现抗微生物肽具有抗肿瘤活性。然后他们将抗微生物肽命名为抗癌肽(ACP)。ACP的优势很多,例如特异性高,生产成本低,肿瘤渗透率高,易于合成和修饰等。此外,最重要的因素是ACP不会损害人体的正常生理功能。抗癌肽含有12-50个氨基酸残基。这些肽中的一些存在于具有α-螺旋或β-折叠结构的膜中,而其他具有特定的折叠。它们可以与癌细胞的阴离子细胞膜成分相互作用,然后选择性地杀死癌细胞。抗菌肽(AMPs)可用于获得ACP,许多阳离子AMPs可以破坏细菌,但不能破坏正常细胞,对多种癌细胞具有细胞毒性。尽管目前尚不完全了解ACP的机制,但天然ACP和人工设计肽的开发仍然是抗癌的重要途径。
然而,实验技术是找到ACP的昂贵且费时的方法,因此通过计算方法识别ACP是解决问题的必要手段。然而,目前的大部分研究人员都采用支持向量机(SVM)、人工神经网络(ANN)这类传统简单的方法识别ACP,这导致识别精度较低,不能充分为生物实验提供技术支撑以降低成本、提高效率。
发明内容
本发明为提高识别ACP的识别精度,本发明提供了一种基于随机森林与相关向量机融合的抗癌肽识别方法,本发明提供了以下技术方案:
一种基于随机森林与相关向量机融合的抗癌肽识别方法,包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
优选地,所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
优选地,所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
优选地,所述步骤2具体为:
T=y(x)+ε (1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε (2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:
p(t|ω,σ2)=(2πσ2)-N/2exp{-||t-Φω||2/(2σ2)} (3)
其中,σ为分布的标准差;
步骤2.3:确定先验分布,通过下式表示先验分布:
其中,α={α0,α1,···,αN}是N+1个超参数,与权重ω数量一致;
根据先验分布和数据集合的似然估计,确定后验分布,通过下式表示后验分布:
p(tN+1|t)=∫p(tN+1|ω,α,σ2)p(ω,α,σ2|t)dωdαdσ2 (5)
步骤2.4:进行迭代计算,在完成迭代后,便构建好了RVM模型,对于任意一组新的输入x*,确定新的输入x*相应输出t*,通过下式表示t*:
t*=μTΦ(x*) (6)。
优选地,所述步骤3具体为:
步骤3.1:分别对{αi}和σ2进行初始化,计算后验方差和均值,通过下式表示后验方差和均值:
∑=(σ-2ΦTΦ+A)-1 (7)
μ=σ-2∑ΦTt (8)
步骤3.2:更新{αi}和σ2,通过下式对{αi}和σ2进行更新:
其中γi=1-αi∑ii,μi第i个后验权值的均值,∑ii为后验方差矩阵∑的第i个对角线元素;
步骤3.3:循环步骤3.1至3.2,直至达到最大循环次数或输出结果的梯度小于收敛条件;
步骤3.4:删除αi中所有的αi>αmax的αi所对应的权重系数及αi索引号对应的核函数矩阵Φ中的列向量;采用步骤3.3中收敛参数,根据t*=μTΦ(x*)对训练样本进行预测。
优选地,所述αmax=1.0e5。
优选地,所述步骤4具体为:对于一个给定的样本数为n的样本集,采用有放回的随机抽取50个样本,由于每一个样本都有一个56维的特征,对特征也进行抽样,每次抽取样本的维度特征,每次用于RVM建模的样本为:50个样本,每个样本有维特征,重复101次,得到101个RVM模型;
在输入一个新的肽链的特征时,将使用101个RVM模型对输入一个新的肽链进行预测,当输出标签1的RVM模型数量最大时,则认为所述肽链为ACP,当输出标签0的RVM模型数量最大时,则所述肽链非ACP。
本发明具有以下有益效果:
本发明优于目前的大部分研究人员所采用的支持向量机(SVM)、人工神经网络(ANN)这类传统简单的方法识别ACP,解决了识别精度较低,不能充分为生物实验提供技术支撑以降低成本、提高效率。
附图说明
图1为RRVM构建方法流程图;
图2为20种氨基酸的百分比构成示意图;
图3为10倍交叉验证的正确率(ACC),准确率(Precision),召回率(recall)示意图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1所示,本发明提供一种基于随机森林与相关向量机融合的抗癌肽识别方法,包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
根据氨基酸的亲水性和疏水性我们将氨基酸分为6类,如表1所示:
表1.将氨基酸按化学特性分为6组
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
所述步骤2具体为:
T=y(x)+ε (1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε (2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:
p(t|ω,σ2)=(2πσ2)-N/2exp{-||t-Φω||2/(2σ2)} (3)
其中,σ为分布的标准差;
步骤2.3:确定先验分布,通过下式表示先验分布:
其中,α={α0,α1,···,αN}是N+1个超参数,与权重ω数量一致;
根据先验分布和数据集合的似然估计,确定后验分布,通过下式表示后验分布:
p(tN+1|t)=∫p(tN+1|ω,α,σ2)p(ω,α,σ2|t)dωdαdσ2 (5)
步骤2.4:进行迭代计算,在完成迭代后,便构建好了RVM模型,对于任意一组新的输入x*,确定新的输入x*相应输出t*,通过下式表示t*:
t*=μTΦ(x*) (6)。
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
所述步骤3具体为:
步骤3.1:分别对{αi}和σ2进行初始化,计算后验方差和均值,通过下式表示后验方差和均值:
∑=(σ-2ΦTΦ+A)-1 (7)
μ=σ-2∑ΦTt (8)
步骤3.2:更新{αi}和σ2,通过下式对{αi}和σ2进行更新:
其中γi=1-αi∑ii,μi第i个后验权值的均值,∑ii为后验方差矩阵∑的第i个对角线元素;
步骤3.3:循环步骤3.1至3.2,直至达到最大循环次数或输出结果的梯度小于收敛条件;
步骤3.4:删除αi中所有的αi>αmax的αi所对应的权重系数及αi索引号对应的核函数矩阵Φ中的列向量;αmax=1.0e5。采用步骤3.3中收敛参数,根据t*=μTΦ(x*)对训练样本进行预测。
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
所述步骤4具体为:对于一个给定的样本数为n的样本集,采用有放回的随机抽取50个样本,由于每一个样本都有一个56维的特征,对特征也进行抽样,每次抽取样本的维度特征,每次用于RVM建模的样本为:50个样本,每个样本有维特征,重复101次,得到101个RVM模型;
在输入一个新的肽链的特征时,将使用101个RVM模型对输入一个新的肽链进行预测,当输出标签1的RVM模型数量最大时,则认为所述肽链为ACP,当输出标签0的RVM模型数量最大时,则所述肽链非ACP。
根据图3所示,采用了2组数据集,分别进行了10倍交叉验证。结果显示,RRVM优于以往的方法,如表2所示:
表2两重方法的分类准确度比较
1RRVM
以上所述仅是一种基于随机森林与相关向量机融合的抗癌肽识别方法的优选实施方式,一种基于随机森林与相关向量机融合的抗癌肽识别方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (7)
1.一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
2.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
3.根据权利要求2所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
4.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤2具体为:
T=y(x)+ε (1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε (2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:
p(t|ω,σ2)=(2πσ2)-N/2exp{-||t-Φω||2/(2σ2)} (3)
其中,σ为分布的标准差;
步骤2.3:确定先验分布,通过下式表示先验分布:
其中,α={α0,α1,···,αN}是N+1个超参数,与权重ω数量一致;
根据先验分布和数据集合的似然估计,确定后验分布,通过下式表示后验分布:
p(tN+1|t)=∫p(tN+1|ω,α,σ2)p(ω,α,σ2|t)dωdαdσ2 (5)
步骤2.4:进行迭代计算,在完成迭代后,便构建好了RVM模型,对于任意一组新的输入x*,确定新的输入x*相应输出t*,通过下式表示t*:
t*=μTΦ(x*) (6)。
5.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤3具体为:
步骤3.1:分别对{αi}和σ2进行初始化,计算后验方差和均值,通过下式表示后验方差和均值:
∑=(σ-2ΦTΦ+A)-1 (7)
μ=σ-2∑ΦTt (8)
步骤3.2:更新{αi}和σ2,通过下式对{αi}和σ2进行更新:
其中γi=1-αi∑ii,μi第i个后验权值的均值,∑ii为后验方差矩阵∑的第i个对角线元素;
步骤3.3:循环步骤3.1至3.2,直至达到最大循环次数或输出结果的梯度小于收敛条件;
步骤3.4:删除αi中所有的αi>αmax的αi所对应的权重系数及αi索引号对应的核函数矩阵Φ中的列向量;采用步骤3.3中收敛参数,根据t*=μTΦ(x*)对训练样本进行预测。
6.根据权利要求5所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述αmax=1.0e5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010264520.9A CN111524551A (zh) | 2020-04-07 | 2020-04-07 | 一种基于随机森林与相关向量机融合的抗癌肽识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010264520.9A CN111524551A (zh) | 2020-04-07 | 2020-04-07 | 一种基于随机森林与相关向量机融合的抗癌肽识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111524551A true CN111524551A (zh) | 2020-08-11 |
Family
ID=71901938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010264520.9A Pending CN111524551A (zh) | 2020-04-07 | 2020-04-07 | 一种基于随机森林与相关向量机融合的抗癌肽识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524551A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593632A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种多肽抗癌功能识别方法、系统、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102056182A (zh) * | 2010-12-13 | 2011-05-11 | 哈尔滨工业大学 | 一种基于ls-svm的移动话务量预测方法 |
CN102289717A (zh) * | 2011-07-27 | 2011-12-21 | 华北电力大学 | 一种适用于电力系统复杂网络的快速状态估计方法 |
US20130053275A1 (en) * | 2010-04-29 | 2013-02-28 | Medical Prognosis Institute A/S | Methods and devices for predicting treatment efficacy |
-
2020
- 2020-04-07 CN CN202010264520.9A patent/CN111524551A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130053275A1 (en) * | 2010-04-29 | 2013-02-28 | Medical Prognosis Institute A/S | Methods and devices for predicting treatment efficacy |
CN102056182A (zh) * | 2010-12-13 | 2011-05-11 | 哈尔滨工业大学 | 一种基于ls-svm的移动话务量预测方法 |
CN102289717A (zh) * | 2011-07-27 | 2011-12-21 | 华北电力大学 | 一种适用于电力系统复杂网络的快速状态估计方法 |
Non-Patent Citations (2)
Title |
---|
TIANYI ZHAO: "Identification of anticancer peptides based on Random Relevance Vector Machines", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 * |
彭宇: "《数据驱动的故障预测》", 31 March 2016, 哈尔滨工业大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593632A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种多肽抗癌功能识别方法、系统、介质及设备 |
CN113593632B (zh) * | 2021-08-09 | 2023-09-05 | 山东大学 | 一种多肽抗癌功能识别方法、系统、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188824B (zh) | 一种小样本植物病害识别方法及系统 | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及系统 | |
CN111748632A (zh) | 一种特征lincRNA表达谱组合及肝癌早期预测方法 | |
Wang et al. | Incorporating deep learning with word embedding to identify plant ubiquitylation sites | |
Zaman et al. | Codon based back propagation neural network approach to classify hypertension gene sequences | |
CN112215259B (zh) | 基因选择方法和装置 | |
Lomboy et al. | A comparative performance of breast cancer classification using hyper-parameterized machine learning models | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN112233200A (zh) | 剂量确定方法及装置 | |
CN112906755A (zh) | 一种植物抗性蛋白识别方法、装置、设备和存储介质 | |
Kumar et al. | An amalgam method efficient for finding of cancer gene using CSC from micro array data | |
Zhang et al. | Pep-CNN: An improved convolutional neural network for predicting therapeutic peptides | |
CN111524551A (zh) | 一种基于随机森林与相关向量机融合的抗癌肽识别方法 | |
CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法 | |
CN110838342B (zh) | 基于相似性的病毒-受体相互作用关系预测方法和装置 | |
CN109686399B (zh) | 一种基因数据集整合分析方法 | |
CN111748634A (zh) | 一种特征lincRNA表达谱组合及结肠癌的早期预测方法 | |
CN111944900A (zh) | 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法 | |
CN109920478B (zh) | 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法 | |
CN111733251A (zh) | 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
CN111808965A (zh) | 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法 | |
CN114038508A (zh) | 单细胞rna测序数据的处理方法、装置及电子设备 | |
KR101899729B1 (ko) | 세포핵 기반의 암 탐지 방법 및 암 탐지를 위한 위한 학습 방법 | |
CN113837293A (zh) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |