CN111524551A - 一种基于随机森林与相关向量机融合的抗癌肽识别方法 - Google Patents

一种基于随机森林与相关向量机融合的抗癌肽识别方法 Download PDF

Info

Publication number
CN111524551A
CN111524551A CN202010264520.9A CN202010264520A CN111524551A CN 111524551 A CN111524551 A CN 111524551A CN 202010264520 A CN202010264520 A CN 202010264520A CN 111524551 A CN111524551 A CN 111524551A
Authority
CN
China
Prior art keywords
acp
rvm
vector machine
determining
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010264520.9A
Other languages
English (en)
Inventor
赵天意
臧天仪
胡杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010264520.9A priority Critical patent/CN111524551A/zh
Publication of CN111524551A publication Critical patent/CN111524551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明是一种基于随机森林与相关向量机融合的抗癌肽识别方法。所述方法具体为:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。本发明优于目前的大部分研究人员所采用传统简单的方法识别ACP,解决了识别精度较低,充分为生物实验提供技术支撑以降低成本、提高效率。

Description

一种基于随机森林与相关向量机融合的抗癌肽识别方法
技术领域
本发明涉及抗癌肽识别技术领域,是一种基于随机森林与相关向量机融合的抗癌肽识别方法。
背景技术
人类已经开发出许多控制和杀死癌症的技术:放射疗法,靶向疗法和化学疗法等传统方法可以一定程度上的抑制癌症,而昂贵的成本以及治疗的副作用和癌细胞对当前抗癌化疗药物的耐药性是这些治疗方案无法避免的缺陷。
1972年,Boman发现了透明质酸的抗菌肽一级结构。后来,许多研究人员发现抗微生物肽具有抗肿瘤活性。然后他们将抗微生物肽命名为抗癌肽(ACP)。ACP的优势很多,例如特异性高,生产成本低,肿瘤渗透率高,易于合成和修饰等。此外,最重要的因素是ACP不会损害人体的正常生理功能。抗癌肽含有12-50个氨基酸残基。这些肽中的一些存在于具有α-螺旋或β-折叠结构的膜中,而其他具有特定的折叠。它们可以与癌细胞的阴离子细胞膜成分相互作用,然后选择性地杀死癌细胞。抗菌肽(AMPs)可用于获得ACP,许多阳离子AMPs可以破坏细菌,但不能破坏正常细胞,对多种癌细胞具有细胞毒性。尽管目前尚不完全了解ACP的机制,但天然ACP和人工设计肽的开发仍然是抗癌的重要途径。
然而,实验技术是找到ACP的昂贵且费时的方法,因此通过计算方法识别ACP是解决问题的必要手段。然而,目前的大部分研究人员都采用支持向量机(SVM)、人工神经网络(ANN)这类传统简单的方法识别ACP,这导致识别精度较低,不能充分为生物实验提供技术支撑以降低成本、提高效率。
发明内容
本发明为提高识别ACP的识别精度,本发明提供了一种基于随机森林与相关向量机融合的抗癌肽识别方法,本发明提供了以下技术方案:
一种基于随机森林与相关向量机融合的抗癌肽识别方法,包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
优选地,所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
优选地,所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
优选地,所述步骤2具体为:
步骤2.1:对于给定的数据集
Figure BDA0002440745400000021
xi∈Rd,ti∈R,建立非线性模型,通过下式表示非线性模型:
T=y(x)+ε (1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε (2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:
p(t|ω,σ2)=(2πσ2)-N/2exp{-||t-Φω||2/(2σ2)} (3)
其中,σ为分布的标准差;
步骤2.3:确定先验分布,通过下式表示先验分布:
Figure BDA0002440745400000031
其中,α={α01,···,αN}是N+1个超参数,与权重ω数量一致;
根据先验分布和数据集合的似然估计,确定后验分布,通过下式表示后验分布:
p(tN+1|t)=∫p(tN+1|ω,α,σ2)p(ω,α,σ2|t)dωdαdσ2 (5)
步骤2.4:进行迭代计算,在完成迭代后,便构建好了RVM模型,对于任意一组新的输入x*,确定新的输入x*相应输出t*,通过下式表示t*
t*=μTΦ(x*) (6)。
优选地,所述步骤3具体为:
步骤3.1:分别对{αi}和σ2进行初始化,计算后验方差和均值,通过下式表示后验方差和均值:
∑=(σ-2ΦTΦ+A)-1 (7)
μ=σ-2∑ΦTt (8)
步骤3.2:更新{αi}和σ2,通过下式对{αi}和σ2进行更新:
Figure BDA0002440745400000032
Figure BDA0002440745400000033
其中γi=1-αiii,μi第i个后验权值的均值,∑ii为后验方差矩阵∑的第i个对角线元素;
步骤3.3:循环步骤3.1至3.2,直至达到最大循环次数或输出结果的梯度小于收敛条件;
步骤3.4:删除αi中所有的αi>αmax的αi所对应的权重系数及αi索引号对应的核函数矩阵Φ中的列向量;采用步骤3.3中收敛参数,根据t*=μTΦ(x*)对训练样本进行预测。
优选地,所述αmax=1.0e5
优选地,所述步骤4具体为:对于一个给定的样本数为n的样本集,采用有放回的随机抽取50个样本,由于每一个样本都有一个56维的特征,对特征也进行抽样,每次抽取样本的
Figure BDA0002440745400000041
维度特征,每次用于RVM建模的样本为:50个样本,每个样本有
Figure BDA0002440745400000042
维特征,重复101次,得到101个RVM模型;
在输入一个新的肽链的特征时,将使用101个RVM模型对输入一个新的肽链进行预测,当输出标签1的RVM模型数量最大时,则认为所述肽链为ACP,当输出标签0的RVM模型数量最大时,则所述肽链非ACP。
本发明具有以下有益效果:
本发明优于目前的大部分研究人员所采用的支持向量机(SVM)、人工神经网络(ANN)这类传统简单的方法识别ACP,解决了识别精度较低,不能充分为生物实验提供技术支撑以降低成本、提高效率。
附图说明
图1为RRVM构建方法流程图;
图2为20种氨基酸的百分比构成示意图;
图3为10倍交叉验证的正确率(ACC),准确率(Precision),召回率(recall)示意图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1所示,本发明提供一种基于随机森林与相关向量机融合的抗癌肽识别方法,包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
根据氨基酸的亲水性和疏水性我们将氨基酸分为6类,如表1所示:
表1.将氨基酸按化学特性分为6组
Figure BDA0002440745400000051
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
所述步骤2具体为:
步骤2.1:对于给定的数据集
Figure BDA0002440745400000052
xi∈Rd,ti∈R,建立非线性模型,通过下式表示非线性模型:
T=y(x)+ε (1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε (2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:
p(t|ω,σ2)=(2πσ2)-N/2exp{-||t-Φω||2/(2σ2)} (3)
其中,σ为分布的标准差;
步骤2.3:确定先验分布,通过下式表示先验分布:
Figure BDA0002440745400000053
其中,α={α01,···,αN}是N+1个超参数,与权重ω数量一致;
根据先验分布和数据集合的似然估计,确定后验分布,通过下式表示后验分布:
p(tN+1|t)=∫p(tN+1|ω,α,σ2)p(ω,α,σ2|t)dωdαdσ2 (5)
步骤2.4:进行迭代计算,在完成迭代后,便构建好了RVM模型,对于任意一组新的输入x*,确定新的输入x*相应输出t*,通过下式表示t*
t*=μTΦ(x*) (6)。
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
所述步骤3具体为:
步骤3.1:分别对{αi}和σ2进行初始化,计算后验方差和均值,通过下式表示后验方差和均值:
∑=(σ-2ΦTΦ+A)-1 (7)
μ=σ-2∑ΦTt (8)
步骤3.2:更新{αi}和σ2,通过下式对{αi}和σ2进行更新:
Figure BDA0002440745400000061
Figure BDA0002440745400000062
其中γi=1-αiii,μi第i个后验权值的均值,∑ii为后验方差矩阵∑的第i个对角线元素;
步骤3.3:循环步骤3.1至3.2,直至达到最大循环次数或输出结果的梯度小于收敛条件;
步骤3.4:删除αi中所有的αi>αmax的αi所对应的权重系数及αi索引号对应的核函数矩阵Φ中的列向量;αmax=1.0e5。采用步骤3.3中收敛参数,根据t*=μTΦ(x*)对训练样本进行预测。
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
所述步骤4具体为:对于一个给定的样本数为n的样本集,采用有放回的随机抽取50个样本,由于每一个样本都有一个56维的特征,对特征也进行抽样,每次抽取样本的
Figure BDA0002440745400000071
维度特征,每次用于RVM建模的样本为:50个样本,每个样本有
Figure BDA0002440745400000072
维特征,重复101次,得到101个RVM模型;
在输入一个新的肽链的特征时,将使用101个RVM模型对输入一个新的肽链进行预测,当输出标签1的RVM模型数量最大时,则认为所述肽链为ACP,当输出标签0的RVM模型数量最大时,则所述肽链非ACP。
根据图3所示,采用了2组数据集,分别进行了10倍交叉验证。结果显示,RRVM优于以往的方法,如表2所示:
表2两重方法的分类准确度比较
Figure BDA0002440745400000073
1RRVM
以上所述仅是一种基于随机森林与相关向量机融合的抗癌肽识别方法的优选实施方式,一种基于随机森林与相关向量机融合的抗癌肽识别方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (7)

1.一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
2.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
3.根据权利要求2所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
4.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤2具体为:
步骤2.1:对于给定的数据集
Figure FDA0002440745390000011
建立非线性模型,通过下式表示非线性模型:
T=y(x)+ε (1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε (2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:
p(t|ω,σ2)=(2πσ2)-N/2exp{-||t-Φω||2/(2σ2)} (3)
其中,σ为分布的标准差;
步骤2.3:确定先验分布,通过下式表示先验分布:
Figure FDA0002440745390000021
其中,α={α01,···,αN}是N+1个超参数,与权重ω数量一致;
根据先验分布和数据集合的似然估计,确定后验分布,通过下式表示后验分布:
p(tN+1|t)=∫p(tN+1|ω,α,σ2)p(ω,α,σ2|t)dωdαdσ2 (5)
步骤2.4:进行迭代计算,在完成迭代后,便构建好了RVM模型,对于任意一组新的输入x*,确定新的输入x*相应输出t*,通过下式表示t*
t*=μTΦ(x*) (6)。
5.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤3具体为:
步骤3.1:分别对{αi}和σ2进行初始化,计算后验方差和均值,通过下式表示后验方差和均值:
∑=(σ-2ΦTΦ+A)-1 (7)
μ=σ-2∑ΦTt (8)
步骤3.2:更新{αi}和σ2,通过下式对{αi}和σ2进行更新:
Figure FDA0002440745390000022
Figure FDA0002440745390000031
其中γi=1-αiii,μi第i个后验权值的均值,∑ii为后验方差矩阵∑的第i个对角线元素;
步骤3.3:循环步骤3.1至3.2,直至达到最大循环次数或输出结果的梯度小于收敛条件;
步骤3.4:删除αi中所有的αi>αmax的αi所对应的权重系数及αi索引号对应的核函数矩阵Φ中的列向量;采用步骤3.3中收敛参数,根据t*=μTΦ(x*)对训练样本进行预测。
6.根据权利要求5所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述αmax=1.0e5
7.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤4具体为:对于一个给定的样本数为n的样本集,采用有放回的随机抽取50个样本,由于每一个样本都有一个56维的特征,对特征也进行抽样,每次抽取样本的
Figure FDA0002440745390000032
维度特征,每次用于RVM建模的样本为:50个样本,每个样本有
Figure FDA0002440745390000033
维特征,重复101次,得到101个RVM模型;
在输入一个新的肽链的特征时,将使用101个RVM模型对输入一个新的肽链进行预测,当输出标签1的RVM模型数量最大时,则认为所述肽链为ACP,当输出标签0的RVM模型数量最大时,则所述肽链非ACP。
CN202010264520.9A 2020-04-07 2020-04-07 一种基于随机森林与相关向量机融合的抗癌肽识别方法 Pending CN111524551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010264520.9A CN111524551A (zh) 2020-04-07 2020-04-07 一种基于随机森林与相关向量机融合的抗癌肽识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010264520.9A CN111524551A (zh) 2020-04-07 2020-04-07 一种基于随机森林与相关向量机融合的抗癌肽识别方法

Publications (1)

Publication Number Publication Date
CN111524551A true CN111524551A (zh) 2020-08-11

Family

ID=71901938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010264520.9A Pending CN111524551A (zh) 2020-04-07 2020-04-07 一种基于随机森林与相关向量机融合的抗癌肽识别方法

Country Status (1)

Country Link
CN (1) CN111524551A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593632A (zh) * 2021-08-09 2021-11-02 山东大学 一种多肽抗癌功能识别方法、系统、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102056182A (zh) * 2010-12-13 2011-05-11 哈尔滨工业大学 一种基于ls-svm的移动话务量预测方法
CN102289717A (zh) * 2011-07-27 2011-12-21 华北电力大学 一种适用于电力系统复杂网络的快速状态估计方法
US20130053275A1 (en) * 2010-04-29 2013-02-28 Medical Prognosis Institute A/S Methods and devices for predicting treatment efficacy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130053275A1 (en) * 2010-04-29 2013-02-28 Medical Prognosis Institute A/S Methods and devices for predicting treatment efficacy
CN102056182A (zh) * 2010-12-13 2011-05-11 哈尔滨工业大学 一种基于ls-svm的移动话务量预测方法
CN102289717A (zh) * 2011-07-27 2011-12-21 华北电力大学 一种适用于电力系统复杂网络的快速状态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANYI ZHAO: "Identification of anticancer peptides based on Random Relevance Vector Machines", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
彭宇: "《数据驱动的故障预测》", 31 March 2016, 哈尔滨工业大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593632A (zh) * 2021-08-09 2021-11-02 山东大学 一种多肽抗癌功能识别方法、系统、介质及设备
CN113593632B (zh) * 2021-08-09 2023-09-05 山东大学 一种多肽抗癌功能识别方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
CN110188824B (zh) 一种小样本植物病害识别方法及系统
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN111748632A (zh) 一种特征lincRNA表达谱组合及肝癌早期预测方法
Wang et al. Incorporating deep learning with word embedding to identify plant ubiquitylation sites
Zaman et al. Codon based back propagation neural network approach to classify hypertension gene sequences
CN112215259B (zh) 基因选择方法和装置
Lomboy et al. A comparative performance of breast cancer classification using hyper-parameterized machine learning models
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN112233200A (zh) 剂量确定方法及装置
CN112906755A (zh) 一种植物抗性蛋白识别方法、装置、设备和存储介质
Kumar et al. An amalgam method efficient for finding of cancer gene using CSC from micro array data
Zhang et al. Pep-CNN: An improved convolutional neural network for predicting therapeutic peptides
CN111524551A (zh) 一种基于随机森林与相关向量机融合的抗癌肽识别方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN110838342B (zh) 基于相似性的病毒-受体相互作用关系预测方法和装置
CN109686399B (zh) 一种基因数据集整合分析方法
CN111748634A (zh) 一种特征lincRNA表达谱组合及结肠癌的早期预测方法
CN111944900A (zh) 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法
CN109920478B (zh) 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法
CN111733251A (zh) 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN111808965A (zh) 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法
CN114038508A (zh) 单细胞rna测序数据的处理方法、装置及电子设备
KR101899729B1 (ko) 세포핵 기반의 암 탐지 방법 및 암 탐지를 위한 위한 학습 방법
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811