CN111524551A

CN111524551A - 一种基于随机森林与相关向量机融合的抗癌肽识别方法

Info

Publication number: CN111524551A
Application number: CN202010264520.9A
Authority: CN
Inventors: 赵天意; 臧天仪; 胡杨
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-11

Abstract

本发明是一种基于随机森林与相关向量机融合的抗癌肽识别方法。所述方法具体为:对氨基酸的构成进行特征提取，确定ACP和非ACP中每种氨基酸的平均百分比，确定ACP的序列特征；进行RVM模型的构建，确定先验分布和后验分布，进行迭代计算，构建RVM模型；对RVM模型进行训练，计算后验均值和后验方差，对训练样本进行预测；采用RRVM算法对一给定样本进行特征抽样，并用于RVM建模的样本，在输入一个新的肽链的特征时，采用RVM模型进行预测，判断输入的新的肽链为ACP或非ACP。本发明优于目前的大部分研究人员所采用传统简单的方法识别ACP，解决了识别精度较低，充分为生物实验提供技术支撑以降低成本、提高效率。

Description

一种基于随机森林与相关向量机融合的抗癌肽识别方法

技术领域

本发明涉及抗癌肽识别技术领域，是一种基于随机森林与相关向量机融合的抗癌肽识别方法。

背景技术

人类已经开发出许多控制和杀死癌症的技术：放射疗法，靶向疗法和化学疗法等传统方法可以一定程度上的抑制癌症，而昂贵的成本以及治疗的副作用和癌细胞对当前抗癌化疗药物的耐药性是这些治疗方案无法避免的缺陷。

1972年，Boman发现了透明质酸的抗菌肽一级结构。后来，许多研究人员发现抗微生物肽具有抗肿瘤活性。然后他们将抗微生物肽命名为抗癌肽(ACP)。ACP的优势很多，例如特异性高，生产成本低，肿瘤渗透率高，易于合成和修饰等。此外，最重要的因素是ACP不会损害人体的正常生理功能。抗癌肽含有12-50个氨基酸残基。这些肽中的一些存在于具有α-螺旋或β-折叠结构的膜中，而其他具有特定的折叠。它们可以与癌细胞的阴离子细胞膜成分相互作用，然后选择性地杀死癌细胞。抗菌肽(AMPs)可用于获得ACP，许多阳离子AMPs可以破坏细菌，但不能破坏正常细胞，对多种癌细胞具有细胞毒性。尽管目前尚不完全了解ACP的机制，但天然ACP和人工设计肽的开发仍然是抗癌的重要途径。

然而，实验技术是找到ACP的昂贵且费时的方法，因此通过计算方法识别ACP是解决问题的必要手段。然而，目前的大部分研究人员都采用支持向量机(SVM)、人工神经网络(ANN)这类传统简单的方法识别ACP，这导致识别精度较低，不能充分为生物实验提供技术支撑以降低成本、提高效率。

发明内容

本发明为提高识别ACP的识别精度，本发明提供了一种基于随机森林与相关向量机融合的抗癌肽识别方法，本发明提供了以下技术方案：

一种基于随机森林与相关向量机融合的抗癌肽识别方法，包括以下步骤：

步骤1：对氨基酸的构成进行特征提取，确定ACP和非ACP中每种氨基酸的平均百分比，确定ACP的序列特征；

步骤2：进行RVM模型的构建，确定先验分布和后验分布，进行迭代计算，构建RVM模型；

步骤3：对RVM模型进行训练，计算后验均值和后验方差，对训练样本进行预测；

步骤4：采用RRVM算法对一给定样本进行特征抽样，并用于RVM建模的样本，在输入一个新的肽链的特征时，采用RVM模型进行预测，判断输入的新的肽链为ACP或非ACP。

优选地，所述步骤1具体为：

步骤1.1：对氨基酸的构成进行特征提取，由于ACP和非ACP的构成不同，肽中全部20个氨基酸的出现频率会完全，不同绘制了平均氨基酸组成图，区分ACP和非ACP之间的区别，确定ACP和非ACP中每种氨基酸的平均百分比；

步骤1.2：根据氨基酸的亲水性和疏水性将氨基酸分为6类，每一个肽链的氨基酸可以分为6组，共有36种组合，分别计算每个ACP的36种排列出现的概率，作为ACP的另一特征；

步骤1.3：提取ACP的2种特征，氨基酸占比和氨基酸的亲水性和疏水性，氨基酸占比这一种特征是20维的，氨基酸的亲水性和疏水性这一种特征是36维的，因此，所以每一个ACP序列都被一个56维的特征所表示特征类别。

优选地，所述根据氨基酸的亲水性和疏水性将氨基酸分为6类，分别为强亲水性、疏水性强、弱亲水，弱疏水、脯氨酸、甘氨酸和半胱氨酸。

优选地，所述步骤2具体为：

步骤2.1：对于给定的数据集

x_i∈R^d，t_i∈R，建立非线性模型，通过下式表示非线性模型：

T＝y(x)+ε (1)

其中，N是样本数，y(·)为非线性函数，ε是独立同分布的高斯噪声，且ε～N(0,σ²)，T为目标变量；

确定相关向量机RVM模型，通过下式表示相关向量机RVM：

t＝Φω+ε (2)

其中，ω＝(ω₀,···,ω_N)^T，ω为权重；Φ是核函数矩阵；

步骤2.2：根据Bayesian，p(t|x)满足N(t|y(x),σ²)分布，确定数据集合的似然估计，通过下式表示数据集合的似然估计：

p(t|ω,σ²)＝(2πσ²)^-N/2exp{-||t-Φω||²/(2σ²)} (3)

其中，σ为分布的标准差；

步骤2.3：确定先验分布，通过下式表示先验分布：

其中，α＝{α₀,α₁,···,α_N}是N+1个超参数，与权重ω数量一致；

根据先验分布和数据集合的似然估计，确定后验分布，通过下式表示后验分布：

p(t_N+1|t)＝∫p(t_N+1|ω,α,σ²)p(ω,α,σ²|t)dωdαdσ² (5)

步骤2.4：进行迭代计算，在完成迭代后，便构建好了RVM模型，对于任意一组新的输入x_*，确定新的输入x_*相应输出t_*，通过下式表示t_*：

t_*＝μ^TΦ(x_*) (6)。

优选地，所述步骤3具体为：

步骤3.1：分别对{α_i}和σ²进行初始化，计算后验方差和均值，通过下式表示后验方差和均值：

∑＝(σ^-2Φ^TΦ+A)^-1 (7)

μ＝σ^-2∑Φ^Tt (8)

步骤3.2:更新{α_i}和σ²，通过下式对{α_i}和σ²进行更新：

其中γ_i＝1-α_i∑_ii，μ_i第i个后验权值的均值，∑_ii为后验方差矩阵∑的第i个对角线元素；

步骤3.3:循环步骤3.1至3.2，直至达到最大循环次数或输出结果的梯度小于收敛条件；

步骤3.4:删除α_i中所有的α_i＞α_max的α_i所对应的权重系数及α_i索引号对应的核函数矩阵Φ中的列向量；采用步骤3.3中收敛参数，根据t_*＝μ^TΦ(x_*)对训练样本进行预测。

优选地，所述α_max＝1.0e⁵。

优选地，所述步骤4具体为：对于一个给定的样本数为n的样本集，采用有放回的随机抽取50个样本，由于每一个样本都有一个56维的特征，对特征也进行抽样，每次抽取样本的

维度特征，每次用于RVM建模的样本为：50个样本，每个样本有

维特征，重复101次，得到101个RVM模型；

在输入一个新的肽链的特征时，将使用101个RVM模型对输入一个新的肽链进行预测，当输出标签1的RVM模型数量最大时，则认为所述肽链为ACP，当输出标签0的RVM模型数量最大时，则所述肽链非ACP。

本发明具有以下有益效果：

本发明优于目前的大部分研究人员所采用的支持向量机(SVM)、人工神经网络(ANN)这类传统简单的方法识别ACP，解决了识别精度较低，不能充分为生物实验提供技术支撑以降低成本、提高效率。

附图说明

图1为RRVM构建方法流程图；

图2为20种氨基酸的百分比构成示意图；

图3为10倍交叉验证的正确率(ACC)，准确率(Precision),召回率(recall)示意图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1所示，本发明提供一种基于随机森林与相关向量机融合的抗癌肽识别方法，包括以下步骤：

所述步骤1具体为：

步骤1.2：根据氨基酸的亲水性和疏水性将氨基酸分为6类，所述根据氨基酸的亲水性和疏水性将氨基酸分为6类，分别为强亲水性、疏水性强、弱亲水，弱疏水、脯氨酸、甘氨酸和半胱氨酸。

每一个肽链的氨基酸可以分为6组，共有36种组合，分别计算每个ACP的36种排列出现的概率，作为ACP的另一特征；

根据氨基酸的亲水性和疏水性我们将氨基酸分为6类，如表1所示：

表1.将氨基酸按化学特性分为6组

所述步骤2具体为：

步骤2.1：对于给定的数据集

T＝y(x)+ε (1)

确定相关向量机RVM模型，通过下式表示相关向量机RVM：

t＝Φω+ε (2)

其中，ω＝(ω₀,···,ω_N)^T，ω为权重；Φ是核函数矩阵；

p(t|ω,σ²)＝(2πσ²)^-N/2exp{-||t-Φω||²/(2σ²)} (3)

其中，σ为分布的标准差；

步骤2.3：确定先验分布，通过下式表示先验分布：

p(t_N+1|t)＝∫p(t_N+1|ω,α,σ²)p(ω,α,σ²|t)dωdαdσ² (5)

t_*＝μ^TΦ(x_*) (6)。

所述步骤3具体为：

∑＝(σ^-2Φ^TΦ+A)^-1 (7)

μ＝σ^-2∑Φ^Tt (8)

步骤3.2:更新{α_i}和σ²，通过下式对{α_i}和σ²进行更新：

步骤3.4:删除α_i中所有的α_i＞α_max的α_i所对应的权重系数及α_i索引号对应的核函数矩阵Φ中的列向量；α_max＝1.0e⁵。采用步骤3.3中收敛参数，根据t_*＝μ^TΦ(x_*)对训练样本进行预测。

所述步骤4具体为：对于一个给定的样本数为n的样本集，采用有放回的随机抽取50个样本，由于每一个样本都有一个56维的特征，对特征也进行抽样，每次抽取样本的

维特征，重复101次，得到101个RVM模型；

根据图3所示，采用了2组数据集，分别进行了10倍交叉验证。结果显示，RRVM优于以往的方法，如表2所示：

表2两重方法的分类准确度比较

¹RRVM

以上所述仅是一种基于随机森林与相关向量机融合的抗癌肽识别方法的优选实施方式，一种基于随机森林与相关向量机融合的抗癌肽识别方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。