CN112951341B

CN112951341B - 一种基于复杂网络的多肽分类方法

Info

Publication number: CN112951341B
Application number: CN202110275496.3A
Authority: CN
Inventors: 丁彦蕊; 许德玲
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2024-04-30
Anticipated expiration: 2041-03-15
Also published as: CN112951341A

Abstract

本发明公开了一种基于复杂网络的多肽分类方法，属于计算机辅助药物设计领域。所述方法根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性，并将其作为网络特征来判断待分类多肽的类别，提供了一种新的思路实现对于多肽类别的判定；并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定，判断结果更准确。

Description

一种基于复杂网络的多肽分类方法

技术领域

本发明涉及一种基于复杂网络的多肽分类方法，属于计算机辅助药物设计领域。

背景技术

目前有多类药物用于治疗癌症和高血压，其中的多肽类药物因其生物活性高、特异性强、毒性较低，对人体的伤害程度小而被广泛应用于多种疾病的治疗。而随着大数据及人工智能技术的发展，计算机辅助药物设计成为缩短药物研发周期以及减少药物研发成本和风险的有效方法之一。越来越多的机器学习方法用来识别和分析多肽类药物。

机器学习识别多肽的关键在于特征的提取。目前的研究主要从多肽的一级结构、二级结构和三级结构三个层次提取特征，很少有从网络结构方面考虑多肽的特征，因此发明此类研究方法能够更全面的刻画多肽类药物，为分析和设计多肽类新药提供理论基础。

Schaduangrat N(《ACPred:A Computational Tool for the Prediction andAnalysis of Anticancer Peptides》.Journal of Molecules,2019,24(10),1973-2000)描述了现有的一级结构的特征描述方法有氨基酸组成(AAC)、二肽组成(DPC)、伪氨基酸组成(PseAAC)、两亲性伪氨基酸组成(Am-PseAAC)、g间隙二肽组成(g-gap DPC)、氨基酸的理化性质(PCC)、伪特定位置评分矩阵(PsePSSM)等，这些方法只考虑了多肽的序列信息，忽视了多肽的结构信息。Ghosh K K(《A two-stage approach towards protein secondarystructure classification》.Journal of Med Biol Eng Comput,2020,58,1723–1737)等人用机器学习模型将蛋白质分为四类：all-α,all-β,α+β,α/β,虽然该方法已经考虑了基于序列和结构的特征，但是忽略了二级结构特征中的其他几种类型(如转角、卷曲等二级结构类型)，也就无法对包含这几类结构的多肽进行准确的分类。

综上，现有对于多肽的分类方法的准确度有待进一步提高，适用范围也有待于进一步完善。

发明内容

为了解决现有多肽分类方法分类不够准确以及适用范围有限的问题，本发明提供了一种基于复杂网络的多肽分类方法，所述方法包括：

Step1提取待分类多肽的一级结构和三级结构，并对三级结构进行解析获得二级结构和网络结构；

Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征；

Step3以待分类多肽的网络特征为输入，采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类，得到待分类多肽所属类别的第一判断结果；所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型。

可选的，所述获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征，包括：

将每条多肽表示为：C＝c₁,c₂,…,c₂₀,c₂₁,…,c₄₀,c₄₁,…c₆₀；其中：

(1)c₁～c₂₀代表各种氨基酸的平均度，在网络中反映氨基酸节点的重要程度；氨基酸节点i的度d_i的计算公式为d_i＝∑a_ij，其中a_ij表示氨基酸节点i和氨基酸节点j之间有边记为1，否则为0；

(2)c₂₁～c₄₀代表各种氨基酸的平均接近中心性，在网络中反映氨基酸节点与氨基酸节点之间的接近程度；氨基酸节点i的接近中心性c_i计算公式为其中d_ij表示以氨基酸节点i为起点，以氨基酸节点j为终点的最短路径中所含边的数量，N为氨基酸节点的总数；

(3)c₄₁～c₆₀代表各种氨基酸的平均介数中心性，在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度；氨基酸节点i的介数中心性B_i计算公式为其中σ_jk(i)表示从氨基酸节点j通过氨基酸节点i到氨基酸节点k最短路径的条数，σ_jk表示从氨基酸节点j到氨基酸节点k之间所有最短路径的总数。

可选的，所述方法还包括：

Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征，并去除不相关和冗余的特征；

Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入，采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类，得到待分类多肽所属类别的第二判断结果；

Step6根据待分类多肽所属类别的第一判断结果和待分类多肽所属类别的第二判断结果最终确定待分类多肽所属类别。

可选的，所述以网络特征进行训练得到的训练好的分类模型的训练过程包括：

Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构，并对三维结构进行解析获得二级结构和网络结构；

Step1-2根据网络结构获取抗癌多肽和抗高血压多肽中各种氨基酸的度、接近中心性和介数中心性；

Step1-3根据各种氨基酸的度、接近中心性和介数中心性数值的大小，选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征；

Step1-4以网络特征为输入，分别训练基于支持向量机、K近邻、随机森林三种算法的分类模型，得到训练好的分类模型。

可选的，所述基于支持向量机、K近邻、随机森林三种算法的分类模型中，支持向量机分类模型中采用RBF作为内核函数，训练好的模型中支持向量机参数c和g取值为c＝2⁴,g＝2^-4；K近邻分类模型中，参数K取值为K＝45；随机森林分类模型中，最佳分类数值为130。

可选的，所述Step4包括：

(1)一级结构中采用Pseaac+PCC特征提取方式，其中，Pseaac方法表示序列的全局信息，PCC方法表示序列的局部信息；

(2)二级结构提取八种二级结构类型作为特征；

(3)三级结构中统计氢键、盐桥作用力的信息；

采用基于递归特征消除法的支持向量机特征选择算法去除不相关和冗余的特征。

可选的，所述去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征分别包括：

一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率；H,T,S三种二级结构；三级结构中包括氢键和范德华作用力。

可选的，所述Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构，为从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三级结构。

本发明有益效果是：

通过使用复杂网络中的拓扑属性值来表示多肽的特征，以从网络结构中提取的氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征，并且结合多肽的一级、二级、三级结构的信息，从而更加全面的描述多肽药物。并且本申请所述的基于递归特征消除法的支持向量机算法去除冗余特征，从各个结构层次筛选出抗癌多肽和抗高血压多肽的关键特征。本发明方法首次将复杂网络的思想运用到多肽的特征提取中，这为多肽的识别研究开辟了一种新的思路，同时为分析和设计多肽类新药的理论研究提供一种新的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中氨基酸在平均度值最大时的分布情况仿真图。

图2是本发明实施例中氨基酸在平均接近中心性值最大时的分布情况仿真图。

图3是本发明实施例中氨基酸在平均介数中心性值最大时的分布情况仿真图。

图4是本发明实施例中RFECV可视化模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于复杂网络的多肽分类方法，所述方法包括：

根据所得到的待分类多肽所属类别的第一判断结果确定待分类多肽的类别。

进一步的，所述方法根据下述步骤Step4-Step6对根据所得到的待分类多肽所属类别的第一判断结果确定的待分类多肽的类别进行验证，即根据Step6得到的待分类多肽所属类别的第二判断结果以及上述第一判断结果共同确定待分类多肽的类别：

Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入，采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类，得到待分类多肽所属类别的第二判断结果。

本实施例通过根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征，来判断待分类多肽的类别，提供了一种新的思路实现对于多肽类别的判定；并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定，判断结果更准确。

实施例二：

本实施例提供一种基于复杂网络的多肽分类方法，本实施例以抗癌多肽和抗高血压多肽为研究对象，使用复杂网络中的拓扑属性值来表示多肽的特征，并且结合多肽的一级、二级、三级结构的信息，构建了支持向量机、K近邻、随机森林三种分类模型，然后基于递归特征消除法的支持向量机算法去除冗余特征，从各个结构层次筛选出抗癌多肽和抗高血压多肽的关键特征。所增加的网络特征能更全面的刻画多肽类药物，从而为分析和设计多肽类新药提供理论基础。

具体的，包括下述步骤：

S1：从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三维结构，分别借助XSSP软件和Ring软件对三维结构进行解析获得二级结构和网络结构；

S2：根据S1中获取的网络结构使用复杂网络方法计算，得到抗癌多肽和抗高血压多肽所包含的20种氨基酸的度、接近中心性和介数中心性；

在网络结构的特征提取方法中，每条多肽表示为：C＝c₁,c₂,…,c₂₀,c₂₁,…,c₄₀,c₄₁,…c₆₀

(1)c₁～c₂₀代表20种氨基酸的平均度，在网络中反映氨基酸节点的重要程度。节点i的度d_i的计算公式为d_i＝∑a_ij,其中a_ij表示节点i和节点j之间有边记为1，否则为0；

(2)c₂₁～c₄₀代表20种氨基酸的平均接近中心性，在网络中反映氨基酸节点与氨基酸节点之间的接近程度，节点i的接近中心性c_i计算公式为其中d_ij表示以节点i为起点，以j为终点的最短路径中所含边的数量，N为节点总数；

(3)c₄₁～c₆₀代表20种氨基酸的平均介数中心性，在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度，节点i的介数中心性B_i计算公式为其中σ_jk(i)表示从节点j通过节点i到节点k最短路径的条数，σ_jk表示从节点j到节点k之间所有最短路径的总数。

抗高血压多肽药物中排名比较高的有酪氨酸(Tyr)等极性(亲水性)氨基酸，抗癌多肽药物中排名比较高的有苯丙氨酸(Phe)和赖氨酸(Lys)等非极性(疏水性)和碱性(极性带正电)氨基酸，而其余的氨基酸对网络的影响小，如图1到图3所示。最终选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征。

S3：基于支持向量机、K近邻、随机森林三种算法训练分类模型；

在支持向量机分类器中采用RBF作为内核函数，在区间[2^-4,2⁴]优化参数c和g，得到的最佳组合为c＝2⁴,g＝2^-4；K近邻算法中在[10,55]范围内优化K，最终选择K＝45；对于随机森林，通过遍历10到150之间不同分类树的数量，最终确定模型的最佳分类数值为130。

其中，基于支持向量机算法训练分类模型的介绍可参考“J.A.K.Suykens,Supportvector machines:A nonlinear modelling and control perspective,Eur.J.Control2001,7,311-327.”

基于K近邻算法训练分类模型可参考“Cover,T.,&Hart,P.Nearest neighborpattern classification.IEEE transactions on information theory,1967，3(1),21-27.”

基于随机森林三种算法训练分类模型可参考“reiman L.Random Forests[J].Machine Learning,2001,45(1):5-32.”

根据S2确定的网络特征对上述三种分类模型进行训练，所得到的训练好的分类模型的表现性能如表1所示：

表1三种分类器在网络结构中的表现性能

分类器	SP(％)	SE(％)	ACC(％)	MCC	AUC
						SVM	96.94	93.51	95.50	0.91	0.99
KNN	97.53	87.97	93.26	0.86	0.98
						RF	97.73	95.81	96.85	0.94	0.99

其中，SP、SE、ACC、MCC和AUC为用来衡量模型分类性能的好坏的参数：

AUC表示ROC曲线下的面积，主要用于衡量模型的泛化性能；ROC曲线则是以FPR为横轴、TPR为纵轴绘制的图形；

其中，TP表示正样本被正确预测的数目，本实施例中表示抗癌多肽被正确预测的数目，即设定抗癌多肽为正样本；TN表示负样本被正确预测的数目，本实施例中表示抗高血压多肽被正确预测的数目，即设定抗高血压多肽为正样本；FN表示正样本被预测为负样本的数目，FP表示负样本被预测为正样本的数目。

S4：提取抗癌多肽和抗高血压多肽的一级结构特征、二级结构特征和三级结构特征，并基于所有一级结构特征、二级结构特征和三级结构特征对上述三种分类模型进行训练；

具体的特征提取方式如下：

(2)二级结构提取八种二级结构类型作为特征；

(3)三级结构中统计氢键、盐桥等三级结构作用力的信息。

所得到的训练好的分类模型的表现性能如表2-1、2-2和2-3所示：

表2-1三种分类器在一级结构中的表现性能

分类器	SP(％)	SE(％)	ACC(％)	MCC	AUC
						SVM	94.28	86.61	91.17	0.82	0.96
KNN	98.32	71.82	86.66	0.74	0.93
						RF	94.01	87.57	91.31	0.82	0.96

表2-2三种分类器在二级结构中的表现性能

分类器	SP(％)	SE(％)	ACC(％)	MCC	AUC
						SVM	87.34	95.91	91.18	0.83	0.95
KNN	89.50	91.78	90.58	0.81	0.96
						RF	90.33	91.46	90.87	0.82	0.97

表2-3三种分类器在三级结构中的表现性能

分类器	SP(％)	SE(％)	ACC(％)	MCC	AUC
						SVM	87.29	88.97	87.94	0.75	0.89
KNN	90.89	84.94	88.87	0.76	0.90
						RF	91.57	83.93	88.98	0.76	0.92

S5：通过特征选择算法去除不相关和冗余的特征。

采用基于递归特征消除法的支持向量机特征选择算法的主要思想是通过支持向量机超平面的每个维度的权重的绝对值来度量对应特征的重要性，每次删除最小权重得分最小的特征直至最后一个特征，最后得到一个特征的排序集合。

具体的算法步骤如下：

步骤1：初始化原始特征集合S以及特征排序集合F；

步骤2：训练分类器SVM得到权重ω；

步骤3：用公式C_i＝ω_i ²计算排序得分score；

步骤4：在S中删除排序得分最小的特征，更新特征排序集F；

步骤5：若S中元素多余1个，重复(2)-(4)，否则跳转(6)；

步骤6：输出特征排序集F。

最佳评分特征集合如图4所示，当特征数目为23时，排序得分score达到最大，然后随着冗余特征被添加到模型中，score降低，说明这23个特征是最佳特征子集。然后用去除不相关和冗余的特征对三种分类器对进行训练，得出的预测效果如表3所示：

表3三种分类器用SVM-RFE算法提取特征之后的预测效果

分类器	SP(％)	SE(％)	ACC(％)	MCC	AUC
						SVM	95.88	93.61	94.91	0.90	0.99
KNN	97.52	87.83	93.11	0.86	0.97
						RF	96.82	93.55	95.35	0.91	0.99

根据表2-1、2-2、2-3和表3可以看出，去除不相关和冗余的特征能够提升分类模型的性能。

本发明实施例以抗癌多肽药物和抗高血压多肽药物为研究对象，数据源自SATPdb数据库(http://crdd.osdd.net/raghava/satpdb/)和CancerPPD数据库(http://crdd.osdd.net/raghava/cancerppd/)。

发明人从SATPdb数据库获得抗癌多肽和抗高血压多肽的一级序列数据。然后采用CD-HIT程序去除相似度超过60％的序列。从CancerPPD数据库获得与一级序列对应的多肽的三级结构。最后采用XSSP软件(https://www3.cmbi.umcn.nl/xssp/)对三级结构进行解析获得相应的二级结构，进行批量处理得到多肽的二级结构，借助Ring软件(http://old.protein.bio.unipd.it/ring/)进行转化得到多肽的网络结构。

步骤(1)对各级特征进行提取，一级结构中采用为Pseaac+PCC特征提取方式，其中，Pseaac方法表示序列的全局信息，PCC方法表示序列的局部信息；二级结构中提取八种二级结构类型作为特征；三级结构中统计氢键、盐桥等三级结构作用力的信息；网络结构中使用复杂网络中的拓扑属性值(度、接近中心性、介数中心性)来表示多肽的特征，提取特征的依据见图1到图3；

步骤(2)用支持向量机、K近邻和随机森林算法用于构建抗癌多肽和抗高血压多肽的分类器；

步骤(3)基于递归特征消除法的支持向量机算法去除冗余的特征，从而选择最能代表抗癌多肽和抗高血压多肽的特征。该方法通过SVM超平面的每个维度的权重的绝对值来度量对应特征的重要性，每次删除最小权重得分最小的特征直至最后一个特征，最后得到一个特征的排序集合，最佳评分特征集合如图4所示。

附图中，图1：氨基酸在平均度值最大时的分布情况，度是刻画节点中心性最直接的度量指标，一个节点的度越大说明该节点在网络中就越重要。

图2：氨基酸在平均接近中心性值最大时的分布情况，接近中心性反映在网络中某一节点与其他节点的接近程度。

图3：氨基酸在平均介数中心性值最大时的分布情况，节点的介数中心性的值越高，那么这个节点就越有影响力。

图4：RFECV可视化模型图，交叉验证与RFE-SVM结合用于对不同的特征子集评分，并选择最佳评分特征集合，可以看出特征数为23时，得分最高。阴影区域表示交叉验证的可变性。提取特征分别为：一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率，H,T,S三种二级结构，三级结构中包括氢键和范德华作用力。

本申请根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征，来判断待分类多肽的类别，提供了一种新的思路实现对于多肽类别的判定；并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定，判断结果更准确，为进一步验证本申请方法的有效性，将本申请提出的方法与现有的两种分类结果较好的方法(Hajisharifi和SAP)进行了比较，比较结果如表4所示；从表4中可以看出，与两种方法进行比较后，本申请所提出的方法有较好的结果，这表明当前的分类器不仅具有良好的预测性能，而且具有良好的泛化能力。

表4本申请方法与其他两种方法的对比

方法	SP(％)	SE(％)	ACC(％)	MCC
					Hajisharifi	92.68	85.18	89.70	0.78
SAP	95.63	86.23	91.86	0.83
					本申请方法	99.05	86.02	93.59	0.87

表4中，Hajisharifi方法使用的一级结构中的PseAAC方法提取一级结构特征；SAP方法中多肽由特征(即400D)表示。400D功能是基于序列的功能，有20个氨基酸用于表示蛋白质，因此两个连续氨基酸的组合表示为AB。AB的组合的频率表示为f_AB。因此，每两个氨基酸有400(20²)种可能的组合。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于复杂网络的多肽分类方法，其特征在于，所述方法包括：

Step3以待分类多肽的网络特征为输入，采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类，得到待分类多肽所属类别的第一判断结果；所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型；

所述获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征，包括：

(3)c₄₁～c₆₀代表各种氨基酸的平均介数中心性，在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度；氨基酸节点i的介数中心性B_i计算公式为其中σ_jk(i)表示从氨基酸节点j通过氨基酸节点i到氨基酸节点k最短路径的条数，σ_jk表示从氨基酸节点j到氨基酸节点k之间所有最短路径的总数；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述以网络特征进行训练得到的训练好的分类模型的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，所述基于支持向量机、K近邻、随机森林三种算法的分类模型中，支持向量机分类模型中采用RBF作为内核函数，训练好的模型中支持向量机参数c和g取值为c＝2⁴,g＝2^-4；K近邻分类模型中，参数K取值为K＝45；随机森林分类模型中，最佳分类数值为130。

4.根据权利要求1所述的方法，其特征在于，所述Step4包括：

(2)二级结构提取八种二级结构类型作为特征；

(3)三级结构中统计氢键、盐桥作用力的信息；

5.根据权利要求4所述的方法，其特征在于，所述去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征分别包括：

6.根据权利要求5所述的方法，其特征在于，所述Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构，为从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三级结构。