CN112951341B - 一种基于复杂网络的多肽分类方法 - Google Patents

一种基于复杂网络的多肽分类方法 Download PDF

Info

Publication number
CN112951341B
CN112951341B CN202110275496.3A CN202110275496A CN112951341B CN 112951341 B CN112951341 B CN 112951341B CN 202110275496 A CN202110275496 A CN 202110275496A CN 112951341 B CN112951341 B CN 112951341B
Authority
CN
China
Prior art keywords
polypeptide
amino acid
classified
centrality
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110275496.3A
Other languages
English (en)
Other versions
CN112951341A (zh
Inventor
丁彦蕊
许德玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202110275496.3A priority Critical patent/CN112951341B/zh
Publication of CN112951341A publication Critical patent/CN112951341A/zh
Application granted granted Critical
Publication of CN112951341B publication Critical patent/CN112951341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于复杂网络的多肽分类方法,属于计算机辅助药物设计领域。所述方法根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性,并将其作为网络特征来判断待分类多肽的类别,提供了一种新的思路实现对于多肽类别的判定;并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定,判断结果更准确。

Description

一种基于复杂网络的多肽分类方法
技术领域
本发明涉及一种基于复杂网络的多肽分类方法,属于计算机辅助药物设计领域。
背景技术
目前有多类药物用于治疗癌症和高血压,其中的多肽类药物因其生物活性高、特异性强、毒性较低,对人体的伤害程度小而被广泛应用于多种疾病的治疗。而随着大数据及人工智能技术的发展,计算机辅助药物设计成为缩短药物研发周期以及减少药物研发成本和风险的有效方法之一。越来越多的机器学习方法用来识别和分析多肽类药物。
机器学习识别多肽的关键在于特征的提取。目前的研究主要从多肽的一级结构、二级结构和三级结构三个层次提取特征,很少有从网络结构方面考虑多肽的特征,因此发明此类研究方法能够更全面的刻画多肽类药物,为分析和设计多肽类新药提供理论基础。
Schaduangrat N(《ACPred:A Computational Tool for the Prediction andAnalysis of Anticancer Peptides》.Journal of Molecules,2019,24(10),1973-2000)描述了现有的一级结构的特征描述方法有氨基酸组成(AAC)、二肽组成(DPC)、伪氨基酸组成(PseAAC)、两亲性伪氨基酸组成(Am-PseAAC)、g间隙二肽组成(g-gap DPC)、氨基酸的理化性质(PCC)、伪特定位置评分矩阵(PsePSSM)等,这些方法只考虑了多肽的序列信息,忽视了多肽的结构信息。Ghosh K K(《A two-stage approach towards protein secondarystructure classification》.Journal of Med Biol Eng Comput,2020,58,1723–1737)等人用机器学习模型将蛋白质分为四类:all-α,all-β,α+β,α/β,虽然该方法已经考虑了基于序列和结构的特征,但是忽略了二级结构特征中的其他几种类型(如转角、卷曲等二级结构类型),也就无法对包含这几类结构的多肽进行准确的分类。
综上,现有对于多肽的分类方法的准确度有待进一步提高,适用范围也有待于进一步完善。
发明内容
为了解决现有多肽分类方法分类不够准确以及适用范围有限的问题,本发明提供了一种基于复杂网络的多肽分类方法,所述方法包括:
Step1提取待分类多肽的一级结构和三级结构,并对三级结构进行解析获得二级结构和网络结构;
Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征;
Step3以待分类多肽的网络特征为输入,采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第一判断结果;所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型。
可选的,所述获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,包括:
将每条多肽表示为:C=c1,c2,…,c20,c21,…,c40,c41,…c60;其中:
(1)c1~c20代表各种氨基酸的平均度,在网络中反映氨基酸节点的重要程度;氨基酸节点i的度di的计算公式为di=∑aij,其中aij表示氨基酸节点i和氨基酸节点j之间有边记为1,否则为0;
(2)c21~c40代表各种氨基酸的平均接近中心性,在网络中反映氨基酸节点与氨基酸节点之间的接近程度;氨基酸节点i的接近中心性ci计算公式为其中dij表示以氨基酸节点i为起点,以氨基酸节点j为终点的最短路径中所含边的数量,N为氨基酸节点的总数;
(3)c41~c60代表各种氨基酸的平均介数中心性,在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度;氨基酸节点i的介数中心性Bi计算公式为其中σjk(i)表示从氨基酸节点j通过氨基酸节点i到氨基酸节点k最短路径的条数,σjk表示从氨基酸节点j到氨基酸节点k之间所有最短路径的总数。
可选的,所述方法还包括:
Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征,并去除不相关和冗余的特征;
Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入,采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第二判断结果;
Step6根据待分类多肽所属类别的第一判断结果和待分类多肽所属类别的第二判断结果最终确定待分类多肽所属类别。
可选的,所述以网络特征进行训练得到的训练好的分类模型的训练过程包括:
Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,并对三维结构进行解析获得二级结构和网络结构;
Step1-2根据网络结构获取抗癌多肽和抗高血压多肽中各种氨基酸的度、接近中心性和介数中心性;
Step1-3根据各种氨基酸的度、接近中心性和介数中心性数值的大小,选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征;
Step1-4以网络特征为输入,分别训练基于支持向量机、K近邻、随机森林三种算法的分类模型,得到训练好的分类模型。
可选的,所述基于支持向量机、K近邻、随机森林三种算法的分类模型中,支持向量机分类模型中采用RBF作为内核函数,训练好的模型中支持向量机参数c和g取值为c=24,g=2-4;K近邻分类模型中,参数K取值为K=45;随机森林分类模型中,最佳分类数值为130。
可选的,所述Step4包括:
(1)一级结构中采用Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;
(2)二级结构提取八种二级结构类型作为特征;
(3)三级结构中统计氢键、盐桥作用力的信息;
采用基于递归特征消除法的支持向量机特征选择算法去除不相关和冗余的特征。
可选的,所述去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征分别包括:
一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率;H,T,S三种二级结构;三级结构中包括氢键和范德华作用力。
可选的,所述Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,为从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三级结构。
本发明有益效果是:
通过使用复杂网络中的拓扑属性值来表示多肽的特征,以从网络结构中提取的氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,并且结合多肽的一级、二级、三级结构的信息,从而更加全面的描述多肽药物。并且本申请所述的基于递归特征消除法的支持向量机算法去除冗余特征,从各个结构层次筛选出抗癌多肽和抗高血压多肽的关键特征。本发明方法首次将复杂网络的思想运用到多肽的特征提取中,这为多肽的识别研究开辟了一种新的思路,同时为分析和设计多肽类新药的理论研究提供一种新的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中氨基酸在平均度值最大时的分布情况仿真图。
图2是本发明实施例中氨基酸在平均接近中心性值最大时的分布情况仿真图。
图3是本发明实施例中氨基酸在平均介数中心性值最大时的分布情况仿真图。
图4是本发明实施例中RFECV可视化模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种基于复杂网络的多肽分类方法,所述方法包括:
Step1提取待分类多肽的一级结构和三级结构,并对三级结构进行解析获得二级结构和网络结构;
Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征;
Step3以待分类多肽的网络特征为输入,采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第一判断结果;所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型。
根据所得到的待分类多肽所属类别的第一判断结果确定待分类多肽的类别。
进一步的,所述方法根据下述步骤Step4-Step6对根据所得到的待分类多肽所属类别的第一判断结果确定的待分类多肽的类别进行验证,即根据Step6得到的待分类多肽所属类别的第二判断结果以及上述第一判断结果共同确定待分类多肽的类别:
Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征,并去除不相关和冗余的特征;
Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入,采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第二判断结果。
本实施例通过根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,来判断待分类多肽的类别,提供了一种新的思路实现对于多肽类别的判定;并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定,判断结果更准确。
实施例二:
本实施例提供一种基于复杂网络的多肽分类方法,本实施例以抗癌多肽和抗高血压多肽为研究对象,使用复杂网络中的拓扑属性值来表示多肽的特征,并且结合多肽的一级、二级、三级结构的信息,构建了支持向量机、K近邻、随机森林三种分类模型,然后基于递归特征消除法的支持向量机算法去除冗余特征,从各个结构层次筛选出抗癌多肽和抗高血压多肽的关键特征。所增加的网络特征能更全面的刻画多肽类药物,从而为分析和设计多肽类新药提供理论基础。
具体的,包括下述步骤:
S1:从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三维结构,分别借助XSSP软件和Ring软件对三维结构进行解析获得二级结构和网络结构;
S2:根据S1中获取的网络结构使用复杂网络方法计算,得到抗癌多肽和抗高血压多肽所包含的20种氨基酸的度、接近中心性和介数中心性;
在网络结构的特征提取方法中,每条多肽表示为:C=c1,c2,…,c20,c21,…,c40,c41,…c60
(1)c1~c20代表20种氨基酸的平均度,在网络中反映氨基酸节点的重要程度。节点i的度di的计算公式为di=∑aij,其中aij表示节点i和节点j之间有边记为1,否则为0;
(2)c21~c40代表20种氨基酸的平均接近中心性,在网络中反映氨基酸节点与氨基酸节点之间的接近程度,节点i的接近中心性ci计算公式为其中dij表示以节点i为起点,以j为终点的最短路径中所含边的数量,N为节点总数;
(3)c41~c60代表20种氨基酸的平均介数中心性,在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度,节点i的介数中心性Bi计算公式为其中σjk(i)表示从节点j通过节点i到节点k最短路径的条数,σjk表示从节点j到节点k之间所有最短路径的总数。
抗高血压多肽药物中排名比较高的有酪氨酸(Tyr)等极性(亲水性)氨基酸,抗癌多肽药物中排名比较高的有苯丙氨酸(Phe)和赖氨酸(Lys)等非极性(疏水性)和碱性(极性带正电)氨基酸,而其余的氨基酸对网络的影响小,如图1到图3所示。最终选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征。
S3:基于支持向量机、K近邻、随机森林三种算法训练分类模型;
在支持向量机分类器中采用RBF作为内核函数,在区间[2-4,24]优化参数c和g,得到的最佳组合为c=24,g=2-4;K近邻算法中在[10,55]范围内优化K,最终选择K=45;对于随机森林,通过遍历10到150之间不同分类树的数量,最终确定模型的最佳分类数值为130。
其中,基于支持向量机算法训练分类模型的介绍可参考“J.A.K.Suykens,Supportvector machines:A nonlinear modelling and control perspective,Eur.J.Control2001,7,311-327.”
基于K近邻算法训练分类模型可参考“Cover,T.,&Hart,P.Nearest neighborpattern classification.IEEE transactions on information theory,1967,3(1),21-27.”
基于随机森林三种算法训练分类模型可参考“reiman L.Random Forests[J].Machine Learning,2001,45(1):5-32.”
根据S2确定的网络特征对上述三种分类模型进行训练,所得到的训练好的分类模型的表现性能如表1所示:
表1三种分类器在网络结构中的表现性能
分类器 SP(%) SE(%) ACC(%) MCC AUC
SVM 96.94 93.51 95.50 0.91 0.99
KNN 97.53 87.97 93.26 0.86 0.98
RF 97.73 95.81 96.85 0.94 0.99
其中,SP、SE、ACC、MCC和AUC为用来衡量模型分类性能的好坏的参数:
AUC表示ROC曲线下的面积,主要用于衡量模型的泛化性能;ROC曲线则是以FPR为横轴、TPR为纵轴绘制的图形;
其中,TP表示正样本被正确预测的数目,本实施例中表示抗癌多肽被正确预测的数目,即设定抗癌多肽为正样本;TN表示负样本被正确预测的数目,本实施例中表示抗高血压多肽被正确预测的数目,即设定抗高血压多肽为正样本;FN表示正样本被预测为负样本的数目,FP表示负样本被预测为正样本的数目。
S4:提取抗癌多肽和抗高血压多肽的一级结构特征、二级结构特征和三级结构特征,并基于所有一级结构特征、二级结构特征和三级结构特征对上述三种分类模型进行训练;
具体的特征提取方式如下:
(1)一级结构中采用Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;
(2)二级结构提取八种二级结构类型作为特征;
(3)三级结构中统计氢键、盐桥等三级结构作用力的信息。
所得到的训练好的分类模型的表现性能如表2-1、2-2和2-3所示:
表2-1三种分类器在一级结构中的表现性能
分类器 SP(%) SE(%) ACC(%) MCC AUC
SVM 94.28 86.61 91.17 0.82 0.96
KNN 98.32 71.82 86.66 0.74 0.93
RF 94.01 87.57 91.31 0.82 0.96
表2-2三种分类器在二级结构中的表现性能
分类器 SP(%) SE(%) ACC(%) MCC AUC
SVM 87.34 95.91 91.18 0.83 0.95
KNN 89.50 91.78 90.58 0.81 0.96
RF 90.33 91.46 90.87 0.82 0.97
表2-3三种分类器在三级结构中的表现性能
分类器 SP(%) SE(%) ACC(%) MCC AUC
SVM 87.29 88.97 87.94 0.75 0.89
KNN 90.89 84.94 88.87 0.76 0.90
RF 91.57 83.93 88.98 0.76 0.92
S5:通过特征选择算法去除不相关和冗余的特征。
采用基于递归特征消除法的支持向量机特征选择算法的主要思想是通过支持向量机超平面的每个维度的权重的绝对值来度量对应特征的重要性,每次删除最小权重得分最小的特征直至最后一个特征,最后得到一个特征的排序集合。
具体的算法步骤如下:
步骤1:初始化原始特征集合S以及特征排序集合F;
步骤2:训练分类器SVM得到权重ω;
步骤3:用公式Ci=ωi 2计算排序得分score;
步骤4:在S中删除排序得分最小的特征,更新特征排序集F;
步骤5:若S中元素多余1个,重复(2)-(4),否则跳转(6);
步骤6:输出特征排序集F。
最佳评分特征集合如图4所示,当特征数目为23时,排序得分score达到最大,然后随着冗余特征被添加到模型中,score降低,说明这23个特征是最佳特征子集。然后用去除不相关和冗余的特征对三种分类器对进行训练,得出的预测效果如表3所示:
表3三种分类器用SVM-RFE算法提取特征之后的预测效果
分类器 SP(%) SE(%) ACC(%) MCC AUC
SVM 95.88 93.61 94.91 0.90 0.99
KNN 97.52 87.83 93.11 0.86 0.97
RF 96.82 93.55 95.35 0.91 0.99
根据表2-1、2-2、2-3和表3可以看出,去除不相关和冗余的特征能够提升分类模型的性能。
本发明实施例以抗癌多肽药物和抗高血压多肽药物为研究对象,数据源自SATPdb数据库(http://crdd.osdd.net/raghava/satpdb/)和CancerPPD数据库(http://crdd.osdd.net/raghava/cancerppd/)。
发明人从SATPdb数据库获得抗癌多肽和抗高血压多肽的一级序列数据。然后采用CD-HIT程序去除相似度超过60%的序列。从CancerPPD数据库获得与一级序列对应的多肽的三级结构。最后采用XSSP软件(https://www3.cmbi.umcn.nl/xssp/)对三级结构进行解析获得相应的二级结构,进行批量处理得到多肽的二级结构,借助Ring软件(http://old.protein.bio.unipd.it/ring/)进行转化得到多肽的网络结构。
步骤(1)对各级特征进行提取,一级结构中采用为Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;二级结构中提取八种二级结构类型作为特征;三级结构中统计氢键、盐桥等三级结构作用力的信息;网络结构中使用复杂网络中的拓扑属性值(度、接近中心性、介数中心性)来表示多肽的特征,提取特征的依据见图1到图3;
步骤(2)用支持向量机、K近邻和随机森林算法用于构建抗癌多肽和抗高血压多肽的分类器;
步骤(3)基于递归特征消除法的支持向量机算法去除冗余的特征,从而选择最能代表抗癌多肽和抗高血压多肽的特征。该方法通过SVM超平面的每个维度的权重的绝对值来度量对应特征的重要性,每次删除最小权重得分最小的特征直至最后一个特征,最后得到一个特征的排序集合,最佳评分特征集合如图4所示。
附图中,图1:氨基酸在平均度值最大时的分布情况,度是刻画节点中心性最直接的度量指标,一个节点的度越大说明该节点在网络中就越重要。
图2:氨基酸在平均接近中心性值最大时的分布情况,接近中心性反映在网络中某一节点与其他节点的接近程度。
图3:氨基酸在平均介数中心性值最大时的分布情况,节点的介数中心性的值越高,那么这个节点就越有影响力。
图4:RFECV可视化模型图,交叉验证与RFE-SVM结合用于对不同的特征子集评分,并选择最佳评分特征集合,可以看出特征数为23时,得分最高。阴影区域表示交叉验证的可变性。提取特征分别为:一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率,H,T,S三种二级结构,三级结构中包括氢键和范德华作用力。
本申请根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,来判断待分类多肽的类别,提供了一种新的思路实现对于多肽类别的判定;并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定,判断结果更准确,为进一步验证本申请方法的有效性,将本申请提出的方法与现有的两种分类结果较好的方法(Hajisharifi和SAP)进行了比较,比较结果如表4所示;从表4中可以看出,与两种方法进行比较后,本申请所提出的方法有较好的结果,这表明当前的分类器不仅具有良好的预测性能,而且具有良好的泛化能力。
表4本申请方法与其他两种方法的对比
方法 SP(%) SE(%) ACC(%) MCC
Hajisharifi 92.68 85.18 89.70 0.78
SAP 95.63 86.23 91.86 0.83
本申请方法 99.05 86.02 93.59 0.87
表4中,Hajisharifi方法使用的一级结构中的PseAAC方法提取一级结构特征;SAP方法中多肽由特征(即400D)表示。400D功能是基于序列的功能,有20个氨基酸用于表示蛋白质,因此两个连续氨基酸的组合表示为AB。AB的组合的频率表示为fAB。因此,每两个氨基酸有400(202)种可能的组合。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于复杂网络的多肽分类方法,其特征在于,所述方法包括:
Step1提取待分类多肽的一级结构和三级结构,并对三级结构进行解析获得二级结构和网络结构;
Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征;
Step3以待分类多肽的网络特征为输入,采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第一判断结果;所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型;
所述获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,包括:
将每条多肽表示为:C=c1,c2,…,c20,c21,…,c40,c41,…c60;其中:
(1)c1~c20代表各种氨基酸的平均度,在网络中反映氨基酸节点的重要程度;氨基酸节点i的度di的计算公式为di=∑aij,其中aij表示氨基酸节点i和氨基酸节点j之间有边记为1,否则为0;
(2)c21~c40代表各种氨基酸的平均接近中心性,在网络中反映氨基酸节点与氨基酸节点之间的接近程度;氨基酸节点i的接近中心性ci计算公式为其中dij表示以氨基酸节点i为起点,以氨基酸节点j为终点的最短路径中所含边的数量,N为氨基酸节点的总数;
(3)c41~c60代表各种氨基酸的平均介数中心性,在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度;氨基酸节点i的介数中心性Bi计算公式为其中σjk(i)表示从氨基酸节点j通过氨基酸节点i到氨基酸节点k最短路径的条数,σjk表示从氨基酸节点j到氨基酸节点k之间所有最短路径的总数;
所述方法还包括:
Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征,并去除不相关和冗余的特征;
Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入,采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第二判断结果;
Step6根据待分类多肽所属类别的第一判断结果和待分类多肽所属类别的第二判断结果最终确定待分类多肽所属类别。
2.根据权利要求1所述的方法,其特征在于,所述以网络特征进行训练得到的训练好的分类模型的训练过程包括:
Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,并对三维结构进行解析获得二级结构和网络结构;
Step1-2根据网络结构获取抗癌多肽和抗高血压多肽中各种氨基酸的度、接近中心性和介数中心性;
Step1-3根据各种氨基酸的度、接近中心性和介数中心性数值的大小,选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征;
Step1-4以网络特征为输入,分别训练基于支持向量机、K近邻、随机森林三种算法的分类模型,得到训练好的分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于支持向量机、K近邻、随机森林三种算法的分类模型中,支持向量机分类模型中采用RBF作为内核函数,训练好的模型中支持向量机参数c和g取值为c=24,g=2-4;K近邻分类模型中,参数K取值为K=45;随机森林分类模型中,最佳分类数值为130。
4.根据权利要求1所述的方法,其特征在于,所述Step4包括:
(1)一级结构中采用Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;
(2)二级结构提取八种二级结构类型作为特征;
(3)三级结构中统计氢键、盐桥作用力的信息;
采用基于递归特征消除法的支持向量机特征选择算法去除不相关和冗余的特征。
5.根据权利要求4所述的方法,其特征在于,所述去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征分别包括:
一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率;H,T,S三种二级结构;三级结构中包括氢键和范德华作用力。
6.根据权利要求5所述的方法,其特征在于,所述Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,为从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三级结构。
CN202110275496.3A 2021-03-15 2021-03-15 一种基于复杂网络的多肽分类方法 Active CN112951341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275496.3A CN112951341B (zh) 2021-03-15 2021-03-15 一种基于复杂网络的多肽分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275496.3A CN112951341B (zh) 2021-03-15 2021-03-15 一种基于复杂网络的多肽分类方法

Publications (2)

Publication Number Publication Date
CN112951341A CN112951341A (zh) 2021-06-11
CN112951341B true CN112951341B (zh) 2024-04-30

Family

ID=76229796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275496.3A Active CN112951341B (zh) 2021-03-15 2021-03-15 一种基于复杂网络的多肽分类方法

Country Status (1)

Country Link
CN (1) CN112951341B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008033100A1 (en) * 2006-09-11 2008-03-20 Agency For Science, Technology And Research Method of predicting protein allergenicity using a support vector machine
CN105740648A (zh) * 2016-01-21 2016-07-06 江南大学 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法
CN107657282A (zh) * 2017-09-29 2018-02-02 中国石油大学(华东) 多肽鉴定的自步长学习方法
CN110853704A (zh) * 2019-11-11 2020-02-28 腾讯科技(深圳)有限公司 蛋白质数据获取方法、装置、计算机设备及存储介质
WO2020167667A1 (en) * 2019-02-11 2020-08-20 Flagship Pioneering Innovations Vi, Llc Machine learning guided polypeptide analysis

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6792355B2 (en) * 2001-12-21 2004-09-14 Triad Therapeutics, Inc. Methods for determining polypeptide structure, function or pharmacophore from comparison of polypeptide sequences
US20130332133A1 (en) * 2006-05-11 2013-12-12 Ramot At Tel Aviv University Ltd. Classification of Protein Sequences and Uses of Classified Proteins
DE102007011912A1 (de) * 2007-03-13 2008-09-18 Sanofi-Aventis Verfahren für das Erzeugen von Peptidbibliotheken und deren Verwendung

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008033100A1 (en) * 2006-09-11 2008-03-20 Agency For Science, Technology And Research Method of predicting protein allergenicity using a support vector machine
CN105740648A (zh) * 2016-01-21 2016-07-06 江南大学 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法
CN107657282A (zh) * 2017-09-29 2018-02-02 中国石油大学(华东) 多肽鉴定的自步长学习方法
WO2020167667A1 (en) * 2019-02-11 2020-08-20 Flagship Pioneering Innovations Vi, Llc Machine learning guided polypeptide analysis
CN110853704A (zh) * 2019-11-11 2020-02-28 腾讯科技(深圳)有限公司 蛋白质数据获取方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
不同物种TYR基因编码蛋白结构及功能的生物信息学分析;郭敏;李祥龙;;江苏农业科学;20100531(第21期);52-56 *
基于OET-KNN算法的蛋白质二级结构类型预测;邱望仁;肖绚;林卫中;;计算机工程与应用;20081011(第29期);204-206 *
基于神经网络的蛋白质三级结构预测;蔡娜娜;陈月辉;李伟;;计算机工程;20100505(第09期);176-177 *

Also Published As

Publication number Publication date
CN112951341A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Cano et al. Automatic selection of molecular descriptors using random forest: Application to drug discovery
Ziamtsov et al. Machine learning approaches to improve three basic plant phenotyping tasks using three-dimensional point clouds
US11971892B2 (en) Methods for stratified sampling-based query execution
CN107016233A (zh) 运动行为和认知能力的关联分析方法及系统
Laturnus et al. A systematic evaluation of interneuron morphology representations for cell type discrimination
CN105117618B (zh) 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法
WO2008033100A1 (en) Method of predicting protein allergenicity using a support vector machine
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Alagukumar et al. Classification of microarray gene expression data using associative classification
Sudhakar et al. Ada-SISE: adaptive semantic input sampling for efficient explanation of convolutional neural networks
CN112951341B (zh) 一种基于复杂网络的多肽分类方法
Kowalski et al. Clustering based on the krill herd algorithm with selected validity measures
Sumathi et al. Neural network based plant identification using leaf characteristics fusion
CN115064217A (zh) 蛋白质免疫原性分类器构建方法、预测方法、装置及介质
KR101913952B1 (ko) V-CNN 접근을 통한 iPSC 집락 자동 인식 방법
Lim et al. Predicting drug-target interaction using 3D structure-embedded graph representations from graph neural networks
Zhao et al. Graph-based extraction of shape features for leaf classification
CN107636678A (zh) 用于预测图像样本的属性的方法和设备
CN107845407A (zh) 基于过滤式和改进聚类相结合的人体生理特征选择算法
CN111354415B (zh) 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
Laturnus et al. A systematic evaluation of neural morphology representations for cell type discrimination
Kuzudisli et al. Effect of recursive cluster elimination with different clustering algorithms applied to gene expression data
Ariawan et al. Geometry feature extraction of shorea leaf venation based on digital image and classification using random forest
Maciel-Guerra et al. Subspace-based dynamic selection: a proof of concept using protein microarray data
Zang et al. Density peaks clustering based on superior nodes and fuzzy correlation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant