CN112951341B - 一种基于复杂网络的多肽分类方法 - Google Patents
一种基于复杂网络的多肽分类方法 Download PDFInfo
- Publication number
- CN112951341B CN112951341B CN202110275496.3A CN202110275496A CN112951341B CN 112951341 B CN112951341 B CN 112951341B CN 202110275496 A CN202110275496 A CN 202110275496A CN 112951341 B CN112951341 B CN 112951341B
- Authority
- CN
- China
- Prior art keywords
- polypeptide
- amino acid
- classified
- centrality
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 126
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 126
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 53
- 150000001413 amino acids Chemical class 0.000 claims abstract description 82
- 238000013145 classification model Methods 0.000 claims description 34
- 238000012706 support-vector machine Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000001093 anti-cancer Effects 0.000 claims description 20
- 230000003276 anti-hypertensive effect Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000007637 random forest analysis Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 229910052739 hydrogen Inorganic materials 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 239000001257 hydrogen Substances 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000005411 Van der Waals force Methods 0.000 claims description 3
- 238000009510 drug design Methods 0.000 abstract description 3
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 12
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 12
- 239000003814 drug Substances 0.000 description 12
- 229940079593 drug Drugs 0.000 description 11
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 10
- 238000011160 research Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 108010016626 Dipeptides Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 231100000053 low toxicity Toxicity 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于复杂网络的多肽分类方法,属于计算机辅助药物设计领域。所述方法根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性,并将其作为网络特征来判断待分类多肽的类别,提供了一种新的思路实现对于多肽类别的判定;并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定,判断结果更准确。
Description
技术领域
本发明涉及一种基于复杂网络的多肽分类方法,属于计算机辅助药物设计领域。
背景技术
目前有多类药物用于治疗癌症和高血压,其中的多肽类药物因其生物活性高、特异性强、毒性较低,对人体的伤害程度小而被广泛应用于多种疾病的治疗。而随着大数据及人工智能技术的发展,计算机辅助药物设计成为缩短药物研发周期以及减少药物研发成本和风险的有效方法之一。越来越多的机器学习方法用来识别和分析多肽类药物。
机器学习识别多肽的关键在于特征的提取。目前的研究主要从多肽的一级结构、二级结构和三级结构三个层次提取特征,很少有从网络结构方面考虑多肽的特征,因此发明此类研究方法能够更全面的刻画多肽类药物,为分析和设计多肽类新药提供理论基础。
Schaduangrat N(《ACPred:A Computational Tool for the Prediction andAnalysis of Anticancer Peptides》.Journal of Molecules,2019,24(10),1973-2000)描述了现有的一级结构的特征描述方法有氨基酸组成(AAC)、二肽组成(DPC)、伪氨基酸组成(PseAAC)、两亲性伪氨基酸组成(Am-PseAAC)、g间隙二肽组成(g-gap DPC)、氨基酸的理化性质(PCC)、伪特定位置评分矩阵(PsePSSM)等,这些方法只考虑了多肽的序列信息,忽视了多肽的结构信息。Ghosh K K(《A two-stage approach towards protein secondarystructure classification》.Journal of Med Biol Eng Comput,2020,58,1723–1737)等人用机器学习模型将蛋白质分为四类:all-α,all-β,α+β,α/β,虽然该方法已经考虑了基于序列和结构的特征,但是忽略了二级结构特征中的其他几种类型(如转角、卷曲等二级结构类型),也就无法对包含这几类结构的多肽进行准确的分类。
综上,现有对于多肽的分类方法的准确度有待进一步提高,适用范围也有待于进一步完善。
发明内容
为了解决现有多肽分类方法分类不够准确以及适用范围有限的问题,本发明提供了一种基于复杂网络的多肽分类方法,所述方法包括:
Step1提取待分类多肽的一级结构和三级结构,并对三级结构进行解析获得二级结构和网络结构;
Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征;
Step3以待分类多肽的网络特征为输入,采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第一判断结果;所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型。
可选的,所述获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,包括:
将每条多肽表示为:C=c1,c2,…,c20,c21,…,c40,c41,…c60;其中:
(1)c1~c20代表各种氨基酸的平均度,在网络中反映氨基酸节点的重要程度;氨基酸节点i的度di的计算公式为di=∑aij,其中aij表示氨基酸节点i和氨基酸节点j之间有边记为1,否则为0;
(2)c21~c40代表各种氨基酸的平均接近中心性,在网络中反映氨基酸节点与氨基酸节点之间的接近程度;氨基酸节点i的接近中心性ci计算公式为其中dij表示以氨基酸节点i为起点,以氨基酸节点j为终点的最短路径中所含边的数量,N为氨基酸节点的总数;
(3)c41~c60代表各种氨基酸的平均介数中心性,在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度;氨基酸节点i的介数中心性Bi计算公式为其中σjk(i)表示从氨基酸节点j通过氨基酸节点i到氨基酸节点k最短路径的条数,σjk表示从氨基酸节点j到氨基酸节点k之间所有最短路径的总数。
可选的,所述方法还包括:
Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征,并去除不相关和冗余的特征;
Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入,采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第二判断结果;
Step6根据待分类多肽所属类别的第一判断结果和待分类多肽所属类别的第二判断结果最终确定待分类多肽所属类别。
可选的,所述以网络特征进行训练得到的训练好的分类模型的训练过程包括:
Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,并对三维结构进行解析获得二级结构和网络结构;
Step1-2根据网络结构获取抗癌多肽和抗高血压多肽中各种氨基酸的度、接近中心性和介数中心性;
Step1-3根据各种氨基酸的度、接近中心性和介数中心性数值的大小,选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征;
Step1-4以网络特征为输入,分别训练基于支持向量机、K近邻、随机森林三种算法的分类模型,得到训练好的分类模型。
可选的,所述基于支持向量机、K近邻、随机森林三种算法的分类模型中,支持向量机分类模型中采用RBF作为内核函数,训练好的模型中支持向量机参数c和g取值为c=24,g=2-4;K近邻分类模型中,参数K取值为K=45;随机森林分类模型中,最佳分类数值为130。
可选的,所述Step4包括:
(1)一级结构中采用Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;
(2)二级结构提取八种二级结构类型作为特征;
(3)三级结构中统计氢键、盐桥作用力的信息;
采用基于递归特征消除法的支持向量机特征选择算法去除不相关和冗余的特征。
可选的,所述去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征分别包括:
一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率;H,T,S三种二级结构;三级结构中包括氢键和范德华作用力。
可选的,所述Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,为从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三级结构。
本发明有益效果是:
通过使用复杂网络中的拓扑属性值来表示多肽的特征,以从网络结构中提取的氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,并且结合多肽的一级、二级、三级结构的信息,从而更加全面的描述多肽药物。并且本申请所述的基于递归特征消除法的支持向量机算法去除冗余特征,从各个结构层次筛选出抗癌多肽和抗高血压多肽的关键特征。本发明方法首次将复杂网络的思想运用到多肽的特征提取中,这为多肽的识别研究开辟了一种新的思路,同时为分析和设计多肽类新药的理论研究提供一种新的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中氨基酸在平均度值最大时的分布情况仿真图。
图2是本发明实施例中氨基酸在平均接近中心性值最大时的分布情况仿真图。
图3是本发明实施例中氨基酸在平均介数中心性值最大时的分布情况仿真图。
图4是本发明实施例中RFECV可视化模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种基于复杂网络的多肽分类方法,所述方法包括:
Step1提取待分类多肽的一级结构和三级结构,并对三级结构进行解析获得二级结构和网络结构;
Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征;
Step3以待分类多肽的网络特征为输入,采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第一判断结果;所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型。
根据所得到的待分类多肽所属类别的第一判断结果确定待分类多肽的类别。
进一步的,所述方法根据下述步骤Step4-Step6对根据所得到的待分类多肽所属类别的第一判断结果确定的待分类多肽的类别进行验证,即根据Step6得到的待分类多肽所属类别的第二判断结果以及上述第一判断结果共同确定待分类多肽的类别:
Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征,并去除不相关和冗余的特征;
Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入,采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第二判断结果。
本实施例通过根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,来判断待分类多肽的类别,提供了一种新的思路实现对于多肽类别的判定;并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定,判断结果更准确。
实施例二:
本实施例提供一种基于复杂网络的多肽分类方法,本实施例以抗癌多肽和抗高血压多肽为研究对象,使用复杂网络中的拓扑属性值来表示多肽的特征,并且结合多肽的一级、二级、三级结构的信息,构建了支持向量机、K近邻、随机森林三种分类模型,然后基于递归特征消除法的支持向量机算法去除冗余特征,从各个结构层次筛选出抗癌多肽和抗高血压多肽的关键特征。所增加的网络特征能更全面的刻画多肽类药物,从而为分析和设计多肽类新药提供理论基础。
具体的,包括下述步骤:
S1:从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三维结构,分别借助XSSP软件和Ring软件对三维结构进行解析获得二级结构和网络结构;
S2:根据S1中获取的网络结构使用复杂网络方法计算,得到抗癌多肽和抗高血压多肽所包含的20种氨基酸的度、接近中心性和介数中心性;
在网络结构的特征提取方法中,每条多肽表示为:C=c1,c2,…,c20,c21,…,c40,c41,…c60
(1)c1~c20代表20种氨基酸的平均度,在网络中反映氨基酸节点的重要程度。节点i的度di的计算公式为di=∑aij,其中aij表示节点i和节点j之间有边记为1,否则为0;
(2)c21~c40代表20种氨基酸的平均接近中心性,在网络中反映氨基酸节点与氨基酸节点之间的接近程度,节点i的接近中心性ci计算公式为其中dij表示以节点i为起点,以j为终点的最短路径中所含边的数量,N为节点总数;
(3)c41~c60代表20种氨基酸的平均介数中心性,在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度,节点i的介数中心性Bi计算公式为其中σjk(i)表示从节点j通过节点i到节点k最短路径的条数,σjk表示从节点j到节点k之间所有最短路径的总数。
抗高血压多肽药物中排名比较高的有酪氨酸(Tyr)等极性(亲水性)氨基酸,抗癌多肽药物中排名比较高的有苯丙氨酸(Phe)和赖氨酸(Lys)等非极性(疏水性)和碱性(极性带正电)氨基酸,而其余的氨基酸对网络的影响小,如图1到图3所示。最终选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征。
S3:基于支持向量机、K近邻、随机森林三种算法训练分类模型;
在支持向量机分类器中采用RBF作为内核函数,在区间[2-4,24]优化参数c和g,得到的最佳组合为c=24,g=2-4;K近邻算法中在[10,55]范围内优化K,最终选择K=45;对于随机森林,通过遍历10到150之间不同分类树的数量,最终确定模型的最佳分类数值为130。
其中,基于支持向量机算法训练分类模型的介绍可参考“J.A.K.Suykens,Supportvector machines:A nonlinear modelling and control perspective,Eur.J.Control2001,7,311-327.”
基于K近邻算法训练分类模型可参考“Cover,T.,&Hart,P.Nearest neighborpattern classification.IEEE transactions on information theory,1967,3(1),21-27.”
基于随机森林三种算法训练分类模型可参考“reiman L.Random Forests[J].Machine Learning,2001,45(1):5-32.”
根据S2确定的网络特征对上述三种分类模型进行训练,所得到的训练好的分类模型的表现性能如表1所示:
表1三种分类器在网络结构中的表现性能
分类器 | SP(%) | SE(%) | ACC(%) | MCC | AUC |
SVM | 96.94 | 93.51 | 95.50 | 0.91 | 0.99 |
KNN | 97.53 | 87.97 | 93.26 | 0.86 | 0.98 |
RF | 97.73 | 95.81 | 96.85 | 0.94 | 0.99 |
其中,SP、SE、ACC、MCC和AUC为用来衡量模型分类性能的好坏的参数:
AUC表示ROC曲线下的面积,主要用于衡量模型的泛化性能;ROC曲线则是以FPR为横轴、TPR为纵轴绘制的图形;
其中,TP表示正样本被正确预测的数目,本实施例中表示抗癌多肽被正确预测的数目,即设定抗癌多肽为正样本;TN表示负样本被正确预测的数目,本实施例中表示抗高血压多肽被正确预测的数目,即设定抗高血压多肽为正样本;FN表示正样本被预测为负样本的数目,FP表示负样本被预测为正样本的数目。
S4:提取抗癌多肽和抗高血压多肽的一级结构特征、二级结构特征和三级结构特征,并基于所有一级结构特征、二级结构特征和三级结构特征对上述三种分类模型进行训练;
具体的特征提取方式如下:
(1)一级结构中采用Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;
(2)二级结构提取八种二级结构类型作为特征;
(3)三级结构中统计氢键、盐桥等三级结构作用力的信息。
所得到的训练好的分类模型的表现性能如表2-1、2-2和2-3所示:
表2-1三种分类器在一级结构中的表现性能
分类器 | SP(%) | SE(%) | ACC(%) | MCC | AUC |
SVM | 94.28 | 86.61 | 91.17 | 0.82 | 0.96 |
KNN | 98.32 | 71.82 | 86.66 | 0.74 | 0.93 |
RF | 94.01 | 87.57 | 91.31 | 0.82 | 0.96 |
表2-2三种分类器在二级结构中的表现性能
分类器 | SP(%) | SE(%) | ACC(%) | MCC | AUC |
SVM | 87.34 | 95.91 | 91.18 | 0.83 | 0.95 |
KNN | 89.50 | 91.78 | 90.58 | 0.81 | 0.96 |
RF | 90.33 | 91.46 | 90.87 | 0.82 | 0.97 |
表2-3三种分类器在三级结构中的表现性能
分类器 | SP(%) | SE(%) | ACC(%) | MCC | AUC |
SVM | 87.29 | 88.97 | 87.94 | 0.75 | 0.89 |
KNN | 90.89 | 84.94 | 88.87 | 0.76 | 0.90 |
RF | 91.57 | 83.93 | 88.98 | 0.76 | 0.92 |
S5:通过特征选择算法去除不相关和冗余的特征。
采用基于递归特征消除法的支持向量机特征选择算法的主要思想是通过支持向量机超平面的每个维度的权重的绝对值来度量对应特征的重要性,每次删除最小权重得分最小的特征直至最后一个特征,最后得到一个特征的排序集合。
具体的算法步骤如下:
步骤1:初始化原始特征集合S以及特征排序集合F;
步骤2:训练分类器SVM得到权重ω;
步骤3:用公式Ci=ωi 2计算排序得分score;
步骤4:在S中删除排序得分最小的特征,更新特征排序集F;
步骤5:若S中元素多余1个,重复(2)-(4),否则跳转(6);
步骤6:输出特征排序集F。
最佳评分特征集合如图4所示,当特征数目为23时,排序得分score达到最大,然后随着冗余特征被添加到模型中,score降低,说明这23个特征是最佳特征子集。然后用去除不相关和冗余的特征对三种分类器对进行训练,得出的预测效果如表3所示:
表3三种分类器用SVM-RFE算法提取特征之后的预测效果
分类器 | SP(%) | SE(%) | ACC(%) | MCC | AUC |
SVM | 95.88 | 93.61 | 94.91 | 0.90 | 0.99 |
KNN | 97.52 | 87.83 | 93.11 | 0.86 | 0.97 |
RF | 96.82 | 93.55 | 95.35 | 0.91 | 0.99 |
根据表2-1、2-2、2-3和表3可以看出,去除不相关和冗余的特征能够提升分类模型的性能。
本发明实施例以抗癌多肽药物和抗高血压多肽药物为研究对象,数据源自SATPdb数据库(http://crdd.osdd.net/raghava/satpdb/)和CancerPPD数据库(http://crdd.osdd.net/raghava/cancerppd/)。
发明人从SATPdb数据库获得抗癌多肽和抗高血压多肽的一级序列数据。然后采用CD-HIT程序去除相似度超过60%的序列。从CancerPPD数据库获得与一级序列对应的多肽的三级结构。最后采用XSSP软件(https://www3.cmbi.umcn.nl/xssp/)对三级结构进行解析获得相应的二级结构,进行批量处理得到多肽的二级结构,借助Ring软件(http://old.protein.bio.unipd.it/ring/)进行转化得到多肽的网络结构。
步骤(1)对各级特征进行提取,一级结构中采用为Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;二级结构中提取八种二级结构类型作为特征;三级结构中统计氢键、盐桥等三级结构作用力的信息;网络结构中使用复杂网络中的拓扑属性值(度、接近中心性、介数中心性)来表示多肽的特征,提取特征的依据见图1到图3;
步骤(2)用支持向量机、K近邻和随机森林算法用于构建抗癌多肽和抗高血压多肽的分类器;
步骤(3)基于递归特征消除法的支持向量机算法去除冗余的特征,从而选择最能代表抗癌多肽和抗高血压多肽的特征。该方法通过SVM超平面的每个维度的权重的绝对值来度量对应特征的重要性,每次删除最小权重得分最小的特征直至最后一个特征,最后得到一个特征的排序集合,最佳评分特征集合如图4所示。
附图中,图1:氨基酸在平均度值最大时的分布情况,度是刻画节点中心性最直接的度量指标,一个节点的度越大说明该节点在网络中就越重要。
图2:氨基酸在平均接近中心性值最大时的分布情况,接近中心性反映在网络中某一节点与其他节点的接近程度。
图3:氨基酸在平均介数中心性值最大时的分布情况,节点的介数中心性的值越高,那么这个节点就越有影响力。
图4:RFECV可视化模型图,交叉验证与RFE-SVM结合用于对不同的特征子集评分,并选择最佳评分特征集合,可以看出特征数为23时,得分最高。阴影区域表示交叉验证的可变性。提取特征分别为:一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率,H,T,S三种二级结构,三级结构中包括氢键和范德华作用力。
本申请根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,来判断待分类多肽的类别,提供了一种新的思路实现对于多肽类别的判定;并可以再辅以根据一级结构特征、二级结构特征和三级结构特征对待分类多肽的类别进行最终确定,判断结果更准确,为进一步验证本申请方法的有效性,将本申请提出的方法与现有的两种分类结果较好的方法(Hajisharifi和SAP)进行了比较,比较结果如表4所示;从表4中可以看出,与两种方法进行比较后,本申请所提出的方法有较好的结果,这表明当前的分类器不仅具有良好的预测性能,而且具有良好的泛化能力。
表4本申请方法与其他两种方法的对比
方法 | SP(%) | SE(%) | ACC(%) | MCC |
Hajisharifi | 92.68 | 85.18 | 89.70 | 0.78 |
SAP | 95.63 | 86.23 | 91.86 | 0.83 |
本申请方法 | 99.05 | 86.02 | 93.59 | 0.87 |
表4中,Hajisharifi方法使用的一级结构中的PseAAC方法提取一级结构特征;SAP方法中多肽由特征(即400D)表示。400D功能是基于序列的功能,有20个氨基酸用于表示蛋白质,因此两个连续氨基酸的组合表示为AB。AB的组合的频率表示为fAB。因此,每两个氨基酸有400(202)种可能的组合。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于复杂网络的多肽分类方法,其特征在于,所述方法包括:
Step1提取待分类多肽的一级结构和三级结构,并对三级结构进行解析获得二级结构和网络结构;
Step2根据网络结构获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征;
Step3以待分类多肽的网络特征为输入,采用以网络特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第一判断结果;所述训练好的分类模型包括基于支持向量机、K近邻、随机森林三种算法的分类模型;
所述获取待分类多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介数中心性作为网络特征,包括:
将每条多肽表示为:C=c1,c2,…,c20,c21,…,c40,c41,…c60;其中:
(1)c1~c20代表各种氨基酸的平均度,在网络中反映氨基酸节点的重要程度;氨基酸节点i的度di的计算公式为di=∑aij,其中aij表示氨基酸节点i和氨基酸节点j之间有边记为1,否则为0;
(2)c21~c40代表各种氨基酸的平均接近中心性,在网络中反映氨基酸节点与氨基酸节点之间的接近程度;氨基酸节点i的接近中心性ci计算公式为其中dij表示以氨基酸节点i为起点,以氨基酸节点j为终点的最短路径中所含边的数量,N为氨基酸节点的总数;
(3)c41~c60代表各种氨基酸的平均介数中心性,在网络中反映某个氨基酸节点对其他氨基酸节点的影响程度;氨基酸节点i的介数中心性Bi计算公式为其中σjk(i)表示从氨基酸节点j通过氨基酸节点i到氨基酸节点k最短路径的条数,σjk表示从氨基酸节点j到氨基酸节点k之间所有最短路径的总数;
所述方法还包括:
Step4提取待分类多肽的一级结构特征、二级结构特征和三级结构特征,并去除不相关和冗余的特征;
Step5以待分类多肽的去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征为输入,采用以一级结构特征、二级结构特征和三级结构特征进行训练得到的训练好的分类模型对待分类多肽进行分类,得到待分类多肽所属类别的第二判断结果;
Step6根据待分类多肽所属类别的第一判断结果和待分类多肽所属类别的第二判断结果最终确定待分类多肽所属类别。
2.根据权利要求1所述的方法,其特征在于,所述以网络特征进行训练得到的训练好的分类模型的训练过程包括:
Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,并对三维结构进行解析获得二级结构和网络结构;
Step1-2根据网络结构获取抗癌多肽和抗高血压多肽中各种氨基酸的度、接近中心性和介数中心性;
Step1-3根据各种氨基酸的度、接近中心性和介数中心性数值的大小,选择氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介数中心性的值作为网络特征;
Step1-4以网络特征为输入,分别训练基于支持向量机、K近邻、随机森林三种算法的分类模型,得到训练好的分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于支持向量机、K近邻、随机森林三种算法的分类模型中,支持向量机分类模型中采用RBF作为内核函数,训练好的模型中支持向量机参数c和g取值为c=24,g=2-4;K近邻分类模型中,参数K取值为K=45;随机森林分类模型中,最佳分类数值为130。
4.根据权利要求1所述的方法,其特征在于,所述Step4包括:
(1)一级结构中采用Pseaac+PCC特征提取方式,其中,Pseaac方法表示序列的全局信息,PCC方法表示序列的局部信息;
(2)二级结构提取八种二级结构类型作为特征;
(3)三级结构中统计氢键、盐桥作用力的信息;
采用基于递归特征消除法的支持向量机特征选择算法去除不相关和冗余的特征。
5.根据权利要求4所述的方法,其特征在于,所述去除不相关和冗余的特征后的一级结构特征、二级结构特征和三级结构特征分别包括:
一级结构中的氨基酸有Ala,Asn,Val,Glu,Ile,Lys,Leu,Arg,Trp,Tyr以及极化率;H,T,S三种二级结构;三级结构中包括氢键和范德华作用力。
6.根据权利要求5所述的方法,其特征在于,所述Step1-1提取抗癌多肽和抗高血压多肽的一级结构和三级结构,为从SATPdb数据库和CancerPPD数据库提取抗癌多肽和抗高血压多肽的一级结构和三级结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275496.3A CN112951341B (zh) | 2021-03-15 | 2021-03-15 | 一种基于复杂网络的多肽分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275496.3A CN112951341B (zh) | 2021-03-15 | 2021-03-15 | 一种基于复杂网络的多肽分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951341A CN112951341A (zh) | 2021-06-11 |
CN112951341B true CN112951341B (zh) | 2024-04-30 |
Family
ID=76229796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110275496.3A Active CN112951341B (zh) | 2021-03-15 | 2021-03-15 | 一种基于复杂网络的多肽分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951341B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008033100A1 (en) * | 2006-09-11 | 2008-03-20 | Agency For Science, Technology And Research | Method of predicting protein allergenicity using a support vector machine |
CN105740648A (zh) * | 2016-01-21 | 2016-07-06 | 江南大学 | 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法 |
CN107657282A (zh) * | 2017-09-29 | 2018-02-02 | 中国石油大学(华东) | 多肽鉴定的自步长学习方法 |
CN110853704A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 蛋白质数据获取方法、装置、计算机设备及存储介质 |
WO2020167667A1 (en) * | 2019-02-11 | 2020-08-20 | Flagship Pioneering Innovations Vi, Llc | Machine learning guided polypeptide analysis |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6792355B2 (en) * | 2001-12-21 | 2004-09-14 | Triad Therapeutics, Inc. | Methods for determining polypeptide structure, function or pharmacophore from comparison of polypeptide sequences |
US20130332133A1 (en) * | 2006-05-11 | 2013-12-12 | Ramot At Tel Aviv University Ltd. | Classification of Protein Sequences and Uses of Classified Proteins |
DE102007011912A1 (de) * | 2007-03-13 | 2008-09-18 | Sanofi-Aventis | Verfahren für das Erzeugen von Peptidbibliotheken und deren Verwendung |
-
2021
- 2021-03-15 CN CN202110275496.3A patent/CN112951341B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008033100A1 (en) * | 2006-09-11 | 2008-03-20 | Agency For Science, Technology And Research | Method of predicting protein allergenicity using a support vector machine |
CN105740648A (zh) * | 2016-01-21 | 2016-07-06 | 江南大学 | 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法 |
CN107657282A (zh) * | 2017-09-29 | 2018-02-02 | 中国石油大学(华东) | 多肽鉴定的自步长学习方法 |
WO2020167667A1 (en) * | 2019-02-11 | 2020-08-20 | Flagship Pioneering Innovations Vi, Llc | Machine learning guided polypeptide analysis |
CN110853704A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 蛋白质数据获取方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
不同物种TYR基因编码蛋白结构及功能的生物信息学分析;郭敏;李祥龙;;江苏农业科学;20100531(第21期);52-56 * |
基于OET-KNN算法的蛋白质二级结构类型预测;邱望仁;肖绚;林卫中;;计算机工程与应用;20081011(第29期);204-206 * |
基于神经网络的蛋白质三级结构预测;蔡娜娜;陈月辉;李伟;;计算机工程;20100505(第09期);176-177 * |
Also Published As
Publication number | Publication date |
---|---|
CN112951341A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cano et al. | Automatic selection of molecular descriptors using random forest: Application to drug discovery | |
Ziamtsov et al. | Machine learning approaches to improve three basic plant phenotyping tasks using three-dimensional point clouds | |
US11971892B2 (en) | Methods for stratified sampling-based query execution | |
CN107016233A (zh) | 运动行为和认知能力的关联分析方法及系统 | |
Laturnus et al. | A systematic evaluation of interneuron morphology representations for cell type discrimination | |
CN105117618B (zh) | 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法 | |
WO2008033100A1 (en) | Method of predicting protein allergenicity using a support vector machine | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
Alagukumar et al. | Classification of microarray gene expression data using associative classification | |
Sudhakar et al. | Ada-SISE: adaptive semantic input sampling for efficient explanation of convolutional neural networks | |
CN112951341B (zh) | 一种基于复杂网络的多肽分类方法 | |
Kowalski et al. | Clustering based on the krill herd algorithm with selected validity measures | |
Sumathi et al. | Neural network based plant identification using leaf characteristics fusion | |
CN115064217A (zh) | 蛋白质免疫原性分类器构建方法、预测方法、装置及介质 | |
KR101913952B1 (ko) | V-CNN 접근을 통한 iPSC 집락 자동 인식 방법 | |
Lim et al. | Predicting drug-target interaction using 3D structure-embedded graph representations from graph neural networks | |
Zhao et al. | Graph-based extraction of shape features for leaf classification | |
CN107636678A (zh) | 用于预测图像样本的属性的方法和设备 | |
CN107845407A (zh) | 基于过滤式和改进聚类相结合的人体生理特征选择算法 | |
CN111354415B (zh) | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 | |
Laturnus et al. | A systematic evaluation of neural morphology representations for cell type discrimination | |
Kuzudisli et al. | Effect of recursive cluster elimination with different clustering algorithms applied to gene expression data | |
Ariawan et al. | Geometry feature extraction of shorea leaf venation based on digital image and classification using random forest | |
Maciel-Guerra et al. | Subspace-based dynamic selection: a proof of concept using protein microarray data | |
Zang et al. | Density peaks clustering based on superior nodes and fuzzy correlation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |