CN110880354A - 一种基于群体智能的药物-靶标相互作用预测方法 - Google Patents
一种基于群体智能的药物-靶标相互作用预测方法 Download PDFInfo
- Publication number
- CN110880354A CN110880354A CN201911017734.XA CN201911017734A CN110880354A CN 110880354 A CN110880354 A CN 110880354A CN 201911017734 A CN201911017734 A CN 201911017734A CN 110880354 A CN110880354 A CN 110880354A
- Authority
- CN
- China
- Prior art keywords
- drug
- target
- target interaction
- weight
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000003814 drug Substances 0.000 claims abstract description 111
- 229940079593 drug Drugs 0.000 claims abstract description 96
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 239000003596 drug target Substances 0.000 claims abstract description 52
- 238000012216 screening Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000013145 classification model Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 206010013710 Drug interaction Diseases 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 7
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 7
- 108020005497 Nuclear hormone receptor Proteins 0.000 description 6
- 102000006255 nuclear receptors Human genes 0.000 description 6
- 108020004017 nuclear receptors Proteins 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 108090000862 Ion Channels Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Medicinal Chemistry (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种基于群体智能的药物‑靶标相互作用预测方法,包括以下步骤:步骤1:从数据库获取药物与靶标的数据,分别计算药物相似性、靶标相似性,建立全局药物与靶标相互作用网络;步骤2:采用随机行走的方法,从所述全局药物与靶标相互作用网络中提取用来分类的关键特征,将网络中的药物与靶标相互作用连接权重作为类编号;步骤3:根据相似的药物与相似的靶标绑定的原则,筛选分类的负样本;步骤4:采用极限学习机作为药物‑靶标相互作用分类器;步骤5:采用群体智能算法对极限学习机输入权重进行优化,所述群体智能算法使用全局搜索与局部搜索相结合的方法。本发明显著提高药物‑靶标相互作用预测的精度。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及网络药理学中的药物-靶标相互作用预测方法,具体涉及一种基于群体智能的药物-靶标相互作用预测方法。
背景技术
发现新的药物靶标,是药物研发的“重磅性”发现,也是药物研发的源头。传统的以实验的方式发现新的药物,一般需要8-10年的时间,研发的成本高且周期漫长。随着基因组学、蛋白质组学、代谢组学、系统生物学等生物信息学技术的迅速发展,以大数据为依托的,融合机器学习与网络药理学的计算方法得到研究者的关注。关键的问题是如何从已有的数据中发现和识别出新的药物-靶标相互作用关系。
关于药物-靶标相互作用预测问题,实际上一直被认为是机器学习中的两类分类问题。一种药物与一种靶标之间有相互作用的属于一类;没有相互作用的属于另外一类。因此,目前流行的机器学习方法是建立两部图分类模型和一部图分类模型。对于两部图分类模型,是分别计算药物的相似性和靶标的相似性矩阵,然后,使用分类器,分别对药物空间和靶标空间进行预测,再用集成的方法进行药物-靶标相互作用预测。而一部图分类模型是直接根据药物和靶标的原始特征进行特征选择,并用分类器进行分类。
上述过程是药物-靶标相互作用的典型的预测方法,这些方法存在如下缺点:1)对于两部图分类模型和一部图分类模型,都会随着数据样本的增加或特征的增加,而降低分类器预测的精度。2)药物-靶标相互作用对的负样本的产生比较困难,目前的方法是把药物和靶标没有确定的样本对当做负样本,这使得一些正样本被错误的判断为负样本,从而降低了预测的精度。3)当前的方法所使用的分类器,大部分都对一些重要参数很敏感,而这些参数的选择没有做深度的优化。
申请公布号为CN 109887540 A的中国专利公开了一种基于异构网络嵌入的药物靶标相互作用预测方法,首先使用随机游走的方法,获得关键样本特征,并采纳了神经网络算法及随机森林算法,一定程度上提高了预测的精度。然而,其中算法的参数没有得到优化,其预测精度仍然较低。
申请公布号为CN 109712678 A的中国专利公开了一种关系预测方法、装置及电子设备,该方法重点考虑了药物、靶标及疾病的数据融合,而对分类器的性能及参数优化方面没有大的改进,依然存在分类器参数缺乏优化的问题。
申请公布号为CN 110021341 A的中国专利公开了一种基于异构网络的GPCR药物和靶向通路的预测方法,提出了药物及通路的异构网络,并采纳RBM分类器进行预测。然而,RBM的性能对三个重要参数比较敏感,亟需对其优化。
申请公布号为CN 109872781 A的中国专利公开了基于Xgboost的药物靶点识别方法,该方法重点采纳了成分分析等以提取关键特征,然后使用CART分类器进行预测,然而,CART参数也没有得到优化。
发明内容
本发明的目的在于提供一种基于群体智能的药物-靶标相互作用预测方法,针对现有技术中分类器预测精度低等问题,本发明结合两部图和一部图的优点,提出了基于网络的分类模型;对于负样本的筛选,我们提出了一种自学的负样本选择方法;对于分类器参数敏感的问题,提出了一种群体智能优化的极限学习机,实现分类器参数的智能优化。首先,我们对收集的药物和靶标的原始数据计算并建立其相似性矩阵;对于已经确定的药物-靶标相互作用对表达为1,对未知的药物靶标相互作用表达为0,建立药物靶标相互作用的邻接矩阵(无向图);根据“相似的药物往往更容易与相似的靶标产生相互作用”的原则,修订药物靶标邻接矩阵;对于每个药物节点,搜索其最近的药物与每个靶标的最近靶标的路径,计算路径长度,作为分类器的新的特征;通过网络搜索和计算,建立新的分类模型;然后,根据“相似的药物往往更容易与相似的靶标产生相互作用”的原则,筛选负样本;最后,利用群体智能算法的优势,对极限学习机的网络参数进行优化,以预测精度为适应度函数,进行训练和学习,最后验证了药物靶标相互作用预测的精度,结果发现,本发明有效提高预测的精度和速度。
本发明上述目的通过以下技术方案实现:
本发明提供一种基于群体智能的药物-靶标相互作用预测方法,包括以下步骤:
步骤1:从数据库获取药物与靶标的数据,分别计算药物相似性、靶标相似性,建立全局药物与靶标相互作用网络;
步骤2:采用随机行走的方法,从所述全局药物与靶标相互作用网络中提取用来分类的关键特征,将网络中的药物与靶标相互作用连接权重作为类编号;
步骤3:根据相似的药物与相似的靶标绑定的原则,筛选分类的负样本;
步骤4:采用极限学习机作为药物-靶标相互作用分类器;
步骤5:采用群体智能算法对极限学习机输入权重进行优化,所述群体智能算法使用全局搜索与局部搜索相结合的方法。
可选地,所述步骤1中,所述数据库可以为KEGG、DrugBank等现有数据库。
可选地,所述步骤1中,获取的所述数据包括药物、靶标及已知的药物-靶标相互作用数据。
可选地,所述步骤1中,使用SIMCOMP算法计算药物的相似性。
可选地,所述步骤1中,使用Smith–Waterman scores算法计算靶标的相似性。
可选地,所述步骤1中,所述靶标为蛋白质等。
可选地,所述步骤2包括以下步骤:
步骤2-1:以任意一个药物节点为起点,计算其k个最近关联的药物节点;同时,在靶标子网络中,以任意一个靶标节点为终点,计算其k个最近关联的靶标节点,在全局网络中,根据邻接矩阵的权重,搜索从药物到靶标的最近路径,求总和,作为网络分类的基本特征;
步骤2-2:计算不同搜索路径的总距离,作为分类的不同关键特征:
kf表示药物i与药物j相互作用的一个特征,di和dj表示药物基本特征,ti和tj表示靶标基本特征,sim()为药物或靶标的相似性函数,weight()表示药物与靶标的相互作用权重。
可选地,所述步骤2-1中,k一般为[3,10]区间的整数。
可选地,所述步骤2中,药物与靶标相互作用权重为1,表示正样本的类标号,建立分类模型。
可选地,所述步骤3中,筛选分类的负样本时,根据相似的药物更容易与相似的靶标产生相互作用的原则,分别计算药物di与tj的k个最近的邻居的相互作用,计为同样的,计算靶标tj与药物di的k个最近的邻居的相互作用,计为计算总分,排序,排序最低的作为负样本,wi表示药物与靶标相互作用权重,di表示药物与药物的相似性权重,ti表示靶标与靶标的相似性权重。
可选地,所述步骤4中,得到基于极限学习机算法的输入层权重wi和偏移量bi矩阵,使用群体智能算法对其优化。
可选地,所述步骤5中,所述群体智能算法选自混合蛙跳算法、粒子群算法、进化算法、人工蜜蜂群算法、教与学优化算法的任一种。
可选地,所述步骤5中,所述群体智能算法为改进的混合蛙跳算法,具体包括如下步骤:
步骤5-1:以极限学习机的输入层权重和偏移对混合蛙跳的每个个体做编码,以极限学习机的预测准确率作为混合蛙跳算法的适应度值,进行搜索;
步骤5-2:对于混合蛙跳算法根据适应度值,进行蛙跳子群的划分;
步骤5-3:采纳LEVY分布,实现蛙跳的局部搜索,公式如下:
Xw表示最差的青蛙的位置,Xbest表示局部子群中最好的青蛙的位置,Xm表示局部子群中的平均位置,LevyFlight表示Levy分布的随机数;
步骤5-4:采纳相互学习机制,实现全局搜索,公式如下:
X'i=Xi+rand.(XpopA(u)-XpopB(v))+rand.(Xbest-XpopB(v)),
XpopA(u)和XpopB(v)表示青蛙群中随机选择的青蛙位置,Xbest表示最佳的青蛙位置;
步骤5-5:极限学习机的隐含层,采纳Moore Penrose逆矩阵计算隐含层权重W。
wi表示与输入层与隐含层连接的权重向量,bi表示输入层与隐含层的偏移向量,βi表示隐含层与输出层的连接权重,oj表示预测的类标号。
可选地,所述步骤5-5中,采用极限学习机Moore Penrose逆矩阵计算隐含层权重W,公式如下:
β=H+T。
H+表示Moore Penrose逆矩阵计算,T表示极限学习机的输出层已知的类标号数据,β是隐含层与输出层之间的权重。
本发明还提供一种群体智能算法的药物-靶标相互作用预测装置,包括:全局药物与靶标相互作用网络获得模块,用于从数据库获取药物与靶标的数据,分别计算药物相似性、靶标相似性,结合药物-靶标相互作用邻接矩阵,建立全局药物与靶标相互作用网络;
类编号获得模块,用于从所述全局药物与靶标相互作用网络中提取用来分类的关键特征,将网络中的药物与靶标相互作用连接权重作为类编号;
分类的负样本筛选模块,用于根据相似的药物与相似的靶标绑定的原则,筛选分类的负样本;
极限学习机优化模块,用于采纳群体智能算法对极限学习机输入权重进行优化,所述群体智能算法使用全局搜索与局部搜索相结合的方法。
本发明还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述方法的步骤。
本发明具有以下有益效果:
本发明提出了一种基于群体智能的药物-靶标相互作用分类方法,针对目前药物-靶标相互作用分类问题中三个主要问题:1)两部图和一部图分类,都会随着数据样本的增加或特征的增加,而降低了分类器预测的精度。2)药物-靶标相互作用对的负样本的产生比较困难,目前的方法把药物和靶标没有确定的样本对被当做负样本,这使得一些正样本被错误的判断为负样本,从而降低了预测的精度。3)当前的方法所使用的分类器,大部分都对一些重要参数很敏感,而这些参数的选择没有做深度的优化。为了解决这三个主要问题,本发明使用基于网络特征的分类模型替换了两部图和一部图;采用自学习的负样本筛选方法来选择合适负样本;采纳改进的混合蛙跳算法优化极限学习机输入层权重,从而大大提高了药物-靶标相互作用预测的精度。
附图说明
图1显示为本发明实施例的混合蛙跳优化的药物-靶标相互作用分类流程图。
图2显示为本发明实施例的基于网络特征的药物-靶标相互作用分类原理模型图。
图3显示为本发明实施例的药物-靶标相互作用分类中负样本筛选原理图。
图4显示为本发明实施例的混合蛙跳优化极限学习机的药物-靶标相互作用流程图。
图5显示为本发明实施例的LSFLA-ELM算法的AUC曲线及算法收敛曲线图。
具体实施方式
以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。
本发明提出的一种群体智能优化的药物靶标相互作用分类的方法,以解决目前两部图和一部图预测精度低的问题,提高预测的精度,现有技术存在的问题具体包括负面样本的筛选不准确及现有分类器对参数设置不合理,从而降低了预测的精度的问题。针对这些问题,本发明结合了两部图和一部图的共同优点,提出了基于网络的分类模型,使用“相似的药物往往更容易与相似的靶标产生相互作用的”的原则,筛选负样本。然后,使用改进的混合蛙跳算法对极限学习机中的输入权重进行优化,从而提高药物-靶标相互作用分类的精度。
本发明提出的技术方案如下:
使用图排列算法计算药物的相似性计算,使用Smith–Waterman scores方法计算蛋白质(靶标)的相似性计算。
在药物子网络中,以任意一个药物节点为起点,计算其k个最近关联的药物节点;同时,在靶标子网络中,以任意一个靶标节点为终点,计算其k个最近关联的靶标节点。在全局网络中,根据邻接矩阵的权重,搜索从药物到靶标的最近路径,求总和,作为网络分类的基本特征。
根据邻接矩阵,对权重为1的,作为分类的正样本;而负样本的筛选,采纳自学的计算方法。
对负样本的筛选,根据“相似的药物往往更容易与相似的靶标产生相互作用的”的原则,分别计算药物di与tj的k个最近的邻居的相互作用,计为同样的,计算靶标tj与药物di的k个最近的邻居的相互作用,计为计算总分,排序,排序最低的作为负样本,wi表示药物与靶标相互作用权重,di表示药物与药物的相似性权重,ti表示靶标与靶标的相似性权重。
随机产生输入层权重w和偏移量b矩阵,计算隐含层输出矩阵H,计算输出权重β,β=H+T,H+表示Moore Penrose逆矩阵计算,T表示极限学习机的输出层已知的类标号数据,β是隐含层与输出层之间的权重。
选择群体智能算法中的混合蛙跳算法,改进搜索策略,用来对极限学习机中的收入权重W进行优化。
设置q个解的群体智能算法的蛙跳子群,每个个体用极限学习机中的收入权重对其编码,而极限学习及的预测的准确率作为每个个体的适应度函数。考虑群的多样性,保证全局搜索和局部搜索的平衡的原则,采纳局部搜索和全局搜索基础的修改原则,改进搜索策略。
最终,获得极限学习机输入层最佳权重,采纳10-折交叉验证的方法,计算群体智能优化的极限学习机预测的精度。
实施例1
图1是混合蛙跳优化的药物-靶标相互作用分类流程图。图1中提出的方法具体如下:
步骤1:从国际公开的数据库中搜索药物、靶标及已知的药物-靶标相互作用数据(比如从KEGG、DrugBank等数据库中搜集)使用SIMCOMP算法计算药物的相似性,使用Smith–Waterman scores算法计算蛋白质(靶标)的相似性。本实施例中使用国际金标准数据集Yamanishi et al.(2008(Enzymes,Ion Channels,GPCRs and Nuclear Receptors)做为验证,该数据集可以在网上查到,网址为http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/。
步骤2:基于网络特征的提取具体实现方法可以如图2所示。虚线区域内表示的是药物与靶标的随机行走范围,黑色箭头表示行走路径。可以看出,从药物di到靶标ti之间的路径有很多条,每一条路径的距离总和作为分类样本的关键特征。关键特征公式如下:
kf表示药物i与药物j相互作用的一个特征,di和dj表示药物基本特征,ti和tj表示靶标基本特征,sim()为药物或靶标的相似性函数,weight()表示药物与靶标的相互作用权重。
步骤3:将药物相似性与靶标相似性连接起来(连接方式可以是简单连接或随机游走,本例采纳简单连接方式),药物与靶标相互作用权重为1,表示正样本的类标号,建立分类模型。
步骤4:根据“相似的靶标更容易绑定相似的药物”的原则,计算药物和靶标的距离,筛选负样本。负样本的筛选原理如图3所示,需要建立药物di和靶标ti的距离(虚线表示该药物和靶标没有相互作用),具体如下:
步骤4-1:首先,根据药物的相似性计算,选出k个离药物di最相似的药物(本例k=3),计算这3个药物与靶标ti的相互作用权重,公式如下:
ad表示药物对靶标的影响程度,wi表示药物与靶标相互作用权重,ddi表示与药物di最近的药物的相似性;
步骤4-2:同样的,据靶标的相似性计算,选出k个离靶标图ti最相似的靶标(k=3),计算这3个靶标与药物di的相互作用权重,公式如下:
at表示靶标对药物的影响程度,wi表示药物与靶标相互作用权重,tti表示与靶标ti最近的靶标的相似性;
步骤4-3:计算总距离,公式如下:
td=e-(ad+at);
ad表示药物对靶标的影响程度,at表示靶标对药物的影响程度,td表示药物和靶标的共同影响程度,它的值越大,越可能是负样本;
步骤4-4:将所有的td距离降序排列,选出与正样本的距离最大的样本为负面样本。将药物的相似性与靶标的相似性连接为一个完整药物-靶标特征。
步骤5:使用改进的混合蛙跳算法对极限学习机进行优化,提出混合蛙跳的极限学习机作为分类器,具体步骤如图4所示:
步骤5-1:随机产生q个青蛙个体{X1,X2,X3,...,Xq},每个青蛙个体使用极限学习机输入层权重编码,以极限学习机的输入层最小误差为适应度值。
步骤5-2:根据适应度值大小降序排列,均匀划分为k个子群,在每个子群中选出最佳青蛙个体Xbest和最差青蛙个体Xworst。
步骤5-3:局部搜索公式如下:
X'w表示更新后的青蛙的位置,Xw表示最差的青蛙的位置,Xbest表示局部子群中最好的青蛙的位置,Xm表示局部子群中的平均位置,LevyFlight表示Levy分布的随机数。
u和v表示正态分布的随机数,σ表示方差;
σu=1;
ω表示步长扩展参数。
step表示Levy步长。
步骤5-4:完成全局搜索,公式如下:
X'i=Xi+rand.(XpopA(u)-XpopB(v))+rand.(Xbest-XpopB(v)),
X'i表示更新后的青蛙的位置,XpopA(u)和XpopB(v)表示青蛙群中随机选择的青蛙位置,Xi表示青蛙的原始位置,Xbest表示最佳的青蛙位置。
xj表示输入样本,ai表示输入层与隐含层连接的权重向量,bi表示输入层与隐含层的偏移向量,βi表示隐含层与输出层的连接权重,oj表示预测的类标号。
步骤5-5:采用极限学习机Moore Penrose逆矩阵计算隐含层W权重,公式如下:
β=H+T。
β表示隐含层与输出层的连接权重,H+表示Moore Penrose逆矩阵计算,T表示极限学习机的输出层已知的类标号数据。
步骤5-6:判断是否满足收敛条件,如果不满足,就退到步骤5-2,重新搜索。
步骤6:使用10-折交叉验证方法验证提出的方法的预测精度。
其中参数设置包括:群大小NP=50,最大适应度评估数目为2500,青蛙子群数目为5,局部迭代数目为9,levy参数beta=0.6,AUC(Area Under Curve,曲线下面积)与AUPR(Area Under Curve of Precision vs Recall,精度曲线下面积与召回率)的和作为适应度函数。本实施例采纳了药物-靶标相互作用金标准数据集中的Nuclear receptor(NR)数据集和G-Protein Coupled Receptor(GPCR)数据集。其中NR数据集有54个药物和26个靶标。GPCRs数据集有223个药物和95个靶标,分别按正样本与负样本比例(1:3)进行。AUC及收敛曲线验证了提出的算法的性能。
图5为使用改进的混合蛙跳优化的极限学习机算法(LSFLA-ELM)进行药物-靶标相互作用预测的AUC曲线及算法的收敛曲线。图5(a)显示了两个数据集NR和GPCR的AUC曲线。图5(b)显示了混合蛙跳算法的搜索曲线,可以看出LSFLA对ELM参数不断的优化,从而提高了适应度函数的值,也就是提高了预测的精度。表1和表2显示为我们提出的算法与目前最先进的(state-of-the art algorithm)其他3个算法(NetLapRLS,BLM-NII,NRLMF)(三个算法比较结果见参考文献,Yong Liu,Min Wu,Chunyan Miao,Peilin Zhao,Xiao-Li Li,Neighborhood Regularized Logistic Matrix Factorization for Drug-TargetInteraction,Prediction.PLOS Computational Biology,2016.|DOI:10.1371/journal.pcbi.1004760,第11页和第12页)比较表。
表1不同算法精度比较(AUC)
表2不同算法精度比较(AUPR)
算法 | LSFLA-ELM(%) | NetLapRLS(%) | BLM-NII(%) | NRLMF(%) |
NR | 99.02 | 46.5 | 65.9 | 72.8 |
GPCR | 96.17 | 61.6 | 52.4 | 74.9 |
从表1和表2可以看出,我们提出的方法的性能超过目前最先进的其他3个算法。
综上所述,本发明提出了基于网络特征的分类模型,根据“相似的药物更可能与相似的靶标进行绑定”的原则筛选负面样本,然后使用改进的混合蛙跳算法对极限学习机进行优化,从而显著提高了预测的精度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于群体智能的药物-靶标相互作用预测方法,其特征在于,包括以下步骤:
步骤1:从数据库获取药物与靶标的数据,分别计算药物相似性、靶标相似性,建立全局药物与靶标相互作用网络;
步骤2:采用随机行走的方法,从所述全局药物与靶标相互作用网络中提取用来分类的关键特征,将网络中的药物与靶标相互作用连接权重作为类编号;
步骤3:根据相似的药物与相似的靶标绑定的原则,筛选分类的负样本;
步骤4:采用极限学习机作为药物-靶标相互作用分类器;
步骤5:采用群体智能算法对极限学习机输入权重进行优化,所述群体智能算法使用全局搜索与局部搜索相结合的方法。
2.根据权利要求1所述的药物-靶标相互作用预测方法,其特征在于:所述步骤1中,使用图排列算法计算药物的相似性,使用Smith–Waterman scores方法计算靶标的相似性。
4.根据权利要求1所述的药物-靶标相互作用预测方法,其特征在于:所述步骤2中,药物与靶标相互作用权重为1,表示正样本的类标号,建立分类模型。
6.根据权利要求1所述的药物-靶标相互作用预测方法,其特征在于:所述步骤4中,随机产生输入层权重w和偏移量b矩阵,计算隐含层输出矩阵H,计算输出权重β,β=H+T,H+表示Moore Penrose逆矩阵计算,T表示极限学习机的输出层已知的类标号数据。
7.根据权利要求1所述的药物-靶标相互作用预测方法,其特征在于:所述步骤5中,所述群体智能算法选自混合蛙跳算法、粒子群算法、进化算法、人工蜜蜂群算法、教与学优化算法中的任一种。
8.根据权利要求1所述的药物-靶标相互作用预测方法,其特征在于,所述步骤5中,所述群体智能算法为混合蛙跳算法,所述步骤5具体包括如下步骤:
步骤5-1:以极限学习机的输入层权重对混合蛙跳的每个个体做编码,以极限学习机的预测准确率作为混合蛙跳算法的适应度值,进行搜索,
步骤5-2:对于混合蛙跳算法根据适应度值,进行蛙跳子群的划分;
步骤5-3:采纳LEVY分布,实现蛙跳的局部搜索,公式如下:
X'w表示更新后的青蛙的位置,Xw表示最差的青蛙的位置,Xbest表示局部子群中最好的青蛙的位置,Xm表示局部子群中的平均位置,LevyFlight表示Levy分布的随机数;
步骤5-4:采纳相互学习机制,实现全局搜索,公式如下:
X'i=Xi+rand.(XpopA(u)-XpopB(v))+rand.(Xbest-XpopB(v)),
X'i表示更新后的青蛙的位置,XpopA(u)和XpopB(v)表示青蛙群中随机选择的青蛙位置,Xi表示青蛙的原始位置,Xbest表示最佳的青蛙位置;
步骤5-5:极限学习机的隐含层,采纳Moore Penrose逆矩阵计算隐含层W权重。
9.一种混合蛙跳的药物-靶标相互作用预测装置,包括:全局药物与靶标相互作用网络获得模块,用于从数据库获取药物与靶标的数据,建立全局药物与靶标相互作用网络;
类编号获得模块,用于从所述全局药物与靶标相互作用网络中提取用来分类的关键特征,将网络中的药物与靶标相互作用连接权重作为类编号;
分类的负样本筛选模块,用于根据相似的药物与相似的靶标绑定的原则,筛选分类的负样本;
极限学习机优化模块,用于采纳群体智能算法对极限学习机输入权重进行优化,所述群体智能算法使用全局搜索与局部搜索相结合的方法。
10.一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行权利要求1-8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017734.XA CN110880354B (zh) | 2019-10-24 | 2019-10-24 | 一种基于群体智能的药物-靶标相互作用预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017734.XA CN110880354B (zh) | 2019-10-24 | 2019-10-24 | 一种基于群体智能的药物-靶标相互作用预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110880354A true CN110880354A (zh) | 2020-03-13 |
CN110880354B CN110880354B (zh) | 2023-06-09 |
Family
ID=69728312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911017734.XA Expired - Fee Related CN110880354B (zh) | 2019-10-24 | 2019-10-24 | 一种基于群体智能的药物-靶标相互作用预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110880354B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382362A (zh) * | 2020-11-04 | 2021-02-19 | 北京华彬立成科技有限公司 | 一种针对靶点药物的数据分析方法及装置 |
CN112801163A (zh) * | 2021-01-22 | 2021-05-14 | 安徽大学 | 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法 |
CN112863693A (zh) * | 2021-02-04 | 2021-05-28 | 东北林业大学 | 基于多通道图卷积网络的药物靶标相互作用预测方法 |
CN113053457A (zh) * | 2021-03-25 | 2021-06-29 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113160878A (zh) * | 2021-04-16 | 2021-07-23 | 西北工业大学 | 一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709272A (zh) * | 2016-12-26 | 2017-05-24 | 西安石油大学 | 基于决策模板预测药物‑靶蛋白相互作用关系的方法和系统 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
-
2019
- 2019-10-24 CN CN201911017734.XA patent/CN110880354B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709272A (zh) * | 2016-12-26 | 2017-05-24 | 西安石油大学 | 基于决策模板预测药物‑靶蛋白相互作用关系的方法和系统 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382362A (zh) * | 2020-11-04 | 2021-02-19 | 北京华彬立成科技有限公司 | 一种针对靶点药物的数据分析方法及装置 |
CN112801163A (zh) * | 2021-01-22 | 2021-05-14 | 安徽大学 | 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法 |
CN112801163B (zh) * | 2021-01-22 | 2022-10-04 | 安徽大学 | 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法 |
CN112863693A (zh) * | 2021-02-04 | 2021-05-28 | 东北林业大学 | 基于多通道图卷积网络的药物靶标相互作用预测方法 |
CN113053457A (zh) * | 2021-03-25 | 2021-06-29 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113160878A (zh) * | 2021-04-16 | 2021-07-23 | 西北工业大学 | 一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110880354B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110880354B (zh) | 一种基于群体智能的药物-靶标相互作用预测方法 | |
Cao et al. | Multi-omics single-cell data integration and regulatory inference with graph-linked embedding | |
Alghunaim et al. | On the scalability of machine-learning algorithms for breast cancer prediction in big data context | |
Long et al. | Pre-training graph neural networks for link prediction in biomedical networks | |
Kc et al. | GNE: a deep learning framework for gene network inference by aggregating biological information | |
US20220165352A1 (en) | Network Medicine Framework for Identifying Drug Repurposing Opportunities | |
Whata et al. | Deep learning for SARS COV-2 genome sequences | |
Wang et al. | Imbalance data processing strategy for protein interaction sites prediction | |
Lei et al. | Clustering and overlapping modules detection in PPI network based on IBFO | |
Yu et al. | Predicting protein complex in protein interaction network-a supervised learning based method | |
Ramadan et al. | Protein complexes predictions within protein interaction networks using genetic algorithms | |
Wang et al. | Review on predicting pairwise relationships between human microbes, drugs and diseases: from biological data to computational models | |
Yigit | ABC-based distance-weighted k NN algorithm | |
Luo et al. | A particle swarm optimization based multiobjective memetic algorithm for high-dimensional feature selection | |
Dick et al. | Reciprocal perspective for improved protein-protein interaction prediction | |
Han et al. | A novel strategy for gene selection of microarray data based on gene-to-class sensitivity information | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
Singh et al. | Towards probabilistic generative models harnessing graph neural networks for disease-gene prediction | |
Ram et al. | Dynamic scaling factor based differential evolution with multi-layer perceptron for gene selection from pathway information of microarray data | |
Cong et al. | Multiple protein subcellular locations prediction based on deep convolutional neural networks with self-attention mechanism | |
Mansoor et al. | Gene Ontology GAN (GOGAN): a novel architecture for protein function prediction | |
Liu et al. | Dual attention mechanisms and feature fusion networks based method for predicting LncRNA-disease associations | |
Abd Elaziz et al. | Quantum artificial hummingbird algorithm for feature selection of social IoT | |
Wang et al. | Fuzzy k-means with variable weighting in high dimensional data analysis | |
Zhang et al. | Higher-order proximity-based MiRNA-disease associations prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230609 |