CN108520166B - 一种基于多重相似性网络游走的药物靶标预测方法 - Google Patents

一种基于多重相似性网络游走的药物靶标预测方法 Download PDF

Info

Publication number
CN108520166B
CN108520166B CN201810253951.8A CN201810253951A CN108520166B CN 108520166 B CN108520166 B CN 108520166B CN 201810253951 A CN201810253951 A CN 201810253951A CN 108520166 B CN108520166 B CN 108520166B
Authority
CN
China
Prior art keywords
drug
network
targets
node
drugs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810253951.8A
Other languages
English (en)
Other versions
CN108520166A (zh
Inventor
石越
常会友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810253951.8A priority Critical patent/CN108520166B/zh
Publication of CN108520166A publication Critical patent/CN108520166A/zh
Application granted granted Critical
Publication of CN108520166B publication Critical patent/CN108520166B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多重相似性网络游走的药物靶标预测方法,包括以下步骤:S1.从相关数据库中获取药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系,并构建成对应的邻接矩阵;S2.通过计算邻接矩阵中各个节点之间的杰卡德相似度,从而构建出各个邻接矩阵对应的相似性网络;S3.使用node2vec方法对各个相似性网络进行游走和训练,生成对应的网络特征向量;S4.将S3得到的各个网络的特征向量进行拼接,得到药物和靶标的多重网络的组合特征向量;S5.根据现有的药物靶标关系,得到药物靶标对的正样本,同时随机组合生成与正样本等量的负样本,将S4得到的药物特征向量和靶标特征向量,按照正负样本的组合情况进行拼接,从而得到药物靶标对的最终特征向量;S6.用随机森林算法对S5中的正负样本进行训练以及十折交叉检验和分类预测。

Description

一种基于多重相似性网络游走的药物靶标预测方法
技术领域
本发明涉及生物信息学与计算机学科的交叉领域,更具体地,涉及一种基于多重相似性网络游走的药物靶标预测方法。
背景技术
用计算机领域的方法对药物靶标关系进行预测已经成为发现新药和药物重定位过程中一个非常重要的步骤。通过机器学习的方法识别出的潜在的药物靶标关系能够给生化或临床实验中提供引导,从而大大降低生化实验的耗时和花费。
在传统的机器学习领域中,特征的提取与选择是非常关键的一个部分,特征表示的好与坏通常决定了机器学习方法的性能。而特征的选择需要特定领域的专家才能有效的完成,所以在进行生物信息学这些交叉学科的研究时,不仅需要有机器学习的相关知识,还需要有任务相关领域的专家帮助设计特征,这使得研究存在一个比较高的门槛。同时,特征设计的过程十分消耗时间和精力,因为从数据中抽取和组织区分性强的信息是非常困难的,这也是传统机器学习的弱点。
随着表示学习的提出和发展,这个问题得到了改善。表示学习是一种让抽取供其他预测模型使用的特征信息更加简易的数据表示的学习方法,其中比较经典的就是网络表示学习(network representation learning),它是基于图论,用低维、稠密、实值的向量表示网络中的节点,用来代表节点在网络中的拓扑特征。
现有的药物靶标预测方法大多是基于药物的化学结构以及靶标的原始序列进行特征的学习和提取。但是如果只关注生物化学特征,可能会忽略药物与靶标网络中的相互关系以及网络拓扑特征。而网络拓扑特征所蕴含的信息量是非常大的,比如在一个社交网络中,可以根据两个人的共同好友数来推断两人之间的关系,从而对两人的兴趣、爱好、社交团体进行预测和推荐。
有少量的预测方法也考虑到了网络拓扑特征,但是都只是浅尝辄止,将现有的药物和靶标的对应关系直接转换成特征向量,或者只是对关系网络进行了简单的随机游走。这些处理并不能很好地得到有信息量和区分性的有效网络拓扑特征。
所以从图论的角度构建多重的药物和靶标的关系网络,计算网络中各个节点的相似性,通过对相似性网络的深度游走提取两者的网络拓扑特征,考虑网络中相似位置的节点之间的关系,这样可以更好的提高药物靶标预测的准确率。
发明内容
本发明为解决现有技术提供的药物靶标预测方法忽略药物与靶标网络中的相互关系以及网络拓扑特征而导致的预测准确率低下的技术缺陷,提供了一种基于多重相似性网络游走的药物靶标预测方法,该方法较传统的药物靶标预测方法而言,更加充分的挖掘了各个相似性网络中所包含的特征,为预测分类器提供了更加充分的网络信息,从而提高预测的准确率。
为实现以上发明目的,采用的技术方案是:
一种基于多重相似性网络游走的药物靶标预测方法,包括以下步骤:
S1.从相关数据库中获取药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系,并构建成对应的邻接矩阵;
S2.通过计算邻接矩阵中各个节点之间的杰卡德相似度,从而构建出各个邻接矩阵对应的相似性网络;
S3.使用node2vec方法对各个相似性网络进行游走和训练,生成对应的网络特征向量;
S4.将S3得到的各个网络的特征向量进行拼接,得到药物和靶标的多重网络的组合特征向量;
S5.根据现有的药物靶标关系,得到药物靶标对的正样本,同时随机组合生成与正样本等量的负样本,将S4得到的药物特征向量和靶标特征向量,按照正负样本的组合情况进行拼接,从而得到药物靶标对的最终特征向量;
S6.用随机森林算法对S5中的正负样本进行训练以及十折交叉检验和分类预测。
优选地,所述步骤S3首先对网络中各个节点进行带偏置的随机游走,生成大量定长的节点序列,然后将生成的节点序列作为输入,用word2vec中的skip-gram模型进行训练,得到低维、稠密的网络特征向量。
优选地,所述步骤S1从DrugBank数据库中获取药物信息,从HPRD数据库中获取蛋白质信息,从Comparative Toxicogenomics Database数据库获取疾病信息,从SIDER数据库获取药物副作用信息;根据获取的信息得到药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系。
与现有技术相比,本发明的有益效果是:
1)现有的基于生物化学特征的预测方法在特征选择的阶段需要消耗大量的时间和经历,因为要从成千上万维的特征向量中挑取出有信息量、有辨识度的特征信息是非常困难的。而基于网络拓扑特征的预测主要关注于药物与靶标所处的网络中各个节点之间的关联,相比于冗杂的生物化学特征信息更加的精炼、易于处理。
2)现有的提取药物靶标网络特征的方法主要是将已有的药物和靶标的对应关系直接转换成特征向量,或者只是对关系网络进行了简单的随机游走。这些处理并不能很好地得到有信息量和区分性的有效网络拓扑特征。而使用node2vec算法对网络进行深度游走训练,能够更好的将节点的网络拓扑特征提取出来并映射成为低维稠密的特征向量。
3)本发明整合了药物、靶标、疾病、副作用等多重的相互关系网络,可以从各个网络中得到多种丰富的网络信息特征,这些多样的信息能够更加充分地帮助药物靶标预测。
附图说明
图1为方法的流程示意图。
图2为node2vec中的带偏置的随机游走策略图。
图3为word2vec中的skip-gram模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,本发明提供的方法包括有以下步骤:
第一步、从DrugBank数据库中获取药物信息,从HPRD数据库中获取蛋白质信息,从Comparative Toxicogenomics Database数据库获取疾病信息,从SIDER数据库获取药物副作用信息。根据获取的信息得到药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系,并构建成对应的邻接矩阵。即有相互作用关系则为1,没有关系则为0。
第二步、对于第一步中的每一个邻接矩阵,都以药物和靶标节点为一个集合,副作用和疾病等作为集合内的属性,计算网络中各个节点的杰卡德相似性系数,然后生成对应的杰卡德相似性网络。杰卡德相似度是统计学中用来刻画两个对象的集合之间相似性的度量方法,以药物与疾病的关系网络为例,两种药物之间的相似度计算公式如下:
Figure BDA0001608517730000041
其中SEi表示药物i的副作用的集合,这样计算后得到的相似性网络横纵坐标都是药物或者靶标,是一个中心对称的矩阵。
第三步、将第二步得到的相似性网络作为node2vec算法的输入,进行深度游走和训练:
首先是对网络进行带偏置的随机游走,游走策略如图2所示。
假设一次随机游走的过程是从点t走到点v,然后现在从点v开始下一步游走,与点v邻接的节点x的之间边的权重(转移概率)取决于点x和上一步的点t之间的最短路径距离dtx,其中:
Figure BDA0001608517730000042
按照以上游走策略,随机的对网络中所有的节点进行游走,生成大量的固定长度的节点序列。
然后利用wrod2vec中的基于Hierarchical softmax的skip-gram模型,把上一步所得到的大量节点序列当做句子输入,进行联合训练。具体如图3所示。
skip-gram是一种可以使句子中出现在窗口w中的单词之间共现率最大化的语言模型。它使用独立假设近似目标函数的条件概率:
Figure BDA0001608517730000043
在模型利用随机梯度下降进行训练完成之后,中间的隐藏层所对应的权重矩阵即可作为每个节点训练出来的低维、稠密的特征向量矩阵。
第四步、将第三步中对多个网络游走训练得到的多个药物特征向量矩阵进行横向的拼接,同样也对多个靶标的特征向量矩阵进行拼接,进而得到药物和靶标的多重网络的组合特征向量。
第五步、根据从DrugBank数据库获取的药物靶标关系信息,将有效的药物靶标对作为正样本,同时从不会发生作用的药物靶标之中随机组合生成与正样本等量的负样本用于后续分类预测训练。由于一个样本是由一对药物靶标对构成的,所以还需要将第四步中得到的最终的,独立的药物特征向量和靶标特征向量,按照正负样本的组合情况进行拼接,从而得到药物靶标对的最终特征向量。
第六步、将第五步中得到的正负样本,作为随机森林算法的输入,进行训练,并对结果进行十折交叉验证。
随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。算法主要包括4个部分:随机选择样本、随机选择特征、构建决策树和随机森林投票分类。
十折交叉验证则是把样本随机分成10份,每一次取其中的1份作为测试集,而其余的9份作为训练集进行训练,循环训练10次,直到每一份样本都作为测试集训练测试过了,然后将10次训练测试的结果整合起来计算均值。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于多重相似性网络游走的药物靶标预测方法,其特征在于:包括以下步骤:
S1.从相关数据库中获取药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系,并构建成对应的邻接矩阵;
S2.通过计算邻接矩阵中各个节点之间的杰卡德相似度,从而构建出各个邻接矩阵对应的相似性网络;
以药物与疾病的关系网络,两种药物之间的相似度计算公式如下:
Figure FDA0003339106040000011
其中,SEi表示药物i的相关疾病的集合,SEj表示药物j的相关疾病的集合,S(i,j)表示药物i和药物j之间的相似度;计算后得到的相似性网络横纵坐标都是药物或者靶标,是一个中心对称的矩阵;
S3.使用node2vec方法对各个相似性网络进行游走和训练,生成对应的网络特征向量;
S4.将S3得到的各个网络的特征向量进行拼接,得到药物和靶标的多重网络的组合特征向量;
S5.根据现有的药物靶标关系,得到药物靶标对的正样本,同时随机组合生成与正样本等量的负样本,将S4得到的药物特征向量和靶标特征向量,按照正负样本的组合情况进行拼接,从而得到药物靶标对的最终特征向量;
S6.用随机森林算法对S5中的正负样本进行训练以及十折交叉检验和分类预测;所述步骤S3首先对网络中各个节点进行带偏置的随机游走,生成大量定长的节点序列,然后将生成的节点序列作为输入,用word2vec中的skip-gram模型进行训练,得到低维、稠密的网络特征向量;
设一次随机游走的过程是从点t走到点v,然后现在从点v开始下一步游走,与点v邻接的节点x的边的权重取决于点x和上一步的点t之间的最短路径距离dtx,其中:
Figure FDA0003339106040000021
其中,p和q控制了游走过程中访问和离开邻居节点的速度也即αpq(t,x);p为返回参数,控制了直接返回上一个节点的可能性;q为出入度参数,能够在游走时区分是内部节点还是外部节点;
按照以上游走策略,随机的对网络中所有的节点进行游走,生成大量的固定长度的节点序列;
然后利用wrod2vec中的基于Hierarchical softmax的skip-gram模型,把上一步所得到的大量节点序列当做句子输入,进行联合训练;
skip-gram是一种使句子中出现在窗口w中的单词之间共现率最大化的语言模型;它使用独立假设近似目标函数的条件概率:
Figure FDA0003339106040000022
其中,Pr表示条件概率,指在窗口w中,句子中的单词之间的共现概率;vi表示一个句子中的第i个单词;vi-w表示句子中第i-w个单词,vi+w表示句子中的第i+w个单词,vj表示句子中的第j个单词;Φ(vi)为节点vi映射到其当前的向量表示;
在模型利用随机梯度下降进行训练完成之后,中间的隐藏层所对应的权重矩阵即可作为每个节点训练出来的低维、稠密的特征向量矩阵。
2.根据权利要求1所述的基于多重相似性网络游走的药物靶标预测方法,其特征在于:所述步骤S1从DrugBank数据库中获取药物信息,从HPRD数据库中获取蛋白质信息,从Comparative Toxicogenomics Database数据库获取疾病信息,从SIDER数据库获取药物副作用信息;根据获取的信息得到药物与药物、靶标与靶标、药物与疾病、靶标与疾病、药物与副作用之间的相互作用关系。
CN201810253951.8A 2018-03-26 2018-03-26 一种基于多重相似性网络游走的药物靶标预测方法 Expired - Fee Related CN108520166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810253951.8A CN108520166B (zh) 2018-03-26 2018-03-26 一种基于多重相似性网络游走的药物靶标预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810253951.8A CN108520166B (zh) 2018-03-26 2018-03-26 一种基于多重相似性网络游走的药物靶标预测方法

Publications (2)

Publication Number Publication Date
CN108520166A CN108520166A (zh) 2018-09-11
CN108520166B true CN108520166B (zh) 2022-04-08

Family

ID=63434399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810253951.8A Expired - Fee Related CN108520166B (zh) 2018-03-26 2018-03-26 一种基于多重相似性网络游走的药物靶标预测方法

Country Status (1)

Country Link
CN (1) CN108520166B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493925B (zh) * 2018-11-20 2020-09-15 北京晶派科技有限公司 一种确定药物和药物靶点关联关系的方法
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110246550B (zh) * 2019-06-12 2022-12-06 西安电子科技大学 基于药物相似性网络数据的药物组合预测方法
CN110957002B (zh) * 2019-12-17 2023-04-28 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN111524546B (zh) * 2020-04-14 2022-05-03 湖南大学 一种基于异构信息的药物-靶标相互作用预测方法
CN111785320B (zh) * 2020-06-28 2024-02-06 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN111916145B (zh) * 2020-07-24 2022-03-11 湖南大学 基于图表示学习的新冠病毒靶标预测和药物发现方法
CN112216353B (zh) * 2020-11-02 2024-04-02 长沙理工大学 一种用于预测药物-靶标相互作用关系的方法和设备
CN112270950B (zh) * 2020-11-04 2023-06-23 中山大学 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN113223609B (zh) * 2021-05-17 2023-05-02 西安电子科技大学 基于异质信息网络的药物靶标相互作用预测方法
CN114913916A (zh) * 2022-04-19 2022-08-16 广东工业大学 预测新冠病毒适应药物的药物重定位方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117618B (zh) * 2015-08-12 2018-01-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法
CN105653846B (zh) * 2015-12-25 2018-08-31 中南大学 基于集成的相似性度量和双向随机游走的药物重定位方法
CN107194203A (zh) * 2017-06-09 2017-09-22 西安电子科技大学 基于miRNA数据和组织特异性网络的药物重定位方法
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107506591B (zh) * 2017-08-28 2020-06-02 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法

Also Published As

Publication number Publication date
CN108520166A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108520166B (zh) 一种基于多重相似性网络游走的药物靶标预测方法
CN107562812B (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN108073569A (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN113140254B (zh) 元学习药物-靶点相互作用预测系统及预测方法
CN111554360A (zh) 基于生物医学文献和领域知识数据的药物重定位预测方法
CN108062978B (zh) 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN110458373A (zh) 一种基于知识图谱融合的犯罪预测方法及系统
CN106778063A (zh) 一种基于图模型的蛋白质复合物识别方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
Piatetsky-Shapiro et al. What are the grand challenges for data mining? KDD-2006 panel report
CN115376704A (zh) 一种融合多邻域关联信息的药物-疾病相互作用预测方法
CN114417823B (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
CN115858919A (zh) 基于项目领域知识和用户评论的学习资源推荐方法及系统
Ramaswamy et al. ELUDE: Generating interpretable explanations via a decomposition into labelled and unlabelled features
Moholkar et al. Lioness adapted GWO-based deep belief network enabled with multiple features for a novel question answering system
CN111552816B (zh) 面向大数据文本挖掘的动态认知语义匹配方法
CN113284627A (zh) 基于患者表征学习的用药推荐方法
Maylawati et al. Chatbot for virtual travel assistant with random forest and rapid automatic keyword extraction
CN110010251B (zh) 一种中药社团信息生成方法、系统、装置和存储介质
CN114944191A (zh) 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220408

CF01 Termination of patent right due to non-payment of annual fee