CN114334038B - 一种基于异质网络嵌入模型的疾病药物预测方法 - Google Patents

一种基于异质网络嵌入模型的疾病药物预测方法 Download PDF

Info

Publication number
CN114334038B
CN114334038B CN202111671274.XA CN202111671274A CN114334038B CN 114334038 B CN114334038 B CN 114334038B CN 202111671274 A CN202111671274 A CN 202111671274A CN 114334038 B CN114334038 B CN 114334038B
Authority
CN
China
Prior art keywords
disease
drug
gene
path
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111671274.XA
Other languages
English (en)
Other versions
CN114334038A (zh
Inventor
刘闯
姚旭
詹秀秀
张子柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202111671274.XA priority Critical patent/CN114334038B/zh
Publication of CN114334038A publication Critical patent/CN114334038A/zh
Application granted granted Critical
Publication of CN114334038B publication Critical patent/CN114334038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异质网络嵌入模型的疾病药物预测方法。本发明方法包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块。数据采集和数据预处理模块通过疾病、基因、药物之间的相互作用数据采集,构建疾病‑基因‑药物异质网络。路径设计模块通过最短元路径策略,寻找基因与基因的最短路径,形成随机游走路径。模型训练模块对随机游走数据通过模型训练,形成向量化表达,通过欧式距离预测药物和疾病间的相互作用。结果评估模块采用基于混淆矩阵的ROC曲线,对预测效果评估,通过优化模型选取最佳的预测效果。本发明方法通过学习生物异质网络中的拓扑及潜在表达,实现了药物和疾病关系的预测。

Description

一种基于异质网络嵌入模型的疾病药物预测方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于异质网络嵌入模型的疾病药物预测方法。
背景技术
药物的开发是一个艰难的过程,往往具有很大的代价,具有复杂、耗时、昂贵这三种特性。尽管近年来生物医学和制药研究领域的投资资金大幅增加,但是美国食品药物监管局(Food and Drug Administration)每年经过批准的新疗法数量有限。导致FDA的新药批准进度缓慢的因素有很多,而“一个基因、一种药物、一种疾病”这种经典的药物开发假说是最为关键且常被忽略的重要因素。因此需要从生物系统中的多个角度去研究,探索复杂疾病间的相互作用,才能有效地进行药物研发。药物靶点、疾病基因的作用并不是孤立存在的,它们常常与构成其所关联细胞分子机制的复杂蛋白质系统相联系。对于每个药物-靶点、疾病-基因的相互作用,应当在适当的综合背景下进行研究。
复杂疾病通常不仅限于单基因缺陷,大部分疾病往往会涉及到不同基因组协同功能的破坏。因此,将药物开发的重点从携带疾病相关突变的单个基因转移到整个疾病网络中,并利用已有的药物靶点、疾病基因作用关系,探索相关作用机制,能够提高药物利用效率,准确的挖掘出疾病和药物之间的潜在关系,实现旧药新用。
发明内容
本发明的目的是提供一种基于异质网络嵌入模型的疾病药物预测方法,解决数据稀疏的生物异质网络不能利用元路径对异类节点进行关系预测的问题,同时该发明能够消除临床试验的随机性,降低药物研发的周期。通过利用基因的相互作用,设计最短路径的游走方式,发现潜在疾病和药物的潜在关系。
本发明方法包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块,具体如下:
(1)所述的数据采集模块包括:
(1-1)疾病和药物之间相互作用数据:所采集的药物数据对于其涉及的疾病具有相应的治疗作用,该数据将作为测试集来验证所预测的疾病和药物之间的相互作用关系的预测效果;
(1-2)蛋白质和蛋白质之间相互作用数据:所采集的蛋白质和蛋白质之间的相互作用数据中,每种蛋白质为人类蛋白质组中的蛋白质;
(1-3)疾病和基因之间相互作用数据:所采集的疾病和基因之间的每条相互作用数据中,基因为与疾病相关的突变基因;
(1-4)药物和靶点之间相互作用数据:所采集的药物和靶点之间的每条相互作用数据中,靶点为药物所作用的位置。
(2)所述的数据预处理模块,对数据采集模块中的数据进行处理,为疾病和药物之间的关系预测提供数据,包括筛选相互作用数据、构建疾病-基因-药物异质网络,其中:
(2-1)筛选相互作用数据,获得基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据、疾病-药物相互作用数据:
(2-1-1)对于数据采集模块中蛋白质和蛋白质之间相互作用数据,根据编码蛋白的对应基因,形成基因-基因相互作用数据;
(2-1-2)对于数据采集模块中疾病和基因之间相互作用数据中的每种疾病,筛选出与其相关联的、具有全基因组显著性的基因;只保留相互作用组中至少有20个基因参与作用的疾病,确保疾病具有良好的遗传特征,并可能在相互作用组中诱导一个模块,从而形成疾病-基因相互作用数据;
(2-1-3)对于数据采集模块中药物和靶点之间相互作用数据,筛选出来自DrugBank中且经FDA批准的药物,并且除去相互作用组中具有相同作用靶点的药物,形成药物-基因相互作用数据;
(2-1-4)对于数据采集模块中疾病和药物之间相互作用数据,筛选出有适应症信息的作用对,只保留与(2-1-2)、(2-1-3)中疾病、药物相关的相互作用关系,方便对训练出来的疾病和药物之间的关系进行评估,减少无关的疾病-药物作用对的影响,形成疾病-药物相互作用数据;
(2-2)构建疾病-基因-药物异质网络:
将(2-1)中筛选出来的基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据,分别构建相关网络:
对于基因-基因相互作用数据,构建基因-基因网络Ggg=(Vgg,Egg),其中Vgg表示该网络中基因的集合,Egg表示基因与基因之间的连边关系集合;
对于疾病-基因相互作用数据,构建疾病-基因网络Gdig=(Vdig,Edig),其中Edig表示疾病与基因之间的连边关系集合,Vdig表示该网络中疾病和基因节点的集合,分别表示该网络中含有疾病、基因节点的集合;
对于药物-基因相互作用数据,构建药物-基因网络Gdrg=(Vdrg,Edrg),其中Edrg表示药物与基因之间的连边关系集合,Vdrg表示该网络中药物和基因节点的集合,分别表示该网络中含有药物、基因节点的集合;
(2-3)将三种网络Ggg、Gdig、Gdrg合并成疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr),其中Vdigdr表示该网络中疾病基因药物节点的集合, 分别表示节点为疾病、基因、药物的集合,Edigdr表示疾病-基因、基因-基因、药物-基因之间的连边集合,Tdigdr表示类型的集合,包括边的类型/>和节点的类型/> 包括基因-基因类型tegg、药物-基因类型tedrg、疾病-基因类型tedig,即/> 包括基因类型tvg、药物类型tvdr、疾病类型tvdi,即/>
(3)所述的路径设计模块,通过设计基于最短元路径的随机游走序列,形成对疾病-基因-药物异质网络Gdigdr的潜在表达,过程包括形成具有语义的最短元路径策略、寻找基因与基因的最短路径、形成随机游走路径:
(3-1)形成具有语义的最短元路径策略:生物异质网络中疾病与药物间的关系较为稀疏,往往不能够通过疾病-基因及药物靶点的关系直接将两者联系起来;利用基因与基因的最短路径,将疾病与药物相连;通过疾病-基因和基因-药物的关系,构建具有语义的最短元路径策略,使得药物与疾病能够通过最短基因之间的路径相连接,所述策略如下:
A.两个药物同时作用于一个疾病的语义关系:该最短元路径是以药物元素dr为起始节点的元路径,/>疾病元素/>其中,/>表示药物元素dr到疾病元素di间的最短基因路径,/>表示疾病元素di到药物元素dr间的最短基因路径;
B.一个药物治疗两个疾病的语义关系:该最短元路径是以疾病元素di为起始节点的元路径;
(3-2)寻找基因与基因的最短路径:利用基因-基因网络Ggg=(Vgg,Egg),计算Vgg中指定的两个基因间的最短路径,该最短路径中的类型均为基因;
(3-3)形成随机游走路径:利用具有语义的最短元路径策略,设置路径规模、起始节点类型及它的遍历次数形成随机游走路径,具体如下:
在疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr)中,利用具有语义的元路径策略进行游走,即给定一条长度为K的元路径vk∈Vdigdr表示第k个节点,k=1,2,…,K,/>为两个节点之间的关系,即vk与vk+1边的类型;策略下相应的转移概率/>其中,ρ为元路径,/>表示第k个节点的类型,/>N(vk)表示节点vk的下一个符合游走策略ρ的邻居节点集合,φ(vk)为类型函数;
当前vk按照指定的元路径进行节点采样,下一个节点为vk+1。如果vk和vk+1之间不存在连边,则转移概率为0;如果vk和vk+1之间存在连边,但vk+1的类型并不是元路径指定的类型的节点,则转移概率仍然为0;如果vk和vk+1之间存在连边,且节点vk+1的类型符合元路径指定的类型,则设定转移概率/>由此构建疾病-基因-药物异质网络上的转移概率;其中,元路径ρ都是对称的,并且首个节点的类型与末尾节点的类型相同。
具体的随机游走路径过程为:
a.对于(3-1)中的语义关系A,两个药物同时作用于一个疾病的语义关系,其策略为该数据是以药物元素dr为起始节点;
设定路径规模K,首先从Gdigdr中选取节点类型为药物元素dr的节点作为初始节点,根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点,形成路径dr-gdr,其中
随机选择一个节点类型为疾病元素di的节点,根据转移概率选取与疾病元素di相邻的节点类型为基因元素g的节点,形成路径di-gdi
通过gdr、gdi寻找药物元素dr到疾病元素di间的最短基因路径,形成路径合并后得到路径/>
根据游走策略,选择节点类型为药物元素dr的节点,通过相同方式得到路径合并后得到路径/>
以相同方式从药物元素dr往后继续形成路径,直到路径达到规模K,形成随机游走路径;
b.对于(3-1)中的语义关系B,一个药物治疗两个疾病的语义关系,其策略为该数据是以疾病元素di为起始节点;
设定路径规模K,首先从Gdigdr中选取节点类型为疾病元素di的节点作为初始节点,根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点,形成路径di-gdi
随机选择一个节点类型为药物元素dr的节点,根据转移概率选取与药物元素dr相邻的节点类型为基因元素g的节点,形成路径dr-gdr
通过gdi、gdr寻找疾病元素di到药物元素dr间的最短基因路径,形成路径合并后得到路径/>
根据游走策略,选择节点类型为疾病元素di的节点,通过相同方式得到路径合并后得到路径/>
以相同方式从疾病元素di往后继续形成路径,直到路径达到规模K,形成随机游走路径;
c.根据疾病或者药物在网络Gdigdr中的度分布,对于每个初始节点设置其具体的遍历次数N′,形成有偏的随机游走数据;
(4)所述的模型训练模块是利用路径设计模块中的随机游走序列,放入模型中进行训练,从模型中学习疾病-基因-药物异质网络Gdigdr中的拓扑结构,预测出疾病与药物的潜在关系,包括:
(4-1)利用Skip-gram模型进行训练:利用(3-3)中形成的随机游走路径,放入由输入层、相应的映射层以及输出层组成的浅层神经网络模型中,进行训练:
利用Skip-gram模型进行训练,需要在疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr)中,通过在节点v的邻域上最大化条件概率,对异质网络上的节点进行表征:
其中,p(ctv|v;θ)为softmax函数,表示在给定节点v的情况下,节点ctv的条件概率,Xv即矩阵X的第v行矩阵,表示为节点v的嵌入向量,具体来说Xv、Xc、Xu分别表示中心节点、周围节点、负样本节点的嵌入向量;
在训练的过程中,为了提高参数更新的效率,采用负采样:
其中,P(u)表示负样本节点um在M次采样中的预定义分布,σ(x)为可以将一个实数映射到(0,1)区间的sigmod函数,/>(4-2)节点向量化表达:通过设置窗口大小window_size和嵌入向量维度dimensions,训练Skip-gram神经网络模型的权重,将疾病-基因-药物异质网络Gdigdr中的节点映射到向量空间中,最终得到疾病、药物的向量化表达;
(4-3)预测药物-疾病间的相互作用:通过计算每一个疾病向量和药物向量的欧式距离,得到相应的接近度分数,距离越近的疾病-药物关系对越有可能有相应的作用关系,并作为最终的预测结果;计算疾病和药物间的欧式距离方法具体如下:
利用疾病、药物在指定的维度空间上的欧式距离,表征疾病和药物之间的接近度;给定药物节点向量DR、疾病节点向量DI,其欧式距离其中DR、DI分别表示疾病、药物的向量,n表示向量的维度。
(5)所述的结果评估模块,采用混淆矩阵和ROC曲线验证模型的预测效果,对结果进行评估;
所述的混淆矩阵,是用来比较真实值和预测值的差异。对应的二分类的混淆矩阵,通过两行两列的矩阵形式表示,当中每一行表示数据的真实类别,每一列表示数据的预测类别。
所述的ROC曲线,其横坐标为FPR,纵坐标为TPR,是通过设定不同的阈值,计算多组真阳性率TPR和假阳性率FPR构建得出:
将(2-1)整理的疾病-基因相互作用数据作为测试集,其中的相互作用数据标记为正样本;剩下的疾病-药物未知作用连边为负样本;TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性;TP表示为测试集中的正样本被正确预测为正样本的个数,TN表示为测试集中的正样本被预测为负样本的个数,FP表示为测试集中的负样本被预测为正样本的个数,FN表示为测试集中的负样本被正确预测为负样本的个数;
根据模型训练模块的预测结果,绘制ROC曲线并计算AUC,所述的AUC为ROC曲线所覆盖的面积,并寻找最优预测结果下的模型参数;在最优预测模型下,计算出的距离较为接近的疾病药物作用对,预测为存在紧密联系的疾病-药物间的作用关系。
本发明是在一种生物异质网络上基于最短元路径的网络嵌入模型的疾病药物预测方法,以往的基于元路径的方法在数据稀疏的条件下并不能够形成有效的路径,从而无法对稀疏的异质网络进行表征。本发明利用生物系统中基因与基因之间相互作用,提出了具有语义的最短元路径方法,将数据稀疏的疾病和药物数据通过基因间的关系联系起来,解决了稀疏条件下生物异质网络无法有效对作用关系进行预测的问题。该方法可对疾病药物关系进行有效预测,为药物组合治疗研究带来便利。
本发明方法从数据挖掘和异构网络的角度研究疾病和药物间的相互作用,通过构造生物异质网络,利用基因与基因本身、疾病、药物间的相互作用,提出了一种具有语义的最短元路径的网络表示学习方法,通过学习生物异质网络中的拓扑及潜在表达,实现药物和疾病关系的预测。因此,本发明方法能够有效分析生物相关作用数据,并预测疾病和药物间的相互作用,解决了异质网络中数据稀疏无法进行预测的问题,为旧药新用提供科学指导,从一定程度上为药物组合治疗提供依据,降低研发成本。
附图说明
图1是本发明方法流程示意图。
图2是具有“两个药物同时作用于一个疾病”语义关系的最短元路径策略。
图3是具有“一个药物治疗两个疾病”语义关系的最短元路径策略。
具体实施方式
下面结合技术方案和附图,详细说明本发明的具体实施。
现有由13,460个蛋白质构成的141,296条蛋白质与蛋白质间的相互作用数据,299个疾病以及对应涉及到的OMIM、GWAS基因数据,238条来自DrugBank中的药物以及相应的靶点数据,403条疾病和药物的关系数据。
如图1所示,一种基于异质网络嵌入的疾病药物预测方法,包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块,具体如下:
(1)数据采集模块包括:
(1-1)疾病和药物之间相互作用数据:所采集的药物数据对于其涉及的疾病具有相应的治疗作用,该数据将作为测试集来验证所预测的疾病和药物之间的相互作用关系的预测效果;
(1-2)蛋白质和蛋白质之间相互作用数据:所采集的蛋白质和蛋白质之间的相互作用数据中,每种蛋白质为人类蛋白质组中的蛋白质;
(1-3)疾病和基因之间相互作用数据:所采集的疾病和基因之间的每条相互作用数据中,基因为与疾病相关的突变基因;
(1-4)药物和靶点之间相互作用数据:所采集的药物和靶点之间的每条相互作用数据中,靶点为药物所作用的位置;
(2)数据预处理模块是对数据采集模块中的数据进行处理,为疾病和药物之间的关系预测提供数据,包括筛选相互作用数据、构建疾病-基因-药物异质网络,其中:
(2-1)筛选相互作用数据,获得基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据、疾病-药物相互作用数据:
(2-1-1)对于数据采集模块中蛋白质和蛋白质之间相互作用数据,根据编码蛋白的对应基因,形成基因-基因相互作用数据;
(2-1-2)对于数据采集模块中疾病和基因之间相互作用数据中的每种疾病,筛选出与其相关联的、具有全基因组显著性的基因;只保留相互作用组中至少有20个基因参与作用的疾病,确保疾病具有良好的遗传特征,并可能在相互作用组中诱导一个模块,从而形成疾病-基因相互作用数据;
(2-1-3)对于数据采集模块中药物和靶点之间相互作用数据,筛选出来自DrugBank中且经FDA批准的药物,并且除去相互作用组中具有相同作用靶点的药物,形成药物-基因相互作用数据;
(2-1-4)对于数据采集模块中疾病和药物之间相互作用数据,筛选出有相关适应症信息的作用对,只保留与(2-1-2)、(2-1-3)中疾病、药物相关的相互作用关系,方便对训练出来的疾病和药物之间的关系进行评估,减少无关的疾病-药物作用对的影响,形成疾病-药物相互作用数据;
(2-2)构建疾病-基因-药物异质网络:
将(2-1)中筛选出来的基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据,分别构建相关网络:
对于基因-基因相互作用数据,构建基因-基因网络Ggg=(Vgg,Egg),其中Vgg代表该网络中基因的集合,Egg代表基因与基因之间的连边关系集合;
对于疾病-基因相互作用数据,构建疾病-基因网络Gdig=(Vdig,Edig),其中Edig表示疾病与基因之间的连边关系集合,Vdig表示该网络中疾病和基因节点的集合,分别表示该网络中含有疾病、基因节点的集合;
对于药物-基因相互作用数据,构建药物-基因网络Gdrg=(Vdrg,Edrg),其中Edrg表示药物与基因之间的连边关系集合,Vdrg表示该网络中药物和基因节点的集合,分别表示该网络中含有药物、基因节点的集合;
(2-3)将三种网络Ggg、Gdig、Gdrg合并成疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr),其中Vdigdr表示该网络中疾病基因药物节点的集合, 分别表示节点为疾病、基因、药物的集合,Edigdr表示疾病-基因、基因-基因、药物-基因之间的连边集合,Tdigdr表示类型的集合,包括边的类型/>和节点的类型/> 包括基因-基因类型tegg、药物-基因类型tedrg、疾病-基因类型tedig,即/> 包括基因类型tvg、药物类型tvdr、疾病类型tvdi,即/>
(3)通过设计基于最短元路径的随机游走序列,形成对疾病-基因-药物异质网络Gdigdr的潜在表达,其中的过程包括形成具有语义的最短元路径策略、寻找基因与基因的最短路径、形成随机游走路径:
(3-1)形成具有语义的最短元路径策略:生物异质网络中疾病与药物间的关系较为稀疏,往往不能够通过疾病-基因及药物靶点的关系直接将两者联系起来;利用基因与基因的最短路径,将疾病与药物相连,通过疾病-基因和基因-药物的关系,构建具有语义的最短元路径策略,使得药物与疾病能够通过最短基因之间的路径相连接,所述策略如下:
A.如图2所示,两个药物同时作用于一个疾病的语义关系:该最短元路径是以药物元素dr为起始节点的元路径,疾病元素/>其中,/>表示药物元素dr到疾病元素di间的最短基因路径,/>表示疾病元素di到药物元素dr间的最短基因路径;
B.如图3所示,一个药物治疗两个疾病的语义关系:该最短元路径是以疾病元素di为起始节点的元路径;
其中,表示药物元素dr到疾病元素di间的最短基因路径,/>表示疾病元素di到药物元素dr间的最短基因路径;
(3-2)寻找基因与基因的最短路径:利用基因-基因网络Ggg=(Vgg,Egg),计算Vgg中指定的两个基因间的最短路径,该最短路径中的类型均为基因;
(3-3)形成随机游走路径:利用具有语义的最短元路径策略,设置路径规模、起始节点类型及它的遍历次数形成随机游走路径,具体如下:
在疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr)中,利用具有语义的元路径策略进行游走,即给定一条长度为K的元路径vk∈Vdigdr表示第k个节点,k=1,2,…,K,/>为两个节点之间的关系,即vk与vk+1边的类型;策略下相应的转移概率/>
其中,ρ为元路径,表示第k个节点的类型,/>N(vk)表示节点vk的下一个符合游走策略ρ的邻居节点集合,φ(vk)为类型函数;
当前vk按照指定的元路径进行节点采样,下一个节点为vk+1。如果vk和vk+1之间不存在连边,则转移概率为0;如果vk和vk+1之间存在连边,但vk+1的类型并不是元路径指定的类型的节点,则转移概率仍然为0;如果vk和vk+1之间存在连边,且节点vk+1的类型符合元路径指定的类型,则设定转移概率/>由此构建疾病-基因-药物异质网络上的转移概率;其中,元路径ρ都是对称的,并且首个节点的类型与末尾节点的类型相同。
具体的随机游走路径过程为:
a.对于(3-1)中的语义关系A,两个药物同时作用于一个疾病的语义关系,其策略为该数据是以药物元素dr为起始节点;
设定路径规模K,首先从Gdigdr中选取节点类型为药物元素dr的节点作为初始节点,根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点,形成路径dr-gdr
随机选择一个节点类型为疾病元素di的节点,根据转移概率选取与疾病元素di相邻的节点类型为基因元素g的节点,形成路径di-gdi
通过gdr、gdi寻找药物dr到疾病di间的最短基因路径,形成路径合并后得到路径/>
根据游走策略,选择节点类型为药物元素dr的节点,通过相同方式得到路径合并后得到路径/>
以相同方式从药物元素dr往后继续形成路径,直到路径达到规模K,形成随机游走路径;
b.对于(3-1)中的语义关系B,一个药物治疗两个疾病的语义关系,其策略为该数据是以疾病元素di为起始节点;
设定路径规模K,首先从Gdigdr中选取节点类型为疾病元素di的节点作为初始节点,根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点,形成路径di-gdi
随机选择一个节点类型为药物元素dr的节点,根据转移概率选取与药物元素dr相邻的节点类型为基因元素g的节点,形成路径dr-gdr
通过gdi、gdr,寻找疾病元素di到药物元素dr间的最短基因路径,形成路径合并后得到路径/>
根据游走策略,选择节点类型为疾病元素di的节点,通过相同方式得到路径合并后得到路径/>
以相同方式从疾病元素di往后继续形成路径,直到路径达到规模K,形成随机游走路径;
c.根据疾病或者药物在网络Gdigdr中的度分布,对于每个初始节点设置其具体的遍历次数N′,形成有偏的随机游走数据;
(4)利用路径设计模块中的随机游走序列,放入模型中进行训练,从模型中学习疾病-基因-药物异质网络Gdigdr中的拓扑结构,预测出疾病与药物的潜在关系,包括:
(4-1)利用Skip-gram模型进行训练:利用(3-3)中形成的随机游走路径,放入由输入层、相应的映射层以及输出层组成的浅层神经网络模型中,进行训练:
利用Skip-gram模型进行训练,需要在疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr)中,通过在节点v的邻域上最大化条件概率,对异质网络上的节点进行表征:
其中,p(ctv|v;θ)为softmax函数,表示在给定节点v的情况下,节点ctv的条件概率,Xv即矩阵X的第v行矩阵,表示为节点v的嵌入向量,具体来说Xv、Xc、Xu分别表示中心节点、周围节点、负样本节点的嵌入向量;
在训练的过程中,为了提高参数更新的效率,采用负采样:
其中,P(u)表示负样本节点um在M次采样中的预定义分布,σ(x)为可以将一个实数映射到(0,1)区间的sigmod函数,/>(4-2)节点向量化表达:通过设置窗口大小window_size和嵌入向量维度dimensions,训练Skip-gram神经网络模型的权重,将疾病-基因-药物异质网络Gdigdr中的节点映射到向量空间中,最终得到疾病、药物的向量化表达;
(4-3)预测药物-疾病间的相互作用:通过计算每一个疾病向量和药物向量的欧式距离,得到相应的接近度分数,距离越近的疾病-药物关系对越有可能有相应的作用关系,并将它最为最终的预测结果;计算疾病和药物间的欧式距离方法具体如下:
利用疾病、药物在指定的维度空间上的欧式距离,表征疾病和药物之间的接近度;给定药物节点向量DR、疾病节点向量DI,其欧式距离其中DR、DI分别表示疾病、药物的向量,n表示向量的维度。
(5)采用混淆矩阵和ROC曲线验证模型的预测效果,对结果进行评估;
混淆矩阵是用来比较真实值和预测值的差异。对应的二分类的混淆矩阵,通过两行两列的矩阵形式表示,当中每一行代表着数据的真实类别,每一列代表着数据的预测类别。
ROC曲线的横坐标为FPR,纵坐标为TPR,是通过设定不同的阈值,计算多组真阳性率TPR和假阳性率FPR构建得出:
将(2-1)整理的疾病-药物相互作用数据用作测试集,其中的相互作用数据标记为正样本;剩下的疾病-药物未知作用连边为负样本;TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性;TP表示为测试集中的正样本被正确预测为正样本的个数,TN表示为测试集中的正样本被预测为负样本的个数,FP表示为测试集中的负样本被预测为正样本的个数,FN表示为测试集中的负样本被正确预测为负样本的个数;
根据模型训练模块的预测结果,绘制ROC曲线并计算AUC,所述的AUC为ROC曲线所覆盖的面积,并寻找最优预测结果下的模型参数;在最优预测模型下,计算出的距离较为接近的疾病药物作用对,被预测为存在紧密联系的疾病-药物间的作用关系。

Claims (8)

1.一种基于异质网络嵌入模型的疾病药物预测方法,包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块,其特征在于:
(1)所述的数据采集模块包括:疾病和药物之间相互作用数据、蛋白质和蛋白质之间相互作用数据、疾病和基因之间相互作用数据、药物和靶点之间相互作用数据;
(2)所述的数据预处理模块,对数据采集模块中的数据进行处理,为疾病和药物之间的关系预测提供数据,包括筛选相互作用数据、构建疾病-基因-药物异质网络,其中:
(2-1)筛选相互作用数据,获得基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据、疾病-药物相互作用数据:
(2-2)构建疾病-基因-药物异质网络:将(2-1)中筛选出来的基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据,分别构建基因-基因网络、疾病-基因网络、药物-基因网络;
(2-3)将三种网络合并成疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr),其中Vdigdr表示该网络中疾病基因药物节点的集合,分别表示节点为疾病、基因、药物的集合,Edigdr表示疾病-基因、基因-基因、药物-基因之间的连边集合,Tdigdr表示类型的集合,包括边的类型/>和节点的类型/> 包括基因-基因类型tegg、药物-基因类型tedrg、疾病-基因类型tedig,即/> 包括基因类型tvg、药物类型tvdr、疾病类型tvdi,即/>
(3)所述的路径设计模块,通过设计基于最短元路径的随机游走序列,形成对疾病-基因-药物异质网络Gdigdr的潜在表达,过程包括形成具有语义的最短元路径策略、寻找基因与基因的最短路径、形成随机游走路径:
(3-1)形成具有语义的最短元路径策略:生物异质网络中疾病与药物间的关系较为稀疏,往往不能够通过疾病-基因及药物靶点的关系直接将两者联系起来;利用基因与基因的最短路径,将疾病与药物相连;通过疾病-基因和基因-药物的关系,构建具有语义的最短元路径策略,使得药物与疾病能够通过最短基因之间的路径相连接;
(3-2)寻找基因与基因的最短路径:利用基因-基因网络Ggg=(Vgg,Egg),计算网络中基因的集合Vgg中指定的两个基因间的最短路径,该最短路径中的类型均为基因;
(3-3)形成随机游走路径:利用具有语义的最短元路径策略,设置路径规模、起始节点类型及它的遍历次数形成随机游走路径,具体如下:
在疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr)中,利用具有语义的元路径策略进行游走,即给定一条长度为K的元路径vk∈Vdigdr表示第k个节点,k=1,2,…,K,/>为两个节点之间的关系,即vk与vk+1边的类型;策略下相应的转移概率/>其中,ρ为元路径,/>表示第k个节点的类型,/>N(vk)表示节点vk的下一个符合游走策略ρ的邻居节点集合,φ(vk)为类型函数;
当前vk按照指定的元路径进行节点采样,下一个节点为vk+1;如果vk和vk+1之间不存在连边,则转移概率为0;如果vk和vk+1之间存在连边,但vk+1的类型并不是元路径指定的类型的节点,则转移概率仍然为0;如果vk和vk+1之间存在连边,且节点vk+1的类型符合元路径指定的类型,则设定转移概率/>由此构建疾病-基因-药物异质网络上的转移概率;其中,元路径ρ都是对称的,并且首个节点的类型与末尾节点的类型相同;
(4)所述的模型训练模块是利用路径设计模块中的随机游走序列,放入模型中进行训练,从模型中学习疾病-基因-药物异质网络Gdigdr中的拓扑结构,预测出疾病与药物的潜在关系;
(5)所述的结果评估模块,采用混淆矩阵和ROC曲线验证模型的预测效果,对结果进行评估。
2.如权利要求1所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(1)中所述的数据采集模块:
(1-1)疾病和药物之间相互作用数据:所采集的药物数据对于其涉及的疾病具有相应的治疗作用,该数据将作为测试集来验证所预测的疾病和药物之间的相互作用关系的预测效果;
(1-2)蛋白质和蛋白质之间相互作用数据:所采集的蛋白质和蛋白质之间的相互作用数据中,每种蛋白质为人类蛋白质组中的蛋白质;
(1-3)疾病和基因之间相互作用数据:所采集的疾病和基因之间的每条相互作用数据中,基因为与疾病相关的突变基因;
(1-4)药物和靶点之间相互作用数据:所采集的药物和靶点之间的每条相互作用数据中,靶点为药物所作用的位置。
3.如权利要求1所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(2-1)具体是:
(2-1-1)对于数据采集模块中蛋白质和蛋白质之间相互作用数据,根据编码蛋白的对应基因,形成基因-基因相互作用数据;
(2-1-2)对于数据采集模块中疾病和基因之间相互作用数据中的每种疾病,筛选出与其相关联的、具有全基因组显著性的基因;只保留相互作用组中至少有20个基因参与作用的疾病,形成疾病-基因相互作用数据;
(2-1-3)对于数据采集模块中药物和靶点之间相互作用数据,筛选出来自DrugBank中且经FDA批准的药物,并且除去相互作用组中具有相同作用靶点的药物,形成药物-基因相互作用数据;
(2-1-4)对于数据采集模块中疾病和药物之间相互作用数据,只保留与(2-1-2)、(2-1-3)中疾病、药物相关的相互作用关系,形成疾病-药物相互作用数据。
4.如权利要求1、2或3所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(2-2)具体是:
对于基因-基因相互作用数据,构建基因-基因网络Ggg=(Vgg,Egg),其中Vgg表示该网络中基因的集合,Egg表示基因与基因之间的连边关系集合;
对于疾病-基因相互作用数据,构建疾病-基因网络Gdig=(Vdig,Edig),其中Edig表示疾病与基因之间的连边关系集合,Vdig表示该网络中疾病和基因节点的集合,分别表示该网络中含有疾病、基因节点的集合;
对于药物-基因相互作用数据,构建药物-基因网络Gdrg=(Vdrg,Edrg),其中Edrg表示药物与基因之间的连边关系集合,Vdrg表示该网络中药物和基因节点的集合,分别表示该网络中含有药物、基因节点的集合。
5.如权利要求4所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(3-1)所述的最短元路径策略如下:
A.两个药物同时作用于一个疾病的语义关系:该最短元路径是以药物元素dr为起始节点的元路径,/>疾病元素/>其中,/>表示药物元素dr到疾病元素di间的最短基因路径,/>表示疾病元素di到药物元素dr间的最短基因路径;
B.一个药物治疗两个疾病的语义关系:该最短元路径是以疾病元素di为起始节点的元路径。
6.如权利要求5所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(3-3)具体的随机游走路径过程为:
a.对于(3-1)中的语义关系A,两个药物同时作用于一个疾病的语义关系,其策略为该数据是以药物元素dr为起始节点;
设定路径规模K,首先从Gdigdr中选取节点类型为药物元素dr的节点作为初始节点,根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点,形成路径dr-gdr,其中
随机选择一个节点类型为疾病元素di的节点,根据转移概率选取与疾病元素di相邻的节点类型为基因元素g的节点,形成路径di-gdi
通过gdr、gdi寻找药物元素dr到疾病元素di间的最短基因路径,形成路径合并后得到路径/>
根据游走策略,选择节点类型为药物元素dr的节点,通过相同方式得到路径合并后得到路径/>
以相同方式从药物元素dr往后继续形成路径,直到路径达到规模K,形成随机游走路径;
b.对于(3-1)中的语义关系B,一个药物治疗两个疾病的语义关系,其策略为该数据是以疾病元素di为起始节点;
设定路径规模K,首先从Gdigdr中选取节点类型为疾病元素di的节点作为初始节点,根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点,形成路径di-gdi
随机选择一个节点类型为药物元素dr的节点,根据转移概率选取与药物元素dr相邻的节点类型为基因元素g的节点,形成路径dr-gdr
通过gdi、gdr寻找疾病元素di到药物元素dr间的最短基因路径,形成路径合并后得到路径/>
根据游走策略,选择节点类型为疾病元素di的节点,通过相同方式得到路径合并后得到路径/>
以相同方式从疾病元素di往后继续形成路径,直到路径达到规模K,形成随机游走路径;
c.根据疾病或者药物在网络Gdigdr中的度分布,对于每个初始节点设置其具体的遍历次数N′,形成有偏的随机游走数据。
7.如权利要求6所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(4)具体是:
(4-1)利用Skip-gram模型进行训练:利用(3-3)中形成的随机游走路径,放入由输入层、相应的映射层以及输出层组成的浅层神经网络模型中,进行训练:
利用Skip-gram模型进行训练,需要在疾病-基因-药物异质网络Gdigdr=(Vdigdr,Edigdr,Tdigdr)中,通过在节点v的邻域上最大化条件概率,对异质网络上的节点进行表征:
其中,p(ctv|v;θ)为softmax函数,表示在给定节点v的情况下,节点ctv的条件概率,Xv即矩阵X的第v行矩阵,表示为节点v的嵌入向量,具体来说Xv、Xc、Xu分别表示中心节点、周围节点、负样本节点的嵌入向量;
在训练的过程中,为了提高参数更新的效率,采用负采样:
其中,P(u)表示负样本节点um在M次采样中的预定义分布,σ(x)为可以将一个实数映射到(0,1)区间的sigmod函数,/>
(4-2)节点向量化表达:通过设置窗口大小window_size和嵌入向量维度dimensions,训练Skip-gram神经网络模型的权重,将疾病-基因-药物异质网络Gdigdr中的节点映射到向量空间中,最终得到疾病、药物的向量化表达;
(4-3)预测药物-疾病间的相互作用:通过计算每一个疾病向量和药物向量的欧式距离,得到相应的接近度分数,距离越近的疾病-药物关系对越有可能有相应的作用关系,并作为最终的预测结果;计算疾病和药物间的欧式距离方法具体如下:
利用疾病、药物在指定的维度空间上的欧式距离,表征疾病和药物之间的接近度;给定药物节点向量DR、疾病节点向量DI,其欧式距离其中DR、DI分别表示疾病、药物的向量,n表示向量的维度。
8.如权利要求7所述的一种基于异质网络嵌入模型的疾病药物预测方法,其特征在于,(5)中所述的混淆矩阵,是用来比较真实值和预测值的差异;对应的二分类的混淆矩阵,通过两行两列的矩阵形式表示,当中每一行表示数据的真实类别,每一列表示数据的预测类别;
所述的ROC曲线,其横坐标为FPR,纵坐标为TPR,是通过设定不同的阈值,计算多组真阳性率TPR和假阳性率FPR构建得出:
将(2-1)整理的疾病-基因相互作用数据作为测试集,其中的相互作用数据标记为正样本;剩下的疾病-药物未知作用连边为负样本;TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性;TP表示为测试集中的正样本被正确预测为正样本的个数,TN表示为测试集中的正样本被预测为负样本的个数,FP表示为测试集中的负样本被预测为正样本的个数,FN表示为测试集中的负样本被正确预测为负样本的个数;
根据模型训练模块的预测结果,绘制ROC曲线并计算AUC,所述的AUC为ROC曲线所覆盖的面积,并寻找最优预测结果下的模型参数;在最优预测模型下,计算出的距离较为接近的疾病药物作用对,预测为存在紧密联系的疾病-药物间的作用关系。
CN202111671274.XA 2021-12-31 2021-12-31 一种基于异质网络嵌入模型的疾病药物预测方法 Active CN114334038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111671274.XA CN114334038B (zh) 2021-12-31 2021-12-31 一种基于异质网络嵌入模型的疾病药物预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111671274.XA CN114334038B (zh) 2021-12-31 2021-12-31 一种基于异质网络嵌入模型的疾病药物预测方法

Publications (2)

Publication Number Publication Date
CN114334038A CN114334038A (zh) 2022-04-12
CN114334038B true CN114334038B (zh) 2024-05-14

Family

ID=81020071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111671274.XA Active CN114334038B (zh) 2021-12-31 2021-12-31 一种基于异质网络嵌入模型的疾病药物预测方法

Country Status (1)

Country Link
CN (1) CN114334038B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023233396A1 (en) * 2022-05-29 2023-12-07 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University System and method of predicting efficacy of treatment
CN114882960A (zh) * 2022-05-31 2022-08-09 京东方科技集团股份有限公司 药物疾病关联预测方法、装置、电子设备和可读存储介质
CN115938609A (zh) * 2022-12-12 2023-04-07 北京交通大学 融合疗效对比信息的药物重定位方法及系统
CN117133436A (zh) * 2023-10-17 2023-11-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于多源数据融合的药物疾病关联预测方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506591A (zh) * 2017-08-28 2017-12-22 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法
WO2018075332A1 (en) * 2016-10-18 2018-04-26 Arizona Board Of Regents On Behalf Of The University Of Arizona Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy
CN109411033A (zh) * 2018-11-05 2019-03-01 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
CA3100065A1 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
CN111180073A (zh) * 2020-01-15 2020-05-19 杭州师范大学 基于气候因素的脑血管疾病高危人群风险预测方法
WO2020170052A1 (en) * 2019-02-21 2020-08-27 King Abdullah University Of Science And Technology Disease-gene prioritization method and system
CN112308326A (zh) * 2020-11-05 2021-02-02 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法
CN113571125A (zh) * 2021-07-29 2021-10-29 杭州师范大学 基于多层网络与图编码的药物靶点相互作用预测方法
CN113611356A (zh) * 2021-07-29 2021-11-05 湖南大学 一种基于自监督图表征学习的药物重定位预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018075332A1 (en) * 2016-10-18 2018-04-26 Arizona Board Of Regents On Behalf Of The University Of Arizona Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy
CN107506591A (zh) * 2017-08-28 2017-12-22 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法
CA3100065A1 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
CN109411033A (zh) * 2018-11-05 2019-03-01 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
WO2020170052A1 (en) * 2019-02-21 2020-08-27 King Abdullah University Of Science And Technology Disease-gene prioritization method and system
CN111180073A (zh) * 2020-01-15 2020-05-19 杭州师范大学 基于气候因素的脑血管疾病高危人群风险预测方法
CN112308326A (zh) * 2020-11-05 2021-02-02 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法
CN113571125A (zh) * 2021-07-29 2021-10-29 杭州师范大学 基于多层网络与图编码的药物靶点相互作用预测方法
CN113611356A (zh) * 2021-07-29 2021-11-05 湖南大学 一种基于自监督图表征学习的药物重定位预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Laplacian正则化与双向随机游走的药物重定位方法;宋映龙;彭昱忠;;计算机应用与软件;20180712(第07期);全文 *
基于网络方法的疾病基因预测算法分析;吕利;;宝鸡文理学院学报(自然科学版);20170325(第01期);全文 *

Also Published As

Publication number Publication date
CN114334038A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN114334038B (zh) 一种基于异质网络嵌入模型的疾病药物预测方法
CN105653846B (zh) 基于集成的相似性度量和双向随机游走的药物重定位方法
CN106529205B (zh) 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN109411033B (zh) 一种基于复杂网络的药物疗效筛选方法
CN110021341A (zh) 一种基于异构网络的gpcr药物和靶向通路的预测方法
Mitra et al. Genetic networks and soft computing
WO2024011837A1 (zh) 药物筛选方法及系统
CN114649097A (zh) 一种基于图神经网络及组学信息的药物功效预测方法
CN115050428A (zh) 基于深度学习融合分子图及指纹的药物性质预测方法及系统
Thareja et al. A review of data mining optimization techniques for bioinformatics applications
CN113223609B (zh) 基于异质信息网络的药物靶标相互作用预测方法
Chekouo et al. The gibbs-plaid biclustering model
Mandal et al. A study of bio-inspired computing in bioinformatics: a state-of-the-art literature survey
CN110534153B (zh) 基于深度学习的靶标预测系统及其方法
Lai et al. Predicting synthetic lethality in human cancers via multi-graph ensemble neural network
CN111785319B (zh) 基于差异表达数据的药物重定位方法
Wang et al. Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method
Ma et al. Predicting protein-protein interactions based on BP neural network
Abraham et al. Malignancy Transcriptome Analysis, Tools and Deep Learning Methodologies for Prediction of Diseases
Uthayan A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization
Peng et al. Identification of personalized driver genes for individuals using graph convolution network
Shi et al. Semi-supervised learning protein complexes from protein interaction networks
Sun et al. An enhanced LRMC method for drug repositioning via gcn-based HIN embedding
Liu et al. New algorithms in RNA structure prediction based on BHG
Bai et al. A Hybrid Convolutional Network for Prediction of Anti-cancer Drug Response

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant