CN114334038B

CN114334038B - 一种基于异质网络嵌入模型的疾病药物预测方法

Info

Publication number: CN114334038B
Application number: CN202111671274.XA
Authority: CN
Inventors: 刘闯; 姚旭; 詹秀秀; 张子柯
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-05-14
Anticipated expiration: 2041-12-31
Also published as: CN114334038A

Abstract

本发明公开了一种基于异质网络嵌入模型的疾病药物预测方法。本发明方法包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块。数据采集和数据预处理模块通过疾病、基因、药物之间的相互作用数据采集，构建疾病‑基因‑药物异质网络。路径设计模块通过最短元路径策略，寻找基因与基因的最短路径，形成随机游走路径。模型训练模块对随机游走数据通过模型训练，形成向量化表达，通过欧式距离预测药物和疾病间的相互作用。结果评估模块采用基于混淆矩阵的ROC曲线，对预测效果评估，通过优化模型选取最佳的预测效果。本发明方法通过学习生物异质网络中的拓扑及潜在表达，实现了药物和疾病关系的预测。

Description

一种基于异质网络嵌入模型的疾病药物预测方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于异质网络嵌入模型的疾病药物预测方法。

背景技术

药物的开发是一个艰难的过程，往往具有很大的代价，具有复杂、耗时、昂贵这三种特性。尽管近年来生物医学和制药研究领域的投资资金大幅增加，但是美国食品药物监管局(Food and Drug Administration)每年经过批准的新疗法数量有限。导致FDA的新药批准进度缓慢的因素有很多，而“一个基因、一种药物、一种疾病”这种经典的药物开发假说是最为关键且常被忽略的重要因素。因此需要从生物系统中的多个角度去研究，探索复杂疾病间的相互作用，才能有效地进行药物研发。药物靶点、疾病基因的作用并不是孤立存在的，它们常常与构成其所关联细胞分子机制的复杂蛋白质系统相联系。对于每个药物-靶点、疾病-基因的相互作用，应当在适当的综合背景下进行研究。

复杂疾病通常不仅限于单基因缺陷，大部分疾病往往会涉及到不同基因组协同功能的破坏。因此，将药物开发的重点从携带疾病相关突变的单个基因转移到整个疾病网络中，并利用已有的药物靶点、疾病基因作用关系，探索相关作用机制，能够提高药物利用效率，准确的挖掘出疾病和药物之间的潜在关系，实现旧药新用。

发明内容

本发明的目的是提供一种基于异质网络嵌入模型的疾病药物预测方法，解决数据稀疏的生物异质网络不能利用元路径对异类节点进行关系预测的问题，同时该发明能够消除临床试验的随机性，降低药物研发的周期。通过利用基因的相互作用，设计最短路径的游走方式，发现潜在疾病和药物的潜在关系。

本发明方法包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块，具体如下：

(1)所述的数据采集模块包括：

(1-1)疾病和药物之间相互作用数据：所采集的药物数据对于其涉及的疾病具有相应的治疗作用，该数据将作为测试集来验证所预测的疾病和药物之间的相互作用关系的预测效果；

(1-2)蛋白质和蛋白质之间相互作用数据：所采集的蛋白质和蛋白质之间的相互作用数据中，每种蛋白质为人类蛋白质组中的蛋白质；

(1-3)疾病和基因之间相互作用数据：所采集的疾病和基因之间的每条相互作用数据中，基因为与疾病相关的突变基因；

(1-4)药物和靶点之间相互作用数据：所采集的药物和靶点之间的每条相互作用数据中，靶点为药物所作用的位置。

(2)所述的数据预处理模块，对数据采集模块中的数据进行处理，为疾病和药物之间的关系预测提供数据，包括筛选相互作用数据、构建疾病-基因-药物异质网络，其中：

(2-1)筛选相互作用数据，获得基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据、疾病-药物相互作用数据：

(2-1-1)对于数据采集模块中蛋白质和蛋白质之间相互作用数据，根据编码蛋白的对应基因，形成基因-基因相互作用数据；

(2-1-2)对于数据采集模块中疾病和基因之间相互作用数据中的每种疾病，筛选出与其相关联的、具有全基因组显著性的基因；只保留相互作用组中至少有20个基因参与作用的疾病，确保疾病具有良好的遗传特征，并可能在相互作用组中诱导一个模块，从而形成疾病-基因相互作用数据；

(2-1-3)对于数据采集模块中药物和靶点之间相互作用数据，筛选出来自DrugBank中且经FDA批准的药物，并且除去相互作用组中具有相同作用靶点的药物，形成药物-基因相互作用数据；

(2-1-4)对于数据采集模块中疾病和药物之间相互作用数据，筛选出有适应症信息的作用对，只保留与(2-1-2)、(2-1-3)中疾病、药物相关的相互作用关系，方便对训练出来的疾病和药物之间的关系进行评估，减少无关的疾病-药物作用对的影响，形成疾病-药物相互作用数据；

(2-2)构建疾病-基因-药物异质网络：

将(2-1)中筛选出来的基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据，分别构建相关网络：

对于基因-基因相互作用数据，构建基因-基因网络G_gg＝(V_gg,E_gg)，其中V_gg表示该网络中基因的集合，E_gg表示基因与基因之间的连边关系集合；

对于疾病-基因相互作用数据，构建疾病-基因网络G_dig＝(V_dig,E_dig)，其中E_dig表示疾病与基因之间的连边关系集合，V_dig表示该网络中疾病和基因节点的集合，分别表示该网络中含有疾病、基因节点的集合；

对于药物-基因相互作用数据，构建药物-基因网络G_drg＝(V_drg,E_drg)，其中E_drg表示药物与基因之间的连边关系集合，V_drg表示该网络中药物和基因节点的集合，分别表示该网络中含有药物、基因节点的集合；

(2-3)将三种网络G_gg、G_dig、G_drg合并成疾病-基因-药物异质网络G_digdr＝(V_digdr,E_digdr,T_digdr)，其中V_digdr表示该网络中疾病基因药物节点的集合，分别表示节点为疾病、基因、药物的集合，E_digdr表示疾病-基因、基因-基因、药物-基因之间的连边集合，T_digdr表示类型的集合，包括边的类型/>和节点的类型/> 包括基因-基因类型tegg、药物-基因类型tedrg、疾病-基因类型tedig，即/> 包括基因类型tvg、药物类型tvdr、疾病类型tvdi，即/>

(3)所述的路径设计模块，通过设计基于最短元路径的随机游走序列，形成对疾病-基因-药物异质网络G_digdr的潜在表达，过程包括形成具有语义的最短元路径策略、寻找基因与基因的最短路径、形成随机游走路径：

(3-1)形成具有语义的最短元路径策略：生物异质网络中疾病与药物间的关系较为稀疏，往往不能够通过疾病-基因及药物靶点的关系直接将两者联系起来；利用基因与基因的最短路径，将疾病与药物相连；通过疾病-基因和基因-药物的关系，构建具有语义的最短元路径策略，使得药物与疾病能够通过最短基因之间的路径相连接，所述策略如下：

A.两个药物同时作用于一个疾病的语义关系：该最短元路径是以药物元素dr为起始节点的元路径，/>疾病元素/>其中，/>表示药物元素dr到疾病元素di间的最短基因路径，/>表示疾病元素di到药物元素dr间的最短基因路径；

B.一个药物治疗两个疾病的语义关系：该最短元路径是以疾病元素di为起始节点的元路径；

(3-2)寻找基因与基因的最短路径：利用基因-基因网络G_gg＝(V_gg,E_gg)，计算V_gg中指定的两个基因间的最短路径，该最短路径中的类型均为基因；

(3-3)形成随机游走路径：利用具有语义的最短元路径策略，设置路径规模、起始节点类型及它的遍历次数形成随机游走路径，具体如下：

在疾病-基因-药物异质网络G_digdr＝(V_digdr,E_digdr,T_digdr)中，利用具有语义的元路径策略进行游走，即给定一条长度为K的元路径v_k∈V_digdr表示第k个节点，k＝1,2,…,K，/>为两个节点之间的关系，即v_k与v_k+1边的类型；策略下相应的转移概率/>其中，ρ为元路径，/>表示第k个节点的类型,/>N(v_k)表示节点v_k的下一个符合游走策略ρ的邻居节点集合，φ(v_k)为类型函数；

当前v_k按照指定的元路径进行节点采样，下一个节点为v_k+1。如果v_k和v_k+1之间不存在连边，则转移概率为0；如果v_k和v_k+1之间存在连边，但v_k+1的类型并不是元路径指定的类型的节点，则转移概率仍然为0；如果v_k和v_k+1之间存在连边，且节点v_k+1的类型符合元路径指定的类型，则设定转移概率/>由此构建疾病-基因-药物异质网络上的转移概率；其中，元路径ρ都是对称的，并且首个节点的类型与末尾节点的类型相同。

具体的随机游走路径过程为：

a.对于(3-1)中的语义关系A，两个药物同时作用于一个疾病的语义关系，其策略为该数据是以药物元素dr为起始节点；

设定路径规模K，首先从G_digdr中选取节点类型为药物元素dr的节点作为初始节点，根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点，形成路径dr-g_dr，其中

随机选择一个节点类型为疾病元素di的节点，根据转移概率选取与疾病元素di相邻的节点类型为基因元素g的节点，形成路径di-g_di；

通过g_dr、g_di寻找药物元素dr到疾病元素di间的最短基因路径，形成路径合并后得到路径/>

根据游走策略，选择节点类型为药物元素dr的节点，通过相同方式得到路径合并后得到路径/>

以相同方式从药物元素dr往后继续形成路径，直到路径达到规模K，形成随机游走路径；

b.对于(3-1)中的语义关系B，一个药物治疗两个疾病的语义关系，其策略为该数据是以疾病元素di为起始节点；

设定路径规模K，首先从G_digdr中选取节点类型为疾病元素di的节点作为初始节点，根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点，形成路径di-g_di；

随机选择一个节点类型为药物元素dr的节点，根据转移概率选取与药物元素dr相邻的节点类型为基因元素g的节点，形成路径dr-g_dr；

通过g_di、g_dr寻找疾病元素di到药物元素dr间的最短基因路径，形成路径合并后得到路径/>

根据游走策略，选择节点类型为疾病元素di的节点，通过相同方式得到路径合并后得到路径/>

以相同方式从疾病元素di往后继续形成路径，直到路径达到规模K，形成随机游走路径；

c.根据疾病或者药物在网络G_digdr中的度分布，对于每个初始节点设置其具体的遍历次数N′，形成有偏的随机游走数据；

(4)所述的模型训练模块是利用路径设计模块中的随机游走序列，放入模型中进行训练，从模型中学习疾病-基因-药物异质网络G_digdr中的拓扑结构，预测出疾病与药物的潜在关系，包括：

(4-1)利用Skip-gram模型进行训练：利用(3-3)中形成的随机游走路径，放入由输入层、相应的映射层以及输出层组成的浅层神经网络模型中，进行训练：

利用Skip-gram模型进行训练，需要在疾病-基因-药物异质网络G_digdr＝(V_digdr,E_digdr,T_digdr)中，通过在节点v的邻域上最大化条件概率，对异质网络上的节点进行表征：

其中，p(c^tv|v；θ)为softmax函数，表示在给定节点v的情况下，节点c^tv的条件概率，X_v即矩阵X的第v行矩阵，表示为节点v的嵌入向量，具体来说X_v、X_c、X_u分别表示中心节点、周围节点、负样本节点的嵌入向量；

在训练的过程中，为了提高参数更新的效率，采用负采样：

其中，P(u)表示负样本节点u^m在M次采样中的预定义分布，σ(x)为可以将一个实数映射到(0,1)区间的sigmod函数，/>(4-2)节点向量化表达：通过设置窗口大小window_size和嵌入向量维度dimensions，训练Skip-gram神经网络模型的权重，将疾病-基因-药物异质网络G_digdr中的节点映射到向量空间中，最终得到疾病、药物的向量化表达；

(4-3)预测药物-疾病间的相互作用：通过计算每一个疾病向量和药物向量的欧式距离，得到相应的接近度分数，距离越近的疾病-药物关系对越有可能有相应的作用关系，并作为最终的预测结果；计算疾病和药物间的欧式距离方法具体如下：

利用疾病、药物在指定的维度空间上的欧式距离，表征疾病和药物之间的接近度；给定药物节点向量DR、疾病节点向量DI，其欧式距离其中DR、DI分别表示疾病、药物的向量，n表示向量的维度。

(5)所述的结果评估模块，采用混淆矩阵和ROC曲线验证模型的预测效果，对结果进行评估；

所述的混淆矩阵，是用来比较真实值和预测值的差异。对应的二分类的混淆矩阵，通过两行两列的矩阵形式表示，当中每一行表示数据的真实类别，每一列表示数据的预测类别。

所述的ROC曲线，其横坐标为FPR，纵坐标为TPR，是通过设定不同的阈值，计算多组真阳性率TPR和假阳性率FPR构建得出：

将(2-1)整理的疾病-基因相互作用数据作为测试集，其中的相互作用数据标记为正样本；剩下的疾病-药物未知作用连边为负样本；TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性；TP表示为测试集中的正样本被正确预测为正样本的个数，TN表示为测试集中的正样本被预测为负样本的个数，FP表示为测试集中的负样本被预测为正样本的个数，FN表示为测试集中的负样本被正确预测为负样本的个数；

根据模型训练模块的预测结果，绘制ROC曲线并计算AUC，所述的AUC为ROC曲线所覆盖的面积，并寻找最优预测结果下的模型参数；在最优预测模型下，计算出的距离较为接近的疾病药物作用对，预测为存在紧密联系的疾病-药物间的作用关系。

本发明是在一种生物异质网络上基于最短元路径的网络嵌入模型的疾病药物预测方法，以往的基于元路径的方法在数据稀疏的条件下并不能够形成有效的路径，从而无法对稀疏的异质网络进行表征。本发明利用生物系统中基因与基因之间相互作用，提出了具有语义的最短元路径方法，将数据稀疏的疾病和药物数据通过基因间的关系联系起来，解决了稀疏条件下生物异质网络无法有效对作用关系进行预测的问题。该方法可对疾病药物关系进行有效预测，为药物组合治疗研究带来便利。

本发明方法从数据挖掘和异构网络的角度研究疾病和药物间的相互作用，通过构造生物异质网络，利用基因与基因本身、疾病、药物间的相互作用，提出了一种具有语义的最短元路径的网络表示学习方法，通过学习生物异质网络中的拓扑及潜在表达，实现药物和疾病关系的预测。因此，本发明方法能够有效分析生物相关作用数据，并预测疾病和药物间的相互作用，解决了异质网络中数据稀疏无法进行预测的问题，为旧药新用提供科学指导，从一定程度上为药物组合治疗提供依据，降低研发成本。

附图说明

图1是本发明方法流程示意图。

图2是具有“两个药物同时作用于一个疾病”语义关系的最短元路径策略。

图3是具有“一个药物治疗两个疾病”语义关系的最短元路径策略。

具体实施方式

下面结合技术方案和附图，详细说明本发明的具体实施。

现有由13,460个蛋白质构成的141,296条蛋白质与蛋白质间的相互作用数据，299个疾病以及对应涉及到的OMIM、GWAS基因数据，238条来自DrugBank中的药物以及相应的靶点数据，403条疾病和药物的关系数据。

如图1所示，一种基于异质网络嵌入的疾病药物预测方法，包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块，具体如下：

(1)数据采集模块包括：

(1-4)药物和靶点之间相互作用数据：所采集的药物和靶点之间的每条相互作用数据中，靶点为药物所作用的位置；

(2)数据预处理模块是对数据采集模块中的数据进行处理，为疾病和药物之间的关系预测提供数据，包括筛选相互作用数据、构建疾病-基因-药物异质网络，其中：

(2-1-4)对于数据采集模块中疾病和药物之间相互作用数据，筛选出有相关适应症信息的作用对，只保留与(2-1-2)、(2-1-3)中疾病、药物相关的相互作用关系，方便对训练出来的疾病和药物之间的关系进行评估，减少无关的疾病-药物作用对的影响，形成疾病-药物相互作用数据；

(2-2)构建疾病-基因-药物异质网络：

对于基因-基因相互作用数据，构建基因-基因网络G_gg＝(V_gg,E_gg)，其中V_gg代表该网络中基因的集合，E_gg代表基因与基因之间的连边关系集合；

(3)通过设计基于最短元路径的随机游走序列，形成对疾病-基因-药物异质网络G_digdr的潜在表达，其中的过程包括形成具有语义的最短元路径策略、寻找基因与基因的最短路径、形成随机游走路径：

(3-1)形成具有语义的最短元路径策略：生物异质网络中疾病与药物间的关系较为稀疏，往往不能够通过疾病-基因及药物靶点的关系直接将两者联系起来；利用基因与基因的最短路径，将疾病与药物相连，通过疾病-基因和基因-药物的关系，构建具有语义的最短元路径策略，使得药物与疾病能够通过最短基因之间的路径相连接，所述策略如下：

A.如图2所示，两个药物同时作用于一个疾病的语义关系：该最短元路径是以药物元素dr为起始节点的元路径，疾病元素/>其中，/>表示药物元素dr到疾病元素di间的最短基因路径，/>表示疾病元素di到药物元素dr间的最短基因路径；

B.如图3所示，一个药物治疗两个疾病的语义关系：该最短元路径是以疾病元素di为起始节点的元路径；

其中，表示药物元素dr到疾病元素di间的最短基因路径，/>表示疾病元素di到药物元素dr间的最短基因路径；

在疾病-基因-药物异质网络G_digdr＝(V_digdr,E_digdr,T_digdr)中，利用具有语义的元路径策略进行游走，即给定一条长度为K的元路径v_k∈V_digdr表示第k个节点，k＝1,2,…,K，/>为两个节点之间的关系，即v_k与v_k+1边的类型；策略下相应的转移概率/>

其中，ρ为元路径，表示第k个节点的类型,/>N(v_k)表示节点v_k的下一个符合游走策略ρ的邻居节点集合，φ(v_k)为类型函数；

具体的随机游走路径过程为：

设定路径规模K，首先从G_digdr中选取节点类型为药物元素dr的节点作为初始节点，根据转移概率选取与初始节点相邻的节点类型为基因元素g的节点，形成路径dr-g_dr；

通过g_dr、g_di寻找药物dr到疾病di间的最短基因路径，形成路径合并后得到路径/>

通过g_di、g_dr，寻找疾病元素di到药物元素dr间的最短基因路径，形成路径合并后得到路径/>

(4)利用路径设计模块中的随机游走序列，放入模型中进行训练，从模型中学习疾病-基因-药物异质网络G_digdr中的拓扑结构，预测出疾病与药物的潜在关系，包括：

在训练的过程中，为了提高参数更新的效率，采用负采样：

(4-3)预测药物-疾病间的相互作用：通过计算每一个疾病向量和药物向量的欧式距离，得到相应的接近度分数，距离越近的疾病-药物关系对越有可能有相应的作用关系，并将它最为最终的预测结果；计算疾病和药物间的欧式距离方法具体如下：

(5)采用混淆矩阵和ROC曲线验证模型的预测效果，对结果进行评估；

混淆矩阵是用来比较真实值和预测值的差异。对应的二分类的混淆矩阵，通过两行两列的矩阵形式表示，当中每一行代表着数据的真实类别，每一列代表着数据的预测类别。

ROC曲线的横坐标为FPR，纵坐标为TPR，是通过设定不同的阈值，计算多组真阳性率TPR和假阳性率FPR构建得出：

将(2-1)整理的疾病-药物相互作用数据用作测试集，其中的相互作用数据标记为正样本；剩下的疾病-药物未知作用连边为负样本；TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性；TP表示为测试集中的正样本被正确预测为正样本的个数，TN表示为测试集中的正样本被预测为负样本的个数，FP表示为测试集中的负样本被预测为正样本的个数，FN表示为测试集中的负样本被正确预测为负样本的个数；

根据模型训练模块的预测结果，绘制ROC曲线并计算AUC，所述的AUC为ROC曲线所覆盖的面积，并寻找最优预测结果下的模型参数；在最优预测模型下，计算出的距离较为接近的疾病药物作用对，被预测为存在紧密联系的疾病-药物间的作用关系。

Claims

1.一种基于异质网络嵌入模型的疾病药物预测方法，包括数据采集模块、数据预处理模块、路径设计模块、模型训练模块、结果评估模块，其特征在于：

(1)所述的数据采集模块包括：疾病和药物之间相互作用数据、蛋白质和蛋白质之间相互作用数据、疾病和基因之间相互作用数据、药物和靶点之间相互作用数据；

(2-2)构建疾病-基因-药物异质网络：将(2-1)中筛选出来的基因-基因相互作用数据、疾病-基因相互作用数据、药物-基因相互作用数据，分别构建基因-基因网络、疾病-基因网络、药物-基因网络；

(2-3)将三种网络合并成疾病-基因-药物异质网络G_digdr＝(V_digdr,E_digdr,T_digdr)，其中V_digdr表示该网络中疾病基因药物节点的集合，分别表示节点为疾病、基因、药物的集合，E_digdr表示疾病-基因、基因-基因、药物-基因之间的连边集合，T_digdr表示类型的集合，包括边的类型/>和节点的类型/> 包括基因-基因类型tegg、药物-基因类型tedrg、疾病-基因类型tedig，即/> 包括基因类型tvg、药物类型tvdr、疾病类型tvdi，即/>

(3-1)形成具有语义的最短元路径策略：生物异质网络中疾病与药物间的关系较为稀疏，往往不能够通过疾病-基因及药物靶点的关系直接将两者联系起来；利用基因与基因的最短路径，将疾病与药物相连；通过疾病-基因和基因-药物的关系，构建具有语义的最短元路径策略，使得药物与疾病能够通过最短基因之间的路径相连接；

(3-2)寻找基因与基因的最短路径：利用基因-基因网络G_gg＝(V_gg,E_gg)，计算网络中基因的集合V_gg中指定的两个基因间的最短路径，该最短路径中的类型均为基因；

当前v_k按照指定的元路径进行节点采样，下一个节点为v_k+1；如果v_k和v_k+1之间不存在连边，则转移概率为0；如果v_k和v_k+1之间存在连边，但v_k+1的类型并不是元路径指定的类型的节点，则转移概率仍然为0；如果v_k和v_k+1之间存在连边，且节点v_k+1的类型符合元路径指定的类型，则设定转移概率/>由此构建疾病-基因-药物异质网络上的转移概率；其中，元路径ρ都是对称的，并且首个节点的类型与末尾节点的类型相同；

(4)所述的模型训练模块是利用路径设计模块中的随机游走序列，放入模型中进行训练，从模型中学习疾病-基因-药物异质网络G_digdr中的拓扑结构，预测出疾病与药物的潜在关系；

(5)所述的结果评估模块，采用混淆矩阵和ROC曲线验证模型的预测效果，对结果进行评估。

2.如权利要求1所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(1)中所述的数据采集模块：

3.如权利要求1所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(2-1)具体是：

(2-1-2)对于数据采集模块中疾病和基因之间相互作用数据中的每种疾病，筛选出与其相关联的、具有全基因组显著性的基因；只保留相互作用组中至少有20个基因参与作用的疾病，形成疾病-基因相互作用数据；

(2-1-4)对于数据采集模块中疾病和药物之间相互作用数据，只保留与(2-1-2)、(2-1-3)中疾病、药物相关的相互作用关系，形成疾病-药物相互作用数据。

4.如权利要求1、2或3所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(2-2)具体是：

对于药物-基因相互作用数据，构建药物-基因网络G_drg＝(V_drg,E_drg)，其中E_drg表示药物与基因之间的连边关系集合，V_drg表示该网络中药物和基因节点的集合，分别表示该网络中含有药物、基因节点的集合。

5.如权利要求4所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(3-1)所述的最短元路径策略如下：

B.一个药物治疗两个疾病的语义关系：该最短元路径是以疾病元素di为起始节点的元路径。

6.如权利要求5所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(3-3)具体的随机游走路径过程为：

c.根据疾病或者药物在网络G_digdr中的度分布，对于每个初始节点设置其具体的遍历次数N′，形成有偏的随机游走数据。

7.如权利要求6所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(4)具体是：

在训练的过程中，为了提高参数更新的效率，采用负采样：

其中，P(u)表示负样本节点u^m在M次采样中的预定义分布，σ(x)为可以将一个实数映射到(0,1)区间的sigmod函数，/>

(4-2)节点向量化表达：通过设置窗口大小window_size和嵌入向量维度dimensions，训练Skip-gram神经网络模型的权重，将疾病-基因-药物异质网络G_digdr中的节点映射到向量空间中，最终得到疾病、药物的向量化表达；

8.如权利要求7所述的一种基于异质网络嵌入模型的疾病药物预测方法，其特征在于，(5)中所述的混淆矩阵，是用来比较真实值和预测值的差异；对应的二分类的混淆矩阵，通过两行两列的矩阵形式表示，当中每一行表示数据的真实类别，每一列表示数据的预测类别；