CN109712678A

CN109712678A - 关系预测方法、装置及电子设备

Info

Publication number: CN109712678A
Application number: CN201811516860.5A
Authority: CN
Inventors: 何松; 伯晓晨; 宋欣雨; 文昱琦; 杨晓曦; 刘祯
Original assignee: Institute of Pharmacology and Toxicology of AMMS
Current assignee: Institute of Pharmacology and Toxicology of AMMS; Academy of Military Medical Sciences AMMS of PLA
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-05-03
Anticipated expiration: 2038-12-12
Also published as: CN109712678B

Abstract

本发明实施例提供一种关系预测方法、装置及电子设备，该关系预测方法包括：分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络；根据融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络构建三元异质网络；对三元异质网络的网络节点进行预测，得到第一关联关系，该第一关联关系包括第一药靶关联关系、第一药病关联关系、第一靶病关联关系。以此能够充分挖掘药物‑靶标‑疾病三元关联关系信息，融合了药物、疾病和靶标多个属性的相似性网络，不会因使用单一属性带来的偏性从而影响预测结果的准确性。

Description

关系预测方法、装置及电子设备

技术领域

本发明涉及数据分析领域，具体而言，涉及一种关系预测方法、装置及电子设备。

背景技术

对于现有的药靶关联关系预测或者药病关联关系预测方法，只使用了药物、靶标、疾病三者中的一种单一属性数据，仅能得到二元关联关系的预测结果，数据分析较为片面，可靠性低。

发明内容

有鉴于此，本发明实施例的目的在于提供一种关系预测方法、装置及电子设备，以提供可靠、全面的预测数据。

第一方面，本发明实施例提供一种关系预测方法，所述方法包括：

分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络；

根据所述融合药物相似性网络、所述融合靶标相似性网络、所述融合疾病相似性网络构建三元异质网络；

对所述三元异质网络的网络节点进行预测，得到第一关联关系，所述第一关联关系包括第一药靶关联关系、第一药病关联关系、第一靶病关联关系。

通过上述方法，充分利用了多源属性数据的互补性，先得到具有多种属性的融合相似性网络，并考虑到了药物、靶标、疾病之间可能存在隐含的关系，构建了三元异质网络，对所述三元异质网络中的网络节点进行预测，挖掘药、靶、病三者之间的关系，相较于仅考虑单一属性的预测方法而言，预测分析结果更为可靠，数据更为全面。

在一个可能的设计中，在所述分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络之前，所述方法还包括：

根据药物、靶标、疾病各自的属性分别建立多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络；

其中，任一药物单属性相似性网络表示为药物×药物的相似性矩阵，所述药物×药物的相似性矩阵中的值表示药物的相似性分数；任一靶标单属性相似性网络表示为靶标×靶标的相似性矩阵，所述靶标×靶标的相似性矩阵中的值表示靶标的相似性分数；任一疾病单属性相似性网络表示为疾病×疾病的相似性矩阵，所述疾病×疾病的相似性矩阵中的值表示疾病的相似性分数。

通过上述方法，提供了一种建立单属性相似性网络的可能的实现方式，能够得到所有药物两两之间的相似性、所有靶标两两之间的相似性、所有疾病两两之间的相似性。

在一个可能的设计中，所述根据药物、靶标、疾病各自的属性分别建立多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络，包括：

对于药物，基于副作用、药物结构、物化性质、治疗属性构建四个药物单属性相似性网络；

对于靶标，基于靶标的共通路、蛋白质-蛋白质相互作用网络的拓扑距离、基因本体论、蛋白质序列构建四个靶标单属性相似性网络；

对于疾病，基于疾病的共通路、疾病本体论、症状构建三个疾病单属性相似性网络。

通过上述方法，考虑到了药物的多种属性、靶标的多种属性、疾病的多种属性，充分利用了多种属性的数据来构建网络，提供了大量可靠的数据基础。

在一个可能的设计中，所述根据所述融合药物相似性网络、所述融合靶标相似性网络、所述融合疾病相似性网络构建三元异质网络，包括：

获取第一数据集中的参考药靶关联关系，根据所述参考药靶关联关系在所述融合药物相似性网络与所述融合靶标相似性网络之间建立连接；

获取第二数据集中的参考靶病关联关系，根据所述参考靶病关联关系在所述融合靶标相似性网络与所述融合疾病相似性网络之间建立连接；

获取第三数据集中的参考药病关联关系，根据所述参考药病关联关系在所述融合药物相似性网络与所述融合疾病相似性网络之间建立连接；

其中，相互连接的所述融合药物相似性网络、所述融合靶标相似性网络、所述融合疾病相似性网络共同形成三元异质网络。

通过上述方法，提供了一种构建三元异质网络的可能的实现方式，通过获取已知的数据集中的多种参考关联关系，以将融合后的多种相似性网络进行连接，得到三元异质网络，基于此网络能够充分挖掘药、靶、病三者之间的关联信息。

在一个可能的设计中，所述对所述三元异质网络的网络节点进行预测，得到第一关联关系，包括：

采用第一预设算法对所述三元异质网络进行迭代计算，在迭代达到稳态分布时得到所述三元异质网络中的多个网络节点之间的第一关联关系；

其中，所述第一关联关系包括作为候选节点的网络节点与作为目标节点的网络节点之间的关联度。

通过上述方法，提供了一种预测方式，通过对三元异质网络进行迭代计算，对于三元异质网络中的目标节点，若是该目标节点存在候选节点，能够在迭代达到稳态时得到该目标节点与候选节点之间的关联度。

在一个可能的设计中，在得到第一关联关系之后，所述方法还包括：

对预测出的所述第一关联关系进行评估，得到评估结果。

由于第一关联关系是预测得到的，为了验证预测结果的可靠性，需要对预测出的关联关系进行评估。

在一个可能的设计中，所述评估结果包括富集分数，所述对预测出的该第一关联关系进行评估，包括：

对于药靶关联关系，将所述第一药靶关联关系与CTD数据库、DGIdb数据库、Matador数据库、STITCH数据库中的药靶关联关系进行富集分析，得到第一富集分数；

对于药病关联关系，将所述第一药病关联关系与CTD数据库、MEDI数据库中的药病关联关系进行富集分析，得到第二富集分数；

对于靶病关联关系，将所述第一靶病关联关系与CTD数据库、Open Targets数据库中的靶病关联关系进行富集分析，得到第三富集分数。

通过上述方法，提供了一种对预测结果进行评估的方式，通过富集分析来评估预测结果，评估结果的可靠性高。

对所述融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络进行聚类分析，获得多个子网络。

基于得到的预测结果，再对融合的相似性网络进行聚类分析，可以得到多个聚类群体，这些聚类群体的内部结构关联性强，获得这些聚类群体有利于从宏观层面上探究各个聚类群体之间潜在的药-靶-病关联关系。

第二方面，本发明实施例提供一种关系预测装置，所述装置包括：

融合相似性网络获得模块，用于分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络；

三元异质网络获得模块，用于根据所述融合药物相似性网络、所述融合靶标相似性网络、所述融合疾病相似性网络构建三元异质网络；

关系预测模块，用于对所述三元异质网络的网络节点进行预测，得到第一关联关系，该第一关联关系包括第一药靶关联关系、第一药病关联关系、第一靶病关联关系。

第三方面，本发明实施例提供一种电子设备，该设备包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面所述的方法的步骤。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的关系预测方法的流程示意图。

图2为本发明实施例提供的关系预测流程示意图。

图3为本发明实施例提供的关系预测装置的功能模块示意图。

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一实施例

本实施例提供一种关系预测方法，请参阅图1，所述方法包括：步骤S11-步骤S13。在执行完步骤S13后，还可以对通过上述步骤得到的模型、预测结果进行验证评估，还可以对实施过程中的多个网络进行聚类分析，在得到预测结果的基础上探究其他可能的关联关系，整个流程可以参阅图2。

下面先结合图1具体介绍本实施例提供的关系预测方法。

步骤S11：分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络。

步骤S12：根据融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络构建三元异质网络。

步骤S13：对三元异质网络的网络节点进行预测，得到第一关联关系，该第一关联关系包括第一药靶关联关系、第一药病关联关系、第一靶病关联关系。

上述方法的优势在于两方面：第一方面，融合了药物、疾病和靶标多个属性的相似性网络，不会因使用单一属性带来的偏性从而影响预测结果的准确性，第二方面，可以同时输出三类结果：药物-靶标的关联关系(第一药靶关联关系)，药物-疾病的关联关系(第一药病关联关系)和疾病-靶标的关联关系(第一靶病关联关系)。

下面将介绍多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络的构建过程，构建过程中充分利用了数据源中的所有药物两两之间的相似性、所有靶标两两之间的相似性、所有疾病两两之间的相似性。

其中，为了充分利用多源属性的数据，因此，在步骤S11之前，所述方法还包括步骤S10：根据药物、靶标、疾病各自的属性分别建立多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络。

其中，任一药物单属性相似性网络表示为药物×药物的相似性矩阵，药物×药物的相似性矩阵中的值表示药物的相似性分数；任一靶标单属性相似性网络表示为靶标×靶标的相似性矩阵，靶标×靶标的相似性矩阵中的值表示靶标的相似性分数；任一疾病单属性相似性网络表示为疾病×疾病的相似性矩阵，疾病×疾病的相似性矩阵中的值表示疾病的相似性分数。

以基于药物副作用的相似性网络构建方式为例，首先从SIDER数据库(一个包含药物副作用信息的数据库)下载药物的副作用数据，然后对每个药物d，用一个多维向量(向量的维度就是副作用的个数)来表示药物d的副作用信息，若该多维向量中的元素为1说明药物d有这个副作用，为0则说明药物d没有这个副作用，然后两个药物d和d’的相似性可以计算为两个向量的Tanimoto系数计算公式请参见式(1)。

式(1)中，E(d)、E(d')分别表示药物d和药物d’的副作用数量，E(d)×E(d')表示该两个药物都有的副作用的数量，最终所有药物两两之间的相似性可以表示为一个药物×药物的相似性矩阵，该矩阵中的值即为药物的相似性分数，基于其他类型数据的药物相似性计算都与特定的数据类型相关，相似性计算方法可能有所区别，但最终都是得到药物×药物的相似性矩阵。同理，对于靶标，得到靶标×靶标相似性矩阵；对于疾病，得到疾病×疾病相似性矩阵。

作为一种实施方式，上述步骤S10具体可以包括：步骤S101-步骤S103。需要说明的是，步骤S101、步骤S102、步骤S103之间可以并列执行，也可以顺序执行，例如先执行步骤S102，在执行步骤S101、步骤S103，也可以先执行步骤S103，在执行步骤S102、步骤S101，这几个步骤之间的顺序不应理解为对本发明的限制。

步骤S101：对于药物，基于副作用、药物结构、物化性质、治疗属性构建四个药物单属性相似性网络。

其中，在药物属性方面，选择了四方面的数据：副作用、结构、物化性质和治疗属性。该治疗属性可以是ATC治疗属性，其中ATC是药物的解剖学、治疗学及化学分类法(Anatomical Therapeutic Chemical)的简称，由世界卫生组织药物统计方法整合中心制定并定期公布。

在一个实例中，药物的副作用数据可以来源于SIDER数据库。构建基于副作用的药物相似性网络方法请参见上述式(1)，药物的副作用数据涉及了1035种药物。

药物的结构数据可用分子指纹表征，药物的结构数据可来源于PubChem数据库(一个包含药物结构信息的数据库)。从数据库官网上下载药物的二维结构文件，该文件包含了每种药物的881维分子指纹特征，然后，使用R语言包ChemmineR来计算、构建基于分子指纹的药物相似性网络，共涉及580种药物。

药物的物化性质数据可来源于DrugBank数据库(一个包含药物物化性质信息的数据库)。可以利用Pybel、JOELib2、ChemmineR这三个工具进行计算分析，提取了所有药物的90维的物化性质，然后利用余弦相似性方法度量药物之间的相似性(请参阅式2)，从而构建基于药物物化性质的相似性网络，共涉及6254种药物。

式(2)中，表示药物c₁、药物c₂之间的物化性质相似系数，表示该两种药物的90维特征向量，和表示特征向量的模。

药物的治疗属性数据可以采用药物的ATC标签表征，药物的治疗属性数据可来源于DrugBank数据库。药物的ATC标签是个具有语义层次性的代码，如ATC代码A10BA02，从左至右表示语义上从高层到低层。假设ATC代码有N层，若两个药物的ATC代码的前f层一样，那么这两个药物的ATC语义相似性程度为f/N。考虑到一个药物有多个ATC代码，药物c₁和药物c₂之间的ATC语义相似性定义如下，请参见式(3)。

式(3)中，表示药物c₁、药物c₂之间的ATC语义相似系数，A(c₁)表示药物c₁的ATC标签，|A(c₁)|表示药物c₁的ATC标签数量，f_i,j表示药物c₁的第i个ATC代码和药物c₂的第j个ATC代码之间相同的层数(从高层到低层)。

以此构建了基于治疗属性语义相似性的药物相似性网络，涉及1502种药物。

对于上述四个单属性的药物相似性网络，可以采用药物的PubChem CID作为药物的唯一标识符，将以上四个单属性的药物相似性网络的药物数据对齐，最终分别得到580种药物在该四种属性上的四个相似性网络。

步骤S102：对于靶标，基于靶标的共通路、蛋白质-蛋白质相互作用网络的拓扑距离、基因本体论、蛋白质序列构建四个靶标单属性相似性网络。

其中，在靶标属性方面，选择了四方面的数据：靶蛋白序列、PPI网络拓扑距离(protein protein interaction network，PPI network，蛋白质-蛋白质相互作用网络，即基于PPI网络上的拓扑距离)、GO语义(Gene Ontology，基因本体论)相似性和靶标的共通路。

在一个实例中，靶标的靶蛋白序列数据来源于UniProt数据库。从数据库官网下载靶蛋白序列数据的FASTA文件，使用标准化的Smith-Waterman分数计算基于药靶蛋白序列的相似性，从而构建了基于蛋白序列相似性的靶标相似性网络，共涉及4177个靶标。

靶标的PPI网络拓扑距离数据来源于2015年发表在Science杂志上的文章，它整合了七个来源的PPI网络数据库，共包含13460个蛋白之间141296对关联关系。然后，使用如下公式(4)计算两个靶标在PPI网络上的拓扑相似性。

式(4)中，表示靶标t₁、靶标t₂之间基于PPI网络的相似性，A、b表示超参数，可以预先设定。D(t₁,t₂)表示靶标t₁、靶标t₂在PPI网络上的距离。

以此构建了基于PPI网络拓扑距离的靶标相似性网络，共涉及3761个靶标。

靶标的GO语义相似性数据来源于Gene Ontology数据库。利用R语言包GOSemSim以计算靶标基于GO的语义相似性，从而构建分别构建基于GO生物过程、细胞组分、分子功能的靶标相似性网络，分别涉及3889、3955和3922个靶标。

靶标的共通路数据来源于CTD数据库中基因与通路的关联关系数据。从该数据库官网上下载10370个靶标与1860条Reactome通路的关联关系，然后利用Jaccard相似性系数度量靶标相似性，从而构建基于共通路的靶标相似性网络，共涉及10370个靶标。其中，靶标的共通路是基于PPI网络得出的，利用的是网络的拓扑信息。

可选地，对于上述六种关于靶标属性的相似性网络，以Entrez ID作为靶标的唯一标识符，将以上六个靶标相似性网络的靶标数据对齐，最终分别得到2681个靶标在四种属性上的六个相似性网络。

步骤S103：对于疾病，基于疾病的共通路、疾病本体论、症状构建三个疾病单属性相似性网络。

其中，在疾病属性方面，选择了三方面的数据：症状、疾病本体论和疾病的共通路。

在一个实例中，疾病的症状数据来源于2014年发表在Nature Communication杂志上的文章，基于PubMed的文本挖掘技术，收集了4219种疾病与322种症状之间的关联关系。并以MeSH编号为疾病的唯一标识符，合并相同的MeSH编号，过滤得到4179种疾病与322种症状之间的关联关系。然后利用余弦相似性方法度量疾病之间的相似性，从而构建基于症状的疾病相似性网络，共涉及4179种疾病。

疾病本体论数据来源于Disease Ontology数据库。从官网上下载上述4179种疾病中在Disease Ontology数据库中收录的疾病本体论描述符，然后将疾病的MeSH编号映射为DO编号，并用R语言包DOSE计算基于疾病本体论的疾病相似性网络，最后再将DO编号映射为MeSH编号，共涉及2322种疾病。

其中，疾病的共通路利用了关于通路的特征向量，通过疾病共有通路数量来衡量疾病相似性。疾病共通路的数据来源于CTD数据库中疾病与通路的关联关系数据。从数据库官网上下载3668种疾病与1836条Reactome通路的关联关系，每一种疾病都有1836维关于通路的特征向量，然后利用Jaccard相似性系数度量疾病相似性(计算公式与上式(1)类似，只需将两种疾病分别对应的通路数量以及该两种疾病共有的通路数量带入式中进行计算即可)，从而构建基于共通路的疾病相似性网络，共涉及3668种疾病。

在得到上述三种关于疾病的相似性网络后，利用MeSH编号对齐上述三种疾病相似性网络中的疾病节点，最终分别得到1132种疾病在三种属性上的三个相似网络。

在完成步骤S101、步骤S102、步骤S103或者以其他形式实现步骤S10后，可以依次执行步骤S11、步骤S12、步骤S13。

通过上述方法，充分利用了多源属性数据的互补性，先得到具有多种属性的融合相似性网络，再构建三元异质网络，考虑到了药物、靶标、疾病之间可能存在隐含的关系，对三元异质网络中的网络节点进行预测，挖掘药、靶、病三者之间的关系，相较于仅考虑单一属性的预测方法而言，预测分析结果更为可靠，数据更为全面。

对于步骤S11，为了充分利用数据的多种不同属性的信息，可以这样实现：将药物对应的四个单属性的相似性网络使用相似性网络融合算法进行融合得到融合药物相似性网络。以同样的原理对疾病对应的三个单属性的相似性网络进行融合、对靶标对应的六个单属性的相似性网络进行融合，得到融合疾病相似性网络、融合靶标相似性网络。本领域技术人员应该知道，相似性网络融合算法是能够将多个不同的相似性网络整合为一个相似性网络的算法。

融合后的相似性网络相较于单属性相似性网络能够提升预测效果。为了探索多源数据融合给预测效果带来了怎样的提升，可以使用单一属性的药物、靶标、疾病相似性网络构建三元异质网络并进行十折交叉验证。一方面，采用单一属性的药物、靶标、疾病相似性网络构建三元异质网络，另一方面，采用将单属性相似性网络融合后的药物、靶标、疾病相似性网络构建三元异质网络。将两种三元异质网络进行交叉验证，验证结果表明：在大部分情况下，单属性的相似性网络预测结果均不如融合的相似性网络预测结果，融合的相似性网络对应的三元异质网络范围更广且更稳定。这说明，将药物、靶标和疾病的多属性经过非线性融合算法整合到一起，能够提升算法的预测准确率。

可选的，对于步骤S12，可以包括步骤S121-步骤S123。

步骤S121：获取第一数据集中的参考药靶关联关系，根据参考药靶关联关系在融合药物相似性网络与融合靶标相似性网络之间建立连接。在一个实例中，在药物-靶标关联关系方面，使用DrugBank数据库中的药-靶关联数据作为第一数据集(金标集)，共2570个靶标与5146个药物之间13218对关联关系。然后将这些用于参考的药-靶信息与上述网络中的药物名称、靶标名称对齐，实现两个网络之间的连接，最终得到涉及420种药物和911个靶标之间880对关联关系。

步骤S122：获取第二数据集中的参考靶病关联关系，根据参考靶病关联关系在融合靶标相似性网络与融合疾病相似性网络之间建立连接。在一个实例中，在靶标-疾病关联关系方面，使用2015年发表在Science杂志上的文章的数据作为第二数据集(金标集)，收录并整理了来源于OMIM和GWAS数据库中致病基因超过20个的疾病与基因关联关系的数据，共298种疾病与3173个基因之间的29754对关联关系。然后将这些用于参考的靶-病信息与上述网络中的靶标名称、疾病名称对齐，实现两个网络之间的连接，最终得到涉及911个靶标和220种疾病之间3830对关联关系。

步骤S123：获取第三数据集中的参考药病关联关系，根据参考药病关联关系在融合药物相似性网络与融合疾病相似性网络之间建立连接。在一个实例中，在药物-疾病关联关系方面，使用2011年发表在Molecular Systems Biology杂志上的文章的数据作为第三数据集(金标集)，收录并整理了来源于以下四方面的药-病关联关系：一，利用UMLS疾病名称，在UMLS系统内直接找到其对应的药物；二，下载https://www.drugs.com/网站的药物-“condition”的关联关系，然后利用MetaMap工具将“condition”对应到UMLS疾病名称；三，下载DailyMed数据库和DrugBank数据库的药物-适应症的关联关系，然后利用MetaMap工具将适应症对应到UMLS疾病名称；四，手动添加了44条四期临床的药-病关联关系。

该第三数据集包含了313种疾病与592种药物之间1933对关联关系。然后将这些用于参考的药-病信息与上述网络中的药物名称、疾病名称对齐，实现两个网络之间的连接，最终得到涉及420种药物和220种疾病之间287对关联关系。

其中，相互连接的融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络共同形成三元异质网络，为了便于理解，这三个融合的相似性网络之间的连接方式可以这样想象：对于步骤S11中的融合药物相似性网络中的某药物节点、融合靶标相似性网络中的某靶标节点，再改两个节点之间建立一条连线，同理，在融合靶标相似性网络中的某靶标节点和融合疾病相似性网络中的某疾病节点之间建立一条连线，连线的依据是参考药靶关联关系、参考药病关联关系、参考靶病关联关系。

可选的，对于步骤S13，可以这样实现：采用第一预设算法对三元异质网络进行迭代计算，在迭代达到稳态分布时得到该三元异质网络中的多个网络节点之间的第一关联关系。其中，该第一关联关系包括作为候选节点的网络节点与作为目标节点的网络节点之间的关联度。

其中，第一预设算法可以是随机游走算法。该算法可以看做是谷歌公司开发的PageRank算法的拓展。该游走算法在本发明中的应用原理如下：从网络图中某一节点起始，原始节点的资源面临两种选择，要么以一定概率选择任一节点扩散，要么返回起始节点。经过数次迭代达到平稳状态，这个稳态的概率分布便可视为起始节点影响力的分布。将随机游走算法应用于药物-靶标-疾病关联关系的预测，能够利用网络的拓扑信息寻找潜在的关联。预测算法的基本假设是：一方面，如果药物c₁和药物c₂相似，其对应的靶标t₁与靶标t₂也具有相似性，那么药物c₁有更大的概率在随机游走过程中跳转到靶标t₂上，这样靶标t₂有更大潜力成为药物c₁的新靶标；另一方面，如果药物c₁与疾病d₁和靶标t₁同时关联，那么疾病d₁有更大的概率在随机游走过程中跳转到靶标t₁上，反之亦然，这样靶标t₁有更大潜力成为疾病d₁的新关联基因。这两方面基本的假设同时考虑了“guilt-by-association”式的关联推断和“A-B-C”式的关联推断，可以有效降低二元关联关系预测中的噪声，提高预测准确率。以药物-靶标关联预测为例，其基本思想是相似的药物倾向于靶向相似的靶标，假设以药物c₂作为起始节点进行随机游走，如果在药物相似性网络中药物c₁和药物c₂相似，而药物c₂又和靶标相似性网络中的靶标t₁相连，那在经过随机游走至稳态分布后，靶标t₁上的概率值可能会最大，则靶标t₁与药物c₂之间即为预测出的潜在关联，即第一药靶关联关系，基于同样的原理能够预测出其他节点的潜在关联，得到第一药病关联关系，第一靶病关联关系。

接下来将阐述基于三元异质网络重启随机游走的关联关系预测算法步骤，利用上述方法得到的所有相似性网络都可以以矩阵形式展现。

根据得到的药物相似性矩阵S_C、靶标相似性矩阵S_T、疾病相似性矩阵S_D，得到的药物-靶标关联关系的邻接矩阵A_CT、疾病-靶标关联关系的邻接矩阵A_DT，药物-疾病关联关系的邻接矩阵A_CD，并依据S_C、S_T、S_D、A_CT、A_DT、A_CD共同形成一个异质网络简称H，其表达式请参阅式(5)。

首先设置初值。假设需要求解药物C_x的候选靶标和候选疾病，那么该三元异质网络的概率初值请参阅式(6)。

式(6)中，为n_C维向量，表示药物节点的初始资源，其中药物节点C_x分得1份资源，即：

为n_T维向量，表示靶标节点的初始资源，与药物节点C_x关联的靶标平均分配1份资源，即：

为n_D维向量，表示疾病节点的初始资源，与药物节点C_x关联的疾病平均分配1份资源，即：

同时，需满足条件α_C+α_T+α_D＝1。

初始资源的表达式为：

那么便有以下几种情况：

(1)若药物C_x没有关联的靶标或疾病，则R₀＝α_C。

(2)若药物C_x只有关联的靶标(或疾病)，没有关联的疾病(或靶标)，则R₀＝α_C+α_T或R₀＝α_C+α_D；

(3)若药物C_x既有关联的靶标，又有关联的疾病，R₀＝α_C+α_T+α_D＝1。

然后在三元异质网络上进行重启随机游走。

假设每一步以概率γ回到0时刻的状态(即重启)，以概率(1-γ)从t时刻转移至t+1时刻，则概率转移矩阵可以经过如下式(8)进行迭代：

其中，W为概率转移矩阵。

假设在随机游走的过程中，节点资源在同质节点之间游走的概率为β，游走到其他网络的概率为1-β，则可能有以下几种情况：

(1)若该药没有关联的靶标或疾病，则β＝1；

(2)若该药只有关联的靶标(或疾病)，没有关联的疾病(或靶标)，则其在药物相似性网络内游走的概率为β，游走到靶标(或疾病)相似性网络的概率为1-β；

(3)若该药既有关联的靶标，又有关联的疾病，则其在药物相似性网络内游走的概率为β，游走到靶标相似性网络的概率为(1-β)/2，游走到疾病相似性网络的概率为(1-β)/2。

总之，在随机游走的过程中，必须保证资源总和保持为R₀不变，才能保证随机游走的收敛。

下面定义W中各子矩阵(以药物节点的游走为例，即计算W_CC、W_CT和W_CD)。概率转移矩阵W定义如下：

记W_CC(i,j)为药物节点C_i游走到药物节点C_j的概率，W_CT(i,j)为药物节点C_i游走到靶标节点T_j的概率，W_CD(i,j)为药物节点C_i游走到疾病节点D_j的概率，则可能存在以下几种情况：

(1)若该药没有关联的靶标或疾病，即∑_kA_CT(i,k)＝0，且∑_kA_CD(i,k)＝0，则

(2)若该药只有关联的靶标(或疾病)，没有关联的疾病(或靶标)，即或则

或者

(3)若该药既有关联的靶标，又有关联的疾病，即∑_kA_CT(i,k)×∑_kA_CD(i,k)≠0，则

这样，利用迭代公式进行计算，直到满足式(13)、式(14)。

此时的即为稳态下药物C_x与其他药物的相似性系数，即为稳态下其他靶标作为药物C_x的候选靶标的概率，即为稳态下其他疾病作为药物C_x的候选疾病的概率。

通过上述方法，提供了一种预测方式，通过对三元异质网络进行迭代计算，对于三元异质网络中的目标节点，若是该目标节点存在候选节点，能够在迭代达到稳态时得到该目标节点与候选节点之间的关联度，关联度可以以相似系数或者概率值来体现。

通过上述方式得到的预测结果可以采用交叉验证法进行验证，例如采用十折交叉验证法、留一法进行评估验证，并采用AUC(Area Under Curve，表示ROC曲线下与坐标轴围成的面积)值，Recall(召回率)等其他相关指标来评估性能。验证表明预测结果准确率高，数据全面。

因此，在得到步骤S13的第一关联关系之后，方法还包括：

步骤S14：对预测出的该第一关联关系进行评估，得到评估结果。其中评估结果可能以AUC值、Recall值、富集分数等形式展现。本领域技术人员可以根据实际需要以选择评估方式，以对预测出的关联关系提供可靠的评估结果。

在一种实施方式中，评估结果包括富集分数，上述步骤S14的评估方式具体可以包括步骤S141-步骤S143。

步骤S141：对于药靶关联关系，将该第一药靶关联关系与CTD数据库、DGIdb数据库、Matador数据库、STITCH数据库中的药靶关联关系进行富集分析，得到第一富集分数。

步骤S142：对于药病关联关系，将该第一药病关联关系与CTD数据库、MEDI数据库中的药病关联关系进行富集分析，得到第二富集分数。

步骤S143：对于靶病关联关系，将该第一靶病关联关系与CTD数据库、OpenTargets数据库中的靶病关联关系进行富集分析，得到第三富集分数。

通过上述方法，提供了一种对预测结果进行评估的方式，通过富集分析来评估预测结果，评估结果的可靠性高。这是因为，由于在构建三元异质网络过程中选择了比较严格的关联关系数据集，有很多常见但不是那么严格的数据集并未用于构建异质网络。为了探究利用本发明的框架预测的关联关系是否显著富集在其他较为不严格的数据集上，通过超几何检验计算富集分数和相应的分布概率P值，验证了预测的关联关系也显著富集在其他生物数据集上(参阅表1、表2、表3)。而为了进行对比，也检验了用于构建三元异质网络的关联数据集是否显著富集在其他数据库上。从该三个表中可以看出，预测的关联关系几乎都显著富集在其他数据集上。这说明框架预测的三元关联关系具有生物学意义，也进一步说明在关联关系的参考数据集(金标集)的选择方面，用比较严格的关联数据集并不会“埋没”其他真实存在但未被收录的关联关系。

表1框架预测的药-靶关联关系在其他数据集上的富集情况

表2框架预测的靶-病关联关系在其他数据集上的富集情况

表3框架预测的药-病关联关系在其他数据集上的富集情况

下面将对验证过程和结果进行具体说明，使用CTD数据库和TTD数据库中的药-靶、靶-病、药-病关联数据作为验证数据集。经过药物、靶标、疾病名称的对齐，最终构建的CTD数据集中包含了1322个药物和18915个靶标之间的245680对关联关系；2882个疾病和1442个药物之间的55142对关联关系；7998个靶标和5682个疾病之间的28656对关联关系。TTD数据库中包含了15660个药物和1434个靶标之间的24298对关联关系；426个疾病和4391个药物之间的5023对关联关系；915个靶标和404个疾病之间的2786对关联关系。

在药-靶关联关系验证方面，采用了DGIdb数据库、Matador数据库、STITCH数据库中的药-靶关联关系。经过药物和靶标名称的对齐，最终构建的DGIdb数据集包含了5119个药物和2292个靶标之间的27628对关联关系；Matador数据集包含了713个药物和1674个靶标之间的9509对关联关系；STITCH数据集包含了580个药物和15392个靶标之间的220126对关联关系。

在药-病关联关系验证方面，采用了MEDI数据库中的药-病关联关系(https://www.vumc.org/cpm/center-precision-medicine-blog/medi-ensemble-medication-indication-resource)。MEDI数据库是基于多种常用药物数据库资源(包括RxNorm、MedlinePlus、SIDER和Wikipedia)并利用自然语言处理技术创建的。从MEDI数据库官网下载了MEDI高精度子集，经过疾病和药物名称的对齐，最终构建的MEDI数据集包含了466个药物和311个疾病之间的1130对关联关系。

在靶-病关联关系验证方面，采用了Open Targets数据库中的靶-病关联关系。Open Targets数据库中的靶-病关联关系数据来源于多种公共数据库，如GWAS、UniProt和ChEMBL等。靶-病关联关系被分为直接和间接两种类型，每对靶-病关联关系被赋予了关联分数用以评价关联的可靠性。上述验证过程只提取了直接的且关联分数为1的靶-病关联关系。经过疾病和药物名称的对齐，最终构建的Open Targets数据集包含了2774个靶标和1189个疾病之间的11409对关联关系。

可选的，为了得到宏观信息，在得到步骤S13的第一关联关系之后，方法还包括步骤S15。

步骤S15：对融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络进行聚类分析，获得多个子网络。

其中，聚类的方式多样，例如可以采用谱聚类，AP算法(Affinity propagation)等聚类算法实现聚类分析。聚类分析后可以得到多个子网络(或称为社团)，形成的多个子网络可以构建meta-network，可以称作元网络，即以相似性网络聚类形成的子网络作为节点，将子网络相互连接。根据构建的meta-network，可以让用户从宏观角度去观察药-靶-病关联关系，进一步探究潜在的药-靶-病关联关系，例如可以实现药物重定位。

下面将举一个例子来说明该过程。例如：在meta-network中，药物子网络19和疾病子网络9之间关联较强。其中，药物子网络19显著富集在神经系统类药物(N类)的ATC标签上，而疾病子网络9显著富集在精神障碍类疾病(F03类)的疾病分类标签上，两者的关联与常识相符。此外，预测出的这两个子网络间的药-病关联关系有19对，其中14对都已经处于临床试验阶段。例如，原本用于治疗抑郁症的药物西酞普兰(Citalopram)被重定位于治疗注意力缺陷多动症；原本用于治疗强迫症和重度抑郁症的药物氯丙咪嗪(Chlorimipramine)被重定位于治疗精神分裂症。

因此，通过上述方法，基于得到的预测结果，再对融合的相似性网络进行聚类分析，可以得到多个聚类群体，这些聚类群体的内部结构关联性强，获得这些聚类群体有利于从宏观层面上探究各个聚类群体之间潜在的药-靶-病关联关系。

需要说明的是，本实施例中的所有实例数据仅作示意，并不能理解为对本实施例的方案的限制。

综上所述，通过本申请实施例提供的关系预测方法，具有以下优点：

融合了药物、疾病和靶标多个属性的相似性网络，不会因使用单一属性带来的偏性从而影响预测结果的准确性。

可以同时输出三类结果：药物-靶标的关联关系，药物-疾病的关联关系和疾病-靶标的关联关系。

针对药物相似性网络、疾病相似性网络和靶标相似性网络进行聚类，进行子网络分析，可以更加深入地挖掘药物、疾病和靶标内部的联系。

第二实施例

本实施例提供一种关系预测装置100，该装置用于执行前述实施例的方法。请参阅图3，该装置包括：融合相似性网络获得模块110、三元异质网络获得模块120、关系预测模块130。

融合相似性网络获得模块110，用于分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络；

三元异质网络获得模块120，用于根据融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络构建三元异质网络；

关系预测模块130，用于对三元异质网络的网络节点进行预测，得到第一关联关系，该第一关联关系包括第一药靶关联关系、第一药病关联关系、第一靶病关联关系。

可选地，关系预测装置100还可以包括单属性网络构建模块，单属性网络构建模块用于根据药物、靶标、疾病各自的属性分别建立多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络。

可选地，单属性网络构建模块具体可以用于：对于药物，基于副作用、药物结构、物化性质、治疗属性构建四个药物单属性相似性网络；对于靶标，基于靶标的共通路、蛋白质-蛋白质相互作用网络的拓扑距离、基因本体论、蛋白质序列构建四个靶标单属性相似性网络；对于疾病，基于疾病的共通路、疾病本体论、症状构建三个疾病单属性相似性网络。

可选地，三元异质网络获得模块120具体可以用于：获取第一数据集中的参考药靶关联关系，根据参考药靶关联关系在融合药物相似性网络与融合靶标相似性网络之间建立连接；获取第二数据集中的参考靶病关联关系，根据参考靶病关联关系在融合靶标相似性网络与融合疾病相似性网络之间建立连接；获取第三数据集中的参考药病关联关系，根据参考药病关联关系在融合药物相似性网络与融合疾病相似性网络之间建立连接。其中，相互连接的融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络共同形成三元异质网络。

可选地，关系预测模块130具体可以用于：采用第一预设算法对三元异质网络进行迭代计算，在迭代达到稳态分布时得到该三元异质网络中的多个网络节点之间的第一关联关系；其中，该第一关联关系包括作为候选节点的网络节点与作为目标节点的网络节点之间的关联度。

可选地，关系预测装置100还可以包括评估模块，评估模块用于对预测出的该第一关联关系进行评估，得到评估结果。

可选地，关系预测装置100还可以包括聚类分析模块，聚类分析模块用于对融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络进行聚类分析，获得多个子网络。

关于本实施例中所述装置的其他细节请进一步参考前述实施例方法的相关描述，在此不再赘述。

通过该装置能够对多源数据进行数据处理，得到三元异质网络，并基于该三元异质网络输出三类关联关系结果，预测准确性高。

第三实施例

本实施例提供一种电子设备200，请参阅图4，该设备包括：处理器210、存储器220和总线，存储器220存储有处理器210可执行的机器可读指令，当电子设备200运行时，处理器210与存储器220之间通过总线通信，机器可读指令被处理器210执行时执行前述实施例所述的关系预测方法或者方法中的任一可能的实现方式的步骤。

在具体实施过程中，该电子设备200还可以包括通讯与网络扩展卡、光纤卡或者多串口通信卡等部件，在此不再赘述。

除了上述实施例以外，本发明实施例还提供了一种计算机存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器210运行时执行第一实施例所述的方法中的各个步骤。

存储介质包括：U盘、移动硬盘、存储器、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种关系预测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在所述分别对多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络进行融合，得到融合药物相似性网络、融合靶标相似性网络、融合疾病相似性网络之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述根据药物、靶标、疾病各自的属性分别建立多个药物单属性相似性网络、多个靶标单属性相似性网络、多个疾病单属性相似性网络，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述融合药物相似性网络、所述融合靶标相似性网络、所述融合疾病相似性网络构建三元异质网络，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述三元异质网络的网络节点进行预测，得到第一关联关系，包括：

6.如权利要求1所述的方法，其特征在于，在得到第一关联关系之后，所述方法还包括：

对预测出的所述第一关联关系进行评估，得到评估结果。

7.如权利要求6所述的方法，其特征在于，所述评估结果包括富集分数，所述对预测出的所述第一关联关系进行评估，包括：

8.如权利要求1所述的方法，其特征在于，在得到第一关联关系之后，所述方法还包括：

9.一种关系预测装置，其特征在于，所述装置包括：

关系预测模块，用于对所述三元异质网络的网络节点进行预测，得到第一关联关系，所述第一关联关系包括第一药靶关联关系、第一药病关联关系、第一靶病关联关系。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一项所述的方法的步骤。