CN116434976A

CN116434976A - 一种融合多源知识图谱的药物重定位方法和系统

Info

Publication number: CN116434976A
Application number: CN202211713801.3A
Authority: CN
Inventors: 杨林瑶; 陈红阳
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-07-14

Abstract

一种融合多源知识图谱的药物重定位方法，包括：步骤1：采集多语种、多源生物医药数据，构建多源生物医药知识图谱；步骤2：基于多语种预训练模型获取实体初始表征向量，通过实体对齐构建不同知识图谱之间的对齐锚链；步骤3：利用关系感知图注意力网络聚合各知识图谱内部的信息，基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量；步骤4：将最完备知识图谱所得实体表示向量输入多层感知机分类模型，对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练；步骤5：对训练好的多层感知机分类模型输入给定药物‑疾病实体对，得到药物重定位预测。本发明还包括一种融合多源知识图谱的药物重定位系统。

Description

一种融合多源知识图谱的药物重定位方法和系统

技术领域

本发明涉及医疗领域，具体涉及一种融合多源知识图谱的药物重定位方法和系统。

背景技术

传统药物研发涉及靶点发现验证、高通量筛选、先导物优化、临床前研究、临床研究等多个环节，是一个高失败率、高成本且缓慢的过程。药物重定位利用已知生物医学知识帮助筛选可能对治疗常见和罕见疾病有效的老药，能够合理扩大老药的使用范围，进而有效降低药物研发的周期、投资和失败风险。

近年来，随着知识图谱、图计算等技术的发展，基于已有药物、疾病、蛋白质等生物医学实体之间的关联语义预测潜在的药物-疾病治疗关系已成为一种有效的药物重定位方法。然而，已有方法只能利用单一知识图谱的知识，知识图谱自身的不完备性和噪声极大地限制了药物重定位预测的精度。随着数据开源和人工智能技术的发展，多源、多语种知识图谱的协同利用成为了可能，有效融合多源知识图谱的互补知识将进一步提升药物重定位的准确度，为药物研发提供更好的支撑。然而遗憾的是，目前还没有协同利用多源知识图谱的药物重定位方法。

发明内容

本发明要克服现有技术的上述不足，提供一种融合多源知识图谱的药物重定位方法和系统。

本发明的一种融合多源知识图谱的药物重定位方法，包括以下步骤：

步骤1：采集多语种、多源生物医药数据，构建多源生物医药知识图谱。

步骤2：基于多语种预训练模型获取实体初始表征向量，通过实体对齐构建不同知识图谱之间的对齐锚链。

步骤3：利用关系感知图注意力网络聚合各知识图谱内部的信息，基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量。

步骤4：将最完备知识图谱所得实体表示向量输入多层感知机分类模型，对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练。

步骤5：对训练好的多层感知机分类模型输入给定药物-疾病实体对，得到药物重定位预测。

进一步，步骤1具体包括：

采集药融云、DrugBank、Disease Ontology、UniProt等开源数据库的数据，根据其格式利用Bio2RDF工具进行解析，从中抽取其所包含的疾病、药物、症状、基因实体及实体之间的关系，形成大量三元组和知识图谱子图；为了将同语种不同数据库所得相同实体合并从而形成完整的知识图谱，根据不同数据库实体的公共属性将相同实体映射到相同的唯一ID；即若实体e_i∈D_i的所有属性都无法匹配到实体ID集合ID_e中，则为实体e_i构建一个新ID，并将该ID即实体e_i对应的独立属性如名称、分子式等添加到ID_e中；其中，D_i表示第i个生物医药数据库；若实体e_i∈D_i的某一独立属性a_i与实体ID集合ID_e中实体e_j的属性a_j相同，则将实体e_i与实体e_j合并，并将其独立属性的补集添加到ID_e中实体e_j的属性集合中。

进一步，步骤2所述的基于多语种预训练模型获取实体初始表征向量具体包括：

基于多语种预训练模型ERNIE-M，查询获得多语种生物医药知识图谱各语种实体所含单词的表示向量；随后，根据实体名称所含单词在整个知识图谱中的出现频率，计算相应单词的权重，并将其权重与其表示向量相乘进行加权求和得到实体的初始表征向量。即对于实体e_i名称中的组成单词w₁,w₂,…,w_b，若其在整个知识图谱中的出现频率分别为p₁,p₂,…,p_b，则单词w_i的权重为

最终实体e_i的初始表征向量为

其中，/>

表示单词w_i的预训练词向量。

进一步，步骤2所述的通过实体对齐构建不同知识图谱之间的对齐锚链具体包括：

根据度对实体进行排序，筛选度最大的k个实体人工查找其在其他知识图谱中的等价实体作为对齐种子数据，用以训练线性变换矩阵实现实体对齐；在已知知识图谱KG_i和KG_j之间的k组对齐种子之后，通过求解数学问题

获得两个知识图谱之间的最佳线性变换矩阵W^*以将KG_i表示向量映射到KG_j表示向量所在的向量空间；其中，Z_i和Z_j分别是KG_i和KG_j中对齐实体表示向量组成的矩阵，/>

表示d维向量空间；基于所得W^*，首先基于Z_iW运算将KG_i剩余实体表示向量映射到KG_j表示向量所在的向量空间，然后计算两个知识图谱任意实体对之间的欧式距离，如果对于实体e_i∈KG_i和实体e_j∈KG_j，dist_ij＜dist_ik，/>

且dist_ij＜dist_kj，/>

并且dist_ij＜δ，则认定e_i等价于e_j，并将其添加到对齐锚链中；其中，dist_ij表示实体e_i和实体e_j之间的欧式距离，δ是一个人为设定的阈值。

进一步，步骤3所述的利用关系感知图注意力网络聚合各知识图谱内部的信息具体包括：对于尾实体t，其表示向量基于以下公式更新：

其中，

表示尾实体t在第l+1层的表示向量，ReLU()表示RELU激活函数，N_t表示所有尾实体为t的三元组中的头实体集合，R_ht表示t和h之间的所有关系类型，/>

是头实体和尾实体之间关于关系r的注意力权重，T_r是关系r相关的线性变换矩阵，/>

表示头实体h在第l层的表示向量，/>

表示关系r在第l层的表示向量；注意力权重基于如下公式计算：

其中，

是头实体和尾实体之间关于关系r的注意力权值，通过以下公式计算：

其中，

是一个可学习的注意力权重系数，||表示向量的拼接操作；由此，即可基于关系感知图注意力网络聚合各知识图谱的内部信息得到实体的表示；为了将不同知识图谱表示在相同向量空间以降低特征和结构差异对多源知识图谱知识融合造成的困难，利用步骤2所得的对齐实体设计如下损失函数优化实体表示学习过程：

其中，S表示步骤2所得的对齐实体集合，S′表示基于负采样得到的不等价实体集合，具体方法为任给实体e′_i，从其对齐实体的二阶邻居集合中采样k个实体与e′_i组合形成一组不等价实体；||·||₁表示一组向量之间的曼哈顿距离，γ是一个人为设定的阈值超参数；以关系感知图注意力网络最后一层的输出作为知识图谱内部信息聚合的表示向量。

进一步，步骤3所述的最完备知识图谱为：

知识图谱KG_i的完备度根据以下公式计算：

其中，|E_i|表示KG_i的实体规模，|T_i|表示其三元组规模，λ₁和λ₂表示两个人为定义的超参数；C_i的数值越高表示其完备性越高，选择C_i值最大的知识图谱KG_i作为最完备知识图谱。

进一步，步骤3所述的基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量包括：

以关系感知图注意力网络的输出为输入，基于如下注意力机制更新最完备知识图谱的实体表示向量：

其中，

表示最完备知识图谱实体e_i的表示向量，N_i为e_i的邻居，包括其所在知识图谱的邻居实体、其在其他知识图谱的对齐实体及其自身，W为可学习的线性变换矩阵；α_ij为e_i和e_j之间的注意力权重，基于以下公式计算：

其中，c_ij表示e_i和e_j之间的注意力权值，其计算方法为：

其中，LeakyReLU(·)表示LeakyReLU激活函数，

为一个可学习的权重参数。

进一步，步骤4具体包括：

将步骤3所得实体表示向量输入一个多层感知机分类模型，利用存在治疗关系的药物-疾病实体对正样本和通过负采样得到的负样本训练该模型，使其预测给定药物-疾病实体对之间是否存在治疗关系；具体方法为：对于给定实体对

多层感知机模型的输入为/>

随后，经过若干隐含层的正向传播，模型输出一组二维预测，两个维度分别表示该实体对之间存在治疗关系的概率及不存在治疗关系的概率，模型基于交叉熵损失函数进行训练，其中正样本是那些已知存在治疗关系的实体对，其标签为1，负样本通过随机采样得到，即通过随机替换一组正样本中的一个实体生成一组负样本；经过一段时间的训练后，不仅多层感知机模型的参数得到了优化，关系感知图注意力网络、注意力机制的参数及实体和关系的表示向量也将得到更新。

进一步，步骤5具体包括：

基于训练好的模型，将感兴趣的药物-疾病实体对的表示向量输入多层感知机分类模型，即可得到其预测向量，若存在治疗关系的概率大于不存在治疗关系的概率，即可预测该药物具有治疗该疾病的功能；否则，预测该药物不具备治疗该疾病的功能。

本发明还提供一种融合多源知识图谱的药物重定位系统，包括：

数据采集与预处理模块，用于采集多源、多语种生物医药数据，根据语种将数据分类存储，并抽取其中的实体和关系形成多源、多语种生物医药知识图谱；

实体对齐模块，用于获取词向量并计算实体的初始表征向量，进而根据实体的初始表征向量计算实体相似度并开展实体对齐，形成高置信度对齐锚链；

知识融合表示模块，用于构建由关系感知图注意力网络、注意力机制及多层感知机组成的药物重定位模型，并利用关系感知注意力网络聚合知识图谱内部信息，利用注意力机制聚合对齐实体信息，得到实体和关系的表示向量；

药物重定位训练模块，用于对已知存在治疗关系的药物-疾病实体对构建正样本，并通过负采样构建负样本实体对，从而利用正负样本对所述模型进行训练，得到训练好的药物重定位模型及实体和关系表示向量；

药物重定位预测模块，用于对训练好的药物重定位模型输入感兴趣的药物-疾病实体对，从而根据模型前向传播输出概率预测对应药物是否有治疗对应疾病的潜力。

本发明还提供一种融合多源知识图谱的药物重定位装置，通过如下设备进行部署应用，包括网络通信设备、存储器、处理器、显示器以及存储在所述存储器中并可在所述处理器上运行的计算机软件程序，基于所述网络通信设备从互联网上采集生物医药数据，并将采集的数据存储在所述存储器中，以及所述处理器执行所述计算机软件程序实现如权利要求1至9任一项所述一种融合多源知识图谱的药物重定位方法，和所述显示设备对所述处理器执行所述计算机软件程序获得数据结果进行可视化展示。

本发明还提供一种计算机软件程序，通过计算机软件程序的形式实现了权利要求1-9的任一项所述一种融合多源知识图谱的药物重定位方法，被部署在处理器中或云端服务器。

本发明的有益效果是：本发明提供了一种融合多源知识图谱的药物重定位方法和系统，创新性地利用实体对齐和表示学习融合多源、多语种的生物医药知识图谱的语义知识，提高了对于药物治疗作用的预测准确性。该发明通过合理使用最新的图神经网络和注意力机制等神经网络模型，具有较好的泛化能力和自我学习能力。本发明用于药物重定位预测时，具有较好的准确性。

附图说明

图1是本发明提出的融合多源知识图谱的药物重定位方法的流程图；

图2是本发明所采用的模型的框架图；

图3是本发明提供的一种融合多源知识图谱的药物重定位系统结构示意图；

图4是本发明应用于具体实施例的系统部署示意图；

图5是本发明提供的一种融合多源知识图谱的药物重定位装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施案例，并参照附图，对本发明进一步详细说明。

参见图1，一种融合多源知识图谱的药物重定位方法，，其整体流程如图1所示，包括如下步骤：

步骤1，采集多语种、多源生物医药数据，构建多源生物医药知识图谱。

具体地，采集药融云、DrugBank、Disease Ontology、UniProt等开源数据库的数据，根据其格式利用Bio2RDF工具进行解析，从中抽取其所包含的疾病、药物、症状、基因实体及实体之间的关系，形成大量三元组和知识图谱子图；为了将同语种不同数据库所得相同实体合并从而形成完整的知识图谱，根据不同数据库实体的公共属性将相同实体映射到相同的唯一ID；即若实体e_i∈D_i的所有属性都无法匹配到实体ID集合ID_e中，则为实体e_i构建一个新ID，并将该ID即实体e_i对应的独立属性如名称、分子式等添加到ID_e中；其中，D_i表示第i个生物医药数据库；若实体e_i∈D_i的某一独立属性a_i与实体ID集合ID_e中实体e_j的属性a_j相同，则将实体e_i与实体e_j合并，并将其独立属性的补集添加到ID_e中实体e_j的属性集合中。

步骤2，基于多语种预训练模型获取实体初始表征向量，通过实体对齐构建不同知识图谱之间的对齐锚链。

具体地，基于多语种预训练模型ERNIE-M，查询获得多语种生物医药知识图谱各语种实体所含单词的表示向量；随后，根据实体名称所含单词在整个知识图谱中的出现频率，计算相应单词的权重，并将其权重与其表示向量相乘进行加权求和得到实体的初始表征向量。即对于实体e_i名称中的组成单词w₁，w₂，...，w_b，若其在整个知识图谱中的出现频率分别为p₁，p₂，...，p_b，则单词w_i的权重为

最终实体e_i的初始表征向量为

其中，/>

表示单词w_i的预训练词向量。

且dist_ij＜dist_kj，/>

步骤3，利用关系感知图注意力网络聚合各知识图谱内部的信息，基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量。

具体地，对于尾实体t，其表示向量基于以下公式更新：

其中，

表示头实体h在第l层的表示向量，/>

其中，

其中，

其中，知识图谱KG_i的完备度根据以下公式计算：

其中，c_ij表示e_i和e_j之间的注意力权值，其计算方法为：

其中，LeakyReLU(·)表示LeakyReLU激活函数，

为一个可学习的权重参数。

步骤4，将最完备知识图谱所得实体表示向量输入多层感知机分类模型，对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练。

多层感知机模型的输入为/>

步骤5，对训练好的多层感知机分类模型输入给定药物-疾病实体对，得到药物重定位预测。

具体地，基于训练好的模型，将感兴趣的药物-疾病实体对的表示向量输入多层感知机分类模型，即可得到其预测向量，若存在治疗关系的概率大于不存在治疗关系的概率，即可预测该药物具有治疗该疾病的功能；否则，预测该药物不具备治疗该疾病的功能。

最后，本实施例被应用于生物医药数据进行药物重定位预测时，整个系统结构框架图如图3所示。本发明提供的一种融合多源知识图谱的药物重定位系统，系统包括：

首先由数据采集与预处理模块采集多源生物医药数据并进行分类存储，随后由该模块对采集到的数据进行处理，构建多源生物医药知识图谱。接着，由实体对齐模块通过实体对齐建立不同知识图谱之间的对齐锚链，并将处理得到的多源生物医药知识图谱进行存储。然后，知识融合表示模块构建一个由关系感知图注意力网络、注意力机制及多层感知机预测模型组成的药物重定位预测模型，并通过聚合知识图谱内部及对齐实体的信息更新得到实体和关系的表示向量。随后，由药物重定位训练模块选取大量药物-疾病实体对作为正样本，通过随机负采样生成大量负样本，共同组合形成训练样本集，并使用训练样本集对药物重定位预测模型进行训练，将训练好的药物重定位预测模型和实体表示向量加以保存。当训练完成后，药物重定位预测模块将给定药物-疾病实体对训练得到的表示向量输入药物重定位预测模型中的多层感知机预测模型，计算得到预测信息，并根据预测信息向用户输出推断，如果预测值中存在治疗关系的概率值大于不存在治疗关系的概率值，系统会向用户提示对应药物可能具有治疗对应疾病的能力，建议用户开展相应的药物测试实验并显示相应的预测概率值，如果预测值中存在治疗关系的概率值小于不存在治疗关系的概率值，系统会向用户提示对应药物不具有治疗对应疾病的能力，建议用户修改潜在药物或疾病重新进行预测并显示相应的预测概率值。该系统实际部署如图4所示，本实施例出于简化目的通过实验室服务器设备进行部署并演示，本实施例中以服务器自身存储硬盘实现存储器功能，用于保存从互联网上获取的原始多源生物医药数据和通过编程语言实现的多源生物医药知识图谱数据以及本发明所提供的所有方法的计算机软件程序，最终由服务器自身芯片实现处理器功能，其中GPU作为专用处理器，专门负责对编程语言构建的药物重定位预测模型进行训练，以加快模型训练速度，而CPU处理器负责实现控制中心的管理、调度等其他工作，即执行计算机软件程序中剩余部分。在预测阶段，当处理器计算出预测结果时，会自行判断给定药物是否具有治疗给定药物的潜在功能，服务器外接显示器会对药物重定位预测模型预测结果进行实时可视化显示。

本实施例通过表示学习充分融合多源、多语种生物医药知识图谱的知识，提升药物重定位预测的准确率。

与前述一种融合多源知识图谱的药物重定位方法的实施例相对应，本发明还提供了一种融合多源知识图谱的药物重定位装置的实施例。下文描述的融合多源知识图谱的药物重定位装置与上文描述的融合多源知识图谱的药物重定位方法可以相互对应参照。

图5为本发明提供的一种融合多源知识图谱的药物重定位装置结构示意图，如图5所示，该电子设备包括：处理器、显示器、存储器和通信总线，所述处理器执行所述计算机软件程序实现上述实施例中任一项所述一种融合多源知识图谱的药物重定位方法，所述存储器存储所述多源生物医药原始数据、中间处理数据、多源生物医药知识图谱、计算机软件程序、训练好的药物重定位预测模型及实体表示向量等，所述显示器对所述处理器执行所述计算机软件程序获得预测结果进行可视化显示，所述处理器、存储器和显示器通过所述通信总线完成相互间的通信。

本发明一种融合多源知识图谱的药物重定位装置的实施例可以应用在任意具备数据处理能力的设备上，所述任意具备数据能力的设备可以是诸如计算机、工作站等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或软硬件结合方式实现。以软件实现方式，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将存储器中对应的计算机指令读取到内存中运行形成的。以硬件实现方式，图5为本发明一种融合多源知识图谱的药物重定位装置所在任意具备数据处理能力的一种硬件结构图，除了图5所示的处理器、存储器、显示器及通信总线外，此实施例中装置所在的具备数据处理能力的设备通常根据需要还可以包括其他硬件，在此不再赘述。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的融合多源知识图谱的药物重定位方法。

本发明已经通过上述实施案例进行了说明，但应当理解的是，以上实施案例的说明只是用于帮助理解本发明的方法及其核心思想，并不用于限制本发明。应当指出，对于本技术领域的普通技术人员来说，还可以对本发明进行若干替换、改进和修饰，凡在本发明的精神和原则之内，所作的任何等同替换、修改和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合多源知识图谱的药物重定位方法，其特征在于，包含以下步骤：

步骤1：采集多语种、多源生物医药数据，构建多源生物医药知识图谱；

步骤2：基于多语种预训练模型获取实体初始表征向量，通过实体对齐构建不同知识图谱之间的对齐锚链；

步骤3：利用关系感知图注意力网络聚合各知识图谱内部的信息，基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量；

步骤4：将最完备知识图谱所得实体表示向量输入多层感知机分类模型，对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练；

2.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤1具体包括：

3.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤2中所述基于多语种预训练模型获取实体初始表征向量具体包括：

基于多语种预训练模型ERNIE-M，查询获得多语种生物医药知识图谱各语种实体所含单词的表示向量；随后，根据实体名称所含单词在整个知识图谱中的出现频率，计算相应单词的权重，并将其权重与其表示向量相乘进行加权求和得到实体的初始表征向量。即对于实体e_i名称中的组成单词w₁，w₂，...，w_b，若其在整个知识图谱中的出现频率分别为p₁，p₂，...，p_b，则单词w_i的权重为

最终实体e_i的初始表征向量为

其中，/>

表示单词w_i的预训练词向量。

4.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤2中所述通过实体对齐构建不同知识图谱之间的对齐锚链具体包括：

表示d维向量空间；基于所得W^*，首先基于Z_iW运算将KG_i剩余实体表示向量映射到KG_j表示向量所在的向量空间，然后计算两个知识图谱任意实体对之间的欧式距离，如果对于实体e_i∈KG_i和实体e_j∈KG_j，

且/>

5.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤3中所述利用关系感知图注意力网络聚合各知识图谱内部的信息具体包括：

对于尾实体t，其表示向量基于以下公式更新：

其中，

表示头实体h在第l层的表示向量，/>

其中，

其中，

6.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤3中所述最完备知识图谱为：

知识图谱KG_i的完备度根据以下公式计算：

7.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤3中所述基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量包括：

其中，

其中，c_ij表示e_i和e_j之间的注意力权值，其计算方法为：

其中，LeakyReLU(·)表示LeakyReLU激活函数，

为一个可学习的权重参数。

8.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤4具体包括：

多层感知机模型的输入为

9.如权利要求1所述的融合多源知识图谱的药物重定位方法，其特征在于，所述步骤5具体包括

10.一种融合多源知识图谱的药物重定位系统，其特征在于，包括：

11.一种融合多源知识图谱的药物重定位装置，通过如下设备进行部署应用，包括网络通信设备、存储器、处理器、显示器以及存储在所述存储器中并可在所述处理器上运行的计算机软件程序，其特征在于，基于所述网络通信设备从互联网上采集生物医药数据，并将采集的数据存储在所述存储器中，以及所述处理器执行所述计算机软件程序实现如权利要求1至9任一项所述一种融合多源知识图谱的药物重定位方法，和所述显示设备对所述处理器执行所述计算机软件程序获得数据结果进行可视化展示。

12.一种计算机软件程序，其特征在于，通过计算机软件程序的形式实现了权利要求1-9的任一项所述一种融合多源知识图谱的药物重定位方法，被部署在处理器中或云端服务器。