CN116434976A - 一种融合多源知识图谱的药物重定位方法和系统 - Google Patents

一种融合多源知识图谱的药物重定位方法和系统 Download PDF

Info

Publication number
CN116434976A
CN116434976A CN202211713801.3A CN202211713801A CN116434976A CN 116434976 A CN116434976 A CN 116434976A CN 202211713801 A CN202211713801 A CN 202211713801A CN 116434976 A CN116434976 A CN 116434976A
Authority
CN
China
Prior art keywords
entity
knowledge
graph
drug
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211713801.3A
Other languages
English (en)
Inventor
杨林瑶
陈红阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211713801.3A priority Critical patent/CN116434976A/zh
Publication of CN116434976A publication Critical patent/CN116434976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Toxicology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种融合多源知识图谱的药物重定位方法,包括:步骤1:采集多语种、多源生物医药数据,构建多源生物医药知识图谱;步骤2:基于多语种预训练模型获取实体初始表征向量,通过实体对齐构建不同知识图谱之间的对齐锚链;步骤3:利用关系感知图注意力网络聚合各知识图谱内部的信息,基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量;步骤4:将最完备知识图谱所得实体表示向量输入多层感知机分类模型,对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练;步骤5:对训练好的多层感知机分类模型输入给定药物‑疾病实体对,得到药物重定位预测。本发明还包括一种融合多源知识图谱的药物重定位系统。

Description

一种融合多源知识图谱的药物重定位方法和系统
技术领域
本发明涉及医疗领域,具体涉及一种融合多源知识图谱的药物重定位方法和系统。
背景技术
传统药物研发涉及靶点发现验证、高通量筛选、先导物优化、临床前研究、临床研究等多个环节,是一个高失败率、高成本且缓慢的过程。药物重定位利用已知生物医学知识帮助筛选可能对治疗常见和罕见疾病有效的老药,能够合理扩大老药的使用范围,进而有效降低药物研发的周期、投资和失败风险。
近年来,随着知识图谱、图计算等技术的发展,基于已有药物、疾病、蛋白质等生物医学实体之间的关联语义预测潜在的药物-疾病治疗关系已成为一种有效的药物重定位方法。然而,已有方法只能利用单一知识图谱的知识,知识图谱自身的不完备性和噪声极大地限制了药物重定位预测的精度。随着数据开源和人工智能技术的发展,多源、多语种知识图谱的协同利用成为了可能,有效融合多源知识图谱的互补知识将进一步提升药物重定位的准确度,为药物研发提供更好的支撑。然而遗憾的是,目前还没有协同利用多源知识图谱的药物重定位方法。
发明内容
本发明要克服现有技术的上述不足,提供一种融合多源知识图谱的药物重定位方法和系统。
本发明的一种融合多源知识图谱的药物重定位方法,包括以下步骤:
步骤1:采集多语种、多源生物医药数据,构建多源生物医药知识图谱。
步骤2:基于多语种预训练模型获取实体初始表征向量,通过实体对齐构建不同知识图谱之间的对齐锚链。
步骤3:利用关系感知图注意力网络聚合各知识图谱内部的信息,基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量。
步骤4:将最完备知识图谱所得实体表示向量输入多层感知机分类模型,对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练。
步骤5:对训练好的多层感知机分类模型输入给定药物-疾病实体对,得到药物重定位预测。
进一步,步骤1具体包括:
采集药融云、DrugBank、Disease Ontology、UniProt等开源数据库的数据,根据其格式利用Bio2RDF工具进行解析,从中抽取其所包含的疾病、药物、症状、基因实体及实体之间的关系,形成大量三元组和知识图谱子图;为了将同语种不同数据库所得相同实体合并从而形成完整的知识图谱,根据不同数据库实体的公共属性将相同实体映射到相同的唯一ID;即若实体ei∈Di的所有属性都无法匹配到实体ID集合IDe中,则为实体ei构建一个新ID,并将该ID即实体ei对应的独立属性如名称、分子式等添加到IDe中;其中,Di表示第i个生物医药数据库;若实体ei∈Di的某一独立属性ai与实体ID集合IDe中实体ej的属性aj相同,则将实体ei与实体ej合并,并将其独立属性的补集添加到IDe中实体ej的属性集合中。
进一步,步骤2所述的基于多语种预训练模型获取实体初始表征向量具体包括:
基于多语种预训练模型ERNIE-M,查询获得多语种生物医药知识图谱各语种实体所含单词的表示向量;随后,根据实体名称所含单词在整个知识图谱中的出现频率,计算相应单词的权重,并将其权重与其表示向量相乘进行加权求和得到实体的初始表征向量。即对于实体ei名称中的组成单词w1,w2,…,wb,若其在整个知识图谱中的出现频率分别为p1,p2,…,pb,则单词wi的权重为
Figure BDA0004027182030000021
Figure BDA0004027182030000022
最终实体ei的初始表征向量为
Figure BDA0004027182030000023
其中,/>
Figure BDA0004027182030000024
表示单词wi的预训练词向量。
进一步,步骤2所述的通过实体对齐构建不同知识图谱之间的对齐锚链具体包括:
根据度对实体进行排序,筛选度最大的k个实体人工查找其在其他知识图谱中的等价实体作为对齐种子数据,用以训练线性变换矩阵实现实体对齐;在已知知识图谱KGi和KGj之间的k组对齐种子之后,通过求解数学问题
Figure BDA0004027182030000025
Figure BDA0004027182030000031
获得两个知识图谱之间的最佳线性变换矩阵W*以将KGi表示向量映射到KGj表示向量所在的向量空间;其中,Zi和Zj分别是KGi和KGj中对齐实体表示向量组成的矩阵,/>
Figure BDA0004027182030000032
表示d维向量空间;基于所得W*,首先基于ZiW运算将KGi剩余实体表示向量映射到KGj表示向量所在的向量空间,然后计算两个知识图谱任意实体对之间的欧式距离,如果对于实体ei∈KGi和实体ej∈KGj,distij<distik,/>
Figure BDA0004027182030000033
且distij<distkj,/>
Figure BDA0004027182030000034
并且distij<δ,则认定ei等价于ej,并将其添加到对齐锚链中;其中,distij表示实体ei和实体ej之间的欧式距离,δ是一个人为设定的阈值。
进一步,步骤3所述的利用关系感知图注意力网络聚合各知识图谱内部的信息具体包括:对于尾实体t,其表示向量基于以下公式更新:
Figure BDA0004027182030000035
其中,
Figure BDA0004027182030000036
表示尾实体t在第l+1层的表示向量,ReLU()表示RELU激活函数,Nt表示所有尾实体为t的三元组中的头实体集合,Rht表示t和h之间的所有关系类型,/>
Figure BDA0004027182030000037
是头实体和尾实体之间关于关系r的注意力权重,Tr是关系r相关的线性变换矩阵,/>
Figure BDA0004027182030000038
表示头实体h在第l层的表示向量,/>
Figure BDA0004027182030000039
表示关系r在第l层的表示向量;注意力权重基于如下公式计算:
Figure BDA00040271820300000310
其中,
Figure BDA00040271820300000311
是头实体和尾实体之间关于关系r的注意力权值,通过以下公式计算:
Figure BDA00040271820300000312
其中,
Figure BDA00040271820300000313
是一个可学习的注意力权重系数,||表示向量的拼接操作;由此,即可基于关系感知图注意力网络聚合各知识图谱的内部信息得到实体的表示;为了将不同知识图谱表示在相同向量空间以降低特征和结构差异对多源知识图谱知识融合造成的困难,利用步骤2所得的对齐实体设计如下损失函数优化实体表示学习过程:
Figure BDA00040271820300000314
其中,S表示步骤2所得的对齐实体集合,S′表示基于负采样得到的不等价实体集合,具体方法为任给实体e′i,从其对齐实体的二阶邻居集合中采样k个实体与e′i组合形成一组不等价实体;||·||1表示一组向量之间的曼哈顿距离,γ是一个人为设定的阈值超参数;以关系感知图注意力网络最后一层的输出作为知识图谱内部信息聚合的表示向量。
进一步,步骤3所述的最完备知识图谱为:
知识图谱KGi的完备度根据以下公式计算:
Figure BDA0004027182030000041
其中,|Ei|表示KGi的实体规模,|Ti|表示其三元组规模,λ1和λ2表示两个人为定义的超参数;Ci的数值越高表示其完备性越高,选择Ci值最大的知识图谱KGi作为最完备知识图谱。
进一步,步骤3所述的基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量包括:
以关系感知图注意力网络的输出为输入,基于如下注意力机制更新最完备知识图谱的实体表示向量:
Figure BDA0004027182030000042
其中,
Figure BDA0004027182030000043
表示最完备知识图谱实体ei的表示向量,Ni为ei的邻居,包括其所在知识图谱的邻居实体、其在其他知识图谱的对齐实体及其自身,W为可学习的线性变换矩阵;αij为ei和ej之间的注意力权重,基于以下公式计算:
Figure BDA0004027182030000044
其中,cij表示ei和ej之间的注意力权值,其计算方法为:
Figure BDA0004027182030000045
其中,LeakyReLU(·)表示LeakyReLU激活函数,
Figure BDA0004027182030000046
为一个可学习的权重参数。
进一步,步骤4具体包括:
将步骤3所得实体表示向量输入一个多层感知机分类模型,利用存在治疗关系的药物-疾病实体对正样本和通过负采样得到的负样本训练该模型,使其预测给定药物-疾病实体对之间是否存在治疗关系;具体方法为:对于给定实体对
Figure BDA0004027182030000051
多层感知机模型的输入为/>
Figure BDA0004027182030000052
随后,经过若干隐含层的正向传播,模型输出一组二维预测,两个维度分别表示该实体对之间存在治疗关系的概率及不存在治疗关系的概率,模型基于交叉熵损失函数进行训练,其中正样本是那些已知存在治疗关系的实体对,其标签为1,负样本通过随机采样得到,即通过随机替换一组正样本中的一个实体生成一组负样本;经过一段时间的训练后,不仅多层感知机模型的参数得到了优化,关系感知图注意力网络、注意力机制的参数及实体和关系的表示向量也将得到更新。
进一步,步骤5具体包括:
基于训练好的模型,将感兴趣的药物-疾病实体对的表示向量输入多层感知机分类模型,即可得到其预测向量,若存在治疗关系的概率大于不存在治疗关系的概率,即可预测该药物具有治疗该疾病的功能;否则,预测该药物不具备治疗该疾病的功能。
本发明还提供一种融合多源知识图谱的药物重定位系统,包括:
数据采集与预处理模块,用于采集多源、多语种生物医药数据,根据语种将数据分类存储,并抽取其中的实体和关系形成多源、多语种生物医药知识图谱;
实体对齐模块,用于获取词向量并计算实体的初始表征向量,进而根据实体的初始表征向量计算实体相似度并开展实体对齐,形成高置信度对齐锚链;
知识融合表示模块,用于构建由关系感知图注意力网络、注意力机制及多层感知机组成的药物重定位模型,并利用关系感知注意力网络聚合知识图谱内部信息,利用注意力机制聚合对齐实体信息,得到实体和关系的表示向量;
药物重定位训练模块,用于对已知存在治疗关系的药物-疾病实体对构建正样本,并通过负采样构建负样本实体对,从而利用正负样本对所述模型进行训练,得到训练好的药物重定位模型及实体和关系表示向量;
药物重定位预测模块,用于对训练好的药物重定位模型输入感兴趣的药物-疾病实体对,从而根据模型前向传播输出概率预测对应药物是否有治疗对应疾病的潜力。
本发明还提供一种融合多源知识图谱的药物重定位装置,通过如下设备进行部署应用,包括网络通信设备、存储器、处理器、显示器以及存储在所述存储器中并可在所述处理器上运行的计算机软件程序,基于所述网络通信设备从互联网上采集生物医药数据,并将采集的数据存储在所述存储器中,以及所述处理器执行所述计算机软件程序实现如权利要求1至9任一项所述一种融合多源知识图谱的药物重定位方法,和所述显示设备对所述处理器执行所述计算机软件程序获得数据结果进行可视化展示。
本发明还提供一种计算机软件程序,通过计算机软件程序的形式实现了权利要求1-9的任一项所述一种融合多源知识图谱的药物重定位方法,被部署在处理器中或云端服务器。
本发明的有益效果是:本发明提供了一种融合多源知识图谱的药物重定位方法和系统,创新性地利用实体对齐和表示学习融合多源、多语种的生物医药知识图谱的语义知识,提高了对于药物治疗作用的预测准确性。该发明通过合理使用最新的图神经网络和注意力机制等神经网络模型,具有较好的泛化能力和自我学习能力。本发明用于药物重定位预测时,具有较好的准确性。
附图说明
图1是本发明提出的融合多源知识图谱的药物重定位方法的流程图;
图2是本发明所采用的模型的框架图;
图3是本发明提供的一种融合多源知识图谱的药物重定位系统结构示意图;
图4是本发明应用于具体实施例的系统部署示意图;
图5是本发明提供的一种融合多源知识图谱的药物重定位装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施案例,并参照附图,对本发明进一步详细说明。
参见图1,一种融合多源知识图谱的药物重定位方法,,其整体流程如图1所示,包括如下步骤:
步骤1,采集多语种、多源生物医药数据,构建多源生物医药知识图谱。
具体地,采集药融云、DrugBank、Disease Ontology、UniProt等开源数据库的数据,根据其格式利用Bio2RDF工具进行解析,从中抽取其所包含的疾病、药物、症状、基因实体及实体之间的关系,形成大量三元组和知识图谱子图;为了将同语种不同数据库所得相同实体合并从而形成完整的知识图谱,根据不同数据库实体的公共属性将相同实体映射到相同的唯一ID;即若实体ei∈Di的所有属性都无法匹配到实体ID集合IDe中,则为实体ei构建一个新ID,并将该ID即实体ei对应的独立属性如名称、分子式等添加到IDe中;其中,Di表示第i个生物医药数据库;若实体ei∈Di的某一独立属性ai与实体ID集合IDe中实体ej的属性aj相同,则将实体ei与实体ej合并,并将其独立属性的补集添加到IDe中实体ej的属性集合中。
步骤2,基于多语种预训练模型获取实体初始表征向量,通过实体对齐构建不同知识图谱之间的对齐锚链。
具体地,基于多语种预训练模型ERNIE-M,查询获得多语种生物医药知识图谱各语种实体所含单词的表示向量;随后,根据实体名称所含单词在整个知识图谱中的出现频率,计算相应单词的权重,并将其权重与其表示向量相乘进行加权求和得到实体的初始表征向量。即对于实体ei名称中的组成单词w1,w2,...,wb,若其在整个知识图谱中的出现频率分别为p1,p2,...,pb,则单词wi的权重为
Figure BDA0004027182030000071
最终实体ei的初始表征向量为
Figure BDA0004027182030000072
Figure BDA0004027182030000073
其中,/>
Figure BDA0004027182030000074
表示单词wi的预训练词向量。
根据度对实体进行排序,筛选度最大的k个实体人工查找其在其他知识图谱中的等价实体作为对齐种子数据,用以训练线性变换矩阵实现实体对齐;在已知知识图谱KGi和KGj之间的k组对齐种子之后,通过求解数学问题
Figure BDA00040271820300000710
Figure BDA0004027182030000076
获得两个知识图谱之间的最佳线性变换矩阵W*以将KGi表示向量映射到KGj表示向量所在的向量空间;其中,Zi和Zj分别是KGi和KGj中对齐实体表示向量组成的矩阵,/>
Figure BDA0004027182030000077
表示d维向量空间;基于所得W*,首先基于ZiW运算将KGi剩余实体表示向量映射到KGj表示向量所在的向量空间,然后计算两个知识图谱任意实体对之间的欧式距离,如果对于实体ei∈KGi和实体ej∈KGj,distij<distik,/>
Figure BDA0004027182030000078
且distij<distkj,/>
Figure BDA0004027182030000079
并且distij<δ,则认定ei等价于ej,并将其添加到对齐锚链中;其中,distij表示实体ei和实体ej之间的欧式距离,δ是一个人为设定的阈值。
步骤3,利用关系感知图注意力网络聚合各知识图谱内部的信息,基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量。
具体地,对于尾实体t,其表示向量基于以下公式更新:
Figure BDA0004027182030000081
其中,
Figure BDA00040271820300000811
表示尾实体t在第l+1层的表示向量,ReLU()表示RELU激活函数,Nt表示所有尾实体为t的三元组中的头实体集合,Rht表示t和h之间的所有关系类型,/>
Figure BDA0004027182030000083
是头实体和尾实体之间关于关系r的注意力权重,Tr是关系r相关的线性变换矩阵,/>
Figure BDA0004027182030000084
表示头实体h在第l层的表示向量,/>
Figure BDA0004027182030000085
表示关系r在第l层的表示向量;注意力权重基于如下公式计算:
Figure BDA0004027182030000086
其中,
Figure BDA0004027182030000087
是头实体和尾实体之间关于关系r的注意力权值,通过以下公式计算:
Figure BDA0004027182030000088
其中,
Figure BDA0004027182030000089
是一个可学习的注意力权重系数,||表示向量的拼接操作;由此,即可基于关系感知图注意力网络聚合各知识图谱的内部信息得到实体的表示;为了将不同知识图谱表示在相同向量空间以降低特征和结构差异对多源知识图谱知识融合造成的困难,利用步骤2所得的对齐实体设计如下损失函数优化实体表示学习过程:
Figure BDA00040271820300000810
其中,S表示步骤2所得的对齐实体集合,S′表示基于负采样得到的不等价实体集合,具体方法为任给实体e′i,从其对齐实体的二阶邻居集合中采样k个实体与e′i组合形成一组不等价实体;||·||1表示一组向量之间的曼哈顿距离,γ是一个人为设定的阈值超参数;以关系感知图注意力网络最后一层的输出作为知识图谱内部信息聚合的表示向量。
以关系感知图注意力网络的输出为输入,基于如下注意力机制更新最完备知识图谱的实体表示向量:
Figure BDA0004027182030000091
其中,知识图谱KGi的完备度根据以下公式计算:
Figure BDA0004027182030000092
其中,|Ei|表示KGi的实体规模,|Ti|表示其三元组规模,λ1和λ2表示两个人为定义的超参数;Ci的数值越高表示其完备性越高,选择Ci值最大的知识图谱KGi作为最完备知识图谱。
Figure BDA0004027182030000093
表示最完备知识图谱实体ei的表示向量,Ni为ei的邻居,包括其所在知识图谱的邻居实体、其在其他知识图谱的对齐实体及其自身,W为可学习的线性变换矩阵;αij为ei和ej之间的注意力权重,基于以下公式计算:
Figure BDA0004027182030000094
其中,cij表示ei和ej之间的注意力权值,其计算方法为:
Figure BDA0004027182030000095
其中,LeakyReLU(·)表示LeakyReLU激活函数,
Figure BDA0004027182030000096
为一个可学习的权重参数。
步骤4,将最完备知识图谱所得实体表示向量输入多层感知机分类模型,对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练。
将步骤3所得实体表示向量输入一个多层感知机分类模型,利用存在治疗关系的药物-疾病实体对正样本和通过负采样得到的负样本训练该模型,使其预测给定药物-疾病实体对之间是否存在治疗关系;具体方法为:对于给定实体对
Figure BDA0004027182030000097
多层感知机模型的输入为/>
Figure BDA0004027182030000098
随后,经过若干隐含层的正向传播,模型输出一组二维预测,两个维度分别表示该实体对之间存在治疗关系的概率及不存在治疗关系的概率,模型基于交叉熵损失函数进行训练,其中正样本是那些已知存在治疗关系的实体对,其标签为1,负样本通过随机采样得到,即通过随机替换一组正样本中的一个实体生成一组负样本;经过一段时间的训练后,不仅多层感知机模型的参数得到了优化,关系感知图注意力网络、注意力机制的参数及实体和关系的表示向量也将得到更新。
步骤5,对训练好的多层感知机分类模型输入给定药物-疾病实体对,得到药物重定位预测。
具体地,基于训练好的模型,将感兴趣的药物-疾病实体对的表示向量输入多层感知机分类模型,即可得到其预测向量,若存在治疗关系的概率大于不存在治疗关系的概率,即可预测该药物具有治疗该疾病的功能;否则,预测该药物不具备治疗该疾病的功能。
最后,本实施例被应用于生物医药数据进行药物重定位预测时,整个系统结构框架图如图3所示。本发明提供的一种融合多源知识图谱的药物重定位系统,系统包括:
数据采集与预处理模块,用于采集多源、多语种生物医药数据,根据语种将数据分类存储,并抽取其中的实体和关系形成多源、多语种生物医药知识图谱;
实体对齐模块,用于获取词向量并计算实体的初始表征向量,进而根据实体的初始表征向量计算实体相似度并开展实体对齐,形成高置信度对齐锚链;
知识融合表示模块,用于构建由关系感知图注意力网络、注意力机制及多层感知机组成的药物重定位模型,并利用关系感知注意力网络聚合知识图谱内部信息,利用注意力机制聚合对齐实体信息,得到实体和关系的表示向量;
药物重定位训练模块,用于对已知存在治疗关系的药物-疾病实体对构建正样本,并通过负采样构建负样本实体对,从而利用正负样本对所述模型进行训练,得到训练好的药物重定位模型及实体和关系表示向量;
药物重定位预测模块,用于对训练好的药物重定位模型输入感兴趣的药物-疾病实体对,从而根据模型前向传播输出概率预测对应药物是否有治疗对应疾病的潜力。
首先由数据采集与预处理模块采集多源生物医药数据并进行分类存储,随后由该模块对采集到的数据进行处理,构建多源生物医药知识图谱。接着,由实体对齐模块通过实体对齐建立不同知识图谱之间的对齐锚链,并将处理得到的多源生物医药知识图谱进行存储。然后,知识融合表示模块构建一个由关系感知图注意力网络、注意力机制及多层感知机预测模型组成的药物重定位预测模型,并通过聚合知识图谱内部及对齐实体的信息更新得到实体和关系的表示向量。随后,由药物重定位训练模块选取大量药物-疾病实体对作为正样本,通过随机负采样生成大量负样本,共同组合形成训练样本集,并使用训练样本集对药物重定位预测模型进行训练,将训练好的药物重定位预测模型和实体表示向量加以保存。当训练完成后,药物重定位预测模块将给定药物-疾病实体对训练得到的表示向量输入药物重定位预测模型中的多层感知机预测模型,计算得到预测信息,并根据预测信息向用户输出推断,如果预测值中存在治疗关系的概率值大于不存在治疗关系的概率值,系统会向用户提示对应药物可能具有治疗对应疾病的能力,建议用户开展相应的药物测试实验并显示相应的预测概率值,如果预测值中存在治疗关系的概率值小于不存在治疗关系的概率值,系统会向用户提示对应药物不具有治疗对应疾病的能力,建议用户修改潜在药物或疾病重新进行预测并显示相应的预测概率值。该系统实际部署如图4所示,本实施例出于简化目的通过实验室服务器设备进行部署并演示,本实施例中以服务器自身存储硬盘实现存储器功能,用于保存从互联网上获取的原始多源生物医药数据和通过编程语言实现的多源生物医药知识图谱数据以及本发明所提供的所有方法的计算机软件程序,最终由服务器自身芯片实现处理器功能,其中GPU作为专用处理器,专门负责对编程语言构建的药物重定位预测模型进行训练,以加快模型训练速度,而CPU处理器负责实现控制中心的管理、调度等其他工作,即执行计算机软件程序中剩余部分。在预测阶段,当处理器计算出预测结果时,会自行判断给定药物是否具有治疗给定药物的潜在功能,服务器外接显示器会对药物重定位预测模型预测结果进行实时可视化显示。
本实施例通过表示学习充分融合多源、多语种生物医药知识图谱的知识,提升药物重定位预测的准确率。
与前述一种融合多源知识图谱的药物重定位方法的实施例相对应,本发明还提供了一种融合多源知识图谱的药物重定位装置的实施例。下文描述的融合多源知识图谱的药物重定位装置与上文描述的融合多源知识图谱的药物重定位方法可以相互对应参照。
图5为本发明提供的一种融合多源知识图谱的药物重定位装置结构示意图,如图5所示,该电子设备包括:处理器、显示器、存储器和通信总线,所述处理器执行所述计算机软件程序实现上述实施例中任一项所述一种融合多源知识图谱的药物重定位方法,所述存储器存储所述多源生物医药原始数据、中间处理数据、多源生物医药知识图谱、计算机软件程序、训练好的药物重定位预测模型及实体表示向量等,所述显示器对所述处理器执行所述计算机软件程序获得预测结果进行可视化显示,所述处理器、存储器和显示器通过所述通信总线完成相互间的通信。
本发明一种融合多源知识图谱的药物重定位装置的实施例可以应用在任意具备数据处理能力的设备上,所述任意具备数据能力的设备可以是诸如计算机、工作站等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或软硬件结合方式实现。以软件实现方式,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将存储器中对应的计算机指令读取到内存中运行形成的。以硬件实现方式,图5为本发明一种融合多源知识图谱的药物重定位装置所在任意具备数据处理能力的一种硬件结构图,除了图5所示的处理器、存储器、显示器及通信总线外,此实施例中装置所在的具备数据处理能力的设备通常根据需要还可以包括其他硬件,在此不再赘述。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的融合多源知识图谱的药物重定位方法。
本发明已经通过上述实施案例进行了说明,但应当理解的是,以上实施案例的说明只是用于帮助理解本发明的方法及其核心思想,并不用于限制本发明。应当指出,对于本技术领域的普通技术人员来说,还可以对本发明进行若干替换、改进和修饰,凡在本发明的精神和原则之内,所作的任何等同替换、修改和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种融合多源知识图谱的药物重定位方法,其特征在于,包含以下步骤:
步骤1:采集多语种、多源生物医药数据,构建多源生物医药知识图谱;
步骤2:基于多语种预训练模型获取实体初始表征向量,通过实体对齐构建不同知识图谱之间的对齐锚链;
步骤3:利用关系感知图注意力网络聚合各知识图谱内部的信息,基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量;
步骤4:将最完备知识图谱所得实体表示向量输入多层感知机分类模型,对多层感知机分类模型、关系感知图注意力网络和注意力机制及实体和关系表示向量进行训练;
步骤5:对训练好的多层感知机分类模型输入给定药物-疾病实体对,得到药物重定位预测。
2.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤1具体包括:
采集药融云、DrugBank、Disease Ontology、UniProt等开源数据库的数据,根据其格式利用Bio2RDF工具进行解析,从中抽取其所包含的疾病、药物、症状、基因实体及实体之间的关系,形成大量三元组和知识图谱子图;为了将同语种不同数据库所得相同实体合并从而形成完整的知识图谱,根据不同数据库实体的公共属性将相同实体映射到相同的唯一ID;即若实体ei∈Di的所有属性都无法匹配到实体ID集合IDe中,则为实体ei构建一个新ID,并将该ID即实体ei对应的独立属性如名称、分子式等添加到IDe中;其中,Di表示第i个生物医药数据库;若实体ei∈Di的某一独立属性ai与实体ID集合IDe中实体ej的属性aj相同,则将实体ei与实体ej合并,并将其独立属性的补集添加到IDe中实体ej的属性集合中。
3.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤2中所述基于多语种预训练模型获取实体初始表征向量具体包括:
基于多语种预训练模型ERNIE-M,查询获得多语种生物医药知识图谱各语种实体所含单词的表示向量;随后,根据实体名称所含单词在整个知识图谱中的出现频率,计算相应单词的权重,并将其权重与其表示向量相乘进行加权求和得到实体的初始表征向量。即对于实体ei名称中的组成单词w1,w2,...,wb,若其在整个知识图谱中的出现频率分别为p1,p2,...,pb,则单词wi的权重为
Figure FDA0004027182020000011
Figure FDA0004027182020000021
最终实体ei的初始表征向量为
Figure FDA0004027182020000022
其中,/>
Figure FDA0004027182020000023
表示单词wi的预训练词向量。
4.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤2中所述通过实体对齐构建不同知识图谱之间的对齐锚链具体包括:
根据度对实体进行排序,筛选度最大的k个实体人工查找其在其他知识图谱中的等价实体作为对齐种子数据,用以训练线性变换矩阵实现实体对齐;在已知知识图谱KGi和KGj之间的k组对齐种子之后,通过求解数学问题
Figure FDA0004027182020000024
Figure FDA0004027182020000025
获得两个知识图谱之间的最佳线性变换矩阵W*以将KGi表示向量映射到KGj表示向量所在的向量空间;其中,Zi和Zj分别是KGi和KGj中对齐实体表示向量组成的矩阵,/>
Figure FDA00040271820200000214
表示d维向量空间;基于所得W*,首先基于ZiW运算将KGi剩余实体表示向量映射到KGj表示向量所在的向量空间,然后计算两个知识图谱任意实体对之间的欧式距离,如果对于实体ei∈KGi和实体ej∈KGj
Figure FDA0004027182020000026
且/>
Figure FDA0004027182020000027
并且distij<δ,则认定ei等价于ej,并将其添加到对齐锚链中;其中,distij表示实体ei和实体ej之间的欧式距离,δ是一个人为设定的阈值。
5.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤3中所述利用关系感知图注意力网络聚合各知识图谱内部的信息具体包括:
对于尾实体t,其表示向量基于以下公式更新:
Figure FDA0004027182020000028
其中,
Figure FDA0004027182020000029
表示尾实体t在第l+1层的表示向量,ReLU()表示RELU激活函数,Nt表示所有尾实体为t的三元组中的头实体集合,Rht表示t和h之间的所有关系类型,/>
Figure FDA00040271820200000210
是头实体和尾实体之间关于关系r的注意力权重,Tr是关系r相关的线性变换矩阵,/>
Figure FDA00040271820200000211
表示头实体h在第l层的表示向量,/>
Figure FDA00040271820200000212
表示关系r在第l层的表示向量;注意力权重基于如下公式计算:
Figure FDA00040271820200000213
其中,
Figure FDA0004027182020000031
是头实体和尾实体之间关于关系r的注意力权值,通过以下公式计算:
Figure FDA0004027182020000032
其中,
Figure FDA0004027182020000033
是一个可学习的注意力权重系数,||表示向量的拼接操作;由此,即可基于关系感知图注意力网络聚合各知识图谱的内部信息得到实体的表示;为了将不同知识图谱表示在相同向量空间以降低特征和结构差异对多源知识图谱知识融合造成的困难,利用步骤2所得的对齐实体设计如下损失函数优化实体表示学习过程:
Figure FDA0004027182020000034
其中,S表示步骤2所得的对齐实体集合,S′表示基于负采样得到的不等价实体集合,具体方法为任给实体e′i,从其对齐实体的二阶邻居集合中采样k个实体与e′i组合形成一组不等价实体;||·||1表示一组向量之间的曼哈顿距离,γ是一个人为设定的阈值超参数;以关系感知图注意力网络最后一层的输出作为知识图谱内部信息聚合的表示向量。
6.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤3中所述最完备知识图谱为:
知识图谱KGi的完备度根据以下公式计算:
Figure FDA0004027182020000035
其中,|Ei|表示KGi的实体规模,|Ti|表示其三元组规模,λ1和λ2表示两个人为定义的超参数;Ci的数值越高表示其完备性越高,选择Ci值最大的知识图谱KGi作为最完备知识图谱。
7.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤3中所述基于注意力机制聚合对齐实体以更新最完备知识图谱的实体表示向量包括:
以关系感知图注意力网络的输出为输入,基于如下注意力机制更新最完备知识图谱的实体表示向量:
Figure FDA0004027182020000036
其中,
Figure FDA0004027182020000037
表示最完备知识图谱实体ei的表示向量,Ni为ei的邻居,包括其所在知识图谱的邻居实体、其在其他知识图谱的对齐实体及其自身,W为可学习的线性变换矩阵;αij为ei和ej之间的注意力权重,基于以下公式计算:
Figure FDA0004027182020000041
其中,cij表示ei和ej之间的注意力权值,其计算方法为:
Figure FDA0004027182020000042
其中,LeakyReLU(·)表示LeakyReLU激活函数,
Figure FDA0004027182020000043
为一个可学习的权重参数。
8.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤4具体包括:
将步骤3所得实体表示向量输入一个多层感知机分类模型,利用存在治疗关系的药物-疾病实体对正样本和通过负采样得到的负样本训练该模型,使其预测给定药物-疾病实体对之间是否存在治疗关系;具体方法为:对于给定实体对
Figure FDA0004027182020000044
多层感知机模型的输入为
Figure FDA0004027182020000045
随后,经过若干隐含层的正向传播,模型输出一组二维预测,两个维度分别表示该实体对之间存在治疗关系的概率及不存在治疗关系的概率,模型基于交叉熵损失函数进行训练,其中正样本是那些已知存在治疗关系的实体对,其标签为1,负样本通过随机采样得到,即通过随机替换一组正样本中的一个实体生成一组负样本;经过一段时间的训练后,不仅多层感知机模型的参数得到了优化,关系感知图注意力网络、注意力机制的参数及实体和关系的表示向量也将得到更新。
9.如权利要求1所述的融合多源知识图谱的药物重定位方法,其特征在于,所述步骤5具体包括
基于训练好的模型,将感兴趣的药物-疾病实体对的表示向量输入多层感知机分类模型,即可得到其预测向量,若存在治疗关系的概率大于不存在治疗关系的概率,即可预测该药物具有治疗该疾病的功能;否则,预测该药物不具备治疗该疾病的功能。
10.一种融合多源知识图谱的药物重定位系统,其特征在于,包括:
数据采集与预处理模块,用于采集多源、多语种生物医药数据,根据语种将数据分类存储,并抽取其中的实体和关系形成多源、多语种生物医药知识图谱;
实体对齐模块,用于获取词向量并计算实体的初始表征向量,进而根据实体的初始表征向量计算实体相似度并开展实体对齐,形成高置信度对齐锚链;
知识融合表示模块,用于构建由关系感知图注意力网络、注意力机制及多层感知机组成的药物重定位模型,并利用关系感知注意力网络聚合知识图谱内部信息,利用注意力机制聚合对齐实体信息,得到实体和关系的表示向量;
药物重定位训练模块,用于对已知存在治疗关系的药物-疾病实体对构建正样本,并通过负采样构建负样本实体对,从而利用正负样本对所述模型进行训练,得到训练好的药物重定位模型及实体和关系表示向量;
药物重定位预测模块,用于对训练好的药物重定位模型输入感兴趣的药物-疾病实体对,从而根据模型前向传播输出概率预测对应药物是否有治疗对应疾病的潜力。
11.一种融合多源知识图谱的药物重定位装置,通过如下设备进行部署应用,包括网络通信设备、存储器、处理器、显示器以及存储在所述存储器中并可在所述处理器上运行的计算机软件程序,其特征在于,基于所述网络通信设备从互联网上采集生物医药数据,并将采集的数据存储在所述存储器中,以及所述处理器执行所述计算机软件程序实现如权利要求1至9任一项所述一种融合多源知识图谱的药物重定位方法,和所述显示设备对所述处理器执行所述计算机软件程序获得数据结果进行可视化展示。
12.一种计算机软件程序,其特征在于,通过计算机软件程序的形式实现了权利要求1-9的任一项所述一种融合多源知识图谱的药物重定位方法,被部署在处理器中或云端服务器。
CN202211713801.3A 2022-12-29 2022-12-29 一种融合多源知识图谱的药物重定位方法和系统 Pending CN116434976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211713801.3A CN116434976A (zh) 2022-12-29 2022-12-29 一种融合多源知识图谱的药物重定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211713801.3A CN116434976A (zh) 2022-12-29 2022-12-29 一种融合多源知识图谱的药物重定位方法和系统

Publications (1)

Publication Number Publication Date
CN116434976A true CN116434976A (zh) 2023-07-14

Family

ID=87082120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211713801.3A Pending CN116434976A (zh) 2022-12-29 2022-12-29 一种融合多源知识图谱的药物重定位方法和系统

Country Status (1)

Country Link
CN (1) CN116434976A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737759A (zh) * 2023-08-14 2023-09-12 北京理工大学 一种基于关系感知注意力的中文查询生成sql语句方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737759A (zh) * 2023-08-14 2023-09-12 北京理工大学 一种基于关系感知注意力的中文查询生成sql语句方法
CN116737759B (zh) * 2023-08-14 2023-12-08 北京理工大学 一种基于关系感知注意力的中文查询生成sql语句方法

Similar Documents

Publication Publication Date Title
Bi et al. MobileNet based apple leaf diseases identification
EP3968337A1 (en) Target object attribute prediction method based on machine learning and related device
SG182933A1 (en) A data structure and a method for using the data structure
Jatav An algorithm for predictive data mining approach in medical diagnosis
WO2023284716A1 (zh) 一种神经网络搜索方法及相关设备
Singh et al. Multichannel CNN model for biomedical entity reorganization
Sanida et al. A heterogeneous implementation for plant disease identification using deep learning
CN116434976A (zh) 一种融合多源知识图谱的药物重定位方法和系统
Quintiliano Bezerra Silva Predicting cervical cancer with metaheuristic optimizers for training LSTM
CN115114445A (zh) 细胞知识图谱构建方法、装置、计算设备及存储介质
Fadhil et al. Multiple efficient data mining algorithms with genetic selection for prediction of SARS-CoV2
Hu et al. An edge intelligence-based generative data augmentation system for iot image recognition tasks
Feng et al. Ontology semantic integration based on convolutional neural network
Devi et al. A Novel Blunge Calibration Intelligent Feature Classification Model for the Prediction of Hypothyroid Disease
Mochurad et al. A Parallel Algorithm for the Detection of Eye Disease
Singh Speech emotion recognition using enhanced cat swarm optimization algorithm
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
Uddin et al. Proposing logical table constructs for enhanced machine learning process
Jalil et al. Impact of Optimal Feature Selection Using Hybrid Method for a Multiclass Problem in Cross Project Defect Prediction
Song et al. High-Accuracy Maize Disease Detection Based on Attention Generative Adversarial Network and Few-Shot Learning
Shakeel et al. 3D convolution recurrent neural networks for multi-Label earthquake magnitude classification
Pathuri et al. Feature-Based Sentimental Analysis on Public Attention towards COVID-19 Using CUDA-SADBM Classification Model
Tan et al. An SSD-MobileNet acceleration strategy for FPGAs based on network compression and subgraph fusion
Mahali et al. A Dual Architecture Fusion and AutoEncoder for Automatic Morphological Classification of Human Sperm
Pan et al. A method of Sustainable Development for three Chinese short-text datasets based on BERT-CAM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination