CN109325131A - 一种基于生物医学知识图谱推理的药物识别方法 - Google Patents
一种基于生物医学知识图谱推理的药物识别方法 Download PDFInfo
- Publication number
- CN109325131A CN109325131A CN201811127803.8A CN201811127803A CN109325131A CN 109325131 A CN109325131 A CN 109325131A CN 201811127803 A CN201811127803 A CN 201811127803A CN 109325131 A CN109325131 A CN 109325131A
- Authority
- CN
- China
- Prior art keywords
- drug
- disease
- target
- vector
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
Abstract
一种基于生物医学知识图谱推理的药物识别方法,该方法包括以下步骤:S1、下载生物医学文本数据;S2、构造生物医学知识图谱;S3、构造药物‑靶标‑疾病关系数据集;S4、使用图嵌入的方法对图进行表示学习;S5、训练基于长短记忆神经网络的药物发现模型步骤;S6、使用训练好的模型进行药物识别步骤。本发明适用于寻找疾病潜在的治疗药物,不限于疾病和药物的种类;能够有效的从文献中发现治疗疾病的药物,对药物发现领域具有重要的意义。
Description
技术领域
本发明涉及数据挖掘方法领域,尤其是一种基于生物医学知识图谱推理的药物识别方法。
背景技术
药物发现(drug discovery)是医药产业发展的核心驱动力,也是社会发展的重要需求。目前主要存在两类药物发现的方法,分别是高通量筛选(High-throughputscreening,HTS)和计算机辅助药物发现方法(computer-aided drug discovery/design,CADD)。然而,尽管药物研发模式和技术有了巨大革新,药物发现依旧是一个十分漫长且耗资巨大的过程,开发一款新药平均需要14年时间,耗资约18亿美元。因此,如何提高药物发现的效率具有重大的理论价值和实用价值。
从已发表的生物医学文献中发现新的药物是一种经济安全的药物发现方法。已发表的生物医学文献中隐含着无法治愈疾病的潜在治疗方法,比如雷诺士病(RaynaudDisease)在1986年以前是一种无法治愈的疾病,Don R.Swanson通过阅读一部分医学文献发现雷诺士病的患者都伴随血粘稠度升高、血脂升高等医学特征;Swanson又通过阅读另一部分医学文献发现食用鱼油(Fish Oil)可以降低血脂、降低血粘稠度等现象。因此Swanson作出了食用鱼油可以治疗雷诺士病的假设,这个结论在两年后被临床试验所验证。因此,使用文本挖掘(literature mining)进行药物发现是一个可行的方法。现有的文本挖掘相关的药物发现方法主要分以下几种:
一、基于共现的方法:该方法主要通过与药物和疾病都相关的中间物质来推断药物和疾病可能存在的关系。
二、基于语义的方法:该方法首先通过关系抽取等技术有选择性的从文献中抽取出药物-实体、疾病-实体关系,再利用已抽取的关系作出药物-疾病关系预测。
三、基于图结构的方法:该方法首先通过抽取得到的实体关系构造一个网络,然后在该网络上使用聚类、分类等机器学习算法进行药物-疾病关系预测。
然而,近年来随着生物医学领域的快速发展,生物医学文献数量呈指数性增加,海量的文献和信息为现有的文本挖掘方法带来了难题。
发明内容
本发明的目的是提供一种能够充分利用现有的海量医学文献进行药物识别,并可辅助药物研发工作的基于生物医学知识图谱推理的药物识别方法。
本发明解决现有技术问题所采用的技术方案:一种基于生物医学知识图谱推理的药物识别方法,包括以下步骤:
S1、下载生物医学文本数据:在医学文献检索系统中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;
S2、构造生物医学知识图谱:包括以下步骤:
a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;
a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;
a3、构造生物医学知识图谱:利用步骤a2得到的实体间关系数据集S构造知识图谱;在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,知识图谱中的边为实体间关系数据集S中生物实体间关系,从而得到生物医学知识图谱;
S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;
以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π2,π3...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2,π'3...π'l}作为训练药物发现模型的负例路径数据;
S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用TherapeuticTargetDatabase数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;
S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络对步骤S3构造好的药物-靶标-疾病关系数据集进行有监督学习建模,其具体过程如下:
b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物-靶标-疾病三元关系路径e0r0e1r1e2r2...rl-1rl中的每一个实体e0,e1,e2,...,el-1,el和生物实体间关系r0,r1,r2,...,rl-1进行向量表示,使该药物-靶标-疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2…rl-1el,得到药物-靶标-疾病三元关系矩阵;
b2、构造及训练长短记忆神经网络:以药物-靶标-疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2…rl-1el为输入训练长短记忆神经网络:
长短记忆神经网络的构造如下:
ct=f⊙ct-1+i⊙g
ht=o⊙tanh(ct)
其中i为输入门向量,f为忘记门向量,o为输出门向量,g为临时状态向量,ct为t时刻细胞激活向量;xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数;初始输入时h0=e0,和bi,bf,bo,bg为可训练参数;
训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=-σlog(p(y|Pmatrix)),其中Pmatrix为药物-靶标-疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e-5;输出训练好的参数集合θ,其中θ包括和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);
S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为Therapeutic Target Database数据库中的所有药物靶标;然后使用打分函数对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物-靶标-疾病路径p转化为药物-靶标-疾病三元关系矩阵,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合。
医学文献检索系统以时间检索的方式下载生物医学文献。
所述医学文献检索系统为PubMed检索系统。。
本发明的有益效果在于:本发明具有以下特点:
(1)本发明可通用的在各类生物医学文献中进行药物发现,该方法不局限于某类(些)疾病的药物发现。
(2)本发明可给出药物的作用机制(Mechanism ofAction),从而可辅助医学研究人员进一步理解、研究药物-疾病关系,进而辅助药物不良反应预测、精确医疗等领域。
附图说明
图1为本发明总体流程图。
图2为本发明构造的生物医学知识图谱的结构示意图。
图3为本发明训练药物发现模型的逻辑结构示意图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
图1为本发明一种基于生物医学知识图谱推理的药物识别方法总体流程图。一种基于生物医学知识图谱推理的药物识别方法,包括以下步骤:
S1、下载生物医学文本数据:利用医学文献检索系统PubMed以时间检索的方式下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;
S2、构造生物医学知识图谱:包括以下步骤:
a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;如表1所示,SemRep从表中所示的文本中抽取出4个实体间关系。其中“|”左边为实体名称,右边为实体的类型。
表1实体间关系抽取示例
a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;
a3、构造生物医学知识图谱:利用步骤a2得到的实体关系数据集S构造知识图谱;如图2所示,在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,其属性包括该实体的语义类型、该语义类型被抽取出的次数及抽取出该实体关系的文档号(PMID号)。知识图谱中的边为实体间关系数据集S中生物实体间关系,其属性包括该关系被抽取出的次数及抽取出该关系的文档号(PMID号),得到生物医学知识图谱;
S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;
以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π2,π3...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2,π'3...π'l}作为训练药物发现模型的负例路径数据。
S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法(Graph Embeddingmethod)将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用TherapeuticTarget Database数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;
S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络(LSTM)对步骤S3构造好的药物-靶标-疾病关系数据集进行有监督学习建模,其具体过程如下:
b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物-靶标-疾病三元关系路径e0r0e1r1e2r2...rl-1el中的每一个实体e0,e1,e2,...,el-1,el和生物实体间关系r0,r1,r2,...,rl-1进行向量表示,使该药物-靶标-疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2...rl-1el,得到药物-靶标-疾病三元关系矩阵;
b2、构造及训练长短记忆神经网络:以药物-靶标-疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2...rl-1el为输入训练长短记忆神经网络:
长短记忆神经网络的构造如下:
ct=f⊙ct-1+i⊙g
ht=o⊙tanh(ct)
其中i为输入门(input gate)向量,f为忘记门(forget gate)向量,o为输出门(output gate)向量,g为临时状态向量,ct为t时刻细胞(cell)激活向量。xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数。初始输入时h0=e0,和bi,bf,bo,bg为可训练的向量形式的参数。当模型训练好后,这些参数用于计算输入模型的药物-靶标关系矩阵。
训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=-σlog(p(y|Pmatrix)),其中Pmatrix为药物-靶标-疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e-5;输出训练好的参数集合θ,其中θ包括和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);
S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为TherapeuticTargetDatabase数据库中的所有药物靶标;然后使用打分函数对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物-靶标-疾病路径p转化为药物-靶标-疾病关系矩阵Pmatrix,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合,其中,θ包括和bi,bf,bo,bg。
如表2所示,对于给定疾病冠心病(cardiovascular disease),本发明的方法发现碘克酸(ioxaglate)可以治疗冠心病(cardiovascular disease),该候选药物的分数为0.57分,在所有候选药物中排名第1。经TTD(Therapeutic Target Database)数据库证实碘克酸(ioxaglate)确实可以治疗冠心病,但其作用机制尚不明确。我们的方法给出其作用机制如表2所示。
表2药物发现示例
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种基于生物医学知识图谱推理的药物识别方法,其特征在于:包括以下步骤:
S1、下载生物医学文本数据:在医学文献检索系统中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;
S2、构造生物医学知识图谱:包括以下步骤:
a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;
a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;
a3、构造生物医学知识图谱:利用步骤a2得到的实体间关系数据集S构造知识图谱;在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,知识图谱中的边为实体间关系数据集S中生物实体间关系,从而得到生物医学知识图谱;
S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;
以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π2,π3...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2,π'3...π'l}作为训练药物发现模型的负例路径数据;
S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用Therapeutic Target Database数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;
S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络对步骤S3构造好的药物-靶标-疾病关系数据集进行有监督学习建模,其具体过程如下:
b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物-靶标-疾病三元关系路径e0r0e1r1e2r2…rl-1el中的每一个实体e0,e1,e2,...,el-1,el和生物实体间关系r0,r1,r2,...,rl-1进行向量表示,使该药物-靶标-疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2…rl-1el,得到药物-靶标-疾病三元关系矩阵;
b2、构造及训练长短记忆神经网络:以药物-靶标-疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2…rl-1el为输入训练长短记忆神经网络:
长短记忆神经网络的构造如下:
ct=f⊙ct-l+i⊙g
ht=o⊙tanh(ct)
其中i为输入门向量,f为忘记门向量,o为输出门向量,g为临时状态向量,ct为t时刻细胞激活向量;xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数;初始输入时h0=e0,和bi,bf,bo,bg为可训练参数;
训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=-σlog(p(y|Pmatrix)),其中Pmatrix为药物-靶标-疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e-5;输出训练好的参数集合θ,其中θ包括和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);
S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为Therapeutic Target Database数据库中的所有药物靶标;然后使用打分函数对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物-靶标-疾病路径p转化为药物-靶标-疾病三元关系矩阵,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合。
2.根据权利要求1所述的一种基于生物医学知识图谱推理的药物识别方法,其特征在于:医学文献检索系统以时间检索的方式下载生物医学文献。
3.根据权利要求1所述的一种基于生物医学知识图谱推理的药物识别方法,其特征在于:所述医学文献检索系统为PubMed检索系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811127803.8A CN109325131B (zh) | 2018-09-27 | 2018-09-27 | 一种基于生物医学知识图谱推理的药物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811127803.8A CN109325131B (zh) | 2018-09-27 | 2018-09-27 | 一种基于生物医学知识图谱推理的药物识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325131A true CN109325131A (zh) | 2019-02-12 |
CN109325131B CN109325131B (zh) | 2021-03-02 |
Family
ID=65265018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811127803.8A Active CN109325131B (zh) | 2018-09-27 | 2018-09-27 | 一种基于生物医学知识图谱推理的药物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325131B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609907A (zh) * | 2019-09-17 | 2019-12-24 | 湖南大学 | 一种基于随机游走的医药领域知识推理方法 |
CN110618987A (zh) * | 2019-09-18 | 2019-12-27 | 宁夏大学 | 基于肺癌医学大数据的治疗通路关键结点信息处理方法 |
CN111161213A (zh) * | 2019-12-09 | 2020-05-15 | 浙江大学 | 一种基于知识图谱的工业产品缺陷图像分类方法 |
CN111554360A (zh) * | 2020-04-27 | 2020-08-18 | 大连理工大学 | 基于生物医学文献和领域知识数据的药物重定位预测方法 |
CN111696685A (zh) * | 2020-06-04 | 2020-09-22 | 大连理工大学 | 面向新冠病毒治疗药物的药物重定位方法及其应用 |
CN111814460A (zh) * | 2020-07-06 | 2020-10-23 | 四川大学 | 基于外部知识的药物相互作用关系抽取方法及系统 |
CN112017735A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于关系抽取及知识推理的药物发现方法、装置及设备 |
CN112131399A (zh) * | 2020-09-04 | 2020-12-25 | 牛张明 | 基于知识图谱的老药新用分析方法和系统 |
WO2021098372A1 (zh) * | 2019-11-18 | 2021-05-27 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
CN113140254A (zh) * | 2021-04-28 | 2021-07-20 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN113161013A (zh) * | 2021-04-29 | 2021-07-23 | 中南大学湘雅三医院 | 一种可解释的基于文献知识图谱的药物不良反应发现方法 |
CN114582443A (zh) * | 2022-02-23 | 2022-06-03 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114582459A (zh) * | 2022-01-27 | 2022-06-03 | 中南大学湘雅三医院 | 基于诊疗数据的信息处理方法、装置、设备及存储介质 |
CN115662647A (zh) * | 2022-12-27 | 2023-01-31 | 北京大学第三医院(北京大学第三临床医学院) | 一种相似疾病挖掘的方法和应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
WO2017122785A1 (en) * | 2016-01-15 | 2017-07-20 | Preferred Networks, Inc. | Systems and methods for multimodal generative machine learning |
-
2018
- 2018-09-27 CN CN201811127803.8A patent/CN109325131B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
WO2017122785A1 (en) * | 2016-01-15 | 2017-07-20 | Preferred Networks, Inc. | Systems and methods for multimodal generative machine learning |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
Non-Patent Citations (4)
Title |
---|
D.S.CAO等: "Computational prediction of drug–target interactions using chemical biological and network features", 《MOLECULAR INFORMATICS》 * |
I.I.BASKI等: "A renaissance of neural networks in drug discovery", 《EXPERT OPINION DRUG DISCOVERY》 * |
于彤等: "大型中医药知识图谱构建研究", 《中国数字医学》 * |
李志鹏: "基于深度学习的药物隐含知识发现研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609907A (zh) * | 2019-09-17 | 2019-12-24 | 湖南大学 | 一种基于随机游走的医药领域知识推理方法 |
CN110618987A (zh) * | 2019-09-18 | 2019-12-27 | 宁夏大学 | 基于肺癌医学大数据的治疗通路关键结点信息处理方法 |
WO2021098372A1 (zh) * | 2019-11-18 | 2021-05-27 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
CN111161213A (zh) * | 2019-12-09 | 2020-05-15 | 浙江大学 | 一种基于知识图谱的工业产品缺陷图像分类方法 |
CN111161213B (zh) * | 2019-12-09 | 2022-03-11 | 浙江大学 | 一种基于知识图谱的工业产品缺陷图像分类方法 |
CN111554360A (zh) * | 2020-04-27 | 2020-08-18 | 大连理工大学 | 基于生物医学文献和领域知识数据的药物重定位预测方法 |
CN111696685A (zh) * | 2020-06-04 | 2020-09-22 | 大连理工大学 | 面向新冠病毒治疗药物的药物重定位方法及其应用 |
CN111814460B (zh) * | 2020-07-06 | 2021-02-09 | 四川大学 | 基于外部知识的药物相互作用关系抽取方法及系统 |
CN111814460A (zh) * | 2020-07-06 | 2020-10-23 | 四川大学 | 基于外部知识的药物相互作用关系抽取方法及系统 |
CN112017735A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于关系抽取及知识推理的药物发现方法、装置及设备 |
CN112131399A (zh) * | 2020-09-04 | 2020-12-25 | 牛张明 | 基于知识图谱的老药新用分析方法和系统 |
CN112017735B (zh) * | 2020-09-04 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于关系抽取及知识推理的药物发现方法、装置及设备 |
WO2021159758A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于关系抽取及知识推理的药物发现方法、装置及设备 |
CN113140254A (zh) * | 2021-04-28 | 2021-07-20 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN113140254B (zh) * | 2021-04-28 | 2023-08-25 | 厦门大学 | 元学习药物-靶点相互作用预测系统及预测方法 |
CN113161013A (zh) * | 2021-04-29 | 2021-07-23 | 中南大学湘雅三医院 | 一种可解释的基于文献知识图谱的药物不良反应发现方法 |
CN114582459A (zh) * | 2022-01-27 | 2022-06-03 | 中南大学湘雅三医院 | 基于诊疗数据的信息处理方法、装置、设备及存储介质 |
CN114582459B (zh) * | 2022-01-27 | 2023-04-18 | 中南大学湘雅三医院 | 基于诊疗数据的信息处理方法、装置、设备及存储介质 |
CN114582443A (zh) * | 2022-02-23 | 2022-06-03 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114582443B (zh) * | 2022-02-23 | 2023-08-18 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN115662647A (zh) * | 2022-12-27 | 2023-01-31 | 北京大学第三医院(北京大学第三临床医学院) | 一种相似疾病挖掘的方法和应用 |
CN115662647B (zh) * | 2022-12-27 | 2024-03-12 | 北京大学第三医院(北京大学第三临床医学院) | 一种相似疾病挖掘的方法和应用 |
Also Published As
Publication number | Publication date |
---|---|
CN109325131B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325131A (zh) | 一种基于生物医学知识图谱推理的药物识别方法 | |
CN104516942B (zh) | 概念驱动的自动分节标识 | |
Mirkin | Mathematical classification and clustering | |
MacCormack | Nature, culture and gender: a critique | |
CN106919793A (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
CN110032648A (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN112136145A (zh) | 用于多实例学习的注意力过滤 | |
Khafaga et al. | Data Mining Techniques in Predictive Medicine: An Application in hemodynamic prediction for abdominal aortic aneurysm disease | |
CN107656952A (zh) | 平行智能病例推荐模型的建模方法 | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN109920540A (zh) | 辅助诊疗决策系统的构建方法、装置及计算机设备 | |
Nguyen | A discussion on interpretability of linguistic rule based systems and its application to solve regression problems | |
CN111048167A (zh) | 一种层级式病例结构化方法及系统 | |
Ermel et al. | Literature reviews: modern methods for investigating scientific and technological knowledge | |
Li et al. | Chemical-induced disease extraction via recurrent piecewise convolutional neural networks | |
CN114783603A (zh) | 基于多源图神经网络融合的患病风险预测方法及系统 | |
CN114969369A (zh) | 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法 | |
Wang et al. | Assistant diagnosis with Chinese electronic medical records based on CNN and BiLSTM with phrase-level and word-level attentions | |
Li et al. | Chemical-induced disease extraction via convolutional neural networks with attention | |
CN110299194B (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
Wang et al. | A plant disease recognition method based on fusion of images and graph structure text | |
CN112786190B (zh) | 一种多维数据融合的医疗健康诊疗方法 | |
Vogt | Learning from Linnaeus: towards developing the foundation for a general structure concept for morphology | |
Alicea et al. | Data-theoretical synthesis of the early developmental process | |
Wang et al. | Predicting polypharmacy side effects based on an enhanced domain knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |