CN112017735A - 基于关系抽取及知识推理的药物发现方法、装置及设备 - Google Patents

基于关系抽取及知识推理的药物发现方法、装置及设备 Download PDF

Info

Publication number
CN112017735A
CN112017735A CN202010923911.7A CN202010923911A CN112017735A CN 112017735 A CN112017735 A CN 112017735A CN 202010923911 A CN202010923911 A CN 202010923911A CN 112017735 A CN112017735 A CN 112017735A
Authority
CN
China
Prior art keywords
gene
substance
disease
relationship
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010923911.7A
Other languages
English (en)
Other versions
CN112017735B (zh
Inventor
张圣
顾大中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010923911.7A priority Critical patent/CN112017735B/zh
Priority to PCT/CN2020/125145 priority patent/WO2021159758A1/zh
Publication of CN112017735A publication Critical patent/CN112017735A/zh
Application granted granted Critical
Publication of CN112017735B publication Critical patent/CN112017735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本申请涉及人工智能,揭示了一种基于关系抽取及知识推理的药物发现方法、装置和计算机设备,其中方法包括:利用关系抽取模型获得物质‑基因实体对和基因‑疾病实体对的关系类型,根据物质‑基因实体对的关系类型计算物质靶向基因的第一可能性得分;根据基因‑疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;计算物质作为疾病的治疗物质的第三可能性得分。所述关系抽取模型可以储存在区块链中。本申请的方法,从海量的医学文献中自动抽取物质‑基因、基因‑疾病的关系类型,并利用知识推理药物具有治疗效果或者具有潜在治疗效果的物质,避免了基于化合物结构性质相似度的方案的高成本和低召回,可以获取更多潜在疗效的物质。

Description

基于关系抽取及知识推理的药物发现方法、装置及设备
技术领域
本申请涉及到人工智能领域,特别是涉及到一种基于关系抽取及知识推理的药物发现方法、装置和计算机设备。
背景技术
辅助药物研发的主要技术是发现或寻找对疾病有疗效或者有潜在治疗效果的物质,支撑后续的药物研发过程。目前对于药物发现的技术主要利用药理物质的化学结构以及性质的相似性发现新药,这种方式需要依赖高质量的知识丰富的化学物结构、性质、相互作用的知识库,构建成本极高,而且很多化合物新被研究出来的知识、性质无法被利用。
关于新药研发的另一个主要思路是从海量的文献中自动挖掘物质、疾病之间的治疗关系,从而发现候选的药物,不过这种方式挖掘到的很多都是已经存在的知识,对于药物发现的推动性不大。
目前,已经有相关技术利用医学知识图谱中的药物-靶标-疾病来寻找潜在的治疗药物,但关于物质-基因、基因-疾病等医学关系抽取的研究基本都是针对于二元关系抽取,没有判别给定物质-基因、基因-疾病实体对的具体的关系类型(靶标、致病、靶向治疗等具体的关系类型),无法很好的支撑药物发现。
发明内容
本申请的主要目的为提供一种基于关系抽取及知识推理的药物发现方法、装置和计算机设备,旨在解决目前的药物发现方案无法很好地发现潜在药物、成本高的技术问题。
为了实现上述发明目的,本申请提出一种基于关系抽取及知识推理的药物发现方法,包括:
利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
进一步地,所述利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型的步骤,包括:
在医学资料库中获取包含物质-基因实体对或基因-疾病实体对的自然语句,对所述自然语句进行分词处理和依存关系分析;
利用预先训练的BERT模型对每一个词进行word embedding操作,得到词向量e-wordi
利用word2vec方法对每一个词进行Denpendecy embedding操作,得到依存向量e-depi
利用公式ei=(e-wordi:e-depi),i=1,..n将每个词的词向量和依存向量串联拼接起来得到每个词的向量表示ei,其中n表示分词后的词的总数;
将向量(ei,...,en)输入到Bi-LSTM层得到隐藏向量(H1,...,Hn);
将Bi-LSTM层的输出(H1,...,Hn)进行Attention操作得到向量vector;
将向量vector通过全连接层得到输出标签y,具体公式为y=softmax(W*vector),其中W是参数,softmax是多分类任务的激活函数,y是物质-基因或基因-疾病实体对的关系类型。
进一步地,所述将Bi-LSTM层的输出(H1,...,Hn)进行Attention操作得到向量vector的步骤中所述Attention操作的计算过程为:
Figure BDA0002667672340000021
vector=∑iαiHi,i=1,...,n。
进一步地,所述物质-基因实体对的关系类型包括3种,包括:
第一物质-基因实体对关系类型,表示无法判断物质-基因的关系或者是无关系;
第二物质-基因实体对关系类型,表示可以判断判断物质靶向治疗基因;
第三物质-基因实体对关系类型,表示可以判断物质可以引起基因变化;
所述基因-疾病实体对的关系类型包括4种,包括:
第一基因-疾病实体对关系类型,表示无法判断基因-疾病的关系或者是无关系;
第二基因-疾病实体对关系类型,表示基因是疾病的靶点基因;
第三基因-疾病实体对关系类型,表示基因或基因的变化会导致疾病的产生;
第四基因-疾病实体对关系类型,表示基因和疾病的病理机制有关联。
进一步地,所述根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分的步骤包括:
统计抽取到的物质-基因实体对的不同关系类型的实体对数量;
利用公式
Figure BDA0002667672340000031
计算物质靶向基因的第一可能性得分,其中,α0、α1、α2是对应的3种物质-基因实体对关系类型的加权系数,nums0、nums1、nums2分别对应3种物质-基因实体对关系类型的实体对的数量。
进一步地,所述根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分的步骤包括:
统计抽取到的基因-疾病实体对的不同关系类型的实体对数量;
利用公式
Figure BDA0002667672340000032
计算基因作为疾病的靶向基因的第二可能性得分,其中,β0、β1、β2、β3是对应的4种基因-疾病实体对关系类型的加权系数,numt0、numt1、numt2、numt3分别对应4种基因-疾病实体对关系类型的实体对数量。
进一步地,所述通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分的步骤包括:
通过相同的基因,关联得到物质-疾病实体对;
利用公式
score(chem,dise)=∑iscore(chem,genek)*score(genek,dise)
计算物质作为疾病的治疗物质的第三可能性得分,其中genek表示关联得到相同的物质-疾病实体对的第k个不同的基因。
本申请实施例还提供一种基于关系抽取及知识推理的药物发现装置,包括:
关系抽取模块,用于利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
第一计算模块,用于根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
第二计算模块,用于根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
第三计算模块,用于通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
判断模块,用于当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于关系抽取及知识推理的药物发现方法、装置和计算机设备,从海量的医学文献中自动抽取物质-基因、基因-疾病的关系类型,并利用知识推理药物发现方案挖掘具有治疗效果或者具有潜在治疗效果的物质。避免了基于化合物结构性质相似度的方案的高成本和低召回,可以获取更多潜在疗效的物质。
附图说明
图1为本申请一实施例的基于关系抽取及知识推理的药物发现方法的流程示意图;
图2为本申请一实施例的关系抽取模型的结构示意图;
图3为本申请一实施例的自然语句依存关系举例示意图;
图4为本申请一实施例的基于关系抽取及知识推理的药物发现装置的结构示意框图;
图5为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种基于关系抽取及知识推理的药物发现方法,涉及人工智能领域,包括步骤:
S1、利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
S2、根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
S3、根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
S4、通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
S5、当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
如上述步骤S1所述,首先需要从海量的医学文献中抽取物质-基因、基因-疾病关系抽取,使用关系抽取模型进行医学关系抽取,根据包含物质-基因、基因-疾病实体对的医学文本的语义信息判断物质-基因、基因-疾病实体对的关系类型。
目前大部分的医学关系抽取工作仅仅局限于二元关系(有无关联),本实施例抽取的物质-基因、基因-疾病的具体关系类型如下表所示:
Figure BDA0002667672340000061
其中,第一列是关系类型的id(rel-id),第二列是关系类型的具体解释。从表中可以看出基因-疾病(gene-disease)有4种关系类型,物质-基因(chemical-gene)有3中关系类型。
如上述步骤S2~S4所述,在进行医学关系抽取后,可以获取大量的物质-基因实体的关系类型、基因-疾病实体对的关系类型。以基因-疾病的实体对为例,将关系抽取得到数据通过简单转换可以得到以下的数据:<gene_a,dise_b,rel_c,nums>,其中a,b表示相应gene、disease的实体,c表示相应的关系类别,如gene-disease的关系类型有4种,c的取值可以为0、1、2、3。nums表示该实体对-关系对应的cases数量。可以利用公式
Figure BDA0002667672340000071
来计算物质靶向基因的第一可能性得分;
利用公式.
Figure BDA0002667672340000072
计算基因作为疾病的靶向基因的第二可能性得分;
利用公式
score(chem,dise)=∑iscore(chem,genek)*score(genek,dise)来计算物质作为疾病的治疗物质的第三可能性得分,其中α0、α1、α2是对应的3种关系类型的加权系数,nums0、nums1、nums2分别对应3种物质-基因实体对关系类型的实体对的数量。β0、β1、β2、β3是对应的4种关系类型的加权系数,numt0、numt1、numt2、numt3分别对应4种基因-疾病实体对关系类型的实体对数量,genek表示关联得到相同的物质-疾病实体对的第k个不同的基因。可以理解地,可以根据实体对的关系类型确定相应的加权系数,以上表中的基因-疾病实体对为例,当类型为gene-disease-0时,表明基因和疾病基本无关,α0的取值可以设定一个很小的值,比如0.01。
如上述步骤S5所述,所述第三可能性得分越高,则说明该物质可以作为疾病的治疗物质的可能性越大,当所述第三可能性得分大于预设阈值时,则可以认为该物质为该疾病的治疗药物。
在一个实施例中,所述利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型的步骤,包括:
S11、在医学资料库中获取包含物质-基因实体对或基因-疾病实体对的自然语句,对所述自然语句进行分词处理和依存关系分析;
S12、利用预先训练的BERT模型对每一个词进行word embedding操作,得到词向量e-wordi
S13、利用word2vec方法对每一个词进行Denpendecy embedding操作,得到依存向量e-depi
S14、利用公式ei=(e-wordi:e-depi),i=1,..n将每个词的词向量和依存向量串联拼接起来得到每个词的向量表示ei,其中n表示分词后的词的总数;
S15、将向量(ei,...,en)输入到Bi-LSTM层得到隐藏向量(H1,...,Hn);
S16、将Bi-LSTM层的输出(H1,...,Hn)进行Attention操作得到向量vector;
S17、将向量vector通过全连接层得到输出标签y,具体公式为y=softmax(W*vector),其中W是参数,softmax是多分类任务的激活函数,y是物质-基因或基因-疾病实体对的关系类型。
如上述步骤所述,首先需要从医学资料库中获取包含物质、基因、疾病实体的句子集合。在本实施例中,基因的实体库使用ncbi的gene实体库,物质和疾病的实体库采用mesh中的对应的物质实体库和疾病实体库,上述的实体库都是目前医学领域被广泛认可质量高覆盖率广的实体库。本实施例中使用的医学文献来自于Pubmed,Pubmed是最大的医学文献数据库,截止到2019年Pubmed中的医学文献3000万+。
实体库提供了物质、基因、疾病的英文标准名称以及别名,使用基因、疾病的名称从医学文献中抽取同时包含物质-基因或者基因-疾病的句子,比如“Breastfeeding andthe risk of breast cancer in BRCA1 mutation carriers.”,其中breast cancer是疾病实体库一种疾病的名称,BRAC1是基因实体库中一种基因的名称。从医学文献中获取包含给定物质-基因、基因-疾病实体的句子集合(cases集合)。然后将这些cases通过关系抽取模型可以得到一下数据:
Case 1→<case 1中的head entity,tail entity,rel>
......
Case n→<case n中的head entity,tail entity,rel>
其中,head entity表示头实体,tail entity表示尾实体,rel表示实体对的关系类别。
具体地,本实施例中设计的关系抽取模型使用到了依存关系,此处举例进行说明:
Case 1:“The profile of the BRCA1 makes it a therapeutic target forbreast cancer.”。图3是该句的依存关系(dependency),其中箭头代表句子中不同词(word)之间的依存关系指向,箭头上的文字(比如:det、nsubj、case、nmod等)表示具体的依存关系类型,自然语句的依存关系类型有广泛认可的规范化的分类。这里给定的GENE是BRAC1,给定的疾病是breast cancer。从case1中可以判断句子中给定的GENE和DISE的关系类型是gene-disease-1(target),数据格式可以保存为<BRAC1,breast cancer,gene-disease-1>。
对这样一个自然语句,首先利用BERT模型来获取每一个词的embedding表示,也就是图中的BERT embedding层获取每个词的词表示e-wordi。本身BERT模型是在通用语料文本进行预训练,在医学领域NLP任务上效果一般,本实施例中将BERT模型使用1000万的医学文献语料进行了预训练,从而可以适应于医学领域的NLP任务。使用医学文献预训练BERT模型来得到词embedding表示是本模型创新的地方之一。实验表明BERT模型得到的词embedding表示效果远好于word2vec的网络结构训练得到的词embedding。
本实施例中除了考虑每个词的embedding表示之外,还利用了每一个词的依存关系,通过Denpendecy embedding得到词的依存向量e-depi。每个词的依存关系如casel中的举例所示,每一个词都有一个指向该词的依存关系。在本实施例中,使用word2vec方法获得每个词的依存关系的embedding。以往大多数模型仅仅使用到了word embedding信息,本实施例的模型融入了依存关系的信息,可以很好地利用每个词的依存关系信息。
然后,将每个词的word embedding和dependency embedding串联拼接起来得到每个词的向量表示ei,其中ei=(e-wordi:e-depi),i=1,..n。此时每个词的维度(Dimension)等于每个词word embedding和维度加上dependency embedding的维度:dim(ei)=dim(e-wordi)+dim(e-depi),i=1,..n。
之后,将拼接后的每个词的向量(ei,...,en)输入到Bi-LSTM层可以得到隐藏向量(h1,...,hn)。LSTM是常用的循环神经网络细胞单元,在本实施例中采用了Bi-LSTM也就是双向LSTM,Bi-LSTM可以很好地学习每个词在句子中的前向以及后向的语义(上下文语义)。
再将Bi-LSTM层的输出(h1,...,hn)进行Attention操作得到vector向量,Attention操作可以综合句子中学习到的所有词的语义,从而获取得到更深层的语义表示。Attention计算过程如下:
Figure BDA0002667672340000091
vector=∑iαihi,i=1,...,n
最后,将向量vector通过全连接层得到输出标签y,具体公式如下:
y=softmax(W*vector),其中W是参数,softmax是多分类任务的激活函数。以case1为例,模型输出结果是case 1→<BRAC1,breast cancer,gene-disease-1>。
在一个实施例中,所述将Bi-LSTM层的输出(h1,...,hn)进行Attention操作得到向量vector的步骤中所述Attention操作的计算过程为:
Figure BDA0002667672340000101
vector=∑iαiHi,i=1,...,n;
如上所述,将Bi-LSTM层的输出(H1,...,Hn)进行Attention操作可以得到向量vector,Attention操作可以综合句子中学习到的所有词的语义,从而获取得到更深层的语义表示,具体计算如上所述。
在一个实施例中,所述物质-基因实体对的关系类型包括3种,所述基因-疾病实体对的关系类型包括4种。
如上所述,在本实施例中,设计了3种物质-基因实体对关系类型:chemical-gene-0表示NA:从句子中无法判断给定物质-基因的关系、或者是无关系;chemical-gene-1表示Target:从句子中可以判断给定物质靶向治疗给定基因;物质引起基因相关变化:从句子中可以判断给定物质可以引起给定的基因相关变化(比如引起基因过表达、前表达、激活、抑制等等)。本实施例中,设计了4种基因-疾病实体对关系类型:gene-disease-0表示NA:从句子中无法判断给定基因-疾病的关系、或者是无关系;gene-disease-1表示Target:从句子中可以判断给定基因是给定疾病的靶点基因;gene-disease-2表示致病:从句子中可以判断给定基因或者基因的变化(比如基因突变)会导致疾病的产生。一般来说致病基因通常也是给定的疾病的治疗靶点基因;gene-disease-3表示有关联:从句子中可以判断给定基因与疾病的病理机制有关联。将物质-基因实体对和基因-疾病实体对的关系类型细化为多种可以更加准确的表述物质、基因、疾病之间的关联程度,而将实体对的关系类型细化为更多种类又回影响模型的准确度,在本实施例中,将物质-基因实体对的关系类型分为3种,所述基因-疾病实体对的关系类型分为4种。
在一个实施例中,所述根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分的步骤包括:
统计抽取到的物质-基因实体对的不同关系类型的实体对数量;
利用公式
Figure BDA0002667672340000111
计算物质靶向基因的第一可能性得分,其中,α0、α1、α2是对应的3种物质-基因实体对关系类型的加权系数,nums0、nums1、nums2分别对应3种物质-基因实体对关系类型的实体对的数量。
如上所述,继续以上述casel中的gene-disease<BRCA1,breast cancer>实体对进行说明。从文献抽取到的关系同一个实体对在不同的cases中抽取出来的关系类型是不同的,比如:
<BRCA1,breast cancer,gene-disease-0>
<BRCA1,breast cancer,gene-disease-1>
<BRCA1,breast cancer,gene-disease-2>
<BRCA1,breast cancer,gene-disease-3>
此外同一个实体对-关系可能会从多个cases中抽取得到,从而每个实体对-关系可以计算该实体对-关系对应的cases数量。比如:
<BRCA1,breast cancer,gene-disease-0,nums_0>
<BRCA1,breast cancer,gene-disease-1,nums_1>
<BRCA1,breast cancer,gene-disease-2,nums_2>
<BRCA1,breast cancer,gene-disease-3,nums_3>
同样的对于chemical-gene实体对,也可以得到一个实体对的相关的数据:
<chemical,gene,chemical-gene-0,nums_0>
,chemical,gene,chemical-gene-1,nums_1>
<chemical,gene,chemical-gene-2,nums_2>
通过从文献抽取得到了千万级别的物质-基因实体对、基因-疾病实体对。如以上举例所示,在每一个物质-基因实体对分别统计了在3种物质-基因关系类型的抽取数量,同样的在每一个基因-疾病实体对分别统计了在4种基因-疾病关系类型的抽取数量。
对于物质-基因的关系抽取结果格式如下:<chemical,gene,nums_0,nums_1,nums_2>,nums_0、nums_1、nums_2分别表示在chemical-gene-0(NA)、chemical-gene-1(Target)、chemical-gene-2(物质引起基因相关变化)关系类型上抽取的数量。将所有抽取的物质-基因的实体对放入到集合all_chem_gene_pairs中。并且对于抽取到的每一个物质-基因实体对计算得分score,公式如下:
Figure BDA0002667672340000121
其中α0、α1、α2是对应的3种关系类型的加权系数,具体地,可以分别设置α0=0.01、α1=1、α2=0.5。这个分数计算的是每个物质-基因实体对中给定物质可以靶向给定基因的可能性得分,分数越大则说明该物质可以作为给定基因的靶向物质的可能性越大。
在一个实施例中,所述根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分的步骤包括:
统计抽取到的基因-疾病实体对的不同关系类型的实体对数量;
利用公式
Figure BDA0002667672340000122
计算基因作为疾病的靶向基因的第二可能性得分,其中,β0、β1、β2、β3是对应的4种基因-疾病实体对关系类型的加权系数,numt0、numt1、numt2、numt3分别对应4种基因-疾病实体对关系类型的实体对数量。
如上所述,对于基因-疾病的关系抽取结果格式如下:<gene,disease,nums_0,nums_1,nums_2,nums_3>,nums_0、nums_1、nums_2、nums_3分别表示在gene-disease-0(NA)、gene-disease-1(Target)、gene-disease-2(致病)、gene-disease-3(有关联)关系类型上抽取的数量。将所有抽取的基因-疾病的实体对放入到集合all_gene_dise_pairs中。并且对于抽取到的每一个基因-疾病实体对计算得分score,公式如下:
Figure BDA0002667672340000123
,其中β0、β1、β2、β3是对应的4种关系类型的加权系数,具体地,可以分别设置β0=0.01、β1=1、β2=0.9、β3=0.5。这个分数计算的是每个基因-疾病实体对中给定基因可以作为给定疾病的靶向基因的可能性得分,分数越大则说明给定基因是给定疾病的治疗靶向基因可能性越大。
在一个实施例中,所述通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分的步骤包括:
通过相同的基因,关联得到物质-疾病实体对;
利用公式
score(chem,dise)=∑iscore(chem,genek)*score(genek,dise)
计算物质作为疾病的治疗物质的第三可能性得分,其中genek表示关联得到相同的物质-疾病实体对的第k个不同的基因。
如上所述,通过相同基因进行关联,可以得到物质-疾病的实体对,对于同一个物质-疾病实体对,则可能存在通过不同的基因关联得到。因此,可以把给定物质、给定疾病关联起来的所有基因对应的物质-基因、基因-疾病实体对进行乘积后求和得到给定物质-疾病的分数。该分数越高,则说明该物质可以作为疾病的治疗物质的可能性越大。
以上,通过物质-基因、基因-疾病的关系可以推理的到物质-疾病的关系,从而实现发现对疾病的具有治疗效果或者可能具有潜在治疗效果的物质。
在一个实施例中,用于关系抽取的关系抽取模型等相关数据可以存储与区块链中,在区块链网络中实现如上所述的于基于关系抽取及知识推理的药物发现方法。
如上所述,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请实施例的基于关系抽取及知识推理的药物发现方法,利用BERT模型并引入依存关系的embedding进行关系抽取,可以学习出更深层的语义,效果优于现有深度学习关系抽取模型,可以从海量的医学文献中自动抽取物质-基因、基因-疾病的细化关系类型,并利用知识推理药物发现方案挖掘具有治疗效果或者具有潜在治疗效果的物质。避免了基于化合物结构性质相似度的方案的高成本和低召回,可以获取更多潜在疗效的物质。
参照图4,本申请实施例中还提供一种基于关系抽取及知识推理的药物发现装置,包括:
关系抽取模块1,用于利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
第一计算模块2,用于根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
第二计算模块3,用于根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
第三计算模块4,用于通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
判断模块5,用于当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
如上所述,可以理解地,本申请中提出的所述基于关系抽取及知识推理的药物发现装置的各组成部分可以实现如上所述基于关系抽取及知识推理的药物发现方法任一项的功能,具体结构不再赘述。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于关系抽取模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于关系抽取及知识推理的药物发现方法。
上述处理器执行上述的基于关系抽取及知识推理的药物发现方法,包括:利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于关系抽取及知识推理的药物发现方法,包括步骤:
利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于关系抽取及知识推理的药物发现方法,其特征在于,包括:
利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
2.根据权利要求1所述的基于关系抽取及知识推理的药物发现方法,其特征在于,所述利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型的步骤,包括:
在医学资料库中获取包含物质-基因实体对或基因-疾病实体对的自然语句,对所述自然语句进行分词处理和依存关系分析;
利用预先训练的BERT模型对每一个词进行word embedding操作,得到词向量e-wordi
利用word2vec方法对每一个词进行Denpendecy embedding操作,得到依存向量e-depi
利用公式ei=(e-wordi:e-depi),i=1,..n将每个词的词向量和依存向量串联拼接起来得到每个词的向量表示ei,其中n表示分词后的词的总数;
将向量(ei,...,en)输入到Bi-LSTM层得到隐藏向量(h1,...,hn);
将Bi-LSTM层的输出(h1,...,hn)进行Attention操作得到向量vector;
将向量vector通过全连接层得到输出标签y,具体公式为y=s0ftmax(W*vector),其中W是参数,softmax是多分类任务的激活函数,y是物质-基因或基因-疾病实体对的关系类型。
3.根据权利要求2所述的基于关系抽取及知识推理的药物发现方法,其特征在于,所述将Bi-LSTM层的输出(h1,...,hn)进行Attention操作得到向量vector的步骤中所述Attention操作的计算过程为:
Figure FDA0002667672330000021
vector=∑iαihi,i=1,...,n。
4.根据权利要求1~3任一项所述的基于关系抽取及知识推理的药物发现方法,其特征在于,所述物质-基因实体对的关系类型包括3种,包括:
第一物质-基因实体对关系类型,表示无法判断物质-基因的关系或者是无关系;
第二物质-基因实体对关系类型,表示可以判断判断物质靶向治疗基因;
第三物质-基因实体对关系类型,表示可以判断物质可以引起基因变化;
所述基因-疾病实体对的关系类型包括4种,包括:
第一基因-疾病实体对关系类型,表示无法判断基因-疾病的关系或者是无关系;
第二基因-疾病实体对关系类型,表示基因是疾病的靶点基因;
第三基因-疾病实体对关系类型,表示基因或基因的变化会导致疾病的产生;
第四基因-疾病实体对关系类型,表示基因和疾病的病理机制有关联。
5.根据权利要求1所述的基于关系抽取及知识推理的药物发现方法,其特征在于,所述根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分的步骤包括:
统计抽取到的物质-基因实体对的不同关系类型的实体对数量;
利用公式
Figure FDA0002667672330000022
计算物质靶向基因的第一可能性得分,其中,α0、α1、α2是对应的3种物质-基因实体对关系类型的加权系数,nums0、nums1、nums2分别对应3种物质-基因实体对关系类型的实体对的数量。
6.根据权利要求5所述的基于关系抽取及知识推理的药物发现方法,其特征在于,所述根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分的步骤包括:
统计抽取到的基因-疾病实体对的不同关系类型的实体对数量;
利用公式
Figure FDA0002667672330000031
计算基因作为疾病的靶向基因的第二可能性得分,其中,β0、β1、β2、β3是对应的4种基因-疾病实体对关系类型的加权系数,numt0、numt1、numt2、numt3分别对应4种基因-疾病实体对关系类型的实体对数量。
7.根据权利要求6所述的基于关系抽取及知识推理的药物发现方法,其特征在于,所述通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分的步骤包括:
通过相同的基因,关联得到物质-疾病实体对;
利用公式
score(chem,dise)=Σiscore(chem,genek)*score(genek,dise)
计算物质作为疾病的治疗物质的第三可能性得分,其中genek表示关联得到相同的物质-疾病实体对的第k个不同的基因。
8.一种基于关系抽取及知识推理的药物发现装置,其特征在于,包括:
关系抽取模块,用于利用预设的关系抽取模型对包含物质-基因实体对或基因-疾病实体对的自然语句进行实体对关系抽取,获得物质-基因实体对的关系类型和基因-疾病实体对的关系类型;
第一计算模块,用于根据物质-基因实体对的关系类型计算物质靶向基因的第一可能性得分;
第二计算模块,用于根据基因-疾病实体对的关系类型计算基因作为疾病的靶向基因的第二可能性得分;
第三计算模块,用于通过相同的基因,关联得到物质-疾病实体对,根据所述第一可能性得分和所述第二可能性得分计算物质作为疾病的治疗物质的第三可能性得分;
判断模块,用于当所述第三可能性得分大于预设阈值时,则认为物质为疾病的治疗药物。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010923911.7A 2020-09-04 2020-09-04 基于关系抽取及知识推理的药物发现方法、装置及设备 Active CN112017735B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010923911.7A CN112017735B (zh) 2020-09-04 2020-09-04 基于关系抽取及知识推理的药物发现方法、装置及设备
PCT/CN2020/125145 WO2021159758A1 (zh) 2020-09-04 2020-10-30 基于关系抽取及知识推理的药物发现方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010923911.7A CN112017735B (zh) 2020-09-04 2020-09-04 基于关系抽取及知识推理的药物发现方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112017735A true CN112017735A (zh) 2020-12-01
CN112017735B CN112017735B (zh) 2023-08-22

Family

ID=73516863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010923911.7A Active CN112017735B (zh) 2020-09-04 2020-09-04 基于关系抽取及知识推理的药物发现方法、装置及设备

Country Status (2)

Country Link
CN (1) CN112017735B (zh)
WO (1) WO2021159758A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509652A (zh) * 2021-02-03 2021-03-16 南京可信区块链与算法经济研究院有限公司 基于区块链的多方联合寻找创新药潜在靶点的方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116230091B (zh) * 2023-05-04 2023-06-30 华中农业大学 一种迭代分析生物学大样本数据的知识推理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545151A (zh) * 2017-09-01 2018-01-05 中南大学 一种基于低秩矩阵填充的药物重定位方法
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
US20190348179A1 (en) * 2018-05-11 2019-11-14 International Business Machines Corporation Predicting interactions between drugs and diseases
US20200090789A1 (en) * 2018-03-27 2020-03-19 Innoplexus Ag System and method for identifying potential targets for pharmaceutical compound
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542528B2 (en) * 2012-03-30 2017-01-10 The Florida State University Research Foundation, Inc. Automated extraction of bio-entity relationships from literature
US20190303535A1 (en) * 2018-04-03 2019-10-03 International Business Machines Corporation Interpretable bio-medical link prediction using deep neural representation
CN111276258B (zh) * 2020-01-15 2022-10-14 大连理工大学 一种基于领域知识的药物致病关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545151A (zh) * 2017-09-01 2018-01-05 中南大学 一种基于低秩矩阵填充的药物重定位方法
US20200090789A1 (en) * 2018-03-27 2020-03-19 Innoplexus Ag System and method for identifying potential targets for pharmaceutical compound
US20190348179A1 (en) * 2018-05-11 2019-11-14 International Business Machines Corporation Predicting interactions between drugs and diseases
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509652A (zh) * 2021-02-03 2021-03-16 南京可信区块链与算法经济研究院有限公司 基于区块链的多方联合寻找创新药潜在靶点的方法及系统
CN112509652B (zh) * 2021-02-03 2021-06-18 南京可信区块链与算法经济研究院有限公司 基于区块链的多方联合寻找创新药潜在靶点的方法及系统

Also Published As

Publication number Publication date
WO2021159758A1 (zh) 2021-08-19
CN112017735B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Gao et al. Limitations of transformers on clinical text classification
Shang et al. Gamenet: Graph augmented memory networks for recommending medication combination
Smirnova et al. Contextual sequence modeling for recommendation with recurrent neural networks
CN109446338A (zh) 基于神经网络的药物疾病关系分类方法
CN113160894A (zh) 药物与靶标的相互作用预测方法、装置、设备及存储介质
Xiao et al. Protein-protein interaction extraction: a supervised learning approach
CN112017735A (zh) 基于关系抽取及知识推理的药物发现方法、装置及设备
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN109033427B (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN113724815A (zh) 基于决策分群模型的信息推送方法及装置
CN111178064B (zh) 基于字段分词处理的信息推送方法、装置和计算机设备
Zhan et al. Reliably filter drug-induced liver injury literature with Natural Language processing and conformal prediction
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
Shi et al. DREAM: Drug-drug interaction extraction with enhanced dependency graph and attention mechanism
WO2021155684A1 (zh) 基因疾病关系知识库构建方法、装置和计算机设备
CN113177109A (zh) 文本的弱标注方法、装置、设备以及存储介质
Abumalloh et al. Arabic part-of-speech tagger, an approach based on neural network modelling
CN110750621A (zh) 单据数据核查处理方法、装置、计算机设备和存储介质
CN112364136B (zh) 关键词生成方法、装置、设备及存储介质
Biś et al. Layered multistep bidirectional long short-term memory networks for biomedical word sense disambiguation
CN112017736B (zh) 基于关系抽取和机器学习的药物发现方法、装置及设备
CN115130545A (zh) 数据处理方法、电子设备、程序产品及介质
Rajani Shree et al. POS Tagger Model for South Indian Language Using a Deep Learning Approach
Liu et al. Properties of sparse penalties on inferring gene regulatory networks from time‐course gene expression data
Betteridge et al. Assuming facts are expressed more than once

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant