CN109783618B - 基于注意力机制神经网络的药物实体关系抽取方法及系统 - Google Patents

基于注意力机制神经网络的药物实体关系抽取方法及系统 Download PDF

Info

Publication number
CN109783618B
CN109783618B CN201811510566.3A CN201811510566A CN109783618B CN 109783618 B CN109783618 B CN 109783618B CN 201811510566 A CN201811510566 A CN 201811510566A CN 109783618 B CN109783618 B CN 109783618B
Authority
CN
China
Prior art keywords
neural network
word
attention mechanism
sentences
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811510566.3A
Other languages
English (en)
Other versions
CN109783618A (zh
Inventor
张亮仁
杨波
刘振明
宗晓琳
胡建星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201811510566.3A priority Critical patent/CN109783618B/zh
Publication of CN109783618A publication Critical patent/CN109783618A/zh
Application granted granted Critical
Publication of CN109783618B publication Critical patent/CN109783618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该方法包括:(1)解析药化文献的文本内容,以句子为基本单位分句,并对句子中的每个词进行向量化表示;(2)将向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。本发明增加注意力机制关注实体类别信息权重的分类方法能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。

Description

基于注意力机制神经网络的药物实体关系抽取方法及系统
技术领域
本发明属于自然语言处理领域,涉及一种信息抽取技术,特别涉及一种药物化学文献中药物实体相互作用关系的抽取方法及系统。
背景技术
药化实体关系抽取是药物化学知识库构建中的基本任务,所建系统自动从文献中抽取实体之间的关系,为疾病治疗、药物开发、生命科学研究提供了更为重要的参考价值,为药物化学知识数据库的构建和维护提供更深层的信息。实体关系抽取是药化知识获取的基石,以此构建知识库提高对药物化学现象的认知水平。
由于药化文献中同一语句中的药化实体之间关系比较明确,因此本发明只考虑同一语句中的抽取结果。将关系抽取问题转化为有监督的多类分类问题,目的在于从文献中识别出发生相互作用的药化实体对。相比于其它类型的关系抽取,药化实体相互作用关系抽取的研究较少。现有方法主要有两类:基于规则的方法与基于有监督机器学习的方法。基于有监督机器学习的方法又可细分为基于特征的方法与基于核的方法。由于缺少已标注的药化实体相互作用关系语料库,早期的药化实体相互作用关系抽取方法都是基于规则的。自DDIExtraction2011与DDIExtraction2013评测开始,许多基于机器学习的方法被用于药化实体相互作用关系抽取。
基于规则的方法,这类方法认为表达作用关系的语句结构是固定有限的。Segura-Bedmar的研究是一个典型的基于规则的系统。该系统对语句进行浅层分析检测语句中的语法结构,根据规则将分割复杂长句,然后根据药剂师制定的描述的规则,从短句中抽取相互作用的药化实体对。
基于特征的方法,将关系抽取看作一个分类问题,用各种不同类型的特征显式地将候选关系实例表示成一个特征向量,然后使用有监督的机器学习模型将候选关系实例分类。药化实体相互作用关系抽取中最常用的分类模型是支持向量机。
基于核的方法,核函数的选择对方法性能影响很大。Airola等人采用基于图结构核函数的全路径图核来表示蛋白质关系并建立依存关系图。Chowdhury等人将3个不同的核函数线性加权得到一个复合核函数,用于关系抽取,在DDIExtraction 2013评测的药化实体相互作用关系抽取任务中取得最好的性能。
实践表明基于规则的方法对长句复杂的关系抽取效果不好,而药化领域文献中包含大量同位语、并列结构等复杂结构的长句;制定规则耗时耗力且需要专业领域人员参与;此外,人工编制的规则很难覆盖所有的应用文本场景。现有研究关注基于有监督机器学习的方法,此类方法具有较好的性能与可移植性,但方法依赖于外部的自然语言处理工具,如果外部工具出错会造成错误传播,影响性能。
发明内容
本发明针对上述问题,提出一种有效快捷的基于注意力机制神经网络的药化实体关系抽取方法及系统,目的在于从药化文献中识别出发生相互作用的药化实体对。
目前卷积神经网络模型在文本处理任务中具有较好的性能,本发明引入注意力机制进一步对所关注类别信息赋予重要性权重,降低了具有药化文献语言风格的长句、复杂句所带来错误句法依存信息的影响,提高关系抽取的准确率。
本发明采用的技术方案如下:
一种基于注意力机制神经网络的药物实体关系抽取方法,其步骤包括:
(1)解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;
(2)将步骤(1)的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;
(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;
(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。
进一步地,步骤(1)解析文本内容得到的向量包含:词向量、位置向量、词性特征向量,将这三者合并作为步骤(2)中循环神经网络的输入向量。
进一步地,步骤(1)中的词向量通过已有开源算法获得。
进一步地,步骤(2)所述循环神经网络为双向长短期记忆网络。
进一步地,步骤(3)所述注意力机制神经网络是一个单层的前馈神经网络,对各词间重要性进行权重计算。
进一步地,步骤(4)通过卷积神经网络对句子中的实体词两两间抽取句子级特征向量,作为最终的特征向量,用于最终关系分类。
一种基于注意力机制神经网络的药物实体关系抽取系统,其包括:
文献解析模块,负责解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;
文本内容分析模块,负责将所述文献解析模块得到的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;
注意力机制模块,负责通过注意力机制神经网络获得句子中的词间重要性权重,并将其与所述注意力机制模块的输出合并;
分类模块,负责利用所述注意力机制模块和所述文本内容分析模块的合并后的输出结果,通过卷积神经网络对各药化实体词两两预测类别关系。
与现有技术相比,本发明的有益效果如下:
根据背景分析介绍,传统的关系提取方法对长句复杂的关系抽取效果不好,而药化领域文献中包含大量同位语、并列结构等复杂结构的长句,因此无法满足药化这一特定领域的实体关系提取要求。本发明提出的注意力机制神经网络分类方法,是通过增加注意力机制关注实体类别信息权重的分类方法,能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。
本发明的药物实体关系抽取方法,能够自动从文献中抽取实体之间的关系,为疾病治疗、药物开发、生命科学研究提供重要的参考价值,为药物化学知识数据库的构建和维护提供更深层的信息。
附图说明
图1为本发明方法的流程图。
图2为提取各药化实体词之间两两关系示意图。
图3为本发明应用注意力机制示意图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明的技术方法为,从文本内容解析实现向量化输入,将合并的输入向量通过循环神经网络分析各词的关联特征及获得药化实体,然后通过注意力机制关注实体类别信息权重,合并权重信息和关联特征作为卷积神经网络分类器的输入,输出结果为对实体间相互的类别信息。
图1是本发明方法的总体流程图。该方法的步骤如下:
(1)对文本内容分句并获得各个词作为句子的基本元素。根据word2vec算法构造预处理词向量与文本内容中各个词匹配获得的词向量,提取词的位置向量及词性特征向量,并合并作为循环神经网络输入向量。其中,词的位置向量是指某一词在所在句子的位置的表示,例如句子首词表示为0,第二个词表示为1等;词性特征向量是指如果识别某一词为名词则将其向量化表示为00,如果为动词表示为01等等。
图2通过例句“Phenytoin serum phenytoin levels may be increased byaspirin.”展示提取各药化实体词之间两两关系流程。图2中的x为训练文本数据,y为训练数据给出类别标记。其中,x1、x2、x3、x4表示将句子以词为单位分割的结果,NP为名词短语缩写,VP为动词短语缩写,Drug表示为药物类别,false表示两个药物不存在相互关系,True表示存在关系。
(2)根据标记好的文本数据进行训练,得到循环神经网络模型的内部参数。循环神经网络为双向长短期记忆网络(Bi-LSTM)。该步骤构造循环神经网络各个层参数,如权重矩阵参数及偏置矩阵参数;该层输出获得文本内容的药化实体信息及词的关联特征。
其中,药化实体信息是指药化实体是否存在相互关联关系,关联特征是各药化实体是否存在关系的表征。图1中Bi-LSTM层的
Figure BDA0001900635920000041
表示第三层隐藏层,
Figure BDA0001900635920000042
表示反向隐藏层、
Figure BDA0001900635920000043
表示正向隐藏层,
Figure BDA0001900635920000044
表示第一层隐藏层。
(3)通过注意力机制神经网络获得词间重要性权重关系并与步骤(2)所得输出合并。
图3中左边的(a)图为注意力机制权重计算方法,右边的(b)图将例句中各词间计算所得重要性权重串联为重要性权重向量。图3中(a)图的两词间权重计算按如下公式所示:
Figure BDA0001900635920000045
Figure BDA0001900635920000046
其中:
输入的词特征向量为:
Figure BDA0001900635920000047
N为句子词数量,
Figure BDA0001900635920000048
表示自然数,F表示特征维度;
待输出的重要性权重特征向量为:
Figure BDA0001900635920000049
eij表示词xj对词xi通过ReLU函数对两个词向量执行一次非线性变换计算获得的重要性信息;
Figure BDA00019006359200000410
为权重矩阵,参数通过训练本层神经网络获得;
aij为通过softmax函数正则化获得的词xi与句子中其它词的重要性权重关系向量。
图3中(b)图将例句中各词间计算所得重要性权重串联为重要性权重向量。其中
Figure BDA0001900635920000051
为图2中的词x1、x2、x3、x4的特征向量,(b)图中每一个aij计算方法如(a)图的方法,然后按照aij角标顺序连接而成,
Figure BDA0001900635920000052
是aij的特征向量。
(4)通过基于卷积神经网络的分类器分类药化实体关系。
卷积神经网络本身具有提取句子级别特征的机制,卷积神经网络会根据卷积神经网络算法对文本内容实现分类功能。以图2为例,两个实体具有相互关系为true,需要通过领域内的背景知识标注。
本发明另一实施例提供一种基于注意力机制神经网络的抽取药化实体关系系统,其包括:
文献解析模块,负责解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;
文本内容分析模块,负责将所述文献解析模块得到的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;
注意力机制模块,负责通过注意力机制神经网络获得句子中的词间重要性权重,并将其与所述注意力机制模块的输出合并;
分类模块,负责利用所述注意力机制模块和所述文本内容分析模块的合并后的输出结果,通过卷积神经网络对各药化实体词两两预测类别关系。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于注意力机制神经网络的药物实体关系抽取方法,其特征在于,包括以下步骤:
(1)解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;
(2)将步骤(1)的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药物实体;
(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;
(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药物实体词两两预测类别关系。
2.根据权利要求1所述的方法,其特征在于,步骤(1)解析文本内容得到的向量包含:词向量、位置向量、词性特征向量,将这三者合并作为步骤(2)中循环神经网络的输入向量。
3.根据权利要求2所述的方法,其特征在于,步骤(1)通过word2vec算法构造词向量、位置向量、词性特征向量。
4.根据权利要求1所述的方法,其特征在于,步骤(2)所述循环神经网络为双向长短期记忆网络。
5.根据权利要求1所述的方法,其特征在于,步骤(3)所述注意力机制神经网络为单层注意力机制前馈神经网络。
6.根据权利要求5所述的方法,其特征在于,步骤(3)所述词间重要性权重按如下公式计算:
Figure FDA0002692272900000011
Figure FDA0002692272900000012
其中,输入的词特征向量为:
Figure FDA0002692272900000013
N为句子词数量,
Figure FDA0002692272900000014
表示自然数,F表示输入的词特征向量的特征维度;待输出的重要性权重特征向量为:
Figure FDA0002692272900000015
Figure FDA0002692272900000016
F'表示待输出的重要性权重特征向量的特征维度;eij表示词xj对词xi通过ReLU函数对两个词向量执行一次非线性变换计算获得的重要性信息;
Figure FDA0002692272900000017
Figure FDA0002692272900000018
为权重矩阵,参数通过训练本层神经网络获得;aij为通过softmax函数正则化获得的词xi与句子中其它词的重要性权重关系向量。
7.根据权利要求1所述的方法,其特征在于,根据标记好的语料进行分类训练,得到所述循环神经网络,所述注意力机制神经网络,以及所述卷积神经网络的分类器的内部参数,所述内部参数包括权重矩阵参数及偏置矩阵参数;通过训练逐渐获得最优分类结果。
8.一种基于注意力机制神经网络的药物实体关系抽取系统,其特征在于,包括:
文献解析模块,负责解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;
文本内容分析模块,负责将所述文献解析模块得到的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药物实体;
注意力机制模块,负责通过注意力机制神经网络获得句子中的词间重要性权重,并将其与所述注意力机制模块的输出合并;
分类模块,负责利用所述注意力机制模块和所述文本内容分析模块的合并后的输出结果,通过卷积神经网络对各药物实体词两两预测类别关系。
9.根据权利要求8所述的系统,其特征在于,还包括分类器训练模块,负责训练所述基于卷积神经网络的分类器。
10.根据权利要求8所述的系统,其特征在于,所述循环神经网络为双向长短期记忆网络;所述注意力机制神经网络为单层注意力机制前馈神经网络。
CN201811510566.3A 2018-12-11 2018-12-11 基于注意力机制神经网络的药物实体关系抽取方法及系统 Active CN109783618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811510566.3A CN109783618B (zh) 2018-12-11 2018-12-11 基于注意力机制神经网络的药物实体关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811510566.3A CN109783618B (zh) 2018-12-11 2018-12-11 基于注意力机制神经网络的药物实体关系抽取方法及系统

Publications (2)

Publication Number Publication Date
CN109783618A CN109783618A (zh) 2019-05-21
CN109783618B true CN109783618B (zh) 2021-01-19

Family

ID=66496691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811510566.3A Active CN109783618B (zh) 2018-12-11 2018-12-11 基于注意力机制神经网络的药物实体关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN109783618B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263019B (zh) * 2019-06-18 2021-08-31 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质
CN112395412B (zh) * 2019-08-12 2024-05-03 北京国双科技有限公司 文本分类的方法、装置以及计算机可读介质
CN110516239B (zh) * 2019-08-26 2022-12-09 贵州大学 一种基于卷积神经网络的分段池化关系抽取方法
CN110688486A (zh) * 2019-09-26 2020-01-14 北京明略软件系统有限公司 一种关系分类的方法和模型
CN111126067B (zh) * 2019-12-23 2022-02-18 北大方正集团有限公司 实体关系抽取方法及装置
CN111191035B (zh) * 2019-12-30 2022-07-19 四川大学华西医院 一种识别肺癌临床数据库文本实体的方法及装置
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN112071361B (zh) * 2020-04-11 2024-05-24 信华生物药业(广州)有限公司 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法
CN111724876B (zh) * 2020-07-21 2023-03-24 四川大学华西医院 一种用药交代与指导系统及方法
CN111898364B (zh) * 2020-07-30 2023-09-26 平安科技(深圳)有限公司 神经网络关系抽取方法、计算机设备及可读存储介质
CN111949792B (zh) * 2020-08-13 2022-05-31 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112016309B (zh) * 2020-09-04 2024-03-08 平安科技(深圳)有限公司 抽取药物组合方法、设备、装置及存储介质
CN112308326B (zh) * 2020-11-05 2022-12-13 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法
CN112463982B (zh) * 2020-11-27 2022-07-19 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN112800774B (zh) * 2021-01-15 2023-07-18 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN112906395B (zh) * 2021-03-26 2023-08-15 平安科技(深圳)有限公司 药物关系提取方法、装置、设备及存储介质
US11922129B2 (en) 2021-06-22 2024-03-05 International Business Machines Corporation Causal knowledge identification and extraction
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN114117055B (zh) * 2022-01-27 2023-03-24 浙江太美医疗科技股份有限公司 一种文本实体关系的抽取方法、装置、设备和可读介质
CN114861630B (zh) * 2022-05-10 2024-07-19 马上消费金融股份有限公司 信息获取及相关模型的训练方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107977397A (zh) * 2017-09-08 2018-05-01 华瑞新智科技(北京)有限公司 基于深度学习的互联网用户注意力指数计算方法和系统
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107977397A (zh) * 2017-09-08 2018-05-01 华瑞新智科技(北京)有限公司 基于深度学习的互联网用户注意力指数计算方法和系统
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-Level Cross-Lingual Attentive Neural Architecture for Low Resource Name Tagging;Xiaocheng Feng et al.;《TSINGHUA SCIENCE AND TECHNOLOGY》;20171231;第633-645页 *

Also Published As

Publication number Publication date
CN109783618A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783618B (zh) 基于注意力机制神经网络的药物实体关系抽取方法及系统
Zheng et al. Sentence representation method based on multi-layer semantic network
Alam et al. Domain analysis of information extraction techniques
Milosevic et al. A framework for information extraction from tables in biomedical literature
JP5356197B2 (ja) 単語意味関係抽出装置
Gómez-Adorno et al. Automatic authorship detection using textual patterns extracted from integrated syntactic graphs
Zhou et al. Chinese named entity recognition via joint identification and categorization
Santander-Cruz et al. Semantic feature extraction using SBERT for dementia detection
Altheneyan et al. Big data ML-based fake news detection using distributed learning
JPWO2014033799A1 (ja) 単語意味関係抽出装置
CN109840255A (zh) 答复文本生成方法、装置、设备及存储介质
Papadia et al. A comparison of different topic modeling methods through a real case study of italian customer care
Lucy et al. Words as gatekeepers: Measuring discipline-specific terms and meanings in scholarly publications
Quaresma et al. Event extraction and representation: a case study for the Portuguese language
Jofche et al. Named entity recognition and knowledge extraction from pharmaceutical texts using transfer learning
Barakhnin et al. Determination of the Features of the Author’s Style of AS Pushkin’s Poems by Machine Learning Methods
Feng et al. English-chinese knowledge base translation with neural network
Probierz et al. A New Method for Graph-Based Representation of Text in Natural Language Processing
Mao et al. KGGCN: Knowledge-guided graph convolutional networks for distantly supervised relation extraction
Abdou et al. Mgad: Multilingual generation of analogy datasets
Assiri et al. Comprehensive Study of Arabic Satirical Article Classification
Wang et al. Detecting coreferent entities in natural language requirements
Noh et al. Document retrieval for biomedical question answering with neural sentence matching
CN111949792B (zh) 一种基于深度学习的药物关系抽取方法
Mouratidis et al. Innovatively fused deep learning with limited noisy data for evaluating translations from poor into rich morphology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant