CN110570920B - 一种基于集中注意力模型的实体、关系联合学习方法 - Google Patents

一种基于集中注意力模型的实体、关系联合学习方法 Download PDF

Info

Publication number
CN110570920B
CN110570920B CN201910767329.3A CN201910767329A CN110570920B CN 110570920 B CN110570920 B CN 110570920B CN 201910767329 A CN201910767329 A CN 201910767329A CN 110570920 B CN110570920 B CN 110570920B
Authority
CN
China
Prior art keywords
entity
attention
word
task
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910767329.3A
Other languages
English (en)
Other versions
CN110570920A (zh
Inventor
翟洁
薛魁
张欢欢
叶琪
阮彤
周扬名
马致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201910767329.3A priority Critical patent/CN110570920B/zh
Publication of CN110570920A publication Critical patent/CN110570920A/zh
Application granted granted Critical
Publication of CN110570920B publication Critical patent/CN110570920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,包括以下步骤:首先,临床文本序列以[CLS]Sequence[SEP]的形式输入Embedding层,得到每个字的初始向量表示H0;接着,将H0输入多头自注意力机制的前N‑K层,输出每个字的上下文表示信息Hm;然后,将Hm输入余下K层,得到对应实体识别和关系抽取任务的字向量表示
Figure DDA0002172373740000011
最后,输入
Figure DDA0002172373740000012
利用矩阵MASKtask、实体识别或关系分类下游任务层进行学习后,输出实体和关系信息。实验结果表明本发明方法在实体识别、关系抽取、联合学习方面均明显优于其他方法,表明其有效性。

Description

一种基于集中注意力模型的实体、关系联合学习方法
技术领域
本发明涉及面向临床文本的实体、关系联合学习技术领域,更为具体地,尤其涉及一种基于集中注意力模型的实体、关系联合学习方法。
背景技术
近几年来,随着电子病历的广泛应用,大量的电子病历数据可以在不同医疗环境中整合共享,并给医生的临床决策及政府部门卫生政策的制定提供数据支持。然而,目前的电子病历中大多数信息以自然语言的形式存储,现有的数据挖掘算法无法直接加工和处理这些数据。为了将电子病历文本结构化成算法可以处理的数据,利用实体识别和关系抽取算法基于中心词从临床文本中抽取实体-关系三元组,然后将三元组转换为数据挖掘算法可以处理的键值对。
从临床文本中抽取实体以及实体之间的关系(实体1-关系-实体2,三元组),目前有两大类方法,分别是流水线的方法和联合学习的方法。流水线的方法主要将实体识别和关系抽取任务分为两个子任务,首先进行命名实体识别,对识别出来的实体进行两两组合,形成实体对,再对每个实体对进行关系分类。其中命名实体识别模型通常使用BiLSTM+CRF等,关系分类模型通常使用CNN等。流水线的方法存在的缺点有:1)错误传播,实体识别模块的错误会影响到下面的关系分类性能;2)忽视了两个子任务之间存在的关系。联合学习可以克服上面流水线方法的缺点,其主流方法可以再细分为两种:参数共享、联合标注策略。参数共享指的是命名实体识别模型与关系分类模型通过共享层联合训练,共享层的选择非常重要,现有的方法一般采用word embedding+BiLSTM网络,但最近的研究表明现有的BiLSTM网络得到字的上下文表示性能弱于BERT语言模型;联合标注策略是指利用扩展的标注策略同时完成实体识别和关系抽取两个任务。联合标注策略法需要改变标注人员的原有习惯,增加学习成本。
发明内容
本申请实施例为解决上述技术问题,提供一种基于集中注意力模型的实体、关系联合学习方法。其特征在于,包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm
A3,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask将注意力集中到任务所需的字上,得到对应实体识别和关系抽取任务的字向量表示
Figure BDA0002172373720000021
A4,输入字向量表示
Figure BDA0002172373720000022
利用矩阵MASKtask、实体识别下游任务层、关系分类下游任务层进行联合学习后,输出识别的实体信息和抽取的关系信息。
优选地,在所述步骤A1中,其特征在于,临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
优选地,在所述步骤A2中,其特征在于,将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm
优选地,在所述步骤A3中,其特征在于,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出
Figure BDA0002172373720000031
得到输出/>
Figure BDA0002172373720000032
的表示如下,
Figure BDA0002172373720000033
其中
Figure BDA0002172373720000034
的表示如下,
Figure BDA0002172373720000035
Figure BDA0002172373720000036
经过K层的迭代后获得对应任务的字向量表示
Figure BDA0002172373720000037
优选地,在所述步骤A4中,其特征在于,
1)MASKner的构造:在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签;
2)MASKrc的构造:在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量;
3)实体识别下游任务层:实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率;
4)关系抽取下游任务层:关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布。
5)联合特征的学习:对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
优选地,一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:
1)利用集中注意力模型中的共享任务表示编码层,不同任务只需要输入不同的MASKtask,就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示
Figure BDA0002172373720000051
其表示如下,
Figure BDA0002172373720000052
其中STR-encoder表示共享任务表示编码;
2)集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成;
3)共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示
Figure BDA0002172373720000053
再传给对应任务的下游任务层。
优选地,在所述步骤A3中,其特征在于,所述方法还包括:动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
Figure BDA0002172373720000054
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
Figure BDA0002172373720000055
优选地,在所述步骤A4中,其特征在于,所述方法还包括:对输入的序列S进行padding操作,将所有的序列调整成一样的长度,对于全部MASK矩阵也作相应的扩充,扩充的表示如下,
Figure BDA0002172373720000056
其中,T为原序列长度,maxlen为padding操作后序列的统一长度,MASK′为最终使用的MASK矩阵,大小为maxlen*maxlen。
从以上技术方案可以看出,本申请实施例的创新点为:
1)本实施例中,创建了基于集中注意力模型的实体、关系联合学习方法,集中注意力模型的共享任务表示编码层在BERT模型中引入动态范围注意力机制,得到有效的实体与关系的联合特征;
2)本实施例中,集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,实验结果表明基于集中注意力模型的实体、关系联合学习方法在实体识别、关系抽取、联合学习方面均明显优于其他方法,表明本发明所提供模型的有效性。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面,其中,
图1示出本申请实施例提供的基于集中注意力模型的实体、关系联合学习方法的示意性流程图;
图2示出本申请实施例提供的临床文本实体和关系联合抽取实例;
图3示出本申请实施例提供的集中注意力模型的示意性架构图。
具体实施方式
为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。
请参考图1,图1为本申请实施例提供的基于集中注意力模型的实体、关系联合学习方法的示意性流程图,如图1所示,本申请实施例提供的一种基于集中注意力模型的实体、关系联合学习方法,可以包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm
A3,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask将注意力集中到任务所需的字上,得到对应实体识别和关系抽取任务的字向量表示
Figure BDA0002172373720000071
A4,输入字向量表示
Figure BDA0002172373720000072
利用矩阵MASKtask、实体识别下游任务层、关系分类下游任务层进行联合学习后,输出识别的实体信息和抽取的关系信息。
请参考图2,图2示出本申请实施例提供的临床文本实体和关系联合抽取实例。
在该实施例中,可以从实例中的临床文本中学习到多个关系三元组,例如<咳嗽,程度等级,反复>,<咳痰,程度等级,反复>,<发热,存在情况,无>,进一步地,再以症状为中心词,转换为挖掘算法可以直接处理的多个键值对<咳嗽的程度等级,反复>,<咳痰的程度等级,反复>,<发热的存在情况,无>。
在上述实施例中,如果存在(存在情况)关系,那么可以知道前一个实体必然属于存在情况类型,后一个实体属于症状或者疾病类型。
请参考图3,图3示出本申请实施例提供的集中注意力模型的架构图。
图3的实施例中,集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成。对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
图3的实施例中,共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示
Figure BDA0002172373720000081
再传给对应任务的下游任务层。
图3的实施例中,利用集中注意力模型中的共享任务表示编码层,不同任务只需要输入不同的MASKtask,就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示
Figure BDA0002172373720000082
其表示如下,
Figure BDA0002172373720000083
其中STR-encoder表示共享任务表示编码。
图3的实施例中,动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
Figure BDA0002172373720000084
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
Figure BDA0002172373720000091
若Maski,j=0,则Similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字,Similar(i,j)的表示如下,
Figure BDA0002172373720000092
其中,(Maski,j-1)*∞=-∞,
若Maski,j=1,则Similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字,Similar(i,j)的表示如下,
Figure BDA0002172373720000093
其中,(Maski,j-1)*∞=0。
图3的实施例中,基于集中注意力模型的实体、关系联合学习方法的架构包括:
1)Embedding层
临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
2)多头注意力机制的前N-K层
将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm
3)多头自注意力机制的余下K层
将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出
Figure BDA0002172373720000101
得到输出/>
Figure BDA0002172373720000102
的表示如下,
Figure BDA0002172373720000103
其中
Figure BDA0002172373720000104
的表示如下,
Figure BDA0002172373720000105
Figure BDA0002172373720000106
经过K层的迭代后获得对应任务的字向量表示
Figure BDA0002172373720000107
4)MASKner矩阵
在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签。
5)MASKrc矩阵
在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量。
基于动态范围注意力机制,采用两种MASKrc矩阵设置方式,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
Figure BDA0002172373720000111
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下,
Figure BDA0002172373720000112
6)实体识别下游任务层
实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率,概率的表示如下,
Figure BDA0002172373720000113
其中,
Figure BDA0002172373720000114
的表示如下,
Figure BDA0002172373720000115
Figure BDA0002172373720000116
其中,
Figure BDA0002172373720000117
表示给定MASKner后共享任务表示编码层的输出,/>
Figure BDA0002172373720000118
代表除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,/>
Figure BDA0002172373720000119
表示在发射概率矩阵/>
Figure BDA0002172373720000121
下,标注序列L的得分,
对应实体识别任务的loss函数表示如下所示,其训练目标为最小化Lner
Figure BDA0002172373720000122
其中,L’表示真正使用的标注序列。
7)关系抽取下游任务层
关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布,概率分布的表示如下所示,
Figure BDA0002172373720000123
其中,
Figure BDA0002172373720000124
的表示如下,
Figure BDA0002172373720000125
其中,
Figure BDA0002172373720000126
表示给定MASKrc后共享任务表示编码层的输出,/>
Figure BDA0002172373720000127
为[CLS]在最后一层多头注意力输出的特征向量,
对应关系抽取任务的loss函数表示如下所示,其训练目标为最小化Lrc
Lrc=-log(Prc(R=R′|S,maskrc,maskall))
其中,R’表示真正使用的关系类型。
具体的实施例:
1)数据集
本发明的数据集来源于上海中医药大学附属曙光医院提供的冠脉造影检查报告,其中实体一共有五种:部位词、方位词、形容词、否定词、数量词。语义关系一共也有五种:否定关系、修饰关系、位置关系、数量关系、无关系(负例)。具体统计如下。
Figure BDA0002172373720000131
Figure BDA0002172373720000132
为了确保实验的有效性,采用8:1:1的比例划分为train、dev、test,train为训练语料,用于模型训练,dev为开发集,用于模型选择最优的模型参数,test为测试集,用于对比实验。
2)实验设置
基于集中注意力模型的训练可以分为两阶段。第一阶段,对其中的BERT语言模型部分进行预训练。由于BERT语言模型预训练的代价比较昂贵,这里直接采用谷歌预训练好的BERT-Base,Chines模型;第二阶段,将NER与RC两种任务进行联合微调,下游任务层权重采用随机初始化。参数采用Adam优化器,为了不损失语言模型中预先学到的知识,学习率设置为10-5
3)实验分析
I)将集中注意力模型与BiLSTM,RD-CNN,Joint-BiLSTM三种实体识别模型进行对比。从表1中可知,集中注意力模型为最佳模型,F1值达到了0.9759,比第二名的RD-CNN模型高了1.9%,表明本发明所提供模型在实体识别方面的有效性。
表1关于实体识别任务的各方法比较
Figure BDA0002172373720000141
II)将集中注意力模型与RCN,CNN,Joint-BiLSTM三种关系分类模型进行对比,从表2中可知,集中注意力模型为最佳模型,F1值达到了0.9644,比第二名的CNN模型高了1.58%,表明本发明所提供模型在关系抽取方面的有效性。
表2关于关系分类任务的各方法比较
Figure BDA0002172373720000142
III)将集中注意力模型与Joint-BiLSTM采用LSTM作为共享层的联合学习模型进行对比,从表3中可知,集中注意力模型超过了现有的以LSTM为共享层的模型,命名实体识别任务的F1值提高了2.35%,关系抽取的F1值提高了1.32%,表明本发明所提供模型在联合学习方面的有效性。
表3关于联合学习的各方法比较
Figure BDA0002172373720000151
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思来做出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims (10)

1.一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数;
A2,限定参数N、K的含义,N为多头自注意层的层数,N多头自注意层分为两块,N-K为前一块的层数,K为后一块的层数,将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm
A3,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask将注意力集中到任务所需的字上,得到对应实体识别和关系抽取任务的字向量表示
Figure QLYQS_1
A4,输入字向量表示
Figure QLYQS_2
利用矩阵MASKtask、实体识别下游任务层、关系分类下游任务层进行联合学习后,输出识别的实体信息和抽取的关系信息。
2.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A3中,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出
Figure QLYQS_3
得到输出/>
Figure QLYQS_4
的表示如下,
Figure QLYQS_5
Figure QLYQS_6
Figure QLYQS_7
其中task∈{ner,rc},
经过K层的迭代后获得对应任务的字向量表示
Figure QLYQS_8
3.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,MASKtask依据任务不同分为用于实体识别的矩阵MASKner和用于关系抽取的矩阵MASKrc,如下所示,
1)MASKner的构造
在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签;
2)MASKrc的构造
在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量,
基于动态范围注意力机制,采用两种MASKrc矩阵设置方式,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
Figure QLYQS_9
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下,
Figure QLYQS_10
4.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率,概率的表示如下,
Figure QLYQS_11
其中,用于实体识别的矩阵MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签,
Figure QLYQS_12
的表示如下,
Figure QLYQS_13
Figure QLYQS_14
其中,
Figure QLYQS_15
表示给定MASKner后共享任务表示编码层的输出,/>
Figure QLYQS_16
代表除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,/>
Figure QLYQS_17
表示在发射概率矩阵/>
Figure QLYQS_18
下标注序列L的得分,
对应实体识别任务的loss函数表示如下所示,其训练目标为最小化Lner
Figure QLYQS_19
其中,L’表示真正使用的标注序列。
5.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布,概率分布的表示如下所示,
Figure QLYQS_20
其中,
Figure QLYQS_21
的表示如下,
Figure QLYQS_22
其中,
Figure QLYQS_23
表示给定MASKrc后共享任务表示编码层的输出,/>
Figure QLYQS_24
为[CLS]在最后一层多头注意力输出的特征向量,
对应关系抽取任务的loss函数表示如下所示,其训练目标为最小化Lrc,Lrc=-log(Prc(R=R′|S,maskrc,maskall))
其中,R’表示真正使用的关系类型,
maskrc为用于关系抽取的矩阵,应用如下两种MASKrc矩阵设置方式中任选其一,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
Figure QLYQS_25
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下
Figure QLYQS_26
6.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
7.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,在所述步骤A3中:利用集中注意力模型中的共享任务表示编码层,不同任务只需要输入不同的MASKtask,就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示
Figure QLYQS_27
其表示如下,
Figure QLYQS_28
其中STR-encoder表示共享任务表示编码。
8.根据权利要求2所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
Figure QLYQS_29
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
Figure QLYQS_30
若Maski,j=0,则Similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字,Similar(i,j)的表示如下,
Figure QLYQS_31
其中,(Maski,j-1)*∞=-∞,
若Maski,j=1,则Similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字,Similar(i,j)的表示如下,
Figure QLYQS_32
其中,(Maski,j-1)*∞=0。
9.根据权利要求3所述的方法,其特征在于,所述方法还包括:对输入的序列S进行padding操作,将所有的序列调整成一样的长度,对于全部MASK矩阵也作相应的扩充,扩充的表示如下,
Figure QLYQS_33
其中,T为原序列长度,maxlen为padding操作后序列的统一长度,MASK′为最终使用的MASK矩阵,大小为maxlen*maxlen。
10.根据权利要求7所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:
集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成;
共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示
Figure QLYQS_34
再传给对应任务的下游任务层。
CN201910767329.3A 2019-08-20 2019-08-20 一种基于集中注意力模型的实体、关系联合学习方法 Active CN110570920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910767329.3A CN110570920B (zh) 2019-08-20 2019-08-20 一种基于集中注意力模型的实体、关系联合学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910767329.3A CN110570920B (zh) 2019-08-20 2019-08-20 一种基于集中注意力模型的实体、关系联合学习方法

Publications (2)

Publication Number Publication Date
CN110570920A CN110570920A (zh) 2019-12-13
CN110570920B true CN110570920B (zh) 2023-07-14

Family

ID=68773905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910767329.3A Active CN110570920B (zh) 2019-08-20 2019-08-20 一种基于集中注意力模型的实体、关系联合学习方法

Country Status (1)

Country Link
CN (1) CN110570920B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191035B (zh) * 2019-12-30 2022-07-19 四川大学华西医院 一种识别肺癌临床数据库文本实体的方法及装置
CN113282758A (zh) * 2020-02-19 2021-08-20 复旦大学 政府治理领域下融合主题知识的深度关系抽取方法
CN111368528B (zh) * 2020-03-09 2022-07-08 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN113468335A (zh) * 2020-03-30 2021-10-01 海信集团有限公司 实体隐含关系抽取方法及设备
CN111506706B (zh) * 2020-04-15 2022-06-17 重庆邮电大学 一种基于关系相似度的上下义关系森林构建方法
CN111553162B (zh) * 2020-04-28 2023-09-22 腾讯科技(深圳)有限公司 一种意图识别的方法以及相关装置
CN111737383B (zh) * 2020-05-21 2021-11-23 百度在线网络技术(北京)有限公司 提取地理位置点空间关系的方法、训练提取模型的方法及装置
CN111859912B (zh) * 2020-07-28 2021-10-01 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN111950297A (zh) * 2020-08-26 2020-11-17 桂林电子科技大学 一种面向异常事件的关系抽取方法
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112347771A (zh) * 2020-12-03 2021-02-09 云知声智能科技股份有限公司 一种实体关系的抽取方法和设备
CN112711949B (zh) * 2021-01-05 2022-04-22 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN113468865B (zh) * 2021-06-28 2024-04-09 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN114357176B (zh) * 2021-11-26 2023-11-21 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562752A (zh) * 2016-06-30 2018-01-09 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110032730A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种文本数据的处理方法、装置和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562752A (zh) * 2016-06-30 2018-01-09 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN110032730A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种文本数据的处理方法、装置和设备
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于电子病历的临床医疗大数据挖掘流程与方法;阮彤;《大数据》;20171031(第5期);全文 *
深度学习实体关系抽取研究综述;鄂海红;《软件学报》;20190327;第30卷(第6期);全文 *

Also Published As

Publication number Publication date
CN110570920A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110570920B (zh) 一种基于集中注意力模型的实体、关系联合学习方法
US20210034813A1 (en) Neural network model with evidence extraction
CN108733742B (zh) 全局归一化阅读器系统和方法
Che et al. Interpretable deep models for ICU outcome prediction
Dong et al. A fusion model-based label embedding and self-interaction attention for text classification
CN107516110A (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN112818676A (zh) 一种医学实体关系联合抽取方法
WO2021174922A1 (zh) 语句情感分类方法及相关设备
CN113688248A (zh) 一种小样本弱标注条件下的医疗事件识别方法及系统
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN111125520A (zh) 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN116779091A (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
Zhao et al. Deeply supervised active learning for finger bones segmentation
Sun et al. Multitask recalibrated aggregation network for medical code prediction
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
JP7473389B2 (ja) 学習モデル生成システム、及び学習モデル生成方法
Ranjan et al. MCWS-transformers: towards an efficient modeling of protein sequences via multi context-window based scaled self-attention
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
Li et al. Supervised classification of plant image based on attention mechanism
Su et al. Learning meta-distance for sequences by learning a ground metric via virtual sequence regression
CN114139531A (zh) 一种基于深度学习的医疗实体预测方法及系统
CN113836926A (zh) 电子病历命名实体识别方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant