CN110570920A - 一种基于集中注意力模型的实体、关系联合学习方法 - Google Patents
一种基于集中注意力模型的实体、关系联合学习方法 Download PDFInfo
- Publication number
- CN110570920A CN110570920A CN201910767329.3A CN201910767329A CN110570920A CN 110570920 A CN110570920 A CN 110570920A CN 201910767329 A CN201910767329 A CN 201910767329A CN 110570920 A CN110570920 A CN 110570920A
- Authority
- CN
- China
- Prior art keywords
- attention
- task
- layer
- word
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,包括以下步骤:首先,临床文本序列以[CLS]Sequence[SEP]的形式输入Embedding层,得到每个字的初始向量表示H0;接着,将H0输入多头自注意力机制的前N‑K层,输出每个字的上下文表示信息Hm;然后,将Hm输入余下K层,得到对应实体识别和关系抽取任务的字向量表示最后,输入利用矩阵MASKtask、实体识别或关系分类下游任务层进行学习后,输出实体和关系信息。实验结果表明本发明方法在实体识别、关系抽取、联合学习方面均明显优于其他方法,表明其有效性。
Description
技术领域
本发明涉及面向临床文本的实体、关系联合学习技术领域,更为具体地,尤其涉及一种基于集中注意力模型的实体、关系联合学习方法。
背景技术
近几年来,随着电子病历的广泛应用,大量的电子病历数据可以在不同医疗环境中整合共享,并给医生的临床决策及政府部门卫生政策的制定提供数据支持。然而,目前的电子病历中大多数信息以自然语言的形式存储,现有的数据挖掘算法无法直接加工和处理这些数据。为了将电子病历文本结构化成算法可以处理的数据,利用实体识别和关系抽取算法基于中心词从临床文本中抽取实体-关系三元组,然后将三元组转换为数据挖掘算法可以处理的键值对。
从临床文本中抽取实体以及实体之间的关系(实体1-关系-实体2,三元组),目前有两大类方法,分别是流水线的方法和联合学习的方法。流水线的方法主要将实体识别和关系抽取任务分为两个子任务,首先进行命名实体识别,对识别出来的实体进行两两组合,形成实体对,再对每个实体对进行关系分类。其中命名实体识别模型通常使用BiLSTM+CRF等,关系分类模型通常使用CNN等。流水线的方法存在的缺点有:1)错误传播,实体识别模块的错误会影响到下面的关系分类性能;2)忽视了两个子任务之间存在的关系。联合学习可以克服上面流水线方法的缺点,其主流方法可以再细分为两种:参数共享、联合标注策略。参数共享指的是命名实体识别模型与关系分类模型通过共享层联合训练,共享层的选择非常重要,现有的方法一般采用word embedding+BiLSTM网络,但最近的研究表明现有的BiLSTM网络得到字的上下文表示性能弱于BERT语言模型;联合标注策略是指利用扩展的标注策略同时完成实体识别和关系抽取两个任务。联合标注策略法需要改变标注人员的原有习惯,增加学习成本。
发明内容
本申请实施例为解决上述技术问题,提供一种基于集中注意力模型的实体、关系联合学习方法。其特征在于,包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0;
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm;
A3,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask将注意力集中到任务所需的字上,得到对应实体识别和关系抽取任务的字向量表示
A4,输入字向量表示利用矩阵MASKtask、实体识别下游任务层、关系分类下游任务层进行联合学习后,输出识别的实体信息和抽取的关系信息。
优选地,在所述步骤A1中,其特征在于,临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
优选地,在所述步骤A2中,其特征在于,将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm。
优选地,在所述步骤A3中,其特征在于,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出得到输出的表示如下,
其中的表示如下,
经过K层的迭代后获得对应任务的字向量表示
优选地,在所述步骤A4中,其特征在于,
1)MASKner的构造:在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签;
2)MASKrc的构造:在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量;
3)实体识别下游任务层:实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率;
4)关系抽取下游任务层:关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布。
5)联合特征的学习:对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
优选地,一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:
1)利用集中注意力模型中的共享任务表示编码层,不同任务只需要输入不同的MASKtask,就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示其表示如下,
其中STR-encoder表示共享任务表示编码;
2)集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成;
3)共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示再传给对应任务的下游任务层。
优选地,在所述步骤A3中,其特征在于,所述方法还包括:动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
优选地,在所述步骤A4中,其特征在于,所述方法还包括:对输入的序列S进行padding操作,将所有的序列调整成一样的长度,对于全部MASK矩阵也作相应的扩充,扩充的表示如下,
其中,T为原序列长度,maxlen为padding操作后序列的统一长度,MASK′为最终使用的MASK矩阵,大小为maxlen*maxlen。
从以上技术方案可以看出,本申请实施例的创新点为:
1)本实施例中,创建了基于集中注意力模型的实体、关系联合学习方法,集中注意力模型的共享任务表示编码层在BERT模型中引入动态范围注意力机制,得到有效的实体与关系的联合特征;
2)本实施例中,集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,实验结果表明基于集中注意力模型的实体、关系联合学习方法在实体识别、关系抽取、联合学习方面均明显优于其他方法,表明本发明所提供模型的有效性。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面,其中,
图1示出本申请实施例提供的基于集中注意力模型的实体、关系联合学习方法的示意性流程图;
图2示出本申请实施例提供的临床文本实体和关系联合抽取实例;
图3示出本申请实施例提供的集中注意力模型的示意性架构图。
具体实施方式
为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。
请参考图1,图1为本申请实施例提供的基于集中注意力模型的实体、关系联合学习方法的示意性流程图,如图1所示,本申请实施例提供的一种基于集中注意力模型的实体、关系联合学习方法,可以包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0。
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm。
A3,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask将注意力集中到任务所需的字上,得到对应实体识别和关系抽取任务的字向量表示
A4,输入字向量表示利用矩阵MASKtask、实体识别下游任务层、关系分类下游任务层进行联合学习后,输出识别的实体信息和抽取的关系信息。
请参考图2,图2示出本申请实施例提供的临床文本实体和关系联合抽取实例。
在该实施例中,可以从实例中的临床文本中学习到多个关系三元组,例如<咳嗽,程度等级,反复>,<咳痰,程度等级,反复>,<发热,存在情况,无>,进一步地,再以症状为中心词,转换为挖掘算法可以直接处理的多个键值对<咳嗽的程度等级,反复>,<咳痰的程度等级,反复>,<发热的存在情况,无>。
在上述实施例中,如果存在(存在情况)关系,那么可以知道前一个实体必然属于存在情况类型,后一个实体属于症状或者疾病类型。
请参考图3,图3示出本申请实施例提供的集中注意力模型的架构图。
图3的实施例中,集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成。对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
图3的实施例中,共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示再传给对应任务的下游任务层。
图3的实施例中,利用集中注意力模型中的共享任务表示编码层,不同任务只需要输入不同的MASKtask,就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示其表示如下,
其中STR-encoder表示共享任务表示编码。
图3的实施例中,动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
若Maski,j=0,则Similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=-∞,
若Maski,j=1,则Similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=0。
图3的实施例中,基于集中注意力模型的实体、关系联合学习方法的架构包括:
1)Embedding层
临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
2)多头注意力机制的前N-K层
将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm。
3)多头自注意力机制的余下K层
将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出得到输出的表示如下,
其中的表示如下,
经过K层的迭代后获得对应任务的字向量表示
4)MASKner矩阵
在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签。
5)MASKrc矩阵
在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量。
基于动态范围注意力机制,采用两种MASKrc矩阵设置方式,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下,
6)实体识别下游任务层
实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率,概率的表示如下,
其中,的表示如下,
其中,表示给定MASKner后共享任务表示编码层的输出,代表除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,表示在发射概率矩阵下,标注序列L的得分,
对应实体识别任务的loss函数表示如下所示,其训练目标为最小化Lner,
其中,L’表示真正使用的标注序列。
7)关系抽取下游任务层
关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布,概率分布的表示如下所示,
其中,的表示如下,
其中,表示给定MASKrc后共享任务表示编码层的输出,为[CLS]在最后一层多头注意力输出的特征向量,
对应关系抽取任务的loss函数表示如下所示,其训练目标为最小化Lrc,
Lrc=-log(Prc(R=R′|S,maskrc,maskall))
其中,R’表示真正使用的关系类型。
具体的实施例:
1)数据集
本发明的数据集来源于上海中医药大学附属曙光医院提供的冠脉造影检查报告,其中实体一共有五种:部位词、方位词、形容词、否定词、数量词。语义关系一共也有五种:否定关系、修饰关系、位置关系、数量关系、无关系(负例)。具体统计如下。
为了确保实验的有效性,采用8:1:1的比例划分为train、dev、test,train为训练语料,用于模型训练,dev为开发集,用于模型选择最优的模型参数,test为测试集,用于对比实验。
2)实验设置
基于集中注意力模型的训练可以分为两阶段。第一阶段,对其中的BERT语言模型部分进行预训练。由于BERT语言模型预训练的代价比较昂贵,这里直接采用谷歌预训练好的BERT-Base,Chines模型;第二阶段,将NER与RC两种任务进行联合微调,下游任务层权重采用随机初始化。参数采用Adam优化器,为了不损失语言模型中预先学到的知识,学习率设置为10-5。
3)实验分析
I)将集中注意力模型与BiLSTM,RD-CNN,Joint-BiLSTM三种实体识别模型进行对比。从表1中可知,集中注意力模型为最佳模型,F1值达到了0.9759,比第二名的RD-CNN模型高了1.9%,表明本发明所提供模型在实体识别方面的有效性。
表1关于实体识别任务的各方法比较
II)将集中注意力模型与RCN,CNN,Joint-BiLSTM三种关系分类模型进行对比,从表2中可知,集中注意力模型为最佳模型,F1值达到了0.9644,比第二名的CNN模型高了1.58%,表明本发明所提供模型在关系抽取方面的有效性。
表2关于关系分类任务的各方法比较
III)将集中注意力模型与Joint-BiLSTM采用LSTM作为共享层的联合学习模型进行对比,从表3中可知,集中注意力模型超过了现有的以LSTM为共享层的模型,命名实体识别任务的F1值提高了2.35%,关系抽取的F1值提高了1.32%,表明本发明所提供模型在联合学习方面的有效性。
表3关于联合学习的各方法比较
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思来做出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。
Claims (12)
1.一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0;
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm;
A3,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask将注意力集中到任务所需的字上,得到对应实体识别和关系抽取任务的字向量表示
A4,输入字向量表示利用矩阵MASKtask、实体识别下游任务层、关系分类下游任务层进行联合学习后,输出识别的实体信息和抽取的关系信息。
2.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A1中,临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
3.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A2中,将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm。
4.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A3中,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出得到输出的表示如下,
其中task∈{ner,rc},的表示如下,
经过K层的迭代后获得对应任务的字向量表示
5.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,MASKtask依据任务不同分为用于实体识别的矩阵MASKner和用于关系抽取的矩阵MASKrc,如下所示,
1)MASKner的构造
在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签。
2)MASKrc的构造
在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量,
基于动态范围注意力机制,采用两种MASKrc矩阵设置方式,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下,
6.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率,概率的表示如下,
其中,的表示如下,
其中,表示给定MASKner后共享任务表示编码层的输出,代表除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,表示在发射概率矩阵下,标注序列L的得分,
对应实体识别任务的loss函数表示如下所示,其训练目标为最小化Lner,
其中,L’表示真正使用的标注序列。
7.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布,概率分布的表示如下所示,
其中,的表示如下,
其中,表示给定MASKrc后共享任务表示编码层的输出,为[CLS]在最后一层多头注意力输出的特征向量,
对应关系抽取任务的loss函数表示如下所示,其训练目标为最小化Lrc,
Lrc=-log(Prc(R=R′|S,maskrc,maskall))
其中,R’表示真正使用的关系类型。
8.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
9.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:利用集中注意力模型中的共享任务表示编码层,不同任务只需要输入不同的MASKtask,就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示其表示如下,
其中STR-encoder表示共享任务表示编码。
10.根据权利要求4所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
若Maski,j=0,则Similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=-∞,
若Maski,j=1,则Similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=0。
11.根据权利要求5所述的方法,其特征在于,所述方法还包括:对输入的序列S进行padding操作,将所有的序列调整成一样的长度,对于全部MASK矩阵也作相应的扩充,扩充的表示如下,
其中,T为原序列长度,maxlen为padding操作后序列的统一长度,MASK′为最终使用的MASK矩阵,大小为maxlen*maxlen。
12.根据权利要求9所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:
集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成;
共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示再传给对应任务的下游任务层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767329.3A CN110570920B (zh) | 2019-08-20 | 2019-08-20 | 一种基于集中注意力模型的实体、关系联合学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767329.3A CN110570920B (zh) | 2019-08-20 | 2019-08-20 | 一种基于集中注意力模型的实体、关系联合学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110570920A true CN110570920A (zh) | 2019-12-13 |
CN110570920B CN110570920B (zh) | 2023-07-14 |
Family
ID=68773905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910767329.3A Active CN110570920B (zh) | 2019-08-20 | 2019-08-20 | 一种基于集中注意力模型的实体、关系联合学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110570920B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191035A (zh) * | 2019-12-30 | 2020-05-22 | 四川大学华西医院 | 一种识别肺癌临床数据库文本实体的方法及装置 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111506706A (zh) * | 2020-04-15 | 2020-08-07 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111737383A (zh) * | 2020-05-21 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 提取地理位置点空间关系的方法、训练提取模型的方法及装置 |
CN111859912A (zh) * | 2020-07-28 | 2020-10-30 | 广西师范大学 | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 |
CN111950297A (zh) * | 2020-08-26 | 2020-11-17 | 桂林电子科技大学 | 一种面向异常事件的关系抽取方法 |
CN112347771A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 一种实体关系的抽取方法和设备 |
CN112711949A (zh) * | 2021-01-05 | 2021-04-27 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
CN113282758A (zh) * | 2020-02-19 | 2021-08-20 | 复旦大学 | 政府治理领域下融合主题知识的深度关系抽取方法 |
CN113468865A (zh) * | 2021-06-28 | 2021-10-01 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
CN114357176A (zh) * | 2021-11-26 | 2022-04-15 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562752A (zh) * | 2016-06-30 | 2018-01-09 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110032730A (zh) * | 2019-02-18 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法、装置和设备 |
-
2019
- 2019-08-20 CN CN201910767329.3A patent/CN110570920B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562752A (zh) * | 2016-06-30 | 2018-01-09 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN110032730A (zh) * | 2019-02-18 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法、装置和设备 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
Non-Patent Citations (2)
Title |
---|
鄂海红: "深度学习实体关系抽取研究综述", 《软件学报》 * |
阮彤: "基于电子病历的临床医疗大数据挖掘流程与方法", 《大数据》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191035A (zh) * | 2019-12-30 | 2020-05-22 | 四川大学华西医院 | 一种识别肺癌临床数据库文本实体的方法及装置 |
CN111191035B (zh) * | 2019-12-30 | 2022-07-19 | 四川大学华西医院 | 一种识别肺癌临床数据库文本实体的方法及装置 |
CN113282758A (zh) * | 2020-02-19 | 2021-08-20 | 复旦大学 | 政府治理领域下融合主题知识的深度关系抽取方法 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111368528B (zh) * | 2020-03-09 | 2022-07-08 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
CN111506706A (zh) * | 2020-04-15 | 2020-08-07 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111506706B (zh) * | 2020-04-15 | 2022-06-17 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111553162B (zh) * | 2020-04-28 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111737383A (zh) * | 2020-05-21 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 提取地理位置点空间关系的方法、训练提取模型的方法及装置 |
CN111737383B (zh) * | 2020-05-21 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 提取地理位置点空间关系的方法、训练提取模型的方法及装置 |
CN111859912A (zh) * | 2020-07-28 | 2020-10-30 | 广西师范大学 | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 |
CN111950297A (zh) * | 2020-08-26 | 2020-11-17 | 桂林电子科技大学 | 一种面向异常事件的关系抽取方法 |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
CN112347771A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 一种实体关系的抽取方法和设备 |
CN112711949B (zh) * | 2021-01-05 | 2022-04-22 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN112711949A (zh) * | 2021-01-05 | 2021-04-27 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN113468865A (zh) * | 2021-06-28 | 2021-10-01 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN113468865B (zh) * | 2021-06-28 | 2024-04-09 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN114357176A (zh) * | 2021-11-26 | 2022-04-15 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
WO2023092985A1 (zh) * | 2021-11-26 | 2023-06-01 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
CN114357176B (zh) * | 2021-11-26 | 2023-11-21 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110570920B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570920B (zh) | 一种基于集中注意力模型的实体、关系联合学习方法 | |
US20210034813A1 (en) | Neural network model with evidence extraction | |
CN108733742B (zh) | 全局归一化阅读器系统和方法 | |
Dong et al. | A fusion model-based label embedding and self-interaction attention for text classification | |
CN112818676B (zh) | 一种医学实体关系联合抽取方法 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN112800766B (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
CN111292195A (zh) | 风险账户的识别方法及装置 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
Joshua Thomas et al. | A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks | |
CN114564959A (zh) | 中文临床表型细粒度命名实体识别方法及系统 | |
Zhang et al. | Surgical instruction generation with transformers | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
Sun et al. | Multitask recalibrated aggregation network for medical code prediction | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
US11935278B1 (en) | Image labeling for artificial intelligence datasets | |
CN117393098A (zh) | 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法 | |
Ranjan et al. | MCWS-transformers: towards an efficient modeling of protein sequences via multi context-window based scaled self-attention | |
Li et al. | Supervised classification of plant image based on attention mechanism | |
CN114492386A (zh) | 网络文本中药物名称及药物不良反应的联合检测方法 | |
CN114139531A (zh) | 一种基于深度学习的医疗实体预测方法及系统 | |
CN113326833A (zh) | 一种基于中心损失的文字识别改进训练方法 | |
Duan et al. | A Parameter-Adaptive Convolution Neural Network for Capturing the Context-Specific Information in Natural Language Understanding | |
Yajnik et al. | Identification of gujarati characters using wavelets and neural networks. | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |