CN110570920B - 一种基于集中注意力模型的实体、关系联合学习方法 - Google Patents
一种基于集中注意力模型的实体、关系联合学习方法 Download PDFInfo
- Publication number
- CN110570920B CN110570920B CN201910767329.3A CN201910767329A CN110570920B CN 110570920 B CN110570920 B CN 110570920B CN 201910767329 A CN201910767329 A CN 201910767329A CN 110570920 B CN110570920 B CN 110570920B
- Authority
- CN
- China
- Prior art keywords
- entity
- attention
- word
- task
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002586 coronary angiography Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明涉及面向临床文本的实体、关系联合学习技术领域,更为具体地,尤其涉及一种基于集中注意力模型的实体、关系联合学习方法。
背景技术
近几年来,随着电子病历的广泛应用,大量的电子病历数据可以在不同医疗环境中整合共享,并给医生的临床决策及政府部门卫生政策的制定提供数据支持。然而,目前的电子病历中大多数信息以自然语言的形式存储,现有的数据挖掘算法无法直接加工和处理这些数据。为了将电子病历文本结构化成算法可以处理的数据,利用实体识别和关系抽取算法基于中心词从临床文本中抽取实体-关系三元组,然后将三元组转换为数据挖掘算法可以处理的键值对。
从临床文本中抽取实体以及实体之间的关系(实体1-关系-实体2,三元组),目前有两大类方法,分别是流水线的方法和联合学习的方法。流水线的方法主要将实体识别和关系抽取任务分为两个子任务,首先进行命名实体识别,对识别出来的实体进行两两组合,形成实体对,再对每个实体对进行关系分类。其中命名实体识别模型通常使用BiLSTM+CRF等,关系分类模型通常使用CNN等。流水线的方法存在的缺点有:1)错误传播,实体识别模块的错误会影响到下面的关系分类性能;2)忽视了两个子任务之间存在的关系。联合学习可以克服上面流水线方法的缺点,其主流方法可以再细分为两种:参数共享、联合标注策略。参数共享指的是命名实体识别模型与关系分类模型通过共享层联合训练,共享层的选择非常重要,现有的方法一般采用word embedding+BiLSTM网络,但最近的研究表明现有的BiLSTM网络得到字的上下文表示性能弱于BERT语言模型;联合标注策略是指利用扩展的标注策略同时完成实体识别和关系抽取两个任务。联合标注策略法需要改变标注人员的原有习惯,增加学习成本。
发明内容
本申请实施例为解决上述技术问题,提供一种基于集中注意力模型的实体、关系联合学习方法。其特征在于,包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0;
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm;
优选地,在所述步骤A1中,其特征在于,临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
优选地,在所述步骤A2中,其特征在于,将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm。
优选地,在所述步骤A3中,其特征在于,将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出得到输出/>的表示如下,
优选地,在所述步骤A4中,其特征在于,
1)MASKner的构造:在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签;
2)MASKrc的构造:在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量;
3)实体识别下游任务层:实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率;
4)关系抽取下游任务层:关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布。
5)联合特征的学习:对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
优选地,一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:
其中STR-encoder表示共享任务表示编码;
2)集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成;
3)共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示再传给对应任务的下游任务层。
优选地,在所述步骤A3中,其特征在于,所述方法还包括:动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
优选地,在所述步骤A4中,其特征在于,所述方法还包括:对输入的序列S进行padding操作,将所有的序列调整成一样的长度,对于全部MASK矩阵也作相应的扩充,扩充的表示如下,
其中,T为原序列长度,maxlen为padding操作后序列的统一长度,MASK′为最终使用的MASK矩阵,大小为maxlen*maxlen。
从以上技术方案可以看出,本申请实施例的创新点为:
1)本实施例中,创建了基于集中注意力模型的实体、关系联合学习方法,集中注意力模型的共享任务表示编码层在BERT模型中引入动态范围注意力机制,得到有效的实体与关系的联合特征;
2)本实施例中,集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,实验结果表明基于集中注意力模型的实体、关系联合学习方法在实体识别、关系抽取、联合学习方面均明显优于其他方法,表明本发明所提供模型的有效性。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面,其中,
图1示出本申请实施例提供的基于集中注意力模型的实体、关系联合学习方法的示意性流程图;
图2示出本申请实施例提供的临床文本实体和关系联合抽取实例;
图3示出本申请实施例提供的集中注意力模型的示意性架构图。
具体实施方式
为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。
请参考图1,图1为本申请实施例提供的基于集中注意力模型的实体、关系联合学习方法的示意性流程图,如图1所示,本申请实施例提供的一种基于集中注意力模型的实体、关系联合学习方法,可以包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,得到序列S中每个字的初始向量表示H0。
A2,将向量表示H0输入多头自注意力机制的前N-K层,经过N-K层的迭代后输出每个字的上下文表示信息Hm。
请参考图2,图2示出本申请实施例提供的临床文本实体和关系联合抽取实例。
在该实施例中,可以从实例中的临床文本中学习到多个关系三元组,例如<咳嗽,程度等级,反复>,<咳痰,程度等级,反复>,<发热,存在情况,无>,进一步地,再以症状为中心词,转换为挖掘算法可以直接处理的多个键值对<咳嗽的程度等级,反复>,<咳痰的程度等级,反复>,<发热的存在情况,无>。
在上述实施例中,如果存在(存在情况)关系,那么可以知道前一个实体必然属于存在情况类型,后一个实体属于症状或者疾病类型。
请参考图3,图3示出本申请实施例提供的集中注意力模型的架构图。
图3的实施例中,集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型,该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成。对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
图3的实施例中,共享任务表示编码层由一个Embedding层、N多头自注意层构成,N多头自注意层分为两块,前N-K层多头注意力只捕获上下文信息,得到字的上下文表示Hm,后K层根据实体识别和关系抽取两种任务的各自特点,将注意力的计算集中到任务所需字的向量表示上,得到对应任务的字向量表示再传给对应任务的下游任务层。
其中STR-encoder表示共享任务表示编码。
图3的实施例中,动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
若Maski,j=0,则Similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=-∞,
若Maski,j=1,则Similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=0。
图3的实施例中,基于集中注意力模型的实体、关系联合学习方法的架构包括:
1)Embedding层
临床文本序列S以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数。
2)多头注意力机制的前N-K层
将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm。
3)多头自注意力机制的余下K层
将每个字的上下文表示信息Hm输入多头自注意力机制的余下K层,特定于任务的矩阵MASKtask由动态范围注意力机制设定,MASKtask将注意力集中到任务所需的字上,第m层依据前一层的输出得到输出/>的表示如下,
4)MASKner矩阵
在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签。
5)MASKrc矩阵
在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,本发明修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量。
基于动态范围注意力机制,采用两种MASKrc矩阵设置方式,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下,
6)实体识别下游任务层
实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率,概率的表示如下,
对应实体识别任务的loss函数表示如下所示,其训练目标为最小化Lner,
其中,L’表示真正使用的标注序列。
7)关系抽取下游任务层
关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布,概率分布的表示如下所示,
对应关系抽取任务的loss函数表示如下所示,其训练目标为最小化Lrc,
Lrc=-log(Prc(R=R′|S,maskrc,maskall))
其中,R’表示真正使用的关系类型。
具体的实施例:
1)数据集
本发明的数据集来源于上海中医药大学附属曙光医院提供的冠脉造影检查报告,其中实体一共有五种:部位词、方位词、形容词、否定词、数量词。语义关系一共也有五种:否定关系、修饰关系、位置关系、数量关系、无关系(负例)。具体统计如下。
为了确保实验的有效性,采用8:1:1的比例划分为train、dev、test,train为训练语料,用于模型训练,dev为开发集,用于模型选择最优的模型参数,test为测试集,用于对比实验。
2)实验设置
基于集中注意力模型的训练可以分为两阶段。第一阶段,对其中的BERT语言模型部分进行预训练。由于BERT语言模型预训练的代价比较昂贵,这里直接采用谷歌预训练好的BERT-Base,Chines模型;第二阶段,将NER与RC两种任务进行联合微调,下游任务层权重采用随机初始化。参数采用Adam优化器,为了不损失语言模型中预先学到的知识,学习率设置为10-5。
3)实验分析
I)将集中注意力模型与BiLSTM,RD-CNN,Joint-BiLSTM三种实体识别模型进行对比。从表1中可知,集中注意力模型为最佳模型,F1值达到了0.9759,比第二名的RD-CNN模型高了1.9%,表明本发明所提供模型在实体识别方面的有效性。
表1关于实体识别任务的各方法比较
II)将集中注意力模型与RCN,CNN,Joint-BiLSTM三种关系分类模型进行对比,从表2中可知,集中注意力模型为最佳模型,F1值达到了0.9644,比第二名的CNN模型高了1.58%,表明本发明所提供模型在关系抽取方面的有效性。
表2关于关系分类任务的各方法比较
III)将集中注意力模型与Joint-BiLSTM采用LSTM作为共享层的联合学习模型进行对比,从表3中可知,集中注意力模型超过了现有的以LSTM为共享层的模型,命名实体识别任务的F1值提高了2.35%,关系抽取的F1值提高了1.32%,表明本发明所提供模型在联合学习方面的有效性。
表3关于联合学习的各方法比较
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思来做出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。
Claims (10)
1.一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,包括以下步骤:
A1,临床文本序列S的首尾分别加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式输入Embedding层,输出序列S中每个字的由字编码、位置编码、类型编码组成的初始向量表示H0,其表示为:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
其中,S为输入的临床文本序列,e_word,e_pos,e_type分别表示字编码、位置编码、类型编码函数;
A2,限定参数N、K的含义,N为多头自注意层的层数,N多头自注意层分为两块,N-K为前一块的层数,K为后一块的层数,将向量表示H0输入多头注意力机制的前N-K层,注意力均匀地分布在每个字上,多头注意力只捕获上下文信息,第m层依据前一层的输出Hm-1得到输出Hm,Hm的表示如下,
Hm=LayerNorm(Hm’+PosFF(Hm’))
其中Hm’的表示如下,
Hm’=LayerNorm(Hm-1+MultHeadSelfAttentionh=12(Hm-1,MASKall))
其中MASKall∈{1}T×T表示每个字利用序列中其他字的信息计算注意力,T表示序列的长度,
经过N-K层的迭代后获得每个字的上下文表示信息Hm;
3.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,MASKtask依据任务不同分为用于实体识别的矩阵MASKner和用于关系抽取的矩阵MASKrc,如下所示,
1)MASKner的构造
在实体识别任务中,由动态范围注意力机制设定,MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签;
2)MASKrc的构造
在关系抽取任务中,先将由MASKner得到的BIEOS标签转换为实体列表,再从中取两个实体判断之间的关系,修改了原本用于聚合序列的整体表示的[CLS]的注意力范围,将其注意力集中于两个实体上,聚合两个实体的整体表示,从而获得所需的关系特征向量,
基于动态范围注意力机制,采用两种MASKrc矩阵设置方式,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下,
4.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,实体识别下游任务层采用CRF,将每个字的特征向量转换为对应BIEOS标签的概率分布,即取除[CLS]之外的全部字在最后一层多头注意力输出的特征向量,输入CRF层中进行一次线性变换,将字的向量表示转变为CRF的发射概率,再配合CRF层的转移概率,得到标签序列的得分,最后通过softmax函数变换得到标签序列的概率,概率的表示如下,
其中,用于实体识别的矩阵MASKner∈{1}T×T表明每个字利用序列中其他字的信息计算注意力,不限制字的注意力范围,通过参数优化自行求出合适的注意力权重,最后输出序列中每个字对应的BIEOS标签,的表示如下,
对应实体识别任务的loss函数表示如下所示,其训练目标为最小化Lner,
其中,L’表示真正使用的标注序列。
5.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[CLS]特征向量转换成对应关系分类的概率分布,即取[CLS]在最后一层多重注意力输出的特征向量,再经过两层感知机MLP得到对应分类的概率分布,概率分布的表示如下所示,
对应关系抽取任务的loss函数表示如下所示,其训练目标为最小化Lrc,Lrc=-log(Prc(R=R′|S,maskrc,maskall))
其中,R’表示真正使用的关系类型,
maskrc为用于关系抽取的矩阵,应用如下两种MASKrc矩阵设置方式中任选其一,
I)[CLS]只允许关注实体1、实体2,实体1、实体2的关注对象不做限制,MASKrc矩阵表示如下,
II)只允许[CLS]、实体1、实体2两两相互关注,MASKrc矩阵表示如下
6.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于:在所述步骤A4中,对于整体的集中注意力模型,除了两种任务各自对应的下游任务层,其余的参数全是共享的,这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。
8.根据权利要求2所述的一种基于集中注意力模型的实体、关系联合学习方法,其特征在于,所述方法还包括:动态范围注意力机制通过设计特定的MASK矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围,计算注意力的表示如下,
其中MASK∈{0,1}T×T,T表示序列的长度,
序列中第i个字对第j个字的注意力相似度Similar(i,j)表示如下,
若Maski,j=0,则Similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=-∞,
若Maski,j=1,则Similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字,Similar(i,j)的表示如下,
其中,(Maski,j-1)*∞=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767329.3A CN110570920B (zh) | 2019-08-20 | 2019-08-20 | 一种基于集中注意力模型的实体、关系联合学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767329.3A CN110570920B (zh) | 2019-08-20 | 2019-08-20 | 一种基于集中注意力模型的实体、关系联合学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110570920A CN110570920A (zh) | 2019-12-13 |
CN110570920B true CN110570920B (zh) | 2023-07-14 |
Family
ID=68773905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910767329.3A Active CN110570920B (zh) | 2019-08-20 | 2019-08-20 | 一种基于集中注意力模型的实体、关系联合学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110570920B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191035B (zh) * | 2019-12-30 | 2022-07-19 | 四川大学华西医院 | 一种识别肺癌临床数据库文本实体的方法及装置 |
CN113282758A (zh) * | 2020-02-19 | 2021-08-20 | 复旦大学 | 政府治理领域下融合主题知识的深度关系抽取方法 |
CN111368528B (zh) * | 2020-03-09 | 2022-07-08 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
CN111506706B (zh) * | 2020-04-15 | 2022-06-17 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111553162B (zh) * | 2020-04-28 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111737383B (zh) * | 2020-05-21 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 提取地理位置点空间关系的方法、训练提取模型的方法及装置 |
CN111859912B (zh) * | 2020-07-28 | 2021-10-01 | 广西师范大学 | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 |
CN111950297A (zh) * | 2020-08-26 | 2020-11-17 | 桂林电子科技大学 | 一种面向异常事件的关系抽取方法 |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
CN112347771A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 一种实体关系的抽取方法和设备 |
CN112711949B (zh) * | 2021-01-05 | 2022-04-22 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN113468865B (zh) * | 2021-06-28 | 2024-04-09 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN114357176B (zh) * | 2021-11-26 | 2023-11-21 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562752A (zh) * | 2016-06-30 | 2018-01-09 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110032730A (zh) * | 2019-02-18 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法、装置和设备 |
-
2019
- 2019-08-20 CN CN201910767329.3A patent/CN110570920B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562752A (zh) * | 2016-06-30 | 2018-01-09 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN110032730A (zh) * | 2019-02-18 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法、装置和设备 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
Non-Patent Citations (2)
Title |
---|
基于电子病历的临床医疗大数据挖掘流程与方法;阮彤;《大数据》;20171031(第5期);全文 * |
深度学习实体关系抽取研究综述;鄂海红;《软件学报》;20190327;第30卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110570920A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570920B (zh) | 一种基于集中注意力模型的实体、关系联合学习方法 | |
US20210034813A1 (en) | Neural network model with evidence extraction | |
CN108733742B (zh) | 全局归一化阅读器系统和方法 | |
Che et al. | Interpretable deep models for ICU outcome prediction | |
Dong et al. | A fusion model-based label embedding and self-interaction attention for text classification | |
CN107516110A (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN112818676A (zh) | 一种医学实体关系联合抽取方法 | |
WO2021174922A1 (zh) | 语句情感分类方法及相关设备 | |
CN113688248A (zh) | 一种小样本弱标注条件下的医疗事件识别方法及系统 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN111125520A (zh) | 一种面向新闻文本的基于深度聚类模型的事件线抽取方法 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN116779091A (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
Zhao et al. | Deeply supervised active learning for finger bones segmentation | |
Sun et al. | Multitask recalibrated aggregation network for medical code prediction | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
JP7473389B2 (ja) | 学習モデル生成システム、及び学習モデル生成方法 | |
Ranjan et al. | MCWS-transformers: towards an efficient modeling of protein sequences via multi context-window based scaled self-attention | |
CN114997155A (zh) | 一种基于表格检索和实体图推理的事实验证方法与装置 | |
Li et al. | Supervised classification of plant image based on attention mechanism | |
Su et al. | Learning meta-distance for sequences by learning a ground metric via virtual sequence regression | |
CN114139531A (zh) | 一种基于深度学习的医疗实体预测方法及系统 | |
CN113836926A (zh) | 电子病历命名实体识别方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |