CN114036934A - 一种中文医学实体关系联合抽取方法和系统 - Google Patents

一种中文医学实体关系联合抽取方法和系统 Download PDF

Info

Publication number
CN114036934A
CN114036934A CN202111203313.3A CN202111203313A CN114036934A CN 114036934 A CN114036934 A CN 114036934A CN 202111203313 A CN202111203313 A CN 202111203313A CN 114036934 A CN114036934 A CN 114036934A
Authority
CN
China
Prior art keywords
relation
entity
head
word
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111203313.3A
Other languages
English (en)
Inventor
徐新黎
尹晶
王万良
管秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111203313.3A priority Critical patent/CN114036934A/zh
Publication of CN114036934A publication Critical patent/CN114036934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种中文医学实体关系联合抽取方法,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。本发明还包括一种中文医学实体关系联合抽取系统。本发明解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,缓解了TPLinker解码矩阵的稀疏,提升了联合抽取模型的收敛速度,通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。

Description

一种中文医学实体关系联合抽取方法和系统
技术领域
本专利涉及自然语言处理领域,特别是一种中文医学实体关系联合抽取方法。
背景技术
构建医疗领域的知识图谱,首先需要从大量的非结构化数据(比如文本)中获得实体、关系、属性等有用的信息,即信息抽取。实体和关系抽取是信息抽取任务中两个重要的子任务。根据两个子任务完成先后顺序的不同,实体关系抽取方法可以分为串联(pipeline)抽取和联合(joint)抽取2种方法。
pipeline抽取,即先抽取实体,再抽取关系,是比较传统的抽取方式。这种抽取方法会导致以下3种问题:1)误差累积:实体抽取的错误会影响关系抽取的准确性;2)实体冗余:对抽取得到的实体两两配对,然后再进行关系分类,如果实体对之间没有关系,就会出现冗余信息;3)交互缺失:没有考虑实体和关系抽取之间的内在联系和依赖关系。
联合抽取方法一定程度上弥补了以上3个缺点。联合抽取,即关系三元组抽取(Relational Triple Extraction,RTE),三元组以(头实体,关系,尾实体)的形式表示。联合抽取又可以分为基于参数共享的联合抽取和基于联合解码的联合抽取。基于共享参数的联合抽取模型只是共享了实体关系抽取两个模型的参数,如隐层状态等,实体模型和关系模型之间交互并不强。2017年,Zheng等人首次提出将实体和关系统一标注,而且实体模型和关系模型使用同一个解码器,即联合解码。但是,Zheng等人直接将关系作为标签,导致一个实体或一对实体不能有多种关系,即不能解决关系重叠问题。
2020年,Yu等人提出的TPLinker联合抽取框架取得了实体关系抽取的SOTA,它不仅解决了关系重叠问题,还解决了实体嵌套和曝光偏差等问题。但是 TPLinker框架仍存在一些缺点。TPLinker更适用于英文文本,对于中文文本,尤其是中文医疗文本上的抽取性能欠佳。谷歌提供的中文BERT预处理模型可以做到上下文感知,一定程度上提高了中文实体识别的效果。但是中文医疗文本中还存在许多专业词汇,即使结合上下文也无法准确识别。另外,TPLinker框架的解码器比较复杂,存在解码矩阵稀疏、收敛速度慢、关系冗余等问题。
发明内容
本发明要克服现有技术的上述缺点,提供一种中文医学实体关系联合抽取方法。
针对中文医疗文本,基于Transformer-XL编码器和TPLinker联合解码框架,本发明加入词汇增强和关系注意力机制,通过词汇增强引入医疗专业词汇以有利于实体类型和实体边界的识别,同时通过关系注意力机制进行关系预测,解决解码矩阵稀疏、关系冗余的问题,提升中文医疗文本中实体识别和关系抽取的准确性。
本发明解决其技术问题所采用的技术方案是:
一种中文医学实体关系联合抽取方法,包括如下步骤:
步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,...,cl},其中l为关系总数;
步骤二:获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型),对Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本任意两个字(或者词)向量的4个相对距离以表示字(或者词)向量之间可能存在的交叉、包含或分离的关系,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
3.1对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
3.2获取预训练好的中文生物医学词向量,将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到Text和Data的各个医疗文本的词语向量;
3.3对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量xi和xj之间的4个相对距离
Figure BDA0003305876640000031
Figure BDA0003305876640000032
放入相对距离矩阵:
Figure BDA0003305876640000033
其中head[i]和tail[i]表示第i个字(或者词)向量xi的头尾位置,用head[j]和tail[j] 表示第j个字(或者词)向量xj的头尾位置,
Figure BDA0003305876640000034
表示xi的开始位置到xj的开始位置的距离,
Figure BDA0003305876640000035
表示xi的开始位置到xj的结束位置的距离,
Figure BDA0003305876640000036
表示xi的结束位置到xj的开始位置的距离,
Figure BDA0003305876640000037
表示xi的结束位置到xj的结束位置的距离;
步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer-XL编码器,输出医疗文本词汇增强后的字向量H={h1,h2,…,hn},n为医疗文本的长度,Transformer-XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量xi和xj之间的位置编码Rij由4个相对距离
Figure BDA0003305876640000038
Figure BDA0003305876640000039
以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
Figure BDA00033058766400000310
其中,Wr是待训练的参数,Pd采用绝对位置编码:
Figure BDA00033058766400000311
Figure BDA00033058766400000312
其中,d指代
Figure BDA00033058766400000313
Figure BDA00033058766400000314
k是位置编码向量内部的维度索引 (k∈[0,(dmodel-1)/2]),dmodel=H×dhead(dhead是多头注意力机制每一头的维度,总共H头);
基于位置编码向量R的自注意力机制如下:
Attention(A*,V)=Softmax(A*)V,
Figure BDA0003305876640000041
[Q,K,V]=Ex[Wq,Wk,Wv],
其中,Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待训练的参数,A*的前两项分别是两个字(或者词)之间的语义交互和位置交互,后两项为全局内容偏置和全局位置偏置;
步骤五:根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量 H预测关系,得到预测关系列表,具体过程包括自注意力机制、关系注意力机制、注意力融合机制和关系预测:
5.1将医疗文本字向量H输入两个全连接得到自注意力值A(s),其中第一个全连接使用tanh激活函数,第二个全连接使用softmax激活函数,根据A(s)计算医疗文本表示M(s)
A(s)=softmax(W2tanh(W1H)),
M(s)=A(s)HT
其中,W1和W2是待训练的参数;
5.2根据关系嵌入C和医疗文本字向量H计算关系注意力值A(l)和基于关系注意力机制的医疗文本表示M(l)
A(l)=CH,
M(l)=A(l)HT
5.3通过注意力融合机制,将M(s)和M(l)分别输入一个使用sigmoid激活函数的全连接得到α和β,由α+β=1对α和β进行约束,融合得到M:
α=sigmoid(M(s)W3),
β=sigmoid(M(l)W4),
M=αM(s)+βM(l)
其中W3和W4是待训练的参数;
5.4将M输入两个全连接得到关系标签的预测概率
Figure BDA0003305876640000042
第一个全连接使用 ReLU激活函数,第二个全连接使用sigmoid激活函数:
Figure BDA0003305876640000043
其中,W5和W6是待训练的参数,如果
Figure BDA0003305876640000051
大于阈值0.5,就加入预测关系列表;
步骤六:将Transformer-XL编码器输出的医疗文本的每两个字向量hi和hj拼接后作一个全连接,得到字符对向量hij
Figure BDA0003305876640000052
其中激活函数使用的是tanh,Wh和bh是待训练的参数;
步骤七:通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组,用EH-to-ET标记实体的头尾字符,用SH-to-OH标记关系头尾实体的头字符,用ST-to-OT标记关系头尾实体的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT 解码器由一个相同的全连接实现:
Figure BDA0003305876640000053
其中,
Figure BDA0003305876640000054
表示字符对hij被标记的预测值,kq表示第q个关系的嵌入,Wt、bt是待训练的参数,激活函数使用的是softmax,解码的具体过程如下:
7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符;
7.2)对于预测关系列表中的每个关系,解码ST-to-OT得到头尾实体的尾字符对,将尾字符对和关系存入集合O中,同时解码SH-to-OH得到头尾实体的头字符对,将头字符对和所有实体的头字符进行匹配,找到头字符对对应的头尾实体存入集合S中;
7.3)判断S中每对头尾实体的尾字符对是否在O中,如果是,那么确定该三元组为(头实体,关系,尾实体);
步骤八:计算总的损失函数L,并通过反向传播算法进行联合训练,得到联合抽取模型:
L=Lrel+Ltp
Figure BDA0003305876640000055
Figure BDA0003305876640000056
其中Lrel是关系预测的损失函数,第q个关系的真实值
Figure BDA0003305876640000057
第q个关系的预测值
Figure BDA0003305876640000058
Ltp是加入关系预测后的损失函数,E、H和T分别表示EH-to-ET、SH-to-OH和ST-to-OT,
Figure BDA0003305876640000061
表示字符对hij被标记的预测值,yijq表示字符对hij被标记的真实值,
Figure BDA0003305876640000062
表示解码第q个关系时字符对hij被标记为yijq的概率,
Figure BDA0003305876640000063
表示预测得到的关系数,
Figure BDA0003305876640000064
是根据给定的本体约束集合找到的预测关系对应的头尾实体类型数,即预测得到的实体类型数;
步骤九:从Data中取一批验证数据集,将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型,计算联合抽取模型的F1分数:
Figure BDA0003305876640000065
其中precision为精确率,recall为召回率;
步骤十:重复步骤四到九,直到超过预定的F1分数,保存联合抽取模型;
步骤十一:将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型,得到实体关系三元组。
本发明的技术构思为:通过词汇增强编码、基于关系注意力机制的关系预测和融合特定关系嵌入的TPLinker联合解码框架完成中文医疗实体关系的联合抽取。词汇增强编码使用Flat_Lattice结构和Transformer-XL中提出的基于相对位置编码的自注意力机制,融合了字符和词汇信息。关系预测主要采用关系注意力机制,结合医疗文本和关系的语义信息来预测医疗关系。TPLinker联合解码将 Transformer-XL输出的字符向量表示成字符对向量,融合特定关系嵌入,通过 EH-to-ET解码得到实体的头尾字符,即所有实体,根据预测关系列表中的每一个关系,通过ST-to-OT解码得到头尾实体的所有尾字符,通过SH-to-OH解码得到头尾实体的所有头字符,从而抽取出(头实体,关系,尾实体)三元组。
一种中文医学实体关系联合抽取方法,由词汇增强编码单元、基于关系注意力机制的关系预测单元和TPLinker联合解码单元3个部分组成。词汇增强编码单元使用Flat_Lattice结构和Transformer-XL中提出的基于相对位置编码的自注意力机制,融合了字符和专业词汇信息,有利于中文医疗实体的识别。关系预测单元主要采用关系注意力机制,结合医疗文本和关系标签的语义信息来预测医疗关系。TPLinker联合解码单元将Transformer-XL输出的字向量表示成字符对向量,融合特定关系嵌入,通过EH-to-ET解码得到实体的头尾字符,根据关系预测单元得到的关系列表中的每一个关系,通过ST-to-OT解码得到头尾实体的所有尾字符,通过SH-to-OH解码得到头尾实体的所有头字符,从而抽取出(头实体,关系,尾实体)三元组。本发明利用TPLinker联合解码单元解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,引入基于关系注意力机制的关系预测和特定关系嵌入缓解了TPLinker解码矩阵的稀疏,提升了联合抽取模型的收敛速度,通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。
本发明还包括实施本发明的一种中文医学实体关系联合抽取方法的系统,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。上述各模块依次分别对应本发明方法的步骤一~步骤十一的内容。
本发明的有益效果为:本发明利用TPLinker联合解码解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,即实体对重叠和单实体重叠,加入基于关系注意力机制的关系预测,只对预测得到的关系列表中的关系进行解码,缓解了TPLinker解码矩阵的稀疏,增加模型收敛的速度,在编码部分加入词汇增强更加有利于中文医疗实体的识别,缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。
附图说明
图1为本发明的算法框图。
图2为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1和图2,以中文医疗信息咨询系统及中文医疗信息抽取数据集 CMeIE为例,应用本发明的基于词汇增强和关系注意力机制的中文医学实体关系联合抽取方法,形成一种构建中文医疗信息咨询系统的方法,包括如下步骤:
步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),例如CMeIE的本体约束集合,使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,…,cl},其中l为关系总数;
步骤二:获取已标注的中文医疗信息抽取数据集CMeIE(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型,如表2所示,“text”指代医疗文本,“predicate”指代关系名称,“subject”和“subject_type”分别指代头实体的名称及类型,“object”和“object_type”分别指代尾实体的名称及类型,)作为Data,对 Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
表2
Figure 1
表2示意已标注的中文医疗信息抽取数据。
步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本任意两个字(或者词)向量的4个相对距离以表示字(或者词)向量之间可能存在的交叉、包含或分离的关系,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
3.1对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
3.2获取预训练好的中文生物医学词向量,例如Word2Vec训练得到的包含 278256个生物医学相关词汇、维度为512的中文生物医学词向量 (Chinese-Word2vec-Medicine),将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到 Text和Data的各个医疗文本的词语向量;
3.3对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量xi和xj之间的4个相对距离
Figure BDA0003305876640000091
Figure BDA0003305876640000092
放入相对距离矩阵:
Figure BDA0003305876640000093
其中head[i]和tail[i]表示第i个字(或者词)向量xi的头尾位置,用head[j]和tail[j] 表示第j个字(或者词)向量xj的头尾位置,
Figure BDA0003305876640000094
表示xi的开始位置到xj的开始位置的距离,
Figure BDA0003305876640000095
表示xi的开始位置到xj的结束位置的距离,
Figure BDA0003305876640000096
表示xi的结束位置到xi的开始位置的距离,
Figure BDA0003305876640000097
表示xi的结束位置到xj的结束位置的距离;
步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer-XL编码器,输出医疗文本词汇增强后的字向量H={h1,h2,…,hn},n为医疗文本的长度,Transformer-XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量xi和xi之间的位置编码Rij由4个相对距离
Figure BDA0003305876640000098
Figure BDA0003305876640000099
以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
Figure BDA00033058766400000910
其中,Wr是待训练的参数,Pd采用绝对位置编码:
Figure BDA00033058766400000911
其中,d指代
Figure BDA00033058766400000912
Figure BDA00033058766400000913
k是位置编码向量内部的维度索引 (k∈[0,(dmodel-)/2]),dmodel=H×dhead(dhead是多头注意力机制每一头的维度,总共H头);
基于位置编码向量R的自注意力机制如下:
Attention(A*,V)=Softmax(A*)V,
Figure BDA0003305876640000101
[Q,K,V]=Ex[Wq,Wk,Wv],
其中,Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待训练的参数,A*的前两项分别是两个字(或者词)之间的语义交互和位置交互,后两项为全局内容偏置和全局位置偏置;
步骤五:根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量 H预测关系,得到预测关系列表,具体过程包括自注意力机制、关系注意力机制、注意力融合机制和关系预测:
5.1将医疗文本字向量H输入两个全连接得到自注意力值A(s),其中第一个全连接使用激活函数,第二个全连接使用softmax激活函数,根据A(s)计算医疗文本表示M(s)
A(s)=softmax(W2tanh(W1H)),
M(s)=A(s)HT
其中,W1和W2是待训练的参数;
5.2根据C和H计算关系注意力值A(l)和基于关系注意力机制的医疗文本表示M(l)
A(l)=CH,
M(l)=A(l)HT
5.3通过注意力融合机制,将M(s)和M(l)分别输入一个使用sigmoid激活函数的全连接得到α和β,由α+β=1对α和β进行约束,融合得到M:
α=sigmoid(M(s)W3),
β=sigmoid(M(l)W4),
M=αM(s)+βM(l)
其中W3和W4是待训练的参数;
5.4将M输入两个全连接得到关系标签的预测概率
Figure BDA0003305876640000102
第一个全连接使用ReLU激活函数,第二个全连接使用sigmoid激活函数:
Figure BDA0003305876640000111
其中,W5和W6是待训练的参数,如果
Figure BDA0003305876640000112
大于阈值0.5,就加入预测关系列表;
步骤六:将Transformer-XL编码器输出的医疗文本的每两个字向量hi和hj拼接后作一个全连接,得到字符对向量hij
Figure BDA0003305876640000113
其中激活函数使用的是tanh,Wh和bh是待训练的参数;
步骤七:通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组,用EH-to-ET标记实体的头尾字符,用SH-to-OH标记关系头尾实体的头字符,用ST-to-OT标记关系头尾实体的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT 解码器由一个相同的全连接实现:
Figure BDA0003305876640000114
其中,
Figure BDA0003305876640000115
表示字符对hij被标记的预测值,kq表示第q个关系的嵌入,Wt、bt是待训练的参数,激活函数使用的是softmax,解码的具体过程如下:
7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符;
7.2)对于预测关系列表中的每个关系,解码ST-to-OT得到头尾实体的尾字符对,将尾字符对和关系存入集合O中,同时解码SH-to-OH得到头尾实体的头字符对,将头字符对和所有实体的头字符进行匹配,找到头字符对对应的头尾实体存入集合S中;
7.3)判断S中每对头尾实体的尾字符对是否在O中,如果是,那么确定该三元组为(头实体,关系,尾实体);
步骤八:计算总的损失函数L,并通过反向传播算法进行联合训练,得到联合抽取模型:
L=Lrel+Ltp
Figure BDA0003305876640000116
Figure BDA0003305876640000117
其中Lrel是关系预测的损失函数,第q个关系的真实值
Figure BDA0003305876640000121
第q个关系的预测值
Figure BDA0003305876640000122
Ltp是加入关系预测后的损失函数,E、H和T分别表示 EH-to-ET、SH-to-OH和ST-to-OT,
Figure BDA0003305876640000123
表示字符对hij被标记的预测值,yijq表示字符对hij被标记的真实值,
Figure BDA0003305876640000124
表示解码第q个关系时字符对hij被标记为yijq的概率,
Figure BDA0003305876640000125
表示预测得到的关系数,
Figure BDA0003305876640000126
是根据给定的本体约束集合找到的预测关系对应的头尾实体类型数,即预测得到的实体类型数;
步骤九:从Data中取一批验证数据集,将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型,计算联合抽取模型的F1分数:
Figure BDA0003305876640000127
其中precision为精确率,recall为召回率;
步骤十:重复步骤四到九,直到超过预定的F1分数,例如预定的CMeIE的验证数据集的F1分数可设为0.65,保存联合抽取模型;
步骤十一:将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型,得到实体关系三元组(如表1所示),存储到图数据库Neo4j,作为中文医疗信息咨询系统的知识图谱。
表1
Figure BDA0003305876640000128
表1表示中文医疗文本中正常关系和重叠关系(SEO和EPO)的三元组示意图
步骤十二:将用户的问题输入中文医疗信息咨询系统,对问题进行解析和关键词匹配后,使用cypher的match去匹配查询中文医疗知识图谱,根据返回知识组装答案,给出问题的查询结果。
本发明还包括实施本发明的一种中文医学实体关系联合抽取方法的系统,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。上述各模块依次分别对应本发明方法的步骤一~步骤十一的内容。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (2)

1.一种中文医学实体关系联合抽取方法,其特征在于:包括如下步骤:
步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,...,cl},其中l为关系总数;
步骤二:获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型),对Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本中任意两个字(或者词)向量的4个相对距离,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
3.1)对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
3.2)获取预训练好的中文生物医学词向量,将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到Text和Data的各个医疗文本的词语向量;
3.3)对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量xi和xj之间的4个相对距离
Figure FDA0003305876630000011
Figure FDA0003305876630000012
放入相对距离矩阵,其中
Figure FDA0003305876630000013
表示xi的开始位置到xj的开始位置的距离,
Figure FDA0003305876630000014
表示xi的开始位置到xj的结束位置的距离,
Figure FDA0003305876630000015
表示xi的结束位置到xj的开始位置的距离,
Figure FDA0003305876630000016
表示xi的结束位置到xj的结束位置的距离;
步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z和位置编码向量R输入Transformer-XL编码器得到医疗文本词汇增强后的字向量H={h1,h2,…,hn},n为医疗文本的长度,Transformer-XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量xi和xj之间的位置编码Rij由4个相对距离
Figure FDA0003305876630000017
Figure FDA0003305876630000018
以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
Figure FDA0003305876630000021
其中,Wr是待训练的参数,Pd采用绝对位置编码,d指代
Figure FDA0003305876630000022
Figure FDA0003305876630000023
基于位置编码向量R的自注意力机制如下:
Attention(A*,V)=Softmax(A*)V,
Figure FDA0003305876630000024
[Q,K,V]=Ex[Wq,Wk,Wv],
其中Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待训练的参数;
步骤五:根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量H预测关系,得到预测关系列表,具体过程如下:
5.1将H输入两个全连接得到自注意力值A(s),其中第一个全连接使用tanh激活函数,第二个全连接使用softmax激活函数,根据A(s)计算基于自注意力机制的医疗文本表示M(s)
A(s)=softmax(W2tanh(W1H)),
M(s)=A(s)HT
其中W1和W2是待训练的参数;
5.2根据C和H计算关系注意力值A(l)和基于关系注意力机制的医疗文本表示M(l)
A(l)=CH,
M(l)=A(l)HT
5.3通过注意力融合机制,将M(s)和M(l)分别输入一个使用sigmoid激活函数的全连接得到α和β,由α+β=1对α和β进行约束,融合得到M:
α=sigmoid(M(s)W3),
β=sigmoid(M(l)W4),
M=αM(s)+βM(l)
其中W3和W4是待训练的参数;
5.4将M输入两个全连接得到关系标签的预测概率
Figure FDA0003305876630000025
第一个全连接使用ReLU激活函数,第二个全连接使用sigmoid激活函数:
Figure FDA0003305876630000031
其中,W5和W6是待训练的参数,如果
Figure FDA0003305876630000032
大于阈值0.5,就加入预测关系列表;
步骤六:将Transformer-XL编码器输出的医疗文本的每两个字向量hi和hj拼接后作一个全连接,得到字符对向量hij
Figure FDA0003305876630000033
其中激活函数使用的是tanh,Wh和bh是待训练的参数;
步骤七:通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组,用EH-to-ET标记实体的头尾字符,用SH-to-OH标记关系头尾实体的头字符,用ST-to-OT标记关系头尾实体的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT解码器由一个相同的全连接实现:
Figure FDA0003305876630000034
其中,
Figure FDA0003305876630000035
表示字符对hij被标记的预测值,kq表示第q个关系的嵌入,Wt、bt是待训练的参数,激活函数使用的是softmax,具体过程如下:
7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符;
7.2)对于预测关系列表中的每个关系,解码ST-to-OT得到头尾实体的尾字符对,将尾字符对和关系存入集合O中,同时解码SH-to-OH得到头尾实体的头字符对,将头字符对和所有实体的头字符进行匹配,找到头字符对对应的头尾实体存入集合S中;
7.3)判断S中每对头尾实体的尾字符对是否在O中,如果是,那么确定该三元组为(头实体,关系,尾实体);
步骤八:计算总的损失函数L,并通过反向传播算法进行联合训练,得到联合抽取模型:
L=Lrel+Ltp
Figure FDA0003305876630000036
Figure FDA0003305876630000037
其中Lrel是关系预测的损失函数,第q个关系的真实值
Figure FDA0003305876630000038
第q个关系的预测值
Figure FDA0003305876630000039
ltp是加入关系预测后的损失函数,E、H和T分别表示EH-to-ET、SH-to-OH和ST-to-OT,
Figure FDA0003305876630000041
表示字符对hij被标记的预测值,yijq表示字符对hij被标记的真实值,
Figure FDA0003305876630000042
表示解码第q个关系时,字符对hij被标记为yijq的概率,
Figure FDA0003305876630000043
表示预测得到的关系数,
Figure FDA0003305876630000044
是根据给定的本体约束集合,找到的预测关系对应的头尾实体类型数,即预测得到的实体类型数;
步骤九:从Data中取一批验证数据集,将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型,计算联合抽取模型的F1分数:
Figure FDA0003305876630000045
其中precision为精确率,recall为召回率;
步骤十:重复步骤四到九,直到超过预定的F1分数,保存联合抽取模型;
步骤十一:将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型,得到实体关系三元组。
2.实施权利要求1所述的一种中文医学实体关系联合抽取方法的系统,其特征在于包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。
CN202111203313.3A 2021-10-15 2021-10-15 一种中文医学实体关系联合抽取方法和系统 Pending CN114036934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111203313.3A CN114036934A (zh) 2021-10-15 2021-10-15 一种中文医学实体关系联合抽取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111203313.3A CN114036934A (zh) 2021-10-15 2021-10-15 一种中文医学实体关系联合抽取方法和系统

Publications (1)

Publication Number Publication Date
CN114036934A true CN114036934A (zh) 2022-02-11

Family

ID=80135025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111203313.3A Pending CN114036934A (zh) 2021-10-15 2021-10-15 一种中文医学实体关系联合抽取方法和系统

Country Status (1)

Country Link
CN (1) CN114036934A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN115759098A (zh) * 2022-11-14 2023-03-07 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统
CN116737924A (zh) * 2023-04-27 2023-09-12 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置
CN116775801A (zh) * 2023-06-26 2023-09-19 中山大学 一种面向中文医学文本的实体关系抽取方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN115759098A (zh) * 2022-11-14 2023-03-07 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统
CN116737924A (zh) * 2023-04-27 2023-09-12 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置
CN116775801A (zh) * 2023-06-26 2023-09-19 中山大学 一种面向中文医学文本的实体关系抽取方法及系统

Similar Documents

Publication Publication Date Title
CN110781683B (zh) 一种实体关系联合抽取方法
CN114036934A (zh) 一种中文医学实体关系联合抽取方法和系统
CN111428443B (zh) 一种基于实体上下文语义交互的实体链接方法
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN115080766B (zh) 基于预训练模型的多模态知识图谱表征系统及方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN113704437A (zh) 一种融合多头注意力机制和相对位置编码的知识库问答方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN114429122A (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN112925918A (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN112036189A (zh) 一种金文语义识别方法和系统
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN116049422A (zh) 基于联合抽取模型的包虫病知识图谱构建方法及其应用
CN117423470B (zh) 一种慢性病临床决策支持系统及构建方法
CN114020900A (zh) 基于融合空间位置注意力机制的图表英语摘要生成方法
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN116432637A (zh) 一种基于强化学习的多粒度抽取-生成混合式文摘方法
CN116109980A (zh) 一种基于视频文本匹配的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination