CN114036934A

CN114036934A - 一种中文医学实体关系联合抽取方法和系统

Info

Publication number: CN114036934A
Application number: CN202111203313.3A
Authority: CN
Inventors: 徐新黎; 尹晶; 王万良; 管秋
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-11

Abstract

一种中文医学实体关系联合抽取方法，包括：医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F₁分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。本发明还包括一种中文医学实体关系联合抽取系统。本发明解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题，缓解了TPLinker解码矩阵的稀疏，提升了联合抽取模型的收敛速度，通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。

Description

一种中文医学实体关系联合抽取方法和系统

技术领域

本专利涉及自然语言处理领域，特别是一种中文医学实体关系联合抽取方法。

背景技术

构建医疗领域的知识图谱，首先需要从大量的非结构化数据(比如文本)中获得实体、关系、属性等有用的信息，即信息抽取。实体和关系抽取是信息抽取任务中两个重要的子任务。根据两个子任务完成先后顺序的不同，实体关系抽取方法可以分为串联(pipeline)抽取和联合(joint)抽取2种方法。

pipeline抽取，即先抽取实体，再抽取关系，是比较传统的抽取方式。这种抽取方法会导致以下3种问题：1)误差累积：实体抽取的错误会影响关系抽取的准确性；2)实体冗余：对抽取得到的实体两两配对，然后再进行关系分类，如果实体对之间没有关系，就会出现冗余信息；3)交互缺失：没有考虑实体和关系抽取之间的内在联系和依赖关系。

联合抽取方法一定程度上弥补了以上3个缺点。联合抽取，即关系三元组抽取(Relational Triple Extraction,RTE)，三元组以(头实体，关系，尾实体)的形式表示。联合抽取又可以分为基于参数共享的联合抽取和基于联合解码的联合抽取。基于共享参数的联合抽取模型只是共享了实体关系抽取两个模型的参数，如隐层状态等，实体模型和关系模型之间交互并不强。2017年，Zheng等人首次提出将实体和关系统一标注，而且实体模型和关系模型使用同一个解码器，即联合解码。但是，Zheng等人直接将关系作为标签，导致一个实体或一对实体不能有多种关系，即不能解决关系重叠问题。

2020年，Yu等人提出的TPLinker联合抽取框架取得了实体关系抽取的SOTA，它不仅解决了关系重叠问题，还解决了实体嵌套和曝光偏差等问题。但是 TPLinker框架仍存在一些缺点。TPLinker更适用于英文文本，对于中文文本，尤其是中文医疗文本上的抽取性能欠佳。谷歌提供的中文BERT预处理模型可以做到上下文感知，一定程度上提高了中文实体识别的效果。但是中文医疗文本中还存在许多专业词汇，即使结合上下文也无法准确识别。另外，TPLinker框架的解码器比较复杂，存在解码矩阵稀疏、收敛速度慢、关系冗余等问题。

发明内容

本发明要克服现有技术的上述缺点，提供一种中文医学实体关系联合抽取方法。

针对中文医疗文本，基于Transformer-XL编码器和TPLinker联合解码框架，本发明加入词汇增强和关系注意力机制，通过词汇增强引入医疗专业词汇以有利于实体类型和实体边界的识别，同时通过关系注意力机制进行关系预测，解决解码矩阵稀疏、关系冗余的问题，提升中文医疗文本中实体识别和关系抽取的准确性。

本发明解决其技术问题所采用的技术方案是：

一种中文医学实体关系联合抽取方法，包括如下步骤：

步骤一：准备待抽取实体关系的中文医疗文本Text，根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型)，使用中文BERT模型，将每个关系名称表示成嵌入向量，得到关系的语义信息，即关系嵌入C＝{c₁，c₂，...，c_l}，其中l为关系总数；

步骤二：获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型)，对Data进行预处理，得到每个医疗文本中头实体和尾实体的头尾位置；

步骤三：基于Flat_Lattice结构对Text和Data进行词汇增强，计算它们各个医疗文本任意两个字(或者词)向量的4个相对距离以表示字(或者词)向量之间可能存在的交叉、包含或分离的关系，得到各个医疗文本字(或者词)向量及其相对距离矩阵，具体过程如下：

3.1对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量；

3.2获取预训练好的中文生物医学词向量，将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配，识别出与词表有交集的词语进行词汇增强，得到Text和Data的各个医疗文本的词语向量；

3.3对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码，得到字、词的开始及结束位置，使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量x_i和x_j之间的4个相对距离

和

放入相对距离矩阵：

其中head[i]和tail[i]表示第i个字(或者词)向量x_i的头尾位置，用head[j]和tail[j] 表示第j个字(或者词)向量x_j的头尾位置，

表示x_i的开始位置到x_j的开始位置的距离，

表示x_i的开始位置到x_j的结束位置的距离，

表示x_i的结束位置到x_j的开始位置的距离，

表示x_i的结束位置到x_j的结束位置的距离；

步骤四：从Data中取一批训练数据集，将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer-XL编码器，输出医疗文本词汇增强后的字向量H＝{h₁,h₂,…,h_n}，n为医疗文本的长度，Transformer-XL编码器由自注意力层和前馈层2个子层组成，每个子层之后接残差连接和层标准化，任意两个字(或者词)向量x_i和x_j之间的位置编码R_ij由4个相对距离

和

以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到：

其中，W_r是待训练的参数，P_d采用绝对位置编码:

其中，d指代

和

k是位置编码向量内部的维度索引 (k∈[0，(d_model-1)/2])，d_model＝H×d_head(d_head是多头注意力机制每一头的维度，总共H头)；

基于位置编码向量R的自注意力机制如下：

Attention(A^*，V)＝Softmax(A^*)V，

[Q,K,V]＝E_x[W_q,W_k,W_v],

其中，W_q,W_k,Z,W_k,R,u,v,W_k,W_v都是待训练的参数，A^*的前两项分别是两个字(或者词)之间的语义交互和位置交互，后两项为全局内容偏置和全局位置偏置；

步骤五：根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量 H预测关系，得到预测关系列表，具体过程包括自注意力机制、关系注意力机制、注意力融合机制和关系预测：

5.1将医疗文本字向量H输入两个全连接得到自注意力值A^(s)，其中第一个全连接使用tanh激活函数，第二个全连接使用softmax激活函数，根据A^(s)计算医疗文本表示M^(s)：

A^(s)＝softmax(W₂tanh(W₁H))，

M^(s)＝A^(s)H^T，

其中，W₁和W₂是待训练的参数；

5.2根据关系嵌入C和医疗文本字向量H计算关系注意力值A^(l)和基于关系注意力机制的医疗文本表示M^(l)：

A^(l)＝CH，

M^(l)＝A^(l)H^T；

5.3通过注意力融合机制，将M^(s)和M^(l)分别输入一个使用sigmoid激活函数的全连接得到α和β，由α+β＝1对α和β进行约束，融合得到M：

α＝sigmoid(M_(s)W₃)，

β＝sigmoid(M_(l)W₄)，

M＝αM^(s)+βM^(l)，

其中W₃和W₄是待训练的参数；

5.4将M输入两个全连接得到关系标签的预测概率

第一个全连接使用 ReLU激活函数，第二个全连接使用sigmoid激活函数：

其中，W₅和W₆是待训练的参数，如果

大于阈值0.5，就加入预测关系列表；

步骤六：将Transformer-XL编码器输出的医疗文本的每两个字向量h_i和h_j拼接后作一个全连接，得到字符对向量h_ij：

其中激活函数使用的是tanh，W_h和b_h是待训练的参数；

步骤七：通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组，用EH-to-ET标记实体的头尾字符，用SH-to-OH标记关系头尾实体的头字符，用ST-to-OT标记关系头尾实体的尾字符，其中，EH-to-ET、SH-to-OH和ST-to-OT 解码器由一个相同的全连接实现：

其中，

表示字符对h_ij被标记的预测值，k_q表示第q个关系的嵌入，W_t、b_t是待训练的参数，激活函数使用的是softmax，解码的具体过程如下：

7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符；

7.2)对于预测关系列表中的每个关系，解码ST-to-OT得到头尾实体的尾字符对，将尾字符对和关系存入集合O中，同时解码SH-to-OH得到头尾实体的头字符对，将头字符对和所有实体的头字符进行匹配，找到头字符对对应的头尾实体存入集合S中；

7.3)判断S中每对头尾实体的尾字符对是否在O中，如果是，那么确定该三元组为(头实体，关系，尾实体)；

步骤八：计算总的损失函数L，并通过反向传播算法进行联合训练，得到联合抽取模型：

L＝L_rel+L_tp，

其中L_rel是关系预测的损失函数，第q个关系的真实值

第q个关系的预测值

L_tp是加入关系预测后的损失函数，E、H和T分别表示EH-to-ET、SH-to-OH和ST-to-OT，

表示字符对h_ij被标记的预测值，y_ijq表示字符对h_ij被标记的真实值，

表示解码第q个关系时字符对h_ij被标记为y_ijq的概率，

表示预测得到的关系数，

是根据给定的本体约束集合找到的预测关系对应的头尾实体类型数，即预测得到的实体类型数；

步骤九：从Data中取一批验证数据集，将其医疗文本的字(或者词)向量及其相对距离矩阵输入联合抽取模型，计算联合抽取模型的F₁分数：

其中precision为精确率，recall为召回率；

步骤十：重复步骤四到九，直到超过预定的F₁分数，保存联合抽取模型；

步骤十一：将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型，得到实体关系三元组。

本发明的技术构思为：通过词汇增强编码、基于关系注意力机制的关系预测和融合特定关系嵌入的TPLinker联合解码框架完成中文医疗实体关系的联合抽取。词汇增强编码使用Flat_Lattice结构和Transformer-XL中提出的基于相对位置编码的自注意力机制，融合了字符和词汇信息。关系预测主要采用关系注意力机制，结合医疗文本和关系的语义信息来预测医疗关系。TPLinker联合解码将 Transformer-XL输出的字符向量表示成字符对向量，融合特定关系嵌入，通过 EH-to-ET解码得到实体的头尾字符，即所有实体，根据预测关系列表中的每一个关系，通过ST-to-OT解码得到头尾实体的所有尾字符，通过SH-to-OH解码得到头尾实体的所有头字符，从而抽取出(头实体，关系，尾实体)三元组。

一种中文医学实体关系联合抽取方法，由词汇增强编码单元、基于关系注意力机制的关系预测单元和TPLinker联合解码单元3个部分组成。词汇增强编码单元使用Flat_Lattice结构和Transformer-XL中提出的基于相对位置编码的自注意力机制，融合了字符和专业词汇信息，有利于中文医疗实体的识别。关系预测单元主要采用关系注意力机制，结合医疗文本和关系标签的语义信息来预测医疗关系。TPLinker联合解码单元将Transformer-XL输出的字向量表示成字符对向量，融合特定关系嵌入，通过EH-to-ET解码得到实体的头尾字符，根据关系预测单元得到的关系列表中的每一个关系，通过ST-to-OT解码得到头尾实体的所有尾字符，通过SH-to-OH解码得到头尾实体的所有头字符，从而抽取出(头实体，关系，尾实体)三元组。本发明利用TPLinker联合解码单元解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题，引入基于关系注意力机制的关系预测和特定关系嵌入缓解了TPLinker解码矩阵的稀疏，提升了联合抽取模型的收敛速度，通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。

本发明还包括实施本发明的一种中文医学实体关系联合抽取方法的系统，包括：医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F₁分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。上述各模块依次分别对应本发明方法的步骤一～步骤十一的内容。

本发明的有益效果为：本发明利用TPLinker联合解码解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题，即实体对重叠和单实体重叠，加入基于关系注意力机制的关系预测，只对预测得到的关系列表中的关系进行解码，缓解了TPLinker解码矩阵的稀疏，增加模型收敛的速度，在编码部分加入词汇增强更加有利于中文医疗实体的识别，缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。

附图说明

图1为本发明的算法框图。

图2为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1和图2，以中文医疗信息咨询系统及中文医疗信息抽取数据集 CMeIE为例，应用本发明的基于词汇增强和关系注意力机制的中文医学实体关系联合抽取方法，形成一种构建中文医疗信息咨询系统的方法，包括如下步骤：

步骤一：准备待抽取实体关系的中文医疗文本Text，根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型)，例如CMeIE的本体约束集合，使用中文BERT模型，将每个关系名称表示成嵌入向量，得到关系的语义信息，即关系嵌入C＝{c₁,c₂,…,c_l}，其中l为关系总数；

步骤二：获取已标注的中文医疗信息抽取数据集CMeIE(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型，如表2所示，“text”指代医疗文本，“predicate”指代关系名称，“subject”和“subject_type”分别指代头实体的名称及类型，“object”和“object_type”分别指代尾实体的名称及类型，)作为Data，对 Data进行预处理，得到每个医疗文本中头实体和尾实体的头尾位置；

表2

表2示意已标注的中文医疗信息抽取数据。

3.2获取预训练好的中文生物医学词向量，例如Word2Vec训练得到的包含 278256个生物医学相关词汇、维度为512的中文生物医学词向量 (Chinese-Word2vec-Medicine)，将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配，识别出与词表有交集的词语进行词汇增强，得到 Text和Data的各个医疗文本的词语向量；

和

放入相对距离矩阵：

表示x_i的开始位置到x_j的开始位置的距离，

表示x_i的开始位置到x_j的结束位置的距离，

表示x_i的结束位置到x_i的开始位置的距离，

表示x_i的结束位置到x_j的结束位置的距离；

步骤四：从Data中取一批训练数据集，将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer-XL编码器，输出医疗文本词汇增强后的字向量H＝{h₁,h₂,…,h_n}，n为医疗文本的长度，Transformer-XL编码器由自注意力层和前馈层2个子层组成，每个子层之后接残差连接和层标准化，任意两个字(或者词)向量x_i和x_i之间的位置编码R_ij由4个相对距离

和

其中，W_r是待训练的参数，P_d采用绝对位置编码:

其中，d指代

和

k是位置编码向量内部的维度索引 (k∈[0，(d_model-)/2])，d_model＝H×d_head(d_head是多头注意力机制每一头的维度，总共H头)；

基于位置编码向量R的自注意力机制如下：

Attention(A^*，V)＝Softmax(A^*)V，

[Q,K,V]＝E_x[W_q,W_k,W_v],

5.1将医疗文本字向量H输入两个全连接得到自注意力值A^(s)，其中第一个全连接使用激活函数，第二个全连接使用softmax激活函数，根据A^(s)计算医疗文本表示M^(s)：

A^(s)＝softmax(W₂tanh(W₁H))，

M^(s)＝A^(s)H^T，

其中，W₁和W₂是待训练的参数；

5.2根据C和H计算关系注意力值A^(l)和基于关系注意力机制的医疗文本表示M^(l)：

A^(l)＝CH，

M^(l)＝A^(l)H^T；

α＝sigmoid(M^(s)W₃)，

β＝sigmoid(M^(l)W₄)，

M＝αM^(s)+βM^(l)，

其中W₃和W₄是待训练的参数；

5.4将M输入两个全连接得到关系标签的预测概率

第一个全连接使用ReLU激活函数，第二个全连接使用sigmoid激活函数：

其中，W₅和W₆是待训练的参数，如果

大于阈值0.5，就加入预测关系列表；

其中激活函数使用的是tanh，W_h和b_h是待训练的参数；

其中，

7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符；

L＝L_rel+L_tp，

其中L_rel是关系预测的损失函数，第q个关系的真实值

第q个关系的预测值

L_tp是加入关系预测后的损失函数，E、H和T分别表示 EH-to-ET、SH-to-OH和ST-to-OT，

表示解码第q个关系时字符对h_ij被标记为y_ijq的概率，

表示预测得到的关系数，

其中precision为精确率，recall为召回率；

步骤十：重复步骤四到九，直到超过预定的F₁分数，例如预定的CMeIE的验证数据集的F₁分数可设为0.65，保存联合抽取模型；

步骤十一：将Text的各个医疗文本词汇增强后的字(或者词)向量及其相对距离矩阵输入联合抽取模型，得到实体关系三元组(如表1所示)，存储到图数据库Neo4j，作为中文医疗信息咨询系统的知识图谱。

表1

表1表示中文医疗文本中正常关系和重叠关系(SEO和EPO)的三元组示意图

步骤十二：将用户的问题输入中文医疗信息咨询系统，对问题进行解析和关键词匹配后，使用cypher的match去匹配查询中文医疗知识图谱，根据返回知识组装答案，给出问题的查询结果。

如上所述，本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种中文医学实体关系联合抽取方法，其特征在于：包括如下步骤：

步骤三：基于Flat_Lattice结构对Text和Data进行词汇增强，计算它们各个医疗文本中任意两个字(或者词)向量的4个相对距离，得到各个医疗文本字(或者词)向量及其相对距离矩阵，具体过程如下：

3.1)对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量；

3.2)获取预训练好的中文生物医学词向量，将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配，识别出与词表有交集的词语进行词汇增强，得到Text和Data的各个医疗文本的词语向量；

3.3)对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码，得到字、词的开始及结束位置，使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量x_i和x_j之间的4个相对距离

和

放入相对距离矩阵，其中

表示x_i的开始位置到x_j的开始位置的距离，

表示x_i的开始位置到x_j的结束位置的距离，

表示x_i的结束位置到x_j的开始位置的距离，

表示x_i的结束位置到x_j的结束位置的距离；

步骤四：从Data中取一批训练数据集，将其医疗文本的字(或者词)向量Z和位置编码向量R输入Transformer-XL编码器得到医疗文本词汇增强后的字向量H＝{h₁,h₂,…,h_n}，n为医疗文本的长度，Transformer-XL编码器由自注意力层和前馈层2个子层组成，每个子层之后接残差连接和层标准化，任意两个字(或者词)向量x_i和x_j之间的位置编码R_ij由4个相对距离

和

其中，W_r是待训练的参数，P_d采用绝对位置编码，d指代

和

基于位置编码向量R的自注意力机制如下：

Attention(A^*，V)＝Softmax(A^*)V，

[Q,K,V]＝E_x[W_q,W_k,W_v],

其中W_q,W_k,Z,W_k,R,u,v,W_k,W_v都是待训练的参数；

步骤五：根据关系嵌入C和Transformer-XL编码器输出的医疗文本字向量H预测关系，得到预测关系列表，具体过程如下：

5.1将H输入两个全连接得到自注意力值A^(s)，其中第一个全连接使用tanh激活函数，第二个全连接使用softmax激活函数，根据A^(s)计算基于自注意力机制的医疗文本表示M^(s)：

A^(s)＝softmax(W₂tanh(W₁H))，

M^(s)＝A^(s)H^T，

其中W₁和W₂是待训练的参数；

A^(l)＝CH，

M^(l)＝A^(l)H^T；

α＝sigmoid(M^(s)W₃)，

β＝sigmoid(M^(l)W₄)，

M＝αM^(s)+βM^(l)，

其中W₃和W₄是待训练的参数；

5.4将M输入两个全连接得到关系标签的预测概率

其中，W₅和W₆是待训练的参数，如果

大于阈值0.5，就加入预测关系列表；

其中激活函数使用的是tanh，W_h和b_h是待训练的参数；

步骤七：通过融合特定关系嵌入的TPLinker解码器解码得到主谓宾三元组，用EH-to-ET标记实体的头尾字符，用SH-to-OH标记关系头尾实体的头字符，用ST-to-OT标记关系头尾实体的尾字符，其中，EH-to-ET、SH-to-OH和ST-to-OT解码器由一个相同的全连接实现：

其中，

表示字符对h_ij被标记的预测值，k_q表示第q个关系的嵌入，W_t、b_t是待训练的参数，激活函数使用的是softmax，具体过程如下：

7.1)解码EH-to-ET得到医疗文本中的所有实体及其头字符；

L＝L_rel+L_tp，

其中L_rel是关系预测的损失函数，第q个关系的真实值

第q个关系的预测值

表示解码第q个关系时，字符对h_ij被标记为y_ijq的概率，

表示预测得到的关系数，

是根据给定的本体约束集合，找到的预测关系对应的头尾实体类型数，即预测得到的实体类型数；

其中precision为精确率，recall为召回率；

2.实施权利要求1所述的一种中文医学实体关系联合抽取方法的系统，其特征在于包括：医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F₁分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。