CN112711949B

CN112711949B - 一种命名实体识别和实体关系抽取的联合方法

Info

Publication number: CN112711949B
Application number: CN202110011146.6A
Authority: CN
Inventors: 何彬彬; 吴军; 樊昭磊; 张伯政; 桑波
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2022-04-22
Anticipated expiration: 2041-01-05
Also published as: CN112711949A

Abstract

一种命名实体识别和实体关系抽取的联合方法，解决了Pipeline方法中实体识别与关系抽取相互隔离的问题，不同于Joint（联合）方法中实体识别与关系抽取部分参数共享，本发明在多步迭代过程中，实现了实体识别结果与关系抽取结果多次融合、相互影响，使得命名实体识别与实体关系抽取同步进行，进一步提高识别准确率。

Description

一种命名实体识别和实体关系抽取的联合方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种命名实体识别和实体关系抽取的联合方法。

背景技术

自然语言处理是人工智能研究的一个分支领域，随着现今互联网信息化的发展，自然语言数据不断地加速积累，如何消化这些数据，从数据中抽取出知识信息继而进行推理，是当今自然语言处理研究的重点，其中以命名实体识别和实体关系抽取最具代表性。

而传统的命名实体识别和实体关系抽取主要有两大技术方向：

Pipeline方法：该方法先对文本中的命名实体进行识别，然后再结合文本以及命名实体识别的结果，对实体之间的关系进行识别。该方法由于将命名实体识别与实体关系抽取分开进行，最终的识别结果的误差会在两个步骤间进行累积，使得最终的识别结果误差较大。

Joint(联合)方法：该方法同时对文本中的命名实体以及实体关系进行识别，虽然表面上避免了误差累积，但是真实情况是，不同的命名实体识别方案会影响其实体关系识别的方案，而不同的实体关系识别方案又会反过来影响命名实体识别的方案。而现有的联合方法都仅仅是将命名实体识别与关系抽取做了部分模型参数共享，并没有真正实现两者的识别结果互相参照互相影响继而进行对应调整。所以目前的联合方法虽然没有了误差的累积，但是实际效果还不如使用Pipeline方法的最终准确度高。

发明内容

本发明为了克服以上技术的不足，提供了一种将命名实体识别和实体关系抽取同时进行，能够对命名实体识别和关系抽取的结果互相影响互相参考，继而提升最终准确率的联合方法。

本发明克服其技术问题所采用的技术方案是：

一种命名实体识别和实体关系抽取的联合方法，包括：

a)对输入电子病历文本S、实体位置标记张量Entity_label、文本实体关系标记Relation_label进行处理；

b)预训练语言模型，将电子病历文本S输入到预训练语言模型中，得到文本的张量表示H，生成实体位置标记嵌入Entity，输出Entity∈R^{entity_size×E}，entity_size为实体类型数量，E为语言模型中词嵌入的维度；

c)设定迭代次数K，K≥1且为正整数，在第k次迭代时，若k＝1，H_k＝H，H_k为第k轮的初始输入，若1＜k≤K，

为第k-1轮输出的迭代张量；

d)将H_k与实体位置标记张量Entity_label输入到实体识别模型中，输出概率张量P_k及实体识别标记结果B_k，将概率张量P_k与实体位置标记嵌入Entity进行内积运算，输出文本的实体位置概率表示为PE_k∈R^L×E，L为电子病历文本S中最大字符长度；

e)将H_k与文本实体关系标记Relation_label输入到关系模型，输出关系损失Relation_loss_k与实体关系概率矩阵PR_k∈R^L×L；

f)将文本的实体位置概率PE_k与实体关系概率矩阵PR_k输入到注意力模型中，输出第k轮迭代张量

g)增加迭代次数，令k＝k+1，若k＞K则结束迭代并执行步骤h)，如果k≤K则执行步骤c)；

h)输入电子病历文本S，第K轮中的实体识别矩阵B_K∈R^{L×entity_size}为实体识别结果，实体关系概率矩阵PR_K∈R^{L×L×relattion_size}，relation_size为关系类型数量。进一步的，步骤a)中对电子病历文本S的处理包括：将电子病历文本S中长度超过L的部分截掉，长度不足L的部分进行padding填充补全。

进一步的，步骤a)中实体位置标记张量Entity_label的处理包括：对张量Entity_label标记出实体位置，维度为R^L，R为实数空间，其中实体类型数量为entity_size。

进一步的，步骤a)中文本实体关系标记Relation_label的处理包括：对实体关系标记Relation_label标记出实体间的关系，维度为R^L×L，其中关系类型数量为relation_size。

进一步的，步骤b)包括如下步骤：

b-1)选用Bert或Albert或GPT方法预训练语言模型，文本张量H的维度为R^L×E，L与E均为正整数；

b-2)利用公式Entity＝Embedding(Entity_label)将实体位置标记张量Entity_label经嵌入层输出实体位置标记嵌入。

进一步的，步骤d)中实体识别模型采用Transformer模块与条件随机场CRF结合的方式输出CRF损失函数、输出概率张量P_k及实体识别标记结果B_k。

进一步的，步骤d)包括如下步骤：

d-1)利用公式G_k＝Transformer(H_k)计算文本张量H经过Transformer网络层后的输出G_k，通过公式B_k＝MLP(G_k)计算G_k利用MLP神经网络输出的实体识别标记结果B_k，利用公式P_k＝Forward_backward(B_k,Entity)计算B_k利用CRF模型的前项-后向算法得到概率张量P_k；

d-2)将概率张量P_k与实体位置标记张量Entity_label输入到CRF模型中通过公式CRF_loss_k＝CRF(P_k,Entity_label)计算损失CRF_loss_k，概率张量P_k与实体位置标记张量Entity_label通过公式PE_k＝P_k*Entity∈R^L×E进行内积运算得到文本的实体位置概率PE_k。

进一步的，步骤e)包括如下步骤：

e-1)将H_k输入到两个不同的Transformer模型中，分别得到Y₁∈R^L×E，Y₂∈R^L×E，通过公式PR_k＝Sigmoid(Y_k)计算得到实体关系概率矩阵PR_k，式中

为Y₂的转置，Y_k∈R^{L×L×relation_size}；

e-2)通过公式Relation_loss_k＝Cross_entropy(PR_k,Relation_label)计算交叉熵损失作为输出关系损失Relation_loss_k，Relation_label∈R^L×L。

进一步的，步骤f)包括如下步骤：

f-1)通过公式ME_k＝PE_k+H_k∈R^L×E计算得到ME_k；

f-2)通过公式

对ME_k在嵌入维度进行分割，分割份数为head_num，head_num为正整数且能整除嵌入维度E，通过公式F＝E/head_num计算分割后的嵌入维度F，分割后的

j＝{0,1,...,head_num-1}；

f-3)通过公式

计算得到构造注意力向量Q_j、K_j、V_j，MLP₁、MLP₂、MLP₃为权重参数不同的MLP神经网络；

f-4)利用实体关系概率矩阵PR_k∈R^L×L通过公式

计算注意力机制的输出O_j，O_j∈R^L×F，λ∈R为实数，M从{MLP(PR_k),MLP(PR_k)^T,ONE}中选择，ONE∈R^L×L为单位矩阵，MLP(PR_k)∈R^L×L，MLP(PR_k)^T为MLP(PR_k)的转置；

f-5)通过公式

将O_j在嵌入维度进行拼接，得到迭代张量

进一步的，步骤h)中通过公式

计算模型总损失loss，式中α_i和β_m均为权重系数，α_i和β_m均为实数，采用随机梯度下降法，优化总体损失loss进行逐步训练。

本发明的有益效果是：通过命名实体识别和实体关系抽取的联合方法，解决了Pipeline方法中实体识别与关系抽取相互隔离的问题，不同于Joint(联合)方法中实体识别与关系抽取部分参数共享，本发明在多步迭代过程中，实现了实体识别结果与关系抽取结果多次融合、相互影响，使得命名实体识别与实体关系抽取同步进行，进一步提高识别准确率。

具体实施方式

下面对本发明做进一步说明。

一种命名实体识别和实体关系抽取的联合方法，包括：

为第k-1轮输出的迭代张量；

h)输入电子病历文本S，第K轮中的实体识别矩阵B_K∈R^{L×entity_size}为实体识别结果，实体关系概率矩阵PR_K∈R^{L×L×relattion_size}，relation_size为关系类型数量。通过以上命名实体识别和实体关系抽取的联合方法，解决了Pipeline方法中实体识别与关系抽取相互隔离的问题，不同于Joint(联合)方法中实体识别与关系抽取部分参数共享，本发明在多步迭代过程中，实现了实体识别结果与关系抽取结果多次融合、相互影响，使得命名实体识别与实体关系抽取同步进行，进一步提高识别准确率。

进一步的，步骤a)中对电子病历文本S的处理包括：将电子病历文本S中长度超过L的部分截掉，长度不足L的部分进行padding填充补全。

进一步的，步骤b)包括如下步骤：

进一步的，步骤d)包括如下步骤：

进一步的，步骤e)包括如下步骤：

为Y₂的转置，Y_k∈R^{L×L×relation_size}；

进一步的，步骤f)包括如下步骤：

f-1)通过公式ME_k＝PE_k+H_k∈R^L×E计算得到ME_k；

f-2)通过公式

f-3)通过公式

f-4)利用实体关系概率矩阵PR_k∈R^L×L通过公式

计算注意力机制的输出O_j，O_j∈R^L×F，λ∈R为实数，M从{MLP(PR_k),MLP(PR_k)^T,ONE}中选择，ONE∈R^L×L为单位矩阵，MLP(PR_k)∈R^L×L，MLP(PR_k)^T为MLP(PR_k)的转置；f-5)通过公式

将O_j在嵌入维度进行拼接，得到迭代张量

进一步的，步骤h)中通过公式

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。