CN114357176B

CN114357176B - 实体知识自动抽取方法和计算机装置、计算机可读介质

Info

Publication number: CN114357176B
Application number: CN202111419529.3A
Authority: CN
Inventors: 夏振涛; 谈辉; 李艳; 朱立烨; 石雁
Original assignee: Yozosoft Co ltd
Current assignee: Yozosoft Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-11-21
Anticipated expiration: 2041-11-26
Also published as: WO2023092985A1; CN114357176A

Abstract

本发明提供一种实体知识自动抽取方法和计算机装置、计算机可读介质。所述实体知识自动抽取方法包括：将输入文本H₀输入至由N层组成的BERT模型的前K层进行处理,以在第K层输出上下文表征向量H_K；将H_K因第一任务首次输入到所述BERT模型的剩余N‑K层进行处理以在第N层输出上下文表征向量此时剩余N‑K层的每层基于第一掩码矩阵对输入进行处理，基于进行第一层实体识别得到第一层实体；将H_K因第二任务再次输入到所述BERT模型的剩余N‑K层进行处理以在第N层输出上下文表征向量此时剩余N‑K层的每层基于第二掩码矩阵对输入进行处理，基于进行第二层实体识别得到第二层实体。这样，可以提高BERT模型对实体知识的特征抽取能力。

Description

实体知识自动抽取方法和计算机装置、计算机可读介质

技术领域

本发明涉及文本处理领域，尤其涉及一种实体知识自动抽取方法和计算机装置、计算机可读介质。

背景技术

作为自然语言处理中的一个重要任务，信息抽取是从原始非结构化的自然语言文本中提取有意义的实体、属性、关系、事件等事实类结构化信息的文本处理技术。在公文写作中，其实体知识有着重要的作用，可以辅助公文写作，如内容审核。目前的实体知识自动抽取方法仍有准确率低，难以优化等缺点。因此，有必要提出一种改进的实体知识自动抽取方法。

发明内容

本发明的目的在于提供一种实体知识自动抽取方法和计算机装置、计算机可读介质，其可以提高BERT模型对实体知识的特征抽取能力。

根据本发明的另一个方面，本发明提供一种实体知识自动抽取方法，其包括：将输入文本H₀输入至由N层组成的BERT模型的前K层进行处理，以在第K层输出上下文表征向量H_K；将第K层输出的上下文表征向量H_K因第一任务首次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第一掩码矩阵对输入进行处理，基于第N层输出的上下文表征向量/>进行第一层实体识别得到输入文本H₀中的第一层实体；和，将第K层输出的上下文表征向量H_K因第二任务再次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量/>此时剩余N-K层的每层基于第二掩码矩阵对输入进行处理，基于第N层输出的上下文表征向量/>进行第二层实体识别得到输入文本H₀中的第二层实体，其中第二掩码矩阵的元素在属于第一层实体时为1，其余为0。

进一步的，第一掩码矩阵的元素在句子长度n内为1，超出句子长度为0，所述BERT模型的N层是依次串联的，N大于K，K大于等于2，N和K为正整数，前K层的每层基于全局掩码矩阵对输入进行处理，全局掩码矩阵的元素在句子长度内为1，超出句子长度为0。

根据本发明的另一个方面，本发明提供一种计算装置，其包括处理器和存储器，所述存储器中存储有程序指令，该程序指令由处理器执行以实现上述实体知识自动抽取方法。

根据本发明的另一个方面，本发明提供一种计算机可读介质，其内存储有程序指令，该程序指令被执行以实现上述实体知识自动抽取方法。

与现有技术相比，本发明可以进行两层的实体识别，从而可以提高模型对实体知识的特征抽取能力。

附图说明

图1为本发明的实体知识自动抽取方法的流程示意图；

图2为本发明的实体知识自动抽取方法的原理示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

这里以公文中的实体知识的提取为例进行介绍。首先通过基于统计的方法和基于规则的方法进行公文文本的领域词挖掘，总结和定义了如下的实体类别：

根据对数据集的分析，在句子表述中，本文定义的实体类别有着互相关联作用，如句子“中共十九届五中全会在北京举行，**发表重要讲话。”可以抽取的实体有“十九届五中全会”、“北京”，其中，实体“十九届五中全会”的类别为“事件活动”，实体“北京”的类别为“区域场所”。从知识层面来说，这里的事件活动与区域场所、人物是极具关联的，区域场所和人物对事件活动的识别有着辅助作用。因此，可以把实体类别划分为两层，第一层实体为“人物”、“区域场所”、“时间立法”、“组织机构”、“法律法规”、“职务”，第二层实体为“事件活动”、“思想理论”。

本发明提供一种改进的实体知识自动抽取方法，其可以进行两层的实体识别，从而可以提高BERT(Bidirectional Encoder Representation from Transformers)模型对实体知识的特征抽取能力。

图1为本发明的实体知识自动抽取方法100的流程示意图。图2为本发明的实体知识自动抽取方法的原理示意图。

结合图1-2所示，所述实体知识自动抽取方法100包括如下步骤。

步骤110，将输入文本H₀输入至由N层组成的BERT模型的前K层进行处理，以在第K层输出上下文表征向量H_K。

如图2所示的，所述BERT模型210也可以被称为BERT预训练语言模型。所述BERT模型的N层是依次串联的，N大于K，K大于等于2，N和K为正整数。所述输入文本可以是普通的一段自然语言文本。前K层的每层基于全局掩码矩阵MASK^all对输入进行处理，全局掩码矩阵的MASK^all元素在句子长度内为1，超出句子长度为0。

在一个实施例中，在前K层中，注意力用来捕获上下文信息，根据第m-1层输出的上下文表征向量H_m-1计算第m层输出的上下文表征向量H_m，

H′_m＝LN(H_m-1+MultiHead_h(H_m-1,MASK^all))

H_m＝LN(H′_m+FFN(H′_m))

其中MASK^all为全局掩码矩阵，i,j为全局掩码矩阵中元素的位置，n为句子长度，m大于等于1小于等于K。

步骤120，将第K层输出的上下文表征向量H_K因第一任务首次输入到所述BERT模型210的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第一掩码矩阵MASK^N1对输入进行处理，基于第N层输出的上下文表征向量/>进行第一层实体识别220得到输入文本H₀中的第一层实体。第一掩码矩阵MASK^N1的元素在句子长度n内为1，超出句子长度为0。

步骤130，将第K层输出的上下文表征向量H_K因第二任务再次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第二掩码矩阵MASK^N2对输入进行处理，基于第N层输出的上下文表征向量/>进行第二层实体识别230得到输入文本H₀中的第二层实体，其中第二掩码矩阵MASK^N2的元素在属于第一层实体时为1，其余为0。

可见，上下文表征向量H_K作为联合模型的共享特征，输入到剩余N-K层，接下来，在多头自注意力层设置不同的掩码矩阵MASK，获取第一层实体识别和第二层实体识别两个下游任务不同的上下文表征向量。

具体的，在剩余N-K层中，根据给定第m-1层输出的上下文表征向量计算第m层输出的上下文表征向量/>

其中task为第一任务或第二任务，第一任务为第一层实体识别，被记为N1，第二任务为第二层实体识别，被记为N2，在剩余N-K层中为第一任务和第二任务分别进行运算，MASK^N1为第一掩码矩阵，MASK^N2为第二掩码矩阵，P_entities为输入文本中已被识别出的第一层实体位置，

其中多头自注意力公式MultiHead_h为：

MultiHead_h(X,MASK)＝[head₁；……；head_h]W^M

公式根据不同的任务设置了不同的MASK。在前K层中，上下文表征向量H_K用来作为联合学习的共享特征，其句子中的每个字都对特征表达有效，因此，该矩阵MASK^all用来计算注意力时不需要掩盖掉任何信息。在剩余N-K层中，需要为第一层实体识别和第二层识别两个不同的下游任务设置不同的矩阵MASK^task，此矩阵用来过滤一些下游任务中不需要的信息，以此增强BERT模型中结构化信息对两个下游任务的特征表达能力。具体来说，对于第一层实体识别子模型，本发明用“BIO”标记法对实体序列化标注标签，为了提高准确率，正确的注意力权重应该通过参数优化，而不应该限制每个字(token)的注意力范围。因此，句子中每个字都可以和任何其他字计算注意力，矩阵MASK^N1只需要对超出句子长度的字掩盖信息，其余位置置“1”。对于第二层实体识别子模型，第一层实体标签信息可以帮助第二层实体识别，因此，矩阵MASK^N2用来把注意力限制在所有第一层实体位置上，其他位置用“0”过滤。公式similar(i,j)是计算第i个字和第j个字的相似度，如果矩阵MASK中的值MASK_i,j＝0，则第i个字不需要考虑第j个字。相反，如果矩阵MASK中的值MASK_i,j＝1，则第i个字需要考虑第j个字。

根据不同的任务，所述BERT模型的第N层输出的上下文表征向量为：

这种分层微调结构可以提高BERT预训练语言模型对知识的特征抽取能力，得到不同下游任务的上下文表征向量。由于利用了结构化特征，微调的BERT预训练模型更易优化。并且，微调结构不需要对原始BERT模型进行较大调整，因此可以直接利用预训练语言模型中包含的语言学知识。

在各层的实体识别中，由于实体存在边界问题，本发明使用标准的BIO(begin,inside,outside)标记法对句子中的每个字标注命名实体标签，标签B代表实体中开始字的位置，标签I代表实体中非首字的位置，标签O代表句子中不是实体字的位置。

在一个实施例中，CRF(Conditional Random Fields，条件随机场)层首先将所述BERT模型输出的上下文表征向量H_N通过线性变换计算发射概率H^ner，然后根据转移概率对标签序列进行打分排序，最后利用softmax函数得到标签的概率分布，进而进行第一层实体识别和第二层实体识别。

具体的计算公式如下：

H_N为BERT模型输出的上下文表征向量；H^ner为CRF层的发射概率矩阵，其大小为n×k，n为句子长度，k为实体类型标签个数；Score(X,y)为标签序列的得分；A为转移概率矩阵，其代表了标签y_i到标签y_i+1的转移概率；Y_X为所有可能的标签序列。

在投入实际使用前，所述BERT模型和CRF层需要利用训练样本进行事先的训练。具体的，先利用BIO标记法对训练样本进行标记，之后用标记好的训练样本对所述BERT模型和CRF层进行训练。每个训练样本都可以是一段标记号的文本。

在训练阶段，目标是最小化损失函数L_ner，公式为：

在实体识别阶段，最大化得分函数预测标签序列，公式为：

在训练阶段，优化交叉熵损失函数，第一层实体识别和第二层实体识别是一个联合学习方法，公式为：

L＝αL_N1+(1-α)L_N2。

根据本发明的另一个方面，本发明提供一种计算机可读介质，其内存储有程序指令，该程序指令由处理器执行以实现上述的实体知识自动抽取方法100。

根据本发明的另一个方面，本发明提供一种计算装置，其包括处理器和存储器，所述存储器中存储有程序指令，该程序指令由处理器执行以实现上述的实体知识自动抽取方法100。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

在本文中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实体知识自动抽取方法，其特征在于，其包括：

将输入文本H₀输入至由N层组成的BERT模型的前K层进行处理，以在第K层输出上下文表征向量H_K；

将第K层输出的上下文表征向量H_K因第一任务首次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第一掩码矩阵对输入进行处理，基于第N层输出的上下文表征向量/>进行第一层实体识别得到输入文本H₀中的第一层实体；和

将第K层输出的上下文表征向量H_K因第二任务再次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第二掩码矩阵对输入进行处理，基于第N层输出的上下文表征向量/>进行第二层实体识别得到输入文本H₀中的第二层实体，其中第二掩码矩阵的元素在属于第一层实体位置时为1，其余为0，

第一掩码矩阵的元素在句子长度n内为1，超出句子长度为0，

所述BERT模型的N层是依次串联的，

N大于K，K大于等于2，N和K为正整数，

前K层的每层基于全局掩码矩阵对输入进行处理，全局掩码矩阵的元素在句子长度内为1，超出句子长度为0，

在前K层中，根据第m-1层输出的上下文表征向量H_m-1计算第m层输出的上下文表征向量H_m，

H′_m＝LN(H_m-1+MultiHead_h(H_m-1，MASK^all))

H_m＝LN(H′_m+FFN(H′_m))

其中MASK^all为全局掩码矩阵，i，j为全局掩码矩阵中元素的位置，n为句子长度，

在剩余N-K层中，根据给定第m-1层输出的上下文表征向量计算第m层输出的上下文表征向量/>

其中task为第一任务或第二任务，第一任务被记为N1，第二任务被记为N2，在剩余N-K层中为第一任务和第二任务分别进行运算，MASK^N1为第一掩码矩阵，MASK^N2为第二掩码矩阵，P_entities为输入文本中已被识别出的第一层实体位置，

其中多头自注意力公式MultiHead_h为：

MultiHead_h(X，MASK)＝[head₁；……；head_h]W^M

CRF层首先将所述BERT模型输出的上下文表征向量H_N通过线性变换计算发射概率H^ner，然后根据转移概率对标签序列进行打分排序，最后利用softmax函数得到标签的概率分布，进而进行第一层实体识别和第二层实体识别，

具体的计算公式如下：

H_N为BERT模型输出的上下文表征向量；H^ner为CRF层的发射概率矩阵，其大小为n×k，n为句子长度，k为实体类型标签个数；Score(X，y)为标签序列的得分；A为转移概率矩阵，其代表了标签y_i到标签y_i+1的转移概率；Y_X为所有可能的标签序列，

使用标准的BIO标记法对输入文本的句子中的每个字标注命名实体标签，标签B代表实体中开始字的位置，标签I代表实体中非首字的位置，标签O代表句子中不是实体字的位置。

2.如权利要求1所述的实体知识自动抽取方法，其特征在于，

先利用BIO标记法对训练样本进行标记，之后用标记好的训练样本进行训练，

在训练阶段，目标是最小化损失函数L_ner，公式为：

在实体识别阶段，最大化得分函数预测标签序列，公式为：

3.如权利要求2所述的实体知识自动抽取方法，其特征在于，

L＝αL_N1+(1-α)L_N2。

4.一种计算装置，其包括处理器和存储器，所述存储器中存储有程序指令，该程序指令由处理器执行以实现如权利要求1-3任一所述的实体知识自动抽取方法。

5.一种计算机可读介质，其内存储有程序指令，该程序指令被执行以实现如权利要求1-3任一所述的实体知识自动抽取方法。