CN116306657B

CN116306657B - 基于方阵标注和双仿射层注意力的实体抽取方法及系统

Info

Publication number: CN116306657B
Application number: CN202310565366.2A
Authority: CN
Inventors: 李栓; 金雨青; 丁锴; 王艺涵; 胡汉一; 那崇宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-22
Anticipated expiration: 2043-05-19
Also published as: CN116306657A

Abstract

本发明公开一种基于方阵标注和双仿射层注意力的实体抽取方法及系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。该系统是首次将图像语义分割的思想融入文本实体抽取的任务中，将传统的序列标注任务转变成方阵标注任务，并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵，缓解了中文文本实体识别任务中实体边缘检测难，检测精度低的问题。

Description

基于方阵标注和双仿射层注意力的实体抽取方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于方阵标注和双仿射层注意力的实体抽取系统。

背景技术

命名实体识别是自然语言处理中的一项重要任务，它是对无结构化的文本数据进行结构化分析的基础手段，目的是识别出文本中存在的人名、地名、机构名、时间、日期、货币等，各类实体是许多自然语言处理下游任务的基础，例如关系抽取、实体链接、知识图谱等。

当前，实体抽取主要采用序列标注的方法，使得某个字符的错误预测被放大，直接导致某个实体的错误预测，例如文本“尼M尔河流经尼M尔和尼M尼亚”中“尼M尔河”的某个字符预测错误，则会使得整个实体被预测错误。且中文文本中实体常常不带有明显的边界信息，文本“尼M尔河流经尼M尔和尼M尼亚”中“尼M尔河”就存在被预测成“尼M尔河流”的可能性。

因此，关于实体边缘的准确检测及模型对预测字符的自我纠正能力的技术问题是亟需解决的。

发明内容

针对现有技术的不足，本发明公开一种基于方阵标注和双仿射层注意力的实体抽取系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。本发明的方法首次将图像语义分割的思想融入文本实体抽取的任务中，将传统的序列标注任务转变成方阵标注任务，并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵，缓解了中文文本实体识别任务中实体边缘检测难，检测精度低的问题。

本发明的目的是通过以下技术方案来实现的：本发明地第一方面提供一种基于方阵标注和双仿射层注意力的实体抽取方法，包括如下步骤：

（1）获取大量文本语料并存储至文本数据库中；

（2）清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注；所述清洗文本数

据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；

（3）构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，

并根据训练好的模型去抽取文本中存在的实体；

（4）最终输出识别的实体。

进一步地，所述根据文本的标签进行方阵标注的具体包括如下子步骤：

（2.1）将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示和每个文本的字符序列表示长度/>；并统计每个文本标签中的实体在文本中对应的起始和结束位置；

（2.2）将文本语料里的实体类型数字化，并建立每个标签中的实体与对应实体类型的数值的字典，例如/>表示实体/>的类别为地点名，而地点名的实体类型用数字2表示；

（2.3）建立一个长和宽均为的空标签方阵/>，将方阵中第/>到/>行且位于第/>到/>列的子方阵中的值设为/>中键值为/>对应的值，即使用/>的值填充/>，标签方阵/>中其他位置使用0值填充。

进一步地，所述文本建模模块构建基于预训练模型和双仿射层注意力机制的实体抽取模型的具体包括如下子步骤：

（3.1）将输入文本的字符序列表示进行文本向量化得到；使用预训练模型构建文本的语义编码器，即/>；

（3.2）使用双仿射层注意力机制模型去交互不同层面的文本语义信息，具体是使用两个全连接层构建双仿射层，即、/>，使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵/>，即/>；式中，/>和/>的维度为/>，/>和/>的维度为/>，/>的维度是/>，/>的维度是/>，/>、/>和/>是偏置，/>表示文本的词嵌入维度，/>是实体类别的数量加1。

所述使用预训练模型构建文本的语义编码器，其预训练模型采用RoBERTa-Base模型，并以RoBERTa-Large模型和RoBERTa-Base模型的蒸馏模型rbt3为备用。

进一步地，所述文本建模模块进行训练的具体包括如下子步骤：

（4.1）将文本数据库中的有标签语料划分为训练集和评估集/>；

（4.2）将中的语料按批次/>输入构建的实体抽取模型/>，得到文本/>的方阵得分矩阵/>；将文本/>的方阵得分矩阵/>和标签方阵打平，即将方阵得分矩阵/>的维度从三维/>变换为二维，将二维标签方阵/>打平成一维向量；

（4.3）将打平后方阵得分矩阵和标签方阵/>输入交叉熵损失函数计算模型的损失值并进行反馈优化，即；

（4.4）当训练集每一轮训练结束后，将评估集中的语料按批次输入实体抽取模型/>，并统计每一轮训练结束后评估集在当前模型上的F1值，所述F1值的标准计算公式为F1=(2×Precision×Recall)/(Precision+Recall), Precision为精确率，表示预测为正确的样本中，真正对的样本所占的比例，Recall为召回率，表示真正正确的样本中，预测对的样本所占的比例；若F1值在连续五轮的训练中未超过设定的最大值/>，则停止训练；若超过设定的最大值/>，则将当前的F1值赋予设定的最大值/>。

进一步地，所述将评估集中的语料按批次输入实体抽取模型/>，并统计每一轮训练结束后评估集在当前模型上的F1值，具体包括如下步骤：

（5.1）将将评估集中的语料/>按批次输入实体抽取模型/>，所述的下标m表示评估集中的第m条语料，得到语料/>的方阵得分矩阵/>，即；

（5.2）由语料的得分矩阵/>查询语料/>中每个实体的起始位置/>和结束位置/>，所述/>下标n表示语料/>的第n个实体；从位置0到位置/>遍历实体的起始位置/>，从位置/>到位置1遍历实体的结束位置/>，若同时存在位置/>和位置/>，使得方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第/>行中所有向量和预测的结果为实体/>，即，式中/>表述出现次数最多的值；且方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第/>行中所有向量和预测的结果也为实体n，即；

（5.3）通过起始位置和结束位置/>预测中语料m中的实体/>；循环查找，直至遍历出文本中所有实体的起始位置和结束位置，并预测出起始位置和结束位置对应的实体；并计算预测实体与实际实体的F1值。

具体地，所述根据训练好的模型去抽取文本中存在的实体即为预测评估清洗后的文本语料中实体的流程。

本发明第二方面：一种基于方阵标注和双仿射层注意力的实体抽取系统，包括文本数据库模块、文本预处理模块、文本建模模块、输出模块；

文本数据库模块：获取大量文本语料并存储至文本数据库中；

文本预处理模块：清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注；所

述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；

文本建模模块：构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，

并根据训练好的模型去抽取文本中存在的实体；

输出模块：输出识别的实体。

第三方面本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现所述的基于预训练模型和双仿射层注意力机制的实体抽取方法的步骤。

第四方面本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述的基于预训练模型和双仿射层注意力机制的实体抽取方法的步骤。

本发明的有益效果如下：

1、本发明提出的方法创新性的将图像语义分割的思想融入到实体识别的任务中，有效缓解了中文文本中实体的边界常常难以被准确预测的难题，提高了实体识别的精度；

2、本发明提出的方法能够使用预测字符周围字符的预测结果验证该字符是否预测正确，提高了实体检测的精度。

附图说明

图1为本发明的功能模块图；

图2为本发明的文本数据标签编码后的标签矩阵示意图；

图3为本发明中模型的构建和训练方式示意图；

图4为本发明根据得分矩阵抽取文本中实体的示意图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

下面根据附图进一步对本发明进行说明：

参考图1，一种基于方阵标注和双仿射层注意力的实体抽取系统，其为基于方阵标注和双仿射层注意力机制的实体抽取系统的功能模块图，文本数据库模块、文本预处理模块、文本建模模块以及输出模块依次相连；

所述文本数据库模块获取大量的财经、行业、时政等相关的文本语料并存储；

所述文本预处理模块清洗文本数据库中的文本语料，具体是依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；并根据文本的标签进行方阵标注；

所述文本建模模块构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，并根据训练好的模型去抽取文本中存在的实体；

所述输出模块输出识别的实体；

参考图2，基于方阵标注和双仿射层注意力机制的实体抽取系统中文本数据标签的编码格式，以短文本“3月初，三A股份被罚”为例，具体包含以下内容：

将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示和每个文本的字符序列表示长度/>，示例文本切分后形成的字符序列表示：/>，示例文本的文本长度为10；

统计每个文本标签中的实体在文本中对应的起始和结束位置，示例文本中每个实体在文本中对应的起始和结束位置字典为：{‘一月’: [0,1], ‘三A股份’:[4,7]}；将文本语料里的实体类型数字化，并建立每个标签中的实体与对应实体类型的数值的字典，例如/>表示实体/>的类别为地点名，而地点名的实体类型用数字2表示，示例文本中实体与对应实体类型的数值的字典为：{‘一月’: 3, ‘三A股份’:6}；建立一个长和宽均为/>的空标签方阵/>，将方阵中第/>到行且位于第/>到/>列的子方阵中的值设为/>中键值为/>对应的值，即使用的值填充/>，标签方阵/>中其他位置使用0值填充，示例文本的标签方阵如图2所示，字符“三”、“月”的字符均属于“三月”这个时间实体，且“三”、“月”分别位于文本序列表示的第一个、第二个位置，则标签矩阵中位于0~1行且0~1列位置使用时间实体的类别3进行标注，即图三中颜色较深的浅灰色部分。字符“三”、“A”、“股”、“份”属于公司名实体“三A股份”，且字符“三”、“A”、“股”、“份”位于文本序列表示的第4~7的位置，则标签矩阵中位于4~7行且4~7列位置使用公司名实体的类别6进行标注，即图2中深灰色部分。其他位置使用字符0标记，即标签矩阵的浅灰色部分。

参考图3，基于方阵标注和双仿射层注意力机制的实体抽取系统中模型的构建和训练方式示意图，具体包含以下内容：

将输入文本的字符序列表示进行文本向量化得到；使用预训练模型构建文本语义编码器，即/>；所述使用预训练模型构建文本的语义编码器中的预训练模型采用RoBERTa-Base模型，并以RoBERTa-Large模型为备用，以面对更高准确率、低推断速度的应用需求，以rbt3模型（RoBERTa-Base模型的蒸馏模型）为备用，以面对较低准确率，高推断速度的应用需求。

使用双仿射层注意力机制模型去交互不同层面的文本语义信息，具体是使用两个全连接层构建双仿射层，即、/>，使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵/>，即/>；式中/>，/>和/>的维度为/>，/>和/>的维度为/>，/>的维度是/>，/>的维度是，/>、/>和/>是偏置，/>表示文本的词嵌入维度，/>是实体类别的数量加1。

所述文本建模模块进行训练的具体步骤包括：将文本数据库中的有标签语料划分为训练集和评估集/>；将/>中的语料按批次/>输入所构建的实体抽取模型/>，得到文本/>的方阵得分矩阵/>；将文本/>的方阵得分矩阵和标签方阵/>打平，即将方阵得分矩阵/>的维度从三维/>变换为二维/>，将二维标签方阵/>打平成一维向量；将打平后方阵得分矩阵/>和标签方阵/>输入交叉熵损失函数/>计算模型的损失值并进行反馈优化，即/>；当训练集每一轮训练结束后，将评估集中的语料按批次输入实体抽取模型/>，并统计每一轮训练结束后评估集在当前模型上的F1值，若F1值在连续五轮的训练中没有超过设定的最大值/>，则停止训练，若超过设定的最大值/>，则将当前的F1值赋予设定的最大值/>。

参考图4，基于方阵标注和双仿射层注意力机制的实体抽取系统中根据得分矩阵抽取文本中实体的示意图，具体包含以下内容：

将所述评估集中的语料按批次输入实体抽取模型/>，并统计每一轮训练结束后评估集在当前模型上的F1值，具体步骤包括：将将评估集/>中的语料/>按批次输入实体抽取模型/>（下标m表示评估集中的第m条语料），得到语料/>的方阵得分矩阵/>，即/>；并由语料/>的得分矩阵/>查询语料/>中每个实体的起始位置/>和结束位置/>（下表n表示语料/>的第n个实体）；从位置0到位置/>遍历实体的起始位置/>，从位置/>到位置1遍历实体的结束位置/>，若同时存在位置/>和位置/>，使得方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第行中所有向量和预测的结果为实体/>，即，式中/>表述出现次数最多的值；且方阵得分矩阵/>中的第/>行的第/>列到第/>列与第/>列中的第/>行第/>行中所有向量和预测的结果也为实体n，即；则通过起始位置/>和结束位置预测中语料m中的实体/>；循环查找，直至遍历出文本中所有实体的起始位置和结束位置，预测出起始位置和结束位置对应的实体；并计算预测实体与实际实体的F1值；

示例文本的预测方阵得分矩阵如图4所示，第1行第7列位置处的结果被错误预测为3完全不影响该位置处字符的预测结果，因为方阵中实体的结果应预测在左上到右下的对角线上，而第4行第5列的值被错误的预测成0，因，该位置的预测结果被纠正为6，则完全不影响实体“三A股份”最终的预测结果。同理第6行第8列的值被错误的预测成6，因，该位置的预测结果被纠正为0，也完全不影响实体“三圣股份”最终的预测结果；

在Resume数据集上进行试验，基于方阵标注和双仿射层注意力机制的实体抽取系统的方法能达到F1=0.9596，已超过使用序列标注方法的F1=0.9376。

以上所述实施例表达了本发明的具体实施方式，其描述较为具体和详细，旨在用于帮助理解本发明的方法及其核心思想，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，包括如下步骤：

(1)获取大量文本语料并存储至文本数据库中；

(2)清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注得到标签方阵；所述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；所述根据文本的标签进行方阵标注的具体包括如下子步骤：

(2.1)将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示T_i＝[t_i1,t_i2,t_i3,...]和每个文本的字符序列表示长度Len_i；并统计每个文本标签中的实体在文本中对应的起始和结束位置En2SE_i＝{en_i1:[s_i1,e_i1],en_i2:[s_i2,e_i2],en_i3:[s_i3,e_i3],...en_ij:[s_ij,e_ij],...}；

(2.2)将文本语料里的实体类型数字化，并建立每个标签中的实体与对应实体类型的数值的字典En2num_i＝{en_i1:2,en_i2:1,en_i3:2,...en_ij:7,...}，其中{en_i1:2}表示实体en_i1的类别为地点名，而地点名的实体类型用数字2表示；

(2.3)建立一个长和宽均为Len_i的空标签方阵Matrix_i，将方阵中第s_ij到e_ij行且位于第s_ij到e_ij列的子方阵中的值设为En2num_i中键值为en_ij对应的值，即使用En2num_i[en_ij]的值填充Matrix_i[s_ij:e_ij,s_ij:e_ij]，标签方阵Matrix_i中其他位置使用0值填充；

(3)构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，并根据训练好的模型去抽取文本中存在的实体；所述训练具体包括如下子步骤：

(4.1)将文本数据库中的有标签语料划分为训练集S_train和评估集S_dev；

(4.2)将S_train＝[T₁，T₂，T₃，...T_i，...]中的语料按批次T_i输入构建的实体抽取模型Model，T_i表示S_train＝[T₁,T₂,T₃,...T_i,...]里面的一个语料，得到文本i的方阵得分矩阵score_i＝Model(T_i)；将文本i的方阵得分矩阵score_i和标签方阵Matrix_i打平，即将方阵得分矩阵score_i的维度从三维Len_i×Len_i×(c+1)变换为二维Len_i×(Len_i×c+Len_i)，将二维标签方阵Matrix_i打平成一维向量；

(4.3)将打平后方阵得分矩阵score_i和标签方阵Matrix_i输入交叉熵损失函数Crossentropy计算模型的损失值并进行反馈优化，即loss_i＝CrossentropyLoss(score_i,Matrix_i)；

(4.4)当训练集每一轮训练结束后，将评估集S_dev中的语料按批次输入实体抽取模型Model，并统计每一轮训练结束后评估集在当前模型上的F1值，所述F1值的标准计算公式为F1＝(2×Precision×Recall)/(Precision+Recall),Precision为精确率，表示预测为正确的样本中，真正对的样本所占的比例，Recall为召回率，表示真正正确的样本中，预测对的样本所占的比例；若F1值在连续五轮的训练中未超过设定的最大值F1_max，则停止训练；若超过设定的最大值F1_max，则将当前的F1值赋予设定的最大值F1_max；

(4)最终输出识别的实体。

2.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述构建基于预训练模型和双仿射层注意力机制的实体抽取模型具体包括如下子步骤：

(3.1)将输入文本的字符序列表示T_i＝[t_i1,t_i2,t_i3,...]进行文本向量化得到X_i＝[x_i1,x_i2,x_i3,...]；使用预训练模型构建文本的语义编码器，即X_i,embed＝encoder(X_i)；

(3.2)使用双仿射层注意力机制模型去交互不同层面的文本语义信息，具体是使用两个全连接层构建双仿射层，即h_1i＝W₁(X_i,embed)+b₁、h_2i＝W₂(X_i,embed)+b₂，使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵score_i，即式中h_1i，h_2i和X_i,embed的维度为Len_i×d，W₁和W₂的维度为d×d，U_m的维度是d×c×d，score_i的维度是Len_i×Len_i×(c+1)，b₁、b₂和b_m是偏置，d表示文本的词嵌入维度，c是实体类别的数量加1。

3.根据权利要求2所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述使用预训练模型构建文本的语义编码器，其预训练模型采用RoBERTa-Base模型，并以RoBERTa-Large模型和RoBERTa-Base模型的蒸馏模型rbt3为备用。

4.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述将评估集S_dev中的语料按批次输入实体抽取模型Model，并统计每一轮训练结束后评估集在当前模型上的F1值，具体包括如下步骤：

(5.1)将将评估集S_dev中的语料T_m∈S_dev按批次输入实体抽取模型Model，所述T_m的下标m表示评估集中的第m条语料，得到语料T_m的方阵得分矩阵score_m，即score_m＝Model(T_m)；

(5.2)由语料T_m的得分矩阵score_m查询语料T_m中每个实体的起始位置s_mn和结束位置e_mn，所述s_mn下标n表示语料T_m的第n个实体；从位置0到位置Len_m-1遍历实体的起始位置s_mn，从位置Len_m到位置1遍历实体的结束位置e_mn，若同时存在位置s_mn和位置e_mn，使得方阵得分矩阵score_m中的第s_mn行的第s_mn列到第e_mn列与第s_mn列中的第s_mn行到第e_mn行中所有向量和预测的结果为实体en_mn，即max_cound(score_m[s_mn，s_mn；e_mn]，score_m[s_mn：e_mn，S_mn])→en_mn，式中max_count表述出现次数最多的值；且方阵得分矩阵score_m中的第e_mn行的第s_mn列到第e_mn列与第e_mn列中的第s_mn行到第e_mn行中所有向量和预测的结果也为实体en_mn，即max_cound(score_m[s_mn，s_mn；e_mn]，score_m[s_mn：e_mn，e_mn])→en_mn；

(5.3)通过起始位置s_mn和结束位置e_mn预测中语料m中的实体en_mn；循环查找，直至遍历出文本中所有实体的起始位置和结束位置，并预测出起始位置和结束位置对应的实体；并计算预测实体与实际实体的F1值。

5.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述根据训练好的模型去抽取文本中存在的实体即为预测评估集语料中实体的流程。

6.一种基于方阵标注和双仿射层注意力的实体抽取系统，其特征在于，包括文本数据库模块、文本预处理模块、文本建模模块、输出模块；

文本预处理模块：清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注；所述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；所述根据文本的标签进行方阵标注的具体包括如下子步骤：

并根据训练好的模型去抽取文本中存在的实体；所述训练具体包括如下子步骤：

输出模块：输出识别的实体。

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的一种基于方阵标注和双仿射层注意力的实体抽取方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的一种基于方阵标注和双仿射层注意力的实体抽取方法。