CN113869051A

CN113869051A - 一种基于深度学习的命名实体识别方法

Info

Publication number: CN113869051A
Application number: CN202111107150.9A
Authority: CN
Inventors: 黑新宏; 李育璠; 朱磊; 王一川; 姬文江; 彭伟; 董林靖
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-31
Anticipated expiration: 2041-09-22
Also published as: CN113869051B

Abstract

本发明公开了一种基于深度学习的命名实体识别方法，步骤包括：1)构建一对一的同义词词典；2)选择数据集，定义实体类集合；3)对BERT模型进行对比学习预训练；4)进行命名实体识别任务的微调训练，得到编码器和分类器；5)将测试集中剩余待处理的句子统称为句子S1；6)将句子S1输入编码器，得到字嵌入向量集合和句向量u；7)在句子S1中基于跨度选择文段，构造文段的词嵌入向量；8)利用同义词词典替换步骤7在句子S1中所选中的文段，得到句子S2；9)利用编码器处理句子S2，得到句向量v；10)计算得到span_em，再通过分类器分类得到实体集C。本发明的方法，识别准确率高。

Description

一种基于深度学习的命名实体识别方法

技术领域

本发明属于计算机自然语言处理技术领域，涉及一种基于深度学习的命名实体识别方法。

背景技术

命名实体识别的目的是识别文本中具有某种特定意义、类别或词性的实体，例如人名、国家、情绪词、学科专有名词、电话号码等。随着大数据技术兴起，命名实体识别在知识图谱、数据分析、智能化数据处理等领域取得了越来越广泛地应用。

早期的命名实体识别方法一般基于规则进行，在深度学习取得阶段性进展后，近年来也出现了许多基于深度学习的命名实体识别方法。然而，目前基于深度学习的命名实体识别方法对嵌套实体等模糊实体难以识别，准确率还有待改进，只有在高度语义化的层面上处理文本才能获得更好的效果。

发明内容

本发明的目的是提供一种基于深度学习的命名实体识别方法，解决了现有技术中，利用实体关系抽取方法难以识别嵌套实体，导致实体分类不准确的问题。

本发明所采用的技术方案是，一种基于深度学习的命名实体识别方法，按照以下步骤实施：

步骤1，按照大词林构建一对一的同义词词典D；

步骤2，选择数据集，将实体类别定义为实体类集合E；

步骤3，利用步骤2得到的数据集中的训练集对已完成领域预训练的 BERT模型进行对比学习预训练，得到的Pre_Train_BERT；

步骤4，对于步骤3得到的Pre_Train_BERT，利用步骤2中选择的数据集对深度学习模型进行命名实体识别任务的微调训练，得到 Fine_Tuning_BERT编码器和经过训练的softmax分类器；

步骤5，将测试集中剩余待处理的句子统称为句子S1；

步骤6，将句子S1输入步骤4中得到的Fine_Tuning_BERT编码器进行编码，得到句子S1的字嵌入向量集合S1_em和句向量CLS1，将CLS1作为句向量u；

步骤7，在句子S1中基于跨度选择文段，利用步骤6得到的字嵌入向量集合S1_em构造文段的词嵌入向量token；

步骤8，利用步骤1中构造的同义词词典D，替换步骤7在句子S1中所选中的文段，得到句子S2；若不存在同义词则令句子S2等于句子S1；

步骤9，利用步骤4得到的Fine_Tuning_BERT编码器处理步骤8得到的句子S2，得到句子S2的句向量v；若步骤8中不存在同义词则将句向量 v置零；

步骤10，联接句向量u、词嵌入向量token、|u-v|、句向量v，得到span_em，将span_em通过softmax分类器进行分类，得到实体集C，即成。

本发明的有益效果是，以对比学习的方法完成命名实体识别任务，通过同义词替换的模式构造正样本，能够直接利用命名实体识别任务的数据集进行对比学习预训练，不但改善了BERT输出向量的坍缩问题得到更准确的分类结果，还以一种低成本的方法完成了对比学习预训练。更重要的是，本发明解决了传统命名实体识别方法对嵌套实体分类不准确的问题。例如句子“银行为员工制定业务行为规范”，其中“行为”出现了两次，第一个“行为”就属于容易被错误识别的嵌套实体。本发明利用同义词替换，分别得到“银行动员工制定业务行为规范”和“银行为员工制定业务行动规范”，显然第一个替换结果在语义上与原句差异较大。本发明利用了BERT的句向量来结合同义词替换后的句子的语义来进行命名实体识别任务，由此提高对嵌套实体识别的准确率。

附图说明

图1是本发明方法的总体流程框图；

图2是本发明方法中对比利用正样本进行学习预训练的流程框图；

图3是本发明方法中对比利用负样本进行学习预训练的流程框图；

图4是本发明方法的实施例流程框图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明是基于深度学习的命名实体识别方法，参照图2、图3，利用命名实体识别的数据集，以同义词替换的方法制造正样本，再让数据集中的句子互为负样本进行对比学习预训练，得到经过预训练的Pre_Train_BERT，再对其进行任务微调训练后得到Fine_Tuning_BERT。因此可以说，本发明以基于跨度的方法进行命名实体识别，并且通过同义词替换构造待识别句子的对称句，联合原句与对称句的语义作为词嵌入识别实体。

参照图1，本发明方法，基于上述的思路，按照以下步骤实施：

步骤1，按照大词林构建一对一的同义词词典D；

步骤2，选择数据集，本步骤以CLUENER数据集为例，该数据集中的训练集包含10748个句子，定义了10个不同的实体类别，将这些实体类别定义为实体类集合E；

步骤3，利用步骤2得到的数据集中的训练集对已完成领域预训练的 BERT模型(BERT模型是现有技术)进行对比学习预训练，

利用步骤1中构造的同义词词典D进行同义词替换从而构造正样本，且训练集的句子互为负样本，在此基础上进行对比学习预训练，得到经过预训练的Pre_Train_BERT，具体过程为：

3.1)正样本构造及BERT模型的预训练，包括如下小步骤：

3.1.1)在步骤2中得到的数据集的训练集中选择一段句子A1；

3.1.2)在句子A1所标记的实体中随机选择一个实体，按照步骤1得到的同义词词典D将该实体替换为其同义词，得到正样本句子A2；若选择的实体不存在同义词，则回溯至3.1.1)重新选择；

3.1.3)分别将句子A1与其正样本句子A2输入BERT模型，得到字嵌入向量集合A1_em与A2_em，再分别将A1_em与A2_em进行平均池化，得到向量AR1与AR2；

3.1.4)计算向量AR1与AR2的欧氏距离d，将该欧氏距离d作为损失 Loss沿着池化层与BERT反向传递，以梯度下降法更新BERT的权值，得到更新后的Pre_Train_BERT；

3.2)负样本构造及BERT模型的预训练，包括如下小步骤：

3.2.1)在步骤2中得到的数据集的训练集中选择两段句子B1与B2，并且保证句子B1与B2互为负样本；

3.2.2)分别将句子B1与B2输入BERT模型，得到字嵌入向量集合B1_em 与B2_em，再分别将B1_em与B2_em进行平均池化，得到向量BR1与BR2；

3.2.3)计算向量BR1与BR2的欧氏距离d，将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递，以梯度上升法更新BERT的权值，得到更新后的Pre_Train_BERT(与步骤3.1.4的“更新后的Pre_Train_BERT”是同样的东西，Pre_Train_BERT需要用两种方法多次更次)；

步骤4，对于步骤3得到的Pre_Train_BERT，利用步骤2中选择的数据集对本发明方法所使用的深度学习模型(深度学习模型属于现有技术)进行命名实体识别任务的微调训练，得到Fine_Tuning_BERT编码器和经过训练的softmax分类器；

步骤5，将测试集中剩余待处理的句子统称为句子S1；

具体过程为：在句子S1中利用基于跨度的方法选择文段，并通过步骤 6得到的字嵌入向量集合S1_em构造被选择文段的字嵌入向量集合W_em，之后对字嵌入向量集合W_em进行最大池化，池化的结果为词嵌入向量 token；

其中，利用基于跨度的方法选择文段的具体过程为：

对步骤6中得到的字嵌入向量集合S1_em在所有长度在1到10之间的跨度上选择文段，字嵌入向量集合S1_em是通过Fine_Tuning_BERT编码得到的文本向量，表示为e₁,e₂,...,e_n，即对于任意e_i，选择文段表示为 e_i,e_i+1,e_i+2,...,e_i+k，其中k取值在0到10之间；

具体过程为：将步骤8得到的句子S2输入步骤4得到的Fine_Tuning_BERT编码器中，得到句向量CLS2，将CLS2作为句向量v；若步骤8中不存在同义词则将句向量v中的所有元素置零；

步骤10，联接(步骤6、步骤7、步骤9得到的)句向量u、词嵌入向量token、|u-v|、句向量v，得到span_em，将span_em通过softmax分类器进行分类，得到实体集C；

具体过程为：对于步骤6、9得到的句向量u、v，先计算这两个句向量的距离|u-v|，再依据步骤7中得到的词嵌入向量token连接句向量u、词嵌入token、|u-v|、句向量v，得到向量

表达式中的小圆圈代表向量连接的运算符号；然后，将向量span_em利用步骤4中训练得到的softmax分类器进行分类，得到步骤7中选中的文段的实体类别 span_class，若span_class是属于实体类集合E，则将该实体加入实体集C；之后，回到步骤5，若步骤5中使用的测试集已无剩余句子，即成。

实施例

参照图4，本发明识别方法以“银行为员工制定业务行为规范”为例。

步骤1，构建同义词词典D，在该词典中，词语“行为”的同义词为“行动”；

步骤2，得到实体类集合E＝{“organization”,“name”,“address”,“company”,“government”,“book”,“game”,“movie”,“position”,“scene”}；

步骤3，对已完成领域预训练的BERT模型进行对比学习预训练，得到经过预训练的Pre_Train_BERT，其利用正样本与负样本训练具体过程可参照图2与图3；

步骤4，对所使用的深度学习模型进行命名实体识别任务的微调训练，得到Fine_Tuning_BERT编码器和经过训练的softmax分类器；

步骤5，将句子“银行为员工制定业务行为规范”作为句子S1；

步骤6，利用Fine_Tuning_BERT编码器进行编码，得到句子S1的字嵌入向量集合S1_em和该Fine_Tuning_BERT输出的句向量CLS1，将CLS1 作为句向量u；

步骤7，在句子S1中基于跨度选择文段，图中以“行为”为例，利用步骤6得到的S1_em构造文段的词嵌入token；

步骤8，利用步骤1中构造的同义词词典D，将步骤7在句子S1中所选中的文段“行为”替换为其同义词“行动”，得到句子S2，图中以“银行动员工制定业务行为规范”为例；

步骤9，通过Fine_Tuning_BERT处理步骤8得到的句子S2，得到句子 S2的句向量v；

步骤10，连接句向量u、词嵌入token、|u-v|、句向量v得到span_em，将span_em通过softmax分类器进行分类，得到实体类别span_class，“行为”的span_class为“none”，不属于实体类集合E中的任意一个，故将其判断为非实体；对所有跨度进行上述流程后，得到最终的实体集C，在图例中， C＝“银行/员工”。

本发明基于深度学习的命名实体识别方法，创新点在于以对比学习的机制进行命名实体识别、以同义词替换的规则创造正例、以同义词替换的规则创造待识别句子的对称句并由此构造融合了对称句语义信息的词嵌入。先以同义词替换的方法对BERT进行对比学习预训练，之后基于跨度选择实体，对所有的可能实体基于同义词替换的方法构造对称句，以此构造融合了对称句信息的词嵌入通过softmax分类器来进行实体分类，整个流程均为全自动实现。本发明利用命名实体识别的数据集以同义词替换的方法构造正例进行对比学习预训练，利用构造对称句的方法增强词嵌入的语义信息来提高实体识别的准确率，整个流程均为全自动实现，为知识图谱的构建、数据分析、智能化数据处理等应用减轻负担。

Claims

1.一种基于深度学习的命名实体识别方法，其特征在于，按照以下步骤实施：

步骤1，按照大词林构建一对一的同义词词典D；

步骤2，选择数据集，将实体类别定义为实体类集合E；

步骤3，利用步骤2得到的数据集中的训练集对已完成领域预训练的BERT模型进行对比学习预训练，得到的Pre_Train_BERT；

步骤4，对于步骤3得到的Pre_Train_BERT，利用步骤2中选择的数据集对深度学习模型进行命名实体识别任务的微调训练，得到Fine_Tuning_BERT编码器和经过训练的softmax分类器；

步骤5，将测试集中剩余待处理的句子统称为句子S1；

步骤9，利用步骤4得到的Fine_Tuning_BERT编码器处理步骤8得到的句子S2，得到句子S2的句向量v；若步骤8中不存在同义词则将句向量v置零；

2.根据权利要求1所述的基于深度学习的命名实体识别方法，其特征在于：在步骤3中，利用步骤1中构造的同义词词典D进行同义词替换从而构造正样本，且训练集的句子互为负样本，在此基础上进行对比学习预训练，得到经过预训练的Pre_Train_BERT，具体过程为：

3.1)正样本构造及BERT模型的预训练，包括如下小步骤：

3.1.1)在步骤2中得到的数据集的训练集中选择一段句子A1；

3.1.4)计算向量AR1与AR2的欧氏距离d，将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递，以梯度下降法更新BERT的权值，得到更新后的Pre_Train_BERT；

3.2)负样本构造及BERT模型的预训练，包括如下小步骤：

3.2.2)分别将句子B1与B2输入BERT模型，得到字嵌入向量集合B1_em与B2_em，再分别将B1_em与B2_em进行平均池化，得到向量BR1与BR2；

3.2.3)计算向量BR1与BR2的欧氏距离d，将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递，以梯度上升法更新BERT的权值，得到更新后的Pre_Train_BERT。

3.根据权利要求1所述的基于深度学习的命名实体识别方法，其特征在于：所述的步骤7的具体过程为：

在句子S1中利用基于跨度的方法选择文段，并通过步骤6得到的字嵌入向量集合S1_em构造被选择文段的字嵌入向量集合W_em，之后对字嵌入向量集合W_em进行最大池化，池化的结果为词嵌入向量token；

其中，利用基于跨度的方法选择文段的具体过程为：

对步骤6中得到的字嵌入向量集合S1_em在所有长度在1到10之间的跨度上选择文段，字嵌入向量集合S1_em是通过Fine_Tuning_BERT编码得到的文本向量，表示为e₁,e₂,...,e_n，即对于任意e_i，选择文段表示为e_i,e_i+1,e_i+2,...,e_i+k，其中k取值在0到10之间。

4.根据权利要求1所述的基于深度学习的命名实体识别方法，其特征在于：所述的步骤9的具体过程为：将步骤8得到的句子S2输入步骤4得到的Fine_Tuning_BERT编码器中，得到句向量CLS2，将CLS2作为句向量v；若步骤8中不存在同义词则将句向量v中的所有元素置零。

5.根据权利要求1所述的基于深度学习的命名实体识别方法，其特征在于：所述的步骤10的具体过程为：

对于步骤6、步骤9得到的句向量u、v，先计算这两个句向量的距离|u-v|，再依据步骤7中得到的词嵌入向量token连接句向量u、词嵌入token、|u-v|、句向量v，得到向量

表达式中的小圆圈代表向量连接的运算符号；然后，将向量span_em利用步骤4中训练得到的softmax分类器进行分类，得到步骤7中选中的文段的实体类别span_class，若span_class是属于实体类集合E，则将该实体加入实体集C；之后，回到步骤5，若步骤5中使用的测试集已无剩余句子。