CN115859983B

CN115859983B - 一种细粒度中文命名实体识别方法

Info

Publication number: CN115859983B
Application number: CN202211608377.6A
Authority: CN
Inventors: 岳希; 林娜; 曾琼; 罗心雅
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-08-25
Anticipated expiration: 2042-12-14
Also published as: CN115859983A

Abstract

本发明公开了一种细粒度中文命名实体识别方法，基于无标注语料训练BERT，得到训练好的BERT预训练模型；获取中文细粒度命名实体的语料数据，得到中文细粒度命名实体识别数据集；将中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中，提取各batch数据的Embedding词向量；获取特征向量之间深层特征；获取长文本之间依赖的离散特征；获取全局最优命名实体序列；获取模型综合损失，得到训练好的综合模型；利用综合模型对中文细粒度命名实体文本进行命名实体识别，得到识别结果。本发明用以解决现有的命名实体识别技术在细粒度命名实体识别时容易丢失中文长文本之间的信息依赖的缺陷，实现避免长文本的信息依赖丢失、更好提取长文本特征的目的。

Description

一种细粒度中文命名实体识别方法

技术领域

本发明涉及细粒度命名实体识别领域，具体涉及一种细粒度中文命名实体识别方法。

背景技术

命名实体识别是自然语言处理中的信息抽取任务之一，其目的是对文本中特定类别的实体进行定位和分类。大多数命名实体识别任务只识别人名、组织、地点等实体类别，识别的实体类别少，并且类别划分的比较宽泛，因此，传统的命名实体识别方法主要针对于实体类别较少的粗粒度数据。细粒度命名实体识别更符合现实世界的知识体系，它在常见类别的基础上做了近一步的类别划分，需要识别的实体种类远多于一般的命名实体识别。但是，现有的命名实体识别模型只能提取文本短距离之间的关系，容易丢失中文长文本之间的信息依赖，从而无法更加深层的提取到细粒度实体文本数据的特征，导致识别准确率较低。

发明内容

本发明提供一种细粒度中文命名实体识别方法，解决的技术问题之一是现有的命名实体识别技术在细粒度命名实体识别时容易丢失中文长文本之间的信息依赖，实现避免长文本的信息依赖丢失、更好提取长文本特征的目的。

本发明通过下述技术方案实现：

一种细粒度中文命名实体识别方法，其特征在于，包括：

S1、基于无标注语料训练BERT中文模型，得到训练好的BERT中文预训练模型；

S2、获取中文细粒度命名实体的语料数据，对所述语料数据做预处理操作后进行命名实体标注，得到中文细粒度命名实体识别数据集；

S3、将所述中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中，提取各batch数据的Embedding词向量；

S4、获取特征向量之间深层特征；

S5、获取长文本之间依赖的离散特征；

S6、获取全局最优命名实体序列；

S7、获取模型综合损失，得到训练好的综合模型；

S8、利用训练好的综合模型，对中文细粒度命名实体文本进行命名实体识别，得到识别结果。

针对现有技术中的命名实体识别技术在细粒度命名实体识别时，容易丢失中文长文本之间的信息依赖的问题，本发明提出一种细粒度中文命名实体识别方法，本方法首先通过BERT中文模型对无标注语料数据进行预训练，得到训练好的BERT中文预训练模型。本领域技术人员应当理解，用于预训练的无标注语料数据量越大，得到的预训练模型越准确。BERT中文模型为现有模型，本申请实质上是通过在其所有层的双向上下文上共同进行条件化来预训练无标注语料的深层双向表示。同时，获取中文细粒度命名实体的语料数据，对所述语料数据做预处理操作后进行命名实体标注，得到中文细粒度命名实体识别数据集，用于后续的模型训练使用。之后，将中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中，提取各batch数据的Embedding词向量作为特征向量，获取特征向量之间深层特征，以提高特征提取的准确率。然后获取长文本之间依赖的离散特征、获取全局最优命名实体序列、获取模型综合损失，得到训练好的综合模型。最后，以该综合模型对中文细粒度命名实体文本进行命名实体识别，得到识别结果。

本方法能够有效解决现有的命名实体识别模型只能提取文本短距离之间的关系的缺陷，克服了现有技术在细粒度中文命名实体识别时，容易丢失中文长文本之间的信息依、无法深层的提取到细粒度实体文本数据的特征、进而导致的识别准确率较低的问题，通过获取特征向量之间深层特征和长文本之间依赖的离散特征，保证了对长文本之间的信息依赖关系的充分考量，进而实现更好的提取长文本特征、提高细粒度中文命名实体识别准确率的目的。

进一步的，提取各batch数据的Embedding词向量的方法包括：

S301、提取所述中文细粒度命名实体识别数据集中，各batch数据内最长文本的数据长度；

S302、以所述数据长度作为batch数据的batch size；

S303、使用训练好的BERT中文预训练模型提取各batch数据的Embedding词向量。

本案发明人在研究过程中发现，现有技术在细粒度实体识别的模型训练过程中，一般采用固定的batch_size进行训练，会导致固定的batch_size中超过长度文本的超出部分特征损失，进而影响模型训练效果。为了克服这一问题，本方案提出了采用动态batch_size的方式来训练模型的思路，通过各batch数据内最长文本的数据长度来实时更新batchsize，以此解决了中文长文本在特征提取过程中的特征损失问题，显著提高了特征提取的准确性。

进一步的，获取特征向量之间深层特征的方法包括：将得到的Embedding词向量输入Bi-GRU模型进行深层特征提取，由Bi-GRU模型输出深层特征词向量；所述Bi-GRU模型包括前项GRU组件、后向GRU组件。

Bi-GRU模型，即双向门控循环单元网络，本方案采用Bi-GRU模型，能够更加深入的提取特征向量中的上下文信息，从而得到更深层次的语义理解。其中，Bi-GRU模型包括前项GRU组件和后向GRU组件，利用前项的GRU网络和后向的GRU网络分别获取文本正向和反向的上下文信息，能够更加提高特征提取的准确率，并且Bi-GRU模型还具有对词向量的依赖性小、模型复杂度低、响应时间快等优点，用于本方案中能够显著提高模型训练效率。

进一步的，获取长文本之间依赖的离散特征的方法包括：

S501、将所述深层特征词向量输入IDCNN网络进行离散特征提取；

S502、将提取的离散特征通过IDCNN网络内部的全连接层进行综合，输出数据整体特征。

本方案使用膨胀卷积网络IDCNN提取长文本之间依赖的离散特征，将Bi-GRU模型输出的深层特征词向量作为IDCNN网络的输入，实现了对Bi-GRU与IDCNN的有效结合，这种结合可以在不做pooling(池化)损失信息的情况下加大感受野，让每个卷积输出都包含较大范围的信息，从而充分解决长文本的信息依赖丢失问题，显著提高了长文本特征提取的准确率；同时，将IDCNN与Bi-GRU结合，还可以更好的利用GPU的并行性提高模型训练效率。

进一步的，所述IDCNN网络中的激活函数为：式中，Y为激活函数输出，x为上层神经网络的输出，α为训练中自定义的超参数，e为自然对数。

本案发明人在研究过程中发现，现有的IDCNN网络的激活函数为整流线性单元激活函数(RELU)，该激活函数在网络更新过程中计算梯度时，有太多低于0的值则会导致大部分分量长时间得不到更新从而影响整体模型预测的准确率，而本申请所面临的细粒度中文命名实体识别过程中的梯度计算，又有大量低于0的值出现；并且，RELU函数还无法避免更新过程中的梯度爆炸问题。为了克服上述缺陷，本方案针对性的对IDCNN网络的激活函数进行优化，优化后的激活函数能够在有大量低于0的值时对参数进行有效更新，避免了长时间得不到更新从而影响整体模型预测的准确率的问题；同时，优化后的激活函数还能够防止训练过程中梯度爆炸与梯度消失问题，并且还具有能够调整α参数权重来加快收敛速度的优点。

进一步的，获取全局最优命名实体序列的方法包括：

S601、将所述数据整体特征通过条件随机场模型CRF进行全局归一化；

S602、通过CRF内部的状态函数获取输入序列与当前状态之间的关系、通过CRF内部的转移函数获取输出状态与当前状态之间的关系；

S603、得到当前序列的转移特征、以及条件随机场模型损失；

S604、通过Viterbi算法对当前序列进行解码，获取标注的最优路径。

本方案实质是将提取到的数据整体特征输入条件随机场模型CRF中，进行标签之间依赖关系的判定。执行该步骤的原因在于，之前的神经网络只能抽取语句特征并对当前标签进行预测，无法考虑标签之间的依赖关系。而本方案可以结合前面网络输出的发射分数矩阵和自身内部学习到的转移矩阵计算序列的最终得分，从而考虑到标签之间的相邻关系得到最优标签序列，使得标签预测更加合理准确。此外，本方案引入Viterbi算法用于全局最优命名实体序列的最优路径获取，可以明显提高训练效率。

进一步的，获取模型综合损失的方法包括：

S701、基于所述IDCNN网络的训练预测结果，计算focalloss；

S702、通过概率建模方法学习最优条件，为条件随机场模型损失和focal loss赋予权重；

S703、对不同权重进行平衡，得到模型综合损失。

本案发明人在研究过程中还发现，现有技术中CRF模型的损失函数，在用于细粒度中文命名实体识别时，容易出现数据标签不平衡的问题。为了克服这一问题，本方案在条件随机场模型损失的基础上，还加入IDCNN网络的focalloss损失，此方法可显著提高数据标签的平衡性。并且，本方案还通过概率建模方法学习最优条件，为条件随机场模型损失和focal loss赋予权重，进而更加提高模型的准确性。其中，概率建模方法可采用现有技术，最优条件根据实际使用情况进行适应性设定，在此均不作赘述。

进一步的，通过如下公式计算focalloss：L₂＝-(1-p_t)γlog(p_t)；式中，p_t为当前预测值与类别t的接近程度，γ为大于0的超参数，L₂为当前样本数据预测的focalloss。

p_t的取值方法为：若当前样本数据的真实标签为1，则p_t＝p；否则，p_t＝1-p；其中，p为模型预测的概率。

进一步的，得到的模型综合损失为：

式中，L为综合损失，L₁为条件随机场模型损失，L₂为当前样本数据预测的focalloss，σ₁为条件随机场模型损失的权重，σ₂为focalloss的权重。

可以看出，本方案并非是对两种损失进行简单的加权，而是采用了特定的权重平衡方式，以充分保证数据标签的平衡性，经发明人实验证实，本方案对提高模型准确性有较为明显的效果。

本发明与现有技术相比，至少具有如下的优点和有益效果：

1、本发明一种细粒度中文命名实体识别方法，能够有效解决现有的命名实体识别模型只能提取文本短距离之间的关系的缺陷，克服了现有技术在细粒度中文命名实体识别时，容易丢失中文长文本之间的信息依、无法深层的提取到细粒度实体文本数据的特征、进而导致的识别准确率较低的问题，通过获取特征向量之间深层特征和长文本之间依赖的离散特征，保证了对长文本之间的信息依赖关系的充分考量，进而实现更好的提取长文本特征、提高细粒度中文命名实体识别准确率的目的。

2、本发明一种细粒度中文命名实体识别方法，采用动态batch_size训练模型，通过各batch数据内最长文本的数据长度来实时更新batch size，解决了中文长文本在特征提取过程中的特征损失问题，显著提高了特征提取的准确性。

3、本发明一种细粒度中文命名实体识别方法，使用膨胀卷积网络IDCNN提取长文本之间依赖的离散特征，将Bi-GRU模型输出的深层特征词向量作为IDCNN网络的输入，实现了对Bi-GRU与IDCNN的有效结合，可以在不做pooling(池化)损失信息的情况下加大感受野，让每个卷积输出都包含较大范围的信息，从而充分解决长文本的信息依赖丢失问题，显著提高了长文本特征提取的准确率；还可以更好的利用GPU的并行性提高模型性能。

4、本发明一种细粒度中文命名实体识别方法，对IDCNN网络的激活函数进行优化，避免了长时间得不到更新从而影响整体模型预测的准确率的问题，还能够防止训练过程中梯度爆炸与梯度消失问题，并且还具有能够调整α参数权重来加快收敛速度的优点。

5、本发明一种细粒度中文命名实体识别方法，在条件随机场模型损失的基础上，还加入focalloss的损失，提高数据标签的平衡性；还通过概率建模方法学习最优条件，为条件随机场模型损失和focal loss赋予权重，进而更加提高模型的准确性。

6、本发明一种细粒度中文命名实体识别方法，采用了特定的权重平衡方式，以充分保证数据标签的平衡性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明具体实施例的流程示意图；

图2为本发明具体实施例的网络构架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。在本申请的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制。

实施例1：

一种细粒度中文命名实体识别方法，包括以下步骤：

S1、采用大规模的无标注语料训练BERT中文模型，得到训练好的BERT中文预训练模型；

S2、获取中文细粒度命名实体的语料数据，对所述语料数据进行预处理操作后进行命名实体标注，得到中文细粒度命名实体识别数据集；

S4、获取特征向量之间深层特征；

S5、获取长文本之间依赖的离散特征；

S6、获取全局最优命名实体序列；

S7、获取模型综合损失，得到训练好的综合模型；

需要说明的是，在细粒度中文命名实体识别的过程中，本案发明人还尝试采用XLnet作为预训练模型，在排除其他中间层模型的影响后，对BERT、XLnet两个预训练模型进行了对比试验，试验结果如表1所示：

表1对比试验结果

预训练模型	损失	准确率	精确率	召回率	F1值
						BERT	15.50	86.91％	76.48％	0.57	0.64
XLnet	24.18	79.89％	54.24％	0.42	0.42

从表1中可以看出，预训练模型采用BERT时，对细粒度命名实体识别数据特征提取能力明显好于XLnet。

优选的，对所述语料数据的预处理包括数据清洗和去重。

实施例2：

如图1所示的一种细粒度中文命名实体识别方法，在实施例1的基础上：

提取各batch数据的Embedding词向量的方法包括：

提取所述中文细粒度命名实体识别数据集中，各batch数据内最长文本的数据长度；

以所述数据长度作为batch数据的batch size；

使用训练好的BERT中文预训练模型提取各batch数据的Embedding词向量。

获取特征向量之间深层特征的方法包括：

将得到的Embedding词向量输入Bi-GRU模型进行深层特征提取，由Bi-GRU模型输出深层特征词向量；所述Bi-GRU模型包括前项GRU组件、后向GRU组件。

获取长文本之间依赖的离散特征的方法包括：

将所述深层特征词向量输入IDCNN网络进行离散特征提取；

将提取的离散特征通过IDCNN网络内部的全连接层进行综合，输出数据整体特征。

所述IDCNN网络中的激活函数为：式中，Y为激活函数输出，x为上层神经网络的输出，α为训练中自定义的超参数，e为自然对数。

获取全局最优命名实体序列的方法包括：

将所述数据整体特征通过条件随机场模型CRF进行全局归一化；

通过CRF内部的状态函数获取输入序列与当前状态之间的关系、通过CRF内部的转移函数获取输出状态与当前状态之间的关系；

得到当前序列的转移特征、以及条件随机场模型损失；

通过Viterbi算法对当前序列进行解码，获取标注的最优路径。

获取模型综合损失的方法包括：

基于所述IDCNN网络的训练预测结果，计算focalloss；

通过概率建模方法学习最优条件，为条件随机场模型损失和focal loss赋予权重；

对不同权重进行平衡，得到模型综合损失。

通过如下公式计算focalloss：L₂＝-(1-p_t)γlog(p_t)；式中，p_t为当前预测值与类别t的接近程度，γ为大于0的超参数，L₂为当前样本数据预测的focalloss。

本实施例中p_t的取值方法为：若当前样本数据的真实标签为1，则p_t＝p；否则，p_t＝1-p；其中，p为模型预测的概率。

本实施例得到的模型综合损失为：

通过上述步骤可以看出，本实施例最终完成训练后得到的综合模型可表示为BERT+Bi-GRU+IDCNN+CRF模型。

优选的，本实施例通过weigh loss赋予条件随机场模型损失和focal loss不同权重从而更好权衡focal loss和条件随机场模型中的分类结果，其具体过程为：

随机初始化条件随机场模型损失和focalloss权重参数并计算得到对应的weighloss；

采用概率建模方法学习最优条件，通过模型训练调整更新weigh loss中条件随机场模型损失和focalloss权重参数，并以更新后的权重参数重新计算weigh loss，以计算结果作为模型综合损失。

发明人依据本实施例方法进行了细粒度中文命名实体识别的试验，部分试验结果如下：

试验1：

输入：首先我们邀请中弘北京像素销售总监龙坤先生致辞。

输出结果：

姓名：龙坤

公司：中弘北京像素

职位：销售总监

试验2：

输入：《战地：叛逆连队2》由EADICE开发，将于2010年第一季度上市。

输出结果：

游戏：《战地：叛逆连队2》

公司：EADICE

试验3：

输入：根据路透社的报道，索尼影业计划将《过山车大亨》电影版的拍摄交由索尼动画制作公司

输出结果：

组织：路透社

电影：《过山车大亨》

公司：索尼影业

公司：索尼动画制作公司

试验4：

输入：本报记者胡金华上海报道

输出结果：

姓名：胡金华

地址：上海

通过上述试验结果可以看出，本实施例记载的方法对细粒度命名实体具有极强的识别精度和准度，显著提高了识别效果。

实施例3：

一种细粒度中文命名实体识别系统，包括：

预训练模块：用于根据无标注语料训练BERT中文模型，得到训练好的BERT中文预训练模型；

数据收集模块：用于获取中文细粒度命名实体的语料数据，对所述语料数据做预处理操作后进行命名实体标注，得到中文细粒度命名实体识别数据集；

特征提取模块：用于将所述中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中，提取各batch数据的Embedding词向量；

深层特征提取模块：用于获取特征向量之间的深层特征；

离散特征提取模块：用于获取长文本之间依赖的离散特征；

序列模块：用于获取全局最优命名实体序列；

损失函数模块：用于获取模型综合损失，得到训练好的综合模型；

输入模块：用于输入中文细粒度命名实体文本；

输出模块：用于通过训练好的综合模型，对中文细粒度命名实体文本进行命名实体识别，输出识别结果。

实施例4：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如实施例1或2中记载方法的步骤。

本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

所述处理器可以是中央处理器，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其它变体，意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

Claims

1.一种细粒度中文命名实体识别方法，其特征在于，包括：

S4、获取特征向量之间深层特征；

S5、获取长文本之间依赖的离散特征；

S6、获取全局最优命名实体序列；

S7、获取模型综合损失，得到训练好的综合模型；

S8、利用训练好的综合模型，对中文细粒度命名实体文本进行命名实体识别，得到识别结果；

提取各batch数据的Embedding词向量的方法包括：

S302、以所述数据长度作为batch数据的batch size；

S303、使用训练好的BERT中文预训练模型提取各batch数据的Embedding词向量；

获取模型综合损失的方法包括：

S701、基于IDCNN网络的训练预测结果，计算focalloss；

S703、对不同权重进行平衡，得到模型综合损失；

得到的模型综合损失为：

2.根据权利要求1所述的一种细粒度中文命名实体识别方法，其特征在于，获取特征向量之间深层特征的方法包括：将得到的Embedding词向量输入Bi-GRU模型进行深层特征提取，由Bi-GRU模型输出深层特征词向量；所述Bi-GRU模型包括前项GRU组件、后向GRU组件。

3.根据权利要求2所述的一种细粒度中文命名实体识别方法，其特征在于，获取长文本之间依赖的离散特征的方法包括：

4.根据权利要求3所述的一种细粒度中文命名实体识别方法，其特征在于，所述IDCNN网络中的激活函数为：式中，Y为激活函数输出，x为上层神经网络的输出，α为训练中自定义的超参数，e为自然对数。

5.根据权利要求3所述的一种细粒度中文命名实体识别方法，其特征在于，获取全局最优命名实体序列的方法包括：

S603、得到当前序列的转移特征、以及条件随机场模型损失；

6.根据权利要求1所述的一种细粒度中文命名实体识别方法，其特征在于，通过如下公式计算focalloss：L₂＝-(1-p_t)γlog(p_t)；式中，p_t为当前预测值与类别t的接近程度，γ为大于0的超参数，L₂为当前样本数据预测的focalloss。

7.根据权利要求6所述的一种细粒度中文命名实体识别方法，其特征在于，p_t的取值方法为：若当前样本数据的真实标签为1，则p_t＝p；否则，p_t＝1-p；其中，p为模型预测的概率。