CN114580422B

CN114580422B - 一种结合近邻分析的两阶段分类的命名实体识别方法

Info

Publication number: CN114580422B
Application number: CN202210250075.XA
Authority: CN
Inventors: 线岩团; 江汀莹; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-12-13
Anticipated expiration: 2042-03-14
Also published as: CN114580422A

Abstract

本发明提供了一种结合近邻分析的两阶段分类命名实体识别方法，属于自然语言处理领域，针对解决命名实体识别任务，本发明第一次提出将近邻分析与实体两阶段分类相结合的方法，能够对于细粒度实体分类数据集存在的类别多、实体边界模糊等问题进行很好的处理。本发明利用训练集训练实体范围检测模型得到最优的实体范围检测模型，然后用最优的实体范围检测模型去检测待识别数据集，得到有实体范围的待识别数据集，将每个实体范围的首尾位置对应的特征向量拼接作为实体分类器的输入，得到预测的实体类别的检测，利用真正的实体类别对整个模型做调整，使其具有更佳的泛化能力，最终提升模型在待识别数据集上的识别效果。

Description

一种结合近邻分析的两阶段分类的命名实体识别方法

技术领域

本发明涉及一种结合近邻分析的两阶段分类的命名实体识别方法，属于自然语言处理技术领域。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析等。命名实体识别是自然语言处理中信息抽取的基本任务，旨在从非结构化自然语言中对命名实体进行定位和分类。命名实体识别不仅作为一个独立的信息提取工具，而且在各种自然语言处理应用中也起着至关重要的作用，如文本理解，信息检索,自动文本摘要，问答，机器翻译以及知识库构建等。目前虽然命名实体识别已经取得了显著的效果，但是这个任务还是面临着很大的困难：命名实体识别只是在有限的文本类型和实体类别(主要是人名、地名)中取得了结果；预测语料较小，容易产生过拟合；通用的识别多类型的命名实体识别的系统性很差。

基于规则的NER系统依赖于手工编写的规则。规则可以基于特定领域的地名词典和句法-词汇模式设计。Kim提出使用Brill规则推理方法进行语音输入。该系统基于Brill的词性标记器自动生成规则。在生物医学领域，Hanisch等人提出了突起词，利用预处理同义词词典来识别生物医学文本中的蛋白质提及和潜在基因。Quimbaya等人提出了一种基于词典的电子健康记录NER方法。实验结果表明，该方法提高了查全率，但对查准率的影响不大。当lexicon是详尽的时，基于规则的系统工作得非常好。但总结规则模板花费大量时间，且词汇表规模小，且实体识别结果普遍高精度、低召回。

基于深度学习的方法主要由三个模块构成：分布式词表示、上下文编码、解码器。分布式词表示一个是词语级别的词向量，一个是字符级别的向量。其中词向量可以通过CBOW或者是skip-gram的方式去训练得到。常用的词嵌入有：谷歌的word2vec，斯坦福的Glove，Facebook的fastText以及SENNA。目前广泛使用的上下文的编码器体系结构有CNN(卷积神经网络)、RNN(循环网络)、递归神经网络和Transformer。Huang等人是首批利用双向LSTM CRF体系结构对任务(POS、分块和NER)进行序列标注的研究之一。递归神经网络是非线性自适应模型，能够通过以拓扑顺序遍历给定结构来学习深度结构化信息。Radford等在transformer的基础上提出了用于语言理解任务的生成预训练transformer(GenerativePre-trained transformer,GPT)。首先，他们使用transformer对未标记数据使用语言建模目标来学习初始参数。然后，他们使用监督目标将这些参数调整到目标任务中，从而使预先训练的模型发生最小的变化。与GPT(一种从左到右的架构)不同，来自变压器的双向编码器表示(BERT)被提出，通过联合在所有层的左和右上下文条件下对深层双向变压器进行预训练。这些方法目前使得NER系统达到了比较好的预测效果，但是在数据量少的类别上的预测相较数据量多的类别上的预测性能差很多。CRF不能充分利用段级信息，因为段的内部属性不能完全用字级表示进行编码。

发明内容

本发明提供了一种结合近邻分析的两阶段分类的命名实体识别方法，以用于对细粒度实体分类，解决了由于数据集的数据类别多、边界模糊问题导致的实体识别性能下降问题。

本发明的技术方案是：一种结合近邻分析的两阶段分类的命名实体识别方法，所述方法的具体步骤如下：

Step1、对从Cluener2020的中文命名数据集中获取的英文文本和标签进行预处理，取出文本中每句话，每句话中存在的实体、实体标签对应的编号，每个实体在句子中的位置以及记录数据集中的实体总数量。

Step2、通过Bert编码器将Step1预处理过的数据中的每句话进行特征编码，将获得的特征编码输入globalpointer模型得到实体范围，对获得的实体范围的首尾位置对应的特征向量进行拼接得到新的表征，将表征输入基于近邻分析算法的实体分类器，得到每个实体的类别的概率。

所述步骤Step1包括：

Step1.1、对数据集进行切分，将数据集切分按0.1的比例进行切分成train数据集和test数据集；

Step1.2、对数据集中涉及的类别进行编号，将数据集中每个实体对应的类别转化成编号；

Step1.3、记录数据集中出现的实体属于数据集中的第几个实体；

所述步骤Step2的具体步骤如下：

Step2.1、将预处理后的数据作为Bert编码器的输入，每个训练样本S＝{′fext′：′s₁，s₂，...，sn′，′label′：{...{′l_k′：...{′entity_i′：[start_i，end_i]}}}}，包含句子序列s₁，s₂，...，s_n、实体entity_i、实体标签l_k、实体的范围[start_i，end_i]，其中n表示句子序列的长度，i表示句子中第几个实体，k表示句子中第几个实体标签，同时记录记录该实体为数据集中的第几个实体，记为num。对每个输入样本中的句子序列s₁，s₂，...，s_n进行编码，得到对应的句子嵌入

将实体标签转化为对应的标签编号tagid，最后的数据表示为ds，ds格式为：

Step2.2、将数据ds中的特征编码input_ids，输入globalpointer模型得到句子中的实体位置。输入句子编码序列

通过变换q_i，α＝W_q，αh_i+b_q，α和k_i，α＝w_k，αh_i+b_k，α，从而得到序列向量序列[q_i，α，q_2，α，...，q_n，α]和[k_1，α，k_2，α，...，k_n，α]，表示识别第α种类型实体所用的向量序列。计算句子中第i个片段到第j个片段是一个实体的打分s_α(i，j)：

s_α(i，j)＝q_i，α ^Tk_j，α (1)

其中s_α(i，j)＞0即表示句子中的片段[i，j]为实体；

Step2.3、在句子编码序列

中选出第i个片段和第j个片段对应的特征向量

和

将

和

拼接得到新的特征向量e_k，将e_k作为该实体的特征表示，以此类推，得到实体向量序列E：[e₁，e₂，...，e_k]；

Step2.4、将实体向量序列E：[e₁，e₂，...，e_k]作为基于近邻分析算法的实体分类器的输入。输入实体向量序列E：[e₁，e₂，...，e_k]，将实体向量序列E：[e₁，e₂，...，e_k]存入offline memory模块中。计算实体i和实体j之间的余弦相似度S_ij：

其中φ表示e_i和e_j之间的夹角。得到的任意两实体之间的相似度矩阵similaritymatrix。实体i和实体j为邻居的概率P_ij为：

其中，每个实体不能和自己做邻居，故P_ii＝0，σ为超参数，用于控制邻域的规模。实体i被正确分类的概率P_i为：

其中Ω＝{j|y_j＝y_i}表示与实体i共享相同标签的索引；

Step2.5、使用argmax函数对P_i进行计算，得到实体i的预测标签label_i：

其中y指所有实体；

Step2.6、将整个数据集的特征作为增强的非参数memory模块，通过随机梯度下降来学习特征嵌入网络。在第t+1次迭代开始时，假设网络参数为θ(t)，memory为M(t)＝{e₁ ^(t)，e₂ ^(t)，...，e_n ^(t)}，由于memory总是随着迭代不断变换，可以近似地认为：

其中，x_i表示实体向量表征，即实体向量序列E中的e_i；

每次计算完e_i后，对memory进行更新：

e_i ^(t+1)←m·e_i ^(t)+(1-m)e_i (7)

Step2.7、本发明的损失函数Loss分为基于globalpointer模型的实体范围检测的损失函数Loss_{globalpointer}和基于近邻分析的实体分类器的损失函数Loss_nca：

Loss＝Loss_{globalpointer}+Loss_nca (10)

其中，公式(6)中P_α是样本的所有类型为α的实体的首尾集合，Q_α是样本的所有非实体或者类型非α的实体的首尾集合。公式(7)中P_i表示实体i正确分类的概率。

本发明的有益效果是：

(1)由于命名实体识别任务需要充分考虑实体所在位置上下文的信息，相同的实体在不同的语义环境中可能属于不同的类别，所以本发明采用Bert编码来获取实体的特征表示，能更好的表征句中的实体；

(2)根据细粒度实体识别的实体边界模糊导致实体识别结果出现的较大偏差的问题，本发明采用基于globalpointer模型的实体范围检测，它可以通过计算句子片段得分，达到预测实体位置的目的，能够很好的处理实体边界模糊的问题；

根据细粒度实体识别存在的类别数多、类别不平衡，导致的对于类别数据多预测性能更好，类别数据少预测性能更差的问题，本发明采用结合近邻分析的实体分类方法，通过计算各实体之间的相似度和各实体做邻居的概率来判断任意两个实体属于相同类别的概率，达到预测实体类别的目的，能够很好的处理类别种类多、类别数据少导致的性能下降问题。

附图说明

图1为本发明方法的流程图。

具体实施方式

在对本发明的实施例进行具体介绍之前，先对其中使用到的部分术语作如下解释：

BERT来自Google的论文Pre-training of Deep Bidirectional Transformersfor Language Understanding，BERT是“Bidirectional Encoder Representations fromTransformers”的首字母缩写，整体是一个自编码语言模型(Autoencoder LM)。

2021年苏剑林提出使用GlobalPointer，使用统一处理的方式处理嵌套和非嵌套命名实体识别。它利用全局归一化的思路来进行命名实体识别，可以无差别地识别嵌套实体和非嵌套实体，在非嵌套的情况下，它的性能可以达到CRF的效果，而在嵌套情形下它也有不错的效果。在理论上，它的设计思想比CRF也更合理，在实践上，它训练的时候不需要像CRF那样递归地计算分母，预测的时候也不需要动态规划，时间复杂度较CRF低。GlobalPointer的提出，使得命名实体识别系统的性能得到了提高。

近邻成分分析(Neighbourhood Component Analysis，NCA)是由JacobGoldberger和Geoff Hinton等在2005年发表的一项工作，属于度量学习(MetricLearning)和降维(Dimension Reduction)领域。其关键点可以概括为：任务是KNNClassification，样本相似度计算方法基于马氏距离(Mahalanobis Distance)，参数选择方法为留一验证法(Leave One Out)。最后模型可以学习样本的低维嵌入表示(Embedding)，既属于度量学习范畴，又是降维的过程。

实施例1：如图1所示，一种结合近邻分析的两阶段分类的命名实体识别方法，所述方法的具体步骤如下：

Step1、对从Cluener2020的中文命名数据集中获取的英文文本和标签进行预处理，取出文本中每句话，每句话中存在的实体、实体标签对应的编号，每个实体在句子中的位置以及记录数据集中的实体总数量；

Step1.1、对数据集进行切分，将train数据集切分按0.1的比例进行切分成train数据集和test数据集；

Step1.3、记录数据集中出现的实体属于数据集中的第几个实体；训练集、验证集和测试集的统计信息如表1所示，涉及的10个类别如表2所示：

表1实验语料

表2数据集类别

Step2、通过Bert编码器将Step1预处理过的数据中的每句话进行特征编码，将获得的特征编码输入globalpointer模型得到实体范围，对获得的实体范围的首尾位置对应的特征向量进行拼接得到新的表征，将表征输入结合近邻分析算法的实体分类器，得到每个实体的类别的概率。

Step2.1、将预处理后的数据作为Bert编码器的输入，每个训练样本S＝{′text′：′s₁，s₂，...，s_n′，′label′：{...{′l_k′：...{′entity_i′：[start_i，end_i]}}}}，包含句子序列s₁，s₂，...，s_n、实体entity_i、实体标签l_k、实体的范围[start_i，end_i]，其中n表示句子序列的长度，i表示句子中第几个实体，k表示句子中第几个实体标签，同时记录记录该实体为数据集中的第几个实体，记为num。对每个输入样本中的句子序列s₁，s₂，...，s_n进行编码，得到对应的句子嵌入

将实体标签转化为对应的标签编号tagid，最后的数据表示为ds，

Step2.2、将数据ds中的特征编码input_ids输入globalpointer模型得到句子中的实体位置。输入句子编码序列

s_α(i，j)＝q_i，α ^Tk_j，α (1)

其中s_α(i，j)＞0即表示句子中的片段[i，j]为实体；

Step2.3、在句子编码序列

中选出第i个片段和第j个片段对应的特征向量

和

将

和

其中Ω＝{j|y_j＝y_i}表示与实体i共享相同标签的索引；

其中y指所有实体；

e_i ^(t)≈f_(θ)(t)(x_i) (6)

其中，x_i表示实体向量表征，即实体向量序列E中的e_i；

每次计算完e_i后，对memory进行更新：

e_i ^(t+1)←m·e_i ^(t)+(1-m)e_i (7)

Step2.7、本发明的损失函数Loss分为基于globalpointer的实体范围检测器的损失函数Loss_{globalpointer}和基于近邻分析的实体分类器的损失函数Loss_nca：

Loss＝Loss_{globalpointer}+Loss_eca (10)

其中，公式(6)中P_α是该样本的所有类型为α的实体的首尾集合，Q_α是该样本的所有非实体或者类型非α的实体的首尾集合。公式(7)中P_i表示实体i正确分类的概率。

为了说明本发明的效果：

Bi-Lstm+CRF模型、BERT+CRF模型、RoBERTa-wwm-large-ext模型以及本发明在Cluener2020上的实验结果如下表3所示：

表3实验结果

从表3可以看出，BiLSTM+CRF模型和BERT+CRF模型的结果对比证明了本发明采用BERT作为基础模型架构的必要性；本发明的模型和BERT+CRF的结果对比证明了在同样的编码器的条件下，本发明提出的训练方法可以有效的提升模型的识别效果，模型F1值提升了2.18％。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种结合近邻分析的两阶段分类的命名实体识别方法，其特征在于：所述方法的具体步骤如下：

Step1、对数据集中获取的英文文本和标签进行预处理，取出文本中每句话，每句话中存在的实体、实体标签对应的编号，每个实体在句子中的位置以及记录数据集中的实体总数量；

Step2、通过Bert编码器将Step1预处理过的数据中的每句话进行特征编码，将获得的特征编码输入globalpointer模型得到实体范围，对获得的实体范围的首尾位置对应的特征向量进行拼接得到新的表征，将表征输入结合近邻分析算法的实体分类器，得到每个实体的类别的概率；

所述Step2的具体步骤如下：

Step2.1、将预处理后的数据作为Bert编码器的输入，每个训练样本S＝{'text':'s₁,s₂,...,s_n','label':{...{'l_k':...{'entity_i':[start_i,end_i]}}}}，包含句子序列s₁,s₂,...,s_n、实体entity_i、实体标签l_k、实体的范围[start_i,end_i]，其中n表示句子序列的长度，i表示句子中第几个实体，k表示句子中第几个实体标签，同时记录该实体为数据集中的第几个实体，记为num；对每个输入样本中的句子序列s₁,s₂,...,s_n进行编码，得到对应的句子嵌入