CN114638228A

CN114638228A - 一种基于词集自注意力的中文命名实体识别方法

Info

Publication number: CN114638228A
Application number: CN202210244599.8A
Authority: CN
Inventors: 张德平; 厉晓妍
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-17

Abstract

本发明公开了一种基于词集自注意力的中文命名实体识别方法。该方法包括文本预处理，词集建模，自注意力重构词集，特征提取，CRF解码五个步骤。其中文本预处理包括分词，词典构建，标注数值化等步骤；词集建模包括词语匹配，划分词集，计算词集向量等；自注意力重组包括注意力分数计算和分配，拼接得出最终的词集向量；特征提取包括拼接词集向量与字向量，输入到Bi‑LSTM/CNN等网络中抽取特征；CRF解码包括根据特征计算最大得分路径，输出标注序列。本发明中的五个步骤可通过算法自动实现，解决传统基于词集方法中不能有效利用词集的问题，且易与现有的预训练语言模型结合使用，为构建中文命名实体识别模型提供新的策略。

Description

一种基于词集自注意力的中文命名实体识别方法

技术领域

本发明涉及自然语言处理技术，具体涉及一种基于词集自注意力的中文命名实体识别方法。

背景技术

命名实体识别(NERName Entity Recognition)是信息抽取领域内的子任务，其目标是从非结构化文本中识别出命名实体如人名、地名和组织名等等。NER在很多下游任务中扮演着重要作用，包括知识库的构建、信息检索和智能问答等等。近年来，命名实体识别快速发展，但中文命名实体识别(CNER Chinese NER)的效果不尽如人意。传统中文命名识别方法存在以下几个方面的问题：

其一，中文分词困难，实体边界预测易出错。与英文NER相比，中文语法结构复杂，没有显式的分词标志，中文实体边界难以确定。传统基于字的识别方法无法充分利用词信息；有部分方法引入外来分词工具来获取词信息，但分词不可避免地会出现错误，这两种方法都难以应用到中文命名识别模型中。

其二，词集信息不能充分利用。现有方法在计算词集向量时，只关注词集内的词，以加权求和的方式得到词集向量，忽略词集间的关联，以及对标注结果重要性不同，导致识别效果难以提升。

发明内容

发明目的：为解决上述问题，本发明提出一种基于词集自注意力的中文命名实体识别方法。

技术方案：一种基于词集自注意力的中文命名实体识别方法，该方法首先利用前缀树构造词典，将输入序列按字分割，用字在词典寻找包含该字的词，按字在词的位置划分词集，对词集内的词所对应的词向量加权求和，得到词集向量；然后利用自注意力机制重构词集向量，突出重点词集，并与字向量拼接输入到特征抽取器中；条件随机场以特征抽取器的输出作为输入解码得到标注序列。由此实现中文命名实体识别模型预测的流程化，解决传统基于词集方法中不能有效利用词集的问题，为构建中文命名实体识别模型提供新的策略。本发明的实现过程包括以下步骤：

文本预处理，获取每个字对应的向量表示；词集建模，获得词集向量；自注意力机制重构获取的词集向量；特征编码器抽取文本特征；CRF解码，输出标注序列。

优选的，文本预处理。利用前缀树构造语料库对应的词典，并记录词出现的频率；按字分割文本序列后到预训练好的词向量中找到每个字对应的向量表示；定义所有可能出现的标注，并进行标注映射数字的字典构建，实现标注数值化。

优选的，词集建模，获得词集向量。对于序列中的每一个字进行如下操作：去词典中匹配包含该字的所有词；按照字在该词的位置划分成四个词集；对每一个词集内的词进行加权求和得到词集向量，权重由该词在语料库中出现的频率计算而来。

优选的，自注意力机制重构词集。以Transformer中的自注意力为核心函数进行计算，将词集向量分别用三个参数矩阵变换并代入到Attention函数中计算得到注意力分数，之后对步骤3)中得到的词集向量加权并拼接，得到字对应的词集向量。

优选的，特征编码器抽取文本特征。将步骤3中的词集向量与该字对应的向量拼接，形成字的最终向量表示；将其输入到Bi-LSTM或CNN中进行特征抽取操作，获得每个字对应的特征向量。

优选的，CRF解码，输出标注序列。输入每个字的特征向量，利用条件随机场算法寻找最大得分路径，输出标注序列。

有益效果：相对于现有技术，本发明的有益效果在于：

(1)建立词集自注意力机制，用权重衡量不同词集的重要性，辅助模型判断实体边界。相较于部分方法中的注意力权重需要额外的参数参与，本方法中计算权重的生成不需要额外的参数，降低了模型复杂度，并充分利用了词集表示。

(2)本方法易与其他预训练语言模型结合使用以增强模型性能，如BERT等。此外，词集划分可在文本预处理阶段进行，不会占用模型训练的时间。

附图说明

图1是本发明基于词集自注意力的中文命名实体识别流程框图；

图2是本发明基于词集自注意力的中文命名实体识别框架图；

图3是本发明词集划分实例；

图4是本发明词集自注意力实例；

图5是本发明LSTM记忆单元结构；

图6是本发明CRF解码实例。

具体实施方式

下面将结合附图来详细说明本方法的技术方案。整个模型的结构如图1所示。

本发明中的命名实体标注策略是BMESO，其中B(Begin)代表开头，M(Middle)代表中间，S(Single)代表单个实体，E(End)代表结尾，O(Outside)代表不是实体。本课题以“B-NAME”为例描述标注含义，“NAME”代表实体类型是人名，“B”表示位置是开头，即该字是实体的第一个字。

步骤1，文本预处理。利用python定义前缀树数据结构，对语料库进行处理，构造词典，记录词出现的频率；读取输入样本，根据预训练词向量，将文本序列转换成向量序列；定义标签，构造标签和ID的映射。

步骤2，词集建模。用字匹配词典中的词，如果匹配到词语就将匹配的结果保存到B、M、E、S四个集合中，分别代表字在词的开始位置、中间位置、末尾位置和独立实体。

公式中，L代表词典，如果BMES集合都为空的话，那么就增加一个None作为标识。匹配的词集会融合到下游任务中去。划分过程如图2所示。以此类推，对句子中其他的字划分词集，划分完成后对词集进行向量化操作，采用的方法是加权求和，权重由词在词典中出现的频率决定。

公式中，

V(S)是词集S的向量表示，z(w)是词在语料库中出现的次数，Z是归一化系数。

步骤3，自注意力重构词集向量。通过步骤2已经获得了词集的初始向量表示后，使用自注意力机制整合词集。自注意力的作用是让模型关注重点信息，忽略次要信息，采用的方法是Self-Attention，并且为了减少模型复杂度，本发明只使用单头注意力进行计算。

公式中，Q、K、V是词向量经过参数矩阵变换的结果，d_k是词向量的维度。

在对自注意力应用的过程中，需要对其改造，表达式中的Q，K，V用V(S)，也就是词集向量替换，d_k用词集向量的维度替换。对四个词集向量都执行注意力计算的操作后进行加权得到最终的词集表示。过程如图3所示。假设B是原始的词集向量表示，注意力权重是a₁₁，a₁₂，a₁₃，a₁₄，，将权重与词集向量相乘相加后得到最终的表示B'，即B'＝a₁₁B+a₁₂M+a₁₃E+a₁₄S。将四个词集拼接得到词集的最终表示。

e^s(B',M',E',S')＝[v^s(B')；v^s(M')；v^s(E')；v^s(S')]

步骤4，特征抽取，通过步骤3得到词集向量后，再和字对应的词向量拼接输入到特征抽取器中。

x^c←[x^c；e^s(B',M',E',S')]

特征抽取器用于抽取文本中的特征，以输入后续的模块。本发明中使用Bi-LSTM和CNN这两种主流网络结构作为编码器来抽取特征。Bi-LSTM是由前向和后向的单向LSTM拼接而成的，LSTM的结构如图4所示。

前向隐状态的更新

后向隐状态的更新

Bi-LSTM在t时刻的隐状态更新

LSTM的三种门控函数计算

单元状态和隐状态的更新

h_t＝o_t·tanh(c_t)

本方法中的CNN是一维文本卷积，其计算方法是：

c_i＝f(w·x_i:i+h-1+b)

公式中，其中x_i:i+h-1是由输入向量中第i行到第i+h-1行组成大小为h×K的滑动窗口，w为K×h的参数矩阵，b为偏置项，K是词向量的维度。

在特征处理过程中，输入

是词集向量和字向量拼接后的向量，输出是融合上下文信息的特征向量，为CRF提供特征来源。

步骤5，CRF解码。经过上述几个步骤之后，模型得到了字的深层次特征表示，接下来要将向量表示转换成标注结果。CRF可以学习并捕捉到标注之间的约束和关联性，因此本发明选择CRF进行预测，其计算公式如下：

公式中y_i表示序列s的所有可能的标注，φ_t是特征函数。其标注实例如图5所示。解码过程从人为设置的start开始，保留第一个标注对应的得分，在计算第二个标注时仅保留得分和最大的路径，以此类推直到最后一个标注，并返回最大得分路径。不同于贪心算法，维特比算法考虑的是全局最优。

为了评价模型性能，本发明使用以下三个指标对预测结果进行评估，分别是精准率(Precision，P)、召回率(Recall，R)和F1得分(F1 Score)。

精准率是从查准率的角度评价结果，是预测为正例占原本正例正确的比例：

召回率是从查全率的角度评价结果，是预测为正例占所有预测为正例的比例：

模型迭代优化的目标是尽量提高P和R的值，但在某些极端的情况下P和R不能正确地评价分类器的性能。二者会相互影响和制约，一般来说，精准率高时召回率会低，召回率高时精准率会低。因此，本发明将F1作为主要的评价指标，综合衡量二者：

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于词集自注意力的中文命名实体识别方法，其特征在于，所述方法包括以下步骤：

1)文本预处理，获取每个字对应的词向量；

2)词集建模，获得词集向量；

3)自注意力机制重构步骤2)中获取的词集向量；

4)将步骤1)中获取的每个字对应的词向量与步骤3)中重构后的词集向量输入到多层神经网络模型中进行训练，获得每个字对应的特征向量；

5)将步骤4)中的特征向量CRF条件随机场解码，输出标注序列。

2.如权利要求1所述的一种基于词集自注意力的中文命名实体识别方法，其特征在于，步骤1)的具体步骤为：预训练词向量待用，利用前缀树构造语料库对应的词典，并记录词典内不同词出现的频率；将输入中文命名实体识别模型的文本序列按字分割后在预训练好的词向量中找到对应的词向量表示；同时定义中文命名实体识别模型的标注，并将标注映射成数字。

3.如权利要求2所述的一种基于词集自注意力的中文命名实体识别方法，其特征在于，步骤2)的具体步骤为：对于输入中文命名实体识别模型的文本序列中的每一个字均进行如下操作：在构造的词典中匹配包含该字的所有词，按照字在该词的位置划分成四个词集，即开头Begin、中间Middle、结尾End和单字Single，对每一个词集内的词进行加权求和得到对应的词集向量，权重由该词在语料库中出现的频率计算。

4.如权利要求3所述的一种基于词集自注意力的中文命名实体识别方法，其特征在于，步骤3)的具体步骤为：以Transformer模型中的自注意力为核心函数进行计算，将步骤2)中获取的词集向量用参数矩阵变换后代入到Attention函数中得到注意力分数，对步骤2)中获取的词集向量加权后拼接，得到重构后的字对应的词集向量。

5.如权利要求4所述的一种基于词集自注意力的中文命名实体识别方法，其特征在于，步骤4)的具体步骤为：将步骤3)将字对应的词集向量与步骤1)中获取的该字对应的词向量拼接，形成字的最终向量表示；将最终向量输入到多层神经网络模型中进行训练，获得每个字对应的特征向量。

6.如权利要求5所述的一种基于词集自注意力的中文命名实体识别方法，其特征在于，所述多层神经网络模型为CNN神经网络模型、GRU神经网络模型、双向LSTM神经网络模型、Transformer神经网络模型或BERT神经网络模型。

7.如权利要求5所述的一种基于词集自注意力的中文命名实体识别方法，其特征在于，步骤5)的具体步骤为：将步骤4)中的特征向量输入CRF条件随机场来进行计算得分，从人为设置的start开始，保留第一个特征向量对应的得分，在计算第二个特征向量时仅保留得分和最大的路径，以此类推直到最后一个特征向量，返回最大得分路径，输出标注序列。