CN116562291A

CN116562291A - 一种基于边界检测的中文嵌套命名实体识别方法

Info

Publication number: CN116562291A
Application number: CN202310343133.8A
Authority: CN
Inventors: 于瑾瑾; 陆璐; 冼允廷
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-08-08

Abstract

本发明涉及自然语言处理中的信息抽取领域，为一种基于边界检测的中文嵌套命名实体识别方法，该方法包括步骤：获取字符向量表示；结合词典获取匹配词汇集合，得到融合的词集合向量；将字符表示与词集合向量进行拼接，输入到长短期记忆网络中获取融合上下文信息的特征表示；将特征表示输入到两个分类器中得到最外层边界和所有可能的实体边界，生成候选实体片段，将实体片段进行分类。本发明将融合了词性信息和位置编码的词汇表示添加到字符表示中，弥补了基于字符的识别模型难以捕捉词级别的语义信息和边界信息的不足；通过在最外层边界内部进行实体开始和结束边界的匹配，可减少不必要候选实体片段的生成，对长文本语句的命名实体识别效果显著。

Description

一种基于边界检测的中文嵌套命名实体识别方法

技术领域

本发明涉及自然语言处理中的信息抽取领域，具体涉及一种基于边界检测的中文嵌套命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition,NER)是自然语言处理(NatureLanguage Processing,NLP)的一项基础任务，主要目的在于确定文本中命名实体的边界，并将命名实体分类到预先定义的类别中。学术上，命名实体一般分为3大类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。在自然语言处理领域，命名实体识别是一项基本性的关键任务，是关系抽取、事件抽取、知识图谱、问答系统、信息检索、机器翻译等诸多NLP任务的基础，同时在自然语言处理技术走向实用化的过程中占有重要地位。

根据实体中是否有嵌套结构，命名实体识别任务可以分为平面命名实体识别(Flat Named Entity Recognition,Flat NER)和嵌套命名实体识别(Nested NamedEntity Recognition,Nested NER)两类。目前对于NER的研究大多是针对Flat NER的研究，常用的方法是将其当作序列标注问题去解决，对给定序列的每一个元素打上标签集合中的某个标签，然后输入到序列识别模型(如LSTM)中进行标签识别。目前命名实体识别技术已取得了很大进展，但多数方法在识别时对嵌套命名实体关注不够。实际上，实体嵌套问题在金融、新闻等领域普遍存在，其结构复杂，嵌套层数缺乏规律。如何准确快速地从文本中提取出嵌套命名实体信息，是当前命名实体研究的一大难点。

对于Nested NER问题，一种解决方法是对现有的序列标注模型进行改进，思路为：修改标注规则和层叠序列标注模型。传统的序列标注方法是对输入序列的每一个元素标注一个类型标签，嵌套命名实体中同一个元素可能同时拥有两个及以上的不同标签。学者们从多标签角度考虑，将多标签问题转化为单标签，如将可能出现的所有类别两两组合，产生新标签，或者修改模型解码层，使用分层的方式进行识别。这类方法无法并行训练模型，当标签类别较多时，组合标签会分布稀疏，难以学习，分层的方法也会存在层与层之间的错误传播。另一种方式是基于片段分类的方法，该方法枚举出句子中的所有子序列，再对子序列进行类别判断。这种方法理论上可以同时应用到Flat和Nested实体上，但缺点也很明显：时空复杂度极高、负样本多，分类器训练十分困难。

相比于英文文本，中文文本没有明显的词边界，需要进行分词处理，但中文本身存在有一词多义、构词灵活等特点，加大了分词的难度，分词错误会直接导致命名实体识别错误。因此，对于中文文本来说，基于字粒度的模型通常会优于基于词粒度的模型，然而，基于字粒度的嵌入能传递的信息有限，相同的字在不同词语中可能会有不同的含义，只使用字的模型会忽略文本中的许多隐含信息，需要额外引入词汇信息来增强语义信息表示。

发明内容

为解决以上问题，本发明提出一种基于边界检测的中文嵌套命名实体识别方法，通过检测嵌套命名实体的最外层边界和所有可能的实体起始、结束边界，可有效减少长文本数据中不必要片段的产生，降低时间复杂度。通过将含有词性信息和位置编码的词汇向量表示添加到基于字符的嵌入表示中，有效利用词汇信息，增强文本特征表示，提高边界检测准确率，进而提高模型整体的实体识别准确率。

一种基于边界检测的中文嵌套命名实体识别方法，具体步骤如下：

S1、获取字符向量表示，将中文文本语句中的每个字符转换成其对应的字符向量表示；

S2、获取每个字符的匹配词汇，计算匹配词汇的向量表示，通过引入词性和位置编码增强词嵌入表示，压缩词集合得到融合的词集合向量表示；

S3、所述词集合信息添加到与之对应的字符表征中，得到融合词集合信息的字符表示；

S4、将融合词集合信息的字符表示输入到特征提取器，对字符之间的依赖关系进行建模，得到融合上下文信息的特征向量；

S5、生成候选实体片段，将融合上下文信息的特征向量输入到两个分类器内，通过一个分类器识别嵌套命名实体的最外层边界，通过另一个分类器识别每个句子中所有可能的开始和结束边界；在嵌套命名实体的最外层边界内将所述开始和结束边界进行组合，得到候选实体片段；

S6、将边界的字符表示与候选实体片段表示结合，得到融合了边界信息的实体片段表示，将实体片段表示放入分类器进行实体类别判断。

具体地，所述步骤S2包括：

预先训练好的词典构建字典树，使用多模式匹配AC算法将所述文本语句中的每个字符与构建好的字典树进行匹配，获取每个字符的匹配词汇，按照字符在词汇中的不同位置将匹配词汇分类到四种不同词汇集合；

通过局部注意力网络计算匹配词汇的向量表示；

使用Stanford CoreNLP工具得到所述匹配词汇的词性，通过随机词性向量矩阵得到匹配词汇的词性向量；

将所述匹配词汇的词向量和词性向量进行拼接，得到融合词性信息的词向量；

向所述融合词性信息的词汇向量中添加位置编码，得到融合位置信息的词向量表示；

将每个词集合压缩成一个固定维度的向量，统计词汇在数据集中出现的频率，将出现的频率作为权重，融合词集合内的所有词向量得到词集合向量。

具体地，所述步骤S4包括：

采用双向的长短期记忆网络BiLSTM作为特征提取器，将所述融合词集合信息的字符表示输入双向的长短期记忆网络BiLSTM，使用前向神经网络从左至右建模得到融合上文信息的语义向量，后向神经网络/>从右至左建模获得融合下文信息的语义向量，将融合上文信息的语义向量与融合下文信息的语义向量进行拼接得到融合上下文信息的特征向量。

具体地，所述步骤S5包括：

将融合上下文信息的特征向量输入到一个基于多层感知器MLP的softmax分类器中，识别嵌套命名实体的最外层边界，通过softmax函数的输出概率，判断一个字符是最外层边界开始、边界结束还是非最外层边界；

将融合上下文信息的特征向量输入到另一个基于多层感知器MLP的softmax分类器中来获得每个句子中所有可能的开始和结束边界标签。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提出一种基于边界检测的中文嵌套命名实体识别方法，通过将字符与预先构建好的词典进行匹配，得到所有的潜在词汇，并向词向量中引入词性信息和位置编码，增强词汇表示；将融合的词集合信息添加到字符表示中，充分利用了潜在的词信息，弥补了基于字符的识别模型难以捕捉词级别的语义信息和边界信息的不足。

2、本发明在实体片段生成任务中，使用两个分类器分别预测嵌套命名实体的最外层边界和所有可能的实体起止边界，通过在最外层边界内部进行实体开始和结束边界的匹配，可在一定程度上减少不必要候选实体片段的生成，尤其对长文本语句的命名实体识别效果显著。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例中的基于边界检测的中文嵌套命名实体识别方法的流程图；

图2是本发明实施例中的词典匹配示意图；

图3是本发明实施例中的中文嵌套命名实体识别模型结构示意图；

图4是本发明实施例中的边界组合策略示意图。

具体实施方式

如图1所示，一种基于边界检测的中文嵌套命名实体识别方法流程图，如图3所示，是本发明实施例中的中文嵌套命名实体识别模型结构示意图，中文嵌套命名实体识别模型包含输入层、嵌入层、特征提取层、实体识别层4个部分：

(1)输入层：将中文句子切分成一个个字，并将字与领域词典进行匹配，得到匹配词汇；

(2)嵌入层：将匹配词汇分类到四个词汇集合中，使用词频权重对词汇集合进行压缩，再将四个词集合的表示添加到每个字的表示中，得到字词融合嵌入表示；

(3)特征提取层：将字词融合嵌入表示输入到双向的长短期记忆网络BiLSTM中进行信息筛选，得到长距离依赖信息。

(4)实体识别层：该层包含三个模块，最外层边界识别模块用于得到嵌套命名实体的最外层边界，实体边界检测模块获取每个单实体的边界标签，在最外层边界内进行实体边界组合，得到候选实体片段；实体片段分类模块是将候选实体片段放入分类器，获取实体类别。

本实施例中使用多任务联合训练，共享底层模型，有助于学到更好的隐藏表示。

结合图1、图3，本发明所述的基于边界检测的中文嵌套命名实体识别方法，其详细说明如下：

针对中文文本语句中的每个字符，在预训练好的字向量表中查找该字符对应的字向量表示。具体地，针对中文文本语句中的第i个字符，在预训练好的字向量表中查找该字符对应的字向量，对应的字向量记为

具体地，步骤S2包括：

(1)由预先训练好的词典构建字典树，使用多模式匹配AC算法将所述文本语句中的每个字符与构建好的字典树进行匹配，获取每个字符的匹配词汇，并按照字符在词汇中的不同位置将匹配词汇分类到四种不同词汇集合。四种不同词汇集合包括：词汇集合B、词汇集合M、词汇集合E、词汇集合S，其中B、M、E、S分别代表字符位于匹配词汇的头部、内部、尾部和单个字符；当某个字符的四种不同词汇集合中的一种词汇集合为空时，将字符“NONE”添加到空的词集合中。

如图2所示，词典匹配示意图，以“海底水世界”为例，经过词典匹配后，得到每个字符的潜在词集合，如其中的“底”对应的词集合为：

B(c₂)＝{“NONE”},

M(c₂)＝{w_1,5(“海底水世界”)},

E(c₂)＝{w_1,2(“海底”)},

S(c₂)＝{w_2,2(“底”)}.

(2)通过局部注意力网络计算匹配词汇的向量表示。

具体地，以句中第m个字符为例，通过局部注意力网络计算词汇中的字符c_n对句中第m个字符c_m的影响权重，进行加权求和得到该词汇的嵌入表示。本实施例中采用加性注意力评分函数对字符间的相似度进行打分，将函数输出结果输入到softmax函数中得到影响权重。

注意力评分函数为：

score(e_m,e_n)＝v^T tanh(W₁e_m+W₂e_n) (1)

其中，W₁,W₂,v为可训练参数矩阵，e_m、e_n分别代表第m、n个字符c_m、c_n的嵌入表示。

字符c_n对句中第m个字符c_m的影响权重为：

其中，1≤i≤m,n≤j≤N，i和j分别表示词汇的首字符和尾字符在句子中的位置索引；e_m、e_n分别代表第m、n个字符c_m、c_n的嵌入表示，e_p是词汇中任意字符的嵌入表示，i≤p≤j。

文本中从第i个字符开始，以第j个字符结束的词汇w_i,j的词向量表示为：

(3)使用Stanford CoreNLP工具得到所述匹配词汇的词性，利用随机词性向量矩阵，得到匹配词汇的词性向量w^pos。将文本中从第i个字符开始，以第j个字符结束的词汇w_i,j的词性向量记为其中，本实施例使用的Stanford CoreNLP工具是斯坦福大学自然语言处理小组开发的自然语言分析工具集，包含句法分析，分词，词性标注等功能。

(4)将所述匹配词汇的词向量和词性向量进行拼接，得到融合词性信息的词向量。

将所述词嵌入表示w^e和词性向量w^pos进行拼接，得到融合词性信息的词向量表示w^l。

(5)向所述融合词性信息的词汇向量中添加位置编码，得到融合位置信息的词向量表示。

具体地，向所述融合词性信息的词汇向量w^l添加位置编码，得到融合位置信息的词向量表示。本实施例中本发明采用one-hot向量将位置信息向量化，P(B)＝[1,0,0,0]；P(M)＝[0,1,0,0]；P(E)＝[0,0,1,0]；P(S)＝[0,0,0,1]，融合位置信息的词向量表示为：

其中，W^p代表可训练权重矩阵；代表O词汇集合中第i个词汇w_i的最终的向量表示；P_i(O)表示O词汇集合中第i个词汇的位置编码；/>代表O词汇集合中第i个词汇w_i的融合了词性信息的词向量，由第(4)步得到，其中O表示{B,M,E,S}四种类型中的一种。

(6)将每个词集合压缩成一个固定维度的向量，统计词汇在数据集中出现的频率，将出现的频率作为权重，融合词集合内的所有词向量得到词集合向量；

其中，z(w_i)代表词w_i在数据集中统计的词频；表示词w_i对应的词向量；v(O)为最终的词集合向量，其中O表示{B,M,E,S}四种类型中的一种。

S3、字词融合的向量表示，将所述词集合信息添加到与之对应的字符表征中，得到融合词集合信息的字符表示。具体地，将字符对应的四种词集合向量与字符表示进行拼接，如下所示：

其中，v_i(B)、v_i(M)、v_i(E)、v_i(S)分别为词集合B,M,E,S的向量表示，为字符表示。

S4、融合上下文信息的特征向量，将所述融合词集合信息的字符表示输入到特征提层，对字符之间的依赖关系进行建模，得到融合上下文信息的特征向量。

具体地，采用双向的长短期记忆网络BiLSTM作为特征提取器，将所述融合词集合信息的字符表示输入双向的长短期记忆网络BiLSTM，从左至右建模得到融合上文信息的语义向量，使用从右至左建模获得融合下文信息的语义向量表示，将融合上文信息的语义向量与融合下文信息的语义向量进行拼接得到融合上下文信息的特征向量。

本实施例中，前向LSTM神经网络从左至右建模得到融合上文信息的语义向量表示/>后向LSTM神经网络/>从右至左建模获得融合下文信息的语义向量表示/>将与/>进行拼接，得到最终的融合上下文信息的特征向量/>

S5、生成候选实体片段，将融合上下文信息的特征向量输入到两个分类器内，通过一个分类器识别嵌套命名实体的最外层边界，通过另一个分类器识别每个句子中所有可能的开始和结束边界；在嵌套命名实体的最外层边界内将所述开始和结束边界进行组合，得到候选实体片段。

具体地，通过一个分类器用于识别嵌套命名实体的最外层边界，包括：判断一个字符是最外层边界开始、边界结束还是非最外层边界。

具体地，将融合上下文信息的特征向量输入到一个基于多层感知器MLP的softmax分类器中，识别嵌套命名实体的最外层边界，通过softmax函数的输出概率，判断一个字符是最外层边界开始、边界结束还是非最外层边界；将非边界标记为类别0、最外层开始边界标记为类别1、结束位置标记为类别2。在训练过程中，将交叉熵损失函数作为所述最外层边界识别任务的目标函数，记为L_obi具体如下：

其中，是最外层边界类别为t的概率；N代表预测的元素个数；K表示最外层边界检测任务的类别个数；/>是真实的标签分布，若类别是t，则/>否则等于0。

具体地，将融合上下文信息的特征向量输入到另一个基于多层感知器MLP的softmax分类器中，获得每个句子中所有可能的开始和结束边界标签；将实体的开始位置标记为标签“B”，结束位置为标签“E”，实体内部字符标记为“I”，非实体标记为“O”；在训练过程中，目标函数为交叉熵损失函数，记为L_ebd。

具体地，根据两个分类器的输出结果，在所述最外层边界内，将所述开始和结束边界(包含最外层边界)进行组合匹配，得到候选实体片段。如图4所示，本发明采用的组合策略为：在最外层开始边界1和最外层结束边界2内，将每一个开始边界B向后匹配每一个结束边界E。

S6、实体片段分类，将边界的字符表示与候选实体片段表示结合，得到融合了边界信息的实体片段表示，将实体片段表示放入分类器进行实体类别判断。

具体地，将边界的字符表示与候选实体片段表示结合，得到融合了边界信息的实体片段表示，实体片段表示S_st,ed具体为：

其中，maxpooling表示最大值池化操作，h_st、h_ed分别表示实体开始、结束位置字符的特征向量表示。

具体地，本发明将实体片段表示S_st,ed输入基于多层感知器MLP的softmax分类器中来识别其类型，使用交叉熵损失函数为目标函数，记为L_esc：

其中，是第i个实体类别为t的概率，N代表待预测的实体片段个数，K表示实体的类别数，/>是真实的类别标签分布，若类别是t，则/>否则等于0。

结合图3所示，考虑到最外层边界识别任务、边界检测任务和实体分类预测任务共享相同的特征提取层，本实施例使用多任务损失来同时训练这三个任务。在训练阶段，将数据中真实的边界标签输入到边界检测分类器和实体分类标签预测任务中，使分类器在训练时不受错误边界检测的影响。在测试阶段，将最外层边界识别的输出用于指示边界组合匹配的范围，将边界检测的输出指示哪些实体区域应该被考虑到预测分类标签中。其中，多任务损失函数L_multi定义如下：

L_multi＝α(βL_obi+(1-β)L_ebd)+(1-α)L_esc (10)

其中，L_obi和L_ebd分别表示最外层边界识别任务和实体边界检测任务的损失函数，用于优化实体片段生成，L_esc是实体片段分类任务的损失函数，用于优化实体片段分类任务；α、β是超参数，用于平衡每个任务的重要性。本实施例使用多任务损失来同时训练这三个任务，通过共享一个模型，可减少内存占用量，提高推理速度，且任务间可相互补充学习，提高识别性能。

综上，本发明提出的一种基于边界检测的中文嵌套命名实体识别方法，通过向字嵌入中引入含有词性和位置编码的词汇信息，增强了字符语义特征表示，弥补了以往基于字符嵌入的中文嵌套命名实体识别模型中存在的实体边界模糊和语义缺失问题。为解决基于片段分类的识别模型负样本多、时空复杂度高等问题，本发明增加了嵌套命名实体最外层边界识别模块，限制了边界组合的范围，在不损失长实体的情况下有效减少负样本的生成，提高模型整体性能。

Claims

1.一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述方法包括：

S2、将字符与词典进行匹配得到每个字符的匹配词汇，计算匹配词汇的向量表示，通过引入词性和位置编码增强词嵌入表示，压缩词集合得到融合的词集合向量表示；

S3、将所述词集合信息添加到与之对应的字符表征中，得到融合词集合信息的字符表示；

S4、将所述融合词集合信息的字符表示输入到特征提取器，对字符之间的依赖关系进行建模，得到融合上下文信息的特征向量；

S5、生成候选实体片段，将所述融合上下文信息的特征向量输入到两个分类器内，通过一个分类器识别嵌套命名实体的最外层边界，通过另一个分类器识别每个句子中所有可能的开始和结束边界；在嵌套命名实体的最外层边界内将所述开始和结束边界进行组合，得到候选实体片段；

2.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述步骤S2包括：

使用预先训练好的词典构建字典树，使用多模式匹配AC算法将所述文本语句中的每个字符与构建好的字典树进行匹配，获取每个字符的匹配词汇，按照字符在词汇中的不同位置将匹配词汇分类到四种不同词汇集合；

通过局部注意力网络计算匹配词汇的向量表示；

使用Stanford CoreNLP工具获取匹配词汇的词性，通过随机词性向量矩阵得到匹配词汇的词性向量；

3.根据权利要求2所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述通过局部注意力网络计算匹配词汇的向量表示，包括：

通过局部注意力网络计算词汇中的任一字符c_n对第m个字符c_m的影响权重，进行加权求和得到词汇的嵌入表示；

采用加性注意力评分函数对字符间的相似度进行打分，将加性注意力评分函数输出结果输入到softmax函数中得到影响权重。

4.根据权利要求3所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述注意力评分函数为：

score(e_m,e_n)＝v^Ttanh(W₁e_m+W₂e_n)

其中，W₁,W₂,v均为可训练参数矩阵，v^T为可训练参数矩阵v的转置，e_m、e_n分别代表第m个字符c_m、第n个字符的嵌入表示；

字符c_n对句中第m个字符c_m的影响权重为：

其中，1≤i≤m,n≤j≤N，i和j分别表示词汇的首字符和尾字符在句子中的位置索引；e_p是词汇中任意字符的嵌入表示，i≤p≤j。

其中，为词汇w_i,j的词向量表示。

5.根据权利要求4所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述融合位置信息的词向量表示为：

其中，W^p代表可训练权重矩阵，代表O词汇集合中第i个词汇w_i的最终的向量表示，P_i(O)表示O词汇集合中第i个词汇的位置编码；/>代表O词汇集合中第i个词汇w_i融合了词性信息的词向量，O词汇集合为{B,M,E,S}四种词汇集合中的一种。

6.根据权利要求5所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述词集合向量表示为：

其中，z(w_i)代表词w_i在数据集中统计的词频；表示词w_i对应的词向量；v(O)为最终的词集合向量，O词汇集合为{B,M,E,S}四种词汇集合中的一种。

7.根据权利要求6所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述融合词集合信息的字符表示为：

其中，e_i(B,M,E,S)为融合词集合信息的字符表示，v_i(B)、v_i(M)、v_i(E)、v_i(S)分别为词集合B,M,E,S的向量表示，为字符表示。

8.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述步骤S4包括：

9.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述步骤S5包括：

10.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法，其特征在于，所述步骤S6包括：

将实体片段表示输入到基于多层感知器MLP的softmax分类器中来识别实体类型，使用交叉熵损失函数为目标函数；

所述实体片段表示为：

S_st,ed＝maxpooling(h_st,h_st+1,...,h_ed),

S_st,ed←[h_st；S_st,ed；h_ed]

其中，S_st,ed代表实体片段表示，maxpooling表示最大值池化操作，h_st、h_ed分别表示实体开始、结束位置字符的特征向量。