CN116522942A

CN116522942A - 一种基于字符对的中文嵌套命名实体识别方法

Info

Publication number: CN116522942A
Application number: CN202310505841.7A
Authority: CN
Inventors: 陈丽娜; 季夏衍; 郭鸿杰; 沈方瑶; 张尧; 高宏
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-01

Abstract

本发明公开了一种基于字符对的中文嵌套命名实体识别方法，属于自然语言处理中的命名实体识别技术领域。该方法通过预测句子中字符对的预定义关系，并根据这些关系来识别嵌套的命名实体。其中该方法包括：利用带有语言学特征的大规模预训练语言模型和双向长短期记忆网络向量化文本，提高字符表示质量；结合多特征融合和金字塔挤压注意力模块，充分捕捉文本内复杂的深层语义信息，关注关键特征；针对类别不平衡问题，采用基于PolyLoss的损失函数训练模型，提高模型的泛化能力和预测准确性。有效解决了现有中文嵌套命名实体中存在的语言多样性、中文语言复杂性、实体类别不平衡等问题。

Description

一种基于字符对的中文嵌套命名实体识别方法

技术领域

本发明属于自然语言处理中的命名实体识别技术领域，具体涉及一种基于字符对的中文嵌套命名实体识别方法。

背景技术

命名实体识别任务是自然语言处理领域的基础任务之一。其主要目的是确定非结构化文本中命名实体的边界和类型，为知识图谱、问答系统和关系抽取等自然语言处理下游任务提供关键的实体信息。

根据命名实体的边界是否存在重叠，命名实体识别可分为扁平命名实体识别和嵌套命名实体识别两种。现有的大多数命名实体识别模型难以准确识别这种复杂的嵌套命名实体，也无法捕捉文本中具体而详细的实体信息。因此，识别嵌套的命名实体一直是一项极具挑战性的任务。

过去关于嵌套命名实体识别的研究主要集中在英文文本，由于中文和英文之间存在着明显的差异，中文嵌套命名实体识别的难点区别于英文嵌套命名实体识别。中文嵌套命名实体识别存在语言多样性、复杂性和实体类别数量不均衡等问题。随着语言文化不断交融更新，中文各领域参考资料和技术文档逐渐趋向语言多样化。例如中英文混合、数字符号等的表达，增加了中文嵌套命名实体识别的难度。中文文本中通常存在大量的嵌套命名实体、多层嵌套和一词多义现象。实际场景中数据实体的类别数量通常呈长尾分布，少部分实体类型包含大量样本数据，而大部分实体类型只有少量样本数据。这种不均衡分布会严重影响模型的识别性能。基于上述难点，很多能在英文文本上取得良好效果的模型，在中文文本中却难以准确全面识别出命名实体。

发明内容

本发明的目的是提供一种基于字符对的中文嵌套命名实体识别方法，通过预测的字符对之间的关系来识别句子中的嵌套命名实体，以提高中文嵌套命名实体识别准确率。

本发明的技术方案如下：

一种基于字符对的中文嵌套命名实体识别方法，所述方法为：

获取自然语言文本，将自然语言文本输入到命名实体模型中，获得所述自然语言文本中的命名实体信息；所述命名实体模型由输入层、编码层、特征提取层和解码层构成。

进一步的，所述方法具体步骤为：

S1获得自然语言文本，将所述自然语言文本输入到编码层对字符进行编码，获得所述自然语言文本的向量表示；

S2将S1获得的向量输入到特征提取层提取字符对间关系的特征；

S3基于字符对间关系的特征预测字符对间的关系，并通过字符间的关系解码文本中的实体信息。

进一步的，所述S1具体为：

S11将自然语言文本输入大规模预训练语言模型LERT，获得句子的向量化表示。

S12将句子的向量化表示输入至双向长短期记忆网络，获得句子最终的向量化表示。

进一步的，所述特征提取层由条件归一化层、多特征表示和金字塔挤压注意力模块构成。

进一步的，所述S2具体为：

S21通过条件归一化层，生成字符对之间的网格表示；字符对间的网格表示可以看作是一个三维矩阵V。我们预定义三种字符对之间的关系：None，Next Neighboring Char(NNC)和Tail-Head Char-*(THC-*，*代表实体类型)。None表明两个字符之间没有关系；NNC判断一个实体中的两个字符是否相邻；而THC-*关系解决实体边界和类型检测问题，THC表明两个字符是否分别是尾部边界和头部边界，*表示实体类型。条件归一化层生成的字符嵌入能够表示字符间关系的方向性。

S22通过多特征融合，由多特征表示实现字符对间多方面特征的提取；

S23通过金字塔挤压注意力模块，对输入的多特征表示提取字符对间多方面特征。

进一步的，多特征表示E由距离嵌入E_D、区域嵌入E_R和字符嵌入V在第三维度拼接融合获得。

所述距离嵌入表示字符对中的两个字符的相对位置关系；

所述区域嵌入表示网格中的字符所在的上下三角区域的信息；

所述字符嵌入为输入文本经过向量化后又经过条件归一化层后获得。

进一步的，所述金字塔挤压注意力模块由对挤压和拼接模块和特征提取权重模块构成。

进一步的，S23具体为：

对输入的多特征表示，所述金字塔挤压注意力模块使用对挤压和拼接模块获得多尺度的特征图；随后使用特征提取权重模块获得各个分支的注意力向量；而后对各分支的注意力向量归一化，通过Softmax函数获得各个分支特征的注意力权重；最后将每个分支注意力权重在第三维度进行拼接，形成多尺度通道权重；将多尺度的特征图与注意力权重逐通道相乘，获得多尺度的特征表示。

进一步的，所述S3具体为：

通过多层感知机(Multilayer Perceprtron，MLP)计算得到字符对间的关系得分y_i ^′ _j，随后使用Softmax函数计算得到字符对属于各个类别的概率模型的预测结果是字符对之间的关系，字符和关系可以构成一个有向图，其中字符是节点，关系是边。通过识别有向图中的路径来解码预测出的对应实体。

进一步的，所述方法还包括：利用基于PolyLoss的损失函数训练所述命名实体模型；

所述损失函数为：

L＝∈(1-_t)+_CE

其中L_CE表示交叉熵损失函数，P_t表示模型对目标真实类别的预测概率，∈表示可调节的超参数。

本发明的技术效果：

1、针对中文文本的语言多样性，引入具有语言学特征的大规模预训练语言模型模型和双向长短期记忆网络将文本向量化，提升字符表示质量。

2、针对中文语言的复杂性，结合多特征表示和金字塔挤压注意力模块，充分利用文本深层次信息，赋予模型聚焦于关键特征的能力。

3、针对中文文本的实体类别数量分布不均衡，呈长尾分布的问题，在Poly-1框架基础上设计损失函数，增强模型的泛化能力和识别准确率。

附图说明

附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了本发明的结构示意图；

图2示出了本发明的金字塔挤压注意力模块的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，基于字符对的中文嵌套命名实体识别方法，具体包括以下步骤；

步骤1、编码层部分，将自然语言文本转换为向量表示，利用带有语言学特征的大规模预训练语言模型和双向长短期记忆网络对文本字符进行编码；

由于中文文本中存在显著的语言多样性，在单一语料库上训练的语言模型难以充分提取中文文本内的信息。通过融合多种语言特征的预训练语言模型LERT将字符转换为向量，提高模型对文本信息的理解。

如公式(1)，给定一个输入句子C＝[c₁,c₂,…,c_n]，输入预训练语言模型LERT模块得到向量化后的文本X＝[x₁,x₂,…,x_n]。

X＝LERT(C) (1)

为进一步增强模型对文本上下文的理解，我们采用双向长短期记忆网络(Bidirectional Long Short-Term Memory，BiLSTM)生成结果其中d_h是字符表示的维度，如公式(2)所示。

H＝BiLSTM(X) (2)

步骤2、特征提取层部分，包括条件归一化层、多特征表示和金字塔挤压注意力模块。该部分提取字符对间关系的特征，通过结合多特征融合和金字塔挤压注意力模块，为字符对间关系的预测奠定基础。

步骤2.1、通过条件归一化层(Conditional Layer Normalization，CLN)，生成字符对之间的网格表示来预测字符对间的关系。

字符对间的网格表示可以看作是一个三维矩阵其中V_ij表示字符对(c_i,c_j)的表示，N为每个批次的字符数。由于NNW和THW关系都具有方向性，因此字符对(c_i,c_j)的表示V_ij可以看作是c_i的表示h_i和c_j的表示h_j的组合，这个组合意味c_j是以c_i为条件的。如公式 (3)、公式 (4)，CLN以此来计算V_ij。其中，h_i是产生层归一化增益参数γ_ij＝_αh_i+_α和偏置λ_ij＝_βh_i+_β的条件。

μ和σ分别是h_j向量的均值和标准差。其中，d_h是字符表示的维度，h_jk表示h_j的第k维。

步骤2.2、通过多特征融合，由多特征表示实现字符对间多方面特征的提取。

针对中文语言的复杂性，构建有效的字符对的网格表示能够提高字符对关系分类的准确率。多特征表示E由距离嵌入E_D、区域嵌入E_R和字符嵌入V在第三维度拼接融合获得。距离嵌入表示字符对中的两个字符的相对位置关系。区域嵌入表示网格中的字符所在的上下三角区域的信息。字符嵌入为输入文本经过向量化后又经过条件归一化层后获得。多特征表示E通过特征在第三维度拼接获得，如公式Concat([_D；_R；])(5)所示。其中，d_h是字符表示的维度，d_d是距离嵌入的维度，d_r是区域嵌入的维度，d_e是多特征表示的维度，Concat表示连接运算符。

E＝Concat([E_D；E_R；V]) (5)

步骤2.3、通过金字塔挤压注意力模块，提高模型关注多特征表示中的重点特征信息以及捕捉字符间的交互信息的能力。如图2所示，金字塔挤压注意力模块包括对挤压和拼接(Squeeze and Concat，SPC)模块和特征提取权重(Squeeze Extract Weight，SEWeight)模块。

对于输入的多特征表示对其维度进行置换得到在SPC模块中，有S个独立的分支，每个分支的输入特征表示的通道数为d_e，每个分支通过不同尺寸的卷积核对通道数进行压缩，提取不同尺度的空间信息。在特征提取的过程中，对特征图进行分组卷积处理。多尺度特征提取函数如公式(6)所示。其中，K_i＝2×(i+1)+1，组数G与卷积核K的大小有关。/>为特征提取后得到的各分支特征图，其中d_e＝×M^′。

F_i＝Conv(K_i×K_i,G_i)(E),i＝1,2,…,S (6)

每个分支独立地学习特征信息，并与局部区域建立跨通道互动。如公式(7)所示，将从S个分支获得的特征图沿通道维度拼接起来，得到初始多尺度融合特征图其中，Concat表示连接运算符。

F＝Concat([F₁,F₂,…,F_S]) (7)

随后使用SEWeight模块获得各个分支的注意力向量Z。每个分支特征图F_i被输入到通道注意模块，如公式(8)，得到每个分支特征图的注意向量Z_i。

Z_i＝SEWeight(F_i),i∈1,2,…,S (8)

而后如公式(9)所示，对各分支的注意力向量Z_i归一化，通过Softmax获得各个分支特征的注意力权重W。其中，W_i∈R^M′×1×1表示每个分支特征图的注意权重。

W_i＝Softmax(Z_i),i∈1,2,…,S (9)

整个多尺度通道权重是由各分支的注意力权重拼接得到的，如公式(10)，将得到的多尺度融合通道权重W与多尺度融合特征图F逐个通道相乘，得到具有自适应的通道权重的多尺度融合特征图M_F。

M_F＝Concat([W₁,W₂,…,W_S])⊙F (10)

其中，Concat表示连接运算符，⊙代表基于通道的乘积操作。

步骤3、解码层部分，模型预测字符对间的关系，并通过字符间的关系解码文本中的实体信息。

如公式(11)所示，模型通过多层感知机(Multilayer Perceprtron，MLP)计算得到字符对间的关系得分y′_ij，随后如公式(12)所示，使用Softmax函数计算得到字符对属于各个类别的概率模型的预测结果是字符对之间的关系，字符和关系可以构成一个有向图，其中字符是节点，关系是边。有向图中的每条路径代表一个对应的实体。

步骤4、模型训练部分，采用基于PolyLoss的损失函数训练模型，提高模型的泛化能力和预测准确性。

我们的训练目标是最小化L，其形式化表示为公式(13)，其中L_CE表示交叉熵损失函数，P_t表示模型对目标真实类别的预测概率，∈表示可调节的超参数。

在公式(14)、公式(15)中，N表示句子中的字符数，y_ij表示字符对的真实关系标签的二进制向量，表示预测的概率向量，r表示预先定义的关系集合/>中的第r个关系。

L＝∈(1-P_t)+L_CE (13)

以上所述，仅为本发明优选的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于字符对的中文嵌套命名实体识别方法，其特征在于，

2.根据权利要求1所述的命名实体识别方法，其特征在于，所述方法具体步骤为：

3.根据权利要求2所述的命名实体识别方法，其特征在于，所述S1具体为：

4.根据权利要求2所述的命名实体识别方法，其特征在于，所述特征提取层由条件归一化层、多特征表示和金字塔挤压注意力模块构成。

5.根据权利要求2所述的命名实体识别方法，其特征在于，所述S2具体为：

S21通过条件归一化层，生成字符对之间的网格表示；

6.根据权利要求5所述的命名实体识别方法，其特征在于，所述多方面特征多特征表示由距离嵌入、区域嵌入和字符嵌入在第三维度拼接融合获得；

所述距离嵌入表示字符对中的两个字符的相对位置关系；

7.根据权利要求5所述的命名实体识别方法，其特征在于，

所述金字塔挤压注意力模块由对挤压和拼接模块和特征提取权重模块构成。

8.根据权利要求5所述的命名实体识别方法，其特征在于，S23具体为：

9.根据权利要求2所述的命名实体识别方法，其特征在于，所述S3具体为：

通过多层感知机计算得到字符对间的关系得分，随后使用Softmax函数计算得到字符对属于各个类别的概率；预测结果是字符对之间的关系，字符和关系可以构成一个有向图，其中字符是节点，关系是边；有向图中的每条路径代表一个对应的实体。

10.根据权利要求1所述的命名实体识别方法，其特征在于，所述方法还包括：利用基于PolyLoss的损失函数训练所述命名实体模型；

所述损失函数为：

L＝∈(1-_t)+_CE