CN116502641A

CN116502641A - 基于字符字形特征的中文命名实体识别方法及系统

Info

Publication number: CN116502641A
Application number: CN202310379164.9A
Authority: CN
Inventors: 熊熙; 谭秋荣
Original assignee: Chengdu Tuyi Technology Co ltd
Current assignee: Chengdu Tuyi Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-28
Anticipated expiration: 2043-04-11
Also published as: CN116502641B

Abstract

本发明公开了基于字符字形特征的中文命名实体识别方法及系统，方法包括：获取文本序列中每个字符的字符特征；获取每个字符的五笔编码和四角编码，聚合为字符的字形特征将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示；获取文本序列中每个词汇包含词性信息的上下文表示；利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算；将注意力计算的输出和组合字符表示结合后，作为模型的输入。本发明利用五笔编码和四角编码技术提取字符的形状结构特征，同时使用词性信息学习输入文本的隐式词汇表示，从而更充分地利用了文本序列信息，能够学习到更丰富和复杂的信息，以增强文本序列的特征表示，从而提高了NER的整体性能。

Description

基于字符字形特征的中文命名实体识别方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及基于字符字形特征的中文命名实体识别方法及系统。

背景技术

汉字是一种独特的形音文字，是中文表意文字系统中不可或缺的组成部分。在汉语中，最常用的词汇构成方法是根据句法关系从词根中构建复合词，这与将单词组合成短语的语法结构基本相同。然而，在自然语言处理(Natural Language Processing，NLP)任务中适当利用字形信息和词汇信息仍然受到限制。

命名实体识别(Named Entity Recognition，NER)是自然语言处理中的关键任务之一，其涉及在文本中识别和分类命名实体，这些命名实体可以包括人物、组织机构、地点、日期等特定对象或概念。NER对于各种NLP应用程序都至关重要，例如信息检索、问答、事件提取。

在自然语言处理的背景下，命名实体识别通常被视为一种序列标记任务，其中输入序列中的每个位置被分配一个适当的标签。与英文相比，汉语的命名实体识别尤其具有挑战性，因为汉语单词之间没有像空格一样的分隔符，所以序列标记任务被分为基于字符和基于单词的方法。基于字符的方法更适合汉语的命名实体识别，但它们会丢失边界信息和语义信息。而基于单词的方法则容易出现错误传播，因为存在分词任务。现有的研究表明，在汉语命名实体识别任务中，基于字符的方法优于基于单词的方法。

现有技术的研究集中于如何通过增加额外特征来增强字符基方法学习的特征丰富性。为此，一些研究人员研究了字典并利用单词增强技术将单词相关特征融合到字符特征中，引入格子结构以利用单词信息并防止错误传播，此后其他研究人员也探索了单词信息在汉语命名实体识别中的重要性。利用汉字的结构特征增强字符表示，最常见的方法是从汉字图像中学习字符表示。然而，基于字典的增强方法通常需要先构建字典，而利用汉字图像表示进行特征提取会导致稀疏的特征表示矩阵。

发明内容

为了解决上述技术问题，本发明旨在提供一种基于字符字形特征的中文命名实体识别方法及系统，具体包括：

基于字符字形特征的中文命名实体识别方法，包括步骤：

获取文本序列中每个字符的字符特征；

获取文本序列中每个字符的五笔编码和四角编码，根据字符与五笔特征和四角特征的关联度，将五笔编码和四角编码聚合为字符的字形特征；

将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示；

获取文本序列中每个词汇包含词性信息的上下文表示；

利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算；

将注意力计算的输出和组合字符表示结合后，作为中文命名实体标签预测模型的输入，完成中文命名实体的识别。

在一些较优的实施例中，所述将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示的方法包括：

首先计算门控参数g_i：

其中，W_g1和W_g2是可学习参数，是字符特征，b_g是偏置项，/>是字形特征；

然后将字符特征和字形特征融合，得到组合字符表示

其中，E是一个与具有相同形状的向量，每个位的值都是1。

在一些较优的实施例中，所述获取文本序列中每个词汇包含词性信息的上下文表示的方法包括：

提取文本序列中每个词汇的词性并进行编码得到词性序列，将词性序列输入双向长短期记忆递归神经网络，得到每个词汇与词性相关的上下文表示。

在一些较优的实施例中，所述利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算的方法包括：

将上下文表示作为键K_s和值V_s，将组合字符表示作为任务相关查询Q_c，根据下面的公式进行注意力计算：

其中，d_k是K_s的维度。

本发明还提供了一种基于字符字形特征的中文命名实体识别系统，包括：

字符特征获取模块，用于获取文本序列中每个字符的字符特征；

字形特征获取模块，用于获取文本序列中每个字符的五笔编码和四角编码，根据字符与五笔特征和四角特征的关联度，将五笔编码和四角编码聚合为字符的字形特征；

词性获取模块，用于获取文本序列中每个词汇包含词性信息的上下文表示；

融合模块，与字符特征获取模块和字形特征获取模块连接，用于将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示；

注意力模块，用于对上下文表示和组合字符表示进行注意力计算，并将注意力计算的输出和组合字符表示结合；

标签预测模块，与注意力模块连接，用于完成中文命名实体的识别。

在一些较优的实施例中，所述字符特征获取模块内置有用于获取字符特征的预训练BERT模型。

在一些较优的实施例中，所述词性获取模块内置有用于获取上下文表示的预训练BiLSTM模型。

在一些较优的实施例中，所述标签预测模块内置有依次连接的条件随机场和标签分配器。

有益效果

1、利用五笔编码和四角编码技术提取字符的形状结构特征，同时使用词性信息学习输入文本的隐式词汇表示，从而更充分地利用了文本序列信息，能够学习到更丰富和复杂的信息，以增强文本序列的特征表示，从而提高了NER的整体性能；

2、通过应用交叉注意力机制，将词汇信息通过注意力与上下文特征结合，实现对词性信息关注程度的动态探索，减少由于词语划分而引起的误差传播，从而增强NER模型的准确性；

3、通用性强，可以将本发明的文本序列特征增强表示方法应用到其他NLP任务中。

附图说明

图1为本发明一种较优实施例中的方法流程示意图；

图2为本发明另一种较优实施例中的系统结构示意图；

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例1

如图1-图2所示，本实施例提供了一种基于字符字形特征的中文命名实体识别方法，包括步骤：

S1、获取文本序列中每个字符的字符特征。本领域目前提取字符特征的方法有很多，目前最受关注的是利用Transformer结构的大规模预训练语言模型进行字符特征提取，常见的包括GPT模型BERT模型和RoBERTa模型，其中BERT是用双向Transformer编码器，使用掩码语言模型(MLM)和下一句预测(NSP)作为预训练任务。通过同时学习上下文中的词，BERT能够捕捉文本中的双向依赖关系。其具体的实现方法可以由本领域技术人员根据需要进行选择和优化，本发明不作进一步的限制。

S2、获取文本序列中每个字符的五笔编码和四角编码，根据字符与五笔特征和四角特征的关联度，将五笔编码和四角编码聚合为字符的字形特征。本发明将五笔编码和四角编码作为字形特征的来源。

其中，五笔输入法是王永民于1983年8月发明的一种汉字输入法。五笔编码完全基于笔画和形状特征，是一种典型的形码输入法。在五笔输入法下，一个汉字的编码长度不超过四位。在五笔编码系统中，大部分的字根都是传统的汉字部首，而一些笔画较少的结构也被用作字根。五笔使用五种笔画，每个字根或者代码元素只用前两种笔画来定位其在键盘上的位置。因此，在五笔编码中，汉字编码只用了25个字母键(Z键不用于五笔编码)。五笔编码序列的笔画数是固定的四位数，如果不足四位数，则用“z”来补足。

四角编码是一种用于查找汉字的方法。该编码方法将每个字符分成四个角，并为每个角分配一个数字。然后，根据由这四个数字组成的四位数的大小来对所有字符进行排序。它将汉字笔画分为十个类别，然后使用数字0-9来表示每个类别。每个角的笔画形状被分配一个数字，该数字基于其在左上角、右上角、左下角和右下角的位置。查找字符时，根据四位数的大小来搜索字符。因此，四角编码由四个数字对应四个角和一个附加角号组成，共五个数字。

应当理解的是，实现五笔编码和四角编码的工具有很多，例如可以使用pywubi获取汉字的五笔编码，使用JioNLP工具获得汉字的四角编码。

在一些较优的实施例中，由于后续神经网络进行处理的对象是向量，因此在此给出一种将编码进行嵌入向量转化的示例，应当理解的是，该示例仅作为编码步骤的进一步解释，不应当理解为对编码方法的具体限制：

给定长度为N的输入文本序列X＝{x₁,x₂,x_i,...,x_n},n∈{1,N}，首先得到每个字符的五笔编码序列和四角编码序列，然后使用与特征长度相同的卷积核进行对上述序列卷积得到对应的五笔序列嵌入和四角序列嵌入/>

S3、将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示。该步骤的目的在于：本发明在字符特征之外提取了五笔编码和四角编码作为额外的字形特征，但这三种信息的来源不同，同时有主次之分，因而存在带来噪声的风险。本发明通过结合门机制的融合方法，用以降低额外信息引入带来的噪声影响。在一些较优的实施例中，给出了一种融合的具体示例：

S301、计算门控参数g_i：

其中，W_g1和W_g2是可学习参数，是字符特征，b_g是偏置项，/>是字形特征。

所述字符特征由前述步骤S1获得，字形特征/>根据字符与五笔特征和四角特征的关联度，将五笔编码和四角编码聚合而成。具体的，可以采用权重计算的方式进行聚合，包括：

对于每个输入的字符x_i，首先分别计算出与五笔和四角的关联度t^g,t^f，接着计算分配给五笔嵌入和四角嵌入的权重p^g,p^f，计算权重的方式如下：

其中，S是五笔序列嵌入e^g和四角序列嵌入e^f的集合。是五笔和四角的关联度。通过计算权重，五笔特征和四角特征可以聚合成一个字形特征向量/>

S302、将字符特征和字形特征融合，得到组合字符表示

其中，E是一个与具有相同形状的向量，每个位的值都是1。°表示按元素相乘。

S4、获取文本序列中每个词汇包含词性信息的上下文表示。该步骤主要考虑在命名实体识别(NER)模型中使用词性(POS)作为辅助特征，所述词性POS标注包含词语边界和词法信息，可以增强NER模型，本领域进行词汇上下文分析的方法有很多，比较热门的有Word2Vec模型、ELMo模型和Transformer模型，其中ELMo(Embeddings from LanguageModels)是一种基于双向LSTM的深度上下文化词嵌入方法。通过预训练一个双向语言模型，ELMo能够为输入文本中的每个词生成一个动态的词向量，该向量取决于其在特定上下文中的含义。其优点在于生成的词向量是动态的，能够捕捉多义词的不同含义，且能够捕捉长距离依赖关系。在一些较优的实施例中，给出了一种基于ELMo的结构和思路的上下文表示获取方法：

S401、提取文本序列中每个词汇的词性并进行编码得到词性序列其中，词性的提取方法有很多，现有技术中常用的分词工具都能实现对词性的提取，如Jieba、LAC等工具，本发明对词性提取所采用的方法和工具不作进一步的要求。

S402、将词性序列e^s输入双向长短期记忆递归神经网络BiLSTM，得到每个词汇与词性相关的上下文表示

S5、利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算。该步骤考虑的是：直接将POS添加到文本嵌入中可能会受到错误传播的影响，并退化为基于单词的方法。为了克服这个问题，本发明提出了一种注意力机制，动态地结合POS信息，减少误差传播。

具体的包括以下步骤：

将上下文表示h^s作为键K_s和值V_s，以使上下文表示h^s被用于计算查询与每个上下文词汇之间的相关性，并为每个上下文词汇分配权重。

将组合字符表示作为任务相关查询Q_c，以使组合字符表示/>通过注意力机制将其与上下文表示相关联，以获取与当前任务相关的信息。

根据下面的公式进行注意力计算：

其中，d_k是K_s的维度。该公式被用作根据组合字符表示与上下文表示之间的关系分配权重，然后计算加权和作为输出。这样可以使得输出表示更加关注于与组合字符表示相关的上下文词汇，从而为融合任务提供更有用的信息。

S6、将注意力计算的输出和组合字符表示结合后，作为中文命名实体标签预测模型的输入，完成中文命名实体的识别。所述中文命名实体标签预测模型的后续结构可以有本领域技术人员根据现有技术和实际需要进行具体的设计和设置，在一些较优的实施例中，考虑使用线性和条件随机场CRF层进行字符到标签的预测(即中文命名实体的识别)。

实施例2

本实施例是在上述实施例1的基础上展开的，本实施例给出了一种基于字符字形特征的中文命名实体识别系统，包括：

实验例

本实验例是在上述实施例1、2的基础上展开的，使用几个基准数据集对本发明所提出的方法进行实验评估，其中准确性、召回率和F1分数被用作评估指标。

实验设置

在以下主流中文NER基准数据集上进行了实验。采用来自新闻领域的主流中文NER基准数据集：OntonotesV4和MSRA。本实验例使用了为所有数据集提供的原始切割分数，还统计了每个数据集不同切割中的句子数量、实体类型数量和实体总数的分布。具体统计数据见下表1。

表1数据集统计

命名实体(Named Entity，NE)的注释模式在不同的数据集中是不同的，Ontonotes数据集使用BMEOS注释模式，而MSRA数据集则使用BIO注释模式。

BERT模型的原始权重来自HuggingFace Transformers的"bert-base-chinese"。使用jionlp工具包从文本中提取四角码和词汇码，使用pywubi获取五笔码。除了BERT之外的模型层的参数都是随机初始化的。所有嵌入的维度都相同，其中d_c＝d_w＝d_f＝d_s＝768，而上下文表示为256维。对于CRF层，使用FastNLP的内置实现。在训练过程中，使用AdamW作为优化函数，并使用CRF层计算训练损失，基础学习率为0.00001。

实验结果

下面的内容展示了几种中文命名实体识别(NER)的词汇增强方法和图像表示方法的实验结果。具体来说，本实验例评估了基于格的方法Lattice-LSTM、FLAT和NFLAT，以及基于图像字形的方法Glyce和FGN。评估结果分别将下表2和表3。表中的GP-NER为本发明所提出的基于字符字形特征的中文命名实体识别方法。

Model	P	R	F
				Lattice LSTM	76.35	71.56	73.88
FLAT	-	-	76.45
				NFLAT	75.17	79.37	77.21
Glyce	81.87	81.40	81363
				FGN	82.61	81.48	82.04
Baseline	79.99	80.29	80.16
				GP-NER	81.57	82.99	82.28

表2 Ontonotes数据集上的结果

Model	P	R	F
				Lattice LSTM	93.57	92.79	93.18
FLAT	-	-	94.12
				NFLAT	94.92	94.19	94.55
Glyce	95.57	95.51	95.54
				FGN	95.54	95.81	95.64
Baseline	94.97	94.93	94.95
				GP-NER	95.56	95.80	95.68

表3 MSRA数据集上的结果

在OntonotesV4数据集上，GP-NER取得了82.28％的F1得分，比最佳基线提高了0.28％。它同时优于中文基于Lattice的方法和中文基于字符图像的字形增强方法。在MSRA数据集上也观察到类似的结果，GP-NER显示出最佳性能。这些结果证实，本发明所提出的方法可以将词性信息和字形信息较好的结合，增强模型学习到的上下文表示，从而最终提高模型的性能。

消融实验

下面介绍了进行消融实验以验证本发明所提出的方法中每个组件的贡献的实验。其目的是评估四个不同组件对模型性能的影响：字形特征(“-glyce”)、字形融合(“-fusion”)、词性标注标签(“-pos”)和注意力机制(“-attn”)。消融实验的结果见下表4。

Model	Ontonotes	MSRA
			GP-NER	82.28	95.68
-glyce	81.99	95.35
			-fusion	81.74	95.17
-pos	81.67	94.83
			-attn	80.15	93.72

表4消融实验结果

表4展示了本发明所提出的方法及其每个特征类型的性能表现。性能以F1得分为指标，报告了在两个数据集(OntonotesV4和MSRA)上的性能。“-glyce”实验是从训练数据中删除所有字形特征。该实验允许评估字形特征对GP-NER模型性能的贡献。该实验的结果表明，加入字形特征使模型的性能平均提高了0.7的F1得分。

“-fusion”研究了所提出的字形融合方法在减少模型中的噪声方面的有效性。字形融合方法在模型中添加了一个字形融合层，用于将字形特征与字符特征组合起来。在这个实验中，首先从模型中删除了字形融合层，并直接将字形特征添加到字符特征中。这个实验允许评估所提出的字形融合方法是否有效地减少了模型中的噪声。结果表明，与不使用它相比，使用字形融合方法平均提高了0.3的F1得分。

"-pos"是指在模型训练过程中去除POS标签特征和注意层。这个实验能够评估POS标签对本发明所提出的方法性能的贡献。结果显示，加入POS标签后，模型的性能平均提高了0.5/F1分数。

最后，"-attn"将注意力机制从模型中移除，以研究其在避免从POS标签传播的错误方面的有效性。在这个消融中，在没有POS注意力层的情况下训练模型。结果显示，与不使用注意力机制相比，注意力机制平均提高了2.2/的F1分数。

通过上述消融实验不难看出，本发明所提出的方法的四个组成部分在不同程度上提高了实体识别的效果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于字符字形特征的中文命名实体识别方法，其特征在于，包括步骤：

获取文本序列中每个字符的字符特征；

获取文本序列中每个词汇包含词性信息的上下文表示；

2.如权利要求1所述的基于字符字形特征的中文命名实体识别方法，其特征在于，所述将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示的方法包括：

首先计算门控参数g_i：

其中，和/>是可学习参数，/>是字符特征，b_g是偏置项，/>是字形特征；

然后将字符特征和字形特征融合，得到组合字符表示

其中，E是一个与具有相同形状的向量，每个位的值都是1。

3.如权利要求1所述的基于字符字形特征的中文命名实体识别方法，其特征在于，所述获取文本序列中每个词汇包含词性信息的上下文表示的方法包括：

4.如权利要求4所述的基于字符字形特征的中文命名实体识别方法，其特征在于，所述利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算的方法包括：

其中，d_k是K_s的维度。

5.基于字符字形特征的中文命名实体识别系统，其特征在于，包括：

6.如权利要求5所述的基于字符字形特征的中文命名实体识别系统，其特征在于，所述字符特征获取模块内置有用于获取字符特征的预训练BERT模型。

7.如权利要求5所述的基于字符字形特征的中文命名实体识别系统，其特征在于，所述词性获取模块内置有用于获取上下文表示的预训练BiLSTM模型。

8.如权利要求5所述的基于字符字形特征的中文命名实体识别系统，其特征在于，所述标签预测模块内置有依次连接的条件随机场和标签分配器。