CN115688784A

CN115688784A - 一种融合字与词语特征的中文命名实体识别方法

Info

Publication number: CN115688784A
Application number: CN202211330887.1A
Authority: CN
Inventors: 柴文光; 王家圳
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-02-03

Abstract

本发明公开了一种融合字与词语特征的中文命名实体识别方法，该方法包括：获取数据集并对BERT模型进行特征提取训练，得到含有语义特征的序列向量；根据含有语义特征的序列向量训练BILSTM模型，得到含有上下文特征的序列向量；根据含有上下文特征的序列向量训练FLAT模型，得到预测的标签序列；整合BERT模型、BILSTM模型和FLAT模型，得到中文命名实体识别模型；将待测数据输入中文命名实体识别模型进行识别，得到识别结果。通过使用本发明，能够加强模型对命名实体识别的效果。本发明作为一种融合字与词语特征的中文命名实体识别方法，可广泛应用于中文命名实体识别技术领域。

Description

一种融合字与词语特征的中文命名实体识别方法

技术领域

本发明涉及中文命名实体识别技术领域，尤其涉及一种融合字与词语特征的中文命名实体识别方法。

背景技术

命名实体识别是自然语言处理的基础任务之一，命名实体是一个词或者短语，命名实体识别任务就是将文本中的命名实体定位并分类成预定义识别类别的过程，如识别文本中的人员、地理位置、组织名称、时间和货币等等；命名实体识别在推荐系统、机器翻译、知识图谱和语义搜索等多种自然语言处理的下游任务中起着重要作用。

近年来在中文领域的命名实体识别方法主要可以分为以下三类：基于规则匹配的方法、基于统计机器学习的方法和基于神经网络深度学习的方法；首先早期命名实体识别的实现依赖于规则匹配模版，这种方法虽然不需要带注释的数据，但这类方法主要基于手工制作的语义和句法规则来识别实体，当词典详尽时，基于规则匹配的模型表现得很好，但这种规则匹配模版泛化能力差，更换到其他特定领域又会对识别结果产生很大影响，因此需要对不同领域构建不同的规则，导致效率不高；其次基于统计机器学习的方法识别效果依赖于大量的标注语料的条件限制了该类方法的应用范围扩展和迁移；最后字和词对中文命名实体识别同样重要，只基于其中一种进行建模的话，没法挖掘语句序列中潜藏的上下文信息，且中文字符不存在空格进行分割，在分词的时候出现错误会影响识别效果；另外中文也存在一词多义的情况，许多学者使用的Word2Vec等预训练模型关注的是词或者字符之间的特征，没有考虑到词的上下文语境，仍然无法解决一词多义的问题。

发明内容

为了解决上述技术问题，本发明的目的是提供一种融合字与词语特征的中文命名实体识别方法，能够加强模型对命名实体识别的效果。

本发明所采用的技术方案是：一种融合字与词语特征的中文命名实体识别方法，包括以下步骤：

获取数据集并对BERT模型进行特征提取训练，得到含有语义特征的序列向量；

根据含有语义特征的序列向量训练BILSTM模型，得到含有上下文特征的序列向量；

根据含有上下文特征的序列向量训练FLAT模型，得到预测的标签序列；

整合BERT模型、BILSTM模型和FLAT模型，得到中文命名实体识别模型；

将待测数据输入中文命名实体识别模型进行识别，得到识别结果。

进一步，所述获取数据集并对BERT模型进行特征提取训练，得到含有语义特征的序列向量这一步骤，具体包括：

获取数据集并进行分词与标签标记处理，得到分词文本序列；

随机选取分词文本序列的部分词进行掩码操作；

将掩码后的分词文本序列输入BERT模型中，所述BERT模型包括输入层、编码层和输出层；

利用输入层将掩码后的分词文本序列的词转换成词向量；

基于全局关联权重公式利用编码层对词向量进行特征提取，得到含有语义特征的序列向量。

进一步，所述全局关联权重公式的计算公式，具体如下：

上式中，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，d_k表示键矩阵的维度。

进一步，所述根据含有语义特征的序列向量训练BILSTM模型，得到含有上下文特征的序列向量这一步骤，具体包括：

将含有语义特征的序列向量输入BILSTM模型中，所述BILSTM模型包括前向LSTM模型和后向LSTM模型；

含有语义特征的序列向量按正向序列依次通过前向LSTM模型，得到前向序列向量；

含有语义特征的序列向量按反向序列依次通过后向LSTM模型，得到后向序列向量；

将前向序列向量与后向序列向量拼接得到含有上下文特征的序列向量。

进一步，所述含有语义特征的序列向量按正向序列依次通过前向LSTM模型，得到前向序列向量这一步骤，具体包括：

含有语义特征的序列向量按正向序列依次通过前向LSTM模型，所述前向LSTM模型包括输入门、遗忘门和输出门；

利用输入门控制含有语义特征的序列向量的输入；

利用遗忘门对输入的含有语义特征的序列向量的权重进行计算，并根据权重选取留存的含有语义特征的序列向量；

利用输出门输出留存的含有语义特征的序列向量，得到前向序列向量。

进一步，所述含有语义特征的序列向量按反向序列依次通过后向LSTM模型，得到后向序列向量这一步骤，具体包括：

含有语义特征的序列向量按反向序列依次通过后向LSTM模型，所述后向LSTM模型包括输入门、遗忘门和输出门；

利用输入门控制含有语义特征的序列向量的输入；

利用输出门输出留存的含有语义特征的序列向量，得到后向序列向量。

进一步，所述根据含有上下文特征的序列向量训练FLAT模型，得到预测的标签序列这一步骤，具体包括：

将含有上下文特征的序列向量输入FLAT模型，所述FLAT模型包括编码层、自注意力层和解码层；

利用编码层将含有上下文特征的序列向量的图格子结构转换成平面格子结构，每个平面格子结构由不同长度的字或词组成；

每个字或词添加一个开始位置和结束位置，计算不同字或词之间的相对距离矩阵；

将相对距离矩阵进行拼接后作一个非线性变换，得到相对位置编码；

基于相对位置编码利用自注意力层的变体进行相对跨度位置编码，得到字或词的编码；

利用解码层对字或词的编码进行解码，得到预测的标签序列。

进一步，所述相对位置编码的计算公式，具体如下：

上式中，W_r表示可学习的参数，

表示concate操作。

进一步，所述相对跨度位置编码的计算公式，具体如下：

上式中，

都表示可学习的参数。

进一步，还包括中文命名实体识别模型的识别效果检测方法，具体包括：

获取测试集并输入中文命名实体识别模型中，得到识别结果；

将识别结果与真实标签进行匹配，计算精确率、召回率和F1值；

根据精确率、召回率和F1值判断中文命名实体识别模型的识别效果。

本发明方法的有益效果是：本发明首先获取数据集训练BERT模型的特征提取能力，得到含有语义特征的序列向量，提升了语言表征能力和特征提取能力；其次根据含有语义特征的序列向量训练BILSTM模型的上下文特征提取能力，得到含有上下文特征的序列向量，进一步获取丰富的语义信息；然后根据含有上下文特征的序列向量训练FLAT模型，得到预测的标签序列，使得字或词得到更充分更直接的信息交互；最后整合BERT模型、BILSTM模型和FLAT模型，得到中文命名实体识别模型，利用中文命名实体识别模型识别待测数据，加强了命名实体识别的效果，提升了命名实体识别的准确率。

附图说明

图1是本发明一种融合字与词语特征的中文命名实体识别方法的步骤流程图；

图2是本发明具体实施例BERT模型的结构示意图；

图3是本发明具体实施例LSTM模型的结构示意图；

图4是本发明具体实施例BILSTM模型的结构示意图；

图5是本发明具体实施例FLAT模型的结构示意图；

图6是本发明具体实施例中文命名实体识别模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种融合字与词语特征的中文命名实体识别方法，该方法包括以下步骤：

S1、获取数据集并对BERT模型进行特征提取训练，得到含有语义特征的序列向量；

S1.1、获取数据集并进行分词与标签标记处理，得到分词文本序列；

具体的，首先获取的数据集包括一份公开的简历数据集Resume，一份自行收集并标注的新闻语料数据集；其次对数据集进行分词处理，并对每一个字或词进行标签标记，得到分词文本序列。

其中，每一个标签包括一个实体边界标签和实体类别标签，数据集的详细信息如下表：

数据集	训练集大小	验证集大小	测试集大小
				Resume	3821	463	477
自制的数据集	800	100	100

S1.2、随机选取分词文本序列的部分词进行掩码操作；

S1.3、将掩码后的分词文本序列输入BERT模型中，所述BERT模型包括输入层、编码层和输出层；

具体的，BERT(Bidirectional Encoder Representation from Transformers，基于Transformer的双向编码器表征)，该模型是基于多层Transformer双向编码器的预训练语言模型，采用Transformer双向编码器获取文本的特征表示，其模型结构如图2所示，其中，E₁,E₂,...,E_N为输入部分即掩码后的分词文本序列，通过BERT模型的输入层输入，Trm为双向全连接Transformer层，由于Transformer层只采用了Transformer双向编码器中的Encoder结构即编码结构，由多个Encoder结构堆叠而来，故此处定义为编码层，输入部分传入编码层进行特征提取，通过输出层输出T₁,T₂,...,T_N即含有语义特征的序列向量。

S1.4、利用输入层将掩码后的分词文本序列的词转换成词向量；

具体的，由于BERT模型的输入由Position Embedding、Token Embedding和Segment Embedding相加组成，Position Embedding表示位置信息，Token Embedding表示词，Segment Embedding表示段信息；Position Embedding对位置信息进行编码来记录词顺序这一重要特征；Segment Embedding对句子进行编码用以刻画文本的全局语义信息即段信息，故利用输入层将掩码后的分词文本序列的词转换成词向量，得到的词向量含有词、位置信息和段信息。

S1.5、基于全局关联权重公式利用编码层对词向量进行特征提取，得到含有语义特征的序列向量。

具体的，每个Encoder结构包含一个自注意力层，自注意力层帮助编码层在对每个词编码时关注输入句子的其他词，即使得当前节点得到上下文的语义来挖掘词语间的关系，并且利用词与词之间的相互关系来调整每个词的权重，获得每个词新的表示特征，这个新的表示特征反映了该词与其他词之间的相互关系和重要程度，从而得到含有语义特征的序列向量。

其中，自注意力层利用全局关联权重公式进行计算的，不仅兼顾了并行计算能力，也极大地提升了长距离特征的捕捉能力，该计算公式具体如下：

其中，自注意力层需要从每个编码结构的输入的词向量中生成三个向量，也就是说对于每个词向量，需要创造一个查询向量、一个键向量和一个值向量，这三个向量是通过词嵌入与三个权重矩阵后相乘创建的，这三个向量的主要作用都是有助于计算和理解注意力机制的抽象概念，由于在计算过程中主要运用的矩阵计算，故上述公式表示为查询矩阵、键矩阵和值矩阵。

S2、根据含有语义特征的序列向量训练BILSTM模型，得到含有上下文特征的序列向量；

S2.1、将含有语义特征的序列向量输入BILSTM模型中；

具体的，BILSTM模型(Bi-directional Long Short-Term Memory，双向长短时记忆模型)，该模型包括前向LSTM模型和后向LSTM模型，前向LSTM模型和后向LSTM模型均是LSTM模型，由于LSTM是一种前向传播算法，即存在只能保存前面信息这一问题，忽略了未来信息的作用，而对于当前任务中的实体识别来说，序列前值与序列后值也是同等重要的，这关系到实体识别的准确，因此此实施例中使用BILSTM模型进一步从BERT模块的输出中捕获双向上下文语义信息，其模型结构如图4所示，在正向传递信息的同时也会传递逆向信息，接着拼接两个方向学习到的特征作为输出结果，以此提高模型的性能。

其中，LSTM(Long Short-Term Memory，长短时记忆模型)，该模型是循环神经网络的变种之一，如图3所示，LSTM模型比传统的RNN多出了存储单元和三个控制门，分别是输入门、遗忘门和输出门，通过增加的三个门结构可以用来控制输入信息的遗忘和记忆，实现了传递有用信息以及丢弃无用信息，增强了LSTM模型获得长距离语义依赖和对历史信息的记忆能力。

S2.2、含有语义特征的序列向量按正向序列依次通过前向LSTM模型，得到前向序列向量；

具体的，含有语义特征的序列向量按正向序列依次通过前向LSTM模型；利用输入门控制含有语义特征的序列向量的输入；利用遗忘门对输入的含有语义特征的序列向量的权重进行计算，并根据权重选取留存的含有语义特征的序列向量；利用输出门输出留存的含有语义特征的序列向量，得到前向序列向量。

其中，输入门、遗忘门和输出门的计算公式，具体如下：

上式中，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，c_t表示t时刻神经元的状态，x_t表示t时刻神经元的输入，h_t表示t时刻的输出，W和U表示权重矩阵，b表示偏置，σ表示Sigmoid函数，⊙表示按元素乘积，f_t为遗忘门，选择要遗忘的信息，有助于捕捉时间序列中短期的依赖关系，i_t和o_t为更新门，选择要记忆的信息，有助于捕捉时间序列中长期的依赖关系，

为细胞状态更新；c_t和h_t为输出的更新。

S2.3、含有语义特征的序列向量按反向序列依次通过后向LSTM模型，得到后向序列向量；

具体的，由于后向LSTM模型与前向LSTM模型都是LSTM模型，只是传播方向相反，故可以根据步骤S2.2中输入门、遗忘门和输出门的计算公式，得到后向序列向量。

S2.4、将前向序列向量与后向序列向量拼接得到含有上下文特征的序列向量。

具体的，BILSTM模型的计算公式如下：

上式中，

表示前向序列向量，

表示后向序列向量，H_t表示含有上下文特征的序列向量。

S3、如图5所示，根据含有上下文特征的序列向量训练FLAT模型，得到预测的标签序列；

具体的，FLAT模型包括编码层、自注意力层和解码层。

S3.1、将含有上下文特征的序列向量输入FLAT模型；

S3.2、利用编码层将含有上下文特征的序列向量的图格子结构转换成平面格子结构，每个平面格子结构由不同长度的字或词组成；

具体的，从含有上下文特征的序列向量中获取Lattice图结构后，利用编码层将其无损展开成平面格子结构Flat-Lattice，每个平面格子结构由不同长度的span组成。

其中，span是字和词的总称，span之间存在三种关系：交叉、包含、分离。

S3.3、每个字或词添加一个开始位置和结束位置，计算不同字或词之间的相对距离矩阵；

具体的，一个span对应一个token、head和tail，token表示一个字或词，head和tail分别表示span中token的第一个和最后一个字符的位置索引，对于字符来说，它的头和尾是一样的，该结构也可以恢复到原始结构，可以先取具有相同头尾的标记来构造字符序列，然后使用其他带有头和尾的token来构建跳跃路径。

对于不同的两个span x_i和x_j，它们之间存在三种关系：交叉、包含、分离，由它们的首尾决定，相对距离矩阵的计算公式具体如下：

上式中，head[i]表示x_i的头，tail[i]表示x_i的尾，head[j]表示x_j的头，tail[j]表示x_j的尾，x_i,x_j表示两个不同长度的span标签，

表示x_i的head和x_j的head之间的距离，

表示x_i的head和x_j的tail之间的距离，

表示x_i的tail和x_j的head之间的距离，

表示x_i的tail和x_j的tail之间的距离。

S3.4、将相对距离矩阵进行拼接后作一个非线性变换，得到相对位置编码；

具体的，相对位置编码的计算公式如下：

上式中，W_r表示可学习的参数，

表示concat操作，该操作用于连接两个或多个数组，不会改变现有的数组，而仅仅会返回被连接数组的一个副本，如果要进行concat操作的参数是数组，那么添加的是数组中的元素，而不是数组。

其中，P_d的计算公式具体如下：

上式中，d表示

和

k表示位置编码维度索引。

S3.5、基于相对位置编码利用自注意力层的变体进行相对跨度位置编码，得到字或词的编码；

具体的，相对跨度位置编码的计算公式如下：

上式中，

都表示可学习的参数。

S3.6、利用解码层对字或词的编码进行解码，得到预测的标签序列。

具体的，解码层采用的是CRF层，CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的，在训练数据训练过程中，这些约束可以通过CRF层自动学习到，有了这些约束，标签序列预测中非法序列出现的概率将会大大降低。

S4、整合BERT模型、BILSTM模型和FLAT模型，得到中文命名实体识别模型；

S5、将待测数据输入中文命名实体识别模型进行识别，得到识别结果。

具体的，序列标注里标记法有很多，包括BIO、BIOSE、IOB、BILOU、BMEWO、BMEWO+等，不同标注方法会对模型效果有些许影响，作为本方法优选实施例选用的BIOES标记法，B即Beginning表示某个实体词的开始，I即Inside表示某个实体词的中间，O即Outside表示非实体词，E即End表示某个实体词的结尾，S即Single表示这个实体词仅包含当前这一个字。

如图6所示，将重庆人和药店输入中文命名实体识别模型进行识别，分别对应得到B-LOC、E-LOC、B-LOC、I-LOC、I-LOC和E-LOC，即得到识别结果为“重庆”和“人和药店”两个实体。

进一步作为本方法优选实施例，还包括中文命名实体识别模型的识别效果检测方法，首先获取测试集并输入中文命名实体识别模型中，得到包括实体边界和实体类型的识别结果；然后将识别结果与真实标签进行匹配，计算精确率、召回率和F1值；最后根据精确率、召回率和F1值判断中文命名实体识别模型的识别效果。

其中，精确率、召回率和F1值的计算公式分别如下：

上式中，Pr ecision表示精确率，Re call表示召回率，F-score表示F1值；TP表示真阳性，即实体的边界和类型被完全正确识别出来；FP表示假阳性，即实体没有被完全正确识别出来；FN表示假阴性，即实体没有被识别出来；精确率衡量的是模型识别正确识别实体的的能力，召回率衡量的是模型识别所有实体的能力，F1值是精确率和召回率的调和平均值。

进一步作为本方法优选实施例，还公开了对CRF模型、BILSTM模型、BILSTM-CRF模型、FLAT模型和BERT-BILSTM-FLAT模型的命名识别效果进行测试的实验，首先使用Pytorch分别搭建CRF模型、BILSTM模型、BILSTM-CRF模型、FLAT模型和BERT-BILSTM-FLAT模型；然后利用步骤S1.1中的Resume数据集的训练集对实验中各个模型进行训练；再然后利用Resume数据集的验证集对实验中训练后的模型进行验证，得到各自的最终模型；最后利用测试集对各自模型进行测试，计算各自模型的精确率、召回率和F1值；其计算结果如下表所示：

模型	P	R	F1
				CRF	93.25	91.38	92.00
BILSTM	87.56	92.62	89.79
				BILSTM-CRF	92.81	94.47	93.60
FLAT	94.06	95.32	94.69
				BERT-BILSTM-FLAT	95.97	97.12	96.55

由上表可知，利用本方法得到的BERT-BILSTM-FLAT模型在Resume数据集上的命名实体识别效果均优于其它模型，即使与最好的FLAT模型相比较，其实体识别的F1值上也提高了1.86个百分点。

同理，根据上述实验方法使用步骤S1.1中的自行收集并标注的新闻语料数据集，即自制的数据集，对各个模型进行测试，计算各自模型的精确率、召回率和F1值；其计算结果如下表所示：

模型	P	R	F1
				CRF	91.05	89.53	90.28
BILSTM	89.99	87.93	88.89
				BILSTM-CRF	90.52	89.44	89.97
FLAT	88.98	92.37	90.64
				BERT-BILSTM-FLAT	93.08	94.06	92.11

由上表可知，利用本方法得到的BERT-BILSTM-FLAT模型在新闻语料数据集上的命名实体识别效果均优于其它模型，即使与最好的FLAT模型相比较，其实体识别的F1值上也提高了1.47个百分点。

综上，无论是使用已公开的数据集还是自制的数据集，利用本方法构建的BERT-BILSTM-FLAT模型的命名实体识别效果均优于其它模型。

本发明的具体有益效果包括：

1)本模型采取了融合了字与词特征的方法，使得模型可以获取文本中更多丰富的语义信息，提了命名实体的识别效果。

2)使用BERT编码器提取文本特征，很好地解决了传统的word2vec等方法拥有的一词多义等问题。

3)本模型使用组合模型，对比单一的模型具有更多的优点，提升了命名实体识别的准确率。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种融合字与词语特征的中文命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述获取数据集并对BERT模型进行特征提取训练，得到含有语义特征的序列向量这一步骤，具体包括：

随机选取分词文本序列的部分词进行掩码操作；

利用输入层将掩码后的分词文本序列的词转换成词向量；

3.根据权利要求2所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述全局关联权重公式的计算公式，具体如下：

4.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述根据含有语义特征的序列向量训练BILSTM模型，得到含有上下文特征的序列向量这一步骤，具体包括：

5.根据权利要求4所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述含有语义特征的序列向量按正向序列依次通过前向LSTM模型，得到前向序列向量这一步骤，具体包括：

利用输入门控制含有语义特征的序列向量的输入；

6.根据权利要求4所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述含有语义特征的序列向量按反向序列依次通过后向LSTM模型，得到后向序列向量这一步骤，具体包括：

利用输入门控制含有语义特征的序列向量的输入；

7.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述根据含有上下文特征的序列向量训练FLAT模型，得到预测的标签序列这一步骤，具体包括：

8.根据权利要求7所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述相对位置编码的计算公式，具体如下：

上式中，W_r表示可学习的参数，

表示concate操作。

9.根据权利要求7所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，所述相对跨度位置编码的计算公式，具体如下：

上式中，

都表示可学习的参数。

10.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法，其特征在于，还包括中文命名实体识别模型的识别效果检测方法，具体包括：