CN111651993A

CN111651993A - 融合局部-全局字符级关联特征的中文命名实体识别方法

Info

Publication number: CN111651993A
Application number: CN202010394579.XA
Authority: CN
Inventors: 罗森林; 尹继泽; 吴舟婷; 潘丽敏; 吴倩
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-11

Abstract

本发明涉及融合局部‑全局字符级关联特征的中文命名实体识别方法，属于计算机与信息科学技术领域。本发明首先将一段非结构化中文文本转化为一个初始数值向量序列；其次提取其中的字符级序列特征和局部‑全局字符级关联特征，形成特征向量序列；然后使用一个线性链式条件随机场对特征向量序列进行序列标注，得到标签序列；最后根据非结构化中文文本和标签序列，输出“实体&类别”对。本发明分别在Microsoft Research Asia和E‑commerce中文命名实体识别语料上进行实验，结果表明通过引入字符级序列特征和局部‑全局字符级关联特征，有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题，提高了F1值。

Description

融合局部-全局字符级关联特征的中文命名实体识别方法

技术领域

本发明涉及融合局部-全局字符级关联特征的中文命名实体识别方法，属于计算机与信息科学技术领域。

背景技术

中文命名实体识别技术可以从非结构化中文文本中，判定实体的边界和实体的类别，形成结构化的“实体&类别”对作为输出。为了解决现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题，需要针对中文是以字符为基本单元的特点，研究融合局部-全局字符级关联特征的中文命名实体识别技术。因此，本发明将提供融合局部-全局字符级关联特征的中文命名实体识别方法来提高系统在非结构化中文文本上识别命名实体的能力。

融合局部-全局字符级关联特征的中文命名实体识别方法需要解决的基本问题是：从非结构化中文文本中，判定实体的边界和实体的类别，形成结构化的“实体&类别”对作为输出。综观现有的中文命名实体识别方法，具体包括以下几种：

1.基于人工特征的方法。

人工特征即由研究人员基于特征工程方法设计得到。Chen等人于2006年使用一元语法、二元语法和类型特征来辅助分类器识别命名实体，而Han等人于2015年同样使用一元和二元语法特征。这表明某些人工特征确实有益于中文命名实体识别。然而，构造和筛选特征需要耗费大量人力和时间，且人工特征不能根据语言环境的变化进行自动调整。目前，基于计算资源和算法从语料中自动提取特征是一种更好的途径。

2.基于神经网络自动提取特征的方法。

神经网络自动提取特征的过程由计算机完成。Lu等设计的位置敏感skip-gram模型可以提取多原型中文字符级别特征。Zheng等人提供的神经网络结构联合提取字符特征和上下文特征。Yang等人应用卷积神经网络来提取n元语法特征。神经网络自动提取特征的限制在于神经网络结构对结果的影响难以详细解释。

3.基于神经网络和额外知识的方法。

神经网络自动提取特征和将额外知识转化为特征的过程均由计算机完成。Zhang和Yang提出lattice神经网络模型，将词和词序列信息作为额外知识引入到字符级别命名实体识别中。Peng和Dredze基于长短时记忆——条件随机场，提出针对中文分词和中文命名实体识别任务的联合训练模型，将词边界信息作为额外知识引入到命名实体识别任务中。Cao等人使用双向长短时记忆和自注意力模型搭建对抗迁移学习框架，充分使用额外知识——任务共享的词边界信息，并阻止中文分词任务特殊特征影响命名实体识别模型的训练。He和Sun使用双向长短时记忆-max margin神经网络提取特征，同时将领域外语料视为额外知识，进行跨领域学习，提升命名实体识别模型在领域内的效果。然而，额外知识意味着额外的计算开销，会降低方法的实际运行效率。

综上所述，现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界，所以本发明提出融合局部-全局字符级关联特征的中文命名实体识别方法。

发明内容

本发明的目的是为缓解现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题，以提高中文命名实体识别的综合性能，提出融合局部-全局字符级关联特征的中文命名实体识别方法。

本发明的设计原理为：首先查找字符-数值向量表，替换非结构化中文文本中的每一个字符为初始数值向量；接下来，初始数值向量序列经过一种特征提取模型的处理，得到对应的特征向量序列；然后，使用一个线性链式条件随机场对特征向量序列进行序列标注，得到标签序列；最后通过后处理，输出非结构化中文文本中的命名实体，表示为结构化的“实体&类别”对。

本发明的技术方案是通过如下步骤实现的：

步骤1，对非结构化中文文本进行字符-数值向量表查找。

步骤1.1，获取公开的基于语言模型训练的字符-数值向量表。

步骤1.2，依次选择非结构化中文文本中的字符，到字符-数值向量表中查找字符对应的数值向量并进行替换，将一段中文文本转化为一个初始数值向量序列。

步骤2，提取初始数值向量序列的特征。

步骤2.1，使用双向长短时记忆处理初始数值向量序列，再使用另一个双向长短时记忆处理前一个双向长短时记忆的输出，输出字符级序列特征向量序列。

步骤2.2，使用若干个注意力头同时处理初始数值向量序列，对结果进行字符级串联，再使用一个非线性神经网络层进行处理，输出全局字符级关联特征向量序列。

步骤2.3，使用卷积注意力网络(CAN)处理初始数值向量序列，输出局部-全局字符级关联特征向量序列。

步骤2.4，将步骤2.1、步骤2.2和步骤2.3的输出在字符级别上串联，获得特征向量序列。

步骤3，标注串联后的特征向量序列。

步骤3.1，使用一个线性链式条件随机场对串联后的特征向量序列进行标注，得到标签序列。

步骤4，对非结构化中文文本和标签序列进行后处理。

步骤4.1，将非结构化中文文本和标签序列对齐，即字符和标签按前后顺序一一对应。

步骤4.2，根据标签判定命名实体，以“实体&类别”对的形式输出。

有益效果

相比于现有的中文命名实体识别方法，本发明有效缓解现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题。

附图说明

图1为本发明融合局部-全局字符级关联特征的中文命名实体识别方法的原理图。

具体实施方式

为了更好地说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，对非结构化中文文本进行字符-数值向量表查找。

步骤1.1，使用Peng和Dredze提供的字符-数值向量表。表中不同的字符对应不同的数值向量，不存在同一个字符对应两个及两个以上数值向量的情况。经统计，表中存在23992个字符，对应的数值向量均为100维。对于表中没有出现的字符，使用“＜/s＞”来替代它们，并赋予“＜/s＞”不同于其他字符的数值向量。

步骤2，提取初始数值向量序列的特征。

步骤2.1，提取字符级序列特征。使用双向长短时记忆处理初始数值向量序列，再使用另一个双向长短时记忆处理前一个双向长短时记忆的输出。一个双向长短时记忆包括前向和反向两个长短时记忆。前向长短时记忆以顺序(从左到右)处理序列数据，而反向长短时记忆以逆序(从右到左)处理序列数据。序列数据中每一个元素对应的前向长短时记忆和反向长短时记忆输出的串联结果即为双向长短时记忆的输出。

长短时记忆是一种经过特殊设计的神经网络模型，接受前一时刻输出h_t-1和当前时刻输入v_t，经过输入门、遗忘门、cell和输出门的处理得到当前时刻输出。

输入门控制进入cell的信息，其在当前时刻的状态i_t如式1所示。

i_t＝σ(W_viv_t+W_hih_t-1+W_cic_t-1+b_i) (1)

其中σ为sigmoid函数，c_t-1为前一时刻cell的状态，W_vi、W_hi和W_ci为权重，b_i为偏置值。

遗忘门控制cell保留和遗忘的信息，其在当前时刻的状态f_t如式2所示。

f_t＝σ(W_vfv_t+W_hfh_t-1+W_cfc_t-1+b_f) (2)

其中W_vf、W_hf和W_cf为权重，b_f为偏置值。

cell负责连接其他功能结构(输入门、遗忘门和输出门)，其在当前时刻的状态c_t如式3所示。

c_t＝f_tc_t-1+i_ttanh(W_vcv_t+W_hch_t-1+b_c) (3)

其中tanh表示双曲正切函数，W_vc和W_hc为权重，b_c为偏置值。

输出门控制cell应该输出的部分信息，其在当前时刻的状态o_t如式4所示。

o_t＝σ(W_vov_t+W_hoh_t-1+W_coc_t+b_o) (4)

其中W_vo、W_ho和W_co为权重，b_o为偏置值。

最终，长短时记忆的当前时刻输出h_t如式5所示。

h_t＝o_ttanh(c_t) (5)

步骤2.2，提取全局文本中所有字符与目标字符间的关联特征。使用若干个注意力头同时处理初始数值向量序列，每个注意力头是一个基于点乘的软注意力模型Attention(QW_Q，KW_K，VW_V)，具体如式6所示。

Attention(QW_Q，KW_K，VW_V)＝softmax(QW_Q(KW_K)^T)VW_V (6)

其中Q、K和V都是初始数值向量序列构成的矩阵，W_Q、W_K和W_V为权重。

然后，若干个注意力头处理后的结果在字符级别上进行串联，如式7所示。

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中

和W^O是权重。

最后，使用一个非线性神经网络层进行后续处理，计算字符级关联特征向量序列对应的矩阵O，如式8所示。

O＝LeakyReLU(MultiHead(Q，K，V)W^N+b^N)+MultiHead(Q，K，V) (8)

其中，使用leaky ReLU函数作为激活函数，W^N为权重，b^N为偏置值。

步骤2.3，提取局部-全局文本中所有字符与目标字符间的关联特征。使用卷积注意力网络(CAN)处理初始数值向量序列，对于中文命名实体识别，输入的句子为X_i＝{x_i，1，x_i，2，x_i，3，...，x_i，τ}，其中

表示句子X_i中第τ个字符，d_e是输入嵌入的维度。句子标签序列Y_i＝{y_i，1，y_i，2，y_i，3，...，y_i，τ}，其中

即y_i，τ属于所有可能标签的集合。

对输入的句子进行编码，把局部文本中的意义相关字符组合起来。将位置嵌入组合到对应的训练好的字符嵌入后面，保持在局部窗口中的序列关系。位置嵌入的维度等于窗口大小k，位置嵌入中与字符在窗口中的位置对应的那一维的值是1，其他维的值是0。

在大小为k的窗口内应用局部注意力，捕获目标字符和窗口内每个字符间的关系。设隐层维度为d_h，对于第j个字符，局部注意力将所有的组合嵌入

作为输入，输出对应的隐向量

隐向量的计算方式为

s(x_j，x_k)＝v^Ttanh(W₁x_j+W₂x_k) (11)

其中

依次使用窗口大小为k、包含d_h个卷积核的卷积神经网络(CNN)和一个sum-pooling层进行处理，得到

其中

而

*代表元素乘，

是隐向量

的组合。

然后，使用一个双向门控循环单元(BiGRU)处理

是BiGRU前一时刻的隐状态，

是参数。

最后，经过一个全局注意力层的处理得到

作为输出。

其中

与前面的相同。

步骤3，标注串联后的特征向量序列。

步骤3.1，使用一个线性链式条件随机场对串联后的特征向量序列X＝{x₁，x₂，...，x_n}进行标注，得到标签序列Y＝{y₁，y₂，...，y_n}。

模型训练时，基于线性链式条件随机场构造条件概率函数P(Y|X)，使用RMSProp算法进行优化。模型训练完成后，使用维特比算法将串联后的特征向量序列解码为标签序列。涉及超参数的具体设置如表1所示。

表1不同语料对应的超参数设置

步骤4，对非结构化中文文本和标签序列进行后处理。

步骤4.2，根据标签(BIESO)可知一个字符是否属于某个命名实体，如果属于，它是位于实体的开头、中间还是结尾。组合归属于同一类别命名实体的连续字符，以“实体&类别”对的形式输出。

测试结果：融合局部-全局字符级关联特征的中文命名实体识别方法，在Microsoft Research Asia(MSRA)中文命名实体识别语料(2006年第三届国际中文语言处理评测发布的面向简体中文命名实体识别评测任务公开语料)上进行中文命名实体识别方法的对比实验，对比方法包括Zheng等人分别于2016年和2017年提出的方法；同时在E-commerce(EC)中文命名实体识别语料上进行中文命名实体识别方法的对比实验，对比方法包括Yang等人于2018年提出的方法。本发明分别在MSRA和EC中文命名实体识别语料上优于Zheng等人和Yang等人提出的方法，不依赖词级别特征，实现了对字符级序列特征和局部-全局字符级关联特征的利用，结果如表2和表3所示，有效实现了中文命名实体识别。

表2 MSRA语料对比实验结果

表3 EC语料对比实验结果

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。