CN110032634A

CN110032634A - 一种基于多类型深度特征的中文命名实体识别方法

Info

Publication number: CN110032634A
Application number: CN201910310766.2A
Authority: CN
Inventors: 罗森林; 尹继泽; 吴舟婷; 潘丽敏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-19

Abstract

本发明涉及一种基于多类型深度特征的中文命名实体识别方法，属于计算机与信息科学技术领域。本发明首先依据公开且已训练好的字符向量表，将非结构化文本中的字符替换为数值向量；其次分别提取字符级数值向量序列中的文本序列特征、字符重要度特征和上下文重要度特征；然后将每个字符对应的三个特征向量串联成一个特征向量，用线性链式条件随机场对其进行标注；最后将非结构化文本和标签序列对齐，使字符和标签按顺序一一对应，根据标签获得命名实体，表示为“实体——类别”对。本发明在Microsoft Research Asia中文命名实体识别语料上进行实验，结果表明通过引入软注意力模型和上下文注意力模型，实现了对字符重要度特征和上下文重要度特征的利用，提高了F1值。

Description

一种基于多类型深度特征的中文命名实体识别方法

技术领域

本发明涉及一种基于多类型深度特征的中文命名实体识别方法，属于计算机与信息科学技术领域。

背景技术

中文命名实体识别技术可以从非结构化中文文本中，抽取指定类别的实体，形成结构化的“实体——类别”对作为输出。为了解决现有中文命名实体识别方法缺少对字符重要度特征和上下文重要度特征的利用问题，需要针对非结构化中文文本缺少明确的词边界、以字符为基本单元的特点研究基于多类型深度特征的中文命名实体识别技术。因此，本发明将提供一种基于多类型深度特征的中文命名实体识别方法来提高系统在中文文本上识别命名实体的能力。

基于多类型深度特征的中文命名实体识别方法需要解决的基本问题是：从非结构化中文文本中，抽取指定类别的实体，形成结构化的“实体——类别”对作为输出。综观现有的中文命名实体识别方法，具体包括以下几种：

1.基于手工特征的方法

Chen等人于2006年使用一元语法、二元语法和类型特征来辅助分类器识别命名实体。到了2015年，Han等人同样使用一元和二元语法特征，表明某些手工特征确实有益于中文命名实体识别。然而，手工特征需要耗费大量人力和时间去构造和筛选，且不能随着语言环境的变化自动调节。目前，使用计算机自动获取特征是一种更好的途径。

2.基于神经网络自动提取特征的方法

神经网络自动提取特征的过程由计算机完成。Lu等设计的位置敏感skip-gram模型可以提取多原型中文字符级别特征。Zheng等人提供的神经网络结构联合提取字符特征和上下文特征。Cao等人使用双向长短时记忆和自注意力模型搭建对抗迁移学习框架，该框架充分使用任务共享的词边界信息并阻止来自中文分词的任务特殊特征。Yang等人应用卷积神经网络来提取n元语法特征。神经网络自动提取特征的限制在于神经网络的结构对结果的影响。

3.基于神经网络和额外知识的方法

Zhang和Yang通过提出lattice神经网络模型，将词信息引入到字符级别命名实体识别中。Peng和Dredze基于长短时记忆——条件随机场，提出针对中文分词和中文命名实体识别任务的联合训练模型，引入词边界信息到命名实体识别任务中。He和Sun使用双向长短时记忆-max margin神经网络提取特征，同时将领域外语料作为额外知识引入，以提升领域内结果。然而，额外知识意味着额外的工作，会降低方法的实际运行效率。

综上所述，现有中文命名实体识别方法缺少对字符重要度特征和上下文重要度特征的利用，所以本发明提出一种基于多类型深度特征的中文命名实体识别方法。

发明内容

本发明的目的是为缓解现有方法缺少对字符重要度特征和上下文重要度特征的利用问题，以提高中文命名实体识别的综合性能，提出一种基于多类型深度特征的中文命名实体识别方法。

本发明的设计原理为：首先通过查找一个训练好的字符向量表，替换输入的非结构化文本中每一个字符为数值向量；接下来，字符向量序列分别经过三种特征提取模型的处理，得到对应的特征向量序列，分别包含文本序列特征、字符重要度特征和上下文重要度特征；然后，将每个字符对应的三种特征向量串联为一个向量，即三个特征向量序列合并为一个串联后的特征向量序列；一个线性链式条件随机场对串联后的特征向量序列进行标注，得到标签序列；最后通过比对非结构化文本和标签序列，输出文本中的命名实体，具体表示为结构化的“实体——类别”对。

本发明的技术方案是通过如下步骤实现的：

步骤1，对非结构化文本进行预处理。

步骤1.1，获取公开的、已训练好的字符向量表。

步骤1.2，依次选择非结构化文本中的字符，到字符向量表中查找字符并将其替换为对应的向量。

步骤2，提取字符向量序列的特征。

步骤2.1，字符向量序列依次经过两个BLSTM的处理，提取文本序列特征。

步骤2.2，字符向量序列依次经过一个BLSTM和一个软注意力模型的处理，提取字符重要度特征。

步骤2.3，字符向量序列依次经过一个BLSTM和一个上下文注意力模型的处理，提取上下文重要度特征。

步骤3，串联特征向量并进行标注。

步骤3.1，将每个字符对应的三个特征向量串联成一个特征向量。

步骤3.2，用线性链式条件随机场对串联后的特征向量序列进行标注。

步骤4，对非结构化文本和标签序列进行后处理。

步骤4.1，将非结构化文本和标签序列对齐，使字符和标签按顺序一一对应。

步骤4.2，根据标签获得命名实体，表示为“实体——类别”对。

有益效果

相比于现有的中文命名实体识别方法，本发明有效缓解现有方法缺少对字符重要度特征和上下文重要度特征的利用问题。

附图说明

图1为本发明一种基于多类型深度特征的中文命名实体识别方法的原理图。

图2为软注意力模型的原理图。

图3为上下文注意力模型的原理图。

具体实施方式

为了更好地说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，对非结构化文本进行预处理。

步骤1.1，采用Peng和Dredze提供的字符向量表。表中不同的字符对应不同的数值向量，同一个字符不会对应两个及两个以上的数值向量。经统计，存在23992个字符，对应的数值向量有100维。对于字符向量表没有的字符，使用“</s>”来替代它们，并赋予其不同于其他字符的数值向量。

步骤1.2，依次选择非结构化文本中的字符，到字符向量表中查找字符并将其替换为对应的向量，得到数值向量序列作为输出。

步骤2，提取字符向量序列的特征。

步骤2.1，一个BLSTM包括两个LSTM：前向LSTM和后向LSTM。前向LSTM以顺序处理序列数据，而后向LSTM以逆序处理序列数据。序列数据中每一个元素对应的前向LSTM和后向LSTM输出的串联即为BLSTM的输出。

LSTM是一种经过特殊设计的，能够处理前一时刻输出和当前时刻输入的神经网络模型。LSTM中的cell负责连接其他功能结构，帮助记忆更早的信息，使得LSTM善于处理长文本。除cell外，LSTM还包含输入门、遗忘门和输出门。输入门控制进入cell的信息，如式1所示。

i_t＝σ(W_viv_t+W_hih_t-1+W_cic_t-1+b_i) (1)

其中i_t表示输入门当前的状态，σ为sigmoid函数，v_t为当前的输入，h_t-1为前一时刻的输出，c_t-1为前一时刻cell的状态，而W_vi、W_hi和W_ci为权重，b_i为偏置值。

遗忘门控制cell保留部分信息，如式2所示。

f_t＝σ(W_vfv_t+W_hfh_t-1+W_cfc_t-1+b_f) (2)

其中f_t表示遗忘门当前的状态，W_vf、W_hf和W_cf为权重，b_f为偏置值。

因此，当前cell的状态c_t如式3所示。

c_t＝f_tc_t-1+i_ttanh(W_vcv_t+W_hch_t-1+b_c) (3)

其中tanh表示双曲正切函数，W_vc和W_hc为权重，b_c为偏置值。

输出门控制cell输出部分信息，如式4所示。

o_t＝σ(W_vov_t+W_hoh_t-1+W_coc_t+b_o) (4)

其中o_t表示输出门当前的状态，W_vo、W_ho和W_co为权重，b_o为偏置值。

最终LSTM输出的信息h_t如式5所示。

h_t＝o_ttanh(c_t) (5)

实验发现，字符向量序列依次经过两个BLSTM的处理，提取文本序列特征的效果较好。

步骤2.2，基于点乘的软注意力模型如式6所示。

Attention(Q，K，V)＝softmax(QK^T)V (6)

本发明使用的软注意力模型为Attention(QW_Q，KW_K，VW_V)，其中Q、K和V都是输入向量序列构成的矩阵，W_Q、W_K和W_V为权重。

实验发现，字符向量序列依次经过一个BLSTM和一个软注意力模型的处理，提取字符重要度特征的效果较好。

步骤2.3，上下文注意力模型和步骤2.2中提到的软注意力模型的差别在于，先计算softmax(QK^T)和一个mask矩阵的哈达玛积，然后再将此积乘以V。mask矩阵的大小为文本长度*文本长度，且除对角线上的元素为0，其它元素为1。

同步骤2.2，字符向量序列依次经过一个BLSTM和一个上下文注意力模型的处理，提取上下文重要度特征。

步骤3，串联特征向量并进行标注。

步骤3.1，经过步骤2的处理，文本中每个字符对应三种特征向量，即文本序列特征向量、字符重要度特征向量和上下文重要度特征向量。这三种特征向量串联起来，使每个字符只对应一个特征向量。

步骤3.2，线性链式条件随机场接受观测变量序列x＝{x₁，x₂，...，x_n}，依赖构造好的条件概率函数P(y|x)进行判别，得到标签变量序列y＝{y₁，y₂，...，y_n}。因此，用线性链式条件随机场对串联后的特征向量序列进行标注，得到文本中每个字符对应的标签。

步骤4，对非结构化文本和标签序列进行后处理。

步骤4.2，根据标签可知一个字符是否属于某个命名实体，如果属于，它是位于实体的开头、中间还是结尾。通过组合属于同一实体类型的连续字符，得到命名实体，以“实体——类别”对的形式进行输出。

测试结果：基于多类型深度特征的中文命名实体识别方法，在MicrosoftResearch Asia(MSRA)中文命名实体识别语料(2006年第三届国际中文语言处理评测发布的面向简体中文命名实体识别评测任务公开语料)上进行中文命名实体识别方法的对比实验，对比方法包括Zheng等人分别于2016年和2017年提出的方法。本发明优于Zheng等人提出的方法，实现了对字符重要度特征和上下文重要度特征的利用，结果如表1所示，有效实现了中文命名实体识别。

表1对比实验结果

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多类型深度特征的中文命名实体识别方法，其特征在于所述方法包括如下步骤：

步骤1，对非结构化文本进行预处理，包括：获取公开的、已训练好的字符向量表，然后依次选择非结构化文本中的字符，到字符向量表中查找字符并将其替换为对应的向量；

步骤2，提取字符向量序列的特征，包括：让字符向量序列通过两个BLSTM的处理提取文本序列特征，通过一个BLSTM和一个软注意力模型的处理提取字符重要度特征，通过一个BLSTM和一个上下文注意力模型的处理提取上下文重要度特征；

步骤3，串联特征向量并进行标注，包括：将每个字符对应的三个特征向量串联成一个特征向量，用线性链式条件随机场对串联后的特征向量序列进行标注；

步骤4，对非结构化文本和标签序列进行后处理，包括：将非结构化文本和标签序列对齐，使字符和标签按顺序一一对应，根据标签获得命名实体，表示为“实体——类别”对。

2.根据权利要求1所述的一种基于多类型深度特征的中文命名实体识别方法，其特征在于：步骤2中提取字符重要度特征时，字符向量序列依次经过一个BLSTM和一个软注意力模型的处理，基于点乘的软注意力模型如式1所示

Attention(Q，K，V)＝softmax(QK^T)V (1)

3.根据权利要求1所述的一种基于多类型深度特征的中文命名实体识别方法，其特征在于：步骤2中提取上下文重要度特征时，字符向量序列依次经过一个BLSTM和一个上下文注意力模型的处理。

4.根据权利要求1所述的一种基于多类型深度特征的中文命名实体识别方法，其特征在于：步骤2中提取上下文重要度特征时，上下文注意力模型和本发明使用的软注意力模型的差别在于，先计算softmax(QK^T)和一个mask矩阵的哈达玛积，然后再将此积乘以V，mask矩阵的大小为文本长度*文本长度，且除对角线上的元素为0，其它元素为1。