CN111310470A

CN111310470A - 一种融合字词特征的中文命名实体识别方法

Info

Publication number: CN111310470A
Application number: CN202010053878.7A
Authority: CN
Inventors: 桂小林; 许杏杏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-19
Anticipated expiration: 2040-01-17
Also published as: CN111310470B

Abstract

本发明公开了一种融合字词特征的中文命名实体识别方法，通过拼接字向量x^c、位置向量x^s和词的映射向量x^w构建特征表示层，作为模型的输入向量x^emb；将输入向量x^emb输入BiLSTM，得到当前时刻的上下文特征向量

对该特征向量执行非线性转换，输出待解码的得分信息P；将得分信息P输入CRF层，同时引入转移得分矩阵A，CRF根据序列的全局标签概率p(y|x)选择全局最优的标签序列，输出序列标注结果y₁,y₂,...,y_n，完成中文命名实体识别。本发明通过综合分析后得到的结果数据加强了模型对文本的理解，提高了模型识别任务中的F1值。

Description

一种融合字词特征的中文命名实体识别方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种融合字词特征的中文命名实体识别方法。

背景技术

随着互联网的飞速发展，各种社交软件，新闻媒介应运而生，导致网络上的信息越发丰富，这意味着在海量数据中快速精准地找到有效信息越来越困难。我们把网络中的文本称为自然语言，由于中文文本的组成结构，致使理解文本的前提是提取文本中的词的特征，即从非结构化文本中提取到有用的结构化数据的特征，而命名实体识别是从海量的自然语言文本中抽取如人名、地名、机构名等专有名词的任务，因此，对它的研究具有重要的研究意义和价值。

相较于英文命名实体识别，中文实体识别的研究难度更大。由于在中文文本里词语之间没有分隔符，造成了在分析文本前必须先进行分词。为了避免因为分词错误而导致识别出的实体边界错误，中文命名实体识别领域提出了通过单字进行识别，但单字识别同样存在弊端，即其未能利用文本中的词语和词语之间的特征信息。

综上所述，如何从中文文本的结构特征出发，有效的解决命名实体识别的识别准确率低的问题，是目前领域的研究人员需要解决的问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种结合字特征、位置特征和词的映射特征的中文命名实体识别方法，提高了实体识别的准确率。

本发明采用以下技术方案：

一种融合字词特征的中文命名实体识别方法，包括以下步骤：

S1、通过拼接字向量x^c、位置向量x^s和词的映射向量x^w构建特征表示层，作为模型的输入向量x^emb；

S2、将输入向量x^emb输入BiLSTM，得到当前时刻的上下文特征向量

对该特征向量执行非线性转换，输出待解码的得分信息P；

S3、将得分信息P输入CRF层，同时引入转移得分矩阵A，CRF根据序列的全局标签概率p(y|x)选择全局最优的标签序列，输出序列标注结果y₁,y₂,...,y_n。

具体的，步骤S1中，假设给定长度为N的句子{x₁,x₂,...,x_n}，每一个字x_i对应的特征表示模型输入向量

计算如下：

其中，

为字向量，

为位置向量，

为词的映射向量。

进一步的，字向量

具体为：

其中，e^c为字向量的查找表，c_i为字x_i对应的id。

进一步的，位置向量

具体为：

其中，e^s为位置向量的查找表，s_i为字x_i在所属词内位置对应的id。

进一步的，词的映射向量

具体为：

其中，x_i∈x_j，

为位置权重向量，

为以词向量

作为双向LSTM的输入而获得的上下文信息。

具体的，步骤S3中，利用softmax得到归一化的序列全局标签概率p(y|x)如下：

其中，

为所有的可能的标签的得分的指数值，score(x,y)为模型对于序列x的标签等于y的打分。

进一步的，步骤S3中，若标签序列y＝(y₁,y₂,...,y_n)，模型对于序列x的标签等于y的打分score(x,y)计算如下：

其中，

为上述BiLSTM的输出得分矩阵中的值，

为转移得分矩阵A中的值。

与现有技术相比，本发明至少具有以下有益效果：

本发明提出了一种融合字词特征的中文命名实体识别方法，综合字符特征，位置特征及词的映射特征表征字的特征，从而加深模型对中文文本的理解，大大提高了命名实体识别的准确率。由于中文文本是由词语所组成的，完全基于字符特征会导致学习的语义和语法信息不完整，不能很好的传达文本的特征，而结合了位置特征和词的映射特征则充分利用了词语及词语之间的信息，避免了因为特征表示不完整而导致理解的文本内容有偏差，最终影响模型识别的性能。本文采用的模型结构是基于字的BiLSTM-CRF，其相比于基于词的BiLSTM-CRF效果更佳，它不会因为分词错误而完全导致实体边界识错误。

进一步的，通过在字特征的基础上引入位置特征和词的映射特征来表征字的特征。在特征表示中，仅使用字的特征将导致无法获取词以及词与词之间的语义信息，通过引入位置特征，获取得到字在词中的位置信息，但是位置特征其所包含的信息是单一的，只能统一的表示词首，词中，词尾的信息。为了更全面的表达序列信息，综合考虑文本中的每个词都有可能对当前位置的标注产生影响，在以上的基础上引入词的部分映射特征，提取词及词间的具体信息，从而利于模型对序列的理解，提高模型的准确率。

进一步的，通过softmax计算序列的全局标签概率。一般来说，对于一个序列x，如果序列x的长度为n，有m个可能的标签，那么共有mⁿ个可能的标记结果。我们利用BiLSTM和CRF模型计算出每个可能的标注结果的得分，然后利用softmax归一化求出某个标注结果的概率p，并选择概率最大的作为全局最优的标注结果。

综上所述，本发明通过综合分析后得到的结果数据加强了模型对文本的理解，提高了模型识别任务中的F1值。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明模型的结构图；

图2为本发明模型中词的映射特征提取的结构图。

具体实施方式

本发明提供了一种融合字词特征的中文命名实体识别方法，特征提取层包括字的特征c，位置特征s和词的映射特征w。位置特征是提取字在所属词的位置信息，但由于该特征是抽象的，只能提取每一个字位于词首、词中和词尾的信息。而在命名实体识别的预测阶段，每个词都有可能对当前位置的标注产生影响，从而引入词的映射特征，该特征是以词中字的位置权重比例，将学习到的词的上下文的特征映射到词中的每一个字，规避了位置特征提取到的单一的词信息，进一步帮助模型理解文本信息。将拼接的字特征、位置特征和词的映射特征输入BiLSTM，得到上下文的深层次特征，对该特征执行非线性变换，获取得分矩阵。将得分矩阵输入CRF层，CRF层综合考虑得分矩阵和标签的转移得分矩阵，输出序列标注结果。

本发明一种融合字词特征的中文命名实体识别方法，包括以下步骤：

假设给定长度为N的句子{x₁,x₂,...,x_n}，每一个字x_i对应的特征表示

计算如下：

其中，

为字向量，字向量

是通过将每一个字映射为连续稠密的向量，

为位置向量，位置向量

是通过将每一个字的位置映射为连续稠密的向量，

为词的映射向量。

其中，e^c为字向量的查找表，c_i为字x_i对应的id。

其中，e^s为位置向量的查找表，s_i为字x_i在所属词内位置(词首、词中、词尾)对应的id。

其中，位置权重向量

是通过将每一个字的位置映射为连续稠密的向量，e^sw为位置权重向量的查找表，x_i∈x_j，词向量

的获取是将每一个词映射为连续稠密的向量，e^wd为词向量的查找表，wd_j为词对应的id，词的映射向量

是以每一个字的位置权重比例，对其所属词的上下文特征向量映射，

为以词向量

作为双向LSTM的输入而获得的上下文信息。

对该特征向量执行非线性转换，获取到每个字对应的各个标签的概率，输出待解码的得分信息P；

引入转移得分矩阵A，其中，A_i,j矩阵元素表示从标签i转移到标签j的得分，同时需要在句子的起始和结尾位置需要分别添加一个初始状态和终止状态。序列的全局标签概率p(y|x)的计算如下：

其中，

为所有的可能的标签的得分的指数值，p(y|x)为利用softmax得到归一化的全局标签概率。若标签序列y＝(y₁,y₂,...,y_n)，模型对于序列x的标签等于y的打分为score(x,y),

为上述BiLSTM的输出得分矩阵中的值，

为转移得分矩阵A中的值。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1，为本发明所提出模型的整体架构，主要由特征表示层、BiLSTM和CRF层三部分组成。其中，特征表示层主要由字特征c、位置特征s和词的映射特征w组成。其中字特征层、位置特征层和位置权重特征层均接收字作为输入，词特征层接收词作为输入，通过字或词的离散id获得对应的连续稠密的特征向量。词的映射特征w的提取是将词向量wd输入到BiLSTM中，得到每一个词对应的上下文特征，同时将该上下文特征与词中所属字的位置权重特征sw按位乘。然后，将字向量c、词的映射向量w和位置向量s拼接以表示单字在特定语义空间下的特征。随后将拼接后的特征作为BiLSTM的输入，得到BiLSTM输出的得分矩阵，并以此作为CRF层的输入，CRF层综合考虑BiLSTM输出的得分矩阵和上下文标签的转移矩阵，输出序列标注结果y₁,y₂,...,y_n。

本发明实验数据来自于98年的人民日报中文新闻语料库，验证模型在中文命名实体识别研究领域内的有效性。实验中以中文语料库中的80％作为训练数据集，10％作为验证集，剩下的约10％作为测试集。训练集语料包括15000条中文文本句子，由于中文语料包含的信息量较多，处理它的复杂度较大，所以在中文命名实体识别之前需要预处理数据。

在前期为了规避数字对文本的影响，将文本的所有的数字以*代替。人民日报中的实体包括人名(PER)、地名(LOC)、机构名(ORG)3类实体。其模型训练的步骤如下：

S1、获取字特征、位置特征和词的映射特征，并将其拼接构建特征表示层；

S2、将特征表示层的特征输入BiLSTM，经过BiLSTM得到上下文特征，对该特征执行非线性变换，得到得分矩阵；

S3、将得分矩阵输入CRF层，CRF层综合考虑得分矩阵和标签的转移得分矩阵，输出序列标注结果y₁,y₂,...,y_n。

按照上述步骤，将本发明分别与常用的模型即基于字特征的BiLSTM-CRF、基于字和位置特征的S-BiLSTM-CRF和基于字、位置和词的映射特征的W-S-BiLSTM-CRF进行对比。对比结果表明本发明所提出的模型在性能上优于常用的命名实体识别模型。

表1本发明模型和其他对比模型在人民日报数据集上的实验结果

	c-dim	s-dim	w-dim	ORG	PER	LOC	F1
								BiLSTM-CRF	300	20	无	87.92	92.17	90.35	90.50
S-BiLSTM-CRF	300	20	无	89.47	93.58	91.72	91.91
								W-S-BiLSTM-CRF	300	20	300	90.66	94.08	92.24	92.57

实验结果表明：

通过将本发明的模型与当前已有的流行模型对比，其整体的F1值提高。如表1所示。可以看出，本发明模型在针对处理中文文本任务时可以提高命名实体识别的准确率。

综上所述，本发明在文本语义理解和识别准确率方面都有着很大的提升。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。