CN114077838A

CN114077838A - 一种基于词表示特征的命名实体识别方法及电子装置

Info

Publication number: CN114077838A
Application number: CN202010825717.5A
Authority: CN
Inventors: 孙立远; 万欣欣; 李欣; 赵忠华; 付培国; 王禄恒; 张磊; 田正鑫; 郝冰川
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-02-22

Abstract

本发明提供一种基于词表示特征的命名实体识别方法及电子装置，包括：对待检测文本进行分词，获取各词语的基础特征；将各词语组成一词语序列，并对每一词语进行编码，提取编码结果的词嵌入特征；根据词语序列的设定权重与设定主题，生成一词向量序列，提取词向量序列的词表示特征；将基础特征、词嵌入特征及词表示特征输入一实体识别模型，获取待检测文本中的命名实体。本发明采用了word2vec训练的词嵌入及LSTM训练的词表示，捕获了语句的长期依赖性，充分的利用了长距离上下文信息对命名实体进行识别，相对于传统模型有较好的改进，提高了微博命名实体的识别的准确率。

Description

一种基于词表示特征的命名实体识别方法及电子装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于词表示特征的命名实体识别方法及电子装置。

背景技术

随着互联网的发展，Twitter、腾讯微博、新浪微博等社交网络服务逐渐兴起。用户不仅是信息的查看者，而且还是信息的广播者。互联网已经从信息发布平台转变为交互式通信平台。考虑到微博文本简短，发布简短，易于阅读，方便共享和迅速传播的特点，由微博提供支持的大量信息具有重要价值。

在微博平台上，用户谈论各种事情，例如政治，体育，新闻，产品等。用户将微博要分享的内容重新发布给朋友，评论微博中他们感兴趣的内容并给出喜欢他们的。因此，从大量的微博帖子中识别命名实体是实现舆论监督和商业智能的基础和前提。

目前，传统中文语料中使用的实体识别方法仍然用于从微博中识别命名实体。但是，这些方法存在难以制定合适识别标准、遗漏和缺乏考虑上下文信息的问题。最重要的是这些方法仅考虑上下文窗口中的单词，而不考虑句子中长期依赖的信息，而微博命名实体的识别包括人员姓名，位置名称，组织名称，日期，时间、复合机构名称等属性组成。与传统文本语料相比，微博文本包含过多的干扰词，包括表情符号，流行的表情符号，URL等。同时由于中文语句特性复杂，中文媒体文本的命名实体识别要比英文困难。

与大多数自然语言处理技术一样，命名实体识别的方法主要分为两大类基于规则的方法和基于统计的方法。较早的命名实体识别方法多采用手工构造有限状态机的方法，以模式和字符串相匹配。但是基于规则的方法缺乏鲁棒性和可移植性，对于每个新领域的文本都需要更新规则来保持最优性能，而这需要大量的专门知识和人力，代价往往非常大。

而基于统计的方法主要有隐马尔可夫(HMM)方法，决策树方法等等。在对这些方法的评价中，HMM的性能是普遍认为比较好的，主要原因是它能较好地捕获命名实体的特征现象和位置，而且由于经典的维特比算法在求取最佳状态序列的高效性，使得HMM在该领域中的应用越来越频繁。但是，由于基于统计的方法获取的概率知识总是赶不上人类专家的专业知识的可靠性，而且有些知识获取必需专家的经验，因此基于统计系统的性能要比基于规则的系统性能偏低。

中国专利申请CN109902307A公开了一种命名实体识别方法、命名实体识别模型的训练方法及装置，但其将LSTM作为实体识别模型第一个网络层是完全不一样的，使用的特征少，造成了命名实体的不准确。

发明内容

为解决上述问题，本发明提供一种基于词表示特征的命名实体识别方法及电子装置，通过将各词语的基础特征、word2vec训练的词嵌入与LSTM训练的词表示结合在一起，从而达到融合上下文信息的目的，准确高效地识别出命名实体。

为达到上述目的，本发明的技术方案如下：

一种基于词表示特征的命名实体识别方法，其步骤包括：

1)对待检测文本进行分词，获取各词语的基础特征；

2)将各词语组成一词语序列，并对每一词语进行编码，提取编码结果的词嵌入特征；

3)根据词语序列的设定权重与设定主题，生成一词向量序列，提取词向量序列的词表示特征；

4)将基础特征、词嵌入特征及词表示特征输入一实体识别模型，获取待检测文本中的命名实体；

其中，通过以下步骤得到实体识别模型：

a)采集若干样本文本，得到一语料库；

b)获取语料库中每一样本文本的样本基础特征、样本词嵌入特征及样本词表示特征；

c)将各样本文本的样本基础特征、样本词嵌入特征及样本词表示特征输入一级联条件随机场模型并进行训练，得到实体识别模型。

进一步地，所述待检测文本包括中文微博。

进一步地，所述基础特征包括单词特征、词性特征、字母特征和数字特征。

进一步地，通过word2vec的skip-gram模型，提取编码结果的词嵌入特征。

进一步地，将所述词向量序列输入一递归神经网络，提取词向量序列的词表示特征。

进一步地，所述递归神经网络包括长短期记忆网络。

进一步地，实体识别模型的最底部条件随机场模型输出简单命名实体，其它条件随机场模型输出组合型复杂命名实体。

进一步地，简单命名实体包括：地域名称和人名；组合型复杂命名实体包括：机构名称和公司名称。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的优点在于：

1)采用了word2vec训练的词嵌入及LSTM训练的词表示，捕获了语句的长期依赖性，充分的利用了长距离上下文信息对命名实体进行识别；

2)不同的特征被集成到级联条件随机场中，以识别不同命名实体，相对于传统模型有较好的改进，提高了微博命名实体的识别的准确率。

附图说明

图1级联条件随机场模型的结构示意图。

图2 LSTM网络的结构示意图。

图3本发明一实施例的命名实体识方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明对基于情感对象识别和情感规则的微博倾向性分析方法和步骤进一步详细说明。

本发明的基于词表示特征的中文微博命名实体识方法，在这一部分中，将对长短时记忆网络(LSTM)、word2vec和级联条件随机场进行说明，并提出一种混合标记架构，将LSTM和word2vec训练的特征添加到级联CRF模型中，以提高微博命名实体识别的效果。长短时记忆网络(LSTM)由Jürgen Schmidhuber于1997年发明，word2vec是Google公司开源的词向量训练模型，有两种训练模式，Skip Gram和CBOW(constinuous bags ofwords)，其中Skip Gram根据目标单词预测上下文，CBOW根据上下文预测目标单词，最后使用模型的部分参数作为词向量。级联条件随机场模型是两个条件随机场模型的串行组合。

根据本发明的第一个方面，首先条件随机场(CRF)是典型的命名实体识别模型，CRF优于最大熵马尔科夫模型(MEMM)和隐马尔可夫模型(HMM)。条件随机场Lafferty J在2001提出，这是一个建立概率模型以分割和标记序列数据的框架。命名实体识别实际上是一个序列标记问题，对于长度为n的输入句子o＝o₁，o₂，...，o_n，它被视为可观测单词序列。对于输出状态序列s＝s₁，s₂，...，s_n，它对应于分配给输入序列X中单词的标签，序列S中每个元素对应于标签I，标签I限于长度为k的一组有限标号。给定输入序列O的S概率的定义如下：

其中，t_k定义在特征函数的边缘，称为传递特性，并依赖于先前位置和当前位置。w_l定义在特征函数的节点上，该函数称为状态特征，并取决于当前位置。r_k和u_k是每一个特征函数的学习权重。z(o)是状态序列的归一化因子。

命名实体有时候相对复杂，为了解决复杂情况的命名实体识别，采用级联条件随机场模型来识别微博命名实体。级联条件随机场模型是通过使用多个简单的叠加模型，使用跨越这些简单模型方式的线性组合来构建的。级联条件随机场各层之间的耦合度很低，并且每一层都可以单独训练并建立模型。级联的条件随机场模型如图1所示，底部低端CRF模型可识别地域名称、人名等其他简单实体，然后将结果传递给高级模型并支持高级模型的决策，以识别复杂的组合型复杂命名实体，如机构名称、公司名称等。低端模型产生的错误标签可以在高端模型中进行一定的调整和纠正，从而提高了识别命名实体复杂结构的效果。

根据本发明的第二个方面，单词表示中包含的上下文信息可以在某种程度上弥补缺少的微博上下文信息的不足，从而更好地为微博提供自然语言处理任务。到目前为止，许多方法已经利用词嵌入来改进命名实体识别系统，并且认为词嵌入可以基于不同的权重用多个主题将每个单词表示为一个向量。由word2vec训练的单词表示的公式如下：

word＝{v_i|v_i＝(r₁，r₂，r₃...r_k)，0≤i≤N}

其中，表示第v_i表示i单词的词向量，γ_i表示第k维度的权重，词汇长度为N。训练中文文本的单词嵌入并非易事，首先需要分割中文单词，而不是直接训练汉字。在本方法中，使用word2vec的skip-gram模型和负采样来对单词进行预训练，训练出词嵌入将用作添加到级联CRF模型中的新特征。

根据本发明的第三个方面，递归神经网络(RNN)是一种特殊的深度神经网络体系结构。与前馈神经网络(FNN)不同，隐藏层神经元之间包含递归连接，这使得递归神经网络可能具有较深的深度网络，从而使该网络可以有效地处理输入序列的依存关系。在实践中，RNN无法学习长期的依赖关系，因此训练时面临梯度消失的问题。长短期记忆(LSTM)网络是一种特殊的递归神经网络结构，LSTM单元的网络结构如图2所示，由Jürgen Schmidhuber于1997年发明，长短时记忆神经网络LSTM(Long Short–Term Memory)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据算法来判断是否有用，只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。它通过在网络中添加三个特定的存储单元来解决由于梯度消失而引起的问题，并且证明了可以捕获远程依赖。公式如下：

输入门

遗忘门

节点

输出门

节点输出

其中激活函数f表示控制门，激活函数g和h分别表示单元的输入和输出。w表示权重，

表示当前时刻节点信息，t表示当前时刻，

表示遗忘门，l表示输入门，w表示输出门，c表示节点,I表示网络有I个输入单元，H个隐含单元，C个输出单元,b为隐单元信息，s为输出单元信息。

给定一个包含n数量单词的输入序列x＝x₁，x₂，...，x_n，每个单词由word2vec生成一个多维词向量，该模型将返回一个序列b＝b₁，b₂，...，b_n，该序列每个单词都包含句子的当前词语上文信息，像词嵌入一样，可以将此模型的输出—词表示作为新特征添加到级联CRF实体识别模型中。

本发明的命名实体识方法流程图如图3所示。首先是基于微博语料库训练命名实体识别模型，然后在微博数据预处理之后将提取的特征输入级联条件随机场中训练模型，其次对待提取的微博数据进行数据预处理和特征提取，最后输入训练好的实体识别模型完成微博命名实体识别。

直接影响模型有效性的特征选择对于命名实体识别模型极为重要。因此，选择识别微博命名实体的特征如下所示：

1.单词特征：语料库中的当前单词；

2.词性特征：当前单词的词性；

3.字母特征：当前单词包含字母或不包含字母；

4.数字特征：当前单词是否包含数字；

5.词嵌入特征：为了找到最合适的窗口尺寸和向量维度，通过调整窗口尺寸和向量维度大小来进行几次实验确定最佳实验参数，然后将向量维度最终设置为100，最终将词嵌入数据作为新特征添加到模型中；

6.词表示特征：由LSTM算法训练的词表示输出作为新特征添加到模型中。

本方法采用的级联随机场模型由两部分组成：低层CRF模型利用上述1-4个基本特征来识别简单的命名实体；高层CRF模型使用上述1-4特征和新功能，包括第5特征，第6特征和由低层模型生成的简单命名实体特征进行复杂命名实体的识别提取。

下述为本发明添加新特征后实体识别性能比较如下：

表1实体识别模型性能效果图

应该注意到并理解，在不脱离权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。