CN111597815A

CN111597815A - 一种多嵌入命名实体识别方法、装置、设备及存储介质

Info

Publication number: CN111597815A
Application number: CN202010443674.4A
Authority: CN
Inventors: 李净
Original assignee: Beijing Huiwen Technology Group Co ltd
Current assignee: Beijing Huiwen Technology Group Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-08-28

Abstract

本发明公开了一种多嵌入命名实体识别方法、装置、设备及存储介质，该方法包括：获取句子信息；对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量；将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果；利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果。该方法实现提高命名实体识别的准确性。

Description

一种多嵌入命名实体识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种多嵌入命名实体识别方法、装置、设备及存储介质。

背景技术

目前，智能机器人交互是实现城市智能化的一项重要工作。近年来，随着计算机集群计算能力的大幅度提升，人工智能算法研究和产业落地步入了发展快车道，而智能机器人交互作为人工智能重要分支自然语言处理的一个重要应用，也逐渐成为学术界、工业界重点投入的研究热点和产品方向。无论在教育领域，金融领域，还是医疗领域都有着广泛的应用，通过使用智能机器人，可以提高效率，减少人力资源。智能机器人交互对社会经济效益和国家科技发展都具有重大意义。

命名实体识别在智能机器人交互系统中，需要从用户的提问中准确的识别出各种实体的类型才能更好地回答用户，例如：“我想订一张后天从杭州到三亚的机票？”“从三亚飞杭州的机票多少钱？”，分别需要准确地识别出“后天”，“三亚”和“杭州”才能准确回答用户的问题。对话系统需要接收纯文本形式的自然语言，必需经过实体识别将无结构化的数据转化为结构化数据，才能进行后续的意图识别等步骤。

现有技术中采用的命名实体识别方法是先将句子信息转换为字向量，以字向量为基础进行命名实体识别得到实体识别结果。但是仅仅依据字向量进行实体识别，基础数据比较单一，识别的准确性较低。因此，如何提高命名实体识别的准确性是亟待解决的问题。

发明内容

本发明的目的是提供一种多嵌入命名实体识别方法、装置、设备及存储介质，以实现提高命名实体识别的准确性。

为解决上述技术问题，本发明提供一种多嵌入命名实体识别方法，包括：

获取句子信息；

对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量；

将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果；

利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果。

优选的，所述对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量，包括：

对句子信息进行字转换、向量转换后，得到字向量；

对句子信息进行拼音转换、向量转换后，得到拼音向量；

对句子信息进行五笔转换、向量转换后，得到五笔向量。

优选的，所述将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果，包括：

将字向量、拼音向量和五笔向量进行拼接，得到拼接结果；

将拼接结果输入至卷积神经网络的全连接层，得到全连接层的输出结果，将输出结果作为特征融合结果。

优选的，所述利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果，包括：

将特征融合结果输入至人工神经网络中，输出得到隐藏状态向量；

采用条件随机场对隐藏状态向量进行数据分析，得到实体识别结果。

优选的，所述人工神经网络为双向长短时记忆网络。

优选的，所述拼接结果的计算公式如下：

其中，

和

分别是字向量、拼音向量和五笔向量；

是拼接结果。

优选的，所述全连接层的输出结果的计算公式如下：

其中，σ是sigmoid激活函数，W_fc和b_fc均为全连接层可训练参数，X^(t)是全连接层的输出结果。

本发明还提供一种多嵌入命名实体识别装置，包括：

获取模块，用于获取句子信息；

分析模块，用于对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量；

融合模块，用于将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果；

识别模块，用于利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果。

本发明还提供一种多嵌入命名实体识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述的多嵌入命名实体识别方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的多嵌入命名实体识别方法的步骤。

本发明所提供的一种多嵌入命名实体识别方法、装置、设备及存储介质，获取句子信息；对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量；将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果；利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果。可见，不仅仅只通过字向量这个特征进行命名实体识别，还加入了拼音向量和五笔向量这两个特征，对字向量、拼音向量和五笔向量这三个特征进行了特征融合，依据三个特征的融合结果进行实体识别，中文特有的字音字形特征可以为自然语言处理任务提供额外的辅助知识，能够对中文命名实体识别任务有增益作用，这样命名实体识别的结果更加准确，实现提高命名实体识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种多嵌入命名实体识别方法的流程图；

图2为拼音转化结果示意图；

图3(a)为Skip-gram模型示意图；

图3(b)为CBOW模型示意图；

图4为拼音向量表示结果示意图；

图5(a)为动词与五笔输入潜在的语义关系示意图；

图5(b)为名词和五笔输入潜在的语义关系示意图；

图6为五笔转化结果示意图；

图7为融合了多种嵌入的模型示意图；

图8为本发明所提供的一种多嵌入命名实体识别装置结构示意图；

图9为本发明所提供的一种多嵌入命名实体识别设备结构示意图。

具体实施方式

本发明的核心是提供一种多嵌入命名实体识别方法、装置、设备及存储介质，以实现提高命名实体识别的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种多嵌入命名实体识别方法的流程图，该方法包括以下步骤：

S11：获取句子信息；

S12：对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量；

S13：将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果；

S14：利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果。

可见，该方法中，不仅仅只通过字向量这个特征进行命名实体识别，还加入了拼音向量和五笔向量这两个特征，对字向量、拼音向量和五笔向量这三个特征进行了特征融合，依据三个特征的融合结果进行实体识别，中文特有的字音字形特征可以为自然语言处理任务提供额外的辅助知识，能够对中文命名实体识别任务有增益作用，这样命名实体识别的结果更加准确，实现提高命名实体识别的准确性。

基于上述方法，进一步的，步骤S12包括以下步骤：

S21：对句子信息进行字转换、向量转换后，得到字向量；

S22：对句子信息进行拼音转换、向量转换后，得到拼音向量；

S23：对句子信息进行五笔转换、向量转换后，得到五笔向量。

其中，步骤S21的执行者为字符嵌入模块。中文NER由于缺乏天然的分隔符所以输入和分词有很大的关系，目前主要有基于分词之后的词嵌入和基于单个字符的字嵌入。根据最新的研究成果，在绝大多数中文自然语言处理任务中，单纯字嵌入就可以达到比较好的效果，引入词嵌入反而会降低模型性能。因此，步骤S21中，利用字look-up查询表从预训练的字嵌入矩阵中获得字向量。

步骤S21中，将每一个输入的词或字符映射到分布式表示空间，它是低维稠密的向量表示空间，能够捕捉单词的语义和句法特性。早期研究工作使用One-Hot(“独热”)方法来编码文本信息，为了缓解维度灾难和数据稀疏的问题，通过深度学习方法采用稠密、连续、低维度的文本向量来代替One-Hot编码。

步骤S22的执行者为拼音嵌入模块。拼音代表着汉字的发音，类似于英语中的音标。拼音与汉字语义高度相关，一个字符可能对应不同的拼音代码，表示不同的语义含义，这种情况称为多音字，在汉字中很普遍。例如，“乐”有两种不同的发音，当发音为“yue”时，它意味着是“音乐”的意思，是名词，当发音为“le”时，它与“高兴”相关，相似示例的还有“便”和“和”字，都有两种或以上的发音，如方便、便宜、和平、和面。通过拼音代码，在字与语义之间架起了一座桥梁，人们可以根据不同的发音理解汉字的不同含义，那么神经网络也可以自动地学习语义和拼音代码之间的映射。

拼音是汉字主要的计算机输入法，并且用拼音代码作为额外的补充输入很容易表示字符。因此，以拼音作为命名实体识别额外的嵌入，提供了所需的额外语音和语义信息。通过使用拼音库将汉字转化为拼音，可以根据词组智能匹配最正确的拼音，支持多音词，转换结果如图2所示，图2为拼音转化结果示意图。

步骤S22的执行过程中，统计词频，将个数大于3的字拼音基于Word2vec算法转化为向量表示。Word2vec算法是一种简单而且高效的方法来学习词嵌入，使用简单的上下文来建立从上下文到目标词的映射。在Skip-Gram模型中，抽取上下文和目标词匹配，构造一个监督学习问题。上下文不一定总是目标单词之前离得最近的四个单词，或最近的n个单词，是随机选一个词作为上下文词，这就是Skip-Gram模型。

Word2vec还有另外一个版本，叫做CBOW，即连续词袋模型(Continuous Bag-Of-Words Model)，它与Skip-Gram模型正好相反，它获得中间词两边的上下文，然后用周围的词去预测中间的词。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。请参考图3(a)、图3(b)，图3(a)为Skip-gram模型示意图，图3(b)为CBOW模型示意图。基于Word2vec中的CBOW版本，将字拼音转化为100维的向量，如图4所示，图4为拼音向量表示结果示意图。

步骤S23的执行者为五笔嵌入模块。五笔嵌入是基于字符的结构不是发音，因为大量的汉字是象形文字，五笔输入可以找到潜在的语义关系以及单词边界。它主要是从两个方面提高命名实体识别任务的性能：(1)五笔对汉字的高级语义进行编码；(2)具有相似结构的字符(如偏旁部首)更有可能构成一个单词，影响单词的边界。要想了解五笔输入法在结构描述中的有效性，就必须了解五笔输入法的规则。它是一个高效的编码系统，每个汉字最多有4个英文字母，更具体地说，这些字母被分为5个区域，每个区域代表一种汉字笔画结构。

图5(a)和图5(b)展示了汉字与它们对应的五笔编码(4个字母)一些样例，图5(a)为动词与五笔输入潜在的语义关系示意图，图5(b)为名词和五笔输入潜在的语义关系示意图。在图5(a)中，“提”和“打”等都是与手相关的动词，这些汉字所对应的五笔编码都有相同的根R，这也就是说具有高度语义相关的汉字通常具有类似的结构，可以被五笔完美捕捉。除此之外，具有相似结构的字符更有可能组成一个字，比如，在图5(b)中，“花”、“草”、和“芽”都是与植物相关的名词，他们都是从上到下的符号，具有想相同的根A，这些字会构成新的词“花草”和“花芽”。

另外，五笔序列还解释了汉字之间的关系：(1)五笔字符的顺序代表着字的顺序；(2)一些五笔字符有着实际意义，比如“I”代表“水”。因此，五笔是一种高效的汉字编码，在我们多嵌入模型中作为一种额外的补充。通过使用官方五笔转化表将汉字转化为五笔，该表基于汉字的图形结构，遵循5个主要笔画：横、竖、钩、左撇和右撇。转换结果如图6所示，图6为五笔转化结果示意图。

步骤S23的执行过程中，类似于拼音，统计词频，将个数大于3的字五笔编码基于Word2vec算法转化为100维向量表示。

基于步骤S13，进一步的，步骤S13包括以下步骤：

S32：将字向量、拼音向量和五笔向量进行拼接，得到拼接结果；

S33：将拼接结果输入至卷积神经网络的全连接层，得到全连接层的输出结果，将输出结果作为特征融合结果。

步骤S32中，拼接结果的计算公式如下：

其中，

和

分别是字向量、拼音向量和五笔向量；

是拼接结果。

步骤S33中，全连接层的输出结果的计算公式如下：

其中，σ是sigmoid激活函数，W_fc和b_fc均为全连接层可训练参数；X^(t)是全连接层的输出结果。这种特征融合方式计算成本较低，同时效果也比较好。

基于步骤S14，进一步的，人工神经网络为双向长短时记忆网络，简称为BI-LSTM。LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络。双向RNN由两个普通的RNN所组成，一个正向的RNN，利用过去的信息，一个逆序的RNN，利用未来的信息，这样在时刻t，既能够使用t-1时刻的信息，又能够利用到t+1时刻的信息。一般来说，由于双向LSTM能够同时利用过去时刻和未来时刻的信息，会比单向LSTM最终的预测更加准确。

条件随机场(conditional random field，简称CRF)是一个以观察序列为条件的全局随机场。CRF在基于特征的监督学习方法中得到了广泛的应用。在许多的深度学习模型中，将CRF作为模型的标签解码器，比如：应用到双向LSTM的顶层和CNN网络的顶层。

基于步骤S14，进一步的，步骤S14包括以下步骤：

S41：将特征融合结果输入至人工神经网络中，输出得到隐藏状态向量；

S42：采用条件随机场对隐藏状态向量进行数据分析，得到实体识别结果。

步骤S41中，将特征融合结果即全连接层的输出X^(t)送入到BiLSTM中，公式如下所示：

其中，LSTM是长短期记忆网络，

和

分别是前向LSTM与反向LSTM在t时刻的隐状态向量。

是前向LSTM在t-1时刻的隐状态向量。

是反向LSTM在t+1时刻的隐状态向量。h_t是BiLSTM在t时刻的隐状态向量。最后考虑相邻标签之间的交互信息是很有的，采用CRF层联合地解码标签序列，CRF使得模型从所有可能的标签序列中找到最优路径，利用CRF获取命名实体识别结果。

详细的，本发明将字向量、拼音向量和五笔向量这些多种嵌入进行特征融合作为模型的输入，输入到BiLSTM-CRF中进行命名实体建模。如图7所示，图7为融合了多种嵌入的模型示意图，本发明利用特征融合方法，将三种类型的原始特征首先进行拼接，然后接入一个全连接层直接合并多个原始特征，以学习融合了语言特征与原始输入特征之间的映射。

本发明的主要目的是利用深度学习技术解决智能机器人交互中命名实体识别问题。本发明的核心技术是使用融合拼音嵌入和五笔嵌入的人工神经网络来处理智能机器人交互中命名实体识别任务。中文特有的字音字形特征可以为自然语言处理任务提供额外的辅助知识，是对中文命名实体识别任务有增益作用。本发明将拼音嵌入特征和五笔嵌入特征作为辅助特征，利用Bi-LSTM+CRF网络结构为核心框架，解决智能机器人交互中中文命名实体识别任务。

请参考图8，图8为本发明所提供的一种多嵌入命名实体识别装置结构示意图，该装置用于实现上述方法，包括：

获取模块101，用于获取句子信息；

分析模块102，用于对句子信息进行数据分析，分别获取得到句子信息对应的字向量、拼音向量和五笔向量；

融合模块103，用于将字向量、拼音向量和五笔向量进行特征融合，得到特征融合结果；

识别模块104，用于利用人工神经网络和条件随机场对特征融合结果进行实体识别，得到实体识别结果。

可见，该装置中，不仅仅只通过字向量这个特征进行命名实体识别，还加入了拼音向量和五笔向量这两个特征，对字向量、拼音向量和五笔向量这三个特征进行了特征融合，依据三个特征的融合结果进行实体识别，中文特有的字音字形特征可以为自然语言处理任务提供额外的辅助知识，能够对中文命名实体识别任务有增益作用，这样命名实体识别的结果更加准确，实现提高命名实体识别的准确性。

请参考图9，图9为本发明所提供的一种多嵌入命名实体识别设备结构示意图，该设备包括：

存储器201，用于存储计算机程序；

处理器202，用于执行所述计算机程序时实现如前述实施例中的多嵌入命名实体识别方法的步骤。

对于本发明提供的多嵌入命名实体识别设备的介绍请参照前述的多嵌入命名实体识别方法的实施例，本发明实施例在此不再赘述。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例中的多嵌入命名实体识别方法的步骤。

对于本发明提供的计算机可读存储介质的介绍请参照前述的多嵌入命名实体识别方法的实施例，本发明实施例在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种多嵌入命名实体识别方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。