CN111597814B

CN111597814B - 一种人机交互命名实体识别方法、装置、设备及存储介质

Info

Publication number: CN111597814B
Application number: CN202010443600.0A
Authority: CN
Inventors: 李净
Original assignee: Beijing Huiwen Technology Group Co ltd
Current assignee: Beijing Huiwen Technology Group Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-05-26
Anticipated expiration: 2040-05-22
Also published as: CN111597814A

Abstract

本发明公开了一种人机交互命名实体识别方法、装置、设备及存储介质，该方法包括：获取文本信息，将文本信息转换为词状态向量；利用词状态向量和全局句子状态向量，获取新的词状态向量；依据新的词状态向量进行实体识别，得到实体识别结果。该方法实现提高命令实体识别结果的准确性。

Description

一种人机交互命名实体识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种人机交互命名实体识别方法、装置、设备及存储介质。

背景技术

智能机器人交互是实现城市智能化的一项重要工作。近年来，随着计算机集群计算能力的大幅度提升，人工智能算法研究和产业落地步入了发展快车道，而智能机器人交互作为人工智能重要分支—自然语言处理的一个重要应用，也逐渐成为学术界、工业界重点投入的研究热点和产品方向。无论在教育领域、金融领域，还是医疗领域都有着广泛的应用，通过使用智能机器人，可以提高效率、减少人力资源。智能机器人交互对社会经济效益和国家科技发展都具有重大意义。

命名实体识别在智能机器人交互系统中，需要从用户的提问中准确的识别出各种实体的类型才能更好地回答用户，例如：“我想订一张后天从杭州到三亚的机票？”“从三亚飞杭州的机票多少钱？”，分别需要准确地识别出“后天”，“三亚”和“杭州”才能准确回答用户的问题。对话系统需要接收纯文本形式的自然语言，必需经过实体识别将无结构化的数据转化为结构化数据，才能进行后续的意图识别等步骤。

目前采用的命名实体方法利用了人工神经网络Sentence-State LSTM(S-LSTM)，这是一种长短时记忆网络。命名实体方法中，先将原始文本转换为词状态向量，将词状态向量输入至人工神经网络S-LSTM中，再对S-LSTM输出的隐藏状态向量结果进行实体识别，得到命名实体识别结果。

但是人工神经网络S-LSTM中无法结合句子级别信息和词级别信息，最后得到命令实体识别结果的准确性较低。因此，如何提高命令实体识别结果的准确性是亟待解决的问题。

发明内容

本发明的目的是提供一种人机交互命名实体识别方法、装置、设备及存储介质，以实现提高命令实体识别结果的准确性。

为解决上述技术问题，本发明提供一种人机交互命名实体识别方法，包括：

获取文本信息，将文本信息转换为词状态向量；

利用词状态向量和全局句子状态向量，获取新的词状态向量；

依据新的词状态向量进行实体识别，得到实体识别结果。

优选的，所述将文本信息转换为词状态向量，包括：

将文本信息进行向量转换，得到词向量；

将词向量输入至人工神经网络中，输出得到词状态向量。

优选的，所述人工神经网络包括双向长短期记忆网络BI-LSTM。

优选的，所述利用词状态向量和全局句子状态向量，获取新的词状态向量，包括：

采用门控机制连接词状态向量和全局句子状态向量，得到新的词状态向量。

优选的，所述门控机制包括第一门控机制和第二门控机制；所述全局句子状态向量为前一时刻的全局句子状态向量。

优选的，所述新的词状态向量的表达式如下：

其中，

为词状态向量，g_t-1为前一时刻的全局句子状态向量，

为第一门控机制，

为第二门控机制，

为新的词状态向量。

优选的，第一门控机制

第二门控机制

的表达式如下：

其中，W_x和U_x均表示权重向量，x∈k,z；b_x表示偏差向量，x∈k,z；σ和softmax均为激活函数。

本发明还提供一种人机交互命名实体识别装置，包括：

转换模块，用于获取文本信息，将文本信息转换为词状态向量；

获取模块，用于利用词状态向量和全局句子状态向量，获取新的词状态向量；

识别模块，用于依据新的词状态向量进行实体识别，得到实体识别结果。

本发明还提供一种人机交互命名实体识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述的人机交互命名实体识别方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的人机交互命名实体识别方法的步骤。

本发明所提供的一种人机交互命名实体识别方法、装置、设备及存储介质，获取文本信息，将文本信息转换为词状态向量；利用词状态向量和全局句子状态向量，获取新的词状态向量；依据新的词状态向量进行实体识别，得到实体识别结果。可见，不再将词状态向量输入至常规的人工神经网络S-LSTM中，而是利用词状态向量和全局句子状态向量获取新的词状态向量，依据新的词状态向量来得到实体识别结果，如此新的词状态向量结合了句子级别信息和词级别信息，得到的实体识别结果的准确性较高，实现提高命令实体识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种人机交互命名实体识别方法的流程图；

图2为本发明中上下文词表示模型示意图；

图3为现有技术中人工神经网络S-LSTM中的信息流示意图；

图4为本发明中结合上下文词状态与句子状态的人工神经网络CWS中的信息流示意图；

图5为本发明所提供的一种人机交互命名实体识别装置结构示意图；

图6为本发明所提供的一种人机交互命名实体识别设备结构示意图。

具体实施方式

本发明的核心是提供一种人机交互命名实体识别方法、装置、设备及存储介质，以提高命令实体识别结果的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种人机交互命名实体识别方法的流程图，包括以下步骤：

S11：获取文本信息，将文本信息转换为词状态向量；

S12：利用词状态向量和全局句子状态向量，获取新的词状态向量；

S13：依据新的词状态向量进行实体识别，得到实体识别结果。

可见，本方法中，不再将词状态向量输入至常规的人工神经网络S-LSTM中，而是利用词状态向量和全局句子状态向量获取新的词状态向量，依据新的词状态向量来得到实体识别结果，如此新的词状态向量结合了句子级别信息和词级别信息，得到的实体识别结果的准确性较高，实现提高命令实体识别结果的准确性。

基于步骤S11，进一步的，将文本信息转换为词状态向量的过程包括以下步骤：

S21：将文本信息进行向量转换，得到词向量；

S22：将词向量输入至人工神经网络中，输出得到词状态向量。

基于步骤S21，向量转换采用词嵌入表示方法。

基于步骤S22，详细的，人工神经网络包括双向长短期记忆网络BI-LSTM。LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络。双向RNN由两个普通的RNN所组成，一个正向的RNN，利用过去的信息，一个逆序的RNN，利用未来的信息，这样在时刻t，既能够使用t-1时刻的信息，又能够利用到t+1时刻的信息。一般来说，由于双向LSTM能够同时利用过去时刻和未来时刻的信息，会比单向LSTM最终的预测更加准确。

LSTM可以逐层的堆叠成多层网络，同理，双向LSTM也可以按照此方式进行堆叠增强模型的表示能力，底层的输出作为高层的输入。从某些任务上的观测经验得出，深层次的LSTM的确要比浅层的好。参考图2，图2展示了使用两层BiLSTM生成上下文词表示的过程，输入向量由词级向量与字符级向量组成，模型的输入向量输入到第一层双向LSTM中生成隐状态表示

然后

连接预训练的ELMo词向量送入到第二层双向LSTM中生成隐状态表示

用于Sentence-State LSTM和CWS的输入。

基于步骤S12，具体的，步骤S12包括：采用门控机制连接词状态向量和全局句子状态向量，得到新的词状态向量。

其中，门控机制包括第一门控机制和第二门控机制；全局句子状态向量为前一时刻的全局句子状态向量。

详细的，新的词状态向量的表达式如下：

其中，

为词状态向量，g_t-1为前一时刻的全局句子状态向量，

为第一门控机制，

为第二门控机制，

为新的词状态向量。

详细的，第一门控机制

第二门控机制

的表达式如下：

现有技术中，双向长短期记忆神经网络是文本表示的一个非常强大的工具，但是它也存在明显的不足。例如，当前的隐层状态的计算依赖之前状态，这极大地限制了模型的并行计算效率。与LSTM进行循环操作时一次处理一个词不同的是，S-LSTM每一步都对所有词的隐含状态进行建模，同时执行单词之间局部与全局的信息交换。模型将整个句子表示成一个状态，该状态由每个词的状态以及一个全局句子级状态组成,并通过循环操作进行全局信息交换。现有技术中，使用上下文词状态

作为S-LSTM的输入，使得每个词可以更好地捕捉局部和全局信息。如图3所示，S-LSTM在时间步t的状态可以表示为：

其中，

是上下文状态表示

的隐状态向量，g_t是整个句子的状态向量。n是一句话中单词的个数，i表示第i个单词。

S-LSTM使用循环的状态转换过程对子状态之间的信息进行建模。S_t-1到S_t的状态转化过程由两部分组成，子词状态

到

的转换和子句子状态g_t-1到g_t的转换。首先，介绍一下词状态

到

转化的过程，其计算主要是根据

和g_t-1的值。公式如下所示：

其中，

表示词的上下文记忆细胞，

表示句子的上下文记忆细胞。

是门控机制控制着输入

的信息流动，同样的，

和

也是门控机制分别控制着

和

的信息流动。

是输出门，把记忆细胞

有选择性的输出隐状态

W_x,U_x和V_x(x∈f,l,r,k,z,o,u)表示权重向量。b_x(x∈f,l,r,k,z,o,u)表示偏差向量。tanh和σ是激活函数。

以上是

到

的转换过程，接下来介绍一下句子状态g_t-1到g_t的转换过程，它是基于

和g_t-1的值计算的。公式如下所示：

其中，f_t ¹,f_t ²,…,f_t ⁿ和f_t ^g分别控制着

和

的信息流动。n是句子中词的长度，即词的个数。

是输出门，把记忆细胞

有选择性地输出为隐状态g_t。W_x和U_x(x∈g,f,o)表示权重向量。b_x(x∈g,f,o)表示偏差向量。tanh和σ是激活函数。

通过使用上下文词状态

作为S-LSTM模型的输入可以进一步增强词的局部和全局信息交换，生成新的句子状态表示S_t，使用S_t进行最终的标签预测。

基于上述现有技术内容，尽管双向LSTM学习到了词的上下文信息，但每个词学到的全局信息依然很弱。本发明通过结合整个句子状态信息来获得更丰富的上下文词表示，具体使用一个门控机制去连接句子级信息和词级信息，结合上下文词状态和句子状态生成新的上下文词状态，Contextual word state S-LSTM模型，简称为CWS模型。灵感来自于S-LSTM，摒弃了S-LSTM的记忆细胞。

基于本发明，参考图4，如图4所示，每一个新的上下文状态

都由

和g_t-1组成，如下所示：

其中，

是上下文词状态表示即词状态向量，g_t-1是前一时刻的句子级状态即前一时刻的全局句子状态向量。

和

控制着信息从流动。W_x和U_x(x∈k,z)表示权重向量。b_x(x∈k,z)表示偏差向量。g_t的计算是基于g_t-1和

的值，如下所示:

其中，f_t ¹,f_t ²,…,f_t ⁿ和f_t ^g分别控制着

和g_t-1的信息流动。n是句子中词的长度，即词的个数，i表示第i个词。

基于步骤S13，详细的，将新的词状态向量输入至CRF层，输出得到实体识别结果。条件随机场(conditional random field，简称CRF)是一个以观察序列为条件的全局随机场。CRF在基于特征的监督学习方法中得到了广泛的应用。在许多的深度学习模型中，将CRF作为模型的标签解码器，比如：应用到双向LSTM的顶层和CNN网络的顶层。详细的，为了计算每一个词的标签分数，使用了一个全连接的神经网络去获得一个分数向量，使得每个词为每个标签都对应一个分数：s＝W·h+b，其中h是最终的状态表示即S_t和

W是权重向量，b是偏差向量，“.”代表矩阵相乘，s是每个词的分数向量。

可选的，采用两种方法进行最终的标签预测，第一种是在最外面接入softmax预测标签，第二种是在最外层使用条件随机场(CRF)层预测标签。softmax层为每个隐状态做独立的标签预测，与之前预测出的标签没有交互，公式为：

p[i]是每个词对应的每个标签i的可能性，其值是正的总和为1。n是总共的标签数量。s[i]是词对应标签i的分数。

softmax层做的仍然是局部的选择，预测每个词标签的时候没有利用到相邻的标签。在命名实体识任务中，考虑相邻标签之间的交互信息是很有益的，比如，标签I-PER不可能跟在B-LOC的后面。因此，使用CRF层联合地解码标签序列，CRF使得模型从所有可能的标签序列中找到最优路径。

具体的，使用x＝(x₁,x₂,…,x_n)表示输入序列，y＝(y₁,y₂,…,y_n)表示经过模型预测x得到的标签序列，μ(x)表示经过模型预测x的所有可能的标签序列集合。CRF的概率模型在给定x的所有可能的标签序列y上定义条件概率p(y|x)，如下所示：

其中，ε_i(y_i-1,y_i,x)＝exp(f(x_i,y′,y))。f是把词映射到标签的功能函数为：f(x_i,y′,y)＝W_yh_2,i+b_y′y，h_2,i是最终的上下文词状态表示，W_y是跟y有关的预测权重，b_y′y是从y′到y的转移权重。W_y和b_y′y都是模型可训练的参数。经过CRF，损失函数可被定义为：L＝-∑_xlogp(y|x)。

对于只考虑两个连续标签的CRF模型，它的主要作用是为输入序列找到目标函数最大化的最优输出序列。因此，对于解码，搜索具有最高条件概率的标签序列y^*＝argmax_y∈μ(x)p(y|x)，这是一个动态规划问题，可使用维特比算法解决。

本发明基于Sentence-State LSTM(S-LSTM)人工神经网络提出Contextual wordstate S-LSTM(CWS)人工神经网络模型来处理智能机器人交互中命名实体识别任务，提出一种门控机制来融合句子级信息和词级信息。本发明的主要目的是利用深度学习技术解决智能机器人交互中命名实体识别问题。本发明的主要内容是为解决Sentence-State LSTM(S-LSTM)中无法有效结合句子级别信息和词级别信息问题，提出一种门控机制的连接方法——Contextual word state S-LSTM(CWS)，可以有效连接句子级别信息和词级别信息，从而提升网络的整体性能。

请参考图5，图5为本发明所提供的一种人机交互命名实体识别装置结构示意图，该装置用于实现上述方法，包括：

转换模块101，用于获取文本信息，将文本信息转换为词状态向量；

获取模块102，用于利用词状态向量和全局句子状态向量，获取新的词状态向量；

识别模块103，用于依据新的词状态向量进行实体识别，得到实体识别结果。

可见，该装置中，不再将词状态向量输入至常规的人工神经网络S-LSTM中，而是利用词状态向量和全局句子状态向量获取新的词状态向量，依据新的词状态向量来得到实体识别结果，如此新的词状态向量结合了句子级别信息和词级别信息，得到的实体识别结果的准确性较高，实现提高命令实体识别结果的准确性。

对于本发明提供的人机交互命名实体识别装置的介绍请参照前述的人机交互命名实体识别方法的实施例，本发明实施例在此不再赘述。

请参考图6，图6为本发明所提供的一种人机交互命名实体识别设备结构示意图，该设备包括：

存储器201，用于存储计算机程序；

处理器202，用于执行所述计算机程序时实现如前述实施例中的人机交互命名实体识别方法的步骤。

对于本发明提供的人机交互命名实体识别设备的介绍请参照前述的人机交互命名实体识别方法的实施例，本发明实施例在此不再赘述。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例中的人机交互命名实体识别方法的步骤。

对于本发明提供的计算机可读存储介质的介绍请参照前述的人机交互命名实体识别方法的实施例，本发明实施例在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种人机交互命名实体识别方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。