CN110019734A

CN110019734A - 一种话语意图识别方法、装置、设备及存储介质

Info

Publication number: CN110019734A
Application number: CN201711458034.5A
Authority: CN
Inventors: 唐诗睿; 吴东华; 徐爽; 高磊; 刘志欣
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-16

Abstract

本申请公开了一种话语意图识别方法及装置。所述方法包括：包括：将用户话语转变为词向量；将所述词向量逐一输入长短期记忆网络(简称LSTM)模型中，生成中间语义向量；通过softmax函数对所述中间语义向量进行变换，得到话语意图识别结果并输出。该方法能够准确高效地对话语意图进行识别。

Description

一种话语意图识别方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种话语意图识别方法及装置。

背景技术

在物流领域中，每天客服需要处理大量重复的客户问题，存在人力成本的极大浪费。但目前，自然语言识别的研究大多用于人工智能，例如聊天机器人等领域，尚未有针对物流行业的能够将大量重复的客户问题进行分类、归纳并读取的快速有效的方法。为了降低企业的人力成本，开发一种自然语言识别方法十分必要。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种快速有效的话语意图识别方法及装置。

第一方面，本申请实施例提供了一种话语意图识别方法，包括：将用户话语转变为词向量；将所述词向量逐一输入长短期记忆网络(简称LSTM)模型中，生成中间语义向量；通过softmax函数对所述中间语义向量进行变换，得到话语意图识别结果并输出。

第二方面，本申请实施例提供了一种用于话语意图识别的装置，包括：用户话语转变单元，配置用于将用户话语转变为词向量；中间语义生成单元，配置用于将所述词向量逐一输入长短期记忆网络(简称LSTM)模型中，生成中间语义向量；话语意图识别单元，配置用于通过softmax函数对所述中间语义向量进行变换，得到话语意图识别结果并输出。

本申请实施例提供的话语意图识别方案，通过将输入的字符转化为词向量传入LSTM模型，通过特定函数计算得到语义表示函数，再通过Softmax将语义表示函数变换得到话语意图函数。根据预先设定的话语意图种类对大量自然语言进行高效准确的识别、归纳。此外，本申请还利用attention模型对词向量的注意力大小进行分配，从而使整个话语意图识别过程不再需要将完整的原文句子编码为固定长度的向量，可以允许解码器在每一步输出时“参与(attend)”到原文的不同部分，大大提高了长句话语意图识别的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请实施例的用于话语意图识别的示例性流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

诚如背景技术所述的，目前对自然语言识别领域的研究还没有提出解决物流行业客服处理大量重复的问题的行之有效的技术方案。针对这一问题，本申请实施例提供了一种话语意图识别方案，通过使用LSTM+attention算法对用户话语数据进行建模，以识别用户话语意图。

整体的LSTM+attention算法模型的具体算法原理如下：

首先输入向量逐一传入到LSTM模型中，根据如下公式计算得出下一节点值.h_t

h_t＝f(W_n,h_t-1)

其中，Wn为生成的词向量；

f为流程函数，具体为：

f_t＝σ(W_f·X+b_f)

i_t＝σ(W_i·X+b_i)

o_t＝σ(W_o·X+b_o)

其中X是输入集合，包含上一时刻的隐藏向量h以及当前时刻的输入向量x；σ是sigmoid函数，f_t是遗忘门，i_t是输入门，o_t是输出门，c_t是当前状态值；

W_f、W_i、W_o、为线性变换使用的权重矩阵，b_f、b_i、b_o、b_c为线性变换使用的偏置；

W_c为LSTM单元本身对X的线性变换使用的参数矩阵，b_c为可调整的参数。

通过Attention模型为各所述词向量分配不同大小的注意力参数，具体包括：

注意力参数ν的计算方法为：

u_i＝tanh(W_sh_i+b_s)

其中，Ws是用来计算注意力权重α使用的线性变换参数矩阵；α_i表示第i个输出在输入上分配的注意力，u_s、bs为可调整的参数。

最终识别话语意图的函数为：

p＝softmax(W_cυ+b_c)，其中p话语意图对应的概率分布；υ为Attention模型分配的注意力参数。

请参考图1，用于话语意图识别的示例性流程如下：

首先，通过Data Representation思想及word2vec工具，将用户输入的每个中文字符将转变为一个300维的全实数向量——词向量(word embedding)，在不损失原有数据的特征下，可以很好地度量词与词之间的相似性。

然后，生成的词向量w₀,w₁,...,w_n将作为标准LSTM的模型输入，LSTM单元来对输入序列进行学习；

引入Attention模型的重要原有是在于，没有引入注意力的模型在输入句子比较短的时候估计问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量(LSTM生成的)来表示，单词自身的信息已经消失，可想而知会丢失很多细节信息，这也是为何要引入注意力模型的重要原因。

接着，Attention模型分配给不同输入向量不同的注意力大小。这意味着在生成每个输出意图时，原先都是相同的中间语义表示C会替换成根据当前生成意图而不断变化的C。即通过Attention机制，我们不再需要将完整的原文句子编码为固定长度的向量。相反，我们允许解码器在每一步输出时“参与(attend)”到原文的不同部分。

最后，Attention生成的可能性话语意图通过softmax分类器，判断出该输入向量属于哪一类意图。

在本申请中，设定话语意图种类分别为：意图0是运费，意图1是时效，意图2是无意图。

最终经由LSTM+attention机制识别出的话语意图举例为：

意图1 问一下,从那个深圳罗湖寄到山东临沂。需要多长时间。

意图0 问一下我要寄个快件到那个河北那边这个大物件那个要多少钱。

意图2 唉,你好,我有个国际快递。单号是0000。

Claims

1.一种话语意图识别方法，其特征在于，所述方法包括：

将用户话语转变为词向量；

将所述词向量逐一输入长短期记忆网络(简称LSTM)模型中，生成中间语义向量；

通过softmax函数对所述中间语义向量进行变换，得到话语意图识别结果并输出。

2.根据权利要求1所述的话语意图识别方法，其特征在于，所述将用户话语转变为词向量包括：

将输入的话语字符通过词向量工具转换成300维的全实数向量。

3.根据权利要求2所述的话语意图识别方法，其特征在于，所述方法还包括：

通过Attention模型为各所述词向量分配不同大小的注意力参数。

4.根据权利要求1所述的话语意图识别方法，其特征在于，所述方法还包括：

根据所述话语意图识别结果，为所述用户话语设定对应的话语意图种类。

5.根据权利要求3所述的话语意图识别方法，其特征在于，所述中间语义向量为：

h_t＝f(W_n,h_t-1)，其中，Wn为生成的词向量；

f为流程函数，具体为：

f_t＝σ(W_f·X+b_f)

i_t＝σ(W_i·X+b_i)

o_t＝σ(W_o·X+b_o)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·X+b_c)

h_t＝o_t⊙tanh(c_t)

其中，X是输入集合，包含上一时刻的隐藏向量h以及当前时刻的输入向量x；σ是sigmoid函数，f_t是遗忘门，i_t是输入门，o_t是输出门，c_t是当前状态值；

W_f、W_i、W_o、为线性变换使用的权重矩阵，b_f、b_i、b_o为线性变换使用的偏置；

6.根据权利要求5所述的话语意图识别方法，其特征在于，所述话语意图函数为：

7.根据权利要求6所述的话语意图识别方法，其特征在于，注意力参数ν的计算方法为：

u_i＝tanh(W_sh_i+b_s)

8.一种用于话语意图识别的装置，其特征在于，所述装置包括：

用户话语转变单元，配置用于将用户话语转变为词向量；

中间语义生成单元，配置用于将所述词向量逐一输入长短期记忆网络(简称LSTM)模型中，生成中间语义向量；

话语意图识别单元，配置用于通过softmax函数对所述中间语义向量进行变换，得到话语意图识别结果并输出。

9.根据权利要求8所述的装置，其特征在于，还包括：

注意力分配单元，配置用于对输入的不同词向量分配不同大小的注意力。

10.根据权利要求8所述的装置，其特征在于，还包括：

话语意图种类设定单元，配置用于针对所述话语意图函数的最终结果，设定对应的话语意图种类。

11.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-7中任一项所述的方法。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。