CN110321418B

CN110321418B - 一种基于深度学习的领域、意图识别和槽填充方法

Info

Publication number: CN110321418B
Application number: CN201910491104.XA
Authority: CN
Inventors: 何婷婷; 孙博; 汤丽; 王逾凡; 潘敏; 元帅; 吕潇翔
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2021-06-15
Anticipated expiration: 2039-06-06
Also published as: CN110321418A

Abstract

本发明提供了一种基于深度学习的领域、意图和槽填充方法，一方面，用对话语料训练深度学习模型FF‑BiGRU，用训练后的深度学习模型FF‑BiGRU，计算对话样本语句，得到样本语句的向量表示h_t。另一方面，将t时刻输入的样本语句u_t和之前得到的样本语句的向量表示h_t作为神经网络模型的输入，训练深度学习模型BiGRU‑BiLSTM，用训练后的深度学习模型BiGRU‑BiLSTM识别样本语句中当前对话语句u_t，得到包含当前语句u_t历史信息的意图分类结果s²和槽值分类结果o²。最后，将o²和s²进行特征提取和线性融合，获得语句u_t的领域、意图和槽值。本发明能有效提供用户领域、意图和槽填充的准确度，准确识别用户领域、意图和槽，能提升对话系统的性能、增加用户体验，具有很大的价值和研究意义。

Description

一种基于深度学习的领域、意图识别和槽填充方法

技术领域

本发明属于人机对话系统技术领域，特别涉及一种基于深度学习的领域和意图识别及槽填充方法。

背景技术

人机对话系统是人工智能领域的核心技术之一，它即将成为一种新的人机交互方式，具有重大的研究价值。人类长期研究用自然语言与计算机进行交流，因为这有着重大的意义：人们可以用自己最熟悉的方式来使用计算机，与计算机进行交互，不需要花大量的时间学习和适应计算机语言。随着互联网时代的到来，人机对话系统的使用需求大大增加。例如机票预订、天气信息查询、办公助理等，极大的提高了人与计算机的沟通效率，方便了人们的生活和工作。各大科技巨头也纷纷加入智能对话系统的研究行列并推出相关的产品，如：苹果的siri、微软的Cortana、小冰、百度的小度等。也许在不久的未来，自然语言会代替输入设备和触摸屏成为最广泛的人机交互界面。人机对话系统主要包括：语音识别、自然语言理解、对话状态跟踪、自然语言生成、语音合成等几个模块。

自然语言理解是人机对话系统中关键的模块之一，其作用是把用户对计算机说的自然语言转换成计算机能够理解的语义表示，达到理解用户自然语言的目的。要理解用户说的话，就必须知道用户语言所涉及的领域和意图，及对用户语言中的重要信息进行标注，这就是人机对话系统中的槽填充。用户领域、意图和槽填充准确性的提高，是帮助对话系统生成合理回复的基础性工作。

在人机对话系统中，如果用户的领域和意图无法判断正确，对话系统就会生成答非所问的回复，这样的回复也就没有任何意义。因此，提升领域、意图和槽填充的准确度显得尤为重要。除此之外，准确判断用户领域、意图和标注槽填充值，在商用智能对话系统中，具有很大的商业价值。综上所述，用户领域、意图和槽填充具有很重要的研究价值和研究意义。

发明内容

本发明所要解决的问题是，利用深度学习技术以提高用户领域、意图和槽填充识别的准确度。

本发明的技术方案提供一种基于深度学习的对话系统领域、意图和槽填充识别方法，包括如下步骤：

步骤一，用对话语料训练深度学习模型FF-BiGRU，用训练后的深度学习模型FF-BiGRU，计算对话样本语句，得到样本语句的向量表示h_t；所述深度学习模型FF-BiGRU融合了前馈神经网络(Feedforward Neural Network,FF)和双向门循环单元(Bi-directionalGated Recurrent Unit,BiGRU)；

步骤二，将得到的向量h_t输入Slot-Gated模型，得到的向量输入BiGRU-BiLSTM模型，训练Slot-Gated和BiGRU-BiLSTM联合模型，用训练后的联合模型识别样本语句中当前对话语句u_t，得到包含当前语句u_t历史信息的意图分类结果s²和槽值分类结果o²；所述Slot-Gated模型通过训练权重向量v和W过滤不相关的语句信息，BiGRU-BiLSTM模型融合了双向门循环网络和双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)；

步骤三，通过将意图分类结果s²和槽值分类结果o²线性融合，得到样本语句最终的领域、意图和槽值。

进一步的，步骤一的具体实现过程如下，

在对话样本中，对每一个时间步t(t＝1,2,3…l)，其中对话样本中一句话的输入作为一个时间步，将当前语句u_t进行分词后，用对话样本训练深度学习模型FF-BiGRU中的双向门循环网络BiGRU，将t时刻当前语句u_t分词后输入BiGRU，得到向量表示c，公式表示如下：

c＝BiGRU_c(u_t) (1)

将对话样本中当前语句之前的语句{u₁,u₂…u_t-1}输入BiGRU，得到向量表示m_k,公式表示如下：

m_k＝BiGRU_m(u_k)0≤k≤t-1 (2)

将c和m_k进行拼接，向量拼接以下面公式表示：

T＝[[c,m₁],[c,m₂],[c,m₃],…[c,m_t-1]] (3)

前馈神经网络FF由神经网络输入层，隐藏层和输出层组成，将T输入前馈神经网络，得到对应的向量G＝{g₁,g₂,g₃,…g_t-1}，公式如下：

G＝sigmoid(FF(m_k,c))0≤k≤t-1 (4)

将向量G输入双向循环门神经网络BiGRU，得到包含当前语句u_t之前语句信息的向量h_t，公式表示为：

h_t＝BiGRU_s({g₁,g₂,g₃,…g_t-1}) (5)。

进一步的，步骤二的具体实现方式如下，

将语句u_t输入深度学习模型BiGRU-BiLSTM中双向循环门循环网络，得到第一层的向量

o¹的上标1表示第一层的向量，公式如下：

o¹＝BiGRU₁(c) (6)

将向量o¹和向量h_t作为模型Slot-Gated的输入，训练一个槽门机制，通过槽门机制(Slot-Gated Mechanism)调整权重v和W，过滤一部分跟当前对话无关的上文对话信息；然后用槽门权重分类，得到跟当前对话概率较高的历史信息向量g，公式如下：

g＝∑v·tahn(c+W·h_t) (7)

其中v和W分别是训练向量和矩阵，通过对模型Slot-Gated训练得到固定值；

将第一层输出向量o¹和向量g输入双向长短期记忆网络BiLSTM，输入双向长短期记忆网络得到最终的向量

和s²，o²和s²的上标2表示第二层的向量，计算方法如下：

o²,s²＝BiLSTM₂(o¹,g) (8)。

进一步的，步骤三的具体实现方式如下，

向量s²包含句子中最重要的语义特征和类别特征信息，通过用激活函数，将s²映射到领域和意图上，得到句子对应的领域和意图分类：

p^domain＝softmax(Us²) (9)

p^intent＝sigmoid(Vs²) (10)

其中公式9和公式10中的softmax和sigmoid是激活函数；

通过对o²进行激活函数处理，得到语句u_t对应的槽值

n^t表示语句u_t有n个词对应的槽值为n^t个，公式如下：

本发明提供了一种基于深度学习的领域、意图和槽填充方法，能够有效的克服多轮对话中只考虑当前语句和上下文语句，而忽略历史信息的不足。此外，在历史信息中加入槽门机制，能够有效地衡量历史语句对当前语句的重要程度，选出跟当前语句更加关联的历史语句信息。最后结合BiGRU-BiLSTM联合模型对样本语句进行特征提取和规则匹配，就能够准确的得到用户语句的领域、意图和槽填充值。依照本发明提供的集合深度学习模型和样本语句历史信息的方法，在识别精度上实现了显著的提升。本发明能有效提供用户领域、意图和槽填充的准确度，准确识别用户领域、意图和槽，能提升对话系统的性能、增加用户体验，具有很大的价值和研究意义。

附图说明

图1为本发明实施例中领域、意图和槽填充的流程图。

具体实施方法

本发明提出一种用前馈神经网络FF与双向门循环单元结合BiGRU联合模型学习样本语句的历史信息，用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM联合模型加入样本语句历史信息和样本语句，计算样本语句的领域、意图和槽值向量，通过线性融合，得到多轮对话领域、意图和槽值，经过实验，本发明进一步提高了多轮对话中对话语句的领域、意图和槽填充识别的准确率。

本发明提出的结合样本语句历史信息的双向门循环单元BiGRU和双向长短期记忆网络BiLSTM联合模型，将句子历史信息融入模型中，提高多轮对话对话语句的领域、意图和槽填充识别准确率。传统的深度学习模型在识别任务中通常采用循环神经网络(RNN)及变种长短期记忆神经网络(LSTM)等，这种神经网络能很好的把握句子的时序信息，但缺乏句子的历史信息。在此基础上，本发明在传统模型上融入句子的历史信息，来增强句子中局部语义信息。该组合模型能利用更多的信息来捕获用户的领域、意图和槽信息。

本发明结合了前馈神经网络FF和双向门循环网络BiGRU，对历史信息进行特征提取和加权处理，进一步提高用户话语与历史信息的相关度。首先，用对话语料训练深度学习模型FF-BiGRU，用训练后的深度学习模型FF-BiGRU，计算对话样本语句，得到样本语句的向量表示h_t。

将t时刻输入的样本语句u_t和之前得到的样本语句的向量表示h_t作为神经网络模型的输入，训练深度学习模型BiGRU-BiLSTM，用训练后的深度学习模型BiGRU-BiLSTM识别样本语句中当前对话语句u_t，得到包含当前语句u_t历史信息的意图分类结果s²和槽值分类结果o²。

最后，通过将意图分类结果s²和槽值分类结果o²线性融合，得到样本语句最终的领域、意图和槽值。

参见图1，实施例的具体实现过程如下：

步骤1，用对话语料训练深度学习模型FF-BiGRU，深度学习模型FF-BiGRU是前向神经网络(Feedforward Neural Network,FF)和BiGRU(Bi-directional Gated RecurrentUnit,BiGRU)的联合模型，用训练后的深度学习模型FF-BiGRU，计算对话样本语句，得到样本语句的向量表示h_t，进行以下处理：

在对话样本中，对于每个时间步t(t＝1,2,3…l)(语句样本中一句话的输入作为一个时间步)，将当前语句u_t进行分词后，用样本语句训练神经网络模型BiGRU，得到向量表示c，公式表示如下：

c＝BiGRU_c(u_t) (1)

步骤2，将对话样本中当前语句之前的语句{u₁,u₂…u_t-1}输入BiGRU，得到向量表示m_k,公式表示如下：

m_k＝BiGRU_m(u_k)0≤k≤t-1 (2)

步骤3，将c和m_k进行拼接，向量拼接以下面公式表示：

T＝[[c,m₁],[c,m₂],[c,m₃],…[c,m_t-1]] (3)

步骤4，前馈神经网络FF由神经网络输入层，隐藏层和输出层组成。将T输入前馈神经网络，得到对应的向量G＝{g₁,g₂,g₃,…g_t-1}，公式如下：

G＝sigmoid(FF(m_k,c))0≤k≤t-1 (4)

步骤5，将向量G输入双向门循环神经网络BiGRU，得到包含当前语句u_t之前语句信息的向量h_t，公式表示为：

h_t＝BiGRU_s({g₁,g₂,g₃,…g_t-1}) (5)

步骤6，在深度学习模型BiGRU-BiLSTM中，进行第一层处理，将语句u_t输入双向门循环神经网络BiGRU，得到第一层的向量

o¹的上标1表示第一层的向量，公式如下：

o¹＝BiGRU₁(c) (6)

步骤7，将向量o¹和步骤5中得到的向量h_t作为Slot-Gated模型^[1]的输入，训练一个槽门机制，通过槽门机制(Slot-Gated Mechanism)调整权重v和W，过滤一部分跟当前对话无关的上文对话信息。然后用槽门权重分类，得到跟当前对话概率较高的历史信息向量g，公式如下：

g＝∑v·tahn(o¹+W·h_t) (7)

其中v和W分别是训练向量和矩阵，通过对模型Slot-Gated训练得到固定值。

步骤8，将第一层输出向量o¹和步骤7中得到的向量g输入双向长短期记忆网络BiLSTM，输入双向长短期记忆网络得到最终的向量

和s²，o²和s²的上标2表示第二层的向量，计算方法如下：

o²,s²＝BiLSTM₂(o¹,g) (8)

步骤9，向量s²包含句子中最重要的语义特征和类别特征信息，通过用激活函数，将s²映射到领域和意图上，得到句子对应的领域和意图分类：

p^domain＝softmax(Us²) (9)

p^intent＝sigmoid(Vs²) (10)

其中公式9和公式10中的softmax和sigmoid是激活函数。

步骤10，通过对o²进行激活函数处理，得到语句u_t对应的槽值

n^t表示语句u_t有n个词对应的槽值为n^t个，公式如下：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于深度学习的领域、意图识别和槽填充的方法，其特征在于，包括如下步骤：

步骤一，用对话语料训练深度学习模型FF-BiGRU，用训练后的深度学习模型FF-BiGRU，计算对话样本语句，得到样本语句的向量表示h_t；所述深度学习模型FF-BiGRU融合了前馈神经网络(Feedforward Neural Network，FF)和双向门循环网络(Bi-directional GatedRecurrent Unit，BiGRU)；

步骤二，将得到的向量h_t输入Slot-Gated模型，得到的向量输入BiGRU-BiLSTM模型，t表示时间步，训练Slot-Gated和BiGRU-BiLSTM联合模型，用训练后的联合模型识别样本语句中当前对话语句u_t，得到包含当前语句u_t历史信息的意图分类结果s²和槽值分类结果o²；所述Slot-Gated模型通过训练权重向量v和W过滤不相关的语句信息，BiGRU-BiLSTM模型融合了双向门循环网络和双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)；

步骤三，通过将意图分类结果s²和槽值分类结果o²线性融合，得到样本语句最终的领域、意图和槽值；具体实现方式如下，

p^domain＝softmax(Us²) (9)

p^intent＝sigmoid(Vs²) (10)

其中公式9和公式10中的softmax和sigmoid是激活函数；

通过对o²进行激活函数处理，得到语句u_t对应的槽值