CN107924680A

CN107924680A - 口语理解系统

Info

Publication number: CN107924680A
Application number: CN201680046793.8A
Authority: CN
Inventors: 渡部晋治; 栾奕; B·哈尔沙姆
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-08-17
Filing date: 2016-07-29
Publication date: 2018-04-17
Anticipated expiration: 2036-07-29
Also published as: CN107924680B; WO2017030006A1; EP3338280B1; JP2018513405A; JP6444530B2; US20170053646A1; US9607616B2; EP3338280A1

Abstract

一种口语理解(SLU)系统，该口语理解系统接收与用户的一个或更多个口头话语相对应的一序列词语，使所述一序列词语通过口语理解模块以生成一序列意图。使所述序列词语通过多尺度递归神经网络(MSRNN)的第一子网络，并且使所述序列意图通过多尺度递归神经网络(MSRNN)的第二子网络。接着，组合第一子网络的输出与第二子网络的输出以预测用户的目标。

Description

口语理解系统

技术领域

本发明总体上涉及语音处理，并且更具体地，涉及用于在用户与口语对话系统对话期间基于来自该用户的语音中表达的目标来确定要由该口语对话系统执行的下一动作。

背景技术

如图1所示，在用户101与常规口语对话系统140之间的对话期间，自动语音识别器(ASR)110处理用户语音102，以向口语理解(SLU:spoken language understanding)模块120提供输入111。针对SLU的输入可以采用本领域同样已知的各种形式。通常，输入是一序列词语。所述词语可以具有关联的概率。SLU从输入提取语义信息。语义信息表示用户在语音中表达的意图121。所述意图可以随着该序列词语被渐进地处理而改变。然而，当已处理了序列中的所有词语时，确定概括所述意图的目标。基于该目标，对话管理器(DM)130确定口语对话系统要执行的下一动作131。

口语对话中的两个关键任务是用户意图理解与用户目标估计。SLU模块提取用户语音的寓意(下文中称作“意图(intention)”)。DM基于该意图的结果(即，目标)来确定下一动作。

该对话通常包括来自用户的一序列语音以及系统的对应话语和动作。意图和目标估计在比词语理解长的时间尺度上发生。随着获取了更多信息并且意图被澄清，目标的估计可以在对话期间改变。目标估计性能非常重要，因为其可以易于用户更快地实现正确的操作。

目标121是对话管理器130的输入，目标121表示由SLU模块从用户语音中提取出的用户寓意。然后，口语对话系统基于意图理解的结果来确定接下来要采取哪个动作。目的是完成对话，其可以包括面向目标的口语对话系统中的多个用户和系统话语/动作。

意图理解被拟定为语义话语分类问题，而目标估计被拟定为整个对话的分类问题。常规的意图理解和目标估计可以在目标估计中使用词语包(bag of word(BoW))特征或意图包(bag of intention)特征作为分类方法的输入，诸如助推(boosting)、支持矢量机和/或逻辑回归。

然而，将BoW特征应用于SLU任务的问题之一是特征矢量趋于非常稀疏。每个话语通常只有相对少量的词语，而不像通常在文档分析期间可用的非常大量的词语。因此，BoW特征矢量有时缺乏足够的语义信息来准确地估计用户意图。

最成功的神经网络方法之一是基于深度信念网络(DBN)，DBN可以被看作是简单的无监督网络(如限制Boltzmann机(RBM)的堆栈)的组成。针对RBM的参数被用作初始值以通过反向传播过程来估计神经网络参数。在DBN背景下，确定初始参数的第一步骤被称作预训练，而区分性网络训练的第二步骤被称作微调。

常规神经网络预测和训练系统分别如图6和图7所示。如图6所示，为了预测，词语序列610被输入至网络620，并且根据网络参数630加以处理以生成用户意图和目标621。

图7示出了利用预训练网络参数625和训练序列710对网络620的网络参数630的对应训练。

因为深度神经网络(DNN)和DBN训练在ASR和图像处理中的成功，所以其它神经网络架构已被应用至包括深凸网络(Deep Convex Network)、递归神经网络(RNN)，以及长期短期记忆(LSTM)RNN的SLU。

然而，在将那些技术应用于SLU时，一个主要的困难是经常没有足够的训练数据用于任务，并且诠释训练数据可能是耗时的。在低资源条件下训练的神经网络的性能通常因过度训练而较差。

词语嵌入

许多自然语言处理(NLP)系统使用BoW或“独热(one-hot)词语”矢量作为输入，这导致特征矢量具有极大的维度。另选方案是词语嵌入，其将大的稀疏词语特征矢量投影到低维的、密集的矢量表述中。

存在用于学习词语矢量的多个模型族，包括矩阵因子分解法(诸如潜在语义分析(LSA)、低秩多视图学习(LR-MVL)、对数-双线性回归模型(GloVe))、基于神经网络语言模型(NNLM)的方法，这些方法对本地背景窗口建模(诸如连续词语包(CBOW)、Skip-gram)等。大多数词语矢量方法依赖于词语矢量对之间的距离或角度作为用于评估词语表述的内在质量的主要方法。

Mikolov等人使用基于词语类比的评估方案，所述方案有利于生成含义维度的模型，Mikolov等人的“Efficient estimation of word representations in vectorspace,”arXiv preprint arXiv:1301.3781,2013。“GloVe:Global Vectors for WordRepresentation”在词语类比任务中示出了CBOW和Skip-gram的竞争结果。

上述方法中，Glove、CBOW及Skip-gram是用于词语类比任务的当前现有技术。Glove对全局词-词共现计数进行训练，并有效利用全局统计数据。CBOW基于上下文来预测当前词语，而Skip-gram预测给定的当前词语周围的词语。实施Skip-gram和CBOW的Mikolov工具包“word2vec”可以非常有效地在大规模语料库上进行训练。

潜在话题模型

潜在话题模型可以从许多文档中发现语义信息。在信息检索中广泛使用的主题嵌入(Topic Embedding)将文档视为话题的混合，并使用矢量来表示话题分布。已被用于SLU的常规潜在话题模型包括概率潜在语义分析(PLSA)、潜在Dirichlet分配(LDA)、相关话题模型(CTM)以及Pachinko分配模型(PAM)，这些话题模型全部都使用Bayesian推断来确定潜在话题的分布。大多数潜在变量模型是可以在无监督训练中使用的生成模型。

LDA在大规模语料库上表现良好，并且可以有效地进行训练。然而，因为利用迭代推断过程(例如，变化期望最小化(EM)或采样法)获取LDA嵌入，所以在神经网络框架内很难微调LDA嵌入。

发明内容

诸如根据用户语音的意图理解和目标评估的口语理解(SLU)任务是口语对话系统中的基本组件。神经网络可以被用于各种SLU任务。然而，SLU的一个主要难点在于对所收集的数据的诠释可能是耗时的。通常，这导致可用于任务的数据不足。在低资源条件下训练的神经网络的性能通常因过度训练而较差。

为改进性能，本发明的实施方式使用具有基于词语嵌入和潜在话题模型的大规模语料库的无监督训练方法来预训练SLU网络。

为了取得整个对话的长期特征，本发明的实施方式使用多尺度递归神经网络(MSRNN)来预测用户意图和目标。MSRNN预测系统使用第一子网络和第二子网络来使用不同时间尺度的口语对话进行建模，例如，由一序列词语和一序列意图表示的那些口语对话。用于针对词语的子网络的时间尺度比用于意图的时间尺度短且频繁。

MSRNN预测系统中的组合模块组合子网络输出矢量，并利用针对每个预测类别的分数来预测用户的目标。通过在训练期间使用针对每个子网络的预训练子网络参数来有效估计该MSRNN预测系统的多尺度网络参数。与常规的SLU系统相比，基于MSRNN的预测系统可将误差减少约18％。

预训练子网络使用词语嵌入网络，其将独热词矢量转换成连续矢量，对于词语级的子网络，可以有效地构建MSRNN。MSRNN中的参数可以随着时间的推移用常规反向传播过程来优化，其中，常规词语嵌入网络的参数可以被用作MSRNN的初始参数，或者在优化过程期间用作正则化参数。

附图说明

图1是常规的计算机化口语对话系统的流程图。

图2是本发明实施方式所使用的浅前馈神经网络的示意图。

图3是根据本发明实施方式的多尺度递归神经网络(MSRNN)的示意图。

图4是根据本发明实施方式的基于多尺度递归神经网络(MSRNN)的预测系统的流程图。

图5是根据本发明实施方式的基于多尺度递归神经网络(MSRNN)的训练系统的流程图。

图6是用于常规的递归神经网络的预测系统的流程图。

图7是用于常规的递归神经网络的训练系统的流程图。

具体实施方式

本发明的实施方式提供了一种用于基于对话期间来自用户的话语中表达的目标来确定要由口语对话系统执行的下一动作。

线性输入网络的微调

可以被用于口语理解任务的方法使用区分性方法来表示意图和目标估计模型。另外，可以经由特征工程化来结合各种信息。使用多变量逻辑回归将分类目标g和特征矢量X的后验概率P(g|X)确定为

P(g|X)＝softmax([WX]_g), (1)

其中，[Y]_g意指矢量Y的第g个原始元素。该softmax函数为

其中，z是范围[0，1]中的矢量，并且m和k是索引。

在训练期间估计权重矩阵W，下面进行更详细描述。对于意图预测，X是词袋(BoW:bag-of-words)特征矢量，而g是意图类别。对于目标估计任务，X是包括对话历史中的每个预测意图的置信度分数的意图袋(bag-of-intentions)特征矢量，并且g是目标类别。

如图2所示，基线模型可以被表征为浅层神经网络，其中，一个输入层200和一个softmax输出层203预测目标204。

为了将word2vec嵌入导入系统，将词语嵌入X_w 201与基线特征X_b 202连结，即，

参见Mikolov等人的文献。(3)

通过对该轮次(turn)或句子中的每个词语的归一化的word2vec特征求和来获取词语序列X_w：

其中，T是句中或轮次中的词语数。X_w(i)是利用大型语料库预训练的输入序列中的第i个词语的word2vec特征。

将两个结构用于微调。一个是前馈结构，该结构用于微调从word2vec嵌入获取的仿射变换。这等同于向浅基线网络添加线性层。

另选的是，GloVe、LR-MVL及LSA也是有用的词语嵌入，它们使用不同的方法来建模全局词-词共现计数。LSA使用特征分解矩阵因子分解技术来将词-词共现矩阵投影到较低维度。LR-MVL通过执行数据的低秩近似的过去和未来视图之间的典型相关分析(CCA)来学习实值化的上下文特定词语嵌入。LR-MVL适用于双字母组或三字母组共现矩阵。LR-MVK使用比LAS长的词语序列信息来估计上下文特定嵌入。GloVe将词语嵌入的平方误差最小化为词-词共现计数。

另一种结构针对不同时间尺度使用多尺度递归神经网络(MSRNN：Multi-scaleRecurrent Neural Network)。将MSRNN应用于目标估计，其使用ASR结果和预测意图作为输入。在MSRNN训练期间，可以对来自word2vec嵌入的仿射变换进行微调。

前馈架构

如图2所示，前馈架构通过在BoW层200与输出层203之间添加线性隐藏层201和202来改变基线结构。

给定输入特征的意图的后验概率利用softmax来确定

其中，

X_w＝φX_BOW，并且(6)

X_BOW是从话语获取的BoW矢量，其中，词汇大小的维度为V。φ是最初从维度为n×V的word2vec学习的词语嵌入矩阵，其中，n是词语嵌入的维数。方程6是仿射变换。W是隐藏层与输出层之间的权重矩阵。微调是通过将φ与W一起更新来实现的。X_I是具有通过对N最佳意图置信度分数求和而获取的意图类别数量的维度的矢量。在基线方法中使用同一X_I。

前馈架构使得可以灵活地调整到任务域，并且事实上得到比纯特征连结更好的结果。

多尺度递归神经网络(MSRNN)

如图3所示，意图理解和目标估计具有两个输入序列：词语序列310和意图序列340。这两个序列在不同的时间尺度上处理。用于词语的时间尺度比用于意图的时间尺度短且频繁。

基线架构将输入词语处理为词袋，这忽略了输入的上下文信息。两个输入序列词语(310)和意图(340)包含上下文信息，并且直观地，获取该信息的系统可以没有获取该信息的系统执行得更好。

因此，使用MSRNN来建模由词语和意图序列表示的不同时间尺度，图3中示出。

该图中的上半部分301将较短的第一时间标度RNN 320表示为整个序列，第一时间标度RNN 320接受针对每个话语中的每个词语的特征矢量310。RNN 320可以随着该序列中的每个新词语被接受而改变状态，如图3所示，作为每个输入步骤的RNN 320的新状态。该图的下半部分302表示较长的第二时间尺度RNN 330，第二时间尺度RNN 330接受针对每个话语的单个意图特征340矢量。RNN 330可以随着对话序列中的每个新话语被处理而改变状态，如图3所示，作为每个输入步骤的RNN330的新状态。

例如，针对话语中的每个词语，RNN 320比RNN 330更频繁地更新。利用在每个对话轮次被处理之后的RNN 320和330的状态，在该对话轮次结束时对目标进行预测。词语和意图RNN 320和330的最后层321和331被用于预测目标204。换句话说，层321和331分别在每个轮次结束时反映到RNN 320和330的状态。

上述架构公式化如下：

p(g|X,I)＝softmax([W[h_w(T)^T,h_I(M)^T]^T]_g), (7)

其中，X＝{X(1),X(2),...,X(T)}310并且I＝{I(1),I(2),...,I(M)}340，T和M分别是词语序列和意图序列的长度。X(t)和I(m)分别是独热词语和意图矢量。h_w(T)和h_I(M)是T和M处的隐藏激活矢量，下面对它们加以描述。

词语序列和意图序列的递归模块可以被确定为：

h_w(t)＝sigmoid(X(t)φ_w+h_w(t-1)W_w)，和 (8)

hI(m)＝sigmoid(I(m)φ_I+hI(m-1)W_I)。 (9)

在隐藏层使用sigmoid函数，定义如下：

其中，φ_w和φ_I是输入节点与隐藏节点之间的针对词语和意图的权重矩阵。φ_w通过词语嵌入矩阵进行初始化，并且通过时间的反向传播(back propagation throughtime)被用于微调φ_w。W_w和W_I是上下文节点与隐藏节点之间的权重矩阵。φ_I、W_w以及W_I被随机初始化。

如图4所示，本发明的实施方式使用多尺度递归神经网络(MSRNN)来获取整个对话的长期特征以在预测系统中预测用户意图和目标。

对预测系统的输入是针对对应的第一和第二子网络320和330的词语序列310和意图序列340。子网络对口语对话的不同时间尺度建模，例如，由词语序列和意图序列表示的那些。

组合模块440组合子网络的输出矢量以预测用户的目标204。

如图5所示，在利用训练词语序列510和意图序列520进行训练期间，利用针对每个子网络420的预训练子网络参数521来估计该MSRNN预测系统的多尺度网络参数430。

该预训练的子网络使用词语嵌入网络，其将独热词矢量转换成连续矢量，对于词语级子网络，MSRNN可以被有效地构建。MSRNN中的参数可以随着时间的推移用常规反向传播过程来优化，其中，常规词语嵌入网络的参数可以被用作MSRNN的初始参数，或者用作优化过程期间的正则化参数。

本发明的效果

本发明的实施方式提供了用于低资源SLU任务的高效学习的架构。词语嵌入是无监督的，并针对特定SLU任务进行微调。为了获得整个对话的长期特征，实施MSRNN，其使用两个子网络来对由词语序列和意图序列表示的不同时间尺度进行建模。

Claims

1.一种口语理解(SLU)系统，该口语理解系统包括以下步骤：

接收与用户的一个或更多个口头话语相对应的一序列词语；

使所述一序列词语通过口语理解模块，以生成一序列意图；

使所述一序列词语通过多尺度递归神经网络(MSRNN)的第一子网络；

使所述一序列意图通过所述多尺度递归神经网络(MSRNN)的第二子网络；

组合所述第一子网络的输出和所述第二子网络的输出，以预测所述用户的目标，其中，在处理器中执行上述步骤。

2.根据权利要求1所述的系统，其中，所述一序列词语是自动语音识别(ASR)系统的输出。

3.根据权利要求2所述的系统，其中，所述一序列词语是与所述用户的所述一个或更多个口头话语相对应的一组词语上的概率分布。

4.根据权利要求1所述的系统，其中，所述目标被输入至对话管理器以输出口语对话系统将要执行的动作。

5.根据权利要求1所述的系统，其中，所述一序列意图中的每个意图是与所述用户的所述一个或更多个口头话语相对应的一组意图上的概率分布。

6.根据权利要求1所述的系统，其中，联合地使用所述第一子网络和所述第二子网络的单独的预训练初始化参数来训练用于所述多尺度递归神经网络(MSRNN)的网络参数。