CN108292305A

CN108292305A - 用于处理语句的方法

Info

Publication number: CN108292305A
Application number: CN201680069394.3A
Authority: CN
Inventors: 堀智织; 堀贵明; 渡部晋治; J·赫尔希
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-12-04
Filing date: 2016-11-29
Publication date: 2018-07-17
Anticipated expiration: 2036-11-29
Also published as: DE112016005042T5; US9842106B2; WO2017094911A1; DE112016005042B4; JP2018528458A; US20170161256A1; JP6469309B2; CN108292305B

Abstract

方法和系统处理从自动语音识别(ASR)系统或文本获取的语句。语句具有关联的各当事方的标识，诸如角色A语句和角色B语句。将与语句对应的信息，诸如词序列和标识，转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征，以提供针对语句的标引的概率。

Description

用于处理语句的方法

技术领域

本发明总体涉及对话处理，具体地涉及用于包括口头和文本语句的对话的自然语言理解(NLU)方法和系统。

背景技术

自然语言理解(NLU)的方法和系统在计算机化对话系统中用于估计语句的意图，其例如可以执行口语理解(SLU)。如这里广义定义的，“口头”语句可以为语音或文本的形式。如果语句是口头的，那么语句可以从例如自动语音识别(ASR)系统来获得。如果语句是文本，那么语句可以从例如文本处理系统或键盘输入来获得。

传统意图估计方法可以基于短语匹配或分类方法，诸如增强、支持向量机(SVM)，以及将各语句的词袋(BoW)特征用作输入的逻辑回归(LR)。然而，BoW特征由于例如缺少序列中的词的顺序而不具有足够能力来指示由词序列表示的语义信息。

为了考虑在各语句中的词序列的历史，使用N选1编码而不是BoW特征可以将递归神经网络(RNN)应用于语句分类。另外，长的短期记忆(LSTM)RNN是被设计为改善长期语境学习的RNN的形式，并且对于依赖语境的问题可以是有效的。这些方案在不考虑语句之间的语境的情况下对语句分类。另外，重要的是考虑整个对话的语句的序列的较广的语境来准确理解意图。使用RNN和LSTM的现有技术模型中的一些使用了单个语句内的词序列语境，而且考虑了整个对话的语句的序列的较广的语境。

此外，各语句关于依赖当事方的特征的语境具有不同的表达，诸如像代理人和委托人的面向任务的角色、依赖业务的术语和表达、依赖性别的语言、对话参与者之间的关系。然而，传统方法没有考虑由于不同角色而引起的这种依赖当事方的特征。

发明内容

本发明的实施方式提供用于处理语句的方法和系统。从自动语音识别(ASR)系统或文本获取语句。语句具有关联的各当事方的标识，诸如角色A语句和角色B语句。将与语句对应的信息，诸如词序列和标识，转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征，其中，特征传过隐藏层。在递归神经网络(RNN)的情况下，隐藏层具有递归连接，并且长短期记忆(LSTM)可以应用于RNN的隐藏层。然后，在NN的输出层中确定标引(label)的后验概率。

附图说明

[图1A]图1A是在两个当事方之间共享整个对话的语境历史的依赖当事方的神经网络的示意图。

[图1B]图1B是传过单个神经网络的不同层的依赖当事方的表达的示意图。

[图1C]图1C是根据本发明的实施方式的为具有两个平行的隐藏长短期记忆(LSTM)层的递归神经网络形式的语境感测口语理解(SLU)方法和系统的示意图。

[图2]图2是根据本发明的实施方式的隐藏层中的LSTM单元(cell)组的示意图。

[图3]图3是根据本发明的实施方式的语境感测SLU的传播处理的示意图。

[图4]图4是根据本发明的实施方式的、两个平行LSTM层的细节的示意图。

[图5]图5是根据本发明的实施方式的依赖角色的SLU的时域处理的示意图。

具体实施方式

我们发明的实施方式提供用于语言理解(例如，口语理解(SLU))的方法和系统。方法可以估计对话中的语句的意图。如这里广义定义的，语句可以为语音或文本的形式。如果语句是口头的，那么语句可以从例如自动语音识别(ASR)系统来获得。如果语句是文本，那么语句可以从例如文本处理系统或键盘输入来获得。

使用NN进行的语境感测SLU

图1A分别对于左侧的角色A 101和右侧的角色B 102示出在两个当事方之间共享整个对话的语境历史的依赖当事方的神经网络100。本发明的该实施方式使用两个神经网络，其将具有或没有对话期间长期语境的依赖当事方的表达考虑在内。

图1B示出了传过单个神经网络100的不同层的依赖当事方的表达。以下详细描述用于附图中的变量。

图1C示意性示出了另选形式的RNN 100。这里，输入层110从ASR 105接收输入词向量111。词向量与从委托人101和代理人102获取的语句对应。通常，委托人和代理人在他们的相应角色A和B期间轮流说出语句。

方法和网络可以在连接到如本领域中已知的存储器和输入/输出接口的处理器中实施。

按照惯例，各网络被示出为具有位于底部的输入层110和位于顶部的输出层140。输入层110接收与多个当事方的语句对应的输入词向量111。语句具有关联的各当事方的标识。标识与由当事方扮演的角色有关。词变量与对于角色A 101(例如委托当事方)和角色B102(例如代理当事方)获取的语句对应。通常，当事方在对话期间轮流生成针对各角色的语句。

投影层120减小词向量的维度从而生成降维词向量。递归隐藏层130被构造为长的短期记忆(LSTM)，其具有与可以保持和忘记语境信息的当事方门131的递归连接。LSTM层生成针对语句的启动向量。输出层140基于该启动向量来估计输出标引141的后验概率。

为了准确理解多个当事方的对话中的意图，重要的是考虑各语句中的依赖当事方的表达以及在对话轮番的序列的语境中各语句的功能。

为了考虑整个对话的语境和各语句的依赖当事方的表达这两者，我们提供了基于神经网络(NN)的高效的NLU方案，其借助图1A所示的在当事方之间共享语境历史的依赖当事方的神经网络或借助如图1B所示的用依赖当事方的不同层来促进的单个神经网络来对语境感测的依赖当事方的表达建模。

各词使用具有或没有另外属性的特征的词向量表示(诸如BoW或N中选1编码)依次输入到NN中，该另外属性诸如语义信息、语法信息、面向任务的信息。词序列的特征传过依赖当事方的隐藏层中的一个隐藏层，并且在各语句的末尾输出诸如概念标签这样的语义信息。概念标签仅表示符号。语义信息可以是符号和/或是诸如图形的结构化信息。

在RNN的情况下，为了借助对话传播语境信息，针对语句的RNN的启动向量为了考虑整个对话的语境而充当对针对下一语句的RNN的输入。实施方式训练语境感知模型的RNN层，从而在考虑依赖当事方的表达的情况下根据词序列来预测语义信息的序列。

语句料库中的语句关于诸如代理人或委托人这样的角色对于各当事方来表征。为了对依赖当事方的语句精确地建模，我们提供了多个依赖当事方的神经网络，其如图1A所示的当事方之间共享整个对话的语境历史。另外，我们提供由图1B所描绘的依赖当事方的不同层来促进的单个神经网路。

不同依赖当事方的特征通过在依赖当事方的隐藏层之间切换来建模。在这些模型中，各语句的词一次输入一个，并且在各语句的末尾输出语义信息。在RNN的情况下，依赖当事方的隐藏层共同表示各语句内的语境和对话内的语境这两者。在其他NN中，依赖当事方的隐藏层仅表示各当事方的语句的特性。

如图2所示，我们不是如在传统RNN中使用网络单元(unit)，而是使用隐藏层130中的一组LSTM单元(cell)200。LSTM单元可以使用门来将值记住任意时长。LSTM单元包含输入门210、忘记门220以及输出门230，其分别确定输入何时重要至要记住、何时忘记输入以及输入何时有助于输出。

M个语句的序列是u₁，...，u_τ，...，u_M。各语句u_m包括词序列w_τ，1，...，w_τ，t，...，和概念标签a_τ·从ASR接收的输入词向量x_τ，t111是

x_τ，t＝OneHot(w_τ，t)， (1)

其中，词汇V中的词w_τ，t使用函数OneHot(w)由N中选1编码转换，即，x_τ，t∈{0，1}|v|。

输入向量由投影层120投影到D维向量

x_τ，t′＝W_prx_τ，t+b_pr， (2)

该向量然后被提供给递归隐藏层130，其中，W_pr是投影矩阵，并且b_pr是偏差向量。

在隐藏层130处，根据下式使用LSTM单元来确定启动向量h_τ，t：

i_τ，t＝σ(W_xix′_τ，t+W_hih_τ，t-1+W_cic_τ，t-1+b_i)， (3)

f_τ，t＝σ(W_xfx′_τ，t+W_hfh_τ，t-1+W_cfc_τ，t-1+b_f)， (4)

c_τ，t＝f_τ，tc_τ，t-1+i_τ，ttanh(W_xcx′_τ，t+W_hch_τ，t-1+b_c)， (5)

o_τ，t＝σ(W_xox′_τ，t+W_hoh_τ，t-1+W_coc_τ，t+b_o)，以及 (6)

h_τ，t＝o_τ，ttanh(c_τ，t)， (7)

其中，σ()是按元素的s型函数，并且i_τ,t、f_τ,t、o_τ,t以及c_τ,t分别是用于第τ个语句中的第t个输入词的输入门210、忘记门220、输出门230以及单元启动向量。

由下标z∈{x，h，i，f，o，c}标识加权矩阵W_zz和偏差向量b_z。例如，W_hi是隐藏-输入门矩阵，并且W_xo是输入-输出门矩阵。

输出向量141在各语句的末尾被确定为：

其中，W_HO是变换矩阵，并且b_O是根据隐藏向量将输入向量分类成不同种类的偏差向量。Softmax()是将分类结果转换成标引概率(即，对于标引组L，)的按元素的softmax函数：

其中，y_τ[a]指示针对标引a的y_τ的分量，该分量与标引的概率对应。

为了从之前的语句继承语境信息，在各语句开始时的隐藏和单元启动向量为：

其中，如图2所示，τ>1，并且h_1,0＝c_1,0＝0。

图3示出了我们的语境感测SLU的传播处理。词w_i,j被依次输入到LSTM层130，并且作为输出的标引141与位于语句的末尾的语句概念对应，其中，符号EOS表示“句子末尾”。

与现有技术对比，我们的模型考虑了从对话的开始到结束的整个语境。因此，可以使用句子级的意图和对话级语境来推断标引概率。相比之下，传统模型仅仅独立地考虑各语句。

依赖角色的LSTM层

LSTM层可以使用注释了概念标签的人与人对语句料库来训练，概念标签表示如以下的表1所示的例如酒店预订的委托人和代理人意图。列从左至右指示说话者(例如，代理人和委托人)、语句以及概念标签。语句由代理人和委托人的各角色来表征。

如图4所示，表示委托人(A)和代理人(B)语句的两个平行LSTM层310和320并入模型中。角色门311和321控制哪一个角色、委托人或代理人有效。

两个LSTM层依赖说话者角色而具有不同的参数。由此，用于委托人语句的输入向量111由层310来处理，并且层320处理代理人语句。用于给定语句的有效角色受角色变量R控制，该角色变量用于将输出选通到各LSTM层。

然后，所选通的输出从递归LSTM层传递到输出层140。由此，递归LSTM输入接收来自在之前帧处有效的依赖角色的层的输出，这允许角色之间的转变。

借助对应层向后传播训练阶段的误差信号。各说话者的角色在对话期间不变，并且已知各语句的说话者。然而，模型结构使动态推断角色的可能性为开放式的。因此，我们可以将输出层处的启动确定为：

其中，是由角色R的LSTM层给出的隐藏启动向量，并且是克罗内克(Kronecker)的德尔塔，即，如果作为第τ个语句的角色的R_τ等于角色R，则R为1，否则，R为0。在各语句开始时，依赖角色的层的隐藏和单元启动向量为

并且 (13)

图5示出了依赖角色的SLU的时域处理。对于给定角色中的各语句，仅针对该角色的LSTM层工作，并且在对话轮番期间隐藏启动和单元存储被传播。附图示出了委托人语句(角色A)和代理人语句(角色B)。凭借该架构，可以考虑各对话的长的语境来训练两个LSTM层，并且模型可以准确预测依赖角色的概念标引。

本发明的效果

本发明使用基于角色的LSTM层提供高效语境感测SLU。为了在整个对话期间确定长期特性，我们实施了使用各概念标签的结果词序列来表示意图的LSTM。我们已经评价输入用于SLU的整个对话的语境信息的性能和基于说话者角色的LSTM层的有效性。具有依赖角色层的语境感测LSTM优于基于语句的方法，并且将SLU基线提高了11.6％和8.0％(绝对值)。

Claims

1.一种用于处理语句的方法，该方法包括以下步骤：

从多个当事方获取语句作为词序列，其中，各语句具有关联的各当事方的标识；

将所述词序列和标识转换成特征；

在神经网络NN的输入层中接收各特征；

在所述NN的投影层中减小各特征的维度从而生成降维特征；

处理所述降维特征，以将所述特征传过所述NN的隐藏层；

以及

在所述NN的输出层中确定所述语句的标引的后验概率，

其中，上述步骤在处理器中执行。

2.根据权利要求1所述的方法，其中，所述NN是递归NN RNN，或是在所述NN的隐藏层中具有递归连接且在所述隐藏层中具有长的短期记忆LSTM的RNN。

3.根据权利要求1所述的方法，其中，所述语句是口头的，并且方法还包括：

在自动语音识别系统ASR中将所述语句转换成所述词序列。

4.根据权利要求1所述的方法，其中，所述语句是形成所述词序列的文本。

5.根据权利要求1所述的方法，其中，所述NN是在所述多个当事方之间共享整个对话的语境历史的依赖当事方的神经网络。

6.根据权利要求1所述的方法，其中，在单个NN的不同层间使用依赖当事方的表达。

7.根据权利要求1所述的方法，其中，所述语句形成对话，并且所述对话的语境被考虑，并且使用句子级的意图和对话级的语境来推断所述标引的所述概率。

8.根据权利要求1所述的方法，其中，所述LSTM包括与保持和忘记语境信息的当事方门的递归连接。

9.根据权利要求7所述的方法，其中，所述LSTM包括使用所述当事方门将值记住任意时长的单元。

10.根据权利要求1所述的方法，其中，对所述词序列中的词和特征依次进行处理，并且所述特征包括语义属性、语法属性以及面向任务的属性。

11.根据权利要求1所述的方法，其中，所述特征传过依赖当事方的隐藏层，并且在各语句的末尾输出包括概念标签的语义信息，并且其中，所述概念标签仅表示符号，并且所述语义信息包括符号和结构化信息。

12.根据权利要求1所述的方法，其中，所述语句关于所述多个当事方的角色来表征。

13.根据权利要求7所述的方法，其中，所述当事方门控制所述多个当事方中的哪一方有效。