CN108962224A

CN108962224A - 口语理解和语言模型联合建模方法、对话方法及系统

Info

Publication number: CN108962224A
Application number: CN201810797792.8A
Authority: CN
Inventors: 俞凯; 张慧峰; 朱苏; 樊帅
Original assignee: AI Speech Ltd; Shanghai Jiao Tong University
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-07
Anticipated expiration: 2038-07-19
Also published as: CN108962224B

Abstract

本发明公开一种口语理解和语言模型联合建模方法，包括：从样本库中取样文本序列并转化为相应的训练向量序列；将所述训练向量序列输入至双向长短期记忆网络；采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练；采用双向长短期记忆网络从训练向量序列中提取文本的特征信息用于口语理解模型和语言模型的联合训练，实现了口语理解模型与语言理解模型在语义和语法层面的特征信息的共享。

Description

口语理解和语言模型联合建模方法、对话方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种口语理解和语言模型联合建模方法、对话方法及系统。

背景技术

传统的口语理解系统(Spoken Language Understanding System)和语音识别系统(Automatic Speech Recognition System)相对独立，语意解析基于语音识别系统中语言模型(Language Model)解出的1-best识别结果。

随着计算能力的增强和神经网络的发展，多任务联合建模能够更高效的训练网络，亦能够通过设计网络，提升每个任务的性能。口语理解和语言模型有着相同的模型输入(文本)，联合建模为彼此共享了语意和语法信息，提升了两个任务的性能。但在传统研究中，口语理解和语言模型任务没有很好的结合，其中一个任务往往仅用作辅助训练，模型的两个输出也相对独立。

作为语音识别输出的解码器，语言模型决定了语音识别的性能，应用自适应技术能够得到更好的语音识别结果。传统基于神经网络的自适应技术往往通过设计到目标领域的映射，完全共享源领域的信息，而这样做假设了共享的信息全部有效，忽略了可能存在的不利于训练的信息。

发明内容

本发明实施例提供一种口语理解和语言模型联合建模方法、对话方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种口语理解和语言模型联合建模方法，包括：

从样本库中取样文本序列并转化为相应的训练向量序列；

将所述训练向量序列输入至双向长短期记忆网络；

采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练。

第二方面，本发明实施例提供一种对话方法，包括：

采用本发明的口语理解和语言模型联合建模方法训练得到的口语理解和语言模型，所述方法包括：

语音识别系统根据用户输入确定n-best输出结果；

所述口语理解和语言模型对所述n-best输入结果进行重打分以确定 1-best输出结果；其中，所述1-best输出结果包括槽1-best输出结果和意图1-best输出结果。

第三方面，本发明实施例提供一种口语理解和语言模型联合建模系统，包括：

取样程序模块，用于从样本库中取样文本序列并转化为相应的训练向量序列；

输入程序模块，用于将所述训练向量序列输入至双向长短期记忆网络；

训练程序模块，用于采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练。

第四方面，本发明实施例提供一种对话系统，包括：

语音识别系统，用于根据用户输入确定n-best输出结果；

采用本发明的口语理解和语言模型联合建模方法训练得到的口语理解和语言模型，用于对所述n-best输入结果进行重打分以确定1-best输出结果；其中，所述1-best输出结果包括槽1-best输出结果和意图1-best输出结果。

第五方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项口语理解和语言模型联合建模方法和/或对话方法。

第六方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项口语理解和语言模型联合建模方法和/或对话方法。

本发明实施例的有益效果在于：采用双向长短期记忆网络从训练向量序列中提取文本的特征信息用于口语理解模型和语言模型的联合训练，实现了口语理解模型与语言理解模型在语义和语法层面的特征信息的共享。口语理解和语言模型即从语音识别结果中提取出了结构化的语义信息，又为语音识别系统生成了正确合理的文字并可以被用来对语义识别的n-best结果重打分以得到更加正确的识别内容。同时，语义解析和语言模型具有同样的输入(纯文本)，因此将两个任务合并是有意义且高效的。我们提出的模型能够同时对一段文字进行语义解析且完成语言模型的打分，其训练时能够将口语解析任务所提取的语义信息和语言模型任务所提取的语法信息进行共享，且加入了语言模型的无监督训练能够增强语义解析的鲁棒性，并且我们首次应用了带对抗训练的共享私有模型(以求让模型选择性的共享信息，减少共享信息的负面影响)进行领域自适应，以引入大量易获得的无特定领域的无标注文本数据，加强语言模型的能力及进一步提升了语义解析的鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的对话系统原理图；

图2为本发明的对话系统一实施例的原理图；

图3为本发明的口语理解和语言模型联合建模方法的一实施例的流程图；

图4为本发明的口语理解和语言模型联合建模方法的另一实施例的流程图；

图5为本发明的口语理解和语言模型联合建模方法的又一实施例的流程图；

图6为BLSTM多任务模型(MTM)体系结构的示意图；

图7a-7d为本发明中的四种自适应多任务模型的架构图；

图8为本发明的对话方法的一实施例的流程图；

图9为本发明的口语理解和语言模型联合建模系统的一实施例的原理框图；

图10为本发明的口语理解和语言模型联合建模系统中的训练程序模块的一实施例的原理框图；

图11为本发明的口语理解和语言模型联合建模系统中的训练程序模块的另一实施例的原理框图；

图12为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

口语理解(Spoken Language Understanding，SLU)旨在从语音识别文本中提取结构化信息，这些结构化信息语言会遭受不准确的自动语音识别 (和语音识别系统(Automatic Speech Recognition，ASR)(特别是在特定对话域中)的影响。语言建模模型(Language Model，LM)对于生成自然语句的ASR很重要。为了改善特定领域的SLU性能，本发明目标通过以下两点改善口语理解性能，1)通过训练自适应的语言模型对语音识别 n-best结果重打分改善语音识别系统输出；2)通过口语理解和语言模型的联合建模提升语言模型能力和口语理解鲁棒性。

为了统一这两种方法，本发明提出联合执行两个SLU任务(时隙槽填充和意图检测)，特定领域LM和无限定领域LM的多任务模型(MTM， multi-task model)。在所提出的多任务体系结构中，利用共享专用网络自动学习哪些部分的通用数据可以被特定领域共享。本发明试图进一步提高特定领域中的SLU和ASR性能，其中，该特定领域中包含特定领域中少数标记数据以及大量未标记数据。实验表明，与通用领域LM相比，所提出的MTM可以在汽车导航域中获得4.06％的绝对WER(词错误率)减少。对于语言理解，MTM胜过手动转录本ASR 1-best最佳输出的基线(特别是槽填充任务)。通过利用领域自适应LM来重新设置ASR输出，我们提出的模型在SLU(槽填充任务的绝对F1增加7.08％)方面实现了进一步的改进。

传统改善口语理解的方法往往在于增加改善训练数据，扩大模型参数量，应用半监督训练引入无标注数据等，近期亦有研究将语音识别系统错误信息添加到了口语理解中以改善鲁棒性；为改善语音识别系统能力，自适应技术应用于语言模型的解码，但始终口语理解和语音识别系统相对独立。如图1所示，其中，ASR为语音识别系统，SLU为口语理解模型，tag 为对齐词意标注预测输出，intent为非对齐句意标注输出。

本专利通过结合口语理解和语言模型，主动改善语音识别结果，提升口语理解性能及鲁棒性。具体步骤如图2所示，其中，ASR为语音识别系统，SLU+LM为口语理解和语言模型联合建模的模型，tag为槽填充(对齐词意标注预测输出)，intent为意图检测(非对齐句意标注输出)。

如图3所示，为本发明的口语理解和语言模型联合建模方法的一实施例的流程图，该方法包括，

S10、从样本库中取样文本序列并转化为相应的训练向量序列；

S20、将所述训练向量序列输入至双向长短期记忆网络；

S30、采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练。

本发明采用具有长期短期记忆(LSTM)的递归神经网络作为槽填充，意图检测和语言建模模型。

时间t时的输入表示为xt，并通过以下组合函数实现LSTM：

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (1)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (2)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g) (3)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o) (4)

c_t＝f_t⊙c_t-1+g_t⊙i_t (5)

h_t＝o_t⊙tanh(c_t) (6)

其中，h_t是时间步t的隐藏状态，h_t-1是时间步t-1的隐藏状态或时间步0 的初始隐藏状态，c_t是单元状态，i_t，f_t，g_t，o_t分别是，它是输入门，遗忘门忘记了，单元门格和输出门，W_xi，W_xf，W_xg，W_xo是权重矩阵，b_i，b_f，b_g， b_o是偏差。tanh和sigmoid函数σ是两个激活函数。

把公式1-6简写如下：

h_t＝LSTM(x_t，h_t-1；Θ) (7)

其中，Θ代表LSTM的所有参数。当应用双向LSTM(BLSTM)时，在每个时间步t，两个LSTM分量：和在输入中向前和向后移动，是历史和未来的与上下文相关的表示。然后，将来自两个方向的隐藏表示连接在一起作为每个输入x_t的上下文特定表示，该输入x_t以整个输入x为条件。该表示可以写作如下：

如图4所示，本发明的口语理解和语言模型联合建模方法中，所述采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练包括：

S31、槽填充训练步骤：

S311、将所述网络输出作为单词表示，并映射到槽标签空间；

S312、采用softmax对单词的所有可能槽标签做归一化处理作为预测分布；

S313、对所述预测分布进行最小化交叉熵优化；

S32、意图检测训练步骤：

S321、将多个时间点的所述长短期记忆网络的多个网络输出求和后映射到意向标签空间；

S322、采用softmax对单词的所有可能的意向标签做归一化处理作为标准化分布；

S323、对所述标准化分布进行最小化交叉熵优化。

给定一个文本序列，我们首先将每个字词索引投影到一个嵌入向量空间 w＝[w₀，w₁，...，w_T]作为LSTM输入。

对于插槽填充，将LSTM输出h_t作为单词表示输入到线性输出层，投影到槽标签空间。我们将softmax应用于输出，并直接给出每个单词的所有可能标签K上的归一化分布作为预测。

其中，W_tag是权重矩阵，b_tag是偏差。给定一个包含N个训练样本{(w_i； y_i)}的语料库，通过最小化交叉熵损失来优化该模型，这相当于将正确标记标签的负对数概率最小化：

其中，T_i是第i个句子的长度，y是地面真实的标签标签。

对于意图检测，我们将LSTM在每个时间步的隐藏状态总结相加为hsum，并将其馈送到并行线性输出层，该层将该组件投影到意向标签空间。与插槽填充类似，我们在softmax之后实现所有可能的意向标签上的标准化分布。

并且，相应的交叉熵损失如下所示：

如图5所示，本发明的口语理解和语言模型联合建模方法中，所述采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练还包括：

S331、预先设置与所述语言模型并行的并行线性输出层；

S332、将所述网络输出作为单词表示输入至所述并行线性输出层，以确定所有单词的概率分布；

S333、对所述所有单词的概率分布进行最小化交叉熵优化。

除了语言理解之外，我们还提出了语言建模模型的次要目标。这个任务传统上试图预测下一个单词，而我们的目标是评估整个句子中的单词存在的合理性。因此，我们试图预测除目标词以外的整个句子的目标词概率。同时，该任务要求模型学习更一般的语义和句法成分模式，这对语言理解有帮助。

基于LSTM输出ht作为词表示，我们增加一个语言建模并行线性输出来预测词的存在概率。对于单向模型，每个单词的概率如下：

对于双向模型，由于预测只应以除目标词之外的整个句子为条件，因此我们必须设计损失目标，以便仅对尚未观察目标词的模型部分进行优化以执行预测。

最后，语言建模模型的目标损失描述如下：

图6展示了展开BLSTM多任务模型(MTM)体系结构的示意图，其中句子长度为2的示例。在每个时间步骤t，模型被优化以预测当前时隙标签和字概率，并且最后，模型预测句子意图。在这里，我们添加<s>和</s>来表示句子的开始和结束，w_t表示时间步t的输入词。

与特定域中的标记数据相比，实现大量未标记的通用域数据相当简单。因此，传统的重新分类通常使用大量未标记的通用领域数据进行训练的大型语言模型，而我们试图利用特定领域中的一些数据来适应语言建模。

模型自适应模型有很多种，如输出插值和线性投影。由于我们也希望所有未标记的数据能够输入到模型中，并有助于提高语言理解的稳健性，所以最好通过模型来调整语言建模。因此，应用共享方案来实现适应性，并且我们使用三种模型：MTM，简单共享私有MTM和共享私有MTM。我们还引入了共享私有模型的对抗性损失，该模型由提出，以限制共享模型部分来提取独立于域的特征，并在几个任务中取得重大改进。

在这里，我们将Dg，Dd分别表示为具有Ng，Nd样本量的一般和特定领域的数据。

训练自适应模型最直接的方法是将数据一般和特定的领域一起提供。在这个模型中，两个数据领域完全共享他们的参数，并忽略从一般数据中学习到的信息的负面影响。方程式20描述了联合训练的损失。

其中，g，d分别表示通用领域和特定领域，λ_lm，λ_tag，λ_intent是控制其重要性的每个任务的损失权重。

如图7a-7d所示为四种自适应多任务模型的架构，其中图7a中，Dg，Dd 表示数据在一般和特定领域，tag，intent和w分别是槽填充，意图检测和语言建模模型的输出，Dd|g表示数据源的预测，无论是Dd还是DG。

如图7b所示，该模型为特定领域数据提供私人私有部分，并将一般通用数据用作特征提取器，为特定领域任务提供额外的词表示。我们可以计算连接的特定域字是词表示如下：

同时，语言建模模型有两个输出依赖于领域。由于我们旨在实现自适应特定域语言建模模型，因此应用特定域输出更合理，而通用输出有助于保留常规数据信息。以下型号模型符合遵照相同的方案。

基于simple-SP-MTM，SP-MTM进一步为一般通用数据提供私人私有模型部分，并使一般通用数据能够保留地共享其信息。共享模型部分分别为每个要利用的任务提供特征，但仍保留从所有数据中学到的知识。SP-MTM如图 7c所示，一般通用和特定领域的数据的字表示在方程22-23中描述。

向共享私人私有模型添加对抗性损失的想法是，它试图学习一个纯粹的和独立于域的共享模型部分。有一个区分网络D学习区分数据源域，而共享区域作为生成网络学习生成区域独立词表示以供D区分。

对于图7d中的敌对对抗共享私有模型，共享部分对抗线性数据源鉴别器，阻止其准确预测数据源是Dd还是Dg。这种对抗性培训鼓励共享部分更加纯粹，并确保共享部分的单词呈现不被域依赖。

我们尝试了几种对抗训练方案，包括1)直接反向传播负交叉熵损失，2) 随机数据源标记或3)GAN(生成对抗网络)如训练方案，以及最后，方案1) 达到最佳性能。因此，我们应用的鉴别器的对抗性损失是负交叉熵损失，它试图训练鉴别器不进行准确的预测，函数在公式24中描述。

因此，我们有了多任务模型的新损失，并增加了对抗训练。

其中，λ_adv是对抗性损失的权重。

如图8所示，本发明实施例还提供一种对话方法，采用前述任一实施例中的口语理解和语言模型联合建模方法训练得到的口语理解和语言模型，该对话方法包括：

S81、语音识别系统根据用户输入确定n-best输出结果；

S82、所述口语理解和语言模型对所述n-best输入结果进行重打分以确定 1-best输出结果；其中，所述1-best输出结果包括槽1-best输出结果和意图 1-best输出结果。

实验

我们准备了中文导航的特定领域语料库和中文短信的通用领域语料库，用于从实际对话中收集的实验。

表1中的导航语料库包含带有标签和ASR n-best结果的相应识别文本的手动抄本文本。我们提取一些带有标签的手动抄本文本作为训练集，并提供一些具有公认最佳结果的手动抄本文本作为测试集。由于训练集的数量由于人工标注的难度而受到限制，因此我们将训练集作为模式，并应用包含从互联网和前语料库收集到的时隙值的时隙数据库来扩展训练集。由于最终目标是直接解析手动抄本语义信息，所识别的文本应用手动抄本文本的标签。表1中的SMS语料库包含大量未标记的日常对话数据，这些数据提供了额外的语言知识。

表1.导航统计，SMS语料库作为特定和一般域数据。第1-3列表示培训的数量，有效和测试组合。列4表示模式的数量，列5表示词汇的大小。

将每个领域的训练集进一步随机分为训练集和有效集，所有数据集的详细数量列于表中。1.我们将谷歌字符串标记器与ASR和SLU阶段中涉及的大型词汇应用于分词并从每个领域的训练集中提取词汇，出现时间过滤器为2，其替换在训练集中出现少于两次的词与<UNK>。

由于BLSTM是语言理解和语言建模任务中使用最广泛的模型之一，并且已经在几个语料库上获得了某些任务的最新结果，所以我们将它用作具有线性多任务的基线。

超参数

该模型的参数随机用[-0.1,0.1]中的均匀分布值初始化。我们用16个小批量方案训练模型。对于所有模型，我们将BLSTM的嵌入尺寸和隐藏尺寸设置为100，应用0.5的丢失[27]以实现更好的训练性能，剪切所有梯度按5.0的最大范数来避免梯度爆炸。Adam[28]被用作优化器，学习率被设置为0.001。所有任务的损失权重直接设为1.0，对抗损失权重为0.4。

评估

对于语言理解，我们通过语义元组以[slot：value]的形式评估模型插槽 F1得分，这些语义元素是从预测插槽标记中提取的。我们还计算了意向 F1分数作为模型意图检测性能的度量。而对于语言建模来说，由于单向和双向模型输出受限于不同的上下文信息，我们直接使用重新计算的WER 来评估语言建模能力。

表2.单向和双向模型的导航测试集的结果包括重新计算的字错误率和槽，手动转录本上的意向F1分数，ASR 1最佳，重新计算1最佳文本。

我们首先通过由导航语料库训练的多任务模型(MTM)来评估双向语言建模的性能，表2中的结果表明，与单向模型相比，双向模型提供了更好的性能不仅在F1和F1意图上，而且还重新计算了WER(从15.34％到15.06％)。因此，进一步实验中的模型都是双向的。

其次，我们评估表3中所示的多任务模型(MTM)的性能。由于ASR 1最好的和重新评分的1最好的文本包含来自ASR的错误，并且标签直接来自手动抄本文本，这严格要求正确的槽位预测值，所以槽位F1得分明显比手动转录本的性能差文本也揭示了SLU系统在实际应用中遇到的健壮性问题。对于手动抄本文本的结果，STM(LU)和MTM(通过导航数据训练)模型在槽F1(92.76％和92.97％)和意图F1(从99.35％到99.45 ％)上的性能略高于语言建模(从15.34％到15.06％)。此外，从ASR 1 最好的结果和重新评估的1最佳文本的结果中，我们可以观察到时隙和意图F1的显着增量，这证明次要语言建模目标有助于提高时隙填充和意图检测的稳健性。在ASR 1最佳文本中，插槽F1从48.42％增加1.75％到50.17％，意图F1从97.80％增加0.70％到98.50％，而在重新分类1个最佳文本时，插槽F1从58.63％提高1.99％到60.62％而意图F1从0.48％提升至0.48％，98.11％至98.59％。

表3.在导航测试中的LM重新评估结果的WER，其中adv-SP-MTM 达到最佳性能。

表4.导航手册副本ASR 1最好的插槽，意图F1结果重新评估了1个最佳测试集，其中adv-SP-MTM在所有测试集上获得最佳时隙F1，但不幸的是，与MTM训练相比，意图F1的表现不佳通过导航数据。值得注意的是，重新编码的1最好的文本是从表3中的对应模型重新生成的，而STM(LU)重新编码的1最佳文本的性能是在STM(LM)重新编码的最佳文本上评估的，

然后，我们将共享私人模型与少量导航数据和大量短信数据一起应用，以实现域适应性词表示。如第3.2节所述，我们将特定的域语言建模输出应用于重新分级，因为它将单词表示适配到特定域。每个模型的结果如表3,4所示，这表明该领域适应性词语表达有效地提高了语言建模的性能。在MTM和simple-SP-MTM的比较中，重新计算的1最佳文本和WER 上的槽F1的改进表示留下专用域数据的私有参数以适应语言建模的好处，而手动转录本和ASR 1最佳文本揭示了充分共享可能带来负面影响的信息的风险。在简单-SP-MTM和SP-MTM的比较中，结果表明了私人部分对一般数据的有效性，模型自己学习应该共享哪些部分的信息，哪些不应该。adv-SPMTM提供共享方案，增量强调限制共享参数的重要性。最后， adv-SP-MTM将WER 4.06％从17.12％降至13.06％。同时，短信数据有助于模型学习更多的语言信息，并进一步提高语言理解性能的稳健性。在 ASR 1最佳文本中，插槽F1从手动抄本文本的92.76％增加1.14％到2.96 ％，从48.42％增加到51.38％。随着WER的减少和ASR 1最佳文本上的 F1插槽的增加，对于重新分类的1最佳文本，插槽F1进一步优于从58.63 ％到65.71％的7.08％。值得注意的是，对于意图F1，与由导航语料库训练的非自适应MTM相比，几乎所有的共享-私人模型都略微退化(但不知不觉地胜过STM)，因为外部词表示可能会引入一些误导性信息最终积累推动意图的错误预测。

我们还对表5中的adv-SP-MTM中的特定域和通用域的两个输出的插值进行了补充实验，其中没有一个插值权重优于特定域输出重新计算的WER，这验证了3.2中的分析。

总之，通过多任务学习和领域自适应方案，该模型可以实现更准确的重新分类文本和更强大的语言理解能力。最终，adv-SP-MTM的WER降低了4.06％，F1组的最优文章增加了7.08％，而F1的差异增加了0.03％。

表5.adv-SP-MTM的导航测试集中的LM重新编码结果的WER包括插入重新计算的字错误率。Delta分别表示来自特定(d)，一般(g)域语言建模输出的分数的插值权重。

结论

在本文中，我们提出了一个领域自适应多任务模型，以提高识别文本的语言理解能力，可以共同执行插槽填充，意图检测和语言建模。实验证明，多任务模型(MTM)通过不断建模输入词，填充槽时隙和检测句子意图，优于单任务模型(STM)，并通过应用领域自适应模型进一步改进。Adv-SP-MTM实现了最佳性能，减少了WER的4.06％，并且时隙F1 增加了7.08％(在重新计算的1-best文本上)。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图9所示，本发明的实施例还提供一种口语理解和语言模型联合建模系统900，其包括：

取样程序模块910，用于从样本库中取样文本序列并转化为相应的训练向量序列；

输入程序模块920，用于将所述训练向量序列输入至双向长短期记忆网络；

训练程序模块930，用于采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练。

如图10所示，本发明的口语理解和语言模型联合建模系统900的一些实施例中，所述训练程序模块930包括：

第一标签空间确定程序单元931，用于将所述网络输出作为单词表示，并映射到槽标签空间；

第一归一化程序单元932，用于采用softmax对单词的所有可能槽标签做归一化处理作为预测分布；

第一交叉熵程序单元933，用于对所述预测分布进行最小化交叉熵优化；

第二标签空间确定程序单元934，用于将多个时间点的所述长短期记忆网络的多个网络输出求和后映射到意向标签空间；

第二归一化程序单元935，用于采用softmax对单词的所有可能的意向标签做归一化处理作为标准化分布；

第二交叉熵程序单元936，用于对所述标准化分布进行最小化交叉熵优化。

如图11所示，本发明的口语理解和语言模型联合建模系统900的一些实施例中，所述训练程序模块930还包括：

设置程序单元937，用于预先设置与所述语言模型并行的并行线性输出层；

概率分布确定程序单元938，用于将所述网络输出作为单词表示输入至所述并行线性输出层，以确定所有单词的概率分布；

第三交叉熵程序单元939，用于对所述所有单词的概率分布进行最小化交叉熵优化。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项口语理解和语言模型联合建模方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项口语理解和语言模型联合建模方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行口语理解和语言模型联合建模方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时口语理解和语言模型联合建模方法。

上述本发明实施例的口语理解和语言模型联合建模系统可用于执行本发明实施例的口语理解和语言模型联合建模方法，并相应的达到上述本发明实施例的实现口语理解和语言模型联合建模方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor) 来实现相关功能模块。

图12是本申请另一实施例提供的执行口语理解和语言模型联合建模方法的电子设备的硬件结构示意图，如图12所示，该设备包括：

一个或多个处理器1210以及存储器1220，图12中以一个处理器1210 为例。

执行口语理解和语言模型联合建模方法的设备还可以包括：输入装置1230和输出装置1240。

处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线或者其他方式连接，图12中以通过总线连接为例。

存储器1220作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的口语理解和语言模型联合建模方法对应的程序指令/模块。处理器 1210通过运行存储在存储器1220中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例口语理解和语言模型联合建模方法。

存储器1220可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据口语理解和语言模型联合建模装置的使用所创建的数据等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1220可选包括相对于处理器1210远程设置的存储器，这些远程存储器可以通过网络连接至口语理解和语言模型联合建模装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1230可接收输入的数字或字符信息，以及产生与口语理解和语言模型联合建模装置的用户设置以及功能控制有关的信号。输出装置 1240可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1220中，当被所述一个或者多个处理器1210执行时，执行上述任意方法实施例中的口语理解和语言模型联合建模方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种口语理解和语言模型联合建模方法，包括：

从样本库中取样文本序列并转化为相应的训练向量序列；

将所述训练向量序列输入至双向长短期记忆网络；

2.根据权利要求1所述的方法，其中，所述采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练包括：

槽填充训练步骤：

将所述网络输出作为单词表示，并映射到槽标签空间；

采用softmax对单词的所有可能槽标签做归一化处理作为预测分布；

对所述预测分布进行最小化交叉熵优化；

意图检测训练步骤：

将多个时间点的所述长短期记忆网络的多个网络输出求和后映射到意向标签空间；

采用softmax对单词的所有可能的意向标签做归一化处理作为标准化分布；

对所述标准化分布进行最小化交叉熵优化。

3.根据权利要求1或2所述的方法，其中，所述采用所述双向长短期记忆网络的网络输出进行口语理解模型和语言模型的联合训练还包括：

预先设置与所述语言模型并行的并行线性输出层；

将所述网络输出作为单词表示输入至所述并行线性输出层，以确定所有单词的概率分布；

对所述所有单词的概率分布进行最小化交叉熵优化。

4.根据权利要求3所述的方法，其中，所述样本库中包括预定领域样本和通用领域样本。

5.一种对话方法，采用权利要求1-4中任一项所述的方法训练得到的口语理解和语言模型，包括：

语音识别系统根据用户输入确定n-best输出结果；

所述口语理解和语言模型对所述n-best输入结果进行重打分以确定1-best输出结果；其中，所述1-best输出结果包括槽1-best输出结果和意图1-best输出结果。

6.一种口语理解和语言模型联合建模系统，包括：

7.根据权利要求6所述的系统，其中，所述训练程序模块包括：

第一标签空间确定程序单元，用于将所述网络输出作为单词表示，并映射到槽标签空间；

第一归一化程序单元，用于采用softmax对单词的所有可能槽标签做归一化处理作为预测分布；

第一交叉熵程序单元，用于对所述预测分布进行最小化交叉熵优化；

第二标签空间确定程序单元，用于将多个时间点的所述长短期记忆网络的多个网络输出求和后映射到意向标签空间；

第二归一化程序单元，用于采用softmax对单词的所有可能的意向标签做归一化处理作为标准化分布；

第二交叉熵程序单元，用于对所述标准化分布进行最小化交叉熵优化。

8.根据权利要求6或7所述的系统，其中，所述训练程序模块还包括：

设置程序单元，用于预先设置与所述语言模型并行的并行线性输出层；

概率分布确定程序单元，用于将所述网络输出作为单词表示输入至所述并行线性输出层，以确定所有单词的概率分布；

第三交叉熵程序单元，用于对所述所有单词的概率分布进行最小化交叉熵优化。

9.根据权利要求8所述的系统，其中，所述样本库中包括预定领域样本和通用领域样本。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。