CN108417205A

CN108417205A - 语义理解训练方法和系统

Info

Publication number: CN108417205A
Application number: CN201810054757.7A
Authority: CN
Inventors: 俞凯; 朱苏
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2018-08-17
Anticipated expiration: 2038-01-19
Also published as: CN108417205B

Abstract

本发明公开语义理解训练方法、系统和电子设备，方法包括：对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；将所述用户语音数据输入语音识别系统进行识别以得到识别文本；将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入语义理解系统以对所述语义理解系统进行无监督自适应训练。本发明可以仅对正确文本进行标注，而无需对识别文本进行标注，通过对正确文本、带语义标注的正确文本和无标注的识别文本进行无监督的自适应学习，可以训练得到对语音识别错误鲁棒的语义理解系统。

Description

语义理解训练方法和系统

技术领域

本发明属于语义理解训练技术领域，尤其涉及用于智能对话语音平台的语义理解训练方法和系统。

背景技术

语义理解(SLU，Spoken Language Understanding)模块是口语对话系统(SDS，Spoken Dialogue System)的一个关键组成部分，将用户的话语解析为相应的语义概念。例如，“显示我从波士顿到纽约的航班”的话语可以被解析为(fromloc.city name＝Boston，toloc.city name＝New York)。通常，SLU问题被认为是语义理解任务。我们在本发明中也专注于语义理解。在充分的域内数据和深度学习模型(例如递归神经网络、双向长短记忆网络)的情况下，统计方法在语义理解任务中已经实现了高性能。

发明人在实现本发明的过程中发现：以前关于SLU的大多数工作只关注正确文本，忽略了自动语音识别(ASR，Automatic Speech Recognition)错误。用于识别文本时，在正确文本上训练的SLU系统会显著降低性能。为了提高系统的鲁棒性，传统的方法需要足够的带标注的识别文本数据进行训练。然而，对识别文本的语义标注是一个劳动密集型和耗时的任务。此外，当ASR系统改变时，识别文本也可能改变，从而识别文本上的语义标注可能需要被更新。Tur等人研究了识别文本与词混淆网络结合的语义理解。该方法通过训练数据的ASR对齐技巧自动创建关于识别文本的标注，但是自动对齐可能创建错误的数据样本。

发明内容

本发明实施例提供一种语义理解训练方法、系统及电子设备，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语义理解训练方法，包括：对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；将所述用户语音数据输入语音识别系统进行识别以得到识别文本；将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入至语义理解系统进行无监督自适应训练。

第二方面，本发明实施例提供一种语义理解训练系统，包括：标注模块，配置为对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；识别模块，配置为将所述用户语音数据输入语音识别系统进行识别以得到识别文本；训练模块，配置为将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入至语义理解系统进行无监督自适应训练。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语义理解训练方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语义理解训练方法的步骤。

本发明的方法和系统通过以上技术方案可以仅对正确文本进行标注，而无需对识别文本进行标注，通过对正确文本、带语义标注的正确文本和无标注的识别文本进行无监督的自适应学习，可以训练得到对语音识别错误鲁棒的语义理解系统。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语义理解训练方法的流程图；

图2为本发明一实施例提供的另一种语义理解训练方法的流程图；

图3为本发明一实施例提供的又一种语义理解训练方法的流程图；

图4为本发明一实施例提供的再一种语义理解训练方法的流程图；

图5为本发明一实施例提供的语义理解训练方法实现框图；

图6为本发明一实施例提供的无监督自适应学习的原理框图；

图7为本发明一实施例提供的语义理解训练系统的框图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面，先介绍本申请的实施方式，之后将用实验数据证实本申请的方案与现有技术相比有什么不同，能实现什么有益效果。

请参考图1，其示出了本发明的语义理解训练方法一实施例的流程图，本实施例的语义理解训练方法可以适用于智能对话语音平台。

如图1所示，在步骤101中，对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；

在步骤102中，将用户语音数据输入语音识别系统进行识别以得到识别文本；

在步骤203中，将正确文本、带语义标注的正确文本和识别文本随机地输入至语义理解系统进行无监督自适应训练。

在本实施例中，对于步骤101，语义理解训练系统可以对用户语音数据对应的正确文本进行语义标注，从而可以得到带语义标注的正确文本。例如可以采用人工标注，或者是开发者在开发自己的语音软件时自己输入语音和正确文本并对正确文本进行标注。之后，对于步骤102，语义理解训练系统将用户语音数据输入至语音识别系统识别，从而可以得到识别文本，识别文本都是和语音识别系统挂钩的，识别能力强，识别出来的文本就能更接近正确文本，或者直接识别出来的就是正确文本，这种情况相对比较少。最后，对于步骤203，语义理解训练系统将正确文本、带语义标注的正确文本和识别文本随机地输入至语义理解系统进行无监督自适应训练，由于随机地无监督自适应训练，无需对识别文本进行语义标注，可以使语义理解系统能够摆脱对识别文本的语义标注的依赖，从而将在正确文本上的语义标注迁移到识别文本上，实现对语音识别错误的鲁棒性。

进一步参考图2，其示出了本发明的语义理解训练方法另一实施例的流程图。本流程图主要针对语音识别系统更新的应用场景。本实施例的语义理解训练方法可以适用于智能对话语音平台。

如图2所示，在步骤201中，响应于语音识别系统更新，将用户语音数据再次输入至更新后的语音识别系统进行识别以得到更新后的识别文本；

在步骤202中，将正确文本、带语义标注的正确文本和更新后的识别文本随机地输入语义理解系统以对语义理解系统进行无监督自适应训练。

在本实施例中，对于步骤201，语义理解训练系统响应于语音识别系统的更新，将用户语音数据再次输入至更新后的语音识别系统中，从而可以得到更新后的识别文本。之后，对于步骤201，语义理解训练系统重新将正确文本、带语义标注的正确文本和更新后的识别文本随机地输入语义理解系统进行无监督自适应训练。从而语义理解训练系统能够响应于语音识别系统的更新，自动地对语义理解系统进行更新，无需对更新后的识别文本进行语义标注，而正确文本上的语义标注也无需随着语音识别系统的更新重新标注，一次正确文本上的语义标注可以持续使用，极大地节省人力物力。

进一步参考图3，其示出了本发明的语义理解训练方法又一实施例的流程图。本流程图是针对图1中步骤103的细化步骤的流程图。本实施例的语义理解训练方法可以适用于智能对话语音平台。

如图3所示，在步骤301中，为语义解析任务、正确文本输入重现任务和识别文本输入重现任务设置共享参数；

在步骤302中，随机地向语义理解系统中的各任务输入带语义标注的正确文本、正确文本和识别文本中的任意一种，使各任务的共享参数之间对抗学习，以强化语义理解系统的语义理解能力。

在本实施例中，语义理解系统中设置有：对应于带语义标注的正确文本的语义解析任务、对应于正确文本的正确文本输入重现任务和对应于识别文本的识别文本输入重现任务。对于步骤301，语义理解训练系统为各任务设置共享参数，之后在步骤302中，通过随机地向各任务输入各文本中的任意一种，使各任务的共享参数之间进行对抗学习，从而可以使共享参数更加地任务不相关，也能通过对抗学习将带语义标注的正确文本上的语义标注迁移到识别文本上，从而强化语义理解系统语义理解能力和对于语音识别错误的鲁棒性。

进一步参考图4，其示出了本发明的语义理解训练方法再一实施例的流程图。本流程图采用双向神经网络建模的应用场景的流程图。本实施例的语义理解训练方法可以适用于智能对话语音平台。

如图4所示，在步骤401中，采用双向神经网络对各任务的语义理解过程建立双向神经网络模型，利用双向神经网络模型将词序列编码成隐向量序列；

在步骤402中，设置四套双向神经网络模型参数，包括用于生成语义解析任务的专属隐向量的第一参数、用于生成正确文本输入重现任务的专属隐向量的第二参数、用于生成识别文本输入重现任务的专属隐向量的第三参数，以及用于生成语义解析任务、正确文本输入重现任务和识别文本共享隐向量的共享参数。

语义理解过程包括将各文本中的句子表示为词序列，预测词序列中的每一个词的语义槽标签得到语义槽序列，本发明中，将口语语义理解看成是一个词序列标注问题，即把用户说的句子看成是一个词序列w＝(w₁，w₂，...，w_N),其中N是句子长度(即词的个数)，语义理解目标是预测词序列中每一个词的语义槽并得到语义槽序列s＝(s₁，s₂，...，s_N)，其中语义槽是一些特定的概念或者属性，比如“中转城市”、“歌曲名称”等。该方法采用双向神经网络(BLSTM，Bidirectional Long Short Term Memory network)对词序列标注过程进行建模。

BLSTM模型对输入句子的编码过程可以表示为：

其中是BLSTM中的反向隐向量，是BLSTM中的正向隐向量，是词w_i的词向量，是向量拼接操作。BLSTM将词序列编码为隐向量序列：(h₁...h_T)＝BLSTM_Θ(w₁...w_T)。

在无监督自适应学习中，本发明设定了四套BLSTM参数，分别为:

BLSTMΘtag：用于生成专属于语义解析任务的隐向量；

BLSTMΘtscp：用于生成专属于正确文本输入重现任务的隐向量；

BLSTMΘasr：用于生成专属于识别文本输入重现任务的隐向量；

BLSTMΘshd：用于生成任务共享(不相关)的隐向量；

语义解析任务：将BLSTMΘtag和BLSTMΘshd输出的隐向量拼接，过一个线性网络层，预测每一个词的语义槽标签；

输入重现任务(双向语言模型)：将BLSTMΘtscp(或者BLSTMΘasr)和BLSTMΘshd输出的隐向量拼接，用正向隐向量预测下一个词(正向语言模型)，用反向隐向量预测上一个词(反向语言模型)；

对抗学习任务：将BLSTMΘshd隐向量输入一个线性网络层进行分类，随机地分配一个任务类别，让BLSTMΘshd变得任务不可分(任务不相关)。

最后使用的时候，把识别文本输入到BLSTMΘtag和BLSTMΘshd以及“语义解析”模型中，获取识别文本的语义信息。

进一步参考图5，其示出了本发明一实施例提供的语义理解训练方法实现框图。

需要说明的是，现有技术中，通常采用以下方案进行语义理解模型或系统的训练。

(1)基于有监督学习的一般口语语义理解，人工标注：需要在每句语音的正确文本上进行人工的语义标注，然后结合数据驱动的方法训练语义理解模型。

(2)基于有监督学习的鲁棒口语语义理解，人工标注：需要在语音识别后的文本上进行人工的语义标注，然后结合数据驱动的方法训练语义理解模型。

(3)基于有监督学习的鲁棒口语语义理解，自动标注：需要在语音对应的人工转写文本上进行人工语义标注，然后基于语音识别的自动对齐技术，在语音识别后的文本上进行自动的语义标注，然后结合数据驱动的方法训练语义理解模型。

其中，方案(1)由于只用到正确文本，对语音识别错误的鲁棒能力比较差。方案(2)由于语音识别系统是会经常更新和变动，相应地同一段语音的识别结果会发生变化(比如变长、变短、文字意思偏移)；直接在语音识别结果上的人工标注无法复用，且需要重新标注，标注成本太高且速度慢。方案(3)中虽然可以使用语音识别的自动对齐技术自动获取语音识别结果的语义标注，但自动对齐技术并不能有完美的对齐精度，且语音识别错误较多时，识别出来的文本和用户真实想表达的意图会有偏差，从而产生一些错误的语义标注样本。

本领域技术人员在解决上述方案中存在的问题时，通常的思路是：对于方案(1)花大成本，在语音识别结果上进行人工标注，对于方案(2)仅利用在语音正确文本上的语义标注，研究对语音识别错误的更鲁棒的统计模型，但限于该方法只利用了正确文本，最终无法突破识别错误的瓶颈。

而本案的发明人创新性地将无监督自适应学习引入语义理解训练中，把“在语音正确文本上的语义理解”和“在语音识别结果上的语义理解”看成一个数据自适应问题，具有一定的学术创新性，这是没有创造能力的本领域技术人员不容易想到的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

接下来，以一个具体的示例来论述本发明的实现过程和效果。

识别文本中SLU性能的下降是由于训练和评估之间的语义分布不匹配造成的。我们提出了一种无监督自适应方法来将在正确文本上训练的语义理解模型转移到识别文本上。在这种方法中，语义标记的正确文本被用于语义理解任务。正确文本和识别文本被用于无监督任务(例如语言建模)。语义理解任务与无监督任务共享一部分参数，以便它可以从正确文本迁移到识别文本上。此外，使用对抗训练技巧来强制共享参数与任务无关。

我们是第一个研究无需对识别文本进行标注的语义理解的无监督ASR错误自适应问题的。这对于部署商业对话系统可能是有用的。我们针对SLU中的ASR错误自适应问题提出了一种利用成对的正确文本和识别文本进行对抗自适应的方法。实验结果表明，我们的方法显著优于强基线。

无监督ASR错误自适应

以下，给出了无监督ASR错误自适应的细节。这种方法只需要语义理解的带语义标注的正确文本和与ASR错误自适应的识别文本配对的原始正确文本，从而避免识别文本上的注释。本方法中使用的相应数据源如下所示：

tag：带语义标注的正确文本。

tscp：正确文本。

asr：由ASR系统提供的识别文本。

BLSTM参数

我们使用双向LSTM(BLSTM)模型作为输入的参数。设e_w表示每个单词w的单词嵌入，表示向量级联操作。参数读取输入句子w＝(w1，w2，...，wT)并产生BLSTM的T隐藏状态：

其中是BLSTM中向后传递的隐向量，是BLSTM中正向传递的隐向量，f_l和f_r分别是向后和向前传递的LSTM单元。

我们将整个操作写为映射BLSTMΘ：

(h₁...h_T)＝BLSTM_Θ(w₁...w_T)

无监督自适应学习

在无监督ASR错误自适应中，我们利用正确文本上的SLU标注而不是识别文本。我们使得语义理解和无监督重建任务的参数不同。所以我们有四个BLSTM参数，如图6所示：

Θtag：产生特定于语义理解任务的隐向量。

Θtscp：产生特定于正确文本输入重现的隐向量。

图6所提出的方法的体系结构包括三个任务：正确文本侧语义理解、正确文本侧和识别文本侧的输入重现。该框架包含四个用于特征学习的BLSTM参数，其中一个参数由三个任务共享，而其他参数对于每个任务是私有的。

Θasr：产生特定于识别文本输入重现的隐向量。

Θshd：产生任务不变隐向量。

我们的方法体系结构如图1所示。词向量在这些参数中共享。现在我们为ASR错误自适应定义三个损失函数：(1)语义理解，(2)输入重现(无监督)，(3)对抗学习。

带标注的正确文本侧损失

最重要的目标是最大限度地减少带标注的正确文本上的语义理解错误。令w＝(w₁...w_T)为用y＝(y₁...y_T)标注的正确文本。我们产生：

BLSTMΘtag(w)，

BLSTMΘshd(w)，

然后我们定义第i个单词的语义理解y的概率为：

其中W_tag和b_tag分别是输出层的加权矩阵和偏置向量。设Ω^tag表示{W_tag，b_tag}。标记损失函数由负对数似然性给出。

输入重现损失

我们还通过以无监督方式重建编码句子来进行特征学习。通过为正确文本和识别文本增加输入重现任务，强制BLSTM参数在参数空间中闭合。Kim等人使用完全重新生成输入句子的基于注意力的序列到序列(S2S)。相反，我们建议使用双向语言建模(BLM)来生成输入句子，这样更有效率。

设w＝(w₁...w_T)为数据源d∈{TSCP，ASR}中的句子。有了相关的参数，我们有：

级联向量被馈入简单的前馈神经网络(FFN)，只有一层预测最后一个单词，被送入另一个FFN来预测下一个单词。我们使用Ω^rec来表示这两个FFN的参数。重建损失由负对数似然值给出：

其中d∈{tscp，asr}，w₀是句子开始标记<s>，w_T+1是句子结束标记</s>。

对抗学习任务损失

直觉是我们拥有的任务不变特征越多，在识别文本侧解码时越容易受益于正确文本侧训练。继以前的工作，我们使用随机预测训练强制共享参数任务不变。这种对抗训练方法使得共享的BLSTM参数通过与上述输入重现任务相结合而成为ASR错误稳健的。

设w＝(w1，...，wT)是数据源{tag，tscp，asr}中的句子。使用共享参数，我们有隐藏的状态：

其中被馈送到作为单层FFN的任务分类器中。设Ω^adv表示这个分类器的参数。因此，对抗损失可以表述为：

其中t_i以相等的概率被设置为tag、tscp、asr。

联合目标函数

对于无监督ASR错误自适应，我们优化：

在解码阶段，我们使用识别文本中的参数Θtag和语义理解器Ω^tag来预测语义理解序列。

实验：数据集

为了评估我们提出的模型，我们在汽车导航领域从中文商业对话系统收集的数据集进行实验。它总共包含9008个话语，如表1所示。我们随机选择60％的训练数据用于模型训练，另外20％用于验证，剩余的20％用于测试集。语义理解的训练和验证集合被标注在正确文本上，并且测试集合被标注在识别文本上。为了构建一个oracle基线，训练和验证集合也被加标注在识别文本上。在这个数据集中，语音识别的汉字错误率约为21.90％。

表1.数据集中不同数据分区的句子编号(#)

实验设置

我们在汉字层面进行语义理解，因为中文分词可能会在封闭的对话领域中引入对齐错误。我们通过将在训练集中只出现一次的任何单词标记为<unk>来处理测试集中看不见的单词。对于BLSTM，我们将词向量的维数设置为100，将隐藏单元的数量设置为200。只有当前单词被用作没有任何上下文单词的输入。对于训练，网络参数按照均匀分布随机初始化(-0.2,0.2)。在训练阶段将0.5的概率应用丢失机制(dropout)。梯度裁剪的最大范数设置为5。

学习率初始化为0.001。我们将学习率保持在100个时期，并保存验证集上性能最佳的参数。所使用的度量是使用CoNLL评估脚本计算的F1分数。

我们用前面提到的损失函数的不同组合来研究我们的方法。为了比较，我们还设置了几个强大的基线，甚至oracle系统如下：

基线1：使用SLU注释对正确文本数据进行训练和验证，仅使用正确文本侧语义理解损失Ltag。

基线2：传统的强大的SLU方法通过对准技巧创建识别文本的注释。类似地，通过使用Kaldi中的文本对齐工具来执行正确文本和ASR识别文本之间的单词对齐，然后自动地从加标签的正确文本向识别文本递送语义理解。使用自动标注的识别文本和正确文本，另一个基线模型仅使用损失Ltag进行训练。

Oracle1：仅通过带SLU标注的ASR识别文本数据进行训练和验证，仅由Ltag监督。

Oracle2：在带SLU标注的正确文本和ASR识别文本上都进行模型训练，仅由Ltag监督。

领域自适应：无监督域自适应应用于ASR错误自适应。该方法将正确文本(包括语义理解)的数据作为源域，将未标记的识别文本作为目标域。然而，我们提出的方法将自适应问题分解为三个任务：语义理解、正确文本侧和识别文本侧重建。它和我们的方法的主要区别在于我们没有假设Θtag＝Θtscp。

实验结果和分析

在本节中，我们用不同的损失函数组合来评估我们的系统，并将它们与几个基线系统进行比较。从表2我们可以看出，在正确文本(基线1)和ASR识别文本(Oracle1)上训练的语义理解系统之间存在差距(2.75％)。通过结合带语义标签的正确文本，Oracle2比Oracle1获得了更多的改进(0.99％)。通过引入自动标注的识别文本，基线2的性能下降，因为单词对齐可能导致用于语义理解的错误数据样本。

在我们的系统中，双向语言建模(BLM，行(h))优于其他两个重建任务：W2W(行(f))和S2S(行(g))，如前文所示。我们的BLM系统(行(h))也比领域自适应方法(行(e))获得显著更好的结果(显著水平96％)，这可能受益于分离参数的标记和重建任务Θtag与Θtscp不同)。

与具有BLM的系统(行(h))相比，分离的重建模型(行(i))导致F1分数的降低。通过引入对抗任务分类损失，out方法可以达到最佳性能(行(j))，优于所有基线系统，并且由于带语义标注的正确文本、正确文本和识别文本重建之间的参数共享，与oracle系统非常接近(-0.53％)。

表2.比较oracle系统、基线和我们的方法，还评估了不同的重建任务：W2W 3、S2S、BLM。BLMsep指的是BLM的分离重建模型。

我们的方法将模型参数分为两部分：特定于领域的特征，这些特征是私有的；以及域不变的特征，这些特征是共享的。通过反转梯度来使领域不变参数进行对抗训练，从而使得领域分类器较差且域不可知。对抗领域自适应方法也应用于句子分类和口语理解(SLU)。我们是第一个通过对抗自适应方法研究SLU的ASR错误自适应，并提出了无监督任务自适应体系结构来实现稳健的SLU。同时，我们引入了一种新颖的双向语言建模(分别通过前向和后向)作为无监督任务。

本发明提出了一种无监督ASR错误自适应方法来提高SLU模型的鲁棒性。我们新加入了对抗任务适应方法和双向语言建模，将一个SLU模型从正确文本转移到识别文本。这种方法不需要对识别文本进行语义标注，可以节省语义标注的工作量，对商业系统的部署具有潜在的优势。最后，实验结果表明，我们的方法可以在强基线上取得显著的改善，同时对ASR错误仍然具有鲁棒性。

请参考图7，其示出了本发明一实施例提供的语义理解训练系统的框图。

如图7所示，语义理解训练系统700包括标注模块710、识别模块720以及训练模块730。其中，标注模块710，配置为对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；识别模块720，配置为将所述用户语音数据输入语音识别系统进行识别以得到识别文本；以及训练模块730，配置为将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入至语义理解系统进行无监督自适应训练。

在一些可选的实施例中，语义理解训练系统700还包括：更新模块(图中未示出)，配置为响应于所述语音识别系统更新，将所述用户语音数据再次输入至所述更新后的语音识别系统进行识别以得到所述更新后的识别文本；以及所述训练模块还配置为将所述正确文本、所述带语义标注的正确文本和所述更新后的识别文本随机地输入语义理解系统以对所述语义理解系统进行无监督自适应训练。

应当理解，图7中记载的诸模块与参考图1、图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7中的诸模块，在此不再赘述。

值得注意的是，本发明的实施例中的模块并不用于限制本发明的方案，例如标注模块可以描述为对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如标注模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语义理解训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；

将所述用户语音数据输入语音识别系统进行识别以得到识别文本；

将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入语义理解系统以对所述语义理解系统进行无监督自适应训练。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的语义理解训练方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语义理解训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于智能语音对话平台的语义理解训练装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语义理解训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语义理解训练方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。用于智能语音对话平台的语义理解训练方法的设备还可以包括：输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语义理解训练方法。输入装置830可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语义理解训练系统，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语义理解训练方法，包括：

2.根据权利要求1所述的方法，其中，所述识别文本还包括更新后的识别文本，所述方法还包括：

响应于所述语音识别系统更新，将所述用户语音数据再次输入至所述更新后的语音识别系统进行识别以得到所述更新后的识别文本；

将所述正确文本、所述带语义标注的正确文本和所述更新后的识别文本随机地输入至语义理解系统进行无监督自适应训练。

3.根据权利要求1或2所述的方法，其中，所述语义理解系统中设置有：对应于所述带语义标注的正确文本的语义解析任务、对应于所述正确文本的正确文本输入重现任务和对应于所述识别文本的识别文本输入重现任务，

所述将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入所述语义理解系统以对所述语义理解系统进行无监督自适应训练包括：

为所述语义解析任务、所述正确文本输入重现任务和所述识别文本输入重现任务设置共享参数；

随机地向所述语义理解系统中的各任务输入所述带语义标注的正确文本、所述正确文本和所述识别文本中的任意一种，使所述各任务的共享参数之间对抗学习，以强化所述语义理解系统的语义理解能力。

4.根据权利要求3所述的方法，其中，语义理解过程包括将各文本中的句子表示为词序列，预测所述词序列中的每一个词的语义槽标签得到语义槽序列，所述方法还包括：

采用双向神经网络对所述各任务的语义理解过程建立双向神经网络模型，利用所述双向神经网络模型将所述词序列编码成隐向量序列；

设置四套双向神经网络模型参数，包括用于生成所述语义解析任务的专属隐向量的第一参数、用于生成所述正确文本输入重现任务的专属隐向量的第二参数、用于生成所述识别文本输入重现任务的专属隐向量的第三参数，以及用于生成所述语义解析任务、所述正确文本输入重现任务和所述识别文本共享隐向量的共享参数。

5.根据权利要求4所述的方法，其中，所述语义解析任务包括：将所述第一参数输出的隐向量和所述共享参数输出的隐向量拼接，经过一个线性网络层，预测每一个词的语义槽标签；

所述输入重现任务包括：将所述第二参数输出的隐向量或者所述第三参数输出的隐向量和所述共享参数输出的隐向量拼接，用正向隐向量预测下一个词的语义槽标签，用反向隐向量预测上一个词的语义槽标签；

所述对抗学习包括：将所述共享参数输出的隐向量输入一个线性网络层进行分类，随机地分配一个任务类别，让所述共享参数变得任务不可分。

6.一种语义理解训练系统，包括：

标注模块，配置为对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本；

识别模块，配置为将所述用户语音数据输入语音识别系统进行识别以得到识别文本；

训练模块，配置为将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入至语义理解系统进行无监督自适应训练。

7.根据权利要求1所述的系统，其中，所述识别文本还包括更新后的识别文本，所述系统还包括：

更新模块，配置为响应于所述语音识别系统更新，将所述用户语音数据再次输入至所述更新后的语音识别系统进行识别以得到所述更新后的识别文本；

所述训练模块还配置为将所述正确文本、所述带语义标注的正确文本和所述更新后的识别文本随机地输入语义理解系统以对所述语义理解系统进行无监督自适应训练。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。