CN108885870A

CN108885870A - 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法

Info

Publication number: CN108885870A
Application number: CN201580085750.6A
Authority: CN
Inventors: 维克兰特·托马尔; 马休·德吕索; 赫尔格·西岑
Original assignee: Fluent In Artificial Intelligent Co
Current assignee: Fluent In Artificial Intelligent Co
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2018-11-23
Also published as: US10878807B2; WO2017091883A1; US20180358005A1; EP3384488A4; EP3384488A1; EP3384488B1

Abstract

本公开内容涉及使得能够实现个性化声音用户接口的言语识别系统和方法。更具体地，本公开内容涉及将基于语义的自学习言语识别系统与可选地集成有自然语言处理系统的言语到文本系统组合。经组合的系统具有自动且持续地训练基于语义的言语识别系统和提高识别准确性的优点。

Description

用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法

技术领域

下文涉及用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口(interface，界面)的系统和方法。

背景技术

典型地，声音用户接口(VUI)系统涉及两步处理，其中ASR(自动言语识别：言语到文本)模块结合NLU(自然语言理解：文本到意义)模块使用。按照惯例，ASR系统以高斯混合模型(GMM)和隐马尔可夫模型(HMM)的组合为基础(例如参见参考文献[1]、[2])。随着近年来深度学习的出现，现有技术已转向基于各种深度神经网络(DNN)的架构(例如参见参考文献[3]-[7])。

这些系统最常见的实例是混合DNN-HMM架构，其中DNN与HMM组合(例如参见参考文献[3]、[4]、[8])。其他实例包括基于卷积神经网络(CNN)、时间延迟神经网络(TDNN)和递归神经网络(RNN)的架构，诸如使用长短期记忆((LSTM)和门控递归单元(GRU)的架构(例如参见参考文献[9]-[16])。尽管这些新的ASR系统具有优于传统系统的很多优势，但是已经发现它们遭遇到了诸多问题。特别是需要在非常大型的言语数据集上训练，典型地近似于数千小时的言语(例如参见参考文献[3])。由于这一限制，这些系统典型地不适于部署在低资源情景中。即，已经发现，不能获得用于训练的足够的被标记的语音数据的情形或者目标用户和用户要求高度个性化的情形都无法提供合适数量的实例。在用户可能遇到特定的言语失序的情形中也是如此，由于所述特定的言语失序，传统的深度学习或其他ASR系统可能不适用。

世界上大多数的语言都可以被认为是在音韵学、词切分、音高依赖性和词态学中具有很多独特性的低资源语言。此外，在讲同一种语言的人口中，发音中存在高度变化。这些问题将ASR系统的可用性限制于小百分比的人口。另外，由于ASR系统，这些方法在计算上相对昂贵。此外，可以与使用这些ASR模型的VUI一起使用的关键词、命令或措辞(phrase，短语、语句、词汇)被限制于已定义在ASR系统的词汇表中的词语。这样，这些通用系统的使用让体验变得不那么个人化，而且依赖于语言。

同时，存在执行文本无关的言语识别的技术。这些技术的实例包括波形匹配技术诸如动态时间规整(DTW)(例如参见参考文献[17])，以及基于实例查询的技术(例如参见参考文献[18])。这些技术提供了无关语言的直接从用户实例学习的优势。

自学习系统(即被配置成通过查询或通过实例学习的系统)也已被开发用于以类似于人类语言习得的方式建模语言习得(例如参见参考文献[19])。这些技术的实例包括“分部学习”技术，诸如基于非负矩阵因子分解(NMF)的那些技术(例如参见参考文献[20]、[21])。相同的系统也可以被扩展成VUI(例如参见参考文献[22])。

在人类语言习得模型的框架中，关键词的学习和到语义概念的映射已经描述在例如参考文献[19]、[22]-[25]中。这些技术提供了超过ASR系统的两个主要优点。第一个是这些技术能够直接从由终端用户提供的少数实例学习，从而使得所得的VUI个性化变得容易。第二个是这些技术中的大多数可以无关语言。然而，这些技术仍然要求用户提供所有可能的命令的足够的实例。对于终端用户来说提供所有可能的命令的足够的实例可能是不切实际的。

下文的目的在于消除或缓和前述问题中的至少一个。

发明内容

下文提供了一种使能个性化VUI的言语识别系统和由此实现的方法。在至少一种实现中，所述系统被配置用于将基于语义的自学习言语识别系统与可选地集成有自然语言处理系统的言语到文本系统组合。经组合的系统具有自动且持续地训练基于语义的言语识别系统和提高识别准确性的优点。

在一方面，提供了一种用于执行言语识别的方法，所述方法包括：获得输入声信号；将输入声信号提供给言语到意图(STI)系统以确定预测的意图，并且提供给言语到文本自动言语识别(ASR)系统以确定预测的文本；以及使用预测的意图和预测的文本中至少之一来将声信号映射到一组预定义活动中的一个预定义活动。

在其他方面，提供了一种计算机可读介质和被配置用于执行上述方法的系统。在所述系统的至少一种实现中，所述系统包括基于云的设备以用于执行基于云的处理。还提供了一种电子设备，所述电子设备包括用于接收声信号的声传感器、所述系统的实现、以及与所述系统的接口，以当映射成功时执行活动。

附图说明

现在将仅参考附图通过实例描述实施方式，其中：

图1是例示可以在实现用于言语识别的组合式VUI中被执行的操作的流程；

图2是合并有决策融合模块的架构的实例的框图，该决策融合模块用于融合言语到意图(STI)系统的输出和ASR系统的输出；

图3是例示示例性计算机可执行指令的详细流程，该计算机可执行指令用于在决策融合模块内部处理以结合STI系统的结果和ASR系统的结果，并且在不要求清楚的用户反馈的情况下执行STI系统的另外的学习；

图4是例示示例性计算机可执行指令的详细流程，该计算机可执行指令用于在考虑到预测的置信度的同时处理STI系统的结果和ASR系统的结果，并且在不要求清楚的用户反馈的情况下执行STI系统的另外的学习；

图5是例示示例性计算机可执行指令的详细流程，该计算机可执行指令用于当目标是使错误接受率最小化时，使用考虑到STI系统的结果和ASR系统的结果的决策融合模块来处理言语以将语义帧映射到意图或活动，并且在不要求清楚的用户反馈的情况下执行STI系统的另外的学习；以及

图6是例示用于从声输入生成文本输出的示例性计算机可执行指令的流程。

具体实施方式

本公开内容涉及一种将STI系统与ASR系统集成的系统，并且提供了一种实现该组合的技术。所得的系统对于STI系统已经经过训练的声输入和措辞可以保持非常高的准确性，并且可以扩展系统的一般适用性。

本文描述的系统也可以扩展STI系统的可用性，其中可以要求声输入的文本表示，例如为听写文本信息、做会议笔记等等。本文描述的组合通过提供自动学习新的声输入和措辞的能力增补STI系统。

本公开内容的目标在于开发允许用户控制家用、汽车、移动电话、虚拟现实等等中的各种设备的VUI。然而，可以理解的是，本公开内容不一定依赖文本来实现这一结果。

在一方面，提供了一种实现VUI言语识别系统的方法，其中，VUI能够学习以识别终端用户提供的实例中的新命令和措辞、对这些所学的措辞和其他非所学的措辞提供高度的识别准确性、并且在不要求来自用户的主动输入或反馈的情况下自动学习新命令。

至少一种实现中的VUI可以包括：

(a)文本无关的STI言语识别系统，所述系统能够通过用户提供的实例学习以将输入声信号映射到用户意图的可能的目标结果中之一，其中所述系统使用DTW、DNN、RNN、CNN、NMF、GMM、HMM、支持向量机(SVM)、声学共现的直方图(HAC)等等中的一个或多个执行声学建模；并且可以产生连同决策或映射的置信度水平。实例还可以包括：(i)可以是言语信号形式的声输入；以及(ii)有关于与声输入关联的用户意图的语义输入，其中可以使用与图形用户接口(GUI)关联的按钮、键盘、鼠标等等中的任一个或多个来提供语义输入。

(b)言语到文本ASR，其可选地与自然语言处理(NLP)系统组合以在具有或不具有对于映射的置信度水平的情况下将输入声信号映射到用户意图的目标结果中之一，或者将输入声信号转录成按照用户的期望语言的文本，其中，可以使用声学建模技术诸如HMM、GMM、DNN、CNN、RNN、LSTM、GRU、HAC等等中的任一种或多种预训练这样的言语识别系统。

(c)决策融合模块，所述决策融合模块能够将STI系统和ASR系统的输出作为输入并且执行下述中的任一个或多个：(i)在考虑或不考虑上述系统中的任一者或两者的置信度分数的情况下，做出关于用户的预期活动的最终决策；(ii)使用最终决策连同声输入信号重训练STI系统，以便提升STI系统的识别性能；以及(iii)如果没有识别出良好的预期活动，则产生与用户的声输入对应的按照用户的预期语言的文本。

在另一方面，下文描述了一种用于实现高表现的VUI系统的系统和方法，该VUI系统包括STI系统、ASR系统、决策置信度比较器和反馈模块的，所述反馈模块将新命令添加到STI系统并且使STI系统重训练。

STI系统可以包括DTW、DNN、CNN、RNN、NMF、GMM、HMM、SVM、HAC中的一个或多个，并且产生与先前学得的措辞中的一个对应的一组语义标签作为具有关于置信度的估量的识别结果，或者产生未识别状态。决策置信度比较器可以包括下述机制：将STI系统的输出决策置信度与阈值比较、并且确定是保持STI识别的结果还是转到(fall back to，转而依靠于)ASR系统以进行识别。

ASR系统包括使用声学建模技术诸如HMM、GMM、DNN、RNN、LSTM、GRU、HAC等等中的任一个或多个进行训练的一个或多个声学模型，该系统可能与NLP模块组合以将被识别的文本映射到预期活动中的一个或者输出按照用户的预期语言的经识别的文本用于未经识别的命令。反馈模块包括通过考虑到ASR系统的声输入和输出将新的知识和命令添加到STI系统的过程。

在又一方面，下文描述了一种用于产生包括STI系统、ASR系统、决策融合系统和反馈模块的高表现的VUI系统的方法，所述反馈模块将新命令添加到STI系统并且使STI系统重训练。

STI系统可以包括DTW、DNN、CNN、RNN、NMF、GMM、HMM、SVM、HAC中的一个或多个，并且产生与先前学得的措辞中的一个对应的一组语义标签作为识别结果，或者产生未识别状态。

ASR系统包括使用声学建模技术诸如HMM、GMM、DNN、CNN、RNN、LSTM、HAC、GRU等等中的任一个或多个进行训练的一个或多个声学模型，该系统可能与NLP模块组合以将经识别的文本映射到预期活动中的一个或者输出按照用户的预期语言的经识别的文本以用于未被识别的命令。

决策融合模块包括基于STI系统和ASR系统的融合结果来推断最有可能的结果的机制，并且反馈模块包括通过考虑到ASR系统的声输入和输出将新知识添加到STI系统的过程。

在又一方面，提供了一种用于VUI的言语识别的方法，其中，所述方法由包括至少一个处理器的系统实现。这样的方法包括：

(a)获得包括言语的声信号，并且处理该声信号以：(i)将声信号分成多个言语帧；(ii)将声信号或得出的帧转换成频域表示；(iii)进一步将频率表示分成多个波段；以及(iv)将频率波段提供给多个滤波器和后处理系统以获得言语特征，其中，后处理系统可以包括用于执行对数压缩、离散余弦转换、均值和方差标准化中的一个或多个的过程；

(b)将言语特征提供给文本无关的声学建模技术，所述文本无关的声学建模技术可以包括GMM、DNN、NMF、SVM、RNN、CNN、HMM、HAC中的一个或多个；

(c)将言语特征提供给言语到文本声学建模技术，所述言语到文本声学建模技术可以包括GMM、DNN、NMF、SVM、RNN、CNN、HMM、HAC中的一个或多个；

(d)基于(b)和(c)的结果做出最终决策，步骤(d)基于(d)的结果可选地执行预定活动；以及

(e)如果声措辞或命令不存在于已知命令的数据库中，则使STI系统重训练以学习新命令。

现在转向附图，图1显示了言语识别方法的流程，该方法将文本无关的STI与基于言语到文本的ASR系统组合以产生用于VUI系统的改进的识别准确性，该VUI系统可以用于控制一个或多个设备或装备。

图1中所见的示例性系统100包括特征提取模块102、用户演示和反馈模块105、STI模块107、言语到文本ASR模块109、决策融合模块111以及基于反馈的学习模块114。组合的系统具有优于单个系统的多个优势。这些优势包括融合来自两个系统的结果以提供整体改进的识别准确性的能力，以及在不要求来自终端用户的主动反馈的情况下自动训练文本无关的言语识别系统的能力。

在特征提取模块102中，使用一种或多种技术诸如例如傅里叶分析、Mel滤波器组、倒谱处理、卷积神经网络以及线性预测编码对声输入信号101进行过滤和处理以提取一个或多个参数数字表示(在本文中也被称为“特征向量103”)。这种提取例如可以以每25ms一帧发生。

用户演示和反馈模块105是可选的组件，其为用户提供下述机制：提供关于与声信号101关联的意图或期望活动的反馈或输入。演示模块105可以是触摸屏、计算设备上的按钮、菜单浏览设备、或物理设备诸如电开关等等。演示模块105将用户演示104转变成语义表示106，并且可以用于引导系统100进行学习或训练。语义表示106可以是1s和0s向量，分别表示可能存在于声输入101中的特定关键词的存在和不存在。

语义表示106可以由固定长度向量表示，其中，条目表示与当用户通过语音控制设备时他们涉及(refer to，所指、指的是、指代)的相关语义有关的声音表达的存在或者不存在。使用演示模块105连同声输入101，用户可以训练STI模块107将特定的声输入映射到特定的语义表示或意图。使用演示模块105，用户在使用言语识别系统100时也可以选择在确定声信号101是正确还是不正确之后提供是否执行活动的反馈。在输出是不正确的情况下，用户另外可以指示正确的活动。结果，系统100学习了用户的词汇表。换言之，用户向系统100教授用来控制系统100的词汇表。

在STI模块107中，在训练期间，特征向量103和语义表示106被处理以训练STI模型，所述STI模型可以使来自言辞(utterance，话语)的特征向量和与表示用户可能的活动或意图的措辞对应的语义表示相关联。在使用期间，STI模块107处理特征向量103并且将言辞映射到预定义的“意图”中的一个，所述预定义的“意图”可以与下述措辞相对应，这样的措辞表示用户可能想要针对给定的声输入101执行的可能的活动。可替代地，如果输入声信号101被预测为不是预定义的意图中的一个，那么STI模块107可以返回“NULL”响应。因此，STI模块107的输出在此被称为“预测的意图108”。

预测的意图108也可以包括对表征STI模块107对其预测有多确信的置信度的估量。可以使用一种或多种技术诸如神经网络包括深度、递归和卷积网络、DTW、自动编码器、GMM、HAC、HMM、SVM和NMF来实现STI模块107。STI模块107可以在单独的设备上进行预训练，或者由用户在相同设备上通过使用演示模块105进行训练。STI模块107也可以位于不同的设备上并且使用服务器客户端模式与用户设备通信，例如，STI模块107可以位于云计算服务器上。在于2015年11月4日提交的共同未决的PCT专利申请No.PCT/EP2015/075721中描述了用于STI模块107的配置的实例，该专利申请的内容通过引用并入本文。

在言语到文本ASR模块109中，来自特征提取模块102的特征向量103被处理并且被映射到文本字符串，本文被称为“预测的文本110”。可以使用一种或多种技术诸如包括RNN和CNN的DNN、自动编码器、受限玻尔兹曼机(RBM)、GMM和HMM来实现ASR模块109。ASR模块109可以在单独的设备上进行预训练，或者在相同设备上进行训练。可替代地，ASR模块109可以位于不同的设备上并且使用客户端服务器模式与用户设备通信，例如，ASR模块109可以位于云计算服务器上。

在决策融合模块111中，来自STI模块107的预测的意图108与来自ASR模块109的预测的文本110融合，以做出呈期望的用户意图或活动112形式的最终决策。获得最终决策的融合可以以多种方式进行。例如，决策融合模块111可以考虑预测的意图108和预测的文本110的置信度，以选择更多确信的系统的结果最为最终输出。可替代地，决策融合模块111也可以利用执行另外计算的决策矩阵来决定选择预测的意图108或预测的文本109中的哪个。

决策融合模块111也可以向反馈学习模块111提供最终决策的语义表示113，或者在不能得出语义表示时提供文本输出115。在STI模块107和ASR模块109都不能成功地识别声输入101的情况下，决策融合模块111可以返回重复请求、建议的识别，或者要求用户确认输入101。可以使用多种不同的度量来限定识别的成功标准，诸如置信度分数、不同预测之间的混淆(confusion)、预测的熵或方差、背景模型、基于背景模型的分类器等等。关于决策融合模块110的示例性配置的另外细节在下面描述的图2至图6中给出。

在反馈学习模块114中，来自决策融合模块111的语义表示113被用于可选地向STI模块107提供另外的学习。语义表示113可以是1s和0s向量，分别表示可能存在于声输入101中的特定关键词的存在和不存在。该另外的学习可以致使在不要求主动式用户参与训练的情况下在STI模块107内重训练模块。语义表示113可以由固定长度向量表示，其中，条目表示与当用户通过语音控制设备时用户涉及的相关语义有关的声音表达的存在或者不存在。

图2例示了作为图1所示的决策融合模块110的一般示例实现的决策融合模块200。示出了决策融合模块200的内部组件中的一些，包括：合并情境(contextual，上下文的)信息以便提高系统100的准确性的情境学习组件203；库204，其储存有系统具有的当前知识的表示；以及处理声输入101的文本转录(预测的文本110)并且提取说话者的意义或意图的文本处理组件205。

决策融合模块200以期望的意图或活动206、经编码的输出的语义表示207、以及可选地文本输出208的形式输出系统100的最终决策。语义表示207可以用于通过系统100的反馈模块114重训练STI系统107(也参见图1)。

情境学习组件203通过合并关于声输入101的情境信息来帮助决策融合模块200做出更准确的决策。情境信息的一些实例包括一天中的时间、背景声、先前所说的言辞等等。可以理解的是，情境信息的其他实例是可能的。例如，如果系统100用在车辆中，那么情境信息可以包括来自车辆的一个或多个传感器的信息，诸如速度、无线电的状态、音乐播放器的状态、所连接的设备(移动电话等等)的状态、附近车辆的位置、车辆的地理定位等等。情境学习组件203在训练和测试两者期间利用这一信息来使系统100更有可能在特定的状态下做出特定的决策。

库204包括关于系统100应该能够在给定时间识别(映射到语义输出)或者在未来学习的可能的声输入的知识的表示。可以理解的是，库204可以包括与系统尚不知晓的或仅将在未来学习的声输入对应的信息或知识。库204也可以在任何时候由系统100或用户通过添加关于先前未知的声输入的另外知识而进行扩展。库204可以以任意数据结构或存储元件或组件的形式被储存，并且可以被定位在任意可访问的位置。即，库204不一定需要被包括在决策融合模块20内。

文本处理组件205处理ASR系统输出202以从所说的言辞得出用户意图的意义和语义表示。换言之，在文本处理组件205中，ASR系统输出202被映射到预定义的“意图”中的一个，所述预定义的“意图”可以与表示用户可能想要针对给定的声输入101执行的可能的活动的命令或措辞对应。可以使用NLP系统实现文本处理模块205。可替代地，如果不能得出语义表示，那么文本处理组件205允许决策融合模块200输出ASR系统输出202作为声信号101的文本转录。可以使用包括DNN、RNN和CNN的一个或多个神经网络、部分的言语标记、word2vec、文本解析来实现文本处理组件205。NLP组件107可以在单独的设备上进行预训练，或者在相同设备上进行训练。可替代地，文本处理组件205可以位于不同的设备上并且使用服务器客户端模式与用户设备通信，例如，文本处理组件205可以位于云计算服务器上。

决策融合模块200可以通过考虑STI系统输出201和ASR系统输出202来利用多种不同的算法达到其最终输出。在下文描述的图3至图6中示出了一些实例。然而，将理解的是，这些实例是例示性的并且各种其他实现是可能的。

图3提供了用于另一决策融合模块300实现的示例流程。决策融合模块300将STI系统输出301和ASR系统输出302作为输入，并且使用情境学习组件303处理这些输入以合并情境信息(如果有的话)。然后使用决策融合矩阵304来处理情境学习过程的输出，该决策融合矩阵产生用户的意图或活动305以及识别的语义表示306作为决策融合模块300的输出。

意图305可以用于控制一个或多个设备，并且语义表示306可以用于重训练或者将另外的知识添加到系统100的STI 107。可替代地，如果决策融合矩阵304不能识别给定的言辞，那么通过文本处理组件307处理ASR系统的文本输出。可以使用NLP系统实现文本处理组件307。文本处理组件307也可以从另外的输入文本使用或者新知识309得出语义表示以登记到库310中。

库310保持有系统的当前知识的表示。在登记新知识时，库310馈送到决策融合矩阵304中以提供识别先前未经识别的声输入的能力。如果不能得出语义表示，那么文本处理组件307也可以提供文本输出308。

图4提供了用于另一决策融合模块400实现的示例流程。在该实例中，决策融合模块400接收包括由STI系统107预测的活动和用于预测的置信度分数两者的STI系统输出401。通过考虑任何可获得的情境信息，使用情境学习组件403来处理STI系统输出401以改善预测。然后在比较器405中将改善的输出404的置信度分数与阈值进行比较。该阈值可以是固定的预先计算的值或者是可以在运行时被确定并且可以在系统整个使用中适应性地改变的变量。如果输出404中的预测的置信度高于该阈值，那么决策融合模块400输出关于声输入101的预测的意图或活动406，以及声输入的语义表示407。语义表示407可以被系统100的反馈学习模块114用于重训练STI模块107。

可替代地，如果输出404中的预测的置信度分数低于该阈值，那么决策融合模块400可以使用ASR系统输出402做出关于用户的预期活动的预测。为此，通过情境学习组件403处理ASR系统输出402以合并任何可获得的情境信息，并且使用比较器408将输出与包括在库415中的一组知识进行比较，以决定声输入是否与先前所见的知识对应。

如果比较器408返回正值，那么通过文本处理组件409处理输出，所述文本处理组件输出对应于声输入101的意图或活动410以及声输入的语义表示411。意图或活动410可以用于控制一个或多个设备，并且语义表示411可以用于重训练STI模块107。可替代地，如果比较器408返回负值，那么通过文本处理组件412处理输出，所述文本处理组件输出文本413作为声输入101的转录。

文本处理组件412也可以从另外的输入文本使用或新知识414得出语义表示以登记到库415中。可以使用包括DNN、RMM和CNN的神经网络中的一个或多个、部分的言语标记、word2vec、文本解析等等来实现文本处理组件409和文本处理组件412两者。此外，组件409和组件412也可以被实现为服务本文描述的两个目的的单个模块。

图5提供了用于另一决策融合模块500实现的示例流程。当与图4所示的模块400相比时，决策融合模块500不使用阈值测量来在STI系统107的输出和ASR系统109的输出之间决定。而是，使用将STI系统输出501和ASR系统输出502作为输入的决策融合矩阵504，并且该决策融合矩阵通过基于使错误接受误差最小化的标准融合输出来做出最终决策。这里，错误接受误差指的是当系统100将先前未见的输入接受作为已见过的输入中之一并且将这些输入映射到预定义的语义表示中之一时可能产生的误差。可以理解的是，使错误接受率最小化是一个可以朝向期望的最优化引导的标准。可以使用其他标准，包括等错误率(EER)、检测代价函数(DCF)等等。

图6提供了用于另一决策融合模块600实现的示例流程。决策融合模块600适用于意图或活动输出可能不是合意的并且仅文本输出可能是合意的情景。实例情景是当用户想要向朋友“X”发送文本信息时，该用户请求VUI“给我朋友X发短信。我将迟到十分钟”。在这一实例中，VUI系统100使用图1至图5中描述的实施方式中的一个或多个处理声部分“给我朋友X发短信”并且打开用户所选的短信送信器。决策融合模块600使用情境学习组件603确定余留的声部分要求文本转录。确定这个之后，决策融合模块600仅使用ASR系统的文本输出602将余留的声部分“我将迟到十分钟”转录到文本信息605中。

从以上可以看出系统100被配置成使用STI系统107和ASR系统109处理输入声信号，并且可以选择这些系统的输出中的一个或组合来产生输出。如以上所例示的，存在生成这样的输入的不同方式。例如，如图4所示，只有STI系统107的输出可以被使用，并且如果置信度低于预定阈值，那么转到ASR系统109的输出并且使用其输出来做出更好的决策。在另一实例中，可以忽视或者本来就不依赖这样的阈值，并且使用STI系统107和ASR系统109的组合来做出更有根据的推测。可以使用如图3和图5所示的决策融合矩阵304、504来以不同的方式做出这样的有根据的推测。在又一实例中，如图6所示，用户可以以下一命令将要求文本的方式指示系统100(例如，“给Tom发短信”，之后用户口述短信的内容)。如以上所讨论的，决策融合模块111也可以利用系统的情境做出更好的决策。在又一实例中，可以涉及STI系统107向ASR系统109的一些自动学习(例如，如果STI系统107失败但ASR系统成功(基于一些度量)，那么ASR系统109的输出可以用于教导STI系统107以用于检测未来的措辞)。在又一实例中，用户可以输入STI系统107或ASR系统109都不理解的命令，但是使用文本处理组件205，该输入可以被检测为潜在的命令。这样的命令也可以用于重训练STI系统107使得其在未来被识别。

如从以上也可以理解的，存在本文描述的原理和系统的各种应用。一些没有限制的实例应用是：用于车辆；用于家庭——既可以在不同的器具中又可以作为中央枢纽控制家庭的设备/部件(家庭自动化)；用于计算机和移动设备——以控制接口以及控制各种app(设备可以包括计算机、膝上型计算机、智能手机、平板电脑和可穿戴设备等等)；用于基于虚拟现实的系统；用在用于残疾人群或遇险人群的辅助设备中(例如摔倒且不能站起的老年人)；用于(教益性)玩具或游戏；用在用于家庭以及工业的机器人中；用于驾驶舱中的飞行员或火车司机或重型机器操作员；用于医疗保健：既可作为医生的接口，也可作为导航健康记录的接口；用于医疗保健：用于言语或沟通受损(即自闭症)用户；用在可以由不同的开发者集成到app中的基于web-api的接口中；等等。

已经关于特定实施方式并且参考某些附图对以上实例进行了描述，然而，本文描述的原理不应当被限制于其中。所描述的附图仅是图解性的并且是非限制性的。在附图中，出于例示性的目的，元件中的一些的大小可以被夸大并且不按比例绘制。尺寸和相对尺寸不对应于实践本文描述的实施方式所要求的实际缩减量。

此外，说明书和权利要求中的术语第一、第二等等用于相似元件之间的区分并且不一定在时间上、空间上、以排名或以其他方式描述顺序。要理解的是，如此使用的术语在适当的环境下是可互换的，并且本文描述的实施方式能够以除本文描述或例示的顺序之外的其他顺序操作。

此外，说明书或权利要求中的术语顶部、在下面等等用于描述性目的并且不一定用于描述相对位置。要理解的是，如此使用的术语在适当的环境下是可互换的，并且本文描述的实施方式能够以除本文描述或例示的取向之外的其他取向操作。

要注意的是，权利要求中使用的术语“包括”不应被解释为限制于罗列其后的装置；其不排除其他的元件或步骤。因此其应当被解释为如所提及的具体说明所陈述的特征、整数、步骤或组件的存在，但不排除一个或多个其他特征、整数、步骤或组件、或其群组的存在或加入。这样，表达“包括装置A和B的设备”的范围不应被限制于仅由组件A和B组成的设备。其意味着就本文描述的原理而言，设备仅有的相关组件是A和B。

贯穿本说明书对“一种实施方式(one embodiment)”或“实施方式(anembodiment)”的参照意味着与实施方式有关地描述的特定特征、结构或特性被包括在至少一个所描述的实施方式中。因此，在整个说明书的不同地方出现的措辞“在一种实施方式中”或“在实施方式中”不一定全部但是可以都关于相同的实施方式。此外，如对于本领域中的普通技术人员而言根据本公开内容将明了的是，在一个或多个实施方式中，特定的特征、结构或特性可以以任何合适的方式组合。

类似地，应当理解，在示例实施方式的描述中，出于精简本公开内容并且帮助理解各种发明方面中的一个或多个的目的，有时在单个的实施方式、附图、或其描述中将各种特征组合在一起。然而，这一公开内容的方法不应被解释为反映所要求保护的实施方式要求比每个权利要求中明确陈述的特征更多特征的意图。而是，如以下权利要求所反映的，发明方面在于少于单个前述公开实施方式的所有特征。因此，具体实施方式之后的权利要求据此明确地合并到这一具体实施方式中，其中每个权利要求作为单独的实施方式独立。此外，如本领域技术人员将理解的，虽然本文描述的一些实施方式包括一些特征但不包括被包括在其他实施方式中的其他特征，但是不同实施方式的特征的组合意味着在本文描述的原理的范围内，并且形成了不同的实施方式。例如，在以下权利要求中，所要求保护的实施方式中的任何实施方式都可以用于任何组合中。

在本文提供的说明书中，提出了很多具体的细节。然而，要理解的是，可以在没有这些具体的细节的情况下实践实施方式。在其他实例中，为了不模糊对于本说明书的理解，公知的方法、结构或技术未被详细示出。

其中，在本文描述的实施方式中，对“深度学习技术”进行了参考，可以对基于深度神经网络的诸多技术中的一种进行参考。深度学习技术的实例可以是多层感知器(MLP)、DNN、CNN、RNN、TDNN、LSTM、GRU等等。

其中，在本文描述的实施方式中，对“自学”进行了参考，可以参考通过演示进行学习。其中，在本文描述的实施方式中，对“活动状态”进行了参考，可以对活动的语义表示进行参考。

还将理解的是，本文例示的执行指令的任何模块或组件可以包括或者以其他方式可以访问计算机可读介质诸如存储介质、计算机存储介质，或者数据存储设备(可移动式和/或非可移动式)诸如例如磁盘、光盘或磁带。计算机存储介质可以包括以任何方法或技术实现的易失性和非易失性、可移动式和非可移动式介质，以用于储存信息，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质的实例包括RAM、ROM、EEPROM、快闪存储器或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或可以用于储存期望信息并且可以由应用、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是本文描述的系统和模块的任何组件的一部分或者与本文描述的系统和模块有关，等等，或者可以访问或可连接于本文描述的系统和模块。可以使用由这样的计算机可读介质储存或持有的计算机可读/可执行指令来实现本文描述的应用或模块。此外，可以在云基础设施中使用服务器客户端模型来开发应用和模块。

本文描述的流程和图表中的步骤或操作仅作为示例。在不脱离以上讨论的原理的情况下，这些步骤或操作可以存在很多的变化。例如，这些步骤可以以不同的次序执行，或者可以添加、删除、或修改这些步骤。

尽管已经参考某些具体实例对以上原理进行了描述，但是如所附权利要求中所概述的，这些实例的各种修改对于本领域的技术人员将是明显的。

参考文献

[1]L.R.Rabiner,"A tutorial on hidden Markov models and selectedapplications in speech recognition,"Proc.IEEE,vol.77,no.2,pp.257-286,1989.

[2]L.R.Welch,"Hidden Markov Models and the Baum-Welch Algorithm,"IEEEInf.Theory Soc.Newsl.,vol.53,no.4,pp.1,10-13,2003.

[3]A.Senior,"Application of Pretrained Deep Neural Networks to LargeVocabulary Conversational Speech Recognition,"2012.

[4]N.Jaitly,P.Nguyen,A.Senior,and V.Vanhoucke,"An application ofpretrained deep neural networks to large vocabulary conversational speechrecognition,"in Interspeech,2012,no.Cd,pp.3-6.

[5]V.S.Tomar and R.C.Rose,"Manifold regularized deep neural networksfor automatic speech recognition,"in ASRU,2015.

[6]Y.Bengio and P.Lamblin,"Greedy layer-wise training of deepnetworks,"in Advances in Neural Information Processing Systems(NIPS),2007,no.d.

[7]D.Yu,F.Seide,and G.Li,"Conversational speech transcription usingcontext-dependent deep neural networks,"in Interspeech,2011,no.August,pp.437-440.

[8]M.Bhargava and R.Rose,"Architectures for deep neural network basedacoustic models defined over windowed speech waveforms,"in Interspeech2015,pp.1-5.

[9]T.N.Sainath,B.Kingsbury,G.Saon,H.Soltau,A.Mohamed,G.Dahl,andB.Ramabhadran,"Deep Convolutional Neural Networks for Large-scale SpeechTasks,"Neural Networks,2012.

[10]H.Sak,A.Senior,K.Rao,and F.Beaufays,"Fast and Accurate RecurrentNeural Network Acoustic Models for Speech Recognition,"arXiv Prepr.,2015.

[11]A.Senior and I.Shafran,"Context Dependent Phone Models for LstmRnn Acoustic Modelling,"ICASSP,IEEE Int.Conf.Acoust.Speech Signal Process.–Proc.,pp.4585-4589,2015.

[12]T.Sercu,C.Puhrsch,B.Kingsbury,and Y.LeCun,"Very Deep MultilingualConvolutional Neural Networks for LVCSR,"arXiv Prepr.,pp.2-6,2015.

[13]T.N.Sainath,O.Vinyals,A.Senior,and H.Sak,"CONVOLUTIONAL,LONGSHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS,"2015.

[14]A.Graves and N.Jaitly,"Towards End-To-End Speech Recognition withRecurrent Neural Networks,"ICML 2014,vol.32,no.1,pp.1764-1772,2014.

[15]Jan Chorowski,Dzmitry Bahdanau,Kyunghyun Cho,and Yoshua Bengio,"End-to-end Continuous Speech Recognition using Attention-based Recurrent NN:First Results,"pp.1-10,2014.

[16]J.Chung,C.Gulcehre,K.Cho,and Y.Bengio,"Gated Feedback RecurrentNeural Networks,"arXiv Prepr.,2015.

[17]X.Huang,A.Acero,and H.-W.Hon,Spoken Language Processing,1sted.Prentice Hall PTR,2001.

[18]G.Chen,C.Parada,and T.N.Sainath,"Query-by-example keywordspotting using Long Short Term Memory Networks,"Int.Conf.Acoust.Speech,SignalProcess.,pp.1-5,2015.

[19]J.Driesen and H.Vadn hamme,"Modelling vocabulary acquisition,adaptation and generalization in infants using adaptive Bayesian PLSA,"Neurocomputing,vol.74,no.11,pp.1874-1882,2011.

[20]D.D.Lee and H.S.Seung,"Learning the parts of objects by non-negative matrix factorization.,"Nature,vol.401,no.6755,pp.788-91,1999.

[21]J.Driessen,"Discovering Words in Speech using MatrixFactorization,"KUL,2012.

[22]B.Ons,J.F.Gemmeke,and H.Van hamme,"The self-taught vocalinterface,"EURASIP J.Audio,Speech,Music Process.,vol.2014,no.1,p.43,2014.

[23]B.Ons,"The Self-taught Speech Interface,"KUL,2015.

[24]B.Ons,J.F.Gemmeke,and H.Van hamme,"Fast vocabulary acquisition inan NMF-based self-learning vocal user interface,"Comput.Speech Lang.,vol.28,no.4,pp.997-1017,2014.

[25]L.Broekx,K.Dreesen,J.F.Gemmeke,and H.Van hamme,"Comparing andcombining classifiers for self-taught vocal interfaces,"Proc.SLPAT 2013,pp.1-8,2013.

Claims

1.一种用于执行言语识别的方法，所述方法包括：

获得输入声信号；

将所述输入声信号提供给言语到意图(STI)系统以确定预测的意图，并且提供给言语到文本自动言语识别(ASR)系统以确定预测的文本；以及

使用所述预测的意图和所述预测的文本中至少之一来将所述声信号映射到一组预定义活动中的一个预定义活动。

2.根据权利要求1所述的方法，还包括：生成语义表示并且提供所述语义表示作为用于所述STI系统的随后训练的反馈。

3.根据权利要求2所述的方法，还包括：当没有语义表示能够被得出时，提供文本输出。

4.根据权利要求1所述的方法，还包括：当从用户接收到所述声信号时，确定并使用所述系统的情境。

5.根据权利要求1至4中任一项所述的方法，还包括：当所述映射成功时，执行所述预定义活动。

6.根据权利要求1至5中任一项所述的方法，还包括：当所述用户预期转录时，向另一应用提供所述转录。

7.根据权利要求1至6中任一项所述的方法，还包括：使用决策融合矩阵将所述预测的意图和所述预测的文本结合，以输出最有可能的语义输出。

8.根据权利要求7所述的方法，其中，所述决策融合矩阵使用所述预测的意图、所述预测的文本、以及与所述STI系统和ASR系统中的每一个对应的预测置信度分数。

9.根据权利要求4至8中任一项所述的方法，其中，所述情境包括下述中的任一个或多个：说话者的身份、先前的对话历史、系统的状态、一天中的时间、一个或多个所连接的设备或应用的状态和历史、背景噪音、一个或多个所连接的传感器的状态和历史、车辆的速度。

10.根据权利要求7至9中任一项所述的方法，还包括：使用反馈环路以基于所述ASR系统和决策矩阵的输出将一个或多个新命令登记到所述STI系统中。

11.根据权利要求2至10中任一项所述的方法，其中，根据对与所述输入声信号关联的所述ASR系统的输出的自动分析来生成所述语义表示。

12.根据权利要求1至11中任一项所述的方法，其中，所述输入声信号是语音信号。

13.根据权利要求1至12中任一项所述的方法，其中，所述STI系统被配置用于使用下述中的一个或多个将所述输入声信号解码成有用的语义表示：非负矩阵因子分解(NMF)；深度神经网络(DNN)；包括长短期记忆(LSTM)或门控递归单元(GRU)的递归神经网络(RNN)；

卷积神经网络(CNN)；隐马尔可夫模型(HMM)；声学共现的直方图(HAC)；或者自动编码器(AE)。

14.根据权利要求1至13中任一项所述的方法，其中，ASR模块被配置用于使用下述中的一个或多个将所述输入声信号解码成有用的文本表示：非负矩阵因子分解(NMF)；深度神经网络(DNN)；包括长短期记忆(LSTM)或门控递归单元(GRU)的递归神经网络(RNN)；卷积神经网络(CNN)；隐马尔可夫模型(HMM)；自然语言处理(NLP)；

自然语言理解(NLU)；以及自动编码器(AE)。

15.根据权利要求1至14中任一项所述的方法，还包括：当使用声音用户接口(VUI)通过语音来控制或处理设备或对象时，使用与用户涉及的相关语义对应的语义概念。

16.根据权利要求1至15中任一项所述的方法，还包括：学习涉及相同活动的新的同义词，或者学习与新的活动或意图对应的新的声词；以及使用所述新的同义词或新的声词来调整模型、库、或者所述模型和所述库两者。

17.根据权利要求2至7中任一项所述的方法，其中，从在替代的非声音用户接口上执行的用户活动生成所述语义表示。

18.根据权利要求17所述的方法，其中，所述替代的非声音用户接口包括与图形用户接口(GUI)关联的按钮、触摸屏、键盘、鼠标中的任一个或多个。

19.根据权利要求1至18中任一项所述的方法，其中，对所述语义表示进行预定义并且构成向量，在所述向量中，条目表示与预定义的语义表示中之一有关的输入声信号的存在或者不存在。

20.根据权利要求19所述的方法，其中，所述向量是固定长度向量。

21.一种计算机可读介质，所述计算机可读介质包括计算机可执行指令以用于执行权利要求1至20中任一项所述的方法。

22.一种用于处理声信号的系统，所述系统包括处理器和存储器，所述存储器包括计算机可执行指令以用于执行权利要求1至20中任一项所述的方法。

23.根据权利要求22所述的系统，其中，所述系统包括基于云的设备以用于执行基于云的处理。

24.一种电子设备，所述电子设备包括用于接收声信号的声传感器、根据权利要求22或权利要求23所述的系统、以及与所述系统的接口，以当所述映射成功时执行所述活动。