CN107851434A

CN107851434A - 使用自适应增量学习方法的语音识别系统和方法

Info

Publication number: CN107851434A
Application number: CN201580081920.3A
Authority: CN
Inventors: 乔特·戈莫克; 巴特·昂斯; 雨果·范哈梅
Original assignee: Universite Catholique de Louvain UCL
Current assignee: Universite Catholique de Louvain UCL
Priority date: 2015-05-26
Filing date: 2015-11-04
Publication date: 2018-03-27
Also published as: WO2016188593A1; US10573304B2; US20180151177A1; EP3304544A1

Abstract

本公开涉及使用自适应增量学习方法的语音识别系统和方法。更具体地说，本公开涉及自学话音用户界面中的自适应增量学习。

Description

使用自适应增量学习方法的语音识别系统和方法

本申请要求2015年5月26日提交的美国第62/166585号临时专利申请的权益，其全部内容通过引用并入本文。

技术领域

背景技术

自动语音识别(ASR)系统通常设置有用连续高斯混合(GMM)发射密度和上下文相关电话开发的隐马尔可夫(Markov)模型(HMM)。当前，具有许多隐藏层的深度神经网络(DNN)关于各种语音识别基准[1]胜过GMM。关于大量已记录的语音数据训练这些现有技术ASR系统，并且这些系统受益于已标注的语音材料的可用性。建立竞争ASR系统所需的量通常可用于广泛使用的语言且用于诸如语音到语音和语音到文本翻译的、具有巨大经济潜力的大规模应用。然而，大多数语言是具有音位结构学、分词或词态学、或缺乏严格语言规约的方言的大量特性的低资源语言。而且，相当大的一部分当前开发的ASR应用是具有仅对于一个顾客或对于小用户群开发的有限经济潜力的定做解决方案。

发明内容

自动语音识别(ASR)系统通常设置有隐马尔可夫模型(HMM)。关于大量已记录的语音数据训练现有技术ASR模型，并且这些模型受益于已标注的语音材料的可用性。偶尔，集成自适应过程，以提供依赖说话者的ASR。然而，该方法在用于诸如构音障碍语音的非标准语音时或用于交互协议难以事先定义的应用时可能不符合标准。语音技术在使用期间将受益于训练，这适于最终用户的特定发声和发生表达。这里所描述的实施方式提供了一种能够在使用期间从演示学习语音识别和理解的话音用户界面(VUI)模型。如这里所描述的VUI增量地学习语义概念的声学表示，并且在线适于发音或词语使用的变化。表示优选地通过使用例如非负矩阵因子分解(NMF)来学习，并且声学特征可以基于在使用期间展开的高斯混合模型(GMM)。这些在线学习过程可以基于最大后验概率(MAP)估计。然而，还可以使用为本领域技术人员所知的其他合适方法。在一系列示例中，申请人已经将后者与他们的批量学习变体进行比较，并且通过包含如在本所描述的实施方式中使用的遗忘因子来演示竞争学习速率和优秀的自适应能力。

已经开发低资源设置中用于语音的话音用户界面(VUI)(即，每个命令具有训练数据的一些话语)(用于ALADIN VUI的综述，参见[2])。系统不需要分词，并且受益于诸如基于话语的语义内容的相当抽象的监督。这种监督通过挖掘VUI使用且通过使VUI交互自动化来自然展开，在VUI交互中，询问用户给出他的/她的所说命令的演示，选择他/她自己的词语。相比之下，在这里所描述的实施方式中，开发了方法和系统，该方法和系统从部署时的潦草字迹有利地学习语音识别，并且增量地改善使用声学和语义演示以及来自用户的反馈，由此提供用于应用(诸如话音启用的家庭自动化、话音启用的汽车、诸如智能手表和智能手环的可穿戴计算装置、以及语音驱动辅助助手)的可实行的、一直学习且高度个性化的语音识别解决方案。目标应用中的用户的语音和动作状态是优选地使用机器学习算法(例如，在这里所描述的实施方式中为通过使用非负矩阵因子分解(NMF，参见[3]))组合的两个信息源。该机器学习过程允许VUI学习语义和声学输入中的循环同现模式。这些模式属于用户特定词汇。在[4]中，演示了该过程从一些演示学习是否使用诸如GMM后验或HMM音素后验的同现统计的基于模型的统计特征。而且，在与适于构音障碍语音的传统ASR方法(参见STARDUST[6]和VIVOCA[7]项目)的比较研究[5]中，示出了基于NMF的系统提供了口头上的比较结果和基于句子的识别精度，但提供了接近渐进精度所需的训练材料的大幅减少。

领域中已知的、在有限存储空间和小词汇量上运行的另一个快速学习算法是动态时间规整(DTW)[8]、[9]。DTW是使用动态编程对齐进程来找到两个语音信号之间的相似性的基于模板的技术。在这里所描述的实施方式中，申请人目的是有利地统一基于模型的进展(诸如具有诸如快速依赖说话者的学习和有限存储资源的使用的基于模板的优点的模型自适应)。而基于NMF的方法与传统HMM和GMM方法[10]、[5]、[11]进行比较，这里所描述的实施方式在该研究中包含DTW基线。虽然DTW是早期开发的ASR技术，但DTW已经在大量应用中流行，而不管其关于自适应和鲁棒的限制如何。例如，在[8]中，提出了对于各个DTW参考模板训练HMM状声学模型的HMM状DTW过程。它们的过程启用模型自适应，并且将不同的词语示例合并在一个模板中。受[12]启发，这里所描述的实施方式通过由最新的在线呈现的示例更新DTW参考模板来引入自适应DTW过程。

在诸如DIRHA[13]、SWEET-HOME[14]以及HomeService[15]、以及像[16]和[17]的其他内容的项目中调查竞争的话音启用个性技术。说话者独立的ASR系统连同说话者自适应过程一起使用。与自适应方法相反，根据这里所描述的实施方式的目标VUI训练过程目的在于使用用户的语音和演示从在线学习建立语义-声学表示。由交互体验构成的训练材料的典型方面是用户命令和演示的增量数据暴露。这里所描述的实施方式的重大贡献是最大后验概率(MAP)算法到对弱监督和增量暴露的语音数据操作的增量学习过程中的拟合。为此，这里所描述的实施方式提供采用概率增量模型，这些概率增量模型符合在之前的研究[4]、[5]中进行且通过在增量模型中并入遗忘因子来进行自适应的批量学习过程。与不需要模型训练的DTW方法类似，根据以下更详细描述的实施方式的VUI的实施方式是提供基于第一模型的方法，该基于第一模型的方法从潦草字迹建立其ASR模型，该潦草字迹例如来自诸如MFCC特征和基于话语的语义内容的预处理特征。

在现有技术方法中，所提供的VUI模型使用需要与已存储训练数据相关的数据存储和计算资源的批量学习过程。相反，因为处理仅涉及当前动作的命令，所以所引入VUI模型的实施方式有利地不是必须存储和/或使用有限的计算资源。后者还由增量与批量学习过程之间的经验比较来证明，批量学习过程考虑指向用于构音障碍语音的命令和控制(C&C)家庭自动化的真实学习环境。这些实验聚焦于对用户话音特性的快速学习和寿命自适应。

这里所描述的实施方式的优点是现有MAP算法适于非常有效的演示驱动的增量学习语境。基于这些算法，有人有利地可以组成若干现实过程(这些过程在一系列示例中进一步验证，借此，这些示例目的在于快速学习和自适应)。

这里所描述的实施方式优选地包括使用期间的训练，这更具体地适于最终用户的特定发声和发生表达。这里所描述的实施方式的优点是根据本发明的实施方式的话音用户界面(VUI)使得能够在使用期间从演示学习语音识别和理解。

在另外优选的实施方式中，例如通过挖掘目标装置上的所演示动作引入用于这些预定义语义的所说参考的有无。在这里所描述的实施方式中，假定对于各所说话语给出(例如，通过使用用二进制向量增强的基于话语的向量)表示相关语义的向量。

因此，在一个方面中，提供了一种处理和/或识别声学信号的方法，所述方法包括以下步骤：增量地学习使输入声学信号与输入语义框架关联的至少一个模型，以启用声学信号的自适应变化；根据至少一个模型从输入声学信号生成语义框架；以及将语义框架映射到预定动作。

在另一个方面中，提供了一种计算机可读介质，所述计算机可读介质包括用于执行以上所标注的方法的计算机可执行指令。

在又一个方面中，提供了一种用于处理声学信号的系统，所述系统包括处理器和存储器，所述存储器包括用于执行以上所标注的方法的计算机可执行指令。

在又一个方面中，以上所标注的系统包括用于执行基于云的处理的基于云的装置。

在又一个方面中，提供了一种电子装置，所述电子装置包括：声学传感器，所述声传感器用于接收声学信号；以上所标注的系统；以及与系统的界面，所述界面在映射成功时执行动作。

在又一个方面中，提供了一种具有指令的计算机程序，所述指令在由计算装置执行时，使得计算装置执行以上所标注的方法。

在又一个方面中，提供了一种表示以上所标注的计算机程序的数据流。

计算装置可以包括处理器和用于存储指令的存储器。

附图说明

图1是被配置为使用语音输入控制至少一个设备的、用于用户界面的系统的示例的示意图。

图2是例示了用于在用户反馈可用时处理语音以将语义框架映射到动作并执行增量学习的示例性计算机可执行指令的流程图。

图3是例示了用于从语音输入生成语义框架的示例性计算机可执行指令的流程图。

图4是例示了用于使用输入语音和输入语义框架执行增量学习(例如，NMF自适应和/或GMM)的示例性计算机可执行指令的流程图。

图5例示了根据这里所描述的实施方式的、γ、η对在之前时期中收集的统计的相对权重的影响。

图6(a)和图6(b)例示了用于对说话者平均的前190个话语的VUI学习曲线。误差条是说话者的平均标准误差。表IV中呈现了独立最终得分。图6a例示了来自无存储过程的数据，而图6b例示了DTW和存储数据的过程。

图7(a)和图7(b)例示了对于在用户变化之后的前160个话语对说话者平均的不同VUI学习曲线演示的自适应。误差条是标准误差。表V中呈现了独立最终得分。图7a例示了来自无存储过程的数据，而图7b例示了DTW和存储数据的过程。

具体实施方式

将关于特定实施方式且参照特定附图描述下文，但这里所描述的原理不应限于此。所描述的附图仅是示意性的且是非限制性的。在附图中，为了例示性目的可以夸大一些元件的尺寸，并且该尺寸可以不是等比例绘制。维数和相对维数不与实践这里所描述的实施方式所需的实际缩小对应。

此外，说明书和权利要求中的术语第一、第二等用于在类似的元件之间区分，并且不是必须用于时间、空间、成队列或以任意其他方式描述顺序。应理解，这样使用的术语在适当环境下可互换，并且这里所描述的实施方式能够以除了这里所描述或例示之外的顺序来操作。

而且，说明书和权利要求中的术语顶部、在下面等用于描述目的，并且不是必须用于描述相对位置。应理解，这样使用的术语在适当环境下可互换，并且这里所描述的实施方式能够以除了这里所描述或例示之外的方位来操作。

应注意，权利要求中所用的术语“包括”不应被解释为限于其后列出的装置；它不排除其他元件或步骤。由此，包括被解释为指定如所提及的所述特征、整数、步骤或部件的存在，但不排除一个或多个其他特征、整数、步骤或部件、或其组的存在或添加。由此，表达“包括装置A和B的装置”的范围不应限于仅由部件A和B构成的装置。它意指关于这里所描述的原理，装置的唯一相关部件是A和B。

贯穿本规范对“一个实施方式”或“实施方式”的参考意指关于实施方式描述的特定特征、结构或特性被包括在至少一个所描述的实施方式中。由此，短语“在一个实施方式中”或“在实施方式中”等在贯穿本规范的多个地方中的出现不是必须全部提及同一实施方式，但可以提及同一实施方式。此外，在一个或多个实施方式中，如将从本公开对本领域普通技术人员显而易见的，可以以任意合适的方式组合特定特征、结构或特性。

类似地，应理解，在示例性实施方式的描述中，为了精简本公开且辅助理解各种发明方面中的一个或多个的目的，有时在单个实施方式、附图或其描述中将各种特征分组在一起。然而，公开的本方法不被解释为反映所要求保护的实施方式需要比各权利要求中明确列出的更多特征的意图。相反，如以下权利要求反映的，发明方面在于少于单个前述所公开实施方式的全部特征。由此，在此将在具体实施方式之后的权利要求明确并入该具体实施方式中，各权利要求独立作为单独实施方式。此外，虽然这里所描述的一些实施方式包括一些但不是其他的被包括在其他实施方式中的特征，但如本领域技术人员将理解的，不同实施方式的特征的组合意指在这里所描述的原理的范围内，并且形成不同实施方式。例如，在以下权利要求中，可以以任意组合使用所要求保护的实施方式中的任意一个。

在这里所提供的描述中，阐述大量具体细节。然而，理解，实施方式可以在没有这些具体细节的情况下来实践。在其他情况下，为了不使本描述的理解模糊，尚未详细示出周知方法、结构以及技术。

其中，在这里所描述的实施方式中，对“声学信号”进行参照，可以对包括可以由人或动物的声带生成的至少话语或辨别声音的表示的任意声学信号进行参照。而且，音乐或没有意义的声音(例如像吹哨或唱歌)的使用或由机器生成的其他声音可以被认为声学输入。

其中，在这里所描述的实施方式中，对“聚类层”进行参照，可以对启用聚类的层进行参照，这可以包括以同一组(被称为聚类)中的对象比其他组(聚类)中的对象更类似于彼此(在某种意义上或在另一种意义上)的这种方式来对一组对象分组。聚类层的示例可以为高斯混合模型(GMM)、k均值聚类、自组织映射、谱聚类、向量量化方法、神经网络等。

其中，在这里所描述的实施方式中，对“潜在变量层”进行参照，可以对由隐藏变量进行的可观察变量的建模来进行参照。潜在变量层的示例可以为非负矩阵因子分解(NMF)、贝叶斯(Bayesian)网络、神经网络等。

其中，在这里所描述的实施方式中，对“自学”进行参照，可以由演示对学习进行参照。

其中，在这里所描述的实施方式中，对“动作状态”进行参照，可以对动作的语义表示进行参照。

还将理解，执行指令的、这里例示的任意模块或部件可以包括或以其他方式访问诸如存储介质、计算机存储介质、或数据存储装置(可移动和/或非可移动)(诸如例如磁盘、光盘或带)的计算机可读介质。计算机存储介质可以包括在用于存储信息的任意方法或技术中实施的易失性和非易失性的、可移动和非可移动的介质(诸如计算机可读指令、数据结构、程序模块或其他数据)。计算机存储介质的示例包括RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用光盘(DVD)或其他光学储存器、磁带盒、磁带、磁盘存储或其他磁存储装置或可以用于存储期望信息并可以由应用、模块或这两者访问的任意其他介质。任意这种计算机存储介质可以为这里所描述的系统和模块等的任意部件的一部分或与这里所描述的系统和模块等相关、或可访问或连接到该系统和模块等。这里所描述的任意应用或模块可以使用可以由这种计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实施。此外，可以使用云架构中的服务器客户模型来开发应用和模块。

这里所描述的流程图和图中的步骤和操作仅是举例。可以在不偏离以上所讨论的原理的情况下存在对这些步骤或操作的许多变更。比如，可以按不同顺序执行步骤，或者可以添加、删除或修改步骤。

已经认识到，关于VUI对人类语言获取模型，VUI的之前公开使用批量学习(即，其中，从被示出给装置的全部演示(和隐式确认)学习模型)。由此，装置需要甚至更大的存储来存储所有示例(自此之后为“无限制存储”)。公开的示例是[29]、[30]。第一公开在[37]中。

这里所描述的系统的优点是存储演示数据(语音+语义)的存储要求以及计算模型(计算GMM和NMF)所需的计算时间和存储在每一次新的演示时不增加。从演示学习的过程可以用装配有有限存储的处理器持久地执行。

最初，开发用于对婴儿的语言获取建模的NMF学习模型。申请人然后认识到，方法可以用于你必须执行ASR(自动语音识别：语音到文本)且然后执行NLU(自然语言理解：文本到意义)的VUI。在人类语言获取模型的框架中，[33]、[34]中描述了关键词的学习和到语义概念的映射。如从参考书目明显地，这里所描述的系统部分基于该理论。

一些公报仅提及ASR任务，没有人类语言获取或VUI(例如，[32])。这里仅描述批量学习(无限制存储要求)。

现在，关于自适应和增量学习，这里所描述的系统使用三个机制来适应词语的声学实现的变化(例如用户的话音、语言或行为的变化)和语义变化：(1)通过使GMM适应来进行的声学特征的适应(该理论基于[20])；(2)NMF模型的适应(该理论基于[31])；以及(3)NMF模型在使GMM模型适应时需要如何变化的预测。

应注意，不需要基于GMM生成声学特征。像在[32]、[38]以及[35]中证明地可以使用语音特征。这些特征可以借助其他方法来另外适应。在这种情况下，使声学特征或NMF模型适应的机制(如在上述点(2)和(3)中描述的)仍然适用。

现在转向附图，图1示出了用于被配置为控制至少一个设备(或系统)的用户界面的示例性系统。图1中看到的示例性系统包括声学传感器3、音频处理器、控制器7以及输出8(例如光输出)。系统另外包括演示器11，该演示器可以为触摸屏、计算装置上的按钮、菜单扫描装置、或实体装置(诸如电开关等)。在该示例中，在提供话音输入2之后，用户可选地在演示器11上确认在获得话音输入2之后执行的动作正确还是错误。在输出错误的情况下，用户另外可以指示正确动作。因此，系统学习用户1使用的词汇量。或者换言之，用户教授系统词汇量，以控制系统。系统有利地学习与用户在发特定词语或短语的音时的话音关联的参数(例如，学习用户是男人还是女人、是否以特定类型的口音讲特定语言等)。而且，系统适于学习其用户的话音特性。系统另外可以由具有差异的多个用户来使用，并且有利地，用户不需要确认他的/她的语言(因为用户向系统教授该语言)。

系统中可选地包括声音输出9和其他输出10(例如，在屏幕或演示器11上显示动作)。系统使得用户1能够将他的/她的话音用作控制例如光输出8的装置的声音输入2。为简洁起见，本公开详细讨论了使用用户界面来控制照明设备的示例，但本领域技术人员将理解，可以以类似的样式控制其他类型的设备。在声学传感器3处，接收话音输入2(或由用户生成的声学输入)。话音输入2可以为行进穿过空气到声学传感器3的声波的形式。示例性话音输入包括由人类用户的声带或由嘴巴生成的“aaa”、“ooo”、“eee”声音、或诸如“打开卧室中的灯”的整句。话音输入2优选地涉及诸如词语、短语、或其他种类的词汇的语言输入。虽然本公开聚焦于“话音输入”，但还预想可由用户产生的其他类型的声学输入(诸如可经由装置或仪器产生的声学输入)。优选地，声学输入包括用户在产生声学声音时控制的声学声音(即，用户可以实行声学声音的可变特性)。声学传感器3被配置为将所接收的话音输入2转换成音频信号4。音频信号可以为电音频信号，并且可以为表示话音输入2的模拟或数字信号。声学传感器3可以为用于感测声学波并将所感测波转换成信号的麦克风或任意合适传感器。

一旦话音输入2被转换成音频信号4，则音频处理器5使用任意合适的音频分析方法处理音频信号4，以确定音频信号的至少一个特性。通常，可以配置照明设备8或任意类型的输出装置。还可以以类似的方式控制诸如声音设备9的其他类型的输出。各种设备的另外示例(被示出为其他设备10)可以包括具有可配置温度输出的温度/热量设备、具有可配置速度输出的旋转扇、具有大可能大致连续范围内的可配置输出的电器等。通常，控制器7生成可以适于控制或调节照明设备8在特定方向上的至少一个设置的输出信号(例如，输出信号59)。

存在这里所描述的原理和系统的各种应用。一些示例应用没有限制地是：汽车中的使用；家庭中的使用-在不同的电器中和作为到家庭的控制装置/零件的中心枢纽(家庭自动化)；计算机和移动装置中的使用-控制界面而且控制各种应用(app)(装置可以包括计算机、膝上型电脑、智能电话、平板电脑以及可穿戴设备等)；基于虚拟现实的系统中的使用；在用于残疾人或在困境中的人(例如，跌倒且不能站起来的老年人)的辅助装置中；在(教育)玩具和游戏中；在用于家庭以及工业中的机器人中；用于驾驶舱中的飞行员或火车驾驶员或重型机械操作员；在健康护理中：作为用于医生以及导航健康记录这两者的界面；在健康护理中：语音或交流(即，孤独症)受损用户；在可以由不同开发商集成到应用中的基于网页应用程序界面(api)界面中；等。

虽然这里所描述的许多实验专门对构音障碍语音来进行，但将理解，这里所描述的方法和装置的原理和/或实施方式可以应用于一般语音识别应用。

图2例示了可以由诸如用图1中的示例的方式示出的系统的系统执行的计算机可执行处理的高级总结。如图2所示，根据图3所示的操作以及图4所示的操作处理输入语音。图3所示的操作(以下描述)生成语义框架。然后将语义框架映射到动作，并且确定结果是否正确。如果是这样，则进行与该输入语音有关的处理。如果不是，则用户可以可选地演示预期动作，并且系统将动作映射回到语义框架。然后如图4所示的处理从用户所演示的动作映射的语义框架，以实现增量学习。

转到图3，输入语音首先根据在所存储的GMM数据库中的数据经受特征提取。应注意，如更早指示的，特别提供使用GMM数据库，但也可以使用其他聚类方法。该特定实施方式的输出特征是后验图。特征提取从输入语音提取声学特征，这些声学特征然后经受声学同现直方图(HAC)处理。这生成HAV向量v。使用向量v，使用NMF根据以下公式计算启动向量：v＝W_ah，，W_a从已存储词语模型W的集合来获得。然后为了获得语义向量a，使用启动向量h来计算a＝W_sh。然后使用语义框架结构执行决策处理，以生成输出语义框架。

如图4例示，如果用户选择演示预期的动作或确认因根据图3的处理而产生的动作的正确性，则输入语音还经受预处理和GMM自适应，以生成已存储的GMM，该已存储的GMM用于执行特征提取，以确定经受HAC处理的声学特征。这生成HAC向量v_a，该向量用于确定NMF充分统计量和贝叶斯自适应，以便使词语模型W适应。输入语义框架用于映射到标签向量V_s，该标签向量也用于贝叶斯NMF自适应中。

现在将描述与图2至图4所示的操作有关的另外细节。

在本语境中，U_n提及第n个话语。各所说话语由框架向量的序列组成，在该序列中，构成常用作语义识别系统中的特征的、列U_n＝[x^{1}，x^{2}，...，，x^{t}，...，x^(Tn)]，x^(t)，态特征向量(诸如例如美尔(Mel)频率倒谱系数(MFCC))。增量指数t遵循框架的先后顺序。在[4]和[1]中提出的VUL中的声学特征向量在两层中建立：聚类层和潜在变量层。在这里所描述的实施方式中，设置优选地为具有K个分量的GMM且用于将U_n中的特征向量变换为后验图的第一层。机器学习领域中的技术人员将知道可以将其他方法用于生成后验图，诸如k均值聚类、谱聚类、自组织映射或神经网络。在实施方式中，后验图可以提及表达由f_k表示的第k个高斯生成时间t时的框架的后验概率。如果k＝1,...K且t＝1,...T_n，那么基于话语的后验图具有尺寸k*T_n。在这里所描述的实施方式中，提供第二层，借此，第二层优选地使用NMF来将数据因子分解，为此，优选地提供固定长度的向量。机器学习领域中的技术人员将知道，可以由其他机器学习技术(诸如多层感知机、深度神经网络、自动编码器、受限玻尔兹曼(Boltzmann)机、或(概率)潜在语义分析)代替NMF。因此，通过累积观察分别由高斯分量f_k和f生成的时间t时的框架和时间t+τ时的另一个框架的概率来将后验似然转换成声学同现直方图(HAC)特征(参见[16])，1<k，I<K，并且t从1前进至T_n-τ。话语n中的所有K*K同现高斯对的所累积得分堆叠在由v_n表示的列式向量中。如果高斯混合分量的数量保持恒定，那么所有之前的基于话语的特征向量v₁、v₂、v_n-1具有相同的长度。由V＝[v₁,v₂,v_n]表示由包括话语n及其之前的话语的所有基于话语的HAC特征组成。

在优选实施方式中，优选地用二进制向量a_n增强基于话语的向量v_n，该二进制向量表示用户在他们由话音控制装置时提及的相关语义。因此，在实施方式中，优选地预定义描述VUI用户语境中的C&C动作的所有语义，并且组成固定长度向量，在该向量中，条目表示提及这些预定义语义中的一个的话音表达的有无。优选地通过挖掘目标装置上的所演示动作带来用于这些预定义语义的所说参考的有无。该信息的收集是应用和装置依赖的。为了给出一般VUI描述的目的，假定对于各所说话语给出该向量。由A＝[a₁,a₂,a_n]表示包括这些引导话语n的所有语义的集合。在表I中，描绘了具有四列的数据矩阵，并且各列表示一个话语。第一话语是用户演示百叶窗的打开的表达。该动作在该示例中用九个声学同现得分来指导。表I中的上部例示A矩阵，而下部例示V矩阵。

表1：具有四个语义条目和用于三个高斯的HAC特征的数据矩阵的示例

这里所描述的实施方式的优点是用户可以选择他们自己的词。因此，根据优选实施方式，提供了一种能够在没有具体词语使用的标注的情况下从语义监督学习的机器学习方法。而且，如可以在表I中看到的，监督不包括词序、分段标志或语音描述。然而，[4]和[11]中示出了NMF能够满足这些要求。为了能够找到与语义实体同现的HAC模式，优选地一起因子分解语义和声学输入数据：

分别在列W₀和Wi₁中找到语义和声学特征的同现，而H中的列指示在A和V中的各基于话语的列中哪些同现模式有效。

优选地通过使两侧之间的库尔贝克-莱布勒(Kullback-Leibler)散度最小化来调节非负矩阵因子分解，使得

β是平衡同现语义-声学模式对声学数据模式的循环的相对重要性的权重。惯例是使A和V的L1范数匹配，并且将β设置为等于一。

这里所描述的实施方式提供了一种采用[4]和[11]中的全局结构的VUI模型，该全局模型优选地包括聚类层和潜在变量层，但执行增量学习。在聚类层中，优选地增量地训练GMM。GMM优选地将特征向量x’变换成后验图。在潜在变量层中，根据本发明的实施方式，增量NMF学习[17]使v_n中的HAC特征关联到a_n中的语义。增量NMF与概率潜在语义分析(PLSA)密切相关，该PLSA可以有利地被认为由NMF的概率版本与库尔贝克-莱布勒散度构成，作为成本函数参见[18]和[19])。

对于增量学习，根据这里所描述的实施方式，优选地采用最大后验概率(MAP)估计的方法。在下文中，对于GMM的[20]和PLSA[21]说明MAP估计，然后，在实施方式中，PLSA方法被转置为增量NMF，并且优选地，在两层中包括遗忘因子。因为两层根据这里所描述的实施方式从潦草字迹学习，所以申请将进一步说明在潜在变量层中如何对待聚类层中的变化。

A.MAP估计

在这里所描述的实施方式中，假设输入数据可用于在单独且顺序的时期中呈现的大块中。先后顺序由指数i来表示。各时期包含由常数O表示的若干话语。假定话语n是时期i中的最后一个话语，并且i中的全部话语被包含在由U^(l)表示的矩阵中，那么n＝∑_j＝₁'O_j，并且在该语境中，由来表示来自全部之前时期的全部输入数据。类似地，基于话语的特征向量被如下呈现为时期式：由表示全部之前时期中的数据集。

以下方程表达用于增量GMM的参数集的先验和后验分布之间的关系：

Θ表示GMM参数集，g表示给定先验暴露数据的参数集的联合概率，并且f表示给定参数集的、时期i中的数据的似然。后验分布的模式如下定义：

如果我们单独考虑HAC特征和语义，那么两个流的MAP估计被定义为(参见[21])：

cp和分别是用于HAC特征和语义的PLSA模型的参数集。在优选实施方式中，优选地从指数族选择f，并且从各共轭族选择g，使得MAP估计有利地不那么复杂。而且，有利地，该组合占用固定维数的充分统计，这意味着参数仅依赖通过充分统计的数据。因此，通过记录一些数据依赖统计来将用于参数估计的所有相关信息传递到接着的时期，由此减轻对存储数据的需要。

B.GMM中的MAP更新

如果时期i中框架的总数是那么具有K个p维多元正规密度的GMM的似然函数如下表达：

其中，k^thr表示混合分量的混合比，该混合分量经受和不幸的是，GMM的p.d.f.不是指数族的成员。而且，未知生成观察的混合分量。在模型涉及不完整数据时的情况下经常使用期望最大化(EM)[22]算法。EM算法利用以下事实：完整数据似然比不完整数据的似然更容易最大化。完整数据似然是已观察数据和未知混合分量中的观察的占用的缺失数据的联合似然。[20]中的思想是将完整数据的生成过程认为由来自指数族的两个分布的联合p.d.f.建模。该实施方案仍然允许容易的更新方案。高芬(Gauvain)和李(Lee)[20]提出了用于各分量群体的分量分布和多元高斯密度的样本尺寸的多项分布。它们假定用于多项参数的先验密度的狄利克雷(Dirichlet)分布。这些参数与GMM的混合比ω_k对应，

其中，α是狄利克雷分布的参数。高芬和李将正规威沙特(Wishart)密度用作用于精确矩阵的共轭先验。相等地，在这里所描述的实施方式中，提供正-反威沙特，作为用于方差-协方差矩阵的共轭先验。正反威沙特采用以下形式：

其中，λ_k＞0和v_k＞p-1.是超参数，使得总先验密度(μ_Ck，λ_k，ψ_k，ν_k)是方程8和方程9中的先验的积。

通过使用EM算法[22]获得[20]中的MAP估计。算法优选地由使由两个项组成的辅助函数迭代地最大化组成：

j_s是用于获得ML估计的辅助函数，并且^表示分别使用R和Q的Θ的MAP和ML估计。以与方程10中的先验相同的形式组织指数R产生以下方程[20]：

c_kt ^(l)为由高斯k生成样本x_t的后验似然。由下式给出由表示的用于分量k的占有数：

优选地在各EM步骤中调节以下统计，并且在各新时期i的收敛之后更新以下统计：

这些统计用于如下在各最大化步骤中获得MAP参数，

注意，符号和方程与MAP更新的[20]中的符号和方程不同，但不引入增量学习。

C.PLSA中的MAP更新

PLSA[23]用于由潜在主题变量说明词语和文档的同现的搜索引擎中。PLSA是两个离散变量的已观察联合概率的模型。联合概率在给定潜在变量时被建模为条件独立多项分布的混合。我们由表示使v_n中的第f条目增加一的声学事件的发生且表示话语n的出现的m_fe来表示同现变量M＝{m₁，m₂，...，m_F}。我们表示潜在变量b，该潜在变量由表示为话语n中的v_fn的出现的基础的潜在实体d_n∈D＝{d₁，d₂，...，d_N}。已观察对(m_f，d_n)的联合概率如下依赖Z[23]：

如果HAC特征v_fu表示话语d_u中的m_f和当前时期i的话语指示符u的同现的事件的数量，那么时期i中的数据的似然与下式成比例，

cp表示包含P的参数向量。通过在m_f上使P(m_f,d_u)边缘化平凡地找到包含P(d_u)的参数向量P(m_f|z_j)和P(z_j|d_u).。在[18]和[20]中，参数向量的联合先验p.d.f.被选择为由狄利克雷分布构成。先验密度被指定为

其中，ξ3/4>0是狄利克雷参数。注意，该先验密度不包括是通过考虑不携带信息的话语的出现在[18]中证明合理的简化的参数P(z_j|d_u)，上的p.d.f.。因此，该变量不将有用信息携带到下一时期。语义流中的相同过程产生以下比例关系：

是与语义流对应的PLSA参数向量，R是a_u的维数，并且g_r∈G是表示使a_u中的条目a_ru增加一的语义事件的出现的变量。用语义流中的狄利克雷密度的组成参数如下表达语义变量的先验密度：

在[18]中，为了使最近收集的数据统计比之前收集的统计更重地加权，用遗忘因子γ扩展辅助函数从而提供对词汇量的变化的适应。这里，我们并入同一遗忘因子，并且用语义流的似然扩展辅助函数：

考虑两个流共享同一潜在变量期望步骤引起以下方程：

并且以下方程组成最大化步骤：

β为与方程2中的β相同的加权因子。注意，符号与[18]不同，在[18]中，在参数K_fj＝ξ_íΓ1的函数中表达更新，并且把语义学和声学当作一个。上述方程可以被解释为经由以下关系进一步描述的NMF的扩展的概率版本：

a_ru＝c_uP(g_r，d_u)， v_fu＝c_uP(m_f，d_u) Eq.36

w_0,rj＝P(g_r|z_j)， w_1，fj＝P(m_f|z_j) Eq.37

h_ju＝c_uP(z_j|d_u)

Eq.38

h分别表示H的条目(参见方程1)和并且c_u为基于话语的常数。

D.具有遗忘因子的GMM

通过处理越来越多的话语来将高斯参数增量地调谐到用户的语音。使用没有遗忘因子的MAP更新将随着已处理话语的数量增加而越来越强化先验，从而降低较新话语对参数估计的影响。在使用遗忘因子的实施方式中，遗忘因子可以有利地保持先验较弱，由此连续地加速自适应。与方程30中的遗忘因子γ类似地，在这里所描述的实施方式中，在GMM中引入由η表示的遗忘因子。方程11中的辅助函数取得以下形式：

并且导致方程14至方程18中的以下修改：

这保持所有其他形式体系相同。

图1中描绘了γ、η对数据统计的影响。这里，话语n＝100被认为是接收参考权重1的最近话语。曲线显示使用方程40至方程44在之前话语n<100中累积的增量统计的相对权重。图1中可以看到的是相对权重被与一稍微偏离的遗忘因子严重地改变。

E.GMM修改

一方面，GMM参数的增量学习由数据越来越多的可用性逐渐提高GMM。这对于非标准语音或使用难以事先找到表示数据的低资源语言的语音特别有用。另一方面，增量学习连续改变高斯混合分量，这是不适当的(因为这些高斯用作组成HAC特征的码本)。为了克服这些变动，优选关于较早高斯建立的NMF表示的遗忘。除了遗忘(即，弱化)先验之外，这里所描述的实施方式还提供了根据GMM修改直接调节NMF参数的变换。改变均值的高斯分量将引起与在较旧数据上引起的后验不同的后验。然而，NMF表示基于过去的数据和后验。这里所描述的实施方式提供通过估计这些变化将如何影响数据的后验图并因此修改NMF层中的已学习表示来调节高斯变动。

如果存储所有数据，那么容易地计算在时期i-1估计的GMM和在当前时期i估计的GMM的数据后验。可以获得将在时期i之前的后验变换成时期i之后的后验的K*K变换矩阵。该变换将有助于关于最近GMM将基于NMF的表示变换成更可实行的版本。通过设计，数据不存储在基于MAP的增量学习中，由此妨碍该方法。因此，我们使用之前时期中的数据的GMM来模拟数据。如果我们将在时期i-1估计的高斯分量表示为高斯密度函数f_k且将在当前时期i估计的高斯分量表示为qi，那么从f_k得到的样本源于密度qi的期望似然可以被表达为负叉熵的指数。为此，我们首先表达密度qi的所模拟数据的似然(假设样本从密度f_k获得)，

清楚地，该表达可以被识别为负叉熵-H(f_k,qi)，H(f_k,qi)被定义为：

其中，H(f_k)表示密度f_k的熵。负叉熵-H(f_k,qi)可以被解释为样本x被认为从高斯qi获得但实际上用密度f_k生成的期望似然。用于两个高斯密度的H(f_k)的闭型为：

因为没有已存储的数据，所以假想生成的样本的平均似然用作另选方案

时期i时的期望似然与重叠，并且后验似然如下描述关于在当前时期i之前的所有高斯分量密度l_j来自f_k的样本的期望占有：

T具有维数K*K。T的行可以被认为是由旧高斯生成的数据到新高斯的再分割。W₁中的列式HAC表示然后被重成形为对于所有K*K个高斯对具有所累积同现分数的正方形K*K矩阵，随后分别是T及其转置的左右乘法。T还可以被认为是关于高斯分量之间的相似性使后验图平滑的平滑器。[24]中示出后验的平滑产生来自稀缺数据的基于NMF学习的更佳性能。然而，该变换优选地用于W₁参数的初始猜测(因为该过程仅将基于高斯的成对同现的边际变化考虑在内)。因此，优选新数据，以将该初始猜测微调到真实同现统计。

在这里所描述的以上提及的实施方式中，在两层(聚类层和潜在变量层)中引入增量VUI学习。在另选实施方式中，关于聚类层中的增量学习，可以使用固定码本。固定码本具有码本贯穿整个实验一致的优点。[4]和[11]中使用基于固定码本的过程。可以通过应用使用例如来自荷兰语非构音障碍语音库的随机选择框架的k均值过程来获取说话者独立码本。在这里所描述的实施方式中，可以将该码本称为“CGN固定码本(CGN-FC)”。在应用k均值算法之后，对样本的划分估计完全协方差高斯。至于GMM的高斯，这些高斯用于将特征向量变换成后验图。

在根据本发明的另外另选实施方式中，有人可以通过对用户的之前记录实施k均值算法来使用说话者依赖的固定码本。虽然这假定说话者依赖记录步骤，但使用有限数量的可用数据的说话者依赖训练比[4]中的说话者独立码本受青睐。在这里所描述的实施方式中，这可以被称为“说话者依赖固定码本(SD-FC)”，并且例如可以为此目的使用DOMOTICA-3-前驱(即，可以包括相同说话者的记录的DOMOTICA-2)。可以如进一步说明的将固定码本与自适应增量过程进行比较。自适应学习过程在该文本中可以被称为“自适应增量GMM(AI-GMM)”。

在潜在变量层中，在本发明的实施方式中，有人优选地将如更早说明的批量NMF学习(B-NMF)与自适应增量NMF(AI-NMF)变体进行比较。在批量学习中，将训练集整体编码并因子分解。因为同一码本用于全部话语，所以不需要和方程50中提出的变换一样的变换。然而，在所说命令的数量增加时，批量学习将需要越来越多的数据存储。与批量学习相反，增量学习有利地在仅处理最后一个数据时期的意义上是无存储的，由此，用于这一点的存储需要不增长。

将根据这里所描述的实施方式的VUI过程与频繁用于说话者依赖的小词汇嵌入式应用中的“动态时间规整(DTW)”进行比较。在DTW过程中，以局部相异性运行的动态编程对齐进程用于找到特征向量的两个序列之间的全局相异性。在将DTW与NMF过程进行比较时，DTW具有关于用于VUI模型中的监督的类型的缺点。没有分词可用，并且因为基于DTW的模板匹配系统不寻找循环的数据模式，所以完整无损地学习命令。相反，作为机器学习过程的联合NMF能够基于统计规律找到话语的词语成分；由此，不需要分词。例如，如果学习诸如“打开百叶窗”和“关闭厨房门”的命令的语义成分，那么在基于NMF的解码器中而不是在基于DTW的解码器中可理论地识别诸如“关闭百叶窗”的看不见的命令。因为DTW被称为计算昂贵算法，所以通常仅将各命令的一些示例保持为模板。在这里所描述的实施方式中，为了使得基于DTW的识别器自适应，可以由较新的示例更新模板。

示例

已经提供了一般公开，以下示例帮助例示该一般公开。这些具体示例仅被包括为例示本公开的特定方面和实施方式，并且它们不旨在限于任何方面。然而，示例所描述的特定一般原理通常可以应用于本公开的其他方面或实施方式。

已经关于用户根据本发明训练VUI的家庭自动化设置评价根据这里所描述的实施方式的操作VUI过程。在如以下提供的三个示例中比较根据这里所描述的实施方式的所说明过程。在第一示例中，验证若干方面(诸如遗忘因子的使用、由以上所提出的变换进行的GMM参数的调节、以及不同初始化过程的辅助)。在第二示例中，申请人除了将根据这里所描述的实施方式的增量VUI学习的学习曲线与混合过程和DTW进行比较之外，还将该学习曲线与批量学习过程进行比较。在第三示例中，对于用户话音的所保持变化测试这些过程的自适应能力。

示例的设置

语音库：DOMOTICA-3数据库[2]包含对家庭自动化典型的荷兰语构音障碍语音命令。数据集由还参与用于更早评价中的DOMOTICA-2数据集的收集(参见[25]和[11])中的说话者的记录构成。首先，从不同的用户收集自然引起的命令。由这些命令组成列表。由多个构音障碍说话者重复阅读这些列表，并且将这些列表引导到DOMOTICA-2和DOMOTICA-3数据集集合。表II中列出了列表数量和诸如性别、话语总数(N)、不同命令的数量以及可懂度得分(可懂度，得分)[26]的说话者特性。列表包含27个命令，但一些说话者接收10个命令的缩小列表。85以上的可懂度得分被认为是正常，而85以下的得分被认为是受损。因为[26]中的仪器不被设计为儿童话音，所以可懂度得分对于具有个人识别(Pid)31和37的儿童缺失。构音障碍与诸如痉挛性四肢瘫痪和多发性硬化的不同病症有关。

表II：DOMOTICA-3中的参与者

评价过程：在留出的测试集上评价不同过程的性能。它包含各唯一命令的一个随机所选的样例。剩余的话语充当训练集。产生十个子类，并且各子类呈现训练话语的不同排列先后顺序的句子和不同测试集。为了评价增量学习，训练集以10个话语(O＝10)的时期增加。评价基于测试集中的语义值的识别F得分。

参数和初始化：我们使用MFCC特征和包括总共引起p＝42特征维数的第一和第二导数的光谱能量。通过使用话音活动检测去除静寂框架，并且应用均值和方差正规化。在实验准备阶段中选择对于R＝29个语义实体产生最佳性能的K＝50个高斯。我们以延迟τ＝2、5、9以及20堆叠四组HAC特征，这产生用于各基于话语的声学表示的4*50²个条目。这些延迟已经用于其他研究[11]中。各延迟依赖的HAC集被当作单独的多项分布。语义多项流被正规化且缩放为具有与声学多项流相同的L1范数。类似地，W的语义部分具有与声学部分相同的L1范数。W的列被正规化为1。

除了W中的R＝29列之外，为了对填充词建模，添加一些额外的W列(D＝5)。该比例对于所有实验恒定。H中的各列被初始化为L1范数等于数据矩阵中的各列的L1范数(参见方程36至38)的均匀向量。W的声学部分用均匀分布的随机条目来初始化。W的语义部分如下来初始化：

I为单位矩阵，并且1为一的矩阵，为了为声学保留50％，I和1都乘以1/2。Δ为大于零的随机小常数，并且G为适当尺寸的随机矩阵-维数在旁边的括号中指定(从0至10^-4之间的均匀分布得到)。

超参数ξ_ij，ι_fy，λ_k，v_k，a₁和α_k分别被设置为1、5、1、43以及30000。为了避免在一些时期之后由更频繁的语义实体的列培养不那么频繁的语义实体的列而例如选择信息先验l_fj＝5，反之信息先验α_k被选择为防止混合比适于基于话语的统计而不适于基于数据的统计。如下初始化GMM参数：ω_k＝1/50，∑_k＝1，并且所有μ_k是根据即将发生的初始化过程而是单位超球面上的随机选择点或从CGN聚类采用。

在示例中，局部相异性基于在均值和方差正规化之后的两个特征向量之间的余弦相似性[27]。如果x_a和x_b是两个均值和方差正规化向量，那么它们的局部相异性被定义为：

在基于DTW的过程中，由同一唯一语义输入引导的最后六个所说命令被保持为DTW模板。用新遭遇的示例连续更新这些模板。在解码时，选择最相似的模板，并且选择对应的语义向量作为预测。该预测与测试集中已解码的话语的语义标注进行比较。该比较可以允许有人对与所有其他过程相同的术语评价DTW。在我们将五个与六个所保留示例模板进行比较的之前评价中，我们发现从五到六的小增益。因此，我们未每个命令测试多于六个示例模板。

示例1

设置

GMM自适应包括第一层的变化。因为这些高斯用作码本，所以这些变化偏离基于旧GMM的所获取NMF表示。在方程50中的所提出变换重建关于逐步形成高斯的NMF表示。对于全增量过程比较使用和不使用变换的VUI学习(即，“AI-GMM、AI-NME”)。另外，评价具有和不具有遗忘因子的增量过程。为此，选择遗忘因子η、γ＝1和η、γ＝0.95。具有10个话语的时期的遗忘因子0.95与如图1所描绘的包含单个话语的时期的遗忘因子0-995～V 0.95f_or对应。最后一个感兴趣变量是从单位超球体的表面中随机得到或用聚类均值初始化的高斯均值的初始化，该聚类均值通过对来自语料库声音(Gesproken)荷兰语(CGN)[28]的500000个随机选择的框架应用k均值算法来获取。该语料库包含荷兰语所说谈话和新闻广播。我们在完全交叉的实验中用二进制条件评价这三个变量的性能，并且重复这些变量的各组合10次，每次使用话语的不同顺序。结果被分成两组训练集：一组包含在表III的中间列中列出的、尺寸小于100个话语的训练集，而第二组包含大于或等于100个话语且在表III的第三列中列出的集合。

表III：操纵的平均效应：没有遗忘因子对遗忘因子，使用T对不使用T，以及用CGN初始化对随机。

结果

在表III中，对于各组列出了对照。仅变换T的使用看起来产生显著的不同。平均增益对于小训练集的组和大训练集的组分别为3.3％和6.1％绝对改进。通过应用遗忘因子产生的性能降低不显著，并且用CGN进行的初始化对于各相应组的训练集产生2.9％和1.9％的不显著改进。基于这些结果，以下实验中的全部增量GMM过程符合基于CGN的初始化，并且使用由方程50表达的变换。我们在以下实验的基线中使用遗忘因子η、γ＝0.95。

示例2

设置

评价过程的VUI学习曲线。学习曲线提供获取话音表达的学习速率的测量。另外，在大训练集的情况下，学习曲线趋平，并且提供可以达到的渐进性能的测量。

结果

图2a中描绘了根据这里所描述的实施方式的无存储过程的学习曲线，而图2b中描绘了需要越来越多的数据存储的过程的学习曲线。x轴表示训练集中增量增长数量的话语。较长的曲线包括具有27个不同命令和总共多于190个训练话语的说话者(参见表II)。这些说话者具有个人标识17、28、30、31、34以及35。可懂度得分在从69到88.6的范围内，并且平均上为76.6。较短曲线包括仅说10个不同命令的、具有个人标识33、37、43、46以及48的说话者。该组中的可懂度得分在从66.1到89.4的范围内，并且平均上为79.0。因为NMF层在各单独屏面中全部相同，所以曲线图特别用于将不同的码本过程进行比较。根据这里所描述的实施方式的无存储过程的优选实施方式是在图2a中用圆形标志显示的“AI-GMM、AI-NMF”。对于该过程，具有10个不同命令的组对于90个学习示例的训练集平均达到91.3％的F得分，而另一组对于190个学习示例平均达到94.7％的F得分。在图2b中，关于聚类层中的过程显示类似的结果模式。用五角星标记的“AI-GMM、B-NMF”过程分别对于短曲线和较长曲线达到94.1％和96.1％的最高最终得分。短曲线可能由于更受限制的词汇量而比较长曲线更陡峭的上升。虽然较长曲线之间的差异清晰可见，但清楚的差异模式对于较短曲线不可见。然而，对于较长曲线，可以看到增量学习的码本胜过在预记录的用户数据或CGN上训练的码本。这些曲线的分化对于较长曲线在大约50个训练示例处开始，并且在大约80至90个训练示例处变得充分。

在表IV中，对于“AI-GMM、AI-NMF”、“AI-GMM、B-NMF”以及“SD-FC、B-NMF”列出各个体的最终F得分。在将进一步建立增量GMM“AI-GMM”(即，表IV中的列六和列七)的两个过程的F得分时，可以看到，批量NMF以1.9％的平均差异比增量NMF更佳地执行。批量NMF学习连同如用于[11]中的说话者依赖码本“SD-FC、B-NMF”以与增量过程“AI-GMM、AI-NMF”相同的水平执行。

表IV：使用全部可用数据的不同过程的独立F得分。

根据这里所描述的实施方式的所有已提出的VUI胜过领域中的已知方法DTW。表IV中的重要观察是词汇尺寸的影响：虽然小词汇量的学习曲线具有更陡峭的上升，但如果关于在表IV的列五中列出的每个命令的学习示例的数量评价学习，则该上升将与较长曲线的上升紧密对应。

示例3

设置

对于用户的话音特性的变化评价过程的自适应能力。这种变化随着年龄或随着用户寿命期间的进行性疾病而出现在用户的话音中。因为话音记录是产生DOMOTICA-2和DOMOTICA-3的一年半的寿命期间的两个连续时刻的快照，所以我们不能跟踪说话者话音中的这种退化。因此，一个用户的话语附加到具有相同性别和命令列表号的另一个用户的话语。表II的前六行中列出了参与者的对。所附列表中的所有话语被给予学习算法，犹如话语由同一用户产生。我们通过评价来自用户变化的恢复来调查哪一个学习过程能够适于新话音特性。为此，我们将自适应增量过程与等于0.86和0.95的遗忘因子进行比较。考虑一个话语的时期，如表1所描绘的遗忘因子0.985与使用10个话语的时期的因子0.86对应。

结果

在图3中，针对用户变化之后的前160个话语标绘用于用户对的、具有个人标识28、30、35以及37的最终说话者的平均F得分。曲线图中的两个被排除的最终用户具有少于160个话语，然而，表V中列出了他们的最终得分。左屏面中描绘了NMF增量学习过程，而右屏面中描绘了NMF批量学习过程。原点处的F得分与用户变化之前的用户的平均最终得分对应。0至10个话语之间的性能降低因用户变化而产生。由此，性能对于不同的过程以不同的速率恢复。对于涉及增量学习的所有过程，具有相同标志和颜色的两个曲线用在旁边显示的它们的遗忘因子0.86或0.95来描绘。与最快学习实验相反，增量过程比批量学习过程更佳地执行。在左屏面中由圆形标志描绘的完全增量过程“AI-GMM、AI-NMF”在160个话语处达到最高得分89.4％。第二佳的过程是NMF批量学习过程，该NMF批量学习过程用增量GMM过程“AI-GMM、B-NMF”来支持，在160个话语处达到得分83.2％。在右屏面中用五角星标志描绘该曲线。清楚地，该过程具有与完全增量过程相比相当大的降低。然而，如由聚类层中的不同遗忘因子η的不同性能看到的，借助增量GMM训练过程实现某一自适应。总体上，在考虑增量过程的曲线对时，对于由最强遗忘因子引导的曲线获得最陡峭的上升。比如，“CGN-FC、AI-NMF”通过使用遗忘因子0.86在100个话语处达到得分76％；该得分比使用遗忘因子0.95的同一过程高12.4％。该相对性能差距对于在两层处用增量学习进行的“AI-GMM、AI-NMF”过程最大。还注意，使用说话者依赖聚类“SD-FC”的过程比使用基于CNG的聚类“CNG-FC”的过程更差地执行。说话者依赖训练材料仅涉及之前的说话者。

表V中呈现了更多细节。在该表中，连同批量过程一起呈现使用较强遗忘因子的增量过程的最终得分。仅对于完全自适应过程：γ和η等于0.86的“AI-GMM、AI-NMF”，实现比得上示例2中的最终得分的最终得分。表V中的说话者46、35、30、28以及37的最终得分接近表IV中的各最终得分。另一个感兴趣的观察是说话者对43至46和32至35的全部过程的整体良好性能。第一说话者的训练集尺寸分别计入123个和26个话语，分别使第一说话者34和17的335和322个话语强烈对比。用户变化之前的话语越多，先验越强，并且忘却旧模型所需的新话语越多。

表V：使用全部可用数据的不同过程的独立F得分。

示出了基于MAP估计的增量学习过程需要比它们的批量学习变体稍多的训练数据来实现相同的精度。聚类层处的MAP估计引起比基于CGN或基于说话者依赖之前所记录数据的固定码本更佳的码本。由此，显著的优点是将最近数据用于模型估计。用于较快批量学习的暂定说明是整体提供的数据越多，析出引起较稀疏表示的因子的相关特征更多。尽管批量学习引起较稀疏表示，但增量MAP更新记录是所有特征(与不如说单独呈现的语义条目同现的相关和不相关声学特征)的累积的充分统计。如果该假定为真，那么稀疏引起的先验可能改进NMF MAP估计。该假定经受未来研究。从目标应用的观点，应针对存储要求平衡性能的小降低。

因为高斯的变化为了实现合适的解码而需要NMF表示的调节，所以两层上的增量MAP估计的实施方案具有挑战性。所引入的变换用于实现该目标。如果存储数据或如果使用固定码本，则不需要变换。仅完全增量过程以连续时期之间的该变换操作。增量过程演示比在线更新参考模板的我们的DTW实施方案更佳的自适应执行。详尽贝叶斯框架从直接MAP自适应过程可以应用于我们的GMM和NMF模型存在。相反，基于模板的话音界面不是直接过程。基于统计NMF的方法的主要优点中的一个是它基于数据的统计循环自动解析话语。因为解析由在基于话语的输入向量中包括的语义监督来调节，所以解析与语义内容对应。在DTW过程中整体学习话语。由分割的输入向量学习关键字的DTW过程可以演示更佳的性能。然而，这将需要用户向VUI提供所说关键字学习示例的登记阶段。

批量学习过程稍微更快地学习，但增量过程的使用在语音特性的变化需要自适应时最有利。因为在最终用户的环境中学习声学特征，所以增量过程也将可能证实更鲁棒。如果正确选择遗忘因子，则获得强恢复。第三实验方法中的恢复之后的性能水平接近第二实验中的性能水平。这些过程以相当引人注目的方式胜过批量学习过程。然而，如果不适当地选择遗忘因子，则自适应对于小训练集次最优。该找到提出诸如合适遗忘因子的选择的新问题。关于用户行为的变化在适当程度上弱化先验的动态遗忘值是未来研究的有前途的方向。找到与诸如由于感冒(举一个示例)而引起的非永久变化的声学变化相对的可能声学变化的良好检测还需要更多研究。

总体上，增量过程的性能对于处理小词汇量的VUI应用是可接受且可行的。它们胜过每个命令使用六个模板的DTW过程。与从潦草字迹建立或选择模板的DTW方法类似，完全增量VUI学习方法尽我们所知的是从诸如MFCC特征和语义内容的预处理特征建立其ASR模型的基于第一模型的方法。虽然NMF批量学习提供稍微较快的学习，但自适应速率在给定合适的遗忘因子时对于增量学习显著更快。由此，如果需要自适应，如果存储受限或需要存储控制，那么完全增量过程是可实行且可行的解决方案。所有其实践优点使得它适于许多硬件平台。

借此以引证的方式将这里所提及的所有公报和专利整体并入，犹如各独立公报或专利被特别且独立指示为以引证的方式并入。在冲突的情况下，包括这里的任意定义的本申请将控制。

虽然已经讨论了主题发明的具体实施方式，但上述规范是例示性而不是限制性的。本发明的许多变体将在查阅本规范和以下的权利要求时对本领域技术人员变得清晰。本发明的全范围应参照权利要求连同它们的等同物和规范的全范围、连同这种变体一起来确定。

参考书目

[1]G.Hinton等人，"Deep Neural Networks for Acoustic Modeling in SpeechRecognition(深度神经网络在语音识别中的声学建模)",I EEE Signal ProcessingMagazine,vol.29,nr.6,pp.82-97,2012年11月,

url:http://research.microsoft.com/apps/pubs/default.aspx？id＝171498.

[2]J.F.Gemmeke等人，"Self-taught assistive vocal interfaces:Anoverview of the ALADI N project(自学的辅助人声界面：ALADI N项目的概述)",Proceedings of Interspeech(2013年).

[3]J.Driesen,"Discovering words in speech using matrix factorization(使用矩阵分解发现语音中的单词)",PhD Dissertation,2012年7月,KU Leuven,ESAT.

[4]B.Ons等人,"Fast vocabulary acquisition in an N MF-based self-learning vocal user interface(在基于N MF的自学声乐用户界面中快速获取词汇)",Computer Speech&Language,vol.28,nr.4,pp.997-1017(2014年).

[5]J.F.Gemmeke等人,"Dysarthric vocal interfaces with minimal trainingdata(用最少的训练数据进行构音人声界面)",Spoken Language Technology Workshop(SLT)(2014年).

[6]M.S.Hawley等人,"Aspeech-controlled environmental control systemfor people with severe dysarthria(严格构音障碍患者言语控制环境控制系统)",Medical Engineering&Physics,vol.29,nr.5,p.586-593,Elsevier(2007年).

[7]M.S.Hawley等人,"A voice-input voice-output communication aid forpeople with severe speech impairment(语音输入语音输出通讯帮助严重语言障碍的人)",Neural Systems and Rehabilitation Engineering,IEEE Transactions on,vol.21,nr.1,p.23-31(2013年).

[8]Z.Xianglilan等人,"One-against-AII Weighted Dynamic Time Warpingfor Language-Independent and Speaker-Dependent Speech Recognition in AdverseConditions"(在逆境条件下的语言无关和扬声器相关语音识别的一对二加权动态时间规整),PloS ONE,vol.9,nr.2,p.e85458,2014年2月，[在线]可获得：http：//dx.doi.org/10.1371％2Fjournal.pone.0085458.

[9]W.H.Abdulla等人,"Cross-words reference template for DTW-basedspeech recognition systems(基于DTW的语音识别系统的交叉词参考模板)",in TENCON2003.Conference on Convergent Technologies for the Asia-Pacific Region,vol.4,IEEE,2003年,p.1576-1579.

[10]L.Broekx等人,"Comparing and combining classifiers for self-taughtvocal interfaces(比较和组合自我教育声乐界面的分类器)",Proc SLPAT,p.21-28,Grenoble,France(2013年).

[11]B.Ons等人,"The self-taught vocal interface(自学成熟的人声界面)",EURASIP Journal on Audio,Speech,and Music Processing,vol.2014,nr.1,p.43(2014年).在线：http://asmp.eurasipjournals.eom/content/2014/l/43

[12]V.Roy等人,"A Framework for Adaptation of the Active-DTWClassifier for Online Handwritten Character Recognition(用于在线手写字符识别的主动DTW分类器的适应框架)"10th International Conference on Document Analysisand Recognition,2009年,ICDAR'09,p.401-405.

[13]M.Matassoni等人,"The dirha-grid corpus:baseline and tools formulti-room distant speech recognition using distributed microphones(迪哈网格语料库：使用分布式麦克风进行多房间远距离语音识别的基线和工具)",FifteenthAnnual Conference of the International Speech Communication Association,2014年.

[14]B.Lecouteux等人,"Distant speech recognition in a smart home:Comparison of several multisource asrs in realistic conditions(智能家庭中的远程语音识别：在现实条件下的几个多源asrs的比较)",Proc.Interspeech,p.2273—2276(2011年).

[15]H.Christensen等人,"HomeService:Voice-enabled assistive technologyin the home using cloud-based automatic speech recognition(家庭服务：家庭中使用基于云的自动语音识别的语音辅助技术)",Proc.SLPAT,p.29-34,Grenoble,France(2013年).

[16]H.Van hamme,"HAC-models:a Novel Approach to Continuous SpeechRecognition(HAC模型：连续语音识别的一种新方法)",Proc.Interspeech,Brisbane,Australia,p.255-258(2008年).

[17]J.Driesen等人,"Adaptive non-negative matrix factorization in acomputational model of language acquisition(语言习得计算模型中的自适应非负矩阵)",Proc.Interspeech,Brighton,UK,p.1711-1714(2009年).

[18]J.Driesen等人,"Modelling vocabulary acquisition,adaptation,andgeneralization in infants using adaptive Bayesian PLSA(使用自适应贝叶斯PLSA建模婴儿词汇习得，适应和泛化)",Neurocomputing,vol.74,p.1874-1882(2011年).

[19]M.Shashanka等人,"Probabilistic latent variable models asnonnegative factorizations(概率潜变量模型作为非负分解)",Computationalintelligence and neuroscience,vol.2008,Hindawi Publishing Corporation(2008年).

[20]J.-L.Gauvain等人,"Maximum a posteriori estimation formultivariate Gaussian mixture observations of Markov chains(马尔可夫链多变量高斯混合观测的最大后验估计)",Speech and audio processing,ieee transactionson,vol.2,nr.2,p.291-298,IEEE(1994年).

[21]J.-T.Chien等人,"Adaptive Bayesian Latent Semantic Analysis(自适应贝叶斯潜在语义分析)",Audio,Speech,and Language Processing,IEEE Transactionson,vol.16,nr.1,p.198-207(2008年1月).

[22]A.P.Dempster等人,"Maximum likelihood from incomplete data via theEM algorithm(通过EM算法得到的不完整数据的最大可能性)",Journal of the RoyalStatistical Society.Series B(Methodological),p.1-38(1977年).

[23]T.Hofmann,"Probabilistic latent semantic analysis(概率潜在语义分析)",Proceedings of the Fifteenth conference on Uncertainty in artificialintelligence,p.289-296,Morgan Kaufmann Publishers Inc.(1999年).

[24]B.Ons等人,"NMF-based keyword learning from scarce data(基于NMF的关键字从稀缺数据中学习)",in Proc Automatic Speech Recognition andUnderstanding(ASRU),2013IEEE Workshop on,p.392-397,IEEE(2013年).

[25]B.Ons等人,"A Self Learning Vocal Interface for Speech-impairedUsers(语音障碍用户的自学语音界面)",in SLPAT2013,pp.1-9(2013年).

[26]C.Middag,"Automatic Analysis of Pathological Speech(病理性言语的自动分析)",PhD Dissertation,Ghent University,Belgium(2012年).

[27]M.Ferrarons等人,"Flexible Stand-Alone Keyword RecognitionApplication Using Dynamic Time Warping(使用动态时间变换的灵活的独立关键字识别应用程序)",Advances in Speech and Language Technologies for IberianLanguages,p.158-167,Springer(2014年).

[28]N.Oostdijk,"The Spoken Dutch Corpus.Overview and firstEvaluation.(口语荷兰语语料库、概述和第一次评估)",In Proc.LREC,Genoa,Italy(2000年).

[29]"ASelf Learning Vocal Interface for Speech-impaired Users"alsoincludes the grammar learning(语音障碍用户的自学语音界面“也包括语法学习).

[30]"The self-taught vocal interface"also includes grammar learning(“自学的声乐界面”还包括语法学习).

[31]"Modelling vocabulary acquisition,adaptation and generalizationin infants using adaptive Bayesian PLSA(使用自适应贝叶斯PLSA建模婴儿词汇习得，适应和泛化)".

[32]"Integration of Asynchronous Knowledge Sources in a Novel SpeechRecognition Framework(异步知识源在新型语音识别框架中的整合)."

[33]"A Computational Model of Language Acquisition:the Emergence ofWords(语言习得的计算模型：词汇的产生)".

[34]"Phonetic Analysis of a Computational Model for VocabularyAcquisition from Auditory Inputs(从听觉输入词汇获取计算模型的语音分析)".

[35]"Discovering Phone Patterns in Spoken Utterances by Non-NegativeMatrix Factorization(通过非负矩阵分解在口头发言中发现电话模式)"

[36]"HAC-models:a Novel Approach to Continuous Speech Recognition(HAC模型：连续语音识别的新方法)",ICSLP2008.

[37]"Fast vocabulary acquisition in an NMF-based self-learning vocaluser interface(在基于NMF的自学声乐用户界面中快速获取词汇)".

Claims

1.一种处理和/或识别声学信号的方法，所述方法包括：增量地学习和/或自适应使输入声学信号与输入语义框架关联的至少一个模型，以学习所述声学信号的自适应变化；

使用所述至少一个模型中的一个或多个从输入声学信号生成语义框架；以及

将所述语义框架映射到预定动作。

2.根据权利要求1所述的方法，还包括：

在所述映射成功时执行所述预定动作。

3.根据权利要求1或2所述的方法，其中，所述语义框架从对另选非话音用户界面执行的用户动作来生成。

4.根据权利要求3所述的方法，其中，所述另选非话音用户界面包括按钮、键盘、具有关联的图形用户界面(GUI)的鼠标中的任意一个或多个。

5.根据权利要求1或2所述的方法，其中，所述语义框架从自动分析与话音命令关联的文本来生成。

6.根据权利要求3至5中任一项所述的方法，其中，语义概念是用户在使用话音用户界面(VUI)由话音控制或定址装置或对象时提及的相关语义。

7.根据权利要求1至6中任一项所述的方法，其中，所述声学信号是话音信号。

8.根据权利要求1至7中任一项所述的方法，其中，所述语义框架通过以下方式来生成：处理所述输入声学信号，以提取声学特征，并且执行声学同现的直方图(HAC)处理，以生成HAC向量，所述HAC向量用一个或多个潜在变量层来处理，以生成要根据语义框架结构处理的语义向量。

9.根据权利要求1至8中任一项所述的方法，其中，预定义所述语义概念，并且组成向量，其中条目表示涉及预定义的语义概念之一的话音表达的有无。

10.根据权利要求9所述的方法，其中，所述向量是固定长度向量。

11.根据权利要求1至9中任一项所述的方法，其中，所述增量学习应用于聚类层和潜在变量层中的一个或多个。

12.根据权利要求11所述的方法，其中，在所述聚类层中，增量地训练高斯混合模型(GMM)或深度神经网络(DNN)。

13.根据权利要求11所述的方法，其中，在所述潜在变量层中包括使所述话语中的声学同现直方图(HAC)特征关联到所述语义的增量非负矩阵因子分解(NMF)学习。

14.根据权利要求1至13中任一项所述的方法，其中，所述增量学习借助最大后验概率(MAP)估计来实现。

15.根据权利要求11至14中任一项所述的方法，其中，在所述聚类层和潜在变量层这两者中包括遗忘因子。

16.根据权利要求13至15中任一项所述的方法，还包括：预期使所述聚类层适应对潜在变量层参数的影响。

17.根据权利要求16所述的方法，其中，预期使所述GMM适应对所述NMF参数的所述影响包括使所述聚类层适应，使所述潜在变量层适应，以及执行NMF模型平滑。

18.一种计算机可读介质，其中，所述计算机可读介质包括用于执行根据权利要求1至17中任一项所述的方法的计算机可执行指令。

19.一种用于处理声学信号的系统，其中，所述系统包括处理器和存储器，所述存储器包括用于执行根据权利要求1至17中任一项所述的方法的计算机可执行指令。

20.根据权利要求19所述的系统，其中，所述系统包括用于执行基于云的处理的基于云的装置。

21.一种电子装置，其中，所述电子装置包括用于接收声学信号的声学传感器、根据权利要求19或权利要求20所述的系统、以及在所述映射成功时执行所述动作的与所述系统的界面。

22.一种计算机程序，其中，所述计算机程序具有指令，所述指令在由计算装置执行时，使得所述计算装置执行根据权利要求1至权利要求17中任一项所述的方法。

23.一种数据流，其中，所述数据流表示根据权利要求22所述的计算机程序。