CN110998716A

CN110998716A - 经由教师-学生学习在话音识别中进行的域自适应

Info

Publication number: CN110998716A
Application number: CN201880051796.XA
Authority: CN
Inventors: 李锦宇; M·L·塞尔策; 汪曦; 赵蕤; 龚一凡
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-08-11
Filing date: 2018-06-21
Publication date: 2020-04-10
Anticipated expiration: 2038-06-21
Also published as: CN110998716B; EP3665674A1; US10885900B2; US20190051290A1; WO2019032202A1

Abstract

经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练，以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签，而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较，并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。

Description

经由教师-学生学习在话音识别中进行的域自适应

背景技术

使用话音识别的系统常常要求妥善保存和注释以话语的大型数据集来训练那些系统所使用的模型，从而准确地识别用户尝试向那些系统说出的词语。收集这样的大型数据集常常是耗时的，并且保存这样的数据集需要耗费大量的计算机存储空间。个体系统频繁地针对单一域(例如，给定用户的语音、给定的压缩编解码器、给定的麦克风设置等)进行训练，而新的模型则需要针对每个域进行训练从而准确解释在该域内所接收到的话语，这就要求收集并且存储不断增多且更大的数据集来准确创建用于在从不同域中的话语识别话音时使用的模型。

发明内容

提供该发明内容以用简化的形式引入以下在具体实施方式中进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在帮助确定所要求保护的主题的范围。

本文提供了系统、方法以及体现指令的计算机可读存储介质，所述系统、方法和指令用于经由学生-教师训练而针对话音识别提供域自适应。为了辨识第二话音域中所接收的词语，已经被训练为辨识第一域中的话音的第一话音识别模型被用作教师来训练充当学生的第二模型。学生模型是基于教师模型的，并且并行于该教师模型的操作而被训练。在该教师模型接收到符合第一域的输入时，该学生模型(并行地)被馈送以符合第二域的等效输入。每个模型的检测结果接着被相互比较，并且根据所检测音素的差异来对该学生模型进行调节。根据本公开，该第二域中的数据并不要求为了该学生模型的有监督的训练而被标记或转录；监督是由该教师模型对数据的并行处理所提供的。如将理解的，这省去了针对各个域转录和保存大型数据集的负担，并且允许基于对其他域的现有数据集的修改而为新的域创建数据集。

示例被实现为计算机过程、计算系统，或者诸如设备、计算机程序产品或计算机可读介质之类的制品。根据一个方面，计算机程序产品是能够由计算机系统读取并且编码计算机程序(包括用于执行计算机过程的指令)的计算机存储介质。

在以下的附图和描述中阐述了一个或多个方面的细节。其他特征和优点将通过阅读以下的详细描述并且回顾相关联的附图而是显而易见的。应当理解的是，以下的详细描述仅是解释性的而并非是对权利要求的限制。

附图说明

结合于本公开并且构成其一部分的附图图示了各个方面。在附图中：

图1图示了可以在其中实践本公开的示例操作环境；

图2是示出了在针对话音识别的学生/教师训练的示例方法中涉及的整体阶段的流程图；

图3是示出了用于域构建的示例方法中所涉及的整体阶段的流程图；

图4是图示了计算设备的示例物理组件的框图；

图5A和5B是移动计算设备的框图；并且

图6是分布式计算系统的框图。

具体实施方式

以下详细描述参考附图。在任何可能的情况下，在附图和以下描述中都使用相同的附图标记来指代相同或相似的元素。尽管示例可以被描述，但是修改、改编、和其他实现也是可能的。例如，可以对图中所图示的元素进行替换、增加、或修改，并且可以通过针对所公开的方法进行替换、重新排序、或增加阶段来修改本文所描述的方法。由此，以下的详细描述并不是限制性的，而是替代地，适当的范围是由所附权利要求限定的。示例可采用硬件实现、全软件实现、或者组合了软件和硬件方面的实现的形式。因此，以下详细描述并不以限制性含义来理解。

如在本公开中使用的，一些示例是使用国际音标(IPA)被给出的，其经由被包括在花括号“{”和“}”中而与其余文本加以区分。例如，词语“hello”可以经由IPA而根据讲话者的发音以各种方式呈现，包括但不局限于

和

尽管本文主要关于完整的词语给出了示例，但是这是为了便于书写解释——将要理解的是，话音识别模型能够进行操作以辨识作为形成词语的语言或声音的单位的个体音素或多元音素(senone)。

本文提供了实施指令的系统、方法、和计算机可读存储介质，所述指令用于经由学生-教师训练而针对话音识别提供域自适应。为了辨识第二话音域中所接收的词语，已经被训练为辨识第一域中的话音的第一话音识别模型被用作教师来训练充当学生的第二模型。该学生模型是基于该教师模型的并且并行于该教师模型的操作而被训练。在该教师模型接收到符合第一域的输入时，该学生模型(并行地)被馈送以符合第二域的等效输入。每个模型的检测结果接着被相互比较，并且根据所检测音素的差异来对该学生模型进行调节。

根据本公开，第二域中的数据不要求为了该学生模型的有监督的训练而被标记或转录；监督是由该教师模型对数据的并行处理所提供的。如将理解的，这省去了针对各个域转录和保存大型数据集的负担，并且允许基于对其他域的现有数据集的修改而为新的域创建数据集。

例如，来自成年人的话语的数据集(第一域)可以频繁变换以产生近似表示来自儿童的话语的数据集(第二域)。在另一个示例中，在安静房间(第一域)中接收的话语的数据集可以具有向该话语添加的噪声(例如，随机噪声、交通、背景话语)以产生近似于在嘈杂环境中接收的话语的数据集(第二域)。在另外的示例中，根据第一压缩编解码器存储的话语的数据集(第一域)可以被变换为第二编解码器以产生第二数据集(第二域)。在另一个示例中，麦克风和扬声器之间的距离可以被仿真，以便例如经由音量改变、回声增加/抑制、频率范围屏蔽/放大等从较为接近的讲话者的语音数据集(第一域)产生距麦克风较远的讲话者的话语数据集(第二域)。在另外的示例中，麦克风限制可以被仿真以从收集自能力较强的麦克风的域(第一域)产生针对能力较弱的麦克风的域，从而基于宽带话语来仿真窄带话语。本领域技术人员将会意识到，为了产生两个不同的域而对数据集进行的其他修改是可能的。

图1图示了可以在其中实践本公开的示例操作环境100。如所图示的，用户设备110与模型训练器120进行通信以开发用于在特定域中使用的话音识别模型。模型训练器120接收来自不同域的各种话语的源域数据130和目标域数据140，它们分别被并行地馈送至教师模型150和学生模型160。来自话音识别模型150、160的结果由输出比较器170进行比较，并且两个结果集合之间的差异被反馈回学生模型160中以更新学生模型160。

用户设备110和模型训练器120示出了多种计算系统，其包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(例如，移动电话、笔记本、平板或板式计算机、笔记本计算机、和膝上计算机)、手持设备、多处理器系统、基于微处理器或可编程计算机电子器件、小型计算机、打印机和大型计算机。这些计算系统的硬件关于图4-6更详细地讨论。

在各个方面中，源域数据130在用户设备110上，被存储在模型训练器120内，或者被存储在能够由模型训练器120访问的数据库或其他计算设备中。在一些方面中，目标域数据140是与具有并行内容的源域数据130不同域的现有数据集的一部分。如在本文中所使用的，“域”是指具有相似特性的话语的集合，话音识别模型被训练以识别该集合中的词语。例如，第一域可以具有第一信噪比(SNR)而第二域可以具有第二SNR。在另一个示例中，第一域将具有第一平均语音频率(例如，来自成年男性的话语)，第二域将具有第二平均语音频率(例如，来自成年女性的话语)，而第三域将具有第三平均语音频率(例如，来自儿童的话语)。如将理解的，个体话语可以属于几个数据集(例如，来自成年男性的具有第一SNR的话语)，并且可以在包含数据集的数据库中经由各种标记或标签被指定如此。在其他方面中，例如在针对给定域的数据集不存在、不具有足够大小或者以其他方式无法被模型训练器120访问时，目标域数据140从源域数据130被创建或补充以仿真与定义目标域的特性的相符性，例如关于图3更详细讨论的。

源域数据130被馈送至教师模型150，并且目标域数据140被馈送至学生模型160以训练学生模型160从而准确地评估目标域中的话语。在最初，教师模型150针对源域被完全训练，并且被克隆(即，被复制为新的实例)以创建初始学生模型160。

在一个方面中，教师模型150是针对基线域训练的话音识别模型，而学生模型160是用户特定的域，并且学生模型160被提供给与该用户特定的域相关联的用户的用户设备110。例如，想要在相关联的用户设备110上进行话音识别的用户X将联系模型训练器120，选择已经针对给定语言、方言、或口音训练过的基线话音识别模型，并且提供话语(目标域数据140)以从基线模型(教师模型150)开发特定于用户X的特定话音模式的学生模型160。所开发的模型接着被提供至用户设备110或者被保留以便之后作为另一教师模型150来使用。类似地，输入话语可以被丢弃或者被保留以便之后在训练时使用。

在另一个方面中，教师模型150是针对能够由几个用户设备110使用的给定域所训练的话音识别模型，而学生模型160是针对同样能够由几个用户设备110使用的不同域训练的话音识别模型。例如，如果开发了新的语音压缩编解码器，则可以针对该编解码器所压缩的话语的数据集(目标域数据140)来训练新的话音识别模型，这使得采用新的编解码器的用户设备110可以准确地辨识出由此压缩的话语中的词语。用户设备110接着可以下载所选择的学生模型160或者使得新的学生模型160向其上传。

学生模型160在教师模型150的监督下被训练，其中，每个模型150、160并行地在其相应的域中接收话语。并行话语包含相同的词语，但是具有不同的音频特征。例如，说出给定词语的儿童通常使用比说出相同词语的成人使用更高的平均声频，这是由于成人通常具有比儿童更深沉的嗓音。在另一个示例中，具有第一口音(第一域)的第一用户可以将词语“hello”发音为

而有第二口音(第二域)的第二用户可以将词语“hello”发音为

并行话语被相应的教师模型150或学生模型160接收，它们中的每个可能正确或不正确地将该话语识别为包含给定词语(或者包含给定音素或多元音素的话语帧)。

来自话音识别模型150、160的输出被输出比较器170进行比较，并且话语中的词语/音素/多元音素的识别中的差异或相似性被反馈到学生模型160中，以根据各种机器学习技术或方案之一来更新学生模型160从而依据来自教师模型150的输出更加准确地识别话音。

机器学习技术对模型进行训练以准确地对馈送到模型中的数据进行预测(例如，用户在给定话语中说了什么；名词是人、地方、还是东西；明天天气怎么样)。在学习阶段期间，所述模型针对输入的训练数据集(例如，样本A、样本B、样本C)被开发以优化所述模型，从而针对给定输入正确地预测输出。通常而言，该学习阶段可以是有监督的、半监督的、或无监督的；其表示对应于训练输入向其提供了“正确”输出的有所下降的水平。在有监督的训练阶段，所有输出都被提供至该模型，并且该模型被指导以开发将输入映射至输出的通用规则或算法。相比之下，在无监督学习阶段，期望的输出不是针对输入提供的，以使得该模型可以开发其自己的规则来发现训练数据集内的关系。在半监督学习阶段，提供不完整标记的训练集合，其中对于训练数据集而言，一些输出是已知的而一些输出则是未知的。

在当前公开中，在学生模型160的学习阶段期间，从目标域数据140提供训练数据集输入以对其进行训练，并且并行的源域数据130被教师模型150分析以提供有监督学习。

模型可以在几个时期内针对训练数据集运行，在所述时期中训练数据集被反复地馈送到该模型中以细化其结果。例如，在有监督学习阶段，模型被开发以针对给定输入集合来预测输出，并且在几个时期内被评估以更加可靠地提供输出，所述输出被指定为对应于针对训练数据集的最大数量的输入的给定输入。在另一个示例中，针对无监督学习阶段，模型被开发以将数据集聚类为n个群组，并且在几个时期内关于其多么一致地将给定输入放入给定群组中以及其多么可靠地跨每个时期产生n个期望集群进行评估。

一旦一个时期进行时，模型就被评估并且它们变量的值被调节以尝试更好地细化该模型。在各个方面中，所述评估针对假阴性偏移、针对假阳性偏移，或者关于模型的整体准确性均匀偏移。所述值可以根据所使用的机器学习技术来以几种方式调节。例如，在基因或演进算法中，模型中在预测期望的输出方面最为成功的值被用来为模型开发在后续时期期间使用的值，所述值可以包括用于提供另外的数据点的随机变化/突变。本领域技术人员对可以随本公开应用的几个其他机器学习算法将会是熟悉的，包括线性回归、随机森林、决策树学习、神经网络等。

模型通过改变影响输入的一个或多个变量的值来在几个时期内开发规则或算法以更加接近地映射至所期望的结果，但是由于训练数据集可能改变且优选地非常庞大，所以可能无法实现完美的准确性和精确度。构成学习阶段的时期的数量因此可以被设置为给定数量的试验或者固定时间/计算预算，或者当给定模型的准确性足够高或足够低或者已经达到准确性的稳定水平时，可以在达到该数量/预算之前被终止。例如，如果训练阶段被设计为运行n个时期并且产生具有至少95％准确性的模型，并且这样的模型在第n个时期之前被产生，则学习阶段可以提前结束并且使用所产生的满足结束目标准确性阈值的模型。类似地，如果给定模型足够地不准确而满足随机机会阈值(例如，该模型在针对给定输入确定真/假输出时仅55％准确)，则该模型的学习阶段可以提前终止，但是处于该学习阶段的其他模型可以继续训练。类似地，当给定模型继续提供相似准确性或者其结果跨多个时期犹豫不决(已经达到了性能稳定水平)时，该给定模型的学习阶段可以在达到时期数量/计算预算之前终止。

一旦学习阶段完成，则模型最终完成。最终完成的模型相对于测试标准被评估。在第一示例中，包括针对其输入的已知输出的测试数据集被馈送到最终完成的模型中以确定该模型在处理尚未经过训练的数据时的准确性。在第二示例中，可以在最终完成之后使用假阳性率、假阴性率来评估所述模型。在第三示例中，可以使用集群之间的划定来选择针对其数据集群而产生最清晰边界的模型。

尽管用户设备110、模型训练器120、和数据源出于说明性目的而远离彼此被示出，但是应当注意的是，这些设备中的一个或多个处于另一个所图示设备本地的几个种配置是可能的，并且每个所图示的设备可以表示该设备的多个实例。本领域技术人员所熟悉的各种服务器和媒介可以处于图1所图示的组件系统之间以在那些系统之间路由通信，它们没有被这样图示以免重点偏离本公开的新颖方面。

话音识别模型150、160从用户设备110——并且在训练阶段期间从域数据130、140——接收话语，以识别出现在该话语中的各种音素和多元音素(包括沉默)，因此在帧的层级提供对该话语的音素表示。在各个方面中，帧是音频信号中预定义的时间长度，作为示例，例如5、10、15或n ms。所识别的音素在各个方面中被用来确定讲话者在话语中说了什么，以例如确定是否存在关键短语，识别命令或查询的内容，等等。

在一些方面中，从提供了帧f包含各种音素/多元音素的统计可能性的每个帧f的后验(posterior)特征γ_f产生帧的音素表示。所述后验特征是在训练阶段期间针对学生模型160而从教师模型150所提供的初始权重开发的。

学生模型160包括神经网络(例如，深度学习、深度卷积、或递归神经网络)或者由神经网络所训练，所述神经网络包括被组织为网络的一系列“神经元”，例如长短期记忆(LSTM)节点。神经元是在数据处理和人工智能(特别是机器学习)中使用的架构，其包括记忆，所述记忆可以基于提供至给定神经元的输入的权重来确定何时“记住”以及何时“忘记”保存在该记忆中的值。本文所使用的每个神经元被配置为从网络中的其他神经元接受预定义数量的输入，以针对所分析的帧的内容提供关系和子关系输出。个体神经元可以在神经网络的各种配置中被串联在一起和/或被组织成树形结构，以针对话语中的帧中的每一帧如何彼此关联而提供交互和关系学习建模。

例如，充当神经元的LSTM包括处理输入向量(例如，来自话语的音素)、记忆单元、和输出向量(例如，上下文表示)的几个门。输入门和输出门分别控制流入和流出存储器单元的信息，而遗忘门则可选地基于来自之前在神经网络中链接的单元的输出而从存储器单元移除信息。各种门的权重和偏移向量随着训练阶段的进程而被调节，并且一旦训练阶段完成，那些权重和偏移就被最终确定以用于正常操作。本领域技术人员将理解的是，神经元和神经网络可以以程序方式构造(例如，经由软件指令)，或者经由将每个神经元进行链接以形成神经网络的专用硬件来构造。

如本文所讨论的，针对话语中1至F帧，给定帧f(其中f∈1-F)包括给定多元音素/音素的概率被称为后验分布。教师模型150的后验分布被称为P_T(s|x_T)，而学生模型160的后验分布被称为P_S(s|x_S)，其中x_T和x_S分别表示从不同域到教师模型150和学生模型160的并行输入，并且s表示已经被分析的多元音素(或音素)。使用以上定义，可以根据公式1来计算由输出比较器170所确定的两个话音识别模型之间的Kullback-Leibler发散度的发散度分数，其中，i表示这样的检测指标，其详细描述多个多元音素/音素中所述模型所能够检测和区分的给定多元音素/音素。

公式1：

∑f∑iP_T(S_i|x_T，f)·log(P_T(S_i|x_T，f)÷P_S(S_i|X_S，f))

经过学生模型160的连续训练时期，应用于各个输入的权重被调节以使得两个话音识别模型150、160之间的发散度分数最小化。如将理解的，仅有学生模型160的参数在训练期间被调节。由此，使得Kullback-Leibler发散度分数最小化等价于使得公式2中所详述的差值最小化(根据绝对值)，这是因为P_T(s_i|x_T,f)·log(P_T(s_i|x_T,f))的元素对于学生模型160的优化没有影响。

公式2：

-∑f∑iP_T(S_i|x_T，f)·log(P_S(S_i|X_S，f))

在以上的公式1和公式2中，P_T(s_i|x_T,f)的元素提供了监督信号，其用于在教师模型150和学生模型160从它们各自的域被提供以并行输入x_T和x_S时对学生模型160进行训练。如将理解的，由于输入被并行提供，所以不需要对输入进行标记(即，源域数据130和目标域数据140都不需要被标记；二者都可能是未经转录的)并且对学生模型的训练可以利用无限数量的训练数据。由于不需要标记，所以针对任一个域，在仿真目标域数据140时都可以从现有的源域数据130生成巨大数量的并行数据，其可以用于使得学生模型160针对目标域的行为收敛至教师模型150针对(该学生域160针对其进行训练的)源域的行为。

在一些方面中，从源域数据130的输入的语料库生成针对目标域数据140的输入的语料库。各种信号可以与源域数据130叠加以产生“带噪声的”目标域数据140，并且还可以应用音量变化、回声效果、压缩方案等以影响话语的不同域。源域数据130到目标域数据140的另一变换包括成人/儿童域转换。获得成人和儿童话语的并行语料库是具有挑战的，原因在于涉及从儿童相比于从成人收集数据的隐私法规、所发现的影响话语同步的不同个人的不同语速等，并且因此源域数据130可以进行频率翘曲以针对仿真儿童般话语的目标域数据140产生训练数据集。例如，可以应用如公式3中所详述的双线性变换来翘曲成人话音频谱以重构具有更高音高或平均话音频率的话语，其中ω表示频率且α表示翘曲因数。如将理解的，可以针对翘曲因数α使用静态值(例如，0.1)，或者已知目标域数据140的元音分段可以基于源域数据130被计算以用来调节翘曲因数α。

公式3：

ω_S，f＝ω_T，f+2·arctan[-α·sin(ω_T，f)÷(1+α·cos(ω_T，f))]

图2是示出了在用于针对话音识别的学生/教师训练的示例方法200中所涉及的整体阶段的流程图。方法200以操作210开始，其中选择与源域数据130的数据集相关联的已经被训练的教师模型150。在各个方面中，教师模型150基于语言、方言、口音模式等被选择。

继续进行至操作220，基于教师模型150生成初始学生模型160。在各个方面中，初始学生模型160是教师模型150的克隆，其中，权重、神经网络完全与教师模型150同样地设置。如将理解的，在方法200的进程期间，学生模型160的那些权重、神经网络将从其初始值或布局被修改从而通过将在由教师模型150与学生模型160所生成的后验之间计算的发散度分数最小化来更加准确地识别该学生模型160针对其自适应的域中的话音。

在操作230处，源域数据130和目标域数据140分别正向传播至教师模型150和学生模型160。在一些方面中，所有的目标域数据140和相关联的源域数据130都正向传播，而在其他方面中，目标域数据140和相关联的源域数据130的子集或分批被正向传播。在训练学生模型160的连续迭代中，连续的并行分批将被馈送到教师模型150和学生模型160以产生连续的后验，它们将被互相比较直到达到最大时期数量，发散度分数满足收敛度阈值、发散度稳定水平，或者训练被手动停止为止。

话音识别模型150、160从它们相关联的域被并行馈送以数据以将该数据中的声音识别为话音的分量和/或个体词语。这些分量在操作240处被计算为后验，其中计算话语的给定帧包含给定多元音素/音素的概率，该概率包括给定帧包括沉默或者以其他方式缺少人类话音的概率。在各个方面中，给定帧的最高概率的多元音素/音素被指示或者被提供为每个模型针对给定帧的仅有输出，而在其他方面中，潜在多元音素/音素的所有概率都是由所述模型输出的。

继续进行至决策250，其确定学生模型160的行为是否与教师模型150的行为收敛。在各个方面中，该收敛被计算为如在公式1中所示的Kullback-Leibler发散度，如在公式2中所示的经修改的Kullback-Leibler发散度，或者被计算为另一种发散度分数。当发散度收敛低于收敛度阈值时，其指示学生模型160几乎能够像教师模型150能够识别其域中的话音那样来识别其给定域中的话音。当发散度分数并不满足收敛度阈值时，其指示学生模型160尚未随教师模型150收敛，并且将需要对其参数的调节。如将理解的，在一些情况下，对于准确识别话音而言，学生模型160可能比教师模型150更加准确或不如教师模型150准确，但是是基于其结果与教师模型150的结果的相似性来判断的。如同样将会意识到的，收敛也可以在已经发生了最大数量的训练轮次时，达到发散度平稳水平时，或者在用户提前手动终止训练时发生。

响应于确定学生模型160还没有相对于教师模型150收敛，方法200继续进行至操作260。在操作260处，来自教师模型150和学生模型160的结果被反向传播至学生模型160，以由此根据分散的结果来更新学生模型160的参数。如将理解的，可以使用各种机器学习技术以根据分散的结果来更新学生模型160的参数。一旦学生模型被更新，方法200就返回至操作230以从教师模型150和学生模型160的相关联的域向它们馈送并行数据。如将理解的，操作230的随后执行可以使用与源域数据130和目标域数据140相同或不同(连续)的数据。

响应于确定学生模型160已经相对于教师模型150收敛，方法200继续进行至操作270，其中学生模型160被最终形成。最终形成学生模型160锁定了该话音识别模型的值(权重和阈值)和结构(例如，神经网络中的节点连接)。一旦最终形成，学生模型160就可以被传送至用户设备110或第三方话音识别服务以便在其上进行话音识别，被用作教师模型150以便训练新的学生模型160，或者进行进一步的测试或分析。

接着，方法200结束。

图3是示出了在用于域构建的示例方法300中所涉及的整体阶段的流程图，其中使用源域中的话语来开发用于训练学生模型160的目标域，所述学生模型160适应于识别该目标域内的话音。方法300以操作310开始，其中，选择话语的教师语料库以便用作话语的目标语料库的基础。

在可选的操作320处，在操作310中所接收的源域数据130的语料库被删减以从考虑中移除作为目标域数据140的语料库的部分的条目。例如，源域中预计无法从源域很好地变换至目标域的话语；具有特定长度、音量、SNR或其他特征的话语；或者包括特定标签的话语，其可以从源域数据130中被去除，以使得不针对那些话语创建目标域数据140。

继续进行至操作330，在操作310中接收的源域数据130的语料库被变换以产生目标域数据140的语料库。在一些方面中，目标域数据140被保留以供后续使用，或者在学生模型160由此训练之后被丢弃。

在各个方面中，另外的信号(白噪声、预先录制的背景对话/交通噪声等)被添加至源域数据130的话语以变换成目标域数据140。在其他方面中，源域数据130的话语的特征被修改以变换为目标域数据140，例如，以增加回声效果、降低或提高音量、增加或改变数据压缩效果、剪切话语长度、在话语中的词语之间引入或增加暂停、从话语剪切或移除频率范围(例如，应用高通、低通、或带通滤波)，等等。在另外的方面，源域数据130的话语经由频率翘曲(例如所示出的)被变换为目标域数据140，例如在以上公式3中所示出的。

针对目标域的域定义规定了目标域的话语将具有的一个或多个特征。在一些方面中，是以下中的一个或多个：SNR、话语被编码的编解码器、话语的频带(或者模型在其上训练的频带)、话语通过其被收集的场深度(指示相对于麦克风的距离)、话语的音量水平(平均、最大、最小等)、话语的平均音高等。如将理解的，目标域定义可以规定其明确值的给定范围(例如，X-Y dB、X-Y Hz之间)或者距源域的偏移量(例如，更大声/小声X dB、更高/低XHz的音高)。如同样将会意识到的，基于第一域对第二域的仿真使得学生模型160能够在具有未转录数据的数量几乎不受限制的域中结合教师模型150被训练。例如，学生-教师学习可以被应用于：通过向模型提供近/远讲话话音配对所进行的远场话音识别；通过向模型提供清晰/嘈杂话音配对所进行的嘈杂话音识别；通过向模型提供成人/儿童话音配对所进行的儿童话音识别；通过向模型提供宽/窄话音配对所进行的窄带话音识别；以及通过向模型提供原始/编码的话音配对所进行的音频编解码器话音识别。

方法300可选地继续进行至操作340，其中，包括源域数据130和相关联的目标域数据140的训练数据根据目标域的域特性而被删减。不满足目标域的定义的经变换的话语从目标域数据140被删减，并且它们从中变换的话语则从源域数据130中被删减。例如，如果仿真的儿童语音的话语的目标域是通过提高成人话语的音高而从来自成人的话语的源域变换而来的，则一些仿真的话语可能具有针对仿真的儿童话语的所定义频率范围之外的音高。以上示例中的成人语音中的一些可能已经过低而无法被放入目标域所指定的频率范围。类似地，在以上示例中，成人语音中的一些可能已经足够高从而在频率被翘曲时，那些语音对于目标域所指定的频率范围而言将会过高。经变换的数据从学生语料库中被移除并且他们在教师语料库中的并行项则类似地从教师语料库中被移除。

接着，方法300结束。

尽管已经在结合在计算机上的操作系统上运行应用程序一起执行的程序模块的总体背景下对实现进行了描述，但是本领域技术人员将会认识到，各方面也可以结合其他程序模块来实施。总体上，程序模块包括例程、程序、组件、数据结构，以及执行特定任务或者实施特定抽象数据类型的其他类型的结构。

本文所描述的方面和功能可以经由许多计算系统进行操作，包括但并不局限于台式计算机系统、有线和无线计算系统、移动计算系统(例如，移动电话、上网本、平板或板式类型计算机、笔记本计算机和膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、小型计算机和大型计算机。

此外，根据一个方面，本文所描述的方面和功能通过分布式系统(例如，基于云的计算系统)进行操作，其中应用功能、存储器、数据存储或获取以及各种操作功能通过分布式计算网络而远离彼此地进行操作，所述网络诸如互联网或内联网。根据一个方面，各种类型的用户界面和信息可以经由板载计算设备显示器或者经由与一个或多个计算设备相关联的远程显示单元被显示。例如，各种类型的用户界面和信可以在各种类型的用户界面和信息被投射于其上的墙壁表面上进行显示和交互。与实现利用其进行实践的许多计算系统的交互包括键击输入、触摸屏输入、语音或其他音频输入、手势输入—其中相关联的计算设备配备有用于捕捉和解释用于控制计算设备的功能的用户手势的检测(如相机)功能，等等。

图4-6以及相关联的描述提供了可以在其中实践示例的各种操作环境的讨论。然而，关于图4-6所图示和讨论的设备和系统是用于示例和说明的目的，而并非是对被用来实践本文所描述的各方面的大量计算设备配置的限制。

图4是图示可以利用其实践本公开的示例的计算设备400的物理组件(即，硬件)的框图。在基本配置中，计算设备400包括至少一个处理单元402和系统存储器404。根据一个方面，取决于计算设备的配置和类型，系统存储器404包括但并不局限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪存，或者这些存储器的任何组合。根据一个方面，系统存储器404包括操作系统405和适用于运行软件应用450的一个或多个程序模块406。根据一个方面，系统存储器404包括任模型训练器120。操作系统405例如适用于控制计算设备400的操作。此外，多个方面结合图形库、其他操作系统或任意其他应用程序来实践，而并不局限于任何特定应用或系统。该基本配置在图4中由虚线408内的那些组件示出。根据一个方面，计算设备400可以具有附加特征或功能。例如，根据一个方面，计算设备400还可以包括附加数据存储设备(可移除的和/或不可移除的)，作为示例，诸如磁盘、光盘或磁带。这些附加存储在图4中由可移除存储设备409和不可移除存储设备410所示出。

如上所述，根据一个方面，在系统存储器404中存储多个程序模块和数据文件。在至少一个处理单元402上执行的同时，程序模块406(例如，模型训练器120)执行包括但并不限于图16中所图示的方法1600的一个或多个阶段的处理。根据一个方面，其他程序模块依据示例被使用并且诸如电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等的应用。

根据一个方面，计算设备400具有一个或多个输入设备412，诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。根据一个方面，还包括(多个)输出设备414，诸如显示器、扬声器、打印机等。上述设备是作为示例并且可以使用其他设备。根据一个方面，计算设备400包括允许与其他计算设备418进行通信的一个或多个通信连接416。适当通信连接416的示例包括但并不局限于射频(RF)发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如本文所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构或程序模块等信息的易失性和非易失性、可移除和不可移除介质。系统存储器404、可移除存储设备409和不可移除存储设备410都是计算机存储介质(即，存储器存储)的示例。根据一个方面，计算机存储介质包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术，CD-ROM、数字多功能盘(DVD)或其他光存储，磁带盒、磁带、磁盘存储或其他磁性存储设备，或者可用于存储信息且可以由计算机设备400访问的任何其他制造品。根据一个方面，任何这样的计算机存储介质都是计算设备400的一部分。计算机存储介质并不包括载波或其他传播数据信号。

根据一个方面，通信介质由计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制的调制数据信号中的其他数据所体现，并且包括任意的信息传递介质。根据一个方面，术语“调制数据信号”描述具有以在信号中编码信息的方式所设置或改变的一种或多种特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线路连接的有线介质，以及诸如声音、射频(RF)、红外和其他无线介质的无线介质。

图5A和5B图示了可以利用其实施多个方面的移动计算设备500，例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图6A图示了用于实施该方面的移动计算设备500的一个示例。在基本配置中，移动计算设备500是具有输入部件和输出部件两者的手持式计算机。移动计算设备500通常包括显示器505以及允许用户将信息输入到移动计算设备500中的一个或多个输入按钮510。根据一个方面，移动计算设备500的显示器505充当输入设备(例如，触摸屏显示器)。如果被包括，则可任选的辅助输入部件515允许另外的用户输入。根据一个方面，辅助输入部件515是旋转开关、按钮或任意其他类型的手动输入部件。在可替换示例中，移动计算设备500结合有更多或更少的输入部件。例如，在一些示例中，显示器505可以不是触摸屏。在可替换示例中，移动计算设备500是诸如蜂窝电话之类的便携式电话系统。根据一个方面，移动计算设备500包括可选的小键盘535。根据一个方面，可选的小键盘535是物理小键盘。根据另一个方面，可选的小键盘535是在触摸屏显示器上生成的“软”小键盘。在各个方面中，输出部件包括用于显示图形用户界面(GUI)的显示器505、可视指示器520(例如，发光二极管)和/或音频换能器525(例如，扬声器)。在一些示例中，移动计算设备500结合有振动换能器来向用户提供触觉反馈。在又另一个示例中，移动计算设备500结合有诸如音频输入(例如，传声器插孔)、音频输出(例如，耳机插孔)、以及视频输出(例如，HDMI端口)之类的输入和/或输出端口，用于将信号发送到外部设备或从外部设备接收信号。

图5B是图示移动计算设备的一个示例的架构的框图。也就是说，移动计算设备500结合系统(即，架构)502来实施一些示例。在一个示例中，系统502被实施为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏以及介质客户端/播放器)的“智能手机”。在一些示例中，系统502被集成为计算设备，诸如集成的个人数字助理(PDA)和无线电话。

根据一个方面，一个或多个应用程序550被加载到存储器562中并在操作系统564上运行或者与操作系统564相关联地运行。应用程序的示例包括电话拨号应用、电子邮件应用、个人信息管理(PIM)应用、文字处理应用、电子表格应用、互联网浏览器应用、消息收发应用，等等。根据一个方面，模型训练器120被加载到存储器562中。系统502还包括存储器562内的非易失性存储区568。非易失性存储区568被用于存储在系统502断电的情况下不会丢失的持久信息。应用程序550可以使用信息并将信息存储在非易失性存储区568中，诸如用户代理108所使用的文件和其他信息等。在一些实施例中，同步应用(未示出)也驻留于系统502上并且被编程为与驻留在主机计算机(例如，用户存储服务器106)上的相对应同步应用进行交互，以保持存储在非易失性存储区568中的信息与主机计算机处存储的相对应信息同步。如应当意识到的，其他应用也可被加载到存储器562中并且在移动计算设备500上运行。

根据一个方面，系统502具有被实施为一个或多个电池的电源570。根据一个方面，电源570进一步包括外部功率源，诸如对电池进行补充或充电的AC适配器或充电支架。

根据一个方面，系统502包括执行发射和接收无线电频率通信的功能的无线电572。无线电572经由通信运营商或服务供应商而促成了系统502与“外部世界”之间的无线连接。来往于无线电572的传输是在操作系统564的控制下进行的。换言之，无线电572所接收的通信可以经由操作系统564被传播到应用程序550，反之亦然。

根据一个方面，视觉指示符520被用来提供视觉通知，和/或音频接口574被用于通过音频换能器525产生听觉通知。在所图示的示例中，可视指示符520是发光二极管(LED)，并且音频换能器525是扬声器。这些设备可直接耦合到电源570，而使得在被激活时，即使为了节省电池功率而可能关闭处理器560和其他组件，它们也保留一段由通知机制指示的保持通电时间。LED可以被编程为无限地保持通电，直到用户采取动作指示该设备的通电状态。音频接口574被用来向用户提供听觉信号并且从用户接收听觉信号。例如，除了被耦合到音频换能器525之外，诸如为了促成电话通话，音频接口574还可以被耦合到话筒以接收听觉输入。根据一个方面，系统502进一步包括支持板载相机530的操作来记录静止图像、视频流等的视频接口576。

根据一个方面，实施系统502的移动计算设备500具有附加特征或功能。例如，移动计算设备500包括附加数据存储设备(可移除的和/或不可移移除)，诸如磁盘、光盘或磁带。这样的附加存储在图5B中用非易失性存储区568示出。

根据一个方面，如上文所描述的，由移动计算设备500所生成或捕捉并且经系统502存储的数据/信息被本地存储在移动计算设备500上。根据另一个方面，数据被存储在可由设备经由无线电562或经由移动计算设备500和关联于移动计算设备500的分离计算设备之间的有线连接进行访问的任意数量的存储介质上，所述计算设备例如是诸如互联网的分布式计算网络中的服务器计算机。如所应当意识到的，这样的数据/信息能够经由移动计算设备500、经由无线电562或者经由分布式计算网络进行访问。类似地，根据一个方面，这样的数据/信息根据已知的数据/信息传输和存储手段来容易地在计算设备之间进行传送以便存储和使用，这些手段包括电子邮件和协作数据/信息共享系统。

图6图示了用于如以上所描述的用于重复内容的分块的自动展示的系统的架构的一个示例。关联于模型训练器120所开发、与之交互或编辑的内容被使得能够存储在不同通信信道或其他存储类型中。例如，各个文档可以使用目录服务622、web门户624、邮箱服务626、即时消息存储628或社交网络站点630进行存储。模型训练器120所能够进行操作以使用任意这些类型的系统等以便进行如这里所描述的所选择内容的分布。根据一个方面，服务器620向客户端605a、b、c提供模型训练器120。作为一个示例，服务器620是通过web提供模型训练器120的web服务器。服务器620通过网络640经web向客户端605提供模型训练器120。作为示例，客户端计算设备以个人计算机605a、平板计算机605b和/或移动计算设备605c(例如，智能电话)或者其他计算设备而被实施并体现。客户端计算设备的任意这些示例都能够进行操作以便从存储616获取内容。

例如，上文参考根据多个方面的方法、系统和计算机程序产品的框图和/或操作图示对实现进行了描述。框中所提到的功能/动作可以以不同于任何流程图中所示的顺序而发生。例如，根据所涉及的功能/动作，连续示出的两个框实际上可以基本上同时执行，或者所述框有时可以以相反顺序来执行。

尽管附有权利要求，但是本公开也由以下条款所限定：

1.一种用于提供话音识别模型的自适应以便在新域中进行话音识别的系统，包括：

处理器；以及

包括指令的存储器存储设备，所述指令当由所述处理器执行时使得所述系统能够进行以下操作：

选择教师模型，所述教师模型被配置用于对源域中的话语进行话音识别；

基于所述教师模型产生学生模型，以用于对目标域中的话语进行话音识别；

向所述教师模型提供源域话语以针对所述源域话语产生教师后验；

并行于提供所述源域话语，向所述学生模型提供目标域话语以针对所述目标域话语产生学生后验；

确定学生后验是否与所述教师后验收敛；

响应于确定所述学生后验与所述教师后验收敛，最终形成所述学生模型以用于所述目标域中的话音识别；以及

响应于确定所述学生后验与所述教师后验不收敛，基于所述学生后验与所述教师后验中的发散度来更新所述学生模型的参数。

2.根据条款1、3、4、5、6或7所述的系统，其中，所述教师模型是基于以下中的至少一项来选择的：

所选择的语言；

所选择的方言；以及

所选择的口音。

3.根据条款1、2、4、5、6或7所述的系统，其中，所述学生模型的所述参数是根据所述学生后验的反向传播而被更新的。

4.根据条款1、2、3、5、6或7所述的系统，其中，并行于所述源域话语提供目标域话语，所述系统还可操作以：

接收目标域定义，其规定以下项中的至少一项：

信噪比；

所述话语通过其被编码的编解码器；

所述话语的频带；

音量水平；以及

所述话语的平均话音频率；

根据所述目标域定义来变换所述源域话语，以产生根据所述目标域定义来仿真话语的所述目标域话语。

5.根据条款1、2、3、4、6或7所述的系统，其中，所述源域话语和所述目标域话语包括未经转录的数据。

6.根据条款1、2、3、4、5或7所述的系统，其中，响应于更新所述学生模型，所述系统还可操作以：

向所述教师模型提供连续的源域话语以针对所述连续的源域话语产生连续的教师后验；

并行于提供所述连续的源域话语，向经更新的学生模型提供连续的目标域话语以针对所述连续的目标域话语产生连续的学生后验；

确定连续的学生后验是否与所述连续的教师后验收敛；

响应于确定所述连续的后验收敛，最终形成所述经更新的学生模型以用于所述目标域中的话音识别；以及

响应于确定所述连续的后验不收敛，基于所述连续的后验中的发散度来更新所述经更新的学生模型的参数。

7.根据条款1、2、3、4、5或6所述的系统，其中，在更新所述学生模型时，所述系统还可操作以调节所述学生模型的参数，从而使得所述学生后验与所述教师后验之间的发散度分数最小化。

8.一种用于话音识别模型的自适应以便在新域中进行话音识别的方法，包括：

接收对第一话音识别模型的选择，所述第一话音识别模型适应于对第一域中的话语的话音识别；

克隆所述第一话音识别模型以由此产生第二话音识别模型；

将话语的第一数据集提供至所述第一话音识别模型并且将话语的第二数据集提供至所述第二话音识别模型，其中，所述第一数据集包括根据所述第一域所定义的话语，并且所述第二数据集包括根据第二域所定义的、与在所述第一数据集中包括的所述话语并行的话语；

确定由所述第二话音识别模型从所述第二数据集产生的后验是否与由所述第一话音识别模型从所述第一数据集产生的后验收敛；

响应于确定所述后验收敛，最终形成所述第二话音识别模型以用于所述第二域中的话音识别；以及

响应于确定所述后验不收敛，基于所述后验来更新所述第二话音识别模型的参数。

9.根据条款8、10、11、12、13或14所述的方法，其中，所述第二数据集包括所述第一数据集中的从所述第一域变换为所述第二域的所述话语。

10.根据条款8、9、11、12、13或14所述的方法，其中，将所述第一数据集的所述话语从所述第一域变换为所述第二域包括以下中的至少一项：

将新信号叠加至所述第一数据集的所述话语；

调节所述第一数据集的所述话语的参数；以及

对所述第一数据集的所述话语进行频率翘曲。

11.根据条款8、9、10、12、13或14所述的方法，其中，所述第一话音识别模型提供所述第二话音识别模型通过其被更新的监督信号。

12.根据条款8、9、10、11、13或14所述的方法，其中，确定由所述第二话音识别模型从所述第二数据集产生的所述后验是否与由所述第一话音识别模型从所述第一数据集产生的所述后验收敛还包括：

计算由所述第二话音识别模型产生的所述后验与由所述第一话音识别模型产生的所述后验之间的发散度分数；

将所述发散度分数与收敛度阈值进行比较；

响应于所述发散度分数满足所述收敛度阈值，确定所述后验收敛；以及

响应于所述发散度分数不满足所述收敛度阈值，确定所述后验不收敛。

13.根据条款8、9、10、11、12或14所述的方法，其中，所述后验指示多元音素出现在给定话语的给定帧中的概率。

14.根据条款8、9、10、11、12或13所述的方法，其中，所述第二域相对于所述第一域被定义为具有以下中至少一项：

与所述第一域不同的信噪比；

与所述第一域不同的进行编码的编解码器；

与所述第一域不同的话语频带；

与所述第一域不同的话语场深度；

与所述第一域不同的音量；以及

与所述第一域不同的平均音高。

15.一种包括指令的计算机可读存储设备，所述指令当由处理器执行时，提供用于话音识别模型的自适应以便在新域中进行话音识别的方法，所述方法包括：

接收对教师模型的选择，所述教师模型适应于对源域中的话语的话音识别；

克隆所述教师模型以产生学生模型；

并行于将根据目标域的话语提供至所述学生模型，将根据所述源域的话语提供至所述教师模型；

确定由所述学生模型从所述目标域话语产生的后验是否与由所述教师模型从所述源域话语产生的后验收敛；

响应于确定所述后验收敛，最终形成所述学生模型以用于所述目标域中的话音识别；以及

响应于确定所述后验不收敛，基于所述后验来更新所述学生模型的参数。

16.根据条款15、17、18、19或20所述的计算机可读存储设备，其中，所述目标域话语包括经变换的所述源数据集的话语。

17.根据条款15、16、18、19或20所述的计算机可读存储设备，其中，所述目标域话语包括根据以下中的至少一项从所述源数据集的所述话语所变换的话语：

将新信号与所述源域话语叠加；

调节所述源域话语的参数；以及

对所述源域话语进行频率翘曲。

18.根据条款15、16、17、19或20所述的计算机可读存储设备，其中，确定由所述学生模型产生的后验是否与由所述教师模型产生的后验收敛还包括：

计算由所述学生模型产生的所述后验与由所述教师模型产生的所述后验之间的发散度分数；

将所述发散度分数与收敛度阈值进行比较；

19.根据条款15、16、17、18或20所述的计算机可读存储设备，其中，所述后验指示多元音素出现在给定话语的给定帧中的概率。

20.根据条款15、16、17、18或19所述的计算机可读存储设备，其中，所述第二域相对于所述第一域被定义为具有以下中至少一项：

与所述第一域不同的信噪比；

与所述第一域不同的进行编码的编解码器；

与所述第一域不同的话语频带；

与所述第一域不同的话语场深度；

与所述第一域不同的音量；以及

与所述第一域不同的平均音高。

在该申请中所提供的一个或多个示例的描述和说明不旨在以任何方式限制或约束所要求保护的范围。在该公开中所提供的方面、示例、和细节被认为足以传达所有权，并且使得本领域技术人能够制造并使用最优模式。实现不应该被解释为限于在该申请中所提供的任何方面、示例、或细节。无论是组合地还是单独地示出和描述，(结构上和方法上两者的)各种特征旨在被择性地包括或省略，以产生具有特定组的特征的示例。在已经提供了本申请的描述和说明之后，本领域技术人可以预想落入在该申请中所实施的一般的发明概念的更宽泛的方面的精神内的变型、修改和替代示例，而不脱离更宽泛的范围。

Claims

处理器；以及

确定学生后验是否与所述教师后验收敛；

2.根据权利要求1所述的系统，其中，所述教师模型是基于以下中的至少一项来选择的：

所选择的语言；

所选择的方言；以及

所选择的口音。

3.根据权利要求1所述的系统，其中，所述学生模型的所述参数是根据所述学生后验的反向传播而被更新的。

4.根据权利要求1所述的系统，其中，并行于所述源域话语提供目标域话语，所述系统还可操作以：

接收目标域定义，其规定以下项中的至少一项：

信噪比；

所述话语通过其被编码的编解码器；

所述话语的频带；

音量水平；以及

所述话语的平均话音频率；

5.根据权利要求1所述的系统，其中，所述源域话语和所述目标域话语包括未经转录的数据。

6.根据权利要求1所述的系统，其中，响应于更新所述学生模型，所述系统还可操作以：

确定连续的学生后验是否与所述连续的教师后验收敛；

7.根据权利要求1所述的系统，其中，在更新所述学生模型时，所述系统还可操作以调节所述学生模型的参数，从而使得所述学生后验与所述教师后验之间的发散度分数最小化。

克隆所述第一话音识别模型以由此产生第二话音识别模型；

9.根据权利要求8所述的方法，其中，所述第二数据集包括所述第一数据集中的从所述第一域变换为所述第二域的所述话语。

10.根据权利要求9所述的方法，其中，将所述第一数据集的所述话语从所述第一域变换为所述第二域包括以下中的至少一项：

将新信号叠加至所述第一数据集的所述话语；

调节所述第一数据集的所述话语的参数；以及

对所述第一数据集的所述话语进行频率翘曲。

11.根据权利要求8所述的方法，其中，所述第一话音识别模型提供所述第二话音识别模型通过其被更新的监督信号。

12.根据权利要求8所述的方法，其中，确定由所述第二话音识别模型从所述第二数据集产生的所述后验是否与由所述第一话音识别模型从所述第一数据集产生的所述后验收敛还包括：

将所述发散度分数与收敛度阈值进行比较；

13.根据权利要求8所述的方法，其中，所述后验指示多元音素出现在给定话语的给定帧中的概率。

14.根据权利要求8所述的方法，其中，所述第二域相对于所述第一域被定义为具有以下中至少一项：

与所述第一域不同的信噪比；

与所述第一域不同的进行编码的编解码器；

与所述第一域不同的话语频带；

与所述第一域不同的话语场深度；

与所述第一域不同的音量；以及

与所述第一域不同的平均音高。

克隆所述教师模型以产生学生模型；