CN117378003A

CN117378003A - 自适应蒸馏

Info

Publication number: CN117378003A
Application number: CN202180098621.6A
Authority: CN
Inventors: 伊莎贝尔·李尔; 尼拉杰·高尔; 帕里莎·哈哈尼; 布莱恩·法里斯; 布瓦那·拉马巴德兰; 马纳萨·普拉萨德; 佩德罗·J·莫雷诺门希瓦尔; 朱云
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-26
Filing date: 2021-12-07
Publication date: 2024-01-09
Also published as: KR20230158613A; WO2022203729A1; EP4311405A1; JP2024513778A; US20220309340A1

Abstract

一种用于将一个或多个训练好的教师自动语音识别(ASR)模型(210)蒸馏为多语言学生模型(200)的方法(400)，所述方法(400)包括接收多个教师训练示例(152)和多个学生训练示例(154)。所述方法也包括使用所述多个教师训练示例来训练一个或多个教师ASR模型。每一个教师ASR模型被配置为输出相应的音频输入的相应的文本表示。所述方法还包括使用所述多个学生训练示例训练多语言学生ASR模型来生成多语言学生ASR模型(222)，并且使用可调蒸馏损失权重将训练好的所述一个或多个教师ASR模型蒸馏到所述多语言学生ASR模型。所述学生ASR模型被配置为接收音频输入(14)并且输出接收的所述音频输入的对应文本表示(142)。

Description

自适应蒸馏

技术领域

本公开涉及自适应蒸馏。

背景技术

随着自动语音识别(ASR)近年来的普及，ASR正被更广泛地应用到世界各地的语言中。不幸的是，这些语言中的一些具有影响ASR模型的质量或健壮性的限制。例如，语言资源可以从高到低不等，其中这些资源指ASR模型利用来训练和提高精确度和健壮性的资源。由于资源差异，ASR模型可能遇到不同程度的性能下降，这对于使用ASR模型的应用或程序不可避免地影响用户的体验。

发明内容

本公开的方面提供了一种用于将一个或多个训练好的教师自动语音识别(ASR)模型蒸馏为多语言学生模型的计算机实现的方法。当在数据处理硬件上执行时，计算机实现的方法使得数据处理硬件执行接收多个教师训练示例和多个学生训练示例的操作。操作还包括使用多个教师训练示例来训练一个或多个教师ASR模型。每个教师ASR模型被配置为输出相应音频输入的相应的文本表示。该操作还包括通过使用多个学生训练示例训练多语言学生ASR模型以及使用可调蒸馏损失权重将训练的一个或多个教师ASR模型蒸馏为多语言学生ASR模型来生成多语言学生ASR模型。每个学生ASR模型被配置为接收音频输入并输出所接收的音频输入的相应的文本表示。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，一个或多个教师ASR模型被配置为共同地识别比多语言学生ASR模型少的语言。可调蒸馏损失权重可以包括恒定值。在一些另外的实施方式中，训练多语言学生模型存在跨越n个训练步骤，并且可调蒸馏损失权重包括基于n个训练步骤而递减的递减函数。

在一些示例中，一个或多个教师ASR模型和多语言学生ASR模型中的每一个包括递归神经网络传感器(RNN-T)架构。在这些执行例中，可调蒸馏损失权重可以包括基于RNN-T损失的递减函数，RNN-T损失与一个或多个教师ASR模型对应。或者，这些示例中的可调蒸馏损失权重可包括基于与一个或多个教师ASR模型对应的第一RNN-T损失和与多语言学生ASR模型对应的第二RNN-T损失的递减函数。这里，在一段时间内减少与一个或多个教师ASR模型对应的第一RNN-T损失，以及在一段时间内增加与多语言学生ASR模型对应的第二RNN-T损失。

一个或多个教师ASR模型中的每一个教师ASR模型可以对应于单语ASR模型。或者，一个或多个教师ASR模型可对应于单个多语言ASR模型。

本公开的另一方面提供了一种用于将一个或多个训练好的教师自动语音识别(ASR)模型蒸馏为多语言学生模型的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，指令在数据处理硬件上执行时使数据处理硬件执行包括接收多个教师训练示例和多个学生训练示例的操作。操作还包括使用多个教师训练示例来训练一个或多个教师ASR模型。每个教师ASR模型被配置为输出相应音频输入的相应的文本表示。该操作还包括通过使用多个学生训练示例训练多语言学生ASR模型以及使用可调蒸馏损失权重将训练的一个或多个教师ASR模型蒸馏为多语言学生ASR模型来生成多语言学生ASR模型。每个学生ASR模型被配置为接收音频输入并输出所接收的音频输入的相应的文本表示。

该方面可以包括一个或多个以下可选特征。在一些实施方式中，一个或多个教师ASR模型被配置为共同地识别比多语言学生ASR模型少的语言。可调蒸馏损失权重可以包括恒定值。在一些另外的实施方式中，训练多语言学生模型存在跨越n个训练步骤，并且可调蒸馏损失权重包括基于n个训练步骤而递减的递减函数。

一个或多个教师ASR模型中的每一个教师ASR模型可以与单语ASR模型对应。或者，一个或多个教师ASR模型可以与单个多语言ASR模型对应。

本公开的一个或多个实现的细节在附图和以下描述中阐述。从说明书和附图以及从权利要求书中，其它方面，特征和优点将是显而易见的。

附图说明

图1A和1B是使用自适应自动语音识别模型的示例语音环境的示意图。

图2A是由一个以上的单语教师模型形成的示例自适应模型的示意图。

图2B是由单个多语言教师模型形成的示例自适应模型的示意图。

图3是图1A-2B的自适应模型的示例模型架构的示意图。

图4是用于生成自适应模型的方法的操作的示例布置的流程图。

图5是可用于实现本文的系统和方法的示例性计算设备的示意图。

在各个附图中相同的附图标记表示相同的元件。

具体执行方式

参考图1A和1B，在一些实施方式中，系统100包括用户10，其将说的话语12传递到语音使能设备110(也称为设备110或用户设备110)。用户10(即，话语12的发声者)可以将话语12说成查询或命令，以请求来自设备110的响应或使设备110执行由查询指定的任务。设备110被配置为捕获来自用户设备110的语音环境内的一个或多个用户10的声音。这里，音频声音可以指用户10的说的话语12，其用作可听查询，设备110的命令或由设备110捕获的可听通信。设备110的或与设备110相关联的语音使能系统(例如，数字助理界面)可以通过回答该查询和/或使得执行该命令来字段对该命令的查询。

这里，设备110捕获与用户10话语12相对应的音频数据14。设备110可以对应于与用户10相关联并且能够接收音频数据14的任何计算设备。用户设备110的一些示例包括但不限于移动设备(例如，移动电话、平板电脑、笔记本电脑、电子书阅读器等)、计算机、可佩戴设备(例如，智能手表)、音乐播放器、演播设备、智能电器(例如，智能电视)和物联网(IoT)设备、遥控器、智能扬声器等。设备110包括数据处理硬件112和与数据处理硬件112通信并存储指令的存储器硬件114，所述指令在由数据处理硬件112执行时使数据处理硬件112执行与语音和/或文本处理相关的一个或多个操作。在一些示例中，设备110包括一个或多个应用(即，软件应用)，其中每个应用可以利用与设备110相关联的一个或多个语音处理系统140，、一个或多个语音处理系统200来执行应用内的各种功能。

设备110还包括具有音频捕获设备(例如，麦克风)116和语音输出设备(例如，扬声器)118的音频子系统，音频捕获设备116用于捕获语音环境内的音频数据14并将其转换为电信号，语音输出设备118用于传送可听音频信号(例如，来自设备110的合成回放信号154)。虽然在所示的示例中设备110实现单个音频捕获设备116，但是在不脱离本公开的范围的情况下，设备110可以实现音频捕获设备116的阵列，由此阵列中的一个或多个音频捕获设备116可以不物理地驻留在设备110上，而是与音频子系统(例如，设备110的外围设备)通信。例如，设备110可以对应于车辆信息娱乐系统，其利用遍及车辆放置的麦克风阵列。

此外，设备110被配置为经由网络120与远程系统130通信。远程系统130可以包括远程资源132，诸如远程数据处理硬件134(例如，远程服务器或CPU)和/或远程存储器硬件136(例如，远程数据库或其它存储硬件)。设备110可以利用远程资源132来执行与语音处理相关的各种功能。例如，设备110被配置为使用语音识别系统140执行语音识别。这些系统140、系统200可以驻留在设备110上(称为设备上系统)或远程驻留(例如驻留在远程系统130上)，但是与设备110通信。在一些示例中，这些系统140、系统200中的一些驻留在本地或设备上，而其它系统远程驻留。换句话说，这些系统140、系统200中的任何一个可以在任何组合中是本地的或远程的。例如，当系统140、系统200的尺寸或处理要求相当大时，系统140、系统200可以驻留在远程系统130中。然而，当装置110可支持一个或一个以上系统140、系统200的大小或处理要求时，一个或一个以上系统140、系统200可使用数据处理硬件112和/或存储器硬件114驻留在装置110上。可选地，系统140、系统200中的一个或多个可以驻留在本地/设备上以及远程。例如，系统140、系统200中的一个或多个可以默认在设备110和远程系统130之间的到网络120的连接可用时在远程系统130上执行，但是当连接丢失或网络120不可用时，系统140、系统200代替在设备110上本地执行。

语音识别系统140接收音频数据14作为输入，并使用自适应自动语音识别(ASR)模型200(也称为自适应模型200)将该音频信号转录为转录142作为输出。一般来说，通过将音频数据14转换为转录142，语音识别系统140允许设备110识别来自用户10的说的话语12何时对应于查询，命令或某种其它形式的音频通信。转录142是指设备110随后可以用来生成对查询或命令的响应的文本序列。例如，如果用户10询问设备110“今天天气怎么样”的问题，则设备110将对应于问题“what will the weather be like today”的音频数据14传送到语音识别系统140。语音识别系统140将音频数据14转换成包括文本“what will theweather be like today？”的副本。然后，设备110可以使用文本或文本的一部分来确定对查询的响应。例如，为了确定当日(即，今天)的天气，设备110传递文本(例如，“what willthe weather be like today？”)或者向搜索引擎标识文本的部分(例如，“weather”和“today”)。搜索引擎然后可以返回设备110解释的一个或多个搜索结果，以生成用户10的响应。

参照图1B，语音识别系统140的自适应模型200可以是多语言语音识别模型。多语言语音识别模型是能够生成多于一种语言(即，多种语言)的转录142的模型。例如，图1B示出了语音识别系统140接收音频数据14和自适应模型200的多语言版本，自适应模型200转换对应于话语12的音频数据14，话语12为“what will the weather be like today？”。进入三个不同的转录142、转录142a-c。这里，第一转录142a是西班牙语(命名为SP)翻译“今天天气怎么样？”或“ estaráel clima hoy？”第二转录142b是瑞典(指定为SW)翻译的“what will the weather be like today？”或“hur blir /> idag？”第三转录142c是“what will the weather be like today？”的德语(称为DE)翻译或“Wie wird dasWetter heute sein？”多语言语音识别模型对于能够说出不同语言的多语言用户来说是有利的，或者通过从其它语言(即，高资源语言)可获得的数据学习共享表示来改善低资源语言的语音识别模型的性能。例如，对于像美国英语的语言，可能存在大量的训练数据，但是对于像祖鲁(Zulu)的语言，可能存在少量的训练数据。这里，当自适应模型200是多语言模型时，自适应模型200可以利用大量的美国英语训练示例来弥补祖鲁训练数据的不足。

图2A和图2B是生成自适应模型200(也称为学生模型200)的过程的示例。自适应模型200可以由一个或多个教师模型210形成，使得自适应模型200可以被称为学生模型。也就是说，教师模型210具有神经网络，其被蒸馏为学生模型(例如，自适应模型200)以形成学生模型的神经网络或以某种方式影响它。蒸馏通常是指使用预先训练的网络训练神经网络的过程。使用蒸馏，可以减少对期望输出不太关键(例如，类似于自权重)的预训练网络的神经元，以形成更流线型的神经网络(即，蒸馏的神经网络)。与预先训练的网络相比，蒸馏可以使蒸馏的神经网络更精确和/或更紧凑。换句话说，当形成预先训练的网络时，预先训练的网络可能已经形成神经元，其最终使得在预先训练的网络的训练完成时对期望输出的影响较小；因此，预训练的网络包括可以被去除或修改以减少来自这些神经元的任何有害影响或去除不必要的神经元的神经元。对于ASR模型，蒸馏在低资源情况下可能是有利的，在低资源情况下，学生模型可以从从高资源情况学习的教师模型学习到在低资源情况下的行为。

然而，当将知识转移到学生模型200时，蒸馏不是没有其挑战。例如，当为学生模型200执行知识蒸馏时，困难是如何在学习过程220之间进行平衡。也就是说，可以通过蒸馏过程220、蒸馏过程220a和它自己的训练过程220、训练过程220b两者来教导学生模型200。因为涉及多个学习过程220以生成学生模型200，所以训练好的学生模型200的性能可以基于这些过程220之间的平衡而改变。在学习过程220期间，首先训练一个或多个教师模型210以建立用于蒸馏过程220a的神经网络。在一个或多个教师模型210的训练过程期间，教师模型210接收多个教师训练样本152、多个教师训练样本152a-n(例如，来自训练样本数据库150)，并且使用教师训练样本152训练以教授每个教师模型210来预测相应音频输入的纹理表示作为输出。在这方面，训练样本(例如，教师训练样本152或学生训练示例154)允许模型学习基础真理，因为训练样本152、训练样本154包括音频样本和音频样本的相应转录(即，文本表示)。一旦一个或多个教师模型210被训练，则一个或多个被训练的教师模型210可以将他们的知识蒸馏到学生模型200。

除了来自一个或多个教师模型210的蒸馏过程220a之外，学生模型200还从训练过程220、训练过程220b学习。在训练过程220b中，非常类似于教师训练过程，学生模型200从学生训练样本154中学习以预测音频输入的文本表示。在蒸馏过程220a和训练过程220b两者的情况下，学生模型200被配置为通过使用权重222、222a-b来平衡其从这些过程220a、过程220b赋予多少知识。也就是说，每个过程220a、过程220b是训练步骤的序列。在每个训练步骤，计算每个过程220的损失，并将其用于影响下一个训练步骤。例如，一般来说，学生模型200希望最小化给定过程220的损失，以接近能够准确预测给定输入音频的文本表示的神经网络。因为每个过程220具有伴随的损失，所以整个学习过程可以由总损失表示为蒸馏过程220a的蒸馏损失和训练过程220b的训练损失(例如，RNN-T损失)的组合。因此，为了指示学生模型200如何平衡这些过程220a、过程220b，学生模型200使用应用于任一过程损失的可调权重222。在一些示例中，可调节权重222被应用于蒸馏损失，因此被称为可调节蒸馏权重222a。

在一些配置中，可调谐蒸馏权重222a被配置为恒定值。但是在其它配置中，可调蒸馏权重222a可以是随着训练步骤的数量增加而递减的递减递减函数。也就是说，学生模型200随着时间的推移而变得对蒸馏过程损失的关注程度越来越低。当一个或多个教师模型210和学生模型200具有RNN-T模型架构(例如，在端到端流应用中)时，可调谐蒸馏权重222a可以是基于与一个或多个教师模型210对应的RNN-T损失的递减函数。另外，对于两个模型200、模型210的RNN-T结构，可调谐蒸馏权重222a也可以考虑学生模型200的RNN-T损失。这里，可调节蒸馏权重222a可以通过作为基于来自一个或多个教师模型210的第一RNN-T损失而降低，同时基于来自学生模型200的第二RNN-T损失而增加的函数来解决学生模型200的RNN-T损失。

具体参考图2A，一个或多个教师模型210可以对应于多个单语教师模型210，该多个单语教师模型210将他们的每个知识蒸馏到学生模型200以形成多语学生模型200。相反，图2B将一个或多个教师模型210描述为将其知识分解为多语言学生模型200的单个多语言教师模型210。在这些情况的任一种中，一个或多个教师模型210可以共同地识别比多语言学生模型200更少的语言。例如，在学生模型200具有其自己的训练过程220a的情况下，学生模型200能够扩展其语言库以包括比蒸馏到学生模型200的教师模型210更多的语言。

参照图3，自适应蒸馏的过程可适用于不同类型的语音识别模型。一般来说，当自适应模型200是特定类型的语音识别模型时，教师模型210和学生模型(即，自适应模型200)都是用于蒸馏目的的相同类型的模型。一种日益流行的模型是称为递归神经网络传感器(RNN-T)的序列到序列模型。RNN-T不采用注意机制，并且与通常需要处理整个序列(例如，音频波形)以产生输出(例如，句子)的其它序列到序列模型不同，RNN-T连续地处理输入采样和流输出符号，这是对于实时通信特别有吸引力的特征。例如，具有RNN-T的语音识别可以逐个输出字符作为口述。这里，RNN-T使用反馈环路将由模型预测的符号反馈回其自身以预测下一个符号。因为解码RNN-T包括通过单个神经网络而不是大的解码器图的波束搜索，所以RNN-T可以缩放到基于服务器的语音识别模型的大小的一部分。随着尺寸递减，RNN-T可以完全部署在设备上并且能够离线运行(即，没有网络连接)；因此，避免了通信网络的不可靠性问题。

当自适应模型200是RNN-T模型时，自适应模型200是对应于编码器-解码器架构的神经网络模型，其可以被端到端地训练以将输入序列(例如，输入音频信号)映射到目标序列(例如，在音频信号中说出的单词或字符)。换句话说，给定输入序列(例如，实值向量的序列)，RNN-T模型尝试预测标记的目标序列。这里，输入序列可以是原始特征向量，例如对数(log-mel)滤波器组能量特征或其它神经网络编码特征。

继续参考图3，自适应模型200包括编码器网络302和解码器网络304。这里，编码器网络302包括编码器310，其读取d维特征向量的序列x＝(x₁，x₂，···，x_T)，其中并且在每个时间步长产生也称为编码器嵌入e的高阶特征表示。解码器网络304接收高阶特征表示e，并使用联合层320和预测网络330来解码高阶特征表示e。结合预测网络330的联合层320可以被认为是前馈神经网络，其中联合层320计算输入到预测网络330的对数(logits)。换句话说，联合层230将编码器网络302输出的高阶特征表示e1与先前预测y_r–1的嵌入相组合，以便产生解码器输出y_r。解码器输出可以是概率分布，P(y_i|y_i-1，...，y₀，x)，在当前子字单元上，y_i，给定前面的单元，{y_i-1，...，y₀}，输入，x。尽管未示出，但是解码器网络304可以包括处理来自解码器304的输出y_r的Softmax层。然后，在波束搜索过程中使用Softmax层的输出来选择正投影元素。取决于模型200的配置，Softmax层可以与解码器网络304集成或者与解码器网络304分离。

图4是将一个或多个训练好的教师自动语音识别(ASR)模型210分成多语言学生模型200的方法400的操作的示例布置的流程图。在操作402，方法400包括接收多个教师训练示例和多个学生训练示例。

在操作404，方法400包括使用多个教师训练示例来训练一个或多个教师ASR模型210。每个教师ASR模型210被配置为输出相应音频输入的相应的文本表示。

在操作406，该方法包括通过执行子操作406a、子操作406b来生成多语言学生ASR模型200。子操作406a包括使用多个学生训练示例来训练多语言学生ASR模型200。学生ASR模型200被配置为接收音频输入并输出所接收的音频输入的相应的文本表示。子操作406b包括使用可调整的蒸馏损失权重将经过训练的一个或多个教师ASR模型210蒸馏为多语言学生ASR模型200。

图5是可用于实现本文档中描述的系统和方法的示例性计算设备500的示意图。计算设备500用于表示各种形式的数字计算机，例如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它适当的计算机。这里所示的组件，它们的连接和关系以及它们的功能仅仅是示例性的，而不是要限制在本文件中描述和/或要求保护的本发明的实现。

计算设备500包括处理器510(例如，数据处理硬件134)，存储器520(例如，存储器硬件136)，存储设备530，连接到存储器520和高速扩展端口550的高速界面/控制器540，以及连接到低速总线570和存储设备530的低速界面/控制器560。部件510、部件520、部件530、部件540、部件550和部件560中的每一个使用各种总线互连，并且可以适当地安装在公共母板上或以其它方式安装。处理器510可以处理用于在计算设备500内执行的指令，包括存储在存储器520中或存储设备530上的指令，以在外部输入/输出设备(例如耦合到高速界面540的显示器580)上显示图形用户界面(GUI)的图形信息。在其它实现中，可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。此外，可以连接多个计算设备500，其中每个设备提供必要操作的部分(例如，作为服务器库，一组刀片服务器，或多处理器系统)。

存储器520在计算设备500内非暂时性地存储信息。存储器520可以是计算机可读介质，易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是用于临时或永久地存储由计算设备500使用的程序(例如，指令序列)或数据(例如，程序状态信息)的物理设备。非易失性存储器的示例包括(但不限于)快闪存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在一些实施方式中，存储设备530是计算机可读介质。在各种不同的实现中，存储设备530可以是软盘设备、硬盘设备、光盘设备或磁带设备，闪存或其它类似的固态存储器设备，或设备阵列，包括存储区域网络中的设备或其它配置。在另外的实现中，计算机程序产品被有形地包含在信息载体中。计算机程序产品包含指令，指令在被执行时执行一个或多个方法，例如上述的那些方法。信息载体是计算机或机器可读介质，例如存储器520，存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集操作，而低速控制器560管理较低的带宽密集操作。这种职责的分配仅是示例性的。在一些实施方式中，高速控制器540耦合到存储器520，显示器580(例如，通过图形处理器或加速器)以及高速扩展端口550，高速扩展端口550可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器560耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器耦合到一个或多个输入/输出设备，例如键盘，定点设备，扫描仪，或联网设备，例如交换机或路由器。

计算设备500可以以多种不同的形式来实现，如图所示。例如，它可以被实现为标准服务器500a或者在一组这样的服务器500a中多次实现为膝上型计算机500b，或者实现为机架服务器系统500c的一部分。

在此描述的系统和技术的各种实现可以在数字电子和/或光学电路，集成电路，专门设计的ASIC(专用集成电路)，计算机硬件，固件，软件和/或其组合中实现。这些各种实现可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实现，可编程系统包括至少一个可编程处理器，可编程处理器可以是专用的或通用的，被耦合以从存储系统，至少一个输入设备和至少一个输出设备接收数据和指令，以及向存储系统，至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也称为程序，软件，软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器语言来实现。如本文所用，术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品，非暂时性计算机可读介质，设备和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD)，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行，这些可编程处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。例如，适于执行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或被可操作地耦合以从一个或多个大容量存储设备接收数据或向一个或多个大容量存储设备传送数据，大容量存储设备用于存储数据，例如磁盘、磁光盘或光盘。然而，计算机不必具有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器，介质和存储器设备，包括例如半导体存储器设备，例如EPROM，EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或结合在专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面可以在具有显示设备的计算机上实现，显示设备例如CRT(阴极射线管)，LCD(液晶显示器)监视器，或者用于向用户显示信息的触摸屏，并且可选地还具有键盘和定点设备，例如鼠标或轨迹球，通过定点设备用户可以向计算机提供输入。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈，听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音，语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求向用户的客户端设备上的web浏览器发送网页。

已经描述了多种实现方式。然而，应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其它执行方式也在所附权利要求的范围内。

Claims

1.一种计算机实现的方法(400)，其特征在于，当由数据处理硬件(134)执行时使得所述数据处理硬件(134)进行操作，所述操作包括：

接收多个教师训练示例(152)和多个学生训练示例(154)；

使用所述多个教师训练示例(152)训练一个或多个教师自动语音识别(ASR)模型(210)，每个教师ASR模型(210)被配置为输出相应的音频输入(14)的相应的文本表示；以及

通过以下生成多语言学生ASR模型(200):

使用所述多个学生训练示例(154)来训练所述多语言学生ASR模型(200)，所述学生ASR模型(200)被配置为接收音频输入(14)并且输出接收的音频输入(14)的对应文本表示(142)；以及

使用可调蒸馏损失权重(222)将训练好的一个或多个教师ASR模型(210)蒸馏为所述多语言学生ASR模型(200)。

2.根据权利要求1所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)被配置为共同地识别比所述多语言学生ASR模型(200)少的语言。

3.根据权利要求1或2所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括恒定值。

4.根据权利要求1-3中任一项所述的方法(400)，其特征在于：

训练所述多语言学生模型(200)存在跨越n个训练步骤；以及

所述可调蒸馏损失权重(222)包括基于所述n个训练步骤而递减的递减函数。

5.根据权利要求1-4中任一项所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)和所述多语言学生ASR模型(200)中的每一个包括递归神经网络传感器(RNN-T)架构。

6.根据权利要求5所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括基于RNN-T损失的递减函数(210)，所述RNN-T损失与所述一个或多个教师ASR模型对应。

7.根据权利要求5或6所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括基于与所述一个或多个教师ASR模型(210)对应的第一RNN-T损失和与所述多语言学生ASR模型(200)对应的第二RNN-T损失的递减函数。

8.根据权利要求7所述的方法(400)，其特征在于，所述递减函数：

在一段时间内减少与所述一个或多个教师ASR模型(210)对应的所述第一RNN-T损失；以及

在一段时间内增加与所述多语言学生ASR模型(200)对应的所述第二RNN-T损失。

9.根据权利要求1-8中任一项所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)中的每一个教师ASR模型(210)与单语教师ASR模型(210)对应。

10.根据权利要求1-9中任一项所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)与单个多语言ASR模型对应。

11.一种系统(100)，其特征在于，包括：

数据处理硬件(134)；以及

与所述数据处理硬件(135)通信的存储器硬件(136)，所述存储器硬件(136)存储指令，所述指令在所述数据处理硬件(134)上执行时使得所述数据处理硬件(134)执行操作，所述操作包括：

接收多个教师训练示例(152)和多个学生训练示例(154)；

通过以下生成多语言学生ASR模型(200):

12.根据权利要求11所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)被配置为共同地识别比所述多语言学生ASR模型(200)少的语言。

13.根据权利要求11或12所述的系统(100)，其特征在于，所述可调蒸馏损失权重(222)包括恒定值。

14.根据权利要求11-13中任一项所述的系统(100)，其特征在于，：

训练所述多语言学生模型(200)存在跨越n个训练步骤；以及

15.根据权利要求11-14中任一项所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)和所述多语言学生ASR模型(200)中的每一个包括递归神经网络传感器(RNN-T)架构。

16.根据权利要求15所述的系统(100)，其特征在于，所述可调蒸馏损失权重(222)包括基于RNN-T损失的递减函数(210)，所述RNN-T损失与所述一个或多个教师ASR模型对应。

17.根据权利要求15或16所述的系统(100)，其特征在于，所述可调蒸馏损失权重(222)包括基于与所述一个或多个教师ASR模型(210)对应的第一RNN-T损失和与所述多语言学生ASR模型(200)对应的第二RNN-T损失的递减函数。

18.根据权利要求17所述的系统(100)，其特征在于，所述递减函数：

19.根据权利要求11-18中任一项所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)中的每一个教师ASR模型(210)与单语教师ASR模型(210)对应。

20.根据权利要求11-19中任一项所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)与单个多语言ASR模型对应。