CN108960419B

CN108960419B - 用于使用知识桥的学生-教师迁移学习网络的装置和方法

Info

Publication number: CN108960419B
Application number: CN201810360377.6A
Authority: CN
Inventors: 金在英; 李正元; 穆斯塔法·埃尔-卡姆尼
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-05-18
Filing date: 2018-04-20
Publication date: 2024-04-12
Anticipated expiration: 2038-04-20
Also published as: CN108960419A; US11195093B2; KR20180127171A; KR102616351B1; US20180336465A1

Abstract

提供了一种装置、方法、制造装置的方法和构建集成电路的方法。所述装置包括：教师网络；学生网络；教师网络和学生网络之间的多个知识桥，其中，多个知识桥中的每一个提供关于正被学习的函数的提示，并且所述提示包括均方误差或概率；以及损失函数设备，连接到多个知识桥和学生网络。所述方法包括：训练教师网络；通过教师网络和学生网络之间的多个知识桥向学生网络提供提示；并根据多个知识桥和学生网络的输出，确定损失函数。

Description

用于使用知识桥的学生-教师迁移学习网络的装置和方法

相关申请的交叉引用

本申请要求享有于2017年5月18日递交的美国临时申请No.62/507,987和于2018年1月10日递交的美国非临时申请No.15/867,303的优先权，其全部内容通过引用而在此并入。

技术领域

本公开总体涉及深度学习神经网络，更具体地，涉及用于使用知识桥的学生-教师迁移学习网络的装置和方法。

背景技术

尽管近来在自动语音识别(ASR)方面取得了显著进展，但识别与各种噪声源混合的远场语音(例如，来源远离采集语音的麦克风的语音)仍然是一项具有挑战性的任务。

深度神经网络(DNN)的出现已经从根本上改变了ASR的设计。基于DNN的声学模型在对输入语音帧进行分类方面轻易地胜出现有技术中的高斯混合模型(GMM)。随着高级神经网络架构(如卷积神经网络(CNN)和递归神经网络(RNN))的发展，当前性能最佳的ASR的识别精度几乎接近人类听觉能力。然而，大多数ASR系统是基于(例如，训练于)近距离干净(clean)语音(例如，来源靠近采集语音的麦克风的无任何噪声的语音)。识别混合了噪声、回音和干扰的远场语音会使ASR显著变差。

为了改善远距离(例如，远场)语音识别已付出了巨大的努力。多任务降噪联合地优化统一神经网络中的降噪块和识别块，以示出在根据增强多方交互(AMI)和多源环境中的计算听觉(CHiME)语料库识别噪声语音方面的一些改进。然而，其表现并不具有持续性，而是依赖于基础声学模型的架构。例如，不同于DNN模型，卷积长短期记忆(LSTM)不能在多任务降噪中取得任何改进。

发明内容

根据一个实施例，一种装置包括教师网络；学生网络；教师网络和学生网络之间的多个知识桥，其中多个知识桥中的每一个提供关于正被学习的函数的提示，并且提示包括均方误差或概率；以及损失函数设备，连接到多个知识桥和学生网络。

根据一个实施例，一种方法包括训练教师网络；通过教师网络和学生网络之间的多个知识桥向学生网络提供提示；以及根据多个知识桥和学生网络的输出，确定损失函数。

根据一个实施例，制造装置的方法包括：将所述装置与至少一个其他装置一起形成在晶片或封装上，其中该装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备；以及使用一个或多个电到光转换器、一个或多个将光信号分为两个或更多个光信号的分光器以及一个或多个光电转换器来测试所述装置。

根据一个实施例，构建集成电路的方法包括：针对集成电路的层的一组特征生成掩膜布局，其中所述掩膜布局包括针对一个或多个电路特征的标准单元库宏，所述一个或多个电路特征包括一种装置，所述装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备；在生成掩膜布局期间不为了符合布局设计规则考虑宏的相对位置；在生成掩膜布局后为了符合布局设计规则检查宏的相对位置；当检测到所述宏中的任何一个不符合布局设计规则时，通过将每个不符合的宏修改为符合布局设计规则来修改掩膜布局；根据修改后的掩膜布局生成具有针对集成电路的层的一组特征的掩膜；根据所述掩膜制造集成电路层。

附图说明

根据以下结合附图的详细描述，本公开的某些实施例的以上和其他方面、特征和优点将变得更加明显，其中：

图1示出具有零级递归的递归网络的示例性框图；

图2示出具有一级递归的递归网络的示例性框图；

图3示出具有两级递归的递归网络的示例性框图；

图4示出根据一个实施例的本学生-教师网络的示例性框图；

图5示出根据一个实施例的具有三个知识桥的学生和教师网络的示例性实施图；

图6示出根据一个实施例的递归学生-教师网络的示例性框图；

图7示出根据一个实施例的具有针对学生网络和教师网络的不同递归级的递归学生-教师网络的示例性框图；

图8示出根据一个实施例的另一递归学生-教师网络的示例性框图；

图9示出根据一个实施例的另一个学生网络的示例性框图；

图10示出了学生-教师网络的方法的示例性流程图；

图11示出根据一个实施例的制造学生-教师网络的方法的示例性流程图；以及

图12示出根据一个实施例的构建集成电路的方法的示例性流程图。

具体实施方式

在下文中，参照附图详细描述本公开的实施例。应该注意的是，尽管相同的元件在不同的附图中示出，但相同的元件将由相同的附图标记表示。在以下描述中，仅提供诸如详细配置和组件的具体细节以帮助全面理解本公开的实施例。因此，对于本领域技术人员来说显而易见的是，可以在不脱离本公开的范围的情况下对这里描述的实施例进行各种改变和修改。另外，为了清楚和简明，省略了对公知功能和结构的描述。下面描述的术语是考虑到本公开中的功能而定义的术语，并且可以根据用户、用户的意图或习惯而不同。因此，术语的定义应基于整个说明书中的内容来确定。

本公开可以具有各种修改和各种实施例，其中实施例在下面参照附图进行详细描述。然而，应该理解的是，本公开不限于这些实施例，而是包括在本公开的范围内的所有修改、等同物和备选方案。

尽管可以使用包括诸如第一、第二等的序数的术语来描述各种元件，但是结构元件不受这些术语的限制。这些术语仅用于区分一个元素和另一个元素。例如，在不脱离本公开的范围的情况下，第一结构元件可以被称为第二结构元件。类似地，第二结构元件也可以被称为第一结构元件。如这里所使用的，术语“和/或”包括一个或多个相关项目的任何和所有组合。

这里使用的术语仅用于描述本公开的各种实施例，但不旨在限制本公开。除非上下文另有明确指示，单数形式旨在包括复数形式。在本公开中，应该理解，术语“包括”或“具有”表示特征、数字、步骤、操作、结构元件、部件或其组合的存在，并且不排除添加一个或多个其他特征、数字、步骤、操作、结构元素、部分或其组合的存在或概率。

除非另有定义，否则本文使用的所有术语具有与本公开所属领域的技术人员所理解的相同的含义。诸如通用字典中定义的术语应被解释为与相关领域的上下文含义具有相同的含义，并且不应被解释为具有理想或过于正式的含义，除非在本公开中明确地定义。

提出了多任务降噪，以联合地优化集成在统一神经网络中的降噪网络和识别网络。所述降噪网络在时间t接收噪声声学输入x_t，并被训练为通过最小化如式(1)的与干净声学输入的均方误差(MSE)来生成降噪输出：

其中，T为最小批量(batch)尺寸，q^de()为降噪输出并且φ_de为降噪网络中可学习参数集合。将增强特征q^de提供到识别网络，以预测音素序列。由于降噪网络与识别网络级联，所以来自识别损失函数的梯度被反向传播到降噪网络中。多任务损失函数L_DE如以下式(2)和(3)所描述：

其中，φ_re为识别网络中的可学习参数集合，CE(,)为交叉熵，P()为识别网络的softmax输出，y_t ^label为t处的实测真实值(ground truth)标签，α为用来平衡两个损失函数间的权重因子，D为输出标签的维度。

有些方法使用学生-教师框架。知识提炼(KD)将较大教师网络的泛化(generalized)能力迁移到通常小得多的学生网络。它提供由教师网络计算的软目标信息以及它的硬目标，使得学生网络能够学习进行类似地泛化。泛化提炼(GD)通过使用具有单独的干净数据训练教师网络来扩展提炼方法。学生网络基于噪声数据来训练，并且，与此同时，由来自能够访问同步干净语音的教师的软标签指导。虽然GD方法在各种语料库中有良好的表现，但它仅使用来自教师网络的软输出，这可能会错过语音增强的进一步可能性。

KD允许将大教师网络的泛化能力迁移到较小的学生网络。也就是说，由教师网络计算的软目标和硬目标信息被提供到学生网络，使得学生网络可以学习与教师网络进行类似地泛化。

如果x_t为教师网络和学生网络在时间t时的输入特征，则P_T(x_t)为教师网络的softmax输出，并且P_S(x_t)为学生网络的softmax输出。进而，学生网络被训练为最小化如式(4)所示的两个目标(objective)函数的加权平均：

其中，φ为学生网络的参数集合，并且为KD的损失函数。扩展的知识提炼向教师网络提供单独的特权数据以获得更好的后验估计。在一些方法中，使用并行的干净数据/>而不是噪声数据来训练教师网络。通过知识提炼，教师网络可隐式地将对噪声数据降噪的能力迁移到学生网络。

提出了课程学习，以通过使用训练数据的预定义序列逐步训练网络来找到更好的局部最小值。也就是说，先以简单的任务训练网络，然后通过以较难的例子增强数据集来针对较难的任务进行训练。仔细地选择训练数据的序列可加速训练收敛，并具有更好的泛化性能。例如，可以使用增加的噪声变化(variance)来生成训练数据的序列。从而，可以使用较少的噪声数据对网络进行初始训练，并逐渐地使用更多的噪声数据进行训练。

本公开涉及一种学生-教师学习迁移装置和方法。例如，教师网络可以是比学生网络更大的训练得更好的网络。可使用学生-教师框架来训练学生网络，以在性能上与教师网络相比。本公开包括知识桥或提示。知识桥是学生网络和教师网络之间的互连，以提供关于正被学习的函数的提示。提示不仅由教师网络在用于最终输出的最终层提供，还在具有相同抽象级别的中间层上提供以指导学生网络实现更好地解决方案。提示可包括均方误差(MSE)或概率(例如，softmax概率)。目的是通过考虑所述提示来训练学生网络。在没有提示的情况下，学生网络被训练为最小化原始损失函数。但在有了提示的情况下，它通过试图模仿教师层输出来对“降噪”方面加以考虑。所述提示成为原始损失函数的一部分。此外，教师网络不需要与学生网络关于相同的问题进行训练，但其在相关问题中的先前知识可被利用，以通过知识桥传递的多个提示来指导学生网络。

在一个实施例中，本公开包括RNN架构。递归架构多次级联基础网络，以形成深度RNN。提出的递归架构可迭代地改进识别和降噪性能。由于可通过信号降噪来增强ASR性能，信号降噪可通过参考ASR输出来改善。提出的递归架构通过简单的网络级联实现信号降噪和语音识别函数间的双向信息流。

图1示出具有零级递归的递归网络的示例性框图。

参考图1，示出了递归架构的构件块100。所述构件块100可由四个子块组成：I101、F 103、M 105和L 107。子块I 101和F 103接收声学特征和反馈状态，作为它们的输入，子块M 105合并子块I 101和子块F103的输出，并且子块L 107产生识别的音素状态。构件块100可以是任何类型的网络。和/>分别表示子块I 101、子块F 103、子块M 105和子块L 107的输出。“0”表示有0级递归。l_init是零向量，用作零级递归的输入。

图2示出具有一级递归的递归网络的示例性框图。

参考图2，两个构件块201和203被连接以形成一级递归的递归架构200，其中两个构件块201和203中的每一个与图1的构件块100相同。第一构件块201包括子块I 205、子块F207、子块M 209和子块L 211。子块I 205和F 207分别接收x_t和l_init。第二构件块203包括子块I 213、子块F 215、子块M 217和子块L 219。子块I 213和F 215分别接收x_t和子块L 211的输出。和/>分别表示子块I 213、子块F 215、子块M 217和子块L 219的输出。“1”表示存在一级递归。

图3示出具有两级递归的递归网络的示例性框图。

参考图3，三个构件块301、303和305被连接以形成具有两级递归的递归架构300，其中，三个构件块301、303和305中的每一个与图1的构件块100相同。第一构件块301包括子块I 307、子块F 309、子块M 311和子块L 313。子块I 307和F 309分别接收x_t和l_init。第二构件块303包括子块I 315、子块F 317、子块M 319和子块L 321。子块I 315和F 317分别接收x_t和子块L 313的输出。第三构件块305包子块I 323、子块F 325、子块M 327和子块L 329。子块I 323和F 325分别接收x_t和子块L 321的输出。和/>分别表示子块I213、子块F 215，、子块M 217和子块L 219的输出。“2”表示存在两级递归。

图1-图3示出了深度方向上的递归网络。输入x_t在每级递归时被应用到网络。重复的输入充当用来训练深度架构的全局快捷路径。所述递归网络可如下述式(5)表示：

其中为递归网络的子块M在递归级n的时间t处的输出，n是整数，g是非线性函数，W₁、W₂和b是子块M的内部可学习参数，/>为递归网络的子块I在递归级n的时间t处的输出，x_t为时间t处的声学输入，/>为递归网络的子块F在递归级n的时间t处的输出，并且/>为递归网络的子块L在递归级n-1的时间t处的输出。在进入非线性函数g之前，两条路径被仿射变换并相加。

对于自动语音识别，针对教师网络的数据输入可以是干净的声学特征，诸如来自靠近麦克风的头戴式耳机的麦克风录音。针对学生网络的数据输入可以是来自距离用户相对较远的麦克风的录音，因此录音可能混合了噪声、声道和/或其他扬声器干扰。

图4图示了未应用递归架构时的学生-教师网络的示例性高级框图。

参考图4，学生-教师网络400包括教师网络401、学生网络403、多个知识桥405、407和409以及损失函数设备411。

教师网络401包括用于接收包括特许干净数据的数据的输入以及分别连接到知识桥405、407和409的多个输出h₁、h_i和h_N，其中输出h_N与教师网络401中的输出/>相同。

学生网络403包括用于接收作为的噪声版本的数据x_t的输入以及分别连接到知识桥405、407和409的多个输出q₁、q_i和q_N，其中输出q_N还是学生网络403的输出/>

教师网络401与学生网络403具有相同数量的特征表示级别或层。在一个实施例中，除了训练参数的值之外，教师网络401与学生网络403是相同的。然而，本公开不限于此。教师网络可与学生网络具有不同数量的层。因此，知识桥可具有来自不具有相同级别的特征表示或层的学生和教师网络的输入。

教师网络401提供多个提示h₁、…、h_N，以在输入特征的不同表示级别上分别通过知识桥405、407和409向学生网络403提供示例。可以在知识桥405、407和409处计算关于特征q_s如何符合提示h_i的误差度量e_i，作为MSE损失，其中如果提示h_N是softmax输出概率，则作为替代，可使用所述学生网络403和所述教师网络401的后验softmax输出概率之间的交叉熵(CE)损失

P_S(x_t；φ_S)(i)和分别为第i类的概率。D_o是相应网络输出的维度，并且T_mb是最小批量帧的数量。从而，学生网络403的参数通过最小化所有相应损失函数的加权和来优化。

图5示出根据一个实施例的具有三个知识桥的学生和教师网络的示例性实施图。

参考图5，教师网络包括9×9卷积层501、最大池化层503、3×1卷积层505、降维层507、第一LSTM层509、第二LSTM层511、第三LSTM层513和softmax层515。卷积层改进了低层声学特征，以减少环境和扬声器的可变性。降维层是完全连接的层，其将针对CNN输出的高维度降至针对下一个LSTM层的较小的可管理维度。

参考图5，学生网络包括9×9卷积层517、最大池化层519、3×1卷积层521、降维层、第一LSTM层525、第二LSTM层527、第三LSTM层529和softmax531。卷积层改进了低层声学特征，以减少环境和扬声器的可变性。降维层是完全连接的层，其将针对CNN输出的高维度，降至针对下一个LSTM层的较小的可管理维度。最后三个LSTM层用于语音识别。

图5示出了用于远距离语音识别的提出的学生和教师网络的具体实现，其中学生网络和教师网络是卷积层和LSTM层的混合。每个深度网络由识别网络和特征网络组成。特征网络的卷积层改进低层声学特征，以减少环境和扬声器的可变性。特征网络的输出用作对第一知识桥533的提示，

其中，φ_f是学生网络的特征网络的参数集合，是教师网络的特征网络的输出，是学生网络的特征网络的输出，x_t是噪声输入，/>是干净的输入，并且T_mb是最小批量帧的数量。教师网络的特征网络的输出被用作指导学生网络的相应特征网络的输出的提示。L_DR(φ_f)是在降维层处的第一知识桥的均方损失。

针对图5中的学生网络和教师网络两者，识别网络包括三个LSTM层和softmax层。在图5的教师网络和学生网络的识别网络之间存在两个知识桥。第二知识桥535提供如式(7)的第三LSTM层513和529的输出之间的MSE回归：

其中，φ_f是学生网络的特征网络的参数集合，φ_r是学生网络的识别网络的可学习参数集合，和/>分别是识别网络的第三LSTM层设备513和529的输出，x_t是噪声输入，/>是干净的或增强的输入，并且T_mb是最小批量帧的数量。第三知识桥537使用式(8)中的用于知识提炼的softmax输出：

其中，P_T和P_S分别是教师网络和学生网络的softmax输出概率。学生网络使用梯度的反向传播来优化，以使得式(9)中的混合损失函数最小化：

L(φ_f,φ_r)＝L_KD(φ_f,φ_r)+βL_DR(φ_f,φ_r)+γL_LSTM3(φf) (9)

其中，φ_f是学生网络的特征网络的参数集合，φ_r是学生网络的识别网络的可学习参数集合，β和γ是第二和第三知识桥的缩放因子。

教师网络在上预先训练，并且在训练学生网络期间，教师网络仅通过知识桥533、535和537向学生网络提供提示。也就是说，优化是仅使学生网络中的参数最小化。教师网络之前被预先训练过，并且仅向学生网络提供桥连接。

图6示出根据一个实施例的递归学生-教师网络的示例性框图。

在图6中，递归学生-教师网络600包括多个教师网络601、603和605、多个学生网络607、609和611、多个知识桥613、615和617和损失函数设备619。在教师网络601、603和605以及学生网络607、609和611中示出了三级递归。然而，本公开不限于三级递归，或者教师网络和学生网络的递归级是相同的。

递归教师网络和递归学生网络可具有不同的递归级。每个网络的递归结构多次重复相同的函数(例如，教师网络M次，学生网络N次)。因此，在每个递归级连接相同的知识桥是多余的。作为替代，在递归教师网络和递归学生网络的最后阶段连接知识桥。最后递归级提供最改进的特征表示，这将比先前递归级的任何知识桥更好地指导递归学生网络。损失函数619可如式(10)所示：

其中，φ_s是学生网络的可学习参数集合，N是指示知识桥数量的整数，α_i是预定权重因子，并且e_i是误差度量。关于学生网络的特征表示q_i如何符合h_i的误差度量e_i在知识桥处作为MSE损失如式(11)所示进行计算，

其中，φ_s是学生网络的可学习参数。由于h_N和q_N是教师和学生网络的softmax概率，所以，作为替代，如式(12)对e_N使用交叉熵损失。

P_S(x_t；φ_S)(i)和分别是第i类的概率。D_o是相应网络输出的维度并且T_mb是最小批量帧的数量。

图7示出根据一个实施例的学生网络和教师网络具有不同递归级的递归学生-教师网络的示例性框图。

在图7中，递归学生-教师网络700包括多个教师网络701、703和705、多个学生网络707和709、多个知识桥711、713和715和损失函数设备717。教师网络701、703和705具有三级递归并且学生网络707和709具有二级递归。在教师网络和学生网络之间可以使用任何递归级的组合。

图8示出根据一个实施例的另一个递归学生-教师网络的示例性框图。

在图8中，递归学生-教师网络800包括递归教师网络801、递归学生网络803、多个知识桥805、807和809和损失函数设备811。递归教师网络801通过反馈递归教师网络801的输出以由递归教师网络801进一步处理，来实现任何数量的递归级。递归学生网络803通过反馈递归学生网络803的输出以由递归学生网络803进一步处理，来实现任何数量的递归级。

图9示出根据一个实施例的递归学生网络的示例性框图。

在图9中，学生网络901包括乘法器903、合并设备905、第一LSTM 907、第二LSTM909、9×9卷积层设备911、最大池化层设备913、3×1卷积层设备915、降维层设备917、第三LSTM层设备919、第四LSTM层设备921、第五LSTM层设备923和softmax设备925。

学生网络901包括用于远距离语音识别的递归架构。降维层设备917包括来自第一分支和第二分支的输入。第一分支是3×1卷积层设备915的CNN输出，第二分支是第二LSTM层设备909的输出。第二分支从先前的递归级中接收输入s_t,n-1。输入s_t,n-1与数据输入x_t合并，然后输出到第一LSTM层设备907。在合并前，输入s_t,n-1乘以反馈门所述反馈门如下式(13)所示：

其中，x_t为输入声学特征，s_t,n-1为识别网络的第五LSTM层设备923在第n-1递归级的输出，h_t-1,n为特征网络的第二LSTM层设备909在第n次迭代的输出。

图10示出学生-教师网络的方法的示例性流程图。在1001，本系统训练教师网络。在1003，本系统通过教师网络和学生网络之间的多个知识桥向学生网络提供提示。在1005，本系统通过来自多个知识桥和学生网络的输出确定损失函数。

图11示出根据一个实施例的制造学生-教师网络的方法的示例性流程图。在1101，将装置与至少一个其他装置一起形成在晶片或封装上，所述装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备。

在1103，测试所述装置。测试所述装置可包括使用一个或多个电到光转换器、一个或多个将光信号分为两个或更多个光信号的分光器和一个或多个光电转换器来测试所述装置。

图12示出根据一个实施例的构建集成电路的方法的示例性流程图。在1201，构建初始布局数据。例如，针对集成电路的层的一组特征生成掩膜布局，其中所述掩膜布局包括针对一个或多个电路特征的标准单元库宏，所述一个或多个电路特征包括具有教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备的装置。

在1203，执行设计规则检查。例如，所述方法可在生成掩膜布局后为了符合布局设计规则检查宏的相对位置。

在1205，调整布局。例如，所述方法在检测到任何宏不符合布局设计规则时，可通过将每一个不符合的宏修改为符合布局设计规则来修改掩膜布局。

在1207，生成新的布局数据。例如，所述方法可根据修改后的掩膜布局生成具有针对集成电路的层的一组特征的掩膜。然后，可以制造根据所述掩膜的集成电路层。

虽然已经在本公开的详细描述中描述了本公开的某些实施例，但是本公开可以再不脱离本公开的范围的情况下以各种形式修改。因此，本公开的范围将不仅仅基于所描述的实施例来确定，而是基于所附权利要求及其等同物来确定。

Claims

1.一种用于语音识别的利用学生-教师迁移学习网络的装置，包括：

教师网络；

学生网络；

所述教师网络和所述学生网络之间的多个知识桥；以及

连接到所述多个知识桥和所述学生网络的损失函数设备，

其中，所述教师网络包括用于接收临近语音的输入和分别连接到所述多个知识桥的多个输出，所述教师网络的多个输出中包括用于最终输出的最终层的输出，所述学生网络包括用于接收远距离语音的输入和分别连接到所述多个知识桥的多个输出，所述学生网络的多个输出中包括用于最终输出的最终层的输出，所述多个知识桥中的每一个分别连接到所述教师网络和所述学生网络的相同级别的层，并且所述多个知识桥中的每一个根据所述教师网络的多个输出中的相应输出提供关于正被学习的函数的提示，以使所述学生网络根据所述提示被训练，所述提示包括均方误差或概率，

其中，所述临近语音是无噪声的近距离干净语音，所述远距离语音是混合了噪声、回音和/或其他干扰的远场语音，

其中，所述教师网络和所述学生网络中的每一个包括9×9第一卷积层、最大池化层、3×1第二卷积层、降维层、至少一个长短期记忆LSTM层、和软最大层，并且

其中，所述教师网络和所述学生网络分别是递归教师网络和递归学生网络。

2.如权利要求1所述的装置，其中，所述递归教师网络和所述递归学生网络中的每一个为：

其中，是相应的递归教师网络或学生网络的子块M在递归级n的时间t处的输出，n是大于或等于1的整数，g是非线性函数，W₁、W₂和b是子块M的内部可学习参数，/>是相应的递归教师网络或学生网络的子块I在递归级n的时间t处的输出，x_t是时间t处的声学输入，/>是相应的递归教师网络或学生网络的子块F在递归级n的时间t处的输出，并且/>是相应的递归教师网络或学生网络的子块L在递归级n-1的时间t处的输出，

其中，所述子块I、所述子块F、所述子块M和所述子块L构成相应的递归教师网络或学生网络的递归架构，所述子块I和所述子块F分别接收声学特征和反馈状态作为输入，所述子块M合并所述子块I和所述子块F的输出，并且所述子块L产生识别的音素状态，并且

其中，损失函数是：

其中，φ_s是学生网络的可学习参数集合，N是指示知识桥的数量的整数，α_i是预定权重因子，并且e_i是误差度量。

3.如权利要求2所述的装置，其中，所述递归教师网络包括一个或多个教师网络，以及所述递归学生网络包括一个或多个学生网络。

4.如权利要求3所述的装置，其中，所述递归教师网络和所述递归学生网络具有相同数量的递归级或不同数量的递归级。

5.如权利要求1所述的装置，其中，所述多个知识桥中的第一知识桥被配置为确定下式：

其中，φ_f是所述学生网络的特征网络的参数集合，是所述教师网络的特征网络的输出，/>是所述学生网络的特征网络的输出，x_t是噪声输入，/>是非噪声输入，并且T_mb是最小批量帧的数量。

6.如权利要求5所述的装置，其中，所述多个知识桥中的第二知识桥被配置为确定下式：

其中，φ_f是所述学生网络的特征网络的参数集合，φ_r是所述学生网络的识别网络的可学习参数集合，和/>分别是所述教师网络和所述学生网络的识别网络的第三长短期记忆(LSTM)层设备的输出，x_t是噪声输入，/>是非噪声输入，并且T_mb是最小批量帧的数量。

7.如权利要求6所述的装置，其中，所述多个知识桥中的第三知识桥被配置为确定下式：

其中，φ_f是所述学生网络的特征网络的参数集合，φ_r是所述学生网络的识别网络的可学习参数集合，α是权重因子，CE()是交叉熵函数，是时间t处的标签，P_T和P_S分别是所述教师网络和所述学生网络的softmax输出概率，x_t是噪声输入，/>是非噪声输入，并且T_mb是最小批量帧的数量。

8.如权利要求7所述的装置，其中，所述损失函数设备被配置为确定下式：

L(φ_f，φ_r)＝L_KD(φ_f，φ_r)+βL_DR(φ_f)+γL_LSTM3(φ_f，φ_r)

其中，φ_f是所述学生网络的特征网络的参数集合，φ_r是所述学生网络的识别网络的可学习参数集合，β和γ是所述第二知识桥和所述第三知识桥的缩放因子，L_KD(φ_f，φ_r)是所述第三知识桥的输出，L_DR(φ_f)是所述第一知识桥的输出，L_LSTM3(φ_f，φ_r)是所述第二知识桥的输出。

9.一种用于语音识别的利用学生-教师迁移学习网络的方法，包括：

训练教师网络；

通过所述教师网络和学生网络之间的多个知识桥向所述学生网络提供提示，以使所述学生网络根据所述提示被训练，其中所述提示包括均方误差或概率；以及

根据所述多个知识桥和所述学生网络的输出，确定损失函数，

其中，所述教师网络包括用于接收临近语音的输入和分别连接到所述多个知识桥的多个输出，所述教师网络的多个输出中包括用于最终输出的最终层的输出，所述学生网络包括用于接收远距离语音的输入和分别连接到所述多个知识桥的多个输出，所述学生网络的多个输出中包括用于最终输出的最终层的输出，所述多个知识桥中的每一个分别连接到所述教师网络和所述学生网络的相同级别的层，并且所述多个知识桥中的每一个根据所述教师网络的多个输出中的相应输出提供关于正被学习的函数的提示，以使所述学生网络根据所述提示被训练，

10.如权利要求9所述的方法，其中，所述递归教师网络和所述递归学生网络中的每一个是：

其中，损失函数是：

11.如权利要求10所述的方法，其中，所述递归教师网络包括一个或多个教师网络，以及所述递归学生网络包括一个或多个学生网络。

12.如权利要求11所述的方法，其中，所述递归教师网络和所述递归学生网络具有相同数量的递归级或不同数量的递归级。

13.如权利要求9所述的方法，其中，所述多个知识桥中的第一知识桥被配置为确定下式：

14.如权利要求13所述的方法，其中，所述多个知识桥中的第二知识桥被配置为确定下式：

15.如权利要求14所述的方法，其中，所述多个知识桥中的第三知识桥被配置为确定下式：

16.如权利要求15所述的方法，其中，确定损失函数包括确定下式：

L(φ_f，φ_r)＝L_KD(φ_f，φ_r)+βL_DR(φ_f)+γL_LSTM3(φ_f，φ_r)