CN108960419B - 用于使用知识桥的学生-教师迁移学习网络的装置和方法 - Google Patents

用于使用知识桥的学生-教师迁移学习网络的装置和方法 Download PDF

Info

Publication number
CN108960419B
CN108960419B CN201810360377.6A CN201810360377A CN108960419B CN 108960419 B CN108960419 B CN 108960419B CN 201810360377 A CN201810360377 A CN 201810360377A CN 108960419 B CN108960419 B CN 108960419B
Authority
CN
China
Prior art keywords
network
student
teacher
recursive
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810360377.6A
Other languages
English (en)
Other versions
CN108960419A (zh
Inventor
金在英
李正元
穆斯塔法·埃尔-卡姆尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN108960419A publication Critical patent/CN108960419A/zh
Application granted granted Critical
Publication of CN108960419B publication Critical patent/CN108960419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/067Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using optical means
    • G06N3/0675Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using optical means using electro-optical, acousto-optical or opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Error Detection And Correction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种装置、方法、制造装置的方法和构建集成电路的方法。所述装置包括:教师网络;学生网络;教师网络和学生网络之间的多个知识桥,其中,多个知识桥中的每一个提供关于正被学习的函数的提示,并且所述提示包括均方误差或概率;以及损失函数设备,连接到多个知识桥和学生网络。所述方法包括:训练教师网络;通过教师网络和学生网络之间的多个知识桥向学生网络提供提示;并根据多个知识桥和学生网络的输出,确定损失函数。

Description

用于使用知识桥的学生-教师迁移学习网络的装置和方法
相关申请的交叉引用
本申请要求享有于2017年5月18日递交的美国临时申请No.62/507,987和于2018年1月10日递交的美国非临时申请No.15/867,303的优先权,其全部内容通过引用而在此并入。
技术领域
本公开总体涉及深度学习神经网络,更具体地,涉及用于使用知识桥的学生-教师迁移学习网络的装置和方法。
背景技术
尽管近来在自动语音识别(ASR)方面取得了显著进展,但识别与各种噪声源混合的远场语音(例如,来源远离采集语音的麦克风的语音)仍然是一项具有挑战性的任务。
深度神经网络(DNN)的出现已经从根本上改变了ASR的设计。基于DNN的声学模型在对输入语音帧进行分类方面轻易地胜出现有技术中的高斯混合模型(GMM)。随着高级神经网络架构(如卷积神经网络(CNN)和递归神经网络(RNN))的发展,当前性能最佳的ASR的识别精度几乎接近人类听觉能力。然而,大多数ASR系统是基于(例如,训练于)近距离干净(clean)语音(例如,来源靠近采集语音的麦克风的无任何噪声的语音)。识别混合了噪声、回音和干扰的远场语音会使ASR显著变差。
为了改善远距离(例如,远场)语音识别已付出了巨大的努力。多任务降噪联合地优化统一神经网络中的降噪块和识别块,以示出在根据增强多方交互(AMI)和多源环境中的计算听觉(CHiME)语料库识别噪声语音方面的一些改进。然而,其表现并不具有持续性,而是依赖于基础声学模型的架构。例如,不同于DNN模型,卷积长短期记忆(LSTM)不能在多任务降噪中取得任何改进。
发明内容
根据一个实施例,一种装置包括教师网络;学生网络;教师网络和学生网络之间的多个知识桥,其中多个知识桥中的每一个提供关于正被学习的函数的提示,并且提示包括均方误差或概率;以及损失函数设备,连接到多个知识桥和学生网络。
根据一个实施例,一种方法包括训练教师网络;通过教师网络和学生网络之间的多个知识桥向学生网络提供提示;以及根据多个知识桥和学生网络的输出,确定损失函数。
根据一个实施例,制造装置的方法包括:将所述装置与至少一个其他装置一起形成在晶片或封装上,其中该装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备;以及使用一个或多个电到光转换器、一个或多个将光信号分为两个或更多个光信号的分光器以及一个或多个光电转换器来测试所述装置。
根据一个实施例,构建集成电路的方法包括:针对集成电路的层的一组特征生成掩膜布局,其中所述掩膜布局包括针对一个或多个电路特征的标准单元库宏,所述一个或多个电路特征包括一种装置,所述装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备;在生成掩膜布局期间不为了符合布局设计规则考虑宏的相对位置;在生成掩膜布局后为了符合布局设计规则检查宏的相对位置;当检测到所述宏中的任何一个不符合布局设计规则时,通过将每个不符合的宏修改为符合布局设计规则来修改掩膜布局;根据修改后的掩膜布局生成具有针对集成电路的层的一组特征的掩膜;根据所述掩膜制造集成电路层。
附图说明
根据以下结合附图的详细描述,本公开的某些实施例的以上和其他方面、特征和优点将变得更加明显,其中:
图1示出具有零级递归的递归网络的示例性框图;
图2示出具有一级递归的递归网络的示例性框图;
图3示出具有两级递归的递归网络的示例性框图;
图4示出根据一个实施例的本学生-教师网络的示例性框图;
图5示出根据一个实施例的具有三个知识桥的学生和教师网络的示例性实施图;
图6示出根据一个实施例的递归学生-教师网络的示例性框图;
图7示出根据一个实施例的具有针对学生网络和教师网络的不同递归级的递归学生-教师网络的示例性框图;
图8示出根据一个实施例的另一递归学生-教师网络的示例性框图;
图9示出根据一个实施例的另一个学生网络的示例性框图;
图10示出了学生-教师网络的方法的示例性流程图;
图11示出根据一个实施例的制造学生-教师网络的方法的示例性流程图;以及
图12示出根据一个实施例的构建集成电路的方法的示例性流程图。
具体实施方式
在下文中,参照附图详细描述本公开的实施例。应该注意的是,尽管相同的元件在不同的附图中示出,但相同的元件将由相同的附图标记表示。在以下描述中,仅提供诸如详细配置和组件的具体细节以帮助全面理解本公开的实施例。因此,对于本领域技术人员来说显而易见的是,可以在不脱离本公开的范围的情况下对这里描述的实施例进行各种改变和修改。另外,为了清楚和简明,省略了对公知功能和结构的描述。下面描述的术语是考虑到本公开中的功能而定义的术语,并且可以根据用户、用户的意图或习惯而不同。因此,术语的定义应基于整个说明书中的内容来确定。
本公开可以具有各种修改和各种实施例,其中实施例在下面参照附图进行详细描述。然而,应该理解的是,本公开不限于这些实施例,而是包括在本公开的范围内的所有修改、等同物和备选方案。
尽管可以使用包括诸如第一、第二等的序数的术语来描述各种元件,但是结构元件不受这些术语的限制。这些术语仅用于区分一个元素和另一个元素。例如,在不脱离本公开的范围的情况下,第一结构元件可以被称为第二结构元件。类似地,第二结构元件也可以被称为第一结构元件。如这里所使用的,术语“和/或”包括一个或多个相关项目的任何和所有组合。
这里使用的术语仅用于描述本公开的各种实施例,但不旨在限制本公开。除非上下文另有明确指示,单数形式旨在包括复数形式。在本公开中,应该理解,术语“包括”或“具有”表示特征、数字、步骤、操作、结构元件、部件或其组合的存在,并且不排除添加一个或多个其他特征、数字、步骤、操作、结构元素、部分或其组合的存在或概率。
除非另有定义,否则本文使用的所有术语具有与本公开所属领域的技术人员所理解的相同的含义。诸如通用字典中定义的术语应被解释为与相关领域的上下文含义具有相同的含义,并且不应被解释为具有理想或过于正式的含义,除非在本公开中明确地定义。
提出了多任务降噪,以联合地优化集成在统一神经网络中的降噪网络和识别网络。所述降噪网络在时间t接收噪声声学输入xt,并被训练为通过最小化如式(1)的与干净声学输入的均方误差(MSE)来生成降噪输出:
其中,T为最小批量(batch)尺寸,qde()为降噪输出并且φde为降噪网络中可学习参数集合。将增强特征qde提供到识别网络,以预测音素序列。由于降噪网络与识别网络级联,所以来自识别损失函数的梯度被反向传播到降噪网络中。多任务损失函数LDE如以下式(2)和(3)所描述:
其中,φre为识别网络中的可学习参数集合,CE(,)为交叉熵,P()为识别网络的softmax输出,yt label为t处的实测真实值(ground truth)标签,α为用来平衡两个损失函数间的权重因子,D为输出标签的维度。
有些方法使用学生-教师框架。知识提炼(KD)将较大教师网络的泛化(generalized)能力迁移到通常小得多的学生网络。它提供由教师网络计算的软目标信息以及它的硬目标,使得学生网络能够学习进行类似地泛化。泛化提炼(GD)通过使用具有单独的干净数据训练教师网络来扩展提炼方法。学生网络基于噪声数据来训练,并且,与此同时,由来自能够访问同步干净语音的教师的软标签指导。虽然GD方法在各种语料库中有良好的表现,但它仅使用来自教师网络的软输出,这可能会错过语音增强的进一步可能性。
KD允许将大教师网络的泛化能力迁移到较小的学生网络。也就是说,由教师网络计算的软目标和硬目标信息被提供到学生网络,使得学生网络可以学习与教师网络进行类似地泛化。
如果xt为教师网络和学生网络在时间t时的输入特征,则PT(xt)为教师网络的softmax输出,并且PS(xt)为学生网络的softmax输出。进而,学生网络被训练为最小化如式(4)所示的两个目标(objective)函数的加权平均:
其中,φ为学生网络的参数集合,并且为KD的损失函数。扩展的知识提炼向教师网络提供单独的特权数据以获得更好的后验估计。在一些方法中,使用并行的干净数据/>而不是噪声数据来训练教师网络。通过知识提炼,教师网络可隐式地将对噪声数据降噪的能力迁移到学生网络。
提出了课程学习,以通过使用训练数据的预定义序列逐步训练网络来找到更好的局部最小值。也就是说,先以简单的任务训练网络,然后通过以较难的例子增强数据集来针对较难的任务进行训练。仔细地选择训练数据的序列可加速训练收敛,并具有更好的泛化性能。例如,可以使用增加的噪声变化(variance)来生成训练数据的序列。从而,可以使用较少的噪声数据对网络进行初始训练,并逐渐地使用更多的噪声数据进行训练。
本公开涉及一种学生-教师学习迁移装置和方法。例如,教师网络可以是比学生网络更大的训练得更好的网络。可使用学生-教师框架来训练学生网络,以在性能上与教师网络相比。本公开包括知识桥或提示。知识桥是学生网络和教师网络之间的互连,以提供关于正被学习的函数的提示。提示不仅由教师网络在用于最终输出的最终层提供,还在具有相同抽象级别的中间层上提供以指导学生网络实现更好地解决方案。提示可包括均方误差(MSE)或概率(例如,softmax概率)。目的是通过考虑所述提示来训练学生网络。在没有提示的情况下,学生网络被训练为最小化原始损失函数。但在有了提示的情况下,它通过试图模仿教师层输出来对“降噪”方面加以考虑。所述提示成为原始损失函数的一部分。此外,教师网络不需要与学生网络关于相同的问题进行训练,但其在相关问题中的先前知识可被利用,以通过知识桥传递的多个提示来指导学生网络。
在一个实施例中,本公开包括RNN架构。递归架构多次级联基础网络,以形成深度RNN。提出的递归架构可迭代地改进识别和降噪性能。由于可通过信号降噪来增强ASR性能,信号降噪可通过参考ASR输出来改善。提出的递归架构通过简单的网络级联实现信号降噪和语音识别函数间的双向信息流。
图1示出具有零级递归的递归网络的示例性框图。
参考图1,示出了递归架构的构件块100。所述构件块100可由四个子块组成:I101、F 103、M 105和L 107。子块I 101和F 103接收声学特征和反馈状态,作为它们的输入,子块M 105合并子块I 101和子块F103的输出,并且子块L 107产生识别的音素状态。构件块100可以是任何类型的网络。和/>分别表示子块I 101、子块F 103、子块M 105和子块L 107的输出。“0”表示有0级递归。linit是零向量,用作零级递归的输入。
图2示出具有一级递归的递归网络的示例性框图。
参考图2,两个构件块201和203被连接以形成一级递归的递归架构200,其中两个构件块201和203中的每一个与图1的构件块100相同。第一构件块201包括子块I 205、子块F207、子块M 209和子块L 211。子块I 205和F 207分别接收xt和linit。第二构件块203包括子块I 213、子块F 215、子块M 217和子块L 219。子块I 213和F 215分别接收xt和子块L 211的输出。和/>分别表示子块I 213、子块F 215、子块M 217和子块L 219的输出。“1”表示存在一级递归。
图3示出具有两级递归的递归网络的示例性框图。
参考图3,三个构件块301、303和305被连接以形成具有两级递归的递归架构300,其中,三个构件块301、303和305中的每一个与图1的构件块100相同。第一构件块301包括子块I 307、子块F 309、子块M 311和子块L 313。子块I 307和F 309分别接收xt和linit。第二构件块303包括子块I 315、子块F 317、子块M 319和子块L 321。子块I 315和F 317分别接收xt和子块L 313的输出。第三构件块305包子块I 323、子块F 325、子块M 327和子块L 329。子块I 323和F 325分别接收xt和子块L 321的输出。和/>分别表示子块I213、子块F 215,、子块M 217和子块L 219的输出。“2”表示存在两级递归。
图1-图3示出了深度方向上的递归网络。输入xt在每级递归时被应用到网络。重复的输入充当用来训练深度架构的全局快捷路径。所述递归网络可如下述式(5)表示:
其中为递归网络的子块M在递归级n的时间t处的输出,n是整数,g是非线性函数,W1、W2和b是子块M的内部可学习参数,/>为递归网络的子块I在递归级n的时间t处的输出,xt为时间t处的声学输入,/>为递归网络的子块F在递归级n的时间t处的输出,并且/>为递归网络的子块L在递归级n-1的时间t处的输出。在进入非线性函数g之前,两条路径被仿射变换并相加。
对于自动语音识别,针对教师网络的数据输入可以是干净的声学特征,诸如来自靠近麦克风的头戴式耳机的麦克风录音。针对学生网络的数据输入可以是来自距离用户相对较远的麦克风的录音,因此录音可能混合了噪声、声道和/或其他扬声器干扰。
图4图示了未应用递归架构时的学生-教师网络的示例性高级框图。
参考图4,学生-教师网络400包括教师网络401、学生网络403、多个知识桥405、407和409以及损失函数设备411。
教师网络401包括用于接收包括特许干净数据的数据的输入以及分别连接到知识桥405、407和409的多个输出h1、hi和hN,其中输出hN与教师网络401中的输出/>相同。
学生网络403包括用于接收作为的噪声版本的数据xt的输入以及分别连接到知识桥405、407和409的多个输出q1、qi和qN,其中输出qN还是学生网络403的输出/>
教师网络401与学生网络403具有相同数量的特征表示级别或层。在一个实施例中,除了训练参数的值之外,教师网络401与学生网络403是相同的。然而,本公开不限于此。教师网络可与学生网络具有不同数量的层。因此,知识桥可具有来自不具有相同级别的特征表示或层的学生和教师网络的输入。
教师网络401提供多个提示h1、…、hN,以在输入特征的不同表示级别上分别通过知识桥405、407和409向学生网络403提供示例。可以在知识桥405、407和409处计算关于特征qs如何符合提示hi的误差度量ei,作为MSE损失,其中如果提示hN是softmax输出概率,则作为替代,可使用所述学生网络403和所述教师网络401的后验softmax输出概率之间的交叉熵(CE)损失
PS(xt;φS)(i)和分别为第i类的概率。Do是相应网络输出的维度,并且Tmb是最小批量帧的数量。从而,学生网络403的参数通过最小化所有相应损失函数的加权和来优化。
图5示出根据一个实施例的具有三个知识桥的学生和教师网络的示例性实施图。
参考图5,教师网络包括9×9卷积层501、最大池化层503、3×1卷积层505、降维层507、第一LSTM层509、第二LSTM层511、第三LSTM层513和softmax层515。卷积层改进了低层声学特征,以减少环境和扬声器的可变性。降维层是完全连接的层,其将针对CNN输出的高维度降至针对下一个LSTM层的较小的可管理维度。
参考图5,学生网络包括9×9卷积层517、最大池化层519、3×1卷积层521、降维层、第一LSTM层525、第二LSTM层527、第三LSTM层529和softmax531。卷积层改进了低层声学特征,以减少环境和扬声器的可变性。降维层是完全连接的层,其将针对CNN输出的高维度,降至针对下一个LSTM层的较小的可管理维度。最后三个LSTM层用于语音识别。
图5示出了用于远距离语音识别的提出的学生和教师网络的具体实现,其中学生网络和教师网络是卷积层和LSTM层的混合。每个深度网络由识别网络和特征网络组成。特征网络的卷积层改进低层声学特征,以减少环境和扬声器的可变性。特征网络的输出用作对第一知识桥533的提示,
其中,φf是学生网络的特征网络的参数集合,是教师网络的特征网络的输出,是学生网络的特征网络的输出,xt是噪声输入,/>是干净的输入,并且Tmb是最小批量帧的数量。教师网络的特征网络的输出被用作指导学生网络的相应特征网络的输出的提示。LDRf)是在降维层处的第一知识桥的均方损失。
针对图5中的学生网络和教师网络两者,识别网络包括三个LSTM层和softmax层。在图5的教师网络和学生网络的识别网络之间存在两个知识桥。第二知识桥535提供如式(7)的第三LSTM层513和529的输出之间的MSE回归:
其中,φf是学生网络的特征网络的参数集合,φr是学生网络的识别网络的可学习参数集合,和/>分别是识别网络的第三LSTM层设备513和529的输出,xt是噪声输入,/>是干净的或增强的输入,并且Tmb是最小批量帧的数量。第三知识桥537使用式(8)中的用于知识提炼的softmax输出:
其中,PT和PS分别是教师网络和学生网络的softmax输出概率。学生网络使用梯度的反向传播来优化,以使得式(9)中的混合损失函数最小化:
L(φfr)=LKDfr)+βLDRfr)+γLLSTM3(φf) (9)
其中,φf是学生网络的特征网络的参数集合,φr是学生网络的识别网络的可学习参数集合,β和γ是第二和第三知识桥的缩放因子。
教师网络在上预先训练,并且在训练学生网络期间,教师网络仅通过知识桥533、535和537向学生网络提供提示。也就是说,优化是仅使学生网络中的参数最小化。教师网络之前被预先训练过,并且仅向学生网络提供桥连接。
图6示出根据一个实施例的递归学生-教师网络的示例性框图。
在图6中,递归学生-教师网络600包括多个教师网络601、603和605、多个学生网络607、609和611、多个知识桥613、615和617和损失函数设备619。在教师网络601、603和605以及学生网络607、609和611中示出了三级递归。然而,本公开不限于三级递归,或者教师网络和学生网络的递归级是相同的。
递归教师网络和递归学生网络可具有不同的递归级。每个网络的递归结构多次重复相同的函数(例如,教师网络M次,学生网络N次)。因此,在每个递归级连接相同的知识桥是多余的。作为替代,在递归教师网络和递归学生网络的最后阶段连接知识桥。最后递归级提供最改进的特征表示,这将比先前递归级的任何知识桥更好地指导递归学生网络。损失函数619可如式(10)所示:
其中,φs是学生网络的可学习参数集合,N是指示知识桥数量的整数,αi是预定权重因子,并且ei是误差度量。关于学生网络的特征表示qi如何符合hi的误差度量ei在知识桥处作为MSE损失如式(11)所示进行计算,
其中,φs是学生网络的可学习参数。由于hN和qN是教师和学生网络的softmax概率,所以,作为替代,如式(12)对eN使用交叉熵损失。
PS(xt;φS)(i)和分别是第i类的概率。Do是相应网络输出的维度并且Tmb是最小批量帧的数量。
图7示出根据一个实施例的学生网络和教师网络具有不同递归级的递归学生-教师网络的示例性框图。
在图7中,递归学生-教师网络700包括多个教师网络701、703和705、多个学生网络707和709、多个知识桥711、713和715和损失函数设备717。教师网络701、703和705具有三级递归并且学生网络707和709具有二级递归。在教师网络和学生网络之间可以使用任何递归级的组合。
图8示出根据一个实施例的另一个递归学生-教师网络的示例性框图。
在图8中,递归学生-教师网络800包括递归教师网络801、递归学生网络803、多个知识桥805、807和809和损失函数设备811。递归教师网络801通过反馈递归教师网络801的输出以由递归教师网络801进一步处理,来实现任何数量的递归级。递归学生网络803通过反馈递归学生网络803的输出以由递归学生网络803进一步处理,来实现任何数量的递归级。
图9示出根据一个实施例的递归学生网络的示例性框图。
在图9中,学生网络901包括乘法器903、合并设备905、第一LSTM 907、第二LSTM909、9×9卷积层设备911、最大池化层设备913、3×1卷积层设备915、降维层设备917、第三LSTM层设备919、第四LSTM层设备921、第五LSTM层设备923和softmax设备925。
学生网络901包括用于远距离语音识别的递归架构。降维层设备917包括来自第一分支和第二分支的输入。第一分支是3×1卷积层设备915的CNN输出,第二分支是第二LSTM层设备909的输出。第二分支从先前的递归级中接收输入st,n-1。输入st,n-1与数据输入xt合并,然后输出到第一LSTM层设备907。在合并前,输入st,n-1乘以反馈门所述反馈门如下式(13)所示:
其中,xt为输入声学特征,st,n-1为识别网络的第五LSTM层设备923在第n-1递归级的输出,ht-1,n为特征网络的第二LSTM层设备909在第n次迭代的输出。
图10示出学生-教师网络的方法的示例性流程图。在1001,本系统训练教师网络。在1003,本系统通过教师网络和学生网络之间的多个知识桥向学生网络提供提示。在1005,本系统通过来自多个知识桥和学生网络的输出确定损失函数。
图11示出根据一个实施例的制造学生-教师网络的方法的示例性流程图。在1101,将装置与至少一个其他装置一起形成在晶片或封装上,所述装置包括教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备。
在1103,测试所述装置。测试所述装置可包括使用一个或多个电到光转换器、一个或多个将光信号分为两个或更多个光信号的分光器和一个或多个光电转换器来测试所述装置。
图12示出根据一个实施例的构建集成电路的方法的示例性流程图。在1201,构建初始布局数据。例如,针对集成电路的层的一组特征生成掩膜布局,其中所述掩膜布局包括针对一个或多个电路特征的标准单元库宏,所述一个或多个电路特征包括具有教师网络、学生网络、教师网络和学生网络之间的多个知识桥以及连接到多个知识桥和学生网络的损失函数设备的装置。
在1203,执行设计规则检查。例如,所述方法可在生成掩膜布局后为了符合布局设计规则检查宏的相对位置。
在1205,调整布局。例如,所述方法在检测到任何宏不符合布局设计规则时,可通过将每一个不符合的宏修改为符合布局设计规则来修改掩膜布局。
在1207,生成新的布局数据。例如,所述方法可根据修改后的掩膜布局生成具有针对集成电路的层的一组特征的掩膜。然后,可以制造根据所述掩膜的集成电路层。
虽然已经在本公开的详细描述中描述了本公开的某些实施例,但是本公开可以再不脱离本公开的范围的情况下以各种形式修改。因此,本公开的范围将不仅仅基于所描述的实施例来确定,而是基于所附权利要求及其等同物来确定。

Claims (16)

1.一种用于语音识别的利用学生-教师迁移学习网络的装置,包括:
教师网络;
学生网络;
所述教师网络和所述学生网络之间的多个知识桥;以及
连接到所述多个知识桥和所述学生网络的损失函数设备,
其中,所述教师网络包括用于接收临近语音的输入和分别连接到所述多个知识桥的多个输出,所述教师网络的多个输出中包括用于最终输出的最终层的输出,所述学生网络包括用于接收远距离语音的输入和分别连接到所述多个知识桥的多个输出,所述学生网络的多个输出中包括用于最终输出的最终层的输出,所述多个知识桥中的每一个分别连接到所述教师网络和所述学生网络的相同级别的层,并且所述多个知识桥中的每一个根据所述教师网络的多个输出中的相应输出提供关于正被学习的函数的提示,以使所述学生网络根据所述提示被训练,所述提示包括均方误差或概率,
其中,所述临近语音是无噪声的近距离干净语音,所述远距离语音是混合了噪声、回音和/或其他干扰的远场语音,
其中,所述教师网络和所述学生网络中的每一个包括9×9第一卷积层、最大池化层、3×1第二卷积层、降维层、至少一个长短期记忆LSTM层、和软最大层,并且
其中,所述教师网络和所述学生网络分别是递归教师网络和递归学生网络。
2.如权利要求1所述的装置,其中,所述递归教师网络和所述递归学生网络中的每一个为:
其中,是相应的递归教师网络或学生网络的子块M在递归级n的时间t处的输出,n是大于或等于1的整数,g是非线性函数,W1、W2和b是子块M的内部可学习参数,/>是相应的递归教师网络或学生网络的子块I在递归级n的时间t处的输出,xt是时间t处的声学输入,/>是相应的递归教师网络或学生网络的子块F在递归级n的时间t处的输出,并且/>是相应的递归教师网络或学生网络的子块L在递归级n-1的时间t处的输出,
其中,所述子块I、所述子块F、所述子块M和所述子块L构成相应的递归教师网络或学生网络的递归架构,所述子块I和所述子块F分别接收声学特征和反馈状态作为输入,所述子块M合并所述子块I和所述子块F的输出,并且所述子块L产生识别的音素状态,并且
其中,损失函数是:
其中,φs是学生网络的可学习参数集合,N是指示知识桥的数量的整数,αi是预定权重因子,并且ei是误差度量。
3.如权利要求2所述的装置,其中,所述递归教师网络包括一个或多个教师网络,以及所述递归学生网络包括一个或多个学生网络。
4.如权利要求3所述的装置,其中,所述递归教师网络和所述递归学生网络具有相同数量的递归级或不同数量的递归级。
5.如权利要求1所述的装置,其中,所述多个知识桥中的第一知识桥被配置为确定下式:
其中,φf是所述学生网络的特征网络的参数集合,是所述教师网络的特征网络的输出,/>是所述学生网络的特征网络的输出,xt是噪声输入,/>是非噪声输入,并且Tmb是最小批量帧的数量。
6.如权利要求5所述的装置,其中,所述多个知识桥中的第二知识桥被配置为确定下式:
其中,φf是所述学生网络的特征网络的参数集合,φr是所述学生网络的识别网络的可学习参数集合,和/>分别是所述教师网络和所述学生网络的识别网络的第三长短期记忆(LSTM)层设备的输出,xt是噪声输入,/>是非噪声输入,并且Tmb是最小批量帧的数量。
7.如权利要求6所述的装置,其中,所述多个知识桥中的第三知识桥被配置为确定下式:
其中,φf是所述学生网络的特征网络的参数集合,φr是所述学生网络的识别网络的可学习参数集合,α是权重因子,CE()是交叉熵函数,是时间t处的标签,PT和PS分别是所述教师网络和所述学生网络的softmax输出概率,xt是噪声输入,/>是非噪声输入,并且Tmb是最小批量帧的数量。
8.如权利要求7所述的装置,其中,所述损失函数设备被配置为确定下式:
L(φf,φr)=LKDf,φr)+βLDRf)+γLLSTM3f,φr)
其中,φf是所述学生网络的特征网络的参数集合,φr是所述学生网络的识别网络的可学习参数集合,β和γ是所述第二知识桥和所述第三知识桥的缩放因子,LKDf,φr)是所述第三知识桥的输出,LDRf)是所述第一知识桥的输出,LLSTM3f,φr)是所述第二知识桥的输出。
9.一种用于语音识别的利用学生-教师迁移学习网络的方法,包括:
训练教师网络;
通过所述教师网络和学生网络之间的多个知识桥向所述学生网络提供提示,以使所述学生网络根据所述提示被训练,其中所述提示包括均方误差或概率;以及
根据所述多个知识桥和所述学生网络的输出,确定损失函数,
其中,所述教师网络包括用于接收临近语音的输入和分别连接到所述多个知识桥的多个输出,所述教师网络的多个输出中包括用于最终输出的最终层的输出,所述学生网络包括用于接收远距离语音的输入和分别连接到所述多个知识桥的多个输出,所述学生网络的多个输出中包括用于最终输出的最终层的输出,所述多个知识桥中的每一个分别连接到所述教师网络和所述学生网络的相同级别的层,并且所述多个知识桥中的每一个根据所述教师网络的多个输出中的相应输出提供关于正被学习的函数的提示,以使所述学生网络根据所述提示被训练,
其中,所述临近语音是无噪声的近距离干净语音,所述远距离语音是混合了噪声、回音和/或其他干扰的远场语音,
其中,所述教师网络和所述学生网络中的每一个包括9×9第一卷积层、最大池化层、3×1第二卷积层、降维层、至少一个长短期记忆LSTM层、和软最大层,并且
其中,所述教师网络和所述学生网络分别是递归教师网络和递归学生网络。
10.如权利要求9所述的方法,其中,所述递归教师网络和所述递归学生网络中的每一个是:
其中,是相应的递归教师网络或学生网络的子块M在递归级n的时间t处的输出,n是大于或等于1的整数,g是非线性函数,W1、W2和b是子块M的内部可学习参数,/>是相应的递归教师网络或学生网络的子块I在递归级n的时间t处的输出,xt是时间t处的声学输入,/>是相应的递归教师网络或学生网络的子块F在递归级n的时间t处的输出,并且/>是相应的递归教师网络或学生网络的子块L在递归级n-1的时间t处的输出,
其中,所述子块I、所述子块F、所述子块M和所述子块L构成相应的递归教师网络或学生网络的递归架构,所述子块I和所述子块F分别接收声学特征和反馈状态作为输入,所述子块M合并所述子块I和所述子块F的输出,并且所述子块L产生识别的音素状态,并且
其中,损失函数是:
其中,φs是学生网络的可学习参数集合,N是指示知识桥的数量的整数,αi是预定权重因子,并且ei是误差度量。
11.如权利要求10所述的方法,其中,所述递归教师网络包括一个或多个教师网络,以及所述递归学生网络包括一个或多个学生网络。
12.如权利要求11所述的方法,其中,所述递归教师网络和所述递归学生网络具有相同数量的递归级或不同数量的递归级。
13.如权利要求9所述的方法,其中,所述多个知识桥中的第一知识桥被配置为确定下式:
其中,φf是所述学生网络的特征网络的参数集合,是所述教师网络的特征网络的输出,/>是所述学生网络的特征网络的输出,xt是噪声输入,/>是非噪声输入,并且Tmb是最小批量帧的数量。
14.如权利要求13所述的方法,其中,所述多个知识桥中的第二知识桥被配置为确定下式:
其中,φf是所述学生网络的特征网络的参数集合,φr是所述学生网络的识别网络的可学习参数集合,和/>分别是所述教师网络和所述学生网络的识别网络的第三长短期记忆(LSTM)层设备的输出,xt是噪声输入,/>是非噪声输入,并且Tmb是最小批量帧的数量。
15.如权利要求14所述的方法,其中,所述多个知识桥中的第三知识桥被配置为确定下式:
其中,φf是所述学生网络的特征网络的参数集合,φr是所述学生网络的识别网络的可学习参数集合,α是权重因子,CE()是交叉熵函数,是时间t处的标签,PT和PS分别是所述教师网络和所述学生网络的softmax输出概率,xt是噪声输入,/>是非噪声输入,并且Tmb是最小批量帧的数量。
16.如权利要求15所述的方法,其中,确定损失函数包括确定下式:
L(φf,φr)=LKDf,φr)+βLDRf)+γLLSTM3f,φr)
其中,φf是所述学生网络的特征网络的参数集合,φr是所述学生网络的识别网络的可学习参数集合,β和γ是所述第二知识桥和所述第三知识桥的缩放因子,LKDf,φr)是所述第三知识桥的输出,LDRf)是所述第一知识桥的输出,LLSTM3f,φr)是所述第二知识桥的输出。
CN201810360377.6A 2017-05-18 2018-04-20 用于使用知识桥的学生-教师迁移学习网络的装置和方法 Active CN108960419B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762507987P 2017-05-18 2017-05-18
US62/507,987 2017-05-18
US15/867,303 2018-01-10
US15/867,303 US11195093B2 (en) 2017-05-18 2018-01-10 Apparatus and method for student-teacher transfer learning network using knowledge bridge

Publications (2)

Publication Number Publication Date
CN108960419A CN108960419A (zh) 2018-12-07
CN108960419B true CN108960419B (zh) 2024-04-12

Family

ID=64271823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810360377.6A Active CN108960419B (zh) 2017-05-18 2018-04-20 用于使用知识桥的学生-教师迁移学习网络的装置和方法

Country Status (3)

Country Link
US (1) US11195093B2 (zh)
KR (1) KR102616351B1 (zh)
CN (1) CN108960419B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3520038A4 (en) 2016-09-28 2020-06-03 D5A1 Llc LEARNING TRAINER FOR MACHINE LEARNING SYSTEM
WO2018175098A1 (en) 2017-03-24 2018-09-27 D5Ai Llc Learning coach for machine learning system
CN110892417B (zh) 2017-06-05 2024-02-20 D5Ai有限责任公司 具有学习教练的异步代理以及在不降低性能的情况下在结构上修改深度神经网络
WO2019005507A1 (en) 2017-06-27 2019-01-03 D5Ai Llc ALIGNED LEARNING OF DEEP NETWORKS
JP6947219B2 (ja) * 2017-09-06 2021-10-13 日本電信電話株式会社 異常音検知装置、異常モデル学習装置、異常検知装置、異常音検知方法、異常音生成装置、異常データ生成装置、異常音生成方法、およびプログラム
KR102602117B1 (ko) * 2017-10-26 2023-11-13 매직 립, 인코포레이티드 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들
CN108830288A (zh) * 2018-04-25 2018-11-16 北京市商汤科技开发有限公司 图像处理方法、神经网络的训练方法、装置、设备及介质
CN110598840B (zh) * 2018-06-13 2023-04-18 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
CN109783824B (zh) * 2018-12-17 2023-04-18 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
CN109948642B (zh) * 2019-01-18 2023-03-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110097084B (zh) * 2019-04-03 2021-08-31 浙江大学 通过投射特征训练多任务学生网络的知识融合方法
US11900238B1 (en) * 2019-04-25 2024-02-13 Perceive Corporation Removing nodes from machine-trained network based on introduction of probabilistic noise during training
CN110135562B (zh) * 2019-04-30 2020-12-01 中国科学院自动化研究所 基于特征空间变化的蒸馏学习方法、系统、装置
CN110598727B (zh) * 2019-07-19 2023-07-28 深圳力维智联技术有限公司 基于迁移学习的模型构建方法、图像识别方法及其装置
CN110490136B (zh) * 2019-08-20 2023-03-24 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN112307860A (zh) * 2019-10-10 2021-02-02 北京沃东天骏信息技术有限公司 图像识别模型训练方法和装置、图像识别方法和装置
WO2021068180A1 (en) * 2019-10-11 2021-04-15 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for continual meta-learning
EP3809285B1 (en) 2019-10-16 2023-05-10 Samsung Electronics Co., Ltd. Method and apparatus with data processing
CN110826344B (zh) 2019-10-24 2022-03-01 北京小米智能科技有限公司 神经网络模型压缩方法、语料翻译方法及其装置
CN110991556B (zh) * 2019-12-16 2023-08-15 浙江大学 一种基于多学生合作蒸馏的高效图像分类方法、装置、设备及介质
CN111275183B (zh) * 2020-01-14 2023-06-16 北京迈格威科技有限公司 视觉任务的处理方法、装置和电子系统
CN111291836B (zh) * 2020-03-31 2023-09-08 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111553821B (zh) * 2020-05-13 2021-04-27 电子科技大学 基于教师学生网络和多头解码器的应用题自动解题方法
US20230214670A1 (en) * 2020-05-26 2023-07-06 Indeed, Inc. Knowledge distillation in multi-arm bandit, neural network models for real-time online optimization
US11244668B2 (en) * 2020-05-29 2022-02-08 TCL Research America Inc. Device and method for generating speech animation
US11776156B2 (en) * 2020-06-12 2023-10-03 Google Llc Pose empowered RGB-flow net
KR20220001262A (ko) 2020-06-29 2022-01-05 삼성전자주식회사 반도체 공정의 근접 보정 방법
US11907845B2 (en) * 2020-08-17 2024-02-20 International Business Machines Corporation Training teacher machine learning models using lossless and lossy branches
CN112504678B (zh) * 2020-11-12 2022-12-23 重庆科技学院 一种基于知识蒸馏的电机轴承故障诊断方法
KR102232138B1 (ko) 2020-11-17 2021-03-25 (주)에이아이매틱스 지식 증류 기반 신경망 아키텍처 탐색 방법
CN112541060B (zh) * 2020-11-19 2021-08-13 中国科学院深圳先进技术研究院 一种基于对抗训练的端到端任务型对话学习框架和方法
CN112529184B (zh) * 2021-02-18 2021-07-02 中国科学院自动化研究所 融合领域知识与多源数据的工业过程优化决策方法
CN112990298B (zh) * 2021-03-11 2023-11-24 北京中科虹霸科技有限公司 关键点检测模型训练方法、关键点检测方法及装置
CN113343772B (zh) * 2021-05-12 2022-06-14 武汉大学 一种基于隐式引导与显式教导策略的视频显著性目标检测方法
US20220366226A1 (en) * 2021-05-17 2022-11-17 Marziehsadat TAHAEI Methods and systems for compressing a trained neural network and for improving efficiently performing computations of a compressed neural network
CN113592100B (zh) * 2021-07-29 2024-02-23 中国科学技术大学 一种多智能体强化学习方法及系统
CN114283402B (zh) * 2021-11-24 2024-03-05 西北工业大学 基于知识蒸馏训练与时空联合注意力的车牌检测方法
CN116110022B (zh) * 2022-12-10 2023-09-05 河南工业大学 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN115774851B (zh) * 2023-02-10 2023-04-25 四川大学 基于分级知识蒸馏的曲轴内部缺陷检测方法及其检测系统
CN117975165B (zh) * 2024-03-18 2024-09-17 广东工业大学 一种基于深度补全的透明物体抓取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548190A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 模型训练方法和设备以及数据识别方法
CN106683663A (zh) * 2015-11-06 2017-05-17 三星电子株式会社 神经网络训练设备和方法以及语音识别设备和方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149690B2 (en) * 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US7062476B2 (en) 2002-06-17 2006-06-13 The Boeing Company Student neural network
WO2004063967A2 (en) * 2003-01-10 2004-07-29 Cohesive Knowledge Solutions, Inc. Universal knowledge information and data storage system
US7617164B2 (en) 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
US20070260563A1 (en) 2006-04-17 2007-11-08 International Business Machines Corporation Method to continuously diagnose and model changes of real-valued streaming variables
US8060456B2 (en) 2008-10-01 2011-11-15 Microsoft Corporation Training a search result ranker with automatically-generated samples
US10318882B2 (en) 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
US20160055427A1 (en) 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
RU2666631C2 (ru) 2014-09-12 2018-09-11 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Обучение dnn-студента посредством распределения вывода
US20170132528A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548190A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 模型训练方法和设备以及数据识别方法
CN106683663A (zh) * 2015-11-06 2017-05-17 三星电子株式会社 神经网络训练设备和方法以及语音识别设备和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adriana Romero 等.FITNETS: HINTS FOR THIN DEEP NETS.《arxiv.org》.2015,第1-13页. *
Nicolai Gajhede.Convolutional Neural Networks with Batch Normalization for Classifying Hi-hat, Snare, and Bass Percussion Sound Samples.《proceeding of the audio mostly 2016》》.2016,第1-5页. *
Tara N. Sainath 等.CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS.《2015 IEEE international conference on acoustics,speech and signal processing》》.2015,第1-5页. *

Also Published As

Publication number Publication date
CN108960419A (zh) 2018-12-07
US11195093B2 (en) 2021-12-07
KR20180127171A (ko) 2018-11-28
KR102616351B1 (ko) 2023-12-20
US20180336465A1 (en) 2018-11-22

Similar Documents

Publication Publication Date Title
CN108960419B (zh) 用于使用知识桥的学生-教师迁移学习网络的装置和方法
JP7391452B2 (ja) 意味理解モデルのトレーニング方法、装置、電子デバイスおよびコンピュータプログラム
US20210256354A1 (en) Artificial intelligence learning-based user knowledge tracing system and operating method thereof
US10467525B2 (en) Recurrent neural network training method, computer program therefor and speech recognition device
CN108960407B (zh) 递归神经网路语言模型训练方法、装置、设备及介质
KR102158683B1 (ko) 외부 메모리로 신경망들 증강
CN107408111A (zh) 端对端语音识别
US9728183B2 (en) System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
KR20180017622A (ko) 병렬 처리에 기초한 번역 방법 및 장치
KR20210043995A (ko) 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
KR20160069329A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Lu et al. Automatic speech recognition
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN111753076A (zh) 对话方法、装置、电子设备及可读存储介质
EP3910625A2 (en) Method and apparatus for utterance time estimation
US11775769B2 (en) Sentence type recognition method and apparatus, electronic device, and storage medium
CN111144124A (zh) 机器学习模型的训练方法、意图识别方法及相关装置、设备
Ku et al. A study of the Lamarckian evolution of recurrent neural networks
CN110930996A (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
KR20180126353A (ko) 센서 변환 집중 네트워크 모델
KR20210145490A (ko) 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치
US9530103B2 (en) Combining of results from multiple decoders
CN112786028B (zh) 声学模型处理方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant