CN112002309A

CN112002309A - 模型训练方法和设备

Info

Publication number: CN112002309A
Application number: CN201911326890.4A
Authority: CN
Inventors: 罗辉栋; 姜孝馨; 金好庆; 李镐式
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-05-07
Filing date: 2019-12-20
Publication date: 2020-11-27
Also published as: EP3736745A1; US11727275B2; US11488013B2; US20230035351A1; US20200356852A1; KR20200128938A

Abstract

公开了一种模型训练方法和设备，其中，模型训练方法针对输入序列获取教师模型的识别结果和学生模型的识别结果，并且训练学生模型，使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。

Description

模型训练方法和设备

本申请要求于2019年5月7日在韩国知识产权局提交的第10-2019-0053131号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

以下描述涉及一种模型训练方法和设备。

背景技术

对组中的输入模式进行分类的研究正在被积极开展，以便有效的模式识别可在计算机上执行。这包括对人工神经网络(ANN)的研究，所述人工神经网络(ANN)通过经由作为专用计算架构的处理器实现的神经网络模型使用数学表达式对模式识别特性进行建模而获得，所述神经网络模型在大量训练后可提供在输入模式与输出模式之间的计算上直观的映射。ANN使用算法在输入模式与输出模式之间生成映射，并且生成映射的能力被表示为ANN的学习能力。ANN可采用模仿学习能力的算法。此外，ANN具有基于先前训练的结果针对尚未用于训练的输入模式生成相对正确的输出的能力。然而，由于这样的操作或应用通过专用计算架构来执行，并且以与它们在非计算机实现或非自动化的方法中执行的自动化方式不同的自动化方式来执行，所以它们也引发只是因为在其上实现它们的自动化和专用计算架构而出现的问题或缺点。

此外，研究正在被开展以在使ANN的尺寸小型化的同时使ANN的识别率最大化。

发明内容

提供本发明内容来以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在识别要求权利的主题的关键特征或必要特征，也不意在用于帮助确定要求权利的主题的范围。

在一个总体方面，提供一种训练模型的方法，所述方法包括：针对输入序列，获取教师模型的识别结果和学生模型的识别结果；并且训练学生模型，使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。

训练学生模型的步骤可包括：基于教师模型的识别结果和学生模型的识别结果彼此被区分的程度，确定对抗损失；并且训练学生模型以减小对抗损失。

确定对抗损失的步骤可包括：基于针对输入序列分别被输出作为识别结果的教师模型的输出序列和学生模型的输出序列彼此被区分的程度，确定对抗损失。

确定对抗损失的步骤可包括：通过基于包括在输出序列中的元素的概率应用Gumbel-max，确定对抗损失。

确定对抗损失的步骤可包括：通过基于输出序列的概率应用Gumbel-max，确定对抗损失。

确定对抗损失的步骤可包括：通过基于可能对应于输出序列的多个候选序列的概率进一步应用Gumbel-max，确定对抗损失。

确定对抗损失的步骤可包括：基于针对输入序列分别被输出作为识别结果的教师模型的输出序列中的元素和学生模型的输出序列中的元素彼此被区分的程度，确定对抗损失。

训练学生模型的步骤可包括：训练学生模型，使得教师模型的识别结果和学生模型的识别结果无法通过判别器模型被区分彼此；并且判别器模型可被训练为在教师模型的识别结果与学生模型的识别结果之间进行区分

训练学生模型的步骤可包括：使用教师模型的识别结果训练学生模型，使得教师模型的识别结果从学生模型输出。

输入序列可包括：包括词的句数据和包括帧的语音数据。

在另一个总体方面，提供一种用于训练模型的设备，所述设备包括：处理器，被配置为：针对输入序列，获取教师模型的识别结果和学生模型的识别结果；并且训练学生模型，使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。

处理器可被配置为：基于教师模型的识别结果和学生模型的识别结果彼此被区分的程度，确定对抗损失；并且训练学生模型以减小对抗损失。

处理器可被配置为：基于针对输入序列分别被输出作为识别结果的教师模型的输出序列和学生模型的输出序列彼此被区分的程度，确定对抗损失。

处理器可被配置为：通过基于包括在输出序列中的元素的概率应用Gumbel-max，确定对抗损失。

处理器可被配置为：通过基于输出序列的概率应用Gumbel-max，确定对抗损失。

处理器可被配置为：基于针对输入序列分别被输出作为识别结果的教师模型的输出序列中的元素和学生模型的输出序列中的元素彼此被区分的程度，确定对抗损失。

处理器可被配置为：训练学生模型，使得教师模型的识别结果和学生模型的识别结果无法通过判别器模型被区分彼此；并且判别器模型可被训练为在教师模型的识别结果与学生模型的识别结果之间进行区分。

处理器可被配置为：使用教师模型的识别结果训练学生模型，使得教师模型的识别结果可从学生模型输出。

所述设备可包括：存储器，被配置为存储学生模型的参数，并且存储指令，所述指令当被执行时，将处理器配置为获取教师模型和学生模型的识别结果，并且训练学生模型。

在另一个总体方面，提供一种用于训练模型的设备，所述设备包括：处理器，被配置为：针对输入序列，获取教师模型的识别结果和学生模型的识别结果；并且训练学生模型，以在判别器模型使教师模型的识别结果与学生模型的识别结果之间的区别最小化。

处理器可被配置为：训练判别器模型，以在教师模型的识别结果与学生模型的识别结果之间进行区分。

处理器可被配置为：训练学生模型，以通过基于包括在输出序列中的元素的概率应用Gumbel-max减小对抗损失。

处理器可被配置为：训练学生模型，以通过基于输出序列的概率应用Gumbel-max减小对抗损失。

从以下的具体实施方式、附图以及权利要求，其它特征和方面将是明显的。

附图说明

图1和图2示出教师模型和学生模型的示例。

图3示出训练学生模型的处理的示例。

图4示出以元素为单位执行训练的处理的示例。

图5示出以序列为单位执行训练的处理的示例。

图6示出模型训练方法的示例。

图7示出数据识别方法的示例。

图8示出用于基于神经网络处理数据的设备的示例。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标号将被理解为指示相同的元素、特征和结构。附图可不按比例，并且为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供以下具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，除了必须以特定次序发生的操作之外，在此描述的操作的顺序仅是示例，并且不限于在此阐述的顺序，而是可如在理解本申请的公开的之后将清楚地那样改变。此外，为了增加的清楚和简洁，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式实现，并且不应被解释为受限于在此描述的示例。相反，在此描述的示例仅被提供为示出在理解本申请的公开之后将清楚的实现在此描述的方法、设备和/或系统的许多可行方式中的一些。

虽然在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或者部分，但是这些构件、组件、区域、层或者部分不被这些术语限制。更确切地说，这些术语仅用于将一个构件、组件、区域、层或者部分与另一构件、组件、区域、层或者部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中提到的第一构件、第一组件、第一区域、第一层或者第一部分也可被称为第二构件、第二组件、第二区域、第二层或者第二部分。

贯穿说明书，当诸如层、区域或基底的元素被描述为“在另一元素上”、“连接到”或“结合到”另一元素时，它可直接“在另一元素上”、“连接到”或“结合到”所述另一元素，或者它们之间可存在一个或多个其它元素。相反，当元素被描述为“直接在另一元素上”、“直接连接到”或“直接结合到”另一元素时，它们之间可不存在其它元素。

在此使用的术语仅用于描述各种示例，而不用于限制本公开。除非上下文另外清楚地指示，否则单数形式术语意图也包括复数形式。术语“包括”、“包含”和“具有”指明存在阐述的特征、数量、操作、构件、元素和/或它们的组合，但不排除存在或添加一个或多个其它特征、数量、操作、构件、元素和/或它们的组合。

在此关于示例或实施例(例如，关于示例或实施例可包括或实现什么)的术语“可”的使用意味着：存在包括或实现这样的特征的至少一个示例或实施例，而所有示例和实施例不限于此。

图1和图2示出教师模型和学生模型的示例。

图1示出教师模型110和学生模型120。

教师模型110和学生模型120是具有不同的尺寸和相同的待识别的目标数据的神经网络。神经网络是使用通过边连接大量人工神经元的识别模型。

教师模型110是使用从待识别的目标数据提取足够多的特征以高准确度识别目标数据的模型。教师模型110在尺寸上大于学生模型120。例如，当与学生模型120相比时，教师模型110可包括更多层、更多节点或它们的组合。

学生模型120是具有比教师模型110的尺寸小的尺寸的神经网络。由于小的尺寸，学生模型120与教师模型110相比使用更少的存储器并且具有更快的识别速度。学生模型120被训练，使得：针对特定的输入数据，与教师模型110输出的数据相同的输出数据被输出。例如，输出数据可以是从对应模型输出的概率值和逻辑的值。

输入序列X被输入到教师模型110和学生模型120。输入序列X包括包含多个元素x₁,...,x_M的数据，并例如包括：包含多个词的句数据或包含多个帧的语音数据。这里，句数据也被称为包括多个词的文本数据，并且语音数据也被称为通过以一长度(例如，以帧为单位)对语音数据进行采样而获得的数据。在一个示例中，可以预先确定帧的长度。

在图1的示例中，概率分布p(Y＝y₁...y_L|X；θ_T)是从教师模型110输出的，并且概率分布q(Y＝y₁...y_L|X；θ_S)是从学生模型120输出的。这里，θ_T表示教师模型110的参数，并且θ_S表示学生模型120的参数。此外，Y是从教师模型110和学生模型120中的每一个输出的输出序列，并且包括多个元素y₁,...,y_L。

可通过使用教师模型110训练的学生模型120，以高识别率获取与教师模型110相同的输出数据。将这种训练方案称为模型压缩，并且之后将提供相关描述。

教师模型110和学生模型120可被训练为：通过经由深度学习映射输入数据和输出数据来执行期望的操作，以执行任务(诸如，例如，对象分类、对象识别、音频或语音识别以及图像识别)，其中，输入数据和输出数据之间具有非线性关系。深度学习是用于解决从大数据集给出的问题的机器学习方法。深度学习还可被解释为用于在使用所提供的训练数据训练神经网络的同时找到能量最小化的点的优化的问题解决处理。通过深度学习(例如，有监督或无监督学习)，可获得与神经网络的架构或模型对应的权重，并且可基于所获得的权重将输入数据和输出数据彼此映射。

在一个示例中，教师模型110和学生模型120可实现为具有包括输入图像、特征图以及输出的多个层的架构。在教师模型110和学生模型120中，输入图像与称为核(kernel)的滤波器之间的卷积操作被执行，并且作为卷积操作的结果，特征图被输出。这里，输出的特征图是输入特征图，并且输出的特征图与核之间的卷积操作再次被执行，并且作为结果，新的特征图被输出。基于这样重复执行的卷积操作，经由神经网络的输入图像的特性的识别结果可被输出。

在另一个示例中，教师模型110和学生模型120可包括输入源句(例如，语音输入)而不是输入图像。在这样的示例中，对输入源句与核执行卷积操作，并且作为结果，特征图被输出。输出的特征图作为输入特征图与核再次被执行卷积操作，并且新的特征图被输出。当卷积操作被这样重复执行时，关于输入源句的特征的识别结果可通过神经网络最终被输出。用于教师模型110和学生模型120的输入数据可包括图像数据、语音数据以及文本数据。然而，它们仅作为示例被提供，并且其它类型的数据将被认为也在本公开的范围内。

图2示出使用教师模型110训练学生模型120的示例。

教师模型110和学生模型120是不同尺寸的网络。用于基于神经网络识别数据的方法和设备被提出，并且用于训练神经网络的方法和设备被提出。在本说明书中，术语“识别”被使用作为包括验证和辨识的概念。验证是确定输入数据是真还是假的操作。辨识是在从多个标签中确定由输入数据指示的标签的操作。例如，神经网络是接收序列并执行操作(诸如，例如，转换、解释和语音识别)的模型。

在一个示例中，学生模型120和教师模型110可对应于循环神经网络(RNN)或卷积神经网络(CNN)。在一个示例中，CNN可以是深度神经网络(DNN)。在一个示例中，DNN可包括区域建议网络(RPN)、分类网络、强化学习网络、全连接网络(FCN)、深度卷积网络(DCN)、长短期记忆(LSTM)网络以及门控循环单元(GRU)。DNN可以包括多个层。多个层可包括输入层、至少一个隐藏层和输出层。在一个示例中，除了卷积层之外，神经网络还可包括子采样层、池化层、全连接层等。

神经网络包括多个层，每个层包括多个节点。此外，神经网络包括将包括在多个层中的多个节点连接到包括在另一层中的节点的连接权重。

例如，神经网络包括输入层、至少一个隐藏层和输出层。输入层接收用于执行训练或识别的输入，并且将输入传送到隐藏层。输出层基于从隐藏层接收的信号生成神经网络的输出。隐藏层被插入在输入层与输出层之间，并且将通过输入层传送的数据改变为易于预测的值。

包括在输入层中的输入节点和包括在隐藏层中的隐藏节点通过具有连接权重的边被连接。包括在隐藏层中的隐藏节点和包括在输出层中的输出节点通过具有连接权重的边被连接。

神经网络可包括多个隐藏层。包括多个隐藏层的神经网络被称为深度神经网络。深度神经网络的训练被称为深度学习。例如，与学生模型120相比，在尺寸上比学生模型120大的教师模型110可包括更多数量的隐藏层。

模型训练设备使用基于包括在神经网络中的节点的输出值和反向传播到神经网络的损失的梯度下降方案来确定节点的参数。例如，模型训练设备通过损失反向传播学习来更新节点之间的连接权重。损失反向传播学习是这样的方法：通过对给定训练数据执行正向计算来估计损失，沿着从输出层朝向隐藏层和输入层的反方向传播估计的损失，并更新连接权重以减小损失。沿着从输入层朝向隐藏层和输出层的方向执行神经网络的处理。在损失反向传播训练中，沿着从输出层朝向隐藏层和输入层的方向执行连接权重的更新。一个或多个处理器可使用存储用于沿着期望的方向处理神经网络的层或一系列计算数据的缓冲存储器。

在一个示例中，模型训练设备定义用于测量当前设置的连接权重接近最佳的程度的目标函数，基于目标函数的结果连续改变连接权重，并且重复地执行训练。例如，目标函数是用于计算由神经网络基于训练数据的训练输入而输出的实际输出值与要输出的期望预期值(例如，训练输出)之间的损失的损失函数。模型训练设备更新连接权重以减小损失函数的值。损失函数将详细描述如下。

基于用于两个不同神经网络之间的知识传播的知识蒸馏，从教师模型110训练学生模型120。知识蒸馏是模型压缩的一种类型。在本示例中，使用由以下的等式1表示的Kullback-Leibler散度(Kullback-Leibler divergence，KLD)损失

[等式1]

在等式1中，H(pY|X；θ_T)，q(Y|X；θ_S))表示教师模型110与学生模型120之间的交叉熵，H(p(Y|X；θ_T))表示教师模型110的熵。基于KLD的知识蒸馏是用于使用教师模型110的概率分布作为软目标来训练学生模型120的方案。

学生模型120被训练为输出教师模型110的识别结果，使得教师模型110的识别结果与学生模型120的识别结果之间的差减小。这里，例如，识别结果包括从每个模型输出的概率分布或者以概率分布中的最高概率采样的类。

图3示出训练学生模型的处理的示例。

图3示出使用判别器模型310和教师模型110训练学生模型120的示例。

判别器模型310是在教师模型110的识别结果与学生模型120的识别结果之间进行区分的神经网络，并且可包括例如卷积神经网络(CNN)、循环神经网络(RNN)以及自注意力。判别器模型310被训练为将教师模型110的识别结果区分为真并且将学生模型120的识别结果区分为假。学生模型120被训练，使得教师模型110和学生模型120的识别结果无法通过判别器模型310被区分彼此。照此，两个模型在彼此竞争的同时被训练的训练被称为对抗训练。训练中使用的对抗损失

由以下的等式2表示。

[等式2]

在等式2中，d(Y|θ_D)表示用于区分输入到判别器模型310的序列Y是在教师模型110还是在学生模型120中生成的概率分布。～p表示输入到判别器模型310的序列Y是从教师模型110输入的，～q表示输入到判别器模型310的序列Y是从学生模型120输入的，并且

表示期望。

通过训练学生模型120以减小对抗损失

并且训练判别器模型310以增加对抗损失

来执行对抗训练。通过这样，学生模型120被训练为输出在一定程度上与教师模型110相同的识别结果，使得判别器模型310不能在二者之间进行区分。

此外，基于以上描述的KLD损失

进一步训练学生模型120。根据等式3，训练学生模型120以减小KLD损失

和对抗损耗

此外，训练判别器模型310以增加对抗损失

在一个示例中，教师模型110是固定的并且不被训练。

[等式3]

判别器模型310从教师模型110和学生模型120中的每一个接收序列或包括在序列中的元素，使得训练以序列为单位或以包括在序列中的元素为单元被执行。将参考图4和图5详细描述使用判别器模型310的训练处理。

图4示出以元素为单位执行的训练的处理的示例。

参照图4，包括在从教师模型110和学生模型120输出的序列中的元素被输入到判别器模型310，使得训练以元素为单位被执行。

从教师模型110输出的序列中的第j元素和从学生模型120输出的序列中的第j元素被传送到判别器模型310。判别器模型310对模型进行区分，其中，第j元素中的每一个从所述模型被输入。在图4中，p(y₁|X，Y_：1；θ_T)表示与从教师模型110输出的序列中的第一元素对应的概率分布，q(y₁|X，Y_：1；θ_S)表示与从学生模型120输出的序列中的第一元素对应的概率分布，p(y_L|X，Y_：L；θ_T)表示与从教师模型110输出的序列中的第L元素对应的概率分布，q(y_L|X，Y_：L；θ_S)表示与从学生模型120输出的序列中的第L元素对应的概率分布。

在本示例中，对抗损失

由以下的等式4表示。

[等式4]

在等式4中，

表示从教师模型110输出的序列中的第j元素的类，并且

表示从学生模型120输出的序列中的第j元素的类。G^P(y_j)是使学生模型120能够使用对抗损失

来训练的耿贝尔最大(Gumbel-max)，其由以下的等式5表示。

[等式5]

g～-log(-log(uniform(0,1)))

在等式5中，p表示从教师模型110输出的概率分布，q表示从学生模型120输出的概率分布。随着τ收敛到0，概率分布的最大值接近1并且剩余值接近0。通过Gumbel-max，关于判别器模型310的信息被传送到学生模型120，并且用于学生模型120的训练。在等式5中，softmax表示最大柔性函数，uniform表示均匀分布。

在从教师模型110输出的元素的概率分布

和从学生模型120输出的元素的概率分布

中采样的类

和类

彼此无法被区分的情况下，对抗损失

减小。这种情况由以下的等式6表示。

[等式6]

针对等式4的对抗损失

学生模型120和判别器模型310的梯度由等式7表示，从等式7能知道训练是正常执行的。

[等式7]

图5示出以序列为单位执行的训练的处理的示例。

参照图5，从教师模型110和学生模型120输出的序列被输入到判别器模型310，使得训练以序列为单位被执行。

从教师模型110输出的序列和从学生模型120输出的序列被传送到判别器模型310。判别器模型310对模型进行区分，其中，序列中的每一个从所述模型被输入。在图5中，p(Y＝y₁...y_L|X；θ_T)表示与教师模型110输出的序列对应的概率分布，q(Y＝y₁…y_L|X；θ_S)表示与学生模型120输出的序列对应的概率分布。

在本示例中，对抗损失

由以下的等式8表示。

[等式8]

应用于等式8的Gumbel-max基于元素的概率的组合来确定，或基于序列的概率来确定。

基于元素的概率的组合的Gumbel-max如等式9所示。

[等式9]

照此，基于包括在输出序列中的元素的概率的相乘来确定Gumbel-max。

基于序列的概率的Gumbel-max如等式10所示。

[等式10]

在等式10中，Y'表示可对应于输出序列的多个候选序列，并且可以是例如候选序列之中的k-最佳(k-best)。照此，通过限制候选序列的数量，基于输出序列的概率来确定Gumbel-max。

应用于对抗损失

的Z^{p,q}表示基于从教师模型110或学生模型120输出的概率分布采样的序列的类。例如，Z^{p,q}表示使用各种方案(诸如，例如，束搜索和梯度搜索)被选择为最佳(one-best)的序列的类。用于确定Z^{p,q}的方案之一由以下的等式11表示。

[等式11]

在等式11中，

表示地面真实序列中的第j个元素，U(0,1)表示均匀分布，并且ω表示阈值。onehot表示具有被设置为向量的尺寸的元素的大小的元素的向量表示，将值1赋予你想要表示的元素的索引并将0赋予其他索引。

针对等式8的对抗损失

学生模型120和判别器模型310的梯度由等式12表示，从等式12能知道训练是正常执行的。

[等式12]

图6示出模型训练方法的示例。虽然可以以所示的顺序和方式执行图6中的操作，但是在不脱离所描述的说明性示例的精神和范围下，可改变一些操作的顺序或省略操作中的一些。图6所示的操作中的许多操作可并行地或同时地执行。图6的一个或多个块和块的组合可通过执行特定功能的基于专用硬件的计算机(诸如，处理器)或者专用硬件和计算机指令的组合来实现。除了以下对图5的描述之外，图1至图5的描述也适用于图6，并且通过引用包含于此。因此，以上描述可在此不被重复。

模型训练方法由模型训练设备的处理器执行。

在操作610中，模型训练设备针对输入序列获取教师模型的识别结果和学生模型的识别结果。

在操作620中，模型训练设备训练学生模型，使得教师模型的识别结果和学生模型的识别结果彼此无法被区分，换言之，教师模型的识别结果和学生模型的识别结果作为训练的结果而收敛。模型训练设备基于教师模型的识别结果和学生模型的识别结果彼此被区分的程度确定对抗损失，并且训练学生模型，使得对抗损失被减小。

在一个示例中，模型训练设备基于分别作为输入序列的识别结果被输出的教师模型的输出序列和学生模型的输出序列彼此被区分的程度来确定对抗损失。例如，模型训练设备通过基于包括在输出序列中的元素的概率应用Gumbel-max来确定对抗损失。此外，模型训练设备通过基于输出序列的概率应用Gumbel-max来确定对抗损失。

在另一个示例中，模型训练设备基于分别作为输入序列的识别结果被输出的教师模型的输出序列中包括的元素和学生模型的输出序列中包括的元素彼此被区分的程度来确定对抗损失。例如，模型训练设备通过基于包括在输出序列中的元素的概率应用Gumbel-max来确定对抗损失。

模型训练设备训练学生模型，使得教师模型的识别结果和学生模型的识别结果无法通过判别器模型被区分彼此。在本示例中，判别器模型被训练为在教师模型的识别结果与学生模型的识别结果之间进行区分。

模型训练设备使用教师模型的识别结果训练学生模型，使得教师模型的识别结果从学生模型被输出。

图7示出数据识别方法的示例。

数据识别方法由数据识别设备的处理器执行。

在操作710中，数据识别设备接收待识别的数据。在操作720中，数据识别设备使用预训练模型识别目标数据。在一个示例中，预训练模型是以上描述的学生模型。由于学生模型的训练方法与以上描述相同，所以图1至图6的描述也适用于图7，并且通过引用包含于此。因此，以上描述可在此不被重复并且为了简洁而省略。

图8示出用于基于神经网络处理数据的设备的示例。

参照图8，数据处理设备800包括存储器810、处理器820以及输入/输出接口830。存储器810和处理器820经由总线840彼此通信。

数据处理设备800是用于处理输入数据和输出处理后的数据的设备，并且可以是这里描述的模型训练设备和数据识别设备中的一个。

存储器810包括由计算机读取的指令。处理器820响应于存储在存储器810中的指令在处理器820中被执行而执行前述操作。处理器820可以是被配置为具有实现期望的操作的物理结构的电路的硬件的数据处理装置。例如，期望的操作可包括包含在程序中的代码或指令。例如，被配置为硬件的数据处理装置可包括微处理器、中央处理单元(CPU)、处理器核、多核处理器、可重构处理器、多处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理器单元(GPU)或任何其它类型的多处理器或单处理器配置。以下提供关于处理器820的进一步细节。

存储器810是易失性存储器或非易失性存储器。此外，数据处理设备800处理这里描述的操作。以下提供关于输入/输出接口830的进一步细节。

在一个示例中，输入/输出接口830可以是从用户接收输入或提供输出的显示器。在一个示例中，输入/输出接口830可充当输入装置，并且通过传统的输入方法(例如，键盘和鼠标)和新的输入方法(例如，触摸输入、语音输入和图像输入)从用户接收输入。因此，输入/输出接口830可包括例如键盘、鼠标、触摸屏、麦克风以及可检测来自用户的输入并将检测到的输入发送到数据处理设备800的其它装置。

在一个示例中，输入/输出接口830可充当输出装置，并且通过视觉、听觉或触觉通道向用户提供数据处理设备800的输出。输入/输出接口830可包括例如显示器、触摸屏、扬声器、振动发生器以及可向用户提供输出的其它装置。

然而，输入/输出接口830不限于以上描述的示例，并且在不脱离所描述的说明性示例的精神和范围下，任何其它显示器(例如，可操作地连接到数据处理设备800的计算机监视器和眼镜显示器(EGD))可被使用。在一个示例中，输入/输出接口830是物理结构，所述物理结构包括提供用于渲染用户界面、渲染显示器和/或接收用户输入的能力的一个或多个硬件组件。

数据处理设备800可在诸如例如以下装置的各种电子装置中实现：移动电话，智能电话，可穿戴智能装置(诸如，戒指、手表、一副眼镜、眼镜式装置、手镯、脚镯、腰带、项链、耳环、发带、头盔、嵌入衣服中的装置或眼镜显示器(EGD))，计算装置(例如，服务器、膝上型计算机、笔记本计算机、小型笔记本计算机、上网本、超级移动PC(UMPC)、平板个人计算机(tablet)、平板手机、移动互联网设备(MID)、个人数字助理(PAD)、企业数字助理(EDA)、超级移动个人计算机(UMPC)、便携式膝上型PC)，电子产品(例如，机器人、数码相机、数字摄像机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持式电子书、全球定位系统(GPS)导航仪、个人导航装置、便携式导航装置(PND)、平视显示器(HUD)、手持游戏机、电子书、电视(TV)、高清电视(HDTV)、智能电视、智能家用电器、智能家居装置或用于门控的安全装置、各种物联网(IoT)装置、自主车辆、自动或自主驾驶系统、智能车辆、高级驾驶员辅助系统(ADAS))，或与在此所公开的装置一致的能够进行无线通信或网络通信的任何其它装置。在一个示例中，数据处理设备800使用预训练的模型来识别目标数据。在一个示例中，预训练的模型是以上描述的学生模型。

在一个示例中，数据处理设备800可经由外部装置(例如，个人计算机(PC)或网络)的输入/输出装置连接到外部装置，以与外部装置交换数据。

这里描述的设备、单元、模块、装置和其它组件由硬件组件实现。可用于执行本申请中描述的操作的硬件组件的示例在适当的情况下包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任何其它电子组件。在其它示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的硬件组件中的一个或多个。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现处理器或计算机。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行用于执行本申请中描述的操作的指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述中，但是在其它示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器或者处理器和控制器来实现，并且一个或多个其它硬件组件可通过一个或多个其它处理器或者其它处理器和其它控制器来实现。一个或多个处理器或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个，其中，处理配置的示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

执行本申请中描述的操作的方法通过计算硬件(例如，通过一个或多个处理器或计算机)执行，计算硬件如上所述地被实现为执行指令或软件，以执行在本申请中描述的通过该方法执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器或者处理器和控制器来执行，并且一个或多个其它操作可通过一个或多个其它处理器或者其它处理器和其它控制器来执行。一个或多个处理器或者处理器和控制器可执行单个操作或者两个或更多个操作。

用于控制处理器或计算机实现硬件组件和执行如上所述的方法的指令或软件被写为计算机程序、代码段、指令或其任意组合，以单独地或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作，以执行由如上所述的硬件组件和方法执行的操作。在一个示例中，指令或软件包括存储基于神经网络训练模型的方法或训练模型的方法的小程序、动态链接库(DLL)、中间件、固件、装置驱动程序、应用程序中的至少一个。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通技术的程序员可容易地可基于附图中示出的框图和流程图以及说明书中的对应描述编写指令或软件，附图中示出的框图和流程图以及说明书中的对应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器，硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡型存储器(诸如，多媒体卡、安全数字(SD)卡或极速(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置，该任何其它装置被配置为：以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并且为处理器或者计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构，使得处理器或者计算机能够执行指令。在一个示例中，指令或软件和任何相关联的数据、数据文件以及数据结构分布在网络连接的计算机系统上，使得指令和软件以及任何相关联的数据、数据文件和数据结构由一个或多个处理器或计算机以分布式方式存储、访问和执行。

虽然本公开包括特定的示例，但是在理解本申请的公开之后将清楚，在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。在此描述的示例仅被认为是描述性的，而不是为了限制的目的。每个示例中的特征或方面的描述将被认为可应用到其它示例中的相似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合和/或被其它组件或它们的等同物替换或补充，则可实现适当的结果。因此，本公开的范围不是由具体实施方式限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开内。

Claims

1.一种训练模型的方法，所述方法包括：

针对输入序列，获取教师模型的识别结果和学生模型的识别结果；并且

训练学生模型，使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。

2.根据权利要求1所述的方法，其中，训练学生模型的步骤包括：

基于教师模型的识别结果和学生模型的识别结果彼此被区分的程度，确定对抗损失；并且

训练学生模型以减小对抗损失。

3.根据权利要求2所述的方法，其中，确定对抗损失的步骤包括：

基于针对输入序列分别被输出作为识别结果的教师模型的输出序列和学生模型的输出序列彼此被区分的程度，确定对抗损失。

4.根据权利要求3所述的方法，其中，确定对抗损失的步骤包括：

通过基于包括在输出序列中的元素的概率应用Gumbel-max，确定对抗损失。

5.根据权利要求3所述的方法，其中，确定对抗损失的步骤包括：

通过基于输出序列的概率应用Gumbel-max，确定对抗损失。

6.根据权利要求5所述的方法，其中，确定对抗损失的步骤包括：

通过基于可能对应于输出序列的多个候选序列的概率进一步应用Gumbel-max，确定对抗损失。

7.根据权利要求2所述的方法，其中，确定对抗损失的步骤包括：

基于针对输入序列分别被输出作为识别结果的教师模型的输出序列中的元素和学生模型的输出序列中的元素彼此被区分的程度，确定对抗损失。

8.根据权利要求7所述的方法，其中，确定对抗损失的步骤包括：

9.根据权利要求1所述的方法，其中，训练学生模型的步骤包括：

训练学生模型，使得教师模型的识别结果和学生模型的识别结果无法通过判别器模型被区分彼此，并且

判别器模型被训练为在教师模型的识别结果与学生模型的识别结果之间进行区分。

10.根据权利要求1所述的方法，其中，训练学生模型的步骤包括：

使用教师模型的识别结果训练学生模型，使得教师模型的识别结果从学生模型输出。

11.根据权利要求1所述的方法，其中，输入序列包括：

包括词的句数据和包括帧的语音数据。

12.一种存储指令的非暂时性计算机可读存储介质，所述指令当由处理器执行时，使得处理器执行权利要求1所述的方法。

13.一种用于训练模型的设备，所述设备包括：

处理器，被配置为：针对输入序列，获取教师模型的识别结果和学生模型的识别结果；并且训练学生模型，使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。

14.根据权利要求13所述的设备，其中，处理器还被配置为：基于教师模型的识别结果和学生模型的识别结果彼此被区分的程度，确定对抗损失；并且训练学生模型以减小对抗损失。

15.根据权利要求14所述的设备，其中，处理器还被配置为：基于针对输入序列分别被输出作为识别结果的教师模型的输出序列和学生模型的输出序列彼此被区分的程度，确定对抗损失。

16.根据权利要求15所述的设备，其中，处理器还被配置为：通过基于包括在输出序列中的元素的概率应用Gumbel-max，确定对抗损失。

17.根据权利要求15所述的设备，其中，处理器还被配置为；通过基于输出序列的概率应用Gumbel-max，确定对抗损失。

18.根据权利要求14所述的设备，其中，处理器还被配置为：基于针对输入序列分别被输出作为识别结果的教师模型的输出序列中的元素和学生模型的输出序列中的元素彼此被区分的程度，确定对抗损失。

19.根据权利要求13所述的设备，其中，处理器还被配置为：训练学生模型，使得教师模型的识别结果和学生模型的识别结果无法通过判别器模型被区分彼此，并且

20.根据权利要求13所述的设备，其中，处理器还被配置为：使用教师模型的识别结果训练学生模型，使得教师模型的识别结果从学生模型输出。

21.根据权利要求13所述的设备，还包括：存储器，被配置为存储学生模型的参数，并且存储指令，所述指令当被执行时，将处理器配置为获取教师模型的识别结果和学生模型的识别结果，并且训练学生模型。

22.一种用于训练模型的设备，所述设备包括：

处理器，被配置为：

训练学生模型，以在判别器模型使教师模型的识别结果与学生模型的识别结果之间的区别最小化。