CN110598840A

CN110598840A - 知识迁移方法、信息处理设备以及存储介质

Info

Publication number: CN110598840A
Application number: CN201810607041.5A
Authority: CN
Inventors: 王梦蛟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2019-12-20
Anticipated expiration: 2038-06-13
Also published as: US11586988B2; EP3582150A1; CN110598840B; US20190385086A1; JP2019215861A; JP7306062B2

Abstract

提供了知识迁移方法、信息处理设备以及存储介质。知识迁移方法包括：获得针对预定任务而预先训练的第一模型；通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识，其中，该综合损失函数基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

Description

知识迁移方法、信息处理设备以及存储介质

技术领域

本公开总体上涉及机器学习领域，具体而言，涉及一种知识迁移方法、存储有使得机器执行该知识迁移方法的指令代码的存储介质、以及能够利用通过该知识迁移方法获得的模型的信息处理设备。

背景技术

知识迁移是利用一个网络模型的监督信号来训练另一个网络模型的有效方法。这里，我们可以称第一个网络模型为“教师”模型，称第二个网络模型为“学生”模型。一般而言，知识迁移通过使“学生”网络模型输出与“教师”网络模型一致的结果，将“教师”网络模型中的知识迁移到“学生”网络模型中，使“学生”网络模型学到“教师”网络模型的表达能力。

作为示例，“教师”模型可以为大型神经网络模型，经由知识迁移得到的“学生”模型可以为小型神经网络模型。另外，例如，“教师”模型和“学生”模型可以是用于处理不同数据的模型，例如“教师”模型处理面部图像数据，而经由知识迁移得到的“学生”模型可以处理指纹图像数据。针对不同的情况，通过知识迁移可以实现网络模型加速、将已有模型转用为实现不同任务等不同目的。

随着机器学习领域的发展，需要实现更有效的知识迁移方法。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于对现有的知识迁移方法进行改进的需求，本发明的目的之一是提供一种知识迁移方法、存储有使得机器执行该知识迁移方法的指令代码的存储介质、以及能够利用通过该知识迁移方法获得的模型的信息处理设备，其能够实现更有效的知识迁移。

根据本公开的第一方面，提供了一种知识迁移方法，其包括：获得针对预定任务而预先训练的第一模型；通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识，其中，该综合损失函数基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

根据本公开的第二方面，提供了一种知识迁移设备，其包括：第一单元，用于获得针对预定任务而预先训练的第一模型；第二单元，用于通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识，其中，该综合损失函数基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

依据本公开的再一方面，还提供了一种信息处理设备，其包括处理器，所述处理器被配置为：将待处理数据输入到通过根据本公开的第一方面的知识迁移方法而得到的第二模型；以及获得第二模型对待处理数据的处理结果。

依据本公开的其它方面，还提供了一种使得计算机实现如上所述的语音认证方法的程序。

依据本公开的又一方面，还提供了相应的存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种知识迁移方法。所述指令代码包括：指令代码部分，用于进行下述操作：获得针对预定任务而预先训练的第一模型；通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识，其中，该综合损失函数基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

上述根据本公开实施例的各个方面，至少能够获得以下益处：利用本公开所提供的知识迁移方法、知识迁移设备、信息处理设备以及存储介质，有利于避免将“教师”模型中的错误知识迁移到“学生”模型中，从而实现了更有效、更准确的知识迁移。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的知识迁移方法的一个示例流程的流程图。

图2A、图2B是用于说明基于欧氏距离的损失函数和基于余弦距离的损失函数之间的差异的示意图。

图3是示意性地示出根据本公开实施例的语音认证设备的一个示例结构的示意性框图。

图4是示出了可用来实现根据本公开实施例的信息处理方法和设备的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

根据本公开的一个方面，提供了一种知识迁移方法。图1是示意性地示出根据本公开实施例的知识迁移方法100的示例流程的流程图。

如图1所示，知识迁移方法100可以包括：第一模型获取步骤S101，获得针对预定任务而预先训练的第一模型；第二模型训练步骤S103，通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识。第二模型训练步骤S103中所使用的综合损失函数可以基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性，例如可以表示第二模型对训练样本的关于预定任务的输出结果与正确结果之间的差异。

在本实施例的知识迁移方法中，与知识迁移相关的、表示两个模型之间差异的第一损失函数是利用了第一模型对训练样本的关于预定任务的输出结果的准确性(该准确性在本文中也可称为第一模型对训练样本的置信度)进行加权的，即，第一损失函数依据作为“教师”模型的第一模型对训练样本的置信度而进行了加权。因此，相较于无论“教师”模型对训练样本的置信度如何都将知识迁移到“学生”模型中的现有技术，本发明有利于避免将“教师”模型中的错误知识迁移到“学生”模型中，从而实现了更有效、更准确的知识迁移。

在一个优选实施例中，当第一模型对训练样本的关于预定任务的输出结果的准确性越高时，与第一损失函数有关的权重越大。此时，与知识迁移有关的第一损失函数将会在综合损失函数中发挥更大的作用，这意味着作为“教师”模型的第一模型将会主导整个训练过程，并且有利于将第一模型的“准确”知识迁移到第二模型。相反，当第一模型对训练样本的上述准确性越低时，第一损失函数的权重越小。此时，与第二模型本身的准确性有关的第二损失函数会在综合损失函数中发挥更大的作用，这也就意味着作为“学生”模型的第二模型本身会主导训练过程，使得第二模型可以提升其自身的处理能力。通过上述加权的方式，当“教师”模型对某个训练样本的准确性很低时，与知识迁移有关的第一损失函数在综合损失函数中可以几乎不发挥作用，从而避免了将“教师”模型中的错误知识迁移到“学生”模型中。

在第二模型训练步骤S103的训练过程中，可以例如以上述综合损失函数达到期望(例如取得最小值)为目标针对第二模型进行迭代训练，并在该综合损失函数取得最小值、综合损失函数的值不再变化、达到预定迭代次数、或满足其他迭代结束条件时结束训练，从而获得实现了有效知识迁移的第二模型。本领域技术人员可以理解，基于所构建的综合损失函数，可以采用诸如梯度下降法等任意现有方式进行第二模型的训练以获得该模型的最优参数，在此不再展开说明。

作为示例，第一模型和第二模型可以是神经网络模型，例如卷积神经网络模型(CNN)。例如，第一模型可以是结构更复杂、参数规模更大的神经网络，第二模型可以是更小型的神经网络，例如包括更少的层和更少的参数。在这种情况下，经由进行知识迁移而获得的第二模型可以加速处理速度，并且比第一模型更适于应用到处理资源有限的移动设备或嵌入式设备中。

作为示例，训练样本可以包括图像样本、语音样本、或文档样本之一。例如，训练样本可以包括面部图像样本，诸如包括不同人的人脸的正面、侧面、或不同姿势的面部图像等。此外，训练样本还可以包括指纹图像样本等。

作为示例，预定任务可以包括分类任务。例如，预定任务可以是将面部图像分类为不同的姿势、或分类为属于不同人的任务，诸如面部识别任务等。

如上所述，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异。此处所使用的表述“处理结果”例如可以包括第一模型或第二模型对训练样本关于预定任务的最终输出结果，诸如分类任务的分类结果(例如，以训练样本属于每个类的概率的形式来表示该分类结果)。此外，“处理结果”还可以包括利用第一模型或第二模型从训练样本中提取的特征。例如，在第一模型、第二模型为神经网络模型的情况下，处理结果可以包括将训练样本输入到神经网络模型后，神经网络模型中的某一层的输出数据。

注意，以下将主要以针对图像数据执行分类任务的神经网络模型作为第一模型和第二模型的示例来进行描述，但本领域技术人员可以理解，本公开内容不限于此，而是可以适当地应用于用于任何任务、具有任何结构的第一模型和第二模型，只要其能够适用于如图1所示的流程即可。

在一个实施例中，与知识迁移有关的第一损失函数可以包括表示利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的差异的第一子损失函数。

上述表示特征差异的第一子损失函数在期望利用得到的第二模型作为特征提取器时格外有益。当基于这样的子损失函数来构建第一损失函数以用于综合损失函数时，实现知识迁移之后得到的第二模型获取了第一模型对数据的表征能力，因此可以与第一模型类似地应用于特征提取。

发明人发现，可以根据后续应用的需求来合理地设置在知识迁移过程构建的上述第一子损失函数。因此，在一个优选实施例中，第一子损失函数可以基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离。余弦距离是基于余弦相似度而定义的、用于衡量向量之间的差异的一种度量，其中，余弦相似度被定义为两个向量内积空间的夹角的余弦值，而余弦距离与余弦相似度的和为1，即，余弦距离＝1-余弦相似度。

在本优选实施例中，考虑后续期望将实现知识迁移之后得到的第二模型用于识别处理或计算相似度的任务(例如，比较待识别/待处理样本与注册/目标样本之间是否匹配的任务)，诸如人脸识别、说话人识别、指纹识别等的情况。在这些任务中，一般使用特征之间的余弦相似度来衡量待处理数据(待识别样本)与目标数据(注册样本)之间的相似性。因此，与一般采用基于欧氏距离的损失函数进行知识迁移的现有技术相比，如上述那样构建基于第一模型和第二模型的特征之间的余弦距离的第一子损失函数，使得第二模型可以获取在计算余弦相似度方面与第一模型类似的特征提取能力，从而有利于识别处理的准确度。

以下参照图2A、图2B来对比基于欧氏距离的损失函数和基于余弦距离的损失函数的表现。图2A、图2B是用于说明基于欧氏距离的损失函数和基于余弦距离的损失函数之间的差异的示意图。在图2A和图2B中，F_T表示利用第一模型从给定训练样本中提取的特征(即，该特征在特征空间中的位置)，并且F_S表示利用优化前的第二模型从给定训练样本中提取的特征。图2A中的F'_S表示利用基于欧氏距离的损失函数优化后的第二模型从给定训练样本中提取的特征，而图2B中的F'_S表示利用基于余弦距离的损失函数(诸如包括如上述那样构建的基于余弦距离的第一子损失函数的损失函数)优化后的第二模型从给定训练样本中提取的特征。此处，例如通过使基于欧氏距离或基于余弦距离的相应损失函数取得最小值实现第二模型的优化。

由图2A可以看出，当使用基于欧氏距离的损失函数优化后，利用第二模型从给定训练样本中提取的特征F'_S与利用第一模型提取的特征F_T之间的欧氏距离从L减小到L'时，这两个特征之间的夹角却从θ增大到了θ'，这也就意味着二者之间的余弦相似度cosθ反而减小了。

相较之下，如图2B所示，在使用基于余弦距离的损失函数优化后，尽管利用第二模型从给定训练样本中提取的特征F'_S与利用第一模型提取的特征F_T之间的欧氏距离从L增大到L'，但这两个特征之间的夹角从θ减小到了θ'，即，这两个特征之间的余弦相似度cosθ增加了。换言之，基于余弦距离的损失函数使得利用优化后的第二模型得到的特征F'_S与利用第一模型得到的特征F_T之间的余弦相似度尽可能大。因此，本优选实施例中，基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离的第一子损失函数尤其有益于使用余弦相似度作为相似度的识别类任务。

另外，尽管在图2B的示例中示出了利用优化后的第二模型得到的特征F'_S与利用第一模型得到的特征F_T之间的余弦相似度增加的同时欧氏距离增大的情况，但这仅作为示例。实际应用中也可能存在这两个特征之间余弦相似度增加的同时欧氏距离基本不变或减小的情况。由于对本优选实施例所关注的方面而言，只要确保余弦相似度增加即可而并不关注欧氏距离的变化，因此在此不再展开描述。

在一个优选实施例中，除了诸如上述的基于余弦距离的第一子损失函数以外，第一损失函数可以进一步包括(可选的)表示第二模型与第一模型对训练样本的关于预定任务的输出结果之间的差异的第二子损失函数。

例如，考虑下述示例：假设第一模型和第二模型为实现分类任务的神经网络模型，类别标签为c＝1,2,...,C，其中C为自然数并且表示分类任务中的总的类别数，输入的训练样本为{x_i,i＝1,2,...,m}，其中m为自然数并且表示训练样本的总个数。此时，第一损失函数L₁可以表示如下：

其中，A_i为第一模型对训练样本x_i的分类结果的准确性(或第一模型对训练样本x_i的置信度)；L_sub1i为第一子损失函数，表示利用第二模型从训练样本x_i中提取的预定特征与利用第一模型从训练样本x_i中提取的预定特征之间的差异；L_sub2i为第二子损失函数，表示第二模型与第一模型对训练样本x_i的分类结果之间的差异。

作为示例，第一模型对训练样本x_i的置信度A_i可以计算如下：

A_i＝(1-w_i) …公式(2)

其中，表示样本x_i实际为类别c的概率，表示样本x_i被第一模型分类为类别c的概率，1/2是用于将w_i的取值归一化为0～1之间的系数。当w_i为0时，表示第一模型对样本x_i正确分类，此时准确度A_i取得最大值。

如以上讨论的，第一子损失函数可以基于预定特征之间的余弦距离。例如，第一子损失函数L_sub1i可以如下述公式(4)所示基于余弦距离L_Fi：

L_sub1i＝λ_FL_Fi…公式(4)

其中，是利用第一模型从训练样本x_i中提取的预定特征；是利用第二模型从训练样本x_i中提取的预定特征。此外，λ_F表示为了平衡不同(子)损失函数的影响而针对余弦距离L_Fi设置的系数，其可以根据实验或应用要求合理地设置。

作为示例，可以在训练样本x_i输入到作为神经网络模型的第一模型之后，提取该模型的一个层的输出数据作为预定特征(特征矢量)并且可以以类似方式利用第二模型获得预定特征(特征矢量)上述一个层可以是神经网络模型的输入层和输出层以外的层，例如多个隐藏层中的一个层。

替选地，在另一个示例中，第一子损失函数可以基于利用第二模型从训练样本x_i中提取的预定特征与利用第一模型从训练样本x_i中提取的预定特征之间的欧氏距离。例如，第一子损失函数L_sub1i可以如下述公式(5)所示基于欧氏距离L_Ei：

L_sub1i＝λ_EL_Ei…公式(5)

与公式(4)中的λ_F类似地，公式(5)中的λ_E表示为了平衡不同(子)损失函数的影响而针对欧氏距离设置的系数，其可以根据实验或应用要求合理地设置。

此外，第二子损失函数L_sub2i可以表示第二模型与第一模型之间对于样本x_i的分类结果的差异，例如可以采用交叉熵的形式，诸如下述的KL散度L_Li：

其中，是第一模型将样本x_i分类为第c类的概率,为第二模型将样本x_i分类为第c类的概率。

综上，当第一子损失函数L_sub1i基于公式(4)中的余弦距离L_Fi时，第一损失函数可以采取下述公式(7)的形式：

替选地，当第一子损失函数L_sub1i基于公式(5)中的欧氏距离L_Ei时，第一损失函数可以采取下述公式(8)的形式：

注意，尽管这里讨论了包括第一子损失函数和第二子损失函数两者的第一损失函数，但本领域技术人员可以理解，本实施例中的第一损失函数也可以仅包括第一子损失函数，例如可以采取在公式(7)、公式(8)中省去与λ_LL_Li有关的项的形式。

此外，作为示例，在本优选实施例中，第二损失函数L₂例如可以基于表示第二模型对样本x_i分类结果与正确结果之间的差异的交叉熵的形式，诸如下述Softmax损失函数L_si：

其中，S_ic是例如连接在作为第二模型的神经网络模型的全连接层之后的Softmax层中的输出向量S_i的第c个值，其表示训练样本x_i属于第c类的概率，y_ic为样本标签，并且仅当类别c与样本x_i的真实类别值一致时，y_ic取值为1，否则取值为0。

基于上述Softmax损失函数L_si，可以构建如下第二损失函数L₂：

与公式(4)、(5)中的λ_F、λ_E类似地，公式(10)中的λ_S表示为了平衡不同损失函数的影响而针对Softmax损失函数设置的系数，其可以根据实验或应用要求合理地设置。

可替选地，可以采用与第一损失函数类似但“互补”的方式，构建借由第一模型对训练样本x_i的分类结果的准确性A_i加权的第二损失函数L’₂：

考虑综合上述公式(7)(第一损失函数中应用了基于余弦距离的第一子损失函数)以及公式(10)(第二损失函数未经加权)，可以得到本优选实施例中采用的下述综合损失函数：

替选地，综合上述公式(7)(第一损失函数中应用了基于余弦距离的第一子损失函数)以及公式(11)(第二损失函数经加权)，可以得到本优选实施例中采用的另一形式的综合损失函数：

在训练过程中，可以以上述综合损失函数L_overall或L’_overall取得最小值为目标针对第二模型进行迭代训练，并在该综合损失函数取得最小值或综合损失函数的值不再变化时结束训练，从而获得实现了有效知识迁移的第二模型。本领域技术人员可以理解，基于所构建的综合损失函数，可以采用诸如梯度下降法等任意现有方式进行第二模型的训练以获得该模型的最优参数，在此不再展开说明。

注意，尽管以上以余弦距离损失函数、欧氏距离损失函数、Softmax损失函数等具体形式为例描述了构建综合损失函数的示例方式，但在本公开内容的基础上，本领域技术人员可以采用任何适当的方式构建相关的第一、第二损失函数或第一、第二子损失函数以得到综合损失函数，只要其分别符合本公开对其各自的定义即可。

以上参照图1描述了根据本公开实施例的知识迁移方法。利用该知识迁移方法，有利于避免将“教师”模型中的错误知识迁移到“学生”模型中，从而可以实现更高效、更准确的知识迁移。

根据根本公开的第二方面，提供了一种知识迁移设备。图3是示意性地示出根据本公开实施例的知识迁移的示例结构的示意性框图。

如图3所示，知识迁移设备300可以包括：第一单元301，用于获得针对预定任务而预先训练的第一模型；以及第二单元302，用于通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识。第二单元202中所使用的综合损失函数可以基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

上述知识迁移设备及其各个单元例如可以进行以上参照图1描述的本公开的第一方面的知识迁移方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

通过上述第一方面或第二方面的知识迁移方法或知识迁移设备得到的第二模型经由知识迁移而获得了第一模型的处理能力，从而可以利用该第二模型对数据进行处理。

因此，根据本公开的第三方面，提供了一种信息处理设备，其包括处理器，该处理器被配置为：将待处理数据输入到通过根据本公开第一方面的知识迁移方法而得到的第二模型；以及获得第二模型对待处理数据的处理结果。

作为示例，信息处理设备所利用的第二模型(以及该模型所基于的第一模型)可以是神经网络模型，例如卷积神经网络模型(CNN)。作为示例，待处理数据可以包括图像数据、语音数据、或文档数据之一。例如，待处理数据可以人脸的面部数据。

作为示例，第一模型可以是结构更复杂、参数规模更大的神经网络，第二模型可以是更小型的神经网络，例如包括更少的层和更少的参数。在这种情况下，经由进行知识迁移而获得的第二模型可以加速处理速度，因此，采用第二模型进行处理的信息处理设备可以提高处理效率。

与对根据本公开第一方面的知识迁移方法的描述的相类似的，第二模型对待处理数据的“处理结果”例如可以包括第二模型对待处理数据关于预定任务的最终输出结果，例如分类任务的分类结果。即，信息处理设备可以直接将第二模型用于分类任务，并以第二模型的输出结果作为分类结果。

在一个优选实施例中，对于用于获得第二模型的知识迁移方法中所构建的综合损失函数，当第一模型对训练样本的关于预定任务的输出结果的准确性越高时，该综合损失函数中所包括的、基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数的权重越大。因此，以这样的知识迁移方法获得的第二模型可以避免将第一模型中的错误知识迁移到第二模型中，从而可以有益于改进信息处理设备的处理准确性。

此外，与对根据本公开第一方面的知识迁移方法的描述的相类似的，“处理结果”还可以包括利用第二模型从待处理数据中提取的特征。例如，在第二模型为神经网络模型的情况下，处理结果可以包括将待处理数据输入到神经网络模型后，神经网络模型中的某一层的输出数据。

由于通过根据本公开第一方面的知识迁移得到的第二模型可以获得了第一模型的处理能力，诸如获得了第一模型对样本的特征的表征能力，从而可以利用该第二模型作为能够提取样本的预定特征的特征提取器。

在一个优选实施例中，对于用于获得第二模型的知识迁移方法中所构建的综合损失函数，其所包括的与知识迁移有关的第一损失函数可以包括表示利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的差异的第一子损失函数。此外，该第一损失函数还可以可选地包括基于第二模型与第一模型对训练样本的关于预定任务的输出结果之间的差异的第二子损失函数。

上述表示特征差异的第一子损失函数在期望利用得到的第二模型作为特征提取器时格外有益。当基于这样的子损失函数来构建第一损失函数以用于综合损失函数时，实现知识迁移之后得到的第二模型获取了第一模型对数据的特征表征能力，因此信息处理设备可以有利地将其应用于特征提取。

因此，在一个优选实施例中，第二模型的预定任务可以包括分类任务，并且在知识迁移方法构建的综合损失函数中的第一损失函数可以基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离。

例如，第一损失函数可以包括上述公式(4)中描述的基于余弦距离的第一子损失函数以及可选的第二子损失函数，并且可以采用上述公式(7)的形式。替选地，本优选实施例中的第一损失函数也可以仅包括第一子损失函数而不包括第二子损失函数，例如可以采取在公式(8)中省去项λ_LL_Li的形式。

在本优选实施例中，处理器可以被配置为利用第二模型从待处理数据中提取预定特征作为对待处理数据的处理结果，并且进一步被配置为计算从待处理数据中提取的预定特征与利用第二模型从目标数据中提取的预定特征之间的余弦相似度，以基于该余弦相似度确定待处理数据与目标数据的相似性，例如确定二者是否匹配。例如，可选地，处理器可以进一步被配置为例如基于所计算的余弦相似度是否大于预先确定的阈值相似度而判断待处理数据是否为目标数据，从而完成识别处理。

优选地，在计算相似度时利用第二模型从待处理数据和目标数据中提取的预定特征与在知识迁移方法中构建综合损失函数的第一损失函数时利用第二模型从训练样本中提取的预定特征是对应的。例如，上述特征均提取自作为神经网络模型的第二模型的同一层。

如此前参照图2所讨论的，基于余弦距离的损失函数进行知识迁移而获得的第二模型尤其适于需要比较相似度的任务，例如说人脸识别、说话人识别、指纹识别等任务。在一个对照组实验中，发明人对公开数据集labelled faces in wild(LFW)中的人脸图像进行识别，即，计算利用不同模型从LFW中的待处理人脸图像提取的特征与从目标人脸图像提取的特征之间的余弦相似度，以判断二者是否匹配。实验中，在利用预先获得的第一模型进行特征提取时，所得到的识别精度为97.73±0.62％，在利用使用包括基于欧氏距离的第一子损失函数的第一损失函数训练的第二模型进行特征提取时，所得到的识别精度为96.90％±0.97％。而当如本优选实施例中那样，使用包括基于余弦距离的第一子损失函数的第一损失函数训练的第二模型进行特征提取时，所得到的精度为97.85±0.60％。该结果证明了本优选实施例中所使用的基于特征间的余弦距离的损失函数对于识别任务的有效性。

以上描述了根据本公开的实施例的信息处理设备所实现的操作。利用该信息处理设备，可以采用具有第一模型的“正确”知识、然而处理速度很可能更快的第二模型来对数据进行处理。此外，在一个优选实施例中，可以利用具有适于识别处理的特征提取能力的第二模型作为特征提取器来进行识别处理。

图4是示出了可用来实现根据本公开实施例的信息处理设备和语音认证方法的一种可能的硬件配置400的结构简图。

在图4中，中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中，还根据需要存储当CPU 401执行各种处理等等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下述部件也连接到输入/输出接口405：输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡例如LAN卡、调制解调器等)。通信部分409经由网络例如因特网执行通信处理。根据需要，驱动器410也可连接到输入/输出接口405。可拆卸介质411例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上，使得从中读出的计算机程序可根据需要被安装到存储部分408中。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开实施例的语音认证方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

即，本公开还提出了一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种知识迁移方法。所述指令代码包括：指令代码部分，用于进行下述操作：获得针对预定任务而预先训练的第一模型；通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识，其中，该综合损失函数基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，根据本公开实施例，本公开提供了如下方案，但不限于此：

方案1.一种知识迁移方法，包括：

获得针对预定任务而预先训练的第一模型；

通过利用综合损失函数针对预定任务对第二模型进行训练，使得第二模型具有第一模型的知识，其中，该综合损失函数基于以第一模型对训练样本的关于预定任务的输出结果的准确性加权的第一损失函数、以及第二损失函数，其中，第一损失函数表示第二模型与第一模型对训练样本的处理结果之间的差异，并且第二损失函数表示第二模型对训练样本的关于预定任务的输出结果的准确性。

方案2.根据方案1所述的知识迁移方法，其中，第一损失函数包括表示利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的差异的第一子损失函数。

方案3.根据方案2所述的知识迁移方法，其中，第一损失函数还包括表示第二模型与第一模型对训练样本的关于预定任务的输出结果之间的差异的第二子损失函数。

方案4.根据方案2所述的知识迁移方法，其中，训练样本包括图像样本、语音样本、或文档样本之一。

方案5.根据方案2所述的知识迁移方法，其中，第一模型对训练样本的关于预定任务的输出结果的准确性越高时，第一损失函数的权重越大。

方案6.根据方案2至5中任一项所述的知识迁移方法，其中，预定任务包括分类任务。

方案7.根据方案6所述的知识迁移方法，其中，第一子损失函数基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离。

方案8.一种信息处理设备，包括：

处理器，被配置为：

将待处理数据输入到通过根据方案1所述的知识迁移方法而得到的第二模型；以及

获得第二模型对待处理数据的处理结果。

方案9.根据方案8所述的信息处理设备，其中，待处理数据包括图像数据、语音数据、或文档数据之一。

方案10.根据方案8所述的信息处理设备，其中，第一损失函数包括表示利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的差异的第一子损失函数。

方案11.根据方案9所述的信息处理设备，其中，第一损失函数还包括基于第二模型与第一模型对训练样本的关于预定任务的输出结果之间的差异的第二损失函数。

方案12.根据方案8至11中任一项所述的信息处理设备，其中，第一模型对训练样本的关于预定任务的输出结果的准确性越高时，第一损失函数的权重越大。

方案13.根据方案8至12中任一项所述的信息处理设备，其中，预定任务包括分类任务，第一损失函数基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离，并且其中，

处理器被配置为利用第二模型从待处理数据中提取预定特征作为对待处理数据的处理结果，并且进一步被配置为计算从待处理数据中提取的预定特征与利用第二模型从目标数据中提取的预定特征之间的余弦相似度，以基于该余弦相似度确定待处理数据与目标数据的相似性。

方案14、一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种知识迁移方法，所述指令代码包括：

指令代码部分，用于进行下述操作：

获得针对预定任务而预先训练的第一模型；

方案15.根据方案14所述的存储介质，其中，第一损失函数包括表示利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的差异的第一子损失函数。

方案16.根据方案15所述的存储介质，其中，第一损失函数还包括表示第二模型与第一模型对训练样本的关于预定任务的输出结果之间的差异的第二子损失函数。

方案17.根据方案15所述的存储介质，其中，训练样本包括图像样本、语音样本、或文档样本之一。

方案18.根据方案15所述的存储介质，其中，第一模型对训练样本的关于预定任务的输出结果的准确性越高时，第一损失函数的权重越大。

方案19.根据方案15至18中任一项所述的存储介质，其中，预定任务包括分类任务。

方案20.根据方案19所述的存储介质，其中，第一子损失函数基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离。

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种知识迁移方法，包括：

获得针对预定任务而预先训练的第一模型；

2.根据权利要求1所述的知识迁移方法，其中，第一损失函数包括表示利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的差异的第一子损失函数。

3.根据权利要求2所述的知识迁移方法，其中，第一损失函数还包括表示第二模型与第一模型对训练样本的关于预定任务的输出结果之间的差异的第二子损失函数。

4.根据权利要求2所述的知识迁移方法，其中，训练样本包括图像样本、语音样本、或文档样本之一。

5.根据权利要求2所述的知识迁移方法，其中，第一模型对训练样本的关于预定任务的输出结果的准确性越高时，第一损失函数的权重越大。

6.根据权利要求2至5中任一项所述的知识迁移方法，其中，预定任务包括分类任务。

7.根据权利要求6所述的知识迁移方法，其中，第一子损失函数基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离。

8.一种信息处理设备，包括：

处理器，被配置为：

将待处理数据输入到通过根据权利要求1所述的知识迁移方法而得到的第二模型；以及

获得第二模型对待处理数据的处理结果。

9.根据权利要求8所述的信息处理设备，其中，预定任务包括分类任务，第一损失函数基于利用第二模型从训练样本中提取的预定特征与利用第一模型从训练样本中提取的预定特征之间的余弦距离，并且其中，

10.一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种知识迁移方法，所述指令代码包括：

指令代码部分，用于进行下述操作：

获得针对预定任务而预先训练的第一模型；