CN112184508A

CN112184508A - 一种用于图像处理的学生模型的训练方法及装置

Info

Publication number: CN112184508A
Application number: CN202011089981.3A
Authority: CN
Inventors: 史维东; 任广辉; 陈云鹏
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-05
Anticipated expiration: 2040-10-13
Also published as: CN112184508B; WO2022077646A1

Abstract

本申请公开一种用于图像处理的学生模型的训练方法及装置，属于知识蒸馏技术领域，该方法包括：获取教师模型中分类层的参数，教师模型由对多个图像样本中的目标对象进行分类训练得到，利用获取的参数初始化待训练的学生模型中分类层的参数，将至少部分图像样本输入到学生模型中进行分类，根据学生模型的分类损失值调整学生模型中位于分类层之前的目标层的参数，使学生模型中目标层学习到的每类目标对象的图像特征趋近教师模型中目标层学习到的该类目标对象的图像特征，直至确定学生模型的分类误差小于设定误差时结束训练，其中，教师模型和学生模型均包括依次相连的卷积层、分类层和归一化层、且两者的归一化层使用相同的归一化函数。

Description

一种用于图像处理的学生模型的训练方法及装置

技术领域

本申请涉及知识蒸馏技术领域，尤其涉及一种用于图像处理的学生模型的训练方法及装置。

背景技术

一般地，知识蒸馏的重要作用是将复杂模型学习到的知识迁移到轻量级模型中，使得轻量级模型在原始参数量较小的情况下也能拥有和复杂模型相近的性能，其中，复杂模型通常称作教师模型，轻量级模型通常称作学生模型。

以对图像样本中的目标对象进行分类为例。相关技术中，会先用大量的图像样本和图像样本中目标对象的标注类别训练教师模型，在教师模型的分类精度达到要求时，再用图像样本的标注类别和教师模型中归一化层的输出结果一起作为学生模型的监督信息来训练学生模型，这样，可为学生模型提供尽可能多的先验信息，使学生模型尽可能快的学习到教师模型学习到的知识。然而，这种知识蒸馏方式还留在学术研究阶段、未与实际的搜索任务相结合，学生模型与教师模型之间的差异也比较大，所以学生模型难以达到比较好的搜索效果。

发明内容

本申请实施例提供一种用于图像处理的学生模型的训练方法及装置，用以解决相关技术中利用教师模型训练的学生模型存在的搜索效果比较差的问题。

第一方面，本申请实施例提供一种用于图像处理的学生模型的训练方法，包括：

获取教师模型中分类层的参数，所述教师模型是对多个图像样本中的目标对象进行分类训练得到的，所述教师模型包括依次相连的卷积层、分类层和归一化层；

利用所述教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，所述学生模型包括依次相连的卷积层、分类层和归一化层、且所述学生模型与所述教师模型的归一化层使用相同的归一化函数；

将至少部分图像样本输入到所述学生模型中，以对所述至少部分图像样本中的目标对象进行分类；

根据所述学生模型对各图像样本中目标对象的分类损失值，调整所述学生模型中位于分类层之前的目标层的参数，使所述学生模型中目标层学习到的每类目标对象的图像特征趋近所述教师模型中目标层学习到的该类目标对象的图像特征，直至确定所述学生模型的分类误差小于设定误差时，停止训练所述学生模型。

在一种可能的实施方式中，若所述教师模型与所述学生模型中分类层的参数的维数相同，则利用所述教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，包括：

将所述教师模型中分类层的参数作为待训练的学生模型中分类层的参数。

在一种可能的实施方式中，若输入所述学生模型中分类层的目标对象的图像特征为特征向量、且所述学生模型中分类层的参数包括多个分类权重向量，则采用如下方式计算所述学生模型对每个图像样本中目标对象的分类损失值：

计算所述学生模型中输入分类层的每个图像样本中目标对象的特征向量和每个分类权重向量之间的夹角，所述夹角用于表征该图像样本中的目标对象与该分类权重向量对应的类别之间的接近程度；

根据目标夹角、以及该图像样本中目标对象的特征向量和各分类权重向量之间的夹角，计算所述学生模型对该图像样本中目标对象的分类损失值，所述目标夹角是该图像样本中目标对象的特征向量和目标分类权重向量之间的夹角，所述目标分类权重向量是指该图像样本中目标对象的标注类别对应的分类权重向量。

在一种可能的实施方式中，根据以下公式计算所述学生模型对第i个图像样本中目标对象的分类损失值loss_i：

其中，y_i表示第i个图像样本中目标对象的标注类别，

表示第i个图像样本中目标对象的目标夹角，θ_j表示第i个图像样本中目标对象的特征向量和学生模型的分类层中第j个分类权重向量之间的夹角，n表示目标对象的类别总数，s和m为预设常数，i和j均为整数。

在一种可能的实施方式中，若所述教师模型和所述学生模型均还包括位于卷积层和分类层之间的用于进行降维处理的降维层，则根据所述学生模型对各图像样本中目标对象的分类损失值，调整所述学生模型中位于分类层之前的目标层的参数，包括：

根据所述学生模型对各图像样本中目标对象的分类损失值，调整所述学生模型中卷积层和降维层的参数。

第二方面，本申请实施例提供一种对象搜索方法，包括：

获取待处理图像；

利用学生模型中位于分类层之前的目标层对所述待处理图像中的目标对象进行特征提取，所述学生模型采用权利要求1-4任一所述的方法训练得到；

将提取的所述待处理图像中目标对象的图像特征与各候选对象的图像特征进行比对，其中，各候选对象的图像特征是利用教师模型中位于分类层之前的目标层提取的，所述教师模型是用于训练所述学生模型的模型；

根据比对结果，确定所述待处理图像中的目标对象在各候选对象中的搜索结果。

第三方面，本申请实施例提供一种用于图像处理的学生模型的训练装置，包括：

获取模块，用于获取教师模型中分类层的参数，所述教师模型是对多个图像样本中的目标对象进行分类训练得到的，所述教师模型包括依次相连的卷积层、分类层和归一化层；

初始化模块，用于利用所述教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，所述学生模型包括依次相连的卷积层、分类层和归一化层、且所述学生模型与所述教师模型的归一化层使用相同的归一化函数；

输入模块，用于将至少部分图像样本输入到所述学生模型中，以对所述至少部分图像样本中的目标对象进行分类；

调整模块，用于根据所述学生模型对各图像样本中目标对象的分类损失值，调整所述学生模型中位于分类层之前的目标层的参数，使所述学生模型中目标层学习到的每类目标对象的图像特征趋近所述教师模型中目标层学习到的该类目标对象的图像特征，直至确定所述学生模型的分类误差小于设定误差时，停止训练所述学生模型。

在一种可能的实施方式中，若所述教师模型与所述学生模型中分类层的参数的维数相同，则所述初始化模块具体用于：

在一种可能的实施方式中，若输入所述学生模型中分类层的目标对象的图像特征为特征向量、且所述学生模型中分类层的参数包括多个分类权重向量，则所述调整模块采用如下方式计算所述学生模型对每个图像样本中目标对象的分类损失值：

在一种可能的实施方式中，所述调整模块根据以下公式计算所述学生模型对第i个图像样本中目标对象的分类损失值loss_i：

其中，y_i表示第i个图像样本中目标对象的标注类别，

在一种可能的实施方式中，若所述教师模型和所述学生模型均还包括位于卷积层和分类层之间的用于进行降维处理的降维层，则所述调整模块具体用于：

第四方面，本申请实施例提供一种对象搜索装置，包括：

获取模块，用于获取待处理图像；

特征提取模块，用于利用学生模型中位于分类层之前的目标层对所述待处理图像中的目标对象进行特征提取，所述学生模型采用权利要求1-5任一所述的方法训练得到；

比对模块，用于将提取的所述待处理图像中目标对象的图像特征与各候选对象的图像特征进行比对，其中，各候选对象的图像特征是利用教师模型中位于分类层之前的目标层提取的，所述教师模型是用于训练所述学生模型的模型；

确定模块，用于根据比对结果，确定所述待处理图像中的目标对象在各候选对象中的搜索结果。

第五方面，本申请实施例提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

存储器存储有可被至少一个处理器执行的指令，该指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述用于图像处理的学生模型的训练方法。

第六方面，本申请实施例提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行上述用于图像处理的学生模型的训练方法。

本申请实施例中，预先对多个图像样本中的目标对象进行分类训练得到教师模型，获取教师模型中分类层的参数，利用教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，之后，将至少部分图像样本输入到学生模型中，以对这至少部分图像样本中的目标对象进行分类，根据学生模型对各图像样本中目标对象的分类损失值，调整学生模型中位于分类层之前的目标层的参数，使学生模型中目标层学习到的每类目标对象的图像特征趋近教师模型中目标层学习到的该类目标对象的图像特征，直至确定学生模型的分类误差小于设定误差时，停止训练学生模型，其中，学生模型与教师模型均包括依次相连的卷积层、分类层和归一化层、且学生模型和教师模型的归一化层使用相同的归一化函数。这样，利用教师模型中分类层的参数初始化待训练的学生模型中分类层的参数，使两者使用的分类层的参数产生联系，并以学生模型中目标层学习到的各类目标对象的图像特征和教师模型中目标层学习到的各类目标对象的图像特征之间的趋近程度为目标，调整学生模型中位于分类层之前的目标层的参数，可缩小学生模型与教师模型所提取到的各类目标对象的图像特征之间的差异，因此，可提升最终得到的学生模型对目标对象的搜索效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种用于图像处理的学生模型的训练方法的流程图；

图2为本申请实施例提供的一种用于图像处理的学生模型的训练过程的示意图；

图3为本申请实施例提供的一种对象搜索方法的流程图；

图4为本申请实施例提供的一种用于图像处理的学生模型的训练装置的结构示意图；

图5为本申请实施例提供的一种对象搜索装置的结构示意图；

图6为本申请实施例提供的一种实现用于图像处理的学生模型的训练方法和/或对象搜索方法的电子设备的硬件结构示意图。

具体实施方式

为了解决相关技术中利用教师模型训练的学生模型存在的搜索效果比较差的问题，本申请实施例提供了一种用于图像处理的学生模型的训练方法及装置。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

相关技术中，知识蒸馏还留在学术研究阶段，给出的各种蒸馏方式都未考虑实际的业务场景，而在不同业务场景中想要学生模型从教师模型学习到的重点知识也会有所区别，所以不考虑业务场景的蒸馏方式在实际业务场景中的使用效果并不是很好。

以对图像样本中的目标对象进行分类为例。相关技术中，会先用大量的图像样本和图像样本中目标对象的标注类别训练教师模型，在教师模型的分类精度达到要求时，再将图像样本的标注类别和教师模型中归一化层的输出结果一起作为学生模型的监督信息来训练学生模型，这样，可尽可能多地为学生模型提供先验信息，使学生模型尽可能快的学习到教师模型学习到的知识。

而在搜索任务中，仅需利用学生模型中位于分类层之前的目标层(至少包括卷积层)提取待处理图像中目标对象的图像特征，将提取的图像特征与各候选对象的图像特征进行比对，以在各候选对象中搜索与待处理图像中目标对象匹配的对象。为了尽可能准确地表达每个目标对象的图像特征，各候选对象的图像特征一般是利用教师模型提取的，也就是说，学生模型提取的图像特征需与教师模型提取的图像特征进行比对。而实际上，相关技术中在训练学生模型时未考虑学生模型提取的图像特征与教师模型提取的图像特征之间的关联，即，未对学生模型提取的用于搜索的目标对象的图像特征进行优化，使学生模型和教师模型抽取的相同目标对象的图像特征未在空间上进行对齐(在空间上的距离还比较远)，因此，最终得到的学生模型对目标对象的搜索效果并不好。

为了解决上述问题，本申请实施例提供一种用于图像处理的学生模型的训练方法，预先对多个图像样本中的目标对象进行分类训练得到教师模型，获取教师模型中分类层的参数，利用教师模型中分类层的参数初始化待训练的学生模型中分类层的参数，使两者使用的分类层的参数产生联系，之后，将至少部分图像样本输入到学生模型中，以对这至少部分图像样本中的目标对象进行分类，并学生模型中目标层学习到的各类目标对象的图像特征和教师模型中目标层学习到的各类目标对象的图像特征之间的趋近程度为目标，调整学生模型中位于分类层之前的目标层的参数，直至确定学生模型的分类误差小于设定误差时停止训练，其中，学生模型与教师模型均包括依次相连的卷积层、分类层和归一化层，且学生模型和教师模型的归一化层使用相同的归一化函数。这样，可缩小学生模型与教师模型所提取到的各类目标对象的图像特征之间的差异，即，使学生模型学习到的每类目标对象的特征与教师模型学习到的每类目标对象的特征在空间上进行对齐，因此，可提升最终得到的学生模型对目标对象的搜索效果。

图1为本申请实施例提供的一种用于图像处理的学生模型的训练方法的流程图，包括以下步骤：

S101：获取教师模型中分类层的参数，其中，教师模型是对多个图像样本中的目标对象进行分类训练得到的，教师模型包括依次相连的卷积层、分类层和归一化层。

具体实施时，目标对象如人脸、植物、动物等。以目标对象为人脸为例，一个人的人脸为一类，需要教师模型将人脸分为多少类，就需要获取多少类人脸的图像样本，并且，每类图像样本的人脸数量可以有多个，以便教师模型可以更好地学习到每类人脸的图像特征。

一般地，教师模型从前至后包括依次相连的卷积层、分类层和归一化层，其中，卷积层用于对图像样本中的目标对象进行特征提取，分类层，用于对卷积层提取到的图像样本中目标对象的图像特征进行分类，归一化层如softmax层，用于对分类层的输出结果进行归一化处理，得到图像样本中目标对象所属类别的概率分布，概率最高的类别即是图像样本中目标对象所属的类别。

S102：利用教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，其中，学生模型包括依次相连的卷积层、分类层和归一化层、且学生模型与教师模型的归一化层使用相同的归一化函数。

实际应用中，学生模型从前至后也至少包括依次相连的卷积层、分类层和归一化层，学生模型中各层的作用与教师模型中各层的作用相同，但学生模型的卷积层比教师模型的卷积层简单许多。

具体实施时，若教师模型与学生模型中分类层的参数的维数相同，即教师模型中分类层的参数矩阵与学生模型中分类层的参数矩阵的大小相同，则可直接将教师模型中分类层的参数作为待训练的学生模型中分类层的参数，即直接将教师模型中分类层的参数矩阵作为学生模型中分类层的参数矩阵。这样，可最大程度地保留学生模型与教师模型中分类层的联系，便于后续学生模型与教师模型提取的每类目标对象的图像特征在空间上对齐。

S103：将至少部分图像样本输入到学生模型中，以对这至少部分图像样本中的目标对象进行分类。

具体实施时，至少部分图像样本可以包括全部的图像样本，也可以包括部分图像样本。当输入学生模型的为部分图像样本时，为了使学生模型学习到各类目标对象的图像特征，这部分图像样本可以包含所有类别的目标对象的图像。

S104：根据学生模型对各图像样本中目标对象的分类损失值，调整学生模型中位于分类层之前的目标层的参数，使学生模型中目标层学习到的每类目标对象的图像特征趋近教师模型中目标层学习到的该类目标对象的图像特征，直至确定学生模型的分类误差小于设定误差时，停止训练学生模型。

其中，学生模型对每个图像样本中目标对象的分类损失值，用于表征学生模型提取的该图像样本中目标对象的图像特征与教师模型学习到的该图像样本中目标对象所属类别的特征中心之间的差异。

一般地，输入教师模型中分类层的目标对象的图像特征为特征向量，教师模型中分类层的参数矩阵中的每列元素可看作一个分类权重向量，每个分类权重向量对应目标对象的一个类别，用于描述该类别的目标对象的特征中心。类似地，输入学生模型中分类层的目标对象的图像特征也为特征向量，学生模型中分类层的参数矩阵中的每列元素也可看作一个分类权重向量，每个分类权重向量也对应目标对象的一个类，同样用于描述该类别的目标对象的特征中心。

具体实施时，可计算学生模型中输入分类层的每个图像样本中目标对象的特征向量和学生模型中分类层的每个分类权重向量之间的夹角，该夹角用于表征该图像样本中的目标对象与该分类权重向量对应的类别之间的接近程度，然后，根据目标夹角、以及该图像样本中目标对象的特征向量和各分类权重向量之间的夹角，计算学生模型对该图像样本中目标对象的分类损失值，其中，目标夹角是该图像样本中目标对象的特征向量和目标分类权重向量之间的夹角，目标分类权重向量是指该图像样本中目标对象的标注类别对应的分类权重向量。

比如，根据以下公式计算学生模型对第i个图像样本中目标对象的分类损失值loss_i：

其中，y_i表示第i个图像样本中目标对象的标注类别，

表示第i个图像样本中目标对象的特征向量和第i个图像样本中目标对象的标注类别对应的目标分类权重向量之间的夹角，即

表示第i个图像样本中目标对象的目标夹角，θ_j表示第i个图像样本中目标对象的特征向量和学生模型的分类层中第j个分类权重向量之间的夹角，n表示目标对象的类别总数，s和m为预设常数，比如s＝64、m＝0.5，i和j均为整数。

需要说明的是，公式中j的取值从1到n且j≠y_i，是指j取n个类别中除第i个图像样本中目标对象的标注类别之外的所有类别。

进一步地，可保持学生模型中分类层的参数不变，根据学生模型对各图像样本中目标对象的分类损失值，采用梯度下降算法调整学生模型中位于分类层之前的目标层的参数，直至确定学生模型的分类误差小于设定误差时，停止训练学生模型。

本申请实施例中，利用教师模型中分类层的参数初始化待训练的学生模型中分类层的参数，使两者使用的分类层的参数产生联系，并要求学生模型中目标层学习到的每类目标对象的图像特征趋近教师模型中目标层学习到的该类目标对象的图像特征，即是要求学生模型中目标层最终得到的各类目标对象的图像特征与教师模型中目标层得到的各类目标对象的图像特征在空间上尽可能地对齐。这样，可缩小学生模型与教师模型所提取到的各类目标对象的图像特征之间的差异，更符合搜索任务中以学生模型提取的目标对象的图像特征作为搜索特征与教师模型提取的目标对象的图像特征进行匹配的特点，因此，可提升最终得到的学生模型对目标对象的搜索效果。并且，这种仅利用教师模型中分类层的参数教导学生模型训练的方式不影响计算分类损失值的方式，即这种蒸馏方式可与现有分类任务中设计的分类损失计算方式自由结合，因此，灵活度比较高、使用也更加方便。

下面结合具体实时例对上述过程进行说明。

图2为本申请实施例提供的一种用于图像处理的学生模型的训练过程的示意图，其中，教师模型和学生模型均包括依次相连的卷积层、分类层和softmax层，即图2所示的目标层仅包括卷积层，教师模型的卷积层比学生模型的卷积层复杂，但教师模型和学生模型的卷积层均输出相同维度的目标对象的图像特征，教师模型和学生模型中分类层的维度相同，且教师模型和学生模型的softmax层使用相同的归一化函数。

假设教师模型中卷积层输出的是图像样本中目标对象的1*512维的特征向量，并假设将目标对象分为1000个类别，则教师模型中分类层的参数为512*1000的参数矩阵，教师模型中进入softmax层的为1*1000的概率数据，教师模型中softmax层输出的是经过归一化处理后的1*1000的概率数据，这1*1000的概率数据表示图像样本中目标对象在1000个类别之间的分布概率，概率最高的类别即是教师模型判定的图像样本中目标对象所属的类别。

具体实施时，可先利用图像样本和图像样本中目标对象的标注类别训练得到教师模型，然后，获取教师模型中分类层使用的512*1000的参数矩阵，将获取的教师模型中分类层使用的512*1000的参数矩阵作为待训练的学生模型中分类层使用的512*1000的参数矩阵，之后，将至少部分图像样本输入到学生模型中，以对这至少部分图像样本中的目标对象进行分类。

虽然学生模型的卷积层比教师模型中卷积层要简单，但学生模型的卷积层同样对每个图像样本中的目标对象提取出1*512维的特征向量，学生模型中分类层的参数与教师模型中分类层的参数相同，学生模型和教师模型的softmax层使用相同的归一化函数。那么，使学生模型中进入分类层的每个图像样本中目标对象的特征向量尽可能地趋近教师模型中进入分类层的该图像样本中目标对象的特征向量，即可使学生模型与教师模型所提取的各类目标对象的图像特征尽可能地实现空间对齐。

为此，可根据学生模型中输入分类层的各图像样本中目标对象的图像特征、学生模型中分类层的参数和各图像样本中目标对象的标注类别，计算学生模型对各图像样本中目标对象的平均分类损失值。

比如，根据以下公式计算学生模型对各图像样本中目标对象的平均分类损失值L：

其中，N表示图像样本的个数，y_i表示第i个图像样本中目标对象的标注类别，

表示第i个图像样本中目标对象的目标夹角，θ_j表示第i个图像样本中目标对象的特征向量和学生模型的分类层中第j个分类权重向量之间的夹角，n表示目标对象的类别总数，即1000，s和m为常数，比如s＝64、m＝0.5，i和j均为整数。

进一步地，保持学生模型中分类层的参数不变，根据学生模型对各图像样本中目标对象的分类损失值，采用梯度下降算法调整学生模型中位于分类层之前的目标层的参数，直至确定学生模型的分类误差小于设定误差时，停止训练学生模型。

此外，具体实施时，为了减少搜索阶段需处理的数据量、提升搜索速度，教师模型和学生模型还可以均包括位于卷积层和分类层之间的用于进行降维处理的降维层，该降维层用于目标对象的图像特征进行压缩。此时，根据学生模型对各图像样本中目标对象的分类损失值，调整学生模型中位于分类层之前的目标层的参数，即是调整学生模型中卷积层和降维层的参数。

图3为本申请实施例提供的一种对象搜索方法的流程图，包括以下步骤：

S301：获取待处理图像。

S302：利用学生模型中位于分类层之前的目标层对待处理图像中的目标对象进行特征提取，其中，学生模型采用本申请实施提供的用于图像处理的学生模型的训练方法训练得到。

具体实施时，若确定学生模型包括卷积层、分类层和归一化层，则仅利用学生模型的卷积层对待处理图像中的目标对象进行特征提取；若确定学生模型包括卷积层、降维层、分类层和归一化层，则利用学生模型的卷积层和降维层对待处理图像中的目标对象进行特征提取。

S303：将提取的待处理图像中目标对象的图像特征与各候选对象的图像特征进行比对，其中，各候选对象的图像特征是利用教师模型中位于分类层之前的目标层提取的，教师模型是用于训练学生模型的模型。

具体实施时，若确定教师模型包括依次相连的卷积层、分类层和归一化层，则各候选对象的图像特征是仅利用教师模型的卷积层提取的；若确定教师模型包括依次相连的卷积层、降维层、分类层和归一化层，则各候选对象的图像特征是利用教师模型的卷积层和降维层提取的。

S304：根据比对结果，确定待处理图像中的目标对象在各候选对象中的搜索结果。

具体实施时，可将各候选对象的图像特征中与待处理图像中目标对象的图像特征匹配度最高的候选对象，作为待处理图像中的目标对象在各候选对象中的搜索结果。

以人脸识别为例。

在人脸识别任务中，为了加快人脸识别速度和精度，往往需要使用大量的人脸图像训练一个教师模型，然后，利用知识蒸馏的方式将教师模型学习到的知识教给容量很小的学生模型，以保证学生模型具有较高的人脸识别速度和精度。而学生模型在人脸搜索过程中需要将待识别人脸的图像特征与特征库中用教师模型预先提取的各候选人脸的图像特征进行比对，如果学生模型与教师模型学习到的相同类别的人脸图像的图像特征相差比较大，学生模型的搜索效果可想而知。因此，教师模型与学生模型提取的各人脸的图像特征在空间上实现对齐显得尤为重要。

本申请实施例中，可将教师模型中分类层的参数直接作为学生模型中分类层的参数，教给学生模型如何对齐教师模型提取的人脸图像特征的空间特征，且可以结合各种损失函数保证蒸馏效果，应用前景比较广泛、实用价值也比较大。

本申请实施例中，在训练学生模型时，利用教师模型中分类层的参数初始化待训练的学生模型中分类层的参数，使两者使用的分类层的参数产生联系，并要求学生模型中目标层学习到的每类目标对象的图像特征趋近教师模型中目标层学习到的该类目标对象的图像特征，即是要求学生模型中目标层最终得到的各类目标对象的图像特征与教师模型中目标层得到的各类目标对象的图像特征进行空间对齐处理，这样，可缩小学生模型与教师模型所提取到的各类目标对象的图像特征之间的差异，更符合搜索任务中以学生模型提取的目标对象的图像特征作为搜索特征与教师模型提取的目标对象的图像特征进行匹配的特点，因此，可提升最终得到的学生模型对目标对象的搜索效果。

当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候，电子设备中可以包括多个功能模块，每个功能模块可以包括软件、硬件或其结合。

图4为本申请实施例提供的一种用于图像处理的学生模型的训练装置的结构示意图，包括获取模块401、初始化模块402、输入模块403、调整模块404。

获取模块401，用于获取教师模型中分类层的参数，所述教师模型是对多个图像样本中的目标对象进行分类训练得到的，所述教师模型包括依次相连的卷积层、分类层和归一化层；

初始化模块402，用于利用所述教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，所述学生模型包括依次相连的卷积层、分类层和归一化层、且所述学生模型与所述教师模型的归一化层使用相同的归一化函数；

输入模块403，用于将至少部分图像样本输入到所述学生模型中，以对所述至少部分图像样本中的目标对象进行分类；

调整模块404，用于根据所述学生模型对各图像样本中目标对象的分类损失值，调整所述学生模型中位于分类层之前的目标层的参数，使所述学生模型中目标层学习到的每类目标对象的图像特征趋近所述教师模型中目标层学习到的该类目标对象的图像特征，直至确定所述学生模型的分类误差小于设定误差时，停止训练所述学生模型。

在一种可能的实施方式中，若所述教师模型与所述学生模型中分类层的参数的维数相同，则所述初始化模块402具体用于：

在一种可能的实施方式中，若输入所述学生模型中分类层的目标对象的图像特征为特征向量、且所述学生模型中分类层的参数包括多个分类权重向量，则所述调整模块404采用如下方式计算所述学生模型对每个图像样本中目标对象的分类损失值：

在一种可能的实施方式中，所述调整模块404根据以下公式计算所述学生模型对第i个图像样本中目标对象的分类损失值loss_i：

其中，y_i表示第i个图像样本中目标对象的标注类别，

在一种可能的实施方式中，若所述教师模型和所述学生模型均还包括位于卷积层和分类层之间的用于进行降维处理的降维层，则所述调整模块404具体用于：

图5为本申请实施例提供的一种对象搜索装置的结构示意图，包括获取模块501、特征提取模块502、比对模块503、确定模块504。

获取模块501，用于获取待处理图像；

特征提取模块502，用于利用学生模型中位于分类层之前的目标层对所述待处理图像中的目标对象进行特征提取，所述学生模型采用权利要求1-5任一所述的方法训练得到；

比对模块503，用于将提取的所述待处理图像中目标对象的图像特征与各候选对象的图像特征进行比对，其中，各候选对象的图像特征是利用教师模型中位于分类层之前的目标层提取的，所述教师模型是用于训练所述学生模型的模型；

确定模块504，用于根据比对结果，确定所述待处理图像中的目标对象在各候选对象中的搜索结果。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

图6为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括收发器601以及处理器602等物理器件，其中，处理器602可以是一个中央处理单元(CentralProcessing Unit，CPU)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器601用于电子设备和其他设备进行数据收发。

该电子设备还可以包括存储器603用于存储处理器602执行的软件指令，当然还可以存储电子设备需要的一些其他数据，如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器603可以是易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器603也可以是非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(Flash Memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)、或者存储器603是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器603可以是上述存储器的组合。

本申请实施例中不限定上述处理器602、存储器603以及收发器601之间的具体连接介质。本申请实施例在图6中仅以存储器603、处理器602以及收发器601之间通过总线604连接为例进行说明，总线在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器602可以是专用硬件或运行软件的处理器，当处理器602可以运行软件时，处理器602读取存储器603存储的软件指令，并在所述软件指令的驱动下，执行前述实施例中涉及的用于图像处理的学生模型的训练方法。

本申请实施例还提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行前述实施例中涉及的用于图像处理的学生模型的训练方法。

在一些可能的实施方式中，本申请提供的用于图像处理的学生模型的训练方法的各个方面还可以实现为一种程序产品的形式，所述程序产品中包括有程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行前述实施例中涉及的用于图像处理的学生模型的训练方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例中用于图像处理的学生模型的训练的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种用于图像处理的学生模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，若所述教师模型与所述学生模型中分类层的参数的维数相同，则利用所述教师模型中分类层的参数，初始化待训练的学生模型中分类层的参数，包括：

3.如权利要求1所述的方法，其特征在于，若输入所述学生模型中分类层的目标对象的图像特征为特征向量、且所述学生模型中分类层的参数包括多个分类权重向量，则采用如下方式计算所述学生模型对每个图像样本中目标对象的分类损失值：

4.如权利要求3所述的方法，其特征在于，根据以下公式计算所述学生模型对第i个图像样本中目标对象的分类损失值loss_i：

其中，y_i表示第i个图像样本中目标对象的标注类别，θ_yi表示第i个图像样本中目标对象的目标夹角，θ_j表示第i个图像样本中目标对象的特征向量和学生模型的分类层中第j个分类权重向量之间的夹角，n表示目标对象的类别总数，s和m为预设常数，i和j均为整数。

5.如权利要求1-4任一所述的方法，其特征在于，若所述教师模型和所述学生模型均还包括位于卷积层和分类层之间的用于进行降维处理的降维层，则根据所述学生模型对各图像样本中目标对象的分类损失值，调整所述学生模型中位于分类层之前的目标层的参数，包括：

6.一种对象搜索方法，其特征在于，包括：

获取待处理图像；

利用学生模型中位于分类层之前的目标层对所述待处理图像中的目标对象进行特征提取，所述学生模型采用权利要求1-5任一所述的方法训练得到；

7.一种用于图像处理的学生模型的训练装置，其特征在于，包括：

8.一种对象搜索装置，其特征在于，包括：

获取模块，用于获取待处理图像；

9.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6任一所述的方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行如权利要求1-6中任一所述的方法。