CN110659665A

CN110659665A - 一种异维特征的模型构建方法及图像识别方法、装置

Info

Publication number: CN110659665A
Application number: CN201910712897.3A
Authority: CN
Inventors: 李一力; 尉桦; 邵新庆; 刘强
Original assignee: Shenzhen Liwei Zhilian Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen Liwei Zhilian Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2020-01-07
Anticipated expiration: 2039-08-02
Also published as: CN110659665B

Abstract

一种异维特征的模型构建方法及图像识别方法、装置，该模型构建方法包括：通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型；对第一网络模型的特征层进行降维处理，以使得该第一网络模型的特征层的特征维度等于第二网络模型的特征层的特征维度；通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对该第二网络模型进行训练，得到第二网络模型对应的图像识别模型。由于通过降维处理使得第一网络模型的特征层的特征维度能够等于第二网络模型的特征层的特征维度，从而利于在相同的特征维度下进行知识蒸馏处理，能够避免知识蒸馏方法在图像识别领域的应用局限性。

Description

一种异维特征的模型构建方法及图像识别方法、装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种异维特征的模型构建方法及图像识别方法、装置。

背景技术

一个复杂的神经网络结构模型是若干个单独模型组成的集合，或者是一些很强的约束条件下训练得到的一个很大的网络模型。一旦复杂网络模型训练完成，便可以用另一种训练方法：“蒸馏”，把我们需要配置在应用端的缩小模型从复杂模型中提取出来。因此，就有人提出了蒸馏神经网络的概念。

Hinton的文章《Distilling the Knowledge in a Neural Network》首次提出了知识蒸馏的概念，通过引入教师网络用以诱导学生网络的训练，实现知识迁移。所以其本质上和迁移学习有点像，但实现方式是不一样的，那么用“蒸馏”这个词来形容这个过程是相当形象的。知识蒸馏是指将复杂模型(比如teacher模型/教师模型)中的dark knowledge迁移到简单模型(比如student模型/学生模型)中去，一般来说，教师模型具有强大的能力和表现，而学生模型则更为紧凑。那么通过知识蒸馏，希望学生模型能尽可能逼近亦或是超过教师模型，从而用更少的复杂度来获得类似的预测效果。这里的教师模型往往是一个模型尺寸较大、结构较复杂、运算量较高但性能较好的模型，比如一个准确率高达99％，但大小有200M的模型resnet100；这里的学生模型是一个模型尺寸较小、结构较简单、运算量较低但性能较差的模型，比如一个准确率只有60％，但大小只有20M的模型mobilenet。

目前，通过蒸馏神经网络进行知识蒸馏的思路是这样的：教师模型受限于模型大小、推理时间等种种问题而无法在实际应用场合使用，学生模型由于性能较差也无法满足实际应用场景，为了让学生模型在保持模型结构的同时也能拥有和教师模型相当的性能，知识蒸馏的方法是让学生模型去学习教师模型输出的类别概率，具体来说，对一般的分类任务，教师模型和学生模型对任意输入都会输出该输入属于每一分类的概率，若两种模型性能都较好，他们对于同一输入的输出应该是一致的。所以，在模型训练过程中，学生模型不光会参考输入的真实标签(即硬标签，hard target)，也同时会参考教师模型的输出(论即软标签，soft target)；这个方法的目的是模型经过训练后，两种模型的输出能尽可能相近。然而，由于人脸识别任务的特殊性，分类数往往会高达几十万到上百万甚至更高，直接在分类层进行知识蒸馏可能会导致显存过高、难以收敛的问题，所以对于人脸识别场景，知识蒸馏往往发生在特征层。

此外，学生模型在学习硬标签和软标签的时候用的损失函数都是交叉熵，但这样做同时会带来一个问题，就是要求两种模型的特征层维度要相等。在图像识别的场景下，只有教师模型和学生模型的特征层维度一致时，才能够进行知识蒸馏操作，如此将限制知识蒸馏在图像识别领域的应用，为技术发展带来不利影响。

发明内容

本发明主要解决的技术问题是如何改善知识蒸馏方法在图像识别领域的局限性，提供一种异维特征情形下的模型构建方法，以及提供一种基于知识蒸馏的图像识别方法。

根据第一方面，一种实施例中提供一种异维特征的模型构建方法，包括以下步骤：通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，所述第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于所述第二网络模型；对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度；通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练，得到所述第二网络模型对应的图像识别模型。

所述对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度，包括：从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵X；对矩阵X的每一行特征数据进行零均值化处理，根据零均值化处理后的矩阵X′构建协方差矩阵C＝1/m·X′(X′)^T，其中，m表示矩阵X′的列数，上标T表示矩阵的转置运算；计算协方差矩阵C的各个特征值以及每个特征值对应的特征向量，将特征值从大到小进行排序，从排序选取前k个特征值分别对应的特征向量组成矩阵W，其中k为所述第二网络模型的特征层的特征维度；利用矩阵Y＝W^TX对所述第一网络模型的特征层进行降维处理，得到所述第一网络模型的新的特征层，其中矩阵Y是所述第一网络模型的新的特征层的特征数据形成的矩阵。

所述对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度，包括：从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵其中，x表示特征数据，y表示特征数据的标签，n表示矩阵D的行数，m表示矩阵D的列数，i表示特征数据所在的行；

根据矩阵D计算类内散度矩阵

其中，X_i表示矩阵D中第i行的特征数据，u_i表示矩阵D中第i行特征数据的均值向量，上标T表示矩阵的转置运算；根据均值向量u_i计算类间散度矩阵

其中，u表示所有均值向量u_i的平均值；

根据类内散度矩阵S_w和类间散度矩阵S_b计算得到矩阵E＝S_w ^-1S_b，对矩阵E中的特征值进行排序，从排序中选取前d个特征值以及每个特征值对应的特征向量，按列形成投影矩阵Q；利用矩阵Z＝Q^TD对所述第一网络模型的特征层进行降维处理，得到所述第一网络模型的新的特征层，其中矩阵Z是所述第一网络模型的新的特征层的特征数据投影后的坐标所形成的矩阵。

所述通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练，建立得到所述第二网络模型对应的图像识别模型，包括：

根据降维处理后的第一网络模型和所述第二网络模型计算交叉熵，得到知识蒸馏的损失函数，所述损失函数表示为

其中，p为降维处理后的第一网络模型的特征层中每一特征维度对应的特征数据，q为所述第二网络模型的特征层中每一特征维度对应的特征数据，n为特征维度的总数目，i为特征维度的序号；

通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，且利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练时，根据所述损失函数确定所述第二网络模型向降维处理后的第一网络模型的学习程度；

将训练后的第二网络模型作为所述第二网络模型对应的图像识别模型。

根据第二方面，一种实施例中提供一种基于知识蒸馏的图像识别方法，包括：获取待检测物体的图像；根据预先构建的图像识别模型提取所述待检测物体的图像中的特征信息；所述图像识别模型是由上述第一方面所述的模型构建方法而得到；根据提取的特征信息对所述待检测物体进行识别。

根据第三方面，一种实施例中提供一种图像识别装置，包括：图像获取单元，用于获取待检测物体的图像；特征提取单元，用于根据预先构建的图像识别模型提取所述待检测物体的图像中的特征信息；所述图像识别模型是由第一方面中所述的模型构建方法而得到；物体识别单元，用于根据提取的特征信息对所述待检测物体进行识别。

所述图像识别装置，其特征在于，还包括与所述特征提取单元连接的模型构建单元，所述模型构建单元包括：第一训练模块，用于通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，所述第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于所述第二网络模型；降维处理模块，用于对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度；第二训练模块，用于通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练，建立得到所述第二网络模型对应的图像识别模型。

所述降维处理模块采用第一降维处理方法对所述第一网络模型的特征层进行降维处理，所述第一降维方法为：从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵X；对矩阵X的每一行特征数据进行零均值化处理，根据零均值化处理后的矩阵X′构建协方差矩阵C＝1/m·X′(X′)^T，其中，m表示矩阵X′的列数，上标T表示矩阵的转置运算；计算协方差矩阵C的各个特征值以及每个特征值对应的特征向量，将特征值从大到小进行排序，选取前k个特征值分别对应的特征向量组成矩阵W，其中k为所述第二网络模型的特征层的特征维度；利用矩阵Y＝W^TX对所述第一网络模型的特征层进行降维处理，得到所述第一网络模型的新的特征层，其中矩阵Y是所述第一网络模型的新的特征层的特征数据形成的矩阵。

所述降维处理模块采用第二降维处理方法对所述第一网络模型的特征层进行降维处理，所述第二降维方法为：从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵其中，x表示特征数据，y表示特征数据的标签，n表示矩阵D的行数，m表示矩阵D的列数，i表示特征数据所在的行；

根据矩阵D计算类内散度矩阵

其中，u表示所有均值向量u_i的平均值；

根据第四方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述第一方面或第二方面中所述的方法。

本申请的有益效果是：

依据上述实施例的一种异维特征的模型构建方法及图像识别方法、装置，其中模型构建方法包括以下步骤：通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，该第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于该第二网络模型；对第一网络模型的特征层进行降维处理，以使得该第一网络模型的特征层的特征维度等于第二网络模型的特征层的特征维度；通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对该第二网络模型进行训练，得到第二网络模型对应的图像识别模型。第一方面，由于对第一网络模型的特征层进行降维处理，使得第一网络模型的特征层的特征维度能够等于第二网络模型的特征层的特征维度，从而利于在相同的特征维度下进行知识蒸馏处理，保证了第二网络模型向第一网络模型学习的有效性，为图像识别应用中模型特征层的知识蒸馏处理提供了可能性，避免了知识蒸馏方法在图像识别领域的应用局限性；第二方面，由于利用知识蒸馏处理对第一网络模型进行瘦身，在保证图像识别精度的前提下得到图像识别模型，使得该图像识别模型的模型复杂度低于原本的第一网络模型，性能却优于原本的第二网络模型，能够方便地应用于用户端；第三方面，由于请求保护的图像识别方法采用预先构建的图像识别模型来提取待检测物体的图像中的特征信息，根据图像识别模型的性能可以快速、准确地对图像中的特征信息进行提取，可以避免借助第一网络模型进行图像识别时引起的计算资源占用量大的情形发生，也可以避免借助第二网络模型进行图像识别时引起的识别准确率不高的情形发生，如此可有效提升用户在图像识别时的体验效果。

附图说明

图1为本申请中异维特征的模型构建方法的流程图；

图2为一种实施例中降维处理的流程图；

图3为另一种实施例中降维处理的流程图；

图4为知识蒸馏处理的流程图；

图5为训练得到第一网络模型和第二网络模型的原理示意图；

图6为本申请中基于知识蒸馏的图像识别方法的流程图；

图7为本申请中图像识别装置的结构示意图；

图8为模型构建单元的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

实施例一、

请参考图1，本申请公开一种异维特征的模型构建方法，其包括步骤S100-S300，下面分别说明。

步骤S100，通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，该第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于第二网络模型。这里的样本图像可以是一个或多个识别对象的多帧图像，如人脸图像、植物图像、建筑图像、汽车图像等。

在一具体实施例中，参见图5，将样本图像输入至复杂神经网络，利用样本图像作为训练集，以复杂神经网络的模型进行机器学习，从而训练得到第一网络模型；该复杂神经网络可以包括多个卷积层(如卷积层1…卷积层l₁)、特征层和分类层。将样本图像输入至简单神经网络，利用样本图像作为训练集，以简单神经网络的模型进行机器学习，从而训练得到第二网络模型，该简单神经网络可以包括多个卷积层(如卷积层1…卷积层l₂，且l₂<<l₁)、特征层和分类层。其中，多个卷积层用于对样本图像进行多次的卷积处理；特征层是图像识别场景下特有的网络结构，往往把经过多个卷积操作之后接的全连接层称作特征层，该特征层内包括从样本图像分析得到的特征数据(信息)，通常特征层的维度为256或者512；分类层和具体的分类任务有关，如果分类数和分类层的维度一样，对于图像识别场景，分类数往往较高。由于卷积层、特征层、分类层是人工神经网络中常见的网络结构，所以这里不再进行详细说明。

需要说明的是，该第一网络模型也可成为教师模型，该第二网络模型也可称为学生模型，第一网络模型和第二网络模型相比，第一网络模型的网络层数更多，模型尺寸大、复杂度高、运算性能差，但图像识别信息的知识容量、特征层的特征维度却较大，具有较好的图像特征的提取能力。

步骤S200，对第一网络模型的特征层进行降维处理，以使得第一网络模型的特征层的特征维度等于第二网络模型的特征层的特征维度。在本实施例中，该步骤S200可以通过第一降维处理方法或者第二降维处理方法来实现。

在一个具体实施例中，见图2，通过第一降维处理方法来对第一网络模型的特征层进行降维处理，那么可以概括为步骤S211-S214，分别说明如下。

步骤S211，从第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵X。例如，如果特征层有m个n维的特征数据，那么就可以形成n*m的矩阵X。

步骤S212，对矩阵X的每一行特征数据进行零均值化处理，根据零均值化处理后的矩阵X′构建协方差矩阵C＝1/m·X′(X′)^T，其中，m表示矩阵X′的列数，上标T表示矩阵的转置运算。

需要说明的是，这里的零均值化处理是数据预处理的常用手段，就是对于一组数据，其中每一个数据都减去这组数据的平均值。

步骤S213，计算协方差矩阵C的各个特征值以及每个特征值对应的特征向量，将特征值从大到小进行排序，从排序选取前k个特征值分别对应的特征向量组成矩阵W，其中k为第二网络模型的特征层的特征维度。

步骤S214，利用矩阵Y＝W^TX对第一网络模型的特征层进行降维处理，得到第一网络模型的新的特征层，其中矩阵Y是第一网络模型的新的特征层的特征数据形成的矩阵。需要说明的是，由于矩阵Y包括第一网络模型的特征层的一部分特征数据，所以达到了对第一网络模型的特征层进行降维的目的。

本领域的技术人员可以理解，在上面的步骤S211-S214中公开的降维处理方法实际上就是主成分分析法(principal Component Analysis，简称PCA)，该方法就是提取出数据中主要的成分，是一种数据压缩方法，在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用，也是机器学习中常见的降维方法。在PCA算法中，数据从原来的坐标系转换到新的坐标系，由数据本身决定，转换坐标系时以方差最大的方向作为坐标轴方向，因为数据的最大方差给出了数据的最重要的信息；第一个新坐标轴选择的是原始数据中方差最大的方法方向，第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向；重复该过程，重复次数为原始数据的特征维数。PCA算法作为一个非监督学习的降维方法，它只需要特征值分解，就可以对数据进行压缩、去噪，因此在实际场景应用很广泛。PCA算法的主要优点有：1)仅仅需要以方差衡量信息量，不受数据集以外的因素影响；2)各主成分之间正交，可消除原始数据成分间的相互影响的因素；3)计算方法简单，主要运算是特征值分解，易于实现；4)当数据受到噪声影响时，最小的特征值所对应的特征向量往往与噪声有关，舍弃能在一定程度上起到降噪的效果。

在另一个具体实施例中，见图3，通过第二降维处理方法来对第一网络模型的特征层进行降维处理，那么可以概括为步骤S221-S224，分别说明如下。

步骤S221，从第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵

其中，x表示特征数据，y表示特征数据的标签，n表示矩阵D的行数，m表示矩阵D的列数，i表示特征数据所在的行。例如，如果特征层有m个n维的特征数据，那么就可以形成n*m的矩阵X。

步骤S222，根据矩阵D计算类内散度矩阵

其中，X_i表示矩阵D中第i行的特征数据，u_i表示矩阵D中第i行特征数据的均值向量，上标T表示矩阵的转置运算。

并且，根据均值向量u_i计算类间散度矩阵

其中，u表示所有均值向量u_i的平均值。

步骤S223，根据类内散度矩阵S_w和类间散度矩阵S_b计算得到矩阵E＝S_w ^-1S_b，对矩阵E中的特征值进行排序，从排序中选取前d个特征值以及每个特征值对应的特征向量，按列形成投影矩阵Q。

步骤S224，利用矩阵Z＝Q^TD对第一网络模型的特征层进行降维处理，得到第一网络模型的新的特征层，其中矩阵Z是第一网络模型的新的特征层的特征数据投影后的坐标所形成的矩阵。

需要说明的是，在步骤S224中，可以通过z_i＝W^Tx_i得到每一个特征数据投影后的坐标，然后统计得到矩阵Z，通过集合{(z₁,y₁),(z₂,y₂),…，(z_i,y_i),，..,(z_m,y_m)}构成第一网络模型的新的特征层，其中，y_i为特征数据x_i的标签。

本领域的技术人员可以理解，在上面的步骤S221-S224中公开的第二降维处理方法实际上就是线性判别分析算法(Linear Discriminant Analysis，简称LDA)，该方法是模式识别的经典算法，基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。LDA算法就是在找一种最优的变换，将带上标签的向量(点)，通过投影(变换)的方法，投影更低维的空间，在这个低维空间中，同类样本尽可能接近，异类样本尽可能远离。浅显来讲，LDA算法的考虑是，对于一个多类别的分类问题，想要把它们映射到一个低维空间，如一维空间从而达到降维的目的，希望映射之后的数据间，两个类别之间“离得越远”，且类别内的数据点之间“离得越近”，这样两个类别就越好区分。因此LDA算法分别计算“within-class”的分散程度S_w和“between-class”的分散程度S_b，而我们希望的是S_b/S_w越大越好，从而找到最合适的映射向量。LDA算法的主要优点有：1)在降维过程中可以使用类别的先验知识经验；2)在样本分类信息依赖均值而不是方差的时候，比PCA算法的使用效果好。

步骤S300，通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对第二网络模型进行训练，得到第二网络模型对应的图像识别模型。在一具体实施例中，见图4，该步骤S300可以包括步骤S310-S330，分别说明如下。

步骤S310，根据降维处理后的第一网络模型和第二网络模型计算交叉熵，得到知识蒸馏的损失函数。所述损失函数表示为

其中，p为降维处理后的第一网络模型的特征层中每一特征维度对应的特征数据，q为所述第二网络模型的特征层中每一特征维度的特征数据，n为特征维度的总数目，i为特征维度的序号。步骤S320，通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，且利用知识蒸馏出的图像识别信息对第二网络模型进行训练时，根据损失函数确定第二网络模型向降维处理后的第一网络模型的学习程度。

步骤S330，将训练后的第二网络模型作为第二网络模型对应的图像识别模型。

在另一个具体实施例中，为了让第二网络模型吸收第一网络模型对于多余属性学习的知识，可以将相对熵损失函数和交叉熵损失函数进行结合，从而构建新的损失函数。其中，相对熵损失函数用来衡量两个分布之间的相异度，当两个随机分布相同时，它们的相对熵为零；当两个随机分布的差别增大时，它们的相对熵也会增大，可以用于衡量教师网络输出的分布和学生网络给输出的分布之间的相异度。其中，交叉熵损失函数往往用来表征真实样本标签和预测概率之间的差值，当预测概率与真实样本标签的差异增大时，它们的交叉熵也会增大，可以用于衡量学生网络预测的概率和真实样标签的差值。所以，将这两种损失函数进行混合后，就可以同时衡量第一网络模型输出的分布和第二网络模型输出的分布之间的相异度，以及衡量第二网络模型预测的概率和真实样本标签的差值。例如，可以混合的损失函数Loss表示知识蒸馏的损失函数：

Loss＝KL(p₂，q)*α*T²+CE(β，p₁)*(1-α)

其中，T为温度，KL为相对熵，CE为交叉熵，q为第一网络模型输出经过蒸馏后的结果，p₁为第二网络模型中的分类评定模型(logit模型)经过蒸馏后的结果，p₂为第二网络模型中分类评定模型(logit模型)经过蒸馏后的结果，β为数据集所给的真实标签信息，α为KL和CE在Loss中的比例参数。当α＝0的时候，第二网络模型就相当于一个使用交叉熵作为损失函数的深度卷积神经网络。

此外，本具体实施例中用降维后的第一网络模型和第二网络模型求交叉熵作为损失函数来训练模型。通过这样的训练，第二网络模型的训练标签中不仅仅有硬标签，同时还参考了第一网络模型输出的软标签，而软标签的信息熵更大，信息量更多，更有助于第二网络模型的训练。训练的结果是第二网络模型在模型尺寸远远小于第一网络模型的基础上，性能相同或者相近。

本领域的技术人员可以理解，通过上面的步骤S100-S300在构建图像识别模型的过程中，具有一些技术上的有益效果，主要包括：(1)由于对第一网络模型的特征层进行降维处理，使得第一网络模型的特征层的特征维度能够等于第二网络模型的特征层的特征维度，从而利于在相同的特征维度下对进行知识蒸馏处理，保证了第二网络模型向第一网络模型学习的有效性，为图像识别应用中模型特征层的知识蒸馏处理提供了可能性，避免了知识蒸馏方法在图像识别领域的应用局限性；(2)由于利用知识蒸馏处理对第一网络模型进行瘦身，在保证图像识别精度的前提下得到图像识别模型，使得该图像识别模型的模型复杂度低于原本的第一网络模型，性能却优于原本的第二网络模型，能够方便地应用于用户端。

实施例二、

请参考图6，在实施例一中公开的模型构建方法的基础上，本申请还提供一种基于知识蒸馏的图像识别方法，该图像识别方法包括步骤S410-S430，下面分别说明。

步骤S410，获取待检测物体的图像。在一具体实施例中，可以借助相机、摄像头等取像设备来获取待检测物体的图像，而这里的待检测物体可以是人脸、植物、建筑、汽车等。

步骤S420，根据预先构建的图像识别模型提取待检测物体的图像中的特征信息。

需要说明的是，这里的图像识别模型是实施例一中公开的模型构建方法而得到，这里不再进行赘述。

需要说明的是，根据已经建立好的学习模型对图像进行特征信息(如特征向量)的技术手段已经广泛应用于当前的图像处理工作中，技术人员可以不付出创造性劳动即可进行这一项工作，所以这里不再对其进行详细说明。

步骤S430，根据步骤S420中提取的特征信息对待检测物体进行识别。

例如，待检测物体是一个中国人，那么根据已经建立的第三学习模型可以很好地提取得到该中国人的一些面部特征信息，从而通过大数据运算在数据库中匹配该些面部特征信息，当匹配结果超过标准阈值时，就可以认为该中国人的人脸与数据库中相匹配的人脸高度类似，断定这两个人脸对应于同一个人，由此达到人脸识别的效果。由于这样的数据查询以及匹配过程属于现有技术，所以这里不再进行详细说明。

本领域的技术人员可以理解，通过上面的步骤S410-S430可以对待检测物体进行识别，在此过程中本技术方案还具有一些有益的技术效果，包括：由于请求保护的图像识别方法采用预先构建的图像识别模型来提取待检测物体的图像中的特征信息，根据图像识别模型的性能可以快速、准确地对图像中的特征信息进行提取，可以避免借助第一网络模型进行图像识别时引起的计算资源占用量大的情形发生，也可以避免借助第二网络模型进行图像识别时引起的识别准确率不高的情形发生，如此可有效提升用户在图像识别时的体验效果。

实施例三、

请参考图7，在实施例二中公开的图像识别方法的基础上，相应地，本申请还公开一种图像识别装置1，其主要包括图像获取单元11、特征提取单元12和物体识别单元13，下面分别说明。

图像获取单元11用于获取待检测物体的图像。具体地，图像获取单元11可以借助摄像头、相机等摄像设备，甚至是媒体视频来获取待检测物体的图像。关于图像获取单元11的具体功能可以参考实施例二中的步骤S410，这里不再进行赘述。

特征提取单元12用于根据预先构建的图像识别模型提取待检测物体的图像中的特征信息。该第三学习模型是实施例一中公开的模型构建方法而得到。关于特征提取单元12的具体功能可以参考实施例二中的步骤S420，这里不再进行赘述。

物体识别单元13与特征提取单元12连接，用于根据提取的特征信息对待检测物体进行识别。关于物体识别单元13的具体功能可以参考实施例二中的步骤S430，这里不再进行赘述。

进一步地，见图7，本实施例的图像识别装置1还包括与特征提取单元连接的模型构建单元14。在一具体实施例中，见图8，该模型构建单元14包括第一训练模块141、降维处理模块142和第三训练模块143，分别说明如下。

第一训练模块141用于通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于第二网络模型。

降维处理模块142与第一训练模块141连接，用于对第一网络模型的特征层进行降维处理，以使得第一网络模型的特征层的特征维度等于第二网络模型的特征层的特征维度。

第三训练模块143与第二训练模块142连接，用于通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对第二网络模型进行训练，建立得到第二网络模型对应的图像识别模型。

其中，降维处理模块142可以采用第一降维处理方法对第一网络模型的特征层进行降维处理，该第一降维方法为：

(1)从第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵X。

(2)对矩阵X的每一行特征数据进行零均值化处理，根据零均值化处理后的矩阵X′构建协方差矩阵C＝1/m·X′(X′)^T，其中，m表示矩阵X′的列数，上标T表示矩阵的转置运算。

(3)计算协方差矩阵C的各个特征值以及每个特征值对应的特征向量，将特征值从大到小进行排序，选取前k个特征值分别对应的特征向量组成矩阵W，其中k为第二网络模型的特征层的特征维度。

(4)利用矩阵Y＝W^TX对第一网络模型的特征层进行降维处理，得到第一网络模型的新的特征层，其中矩阵Y是第一网络模型的新的特征层的特征数据形成的矩阵。

其中，降维处理模块142还可以采用第二降维处理方法对第一网络模型的特征层进行降维处理，该第二降维方法为：

(1)从第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵

其中，x表示特征数据，y表示特征数据的标签，n表示矩阵D的行数，m表示矩阵D的列数，i表示特征数据所在的行。

(2)根据矩阵D计算类内散度矩阵其中，X_i表示矩阵D中第i行的特征数据，u_i表示矩阵D中第i行特征数据的均值向量，上标T表示矩阵的转置运算；根据均值向量u_i计算类间散度矩阵

其中，u表示所有均值向量u_i的平均值。

(3)根据类内散度矩阵S_w和类间散度矩阵S_b计算得到矩阵E＝S_w-¹S_b，对矩阵E中的特征值进行排序，从排序中选取前d个特征值以及每个特征值对应的特征向量，按列形成投影矩阵Q。

(4)利用矩阵Z＝Q^TD对第一网络模型的特征层进行降维处理，得到第一网络模型的新的特征层，其中矩阵Z是第一网络模型的新的特征层的特征数据投影后的坐标所形成的矩阵。

关于第一训练模块141、第二训练模块142、第三训练模块143的具体功能可以分别参考实施例一中的步骤S100、步骤S200、步骤S300，这里不再进行赘述。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种异维特征的模型构建方法，其特征在于，包括以下步骤：

通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，所述第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于所述第二网络模型；

对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度；

通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练，得到所述第二网络模型对应的图像识别模型。

2.如权利要求1所述的模型构建方法，其特征在于，所述对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度，包括：

从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵X；

对矩阵X的每一行特征数据进行零均值化处理，根据零均值化处理后的矩阵X′构建协方差矩阵C＝1/m·X′(X′)^T，其中，m表示矩阵X′的列数，上标T表示矩阵的转置运算；

计算协方差矩阵C的各个特征值以及每个特征值对应的特征向量，将特征值从大到小进行排序，从排序选取前k个特征值分别对应的特征向量组成矩阵W，其中k为所述第二网络模型的特征层的特征维度；

利用矩阵Y＝W^TX对所述第一网络模型的特征层进行降维处理，得到所述第一网络模型的新的特征层，其中矩阵Y是所述第一网络模型的新的特征层的特征数据形成的矩阵。

3.如权利要求1所述的模型构建方法，所述对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度，包括：

从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵其中，x表示特征数据，y表示特征数据的标签，n表示矩阵D的行数，m表示矩阵D的列数，i表示特征数据所在的行；

根据矩阵D计算类内散度矩阵

其中，X_i表示矩阵D中第i行的特征数据，u_i表示矩阵D中第i行特征数据的均值向量，上标T表示矩阵的转置运算；

根据均值向量u_i计算类间散度矩阵其中，u表示所有均值向量u_i的平均值；

根据类内散度矩阵S_w和类间散度矩阵S_b计算得到矩阵E＝S_w ^-1S_b，对矩阵E中的特征值进行排序，从排序中选取前d个特征值以及每个特征值对应的特征向量，按列形成投影矩阵Q；

利用矩阵Z＝Q^TD对所述第一网络模型的特征层进行降维处理，得到所述第一网络模型的新的特征层，其中矩阵Z是所述第一网络模型的新的特征层的特征数据投影后的坐标所形成的矩阵。

4.如权利要求1-3中任一项所述的模型构建方法，其特征在于，所述通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练，建立得到所述第二网络模型对应的图像识别模型，包括：

5.一种基于知识蒸馏的图像识别方法，其特征在于，包括：

获取待检测物体的图像；

根据预先构建的图像识别模型提取所述待检测物体的图像中的特征信息；所述图像识别模型是由权利要求1-4中任一项所述的模型构建方法而得到；

根据提取的特征信息对所述待检测物体进行识别。

6.一种图像识别装置，其特征在于，包括：

图像获取单元，用于获取待检测物体的图像；

特征提取单元，用于根据预先构建的图像识别模型提取所述待检测物体的图像中的特征信息；所述图像识别模型是由权利要求1-4中任一项所述的模型构建方法而得到；

物体识别单元，用于根据提取的特征信息对所述待检测物体进行识别。

7.如权利要求6所述图像识别装置，其特征在于，还包括与所述特征提取单元连接的模型构建单元，所述模型构建单元包括：

第一训练模块，用于通过样本图像训练得到用于图像识别的第一网络模型和第二网络模型，所述第一网络模型在图像识别信息的知识容量和特征层的特征维度方面均高于所述第二网络模型；

降维处理模块，用于对所述第一网络模型的特征层进行降维处理，以使得所述第一网络模型的特征层的特征维度等于所述第二网络模型的特征层的特征维度；

第二训练模块，用于通过知识蒸馏处理在降维处理后的第一网络模型和所述第二网络模型之间进行知识迁移，利用知识蒸馏出的图像识别信息对所述第二网络模型进行训练，建立得到所述第二网络模型对应的图像识别模型。

8.如权利要求7所述的图像识别装置，其特征在于，所述降维处理模块采用第一降维处理方法对所述第一网络模型的特征层进行降维处理，所述第一降维方法为：

计算协方差矩阵C的各个特征值以及每个特征值对应的特征向量，将特征值从大到小进行排序，选取前k个特征值分别对应的特征向量组成矩阵W，其中k为所述第二网络模型的特征层的特征维度；

9.如权利要求7所述的图像识别装置，其特征在于，所述降维处理模块采用第二降维处理方法对所述第一网络模型的特征层进行降维处理，所述第二降维方法为：

从所述第一网络模型的特征层获取所有的特征数据，将所有的特征数据按列形成矩阵

其中，x表示特征数据，y表示特征数据的标签，n表示矩阵D的行数，m表示矩阵D的列数，i表示特征数据所在的行；

根据矩阵D计算类内散度矩阵

根据均值向量u_i计算类间散度矩阵

其中，u表示所有均值向量u_i的平均值；

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-5中任一项所述的方法。