CN113822373A

CN113822373A - 一种基于集成与知识蒸馏的图像分类模型训练方法

Info

Publication number: CN113822373A
Application number: CN202111254249.1A
Authority: CN
Inventors: 叶翰嘉; 李岚; 詹德川; 姜�远
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2021-12-21
Anticipated expiration: 2041-10-27
Also published as: CN113822373B

Abstract

本发明公开一种针对类别不均衡数据的基于集成与知识蒸馏的图像分类模型训练方法，包括子模型训练步骤、集成学习步骤和模型融合步骤；首先收集待分类的图片的训练数据，包括每类的图片以及图片的类别信息，在真实的情况下，不同类别的数据的个数呈长尾分布特征，并在该数据上，训练多个不同的深度模型。然后使用这些不同的深度模型对训练数据提取特征，并在特征空间中对这些深度模型进行集成，最后利用知识蒸馏的方法把集成模型融合成一个复杂度更低的推理模型，降低推理的复杂度。本发明可以解决在类别不平衡的情况下进行图片分类的问题，并且本发明实施过程中占用资源少，适用性强。

Description

一种基于集成与知识蒸馏的图像分类模型训练方法

技术领域

本发明涉及一种基于集成与知识蒸馏的图像分类模型训练方法，属于计算机视觉技术领域。

背景技术

在计算机视觉领域，如何迅速准确的对一张图片进行分类至关重要。但目前大多数方法在训练时都是假设训练数据中每个类别的图片的个数是均衡的。然而，在现实中，大部分的数据都是呈长尾分布的，即有一些类别的数据非常常见，而有些类别则非常稀有，如何在这些数据上训练一个可以在所有类别上均有较好分类效果的模型是本项发明要解决的问题。

目前，不平衡数据上的图片分类方法大部分采用的都是在训练过程中通过修改训练损失函数让模型分类更加偏向稀有类来实现，这类方法会在提高稀有类分类性能时会降低常见类的分类性能，而使用集成的方法可以避免这种问题。同时，我们的方法也会解决模型集成所带来的推理时成本过高的问题。

发明内容

发明目的：常见的图片分类模型的假设都是进行训练的不同类别的数据数量是均衡的，不适用于不平衡数据情况下的图像分类，针对现有技术中存在的问题与不足，本发明提供一种在类别不平衡数据下基于集成学习和知识蒸馏的图像分类模型的训练方法。具体来说，首先使用不同的方法训练多个深度神经网络模型，然后利用这些不同的模型提取图片特征并使用这些图片特征对模型进行集成，最后，利用知识蒸馏将集成后的大模型融合成一个可以快速推理的小模型。

技术方案：一种基于集成与知识蒸馏的图像分类模型训练方法，应用于训练图片样本类别不平衡条件下对图片进行分类的场景，包括子模型训练步骤、集成学习步骤和模型融合步骤；所述子模型训练步骤中收集图像数据，训练多个异构的子模型；所述集成学习步骤中利用子模型对图像数据提取特征，并在特征空间中对这些深度模型进行集成，最后利用知识蒸馏的方法把集成模型融合成一个复杂度更低的推理模型。

子模型训练步骤具体为：

步骤100，收集用于训练的不同类别的图像数据(图片)，在真实情况下，不同类别的图像数据个数通常会呈长尾分布。

步骤101，构造多个(大于等于三个)异构的深度神经网络模型，其异构表现为模型的初始化方式不同，模型的结构不同等。

步骤102，利用收集到的图像数据使用经验风险最小化的方法分别训练这些深度神经网络模型，在训练的过程中保证不同的模型在训练时进行训练的图像数据样本的顺序不同，训练之后得到多个异构的子模型。

集成学习的步骤具体为：

步骤200，在一个子模型上，使用该模型提取训练数据中每张图片的特征(一般为深度神经网络中倒数第二层的输出，深度神经网络最后一层为分类器，剩余的部分为特征提取器)，通过每张图片的特征减去所有图片特征的均值的方法对特征进行中心化，然后计算每类图片的特征的均值作为类中心，并将该模型的类中心保存下来。

步骤201，将步骤200重复运用到每个训练好的子模型上，得到每张图片在每个子模型的类中心。

步骤202，每个子模型的特征提取器以及步骤200和201中保存的类中心参数构成了集成模型。集成模型的输入为图片，将图片传入每个子模型中，得到该图片在各个模型上的特征，然后计算该特征与每个类中心之间的距离，将不同子模型上计算的距离进行平均，得到集成后该图片到每个类别的距离，将该距离作为集成模型的输出。

模型融合的步骤具体为：

步骤300，根据用于推理设备的性能需求，构建和初始化一个神经网络作为最终的推理模型，一般来说，该神经网络的结构较前面所构建的网络来说更简单。

步骤301，将训练图片分别输入推理模型和集成模型，分别得到输出u,v(u,v均为向量，u_i,v_i分别为向量u,v的第i维)，然后使用针对不平衡数据的softmax将输出转换成概率分布

(

均为向量，

分别为向量

对应的维度值)：

其中，n为类别总个数，i为类别，a_i为最大类别样本个数与对应类别样本个数之间的比值，T为模型蒸馏时缩放参数。

步骤302，使用知识蒸馏的方法将集成模型的知识迁移到推理模型中，迁移时的损失函数为：

其中，CE代表交叉熵损失，y为样本的标记。

所述异构的深度神经网络模型，为结构和初始方式有差异的深度模型，具体表现为模型的深度、宽度不同，模型层各个层间的顺序不同，模型采用不同的随机方式进行初始化，进行随机初始化时使用不同的随机方式等。

所述经验风险最小化的方法训练，为使用交叉熵损失在深度神经网络模型中用随机梯度下降的方法训练。

一种基于集成与知识蒸馏的图像分类模型训练系统，应用在图片类别不平衡条件下实现对图像的分类下，包括子模型训练模块、集成学习模块和模型融合模块；所述子模型训练模块收集图像数据，训练多个异构的子模型；所述集成学习模块利用子模型对图像数据提取特征，并在特征空间中对这些深度模型进行集成；所述模型融合模块利用知识蒸馏的方法把集成模型融合成一个推理模型。

所述子模型训练模块：收集用于训练的不同类别的图像数据；构造多个异构的深度神经网络模型；利用收集到的图像数据使用经验风险最小化的方法分别训练这些深度神经网络模型，在训练的过程中保证不同的模型在训练时进行训练的图像数据样本的顺序不同，训练之后得到多个异构的子模型；

所述集成学习模块：在一个子模型上，使用所述子模型提取训练数据中每张图片的特征，通过每张图片的特征减去所有图片特征的均值的方法对特征进行中心化，然后计算每类图片的特征的均值作为类中心，并将该模型的类中心保存下来；获取每张图片在每个子模型的类中心；每个子模型的特征提取器以及类中心参数构成了集成模型；所述集成模型的输入为图片，将图片传入每个子模型中，得到该图片在各个模型上的特征，然后计算该特征与每个类中心之间的距离，将不同子模型上计算的距离进行平均，得到集成后该图片到每个类别的距离，将该距离作为集成模型的输出；

所述模型融合模块：构建和初始化一个神经网络作为最终的推理模型；将训练图片分别输入推理模型和集成模型，分别得到输出u,v，然后使用针对不平衡数据的softmax将输出转换成概率分布；使用知识蒸馏的方法将集成模型的知识迁移到推理模型中。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于集成与知识蒸馏的图像分类模型训练方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于集成与知识蒸馏的图像分类模型训练方法的计算机程序。

有益效果：与现有技术相比，本发明提供的基于集成与知识蒸馏的图像分类模型训练方法，使用集成学习的方法在不降低常见类分类效果的情况下，提升了稀有类的分类效果，同时利用知识蒸馏对模型进行融合，降低了使用模型进行推理的成本。

附图说明

图1为本发明实施例的训练子模型的流程图；

图2为本发明实施例的对子模型进行集成的流程图；

图3为本发明实施例的对模型进行融合得到推理模型的流程图；

图4为本发明实施例的网络结构示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

下面的实施例以移动设备上的鸟类图片分类为具体例子进行阐述，在真实的应用中，不同类型鸟类的数据收集难度的差异是非常大的，一些常见的鸟类，比如喜鹊，燕子，可以很方便的收集到大量的训练图片，而像一些稀有的保护动物，比如朱鹮，就只能收集到少量的图片。同时，模型可能要部署在一些移动的设备上进行识别，比如野外的摄像头，对模型的推理的复杂度有者严格的限制。

基于集成与知识蒸馏的图像分类模型训练方法，应用于训练图片样本类别不平衡条件下对图片进行分类的场景，包括子模型训练步骤、集成学习步骤和模型融合步骤。

如图1所示，训练子模型的流程：首先，开始收集鸟类图片数据(步骤10)，在实际情况下，不同种类的图片收集到的数量呈长尾分布。然后判断是否训练了N个需要集成的子模型(步骤11)，如果还没有训练，就需要进入训练的步骤，首先初始化子模型(步骤12)，初始的方式要和其他的子模型有差异，然后利用收集到的训练图片在初始化后的子该模型上进行训练(步骤13)，得到训练好的子模型，并保存起来(步骤14)。如果N个子模型均训练完成，则输出这些子模型(步骤15)，传给下一步使用。

如图2所示，对子模型进行集成的步骤流为：首先，输入已经收集好的训练图片和已经训练好的子模型(步骤20)，判断是否对全部子模型进行了特征提取(步骤21)，如果没有的话将全部训练的图片输入一个未进行特征提取的子模型中，提取出子模型的倒数第二层的输出，作为该图片的特征(步骤22)。然后对图片的特征进行中心化处理，中心化处理一般为该图片的特征减去所有图片特征的平均值(步骤23)。之后利用中心化处理后的图片特征和图片的标记计算每个类别在特征空间上的类中心，一般方法为计算每类图片样本特征的平均值作为图片所属类别的类中心(步骤24)，保存类中心和每个子模型的特征提取器构成集成模型(步骤25)。

如图3所示，模型训练步骤流程为：根据最后模型要部署设备的性能，初始化一个合适的复杂度的模型(一般是和上面子模型结构相同或者结构更简单的神经网络)(步骤31)，将训练的图片同时输入推理模型和集成模型，得到两个模型的输出(步骤32)，将模型的输出利用类别不平衡数据下的softmax函数转化成概率分布(步骤33)，使用知识蒸馏，利用得到的概率分布训练推理模型，将集成模型的知识迁移到推理模型中，最终得到训练完成的推理模型。

一种基于集成与知识蒸馏的图像分类模型训练系统，应用于训练图片样本类别不平衡条件下对图片进行分类的场景，包括子模型训练模块、集成学习模块和模型融合模块；子模型训练模块收集图像数据，训练多个异构的子模型；集成学习模块利用子模型对图像数据提取特征，并在特征空间中对这些深度模型进行集成；模型融合模块利用知识蒸馏的方法把集成模型融合成一个推理模型。

子模型训练模块：收集用于训练的不同类别的图像数据；构造多个异构的深度神经网络模型；利用收集到的图像数据使用经验风险最小化的方法分别训练这些深度神经网络模型，在训练的过程中保证不同的模型在训练时进行训练的图像数据样本的顺序不同，训练之后得到多个异构的子模型；

集成学习模块：在一个子模型上，使用子模型提取训练数据中每张图片的特征，通过每张图片的特征减去所有图片特征的均值的方法对特征进行中心化，然后计算每类图片的特征的均值作为类中心，并将该模型的类中心保存下来；获取每张图片在每个子模型的类中心；每个子模型的特征提取器以及类中心参数构成了集成模型；集成模型的输入为图片，将图片传入每个子模型中，得到该图片在各个模型上的特征，然后计算该特征与每个类中心之间的距离，将不同子模型上计算的距离进行平均，得到集成后该图片到每个类别的距离，将该距离作为集成模型的输出；

模型融合模块：构建和初始化一个神经网络作为最终的推理模型；将训练图片分别输入推理模型和集成模型，分别得到输出u,v，然后使用针对不平衡数据的softmax将输出转换成概率分布；使用知识蒸馏的方法将集成模型的知识迁移到推理模型中。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于集成与知识蒸馏的图像分类模型训练方法各步骤或基于集成与知识蒸馏的图像分类模型训练系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于集成与知识蒸馏的图像分类模型训练方法，其特征在于，应用于训练图片样本类别不平衡条件下对图片进行分类的场景，包括子模型训练步骤、集成学习步骤和模型融合步骤；所述子模型训练步骤中收集图像数据，训练多个异构的子模型；所述集成学习步骤中利用子模型对图像数据提取特征，并在特征空间中对这些深度模型进行集成，最后利用知识蒸馏的方法把集成模型融合成一个复杂度更低的推理模型。

2.根据权利要求1所述的基于集成与知识蒸馏的图像分类模型训练方法，其特征在于，所述子模型训练步骤具体为：

步骤100，收集用于训练的不同类别的图像数据；

步骤101，构造多个异构的深度神经网络模型；

3.根据权利要求1所述的基于集成与知识蒸馏的图像分类模型训练方法，其特征在于，所述集成学习的步骤具体为：

步骤200，在一个子模型上，使用所述子模型提取训练数据中每张图片的特征，通过每张图片的特征减去所有图片特征的均值的方法对特征进行中心化，然后计算每类图片的特征的均值作为类中心，并将该模型的类中心保存下来；

步骤201，将步骤200重复运用到每个训练好的子模型上，得到每张图片在每个子模型的类中心；

步骤202，每个子模型的特征提取器以及步骤200和201中保存的类中心参数构成了集成模型；所述集成模型的输入为图片，将图片传入每个子模型中，得到该图片在各个模型上的特征，然后计算该特征与每个类中心之间的距离，将不同子模型上计算的距离进行平均，得到集成后该图片到每个类别的距离，将该距离作为集成模型的输出。

4.根据权利要求1所述的基于集成与知识蒸馏的图像分类模型训练方法，其特征在于，所述模型融合的步骤具体为：

步骤300，构建和初始化一个神经网络作为最终的推理模型；

步骤301，将训练图片分别输入推理模型和集成模型，分别得到输出u,v，然后使用针对不平衡数据的softmax将输出转换成概率分布：

其中，n为类别总个数，i为类别，a_i为最大类别样本个数与对应类别样本个数之间的比值；

其中，CE代表交叉熵损失，y为样本的标记。

5.根据权利要求1所述的基于集成与知识蒸馏的图像分类模型训练方法，其特征在于，所述异构的深度神经网络模型，为结构和初始方式有差异的深度模型，具体表现为模型的深度、宽度不同，模型层各个层间的顺序不同，模型采用不同的随机方式进行初始化，进行随机初始化时使用不同的随机方式。

6.根据权利要求2所述的基于集成与知识蒸馏的图像分类模型训练方法，其特征在于，所述经验风险最小化的方法训练，为使用交叉熵损失在深度神经网络模型中用随机梯度下降的方法训练。

7.一种基于集成与知识蒸馏的图像分类模型训练系统，其特征在于，应用在图片类别不平衡条件下实现对图像的分类下，包括子模型训练模块、集成学习模块和模型融合模块；所述子模型训练模块收集图像数据，训练多个异构的子模型；所述集成学习模块利用子模型对图像数据提取特征，并在特征空间中对这些深度模型进行集成；所述模型融合模块利用知识蒸馏的方法把集成模型融合成一个推理模型。

8.根据权利要求7所述基于集成与知识蒸馏的图像分类模型训练系统，其特征在于，所述子模型训练模块：收集用于训练的不同类别的图像数据；构造多个异构的深度神经网络模型；利用收集到的图像数据使用经验风险最小化的方法分别训练这些深度神经网络模型，在训练的过程中保证不同的模型在训练时进行训练的图像数据样本的顺序不同，训练之后得到多个异构的子模型；

9.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的基于集成与知识蒸馏的图像分类模型训练方法。

10.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的基于集成与知识蒸馏的图像分类模型训练方法的计算机程序。