CN111783839A

CN111783839A - 一种基于自动集成学习的图像分类方法

Info

Publication number: CN111783839A
Application number: CN202010514171.1A
Authority: CN
Inventors: 王非; 杨珺
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-10-16

Abstract

本发明公开了一种基于自动集成学习的图像分类方法，属于图像分类领域。包括：使用标准学习率策略对图像分类模型进行预训练；对图像分类模型设定正式训练的超参数；将学习率从最大值开始自适应下降，直至模型收敛，收集到第一个模型；使学习率从最小值开始自适应增加至设定值；使学习率再次从最大值开始自适应下降，直至模型收敛，收集到下一个模型；利用多样性度量标准，保证收集到的相邻模型之间的多样性；将待分类的图像数据集输入至收集到的模型，对各个模型的预测结果进行加权集成，得到图像分类结果。本发明可以在一次训练中尽可能多的收集到精度和多样性都足够高的模型，有利于提高后续模型集成精度，进而提高图像分类的准确度。

Description

一种基于自动集成学习的图像分类方法

技术领域

本发明属于图像分类领域，更具体地，涉及一种基于自动集成学习的图像分类方法。

背景技术

目前，集成学习方法作为一种提高模型性能的策略，被广泛用于解决图像分类中的精度和泛化问题。常用的集成学习方法将基础学习算法重复应用于可训练的数据，得到多个分类器，在实际分类时结合多个分类器的输出，汇总投票得出最终的分类结果，通常可获得比单一学习器显著优越的性能。通过不同的初始化条件、调度学习率等方法可以收集到不同的网络模型。但是单独训练不同的网络所需的计算成本较大，在集成的过程中需要考虑个体学习器收集的方式、模型的数量、用于加权的权重等。为了收集不同的模型，需要多次训练网络，由于训练多个单一模型所需的计算成本较大，随着深度神经网络的参数指数性增长，平行的训练多个网络往往需要持续数周，集成学习变得不经济。在现有的集成学习的方法中，循环学习率策略是一个可以快速收集多个模型的方法：利用神经网络的非凸性和SGD(stochastic gradient descent，随机梯度下降)根据需要收敛和逃离局部最优解的特点，可以在一次训练中收集多个不同的模型，这种方法减少了训练的成本，能快速收集到多个模型。

但是现有的循环学习率的集成算法，存在以下几个普遍的问题：

1)实验过程存在大量的超参数，包括学习率范围、循环周期和集成模型的数目等，需要人工干预设定超参数，这往往是一个需要多次实验获取经验值的过程。传统的循环学习率的学习率范围和循环周期是固定值，因此在一个完整的循环周期内无法保证收集到期望的局部最优解，极大的限制了模型在损失空间搜索局部最优解的过程。

2)集成学习对个体模型有两个要求：模型的精度要高以及模型之间的多样性要大。但是循环学习率无法保证模型的多样性，以往的循环学习率方法通过改变循环周期的大小来定性的调整模型间的多样性，循环周期越大，模型间的多样性就越大，但是这种方法依然无法保证足够多样。

综上所述，现有循环学习率的集成算法方法极大的限制了模型在损失空间搜索局部最优解的过程，且无法保证收集到的模型的多样性，限制了图像分类结果的精度。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于自动集成学习的图像分类方法，其目的在于改进现有的集成学习算法，提高图像分类结果的精度。

为实现上述目的，本发明提供了一种基于自动集成学习的图像分类方法，包括：

S1.使用标准学习率策略对初始图像分类模型进行设定轮次的预训练；

S2.对所述图像分类模型设定正式训练的超参数，包括学习率范围、学习率下降和上升阶段的学习率变化率；

S3.将学习率从设定的学习率最大值开始自适应下降，直至模型收敛，收集到第一个图像分类模型；

S4.使学习率从最小值开始自适应增加至设定值；

S5.使学习率从设定的学习率最大值开始自适应下降，直至模型收敛，收集到下一个图像分类模型；

S6.利用多样性度量标准，保证收集到的相邻模型之间的多样性；

S7.重复S4-S6直至达到循环停止条件；

S8.将待分类的图像数据集输入至收集到的模型，对各个模型的预测结果进行加权集成，得到图像分类结果。

进一步地，步骤S1采用的标准学习率策略为以下形式：

其中，lr表示学习率，L为模型收敛所需的训练轮次，c为常数，n为训练迭代的轮次数。

进一步地，步骤S1所述设定轮次为模型收敛所需轮次的70％-80％。

进一步地，步骤S2中学习率范围的设定步骤包括：

01.对初始图像分类模型训练设定的轮次，使学习率在0～1范围内线性上升；

02.绘制训练精度随学习率变化的曲线，将训练精度上升速率最大时对应的最小学习率设定为学习率最小值α₁，将训练精度变化缓慢或开始下降时对应的学习率设定为学习率最大值α₂；α₁与α₂之间相差两个数量级。

进一步地，步骤S3、S5中学习率lr按照以下公式进行自适应下降；

其中，α₂为设定的学习率最大值，α₁为设定的学习率最小值，β为学习率下降阶段的变化率，

n为训练迭代的轮次数，N为学习率从最大值到最小值所需的轮次。

进一步地，步骤S4中学习率lr按照以下公式进行自适应增加；

其中，n代表训练轮次，M是截止到当前的局部最优解，总经历的训练轮次数，m是学习率快速上升阶段的轮次数，lr_now是学习率快速上升阶段结束时的学习率，β₁为快速上升阶段的学习率变化率，

β₂为探索损失平面阶段的学习率变化率，

进一步地，步骤S6具体包括：

S6.1.在收集模型的过程中记录三个权重：模型在收敛到局部最优时的权重以及相邻两处学习率上升到最高点时模型的权重；上述权重均为模型最后一层全连接层的权重；

S6.2.通过以下公式保证收集到的相邻模型之间的多样性；

d₂>α·d₁

其中，d₁为上一轮循环学习率达到最高时和当前循环收敛到局部最优时模型的权重之间的欧式距离，d₂为当前循环中收敛到局部最优时和学习率上升到最高时模型的权重之间的欧式距离，α为设定值，1<α<2。

进一步地，步骤S7中所述循环停止条件根据收集模型的精度变化量确定，具体过程为：若随着模型数目的增加，模型精度连续低于设定阈值，则当学习率达到上限值时使循环停止；若随着模型数目的增加，模型精度始终保持在稳定范围内，则当收集到的模型达到设定数目时使循环停止。

进一步地，步骤S8按照以下公式对各个模型的预测结果进行加权集成；

其中，w_i为收集到的模型θ_i的权重，

为收集到的模型预测结果，T为收集到的模型总个数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)在收集模型的过程中，学习率的范围和循环周期等参数自适应变化，使一次训练中模型自动收敛和逃离局部最优解，不需要人为设定，极大的减少了人工设计网络模型的工作量；同时通过引入多样性度量标准，保证每次收集到模型的多样性，可以在一次训练中尽可能多的收集到精度和多样性都足够高的模型，有利于提高后续模型集成的精度，进而提高图像分类的准确度。

(2)不同于简单平均的集成方法，本发明使用了一种加权平均的集成方法，为每个模型赋予不同的权重进行加权，进一步提高模型集成精度。

附图说明

图1是基于自动集成学习的图像分类方法流程图；

图2是训练过程中模型探索损失曲面的示意图；

图3是步骤S2中用于选定学习率变化范围的训练精度随学习率变化的曲线图；

图4是本发明实施例中学习率的调度曲线，包括模型精度和损失的变化曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例提供了一种基于自动集成学习的图像分类方法，包括：

具体地，标准学习率策略为以下形式：

其中，lr表示学习率，L为模型收敛所需的训练轮次。

预循环的设定轮次为模型收敛所需轮次的70％-80％，本发明实施例设定为模型收敛所需轮次的75％。

具体地，学习率范围的设定步骤包括：

02.绘制训练精度随学习率变化的曲线，将训练精度上升速率最大时对应的最小学习率设定为学习率最小值α₁，将训练精度变化缓慢或开始下降时对应的学习率设定为学习率最大值α₂；α₁与α₂之间相差两个数量级(即α₁/α₂＝10^-2)。

S3.将学习率从设定的学习率最大值开始下降，到最小值时保持不变，直至模型收敛，收集到第一个图像分类模型；

具体地，学习率lr按照以下公式进行自适应下降；

n为训练迭代的轮次数，N为学习率从最大值下降到最小值所需的训练轮次。

S4.使学习率从最小值开始自适应增加至设定值；

学习率lr按照以下公式进行自适应增加；

β₂为探索损失平面阶段的学习率变化率，

a、b为常数，需满足a<b<1，本发明实施例a、b分别为0.1、0.2。

S5.使学习率从设定的学习率最大值开始自适应下降，直至模型收敛，收集到下一个图像分类模型；学习率依然按照公式(2)进行自适应下降。

步骤S6具体包括：

S6.2.通过以下公式保证收集到的相邻模型之间的多样性；

d₂>α·d₁ (4)

其中，d₁为上一轮循环学习率达到最高时和当前循环收敛到局部最优时模型的权重之间的欧式距离，d₂为当前循环中收敛到局部最优时和学习率上升到最高时模型的权重之间的欧式距离。

训练时只用调节α的值，就可以保证模型之间的多样性。为了保证后续收集到的模型跟上一个收集到的模型的不同，从收集到第二个模型开始，用这种多样性度量的方法收集模型。α的值通常设置在1～2的范围内，其大小随模型的变化而有所调整。

S7.重复S4-S6直至达到循环停止条件；

循环停止条件根据收集的模型精度变化确定，具体过程为：若随着模型数目的增加，模型精度连续低于设定阈值，则当学习率达到所设上限值时使循环停止，即lr>lr_max；若随着模型数目的增加，模型精度保持在指定的范围内波动，则当收集到的模型达到设定数目时使循环停止，即COUNT_MODEL>M；本发明实施例在收集过程中持续更新模型精度的范围，计算相邻5个模型的平均精度以及方差，由此确定期望的模型精度范围：

(acc_mean-3*acc_std)≤acc≤(acc_mean+3*acc_std) (5)

其中，acc_mean为相邻5个模型精度的均值，acc_std为相邻5个模型精度的方差，在收集模型的过程中均值和方差是随时更新的，acc为模型的精度。当随后收集到的模型精度小于该范围的最小值时，利用学习率设置停止条件；当收集模型的精度始终维持在期望的精度范围内时，利用收集模型的个数设置停止条件。一般收集10～15个模型即可，因为收集过多的模型需要大量的计算资源。

按照以下公式对各个模型的预测结果进行加权集成；

其中，w_i为赋予给收集到的模型θ_i的权重，

为模型θ_i的预测结果，T为收集到的模型总个数。

w_i利用次级学习器的方法获取，具体过程如下：

(1)设计一个只有单层全连接层的网络，网络的权重被初始化为一个全1的T维数组，T为收集到模型的数目，由于模型的权重是用于加权集成的权重，在训练时需限制权重的值非负；

(2)划分一个验证集用于训练全连接网络，该验证集通过划分一部分训练集通过数据增强等方式生成；

(3)对收集到的每一个模型θ₁…θ_T，获得其预测的softmax输出s_θ(x)，将其作为训练该全连接网络的输入数据，需要训练的全连接网络为F(x)，则：

全连接网络模型的输出则为加权集成的结果

此处W_i表示未训练的权重，将其与验证集的标签y联合求交叉熵损失loss，以此来优化加权集成的权重。

得到训练好的全连接网络后，进行加权集成的具体过程如下：

(1)把测试集的数据通过每个需要集成的模型之后，得到每个模型的预测结果

将它们拼接成为一个数组

将此数组作为全连接网络的输入。

(2)全连接网络的预测结果即为加权投票的结果，以此跟测试集的标签(label)对比计算测试精度。

图2为本发明提供的方法在收集模型的过程中损失曲面示意图，用颜色的深浅来区分损失的高低，颜色较深的区域表示损失较小的区域，颜色较浅的区域表示损失值较大。图中展示了两种学习率策略，其中标准学习率策略如图“Traditional SGD”虚线曲线所示，在训练过程中模型搜索损失曲面的速度较慢，本发明提供的自适应循环学习率策略如图“Auto Adaptive”实线曲线所示，模型在探索损失曲面的过程中，可以迅速搜索局部最优解，然后从中逃离，继续搜索下一个不同的局部最优解。这种方法可以保证每次收集到的模型都位于不同的局部最优解，因此模型之间的多样性较高。

本发明以VGG16(该模型是一个由卷积层和全连接层组成的卷积网络，总共有16层)为例，具体说明上述方法的实施过程。

步骤1，在开始调度学习率之前，需要对模型进行预训练。使用标准学习率策略，预训练的轮次为模型收敛所需轮次的75％，VGG16预训练的轮次数为150。

步骤2在开始正式训练之前，选定初始的学习率范围，具体步骤如下：

(1)在CIFAR10(由来自10个不同类别的共60000张图片组成，每类6000张图片。CIFAR10数据集被划分为50000张训练集图片和10000张测试集图片。)数据集上训练VGG16，让学习率从0缓慢增加到1，绘制模型的训练精度随学习率变化的曲线，如图3所示；

(2)观察精度变化曲线，将训练精度明显提升的最小学习率区间范围作为学习率最小值α₁的备选区间，将精度变化缓慢甚至开始下降时的学习率区间范围作为学习率的最大值α₂的备选区间，通常选择α₁和α₂相差至少一个数量级。由图3可知，选定学习率的范围为0.01～0.4。

步骤3，开始收集用于集成的模型，训练步骤如下：

(1)学习率从α₂开始以变化率β下降，到α₁时保持不变，直至搜索到第一个局部最优解，保存此时模型的权重：判断模型是否收敛可以观察训练的损失，如果损失收敛不再发生变化或者变化在一个极小的范围内(通常为0.0001)，即可收集当前的模型。

(2)随后学习率上升，分为两个阶段：(a)快速上升阶段：以变化率β₁开始快速上升，VGG16模型快速上升阶段训练轮次为50；(b)探索损失平面阶段：经过第一阶段的上升，模型已经逃出当前最优解，学习率开始以变化率β₂缓慢上升；其中，

步骤4，通过多样性度量标准判断是否进入下一轮模型收集：

(1)在只收集到一个模型时，无法用多样性度量的标准搜集下一个模型，因为此时无法计算两个模型间的距离，此时可以在学习率上升第一阶段结束后，学习率立即开始下降，继续搜集下一个模型。

(2)从收集到第二个模型开始，使用多样性度量标准搜集模型。如图4所示，d₁和d₂由虚线箭头标出，度量的是模型在相邻两个学习率的极大值之间的多样性。学习率按变化率β₂上升，直到满足d₂>α·d₁，VGG16选择α的值为1.8，学习率停止上升，此时学习率已经上升到远比α₂大的值。

步骤5，重复步骤3～4，继续收集模型。

步骤6，在收集VGG16模型时，发现能持续收集到高精度的模型，因此限制模型的数目来作为训练停止的条件：COUNT_MODEL>10，即收集到10个模型时，停止训练。

步骤7，对收集到的模型用加权平均的方法进行集成，其步骤如下：

(1)设置一个全连接网络对收集到的模型进行加权集成，该全连接网络只有一层全连接层，模型的权重则是用于加权集成的权重。按照以下公式进行集成：

其中w_i是个体学习器，即收集到的模型h_i的权重，要求w_i≥0；

(2)为了训练该全连接网络的权重，从CIFAR10训练集中通过数据增强等方式生成验证集，验证集的大小一般为训练集的1/10或1/5。验证集用于学习权重，再用测试集测试精度。

(3)在训练全连接网络时，为了便于训练，把验证集输入所有的个体模型后得到的softmax输出保存生成一个数据集，每一张图片对应一个n×m×1的数组，其中n为模型数目，m为数据集类别数，该数组表示n个模型对输入图片的预测向量(m维)的集合。同时，把CIFAR10测试集输入个体模型的输出也保存为一个测试集，这个测试集用于测试全连接网络的性能。

(4)得到训练集和测试集后，开始训练全连接网络，设置学习率为0.01或0.001，训练轮次数为20～40，训练交叉熵损失。

(5)训练结束后，把测试集通过全连接网络，得到的预测输出即为加权集成的预测结果，为一个m维的向量。将其与测试集的标签对比得到最后的测试精度。

用以上加权集成的方法能明显的改善集成精度，且能够平滑模型精度的差异。

实验证明，运用本发明提出的方法进行集成，VGG16在CIFAR10数据集上的精度达到了93.93％，跟用标准学习率策略训练的单一模型相比，提高了1.01％。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自动集成学习的图像分类方法，其特征在于，包括：

S4.使学习率从最小值开始自适应增加至设定值；

S7.重复S4-S6直至达到循环停止条件；

2.根据权利要求1所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S1采用的标准学习率策略为以下形式：

3.根据权利要求1或2所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S1所述设定轮次为模型收敛所需轮次的70％-80％。

4.根据权利要求1所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S2中学习率范围的设定步骤包括：

5.根据权利要求4所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S3、S5中学习率lr按照以下公式进行自适应下降；

6.根据权利要求4或5所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S4中学习率lr按照以下公式进行自适应增加；

β₂为探索损失平面阶段的学习率变化率，

a<b<1。

7.根据权利要求1-6任一项所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S6具体包括：

S6.2.通过以下公式保证收集到的相邻模型之间的多样性；

d₂>α·d₁

8.根据权利要求1-7任一项所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S7中所述循环停止条件根据收集模型的精度变化量确定，具体过程为：若随着模型数目的增加，模型精度连续低于设定阈值，则当学习率达到上限值时使循环停止；若随着模型数目的增加，模型精度始终保持在稳定范围内，则当收集到的模型达到设定数目时使循环停止。

9.根据权利要求1-8任一项所述的一种基于自动集成学习的图像分类方法，其特征在于，步骤S8按照以下公式对各个模型的预测结果进行加权集成；

其中，w_i为收集到的模型θ_i的权重，

为收集到的模型预测结果，T为收集到的模型总个数。