CN110852420B

CN110852420B - 一种基于人工智能的垃圾分类方法

Info

Publication number: CN110852420B
Application number: CN201911094491.XA
Authority: CN
Inventors: 李玲; 李嘉懿; 贺同路; 杨菲; 任永亮; 郭学栋
Original assignee: Beijing Intelligent Workshop Technology Co ltd
Current assignee: Beijing Intelligent Workshop Technology Co ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-04-13
Anticipated expiration: 2039-11-11
Also published as: CN110852420A

Abstract

本发明提供一种基于人工智能的垃圾分类方法，包括：第一步，划分数据集；读取垃圾数据集标注文件，所述垃圾数据集标注文件中包括预先设置的垃圾图片路径和该垃圾图片所对应的垃圾类别；将所有数据按照一定比例划分为训练集、验证集和测试集；第二步，确定循环学习率中学习率的最大值和最小值；第三步，通过确定了的循环学习率的最大值和最小值，通过循环学习率函数来得到当前模型优化的学习率，进而优化模型参数；第四步，模型测试；加载上述模型和参数，来对测试的垃圾图片进行类别预测，完成垃圾分类。

Description

一种基于人工智能的垃圾分类方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于人工智能的垃圾分类方法。

背景技术

现有的垃圾分类方法中，在模型参数优化方面，由于高维非凸优化问题存在大量鞍点(梯度为零但海森矩阵的特征值有正有负)，而不是局部极值，从而容易使得网络陷入鞍点而无法学习到最优的模型表达。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于人工智能的垃圾分类方法，使用循环学习率来优化模型参数并将其应用到垃圾分类的问题中，以解决现有使用不断减小的学习率造成模型陷入鞍点，导致垃圾分类模型预测精度不高的问题。

本发明提供的基于人工智能的垃圾分类方法，其特征在于，包括：

第一步，划分数据集；读取垃圾数据集标注文件，所述垃圾数据集标注文件中包括预先设置的垃圾图片路径和该垃圾图片所对应的垃圾类别；将所有数据按照一定比例划分为训练集、验证集和测试集；

第二步，确定循环学习率中学习率的最大值和最小值；

第三步，通过确定了的循环学习率的最大值和最小值，通过循环学习率函数来得到当前模型优化的学习率，进而优化模型参数；

第四步，模型测试；加载上述模型和参数，来对测试的垃圾图片进行类别预测，完成垃圾分类。

优选地，所述划分数据集为：

S101、开始。

S102、读取该垃圾数据集标注文件；该垃圾数据集标注文件包括预先设置的垃圾图片路径和该垃圾图片所对应的垃圾类别；将垃圾图片路径及其对应的垃圾类别加载到缓存中；

S103、使用分层抽样的方法将每个垃圾类别下的数据划分为训练子集、验证子集和测试子集；

S104、把不同垃圾类别下的训练子集、验证子集和测试子集合并到一起，构成做最终的训练集、验证集和测试集；

S105、结束。

优选地，所述垃圾数据集标注文件为csv表格文件。

优选地，将属于同一垃圾类别的图片路径及其对应类别统一存放，按照预先设置的比例划分训练子集、验证子集和测试子集。

优选地，确定循环学习率中学习率的最大值和最小值进一步包括：

S201、开始。

S202、搭建经典网络模型；

S203、设置模型目标函数；

S204、设置模型优化方法；

S205、迁移参数并作为模型的初始化参数；

S206、判断是否存在当前训练步骤的参数n；此处用n来控制模型是否停止训练；

S207、当判断结果为存在n时，将当前训练步骤参数n加一；

S208、当判断结果为不存在当前训练步骤参数n时，设置n＝1；

S209、判断当前训练步骤n是否大于N；其中N指在训练集上训练一个周期需要的步骤；

S210、如果当前步骤n小于等于N，加载批量训练数据和标签，并通过学习率查找函数得到当前学习率。

S211、如果当前步骤n大于N时，结束。

S212、根据目标函数得到损失，并利用反向传播和当前学习率优化模型参数；返回到S206。交叉熵目标函数具体公式如下：

其中x_i,y_i分别是第i个样本的输入和真实标签，m为样本总数量，θ代表网络中参数的集合，J表示交叉熵目标函数。

优选地，将学习率和对应的训练集的损失绘制横坐标为学习率，纵坐标为其对应损失大小的变化图，当损失开始出现大幅上升时停止。我们在损失最小值前一点选择一个损失还在减小的值来作为循环学习率变换范围的最大值，通常最大学习率为最小学习率的10倍。通过上述方式即得到最大学习率与最小学习率的范围。

优选地，所述模型优选方法为随机梯度下降方法。

优选地，交叉熵作为最终的目标函数。

优选地，所述通过循环学习率函数来得到当前模型优化的学习率，进而优化模型参数进一步包括：

S306、判断是否存在当前训练步骤的参数n；此处用n来控制模型是否停止训练。

S307、当判断结果为存在n时，将当前训练步骤参数n加一。

S308、当判断结果为不存在当前训练步骤参数n时，设置n＝1；

S309、判断当前训练步骤n是否大于M；

S310、如果判断结果为当前步骤n小于等于M，则加载批量训练数据和标签，并通过循环学习率函数得到当前学习率；

S311、如果判断当前步骤n大于M，结束。

S312、根据目标函数得到损失，并利用反向传播和当前学习率优化模型参数。交叉熵目标函数具体公式如下：

S313、加载批量验证数据和标签，并根据目标函数得到当前验证损失val_loss。

S314、判断最小验证损失是否小于当前验证损失。

当判断结果为满足时，转到步骤S306；

当判断结果为不满足时，转到步骤S315。

S315、当前验证损失小于最小验证损失时，设置最小验证损失的值为当前验证损失的值，并保存模型参数。操作完S315步骤，并返回到S306。

优选地，所述模型测试；加载上述模型和参数，来对测试的垃圾图片进行类别预测，完成垃圾分类进一步包括：

S401、开始。

S402、加载最优模型和参数。

S403、读取需要测试的垃圾图片数据。

S404、把读取的垃圾图片数据输入到模型中，进而得到预测的类别。

S405、结束。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1示出了根据本发明的一个实施例的数据集划分流程图；

图2示出了根据本发明的一个实施例的确定循环学习率中最大和最小学习率的流程图；

图3示出了根据本发明的一个实施例的学习率及批量训练集的损失对应图；

图4示出了根据本发明的一个实施例的使用循环学习率来优化模型的流程图；

图5示出了根据本发明的一个实施例的模型测试的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的基于人工智能的垃圾分类方法其具体实施方式、特征及其功效，详细说明如后。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

相关术语如下：

人工神经网络：简称神经网络(Neural Network，缩写NN)是一种模仿生物神经网络特别是大脑的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

深度学习：指在多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。

过拟合：由于特征维度过多，模型假设过于复杂，参数过多，训练数据过少，噪声过多，导致拟合的函数完美的预测训练集，但对新数据的测试集预测结果差。

卷积计算：通过两个函数f和g生成第三个函数的一种数学算子，表征函数f与g经过翻转和平移的重叠部分的面积。

卷积神经网络：卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

激活函数：为了增加神经网络模型的非线性，从而引入了激活函数。这样使得神经网络可以任意逼近任何非线性函数。

卷积层：卷积层主要由卷积计算和激活函数组成，目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

池化层：降低卷积层输出的特征向量，同时改善结果，使结构不容易出现过拟合。

全连接层：全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来，即把学习到的特征映射到样本标记空间的作用。

迁移学习：是一种机器学习方法，就是把为任务A开发的模型作为初始点，重新使用在为任务B开发模型的过程中。

ImageNet数据集：目前该数据集有1400多万幅图片，涵盖2万多个类别，其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

深度残差网络：深度残差网络(Deep residual network,ResNet)容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

反向传播算法：反向传播算法(Back Propagation，BP)是目前用来训练人工神经网络的最常用且最有效的算法。通过计算网络预测值与实际值之间的误差，并将该误差从神经网络末端进行反向传播。在反向传播的过程中，根据误差调整各种参数的值，不断迭代上述过程，直至收敛。

本发明提供了一种采用循环学习率的方法来优化模型参数从而提升模型预测精度。所述方法包括：

第一步，划分数据集。根据本发明一个优选实施方式，读取垃圾数据集标注文件，优选地，该垃圾数据集标注文件为csv表格文件(逗号分隔值表格文件)，该文件中包括预先设置的垃圾图片路径和该垃圾图片所对应的垃圾类别。根据本发明的一个优选实施方式，将所有数据按照一定比例划分为训练集、验证集和测试集。其中所述训练集是用来训练模型；所述验证集是用来评价模型对于问题的预测能力；所述测试集是用来检验模型在未知数据上的泛化能力。根据本发明的一个优选实施方式，为确保子集中数据分布符合整个数据集样本的概率密度分布，可采用分层抽样的方式。所述分层抽样的方式为，对于整个数据集样本的每个垃圾类别，在每个垃圾类别中分别按预定比例划分训练子集、校验子集和测试子集。然后将所有垃圾类别下的训练子集、校验子集和测试子集分别组合到一起，形成训练集、校验集和测试集。

第二步确定循环学习率中学习率的最大值和最小值。根据本发明一个优选实施方式，预先设置最大学习率范围为1e-5到1e-1之间。根据本发明一个优选实施方式，通过计算在不同学习率下批量训练集的损失变化来得到最终循环学习率的最大值和最小值。

第三步通过确定了的循环学习率的最大值和最小值，通过循环学习率函数来得到当前模型优化的学习率，进而优化模型参数。根据本发明一个优选实施方式，读取批量校验数据来衡量当前模型性能，不断保存最优模型和参数。这里设置循环学习率的原因是当学习率从最大值衰减到最小值时，模型可能会收敛到某个鞍点上，这时需要我们调大学习率来使模型跳出鞍点，重新寻找模型的极小值点。通过不断的使学习率在最大值和最小值之间变化，可以使模型收敛到不同的极小值点，这时通过在验证集上的验证结果来保存最优的模型参数。

第四步模型测试。通过加载上述模型和参数，来对测试的垃圾图片进行类别预测。

图1示出了根据本发明一个实施方式的数据集划分流程图，具体步骤如下所示：

S101、开始。

S102、读取该垃圾数据集标注文件，根据本发明的一个优选实施方式，所述垃圾数据集标注文件为csv表格文件(逗号分隔值表格文件)，该文件包括预先设置的垃圾图片路径和该垃圾图片所对应的垃圾类别；将垃圾图片路径及其对应的垃圾类别加载到缓存中。

S103、使用分层抽样的方法将每个垃圾类别下的数据划分为训练子集、验证子集和测试子集。根据本发明的一个优选实施方式，将属于同一垃圾类别的图片路径及其对应类别统一存放，按照预先设置的比例划分训练子集、验证子集和测试子集。根据本发明的一个优选实施方式，所述预先设置的比例为6:2:2，即在每个垃圾类别下按照6:2:2的比例划分训练子集、验证子集和测试子集。

S104、把不同垃圾类别下的训练子集、验证子集和测试子集合并到一起，构成做最终的训练集、验证集和测试集。根据本发明的一个优选实施方式，将训练集、验证集和测试集分别保存为train.csv(训练集表格文件)、validation.csv(校验集表格文件)和test.csv(测试集表格文件)。

S105、结束。

图2示出了根据本发一个优选实施方式的，考虑确定循环学习率中最大和最小学习率的流程图，具体步骤如下所示：

S201、开始。

S202、搭建经典网络模型；

根据本发明的一个优选实施方式，所述经典网络模型为50层深度残差网络。根据本发明的一个优选实施方式，只需搭建到经典模型中的全连接层之前就可以了。由于垃圾分类问题与其它现有大型数据集上的分类问题在分类的类别数量和类别特点都存在差异，因此针对垃圾分类问题中，需要对全连接层进行重新构建。

S203、设置模型目标函数；

根据本发明的一个优选实施方式，交叉熵作为最终的目标函数，即计算最小化交叉熵损失。交叉熵目标函数具体公式如下：

S204、设置模型优化方法；

根据本发明的一个优选实施方式，所述模型优选方法为SGD(随机梯度下降)方法。

S205、迁移参数并作为模型的初始化参数；

根据本发明的一个优选实施方式，使用迁移学习的方法，即将在大型数据集上训练的模型参数迁移过来；根据本发明的一个优选实施方式，只迁移全连接层之前的参数，并把这些参数作为该网络的初始化参数。

S206、判断是否存在当前训练步骤的参数n；此处用n来控制模型是否停止训练。

S207、当判断结果为存在n时，将当前训练步骤参数n加一。

S208、当判断结果为不存在当前训练步骤参数n时，设置n＝1。

S209、判断当前训练步骤n是否大于N；

这里的N指在训练集上训练一个周期需要的步骤。假设训练集数据量大小为ts，每次训练时加载的批量大小为bs，则N的计算公式为：

根据本发明的一个优选实施方式，通过train.csv(训练集表格文件)加载批量训练数据和标签，并把当前训练步骤传给学习率查找函数，进而得到当前的学习率。

根据本发明的一个优选实施方式，学习率查找函数为LRF，则当前的学习率计算公式为：

其中min_flr为学习率查找函数范围内最小的学习率值，通常默认为1e-5，max_flr为学习率查找函数范围内最大的学习率值，通常默认为1e-1。

S211、如果当前步骤n大于N时，结束。

S212、根据目标函数得到损失，并利用反向传播和当前学习率优化模型参数。

在分类问题中目标函数通常使用交叉熵函数，交叉熵的主要作用是用来衡量两个概率分布间的差异性信息，交叉熵定义如下：

假设现在有两个分布，p为真实样本分布，q为预测样本分布，则交叉熵用H(p,q)表示：

在本样例中具体来说，假设x_i,y_i分别是第i个样本的输入和真实标签，m为样本总数量，θ代表网络中参数的集合，J表示目标函数如下：

根据得到的目标函数，我们通过反向传播算法来优化模型参数。

根据本发明的一个优选实施方式，确定当前学习率和训练损失，为确定在循环学习率中最大和最小学习率奠定基础。操作完S212步骤，并返回到S206。

通过上述步骤，我们得到每个学习率及其对应的批量训练集的损失，根据学习率和对应的训练集的损失可以绘制横坐标为学习率，纵坐标为其对应损失大小的变化图。变化图具体如图3所示：

通过这个学习率和损失变化函数图可以看出从很低的学习率开始训练模型，然后让学习率不断增加，当损失开始出现大幅上升时停止。我们在损失最小值前一点选择一个损失还在减小的值来作为循环学习率变换范围的上界，在这个例子中，最大值学习率在1e-2到3e-2之间都可以。通常最大学习率为最小学习率的10倍。

通过上述方式即得到最大学习率与最小学习率的范围。

图4示出了使用循环学习率来优化模型的流程图，具体步骤流程图如下所示：

S301、开始。

S302、搭建经典网络模型；

S303、设置模型目标函数；

S304、设置模型优化方法；

S305、迁移参数并作为模型的初始化参数；

需要说明的是，执行S301-305的目的在于优化模型，而执行S201-205的目的在于选择学习率的取值范围。

S307、当判断结果为存在n时，将当前训练步骤参数n加一。

S308、当判断结果为不存在当前训练步骤参数n时，设置n＝1；

根据本发明的一个优选实施方式，设置最小验证损失min_val_loss为无穷大。

S309、判断当前训练步骤n是否大于M；

根据本发明的一个优选实施方式，这里的M指在训练集上训练e个周期需要的步骤。假设训练集数据量大小为ts，每次训练时加载的批量大小为bs，则M的计算公式为：

S310、如果判断结果为当前步骤n小于等于M，则加载批量训练数据和标签，并通过循环学习率函数得到当前学习率。

根据本发明的一个优选实施方式，通过train.csv(训练集表格文件)加载批量训练数据和标签，并把当前训练步骤n传给学习率查找函数，进而得到当前的学习率。假设循环学习率函数为LRC，则当前的学习率计算公式为：

上式中定义学习率从最小值到最大值再到最小值为一个周期，且定义学习率调整一个周期需在训练集上迭代c个周期。s表示当前步骤n相当于在学习率周期函数中的第s步。当s小于等于学习率半个周期时，当前步骤n对应的学习率为max_lr+(max_lr-min_lr)*s。当s大于学习率半个周期时，当前步骤n对应的学习率为

公式中max_lr为循环学习率函数中学习率的最小值，max_lr为循环学习率函数中学习率的最大值。

根据本发明的一个优选实施方式，循环学习率函数中学习率最大值和最小值为预先确定的。

S311、如果判断当前步骤n大于M，结束。

根据本发明的一个优选实施方式，通过validation.csv(验证集表格文件)加载批量验证数据和标签，并通过目标函数可以计算得到当前验证损失。

S314、判断最小验证损失是否小于当前验证损失。

当判断结果为满足时，转到步骤S306；

当判断结果为不满足时，转到步骤S315。

图4示出了根据本发明一个优选实施方式的模型测试的流程图，具体步骤流程图如下所示：

S401、开始。

S402、加载流程图3中保存的最优模型和参数。

S403、读取需要测试的垃圾图片数据。

S405、结束。

本发明设计的方法通过训练集在不同学习率查找函数下的训练损失值得到了最优的学习率范围，这样避免了盲目的设置学习率大小，从而节省了后续优化模型的时间。

本发明通过循环学习率方法来优化模型，可以避免模型收敛到鞍点导致模型精度不高的情况，同时通过设置多个循环周期可以使模型收敛到不同的极小值点，结合在校验集上的衡量来保存最优模型，从而进一步提升了模型预测的精度。

1.在对数据集进行划分时，采用对各个垃圾类别进行分层抽样的方法，确保了训练集、验证集和测试集数据分布的均衡。

2.在确定循环学习率最大最小值时，采用通过学习率查找函数在较大范围的学习率中进行筛选，避免了盲目设置学习率，加快了后续模型优化的时间。

3.在通过使用循环学习率的方法来优化垃圾分类模型，不仅避免了模型收敛到鞍点导致模型精度不高的情况，而且还可以通过把学习率循环多个周期来不断优化模型精度。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于人工智能的垃圾分类方法，其特征在于，包括：

第二步，确定循环学习率中学习率的最大值和最小值；

第四步，模型测试；加载上述模型和参数，来对测试的垃圾图片进行类别预测，完成垃圾分类；

确定循环学习率中学习率的最大值和最小值进一步包括：

S201、开始；

S202、搭建经典网络模型；

S203、设置模型目标函数；

S204、设置模型优化方法；

S205、迁移参数并作为模型的初始化参数；

S207、当判断结果为存在n时，将当前训练步骤参数n加一；

S208、当判断结果为不存在当前训练步骤参数n时，设置n＝1；

S210、如果当前步骤n小于等于N，加载批量训练数据和标签，并通过学习率查找函数得到当前学习率；其中当前的学习率计算公式为：

其中LRF为学习率查找函数，min_flr为学习率查找函数范围内最小的学习率值，max_flr为学习率查找函数范围内最大的学习率值；

S211、如果当前步骤n大于N时，结束；

S212、根据目标函数得到损失，并利用反向传播和当前学习率优化模型参数；返回到S206。

2.根据权利要求1所述的基于人工智能的垃圾分类方法，其特征在于，所述划分数据集为：

S101、开始；

S105、结束。

3.根据权利要求2所述的基于人工智能的垃圾分类方法，其特征在于，所述垃圾数据集标注文件为csv表格文件。

4.根据权利要求3所述的基于人工智能的垃圾分类方法，其特征在于，将属于同一垃圾类别的图片路径及其对应类别统一存放，按照预先设置的比例划分训练子集、验证子集和测试子集。

5.根据权利要求4所述的基于人工智能的垃圾分类方法，其特征在于，

将学习率和对应的训练集的损失绘制横坐标为学习率，纵坐标为其对应损失大小的变化图，根据变化图确定最大学习率和最小学习率的范围。

6.根据权利要求5所述的基于人工智能的垃圾分类方法，其特征在于，所述模型优化方法为随机梯度下降方法。

7.根据权利要求6所述的基于人工智能的垃圾分类方法，其特征在于，交叉熵作为最终的目标函数。

8.根据权利要求7所述的基于人工智能的垃圾分类方法，其特征在于，所述通过循环学习率函数来得到当前模型优化的学习率，进而优化模型参数进一步包括：

S306、判断是否存在当前训练步骤的参数n；此处用n来控制模型是否停止训练；

S307、当判断结果为存在n时，将当前训练步骤参数n加一；

S308、当判断结果为不存在当前训练步骤参数n时，设置n＝1；

S309、判断当前训练步骤n是否大于M；

S311、如果判断当前步骤n大于M，结束；

S312、根据目标函数得到损失，并利用反向传播和当前学习率优化模型参数；

S313、加载批量验证数据和标签，并根据目标函数得到当前验证损失val_loss；

S314、判断最小验证损失是否小于当前验证损失；

当判断结果为满足时，转到步骤S306；

当判断结果为不满足时，转到步骤S315；

S315、当前验证损失小于最小验证损失时，设置最小验证损失的值为当前验证损失的值，并保存模型参数；操作完S315步骤，并返回到S306。

9.根据权利要求8所述的基于人工智能的垃圾分类方法，其特征在于，所述模型测试；加载上述模型和参数，来对测试的垃圾图片进行类别预测，完成垃圾分类进一步包括：

S401、开始；

S402、加载最优模型和参数；

S403、读取需要测试的垃圾图片数据；

S404、把读取的垃圾图片数据输入到模型中，进而得到预测的类别；

S405、结束。