CN109934255A

CN109934255A - 一种适用于饮料瓶回收机投递物分类识别的模型融合方法

Info

Publication number: CN109934255A
Application number: CN201910056763.0A
Authority: CN
Inventors: 唐军; 张�林; 宋怡彪; 杨路; 苏泉; 周森标
Original assignee: Xiao Huang Dog Environmental Protection & Technology Co Ltd
Current assignee: Xiao Huang Dog Environmental Protection & Technology Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-06-25
Anticipated expiration: 2039-01-22
Also published as: CN109934255B

Abstract

本发明公开了一种适用于饮料瓶回收机投递物分类识别的模型融合方法，其包括以下步骤：第一步，在inception‑v3模型基础上、使用bottleneck的方式、通过训练不同的数据量分别得到深度卷积神经网络模型model_1、model_2，将yolov3‑tiny的24层结构修改为32层结构，通过训练指定量数据样本得到深度卷积神经网络模型model_3；第二步，在同一测试集上，得到model_1、model_2、model_3三个模型各自的正确数据集，将model_1、model_2两个模型的正确数据集取交集，再和model_3的正确数据集取并集，得到最终的识别数据集。

Description

一种适用于饮料瓶回收机投递物分类识别的模型融合方法

技术领域

本发明属物品回收技术领域，涉及饮料瓶回收机，具体涉及一种适用于饮料瓶回收机投递物分类识别的模型融合方法。

背景技术

目前，饮料瓶回收机投递物分类识别方法主要有如下几类。第一种，基于通用的数字图像处理技术，通过拍摄饮料瓶回收机投递物的数字图像，分析其轮廓特征、光线强弱特征、颜色特征、局部区域模板特征以及投递物附属条形码特征等信息中的一种或者多种组合，得到分类识别的决策方案，以此对饮料瓶回收机的投递物进行分类识别。但是，由于饮料瓶在种类、形状及包装等属性上的多样性，伴随着饮料瓶新品种和新包装的不断更替，再加上饮料瓶回收机投递物数字图像的采样时环境的多变性，拍摄得到的数字图像跟期望的效果相比会有各种各样的偏差，这些偏差将干扰传统的图像处理技术对饮料瓶回收机投递物做出正确判断，相应的投递物的误收或误判情况也会越来越多，最终影响到客户的智能投递体验与积极性。第二种，使用特征提取方法结合传统的机器学习方法对饮料瓶回收机投递物进行分类识别。先对拍摄的数字图像使用SIFT(即尺度不变特征转换，ScaleInvariant Feature Transform)、SURF(即加速稳健特征，Speeded Up Robust Feature)等算法提取图片的底层特征，然后对提取到的底层特征进行编码，再对编码后的特征使用k-means算法进行聚类，最后使用SVM(即支持向量机，Support-Vector-Machine)等分类器对聚类后的特征进行分类，在此基础上依据分类结果对投递物进行类别判断。不足在于，要提取投递物的有效特征，对拍摄的数字图像质量要求较高。由于现场环境差异存在，再考虑到各种配套硬件故障的不可预见性，实际拍摄的数字图像通常会有噪声、震荡、重影、局部不全以及光线暗淡等问题出现，这些问题都会影响图像特征提取的效果，导致提取的特征不能很好反映投递物本质的信息。鉴于上述原因，机器学习算法结合特征提取的方法分类识别效果往往不佳。虽然可以通过提高回收机配套相机的性能来获得效果更好的数字图片，但是考虑到回收机的成本和批量投放的因素，该方案可行度也不高。第三类，基于深度卷积神经网络模型的分类识别方法。深度卷积神经网络对于图片深层语义信息的提取具有非常好的效果，随着人工智能技术研究的深入，深度卷积神经网络在视觉识别领域也取得了瞩目的成绩。但是深度卷积神经网络通常隐藏层很多，因而其包含的参数数量非常巨大，重头开始训练一个模型，数据不足，训练周期长是常见的问题。再者，网络参数增加使得模型复杂度增加，进一步导致调参难度增大，最终训练模型效果通常不佳。另外，目前主要采用某种方案训练的单一深度卷积神经网络模型来对物体做分类识别，这种方式得到的模型其泛化能力通常难以满足期望的要求。

发明内容

为了解决数字图像处理方法对多变采样环境下投递物分类识别效果不佳、传统机器学习方法结合特征提取法对硬件过于依赖、以及使用深度学习训练的单模型泛化能力一般的问题，本发明提供一种适用于饮料瓶回收机投递物分类识别的模型融合方法，在一定量的数据基础上，使用迁移学习法训练两个inception-v3深度卷积神经网络模型和一个在yolov3-tiny结构基础上改进的yolov3-tiny32结构深度卷积网络模型，通过模型融合方法将上述三个模型进行融合，使用较少的数据进行训练就能明显提高饮料瓶回收机投递物的识别准确率，实现较好的识别效果。

本发明采用的技术方案是:一种适用于饮料瓶回收机投递物分类识别的模型融合方法，包括以下步骤：

第一步，在inception-v3模型基础上、使用bottleneck的方式、通过训练不同的数据量分别得到深度卷积神经网络模型model_1、model_2，将yolov3-tiny的24层结构修改为32层结构，通过训练指定量数据样本得到深度卷积神经网络模型model_3；

第二步，在同一测试集上，得到model_1、model_2、model_3三个模型各自的正确数据集，将model_1、model_2两个模型的正确数据集取交集，再和model_3的正确数据集取并集，得到最终的识别数据集；

--所述深度卷积神经网络模型model_3第9-17层增加了卷积核数目分别为128、256、512、1024及512的卷积层和池化层，第18层到22层使用两次1X1的卷积层。

深度卷积神经网络模型model_1的训练与测试步骤如下：

第1步，下载脚本程序框架并保存到指定路径：从tensorflow官方下载提供的图像重新训练程序，其中主要调用tensorflow-master文件夹中的retrain.py脚本程序文件。将其保存至指定路径中；

第2步，在指定路径下建立文件夹retrain：retrain文件夹中建立data、bottleneck、testimages三个子文件夹，其中，data文件夹用来存放待训练的图像数据；bottleneck文件夹用于保存inception卷积层提取出来的特征文件，格式为txt文档；testimages文件夹用来存放测试数据；

第3步，准备数据集：在data文件夹中建立train文件夹，将待分类物品分为bottle(饮料瓶类)，can(易拉罐类)，other(其他杂类)三个类别，每个类别各1000张图片，训练样本图片的像素规格W×H为755×362，注：每个种类的图片放在一个文件夹下面，图片文件夹的名字就是图片类别的名字，文件夹名为英文格式；

第4步，训练模型；

第5步，测试模型：执行完第4步后得到模型model_1，载入训练好的新模型model_1，对test_images测试集中的图片类型进行分类识别测试，统计测试结果汇并总成表格。

深度卷积神经网络识别模型model_2的训练与测试按照上述深度卷积神经网络识别模型model_1步骤中的操作，将其第3步中每个样本的数据量减少到500张，重复步骤1中的第1到第5步流程进行训练得到模型model_2及测试结果。

深度卷积神经网络模型model_3训练和测试流程，包括以下步骤：

第1步，准备网络框架：从官网下载darknet框架；

第2步，将yolov3-tiny网络结构进行调整：在yolov3-tiny.cfg文件中将yolov3-tiny的24层结构修改为32层结构，并将该文件命名为yolov3-tiny32.cfg；

第3步，整理训练数据集：将样本分为bottle，can，other三个大类，建立8个文件夹，分别为文件夹bottle1，文件夹bottle2，文件夹bottle3，文件夹can1，文件夹can2，文件夹can3，文件夹other1和文件夹other2，其中bottle类包含bottle1和bottle2个和bottle3三个小类，合计3500张，can类包含can1、can2和can3三个小类，合计1500张，other类包含other1和other2两个小类，合计600张；

第4步，标注数据：使用图片标注工具Labellmg对上述第3步中的5600张图片进行标注，将标注后的信息保存为.xml格式文件并存储在指定目录下，再将其转换为trainval.txt(训练加验证)，train.txt(训练)，val.txt(验证)三个文档。其中，各文件中保存的内容为待训练图片的存储路径信息，供训练测试时使用；

第5步，锚点值更新：使用k-means算法对饮料瓶回收机投递物的数字图像的锚点值重新进行聚类；

第6步，配置文件修改：将第5步中新计算的新锚点值替换配置文档yolov3-tiny32.cfg中的默认锚点值，将darknet框架data文件夹中的voc.names文件内容修改成需要分的八个类别，将cfg文件夹中的voc.data内容进行调整；

第7步，训练模型；

第8步，测试模型：载入训练好的模型，在test_images测试集上进行测试，统计测试结果并汇总成表格。

为提高模型的泛化能力，有两个方案对模型进行融合。

方案1

按照绝对多数投票法对其进行融合。

方案2

将test_images测试集用model_3进行分类识别，得到正确分类识别数据集C；将test_images测试集分别用model_1和model_2进行分类识别，分别得到正确分类数据集A和B，规定仅当model_1和model_2两个模型对同一张图像都判定为同一类别，此时认为判断结果是正确的，由此得到model_1和model_2同时正确分类识别的数据集A∩B；然后对数据集A∩B和数据集C取并集，得到最终的分类识别数据集(A∩B)∪C，在此基础上统计测试结果，通过最终的分类识别数据集(A∩B)∪C与测试集之比则可求得模型融合后的准确率。融合方案2执行模型融合后，在AIX2750服务器上的运行时间为约为50ms。

本发明调整改动yolov3-tiny网络结构为yolov3-tiny32结构，增强网络特征提取能力，第9-17层增加了卷积核数目分别为128、256、512、1024及512的卷积层和池化层，进一步提取了图像的深层次语义信息，有助于更充分挖掘图像特征，从第18层到22层使用了两次1X1的卷积层，对特征先进行降维然后再升维，提高了网络的表达能力，有助于提高检测识别精度；采用迁移学习方法对改进的深度神经网络进行训练，所需要的样本少，训练周期短；对两种方式训练出来的模型进行融合后，所得总体分类识别精度得到明显提高。

附图说明

图1是深度卷积神经网络模型model_1、model_2训练测试流程示意图；

图2是深度卷积神经网络模型model_3训练测试流程示意图；

图3是方案2模型融合流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

训练深度卷积神经网络模型model_1

在已经训练好的模型基础上，仅修改模型的最后的全连接层，并重新训练全连接层的方法称为bottleneck，这属于一类迁移学习。使用bottleneck的方式来训练自己的数据，具有速度快，周期短，使用较少的数据就能得到相对稳定的结果的优点。已训练好的inception-v3模型可用作基础模型，其包含的卷积层部分经过ImageNet数据集训练得到，具备较好的特征提取的能力。

如图1所示，model_1的训练步骤如下：

第1步，下载脚本程序框架并保存到指定路径：从tensorflow官方下载提供的图像重新训练程序，其中主要调用tensorflow-master文件夹中的retrain.py脚本程序文件，将其保存至路径“dir1”中。

第2步：在路径“dir2”下建立文件夹retrain：在retrain文件夹中建立data、bottleneck、testimages三个子文件夹。其中，data文件夹用来存放待训练的图像数据；bottleneck文件夹用于保存inception卷积层提取出来的特征文件，格式为txt文档；testimages文件夹用来存放测试数据。

第3步，准备数据集：在data文件夹中建立train文件夹，将待分类物品分为bottle(饮料瓶类)，can(易拉罐类)，other(其他杂类)三个类别，每个类别各1000张，训练样本图片的像素规格W×H为755×362。注：每个种类的图片放在一个文件夹下面，图片文件夹的名字就是图片类别的名字，文件夹名为英文格式；

第4步，训练模型：操作系统为Windows 10，64位操作系统，安装内存为16.0GB，处理器：Intel(R)Core(TM)i5-7500CPU@3.40GHz3.41GHz，python版本为python3.5.5，tensorflow版本为tensorflow1.9.0，(windows用户执行retrain.bat可以开始训练模型)；retrain.bat文当相关参数说明如下：

第5步，测试模型：执行完第4步后得到模型model_1，载入训练好的新模型model_1，对test_images测试集中的图片进行分类识别，其中，test_images测试数据集包含other类924张，can类3273张，bottle类17815张，总计22012张，具体分布如表1所示。

表1.test_images测试数据集类别分布表

种类	other	can	bottle	总数
					数量	924	3273	17815	22012

model_1在test_images测试集中的测试结果如表2所示。

表2.model_1在test_images测试集中测试结果

种类	other	can	bottle	总数
					测试数量	924	3273	17815	22012
正确识别数量	778	2810	16478	20066
					误判数量	146	463	1337	1946
准确率	0.842	0.8585	0.925	0.9116

训练深度卷积神经网络识别模型model_2

按照训练深度卷积神经网络识别模型model_1的操作，将其第3步中每个训练类别数据量减少到500张，重复第1到第5步流程进行训练得到模型model_2，所得模型model_2在test_images测试集中的测试结果如表3所示。

表3.model_2在test_images测试集中测试结果

种类	other	can	bottle	总数
					测试数量	924	3273	17815	22012
正确识别数量	761	2749	16363	19873
					误判数量	163	524	1452	2139
准确率	0.8236	0.8399	0.9185	0.9028

如图2所示，训练深度卷积神经网络识别模型model_3的流程步骤如下：

第1步，准备网络框架：从官网下载darknet框架。

第2步，将yolov3-tiny网络结构进行调整：在yolov3-tiny.cfg文件中，将yolov3-tiny的24层结构修改为32层结构，并将该文件命名为yolov3-tiny32.cfg，yolov3-tiny网络结构关系见表4，yolov3-tiny32网络结构关系见表5；

表4.yolov3-tiny网络结构关系表

表5.yolov3-tiny32网络结构关系表

注：conv代表卷积层，max代表最大池化层，upsample代表上采样层，route代表将指定层衔接至该层位置，yolo代表检测层。

第3步，整理数据集：考虑到样本的多样性，为更好的提高训练模型的泛化能力，将样本分为bottle(饮料瓶)，can(易拉罐)，other(其他杂类)三个大类，建立8个文件夹，分别为文件夹bottle1，文件夹bottle2，文件夹bottle3，文件夹can1，文件夹can2，文件夹can3，文件夹other1和文件夹other2。其中bottle类包含bottle1和bottle2个和bottle3三个小类，合计3500张，can类包含can1、can2和can3三个小类，合计1500张，other类包含other1和other2两个小类，合计600张，训练样本图片的像素规格W×H为755×36；

第4步，标注数据：使用图片标注工具Labellmg对上述第3步中的5600张图片进行标注，将物体在图片中的位置信息框选出来，标注后的信息按.xml格式储在指定目录下，并将待训练图片的存储路径信息转换为trainval.txt(训练加验证)、train.txt(训练)、val.txt(验证)三个文档；

第5步，锚点值修改：由于darknet开源框架yolov3-tiny.cfg配置文件中的锚点值是默认的，是对COCO数据集(Common Objects in Context，微软团队提供的一个可以用来进行图像识别的数据集)中包含的各种常见物体在图片中的位置信息使用k-means算法聚类后得出的6个数值(默认锚点值为：10，14，23，27，37，58，81，82，135，169，344，319)，这和饮料瓶回收机投递物的锚点值有很大不同，故需要使用k-means算法对饮料瓶回收机投递物的数字图像的锚点值重新进行聚类。通过读取多张不同图片标注的.xml文档包含的位置信息，聚类类别数目k设置为6，进行聚类后再取平均值得到相应的锚点值(本发明所求的值为：140，161，171，165，194，166，214，212，259，190，286，180)；

第6步，配置文件修改：将第5步中新的锚点值替换配置文档yolov3-tiny32.cfg中的默认锚点值，将darknet框架data文件夹中的voc.names文档内容修改成需要分的八个类别：即bottle1，bottle2，bottle3，can1，can2，can3，other1，other2。将cfg文件夹中的voc.data内容进行调整，具体内容如下：

第7步，训练模型：(使用linux系统，GPU服务器型号为：AIX2750，其中配置为CPU-i7-6850K*1；RAM：16GB DDR4*4；SSD：2.5”512G*1；HHD：3.5”4TB*1；GPU：GTX1080Ti*2)；

第8步，测试模型：载入训练好的模型，在test_images测试集上进行测试，其中默认的yolov3-tiny24层结构训练出来的yolov3-tiny-final模型在test_images测试集上测试结果如表6所示；model_3模型在test_images测试集上的测试结果表7所示：

表6.yolov3-tiny-final模型在test_images测试集中测试结果

种类	other	can	bottle	总数
					测试数量	924	3273	17815	22012
正确识别数量	793	3077	15875	19745
					误判数量	131	196	1940	2267
准确率	0.8582	0.9401	0.8911	0.897

表7.model_3模型在test_images测试集中测试结果

种类	other	can	bottle	总数
					测试数量	924	3273	17815	22012
正确识别数量	800	3206	16646	20652
					误判数量	124	67	1169	1360
准确率	0.8658	0.9795	0.9344	0.9382

模型融合

从表2和表3得到model_1、model_2模型总体测试准确率分别为0.911和0.903，可以看到训练数据量由3000减少到1500后得到的训练模型对应的三个类别的识别准确率和总体识别准确率都有一定程度下降，但是由于模型model_1是用3000张图片数据进行训练得到，训练样本量是model_2的两倍，但实际上二者准确率差别不是很大。从另一个侧面反映仅通过提高训练样本数量来得到更好的模型这个途径不是很可靠。

从表6可以看到使用yolov3-tiny训练出来的模型yolov3-tiny-final准确率不到90％。表7体现出修改网络结构和锚点值后的模型model_3其准确率为93.8％，比起前面几个模型其准确率有三个百分点左右的提高，但是所有模型在test_images测试集上测试得到的准确率都没有达到95％以上，这说明单个模型的泛化能力离期望值还有差距。为了解决这个问题按照以下两个方案对模型model_1，model_2和model_3进行融合，尝试提高模型的泛化能力。

方案1

按照绝对多数投票法对其进行融合。绝对多数投票法其基本思路是：模型h_i需要从分类集合{c₁,c₂,...c_l}中预测出一个分类标记。对于样本x，每个单模型输出一个类别标记，将超过半数单模型的那个类别作为样本最终的类别标记。当某些样本类别的投票数目都不超过一半，则此时融合模型拒绝做出预测。分类标记如果h_i预测样本类为c_j，则的值为1，否则为0。投票法如公式(1)所示：

其中，T为模型个数，k为至少正确的模型数目，l为分类数目，c_i为预测结果，x为样本，H(x)为最终的预测类别。

将model_1、model_2和model_3用绝对投票法进行融合，设model_1、model_2和model_3在test_images测试集上的准确率分别为p¹、p²和p³，假设各模型之间相互独立，则至少有[T/2+1]个预测准确的概率为：

故，当三个模型中至少两个模型都判断正确时，T＝3，k＝2。通过代入相应数据进公式(2)计算，可以得到三个模型融合后理论上总的准确率约为0.9815。实际上通过执行融合方案1后模型在test_images测试集中测试结果如表8所示。可见通过这个方案融合后的模型分类识别准确率不仅没有明显上升，而且还不如部分单个模型分类识别准确率高。这是由于model_1和model_2是同一种模式训练出来的模型，模型model_3是另一种模式训练出来的模型，采用方案1时，默认假设模型之间是相互独立的，而实际上模型之间是有关联的。model_1和model_2之间是同质模型，因而二者检测的结果相似度很高，model_3和前面两个模型是异质模型，它和前面模型之间的检测相似度有很大差异，这些差异导致了实际测试结果和理论值差别过大。

表8.执行融合方案1后融合模型在test_images测试集中测试结果

种类	other	can	bottle	总数
					测试数量	924	3273	17815	22012
正确识别数量	787	2863	16236	19886
					误判数量	137	410	1579	2126
准确率	0.8517	0.87471	0.9114	0.9034

方案2

由表6和表7可以看到yolov3-tiny-final模型总体测试准确率为0.897，修改网络结构和锚点值后训练得到的model_3模型总体测试准确率为则达到了0.938。虽然mode_3在单个类别的准确率和总体识别准确率都相比之前model_1，model_2以及yolov3-tiny-final三个模型都有明显提升，但是它的泛化能力依然没能满足准确率达到0.95以上。

方案1的实际效果与理论效果偏差较大，为解决这个问题，现确定案案2如下：

将test_images测试集用model_3进行分类识别，得到正确分类识别数据集C；将test_images测试集分别用model_1和model_2进行分类识别，分别得到正确分类数据集A和B，规定仅当两个模型对同一张图像都判定为同一类别，此时认为判断结果是正确的，由此得到model_1和model_2同时正确分类识别的数据集A∩B；然后对数据集A∩B和数据集C取并集，得到最终的分类识别数据集(A∩B)∪C，在此基础上统计测试结果。按融合方案2执行模型融合后，在AIX2750服务器上的运行时间为约为50ms。执行融合方案2后融合模型在test_images测试集中测试结果如表9所示。融合方案2流程示意图如图3所示。

表9.执行融合方案2后融合模型在test_images测试集中测试结果

种类	other	can	bottle	总数
					测试数量	924	3273	17815	22012
正确识别数量	913	3247	17193	21353
					误判数量	11	26	622	659
准确率	0.9881	0.9921	0.9651	0.9701

上述实施方式只是本发明的具体实施例，不是用来限制本发明的实施与权利范围，凡依据发明申请专利保护范围所述的内容做出的等效变化和修饰，均应包括在本发明申请专利范围内。

Claims

1.一种适用于饮料瓶回收机投递物分类识别的模型融合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种适用于饮料瓶回收机投递物分类识别的模型融合方法，其特征在于，所述深度卷积神经网络模型model_3的训练与测试流程包括以下步骤：

第1步，准备网络框架；

第3步，整理训练数据集：将样本分为bottle，can，other三个大类，建立8个文件夹，分别为文件夹bottle1，文件夹bottle2，文件夹bottle3，文件夹can1，文件夹can2，文件夹can3，文件夹other1和文件夹other2，其中bottle类包含bottle1、bottle2、bottle3三个小类，合计3500张；can类包含can1、can2和can3三个小类，合计1500张，other类包含other1和other2两个小类，合计600张；

第4步，标注数据：使用图片标注工具Labellmg对上述第3步中的样本图片进行标注，将标注后的信息保存为.xml格式文件并存储在指定目录下，再将其转换为trainval.txt(训练加验证)，train.txt(训练)，val.txt(验证)三个文档；

第6步，配置文件修改：将第5步中新计算的新锚点值替换配置文档中的默认锚点值，将darknet框架data文件夹中的voc.names文件内容修改成需要分的八个类别，将cfg文件夹中的voc.data内容进行调整；

第7步：训练模型；

3.根据权利要求1所述的一种适用于饮料瓶回收机投递物分类识别的模型融合方法，其特征在于，所述深度卷积神经网络模型model_1训练与测试流程包括以下步骤：

第1步，下载脚本程序框架并保存到指定路径；

第2步，在指定路径下建立文件夹retrain：retrain文件夹中建立data、bottleneck、testimages三个子文件夹，其中，data文件夹用来存放待训练的图像数据，bottleneck文件夹用于保存inception卷积层提取出来的特征文件，格式为txt文档，testimages文件夹用来存放测试数据；

第3步，准备数据集：在data文件夹中建立train文件夹，将待分类物品分为bottle(饮料瓶类)，can(易拉罐类)，other(其他杂类)三个类别，每个类别各1000张图片，训练样本图片的像素规格W×H为755×362；

第4步，训练模型；