CN114998891A

CN114998891A - 一种基于迁移学习的智能冰箱食材精准检测方法

Info

Publication number: CN114998891A
Application number: CN202210556272.4A
Authority: CN
Inventors: 蔡世民; 宗雨欣; 陈枭; 魏子翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-02

Abstract

该发明公开了一种基于迁移学习的智能冰箱食材精准检测方法，属于图像识别领域。数据处理方面，考虑到智能冰箱食材的数据采集体量有限，本发明应用平移、旋转、缩放、Mosaic等方式进行数据增强，同时为了解决智能冰箱开关灯场景的问题，本发明应用图像处理技术对弱光环境图像进行数据增强，以提升模型在弱光环境的鲁棒性。网络模型方面，本发明以常规目标为源域、智能冰箱食材为目标域构建“预训练+微调”的迁移学习框架，通过在源域的大规模数据集上预训练模型以学习基础目标的特征提取经验，然后冻结部分网络，在目标域的有限数据集上微调模型以适应冰箱食材的数据分布特征，从而有效提高检测精度。

Description

一种基于迁移学习的智能冰箱食材精准检测方法

技术领域

本发明属于图像识别领域，特别是涉及一种基于迁移学习的智能冰箱食材精准检测方法。

背景技术

智能冰箱食材检测的背景、现状：人工智能理论和技术的快速发展和成熟催生了各种智能化应用产品，随着信息技术、网络技术、控制技术向传统家电产业渗透，国内外厂商分别推出各式各样的智能家电产品。智能冰箱作为仅次于电视的智慧家居中枢核心，其核心功能便是食材的管理。除了食材贮藏保鲜的基本功能，智能冰箱通过多种技术手段实现食材位置检测和种类识别，从而支撑各种食品管理智能化服务。

现有技术的缺点：在智能冰箱的研发过程中，食材检测与识别问题一直是亟待解决的核心挑战与行业瓶颈。目前，家电企业广泛使用的方法包括手动录入、无线射频识别、二维码扫描、语音录入等，然而这些方法在实际应用中存在诸多问题：(1)识别精度低：冰箱食材覆盖不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品，难以实现精准检测。(2)检测效率低：算法复杂度高，系统效率低，无法满足实时检测的需求。(3)用户体验差：系统自动化程度低，录入操作繁琐、侵入性较强，无法达到无感识别效果。随着深度学习技术在图像处理领域取得了突破性进展，目标检测算法的精度和效率显著提升。得益于此，基于图像处理的食材检测方法凭借准确高效、无感识别等优势成为智能冰箱技术领域的研究热点。然而，由于智能冰箱食材的环境条件复杂性和数据体量有限性，数据驱动的目标检测方法仍然面领泛化性能低下的问题。

发明内容

本发明针对现有技术泛化性能不足问题，提供了一种基于迁移学习的智能冰箱食材精准识别与检测方法。本发明在数据处理、网络模型和学习优化三个方面进行泛化性能增强。数据处理方面，考虑到智能冰箱食材的数据采集体量有限，本发明应用平移、旋转、缩放、Mosaic等方式进行数据增强，同时为了解决智能冰箱开关灯场景的问题，本发明应用图像处理技术对弱光环境图像进行数据增强，以提升模型在弱光环境的鲁棒性。网络模型方面，本发明以常规目标为源域、智能冰箱食材为目标域构建“预训练+微调”的迁移学习框架，通过在源域的大规模数据集上预训练模型以学习基础目标的特征提取经验，然后冻结部分网络，在目标域的有限数据集上微调模型以适应冰箱食材的数据分布特征，从而有效提高检测精度。学习优化方面，本发明结合伪标签技术进行半监督训练，通过充分挖掘无标签数据的信息迭代更新检测模型，从而最大化利用测试数据以提升模型性能。

本发明公开的一种基于迁移学习的智能冰箱食材精准检测方法，该方法具体包括下列步骤：

步骤1：数据获取；

获取不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品数据集；

步骤2：数据增强；

将步骤1获取的数据集进行平移、旋转、缩放、Mosaic操作进行数据增强，对采集到的亮度小于阈值的数据集进行HSV暗光增强的预处理，平衡不同光照的数据分布；

步骤3：数据集划分；

将整个数据集划分出训练集、验证集，并保证划分后各数据集下的类别、光照条件等分布平衡；

步骤4：建立YOLOv5检测模型；

所述YOLOv5检测模型的网络结构包括：Backbone网络、Neck网络、Head网络，YOLOv5检测模型的损失函数为：

其中，

为检测模型的损失函数，IoU表示模型预测生成的检测矩形框与真实检测矩形框的交并比，ρ表示YOLO模型中两个检测矩形框之间的欧氏距离，c为收敛系数，b和b^gt表示YOLO模型中两个检测矩形框的中心点，ω和ω^gt分别表示真实框与预测框的长，h和h^gt分别表示真实框与预测框的宽；

步骤5：模型训练；

采用步骤3得到的训练集划分为粗训练集和微调训练集，采用粗训练集对步骤4的模型进行训练达到收敛；然后，冻结YOLOv5检测模型中的backbone网络的参数，采用微调训练集训练neck网络和head网络的参数，达到收敛；

步骤6：预测；

在实时获取的食材图像时，首先对图像进行图像增强预处理，然后采用步骤5得到的模型对食材图像进行检测，得到食材的种类并输出，同时存储该食材的检测矩形框内图像，计算该次检测结果的置信度，保留置信度大于设定阈值的该检测矩形框内图像；

步骤7：伪标签优化；

对步骤6保留下来的检测矩形框内图像，添加对应标签，作为伪标签；建立一个模型修正缓存池，用于存储步骤6保留的检测矩形框内图像、对应的伪标签和矩形框坐标，当缓存池数量达到设定阈值，就将当前缓存池中数据合并到微调训练集中，冻结Backbone网络参数，采用新的微调训练集重新训练Neck网络和Head网络。

和现有的技术相比，本发明应用迁移学习框架，冻结预训练模型的骨干层网络参数，在冰箱食材数据训练集上微调模型，同时采用新的损失函数和伪标签技术，进一步增强小目标检测的精度，同时在不增加计算成本的情况下，增强在重叠遮挡状况下的目标检测结果；本发明有益效果为：

1.本发明搭建了迁移学习框架，通过“预训练+微调”的方式将基础目标检测领域的经验知识迁移到智能冰箱食材检测领域，在目标域数据规模有限的条件下有效提升了食材检测的精度和速度。

2.本发明设计了数据增强方案，基于冰箱食材种类繁多、复数聚集、遮挡严重、光照不足的特性，本发明结合多种图像处理技术进行数据增强，显著提升了不同条件下食材检测的泛化能力。

3.本发明应用了伪标签优化技术，通过挖掘无标签数据的有用信息，本发明在模型测试时缓存高置信度结果进行数据增强，搭配迁移学习框架进一步提升目标检测性能。

附图说明

图1为本发明提出的基于迁移学习的冰箱食材检测系统流程图。

图2为本发明实验中采样的冰箱应用场景下冰箱食材示例图。

图3为本发明中各类食材的数量分布图。

图4为本发明对有限的数据集采用的几何仿射变换数据增强示意图。

图5为本发明中采用的Mosaic数据增强方法示意图。

图6为本发明采用的HSV弱光数据增强效果图。

图7为本发明采用的基础检测模型YOLOv5的结构图。

图8为本发明采用的模型迁移学习示意图。

图9为本发明不同冻结方式下的检测性能。

图10为本发明不同冻结方式下的GPU使用情况。

图11为本发明的消融实验结果对比图。

具体实施方案

为了使本发明的目的和方法更加清楚，以下结合附图对本发明进一步详细介绍。

图1简洁清晰地介绍了本发明提出的食材检测系统流程，具体数据预处理、模型迁移训练和伪标签优化三个模块。在数据预处理模块中，我们对收集到的冰箱食材数据进行数据增强，然后进行分层抽样划分数据集；在模型迁移训练模块中，我们冻结预训练的常见物体检测模型部分网络参数，在冰箱食材数据集上进行模型微调，然后运行冰箱食材检测得到预测结果；在伪标签优化模块中，我们在精度达标之前缓存高置信度的模型预测结果，并适时将这些伪标签数据加入训练以更新模型。经过以上流程，最终获得精度达标、泛化性好的冰箱食材检测模型。

图2展示了冰箱场景下抓拍到的食材示例图，可见智能冰箱食材识别应用场景下面临背景光度明暗不一、食材大小各异、遮挡情况复杂、食材数量变化、移动拍摄模糊等挑战。

图3展示了数据集中60类常见食材的数据分布情况，以及每一类食材数据在开关灯条件下的占比。除了大小樱桃合并后数量增多，其他各类食材数据分布相对均匀，且弱光数据占有不小的比例。

获取数据：本发明普通目标使用开源的大规模目标检测数据集COCO(cocodataset.org)。冰箱食材数据采用“正泰杯”第七届中国研究生智慧城市技术与创意设计大赛算法分析赛数据集(acge.org.cn)，其中包括冰箱场景下存取食材的图像与标注文件，共有来自60类常见食材的30,000多个样本，每个样本分辨率为1280×720像素，覆盖不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品，实拍数据如附图2所示；

对获取的数据进行预处理，将整个数据集按照6：1：1的比例划分出训练集、验证集和测试集，并保证各数据集下的类别、光照条件等分布平衡；

由于采集数据规模有限，首先对已采集的原始图片实施几何变换扩充数据集规模，图4展示了本发明使用的3种简单的几何仿射变换方法，包括图像的空间平移、旋转、缩放。平移即将图像所有的像素坐标分别加上指定的水平偏移量和垂直偏移量；旋转即将图像按照预设的旋转角度计算旋转矩阵，然后旋转图像中的所有像素；缩放即将图像的尺寸变小或变大的过程，即通过降采样和近邻插值算法按照预设比例进行缩放。这些几何仿射变换的实质在于改变像素的空间位置：

[x′,y′]＝[X(x,y),Y(x,y)],

其中[x,y]为原图像像素的笛卡尔坐标，[x’,y’]为变换后图像像素的笛卡尔坐标，X(x,y)、Y(x,y)分别定义了在水平和垂直方向的映射函数。映射函数的不同，决定了图片几何变换的不同。

·平移变换将原始像素在水平和垂直方向上分别偏移x₀和y₀，其矩阵表达式为：

·旋转变换将源图像绕笛卡尔坐标系的原点逆时针旋转θ，变换后的像素坐标为：

·缩放变换将源图像在水平和垂直方向上缩放为原图的(S_x,S_y)倍，其变换矩阵为：

除了简单的几何仿射变换，本发明还采用Mosaic数据增强方法以提升小目标的检测精度。Mosaic既可以从数量上扩充数据规模，也通过增强背景复杂度调整模型的泛化能力，使得神经网络更具鲁棒性。具体而言，在训练阶段Mosaic增强将一批样本中的四张图片按比例随机缩放和剪裁并按照不同的方向排列拼接成一个固定变长的矩形样本，如图5所示。由于将多个样本合成一张图片进行处理，Mosaic增强能够高效利用有限的GPU资源。

HSV暗光增强即调整图像的色调、饱和度和明度来获取新的图像数据，本发明主要通过提升图像明度来进行暗光增强。在HSV颜色空间模型中，颜色是由色度(Hue)、饱和度(Saturation)、明度(Value)共同组成。与图像处理中最常见的RGB色彩模型相比，HSV更适于色彩分割和亮度、对比度、饱和度等调整以便进行图像增强。在数据预处理阶段，我们将图像的RGB数值缩放到0～1的数值归一操作，然后将其从RGB色彩空间转换到HSV空间：

V＝max{R,G,B}

我们利用图像明度直方图统计的方法，判断图像整体明度低于正常阈值的为暗光环境下拍摄的食材图片，然后进行增强。为了保持暗光图片基础颜色不失真，仅在V通道上进行Gamma变换增强(本发明根据正常光照和暗光的亮度均值方差比较后分别设定gamma系数为0.75、0.5)。最后，将变换后的HSV颜色空间转换为RGB空间进行显示，效果如图6所示，可见针对弱光使得图像的整体亮度值得到提升，同时低灰度处的对比度得到增加，更利于分辩低灰度值时的图像细节。

对于常见物体检测模型的预训练，本发明采用一阶段算法YOLO(You Only LookOnce)基础架构，该算法将基于候选框生成与分类的目标检测两阶段(two-stage)算法用基于回归的一阶段(one-stage)算法替代，直接在输出层回归bounding box的位置和所属类别，是解决目标检测速度与精度问题的一个高效框架，适用于智能冰箱等算力有限的物联网设备。

YOLOv5的网络结构主要由Backbone(骨干网络)、Neck(颈部网络)、Head(头部网络)组成，其中Backbone主要使用CSPdarknet+SPP结构，Neck使用PANet结，Head使用yolov3中的head，其结构与连接方式如图7所示。Yolov5使用CSP结构(Cross Stage Partial交叉阶段部分)作为Backbone，从输入图像中提取丰富的信息特征。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和FLOPS数值，既保证了推理速度和准确率，又减小了模型尺寸；Focus是一种对特征图的切片操作，用于降低FLOPS和提高速度；SPP(SpatialPyramid Pooling空间金字塔池化)可以增大感受野，有助于解决对齐问题。Neck主要用于生成特征金字塔。特征金字塔会增强模型对于不同缩放尺度对象的检测，从而能够识别不同大小和尺度的同一个物体。Head进行最终检测部分。

YOLOv5分别有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种结构，区别在于网络深度与宽度，如表1所示。四种结构深度不同，越深的网络拥有越强的特征提取和融合的能力。考虑到智能冰箱嵌入式程序的设备硬件资源和识别精度高、识别速度快这一用户功能性需求场景，本发明采用YOLOv5m平衡识别精度和资源需求。

本发明基于目标检测公开数据集MS COCO 80类常见物体为源数据集进行训练后存储模型参数，载入到冰箱食材这一目标域进行微调。源模型使用DIOU_Loss,以距离作为惩罚项可能会导致预测框被错误放大，破坏了尺度不变性。因此本发明在此基础上采用更符合实际检测效果的CIoU_Loss损失函数和DIoU_nms非极大值抑制。DIoU_Loss表示为：

其中b和b^gt表示两个矩形框的中心点，ρ表示两个矩形框之间的欧氏距离，c表示两个矩形框的闭包区域的对角线的距离，可以看出DIoU_loss的优化目标是直接减小两个矩形框中心点之间的欧式距离，c的作用是防止损失函数的值过大，提升收敛速度。CIoU_Loss则进一步考虑了矩形框的相对比例，使得检测效果更进一步：

其中，

为检测模型的损失函数，ν用来衡量两个矩形框相对比例的一致性，α是权重系数：

其中，IoU表示模型预测生成的检测矩形框与真实检测矩形框的交并比，ω和ω^gt分别表示真实框与预测框的长，h和h^gt分别表示真实框与预测框的宽。此外,本发明采用了DIOU_nms非极大值抑制，在不增加计算成本的情况下加强在重叠的情况下的目标的检测。

图8展示了本发明将基于常见目标检测的模型迁移到冰箱食材识别领域的原理示意图。由于冰箱食材数据规模较小、涵盖食材数量少，直接应用目标检测泛化性能差。因此，本发明采用迁移学习技术将精度高、速度快、轻量级的YOLOv5m预训练模型迁移到冰箱食材检测模型。由于YOLOv5模型通过大规模数据集上百万张图片训练，得到的多层参数富含再利用价值。为了充分利用预训练模型网络前端强大的低级特征提取能力，我们在训练新的食材检测模型时冻结backbone部分参数，只微调后面neck和head部分参数，从而在保证原模型的检测能力的基础上尽快收敛。

在伪标签优化阶段，我们将食材检测置信度高于0.9的预测结果在本地缓存，当缓存池充满之后，其中的伪标签数据将会被作为新的数据集加入到模型训练和更新，从而进一步扩大数据规模，提升模型泛化能力，直到模型的检测精度达到预期要求，最终得到一个鲁棒的冰箱食材检测模型。

为了验证冻结部分网络层进行迁移学习的有效性，我们在默认设置、冻结backbone和冻结全部参数三种条件下进行了实验。图9显示了不同冻结设置下的训练结果，图10显示了不同冻结设置下的GPU使用情况。可以看出，冻结全部网络相比默认设置虽然平均GPU使用率和GPU占用率分别降低11.54％和29.83％，但其整体性能几乎减为一半；另一方面，冻结backbone设置下的平均GPU使用率和GPU占用率分别降低5.39％和29.68％，而其precision、recall和mAP@0.3:0.7相比默认设置的下降仅为2.53％、0.96％和1.47％。此外，相比默认设置，冻结backbone之后的训练时间也从253分钟减少至152分钟，充分证明了冻结层迁移学习的有效性。

在迁移学习的基础上，我们进行消融实验独立验证了不同改进策略的有效性，在测试集上的结果如图11所示。基线模型综合采用数据增强、预训练微调和伪标签优化策略，在测试集上的Precision、Recall和mAP0.3:0.7分别达到了96.03％、97.78％和97.18％，充分证明了本系统在冰箱食材检测任务上的有效性。在不进行微调的消融实验中，直接迁移的Precision、Recall和mAP0.3:0.7三项指标均不超过85％，相比该基线模型下降了13％左右，说明采用本发明提出的预训练+微调策略能够有效增强冰箱食材检测模型的泛化能力。此外，在不进行数据增强的消融实验中Precision、Recall和mAP0.3:0.7略有下降，同样证明了数据增强对于性能提升的有效性。最后，在不进行伪标签优化的消融实验中，Precision、Recall和mAP0.3:0.7下降超过了5％，充分显示了伪标签优化对于检测性能增强的优越性。以上结果证明，本发明提出的迁移学习策略能够有效提升冰箱食材检测的性能，即使在数据规模较小、采集环境复杂的场景也具有较强的泛化能力。

表1为YOLOv5不同结构规模的模型参数对比。

Claims

1.一种基于迁移学习的智能冰箱食材精准检测方法，该方法具体包括下列步骤：