CN114998891A - 一种基于迁移学习的智能冰箱食材精准检测方法 - Google Patents
一种基于迁移学习的智能冰箱食材精准检测方法 Download PDFInfo
- Publication number
- CN114998891A CN114998891A CN202210556272.4A CN202210556272A CN114998891A CN 114998891 A CN114998891 A CN 114998891A CN 202210556272 A CN202210556272 A CN 202210556272A CN 114998891 A CN114998891 A CN 114998891A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- detection
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 235000013305 food Nutrition 0.000 title claims abstract description 66
- 239000000463 material Substances 0.000 title claims abstract description 58
- 238000013526 transfer learning Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000013519 translation Methods 0.000 claims abstract description 6
- 238000007710 freezing Methods 0.000 claims description 12
- 230000008014 freezing Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000005286 illumination Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 235000012055 fruits and vegetables Nutrition 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 101100465000 Mus musculus Prag1 gene Proteins 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013508 migration Methods 0.000 abstract description 9
- 230000005012 migration Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 9
- 238000000034 method Methods 0.000 description 18
- 238000005457 optimization Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000167854 Bourreria succulenta Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000019693 cherries Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
该发明公开了一种基于迁移学习的智能冰箱食材精准检测方法,属于图像识别领域。数据处理方面,考虑到智能冰箱食材的数据采集体量有限,本发明应用平移、旋转、缩放、Mosaic等方式进行数据增强,同时为了解决智能冰箱开关灯场景的问题,本发明应用图像处理技术对弱光环境图像进行数据增强,以提升模型在弱光环境的鲁棒性。网络模型方面,本发明以常规目标为源域、智能冰箱食材为目标域构建“预训练+微调”的迁移学习框架,通过在源域的大规模数据集上预训练模型以学习基础目标的特征提取经验,然后冻结部分网络,在目标域的有限数据集上微调模型以适应冰箱食材的数据分布特征,从而有效提高检测精度。
Description
技术领域
本发明属于图像识别领域,特别是涉及一种基于迁移学习的智能冰箱食材精准检测方法。
背景技术
智能冰箱食材检测的背景、现状:人工智能理论和技术的快速发展和成熟催生了各种智能化应用产品,随着信息技术、网络技术、控制技术向传统家电产业渗透,国内外厂商分别推出各式各样的智能家电产品。智能冰箱作为仅次于电视的智慧家居中枢核心,其核心功能便是食材的管理。除了食材贮藏保鲜的基本功能,智能冰箱通过多种技术手段实现食材位置检测和种类识别,从而支撑各种食品管理智能化服务。
现有技术的缺点:在智能冰箱的研发过程中,食材检测与识别问题一直是亟待解决的核心挑战与行业瓶颈。目前,家电企业广泛使用的方法包括手动录入、无线射频识别、二维码扫描、语音录入等,然而这些方法在实际应用中存在诸多问题:(1)识别精度低:冰箱食材覆盖不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品,难以实现精准检测。(2)检测效率低:算法复杂度高,系统效率低,无法满足实时检测的需求。(3)用户体验差:系统自动化程度低,录入操作繁琐、侵入性较强,无法达到无感识别效果。随着深度学习技术在图像处理领域取得了突破性进展,目标检测算法的精度和效率显著提升。得益于此,基于图像处理的食材检测方法凭借准确高效、无感识别等优势成为智能冰箱技术领域的研究热点。然而,由于智能冰箱食材的环境条件复杂性和数据体量有限性,数据驱动的目标检测方法仍然面领泛化性能低下的问题。
发明内容
本发明针对现有技术泛化性能不足问题,提供了一种基于迁移学习的智能冰箱食材精准识别与检测方法。本发明在数据处理、网络模型和学习优化三个方面进行泛化性能增强。数据处理方面,考虑到智能冰箱食材的数据采集体量有限,本发明应用平移、旋转、缩放、Mosaic等方式进行数据增强,同时为了解决智能冰箱开关灯场景的问题,本发明应用图像处理技术对弱光环境图像进行数据增强,以提升模型在弱光环境的鲁棒性。网络模型方面,本发明以常规目标为源域、智能冰箱食材为目标域构建“预训练+微调”的迁移学习框架,通过在源域的大规模数据集上预训练模型以学习基础目标的特征提取经验,然后冻结部分网络,在目标域的有限数据集上微调模型以适应冰箱食材的数据分布特征,从而有效提高检测精度。学习优化方面,本发明结合伪标签技术进行半监督训练,通过充分挖掘无标签数据的信息迭代更新检测模型,从而最大化利用测试数据以提升模型性能。
本发明公开的一种基于迁移学习的智能冰箱食材精准检测方法,该方法具体包括下列步骤:
步骤1:数据获取;
获取不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品数据集;
步骤2:数据增强;
将步骤1获取的数据集进行平移、旋转、缩放、Mosaic操作进行数据增强,对采集到的亮度小于阈值的数据集进行HSV暗光增强的预处理,平衡不同光照的数据分布;
步骤3:数据集划分;
将整个数据集划分出训练集、验证集,并保证划分后各数据集下的类别、光照条件等分布平衡;
步骤4:建立YOLOv5检测模型;
所述YOLOv5检测模型的网络结构包括:Backbone网络、Neck网络、Head网络,YOLOv5检测模型的损失函数为:
其中,为检测模型的损失函数,IoU表示模型预测生成的检测矩形框与真实检测矩形框的交并比,ρ表示YOLO模型中两个检测矩形框之间的欧氏距离,c为收敛系数,b和bgt表示YOLO模型中两个检测矩形框的中心点,ω和ωgt分别表示真实框与预测框的长,h和hgt分别表示真实框与预测框的宽;
步骤5:模型训练;
采用步骤3得到的训练集划分为粗训练集和微调训练集,采用粗训练集对步骤4的模型进行训练达到收敛;然后,冻结YOLOv5检测模型中的backbone网络的参数,采用微调训练集训练neck网络和head网络的参数,达到收敛;
步骤6:预测;
在实时获取的食材图像时,首先对图像进行图像增强预处理,然后采用步骤5得到的模型对食材图像进行检测,得到食材的种类并输出,同时存储该食材的检测矩形框内图像,计算该次检测结果的置信度,保留置信度大于设定阈值的该检测矩形框内图像;
步骤7:伪标签优化;
对步骤6保留下来的检测矩形框内图像,添加对应标签,作为伪标签;建立一个模型修正缓存池,用于存储步骤6保留的检测矩形框内图像、对应的伪标签和矩形框坐标,当缓存池数量达到设定阈值,就将当前缓存池中数据合并到微调训练集中,冻结Backbone网络参数,采用新的微调训练集重新训练Neck网络和Head网络。
和现有的技术相比,本发明应用迁移学习框架,冻结预训练模型的骨干层网络参数,在冰箱食材数据训练集上微调模型,同时采用新的损失函数和伪标签技术,进一步增强小目标检测的精度,同时在不增加计算成本的情况下,增强在重叠遮挡状况下的目标检测结果;本发明有益效果为:
1.本发明搭建了迁移学习框架,通过“预训练+微调”的方式将基础目标检测领域的经验知识迁移到智能冰箱食材检测领域,在目标域数据规模有限的条件下有效提升了食材检测的精度和速度。
2.本发明设计了数据增强方案,基于冰箱食材种类繁多、复数聚集、遮挡严重、光照不足的特性,本发明结合多种图像处理技术进行数据增强,显著提升了不同条件下食材检测的泛化能力。
3.本发明应用了伪标签优化技术,通过挖掘无标签数据的有用信息,本发明在模型测试时缓存高置信度结果进行数据增强,搭配迁移学习框架进一步提升目标检测性能。
附图说明
图1为本发明提出的基于迁移学习的冰箱食材检测系统流程图。
图2为本发明实验中采样的冰箱应用场景下冰箱食材示例图。
图3为本发明中各类食材的数量分布图。
图4为本发明对有限的数据集采用的几何仿射变换数据增强示意图。
图5为本发明中采用的Mosaic数据增强方法示意图。
图6为本发明采用的HSV弱光数据增强效果图。
图7为本发明采用的基础检测模型YOLOv5的结构图。
图8为本发明采用的模型迁移学习示意图。
图9为本发明不同冻结方式下的检测性能。
图10为本发明不同冻结方式下的GPU使用情况。
图11为本发明的消融实验结果对比图。
具体实施方案
为了使本发明的目的和方法更加清楚,以下结合附图对本发明进一步详细介绍。
图1简洁清晰地介绍了本发明提出的食材检测系统流程,具体数据预处理、模型迁移训练和伪标签优化三个模块。在数据预处理模块中,我们对收集到的冰箱食材数据进行数据增强,然后进行分层抽样划分数据集;在模型迁移训练模块中,我们冻结预训练的常见物体检测模型部分网络参数,在冰箱食材数据集上进行模型微调,然后运行冰箱食材检测得到预测结果;在伪标签优化模块中,我们在精度达标之前缓存高置信度的模型预测结果,并适时将这些伪标签数据加入训练以更新模型。经过以上流程,最终获得精度达标、泛化性好的冰箱食材检测模型。
图2展示了冰箱场景下抓拍到的食材示例图,可见智能冰箱食材识别应用场景下面临背景光度明暗不一、食材大小各异、遮挡情况复杂、食材数量变化、移动拍摄模糊等挑战。
图3展示了数据集中60类常见食材的数据分布情况,以及每一类食材数据在开关灯条件下的占比。除了大小樱桃合并后数量增多,其他各类食材数据分布相对均匀,且弱光数据占有不小的比例。
获取数据:本发明普通目标使用开源的大规模目标检测数据集COCO(cocodataset.org)。冰箱食材数据采用“正泰杯”第七届中国研究生智慧城市技术与创意设计大赛算法分析赛数据集(acge.org.cn),其中包括冰箱场景下存取食材的图像与标注文件,共有来自60类常见食材的30,000多个样本,每个样本分辨率为1280×720像素,覆盖不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品,实拍数据如附图2所示;
对获取的数据进行预处理,将整个数据集按照6:1:1的比例划分出训练集、验证集和测试集,并保证各数据集下的类别、光照条件等分布平衡;
由于采集数据规模有限,首先对已采集的原始图片实施几何变换扩充数据集规模,图4展示了本发明使用的3种简单的几何仿射变换方法,包括图像的空间平移、旋转、缩放。平移即将图像所有的像素坐标分别加上指定的水平偏移量和垂直偏移量;旋转即将图像按照预设的旋转角度计算旋转矩阵,然后旋转图像中的所有像素;缩放即将图像的尺寸变小或变大的过程,即通过降采样和近邻插值算法按照预设比例进行缩放。这些几何仿射变换的实质在于改变像素的空间位置:
[x′,y′]=[X(x,y),Y(x,y)],
其中[x,y]为原图像像素的笛卡尔坐标,[x’,y’]为变换后图像像素的笛卡尔坐标,X(x,y)、Y(x,y)分别定义了在水平和垂直方向的映射函数。映射函数的不同,决定了图片几何变换的不同。
·平移变换将原始像素在水平和垂直方向上分别偏移x0和y0,其矩阵表达式为:
·旋转变换将源图像绕笛卡尔坐标系的原点逆时针旋转θ,变换后的像素坐标为:
·缩放变换将源图像在水平和垂直方向上缩放为原图的(Sx,Sy)倍,其变换矩阵为:
除了简单的几何仿射变换,本发明还采用Mosaic数据增强方法以提升小目标的检测精度。Mosaic既可以从数量上扩充数据规模,也通过增强背景复杂度调整模型的泛化能力,使得神经网络更具鲁棒性。具体而言,在训练阶段Mosaic增强将一批样本中的四张图片按比例随机缩放和剪裁并按照不同的方向排列拼接成一个固定变长的矩形样本,如图5所示。由于将多个样本合成一张图片进行处理,Mosaic增强能够高效利用有限的GPU资源。
HSV暗光增强即调整图像的色调、饱和度和明度来获取新的图像数据,本发明主要通过提升图像明度来进行暗光增强。在HSV颜色空间模型中,颜色是由色度(Hue)、饱和度(Saturation)、明度(Value)共同组成。与图像处理中最常见的RGB色彩模型相比,HSV更适于色彩分割和亮度、对比度、饱和度等调整以便进行图像增强。在数据预处理阶段,我们将图像的RGB数值缩放到0~1的数值归一操作,然后将其从RGB色彩空间转换到HSV空间:
V=max{R,G,B}
我们利用图像明度直方图统计的方法,判断图像整体明度低于正常阈值的为暗光环境下拍摄的食材图片,然后进行增强。为了保持暗光图片基础颜色不失真,仅在V通道上进行Gamma变换增强(本发明根据正常光照和暗光的亮度均值方差比较后分别设定gamma系数为0.75、0.5)。最后,将变换后的HSV颜色空间转换为RGB空间进行显示,效果如图6所示,可见针对弱光使得图像的整体亮度值得到提升,同时低灰度处的对比度得到增加,更利于分辩低灰度值时的图像细节。
对于常见物体检测模型的预训练,本发明采用一阶段算法YOLO(You Only LookOnce)基础架构,该算法将基于候选框生成与分类的目标检测两阶段(two-stage)算法用基于回归的一阶段(one-stage)算法替代,直接在输出层回归bounding box的位置和所属类别,是解决目标检测速度与精度问题的一个高效框架,适用于智能冰箱等算力有限的物联网设备。
YOLOv5的网络结构主要由Backbone(骨干网络)、Neck(颈部网络)、Head(头部网络)组成,其中Backbone主要使用CSPdarknet+SPP结构,Neck使用PANet结,Head使用yolov3中的head,其结构与连接方式如图7所示。Yolov5使用CSP结构(Cross Stage Partial交叉阶段部分)作为Backbone,从输入图像中提取丰富的信息特征。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题,将梯度的变化从头到尾地集成到特征图中,因此减少了模型的参数量和FLOPS数值,既保证了推理速度和准确率,又减小了模型尺寸;Focus是一种对特征图的切片操作,用于降低FLOPS和提高速度;SPP(SpatialPyramid Pooling空间金字塔池化)可以增大感受野,有助于解决对齐问题。Neck主要用于生成特征金字塔。特征金字塔会增强模型对于不同缩放尺度对象的检测,从而能够识别不同大小和尺度的同一个物体。Head进行最终检测部分。
YOLOv5分别有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种结构,区别在于网络深度与宽度,如表1所示。四种结构深度不同,越深的网络拥有越强的特征提取和融合的能力。考虑到智能冰箱嵌入式程序的设备硬件资源和识别精度高、识别速度快这一用户功能性需求场景,本发明采用YOLOv5m平衡识别精度和资源需求。
本发明基于目标检测公开数据集MS COCO 80类常见物体为源数据集进行训练后存储模型参数,载入到冰箱食材这一目标域进行微调。源模型使用DIOU_Loss,以距离作为惩罚项可能会导致预测框被错误放大,破坏了尺度不变性。因此本发明在此基础上采用更符合实际检测效果的CIoU_Loss损失函数和DIoU_nms非极大值抑制。DIoU_Loss表示为:
其中b和bgt表示两个矩形框的中心点,ρ表示两个矩形框之间的欧氏距离,c表示两个矩形框的闭包区域的对角线的距离,可以看出DIoU_loss的优化目标是直接减小两个矩形框中心点之间的欧式距离,c的作用是防止损失函数的值过大,提升收敛速度。CIoU_Loss则进一步考虑了矩形框的相对比例,使得检测效果更进一步:
其中,IoU表示模型预测生成的检测矩形框与真实检测矩形框的交并比,ω和ωgt分别表示真实框与预测框的长,h和hgt分别表示真实框与预测框的宽。此外,本发明采用了DIOU_nms非极大值抑制,在不增加计算成本的情况下加强在重叠的情况下的目标的检测。
图8展示了本发明将基于常见目标检测的模型迁移到冰箱食材识别领域的原理示意图。由于冰箱食材数据规模较小、涵盖食材数量少,直接应用目标检测泛化性能差。因此,本发明采用迁移学习技术将精度高、速度快、轻量级的YOLOv5m预训练模型迁移到冰箱食材检测模型。由于YOLOv5模型通过大规模数据集上百万张图片训练,得到的多层参数富含再利用价值。为了充分利用预训练模型网络前端强大的低级特征提取能力,我们在训练新的食材检测模型时冻结backbone部分参数,只微调后面neck和head部分参数,从而在保证原模型的检测能力的基础上尽快收敛。
在伪标签优化阶段,我们将食材检测置信度高于0.9的预测结果在本地缓存,当缓存池充满之后,其中的伪标签数据将会被作为新的数据集加入到模型训练和更新,从而进一步扩大数据规模,提升模型泛化能力,直到模型的检测精度达到预期要求,最终得到一个鲁棒的冰箱食材检测模型。
为了验证冻结部分网络层进行迁移学习的有效性,我们在默认设置、冻结backbone和冻结全部参数三种条件下进行了实验。图9显示了不同冻结设置下的训练结果,图10显示了不同冻结设置下的GPU使用情况。可以看出,冻结全部网络相比默认设置虽然平均GPU使用率和GPU占用率分别降低11.54%和29.83%,但其整体性能几乎减为一半;另一方面,冻结backbone设置下的平均GPU使用率和GPU占用率分别降低5.39%和29.68%,而其precision、recall和mAP@0.3:0.7相比默认设置的下降仅为2.53%、0.96%和1.47%。此外,相比默认设置,冻结backbone之后的训练时间也从253分钟减少至152分钟,充分证明了冻结层迁移学习的有效性。
在迁移学习的基础上,我们进行消融实验独立验证了不同改进策略的有效性,在测试集上的结果如图11所示。基线模型综合采用数据增强、预训练微调和伪标签优化策略,在测试集上的Precision、Recall和mAP0.3:0.7分别达到了96.03%、97.78%和97.18%,充分证明了本系统在冰箱食材检测任务上的有效性。在不进行微调的消融实验中,直接迁移的Precision、Recall和mAP0.3:0.7三项指标均不超过85%,相比该基线模型下降了13%左右,说明采用本发明提出的预训练+微调策略能够有效增强冰箱食材检测模型的泛化能力。此外,在不进行数据增强的消融实验中Precision、Recall和mAP0.3:0.7略有下降,同样证明了数据增强对于性能提升的有效性。最后,在不进行伪标签优化的消融实验中,Precision、Recall和mAP0.3:0.7下降超过了5%,充分显示了伪标签优化对于检测性能增强的优越性。以上结果证明,本发明提出的迁移学习策略能够有效提升冰箱食材检测的性能,即使在数据规模较小、采集环境复杂的场景也具有较强的泛化能力。
表1为YOLOv5不同结构规模的模型参数对比。
Claims (1)
1.一种基于迁移学习的智能冰箱食材精准检测方法,该方法具体包括下列步骤:
步骤1:数据获取;
获取不同光照条件、遮挡程度、包装、背景、聚集规模的果蔬和快消品数据集;
步骤2:数据增强;
将步骤1获取的数据集进行平移、旋转、缩放、Mosaic操作进行数据增强,对采集到的亮度小于阈值的数据集进行HSV暗光增强的预处理,平衡不同光照的数据分布;
步骤3:数据集划分;
将整个数据集划分出训练集、验证集,并保证划分后各数据集下的类别、光照条件等分布平衡;
步骤4:建立YOLOv5检测模型;
所述YOLOv5检测模型的网络结构包括:Backbone网络、Neck网络、Head网络,YOLOv5检测模型的损失函数为:
其中,为检测模型的损失函数,IoU表示模型预测生成的检测矩形框与真实检测矩形框的交并比,ρ表示YOLO模型中两个检测矩形框之间的欧氏距离,c为收敛系数,b和bgt表示YOLO模型中两个检测矩形框的中心点,ω和ωgt分别表示真实框与预测框的长,h和hgt分别表示真实框与预测框的宽;
步骤5:模型训练;
采用步骤3得到的训练集划分为粗训练集和微调训练集,采用粗训练集对步骤4的模型进行训练达到收敛;然后,冻结YOLOv5检测模型中的backbone网络的参数,采用微调训练集训练neck网络和head网络的参数,达到收敛;
步骤6:预测;
在实时获取的食材图像时,首先对图像进行图像增强预处理,然后采用步骤5得到的模型对食材图像进行检测,得到食材的种类并输出,同时存储该食材的检测矩形框内图像,计算该次检测结果的置信度,保留置信度大于设定阈值的该检测矩形框内图像;
步骤7:伪标签优化;
对步骤6保留下来的检测矩形框内图像,添加对应标签,作为伪标签;建立一个模型修正缓存池,用于存储步骤6保留的检测矩形框内图像、对应的伪标签和矩形框坐标,当缓存池数量达到设定阈值,就将当前缓存池中数据合并到微调训练集中,冻结Backbone网络参数,采用新的微调训练集重新训练Neck网络和Head网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210556272.4A CN114998891A (zh) | 2022-05-17 | 2022-05-17 | 一种基于迁移学习的智能冰箱食材精准检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210556272.4A CN114998891A (zh) | 2022-05-17 | 2022-05-17 | 一种基于迁移学习的智能冰箱食材精准检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998891A true CN114998891A (zh) | 2022-09-02 |
Family
ID=83026981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210556272.4A Pending CN114998891A (zh) | 2022-05-17 | 2022-05-17 | 一种基于迁移学习的智能冰箱食材精准检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998891A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956126A (zh) * | 2019-11-27 | 2020-04-03 | 云南电网有限责任公司电力科学研究院 | 一种联合超分辨率重建的小目标检测方法 |
CN112488006A (zh) * | 2020-12-05 | 2021-03-12 | 东南大学 | 一种基于小麦图像的目标检测算法 |
CN112862762A (zh) * | 2021-01-21 | 2021-05-28 | 博云视觉科技(青岛)有限公司 | 一种基于深度学习的食材特征提取及压缩方法 |
CN113344849A (zh) * | 2021-04-25 | 2021-09-03 | 山东师范大学 | 一种基于YOLOv5的微乳头检测系统 |
CN113642574A (zh) * | 2021-07-30 | 2021-11-12 | 中国人民解放军军事科学院国防科技创新研究院 | 基于特征加权与网络微调的小样本目标检测方法 |
CN114140413A (zh) * | 2021-11-24 | 2022-03-04 | 广西成电智能制造产业技术有限责任公司 | 一种优化小目标和改善漏检问题的食材图像检测方法 |
WO2022074643A1 (en) * | 2020-10-08 | 2022-04-14 | Edgy Bees Ltd. | Improving geo-registration using machine-learning based object identification |
-
2022
- 2022-05-17 CN CN202210556272.4A patent/CN114998891A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956126A (zh) * | 2019-11-27 | 2020-04-03 | 云南电网有限责任公司电力科学研究院 | 一种联合超分辨率重建的小目标检测方法 |
WO2022074643A1 (en) * | 2020-10-08 | 2022-04-14 | Edgy Bees Ltd. | Improving geo-registration using machine-learning based object identification |
CN112488006A (zh) * | 2020-12-05 | 2021-03-12 | 东南大学 | 一种基于小麦图像的目标检测算法 |
CN112862762A (zh) * | 2021-01-21 | 2021-05-28 | 博云视觉科技(青岛)有限公司 | 一种基于深度学习的食材特征提取及压缩方法 |
CN113344849A (zh) * | 2021-04-25 | 2021-09-03 | 山东师范大学 | 一种基于YOLOv5的微乳头检测系统 |
CN113642574A (zh) * | 2021-07-30 | 2021-11-12 | 中国人民解放军军事科学院国防科技创新研究院 | 基于特征加权与网络微调的小样本目标检测方法 |
CN114140413A (zh) * | 2021-11-24 | 2022-03-04 | 广西成电智能制造产业技术有限责任公司 | 一种优化小目标和改善漏检问题的食材图像检测方法 |
Non-Patent Citations (1)
Title |
---|
李建明;杨挺;王惠栋;: "基于深度学习的工业自动化包装缺陷检测方法", 包装工程, no. 07, 10 April 2020 (2020-04-10) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447917B (zh) | 基于内容和特征及多尺度模型的遥感图像雾霾消除方法 | |
CN112270688B (zh) | 一种前景提取方法、装置、设备及存储介质 | |
CN105513053B (zh) | 一种用于视频分析中背景建模方法 | |
CN112561899A (zh) | 电力巡检图像识别方法 | |
CN106570885A (zh) | 基于亮度和纹理融合阈值的背景建模方法 | |
CN109389617A (zh) | 一种基于片上异构系统的运动目标识别与追踪方法及系统 | |
CN113297988B (zh) | 一种基于域迁移和深度补全的物体姿态估计方法 | |
CN111881725B (zh) | 一种融合空频域特征的光学遥感图像船舶目标检测方法 | |
CN112347805A (zh) | 一种多目标二维码检测识别方法、系统、装置及存储介质 | |
CN114943888B (zh) | 基于多尺度信息融合的海面小目标检测方法 | |
CN116229205A (zh) | 基于小样本特征迁移的口红产品表面缺陷数据增广方法 | |
CN108550124B (zh) | 一种基于仿生螺线的光照补偿及图像增强方法 | |
Qiu et al. | The infrared moving target extraction and fast video reconstruction algorithm | |
CN114998891A (zh) | 一种基于迁移学习的智能冰箱食材精准检测方法 | |
CN113205494A (zh) | 基于自适应尺度图像块加权差测量的红外小目标检测方法和系统 | |
CN111797694A (zh) | 一种车牌检测方法及装置 | |
CN112800968B (zh) | 一种基于hog分块的特征直方图融合对饮水区域猪的身份识别办法 | |
Wang et al. | Low-light traffic objects detection for automated vehicles | |
CN113379714A (zh) | 基于深度卷积神经网络的光学遥感图像目标检测系统 | |
Wu et al. | Semantic prior based generative adversarial network for video super-resolution | |
CN107220983B (zh) | 一种基于视频的生猪检测方法和系统 | |
Nair et al. | Single Image Dehazing Using Multi-Scale DCP-BCP Fusion | |
Zhang et al. | A unified saliency detection framework for visible and infrared images | |
Yu et al. | The improved dehazing method fusion-based | |
CN112488203B (zh) | 一种面向似六边形弹孔智能识别检测的数据集扩增方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |