CN115880676B

CN115880676B - 一种基于深度学习的自助售货机商品识别方法

Info

Publication number: CN115880676B
Application number: CN202211649911.8A
Authority: CN
Inventors: 李跃华; 张振华; 姚章燕; 吴赛林; 王金凤; 陈竹
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2024-04-09
Anticipated expiration: 2042-12-21
Also published as: CN115880676A

Abstract

本发明提供了一种基于深度学习的自助售货机商品识别方法，属于目标识别技术领域。解决了现有的自助售货机结构复杂、故障率高、商品种类受限制和成本高的问题。其技术方案为：包括以下步骤：S1、采集真实场景下物品数据形成商品检测数据集，并对训练集图片中的商品进行标注；S2、基于yolov5和BFCNN搭建网络框架；S3、根据搭建好的yolov5和BFCNN网络框架分别训练商品数据集；S4、使用训练好的网络验证识别商品，得到识别结果。本发明的有益效果为：本发明减小了自助售货机的占地面积以及成本，消除了售货机的商品种类限制，提高了检测速率和精度。

Description

一种基于深度学习的自助售货机商品识别方法

技术领域

本发明涉及目标识别技术领域，尤其涉及一种基于深度学习的自助售货机商品识别方法。

背景技术

随着科技的进步，如今传统零售业普遍开始使用无人零售，这极大地方便了人们的生活。现在无人零售最常见的产品是自助售货机，它广泛出现在商场、车站等地。自助售货机根据技术方案不同分为四类，分别是机械式、无线射频识别(RFID)式、重力感应式和视觉识别式。机械式售货机是使用一些特定机械装置将消费者购买商品从售货机中直接投递到出货口。RFID式售货机是直接与商品的标签进行双向数据通信得到商品的价格信息，商品离柜后得到最终消费信息。重力感应式售货机商品拥有固定摆放位置，在消费者拿去某个商品后售货机得到该商品重量，然后根据重量和该位置物品所设置的价格得出最终消费信息。视觉识别式售货机是在消费者购买前后拍摄相同区域商品的照片，然后通过图像识别，对比前后商品数量和类别，得到消费者购物信息。

由于自助售货机在全世界的范围之内都在被广泛地使用，对于它的便捷性、准确性、成本以及维护等方面都有着较高的要求。但是其中机械式自助售货机结构复杂，故障率高，货品单一；RFID式自助售货机成本高，耗费人工，容易损坏和误读；重力感应式自助售货机容易出现结算错误，对传感器灵敏度要求高，需要频繁校准。

如何解决上述技术问题为本发明面临的课题。

发明内容

本发明的目的在于提供一种基于深度学习的自助售货机商品识别方法，yolov5算法拥有快速而准确的识别效果，在图像识别领域被广泛地使用，还有双线性卷积神经网络在对于同类物品之间的识别也拥有很好的表现。

本发明的发明思想为：本发明通过卷积神经网络自动提取物品特征，分辨物品类别，有较高的速度和准确率，并且在目标识别方面有着明显优势，其中yolov5算法已经广泛地应用于物品的识别，针对目前自助售货机存在的各种结构复杂、故障率高、成本高、商品种类受限制和对传感器灵敏度要求高的问题，提出了一种基于yolov5与BFCNN的自助售货机商品识别算法，减小了自助售货机的占地面积以及成本，消除了售货机的商品种类限制，提高了检测速率和精度。

为了实现上述发明目的，本发明采用技术方案具体为：一种基于深度学习的自助售货机商品识别方法，包括以下步骤：

S1、采集真实场景下物品数据形成商品检测数据集。

(1)将各类商品随意放入摄像头拍摄区域，运行摄像头进行视频拍摄，期间随机打乱各类商品位置。

(2)将通过拍摄得到的视频作为商品数据集图片提取的源文件，然后使用python程序每间隔4帧提取出一张图片，最终得到商品数据集。

(3)首先通过labelImg软件对拍摄得到的商品数据集进行对标注，标注每张图片上的商品位置和类别，生成yolo格式的txt标注文件，标注文件有五列，分别代表类别代号、标注框相对中心坐标x_center、y_center、标注框相对宽度w和高度h，其中x_center和y_center的值分别为原始中心点x坐标除以宽后的结果和原始中心点y坐标除以图高后的结果，w和h的值分别为原始标记框除以图宽的结果和原始标记框除以图高后的结果，然后根据商品数据集使用k-means++聚类算法将每个坐标框归类到与其相似度距离最近的类别里，其中距离计算使用欧式距离d(x)＝d(box，centroid)＝1-IoU(box，centroid)，其中box为标注框，centroid为聚类中心，并设置centroid的值为9，最后得到商品数据集先验框。

S2、基于yolov5搭建网络框架。

yolov5网络模型总的包括Input输入端，将数据集中的图片进行Mosaic数据增强和自适应图片缩放；Backbone网络实现对图片进行特征提取；Neck网络实现对不同尺寸特征图的特征信息进行融合；Prediction输出层对提取到的特征进行结果预测。

S3、根据搭建好的yolov5网络框架对商品数据集进行训练。进行商品目标检测过程如图2示。

(1)yolov5中Backbone网络使用CSPDarkNet53网络结构对商品进行特征提取，商品数据集先验框作为Anchors使用，并将标注好的训练集输入基于CSPDarkNet53网络的训练模型进行训练。

(2)yolov5网络使用分类损失L_cls、定位损失L_box和置信度损失L_obj三者共同来计算网络的损失，其计算公式为其中N为检测层数，B是标签分配到先验框的目标数，S×S为被图片分割成的网格数，λ₁、λ₂和λ₃为三种损失的权重参数。最终将图片分为7×7的网格。

(3)训练回归出商品位置时商品位置的预测框会相互之间进行Soft-NMS操作，首先对IoU＞0.4的预测框进行线性惩罚而非直接将其删除，惩罚函数为高斯惩罚函数，其表达式为其中，S_i为预测框b_i的得分，M为最大分数的预测框，b_i为预测框，σ为根据经验选择超参数。对于高斯惩罚函数，IoU越大的给出越大的抑制，相反IoU越小给出越小的抑制，从而减少因两个同类型商品因距离太近导致预测框重叠太多导致误删情况，然后过滤掉置信度阈值小于0.1的预测框，最终得到商品位置预测框。

(4)最后通过全连接层预测商品类别，商品类别信息输出的是商品类别的概率值，其计算为其中，Z_i为第i个节点的输出值，C为分类的类别数。通过Softmax函数可以将多分类的输出值转换为在[0,1]之间的概率分布，将商品类别概率值大的设置为预测的商品类别。

S4、使用yolov5对商品数据集进行训练。

将制作好的数据和放入搭建yolov5网络中进行训练，分别对参数的值进行设置，其中epochs值为300，batch_size值为32，初始学习率为0.001，训练结束后保存最优模型。利用训练完成的商品检测模型对测试集进行识别，输出图片中商品的类别信息和位置信息。

S5、根据BCNN搭建双线性特征融合卷积神经网络框架。

(1)双线性特征融合卷积神经网络是基于BCNN网络模型进行添加特征融合模块，其流程图如图3示。BCNN网络模型是由一个四元组组成：M＝(f_A，f_B，p，c)，其中f_A和f_B为两个双线性卷积神经网络A和B的特征提取函数，p为池化函数，c为分类函数。网络对于输入图像I某处位置l的双线性特征表示为bilinear(l，I，f_A，f_B)＝f_A(l，I)^Tf_B(l，I)，其内容就是把网络A和B同一位置上的两个特征进行外积后得到矩阵b。

(2)然后对网络进行特征融合，融合过程见图4分别将卷积神经网络A和B的卷积层conv4和conv5中的每一层特征进行add操作，add操作就是将同维度的特征像素点进行相加，再增加两个新的双线性层，并对其融合特征即进行外积分别得到双线性特征B₂、B₃。经过融合的特征具有低层细节特征和高层抽象特征，实现特征信息的互补，使得模型具有更像的特征表达的能力。然后添加concat拼接层，concat为张量拼接，直接将从原始双线性网络中生成的特征B₁和融合特征进行外积得到的两个特征B₂、B₃拼接得到特征B。

(3)对得到的特征B进行sum pooling得到矩阵ξ，其计算公式为ξ(I)＝∑_lb(l，I，f_A，f_B)，其表示为将图像双线性特征提取后的同一位置上的两个特征进行外积和求和，然后将矩阵ξ张成一个1维向量x，并对向量x使用进行矩阵归一化，使用进行L₂归一化操作，得到特征Z。

(4)最后将特征Z通过全连接层并使用SoftMax函数计算得出每类饮料商品概率值，通过概率值分析出最后商品类别。

S6、使用双线性特征融合卷积神经网络对商品数据集中裁剪出的瓶装饮料商品图进行训练。

(1)根据yolov5识别的结果得到商品位置信息，将识别结果为瓶装饮料商品的对应位置的图片裁剪出来实现背景抑制，并将瓶装饮料商品图片大小归一化为448×448像素，其得到的瓶装饮料商品数据集尽可能拥有多视角的场景，并结合yolov5识别得到的物品信息结果，自动将饮料图片和对应类别信息相结合形成瓶装饮料商品数据集，然后人工对错误标注进行修改得到最终数据集，并将数据集中的图片进行数据增强处理，增强方法包含旋转翻转变换、平移变换、尺度变换、对比度变换、噪声变换，并且按照9：1的比例瓶装饮料类别数据集划分为训练集和测试集。

(2)训练时对双线性特征融合卷积神经网络模型的相关参数进行微调，将分类数量改为商品类别数，设置学习率为0.001，epochs为150，batch_size为16，并使用随机赋值法对最后一层参数进行初始化，训练过程中采用梯度下降法和反向传播对网络模型进调整，得到商品类别识别的最优训练模型。

S7、使用训练好的网络验证商品识别，得到识别结果。

如图5发明总体架构所示。首先利用目标检测方法yolov5检测普通零食商品类别和定位瓶装饮料商品在图像上的大致位置，并通过位置信息裁剪出每一个瓶装饮料商品图片，通过背景抑制方法剔除识别目标以外的大部分背景，防止大量杂乱信息对识别准确度的干扰；然后将去除了大部分背景干扰的瓶装饮料商品图像输入双线性特征融合卷积神经网络中进行细粒度图像识别，以获得最终的分类结果，并将两个分类结果信息合并得到最终分类信息。最后使用精准率和召回率来评估本方法的性能，它们定义为：其中P为精准率；R为召回率；TP表示是本物品并且检测出来也是；FP表示是本物品但是检测出不是；FN表示不是本物品且检测出来也不是。

与现有技术相比，本发明的有益效果为：

1、本发明为了提高商品的识别精度，将商品分为普通零食商品和瓶装饮料商品并分别对其训练识别模型，对于普通零食商品只通过yolov5进行训练得到模型1；对于瓶装饮料商品先通过yolov5进行训练，然后将饮料商品从原图中裁剪出来放入BFCNN网络进行训练得到模型2。

2、为实现小代价数据集制作，解决饮料商品制作数据集时需要的大量人工标注问题。对于瓶装饮料商品定位和数据集制作，本发明使用yolov5算法对采集到的原图进行识别，其结果中包含每个商品的类别信息和位置信息，然后类别信息得到类别为饮料的商品，通过它对应的位置信息在原图上裁剪下来，结合yolov5识别得到的结果，自动将饮料图片和对应类别信息相结合形成瓶装饮料商品数据集，然后人工对错误标注进行修改得到最终数据集，并通过平移变换、尺度变换、对比度变换等数据增强操作对数据集进行扩充。

3、为了使模型具有更像的特征表达的能力，实现特征信息的互补，将具有低层细节特征和高层抽象特征进行融合。对于BFCNN网络结构，将特征融合模块加到BCNN网络结构中，对特征提取网络A和B的conv4和conv5每一层特征进行add操作，对低层特征和高层特征进行特征融合，然后将融合得到的特征进行外积分别得到B₁、B₂和B₃，最后将特征B₁、B₂和B₃拼接为一个特征向量B。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明中自助售卖机工作流程图。

图2为本发明中商品识别流程图。

图3为本发明中双线性特征融合卷积神经网络模型结构示意图。

图4为本发明中特征融合结构示意图。

图5为本发明整体网络架构。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图5，本实施例提供其技术方案为：对于自助售货机的使用流程如图1所示。顾客首先进行开货柜门验证，如果验证通过，则解锁货柜门并触发摄像机拍摄商品图片，否则再次进行验证开门；然后顾客将选取商品并关闭货柜门，货柜门关闭同时再次拍摄商品照片，否则再次执行关门操作；之后对比开门前后的商品种类和数量变化得到最终的购物信息，并将购物信息通过屏幕展示给顾客，到此购物动作结束。

对于商品图片进行目标检测过程如图2，yolov5网络模型总的包括Input输入端，将数据集中的图片进行Mosaic数据增强和自适应图片缩放；Backbone网络实现对图片进行特征提取；Neck网络实现对不同尺寸特征图的特征信息进行融合；Prediction输出层对提取到的特征进行结果预测。

首先通过labelImg软件对拍摄得到的商品数据集进行对标注，标注每张图片上的商品位置和类别，生成yolo格式的.txt标注文件，标注文件有五列，分别代表类别代号、标注框相对中心坐标x_center、y_center、标注框相对宽度w和高度h。其中x_center和y_center的值分别为原始中心点x坐标除以宽后的结果和原始中心点y坐标除以图高后的结果，w和h的值分别为原始标记框除以图宽的结果和原始标记框除以图高后的结果。根据商品数据集使用k-means++聚类算法将每个坐标框归类到与其相似度距离最近的类别里，其中距离计算使用欧式距离d(x)＝d(box，centroid)＝1-IoU(box，centroid)，其中box为标注框，centroid为聚类中心，并设置centroid的值为9，最后得到商品数据集先验框。ylov5中Backbone网络使用CSPDarkNet53网络结构对商品进行特征提取，商品数据集先验框作为Anchors使用，并将标注好的训练集输入基于CSPDarkNet53网络的训练模型进行训练。本网络的损失主要由分类损失L_cls、定位损失L_box和置信度损失L_obj组成，其计算公式为其中N为检测层数，B是标签分配到先验框的目标数，S×S为被图片分割成的网格数，λ₁、λ₂和λ₃为三种损失的权重参数。训练回归出商品位置时商品位置的预测框会相互之间进行Soft-NMS操作，使用高斯惩罚函数/>对IoU＞0.4的检测框进行线性惩罚而非直接将其删除，IoU越大的给出越大的抑制，相反IoU越小给出越小的抑制，从而减少因两个同类型商品因距离太近导致预测框重叠太多导致误删情况，然后过滤掉置信度阈值小于0.1的预测框，最终得到商品位置预测框。最后通过全连接层预测商品类别，商品类别信息输出的是商品类别的概率值，其计算为/>其中，Z_i为第i个节点的输出值，C为分类的类别数。通过Softmax函数可以将多分类的输出值转换为在[0,1]之间的概率分布。具体的epochs值为300，batch_size值为32，初始学习率为0.001，训练结束后保存最优模型。利用训练完成的商品检测模型对测试集进行识别，输出图片中商品的类别信息和位置信息。

根据商品位置信息从原图中实现背景抑制，将识别结果为瓶装饮料商品的对应位置的图片裁剪出来，并将瓶装饮料商品图片大小归一化为448×448像素，其得到的瓶装饮料商品数据集尽可能拥有多视角的场景，并结合yolov5识别得到的物品信息结果，自动将饮料图片和对应类别信息相结合形成瓶装饮料商品数据集，然后人工对错误标注进行修改得到最终数据集。并将数据集中的图片进行数据增强处理，增强方法包含旋转翻转变换、平移变换、尺度变换、对比度变换、噪声变换，并且按照9：1的比例瓶装饮料类别数据集划分为训练集和测试集。

如图3所示为BFCNN算法流程图，BFCNN是基于B-CNN网络模型进行添加特征融合模块。BCNN网络模型是由一个四元组组成：M＝(f_A，f_B，p，c)，其中f_A和f_B为两个双线性卷积神经网络A和B的特征提取函数，p为池化函数，c为分类函数，本网络对于输入图像I某处位置l的双线性特征表示为bilinear(l，I，f_A，f_B)＝f_A(l，I)^Tf_B(l，I)，其内容就是把网络A和B同一位置上的两个特征进行外积后得到矩阵b。然后对网络进行特征融合，融合过程见图4，分别将卷积神经网络A和B的卷积层conv4和conv5中的每一层特征进行add操作，add操作就是将同维度的特征像素点进行相加，再增加两个新的双线性层，并对其融合特征即进行外积分别得到双线性特征B₂、B₃。经过融合的特征具有低层细节特征和高层抽象特征，实现特征信息的互补，使得模型具有更像的特征表达的能力。然后添加concat拼接层，concat为张量拼接，直接将从原始双线性网络中生成的特征B₁和融合特征进行外积得到的两个特征B₂、B₃拼接得到特征B。对得到的特征B进行sum pooling得到矩阵ξ，其计算公式为ξ(I)＝∑_lb(l，I，f_A，f_B),并将矩阵ξ张成一个1维向量x，并对向量x使用进行矩阵归一化，使用/>进行L₂归一化操作，然后得到特征Z，最后将特征Z通过全连接层并使用SoftMax函数计算得出每类饮料商品概率值，通过概率值分析出最后商品类别。训练时对BFCNN模型的相关参数进行微调，将分类数量改为商品类别数，设置学习率为0.001，epochs为150，batch_size为16，并使用随机赋值法对最后一层参数进行初始化。训练过程中采用梯度下降法和反向传播对网络模型进调整，得到商品类别识别的最优训练模型。使用精准率和召回率来评估本方法的性能，它们定义为：/>其中P为精准率；R为召回率；TP表示是本物品并且检测出来也是；FP表示是本物品但是检测出不是；FN表示不是本物品且检测出来也不是。

如图5本发明总体架构所示。首先利用目标检测方法YOLOv5检测普通零食商品类别和定位瓶装饮料商品在图像上的大致位置，并通过位置信息裁剪出每一个瓶装饮料商品图片，通过背景抑制方法剔除识别目标以外的大部分背景，防止大量杂乱信息对识别准确度的干扰；然后将去除了大部分背景干扰的瓶装饮料商品图像输入到添加了特征融合的双线性卷积神经网络B-CNN中进行细粒度图像识别，以获得最终的分类结果。最后将两个分类结果信息合并得到最终分类信息。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的自助售货机商品识别方法，其特征在于，包括以下步骤：

S1、采集真实场景下物品数据形成商品检测数据集；

(1)将各类商品随意放入摄像头拍摄区域，运行摄像头进行视频拍摄，期间随机打乱各类商品位置；

(2)将通过拍摄得到的视频作为商品数据集图片提取的源文件，然后使用python程序每间隔4帧提取出一张图片，最终得到商品数据集；

(3)使用labelImg对拍摄的商品数据集进行对标注，标注完成后生成yolo数据集格式的txt文件，并按照9比1的比例分为训练集和测试集，然后根据商品数据集使用k-means++聚类算法将每个坐标框归类到与其相似度距离最近的类别里，距离计算使用欧式距离d(x)＝d(box，centroid)＝1-IoU(box，centroid)，其中box为标注框，centroid为聚类中心，并设置centroid的值为9，最后得到商品数据集先验框；S2、基于yolov5网络结构搭建网络框架；

yolov5网络模型总的包括Input输入端，将数据集中的图片进行Mosaic数据增强和自适应图片缩放；Backbone网络实现对图片进行特征提取；Neck网络实现对不同尺寸特征图的特征信息进行融合；Prediction输出层对提取到的特征进行结果预测；

S3、根据搭建好的yolov5网络框架训练和识别商品数据集；

(1)yolov5中Backbone网络使用CSPDarkNet53网络结构对商品进行特征提取，商品数据集先验框作为Anchors使用，并将标注好的训练集输入基于CSPDarkNet53网络的训练模型进行训练；

(2)yolov5网络使用分类损失L_cls、定位损失L_box和置信度损失L_obj三者共同来计算网络的损失，其计算公式为其中N为检测层数，B是标签分配到先验框的目标数，S×S为被图片分割成的网格数，λ₁、λ₂和λ₃为三种损失的权重参数，最终将图片分为7×7的网格；

(3)训练回归出商品位置时商品位置的预测框会相互之间进行Soft-NMS操作，首先对IoU＞0.4的预测框进行线性惩罚而非直接将其删除，惩罚函数为高斯惩罚函数，其表达式为其中，S_i为预测框b_i的得分，M为最大分数的预测框，b_i为预测框，σ为根据经验选择超参数，然后过滤掉置信度阈值小于0.1的预测框，最终得到商品位置预测框；

(4)最后通过全连接层预测商品类别，商品类别信息输出的是商品类别的概率值，其计算为其中，Z_i为第i个节点的输出值，C为分类的类别数；

S4、使用yolov5对商品数据集进行训练；

将制作好的数据放入搭建yolov5网络中进行训练，分别对参数的值进行设置，其中epochs值为300，batch_size值为32，初始学习率为0.001，训练结束后保存最优模型，利用训练完成的商品检测模型对测试集进行识别，输出图片中商品的类别信息和位置信息；

S5、根据BCNN搭建双线性特征融合卷积神经网络框架；

(1)双线性特征融合卷积神经网络是基于BCNN网络模型进行添加特征融合模块，BCNN网络模型是由一个四元组组成：M＝(f_A，f_B，p，c)，其中f_A和f_B为两个双线性卷积神经网络A和B的特征提取函数，_p为池化函数，_c为分类函数；

(2)然后对网络进行特征融合，分别将卷积神经网络A和B的卷积层conv4和conv5中的每一层特征进行add操作，add操作就是将同维度的特征像素点进行相加，再增加两个新的双线性层，并对其融合特征即进行外积分别得到双线性特征B₂、B₃，然后添加concat拼接层，concat为张量拼接，直接将从原始双线性网络中生成的特征B₁和融合特征进行外积得到的两个特征B₂、B₃拼接得到特征B，得到的特征B；

(3)对得到的特征B进行sum pooling得到矩阵ξ，其计算公式为ξ(I)＝∑_lb(l，I，f_A，f_B)，其中1表示图片中位置，I表示图片，并将矩阵ξ张成一个1维向量x，并对向量x使用进行矩阵归一化，使用/>进行L₂归一化操作，得到特征Z；

(4)最后将特征Z通过全连接层并使用SoftMax函数计算得出每类饮料商品概率值，通过概率值分析出最后商品类别；

S6、使用双线性特征融合卷积神经网络对商品数据集中裁剪出的瓶装饮料商品图进行训练；

(1)根据yolov5识别的结果得到商品位置信息，将识别结果为瓶装饮料商品的对应位置的图片裁剪出来实现背景抑制，并结合yolov5识别得到的物品信息结果，自动将饮料图片和对应类别信息相结合形成瓶装饮料商品数据集，然后人工对错误标注进行修改得到最终数据集；

(2)训练时对双线性特征融合卷积神经网络模型的相关参数进行微调，将分类数量改为商品类别数，设置学习率为0.001，epochs为150，batch_size为16，并使用随机赋值法对最后一层参数进行初始化；

S7、使用训练好的网络验证商品识别，得到识别结果；

首先使用训练好的商品检测模型对柜内摄像机拍摄得到的商品图片进行商品定位识别并裁剪出瓶装饮料商品，然后使用瓶装饮料商品类别识别模型对裁剪得到的瓶装饮料商品进行类别识别，最后结合yolov5识别出的商品类别和双线性特征融合卷积神经网络识别的瓶装饮料商品类别，输出总的商品类别以及数量，最后使用精准率和召回率来评估本方法的性能，它们定义为：其中P为精准率；R为召回率；TP表示是本物品并且检测出来也是；FP表示是本物品但是检测出不是；FN表示不是本物品且检测出来也不是。