CN112434710A

CN112434710A - 一种基于目标检测技术的智能货架商品识别方法

Info

Publication number: CN112434710A
Application number: CN202011321602.9A
Authority: CN
Inventors: 罗作民; 任娣声; 孙钦东; 白彬彬
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-02

Abstract

本发明公开了一种基于目标检测技术的智能货架商品识别方法，具体为：首先，在官网下载COCO预处理数据集，选取4000张图片作为预训练集；制作样本集：在超市通过移动设备采集包含不同商品的货架图片；手工标注货架图片中所有商品的位置以及类别，根据形状和用途对商品目标分类；之后将样本集图片进行处理；使用MASK‑RCNN来进行模型搭建；对模型进行训练与调优；最后，将货架商品数据放入到模型中进行预测，最终生成商品类别、商品位置以及相似度。本发明的方法，能够快速准确的识别出货架商品的类别，准确的分析出商品的类别，而且设计的系统操作方便，可移植性高，可以广泛应用于超市等商业领域，减少人力的开销。

Description

一种基于目标检测技术的智能货架商品识别方法

技术领域

本发明属于计算机视觉处理技术领域，具体涉及一种基于目标检测技术的智能货架商品识别方法。

背景技术

计算机视觉是指通过各种手段或技术输入所需的数据，使机器能够直观地捕捉、解释、理解和处理物体。在人力资源有限时，可以帮助我们提供更便捷的服务。现如今，计算机视觉系统被广泛应用于各个领域，如从预测性维护到质量控制和产业安全。计算机视觉是使用计算机及相关技术和设备对生物视觉的一种模拟。它的主要任务就是首先通过对采集的图片或视频加以处理，以获得相应场景的三维信息，就像人类和许多其他类生物每天所看到的那样。

随着近几年互联网的快速发展，大数据和云计算快速发展，无人超市的研究风头正猛。使用人工智能的技术来实现零售场景的自动化无人化已经成为了一种趋势，且越演越烈。

众所周知，人们接收信息、传递并处理信息主要是通过视觉和听觉来完成。如在超市中进行选购时，人们认识这些商品。在购物时，人们知道自己需要哪些商品，并通过视觉进行查找并识别这些商品。在结算时，收银员普遍是通过扫码结算方式或者输入条形码来进行结算。随着近几年人工智能在目标检测领域的发展，机器可以像人类一样认识这些常见物体。比如道路状态检测、行人识别、老人跌倒识别、车辆识别等等。但是在特定的环境中，超市售货，尤其的无人超市，如何判断客人取了哪些商品，又放回了哪些？如何在客人离开后自动扣费，而不需要我们人工进行干预，已经成为目前人工智能领域乃至计算机视觉领域的研究热点。计算机视觉技术具有以下优点：1、具有更快更简单的过程。计算机视觉系统可以很快地完成单调和重复的任务，使整个过程更加简单。2、每次都可以输出预期的准确结果。计算机会按照人类设定好的程序执行任务并输出预期的结果，具有图像处理能力的计算机视觉系统也不例外。最终，所提供的产品或服务不仅速度快而且质量高。3、计算成本低，因为机器负责执行繁重的任务，一个计算机可以实现成百上千的重复的流水工作。因此，使用计算机视觉系统可以为企业节省大量的资金和人力，为公司减少成本。

目标检测是计算机视觉领域的热门方向之一，被广泛应用到视频监控、自动驾驶、新零售、人脸检测、医学图像等领域。因此，目标检测也称为了近几年理论和应用的热点。它是计算机视觉的重要分支。由于近年来深度学习的快速发展，目标检测算法得到了较为快速的应用。当然目标检测算法也不是完美的，会受到很多因素的影响。比如拍摄的不同姿势、角度会出现遮挡、同时还要考虑到拍摄的分辨率、光照强弱和场景的多样性等到因素。因此，在技术快速发展的今天，目标检测仍然具有很大的挑战性，具有很大的潜力和上升空间。对这些问题进行了一些处理，能够在一定程度上提高目标检测的准确度和效率。

发明内容

本发明的目的是提供一种基于目标检测技术的智能货架商品识别方法，提高了目标检测的准确度和效率。

本发明所采用的技术方案是，一种基于目标检测技术的智能货架商品识别方法，具体按照以下步骤实施：

步骤1，在官网下载COCO预处理数据集，选取4000张图片作为预训练集；制作样本集：在超市通过移动设备采集包含不同商品的货架图片；手工标注货架图片中所有商品的位置以及类别，根据形状和用途对商品目标分类；

步骤2，将经步骤1后得到的样本集图片进行处理；

步骤3，使用MASK-RCNN来进行模型搭建；

步骤4，对模型进行训练与调优；

步骤5，将货架商品数据放入到模型中进行预测，最终生成商品类别、商品位置以及相似度。

本发明的特点还在于，

步骤2中，具体为：

步骤2.1，将所有样本集图片进行结构化处理，将所有图片统一缩放至1920*1080像素，并将所有图片转换为PNG格式；

步骤2.2，对于样本集中倾斜的图片使用PS进行拉直，对于存在商品摆放角度问题的图片，使用工具将图片进行旋转，对于不够的像素进行填充，多余像素进行舍弃，统一格式为1920*1080像素；再将样本集中模糊的图片，采用高斯滤波方法进行处理。

步骤3中，具体为：

步骤3.1，首先设置输入数据图像的接口；

步骤3.2，进行卷积神经网络处理，卷积神经网络共有十三层，分别是：输入层→第一个卷积层→第一个最大池化层→第一个正则层→Dropout→第二个卷积层→第二个最大池化层→第二个正则层→Dropout→第三个卷积层→第三个最大池化层→第三个正则层→Dropout；

步骤3.3，在特征图中找出候选ROI，使用固定大小的滑动窗口的方式在特征图上进行遍历；

步骤3.4，获取ROI的候选集，该步骤使用上一步设定的ROI标准进行获取；

步骤3.5，对这些剩下的ROI进行ROIAlign操作，即先将原图和特征图的像素对应起来，然后将特征图和固定的特征对应起来；

步骤3.6，将经步骤3.5处理后的数据放入到全连接网络中进行N分类；

步骤3.7，对步骤3.5的池化结果使用反卷积反池化技术，当输出的图片大小与原始图片大小相同时，结束。

步骤3.2中，具体各层参数如下：

输入层，将步骤2生成的数据按照比例8：1：1分为训练集、验证集和测试集；用数组保存各个类别标签所代表含义；

卷积层，设置卷积层的参数，卷积核大小kernel_size＝5、步长strides＝1、过滤器层数，设置激活函数activation＝'relu'；

池化层，选取最大池化函数，池化大小pool_size＝2，步长strides＝2；

设置正则化函数BatchNormalization，需要标准化的轴参数axis＝-1；

设置Dropout函数，丢失率Dropout＝0.25，最终生成图片的特征图。

步骤3.3中，具体为：根据图片大小设置候选区域大小，共有5个候选区域分别为：左上角、右上角、左下角、右下角以及中间；判断5个候选区域是否存在完整特征，如果不存在则此时为最优候选区域，候选区域选择结束；否则存在完整特征的区域即为下一次的候选区域；迭代执行上述过程。

步骤4中，具体训练方法如下；

步骤4.1，将预训练集输入到模型中进行执行，查看是否可以准确输出商品位置信息；如果无法准确输出则调整参数，直到可以准确输出结果；

步骤4.2，对网络模型进行权值的初始化，即将各个参数设置为默认值；

步骤4.3，将训练集数据经过卷积层、下采样层、全连接层的向前传播得到输出值；

步骤4.4，求出网络的输出值与目标值之间的误差；

步骤4.5，当误差大于期望值0.05时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差；各层的误差为对于网络的总误差，并执行步骤4.6；当误差等于或小于期望值时，进入步骤4.7；

步骤4.6，根据求得误差进行权值更新；然后在进入到步骤4.2；

步骤4.7，根据网络输出的特征图进行ROI迭代筛选，并进行位置计算；

步骤4.8，进入全连接网络进行数据映射，最终会生成映射成一维向量；

步骤4.9，进行二值掩码操作生成掩码。

本发明的有益效果是，

本发明的方法，能够快速准确的识别出货架商品的类别，由于采用上述方法，准确的分析出商品的类别，而且设计的系统操作方便，可移植性高，可以广泛应用于超市等商业领域，减少人力的开销。

附图说明

图1是本发明一种基于目标检测技术的智能货架商品识别方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于目标检测技术的智能货架商品识别方法，流程图如图1所示，具体按照以下步骤实施：

步骤1，下载并处理相关数据集，具体操作步骤如下：

步骤1.1，模型的预训练；在官网下载COCO预处理数据集，包括训练集和验证集，选取4000张图片作为预训练集；

步骤1.2，制作样本集：在超市通过移动设备采集包含不同商品的货架图片；手工标注货架图片中所有商品的位置以及类别，根据形状和用途对商品目标分类；

步骤2，将经步骤1后得到的样本集图片进行处理，具体按照以下步骤实施：

步骤2.2，图片角度变换，对于样本集中倾斜的图片可以使用PS进行拉直，对于存在商品摆放角度问题的图片，使用工具将图片进行旋转，对于不够的像素进行填充，多余像素进行舍弃，统一格式为1920*1080像素；

步骤2.3，将样本集中模糊的图片，采用高斯滤波方法进行处理，具体为：

1).利用邻域内其他像素点到邻域中心的距离，带入二维高斯函数，计算出高斯模板，常见3×3或5×5大小的高斯模板。

2).若模板为小数形式，进行归一化处理，将模板左上角值归一为1。

3).将高斯模板的中心对准待处理的图像矩阵，然后对应元素相乘后相加，没有元素的地方补零(例如3×3高斯模板，需要对待处理图像最外层补一圈零)。

4).每个元素分别进行上述计算，得到的输出矩阵就是高斯滤波的结果。

步骤3，使用MASK-RCNN来进行模型搭建，具体为：

步骤3.1，首先设置输入数据图像的接口；

步骤3.2，进行卷积神经网络处理，卷积神经网络共有十三层，分别是：输入层→第一个卷积层→第一个最大池化层→第一个正则层→Dropout→第二个卷积层→第二个最大池化层→第二个正则层→Dropout→第三个卷积层→第三个最大池化层→第三个正则层→Dropout，具体各层参数如下：

1)输入层，将步骤2生成的数据按照比例8：1：1分为训练集、验证集和测试集；用数组保存各个类别标签所代表含义。

2)卷积层，设置卷积层的参数，包括卷积核大小kernel_size＝5、步长strides＝1、过滤器层数，然后设置激活函数activation＝'relu'；

3)池化层，其作用是逐渐降低数据体的空间尺寸，选取最大池化函数，池化大小pool_size＝2，步长strides＝2；

4)设置正则化函数BatchNormalization，需要标准化的轴参数axis＝-1；

5)设置Dropout函数，丢失率Dropout＝0.25，从而消除过拟合的影响，最终生成图片的特征图；

步骤3.3，在特征图中找出候选ROI，这里对常用的方法进行改进，使用固定大小的滑动窗口的方式在特征图上进行遍历，固定的滑动窗口在实际使用中可能存在一定的限制，因为目标可能大也可能小，同时窗口的滑动会到来很多重复的估计目标。使用固定大小的滑动窗口能够产生更少的ROI，效率更高，更节省时间。具体方法如下：

1)根据图片大小设置候选区域大小，共有5个候选区域分别为：左上角、右上角、左下角、右下角以及中间。候选区域为上一层的长宽的80％。如上层为1920*1080像素，则候选区域大小为1536*864像素。

2)判断5个候选区域是否存在完整特征，如果不存在则此时为最优候选区域，候选区域选择结束。否则存在完整特征的区域即为下一次的候选区域。

3)迭代执行1-2步骤。

1)遍历每一个候选区域，保持浮点数边界不做量化。

2)将候选区域分割成k*k个单元，每个单元的边界也不做量化，k＝8。

3)在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

步骤3.6，将经步骤3.5处理后的数据放入到全连接网络中进行N分类，具体操作如下：

1)设置节点数Dense；

2)设置正则化函数，需要标准化的轴参数axis＝-1；

3)设置激活函数Activation＝'relu'；

全连接网络共设置4层，第一层结点数Dense＝128，第二层结点数Dense＝256，第三层结点数Dense＝512，第四层结点数Dense＝n，此处n＝20，因为共有20类商品数据，最终商品信息会被映射到这n种商品，最大的相似度即为商品类别；

步骤3.7，对步骤3.5的池化结果使用反卷积反池化技术，当输出的图片大小与原始图片大小相同时，算法结束，

具体步骤如下：

1)将候选区域位置进行反池化，将该位置元素还放在原来位置，其他位置补0；

2)对步骤3.5的池化结果进行扩充，每行每列扩充元素0，例如：3*3元素扩充为7*7。

3)使用卷积核大小kernel_size＝5、步长strides＝1，进行再次卷积。激活函数activation＝'relu'；

在对3.5步骤进行三次反池化、反卷积后的大小与原始图片大小相同，此时中间部分即为二值掩码部分，该部分即为商品详细位置，程序结束。

步骤4，对模型进行训练与调优，具体训练方法如下；

步骤4.1，通过预训练操作确定位置，具体操作步骤如下：

1)将预训练集输入到模型中进行执行，查看是否可以准确输出商品位置信息；

2)如果无法准确输出则调整参数，直到可以准确输出结果。

以下步骤的训练为步骤2生成的数据，

步骤4.4，求出网络的输出值与目标值之间的误差；

步骤4.5，当误差大于期望值0.05时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差。各层的误差为对于网络的总误差，网络应承担多少，并执行步骤4.6；当误差等于或小于期望值时，进入步骤4.7；

步骤4.6，根据求得误差进行权值更新。然后在进入到步骤4.2；

步骤4.7，根据网络输出的特征图进行ROI迭代筛选，并进行位置计算。

步骤4.9，进行二值掩码操作生成掩码。

步骤5，货架商品类别预测：将测试集图片导入到模型中进行预测；模型根据优化后的参数进行计算，得出各个分类的准确度，边框位置以及掩码所在位置，最终输出最大准确度的类别作为商品类别。

通过本发明方法，输出的商品类别、相似度及商品位置，能够快速的应用到超市等场景中，并取得良好的效果，能够快速的找出每个商品的信息，有助于对商品进行后续的数据分析和处理。

本发明的方法，将一张含有商品的货架照片输入到训练好的模型中进行检测，模型可以自动识别该图片中有哪些商品及该商品的数量。该模型应用广泛，可以应用与无人超市等商品检测分类领域中。

本发明的方法，根据数据和数据之间的差异性来解析商品特征的，对于差异性大的数据，该数据训练后进行预测的准确度越高。对于模糊的数据，使用图像增强策略对数据中包含的信息进行强化。本发明依照目标检测和人工智能的方式提出智能货架商品识别方法，能够快速准确的识别出货架商品的类别，由于采用上述方法，准确的分析出想要知道的商品的类别，而且设计的系统操作方便，可移植性高，可以广泛应用于超市等商业领域，减少人力的开销。

Claims

1.一种基于目标检测技术的智能货架商品识别方法，其特征在于，具体按照以下步骤实施：

步骤2，将经步骤1后得到的样本集图片进行处理；

步骤3，使用MASK-RCNN来进行模型搭建；

步骤4，对模型进行训练与调优；

2.根据权利要求1所述的一种基于目标检测技术的智能货架商品识别方法，其特征在于，所述步骤2中，具体为：

3.根据权利要求2所述的一种基于目标检测技术的智能货架商品识别方法，其特征在于，所述步骤3中，具体为：

步骤3.1，首先设置输入数据图像的接口；

4.根据权利要求3所述的一种基于目标检测技术的智能货架商品识别方法，其特征在于，所述步骤3.2中，具体各层参数如下：

5.根据权利要求3所述的一种基于目标检测技术的智能货架商品识别方法，其特征在于，所述步骤3.3中，具体为：根据图片大小设置候选区域大小，共有5个候选区域分别为：左上角、右上角、左下角、右下角以及中间；判断5个候选区域是否存在完整特征，如果不存在则此时为最优候选区域，候选区域选择结束；否则存在完整特征的区域即为下一次的候选区域；迭代执行上述过程。

6.根据权利要求3所述的一种基于目标检测技术的智能货架商品识别方法，其特征在于，所述步骤4中，具体训练方法如下；

步骤4.4，求出网络的输出值与目标值之间的误差；

步骤4.9，进行二值掩码操作生成掩码。