CN110414559B

CN110414559B - 智能零售柜商品目标检测统一框架的构建方法及商品识别方法

Info

Publication number: CN110414559B
Application number: CN201910560663.1A
Authority: CN
Inventors: 姚剑; 赵琳钰; 陈凯; 赵锦杰; 张瑞杰
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-09-03
Anticipated expiration: 2039-06-26
Also published as: CN110414559A

Abstract

本发明公开了一种智能零售柜商品目标检测统一框架的构建方法，该框架由分级标注模式、相似识别子网络和优化了非极大值抑制算法的YOLOv3组成。首先采集数据；然后，采用本发明提出的分级标注模式对采集的数据进行标注；接着将数据按照预设比例分为训练数据、验证数据和测试数据，用于训练YOLOv3网络，得到用于目标检测的模型；再制作相似商品数据集，用于训练相似识别网络，得到用于进一步识别的模型；最后通过测试数据选择最佳模型，得到测试结果。该方法所使用的硬件成本低，结算流程不需要人工干预，且提出的算法可以很好的适应密集且存在遮挡场景下的零售柜商品目标检测，提高了检测精度。

Description

智能零售柜商品目标检测统一框架的构建方法及商品识别方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种智能零售柜商品目标检测统一框架的构建方法及商品识别方法。

背景技术

目标检测作为图像处理和计算机视觉的一个重要分支，在许多领域得到了广泛的应用。传统的机器学习方法在很大程度上依赖于人为设计的特征的质量，如SIFT、HOG、SURF等。传统方法对研究人员的要求很高，其泛化能力非常有限。近年来，随着深度学习算法的快速发展，目标检测技术进入了一个新的阶段。深度学习代替了传统人工设计的经验特征，可以从原始图像中自动学习多层次的内部特征，这在图像分类和目标检测中非常有效。因此，基于深度学习的目标检测已经成为主流。

目前，基于深度学习的目标检测算法可以分为两大类，第一种是两阶段算法，将检测问题分为两个阶段。首先生成区域建议，然后对区域建议进行分类和细化。两阶段算法的典型代表有RCNN、Fast R-CNN和Faster R-CNN等。第二种是单阶段算法，不需要生成区域提取框阶段，直接得到边界框坐标和类别概率。单阶段算法的典型代表有YOLO、SSD和RetinaNet等。目标检测模型的主要评价标准是精度和速度，对于精度，既要考虑分类精度，又要考虑定位精度。一般来说，两阶段算法在精度上有优势，而单阶段算法在速度上有优势。

智能零售系统近年来发展迅速，需要更少的人为干预，给人们的生活带来了很大的便利。智能零售柜作为智能零售系统的典型代表，可以在无售货员状态下提供自动化销售服务。在传统的零售柜中，实现自动识别的方法主要有四种：(1)利用硬件对不同的商品进行分隔来判断类别；(2)根据重量判断商品类别；(3)识别顾客的行为，确定顾客在零售柜前的活动；(4)利用射频识别对商品进行标记，实现自动识别。然而，这些传统的方法不仅成本高，而且降低了柜子的空间利用率，限制了商品种类。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

智能柜目标检测对速度有一定的要求，因此申请人认为单级检测算法是更好的选择。单阶段目标检测包括三个步骤：(1)特征提取；(2)使用分类器和回归器进行评分和细化；(3)合并可能属于同一目标的边界框。最后一个阶段通常称为非极大值抑制方法。非极大值抑制方法是一种后处理算法，用于去除冗余的边界框，寻找目标的最佳位置，这对整个算法非常重要。由于智能柜所检测的场景存在密集分布和遮挡的情况，因此，很难选择非极大值抑制方法的阈值。此外，当物体的面积较小时，它们的面积交并比较大。在这种情况下，传统的非极大值抑制方法不能够得到很好的结果。有学者使用ScaleNet对商品进行检测，但该算法并没有解决存在遮挡的目标检测问题；也有使用针对密集场景相关的改进。

由此可知，现有技术中的方法存在识别精度不高的技术问题。

发明内容

有鉴于此，本发明提供了一种智能零售柜商品目标检测统一框架的构建方法及商品识别方法，用以解决或者至少部分解决现有技术中的方法存在的识别精度不高的技术问题。

本发明第一方面提供了一种智能零售柜商品目标检测统一框架的构建方法，包括：

步骤S1：采集零售柜内商品的图像数据，并对采集的图像数据进行预处理与扩充；

步骤S2：采用分层标注模式，对不同类型的商品采用不同的标注方法进行标注；

步骤S3：按照预设比例，将标注后的数据划分为训练数据、验证数据和测试数据；

步骤S4：将训练数据输入预设卷积神经网络模型中进行训练，获得YOLOv3模型；

步骤S5：根据商品的形状特征，构建混淆商品列表，并根据混淆商品列表对步骤S2中得到的标注数据进行裁剪，制作相似商品数据集，再利用相似商品数据集对相似识别子网络进行训练，获得训练后的相似识别子网络模型；

步骤S6：将YOLOv3模型与训练后的相似识别子网络模型结合，构建商品目标检测统一框架。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：通过鱼眼相机和灯带对零售柜内商品进行拍照，采集商品的图像数据；

步骤S1.2：剔除采集的图像数据中的错误数据；

步骤S1.3：对剔除错误数据后的图像数据进行亮度、模糊、旋转操作对数据进行扩充。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：对于形状特征符合第一预设条件的商品，采用标注商品瓶盖的标注方式，对于形状特征符合第二预设条件的商品，采用标注商品全身的标注方式；

步骤S2.2：生成标注后的数据，其中，标注后的数据包含商品的位置坐标、类别及对应的图片信息。

在一种实施方式中，步骤S4中的预设卷积神经网络模型为DarkNet53。

在一种实施方式中，步骤S5中的相似识别子网络模型包括5个卷积层、3个池化层、2个全连接层和1个输出的softmax层。

基于同样的发明构思，本发明第二方面提供了一种基于实施例一所构建的商品目标检测统一框架的商品识别方法，包括：

利用商品目标检测统一框架结合优化的非极大值抑制方法进行零售商品识别测试。

在一种实施方式中，利用商品目标检测统一框架结合优化的非极大值抑制方法进行零售商品识别测试，包括：

将测试数据输入YOLOv3模型，得到测试结果；

将测试结果采用优化的非极大值抑制方法进行处理，得到YOLOv3模型的识别结果，其中，YOLOv3模型的识别结果包括检测目标的类别和第一置信度，优化的非极大值抑制算法包括：首先对全局利用检测框的面积交并比进行过滤，当两个检测框的交并比大于第一阈值时，则判定它们是同一个目标的包围框，删掉置信度较小的检测框；然后计算每个检测框与其余所有检测框的并集面积与本身面积的比值，当比值大于第二阈值时，则判定该检测框为错误框，将其删除；

对YOLOv3模型的识别结果进行判断，如果类别在混淆列表中，则将该商品对应的图像进行剪裁后输入到相似识别子网络模型中，进行进一步识别，并得到相似识别子网络的识别结果，且相似识别子网络模型的识别结果包括第二置信度；

根据YOLOv3模型的识别结果中的第一置信度与相似识别子网络的识别结果中的第二置信度，得到最终识别结果。

在一种实施方式中，根据YOLOv3模型的识别结果中的第一置信度与相似识别子网络模型的识别结果的第二置信度，得到最终识别结果，包括：

如果YOLOv3模型的识别结果的第一置信度大于相似识别子网络模型的识别结果的第二置信度，则将YOLOv3模型的识别结果作为最终识别结果；

否则，将相似识别子网络模型的识别结果作为最终识别结果，并将第一置信度和第二置信度的平均值作为最终的置信度。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供一种智能零售柜商品目标检测统一框架的构建方法，首先，采集零售柜内商品的图像数据，并对采集的图像数据进行预处理与扩充；并采用分层标注模式，对不同类型的商品采用不同的标注方法进行标注；接着，按照预设比例，将标注后的数据划分为训练数据、验证数据和测试数据；接下来，将训练数据输入预设卷积神经网络模型中进行训练，获得YOLOv3模型；然后构建混淆商品列表，并根据混淆商品列表制作相似商品数据集对相似识别子网络进行训练，再将YOLOv3模型与训练后的相似识别子网络模型结合，从而构建商品目标检测统一框架。

本发明的方法中构建的智能零售柜商品目标检测统一框架包括YOLOv3模型和相似识别子网络模型，针对智能零售柜商品密集排列的特点，提出了分层标注模式，根据商品的形状特征，构建混淆商品列表，进而制作相似商品数据集，再利用相似商品数据集对相似识别子网络进行训练，获得训练后的相似识别子网络模型，通过相似识别子网络模型的进一步识别，从而可以提高检测的精度。

进一步地，本发明还提供了基于智能零售柜商品目标检测统一框架的商品识别方法，通过测试数据选择最佳模型，得到测试结果，该方法所使用的硬件成本低，结算流程不需要人工干预，对非极大值抑制算法进行了优化，可以很好的适应密集且存在遮挡场景下的零售柜商品目标检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种智能零售柜商品目标检测统一框架的构建方法的流程图；

图2为本发明构建的零售智能柜商品目标检测的统一框架结构示意图；

图3为本发明中相似识别子网络模型结构示意图；

图4为采用本发明构建的零售智能柜商品目标检测的统一框架在新零售数据上的实验结果示意图。

具体实施方式

本发明的目的在于针对现有技术中的方法存在的识别精度不高的技术问题，提供的一种智能零售柜商品目标检测统一框架的构建方法，从而达到提高检测精度和性能的技术效果。

为了达到上述技术效果，本发明的发明构思如下：

首先，采集零售柜数据，并利用本发明提出的分级标注模式对采集的数据进行标注；接着将数据按照比例分为训练数据、验证数据和测试数据，用于训练YOLOv3网络，得到用于目标检测的模型；然后，制作相似商品数据集，用于训练相似识别网络，得到用于进一步识别的模型；最后，通过测试数据选择最佳模型，得到测试结果。

本发明的上述方法，所使用的硬件成本低，结算流程不需要人工干预，且提出的算法可以很好的适应密集且存在遮挡场景下的零售柜商品目标检测。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种智能零售柜商品目标检测统一框架的构建方法，请参参见图1，该方法包括：

步骤S1：采集零售柜内商品的图像数据，并对采集的图像数据进行预处理与扩充。

在一种实施方式中，步骤S1具体包括：

步骤S1.2：剔除采集的图像数据中的错误数据；

具体来说，数据采集的设备可以是普通的零售柜，在柜子中的每一层层架下面安装鱼眼相机和灯带，利用灯带照明来辅助相机拍照。在数据采集的过程中，需要考虑到柜子中不同角度的光照和商品形变，可以通过调整商品的姿态来获取更多的信息。

将采集的数据进行预处理和扩充。预处理操作是要去除由于硬件故障、人为因素导致的错误数据。数据扩充是将原始数据进行亮度、模糊、旋转等操作来获取更多的训练数据。

步骤S2：采用分层标注模式，对不同类型的商品采用不同的标注方法进行标注。

具体来说，对采集得到的数据利用不同模式的方法进行标注。例如，第一种是针对类似于可口可乐、雪碧等瓶装水的商品，标注瓶盖作为识别目标；第二种是针对像盒装牛奶、罐装可乐等商品，采用标注商品全部的方法。

在一种实施方式中，步骤S2具体包括：

具体来说，零售柜中的商品根据形状，可以分为两类：一类是形状特征符合第一预设条件的商品，例如可口可乐、矿泉水等这样细长的商品，由于这种商品较高，摆放在柜子中遮挡情况会很严重，柜子的边角处几乎看不到瓶身信息，故这类商品采用标注商品瓶盖的方法；另一类是形状特征符合第二预设条件的商品，例如盒装牛奶、罐装雪碧等这样较矮且较宽的商品，这类商品采用标注商品全部的方法。标注使用labelImg开源软件，生成的XML文件中包含商品的位置坐标、类别及对应的图片信息。

步骤S3：按照预设比例，将标注后的数据划分为训练数据、验证数据和测试数据。

具体来说，预设比例可以根据需要设置，例如将其中的70％作为训练数据，15％作为验证数据，15％作为测试数据。

步骤S4：将训练数据输入预设卷积神经网络模型中进行训练，获得YOLOv3模型。

其中，步骤S4中的预设卷积神经网络模型为DarkNet53。

具体来说，YOLO网络2016年被提出，它将目标检测问题归结为回归问题。它可以在测试中使用卷积神经网络结构直接从完整的图像中预测边界框和类别概率。在YOLO的第二个版本中，引入了一系列的改进策略来提高它的性能。这些策略可以在一定程度上提高在PASCAL VOC数据集上的精度。在第三个版本中，作者提出了一种新的网络结构DarkNet53，并使用了全卷积和残差结构。本申请发明人通过大量的实践与研究，通过创造性的劳动后，发现：虽然YOLOv3的准确度有了提高，但在智能零售柜中的商品检测中仍然存在一些问题。

由于本发明应用的场景相对较小，而且目标非常密集，测试的结果中有许多杂乱的框，不能被非极大值抑制方法过滤。在这种场景下，如果标注了目标整体，由于遮挡问题部分目标之间的面积交并比值为0.46甚至更大。在非极大值抑制方法中，阈值应该大于所有目标之间的面积交并比。那么，阈值需要被设置得非常大，这是不利于过滤错误预测框的。综上所述，现有技术中的YOLOv3不能直接应用于智能零售柜的目标检测。本发明针对智能零售柜商品密集排列的特点，提出了分层标注模式，并增加了相似识别网络，提高检测任务的性能。此外，对非极大值抑制算法进行了优化，使其更适用于密集场景。结果表明，该方法可以有效地应用于零售柜中，且可以达到非常理想的精度。

YOLOv3的特征提取网络采用DarkNet53，其包含53个卷积层，采用三个尺度来更好的检测不同尺度的目标。将训练数据输入到网络中进行训练，则可以得到YOLOv3模型。

步骤S5：根据商品的形状特征，构建混淆商品列表，并根据混淆商品列表对步骤S2中得到的标注数据进行裁剪，制作相似商品数据集，再利用相似商品数据集对相似识别子网络进行训练，获得训练后的相似识别子网络模型。

具体来说，虽然采用瓶盖标注的方法可以提高识别的精度，但同时也引入了新的问题，由于有些不同类别的商品拥有相同的盖子，这种情况就会导致错误识别。但是这些商品的瓶身信息是不同的，因此本发明可以结合部分瓶身信息来进一步识别。本发明提供的相似识别子网络模型就是用来解决这个问题的。

其中，如图3所示，步骤S5中的相似识别子网络包括5个卷积层、3个池化层、2个全连接层和1个输出的softmax层。其输入是单个商品的图片块，输出是该图片块包含商品的类别。

相似识别子网络的训练数据是来自步骤2标注得到的数据。本发明根据商品的特点，生成一个形状特征形似易混淆的混淆商品列表，瓶盖相似但瓶身不同的商品类别会被记录在这个列表中。根据混淆列表，将图片中的易混商品在原来标注瓶盖的基础上，以矩形框中心向周围扩充50％，然后裁剪得到图片块和类别，得到相似商品数据集，将这些相似商品数据集以70％、30％分为训练数据和测试数据对相似识别子网络进行训练，得到识别模型：相似识别子网络模型。

具体地，本发明还可以通过测试数据选择最佳模型，得到测试结果。请参见图2，为本发明构建的智能零售柜商品目标检测统一框架的结构示意图，其主要包括YOLOv3模型与训练后的相似识别子网络模型SRN。

本发明与现有技术相比，具有以下三个优点：

1)硬件成本低，不需要在零售柜中安装特殊设备，只需要安装普通的鱼眼相机、灯带和数据上传设备即可完成数据采集。

2)结算不需要人工干预，耗时短。整个交易流程包括：顾客用微信等扫描柜子上的二维码进行开门，取走所需商品，关门时相机自动拍照并上传，数据在服务器端进行识别，返回识别结果进行结算。

3)提出的改进措施能很好的适应密集且存在遮挡场景下的目标检测，可以更好的应用于零售柜中。

基于同样的发明构思，本发明还提供了一种基于实施例一构建的智能零售柜商品目标检测统一框架的商品识别方法，具体参见实施例二。

实施例二

本实施例提供了一种基于实施例一所构建的商品目标检测统一框架的商品识别方法，该方法包括：

具体地，利用商品目标检测统一框架结合优化的非极大值抑制方法进行零售商品识别测试，包括：

将测试数据输入YOLOv3模型，得到测试结果；

对YOLOv3模型的识别结果进行判断，如果类别在混淆列表中，则将该商品对应的图像进行剪裁后输入到相似识别子网络模型中，进行进一步识别，并得到相似识别子网络模型的识别结果，且相似识别子网络模型的识别结果包括第二置信度；

根据YOLOv3模型的识别结果中的第一置信度与相似识别子网络模型的识别结果中的第二置信度，得到最终识别结果。

具体来说，测试数据可以是实施例一中采集的数据，也可以是待识别的图片数据。由于零售柜中的商品比较密集，所以得到的检测框中会有很多杂乱的结果，而这些结果是无法通过传统的非极大值抑制方法过程删除的。因此，本发明中增加优化的非极大值抑制算法，从而将错误分类框进一步过滤掉。

优化的非极大值抑制算法中，第一阈值和第二阈值可以根据实际情况和经验进行选取，例如将第一阈值设置为0.6、0.7，第二阈值设置为0.9、0.8等等。在计算每个检测框与其余所有检测框的并集面积与本身面积的比值时，将比值表示为IoA，公式如下：

IoA＝S_I/S_det

其中，S_I表示该框与其余所有框并集的交集面积，S_det表示该框面积。当IoA大于第二阈值，则认为该框为错误框，将其删掉。

在本发明提供的检测框架中，先是将数据输入到目标检测网络(YOLOv3模型)中进行检测，得到结果后，判断类别是否在混淆列表中，若是则需要将该目标输入到相似识别网络中再次进行识别；若不是则直接输出结果。

其中，根据YOLOv3模型的识别结果中的第一置信度与相似识别子网络模型的识别结果的第二置信度，得到最终识别结果，包括：

具体来说，例如，YOLOv3模型目标检测得到的置信度为C_YOLOv3，相似识别子网络模型得到的置信度为C_SRN，那么计算得到综合置信度为C＝(C_YOLOv3+C_SRN)/2，然后判断C_SRN与C_YOLOv3的大小，若C_SRN>C_YOLOv3，则输出SRN(相似识别子网络)的类别和置信度，否则，输出YOLOv3模型的类别和置信度。

本发明对部分实验数据进行检测得到的结果如附图4所示，可以看出，本发明能稳定、精确地对零售柜中商品进行检测，得到的结果比目前的目标检测方法精度更高。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能零售柜商品目标检测统一框架的构建方法，其特征在于，包括：

步骤S6：将YOLOv3模型与训练后的相似识别子网络模型结合，构建商品目标检测统一框架，其中，将YOLOv3模型与训练后的相似识别子网络模型结合包括：对YOLOv3模型的识别结果进行判断，如果类别在混淆列表中，则将该商品对应的图像进行剪裁后输入到相似识别子网络模型中，进行进一步识别。

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

步骤S1.2：剔除采集的图像数据中的错误数据；

3.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

4.如权利要求1所述的方法，其特征在于，步骤S4中的预设卷积神经网络模型为DarkNet53。

5.如权利要求1所述的方法，其特征在于，步骤S5中的相似识别子网络模型包括5个卷积层、3个池化层、2个全连接层和1个输出的softmax层。

6.一种基于权利要求1至5任一项权利要求所构建的商品目标检测统一框架的商品识别方法，其特征在于，包括：

7.如权利要求6所述的方法，其特征在于，利用商品目标检测统一框架结合优化的非极大值抑制方法进行零售商品识别测试，包括：

将测试数据输入YOLOv3模型，得到测试结果；

8.如权利要求7所述的方法，其特征在于，根据YOLOv3模型的识别结果中的第一置信度与相似识别子网络模型的识别结果的第二置信度，得到最终识别结果，包括：