CN114494823A

CN114494823A - 零售场景下的商品识别检测计数方法及系统

Info

Publication number: CN114494823A
Application number: CN202111639176.8A
Authority: CN
Inventors: 万洪林; 张理继; 仲宗锋; 孙景生
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-13

Abstract

本发明提供一种零售场景下的商品识别检测计数方法及系统，属于计算机视觉技术领域，包括：获取待检测的零售场景图像；利用预先训练好的检测模型处理所述待检测的零售场景图像，获取图像中包含的商品的类型及数量；其中，所述预先训练好的检测模型由训练集训练得到，所述训练集包括多张包含有零售商品的照片以及在所述照片中标注商品类别信息和商品数量信息的标签；其中，所述训练集中将零售场景照片的标注转化为COCO数据集采用的格式。本发明利用深度卷积神经网络能够有效的对零售场景中商品进行检测，用一个边界框表示一组商品名称的同时给出这组商品的准确数量实现商品类别检测的同时能够获得商品的数量信息，提高了商品定位精度。

Description

零售场景下的商品识别检测计数方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度神经网络学习的零售场景下的商品识别检测计数方法及系统。

背景技术

针对零售场景下的商品结算，目前现有的方法，主要是利用射频通信实现的非接触式自动识别技术和基于深度学习的目标检测算法两种方式。

利用射频通信实现的非接触式自动识别技术，通过RFID标签进行非可视化识别。但是由于射频标签成本较高，特别是对于价格相对低廉的商品，RFID标签的使用会对生厂商和销售门店的利润造成较大影响。

基于深度学习的目标检测算法，利用卷积神经网络对货架上的商品进行定位回归分类。但是卷积神经网络的检测结果，都是一个边界框表示一个物品，当商品存在遮挡时，难以准确进行判断，并且无法实现计数功能。

发明内容

本发明的目的在于提供一种能够对零售场景货架上严重遮挡商品进行回归识别和计数的，基于深度神经网络的零售场景下的商品识别检测计数方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种零售场景下的商品识别检测计数方法，包括：

获取待检测的零售场景图像；

利用预先训练好的检测模型处理所述待检测的零售场景图像，获取图像中包含的商品的类型及数量；其中，所述预先训练好的检测模型由训练集训练得到，所述训练集包括多张包含有零售商品的照片以及在所述照片中标注商品类别信息和商品数量信息的标签；其中，所述训练集中将零售场景照片的标注转化为COCO数据集采用的格式。

优选的，使用残差网络与特征金字塔结构作为所述检测模型的主干网络；所述主杆网络中，对图像进行卷积操作后利用残差块获得不同尺度的特征图，利用特征金字塔结构对不同尺度的特征图进行特征融合，得到融合特征图。

优选的，所述主干网络连接候选框生成网络，融合特征图输入到候选框生成网络对进行候选框的生成。

优选的，所述候选框生成网络包括两条支路，一条是对生成的候选框进行分类，对候选框内所包含图像进行判断，将其分为前景背景；另一条支路是对候选框进行初步调整，得到初步的目标建议；所述候选框生成网络最终整合两条支路的检测建议，通过计算得到最终的检测目标建议。

优选的，所述候选框生成网络连接级联的目标检测网络结构，依据检测目标建议，进行多阶段的定位计数与分类，生成最终的目标检测框，其中包含最终的商品类别和所包含商品的数量。

优选的，在训练所述检测模型时，使用多任务损失函数来实现端到端的训练，多任务损失函数由分类损失、回归损失、计数损失构成。

第二方面，本发明提供一种零售场景下的商品识别检测计数系统，包括：

获取模块，用于获取待检测的零售场景图像；

检测模块，用于利用预先训练好的检测模型处理所述待检测的零售场景图像，获取图像中包含的商品的类型及数量；其中，所述预先训练好的检测模型由训练集训练得到，所述训练集包括多张包含有零售商品的照片以及在所述照片中标注商品类别信息和商品数量信息的标签；其中，所述训练集中将零售场景照片的标注转化为COCO数据集采用的格式。

第三方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的零售场景下的商品识别检测计数方法。

第四方面，本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如上所述的零售场景下的商品识别检测计算方法。

第五方面，本发明提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的零售场景下的商品识别检测计数方法的指令。

本发明有益效果：利用深度卷积神经网络能够有效的对零售场景中商品进行检测，用一个边界框表示一组商品名称的同时给出这组商品的准确数量实现商品类别检测的同时能够获得商品的数量信息，提高了商品定位精度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的零售场景下的商品识别检测计数方法流程图。

图2为本发明实施例所述的COCO数据格式字典框架图。

图3为本发明实施例所述的预先训练的检测模型的整体网络结构图。

图4为本发明实施例所述的检测模型的主干网络的结构图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种零售场景下的商品识别检测计数系统，该系统包括：

获取模块，用于获取待检测的零售场景图像；

本实施例1中，利用上述的系统，实现了零售场景下的商品识别检测计数方法，该方法包括：

利用获取模块获取待检测的零售场景图像；

然后利用检测模块，基于预先训练好的检测模型处理所述待检测的零售场景图像，获取图像中包含的商品的类型及数量；其中，所述预先训练好的检测模型由训练集训练得到，所述训练集包括多张包含有零售商品的照片以及在所述照片中标注商品类别信息和商品数量信息的标签；其中，所述训练集中将零售场景照片的标注转化为COCO数据集采用的格式。

将零售场景的标注转化为COCO数据集采用的格式具体步骤如下：

首先构建一个字典结构包含以下三个字段：categories、annotations、images，分别用于存储类别信息、标注信息以及图像信息。

将数据的所有类别添加到categories字段中，并对每一个类别进行编码，使该字段包含的列表数与类别数量相对应。将获取到的图片信息添加到images字段中，保证每张图片有着唯一对应的ID。Annotations字段是包含多个annotation的一个列表。每个候选框对应一个annotation列表，将获取的候选框左上角坐标及宽高添加到bbox字段中，区域的面积添加到area字段中，同时转换时需保证annotation中的category_id、image_id分别与categories、annotations中的ID对应，同时将商品的数量信息记录到Count字段中。

将处理好的数据以json格式输出，并保存在相应路径下，生成最终的训练集与验证集。

其中，COCO的全称是Common Objects in COntext，是一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像，其使用了亚马逊的Mechanical Turk(AMT)。annotations字段是包含多个annotation实例的一个数组，annotation类型本身又包含了一系列的字段，如这个目标的category id和segmentation mask。segmentation格式取决于这个实例是一个单个的对象(即iscrowd＝0，将使用polygons格式)还是一组对象(即iscrowd＝1，将使用RLE格式)。

COCO数据集的RLE都是uncompressed RLE格式(与之相对的是compact RLE)。RLE所占字节的大小和边界上的像素数量是正相关的。RLE格式带来的好处就是当基于RLE去计算目标区域的面积以及两个目标之间的unoin和intersection时会非常有效率。

本实施例1中，使用残差网络与特征金字塔结构作为所述检测模型的主干网络；所述主杆网络中，对图像进行卷积操作后利用残差块获得不同尺度的特征图，利用特征金字塔结构对不同尺度的特征图进行特征融合，得到融合特征图。

所述主干网络连接候选框生成网络，融合特征图输入到候选框生成网络对进行候选框的生成。所述候选框生成网络包括两条支路，一条是对生成的候选框进行分类，对候选框内所包含图像进行判断，将其分为前景背景；另一条支路是对候选框进行初步调整，得到初步的目标建议；所述候选框生成网络最终整合两条支路的检测建议，通过计算得到最终的检测目标建议。

所述候选框生成网络连接级联的目标检测网络结构，依据检测目标建议，进行多阶段的定位计数与分类，生成最终的目标检测框，其中包含最终的商品类别和所包含商品的数量，级联的目标检测网络结构FastRcnn一共分为N个阶段，其中每个阶段用于筛选候选框的阈值有所不同，是一个逐渐增加阈值的过程，即0.5+(i-1)×vl，其中vl是一个定值。

本实施例1中，其中的Stage1是将RPN得到的候选框映射到特征图上得到proposalfeature map，由于其大小不同需要通过ROIAlign进行池化成固定大小，随后这些特征图被送入三个完全同级的全连接层，生成中间分类数，商品数量和回归框。级联Fast Rcnn结构的采用有效的解决了Rcnn固有的MISmatch问题，这是由于训练和测试阶段的模型稍有不同，训练时知道ground truth所以可以对生成的proposal进行筛选，用这种质量高的数据训练出的模型应用到质量相对较差的proposal时产生的结果会变得差。在推理阶段，通过级联结构时，RPN输入的proposal在经过第一个阶段时，proposal的阈值会得到显著提升，从而有效解决这种误差，同时不断增加的阈值也提高了检测精度。最后通过NMS(非极大抑制)筛选出同一种类得分最大的检测框得到最终结果。

所述候选框生成网络连接级联的目标检测网络结构，在目标检测网络结构中，依据检测目标建议，进行多阶段的定位计数与分类，生成最终的目标检测框，其中包含最终的商品类别和所包含商品的数量。

本实施例1中，在训练所述检测模型时，使用多任务损失函数来实现端到端的训练，多任务损失函数由分类损失、回归损失、计数损失构成。

实施例2

如图1所示，本实施例2中，为了实现零售场景下的商品类型的识别检测及商品数量的计数，提供了识别检测方法，其基于深度神经网络的目标检测方法与系统，来对零售场景货架上严重遮挡商品进行回归识别和计数。

本实施例2中，识别检测方法包括三个步骤，即数据预处理，网络构建，以及模型的训练与测试(方案流程图如图1所示)。具体方案如下：

数据预处理：

数据处理是将零售场景的标注转化为COCO数据集采用的格式(如图2所示)具体步骤如下：

为了实现商品的检测与计数目的，所以需要构建一个字典结构包含以下三个字段：categories、annotations、images，分别用于存储类别信息、标注信息以及图像信息。

检测模型的整体的网络结构主要分为以下几个部分：主干网络、候选框生成网络、级联的目标检测网络Fast Rcnn结构(如图3所示)。

本实施例2中，使用Resnet_50与FPN结构作为主干网络(如图4所示)，该网络的添加使得网络得以加深并能够有效消除梯度消失问题。首先对输入图像进行卷积操作，之后将其传输到4个残差块(ResidualBlock)中，从而获得不同尺度的特征图，然后将其输入到FPN结构进行特征融合，将融合后的特征图按照其大小，将特征图大的因为其感受野小用于检测小目标，特征图小的其感受野大用于检测大目标。将生成的特征图输入到候选框生成网络。

由主干网络生成的不同尺度的特征图输入到PRN(候选框生成网络)进行候选框的生成，其内部主要有两条支路，一条是对生成的候选框进行分类，对候选框内所包含图像进行判断，将其分为前景背景。另一条支路是对候选框进行初步调整，得到初步的目标建议，最终整合两条支路建议通过计算得到最终的目标检测建议。

采用级联的FastRcnn结构，依据前一阶段的检测建议，进行多阶段的定位计数与分类。通过级联结构生成最终的目标检测框，其中包含最终的类别和所包含商品的数量，级联的FastRcnn一共分为N个阶段，其中每个阶段用于筛选候选框的阈值有所不同，是一个逐渐增加阈值的过程，即0.5+(i-1)×vl，其中vl是一个定值。

本实施例2中，vl取值0.1，这样的一个结构能够有效提高目标框的定位精度。其中的Stage1是将RPN得到的候选框映射到特征图上得到proposal feature map，由于其大小不同需要通过ROIAlign进行池化成固定大小，随后这些特征图被送入三个完全同级的全连接层，生成中间分类数，商品数量和回归框。级联Fast Rcnn结构的采用有效的解决了Rcnn固有的MISmatch问题，这是由于训练和测试阶段的模型稍有不同，训练时知道groundtruth所以可以对生成的proposal进行筛选，用这种质量高的数据训练出的模型应用到质量相对较差的proposal时产生的结果会变得差。在推理阶段，通过级联结构时，RPN输入的proposal在经过第一个阶段时，proposal的阈值会得到显著提升，从而有效解决这种误差，同时不断增加的阈值也提高了检测精度。最后通过NMS(非极大抑制)筛选出同一种类得分最大的检测框得到最终结果。

模型的训练与测试：

本实施例2中，使用多任务损失函数来实现端到端的训练，该损失函数是由三部分组成即：分类损失、回归损失、计数损失。总损失函数如下：

其中L_cis、L_reg、L_cnt分别表示分类、回归和计数损失，N是训练阶段前景候选框的数量，λ₁、λ₂是用来平衡这三个损失项的预定义参数。L_cis和L_reg分别使用cross-entropy lossand smooth L1 Loss来计算。实验是在mmdetection平台上进行，在训练阶段batch size设置成8，整个网络使用SGD(随机梯度下降法)进行训练，其momentum设置为0.09，weightdecay设置为0.001，初始的学习率设置为0.02。损失函数中的预定义的参数λ₁和λ₂被设置为1.0和0.1。

测试时将得到的模型参数加载到测试网络中，将数据集中测试部分导入，然后通过测试网络得到最终的检测结果。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的零售场景下的商品识别检测计数方法，该方法包括：

获取待检测的零售场景图像；

实施例4

本发明实施例4提供一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如上所述的零售场景下的商品识别检测计数方法，该方法包括：

获取待检测的零售场景图像；

实施例5

本发明实施例5提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的零售场景下的商品识别检测计数方法的指令，该方法包括：

获取待检测的零售场景图像；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种零售场景下的商品识别检测计数方法，其特征在于，包括：

获取待检测的零售场景图像；

2.根据权利要求1所述的零售场景下的商品识别检测计数方法，其特征在于，使用残差网络与特征金字塔结构作为所述检测模型的主干网络；所述主杆网络中，对图像进行卷积操作后利用残差块获得不同尺度的特征图，利用特征金字塔结构对不同尺度的特征图进行特征融合，得到融合特征图。

3.根据权利要求2所述的零售场景下的商品识别检测计数方法，其特征在于，所述主干网络连接候选框生成网络，融合特征图输入到候选框生成网络对进行候选框的生成。

4.根据权利要求3所述的零售场景下的商品识别检测计数方法，其特征在于，所述候选框生成网络包括两条支路，一条是对生成的候选框进行分类，对候选框内所包含图像进行判断，将其分为前景背景；另一条支路是对候选框进行初步调整，得到初步的目标建议；所述候选框生成网络最终整合两条支路的检测建议，通过计算得到最终的检测目标建议。

5.根据权利要求4所述的零售场景下的商品识别检测计数方法，其特征在于，所述候选框生成网络连接级联的目标检测网络结构，依据检测目标建议，进行多阶段的定位计数与分类，生成最终的目标检测框，其中包含最终的商品类别和所包含商品的数量。

6.根据权利要求1-5任一项所述的零售场景下的商品识别检测计数方法，其特征在于，在训练所述检测模型时，使用多任务损失函数来实现端到端的训练，多任务损失函数由分类损失、回归损失、计数损失构成。

7.一种零售场景下的商品识别检测计数系统，其特征在于，包括：

获取模块，用于获取待检测的零售场景图像；

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-6任一项所述的零售场景下的商品识别检测计数方法。

9.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如权利要求1-6任一项所述的零售场景下的商品识别检测计数方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-6任一项所述的零售场景下的商品识别检测计数方法的指令。