CN108734162B

CN108734162B - 商品图像中目标识别方法、系统、设备及存储介质

Info

Publication number: CN108734162B
Application number: CN201810324987.0A
Authority: CN
Inventors: 陈俊豪; 李轶鹏; 李亚乾; 柯严
Original assignee: Shanghai Clobotics Technology Co ltd
Current assignee: Shanghai Clobotics Technology Co ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2021-02-09
Anticipated expiration: 2038-04-12
Also published as: CN108734162A

Abstract

本发明提供了一种商品图像中目标识别方法、系统、设备及存储介质，包括步骤S1：获取若干张图像，将所述图像输入预训练的场景分类模型，确定所述图像对应的应用场景；步骤S2：根据图像对应的应用场景，选择预训练的ROI区域检测模型，检测出所述图像上的ROI区域；步骤S3：将检测出ROI区域的图像进行矫正生成矫正后图像；步骤S4：将矫正后图像输入预训练的目标识别模型，进行所述图像上每一商品区域的识别。本发明中在商品区域识别前，创造性的先依次进行场景分类，质量调整，ROI区域识别以及图像矫正，最后再进行商品区域的识别，显著的提高了商品区域的识别准确率，将商品识别的准确率，由60％提升至95％左右，推进了商品识别技术在新零售领域的应用。

Description

商品图像中目标识别方法、系统、设备及存储介质

技术领域

本发明涉及图像识别技术，具体地，涉及一种商品图像中目标识别方法、系统、设备及存储介质。

背景技术

随着计算机和智能手机中硬件部分的计算能力增强，近几年来，机器学习和计算机视觉技术取得了飞速的发展，很多研发人员做了大量的工作来研发可辅助人们日常任务的机器学习和计算机视觉算法。

在新零售领域，需要通过手机定期对货架图像进行采集，并将采集后的图像汇集到后台系统中。后天系统利用图像处理技术获取图像中每个商品的种类，数目以及位置信息等。将生成的数据汇聚成报表，并定期更新图像数据后。便能够根据图像数据就可以对货架上的商品情况完全掌控。

经过对现有技术的检索，发现申请号为201710566434.1的发明专利公开了一种基于深度匹配网络的商品种类识别方法，其方法为采集标准照片作为模板图像对拍摄商品进行匹配；申请号为201710281127.9的发明专利公开了一种基于图像识别技术的货架识别方法，该方法是一种深度学习的图像识别方法。可见应用计算机视觉技术，能准确地识别货架图片中的信息并统计，避免了人工现场核查的麻烦。但由于商场场景复杂性，拍摄的图像是成千上万的，单一图像处理算法并不能适应复杂的场景，现有技术中尚未有一种商品识别方法系统，并且该系统具有自检能力，能对误判有较强的鲁棒性。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种商品图像中目标识别方法、系统、设备及存储介质。

根据本发明提供的商品图像中目标识别方法，包括：

步骤S1：获取若干张图像，将所述图像输入预训练的场景分类模型，确定所述图像对应的应用场景；

步骤S2：根据图像对应的应用场景，选择预训练的ROI区域检测模型，检测出所述图像上的ROI区域；

步骤S3：将检测出ROI区域的图像进行矫正生成矫正后图像；

步骤S4：将矫正后图像输入预训练的目标识别模型，进行所述图像上每一商品区域的识别。

优选地，在所述步骤S1和所述步骤S2之间设置有图像质量调整步骤，所述图像质量调整步骤通过如下任一种或任多种实现：

-当图像的曝光量大于第一预定阈值时，降低所述图像的饱和度；

-当图像的曝光量小于第二预定阈值时，增加所述图像的饱和度；

-识别出所述图像上的模糊区域，将所述模糊区域进行清晰度调整；

所述降低或增加图像饱和度通过设置饱和度调节因子实现，利用曝光量和饱和度调节因子形成坐标抽，不同曝光量对应设置不同的饱和度调节因子，形成不同的直线斜率，其中，斜率表示通过饱和度调节因子调节图像色彩渐变的快慢。

优选地，所述步骤S1包括如下步骤：

步骤S101：获取多张用于场景分类的训练图像，对每一所述用于场景分类的训练图像进行应用场景的类别标注；

步骤S102：利用标注应用场景后的所述训练图像建立所述场景分类模型；

步骤S103：将所述图像输入所述场景分类模型进行场景分类。

优选地，所述应用场景的类别包括如下任一种或任多种应用场景：

-冰箱；

-货架；

-地推商品；

-摆台；

-挂件架。

优选地，所述步骤S2包括如下步骤：

步骤S201：对每一应用场景获取多张用于ROI区域识别的训练图像，利用所述用于ROI区域识别的训练图像建立每一应用场景的ROI区域检测模型；

步骤S202：获取所述图像，根据所述图像的应用场景选择相应的ROI区域检测模型；

步骤S203：在所述图像中提取若干物体的子图像；

步骤S204：通过所述ROI区域检测模型识别所述子图像，在所述子图像中识别出ROI区域。

优选地，所述步骤S3包括如下步骤：

步骤S301：将图像中ROI区域的多个商品区域识别出，进而将多个所述商品区域标注出，多个商品区域至少包括多个依次排列且位于不同高度的第一目标商品区域和第二目标商品区域；

步骤S302：通过至少连接两个第一目标商品区域的中心位置确定第一参考线，至少连接两个第二目标商品区域的中心位置确定第二参考线，根据第一参考线和第二参考线的斜率平均值生成第三参考线；

步骤S303：将每个第一目标商品区域的中心位置与沿一设定方向排列次序相同的第二目标商品区域的中心位置相连接生成多条第四参考线，根据多条四参考线的斜率平均值生成参考线；

步骤S304：根据第三参考线与图像的水平基线以及第五参考线与图像的竖直基线之间的变换关系生成转换矩阵，并将所述图像根据所述转换矩阵进行矫正生成矫正后图像。

优选地，还包括如下步骤：

步骤M1：当识别出所述图像上每一商品区域时，对所述商品区域形成一标注窗口；

步骤M2：计算相邻标注窗口的间距并计算依次排列的多个商品区域对应标注窗口之间的平均间距；

步骤M3：当相邻标注窗口的间距大于所述平均间距倍数时，选定该相邻标注窗口的间距区域为异常区域；

步骤M4：对所述异常区域通过所述目标识别模型重新识别。

根据本发明提供的商品图像中目标识别系统，用于实现所述的商品图像中目标识别方法，包括：

场景分类模块，用于获取若干张图像，将所述图像输入预训练的场景分类模型，确定所述图像的应用场景；

ROI区域检测模块，用于根据图像的应用场景，选择预训练的ROI区域检测模型，检测出所述图像上的ROI区域；

图像矫正模块，用于将检测出ROI区域的图像进行矫正生成矫正后图像；

目标识别模型，用于将矫正后图像输入预训练的目标识别模型，进行所述图像上每一商品区域的识别。

根据本发明提供的商品图像中目标识别设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述商品图像中目标识别方法的步骤。

根据本发明提供的计算机可读存储介质，用于存储程序，所述程序被执行时实现所述商品图像中目标识别方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

本发明中在商品区域识别前，创造性的先依次进行场景分类，质量调整，ROI区域识别以及图像矫正，最后再进行商品区域的识别，显著的提高了商品区域的识别准确率，将商品识别的准确率，由60％提升至95％左右，推进了商品识别技术在新零售领域的应用；本发明中在识别出每一商品区域后，计算标注窗口之间的平均间距倍数为阈值，如两倍平均间距，对相邻标注窗口的间距进行判断，选出异常区域，对异常区域进行重新识别，从而避免了商品区域的遗漏检测。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明中商品图像中目标识别方法的步骤流程图；

图2为本发明中应用场景分类的步骤流程图；

图3为本发明中ROI区域识别的步骤流程图；

图4为本发明中图像矫正的步骤流程图；

图5为本发明中商品区域识别后校验的步骤流程图；

图6为本发明中商品图像中目标识别系统的模块示意图；

图7为本发明中冰箱容量自动检测设备的结构示意图；以及

图8为本发明中计算机可读存储介质的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明中商品图像中目标识别方法的步骤流程图，如图1所示，本发明提供的商品图像中目标识别方法，包括

步骤S3：将检测出ROI区域的图像进行矫正生成矫正后图像；

在本实施例中，所述图像通过手机、摄像头、装载摄像头的机器人或无人机等拍摄。

神经网络算法属于模式识别算法则更强调对目标的“认识”而并不是对其“区分”，神经网络更符合人们认识事物的过程。通过神经网络建立的模型通过在高维空间中构造复杂几何形体，实现对特征空间中样本的覆盖过程，从而进行分类识别。

支持向量机SVM分类器根据通过有限的训练样本，实现在学习能力和学习精度之间达到最佳折衷，以使支持向量机SVM分类器的推广能力达到最优。支持向量机SVM分类器通过非线性变换将低维空间样本转换到高维空间，使样本变得线性可分，并且不增加算法复杂度。该算法可以得到全局最优解，解决了神经网络常遇到的局部极小值问题。

逻辑回归分类器是通过非线性映射，减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。逻辑回归分类优点为计算代价不高，易于理解和实现。缺点：容易欠拟合，所以分类精度可能不高，适用于模糊分类。

在本实施例中，在建立场景分类模型是可以通过神经网络、支持向量机SVM分类器和逻辑回归分类器进行训练生成，而ROI区域检测模型和目标识别模型则仅通过神经网络算法训练生成。

在本实施例中，在步骤S1之前还包括如下步骤：对所述图像进行去除噪声处理，具体为采用自适应中值滤波算法去噪。

在本实施例中，所述应用场景的类别包括如下任一种或任多种应用场景：

-冰箱；

-货架；

-地推商品；

-摆台；

-挂件架。

在本实施例中，将不属于上述应用场景的图片，分为其他类别。

在所述步骤S1和所述步骤S2之间设置有图像质量调整步骤，所述图像质量调整步骤通过如下任一种或任多种实现：

图2为本发明中应用场景分类的步骤流程图，如图2所示，所述步骤S1包括如下步骤：

步骤S103：将所述图像输入所述场景分类模型进行场景分类。

图3为本发明中ROI区域识别的步骤流程图，如图3所示，所述步骤S2包括如下步骤：

步骤S203：在所述图像中提取若干物体的子图像；

在本实施例中，由于采集的照片主要实在超市和便利店中，因此会出现，如拍摄的冰箱图像，会引入货架的背景，因此在对图像上的商品区域进行目标识别时，会连同货架上的商品区域进行识别，因此需要先进行ROI区域识别，识别出冰箱出，再进行商品区域的识别能够有效的避免如此情况。

由于相机成像并非理想的小孔成像模型，拍摄到的图像，镜头存在径向和切向畸变，有必要对图像进行畸变矫正，矫正后的平面与目标平面之间会表现为更精确的透视变换关系。

图4为本发明中图像矫正的步骤流程图，如图4所示，所述步骤S3包括如下步骤：

在本实施例中，所述设定方向为图像的宽度方向，也就是说所述设定方向为水平方向。本发明中主要适用于与商场中货架对应图像的采集，所述第一目标商品区域和第二目标商品区域可以为位于货架不同层的商品，在选择第一目标商品区域和第二目标商品区域时，尽量选择每个第一目标商品区域与沿水平方向排列次序相同的第二目标商品区域位于同一直线上的第一目标商品区域和第二目标商品区域。

图5为本发明中商品区域识别后校验的步骤流程图，如图5所示，本发明提供的商品区域识别后校验的步骤流程图，还包括如下步骤：

步骤M4：对所述异常区域通过所述目标识别模型重新识别。

在变形例中，还可以商场库存的先验知识，即调用之前拍摄图像中标注出的商品区域，与现在的图像中商品区域进行对比，若结果出现突变，如超过半数的商品区域不对应，突变的可能性为同一地点之前场景是冰箱，但图像识别的场景是货架，根据商家不会在短时间内变更商场的位置的先验知识，则需要进一步通过改变策略重新识别场景。

图6为本发明中商品图像中目标识别系统的模块示意图。如图6所示，本发明提供的商品图像中目标识别系统，用于实现所述的商品图像中目标识别方法，包括：

本发明实施例中还提供一种商品图像中目标识别设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的商品图像中目标识别方法的步骤。

如上，该实施例中通在商品区域识别前，创造性的先依次进行场景分类，质量调整，ROI区域识别以及图像矫正，最后再进行商品区域的识别，显著的提高了商品区域的识别准确率，将商品识别的准确率，由60％提升至95％左右，推进了商品识别技术在新零售领域的应用。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图7是本发明的商品图像中目标识别设备的结构示意图。下面参照图7来描述根据本发明的这种实施方式的电子设备600。图7显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图7中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例中还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的商品图像中目标识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，本发明在商品区域识别前，创造性的先依次进行场景分类，质量调整，ROI区域识别以及图像矫正，最后再进行商品区域的识别，显著的提高了商品区域的识别准确率，将商品识别的准确率，由60％提升至95％左右，推进了商品识别技术在新零售领域的应用。

图8是本发明的计算机可读存储介质的结构示意图。参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种商品图像中目标识别方法，其特征在于，包括：

步骤S3：将检测出ROI区域的图像进行矫正生成矫正后图像；

步骤S4：将矫正后图像输入预训练的目标识别模型，进行所述图像上每一商品区域的识别；

还包括如下步骤：

步骤M4：对所述异常区域通过所述目标识别模型重新识别。

2.根据权利要求1所述的商品图像中目标识别方法，其特征在于，在所述步骤S1和所述步骤S2之间设置有图像质量调整步骤，所述图像质量调整步骤通过如下任一种或任多种实现：

所述降低或增加图像饱和度通过设置饱和度调节因子实现，利用曝光量和饱和度调节因子形成坐标轴，不同曝光量对应设置不同的饱和度调节因子，形成不同的直线斜率，其中，斜率表示通过饱和度调节因子调节图像色彩渐变的快慢。

3.根据权利要求1所述的商品图像中目标识别方法，其特征在于，所述步骤S1包括如下步骤：

步骤S103：将所述图像输入所述场景分类模型进行场景分类。

4.根据权利要求3所述的商品图像中目标识别方法，其特征在于，所述应用场景的类别包括如下任一种或任多种应用场景：

-冰箱；

-货架；

-地推商品；

-摆台；

-挂件架。

5.根据权利要求1所述的商品图像中目标识别方法，其特征在于，所述步骤S2包括如下步骤：

步骤S203：在所述图像中提取若干物体的子图像；

6.根据权利要求1所述的商品图像中目标识别方法，其特征在于，所述步骤S3包括如下步骤：

7.一种商品图像中目标识别系统，用于实现权利要求1至6中任一项所述的商品图像中目标识别方法，其特征在于，包括：

8.一种商品图像中目标识别设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述商品图像中目标识别方法的步骤。

9.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至6中任意一项所述商品图像中目标识别方法的步骤。