CN110348293A

CN110348293A - 一种商品识别方法及系统

Info

Publication number: CN110348293A
Application number: CN201910458559.1A
Authority: CN
Inventors: 韩鹏鹏; 吴军; 涂小芳
Original assignee: Guangzhou Institute Of Intelligent Software Industry; Guangzhou Zhongke Kaize Technology Co Ltd
Current assignee: Guangzhou Institute Of Intelligent Software Industry; Guangzhou Zhongke Kaize Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-10-18
Anticipated expiration: 2039-05-29
Also published as: CN110348293B

Abstract

本发明公开一种商品识别方法及系统，涉及商品识别技术领域，包括获取用于训练的货架商品图像；标注所述货架商品图像的信息，其中，所述信息包括但不限于商品的位置和类别；将标注后的货架商品图像送入商品识别网络进行训练，获得最优模型；将待识别的商品图像送入所述最优模型中，识别商品图像中商品的种类、数量及应属位置；通过移动终端拍摄图片，将该图片上传到服务器，服务器通过商品识别网络判断商品的种类和当前货架的每个商品的数量去替代工人统计，此方法可以快速高效的实现商品的统计功能；使用智能的商品识别软件可以给超市减少人力的投入减少运行成本，并且快速高效去统计商品种类和数量。

Description

一种商品识别方法及系统

技术领域

本发明涉及商品识别技术领域，尤其涉及一种商品识别方法及系统。

背景技术

随着时代的发展，越来越多的高科技产品进入到我们生活中，并且扮演者非常重要的角色，如人脸考勤去替代人工考勤节约了大量的人力和物力、车牌识别帮助人们减少了人工统计车牌的功能费时和费力等。当在超市购物时经常会发现在货架上经常会摆上大量的货物，那么如何整理和统计商品的种类和数量，是理货员非常头疼的问题而且工作量巨大；超市管理者也需要知道货架上商品的种类和数量，并且判断是否需要加货加什么货物等这些问题；

现有技术的技术方案：人工统计货架商品的种类和数量，主要是通过理货员一个一个查看货架上每个商品的种类和数据，然后把每个货架的信息报给管理者做最后的统计和安排；其缺点包括：1)人工统计商品的种类和数量，消耗大量的人力、物力、财力、精力；2)工人在疲劳的情况下易错误的统计商品的种类和数量；3)商品的种类很相似人工极易错分种类(如400ml海飞丝和500ml的海飞丝除容量不同外其他全部相同)；4)管理货物的效率低下，不能实时的统计的货架商品的种类和数量。

发明内容

本发明针对背景技术的问题提供一种商品识别方法及系统，货架上商品识别的应用，可为超市节约大量的人力和物力的同时及时补偿缺少的货物提高了超市的整体效率。

为了实现上述目的，本发明提出一种商品识别方法，包括如下步骤：

获取用于训练的货架商品图像；

标注所述货架商品图像的信息，其中，所述信息包括但不限于商品的位置和类别；

将标注后的货架商品图像送入商品识别网络进行训练，获得最优模型；

将待识别的商品图像送入所述最优模型中，识别商品图像中商品的种类及应属位置。

优选地，在所述获取用于训练的货架商品图像步骤与标注所述货架商品图像的信息步骤之间，还包括：

对图像进行预处理及增强。

优选地，所述商品识别网络包括卷积神经网络和检测网络，其中，所述卷积神经网络的结构采用3*3卷积核，并采用卷积以降维。

优选地，所述卷积神经网络的结构采用卷积、BN、relu组合的网络结构。

优选地，所述卷积神经网络，具体如下：

卷积层1：用stride为1、pad为1、64个3×3卷积核去卷积500×500的输入图像得到500×500的特征图，然后通过BN1层，最后采用ReLU1激活函数得到640×500×500的特征；

卷积层2：用stride为2、pad为1、128个3×3卷积核去卷积500×500的输入特征图得到250×250的特征图，然后通过BN2层，最后采用ReLU2激活函数得到128×250×250的特征；

卷积层3：用stride为2、pad为1、128个3×3卷积核去卷积250×250的输入图像得到125×125的特征图，然后通过BN3层，最后采用ReLU4激活函数得到128×125×125的特征图；

卷积层4：用stride为2、pad为1、256个3×3卷积核去卷积125×125的输入图像得到63×63的特征图，然后通过BN4层，最后采用ReLU6激活函数得到256×63×63的特征图；

卷积层5：用stride为1、pad为1、256个3×3卷积核去卷积63×63的输入图像得到63×63的特征图，然后通过BN5层，最后采用ReLU7激活函数得到256×63×63的特征图；

卷积层6：用stride为2、pad为1、512个3×3卷积核去卷积63×63的输入图像得到27×27的特征图，然后通过BN6层，最后采用ReLU8激活函数得到256×27×27的特征图；

卷积层7：用stride为1、pad为1、512个3×3卷积核去卷积27×27的输入图像得到27×27的特征图，然后通过BN7层，最后采用ReLU7激活函数得到512×27×27的特征图；

卷积层8：用stride为2、pad为1、512个3×3卷积核去卷积27×27的输入图像得到27×27的特征图，然后通过BN8层，最后采用ReLU8激活函数得到512×14×14的特征图；

卷积层9：用stride为1、pad为1、512个3×3卷积核去卷积14×14的输入图像得到14×14的特征图，然后通过BN9层，最后采用ReLU7激活函数得到512×14×14的特征图；

卷积层10：用stride为2、pad为1、256个3×3卷积核去卷积14×14的输入图像得到7×7的特征图，然后通过BN10层，最后采用ReLU8激活函数得到256×7×7的特征图；

卷积层11：用stride为2、pad为1、512个3×3卷积核去卷积3×3的输入图像得到1×1的特征图，然后通过BN11层，最后采用ReLU8激活函数得到512×1×1的特征图。

本发明还提出一种商品识别系统，包括：移动终端及服务器；其中，

所述移动终端，用于拍摄采集用于训练的货架商品图像及待识别的货架商品图像；

所述服务器，用于接收用于训练的货架商品图像；标注所述货架商品图像的信息，其中，所述信息包括但不限于商品的位置和类别；将标注后的货架商品图像送入商品识别网络进行训练，获得最优模型；将待识别的商品图像送入所述最优模型中，识别商品图像中商品的种类及应属位置。

本发明提出一种商品识别方法及系统，通过移动终端拍摄图片，将该图片上传到服务器，服务器通过商品识别网络判断商品的种类和当前货架的每个商品的数量去替代工人统计，此方法可以快速高效的实现商品的统计功能；使用智能的商品识别软件可以给超市减少人力的投入减少运行成本，并且快速高效去统计商品种类和数量。本发明涉及到的智能商品识别软件，通过手机端或者摄像头端采集图像，然后对图像进行分析获得当前货架上商品的种类和数量最终统计出结果。本发现的重点是对货架上商品的图像进行检测和准确的识别最终实现统计货架商品的功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一种实施例中商品识别方法流程图；

图2为本发明一种实施例中图像进行预处理及增强过程示意图；

图3为本发明一种实施例中商品识别网络结构示意图；

图4为本发明一种实施例中商品识别系统结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

由于考虑货架上商品种类繁多并且商品之间的相似度很高所以此算法在兼顾速度的同时准确率也是考虑的其中之一；在现实生活中商品识别会面临多种困难，例如：

(1)同品牌的商品种类繁多，给商品识别带来了巨大挑战(如海飞丝系列有200种)；

(2)同种品牌的商品外包装相似度很高，如500ml的海飞丝和400ml的海飞丝只是容量不同；

(3)商品之间的遮挡比较严重，不易于商品识别和统计；

因此，本发明提出一种商品识别方法；

本发明第一优选实施例中，如图1所示，包括如下步骤：

S10、获取用于训练的货架商品图像；

本发明实施例中，由于商品识别算法目前没有公开的数据集，因此本发明实施例中采用的训练数据集是采用人工在各大超市采集现场的数据，例如：海飞丝和纸巾的数据，主要通过手机采集各个超市的数据，并且要求采集图像的人员距离货架1m的距离，手机高度在1.5m保证图像的规格相同；

S20、对图像进行预处理及增强；

本发明实施例中，商品识别的检测和识别网络在训练时主要把数据集分为训练集和测试集；本发明实施例中，主要把训练集和测试集分为比例4∶1，训练集在2000张，测试集在500张；

数据预处理的结果对商品识别的准确率有为重要，本发明主要的目的是在实际应用中可以做到很高的识别率，达到商用的成熟的产品算法；因此本发明实施例中主要也针对性的做了相关的工作；

本发明实施例中，如图2所示，主要采用了图像旋转、加椒盐噪声、调节亮度和饱和度、平移方法；具体如下：

图像旋转主要是考虑现实生活中，超市采集图像的工作人员任意角度采集图像对识别的精度有很大的影响的情况；

加椒盐噪声是为了增加数据的干扰性，在有干扰的情况下也可很准确识别；

调节亮度和饱和度主要考虑超市的光线环境不同、货架上灯光强度不同、灯光颜色不同，因此需要采集不同场景下的情况已满足现在准确率的要求，因此通过调节亮度和饱和度方法以适应要求；

平移方法对商品识别的准确率有着很重要的作用，可以防止网络的过拟合的作用；

S30、标注所述货架商品图像的信息，其中，所述信息包括但不限于商品的位置和类别；

本发明实施例中，通过图像标注工具对货架商品图像进行标注，即商品在图像中的位置信息和类别信息，记录以便后续的海飞丝的检测网络训练；

S40、将标注后的货架商品图像送入商品识别网络进行训练，获得最优模型；

本发明实施例中，标注好的数据送入到深度卷积神经网络中，通过商品识别的检测网络结构去学习商品的特征，例如：商品的颜色、外形、文字、图案、纹理等特征，本发明判断准确率和loss曲线是否达到最优的情况，若是，则完成训练，获得最优模型，否则需要继续调整网络参数直至达到最优的情况，完成训练，获得最优模型；

本发明实施例中，网络结构是在调研了大量的卷积神经网络的资料和查阅的大量的商品识别的方法的基础上，并做了大量的比对实验设计出来的。本发明的网络结构要在实际的环境中去使用，所以不仅要求准确率而且要求速度也不能太慢。考虑到更好的提取商品的特征，本发明方法的网络结构要求模型准确率放在首位，速度放在第二的位置上，主要采用以下几种思路去结果这个问题：

1、本网络结构采用3*3小的卷积和去提取商品的特征，减小计算量的同时可以很好学习到农贸产品的特征；

2、适当减少网络输入输出的特征图的个数，虽然特征图的数量多可以很好的学习到商品的特征，但过多的特征图个数可能会网络结构学习没有很好的正面作用的同时增加了网络的计算量，那么合理的个数是非常有必要的；

3、网络结构降维不在采用pooling(池化)的方式，而是采用卷积去降维，这样商品的特征在降维时特征也不会丢失；

4、本专利的网络结构主要是采用卷积、BN(Batch Normalization)、relu组合的网络结构，BN的作用是可以改善梯度弥散、加速网络收敛速度、防止训练网络梯度爆炸等功能；本发明实施例中采用8层的卷积神经网络去提取特征，提取到的特征通过检测网络结构得出最终的商品的位置和商品的种类；

5、从特征的con7层、卷积9、卷积11层不同的特征图尺寸去预测商品的位置和商品的种类(con7、con9、con11都输入检测网络结构中)；

本发明实施例中，如图3所示，商品识别网络结构是由卷积神经网络和检测网络结构组成，卷积神经网络结构主要用于提前特征如下所示：

检测网络结构如下所示：

卷积7_2：用stride为1、pad为1、16个3×3卷积核去卷积27×27的输入图像得到16×27×27的特征图

Permute7_2层：对卷积7_2的卷积结果进行重新组合得到，conv7_2_mbox_loc_perm；

Flatten7_2层：对Permute7_2层进行操作返回一维数组；

Flatten7_2层：对Permute7_2层进行操作返回一维数组

卷积9_2：用stride为1、pad为1、24个3×3卷积核去卷积14×14的输入图像得到16×14×14的特征图

Permute9_2层：对卷积9_2的卷积结果进行重新组合得到，conv9_2_mbox_loc_perm；

Flatten9_2层：对Permute9_2层进行操作返回一维数组

卷积10_2：用stride为1、pad为1、16个3×3卷积核去卷积1×1的输入图像得到16×14×14的特征图

Permute10_2层：对卷积10_2的卷积结果进行重新组合得到，conv10_2_mbox_loc_perm；

Flatten10_2层：对Permute10_2层进行操作返回一维数组；

Concat_mbox_loc层：conv10_2_mbox_loc_perm、conv9_2_mbox_loc_perm、conv7_2_mox_loc_perm链接起来得到最终的坐标框偏差；

Concat_mbox_conf层：conv10_2_mbox_loc_perm、conv9_2_mbox_loc_perm、conv7_2_mox_loc_perm链接起来得到最终的自信度得分；

MultiBoxLoss层：Concat_mbox_loc和Concat_mbox_conf的输入到MultiBoxLoss层得出偏移框的偏差和自信度的损失做更新优化；

DetectionOutput层：类别输出分别代表不同的商品识别的种类和种类的矩形框；

本发明实施例中，当网络损失函数收敛时，将训练得到的模型在验证集上进行测试，对于检测错误的结果进行分析，根据错误的图像的类型在辅助训练集中找到一些对应类型的图像添加到训练集中，对网络继续进行训练，重复上述内容直至网络损失函数收敛或在验证集上的检测结果稳定，这里的网络参数即为训练好的具有检测识别商品种类的的深层卷积神经网络的参数。

S50、将待识别的商品图像送入所述最优模型中，识别商品图像中商品的种类及应属位置。

本发明实施例中，将采集到货架上商品的图片，送入到神经网络结构中，通过上述算法实现对商品的位置信息和商品的种类信息进行检测识别并统计数量；输出结果是具体的商品的种类和坐标值；

本发明还提出一种商品识别系统；

本发明第二优选实施例中，如图4所示，包括：移动终端(例如采用手机或平板电脑)及服务器；其中，

所述服务器，用于接收用于训练的货架商品图像；标注所述货架商品图像的信息，其中，所述信息包括但不限于商品的位置和类别；将标注后的货架商品图像送入商品识别网络进行训练，获得最优模型；将待识别的商品图像送入所述最优模型中，识别商品图像中商品的种类及应属位置；

本发明实施例中，具体的技术细节在上文中已经详细阐述，此处不再复述；

在本发明的实施方式的描述中，需要说明的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器，只读存储器，可擦除可编辑只读存储器，光纤装置，以及便携式光盘只读存储器。另外，计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种商品识别方法，其特征在于，包括如下步骤：

获取用于训练的货架商品图像；

将待识别的商品图像送入所述最优模型中，识别商品图像中商品的种类、数量及应属位置。

2.根据权利要求1所述的商品识别方法，其特征在于，在所述获取用于训练的货架商品图像步骤与标注所述货架商品图像的信息步骤之间，还包括：

对图像进行预处理及增强。

3.根据权利要求1所述的商品识别方法，其特征在于，所述商品识别网络包括卷积神经网络和检测网络，其中，所述卷积神经网络的结构采用3*3卷积核，并采用卷积以降维。

4.根据权利要求3所述的商品识别方法，其特征在于，所述卷积神经网络的结构采用卷积、BN、relu组合的网络结构。

5.根据权利要求3所述的商品识别方法，其特征在于，所述卷积神经网络，具体如下：

卷积层6：用stride为2、pad为1、512个3×3卷积核去卷积63×63的输入图像得到28×28的特征图，然后通过BN6层，最后采用ReLU8激活函数得到256×28×28的特征图；

卷积层7：用stride为1、pad为1、512个3×3卷积核去卷积28×28的输入图像得到28×28的特征图，然后通过BN7层，最后采用ReLU7激活函数得到512×28×28的特征图；

卷积层8：用stride为2、pad为1、512个3×3卷积核去卷积28×28的输入图像得到28×28的特征图，然后通过BN8层，最后采用ReLU8激活函数得到512×14×14的特征图；

6.一种商品识别系统，其特征在于，包括：移动终端及服务器；其中，