CN112232334A

CN112232334A - 一种智能售货商品识别检测方法

Info

Publication number: CN112232334A
Application number: CN202011513588.2A
Authority: CN
Inventors: 后士云; 黄书宝; 亢建卫
Original assignee: Deming Comm Shanghai Co ltd
Current assignee: Deming Comm Shanghai Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-01-15
Anticipated expiration: 2040-12-21
Also published as: CN112232334B

Abstract

本发明提供了一种智能售货商品识别检测方法，包括：建立识别项目的商品图片数据集，按每组包含相同数目的类别分组，选一组作标记；将标记后的一组图片数据训练建立好的Faster R‑CNN；利用训练好的Faster R‑CNN权重值，自动标记下一组；筛选修正标记结果，加入训练集作训练，直到所有图片数据训练完毕；如需增加图片数据集，增加商品识别种类，重复上述相关步骤直至训练完毕。本发明实现了自主售货机商品循环深度学习，从少样本弱监督学习到多样本强监督学习的转变，可自由根据实际情况选择识别商品的类别，降低了图像标记复杂工作量，提升了深度Faster R‑CNN检测性能，降低了过拟合风险。

Description

一种智能售货商品识别检测方法

技术领域

本发明涉及智能售货和视觉目标检测识别技术领域，具体而言，涉及一种智能售货商品识别检测方法。

背景技术

近些年来，智能成为了国内外各大领域关注的焦点，图像识别作为智能中的重要研究领域，也倍受关注。在零售行业，无人售货机由于体积小易于摆放，安全方便的诸多优势，在地铁、公园和学校等众多公共场所中出现，已被消费者广泛认可。

传统的自主售货机的售卖方式主要有：其一，顾客在自主售货机的键盘上选择某个商品并按下对应的按键，再选择现金或非现金方式进行支付，支付完成后，消费者可以在下方取货口取走商品；其二，通过自主售货机上的触摸屏，触摸屏上展示了可选商品的图片，消费者点击图片选择支付方式，支付完成后售货机将对应的商品放到取货口，消费者可以在下方取货口取走商品。

从最初的按键操作到触摸屏操作取货，在提高消费者消费体验的同时，触摸屏无疑增加了自主售货机的成本，并且随着智能模式识别领域的日益发展，显然上述传统的自主售货机的售卖方式已经限制了消费者的消费体验。对此，也出现了一些相关的研究工作提出了自主售货机的商品识别方法。例如，中国专利（CN107516111A）公开了一种售货机缺货检测方法及装置，通过相机获取售货机内的货物图像，并根据检测区域的预设值对其进行二值化处理，通过对比二值化图像的特征点和预设条件判断是否缺货。中国专利（CN107833363A）公开了一种基于图像识别的自助售货机自动库存管理系统及方法，通过图像识别和云端平台自动实时更新售货机在售的库存量。上述方法提出了一种通过图像识别管理自主售货机库存的方法和装置，本质上并没有将视觉识别技术用于增加消费者体验和节约成本上，也没有改变上述传统的自主售货机零售的方式。

发明内容

鉴于此，本发明提出一种智能售货商品识别检测方法，通过构建Faster R-CNN，先对标记的小样本训练逐渐过渡到大样本的训练，循环训练的过程中，不仅有效降低了Faster R-CNN过拟合的风险，也提升了Faster R-CNN识别商品的性能。同时增加了用户的消费体验、降低了自主售货机的生产成本，取消了触摸屏和按键识别商品出售的方法，而采用了视觉目标检测识别技术。

本发明提供了一种智能售货商品识别检测方法，利用少量标记的商品图像样本训练Faster R-CNN，并将所述Faster R-CNN的网络权重值用于大量非标记的商品图像样本，通过循环的图像标记和训练实现从弱监督学习到强监督学习的过渡，最终得到强监督学习规则算法，包括以下步骤：

S1、建立自主售货机识别项目所要标记的商品图片数据集，并将所述图片数据集按照每组包含相同数目的类别图片分成N组，选其中一组图片数据采用Labellmg软件进行标记；

S2、将S1步骤选的标记后的所述一组图片数据用于训练建立好的Faster R-CNN，计算损失函数，得到训练好的Faster R-CNN，计算公式如下：

，

式中，

表示每一个图片样本的下标，

和

均为归一化参数，

为权重的平衡参数，

表示分类损失，

表示该图片样本被预测为识别项目的概率，

是已标记的真实数据标签；

S3、利用S2步骤训练好的所述Faster R-CNN的权重值，自动标记下一组图片数据；

S4、筛选修正S3步骤的标记结果，并将修正后的图片加入到自主售货机识别项目的训练集，进行训练，重复S2-S4步骤直到所有图片数据训练完毕；

S5、判断是否所有组的图片数据都已经完成训练，没有则重复S3-S4步骤；

S6、判断是否需要扩充自主售货机识别项目的图片数据集，如果需要则进一步判断是否增加商品识别的种类，如果增加则重复S2-S5步骤；如果不需要则结束所述识别方法；

其中，所述S2步骤中，所述Faster R-CNN包含14层卷积层和2层池化层，其中在第4层和第6层卷积层后面分别设置池化层；第8层、第11层和第14层卷积层为特征金字塔，其特征图的分辨率分别为32*32像素、16*16像素和8*8像素；

所述卷积层为深度可分离卷积，包含5组3*3大小的卷积核和1*1大小的卷积核配对实现；所述池化层为2*2大小的最大池化层；

卷积层对图像进行滤波，通过卷积核在图像不同的局部位置上扫描而抽象出局部信息，提取图片每个anchor位置里具有的特征；从输入图片中取出一个与卷积核大小相同的区块，然后对每对相同位置的元素执行乘法后求和，乘积的和就生成了特征图中的一个像素；当一个像素计算完毕后，移动一个像素取下一个区块执行相同的运算；

池化层的作用包括降低特征图的分辨率，从而减少计算量，减少训练参数的数量，降低卷积层输出的特征向量的维度，减小过拟合现象，只保留最有用的图片信息，减少噪声的传递以及增强网络的鲁棒性。

所述Faster R-CNN采用基于Faster R-CNN的anchor boxes的方法预测商品目标的包围框，设置特征图每个像素点anchor包括anchor框的数量为9个，9个所述anchor框设置3种不同的尺度，每种尺度分别设置3种宽高比1：1、1：2和2：1；

本发明之所以对anchor的数量以及宽高比均有了明确的限定，是因为需要根据每个anchor boxes预测偏移量，根据预测的偏移量调整anchor boxes位置从而得到预测边界框，筛选需要输出的预测边界框，计算anchor boxes相对于真实边界框的偏移量；特征图上的一个像素点可以生成9种不同形状、不同大小的框，这样框住目标的概率就会很大，其精度也能大大地提高；使用不同的宽高比，是为了得到更大的交并比，以舍弃误检，保留正确的检测框，交并比即标记的真实框与计算机输出的预测框的重叠面积，重叠率越高，预测定位越准确。

进一步地，所述特征金字塔的连接方法为8*8分辨率的特征图通过反卷积与16*16分辨率的特征图进行对应元素求和运算，16*16分辨率的特征图通过反卷积与32*32分辨率的特征图进行对应元素求和运算；

本发明之所以对特征金字塔所在层的分辨率作明确的限定，是基于使用特征金字塔对物体的尺度变换进行处理，每个分辨率的特征图引入后一分辨率缩放两倍的特征图做对应元素求和运算，通过这样的连接，每一层预测所用的特征图都融合了不同分辨率的特征，融合的不同分辨率的特征图分别做对应分辨率大小的物体检测，这样保证了每一层都有合适的分辨率；同时，由于此方法只是在原网络基础上加上了额外的跨层连接，在实际应用中几乎不增加额外的时间和计算量。

进一步地，16个所述anchor为一组，在其位置上按照4*4的棋盘格设置，所述棋盘格均匀分布在图片中；

本发明之所以对每一组anchor按照4*4的棋盘格设置作明确的限定，是因为使用anchor机制产生密集的anchor boxes，可以使得网络直接在此基础上进行目标分类及边界框坐标回归，密集的anchor boxes可有效提高网络目标召回能力，对于小目标检测来说提升非常明显。

进一步地，所述S4步骤中，所述筛选修正S3步骤的标记结果的方法包括：更改误标记商品类别和调整商品误标记包围框。

进一步地，所述S6步骤中，所述扩充自主售货机识别项目的图片数据集的方法包括图像旋转、放缩、裁剪、平移、旋转和颜色变换在内的图像处理方法，并包含新加入的相机采集的商品图片。

与现有技术相比，本发明的有益效果是：

1、自主售货机通过图像识别的方法自动识别消费者开柜后取走的货物，取消了配置按键或触摸屏的结构，同时存储相同容量的货物时体积减小，大大降低了自主售货机的生产制造成本；

2、本发明利用图像识别技术可自动确认消费者购买的物品，用户直接与自主售货机内的商品接触，无需通过其它中间操作途径，增加了消费者的消费体验；

3、本发明提供的基于循环深度学习方法训练Faster R-CNN规则算法，降低了规则算法过拟合的风险，准确性能高，并融合了多尺度特征金字塔结构，增加了特征图之间的语义相关性，获得的强监督学习规则算法具有很好的泛化能力。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1为本发明智能售货商品识别检测方法的流程图；

图2为本发明Faster R-CNN的结构示意图；

图3为本发明基于循环深度学习的自主售货机商品识别训练强监督学习规则算法的操作流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明实施例智能售货商品识别检测方法，参阅图3所示，利用少量标记的商品图像样本训练Faster R-CNN，并将所述Faster R-CNN的网络权重值用于大量非标记的商品图像样本，通过循环的图像标记和训练实现从弱监督学习到强监督学习的过渡，最终得到强监督学习规则算法。参阅图1所示，包括以下步骤：

基于Faster R-CNN的深度学习规则算法需要建立所需识别商品图片的数据集，优选地，此处指的是训练集，用于该规则算法的训练；对图片数据集的分组应保证每组包含接近相等数目的各类商品图片，保证每组的数据近似均匀，对其中一组数据采用标记工具Labellmg软件进行标记，优选地，本实施例共采得10类商品，其中每类10000张总共100000张图片，并将其分成10组，对其中一组采用yolo_mark标记；

，

式中，

表示每一个图片样本的下标，

和

均为归一化参数，

为权重的平衡参数，

表示分类损失，

表示该图片样本被预测为识别项目的概率，

是已标记的真实数据标签；

附图图2是本发明Faster R-CNN的结构示意图，参阅图2所示，本实施例的Faster R-CNN的结构包括14层卷积层和2层池化层，其中在第4层和第6层卷积层后面分别设置池化层；卷积层包含一般卷积和深度可分离卷积两种类型，其中有4层一般卷积层和5组3*3大小的卷积核和1*1大小的卷积核配对实现的深度可分离卷积层；池化层为2*2大小的最大池化层。Faster R-CNN包含三层特征金字塔，分别为第8层、第11层和第14层卷积层，对应的特征图分辨率为32*32像素、16*16像素和8*8像素，特征金字塔的连接方法为8*8分辨率的特征图通过反卷积与16*16分辨率的特征图进行对应元素求和运算然后对其进行商品包围框的预测，16*16分辨率的特征图通过反卷积与32*32分辨率的特征图进行对应元素求和运算然后对其进行商品包围框的预测，8*8分辨率的特征图直接进行商品包围框的预测，形成了三种尺度的特征金字塔结构。预测商品包围框的方法采用基于Faster R-CNN的anchor boxes方法，根据自主售货机商品大多均匀分布在图像中的特点，采用anchor的数量为16个，其位置按照4*4的棋盘格均匀分布在图片中，每个anchor设置3种不同尺度，每种尺度分别设置宽高比1：1、1：2和2：1。预测商品包围框所属商品类别的方法，采用Softmax层计算相应的类别置信度并最终取置信度最高的类别为检测商品的类别；

将S1步骤标记好的一组数据放入到建立好的Faster R-CNN中训练，优选地，本实施例中以Darknet框架对第一组数据设置初始化学习率为0.1训练30000次，进而降低学习率至0.01训练5万次，激活函数设置为leaky Relu；

对S2步骤训练完成后，将得到保存的网络权重文件，用于自动标记下一组图片；

筛选修正S3步骤的标记结果采取的操作包括更改误标记商品类别和调整商品误标记包围框，并将新的一组数据加入到训练集中，重复步骤S2-S4的训练和自动标记图片数据；

循环深度学习是否完毕的判定条件，即是否所有的图片数据都已经完成训练，若没有，则重复S3-S4步骤，直到该条件得到满足后，到达下一步骤；

所述Faster R-CNN采用基于Faster R-CNN的anchor boxes的方法预测商品目标的包围框，设置特征图每个像素点anchor包括anchor框的数量为9个，9个所述anchor设置3种不同的尺度，每种尺度分别设置3种宽高比1：1、1：2和2：1；

所述特征金字塔的连接方法为8*8分辨率的特征图通过反卷积与16*16分辨率的特征图进行对应元素求和运算，16*16分辨率的特征图通过反卷积与32*32分辨率的特征图进行对应元素求和运算；

16个所述anchor为一组，在其位置上按照4*4的棋盘格设置，所述棋盘格均匀分布在图片中；

所述S4步骤中，所述筛选修正S3步骤的标记结果的方法包括：更改误标记商品类别和调整商品误标记包围框。

所述S6步骤中，所述扩充自主售货机识别项目的图片数据集的方法包括图像旋转、放缩、裁剪、平移、旋转和颜色变换在内的图像处理方法，并包含新加入的相机采集的商品图片。

循环学习结束后，可根据新的项目需求，如需要扩充原始的图片数据集，则应判定是否增加商品识别的种类，如果增加商品的识别种类则需要重新建立新的图片数据集、重新分组，即重复S1-S5步骤，如果没有增加商品的识别种类则将新增的数据用最新的FasterR-CNN权重值重复S2-S5步骤；如果没有扩充数据集，则得到循环深度学习方法下的强监督学习规则算法。

以下通过一个应用实例来进一步说明本发明的应用场景。

实例：识别“营养快线”商品

利用本发明实施例中的Faster R-CNN，结合循环深度学习训练数据集的方法，共采得10类饮料瓶商品，其中每类10000张总共100000张图片，并将其分成10组，每组的数据近似均匀，对其中一组采用yolo_mark标记；

将标记好的一组数据放入到建立好的Faster R-CNN中训练，以Darknet框架对第一组数据设置初始化学习率为0.1训练30000次，进而降低学习率至0.01训练5万次，激活函数设置为leaky Relu；

训练完成后，将得到保存的网络权重文件，用于自动标记下一组图片；

更改误标记商品类别和调整商品误标记包围框，并将新的一组数据加入到训练集中，重复训练和自动标记图片数据；

所有的图片数据完成训练；

成功识别标记名为Nutri-express的营养快线商品。

总之，本发明的商品识别方法实现了对自主售货机商品的循环深度学习，从少样本的弱监督学习到多样本的强监督学习的转变，用户可以自由根据实际情况选择识别商品的类别，既有效地降低了图像标记的复杂工作量，也提升了深度Faster R-CNN的检测性能，降低了过拟合风险。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能售货商品识别检测方法，其特征在于，包括以下步骤：

，

式中，

表示每一个图片样本的下标，

和

均为归一化参数，

为权重的平衡参数，

表示分类损失，

表示该图片样本被预测为识别项目的概率，

是已标记的真实数据标签；

所述Faster R-CNN采用基于Faster R-CNN的anchor boxes的方法预测商品目标的包围框，设置特征图每个像素点anchor包括anchor框的数量为9个，9个所述anchor框设置3种不同的尺度，每种尺度分别设置3种宽高比1：1、1：2和2：1。

2.根据权利要求1所述的一种智能售货商品识别检测方法，其特征在于，所述S4步骤中，所述筛选修正S3步骤的标记结果的方法包括：更改误标记商品类别和调整商品误标记包围框。

3.根据权利要求1所述的一种智能售货商品识别检测方法，其特征在于，所述S6步骤中，所述扩充自主售货机识别项目的图片数据集的方法包括图像旋转、放缩、裁剪、平移、旋转和颜色变换在内的图像处理方法，并包含新加入的相机采集的商品图片。