CN108229430B

CN108229430B - 一种融合注意力图的商品分类方法

Info

Publication number: CN108229430B
Application number: CN201810090523.8A
Authority: CN
Inventors: 耿卫东; 朱柳依; 白洁明; 韩菲琳; 林江科; 王苏振; 贺林; 肖强; 赖章炯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2022-04-05
Anticipated expiration: 2038-01-30
Also published as: CN108229430A

Abstract

本发明公开了一种融合注意力图的商品分类方法。收集一张清晰、完整的商品正面照片作为模板图像，进行扩充得到训练图像，训练图像与模板图像进行匹配获得注意力图，将RGB三通道与注意力图叠加形成四通道，组成训练数据，训练获得图像分类模型，将待分类商品图像的四通道数据输入图像分类模型，得到待分类商品图像的预测分类与对应分数。本发明方法利用能够放大商品图案细微特征对分类模型影响力、抑制图案非显著性特征的注意力图参与训练，提升了商品图像分类的正确率。

Description

一种融合注意力图的商品分类方法

技术领域

本发明涉及一种图像检测方法，尤其是涉及一种融合注意力图的商品图像分类方法。

背景技术

超市是现代社会中必不可少的购物场所，在近年来零售业蓬勃发展以及新零售概念的冲击下，超市越来越数字智能化，从人工货架管理逐渐发展为自动化智能货架管理。

目前，货架上商品信息的统计依然主要由工作人员在盘点时完成，这样可能会存在统计错误，在计数时数量数错或是将相似的商品误计数为同一类等，而对于新型的无人超市来说，没有配备理货员，这对商品信息统计的需求来说更是一个挑战。

针对这样的情况，自动化的货架图像商品检测方法是一个很有应用前景的解决方案，能够代替传统的人工统计，同时超市货架的图像可以轻松地使用手机拍摄或摄像头采集。商品检测以超市货架图像为信息来源，自动获取图像中的商品位置与种类，是商品计数和报表生成的基础并能够有效的降低劳动成本。商品检测可以分为两个步骤：商品定位和商品分类。商品定位的方法有很多，例如模板匹配。商品分类的方法目前由深度学习的卷积神经元网络占据主导地位。商品定位的目标是尽可能多的找出可能是商品的物体，减少遗漏，面向高召回率；商品分类的目标是达到尽可能高的分类正确率。

发明内容

针对超市货架图像中商品定位与分类的问题，为了提高商品分类的正确率，本发明提供了一种融合注意力图的商品分类方法。

本发明的技术方案是包括以下步骤：

1)预先设定商品的分类，分类类别根据具体需要设定，对每一类别的商品，收集一张清晰、完整的正面照片作为模板图像，正面照片中仅包含该类别的一个商品；

2)对步骤1)中每类商品的单张模板图像进行扩充，得到每类商品的数千张训练图像；

3)对步骤2)中的每张训练图像与生成训练图像的模板图像进行匹配，根据匹配关系绘制注意力图；

4)将步骤2)中训练图像的RGB三通道与步骤3)中生成的注意力图叠加形成四通道，四通道和训练图像自身带有分类标签组成训练数据，并建立以卷积神经元网络模型为基础的图像分类模型，训练获得图像分类模型；

具体实施中，训练图像均带有分类标签，训练图像输入模型时同时均将分类标签和RGB三通道或四通道连同一起输入。

5)针对待分类商品图像按照步骤2)和3)相同方式处理获得注意力图，即输入根据模板匹配方法(步骤2)和3))从超市货架图像上裁剪出来的待分类商品图像生成注意力图，将注意力图与待分类商品图像自身的RGB三通道叠加成四通道，将四通道数据输入步骤4)训练得到的图像分类模型，得到待分类商品图像的预测分类与对应分数。

本发明具体实施中，不同品牌、不同系列、不同规格的商品均可选择视为不同类别的商品，最终商品图像分类的预测类别是从收集了模板图像的商品类别中进行选择。

所述步骤2)具体是通过单张模板图像进行裁剪、亮度调整、旋转操作、透视变换方式进行扩充，得到多张训练图像。

所述步骤2)具体为：

2.1)针对单张模板图像的上、下、左、右四个边的每一边分别处理，每一边处理时分别裁去原有长度的0.04、0.06、0.08、0.1四种比例生成新图像，加上不裁剪的原始图像，使得图像数目扩充到原来的4*4+1＝17倍；

做完此步骤后，每一类的训练图像有1×17＝17张。

2.2)将步骤2.1)获得的每一张图像从RGB转换到HSV空间再调整V通道以调整亮度，对V通道分别乘以比例0.6、0.75、0.9、1.05、1.2后再转换回RGB空间生成新图像，使得图像数目继续扩充到步骤2.1)的5倍；

做完此步骤后，每一类的训练图像有17×5＝85张。

2.3)对步骤2.2)调整亮度后的每一张图像做旋转操作：将图像绕着图像中心点分别按逆时针方向旋转-15、-12、-9、-6、-3、0、3、6、9、12、15度生成新图像，使得数目扩充到步骤2.2)的11倍；

做完此步骤后，每一类的训练图像有85×11＝935张。

2.4)对步骤2.2)调整亮度后的每一张图像做透视变换：将图像所在平面分别围绕第一轴和第二轴分别转动-30、-15、0、15、30度，第一轴沿过图像平面中心的图像横向方向，第二轴沿过图像平面中心的图像纵向方向，使得图像数目扩充到步骤2.2)的5×5＝25倍；

做完此步骤后，每一类的训练图像有85×25＝2125张。

2.5)将步骤2.3)和2.4)分别对调整亮度后的图像做了二维平面旋转和三维透视变换，将步骤2.3)和2.4)生成的图像合并；

2.6)对步骤2.5)获得的所有各张图像分别添加高斯模糊和运动模糊，获得训练图像，做完此步骤后，每一类的训练图像共有3060×2＝6120张。

所述步骤3)绘制能够放大商品图案细微特征对分类模型影响力、抑制图案非显著性特征的注意力图，具体为：

3.1)提取每张训练图像和其对应的原始模板图像的SIFT特征点，利用BF(BruteForce)匹配并用RANSAC方法消除错配点后，得到匹配上的特征点列表L1，特征点列表L1中的不同行记录不同的特征点对，每一行记录特征点对的坐标和尺度；

所述的SIFT特征点具有两个向量，其中一个向量由特征点位置(x坐标，y坐标)、尺度s、方向θ(θ∈(-π,π])构成，另一向量为128维的特征描述子。

3.2)对每张训练图像，创建一张与训练图像同样大小的单通道纯黑色图像；

3.3)利用每一对特征点对创建一个圆形区域，圆心为特征点对中位于训练图像中的SIFT特征点的坐标(x_{train_img}，y_{train_img})，半径R计算如下：

R＝(s_{template_max}+s_{template_min}-s_template)/2

其中，s_{template_max}表示训练图像对应的模板图像的所有SIFT特征点的尺度最大值，s_{template_min}表示模板图像的所有SIFT特征点的尺度最小值，s_template表示当前遍历到的特征点对中位于模板图像中的特征点的尺度值；

3.4)单通道纯黑色图像中，将步骤3.3)获得的圆形区域内的每个像素点的灰度值加1；

3.5)重复上述步骤3.3)和3.4)遍历步骤3.1)中得到的特征点列表L1中每一行代表的每一对特征点对，得到一张与训练图像同样大小的单通道的注意力图。

所述的特征点对由训练图像中一个SIFT特征点与其在模板图像中对应的一个SIFT特征点构成，特征点列表L1的每一行具体是训练图像中SIFT特征点的坐标(x_{train_img}，y_{train_img})与尺度s_{train_img}和模板图像中SIFT特征点的坐标(x_template，y_template)与尺度s_template。

所述步骤4)是先将彩色图像RGB三通道输入到VGG-16神经网络模型或ResNet-50神经网络模型进行训练，然后再将将彩色图像RGB三通道与注意力图的单通道叠加变成四通道训练后的VGG-16神经网络模型或ResNet-50神经网络模型再次训练。

所述步骤4)融合了彩色图像与注意力图用来训练分类网络模型，具体为：

4.1)首先，将训练图像的RGB三通道和训练图像自身带有分类标签组成第一训练数据，将第一训练数据输入到ImageNet数据集上已预训练好的VGG-16神经网络模型或ResNet-50神经网络模型中进行微调(Fine-tune)针对商品数据集的网络模型参数；

微调(Fine-tune)微调是一种使现有模型适应新的数据集或者模型的一种标准的深度学习方法，它使用一个已有网络训练好的参数初始化新的网络，之后使用低的学习速率进行训练。

4.2)然后将训练图像的RGB三通道与其注意力图叠加形成四通道，四通道和训练图像自身带有分类标签组成第二训练数据，将第二训练数据输入到步骤4.1)处理后获得已微调网络模型参数的VGG-16神经网络模型或ResNet-50神经网络模型中进行训练，其中VGG-16神经网络模型或ResNet-50神经网络模型中的第一层卷积层的参数随机初始化，除了第一层卷积层以外其余层的参数采用步骤4.1)处理后获得的网络模型参数；

由于输入图片的通道数不一样，第一层卷积层的参数数量也不一样，所以对第一层卷积层的参数随机初始化。

训练过程分两阶段进行：第一阶段，只训练第一层卷积层的网络模型参数，除了第一层卷积层以外其余层的网络模型参数不训练，使用学习率(Learning Rate)为1e-3训练5～6个轮次(Epoch)；第二阶段，对模型所有层的所有网络模型参数进行训练，使用学习率(Learning Rate)至1e-5训练一个轮次(Epoch)。

本发明的有益效果是：

本发明方法可以通过手机或摄像头对超商货架拍照，从照片中定位商品、对商品进行分类，克服了超商理货员对商品人工计数耗时长、人力消耗大的困难，可用于后续对货架商品信息自动化智能管理等应用。

本发明方法通过绘制能够放大商品图案细微特征对分类模型影响力、抑制图案非显著性特征的注意力图，并融合商品彩色图像与注意力图设计卷积神经元网络结构，提高商品图像分类的准确率。

附图说明

图1为实施例输入的6种商品的模板图像示例。

图2为实施例进行训练图像扩充时的裁剪效果示意图。

图3为实施例进行训练图像扩充时的调整亮度效果示意图。

图4为实施例进行训练图像扩充时的旋转效果示意图。

图5为实施例进行训练图像扩充时的透视变换效果示意图。

图6为实施例进行训练图像扩充时的增加模糊效果示意图。

图7为实施例的训练图像与模板图像进行匹配的结果示意图。

图8为实施例的训练图像根据与模板图像的匹配关系绘制出的注意力图。

图9为实施例融合了注意力图的网络模型训练过程。

图10为实施例待分类商品图像及其注意力图。

具体实施方式

下面结合附图和实施例对本发明方法作进一步说明。

按照本发明发明内容处描述的方法实施的实施例如下：

1)本实施例对于六种食品作为六类商品，收集各自清晰、完整的正面照片一张作为模板图像。图1所示为6种商品的模板图像示例，分别为大米1、巧克力1、大米2、巧克力2、牛轧糖、咖啡的六类。

2)对步骤1)中每一类的单张模板图像进行扩充，得到每类数千张训练图像，用于训练深度学习的卷积神经元网络。

依次对训练图像做裁剪、调整亮度、二维旋转、透视变换、增加模糊后，每类的训练图像扩充到6120张。以图1左上角的大米1类别商品为例。

第一步裁剪，如图2所示为裁剪效果的四种示例。

第二步调整亮度，图3所示为调整亮度的五种效果示例。

第三步旋转操作，图4所示为旋转的五种效果示例。

第四步透视变换，图5所示为透视变换的五种效果示例。

第五步模糊增设，图6所示为增加模糊效果示例。

3)对步骤2)中的每张训练图像与生成它的原始模板图像利用BF(Brute Force)匹配并用RANSAC方法消除错配点后，得到匹配上的特征点列表L1。如图7所示，上行的三张图像为某张训练图像，下行的三张图像为对应的模板图像，左边是原图，中间画出了图像中的所有SIFT特征点，右边画出了使用BF匹配与RANSAC消除错配点后的所有匹配上的特征点。

根据匹配关系绘制出的注意力图如图8所示，为了能够看清，将注意力图的灰度值进行了缩放，使得整幅图像灰度最大值为255。实际注意力图的每个像素点的灰度值远小于255。

4)将步骤2)中训练图像的RGB三个通道与步骤3)中生成的注意力图叠加形成四通道的训练数据，训练用于图像分类的卷积神经元网络模型。

训练过程如图9所示：

4.1)首先，将训练图像的RGB三通道和训练图像自身带有分类标签组成第一训练数据，将第一训练数据输入到ImageNet数据集上已预训练好的VGG-16神经网络模型或ResNet-50神经网络模型中进行微调(Fine-tune)网络模型参数；

训练过程分两阶段进行：

第一阶段，只训练第一层卷积层的网络模型参数，除了第一层卷积层以外其余层的网络模型参数不训练，使用学习率(Learning Rate)为1e-3训练5～6个轮次(Epoch)；

第二阶段，对模型所有层的所有网络模型参数进行训练，使用学习率(LearningRate)至1e-5训练一个轮次(Epoch)。

5)输入根据模板匹配方法在超市货架图像上裁剪出来的待分类商品图像，生成其注意力图，图10所示为某张待分类商品图像及其注意力图。

再将注意图与商品图像的RGB三通道叠加成四通道，将四通道数据输入步骤4)训练得到的图像分类模型，得到商品图像的预测分类与对应分数，例如图10的商品图像及其注意力图在图1列举的6类商品上的预测分数分别为：

模板图像

大米1

巧克力1

大米2

巧克力2

牛轧糖

咖啡

预测概率

1.1×10-11

0.99998

2.5×10-11

8.9×10-8

2.3×10-10

2.7×10-11

巧克力1的预测分数最高，因此图10的商品图像最后的预测分类为“巧克力1”

本发明针对36609张图像进行了重复实施，检测准确率达到了92.19％。

由此实施例可见，本发明利用能够放大商品图案细微特征对分类模型影响力、抑制图案非显著性特征的注意力图参与训练，提升了商品图像分类的正确率。

Claims

1.一种融合注意力图的商品分类方法，其特征在于包含以下步骤：

1)对每一类别的商品，收集一张清晰、完整的正面照片作为模板图像；

2)对步骤1)中每类商品的单张模板图像进行扩充，得到每类商品的训练图像；

4)将步骤2)中训练图像的RGB三通道与步骤3)中生成的注意力图叠加形成四通道，四通道和训练图像自身带有分类标签组成训练数据，训练获得图像分类模型，所述训练获得图像分类模型是先将彩色图像RGB三通道输入到VGG-16神经网络模型或ResNet-50神经网络模型进行训练，然后再将彩色图像RGB三通道与注意力图的单通道叠加变成四通道训练后的VGG-16神经网络模型或ResNet-50神经网络模型再次训练；

5)针对待分类商品图像按照步骤2)和3)相同方式处理获得注意力图，将注意力图与待分类商品图像自身的RGB三通道叠加成四通道，将四通道数据输入步骤4)训练得到的图像分类模型，得到待分类商品图像的预测分类与对应分数。

2.根据权利要求1所述的一种融合注意力图的商品分类方法，其特征在于：所述步骤2)具体是通过单张模板图像进行裁剪、亮度调整、旋转操作、透视变换方式进行扩充，得到多张训练图像。

3.根据权利要求1或2所述的一种融合注意力图的商品分类方法，其特征在于：所述步骤2)具体为：

2.2)将步骤2.1)获得的每一张图像从RGB转换到HSV空间再调整V通道，对V通道分别乘以比例0.6、0.75、0.9、1.05、1.2后再转换回RGB空间生成新图像，使得图像数目继续扩充到步骤2.1)的5倍；

2.4)对步骤2.2)调整亮度后的每一张图像做透视变换：将图像分别围绕第一轴和第二轴分别转动-30、-15、0、15、30度，第一轴沿过图像平面中心的图像横向方向，第二轴沿过图像平面中心的图像纵向方向，使得图像数目扩充到步骤2.2)的5×5＝25倍；

2.5)将步骤2.3)和2.4)生成的图像合并；

2.6)对步骤2.5)获得的所有各张图像分别添加高斯模糊和运动模糊，获得训练图像。

4.根据权利要求1所述的一种融合注意力图的商品分类方法，其特征在于：所述步骤3)具体为：

3.1)提取每张训练图像和其对应的原始模板图像的SIFT特征点，利用BF匹配并用RANSAC方法消除错配点后，得到匹配上的特征点列表L1，特征点列表L1中的不同行记录不同的特征点对，每一行记录特征点对的坐标和尺度；

R＝(s_{template_max}+s_{template_min}-s_template)/2

其中，s_{template_max}表示训练图像对应的模板图像的所有SIFT特征点的尺度最大值，s_{template_nin}表示模板图像的所有SIFT特征点的尺度最小值，s_template表示当前遍历到的特征点对中位于模板图像中的特征点的尺度值；

5.根据权利要求4所述的一种融合注意力图的商品分类方法，其特征在于：所述的特征点对由训练图像中一个SIFT特征点与其在模板图像中对应的一个SIFT特征点构成，特征点列表L1的每一行具体是训练图像中SIFT特征点的坐标(x_{train_img}，y_{train_img})与尺度s_{train_img}和模板图像中SIFT特征点的坐标(x_template，y_template)与尺度s_template。

6.根据权利要求1所述的一种融合注意力图的商品分类方法，其特征在于：所述步骤4)具体为：

4.1)首先，将训练图像的RGB三通道和训练图像自身带有分类标签组成第一训练数据，将第一训练数据输入到ImageNet数据集上已预训练好的VGG-16神经网络模型或ResNet-50神经网络模型中进行微调网络模型参数；

训练过程分两阶段进行：

第一阶段，只训练第一层卷积层的网络模型参数，除了第一层卷积层以外其余层的网络模型参数不训练，使用学习率为1e-3训练5～6个轮次；

第二阶段，对模型所有层的所有网络模型参数进行训练，使用学习率至1e-5训练一个轮次。