CN113780335B

CN113780335B - 一种小样本商品图像分类方法、装置、设备及存储介质

Info

Publication number: CN113780335B
Application number: CN202110844978.6A
Authority: CN
Inventors: 梁军; 余嘉琳; 王霖竟; 余松森
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-09-29
Anticipated expiration: 2041-07-26
Also published as: CN113780335A

Abstract

本发明涉及一种小样本商品图像分类方法、装置、设备及存储介质。该方法包括如下步骤：获取目标商品图像；将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，其中，所述商品分类模型包括嵌入模块和度量模块，所述嵌入模块包括相互连接的第一卷积层和第一ECA层，所述度量模块包括相互连接的第二卷积层和全连接层；根据最大的所述相似度，得到该目标商品的类别。该方法的嵌入模块融入了ECA模块，能够提取更加精确的特征图，从而使得后面度量模块分类更加有效。同时使得融入了ECA模块的度量模块能够在比较特征相似度的同时利用不同类别图像特征之间的关系，从而提高分类的准确率。

Description

一种小样本商品图像分类方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种小样本商品图像分类方法、装置、设备及存储介质。

背景技术

随着大数据时代的到，深度学习模型已经在图像分类、文本分类等任务中取得了先进成果。但深度学习模型的成功，很大程度上依赖于大量训练数据。而在现实世界的真实场景中，某些类别只有少量数据或少量标注数据，而对无标签数据进行标注将会消耗大量的时间和人力。

正如零售业中，在零售商品图片分类问题上，由于商品类别多，特征相似，带标签的样本少，导致传统的深度学习模型受到局限。目前有很多解决小样本分类任务的方法，但是仍然存在识别准确率低的问题。问题的根本原因是在小样本学习中，神经网络只能接收少量有标签的数据，导致神经网络不能获取足够的用来识别的信息。

目前现有的少样本学习主要有以下两个方面：

(1)数据增强：在深度学习模型训练中，数据增强可以对数据集中的样本数量与类别进行扩充。小样本的问题在于样本数量过少，导致了样本多样性变低，训练的时候容易过拟合。而数据增强技术通过扩充数据来增加样本的数量集从而缓解了过拟合。

(2)元学习：基于元学习的小样本学习主要是利用元学习的思想，学习如何学习，来帮助小样本学习。元学习方法通过预先在大量的样本上对网络模型参数初始化，然后再通过迁移学习在新的任务上对参数进行微调。

上述算法虽然能够有效实现最小样本图像分类，但也存在着各自的不足之处，主要有：

(1)通过数据增强的方法，生成的样本或特征极其相似，并没有很大地提升分类效果，新的类别分布通常非常复杂，很难进行模拟，特别是在样本量很少的情况下，没有效得解决过拟合问题。

(2)基于元学习的方法可以根据任务调整基学习器。虽然基学习器可以自适应得变化，但是元学习同样会面临任务偏差和过拟合的问题。而且元学习的方法中，多采用复杂的记忆结构等，优化和训练都是比较困难的。

发明内容

基于此，本发明提供了一种小样本商品图像分类方法，该方法能够更精确的提取图像特征，并更精确地提高图像分类的准确率。

第一方面，本申请实施例提供了一种小样本商品图像分类方法，所述方法包括如下步骤：

获取目标商品图像；

将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，其中，所述商品分类模型包括嵌入模块和度量模块，所述嵌入模块包括相互连接的第一卷积层和第一ECA层，所述度量模块包括相互连接的第二卷积层和全连接层。

根据最大的所述相似度，得到该目标商品的类别。

进一步地，所述度量模块还包括第二ECA层，所述第二ECA层设置于所述第二卷积层和所述全连接层之间。

进一步地，将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，包括：

将所述目标商品图像与支持集图像输入至所述第一卷积层，得到所述目标商品图像与所述支持集图像的第一特征图；

将所述目标商品图像与所述支持集图像的特征图输入至所述第一ECA层，得到进一步提取特征后的所述目标商品图像与所述支持集图像的第二特征图；

对所述目标商品图像的第二特征图与每个所述支持集图像的第二特征图进行拼接，得到第三特征图；

将所述第三特征图输入至所述第二卷积层，提取第三特征图的特征；

将所述第二卷积层的输出结果输入至所述第二ECA层，进行进一步的特征提取；

将所述第二ECA层的输出结果输入至所述全连接层，得到该商品图像与所述支持集图像中每个图像之间的相似度。

进一步地，所述商品分类模型的训练过程包括：

获取查询集图像和训练集图像；

将所述查询集图像与所述训练集图像输入至所述第一卷积层，提取所述查询集图像与所述训练集图像的特征；

将第一卷积层的输出结果输入至第一ECA层，进一步提取所述查询集图像与所述训练集图像的特征；

将提取到的查询集图像和训练集图像的特征进行拼接，得到拼接图像；

将所述拼接图像输入至所述第二卷积层，提取所述拼接图像的特征；

将所述第二卷积层的输出结果输入至第二ECA层，进行进一步的特征提取；

将所述第二ECA层的输出结果输入至所述全连接层，得到该查询集图像与所述训练集图像中每个图像之间的相似度。

进一步地，所述商品分类模型的训练过程还包括：

提高训练过程精度的损失函数：

其中，为支持集和查询集图像的集合，φ为拼接图像的集合，m为查询集的个数，n为支持集的个数，r_i,j表示支持集和查询集图片的相似度，yi与yj代表支持集与查询集图片的真实标签。

第二方面，本申请实施例提供了一种装置，包括：

图像获取模块，用于获取目标商品图像、查询集图像和支持集图像；

相似度判断模块，用于将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，其中，所述商品分类模型包括嵌入模块和度量模块，所述嵌入模块包括相互连接的第一卷积层和第一ECA层，所述度量模块包括相互连接的第二卷积层和全连接层；

商品类别获取模块，用于根据最大的所述相似度，得到该目标商品的类别。

进一步地，本申请实施例提供的一种装置中，度量模块还包括：

第二ECA层，所述第二ECA层设置于所述第二卷积层和所述全连接层之间；

进一步地，本申请实施例提供的一种装置中，相似度判断模块包括：

第一输入单元，用于将所述目标商品图像与所述支持集图像输入至所述第一卷积层，得到所述目标商品图像与所述支持集图像的第一特征图；

第二输入单元，用于将所述第一特征图输入至所述第一ECA层，得到进一步提取特征后的所述第一特征图的第二特征图；

第一拼接单元，用于对所述目标商品图像的第二特征图与每个所述支持集图像的第二特征图进行拼接，得到第三特征图；

第三输入单元，用于将所述第三特征图输入至所述第二卷积层，提取第三特征图的特征；

第四输入单元，用于将所述第二卷积层的输出结果输入至所述第二ECA层，进行进一步的特征提取；

第五输入单元，用于将所述第二ECA层的输出结果输入至所述全连接层，得到该商品图像与所述支持集图像中每个图像之间的相似度。

第三方面，本申请实施例提供了一种设备，包括：

处理器及存储器，所述存储器存储有可被处理器调用的程序；

其中，所述处理器执行所述程序时，实现如第一方面所述的小样品图像分类方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：

所述计算机程序被处理器执行时实现如第一方面所述的小样品图像分类方法的步骤。

在本申请实施例中，为了使特征相似，带标签的样本少以及种类多的商品的分类更加准确，提出了一种融合了通道注意力机制的关系网络模型，该模型不仅克服了性能和网络复杂性之间的矛盾，并且含有少量的参数对各种深度CNN架构带来明显的性能增益。

该模型通过分别在嵌入模块和度量模块加入了了通道注意力机制ECA模块，ECA模块能够避免维度缩减，并有效捕获了跨通道交互，建模了各个特征之间的重要性，对于不同的任务可以根据输入进行特征分配，简单而有效。通过注意力机制，我们能够指导神经网络关注更有用的信息，提取更有效准确的特征。从而能够充分利用提取的特征对目标图像进行分类。使得融入了ECA模块的嵌入模块能够提取更加精确的特征图，从而使得后面度量模块分类更加有效。同时使得融入了人ECA模块的度量模块能够在比较特征相似度的同时利用不同类别图像特征之间的关系，从而提高分类的准确率。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图说明

图1为本发明提供的一种小样品图像分类方法的流程图；

图2为本发明实施例中ECA模块的工作原理图；

图3为本发明实施例中ECA模块与其他注意力模块的比较；

图4为本发明实施例中的商品分类模型示意图；

图5嵌入模块中第一卷积层的结构示意图；

图6为度量模块中第二卷积层和全连接层的结构示意图；

图7为本发明提供的一种小样本商品图像分类装置的模块示意图；

图8为本发明实施例中的相似度判断模块的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的人体，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联人体的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联人体是一种“或”的关系。

针对背景技术中的技术问题，本申请实施例提供一种小样本图像分类方法，如图1所示，该方法包括以下步骤：

在步骤S101中，获取目标商品图像；

在步骤S102中，将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，其中，商品分类模型包括所述商品分类模型包括嵌入模块和度量模块，嵌入模块包括相互连接的第一卷积层和第一ECA层，度量模块包括依次相互连接的第二卷积层和全连接层；

在步骤S103中，根据最大的所述相似度，得到该目标商品的类别。

目标商品图像是指记载有待识别目标商品的图像文件。

具体的，商品分类模型是指能够通过少量带标注的支持集图像以及给定的目标商品图像，提取上述支持集图像与目标商品图像的特征并通过度量上述提取的特征之间的距离进行识别与分类；目标商品图像与所述支持集图像中每个图像之间的相似度即为商品图像的特征与支持集图像特征的距离远近，距离远则相似度低，距离近则相似度高。

优选的，所述度量模块还包括第二ECA层，所述第二ECA层设置于所述第二卷积层和所述全连接层之间。

ECA模块主要对SENEet模块进行了一些改进，提出了一种不降维的局部跨信息交互策略和自适应选择一维卷积核大小的方法，从而实现了性能上的提优。ECA模块避免了维度缩减，并有效捕获了跨通道交互。如图2所示，在不降低维度的情况下进行逐通道全局平均池化之后，ECA通过考虑每个通道及其k个近邻来捕获本地跨通道交互。ECA模块可以通过大小为k的快速一维卷积有效实现，其中内核大小k代表本地跨通道交互的覆盖范围，即有多少个相近邻参与一个通道的注意力预测。ECA模块使用一种自适应确定k的方法，其中交互作用的覆盖范围(即内核大小k)与通道维成比例。

如图3所示，以ResNets作为骨干模型来进行分类精度、网络参数和FLOPs的比较，以圆来表示。我们可以发现，ECA模块与其他注意力模块的比较，ECA网络模块获得了更高的精度，同时有较少的模型复杂性。

在一个具体的实施例中，如图4-6所示，图4-6为商品分类模型的具体结构，其中，嵌入模块包括相互连接的第一卷积层和第一ECA层，度量模块包括相互连接的第二卷积层、第二ECA层和全连接层。

第一卷积层包括依次连接的卷积块1、最大池化层1、卷积块2、最大池化层2、卷积块3和卷积块4，其中，最大池化层用于下采样，缩小特征图的大小，在本实施例中，在卷积块3与卷积块4后，不加入最大池化层，是为了防止在度量模块加入最大池化层时导致特征图过小。

第二卷积层包括卷积块5和卷积块6，全连接层包括最大池化层3、ReLU激活函数层、最大池化层4和Sigmoid函数层。其中每个卷积块包括一个卷积核、一个批量归一化层、一个ReLU线性激活层，每个卷积核参数相同，采用64通道的3×3卷积核，最大池化层为2×2。

根据上述商品分类模型的具体结构，将目标商品图像与支持集图像输入至训练好的商品分类模型，具体包括以下步骤：

将目标商品图像与支持集图像输入至所述第一卷积层，得到目标商品图像与支持集图像的第一特征图；

将目标商品图像与支持集图像的特征图输入至第一ECA层，得到进一步提取特征后的目标商品图像与支持集图像的第二特征图；

对目标商品图像的第二特征图与每个支持集图像的第二特征图进行拼接，得到第三特征图；

将第三特征图输入至第二卷积层，提取第三特征图的特征；

将第二卷积层的输出结果输入至第二ECA层，进行进一步的特征提取；

在一个具体的实施例中，商品分类模型的训练过程包括以下步骤：

获取查询集图像和训练集图像；

提高训练过程的精度，提高训练过程精度的损失函数为：

如图7所示，其为本发明提供的一种小样本商品图像分类的装置200的模块示意图，包括：

图像获取模块21，用于获取目标商品图像、查询集图像和支持集图像。

相似度判断模块22，用于将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，其中，所述商品分类模型包括嵌入模块和度量模块，所述嵌入模块包括相互连接的第一卷积层和第一ECA层，所述度量模块包括相互连接的第二卷积层和全连接层。

商品类别获取模23，用于根据最大的所述相似度，得到该目标商品的类别。

如图8所示，相似度判断模块22包括：

第一输入单元221，用于将所述目标商品图像与所述支持集图像输入至所述第一卷积层，得到所述目标商品图像与所述支持集图像的第一特征图；

第二输入单元222，用于将所述第一特征图输入至所述第一ECA层，得到进一步提取特征后的所述第一特征图的第二特征图；

第一拼接单元223，用于对所述目标商品图像的第二特征图与每个所述支持集图像的第二特征图进行拼接，得到第三特征图；

第三输入单元224，用于将所述第三特征图输入至所述第二卷积层，提取第三特征图的特征；

第四输入单元225，用于将所述第二卷积层的输出结果输入至所述第二ECA层，进行进一步的特征提取；

第五输入单元226，用于将所述第二ECA层的输出结果输入至所述全连接层，得到该商品图像与所述支持集图像中每个图像之间的相似度。

在一个优选地实施例中，还包括训练模块，训练模块用于将查询集图像和支持集图像输入至图像分类模型进行训练，得到与图像分类模型对应的图像分类模型集；采用商品分类模型，对查询集图像进行分类识别。

与上述的小样本图像分类方法相对应，本申请实施例还提供一种电子设备，包括：

至少一个处理器和至少一个存储器；

存储器存储有可被处理器调用的程序；

其中，处理器执行程序时，可实现小样本图像分类方法所述的步骤。

具体的，该电子设备可以是计算机或者服务器。

与上述的小样本图像分类方法相对应，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现小样本图像分类方法所述的步骤。

在一个具体的实施例中，对本发明提供的一种小样本商品图像的分类方法模型进行评估实验可以基于mini-ImageNet数据集和RP2K数据集。

本实验都是基于PyTorch框架实现的，实验环境如下表1所示。

1、mini-ImageNet数据集

mini-ImageNet来源于ImageNet，mini-ImageNet包含100个类别，每个类别包含100个样本，每张图片大小都是84×84的，其中64个类别用来训练，16个类别用来验证，20个类别用来测试。我们在5-way 1-shot和5-way 5-shot两个任务中都进行了测试。我们对mini-ImageNet数据进行了两次实验。首先，将一个ECA模块加入到嵌入模块的四个卷积层的后面，得到模型一。然后进行第一次的实验。实验结果如表格2所示。

结果显示，对比原来的关系网络，我们的模型在5-way 1-shot和5-way 5-shot两个任务中精度分别提高了0.84％和0.46％。然后进行第二次实验，在第一次实验的基础上，我们在度量模块的两个卷积层后面也加入了ECA通道注意力模块，由此形成本申请模型。实验表明，对比关系网络。本申请模型在5-way 1-shot和5-way 5-shot两个任务中精度分别提高了1.84％和1.37％。

2、RP2K数据集

RP2K数据集是用于零售商品分类的大范围商品图像数据集。这个数据集收集了超过500000张的零售商品图像。包括2000种不同的图像类别。它是目前最大的商品图片数据集。为了验证我们的改进模型是否能在小样本零售商品图像中更有效地进行分类。在RP2K数据集中随机抽取100个类别的商品，64个作为训练集，16个作为验证集，20个作为测试集。分别进行3次抽取并划分的操作，将3次数据集输入模型，得到3次结果，取平均值作为我们的最终结果。因为RP2K图片大小不一，所以我们统一将所有的图片大小都修改成84×84。与实验(1)一样我们进行两次实验。第一次加入一个ECA模块到嵌入模块得到的结果显示。在RP2K数据集中，在嵌入模块中加入一个ECA模块，得到模型一。由表3可知，在5-way1-shot和5-way 5-shot两个任务中，模型一的精度分别提高了0.48％和0.15％。

在模型一的基础上，加入ECA模块到度量模块中，得到本申请模块。如表3的实验结果显示，与其他关系网络对比，本申请模型在5-way 1-shot和5-way 5-shot两个任务中精度分别提高了0.94％和0.31％。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种小样本商品图像分类方法，其特征在于，包括如下步骤：

获取目标商品图像；

将所述目标商品图像与支持集图像输入至训练好的商品分类模型，得到该商品图像与所述支持集图像中每个图像之间的相似度，其中，所述商品分类模型包括嵌入模块和度量模块，所述嵌入模块包括相互连接的第一卷积层和第一ECA层，所述度量模块包括相互连接的第二卷积层和全连接层；

根据最大的所述相似度，得到该目标商品的类别；

所述度量模块还包括第二ECA层，所述第二ECA层设置于所述第二卷积层和所述全连接层之间；

将所述目标商品图像与所述支持集图像输入至训练好的商品分类模型，得到所述商品图像与所述支持集图像中每个图像之间的相似度，包括：

将所述目标商品图像与所述支持集图像输入至所述第一卷积层，得到所述目标商品图像与所述支持集图像的第一特征图；

将所述第一特征图输入至所述第一ECA层，得到进一步提取特征后的所述第一特征图的第二特征图；

将所述第二ECA层的输出结果输入至所述全连接层，得到该商品图像与所述支持集图像中每个图像之间的相似度；

所述商品分类模型的训练过程包括：

获取查询集图像和训练集图像；

将所述第二ECA层的输出结果输入至所述全连接层，得到该查询集图像与所述训练集图像中每个图像之间的相似度；

所述商品分类模型的训练过程还包括：

通过损失函数来提高训练过程精度，所述损失函数为：

其中，为支持集和查询集图像的集合，φ为拼接图像的集合，m为查询集的个数，n为支持集的个数，r_i,表示支持集和查询集图片的相似度，yi与yj代表支持集与查询集图片的真实标签。

2.一种小样本商品图像分类装置，其特征在于，该装置包括：

商品类别获取模块，用于根据最大的所述相似度，得到该目标商品的类别；

所述相似度判断模块包括：

第五输入单元，用于将所述第二ECA层的输出结果输入至所述全连接层，得到该商品图像与所述支持集图像中每个图像之间的相似度；

所述商品分类模型的训练过程包括：

获取查询集图像和训练集图像；

所述商品分类模型的训练过程还包括：

通过损失函数来提高训练过程精度，所述损失函数为：

3.一种设备，其特征在于，包括：

其中，所述处理器执行所述程序时，实现如权利要求1所述的小样本商品图像分类方法。

4.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：

所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。