CN116071636B

CN116071636B - 商品图像检索方法

Info

Publication number: CN116071636B
Application number: CN202310328191.3A
Authority: CN
Inventors: 吴晓富; 行阳阳; 张索非; 李春香; 杨孟渭
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-07
Anticipated expiration: 2043-03-30
Also published as: CN116071636A

Abstract

本发明提供了一种商品图像检索方法，包括建立商品样本图像识别模型，根据带有多语义尺度标签信息的商品样本图像，训练深度卷积神经网络；将经过标注的商品样本图像经过数据增强操作后，输入深度卷积神经网络的卷积层进行特征提取；指定深度卷积神经网络作为主干网络，复制深度卷积神经网络并形成两个分支网络；将特征向量经过Softmax层输出得到商品类别采样概率，并计算损失函数值；循环步骤直到达到深度卷积神经网络训练所预先设置的条件。相较于现有技术，本发明能够提高商品识检索系统的性能。

Description

商品图像检索方法

技术领域

本发明涉及一种商品图像检索方法，属于商品样本图像检索技术领域。

背景技术

商品检索是一种典型的大规模度量学习任务，因为商品零售平台需要定期导入新的商品类型，现有商品的外观也会不时发生变化。

传统的图像分类模型在这些场景中由于没有识别未知类别的能力导致性能不理想。

有鉴于此，确有必要提出一种商品图像检索方法，以解决上述问题。

发明内容

本发明的目的在于提供一种商品图像检索方法，能够提高商品识检索系统的性能。

为实现上述目的，本发明提供了一种商品图像检索方法，主要包括以下步骤：

步骤S1、建立商品样本图像识别模型，根据带有多语义尺度标签信息的商品样本图像，训练深度卷积神经网络；

步骤S2、将经过标注的商品样本图像经过数据增强操作后，输入深度卷积神经网络的卷积层进行特征提取，获取商品样本图像在细粒度级别的深层特征；

步骤S3、指定深度卷积神经网络作为主干网络，复制深度卷积神经网络并形成两个分支网络，设置协同注意力模块连接两个分支网络并形成第三分支，协同注意力模块的输出经过全局池化操作之后作为商品样本图像识别模型最终输出的特征向量；

步骤S4、将特征向量经过Softmax层输出得到商品类别采样概率，并计算损失函数值，以损失函数最小化为优化目标通过梯度反向传播算法更新模型的参数值；

步骤S5、循环步骤S2-S4直到达到深度卷积神经网络训练所预先设置的条件。

作为本发明的进一步改进，步骤S1中，所述深度卷积神经网络包括残差网络，所述残差网络由若干个卷积层或池化层组成的子网络模块构成，包括Stage-0，Stage-1，…，Stage-4。

作为本发明的进一步改进，步骤S2中，所述数据增强操作包括图像随机擦除、图像随机旋转和图像随机裁剪。

作为本发明的进一步改进，步骤S3中，所述深度卷积神经网络的残差网络被分拆成双分支残差网络，具体分拆过程包括如下步骤：

步骤S31、复制残差网络的主干网络的Stage-4形成双分支网络；

步骤S32、将步骤S31的双分支网络的每一分支分别连接一个全局池化层和一个全连接层；

步骤S33、在步骤S31的双分支网络后并行连接一个协同注意力模块、全局池化层、全连接层形成第三分支，所述第三分支用于输出图像检索所需的特征向量。

作为本发明的进一步改进，所述协同注意力模块包含空间注意力模块和一个通道注意力模块，将提取粗粒度级别的特征

和提取的细粒度特征/>

输入所述协同注意力模块进行特征融合，先经过空间注意力模块得到一个中间特征Z′，然后再经过通道注意力模块得到最终用于商品图像检索的特征Z，通道注意力模块的具体计算方式为

Z′＝attention_p(X_c,X_g)＝Vσ(A_p)＝Vσ(Q^TK)，

其中，σ(·)表示Softmax函数,查询

和键/>

是特征X_g分别经过两个核大小为1×1的二维卷积层输出的特征，r为控制空间维数的超参数，值

是由特征X_c的前两个维度直接合并得到，A_p＝Q^TK为位置权重矩阵。

作为本发明的进一步改进，根据空间注意力模块产生的中间特征Z'和X_g作为通道注意力模块的输入，具体计算方式为

其中，

为空间权重矩阵，将Z作为协同注意力模块的最终输出并经过全局池化操作之后作为模型最终输出的特征向量。

作为本发明的进一步改进，步骤S31中，复制残差网络的主干网络Stage-4得到双分支的Stage-4a和Stage-4b，Stage-4a和Stage-4b的初始化权重参数设置为ImageNet预训练模型中Stage-4的权重参数。

作为本发明的进一步改进，步骤S4中，所述损失函数包括三部分，其中，第一部分和第二部分为第一分支Stage-4a和第二分支Stage-4b后连接的全连接层输出的类别信息与商品样本图像的标签信息所得到，第三部分为所述第三分支的协同注意力模块输出的特征经过池化和全连接分类器之后和图像的标签信息所得到。

作为本发明的进一步改进，步骤S4中，所述损失函数为

其中，i为商品样本图像的索引值，f_i ^c、f_i ^g分别为商品样本图像经过特征提取网络在Stage4-a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量，f_i ^x为所述第三分支的协同注意力模块输出特征进行全局池化操作之后得到的特征向量，L_ce(.)为交叉熵损失函数，σ(·)为Softmax函数，k_c、k_g和k_x分别为三部分损失函数的权重参数，W^g、W^c和W^x分别为对应特征后接全连接层的权重参数，

和/>

分别是第i个样本的粗粒度和细粒度类别标签。

作为本发明的进一步改进，所述商品图像检索方法还包括测试步骤，主要包括以下步骤：

步骤A1、获取查询图像和所有待查询图像；

步骤A2、将查询图像和所有待查询图像经过预先训练的特征提取网络得到查询图像和所有待查询图像的特征向量；

步骤A3、将查询图像经过模型的特征向量与所有待查询图像经过模型的输出特征向量进行相似度的计算；

步骤A4、根据步骤A3得到的相似度对所有待查询图像进行排序，最后得到若干待查询图像。

本发明的有益效果是：本发明能够提高商品识检索系统的性能。

附图说明

图1为本发明商品图像检索方法的训练实施流程图。

图2为本发明商品图像检索方法的测试实施流程图。

图3为本发明商品图像检索方法的卷积神经网络的模型结构示意图。

图4为本发明商品图像检索方法中协同注意力模型的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

另外，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如图1至图4所示，本发明揭示了一种商品图像检索方法，主要包括以下步骤：

步骤S3、指定深度卷积神经网络作为主干网络，复制深度卷积神经网络并形成两个分支网络，加载公开数据集分类任务预训练网络模型作为网络的初始参数，设置协同注意力模块连接两个分支网络并形成第三分支，协同注意力模块的输出经过全局池化操作之后作为商品样本图像识别模型最终输出的特征向量；

以下将对步骤S1-S5进行详细说明。

步骤S1中，所述深度卷积神经网络包括残差网络，所述残差网络由若干个卷积层或池化层组成的子网络模块(称为Stage)构成，分别是Stage-0，Stage-1，…，Stage-4，除Stage-0之外的每个Stage都包括若干由卷积层、池化层构成的瓶颈结构。

步骤S2中，所述数据增强操作包括图像随机擦除、图像随机旋转和图像随机裁剪。

步骤S3所述的深度卷积神经网络残差网络被分拆成双分支残差网络，具体分拆包括如下步骤：

步骤S31、复制残差网络的主干网络的Stage-4形成双分支网络。

步骤S32、从步骤S1得到的双分支网络的每一分支分别连接一个全局池化层和一个全连接层。

步骤S33、在步骤S1得到的双分支网络后并行连接一个协同注意力模块、全局池化层、全连接层形成第三分支，该第三分支用于输出图像检索所需的特征向量。

步骤S3中，复制残差网络的主干网络Stage-4得到双分支的Stage-4a和Stage-4b，其初始化权重参数设置为ImageNet预训练模型中Stage-4的权重参数。

步骤S3所述的特征提取模型其主干网在训练之前载入ImageNet数据集分类任务预训练模型。

步骤S4所述计算的损失函数的包括三部分。前两部分为第一分支Stage-4a和第二分支Stage-4b后连接的全连接层输出的类别信息与商品样本图像的标签信息所得到，第三部分为第三分支协同注意力模块输出的特征经过池化和全连接分类器之后和图像的标签信息所得到。

步骤S4、整个网络总的损失函数由三部分组成，计算公式分别为:

其中，i为商品样本图像的索引值，f_i ^c、f_i ^g分别为商品样本图像经过特征提取网络在Stage4-a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量，f_i ^x为第三分支协同注意力模块输出特征进行全局池化操作之后得到的特征向量，L_ce(·)为交叉熵损失函数，σ(·)为Softmax函数，k_c、k_g和k_x分别为三部分损失函数的权重参数，W^g、W^c和W^x分别为对应特征后全连接层的权重参数，

和/>

分别是第i个样本的粗粒度和细粒度类别标签。

该方法的模型训练测试包括：获取需要查询的商品样本图像，并输入所述训练完成的商品样本图像识别模型，然后该模型输出查询图像的特征向量与所有待查询图像经过网络得到的特征向量计算特征之间的余弦距离然后根据特征距离大小进行排序并返回和查询商品相似度最高的若干商品样本图像。

下面结合附图，对本发明的一些实施方式作详细说明。

参阅图1，图1所示为本发明方法训练实施流程图，其包括构建模型和实施训练两部分。

构建模型在本实施例中操作如下：主干网采用图3所示的深度神经网络残差网络50，残差网络50作为经典的深度神经网络以其优良的性能已广泛运用于各种特征提取的场景中，残差网络50由5个Stage组成，分别是Stage-0，Stage-1，…,Stage-4,除Stage-0之外的每个Stage都包括若干由卷积层、池化层构成的瓶颈结构。整个残差网络50共包含16个由残差块构成的瓶颈结构组成。复制残差网络的主干网络50的Stage-4形成双分支网络。网络的其中一个分支中获得粗粒度的轮廓特征可用于粗粒度级别的商品样本图像分类，将提取粗粒度级别的轮廓特征

和网络另外一个分支提取的细粒度特征/>

输入协同注意力模块进行特征融合得到最终用于商品样本图像检索的特征Z。

如图4所示，协同注意力模块包含空间注意力模块一个通道注意力模块，由X_g和X_c经过协同注意力模块得到

的具体过程如下：

首先将X_c和X_g经过空间注意力模块，得到一个中间特征

具体计算方式为

Z′＝attention _p(X_c,X_g)＝Vσ(A_p)＝Vσ(Q^TK)

其中σ(·)表示softmax函数，查询

和键/>

是特征X_g分别经过两个核大小为1×1的二维卷积层输出的特征，超参数r设置为8，值/>

是由特征X_c的前两个维度直接合并得到，A_p＝Q^TK为位置权重矩阵。然后根据空间注意力模块产生的中间特征Z'和X_g作为通道注意力模块的输入，具体计算方式为：

其中，

为空间权重矩阵，Z为协同注意力模块的最终输出并经过全局池化操作之后作为模型最终输出的特征向量。

实施训练在实例中包括：根据带有多语义尺度标签信息的商品样本图像，训练深度卷积神经网络，得到一个对商品类别有较好区分能力的图像识别模型。将经过标注的所述商品样本图像先经过一定的数据增强操作，包括图像随机擦除、图像随机旋转和图像随机裁剪。然后以每批次给定数量及类别的样本作为一批次输入所述的深度卷积神经网络的卷积层进行特征提取，获取商品样本图像的深层特征；根据所述商品样本图像识别模型提取到的特征向量再经过Softmax层输出得到商品类别采样概率并计算交叉熵损失函数值，以损失函数最小化为优化目标采用Adam优化器通过梯度反向传播算法更新模型的参数值。具体地，学习率初始设定为0.00035，批次大小为256，动量为0.9，衰减因子为0.1，迭代次数设为50轮，循环进行所述的计算损失函数和梯度反向传播直到达到神经网络训练所预先设置的条件，停止网络训练。训练好的神经网络模型即可用于图像检索；

整个网络总的损失函数由三部分组成，计算公式分别为:

其中，i为商品样本图像的索引值。f_i ^c、f_i ^g分别为商品样本图像经过特征提取网络在Stage-4a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量。f_i ^x为协同注意力模块输出特征进行全局池化操作之后得到的特征向量。L_ce(·)为交叉熵损失函数，σ(·)为Softmax函数。k_c、k_g和k_x分别为三部分损失函数的权重参数，W^g、W^c和W^x分别为对应特征后全连接层的权重参数，y_i ^g和y_i ^c分别是第i个样本的粗粒度和细粒度类别标签。

参阅图2，图2所示为本发明方法测试实施流程图，其包括以下步骤：

步骤A1、获取查询图像和所有待查询图像；

步骤A4、根据步骤A3得到的相似度对所有待查询图像进行排序，最后得到模型匹配度最高的若干待查询图像。

最后在目前已经公布的大规模商品数据集验证了本发明方法的有效性。

综上所述，本发明通过复制残差网络中的Stage-4使得网络具有对不同粒度级别特征的区分能力，减小不同粒度级别在同一特征空间中的相互干扰。本发明通过使用商品样本图像的多个粒度级别下的标签进行训练，使得网络充分挖掘商品样本图像标签之间的层级关系，并最终有益于细粒度级别的商品检索。本发明引入了第三分支协同注意力模块，对Stage-4a和Stage-4b输出的特征进行特征融合。使得网络提升了对图像重要特征挖掘的能力，从而提高网络模型的检索精度。与传统的度量学习相比，本发明使用商品样本图像多语义尺度的标签信息训练网络显著提高了商品识检索系统的性能。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种商品图像检索方法，其特征在于，主要包括以下步骤：

步骤S1、建立商品样本图像识别模型，根据带有多语义尺度标签信息的商品样本图像，训练深度卷积神经网络；步骤S1中，所述深度卷积神经网络包括残差网络，所述残差网络由若干个卷积层或池化层组成的子网络模块构成，包括Stage-0，Stage-1，…，Stage-4；

步骤S3、指定深度卷积神经网络作为主干网络，复制深度卷积神经网络并形成两个分支网络，设置协同注意力模块连接两个分支网络并形成第三分支，协同注意力模块的输出经过全局池化操作之后作为商品样本图像识别模型最终输出的特征向量；步骤S3中，所述深度卷积神经网络的残差网络被分拆成双分支残差网络，具体分拆过程包括如下步骤：

步骤S31、复制残差网络的主干网络的Stage-4形成双分支网络；

步骤S33、在步骤S31的双分支网络后并行连接一个协同注意力模块、全局池化层、全连接层形成第三分支，所述第三分支用于输出图像检索所需的特征向量；

所述协同注意力模块包含空间注意力模块和一个通道注意力模块，将提取粗粒度级别特征和提取的细粒度特征输入所述协同注意力模块进行特征融合，先经过空间注意力模块得到一个中间特征，然后经过通道注意力模块得到最终用于商品图像检索的特征；

步骤S4、将特征向量经过Softmax层输出得到商品类别采样概率，并计算损失函数值，以损失函数最小化为优化目标通过梯度反向传播算法更新模型的参数值；步骤S4中，所述损失函数包括三部分，其中，第一部分和第二部分为第一分支Stage-4a和第二分支Stage-4b后连接的全连接层输出的类别信息与商品样本图像的标签信息所得到，第三部分为所述第三分支的协同注意力模块输出的特征经过池化和全连接分类器之后和图像的标签信息所得到；

2.根据权利要求1所述的商品图像检索方法，其特征在于：步骤S2中，所述数据增强操作包括图像随机擦除、图像随机旋转和图像随机裁剪。

3.根据权利要求1所述的商品图像检索方法，其特征在于：所述粗粒度级别特征为

细粒度特征为/>

所述中间特征为Z′，最终用于商品图像检索的特征为Z，经过空间注意力模块的具体计算方式为

Z′＝attention_p(X_c，X_g)＝Vσ(Q^TK)＝Vσ(A_p)，

其中，σ(·)表示Softmax函数，查询

和键/>

4.根据权利要求3所述的商品图像检索方法，其特征在于：根据空间注意力模块产生的中间特征Z'和特征X_g后两维合并得到的特征作为通道注意力模块的输入，具体计算方式为

其中，

5.根据权利要求1所述的商品图像检索方法，其特征在于：步骤S31中，复制残差网络的主干网络Stage-4得到双分支的Stage-4a和Stage-4b，Stage-4a和Stage-4b的初始化权重参数设置为ImageNet预训练模型中Stage-4的权重参数。

6.根据权利要求1所述的商品图像检索方法，其特征在于：步骤S4中，所述损失函数为

其中，i为商品样本图像的索引值，f_i ^c、f_i ^g分别为商品样本图像经过特征提取网络在Stage4-a和Stage-4b的输出特征进行全局池化操作之后得到的特征向量，f_i ^x为所述第三分支的协同注意力模块输出特征进行全局池化操作之后得到的特征向量，L_ce(·)为交叉熵损失函数，σ(·)为Softmax函数，

和/>

分别是第i个样本的粗粒度和细粒度类别标签，W^g、W^c和W^x分别为对应特征后接全连接层的权重参数，k_c、k_g和k_x分别为三部分损失函数的权重参数。

7.根据权利要求1所述的商品图像检索方法，其特征在于，所述商品图像检索方法还包括测试步骤，主要包括以下步骤：

步骤A1、获取查询图像和所有待查询图像；