CN110263252B

CN110263252B - 一种基于深度学习的服装检索方法

Info

Publication number: CN110263252B
Application number: CN201910530599.2A
Authority: CN
Inventors: 全红艳; 王振
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2023-02-03
Anticipated expiration: 2039-06-19
Also published as: CN110263252A

Abstract

本发明公开了一种基于深度学习的服装检索方法，该方法利用可变形卷积网络和相似性学习网络实现服装检索功能，设置了包含可变形卷积网络和相似性学习网络的两阶段学习架构，在可变形卷积网络中，学习并提取服装特征，利用哈希编码对特征进行表达，进一步在相似性学习网络中，对哈希编码特征进行比对，获得特征的相似性比对评分结果，该方法能够有效地检索出各种形状特征的服装目标，得到视觉一致性的检索结果。

Description

一种基于深度学习的服装检索方法

技术领域

本发明涉及服装检索技术领域，具体涉及一种基于深度学习的服装检索方法，采用包含可变形卷积网络和相似性学习网络的两阶段学习架构，在可变形卷积网络中，学习并提取服装特征，利用哈希编码对特征进行表达，进一步在相似性学习网络中，对哈希编码特征进行比对，获得比对特征的相似性评分结果，该方法能够有效地检索出各种形状特征的服装目标，得到视觉一致性的检索结果。

背景技术

传统的服装检索方法包括基于文本的方式和基于内容的方式，基于文本的方式不仅费时费力，且存在较大的主观差异性，而在基于内容的方式中，服装图像的低层视觉特征很难充分描述它的高层语义信息，无法保证查询图像和检索结果之间的视觉一致性；近年来，一些基于深度学习的服装检索方法可以有效地学习服装图像的高低层特征，实现服装图像的检索；如何建立有效的深度学习模型实现服装检索是一个亟待解决的实际问题。

发明内容

本发明的目的是针对现有技术的不足，并针对服装检索中服装目标几何变形问题和视觉一致性问题，利用深度学习策略，构建卷积神经网络，提供一种有效的服装检索方法，该方法能够获得较为准确的检索结果，具有更高的实用价值。

实现本发明目的的具体技术方案是：

一种基于深度学习的服装检索方法，其特征在于，该方法输入分辨率为f×f的RGB

图像I,100≤f≤1000,具体包括以下步骤：

步骤1：构建服装数据集F

从taobao.com网站收集J个单件服装样例，10000≤J≤15000，将收集的J个单件服装样例与http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并，得到包含有M个单件服装样例的初始数据集T，80000≤M≤100000，利用T构建服装样例数据集R，R中服装种类数目为U，15≤U≤20，每个服装样例是同一件服装的采样信息，其包含三类信息：具有环境背景的一幅服装图像B、该服装无环境背景的多幅图像{E_k|2≤k≤10}以及此件服装的种类标签O_i，1≤i≤U；

进一步按照以下方法构建服装数据集F：F的每个样本的形式定义为三元组(P_i,Q_i,l_i)，1≤i≤500000，其中，P_i是从R中选取的B，将其尺度缩放为N×N，N为227、454或者908，Q_i是从R中选取的任意样例数据的无环境背景服装图像，将其尺度也缩放为N×N，l_i是P_i与Q_i相似性标签，l_i取值为0或者1，当P_i与Q_i来自于R的同一组样例时，即是相同服装的两幅图像时，l_i取1，否则取0；

步骤2：构建神经网络

神经网络构建分为服装特征学习网络F-Net及相似性学习网络S-Net；

对于F-Net，先从F中选取P_i或者Q_i作为输入，其尺度为227×227，张量形状为227×227×3，F-Net网络的输出有两个部分：一个是来自于F-Net中间层的哈希编码，即P_i的哈希编码H_P或者Q_i的哈希编码H_Q，张量形状为h×1，h为64、128或者256，另一个输出是网络最后一层输出的P_i或者Q_i的服装类别特征，张量形状为U×1；

对于S-Net，输入的是两个哈希编码H_P及H_Q，输出的是P_i与Q_i相似性的比对结果C，其张量形状为2×1，张量的两个分量分别表示P_i与Q_i之间的相似程度及不相似程度，相似程度记为评分V；

对于F-Net设置为5个卷积层和4个全连接层，对于前三层卷积得到的特征分别增加一个偏移量，偏移量的张量尺度与特征尺度相同；

5个卷积层设计为5个卷积子结构，各层卷积核的个数依次为96、256、384、384、256，前3个子结构都包括以下序列操作：卷积、批归一化、加上偏移量、激活、最大池化，后2个子结构都包括以下序列操作：卷积、激活、最大池化，4个全连接层的神经元的个数分别为4096、4096、h、U，倒数第二层全连接层的神经元个数为h，这一层得到的特征是输入图像的哈希编码结果，最后一层全连接层的神经元个数为U，这一层输出的特征是服装类别特征，F-Net中都采用ReLU激活函数进行处理；

对于S-Net设置为3层全连接结构，神经元的个数分别为G、G、2，其中G为512、1024或者2048，前两个全连接层输出的结果进一步采用ReLU函数进行激活；

步骤3：神经网络的训练

将数据集F中的样本按照7∶1∶2比例划分为训练数据集，评估数据集和测试数据集，利用训练数据集训练网络模型，利用评估数据集评估训练过程中网络的性能，利用测试数据集对网络性能进行测试；

首先对F-Net训练50000轮次，训练结束后，再对S-Net进行训练50000轮次，在训练S-Net时，每次训练过程需要输入的是P_i及Q_i的编码H_P和H_Q；

在对F-Net进行训练时，损失函数e_F定义为：

其中，a_i是F-Net在最后一个全连接层的U个神经元中得到的第i个类别特征；

在对S-Net进行训练时，损失函数e_S定义为：

其中，b_i是S-Net在最后一个全连接层的2个神经元中得到的类别特征，其形状为2×1，y_i表示P_i及Q_i的相似性，y_i形状为2×1，它的两个分量分别表示P_i与Q_i之间的相似程度及不相似程度的标签，如果相似，相似程度的分量取1，不相似程度的分量取0，而当P_i与Q_i不相似时，相似程度的分量取0，不相似程度的分量取1；

步骤4：服装检索操作

构建一个服装检索数据集S，其中服装分辨率为f×f，100≤f≤1000，将S中的每一幅服装图像都缩放为227×227，再将S中的每幅图像依次输入到F-Net，分别得到每幅图像的哈希编码，并写入磁盘文件code.txt进行保存；

从数据集S中选取I，根据I到磁盘文件code.txt中检索I的哈希编码K，K与磁盘文件code.txt中每个服装的哈希编码，分别多个哈希编码对，将这些哈希编码对依次输入到S-Net中进行预测，得到每次比对的相似性评分，再将这些评分进行降序排列，从中选取最优的检索结果。

本发明具有简单、实用的特点，本发明包含可变形卷积网络和相似性学习网络的两阶段学习架构，在可变形卷积网络中，学习并提取服装特征，利用哈希编码对特征进行表达，进一步在相似性学习网络中，对哈希编码特征进行比对，获得比对特征的相似性评分结果，该方法能够有效地检索出各种形状特征的服装目标，得到视觉一致性的检索结果。

附图说明

图1为本发明服装相似性评分及检索的结果图；

图2为本发明服装相似及不相似检索的结果图。

具体实施方式

实施例

下面结合附图对本发明进一步说明。

本实施例在PC机上Ubuntu16.0464位操作系统下进行实施，其硬件配置是CPUi5-7500，内存8G，GPUNVIDIAGeForceGTX 1070 8G；深度学习框架采用Caffe，编程语言采用Python2.7。

实现本发明目的的具体技术方案是：一种基于深度学习的服装检索方法，同时考虑服装目标的几何变形及查询图像和检索结果之间的视觉一致性的情况下，该方法输入分辨率为227×227的RGB图像I，具体包括以下步骤：

步骤1：构建服装数据集F

从taobao.com网站收集J个单件服装样例，J为11384，将收集的J个单件服装样例与http：//mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并，得到包含有M个单件服装样例的初始数据集T，M为85127，利用T构建服装样例数据集R，R中服装种类数目为U，U为19，每个服装样例是同一件服装的采样信息，其包含三类信息：具有环境背景的一幅服装图像B、该服装无环境背景的多幅图像{E_k|2≤k≤10}以及此件服装的种类标签O_i，1≤i≤U；

进一步按照以下方法构建服装数据集F：F的每个样本的形式定义为三元组(P_i，Q_i，l_i)，1≤i≤500000，其中，P_i是从R中选取的B，将其尺度缩放为N×N，N为227，Q_i是从R中选取的任意样例数据的无环境背景服装图像，将其尺度也缩放为N×N，l_i是P_i与Q_i相似性标签，l_i取值为0或者1，当P_i与Q_i来自于R的同一组样例时，即是相同服装的两幅图像时，l_i取1，否则取0；

步骤2：构建神经网络

对于F-Net，先从F中选取P_i或者Q_i作为输入，其尺度为227×227，张量形状为227×227×3，F-Net网络的输出有两个部分：一个是来自于F-Net中间层的哈希编码，即P_i的哈希编码H_P或者Q_i的哈希编码H_Q，张量形状为h×1，h为64，另一个输出是网络最后一层输出的P_i或者Q_i的服装类别特征，张量形状为U×1；

对于S-Net设置为3层全连接结构，神经元的个数分别为G、G、2，其中G为512，前两个全连接层输出的结果进一步采用ReLU函数进行激活；

步骤3：神经网络的训练

在对F-Net进行训练时，损失函数e_F定义为：

在对S-Net进行训练时，损失函数e_S定义为：

步骤4：服装检索操作

从数据集S中选取I，根据I到磁盘文件code.txt中检索I的哈希编码K，K与磁盘文件code.txt中每个服装的哈希编码，分别多个哈希编码对，将这些哈希编码对依次输入到S-Net中进行预测，得到每次比对的相似性评分，再将这些评分进行降序排列，从中选取最优的检索结果；

实验过程中，网络的实现细节与使用的重要超参数如下：F-Net中卷积层采用Xavier方式进行网络参数的初始化，在批归一化操作中，β项初始化全部设置为0，γ项初始化全部设置为1；F-Net与S-Net中的全连接层采用Gaussian方式对网络参数初始化，动量系数momentum取0.9，Dropout率取0.5，优化器采用SGD优化器，每批样本取64，学习率初始值为0.01，之后每迭代10000次，学习率变为原来的0.1倍；

图1为服装相似性评分及检索的结果，每一行为一组检索结果，每行的第一个图像为检索的样例图像，其它5个为相应的检索结果，每幅检索结果图像的下方为其对应的相似性评分，在本实施例中，相似性评分V最高设置为100，最低为0，从结果可以看出，检索的样例图像与检索结果在视觉上相一致，此外，在包含复杂背景的样例图像检索时，甚至是几何变形的服装，也可以检索到较为准确的结果。

图2为服装相似及不相似的结果比较，每一组检索结果中，第1行为相似的检索的结果，第2行为不相似的检索结果，从对比结果中可以看出，相似的检索结果显示了与样例服装的外观的相似性，而不相似的检索结果与样例服装在外观上存在较大差异。

Claims

1.一种基于深度学习的服装检索方法，其特征在于，该方法输入分辨率为f×f的RGB图像I，100≤f≤1000，具体包括以下步骤：

步骤1：构建服装数据集F

从taobao.com网站收集J个单件服装样例，10000≤J≤15000，将收集的J个单件服装样例与http：//mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并，得到包含有M个单件服装样例的初始数据集T，80000≤M≤100000，利用T构建服装样例数据集R，R中服装种类数目为U，15≤U≤20，每个服装样例是同一件服装的采样信息，其包含三类信息：具有环境背景的一幅服装图像B、该服装无环境背景的多幅图像{E_k|2≤k≤10}以及此件服装的种类标签O_i，1≤i≤U；

构建服装数据集F：F的每个样本的形式定义为三元组(P_i，Q_i，l_i)，1≤i≤500000，其中，P_i是从R中选取的B，将其尺度缩放为N×N，N为227、454或者908，Q_i是从R中选取的任意样例数据的无环境背景服装图像，将其尺度也缩放为N×N，l_i是P_i与Q_i相似性标签，l_i取值为0或者1，当P_i与Q_i来自于R的同一组样例时，即是相同服装的两幅图像时，l_i取1，否则取0；

步骤2：构建神经网络

步骤3：神经网络的训练

在对F-Net进行训练时，损失函数e_F定义为：

在对S-Net进行训练时，损失函数e_S定义为：

步骤4：服装检索操作