CN109117437A

CN109117437A - 一种面向服装图像检索的图像特征抽取方法

Info

Publication number: CN109117437A
Application number: CN201710487787.2A
Authority: CN
Inventors: 李峰; 白宇; 王斌旭
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2019-01-01

Abstract

本发明涉及一种面向服装图像检索的图像特征抽取方法，属于图像检索技术领域。该方法首先创新性地设计了基于关键点的关键区域生成网络以及用于融合服装图像全局特征和关键区域特征的关键区域融合网络；然后将关键区域生成网络和关键区域融合网络加入到开源的深度学习模型VGG16中得到面向服装图像检索的深度学习模型；再然后采用交叉训练关键区域生成网络和关键区域融合网络的方式使模型得到收敛；最后提取本发明提出的深度学习模型的高层特征用于服装图像检索任务。本发明提出的服装图像深度特征抽取方法能够有效地提高服装图像检索的准确率，而且方法较为简单、易于实现。

Description

一种面向服装图像检索的图像特征抽取方法

技术领域

本发明涉及图像检索技术领域，尤其涉及一种面向服装图像检索的图像特征抽取方法。

背景技术

近年来，随着互联网特别是移动互联网的不断普及和发展，人们的生活发生日新月异的变化。过去人们获取的互联网信息主要以文本信息为主，而现在对图像、视频等多媒体信息也产生了巨大需求，如何从大量的图像数据中快速精准地找到人们所需的信息变得越来越重要。

当前有很多图像检索领域的研究，Wan等人在[1]中通过实验验证了深度分类模型的高层特征对检索问题的有效性及其相对于传统特征的优越性。Tolias等人在[2]中通过提取图像不同尺度的深度特征做融合使检索结果得到有效提升。Huang等人在[3]中采用服装属性预测、特征排序和领域独立特征学习等方法提高了检索准确率。Liu等人在[4]中通过提取人脸图像固定位置和大小的子区域特征来更好的刻画图像的局部信息。

然而这些方法依然没有很好的解决柔性物体(服装等)的局部信息刻画不足的问题，即检索结果虽然和检索图总体相似但细节却差别很大，比如T恤的检索结果虽然都是T恤但是图案却和检索图完全不同，使得检索结果的同款率低。为了解决局部信息刻画不足的问题，需要融合服装的关键区域特征，然而针对服装等柔性体，随着人的姿态变化同一款服装各个部位的相对位置变化极大，很难提取服装关键区域的特征，本文通过关键点检测并提取关键区域的方式解决了此问题。

参考文献：

[1]Wan J,Wang D,Hoi S C H,et al.Deep Learning for Content-Based ImageRetrieval:A Comprehensive Study[J].2014(FullPaper):157-166.

[2]Tolias G,Sicre R,Jégou H.Particular object retrieval with integralmax-pooling of CNN activations[J].Computer Science,2015.

[3]Huang J,Feris R,Chen Q,et al.Cross-Domain Image Retrieval with aDual Attribute-Aware Ranking Network[C]//IEEE International Conference onComputer Vision.IEEE Computer Society,2015:1062-1070.

[4]Liu J,Deng Y,Bai T,et al.Targeting Ultimate Accuracy:FaceRecognition via Deep Embedding[J].2015.

发明内容

本发明的目的是克服上述现有技术中局部信息刻画不足而导致服装检索的Top1准确率低的问题，提出一种能够有效地抽取图像的局部特征来更好地刻画局部信息、使得服装检索的同款召回率得到提高的方法。

为了实现上述目的，本发明提出了一种面向服装图像检索的图像特征抽取方法，包括以下步骤：

一种面向服装图像检索的图像特征抽取方法，其特征在于包含以下步骤：

(1)设计如图1所示的深度学习模型。图中淡蓝色填充框表示数据，其中的数字表示数据的维度，绿色边框表示对数据的操作，箭头表示数据流向，红色部分表示损失函数。该网络的输入包含图像数据、图像关键点位置集合和图像属性信息集合，分别记为B、P、A。B表示图像的原始数据，可以看做三维矩阵，三维分别表示图像通道数、图像高度和图像宽度；P＝{P₁，...，P_i，...，P_m}表示图像关键点坐标集合，其中m表示关键点个数，P_i＝(x_i，y_i)表示第i个关键点的位置，其中x_i，y_i分别表示关键点的横坐标和纵坐标；A表示图像对应的属性标签，包括颜色、类型、领型等，A＝{A₁，...，A_i，...，A_n}，其中n表示属性个数，A_i表示第i个属性的取值。图像数据B经过深度卷积网络VGG16处理后得到多个同宽高的特征图，记作f_base。然后将f_base输入关键区域生成网络，得到关键区域集合，记作R＝{R₁，...，R_i，...，R_t}，其中t表示关键区域的个数，R_i＝(x_i1，y_i1，x_i2，y_i2)表示第i个关键区域，x_i1、y_i1和x_i2、y_i2分别表示第i个关键区域左上角的横纵坐标和右下角的横纵坐标。再然后将上述的f_base和R一同输入关键区域融合网络，输出局部特征和全局特征的融合特征，记作f_comb。最后将f_comb连接到多个Softmax属性分类器。

步骤(1)所述的关键区域生成网络的设计如下：该网络输入是步骤(1)中的f_base，输出是多个关键点的坐标预测值以及根据这些关键点得到的多个关键区域。输入和输出之间包含一个池化层和两个全连接层，第二个全连接层的输出为关键点的坐标预测值集合，记作PT＝PT₁，...，PT_i，...，PT_m}，其中m表示关键点个数，PT_i＝(xt_i，yt_i)表示第i个关键点的横纵坐标预测值。将图像关键点的坐标预测值集合PT和步骤(1)的图像关键点坐标集合P一同输入关键点回归损失函数中，得到当前预测值的损失值。关键点回归损失函数L_reg定义如下：

其中表示向量r的L2范数的平方。关键区域生成网络最后的操作是根据关键点和关键区域的几何关系生成关键区域，不同的关键区域有不同的生成方法。将左右肩膀、左右下摆四个关键点依次记为点1到点4，则服装正前方的图案区域可以通过点1、点2连线中点划横线，点3、点4连线中点划横线，点1、点3连线中点划竖线，点2、点4连线中点划竖线的方式得到；服装的领型区域生成方式为宽为点1、点2水平距离，高为点1、点2水平距离的1/3，中心为点1、点2连线中点的矩形区域。

步骤(1)所述的关键区域融合网络的设计如下：输入是步骤(1)的f_base和关键区域生成网络输出的多个关键区域，输出是局部特征和全局特征的融合特征。如图1所示，关键区域融合网络包含2个分支。第一个分支为服装全局特征的抽取，输入的f_base经过一个池化和一个全连接操作后，得到高维向量f_global；第二个分支为服装的局部特征抽取，输入的f_base和步骤(1)的R经过关键区域池化和全连接操作后，得到高维向量f_local；最后将f_global和f_local合并后得到的最终输出特征f_comb。关键区域池化具体过程为：

(1-1)设置输出集合为Res，对步骤(1)的关键区域集合R的每个关键区域r，执行下面操作：

(1-1-1)按f_base和原图的宽高比例，将r的坐标从原图转换到f_base，得到新的关键区域坐标位置r′＝(x′_r1，y′_r1，x′_r2，y′_r2)，x′_r1、y′_r1和x′_r2、y′_r2分别表示关键区域r在f_base特征图上的左上角横纵坐标和右下角横纵坐标。

(1-1-2)将f_base的r′区域分成kxk个小块，并在每个小块里取最大值组成新的数据块，将此数据块加入输出集合Res。

(1-2)将输出集合Res的t个kxk的数据块依次拼接，得到关键区域池化的输出，记作f_critic，其中t表示步骤(1)中的关键区域个数。

步骤(1)所述的属性分类损失定义如下：

其中APL表示属性预测损失，s表示第s张图，表示图像s对应的属性取值集合,其中表示图像s对应的第i个属性的真实取值，表示图像s对应的第i个属性预测输出，I为真值函数即输入为真时输出1否则输出0，|A_i|表示属性i的取值个数，N表示属性个数。

(2)准备步骤(1)所述深度学习模型的训练数据集、验证数据集和测试数据集。根据步骤(1)定义的图像数据B、图像关键点位置集合P和图像属性信息集合A准备模型训练的数据集X，X为三元组(B、P、A)的集合。将准备好的数据集按照6:2:2的比例分成训练数据集、验证数据集和测试数据集，分别记为X_train、X_val和X_test。

(3)训练关键区域生成网络。设置步骤(1)中深度学习模型的关键区域融合网络和属性预测任务的参数学习率系数(Learning rate multiplier)为0，VGG16的参数学习率系数为较小值(0.1)，关键区域生成网络的参数学习率系数为较大值(1.0)。采用ImageNet训练得到的VGG16进行模型参数初始化，在步骤(2)所述的训练数据集X_train上采用小批次随机梯度下降(MSGD：Mini-batch Stochastic Gradient Descent)优化算法进行参数训练学习，使得VGG16和关键区域生成网络的参数得到有效更新，从而提高关键点位置回归预测的准确率。训练过程中，初始基学习率(base learning rate)为10e-2，当验证数据集X_val的关键点回归损失函数值达到较低值且趋向平稳时依次选择基学习率为{10e-3，10e-4，10e-5}继续训练，直到在验证数据集X_val上关键点回归损失函数值无法继续下降时停止训练。

(4)训练关键区域融合网络和属性预测任务。固定步骤(1)中深度学习模型的关键区域生成网络的参数学习率系数为0，设置VGG16、关键区域融合网络和属性预测任务的参数学习率系数分别为0.01、0.1、1.0。采用步骤(3)训练得到的关键区域生成网络的参数进行初始化，在步骤(2)的X_train数据集上采用MSGD优化算法进行属性预测任务训练。训练过程中通过观察在验证数据集X_val上损失函数值的变化情况来调整基学习率和各层参数学习率系数，基学习率的选值过程依次为10e-2、10e-3、10e-4、10e-5，各层参数学习率系数根据所在层次的高低依次设定为0.01、0.1、1.0，即低层的参数在相似数据集上训练得到的值差别都不大，因此将低层的参数学习率系数设为0.01，而高层是任务紧密相关的参数，因此参数学习率系数设置为1.0。

(5)关键区域生成网络第二次训练。由于在步骤(4)训练过程中改变了步骤(1)的深度学习模型中VGG16的参数，使得关键区域生成的效果下降，因此需要微调关键区域生成网络的参数。为了不影响关键区域融合网络和属性预测任务的效果，第二次训练关键区域生成模型的过程中不改变VGG16的参数，只调整关键区域生成网络的参数，即设置关键区域生成网络之外的所有层的参数学习率系数为0，其他的训练过程和步骤(3)一致。

(6)关键区域融合网络第二次训练。由于步骤(4)训练过程中关键区域生成网络的效果变差了，因此在步骤(5)之后需要再次训练关键区域融合网络和属性预测任务。此时，固定VGG16和关键区域生成网络的参数学习率系数为0，只调整关键区域融合网络和属性预测任务的参数，直到损失函数值在步骤(2)的验证数据集X_val上趋于稳定时停止训练。除了参数学习率系数设置不同外，其他的训练过程和步骤(4)一致。

(7)图像特征抽取。将图像输入到步骤(6)训练完成的深度学习模型中，进行深度网络的前向传播，输出步骤(1)所述的f_comb，得到面向服装图像检索的图像特征表示。

本发明提出的基于关键区域融合的多任务深度学习服装图像检索方法，其优点是：

1、本发明方法通过回归预测关键点位置并生成关键区域，然后融合关键区域特征和全图特征，使得最终学习到的特征具有局部和全局信息刻画能力，有效地提高了检索结果的准确性。

2、本发明方法通过回归预测关键点位置，并基于这些关键点生成关键区域，对于服装这种柔性物体的关键区域选取有较高的精准性和稳定性。

3、本发明方法采用基于多属性预测的多任务深度学习方法进行特征学习，学习到的特征能够有效地刻画服装图像的高层语义信息(属性信息)，能够有效地解决图像特征和图像语义之间的“语义鸿沟”问题。

附图说明

附图1是服装图像关键点定义和关键区域生成示意图。

附图2是基于关键区域融合的多任务深度学习服装检索方法的模型示意图。

具体实施方式

(1)设计如图1所示的深度学习模型；图中淡蓝色填充框表示数据，其中的数字表示数据的维度，绿色边框表示对数据的操作，箭头表示数据流向，红色部分表示损失函数；该网络的输入包含图像数据、图像关键点位置集合和图像属性信息集合，分别记为B、P、A；B表示图像的原始数据，可以看做三维矩阵，三维分别表示图像通道数、图像高度和图像宽度；P＝{P₁，...，P_i，...，P_m}表示图像关键点坐标集合，其中m表示关键点个数，P_i＝(x_i，y_i)表示第i个关键点的位置，其中x_i，y_i分别表示关键点的横坐标和纵坐标；A表示图像对应的属性标签，包括颜色、类型、领型等，A＝{A₁，...，A_i，...，A_n}，其中n表示属性个数，A_i表示第i个属性的取值。图像数据B经过深度卷积网络VGG16处理后得到多个同宽高的特征图，记作f_base。然后将f_base输入关键区域生成网络，得到关键区域集合，记作R＝{R₁，...，R_i，...，R_t}，其中t表示关键区域的个数，R_i＝(x_i1，y_i1，x_i2，y_i2)表示第i个关键区域，x_i1、y_i1和x_i2、y_i2分别表示第i个关键区域左上角的横纵坐标和右下角的横纵坐标。再然后将上述的f_base和R一同输入关键区域融合网络，输出局部特征和全局特征的融合特征，记作f_comb。最后将f_comb连接到多个Softmax属性分类器。

步骤(1)所述的关键区域生成网络的设计如下：该网络输入是步骤(1)中的f_base，输出是多个关键点的坐标预测值以及根据这些关键点得到的多个关键区域。输入和输出之间包含一个池化层和两个全连接层，第二个全连接层的输出为关键点的坐标预测值集合，记作PT＝{PT₁，...，PT_i，...，PT_m}，其中m表示关键点个数，PT_i＝(xt_i，yt_i)表示第i个关键点的横纵坐标预测值。将图像关键点的坐标预测值集合PT和步骤(1)的图像关键点坐标集合P一同输入关键点回归损失函数中，得到当前预测值的损失值。关键点回归损失函数L_reg定义如下：

步骤(1)所述的关键区域融合网络的设计如下：输入是步骤(1)的f_base和关键区域生成网络输出的多个关键区域，输出是局部特征和全局特征的融合特征。如图1所示，关键区域融合网络包含2个分支。第一个分支为服装全局特征的抽取，输入的f_base经过一个池化和一个全连接操作后，得到高维向量f_global；第二个分支为服装的局部特征抽取，输入的f_base和步骤(1)的R经过关键区域池化和全连接操作后，得到高维向量f_local；最后将f_gloval和f_local合并后得到的最终输出特征f_comb。关键区域池化具体过程为：

步骤(1)所述的属性分类损失定义如下：

Claims

1.一种面向服装图像检索的图像特征抽取方法，其特征在于包含以下步骤：

(1)设计融合关键区域特征的深度学习网络模型；该网络的输入包含图像数据、图像关键点位置集合和图像属性信息集合，分别记为B、P、A；B表示图像的原始数据，可以看做三维矩阵，三维分别表示图像通道数、图像高度和图像宽度；P＝{P₁，...，P_i，...，P_m}表示图像关键点坐标集合，其中m表示关键点个数，P_i＝(x_i，y_i)表示第i个关键点的位置，其中x_i，y_i分别表示关键点的横坐标和纵坐标；A表示图像对应的属性标签，包括颜色、类型、领型等，A＝{A₁，...，A_i，...，A_n}，其中n表示属性个数，A_i表示第i个属性的取值；图像数据B经过深度卷积网络VGG16处理后得到多个同宽高的特征图，记作f_base；然后将f_base输入关键区域生成网络，得到关键区域集合，记作R＝{R₁，...，R_i，...，R_t}，其中t表示关键区域的个数，R_i＝(x_i1，y_i1，x_i2，y_i2}表示第i个关键区域，x_i1、y_i1和x_i2、y_i2分别表示第i个关键区域左上角的横纵坐标和右下角的横纵坐标；再然后将上述的f_base和R一同输入关键区域融合网络，输出局部特征和全局特征的融合特征，记作f_comb；最后将f_comb连接到多个Softmax属性分类器；

(2)准备步骤(1)所述深度学习模型的训练数据集、验证数据集和测试数据集；根据步骤(1)定义的图像数据B、图像关键点位置集合P和图像属性信息集合A准备模型训练的数据集X，X为三元组(B、P、A)的集合；将准备好的数据集按照6:2:2的比例分成训练数据集、验证数据集和测试数据集，分别记为X_train、X_val和X_test；

(3)训练关键区域生成网络；设置步骤(1)中深度学习模型的关键区域融合网络和属性预测任务的参数学习率系数(Learning rate multiplier)为0，VGG16的参数学习率系数为较小值(0.1)，关键区域生成网络的参数学习率系数为较大值(1.0)；采用ImageNet训练得到的VGG16进行模型参数初始化，在步骤(2)所述的训练数据集X_train上采用小批次随机梯度下降(MSGD：Mini-batch Stochastic Gradient Descent)优化算法进行参数训练学习，使得VGG16和关键区域生成网络的参数得到有效更新，从而提高关键点位置回归预测的准确率；训练过程中，初始基学习率(base learning rate)为10e-2，当验证数据集X_val的关键点回归损失函数值达到较低值且趋向平稳时依次选择基学习率为{10e-3，10e-4，10e-5}继续训练，直到在验证数据集X_val上关键点回归损失函数值无法继续下降时停止训练；

(4)训练关键区域融合网络和属性预测任务；固定步骤(1)中深度学习模型的关键区域生成网络的参数学习率系数为0，设置VGG16、关键区域融合网络和属性预测任务的参数学习率系数分别为0.01、0.1、1.0；采用步骤(3)训练得到的关键区域生成网络的参数进行初始化，在步骤(2)的X_train数据集上采用MSGD优化算法进行属性预测任务训练；训练过程中通过观察在验证数据集X_val上损失函数值的变化情况来调整基学习率和各层参数学习率系数，基学习率的选值过程依次为10e-2、10e-3、10e-4、10e-5，各层参数学习率系数根据所在层次的高低依次设定为0.01、0.1、1.0，即低层的参数在相似数据集上训练得到的值差别都不大，因此将低层的参数学习率系数设为0.01，而高层是任务紧密相关的参数，因此参数学习率系数设置为1.0；

(5)关键区域生成网络第二次训练；由于在步骤(4)训练过程中改变了步骤(1)的深度学习模型中VGG16的参数，使得关键区域生成的效果下降，因此需要微调关键区域生成网络的参数；为了不影响关键区域融合网络和属性预测任务的效果，第二次训练关键区域生成模型的过程中不改变VGG16的参数，只调整关键区域生成网络的参数，即设置关键区域生成网络之外的所有层的参数学习率系数为0，其他的训练过程和步骤(3)一致；

(6)关键区域融合网络第二次训练；由于步骤(4)训练过程中关键区域生成网络的效果变差了，因此在步骤(5)之后需要再次训练关键区域融合网络和属性预测任务；此时，固定VGG16和关键区域生成网络的参数学习率系数为0，只调整关键区域融合网络和属性预测任务的参数，直到损失函数值在步骤(2)的验证数据集X_val上趋于稳定时停止训练；除了参数学习率系数设置不同外，其他的训练过程和步骤(4)一致；

(7)图像特征抽取；将图像输入到步骤(6)训练完成的深度学习模型中，进行深度网络的前向传播，输出步骤(1)所述的f_comb，得到面向服装图像检索的图像特征表示。

2.如权利要求1所述的方法，其特征在于，步骤(1)的关键区域生成网络的设计进一步包含：

该网络输入是步骤(1)中的f_base，输出是多个关键点的坐标预测值以及根据这些关键点得到的多个关键区域；输入和输出之间包含一个池化层和两个全连接层，第二个全连接层的输出为关键点的坐标预测值集合，记作PT＝{PT₁，...，PT_i，...，PT_m}，其中m表示关键点个数，PT_i＝(xt_i，yt_i)表示第i个关键点的横纵坐标预测值；将图像关键点的坐标预测值集合PT和步骤(1)的图像关键点坐标集合P一同输入关键点回归损失函数中，得到当前预测值的损失值。关键点回归损失函数L_reg定义如下：

其中表示向量r的L2范数的平方，关键区域生成网络最后的操作是根据关键点和关键区域的几何关系生成关键区域，不同的关键区域有不同的生成方法；将左右肩膀、左右下摆四个关键点依次记为点1到点4，则服装正前方的图案区域可以通过点1、点2连线中点划横线，点3、点4连线中点划横线，点1、点3连线中点划竖线，点2、点4连线中点划竖线的方式得到；服装的领型区域生成方式为宽为点1、点2水平距离，高为点1、点2水平距离的1/3，中心为点1、点2连线中点的矩形区域。

3.如权利要求1所述的方法，其特征在于，步骤(1)的关键区域融合网络的设计进一步包含：

输入是步骤(1)的f_base和关键区域生成网络输出的多个关键区域，输出是局部特征和全局特征的融合特征；关键区域融合网络包含2个分支，第一个分支为服装全局特征的抽取，输入的f_base经过一个池化和一个全连接操作后，得到高维向量f_global；第二个分支为服装的局部特征抽取，输入的f_base和步骤(1)的R经过关键区域池化和全连接操作后，得到高维向量f_local；最后将f_global和f_local合并后得到的最终输出特征f_comb；关键区域池化具体过程为：

(1-1-1)按f_base和原图的宽高比例，将r的坐标从原图转换到f_base，得到新的关键区域坐标位置r′＝(x′_r1，y′_r1，x′_r2，y′_r2)，x′_r1，y′_r1和x′_r2，y′_r2)分别表示关键区域r在f_base特征图上的左上角横纵坐标和右下角横纵坐标；

(1-1-2)将f_base的r′区域分成kxk个小块，并在每个小块里取最大值组成新的数据块，将此数据块加入输出集合Res；

(1-2)将输出集合Res的t个kxk的数据块依次拼接，得到关键区域池化的输出，记作f_critic，其中t表示步骤(1)中的关键区域个数；

步骤(1)所述的属性分类损失定义如下：