CN109117437A - 一种面向服装图像检索的图像特征抽取方法 - Google Patents

一种面向服装图像检索的图像特征抽取方法 Download PDF

Info

Publication number
CN109117437A
CN109117437A CN201710487787.2A CN201710487787A CN109117437A CN 109117437 A CN109117437 A CN 109117437A CN 201710487787 A CN201710487787 A CN 201710487787A CN 109117437 A CN109117437 A CN 109117437A
Authority
CN
China
Prior art keywords
key area
key
image
network
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710487787.2A
Other languages
English (en)
Inventor
李峰
白宇
王斌旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710487787.2A priority Critical patent/CN109117437A/zh
Publication of CN109117437A publication Critical patent/CN109117437A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种面向服装图像检索的图像特征抽取方法,属于图像检索技术领域。该方法首先创新性地设计了基于关键点的关键区域生成网络以及用于融合服装图像全局特征和关键区域特征的关键区域融合网络;然后将关键区域生成网络和关键区域融合网络加入到开源的深度学习模型VGG16中得到面向服装图像检索的深度学习模型;再然后采用交叉训练关键区域生成网络和关键区域融合网络的方式使模型得到收敛;最后提取本发明提出的深度学习模型的高层特征用于服装图像检索任务。本发明提出的服装图像深度特征抽取方法能够有效地提高服装图像检索的准确率,而且方法较为简单、易于实现。

Description

一种面向服装图像检索的图像特征抽取方法
技术领域
本发明涉及图像检索技术领域,尤其涉及一种面向服装图像检索的图像特征抽取方法。
背景技术
近年来,随着互联网特别是移动互联网的不断普及和发展,人们的生活发生日新月异的变化。过去人们获取的互联网信息主要以文本信息为主,而现在对图像、视频等多媒体信息也产生了巨大需求,如何从大量的图像数据中快速精准地找到人们所需的信息变得越来越重要。
当前有很多图像检索领域的研究,Wan等人在[1]中通过实验验证了深度分类模型的高层特征对检索问题的有效性及其相对于传统特征的优越性。Tolias等人在[2]中通过提取图像不同尺度的深度特征做融合使检索结果得到有效提升。Huang等人在[3]中采用服装属性预测、特征排序和领域独立特征学习等方法提高了检索准确率。Liu等人在[4]中通过提取人脸图像固定位置和大小的子区域特征来更好的刻画图像的局部信息。
然而这些方法依然没有很好的解决柔性物体(服装等)的局部信息刻画不足的问题,即检索结果虽然和检索图总体相似但细节却差别很大,比如T恤的检索结果虽然都是T恤但是图案却和检索图完全不同,使得检索结果的同款率低。为了解决局部信息刻画不足的问题,需要融合服装的关键区域特征,然而针对服装等柔性体,随着人的姿态变化同一款服装各个部位的相对位置变化极大,很难提取服装关键区域的特征,本文通过关键点检测并提取关键区域的方式解决了此问题。
参考文献:
[1]Wan J,Wang D,Hoi S C H,et al.Deep Learning for Content-Based ImageRetrieval:A Comprehensive Study[J].2014(FullPaper):157-166.
[2]Tolias G,Sicre R,Jégou H.Particular object retrieval with integralmax-pooling of CNN activations[J].Computer Science,2015.
[3]Huang J,Feris R,Chen Q,et al.Cross-Domain Image Retrieval with aDual Attribute-Aware Ranking Network[C]//IEEE International Conference onComputer Vision.IEEE Computer Society,2015:1062-1070.
[4]Liu J,Deng Y,Bai T,et al.Targeting Ultimate Accuracy:FaceRecognition via Deep Embedding[J].2015.
发明内容
本发明的目的是克服上述现有技术中局部信息刻画不足而导致服装检索的Top1准确率低的问题,提出一种能够有效地抽取图像的局部特征来更好地刻画局部信息、使得服装检索的同款召回率得到提高的方法。
为了实现上述目的,本发明提出了一种面向服装图像检索的图像特征抽取方法,包括以下步骤:
一种面向服装图像检索的图像特征抽取方法,其特征在于包含以下步骤:
(1)设计如图1所示的深度学习模型。图中淡蓝色填充框表示数据,其中的数字表示数据的维度,绿色边框表示对数据的操作,箭头表示数据流向,红色部分表示损失函数。该网络的输入包含图像数据、图像关键点位置集合和图像属性信息集合,分别记为B、P、A。B表示图像的原始数据,可以看做三维矩阵,三维分别表示图像通道数、图像高度和图像宽度;P={P1,...,Pi,...,Pm}表示图像关键点坐标集合,其中m表示关键点个数,Pi=(xi,yi)表示第i个关键点的位置,其中xi,yi分别表示关键点的横坐标和纵坐标;A表示图像对应的属性标签,包括颜色、类型、领型等,A={A1,...,Ai,...,An},其中n表示属性个数,Ai表示第i个属性的取值。图像数据B经过深度卷积网络VGG16处理后得到多个同宽高的特征图,记作fbase。然后将fbase输入关键区域生成网络,得到关键区域集合,记作R={R1,...,Ri,...,Rt},其中t表示关键区域的个数,Ri=(xi1,yi1,xi2,yi2)表示第i个关键区域,xi1、yi1和xi2、yi2分别表示第i个关键区域左上角的横纵坐标和右下角的横纵坐标。再然后将上述的fbase和R一同输入关键区域融合网络,输出局部特征和全局特征的融合特征,记作fcomb。最后将fcomb连接到多个Softmax属性分类器。
步骤(1)所述的关键区域生成网络的设计如下:该网络输入是步骤(1)中的fbase,输出是多个关键点的坐标预测值以及根据这些关键点得到的多个关键区域。输入和输出之间包含一个池化层和两个全连接层,第二个全连接层的输出为关键点的坐标预测值集合,记作PT=PT1,...,PTi,...,PTm},其中m表示关键点个数,PTi=(xti,yti)表示第i个关键点的横纵坐标预测值。将图像关键点的坐标预测值集合PT和步骤(1)的图像关键点坐标集合P一同输入关键点回归损失函数中,得到当前预测值的损失值。关键点回归损失函数Lreg定义如下:
其中表示向量r的L2范数的平方。关键区域生成网络最后的操作是根据关键点和关键区域的几何关系生成关键区域,不同的关键区域有不同的生成方法。将左右肩膀、左右下摆四个关键点依次记为点1到点4,则服装正前方的图案区域可以通过点1、点2连线中点划横线,点3、点4连线中点划横线,点1、点3连线中点划竖线,点2、点4连线中点划竖线的方式得到;服装的领型区域生成方式为宽为点1、点2水平距离,高为点1、点2水平距离的1/3,中心为点1、点2连线中点的矩形区域。
步骤(1)所述的关键区域融合网络的设计如下:输入是步骤(1)的fbase和关键区域生成网络输出的多个关键区域,输出是局部特征和全局特征的融合特征。如图1所示,关键区域融合网络包含2个分支。第一个分支为服装全局特征的抽取,输入的fbase经过一个池化和一个全连接操作后,得到高维向量fglobal;第二个分支为服装的局部特征抽取,输入的fbase和步骤(1)的R经过关键区域池化和全连接操作后,得到高维向量flocal;最后将fglobal和flocal合并后得到的最终输出特征fcomb。关键区域池化具体过程为:
(1-1)设置输出集合为Res,对步骤(1)的关键区域集合R的每个关键区域r,执行下面操作:
(1-1-1)按fbase和原图的宽高比例,将r的坐标从原图转换到fbase,得到新的关键区域坐标位置r′=(x′r1,y′r1,x′r2,y′r2),x′r1、y′r1和x′r2、y′r2分别表示关键区域r在fbase特征图上的左上角横纵坐标和右下角横纵坐标。
(1-1-2)将fbase的r′区域分成kxk个小块,并在每个小块里取最大值组成新的数据块,将此数据块加入输出集合Res。
(1-2)将输出集合Res的t个kxk的数据块依次拼接,得到关键区域池化的输出,记作fcritic,其中t表示步骤(1)中的关键区域个数。
步骤(1)所述的属性分类损失定义如下:
其中APL表示属性预测损失,s表示第s张图,表示图像s对应的属性取值集合,其中表示图像s对应的第i个属性的真实取值,表示图像s对应的第i个属性预测输出,I为真值函数即输入为真时输出1否则输出0,|Ai|表示属性i的取值个数,N表示属性个数。
(2)准备步骤(1)所述深度学习模型的训练数据集、验证数据集和测试数据集。根据步骤(1)定义的图像数据B、图像关键点位置集合P和图像属性信息集合A准备模型训练的数据集X,X为三元组(B、P、A)的集合。将准备好的数据集按照6:2:2的比例分成训练数据集、验证数据集和测试数据集,分别记为Xtrain、Xval和Xtest
(3)训练关键区域生成网络。设置步骤(1)中深度学习模型的关键区域融合网络和属性预测任务的参数学习率系数(Learning rate multiplier)为0,VGG16的参数学习率系数为较小值(0.1),关键区域生成网络的参数学习率系数为较大值(1.0)。采用ImageNet训练得到的VGG16进行模型参数初始化,在步骤(2)所述的训练数据集Xtrain上采用小批次随机梯度下降(MSGD:Mini-batch Stochastic Gradient Descent)优化算法进行参数训练学习,使得VGG16和关键区域生成网络的参数得到有效更新,从而提高关键点位置回归预测的准确率。训练过程中,初始基学习率(base learning rate)为10e-2,当验证数据集Xval的关键点回归损失函数值达到较低值且趋向平稳时依次选择基学习率为{10e-3,10e-4,10e-5}继续训练,直到在验证数据集Xval上关键点回归损失函数值无法继续下降时停止训练。
(4)训练关键区域融合网络和属性预测任务。固定步骤(1)中深度学习模型的关键区域生成网络的参数学习率系数为0,设置VGG16、关键区域融合网络和属性预测任务的参数学习率系数分别为0.01、0.1、1.0。采用步骤(3)训练得到的关键区域生成网络的参数进行初始化,在步骤(2)的Xtrain数据集上采用MSGD优化算法进行属性预测任务训练。训练过程中通过观察在验证数据集Xval上损失函数值的变化情况来调整基学习率和各层参数学习率系数,基学习率的选值过程依次为10e-2、10e-3、10e-4、10e-5,各层参数学习率系数根据所在层次的高低依次设定为0.01、0.1、1.0,即低层的参数在相似数据集上训练得到的值差别都不大,因此将低层的参数学习率系数设为0.01,而高层是任务紧密相关的参数,因此参数学习率系数设置为1.0。
(5)关键区域生成网络第二次训练。由于在步骤(4)训练过程中改变了步骤(1)的深度学习模型中VGG16的参数,使得关键区域生成的效果下降,因此需要微调关键区域生成网络的参数。为了不影响关键区域融合网络和属性预测任务的效果,第二次训练关键区域生成模型的过程中不改变VGG16的参数,只调整关键区域生成网络的参数,即设置关键区域生成网络之外的所有层的参数学习率系数为0,其他的训练过程和步骤(3)一致。
(6)关键区域融合网络第二次训练。由于步骤(4)训练过程中关键区域生成网络的效果变差了,因此在步骤(5)之后需要再次训练关键区域融合网络和属性预测任务。此时,固定VGG16和关键区域生成网络的参数学习率系数为0,只调整关键区域融合网络和属性预测任务的参数,直到损失函数值在步骤(2)的验证数据集Xval上趋于稳定时停止训练。除了参数学习率系数设置不同外,其他的训练过程和步骤(4)一致。
(7)图像特征抽取。将图像输入到步骤(6)训练完成的深度学习模型中,进行深度网络的前向传播,输出步骤(1)所述的fcomb,得到面向服装图像检索的图像特征表示。
本发明提出的基于关键区域融合的多任务深度学习服装图像检索方法,其优点是:
1、本发明方法通过回归预测关键点位置并生成关键区域,然后融合关键区域特征和全图特征,使得最终学习到的特征具有局部和全局信息刻画能力,有效地提高了检索结果的准确性。
2、本发明方法通过回归预测关键点位置,并基于这些关键点生成关键区域,对于服装这种柔性物体的关键区域选取有较高的精准性和稳定性。
3、本发明方法采用基于多属性预测的多任务深度学习方法进行特征学习,学习到的特征能够有效地刻画服装图像的高层语义信息(属性信息),能够有效地解决图像特征和图像语义之间的“语义鸿沟”问题。
附图说明
附图1是服装图像关键点定义和关键区域生成示意图。
附图2是基于关键区域融合的多任务深度学习服装检索方法的模型示意图。
具体实施方式
一种面向服装图像检索的图像特征抽取方法,其特征在于包含以下步骤:
(1)设计如图1所示的深度学习模型;图中淡蓝色填充框表示数据,其中的数字表示数据的维度,绿色边框表示对数据的操作,箭头表示数据流向,红色部分表示损失函数;该网络的输入包含图像数据、图像关键点位置集合和图像属性信息集合,分别记为B、P、A;B表示图像的原始数据,可以看做三维矩阵,三维分别表示图像通道数、图像高度和图像宽度;P={P1,...,Pi,...,Pm}表示图像关键点坐标集合,其中m表示关键点个数,Pi=(xi,yi)表示第i个关键点的位置,其中xi,yi分别表示关键点的横坐标和纵坐标;A表示图像对应的属性标签,包括颜色、类型、领型等,A={A1,...,Ai,...,An},其中n表示属性个数,Ai表示第i个属性的取值。图像数据B经过深度卷积网络VGG16处理后得到多个同宽高的特征图,记作fbase。然后将fbase输入关键区域生成网络,得到关键区域集合,记作R={R1,...,Ri,...,Rt},其中t表示关键区域的个数,Ri=(xi1,yi1,xi2,yi2)表示第i个关键区域,xi1、yi1和xi2、yi2分别表示第i个关键区域左上角的横纵坐标和右下角的横纵坐标。再然后将上述的fbase和R一同输入关键区域融合网络,输出局部特征和全局特征的融合特征,记作fcomb。最后将fcomb连接到多个Softmax属性分类器。
步骤(1)所述的关键区域生成网络的设计如下:该网络输入是步骤(1)中的fbase,输出是多个关键点的坐标预测值以及根据这些关键点得到的多个关键区域。输入和输出之间包含一个池化层和两个全连接层,第二个全连接层的输出为关键点的坐标预测值集合,记作PT={PT1,...,PTi,...,PTm},其中m表示关键点个数,PTi=(xti,yti)表示第i个关键点的横纵坐标预测值。将图像关键点的坐标预测值集合PT和步骤(1)的图像关键点坐标集合P一同输入关键点回归损失函数中,得到当前预测值的损失值。关键点回归损失函数Lreg定义如下:
其中表示向量r的L2范数的平方。关键区域生成网络最后的操作是根据关键点和关键区域的几何关系生成关键区域,不同的关键区域有不同的生成方法。将左右肩膀、左右下摆四个关键点依次记为点1到点4,则服装正前方的图案区域可以通过点1、点2连线中点划横线,点3、点4连线中点划横线,点1、点3连线中点划竖线,点2、点4连线中点划竖线的方式得到;服装的领型区域生成方式为宽为点1、点2水平距离,高为点1、点2水平距离的1/3,中心为点1、点2连线中点的矩形区域。
步骤(1)所述的关键区域融合网络的设计如下:输入是步骤(1)的fbase和关键区域生成网络输出的多个关键区域,输出是局部特征和全局特征的融合特征。如图1所示,关键区域融合网络包含2个分支。第一个分支为服装全局特征的抽取,输入的fbase经过一个池化和一个全连接操作后,得到高维向量fglobal;第二个分支为服装的局部特征抽取,输入的fbase和步骤(1)的R经过关键区域池化和全连接操作后,得到高维向量flocal;最后将fgloval和flocal合并后得到的最终输出特征fcomb。关键区域池化具体过程为:
(1-1)设置输出集合为Res,对步骤(1)的关键区域集合R的每个关键区域r,执行下面操作:
(1-1-1)按fbase和原图的宽高比例,将r的坐标从原图转换到fbase,得到新的关键区域坐标位置r′=(x′r1,y′r1,x′r2,y′r2),x′r1、y′r1和x′r2、y′r2分别表示关键区域r在fbase特征图上的左上角横纵坐标和右下角横纵坐标。
(1-1-2)将fbase的r′区域分成kxk个小块,并在每个小块里取最大值组成新的数据块,将此数据块加入输出集合Res。
(1-2)将输出集合Res的t个kxk的数据块依次拼接,得到关键区域池化的输出,记作fcritic,其中t表示步骤(1)中的关键区域个数。
步骤(1)所述的属性分类损失定义如下:
其中APL表示属性预测损失,s表示第s张图,表示图像s对应的属性取值集合,其中表示图像s对应的第i个属性的真实取值,表示图像s对应的第i个属性预测输出,I为真值函数即输入为真时输出1否则输出0,|Ai|表示属性i的取值个数,N表示属性个数。
(2)准备步骤(1)所述深度学习模型的训练数据集、验证数据集和测试数据集。根据步骤(1)定义的图像数据B、图像关键点位置集合P和图像属性信息集合A准备模型训练的数据集X,X为三元组(B、P、A)的集合。将准备好的数据集按照6:2:2的比例分成训练数据集、验证数据集和测试数据集,分别记为Xtrain、Xval和Xtest
(3)训练关键区域生成网络。设置步骤(1)中深度学习模型的关键区域融合网络和属性预测任务的参数学习率系数(Learning rate multiplier)为0,VGG16的参数学习率系数为较小值(0.1),关键区域生成网络的参数学习率系数为较大值(1.0)。采用ImageNet训练得到的VGG16进行模型参数初始化,在步骤(2)所述的训练数据集Xtrain上采用小批次随机梯度下降(MSGD:Mini-batch Stochastic Gradient Descent)优化算法进行参数训练学习,使得VGG16和关键区域生成网络的参数得到有效更新,从而提高关键点位置回归预测的准确率。训练过程中,初始基学习率(base learning rate)为10e-2,当验证数据集Xval的关键点回归损失函数值达到较低值且趋向平稳时依次选择基学习率为{10e-3,10e-4,10e-5}继续训练,直到在验证数据集Xval上关键点回归损失函数值无法继续下降时停止训练。
(4)训练关键区域融合网络和属性预测任务。固定步骤(1)中深度学习模型的关键区域生成网络的参数学习率系数为0,设置VGG16、关键区域融合网络和属性预测任务的参数学习率系数分别为0.01、0.1、1.0。采用步骤(3)训练得到的关键区域生成网络的参数进行初始化,在步骤(2)的Xtrain数据集上采用MSGD优化算法进行属性预测任务训练。训练过程中通过观察在验证数据集Xval上损失函数值的变化情况来调整基学习率和各层参数学习率系数,基学习率的选值过程依次为10e-2、10e-3、10e-4、10e-5,各层参数学习率系数根据所在层次的高低依次设定为0.01、0.1、1.0,即低层的参数在相似数据集上训练得到的值差别都不大,因此将低层的参数学习率系数设为0.01,而高层是任务紧密相关的参数,因此参数学习率系数设置为1.0。
(5)关键区域生成网络第二次训练。由于在步骤(4)训练过程中改变了步骤(1)的深度学习模型中VGG16的参数,使得关键区域生成的效果下降,因此需要微调关键区域生成网络的参数。为了不影响关键区域融合网络和属性预测任务的效果,第二次训练关键区域生成模型的过程中不改变VGG16的参数,只调整关键区域生成网络的参数,即设置关键区域生成网络之外的所有层的参数学习率系数为0,其他的训练过程和步骤(3)一致。
(6)关键区域融合网络第二次训练。由于步骤(4)训练过程中关键区域生成网络的效果变差了,因此在步骤(5)之后需要再次训练关键区域融合网络和属性预测任务。此时,固定VGG16和关键区域生成网络的参数学习率系数为0,只调整关键区域融合网络和属性预测任务的参数,直到损失函数值在步骤(2)的验证数据集Xval上趋于稳定时停止训练。除了参数学习率系数设置不同外,其他的训练过程和步骤(4)一致。
(7)图像特征抽取。将图像输入到步骤(6)训练完成的深度学习模型中,进行深度网络的前向传播,输出步骤(1)所述的fcomb,得到面向服装图像检索的图像特征表示。

Claims (3)

1.一种面向服装图像检索的图像特征抽取方法,其特征在于包含以下步骤:
(1)设计融合关键区域特征的深度学习网络模型;该网络的输入包含图像数据、图像关键点位置集合和图像属性信息集合,分别记为B、P、A;B表示图像的原始数据,可以看做三维矩阵,三维分别表示图像通道数、图像高度和图像宽度;P={P1,...,Pi,...,Pm}表示图像关键点坐标集合,其中m表示关键点个数,Pi=(xi,yi)表示第i个关键点的位置,其中xi,yi分别表示关键点的横坐标和纵坐标;A表示图像对应的属性标签,包括颜色、类型、领型等,A={A1,...,Ai,...,An},其中n表示属性个数,Ai表示第i个属性的取值;图像数据B经过深度卷积网络VGG16处理后得到多个同宽高的特征图,记作fbase;然后将fbase输入关键区域生成网络,得到关键区域集合,记作R={R1,...,Ri,...,Rt},其中t表示关键区域的个数,Ri=(xi1,yi1,xi2,yi2}表示第i个关键区域,xi1、yi1和xi2、yi2分别表示第i个关键区域左上角的横纵坐标和右下角的横纵坐标;再然后将上述的fbase和R一同输入关键区域融合网络,输出局部特征和全局特征的融合特征,记作fcomb;最后将fcomb连接到多个Softmax属性分类器;
(2)准备步骤(1)所述深度学习模型的训练数据集、验证数据集和测试数据集;根据步骤(1)定义的图像数据B、图像关键点位置集合P和图像属性信息集合A准备模型训练的数据集X,X为三元组(B、P、A)的集合;将准备好的数据集按照6:2:2的比例分成训练数据集、验证数据集和测试数据集,分别记为Xtrain、Xval和Xtest
(3)训练关键区域生成网络;设置步骤(1)中深度学习模型的关键区域融合网络和属性预测任务的参数学习率系数(Learning rate multiplier)为0,VGG16的参数学习率系数为较小值(0.1),关键区域生成网络的参数学习率系数为较大值(1.0);采用ImageNet训练得到的VGG16进行模型参数初始化,在步骤(2)所述的训练数据集Xtrain上采用小批次随机梯度下降(MSGD:Mini-batch Stochastic Gradient Descent)优化算法进行参数训练学习,使得VGG16和关键区域生成网络的参数得到有效更新,从而提高关键点位置回归预测的准确率;训练过程中,初始基学习率(base learning rate)为10e-2,当验证数据集Xval的关键点回归损失函数值达到较低值且趋向平稳时依次选择基学习率为{10e-3,10e-4,10e-5}继续训练,直到在验证数据集Xval上关键点回归损失函数值无法继续下降时停止训练;
(4)训练关键区域融合网络和属性预测任务;固定步骤(1)中深度学习模型的关键区域生成网络的参数学习率系数为0,设置VGG16、关键区域融合网络和属性预测任务的参数学习率系数分别为0.01、0.1、1.0;采用步骤(3)训练得到的关键区域生成网络的参数进行初始化,在步骤(2)的Xtrain数据集上采用MSGD优化算法进行属性预测任务训练;训练过程中通过观察在验证数据集Xval上损失函数值的变化情况来调整基学习率和各层参数学习率系数,基学习率的选值过程依次为10e-2、10e-3、10e-4、10e-5,各层参数学习率系数根据所在层次的高低依次设定为0.01、0.1、1.0,即低层的参数在相似数据集上训练得到的值差别都不大,因此将低层的参数学习率系数设为0.01,而高层是任务紧密相关的参数,因此参数学习率系数设置为1.0;
(5)关键区域生成网络第二次训练;由于在步骤(4)训练过程中改变了步骤(1)的深度学习模型中VGG16的参数,使得关键区域生成的效果下降,因此需要微调关键区域生成网络的参数;为了不影响关键区域融合网络和属性预测任务的效果,第二次训练关键区域生成模型的过程中不改变VGG16的参数,只调整关键区域生成网络的参数,即设置关键区域生成网络之外的所有层的参数学习率系数为0,其他的训练过程和步骤(3)一致;
(6)关键区域融合网络第二次训练;由于步骤(4)训练过程中关键区域生成网络的效果变差了,因此在步骤(5)之后需要再次训练关键区域融合网络和属性预测任务;此时,固定VGG16和关键区域生成网络的参数学习率系数为0,只调整关键区域融合网络和属性预测任务的参数,直到损失函数值在步骤(2)的验证数据集Xval上趋于稳定时停止训练;除了参数学习率系数设置不同外,其他的训练过程和步骤(4)一致;
(7)图像特征抽取;将图像输入到步骤(6)训练完成的深度学习模型中,进行深度网络的前向传播,输出步骤(1)所述的fcomb,得到面向服装图像检索的图像特征表示。
2.如权利要求1所述的方法,其特征在于,步骤(1)的关键区域生成网络的设计进一步包含:
该网络输入是步骤(1)中的fbase,输出是多个关键点的坐标预测值以及根据这些关键点得到的多个关键区域;输入和输出之间包含一个池化层和两个全连接层,第二个全连接层的输出为关键点的坐标预测值集合,记作PT={PT1,...,PTi,...,PTm},其中m表示关键点个数,PTi=(xti,yti)表示第i个关键点的横纵坐标预测值;将图像关键点的坐标预测值集合PT和步骤(1)的图像关键点坐标集合P一同输入关键点回归损失函数中,得到当前预测值的损失值。关键点回归损失函数Lreg定义如下:
其中表示向量r的L2范数的平方,关键区域生成网络最后的操作是根据关键点和关键区域的几何关系生成关键区域,不同的关键区域有不同的生成方法;将左右肩膀、左右下摆四个关键点依次记为点1到点4,则服装正前方的图案区域可以通过点1、点2连线中点划横线,点3、点4连线中点划横线,点1、点3连线中点划竖线,点2、点4连线中点划竖线的方式得到;服装的领型区域生成方式为宽为点1、点2水平距离,高为点1、点2水平距离的1/3,中心为点1、点2连线中点的矩形区域。
3.如权利要求1所述的方法,其特征在于,步骤(1)的关键区域融合网络的设计进一步包含:
输入是步骤(1)的fbase和关键区域生成网络输出的多个关键区域,输出是局部特征和全局特征的融合特征;关键区域融合网络包含2个分支,第一个分支为服装全局特征的抽取,输入的fbase经过一个池化和一个全连接操作后,得到高维向量fglobal;第二个分支为服装的局部特征抽取,输入的fbase和步骤(1)的R经过关键区域池化和全连接操作后,得到高维向量flocal;最后将fglobal和flocal合并后得到的最终输出特征fcomb;关键区域池化具体过程为:
(1-1)设置输出集合为Res,对步骤(1)的关键区域集合R的每个关键区域r,执行下面操作:
(1-1-1)按fbase和原图的宽高比例,将r的坐标从原图转换到fbase,得到新的关键区域坐标位置r′=(x′r1,y′r1,x′r2,y′r2),x′r1,y′r1和x′r2,y′r2)分别表示关键区域r在fbase特征图上的左上角横纵坐标和右下角横纵坐标;
(1-1-2)将fbase的r′区域分成kxk个小块,并在每个小块里取最大值组成新的数据块,将此数据块加入输出集合Res;
(1-2)将输出集合Res的t个kxk的数据块依次拼接,得到关键区域池化的输出,记作fcritic,其中t表示步骤(1)中的关键区域个数;
步骤(1)所述的属性分类损失定义如下:
其中APL表示属性预测损失,s表示第s张图,表示图像s对应的属性取值集合,其中表示图像s对应的第i个属性的真实取值,表示图像s对应的第i个属性预测输出,I为真值函数即输入为真时输出1否则输出0,|Ai|表示属性i的取值个数,N表示属性个数。
CN201710487787.2A 2017-06-23 2017-06-23 一种面向服装图像检索的图像特征抽取方法 Pending CN109117437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710487787.2A CN109117437A (zh) 2017-06-23 2017-06-23 一种面向服装图像检索的图像特征抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710487787.2A CN109117437A (zh) 2017-06-23 2017-06-23 一种面向服装图像检索的图像特征抽取方法

Publications (1)

Publication Number Publication Date
CN109117437A true CN109117437A (zh) 2019-01-01

Family

ID=64733199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710487787.2A Pending CN109117437A (zh) 2017-06-23 2017-06-23 一种面向服装图像检索的图像特征抽取方法

Country Status (1)

Country Link
CN (1) CN109117437A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210523A (zh) * 2019-05-13 2019-09-06 山东大学 一种基于形状图约束的模特穿着衣物图像生成方法及装置
CN110232133A (zh) * 2019-05-16 2019-09-13 华中科技大学 一种基于特征融合和款式分类的服装图像检索方法和系统
CN110532409A (zh) * 2019-07-30 2019-12-03 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN113255237A (zh) * 2021-07-07 2021-08-13 杭州珞珈数据科技有限公司 一种基于自动化建模引擎的服装的检索模型及其方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210523A (zh) * 2019-05-13 2019-09-06 山东大学 一种基于形状图约束的模特穿着衣物图像生成方法及装置
CN110232133A (zh) * 2019-05-16 2019-09-13 华中科技大学 一种基于特征融合和款式分类的服装图像检索方法和系统
CN110532409A (zh) * 2019-07-30 2019-12-03 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN110532409B (zh) * 2019-07-30 2022-09-27 西北工业大学 基于异构双线性注意力网络的图像检索方法
CN113255237A (zh) * 2021-07-07 2021-08-13 杭州珞珈数据科技有限公司 一种基于自动化建模引擎的服装的检索模型及其方法

Similar Documents

Publication Publication Date Title
CN106295506A (zh) 一种基于集成卷积神经网络的年龄识别方法
CN105045907B (zh) 一种用于个性化社会图像推荐的视觉注意‑标签‑用户兴趣树的构建方法
CN109117437A (zh) 一种面向服装图像检索的图像特征抽取方法
CN101853295B (zh) 一种图像检索方法
CN108961245A (zh) 基于双通道深度并行卷积网络的图像质量分类方法
CN106033435B (zh) 物品识别方法和装置,室内地图生成方法和装置
CN108960499A (zh) 一种融合视觉和非视觉特征的服装流行趋势预测系统
CN107247938A (zh) 一种高分辨率遥感影像城市建筑物功能分类的方法
CN106778502A (zh) 一种基于深度残差网络的人群计数方法
CN104217073B (zh) 一种网络社团引力导引的可视化布局方法
CN108171209A (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN106650725A (zh) 基于全卷积神经网络的候选文本框生成和文本检测方法
CN109086668A (zh) 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN107784372A (zh) 目标对象属性的预测方法、装置和系统
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN110119688A (zh) 一种利用视觉注意力协同网络的图像情感分类方法
CN109558902A (zh) 一种快速目标检测方法
CN109063719A (zh) 一种联合结构相似性和类信息的图像分类方法
CN106096542A (zh) 基于距离预测信息的图像视频场景识别方法
CN109753995A (zh) 一种基于3d目标分类和场景语义分割的网络优化结构
CN104462526B (zh) 面向高分辨率遥感影像的多人在线协同快速矢量化方法
CN110047081A (zh) 胸部x光图像的实例分割方法、装置、设备及介质
CN109284760A (zh) 一种基于深度卷积神经网络的家具检测方法及装置
CN109614990A (zh) 一种目标检测装置
CN109376763A (zh) 基于多样本推理神经网络的样本分类方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190101