CN110825899B - 融合颜色特征和残差网络深度特征的服装图像检索方法 - Google Patents

融合颜色特征和残差网络深度特征的服装图像检索方法 Download PDF

Info

Publication number
CN110825899B
CN110825899B CN201910881793.5A CN201910881793A CN110825899B CN 110825899 B CN110825899 B CN 110825899B CN 201910881793 A CN201910881793 A CN 201910881793A CN 110825899 B CN110825899 B CN 110825899B
Authority
CN
China
Prior art keywords
feature
features
layer
network
clothing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910881793.5A
Other languages
English (en)
Other versions
CN110825899A (zh
Inventor
何儒汉
侯媛媛
刘军平
彭涛
陈常念
胡欣荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN201910881793.5A priority Critical patent/CN110825899B/zh
Publication of CN110825899A publication Critical patent/CN110825899A/zh
Application granted granted Critical
Publication of CN110825899B publication Critical patent/CN110825899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明属于图像检索技术领域,公开了一种融合颜色特征和残差网络深度特征的服装图像检索方法,将训练数据集输入到以ResNet50为基础的网络模型中;融合深层特征和颜色特征信息作为图像的全局特征表示;使用K‑Means算法对特征库中的向量进行聚类;将待检索的服装图片输入到与数据集相同的神经网络中,获取待查询服装图片的全局特征向量;依次计算聚类中心的向量与待检索图片向量间的距离,通过距离的比较来进行相似性度量,得到检索结果。实验结果显示,本发明能结合图片多种特征信息,检索效率高,时间开销小;提取的深层特征具有一定的有效性和层次性;具较强的鲁棒性和实用性,优于其它主流检索方法。

Description

融合颜色特征和残差网络深度特征的服装图像检索方法
技术领域
本发明属于图像检索技术领域,尤其涉及一种融合颜色特征和残差网络深度特征的服装图像检索方法。
背景技术
目前,最接近的现有技术:
伴随电子商务行业的快速发展,服装行业作为其中的重要一部分,其数据量不断增多,为了处理海量的服装图像数据,一种全新的线上服装搜索模式被用户所使用——“以图搜图”,其核心是图像检索技术。服装图像检索作为服装智能推荐、服装搜索等应用的核心,具有广泛的市场应用前景。服装展现出当代人的一种潮流趋势及品味,大量的语义及细节信息蕴含其中,服装的色彩搭配及款式是其重要的语义信息,纹理和材质等表现其细节信息。然而服装不规则的外形、柔软的材质、可变形性较强以及对光照敏感这些条件,使服装图像检索快速精准地实现成为了一个极具挑战的难题。基于内容的图像检索(Content-based Image Retrieval,CBIR)是服装图像检索领域研究的主流方法。图像检索的过程可大致分为两类:一是提取数据库图的表示向量,二是将待检索图片的表示向量与库向量中的每个向量进行距离度量,以最近邻方式进行搜索。一张图片表示向量的好坏直接决定了我们图像检索算法的优劣。早期的研究主要是基于颜色、形状、纹理三大视觉特征,将其单一特征或聚合特征作为服装图像的全局表示向量。黄冬梅等首先对待检索图片做了联合分割处理,然后提取出分割后的服装图片的Bundled和颜色特征,最后与特征库中的服装图像特征进行相似性度量。陶彬娇等将分块加权颜色直方图与Grabcut图像分割算法相结合,提升了对复杂背景的服装图片的检索效果,优于分别单独使用这两种方法。葛俊等进行两次检索:首先利用颜色直方图,再使用局部二值模式(Local BinaryPatterns,LBP)LBP算子对第一次的返回结果进行二次检索。Megha Gupta等获得服装图片的颜色和纹理的特征,然后通过计算向量距离得出检索结果。陈倩等计算颜色直方图的特征值占比,然后将其进行降序排列,去掉占比较小的值,则服装图片的主要颜色被保留并用于图像检索。近几年,随着深度学习的兴起,其在处理计算机视觉任务上有了一系列重大的突破,此方法利用深度神经网络从大量的训练数据集中提取深层特征,发现训练的图片信息中隐藏的表征特征。由于卷积神经网络(Convolutiona Neural Networks,CNN)具备较强的非线性表示能力,能学习到图片更深层次的信息,所以在图像分类、图像分割、目标检测等领域都体现出较好的性能。因此,如今基于卷积神经网络的服装图像检索方法成为了研究的主流方向。
早期CNN应用在图像检索方面,主要是提取深度网络的全连接层作为图片的特征向量,林成龙提出了一个更加轻量的深度卷积神经网络模型(Lighten-VGGNet),采用多任务分类方法对层次化标注后的服装图像数据分类,使得网络在分类时所提取的特征拥有对更多细化服装类别属性的表示能力,从而使服装图像分类准确率得以提升。然而只提取全连接层无法保持空间结构,且该特征更多的是表示全局信息,丢失了服装图片的局部特征信息,导致检索的平均查准率均值(mean average precision,mAP)较低,所以融合多种服装图片特征,成为服装图像检索的热门研究方法。陈媛媛等基于深度卷积神经网络定位服装关键点,将关键点局部区域的特征与全局特征进行融合。J.Huang等[26]提出双路神经网络模型,其方法不仅提取全连接层特征,同时对靠前的卷积特征层下采样,然后结果与全局特征组合在一起。Z.Liu等设计了目前最大的标注服装图像数据库DeepFashion(超过80万张图片,50个细粒度类别和1000个属性),其将VGG16最后一层卷积分为三个分支,一分支进行特征点可见性预测以及位置回归,另外两个分支分别提取图片的局部特征(有助于应对服饰变形和遮挡问题)和全局特征。Ruifan Li等采用多任务深度学习框架来学习表示,提出了用于不平衡学习的多重深度卷积神经网络。陈彦杰利用Faster RCNN的框架首先定位服装的位置,然后利用关键点定位对服装进行特征点(landmark)定位,抽取各特征点附近的服装特征作为局部特征。最后和全局分支的特征进行特征融合作为最终的特征表示。
虽然上述方法融合了局部和全局特征都在一定程度上提高了检索的mAP,但是检索出的服装款式相似而颜色差异较大,在服饰上,色彩起到了视觉醒目的作用,对于服装,人们首先看到的是颜色,其次才是其样式、纹理等,所以颜色在服装图片分类检索中有着一个重要属性,是评判检索优劣的重要指标之一,通过深度网络获取的特征涵盖的颜色信息较少,所以亟需一种新的服装图像检索方法。
综上所述,现有技术存在的问题是:
(1)现有技术只提取全连接层无法保持空间结构,且该特征更多的是表示全局信息,丢失了服装图片的局部特征信息,导致检索的平均查准率均值较低。
(2)将残差网络直接应用于服装图像检索时,其检索出的图片常存在款式相似但颜色差异较大的问题。
解决上述技术问题的难度:
(1)本发明采用的深度神经网络是以Resnet50为基础的,该网络结构层较多,若没有足够的数据集来进行网络训练,会出现过拟合的现象,不会达到预期效果。
(2)实验的服装颜色特征是在提取的深层网络特征的基础上得到的,所以选择在哪一层提取深层特征作为颜色特征提取的模板尤为重要,这直接关系到后续服装图像检索的效果。
(3)在检索时,服装库图片数量较多,为节省检索时间实验采用了K-means聚类算法进行检索,但是类簇数K值如何确定是个难题。
解决上述技术问题的意义:
(1)服装图片数据集足够多可以防止训练时出现过拟合现象,训练出更好的模型,获取更优的服装深层网络特征。
(2)选择合适的深层网络特征,与原图进行比对,获取效果更好的颜色特征向量,提高全局特征的表达效果,同时提高检索的准确率。
(3)选取合适类簇数K,对检索时间以及检索的结果都很重要,K值太大检索准确率虽然高一点但是时间过长,若K值太小检索时间虽然缩短但是准确率有所降低,所以选择合适的K值,确保准确率高的情况下检索时间足够短。
发明内容
针对现有技术存在的问题,本发明提供了一种融合颜色特征和残差网络深度特征的服装图像检索方法,包括特征提取和相似性度量两个过程;利用残差网络在图像特征提取上的有效性层次性,融合服装图片的深层网络特征和颜色特征作为最终特征向量,进行相似性度量,得到检索结果。
本发明是这样实现的,一种融合颜色特征和残差网络深度特征的服装图像检索方法,所述方法包括以下步骤:
步骤一,将训练数据集中的图片以224×224大小输入到ResNet50为基础的网络模型中,在提取第一个全连接层的输出向量作为我们实验的深层网络特征。
步骤二,获取颜色特征,使用聚合方法融合深层特征和颜色特征信息作为图像的全局特征表示,存建立特征库,将全局特征入特征库中。
步骤三,使用K-Means算法对特征库中的向量进行聚类,设置类簇数K=30,即服装数据集类别数维为30。
步骤四,将待检索的服装图片输入到与数据集相同的神经网络中,并使用步骤二所述聚合方法获取待查询服装图片的全局特征向量。
步骤五,依次计算聚类中心的向量与待检索图片向量间的距离,通过距离的比较来进行相似度的升序排序,得到与目标图片相似度最高的一个类簇,再与该类簇中的每个向量进行相似性度量,得到与目标图片特征向量距离最近的N(=5,10,20)返回结果。
进一步,所述步骤二包括:
提取FC1层512维向量作为深度特征向量;网络层的最后一层卷积层提取特征图进行平均池化得到一个矩阵,记录最大10个值的位置,对原图的RGB同样做平均池化得到矩阵,根据以上选出的10个位置,取出原图池化后矩阵相应位置的RGB值,得到一个的二维矩阵,将其标准化后转换为一个30维的向量,作为图片的颜色特征;将得到的两种向量进行串行合并,输出542维向量作为图片最终的全局特征表示,保存在特征库中。
进一步,所述深层网络特征提取的方法包括以下步骤:
1)向深度卷积网络输入一个C×H×W的三维张量,C表示特征的通道数,初始值为3;H和W分别表示输入图片的高和宽的像素大小。
2)图片经过多层卷积操作,每一层卷积的输入为上一层的输出,计算方法如下:
Figure BDA0002206096700000051
在(1)式中,
Figure BDA0002206096700000052
表示第l层的第j个运算结果;/>
Figure BDA0002206096700000053
表示第n层第j个输出特征图所对应的多个输入特征图的索引集合;/>
Figure BDA0002206096700000054
表示偏置项,其被所有输入特征图共享;/>
Figure BDA0002206096700000055
表示第l层一个i×j大小的卷积核;ReLU为激活函数,公式如下:
Figure BDA0002206096700000056
3)残差网络采用了平均池化(mean-pooling)对邻域内特征点求平均值,池化操作公式如下:
Figure BDA0002206096700000057
以Resnet50为主网络模型,ResNet50最后的卷积层输出若干个7X7的卷积结果,去掉其最后的两层全连接层,加入两个全连接层:FC1层和FC2层,分别输出512维和30维的特征向量。对网络模型进行微调,使用已有的ResNet50模型及参数,来训练全连接层的参数,得到一个拟合服装图片数据集的网络模型,提取FC1层的512维的向量,作为深层网络特征。
进一步,所述服装颜色特征提取的方法包括:
1)网络模型的最后一层卷积层中有2048个7x7卷积,对其进行平均池化后得出7x7的矩阵,直接提取信息较强位置最大的10个值,并记录其位置;
2)将原图的RGB值做平均池化,池化为7x7的矩阵,根据得到的10个值最大的位置,选出图片中相对应的10个RGB值得到3x10维的颜色特征,对矩阵进行标准化处理,z-score标准化公式如下:
Figure BDA0002206096700000061
式中x表示真实值;μ表示矩阵的平均值;σ表示标准差。
3)将矩阵转换为一个30维向量;将全连接层得到的512维向量与30维颜色向量进行并行连接,得到一个542维的特征向量,作为最终的特征表示。
本发明的另一目的在于提供一种实施所述融合颜色特征和残差网络深度特征的服装图像检索方法的融合颜色特征和残差网络深度特征的服装图像检索系统。
本发明的另一目的在于提供一种实现所述融合颜色特征和残差网络深度特征的服装图像检索方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的融合颜色特征和残差网络深度特征的服装图像检索方法。
综上所述,本发明的优点及积极效果为:
本发明提出的融合颜色特征和残差网络深度特征的服装图像检索方法,通过ResNet50预训练网络模型提取服装图片自身深层网络特征和颜色特征,之后将两个特征向量进行并行连接,最终通过K-Means对特征进行聚类检索,从而提高检索效率,减小时间开销。实验对比结果显示,本发明提出的方法,mAP明显要高于直接使用ResNet50深度网络提取的单一特征算法,且显示的检索图片效果款式和颜色相似性明显。
本发明以ResNet50为基础网络,提取出其深层征和颜色特征,然后融合全局特征和局部特征进行检索,综合考虑服装图片的多种特征。该方法在一个较大规模的服装图像数据集deepfashion的一个子集上进行,综合利用ResNet50提取图像的两种特征:深层网络特征和颜色特征,利用ResNet50全局平均池化(global average pooling,GAP)层降低模型的参数数量,与做平均池化后的原图对比获取颜色特征,融合颜色特征和深层网络特征,获得较好的特征表达能力,有益于取得较好的检索准确率。
本发明经过卷积后的特征图维数较高、参数较多,增加了计算的时间及计算难度,所以池化层作为一个重要操作出现在卷积操作之后,其不仅减小了网络模型的计算难度,而且提升了模型的泛化能力。同时FC1层融合了Resnet50网络中三个模块的网络特征,使提取的深层特征具有一定的有效性和层次性。
附图说明
图1是本发明实施例提供的融合颜色特征和残差网络深度特征的服装图像检索方法流程图。
图2是本发明实施例提供的融合颜色特征和残差网络深度特征的服装图像检索系统示意图。
图3是本发明实施例提供的融合颜色特征的深度网络模型示意图。
图4是本发明实施例提供的不同方法下每类服装的mAP(Top5)示意图。
图5是本发明实施例提供的Resnet50与Resnet50+Color特征提取检索对比图;
图中:图(a)和(b)是只提取ResNet50全连接层特征检索结果示意图;图(c)和(d)是融合颜色和深层特征的检索结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术只提取全连接层无法保持空间结构,且该特征更多的是表示全局信息,丢失了服装图片的局部特征信息,导致检索的平均查准率均值较低。将残差网络直接应用于服装图像检索时,其检索出的图片常存在款式相似但颜色差异较大的问题。
针对现有技术存在的问题,本发明提供了一种融合颜色特征和残差网络深度特征的服装图像检索方法,下面结合附图对本发明作详细的描述。
本发明实施例提供的融合颜色特征和残差网络深度特征的服装图像检索方法,所述方法包括以下步骤:
步骤一,将训练数据集中的图片以224×224大小输入到ResNet50为基础的网络模型中,提取出通过网络层输出的深层特征。
步骤二,建立特征库;使用聚合方法融合深层特征和颜色特征信息作为图像的全局特征表示,存入特征库中。
步骤三,使用K-Means算法对特征库中的向量进行聚类,设置类簇数K=30,即服装数据集类别数维为30。
步骤四,将待检索的服装图片输入到与数据集相同的神经网络中,并使用步骤二所述聚合方法获取待查询服装图片的全局特征向量。
步骤五,依次计算聚类中心的向量与待检索图片向量间的距离,通过距离的比较来进行相似度的升序排序,得到与目标图片特征向量距离最近的N(=5,10,20)返回结果。
下面结合具体实施例对本发明作进一步描述。
实施例1
1、基于深度网络的多特征融合服装图像检索框架
基于深度网络的多特征融合服装图像检索包括特征提取和相似性度量两个过程。如图2所示,特征提取过程中,先将数据集中的图片输入到预训练好的网络模型中,提取出通过网络层输出的深层特征,在使用聚合方法融合其他的特征信息作为图像的全局特征表示,存入到特征库中;相似性度量过程,是将待检索的服装图片输入到与数据集相同的神经网络中,并使用同种聚合方法,获取待查询服装图片的全局特征向量,通过比较待查询图片特征向量与特征库中向量的距离,来进行相似度的排序,按距离升序排列返回检索结果。
2、融合颜色特征和残差网络深度特征的方法
2.1实验模型
针对直接提取全连接层的特征进行服装图像检索而带来的颜色效果不鲜明的问题,充分提取服装图片的特征,提高其检索的平均准确率,一种融合颜色特征和深度特征的服装图像检索方法被提出。因实验数据集较大,网络层的加深有利于训练大型数据集,但有时深层网络训练时出现过拟合效果反而没有浅层网络好,增对这种情况,残差网络出现,随之,在各种计算机视觉领域被广泛应用,其解决了网络层越多效果反而不明朗的退化现象,以及网络层增加梯度爆照等问题,且Resnet50网络自身融合了多层网络结构,具有一定的层次性,所以本发明的实验预训练网络模型以Resnet50为基础,去掉其最后的两层全连接层,增加FC1层和FC2层,分别输出512维和30维(本实验数据集选取了30种类别的图片)的特征向量。融合颜色特征的深度网络模型如图3所示。
2.2如图1所示,本发明实施例提供的融合颜色特征和残差网络深度特征的服装图像检索方法步骤如下:
S101:将训练数据集中的图片以224×224大小输入到ResNet50为基础的网络模型中,提取出通过网络层输出的深层特征。
S102:融合深层特征和颜色特征得到图片全局特征,并建立特征库。提取FC1层512维向量作为深度特征向量;网络层的最后一层卷积层提取特征图进行平均池化得到一个矩阵,记录最大10个值的位置,对原图的RGB同样做平均池化得到矩阵,根据以上选出的10个位置,取出原图池化后矩阵相应位置的RGB值,得到一个的二维矩阵,将其标准化后转换为一个30维的向量,作为图片的颜色特征;将得到的两种向量进行串行合并,输出542维向量作为图片最终的全局特征表示,保存在特征库中。
S103:使用K-Means算法对特征库中的向量进行聚类,设置类簇数K=30(服装数据集类别数维30)。
S104:用相同方式获取待检索图片的全局特征向量。
S105:依次计算聚类中心的向量与待检索图片向量量的距离,得到与目标图片特征向量距离最近的N(=5,10,20)返回结果。
2.3深层网络特征提取
向深度卷积网络输入一个C×H×W的三维张量,C表示特征的通道数,初始值为3;H和W分别表示输入图片的高和宽的像素大小。在图2中,图片经过多层卷积操作,每一层卷积的输入为上一层的输出,计算方法如下:
Figure BDA0002206096700000101
在(1)式中,
Figure BDA0002206096700000102
表示第l层的第j个运算结果;/>
Figure BDA0002206096700000103
表示第n层第j个输出特征图所对应的多个输入特征图的索引集合;/>
Figure BDA0002206096700000104
表示偏置项,其被所有输入特征图共享;/>
Figure BDA0002206096700000105
表示第l层一个i×j大小的卷积核;ReLU为激活函数,公式如下:
Figure BDA0002206096700000106
经过卷积后的特征图维数较高、参数较多,增加了计算的时间及计算难度,所以池化层作为一个重要操作出现在卷积操作之后,其不仅减小了网络模型的计算难度,而且提升了模型的泛化能力。残差网络采用了平均池化(mean-pooling)对邻域内特征点求平均值,池化操作公式如下:
Figure BDA0002206096700000107
如图3所示,以Resnet50为主网络模型,ResNet50最后的卷积层输出若干个7X7的卷积结果,去掉其最后的两层全连接层,我们加入两个全连接层:FC1层和FC2层,分别输出512维和30维(本实验数据集选取了30种类别的图片)的特征向量。对网络模型进行微调,使用已有的ResNet50模型及参数,来训练全连接层的参数,得到一个拟合服装图片数据集的网络模型,提取FC1层的512维的向量,作为本文的深层网络特征。FC1层融合了Resnet50网络中三个模块的网络特征,使提取的深层特征具有一定的有效性和层次性。
2.4服装颜色特征提取
网络模型的最后一层卷积层中有2048个7x7卷积,因此可以直接利用卷积层后的特征图提取信息较强位置的RGB值,经过几十次卷积操作之后保留的特征图的信息更加具有针对性,对其进行平均池化后得出7x7的矩阵,在其中选择最大的10个值,并记录其位置,然后将原图的RGB值做平均池化,池化为7x7的矩阵,根据上一步得到的10个值最大的位置,选出图片中相对应的10个RGB值得到3x10维的颜色特征,将该矩阵标准化处理,z-score标准化公式如下:
Figure BDA0002206096700000111
式中x表示真实值;μ表示矩阵的平均值;σ表示标准差。之后将矩阵转换为一个30维向量。最后将全连接层得到的512维向量与30维颜色向量进行并行连接,得到一个542维的特征向量,作为最终的特征表示。
实施例2
1、数据和参数准备
为了验证本发明所提出的方法的效果,本实验选用了Category and AttributePrediction Benchmark作为数据集,该数据集包含20多万数量集的50种类别的服装图片,本实验从该子集中抽取6万训练集、2万测试集和2万验证集进行试验,其中有30种类别的图片。实验采用Python编译并实现。
特征库中所有图像的深度特征均是基于Pytorch框架的网络层所提取的,这些网络参数是在ImageNet数据集上预先训练好的。
2、数据和参数准备
在检索策略中,通常采用平均查准率均值(Mean Average Precision,mAP)来判断检索效果的优劣,一次检索完成后,与待检索图片相似的图片数量占检索出图片总数量的比例即为检索准确率。定义如下:
Figure BDA0002206096700000121
Figure BDA0002206096700000122
3、实验结果与分析
为判断融合服装颜色特征和深层网络特征的图像检索方法的性能优越性,一系列对比实验得以展开,分别以ImageNet上预训练的网络模型:VGG16、GoogleNet、Resnet50为基础进行微调,并提取倒数第二层全连接层的特征,然后以Resnet50网络结构为基础提取两种特征并进行融合(Resnet50+Color)。以四种方法进行实验对比,同时都采用K-Means聚类进行检索,根据实验检索返回的前N(=5,10,20)张图片来计算准确率,实验结果表1所示。从表1中可以得出,在服装数据集上,选择的几种卷积神经网络模型中,Resnet50的效果更好,所以本文选择以Resnet50为基础模型,并进行微调,同时增加了颜色特征之后的实验结果明显优于没有增加颜色特征的方法,两者相比,检索mAP在N(=5,10,20)时分别提升了4.45%、6.85%、2.49%。因为融合的多种特征比单一的特征更能表达图片的信息,所以本发明提出的方法能得到更优的检索结果。
表1算法模型的检索mAP比较%
算法模型 Top5 Top10 Top20
VGG16 82.32 78.26 57.22
GoogleNet 85.67 80.75 65.64
Resnet50 88.37 82.35 68.83
Resnet50+Color 92.82 89.24 71.32
因服装数据集类别较多,所以从30种类别中抽取了8种,在四种不同的算法下进行实验,每种服装图像Top5的检索准确率如图4所示。从单个类别的服装来看,由于每种类别服装图片数量不同造成准确率有所波动,但是本文提出的方法,平均检索准确率依然高于其他方法。
如图5所示,(a)和(b)表示只提取ResNet50全连接层特征的检索结果;(c)和(d)表示融合颜色特征之后的检索结果。从(a)和(b)两幅图可以看出,只提取全连接层特征,服装的款式虽然相似,但是颜色差异较大;(c)和(d)融合了两种特征之后,不论是服装的颜色还是款式,都能得到预期的效果,所以融合两种特征明显提高了服装图像检索的mAP,比单一的特征更能表示图片信息。
表2表示只提取ResNet50全连接层特征和提取两种特征并进行融合检索的准确率和时间对比,可以明显看出,融合了颜色特征和深层网络特征之后进行检索虽然提高了检索精度,但是检索时间增加了,原因在于,使用两种特征融合,增加了特征表示向量的维度,所以在进行相似性度时耗时要长一些。
表2Resnet50与Resnet50+Color方法检索mAP与时间比较(Top5)
算法模型 Top5 Time(s)
Resnet50 88.37% 0.032
Resnet50+Color 92.82% 0.053
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种融合颜色特征和残差网络深度特征的服装图像检索方法,其特征在于,所述融合颜色特征和残差网络深度特征的服装图像检索方法包括:
步骤一,将训练数据集中的图片以224×224大小输入到ResNet50为基础的网络模型中,提取出通过网络层输出的深层特征;深层网络特征提取的方法包括以下步骤:
1)向深度卷积网络输入一个C×H×W的三维张量,C表示特征的通道数,初始值为3;H和W分别表示输入图片的高和宽的像素大小;
2)图片经过多层卷积操作,每一层卷积的输入为上一层的输出,计算方法为:
Figure FDA0004219350230000011
式中,
Figure FDA0004219350230000012
表示第l层的第j个运算结果;/>
Figure FDA0004219350230000013
表示第n层第j个输出特征图所对应的多个输入特征图的索引集合;/>
Figure FDA0004219350230000014
表示偏置项,其被所有输入特征图共享;/>
Figure FDA0004219350230000015
表示第l层一个i×j大小的卷积核;ReLU为激活函数,公式为:
Figure FDA0004219350230000016
3)残差网络采用了平均池化对邻域内特征点求平均值,池化操作公式为:
Figure FDA0004219350230000017
以Resnet50为主网络模型,ResNet50最后的卷积层输出若干个7X7的卷积结果,去掉其最后的两层全连接层,加入两个全连接层:FC1层和FC2层,分别输出512维和30维的特征向量;对网络模型进行微调,使用已有的ResNet50模型及参数来训练全连接层的参数,得到一个拟合服装图片数据集的网络模型,提取FC1层的512维的向量,作为深层网络特征;
步骤二,建立特征库;使用聚合方法融合深层特征和颜色特征信息作为图像的全局特征表示,存入特征库中;服装颜色特征提取的方法包括:
1)网络模型的最后一层卷积层中有2048个7x7卷积,对其进行平均池化后得出7x7的矩阵,直接提取信息较强位置最大的10个值,并记录其位置;
2)将原图的RGB值做平均池化,池化为7x7的矩阵,根据得到的10个值最大的位置,选出图片中相对应的10个RGB值得到3x10维的颜色特征,对矩阵进行标准化处理,z-score标准化公式为:
Figure FDA0004219350230000021
式中,x表示真实值,μ表示矩阵的平均值,σ表示标准差;
3)将矩阵转换为一个30维向量;将全连接层得到的FC1层的512维向量与30维颜色向量进行并行连接,得到一个542维的特征向量,作为最终的特征表示,保存在特征库中;
步骤三,使用K-Means算法对特征库中的向量进行聚类,设置类簇数K=30,即服装数据集类别数维为30;
步骤四,将待检索的服装图片输入到与数据集相同的神经网络中,并使用步骤二所述聚合方法获取待查询服装图片的全局特征向量;
步骤五,依次计算聚类中心的向量与待检索图片向量间的距离,通过距离的比较来进行相似度的升序排序,得到与目标图片特征向量距离最近的N张图片返回结果,其中N=5,10,20。
2.一种实施权利要求1所述融合颜色特征和残差网络深度特征的服装图像检索方法的融合颜色特征和残差网络深度特征的服装图像检索系统。
3.一种实现权利要求1所述融合颜色特征和残差网络深度特征的服装图像检索方法的信息数据处理终端。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的融合颜色特征和残差网络深度特征的服装图像检索方法。
CN201910881793.5A 2019-09-18 2019-09-18 融合颜色特征和残差网络深度特征的服装图像检索方法 Active CN110825899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881793.5A CN110825899B (zh) 2019-09-18 2019-09-18 融合颜色特征和残差网络深度特征的服装图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881793.5A CN110825899B (zh) 2019-09-18 2019-09-18 融合颜色特征和残差网络深度特征的服装图像检索方法

Publications (2)

Publication Number Publication Date
CN110825899A CN110825899A (zh) 2020-02-21
CN110825899B true CN110825899B (zh) 2023-06-20

Family

ID=69548000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881793.5A Active CN110825899B (zh) 2019-09-18 2019-09-18 融合颜色特征和残差网络深度特征的服装图像检索方法

Country Status (1)

Country Link
CN (1) CN110825899B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522985B (zh) * 2020-04-21 2023-04-07 易拍全球(北京)科贸有限公司 基于深浅层特征提取与融合的古董艺术品图像检索方法
CN111798286A (zh) * 2020-04-26 2020-10-20 北京沃东天骏信息技术有限公司 物品搭配方法、物品搭配模型的构建方法和计算机
CN111737512B (zh) * 2020-06-04 2021-11-12 东华大学 基于深度特征区域融合的丝绸文物图像检索方法
CN112069075B (zh) * 2020-09-09 2023-06-30 网易(杭州)网络有限公司 游戏角色的时装测试方法、装置和游戏客户端
CN112116000A (zh) * 2020-09-16 2020-12-22 深圳印像数据科技有限公司 针对服装类型的图像识别方法
CN112417197B (zh) * 2020-12-02 2022-02-25 云从科技集团股份有限公司 一种排序方法、装置、机器可读介质及设备
CN112489119B (zh) * 2020-12-21 2023-01-31 北京航空航天大学 一种增强可靠性的单目视觉定位方法
CN113159185A (zh) * 2021-04-23 2021-07-23 山东交通学院 一种基于嵌套网络模型的相似图像检索方法及系统
CN113065521B (zh) * 2021-04-26 2024-01-26 北京航空航天大学杭州创新研究院 物体识别方法、装置、设备及介质
CN113486884A (zh) * 2021-06-15 2021-10-08 上海电力大学 一种基于稠密网络和多相似损失的服饰检索方法
CN113343019B (zh) * 2021-06-29 2022-11-18 华南理工大学 一种结合浅层与深层特征的小样本丝织品图像检索方法
CN115495603B (zh) * 2022-09-26 2023-11-24 江苏衫数科技集团有限公司 一种服装图像检索方法和系统
CN115269912B (zh) * 2022-09-29 2023-01-06 浙江省公众信息产业有限公司无线运营分公司 图像检索方法及系统
CN116701695B (zh) * 2023-06-01 2024-01-30 中国石油大学(华东) 一种级联角点特征与孪生网络的图像检索方法及系统
CN116680435B (zh) * 2023-08-03 2024-01-19 南昌航空大学 一种基于多层特征提取的相似图像检索匹配方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635141A (zh) * 2019-01-29 2019-04-16 京东方科技集团股份有限公司 用于检索图像的方法、电子设备和计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203448B (zh) * 2016-07-08 2019-03-12 南京信息工程大学 一种基于非线性尺度空间的场景分类方法
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
EP3709216B1 (en) * 2018-02-09 2023-08-02 Bayerische Motoren Werke Aktiengesellschaft Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera
CN109785227A (zh) * 2018-12-29 2019-05-21 天津大学 基于卷积神经网络的人脸情感颜色迁移方法
CN109740673A (zh) * 2019-01-02 2019-05-10 天津工业大学 一种融合暗通道的神经网络烟雾图像分类方法
CN110175566B (zh) * 2019-05-27 2022-12-23 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635141A (zh) * 2019-01-29 2019-04-16 京东方科技集团股份有限公司 用于检索图像的方法、电子设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Detection of Key Organs in Tomato Based on Deep Migration Learning in a Complex Background;Sun,J等;Agriculture;第1-15页 *

Also Published As

Publication number Publication date
CN110825899A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110825899B (zh) 融合颜色特征和残差网络深度特征的服装图像检索方法
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN110245593B (zh) 一种基于图像相似度的手势图像关键帧提取方法
CN107506793B (zh) 基于弱标注图像的服装识别方法及系统
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
CN107122396A (zh) 基于深度卷积神经网络的三维模型检索算法
CN104281572B (zh) 一种基于互信息的目标匹配方法及其系统
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN110188763B (zh) 一种基于改进图模型的图像显著性检测方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN106874421A (zh) 基于自适应矩形窗口的图像检索方法
Liu et al. Cbl: A clothing brand logo dataset and a new method for clothing brand recognition
Li et al. Lcnn: Low-level feature embedded cnn for salient object detection
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
Xiong et al. RGB-D scene recognition via spatial-related multi-modal feature learning
CN113870279A (zh) 多模态脑肿瘤图像分割系统及方法
Tena et al. Content-based image retrieval for fabric images: A survey
CN110287369A (zh) 一种基于语义的视频检索方法及系统
CN117115404A (zh) 三维虚拟场景调整的方法、装置、计算机设备和存储介质
Ebrahimy et al. IoT based smart surveillance monitoring by using model-based human action recognition design
Chen et al. An improved local descriptor and threshold learning for unsupervised dynamic texture segmentation
Liu et al. Clothing brand logo prediction: From residual block to dense block
CN112070116B (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
CN113268625A (zh) 一种基于交叉熵损失函数的细粒度布料图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant