CN112214630B

CN112214630B - 基于膨胀卷积残差网络的服装图像检索系统及方法

Info

Publication number: CN112214630B
Application number: CN202010944929.5A
Authority: CN
Inventors: 陈佳; 张毅; 胡新荣; 何儒汉
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-03-08
Anticipated expiration: 2040-09-10
Also published as: CN112214630A

Abstract

本发明涉及一种基于膨胀卷积残差网络的服装图像检索系统及方法，传统的特征提取方法不能有效地提取深层的语义特征，本发明提出了基于膨胀卷积残差网络模型的服装图像特征提取方法，该网络模型融合膨胀卷积较大感受野的优势以及残差网络提取深层语义特征的优势。实验充分证明，DCRN模型提升了特征提取的准确度和鲁棒性。本发明还提出了混合距离度量算法(MD)，该方法融合了余弦距离和马氏距离。余弦距离擅长稳定地距离计算，同时马氏距离的度量学习在不同类型样本中拥有很强的泛化能力。因此，本发明所提出的MD能利用余弦距离和马氏距离度量学习的互补优势来稳定、高效地对特征向量进行排序，进而得到较准确的检索结果。

Description

基于膨胀卷积残差网络的服装图像检索系统及方法

技术领域

本发明涉及图像检索领域，具体涉及一种基于膨胀卷积残差网络的服装图像检索系统及方法。

背景技术

服装检索系统中，服装的特征抽取是非常重要的一环，特征提取的准确度影响到服装检索的最终结果。在传统的特征提取中，吴传彬等人使用方向梯度的直方图(HOG)提取了服装图像的边缘特征，但该方法对服装的形状等其他浅层信息考虑不足。Weng等人在颜色特征中加入位置信息形成颜色矩。然后，通过级联颜色矩得到级联颜色矩特征，该算法改善了传统颜色矩算法精度低的问题，但是，运算效率低。近年来还有其他传统特征提取方法，例如，Gabor变换域积分直方图、改进型局部二值算法，但是，特征提取的性能都没有本质性改变。

在传统的特征提取发展的同时，基于深度神经网络(DNN)的特征提取方法也取得了丰硕的成果。而其中的卷积神经网络(CNN)是一种高效的深度学习框架。在众多的特征提取应用中，CNN都取得了很好的效果。Hinton等人的开创性工作之后，基于CNN的方法开始逐渐占据主导地位。王振等人利用可变卷积实现服装特征提取，该方法的优势在于精度高，但其泛化能力较差。王志伟等人通过YOLOv3模型提取服装的全局、主体和部件的特征，然后，通过稠密网络叠加这三种服装特征，有效提高了特征提取准确度，但也大幅度地增加了时间消耗。Schuster等人利用膨胀卷积获取较大的接收野，然后通过叠加卷积融合多层次的图像特征，该方法有效地提升了特征提取的准确率，但在网络深度上还有待提高。

发明内容

本发明要解决的技术问题是针对以上不足，提供一种基于膨胀卷积残差网络的服装图像检索系统及方法。

为解决以上技术问题，本发明采用以下技术方案：

基于膨胀卷积残差网络的服装图像检索方法，包括以下步骤：

步骤1、对待检索的服装图像进行预处理，得到预处理后的服装图像；

步骤2、通过Stem模块提取预处理后的服装图像的服装细节信息；

步骤3、将步骤2得到的服装细节信息通过膨胀卷积残差网络模块进行处理得到相应的深层次语义特征；

步骤4、对上步所获得的深层次语义特征经过二值检索向量模块生成高维向量；

步骤5、采用主成分分析(Principal Component Analysis，PCA)算法将上一步得到的高维向量进行降维，得到待检索的服装图像的特征向量x，通过混合距离度量算法分别计算特征向量x与图像数据库中各个图像的特征向量的空间距离，利用空间距离计算图像数据库中所有图像与待检索的服装图像的相似性，并进行相似性排序；

步骤6、按顺序输出图像数据库中相似度排序靠前的前k个图像结果。

进一步的，Stem模块用于提取服装的边缘、转角和颜色信息，Stem模块包括7个串联的卷积层、第8层卷积组和第9层叠加层，第1层卷积到第7层池化层是多个小尺寸的卷积层串联,第8层卷积组用于并行提取多个感受野，第8层卷积组包括四个水平层，其中第1水平层采用最大池化层进行特征融合，第2、3和4水平层用于分别提取尺寸由小到大的感受野的特征图，第3水平层中，采用1*5的非对称卷积层和5*1的非对称卷积层。

进一步的，所述膨胀卷积残差网络模块包括4个串联的膨胀卷积残差网络单层。

进一步的，所述膨胀卷积残差网络单层中包括跳线结构，且都使用padding＝same模式。

进一步的，所述二值检索向量模块包括顺次串联的最大池化层、全局平均池化层和全连接层。

基于膨胀卷积残差网络的服装图像检索方法，所述混合距离度量算法包括以下步骤：

步骤1、对于图像数据库的图像信息建立优化函数，计算出能够反映样本空间特性的度量矩阵M；

步骤2、计算向量x和向量y之间的余弦距离

计算特征向量x和图像数据库中一个图像的特征向量y之间的马氏距离

步骤3、根据公式dist(x,y)＝dist_C(x,y)+dist_M(x,y)计算得到向量x和特征向量y之间的空间距离。

进一步的，利用triple损失函数对度量矩阵M进行反向传播优化。

进一步的，步骤5中利用高维近似近邻搜索的随机算法计算图像数据库中所有图像与待检索的服装图像的相似性。

基于膨胀卷积残差网络的服装图像检索系统，包括预处理模块、Stem模块、膨胀卷积残差网络模块、二值检索向量模块、混合距离度量算法计算模块和高维近似近邻搜索的随机算法计算模块；

预处理模块用于对待检索的服装图像进行预处理，得到预处理后的服装图像；

Stem模块用于提取预处理后的服装图像的服装细节信息；

膨胀卷积残差网络模块用于对得到的服装细节信息通过进行处理得到相应的深层次语义特征；

二值检索向量模块用于利用上步所获得的深层次语义特征生成高维向量；

混合距离度量算法计算模块用于采用主成分分析算法将高维向量进行降维，得到待检索的服装图像的特征向量x，通过混合距离度量算法分别计算特征向量x与图像数据库中各个图像的特征向量的空间距离；

高维近似近邻搜索的随机算法计算模块用于利用空间距离计算图像数据库中所有图像与待检索的服装图像的相似性，并进行相似性排序，并按顺序输出图像数据库中相似度排序靠前的前k个图像结果。

本发明的有益效果为：

1、传统的特征提取方法不能有效地提取深层的语义特征，本发明提出了基于膨胀卷积残差网络(Dilated Convolutional Residual Networks，DCRN)模型的服装图像特征提取方法，该网络融合膨胀卷积较大感受野的优势以及残差网络提取深层语义特征的优势。实验充分证明，DCRN模型提升了特征提取的准确度和鲁棒性。

2、在样本的种类改变时，传统的距离函数，例如余弦距离和欧式距离，需要重新训练参数。马氏距离的计算效率低,在计算过程中，由于协方差矩阵可能不存在，马氏距离的度量学习存在一定的局限性。本发明提出混合距离度量算法(MD)。余弦距离擅长稳定地距离计算，同时马氏距离的度量学习在不同类型样本中拥有很强的泛化能力。因此，本发明所提出的MD能利用余弦距离和马氏距离度量学习的互补优势来稳定、高效地对特征向量进行排序。

附图说明

图1为本发明的方法流程示意图；

图2为Stem模块结构图；

图3为膨胀卷积残差网络(DCRN)模块结构图；

图4为膨胀卷积残差网络(DCRN)单层结构图；

图5为二值检索向量模块结构图；

图6为本发明DCRN+MD的Top-5检索效果图；

图7为不同特征提取模块top-k准确率的对比图；

图8为不同排序模块top-k准确率的对比图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明的方法包括以下步骤：

步骤1、输入一张待检索的服装图像，对其进行预处理，包括:图像降噪，切割和增广处理；

步骤2、通过Stem模块提取服装细节信息，例如服装的纹理、颜色等底层信息；

步骤3、将这些细节信息通过膨胀卷积残差网络模块(DCRN)得到相应的深层次语义特征，例如服装部件的形状和图像中的相对位置。

步骤4、对上步所获得的特征经过二值检索向量模块生成高维向量；

步骤5、采用主成分分析(Principal Component Analysis，PCA)算法将上一步得到的高维向量进行降维，得到待检索的服装图像的特征向量x，通过混合距离度量算法分别计算特征向量x与图像数据库中各个图像的特征向量的空间距离，使用高维近似近邻搜索的随机算法，利用空间距离计算图像数据库中所有图像与待检索的服装图像的相似性，并进行相似性排序；

步骤6、按顺序输出相似度排序靠前的前k个结果。

一、基于膨胀卷积残差网络的特征提取方法

(1)Stem模块

Stem模块主要提取服装的边缘、转角、颜色、等信息。如图2所示，将229*229的待检索服装图像输入stem模块，表1为本实施例中Stem模块的结构参数设置该模块从第1层卷积Stem-Conv1到第7层池Stem-MaxPool_2是多个小尺寸的卷积串联，从而起到了中等感受野的效果，同时前7层池化层填充padding设置为“valid”,目的是为了逐步提取细节图。第8层卷积组是并行提取多个感受野，其中第1水平层采用最大池化层Stem-MaxPool_3进行特征融合，从而更多的保留了服装图像的背景信息；第2，3，4水平层是分别提取尺寸为1、尺寸为5、尺寸为3的感受野的特征图，其中第3水平层中，采用1*5的非对称卷积Stem-Conv8和5*1的非对称卷积Stem-Conv9，从而减小了参数个数和计算耗时。通过第8层这种同层堆叠Stem-concat，提高了对不同像素尺寸特征的识别率，例如服装转角、领口和袖口。

表1 Stem模块的结构参数设置

(2)膨胀卷积残差网络(DCRN)模块

CNN能高效提取服装图像的浅层信息。然而，对于服装的深层语义信息，CNN只能逐步增大卷积核尺寸提高感受野。该方法的弊端在于参数量急剧增加，训练时间增长和过拟合问题。本发明通过膨胀卷积寻找新的方法，增大感受野。

该膨胀卷积残差网络模块，由4个串联的膨胀卷积残差网络单层DCRN1、DCRN2、DCRN3、DCRN4构成，如图3所示。表2为DCRN模块的结构参数设置，表3为本实施例中DCRN单层的结构参数设置。本发明在不同层级的膨胀卷积残差网络层引入跳线结构，该结构能够让反向传播的信号到底层，从而优化了梯度消失问题，同时也增加了不同层级的特征图的复用性。为了保证跳线的可行性，膨胀卷积残差网络单层都使用“padding＝same”模式。在膨胀卷积残差网络层内，通过两个1*1卷积的瓶颈结构从而提高计算效率、减少参数数目。

表2 DCRN模块的结构参数设置

Layer	Output
		Input-Layer	3535320
DCRN 1	3535320
		DCRN 2	3535320
DCRN 3	3535320
		DCRN 4	3535320
Concate	35351750
		Next-Layer	35351750

本发明提出的膨胀卷积残差网络抛弃了传统残差单元中的普通卷积模块，使用膨胀卷积残差网络单层进行构建，如图4所示。通过Bottleneck结构降低了输入维度，简化了计算。首先将上个模块的输出通过1*1的卷积，然后再通过4个并联的膨胀卷积Single-Conv1、Single-Conv3、Single-Conv5、Single-Conv7。4层膨胀卷积组合的优点是，在计算量不变的前提下，获得大尺寸的感受野且不易过拟合。为了保证卷积核的连续性，设计遵循了混合膨胀卷积框架的设计原则(Hybrid Dilated Convolution)，膨胀率设计为r＝1,2,3,4。由公式5-1可知，通过运用膨胀卷积，大幅度地提高了感受野，从而提高了空间信息利用率。最后，对结果进行叠加Single-concat，并经过1*1卷积Single-Conv8，该卷积是bottleneck结构一部分，通过1*1卷积，使得维度升高到与输入维度相同。其结果和shortcut短接的特征图相加进入下个模块。

outputSize＝dilationRate×(inputSize-1)+1 (5-1)

表3 DCRN单层的结构参数设置

(3)二值检索向量模块

表4为本实施例中二值检索向量模块的参数设置，该模块最终输出是服装图像的高维特征。模块中，首先最大池化层MaxPool_1层，该层用于提取局部特征；其次是全局平均池化层(Global Average Pooling，GAP)，GAP的优势是更好地保留原始特征的空间信息，然后是全连接层(Fully Connected，FC)，FC是在全图像范围内，提取特征和记录特征的相对位置信息。如图5所示。由于提取全局特征，DCRN模块对服装的风格和款式更加敏感。

表4二值检索向量模块参数设置

Layer	Output	K-Size	Stride
				Pre-Layer	35351750	/	/
MaxPool 1	17171750	3*3	2
				GlobalPooL	114096	17*17	1
FC	/	/	/
				Next-Layer	114096	/	/

(4)相似度排序

本发明开创性地提出了混合距离度量算法(Mixed Distance with Cosinedistance，MD)，使用MD方法实现特征向量的距离计算,然后，使用高维近似近邻搜索的随机算法(Randomized Algorithm for Approximate Nearest Neighbor Search in HighDimensions)进行相似度排序。

距离函数是定义集合中的元素距离。经典的距离函数仅仅适合单一类型的样本，而不适用混合类型样本，即根据不同任务构造不同的距离函数。针对这种问题，本发明提出混合距离度量算法(MD)，公式如下：

dist(x,y)＝dist_C(x,y)+dist_M(x,y) (5-2)

其中，第1部分dist_C(x,y)为余弦距离公式(5-4)，第2部分dist_M为马氏距离公式(5-3)。马氏距离的度量矩阵M是监督学习要训练的对象。

其中，x,y表示2个n维向量x和y。M是度量矩阵,通过监督学习，训练度量矩阵M。

余弦距离是计算两个向量之间夹角的余弦值，用余弦值度量二者之间的距离远近，进而评价二者相似度，余弦距离公式如下：

其中，x,y表示2个n维向量x和y。

本发明模型首先对于训练集的样本信息建立优化函数，计算出能够反映样本空间特性的度量矩阵，然后利用算法进行训练。马氏距离考虑到了各种属性的相关性和尺度的无关性，马氏距离弥补了余弦距离泛化能力差的缺点。余弦距离也弥补马氏距离计算过程中协方差矩阵可能无解的缺点。

(5)相似度排序

在反向传播的训练中，triple损失函数是

其中，A是目标样本；P是正样本，即跟A同类样本；N是负样本，即跟A是不同类样本。

是目标A跟正样本的距离；

是A跟负样本距离；超参数α是间隔阈值，若dist(A,P)-dist(A,N)+α≤0,则(5-5)式等于0,反之Loss值为正数。

该Loss(A,P,N)训练的目标是使A跟正样本P的距离dist(A,P)尽量小，跟负样本N距离dist(A,N)尽可能的大。本发明通过反向传播优化马氏距离公式中的度量矩阵M。

实验效果图

在DeepFashion数据集中，DCRN+MD方法取得了良好的效果。图6是DCRN+MD方法的Top-3检索效果图。如图所示，本发明DCRN特征提取模块不仅能提取服装的细节信息，还能提取语义信息；MD模块能有效地计算特征距离并排序。

自比较试验

(1)MD模块验证实验

为了验证DCRN模块的有效性，在使用相同的MD相似度排序模块的前提下，本发明比较5种主流的特征提取模块，如图8所示，DCRN+MD模块的检索结果最优，最优准确率(accuracy)为0.860；而VGG16+MD模块的检索准确率(accuracy)为0.276。当k＝20时候，DCRN+MD模块组合具有最大的优势，其准确率(accuracy)比第二名多出0.08。这证明传统卷积构成的残差网络(ResNet)和普通的卷积神经网络(CNN)不能有效地服装深层次的语义信息，而DCRN+MD模块能够有效提取服装的语义特征。

(2)MD模块验证实验

为了验证MD模块将马氏距离和余弦距离结合的有效性。在使用相同的DCRN特征提取模块前提下，实验使用下列不同的相似度排序的模块，设计了对比实验，结果如图8所示，由图8可知，本发明的方法的准确率相比常规方法有了较大提升。

以上所述为本发明最佳实施方式的举例，其中未详细述及的部分均为本领域普通技术人员的公知常识。本发明的保护范围以权利要求的内容为准，任何基于本发明的技术启示而进行的等效变换，也在本发明的保护范围之内。

Claims

1.基于膨胀卷积残差网络的服装图像检索方法，其特征在于，包括以下步骤：

步骤2、通过Stem模块提取预处理后的服装图像的服装细节信息；Stem模块用于提取服装的边缘、转角和颜色信息，Stem模块包括7个串联的卷积层、第8层卷积组和第9层叠加层，第1层卷积到第7层池化层是多个小尺寸的卷积层串联,第8层卷积组用于并行提取多个感受野，第8层卷积组包括四个水平层，其中第1水平层采用最大池化层进行特征融合，第2、3和4水平层用于分别提取尺寸由小到大的感受野的特征图，第3水平层中，采用1*5的非对称卷积层和5*1的非对称卷积层；步骤3、将步骤2得到的服装细节信息通过膨胀卷积残差网络模块进行处理得到相应的深层语义特征；

步骤4、对上步所获得的深层次语义特征经过二值检索向量模块生成高维向量；所述二值检索向量模块包括顺次串联的最大池化层、全局平均池化层和全连接层；

步骤5、采用主成分分析算法将上一步得到的高维向量进行降维，得到待检索的服装图像的特征向量x，通过混合距离度量算法分别计算特征向量x与图像数据库中各个图像的特征向量的空间距离，利用高维近似近邻搜索的随机算法计算图像数据库中所有图像与待检索的服装图像的相似性,并进行相似性排序；

所述混合距离度量算法包括以下步骤：

步骤5.1、对于图像数据库的图像信息建立优化函数，计算出能够反映样本空间特性的度量矩阵M；

步骤5.2、计算向量x和向量y之间的余弦距离

步骤5.3、根据公式dist(x,y)＝dist_C(x,y)+dist_M(x,y)计算得到向量x和特征向量y之间的空间距离，M为度量矩阵；

步骤6、按相似度由小到大的顺序输出图像数据库中前k个图像结果。

2.根据权利要求1所述的基于膨胀卷积残差网络的服装图像检索方法，其特征在于，所述膨胀卷积残差网络模块包括4个串联的膨胀卷积残差网络单层。

3.根据权利要求2所述的基于膨胀卷积残差网络的服装图像检索方法，其特征在于，所述膨胀卷积残差网络单层中包括跳线结构，且都使用padding＝same模式。

4.根据权利要求1所述的基于膨胀卷积残差网络的服装图像检索方法，其特征在于，利用triple损失函数对度量矩阵M进行反向传播优化。

5.基于膨胀卷积残差网络的服装图像检索系统，其特征在于，包括预处理模块、Stem模块、膨胀卷积残差网络模块、二值检索向量模块、混合距离度量算法计算模块和高维近似近邻搜索的随机算法计算模块；

Stem模块用于提取预处理后的服装图像的服装细节信息；具体用于提取服装的边缘、转角和颜色信息，Stem模块包括7个串联的卷积层、第8层卷积组和第9层叠加层，第1层卷积到第7层池化层是多个小尺寸的卷积层串联,第8层卷积组用于并行提取多个感受野，第8层卷积组包括四个水平层，其中第1水平层采用最大池化层进行特征融合，第2、3和4水平层用于分别提取尺寸由小到大的感受野的特征图，第3水平层中，采用1*5的非对称卷积层和5*1的非对称卷积层；

二值检索向量模块用于利用上步所获得的深层次语义特征生成高维向量；所述二值检索向量模块包括顺次串联的最大池化层、全局平均池化层和全连接层；

混合距离度量算法计算模块用于采用主成分分析算法将高维向量进行降维，得到待检索的服装图像的特征向量x，通过混合距离度量算法分别计算特征向量x与图像数据库中各个图像的特征向量的空间距离；所述混合距离度量算法包括以下步骤：

步骤5.2、计算向量x和向量y之间的余弦距离

步骤5.3、根据公式dist(x,y)＝dist_C(x,y)+dist_M(x,y)计算得到向量x和特征向量y之间的空间距离，M为度量矩阵；高维近似近邻搜索的随机算法计算模块用于利用空间距离计算图像数据库中所有图像与待检索的服装图像的相似性，并进行相似性排序，并按顺序输出图像数据库中相似度排序靠前的前k个图像结果。