CN113920315A

CN113920315A - 一种基于卷积神经网络的服装属性识别方法

Info

Publication number: CN113920315A
Application number: CN202111197537.8A
Authority: CN
Inventors: 潘如如; 向军; 高卫东
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-11
Anticipated expiration: 2041-10-14
Also published as: CN113920315B

Abstract

本发明涉及服装图像识别领域，涉及一种基于卷积神经网络的服装属性识别方法。服装属性识别方法步骤如下：第一步，候选区的提取；第二步，对数据集中的矩形区域和标注区域内的图像进行预处理；第三步，候选区的特征提取和分类；第四步，对预选框定位精度进行衡量；第五步，校正识别区域。本发明通过对服装图像的局部特征识别其属性，提高了识别效率和精确度。

Description

一种基于卷积神经网络的服装属性识别方法

技术领域

本发明涉及服装图像识别领域，涉及一种基于卷积神经网络的服装属性识别方法。

背景技术

随着电子商务的流行和图像据的累计，如何从庞大的图像数据中快速挖掘出有用的信息成为一个迫切的需求并迅速成为一个研究热点。服装类目作为电商行业中的第一大类目，其需求更是迫切。针对服装图像分类任务，传统的方法是借助数字图像处理以及模式识别，通过对图像局部分割和特征提取等基于底层视觉特征或者手工设计的视觉特征来实现对服装图像的识别，这些基于底层特征的方法过于依赖特征提取，具有一定的局限性。

随着近期深度学习在图像分类识别任务上的突破，越来越多的深入学习的方法被用来解决服装图像分类和识别，这些方法虽能大大提高识别效率，但都是从图片整体上去识别其分类或属性，而很多服装的一些属性从局部就能辨别，因此通过图像局部识别的方法可以大大提高识别效率。

发明内容

本发明的目的是为了从庞大的图像数据中快速挖掘出有用的信息，从服装图像的局部特征区域来识别衣服的一些特征，提高服装图像识别的效率和精确度。

本发明的技术方案如下：

一种基于目标检测算法框架的服装属性识别方法，步骤如下：

第一步，候选区的提取；

优选地，本发明采用选择性搜索算法(Search Selective，后文简称SS算法)提取候选区区域。步骤如下：

首先使用基于图的分割方法将图像分割成许多小区域，然后通过各个区域间的颜色、纹理、尺寸、吻合度之间地相似性进行区域合并，得到每个可能存在的目标的矩形框，如附图2所示。

相比于原始SS算法，本发明使用不同通道的颜色矩来表示图像颜色特征，通过调整基于图的分割算法中的尺度和阈值来控制预选框的提取效果。

另外，根据所选的服装款式类型，结合服装各个属性的分类，尽量用一个最小的区域去框选目标特征区域，得到各个特征区域的标注实例，以此作为训练和测试模型的主要数据集。

第二步，对数据集中的矩形区域和标注区域内的图像进行预处理；

优选地，所述图像预处理，步骤如下：

由于后续的模型需要输入图像的尺寸一致，因此需要对SS算法得到的矩形框和标注的数据进行尺寸的归一化处理。本发明采用双线性插值对图像进行放缩处理，放缩系数由矩形框中比较长的一边进行决定，段边上的空白用全0进行填充，放缩实例如附图7所示。

第三步，候选区的特征提取和分类；

优选地，在进行特征提取的时候，本发明选取卷积神经网络对选区进行特征提取，并且在网络架构中使用Inception结构。其示意图如附图3所示，其中(a)中所示的结构主要作用是对空间特征进行聚合，(b)中所示结构除了聚合作用外，还可以降低特征图尺寸。

优选地，在进行预测图像分类时，本发明选取L-Softmax分类器。

在卷积神经网络中，最大熵损失是最常用的监督分量。尽管该组件很简单且很受欢迎，但它并没有明确鼓励对特性的判别式学习。本研究应用广义大边界最大损失(L-Softmax)，明确地鼓励了类间的可分性和类内特征之间的紧密性。

在进行候选区的特征提取和分类的步骤如下：

将经SS算法得到的候选区域经过尺寸归一化处理后，在稀疏神经网络CNN中进行前向传播，将最后池化层后的2048维特征向量提取出来，接下来用训练好的分类器预测其属于每个类别的可能性及分数，对于每个类别，图片中的预选框都会有一个分数。

第四步，对预选框定位精度进行衡量；

图片经过SS算法后会产生很多可能存在检测物体的矩形框，需要对这些预选框进行筛选并且评价边界框的定位精度。

优选地，本发明采用非极大值抑制来对提取的区域进行筛选评价。

利用非极大值抑制筛选选区的步骤如下：

首先假设有6个预选框，根据经过分类器后的分类概率排序，从小到大分别属于某一类的概率排序为A、B、C、D、E、F；

1)从最大概率的选区F开始，分别判断A～E与F的重叠度IOU是否大于某一个预先设定的阈值；

2)假设B、D和F的IOU大于设定的阈值，那么排除B和D，标记概率最大的矩形框F并保留下来；

3)从余下来的选区A、C、E中，选择概率最大的区域E，然后计算E与A、C的IOU,如果重叠度大于设定的阈值就排除,并且标记E是保留下来的第二个区域；

4)重复上述过程，直到筛选出所有保留下来的候选区。

第五步，校正识别区域；

算法标注的边界框不可能和标注的数据百分百的吻合，为了找到一个更接近真实边框的回归边框，优选地，本发明采用边界回归的方法，其步骤如下:

提取通过稀疏神经网络的池化层特征值，进行平移变换和尺度防缩。最终模型的输出是对目标边框的预测值。

本发明的有益效果：

本发明通过对服装图像的局部特征识别其属性，提高了识别效率和精确度。

附图说明

图1是本发明方法技术路线示意图；

图2是SS算法候选框示意图；

图3是深度神经网络示意图；

图4是区域重叠度IOU示意图；

图5是标注数据框示意图；

图6是在本发明实验条件下的候选框数量示意图；

图7是双线性插值图像缩放方法示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤一，标注数据；

对于服装不同的属性尽量用一个较小的区域框选目标特征区域并对其进行标注，如附图5所示，并以此作为标注数据，所有分类的标注数据都应达到1000以上。

步骤二，候选区的选择；

使用SS算法提取候选区域，此算法的步骤如下：

1)使用基于图的图像分割算法分割得到原始分割区域集合，用R＝{r₁,r₂,...r_n}表示；

2)计算相邻区域之间的相似度包括颜色相似度、纹理相似度、尺寸相似度以及吻合度，并存储在集合S中；

3)合并集合R中相似度最高的两个相邻区域r_p和r_q形成新的区域r_t，并在集合S中删除r_p和r_q相邻区域之间的相似度；

4)计算r_t和相邻区域之间的相似度，并将相似度的值存入集合S中，将r_t储存在集合R中；

5)迭代重复步骤3、4，直到集合S为空；

6)按照尺寸大小筛选出可能的候选框。

其中，步骤2)中在计算相似度时考虑了四个相似度，分别为颜色、纹理、尺寸和吻合度。在此用区域内颜色在不同颜色空间中的颜色矩来表征颜色特征。为了将场景和光照条件考虑在内，使用的颜色分量包括：(1)RGB空间的R、G、B；(2)加权灰度值I；(3)Lab颜色空间L、a、b；(4)HSV颜色空间H、S和V。颜色矩包含三个分量，分别为一阶矩(均值)，二阶中心距(方差)和三阶中心距(斜度)。

计算公式如下

其中，一阶矩均值用μ表示，二阶中心矩方差用σ表示，三阶中心距用s表示，n表示区域中所包含像素点的个数，h表示所在通道的值。每个区域都可以得到一个n＝10×3＝30维的向量

相邻区域c_p,c_q之间的颜色相似度通过下面的计算公式得到：

在经过步骤3)区域合并成新区域r_t之后，新区域的颜色特征向量用下式表示

图像的纹理特征用LBP来表征，区域之间的相似度以及区域合并后区域的特征向量如下公式所示：

为了使小区域优先合并，在计算尺寸相似度时给小区域加更多的权重，这样可以保证在图像的每个位置都是多尺度的在合并，尺寸相似度的计算方法如下：

区域之间的吻合度用下式表示，

区域r_p和r_q之间的总相似度为：

s(r_p,r_q)＝s_color+s_texture+s_size+s_fill

相比于原始SS算法，本发明使用不同通道的颜色矩来表示图像颜色特征。另外通过调整基于图的分割算法中的尺度scale和阈值threshold来控制预选框的提取效果。本发明选用的阈值为50，聚类尺度参数为18。

实验发现，分割阈值越小，提取的预选框越多，反之越小；提取区域数量随分割尺度先增大后减小。实验结果如附图6所示。相较于原SS算法而言，提取效果差别不大，但是特征向量维度比较低，使得效率有所提升。

步骤三，对采集所得的矩形框和标注区域进行预处理

本发明中，所选模型的输入尺寸为224*224*3，而SS算法和标注的矩形框大小不尽相同，用双线性插值方法对矩形框进行一定程度的防缩，放缩系数τ由矩形框中比较长的一边决定，如附图7所示。在经过放缩系数为τ的等比放缩后，在短边方向上两边会留有长度为a的空白。本发明中用全0填充短边方向上的空白。

步骤四，候选区地特征提取和分类

本发明训练的硬件环境为一台惠普塔式工作站Z840TOWER，其中CPU为E5-2623v4@2.60GHz，内存32G，显卡为NVIDIA TITAN XP两块。训练的模型基于深度学习框架Tensorflow，为了使深度网络模型有一个较好的初始值，将此模型放到ImageNet数据集上进行预训练。然后在自己训练集上迁移训练这个深度模型，只需要将最后的输出1000类标注数据换成19类。

本发明将尺寸归一化的经SS算法提取候选框在稀疏神经网络CNN中进行传播，将最后池化层的2048维特征向量提取出来，然后用训练好的L-Softmax预测其属于每个分类可能性及分数，对于每个类别，图片中的预选区域都会对其有一个分数。

步骤五，对预选区域定位精度进行衡量

对经过步骤四的预选框进行非极大值抑制，对预选框进行一个筛选，保留下来有用的预选框，然后用区域重叠度IOU保留与标注框大于0.6的区域。

步骤六，边界回归校正识别区域

边界回归包含两个变换，平移变换和尺度放缩。其中平移参数用d_x(P)和d_y(P)表示，放缩参数用d_w(P)和d_h(P)表示边界回归的目标函数用下式表示，

其中，d_*(P)是得到的预测值，*表示x,y,w,h,ω_*表示要学习的参数，F_P表示对应矩形框的特征值。边界回归的目的是尽量缩小预测值和真实值(t_x,t_y,t_w,t_h)的差距，使用的损失函数为和目标函数为：

其中N表示训练集中样本的数量，argmin表示使Loss最小的ω_*。训练使用随机梯度下降算法对模型进行学习。

步骤七，分类结果和参数优化

本发明中，通过计算SS算法提取的预选框与真实标注框的区域重叠度来评估算法性能。完全包含物体的区域就是所谓的正样本，与物体区域没有任何交集的区域就是负样本，使用区域重叠阈值来挑选预选框与正负样本的重叠阈值，本发明采用的两个重叠阈值为T1＝0.3,T2＝0.6，使用mAP来评估模型在测试集上的识别准确度。本发明验证的数据中大部分类别的识别准确率超过80％。

Claims

1.一种基于卷积神经网络的服装属性识别方法，其特征在于，步骤如下：

步骤1：候选区的选取，以选择性搜索算法提取候选区域，通过各个提取区域间的颜色、纹理、尺寸和吻合度之间的相似性对区域进行合并；

5)迭代重复步骤3、4，直到集合S为空；

6)按照尺寸大小筛选出可能的候选框；

步骤2：对提取的矩形区域进行预处理；

具体处理为：模型图像的输入尺寸为224*224*3，用双线性插值方法对矩形框进行防缩，放缩系数τ由矩形框中比较长的一边决定；在经过放缩系数为τ的等比放缩后，在短边方向上两边会留有长度为a的空白；本发明中用全0填充短边方向上的空白；

步骤3：候选区的特征提取和分类；

本发明将尺寸归一化的经选择性搜索算法提取候选框在稀疏神经网络CNN中进行传播，将最后池化层的2048维特征向量提取出来，然后用训练好的L-Softmax预测其属于每个分类可能性及分数，对于每个类别，图片中的预选区域都会对其有一个分数；

步骤4：采用非极大值抑制来对提取的区域进行筛选评价；

步骤5：采用边界回归的方法校正识别区域，提取通过稀疏神经网络的池化层特征值，进行平移变换和尺度防缩；最终模型的输出是对目标边框的预测值。

2.如权利要求1所述的一种基于卷积神经网络的服装属性识别方法，其特征在于，所述的步骤1中，使用的颜色分量包括：(1)RGB空间的R、G、B；(2)加权灰度值I；(3)Lab颜色空间L、a、b；(4)HSV颜色空间H、S和V。

3.如权利要求1或2所述的一种基于卷积神经网络的服装属性识别方法，其特征在于，所述的选择性搜索算法中阈值设置为50，聚类尺度参数为18。

4.如权利要求1或2所述的一种基于卷积神经网络的服装属性识别方法，其特征在于，所述的步骤5中，边界回归包含两个变换、平移变换和尺度放缩。

5.如权利要求1或2所述的一种基于卷积神经网络的服装属性识别方法，其特征在于，所述的所述非极大值抑制，步骤如下：

首先设6个预选框，根据经过分类器后的分类概率排序，从小到大分别属于某一类的概率排序为A、B、C、D、E、F；

4)重复上述过程，直到筛选出所有保留下来的候选区。

6.如权利要求3所述的一种基于卷积神经网络的服装属性识别方法，其特征在于，所述的所述非极大值抑制，步骤如下：

4)重复上述过程，直到筛选出所有保留下来的候选区。