CN114694012A

CN114694012A - 一种基于卷积神经网络的服装识别方法

Info

Publication number: CN114694012A
Application number: CN202210357486.9A
Authority: CN
Inventors: 庞广龙; 张开玉; 王鹏; 王世龙; 王月
Original assignee: Harbin Penglu Intelligent Technology Co ltd; Harbin University of Science and Technology
Current assignee: Harbin Penglu Intelligent Technology Co ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-01
Anticipated expiration: 2042-04-07
Also published as: CN114694012B

Abstract

本发明公开了一种基于卷积神经网络的服装识别方法，主要解决现有服装识别算法对服装属性识别结果单一、准确率低的问题。其方案是：（1）对公开的服装识别数据集进行筛选并补充，采用层级标签标注方法制作融合数据集；（2）将ResNet18网络模型与EfficentNet网络模型相结合，简化网络结构；（3）将不同网络模型输出的特征向量进行相加，得到融合特征向量，结合Sigmoid损失函数进行分类；（4）对改造后ResNet18+EfficentNet融合网络进行训练和测试。本发明提高了对具有多种属性标签的服装识别精度，实现了服装多标签识别分类，可应用于电商平台的服装检索和推荐领域，在购物过程中为消费者带来便利。

Description

一种基于卷积神经网络的服装识别方法

技术领域

本发明涉及机器视觉领域，具体为一种基于卷积神经网络的服装识别方法。

背景技术

随着近年来人工智能的火热，深度学习逐渐应用到各方面以解决复杂的问题，深度神经网络的一大优势就是可以通过无监督地从大量数据中学习提取到特征，这种学习方式与人类感知世界的机理相同。所以，如果有充足的训练样本，通过深度神经网络可学习到具有一定语义信息的特征，而且这样的学习方式更适合图像识别和分类任务。该项技术已经应用到越来越多的领域，近几年服装识别、分类和推荐领域也逐渐开始采用深度学习技术。其中卷积神经网络使用大量数据和大量的计算资源来实现预测，一些曾经认为无法解决的问题实现了超过人类计算精度的解决方案。随着近年来硬件设备性能的大幅度提高和数据逐渐公开化，更好的促进了深度学习在图像识别方面的发展。

服装识别方法主要有：基于传统图像处理的服装识别方法和基于深度学习的服装识别方法。基于传统图像处理的服装识别方法需要对服装图像进行人工特征提取。采用Sober、LBP、LIFT等算法对服装图像的颜色、轮廓和纹理等特征进行人工，将提取到的特征结合SVM支持向量机进行分类划分。该方法在应对小规模分类任务和种类较少的服装识别任务中可以满足基本需求。当服装样本规模较大、种类和差异性较大时，通过人工提取特征的方法无法提取到丰富的特征信息，在实际分类任务中导致误差较大，无法应用实际生活生产；基于深度学习的服装识别方法受样本差异性影响较小，特别是基于深度学习的服装识别方法通过一些简单非线性单元，将一个级别的服装特征表示转换到一个更加抽象的服装特征表示，从而自动学习服装图像特征进行识别分类，避免了利用传统图像处理方法时人工提取服装图像特征的过程。

现有的基于深度学习的服装识别方法只能对具有鲜明属性特征的服饰进行识别分类或对日常服饰进行单一标签识别。而在实际生活中，每件服装具备多种属性，单一标签识别在实际应用中具有较大局限性。同时，在服装识别任务中会存在角度不同、服装褶皱和部分部位受到遮挡等问题，现有基于深度学习的服装识别方法在应对此类问题时无法有效提取到服装特征。这会导致卷积神经网络在服装识别任务中，准确度较低、误差大等问题。

为解决上述问题，本发明提出一种基于卷积神经网络的服装识别方法，利用构建的服装识别融合数据集对设计的模型进行训练和测试；针对目前服装识别领域中识别结果单一、局限性大的问题，获取公开数据集和爬虫服装图片构建融合数据集，对数据集采用层级标签标注的方法进行属性标签再划分，为后续实现服装多标签识别做准备；针对模型在应对服装受到客观因素影响下识别精度不高的问题，将残差网络与EfficentNet网络模型相结合，利用不同卷积模块提取到不同特征向量的特性，将得到的不同特征向量进行融合，提高模型对服装特征的提取能力，提高识别精度。

发明内容

本发明提供一种基于卷积神经网络的服装识别方法。获取公开数据集和爬虫服装图像，经过前期筛选、层级标签标注构建服装识别融合数据集。将服装识别看作多个二分类问题，实现服装多标签识别。针对服装受客观因素影响导致识别精度低的问题，对卷积神经网络模型进行改造，提出采用残差网络和EficentNet网络模型相结合，提高模型在服装识别任务中的识别精度和鲁棒性。

本发明采用如下方法实现：

为实现上述目的本发明一种基于卷积神经网络的服装识别方法，通过以下步骤实现：

(1)对公开的服装识别数据集进行补充和重建，制作服装识别融合数据集：

(1-1)制作融合服装图像：利用爬虫技术，在网络平台获取不同属性风格的服装图像，根据图像的质量对图像进行初筛选，并与公开的服装识别数据集进行融合，获得N1张图片；

(1-2)数据集图像筛选：公开数据集和网络平台中的服装图像会存在尺寸较小、分辨率低、风格属性不具备普遍性等问题，对存在以上问题的图像进行筛选。去除服装在图片中占比小于40％像、去除模糊服装图像、去除风格属性不具备普遍性的图片，最终获得N2张图片；

(1-3)层级标签标注：对筛选获得的N2张图片进行属性划分，采用层级标签标注的方法将图片样本按照颜色、款式、类别分为三大类；在颜色层级中，继续划分为中性色、暖色、冷色三类；在款式层级中，继续划分为领口样式、图案样式、版型样式；在类别层级中，继续划分为裤子、卫衣、短袖、衬衫、裙子、夹克；在N2张照片中随机选取N3张图片作为训练数据，剩余的N4张图片作为测试数据；

(1-4)数据增强：使用RandAugmention数据增强方法对数据进行增强，每次对图片进行随机旋转、翻转和缩放等操作，对服装识别融合数据集进行扩增，增加网络鲁棒性；

(2)将残差网络与EfficentNet网络模型相结合：

(2-1)简化残差网络：原始残差网络选择ResNet18网络模型。原ResNet18网络模型共使用16个卷积层、1个全连接层，将以上结构进行改造，去掉最后四个3×3×512卷积核和一个全连接层，替换成一个3×3×512卷积核和一个1×1×1280升维卷积层。更新后的网络模型由15个卷积层、1个全连接层构成；其中卷积层滤波器数量分别为64、128、256、512；

(2-2)EfficentNet网络模型改造：去掉EfficentNet网络模型中stage9中的池化层和其中一个全连接层，保留一个1维升维卷积层；

(2-3)ResNet18网络模型和改造后的EfficentNet网络模型建立模型融合网络：服装图像进入两个分支，主分支为改造后的EfficentNet网络模型，次分支为简化后的ResNet18网络模型。服装图像通过两个分支后分别得到尺寸相同的特征向量，将两个特征向量进行融合操作得到多模型融合特征向量。将得到的多模型融合特征向量通过一个全局平均池化层和Sigmoid激活函数层；

(3)对改造的ResNet18+EfficentNet融合网络进行训练和测试：

对服装识别融合数据集进行训练，剖析整个网络训练的损失函数，若不收敛则不断迭代更新网络参数调整网络结构，重新对网络进行训练；若整个网络区域收敛则得到服装识别网络模型，对得到的网络模型进行测试得到分类的准确率。通过比较和评价得到对服装类别的分类结果，实现对服装识别与分类。

优选的：所述步骤(1)对服装识别融合数据集进行层级标签标注：对颜色层级按照色温理论划分，色谱图中红色、橙色、黄色可划分为暖色系，蓝色、青色、绿色可划分为冷色系，黑、白、灰划分为中性色系；对于款式层级的划分，包括领口样式、图案样式、版型样式，其中领口样式包括圆领和连帽领，图案样式包括纯色无图案、格子、印刷图案，版型样式包括长款、短款、修身款、宽松款。对于类别层级可划分为短袖，卫衣，裤子，正装，裙子，衬衫。

优选的：所述步骤(2)中网络结构为：在简化的ResNet18网络模型中，Input(224×224×3)层连接Conv2d(112×112×64)层，Conv2d(112×112×64)层连接MaxPool(56×56×64)层，MaxPool(56×56×64)层连接残差块Conv2_1(56×56×64)层，Conv2_1(56×56×64)层连接Conv2_2(56×56×64)层，Conv2_2(56×56×64)层连接Conv3_1(28×28×128)层，Conv3_1(28×28×128)层连接Conv3_2(28×28×128)层，Conv3_2(28×28×128)层连接Conv4_1(14×14×256)层，Conv4_1(14×14×256)层连接Conv4_2(14×14×256)层，Conv4_2(14×14×256)层，Conv4_2(14×14×256)层连接升维卷积Conv5(7×7×1280)层；在简化的EfficentNet网络模型中，Input(224×224×3)层连接升维卷积Conv2d(224×224×32)层，Conv2d(224×224×32)层连接MBConv1(112×112×16)层，MBConv1(112×112×16)层连接MBConv6(112×112×24)层，MBConv6(112×112×24)层连接MBConv6(56×56×40)层，MBConv6(56×56×40)层连接MBConv6(28×28×80)，MBConv6(28×28×80)层连接MBConv6(14×14×112)，MBConv6(14×14×112)层连接MBConv6(14×14×192)层，MBConv6(14×14×192)层连接MBConv6(7×7×320)层，MBConv6(7×7×320)层连接Conv2d(7×7×1280)层。

优选的：所述步骤(2)中模型融合网络结构为：服装图像输入层Input(224×224×3)分别进入两个分支。主分支为简化的EfficentNet网络模型，对服装图像全局特征进行提取，次分支为简化的ResNet18网络模型，对服装局部部位特征进行提取。主分支EfficentNet网络模型的Conv1(7×7×1280)层得到输出特征向量Feature Map1，次分支ResNet18网络模型的Conv6(7×7×1280)层得到输出特征向量Feature Map2。将FeatureMap1和Feature Map2进行融合操作，得到融合特征向量Feature Map3。将Feature Map3输入GlobalAvgPooling层，GlobalAvgPooling层连接分类器。

优选的：所述步骤(3)中一种基于卷积神经网络的服装识别方法，其特征在于：服装识别分类结果包括：暖色连帽领卫衣、暖色圆领卫衣、暖色长款裙装、暖色短款裙装、暖色无图案短袖、暖色有图案短袖、暖色格子衬衣、暖色修长裤子、暖色宽松裤子、冷色连帽领卫衣、冷色圆领卫衣、冷色长款裙装、冷色短款裙装、冷色无图案短袖、冷色有图案短袖、冷色格子衬衣、冷色修长裤子、冷色宽松裤子、中性色连帽领卫衣、中性色圆领卫衣、中性色长款裙装、中性色短款裙装、中性色无图案短袖、中性色有图案短袖、中性色格子衬衣、中性色修长裤子、中性色宽松裤子、正装。

本发明的有益效果为：

一种基于卷积神经网络的服装识别方法，通过制作服装识别融合数据集，对现有公开数据集补充复杂属性样本，将服装识别分类问题看作多个二分类问题，实现服装的多标签识别；提出残差网络和EfficentNet网络模型相结合，增强模型对服装特征的提取能力，提高模型在服装识别任务中的识别精度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体算法流程图；

图2为本发明的服装识别融合数据集制作流程图；

图3为本发明的网络结构图；

图4为本发明的实验方法流程图；

具体实时方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标。例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。在此还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的部分，而省略了与本发明关系不大的其他细节。

具体实施方式一：

本实施方式的一种卷积神经网络的服装识别方法，结合图1，所述方法包括以下步骤：

步骤一、获取公开数据集以及利用网络爬虫获取服装图像，对其进行初步筛选；

步骤二、对得到的服装图像数据集采用层级标注法进行属性重新标注，构建服装识别融合数据集；

步骤三、将ResNet18网络模型与EfficentNet网络模型相结合，构建多模型融合网络；

步骤四、将简化的ResNet18网络模型输出的局部特征向量和简化的EfficentNet网络模型输出的全局特征向量进行融合，得到服装图像融合特征；

步骤五、将服装融合特征依次输入全局平均池化层和全连接层分类器；

步骤六、对改造后的ResNet18+EfficentNet融合网络在服装识别融合数据集上进行训练和测试。

具体实施方式二：

与具体实时方式一不同的是，本实施方式的一种基于卷积神经网络的服装识别方法，结合图2，所述的步骤二中对得到的服装图像数据集采用层级标注法进行属性重标注，构建服装识别融合数据集的具体流程为：

(1)获取服装识别公开数据集DeepFashion，该数据集由香港中文大学于2016年发布，包含50各种类80多万张服装图像。本发明根据实际需要挑选并整理其中约2.5万张服装图像制作小规模数据集，以满足轻量级网络模型训练需要；

(2)利用网络爬虫技术通过各大电商平台、检索平台获取服装图像，根据图像分辨率、风格属性、公开版权、服装在图像中的占比及清晰度，对获得的图像进行筛选，对公开数据集进行补充，得到融合数据集；

(3)对融合数据集采用层级标签标注方法进行属性重新标注：对于颜色层级按照色温理论划分，色谱图中红色、橙色、黄色可划分为暖色系，蓝色、青色、绿色可划分为冷色系，黑、白、灰划分为中性色系；对于款式层级的划分，包括领口样式、图案样式、版型样式，其中领口样式包括圆领和连帽领，图案样式包括纯色无图案、格子、印刷图案，版型样式包括长款、短款、修身款、宽松款；对于类别层级可划分为短袖，卫衣，裤子，正装，裙子，衬衫。

具体实施方式三：

与具体实施方式一，二不同的是，本实施方式的一种基于卷积神经网络的服装识别方法，结合图3，所述的步骤三、四、五中将ResNet18网络模型和EfficentNet网络模型相结合，对输出特征向量进行融合操作，构建融合网络具体流程为：

(1)简化ResNet18网络模型结构：ResNet18网络模型共使用17个卷积层、1个平均池化层以及一个全连接层，将以上结构改造为13个卷积层和一个升维卷积层，第一个卷积层滤波器数量为64，其余12个卷积层每4层构成一个残差块，每个残差块中单个卷积层滤波器数量分别为64、128、256，升维卷积层滤波器数量为1280；

(2)简化EfficentNet网络结构：EfficientNet网络模型第1层是卷积核为3×3的卷积层，接着包括1个卷积核为3×3的MBConv1模块，2个卷积核为3×3的MBConv6模块，2个卷积核为5×5的MBConv6模块，3个卷积核为3×3的MBConv6模块，3个卷积核为5×5的MBConv6模块，4个卷积核为5×5的MBConv6模块，1个卷积核为3×3的MBConv6模块，最后连接1个卷积核为1×1的卷积层，1个池化层，1个全连接层；将以上结构进行改造，去掉1个池化层和1个全连接层；

(3)ResNet18网络模型和EfficentNet网络模型相结合：简化后的ResNet18网络模型和EfficentNet网络模型共享同一个输入层，将ResNet18网络模型输出的局部特征向量和EfficentNet网络模型输出的全局特征向量进行融合操作，得到融合特征向量依次通过全剧平均池化层和全连接层分类器。

所述步骤三中网络具体结构为：在简化的ResNet18网络模型中，Input(224×224×3)层连接Conv1(112×112×64)层，Conv1(112×112×64)层连接MaxPool(56×56×64)层，MaxPool(56×56×64)层连接残差块Conv2_1(56×56×64)层，Conv2_1(56×56×64)层连接Conv2_2(56×56×64)层，Conv2_2(56×56×64)层连接Conv3_1(28×28×128)层，Conv3_1(28×28×128)层连接Conv3_2(28×28×128)层，Conv3_2(28×28×128)层连接Conv4_1(14×14×256)层，Conv4_1(14×14×256)层连接Conv4_2(14×14×256)层，Conv4_2(14×14×256)层，Conv4_2(14×14×256)层连接升维卷积Conv6(7×7×1280)层；在简化的EfficentNet网络模型中，Input(224×224×3)层连接升维卷积Conv1(224×224×32)层，Conv1(224×224×32)层连接MBConv1(112×112×16)层，MBConv1(112×112×16)层连接MBConv6(112×112×24)层，MBConv6(112×112×24)层连接MBConv6(56×56×40)层，MBConv6(56×56×40)层连接MBConv6(28×28×80)层，MBConv6(28×28×80)层连接MBConv6(14×14×112)层，MBConv6(14×14×112)层连接MBConv6(14×14×192)层，MBConv6(14×14×192)层连接MBConv6(7×7×192)层，MBConv6(7×7×192)层连接Conv2(7×7×1280)层。

所述步骤四中融合特征结构为：服装图像输入层Input(224×224×3)分别进入两个分支。主分支为简化的EfficentNet网络模型，对服装图像全局特征进行提取，次分支为简化的ResNet18网络模型，对服装局部部位特征进行提取。主分支EfficentNet网络模型的Conv1(7×7×1280)层得到输出特征向量Feature Map1，次分支ResNet18网络模型的Conv6(7×7×1280)层得到输出特征向量Feature Map2。将Feature Map1和Feature Map2进行融合操作，得到融合特征向量Feature Map3。将Feature Map3输入GlobalAvgPooling层，GlobalAvgPooling层连接分类器。

具体实施方式四：

与具体实时方式一，二，三不同的是，本实施方式的一种基于卷积神经网络的服装识别方法，结合图4，所述的步骤六中训练及测试网络的具体流程为：

对服装识别融合数据集进行训练，刨析整个网络训练的损失函数，若不收敛则不断迭代更新网络参数调整网络结构，重新对网络进行训练，若整个网络区域收敛则得到服装识别网络模型。对得到的网络模型进行测试能得到识别的准确率，通过比较和评价得到对服装多属性识别的结果，最终进行分析和总结。

Claims

1.一种基于卷积神经网络的服装识别方法，其特征在于：所述方法通过以下步骤实现：

对公开的服装识别数据集进行补充和重建，制作服装识别融合数据集：

（1-1）制作融合服装图像：利用爬虫技术，从网络平台获取不同属性风格的服装图像，根据图像的质量对图像进行初筛选，并与公开的服装识别数据集进行融合，获得N1张图片；

（1-2）数据集图像筛选：公开数据集和网络平台中的服装图像会存在尺寸较小、分辨率低、风格属性不具备普遍性等问题，对存在以上问题的图像进行筛选；去除服装在图片中占比小于40%的图像、去除模糊服装图像、去除风格属性不具备普遍性的图片，最终获得N2张图片；

（1-3）层级标签标注：对筛选获得的N2张图片进行属性划分，采用层级标签标注的方法将图片样本按照颜色、款式、类别分为三大类；在颜色层级中，继续划分为中性色、暖色、冷色三类；在款式层级中，继续划分为领口样式、图案样式、版型样式；在类别层级中，继续划分为裤子、卫衣、短袖、衬衫、裙子、夹克；在N2张照片中随机选取N3张图片作为训练数据，剩余的N4张图片作为测试数据；

（1-4）数据增强：使用Rand Augmention数据增强方法对数据进行增强，每次对图片进行随机旋转、翻转和缩放等操作，对服装识别融合数据集进行扩增，增加网络鲁棒性；

将残差网络与EfficentNet网络模型相结合：

（2-1）简化残差网络：原始残差网络选择ResNet18网络模型；原ResNet18网络模型共使用16个卷积层、1个全连接层；将以上结构进行改造，去掉最后四个3×3×512卷积核和一个全连接层，替换成一个3×3×512卷积核和一个1×1×1280全连接层，使原结构更新为由15个卷积层、1个全连接层构成；其中卷积层滤波器数量分别为64、128、256、512；

（2-2）EfficentNet网络模型改造：去掉EfficentNet网络模型中stage9中的池化层和其中一个全连接层，保留一个1维升维卷积层；

（2-3）简化后的ResNet18网络模型和改造后的EfficentNet网络模型建立模型融合网络：服装图像进入两个分支，主分支为改造后的EfficentNet网络模型，次分支为简化后的ResNet18网络模型；服装图像通过两个分支后得到两个尺寸相同、包含不同特征信息的特征向量，将两个特征向量进行融合操作得到多模型融合特征向量；将得到的多模型融合特征向量通过一个全局平均池化层和Sigmoid激活函数层；

（3）对改造的ResNet18+EfficentNet融合网络进行训练和测试：

对服装识别融合数据集进行训练，剖析整个网络训练的损失函数，若不收敛则不断迭代更新网络参数调整网络结构，重新对网络进行训练，若整个网络区域收敛则得到服装识别网络模型，对得到的网络模型进行测试得到分类的准确率，通过比较和评价得到对服装类别的分类结果，实现对服装多标签识别与分类。

2.根据权利要求1所述一种基于卷积神经网络的服装识别方法，其特征在于：将服装识别融合到ResNet18+EfficentNet网络中；将服装识别融合数据集中图片输入到网络模型中，1个训练批次送入32张服装图像，简化的EfficentNet网络对服装图像进行全局特征提取，简化的ResNet18网络对服装图像进行局部特征提取；将得到的不同特征向量进行融合，最后经过Sigmoid损失函数处理；将服装识别问题看成多个二分类问题，实现服装多标签分类，得到服装属性的识别准确率。

3.根据权利要求1所述一种基于卷积神经网络的服装识别方法，其特征在于：所述网络结构为：在简化的ResNet18网络模型中，Input（224×224×3）层连接Conv1(112×112×64)层，Conv1(112×112×64)层连接MaxPool（56×56×64）层，MaxPool（56×56×64）层连接残差块Conv2_1(56×56×64)层，Conv2_1(56×56×64)层连接Conv2_2(56×56×64)层，Conv2_2(56×56×64)层连接Conv3_1(28×28×128)层，Conv3_1(28×28×128)层连接Conv3_2(28×28×128)层，Conv3_2(28×28×128)层连接Conv4_1(14×14×256)层，Conv4_1(14×14×256)层连接Conv4_2(14×14×256)层，Conv4_2(14×14×256)层，Conv4_2(14×14×256)层连接升维卷积Conv6（7×7×1280）层；在简化的EfficentNet网络模型中，Input（224×224×3）层连接升维卷积Conv1（224×224×32）层，Conv1（224×224×32）层连接MBConv1(112×112×16)层，MBConv1(112×112×16)层连接MBConv6(112×112×24)层，MBConv6(112×112×24)层连接MBConv6(56×56×40)层，MBConv6(56×56×40)层连接MBConv6(28×28×80)层，MBConv6(28×28×80)层连接MBConv6(14×14×112)层，MBConv6(14×14×112)层连接MBConv6(14×14×192)层，MBConv6(14×14×192)层连接MBConv6(7×7×320)层，MBConv6(7×7×320)层连接Conv2（7×7×1280）层；简化后的ResNet18网络模型和EfficentNet网络模型共享同一个输入层（224×224×3），将ResNet18网络模型输出的局部特征向量和EfficentNet网络模型输出的全局特征向量进行融合操作，得到融合特征向量依次通过全局平均池化层和全连接层分类器。

4.根据权利要求1所述一种基于卷积神经网络的服装识别方法，其特征在于：服装识别分类结果包括：暖色连帽领卫衣、暖色圆领卫衣、暖色长款裙装、暖色短款裙装、暖色无图案短袖、暖色有图案短袖、暖色格子衬衣、暖色修长裤子、暖色宽松裤子、冷色连帽领卫衣、冷色圆领卫衣、冷色长款裙装、冷色短款裙装、冷色无图案短袖、冷色有图案短袖、冷色格子衬衣、冷色修长裤子、冷色宽松裤子、中性色连帽领卫衣、中性色圆领卫衣、中性色长款裙装、中性色短款裙装、中性色无图案短袖、中性色有图案短袖、中性色格子衬衣、中性色修长裤子、中性色宽松裤子、正装。