CN109583481A

CN109583481A - 一种基于卷积神经网络的细粒度服装的属性识别方法

Info

Publication number: CN109583481A
Application number: CN201811343657.2A
Authority: CN
Inventors: 张桦; 陶星; 戴美想; 戴国骏; 刘高敏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-04-05
Anticipated expiration: 2038-11-13
Also published as: CN109583481B

Abstract

本发明涉及一种基于卷积神经网络的细粒度服装的属性识别方法。本发明首先通过Faster‑RCNN和YOLO神经网络，对图像中的特征区域定位，针对袖子、裤子长度和领口类型分类采取相应的扩大特征区域方法，再对特征区域进行图像处理；处理后输进ResNet网络模型和InceptionV4网络模型，进行神经网络的训练；并将输出结果进行加权融合。训练好的神经网络模型可用于服装属性识别。本发明提取的特征区域实现较高的分割准确性，提高了卷积神经网络进行深度学习图像特征的效率和准确性，并将两个网络模型的输出结果进行加权融合，减少了过拟合现象。

Description

一种基于卷积神经网络的细粒度服装的属性识别方法

技术领域

本发明属于计算机视觉识别技术领域，尤其是涉及一种基于卷积神经网络的细粒度服装的属性识别方法。

背景技术

服装图像作为细粒度图像的一种，在电子商务领域十分常见，而现有的视觉购物搜索引擎通常提取诸如颜色、形状、纹理等全局特征来比较图像。它们对于干净背景的图像获得了较好的搜索效果。然而，很大一部分的服装图像是自然场景的图像，具有杂乱的背景。为了提升商品的吸引力，并且呈现服装的实际穿着效果，电子商务店主请时尚模特穿着所售服装，来拍摄真实效果的图像。这些图像一般是在户外拍摄，背景较为杂乱。另一方面，用户上载的查询图像同样是嗓声较多的图像，尤其是通过手机拍摄的照片。这些复杂且杂乱的背景，使得基于视觉的服装图像的细粒度分类成为一项具有挑战性的难题。本发明结合服装图的特征区域分布特点，准确提取特征区域，并将处理过的图片输入卷积神经网络，从而提高分类的准确性和效率。

发明内容

本发明的目的就是为了解决上述服装图片的细粒度属性准确分类问题，提供一种基于卷积神经网络的细粒度服装的属性识别方法。本发明考虑了服装特征区域对于分类的重要性，对于需要进行袖子长度，裤子长度，领口类型分类的服装图片，有效地提取出图像特征区域，并通过图像割补的处理方法，防止特征信息的丢失，使服装图片的属性分类结果更加准确和高效。

为达到上述目的，本发明提供如下技术方案：

一种基于卷积神经网络的细粒度服装的属性识别方法，使用Faster-RCNN和YOLO网络进行特征区域识别和图像处理方法将特征区域扩大，令提取的特征区域实现较高的分割准确性，提高了卷积神经网络进行深度学习图像特征的效率和准确性，并且使用两个网络模型进行训练，将两个网络模型的输出结果进行加权融合，减少了过拟合现象。

所述的过程具体步骤如下：

步骤(1)使用Faster-RCNN和YOLO神经网络对图像进行特征性区域判别，结合两种判别结果，分割出初步的特征区域图片。

步骤(2)对初步的特征区域图片做进一步的处理，由于袖长、裤长和领口类型的分类的特征区域分布略有不同，因此根据不同的分类需求，对特征区域进行扩大，防止特征信息丢失。

步骤(3)将图片处理成宽高相等的图片，根据袖长、裤长和领口类型这三种不同的分类任务，采用不同的填补方法，将细长和扁平的图片调整成宽高相等的图片。

步骤(4)构建两个深度卷积神经网络，对网络进行预训练，然后将经过图像处理的服装图输入到卷积神经网络中，利用随机梯度下降算法进行权重矩阵和偏移量的调整。

步骤(5)将得到的训练好的各层中的权重参数矩阵和偏置值，对应地赋值给两个神经网络中的各个层，再对各自的Softmax层进行调整，把两个网络结构的输出结果进行融合，减少过拟合现象，使结果更加准确。

所述步骤(1)提取初步的特征区域方法如下：

图像原始图像大小用两个坐标进行表示，分别是左上角顶点坐标(0，0)和右下角顶点坐标(width,height)。初步的特征区域的左上角坐标定义(X_A,Y_B),右下角坐标定义为(X_C,Y_D)。

通过深度学习方法中的通用目标检测框架Faster-RCNN和YOLO神经网络生成候选特征区域，使用Faster-RCNN和YOLO神经网络能够识别出图像中的主要特征区域，通过坐标的方式体现，可以获取特征区域左上角和右下角的顶点坐标，通过Faster-RCNN神经网络获取的左上角坐标定义为(X₁,Y₁)，右下角坐标定义为(X₂,Y₂)。通过YOLO神经网络获取的左上角坐标定义为(X₃,Y₃)，右下角坐标定义为(X₄,Y₄)。一张图像获取四个坐标后，分成如下四种情况：

(1)两种目标检测网络均把原始图像作为判别区域，分割出初步的特征区域图片，即(X₁,Y₁)＝(0，0)，(X₂,Y₂)＝(width,height)，(X₃,Y₃)＝(0，0)，(X₄,Y₄)＝(width,height)；

(2)Faster-RCNN检测出小于原始图像的判别区域，YOLO把原始图像作为判别区域，分割出的初步的特征区域图片，即(X₁,Y₁)＝(x₁，y₁)，(X₂,Y₂)＝(x₂,y₂)，(X₃,Y₃)＝(0，0)，(X₄,Y₄)＝(width,height)；

(3)Faster-RCNN把原始图像作为判别区域，YOLO检测出小于原始图像的判别区域，分割出的初步的特征区域图片，即(X₁,Y₁)＝(0，0)，(X₂,Y₂)＝(width,height)，(X₃,Y₃)＝(x₃，y₃)，(X₄,Y₄)＝(x₄,y₄)

(4)两种目标检测网络均检测出小于原始图像的判别区域,分割出的初步的特征区域图片，即(X₁,Y₁)＝(x₁，y₁)，(X₂,Y₂)＝(x₂,y₂)，(X₃,Y₃)＝(x₃，y₃)，(X₄,Y₄)＝(x₄,y₄)

情况(1)把原始图像作为初步的特征区域，即(X_A,Y_B)＝(0，0),(X_C,Y_D)＝(width,height)，情况(2)把Faster-RCNN检测区域作为初步的特征区域，即(X_A,Y_B)＝(x₁，y₁),(X_C,Y_D)＝(x₂,y₂)，情况(3)把YOLO检测区域作为初步的特征区域，即(X_A,Y_B)＝(x₃，y₃),(X_C,Y_D)＝(x₄,y₄)，情况(4)结合两种检测区域，为了尽可能减少特征信息丢失，在取检测区域坐标遵从尽可能最大获取信息原则，(X_A,Y_B)＝(min(x₁,x₃)，min(y₁,y₃)),(X_C,Y_D)＝(max(x₂,x₄)，max(y₂,y₄))。使用此方法得到初步的特征区域的左上角坐标(X_A,Y_B),右下角坐标(X_C,Y_D)。

所述步骤(2)将初步的特征区域图片做进一步的处理方法如下：

利用获取的参数坐标(X_A,Y_B),(X_C,Y_D)做进一步的图像处理。当图像通过情况(1)获取特征区域，此类特征区域特征信息无丢失，可直接使用步骤(3)进行图像处理。当图像通过情况(2)(3)(4)获取特征区域，为了防止特征信息丢失，采用如下特征区域扩大方法：

服装的细粒度分类包括袖长、裤长、领口类型等，各个分类任务的特征区域分布略有不同，因此基于不同的分类需求，采取不同的特征区域扩大方法。

(1)当任务为裤子长度的分类(特征区域在靠下部分)，取原始图像的height作为Y_D坐标值，其余分类任务在Y_D的基础上向下再增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失。

(2)当任务为领口类型的分类(图片的特征区在靠上部分),取0作为Y_B坐标值，其余分类任务在Y_B的基础上向上增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失。

(3)当任务为袖子长度的分类(图片的特征区在左右两侧)，在X_A,X_C的基础上往左右两侧各增加20像素(pixel)的宽度,其余分类任务各增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失。

假设此时的(X_A,Y_B)＝(a,b),(X_C,Y_D)＝(c,d)，则进一扩大特征区域，令X_A＝rand*a,Y_B＝rand*b,X_C＝c+(width-c)*rand,Y_D＝d+(height-d)*rand，rand为0-1的随机小数。由此提取出一个特征区域，此特征区域的宽度为w,高度为h,此特征区域可能是细长(w<h)的或者是扁平的(w>h)，当w<h时，我们再往左右方向增加宽度,直到w＝h，除非已经增加到图片边缘，无法再增加；同理当w>h时，我们再往上下方向增加高度,直到w＝h，除非已经增加到图片边缘，无法再增加。使用此方法得到特征区域的左上角坐标(X_A,Y_B),右下角坐标(X_C,Y_D)，用该坐标分割特征区域图片，再进行步骤(3)的处理。

所述步骤(3)图像处理方法如下：

在使用神经网络做分类时，输入神经网络的图片尺寸是固定的。然而我们经过步骤(1)(2)的服装图片尺寸并无统一，为了防止图片因为尺寸不同而影响分类，所以在步骤(3)中，我们将图片进行处理，调整成宽高相等的方形。经过步骤(1)(2)处理过的图像的宽度和高度作为图像处理的参考因素，并且结合分类任务要求，我们设计了相应的图像处理方法。一张图像根据宽度和高度关系，分成如下三种情况：

(1)当h＝w时，此时图片已经是方形，我们不再做处理。

(2)当h>w时，此时我们需要在左右方向上进行填充，使图片的宽度等于高度。左边填充的宽度我们设置为rand*w，rand为0-1的随机小数，右边填充的宽度为h-(1+rand)*w,并且我们根据分类任务采取不同的填充内容。当分类任务是裤子长度，领口类型时，我们用边缘列的像素值值进行填充，当分类任务为袖长时，我们用白色进行填充防止形成错误信息，因为在获取特征区域时，若分割边缘截取了不完整的袖子信息，此时用边缘列像素值填充会造成袖子长度改变，形成错误信息。通过这种方法把图片填充成方形。

(3)当h<w时,当分类任务是领口类型，裤子长度时，我们分别采用底部行边缘像素值向下填充和顶部行边缘像素值向上填充，填充至h＝w。当分类任务是袖子我们采用上下边缘像素值同时填充，宽度分别设置成rand*h和w-(1+rand)*h,rand为0-1的随机小数,通过这种方法把图片填充成方形。由于输入神经网络的图片大小是448*448。对于大于448*448的图片采用降采样方法，对于小于448*448的图片采用升采样方法，令图片尺寸为448*448。

步骤(4)中所述的深度卷积神经网络用到的是ResNet152网络模型和InceptionV4网络模型。ResNet152和InceptionV4包括卷积层，池化层，全连接层，dropout层和Softmax分类层。池化层选择平均池化(average pool),在卷积层之间还使用了残差网络结构(shortcut connection),在全连接层后设有dropout层，用于防止训练数据不平衡出现过拟合现象。Softmax层用于训练时的分类，输出节点个数N根据分类种类进行设置。

步骤(4)中所述的预训练和权重矩阵和偏移量的调整过程，其步骤包括：

4-1.采用重复采样方法对细粒度服装图片的数据集进行数据平衡，使属于各类的图片数据大致做到相等。

4-2.迁移在ImageNet数据集上预训练ResNet网络模型和InceptionV4网络模型的权重参数，确定卷积层的权重参数。

4-3.用平衡好的服装图片数据集训练ResNet神经网络和InceptionV4神经网络，利用随机梯度下降算法进行权重矩阵和偏移量的调整。训练过程中，损失函数值收敛，分类达到最高准确率时，神经网络训练完成。

所述步骤(5)将步骤(4)中训练的ResNet152模型和InceptionV4中的权重矩阵和偏移量参数进行记录，对应地赋值给两个神经网络中的各个层，并且在两个网络结构的Softmax层后再添加一层网络结构，网络结构的节点权值采用两个模型训练时分类准确率的比值。假设ResNet152模型和InceptionV4在训练时分类的准确率比值是t，ResNet152模型的Softmax层第一种分类节点输出的值为a，InceptionV4模型的Softmax层第一种分类节点输出的值为b,那么加权融合后第一种分类节点输出的值为a*t+b*(1-t)。每个分类节点都采用这样的方式将两个网络的输出结果进行融合。输出最大值的节点即对应该分类结果。

与现有技术相比，本发明的有益效果在于：

本发明提出的提取图像特征区域的方法，使用了Faster-RCNN和YOLO网络进行特征区域识别和结合分类任务要求，使用图像处理方法，令提取的特征区域实现较高的分割准确性，使得在使用卷积神经网络分类时，能提高了卷积神经网络进行深度学习图像特征的效率和准确性。

将两个神经网络的输出结果进行加权融合，减少过拟合现象，提高分类的准确率。

附图说明

图1为本发明的实现总体框图；

图2为图像处理方法流程图。

具体实施方式

以下结合附图对本发明作进一步详细描述。

本发明提出一种基于卷积神经网络的细粒度服装的属性识别方法，其实现总体框图如图1所示，具体包括如下5个步骤：

步骤(1)使用Faster-RCNN和YOLO神经网络对图像进行特征性区域判别，结合两种判别结果，分割出初步的特征区域图片。具体操作如下：

图像原始图像大小可以用两个坐标进行表示，分别是左上角顶点坐标(0，0)和右下角顶点坐标(width,height)。初步的特征区域的左上角坐标定义(X_A,Y_B),右下角坐标定义为(X_C,Y_D)。

通过深度学习方法中的通用目标检测框架Faster-RCNN和YOLO神经网络生成候选特征区域，我们使用Faster-RCNN和YOLO神经网络可以识别出图像中的主要特征区域，通过坐标的方式体现，可以获取特征区域左上角和右下角的顶点坐标，通过Faster-RCNN神经网络获取的左上角坐标定义为(X₁,Y₁)，右下角坐标定义为(X₂,Y₂)。通过YOLO神经网络获取的左上角坐标定义为(X₃,Y₃)，右下角坐标定义为(X₄,Y₄)。一张图像获取四个坐标后，分成如下四种情况：

(5)两种目标检测网络均把原始图像作为判别区域，即(X₁,Y₁)＝(0，0)，(X₂,Y₂)＝(width,height)，(X₃,Y₃)＝(0，0)，(X₄,Y₄)＝(width,height)

(6)Faster-RCNN检测出小于原始图像的判别区域，YOLO把原始图像作为判别区域，即(X₁,Y₁)＝(x₁，y₁)，(X₂,Y₂)＝(x₂,y₂)，(X₃,Y₃)＝(0，0)，(X₄,Y₄)＝(width,height)

(7)Faster-RCNN把原始图像作为判别区域，YOLO检测出小于原始图像的判别区域，即(X₁,Y₁)＝(0，0)，(X₂,Y₂)＝(width,height)，(X₃,Y₃)＝(x₃，y₃)，(X₄,Y₄)＝(x₄,y₄)

(8)两种目标检测网络均检测出小于原始图像的判别区域,即(X₁,Y₁)＝(x₁，y₁)，(X₂,Y₂)＝(x₂,y₂)，(X₃,Y₃)＝(x₃，y₃)，(X₄,Y₄)＝(x₄,y₄)

步骤(2)对初步的特征区域进行进一步处理。

利用获取的参数坐标(X_A,Y_B),(X_C,Y_D)做进一步的图像处理。当图像通过情况(1)获取特征区域，此类特征区域特征信息无丢失，可直接使用步骤(3)进行图像处理。当图像通过情况(2)(3)(4)获取特征区域，为了防止特征信息丢失，采用如下特征区域提取方法：

服装的细粒度分类，包括袖长，裤长，领口类型等，各个分类任务的特征区域分布略有不同，因此基于不同的分类需求，采取不同的特征区域方法。

(3)当任务为袖子长度的分类(图片的特征区在左右两侧)，在X_A,X_C的基础上往左右两侧各增加20像素(pixel)的宽度,其余分类任务各增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失。假设此时的(X_A,Y_B)＝(a,b),(X_C,Y_D)＝(c,d)，我们进一步扩大特征区域，令X_A＝rand*a,Y_B＝rand*b,X_C＝c+(width-c)*rand,Y_D＝d+(height-d)*rand，rand为0-1的随机小数。由此提取出一个特征区域，此特征区域的宽度为w,高度为h,此特征区域可能是细长(w<h)的或者是扁平的(w>h)，当w<h时，我们再往左右方向增加宽度,直到w＝h，除非已经增加到图片边缘，无法再增加，同理当w>h时，我们再往上下方向增加高度,直到w＝h，除非已经增加到图片边缘，无法再增加。使用此方法得到特征区域的左上角坐标(X_A,Y_B),右下角坐标(X_C,Y_D)，用该坐标分割出特征区域图片。

步骤(3)根据袖长，裤长，领口类型这三种不同的分类任务，采用不同的填补方法，将细长和扁平的图片调整成宽高相等的图片。具体操作如下：

经过步骤(1)处理过的图像的宽度和高度作为图像处理的参考因素，并且结合分类任务要求，我们设计了相应的图像处理方法如图2所示。一张图像根据宽度和高度关系，分成如下三种情况：

(1)当h＝w时，此时图片已经是方形，我们不再做处理。

(2)当h>w时，此时我们需要在左右方向上进行填充，使图片的宽度等于高度。左边填充的宽度我们设置为rand*w，rand为0-1的随机小数，右边填充的宽度为h-(1+rand)*w,并且我们根据分类任务采取不同的填充内容。当分类任务是裤子长度，领口类型时，我们用边缘列的像素值进行填充，当分类任务为袖长时，我们用白色进行填充防止形成错误信息，因为在获取特征区域时，若分割边缘截取了不完整的袖子信息，此时用边缘列像素值填充会造成袖子长度改变，形成错误信息。通过这种方法把图片填充成方形。

(3)当h<w时,当分类任务是领口类型，裤子长度时，我们分别采用底部行边缘像素值向下填充和顶部行边缘像素值向上填充，填充至h＝w。当分类任务是袖子我们采用上下边缘像素值同时填充，宽度分别设置成rand*h和w-(1+rand)*h,rand为0-1的随机小数,通过这种方法把图片填充成方形。

步骤(4)构建两个深度卷积神经网络，对网络进行预训练，然后将经过图像处理的服装图输入到卷积神经网络中，利用随机梯度下降算法进行权重矩阵和偏移量的调整。具体操作如下：

首先采用重复采样方法对细粒度服装图片的数据集进行数据平衡，使属于各类的图片数据大致做到相等。迁移在ImageNet数据集上预训练ResNet网络模型和InceptionV4网络模型的权重参数，确定卷积层的权重参数。用平衡好的服装图片数据集训练ResNet神经网络和InceptionV4神经网络。利用随机梯度下降算法进行权重矩阵和偏移量的调整。训练过程中，损失函数值收敛，分类达到最高准确率时，神经网络训练完成。

步骤(5)将得到的训练好的各层中的权重参数矩阵和偏置值，对应地赋值给两个神经网络中的各个层，再对各自的Softmax层进行调整，把两个网络结构的输出结果进行融合，减少过拟合现象，使结果更加准确。具体操作如下：

将步骤(4)中训练的ResNet152模型和InceptionV4中的权重矩阵和偏移量参数进行记录，对应地赋值给两个神经网络中的各个层，并且在两个网络结构的Softmax层后再添加一层网络结构，网络结构的节点权值采用两个模型训练时分类准确率的比值。假设ResNet152模型和InceptionV4在训练时分类的准确率比值是t，ResNet152模型的Softmax层第一种分类节点输出的值为a，InceptionV4模型的Softmax层第一种分类节点输出的值为b,那么加权融合后第一种分类节点输出的值为a*t+b*(1-t)。每个分类节点都采用这样的方式将两个网络的输出结果进行融合。输出最大值的节点即对应该分类结果。

Claims

1.一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于包括如下步骤：

步骤(1)使用Faster-RCNN和YOLO神经网络对图像进行特征性区域判别，结合两种判别结果，分割出初步的特征区域图片；

步骤(2)对初步的特征区域图片做进一步的处理，由于袖长、裤长和领口类型的分类的特征区域分布略有不同，因此根据不同的分类需求，对特征区域进行扩大，防止特征信息丢失；

步骤(3)将图片处理成宽高相等的图片，根据袖长、裤长和领口类型这三种不同的分类任务，采用不同的填补方法，将细长和扁平的图片调整成宽高相等的图片；

步骤(4)构建两个深度卷积神经网络，对网络进行预训练，然后将经过图像处理的服装图输入到卷积神经网络中，利用随机梯度下降算法进行权重矩阵和偏移量的调整；

2.根据权利要求1所述的一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于步骤(1)分割出初步的特征区域图片的方法如下：

1-1.将原始图像大小用两个坐标进行表示，分别是左上角顶点坐标(0，0)和右下角顶点坐标(width,height)；初步的特征区域图片的左上角坐标定义(X_A,Y_B),右下角坐标定义为(X_C,Y_D)；

1-2.通过深度学习方法中的通用目标检测框架Faster-RCNN和YOLO神经网络生成候选特征区域，使用Faster-RCNN和YOLO神经网络能够识别出图像中的主要特征区域，通过坐标的方式能够获取特征区域左上角和右下角的顶点坐标，通过Faster-RCNN神经网络获取的左上角坐标定义为(X₁,Y₁)，右下角坐标定义为(X₂,Y₂)；通过YOLO神经网络获取的左上角坐标定义为(X₃,Y₃)，右下角坐标定义为(X₄,Y₄)；

1-3.每张图像获取四个坐标后，通过如下四种情况得到初步的特征区域的左上角坐标X_A,Y_B),右下角坐标(X_C,Y_D)：

①两种目标检测网络均把原始图像作为判别区域，分割出初步的特征区域图片，即(X₁,Y₁)＝(0，0)，(X₂,Y₂)＝(width,height)，(X₃,Y₃)＝(0，0)，(X₄,Y₄)＝(width,height)；

②Faster-RCNN检测出小于原始图像的判别区域，YOLO把原始图像作为判别区域，分割出的初步的特征区域图片，即(X₁,Y₁)＝(x₁，y₁)，(X₂,Y₂)＝(x₂,y₂)，(X₃,Y₃)＝(0，0)，(X₄,Y₄)＝(width,height)；

③Faster-RCNN把原始图像作为判别区域，YOLO检测出小于原始图像的判别区域，分割出的初步的特征区域图片，即(X₁,Y₁)＝(0，0)，(X₂,Y₂)＝(width,height)，(X₃,Y₃)＝(x₃，y₃)，(X₄,Y₄)＝(x₄,y₄)；

④两种目标检测网络均检测出小于原始图像的判别区域,分割出的初步的特征区域图片，即(X₁,Y₁)＝(x₁，y₁)，(X₂,Y₂)＝(x₂,y₂)，(X₃,Y₃)＝(x₃，y₃)，(X₄,Y₄)＝(x₄,y₄)；

针对情况①：把原始图像作为初步的特征区域，即(X_A,Y_B)＝(0，0),(X_C,Y_D)＝(width,height)；

针对情况②：把Faster-RCNN检测区域作为初步的特征区域，即(X_A,Y_B)＝(x₁，y₁),(X_C,Y_D)＝(x₂,y₂)；

针对情况③：把YOLO检测区域作为初步的特征区域，即(X_A,Y_B)＝(x₃，y₃),(X_C,Y_D)＝(x₄,y₄)；

针对情况④：结合两种检测区域，为了尽可能减少特征信息丢失，在取检测区域坐标遵从尽可能最大获取信息原则，(X_A,Y_B)＝(min(x₁,x₃)，min(y₁,y₃)),(X_C,Y_D)＝(max(x₂,x₄)，max(y₂,y₄))。

3.根据权利要求2所述的一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于步骤(2)所述的对初步的特征区域图片做进一步的处理方法如下：

利用获取的参数坐标(X_A,Y_B)和(X_C,Y_D)做进一步的图像处理；

当图像通过情况①获取特征区域，此类特征区域特征信息无丢失

当图像通过情况②③④获取特征区域，为了防止特征信息丢失，采用如下特征区域扩大方法：

由于服装的细粒度分类包括袖长、裤长、领口类型，各个分类任务的特征区域分布略有不同，因此基于不同的分类需求，采取不同的特征区域扩大方法；

(1)当任务为裤子长度的分类，即特征区域在靠下部分时，取原始图像的height作为Y_D坐标值，其余分类任务在Y_D的基础上向下再增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失；

(2)当任务为领口类型的分类，即图片的特征区在靠上部分时,取0作为Y_B坐标值，其余分类任务在Y_B的基础上向上增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失；

(3)当任务为袖子长度的分类，即图片的特征区在左右两侧时，在X_A,X_C的基础上往左右两侧各增加20像素(pixel)的宽度其余分类任务各增加10像素(pixel)的宽度作为裕量，以减少特征信息丢失；

假设此时的(X_A,Y_B)＝(a,b),(X_C,Y_D)＝(c,d)，则进一扩大特征区域，令X_A＝rand*a,Y_B＝rand*b,X_C＝c+(width-c)*rand,Y_D＝d+(height-d)*rand，rand为0-1的随机小数；由此提取出的特征区域的宽度为w,高度为h；

当w<h时，此特征区域为是细长，需要再往左右方向增加宽度,直到w＝h，除非已经增加到图片边缘，无法再增加；当w>h时，此特征区域为是扁平的，需要再往上下方向增加高度,直到w＝h，除非已经增加到图片边缘，无法再增加；使用此方法得到特征区域的左上角坐标(X_A,Y_B),右下角坐标(X_C,Y_D)，用该坐标分割特征区域图片，再进行步骤(3)的处理。

4.根据权利要求3所述的一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于所述步骤(3)图像处理方法如下：

对图片进行处理，调整成宽高相等的方形；经过步骤(1)(2)处理过的图像的宽度和高度作为图像处理的参考因素，并且结合分类任务要求，设计了相应的图像处理方法；每张图像根据宽度和高度关系，分成如下三种情况：

(1)当h＝w时，此时图片已经是方形，不再做处理；

(2)当h>w时，此时需要在左右方向上进行填充，使图片的宽度等于高度；左边填充的宽度设置为rand*w，rand为0-1的随机小数，右边填充的宽度为h-(1+rand)*w,并且根据分类任务采取不同的填充内容；当分类任务是裤子长度或领口类型时，用边缘列的像素值进行填充；当分类任务为袖长时，用白色进行填充防止形成错误信息，通过这种方法把图片填充成方形；

(3)当h<w时,当分类任务是领口类型或裤子长度时，分别采用底部行边缘像素值向下填充和顶部行边缘像素向上填充，填充至h＝w；当分类任务是袖子时，采用上下边缘像素同时填充，宽度分别设置成rand*h和w-(1+rand)*h,rand为0-1的随机小数,通过这种方法把图片填充成方形；由于输入神经网络的图片大小是N*N；对于大于N*N的图片采用降采样方法，对于小于N*N的图片采用升采样方法，令图片尺寸为N*N。

5.根据权利要求4所述的一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于步骤(4)中所述的深度卷积神经网络用到的是ResNet152网络模型和InceptionV4网络模型；ResNet152和InceptionV4包括卷积层、池化层、全连接层、dropout层和Softmax分类层；池化层选择平均池化,在卷积层之间还使用了残差网络结构,在全连接层后设有dropout层，用于防止训练数据不平衡出现过拟合现象；Softmax层用于训练时的分类，输出节点个数N根据分类种类进行设置。

6.根据权利要求5所述的一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于步骤(4)中所述的预训练和权重矩阵和偏移量的调整过程，其步骤包括：

4-1.采用重复采样方法对细粒度服装图片的数据集进行数据平衡，使属于各类的图片数据做到相等；

4-2.迁移在ImageNet数据集上预训练ResNet网络模型和InceptionV4网络模型的权重参数，确定卷积层的权重参数；

4-3.用平衡好的服装图片数据集训练ResNet神经网络和InceptionV4神经网络，利用随机梯度下降算法进行权重矩阵和偏移量的调整；训练过程中，损失函数值收敛，分类达到最高准确率时，神经网络训练完成。

7.根据权利要求6所述的一种基于卷积神经网络的细粒度服装的属性识别方法，其特征在于

所述步骤(5)将步骤(4)中训练的ResNet152模型和InceptionV4中的权重矩阵和偏移量参数进行记录，对应地赋值给两个神经网络中的各个层，并且在两个网络结构的Softmax层后再添加一层网络结构，网络结构的节点权值采用两个模型训练时分类准确率的比值；假设ResNet152模型和InceptionV4在训练时分类的准确率比值是t，ResNet152模型的Softmax层第一种分类节点输出的值为a，InceptionV4模型的Softmax层第一种分类节点输出的值为b,那么加权融合后第一种分类节点输出的值为a*t+b*(1-t)；每个分类节点都采用这样的方式将两个网络的输出结果进行融合；输出最大值的节点即对应该分类结果。