CN107437099A

CN107437099A - 一种基于机器学习的特定服饰图像识别与检测方法

Info

Publication number: CN107437099A
Application number: CN201710656892.4A
Authority: CN
Inventors: 李德志; 马铭; 李�杰; 师鹏程; 徐誉; 靳登云
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2017-12-05

Abstract

一种基于机器学习的特定服饰图像识别与检测方法，本发明涉及图像识别与检测方法。本发明的目的是为了解决现有针对特定种类服饰图像的检索时，由于数量巨大，通过人工检测的方式无法实现的问题。过程为：一、对图像内容进行识别，得到识别后的图像内容：构建图像分类数据库，对图像分类数据库中图像采用自助采样法进行处理，得到处理后图像；得到优化后的卷积神经网络；得到合适拟合卷积神经网络；模型集成：得到N个个体学习器，采用简单投票方式将N个个体学习器结合；二、采用Faster R‑CNN方法对步骤一得到的识别后的图像内容进行检测。本发明用于服饰图像识别与检测领域。

Description

一种基于机器学习的特定服饰图像识别与检测方法

技术领域

本发明涉及图像识别与检测方法。

背景技术

目前科技的发展重新定义了电子商务的形态，消费者通过线下商城的体验的同时使用线上商城进行比价购物，从而跨越了线下与线上商城的鸿沟，实现了随时随地的购物。但目前从大量的网络商品条目中快速搜索到自己心仪的商品仍然是一个巨大的挑战。尽管在最近的一些关于文本检索的研究中已经解决了一些问题，但在例如服饰检测等领域仍然面临着不少挑战。这些挑战包括如下几部分：

(1)大多数商品项目都缺乏可用于索引的有用的规范标签

(2)相较于文本检索，购物时商品检索的概念大多是视觉化的

(3)移动购物需要快速和高性能的检索方式

尽管在线服装零售网站偶尔会提供有关属性(如颜色或图案)的图像标签，然而鉴于其单一的属性词汇，难以充分表征服装的视觉多样性。因此亟需一种实现检索服饰图像的智能方式。面对数量巨大的服饰检索，通过人工检测的方式都无法实现。

发明内容

本发明的目的是为了解决现有针对特定种类服饰图像的检索时，由于数量巨大，通过人工检测的方式无法实现的问题，而提出一种基于机器学习的特定服饰图像识别与检测方法。

一种基于机器学习的特定服饰图像识别与检测方法具体过程为：

步骤一、对图像内容进行识别，得到识别后的图像内容：

步骤一一、构建图像分类数据库，对图像分类数据库中图像采用自助采样法进行处理，得到处理后图像；

步骤一二、构建卷积神经网络，对卷积神经网络中参数进行优化，得到优化后的卷积神经网络；

步骤一三、采用正则化对优化后的卷积神经网络进行处理，得到合适拟合卷积神经网络；

步骤一四、模型集成：对步骤一一中图像分类数据库中图像采用自助采样法进行N次自助采样，得到N个个体学习器，采用简单投票方式将N个个体学习器结合；

步骤二、采用Faster R-CNN方法对步骤一得到的识别后的图像内容进行检测；

图像内容为特定服饰图像，特定服饰为阿拉伯服饰或少数民族服饰。

本发明的有益效果为：

本发明基于机器学习中的图像分类思想提出了一种特定服饰(阿拉伯服饰)进行网络图像的服饰识别与检测，并取得了一定成果，具体的效果可以分为以下几点：

针对特定服饰的识别问题，本发明首先建立了一个小型包含9000多张网络图像的服饰图像库，并分成阿拉伯女装、阿拉伯男装与普通服饰三大类别。然后建立了一种针对特定服饰检测的卷积神经网络模型。最终本发明在利用了集成学习的思想之后，实现了在不进行任何传统人工提取特征处理，每个个体学习器以及整体集成模型的识别结果如表1所示，由表1分析可知，通过10个个体学习器模型进行集成，并经过基于“少数服从多数原则”的简单的投票进行最终分类结果的输出，实现了在测试集上的输出准确识别率高于任意一个个体学习器，特定服饰的网络图像的识别率达到88％左右。

表1集成模型的分类结果

针对特定服饰的目标检测问题，本发明同样建立了一个包含3480张网络图像的服饰图像库，并同样人工标注了阿拉伯女装，阿拉伯男装，普通服饰三类以及所属类别的目标区域。基于Faster R-CNN的模型框架将目标检测过程中的目标区域生成与检测两部分进行参数共享，本发明图像检测所用设备是型号为GTX1070的GPU，在GPU中使用ZF类型的服饰检测模型检测一张图片花费时间平均为0.05s左右，而在VGG16类型的服饰检测模型中检测一张图片花费时间平均为0.1s左右，相对于ZF模型而言，检测速度有所下降。经过多次训练得到具体结果如表2所示，最终实现了阿拉伯女装为88.95％，阿拉伯男装为87.41％，普通服饰为78.84％以及平均为85.07％的服饰目标检测准确率。

使用基于Faster R-CNN的基本思想进行服饰检测，彻底摒弃了传统特定服饰图像中需要进行的针对特定目标的特征提取工作，将目标区域的生成以及目标检测两部分全部用一个共享的卷积神经网络与前馈神经网络实现。这种方式一方面加快了目标检测的速度，使下一步进行实时性检测成为可能，另一方面真正实现了端到端的服饰检测，使整个模型具有很强的迁移性，对于不同的服饰检测仅需要改变数据集的种类即可实现。本发明在针对特定阿拉伯服饰的检测中，使用ZF模型的平均检测准确率为80.29％，使用VGG16模型的平均检测准确率为85.07％，如表2所示。

表2两种模型的检测结果

特定服饰的目标检测部分利用3480张网络图像构建起特定服饰检测的数据库，采用基于Faster R-CNN的服饰目标检测方法进行检测。本发明尝试了两种原始特征提取网络，分别为ZF模型与VGG16模型，利用迁移学习的思想导入预训练的参数作为原始特征提取网络的初始参数。在实际检测过程中，通过比较发现两种模型框架都取得了良好的检测效果，其中VGG16模型比ZF模型的准确度高了5个百分点。

特定服饰的视频检测过程使用opencv自带的视频帧提取功能，通过特定服饰检测模型对于每一帧进行图像目标检测，在每一帧的视频帧中勾出待检测目标，最后进行实时视频输出。使用训练好的特定服饰图像检测模型检测图像时，对于VGG16模型在GPU上检测一张图像花费时间为0.1s左右，而对于ZF而言一张图像仅需0.05s左右，基本可以满足视频检测的实时性要求。解决了现有针对特定种类服饰图像的检索时，由于数量巨大，通过人工检测的方式无法实现的问题，通过本发明一种基于机器学习的特定服饰图像识别与检测方法面对数量巨大的服饰检索，可以在短时间，精确的完成图像检测。

附图说明

图1为本发明的内容识别的基本流程图；

图2a为本发明原始图像示意图；

图2b为本发明对原始图像进行镜像翻转后的图像示意图；

图2c为本发明对镜像翻转后的图像进行RGB调换后的图像示意图；

图3a为本发明图像原始数据分布图；

图3b为本发明对图像原始数据进行优化后的图像数据分布图；

图3c为本发明对优化后的图像数据进行均值化后的图像数据分布图；

图4为本发明的卷积神经网络框架图；

图5为本发明的视频检测的基本流程图；

图6a为本发明的特定服饰检测随机选取的第一次测试的原图；

图6b为本发明使用ZF模型进行特定服饰检测的第一次测试结果图，man costume0.999为特定服饰男装的概率为0.999，ordinary clothing 0.988为普通服饰的概率为0.988；

图6c为本发明使用VGG16模型进行特定服饰检测的第一次测试结果图；

图6d为本发明的特定服饰检测随机选取的第二次测试的原图；

图6e为本发明使用ZF模型进行特定服饰检测的第二次测试结果图；

图6f为本发明使用VGG16模型进行特定服饰检测的第二次测试结果图，femalecostume 0.999为特定服饰女装的概率为0.999；

图6g为本发明的特定服饰检测随机选取的第三次测试的原图；

图6h为本发明使用ZF模型进行特定服饰检测的第三次测试结果图；

图6i为本发明使用VGG16模型进行特定服饰检测的第三次测试结果图。

具体实施方式

具体实施方式一：本实施方式的一种基于机器学习的特定服饰图像识别与检测方法具体过程为：

本发明在图像内容识别上采取卷积神经网络作为底层的图像处理算法，上层则采取更为普遍的多层前馈神经网络。在图像的目标检测上采取基于Faster R-CNN的基本思想，利用深度神经网络对产生区域的坐标点进行训练回归实现区域精修，接着将目标区域连同整张图片输入进目标检测网络进行图像识别。而为了降低网络复杂度，将区域生成网络模型和目标检测网络模型中都具有的原始特征提取网络(卷积神经网络)进行参数共享。

步骤一、对图像内容进行识别，得到识别后的图像内容；

步骤一三、采用正则化对优化后的卷积神经网络进行处理(防止过拟合)，得到合适拟合卷积神经网络；

步骤一四、模型集成：对步骤一一中图像分类数据库中图像采用自助采样法进行N次自助采样(是对步骤一一中图像分类数据库中的图像进行采样，即将步骤一一重复执行N次)，得到N个个体学习器，采用简单投票方式将N个个体学习器结合；

图像内容为特定服饰图像，特定服饰为阿拉伯服饰或少数民族服饰(藏族、蒙古族、维吾尔族、苗族等)。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一一中构建图像分类数据库，对图像分类数据库中图像采用自助采样法进行处理，得到处理后图像；具体过程为：

步骤一一一、从谷歌图库，百度图库以及ImageNet等学术图库下载服饰图像库，将图像分为特定服饰男装(阿拉伯男装的图像样本)、特定服饰女装(阿拉伯女装的图像样本)和普通服饰三类构成样本集，其中取特定服饰女装和普通服饰样本数各L(3140)张，从特定服饰女装和普通服饰样本中各取S(140)张分别用于特定服饰女装和普通服饰样本的测试集，从特定服饰女装和普通服饰样本中各取M(3000)张分别用于特定服饰女装和普通服饰样本的训练集，S<<L，M＜L，S+M＝L，由于阿拉伯男装网络图像的缺少，特定服饰男装为A(1395)张；

机器学习分为训练和测试过程。在图像识别与内容检测过程中，将样本集分为训练集和测试集，本发明采用自主采样法将训练集进行分割，一部分仍作为训练集，另一部分作为验证集；其中训练集是用来对于所有过程中提出的所有方法(包括神经网络构建、模型集成、正则化、检测等等所有环节)进行实验训练时确定识别、检测准确率所使用的数据集，验证集在训练环节为了验证准确率使用的数据集，测试集是在确定所有方法后，最终进行性能测试时所使用的数据集。

步骤一一二、当特定服饰男装A(1395)小于L(3140)时，为了保证数据集中不同类别图像的样本量相等，对特定服饰男装(阿拉伯男装的图像样本)采取镜像翻转以及RGB三通道中RG值调换处理进行数量扩充，最终把特定服饰男装(阿拉伯男装的图像样本)样本数扩充到L张，如图2所示；

当特定服饰男装A大于等于L(3140)张时，特定服饰男装A取L(3140)张；

从特定服饰男装中取S张用于特定服饰男装的测试集，从特定服饰男装中取M张用于特定服饰男装的训练集，S<<L，M＜L，S+M＝L；为了系统调整参数的需要，将训练集分出一部分数据作为验证集，用来测试系统的泛化能力；但由于本身训练集的缺少，再度减少训练集会导致最终深度学习的效果不佳。因此本发明采取自助采样法对特定服饰女装、特定服饰男装和普通服饰样本的训练集M进行分割，分别作为特定服饰女装、特定服饰男装和普通服饰样本的验证集；

该方法给定包含m个样本的数据集D，我们对它进行采样产生数据集D′：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D'，这就是自助采样的结果。显然，D中有一部分样本会在D'中多次出现，而另一部分样本不会出现。可以做一个简单的估计，样本在m次采样中始终不被采到的概率是取极限得到：

即通过自助采样，初始9000个样本的训练集D中约有36.8％的样本未出现在采样数据集D'中，于是我们可以将D'用作训练集，没在训练集中出现的样本用于作为验证集；

步骤一一三、最后考虑到训练量的问题，本发明对图像进行进一步的预处理，步骤一一三、将得到的训练集、验证集、测试集图像的大小统一压缩为[64x64]的像素(不仅仅是验证图像，是对图库中所有图像，包括训练集、验证集、测试集的图像经过步骤一一二后得到的图像)，计算特定服饰女装、特定服饰男装和普通服饰样本的训练集M(3000)中每个像素点的均值，并将样本集像素点的值分别减去对应位置的训练集M的像素点的均值，完成数据库的均值化处理，因为图像数据是高度相关的，假设其分布如图3a所示(简化为2维)。由于初始化的时候，本发明中参数是0均值的，因此开始的拟合y＝Wx+b，基本过原点附近，如图3b的虚线所示。所以网络需要经过多次学习才能逐步达到如图3b中实线的拟合，即收敛的比较慢。通过对输入数据先作减均值操作，如图3c所示，显然可以加快学习；得到处理后图像。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤一二中构建卷积神经网络，对卷积神经网络中参数进行优化，得到优化后的卷积神经网络；具体过程为：

步骤一二一、多层前馈神经网络的参数量很大，并且将二维的图像信息转换成一维的数据处理时损失了图像原本的位置信息，因此仅使用多层前馈神经网络进行图像分类时效果并不是特别好，所以本发明在多层前馈神经网络前加入卷积神经网络，随着卷积层层数的加深，训练速度和所需内存量都成比例的增大，当设为四个卷积层，每层卷积核不超过64个时，使用CPU迭代200轮次需要近30个小时，除此之外由于较小的数据集，过深的网络容易造成过拟合现象以及代价函数的收敛困难。因此本发明所训练的卷积神经网络不考虑四层以上的结构，主要设计并采用两种卷积神经网络结构分为2种，一种是卷积层，卷积层，ReLu层，ReLu层，采样层，全连接层，softmax层；另一种是卷积层，ReLu层，采样层，全连接层，softmax层；

2种卷积神经网络对应三种卷积神经网络框架(每一种结构里最多出现四层卷积层，所以选择不同的层数出现的框架就不一样，本发明中使卷积层出现两次，三次和四次，这样共三种框架)，将训练集输入三种卷积神经网络框架，使三种卷积神经网络框架分别进行30轮迭代，根据训练集比较验证集的图像识别准确度(通过比较2种卷积神经网络对应的三种框架的迭代训练结果)，取图像识别准确度高的卷积神经网络框架作为优化后的卷积神经网络框架；如图4所示；

ReLu层(Rectified Linear Units)为纠正错误单元；

ReLu作为非线性激活函数用于卷积神经层后面的数据训练，作用和多层前馈神经网络中的ReLu函数基本一致；

实验证明在使用批量归一化层后，训练的准确度上升的更加迅速与平稳，说明数据学习过程更加稳健。

优化后的卷积神经网络为32个卷积核，采样层，32个卷积核，采样层，64个卷积核，采样层，64个卷积核，采样层，全连接层，全连接层，softmax层。

1个卷积核为一层卷积层与一层Relu层之间加入一层批量归一化层。

每一种结构里最多出现四层卷积层，所以选择不同的层数出现的框架就不一样，本发明中使卷积层出现两次，三次和四次，这样共三种框架。

卷积神经网络的结构就是卷积层、ReLu层和采样层，全连接层就是最终的结果输出层，它输出的值被看做是不同类别的评分值，softmax层是量化预测分类标签的得分与真实标签之间一致性的，图片输入、经过卷积神经网络后再经过全连接层和softmax层构成完整的卷积神经网络框架。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述步骤一三中采用正则化对优化后的卷积神经网络进行处理(防止过拟合)，得到合适拟合卷积神经网络；具体过程为：

由于数据量的缺少，在训练系统模型中，容易导致过拟合现象。在本发明所采用的框架下，训练集的准确率达到了100％，而验证集的准确率为78.55％，测试集的准确率仅为74.05％，训练集准确率和验证集的准确率相差21.45％，和测试集的准确度相差25.95％，显示系统还处在过拟合状态，系统整体的泛化能力不强。因此本发明采取L²正则化、随机失活和提前终止的方法来控制网络容量防止过拟合现象。

对优化后的卷积神经网络每个卷积层和每个全连接层上分别加入一个L²＝0.05的正则化系数，并且在每个全连接层之后加上一个随机失活层，随机失活层系数P设为0.5，为防止训练收敛过慢，迭代100次；

其中训练系统(内容识别的训练过程使用的系统)的学习步长设置为5e^-3，而为了减少计算量，在每个迭代周期内，将训练样本M分成每组各100个小型训练样本进行同时迭代100次。

实验结果显示当加入正则化算法之后，训练集中的准确率依旧为100％，但验证集中的准确度上升了5.55个百分点，到了84.10％，与在训练集中的差距缩小至15.9％，说明系统的过拟合现象得到缓解。另外，相比较阿拉伯女装的分类准确度，阿拉伯男装的准确度明显较低，当经过正则化处理后阿拉伯女装的准确度基本保持不变，提升最大的是阿拉伯男装的准确度，提高了近25个百分点，其次是普通服饰，提高了近7个百分点，导致这种情况的原因是因为阿拉伯男装的数据量明显小于女装和普通服饰，造成其多样性不够，容易导致模型对于阿拉伯男装的学习出现更严重的过拟合现象。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤一四中模型集成：对步骤一一中图像分类数据库中图像采用自助采样法进行N次自助采样，得到N个个体学习器，采用简单投票方式将N个个体学习器结合；具体过程为：

集成模型通过建立和组合多个学习器(有时称为多分类器系统)来完成任务。首先产生一组“个体学习器”，然后使用一种策略来进行组合。集成学习通过结合多个学习器，通常可以比在单个学习器中实现更为优越的泛化性能。

对步骤一一中图像分类数据库中图像采用自助采样法进行N次自助采样，得到N个个体学习器；

对于不同个体学习器的结合问题，本发明采取简单投票的方式。为了便于讨论，将个体学习器h_i在步骤一一得到的处理后图像上的预测输出表示为一个三维向量

其中

若个体学习器h_i将步骤一一得到的处理后图像预测为c₁，则取值为1，为0；

若个体学习器h_i将步骤一一得到的图像预测为c₂，则取值为1，为0；

若个体学习器h_i将步骤一一得到的图像预测为c₃，则取值为1，为0；

为c₁的预测值，为c₂的预测值，为c₃的预测值；

c₁为特定服饰男装，c₂为特定服饰女装，c₃为普通服饰；

每个个体学习器以相同的投票权重对测试集S(140)进行预测投票，获得票数最多的类别作为集成模型最终的预测结果进行输出，若测试集S中同时有多个图像获得最高票，则从中随机选取一个，即：

为或j取值为1-3；i为个体学习器个数；

若测试集S中同时有多个图像获得最高票，则从中随机选取一个。

分析整体集成模型的结果可知，通过10个个体学习器模型进行集成，并经过基于“少数服从多数原则”的简单的投票进行最终分类结果的输出，实现了在测试集上的输出准确率高于任意一个个体学习器，具体达到88.10％，与训练集之间的差距缩小到11.9个百分点，进一步减缓了单个学习器模型的过拟合现象，但是其代价是整体模型训练与测试的时间花销的增大。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述所述个体学习器N取值为10。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述步骤二中采用Faster R-CNN方法对图像内容进行检测；具体过程为：

在一些特定情境下，除了对整张图像进行分类完成目标识别之外，还希望系统能够输出所要检测目标在图像中的位置，即目标检测问题。本发明使用了基于Faster R-CNN的服饰目标检测方法，利用深度神经网络提取感兴趣的目标，精准生成目标区域，接着将目标区域连同整张图片输入到目标检测网络进行图像识别。同时为了降低网络复杂度，将区域生成网络模型和目标检测网络模型中都具有的原始特征提取网络(卷积神经网络)进行参数共享。

步骤二一、将步骤一一得到的处理后图像经过卷积层(卷积神经层可以看做是提取图像特征的滤波器，利用卷积核对图像卷积实现了图像灰度图和边缘信息图特征的提取)和ReLu层(优化后的卷积神经网络框架中的32个卷积核，采样层，32个卷积核，采样层，64个卷积核，采样层，64个卷积核，采样层，)产生1个映射特征图，选取映射特征图中的九种矩形框(面积比为{8²,16²,32²},及三种长宽比{1:1,1:2,2:1}，就是面积为8²的长宽比有1:1,1:2,2:1三种，就是面积为16²的长宽比有1:1,1:2,2:1三种，就是面积为32²的长宽比有1:1,1:2,2:1三种，共九种)；

给九种矩形框中每个矩形框一个二进制的标签，每个矩形框遵循的原则为：

步骤二一一、将九种矩形框中每个矩形框标定的候选区域与步骤一识别的图像内容重叠比例最大的矩形框标记为前景样本；

步骤二一二、将九种矩形框除步骤二一一中标记为前景样本的矩形框外的剩余矩形框标定的候选区域与步骤一识别的图像内容重叠比例大于0.7的矩形框记为前景样本；

得到预测框，预测框指标定为前景样本对应的框；

步骤二一三、将九种矩形框除步骤二一一和二一二中标记为前景样本的矩形框外的剩余的矩形框标定的候选区域与步骤一识别的图像内容重叠比例都小于0.3的矩形框记为背景样本；

步骤二一四、将九种矩形框除步骤二二、步骤二三和中步骤二四标记的矩形框外的剩余矩形框弃去不用；

以便能够很好的覆盖住原图。分类层(cls layer)输出每一个滑动窗位置，9个矩形框(anchor)属于前景和背景的概率；坐标位置回归层(reg layer)输出每一个滑动窗位置，9个矩形框对应窗口应该平移缩放的参数；过程为：

有了这些定义，我们遵循Fast R-CNN中的多任务代价函数最小化目标函数。将步骤一一得到处理后图像的代价函数定义为：分类层(cls layer)输出每一个滑动窗位置，九种矩形框(anchor)属于前景和背景的概率为：

其中i是一个九种矩形框的索引，p_i为九种矩形框i是前景和背景的预测概率；如果九种矩形框是前景样本，则等于1；如果九种矩形框是背景样本，等于0；t_i表示预测的九种矩形框的4个参数化坐标t_x,t_y,t_w,t_h，表示九种矩形框是前景样本的真实参数化坐标；为九种矩形框是前景和背景的概率；L_cls表示一种二分类的log型损失函数(含有前景目标或不含前景目标)；为回归代价函数，其中R是具有鲁棒性的损失函数：N_cls为分类层归一化系数，N_reg为位置坐标回归层归一化系数，λ为平衡权重；

代表着对于代价函数而言，其仅在含有前景样本的矩形框中起作用{p_i},{t_i}相互独立，分别由N_cls和N_reg以及一个平衡权重λ进行归一化处理；

对于回归问题，采用如下四个坐标：坐标位置回归层(reg layer)输出每一个滑动窗位置，九种矩形框对应窗口平移缩放的参数为：

t_x＝(x-x_a)/w_a,t_y＝(y-y_a)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a),

其中t_x,t_y,t_w,t_h分别代表九种矩形框的中心坐标点以及矩形框的宽与高，而x,x_a,x^*分别为预测框，矩形框(9个框)以及真实框(给定一张图片，不需使用本发明提出的检测方法，直接用眼睛观察，按照本发明的矩形框尺寸，圈出特定服饰的框)的中心坐标点x轴坐标，y,y_a,y^*分别为预测框，矩形框(9个框)以及真实框的中心坐标点y轴坐标，w,w_a,w^*分别为预测框，矩形框(9个框)以及真实框的宽，h,h_a,h^*分别为预测框，矩形框(9个框)以及真实框的高；

生成区域网络模型；

步骤二二、将步骤一一得到的处理后图像经过卷积神经网络后和步骤二一得到的预测框一同送入多层前馈神经网络中进行分类识别，得到目标检测网络模型；

多层前馈神经网络即人工神经网络，其中最基本的成分是神经元，并将神经元进行分层排列；

而卷积神经网络相当于神经元的三维排列，即与多层前馈神经网络不同，卷积神经网络的各层中的神经元是3维排列的。卷积神经网络包括卷积层、ReLu层、采样层。

需要注意的是对目标检测网络进行误差逆传播训练优化时，应当将区域生成模型产生的预测框当成固定量，因为两种模型的优化过程是分别独立进行的。

目标检测网络模型与Faster R-CNN的结构基本一致；

步骤二三、本发明尝试采用了两种全新架构的卷积神经网络模型，分别称为ZF与VGG16，针对特定服饰图像的目标检测问题，本发明同样建立了一个包含3480张图像的小型服饰目标检测的数据库，其中不仅人工标注了服饰类别，并用矩形框勾出图像中人物所在位置。数据库中男子民族服饰，女士民族服饰以及普通服饰所占比例大约1:1:1，各分别随机抽取1000张作为训练集与验证集，剩下1480张图片作为测试集。

在训练时为了实现原始特征提取网络的参数共享，本发明将整个训练分成四个过程进行，分别如下所示：

(1)将步骤一一得到的处理后图像导入区域生成网络模型，对生成的区域网络模型进行80000次迭代的训练优化，保存目标检测网络模型产生的预测框；

步骤二一四是区域网络模型生成的预测框；

(2)将步骤一一得到的处理后图像以及(1)得到的预测框信息导入目标检测网络模型，对目标检测网络模型进行40000次迭代的训练优化，并保存目标检测网络模型参数；

(3)将(2)得到的目标检测网络模型参数导入生成的区域网络模型，对生成的区域网络模型进行80000次迭代，保存目标检测网络模型产生的预测框；

(4)将(2)得到的目标检测网络模型参数以及(3)得到的预测框信息导入目标检测网络模型，对目标检测网络模型进行40000次迭代，保存目标检测网络模型最终产生的预测框。

通过以上四步的模型训练，实现了在分别训练区域生成网络模型与目标检测网络模型的同时，共享了原始特征提取网络模型的参数，从而降低了模型的大小，加快了整体模型检测的速度。

其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例一种基于机器学习的特定服饰图像识别与检测方法具体是按照以下步骤制备的：

图像分类数据库的构建与处理

特定服饰图像识别的基本流程如图1所示。

本发明建立了一个相对小型的服饰图像库，所有图像均来自网络下载，包括谷歌图库，百度图库以及ImageNet等学术图库。通过对图像库图像的切割与人工标注工作，将服饰图像分为阿拉伯男装、阿拉伯女装以及普通服饰三大类。其中阿拉伯女装和普通服饰样本数各3140张，将140张用于最终测试集，3000张用于训练集。由于阿拉伯男装网络图像的缺少，最终收集到1395张图像样本。为了保证数据集中不同类别图像的样本量相等，对于阿拉伯男装的图像样本进行了数量扩充，采取镜像翻转以及RGB三通道中RG值调换处理，最终把阿拉伯男装数据集扩充到3140，如图2a、2b、2c所示。

为了系统调整参数的需要，训练集需要分出一部分数据作为验证集，用来测试系统的泛化能力。但由于本身训练集的缺少，再度减少训练集会导致最终深度学习的效果不佳。因此本发明采取自助采样法作为数据集分割方式。该方法给定包含m个样本的数据集D，我们对它进行采样产生数据集D′：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D′，这就是自助采样的结果。显然，D中有一部分样本会在D'中多次出现，而另一部分样本不会出现。可以做一个简单的估计，样本在m次采样中始终不被采到的概率是取极限得到：

即通过自助采样，初始9000个样本的训练集D中约有36.8％的样本未出现在采样数据集D'中，于是我们可以将D'用作训练集，没在训练集中出现的样本用于作为验证集。

最后考虑到训练量的问题，本发明对图像进行进一步的预处理，把图像的大小统一压缩为[64x64]的像素，计算训练集每个像素点的均值，并让样本集减去训练集均值进行数据库的均值化处理。因为图像数据是高度相关的，假设其分布如图3a所示(简化为2维)。由于初始化的时候，本发明中参数是0均值的，因此开始的拟合y＝Wx+b，基本过原点附近，如图3b的虚线所示。所以网络需要经过多次学习才能逐步达到如图3b中实线的拟合，即收敛的比较慢。通过对输入数据先作减均值操作，如图3c所示，显然可以加快学习。

1.神经网络的搭建与参数优化

多层前馈神经网络的参数量很大，并且将二维的图像信息转换成一维的数据处理时损失了图像原本的位置信息，因此仅使用多层前馈神经网络进行图像分类时效果并不是特别好，所以本发明在多层前馈神经网络前加入了卷积神经网络对图像进行处理。另外本发明在每个卷积层之后、ReLu层之前额外加入批量归一化层，对数据进行的处理。实验证明在使用批量归一化层后，训练的准确度上升的更加迅速与平稳，说明数据学习过程更加稳健。

随着卷积层层数的加深，训练速度和所需内存量都成比例的增大，当设为四个卷积层，每层卷积核不超过64个时，使用CPU迭代200轮次需要近30个小时，除此之外由于较小的数据集，过深的网络容易造成过拟合现象以及代价函数的收敛困难。因此本发明所训练的卷积神经网络不考虑四层以上的结构，主要设计并采用两种卷积神经网络，一种是经过两个卷积层与ReLu层后加入一层采样层，一种是每经过一层卷积层与ReLu层便加入一层采样层。通过比较这两种网络可能对应的三种框架的迭代训练结果，确定最终选择的卷积神经网络框架如图4所示。

2.系统正则化的选择与实现

在卷积层以及全连接层上各加入了一个L²＝0.05的正则化系数，并且在每个全连接层之后加上一个随机失活层，其系数P设为0.5，为防止训练收敛过慢，设置了100轮次的迭代。其中系统的学习步长设置为5e-3，而为了减少计算量，在一个轮次迭代周期内，将自助采样产生的训练集中的训练样本分成每组各100个小型训练样本进行同时迭代。实验结果显示当加入正则化算法之后，训练集中的准确率依旧为100％，但验证集中的准确度上升了5.55个百分点，到了84.10％，与在训练集中的差距缩小至15.9％，说明系统的过拟合现象得到缓解。另外，相比较阿拉伯女装的分类准确度，阿拉伯男装的准确度明显较低，当经过正则化处理后阿拉伯女装的准确度基本保持不变，提升最大的是阿拉伯男装的准确度，提高了近25个百分点，其次是普通服饰，提高了近7个百分点，导致这种情况的原因是因为阿拉伯男装的数据量明显小于女装和普通服饰，造成其多样性不够，容易导致模型对于阿拉伯男装的学习出现更严重的过拟合现象。

3.模型集成

对于不同个体学习器的结合问题，本发明采取简单投票的方式。为了便于讨论，我们将h_i在样本上的预测输出表示为一个三维向量分别对应于本文关于服饰的三分类问题，其中是h_i在类别标记c_j上的输出。其中若h_i将样本预测为c_j则取值为1，否则为0。

每个个体学习器针对测试集进行独立的预测，每个个体学习器以相同的投票权重进行预测投票，获得“票数”最多的类别作为整个模型最终的预测结果进行输出，若同时有多个标记获得最高票，则从中随机选取一个，即：

4.基于Faster R-CNN的服饰目标检测

为了训练区域生成模型，我们需要给每个矩形框一个二进制的标签，其遵循的原则为：对每个标定的候选区域，与其重叠比例最大的矩形框标记为前景样本；在剩余的矩形框中，如果其与某个标定重叠比例大于0.7，记为前景样本；如果其与任意一个标定的重叠比例都小于0.3，记为背景样本；对剩余的或跨越图像边界的矩形框弃去不用。

目标检测网络模型与Faster R-CNN的结构基本一致，将图片输入模型，经过卷积神经网络后，连同经过区域生成模型产生的矩形框一同送入多层前馈神经网络中进行分类识别。需要注意的是对目标检测网络进行误差逆传播训练优化时，应当将区域生成模型产生的预测框当成固定量，因为两种模型的优化过程是分别独立进行的。

本发明尝试采用了两种全新架构的卷积神经网络模型，分别称为ZF与VGG16。针对特定服饰图像的目标检测问题，本发明同样建立了一个包含3480张图像的小型服饰目标检测的数据库，其中不仅人工标注了服饰类别，并用矩形框勾出图像中人物所在位置。数据库中男子民族服饰，女士民族服饰以及普通服饰所占比例大约1:1:1，各分别随机抽取1000张作为训练集与验证集，剩下1480张图片作为测试集。

(1)导入初始参数进入区域生成网络模型，对区域生成网络模型进行80000次迭代的训练优化，保存产生的预测框；

(2)导入初始参数以及区域生成网络模型所产生的预测框信息进入目标检测网络模型，对目标检测网络模型进行40000次迭代的训练优化，并保存网络模型参数；

(3)导入上一步保存的网络模型参数进入区域生成网络模型，对区域生成网络模型进行80000次迭代，保存产生的预测框；

(4)导入之前保存的网络参数以及上一步区域生成网络模型产生的预测框信息进入目标检测网络模型，对目标检测网络模型进行40000次迭代，最终保存产生的预测框。

5.特定服饰的视频检测

视频检测的基本流程如图5所示。对于视频帧的提取，本发明使用opencv自带的视频帧提取功能，将每一帧当作图像送入训练后的检测模型，并判断矩形框内的目标为何种种类。本发明用红色矩形框表示女士民族服饰，用蓝色矩形框表示男士民族服饰，而用绿色矩形框表示普通民族服饰。为了减少误判，本发明将男士民族服饰与女士民族服饰的判断阈值设为0.8，而将普通服饰的判断阈值设为0.9，并且相比于普通服饰的绿色矩形框，对另两个类别的矩形框进行加粗处理，以便在视频检测中更加直观。

图像检测所用设备是型号为GTX1070的GPU，在GPU中使用ZF类型的服饰检测模型检测一张图片花费时间平均为0.05s左右，而在VGG16类型的服饰检测模型中检测一张图片花费时间平均为0.1s左右，相对于ZF模型而言，检测速度有所下降，但基本可以满足视频检测的实时性要求。在训练过程中为了加速结果收敛并取得良好的结果，采用了迁移学习的思想，对向原始特征提取网络中所导入的初始参数并不是类似图像分类时所采用的高斯分布，而是实现用该网络进行图像分类训练，将最终训练后的参数当作初始参数进行模型的导入。具体取得的结果如图6a、6b、6c、6d、6e、6f、6g、6h、6i所示。

由实验结果可知，VGG16的准确度要比ZF模型高5个左右的百分点，通过图片的具体结果比较也可以看出，VGG16的检测效果要好于ZF模型，尤其是第二行，ZF模型出现了检错的情况。但因为VGG16的模型要大于ZF模型，检测速度要慢于ZF，并且使用GTX1070进行实际训练时，VGG16模型需要8个小时左右，而ZF模型仅需要4个小时。因此对于实际使用时，要求准确度的情况下应选取VGG16的模型架构，当对实时性要求较高时，则可选择ZF模型。需要注意的是，因为设备模型的检测速度的限制，实时视频处理仍存在一定延迟。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述方法具体过程为：

步骤一、对图像内容进行识别，得到识别后的图像内容：

2.根据权利要求1所述一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述步骤一一中构建图像分类数据库，对图像分类数据库中图像采用自助采样法进行处理，得到处理后图像；具体过程为：

步骤一一一、将图像分为特定服饰男装、特定服饰女装和普通服饰三类构成样本集，其中取特定服饰女装和普通服饰样本数各L张，从特定服饰女装和普通服饰样本中各取S张分别用于特定服饰女装和普通服饰样本的测试集，从特定服饰女装和普通服饰样本中各取M张分别用于特定服饰女装和普通服饰样本的训练集，S＜＜L，M＜L，S+M＝L，特定服饰男装为A张；

步骤一一二、当特定服饰男装A小于L时，对特定服饰男装采取镜像翻转以及RGB三通道中RG值调换处理进行数量扩充，最终把特定服饰男装样本数扩充到L张；

当特定服饰男装A大于等于L张时，特定服饰男装A取L张；

从特定服饰男装中取S张用于特定服饰男装的测试集，从特定服饰男装中取M张用于特定服饰男装的训练集，S＜＜L，M＜L，S+M＝L；采取自助采样法对特定服饰女装、特定服饰男装和普通服饰样本的训练集M进行分割，分别作为特定服饰女装、特定服饰男装和普通服饰样本的验证集；

步骤一一三、将得到的训练集、验证集、测试集图像的大小统一压缩为[64x64]的像素，计算特定服饰女装、特定服饰男装和普通服饰样本的训练集M中每个像素点的均值，并将样本集像素点的值分别减去对应位置的训练集M的像素点的均值，完成数据库的均值化处理，得到处理后图像。

3.根据权利要求2所述一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述步骤一二中构建卷积神经网络，对卷积神经网络中参数进行优化，得到优化后的卷积神经网络；具体过程为：

步骤一二一、卷积神经网络结构分为2种，一种是卷积层，卷积层，ReLu层，ReLu层，采样层，全连接层，softmax层；另一种是卷积层，ReLu层，采样层，全连接层，softmax层；

2种卷积神经网络对应三种卷积神经网络框架，将训练集输入三种卷积神经网络框架，使三种卷积神经网络框架分别进行30轮迭代，根据训练集比较验证集的图像识别准确度，取图像识别准确度高的卷积神经网络框架作为优化后的卷积神经网络框架；

ReLu层为纠正错误单元；

优化后的卷积神经网络为32个卷积核，采样层，32个卷积核，采样层，64个卷积核，采样层，64个卷积核，采样层，全连接层，全连接层，softmax层；

4.根据权利要求3所述一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述步骤一三中采用正则化对优化后的卷积神经网络进行处理，得到合适拟合卷积神经网络；具体过程为：

对优化后的卷积神经网络每个卷积层和每个全连接层上分别加入一个L²＝0.05的正则化系数，并且在每个全连接层之后加上一个随机失活层，随机失活层系数P设为0.5，将训练集M分成每组各100个小型训练样本同时迭代，迭代100次，学习步长设置为5e^-3。

5.根据权利要求4所述一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述步骤一四中模型集成：对步骤一一中图像分类数据库中图像采用自助采样法进行N次自助采样，得到N个个体学习器，采用简单投票方式将N个个体学习器结合；具体过程为：

将个体学习器h_i在步骤一一得到的处理后图像上的预测输出表示为一个三维向量

其中

为c₁的预测值，为c₂的预测值，为c₃的预测值；

c₁为特定服饰男装，c₂为特定服饰女装，c₃为普通服饰；

每个个体学习器以相同的投票权重对测试集S进行预测投票，获得票数最多的类别作为集成模型最终的预测结果进行输出，

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>c</mi> <munder> <mrow> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msubsup> <mi>h</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> </mrow>

为或j取值为1-3；i为个体学习器个数；

6.根据权利要求5所述一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述个体学习器N取值为10。

7.根据权利要求6所述一种基于机器学习的特定服饰图像识别与检测方法，其特征在于：所述步骤二中采用Faster R-CNN方法对图像内容进行检测；具体过程为：

步骤二一、将步骤一一得到的处理后图像经过卷积层和ReLu层，产生1个映射特征图，选取映射特征图中的九种矩形框；

得到预测框，预测框指标定为前景样本对应的矩形框；

九种矩形框属于前景样本和背景样本的概率为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>,</mo> <mo>{</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>9</mn> </munderover> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>9</mn> </munderover> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <msub> <mi>L</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> </mrow>

其中i是一个九种矩形框的索引，p_i为九种矩形框i是前景和背景的预测概率；如果九种矩形框是前景样本，则等于1；如果九种矩形框是背景样本，等于0；t_i表示预测的九种矩形框的4个参数化坐标t_x,t_y,t_w,t_h，表示九种矩形框是前景样本的真实参数化坐标；为九种矩形框是前景和背景的概率；L_cls表示一种二分类的log型损失函数；为回归代价函数，其中R是具有鲁棒性的损失函数；N_cls为分类层归一化系数，N_reg为位置坐标回归层归一化系数，λ为平衡权重；

九种矩形框对应窗口平移缩放的参数为：

t_x＝(x-x_a)/w_a,t_y＝(y-y_a)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a),

其中t_x,t_y,t_w,t_h分别代表九种矩形框的中心坐标点以及矩形框的宽与高，而x,x_a,x^*分别为预测框，矩形框以及真实框的中心坐标点x轴坐标，y,y_a,y^*分别为预测框，九种矩形框以及真实框的中心坐标点y轴坐标，w,w_a,w^*分别为九种预测框，九种矩形框以及真实框的宽，h,h_a,h^*分别为预测框，九种矩形框以及真实框的高；

生成区域网络模型；

步骤二三、