CN107506786B

CN107506786B - 一种基于深度学习的属性分类识别方法

Info

Publication number: CN107506786B
Application number: CN201710599506.2A
Authority: CN
Inventors: 凌贺飞; 马冬冬; 李平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2020-06-02
Anticipated expiration: 2037-07-21
Also published as: CN107506786A

Abstract

本发明公开了一种基于深度学习的属性分类识别方法，对于不同的深度学习模型，提出一种融合方法，探索了行人属性之间的上下文关系。首先输入的图像数据经过卷积神经网络，生成特征图，然后把属性向量化。设置一个权值参数，把融合之后的向量带入到权值函数进行迭代训练。通过调整权值参数的值，对两种模型的比重进行平衡。本发明的特点是考虑了行人属性之间的上下文关系，提高了分类的准确率，避免了行人属性分类准确率的两极分化。主要应用在监控摄像头中，对于过滤掉监控视频中的无用信息，快速识别出目标行人有着比较广泛的应用前景。

Description

一种基于深度学习的属性分类识别方法

技术领域

本发明属于深度学习技术领域，更具体地，涉及一种基于深度学习的属性分类识别方法。

背景技术

随着网络直播、视频网站等媒体的进一步壮大和成熟，以及摄像头监控的逐步普及，视频信息呈现爆炸式的增加势头。为生活带来便利的同时，也为公安等监管部门追踪和识别犯罪嫌疑人带来了难度。

目前，对行人属性进行分类与识别，主要分为两种方向，基于非深度学习的算法以及基于深度学习的算法。

在深度学习应用到行人属性分类与识别之前，经典的机器学习算法，比如支持向量机(Support Vector Machine，SVM)算法，k最邻近分类算法(k-NearestNeighbor，kNN)和AdaBoost算法通常被认为是比较好的分类算法。

SVM算法可以解决小样本下机器学习的问题、非线性问题以及无局部极小值问题，可以很好的处理高维数据集，泛化能力比较强。但是，SVM算法对于核函数的高维映射解释力不强，尤其是径向基函数，而且，该算法对缺失数据敏感。kNN算法是一种在线技术，新数据可以直接加入数据集而不必进行重新训练，kNN算法理论简单，容易实现。但是，kNN算法对于样本容量大的数据集计算量比较大。样本不平衡时，预测偏差比较大。比如：某一类的样本比较少，而其他类样本比较多。kNN每一次分类都会重新进行一次全局运算，k值大小的选择对于最终结果也有影响。AdaBoost算法很好的利用了弱分类器进行级联，可以将不同的分类算法作为弱分类器。但是，AdaBoost迭代次数不太好设定，可以使用交叉验证来进行确定。数据不平衡导致分类精度下降，训练比较耗时，每次重新选择当前分类器最好分切点。

在基于深度学习的算法中，目前普遍采用的是用ZF-net结合Faster R-CNN的方法对行人属性进行分类与识别。其原理是：一张图片(可以任意尺寸)，输入到卷积神经网络中，经过卷积操作，生成特征图。之后，特征图输入到RPN网络中，经过卷积操作，生成RoI(感兴趣区域)。接下来，进入到Fast R-CNN网络。然后，有两个分支，一个是Reg层，用于回归，这一层主要在训练数据时使用。主要使用反向回归算法进行迭代训练。一个是Cls层，用于分类。整个训练和检测过程使用Caffe框架。该算法的缺点是，行人属性之间的关系被忽略了，而且属性分类准确率可能会出现两极分化的情况。

总之，目前的行人属性分类与识别算法大部分没有考虑属性之间的关系，导致最终的分类准确率较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供了一种基于深度学习的属性分类识别方法，由此解决目前的行人属性分类与识别算法的分类准确率较低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的属性分类识别方法，包括：

(1)卷积神经网络对输入的图像数据进行处理分别得到第一特征向量与n个第二特征向量，其中，所述第一特征向量为n*1维的向量，每一维表示属性为正样本的概率，所述第二特征向量为2*1维的向量，表示属性为正/负样本的概率，n为属性类别的数量；

(2)将所述n个第二特征向量进行融合得到第三特征向量，其中，所述第三特征向量为n*1维的向量，每一维表示属性为正样本的概率；

(3)将所述第一特征向量与所述第三特征向量进行融合得到目标特征向量，其中，所述目标特征向量为n*1维的向量，每一维融合了所述第一特征向量相应维的属性与所述第三特征向量相应维的属性之间的关系；

(4)将所述目标特征向量输入损失函数进行迭代训练，直至所述损失函数收敛，输出属性分类识别结果。

优选地，步骤(2)具体包括以下子步骤：

(2.1)将每个所述第二特征向量均扩展为n*1维向量，其中，在每个扩展后的n*1维向量中，仅保留所述第二特征向量对应属性为正样本的概率，其余元素均设置为0；

(2.2)将n个n*1维向量相加，得到扩展之后的第三特征向量。

优选地，步骤(3)具体包括：

由融合函数：C＝(1-α)A+αB将所述第一特征向量与所述第三特征向量进行融合得到目标特征向量，其中，α是融合函数中的权值参数，A为所述第三特征向量，B为所述第一特征向量。

优选地，在步骤(4)中的损失函数为：

其中，

表示第i张图像中第l种属性输出的概率，y_il表示第i张图像中第l种属性的真实标签，N表示图片数量。

优选地，所述卷积神经网络包括5个卷积层以及3个全连接层，在所述卷积神经网络的每一层之后，均添加一个ReLu层，在第一个ReLu层之后，添加一个最大池化层，在第二个ReLu层之后，添加一个局部标准化层，在第5个ReLu层之后，添加一个最大池化层。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)通过将经过卷积神经网络得到的两类特征向量进行融合，探索了属性之间的上下文关系，在训练过程中，卷积神经网络可以共享参数，在一定程度上提高了行人属性分类的准确率。

(2)通过融合两类特征向量，平衡了不同深度学习模型的属性比重，避免属性分类准确率出现两极分化的情况。

附图说明

图1是本发明实施例公开的一种基于深度学习的属性分类识别方法的流程示意图；

图2是本发明实施例公开的一种共享卷积神经网络结构示意图；

图3是本发明实施例公开的一种基于深度学习的属性分类识别方法的结构示意图；

图4是本发明实施例公开的一种DeepMAR深度学习模型结构示意图；

图5是本发明实施例公开的一种DeepSAR深度学习模型结构示意图；

图6是本发明实施例公开的一种融合策略部分属性的分类准确率对比图；

图7是本发明实施例公开的一种根据α的不同取值时的折线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开了一种基于深度学习的属性分类识别方法，考虑了属性之间的关系，在卷积神经网络中共享参数，可以提高行人属性的分类准确率，同时避免属性分类准确率两极分化的情况。

属性之间是相互联系的。在数据集中，一个行人有多个属性。比如，一位妇女可能同时有“长头发”、“V字领”、“太阳镜”等属性。

如图1所示是本发明实施例公开的一种基于深度学习的属性分类识别方法的流程示意图，在图1所示的方法中，包括以下步骤：

(1)卷积神经网络对输入的图像数据进行处理分别得到第一特征向量与n个第二特征向量，其中，第一特征向量为n*1维的向量，每一维表示属性为正样本的概率，第二特征向量为2*1维的向量，表示属性为正/负样本的概率，n为属性类别的数量；

在本发明实施例中，卷积神经网络可以有多种选择，比如CaffeNet。

如图2所示，是本发明实施例中提供的一种共享卷积神经网络的结构图。它包含了5个卷积层以及3个全连接层。在卷积神经网络的每一层之后，都添加一个ReLu层。在第一个ReLu层之后，添加一个最大池化层。在第二个ReLu层之后，添加一个局部标准化层。在第5个ReLu层之后，也添加一个最大池化层。之所以添加池化层，是为了降低卷积层输出的特征向量。这样做，确保进入全连接层的特征向量跟实际属性类别的对应关系足够准确。

(2)将上述n个第二特征向量进行融合得到第三特征向量，其中，第三特征向量为n*1维的向量，每一维表示属性为正样本的概率；

作为一个可选的实施例，融合得到第三特征向量可以采用以下方式实现：

(2.1)将每个第二特征向量均扩展为n*1维向量，其中，在每个扩展后的n*1维向量中，仅保留属性为正样本的概率，其余元素均设置为0；

(2.2)将n个n*1维向量相加，得到扩展之后的第三特征向量。

(3)将第一特征向量与第三特征向量进行融合得到目标特征向量，其中，目标特征向量为n*1维的向量，每一维融合了第一特征向量相应维的属性与第三特征向量相应维的属性之间的关系；

作为一种可选的实施方式，融合得到目标特征向量可以采用以下方式实现：

由融合函数：C＝(1-α)A+αB将第一特征向量与第三特征向量进行融合得到目标特征向量，其中，α是融合函数中的权值参数，A为第三特征向量，B为第一特征向量。

(4)将目标特征向量输入损失函数进行迭代训练，直至损失函数收敛，输出属性分类识别结果。

作为一种可选的实施方式，在步骤(4)中的损失函数可以为：

其中，

如图3所示是本发明实施例公开的一种基于深度学习的属性分类识别方法的结构示意图，其中，图像数据经过卷积神经网络后，生成n个二维向量与一个n维向量B，将n个二维向量融合后生成一个n维向量A，将A向量与B向量进行融合得到目标向量，然后将目标向量以及标签向量输入损失函数进行迭代训练，直至损失函数收敛，如准确率达到要求或者达到最大迭代次数。

下面以一个具体的实施例说明本发明提出的基于深度学习的属性分类识别方法的实现过程。

在本发明实施例中，可以使用DeepSAR深度学习模型和DeepMAR深度学习模型共享卷积神经网络得到第一特征向量与n个第二特征向量。

其中，DeepSAR模型经过全连接层之后，被向量化为一个2*1维向量，分别代表某一种属性为正/负样本的概率，而DeepMAR模型被向量化为一个n*1维向量，分别代表每种属性为正样本的概率，n为属性的种类数量。

如图4所示，为DeepMAR模型的结构图。DeepMAR的输入是一张图片。这张图片有它的属性标签向量。该深度学习模型输出一个n*1维的向量，n是行人属性的类别，每一维都代表该属性为正样本的概率。

如图5所示，为DeepSAR模型的结构图。DeepSAR的输入是一张图片。这张图片在训练阶段有它的属性标签。DeepSAR的输出有两个节点。这两个节点分别代表某种属性为正样本和负样本的概率。

以上是DeepMAR和DeepSAR模型单独的输出，针对两种模型的输出，对两种模型进行融合。

其中，DeepSAR和DeepMAR之间也存在内在的联系。比如，对于一个双肩背包，DeepSAR的二值属性可能对DeepMAR输出的n*1维向量有影响。用一个融合函数，融合DeepSAR和DeepMAR的输出。n为属性类别的数量，DeepSAR的输出有n个2*1维向量，所以，可以模型化为一个n*1维的向量，每一维表示属性为正样本的概率。然后，根据融合函数进行计算，可以得到一个新的n*1维向量，该向量综合了DeepSAR和DeepMAR的属性之间的关系，输入损失函数中，进行迭代训练。融合函数为C＝(1-α)A+αB。

其中，A向量为：

B向量为：

a_i表示第i种属性的正样本概率，b_i表示第i种属性的正样本概率。

A是DeepSAR输出的n个二值属性模型化之后的n*1维向量，B是DeepMAR输出的n种属性概率的n*1维向量。A向量中，原来DeepSAR模型的二值属性为正样本的概率，其余向量的元素均设置为0。

本发明的实验部分，采用的数据集是PETA。因为PETA是目前最大的具有挑战性的行人属性数据集。它已经被用于基准评估。它包含19000张行人图片。这些图片全都是通过实际监控场景抓取的。PETA数据集中的所有图片被收集在了目前流行的任务重新识别数据库中。

本发明探索了不同的α值，包括0.5、0.3以及0.7。部分属性实验结果如下表1所示。

表1

属性	DeepSAR	DeepMAR	α＝0.7	α＝0.5	α＝0.3
						超过60岁	89	91.8	93	90.4	88.9
正式上身装	74.3	78.4	80.2	79.4	75
						牛仔裤	76	77.4	77.5	76.7	76
长头发	77.7	85.6	87.2	86.7	77.2
						连衣裙	80.1	78.4	78.9	82.3	80.9
V字领	70.2	66.4	72.5	71.3	79.5

如图6所示，是部分属性的分类准确率柱状图。从图中数据可以看出，不同的α对于行人属性的准确率有不同程度的影响。综合来看，α在DeepSAR和DeepMAR之间起到了中和的作用。这可以使得，行人属性的识别不受到某些条件的极端影响，这些条件包括训练正样本较少，或者样本歧义性比较大等等。

如图7所示，是α取不同值的折线图。从图中可以看出，权重α的值总体呈现倒U型的分布。α的值太小时，通过融合的结果，DeepSAR模型的向量A比重更大一些，而α的值太大时，结果DeepMAR模型的向量B比重更大一些。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的属性分类识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤(2)具体包括以下子步骤：

(2.2)将n个n*1维向量相加，得到扩展之后的第三特征向量。

3.根据权利要求1或2所述的方法，其特征在于，步骤(3)具体包括：

4.根据权利要求1所述的方法，其特征在于，在步骤(4)中的损失函数为：

其中，

5.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括5个卷积层以及3个全连接层，在所述卷积神经网络的每一层之后，均添加一个ReLu层，在第一个ReLu层之后，添加一个最大池化层，在第二个ReLu层之后，添加一个局部标准化层，在第5个ReLu层之后，添加一个最大池化层。