CN107862300A

CN107862300A - 一种基于卷积神经网络的监控场景下行人属性识别方法

Info

Publication number: CN107862300A
Application number: CN201711226381.5A
Authority: CN
Inventors: 胡诚; 陈亮; 张勋
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-03-30

Abstract

本发明涉及一种基于卷积神经网络的监控场景下行人属性识别方法，包括以下步骤：获取含有行人的监控视频，并截取视频帧，构建监控场景下的行人数据集；通过改进AlexNet卷积神经网络模型，构建新的卷积神经网络模型；把所述行人数据集输入到所述新的卷积神经网络模型中进行训练，得到行人属性识别模型；利用所述行人属性识别模型完成识别。本发明识别精度高，操作简单、速度快。

Description

一种基于卷积神经网络的监控场景下行人属性识别方法

技术领域

本发明涉及模式识别技术领域，特别是涉及一种基于卷积神经网络的监控场景下行人属性识别方法。

背景技术

行人视觉属性识别，由于它的高层的语义信息，可以建立人的底层特征和高层认知的联系。因此在计算机视觉领域是一个很热门的研究方向。并且在很多的领域也取得了成功。比如：图片检索、目标检测、人脸识别。近些年，随着平安城市的概念的提出，数以万计的监控摄像头装在了城市的各个角落，保护着人们的安全。因此，监控场景下的行人视觉属性的识别具有重要的研究价值，并且它也在智能视频监控和智能商业视频有很大的市场前景。

当前大多数的行人属性识别研究主要在两个应用场景：自然场景和监控场景。自然场景下的属性识别研究较多，在目标识别、人脸识别等研究方向上也取得了很好的成绩。例如，自然场景下的属性识别的研究最早是Ferriari(Ferrari V,Zisserman A.LearningVisual Attributes.[J].Advances in Neural Information Processing Systems,2007:433-440)。在他的论文中，提出了概率生成模型去学习低层次的视觉属性，比如：条纹和斑点。Zhang(Zhang N,Paluri M,Ranzato M,et al.PANDA:Pose Aligned Networks forDeep Attribute Modeling[C]//ComputerVision and Pattern Recognition.IEEE,2014:1637-1644.)提出了姿态对齐神经网络，没有约束的场景下，对图片进行像年龄、性别和表情这些属性的识别。在自然场景下用于行人属性识别研究的样本图片的分辨率都很高。然而监控场景下的行人样本的图片分辨率较低,并且很模糊。像行人戴眼镜这样的细粒度的属性是很难识别出来的。主要是在真实的监控场景中，是远距离拍摄行人的，很少能拍摄的到近距离的清晰的人脸和身体。监控场景下的远距离拍摄也容易受到一些不可控的因素的影响。比如，光照强度的变化(例如白天和夜晚，室内和室外)，监控摄像头不同的拍摄角度行人姿态的不同的变化，现实环境中物体的遮挡等等。因此，使用远距离拍摄的脸部或者行人身体的视觉信息来进行属性识别，这对监控场景下的行人属性识别的研究工作带来挑战。

由于上述的种种问题，国内外对于监控场景下的行人属性识别的研究工作还是比较少。Layne(Layne R,Hospedales T M,Gong S.Person Re-identification byAttributes[C]//BMVC.2012.)是第一个通过使用支持向量机(SVM)去识别像背包、性别这样的行人属性，然后通过这些行人属性信息来辅助行人的重识别。为了解决混合场景下的属性识别问题，Zhu(Zhu J,Liao S,Lei Z,et al.Pedestrian Attribute Classificationin Surveillance:Database and Evaluation[C]//IEEE International Conference onComputer Vision Workshops.IEEE,2013:331-338.)引入了APis数据库，并用Boosting算法去识别属性。Deng(Deng Y,Luo P,Chen C L,et al.Pedestrian AttributeRecognition At Far Distance[C]//ACM International Conference onMultimedia.ACM,2014:789-792.)构建了最大的行人属性数据库，在这个数据集的基础上使用支持向量机和马尔科夫随机场去识别属性。然而这些方法，都是使用人工提取行人特征。而人工提取特征需要依赖人的经验。经验的好坏决定了属性特征识别的精确度。另外，这些方法也忽略了属性特征之间的关联。例如，长头发这个属性特征是女性的可能性一定是高于男性的。所以头发的长度有助于提高行人的性别的属性的识别精度。

发明内容

本发明所要解决的技术问题是提供一种基于卷积神经网络的监控场景下行人属性识别方法，使得识别精度高，操作简单、速度快。

本发明解决其技术问题所采用的技术方案是：提供一种基于卷积神经网络的监控场景下行人属性识别方法，包括以下步骤：

(1)获取含有行人的监控视频，并截取视频帧，构建监控场景下的行人数据集；

(2)通过改进AlexNet卷积神经网络模型，构建新的卷积神经网络模型；

(3)把所述行人数据集输入到所述新的卷积神经网络模型中进行训练，得到行人属性识别模型；

(4)利用所述行人属性识别模型完成识别。

所述步骤(1)包括以下子步骤：

(11)将截取的视频帧按照规定的图片命名方式进行命名，并把全部的图片缩放到统一大小，得到图片文件；

(12)对所有的图片文件进行标注：每一张行人图片上的行人属性都是二进制属性，如果有行人属性，则标签值为1；如果没有行人属性，则标签值为0；

(13)按照广泛采取的实验数据集划分原则，随机的把所述图片文件分为三部分：分别为训练集、验证集和测试集，其中，训练集占总图片文件的50％，验证集占总图片文件的10％，测试集占总图片文件的40％；

(14)根据图片文件的划分构建行人数据集，其中行人数据集包括两部分：一部分为用于模型训练的训练数据，另一部分为用于检验模型训练效果的测试数据。

所述步骤(2)中的AlexNet模型总共有八层，包括5个卷积层和3个全连接层；所述卷积层用于自动提取特征，所述全连接层用于连接所有的特征，并将输出值输入给softmax分类，所述全连接层输出的节点数对应行人属性的类别；所述AlexNet模型的损失函数为其中，N表示图片文件中的数量，L为图片文件中的行人属性的数量，每张行人图片表示为x_i,i∈[1,2,...N]，每张图片x_i对应的行人属性标签向量为y_i，每个标签向量y_i对应的属性值为y_il,y_il∈[0,1],l∈[1,2,...,L]，如果y_il＝1表明这个训练样本x_i有这个属性；如果y_il＝0表明这个训练样本x_i没有这个属性；表示是行人样本x_i的第l个属性的概率。y_il是真实属性标签，表示行人样本x_i有没有第l个属性。

所述步骤(3)具体包括以下子步骤：

(31)训练之前搭建Caffe环境，然后编译Caffe；

(32)设置模型的学习率和权重衰减，然后在设置的最大迭代学习次数下，不断迭代学习，直至损失函数的损失值最小，模型收敛，保存模型参数；

(33)完成训练得到行人属性识别模型。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明采用卷积神经网络的方法，体现出了更好的识别率。将传统的识别方法中的人工提取特征和分类器分类，这两个步骤都统一到了卷积神经网络当中。极大方便了实验的进行。另外，通过重新定义损失函数,考虑行人属性之间的联系。极大地提高了行人属性识别精度。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，本发明所述的一种基于卷积神经网络的监控场景下的行人属性识别方法，包括如下的步骤：

步骤1：读取含有行人的监控视频，截取视频帧，构建监控场景下的行人数据集。具体包括以下子步骤：

步骤1.1:首先将截取的视频帧图片，按照规定的图片命名方式进行命名。并把全部的图片缩放到宽为256，高为256。得到图片文件。

步骤1.2:对上述的所有的图片进行标注。每一张行人图片上的行人属性都是二进制属性。如果有这个属性，标签值就是1。如果没有这个属性，标签值就是0。所有的属性标签值都存储在标签文本文件中。另外，标签文本文件中的内容是每一行是步骤1.1中的图片的图片名，然后空格，后面是该张图片对应的行人属性向量。得到标签文本文件。

步骤1.3：按照广泛采取的实验数据集划分原则，随机的把步骤1.1中的图片文件分为三部分：训练集、验证集、测试集。并且训练集占总的50％，验证集占总的10％，测试集占总的40％。

步骤1.4：根据1.3中的设置,然后就构建了行人数据集。包括两部分：用于模型训练的训练数据和用于检验模型训练效果的测试数据。

步骤2：通过改进AlexNet卷积神经网络模型，构建新的卷积神经网络模型。

AlexNet模型在2012年中大规模视觉识别挑战中,图片识别能力十分出色。模型总共有八层。包括5个卷积层和3个全连接层。卷积层的作用是自动提取特征，全连接层的作用连接所有的特征，将输出值输入给softmax分类。但该模型的损失函数只适合一张行人图片和一个行人属性标签这种情况。

根据上述的情况，重新定义了该模型的损失函数，公式为其中，假设行人样本中有N张图片，每张图片标注了L个行人属性。比如性别、头发长度、年龄等。每张行人图片可以表示x_i,i∈[1,2,...N]。每张图片x_i对应的行人属性标签向量为y_i。每个标签向量y_i对应的属性值为y_il,y_il∈[0,1],l∈[1,2,...,L]。如果y_il＝1表明这个训练样本x_i有这个属性；如果y_il＝0表明这个训练样本x_i没有这个属性。表示是行人样本x_i的第l个属性的概率。y_il是真实属性标签，表示行人样本x_i有没有第l个属性。

步骤3：把步骤1中的行人数据集输入到步骤2中改进的卷积神经网络模型中进行训练，得到行人属性识别模型。具体为：

步骤3.1：卷积神经网络模型训练采取的是Caffe框架。Caffe是开源的深度学习框架，支持matlab、命令行、python三种接口。训练之前，需要搭建Caffe环境，然后编译Caffe。

步骤3.2：在上一步编译好Caffe的条件下，设置模型的学习率和权重衰减。然后在设置的最大迭代学习次数下，不断迭代学习，直至损失函数的损失值最小，模型收敛，保存模型参数。

步骤3.3：在上一步的情况下，在Linux操作系统和显存至少4G的软硬件配置下训练，得到行人属性识别模型。

步骤4：根据得到的行人属性识别模型完成识别。

不难发现，本发明采用卷积神经网络的方法，体现出了更好的识别率。将传统的识别方法中的人工提取特征和分类器分类，这两个步骤都统一到了卷积神经网络当中。极大方便了实验的进行。另外，通过重新定义损失函数,考虑行人属性之间的联系。极大地提高了行人属性识别精度。

Claims

1.一种基于卷积神经网络的监控场景下行人属性识别方法，其特征在于，包括以下步骤：

(4)利用所述行人属性识别模型完成识别。

2.根据权利要求1所述的基于卷积神经网络的监控场景下行人属性识别方法，其特征在于，所述步骤(1)包括以下子步骤：

3.根据权利要求1所述的基于卷积神经网络的监控场景下行人属性识别方法，其特征在于，所述步骤(2)中的AlexNet模型总共有八层，包括5个卷积层和3个全连接层；所述卷积层用于自动提取特征，所述全连接层用于连接所有的特征，并将输出值输入给softmax分类，所述全连接层输出的节点数对应行人属性的类别；所述AlexNet模型的损失函数为其中，N表示图片文件中的数量，L为图片文件中的行人属性的数量，每张行人图片表示为x_i,i∈[1,2,...N]，每张图片x_i对应的行人属性标签向量为y_i，每个标签向量y_i对应的属性值为y_il,y_il∈[0,1],l∈[1,2,...,L]，如果y_il＝1表明这个训练样本x_i有这个属性；如果y_il＝0表明这个训练样本x_i没有这个属性；表示是行人样本x_i的第l个属性的概率。y_il是真实属性标签，表示行人样本x_i有没有第l个属性。

4.根据权利要求1所述的基于卷积神经网络的监控场景下行人属性识别方法，其特征在于，所述步骤(3)具体包括以下子步骤：

(31)训练之前搭建Caffe环境，然后编译Caffe；

(33)完成训练得到行人属性识别模型。