CN110070044B - 基于深度学习的行人属性识别方法 - Google Patents
基于深度学习的行人属性识别方法 Download PDFInfo
- Publication number
- CN110070044B CN110070044B CN201910328041.6A CN201910328041A CN110070044B CN 110070044 B CN110070044 B CN 110070044B CN 201910328041 A CN201910328041 A CN 201910328041A CN 110070044 B CN110070044 B CN 110070044B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- attribute identification
- network
- identification network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度学习的行人属性识别方法。其包括将行人图像作为Deeplab‑v2网络的输入而得到掩码图;利用掩码图与行人图像逐元素相乘得到前景图,掩码图取反并与行人图像逐元素相乘得到背景图;构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为网络的损失函数;将行人图像和前景图、背景图作为行人属性识别网络的输入,利用损失函数计算网络损失值,通过随机梯度下降法对网络进行优化并保存网络参数;利用行人属性识别网络参数初始化行人属性识别网络,输入行人图像即可得到属性识别结果等步骤。本发明方法设计合理,因此能够大幅度提高行人属性识别的准确率。
Description
技术领域
本发明属于图像处理技术领域,特别是涉及一种基于深度学习的行人属性识别方法。
背景技术
近年来,人们对公共安防问题日益关注,大量的监控摄像头应用在商场、地铁站、十字路口等人群密集且易发生公共安全事件的场所,监控视频可为人们提供大量有用信息。行人属性识别可以识别监控场景中行人的一些可被观察到的外部特征信息,例如性别、年龄、服饰、携带品等,这些信息可以为公安部门侦破诸如商场盗窃、聚众斗殴等刑事案件提供线索,对维护国家安全起到重要作用。
目前,行人属性识别方法分为两大类:传统手工特征方法和深度学习方法。但是由于行人属性数据集中的行人图像易受运动模糊影响,且分辨率较低,因此传统手工特征方法识别的准确率不高。现有的深度学习方法如多个属性联合识别框架DeepMAR方法[D.Li,X.Chen,and K.Huang.Multi-attribute learning for pedestrian attributerecognition in surveillance scenarios.In Pattern Recognition(ACPR),2015 3rdIAPR Asian Conference on,2015.],从整张图像的特征中识别每一种行人的属性,联合循环学习(JRL)方法[J.Wang,X.Zhu,S.Gong,and W.Li.Attribute recognition by jointrecurrent learning of context and correlation.In ICCV,2017.],使用循环神经网络逐步挖掘行人属性之间的语义关联关系(穿裙子的一般是女人等),虽然都取得不错的识别效果,但都是从整张图像中提取特征,忽视了嘈杂的背景对于行人属性识别的影响,因此难以得到更高的识别精度。
行人属性识别的焦点集中在图像中行人区域的部分,背景会影响行人属性识别的准确率。因此,如果将行人属性数据集中的行人图像分割得到只有行人的前景图与只有背景的背景图,然后提取前景图、背景图、行人图像的特征向量,并采用区域级三元损失函数和加权交叉熵损失函数共同训练网络,就能使网络学习到的特征全部集中于行人区域的部分,达到抑制嘈杂的背景干扰的目的,大大提高行人属性识别的准确率。区域级三元损失函数的主要作用是可以约束前景图与行人图像的特征向量相似,背景图与行人图像的特征向量相异。但目前尚缺少相应的方法。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于深度学习的行人属性识别方法。
为了达到上述目的,本发明提供的基于深度学习的行人属性识别方法包括按顺序进行的下列步骤:
(1)使用图像语义分割方法中比较经典的Deeplab-v2网络,将行人属性数据集中的行人图像作为Deeplab-v2网络的输入,输出即为行人图像的掩码图;
(2)利用上述步骤(1)中的掩码图与行人图像逐元素相乘得到前景图,掩码图取反并与行人图像逐元素相乘得到背景图;
(3)构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为为行人属性识别网络的损失函数;
(4)将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取,利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值,通过随机梯度下降法对行人属性识别网络参数进行更新并保存行人属性识别网络参数;
(5)利用上述步骤(4)中得到的行人属性识别网络参数初始化行人属性识别网络,输入行人图像即可得到属性识别的结果。
在步骤(1)中,所述的行人图像在数学上可以表述为一个多维矩阵,掩码图是一个与行人图像维度相同的矩阵;将行人图像中行人人体区域元素置为1,背景区域元素置为0所得的矩阵即为掩码图。
在步骤(2)中,所述的取反的方法是用一个与行人图像维度相同且所有元素均为1的矩阵减去掩码图;前景图与背景图计算的数学表达式如下:
Hforeground=Hfull*Hmask
Hbackground=Hfull*(Hones-Hmask)
其中,Hfull为行人图像,Hmask为掩码图,Hones为与行人图像维度相同且所有元素均为1的矩阵,Hforeground为前景图,其等于Hfull与Hmask的哈达玛积,即两个矩阵元素对应相乘,Hbackground为背景图,其等于Hfull与(Hones-Hmask)的哈达玛积。
在步骤(3)中,所述的行人属性识别网络采用Inception-v3网络;利用pytorch框架构建行人属性识别网络;所述的区域级三元损失函数的数学表达式如下:
其中,m由实验获得,Ffull、Fforeground、Fbackground分别为将行人图像、前景图、背景图输入行人属性识别网络而得到的行人图像、前景图、背景图特征向量;
所述的加权交叉熵损失函数的数学表达式如下:
所述的行人属性识别网络的损失函数的数学表达式为:
Lall=Latt+λLtrip
其中,λ由实验获得。
在步骤(4)中,所述的将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取,利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值,通过随机梯度下降法对行人属性识别参数进行优化并保存行人属性识别网络参数的方法是:
设置行人属性识别网络的学习率和权重衰减,将行人图像、背景图、前景图分别输入到行人属性识别网络中,得到行人图像、前景图和背景图特征向量,再利用损失函数计算行人属性识别网络的损失值,并通过随机梯度下降法对行人属性识别网络参数进行更新;在设置的最大迭代次数下,不断迭代学习,直至行人属性识别网络损失函数的损失值最小,保存此时的行人属性识别网络参数。
本发明提供的基于深度学习的行人属性识别方法联合加权交叉熵损失函数和区域级三元损失函数两个损失函数共同训练,利用加权交叉熵损失函数解决样本不均衡的问题,利用区域级三元损失函数解决属性识别时背景杂乱而影响准确率的问题,并且本发明方法设计合理,因此能够大幅度提高行人属性识别的准确率。
附图说明
图1是本发明提供的基于深度学习的行人属性识别方法中训练过程流程图。
图2是本发明提供的基于深度学习的行人属性识别方法中识别过程流程图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于深度学习的行人属性识别方法进行详细说明。
如图1、图2所示,本发明提供的基于深度学习的行人属性识别方法包括按顺序进行的下列步骤:
(1)使用图像语义分割方法中比较经典的Deeplab-v2网络,将行人属性数据集中的行人图像作为Deeplab-v2网络的输入,输出即为行人图像的掩码图;
所述的行人图像在数学上可以表述为一个多维矩阵,掩码图是一个与行人图像维度相同的矩阵;将行人图像中行人人体区域元素置为1,背景区域元素置为0所得的矩阵即为掩码图。所述的Deeplab-v2网络是一种神经网络,用于图像语义分割,目的是逐像素分类。
(2)利用上述步骤(1)中的掩码图与行人图像逐元素相乘得到前景图,掩码图取反并与行人图像逐元素相乘得到背景图;
所述的取反的方法是用一个与行人图像维度相同且所有元素均为1的矩阵减去掩码图;前景图与背景图的数学表达式如下:
Hforeground=Hfull*Hmask
Hbackground=Hfull*(Hones-Hmask)
其中,Hfull为行人图像,Hmask为掩码图,Hones为与行人图像维度相同且所有元素均为1的矩阵,Hforeground为前景图,其等于Hfull与Hmask的哈达玛积,即两个矩阵元素对应相乘,Hbackground为背景图,其等于Hfull与(Hones-Hmask)的哈达玛积。
(3)构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为行人属性识别网络的损失函数;该损失函数可以在提取行人属性特征的同时约束行人属性识别网络提取的特征不会因为背景的影响而改变。
所述的行人属性识别网络采用Inception-v3网络。Inception网络是一种谷歌开源的卷积神经网络,Inception-v3网络是Inception网络的第三个版本,其在前两个版本的基础上提出分解大尺寸的卷积核,既可以加速计算又可以增加网络的非线性能力。Inception-v3网络可在增加网络深度和宽度的同时减少参数,增加了网络的非线性能力,可以尽量避免网络过拟合。
采用pytorch框架构建行人属性识别网络,pytorch框架是一个深度学习框架库。
所述的区域级三元损失函数可以强制行人属性识别网络学习的特征具有背景杂乱不变性,以达到抑制背景影响的作用,其数学表达式如下:
其中,m由实验获得,Ffull、Fforeground、Fbackground分别为将行人图像、前景图、背景图输入行人属性识别网络而得到的行人图像、前景图、背景图特征向量。该损失函数计算的是行人图像分别与前景图、背景图的欧氏距离。随着该损失函数的最小化,行人属性识别网络提取的行人图像特征向量与前景图特征向量的欧氏距离越来越小,即,行人属性识别网络提取的行人图像特征与前景图特征相似;行人图像特征向量与背景图特征向量的欧氏距离越来越大,即,行人属性识别网络提取的行人图像特征与背景图特征相异。
所述的加权交叉熵损失函数的作用是计算属性识别的损失,其数学表达式如下:
其中,pl为第l个属性的正例数量在训练集中所占的比率,σ设置为1,yil为样例xi的第l个属性的标签,为属性识别网络预测的样例xi是否包含第l个属性的概率。行人属性数据集中每个属性正负样本数目不均衡,加权交叉熵损失函数为正样本数目较少的属性赋予较大的惩罚权重,为正样本数目较多的属性赋予较小的惩罚权重,以此来解决样本不均衡的问题。
所述的行人属性识别网络的损失函数的数学表达式为:
Lall=Latt+λLtrip
其中,λ由实验获得。
(4)将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取,利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值,通过随机梯度下降法对行人属性识别网络参数进行更新并保存行人属性识别网络参数;
设置行人属性识别网络的学习率和权重衰减,将行人图像、背景图、前景图分别输入到行人属性识别网络中而得到行人图像、前景图和背景图特征向量,再计算损失值,并对行人属性识别网络参数进行更新;在设置的最大迭代次数下,不断迭代学习,直至行人属性识别网络损失函数的损失值最小,保存此时的行人属性识别网络参数。
(5)利用上述步骤(4)中得到的行人属性识别网络参数初始化行人属性识别网络,最后在经过初始化的行人属性识别网络中输入任意的行人图像即可得到该图像的属性识别结果。
Claims (5)
1.一种基于深度学习的行人属性识别方法,其特征在于:所述的方法包括按顺序进行的下列步骤:
(1)使用图像语义分割方法中比较经典的Deeplab-v2网络,将行人属性数据集中的行人图像作为Deeplab-v2网络的输入,输出即为行人图像的掩码图;
(2)利用上述步骤(1)中的掩码图与行人图像逐元素相乘得到前景图,掩码图取反并与行人图像逐元素相乘得到背景图;
(3)构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为行人属性识别网络的损失函数;
(4)将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取,利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值,通过随机梯度下降法对行人属性识别网络参数进行更新并保存行人属性识别网络参数;
(5)利用上述步骤(4)中得到的行人属性识别网络参数初始化行人属性识别网络,输入行人图像即可得到属性识别的结果。
2.根据权利要求1所述的基于深度学习的行人属性识别方法,其特征在于:在步骤(1)中,所述的行人图像在数学上表述为一个多维矩阵,掩码图是一个与行人图像维度相同的矩阵;将行人图像中行人人体区域元素置为1,背景区域元素置为0所得的矩阵即为掩码图。
3.根据权利要求1所述的基于深度学习的行人属性识别方法,其特征在于:在步骤(2)中,所述的取反的方法是用一个与行人图像维度相同且所有元素均为1的矩阵减去掩码图;前景图与背景图计算的数学表达式如下:
Hforeground=Hfull*Hmask
Hbackground=Hfull*(Hones-Hmask)
其中,Hfull为行人图像,Hmask为掩码图,Hones为与行人图像维度相同且所有元素均为1的矩阵,Hforeground为前景图,其等于Hfull与Hmask的哈达玛积,即两个矩阵元素对应相乘,Hbackground为背景图,其等于Hfull与(Hones-Hmask)的哈达玛积。
4.根据权利要求1所述的基于深度学习的行人属性识别方法,其特征在于:在步骤(3)中,所述的行人属性识别网络采用Inception-v3网络;利用pytorch框架构建行人属性识别网络;所述的区域级三元损失函数的数学表达式如下:
其中,m由实验获得,Ffull、Fforeground、Fbackground分别为将行人图像、前景图、背景图输入行人属性识别网络而得到的行人图像、前景图、背景图特征向量;
所述的加权交叉熵损失函数的数学表达式如下:
所述的行人属性识别网络的损失函数的数学表达式为:
Lall=Latt+λLtrip
其中,λ由实验获得。
5.根据权利要求1所述的基于深度学习的行人属性识别方法,其特征在于:在步骤(4)中,所述的将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取,利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值,通过随机梯度下降法对行人属性识别网络参数进行优化并保存行人属性识别网络参数的方法是:
设置行人属性识别网络的学习率和权重衰减,将行人图像、背景图、前景图分别输入到行人属性识别网络中,得到行人图像、前景图和背景图特征向量,再利用损失函数计算行人属性识别网络的损失值,并通过随机梯度下降法对行人属性识别网络参数进行更新;在设置的最大迭代次数下,不断迭代学习,直至行人属性识别网络损失函数的损失值最小,保存此时的行人属性识别网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328041.6A CN110070044B (zh) | 2019-04-23 | 2019-04-23 | 基于深度学习的行人属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328041.6A CN110070044B (zh) | 2019-04-23 | 2019-04-23 | 基于深度学习的行人属性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070044A CN110070044A (zh) | 2019-07-30 |
CN110070044B true CN110070044B (zh) | 2023-03-10 |
Family
ID=67368440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910328041.6A Active CN110070044B (zh) | 2019-04-23 | 2019-04-23 | 基于深度学习的行人属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070044B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027455B (zh) * | 2019-12-06 | 2021-01-26 | 重庆紫光华山智安科技有限公司 | 行人特征提取方法、装置、电子设备及存储介质 |
CN111666905B (zh) * | 2020-06-10 | 2022-12-02 | 重庆紫光华山智安科技有限公司 | 模型训练方法、行人属性识别方法和相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004298285A (ja) * | 2003-03-28 | 2004-10-28 | Ntt Data Corp | 歩行状態・歩行者属性判定装置および判定方法 |
CN101226597A (zh) * | 2007-01-18 | 2008-07-23 | 中国科学院自动化研究所 | 一种基于热红外步态的夜间行人识别方法及系统 |
CN109598700A (zh) * | 2018-10-16 | 2019-04-09 | 天津大学 | 采用卷积神经网络的早期火灾检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2636858C (en) * | 2006-01-27 | 2015-11-24 | Imax Corporation | Methods and systems for digitally re-mastering of 2d and 3d motion pictures for exhibition with enhanced visual quality |
US9158985B2 (en) * | 2014-03-03 | 2015-10-13 | Xerox Corporation | Method and apparatus for processing image of scene of interest |
CN109636795B (zh) * | 2018-12-19 | 2022-12-09 | 安徽大学 | 实时无跟踪的监控视频遗留物检测方法 |
-
2019
- 2019-04-23 CN CN201910328041.6A patent/CN110070044B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004298285A (ja) * | 2003-03-28 | 2004-10-28 | Ntt Data Corp | 歩行状態・歩行者属性判定装置および判定方法 |
CN101226597A (zh) * | 2007-01-18 | 2008-07-23 | 中国科学院自动化研究所 | 一种基于热红外步态的夜间行人识别方法及系统 |
CN109598700A (zh) * | 2018-10-16 | 2019-04-09 | 天津大学 | 采用卷积神经网络的早期火灾检测方法 |
Non-Patent Citations (2)
Title |
---|
《Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios》;Dangwei Li;《2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR)》;20151231;第111页-第115页 * |
《基于深度学习的行人属性识别》;陈萍;《信息通信》;20181231(第4期);第74页-第76页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110070044A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duman et al. | Anomaly detection in videos using optical flow and convolutional autoencoder | |
Li et al. | Spatio-temporal context analysis within video volumes for anomalous-event detection and localization | |
Han et al. | Density-based multifeature background subtraction with support vector machine | |
CN110598558B (zh) | 人群密度估计方法、装置、电子设备及介质 | |
Shen et al. | A convolutional neural‐network‐based pedestrian counting model for various crowded scenes | |
CN112598643A (zh) | 深度伪造图像检测及模型训练方法、装置、设备、介质 | |
Yang et al. | A deep multiscale pyramid network enhanced with spatial–spectral residual attention for hyperspectral image change detection | |
Sadeghi et al. | HistNet: Histogram-based convolutional neural network with Chi-squared deep metric learning for facial expression recognition | |
Yang et al. | Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics | |
Huo et al. | Multi-instance dictionary learning for detecting abnormal events in surveillance videos | |
Gong et al. | Local distinguishability aggrandizing network for human anomaly detection | |
CN110222636B (zh) | 基于背景抑制的行人属性识别方法 | |
Yang et al. | Anomaly detection in moving crowds through spatiotemporal autoencoding and additional attention | |
Ratre et al. | Tucker tensor decomposition‐based tracking and Gaussian mixture model for anomaly localisation and detection in surveillance videos | |
Chong et al. | Context union edge network for semantic segmentation of small-scale objects in very high resolution remote sensing images | |
CN106033548B (zh) | 基于改进字典学习的拥挤人群异常检测方法 | |
CN110070044B (zh) | 基于深度学习的行人属性识别方法 | |
Sadek et al. | Affine-invariant feature extraction for activity recognition | |
Singh et al. | A novel position prior using fusion of rule of thirds and image center for salient object detection | |
Biswas et al. | Sparse representation based anomaly detection with enhanced local dictionaries | |
Raskar et al. | Real time object-based video forgery detection using YOLO (V2) | |
Ramachandra et al. | Perceptual metric learning for video anomaly detection | |
El‐Masry et al. | Action recognition by discriminative EdgeBoxes | |
CN113221922B (zh) | 图像处理方法及相关装置 | |
Ghosh et al. | Pedestrian counting using deep models trained on synthetically generated images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |