CN112183164A

CN112183164A - 一种监控视频下的行人属性识别方法

Info

Publication number: CN112183164A
Application number: CN201910599026.5A
Authority: CN
Inventors: 李雪
Original assignee: China Changfeng Science Technology Industry Group Corp
Current assignee: China Changfeng Science Technology Industry Group Corp
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-01-05

Abstract

一种监控视频下的行人属性识别方法，首先采用行人检测技术，对视频中的行人和背景进行区分，并且提取出包含行人部分的图像，再进一步通过行人属性检测技术，对行人属性的粗粒度属性，包括头部、上身、下身、鞋子和附属物进行检测并提取相应部位的图像，最后选用多分类网络对检测到的每个粗粒度属性部位进行细粒度分类，选择置信度最大的属性类别作为最终结果。本发明在行人属性识别的精确度上相对于以往方法有所提高，用于安防领域，有利于监控人员在海量视频中快速检索可疑目标，节省了大量时间和精力。

Description

一种监控视频下的行人属性识别方法

技术领域

本发明涉及智能视频监控、计算机视觉领域，具体涉及一种监控视频下的行人属性识别方法，主要应用于安防项目中视频监控。

背景技术

近年来，随着硬件设施的进步及算法的改进，机器学习、神经网络和人工智能逐渐普遍应用于解决各类实际问题，并且在各种传统计算机视觉领域有杰出的表现。很多学者就将卷积神经网络延伸使用在了行人属性识别的领域，大部分学者在解决行人属性识别时都采用神经网络的方法，其中包括Sudowe等人提出的ACN行人属性分类模型，Li Dangwei等人提出的DeepSAR多个单分类网络和DeepMAR单向量输入网络，中科院李子青团队提出的MLCNN端到端网络模型。这些方法主要都是通过多次训练网络模型参数，通过直接输入图像直接分类得到行人属性，存在以下不足：

1、没有对属性位置的精确检测，从而造成识别结果不准确；

2、没有考虑属性之间的关联性，仅仅完成分类任务；

3、训练网络的数据集较小，不具有代表性。

造成这些缺陷的原因一方面是硬件和数据支撑欠缺，另一方面是采用的方法只针对分类问题，而没有考虑问题的大背景和解决问题的其他因素。

发明内容

本发明针对解决监控视频下行人属性识别的难题，提供一种监控视频下的行人属性识别方法，采用检测与多属性分类相结合的思想，追加一层根据属性之间的关联性辅助优化分类结果的网络层，基于符合实际监控场景的数据集对网络进行训练，用实际监控视频对训练得到的参数进行测试。

本发明的技术方案如下：

一种监控视频下的行人属性识别方法，其特征在于：首先采用行人检测技术，对视频中的行人和背景进行区分，并且提取出包含行人部分的图像，再进一步通过行人属性检测技术，对行人属性的粗粒度属性，包括头部、上身、下身、鞋子和附属物进行检测并提取相应部位的图像，最后选用多分类网络对检测到的每个粗粒度属性部位进行细粒度分类，选择置信度最大的属性类别作为最终结果。

上述方法中，对于视频中的行人检测选择使用目标检测技术YOLO；对于行人属性的检测采用Faster-RCNN；在属性分类时采用AlexNet；最后在分类之后叠加线性计算层，增强某些属性的置信度。

本发明在行人属性识别的精确度上相对于以往方法有所提高，在相同数据测试集的情况下，本发明与现有技术在某些属性准确率的对照如下表：

网络	Acc	Prec	Rec	F1
					ACN	73.66	84.06	81.26	82.64
DeepMAR	75.07	83.68	83.14	83.41
					本专利方法	75.40	87.11	81.07	83.98

本发明在安防领域，可以解决监控视频中的行人属性识别问题，有利于监控人员在海量视频中快速检索可疑目标，节省了大量时间和精力。对于公安来说，提高了监控系统侦测嫌疑人的能力，从而加速了警方的破案进程。另外，通过对识别的属性的检索，监控人员可以更方便得找到目标所在视频段，了解异常行为或案发过程。

对于多属性识别研究现状来说，虽然多属性识别的效果无法与单张图片标签和人脸识别分类的准确率相提并论，但是这也同时说明针对多分类问题，有很大的提升空间。本发明将为其他监控视频方面的课题，如视频摘要、视频检索、行人重识别等打下坚实的数据基础。

具体实施方式

本发明对于监控视频，首先采用视频中的行人检测技术，对视频中的行人和背景进行区分，并且提取出包含行人部分的图像，再进一步通过较为精确的行人属性检测技术，对行人属性的粗粒度属性头部、上身、下身、鞋子和附属物进行检测并提取相应部位的图像。最后选用多分类网络对检测到的每个粗粒度属性部位进行细粒度分类(如具体的夹克、羽绒服、T恤)，选择置信度最大的属性类别作为最终结果。

本发明对于视频中的行人检测选择使用最新的目标检测技术YOLOv3。YOLO系列算法有以下特点：YOLO训练和检测均是在一个单独网络中进行，没有显示地求取建议区域的过程，减少了大量的运算时间；YOLO将物体检测作为一个回归问题进行求解，输入图像经过一次预测，便能得到图像中所有物体的位置和其所属类别及相应的置信概率。因此。这种检测方法可以满足实时高效的需求。

对于行人属性的检测选用Faster-RCNN，Faster-RCNN在VOC2007上的平均准确率能达到73％。Faster-RCNN主要采用了区域建议网络的思想，提取特征后网络可以给出多个建议区域，再对这些区域中的特征进行进一步分类，有助于精确检测属性的各个部位，为分类打下坚实的基础。

在属性分类时选用AlexNet，AlexNet网络结构模型赢得了2012届图像识别大赛的冠军，虽然网络层数较浅但是分类速度快，准确率高。

最后在分类之后叠加线性计算层，增强某些属性的置信度。例如女性性别可以与长发，背包，裙子，红色衣服产生关联。

Claims

1.一种监控视频下的行人属性识别方法，其特征在于：首先采用行人检测技术，对视频中的行人和背景进行区分，并且提取出包含行人部分的图像，再进一步通过行人属性检测技术，对行人属性的粗粒度属性，包括头部、上身、下身、鞋子和附属物进行检测并提取相应部位的图像，最后选用多分类网络对检测到的每个粗粒度属性部位进行细粒度分类，选择置信度最大的属性类别作为最终结果。

2.根据权利要求1所述的监控视频下的行人属性识别方法，其特征在于：对于视频中的行人检测选择使用目标检测技术YOLO；对于行人属性的检测采用Faster-RCNN；在属性分类时采用AlexNet；最后在分类之后叠加线性计算层，增强某些属性的置信度。