CN112668508A

CN112668508A - 基于垂直俯视角的行人标注、检测和性别识别方法

Info

Publication number: CN112668508A
Application number: CN202011632272.5A
Authority: CN
Inventors: 谢晓华; 林民钊; 赖剑煌
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-16
Anticipated expiration: 2040-12-31
Also published as: CN112668508B

Abstract

本发明公开了一种基于垂直俯视角的行人标注、检测和性别识别方法，包括：获取视频并基于视频得到视频帧的垂直俯视角图像；基于视频标注方法对垂直俯视角图像进行标注，得到行人旋转全身框；基于行人旋转全身框构建行人轨迹并对行人轨迹进行性别属性标注，得到带标签的行人旋转全身框；基于行人旋转全身框对预构建的行人检测网络进行训练，得到行人检测模型；基于带标签的行人旋转全身框对预构建的行人性别识别网络进行训练，得到行人性别识别模型。本发明基于垂直俯视角的情况下不会涉及行人的身份特征，能很好地保护行人隐私。本发明作为一种基于垂直俯视角的行人标注、检测和性别识别方法，可广泛应用于行人检测领域。

Description

基于垂直俯视角的行人标注、检测和性别识别方法

技术领域

本发明属于行人数据标注、行人检测、行人属性识别领域，尤其涉及一种基于垂直俯视角的行人标注、检测和性别识别方法。

背景技术

随着互联网和人工智能技术的发展，智能视频监控系统被广泛应用到安防监控、智慧零售等领域中。其中，行人计数功能是最基础最核心的功能之一，因此智能视频监控系统的基本要求就是要输出精准的行人计数。此外，单纯的进出数已经无法满足日益增长的客流属性需求，例如输出行人的基础属性性别等。基于精准行人计数和行人性别识别的系统已经能输出后续客流分析所需的基本数据，因此本文提出的系统着力于输出精准的行人计数和精准的行人性别属性。

同时智能视频监控系统也需要考虑到隐私保护和实际部署两方面的问题。关于隐私保护，这是因为随着人脸识别等基于生物特征的人工智能技术的广泛应用，涉及行人自身隐私的纠纷越来越多，隐私问题引起越来越多人的注意，尤其是国外的应用领域。关于实际部署，以往的人工智能技术应用都是需要足够高的算力来满足算法的运行，基于GPU服务器、基于云等解决方案还需要足够大的带宽来实现数据的传输，实际部署的成本较高。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于垂直俯视角的行人标注、检测和性别识别方法，基于垂直俯视角的情况下不会涉及行人的身份特征，能很好地保护行人隐私。

本发明所采用的第一技术方案是：基于垂直俯视角的行人标注、检测和性别识别方法，包括以下步骤：

获取视频并基于视频得到视频帧的垂直俯视角图像；

基于视频标注方法对垂直俯视角图像进行标注，得到行人旋转全身框；

基于行人旋转全身框构建行人轨迹并对行人轨迹进行性别属性标注，得到带标签的行人旋转全身框；

基于行人旋转全身框对预构建的行人检测网络进行训练，得到行人检测模型；

基于带标签的行人旋转全身框对预构建的行人性别识别网络进行训练，得到行人性别识别模型。

进一步，还包括：

获取垂直俯仰角图像并输入到行人检测网络，得到行人中心点结果图、行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图和行人全身框宽高结果图；

根据行人中心点结果图、行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图和行人全身框宽高结果图构建行人旋转矩形全身框；

将行人旋转矩形全身框输入到行人性别识别模型，截取行人全身图像并进行性别识别。

进一步，所述基于视频标注方法对垂直俯视角图像进行标注，得到行人旋转全身框这一步骤，其具体还包括：

通过对视频帧的垂直俯视角图像进行点击和拖拉操作画出行人头肩矩形框；

依次平滑起始帧和终点帧的头肩矩形框的四个点进行中间帧的头肩矩形框标签生成，得到头肩矩形框中点；

标注行人的脚中点，通过平滑起始帧和终点帧脚中点进行中间帧的脚中点标签生成，得到脚中点；

对脚中点和头肩矩形框中点的连线并基于该连线向两边垂直方向扩展一定像素，生成行人旋转全身框。

进一步，所述基于行人旋转全身框构建行人轨迹并对行人轨迹进行性别属性标注，得到带标签的行人旋转全身框这一步骤，其具体包括：

基于行人旋转全身框中的中间帧头肩矩形框标签和脚中点标签，构建行人轨迹；

对行人轨迹的其中一个帧进行性别属性标注，得到带标签的行人旋转全身框。

进一步，所述预构建的行人检测网络采用CenterNet目标检测网络，所述预构建的行人性别识别网络采用ShufflenetV2高效轻量级网络。

进一步，所述基于行人旋转全身框对预构建的行人检测网络进行训练，得到行人检测模型这一步骤，其具体包括：

将带有行人旋转全身框的垂直俯视角图像输入到预构建的行人检测网络，得到行人中心点结果图、行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图和行人全身框宽高结果图；

基于行人中心点结果图、行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图和行人全身框宽高结果图构建行人中心点预测损失函数、行人中心点偏移量预测损失函数、行人脚点相对于中心点偏移量预测损失函数和行人宽高预测损失函数；

将行人中心点预测损失函数、行人中心点偏移量预测损失函数、行人脚点相对于中心点偏移量预测损失函数和行人宽高预测损失函数进行加权处理得到行人检测最终损失函数；

基于行人检测最终函数对预构建的行人检测网络的参数进行更新，得到行人检测模型。

进一步，所述基于带标签的行人旋转全身框对预构建的行人性别识别网络进行训练，得到行人性别识别模型这一步骤，其具体包括：

将带标签的行人旋转全身框输入到预构建的行人性别识别网络，得到预测性别分类；

基于预测性别分类和对应的性别标签构建softmax损失函数；

基于softmax损失函数对预构建的行人性别识别网络进行更新，得到行人性别识别模型。

本发明方法的有益效果是：本发明能在垂直俯视角下，通过截取行人的全身框并进行对齐，输出行人的性别属性，为行人客流分析方案提供基础数据，并且创新的标注数据方法，采用视频标注方法，标注行人头肩、标注行人脚点生成全身框、标注单个轨迹的性别属性，能提高数据标注的速度，该方法简答有效，且能达到隐私保护的目的。

附图说明

图1是本发明具体实施例的步骤流程图；

图2是本发明具体实施例中行人标注方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种基于垂直俯视角的行人标注、检测和性别识别方法，该方法包括以下步骤：

获取视频并基于视频得到视频帧的垂直俯视角图像；

具体地，本发明能部署到嵌入式设备上，采用边缘计算，能极大减低部署成本及所需带宽，同时在嵌入式设备完成数据采集和分析，不用将数据上传到云，进一步达到隐私保护的目的。

进一步作为本方法的优选实施例，还包括：

进一步作为本方法优选实施例，所述基于视频标注方法对垂直俯视角图像进行标注，得到行人旋转全身框这一步骤，其具体还包括：

具体地，视频帧包括起始帧、中间帧和终点帧。

具体地，该方法通过标注起始帧和终点帧，然后中间帧通过点的平滑生成来加速数据标注的实现。对于传统一般的标注方法而言，标注时，人工较容易地通过点击和拖拉两种操作画出普通的矩形框，即正正方方没有旋转角度的矩形框。为了进一步降低人工操作难度以及提高标注速度，该方法基于普通矩形框生成出旋转矩形框，标注方法参照图2。

进一步作为本方法的优选实施例，所述基于行人旋转全身框构建行人轨迹并对行人轨迹进行性别属性标注，得到带标签的行人旋转全身框这一步骤，其具体包括：

具体地，在基于视频的行人旋转全身框标注方法的基础上，标注工作是以人为单位进行的，即标注完单个人的起始帧和终点帧的头肩矩形框和脚中点后，通过点的位置平滑生成中间帧标签，这些标签组合在一起则形成了该人在该视频中的一条轨迹，在这条轨迹的基础上，人工只需要标注一次该人的性别属性，即可完成性别属性标注，因为人的属性在视频帧中是不变的。因此标注工作以轨迹为单位能快速标注视频帧的行人性别属性。

进一步作为本方法的优选实施例，所述预构建的行人检测网络采用CenterNet目标检测网络，所述预构建的行人性别识别网络采用ShufflenetV2高效轻量级网络。

具体地，CenterNet是Anchor-free系列的目标检测，与传统的基于Anchor的目标检测器不同，传统的目标检测大都先穷举潜在目标区域，然后做分类和额外的后处理，CenterNet可以采用关键点预测，直接预测出目标的中点坐标以及目标宽高，并易于拓展到预测其他目标属性，如3D位置、方向和姿态等。本发明基于CenterNet进行改进，从而应用于预测行人旋转全身框；本发明采用对高效轻量级网络ShufflenetV2的通道进行裁剪，得到进一步更轻量的网络，用以进行行人性别识别。

进一步作为本方法的优选实施例，所述基于行人旋转全身框对预构建的行人检测网络进行训练，得到行人检测模型这一步骤，其具体包括：

具体地，对于输入的图像，行人检测网络预测出行人中心点、行人中心点偏移量、行人脚点、行人脚点偏移量、行人全身框宽高。

具体地，假设输入图像为I∈R^W×H×3，其中W和H分别为图像的宽度和高度，则行人检测网络会输出行人中心点结果图、行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图、行人全身框宽高结果图。行人检测网络的下采样的倍数为S＝4，则结果图的宽高为

和

例如输入的图像分辨率为512x512，则输出的结果图宽高为128x128。因此行人中心点结果图为

其中C＝1，表示1个类别为行人中心点类；行人中心点偏移量结果图为

表示行人中心点在x方向和y方向上的偏移量，进一步使得行人中心的更精确；行人脚点相对于中心点偏移量结果图为

表示行人脚点在x方向和y方向上的相对于行人中心点的偏移量，以回归出行人脚点位置；行人宽高结果图为

表示行人的宽度和高度。

行人中心点预测损失函数如下式：

其中，α和β是超参数，N是图像I的真实标签行人中心点数量，Y_xyc＝1时表示在结果图中(x,y,c)坐标下真实标签行人中心点位置，

表示行人检测网络在结果图中(x,y,c)坐标下的预测值。通过类似于Focal Loss的损失函数形式，使得网络输出接近于真实标签的行人中心点位置。

行人中心点偏移量和脚点偏移量类似，因此使用相同的损失函数进行训练，行人中心点偏移量预测损失函数如下式，行人脚点偏移量预测损失函数同理：

其中，p表示真实标签的在原图分辨率下的行人中心点，

表示预测的在结果图分辨率下的行人中心点，

表示在p点的行人中心点偏移量预测值。通过该损失，可以回归出因为下采样取整导致的坐标精度损失，从而进一步提高预测的精度。

对于行人的宽高预测，使用L1损失函数来衡量预测值和真实值的误差，行人宽高预测损失函数如下式：

其中，s_k表示目标k在结果图分辨率下的真实宽高，

表示目标k在结果图分辨率下的预测宽高，以L1损失函数减少回归物体宽高的难度。

最终通过加权所有损失函数得到最终的损失函数，以此来训练行人检测网络，如下式：

L＝λ_centerL_center+λ_cregL_creg+λ_fregL_freg+λ_sizeL_size

网络训练完成后，即可进行行人检测网络。对于行人检测网络的输出，即行人中心点结果图、行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图、行人全身框宽高结果图。

应用于上述行人检测模型的工作步骤：

首先，提取出行人中心点，对于行人中心点结果图，提取出每个满足该条件的坐标点：值大于等于周围八邻域的最大值。即得到每个候选行人的位置，假设第i个候选行人的位置为(x_i,y_i)，则行人中心点结果图中在该位置的值为该候选行人的置信度

假设设定置信度阈值为c，则对于每个

的候选行人，作为最终的预测行人。

其次，得到每个预测行人的坐标位置(x_i,y_i)，即可通过该位置找到对应的行人中心点偏移量结果图、行人脚点相对于中心点偏移量结果图、行人全身框宽高结果图上的值，分别得到该预测行人的中心点偏移量(x_i,creg,y_i,creg)，该预测行人的脚点相对于中心点偏移量(x_i,freg,y_i,freg)，以及该行人的宽高(w_i,h_i)。

最后，得到准确的行人中心点(x_i+x_i,creg,y_i+y_i,creg)，得到行人脚点(x_i+x_i,freg,y_i+y_i,freg)。以行人宽高中长边作为水平方向的宽，短边作为垂直方向的高，从中心点拓展得到普通矩形全身框。以中心点到脚点的向量(x_i,freg-x_i,creg,y_i,freg-y_i,creg)，计算水平向量(1,0)与该向量的顺时针角度θ，将普通矩形全身框顺时针旋转θ即可得到行人旋转矩形全身框。

进一步作为本方法的优选实施例，所述基于带标签的行人旋转全身框对预构建的行人性别识别网络进行训练，得到行人性别识别模型这一步骤，其具体包括：

基于预测性别分类和对应的性别标签构建softmax损失函数；

具体地，行人性别识别网络采用对高效轻量级网络ShufflenetV2的通道进行裁剪，得到进一步更轻量的网络，用以进行行人性别识别。该网络使用正常的分类softmax函数作为损失函数，采用一定角度旋转、平移等数据增广手段，以分类任务进行行人性别任务训练。对于行人检测网络输出的行人旋转矩形全身框，截取出行人全身图像进行性别识别。为了保持行人全身信息不被扭曲，使用相似变换，以全身框四个点作为源目标点，截取出64x128分辨率的行人，从而进一步提高性别识别率。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，包括以下步骤：

获取视频并基于视频得到视频帧的垂直俯视角图像；

2.根据权利要求1所述基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，还包括：

3.根据权利要求2所述基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，所述基于视频标注方法对垂直俯视角图像进行标注，得到行人旋转全身框这一步骤，其具体还包括：

4.根据权利要求3所述基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，所述基于行人旋转全身框构建行人轨迹并对行人轨迹进行性别属性标注，得到带标签的行人旋转全身框这一步骤，其具体包括：

5.根据权力要求4所述基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，所述预构建的行人检测网络采用CenterNet目标检测网络，所述预构建的行人性别识别网络采用ShufflenetV2高效轻量级网络。

6.根据权利要求5所述基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，所述基于行人旋转全身框对预构建的行人检测网络进行训练，得到行人检测模型这一步骤，其具体包括：

7.根据权利要求6所述基于垂直俯视角的行人标注、检测和性别识别方法，其特征在于，所述基于带标签的行人旋转全身框对预构建的行人性别识别网络进行训练，得到行人性别识别模型这一步骤，其具体包括：

基于预测性别分类和对应的性别标签构建softmax损失函数；