CN109948553B

CN109948553B - 一种多尺度密集人群计数方法

Info

Publication number: CN109948553B
Application number: CN201910214205.2A
Authority: CN
Inventors: 曹先彬; 罗晓燕; 张安然
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-07-24
Anticipated expiration: 2039-03-20
Also published as: CN109948553A

Abstract

本发明公开了一种多尺度密集人群计数方法，属于航空监视领域。首先采集密集场景的数据，标记人群图像并进行预处理作为训练图片，然后训练图片分别依次通过卷积操作和多级池化模块得到各图片对应的融合多尺度信息的特征图。使用卷积核为1×1步长为1的卷积层分别对每张特征图进行定位信息加强，得到各自对应的定位信息加强的特征图。将每张定位信息加强的特征图重复使用卷积操作和多级池化模块后进行融合，再次定位信息加强，获得最终的特征图，进行解码，使用双线性插值法逐步恢复空间分辨率，得到各自最终的人群密度图。利用每张人群密度图中的像素值进行积分求和，得到最终的人数。本发明提高了计数精度，对监控场景有更好的认知能力。

Description

一种多尺度密集人群计数方法

技术领域

本发明属于航空监视领域,具体是一种多尺度密集人群计数方法。

背景技术

随着世界人口的指数增长和由此产生的城市化，导致近年来人群聚集更加频繁，在这种情况下，为了更好的管理人口、保障人口的安全，必须分析人群行为。密集人群计数是指计算拥挤场景中的人数，是将一个输入的人流图像映射到相应的密度图上，它对于在拥挤的场景中建立更高层次的认知能力至关重要。

然而，由于密集人群场景中人群密度高，由此造成了严重的遮挡以及目标尺度不一致的问题。人工的密集人群计数方法费时费力。因此，有人提出，通过无人机实现基于空基的自主监视，通过空基视角俯拍的图像来分析密集人群场景中的人群密度。

无人机可通过携带的摄像头采集人群的图像数据，并运用计算机视觉的技术进行智能分析与处理，从而统计场景人群数量与其密度分布，对于安全监测、突发情况预警以及情报分析等多类任务均有不可估量的作用。

由于无人机拍摄角度和飞行高度不同，采集的密集人群的图片数据具有多尺度和多视角问题，造成计数困难。

发明内容

本发明提出一种多尺度密集人群计数方法，解决多尺度问题的同时能对人群位置进行更精确地定位，从而实现效果良好的空基人群计数与密度估计；对于安全监测、突发情况预警以及情报分析等应用有重大意义。

具体步骤包括：

步骤一、无人机采集密集场景的数据，标记人群图像并进行预处理作为训练图片。

数据包括人群和周边场景；将图片中的人群分割出来作为图像数据。

通过预处理对原始的图像数据集进行人工扩充，具体包括旋转变换和随机裁剪。

旋转变换是：依次对每张原始图像，随机旋转一定角度，同时保留旋转前和旋转后的图片，将原始数据集扩大2倍。

随机裁剪是：对旋转变换后的图片数据，每张都进行随机裁剪，将裁剪后的所有图片作为训练图片。

步骤二、针对每张训练图片，分别依次通过卷积操作和多级池化模块逐步降低空间分辨率，得到各图片对应的融合多尺度信息的特征图。

首先，将当前的训练图片分别输入3个不同卷积核中，得到各自对应的卷积特征图；

三个卷积核的大小分别为：3×3，5×5，7×7。

然后，针对不同的卷积特征图，采用不同的池化尺度进行池化；

针对3×3的卷积核，池化后的尺寸为原特征图的1/2；针对5×5的卷积核，池化后的尺寸为原特征图的1/4，针对7×7的卷积核，池化后的尺寸为原特征图的1/8。

进一步，将尺寸为1/4和1/8的特征图分别使用双线性插值的方法扩大成原特征图的1/2尺度；

最后，使用通道拼接法对上述三个均为1/2尺度的特征图进行特征融合，得到当前训练图片对应的融合多尺度信息的特征图。

步骤三、使用卷积核大小为1×1步长为1的卷积层分别对每张融合多尺度信息的特征图进行定位信息加强，得到各自对应的定位信息加强的特征图。

步骤四、返回步骤二，将每张定位信息加强的特征图重复使用卷积操作和多级池化模块后进行融合，再次定位信息加强，获得最终的特征图。

本发明共进行三轮卷积操作和多级池化模块后的融合，以及再次定位信息加强；每进行一轮，特征图变为原图像尺寸的1/2，三轮操作后，每张最终特征图变为原图像尺寸的1/8。

步骤五、对每张最终的特征图分别进行解码，使用双线性插值法逐步恢复空间分辨率，得到各自最终的人群密度图。

具体为：针对当前特征图尺寸仅为输入图像的1/8，使用双线性插值法对特征图的分辨率进行进一步的恢复，得到与原始图像尺寸相同的人群密度图。

步骤六、针对每张与原始图像尺寸相同的人群密度图，利用每张人群密度图中的像素值进行积分求和，得到最终的人数。

本发明的优点在于：

1)、一种多尺度密集人群计数方法，解决了密集人群图片数据的多尺度多视角问题，提高了计数精度。

2)、一种多尺度密集人群计数方法，使用密度图的人群计数方式，对监控场景有更好的认知能力。

3)、一种多尺度密集人群计数方法，使用卷积神经网络，相比较传统方法更加高效。

附图说明

图1为本发明一种多尺度密集人群计数方法的流程图；

图2为本发明得到融合多尺度信息的特征图的原理图。

具体实施方式

为了使本发明能够更加清楚地理解其技术原理，下面结合附图具体、详细地阐述本发明实施例。

现有技术中，由于无人机拍摄角度和飞行高度不同，采集的密集人群的图片数据具有多尺度和多视角问题，造成计数困难。本发明提供了一种多尺度密集人群计数方法，可用于飞行器飞行过程中场景的人群计数，对后续的安全监测、人群管理以及情报分析等任务有重大意义。

首先，标记空基监视的密集人群图像，进行预处理得到训练图片；然后使用多级池化模块降低空间分辨率，得到融合多尺度信息的特征图；再使用固定大小的卷积核对其进行定位信息加强；接着重复使用多级池化模块和固定大小的卷积核操作，获得最终的特征图；最后对每张最终的特征图分别进行解码，使用双线性插值法逐步恢复空间分辨率，得到最终的人群密度图，从而进一步对密集人数进行统计。

如图1所示，具体步骤如下：

无人机采集的密集场景的数据通常包括人群和周边场景；为了更好地让网络提取人群信息，首先将图片中的人群分割出来作为训练和测试数据，取80％做训练集，20％做测试集。

对于无人机数据收集的图片具有多尺度和多视角，首先对数据进行预处理，通过预处理对原始的图像数据集进行人工扩充，使训练网络时有更好的效果。

具体包括旋转变换和随机裁剪：

旋转变换是：依次对每张原始图像，随机旋转一定角度，如对图像进行10度顺时针的旋转，同时保留旋转前和旋转后的图片，将原始数据集扩大2倍。数据增强使模型能识别多个角度的图片，增强了模型的能力，减小了模型对图片角度的敏感程度。

随机裁剪是：对旋转变换后的图片数据，每张都进行随机裁剪，将裁剪后的所有图片作为训练图片，增强了数据的多样性。

原理如图2所示，首先，将当前的训练图片分别输入3个不同卷积核中，得到各自对应的卷积特征图；

三个卷积核的大小分别为：3×3，5×5，7×7。

池化层具有很强的对特征图特征的总结和抽象的能力，多级池化模块采用的是针对不同卷积核的特征图，采用不同的池化尺度，针对3×3的卷积核，池化后的尺寸为原特征图的1/2；针对5×5的卷积核，池化后的尺寸为原特征图的1/4，针对7×7的卷积核，池化后的尺寸为原特征图的1/8。

步骤三、使用卷积核大小为1×1步长为1的卷积层分别对每张池化后融合多尺度信息的特征图进行定位信息加强，得到各自对应的定位信息加强的特征图。

1×1的卷积核使用像素级的卷积操作加强了像素点位置的定位信息，最终得到和输入特征图相同尺寸的输出特征图。

Claims

1.一种多尺度密集人群计数方法，其特征在于，具体步骤包括：

步骤一、无人机采集密集场景的数据，标记人群图像并进行预处理作为训练图片；

所述的数据包括人群和周边场景；将图片中的人群分割出来作为图像数据；

通过预处理对原始的图像数据集进行人工扩充，具体包括旋转变换和随机裁剪；

旋转变换是：依次对每张原始图像，随机旋转一定角度，同时保留旋转前和旋转后的图片，将原始数据集扩大2倍；

随机裁剪是：对旋转变换后的图片数据，每张都进行随机裁剪，将裁剪后的所有图片作为训练图片；

步骤二、针对每张训练图片，分别依次通过卷积操作和多级池化模块逐步降低空间分辨率，得到各图片对应的融合多尺度信息的特征图；

三个卷积核的大小分别为：3×3，5×5，7×7；

针对3×3的卷积核，池化后的尺寸为原特征图的1/2；针对5×5的卷积核，池化后的尺寸为原特征图的1/4，针对7×7的卷积核，池化后的尺寸为原特征图的1/8；

最后，使用通道拼接法对上述三个均为1/2尺度的特征图进行特征融合，得到当前训练图片对应的融合多尺度信息的特征图；

步骤三、使用卷积核大小为1×1步长为1的卷积层分别对每张融合多尺度信息的特征图进行定位信息加强，得到各自对应的定位信息加强的特征图；

步骤四、返回步骤二，将每张定位信息加强的特征图重复使用卷积操作和多级池化模块后进行融合，再次定位信息加强，获得最终的特征图；

具体为：进行三轮卷积操作和多级池化模块后的融合，以及再次定位信息加强；每进行一轮，特征图变为原图像尺寸的1/2，三轮操作后，每张最终特征图变为原图像尺寸的1/8；

步骤五、对每张最终的特征图分别进行解码，使用双线性插值法逐步恢复空间分辨率，得到各自最终的人群密度图；

针对当前特征图尺寸仅为输入图像的1/8，使用双线性插值法对特征图的分辨率进行进一步的恢复，得到与原始图像尺寸相同的人群密度图；