CN111429466A

CN111429466A - 一种基于多尺度信息融合网络的空基人群计数与密度估计方法

Info

Publication number: CN111429466A
Application number: CN202010196984.0A
Authority: CN
Inventors: 曹先彬; 罗晓燕; 肖泽昊
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-17

Abstract

本发明公开了一种基于多尺度信息融合网络的空基人群计数与密度估计方法，属于航空监视领域。首先针对某张待检测场景图，对图像进行在线采样的数据增广，并将每个像素进行归一化后，转换得到真实密度图。然后对真实密度图使用多尺度特征编码器进行特征提取与编码，得到五张特征图；将多尺度特征编码器于解码器级联，输入特征图进行解码并拼接融合，输出最终的特征图f。最后使用图像生成模块将解码拼接融合的最终特征图f转化为人群密度图；对人群密度图中每个像素点的值求积分得到人群的密度估计，将所有像素点的值相加求和，得到总人数计数。本发明保留了足够的空间信息，更加充分地融合多尺度信息，进而提升网络的性能。

Description

一种基于多尺度信息融合网络的空基人群计数与密度估计方法

技术领域

本发明属于航空监视领域，具体是一种基于多尺度信息融合网络的空基人群计数与密度估计方法。

背景技术

随着近年来国家对低空领域使用权的不断开放，无人机经常被用来执行辅助灾情巡查以及特殊场景监视等任务。而在这些任务中，对于人群信息的统计与分析是最为重要的环节之一，在很多场景尤其是人群密集的场景下，统计场景人群数量与其密度分布对于安全监测、突发情况预警以及情报分析等多类任务均有不可估量的作用。

在大多数需要进行人群计数和密度估计的场景下，人群的密集度均较高，也就造成了严重的遮挡和目标尺度不一致的问题。早期的方法一般使用基于检测和回归的方法统计场景中人的总数。但由于密集人群遮挡严重、目标尺寸相差较大，基于检测的方法效果较差；而直接回归场景中人的数目从获取一个目标函数的角度来讲，使问题的输入域和输出域相差很大，也就导致了目标函数更难以拟合，也无法达到较好的效果。

近年来，基于密度图的方法成为了人群计数的主流，此类方法既可以简化任务的目标函数，也可以在统计人群总数的基础上得到信息更加充足的人群密度分布，为后续的其他应用提供更大的帮助。

发明内容

本发明提供一种基于多尺度信息融合网络的空基人群计数与密度估计方法，通过保留特征图空间信息的情况下，充分地提取和融合多尺度信息，提高网络生成的人群密度图质量，进而提高了人群计数与密度估计的效果，可用于飞行器飞行过程中场景的人群计数，为后续的安全监测、人群管理以及情报分析等应用带来了极大的便利。

所述的一种基于多尺度信息融合网络的空基人群计数与密度估计方法，具体步骤包括：

步骤一、针对某张待检测场景图，对图像进行在线采样的数据增广，并将每个像素进行归一化后，转换得到真实密度图。

具体步骤如下：

步骤101、以在线生成密度图的方法，将待检测场景图进行数据增广，得到尺寸均为H×W的图像；

数据增广包括裁剪、缩放、旋转或左右翻转等操作；

步骤102、对增广后的每张图像，将输入的每个像素数据X做((X-255)-0.5)/0.5的运算，将每个像素的值归一化到[-1,1]。

步骤103、在尺寸为H×W的图像中随机采样一个l_s×l_s大小的子图像S，统计位于子图像S区域内的行人目标，将行人目标的坐标筛选出来组成集合O，筛除其他目标坐标。

子图像S左上角顶点的坐标为(w_s,h_s)；

步骤104、将子图像S缩放至l_r×l_r大小，作为训练的输入图像R；

缩放可替换为在线的左右翻转或旋转。l_r的取值根据显存占用量设定，为4的整数倍。

步骤105、对集合O内的每一组坐标(x_i,y_i)分别进行坐标转换，得到各行人目标在子图像R中的相对坐标

转换公式为：

步骤106、利用转换后的相对坐标，得到与待检测场景图像对应的真实密度图。

步骤二、对真实密度图使用多尺度特征编码器进行特征提取与编码，得到五张特征图；

特征提取与编码的具体过程如下：

在卷积神经网络中，编码器共包含9个级联的卷积模块，分别为第一个卷积模块到第九个卷积模块，除第一个卷积模块之外，将之后每两个卷积模块分为一组，得到第一组卷积模块到第四组卷积模块，共5个卷积阶段；第一个卷积模块与第一组卷积模块之后分别各连接一个池化层。

首先，针对真实密度图，使用1×1的卷积层将该图的特征维压缩至原来的1/4，然后使用第一个卷积模块中的1×1，3×3，5×5，7×7四种普通卷积核分别处理该特征图，将四种普通卷积核分别输出的特征图进行拼接，得到第一特征图；

然后，将第一特征图经过池化层后，使用1×1的卷积层将特征维压缩至原来的1/4，将第二组卷积模块中的一个卷积模块的1×1，3×3，5×5，7×7四种普通卷积核分别处理该特征图，将分别输出的特征图进行拼接，然后用另一个卷积模块中的1×1，3×3，5×5，7×7四种普通卷积核再次分别处理，将再次得到的输出图进行拼接，得到第二特征图；

将第二特征图经过池化层后，再次使用1×1的卷积层将特征维压缩至原来的1/4，使用第三阶段的两个卷积组中的1×1，3×3，5×5，7×7八种空洞卷积核分别处理该特征图，得到第三特征图；

将第三特征图使用1×1的卷积层将特征维压缩至原来的1/4，使用第四阶段的两个卷积组中的1×1，3×3，5×5，7×7八种空洞卷积核分别处理该特征图，得到第四特征图；

将第四特征图使用1×1的卷积层将特征维压缩至原来的1/4，使用第五阶段的两个卷积组中的1×1，3×3，5×5，7×7八种空洞卷积核分别处理该特征图，得到第五特征图；

步骤三、将多尺度特征编码器于解码器级联，输入特征图进行解码并拼接融合，输出最终的特征图f；

具体过程如下：

将第二特征图和第三特征图输入第一解码器，分别经过1×1的卷积层得到各自对应的特征图1和特征图2，将特征图1和特征图2沿特征维拼接，并再次使用1×1卷积整合信息的方式进行融合，输出融合后的特征图a；

同理将第三特征图和第四特征图输入第二解码器，分别经过1×1的卷积层得到各自对应的特征图，沿特征维拼接和使用1×1卷积融合，输出融合后的特征图b；

将第四特征图和第五特征图输入第三解码器，分别经过1×1的卷积层得到各自对应的特征图，沿特征维拼接和使用1×1卷积融合，输出特征图c；

同理，将特征图a和特征图b输入第四解码器，分别经过1×1的卷积层得到各自对应的特征图，沿特征维拼接和使用1×1卷积融合，输出特征图d；

将特征图b和特征图c输入第五解码器，分别经过1×1的卷积层得到各自对应的特征图，沿特征维拼接和使用1×1卷积融合，输出特征图e；

同理，将特征图d和特征图e输入第六解码，分别经过1×1的卷积层得到各自对应的特征图，沿特征维拼接和使用1×1卷积融合，输出最终的特征图f；

步骤四、使用图像生成模块将解码拼接融合的最终特征图f转化为人群密度图；

图像生成模块包括两个3×3卷积层、2个双线性插值上采样层和1个1×1卷积层，最终特征图f依次经过3×3卷积层-双线性插值上采样层-3×3卷积层-双线性插值上采样层，最终通过1×1卷积层将特征维尺寸压缩到1，得到单通道的人群密度图。

步骤五、对人群密度图中每个像素点的值求积分得到人群的密度估计，将所有像素点的值相加求和，得到总人数计数；

本发明的优点在于：

1)、一种基于多尺度信息融合网络的空基人群计数与密度估计方法，在特征提取与编码阶段采用可提取多尺度信息的卷积模块，并使用空洞卷积代替池化层，保留了足够的空间信息。

2)、一种基于多尺度信息融合网络的空基人群计数与密度估计方法，在特征解码与融合阶段采用具有密集连接的多分支解码结构，能够进一步地，更加充分地融合多尺度信息，进而提升网络的性能。

附图说明

图1为本发明一种基于多尺度信息融合网络的空基人群计数与密度估计方法的流程图；

图2为本发明使用编码器在每组卷积模块中处理拼接得到特征图的示意图；

图3为本发明使用解码器对特征图进行解码拼接得到特征图的示意图；

图4为本发明的两张特征图分别输入解码器沿特征维拼接融合的示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

人群计数与密度估计问题，即统计各类场景中人群的密度与总人数的问题，在空基监视下的安全监测、灾害人群管理以及情报收集分析等应用中都具有重大意义；本发明设计了一种新的具备强大的多尺度信息提取与融合能力的编码器-解码器卷积神经网络，以完成对各类空基监视场景下的人群计数与密度估计任务，提出了一种基于多尺度信息融合网络的空基人群计数与密度估计方法。

如图1所示，具体步骤包括：

在深度学习的学习过程中，由于参数量巨大，需要大量的数据来进行训练，而在真实场景中，可用于训练的数据有时很少，因此需要对其进行数据增广。为了最大限度的利用有限的训练数据，在本实施例采用了一种在线的数据增广方法，在训练的同时对数据进行相应的处理，以尽量实现每轮训练中输入网络的数据均有差别。

此外，为了更好地训练网络，防止梯度爆炸等问题的发生，以及网络参数的适用性，本发明在训练和测试过程中均对输入图像进行了归一化操作。

具体步骤如下：

数据增广包括裁剪、缩放、旋转或左右翻转等操作；

子图像S左上角顶点的坐标为(w_s,h_s)；

缩放可替换为在线的左右翻转或旋转。l_r的取值根据显存占用量设定，为4的整数倍，本实施例中选择的是512*512。

转换公式为：

与其他方法相比，本方法在训练过程中实现采样与密度图的生成，因此命名为在线采样的数据增广方法，除此之外，本方法同样做了在线的左右翻转、旋转的数据增广，在坐标变换的基础上操作从而在不改变密度分布，不引入误导信息的同时实现强力的数据增广。

另外，需要注意的是，在线数据增广只用于训练过程中，为了提升网络的准确性和鲁棒性，方法测试与正常应用中并不引入数据增广。

在人群计数问题中，每个行人个体受拍摄角度和距离的影响，在图像中呈现尺寸大小差异很大的特点，因此多尺度特征的提取是人群计数问题中一个十分重要的问题。

在卷积神经网络中，编码器共包含9个级联的卷积模块，分别为第一个卷积模块到第九个卷积模块，除第一个卷积模块之外，将之后每两个卷积模块分为一组，得到第一组卷积模块到第四组卷积模块，共5个卷积阶段；不同大小的卷积核对应于卷积操作中不同大小的感受野，即当前卷积层提取特征的不同大小的区域，也就意味着提取不同尺度的特征。

在编码器的同一卷积模块使用了1×1，3×3，5×5，7×7四种不同大小的卷积核分别处理输入特征图，以在每一卷积模块中提取不同尺度的信息，并将处理后的特征图沿特征维进行拼接。同时，另外，为了减少神经网络的参数量，降低网络的计算复杂度和训练难度，在每一卷积模块前均使用1×1的卷积层将待处理特征图的特征维压缩至原来的1/4。

另外，在卷积神经网络中，通常使用池化层来实现特征图空间尺寸的压缩及感受野的增大，以损失空间信息为代价增大网络的感受野。而在人群计数任务中，空间信息对于密度图的生成有很大的作用，因此不能盲目地压缩特征图的空间尺寸，因此在本方法中，只在网络的前两个卷积阶段之后使用了池化层，在网络的后三个卷积阶段中，使用空洞卷积代替池化层增大感受野的作用，同时保证特征图的空间尺寸不被压缩，空间信息得以保留。

如图2所示，针对真实密度图，使用1×1的卷积层将该图的特征维压缩至原来的1/4，然后使用第一个卷积模块中的1×1，3×3，5×5，7×7四种普通卷积核分别处理该特征图，将四种普通卷积核分别输出的特征图进行拼接，得到第一特征图；

在第三个卷积阶段，第四个卷积阶段和第五个卷积阶段中，使用空洞卷积代替池化层增大感受野，同时保证特征图的空间尺寸不被压缩，以保留足够的空间信息。

步骤三、将多尺度特征编码器于解码器级联，输入特征图进行多尺度特征的解码并拼接融合，输出最终的特征图f；

普通的编码器-解码器网络，使用单一的编码器与解码器级联构成，编码器与解码器均包含多层卷积层，同时由于编码器中多层池化层的存在，解码器中普遍有与编码器中池化层相同数目的上采样层，以保证输出图像于输入图像尺寸相同。由于编码器中只有2层池化层，且后3个卷积阶段中使用空洞卷积代替了池化层，因此卷积层输出的特征图空间尺寸相同，且均为输入图像尺寸的1/4，因此在解码器中没有引入上采样层，同时不同卷积层输出的特征图可以通过沿特征维拼接的方式融合，更加方便灵活。

在此基础上，本发明以网络最后三个卷积阶段输出的特征图为输入，分别构建了三支解码器，并在三支解码器之间采用密集连接的方式将不同解码器之间的特征图进行融合，以充分地融合多尺度的特征，最后得到用于密度图生成的最终特征图。

在每次特征融合过程中，前一支解码网络上一层的特征图和本支解码网络上一层的特征图，分别使用1×1卷积层和3×3反卷积层进行处理，然后通过沿特征维拼接，使用1×1卷积整合信息的方式进行融合。

具体过程如下：

如图3和图4所示，将第二特征图和第三特征图输入第一解码器，分别经过1×1的卷积层得到各自对应的特征图1和特征图2，将特征图1和特征图2沿特征维拼接，并再次使用1×1卷积整合信息的方式进行融合，输出融合后的特征图a；

步骤四、使用图像生成模块将融合了多尺度信息并解码的特征图f转化为人群密度图；

经过特征编码和解码之后，输入图像已转换为融合了丰富多尺度信息的，尺寸为原图1/4的特征图，为了将特征图中的信息进一步转化为所需的密度信息，同时将其空间尺寸恢复为原图大小，本发明设计了图像生成模块对其进行处理。

图像生成模块包括两个3×3卷积层、2个双线性插值上采样层和1个1×1卷积层，最终特征图f依次经过3×3卷积层-双线性插值上采样层-3×3卷积层-双线性插值上采样层-1×1卷积层，在卷积层中缩小特征维尺寸，将特征维信息整合到空间维，在上采样层中恢复图像空间尺寸，最终通过1×1卷积层将特征维尺寸压缩到1，得到单通道的人群密度图。

在人群密度图中每个像素点的值为该像素点人群的密度，因此直接对密度图进行积分操作，对于数字图像而言，即将所有像素点的值相加，即可得到最终的总人数。

Claims

1.一种基于多尺度信息融合网络的空基人群计数与密度估计方法，其特征在于，具体步骤包括：

步骤一、针对某张待检测场景图，对图像进行在线采样的数据增广，并将每个像素进行归一化后，转换得到真实密度图；

具体步骤如下：

步骤102、对增广后的每张图像，将输入的每个像素数据X做((X-255)-0.5)/0.5的运算，将每个像素的值归一化到[-1,1]；

步骤103、在尺寸为H×W的图像中随机采样一个l_s×l_s大小的子图像S，统计位于子图像S区域内的行人目标，将行人目标的坐标筛选出来组成集合O，筛除其他目标坐标；

子图像S左上角顶点的坐标为(w_s,h_s)；

缩放可替换为在线的左右翻转或旋转；l_r的取值根据显存占用量设定，为4的整数倍；

转换公式为：

步骤106、利用转换后的相对坐标，得到与待检测场景图像对应的真实密度图；

特征提取与编码的具体过程如下：

在卷积神经网络中，编码器共包含9个级联的卷积模块，分别为第一个卷积模块到第九个卷积模块，除第一个卷积模块之外，将之后每两个卷积模块分为一组，得到第一组卷积模块到第四组卷积模块，共5个卷积阶段；第一个卷积模块与第一组卷积模块之后分别各连接一个池化层；

具体过程如下：

步骤五、对人群密度图中每个像素点的值求积分得到人群的密度估计，将所有像素点的值相加求和，得到总人数计数。

2.如权利要求1所述的一种基于多尺度信息融合网络的空基人群计数与密度估计方法，其特征在于，步骤101中所述的数据增广包括裁剪、缩放、旋转或左右翻转。

3.如权利要求1所述的一种基于多尺度信息融合网络的空基人群计数与密度估计方法，其特征在于，所述的步骤四中所述的图像生成模块包括两个3×3卷积层、2个双线性插值上采样层和1个1×1卷积层，最终特征图f依次经过3×3卷积层-双线性插值上采样层-3×3卷积层-双线性插值上采样层，最终通过1×1卷积层将特征维尺寸压缩到1，得到单通道的人群密度图。