CN111222402A

CN111222402A - 一种面向无人机图像的人群聚集密度分析方法

Info

Publication number: CN111222402A
Application number: CN201911115072.XA
Authority: CN
Inventors: 袁汉宁; 李晓蕾; 王宇; 王树良
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-06-02

Abstract

本发明提供了一种面向无人机图像的人群聚集密度分析方法，能够将密度估计和人群计数分任务并列进行，共享特征信息，提高预测效果；采用基于数据场的人群拥堵点和基于相对密度的拥堵等级可视化方法，全方位地展示人群聚集程度和空间分布状况。无人机图像经过基于多尺度和多任务学习相结合的深度卷积神经网络的人群识别算法处理之后，将得到人群计数的精确结果及人群密度估计结果即概率密度图。人群计数结果可以从数量角度分析人群聚集状态，概率密度图将用于可视化展示过程从空间角度分析人群聚集空间分布。

Description

一种面向无人机图像的人群聚集密度分析方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种面向无人机图像的人群聚集密度分析方法。

背景技术

人群聚集密度分析是在行人聚集场所中识别和发现人群分布情况。广场等行人聚集区域往往存在安全隐患，人群聚集密度分析有利于预防和处理踩踏拥挤等事故的。现有人群聚集分析的主要方法有根据动态视频识别行人、在非俯视图中识别行人以及在空中拍摄的俯视图中识别行人。

其中，动态视频识别成本高；非俯视图像涵盖的人群范围小，不能涵盖人群周围环境等整体信息，无法适应无人机图像中大范围的人群分析；在俯视图识别行人的方法中，采用神经网络算法进行人群聚集分析，不存在上述两种方法存在的问题，但是会受到图像大小的限制，对于不同拍摄距离下的人群图像检测效果也不是很理想，并且在可视化的过程中对于标注信息的依赖过大，现有常用的可视化方法是通过自适应高斯核函数生成密度图，这种方法对于标注信息依赖过大，如果不包含标注信息，则无法生成密度图。具体地，在俯视图识别行人的方法中，现有的采用神经网络算法进行人群聚集分析，比如VishwanathA.Sindagi等人设计了一种基于先验和多任务学习相结合的卷积神经网络的人群聚集密度分析方法，用于对俯拍获得的图像进行分析，该方法将人数密集和稀疏的数据集提前分组，然后分开训练模型。该网络中共享特征提取层将训练人数估计模型和密度估计模型分开训练，从而达到多任务的效果，克服了全连接层对于图像大小的限制。但是由于该网络特征提取的尺度是单一的，该网络对于不同大小的图像的识别效果不好。通过密度估计得到的结果以密度图的形式进行可视化展示，可视化效果不好，不够直观。上海科技大学张莹莹等人提出一种基于多列的卷积神经网络结构算法，将人群概率密度图估计的过程分为多个单独的网络结构得到不同的概率密度图，最后进行融合，从而在一定程度上解决了不同距离拍摄的图像识别准确率差异较大的问题。但由于该网络在多个子网络结构间缺乏特征信息的共享，该方法对于近距离的人群识别的MAE与MSE指数仍然高达400，存在较大改进空间，其网络全连接层的操作限制了图像的大小，也为图像预处理增加了难度。该方法通过自适应高斯核函数确定图像中人头像素大小，得到密度图展示，可视化效果有了一定提升，但较多依赖于标注信息，且无法直观展示人群聚集中心点与聚集状态。

可见，现有的基于卷积神经网络算法识别俯视图中行人的方法对于不同大小、不同拍摄距离下的人群图像识别效果并不理想，且人群聚集状态的可视化方法也存在不够直观、对标注信息依赖较大等问题。

发明内容

有鉴于此，本发明提供了一种面向无人机图像的人群聚集密度分析方法，能够将密度估计和人群计数分任务并列进行，共享特征信息，提高预测效果；采用基于数据场的人群拥堵点和基于相对密度的拥堵等级可视化方法，全方位地展示人群聚集程度和空间分布状况。

为实现上述目的，本发明的一种面向无人机图像的人群聚集密度分析方法，采用卷积神经网络对无人机图像进行人群识别提取，包括人群计数部分以及密度估计部分，其中人群计数部分输出为人群计数结果，密度估计部分输出为人群密度估计结果，其中，在卷积神经网络中构建多尺度共享特征提取部分，所述多尺度共享特征提取部分包括特征共享层以及多个不同尺度的输入卷积层，所述输入卷积层用于接收无人机图像，输出对应尺度的特征图；特征共享层用于将多个输入卷积层输出的特征图进行连接，并最终通过卷积操作输出特征图至人群计数部分以及密度估计部分；其中，输入卷积层的数目和各自的大小根据无人机拍摄高度的范围确定；

将人群密度估计结果记为密度概率矩阵，基于密度概率矩阵，采用基于数据场拥堵点的可视化方法或基于视场系数的密度可视化方法对人群聚集程度与分布进行可视化，两种可视化方法单独采用或同时进行；

其中，基于数据场拥堵点的可视化方法中，将密度概率矩阵上数值不为0的点视为带有该值权重的单个人，提取密度概率矩阵的每个非0点的坐标和密度值；利用拟核力场势函数对每个点计算该点受其它所有点或者一定范围内的点影响的势能值之和，预设一个势能值阈值，将超过该阈值的点设置为拥堵点；其中，拟核力场的势函数为：

其中，x，y为对应点的坐标，m为超参数，σ值取4.0，k表示距离指数；

基于视场系数的密度可视化方法中，通过视场系数的相对密度方法实现对人群聚集总体状况分析和拥堵等级划分，所述相对密度为原始概率与视场系数的比值，所述视场系数为密度估计得到的密度概率矩阵中概率最大的值。

其中，当拍摄高度高于80米时，输入卷积层尺寸小于3×3；当高度低于40米时，输入卷积层尺寸大于9×9。

其中，基于数据场拥堵点的可视化过程中，在拥堵点的基础上通过中心画圆方法，对应HSL色盘得到热力图，将热力图羽化，浮于原图之上，得到对应的密度图。

其中，将无人机图像添加标注信息之后用于卷积神经网络训练，卷积层输入无人机图像的图片信息，所述标注信息用于在训练过程中计算损失函数优化模型，所述添加标注信息的步骤如下：

步骤11，数据标注：

手工标注输入无人机图像，生成具有标注信息的.mat格式文件；其中每个文件中存储一个二维数字矩阵，矩阵的大小与图像大小一致，对于图像中所有存在人头的中心位置像素(a,b)，将矩阵中对应位置的值设置为1，其他不存在人头的位置的值设置为0；

步骤12，通过高斯函数处理.mat格式文件保存的图像标注矩阵得到概率形式的标注文件；取二维矩阵中标注为1的所有点，假设坐标为(a,b)，对于该点周围15×15大小矩阵内的其他点，将其坐标(x,y)代入以(a,b)点为中心的二维高斯分布函数，得到基于高斯分布的概率值，然后将15×15矩阵内的所有值进行归一化；其中不同点生成矩阵时若有重叠区域，重叠部分将概率值相加，在图像边缘区域减小选取的矩阵大小，处理完之后概率值保存在.csv格式的文件中；其中使用的二维高斯函数公式如下，其中σ值取4.0：

其中，所述人群计数部分包括4个不连续卷积层和全连接阶段；4个不连续卷积层分别有16个9×9的卷积核、32个7×7的卷积核、16个7×7的卷积核和8个7×7的卷积核，每一不连续卷积层后连接着相应的预激活函数PReLU；全连接阶段由三个全连接层组成，每个全连接层后都有一个PReLU的激活函数，首层包含512个小神经单元，其后为256个小神经单元，最后一层是一个网络组合层，包含10个神经单元和sigmoid层，表示输入图像的计数类别；

通过最小化是人群计数估计部分的损失函数得到最优的网络参数组合，构建最优网络模型，从而得到人群计数结果，所述是人群计数估计部分的损失函数定义如下：

其中，L_c是先验阶段的损失函数，N即为训练的数量，Θ是初始化的网络参数，X_i是其中的第i个的训练实例，F_C(X_i，Θ)即为输出类别，yⁱ是真实的分类，M是类别的数量。

其中，所述密度估计部分包括4个不连续卷积层、2个连续卷积层和2个反卷积层；4个不连续卷积层分别有20个7×7的卷积核、40个5×5的卷积核、20个5×5的卷积核和10个5×5的卷积核，每一不连续卷积层后连接着相应的预激活函数PReLU；对卷积核的大小和步长均设置不同大小，并在两个卷积操作之后设置池化层，将网络输出缩小，降低为原本尺寸的1/4大小；

将人群计数估计部分的特征向量和密度估计解读的特征向量联合，作为一个统一的向量输入，其后经过24个3×3的卷积核进行特征提取，得到24个特征图，再经过32个3×3的卷积核，得到的32个特征向量，最后使用两个特征数分别为16和18的反卷积层，将图像尺寸扩充到原本图像的标准；其中密度估计部分损失函数选择像素级的欧式距离计算损失用于优化参数，从而构建最优化网络模型，密度估计部分损失函数定义如下：

L_d是密度估计部分的损失函数，N为训练实例的数量，F_d是预测的密度图，C_i是先验阶段最末尾的卷积层获取的特征图，D_i是真实的密度图值。

有益效果：

本发明的面向无人机图像的人群聚集密度分析方法，采用基于多尺度和多任务学习相结合的深度卷积神经网络，将多尺度的概念应用到共享特征提取层，提高了人群提取的泛化能力，应用于不同大小、不同分辨率的图像，消除了图像大小及拍摄高度对识别效果的影响，并将密度估计和人群计数分任务并列进行，共享特征信息，提高了人群提取的效果和准确率。无人机图像经过基于多尺度和多任务学习相结合的深度卷积神经网络的人群识别算法处理之后，将得到人群计数的精确结果及人群密度估计结果即概率密度图。人群计数结果可以从数量角度分析人群聚集状态，概率密度图将用于可视化展示过程从空间角度分析人群聚集空间分布。

附图说明

图1为本发明方法的流程图；

图2为本发明的多尺度共享特征提取层示意图；

图3为本发明实施例选取的一张无人机拍摄的人群聚集图像；

图4为本发明实施例概率密度图通过基于数据场算法计算得到的图像拥堵点信息；

图5为将图4的拥堵点信息图调整透明度为50％，覆盖在图3所示的原图之上得到的人群聚集拥堵点可视化图；

图6为本发明实施例概率密度图通过基于视场系数的相对密度方法计算得到的整体人群密度分布情况图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种面向无人机图像的人群聚集密度分析方法，基于特定的场景，即人群容易聚集且便于采集数据的场景，通过无人机采集数据，对数据进行标注，将具有标注信息的图像输入网络中，经过多尺度和多任务学习的深度卷积神经网络算法识别出图像中的人群数量与密度。引入数据场计算拥堵点和基于视场系数的相对密度概念，实现对人群聚集状况的可视化分析。

本发明采用多尺度先验和多任务学习的深度卷积神经网络算法，引入多尺度概念，在网络中分尺度提取特征并连接得到特征共享层，消除图像大小及拍摄距离对识别效果的影响，将密度估计和人群计数分任务并列进行，共享特征信息，提高预测效果；设计了基于数据场的人群拥堵点和基于相对密度的拥堵等级可视化方法，全方位地展示人群聚集程度和空间分布状况。本发明方法的流程如图1所示，包括如下步骤：

步骤1，获得人群计数结果以及人群密度估计结果；

其中，在卷积神经网络中构建多尺度共享特征提取部分，人群计数部分以及密度估计部分之间的输入均通过多尺度共享特征提取部分获得；

所述多尺度共享特征提取部分包括特征共享层以及多个不同尺度的输入卷积层，所述输入卷积层用于接收无人机图像，输出对应尺度的特征图；特征共享层用于将多个输入卷积层输出的特征图进行连接，并最终通过卷积操作输出特征图至人群计数部分以及密度估计部分；其中，输入卷积层的数目和各自的大小根据无人机拍摄高度的范围确定；

其中，为了更好的适应任意尺寸、任意分辨率的无人机图像，将无人机图像添加标注信息之后用于卷积神经网络训练，卷积层输入无人机图像的图片信息，所述标注信息用于在训练过程中计算损失函数优化模型，所述添加标注信息的步骤如下：

步骤11，数据标注。手工标注输入无人机图像并生成具有标注信息的.mat格式文件。每个文件中存储一个二维数字矩阵，矩阵的大小与图像大小一致，如1024×768像素大小的图像将生成1024×768大小的二维矩阵，对于图像中所有存在人头的中心位置像素(a,b)，将矩阵中对应位置的值设置为1，其他不存在人头的位置的值设置为0。

步骤12，通过高斯函数处理.mat格式文件保存的图像标注矩阵得到概率形式的标注文件。取二维矩阵中标注为1的所有点，假设坐标为(a,b)，对于该点周围15×15大小矩阵内的其他点，将其坐标(x,y)代入以(a,b)点为中心的二维高斯分布函数，得到基于高斯分布的概率值，然后将15×15矩阵内的所有值进行归一化，即除以矩阵内所有值的总和。不同点生成矩阵时可能会有重叠区域，重叠部分将概率值相加，在图像边缘区域则可以适当减小选取的矩阵大小如5×5。处理完之后概率值保存在.csv格式的文件中。使用的二维高斯函数公式如下，其中σ值取4.0：

本发明采用多尺度和多任务学习相结合的深度卷积神经网络的方法进行人群识别。

人群识别算法部分的网络结构图如图2所示，包括三个模块：a模块是多尺度共享特征提取层，b模块是人群计数部分的后段，c模块是密度估计部分的后段。本人群识别算法首先输入数据，之后是基于多尺度先验的特征提取部分，基于多尺度是为应对图像分辨率不同、图像中人头大小不一的场景，分不同尺度提取特征可以提高模型的泛化能力，不同尺度提取的特征会经过一层卷积连接形成共享卷积层。然后网络会处理两个相关的部分：人群计数和相应的密度估计，两个部分是同时进行的，两个部分之间共享前一步的多尺度特征提取层。

多尺度共享特征提取层的输入为无人机图像，输出为共享网络生成的特征图，本发明在该层使用了多尺度的设计，将图像输入多个不同卷积层，经过一定的卷积和池化操作，提取得到不同尺度的特征图，然后将多个特征图进行连接，并最终通过卷积操作提取得到最终的特征共享层。其中，多尺度共享特征提取的网络结构设置可以有多种方式，不同大小的卷积层可以提取不同尺度的特征。

本实施例提供其中的一种多尺度共享特征提取层如图2的a模块所示：包括3个卷积层：具有16个滤波尺寸为9×9的特征映射(图2a模块上层卷积层)，具有16个滤波尺寸为5×5的特征映射(图2a模块下层卷积层)，具有32个滤波尺寸为7×7的特征映射(图2a模块后层卷积层)。将图像分别输入上、下层卷积层，然后将两个卷积层的结果进行连接，输入后层卷积层，作为特征提取的共享层，每层卷积操作后有一个参数化的线性校正单元(PReLU)激活函数。除此之外多尺度共享特征提取的网络结构还可以设置将图像输入3个或3个以上不同尺寸的卷积层中，卷积层大小的设置也可以根据具体需求中拍摄高度做出调整，且可以将图像输入多个连续的多层卷积层提取更高层次的特征，最终经过特征连接和卷积操作形成共享的特征图。由该共享网络生成的特征图由两个环节共同使用：人群计数估计部分以及密度估计部分。

其中，由于卷积层大小越小，提取的特征就越精细，高度越高，人群在整张图像所占的比例就会越小，就需要更小的卷积层去提取特征，当拍摄高度高于80米时，可适当选择更小的输入卷积层，如3×3大小，当高度低于40米时，可选择大于9×9的输入卷积层，也就是说高度越高选择的输入卷积层大小越小。本实施例选择的5×5和9×9大小的输入卷积层，分别对应无人机拍摄高度在40米和80米左右。

人群计数估计与密度估计两阶段联合的损失函数为：

L＝λL_c+L_d

其中，λ表示为正则化因子，L_c是人群计数估计部分的损失函数，L_d是密度估计部分的损失函数。在实验中，设定正则化因子λ约是0.0001，则其对应的学习率为0.00001，并以动量为0.9的优化模型进行训练。

人群计数部分的输入为从共享卷积层获取的特征映射，输出为人群计数结果，该部分包括4个不连续卷积层和全连接阶段。4个不连续卷积层分别有16个9×9的卷积核、32个7×7的卷积核、16个7×7的卷积核、8个7×7的卷积核，每一层后连接着相应的预激活函数PReLU。全连接阶段由三个全连接层(fc)组成，每个层后都有一个PReLU的激活函数，首层包含512个小神经单元，其后为256个小神经单元，最后一层是一个小网络的组合，包含10个神经单元和sigmoid层，表示输入图像的计数类别。此阶段三个全连接层的组合引入了空间金字塔池(Spatial Pyramid Pooling，简称spp)的思想，能够实现对任何尺寸的图像都生成统一的特征向量，从而克服图像尺寸对于模型训练的限制。人群计数估计部分使用的损失函数使用交叉熵的损失函数用于优化参数，人群计数估计部分使用的损失函数定义如下：

其中：L_c是先验阶段的损失函数，N即为训练的数量，Θ是初始化的网络参数，X_i是其中的第i个的训练实例，F_C(X_i，Θ)即为输出类别，yⁱ是真实的分类，M是类别的数量。通过最小化损失函数可以得到最优的网络参数组合，构建最优网络模型，从而得到精确的人群计数结果。

密度估计部分的输入为从共享卷积层获取的特征映射，输出为人群密度估计结果即概率密度图，该部分包括4个不连续卷积层、2个连续卷积层和2个反卷积层。4个不连续卷积层分别有20个7×7的卷积核、40个5×5的卷积核、20个5×5的卷积核、10个5×5的卷积核，每一层后连接着相应的预激活函数PReLU。为了提高其泛化能力、提取出有效特征，对卷积核的大小和步长都设置了不同大小，并在两个卷积操作之后都设置了池化层，将网络输出缩小，降低为原本尺寸的1/4大小。2个连续卷积层的输入存在信息的交互，即将人群计数估计部分的特征向量和密度估计解读的特征向量联合，作为一个统一的向量输入，其后经过24个3×3的卷积核进行特征提取，得到24个特征图，再经过32个3×3的卷积核，得到的32个特征向量。最后使用两个特征数分别为16和18的反卷积层，将图像尺寸扩充到原本图像的标准。在这一环节中密度估计部分损失函数选择像素级的欧式距离计算损失用于优化参数，从而构建最优化网络模型。密度估计部分损失函数定义如下：

L_d是密度估计部分的损失函数，N为训练实例的数量，F_d是预测的密度图，，X_i是其中的第i个的训练实例，C_i是先验阶段最末尾的卷积层获取的特征图，Θ是初始化的网络参数，D_i是真实的密度图值。

步骤2，将人群密度估计结果记为密度概率矩阵；

步骤3，基于密度概率矩阵，采用基于数据场拥堵点的可视化方法或基于视场系数的密度可视化方法对人群聚集程度与分布进行可视化；

上述两种可视化方法可以单独采用或同时进行，同时采用两种可视化方法能够实现全面的可视化，效果互补。

其中，通过将数据场和拥堵分析结合，通过引入数据场局部拥堵点识别，将拥堵分析的问题简化为聚集中心的定位，基于数据场拥堵点可视化方法中，将密度估计输出的密度概率矩阵上数值不为0的点视为带有该值权重的单个人，然后选择拟核力场的势函数：

其中，x，y为对应点的坐标，m为超参数，k表示距离指数。首先，提取密度概率矩阵图上的每个非0点的坐标和密度值。然后，利用拟核力场势函数对每个点计算该点受其它所有点(或者一定范围内的点)影响的势能值之和。最后，预设一个势能值阈值，将超过该阈值的点设置为拥堵点。

为避免实际应用场景中无人机飞行高度对人群数量和聚集状态估计的影响，最终的评估方法兼顾了识别的人群数量和视场系数，进行综合考虑后得到人群密度图，对每个人群密度图实现不同人群密度分布的可视化。基于视场系数的密度可视化方法中，将密度估计得到的概率密度图中概率最大的值作为视场系数，视场系数计算公式如下：

k＝max{x₁,x₂,x₃,……,x_n}

其中x₁,x₂,x₃,……,x_n表示概率密度图中不同点的概率值。

将原始概率与视场系数的比值作为相对密度，相对密度计算公式如下：

其中x₁,x₂,x₃,……,x_n表示概率密度图中不同点的概率值。

基于相对密度生成人群密度图，通过人群密度图可准确标记出人群聚集的区域，根据相对密度划分人群拥堵等级，进而避免飞行高度、图像大小对聚集程度的影响，避免了不同大小、场景的差异对人群密度可视化效果的影响。

其中基于相对密度的密度图人群拥堵等级划分如表1所示。

表1人群拥堵等级划分表

密度值	<＝0.38	(0.38,0.627]	(0.627,0.88]	>0.88
					图像颜色	接近图像底色	深蓝色	黄色	红色
颜色值	[0,0,127]	[0,0,255]	[255,255,0]	[127,0,0]
					密度等级	边缘区域	低密度	中密度	高密度
安全等级	安全	较为安全	警戒	危险

进一步地，可以将人群密集程度通过红、黄、蓝三种色系直观展示，得到最终密度图，可以很好地应用于多种场景。具体地，对于基于数据场的方法，为了突出拥堵点信息，可以保留图像的背景，将拥堵点的位置和颜色对应起来。设定一个初始半径，以密度概率矩阵图的每个非0点作为圆心设定密度的梯度，若有不同的圆区域叠加，则将该区域的密度也进行叠加，最终得到人群密度图。密度图的色盘生成选用了HSL空间颜色，HSL色彩空间包含三种颜色的通道：一为Hue，代表色相；二为Saturation，代表饱和度；三为Lightness，代表亮度。在密度图的色盘生成上，只需将H的取值范围定为0～240之间，将S设为固定大小1.0，将L的值定为0.5。在图像上画圆即在人群图像上画圆形密度区域实际上是在一个个像素点上画圆，只能用一些离散的点来近似地表示圆，因此需要使用Bresenham画圆算法。为简化操作，仅考虑(x，y)的坐标处于圆心的点，在其周围计算八分点。这些关键点都位于圆周上。至于剩下的一些特殊点，通过对称方法简化计算环节。依据人群密度估计矩阵图的数据生成无背景的人群密度图，将密度图透明化并覆盖到原图上，得到有背景的人群拥堵可视化图像。

基于数据场拥堵点与基于视场系数的密度可视化举例：

1、选取一张无人机拍摄的俯视图像数据，对其进行人群聚集密度分析得到人群计数的精确结果及人群密度估计结果即概率密度图。因为人群密度分析识别算法设计为多尺度先验和多任务学习的深度卷积神经网络算法，所以其对图像大小和无人机飞行高度没有限制，是一种通用的人群密度识别算法。将得到的概率密度图，通过数据场算法计算拥堵点，并通过色盘得到热力图与原图像融合可视化人群聚集状态，突出显示人群聚集拥堵点，同时可以通过基于视场系数的相对密度方法得到相对密度图，如表2所示，可视化整体的人群密度分布情况。

表2为基于视场系数的相对密度方法得到相对密度图

图3为选取的一张无人机拍摄的人群聚集图像；图4为概率密度图通过基于数据场算法计算得到的图像拥堵点信息；图5为将图4的拥堵点信息图调整透明度为50％，覆盖在图3所示的原图之上得到的人群聚集拥堵点可视化图；图6为概率密度图通过基于视场系数的相对密度方法计算得到的整体人群密度分布情况图。

由此可见，通过数据场计算拥堵点。引入数据场的概念计算拥堵点，为计算拥堵范围提供了新的思路，经过此方法，得到的密度图，调整透明度以后，浮于原图之上，这种方式极大的提高了可视化的展示效果，可以快速定位到人群拥堵位置；通过基于视场系数的相对密度可视化方法避免了不同大小、场景的差异对人群密度可视化效果的影响，提高了对整体人群聚集状态的可视化效果。两种可视化方法结合使用可同时实现对人群聚集局部拥堵点信息及图像整体人群聚集状态的可视化分析，分析的结果更加全面。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于无人机图像的人群聚集密度分析方法，采用卷积神经网络对无人机图像进行人群识别提取，包括人群计数部分以及密度估计部分，其中人群计数部分输出为人群计数结果，密度估计部分输出为人群密度估计结果，其特征在于，在卷积神经网络中构建多尺度共享特征提取部分，所述多尺度共享特征提取部分包括特征共享层以及多个不同尺度的输入卷积层，所述输入卷积层用于接收无人机图像，输出对应尺度的特征图；特征共享层用于将多个输入卷积层输出的特征图进行连接，并最终通过卷积操作输出特征图至人群计数部分以及密度估计部分；其中，输入卷积层的数目和各自的大小根据无人机拍摄高度的范围确定；

2.如权利要求1所述的基于无人机图像的人群聚集密度分析方法，其特征在于，当拍摄高度高于80米时，输入卷积层尺寸小于3×3；当高度低于40米时，输入卷积层尺寸大于9×9。

3.如权利要求1所述的基于无人机图像的人群聚集密度分析方法，其特征在于，基于数据场拥堵点的可视化过程中，在拥堵点的基础上通过中心画圆方法，对应HSL色盘得到热力图，将热力图羽化，浮于原图之上，得到对应的密度图。

4.如权利要求1所述的基于无人机图像的人群聚集密度分析方法，其特征在于，将无人机图像添加标注信息之后用于卷积神经网络训练，卷积层输入无人机图像的图片信息，所述标注信息用于在训练过程中计算损失函数优化模型，所述添加标注信息的步骤如下：

步骤11，数据标注：

5.如权利要求1所述的基于无人机图像的人群聚集密度分析方法，其特征在于，所述人群计数部分包括4个不连续卷积层和全连接阶段；4个不连续卷积层分别有16个9×9的卷积核、32个7×7的卷积核、16个7×7的卷积核和8个7×7的卷积核，每一不连续卷积层后连接着相应的预激活函数PReLU；全连接阶段由三个全连接层组成，每个全连接层后都有一个PReLU的激活函数，首层包含512个小神经单元，其后为256个小神经单元，最后一层是一个网络组合层，包含10个神经单元和sigmoid层，表示输入图像的计数类别；

6.如权利要求1所述的基于无人机图像的人群聚集密度分析方法，其特征在于，所述密度估计部分包括4个不连续卷积层、2个连续卷积层和2个反卷积层；4个不连续卷积层分别有20个7×7的卷积核、40个5×5的卷积核、20个5×5的卷积核和10个5×5的卷积核，每一不连续卷积层后连接着相应的预激活函数PReLU；对卷积核的大小和步长均设置不同大小，并在两个卷积操作之后设置池化层，将网络输出缩小，降低为原本尺寸的1/4大小；