CN114005085A

CN114005085A - 一种视频中密集人群分布检测与计数方法

Info

Publication number: CN114005085A
Application number: CN202111259984.1A
Authority: CN
Inventors: 肖进胜; 姚韵涛; 眭海刚; 郭浩文; 王中元; 张舒豪; 周剑
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-01

Abstract

本发明提出了一种视频中密集人群分布检测与计数方法。首先获取大量含不同密度人群的视频构建数据集；然后构建多尺度特征融合和注意力机制的深度神经网络，将训练集输入至网络，输出对应的人群密度图和注意力图的预测结果，结合真实密度图和注意力图构建损失函数模型进行训练，生成优化后的网络；通过优化后的多尺度特征融合和注意力机制的深度神经网络预测得到人群视频图像的密度图，进一步用基于网格的分层次密度空间聚类方法对估计密度图进行点聚类来识别组群，快速得到组群的人数和位置信息。本发明能解决摄像机透视失真、尺度变化和背景噪声影响的问题，提高了计数精度和稳定性；同时，对人群进行组群划分，可以直观显示出人群的分布情况。

Description

一种视频中密集人群分布检测与计数方法

技术领域

本发明涉及智能视频监控邻域中的人群检测方法，特别涉及一种视频中密集人群分布检测与计数方法。

背景技术

随着公共安全、交通场景等领域对安全防范的需求与日俱增，智能视频监控逐渐取代了传统视频监控。人群分布检测与计数是智能视频监控邻域的一个研究热点，有着重要的社会意义和市场应用前景。例如，在人群容易聚集的公共场所，人群信息可用于对踩踏等安全问题进行预警，人群分布信息能帮助合理分配人力、物力资源，从而减少事故伤亡甚至避免事故发生；对于城市公共交通系统，可以根据乘客数量灵活增减车次、制定合理的车辆时刻表，既能避免站台和乘车拥挤、等车时间长又能保证车辆利用率；对于大型商场，可以根据客流量在不同商店中的分布对商店数量、类型和位置进行调整，制定更好的营销策略，提高经济效益。

目前人群计数的方法主要可以分为三类：基于检测的方法、基于回归的方法和基于密度图估计的方法。基于检测的方法在图像上使用基于滑动窗口的人或头部检测器，用低级描述符从头部或身体提取手工特征，通过检测个体直接估计人数。但是，在遮挡严重的拥挤场景中这类方法表现不佳。为了克服遮挡问题，一些工作引入了基于回归的方法。这些方法将人群视为一个整体，直接学习图像特征和图像人数之间的映射关系。基于特征的回归方法通常首先对图像进行前景分割，使人群与背景分离开，然后提取全局特征或者局部特征，最后使用回归模型来学习人群计数的映射函数。这些方法具有高密度人群计数的能力，但忽略了空间信息。基于密度图估计的方法通过学习人群特征和相应密度之间的映射，生成人群密度图，密度图的积分即为人数。与直接输出人数相比，人群密度图能显示人群的分布特征，有助于获得更准确、更全面的信息。

实现准确的人群计数有两个难点：(1)摄像机透视失真。到拍摄设备距离不同的行人大小不同，一幅图像内行人尺度变化明显；(2)场景中背景复杂。人群场景中通常有建筑物、树木等背景噪声。

发明内容

为了解决上述技术所存在的问题，本发明提出了一种视频中密集人群分布检测与计数方法。

本发明提供的技术方案是一种视频中密集人群分布检测与计数方法，其特征在于，包括以下步骤

步骤1：获取大量含不同密度人群的视频构建数据集；

步骤2：构建多尺度特征融合和注意力机制的深度神经网络，将步骤1.1中构建的训练样本集依次输入至多尺度特征融合和注意力机制的深度神经网络，输出训练样本集对应的人群密度图和注意力图的预测结果，进一步结合步骤1.2中训练样本集对应的真实密度图和步骤1.3中训练样本集对应的真实注意力图构建损失函数模型，利用损失函数模型进行训练，直至损失函数模型的损失减小到一定程度且训练达到迭代最大次数，生成优化后多尺度特征融合和注意力机制的深度神经网络；

步骤3：对于人群视频图像，通过步骤2中优化后的多尺度特征融合和注意力机制的深度神经网络预测得到人群密度图，进一步用基于网格的分层次密度空间聚类方法对输出的估计人群密度图进行点聚类来识别组群，快速得到组群的人数和位置信息。

作为优选，步骤1所述获取大量含不同密度人群的视频构建数据集的具体实现方式如下：

步骤1.1：标注人群图像；

视频切割成K帧图像，在第k帧图像中，记第i个人头的中心点像素坐标为(x_k,i,y_k,i)，在第k帧图像中将(x_k,i,y_k,i)处的像素值标注为1，用脉冲函数δ(x_k-x_k,i)表示，k∈[1,K]，i∈[1,N_k]，K表示视频中图像的帧数，N_k表示第k帧图像中人的数量,x_k表示第k帧图像中的像素点，x_k,i第k帧图像中第i个人头的中心点像素坐标的X轴坐标，y_k,i第k帧图像中第i个人头的中心点像素坐标的Y轴坐标；

第k帧图像中除(x_k,i,y_k,i)外其余像素坐标上的像素值标注为0；

在标注后的K帧图像中随机挑选2K/3帧图像作为训练样本集，剩余K/3帧图像作为测试样本集；

步骤1.2：将带标签的人群图像转换为人群密度图；

将带标签的人群图像与几何自适应高斯核进行卷积，生成人群密度图

作为真实密度图；

其中，

是第k帧图像对应的高斯核的方差，

是第k帧图像中人头中心点x_k,i与其最邻近的m个人头中心点之间的距离的均值，

表示第k帧图像中点x_k,i与其最邻近的第j个点之间的距离；

步骤1.3：将步骤1.2生成的真实密度图F(x_k)中像素值小于像素阈值的点的像素值置0，其余点的像素值置1，生成真实注意力图；

作为优选，步骤2所述多尺度特征融合和注意力机制的深度神经网络由多尺度特征图提取器、多尺度特征融合模块、注意力模块依次串联级联构成；

所述多尺度特征图提取器，用于从人群图像中提取出深层的、大尺度的特征图和浅层的、小尺度的特征图，作为所述多尺度特征融合模块的输入；

所述多尺度特征融合模块，用于融合深层的、大尺度的特征图和浅层的、小尺度的特征图，并生成一幅包含多尺度特征信息和多层次语义信息的特征图F；

所述注意力模块，用于区分特征图F中的人群区域与背景区域，生成一幅注意力图M_att，用注意力图M_att优化特征图F，得到由注意力约束的特征图F_refine；

最后由特征图F_refine回归高分辨率、高质量的密度图F_final；

所述多尺度特征图提取器具体构建方法为：

使用VGG16_bn的前13层卷积结构以及4层池化层组成；

所述多尺度特征图提取器由第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层依次串联级联构成；

所述第一组卷积层由两个卷积核大小为3×3、卷积核个数为64的卷积层串联组成；

所述第二组卷积层由两个卷积核大小为3×3、卷积核个数为128的卷积层串联组成；

所述第三组卷积层由三个卷积核大小为3×3、卷积核个数为256的卷积层串联组成；

所述第四组卷积层、第五组卷积层均由三个卷积核大小为3×3、卷积核个数为512的卷积层串联组成；

所述多尺度特征图提取器具体的网络结构是：

C(64,3)×2-P-C(128,3)×2-P-C(256,3)×3-P-C(512,3)×3-P-C(512,3)×3

其中，C(n,3)表示卷积核大小为3×3、卷积核个数为n的卷积层，P表示窗口大小为2×2的最大池化层。将多尺度特征图提取器在每次池化操作前划分为1个阶段，共划分为5个阶段：Conv1_2、Conv2_2、Conv3_3、Conv4_3和Conv5_3，每个阶段分别获得大小为1、1/2、1/4、1/8、1/16的特征图；Conv2_2-Conv5_3这四个阶段的输出特征图输入多尺度特征融合模块的对应阶段；

所述多尺度特征融合模块，具体构建方法为：

所述多尺度特征融合模块由第一上采样层、第一组卷积层、第二上采样层、第二组卷积层、第三上采样层、第三组卷积层依次串联级联构成，具体的网络结构是：

U-C(256,1)-C(256,3)-U-C(128,1)-C(128,3)-U-C(64,1)-C(64,3)-C(32,3)

其中，C(n,m)表示卷积核大小为m×m、卷积核个数为n的卷积层，U代表采样率为2的双线性上采样层。该模块在每次上采样操作前划分为1个阶段，共划分为3个阶段。在每个阶段，输入特征图经过上采样后与多尺度特征图提取器对应阶段输出的低层特征图在通道维度上连接，然后通过卷积层组，接着输入下一阶段。模块顶层输出一幅包含多尺度特征信息和多层次语义信息的特征图F，输入注意力模块；

所述注意力模块具体构建方法为:

所述注意力模块生成一幅注意力图M_att，公式为：

M_att＝Sigmoid(W⊙F+b)

其中，W是1×1×1卷积层的权重矩阵，b是1×1×1卷积层的偏置，⊙表示对应元素相乘，Sigmoid表示sigmoid激活函数；

用注意力图M_att优化特征图F，公式为：

其中，

表示两个矩阵对应元素相乘；

将由注意力约束的特征图F_refine通过一个1×1×1的卷积层生成高质量、高分辨率的人群密度图F_final；

步骤2所述构建损失函数模型为：

对于人群密度图的生成，使用欧氏距离监督网络输出的估计密度图和步骤1.2中生成的对应的真实密度图之间的差异，密度图损失函数表示为：

其中D和D分别表示步骤1.2生成的真实密度图集合和网络输出的估计密度图集合，D_i是第i张估计密度图的所有像素的值，D_i是第i张真实密度图的所有像素的值，N是训练集的图像数量。

对于注意力图的生成，使用二分类交叉熵监督注意力模块生成的估计注意力图和步骤1.3中生成的对应的真实注意力图之间的差异，注意力图损失函数表示为：

其中M和M分别表示步骤1.3生成的真实注意力图集合和注意力模块生成的估计注意力图集合，M_i是第i张真实注意力图中所有像素的值，M_i是第i张估计注意力图中所有像素的值，N是训练集的图像数量。

网络的总损失函数为：L＝L(D,D)+λL(M,M)

步骤2中所述生成多尺度特征融合和注意力机制的深度神经网络的具体实现方式如下：

步骤2.1：将步骤1构建的训练样本集依次进行统一短边长度并随机缩放处理、随机裁剪图像块处理、随机水平翻转处理、gamma对比变换操作。对于有灰度图像的数据集，还要将彩色图像随机变化成灰度图；

步骤2.2：设置网络初始权重参数和训练参数，包括训练样本输入批量、优化算法、学习率、动量、迭代周期；

步骤2.4：对步骤2的多尺度特征融合和注意力机制的深度神经网络进行训练；

在每个迭代周期内，将步骤2.1中处理后的训练样本集输入到多尺度特征融合和注意力机制的深度神经网络中，计算步骤2中所述的损失函数L，更新网络的权重参数，直至完成所有迭代周期后训练结束；当损失函数L的值随着迭代周期的增加呈减小趋势时说明训练有效；

作为优选，步骤3中聚类方法的具体实现方式如下：

步骤3.1：对第k帧图像，其人群密度图二维空间为Ω_k，将像素值不为0的点的集合表示为样本集X_k＝{x_k，1，x_k，2，…，x_k，n}，其中x_k，i是二维向量，失函数模型x_k，i＝{x_k，i1，x_k，i2}。设置参数s，将Ω_k在每个维度上划分为s个区间，从而把Ω_k划分为s²个不相交的矩形单元{u_k，11，...，u_k，1s，...，u_k，ss}。

步骤3.2：对第k帧图像，遍历其样本集X_k，将每个单元格中的样本作为一类，得到每个单元格包含的样本集合{c_k，11，c_k，12…，c_k，ss}，计算每个单元格的密度。

步骤3.3：设置密度阈值τ，将单元密度大于阈值的网格标记为稠密，得到稠密网格集合U_k＝{u_k，1，...，u_k，2，...，u_k，n}；设置类集合

步骤3.4：从U_k＝{u_k，1，...，u_k，2，...，u_k，n}中任选一个网格u_k，i开始，初始化一个集合C_k，j为u_k，i对应的样本集合c_k，pq，即C_k，j＝c_k，pq。

步骤3.5：对与u_k，i相邻的稠密网格进行广度优先遍历，将遍历到的网格标记为“已访问”，并将其对应的样本集合加入到集合C_k，j中；广度遍历结束后将集合C_k，j加入到类集合C_k中。

步骤3.6：若U_k中还有元素未访问，转到步骤3.4，否则进行下一步。

步骤3.7：对于集合C_k，j中的样本点p_k，i，将其与第l个最近邻样本点的距离称为核心距离，表示为：

core_l(p_k，i)＝d(x，N^l(p_k，i))

两个样本点p_k，i和p_k，_j之间的互达距离表示为：

d_mreach-l(p_k，i，p_k，j)＝max{core_l(p_k，i)，core_l(p_k，j)，d(p_k，i，p_k，j)}

d(·)表示两个样本点之间的直线距离。

步骤3.8：用互达距离表示两个样本点之间的距离，通过Prim算法构建一个最小生成树。

步骤3.9：构建聚类层次结构。将树中的所有边按照升序排列，然后依次选取每条边，将边链接的两个子图进行合并，生成聚类树。

步骤3.10：确定聚类最小簇大小。步骤3.5得到的某个集合C_k，j中包含m个网格，每个网格样本点数的集合记为N_k＝{n_k，1，n_k，2，…，n_k，m}，网格中人群密度图积分为D_k＝{d_k，1，d_k，2，...，d_k，m}，则对于网格i，其密度记为

假设最少K人为一个组群，则对于网格i，最小组群包含的样本点个数应为

取人群密度最小的网格的最小组群样本点个数作为聚类最小簇大小B_k，表示为：

步骤3.11：压缩聚类树。自上而下遍历聚类树，在每个节点分裂时，比较左右两个子节点样本数与最小簇样本数的大小关系。如果两个子节点中有一个的样本数少于最小簇样本数，直接删除该子节点，并且用另一个子节点保留父节点的身份；如果两个子节点中的样本数都小于最小簇样本数，则将两个子节点都删除，即当前节点不再向下分裂；如果两个子节点中的样本数都大于最小簇样本数，则进行正常分裂，即保持原聚类树不变。

步骤3.12：提取簇。对于树中的每个节点，定义两个变量：λ_birth代表分裂产生当前节点时断开边的长度的倒数，λ_death代表当前节点分裂成两个子节点时断开边的长度的倒数；对每个节点中的每个样本点a_k，i，定义

为样本点a_k，i因分裂离开该节点时断开边的长度的倒数，则节点的稳定性表示为：

将聚类树的每个叶节点都选定为某个簇，自下而上遍历整棵树，并比较当前节点稳定性和其两个子节点稳定性和的大小。如果当前节点的稳定性小于其两个子节点稳定性和，则将两个子节点的稳定性之和设置为当前节点的稳定性；反之，将当前节点定为某个簇，并删除所有子节点。

步骤3.13：根据聚类结果划分组群，对每一个组群内的密度图进行积分得到该组群的人数，根据密度图聚类的位置在原图上框出组群位置。

与现有技术相比，本发明的优点和有益效果：

本发明能适应图像中行人尺寸变化，消除摄像机透视失真的影响，提高了计数精度和计数稳定性。

本发明能有效抑制人群图像中背景噪声的影响，减少错误识别，提高计数精度和密度图质量。

本发明对人群进行组群的划分，可以直观的显示出人群的分布情况。

附图说明

图1：是本发明实施例的整体流程图；

图2：是本发明实施例中，人群计数方法的流程示意图；

图3：是本发明实施例的检测结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的流程示意图如图1所示，一种视频中密集人群分布检测与计数方法，其特征在于，包括以下步骤

步骤1：获取大量含不同密度人群的视频构建数据集；

步骤1所述获取大量含不同密度人群的视频构建数据集的具体实现方式如下：

步骤1.1：标注人群图像；

视频切割成K＝100帧图像，在第k帧图像中，记第i个人头的中心点像素坐标为(x_k,i,y_k,i)，在第k帧图像中将(x_k,i,y_k,i)处的像素值标注为1，用脉冲函数δ(x_k-x_k,i)表示，k∈[1,K]，i∈[1,N_k]，K表示视频中图像的帧数，N_k表示第k帧图像中人的数量,x_k表示第k帧图像中的像素点，x_k,i第k帧图像中第i个人头的中心点像素坐标的X轴坐标，y_k,i第k帧图像中第i个人头的中心点像素坐标的Y轴坐标；

步骤1.2：将带标签的人群图像转换为人群密度图；

作为真实密度图；

其中，

是第k帧图像对应的高斯核的方差，β＝0.3；

是第k帧图像中人头中心点x_k,i与其最邻近的m＝3个人头中心点之间的距离的均值，

表示第k帧图像中点x_k,i与其最邻近的第j个点之间的距离；

步骤2：构建多尺度特征融合和注意力机制的深度神经网络，将步骤1.1中构建的训练样本集依次输入至多尺度特征融合和注意力机制的深度神经网络，输出训练样本集对应的人群密度图和注意力图的预测结果，进一步结合步骤1.2中训练样本集对应的真实密度图和步骤1.3中训练样本集对应的真实注意力图构建损失函数模型，利用损失函数模型进行训练，直至损失函数模型的损失减小到一定程度且训练达到迭代最大次数，生成优化后多尺度特征融合和注意力机制的深度神经网络；上述流程如图2所示。

步骤2所述多尺度特征融合和注意力机制的深度神经网络由多尺度特征图提取器、多尺度特征融合模块、注意力模块依次串联级联构成；

最后由特征图F_refine回归高分辨率、高质量的密度图F_final；

所述多尺度特征图提取器具体构建方法为：

使用VGG16_bn的前13层卷积结构以及4层池化层组成；

所述多尺度特征图提取器具体的网络结构是：

C(64,3)×2-P-C(128,3)×2-P-C(256,3)×3-P-C(512,3)×3-P-C(512,3)×3

所述多尺度特征融合模块，具体构建方法为：

U-C(256,1)-C(256,3)-U-C(128,1)-C(128,3)-U-C(64,1)-C(64,3)-C(32,3)

所述注意力模块具体构建方法为:

所述注意力模块生成一幅注意力图M_att，公式为：

M_att＝Sigmoid(W⊙F+b)

用注意力图M_att优化特征图F，公式为：

其中，

表示两个矩阵对应元素相乘；

步骤2所述构建损失函数模型为：

网络的总损失函数为：L＝L(D,D)+λL(M,M)

步骤2.2：设置网络初始权重参数和训练参数，包括训练样本输入批量、优化算法、学习率、动量、迭代周期；多尺度特征图提取器由在ImageNet数据集上预训练的VGG-16_bn网络的参数初始化，其他参数由均值为0、标准差为0.01的高斯分布随机初始化；训练数据的输入批量大小为8；采用Adam优化算法，学习率设置为1e-5，动量momentum设置为5e-3，迭代次数为500。

在每个迭代周期完成后需要验证当前网络的性能：将步骤1.1中构建的测试样本集上输入当前网络，得到测试集中图像的人数估计，评估网络性能，并保存当前性能最好的网络模型。在一次训练中，所有迭代周期中性能最好的一个模型即为本次训练的最优多尺度特征融合和注意力机制的深度神经网络。若一次训练结束后，网络性能较差，则调整步骤3.2中的训练参数，重复步骤3.4，重新训练，直至达到理想的性能。

前述的模型性能评估使用两个评价指标：平均绝对误差MAE和均方根误差RMSE，分别评估模型的计数准确性和计数稳定性，两个评价指标的定义如下：

其中，

表示测试集第i幅图像中模型估计的人数，由模型输出的密度图积分得到，

表示测试集第i幅图像中的真实人数，N是测试集的图像数量。

进一步的，步骤3中聚类方法的具体实现方式如下：

步骤3.1：对第k帧图像，其人群密度图二维空间为Ω_k，将像素值不为0的点的集合表示为样本集X_k＝{x_k，1，x_k，2，...，x_k，n}，其中x_k，i是二维向量，失函数模型x_k，i＝{x_k，i1，x_k，i2}。设置参数s，将Ω_k在每个维度上划分为s个区间，从而把Ω_k划分为s²个不相交的矩形单元{u_k，11，...，u_j，1s，…，u_k，ss}。

core_l(p_k，i)＝d(x，N^l(p_k，i))

两个样本点p_k，i和p_k，j之间的互达距离表示为：

d(·)表示两个样本点之间的直线距离。

步骤3.10：确定聚类最小簇大小。步骤3.5得到的某个集合C_k，j中包含m个网格，每个网格样本点数的集合记为N_k＝{n_k，1，n_k，2，...，n_k，m}，网格中人群密度图积分为D_k＝{d_k，1，d_k，2，...，d_k，m}，则对于网格i，其密度记为

步骤3.13：根据聚类结果划分组群，对每一个组群内的密度图进行积分得到该组群的人数，根据密度图聚类的位置在原图上框出组群位置。人群密度估计与组群识别结果如图3所示。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种视频中密集人群分布检测与计数方法，其特征在于，包括以下步骤

步骤1：获取大量含不同密度人群的视频构建数据集；

2.根据权利要求1所述的视频中密集人群分布检测与计数方法，其特征在于，步骤1所述获取大量含不同密度人群的视频构建数据集的具体实现方式如下：

步骤1.1：标注人群图像；

视频切割成K帧图像，在第k帧图像中，记第i个人头的中心点像素坐标为(x_k，i，y_k，i)，在第k帧图像中将(x_k，i，y_k，i)处的像素值标注为1，用脉冲函数δ(x_k-x_k，i)表示，k∈[1，K]，i∈[1，N_k]，K表示视频中图像的帧数，N_k表示第k帧图像中人的数量，x_k表示第k帧图像中的像素点，x_k，i第k帧图像中第i个人头的中心点像素坐标的X轴坐标，y_k，i第k帧图像中第i个人头的中心点像素坐标的Y轴坐标；

第k帧图像中除(x_k，i，y_k，i)外其余像素坐标上的像素值标注为0；

步骤1.2：将带标签的人群图像转换为人群密度图；

作为真实密度图；

其中，

是第k帧图像对应的高斯核的方差，

是第k帧图像中人头中心点x_k，i与其最邻近的m个人头中心点之间的距离的均值，

表示第k帧图像中点x_k，i与其最邻近的第j个点之间的距离；

步骤1.3：将步骤1.2生成的真实密度图F(x_k)中像素值小于像素阈值的点的像素值置0，其余点的像素值置1，生成真实注意力图。

3.根据权利要求1所述的视频中密集人群分布检测与计数方法，其特征在于，步骤2所述多尺度特征融合和注意力机制的深度神经网络由多尺度特征图提取器、多尺度特征融合模块、注意力模块依次串联级联构成；

最后由特征图F_refine回归高分辨率、高质量的密度图F_final；

所述多尺度特征图提取器具体构建方法为：

使用VGG16_bn的前13层卷积结构以及4层池化层组成；

所述多尺度特征图提取器具体的网络结构是：

C(64，3)×2-P-C(128，3)×2-P-C(256，3)×3-P-C(512，3)×3-P-C(512，3)×3

其中，C(n，3)表示卷积核大小为3×3、卷积核个数为n的卷积层，P表示窗口大小为2×2的最大池化层；将多尺度特征图提取器在每次池化操作前划分为1个阶段，共划分为5个阶段：Conv1_2、Conv2_2、Conv3_3、Conv4_3和Conv5_3，每个阶段分别获得大小为1、1/2、1/4、1/8、1/16的特征图；Conv2_2-Conv5_3这四个阶段的输出特征图输入多尺度特征融合模块的对应阶段；

所述多尺度特征融合模块，具体构建方法为：

U-C(256，1)-C(256，3)-U-C(128，1)-C(128，3)-U-C(64，1)-C(64，3)-C(32，3)

其中，C(n，m)表示卷积核大小为m×m、卷积核个数为n的卷积层，U代表采样率为2的双线性上采样层；该模块在每次上采样操作前划分为1个阶段，共划分为3个阶段；在每个阶段，输入特征图经过上采样后与多尺度特征图提取器对应阶段输出的低层特征图在通道维度上连接，然后通过卷积层组，接着输入下一阶段；模块顶层输出一幅包含多尺度特征信息和多层次语义信息的特征图F，输入注意力模块；

所述注意力模块具体构建方法为：

所述注意力模块生成一幅注意力图M_att，公式为：

M_att＝Sigmoid(W⊙F+b)

用注意力图M_att优化特征图F，公式为：

其中，

表示两个矩阵对应元素相乘；

步骤2所述构建损失函数模型为：

其中D和D分别表示步骤1.2生成的真实密度图集合和网络输出的估计密度图集合，D_i是第i张估计密度图的所有像素的值，D_i是第i张真实密度图的所有像素的值，N是训练集的图像数量；

其中M和M分别表示步骤1.3生成的真实注意力图集合和注意力模块生成的估计注意力图集合，M_i是第i张真实注意力图中所有像素的值，M_i是第i张估计注意力图中所有像素的值，N是训练集的图像数量；

网络的总损失函数为：L＝L(D，D)+λL(M，M)

步骤2.1：将步骤1构建的训练样本集依次进行统一短边长度并随机缩放处理、随机裁剪图像块处理、随机水平翻转处理、gamma对比变换操作；对于有灰度图像的数据集，还要将彩色图像随机变化成灰度图；

在每个迭代周期内，将步骤2.1中处理后的训练样本集输入到多尺度特征融合和注意力机制的深度神经网络中，计算步骤2中所述的损失函数L，更新网络的权重参数，直至完成所有迭代周期后训练结束；当损失函数L的值随着迭代周期的增加呈减小趋势时说明训练有效。

4.根据权利要求1所述的视频中密集人群分布检测与计数方法，其特征在于，步骤3中聚类方法的具体实现方式如下：

步骤3.1：对第k帧图像，其人群密度图二维空间为Ω_k，将像素值不为0的点的集合表示为样本集X_k＝{x_k，1，x_k，2，…，x_k，n}，其中x_k，i是二维向量，失函数模型x_k，i＝{x_k，i1，x_k，i2}；设置参数s，将Ω_k在每个维度上划分为s个区间，从而把Ω_k划分为s²个不相交的矩形单元{u_k，11，...，u_k，1s，...，u_k，ss}；

步骤3.2：对第k帧图像，遍历其样本集X_k，将每个单元格中的样本作为一类，得到每个单元格包含的样本集合{c_k，11，c_k，12…，c_k，ss}，计算每个单元格的密度；

步骤3.4：从U_k＝{u_k，1，...，u_k，2，...，u_k，n}中任选一个网格u_k，i开始，初始化一个集合C_k，j为u_k，i对应的样本集合c_k，pq，即C_k，j＝c_k，pq；

步骤3.5：对与u_k，i相邻的稠密网格进行广度优先遍历，将遍历到的网格标记为“已访问”，并将其对应的样本集合加入到集合C_k，j中；广度遍历结束后将集合C_k，j加入到类集合C_k中；

步骤3.6：若U_k中还有元素未访问，转到步骤3.4，否则进行下一步；

core_l(p_k，i)＝d(x，N^l(p_k，i))

两个样本点p_k，i和p_k，j之间的互达距离表示为：

d(·)表示两个样本点之间的直线距离；

步骤3.8：用互达距离表示两个样本点之间的距离，通过Prim算法构建一个最小生成树；

步骤3.9：构建聚类层次结构；将树中的所有边按照升序排列，然后依次选取每条边，将边链接的两个子图进行合并，生成聚类树；

步骤3.10：确定聚类最小簇大小；步骤3.5得到的某个集合C_k，j中包含m个网格，每个网格样本点数的集合记为N_k＝{n_k，1，n_k，2，...，n_k，m}，网格中人群密度图积分为D_k＝{d_k，1，d_k，2，...，d_k，m}，则对于网格i，其密度记为

步骤3.11：压缩聚类树；自上而下遍历聚类树，在每个节点分裂时，比较左右两个子节点样本数与最小簇样本数的大小关系；如果两个子节点中有一个的样本数少于最小簇样本数，直接删除该子节点，并且用另一个子节点保留父节点的身份；如果两个子节点中的样本数都小于最小簇样本数，则将两个子节点都删除，即当前节点不再向下分裂；如果两个子节点中的样本数都大于最小簇样本数，则进行正常分裂，即保持原聚类树不变；

步骤3.12：提取簇；对于树中的每个节点，定义两个变量：λ_birth代表分裂产生当前节点时断开边的长度的倒数，λ_death代表当前节点分裂成两个子节点时断开边的长度的倒数；对每个节点中的每个样本点a_k，i，定义

将聚类树的每个叶节点都选定为某个簇，自下而上遍历整棵树，并比较当前节点稳定性和其两个子节点稳定性和的大小；如果当前节点的稳定性小于其两个子节点稳定性和，则将两个子节点的稳定性之和设置为当前节点的稳定性；反之，将当前节点定为某个簇，并删除所有子节点；