CN110991252A

CN110991252A - 一种不均衡场景中人群分布与计数的检测方法

Info

Publication number: CN110991252A
Application number: CN201911084086.XA
Authority: CN
Inventors: 姜晓恒; 徐明亮; 张力; 吕培; 朱睿杰; 李亚飞; 高志敏; 郭毅博; 周兵
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-04-10
Anticipated expiration: 2039-11-07
Also published as: CN110991252B

Abstract

本发明公开了一种不均衡场景中人群分布与计数的检测方法。该方法包括构建网络、预测密度、计算优化和数据验证，主要通过构建一个多级多分枝的卷积神经网络，每一个分支的输入来自不同分辨率的卷积层的输出组合，再融合为一个整体输出，使用训练图集分别输入到该卷积神经网络，得到预测密度图，引入训练图集的场景中的人群数量信息，与预测密度图进行比较来计算损失，来优化调整多级卷积神经网络的参数，使得计算损失的结果最小，最终获得最佳预测效果。本发明具有更高的检测准确率和检测效率，以及良好的可迁移性。

Description

一种不均衡场景中人群分布与计数的检测方法

技术领域

本发明涉及计算机视觉和深度学习领域，尤其涉及一种不均衡场景中人群分布与计数的检测方法。

背景技术

通过视频监控来进行人群数量估算具有重要意义，人群数量检测得到的数据对于公共安全管理、信息资源管理、公共交通管理等方面都具有极高的价值。例如，用于公共交通中，通过获得乘客在空间、时间上的分布情况来灵活调整车辆运行时间表；用于大型商场中，通过对顾客流量和分布信息的分析来制定高效率的营销策略等。

检测场景中的人群密度分布最大的难点在于人群分布的不均衡和人员远近的尺度变化。一方面，由于摄像机的视角，人的大小差异很大，远离相机的人看起来更小并且可能彼此遮挡，而靠近相机的人看起来更大并且相对稀疏。另一方面，人数在相同或不同的场景中也有很大差异。

现有技术中，缺乏针对这种不均衡特性提供准确的人群分布与计数方法。

发明内容

本发明主要解决的技术问题是提供一种不均衡场景中人群分布与计数的检测方法，解决现有技术中对人群分布检测识别准确率和效率不高，以及可迁移性不好的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种不均衡场景中人群分布与计数的检测方法，包括以下步骤：构建网络，构建一个多级卷积神经网络，该网络包括卷积层、池化层和转置卷积层且具有多个分支，每一个分支的输入来自不同分辨率的卷积层的输出组合，每一个分支再融合为一个整体输出；预测密度，使用训练图集分别输入到所述多级卷积神经网络，得到预测密度图；计算优化，引入所述训练图集的场景中的人群数量信息，与所述预测密度图进行比较来计算损失，通过优化调整所述多级卷积神经网络的参数，使得计算损失的结果最小；数据验证，进一步通过公开的数据图集对经过计算损失优化的所述多级卷积神经网络进行验证，最终获得最佳预测效果。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，所述多级卷积神经网络包括骨干网络和三个分支网络，在骨干网络中从输入端开始依次是第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层和第一融合卷积层；第一分支网络包括从所述第三卷积层中的三个卷积子层输出后相叠加，再经过第二融合卷积层输出；第二分支网络包括从所述第五卷积层中的三个卷积子层输出后相叠加，再经过第一融合卷积层输出；第三分支网络包括从所述第四卷积层中的三个卷积子层输出后相叠加，再经过第三融合卷积层输出，所述第一融合卷积层、第二融合卷积层和第三融合卷积层共同输出到汇聚卷积层，再由汇聚卷积层输出终检测结果。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，所述骨干网络和三个分支网络中包括三种网络层：卷积层、最大池化层和转置卷积层。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，第一卷积层对应的特征图的宽度和高度与输入的图像的宽度和高度相同，包括第一输入卷积子层和第一输出卷积子层，第一输入卷积子层的输入通道数为3，输出通道数为64，第一输出卷积子层的输入通道数为64，输出通道数为64，第一池化层的输入通道数为64，输出通道数为64；第二卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的二分之一和高度的二分之一，包括第二输入卷积子层和第二输出卷积子层，第二输入卷积子层的输入通道数为64，输出通道数为128；第二输出卷积子层的输入通道数为128，输出通道数为128，第二池化层的输入通道数为128，输出通道数为128。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，第三卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的四分之一和高度的四分之一，包括第三输入卷积子层、第三中间卷积子层和第三输出卷积子层；第三输入卷积子层的输入通道数为128，输出通道数为256；第三中间卷积子层的输入通道数为256，输出通道数为256；第三输出卷积子层的输入通道数为256，输出通道数为256；第三池化层的输入通道数为256，输出通道数为256；第四卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的八分之一和高度的八分之一，包括第四输入卷积子层、第四中间卷积子层和第四输出卷积子层；第四输入卷积子层的输入通道数为256，输出通道数为512；第四中间卷积子层的输入通道数为512，输出通道数为512；第四输出卷积子层的输入通道数为512，输出通道数为512；第四池化层的输入通道数为512，输出通道数为512；第五卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的十六分之一和高度的十六分之一，包括第五输入卷积子层、第五中间卷积子层和第五输出卷积子层；第五输入卷积子层的输入通道数为512，输出通道数为512；第五中间卷积子层的输入通道数为512，输出通道数为512；第五输出卷积子层的输入通道数为512，输出通道数为512。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，所述第一分支网络包括由第三卷积层的第三输入卷积子层、第三中间卷积子层和第三输出卷积子层进行相加输出到第二融合卷积层，第二融合卷积层包括依次串联的第二融合输入卷积层和第二融合输出卷积层，对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一；第二融合输入卷积层的输入通道数为256，输出通道数为256，第二融合输出卷积层的输入通道数为256，输出通道数为1。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，所述第二分支网络包括由第五卷积层的第五输入卷积子层、第五中间卷积子层和第五输出卷积子层进行相加输出到第一融合卷积层，第一融合卷积层包括依次串联的第一融合输入卷积层、第一融合中间卷积层和第一融合输出卷积层，对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一；第一融合输入卷积层为转置卷积层，输入通道数为512，输出通道数为256，第一融合中间卷积层输入通道数为256，输出通道数为256，第一融合输出卷积层输入通道数为256，输出通道数为1。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，所述第三分支网络包括由第四卷积层的第四输入卷积子层、第四中间卷积子层和第四输出卷积子层进行相加输出到第三融合卷积层，第三融合卷积层包括依次串联的第三融合输入卷积层和第三融合输出卷积层，对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一；第三融合输入卷积层的输入通道数为512，输出通道数为256，第三融合输出卷积层的输入通道数为256，输出通道数为1；三个分支网络的输出到汇聚卷积层，所述汇聚卷积层的特征图也是输入的图像的宽度的八分之一和高度的八分之一，对应的输入通道数为3，输出通道数为1。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，所述多级卷积神经网络定义为：

y＝F(x,w₁,w₁,…,w_n)，

其中，x为输入图像，y为输出密度图，w_i(i＝1,2,…,n)为网络所包含的参数，F为代表网络结构的函数；在正向传播时，对函数F输入图像x，得到预测密度图y，将预测密度图y与真实密度图g通过输入损失函数计算得到损失值l，然后反向传播修正参数w_i，得到修正后的参数w'_i的公式如下：

其中，η为预先设定的学习率，

为偏导符号，然后反复进行该过程，直至得到损失值l最小，此时对应的网络参数w_i(i＝1,2,…,n)即为所需的最优网络参数。

在本发明不均衡场景中人群分布与计数的检测方法另一实施例中，损失计算方法引入场景所包含的人数作为参数，其中池化损失定义如下：

其中，N为样本数，D(X_i；Θ)和D_i分别是数据集中第i个样本X_i的预测密度图和真实密度图，L_B(Θ)同时引入了密度分布和总人数作为损失的因子。

本发明的有益效果是：本发明公开了一种不均衡场景中人群分布与计数的检测方法。该方法包括构建网络、预测密度、计算优化和数据验证，主要通过构建一个多级多分枝的卷积神经网络，每一个分支的输入来自不同分辨率的卷积层的输出组合，再融合为一个整体输出，使用训练图集分别输入到该卷积神经网络，得到预测密度图，引入训练图集的场景中的人群数量信息，与预测密度图进行比较来计算损失，来优化调整多级卷积神经网络的参数，使得计算损失的结果最小，最终获得最佳预测效果。本发明具有更高的检测准确率和检测效率，以及良好的可迁移性。

附图说明

图1是根据本发明不均衡场景中人群分布与计数的检测方法一实施例的流程图；

图2和图3是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的网络组成示意图；

图4是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第一卷积层和第一池化层的组成示意图；

图5是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第二卷积层和第二池化层的组成示意图；

图6是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第三卷积层和第三池化层的组成示意图；

图7是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第四卷积层和第四池化层的组成示意图；

图8是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第五卷积层组成示意图；

图9是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第一分支网络组成示意图；

图10是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第二分支网络组成示意图；

图11是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第三分支网络组成示意图；

图12是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的检测效果示意图；

图13是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的检测效果示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明不均衡场景中人群分布与计数的检测方法一实施例的流程图。在图1中，包括：

第一步S101，构建网络，构建一个多级卷积神经网络，该网络包括卷积层、池化层和转置卷积层且具有多个分支，每一个分支的输入来自不同分辨率的卷积层的输出组合，每一个分支再融合为一个整体输出；

第二步S102，预测密度，使用训练图集分别输入到所述多级卷积神经网络，得到预测密度图；

第三步S103，计算优化，引入所述训练图集的场景中的人群数量信息，与所述预测密度图进行比较来计算损失，通过优化调整所述多级卷积神经网络的参数，使得计算损失的结果最小；

第四步S104，数据验证，进一步通过公开的数据图集对经过计算损失优化的所述多级卷积神经网络进行验证，最终获得最佳预测效果。

优选的，在步骤S101中，如图2所示给出了一个多级卷积神经网络实施例。在图2中，该网络包括骨干网络和三个分支网络，在骨干网络中从左向右依次是第一卷积层J1、第一池化层C1、第二卷积层J2、第二池化层C2、第三卷积层J3、第三池化层C3、第四卷积层J4、第四池化层C4、第五卷积层J5和第一融合卷积层R1。优选的，第一分支网络包括从所述第三卷积层J3中的三个卷积子层输出后相叠加，再经过第二融合卷积层R2输出；第二分支网络包括从所述第五卷积层J5中的三个卷积子层输出后相叠加，再经过第一融合卷积层R1输出；第三分支网络包括从所述第四卷积层J4中的三个卷积子层输出后相叠加，再经过第三融合卷积层R3输出。第一融合卷积层R1、第二融合卷积层R2和第三融合卷积层R3共同输出到汇聚卷积层M1，再由汇聚卷积层M1输出终检测结果。图3是图2的进一步细化显示说明，图3中的MP表示池化层。

图2中，第一分支网络对应上分支网络，输入大小为原始图像的1/4(长宽均为原始图像的1/4)，第二分支网络对应中分支网络，输入大小为原始图像的1/16，第三分支网络对应下分支网络，输入大小为原始图像的1/8。

可以看出，在本发明该实施例中，网络的后半部分由三个分支网络组成，每个分支网络的输入来自于不同卷积层的输出的组合，并且每个分支网络的输入大小(分辨率)不一致，这种结构可以有效地应对场景的尺度变化问题。也即是，我们在一个单列卷积神经网络上构建了所提出的多级卷积神经网络，并通过利用多个级别的特征来合并多尺度信息，每个级别的特征被映射到一个对应的密度图，然后融合这些多级密度图以预测人群数量。

该网络包括三种网络层，即：卷积层、最大池化层和转置卷积层。卷积层由卷积部分和激活部分组成，卷积部分是对单通道或多通道的输入特征图作卷积操作，卷积操作的定义为，根据预先设定的步长，从左到右、从上到下，在特征图中通过与卷积核同等尺寸的滑动窗口，取窗口区域内的值与卷积核中相应位置的值相乘，若卷积核的尺寸大于1×1，则将得到的多个乘积相加得到该区域对应的输出值，否则，得到的乘积即为该区域对应的输出值。激活部分是将输出特征图中的每个值输入非线性函数计算得到最终的输出。非线性函数有多种选择，本发明在实现时采用ReLU函数，其定义如下：

ReLU(x)＝max(0，x)。

优选的，卷积层的优选设置：卷积核大小为3*3，步长(stride)为1*1，补零(padding)为1，激活函数为ReLU函数。

转置卷积层是由卷积层变化而来，其与卷积层不同的地方是卷积操作变为了转置卷积操作，而激活部分相同。转置卷积层的优选设置：卷积核大小为2*2，步长(stride)为2*2，补零(padding)为0，激活函数为ReLU函数。

池化层是指根据预先设定的窗口大小、步长和模式，包括最大或平均两种模式，在输入特征图中，从左到右、从上到下滑动窗口，取窗口中的最大值(最大模式)或平均值(平均模式)作为输出。池化层的优选设置：池化区域大小为2*2，步长(stride)为2*2，补零(padding)为0，选择池化区域内最大值作为输出。

图2和图3所示网络结构由于其结构简洁高效，无需繁琐的多次训练，直接端到端地训练也可以取得良好的性能。首先，随机初始化MLCNN网络中的参数，需要初始化的参数包括卷积层和转置卷积层里的权重值和偏置值；然后，网络前端传入图像信息进行特征提取，通过网络中的所有卷积层、池化层和转置卷积层的正向传播得到输出特征，即预测密度图。

结合图2和图3，优选的，在图4中，第一卷积层J1对应的宽度和高度与输入的图像的宽度W和高度H相同，对应图3中的W*H，包括第一输入卷积子层J11和第一输出卷积子层J22，第一输入卷积子层J11的输入通道数为3，输出通道数为64，卷积核大小为3×3，需要设置的权重值数量为3×64×3×3，需要设置的偏置值数量为64；第一输出卷积子层J12的输入通道数为64，输出通道数为64，卷积核大小为3×3，需要设置的权重值数量为64×64×3×3，需要设置的偏置值数量为64。第一池化层C1的输入通道数为64，输出通道数为64。

结合图2和图3，优选的，在图5中，第二卷积层对应的宽度和高度分别对应是输入的图像的宽度W的二分之一和高度H的二分之一，对应图3中的W/2*H/2,包括第二输入卷积子层J21和第二输出卷积子层J22，第二输入卷积子层J21的输入通道数为64，输出通道数为128，卷积核大小为3×3，需要设置的权重值数量为64×128×3×3，需要设置的偏置值数量为128；第二输出卷积子层J22的输入通道数为128，输出通道数为128，卷积核大小为3×3，需要设置的权重值数量为128×128×3×3，需要设置的偏置值数量为128。第二池化层C2的输入通道数为128，输出通道数为128。

结合图2和图3，优选的，在图6中，第三卷积层J3对应的宽度和高度分别对应是输入的图像W的宽度的四分之一和高度H的四分之一，对应图3中的W/4*H/4,包括第三输入卷积子层J31、第三中间卷积子层J32和第三输出卷积子层J33；第三输入卷积子层J31的输入通道数为128，输出通道数为256，卷积核大小为3×3，需要设置的权重值数量为128×256×3×3，需要设置的偏置值数量为256；第三中间卷积子层J32的输入通道数为256，输出通道数为256，卷积核大小为3×3，需要设置的权重值数量为256×256×3×3，需要设置的偏置值数量为256；第三输出卷积子层J33的输入通道数为256，输出通道数为256，卷积核大小为3×3，需要设置的权重值数量为256×256×3×3，需要设置的偏置值数量为256。第三池化层C3的输入通道数为256，输出通道数为256。

结合图2和图3，优选的，在图7中，第四卷积层J4对应的宽度和高度分别对应是输入的图像的宽度的八分之一和高度的八分之一，对应图3中的W/8*H/8,包括第四输入卷积子层J41、第四中间卷积子层J42和第四输出卷积子层J43；第四输入卷积子层J41的输入通道数为256，输出通道数为512，卷积核大小为3×3，需要设置的权重值数量为256×512×3×3，需要设置的偏置值数量为512；第四中间卷积子层J42的输入通道数为512，输出通道数为512，卷积核大小为3×3，需要设置的权重值数量为512×512×3×3，需要设置的偏置值数量为512；第四输出卷积子层J43的输入通道数为512，输出通道数为512，卷积核大小为3×3，需要设置的权重值数量为512×512×3×3，需要设置的偏置值数量为512。第四池化层C4的输入通道数为512，输出通道数为512。

结合图2和图3，优选的，在图8中，第五卷积层J5对应的宽度和高度分别对应是输入的图像的宽度的十六分之一和高度的十六分之一，对应图3中的W/16*H/16,包括第五输入卷积子层J51、第五中间卷积子层J52和第五输出卷积子层J53；第五输入卷积子层J51的输入通道数为512，输出通道数为512，卷积核大小为3×3，需要设置的权重值数量为512×512×3×3，需要设置的偏置值数量为512；第五中间卷积子层J52的输入通道数为512，输出通道数为512，卷积核大小为3×3，需要设置的权重值数量为512×512×3×3，需要设置的偏置值数量为512；第五输出卷积子层J53的输入通道数为512，输出通道数为512，卷积核大小为3×3，需要设置的权重值数量为512×512×3×3，需要设置的偏置值数量为512。

优选的，结合图2和图3，在图9中，对应的第一分支网络由第三卷积层J3包括的第三输入卷积子层、第三中间卷积子层和第三输出卷积子层进行相加输出到第二融合卷积层R2，该第二融合卷积层R2包括依次串联的第二融合输入卷积层R21和第二融合输出卷积层R22，对应的特征图大小均为

由于第三输入卷积子层、第三中间卷积子层和第三输出卷积子层，这三层的输出特征图的通道均为256，对应的特征图大小均为

即形状完全相同，因此特征图所包含的数值可以一一对应相加，得到的和的通道为256，大小为

对应的，第二融合输入卷积层R21的输入通道数为256，输出通道数为256，卷积核大小为3×3，步长为2，需要设置的权重值数量为256×256×3×3，需要设置的偏置值数量为256。第二融合输出卷积层R22的输入通道数为256，输出通道数为1，卷积核大小为3×3，需要设置的权重值数量为256×1×3×3，需要设置的偏置值数量为1。

优选的，结合图2和图3，在图10中，对应的第二分支网络由第五卷积层J5包括的第五输入卷积子层、第五中间卷积子层和第五输出卷积子层进行相加输出到第一融合卷积层R1，该第一融合卷积层R1包括依次串联的第一融合输入卷积层R11、第一融合中间卷积层R12和第一融合输出卷积层R13，对应的特征图大小均为

由于第五输入卷积子层、第五中间卷积子层和第五输出卷积子层，这三层的输出特征图的通道均为512，大小均为

即形状完全相同，因此特征图所包含的数值可以一一对应相加，得到的和的通道为512，大小为

第一融合输入卷积层R11为转置卷积层，输入通道数为512，输出通道数为256，卷积核大小为2×2，需要设置的权重值数量为512×256×2×2，需要设置的偏置值数量为256。第一融合中间卷积层R12输入通道数为256，输出通道数为256，卷积核大小为3×3，需要设置的权重值数量为256×256×3×3，需要设置的偏置值数量为256；第一融合输出卷积层R13输入通道数为256，输出通道数为1，卷积核大小为3×3，需要设置的权重值数量为256×1×3×3，需要设置的偏置值数量为1。

优选的，结合图2和图3，在图11中，对应的第三分支网络包括由第四卷积层J4的第四输入卷积子层、第四中间卷积子层和第四输出卷积子层进行相加输出到第三融合卷积层R3，该第三融合卷积层R3包括依次串联的第三融合输入卷积层R31和第三融合输出卷积层R32，对应的特征图大小均为

由于第四输入卷积子层、第四中间卷积子层和第四输出卷积子层，这三层的输出特征图的通道均为512，大小均为

第三融合输入卷积层R31输入通道数为512，输出通道数为256，卷积核大小为3×3，需要设置的权重值数量为512×256×3×3，需要设置的偏置值数量为256。第三融合输出卷积层R32输入通道数为256，输出通道数为1，卷积核大小为3×3，需要设置的权重值数量为256×1×3×3，需要设置的偏置值数量为1。

最后，三个分支网络的输出到汇聚卷积层M1，这三个分支网络的输出特征图的通道均为1，大小均为

该汇聚卷积层M1的特征图也是

对应的输入通道数为3，输出通道数为1，卷积核大小为3×3，需要设置的权重值数量为3×1×3×3，需要设置的偏置值数量为1。

优选的，在图1中的步骤S102和S103中，希望利用该网络输出的预测特征与图像的真实密度保持一致，即准确地预测密度，需要先将输出特征与真实密度之间的差异量化，即计算损失或计算误差。然后根据损失值，对网络反向传播并修正网络参数，使得损失进一步减小，并重复以上过程直至网络性能足够良好。

优选的，图2所示的多级卷积神经网络可以被定义为：

y＝F(x,w₁,w₁,…,w_n)，

其中，x为输入图像，y为输出密度图，w_i(i＝1,2,…,n)为网络所包含的参数，F为代表网络结构的函数。

在正向传播时，对函数F输入图像x，得到预测密度图y，将预测密度图y与真实密度图g输入损失函数计算得到损失值l，然后反向传播修正参数w_i，得到修正后的参数w'_i的公式如下：

其中，η为预先设定的学习率，

为偏导符号，然后反复进行该过程，直至得到损失值l最小，此时对应的网络参数w_i(i＝1,2,…,n)即为所需的最优网络参数。首先自适应地学习多级密度图，然后将它们融合以预测最终输出。每个级别的密度图都侧重于处理特定大小的人，因此，多级密度图的融合能够解决人群尺度的巨大差异。

优选的，损失计算方法引入场景所包含的人数作为参数，这可以减轻场景间的人群密度变化问题对网络训练的不利影响，其中池化损失定义如下：

其中，D(X_i；Θ)和D_i分别是数据集中第i个样本X_i的预测密度图和真实密度图，L_B(Θ)同时引入了密度分布和总人数作为损失的因子。由于存在场景中无人的情况，为了防止除以零，分母需要加1。

优选的，对于本发明MLCNN网络结构，分别使用了四个当今主流公开数据集ShanghaiTech dataset、UCF CC 50dataset、Worl dExpo10dataset和Mall dataset进行验证。结果采用人群计数方面普遍使用的平均绝对误差(MAE)和均方误差(MSE)，对预测的结果进行评价。其中平均绝对误差反映了预测的准确性，均方误差反应了预测的鲁棒性。二者的详细定义如下：

其中z_i为图像中的实际人数，

为预测得到的人数，N为测试图像的数量，图12和图13为两个实施例的检测结果展示，其中均包括了对一个输入图像通过三个分支网络分别输出结果后再进一步汇聚融合的结果。

由此可见，本发明公开了一种不均衡场景中人群分布与计数的检测方法。该方法包括构建网络、预测密度、计算优化和数据验证，主要通过构建一个多级多分枝的卷积神经网络，每一个分支的输入来自不同分辨率的卷积层的输出组合，再融合为一个整体输出，使用训练图集分别输入到该卷积神经网络，得到预测密度图，引入训练图集的场景中的人群数量信息，与预测密度图进行比较来计算损失，来优化调整多级卷积神经网络的参数，使得计算损失的结果最小，最终获得最佳预测效果。本发明具有更高的检测准确率和检测效率，以及良好的可迁移性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种不均衡场景中人群分布与计数的检测方法，其特征在于，包括以下步骤：

构建网络，构建一个多级卷积神经网络，该网络包括卷积层、池化层和转置卷积层且具有多个分支网络，每一个分支网络的输入来自不同分辨率的卷积层的输出组合，每一个分支网络再融合为一个整体输出；

预测密度，使用训练图集分别输入到所述多级卷积神经网络，得到预测密度图；

计算优化，引入所述训练图集的场景中的人群数量信息，与所述预测密度图进行比较来计算损失，通过优化调整所述多级卷积神经网络的参数，使得计算损失的结果最小；

数据验证，进一步通过公开的数据图集对经过计算损失优化的所述多级卷积神经网络进行验证，最终获得最佳预测效果。

2.根据权利要求1所述的不均衡场景中人群分布与计数的检测方法，其特征在于，所述多级卷积神经网络包括骨干网络和三个分支网络，在骨干网络中从输入端开始依次是第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层和第一融合卷积层；第一分支网络包括从所述第三卷积层中的三个卷积子层输出后相叠加，再经过第二融合卷积层输出；第二分支网络包括从所述第五卷积层中的三个卷积子层输出后相叠加，再经过第一融合卷积层输出；第三分支网络包括从所述第四卷积层中的三个卷积子层输出后相叠加，再经过第三融合卷积层输出，所述第一融合卷积层、第二融合卷积层和第三融合卷积层共同输出到汇聚卷积层，再由汇聚卷积层输出终检测结果。

3.根据权利要求2所述的不均衡场景中人群分布与计数的检测方法，其特征在于，第一卷积层对应的特征图的宽度和高度与输入的图像的宽度和高度相同，包括第一输入卷积子层和第一输出卷积子层，第一输入卷积子层的输入通道数为3，输出通道数为64，第一输出卷积子层的输入通道数为64，输出通道数为64，第一池化层的输入通道数为64，输出通道数为64；第二卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的二分之一和高度的二分之一，包括第二输入卷积子层和第二输出卷积子层，第二输入卷积子层的输入通道数为64，输出通道数为128；第二输出卷积子层的输入通道数为128，输出通道数为128，第二池化层的输入通道数为128，输出通道数为128。

4.根据权利要求3所述的不均衡场景中人群分布与计数的检测方法，其特征在于，第三卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的四分之一和高度的四分之一，包括第三输入卷积子层、第三中间卷积子层和第三输出卷积子层；第三输入卷积子层的输入通道数为128，输出通道数为256；第三中间卷积子层的输入通道数为256，输出通道数为256；第三输出卷积子层的输入通道数为256，输出通道数为256；第三池化层的输入通道数为256，输出通道数为256；第四卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的八分之一和高度的八分之一，包括第四输入卷积子层、第四中间卷积子层和第四输出卷积子层；第四输入卷积子层的输入通道数为256，输出通道数为512；第四中间卷积子层的输入通道数为512，输出通道数为512；第四输出卷积子层的输入通道数为512，输出通道数为512；第四池化层的输入通道数为512，输出通道数为512。

5.根据权利要求4所述的不均衡场景中人群分布与计数的检测方法，其特征在于，第五卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的十六分之一和高度的十六分之一，包括第五输入卷积子层、第五中间卷积子层和第五输出卷积子层；第五输入卷积子层的输入通道数为512，输出通道数为512；第五中间卷积子层的输入通道数为512，输出通道数为512；第五输出卷积子层的输入通道数为512，输出通道数为512。

6.根据权利要求5所述的不均衡场景中人群分布与计数的检测方法，其特征在于，所述第一分支网络包括由第三卷积层的第三输入卷积子层、第三中间卷积子层和第三输出卷积子层进行相加输出到第二融合卷积层，第二融合卷积层包括依次串联的第二融合输入卷积层和第二融合输出卷积层，对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一；第二融合输入卷积层的输入通道数为256，输出通道数为256，第二融合输出卷积层的输入通道数为256，输出通道数为1。

7.根据权利要求6所述的不均衡场景中人群分布与计数的检测方法，其特征在于，所述第二分支网络包括由第五卷积层的第五输入卷积子层、第五中间卷积子层和第五输出卷积子层进行相加输出到第一融合卷积层，第一融合卷积层包括依次串联的第一融合输入卷积层、第一融合中间卷积层和第一融合输出卷积层，对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一；第一融合输入卷积层为转置卷积层，输入通道数为512，输出通道数为256，第一融合中间卷积层输入通道数为256，输出通道数为256，第一融合输出卷积层输入通道数为256，输出通道数为1。

8.根据权利要求7所述的不均衡场景中人群分布与计数的检测方法，其特征在于，所述第三分支网络包括由第四卷积层的第四输入卷积子层、第四中间卷积子层和第四输出卷积子层进行相加输出到第三融合卷积层，第三融合卷积层包括依次串联的第三融合输入卷积层和第三融合输出卷积层，对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一；第三融合输入卷积层的输入通道数为512，输出通道数为256，第三融合输出卷积层的输入通道数为256，输出通道数为1；

三个分支网络的输出到汇聚卷积层，所述汇聚卷积层的特征图也是输入的图像的宽度的八分之一和高度的八分之一，对应的输入通道数为3，输出通道数为1。

9.根据权利要求1至8任一项所述的不均衡场景中人群分布与计数的检测方法，其特征在于，所述多级卷积神经网络定义为：

y＝F(x,w₁,w₁,…,w_n)，

其中，x为输入图像，y为输出密度图，w_i(i＝1,2,…,n)为网络所包含的参数，F为代表网络结构的函数；

在正向传播时，对函数F输入图像x，得到预测密度图y，将预测密度图y与真实密度图g通过输入损失函数计算得到损失值l，然后反向传播修正参数w_i，得到修正后的参数w'_i的公式如下：

其中，η为预先设定的学习率，

10.根据权利要求9所述的不均衡场景中人群分布与计数的检测方法，其特征在于，损失计算方法引入场景所包含的人数作为参数，其中池化损失定义如下：