CN112668537A

CN112668537A - 一种基于多尺度跳跃连接的群体计数方法

Info

Publication number: CN112668537A
Application number: CN202110010975.2A
Authority: CN
Inventors: 范哲意; 吴迪; 易淑涵; 刘志文
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-16

Abstract

本发明公开了一种基于多尺度跳跃连接的群体计数方法，包括：获取包括训练集和测试集的图像集；对训练集中的图像进行预处理；将经过预处理的图像输入网络，对网络进行训练直至网络拟合；训练后的网络输出图像的密度图；以及根据网络输出的密度图，将输入图像中所有像素的密度值求和得到图像中的群体计数。

Description

一种基于多尺度跳跃连接的群体计数方法

技术领域

本发明涉及一种图像处理技术，更具体地，涉及一种基于多尺度跳跃连接的群体计数方法。

背景技术

随着经济的飞速发展，生活质量的日益改善，地球人口呈爆炸式增长。随着人口的增长及人群活动的多样化，大规模的群体活动也愈加频繁，拥挤的场景随处可见，例如商场、车站、景点等地，这将成为公共管理和公共安全的巨大挑战。当人群密度过高时，如若不能对人群密集场所进行及时有效的监管、控制和疏导，容易引起人群恐慌、拥挤，甚至发生踩踏事件，引发严重的安全事故。近年来，随着视频监控数据的急剧增加和全民对于公共安全的日益重视，群体计数算法得到了越来越广泛的关注，作为群体行为分析的基础，群体计数在智能视频监控、保障社会公共安全中有重要作用。该技术利用从视频图像中提取的特征，达到预估当前场景人数的目的。

传统的人群密度估计算法可以被分为两类：基于行人检测的方法和基于回归的方法。基于行人检测的方法通常采用滑动窗口来遍历整幅图像，使滑动窗口检测器检测场景中的人，将所有的检测结果相加得到计数结果。但当人群有较严重的遮挡或背景复杂时，基于单个行人检测的方法鲁棒性较低。基于回归的方法不逐个检测和定位所有个体，而是直接将从输入图像中提取的低层特征映射到最终的计数结果。但基于回归的方法只给出了最终计数结果，并不能准确反映人群在场景中的分布，空间信息的忽视导致了基于回归的方法不够完善，不足以支撑实际应用。

近年来随着深度学习的飞速发展，卷积神经网络已广泛应用于图像分类，目标检测，行人识别等计算机视觉领域，也在群体计数表现出独特优势。卷积神经网络可以自动提取视频图像中的高级语义特征，无需手动定义和提取特征。

卷积神经网络的应用使得群体计数有了新的发展，但是现实世界中，由于问题的复杂性，仍然存在一些尚未解决的问题，其中尺度变化问题亟待解决。由于近大远小的视觉原理、摄像头拍摄视角的变化，透视效应导致同一场景中的人头在图片中表现出较大的尺度差异，对计数造成困难，导致计数结果不准确，限制了群体计数算法在现实世界中的应用。

因此，需要一种能够更加准确且稳健的群体计数方法。

发明内容

本发明是为了解决上述问题而提出的，其目的在于提供一种基于多尺度跳跃连接的群体计数方法。

为了达到上述发明目的，根据本发明所提供的一种基于多尺度跳跃连接的群体计数方法，包括：获取包括训练集和测试集的图像集；对训练集中的图像进行预处理；将经过预处理的图像输入网络，对网络进行训练直至网络拟合，训练后的网络输出图像的密度图；以及根据网络输出的密度图，将输入图像中所有像素的密度值求和得到图像中的群体计数。

所述网络包括卷积块①-⑥以及三个多尺度跳跃连接模块，其中，对所述网络进行训练的处理如下：

图像通过卷积块①得到特征F1，F1的通道数为128；

将得到的特征F1分别输入卷积块②和多尺度跳跃连接模块，分别得到特征F2和M1，F2和M1的通道数分别为256和128；

将得到的特征F2分别输入卷积块③和多尺度跳跃连接模块，分别得到特征F3和M2，F3和M2的通道数分别为512和256；

将得到的特征F3输入多尺度跳跃连接模块，得到特征M3，M3的通道数为512；

将得到的特征M3输入卷积块④，得到特征F4，F4的通道数为256；

将得到的特征F4与M2连接，输入卷积块⑤，得到特征F5，F5的通道数为128；以及

将得到的特征F5与M1连接，输入卷积块⑥，得到图像的密度图，通道数为1，

卷积块①进行的处理如下：

Conv:3×3,64；

Maxpool:2×2,64；

Conv:3×3,128；

Maxpool:2×2,128。

其中，Conv为卷积，3×3,64表示卷积核大小为3×3，输出特征的通道数为64，3×3,128表示卷积核大小为3×3，输出特征的通道数为128；Maxpool为最大池化，2×2,64表示过滤器大小为2×2，输出特征的通道数为64，2×2,128表示过滤器大小为2×2，输出特征的通道数为128；

卷积块②进行的处理如下：

Conv:3×3,256；

Maxpool:2×2,256；

其中，Conv为卷积，3×3,256表示卷积核大小为3×3，输出特征的通道数为256，Maxpool为最大池化，2×2,256表示过滤器大小为2×2，输出特征的通道数为256；

卷积块③进行的处理如下：

Conv:3×3,512；

其中，Conv为卷积，3×3,512表示卷积核大小为3×3，输出特征的通道数为512；

卷积块④进行的处理如下：

Conv:1×1,256；

2倍最近邻插值；

Conv:3×3,256；

其中，Conv为卷积，1×1,256表示卷积核大小为1×1，输出特征的通道数为256，3×3,256表示卷积核大小为3×3，输出特征的通道数为256；

卷积块⑤进行的处理如下：

Conv:1×1,128；

2倍最近邻插值；

Conv:3×3,128；

其中，Conv为卷积，1×1,128表示卷积核大小为1×1，输出特征的通道数为128，3×3,128表示卷积核大小为3×3，输出特征的通道数为128；

卷积块⑥进行的处理如下：

Conv:1×1,64；

2倍最近邻插值；

Conv:3×3,64；

Conv:1×1,1；

其中，Conv为卷积，1×1,64表示卷积核大小为1×1，输出特征的通道数为64，3×3,64表示卷积核大小为3×3，输出特征的通道数为64，1×1,1表示卷积核大小为1×1，输出特征的通道数为1。

多尺度跳跃连接模块包括卷积层1、卷积层2、空洞卷积层3、空洞卷积层4和卷积层5，多尺度跳跃连接模块的处理如下：

将输入特征输入卷积层1，卷积层1进行的处理是Conv:3×3,c，其中，Conv为卷积，3×3,c表示卷积核大小为3×3，第一输出特征的通道数为c；

第一输出特征作为卷积层2的输入，卷积层2进行的处理是Conv:3×3,c，其中，Conv为卷积，3×3,c表示卷积核大小为3×3，第二输出特征的通道数为c；

第二输出特征P1分别输入空洞卷积层3和空洞卷积层4，得到第三输出特征和第四输出特征,第三输出特征和第四输出特征的通道数为c，空洞卷积层3进行的处理是Conv:3×3,c,d＝8，空洞卷积层4进行的处理是Conv:3×3,c,d＝4，Conv为卷积，3×3,c表示卷积核大小为3×3，输出特征的通道数为c，d＝8表示膨胀倍率为8，d＝4表示膨胀倍率为4；

将第三输出特征和第四输出特征连接，得到第五输出特征，第五输出特征的通道数为2c；

将第五输出特征输入卷积层5，得到多尺度跳跃连接模块的输出特征，卷积层5进行的处理是Conv:1×1,c，Conv为卷积，1×1,c表示卷积核大小为1×1，输出特征的通道数为c。

在训练网络时，将欧式距离作为损失函数，通过最小化损失函数将网络参数调至最优，

其中，X_i表示第i个输入图像，D(X_i；Θ)表示将训练集中的图像X_i输入网络之后生成的密度图，Θ表示整个网络可训练的参数，D_i表示图像X_i的真值密度图，N是训练集中图像的数量。

对训练集中的图像进行预处理包括：限制图像的高和宽，使其能够被8整除。对训练集中的图像进行预处理还包括：对训练集中的图像进行随机翻转操作之后的图像加入训练集，使得训练集的图像数量增加。

在完成网络训练之后，将测试集的图像输入网络进行测试。

在网络中加入跳跃连接不仅能够提高网络复杂度，有效的避免梯度消失问题，提高了网络的稳定性，同时能够将浅层信息直接传递到网络深层。浅层特征通常包含更多的空间信息，而深层特征通常包含更多的语义信息，将浅层的空间信息连接到深层，用空间信息作为语义判断的辅助信息，提高了群体计数的准确性。

多尺度跳跃连接模块利用平行的两个膨胀倍率不同的空洞卷积提取在同一张特征图上提取不同尺度的特征，三个多尺度跳跃连接模块分别提取不同深度的特征图上的多尺度信息，增强了模型对于尺度变化的鲁棒性。

附图说明

图1示出根据本公开的实施例的基于多尺度跳跃连接的群体计数方法的流程图；

图2示出根据本公开的实施例的网络结构图；

图3示出多尺度跳跃连接模块的处理；以及

图4是根据本公开的网络的测试结果的示例。

具体实施方式

在本公开中，将参照附图描述本公开的各种实施例。然而，应当理解，本公开不限于这些特定实施例，而是还包括其各种修改、等同形式和/或替代形式。

在下面的描述中，当确定了关于相关的众所周知的功能或结构的详细描述以使本公开的主旨不清楚时，在此将省略详细描述。此外，在实施例的描述中使用的例如第一、第二等数字仅仅是将一个组成元件与另一组成元件区分开的识别符号。

此外，在本说明书中，对于每个详细功能，由“单元”、“模块”等表示的组成元件可以包括并入一个组成元件中的两个或更多个组成元件或被划分为两个或更多个成元件的一个组成元件。此外，以下将描述的每个组成元件除了其主要功能之外还可以另外执行其他组成元件的一些或全部功能，并且每个组成元件的一些主要功能可以由其他组成元件排他地执行。

在以下实施例中，术语“第一”、“第二”等仅用于将一个元件与另一个元件区分开，并且单数形式旨在包括复数形式，除非上下文中另外提及。在以下实施例中，将理解，术语“包括”、“包含”、“具有”等不排除一个或多个其他特征、数字、步骤、操作、元件、组件或其组合的存在或增加。另外，“模块”或“部分”可以执行硬件、软件或硬件和软件的组合来实现的至少一个功能或操作，并且被集成到至少一个模块中。在本公开中，多个元件中的至少一个不仅指所有多个元件，而且还指除其他元件之外的多个元件中的每个元件及其组合。

图1是根据本公开的实施例的基于多尺度跳跃连接的群体计数方法的流程图。

在步骤S101，获取图像集，构建训练集和测试集。可以通过各种方式获得图像集，例如，通过网络下载，或者通过本地数据库获取。通常情况下，图像集已经包括训练集和测试集。如果获取的图像集尚未划分训练集和测试集，需自行划分。按照训练集和测试集相互独立且均为图像集的子集的方式划分即可。

在步骤S102，对训练集中的图像进行预处理。通过对训练集中的图像进行预处理，能够使图像数据更好的适应于本公开的网络，并在一定程度上降低算法的计算成本。

在对图像进行预处理步骤中，首先限制图像的高和宽，使其能够被8整除。这样能够保证图像进入本公开的网络中用于进行降采样操作的层(Maxpool层)之后的输出的正确性。

Maxpool层的作用有：

(1)降采样，减小特征的尺寸，一个Maxpool层能够使得输出特征的长宽都缩减为输入特征的一半。因为本公开的网络采用了三个Maxpool层，所以三个Maxpool层会使长宽都缩减为输入的1/8。因此，在预处理时将图像的高和宽都处理为能被8整除；

(2)保留主要的特征，减少冗余的特征；

然后从每个图像中减去整个图像集的平均图像并进行归一化，以保证每个图像的每个像素值都落在[0,1]中。为了扩展训练集中的图像数量，需要对训练集中的图像进行随机翻转操作。对训练集中的图像进行随机翻转操作之后的图像加入训练集，使得训练集的图像数量增加。

在步骤S102对训练集中的图像进行预处理之后，进入步骤S103，将训练集中的图像输入网络，对网络进行训练直至网络拟合。

本公开的网络的输入是图像，网络的输出是密度图。具体地，参照图2的网络结构图对训练网络的处理进行描述。

将训练集中的图像X_i输入网络。因为训练集中的图像是RGB图像，因此输入的通道数为3，图像通过卷积块①得到特征F1，F1的通道数为128。

具体地，卷积块①进行的处理如下：

Conv:3×3,64；

Maxpool:2×2,64；

Conv:3×3,128；

Maxpool:2×2,128。

其中，在Conv:3×3,64中，Conv为卷积，3×3,64表示卷积核大小为3×3，输出特征的通道数为64；在Conv:3×3,128中，3×3,128表示卷积核大小为3×3，输出特征的通道数为128。在Maxpool:2×2,64中，Maxpool为最大池化，2×2,64表示过滤器大小为2×2，输出特征的通道数为64；在Maxpool:2×2,128中，Maxpool为最大池化，2×2,128表示过滤器大小为2×2，输出特征的通道数为128。

将得到的特征F1分别输入卷积块②和多尺度跳跃连接模块，分别得到特征F2和M1，F2和M1的通道数分别为256和128。

具体地，卷积块②进行的处理如下：

Conv:3×3,256；

Maxpool:2×2,256；

其中，在Conv:3×3,256中，Conv为卷积，3×3,256表示卷积核大小为3×3，输出特征的通道数为256。在Maxpool:2×2,256中，Maxpool为最大池化，2×2,256表示过滤器大小为2×2，输出特征的通道数为256。

将得到的特征F2分别输入卷积块③和多尺度跳跃连接模块，分别得到特征F3和M2，F3和M2的通道数分别为512和256。卷积块③进行的处理如下：

Conv:3×3,512；

其中，在Conv:3×3,512中，Conv为卷积，3×3,512表示卷积核大小为3×3，输出特征的通道数为512。

将得到的特征F3输入多尺度跳跃连接模块，得到特征M3，M3的通道数为512。

将得到的特征M3输入卷积块④，得到特征F4，F4的通道数为256。卷积块④进行的处理如下：

Conv:1×1,256；

2倍最近邻插值；

Conv:3×3,256；

其中，在Conv:1×1,256中，Conv为卷积，1×1,256表示卷积核大小为1×1，输出特征的通道数为256；在Conv:3×3,256中，Conv为卷积，3×3,256表示卷积核大小为3×3，输出特征的通道数为256。

将得到的特征F4与M2连接，输入卷积块⑤，得到特征F5，F5的通道数为128。卷积块⑤进行的处理如下：

Conv:1×1,128；

2倍最近邻插值；

Conv:3×3,128；

其中，在Conv:1×1,128中，Conv为卷积，1×1,128表示卷积核大小为1×1，输出特征的通道数为128；在Conv:3×3,128中，Conv为卷积，3×3,128表示卷积核大小为3×3，输出特征的通道数为128。

将得到的特征F5与M1连接，输入卷积块⑥，得到输出，通道数为1。卷积块⑥进行的处理如下：

Conv:1×1,64；

2倍最近邻插值；

Conv:3×3,64；

Conv:1×1,1；

其中，在Conv:1×1,64中，Conv为卷积，1×1,64表示卷积核大小为1×1，输出特征的通道数为64；在Conv:3×3,64中，Conv为卷积，3×3,64表示卷积核大小为3×3，输出特征的通道数为64，在Conv:1×1,1中，Conv为卷积，1×1,1表示卷积核大小为1×1，输出特征的通道数为1。

经过卷积块⑥处理之后输出密度图D(X_i；Θ)。在训练网络时，将欧式距离作为损失函数，如式(1)，通过最小化损失函数将网络结构参数调至最优。

其中，X_i表示第i个输入图像，D(X_i；Θ)表示将训练集中的图像X_i输入网络之后生成的密度图，Θ表示整个网络可训练的参数，D_i表示图像X_i的真值密度图，N是训练集中图像的数量。D_i和N是可以从训练集中获得的数据。

为了减少网络训练时间，提高训练效率，将在ImageNet上预训练过的VGG16网络的前13层作为卷积块①②③。

下面参照图3具体描述多尺度跳跃连接模块的处理。在构建多尺度跳跃连接模块时，利用空洞卷积在多层次上学习图像的多尺度特征。空洞卷积是在传统卷积核间加入空洞，使得卷积核采样不连续，空洞卷积的使用能够在不增加参数的前提下，扩大卷积核的感受野，大的感受野对于处理图像中的大人头十分有效。空洞卷积还能够捕获多尺度上下文信息，膨胀倍率决定了感受野的大小，因此，当设置不同膨胀倍率时，感受野就会不一样，即可提取多尺度信息。

如果将特征P输入多尺度跳跃连接模块，并且特征P的通道数为c，则通过卷积层1和卷积层2得到特征P1，P1的通道数为c，其中，卷积层1进行的处理是：Conv:3×3,c，其中，Conv为卷积，3×3,c表示卷积核大小为3×3，输出特征的通道数为c。卷积层2进行的处理是：Conv:3×3,c，其中，Conv为卷积，3×3,c表示卷积核大小为3×3，输出特征的通道数为c。

将得到的特征P1分别输入膨胀倍率为8和4的空洞卷积层3和空洞卷积层4，得到特征P1_1和P1_2,P1_1和P1_2的通道数为c；其中，空洞卷积层3进行的处理是：Conv:3×3,c,d＝8，Conv为卷积，3×3,c表示卷积核大小为3×3，输出特征的通道数为c，d＝8表示膨胀倍率为8。空洞卷积层4进行的处理是：Conv:3×3,c,d＝4，Conv为卷积，3×3,c表示卷积核大小为3×3，输出特征的通道数为c，d＝4表示膨胀倍率为4。

将得到的特征P1_1和P1_2连接，得到特征P2，P2的通道数为2c。

将得到的特征P2输入卷积层5，得到特征输出，通道数为c，卷积层5进行的处理是：Conv:1×1,c，Conv为卷积，1×1,c表示卷积核大小为1×1，输出特征的通道数为c。

在步骤S104，根据已经训练的网络输出的密度图，将输入图像中所有像素的密度值求和得到图像中的群体计数。

在完成网络训练之后，可以将测试集的图像输入网络进行测试，获得预测密度图和人群数量。

在测试集的图像输入网络获得群体计数结果时，可以根据网络生成的密度图，将图像中所有像素的密度值求和得到图像中的人数，并对生成文件进行命名，“数据集名称-图片索引号_pred_预估人数.png”，如“SHHA-50_pred_1000.596640625.png”。

通过本公开的网络对测试集中的图像进行测试的结果如图4所示。图4中示出了3幅图像的测试结果，可以看出，通过本公开的网络进行群体计数的准确性很高。

在本公开的网络中，多尺度跳跃连接模块利用平行的两个膨胀倍率不同的空洞卷积提取在同一张特征图上提取不同尺度的特征，在利用VGG16提取特征时将不同深度的特征输入多尺度跳跃连接模块，三个多尺度跳跃连接模块分别提取不同深度的特征图上的多尺度信息，增强了模型对于尺度变化的鲁棒性。

在网络中加入跳跃连接不仅能够提高网络复杂度，有效的避免梯度消息问题，提高了网络的稳定性，同时能够将浅层信息直接传递到网络深层。浅层特征通常包含更多的空间信息，而深层特征通常包含更多的语义信息，将浅层的空间信息连接到深层，用空间信息作为语义判断的辅助信息，提高了群体计数的准确性。

本公开的实施例可以被写为计算机程序，并且可以在使用计算机可读记录介质执行程序的通用数字计算机中实现。

在这种状态下，介质可以连续地存储可以由计算机执行的程序，或者可以临时地存储用于执行或下载的程序。此外，介质可以是在组合了单个或多个硬件的各种记录设备或存储设备，不限于直接接入计算机系统的介质，并且可以以分布方式存在于网络。介质的示例包括被配置为存储程序指令的磁存储介质(诸如软盘或硬盘)、光学记录介质(诸如CD-ROM或DVD)、磁光介质(诸如软盘)以及Rom、RAM、闪存等。此外，其他介质的示例可以包括：用于分发应用程序的应用程序商店，用于提供或分发其他各种软件的站点，以及在服务器处管理的记录介质或存储介质。

尽管已经参考使用特定术语的优选实施例来具体示出和描述了本公开，但是应当仅以描述性的意义考虑实施例和术语，而不是出于限制的目的。因此，本领域普通技术人员将理解，在不脱离由所附权利要求限定的本公开的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种基于多尺度跳跃连接的群体计数方法，包括：

获取包括训练集和测试集的图像集；

对训练集中的图像进行预处理；

将经过预处理的图像输入网络，对网络进行训练直至网络拟合，训练后的网络输出图像的密度图；以及

根据网络输出的密度图，将输入图像中所有像素的密度值求和得到图像中的群体计数。

2.根据权利要求1所述的方法，其特征在于，所述网络包括卷积块①-⑥以及三个多尺度跳跃连接模块，其中，对所述网络进行训练的处理如下：

图像通过卷积块①得到特征F1，F1的通道数为128；

卷积块①进行的处理如下：

Conv:3×3,64；

Maxpool:2×2,64；

Conv:3×3,128；

Maxpool:2×2,128。

卷积块②进行的处理如下：

Conv:3×3,256；

Maxpool:2×2,256；

卷积块③进行的处理如下：

Conv:3×3,512；

卷积块④进行的处理如下：

Conv:1×1,256；

2倍最近邻插值；

Conv:3×3,256；

卷积块⑤进行的处理如下：

Conv:1×1,128；

2倍最近邻插值；

Conv:3×3,128；

卷积块⑥进行的处理如下：

Conv:1×1,64；

2倍最近邻插值；

Conv:3×3,64；

Conv:1×1,1；

3.根据权利要求2所述的方法，其特征在于，多尺度跳跃连接模块包括卷积层1、卷积层2、空洞卷积层3、空洞卷积层4和卷积层5，多尺度跳跃连接模块的处理如下：

4.根据权利要求2所述的方法，其特征在于，在训练网络时，将欧式距离作为损失函数，通过最小化损失函数将网络参数调至最优，

5.根据权利要求1中的任一项所述的方法，其特征在于，对训练集中的图像进行预处理包括：限制图像的高和宽，使其能够被8整除。

6.根据权利要求5中的任一项所述的方法，其特征在于，对训练集中的图像进行预处理还包括：对训练集中的图像进行随机翻转操作之后的图像加入训练集，使得训练集的图像数量增加。

7.根据权利要求1-6中的任一项所述的方法，其特征在于，在完成网络训练之后，将测试集的图像输入网络进行测试。

8.一种在计算机存储介质上编码的计算机程序产品，包括指令，当指令由一个或多个计算机执行时，将使一个或多个计算机执行操作，包括：

获取包括训练集和测试集的图像集；

对训练集中的图像进行预处理；