CN112132023B

CN112132023B - 基于多尺度上下文增强网络的人群计数方法

Info

Publication number: CN112132023B
Application number: CN202011005334.XA
Authority: CN
Inventors: 周方波; 赵怀林; 聂震
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2024-05-17
Anticipated expiration: 2040-09-22
Also published as: CN112132023A

Abstract

本发明提供了一种基于多尺度上下文增强网络的人群计数方法，包括：输入一张图片，首先经过特征提取后，获得浅层特征与深层特征，然后通过特征融合模块进行特征融合，并将融合到的特征送入多尺度感知模块，最后通过上下文增强模块对特征的空间与通道信息进行编码，获得具有人群分布特征的密度图。通过对密度图像素进行求和可以得到当前图片估计的人数。本发明提供一种基于多尺度上下文增强网络的人群计数方法，可以有效地应对人群计数中存在的多尺度问题，并且通过对特征图的空间与通道上下文信息进行建模，可以对复杂场景的人群进行更精确的计数与密度估计。该发明具有较高的鲁棒性，能向大型人群聚集场所的安全与规划方面提供准确的数据。

Description

基于多尺度上下文增强网络的人群计数方法

技术领域

本发明涉及一种基于多尺度上下文增强网络的人群计数方法。

背景技术

人群计数的主要任务就是估计图像或者视频帧中人的数量与密度分布。精准的人群计数与密度估计可以帮助人们有效地避免因人群高度拥挤而引起踩踏与暴乱事件的发生。

近年来，得益于GPU计算能力的提升与大规模人群数据集的出现，深度学习方法在人群计数领域得到广泛应用，基于卷积神经网络的方法在复杂场景的人群计数任务中取得了显著进步。

但是，在现实场景中，人群计数任务与其他计算机视觉任务一样，都面临着诸多挑战，譬如人群分布不均，尺度视角的变化和相互之间的遮挡等问题，使得人群计数任务变得极具有挑战性。

发明内容

本发明的目的在于提供一种基于多尺度上下文增强网络的人群计数方法。

为解决上述问题，本发明提供一种基于多尺度上下文增强网络的人群计数方法，包括：

步骤一、输入一张图片经过特征提取获得浅层特征与深层特征；

步骤二、特征融合模块将深层特征与浅层特征通过特征融合模块进行特征融合得到融合特征图；

步骤三、将步骤二中得到的融合后特征图通过多尺度感知模块，提取多尺度信息，得到多尺度信息的特征图；

步骤四、通过上下文增强模块对所述多尺度信息的特征图中的空间与通道信息进行编码，获得具有人群分布特征的密度图；

步骤五、通过对所述密度图的像素进行求和得到当前图片估计的人数。

进一步的，在上述方法中，步骤二中的所述特征融合模块，首先将浅层特征通过四个并行的3×3的空洞卷积层，卷积操作的输入通道数为512，输出通道数为128，空洞率分别为1、2、3、4；

然后进行Concat连接将通道重新组合成512通道数的特征图，输出的融合特征图表示为函数式：

X_o＝λ₁X_l×U₂(λ₂X_h) (1)

上述式(1)中，X_l表示经过空洞金字塔后的浅层特征，X_o，X_h分别表示输出特征与深层特征，U₂(·)表示两倍上采样，采用卷积核为1×1的卷积层来学习λ₁，λ₂参数。

进一步的，在上述方法中，步骤三中的所述多尺度感知模块，在步骤二获得融合特征图后，将融合特征图经过两个分支，一个分支有一个3×3卷积层，其有效感受野为3×3，另一个分支有两个3×3卷积层，其有效感受野为5×5；

每个分支都将所述融合特征图降低了1/2的通道数，然后将这两个分支进行得到的特征进行像素相加。

进一步的，在上述方法中，步骤四中所述的上下文增强模块，在步骤三获得多尺度信息的特征图后，将多尺度信息的特征图经过两个注意力模块，分别为位置注意力模块与通道注意注意力模块；其中，位置注意力模块对整个多尺度信息的特征图中的空间信息进行编码，以得到第一特征图，可以提取大范围的上下文信息，对头像位置进行优化；

通道注意力模块对多尺度信息的特征图的每个通道，用一个权重来表示该通道对于生成密度图的重要性，以得到第二特征图；

上下文增强模块然后将得到的第一和第二特征图进行Concat拼接，再通过卷积运算得到1通道预测的密度图。

进一步的，在上述方法中，所述位置注意力模块对于输入多尺度信息的特征图，首先经过一个1×1的卷积操作，然后通过整形与转置操作，再将经过softmax函数获得的位置注意力权重与输入的多尺度信息的特征图进行矩阵相乘，这个过程表示为函数式：

上述式(2)中，{P_i|i∈{1…N}}作为输入特征图，N是特征图中包含的位置个数。P_ij表示第j个位置对第i个位置的影响；

在得到P_ij后，经过两层1×1的卷积操作后与位置注意力的输入特征F_p进行相加操作；最终位置注意力的输出P^final表示为函数式：

其中，为提高注意力的泛化表达能力，在第一层卷积操作后加入了层归一化LN与ReLU激活函数，W_p1与W_p2分别表示在位置注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。

进一步的，在上述方法中，所述通道注意力模块通过全局平均池化后得到通道注意力权重，经过两层1×1的卷积操作后与原始特征图进行相加操作，最终通道注意力的输出C^final表示为函数式：

上述式(4)中，X_m由X_i经过全局平均池化后得到，F_c为通道注意力的输入特征图，W_c1与W_c2分别表示在通道注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。

与现有技术相比，本发明提供一种基于多尺度上下文增强网络的人群计数方法，可以有效地应对人群计数中存在的多尺度问题，并且通过对特征图的空间与通道上下文信息进行建模，可以对复杂场景的人群进行更精确的计数与密度估计。该发明具有较高的鲁棒性，能向大型人群聚集场所的安全与规划方面提供准确的数据。

附图说明

图1是本发明一实施例的基于多尺度上下文增强网络的人群计数方法的整体网络结构图；

图2本发明一实施例的特征融合模块结构图；

图3本发明一实施例的多尺度感知模块结构图；

图4本发明一实施例的上下文增强模块结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于多尺度上下文增强网络的人群计数方法，包括：

在此，本发明鉴于目前人群估计的现状以及人群估计方法中面临的诸多挑战，结合较为前沿的图像处理算法，提出了一种基于多尺度上下文增强网络的人群计数方法。

本发明公开了一种基于多尺度上下文增强网络的人群计数方法，用于估计图片中人群数量，可以有效地预防踩踏事件与暴乱事件的发生。该方法主要包括以下步骤：输入一张图片，首先经过特征提取后，获得浅层特征与深层特征，然后通过特征融合模块进行特征融合，并将融合到的特征送入多尺度感知模块，最后通过上下文增强模块对特征的空间与通道信息进行编码，获得具有人群分布特征的密度图。通过对密度图像素进行求和可以得到当前图片估计的人数。本发明提供一种基于多尺度上下文增强网络的人群计数方法，可以有效地应对人群计数中存在的多尺度问题，并且通过对特征图的空间与通道上下文信息进行建模，可以对复杂场景的人群进行更精确的计数与密度估计。该发明具有较高的鲁棒性，能向大型人群聚集场所的安全与规划方面提供准确的数据。

本发明的基于多尺度上下文增强网络的人群计数方法一实施例中，步骤二中的所述特征融合模块，首先将浅层特征通过四个并行的3×3的空洞卷积层，为了减少参数量，卷积操作的输入通道数为512，输出通道数为128，空洞率分别为1、2、3、4；

然后进行Concat连接将通道重新组合成512通道数的特征图，本发明采用像素相乘的方式来进行特征增强。其输出的融合特征图表示为函数式：

X_o＝λ₁X_l×U₂(λ₂X_h) (1)

在此，本发明使用VGG16网络的前13层，并将第10层输出作为浅层特征，将网络的第13层输出作为深层特征；为了使浅层特征获得更大的感受野，本发明采用一种空洞金字塔的结构来获得更大的感受野，其包含四个并行的3×3的空洞卷积层，为了减少参数量，卷积操作的输入通道数为512，输出通道数为128，空洞率分别为1、2、3、4；然后进行Concat连接将通道重新组合成512通道数的特征图。

本发明采用像素相乘的方式来进行特征增强。其输出的特征图可以表示为函数式：

X_o＝λ₁X_l×U₂(λ₂X_h) (1)

上述式中，X_l表示经过空洞金字塔后的浅层特征，X_o，X_h分别表示输出特征与深层特征，U₂(·)表示两倍上采样，在本发明中采用卷积核为1×1的卷积层来学习λ₁，λ₂。

本发明的基于多尺度上下文增强网络的人群计数方法一实施例中，步骤三中的所述多尺度感知模块，在步骤二获得融合特征图后，将融合特征图经过两个分支，一个分支有一个3×3卷积层，其有效感受野为3×3，另一个分支有两个3×3卷积层，其有效感受野为5×5，这样可以筛选不同尺度的信息；

在此，在本发明的多尺度感知模块中采用2个3×3的卷积层进行串联，其有限感受野是5×5，因此可以通过小尺度卷积核代替大尺度卷积层，并且感受野大小不变；每个多尺度感知模块可以降低1/2的特征图通道数，经过3个多尺度感知模块，其特征图通道数由512降到64。

本发明的基于多尺度上下文增强网络的人群计数方法一实施例中，步骤四中所述的上下文增强模块，在步骤三获得多尺度信息的特征图后，将多尺度信息的特征图经过两个注意力模块，分别对应位置注意力模块与通道注意注意力模块；其中，位置注意力模块对整个多尺度信息的特征图中的空间信息进行编码，以得到第一特征图，可以提取大范围的上下文信息，对头像位置进行优化；

本发明的基于多尺度上下文增强网络的人群计数方法一实施例中，所述位置注意力模块对于输入多尺度信息的特征图，首先经过一个1×1的卷积操作，然后通过整形与转置操作，再将经过softmax函数获得的位置注意力权重与输入的多尺度信息的特征图进行矩阵相乘，这个过程表示为函数式：

在此，在上下文增强模块的位置注意力中，首先输入的特征图经过一个1×1的卷积操作，然后通过整形与转置操作，再将经过softmax函数获得的位置注意力权重与输入特征图进行矩阵相乘，这个过程可表示为函数式：

上述式中，{P_i|i∈{1…N}}作为输入特征图，N是特征图中包含的位置个数。P_ij表示第j个位置对第i个位置的影响。

在得到P_ij后，经过两层1×1的卷积操作后与位置注意力的输入特征F_p进行相加操作。最终位置注意力的输出P^final可表示为函数式：

为提高注意力的泛化表达能力，在第一层卷积操作后加入了层归一化(LN)与ReLU激活函数，W_p1与W_p2分别表示在位置注意力分支上层归一化与ReLU激活函数层前后的两个卷积层的权重。

通道注意力通过全局平均池化后得到通道注意力权重，经过两层1×1的卷积操作后与原始特征图进行相加操作，增强图像全局上下文的获取的能力。最终通道注意力模块的输出C^final可表示为函数式：

上述式中，X_m可由X_i经过全局平均池化后得到，F_c为通道注意力的输入特征，W_c1与W_c2分别表示在通道注意力分支上层归一化与ReLU激活函数层前后的两个卷积层的权重。

本发明的基于多尺度上下文增强网络的人群计数方法一实施例中，所述通道注意力模块通过全局平均池化后得到通道注意力权重，经过两层1×1的卷积操作后与原始特征图进行相加操作，增强图像全局上下文的获取的能力，最终通道注意力的输出C^final表示为函数式：

如图1所示为本发明整体网络结构图，本发明采用VGG16网络的前13层，并且将第13层输出的深层特征与第10层输出的浅层特征通过特征融合模块进行特征融合，得到原图像1/8尺寸与512通道数的特征图。本发明中的多尺度感知模块，可以对多尺度信息进行处理，并且将512通道数的特征图降到64通道。再通过上下文增强模块来对空间与通道信息分别进行有效编码，在增加少量计算的情况下，显著提高网络性能。然后生成1通道的密度图，最终经过8倍上采样得到原图像尺寸，对密度图的像素点进行求和可得到该张图片预测的人数。

如图2所示为本发明特征融合模块结构图。本发明使用VGG16网络的前13层，将网络的第10层输出作为浅层特征，将网络的第13层输出作为深层特征。并且为了使浅层特征获得更大的感受野，本发明采用一种空洞金字塔的结构来获得更大的感受野，其包含四个并行的3×3的空洞卷积层，为了减少参数量，卷积操作的输入通道数为512，输出通道数为128，空洞率分别为1、2、3、4；本发明采用像素相乘的方式来进行特征增强。其输出的特征图可以表示为函数式：

X_o＝λ₁X_l×U₂(λ₂X_h) (1)

上述式中，X_l表示经过空洞金字塔后的浅层特征，X_o，X_h分别表示输出特征与深层特征，U₂(·)表示两倍上采样，本发明采用卷积核为1×1的卷积层来学习λ₁，λ₂。

如图3所示为本发明多尺度感知模块结构图。由于摄像机在拍摄图像时拍摄视角的不同，造成头像的大小不同，因此需要对多尺度信息进行有效的处理。本发明用2个3×3的卷积层进行堆叠，其有限感受野是5×5，因此可以通过小尺度卷积核代替大尺寸卷积层，并且感受野大小不变。每个多尺度感知模块可以降低1/2的特征图通道数，经过3层多尺度感知模块后，特征图通道数由512降到64。

如图4所示为本发明上下文增强模块结构图。本发明将从多尺度感知层得到的特征通过卷积层来降低特征图的通道数，这样可以减少计算量，送入到两个并行注意力中。然后将两种方式得到的特征图进行Concat拼接，再通过卷积运算得到1通道的预测密度图。

图像中的像素之间的是具有联系的，与给定像素相关的区域可能在该点附近，也可能与该像素点较远。位置注意力模块通过建立像素间的远程关系来将更广泛的上下文信息编码为局部特征，从而提高了局部特征的表示能力。对于输入特征图，首先经过一个1×1的卷积操作，然后通过整形与转置操作，再将经过softmax函数获得的位置注意力权重与输入特征图进行矩阵相乘，这个过程可以表示为函数式：

上述式中，{P_i|i∈{1…N}}作为输入特征图，N是特征图中包含的位置个数。X_ij表示第j个位置对第x个位置的影响。

为提高注意力的泛化表达能力，在第一层卷积操作后加入了层归一化(LN)与ReLU激活函数，W_p1与W_p2分别表示在位置注意力分支上的层归一化与ReLU激活函数层前后的两个卷积层的权重。

相比于位置注意力，通道注意力是对位置注意的简化，通过全局平均池化后得到位置注意力权重，然后与位置注意力同样经过两层1×1的卷积操作后与原始特征图进行相加操作，增强图像全局上下文的获取的能力。最终通道注意力的输出C^final可以表示为函数式：

上述式中，X_m可由X_i经过全局平均池化后得到，F_c为通道注意力的输入特征，W_c1与W_c2分别表示在通道注意力分支上的层归一化与ReLU激活函数层前后的两个卷积层的权重。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于多尺度上下文增强网络的人群计数方法，其特征在于，包括：

步骤五、通过对所述密度图的像素进行求和得到当前图片估计的人数；

步骤二中的所述特征融合模块，首先将浅层特征通过四个并行的3×3的空洞卷积层，卷积操作的输入通道数为512，输出通道数为128，空洞率分别为1、2、3、4；

X_o＝λ₁X_l×U₂(λ₂X_h) (1)

上述式(1)中，X_l表示经过空洞金字塔后的浅层特征，X_o，X_h分别表示输出特征与深层特征，U₂(·)表示两倍上采样，采用卷积核为1×1的卷积层来学习λ₁，λ₂参数；

步骤三中的所述多尺度感知模块，在步骤二获得融合特征图后，将融合特征图经过两个分支，一个分支有一个3×3卷积层，其有效感受野为3×3，另一个分支有两个3×3卷积层，其有效感受野为5×5；

每个分支都将所述融合特征图降低了1/2的通道数，然后将这两个分支进行得到的特征进行像素相加；

步骤四中所述的上下文增强模块，在步骤三获得多尺度信息的特征图后，将多尺度信息的特征图经过两个注意力模块，分别为位置注意力模块与通道注意注意力模块；其中，位置注意力模块对整个多尺度信息的特征图中的空间信息进行编码，以得到第一特征图，可以提取大范围的上下文信息，对头像位置进行优化；

上下文增强模块然后将得到的第一和第二特征图进行Concat拼接，再通过卷积运算得到1通道预测的密度图；

所述位置注意力模块对于输入多尺度信息的特征图，首先经过一个1×1的卷积操作，然后通过整形与转置操作，再将经过softmax函数获得的位置注意力权重与输入的多尺度信息的特征图进行矩阵相乘，这个过程表示为函数式：

上述式(2)中，{P_i|i∈{1···N}}作为输入特征图，N是特征图中包含的位置个数；P_ij表示第j个位置对第i个位置的影响；

其中，为提高注意力的泛化表达能力，在第一层卷积操作后加入了层归一化LN与ReLU激活函数，W_p1与W_p2分别表示在位置注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重；

所述通道注意力模块通过全局平均池化后得到通道注意力权重，经过两层1×1的卷积操作后与原始特征图进行相加操作，最终通道注意力的输出C^final表示为函数式：