CN112541466A

CN112541466A - 基于上下文注意力机制网络的人群计数方法及系统

Info

Publication number: CN112541466A
Application number: CN202011521833.4A
Authority: CN
Inventors: 吕蕾; 顾玲玉; 谢锦阳; 李中会
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-23

Abstract

本发明公开了基于上下文注意力机制网络的人群计数方法及系统，包括：获取待处理目标图像；对待处理目标图像进行特征提取，得到初始特征；对初始特征进行不同尺度的上下文特征提取，得到多尺度的上下文特征；对多尺度的上下文特征，提取空间注意力特征；同时，对待处理目标图像的上下文特征，提取全局注意力特征；将空间注意力特征和全局注意力特征进行特征融合，得到融合特征；对融合后的特征进行密度回归得到人群密度图；对人群密度图进行人群计数，得到人群计数结果。

Description

基于上下文注意力机制网络的人群计数方法及系统

技术领域

本申请涉及计算机视觉技术领域，特别是涉及基于上下文注意力机制网络的人群计数方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

随着社会经济的发展和人口数量的不断增加，人群活动的多样性导致了车站、景点、商场等公共场所人群愈发拥挤，这给公共管理以及公共安全带来巨大的挑战。一旦场景中人群密度过高，拥挤的人群容易引发踩踏事件，而合理地使用人群计数技术可以预防一些严重事故的发生。人群计数是计算机视觉领域非常热门的一个研究方向，它广泛的应用于视频监控、交通控制和应急管理等方面。

早期的人群计数的研究工作大多通过基于检测的方法提取图像中每个个体的低级特征以实现人群计数的目的。这类方法适用于人群稀疏且个体明显的场景。而基于回归的方法则可以较好地避免上述问题，这类方法通过网络去学习图像中个体的特征进而回归出图像中总人数。但是这类方法学习的特征与人的关联性不是强相关的，所以鲁棒性较差，表现为当测试环境变化时，很容易失控，且可解释性也较差。相比较基于检测和回归的方法，基于密度图的方法弱化了在训练时对回归以及分类的需求，加强了对目标是否存在这一现象的表现，并且更具有解释性。因此，基于密度图的方法被广泛应用于人群计数，这种方法更多地依赖于头部注释图片进而生成密度图来定位人群，这大大的提高了人群计数的精度。但是由于个体之间严重的遮挡、人群密度分布不均、尺度变化等问题，人群计数领域仍然面临着诸多挑战。

为了克服上述问题，研究人员采用基于卷积神经网络的方法提取场景中不同个体的尺度特征来实现更为精准的人群计数。这类方法通过卷积滤波器提取输入图像中各个区域的特征，从而生成高精度的人群密度图。为了应对摄像机视角引起的头部尺度变化以及高密度场景下人群分布不均的问题，大部分方法选择采用多列或多分辨率的网络结构进行人群计数，这种网络结构通过使用不同尺寸的滤波器和池化操作来获取不同的尺度信息。虽然这种方法表现出了比较稳健的性能，但是仍有几个比较明显的缺点，一是这类方法的结构中不同列在相同深度下的提取的低级特征极为相似，这导致网络结构臃肿，并使得网络的训练时间增加。二是这类方法不加区分地融合所有尺度上的信息导致了图像尺度变化的连续性被忽略。三是由于上下文信息只融合了不同尺度的特征，不能有效的学习语义感知，所以这并不是解决图像中人群大规模变化问题的最佳方法。

发明内容

为了解决现有技术的不足，本申请提供了基于上下文注意力机制网络的人群计数方法及系统；本申请不仅探索了跨尺度提取上下文特征的方法，同时采用注意力机制网络结构改善模型对场景的感知性，提高密度图的质量和分辨率。

第一方面，本申请提供了基于上下文注意力机制网络的人群计数方法；

基于上下文注意力机制网络的人群计数方法，包括：

获取待处理目标图像；

对待处理目标图像进行特征提取，得到初始特征；

对初始特征进行不同尺度的上下文特征提取，得到多尺度的上下文特征；

对多尺度的上下文特征，提取空间注意力特征；同时，对待处理目标图像的上下文特征，提取全局注意力特征；

将空间注意力特征和全局注意力特征进行特征融合，得到融合特征；对融合后的特征进行密度回归得到人群密度图；对人群密度图进行人群计数，得到人群计数结果。

第二方面，本申请提供了基于上下文注意力机制网络的人群计数系统；

基于上下文注意力机制网络的人群计数系统，包括：

获取模块，其被配置为：获取待处理目标图像；

初始特征提取模块，其被配置为：对待处理目标图像进行特征提取，得到初始特征；

上下文特征提取模块，其被配置为：对初始特征进行不同尺度的上下文特征提取，得到多尺度的上下文特征；

空间注意力与全局注意力特征提取模块，其被配置为：对多尺度的上下文特征，提取空间注意力特征；同时，对待处理目标图像的上下文特征，提取全局注意力特征；

人群计数模块，其被配置为：将空间注意力特征和全局注意力特征进行特征融合，得到融合特征；对融合后的特征进行密度回归得到人群密度图；对人群密度图进行人群计数，得到人群计数结果。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

该网络由前端网络、上下文特征信息提取模块、注意力机制模块组成。前端网络采用VGG-16的前十个卷积层，用于提取图像的低级特征。

上下文特征信息提取模块使用4个不同的尺度，其相应的块大小为{1,2,3,6}。通过模块设计，它可以应对图像尺度连续变化，提取出每个图像位置上重要的特征，在多个尺度上捕获上下文信息，进一步提高人群计数的性能。

注意力机制模块由空间注意力机制和全局注意力机制组成。它被添加到上下文特征信息提取模块后面作为两个并行的块对特征图进行不同的处理，它被设计用来获取特征图的语义信息。

空间注意力机制是对整个空间信息进行编码，通过空间注意力机制将注意力集中在特征图中前景区域上，然后利用这些区域动态增强特征响应。

全局注意力机制是对处理特征图中通道之间的关系，捕获特征图中的重要通道，有效减少高密度场景下的估计误差。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为基于上下文注意力网络人群计数方法的流程图；

图2为基于上下文注意力网络人群计数方法的原理图；

图3为上下文特征信息提取模块原理图；

图4为空间注意力模块原理图；

图5为全局注意力模块原理图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于上下文注意力机制网络的人群计数方法；

如图1和图2所示，基于上下文注意力机制网络的人群计数方法，包括：

S101：获取待处理目标图像；

S102：对待处理目标图像进行特征提取，得到初始特征；

S103：对初始特征进行不同尺度的上下文特征提取，得到多尺度的上下文特征；

S104：对多尺度的上下文特征，提取空间注意力特征；同时，对待处理目标图像的上下文特征，提取全局注意力特征；

S105：将空间注意力特征和全局注意力特征进行特征融合，得到融合特征；对融合后的特征进行密度回归得到人群密度图；对人群密度图进行人群计数，得到人群计数结果。

作为一个或多个实施例，所述S102：对待处理目标图像进行特征提取，得到初始特征；具体包括：

使用改进的VGG16网络，对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；

所述改进的VGG16网络，为对VGG16网络只保留前10个卷积层，删除后六个卷积层、全连接层和softmax分类器。

将图像通过前端网络提取低级特征，网络采用的是VGG16的前10层，给定图像I，输出具有512个通道的特征：

f_v＝F_vgg(I) (1)。

所述初始特征，例如是指边缘特征。

作为一个或多个实施例，所述S103：对初始特征进行不同尺度的上下文特征提取，得到多尺度的上下文特征；具体包括：

对初始特征进行第一尺度的平均池化划分，得到含有1*1个块的特征图；对含有1*1个块的特征图进行上采样操作，得到第一分支的特征图；

对初始特征进行第二尺度的平均池化划分，得到含有2*2个块的特征图；对含有2*2个块的特征图进行上采样操作，得到第二分支的特征图；

对初始特征进行第三尺度的平均池化划分，得到含有3*3个块的特征图；对含有3*3个块的特征图进行上采样操作，得到第三分支的特征图；

对初始特征进行第四尺度的平均池化划分，得到含有6*6个块的特征图；对含有6*6个块的特征图进行上采样操作，得到第四分支的特征图；

对第一分支的特征图、第二分支的特征图、第三分支的特征图和第四分支的特征图进行融合，得到融合后的特征图；

将融合后的特征图与初始特征进行连接，得到多尺度的上下文特征。

将提取的低级特征通过上下文特征信息提取模块获取丰富的上下文信息，网络采用4个不同尺度的图像分块，相应块的大小分别为{1,2,3,4}，来提取不同尺度的上下文信息。

由于VGG-16提取的特征局限在于整个图像上获取的感受野。为了解决这个问题，我们设计了上下文特征信息提取模块，如图3所示。首先，本文将VGG16提取的低层特征通过平均池化划分为1x1、2x2、3x3、6x6四个不同的块。利用这些块对各分支的感受野进行精细区分，获得不同尺度下的特征信息。该模块使用4个不同尺度的图像分块，其相应块的大小为p(j)×p(j)∈{1,2,3,6}，因为它比其他设置显示更好的性能，然后，通过上采样将特征图还原到与输入特征图f_v相同的大小，并融合四个分支输出的特征图。最后，将融合后的特征图与原始特征f_v连接，得到多尺度的上下文特征。上下文特征信息提取的计算公式为：

C_j＝U_bi(F_j(P_ave(f_v,j),θ_j))+f_v (2)

其中，对于每个尺度j,P_ave(f_v,j)将VGG-16输出的特征平均为p(j)×p(j)个块；F_j是一个内核大小为1的卷积网络，用于在不更改其尺寸的情况下跨通道组合上下文特征；U_bi表示双线性插值，用于将上下文特征数组上采样为与f_v大小相同的尺度。

作为一个或多个实施例，所述S104：对多尺度的上下文特征，提取空间注意力特征；具体包括：

对多尺度的上下文特征，通过不同卷积率的并列三个卷积层分别提取特征，得到第一特征图、第二特征图和第三特征图；

对第一特征图进行python中的reshape操作，对矩阵进行重塑，得到特征图A11；

对第二特征图进行reshape操作，得到特征图A12’，对特征图A12’进行转置操作得到特征图A12；

对第三特征图进行reshape操作，得到特征图A13；

对特征图A11和特征图A12进行矩阵相乘matrix multiplication操作，得到matrix multiplication第一操作结果；并对matrix multiplication第一操作结果进行softmax操作得到特征图S；

对特征图S和特征图A13进行matrix multiplication操作，得到matrixmultiplication第二操作结果；对matrix multiplication第二操作结果进行reshape操作，得到中间特征图；

对中间特征图与多尺度的上下文特征进行对应元素逐个相乘element-wise操作，得到最终的空间注意力特征。

空间注意力机制是通过reshape、transpose等操作对矩阵进行变形，再通过matrix multiplication和element-wise sum来捕捉特征图密度分布的变化，并将注意力聚焦于前景区域。

如图4所示，首先，空间注意力机制将上下文特征信息提取模块提取的特征A(C×H×W)作为输入，分别通过3个不同卷积率的1×1卷积层conv1、conv2、conv3提取特征，分别生成3个新的特征图B、C和D，它们的大小均为C×H×W。然后，将C进行reshape操作，得到A₁,其大小为C×HW。B先进行reshape操作，得到A₂′,其大小为C×HW，再进行转置操作,得到A₂，大小为HW×C。将D进行reshape操作，得到A₃，大小为C×HW。最后，为了获得空间注意力机制的图，对A₁、A₂进行matrix multiplication和softmax操作，从而获得S，大小为HW×HW。

其中，S_ji表示在第i个位置上，S对第j个位置的影响，两个位置的特征图越相似，它们之间的相关性越强。

得到S后，再将A₃和S用matrix multiplication，输出特征图大小为C×HW，再通过reshape操作输出特征图大小为C×H×W。

为了能够在全局信息中标注注意区域的信息，对每个位置上提取的特征图和感知金字塔模块提取的特征图进行element-wise运算，得到最终的输出E,其大小为C×H×W。空间注意力机制通过一个可学习的因子λ来缩放输出。最后，输出特征图定义如下：

其中λ是一个可学习的参数。在实验中，通过一个核大小为1×1的卷积层来学习λ。

由式(4)可知，每个位置的特征是所有位置的特征与上下文特征信息提取模块输出的特征的加权和。它具有全局视野，并基于空间注意力机制生成的注意力图选择性地聚合上下文。因此，空间注意力机制通过将注意力集中在前景区域，使人群的位置更加准确，从而提高了计数的效率。

作为一个或多个实施例，所述S104：对待处理目标图像的上下文特征，提取全局注意力特征；具体包括：

对多尺度的上下文特征，通过同一个卷积层，提取出特征图M；

对特征图M进行reshape操作，得到特征图A21；

对特征图M进行reshape操作，得到特征图A22’，对特征图A22’进行转置操作得到特征图A22；

对特征图M进行reshape操作，得到特征图A23；

对特征图A22和特征图A23进行matrix multiplication操作，得到matrixmultiplication第三操作结果；对matrix multiplication第三操作结果，进行softmax操作得到特征图X；

对特征图X和特征图A21进行matrix multiplication操作，得到matrixmultiplication第四操作结果；对matrix multiplication第四操作结果，进行reshape操作，得到reshape操作结果；

对reshape操作结果乘以尺度参数，得到乘积；将乘积与多尺度的上下文特征进行element-wise操作，得到最终的全局注意力机制特征。

与空间注意力机制相比，全局注意力机制只有一个1x1卷积层来处理图像各个通道之间的依赖关系，选择性地增强重要的通道，同时抑制不必要通道的信息。

如图5所示，与空间注意力机制相比，全局注意力机制只有一个1x1卷积层来处理感知金字塔模块输出的特征图，并且中间特征映射的大小不同。全局注意力机制的具体网络结构如图5所示。同样地，全局注意力机制将感知金字塔模块提取的特征A作为输入,大小为C×H×W。A分别3次通过1×1的卷积层提取特征，第一次输出的特征图进行reshape操作，得到A₁,其大小为C×HW。第二次输出的特征图先进行reshape操作，得到A₂′,其大小为C×HW，再进行转置操作,得到A₂，大小为HW×C。第三次输出的特征图进行reshape操作，得到A₃，大小为C×HW。对A₂、A₃进行matrix multiplication和softmax操作，从而获得X，大小为C×C。

其中，X_ji表示第i个位置X对第j个位置的影响，两个位置的特征图越相似，它们之间的相关性越强。得到X后，再将A₁和X进行matrix multiplication，输出特征图大小为C×HW，再通过reshape操作输出特征图大小为C×H×W。将其乘以尺度参数μ，并与特征A进行element-wise，完成特征融合，得到最终的输出F，其大小为C×H×W。最后，全局注意力机制的输出定义如下：

其中μ从0开始逐渐学习一个权重。在实践中，通过一个核大小为1x1的卷积层来学习μ。

全局注意力机制通过对不相关区域的信道进行抑制，缓解了背景噪声和人群分布不均匀的问题，保证了高分辨率的输出，在一定程度上提高了计数精度。

作为一个或多个实施例，所述S105：将空间注意力特征和全局注意力特征进行特征融合，得到融合特征；具体包括：

通过通道拼接，将空间注意力特征和全局注意力特征进行特征融合，得到融合特征。

作为一个或多个实施例，所述对人群密度图进行人群计数，得到人群计数结果；具体包括：

获取人群密度图，对密度图像素值进行累加求和，得到最终估计人数。

将空间注意力机制和全局注意力机制输出的特征图进行融合，对融合后的特征图进行密度回归，得到高质量的人群密度图。对密度图像素值进行累加求和，得到最终的人群计数的数值。

对得到的空间注意力机制输出的特征图和全局注意力机制输出的特征图使用通道拼接进行特征拼接，融合提取得到的特征，使融合的特征图定位信息加强，得到结合全局密度图特征的特征图。再将特征图分别进行密度图回归，得到人群密度图。

通过特征图融合可以兼顾丰富的上下文信息与语义信息，使融合的特征包含更加丰富的信息。

获取人群密度图，对密度图像素值进行累加求和，得到最终密度集人群计数结果得到估计人数。

实施例二

本实施例提供了基于上下文注意力机制网络的人群计数系统；

基于上下文注意力机制网络的人群计数系统，包括：

获取模块，其被配置为：获取待处理目标图像；

此处需要说明的是，上述获取模块、初始特征提取模块、上下文特征提取模块、空间注意力与全局注意力特征提取模块和人群计数模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于上下文注意力机制网络的人群计数方法，其特征是，包括：

获取待处理目标图像；

对待处理目标图像进行特征提取，得到初始特征；

2.如权利要求1所述的基于上下文注意力机制网络的人群计数方法，其特征是，对待处理目标图像进行特征提取，得到初始特征；具体包括：

3.如权利要求1所述的基于上下文注意力机制网络的人群计数方法，其特征是，对初始特征进行不同尺度的上下文特征提取，得到多尺度的上下文特征；具体包括：

4.如权利要求1所述的基于上下文注意力机制网络的人群计数方法，其特征是，对多尺度的上下文特征，提取空间注意力特征；具体包括：

对第一特征图进行reshape操作，得到特征图A11；

对第三特征图进行reshape操作，得到特征图A13；

对特征图A11和特征图A12进行matrix multiplication操作，得到matrixmultiplication第一操作结果；并对matrix multiplication第一操作结果进行softmax操作得到特征图S；

对中间特征图与多尺度的上下文特征进行element-wise操作，得到最终的空间注意力特征。

5.如权利要求1所述的基于上下文注意力机制网络的人群计数方法，其特征是，对待处理目标图像的上下文特征，提取全局注意力特征；具体包括：

对特征图M进行reshape操作，得到特征图A21；

对特征图M进行reshape操作，得到特征图A23；

6.如权利要求1所述的基于上下文注意力机制网络的人群计数方法，其特征是，将空间注意力特征和全局注意力特征进行特征融合，得到融合特征；具体包括：

7.如权利要求1所述的基于上下文注意力机制网络的人群计数方法，其特征是，所述对人群密度图进行人群计数，得到人群计数结果；具体包括：

8.基于上下文注意力机制网络的人群计数系统，其特征是，包括：

获取模块，其被配置为：获取待处理目标图像；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。