CN111523449A

CN111523449A - 基于金字塔注意力网络的人群计数方法及系统

Info

Publication number: CN111523449A
Application number: CN202010320955.0A
Authority: CN
Inventors: 吕蕾; 顾玲玉; 谢锦阳; 陈梓铭; 张金玲
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-11

Abstract

本发明公开了基于金字塔注意力网络的人群计数方法及系统，包括：获取待计数图像；将获取的待计数图像，输入到训练好的基于金字塔注意力网络中，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征和第二特征，然后将提取的第一特征和第二特征进行特征融合，得到全局特征图；将全局特征图进行密度图回归，得到人群密度图；对人群密度图进行积分，得到最终的人群计数数值。

Description

基于金字塔注意力网络的人群计数方法及系统

技术领域

本公开涉及计算机视觉技术领域，特别是涉及基于金字塔注意力网络的人群计数方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

随着踩踏事件的频繁发生，为了人群控制和公众安全，准确地估计来自图像的人群的人数已经成为计算机视觉技术越来越重要的应用。计算机视觉技术中的人群计数任务是自动计算图像中的人数。为了在诸如公众集会和体育赛事等许多场景中帮助控制人群和公共安全，准确的人群计数显得越来越重要。

在大多数需要进行人群计数和密度估计的场景下，人群的密集度均较高，也就造成了严重的遮挡、目标尺度不一致的问题。早期的方法一般使用基于检测和回归的方法统计场景中人的总数。

由于密集人群遮挡严重、目标尺寸相差较大，基于检测的方法效果较差；而直接回归场景中人的数目从获取一个目标函数的角度来讲使问题的输入域和输出域相差很大，也就导致了目标函数更难以拟合，也无法达到较好的效果。

针对以上两种传统方法的不足，基于深度学习卷积神经网络的方法被用于密集人群图像的估计中。目前主流的估计方法采用了密度图的思想，即设计一个神经网络，网络的输入为原始图像，而输出为人群的密度图。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

近年来，基于多尺度提取特征的方法成为了人群计数的主流，此类方法既可以简化任务的目标函数，也可以在统计人群总数的基础上得到信息更加充足的人群密度分布，为后续的其他应用提供更大的帮助。

目前效果较好的方法为基于多路卷积的方法，使用多路具有不同大小卷积核的卷积神经网络提取原始图像中的多尺度信息，之后将得到的多组特征图进行融合，得到最终的密度图，在一定程度上解决了人群计数中最为棘手的多尺度问题。

但此类方法由于使用多路不同的卷积神经网络，多路分支的参数及其提取的特征均存在大量冗余，同时由于参数量巨大，计算复杂度高、计算速度慢，为了控制参数导致网络较浅，每一路分支网络都无法充分地提取相应的信息，在一定程度上限制了其效果。

发明人发现，现有技术中的针对图像处理的人群计数方法，存在效率低和准确率低的技术缺陷。

发明内容

为了解决现有技术的不足，本公开提供了基于金字塔注意力网络的人群计数方法及系统；

第一方面，本公开提供了基于金字塔注意力网络的人群计数方法；

基于金字塔注意力网络的人群计数方法，包括：

获取待计数图像；

将获取的待计数图像，输入到训练好的基于金字塔注意力网络中，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征和第二特征，然后将提取的第一特征和第二特征进行特征融合，得到全局特征图；将全局特征图进行密度图回归，得到人群密度图；

对人群密度图进行积分，得到最终的人群计数数值。

第二方面，本公开提供了基于金字塔注意力网络的人群计数系统；

基于金字塔注意力网络的人群计数系统，包括：

获取模块，其被配置为：获取待计数图像；

人群密度图提取模块，其被配置为：将获取的待计数图像，输入到训练好的基于金字塔注意力网络中，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征和第二特征，然后将提取的第一特征和第二特征进行特征融合，得到全局特征图；将全局特征图进行密度图回归，得到人群密度图；

输出模块，其被配置为：对人群密度图进行积分，得到最终的人群计数数值。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本公开的有益效果是：

1、本公开通过考虑到不同级别特征的不同特征，来自第二特征的图包含许多噪声，而来自第一特征的图仅获得近似区域，解决了第一特征和第二特征的不同尺度特征融合对特征提取有效功能影响的问题。

2、本公开通过提出用于图像显著性检测的金字塔特征注意力网络(PyramidFeature Attention)，对于第一特征，采用上下文感知金字塔特征提取模块(CPFE)和通道注意力模块(CA)来捕获丰富的上下文信息；对于第二特征，采用空间注意力模块(SA)过滤掉一些背景细节，充分提取待检测图像中的特征信息，提高了人群计数的良好效果。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为实施例一的基于金字塔注意力网络人群计数方法的流程图；

图2为实施例一的基于金字塔注意力网络人群计数方法的原理图；

图3(a)-图3(d)为实施例一的上下文感知金字塔特征提取模块(CPFE)原理图；

图4(a)-图4(b)为实施例一的通道注意力模块(CA)和空间注意力模块(SA)原理图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为了使本发明能够更加清楚地理解其技术原理，下面结合附图具体、详细地阐述本发明实施例。

实施例一

本实施例提供了基于金字塔注意力网络的人群计数方法；

如图1所示，基于金字塔注意力网络的人群计数方法，包括：

S100：获取待计数图像；

S200：将获取的待计数图像，输入到训练好的基于金字塔注意力网络中，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征和第二特征，然后将提取的第一特征和第二特征进行特征融合，得到全局特征图；将全局特征图进行密度图回归，得到人群密度图；

S300：对人群密度图进行积分，得到最终的人群计数数值。

所述第一特征为高级特征，所述第二特征为低级特征，所述高级与低级是相对而言的。

作为一个或多个实施例，如图2所示，所述基于金字塔注意力网络，包括：

并列的第二特征提取分支和第一特征提取分支；

所述第二特征提取分支，包括：依次连接的第一输入模块、第一卷积层和空间注意力模块SA；

所述第一输入模块，包括：并列的第一输入单元和第二输入单元；第一输入单元和第二输入单元的输入端均用于输入待计数图像；第一输入单元和第二输入单元的输出端均与第一卷积层连接；

所述第一特征提取分支，包括：依次连接的第二输入模块、上下文感知金字塔特征取模块CPFE、通道注意力模块CA、第二卷积层和上采样函数层连接；

所述第二输入模块，包括：并列的第三输入单元、第四输入单元和第五输入单元，其中，第三输入单元、第四输入单元和第五输入单元的输入端均用于输入待计数图像；第三输入单元、、第四输入单元和第五输入单元的输出端均与CPFE模块连接；

第一卷积层的输出端与上采样函数层的输出端均与加法器的输入端连接，加法器的输出端与第三卷积层连接。

进一步地，所述第一输入单元，是VGG-16网络的第三个卷积模块的第一个卷积层conv1-2，用于提取输入图片第二特征。

进一步地，所述第二输入单元，是VGG-16网络的第三个卷积模块的第二个卷积层conv2-2，用于提取输入图片第二特征。

进一步地，所述第三输入单元，是VGG-16网络的第三个卷积模块的第三个卷积层conv3-3，用于提取输入图片第一特征。

进一步地，所述第四输入单元，是VGG-16网络的第四个卷积模块的第三个卷积层conv4-3，用于提取输入图片第一特征。

进一步地，所述第五输入单元，是VGG-16网络的第五个卷积模块的第三个卷积层conv5-4，用于提取输入图片第一特征。

进一步地，第一卷积层，用于提取多尺度特征。

进一步地，SA模块，针对前景区域，获得显著对象和背景之间的详细边界。

进一步地，CPFE模块，用于对多尺度高层次特征映射来获得上下文特征。

进一步地，CA模块，用于在上下文感知金字塔特征提取之后将CA模块添加到加权多尺度多感知域第一特征，CA将为通道提供更大的权重，这些通道对显著对象表现出高响应。

进一步地，第二卷积层，用于得到第一特征图。

进一步地，上采样函数层，用于将特征图采样到合适的分辨率。

进一步地，如图3(a)-图3(d)所示，所述CPFE模块，包括：

第一CFE模块、第二CFE模块、第三CFE模块、卷积层C1、卷积层C2和卷积层C3；

所述第一CFE模块的输入端与卷积层conv3-3的输出端连接，第一CFE模块的输出端与卷积层C1连接；卷积层C1与CA模块的输入端连接；

所述第二CFE模块的输入端与卷积层conv4-3的输出端连接，第二CFE模块的输出端与卷积层C2连接；卷积层C2与CA模块的输入端连接；

所述第三CFE模块的输入端与卷积层conv5-3的输出端连接，第三CFE模块的输出端与卷积层C3连接；卷积层C3与CA模块的输入端连接。

所述第一CFE模块、第二CFE模块与第三CFE模块的内部结构一致。

其中，第一CFE模块，包括：

输入端口，所述输入端口分别与三个3x3不同膨胀率的卷积层连接，三个3x3不同膨胀率的卷积层的输出端均与一个1x1卷积层的输入端连接，一个1x1卷积层的输出端与输出端口连接。

进一步地，如图4(a)所示，所述CA模块，包括：

依次连接的池化层、第一全连接层、ReLU函数层、第二全连接层和第一Sigmoid函数层，其中池化层的输入端与CPFE模块的输出端连接；第一Sigmoid函数层的输出端与第一加权求和单元的输入端连接，第一加权求和单元的输入端还与CPFE模块的输出端连接，加权求和单元的输出端与第二卷积层连接；

其中，池化层，用于将每个应用平均合并以获得通道方向特征向量；

第一全连接层，用于完全捕获通道依赖性；

ReLU函数层，用于编码通道方向特征向量；

第二全连接层，用于完全捕获通道依赖性；

第一Sigmoid函数层，用于将归一化处理度量采用映射到[0,1]的编码的通道方向特征向量；

第一加权求和单元，用于获得CA模块的最终输出。

进一步地，如图4(b)所示，所述SA模块，包括：

第四卷积层、第五卷积层、第六卷积层和第七卷积层；

所述第四卷积层和第五卷积层的输入端均与第一卷积层的输出端连接；

第四卷积层的输出端与第六卷积层的输入端连接，

第五卷积层的输出端与第七卷积层的输入端连接；

第六卷积层的输出端和第七卷积层的输出端与加和单元的输入端连接；

加和单元的输出端与第二Sigmoid函数层输入端连接；

第二Sigmoid函数层输出端与第二加权求和单元的输入端连接；

第二加权求和单元输入端还与加权特征连接；

第二加权求和单元输出端与加法器的输入端连接。

其中，第四卷积层、第五卷积层、第六卷积层和第七卷积层，用于增加接收场和获取全局信息。

加和单元，用于将不同卷积层得到的特征进行空间上的拼接。

第二Sigmoid函数层，用于对映射到[0,1]的编码空间特征映射进行归一化处理。

第二加权求和单元，用于获得SA模块的最终输出。

作为一个或多个实施例，所述训练好的基于金字塔注意力网络，训练过程包括：构建训练集；构建基于金字塔注意力网络；所述训练集包括：已知人数计数值标签的图像；将训练集输入到基于金字塔注意力网络中进行训练，当损失函数达到最小值或者满足迭代次数时，停止训练，即得到训练好的基于金字塔注意力网络。

作为一个或多个实施例，如图3(a)-图3(d)所示，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征；具体步骤包括：

将待计数图像，通过第三输入单元、第四输入单元和第五输入单元提取多尺度特征；

将多尺度特征输入到上下文感知金字塔特征提取模块CPFE中，为了使最终提取的第一特征包含尺度和形状不变性的特征，采用具有不同扩张率的卷积，其被设置为3,5和7以捕获上下文信息。通过跨通道连接组合来自不同尺度卷积层的特征映射和1×1降低维度；获得具有上下文感知信息的三种不同比例特征，并将两个尺度较小的特征上采样到最大的一个；通过跨通道连接将三种特征组合为上下文感知金字塔特征提取模块CPFE的输出。

将上下文感知金字塔特征提取模块CPFE的输出结果，再输入到通道注意力CA模块中，CA模块将为通道提供设定权重；

将CA模块的输出结果，输入到第二卷积层得到第一特征图，上采样函数层对第一特征图采样到设定的分辨率；最后得到提取的第一特征。

应理解的，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征；采用VGG-16的conv3-3，conv4-3和conv5-4来提取多尺度特征。将提取的多尺度特征输入到CPFE模块中，具体而言，将VGG-16中的conv3-3，conv4-3和conv5-4作为基础网络。为了使最终提取的第一特征包含尺度和形状不变性的特征，采用具有不同扩张率的卷积，VGG-16中的conv3-3，conv4-3和conv5-4被设置卷积核为3,5和7以捕获多感受接收场上下文信息。

在上下文感知金字塔特征提取之后，将通道注意力模块(CA)添加到加权多尺度多感知域第一特征。通道注意力模块(CA)将为通道提供更大的权重，这些通道对显著对象表现出高响应。

此后通过跨通道连接组合来自不同的多孔卷积层的特征映射和1×1降维特征进行组合。在此之后，获得具有上下文感知信息的三种不同比例特征，并将conv4-3和conv5-4两个较小的特征上采样到最大的一个。

最后，通过跨通道连接将它们组合为上下文感知金字塔特征提取模块(CPFE)的输出。

第一特征

当f_i ^h∈R^W×H，f^h是第i个切片，C是通道数。

首先，对每个f_i ^h应用平均合并以获得通道方向特征向量V^h∈R∧C。

之后，两个连续的全连接层FC完全捕获通道依赖性(如图4(a)所示)。

为了限制模型复杂性和辅助泛化，通过形成围绕非线性的两个全连接层FC的瓶颈来编码通道方向特征向量。

然后，通过使用ReLU函数映射，将归一化处理度量采用映射到[0,1]的编码的通道方向特征向量。

CA＝F(v^h,W)＝σ(f_c2(δ(f_c1(v^h,W₁)),W₂))

其中W指的是通道注意力模块CA中的参数，σ₁指的是S形操作，f_c指的是FC层，δ指的是ReLU函数。

通过用通道注意力模块CA加权上下文感知金字塔特征提取模块来获得终输出

作为一个或多个实施例，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第二特征；具体步骤包括：

将待计数图像，通过第一输入单元和第二输入单元进行特征提取；

将提取的特征，输入到第一卷积层，进行卷积操作得到特征图；

将第一卷积层的输出的特征图，输入到SA模块，通过从前景区域获得显著对象和背景之间的边界。

将SA模块的输出结果，作为第二特征，输出。

应理解的，将图像通过第二特征网络提取特征，网络采用的是VGG-16中的conv1-2，conv2-2。然后通过3×3卷积得到特征图，低层次特征提取后再通过空间注意力模块(SA)作为输出。

第二特征，f^l∈R^W×H×C组空间位置由R＝{(x,y)|x＝1,...,W；y＝1,...,H}表示，其中j＝(x,y)是

对应第二特征的空间坐标。

为了增加感受野和获取全局信息但不增加参数，应用两种卷积层，一种内核是1×k而另一种是k×1，用于捕获空间关注的第一特征(参见图4(b))。然后，使用sigmoid函数映射，对映射到[0,1]的编码空间特征映射进行归一化处理。

其中W指的是空间注意力模块SA中的参数，C是通道数，σ₂指sigmoid函数，conv1和conv2分别指1×k×C和k×1×1卷积层，设定k＝9，

为通过用通道注意力模块CA加权上下文感知金字塔特征提取模块来获得的最终输出。通过用空间注意力模块SA加权f^l来获得最终输出

作为一个或多个实施例，将提取的第一特征和第二特征进行特征融合，得到全局特征图；具体步骤包括：

对得到的第一特征图和第二特征图使用通道拼接法进行特征拼接，得到特征图；将拼接得到的特征图再经过一个卷积核大小为1x1的卷积处理，使融合信息的特征图进行定位信息加强，得到对应的定位信息加强的特征图。

具体的，将提取的第一特征和第二特征进行特征融合的具体操作是：使输入数据的张量保持行维度不变，对列维度进行拼接，得到全局特征图。

应理解的，通过特征图融合，一方面可以兼顾高层语义信息与底层细节信息，使融合的特征包含更加丰富的信息；另一方面可以有效提升模型集成效率，使模型集成更多子模型，从而更好地涵盖目标可能的尺度，提升模型对多尺度目标的感知效果。

作为一个或多个实施例，将全局特征图进行密度图回归，得到人群密度图；具体步骤包括：将全局特征图通过1x1卷积层，进行密度图回归，得到最终密度图。

作为一个或多个实施例，对人群密度图进行积分，得到最终的人群计数数值；具体步骤包括：

其中，C是最终估计的人数，H是密度图的高度，W是密度图的宽度,P_ij是整幅密度图在坐标(i,j)处的像素值。

实施例二

本实施例提供了基于金字塔注意力网络的人群计数系统；

基于金字塔注意力网络的人群计数系统，包括：

获取模块，其被配置为：获取待计数图像；

图像处理模块，其被配置为：将获取的待计数图像，输入到训练好的基于金字塔注意力网络中，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征和第二特征，然后将提取的第一特征和第二特征进行特征融合，得到全局特征图；将全局特征图进行密度图回归，得到人群密度图；

此处需要说明的是，上述获取模块、图像处理模块和输出模块对应于实施例一中的步骤S100至S300，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于金字塔注意力网络的人群计数方法，其特征在于，包括：

获取待计数图像；

对人群密度图进行积分，得到最终的人群计数数值。

2.如权利要求1所述的方法，其特征在于，所述基于金字塔注意力网络，包括：

并列的第二特征提取分支和第一特征提取分支；

所述第一特征提取分支，包括：依次连接的第二输入模块、上下文感知金字塔特征取模块CPFE模块、通道注意力模块CA模块、第二卷积层和上采样函数层连接；

3.如权利要求1所述的方法，其特征在于，

所述第一输入单元，是VGG-16网络的第三个卷积模块的第一个卷积层conv1-2，用于提取输入图片第二特征；

所述第二输入单元，是VGG-16网络的第三个卷积模块的第二个卷积层conv2-2，用于提取输入图片第二特征；

所述第三输入单元，是VGG-16网络的第三个卷积模块的第三个卷积层conv3-3，用于提取输入图片第一特征；

所述第四输入单元，是VGG-16网络的第四个卷积模块的第三个卷积层conv4-3，用于提取输入图片第一特征；

所述第五输入单元，是VGG-16网络的第五个卷积模块的第三个卷积层conv5-4，用于提取输入图片第一特征；

第一卷积层，用于提取多尺度特征；

空间注意力模块SA，针对前景区域，获得显著对象和背景之间的详细边界；

上下文感知金字塔特征取模块CPFE模块，用于得多尺度高层次特征映射来获得上下文特征；

通道注意力模块CA模块，用于在上下文感知金字塔特征提取之后将CA模块添加到加权多尺度多感知域第一特征，CA将为通道提供更大的权重，这些通道对显著对象表现出高响应；

第二卷积层，用于得到第一特征图；

上采样函数层，用于将特征图采样到设定的分辨率。

4.如权利要求3所述的方法，其特征在于，所述CA模块，包括：

第一全连接层，用于完全捕获通道依赖性；

ReLU函数层，用于编码通道方向特征向量；

第二全连接层，用于完全捕获通道依赖性；

第一加权求和单元，用于获得CA模块的最终输出。

5.如权利要求1所述的方法，其特征在于，所述SA模块，包括：

第四卷积层、第五卷积层、第六卷积层和第七卷积层；

第四卷积层的输出端与第六卷积层的输入端连接，

第五卷积层的输出端与第七卷积层的输入端连接；

加和单元的输出端与第二Sigmoid函数层输入端连接；

第二Sigmoid函数层输出端与第二加权求和单元的输入端连接；

第二加权求和单元输入端还与加权特征连接；

第二加权求和单元输出端与加法器的输入端连接；

其中，第四卷积层、第五卷积层、第六卷积层和第七卷积层，用于增加接收场和获取全局信息；

加和单元，用于将不同卷积层得到的特征进行空间上的拼接；

第二Sigmoid函数层，用于对映射到[0,1]的编码空间特征映射进行归一化处理；

第二加权求和单元，用于获得SA模块的最终输出。

6.如权利要求1所述的方法，其特征在于，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第一特征；具体步骤包括：

将多尺度特征输入到上下文感知金字塔特征提取模块CPFE中，采用具有不同扩张率的卷积层捕获上下文信息；通过跨通道连接组合来自不同尺度卷积层的特征映射和1×1降低维度；获得具有上下文感知信息的三种不同尺度特征，并将两个尺度较小的特征上采样到最大的一个；通过跨通道连接将三种特征组合为上下文感知金字塔特征提取模块CPFE的输出；

7.如权利要求1所述的方法，其特征在于，训练好的基于金字塔注意力网络对待计数图像进行特征提取，提取出第二特征；具体步骤包括：

将第一卷积层的输出的特征图，输入到SA模块，通过从前景区域中获得显著对象和背景之间的边界；

将SA模块的输出结果，作为第二特征，输出。

8.基于金字塔注意力网络的人群计数系统，其特征在于，包括：

获取模块，其被配置为：获取待计数图像；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。