CN112541459A

CN112541459A - 基于多尺度感知注意力网络的人群计数方法及系统

Info

Publication number: CN112541459A
Application number: CN202011519235.3A
Authority: CN
Inventors: 吕蕾; 谢锦阳; 顾玲玉; 李中会
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-23

Abstract

本发明公开了基于多尺度感知注意力网络的人群计数方法及系统，对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；对初级特征分别进行不同尺度的全局上下文信息提取，得到不同尺度的全局上下文信息；对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息；对每个尺度的全局上下文信息，学习出每个尺度的注意力特征；基于每个尺度的注意力特征和该尺度的全局上下文信息，得到每个尺度的去噪后的上下文信息；将所有尺度的去噪后的上下文信息进行融合得到第一融合结果；将第一融合结果，再与平均池化的全局上下文信息进行融合，得到第二融合结果；对第二融合结果进行解码处理得到密度图，对密度图进行处理得到人群总数。

Description

基于多尺度感知注意力网络的人群计数方法及系统

技术领域

本申请涉及计算机视觉技术领域，特别是涉及基于多尺度感知注意力网络的人群计数方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

人群计数对于视频监控、交通监测和现场理解等应用具有重要意义。特别是在火车站等限制严格的公共场所，据报道，由于这些地方过于拥挤，安全事故、交通延误甚至可怕的踩踏事件时有发生。为了将人群控制在合理的范围内，有必要对人群进行实时记录和监控。当人群超过最大承载量时，活动管理者可以采取适当措施限制人群进出或分流人群。然而，早期的人群统计工作主要依靠人力，速度慢、效率低。近来，随着计算机视觉技术的广泛应用，许多研究者尝试将计算机视觉应用于人群计数，来提高人群监管的效率，并取得了一定的成效。

人群计数的解决方案已经从检测个体逐步推进到生成密度图。通过对密度图进行整合，就可以得到该场景下的人群总数。虽然之前的方法取得了一定的成功，但仍然无法处理高度拥挤的复杂人群场景。最近，随着卷积神经网络(CNN)的广泛应用，许多基于CNN的方法与传统方法相比，在人群计数精度上有了显著的提升。但是，由于尺度变化、背景混淆、人群的大小和形状发生变化等问题，目前的方法仍然无法实现精确的人群计数。目前，人群尺度连续变化的问题仍是人群计数领域最棘手的问题之一。在拥挤的场景中，人群的尺度发生较大变化，但是准确捕捉较大范围的尺度变化是非常困难的，以至于无法对人群场景的尺度变化进行有效编码，导致最终计数精度较差。

近来，为了解决尺度连续变化的问题，大多数方法采用多尺度上下文信息融合的方式。例如MCNN是一种采用多分支CNN架构的人群计数方法，每个分支使用不同大小的卷积核进行特征提取。最后，将不同分支上的特征进行融合，来捕捉图像上的多尺度上下文信息。CrowdNet将浅层网络和深层网络结合在不同列，其中浅层网络捕捉对应大尺度变化的低层特征，深层网络捕捉高层语义信息，最终通过融合来解决密集人群的尺度变化问题。虽然这些方法可能对于处理密集人群的尺度变化是有用的，但它们忽略了局部上下文信息和全局上下文依赖性之间的差异性。因为场景中的局部上下文信息可以提供局部线索，以确定场景中是否存在人群区域信息，从而增强人群的区域特征表示。然而，上述方法不能准确地捕捉局部上下文信息，使得它们可能不足以在复杂环境中进行准确的人群计数。因此，现有方法的计数结果存在较大的误差。

发明内容

为了解决现有技术的不足，本申请提供了基于多尺度感知注意力网络的人群计数方法及系统；针对目前人群计数中较为棘手的尺度变化问题，本发明从多尺度特征提取以及注意力机制引导两个方面入手，研究一种基于多尺度感知注意力网络的人群计数方法，通过引入不同空洞率的空洞卷积，以不同大小的感受野来有效应对人群尺度连续变化的问题。此外引入一种维度注意力机制，通过跨通道捕捉不同维度之间的依赖关系，自适应地将局部上下文信息与全局上下文依赖关系整合起来，来增加多尺度融合的有效性。最终来实现更精确的人群计数。

第一方面，本申请提供了基于多尺度感知注意力网络的人群计数方法；

基于多尺度感知注意力网络的人群计数方法，包括：

获取待处理的目标图像；

对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；

对初级特征分别进行不同尺度的全局上下文信息提取，得到不同尺度的全局上下文信息；同时，对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息；

对每个尺度的全局上下文信息，学习出每个尺度的注意力特征；基于每个尺度的注意力特征和该尺度的全局上下文信息，得到每个尺度的去噪后的上下文信息；将所有尺度的去噪后的上下文信息进行融合得到第一融合结果；将第一融合结果，再与平均池化的全局上下文信息进行融合，得到第二融合结果；

对第二融合结果进行解码处理得到最终的密度图，对密度图进行积分处理，得到图像上的人群总数。

第二方面，本申请提供了基于多尺度感知注意力网络的人群计数系统；

基于多尺度感知注意力网络的人群计数系统，包括：

获取模块，其被配置为：获取待处理的目标图像；

特征提取模块，其被配置为：对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；

全局上下文信息提取模块，其被配置为：对初级特征分别进行不同尺度的全局上下文信息提取，得到不同尺度的全局上下文信息；同时，对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息；

融合模块，其被配置为：对每个尺度的全局上下文信息，学习出每个尺度的注意力特征；基于每个尺度的注意力特征和该尺度的全局上下文信息，得到每个尺度的去噪后的上下文信息；将所有尺度的去噪后的上下文信息进行融合得到第一融合结果；将第一融合结果，再与平均池化的全局上下文信息进行融合，得到第二融合结果；

计数模块，其被配置为：对第二融合结果进行解码处理得到最终的密度图，对密度图进行积分处理，得到图像上的人群总数。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

本发明引入不同空洞率的空洞卷积，于目前常见方法相比，本发明可以在不增加网络的计算量和损失图像分辨率的前提下，增加网络的感受野。并且本发明以不同空洞率的空洞卷积进行并行采样，相当于以不同大小的感受野来适应密集人群尺度的连续变化，可有效缓解尺度变化问题对人群计数带来的影响，增加了本发明的鲁棒性。

对于提取多尺度特征信息后，传统方法大多直接使用1×1的卷积层直接融合，它们忽略了局部上下文信息和全局上下文依赖性之间的差异性，造成最终的特征信息仍含有较多的噪声区域。但是本发明在提取多个尺度上的特征信息后，在每个尺度上引入了一种维度注意力机制，通过跨通道捕捉不同维度之间的依赖关系，自适应地将局部特征与其全局依赖关系集成在一起，有助于逐步过滤噪声，以强调人群区域信息，增加了人群计数的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为基于多尺度感知注意力网络人群计数方法的流程图；

图2为基于多尺度感知注意力网络人群计数方法的原理图；

图3为维度注意力机制的架构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

近年来，注意力模型在各类计算机视觉任务中显示出巨大的成功。与通常的方法从图像的所有区域中提取特征信息不同，注意力机制专注于与任务更相关的特征区域，不需要额外的监督，通过抑制特征图上噪声区域的权重，来突出对任务有用的区域信息。例如SCAR模型从特征图的空间和通道关系出发，设计了空间注意机制和通道注意机制，前者通过编码整个图像的上下文关系，更准确地预测最终的密度图。后者通过提取不同通道之间更多的分辨特征，减少噪声区域的误判。

实施例一

本实施例提供了基于多尺度感知注意力网络的人群计数方法；

如图1和图2所示，基于多尺度感知注意力网络的人群计数方法，包括：

S101：获取待处理的目标图像；

S102：对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；

S103：对初级特征分别进行不同尺度的全局上下文信息提取，得到不同尺度的全局上下文信息；同时，对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息；

S104：对每个尺度的全局上下文信息，学习出每个尺度的注意力特征；基于每个尺度的注意力特征和该尺度的全局上下文信息，得到每个尺度的去噪后的上下文信息；

将所有尺度的去噪后的上下文信息进行融合得到第一融合结果；将第一融合结果，再与平均池化的全局上下文信息进行融合，得到第二融合结果；

S105：对第二融合结果进行解码处理得到最终的密度图，对密度图进行积分处理，得到图像上的人群总数。

作为一个或多个实施例，所述S102：对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；具体步骤包括：

使用改进的VGG16网络，对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；

所述改进的VGG16网络，为对VGG16网络只保留前10个卷积层，删除后六个卷积层、全连接层和softmax分类器。

示例性的，本步骤本采用经过预训练的VGG-16网络的前十层作为共享主干来提取初级特征信息。在具体实验中，首先将训练集中的每张训练样本输入到该网络中，进行初级特征信息的提取，为下面的操作提供低层次的空间视觉信息，如边缘、圆圈等。

对于训练集中的每张训练图像，将输入到初级特征提取网络中，进行初级特征信息提取，来为下面的操作提供低层次的空间视觉信息。本发明采用经过预训练的VGG-16网络的前十层作为共享主干来提取初级特征信息。给定一张训练图像，它输出特征图F:

F＝F_vgg(I) (1)

其中F_vgg()代表经过预训练的VGG-16网络的前十层。

作为一个或多个实施例，所述S103：对初级特征分别进行不同尺度的全局上下文信息提取，得到不同尺度的全局上下文信息；具体步骤包括：

对初级特征，采用1*1的卷积层进行全局上下文特征提取，得到第一尺度的全局上下文特征；

对初级特征，采用空洞率为6的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第二尺度的全局上下文特征；

对初级特征，采用空洞率为12的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第三尺度的全局上下文特征；

对初级特征，采用空洞率为18的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第四尺度的全局上下文特征。

由于上步骤提取的初级特征信息只能编码相同的感受野，不能编码多个尺度上的特征信息。为了有效应对尺度变化，本发明在该步骤引入空洞卷积，通过使用多个不同空洞率的空洞卷积，对输入特征进行并行采样，相当于用多个不同的感受野来获得不同尺度上的全局上下文信息。但是，由于多个平行的空洞卷积保持了每个特征通道的独立性，限制了全局上下信息的表达能力，因此我们还对上步骤得到的初级特征进行全局平均池化操作，来获得更丰富的上下文信息。

由于F_vgg的局限性在于它在整个图像上编码相同的接受场，因此它不能提取多个尺度上的特征信息。为了解决这个问题，本发明引入了空洞卷积，通过采用不同的空洞率的空洞卷积来捕捉多尺度的特征信息。

具体来说，本发明采用了一个1×1普通卷积和三个空洞率分别为6、12、18的3×3空洞卷积，并且每个卷积都有与输入特征相同的通道数。当输入特征F，四个卷积分别提取不同尺度上的特征F_i(i＝1,2,3,4)。

作为一个或多个实施例，所述S103：对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息；具体步骤包括：

采用全局平均池化层，对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息。

由于四个并行的空洞卷积保持了每个特征信道的独立，限制了全局上下文的表示能力，所以为了纳入丰富的上下文信息,我们对输入的特征F应用全局平均池化操作，具体操作为

F_p＝U_bi(Conv(Pool(F))) (2)

其中Pool为全局平均池化。Conv为是一个具有内核大小为1的卷积网络，在不改变其维数的情况下，跨通道组合上下文特征。U_bi表示双线性插值，上采样上下文特征使其与F大小相同。

作为一个或多个实施例，所述S104：对每个尺度的全局上下文信息，学习出每个尺度的注意力特征；具体步骤包括：

对第一尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取，将三个分支提取的特征进行聚合操作，得到第一尺度的注意力特征；

对第二尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取，将三个分支提取的特征进行聚合操作，得到第二尺度的注意力特征；

对第三尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取，将三个分支提取的特征进行聚合操作，得到第三尺度的注意力特征；

对第四尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取，将三个分支提取的特征进行聚合操作，得到第四尺度的注意力特征。

其中，对第一、第二、第三和第四尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取的提取过程是相同的。

进一步地，所述对第一尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取，将三个分支提取的特征进行聚合操作，得到第一尺度的注意力特征；具体步骤包括：

对第一尺度的全局上下文特征F沿着H轴逆时针旋转90度，得到第一特征图；H轴为直角坐标系的竖轴，W轴为直角坐标系的横轴，C轴为直角坐标系的纵轴；对旋转特征图经过平均池化操作得到第一平均集合特征；对旋转特征图经过全局池化操作得到第一最大集合特征，对第一平均集合特征和第一最大集合特征执行Z-pool操作，得到第二特征图；对第二特征图进行卷积处理和批归一化处理，得到第三特征图；将第三特征图输入到Sigmoid函数层中，生成注意力权重；将产生的注意力权重与第一特征图相乘，得到第四特征图；对第四特征图，沿着H轴顺时针旋转90度，得到第一分支的特征；

对第一尺度的全局上下文特征F沿着W轴逆时针旋转90度，得到第五特征图；H轴为直角坐标系的竖轴，W轴为直角坐标系的横轴，C轴为直角坐标系的纵轴；对旋转特征图经过平均池化操作得到第二平均集合特征；对旋转特征图经过全局池化操作得到第二最大集合特征，对第二平均集合特征和第二最大集合特征执行Z-pool操作，得到第六特征图；对第六特征图进行卷积处理和批归一化处理，得到第七特征图；将第七特征图输入到Sigmoid函数层中，生成注意力权重；将产生的注意力权重与第五特征图相乘，得到第八特征图；对第八特征图，沿着W轴顺时针旋转90度，得到第二分支的特征；

对第一尺度的全局上下文特征F经过平均池化操作得到第三平均集合特征；对旋转特征图经过全局池化操作得到第三最大集合特征，对第三平均集合特征和第三最大集合特征执行Z-pool操作，得到第九特征图；对第九特征图进行卷积处理和批归一化处理，得到第十特征图；将第十特征图输入到Sigmoid函数层中，生成注意力权重；将产生的注意力权重与第九特征图相乘，得到第三分支的特征；

将第一分支的特征、第二分支的特征和第三分支的特征进行平均操作，得到第一尺度的注意力特征。

提取到的多尺度特征信息存在一定的噪声区域，为了进一步强调每个尺度上的人群区域特征信息，在本步骤中，本发明引入一种维度注意力机制，来学习每个尺度上不同区域的权重，将局部上下文信息(在每个尺度上拥有不同权重的局部区域上的上下文信息)和全局上下文依赖自适应地融合在一起。其中维度注意力将跨通道来捕捉不同维度之间的依赖关系，逐步过滤噪声区域信息，以强调人群区域信息。在将每个尺度上的特征信息输入到维度注意力之后，将得到该尺度上的注意力特征。最后，利用这些注意力特征来计算最终每个尺度上的上下文特征，以提高多尺度融合的有效性。

为了了解每个尺度上局部特征的重要性，强调那些与人群特征更相关的区域，本项目在每个尺度上引入了一种维度注意力机制，来进一步增强人群区域的特征表示。其中维度注意力机制(见图3)通过利用三个分支来跨通道来捕捉不同维度之间的依赖关系.在第一个分支中，本发明建立了高度维度和通道维度之间的交互，首先，将每个尺度上的特征F沿H轴逆时针旋转90°，此时得到大小为(W×H×C)的旋转特征图

然后

通过Z-pool操作，得到形状为(2×H×C)的

之后，

通过大小为k×k的卷积层，接下来是批处理归一化层，它提供大小为(1×H×C)的中间输出

然后将中间输出

通过一个sigmoid激活层生成注意力权重。随后将产生的注意力权重应用于

然后沿H轴顺时针旋转90°，以保持F的原始输入形状。其中上面的Z-pool层是将该维度上的平均集合和最大集合特征连接起来，使该层能够保留实际特征的丰富表示，同时缩小其深度。

同理，第二个分支中，本发明建立了宽度维度和通道维度之间的交互。第三个分支用于构建空间注意。最终，将三个分支中的每个分支生成的细化特征图F然后通过平均操作来聚合得到最终的注意力特征F_a

作为一个或多个实施例，所述S104：基于每个尺度的注意力特征和该尺度的全局上下文信息，得到每个尺度的去噪后的上下文信息；具体步骤包括：

每个尺度的注意力特征和该尺度的全局上下文信息进行相乘处理，得到每个尺度的去噪后的上下文信息。

利用这些注意力特征来计算最终每个尺度上的上下文特征，具体操作为

其中S代表不同的尺度，a_i,f_i代表每个尺度上的注意力特征和原始特征。⊙是注意力特征和原始特征之间的元素乘法。通过该操作，自适应地将局部上下文信息与全局上下文在各个尺度上的依赖关系整合在一起，提高了多尺度融合的有效性。

作为一个或多个实施例，所述S104：将所有尺度的去噪后的上下文信息进行融合得到第一融合结果；具体步骤包括：

将所有尺度的去噪后的上下文信息，通过通道连接进行融合得到第一融合结果。

作为一个或多个实施例，所述S104：将第一融合结果，再与平均池化的全局上下文信息进行融合，得到第二融合结果；具体步骤包括：

将第一融合结果，再与平均池化的全局上下文信息进行通道连接，得到第二融合结果。

作为一个或多个实施例，所述S105：对第二融合结果进行解码处理得到最终的密度图，对密度图进行积分处理，得到图像上的人群总数；具体步骤包括：

通过解码器，对第二融合结果进行解码处理得到最终的密度图，对密度图进行积分处理，得到图像上的人群总数。

在本步骤，首先使用通道连接操作，进行所有尺度上的特征信息融合，然后将其传递给由串联的6个3×3的空洞卷积层组成的解码器，这些卷积层回归产生最终的密度图。对最终得到的密度图进行积分，来得到最终该图像上的人群总数。

对最终得到的密度图进行积分，来得到最终该图像上的人群总数。具体公式如下：

其中，C是训练图像经过本发明得到的估计总数，H是密度图的高度，W是密度图的宽度,P_ij是整幅密度图在坐标(i,j)处的像素值。

实施例二

本实施例提供了基于多尺度感知注意力网络的人群计数系统；

基于多尺度感知注意力网络的人群计数系统，包括：

获取模块，其被配置为：获取待处理的目标图像；

此处需要说明的是，上述获取模块、特征提取模块、全局上下文信息提取模块、融合模块和计数模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多尺度感知注意力网络的人群计数方法，其特征是，包括：

获取待处理的目标图像；

2.如权利要求1所述的基于多尺度感知注意力网络的人群计数方法，其特征是，对待处理的目标图像进行初级特征提取，得到目标图像的初级特征；具体步骤包括：

3.如权利要求1所述的基于多尺度感知注意力网络的人群计数方法，其特征是，对初级特征分别进行不同尺度的全局上下文信息提取，得到不同尺度的全局上下文信息；具体步骤包括：

对初级特征，采用空洞率为6的3*3空洞卷积层进行全局上下文特征提取，得到第二尺度的全局上下文特征；

对初级特征，采用空洞率为12的3*3空洞卷积层进行全局上下文特征提取，得到第三尺度的全局上下文特征；

对初级特征，采用空洞率为18的3*3空洞卷积层进行全局上下文特征提取，得到第四尺度的全局上下文特征。

4.如权利要求1所述的基于多尺度感知注意力网络的人群计数方法，其特征是，对初级特征进行全局平均池化操作，得到平均池化的全局上下文信息；具体步骤包括：

5.如权利要求1所述的基于多尺度感知注意力网络的人群计数方法，其特征是，对每个尺度的全局上下文信息，学习出每个尺度的注意力特征；具体步骤包括：

6.如权利要求1所述的基于多尺度感知注意力网络的人群计数方法，其特征是，所述对第一尺度的全局上下文特征，采用维度注意力机制的并列三个分支分别进行特征提取，将三个分支提取的特征进行聚合操作，得到第一尺度的注意力特征；具体步骤包括：

7.如权利要求1所述的基于多尺度感知注意力网络的人群计数方法，其特征是，基于每个尺度的注意力特征和该尺度的全局上下文信息，得到每个尺度的去噪后的上下文信息；具体步骤包括：

8.基于多尺度感知注意力网络的人群计数系统，其特征是，包括：

获取模块，其被配置为：获取待处理的目标图像；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。