CN112766123A

CN112766123A - 一种基于纵横交叉注意力网络的人群计数方法及系统

Info

Publication number: CN112766123A
Application number: CN202110033752.8A
Authority: CN
Inventors: 康春萌; 孟琛; 盛星; 吕蕾
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-05-07
Anticipated expiration: 2041-01-11
Also published as: CN112766123B

Abstract

本公开公开的一种基于纵横交叉注意力网络的人群计数方法及系统，包括：获取人群图像；从人群图像中提取局部特征图；将局部特征图输入循环纵横交叉注意力模块中，输出注意力特征图；根据注意力特征图获得人群密度图；根据人群密度图，获得人群图像对应的人群数。通过循环纵横交叉注意力模块获取了图像的上下文信息，提高了人群计数的效率和准确率。

Description

一种基于纵横交叉注意力网络的人群计数方法及系统

技术领域

本发明涉及人群计数技术领域，尤其涉及一种基于纵横交叉注意力网络的人群计数方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着城市中人口密度的大幅增加，人们聚集行为越来越多，出于人群控制和公共安全的目的，从图像或者视频中准确估计人数已经成为计算机方面的重要应用。由于图像内的尺度变化、遮挡，人群分布不均，光照变化等因素的影响，人群计数的算法受到一定的挑战。

现有的人群计数的方法主要有三种：基于检测计数、基于回归计数和基于卷积神经网络计数。基于检测的人群计数在稀疏场景中具有较高的检测精度，但在密集场景中，特别是在存在遮挡和背景混乱的情况时，其结果将不尽人意；基于回归的计数成功解决了场景中的遮挡和背景混乱问题，但却忽略了空间信息；而目前主流的方法是基于卷积神经网络的人群计数，该方法主要包括单列和多列两种网络结构，单列一般部署单一且深度比较深的卷积神经网络，但它忽略了场景中的多尺度信息，使得计数结果准确率较低；多列一般采用不同的列来捕获场景中的多尺度信息，但是多列的结构往往参数众多，臃肿的网络会消耗大量资源，且计算的效率较低。

发明内容

本公开为了解决上述问题，提出了一种基于纵横交叉注意力网络的人群计数方法及系统，使用循环纵横交叉注意力模块，捕获每个像素的上下文信息，从而更高效的准确预测人群密度图，减少背景区域的错误估计，提高人群计数为准确率和效率。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于纵横交叉注意力网络的人群计数方法，包括：

获取人群图像；

从人群图像中提取局部特征图；

将局部特征图输入循环纵横交叉注意力模块中，输出注意力特征图；

根据注意力特征图获得人群密度图；

根据人群密度图，获得人群图像对应的人群数。

第二方面，提出了一种基于纵横交叉注意力网络的人群计数系统，包括：

图像采集模块，用于获取人群图像；

局部特征图获取模块，用于从人群图像中提取局部特征图；

注意力特征图获取模块，用于将局部特征图输入循环纵横交叉注意力模块中，输出注意力特征图；

人群密度图获取模块，用于根据注意力特征图获得人群密度图；

人群计数模块，用于根据人群密度图，获得人群图像对应的人群数。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于纵横交叉注意力网络的人群计数方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于纵横交叉注意力网络的人群计数方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开引入了包括两个纵横交叉注意力模型的循环纵横交叉注意力模块，通过纵横交叉注意力模型在水平和垂直方向上聚合上下文信息，通过依次堆叠的两个纵横交叉注意力模型，使注意力特征图的每个位置都可以从所有像素收集上下文信息，因此能够捕获整个图像的上下文信息，从而更高效的准确预测人群密度图，减少背景区域的错误估计，提高人群计数的效率和准确率。

2、本公开使用的循环纵横交叉注意力模块，在每一个纵横交叉注意力模型里面，每个像素只与特征图的相关行列连接，而不是所有位置，这使得模型具有更少的资源消耗和更高的计算效率，提高了人群计数的效率和资源消耗。

3、本公开在提取局部特征图时，在局部特征提取模块中添加了膨胀卷积模块，相比标准卷积，在具有同样参数的情况下可以获得更大的感受野，使获得的局部特征图包含了更多的上下文信息，进一步提高人群计数的效率和准确率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开的人群计数方法的流程图；

图2为本公开实施例1公开的人群计数方法的原理图；

图3为本公开实施例1公开的VGG-16Net的主干网络原理图；

图4为本公开实施例1公开的膨胀卷积模块原理图；

图5为本公开实施例1公开的纵横交叉注意力模型原理图；

图6为本公开实施例1公开的循环纵横交叉注意力模块原理图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

在该实施例中，如图1所示，公开了一种基于纵横交叉注意力网络的人群计数方法，包括：

获取人群图像；

从人群图像中提取局部特征图；

根据注意力特征图获得人群密度图；

根据人群密度图，获得人群图像对应的人群数。

进一步的，对人群图像进行预处理，从预处理后的人群图像中提取局部特征图。

进一步的，将人群图像输入局部特征提取模块中提取局部特征图。

进一步的，局部特征提取模块包括VGG-16Net的卷积层和膨胀卷积模块，人群图像经VGG-16Net的卷积层提取初始特征图后，将初始特征图输入膨胀卷积模块中输出局部特征图。

进一步的，循环纵横交叉注意力模块包括两个连接的纵横交叉注意力模型，局部特征图输入一个纵横交叉注意力模型中提取初始注意力特征图后，将初始注意力特征图输入另一个纵横交叉注意力模型中获取最终的注意力特征图。

进一步的，将注意力特征图进行卷积和上采样操作后，获得人群密度图。

进一步的，对人群密度图进行积分，获得人群图像对应的人群数。

对一种基于纵横交叉注意力网络的人群计数方法进行详细说明。

步骤一：获取人群图像，对人群图像进行预处理，将人群图像大小调整为576×768，这将使最终生成的人群密度图大小一致，然后利用带有标签的图像生成真实的人群密度图。

步骤二：将预处理调整大小后的人群图像输入局部特征提取模块，局部特征提取模块包括如图3所示的VGG-16Net的前十个卷积层和如图4所示的膨胀卷积模块，两者依次连接，经VGG-16Net的前十个卷积层输出初始特征图，初始特征图经膨胀卷积模块，最终输出具有64通道并且大小是原图1/8的局部特征图，图3、4中的[k(3,3)-c64-s1-R]×2，代表在卷积过程中，卷积核大小为3×3，通道数为64，步长为1，R代表添加ReLU函数，乘2表示这样的卷积层有两层。通过采用膨胀卷积模块输出的局部特征图比只采用VGG-16主干网络输出的特征图包含更多的上下文信息，但是它仍然缺少大范围的空间上下文信息，而且不对注意力特征编码，为此，我们设计了循环纵横交叉注意力模块。

步骤三：将通过特征提取模块获得的局部特征图输入循环纵横交叉注意力模块，如图6所示，循环纵横交叉注意力模块包括两个纵横交叉注意力模型，纵横交叉注意力模型如图5所示，局部特征图通过一个纵横交叉注意力模型获取初始注意力特征图后，将初始注意力特征图输入另一个纵横交叉注意力模型中获取最终的注意力特征图。

将局部特征图H输入纵横交叉注意力模型，其中H∈R^C×W×H，C代表通道数，H首先通过两个1×1的卷积得到Q和K，Q,K∈R^C'^×W×H,C'<C。然后通过一个Affinity操作得到注意力图A∈R^{(H+W-1)×W×H}。Affinity操作定义如下：

对于Q的一个位置u，可以得到一个向量Q_u∈R^C',然后在K中找一个集合，该集合就是和u在同一行同一列的元素集合，得到Ω_u∈R^(H+W-1)×C'，Ω_i,u∈R^C'是Ω_u的第i个元素。Affinity公式为：

在得到所有的d之后，利用一个softmax操作得到注意力图A。

在H上利用一个1×1的卷积得到V∈R^C×W×H。在V的一个位置u，也可以得到一个向量V_u∈R^C,同时得到集合Φ_u，这个集合包含了在V中和位置u一致的同行同列的元素，即Φ_u∈R^(H+W-1)×C。通过aggregation操作得到初始注意力特征图H'：

其中H'∈R^C×W×H，A_i,u是A中位置u对应的特征向量中第i个值，H_u是原特征。

步骤四：生成的初始注意力特征图H'，初始注意力特征图H'聚合了水平和垂直方向上的上下文信息，为了获得更丰富和更密集的上下文信息，再次将初始注意力特征图H'输入纵横交叉注意力模型中，生成最终的注意力特征图H”，这样注意力特征图H”的每个位置都从所有像素收集了上下文信息，从而捕获了图像的全局上下文信息。

步骤五：将生成的注意力特征图H”输入一个1×1卷积，映射成单一通道的密度图；然后通过上采样×8操作，映射成与原来输入的人群图像相同大小的人群密度图，最终通过对人群密度图积分求和得出人群图像对应的人群数。

本公开通过局部特征提取模块能够提取输入的人群图像的特征，获取局部特征图，通过两个纵横交叉注意力模型能够捕获全局的上下文信息，可以更高效的准确预测人群密度图，同时减少背景区域的错误估计。

本公开所述方案中使用了空洞卷积，相比标准卷积，在具有同样参数的情况下可以获得更大的感受野，包含了更多的上下文信息，使计算效率有所提升。

本公开所述方案中引入了一个纵横交叉注意力模型，纵横交叉的注意力模块在水平和垂直方向上聚合上下文信息，通过依次堆叠两个纵横交叉的注意模块，图像的每个位置都可以从所有像素收集上下文信息，因此能够捕获整个图像的上下文信息。

本公开所述方案中设计了循环纵横交叉注意力模型，在每一个从横交错模块里面，每个像素只与特征图的相关行列连接，而不是所有位置，这使得模型具有更少的资源消耗和更高的计算效率。

实施例2

在该实施例中，公开了一种基于纵横交叉注意力网络的人群计数系统，包括：

图像采集模块，用于获取人群图像；

局部特征图获取模块，用于从人群图像中提取局部特征图；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于纵横交叉注意力网络的人群计数方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于纵横交叉注意力网络的人群计数方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于纵横交叉注意力网络的人群计数方法，其特征在于，包括：

获取人群图像；

从人群图像中提取局部特征图；

根据注意力特征图获得人群密度图；

根据人群密度图，获得人群图像对应的人群数。

2.如权利要求1所述的一种基于纵横交叉注意力网络的人群计数方法，其特征在于，对人群图像进行预处理，从预处理后的人群图像中提取局部特征图。

3.如权利要求1所述的一种基于纵横交叉注意力网络的人群计数方法，其特征在于，将人群图像输入局部特征提取模块中提取局部特征图。

4.如权利要求3所述的一种基于纵横交叉注意力网络的人群计数方法，其特征在于，局部特征提取模块包括VGG-16Net的卷积层和膨胀卷积模块，人群图像经VGG-16Net的卷积层提取初始特征图后，将初始特征图输入膨胀卷积模块中输出局部特征图。

5.如权利要求1所述的一种基于纵横交叉注意力网络的人群计数方法，其特征在于，循环纵横交叉注意力模块包括两个连接的纵横交叉注意力模型，局部特征图输入一个纵横交叉注意力模型中提取初始注意力特征图后，将初始注意力特征图输入另一个纵横交叉注意力模型中获取最终的注意力特征图。

6.如权利要求1所述的一种基于纵横交叉注意力网络的人群计数方法，其特征在于，将注意力特征图进行卷积和上采样操作后，获得人群密度图。

7.如权利要求1所述的一种基于纵横交叉注意力网络的人群计数方法，其特征在于，对人群密度图进行积分，获得人群图像对应的人群数。

8.一种基于纵横交叉注意力网络的人群计数系统，其特征在于，包括：

图像采集模块，用于获取人群图像；

局部特征图获取模块，用于从人群图像中提取局部特征图；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种基于纵横交叉注意力网络的人群计数方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种基于纵横交叉注意力网络的人群计数方法的步骤。