CN112580545A

CN112580545A - 基于多尺度自适应上下文网络的人群计数方法及系统

Info

Publication number: CN112580545A
Application number: CN202011552667.4A
Authority: CN
Inventors: 吕蕾; 谢锦阳; 顾玲玉
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-30
Anticipated expiration: 2040-12-24
Also published as: CN112580545B

Abstract

本发明提供一种基于多尺度自适应上下文网络的人群计数方法及系统，属于机器视觉技术领域，采用经过预训练的VGG‑16网络对人群图像进行初级特征信息提取，获得初级特征图像；采用多个并行排列的自适应卷积网络对初级特征图像进行多尺度上下文信息提取；其中，每个自适应卷积网络用于提取特定尺度上的上下文信息；根据对应尺度上的上下文信息获取人群图像最终的上下文信息；将最终的上下文信息进行解码回归得到最终的密度图；对最终的密度图进行积分计算，得到人群图像上的人群总数。本发明可自适应地捕获多个尺度上的上下文信息，以较小的卷积核获得更大的感受野，降低了计算量，增大了鲁棒性，通过学习自适应地融合多尺度特征信息，提高了计数准确性。

Description

基于多尺度自适应上下文网络的人群计数方法及系统

技术领域

本发明涉及机器视觉技术领域，具体涉及一种基于多尺度自适应上下文网络的人群计数方法及系统。

背景技术

人群计数是指预测特定图像中存在的总人数的任务，其在视频监控、交通控制和大都市安全等方面的广泛应用，近年来引起了人们的广泛关注。早期的人群计数主要可分为两类，一种是检测个体的身体或头部，另一种是学习从图像的全局或局部特征到预测计数的映射。但是由于这些方法的局限性，使得它们在复杂的环境无法对人群做到精确的估计。最近，许多研究人员尝试使用卷积神经网络(CNN)进行人群计数，并且得益于卷积神经网络的局部学习能力，目前人群计数的工作不仅可以预测特定图像的人群总数，而且还可以预测人群的空间范围的密度映射。

尽管目前基于CNN的人群计数方法与传统方法相比，计数结果已经得到较大提升，但是由于背景杂乱、密集遮挡和尺度变化等问题的存在，人群计数仍然是一项具有挑战性的任务。其中尺度变化问题是最近人群计数领域最受关注的一个问题。所谓尺度变化是指个体的大小(或人头的大小)随着与摄像机的距离的变化而变化。所以在同一幅图像中会出现不同大小的人群尺度。而不同的尺度会包含不同的特征信息，并且是高度互补的。例如，较高层次的特征编码高级语义，而较低层次的特征包含外观细节。所以如何更好的解决尺度变化问题，并且充分利用丰富的多尺度特征信息成为目前人群计数领域的一个重要课题。

在深度卷积神经网络中，不同尺度的个体可以被具有不同感受野的卷积核捕获。同样特定的感受野通常对应于特定大小的个体。因此在密集的人群场景中，可以通过使用不同的感受野来捕获人群尺度的连续变化。目前常用的方法是并行使用多个不同大小的卷积核来捕获多尺度信息。然而，实验证明，对大尺度的个体使用较大感受野的效果并不是最优的，因为当使用较大内核的卷积核时，模型的参数和计算成本也随之增加了，并且也增加了过拟合的风险。所以为了在不增加模型计算量的情况下获得更大感受野，一些方法在DeepNet中进行了降采样操作，虽然这样获得了更大感受野，但是却降低了特征图的空间分辨率，影响了生成密度图的质量。最近，一些研究开始尝试引入空洞卷积来解决这一问题，与传统卷积相比，空洞卷积可以在不增加额外参数和损失图像分辨率的情况下扩大感受野。例如ASPP使用具有不同空洞率的多个平行空洞卷积来捕获多尺度信息。但实验证明它虽然可以在一定程度上处理尺度变化，但是它在空洞率和尺度变化范围之间很难实现权衡。此外，采用空洞卷积可能会丢失临近信息，较大的空洞率可能导致网格伪影的现象。

发明内容

本发明的目的在于提供一种可适应连续的尺度变化、捕捉更大的感受野的基于多尺度自适应上下文网络的人群计数方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于多尺度自适应上下文网络的人群计数方法，包括如下步骤：

采用经过预训练的VGG-16网络对人群图像进行初级特征信息提取，获得初级特征图像；

采用多个并行排列的自适应卷积网络对初级特征图像进行多尺度上下文信息提取；其中，每个自适应卷积网络用于提取特定尺度上的上下文信息；

根据对应尺度上的上下文信息获取人群图像最终的上下文信息；

将最终的上下文信息进行解码回归得到最终的密度图；

对最终的密度图进行积分计算，得到人群图像上的人群总数。

优选的，所述每一个自适应卷积网络包括一个降维分支和一个池化分支，降维分支对初级特征图像进行降维；池化分支对初级特征图像进行自适应池化。

优选的，根据对应尺度上自适应卷积网络内卷积核的内核大小，对初级特征图像进行自适应池化，进行卷积降维后，对降维分支和池化分支进行深度分离卷积操作，得到该尺度上的上下文信息。

优选的，在提取到的每个尺度上的上下文信息后，将该尺度上的上下文信息与提取到的初级特征信息进行做差，得到该尺度上的对比特征；

将对比特征作进行卷积，得到该尺度上的权重图；

使用多个尺度上的权重计算人群图像最终的上下文信息。

优选的，由多个空洞卷积组成的解码器对最终上下文信息进行解码回归产生最终的密度图。

优选的，对最终得到的密度图进行积分，得到最终人群图像上的人群总数包括：

其中，C表示人群总数，H表示密度图的高度，W表示密度图的宽度，p_xy表示整幅密度图在坐标(x,y)处的像素值。

优选的，计算人群图像最终的上下文信息f_F为：

其中，f_v表示初级特征信息，w_i表示尺度i上的权重，s表示尺度的个数，f_i表示尺度i上的上下文信息，[·|·]表示信道级连接操作，Θ表示权重和上下文信息之间的元素乘积操作。

第二方面，本发明提供一种基于多尺度自适应上下文网络的人群计数系统，包括：

第一提取模块，用于采用经过预训练的VGG-16网络对人群图像进行初级特征信息提取，获得初级特征图像；

第二提取模块，用于采用多个并行排列的自适应卷积网络对初级特征图像进行多尺度上下文信息提取；其中，每个自适应卷积网络用于提取特定尺度上的上下文信息；

感知模块，用于根据对应尺度上的上下文信息获取人群图像最终的上下文信息；

解码模块，用于将最终的上下文信息进行解码回归得到最终的密度图；

计算模块，用于对最终的密度图进行积分计算，得到人群图像上的人群总数。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的方法。

第四方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本发明有益效果：采用多个并行排列的自适应卷积模块来自适应地捕获多个尺度上的上下文信息，可有效应对尺度连续变化对人群计数带来的影响，以较小的卷积核获得了更大的感受野，有效降低了计算量，增大了鲁棒性，通过学习如何为每个像素位置权衡这些特征信息，自适应地融合多尺度特征，提高了计数准确性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于多尺度自适应上下文网络的人群计数方法流程图。

图2为本发明实施例所述的基于多尺度自适应上下文网络的人群计数系统网络架构图。

图3为本发明实施例所述的自适应卷积网络原理框图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本发明实施例1提供一种基于多尺度自适应上下文网络的人群计数系统，其特征在于，包括：第一提取模块，用于采用经过预训练的VGG-16网络对人群图像进行初级特征信息提取，获得初级特征图像；第二提取模块，用于采用多个并行排列的自适应卷积网络对初级特征图像进行多尺度上下文信息提取；其中，每个自适应卷积网络用于提取特定尺度上的上下文信息；感知模块，用于根据对应尺度上的上下文信息获取人群图像最终的上下文信息；解码模块，用于将最终的上下文信息进行解码回归得到最终的密度图；计算模块，用于对最终的密度图进行积分计算，得到人群图像上的人群总数。

在本实施例1中，基于上述系统，实现了一种基于多尺度自适应上下文网络的人群计数方法，包括如下步骤：

将最终的上下文信息进行解码回归得到最终的密度图；

在本实施例1中，所述每一个自适应卷积网络包括一个降维分支和一个池化分支，降维分支对初级特征图像进行降维；池化分支对初级特征图像进行自适应池化。

在本实施例1中，根据对应尺度上自适应卷积网络内卷积核的内核大小，对初级特征图像进行自适应池化，进行卷积降维后，对降维分支和池化分支进行深度分离卷积操作，得到该尺度上的上下文信息。

在本实施例1中，在提取到的每个尺度上的上下文信息后，将该尺度上的上下文信息与提取到的初级特征信息进行做差，得到该尺度上的对比特征；

将对比特征作进行卷积，得到该尺度上的权重图；

使用多个尺度上的权重计算人群图像最终的上下文信息。

在本实施例1中，由多个空洞卷积组成的解码器对最终上下文信息进行解码回归产生最终的密度图。对最终得到的密度图进行积分，得到最终人群图像上的人群总数包括：

计算人群图像最终的上下文信息f_F为：

实施例2

本发明实施例2提供一种新的基于多尺度自适应上下文网络的人群计数系统，它利用自适应卷积模块提取多个感受野上的上下文信息，并在每个图像位置上了解每个特征的重要性，从而可以有效应对潜在的连续尺度变化。

具体来说，本实施例2中，设计了几个并行排列的自适应卷积模块，来捕捉多个尺度上的上下文信息，其中每个自适应卷积模块可以以较小的卷积核来捕捉更大的感受野。此外，通过学习如何为每个像素位置权衡每个尺度上的上下文信息，来自适应地编码预测人群密度所需的各个尺度上的权重，从而允许本发明可以适应连续的尺度变化。

如图2所示，本实施例2中，新的基于多尺度自适应上下文网络的人群计数系统，其具体包括以下功能模块：

模块一：低级特征提取模块(第一提取模块)

将人群图像输入到经过预训练的VGG-16的前10层，提取低级特征信息f_v，为下面的操作提供低层次的空间视觉信息。

模块二：多尺度上下文提取模块(第二提取模块)

本模块将模块一提取的低级特征输入到多个并行排列的自适应卷积模块中进行多尺度上下文提取，其中每个自适应卷积模块用来捕获特定尺度上的上下文信息。对于每一个自适应卷积模块，它由两个分支组成。给定一个大小为h×w×c的特征图f_v(其中h，w，c分别是特征的高度、宽度和通道数目)，其中一个分支使用一个1×1卷积层对输入特征f_v进行降维，得到大小为h×w×c′的特征f_k，其中c′是降维后的通道数目，k为该尺度上自适应卷积模块内卷积核的内核大小。另外一个分支对输入特征f_v进行自适应池化。具体来说就是根据k的大小，将输入特征f_v进行自适应池化，得到大小为k×k×c的特征，然后经过一个1×1的卷积进行降维，得到k×k×c′的特征f_p。最后将两个分支进行深度分离卷积操作，得到该尺度上的上下文信息f_i。

模块三：上下文信息感知模块(感知模块)

在提取到的每个尺度上的上下文信息后，为了获得该尺度上每个空间位置上的权重，本发明将该尺度上的上下文信息f_i与提取到的低级特征信息f_v进行做差，得到该尺度上的对比特征c_i，它通过捕捉特定空间位置和邻域特征之间的差异，为得到每个图像区域上局部尺度的权重提供了重要的依据。之后将对比特征作输入到一个1×1的卷积层，来得到该尺度上的权重图w_i。最后，使用这些权重来计算最终的上下文信息f_F。

模块四：解码器回归(解码模块)

本步骤将步骤三输出的最终上下文信息f_F传递给由几个空洞卷积组成的解码器，从而回归产生最终的密度图。

模块五：人群计数(计算模块)

对最终得到的密度图进行积分，来得到最终该图像上的人群总数。

在提取了多尺度上下文信息后，最简单的方法就是进行简单的融合操作，但是这些方法并不能有效解释尺度会随着图像变化而变化，导致了图像尺度变化的连续性被忽略。

与上述方法不同，本发明实施例2提供的一种基于多尺度自适应上下文网络的人群计数系统，提出了一个多尺度自适应上下文网络，它采用多个并行排列的自适应卷积模块来自适应地捕获多个尺度上的上下文信息，以有效应对尺度连续变化对人群计数带来的影响。其中自适应卷积模块通过采用自适应池化，可以以较小的卷积核来获得更大的感受野。与以往的发明相比，可以有效降低模型计算量，增大模型的鲁棒性。

通过学习如何为每个像素位置权衡这些特征信息，来自适应地融合多尺度特征，从而可以适应连续的尺度变化，可以自适应地编码预测人群密度所需的尺度权重，能够更好地融合合适的局部尺度，进一步提高计数性能。

实施例3

如图1所示，本发明实施例3提供一种基于多尺度自适应上下文网络的人群计数方法，该方法具体包括如下流程步骤：

具体步骤如下：

步骤一：低级特征提取

采用经过预训练的VGG-16的前10层作为低级特征提取模块，进行低级特征信息提取，以此为基础来为来为下面的操作提供低层次的空间信息。给定一张训练图像I，它输出特征图f_v：

f_v＝F_vgg(I) (1)

其中，F_vgg()代表经过预训练的VGG-16网络的前10层。

步骤二：多尺度上下文提取

本步骤将上步骤提取的低级特征f_v输入到多个并行排列的自适应卷积模块中进行多尺度上下文提取，其中每个自适应卷积模块用来捕获特定尺度上的上下文信息。对于每一个自适应卷积模块(如图3所示)，它由两个分支组成，大小为h×w×c的特征图f_v(其中h，w，c分别是特征的高度、宽度和通道数目)，其中一个分支使用一个1×1卷积层对输入特征f_v进行降维，得到大小为h×w×c′的特征f_k，其中c′是降维后的通道数目，k为该尺度上自适应卷积模块内卷积核的内核大小。另外一个分支对输入特征f_v进行自适应池化。具体来说就是根据k的大小，将输入特征f_v进行自适应池化，得到大小为k×k×c的特征，然后经过一个1×1的卷积进行降维，得到k×k×c′的特征f_p。最后将两个分支进行深度分离卷积操作，得到该尺度上的上下文信息f_i。具体操作如下：

其中，符号

代表分离卷积，Conv表示一个1×1卷积，用来融合信道信息。

步骤三：上下文信息感知

在提取到的每个尺度上的上下文信息后，为了获得该尺度上每个空间位置上的权重，本实施例中，将该尺度上的上下文信息f_i与提取到的低级特征信息f_v进行做差，得到该尺度上的对比特征c_i，具体操作如下：

c_i＝f_i-f_v (3)

通过该操作，可以捕捉特定空间位置和邻域特征之间的差异，来为每个图像区域上的局部尺度的权重提供重要的依据。

之后将对比特征作输入到一个1×1的卷积层，来得到该尺度上的权重图w_i。最后，使用这些权重来计算最终的上下文特征f_F为：

步骤四：解码器回归

本步骤将步骤三输出的最终上下文特征f_F传递给由几个空洞卷积组成的解码器，从而回归产生最终的密度图。

步骤五：人群计数

对最终得到的密度图进行积分，来得到最终该图像上的人群总数。具体公式如下：

实施例4

本发明实施例4提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于多尺度自适应上下文网络的人群计数方法，该方法包括如下步骤：

将最终的上下文信息进行解码回归得到最终的密度图；

实施例5

本发明实施例5提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现基于多尺度自适应上下文网络的人群计数方法，该方法包括如下步骤：

将最终的上下文信息进行解码回归得到最终的密度图；

综上所述，本发明实施例所述的基于多尺度自适应上下文网络的人群计数方法及系统，多尺度自适应上下文网络，采用多个并行排列的自适应卷积模块来自适应地捕获多个尺度上的上下文信息，以有效应对尺度连续变化对人群计数带来的影响。其中自适应卷积模块通过采用自适应池化，可以以较小的卷积核来获得更大的感受野，可以有效降低模型计算量，增大模型的鲁棒性。通过学习如何为每个像素位置权衡尺度变化的特征信息，来自适应地融合多尺度特征，从而可以适应连续的尺度变化，自适应地编码预测人群密度所需的尺度权重，能够更好地融合合适的局部尺度，提高了计数准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多尺度自适应上下文网络的人群计数方法，其特征在于，包括如下步骤：

将最终的上下文信息进行解码回归得到最终的密度图；

2.根据权利要求1所述的基于多尺度自适应上下文网络的人群计数方法，其特征在于，所述每一个自适应卷积网络包括一个降维分支和一个池化分支，降维分支对初级特征图像进行降维；池化分支对初级特征图像进行自适应池化。

3.根据权利要求2所述的基于多尺度自适应上下文网络的人群计数方法，其特征在于，根据对应尺度上自适应卷积网络内卷积核的内核大小，对初级特征图像进行自适应池化，进行卷积降维后，对降维分支和池化分支进行深度分离卷积操作，得到该尺度上的上下文信息。

4.根据权利要求1所述的基于多尺度自适应上下文网络的人群计数方法，其特征在于，在提取到的每个尺度上的上下文信息后，将该尺度上的上下文信息与提取到的初级特征信息进行做差，得到该尺度上的对比特征；

将对比特征作进行卷积，得到该尺度上的权重图；

使用多个尺度上的权重计算人群图像最终的上下文信息。

5.根据权利要求1所述的基于多尺度自适应上下文网络的人群计数方法，其特征在于，由多个空洞卷积组成的解码器对最终上下文信息进行解码回归产生最终的密度图。

6.根据权利要求1所述的基于多尺度自适应上下文网络的人群计数方法，其特征在于，对最终得到的密度图进行积分，得到最终人群图像上的人群总数包括：

7.根据权利要求4所述的基于多尺度自适应上下文网络的人群计数方法，其特征在于，计算人群图像最终的上下文信息f_F为：

8.一种基于多尺度自适应上下文网络的人群计数系统，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，其特征在于：所述处理器调用所述程序指令执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。