CN111353433A

CN111353433A - 一种基于对抗尺度一致性追求特征自学习的人群计数方法

Info

Publication number: CN111353433A
Application number: CN202010129537.3A
Authority: CN
Inventors: 张涛; 袁佳伟; 潘祥; 于宏斌; 孙俊
Original assignee: Shenzhen Research Center Of Digital City Engineering; Jiangnan University
Current assignee: Shenzhen Research Center Of Digital City Engineering; Jiangnan University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-30

Abstract

本发明公开了一种基于对抗尺度一致性追求特征自学习的人群计数方法包括通过深度学习框架构建对抗尺度一致性网络，其具备在多尺度的数据样本中计算人群个数的功能；将特征自学习法融入对抗尺度一致性网络；利用对抗尺度一致性网络固有的对抗损失和感知损失以控制生成密度图的真伪性；利用跨尺度一致性准则约束生成的密度图；本发明的有益效果：构建一种新的人群计数回归框架，该框架在应对多尺度训练环境具有良好的性能，将带有特征自学习加入到网络图片生成阶段，对多尺度图片特征提取起到关键性的作用，有利于对于后续判别器做出准确的判断，提出了一种融合了特征自学习的人群回归模型，以利用传递更好的特征生成更高质量的图片信息。

Description

一种基于对抗尺度一致性追求特征自学习的人群计数方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于对抗尺度一致性追求特征自学习的人群计数方法。

背景技术

在现如今，由于社会的发展，大型集会和游行活动的增加，大型活动中频繁发生的踩踏事件，已经造成了不小的伤亡，因此人群计数问题的研究也越来越火热；传统的人群计数方法主要分为两类：一类为基于检测的方法，另一类为基于回归的方法；但是无论采取怎样的检测方法，都很难处理人群之间严重的遮挡的问题，一个主要的问题是来自于不同场景中人群规模的变化多样性，人们日常生活活动中，在不同场景下人群的拥挤程度是不一样的，要提出一个适应不同人群规模的模型并非是一件简单的事情；为了解决多尺度的变化，以前的方法大多数是利用多列CNN或者利用多分支来提取不同接收场景的多个特征，然后再最后将所得到的特征进行融合形成最后的密度估计，但是这本身存在固有的缺陷一是没有考虑到特征层内部的关系，二没有考虑到传统的多分支结构并没有采取合作的方式而是以竞争的方式进行的。

特征自学习为特征层通道重标定，这表明对于图像提取特征是有帮助的，为了解决上述人群计数存在的问题，我们遵循了特征自学习的方案；具体来说我们的目的是，首先利用对抗生成网络在图像生成方面的优秀性能，在此基础上加入特征自学习的方案，使得在生成阶段能够生成更清晰的语义信息，再利用跨尺度一致性准则去约束得到的密度图，这能够使得最后得到的密度图更清晰；研究表明，特征自学习在各种各样的图像处理任务中是非常有效的。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述和/或现有人群计数方法存在很难处理人群之间严重遮挡的问题，提出了本发明。

因此，本发明目的是提供一种基于对抗尺度一致性追求特征自学习的人群计数方法，其可以处理人群之间严重遮挡的问题。

为解决上述技术问题，本发明提供如下技术方案：通过摄像头采集图，将采集到的不同角度图汇总；通过深度学习框架构建对抗尺度一致性网络，其具备在多尺度的数据样本中计算人群个数的功能；将特征自学习法融入所述对抗尺度一致性网络，将采集到的图输入其中；利用所述对抗尺度一致性网络固有的对抗损失和感知损失以控制生成密度图的真伪性；利用跨尺度一致性准则约束所述生成密度图。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：所述构建对抗尺度一致性网络包括，

σ(W₂δ(W₁z))

引入以上两个术语以提高特征自学习法有效性，第一术语中H为长，W 为宽，H×W为特征图维度，i和j为常数，μ_c为第c个特征图，第二术语中z 为第一术语中的结果。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：所述特征自学习法包括，

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中，参数μ_c为卷积得到的通道、F_sq(μ_c)为压缩通道的全局语义信息以便获得权重大的通道信息，F_ex(z，W)在解压缩之前得到的z，回归到1×1×S，最后和通道μ_c合并得到自学习后的

其中，将所述采集到的图输入所述对抗尺度一致性网络进行识别。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：所述特征自学习法的学习过程包括，

定义对抗学习模型如下：

其中，x为训练的图片信息、y为真实地面密度图、G为最小化当前目标、 D为最大化当前目标。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：在所述对抗学习模型加入欧几里得损失为：

其中P^G(C)为生成密度图中的像素，而P^GT(C)为真实地面密度图，C为开始通道数。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：在所述对抗学习模型加入感知损失为：

其中，f^G(C)为生成的密度图高层感知特征像素，而f^GT(C)为地真密度图的高层感知特征中像素。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：总结所述欧几里得损失和所述感知损失已获得更好的L_I损失：

L_I＝arg min_G max_DL_A(G，D)+λ_eL_E(G)+λ_pL_p(G).

上式中，λe和λp是欧几里得损失和知觉损失的预定义权重。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：为解决多尺度一致性的问题，在所述L_I损失上，对跨尺度一致性做出约束，

其中P^prt(C)为密度图原图中的像素、P^cnt(C)为密度图拼接图中的像素，通过最小化该正则化约束，原图和子图之间的密度估计差异被迫很小。

作为本发明所述基于对抗尺度一致性追求特征自学习的人群计数方法的一种优选方案，其中：结合以上损失，得到全局L_II损失：

L_II＝L_I+λ_CL_C(G).

其中，λc是针对跨尺度一致性追求损失的预定义权重；当λc设置为0时模型中的两个生成器将被独立训练。

本发明的有益效果：构建一种新的人群计数回归框架，该框架在应对多尺度训练环境具有良好的性能，将带有特征自学习加入到网络图片生成阶段，对多尺度图片特征提取起到关键性的作用，有利于对于后续判别器做出准确的判断，提出了一种融合了特征自学习的人群回归模型，以利用传递更好的特征生成更高质量的图片信息从而有效解决人群之间严重的遮挡的问题，使得人群计数准确有效。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明基于对抗尺度一致性追求特征自学习的人群计数方法的整体结构示意图。

图2为本发明进行训练时加入特征自学习的方法示意图。

图3为本发明特征自学习机制回归方案示意图。

图4为本发明判别器参数示意图。。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

再其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

实施例1

参照图1和图2，提供了一种基于对抗尺度一致性追求特征自学习的人群计数方法的整体结构示意图，如图1，根据现有技术不足，提供一种新的图像处理方法，对包含具有不同尺度的图像进行密度图生成取得了较好的回归效果；我们为多尺度环境的样本构建了一个带有特征自学习的对抗尺度一致性追求的网络；它将特征自学习的学习方案融入对抗生成网络的生成图像阶段，能够从多尺度语义下学习到有用的特征；然后利用对抗生成网络本身固有的对抗损失和感知损失以控制生成密度图的真伪性；最后，为了应对尺度变化，利用跨尺度一致性准则去约束最后生成的密度图；该学习算法可以获得更好的人群计数密度图，原因如下：一是利用特征自学习学习更有用的语义信息，二是利用跨尺度一致性准则去约束最后生成的密度图；在使用基于跨尺度对抗一致性准则上，由于对抗生成网络本身在生成阶段会有一定的随机性，从而会降低生成密度图的质量；为了有效解决这个问题，我们将特征自学习的学习机制引入跨尺度对抗一致性准则里，对于多尺度的图像进行重新学习；此外，在训练过程中，在最后利用跨尺度一致性激励质量更高的密度图的生成；因此，我们提出的算法对更高质量密度图的生成具有有效性。

具体的，如图1，在我们提出的模型中，首先将数据进行增广，将原始数据增广并形成5个文件夹以便后续进行交叉验证的方式进行训练和评判最后的指标，在进行增广的时候，有一个滑动窗口去约束控制所需要的图片数目，也就是一个阈值，阈值设定的不同能够使得最终增广的每个文件夹里增广的图片数量的不同，这也是会影响到最终的评价指标；进行训练的时候，加入了带有特征自学习的方法，如图2，首先是特征压缩过程，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配；它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的；其次是激发过程，它是一个类似于循环神经网络中门的机制；通过参数w来为每个特征通道生成权重，其中参数w被学习用来显示地建模特征通道间的相关性；最后一个是特征重定向操作，将激发后输出的权重看作是进过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

引入

和

这两个术语以提高模型生成阶段图片的生成质量；其中，以上第一个术语中H×W(长和宽)表示的是特征图的维度，μ_c表示的是第c个特征图(二维矩阵)，所以第一个公式表示的含义就是将 H×W×C的输入转换成1×1×c的输出；第二个术语中z就是我们术语1所得到的内容，我们先与W1相乘，W1的维度是c/r×c，这个r是一个缩放参数，我们这里r取16，这个参数的目的减少计算量，又因为z的维度是1×1×c，所以W1z的结果是1×1×c/r；然后再和W2相乘，W2的维度是c×c/r，因此输出的维度是1×1×c，c表示的是通道数目；一旦在生成阶段加入了带有特征自学习方法，所得到的

在后续自学习的时候，每次都能够向更好的质量生成，为最后判别器做出了很大的贡献。

实施例2

参照图1、图3和图4，该实施例不同于第一个实施例的是：本发明实施例中，提供了一种具有特征自学习机制的图像回归方案，该方案对图像多尺度具有鲁棒性，提高密度图生成的质量，具体网络层架构参考图3，所述方法如下：

为复杂的数据样本构建了一个鲁棒的深度学习网络框架；导入样本图像，利用图像增广技术，将原本数据量极少的训练样本，样本量为50，增广成为训练阶段使用的5折训练样本，样本量为每折10000左右，每折依据阈值选定的不同，生成的训练样本有所不同；在本发明实例中，将带有特征自学习的学习方案融入对抗生成深度学习网络中，能够使得在生成阶段，生成更高质量的人群密度图。

具体的，设计了一种新的与特征自学习相关的正则化约束模型，以控制网络在生成阶段图像的平滑度/改进，处理样本的多尺度性；在使用基于生成对抗网络对样本进行训练时，因数据本身存在多尺度的问题会降低深度学习网络的精度，为了有效缓解这一问题，我们将带有特征自学习的学习机制引入对抗生成网络，对样本在训练阶段能够提取到更有语义信息的特征，此外在面对多尺度问题，使用多尺度训练，并且使用跨尺度一致性准则约束该值；因此，我们提出的模型对样本多尺度回归问题具有鲁棒性；在我们提出的模型中，将带有特征自学习的学习机制集成到生成对抗里，其主要思想是在于通过网络根据损失去学习特征权重，使得有效的feature map权重变大，无效或效果小的feature map权重小的方式训练模型达到更好的结果，这样以便对抗生成网络在生成阶段能够更快的学习到更有价值的特征信息。具体而言，我们建议的模型可以定义为：

上式中，参数μ_c为卷积得到的通道、F_sq(μ_c)为压缩通道的全局语义信息以便获得权重大的通道信息，第一步特征压缩过程，也可以称作全局平均池化层，经过上式就可以将H×W×C的输入转换成1×1×C的输出，这一步的结果相当于表明该层C个featnre map的数值分布情况，或者叫全局信息。

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z)) (2)

上式中，F_ex(z，W)在解压缩之前得到的z，回归到1×1×S，第二步激发过程，前面特征压缩过程得到的结果是z，这里先用w1乘以z，就是一个全连接层操作，w1的的维度是C/r×C，这个r是一个缩放参数，在文中取的是16，这个参数的目的是为了减少channel个数从而降低计算量；又因为z的维度是1×1×C，所以w1z的结果就是1×1×C/r；然后经过一个relu函数层，输出的维度不变；然后再和w2相乘，和w2相乘也是一个全连接层的过程，w2的维度是C×C/r，因此输出的维度就是1×1×C；最后再经过sigmoid函数得到s。

上式为特征重定向的过程，μ_c是一个二维矩阵，而这里的S_c是一个数，也就是权重，因此相当于把μ_c矩阵中的每个值都乘以S_c。

特征自学习在网络训练的过程不是就只是执行一次，而是一个迭代过程，也就是说在每一个纪元的过程时，根据上一个纪元的损失而去重新选择利于当前的特征重标定，以便为当前训练出更好的模型；如图1，分为上下两半部分，上半部分为原尺寸图片输入，下半部分为4分之1尺寸输入，这是为了应对尺度变化以及应对跨尺度一致性的问题作出的解决方案，接下来就进行生成对抗学习，具体的网络层相关参数，见图3，由此定义的生成对抗模型如下：

上式中x是表示训练的图片信息，可以是来自原尺寸的也可以是被分割后的图片，y是表示相应的真实地面密度图，G函数试图最小化当前的目标，而D 则是最大化当前的目标。不同于之前的方法而言，我们引入了

和σ(W₂δ(W₁z))这两个术语以提高生成对抗网络图片的生成质量，为了获得更好(3) 式中的x；能从图1中看到我们只在生成阶段加入了特征自学习，在判别阶段，我们还是采用了原有的判别器结构，判别器的具体参数由图4给出，值得注意的是d-larger和d-small都可以来自这个判别器，当然，如果生成的密度图足够真实，那么对于判别器来说，就是真实的；此外，在训练阶段因为缺少直接对真实地面密度图的惩罚，所以也引入了以下两个损失来平滑/改进解决方案：

欧几里得损失：

上式中，P^G(C)代表生成的密度图中的像素，而P^GT(C)代表的是真实地面密度图，C为最开始的通道数，C为3；

感知损失：

上式中，f^G(C)代表生成的密度图的高层感知特征中的像素，而f^GT(C)代表地真密度图的高层感知特征中的像素，C＝128；

结合以上损失，以获得更好的L_I损失：

L_I＝arg min_Gmax_DL_A(G，D)+λ_eL_E(G)+λ_pL_p(G).(7)

上式中，λe和λp是欧几里得损失和知觉损失的预定义权重，根据研究，我们将λe＝λp＝150；最后为了解决多尺度一致性的问题，在以上L_I损失之上，又对跨尺度一致性做出了约束：

上式中，P^prt(C)代表密度图原图中的像素，而P^cnt(C)代表密度图拼接图中的像素，C＝3；通过最小化该正则化约束，原图和子图之间的密度估计差异被迫很小；最终得到全局的L_II损失：

L_II＝L_I+λ_CL_C(G). (9)

最终，λc是针对跨尺度一致性追求损失的预定义权重；如果λc设置为0，那么我们模型中的两个生成器将被独立训练。

实施例3

参照图1～图4，该实施例不同于以上实施例的是：对本方法中采用的技术效果加以验证说明，本实施例选择的不同方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

通过amax服务器搭建搭建测试环境平台，同时采用通过不同位置摄像头获取UCF_CC_50数据进行验证，其中，UCF_CC_50数据集包含50个不同分辨率的图像，每个图像平均有1280个人，在整个数据集一共标记了63075个人，个人数量从94到4543不等，为了证明本方法构建的基于对抗尺度一致性追求特征自学习网络的优越性，我们与MCNN、CP-CNN和ACSCP方法进行了比较，相应的结果如下表所示：

表格I：The performance on UCF_CC_50

其中，MAE和MSE指标分别指的是平均绝对误差和均方误差，值越小说明网络的预测能力越接近于真实值，网络的预测能力越强；

具体的，MAE：

MSE：

MCNN为多列卷积神经网路，采用的主体网络结构是三列卷积神经网络，，表示为L列(使用大尺度卷积核：9×9，7×7，7×7，7×7)，M(使用中等尺度卷积核：7×7，5×5，5×5，5×5)，S列(使用小尺度卷积核：5×5，3×3， 3×3，3×3)，其目的在于使用多种尺度的卷积核来适应不同尺度的人头大小；最后将L，M，S三列卷积神经网络进行合并，得到网络生成的密度图；它的训练方式是：MCNN需要先对三个单列神经网络进行预训练，再合并训练才能达到更好的效果，最终由上表可以看出MAE能达到377.6，但是此网络并没有考虑到多分支的结构并不能带给网络更好的效果，因为没有考虑到尺度一致性这件事情，也没有尝试在卷积的时候加入特征选择的思考，所以最终的结果并不是很好。

CP-CNN为上下文金字塔卷积神经网络，它包含了四个模块，全局上下文预测器(GCE)，局部上下文预测器(LCE)，密度预测器(DME)以及一个融合网络(F-CNN)。

GCE：是一个基于VGG-16的神经网络，通过解析全局的上下文信息将输入图片分成不同密度等级。

LCE：类似的，LCE通过解析局部的上下文信息将输入图片patch分成不同密度等级。

DME：是一个多列的神经网络，(结构类似与MCNN)，用于从输入图片生成高维的特征图，该特征图将和GCE及LCE生成的上下文信息融合在一起作为F-CNN的输入。

F-CNN：使用了一系列的卷积层和小数步长卷积层(解卷积层)，使用对抗损失和像素级欧式损失的组合，以端到端的方式与DME一起进行训练。

可以看到，CP-CNN想到了多列卷积的方法在低密度和高密度的情况下会产生错误的估计，所以加入了全局的上下文信息改善这种情况，将图片分成五类，但是最终使用的网络结构和MCNN是类似的，也就是上述所述的DME，依旧是一个多列卷积网络，只不过再这之前将图片的密度进行分类之后输入到网络，最后将每列的最后密度图进行融合，这在一定意义上还是没有关注到多尺度的问题，但是想到了密度图的分类导入，这使得密度估计较MCNN的预测精确了21.7％。

ACSCP：它在之前的网络上为了应对多尺度的问题，提出了自己的想法，也就是跨尺度一致性损失，这种正则化结构是为了解决之前密度估计方法的不足，由于每个子网络只对特定尺度的人头敏感，而且他们之间不是处于一种互补的方式，这种不足很容易产生不一致的结果，这使得密度估计较CP-CNN的预测精确了1.7％。

OURS：我们关注到ACSCP的跨尺度一致性的作出的贡献，又考虑到特征提取过程的更精确性，在此基础上，提出了我们自己的网络结构，网络结构图如图1，因为我们考虑到特征自选择在特征提取阶段的优越性，它主要的目的就是抑制对于全局信息不可靠的那些特征进入后续的网络中，层层筛选，使得最终得到密度图在此纪元是相对来说是最优的，所以利用这种策略使得密度估计较ACSCP的预测精确了2.8％。

通过以上实验可以看出，MCNN、CP-CNN和ACSCP方法，都考虑到多尺度问题，也尝试用了多分支结构去提取不同尺度下的语义信息，但是能看到的是这些方法，第一虽然采用了多分支结构，但是没有考虑到最后的跨尺度问题，只是在最后简单的将得到的密度图叠加或者选择叠加的方式去形成最终的密度图，也就是说没有考虑到跨尺度的问题；第二，虽然ACSCP考虑到了跨尺度一致性的问题，但是也没有考虑特征层之间关系，结合实验会发现，并不是所有提取到的特征都是有用或者说有效的，面对以上提出的问题，我们提出了带有特征自学习的跨尺度一致性的模型，实验结果表明，我们的方案是非常有效的。

重要的是，应注意，在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案，但参阅此公开内容的人员应容易理解，在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下，许多改型是可能的(例如，各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如，温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如，示出为整体成形的元件可以由多个部分或元件构成，元件的位置可被倒置或以其它方式改变，并且分立元件的性质或数目或位置可被更改或改变。因此，所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中，任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构，且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下，可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此，本发明不限制于特定的实施方案，而是扩展至仍落在所附的权利要求书的范围内的多种改型。

此外，为了提供示例性实施方案的简练描述，可以不描述实际实施方案的所有特征(即，与当前考虑的执行本发明的最佳模式不相关的那些特征，或于实现本发明不相关的那些特征)。

应理解的是，在任何实际实施方式的开发过程中，如在任何工程或设计项目中，可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的，但对于那些得益于此公开内容的普通技术人员来说，不需要过多实验，所述开发努力将是一个设计、制造和生产的常规工作。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。