CN111723693A

CN111723693A - 一种基于小样本学习的人群计数方法

Info

Publication number: CN111723693A
Application number: CN202010498435.9A
Authority: CN
Inventors: 李晋源; 康雁; 卜荣景; 张亚钏; 李涛; 胡杨
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-29
Anticipated expiration: 2040-06-03
Also published as: CN111723693B

Abstract

本发明公开了一种基于小样本学习的人群计数方法，其特征在于，包括以下步骤：S1：针对人群图像数据的特点，基于KNN的密度图生成方法，对人群图像进行预处理，生成对应的密度图；S2：采用迁移学习，跨数据特征迁移；通过固定模型提取人群图像中的低级特征的前几层来保留在源域中学习的知识，对后几层进行微调，使模型适合目标域，固定模型集成源域和目标域的知识；S3：构建自适应对抗网络计数模型，对于不同分辨率图像的输入，自适应地学习融合比例并聚合多个抽象级别以获得最终的密度图。本发明结合小样本学习、迁移学习和对抗网络，在减少工作量的基础上大幅度提升计数性能，增强模型的鲁棒性，从而进一步提升计数精度。

Description

一种基于小样本学习的人群计数方法

技术领域

本发明涉及计算机视觉中静态图像识别技术领域，尤其是一种针对不同分辨率的基于小样本学习的人群计数方法。

背景技术

随着社会经济的快速发展，全球范围内群体性活动的次数急剧增长，人群规模也越来越大。人群聚集在有限的区域，出现拥挤情况的非常普遍，诸如在地铁或某些旅游景点等。在这种情况下，人满为患可能会导致交通延误，事故甚至是造成严重的踩踏事件。近年来，国内外的大型活动频发踩踏事件已经造成了不小的伤亡，该类事件频发也因此引起了各方面的关注。

为了尽可能避免未来大规模群体踩踏事件的发生，造成更多的生命财产损失，公共场景下人群图像分析也显得尤为重要。人群图像分析领域包含众多研究任务。而这其中，进行准确估计人群数量显得尤为突出和重要，这一研究任务已成为计算机视觉技术在人群控制和公共安全方面日益重要的应用，近年来受到计算机视觉研究界和私营企业的广泛研究。若能通过准确估计当前场景的人群密度，并安排相应的安保措施，则可以有效减少或避免此类事件的发生。

人群计数问题的本质是估计静止图像或视频里每帧图像中的对象数量。其在监测和场景理解中等具有诸多潜在的现实应用，包括监视、资源管理和城市规划等。目前已经提出了几种方法来解决这些人群计数问题。现有的人群计数技术算法主要可以分为三类，分别是基于聚类的方法，基于检测的方法，基于回归的方法。总结如下：

基于聚类的方法：基于聚类的方法是假定人群由单个实体组成，每个实体独特但具有连贯的运动模式，可以通过聚类来估计人数。这种方法面向运动的行人，提取运动信息，需要在足够高的帧速率下才能很好地工作。然而，这种无监督的方法计数准确性有限的，通常在低密度场景中工作良好，但是这些方法在背景混乱以及遮挡严重的拥挤场景中表现效果弱。

基于检测的方法：在基于检测的人群计数方法中，也是假定人群是由单个实体组成的，这些实体可以被某些给定的检测器检测到。这种方法主要随着人群密度的变高导致严重遮挡，计数的性能会出现问题。例如：(1)在拥挤的场景中，严重的遮挡是一种普遍现象。这会干扰检测器的性能，降低计数精度；(2)场景的复杂性会导致某些人以多视角出现或大或小。这些问题在倾斜的摄像机视图(摄像机以一定角度向下看)中尤为突出，这也是室外监视场景中的典型现象。

基于回归的方法：对于只能观察到一部分物体实例的拥挤场景，个体的检测和分割变得不切实际。而基于回归方法的出现逐渐被用来解决人群计数的问题，该方法未明确检测实例个体，而是学习一种映射关系，这意味着视觉遮挡对计数的影响较小，从而避免在拥挤的场景中进行显式的对象分割和检测。

当前图像计数中图像存在遮挡，高度混乱，人员分布不均以及数据样本稀少的特点；因此，本发明旨在解决小样本学习问题，利用大规模图像数据集构造丰富的特征空间，将特征迁移到人群计数这种小样本学习任务上，有效的解决训练样本量稀少引发的过拟合问题。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于小样本学习的人群计数方法，针对实际人群场景应用中面临的噪声干扰、数据量稀少等众多复杂问题，组合小样本学习、迁移学习和对抗网络的求解策略；在减少工作量的基础上大幅度提升计数性能，增强模型的鲁棒性，从而进一步提升计数精度。

本发明采用的技术方案如下：

本发明一种基于小样本学习的人群计数方法，包括以下步骤：

S1：针对人群图像数据的特点，基于KNN的密度图生成方法，对人群图像进行预处理，生成对应的密度图；

S2：采用迁移学习，跨数据特征迁移；通过固定模型提取人群图像中的低级特征的前几层来保留在源域中学习的知识，对后几层进行微调，使模型适合目标域，固定模型集成源域和目标域的知识；

S3：构建自适应对抗网络计数模型，对于不同分辨率图像的输入，自适应地学习融合比例并聚合多个抽象级别以获得最终的密度图。

以上方法，首先分析人群图像数据集的特征，从数据样本分布、遮挡、透视和跨场景尺度变化等问题进行详细的分析；在数据预处理阶段对原始图像进行处理，得到对应的密度图；密度图给出了图像中人群的空间分布，其包含更多有价值的信息且劳动强度低，在减少工作量的基础上能够大幅度提升人群计数的性能；

其次，特征迁移到人群计数这种小样本学习任务上，有效地解决了训练样本量稀少引发的训练过拟合问题；利用已有知识进行辅助学习，有助于加速模型的训练，增强模型的鲁棒性。

最后，设计一种对抗学习算法训练生成模型实现单张输入训练，保留完整的图像信息，通过提高模型所生成密度图的质量从而进一步提升计数精度。

作为优选，所述S1具体包括：

S11：标注数据集，数据集包括原始数据集和头像标注集；假设像素x_i标记为对像头部，δ(x-x_i)为增量函数，对于存在N个被标记的头部的图像表示为：

S12：假设每个头周围的人群分布均匀，依据图像中人的头部大小确定传播参数σ，由于图像中人的头部大小跟人与其邻居之间的平均距离有关，根据人与其邻居之间的平均距离来自适应地确定其传播参数σ，也就是高斯卷积核的方差，解决密度图生成中透视效应引起的问题；

S13：采用高斯卷积核G_σ对图像进行卷积，转成密度函数F(x)＝H(x)*G_σ(x)，生成密度图；

S14：根据密度公式，得到密度图数据集。

以上方法，人群计数的数据集，通过标记人头的位置，根据人头位置的数据来生成相应的人群密度图，在由标记生成密度图的过程，首先将每个人头对应的位置设置为1，然后对该图像进行高斯卷积，这种构建的密度图是假设人头相对于图像平面是独立存在的，事实上，由于透视畸变的存在，不同位置人头对应着不同大小的像素区域；假设每个头部周围的人群分布比较均匀，那么头部与其最近的k个邻居之间的平均距离，给出了一个合理的几何失真估计(由透视效果引起)；在拥挤的场景中，头部的大小通常与相邻两个人中心的距离有关；每个人头位置根据其与周围相邻的人头的距离来构建卷积的方差，然后将所有人头点卷积后的结果累加到一起，就是最终生成的密度图。

作为优选，所述S12具体包括：对于给定图像中每个头部x_i，距其最近k个邻居距离表示为

平均距离为：

其中，

与方差σ_i成比例

作为优选，所述S14中的密度公式为：

超参数β为方差与平均距离之间的比例系数。

作为优选，所述S2具体包括：

S21：利用大规模数据集上不同图像数据之间低级特征的相似性构造丰富的特征空间；

S22：在特征空间中，将特征迁移到人群计数小样本学习任务上，利用已有知识进行辅助学习。

以上方法，鉴于不同图像数据之间低级特征的相似性，基于迁移学习的思想将预训练模型的主干架构作为生成器的前端，对已有特征知识进行迁移，辅助学习人群计数目标任务，有效的处理小样本学习存在的问题，加速模型收敛，增强模型的鲁棒性。

作为优选，所述S3具体包括：

S31：构建生成器，将单个人群图像输入到生成器中以获得估计密度图；将多尺度全卷积网络作为密度图生成器接受多尺度人群图像的输入，经过逐层提取特征，学习人群图像与密度图之间的映射关系；

S32：添加金字塔池化层到卷积层和全连接层之间实现多尺度输入，构建鉴别器；

S33：使鉴别器参数保持固定，并使用BP算法来调整生成器参数，输出预测变量。

以上方法，引入金字塔池化层有效地解决了多尺度图像的输入，避免裁剪或者缩放操作带来的信息丢失。

作为优选，所述S31构建生成器的方法包括：

S311：建立特征图编码器作为前面层；采用VGG-16架构中删除了三个完全连接的层的前13层网络结构作为预训练模型，并将第四个最大池化层的步幅设置为1；添加多粒度卷积核并行化提取多尺度高级特征，通过融合局部与全局信息，找到各尺度之间的相互联系；

S312：建立密度图估计器作为后面层；使用卷积核尺寸大小同为3*3的两个卷积来逐步细化特征图的细节，在每个卷积层之后添加ReLU激活；然后使用1×1卷积层来估计每个位置的密度值。

作为优选，在前面层与后面层之间建立短路连接。

以上方法，短路连接skip connection可以增加特征图数量的方式进行融合，前面层的细节特征得到重复利用。

作为优选，所述S312还包括：采用batch size为1输入方式进行模型的训练，同时在每个卷积层之后添加实例正则化层，每次做卷积操作之后，利用单张图像统计信息来对全局信息进行分布调整；假设d维向量作为特征图的输入，则输出为：

其中，w和b是卷积层的权重和偏置，γ和β是实例正则化层(IN)的权重和偏置，μ和σ²分别是输入的均值和方差；ε是为了增加训练稳定性而加入的小的常量值，输出是由IN层归一化的要素的加权。

作为优选，所述S3自适应对抗网络计数模型的训练步骤：

将生成的密度图标记为0，将地面真实图标记为1；用鉴别器提供的额外对抗损失训练密度图生成器；

采用最小二乘损失函数作为目标损失函数来联合训练鉴别器和生成器：

在上式中，我们选择b＝1表示真实数据，选择a＝0表示预测数据；

其中，Z为随机变量，D为鉴别器，G为生成器；

在混淆鉴别器的基础上，生成器将生成的数据从决策边界拉到决策边界附近的位置。

以上方法，为了训练模型，使用最小二乘损失函数作为目标损失函数，以生成高质量的密度图；决策边界在此方法中用作中介，所生成的密度图与决策边界之间的距离可用于反映所生成的密度图与实际密度图之间的距离；为了使最小平方损失最小化，在混淆鉴别器的基础上，生成器需要将生成的数据从决策边界拉到决策边界附近的位置，即提高生成数据的质量，然后生成器可以获得学习所需的更多信息。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、适应不同分辨率图像输入：本发明针对人群图像数据存在分辨率不同的问题，为避免因批量化训练对图像进行处理而导致的信息丢失，提出采用单张图像输入进行训练；同时，相应的设计网络结构，分别在生成器中采用全卷积网络，在鉴别器中采用金字塔池化层结构来适应不同尺度的图像输入。

2、引入迁移学习对已有特征知识进行迁移，加速模型收敛，增强鲁棒性：本发明引入迁移学习的思想解决人群计数这样的小样本学习问题，通过固定模型提取低级特征的前几层来保留在源域中学习的知识，然后通过对后几层进行微调，可以使模型适合目标域，有助于提高准确性，本发明主要以VGG为生成器前端骨架作为迁移的主体，以ImageNet数据集图像强大知识为支持，能够降低模型计算的复杂度，增强鲁棒性。

3、提高生成数据的质量：本发明设计了一种自适应对抗网络计数模型，通过提高模型所生成密度图的质量从而进一步提升计数精度；引入最小二乘损失函数作为目标损失函数，通过混淆鉴别器，来使得生成器可以获得学习所需的更多信息，最终提高生成数据的质量。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明一种基于小样本学习的人群计数方法的流程图。

图2为本发明一种基于小样本学习的人群计数方法的网络架构图。

图3为实施例中特征迁移的决策方法示意图。

图4为实施例中生成器的多尺度特征提取机制结构示意图。

图5为实施例中自适应对抗网络计数模型结构示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

如图1和2所示，本发明一种基于小样本学习的人群计数方法，包括如下步骤：

S1：数据预处理生成密度图：针对人群图像数据的特点，采用基于KNN的密度图生成策略实现人群的精确计数，通过使用几何自适应卷积核来处理跨场景计数任务；

S11：标注数据集(原始数据集和头像标注集)；假定像素x_i标记为对象头部，其表示为增量函数δ(x-x_i)；因此，对于存在N个被标记的头部的图像表示为：

采用高斯卷积核G_σ对该函数进行卷积，转成密度函数；

F(x)＝H(x)*G_σ(x)

S12：解决透视效应问题；假设每个头周围的人群分布均匀，依据图像中人的头部大小确定传播参数σ；根据人与其邻居之间的平均距离来自适应地确定其传播参数；对于给定图像中每个头部x_i，距其最近k个邻居距离表示为

平均距离为：

因此，与x_i相关的像素对应于场景中的区域，其半径与

成正比；估算像素x_i周围的人群密度，需要让高斯核对δ(x-x_i)进行卷积；其中，

与方差σ_i成比例；

S13：生成密度图；密度卷积核会适应每个数据点周围的局部几何形状；

S14：得到密度图数据集；密度F由下式表示为：

S2：跨数据特征迁移；引入迁移学习的思想解决数据量稀少的问题，通过固定模型提取低级特征的前几层来保留在源域中学习的知识，然后通过对后几层进行微调，使模型适合目标域，集成源域和目标域的知识；

图3为特征迁移的流程；所述S2跨数据特征迁移步骤包括：

S21：构造特征空间；利用大规模数据集上不同图像数据之间低级特征的相似性构造丰富的特征空间。

S22：特征迁移；将特征进行迁移到人群计数这种小样本学习任务上，利用已有知识进行辅助学习。

S3：自适应对抗网络计数模型；设计一种对抗学习算法训练生成模型，通过提高模型所生成密度图的质量从而进一步提升计数精度；详细设计了生成器与鉴别器结构；保证不同分辨率图像的输入，自适应地学习融合比例并聚合多个抽象级别以获得最终的密度图。引入最小二乘损失函数作为目标损失函数，通过混淆鉴别器，来使得生成器可以获得学习所需的更多信息，最终提高生成数据的质量。

如图5所示，自适应对抗网络计数模型训练时首先将生成的密度图标记为0，将地面真实图标记为1。用鉴别器提供的额外对抗损失训练密度图生成器，以生成高质量的密度图。为了训练模型，使用最小二乘损失函数作为目标损失函数，以生成高质量的密度图。决策边界在此方法中用作中介，所生成的密度图与决策边界之间的距离可用于反映所生成的密度图与实际密度图之间的距离。为了使最小平方损失最小化，在混淆鉴别器的基础上，生成器需要将生成的数据从决策边界拉到决策边界附近的位置，即提高生成数据的质量，然后生成器可以获得学习所需的更多信息。采用以下目标函数来联合训练鉴别器和生成器。

在上式中，我们选择b＝1表示真实数据，选择a＝0表示预测数据。

所述S3自适应对抗网络计数模型具体步骤包括：

S31：生成器设计；将单个人群图像输入到生成器中以获得估计到密度图。设计一种多尺度全卷积网络作为密度图生成器接受多尺度人群图像的输入，经过逐层提取特征，学习人群图像与密度图之间的映射关系；

S311：特征图编码器：本发明采用VGG-16网络作为我们的预训练模型。尽管VGG-16架构最初是为分类而实现的，但其强大的迁移学习功能所产生的性能已在许多任务中得到证明。在实施例中，我们删除了三个完全连接的层，并使用了VGG-16架构中前13层的网络结构，并将第四个最大池化层的步幅设置为1。该结构适用于任何分辨率的输入，并以完全卷积的方式捕获人群计数所需的低级语义信息，同时以输入分辨率的1/8倍执行预测输出。本发明通过微调来加快训练过程，将共有知识迁移到我们的任务中，辅助学习，这便于生成器将低级空间信息转换为高级语义信息。在网络后端添加多粒度卷积核来并行化提取多尺度高级特征，通过融合局部与全局信息，找到各尺度之间的相互联系。如图4所示，使用扩张速度分别为2、4、6和8的四个扩张卷积层作为高级特征的提取通道，通过对4个不同尺寸的卷积核提取的特征进行融合以使网络适应行人(头部)比例和视角的变化。卷积运算可以视为2D空间采样值的加权和。标准卷积中的常规网格采样位置通过填充零转换为膨胀的采样位置。二维膨胀卷积定义为：

其中M和N是膨胀的卷积层的长度和宽度，w(i,j)表示滤波器；输入和输出分别是x和y，r是膨胀率；

S312：密度图估计器；使用两个卷积来逐步细化特征图的细节，卷积核尺寸大小同为3*3。在每个卷积层之后添加ReLU激活。然后，使用1×1卷积层来估计每个位置的密度值。受到ResNets模型的启发引入跳过连接机制，建立前面层与后面层之间的“短路连接”(skipconnection)以增加特征图数量的方式进行融合，前端网络的细节特征得到重复利用。密度图生成器最终生成为输入尺寸1/8的密度图。采用batch size为1输入方式进行模型的训练，同时在每个卷积层之后添加实例正则化层，每次做卷积操作之后，利用单张图像统计信息来对全局信息进行分布调整。假设d维向量作为特征图的输入，则输出为：

其中w和b是卷积层的权重和偏置，γ和j是实例正则化层(IN)的权重和偏置，μ和σ²分别是输入的均值和方差；ε是为了增加训练稳定性而加入的小的常量值，输出是由IN层归一化的要素的加权。

S32：鉴别器设计；设计鉴别器以将真实数据与预测数据区分开来，从而引导生成器的进一步学习，最终达到鉴别器无法判断是真实密度图还是生成的密度图的程度。添加金字塔池层到卷积层和全连接层之间实现多尺度输入。对于卷积层输出的特征图，我们以不同尺寸的特征提取块来提取特征，分别是4*4，2*2，1*1。对于任意大小的特征图，要进行空间金字塔最大池化，其实就是从这21个图片块中，分别计算每个块的最大值，最终得到21维特征值的输出；引入金字塔池化层来实现多尺度输入，如图2所示，鉴别器由conv1，conv2，金字塔池化层和两个全连接层Fc1和Fc2组成；最后，Fc2使用非线性激活S型曲线来获得将实例正则化引入到平衡训练中。

S33：输出预测变量；使鉴别器参数保持固定，并使用BP算法来调整生成器参数；最后，输出预测变量(生成器)。

下面以具体实验验证本发明方法的有效性。

1、数据集

本发明实施例选取的是大规模人群图像数据集ShanghaiTech人群图像数据集；

ShanghaiTech人群图像数据集包含1198张带注释的图像，总共330,165人的头部中心带有注释；此数据集是被注释人数最大的一个数据集；该数据集由两部分组成：A部分中有482张图像是从Internet上随机抓取的，B部分中有716张图像是从上海大都会繁忙的街道上拍摄的。人群密度在两个子集之间显着变化，这使得人群的准确估计比大多数现有数据集更具挑战性；A部分和B部分都分为训练和测试：A部分的300张图像用于训练，其余182张图像用于测试；B部分的400张图像用于训练，316张用于测试。

2、评价指标

计数误差的评价指标有MAE(平均绝对误差)和RMSE(均方根误差)被用来评估人群计数的性能，MAE反映了预测的准确性，RMSE反映了预测的鲁棒性。定义如下：

3、实验结果和分析

实验分为两部分，分别如下：

本发明实施例以计数误差为评价指标选取了几种常用的人群计数方法与提出的方法进行对比验证来评估有效性。

实验(1)：如表1所示，我们在具有挑战性的ShanghaiTech数据集的两个子集上列出了各种方法的计数估计误差。与其他方法相比，这表明我们的发明在两个子集上均实现了最低的MAE和RMSE指标值。在ShanghaiTech_A数据集上，与最先进的Improved SaCNN方法相比，我们的MAE和RMSE指标值降低了6.25％和4.7％，在ShanghaiTech_B数据集上MAE和RMSE指标值降低了28.4％和28.3％。这表明我们的发明不仅适用于相对稀疏的场景，而且适用于人群密集的图像巨大的密度波动。

表1所提方法与其他方法比较

表2显示了我们所提出的网络与其他基于GAN的方法之间的比较结果。与最先进的方法ACSCP比较，我们的模型在ShanghaiTech_A数据集上MAE降低了6.07％，在ShanghaiTech_B数据集上MAE和RMSE分别降低了54.06％和51.45％。这也表明该方法具有良好的估计准确性和鲁棒性。

表2所提方法与对抗网络比较

通过仿真实验，本发明所提出的方法能够很好的适应多尺度场景图像的输入，提高生成密度图的质量，有效的解决小样本学习问题，进而提高人群计数精度。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。