CN113780092A

CN113780092A - 基于区块弱标注的人群计数方法

Info

Publication number: CN113780092A
Application number: CN202110930559.4A
Authority: CN
Inventors: 李国荣; 黄庆明; 刘心岩
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-12-10
Anticipated expiration: 2041-08-13
Also published as: CN113780092B

Abstract

本发明公开了一种基于区块弱标注信息进行人群计数的方法，所述方法包括训练阶段和测试阶段，所述训练阶段通过CPNC网络进行区块预测，应用标签平滑、特征平滑、多种数据增强策略和辅助损失函数，解决了区块人数的长尾效应和区域预测不精确的问题，在使用更少标注信息的情况下获得了与使用密度图的方法相近的性能，并展现出良好的迁移性。

Description

基于区块弱标注的人群计数方法

技术领域

本发明属于计算机视觉和图像处理技术领域，具体涉及一种基于区块弱标注的人群计数方法。

背景技术

人群计数是重要的计算机视觉任务之一，其目标是计算一张图片中出现的人物数量。近年来，该任务在安防监控、公共场所流量分析等方面发挥着越来越重要的作用。不同于使用包围框的目标检测任务，当前主流的人群计数任务主要以密度图作为学习目标。密度图由对称概率密度函数对点标注图进行卷积平滑而生成，因此与点标注图有相同的L1范数。相比于点标注图，密度图在数值上连续性更强，因此更利于网络学习。但当前使用密度图的方法存在以下问题：

密度图的产生依赖于点标注，在高密度情况下逐一对目标进行点标注成本较高。且理想情况下生成密度图的概率密度核的大小依赖于目标的尺度。但是，如果进行尺度标注，将进一步提高标注成本。同时密度图无法去除在目标密集时经常产生的标注噪声问题。

预测密度图需要保持运算过程中特征图的大小来维持密度图的分辨率。在密度图上，一个像素至多对应一个目标，如果一个像素对应一个目标，密度图退化为点标注图。因此网络中只能进行少量的下采样，增加了计算资源的消耗。

因此，需要一种基于图像进行人群计数的方法，降低标注成本及噪声影响，从而满足目前基于视觉图像进行人群计数的使用要求。

发明内容

为解决上述问题，本发明提供了一种基于区块弱标注的人群计数方法。该方法中将计数的人群图片划分为若干区块，形成区块数量图，在标注时，区块数量图无需具体的位置信息，减少标注成本，利用网络结构CPNC，以人群图片为输入，输出每一区块内人物数量。分别引入平滑策略、数据增强策略和辅助损失函数，在使用更少标注信息的情况下获得了与使用密度图的方法相近的性能，并展现出良好的迁移性，从而完成了本发明。

本发明的目的在于提供一种基于区块弱标注的人群计数方法，所述方法包括训练阶段和测试阶段。

所述训练阶段通过CPNC网络进行区块预测，其中，所述CPNC网络为用于人群计数的跨阶段局部网络(CSPNet for Crowd Counting，CPNC)。

所述CPNC网络包括特征提取网络、瓶颈网络和预测头。

所述特征提取网络使用Focus模块减少训练图片的尺寸，得到尺寸减少的特征图。所述瓶颈网络使用CSPNet中的跨层半网络组件，该组件可以高效的利用跨层特征，从而使尺寸减少的特征图的复杂度降低。具体来说，所述跨层半网络组件将特征按照通道分为两份。其中一份特征通过分支瓶颈网络继续提取更深层特征，另一份特征只通过复杂度低的卷积变换，并将二者的结果进行组合。优选地，所述跨层半网络组件如式(1)所示，g为计算复杂度高的分支瓶颈网络，h为计算复杂度低的1×100卷积模块。

f_i＝[g(f_i-1[0:n_i-1/2]),h(f_i-1[n_i-1/2:n_i-1])] (1)

n_i-1为跨层半网络组件的第i-1层特征f_i-1的通道数，i表示跨层半网络组件的第i层，f_i为经过跨层半网络组件第i层得到的特征，f_i-1[0:n/2]为特征f_i-1的前半部分元素，f_i-1[n/2:n])为特征f_i-1的后半部分元素。

所述预测头采用EfficientDet中的Bi-FPN网络。

本发明中，使用高斯函数作为径向基函数，通过卷积的方法进行对人数为n的区块数量B_n进行标签平滑，并使用平滑后的数量

的倒数作为对应区块的权重w，具体操作如式(2)所示。

其中，

k_i表示第i个区块内的人数；ζ为卷积的窗口的大小，其为9-21；n′为窗口内的人数，N(n-n′；0,σ²)为均值为0、方差为σ²的正态分布在n-n′处的值。

本发明中，所述Bi-FPN的特征层输入上引入标准的白化和重着色，来平滑输出特征z_i，其平滑值为

使用高斯核函数对样本人数值之间的距离进行加权，为当前样本的特征的均值μ_i和协方差∑_i计算对应的平滑值为

和

所述高斯核函数如式(3)所示：

其中，y_i，y_i′分别为第i张和第i’张图像中人的数目；N(y_i-y_i′；0,σ²)为均值为0、方差为σ²的正态分布在y_i-y_i′处的值；Σ_i′为第i’个样本的特征的方差；μ_i′为第i’个样本的特征的均值。

本发明在网络设计上引入了Bi-FPN模块，并使用Mosaic数据增强增加小尺寸目标数量。

在训练过程中，将数据进行随机区块擦除或将区块位置重置，并将重排后对应位置的区块的特征和原区块的特征的进行对比。另外，通过缩放可以将相邻的四个区块聚合成一个区块，聚合后的区块数量应该等于原四个区块中目标数量的和，如图2所示。上述两种过程均可使用MSE进行监督作为辅助损失函数。总体损失函数由有标注部分预测误差和无标注辅助损失函数组成，其定义如式(4)所示：

L(x,y,y′)＝Smooth L₁(y-y′)+λ(f(x)-h^-1f(x_h))² (4)

其中，x为输入的图像样本，y、y′分别为图像中人数的真实值和预测值，f(x)为对应特征层，x_h为x通过变换h之后的图像。h包括区块随机擦除与重排(GD)、区块特征缩放与聚合(GS)；λ为平衡系数。预测误差使用函数Smooth L₁(c)损失保证训练开始时梯度不会过大，其定义如式(5)所示：

所述测试阶段为将训练得到的CPNC网络应用到人群计数的检测任务中，以验证模型的有效性。

本发明提供的基于区块弱标注的人群计数方法具有以下有益效果：

(1)本发明中设计了轻量级的网络结构CPNC，这一网络以图片为输入，输出每一区块内人物数量。通过分析多个数据集中的长尾分布问题和小目标问题，分别引入平滑策略和数据增强策略，还进一步引入辅助损失函数，降低标注成本，引入了一种仅需要部分区块标注信息的人群计数方法。

(2)本发明中高斯函数作为径向基函数，通过卷积的方法进行对B_n进行平滑，使平滑后的

与Er_n的负相关程度显著提高。

(3)本发明中在输入Bi-FPN的三个特征层上引入了标准的白化和重着色过程来平滑输出的特征，使其具有连贯性，使网络模型更平衡地关注各种密度的区块，而不是根据数据集中的数据分布，过拟合数据集中出现频率较高的密度所对应的区块，因此模型将具有更好的可迁移性。

(4)本发明中引入的数据增强策略，可以有效提升小尺寸目标的预测精度，并且使增强后的图像内目标尺寸能够连续变化。

(5)本发明中，构建了辅助损失函数，挖掘无标注数据中的监督信息，进一步降低了标注成本。

附图说明

图1示出根据本发明一种CPNC网络结构示意图；

图2示出根据本发明辅助损失函数中随机区块擦除和区块位置重置的示例图；

图3示出本发明实施例1中CPNC与CPNC++在UCF-QNRF上的应用测试结果。

具体实施方式

下面通过附图和实施方式对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

本发明提供了一种基于区块弱标注的人群计数方法，所述方法包括训练阶段和测试阶段。

所述训练阶段通过CPNC网络进行区块预测，其中，所述CPNC网络为用于人群计数的跨阶段局部网络(CSPNet for Crowd Counting，CPNC)，所述跨阶段局部网络(CSPNet)具体如文献“WANG C Y,MARK LIAO H Y,WU Y H,et al.Cspnet:A new backbone that canenhance learning capability of cnn[C]//IEEE/CVF Conference on Computer Visionand Pattern Recognition Workshops(CVPRW).2020:1571-1580.”中所述。

所述CPNC网络包括特征提取网络、瓶颈网络和预测头，其网络结构如图1所示。

f_i＝[g(f_i-1[0:n_i-1/2]),h(f_i-1[n_i-1/2:n_i-1])] (1)

所述Focus模块具体如文献“JOCHER G,STOKEN A,BOROVEC J,等.ultralytics/yolov5:v3.1-Bug Fixes and Performance Improvements[CP/OL].Zenodo,2020”所述。

所述h为计算复杂度低的1×100卷积模块，所述卷积模块具体如文献“KrizhevskyA,Sutskever I,Hinton G E.ImageNet Classification with Deep ConvolutionalNeural Networks[C]//Advances in Neural Information Processing Systems.2012.”中所述。

根据需求不同，所述分支瓶颈网络选择不同层数或不同复杂度的网络结构，如ResNet、ResNext、ResNest、NFNet等。

所述ResNet具体如文献“HE K,ZHANG X,REN S,et al.Deep residual learningfor image recognition[C]//2016IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770-778.”中所述。

所述ResNext具体如文献“XIE S,GIRSHICK R,DOLLáR P,et al.Aggregatedresidual transformations for deep neural networks[C]//IEEE Conference onComputer Vision and Pattern Recognition(CVPR).2017:5987-5995.”中所述。

所述ResNest具体如文献“HE K,ZHANG X,REN S,et al.Deep residual learningfor image recognition[C]//2016IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770-778.”中所述。

所述NFNet具体如文献“BROCK A,DE S,SMITH S L,et al.High-performancelargescale image recognition without normalization[J/OL].CoRR,2021,abs/2102.06171.”中所述。

所述预测头采用EfficientDet中的Bi-FPN网络。不同于检测任务，人群计数任务中的目标较小，高层特征不容易辨别小目标。同时为降低网络复杂度，将Bi-FPN网络特征层设置为3-5层，优选为3层，加强小目标鉴别，得到区块数量图。

所述EfficientDet和Bi-FPN网络具体如文献“TAN M,LE QV.Efficientnetv2:Smaller models and faster training[J/OL].CoRR,2021,abs/2104.00298.”中所述。

在用于人群计数的图像处理中，标签不平衡容易造成模型偏差，在数据集上的统计结果显示随着密度的增大，对应区块的数量迅速减少，呈现长尾分布。另外，随着密度的增大，对应的区块内目标的平均尺寸变小，增加了计数的难度。上述结果会导致高密度区块的预测偏差较大，为解决模型偏差问题，本发明中设计了样本均衡策略来对抗长尾分布的影响。

的倒数作为对应区块的权重w，具体操作如式(2)所示。

其中，

k_i表示第i个区块内的人数；ζ为卷积的窗口的大小，其为9-21，优选为12-18；n′为窗口内的人数，N(n-n′；0,σ²)为均值为0、方差为σ²的正态分布在n-n′处的值；

大于0。

经过标签平滑策略之后，

与人数恰好为n的所有区块平均误差Er_n的负相关程度显著提高。通过实验得到，在NWPU-Crowd上，

与Er_n的皮尔逊相关指数为-0.72，在UCF-QNRF上为-0.79，而且所有的B_n均大于0。

其中，

其中，k_i表示第i个区块内的人数，n为人数，er_i为第i个区块人数k_i的预测误差。

所述UCF-QNRF具体如文献“H I,M T,K A,et al.Composition loss forcounting,density map estimation and localization in dense crowds[C]//IEEEEuropean Conference on Computer Vision(ECCV).2018:544-559”所述。

所述NWPU-Crowd具体如文献“WANG Q,GAO J,LIN W,et al.Nwpu-crowd:A large-scale benchmark for crowd counting and localization[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2021,43(6):2141-2149”所述。

同时，为了使输出特征具有连贯性，本发明中，所述Bi-FPN的特征层输入上引入标准的白化和重着色，来平滑输出特征z_i，其平滑值为

和

所述高斯核函数如式(3)所示：

经过这两种平滑策略，模型将更平衡地关注各种密度的区块，而不是根据数据集中的数据分布，过拟合数据集中出现频率较高的密度所对应的区块，因此模型将具有更好的可迁移性。

为了解决小尺寸目标的问题，本发明在网络设计上引入了Bi-FPN网络，并使用Mosaic数据增强增加小尺寸目标数量。同时，为进一步降低标注成本，本发明中挖掘无标注数据中的监督信息，并构造一种辅助损失函数，来有效地进行训练。

所述Mosaic具体如文献“JOCHER G,STOKEN A,BOROVEC J,等.ultralytics/yolov5:v3.1-Bug Fixes and Performance Improvements[CP/OL].Zenodo,2020.https://doi.org/10.5281/zenodo.4154370.”中所述。

训练时，利用Mosaic算法将若干张图片进行结合，优选地，采样若干倍batch-size张图片，随机划分为batch-size组。每次生成增强图片时，根据第i组内的真实图片数量n_i，其中，i＝1,2,...,batch-size，对增强图片进行n_i-1次划分，分成n_i个区域，记为增强图片集

为第i组图片得到的第j个区域。在对第i组内的增强图片进行第a次划分时，将从

中选择最大的区域将其等分为两份，a为大于等于1且小于等于n_i-1的整数。划分按照水平、竖直的次序交替进行。最终将i组内的真实图片

按照人数多少升序排序，

为真实图片集。将

按照面积进行升序排序，将排在第j(j＝1,2,…,n_i-1)个位置的图片通过缩放，放入排在第j个位置的区域内。

为进一步降低标注成本，本发明中挖掘无标注数据中的监督信息，构建了辅助损失函数来有效地训练网络。在训练过程中，将数据进行随机区块擦除或将区块位置重置，并将重排后对应位置的区块的特征和原区块的特征的进行对比。另外，通过缩放可以将相邻的四个区块聚合成一个区块，聚合后的区块数量应该等于原四个区块中目标数量的和，如图2所示。上述两种过程均可使用MSE进行监督作为辅助损失函数。辅助损失函数由有标注部分预测误差和无标注辅助损失函数组成，其定义如式(4)所示：

L(x,y,y′)＝Smooth L₁(y-y′)+λ(f(x)-h^-1f(x_h))² (4)

其中，x为输入的图像样本，y、y′分别为图像中人数的真实值和预测值，f(x)为对应特征层，x_h为x通过变换h之后的图像。h包括区块随机擦除与重排(GD)、区块特征缩放与聚合(GS)；λ为平衡系数，具体如文献“(LIU X,VAN DE WEIJER J,BAGDANOV AD.Leveraging unlabeled data for crowd counting by learning to rank[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:7661-7669.)”中所述。预测误差使用函数SmoothL₁(c)损失保证训练开始时梯度不会过大，其定义如式(5)所示：

其中，c为自变量。

本发明提出了一种基于区块弱标注信息进行人群计数的方法，利用改进后的CPNC网络进行训练，该方法不依赖于精确的位置信息，因此标注成本更小。本发明中提出多种提升策略，包括：标签平滑、特征平滑、多种数据增强策略和辅助损失函数，解决了区块人数的长尾效应和区域预测不精确的问题，在使用更少标注信息的情况下获得了与使用密度图的方法相近的性能，并展现出良好的迁移性。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

将使用了数据增强和辅助损失函数的CPNC网络记为CPNC++。

CPNC网络中：

(1)先利用Focus模块减少训练图片的尺寸，得到尺寸减少的特征图。Focus模块具体如文献“JOCHER G,STOKEN A,BOROVEC J,等.ultralytics/yolov5:v3.1-Bug Fixes andPerformance Improvements[CP/OL].Zenodo,2020”所述。

将尺寸减少的特征图输入到作为瓶颈网络的CSPNet中的跨层半网络组件，其按式(1)进行：

f_i＝[g(f_i-1[0:n_i-1/2]),h(f_i-1[n_i-1/2:n_i-1])] (1)

其中，g为计算复杂度高的分支瓶颈网络NFNet-f3，其具体如文献“BROCK A,DE S,SMITH S L,et al.High-performance largescale image recognition withoutnormalization[J/OL].CoRR,2021,abs/2102.06171.https://arxiv.org/abs/2102.06171.”中所述。h为计算复杂度低的、卷积核为1×100的卷积模块，其具体卷积操作如文献“Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with DeepConvolutional Neural Networks[C]//Advances in Neural Information ProcessingSystems.2012.”中所述。

n_i-1为跨层半网络组件的第i-1层特征f_i-1的通道数，i表示跨层半网络组件的第i层，f_i为经过跨层半网络组件的第i层得到的特征，f_i-1[0:n/2]为特征f_i-1的前半部分元素，f_i-1[n/2:n])为特征f_i-1的后半部分元素。

(2)将从瓶颈网络的输出结果输入至作为预测头的EfficientDet中的Bi-FPN网络进行处理，得到输出结果。

所述EfficientDet和Bi-FPN网络具体如文献“TAN M,LE Q V.Efficientnetv2:Smaller models and faster training[J/OL].CoRR,2021,abs/2104.00298.”中所述。

使用高斯函数作为径向基函数，通过卷积的方法进行对人数为n的区块数量B_n进行标签平滑(LDS)，并使用平滑后的数量

的倒数作为对应区块的权重w，具体操作如式(2)所示。

其中，

k_i表示第i个区块内的人数；ζ为卷积的窗口的大小，其为15；n′为窗口内的人数，N(n-n′；0,σ²)为均值为0、方差为σ²的正态分布在n-n′处的值。

其中，

其中，k_i表示第i个区块内的人数，n为人数，er_i为第i个区块人数的预测误差。

在NWPU-Crowd上，

与Er_n的皮尔逊相关指数为-0.72，在UCF-QNRF上为-0.79。在NWPU-Crowd上，B_n与Er_n的负相关程度为-0.10，在UCF-QNRF上为-0.11，

与Er_n的负相关程度显著提高。

(3)另外，Bi-FPN的特征层输入上引入标准的白化和重着色，来平滑输出特征z_i，进行特征平滑(FDS)，其平滑值为

和

所述高斯核函数如式(3)所示：

在CPNC++网络中，在CPNC网络的基础上，

(1)利用Mosaic算法将若干张图片进行结合，采用4倍batch-size张图片随机划分为batch-size组。每次生成增强图片时，根据第i组内的真实图片数量n_i，其中，i＝1,2,3,4，对增强图片进行n_i-1次划分，分成n_i个区域，记为

为第i组图片得到的第j个区域。在进行第a次划分时，将从

按照人数多少升序排序，

为真实图片集，将

按照面积进行升序排序。将排在第j(j＝1,2,…,n_i-1)个位置的图片通过缩放，放入排在第j个位置的区域内。

(2)在训练过程中，将数据进行随机区块擦除或将区块位置重置，并将重排后对应位置的区块的特征和原区块的特征的进行对比。另外，通过缩放可以将相邻的四个区块聚合成一个区块，聚合后的区块数量应该等于原四个区块中目标数量的和，如图2所示。上述两种过程均可使用MSE进行监督作为辅助损失函数。总体损失函数由有标注部分预测误差和无标注辅助损失函数组成，其定义如式(4)所示：

L(x,y,y′)＝Smooth L₁(y-y′)+λ(f(x)-h^-1f(x_h))² (4)

其中，x为输入的图像样本，y、y′分别为输入图像中人数的真实值和预测值，f(x)为对应特征层，x_h为x通过变换h之后的图像。h包括区块随机擦除与重排(GD)、区块特征缩放与聚合(GS)，其中，擦除操作如文献“Pathak D,

P,Donahue J,etal.Context Encoders:Feature Learning by Inpainting[C]//IEEE Conference onComputer Vision and Pattern Recognition.2016.2536-2544.”中所述；重排操作如“Noroozi M，Favaro P.Unsupervised Learning of Visual Representations bySolving Jigsaw Puzzles[C]//European Conference on Computer Vision.2016.69-84.”中所述；缩放与聚合操作如文献“Noroozi M,Pirsiavash H,FavaroP.Representation learning by learning to count[C]//International Conferenceon Computer Vision.2017.5898-5906”中所述；λ为0.0001。

预测误差使用SmoothL₁(c)损失保证训练开始时梯度不会过大，其定义如式(5)所示：

其中，c为自变量。

在ShangHai Tech、UCF-QNRF和NWPU-Crowd三个公共开放视图密集人群数据集上评估CPNC网络和CPNC++网络，并和现有基于密度图的方法进行比较。对于区块((w₁,h₁),(w₂,h₂)),可通过式(11)将点标注数据集转换为区块标注数据集。

其中，h₁、h₂分别为区块左上角的纵坐标和右下角的纵坐标，w₁为区块左上角的横坐标，w₂为区域右下角的横坐标，Y为点标注信息(点标注值)，Y(w,h)为坐标为(w,h)的位置的点标注值。

如未经特殊说明，实验均在RTX 3090GPU进行，在训练时，输入尺寸为1024×1024，每个GPU的batch size为16，并使用同步批标准化。迭代次数为500轮，并应用Adam作为优化器，固定学习率为10^-5。所使用的数据增强触发概率均为0.3。在测试时，如果图片尺寸超过训练时的输入尺寸，则使用有覆盖的窗口滑动方式进行平均，窗口大小为1024×1024，覆盖率为0.25。如果图片尺寸小于训练时输入尺寸，则在边缘补0至64的倍数。如未经特殊说明，网络backbone采用NFNet-f3，在这一网络下，每次推理仅需0.06秒，在相同机器上使用DM-Count则需要0.15秒。

所述ShangHai Tech具体如文献“ZHANG Y,ZHOU D,CHEN S,et al.Single-imagecrowd counting via multi-column convolutional neural network[C]//IEEEConference on Computer Vision and Pattern Recognition.2016:589-597”所述。

所述NFNet-f3具体如文献“BROCK A,DE S,SMITH S L,et al.High-performancelargescale image recognition without normalization[J/OL].CoRR,2021,abs/2102.06171”所述。

所述DM-Count具体如文献“WANG B,LIU H,SAMARAS D,et al.Distributionmatching for crowd counting[C]//Advances in Neural Information ProcessingSystems.2020.”中所述。

此外，为了证明CPNC++网络能有效利用未标注数据，从训练数据中随机选择30％的区块及其数量标注信息用作监督数据，其余70％的数据用作无标注数据，训练得到的模型记作CPNC++(30％)。

表1本发明中的CPNC网络、CPNC++网络以及CPNC++(30％)模型与现有方法在开放数据集上的对比

所述MCNN具体如文献“ZHANG Y,ZHOU D,CHEN S,et al.Single-image crowdcounting via multi-column convolutional neural network[C]//IEEE Conference onComputer Vision and Pattern Recognition.2016:589-597”所述。

所述SCNN具体如文献“SAM D B,SURYA S,BABU R V.Switching convolutionalneural network for crowd counting[C]//IEEE Conference on Computer Vision andPattern Recognition:2017-January.2017.”所述。

所述IG-NN具体如文献“SAM D B,SAJJAN N N,BABU R V,et al.Divide andgrow:Capturing huge diversity in crowd images with incrementally growing cnn[C]//2018IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:3618-3626”所述。

所述CSRNet具体如文献“LI Y,ZHANG X,CHEN D.Csrnet:Dilated convolutionalneural networks for understanding the highly congested scenes[C]//2018IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:1091-1100”所述。

所述SFCN-101具体如文献“WANG Q,GAO J,LIN W,et al.Learning fromsynthetic data for crowd counting in the wild[C]//IEEE Conference on ComputerVision and Pattern Recognition.2019:8190-8199”所述。

所述CAN具体如文献“LIU W,SALZMANN M,FUA P.Context-aware crowd counting[C]//IEEE Computer Society Conference on Computer Vision and PatternRecognition.2019:5094-5103”所述。

所述DM-Count具体如文献“WANG B,LIU H,SAMARAS D,et al.Distributionmatching for crowd counting[C]//Advances in Neural Information ProcessingSystems.2020”所述。

所述SDCNet具体如文献“XIONG H,LU H,LIU C,et al.From open set to closedset:Counting objects by spatial divide-and-conquer[C]//2019IEEE/CVFInternational Conference on Computer Vision(ICCV).2019:8361-8370”所述。

使用平均绝对误差(Mean Absolute Error，MAE)和平均平方误差(Mean SquareError，MSE)作为评价指标，其定义如公式(12)、(13)所示：

其中N为图片总数，C_i为预测值，

为真实值。

ShangHai Tech数据集包括两部分：STA和STB。STA相比于STB人数更密集，难度更高。实验中使用官方对训练集和测试集的划分方案，所述划分方案具体如文献“ZHANG Y,ZHOU D,CHEN S,et al.Single-image crowd countingvia multi-column convolutionalneural network[C]//IEEE Conference on Computer Vision and PatternRecognition.2016:589-597.”中所述。从表1列出的实验结果可以看出，与CPNC相比，CPNC++在STA上的MAE和MSE分别减少了20.9％和20.4％。与使用密度图的方法相比，CPNC++在使用较少监督信息的前提下，在STA和STB上都取得了与它们相近的性能。

所述ShangHai Tech数据集、STA和STB具体如文献“ZHANG Y,ZHOU D,CHEN S,etal.Single-image crowd counting via multi-column convolutional neural network[C]//IEEE Conference on Computer Vision and Pattern Recognition.2016:589-597”所述。

NWPU-Crowd是一个较大的数据集，共包含5109张高分辨率图片，其中训练集、验证集、测试集的数量分别为3109、500、1000张。该数据集同时给出了包围框标注，基于密度图的人群计数方法可以根据包围框估计更准确的高斯核大小，但在此次在训练和测试时均未使用这一信息。与之前方法的性能对比展示在表1中。可以看出，在使用密度图的方法中，DM-Count和SDCNet分别取得了最好的MAE和MSE，CPNC++在未使用包围框信息和点标注信息的情况下取得了与他们相似的性能。

UCF-QNRF是一个大型的人群计数数据集，在该数据集上本发明提供的CPNC网络和CPNC++网络优势更加明显。这一数据集由1,535张图片构成，共包含125万个人头标注。其中图片的分辨率更高，因此使用了前述的滑动窗口策略。实验中使用官方划分的1201张图片作为训练集，334张图片作为测试集。由表1中的结果可以看出，与CPNC相比，CPNC++的性能提升了13.4％，超过了使用密度图的最好方法——DM-Count，这表明了所提训练策略的有效性。

通过5次随机选择，CPNC++(30％)在各数据集上都取得了不错的性能。从表1中可以看出，CPNC++(30％)的性能与部分基于密度图的方法如MCNN接近。在UCF-QNRF上，CPNC++(30％)的MAE为105.3，仅比CPNC++的MAE升高了21.1，接近大多数使用全位置标记的使用密度图的方法。在图3中展示了CPNC与CPNC++在UCF-QNRF上的代表性结果，其中GT表示人数的真实值。可以看出CPNC++在CPNC基础上进行了有效的提升。相比于CPNC，CPNC++在目标更密集时(第2，3行)和目标更小时(第4行)预测更为准确，同时在人群稀疏的数据上(第1行)性能并未下降。

实施例2

现有数据集均为对现实场景的有限的采样，之前方法可能过拟合数据集。本发明中CPNC++因为平衡了不均衡分布，将具有更好的泛化性。为验证这一点，在NWPU-Crowd上训练模型，根据NWPUCrowd的验证集选择模型，并在STA、UCF-QNRF、JHU-Crowd上进行测试，并与当前综合表现最好的方法DM-Count进行对比。从表2中的结果可以看出，CPNC++在跨数据集测试时迁移性能更好。

表2 CPNC++与DM-Count跨数据集测试的MAE

实施例3

为检测每一增强策略带来的影响，在UCF-QNRF上进行了消融实验。如表3所示，其中LDS、FDS分别指标签平滑和特征平滑，MON指所提数据增强策略(Mosiac增强)，GD指区域擦除与区域重排，GS指区域聚合。实验表明所提策略单独使用均可增加使用区块预测的方法进行人群计数的准确性，同时多种方法之间互相兼容。

表3每种增强策略效果衡量

以上结合具体实施方式和/或范例性实例以及附图对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。