CN113780092A - 基于区块弱标注的人群计数方法 - Google Patents

基于区块弱标注的人群计数方法 Download PDF

Info

Publication number
CN113780092A
CN113780092A CN202110930559.4A CN202110930559A CN113780092A CN 113780092 A CN113780092 A CN 113780092A CN 202110930559 A CN202110930559 A CN 202110930559A CN 113780092 A CN113780092 A CN 113780092A
Authority
CN
China
Prior art keywords
network
block
layer
cpnc
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110930559.4A
Other languages
English (en)
Other versions
CN113780092B (zh
Inventor
李国荣
黄庆明
刘心岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN202110930559.4A priority Critical patent/CN113780092B/zh
Publication of CN113780092A publication Critical patent/CN113780092A/zh
Application granted granted Critical
Publication of CN113780092B publication Critical patent/CN113780092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof

Abstract

本发明公开了一种基于区块弱标注信息进行人群计数的方法,所述方法包括训练阶段和测试阶段,所述训练阶段通过CPNC网络进行区块预测,应用标签平滑、特征平滑、多种数据增强策略和辅助损失函数,解决了区块人数的长尾效应和区域预测不精确的问题,在使用更少标注信息的情况下获得了与使用密度图的方法相近的性能,并展现出良好的迁移性。

Description

基于区块弱标注的人群计数方法
技术领域
本发明属于计算机视觉和图像处理技术领域,具体涉及一种基于区块弱标注的人群计数方法。
背景技术
人群计数是重要的计算机视觉任务之一,其目标是计算一张图片中出现的人物数量。近年来,该任务在安防监控、公共场所流量分析等方面发挥着越来越重要的作用。不同于使用包围框的目标检测任务,当前主流的人群计数任务主要以密度图作为学习目标。密度图由对称概率密度函数对点标注图进行卷积平滑而生成,因此与点标注图有相同的L1范数。相比于点标注图,密度图在数值上连续性更强,因此更利于网络学习。但当前使用密度图的方法存在以下问题:
密度图的产生依赖于点标注,在高密度情况下逐一对目标进行点标注成本较高。且理想情况下生成密度图的概率密度核的大小依赖于目标的尺度。但是,如果进行尺度标注,将进一步提高标注成本。同时密度图无法去除在目标密集时经常产生的标注噪声问题。
预测密度图需要保持运算过程中特征图的大小来维持密度图的分辨率。在密度图上,一个像素至多对应一个目标,如果一个像素对应一个目标,密度图退化为点标注图。因此网络中只能进行少量的下采样,增加了计算资源的消耗。
因此,需要一种基于图像进行人群计数的方法,降低标注成本及噪声影响,从而满足目前基于视觉图像进行人群计数的使用要求。
发明内容
为解决上述问题,本发明提供了一种基于区块弱标注的人群计数方法。该方法中将计数的人群图片划分为若干区块,形成区块数量图,在标注时,区块数量图无需具体的位置信息,减少标注成本,利用网络结构CPNC,以人群图片为输入,输出每一区块内人物数量。分别引入平滑策略、数据增强策略和辅助损失函数,在使用更少标注信息的情况下获得了与使用密度图的方法相近的性能,并展现出良好的迁移性,从而完成了本发明。
本发明的目的在于提供一种基于区块弱标注的人群计数方法,所述方法包括训练阶段和测试阶段。
所述训练阶段通过CPNC网络进行区块预测,其中,所述CPNC网络为用于人群计数的跨阶段局部网络(CSPNet for Crowd Counting,CPNC)。
所述CPNC网络包括特征提取网络、瓶颈网络和预测头。
所述特征提取网络使用Focus模块减少训练图片的尺寸,得到尺寸减少的特征图。所述瓶颈网络使用CSPNet中的跨层半网络组件,该组件可以高效的利用跨层特征,从而使尺寸减少的特征图的复杂度降低。具体来说,所述跨层半网络组件将特征按照通道分为两份。其中一份特征通过分支瓶颈网络继续提取更深层特征,另一份特征只通过复杂度低的卷积变换,并将二者的结果进行组合。优选地,所述跨层半网络组件如式(1)所示,g为计算复杂度高的分支瓶颈网络,h为计算复杂度低的1×100卷积模块。
fi=[g(fi-1[0:ni-1/2]),h(fi-1[ni-1/2:ni-1])] (1)
ni-1为跨层半网络组件的第i-1层特征fi-1的通道数,i表示跨层半网络组件的第i层,fi为经过跨层半网络组件第i层得到的特征,fi-1[0:n/2]为特征fi-1的前半部分元素,fi-1[n/2:n])为特征fi-1的后半部分元素。
所述预测头采用EfficientDet中的Bi-FPN网络。
本发明中,使用高斯函数作为径向基函数,通过卷积的方法进行对人数为n的区块数量Bn进行标签平滑,并使用平滑后的数量
Figure BDA0003211160270000031
的倒数作为对应区块的权重w,具体操作如式(2)所示。
Figure BDA0003211160270000032
Figure BDA0003211160270000033
其中,
Figure BDA0003211160270000034
ki表示第i个区块内的人数;ζ为卷积的窗口的大小,其为9-21;n′为窗口内的人数,N(n-n′;0,σ2)为均值为0、方差为σ2的正态分布在n-n′处的值。
本发明中,所述Bi-FPN的特征层输入上引入标准的白化和重着色,来平滑输出特征zi,其平滑值为
Figure BDA0003211160270000041
使用高斯核函数对样本人数值之间的距离进行加权,为当前样本的特征的均值μi和协方差∑i计算对应的平滑值为
Figure BDA0003211160270000042
Figure BDA0003211160270000043
所述高斯核函数如式(3)所示:
Figure BDA0003211160270000044
其中,yi,yi′分别为第i张和第i’张图像中人的数目;N(yi-yi′;0,σ2)为均值为0、方差为σ2的正态分布在yi-yi′处的值;Σi′为第i’个样本的特征的方差;μi′为第i’个样本的特征的均值。
本发明在网络设计上引入了Bi-FPN模块,并使用Mosaic数据增强增加小尺寸目标数量。
在训练过程中,将数据进行随机区块擦除或将区块位置重置,并将重排后对应位置的区块的特征和原区块的特征的进行对比。另外,通过缩放可以将相邻的四个区块聚合成一个区块,聚合后的区块数量应该等于原四个区块中目标数量的和,如图2所示。上述两种过程均可使用MSE进行监督作为辅助损失函数。总体损失函数由有标注部分预测误差和无标注辅助损失函数组成,其定义如式(4)所示:
L(x,y,y′)=Smooth L1(y-y′)+λ(f(x)-h-1f(xh))2 (4)
其中,x为输入的图像样本,y、y′分别为图像中人数的真实值和预测值,f(x)为对应特征层,xh为x通过变换h之后的图像。h包括区块随机擦除与重排(GD)、区块特征缩放与聚合(GS);λ为平衡系数。预测误差使用函数Smooth L1(c)损失保证训练开始时梯度不会过大,其定义如式(5)所示:
Figure BDA0003211160270000051
所述测试阶段为将训练得到的CPNC网络应用到人群计数的检测任务中,以验证模型的有效性。
本发明提供的基于区块弱标注的人群计数方法具有以下有益效果:
(1)本发明中设计了轻量级的网络结构CPNC,这一网络以图片为输入,输出每一区块内人物数量。通过分析多个数据集中的长尾分布问题和小目标问题,分别引入平滑策略和数据增强策略,还进一步引入辅助损失函数,降低标注成本,引入了一种仅需要部分区块标注信息的人群计数方法。
(2)本发明中高斯函数作为径向基函数,通过卷积的方法进行对Bn进行平滑,使平滑后的
Figure BDA0003211160270000052
与Ern的负相关程度显著提高。
(3)本发明中在输入Bi-FPN的三个特征层上引入了标准的白化和重着色过程来平滑输出的特征,使其具有连贯性,使网络模型更平衡地关注各种密度的区块,而不是根据数据集中的数据分布,过拟合数据集中出现频率较高的密度所对应的区块,因此模型将具有更好的可迁移性。
(4)本发明中引入的数据增强策略,可以有效提升小尺寸目标的预测精度,并且使增强后的图像内目标尺寸能够连续变化。
(5)本发明中,构建了辅助损失函数,挖掘无标注数据中的监督信息,进一步降低了标注成本。
附图说明
图1示出根据本发明一种CPNC网络结构示意图;
图2示出根据本发明辅助损失函数中随机区块擦除和区块位置重置的示例图;
图3示出本发明实施例1中CPNC与CPNC++在UCF-QNRF上的应用测试结果。
具体实施方式
下面通过附图和实施方式对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
本发明提供了一种基于区块弱标注的人群计数方法,所述方法包括训练阶段和测试阶段。
所述训练阶段通过CPNC网络进行区块预测,其中,所述CPNC网络为用于人群计数的跨阶段局部网络(CSPNet for Crowd Counting,CPNC),所述跨阶段局部网络(CSPNet)具体如文献“WANG C Y,MARK LIAO H Y,WU Y H,et al.Cspnet:A new backbone that canenhance learning capability of cnn[C]//IEEE/CVF Conference on Computer Visionand Pattern Recognition Workshops(CVPRW).2020:1571-1580.”中所述。
所述CPNC网络包括特征提取网络、瓶颈网络和预测头,其网络结构如图1所示。
所述特征提取网络使用Focus模块减少训练图片的尺寸,得到尺寸减少的特征图。所述瓶颈网络使用CSPNet中的跨层半网络组件,该组件可以高效的利用跨层特征,从而使尺寸减少的特征图的复杂度降低。具体来说,所述跨层半网络组件将特征按照通道分为两份。其中一份特征通过分支瓶颈网络继续提取更深层特征,另一份特征只通过复杂度低的卷积变换,并将二者的结果进行组合。优选地,所述跨层半网络组件如式(1)所示,g为计算复杂度高的分支瓶颈网络,h为计算复杂度低的1×100卷积模块。
fi=[g(fi-1[0:ni-1/2]),h(fi-1[ni-1/2:ni-1])] (1)
ni-1为跨层半网络组件的第i-1层特征fi-1的通道数,i表示跨层半网络组件的第i层,fi为经过跨层半网络组件第i层得到的特征,fi-1[0:n/2]为特征fi-1的前半部分元素,fi-1[n/2:n])为特征fi-1的后半部分元素。
所述Focus模块具体如文献“JOCHER G,STOKEN A,BOROVEC J,等.ultralytics/yolov5:v3.1-Bug Fixes and Performance Improvements[CP/OL].Zenodo,2020”所述。
所述h为计算复杂度低的1×100卷积模块,所述卷积模块具体如文献“KrizhevskyA,Sutskever I,Hinton G E.ImageNet Classification with Deep ConvolutionalNeural Networks[C]//Advances in Neural Information Processing Systems.2012.”中所述。
根据需求不同,所述分支瓶颈网络选择不同层数或不同复杂度的网络结构,如ResNet、ResNext、ResNest、NFNet等。
所述ResNet具体如文献“HE K,ZHANG X,REN S,et al.Deep residual learningfor image recognition[C]//2016IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770-778.”中所述。
所述ResNext具体如文献“XIE S,GIRSHICK R,DOLLáR P,et al.Aggregatedresidual transformations for deep neural networks[C]//IEEE Conference onComputer Vision and Pattern Recognition(CVPR).2017:5987-5995.”中所述。
所述ResNest具体如文献“HE K,ZHANG X,REN S,et al.Deep residual learningfor image recognition[C]//2016IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770-778.”中所述。
所述NFNet具体如文献“BROCK A,DE S,SMITH S L,et al.High-performancelargescale image recognition without normalization[J/OL].CoRR,2021,abs/2102.06171.”中所述。
所述预测头采用EfficientDet中的Bi-FPN网络。不同于检测任务,人群计数任务中的目标较小,高层特征不容易辨别小目标。同时为降低网络复杂度,将Bi-FPN网络特征层设置为3-5层,优选为3层,加强小目标鉴别,得到区块数量图。
所述EfficientDet和Bi-FPN网络具体如文献“TAN M,LE QV.Efficientnetv2:Smaller models and faster training[J/OL].CoRR,2021,abs/2104.00298.”中所述。
在用于人群计数的图像处理中,标签不平衡容易造成模型偏差,在数据集上的统计结果显示随着密度的增大,对应区块的数量迅速减少,呈现长尾分布。另外,随着密度的增大,对应的区块内目标的平均尺寸变小,增加了计数的难度。上述结果会导致高密度区块的预测偏差较大,为解决模型偏差问题,本发明中设计了样本均衡策略来对抗长尾分布的影响。
本发明中,使用高斯函数作为径向基函数,通过卷积的方法进行对人数为n的区块数量Bn进行标签平滑,并使用平滑后的数量
Figure BDA0003211160270000091
的倒数作为对应区块的权重w,具体操作如式(2)所示。
Figure BDA0003211160270000092
Figure BDA0003211160270000093
其中,
Figure BDA0003211160270000094
ki表示第i个区块内的人数;ζ为卷积的窗口的大小,其为9-21,优选为12-18;n′为窗口内的人数,N(n-n′;0,σ2)为均值为0、方差为σ2的正态分布在n-n′处的值;
Figure BDA0003211160270000101
大于0。
经过标签平滑策略之后,
Figure BDA0003211160270000102
与人数恰好为n的所有区块平均误差Ern的负相关程度显著提高。通过实验得到,在NWPU-Crowd上,
Figure BDA0003211160270000103
与Ern的皮尔逊相关指数为-0.72,在UCF-QNRF上为-0.79,而且所有的Bn均大于0。
其中,
Figure BDA0003211160270000104
其中,ki表示第i个区块内的人数,n为人数,eri为第i个区块人数ki的预测误差。
所述UCF-QNRF具体如文献“H I,M T,K A,et al.Composition loss forcounting,density map estimation and localization in dense crowds[C]//IEEEEuropean Conference on Computer Vision(ECCV).2018:544-559”所述。
所述NWPU-Crowd具体如文献“WANG Q,GAO J,LIN W,et al.Nwpu-crowd:A large-scale benchmark for crowd counting and localization[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2021,43(6):2141-2149”所述。
同时,为了使输出特征具有连贯性,本发明中,所述Bi-FPN的特征层输入上引入标准的白化和重着色,来平滑输出特征zi,其平滑值为
Figure BDA0003211160270000105
使用高斯核函数对样本人数值之间的距离进行加权,为当前样本的特征的均值μi和协方差∑i计算对应的平滑值为
Figure BDA0003211160270000106
Figure BDA0003211160270000107
所述高斯核函数如式(3)所示:
Figure BDA0003211160270000111
其中,yi,yi′分别为第i张和第i’张图像中人的数目;N(yi-yi′;0,σ2)为均值为0、方差为σ2的正态分布在yi-yi′处的值;Σi′为第i’个样本的特征的方差;μi′为第i’个样本的特征的均值。
经过这两种平滑策略,模型将更平衡地关注各种密度的区块,而不是根据数据集中的数据分布,过拟合数据集中出现频率较高的密度所对应的区块,因此模型将具有更好的可迁移性。
为了解决小尺寸目标的问题,本发明在网络设计上引入了Bi-FPN网络,并使用Mosaic数据增强增加小尺寸目标数量。同时,为进一步降低标注成本,本发明中挖掘无标注数据中的监督信息,并构造一种辅助损失函数,来有效地进行训练。
所述Mosaic具体如文献“JOCHER G,STOKEN A,BOROVEC J,等.ultralytics/yolov5:v3.1-Bug Fixes and Performance Improvements[CP/OL].Zenodo,2020.https://doi.org/10.5281/zenodo.4154370.”中所述。
训练时,利用Mosaic算法将若干张图片进行结合,优选地,采样若干倍batch-size张图片,随机划分为batch-size组。每次生成增强图片时,根据第i组内的真实图片数量ni,其中,i=1,2,...,batch-size,对增强图片进行ni-1次划分,分成ni个区域,记为增强图片集
Figure BDA0003211160270000121
Figure BDA0003211160270000122
为第i组图片得到的第j个区域。在对第i组内的增强图片进行第a次划分时,将从
Figure BDA0003211160270000123
中选择最大的区域将其等分为两份,a为大于等于1且小于等于ni-1的整数。划分按照水平、竖直的次序交替进行。最终将i组内的真实图片
Figure BDA0003211160270000124
按照人数多少升序排序,
Figure BDA0003211160270000125
为真实图片集。将
Figure BDA0003211160270000126
按照面积进行升序排序,将排在第j(j=1,2,…,ni-1)个位置的图片通过缩放,放入排在第j个位置的区域内。
为进一步降低标注成本,本发明中挖掘无标注数据中的监督信息,构建了辅助损失函数来有效地训练网络。在训练过程中,将数据进行随机区块擦除或将区块位置重置,并将重排后对应位置的区块的特征和原区块的特征的进行对比。另外,通过缩放可以将相邻的四个区块聚合成一个区块,聚合后的区块数量应该等于原四个区块中目标数量的和,如图2所示。上述两种过程均可使用MSE进行监督作为辅助损失函数。辅助损失函数由有标注部分预测误差和无标注辅助损失函数组成,其定义如式(4)所示:
L(x,y,y′)=Smooth L1(y-y′)+λ(f(x)-h-1f(xh))2 (4)
其中,x为输入的图像样本,y、y′分别为图像中人数的真实值和预测值,f(x)为对应特征层,xh为x通过变换h之后的图像。h包括区块随机擦除与重排(GD)、区块特征缩放与聚合(GS);λ为平衡系数,具体如文献“(LIU X,VAN DE WEIJER J,BAGDANOV AD.Leveraging unlabeled data for crowd counting by learning to rank[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:7661-7669.)”中所述。预测误差使用函数SmoothL1(c)损失保证训练开始时梯度不会过大,其定义如式(5)所示:
Figure BDA0003211160270000131
其中,c为自变量。
所述测试阶段为将训练得到的CPNC网络应用到人群计数的检测任务中,以验证模型的有效性。
本发明提出了一种基于区块弱标注信息进行人群计数的方法,利用改进后的CPNC网络进行训练,该方法不依赖于精确的位置信息,因此标注成本更小。本发明中提出多种提升策略,包括:标签平滑、特征平滑、多种数据增强策略和辅助损失函数,解决了区块人数的长尾效应和区域预测不精确的问题,在使用更少标注信息的情况下获得了与使用密度图的方法相近的性能,并展现出良好的迁移性。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例1
将使用了数据增强和辅助损失函数的CPNC网络记为CPNC++。
CPNC网络中:
(1)先利用Focus模块减少训练图片的尺寸,得到尺寸减少的特征图。Focus模块具体如文献“JOCHER G,STOKEN A,BOROVEC J,等.ultralytics/yolov5:v3.1-Bug Fixes andPerformance Improvements[CP/OL].Zenodo,2020”所述。
将尺寸减少的特征图输入到作为瓶颈网络的CSPNet中的跨层半网络组件,其按式(1)进行:
fi=[g(fi-1[0:ni-1/2]),h(fi-1[ni-1/2:ni-1])] (1)
其中,g为计算复杂度高的分支瓶颈网络NFNet-f3,其具体如文献“BROCK A,DE S,SMITH S L,et al.High-performance largescale image recognition withoutnormalization[J/OL].CoRR,2021,abs/2102.06171.https://arxiv.org/abs/2102.06171.”中所述。h为计算复杂度低的、卷积核为1×100的卷积模块,其具体卷积操作如文献“Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with DeepConvolutional Neural Networks[C]//Advances in Neural Information ProcessingSystems.2012.”中所述。
ni-1为跨层半网络组件的第i-1层特征fi-1的通道数,i表示跨层半网络组件的第i层,fi为经过跨层半网络组件的第i层得到的特征,fi-1[0:n/2]为特征fi-1的前半部分元素,fi-1[n/2:n])为特征fi-1的后半部分元素。
(2)将从瓶颈网络的输出结果输入至作为预测头的EfficientDet中的Bi-FPN网络进行处理,得到输出结果。
所述EfficientDet和Bi-FPN网络具体如文献“TAN M,LE Q V.Efficientnetv2:Smaller models and faster training[J/OL].CoRR,2021,abs/2104.00298.”中所述。
使用高斯函数作为径向基函数,通过卷积的方法进行对人数为n的区块数量Bn进行标签平滑(LDS),并使用平滑后的数量
Figure BDA0003211160270000151
的倒数作为对应区块的权重w,具体操作如式(2)所示。
Figure BDA0003211160270000152
Figure BDA0003211160270000153
其中,
Figure BDA0003211160270000154
ki表示第i个区块内的人数;ζ为卷积的窗口的大小,其为15;n′为窗口内的人数,N(n-n′;0,σ2)为均值为0、方差为σ2的正态分布在n-n′处的值。
其中,
Figure BDA0003211160270000155
其中,ki表示第i个区块内的人数,n为人数,eri为第i个区块人数的预测误差。
在NWPU-Crowd上,
Figure BDA0003211160270000156
与Ern的皮尔逊相关指数为-0.72,在UCF-QNRF上为-0.79。在NWPU-Crowd上,Bn与Ern的负相关程度为-0.10,在UCF-QNRF上为-0.11,
Figure BDA0003211160270000157
与Ern的负相关程度显著提高。
(3)另外,Bi-FPN的特征层输入上引入标准的白化和重着色,来平滑输出特征zi,进行特征平滑(FDS),其平滑值为
Figure BDA0003211160270000158
使用高斯核函数对样本人数值之间的距离进行加权,为当前样本的特征的均值μi和协方差∑i计算对应的平滑值为
Figure BDA0003211160270000159
Figure BDA00032111602700001510
所述高斯核函数如式(3)所示:
Figure BDA0003211160270000161
其中,yi,yi′分别为第i张和第i’张图像中人的数目;N(yi-yi′;0,σ2)为均值为0、方差为σ2的正态分布在yi-yi′处的值;Σi′为第i’个样本的特征的方差;μi′为第i’个样本的特征的均值。
在CPNC++网络中,在CPNC网络的基础上,
(1)利用Mosaic算法将若干张图片进行结合,采用4倍batch-size张图片随机划分为batch-size组。每次生成增强图片时,根据第i组内的真实图片数量ni,其中,i=1,2,3,4,对增强图片进行ni-1次划分,分成ni个区域,记为
Figure BDA0003211160270000162
为第i组图片得到的第j个区域。在进行第a次划分时,将从
Figure BDA0003211160270000163
中选择最大的区域将其等分为两份,a为大于等于1且小于等于ni-1的整数。划分按照水平、竖直的次序交替进行。最终将i组内的真实图片
Figure BDA0003211160270000164
按照人数多少升序排序,
Figure BDA0003211160270000165
为真实图片集,将
Figure BDA0003211160270000166
按照面积进行升序排序。将排在第j(j=1,2,…,ni-1)个位置的图片通过缩放,放入排在第j个位置的区域内。
(2)在训练过程中,将数据进行随机区块擦除或将区块位置重置,并将重排后对应位置的区块的特征和原区块的特征的进行对比。另外,通过缩放可以将相邻的四个区块聚合成一个区块,聚合后的区块数量应该等于原四个区块中目标数量的和,如图2所示。上述两种过程均可使用MSE进行监督作为辅助损失函数。总体损失函数由有标注部分预测误差和无标注辅助损失函数组成,其定义如式(4)所示:
L(x,y,y′)=Smooth L1(y-y′)+λ(f(x)-h-1f(xh))2 (4)
其中,x为输入的图像样本,y、y′分别为输入图像中人数的真实值和预测值,f(x)为对应特征层,xh为x通过变换h之后的图像。h包括区块随机擦除与重排(GD)、区块特征缩放与聚合(GS),其中,擦除操作如文献“Pathak D,
Figure BDA0003211160270000172
P,Donahue J,etal.Context Encoders:Feature Learning by Inpainting[C]//IEEE Conference onComputer Vision and Pattern Recognition.2016.2536-2544.”中所述;重排操作如“Noroozi M,Favaro P.Unsupervised Learning of Visual Representations bySolving Jigsaw Puzzles[C]//European Conference on Computer Vision.2016.69-84.”中所述;缩放与聚合操作如文献“Noroozi M,Pirsiavash H,FavaroP.Representation learning by learning to count[C]//International Conferenceon Computer Vision.2017.5898-5906”中所述;λ为0.0001。
预测误差使用SmoothL1(c)损失保证训练开始时梯度不会过大,其定义如式(5)所示:
Figure BDA0003211160270000171
其中,c为自变量。
在ShangHai Tech、UCF-QNRF和NWPU-Crowd三个公共开放视图密集人群数据集上评估CPNC网络和CPNC++网络,并和现有基于密度图的方法进行比较。对于区块((w1,h1),(w2,h2)),可通过式(11)将点标注数据集转换为区块标注数据集。
Figure BDA0003211160270000181
其中,h1、h2分别为区块左上角的纵坐标和右下角的纵坐标,w1为区块左上角的横坐标,w2为区域右下角的横坐标,Y为点标注信息(点标注值),Y(w,h)为坐标为(w,h)的位置的点标注值。
如未经特殊说明,实验均在RTX 3090GPU进行,在训练时,输入尺寸为1024×1024,每个GPU的batch size为16,并使用同步批标准化。迭代次数为500轮,并应用Adam作为优化器,固定学习率为10-5。所使用的数据增强触发概率均为0.3。在测试时,如果图片尺寸超过训练时的输入尺寸,则使用有覆盖的窗口滑动方式进行平均,窗口大小为1024×1024,覆盖率为0.25。如果图片尺寸小于训练时输入尺寸,则在边缘补0至64的倍数。如未经特殊说明,网络backbone采用NFNet-f3,在这一网络下,每次推理仅需0.06秒,在相同机器上使用DM-Count则需要0.15秒。
所述ShangHai Tech具体如文献“ZHANG Y,ZHOU D,CHEN S,et al.Single-imagecrowd counting via multi-column convolutional neural network[C]//IEEEConference on Computer Vision and Pattern Recognition.2016:589-597”所述。
所述UCF-QNRF具体如文献“H I,M T,K A,et al.Composition loss forcounting,density map estimation and localization in dense crowds[C]//IEEEEuropean Conference on Computer Vision(ECCV).2018:544-559”所述。
所述NWPU-Crowd具体如文献“WANG Q,GAO J,LIN W,et al.Nwpu-crowd:A large-scale benchmark for crowd counting and localization[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2021,43(6):2141-2149”所述。
所述NFNet-f3具体如文献“BROCK A,DE S,SMITH S L,et al.High-performancelargescale image recognition without normalization[J/OL].CoRR,2021,abs/2102.06171”所述。
所述DM-Count具体如文献“WANG B,LIU H,SAMARAS D,et al.Distributionmatching for crowd counting[C]//Advances in Neural Information ProcessingSystems.2020.”中所述。
此外,为了证明CPNC++网络能有效利用未标注数据,从训练数据中随机选择30%的区块及其数量标注信息用作监督数据,其余70%的数据用作无标注数据,训练得到的模型记作CPNC++(30%)。
表1本发明中的CPNC网络、CPNC++网络以及CPNC++(30%)模型与现有方法在开放数据集上的对比
Figure BDA0003211160270000201
所述MCNN具体如文献“ZHANG Y,ZHOU D,CHEN S,et al.Single-image crowdcounting via multi-column convolutional neural network[C]//IEEE Conference onComputer Vision and Pattern Recognition.2016:589-597”所述。
所述SCNN具体如文献“SAM D B,SURYA S,BABU R V.Switching convolutionalneural network for crowd counting[C]//IEEE Conference on Computer Vision andPattern Recognition:2017-January.2017.”所述。
所述IG-NN具体如文献“SAM D B,SAJJAN N N,BABU R V,et al.Divide andgrow:Capturing huge diversity in crowd images with incrementally growing cnn[C]//2018IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:3618-3626”所述。
所述CSRNet具体如文献“LI Y,ZHANG X,CHEN D.Csrnet:Dilated convolutionalneural networks for understanding the highly congested scenes[C]//2018IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:1091-1100”所述。
所述SFCN-101具体如文献“WANG Q,GAO J,LIN W,et al.Learning fromsynthetic data for crowd counting in the wild[C]//IEEE Conference on ComputerVision and Pattern Recognition.2019:8190-8199”所述。
所述CAN具体如文献“LIU W,SALZMANN M,FUA P.Context-aware crowd counting[C]//IEEE Computer Society Conference on Computer Vision and PatternRecognition.2019:5094-5103”所述。
所述DM-Count具体如文献“WANG B,LIU H,SAMARAS D,et al.Distributionmatching for crowd counting[C]//Advances in Neural Information ProcessingSystems.2020”所述。
所述SDCNet具体如文献“XIONG H,LU H,LIU C,et al.From open set to closedset:Counting objects by spatial divide-and-conquer[C]//2019IEEE/CVFInternational Conference on Computer Vision(ICCV).2019:8361-8370”所述。
使用平均绝对误差(Mean Absolute Error,MAE)和平均平方误差(Mean SquareError,MSE)作为评价指标,其定义如公式(12)、(13)所示:
Figure BDA0003211160270000221
Figure BDA0003211160270000222
其中N为图片总数,Ci为预测值,
Figure BDA0003211160270000223
为真实值。
ShangHai Tech数据集包括两部分:STA和STB。STA相比于STB人数更密集,难度更高。实验中使用官方对训练集和测试集的划分方案,所述划分方案具体如文献“ZHANG Y,ZHOU D,CHEN S,et al.Single-image crowd countingvia multi-column convolutionalneural network[C]//IEEE Conference on Computer Vision and PatternRecognition.2016:589-597.”中所述。从表1列出的实验结果可以看出,与CPNC相比,CPNC++在STA上的MAE和MSE分别减少了20.9%和20.4%。与使用密度图的方法相比,CPNC++在使用较少监督信息的前提下,在STA和STB上都取得了与它们相近的性能。
所述ShangHai Tech数据集、STA和STB具体如文献“ZHANG Y,ZHOU D,CHEN S,etal.Single-image crowd counting via multi-column convolutional neural network[C]//IEEE Conference on Computer Vision and Pattern Recognition.2016:589-597”所述。
NWPU-Crowd是一个较大的数据集,共包含5109张高分辨率图片,其中训练集、验证集、测试集的数量分别为3109、500、1000张。该数据集同时给出了包围框标注,基于密度图的人群计数方法可以根据包围框估计更准确的高斯核大小,但在此次在训练和测试时均未使用这一信息。与之前方法的性能对比展示在表1中。可以看出,在使用密度图的方法中,DM-Count和SDCNet分别取得了最好的MAE和MSE,CPNC++在未使用包围框信息和点标注信息的情况下取得了与他们相似的性能。
所述NWPU-Crowd具体如文献“WANG Q,GAO J,LIN W,et al.Nwpu-crowd:A large-scale benchmark for crowd counting and localization[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2021,43(6):2141-2149”所述。
UCF-QNRF是一个大型的人群计数数据集,在该数据集上本发明提供的CPNC网络和CPNC++网络优势更加明显。这一数据集由1,535张图片构成,共包含125万个人头标注。其中图片的分辨率更高,因此使用了前述的滑动窗口策略。实验中使用官方划分的1201张图片作为训练集,334张图片作为测试集。由表1中的结果可以看出,与CPNC相比,CPNC++的性能提升了13.4%,超过了使用密度图的最好方法——DM-Count,这表明了所提训练策略的有效性。
通过5次随机选择,CPNC++(30%)在各数据集上都取得了不错的性能。从表1中可以看出,CPNC++(30%)的性能与部分基于密度图的方法如MCNN接近。在UCF-QNRF上,CPNC++(30%)的MAE为105.3,仅比CPNC++的MAE升高了21.1,接近大多数使用全位置标记的使用密度图的方法。在图3中展示了CPNC与CPNC++在UCF-QNRF上的代表性结果,其中GT表示人数的真实值。可以看出CPNC++在CPNC基础上进行了有效的提升。相比于CPNC,CPNC++在目标更密集时(第2,3行)和目标更小时(第4行)预测更为准确,同时在人群稀疏的数据上(第1行)性能并未下降。
实施例2
现有数据集均为对现实场景的有限的采样,之前方法可能过拟合数据集。本发明中CPNC++因为平衡了不均衡分布,将具有更好的泛化性。为验证这一点,在NWPU-Crowd上训练模型,根据NWPUCrowd的验证集选择模型,并在STA、UCF-QNRF、JHU-Crowd上进行测试,并与当前综合表现最好的方法DM-Count进行对比。从表2中的结果可以看出,CPNC++在跨数据集测试时迁移性能更好。
表2 CPNC++与DM-Count跨数据集测试的MAE
Figure BDA0003211160270000241
实施例3
为检测每一增强策略带来的影响,在UCF-QNRF上进行了消融实验。如表3所示,其中LDS、FDS分别指标签平滑和特征平滑,MON指所提数据增强策略(Mosiac增强),GD指区域擦除与区域重排,GS指区域聚合。实验表明所提策略单独使用均可增加使用区块预测的方法进行人群计数的准确性,同时多种方法之间互相兼容。
表3每种增强策略效果衡量
Figure BDA0003211160270000251
以上结合具体实施方式和/或范例性实例以及附图对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims (10)

1.一种基于区块弱标注的人群计数方法,所述方法包括训练阶段和测试阶段,所述训练阶段通过CPNC网络进行区块预测,其中,所述CPNC网络为用于人群计数的跨阶段局部网络。
2.根据权利要求1所述的方法,其特征在于,所述CPNC网络包括特征提取网络、瓶颈网络和预测头。
3.根据权利要求2所述的方法,其特征在于,
所述特征提取网络使用Focus模块减少训练图片的尺寸,得到尺寸减少的特征图;
所述瓶颈网络使用CSPNet中的跨层半网络组件;
所述预测头采用EfficientDet中的Bi-FPN网络。
4.根据权利要求3所述的方法,其特征在于,所述跨层半网络组件将特征按照通道分为两份,其中一份特征通过分支瓶颈网络继续提取更深层特征,另一份特征只通过复杂度低的卷积变换,并将二者的结果进行组合,
优选地,所述跨层半网络组件如式(1)所示,g为计算复杂度高的分支瓶颈网络,h为计算复杂度低的1×100卷积模块,
fi=[g(fi-1[0:ni-1/2]),h(fi-1[ni-1/2:ni-1])] (1)
ni-1为跨层半网络组件的第i-1层特征fi-1的通道数,i表示跨层半网络组件的第i层,fi为经过跨层半网络组件第i层得到的特征,fi-1[0:n/2]为特征fi-1的前半部分元素,fi-1[n/2:n])为特征fi-1的后半部分元素。
5.根据权利要求3所述的方法,其特征在于,将Bi-FPN网络特征层设置为3-5层,优选为3层,加强小目标鉴别,得到区块数量图。
6.根据权利要求1至5之一所述的方法,其特征在于,所述方法使用高斯函数作为径向基函数,通过卷积的方法进行对人数为n的区块数量Bn进行标签平滑,并使用平滑后的数量Bn的倒数作为对应区块的权重w,具体操作如式(2)所示:
Figure FDA0003211160260000021
Figure FDA0003211160260000022
其中,
Figure FDA0003211160260000023
ki表示第i个区块内的人数;ζ为卷积的窗口的大小,其为9-21;n′为窗口内的人数,N(n-n′;0,σ2)为均值为0、方差为σ2的正态分布在n-n′处的值。
7.根据权利要求1至6之一所述的方法,其特征在于,所述Bi-FPN的特征层输入上引入标准的白化和重着色,来平滑输出特征zi,其平滑值为
Figure FDA0003211160260000024
使用高斯核函数对样本人数值之间的距离进行加权,为当前样本的特征的均值μi和协方差∑i计算对应的平滑值为
Figure FDA0003211160260000025
Figure FDA0003211160260000026
具体如式(3)所示:
Figure FDA0003211160260000027
其中,yi,yi′分别为第i张和第i’张图像中人的数目;N(yi-yi′;0,σ2)为均值为0、方差为σ2的正态分布在yi-yi′处的值;Σi′为第i’个样本的特征的方差;μi′为第i’个样本的特征的均值。
8.根据权利要求1至7之一所述的方法,其特征在于,所述方法中,使用Mosaic数据增强增加小尺寸目标数量。
9.根据权利要求1至8之一所述的方法,其特征在于,所述方法中使用辅助损失函数,其定义如式(4)所示:
L(x,y,y′)=Smooth L1(y-y′)+λ(f(x)-h-1f(xh))2 (4)
其中,x为输入的图像样本,y、y′分别为图像中人数的真实值和预测值,f(x)为对应特征层,xh为x通过变换h之后的图像,h包括区块随机擦除与重排、区块特征缩放与聚合,λ为平衡系数。
10.根据权利要求9所述的方法,其特征在于,所述SmoothL1定义如公式(5)所示:
Figure FDA0003211160260000031
其中,c为函数自变量。
CN202110930559.4A 2021-08-13 2021-08-13 基于区块弱标注的人群计数方法 Active CN113780092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110930559.4A CN113780092B (zh) 2021-08-13 2021-08-13 基于区块弱标注的人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110930559.4A CN113780092B (zh) 2021-08-13 2021-08-13 基于区块弱标注的人群计数方法

Publications (2)

Publication Number Publication Date
CN113780092A true CN113780092A (zh) 2021-12-10
CN113780092B CN113780092B (zh) 2022-06-10

Family

ID=78837663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110930559.4A Active CN113780092B (zh) 2021-08-13 2021-08-13 基于区块弱标注的人群计数方法

Country Status (1)

Country Link
CN (1) CN113780092B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992223A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深度学习的密集人数估计方法
CN106845621A (zh) * 2017-01-18 2017-06-13 山东大学 基于深度卷积神经网络的密集人群人数计数方法及系统
CN111882517A (zh) * 2020-06-08 2020-11-03 杭州深睿博联科技有限公司 一种基于图卷积神经网络的骨龄评测方法、系统、终端及存储介质
CN112215129A (zh) * 2020-10-10 2021-01-12 江南大学 一种基于排序损失和双分支网络的人群计数方法及系统
CN112417288A (zh) * 2020-11-25 2021-02-26 南京大学 一种用于众包软件测试的任务跨域推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992223A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深度学习的密集人数估计方法
CN106845621A (zh) * 2017-01-18 2017-06-13 山东大学 基于深度卷积神经网络的密集人群人数计数方法及系统
CN111882517A (zh) * 2020-06-08 2020-11-03 杭州深睿博联科技有限公司 一种基于图卷积神经网络的骨龄评测方法、系统、终端及存储介质
CN112215129A (zh) * 2020-10-10 2021-01-12 江南大学 一种基于排序损失和双分支网络的人群计数方法及系统
CN112417288A (zh) * 2020-11-25 2021-02-26 南京大学 一种用于众包软件测试的任务跨域推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WILLIAM: "一文读懂YOLOV5与YOLOV4", 《知乎》 *
XIALEI LIU等: "Leveraging Unlabeled Data for Crowd Counting by Learning to Rank", 《IEEE CVF》 *

Also Published As

Publication number Publication date
CN113780092B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
Li et al. Adaptively constrained dynamic time warping for time series classification and clustering
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN107240122A (zh) 基于时空连续相关滤波的视频目标跟踪方法
Yan et al. Crowd counting via perspective-guided fractional-dilation convolution
Fang et al. Efficient and robust fragments-based multiple kernels tracking
Xian et al. Evaluation of low-level features for real-world surveillance event detection
Danelljan et al. Deep motion and appearance cues for visual tracking
Yi et al. Motion keypoint trajectory and covariance descriptor for human action recognition
CN110533100A (zh) 一种基于机器学习进行cme检测和跟踪的方法
CN111709331A (zh) 一种基于多粒度信息交互模型的行人重识别方法
Mo et al. Background noise filtering and distribution dividing for crowd counting
CN106777159A (zh) 一种基于内容的视频片段检索及定位方法
KR20200010971A (ko) 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
Zhu et al. Human detection under UAV: an improved faster R-CNN approach
CN114973112A (zh) 一种基于对抗学习网络的尺度自适应密集人群计数方法
Xu et al. Domain adaptation from synthesis to reality in single-model detector for video smoke detection
Xiong et al. An efficient multi-scale contextual feature fusion network for counting crowds with varying densities and scales
Jiang et al. Flexible sliding windows with adaptive pixel strides
CN113780092B (zh) 基于区块弱标注的人群计数方法
Huang et al. Aerial image classification by learning quality-aware spatial pyramid model
Ma et al. PPDTSA: Privacy-preserving deep transformation self-attention framework for object detection
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant