CN111783610A - 一种基于解纠缠图像迁移的跨域人群计数方法 - Google Patents

一种基于解纠缠图像迁移的跨域人群计数方法 Download PDF

Info

Publication number
CN111783610A
CN111783610A CN202010595128.2A CN202010595128A CN111783610A CN 111783610 A CN111783610 A CN 111783610A CN 202010595128 A CN202010595128 A CN 202010595128A CN 111783610 A CN111783610 A CN 111783610A
Authority
CN
China
Prior art keywords
image
domain
network
representing
crowd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010595128.2A
Other languages
English (en)
Other versions
CN111783610B (zh
Inventor
王�琦
袁媛
韩滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010595128.2A priority Critical patent/CN111783610B/zh
Publication of CN111783610A publication Critical patent/CN111783610A/zh
Application granted granted Critical
Publication of CN111783610B publication Critical patent/CN111783610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于解纠缠图像迁移的跨域人群计数方法。通过在输入端设计一个域转换网络,实现合成图片到真实图片的转换,以缩小两个域的域差;再将转换后的图片输入人群计数器训练,最终得到可以在实际场景中应用的计数模型。本发明方法通过将虚拟域的特征映射到真实域,减少在特征映射时的信息损失,从而实现了更好的跨域人群计数效果。

Description

一种基于解纠缠图像迁移的跨域人群计数方法
技术领域
本发明属计算机视觉、图形处理技术领域,具体涉及一种基于解纠缠图像迁移的跨域人群计数方法。
背景技术
近年来,国内外因拥挤而导致的踩踏事故频繁发生,大型活动中的拥挤踩踏事故是一个多因素、多变量、多层次的复杂系统。但是人群密度大是导致踩踏事故发生的必要条件,若能通过准确估计当前场景的人群密度,并安排相应的安保措施,则可以有效减少或避免此类事故的发生。
为估计实际场景中的人群密度,大量的人群计数方法不断涌现出来。这些方法大致可以分为两类:1)传统的人群计数方法,主要是基于检测、回归和密度估计三种方法。例如,Abdelghany A等人在文献“Abdelghany A,Abdelghany K,Mahmassani H,etal.Modeling framework for optimal evacuation of large-scale crowdedpedestrian facilities[J].European Journal of Operational Research.2014,237(3):1105—1118”中使用一个滑动窗口检测器来检测场景中人群,并统计相应的人数。2)基于卷积神经网络的人群计数方法。由于CNN在许多计算机视觉任务都取得了成功的运用,因此可以利用其出色的特征学习能力来学习非线性函数,实现从人群图像到相应的人群密度图的转换。例如,Zhang C等人在文献“Zhang C,Li H,Wang X,et al.Cross-scene crowdcounting via deep convolutional neural networks[C].IEEE Conference onComputer Vision and Pattern Recognition.2015,833—841”中提出了一个适用人群计数的深度卷积神经网络模型,交替回归该图像块的人群密度和人群总数来实现人数估计,相比于人工特征对人群有更好的表述能力。随着深度神经网络的发展,人群密度估计的准确率不断提高。
但以上所述的人群计数算法主要基于大量标注数据的监督学习,存在两个急待解决的问题:一是学习需要大量的训练数据,但收集和标注这些人群图像比较困难,同时,在人群密度较高的场景里,肉眼难以区分密集的人头分布,标注的准确性无法保证;二是由于两个不同场景的人群计数任务存在域差,因此在一个场景里训练的人群计数模型应用到另一个场景时效果往往很差。
发明内容
为了克服现有技术的不足,本发明提供一种基于解纠缠图像迁移的跨域人群计数方法。通过在输入端设计一个风格迁移神经网络,并训练该网络实现将合成图像的风格迁移到真实图像,使得合成的图像可以缩小两个域的域差;将源域图像输入到训练好的风格迁移神经网络,由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集;再将转换后的图像输入人群计数器训练,最终得到可以在实际场景中应用的计数模型。本发明方法通过将虚拟域的特征映射到真实域,减少在特征映射时的信息损失,从而实现了更好的跨域人群计数效果。
一种基于解纠缠图像迁移的跨域人群计数方法,其特征在于步骤如下:
步骤1:将带有标注信息的源域图像和没有标注信息的目标域图像交替输入到风格迁移神经网络进行训练,得到训练好的网络;
所述的带标注信息的源域图像是指由游戏引擎合成的虚拟人群图像,每张图像在生成时由电脑自动完成人头位置的标注;所述的目标域图像是真实场景下拍摄的人群图像,不具有人头位置的标注;
所述的风格迁移神经网络包含编码器、解码器和鉴别器三个部分,其中,编码器由2个卷积层和4个残差块顺序连接而成,第一卷积层的卷积核为7x7、步长为1,第二卷积层的卷积核为3x3、步长为2,每个残差块由两个卷积核为3x3、步长为1的卷积层连接而成,将图像输入到第一卷积层,输出得到64通道的特征,64通道的特征输入到第二卷积层,输出得到下采样的特征,再将下采样的特征输入到残差块,输出得到域不变特征;解码器的结构和编码器的结构对称,由4个残差块和2个反卷积层顺序连接而成,解码器将编码器输出的域不变特征恢复成风格迁移图像;鉴别器由5个卷积核为4x4的卷积层连接而成,将解码器输出的风格迁移图像输入到鉴别器,输出得到图像是属于源域图像还是目标域图像的判定结果;
训练中设定网络的损失函数为:
Figure BDA0002553458550000021
其中,
Figure BDA0002553458550000022
表示加权计算后的总损失,λrec表示图像重建损失的权重,取值范围为[0.1,0.01],
Figure BDA0002553458550000026
表示图像重建损失,λtrans表示域迁移损失的权重,取值范围为[0.1,0.01],
Figure BDA0002553458550000024
表示域迁移损失,λtrans_adv表示域迁移对抗损失的权重,取值范围为[0.01,0.001],
Figure BDA0002553458550000025
表示域迁移对抗损失;
所述的图像重建损失
Figure BDA0002553458550000031
的计算公式如下:
Figure BDA0002553458550000032
其中,xs表示源域图像,xt表示目标域图像,
Figure BDA0002553458550000033
表示源域图像的分布,
Figure BDA0002553458550000034
表示目标域图像的分布,Ec(xs)表示对源域图像的编码,Ec(xt)表示对目标域源域图像的编码,Ds(Ec(xs))为风格迁移神经网络里的解码器输出的源域重建图像,Dt(Ec(xt))为风格迁移神经网络里的解码器输出的目标域重建图像;
所述的域迁移损失
Figure BDA0002553458550000035
的计算公式如下:
Figure BDA0002553458550000036
其中,ψ(l)(x)表示输入的图像x经过VGG网络提取的第l层的特征,ψ(l)(y)表示输入的图像y经过VGG网络提取的第l层的特征,N(l)表示VGG网络第l层特征的通道数,w(l)对第l层的损失进行加权,l的取值为[1,5];
所述的域迁移对抗损失
Figure BDA0002553458550000037
的计算公式如下:
Figure BDA0002553458550000038
其中,xs2t表示源域图像经风格迁移神经网络转化为具有目标域风格的图像,Ds2t(xt)是目标域图像的鉴别结果,取值范围为[0,1],Ds2t(xs2t)是源域转化到目标域图像的鉴别结果,取值范围为[0,1];
步骤2:将源域图像输入到训练好的风格迁移神经网络,由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集;
步骤3:将步骤2得到的转换后的目标域风格图像集输入到高分辨率人群计数器网络训练,得到训练好的高分辨率人群计数网络;
所述的高分辨率人群计数器网络包括编码器和解码器两部分,其中,编码器由ResNet-50网络的conv1、conv2_x、conv3_x、conv4_x顺序连接而成,conv1是个卷积核为7x7x64的卷积层,conv2_x是3个bottleneck,conv3_x是4个bottleneck,conv4_x是6个bottleneck,每个bottleneck为3层卷积层,图像输入到编码器,输出图像的特征图;解码器为三个卷积层和三个转置卷积层连接而成,每个卷积层后均连接一个ReLU激活层,编码器输出的特征图输入到解码器,输出得到风格迁移图像;
训练中设定网络的损失函数为:
Figure BDA0002553458550000041
其中,
Figure BDA0002553458550000042
表示网络的回归损失,θc表示人群计数网络的参数,在训练中进行调整,N为训练batch的大小,取值为图像xi的像素点个数,xi表示输入的第i幅源域图像,Z(xi;θc)表示输入图像xi时人群计数网络输出的人群密度预测结果,Zi GT为输入图像xi的密度估计真实值;
步骤4:将待测试的目标域的图像输入到步骤3训练好的高分辨率人群计数网络,得到图像的人群密度图,计算密度图中所有像素的和为最终的人群计数结果。
本发明的有益效果是:1)传统的人群计数依赖于大量真实场景下采集的图像来训练网络,除去图像采集的成本,后期还要耗费大量的时间和经济在数据清洗和标注人头位置上,本发明通过使用计算机自动生成和标注的人群图像来训练人群计数网络可以节省这一成本。2)由于电脑合成的图像和真实场景之间存在较大差异,直接利用合成照片训练的网络并不能输出较准确的人数估计,因此本发明先设计了一个风格迁移网络,为合成照片进行真实场景下的风格迁移,可以大大缩小合成图像和真实图像的差异。3)已有方法的人群计数的网络输出的人群密度预测图分辨率不高,本发明设计的高分辨率的人群计数网络,能够有助于提升最终的计数性能。
附图说明
图1是本发明的一种基于解纠缠图像迁移的跨域人群计数方法流程图;
图2是本发明的风格迁移神经网络示意图;
图3是本发明的高分辨率人群计数网络示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明提供了一种基于解纠缠图像迁移的跨域人群计数方法,利用图像迁移对合成图像进行风格迁移,以解决传统的人群计数标注图像稀缺的问题。方法基本流程如图1所示,具体包括:
1、构建风格迁移神经网络并进行网络训练。
风格迁移神经网络的目标是学习一个域不变特征提取网络和两个域图像恢复网络。本发明利用两种图像,一种是带标注信息的源域图像,即由游戏引擎合成的虚拟人群图像,每张图像在生成时由电脑自动完成人头位置的标注,表示为
Figure BDA0002553458550000051
表示源域图像尺寸为H×W的RGB三通道图像,
Figure BDA0002553458550000052
表示第i张源域图像的标签,Ns表示源域图像的数量;另一种是目标域图像,即真实场景下拍摄的人群图像,不具有人头位置的标注,表示为
Figure BDA0002553458550000053
Nt表示目标域图像的数量。本发明所构建的风格迁移神经网络包含三个部分:编码器、解码器和鉴别器。
(1)编码器
编码器由2个卷积层和4个残差块顺序连接而成,第一卷积层的卷积核为7x7、步长为1,第二卷积层的卷积核为3x3、步长为2,每个残差块由两个卷积核为3x3、步长为1的卷积层连接而成,将图像输入到第一卷积层,输出得到64通道的特征,64通道的特征输入到第二卷积层,输出得到下采样的特征,再将下采样的特征输入到4个残差块,输出得到域不变特征。
如果输入一张源域图像xs,通过编码器产生描述源域的域不变特征
Figure BDA0002553458550000054
Figure BDA0002553458550000055
其中,Ec表示编码器,
Figure BDA0002553458550000056
表示编码器的参数。同样,如果输入一张目标域图像xt,通过编码器产生描述目标域的域不变特征
Figure BDA0002553458550000057
Figure BDA0002553458550000058
(2)解码器
一共需要两个解码器,解码器的结构和编码器的结构对称,由4个残差块和2个反卷积层顺序连接而成,解码器将编码器输出的域不变特征恢复成风格迁移图像。
将提取到的域不变特征
Figure BDA0002553458550000059
分别送到解码器,生成和输入图像尺寸一样的图像,即
Figure BDA00025534585500000510
其中,
Figure BDA00025534585500000511
解码生成图像xs2s
Figure BDA00025534585500000512
解码生成图像xt2t,Ds,Dt表示两个解码器,
Figure BDA00025534585500000513
表示两个解码器的参数。
为了使恢复图像和原图像保持一致,本发明设置图像重建损失函数
Figure BDA00025534585500000514
如下:
Figure BDA00025534585500000515
其中,xs表示源域图像,xt表示目标域图像,
Figure BDA00025534585500000516
表示源域图像的分布,
Figure BDA00025534585500000517
表示目标域图像的分布,Ec(xs)表示对源域图像的编码,Ec(xt)表示对目标域源域图像的编码,Ds(Ec(xs))为风格迁移神经网络里的解码器输出的源域重建图像,Dt(Ec(xt))为风格迁移神经网络里的解码器输出的目标域重建图像;
同时为了实现风格迁移,设置域迁移损失
Figure BDA0002553458550000061
其计算公式如下:
Figure BDA0002553458550000062
其中,ψ(l)(x)表示输入的图像x经过VGG网络(该网络是一个开源的可用于图像高级语义特征提取的预训练网络,不参与网络训练,在本方法里只用于提取图像特征)提取的第l层的特征,ψ(l)(y)表示输入的图像y经过VGG网络提取的第l层的特征,N(l)表示VGG网络第l层特征的通道数,w(l)对第l层的损失进行加权,l的取值为[1,5]。
(3)鉴别器
将源域编码得到的特征
Figure BDA0002553458550000063
送到目标域的解码器Dt,恢复出的图像xs2t同时具有源域的内容和目标域的风格。同样,将目标域编码得到的特征
Figure BDA0002553458550000064
送到源域的解码器Ds,恢复出的图像xt2s同时具有目标域的内容和源域的风格。
对应于两个解码器,需要构建两个鉴别器。两个鉴别器都是由5个卷积核为4x4的卷积层连接而成,鉴别器是将解码器输出的风格迁移图像进行判定,判定其是属于源域图像还是目标域图像。
为欺骗鉴别器,引入对抗训练,即鉴别器Ds2t要能鉴别出生成的图像xs2t和xt分别来自于源域和目标域,同时还要能尽可能的将生成的图像xs2t判别为来自目标域的图像;同样,鉴别器Dt2s要能鉴别出生成的图像xt2s和xs分别来自于目标域和源域,同时还要能尽可能的将生成的图像xt2s鉴别为来自于源域的图像。
因此,设置域迁移对抗损失函数
Figure BDA0002553458550000065
如下:
Figure BDA0002553458550000066
其中,xt表示目标域图像,xs2t表示源域图像经风格迁移神经网络转化为具有目标域风格的图像,Ds2t(xt)是目标域图像的鉴别结果,取值范围为[0,1],Ds2t(xs2t)是源域转化到目标域图像的鉴别结果,取值范围为[0,1];
设置风格迁移神经网络总的损失函数为:
Figure BDA0002553458550000067
其中,
Figure BDA0002553458550000068
表示加权计算后的总损失,λrec表示图像重建损失的权重,取值范围为[0.1,0.01],λtrans表示域迁移损失的权重,取值范围为[0.1,0.01],λtrans_adv表示域迁移对抗损失的权重,取值范围为[0.01,0.001]。
将带有标注信息的源域图像和没有标注信息的目标域图像交替输入到上述风格迁移神经网络进行训练,得到训练好的网络。
2、将源域图像输入到训练好的风格迁移神经网络,由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集。此步骤里图像转化不再需要鉴别器,鉴别器只是在风格迁移神经网络的训练过程中使用。
3、构建高分辨率人群计数器网络并进行训练。
本发明选择改进的ResNet-50网络作为高分辨率人群计数器网络的前端,即编码器,因为ResNet-50具有较强的迁移学习能力和灵活的架构,可以方便地将后端连接起来生成密度图。首先,删除ResNet-50的第四层和全连接层的分类部分,并重新构建第三层卷积层,使得第三层不再对上一层的特征下采样,保持最终的特征输出尺寸为原图尺寸的1/8,因为如果继续叠加更多的卷积层,输出大小将进一步缩小,并且很难生成高质量的密度图。因此,高分辨率人群计数器网络的编码器由conv1、conv2_x、conv3_x、conv4_x顺序连接而成,conv1是个卷积核为7x7x64的卷积层,conv2_x是3个bottleneck,conv3_x是4个bottleneck,conv4_x是6个bottleneck,每个bottleneck为3层卷积层。将步骤2转换后的图像输入到高分辨率人群计数网络,可得到图像的人群密度估计图。
虽然传统的基于人群密度估计的方法考虑了空间信息,但大多数方法的输出图像分辨率较低,失去了很多细节。为了生成高分辨率的密度图,本发明使用了与文献“Cao X,Wang Z,Zhao Y,Su F.Scale aggregation network for accurate and efficient crowdcounting[C].European Conference on Computer Vision,pages=734--750,year=201”类似但更加精细的结构作为高分辨率人群计数器网络的解码器,即由三个卷积层和三个转置卷积层连接而成。使用卷积逐步细化特征图的细节,滤波器的大小可以设置为3×3;采用三个转置卷积层来恢复空间分辨率,每个转置卷积层都将特征图的大小提高了2倍。另外,每个卷积层和转置卷积层之后都会添加ReLU激活。最后,解码器生成与输入大小相同的高分辨率密度图,可以提供更精细的空间信息,便于模型在训练过程中进行特征学习。
将步骤2得到的转换后的目标域风格图像集输入到上述高分辨率人群计数器网络训练,训练中设定网络的损失函数为:
Figure BDA0002553458550000081
其中,
Figure BDA0002553458550000084
表示网络的回归损失,θc表示人群计数网络的参数,在训练中进行调整,N为训练batch的大小,取值为图像xi的像素点个数,xi表示输入的第i幅源域图像,Z(xi;θc)表示输入图像xi时人群计数网络输出的人群密度预测结果,Zi GT为输入图像xi的密度估计真实值。
4、将待测试的目标域的图像输入到步骤3训练好的高分辨率人群计数网络,得到图像的人群密度图,计算密度图中所有像素的和即为最终的人群计数结果。
为了验证本发明方法的有效性,在GCC数据集到另外三个真实的人群数据集Shanghai Tech Part A、Shanghai Tech Part B、WorldExpo’10上进行了跨域人群计数实验。GCC数据集是人群计数领域第一个利用游戏引擎GTA(Grand Theft Auto V)生成的虚拟数据集,由15212张图像组成,分辨率为1080×1920,包含7625843人。与现有的数据集相比,无论是图像数量还是人群数量,GCC都是一个更大规模的人群统计数据集,作为本发明的源域数据,能够取得更好的效果。Shanghai Tech Part A包含300张训练图像和182张测试图像,分辨率各不相同,整个数据集包含199923个行人。Shanghai Tech Part B采集自中国上海南京路步行街的监控摄像头,它包含400张训练图像和316张测试图像,分辨率为768×1024,整个数据集包含88,488个行人。WorldExpo’10是一个跨场景的大规模人群统计数据集,所有图像均来自2010年上海世博会的108个监控摄像头,其中103个摄像头的图像是训练数据,其他的是测试数据,WorldExpo’10包含3980幅图像,图像分辨率为576×720,共有199923个标记的行人。
实验中首先将原始图像随机裁剪为一定尺寸的patch,然后随机水平翻转进行数据增强。人群图像的标注是行人头部中心点,并将这些点转换为密度图。如果有一个像素点xi,它可以用函数δ(x-xi)表示,标签的密度图Y由高斯核Gσ卷积标注数据生成,即:
Figure BDA0002553458550000083
其中,S是所有标注点的集合,密度图的积分等于图像中的人群数量。
设置损失函数的参数如下:λrec设置为1,λtrans和λtrans-adv为0.5。设置风格迁移神经网络的初始学习率为10-4,高分辨率人群计数器网络的初始学习率为5×10-5。网络训练均采用Adam算法进行优化,得到最优结果。
将本发明方法和CycleGAN方法进行效果对比,CycleGAN将合成场景转换为逼真的照片场景,然后在转换后的图像上训练一个人群计数网络,最后,将人群计数网络应用于实际数据集。分别计算两种方法计数结果的平均误差(MAE)和均方误差(MSE)来衡量计数误差。MAE表示预测结果的准确性,MSE度量鲁棒性。计算结果如表1所示。从表中可以看出,本发明方法在三个真实数据集上的计算结果都优于CycleGAN方法。本发明可以将源域的合成图像迁移到实际的应用场景中,从而利用大量迁移的图像训练人群计数器,能显著提高人群数目预测性能,为公共安全管理提供较为精确的人群密度估计。
表1
Figure BDA0002553458550000091

Claims (1)

1.一种基于解纠缠图像迁移的跨域人群计数方法,其特征在于步骤如下:
步骤1:将带有标注信息的源域图像和没有标注信息的目标域图像交替输入到风格迁移神经网络进行训练,得到训练好的网络;
所述的带标注信息的源域图像是指由游戏引擎合成的虚拟人群图像,每张图像在生成时由电脑自动完成人头位置的标注;所述的目标域图像是真实场景下拍摄的人群图像,不具有人头位置的标注;
所述的风格迁移神经网络包含编码器、解码器和鉴别器三个部分,其中,编码器由2个卷积层和4个残差块顺序连接而成,第一卷积层的卷积核为7x7、步长为1,第二卷积层的卷积核为3x3、步长为2,每个残差块由两个卷积核为3x3、步长为1的卷积层连接而成,将图像输入到第一卷积层,输出得到64通道的特征,64通道的特征输入到第二卷积层,输出得到下采样的特征,再将下采样的特征输入到残差块,输出得到域不变特征;解码器的结构和编码器的结构对称,由4个残差块和2个反卷积层顺序连接而成,解码器将编码器输出的域不变特征恢复成风格迁移图像;鉴别器由5个卷积核为4x4的卷积层连接而成,将解码器输出的风格迁移图像输入到鉴别器,输出得到图像是属于源域图像还是目标域图像的判定结果;
训练中设定网络的损失函数为:
Figure FDA0002553458540000011
其中,
Figure FDA0002553458540000012
表示加权计算后的总损失,λrec表示图像重建损失的权重,取值范围为[0.1,0.01],
Figure FDA0002553458540000013
表示图像重建损失,λtrans表示域迁移损失的权重,取值范围为[0.1,0.01],
Figure FDA0002553458540000014
表示域迁移损失,λtrans_adv表示域迁移对抗损失的权重,取值范围为[0.01,0.001],
Figure FDA0002553458540000015
表示域迁移对抗损失;
所述的图像重建损失
Figure FDA0002553458540000016
的计算公式如下:
Figure FDA0002553458540000017
其中,xs表示源域图像,xt表示目标域图像,
Figure FDA0002553458540000018
表示源域图像的分布,
Figure FDA0002553458540000019
表示目标域图像的分布,Ec(xs)表示对源域图像的编码,Ec(xt)表示对目标域源域图像的编码,Ds(Ec(xs))为风格迁移神经网络里的解码器输出的源域重建图像,Dt(Ec(xt))为风格迁移神经网络里的解码器输出的目标域重建图像;
所述的域迁移损失
Figure FDA0002553458540000021
的计算公式如下:
Figure FDA0002553458540000022
其中,ψ(l)(x)表示输入的图像x经过VGG网络提取的第l层的特征,ψ(l)(y)表示输入的图像y经过VGG网络提取的第l层的特征,N(l)表示VGG网络第l层特征的通道数,w(l)对第l层的损失进行加权,l的取值为[1,5];
所述的域迁移对抗损失
Figure FDA0002553458540000023
的计算公式如下:
Figure FDA0002553458540000024
其中,xs2t表示源域图像经风格迁移神经网络转化为具有目标域风格的图像,Ds2t(xt)是目标域图像的鉴别结果,取值范围为[0,1],Ds2t(xs2t)是源域转化到目标域图像的鉴别结果,取值范围为[0,1];
步骤2:将源域图像输入到训练好的风格迁移神经网络,由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集;
步骤3:将步骤2得到的转换后的目标域风格图像集输入到高分辨率人群计数器网络训练,得到训练好的高分辨率人群计数网络;
所述的高分辨率人群计数器网络包括编码器和解码器两部分,其中,编码器由ResNet-50网络的conv1、conv2_x、conv3_x、conv4_x顺序连接而成,conv1是个卷积核为7x7x64的卷积层,conv2_x是3个bottleneck,conv3_x是4个bottleneck,conv4_x是6个bottleneck,每个bottleneck为3层卷积层,图像输入到编码器,输出图像的特征图;解码器为三个卷积层和三个转置卷积层连接而成,每个卷积层后均连接一个ReLU激活层,编码器输出的特征图输入到解码器,输出得到风格迁移图像;
训练中设定网络的损失函数为:
Figure FDA0002553458540000025
其中,
Figure FDA0002553458540000026
表示网络的回归损失,θc表示人群计数网络的参数,在训练中进行调整,N为训练batch的大小,取值为图像xi的像素点个数,xi表示输入的第i幅源域图像,Z(xi;θc)表示输入图像xi时人群计数网络输出的人群密度预测结果,
Figure FDA0002553458540000027
为输入图像xi的密度估计真实值;
步骤4:将待测试的目标域的图像输入到步骤3训练好的高分辨率人群计数网络,得到图像的人群密度图,计算密度图中所有像素的和为最终的人群计数结果。
CN202010595128.2A 2020-06-23 2020-06-23 一种基于解纠缠图像迁移的跨域人群计数方法 Active CN111783610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010595128.2A CN111783610B (zh) 2020-06-23 2020-06-23 一种基于解纠缠图像迁移的跨域人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010595128.2A CN111783610B (zh) 2020-06-23 2020-06-23 一种基于解纠缠图像迁移的跨域人群计数方法

Publications (2)

Publication Number Publication Date
CN111783610A true CN111783610A (zh) 2020-10-16
CN111783610B CN111783610B (zh) 2022-03-15

Family

ID=72760617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010595128.2A Active CN111783610B (zh) 2020-06-23 2020-06-23 一种基于解纠缠图像迁移的跨域人群计数方法

Country Status (1)

Country Link
CN (1) CN111783610B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095246A (zh) * 2021-04-19 2021-07-09 首都师范大学 一种基于迁移学习和场景感知的跨域自适应人数统计方法
CN113536972A (zh) * 2021-06-28 2021-10-22 华东师范大学 一种基于目标域伪标签的自监督跨域人群计数方法
CN114429436A (zh) * 2022-01-25 2022-05-03 山东大学 一种缩小域差异的图像迁移方法及系统
WO2022088572A1 (zh) * 2020-10-30 2022-05-05 上海商汤智能科技有限公司 模型训练方法、图像处理及配准方法、装置、设备、介质
CN115731097A (zh) * 2022-12-05 2023-03-03 东北林业大学 一种基于解纠缠表示的多风格迁移方法
CN116092011A (zh) * 2023-02-27 2023-05-09 重庆大学 基于混合监督多任务学习的域适应人群计数方法及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717528A (zh) * 2018-05-15 2018-10-30 苏州平江历史街区保护整治有限责任公司 一种基于深度网络的多策略全局人群分析方法
CN108876774A (zh) * 2018-06-07 2018-11-23 浙江大学 一种基于卷积神经网络的人群计数方法
CN109523538A (zh) * 2018-11-21 2019-03-26 上海七牛信息技术有限公司 一种基于生成对抗神经网络的人群计数方法以及系统
WO2019084562A1 (en) * 2017-10-27 2019-05-02 Google Llc SEMANTICALLY COHERENT IMAGE STYLE TRANSFER
CN110310221A (zh) * 2019-06-14 2019-10-08 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
CN110598669A (zh) * 2019-09-20 2019-12-20 郑州大学 一种复杂场景中人群密度的检测方法和系统
CN110705499A (zh) * 2019-10-12 2020-01-17 成都考拉悠然科技有限公司 一种基于迁移学习的人群计数方法
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019084562A1 (en) * 2017-10-27 2019-05-02 Google Llc SEMANTICALLY COHERENT IMAGE STYLE TRANSFER
CN108717528A (zh) * 2018-05-15 2018-10-30 苏州平江历史街区保护整治有限责任公司 一种基于深度网络的多策略全局人群分析方法
CN108876774A (zh) * 2018-06-07 2018-11-23 浙江大学 一种基于卷积神经网络的人群计数方法
CN109523538A (zh) * 2018-11-21 2019-03-26 上海七牛信息技术有限公司 一种基于生成对抗神经网络的人群计数方法以及系统
CN110310221A (zh) * 2019-06-14 2019-10-08 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
CN110598669A (zh) * 2019-09-20 2019-12-20 郑州大学 一种复杂场景中人群密度的检测方法和系统
CN110705499A (zh) * 2019-10-12 2020-01-17 成都考拉悠然科技有限公司 一种基于迁移学习的人群计数方法
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NA JIANG ET AL: "DAPC:Domain Adaptation People Counting via Style-level Transfer Learning and Scene-aware Estimation", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
YINGYING ZHANG ET AL: "Single-Image Crowd Counting via Multi-Column Convolutional Neural Network", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
李学龙等: "光学影像序列中基于多视角聚类的群组行为分析", 《中国科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088572A1 (zh) * 2020-10-30 2022-05-05 上海商汤智能科技有限公司 模型训练方法、图像处理及配准方法、装置、设备、介质
CN113095246A (zh) * 2021-04-19 2021-07-09 首都师范大学 一种基于迁移学习和场景感知的跨域自适应人数统计方法
CN113536972A (zh) * 2021-06-28 2021-10-22 华东师范大学 一种基于目标域伪标签的自监督跨域人群计数方法
CN114429436A (zh) * 2022-01-25 2022-05-03 山东大学 一种缩小域差异的图像迁移方法及系统
CN115731097A (zh) * 2022-12-05 2023-03-03 东北林业大学 一种基于解纠缠表示的多风格迁移方法
CN116092011A (zh) * 2023-02-27 2023-05-09 重庆大学 基于混合监督多任务学习的域适应人群计数方法及存储介质

Also Published As

Publication number Publication date
CN111783610B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN111783610B (zh) 一种基于解纠缠图像迁移的跨域人群计数方法
Tang et al. Median filtering detection of small-size image based on CNN
Jourabloo et al. Face de-spoofing: Anti-spoofing via noise modeling
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
Wang et al. Detection and localization of image forgeries using improved mask regional convolutional neural network
CN111199522A (zh) 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
Yang et al. Detecting fake images by identifying potential texture difference
Chen et al. Haze removal using radial basis function networks for visibility restoration applications
CN113592736B (zh) 一种基于融合注意力机制的半监督图像去模糊方法
CN111667400B (zh) 一种基于无监督学习的人脸轮廓特征风格化生成方法
Zhang et al. Semantic-aware dehazing network with adaptive feature fusion
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
Zhang et al. Improved Fully Convolutional Network for Digital Image Region Forgery Detection.
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
Li et al. Image manipulation localization using attentional cross-domain CNN features
CN111797702A (zh) 基于空间局部二值模式与光流梯度的人脸伪造视频检测方法
Cai et al. CURE-Net: a cascaded deep network for underwater image enhancement
CN115357944A (zh) 基于浅层特征增强和注意力机制的图像篡改检测方法
Zhu et al. Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks
Yang et al. Design of cyber-physical-social systems with forensic-awareness based on deep learning
Liu et al. Overview of image inpainting and forensic technology
Majumder et al. A tale of a deep learning approach to image forgery detection
Xiao et al. Securing the socio-cyber world: Multiorder attribute node association classification for manipulated media
Gu et al. FBI-Net: Frequency-based image forgery localization via multitask learning With self-attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant