CN111783610A

CN111783610A - 一种基于解纠缠图像迁移的跨域人群计数方法

Info

Publication number: CN111783610A
Application number: CN202010595128.2A
Authority: CN
Inventors: 王�琦; 袁媛; 韩滔
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-16
Anticipated expiration: 2040-06-23
Also published as: CN111783610B

Abstract

本发明提供了一种基于解纠缠图像迁移的跨域人群计数方法。通过在输入端设计一个域转换网络，实现合成图片到真实图片的转换，以缩小两个域的域差；再将转换后的图片输入人群计数器训练，最终得到可以在实际场景中应用的计数模型。本发明方法通过将虚拟域的特征映射到真实域，减少在特征映射时的信息损失，从而实现了更好的跨域人群计数效果。

Description

一种基于解纠缠图像迁移的跨域人群计数方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体涉及一种基于解纠缠图像迁移的跨域人群计数方法。

背景技术

近年来,国内外因拥挤而导致的踩踏事故频繁发生，大型活动中的拥挤踩踏事故是一个多因素、多变量、多层次的复杂系统。但是人群密度大是导致踩踏事故发生的必要条件，若能通过准确估计当前场景的人群密度，并安排相应的安保措施，则可以有效减少或避免此类事故的发生。

为估计实际场景中的人群密度，大量的人群计数方法不断涌现出来。这些方法大致可以分为两类：1)传统的人群计数方法，主要是基于检测、回归和密度估计三种方法。例如，Abdelghany A等人在文献“Abdelghany A,Abdelghany K,Mahmassani H,etal.Modeling framework for optimal evacuation of large-scale crowdedpedestrian facilities[J].European Journal of Operational Research.2014,237(3):1105—1118”中使用一个滑动窗口检测器来检测场景中人群，并统计相应的人数。2)基于卷积神经网络的人群计数方法。由于CNN在许多计算机视觉任务都取得了成功的运用，因此可以利用其出色的特征学习能力来学习非线性函数，实现从人群图像到相应的人群密度图的转换。例如，Zhang C等人在文献“Zhang C,Li H,Wang X,et al.Cross-scene crowdcounting via deep convolutional neural networks[C].IEEE Conference onComputer Vision and Pattern Recognition.2015,833—841”中提出了一个适用人群计数的深度卷积神经网络模型，交替回归该图像块的人群密度和人群总数来实现人数估计，相比于人工特征对人群有更好的表述能力。随着深度神经网络的发展，人群密度估计的准确率不断提高。

但以上所述的人群计数算法主要基于大量标注数据的监督学习，存在两个急待解决的问题：一是学习需要大量的训练数据，但收集和标注这些人群图像比较困难，同时，在人群密度较高的场景里，肉眼难以区分密集的人头分布，标注的准确性无法保证；二是由于两个不同场景的人群计数任务存在域差，因此在一个场景里训练的人群计数模型应用到另一个场景时效果往往很差。

发明内容

为了克服现有技术的不足，本发明提供一种基于解纠缠图像迁移的跨域人群计数方法。通过在输入端设计一个风格迁移神经网络，并训练该网络实现将合成图像的风格迁移到真实图像，使得合成的图像可以缩小两个域的域差；将源域图像输入到训练好的风格迁移神经网络，由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集；再将转换后的图像输入人群计数器训练，最终得到可以在实际场景中应用的计数模型。本发明方法通过将虚拟域的特征映射到真实域，减少在特征映射时的信息损失，从而实现了更好的跨域人群计数效果。

一种基于解纠缠图像迁移的跨域人群计数方法，其特征在于步骤如下：

步骤1：将带有标注信息的源域图像和没有标注信息的目标域图像交替输入到风格迁移神经网络进行训练，得到训练好的网络；

所述的带标注信息的源域图像是指由游戏引擎合成的虚拟人群图像，每张图像在生成时由电脑自动完成人头位置的标注；所述的目标域图像是真实场景下拍摄的人群图像，不具有人头位置的标注；

所述的风格迁移神经网络包含编码器、解码器和鉴别器三个部分，其中，编码器由2个卷积层和4个残差块顺序连接而成，第一卷积层的卷积核为7x7、步长为1，第二卷积层的卷积核为3x3、步长为2，每个残差块由两个卷积核为3x3、步长为1的卷积层连接而成，将图像输入到第一卷积层，输出得到64通道的特征，64通道的特征输入到第二卷积层，输出得到下采样的特征，再将下采样的特征输入到残差块，输出得到域不变特征；解码器的结构和编码器的结构对称，由4个残差块和2个反卷积层顺序连接而成，解码器将编码器输出的域不变特征恢复成风格迁移图像；鉴别器由5个卷积核为4x4的卷积层连接而成，将解码器输出的风格迁移图像输入到鉴别器，输出得到图像是属于源域图像还是目标域图像的判定结果；

训练中设定网络的损失函数为：

其中，

表示加权计算后的总损失，λ_rec表示图像重建损失的权重，取值范围为[0.1，0.01]，

表示图像重建损失，λ_trans表示域迁移损失的权重，取值范围为[0.1,0.01]，

表示域迁移损失，λ_{trans_adv}表示域迁移对抗损失的权重，取值范围为[0.01,0.001]，

表示域迁移对抗损失；

所述的图像重建损失

的计算公式如下：

其中，x^s表示源域图像，x^t表示目标域图像，

表示源域图像的分布，

表示目标域图像的分布，E_c(x^s)表示对源域图像的编码，E_c(x^t)表示对目标域源域图像的编码，D_s(E_c(x^s))为风格迁移神经网络里的解码器输出的源域重建图像，D_t(E_c(x^t))为风格迁移神经网络里的解码器输出的目标域重建图像；

所述的域迁移损失

的计算公式如下：

其中，ψ^(l)(x)表示输入的图像x经过VGG网络提取的第l层的特征，ψ^(l)(y)表示输入的图像y经过VGG网络提取的第l层的特征，N^(l)表示VGG网络第l层特征的通道数，w^(l)对第l层的损失进行加权，l的取值为[1,5]；

所述的域迁移对抗损失

的计算公式如下：

其中，x^s2t表示源域图像经风格迁移神经网络转化为具有目标域风格的图像，D^s2t(x^t)是目标域图像的鉴别结果，取值范围为[0,1]，D^s2t(x^s2t)是源域转化到目标域图像的鉴别结果，取值范围为[0,1]；

步骤2：将源域图像输入到训练好的风格迁移神经网络，由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集；

步骤3：将步骤2得到的转换后的目标域风格图像集输入到高分辨率人群计数器网络训练，得到训练好的高分辨率人群计数网络；

所述的高分辨率人群计数器网络包括编码器和解码器两部分，其中，编码器由ResNet-50网络的conv1、conv2_x、conv3_x、conv4_x顺序连接而成，conv1是个卷积核为7x7x64的卷积层，conv2_x是3个bottleneck，conv3_x是4个bottleneck，conv4_x是6个bottleneck，每个bottleneck为3层卷积层，图像输入到编码器，输出图像的特征图；解码器为三个卷积层和三个转置卷积层连接而成，每个卷积层后均连接一个ReLU激活层，编码器输出的特征图输入到解码器，输出得到风格迁移图像；

训练中设定网络的损失函数为：

其中，

表示网络的回归损失，θ_c表示人群计数网络的参数，在训练中进行调整，N为训练batch的大小，取值为图像x_i的像素点个数，x_i表示输入的第i幅源域图像，Z(x_i；θ_c)表示输入图像x_i时人群计数网络输出的人群密度预测结果，Z_i ^GT为输入图像x_i的密度估计真实值；

步骤4：将待测试的目标域的图像输入到步骤3训练好的高分辨率人群计数网络，得到图像的人群密度图，计算密度图中所有像素的和为最终的人群计数结果。

本发明的有益效果是：1)传统的人群计数依赖于大量真实场景下采集的图像来训练网络，除去图像采集的成本，后期还要耗费大量的时间和经济在数据清洗和标注人头位置上，本发明通过使用计算机自动生成和标注的人群图像来训练人群计数网络可以节省这一成本。2)由于电脑合成的图像和真实场景之间存在较大差异，直接利用合成照片训练的网络并不能输出较准确的人数估计，因此本发明先设计了一个风格迁移网络，为合成照片进行真实场景下的风格迁移，可以大大缩小合成图像和真实图像的差异。3)已有方法的人群计数的网络输出的人群密度预测图分辨率不高，本发明设计的高分辨率的人群计数网络，能够有助于提升最终的计数性能。

附图说明

图1是本发明的一种基于解纠缠图像迁移的跨域人群计数方法流程图；

图2是本发明的风格迁移神经网络示意图；

图3是本发明的高分辨率人群计数网络示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供了一种基于解纠缠图像迁移的跨域人群计数方法，利用图像迁移对合成图像进行风格迁移，以解决传统的人群计数标注图像稀缺的问题。方法基本流程如图1所示，具体包括：

1、构建风格迁移神经网络并进行网络训练。

风格迁移神经网络的目标是学习一个域不变特征提取网络和两个域图像恢复网络。本发明利用两种图像，一种是带标注信息的源域图像，即由游戏引擎合成的虚拟人群图像，每张图像在生成时由电脑自动完成人头位置的标注，表示为

表示源域图像尺寸为H×W的RGB三通道图像，

表示第i张源域图像的标签，N_s表示源域图像的数量；另一种是目标域图像，即真实场景下拍摄的人群图像，不具有人头位置的标注，表示为

N_t表示目标域图像的数量。本发明所构建的风格迁移神经网络包含三个部分：编码器、解码器和鉴别器。

(1)编码器

编码器由2个卷积层和4个残差块顺序连接而成，第一卷积层的卷积核为7x7、步长为1，第二卷积层的卷积核为3x3、步长为2，每个残差块由两个卷积核为3x3、步长为1的卷积层连接而成，将图像输入到第一卷积层，输出得到64通道的特征，64通道的特征输入到第二卷积层，输出得到下采样的特征，再将下采样的特征输入到4个残差块，输出得到域不变特征。

如果输入一张源域图像x^s，通过编码器产生描述源域的域不变特征

即

其中，E_c表示编码器，

表示编码器的参数。同样，如果输入一张目标域图像x^t，通过编码器产生描述目标域的域不变特征

即

(2)解码器

一共需要两个解码器，解码器的结构和编码器的结构对称，由4个残差块和2个反卷积层顺序连接而成，解码器将编码器输出的域不变特征恢复成风格迁移图像。

将提取到的域不变特征

分别送到解码器，生成和输入图像尺寸一样的图像，即

其中，

解码生成图像x^s2s，

解码生成图像x^t2t，D_s，D_t表示两个解码器，

表示两个解码器的参数。

为了使恢复图像和原图像保持一致，本发明设置图像重建损失函数

如下：

其中，x^s表示源域图像，x^t表示目标域图像，

表示源域图像的分布，

同时为了实现风格迁移，设置域迁移损失

其计算公式如下：

其中，ψ^(l)(x)表示输入的图像x经过VGG网络(该网络是一个开源的可用于图像高级语义特征提取的预训练网络，不参与网络训练，在本方法里只用于提取图像特征)提取的第l层的特征，ψ^(l)(y)表示输入的图像y经过VGG网络提取的第l层的特征，N^(l)表示VGG网络第l层特征的通道数，w^(l)对第l层的损失进行加权，l的取值为[1,5]。

(3)鉴别器

将源域编码得到的特征

送到目标域的解码器D_t，恢复出的图像x^s2t同时具有源域的内容和目标域的风格。同样，将目标域编码得到的特征

送到源域的解码器D_s，恢复出的图像x^t2s同时具有目标域的内容和源域的风格。

对应于两个解码器，需要构建两个鉴别器。两个鉴别器都是由5个卷积核为4x4的卷积层连接而成，鉴别器是将解码器输出的风格迁移图像进行判定，判定其是属于源域图像还是目标域图像。

为欺骗鉴别器，引入对抗训练，即鉴别器D^s2t要能鉴别出生成的图像x^s2t和x^t分别来自于源域和目标域，同时还要能尽可能的将生成的图像x^s2t判别为来自目标域的图像；同样，鉴别器D^t2s要能鉴别出生成的图像x^t2s和x^s分别来自于目标域和源域，同时还要能尽可能的将生成的图像x^t2s鉴别为来自于源域的图像。

因此，设置域迁移对抗损失函数

如下：

其中，x^t表示目标域图像，x^s2t表示源域图像经风格迁移神经网络转化为具有目标域风格的图像，D^s2t(x^t)是目标域图像的鉴别结果，取值范围为[0,1]，D^s2t(x^s2t)是源域转化到目标域图像的鉴别结果，取值范围为[0,1]；

设置风格迁移神经网络总的损失函数为：

其中，

表示加权计算后的总损失，λ_rec表示图像重建损失的权重，取值范围为[0.1,0.01]，λ_trans表示域迁移损失的权重，取值范围为[0.1,0.01]，λ_{trans_adv}表示域迁移对抗损失的权重，取值范围为[0.01,0.001]。

将带有标注信息的源域图像和没有标注信息的目标域图像交替输入到上述风格迁移神经网络进行训练，得到训练好的网络。

2、将源域图像输入到训练好的风格迁移神经网络，由风格迁移神经网络里的图像解码器输出得到具有目标域风格的图像集。此步骤里图像转化不再需要鉴别器，鉴别器只是在风格迁移神经网络的训练过程中使用。

3、构建高分辨率人群计数器网络并进行训练。

本发明选择改进的ResNet-50网络作为高分辨率人群计数器网络的前端，即编码器，因为ResNet-50具有较强的迁移学习能力和灵活的架构，可以方便地将后端连接起来生成密度图。首先，删除ResNet-50的第四层和全连接层的分类部分，并重新构建第三层卷积层，使得第三层不再对上一层的特征下采样，保持最终的特征输出尺寸为原图尺寸的1/8，因为如果继续叠加更多的卷积层，输出大小将进一步缩小，并且很难生成高质量的密度图。因此，高分辨率人群计数器网络的编码器由conv1、conv2_x、conv3_x、conv4_x顺序连接而成，conv1是个卷积核为7x7x64的卷积层，conv2_x是3个bottleneck，conv3_x是4个bottleneck，conv4_x是6个bottleneck，每个bottleneck为3层卷积层。将步骤2转换后的图像输入到高分辨率人群计数网络，可得到图像的人群密度估计图。

虽然传统的基于人群密度估计的方法考虑了空间信息，但大多数方法的输出图像分辨率较低，失去了很多细节。为了生成高分辨率的密度图，本发明使用了与文献“Cao X,Wang Z,Zhao Y,Su F.Scale aggregation network for accurate and efficient crowdcounting[C].European Conference on Computer Vision,pages＝734--750,year＝201”类似但更加精细的结构作为高分辨率人群计数器网络的解码器，即由三个卷积层和三个转置卷积层连接而成。使用卷积逐步细化特征图的细节，滤波器的大小可以设置为3×3；采用三个转置卷积层来恢复空间分辨率，每个转置卷积层都将特征图的大小提高了2倍。另外，每个卷积层和转置卷积层之后都会添加ReLU激活。最后，解码器生成与输入大小相同的高分辨率密度图，可以提供更精细的空间信息，便于模型在训练过程中进行特征学习。

将步骤2得到的转换后的目标域风格图像集输入到上述高分辨率人群计数器网络训练，训练中设定网络的损失函数为：

其中，

表示网络的回归损失，θ_c表示人群计数网络的参数，在训练中进行调整，N为训练batch的大小，取值为图像x_i的像素点个数，x_i表示输入的第i幅源域图像，Z(x_i；θ_c)表示输入图像x_i时人群计数网络输出的人群密度预测结果，Z_i ^GT为输入图像x_i的密度估计真实值。

4、将待测试的目标域的图像输入到步骤3训练好的高分辨率人群计数网络，得到图像的人群密度图，计算密度图中所有像素的和即为最终的人群计数结果。

为了验证本发明方法的有效性，在GCC数据集到另外三个真实的人群数据集Shanghai Tech Part A、Shanghai Tech Part B、WorldExpo’10上进行了跨域人群计数实验。GCC数据集是人群计数领域第一个利用游戏引擎GTA(Grand Theft Auto V)生成的虚拟数据集，由15212张图像组成，分辨率为1080×1920，包含7625843人。与现有的数据集相比，无论是图像数量还是人群数量，GCC都是一个更大规模的人群统计数据集，作为本发明的源域数据，能够取得更好的效果。Shanghai Tech Part A包含300张训练图像和182张测试图像，分辨率各不相同，整个数据集包含199923个行人。Shanghai Tech Part B采集自中国上海南京路步行街的监控摄像头，它包含400张训练图像和316张测试图像，分辨率为768×1024，整个数据集包含88,488个行人。WorldExpo’10是一个跨场景的大规模人群统计数据集，所有图像均来自2010年上海世博会的108个监控摄像头，其中103个摄像头的图像是训练数据，其他的是测试数据，WorldExpo’10包含3980幅图像，图像分辨率为576×720，共有199923个标记的行人。

实验中首先将原始图像随机裁剪为一定尺寸的patch，然后随机水平翻转进行数据增强。人群图像的标注是行人头部中心点，并将这些点转换为密度图。如果有一个像素点x_i,它可以用函数δ(x-x_i)表示，标签的密度图Y由高斯核G_σ卷积标注数据生成，即：

其中，S是所有标注点的集合，密度图的积分等于图像中的人群数量。

设置损失函数的参数如下：λ_rec设置为1，λ_trans和λ_trans-adv为0.5。设置风格迁移神经网络的初始学习率为10^-4，高分辨率人群计数器网络的初始学习率为5×10^-5。网络训练均采用Adam算法进行优化，得到最优结果。

将本发明方法和CycleGAN方法进行效果对比，CycleGAN将合成场景转换为逼真的照片场景，然后在转换后的图像上训练一个人群计数网络，最后，将人群计数网络应用于实际数据集。分别计算两种方法计数结果的平均误差(MAE)和均方误差(MSE)来衡量计数误差。MAE表示预测结果的准确性，MSE度量鲁棒性。计算结果如表1所示。从表中可以看出，本发明方法在三个真实数据集上的计算结果都优于CycleGAN方法。本发明可以将源域的合成图像迁移到实际的应用场景中，从而利用大量迁移的图像训练人群计数器，能显著提高人群数目预测性能，为公共安全管理提供较为精确的人群密度估计。

表1