CN112733714B

CN112733714B - 一种基于vgg网络的自动人群计数图像识别方法

Info

Publication number: CN112733714B
Application number: CN202110028647.5A
Authority: CN
Inventors: 周秉锋; 郭德闻; 冯洁
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2024-03-01
Anticipated expiration: 2041-01-11
Also published as: CN112733714A

Abstract

本发明公布了一种基于VGG网络的自动人群计数图像识别方法，利用VGG网络模型对图像进行嵌入式层归一化处理，基于VGG网络嵌入式层归一化进行人群计数图像识别，所述自动人群计数图像识别方法命名为VadaLN；包括：建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet；采用尺度重组网络模块SSM用于进行人群计数，使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模，并通过对抗式上下文损失函数ACL建立非对齐优化方法，实现密度图估计的非一致训练，优化VadaLNet的参数。本发明方法对输入的包含人群的图像进行识别和人群计数，过滤与计数任务无关的图像特征，即得到VadaLN值，实现基于VGG网络的自动人群计数图像识别。

Description

一种基于VGG网络的自动人群计数图像识别方法

技术领域

本发明属于图像处理与识别技术领域，涉及自动人群计数图像识别方法，尤其涉及一种基于VGG网络嵌入式层归一化进行人群计数的图像识别方法。

背景技术

人群计数是一种以图像或视频为输入、对拍摄到的人群进行识别和自动人数统计的技术，可用于人流控制、安防、公共安全等多种应用领域。现有的基于深度学习的人群计数方法主要采用两种基本模型。

一种是文献[1](Yingying Zhang,Desen Zhou,Siqin Chen,Shenghua Gao,YiMa.Single-Image Crowd Counting via Multi-Column Convolutional NeuralNetwork.CVPR 2016.)中采用的基于图像处理方法进行图像中的人群计数，在人群实时监测和治安管理中有着广泛的应用。但由于数据量有限，现有方法大多没有考虑到特征域之间的差异，适用性差，因而难以推广应用。

另一种是文献[2](Yuhong Li,Xiaofan Zhang,Deming Chen.CSRNet:DilatedConvolutional Neural Networks for Understanding the Highly CongestedScenes.CVPR 2018.)提出的基于神经网络的解决方案，主要是将数据集中的人群图像和人群标注进行端到端的深度学习，即给定一张人群图像，通过网络模型拟合出其对应的人群密度图，并将密度图中的所有像素值进行累加得到最终的计数结果。但是由于图像中存在颜色、光照、拍摄质量等问题，采用这种方法进行人群计数存在较大的误差，图像质量也会严重影响人群计数的结果。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于VGG网络的自动人群计数图像识别方法，建立基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN和网络模型VadaLNet，VadaLN是一种采用预训练的“极深卷积神经网络”(VGG)嵌入式层归一化的方法(VGG-Embedded Adaptive Layer Normalization,VadaLN)，将图像的颜色、光照、拍摄质量等信息进行归一化来缓解人群计数的误差，解决目前在单图人群计数方法中，图像质量容易严重影响人群计数结果的问题。

为了使图像中人群计数的结果不受图像质量、颜色和光照的影响，我们提出了基于VGG网络(文献[3]：Karen Simonyan,Andrew Zisserman.Very Deep ConvolutionalNetworks for Large-Scale Image Recognition.ICLR 2015.)的嵌入式自适应层标准化方法VadaLN来过滤与计数任务无关的图像特征。本发明方法VadaLN包括：提出采用尺度重组网络模块(scale-shuffling module,SSM)作为有效部分用于人群计数任务；使用散度马尔可夫随机场损失函数(DivMRF)对计数任务建模；在密度图估计的非一致训练方法中，通过对抗式上下文损失函数(adversarial contextual loss,ACL)建立一种非对齐优化方法。VadaLN在预先训练的VGG-16主干上实现，VadaLN方法不需要额外的学习参数。VadaLN方法将提出的尺度重组网络模块(SSM)合并在一起，以减轻上采样操作中的失真。本发明采用了一种新的归一化方法来减轻训练图像质量变化带来的负面影响。

本发明提供的技术方案是：

一种基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN，利用VGG网络模型对图像进行嵌入式层归一化处理；包括：建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet；采用尺度重组网络模块SSM用于进行人群计数，使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模，并通过对抗式上下文损失函数ACL建立非对齐优化方法，实现密度图估计的非一致训练，优化VadaLNet的参数；

具体实施时，在预先训练的VGG-16主干上实现VadaLN，不需要额外的学习参数，合并尺度重组网络模块SSM以减轻上采样操作中的失真；

所述图像识别方法VadaLN对输入的包含人群的图像进行识别和人群计数，过滤与计数任务无关的图像特征，即得到VadaLN值；

包括如下步骤：

1)建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet，包括VGG网络的后端和新创建的尺度重组网络模块SSM，SSM包括像素重组模块；

其中，VGG网络的模型包括多层卷积神经网络；建立用于进行上采样操作的尺度重组网络模块SSM，SSM的输入是VGG网络模型特征和低分辨率特征(LR feat.)，进行拼接后再作为输入传入像素重组(pixel shuffling)模块，并作为下一层的低分辨率特征LR feat.重复以上操作多次，具体次数视应用场景而定。

2)预训练基于VGG网络模型的嵌入式层归一化网络模型VadaLNet，采用提出散度马尔可夫随机场损失函数DivMRF和对抗式上下文损失函数ACL优化VadaLNet的参数；

训练过程中，将图像分割成小块，并进行标准化处理，计算损失函数；具体实现包括如下过程：

21)尺度归一化处理：将所有的图像数据归一化到统一的分辨率和长宽比；

22)图像标准化处理：

对图像的像素点的强度分别依照正态分布进行调整。正态分布均值和方差由图像的像素值得到。

23)进行像素重组：

图像在经过神经网络之后得到一个N层的张量，将张量的N层合并到同一层；部分层中的特征图与下采样得到的特征图通过尺度重组网络模块SSM的操作进行拼接，得到重组后的张量；

24)将得到重组后的张量进行空洞卷积操作，得到新的特征图，进行像素叠加后计算最终的计数结果；

25)损失函数的计算用逐像素的L1范数进行计算。其中使用ACL对网络模型进行对抗性训练。包括：

251)散度马尔可夫随机场损失函数DivMRF的计算方法

将图像(网络输出合成图像数据和参考图像数据)分割成小块，并作标准化处理，令其服从高斯分布。合成数据是训练网络时得到的网络的输出；参考数据是训练过程中计算损失函数用作参考的图像数据。

Patch_X＝{x_0，0，x_0，1，…，x_M-1，N-1}，

Patch_Y＝{y_0，0，y_0，1，…，y_M-1，N-1}.

其中，Patch_x，Patch_Y表示由输入图像X，Y分割的小块组成的集合，N表示标准化操作，计算过程利用均值μ和标准差σ。

随后计算相对熵(又被称为Kullback-Leibler散度，简称KL散度)，再利用KL散度计算损失函数：

这里的x,y,X,Y和前文所用到的含义一致，N^k表示集合由Patch_X，Patch_Y中标准化后的元素。

252)对抗式上下文损失函数ACL的计算方法

其中，CX指的是上下文相似度；φ指的是预训练的VGG网络；φ的上标表示使用的是哪一层的特征；D^* _ACL是ACL函数使用的对抗性损失函数，in_a表示待计算的图像，in_b表示参考的计数结果。

ACL函数用于深度学习的“对抗性”策略，使得模型对背景噪声有更好的应对能力。

3)利用训练好的基于VGG网络模型的嵌入式层归一化网络模型VadaLNet，对输入的包含人群的图像进行识别和人群计数，过滤与计数任务无关的图像特征，得到VadaLN值；

具体实施时，输入为一张RGB图像，图像内容为室外真实场景下采集的行人快照。将RGB图像输入预训练好的VadaLNet中的VGG网络，收集VGG网络中的conv3_3和conv4_2特征层，并对这两个特征层作归一化处理，先对这两个特征层的内容计算均值μ和标准差σ：

其中，H为张量的层数，x_i＝张量的第i层，σ为该张量的标准差。

然后再通过计算得出VadaLN的值，即进行基于VGG的适应性层归一化：

其中，σ_f和μ_f是VGG特征中代表语义内容的特征计算得到的标准差和均值；σ_s和μ_s是VGG特征中代表图像质量的特征计算得到的标准差和均值；

上述基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN通过对输入的图像进行尺度归一化、像素重组、图像标准化处理，计算损失函数，识别得到图像中人群的密度分布，累加后即可得到具体人数的估计。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN和网络模型VadaLNet，采用一种预训练的“极深卷积神经网络”(VGG)嵌入式层归一化的方法(VGG-Embedded Adaptive Layer Normalization,VadaLN)，将图像的颜色、光照、拍摄质量等信息进行归一化来缓解人群计数的误差，解决目前在单图人群计数工作中，图像质量容易严重影响人群计数结果的问题。

本发明方法由于使用了ACL损失函数，故能够更好地应对数据中的背景噪声、环境噪声对人群计数带来的扰动和其他负面影响。本发明技术方案适用性强，能够提高图像识别精度，提高图像中人群计数的准确度。

附图说明

图1为本发明提供的基于VGG网络嵌入式层归一化进行人群计数的图像识别方法的流程框图；方法流程包括建立嵌入式自适应层标准化模块(VadaLN)，过滤与计数任务无关的图像特征，得到VadaLN值。

图2为本发明方法中的尺度重组网络模块SSM的结构示意图；

其中，SSM的输入是VGG特征和低分辨率特征(LR feat.)，进行拼接，再作为输入传入像素重组(pixel shuffling)模块，并作为下一层的LR feat.视应用场景重复以上操作数次。尺度重组网络模块作用是在将特征层数进行削减的同时保持现有的信息不损失。

图3为采用本发明方法针对同一张图片在不同的图像质量下得到的计数结果对比示意图；

使用本发明方法在计数过程中可尽可能不受环境光照的影响。

图4为具体实施时在ACL损失函数下进行对抗训练效果对比的示意图；

本发明提供的模型能够很好避免背景噪声带来的负面影响。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN和网络模型VadaLNet，采用一种预训练的“极深卷积神经网络”(VGG)嵌入式层归一化的方法(VGG-Embedded Adaptive Layer Normalization,VadaLN)，将图像的颜色、光照、拍摄质量等信息进行归一化来缓解人群计数的误差。

图1所示为本发明提供的基于VGG网络嵌入式层归一化进行人群计数的图像识别方法的流程；本发明方法主要包括如下步骤：

1)预训练VGG网络模型；

VGG网络的模型包括多层卷积神经网络。

2)建立嵌入式自适应层标准化网络模型(VadaLN)，过滤与计数任务无关的图像特征，得到VadaLN值；

具体实施时，输入为一张RGB图像，图像内容为室外真实场景下采集的行人快照。将RGB图像输入预训练的VGG网络，收集VGG网络中的conv3_3和conv4_2特征层，并对于这两层作归一化处理，先对这两层内容计算均值μ和标准差σ：

其中，H为张量的层数，x_i＝张量的第i层，σ为该张量的标准差。然后再通过计算得出VadaLN的值，即基于VGG的适应性层归一化：

其中，VadaLN(x)为VadaLN值；σ_f和μ_f是VGG特征中代表语义内容的特征计算得到的标准差和均值；σ_s和μ_s是VGG特征中代表图像质量的特征计算得到的标准差和均值。

3)建立尺度重组网络模块SSM，用于进行上采样。

尺度重组网络模块SSM作为一个重要的模块，用于替换传统的上采样操作。图2示了尺度重组网络模块。SSM的输入是VGG特征和低分辨率特征(LR feat.)，进行拼接，再作为输入传入像素重组(pixel shuffling)模块，并作为下一层的LR feat.重复以上操作数次，具体次数视应用场景而定。

4)将图像分割成小块，并进行标准化处理，计算损失函数；

其中用到了DivMRF(散度马尔可夫随机场)和ACL(对抗式上下文损失函数)两个组成部分，具体实现方法如下：

(a)DivMRF计算方法

将合成数据和参考数据分割成小块，并作标准化处理，令其服从高斯分布。合成数据就是训练网络时得到的网络的输出；参考数据就是给训练结果计算损失函数用作参考的“标准答案”。

Patch_X＝{x_0，0，X_0，1，…，x_M-1，N-1}，

Patch_Y＝{y_0，0，y_0，1，…，y_M-1，N-1}.

计算KL散度，再利用KL散度计算损失函数

(b)ACL函数计算方法

其中CX指的是上下文相似度；φ指的是预训练的VGG网络，其上标注明了使用的是哪一层的特征；D^* _ACL指的是ACL所使用的对抗性损失函数，in_a表示待计算的图像，in_b表示参考的计数结果。。图4为具体实施时在ACL损失函数下进行对抗训练的结果示意，模型能够很好避免背景噪声带来的负面影响。

如上所述，本发明提供了一种基于VGG网络嵌入式层归一化进行人群计数的图像识别网络模型VadaLNet，包括：尺度重组网络模块、像素重组模块、图像标准化处理模块和损失函数计算模块。通过本发明所提供的VadaLNet，提高了计数结果的准确率。图3为针对同一张图片在不同的图像质量下得到的计数结果示意，使用本发明方法在计数过程中可尽可能不受环境光照的影响。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于VGG网络的自动人群计数图像识别方法，利用VGG网络模型对图像进行嵌入式层归一化处理，基于VGG网络嵌入式层归一化进行人群计数图像识别，所述自动人群计数图像识别方法命名为VadaLN；包括：建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet；采用尺度重组网络模块SSM用于进行人群计数，使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模，并通过对抗式上下文损失函数ACL建立非对齐优化方法，实现密度图估计的非一致训练，优化VadaLNet的参数；

所述自动人群计数图像识别方法VadaLN对输入的包含人群的图像进行识别和人群计数，过滤与计数任务无关的图像特征，即得到VadaLN值；包括如下步骤：

2)预训练基于VGG网络模型的嵌入式层归一化网络模型VadaLNet，采用提出散度马尔可夫随机场损失函数DivMRF和对抗式上下文损失函数ACL优化VadaLNet的参数；训练过程中，将图像分割成小块，并进行标准化处理，计算损失函数；具体实现包括如下过程：

22)图像标准化处理：对图像的像素点的强度分别依照正态分布进行调整；

23)进行像素重组：

图像经过神经网络之后得到N层的张量，将张量的N层合并到同一层；层中的特征图与下采样得到的特征图通过尺度重组网络模块SSM进行拼接，得到重组后的张量；

24)将重组后的张量进行空洞卷积操作，得到新的特征图，进行像素叠加后计算最终的计数结果；

25)训练的损失函数采用逐像素的L1范数进行计算；包括：

251)散度马尔可夫随机场损失函数DivMRF的计算；

将图像分割成小块，并作标准化处理，使其服从高斯分布；

Patch_X＝{x_0，0，x_0，1，…，x_M-1，N-1}，

Patch_Y＝{y_0，0，y_0，1，…，y_M-1，N-1}.

其中，Patch_X，Patch_Y表示由输入图像X，Y分割的小块组成的集合，N表示标准化操作，μ和σ分别为均值和标准差；

计算KL散度，再利用KL散度计算损失函数：

其中，N^k表示集合由Patch_X，Patch_Y中标准化后的元素；

252)对抗式上下文损失函数ACL的计算方法

其中，CX指的是上下文相似度；φ指的是预训练的VGG网络；φ的上标表示使用的是哪一层的特征；D^* _ACL是ACL函数使用的对抗性损失函数；in_a表示待计算的图像；in_b表示参考的计数结果；

具体输入包含人群的RGB图像；将RGB图像输入预训练好的VadaLNet中的VGG网络，收集VGG网络中的conv33和conv42特征层，并对这两个特征层作归一化处理，对这两个特征层的内容计算均值μ和标准差σ：

其中，H为张量的层数，x_i＝张量的第i层，σ为该张量的标准差；

再通过计算得出VadaLN的值，即进行基于VGG的适应性层归一化，表示为：

通过上述步骤，即实现基于VGG网络嵌入式层归一化进行人群计数图像识别。

2.如权利要求1所述基于VGG网络的自动人群计数图像识别方法，其特征是，具体在预先训练的VGG-16主干上实现VadaLN，不需要额外的学习参数，合并尺度重组网络模块SSM以减轻上采样操作中的失真。

3.如权利要求1所述基于VGG网络的自动人群计数图像识别方法，其特征是，步骤1)中，VGG网络模型包括多层卷积神经网络。

4.如权利要求1所述基于VGG网络的自动人群计数图像识别方法，其特征是，步骤1)中，建立用于进行上采样操作的尺度重组网络模块SSM，SSM的输入是VGG网络模型特征和低分辨率特征，进行拼接后再作为输入传入像素重组模块，并作为下一层的低分辨率特征。

5.如权利要求1所述基于VGG网络的自动人群计数图像识别方法，其特征是，步骤22)对图像的像素点的强度分别依照正态分布进行调整；正态分布均值和方差具体根据图像的像素值得到。

6.如权利要求1所述基于VGG网络的自动人群计数图像识别方法，其特征是，步骤251)中处理的图像包括网络输出合成图像数据和参考图像数据；合成数据是训练网络时得到的网络的输出；参考数据是训练过程中计算损失函数用作参考的图像数据。