CN110852267B

CN110852267B - 基于光流融合型深度神经网络的人群密度估计方法及装置

Info

Publication number: CN110852267B
Application number: CN201911095764.2A
Authority: CN
Inventors: 王倩; 李文熙; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2022-06-14
Anticipated expiration: 2039-11-11
Also published as: CN110852267A

Abstract

本发明的目的在于提供一种能够减小图像模糊带来的不良影响、减小人群群体特征干扰信息的人群密度估计方案，具体提供了一种基于光流融合型深度神经网络的人群密度估计方法及装置。其中，光流融合型深度神经网络模型包括空洞卷积子网络以及注意力子网络，空洞卷积子网络以及注意力子网络各含有多个卷积层，位于空洞卷积子网络中的多个卷积层以及位于注意力子网络中的至少一个卷积层相互配合形成不同的融合模块，模型中包含多个与融合模块分别对应的连接层，用于将各个融合模块中的注意力子网络数据流经归一化后矩阵加权到空洞卷积子网络数据流后得到的特征空间。

Description

基于光流融合型深度神经网络的人群密度估计方法及装置

技术领域

本发明属于计算机视觉、人工智能技术领域，涉及一种复杂场景下的人群密度估计方法及装置，具体涉及一种基于光流融合型深度神经网络模型的人群密度估计方法及装置。

背景技术

在当前机器学习技术及计算机硬件性能高速提升的情况下，近年来计算机视觉、自然语言处理和语音检测等应用领域取得了突破性进展。在城市管理等领域中常有对海量的视频数据进行分析的需求，例如需要根据城市监控视频进行人群态势分析，而其中的人群密度估计更是重中之重，对于城市规划、公众安全管理等具有重要作用。

人群密度估计的实现方法目前基本分为两种：一种是基于目标检测的方式，即检测出人头所在位置并进行计数；一种是基于回归密度图的方式，即根据人群所在位置基于密度图计算出人群数量。其中，目标检测的方式是基于人的个体特征，适用于场景中人数较少的情况；回归密度图的方式是基于人的群体特征，适用于场景中人数较密集的情况。

实际应用过程中，早期的人群计数方法关注人的头部信息，利用传统的机器学习进行计算；随着人工智能的发展，近十年来，越来越多的研究人员开始利用回归人群密度图的方式进行研究，关于人群密度估计的研究课题层出不穷，近年来每年都有最新的研究成果和实际应用发表和公布。不仅如此，人群密度估计作为人群态势分析的一个基础，也不断被应用到很多实际任务中华，例如智能视频监控、人流量计算等。然而，现有技术的多种人群密度估计方法的准确率仍然不能完全满足实际应用的要求，例如，仍达不到理想的高准确度。

为了提高人群密度估计的准确度，目前常用的方法是采用不同卷积核增大感受野的模型来训练数据。然而，一方面，目前应用于人群密度估计的模型训练数据集分辨率较低，图像模糊导致模型学习到的特征不太好；另一方面，目标图像中有很多类似于人群的群体特征的干扰信息，导致模型训练误差较大。

发明内容

为解决上述问题，提供一种能够减小图像模糊带来的不良影响、减小人群群体特征干扰信息的人群密度估计方案，本发明提出了一种光流融合型深度神经网络，并提出了基于该光流融合型深度神经网络的人群密度估计方法及装置。其中，光流融合型深度神经网络模型能够利用视频帧间人群的运动信息所产生的光流图来定位视频图像中人群的大概率性区域(即图像中获取注意力的部分区域)，并结合该区域的特征获得预测密度图。

具体地，本发明提供了一种基于光流融合型深度神经网络的人群密度估计方法，其特征在于，采用光流融合型深度神经网络获得待测视频中的预测密度图，包括如下步骤：步骤S1，对待测视频进行预处理从而获得对应的真实密度图以及光流图；步骤S2，搭建光流融合型深度神经网络；步骤S3，采用训练集对步骤S2构建的光流融合型深度神经网络模型进行模型训练；步骤S4，将步骤S1中获得的真实密度图以及光流图分别输入完成了步骤S3的训练的光流融合型深度神经网络模型从而获得预测密度图，并基于该预测密度图进行计算获得待测视频的人群密度，其中，光流融合型深度神经网络模型包括空洞卷积子网络以及注意力子网络，空洞卷积子网络以及注意力子网络各含有多个卷积层，位于空洞卷积子网络中的多个卷积层以及位于注意力子网络中的至少一个卷积层相互配合形成不同的融合模块，光流融合型深度神经网络模型中包含多个与融合模块分别对应的连接层，该连接层用于将各个融合模块中的注意力子网络数据流经归一化后矩阵加权到空洞卷积子网络数据流后得到的特征空间。

本发明提供的基于运动光流和深度神经网络模型的人群密度估计方法，还可以具有这样的技术特征，其中，预处理包括：选取待测视频中的视频帧得到待测视频序列，并将待测视频序列中的视频帧随机裁剪为1/2尺寸从而实现数据增强，；对数据增强后的各个视频帧进行基于高斯函数进行的密度图生成处理，获得真实密度图；以及根据待测视频序列中相邻两帧间的人群运动信息生成光流图。

本发明提供的基于运动光流和深度神经网络模型的人群密度估计方法，还可以具有这样的技术特征，其中，光流融合型深度神经网络模型还包括：输入层，用于分别输入真实密度图以及光流图；多个池化层，分别与每个融合模块相对应且分别设置在各个融合模块后。

本发明提供的基于运动光流和深度神经网络模型的人群密度估计方法，还可以具有这样的技术特征，其中，步骤S3的模型训练包括多次迭代，每次迭代后，基于最后一层的模型参数分别计算损失误差，然后将计算得到的损失误差进行反向传播从而更新模型参数。

本发明提供的基于运动光流和深度神经网络模型的人群密度估计方法，还可以具有这样的技术特征，其中，注意力子网络在每次迭代后还输出一个注意力图，从第二次迭代开始，每次迭代所输入的光流图被第一次迭代时输出的注意力图所代替。

本发明还提供了一种基于光流融合型深度神经网络的人群密度估计装置，其特征在于，采用光流融合型深度神经网络获得待测视频中的预测密度图，包括：预处理部，对待测视频进行预处理从而获得对应的真实密度图以及光流图；预测密度图获取部，用于根据待测视频的真实密度图以及光流图获得对应的预测密度图，包含一个训练好的光流融合型深度神经网络模型；以及密度计算部，根据预测密度图计算获得待测视频中的人群密度，其中，光流融合型深度神经网络模型包括空洞卷积子网络以及注意力子网络，空洞卷积子网络以及注意力子网络各含有多个卷积层，位于空洞卷积子网络中的多个卷积层以及位于注意力子网络中的至少一个卷积层相互配合形成不同的融合模块，光流融合型深度神经网络模型中包含多个与融合模块分别对应的连接层，该连接层用于将各个融合模块中的注意力子网络数据流经归一化后矩阵加权到空洞卷积子网络数据流后得到的特征空间。

发明作用与效果

根据本发明提供的基于光流融合型深度神经网络回归估计人群密度的方法，由于采用了光流融合型深度神经网络模型，该模型包含空洞卷积子网络、注意力子网络，其中注意力子网络能够基于运动光流图产生与注意力区域相对应的注意力图，且两个子网络之间通过连接层而相互连接、融合，因此，本发明的该模型能够获取到人群特征区域并将其与图像的其他特征融合，从而更好地捕获图像中人群的位置信息特征，更准确地预测人群密度。

附图说明

图1是本发明实施例中基于光流融合型深度神经网络模型的人群密度估计方法的流程图；

图2是本发明实施例的光流融合型深度神经网络模型的结构示意图；

图3是本发明实施例的融合模块的融合结构图。

具体实施方式

以下结合附图以及实施例说明本发明的具体实施方式。

本实施例所采用的数据集为WorldExpo’10，该WorldExpo’10包含2010年上海世博会期间108台监控摄像机拍摄的1,132个视频序列。同时，该数据集已事先分为训练集和测试集。其中，训练集中包含103个场景的3380个带标注的帧作为训练图像；测试集由五个场景组成，每个场景有120帧。另外，训练时，训练集中的各个训练图像被随机裁剪为原始图像的1/2尺寸，然后作为输入使用，具体处理过程还将结合实施例进一步描述。

由于上述视频数据集提供了每个场景的感兴趣区域(ROI)的坐标点，因此本实施例的网络模型只关注于ROI信息，也就是头部信息。

另外，本实施例实现的硬件平台需要一张NVIDIA GTX 1080显卡(GPU加速)。

本实施例首先对数据集图片进行预处理，分别生成视频帧的真实密度图和对应的光流图，真实的密度图作为最后的真实标签，然后将原视频帧和光流图输入进光流融合型深度神经网络进行训练，最后通过光流融合型深度神经网络模型得到预测的人群密度图，包括4个过程：预处理、搭建模型、训练模型及利用训练好的模型进行人群密度估计。

以下结合附图以及实施例来说明本发明的具体实施方式。

<实施例>

图1是本发明实施例中基于光流融合型深度神经网络模型的人群密度估计方法的流程图。

如图1所示，本发明的基于光流融合型深度神经网络的人群密度估计方法包括如下步骤。

步骤S1，对待测视频进行预处理，包括两种处理：根据待测视频进行密度获取处理，获得与待测视频对应的真实密度图；对该待测视频进行光流图获取处理，得到待测视频中人群运动的光流图。

待测视频为需要进行人群密度估计的包含了大量人群的视频(例如，道路监控视频等)。

具体地，本实施例将WorldExpo’10中的视频数据集作为待测视频。通常情况下，待测视频帧数较多，为了简化，待测视频需要先进行跳帧处理。本实施例中，由于WorldExpo’10这个视频数据集本身就是已经经过跳帧处理的数据集，故将全部视频帧均进行处理而不进行跳帧。

在其他实施例中，将其他视频作为待测视频时，由于通常情况下视频中的大规模人群在单位时间内移动距离不会很长，因此其他实施例的作为待测视频的视频数据集可以每隔10帧选取一帧。选取所得到的视频帧即可进行接下来的处理。

本实施例的具体预处理过程为：选取结束后，将选取的待测视频序列(即视频的各个图像帧的时间顺序)随机裁剪为原始图像的1/2尺寸，实现数据的增强，将增强后的图像进行密度图生成，得到对应的密度图即作为真实密度图。同时，根据待测视频序列中相邻两帧间信息生成光流图，得到光流图。

上述过程中，密度获取处理是基于高斯函数进行的密度图生成处理，利用数据集中所含有的头部坐标信息，可以基于现有技术选择自适应的高斯核和固定的高斯核的方法生成密度图；一般而言，自适应的高斯核适用于密度较高的人群图像，而固定高斯核的方法则适用于低密度的人群图像。光流图的生成主要实施方式为捕捉相邻两帧间物体的变化区域，从而形成人群运动的光流信息并生成光流图。该两种处理方式均基于现有技术已有方法实现，具体过程在此不再赘述。另外，在其他实施例中，也可以采用现有技术的其他方法来获取待测视频的真实密度图以及光流图。

步骤S2，搭建光流融合型深度神经网络。本实施例中，该神经网络模型的具体构建过程如下。

首先，利用现有的深度学习框架Pytorch搭建光流融合型深度神经网络。该光流融合型深度神经网络是基于注意力机制的空洞卷积神经网络模型，主要分为两个子网络，一是基于VGG-16的空洞卷积子网络，一是用来融合光流图和原图的特征的注意力子网络。第一个空间网络结构是一个以获取更大的感受野

其中，空洞卷积子网络是用于原图(即真实密度图)的细节特征的网络结构，其实质是基于VGG-16的空洞卷积网络，前端为一个有十六层的VGG网络，后端则是不同扩张率的空洞卷积层，该基于VGG-16的空洞卷积网络能够更好的获取到更大的感受野。

注意力子网络用于对输入目标的光流图的特征进行再定位获得注意力图。

模型中还包含融合部分，该融合部分对空洞卷积自网络以及注意力子网络提取的特征进行融合从而对空洞卷积自网络的特征起到纠正作用，最终得到与视频帧相对应的预测密度图。

具体地，本实施例的模型主要由卷积层、最大池化层组成，选择不同的扩张率进行卷积操作，利用预训练的VGG-16模型进行后端训练。模型有两个输入，因此其中最重要的是连接层，该层的作用是将原图的与光流图这两个输入的网络特征进行融合，其中光流图的特征相当于是图像中人群的一个权重矩阵，模型中将学习得到的这个权重矩阵进行归一化，加权到空洞卷积子网络中，从而使得空洞卷积子网络在训练过程中不断加大图像中的人群特征，从而不断地对图像中的人群区域进行再确认，即，不断学习到图像中人群的特征。

图2是本发明实施例的光流融合型深度神经网络模型的结构示意图。

如图2所示，本发明的光流融合型深度神经网络模型包括依次设置的输入层I、多个卷积层C1、连接层L1、多个池化层max pooling、多个卷积层C2、连接层L2、多个卷积层C3、连接层L3、最大池化层max pooling3、多个卷积层C4、连接层L4、多个卷积层C5(包括C5-1，C5-2，C5-3，C5-4)、连接层L5、特征融合层F1。其中，特征融合层F1由两个输入向量分别进行卷积操作后进行的元素乘法构成。另外，卷积层以及其后的池化层构成了不同的融合模块，以下结合附图说明。

具体地，如图2所示，本实施例的光流融合型深度神经网络模型包括如下结构：

(1)输入层I，用于分别输入各个原图和光流图；

(2)多个融合模块，包括：

第一融合模块，包括多个卷积层C1，其中位于空洞卷积子网络中的两层卷积层C1的卷积核大小为3×3，扩张率为1，填充为1，通道数为64，位于注意力子网络中的一层卷积层C1的卷积核大小为3×3，扩张率为1，填充为1，通道数为64；

第二融合模块，包括多个卷积层C2，其中位于空洞卷积子网络中的两层卷积层C2卷积核大小为3×3，扩张率为1，填充为1，通道数为128，位于注意力子网络中的一层卷积层C2卷积核大小为3×3，扩张率为1，填充为1，通道数为128；

第三融合模块，包括多个卷积层C3，其中位于空洞卷积子网络中的三层卷积层C3卷积核大小为3×3，扩张率为1，填充为1，通道数为256的卷积层，位于注意力子网络中的一层卷积层C3卷积核大小为3×3，扩张率为1，填充为1，通道数为256的卷积层；

第四融合模块，包括多个卷积层C4，其中位于空洞卷积子网络中的三层卷积层C4卷积核大小为3×3，扩张率为1，填充为1，通道数为512，位于注意力子网络中的一层卷积层C4卷积核大小为3×3，扩张率为1，填充为1，通道数为512；

第五融合模块，包括多个卷积层C5，其中位于空洞卷积子网络中的三层卷积层C5依次为C5-1(卷积核大小为3×3，扩张率为2，填充为2，通道数为512)、C5-2(卷积核大小为3×3，扩张率为2，填充为2，通道数为256)、C5-3(卷积核大小为3×3，扩张率为2，填充为2，通道数为128)以及C5-4(卷积核大小为3×3，扩张率为2，填充为2，通道数为64)；位于注意力子网络中的一层卷积层C5卷积核大小为3×3，扩张率为2，填充为2，通道数为64。

(3)多个池化层max pooling，分别与每个融合模块相对应且分别设置在各个融合模块后，每个池化层max pooling均采用最大池化的形式，即，两个输入流分别通过四次池化层，每次池化层的步长均为2；

(4)连接层L1、L2、L3、L4、L5，由第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块中的注意力流(即位于注意力子网络部分的数据流)分别经归一化后矩阵加权到主流(即位于空洞卷积子网络部分的数据流)后得到的特征空间，从而将各个融合模块中的位于不同子网络的部分相互连接。

图3是本发明实施例的融合模块的融合结构图。

如图3所示，各个融合模块中，对原图来源的输入数据(即输入x1)做的是简单的卷积操作，其对应于各个位于空洞卷积子网络中的卷积层；对于光流图来源的输入数据(即输入数据x2)，每经过一次卷积层(即位于注意力子网络中的卷积层)之后做一个组归一化(Group Normalization)操作，产生一个0-1间的权重矩阵，再与输入x1经过位于空洞卷积子网络中的卷积层后所得到的输出相作用，得到进一步输出并作为下一层的输入。

步骤S3，采用训练集对步骤S2构建的光流融合型深度神经网络模型进行模型训练。

本实施例中，对WolrdExpo’10的训练集中的各个视频图像帧采用步骤S1的方法获得了3380个带标注的帧，将这些图像做数据增强，得到人群的真实密度图和人群运动光流图，该真实密度图和光流图即为本实施例的训练时的模型输入数据。

上述训练集中的图像大小不一致，因此输入时单张真实密度图以及光流图依次进入网络模型进行训练(每次输入一张真实密度图以及光流图)，一共迭代训练1000代，然后结束训练。

本实施例的光流融合型深度神经网络的各层包含不同的模型参数，这些模型参数构建时为随机设置。模型训练过程中，每次迭代(即每次输入的真实密度图以及光流图通过模型)后，最后一层的模型参数分别计算出损失误差(L1 Loss，MSE Loss均方误差损失)，然后将计算得到的损失误差(L1 Loss，MSE Loss均方误差损失)反向传播，从而更新模型参数。

训练集中的各个图像均输入并完成参数更新后，即视为一次迭代完成。

另外，从第二次迭代开始，每一次迭代所输入的光流图均被前一次迭代时注意力子网络所得到的注意力图所代替。即，采用前一次迭代后的注意力图代替光流图，使得注意力图在迭代过程中也能够得到调整。

经过上述迭代训练并在迭代过程中进行误差计算和反向传播的过程，即可获得训练完成的光流融合型深度神经网络。本实施例用该训练完成的模型在复杂场景下进行人群密度估计。

步骤S4，将步骤S1中经预处理获得的真实密度图以及光流图分别输入完成了步骤S3的训练的光流融合型深度神经网络模型，从而通过该模型得到并输出最终预测的人群密度图。其中，光流融合型深度神经网络的直接输出是与真实密度图以及光流图相对应的特征向量，根据该特征向量通过回归算法即可得到预测的人群密度图，即预测密度图。基于该预测密度图进行密度计算，即可得到人群密度。

本实施例中采用WolrdExpo’10中的不同场景的视频作为测试集，利用测试集作为待测视频来对本实施例的模型进行测试。

具体过程为：对测试集中的不同场景中的多个视频进行如步骤S1所描述的预处理，得到真实密度图、光流图作为测试时的模型输入，真实密度图作为模型的标签，依次输入训练好的光流融合型深度神经网络，其中光流图输入进注意力子网络获得了一个注意力图，该注意力图与原来的真实密度图所进入的空洞卷积子网络进行融合，通过不断迭代计算，最后回归出预测的人群密度图。

本实施例中，训练好的光流融合型深度神经网络对该测试集的多个场景达到了最低的平均绝对误差。

发明人还采用现有技术中的其他人群密度估计模型对同样的测试集进行了对比测试，并采用评估函数对不同的人群密度估计方法进行了评估，结果如下表1所示。

其中，评估函数采用平均绝对误差，平均绝对误差低的模型效果较好，平均绝对误差高的模型则效果相对较差。另外，绝对误差值是指对于单张视频帧预测的人群密度和实际人群密度的差值(比如单张视频帧预测密度为55，实际为64，则其绝对误差值为9)，平均绝对误差也就是指的是所有测试图片的绝对误差之和求平均，表1中的数字代表的则是平均绝对误差。另外，本实施例选取了测试集中五个场景，即场景1～场景5；表1中的“平均”为该5个场景的平均绝对误差的平均值。

表1本发明的方法以及现有技术的其他方法在WorldExpo’10测试集上人群密度估计的平均绝对误差的对比结果

方法	采用的模型	场景1	场景2	场景3	场景4	场景5	平均
								[Zhang et al.,2015]	DCNN	9.8	14.1	14.3	22.2	3.7	12.9
[Zhang et al.,2016]	MCNN	3.4	20.6	12.9	13.0	8.1	11.6
								[Sam et al.,2017]	SCNN	4.4	15.7	10.0	11.0	5.9	9.4
[Xiong et al.,2018]	SPM	7.1	15.2	15.2	13.9	3.5	10.9
								[Shen et al.,2018]	ACCP	2.8	14.05	9.6	8.1	2.9	7.5
[Shi et al.,2018]	DNC	1.9	12.1	20.7	8.3	2.6	9.1
								[Li et al.,2018]	CSR	2.9	11.5	8.6	16.6	3.4	8.6
本发明	-	1.8	16.1	7.7	17.0	2.6	9.0

如表1所示，DCNN、MCNN、SCNN、SPM、ACCP、DNC、CSR为现有技术中存在的检测准确率较高的几种模型，与该几种模型相比，本实施例的模型能够取得很高的准确率，其平均绝对误差的平均值为9.0，与现有技术对比也属于误差较低的模型。并且，本实施例的模型在场景1、场景3以及场景5中取得了该场景下的最低平均绝对误差，而该三种场景经验证发现是人群数量较多的复杂场景。这一结果表明，本实施例的基于光流融合型深度神经网络进行人群密度估计的方法对于不同的场景均能达到较高的准确率，在复杂场景时尤其能够获得其他模型所难以达到的高准确率。

另外，发明人还采用其他数据集作为测试集(包括AHU-Crowd、SmartCity、ucsdpeds这几个视频数据集)进行测试，本实施例的人群密度估计在这些测试集中也能取得很高的准确率，其结果与上述表1类似，在此不再赘述。

实施例作用与效果

根据本实施例提供的基于光流融合型深度神经网络回归估计人群密度的方法，由于采用了光流融合型深度神经网络模型，该模型包含空洞卷积子网络、注意力子网络，其中注意力子网络能够基于运动光流图产生与注意力区域相对应的注意力图，且两个子网络之间通过连接层而相互连接、融合，因此，本实施例的模型能够获取到人群特征区域并将其与图像的其他特征融合，从而更好地捕获图像中人群的位置信息特征，更准确地预测人群密度。

表1的结果也可以证明，相比于目前的人群密度估计方法，本实施例的方法在各种场景中均具有良好的准确率，尤其是在人群数量多的复杂场景中精度好于现有的各种模型，特别适合用于复杂场景下的人群密度估计。

经分析，本实施例的光流融合型深度神经网络模型具有该特性的原因可能是：采用常规模型对人群数量多的场景进行人群密度估计时，由于人群密度大，人群的群体特征对于其他特征具有较严重的干扰效应，若不考虑或排除群体特征，则对于密度大场景的人群密度又难以准确估计。与已有技术相比，本实施例的模型采用双流输入，空洞卷积子网络的输入是密度获取处理后的真实密度图，注意力子网络的输入是光流图，该两个输入分别进入不同的子网络，光流图第一次进入注意力网络得到注意力图并与基于VGG-16的空洞卷积网络学习到的特征进行融合卷积处理，这是一种对人群位置信息进行加权的操作，能够融合两个网络中学习到的不同特征，进而增强人群的群体特征，从而在充分利用群体特征的同时又能减小其干扰作用的影响。然而，实施例这样的光流融合型深度神经网络模型也存在不足，其应用于多运动物体的场景时，由于群体特征增强的作用导致干扰放大，准确率反而降低。也就是说，本实施例的光流融合型深度神经网络模型十分适合人群数量多的场景，不适合多运动物体的场景，同时在其他场景中表现不如人群数量多的场景那么突出。

另外，本实施例的模型结构简单，训练所需的时间较少且训练消耗的计算资源也较少。模型采用了注意力机制，整体抗干扰性也更强。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

例如，上述实施例提供了一种基于光流融合型深度神经网络的人群密度估计的方法，该方法主要包括预处理、搭建模型、训练模型及获得人群密度的步骤。然而，为了实际使用时更为方便，实施例中的训练好的模型也可以打包形成一个预测密度图获取部，该预测密度图获取部可以与能够实施步骤S1的预处理部以及能够基于预测密度图计算人群密度的密度计算部的配合，形成一个专用于对视频进行人群密度估计的装置，其可以用于多路实时视频流的场景下，例如对监控视频流进行实时预处理以及实时人群密度估计，从而让监管人员根据人群密度估计结果做出预警。

实施例中，数据的分辨率较低，因此在训练过程中，为了让注意力子网络学习到更多的特征，进行了密度图的校正(即从第二次迭代开始，注意力子网络的输入均为前一次迭代得到的注意力图)。但在本发明中，在训练集的分辨率正常的情况下，只需要进入一次注意力网络模块即可。

实施例中，模型训练时的迭代次数为1000次，此时模型内的参数也达到收敛。但在本发明中，也可以采用其他的训练完成条件，例如判断收敛程度，在各层的模型参数收敛后就结束训练。

Claims

1.一种基于光流融合型深度神经网络的人群密度估计方法，其特征在于，采用光流融合型深度神经网络获得待测视频中的预测密度图，包括如下步骤：

步骤S1，对所述待测视频进行预处理从而获得对应的真实密度图以及光流图；

步骤S2，搭建光流融合型深度神经网络模型；

步骤S3，采用训练集对步骤S2构建的所述光流融合型深度神经网络模型进行模型训练；

步骤S4，将步骤S1中获得的所述真实密度图以及所述光流图分别输入完成了步骤S3的训练的所述光流融合型深度神经网络模型从而获得预测密度图，并基于该预测密度图进行计算获得所述待测视频的人群密度，

其中，所述光流融合型深度神经网络模型包括空洞卷积子网络以及注意力子网络，

所述空洞卷积子网络以及所述注意力子网络各含有多个卷积层，

位于所述空洞卷积子网络中的多个所述卷积层以及位于所述注意力子网络中的至少一个所述卷积层通过add方式相互配合形成不同的融合模块，

所述光流融合型深度神经网络模型中包含多个与所述融合模块分别对应的连接层，该连接层用于将各个所述融合模块中的注意力子网络数据流经归一化后矩阵加权到空洞卷积子网络数据流后得到的特征空间。

2.根据权利要求1所述的基于光流融合型深度神经网络的人群密度估计方法，其特征在于：

其中，所述预处理包括：

选取所述待测视频中的视频帧得到待测视频序列，并将所述待测视频序列中的视频帧随机裁剪为1/2尺寸从而实现数据增强；

对所述数据增强后的各个视频帧进行基于高斯函数进行的密度图生成处理，获得所述真实密度图；以及

根据所述待测视频序列中相邻两帧间的人群运动信息生成所述光流图。

3.根据权利要求1所述的基于光流融合型深度神经网络的人群密度估计方法，其特征在于：

其中，所述光流融合型深度神经网络模型还包括：

输入层，用于分别输入所述真实密度图以及所述光流图；

多个池化层，分别与每个所述融合模块相对应且分别设置在各个融合模块后。

4.根据权利要求1所述的基于光流融合型深度神经网络的人群密度估计方法，其特征在于：

其中，步骤S3的所述模型训练包括多次迭代，

每次迭代后，基于最后一层的模型参数分别计算损失误差，然后将计算得到的所述损失误差进行反向传播从而更新模型参数。

5.根据权利要求4所述的基于光流融合型深度神经网络的人群密度估计方法，其特征在于：

其中，所述注意力子网络在每次迭代后还输出一个注意力图，

从第二次迭代开始，每次迭代所输入的光流图被第一次迭代时输出的所述注意力图所代替。

6.一种基于光流融合型深度神经网络的人群密度估计装置，其特征在于，采用光流融合型深度神经网络获得待测视频中的预测密度图，包括：

预处理部，对所述待测视频进行预处理从而获得对应的真实密度图以及光流图；

预测密度图获取部，用于根据所述待测视频的所述真实密度图以及所述光流图获得对应的预测密度图，包含一个训练好的光流融合型深度神经网络模型；以及

密度计算部，根据所述预测密度图计算获得所述待测视频中的人群密度，