CN108492319B

CN108492319B - 基于深度全卷积神经网络的运动目标检测方法

Info

Publication number: CN108492319B
Application number: CN201810193049.1A
Authority: CN
Inventors: 白静; 陈盼; 徐航; 焦李成; 李晓宇; 李超贤; 李笑寒; 缑水平
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2021-09-03
Anticipated expiration: 2038-03-09
Also published as: CN108492319A

Abstract

本发明提出了一种基于深度全卷积神经网络的运动目标检测方法，用于解决现有有监督运动目标检测方法中存在的检测精度低和检测复杂度高的技术问题，实现步骤为：(1)提取视频场景的背景图像；(2)获取多通道视频帧序列；(3)构建训练样本集与测试样本集，并对该两个样本集进行归一化；(4)构建深度全卷积神经网络模型；(5)对深度全卷积神经网络模型进行训练；(6)用训练好的深度全卷积神经网络模型对测试样本集进行预测；(7)获取运动目标检测结果。本发明通过深度全卷积神经网络模型实现运动目标检测，提高了运动目标检测的精度，并降低了检测的复杂度，可用于监控视频的目标识别、目标追踪与动作识别等领域。

Description

基于深度全卷积神经网络的运动目标检测方法

技术领域

本发明属于视频图像处理领域，涉及一种运动目标检测方法，具体涉及一种基于深度全卷积神经网络的运动目标检测方法，可用于监控视频的目标识别、目标追踪与动作识别等领域。

背景技术

运动目标检测的任务是检测给定视频中的运动前景目标，作为智能视频分析的预处理部分，为后续视频中的目标识别、目标追踪与动作识别等奠定基础。运动目标检测方法分为基于有监督学习和基于无监督学习两大类，其中基于无监督学习的运动目标检测方法主要分为帧间差分法、光流场法以及背景差分法三种类型。帧间差分法根据帧与帧之间的差异来判断运动目标，但算法是基于像素级的差异，对噪声敏感，且检测出的运动物体内部容易出现“空洞”现象；光流场法是一种利用表面运动技术的检测方法，是对目标真实运动的估计，然而光流场计算方法相当复杂，计算量巨大，无法满足实时性要求；背景差分法是一种背景建模的方法，也是目前最常用的运动目标检测方法，其核心思想是建立背景模型，通过比较模型与后续帧来不断更新背景模型与分离前景/背景像素，从而检测出运动目标，当相机固定，光照恒定且背景静止的情况下，背景差分算法能取得不错的效果，然而背景差分法在复杂视频场景下仍存在检测精度不高的问题。

目前，基于有监督学习的运动目标检测方法的研究刚刚起步，其主要思想是借助带人工标记的Ground truth图像，通过对视频场景提取背景图像，对部分视频图像序列进行学习，再用学习的模型对视频场景进行运动目标进行检测，相对基于无监督学习的运动目标检测方法，基于有监督学习的运动目标检测方法在复杂场景下检测精度有了大幅度提高。例如，Babaee M等人于2017年在《Pattern Recoginition》上发表了一篇题为“ADeepConvolutional Neural Network for Background Subtraction”的文章，公开了一种基于深度卷积神经网络的运动目标检测方法，首先利用SuBSENSE前景检测算法与Flux Tensor算法提取视频场景的背景图像，将原始视频帧图像与背景图像进行通道合并后划分成17×17的小块进行训练，在检测时，先将待检测视频帧序列图像划分成17×17的小块分别进行预测，获取语义分割图像，再将获得的语义分割图像进行相关后处理，最后将后处理后的图像块进行拼接，得到最终的运动目标检测结果。该方法在对视频帧图像进行预测时仅考虑局部信息，未考虑视频图像整体的结构信息，对复杂场景下的运动目标检测精度造成一定的影响；且该方法采用SuBSENSE算法与Flux Tensor算法提取背景图像，在检测时需要对视频帧图像进行分块处理，对于每个小块需要对网络进行一次前向计算，时间复杂度较高。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于深度全卷积神经网络的运动目标检测方法，用于解决现有有监督运动目标检测方法中存在的检测精度低和检测复杂度高的技术问题。

本发明的技术思路是：首先提取视频场景的背景图像，再获取多通道视频帧图像序列，构建训练样本集和测试样本集，并对该两个样本集进行归一化，之后构建深度全卷积神经网络模型，对深度全卷积神经网络模型进行训练，最后用训练好的深度全卷积神经网络模型对测试样本集进行预测，获取运动目标检测结果。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)提取视频场景的背景图像：

(1a)选取N个带有人工标注的Ground truth图像的视频场景，N≥10；

(1b)计算每个视频场景中前M帧图像的平均图像，并将每个视频场景的平均图像作为该视频场景的背景图像，得到N个背景图像，其中，100≤M≤200。

(2)获取多通道视频帧图像序列：

(2a)将N个场景的视频帧图像序列、视频帧图像序列中每个图像对应的Groundtruth图像以及各场景的背景图像缩放至同一尺寸，缩放后的图像的宽和高不少于320像素；

(2b)将缩放后的视频帧图像序列中的每一个图像与其对应场景的背景图像分别进行通道合并，得到多通道视频帧图像序列。

(3)构建训练样本集和测试样本集，并对该两个样本集进行归一化：

(3a)从多通道视频帧图像序列中随机选取30％以上的图像序列和图像序列中每个图像对应的Ground truth图像作为训练样本集，并将剩余的图像序列和剩余图像序列中每个图像对应的Ground truth图像作为测试样本集；

(3b)对训练样本集与测试样本集进行归一化，得到归一化的训练样本集和测试样本集。

(4)构建深度全卷积神经网络模型：

构建包含44层的深度全卷积神经网络模型：输入层→预卷积层→第一卷积层1→第一卷积层2→第一池化层→第二卷积层1→第二卷积层2→第二池化层→第三卷积层1→第三卷积层2→第三卷积层3→第三池化层→第四卷积层1→第四卷积层2→第四卷积层3→第四池化层→第五卷积层1→第五卷积层2→第五卷积层3→第五池化层→第六卷积层1→第六卷积层2→第六卷积层3→第一反卷积层→第七卷积层1→第七卷积层2→第七卷积层3→第二反卷积层→第八卷积层1→第八卷积层2→第八卷积层3→第三反卷积层→第九卷积层1→第九卷积层2→第九卷积层3→第四反卷积层→第十卷积层1→第十卷积层2→第五反卷积层→第一后卷积层→第一Dropout层→第二后卷积层→第二Dropout层→输出层。

(5)对深度全卷积神经网络模型进行训练：

将归一化的训练样本集作为深度全卷积神经网络模型的输入，并将训练样本集所对应的Ground truth作为训练样本集的标签，对深度全卷积神经网络模型进行K次迭代监督训练，得到训练好的深度全卷积神经网络模型，其中，K≥30000。

(6)用训练好的深度全卷积神经网络模型对测试样本集进行预测：

将测试样本集输入到训练好的深度全卷积神经网络模型中，得到该测试样本集的语义分割图像序列。

(7)获取运动目标检测结果：

(7a)对语义分割图像序列进行3×3的均值滤波，得到滤波后的图像序列；

(7b)对滤波后的图像序列进行阈值分割：将滤波后的图像序列中图像像素值小于0.5的像素值设置成0，图像像素值大于或者等于0.5的像素值设置成255，得到阈值分割后的图像序列；

(7c)对阈值分割后的图像序列中的每个图像进行缩放：将阈值分割后的图像序列中的每个图像缩放成与原始视频帧图像大小相同的图像，得到缩放后的图像序列；

(7d)对缩放后的图像序列中的每个图像进行阈值分割：将缩放后的图像序列中的每个图像中像素值小于10的像素值设置成0，像素值大于或者等于10的像素值设置成255，得到最终的运动目标检测结果。

本发明与现有技术相比，具有以下优点：

1.本发明中先对训练样本集进行训练得到训练好的深度全卷积神经网络模型，该模型在测试集上获取语义分割图像序列时，通过直接将原始视频帧图像作为输入而没有进行分块处理，因此保留了原始视频帧图像的整体结构信息；并且该模型具有更多的卷积层与池化层，更深层次的网络结构能够提取丰富的深层次纹理特征与边缘特征，与现有技术相比，有效地提高了复杂场景下的运动目标检测的精度。

2.本发明中获取背景图像的时候直接通过计算场景的平均图像来得到背景图像，计算方法相对简单，降低了检测的复杂度；并且在检测时，只需要对视频帧图像进行一次前向计算而不需要进行分块处理并进行多次前向运算，进一步降低了检测的复杂度，与现有技术相比，有效地提高了检测的速度。

3.本发明中采用的图像缩放的运用使得基于深度全卷积神经网络模型可以同时训练不同场景下的不同规格的视频序列，因此，仅通过一次训练，该模型就可以应用于其它视频场景的运动目标检测，此外，模型中采用了两个Dropout层，有效提高了该模型的泛化能力。

附图说明

图1是本发明的实现流程图。

图2是本发明在CDnet数据集park场景中第365帧运动目标检测的仿真图。

具体实施方案

以下结合附图和具体实施例，对本发明作进一步的详细描述。

参照图1.一种基于深度全卷积神经网络的运动目标检测方法，包括如下步骤：

步骤1)提取视频场景的背景图像：

步骤1a)选取N个带有人工标注的Ground truth图像的视频场景，N≥10，在本发明实施例中，视频场景来源于CDnet数据库，所有场景中视频帧图像序列均带有人工标注的Ground truth图像，N为32；

步骤1b)计算每个视频场景中前M帧图像的平均图像，并将每个视频场景的平均图像作为该视频场景的背景图像，得到N个背景图像，其中，100≤M≤200，在本发明实施例中，M为200，每个场景中前M帧图像的平均图像的计算公式为：

其中，(i,j)表示图像像素的位置，P表示像素值大小，n表示视频中的第n帧，M表示对视频场景中前M帧提取平均图像，mean表示平均图像。

步骤2)获取多通道视频帧图像序列：

步骤2a)将N个场景的视频帧图像序列、视频帧图像序列中每个图像对应的Groundtruth图像以及各场景的背景图像缩放至同一尺寸，缩放后的图像的宽和高不少于320像素，本发明实施例中缩放后的图像的宽和高均设置为320像素；

步骤2b)将缩放后的视频帧图像序列中的每一个图像与其对应场景的背景图像分别进行通道合并，得到多通道视频帧图像序列。

步骤3)构建训练样本集和测试样本集，并对该两个样本集进行归一化：

步骤3a)从多通道视频帧图像序列中随机选取30％以上的图像序列和图像序列中每个图像对应的Ground truth图像作为训练样本集，并将剩余的图像序列和剩余图像序列中每个图像对应的Ground truth图像作为测试样本集，本发明实施例中选取的训练样本集在多通道视频图像序列中的占比为50％；

步骤3b)对训练样本集与测试样本集进行归一化，得到归一化的训练样本集和测试样本集。

步骤4)构建深度全卷积神经网络模型：

构建包含44层的深度全卷积神经网络模型：输入层→预卷积层→第一卷积层1→第一卷积层2→第一池化层→第二卷积层1→第二卷积层2→第二池化层→第三卷积层1→第三卷积层2→第三卷积层3→第三池化层→第四卷积层1→第四卷积层2→第四卷积层3→第四池化层→第五卷积层1→第五卷积层2→第五卷积层3→第五池化层→第六卷积层1→第六卷积层2→第六卷积层3→第一反卷积层→第七卷积层1→第七卷积层2→第七卷积层3→第二反卷积层→第八卷积层1→第八卷积层2→第八卷积层3→第三反卷积层→第九卷积层1→第九卷积层2→第九卷积层3→第四反卷积层→第十卷积层1→第十卷积层2→第五反卷积层→第一后卷积层→第一Dropout层→第二后卷积层→第二Dropout层→输出层，本发明中采用是类似VGG网络结构，根据输入数据尺寸要求，设计出的深度全卷积神经网络模型包含44层，每层的参数设置如下：

输入层为训练样本集中的多通道图像序列；

预卷积层的卷积核大小设置为3，特征映射图个数设置为3；

第一卷积层1～2的卷积核大小设置为3，特征映射图个数设置为64；

第一池化层的特征图个数设置为64；

第二卷积层1～2的卷积核大小设置为3，特征映射图个数设置为128；

第二池化层的特征图个数设置为128；

第三卷积层1～3的卷积核大小设置为3，特征映射图个数设置为256；

第三池化层的特征图个数设置为256；

第四卷积层1～3的卷积核大小设置为3，特征映射图个数设置为512；

第四池化层的特征图个数设置为512；

第五卷积层1～3的卷积核大小设置为3，特征映射图的个数设置为512；

第五池化层的特征图个数设置为512；

第六卷积层1～3的卷积核大小设置为3，特征映射图的个数设置为512；

第一反卷积层的卷积核大小设置为3，特征映射图的个数设置为512；

第七卷积层1～3的卷积核大小设置为3，特征映射图的个数设置为512；

第二反卷积层的卷积核大小设置为3，特征映射图的个数设置为512；

第八卷积层1～3的卷积核大小设置为3，特征映射图的个数设置为256；

第三反卷积层的卷积核大小设置为3，特征映射图的个数设置为256；

第九卷积层1～3的卷积核大小设置为3，特征映射图的个数设置为128；

第四反卷积层的卷积核大小设置为3，特征映射图的个数设置为128；

第十卷积层1～2的卷积核大小设置为3，特征映射图的个数设置为64；

第五反卷积层的卷积核大小设置为3，特征映射图的个数设置为64；

第一后卷积层的卷积核大小设置为3，特征映射图的个数设置为64；

第一Dropout层的比率设置为0.8；

第二后卷积层的卷积核大小设置为3，特征映射图的个数设置为1；

第二Dropout层的比率设置为0.8；

输出层的激活函数为sigmoid函数。

步骤5)对深度全卷积神经网络模型进行训练：

将归一化的训练样本集作为深度全卷积神经网络模型的输入，并将训练样本集所对应的Ground truth作为训练样本集的标签，对深度全卷积神经网络模型进行K次迭代监督训练，得到训练好的深度全卷积神经网络模型，其中，K≥30000，本发明实施例中K为30000。

步骤6)用训练好的深度全卷积神经网络模型对测试样本集进行预测：

将测试样本集输入到训练好的深度全卷积神经网络模型中，得到该测试样本集的语义分割图像序列，本发明实施例中，对测试样本集中的每个图像进行一次前向运算，得到对应的语义分割图像序列。

步骤7)获取运动目标检测结果：

步骤7a)对语义分割图像序列进行3×3的均值滤波，得到滤波后的图像序列；

步骤7b)对滤波后的图像序列进行阈值分割：将滤波后的图像序列中图像像素值小于0.5的像素值设置成0，图像像素值大于或者等于0.5的像素值设置成255，得到阈值分割后的图像序列；

步骤7c)对阈值分割后的图像序列中的每个图像进行缩放：

将阈值分割后的图像序列中的每个图像缩放成与原始视频帧图像大小相同的图像，得到缩放后的图像序列。

步骤7d)对缩放后的图像序列中的每个图像进行阈值分割：

将缩放后的图像序列中的每个图像中像素值小于10的像素值设置成0，像素值大于或者等于10的像素值设置成255，得到最终的运动目标检测结果。

以下结合仿真试验，对本发明的技术效果作进一步说明：

1.仿真条件和内容：

本发明的仿真实验是在GPU GeForce GTX 1080Ti，RAM 20G的硬件环境与Ubuntu14.04的软件环境下基于tensorflow平台实现的。实验中使用的视频场景数据来源于CDnet数据库。

仿真实验：从CDnet数据库中选取32个视频场景，根据本发明方法构建训练样本集后，对训练样本集进行30000次迭代监督训练，然后将测试样本集输入到已训练好的深度全卷积神经网络模型，其中park场景第365帧图像、该图像对应的Ground truth图像、本发明方法提取的背景以及本发明检测结果如图2所示。

2.仿真结果分析：

参照图2.其中：

图2(a)是CDnet数据集park场景中第365帧原始图像。

图2(b)是CDnet数据集park场景中第365帧图像所对应的Ground truth图像。

图2(c)是本发明中将原始视频序列通过计算平均图像得到的背景图像。

图2(d)是本发明的仿真实验对CDnet数据集park场景中第365帧检测出的运动目标二值图像。

将图2(d)所得到的仿真结果与图2(b)中的Ground truth进行对比，可以看出，本发明方法对运动目标检测的结果较好，分类结果的区域一致性较好，运动前景与背景边缘轮廓清晰，且保持了运动目标的细节信息。

综上所述，本发明通过深度全卷积神经网络模型实现运动目标检测，利用多层卷积和深层次网络结构提取了输入图像与背景图像之间的特征，能够实现精确的视频运动目标检测，且保留了运动目标的完整性，提高了复杂场景下运动目标检测的精度。

Claims

1.一种基于深度全卷积神经网络的运动目标检测方法，其特征在于，包括如下步骤：

(1)提取视频场景的背景图像：

(1b)计算每个视频场景中前M帧图像的平均图像，并将每个视频场景的平均图像作为该视频场景的背景图像，得到N个背景图像，其中，100≤M≤200；

(2)获取多通道视频帧图像序列：

(2a)将N个场景的视频帧图像序列、视频帧图像序列中每个图像对应的Ground truth图像以及各场景的背景图像缩放至同一尺寸，缩放后的图像的宽和高不少于320像素；

(2b)将缩放后的视频帧图像序列中的每一个图像与其对应场景的背景图像分别进行通道合并，得到多通道视频帧图像序列；

(3b)对训练样本集与测试样本集进行归一化，得到归一化的训练样本集和测试样本集；

(4)构建深度全卷积神经网络模型：

构建包含44层的深度全卷积神经网络模型：输入层→预卷积层→第一卷积层1→第一卷积层2→第一池化层→第二卷积层1→第二卷积层2→第二池化层→第三卷积层1→第三卷积层2→第三卷积层3→第三池化层→第四卷积层1→第四卷积层2→第四卷积层3→第四池化层→第五卷积层1→第五卷积层2→第五卷积层3→第五池化层→第六卷积层1→第六卷积层2→第六卷积层3→第一反卷积层→第七卷积层1→第七卷积层2→第七卷积层3→第二反卷积层→第八卷积层1→第八卷积层2→第八卷积层3→第三反卷积层→第九卷积层1→第九卷积层2→第九卷积层3→第四反卷积层→第十卷积层1→第十卷积层2→第五反卷积层→第一后卷积层→第一Dropout层→第二后卷积层→第二Dropout层→输出层；

(5)对深度全卷积神经网络模型进行训练：

将归一化的训练样本集作为深度全卷积神经网络模型的输入，并将训练样本集所对应的Ground truth作为训练样本集的标签，对深度全卷积神经网络模型进行K次迭代监督训练，得到训练好的深度全卷积神经网络模型，其中，K≥30000；

将测试样本集输入到训练好的深度全卷积神经网络模型中，得到该测试样本集的语义分割图像序列；

(7)获取运动目标检测结果：

2.根据权利要求1所述的基于深度全卷积神经网络运动目标检测方法，其特征在于，步骤(1b)中所述的计算每个视频场景中前M帧图像的平均图像，计算公式为：

3.根据权利要求1所述的基于深度全卷积神经网络运动目标检测方法，其特征在于，步骤(4)中所述深度全卷积神经网络模型，每层参数设置如下：

输入层为训练样本集中的多通道图像序列；

预卷积层的卷积核大小设置为3，特征映射图个数设置为3；

第一池化层的特征图个数设置为64；

第二池化层的特征图个数设置为128；

第三池化层的特征图个数设置为256；

第四池化层的特征图个数设置为512；

第五池化层的特征图个数设置为512；

第一Dropout层的比率设置为0.8；

第二Dropout层的比率设置为0.8；

输出层的激活函数为sigmoid函数。