CN110378288A

CN110378288A - 一种基于深度学习的多级时空运动目标检测方法

Info

Publication number: CN110378288A
Application number: CN201910653504.6A
Authority: CN
Inventors: 杨依忠; 张涛; 胡今朝; 解光军; 程心; 张章
Original assignee: Hefei Polytechnic University
Current assignee: Hefei University of Technology; Hefei Polytechnic University
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-25
Anticipated expiration: 2039-07-19
Also published as: CN110378288B

Abstract

本发明提出一种基于深度学习的多尺度时空运动目标检测方法，其步骤包括：1获取具有像素级标签的视频数据集；2建立多尺度时空网络模型；3离线训练建立的多尺度时空网络模型；4利用建立好的模型实现预测，以达到目标检测的目的。本发明克服了现有监督算法缺少空间和时间特征多尺度信息的缺陷，可精准检测不同尺寸、不同运动速率的运动目标。

Description

一种基于深度学习的多级时空运动目标检测方法

技术领域

本发明设计计算机视觉技术领域，具体涉及一种基于多级时空特征的运动目标检测方法。

背景技术

运动目标检测是计算机视觉领域的一个重要课题，在自动驾驶、目标跟踪、人群分析、交通流、自动异常检测等视频监控领域中有着重要的作用。运动目标检测是像素级别的二分类问题，其目的是从冗余的视频序列中提取出显著的前景目标。运动目标检测算法主要分为两大类：传统算法和基于深度学习的算法。

传统算法的运动目标检测法一般利用图像的传统手工视觉特征，例如颜色、纹理等，为每一个像素建模背景模型，通过对比输入图片与背景模型来分类出前景像素，并完成背景模型的更新与维护。由于颜色、纹理、梯度等低级视觉特征对视频图片的质量要求较高，传统算法只能处理简单的视频场景，而对于动态背景、阴影等复杂场景的检测效果并不好。另外，传统算法有大量需要人工调优的超参数，针对不同场景都有不同的最优超参数。

近年来，深度学习引起了计算机视觉界的广泛关注，人们已经将其应用于各种视觉任务，并取得了显著的效果。目前，基于深度学习的运动目标检测方法大多数只采用二维卷积网络提取单帧图片的空间特征，忽略了视频序列的时间依赖关系，仅基于空间特征的方法处理场景黑暗、颜色信息丢失等场景的性能较差。另外，目前基于深度学习的没有使用多尺度方法或仅在空间尺度上采用多尺度方法，缺少空间多尺度信息导致前景分割结果缺少细节信息，缺少时间多尺度信息导致该方法法不能准确地分割出视频中以不同速率运动的前景目标。

发明内容

本发明为克服现有技术的不足之处，提出一种基于深度学习的多级时空运动目标检测方法，以期能实现视频中前景目标的自动检测，从而提高检测效率和准确性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于深度学习的多级时空运动目标检测方法的特点是按如下步骤进行：

步骤1、获取带有像素级标签的视频数据集并进行分割，得到N个T帧的短视频序列并进行归一化处理，得到归一化的训练样本集记为S＝{S₁,S₂,...,S_n,...,S_N}；S_n表示第n个归一化后的短视频序列，且表示第n个归一化后的短视频序列S_n中第t帧图像；n＝1,2,...,N；t＝1,2,...,T；

步骤2、建立多尺度时空网络模型，所述多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间提取模块和多尺度特征融合模块组成；

步骤2.1、权值初始化：

令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值；

令三个卷积长短期记忆网络层ConvLSTM使用高斯分布进行初始化权值；

令上采样层通过反卷积实现，反卷核使用双线性插值初始化；

步骤2.2、令所述多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络，依次包括：第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3；

将所述归一化的训练样本集S输入所述多尺度空间特征提取模块中，并经过所述第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列第二空间特征序列第三空间特征序列其中，F_t ¹表示第一空间特征序列F¹中第t帧特征图，F_t ²表示第二空间特征序列F²中第t帧特征图，F_t ³表示第三空间特征序列F³中第t帧特征图；

步骤2.2、所述多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列，再由卷积长短期记忆层完成多尺度时间建模；

步骤2.2.1、将所述第一空间特征序列F¹、第二空间特征序列F²、第三空间特征序列F³的初始时间长度均设为T；

在时间尺度上，分别以第一采样间隔d₁对第一初始空间特征序列F¹、以第二采样间隔d₂对第二初始空间特征序列F²、以第三采样间隔d₃对第三初始空间特征序列F³进行均匀采样，从而得到三个时间长度的第一时空特征序列SF¹、第二时空特征序列SF²、第三时空特征序列SF³；

步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF¹、第二时空特征序列SF²、第三时空特征序列SF³进行时间建模，并以所述卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态H_T作为特征输出，从而得到第T帧的第一时空信息特征图第T帧的第二时空信息特征图第T帧的第三时空信息特征图

步骤2.3、基于多尺度特征融合模块的特征融合；

步骤2.3.1、将第T帧的第一时空信息特征图经上采样层放大两倍后与第T帧的第二时空信息特征图特征图连接，得到第T帧连接后的两个尺度的时空特征融合图；

步骤2.3.2、将第T帧连接后的两个尺度的时空特征融合图经上采样层放大两倍后与第T帧的第三时空信息特征图连接，得到第T帧连接后的三个尺度的时空特征融合图；

步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后，通过另一层卷积层处理后，得到第T帧的得分特征图并输入给sigmoid层，从而得到第T帧前景概率图P_T；

步骤3、对初始多级时空运动目标检测模型进行离线训练，从而得到最优多级时空运动目标检测模型：

采用式(1)计算第T帧前景概率图P_T与像素级标签G_T之间的焦点损失值Loss，并使用自适应矩估计优化方法以学习率l_rate来更新网络权值，并在损失值Loss趋于稳定时完成离线训练；

式(1)中，K是一帧图像的总像素数，P_T(k)为第T帧前景概率图P_T中第k个像素是前景的概率值，G_T(k)为第T帧前景概率图P_T所对应的像素级标签中第k个像素的真实值，γ是可调焦距参数，a是权重因子；

步骤4、利用所述最优多级时空运动目标检测模型对任一短视频序列进行预测，得到预测的第T帧前景概率图；

将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较，并将大于阈值M的所有像素值设为前景，其余像素值设为背景，从而完成二值化阈值分割处理，并得到运动目标分割结果。

与已有技术相比，本发明的有益效果体现在：

1、本发明通过构建多尺度时空网络，从输入短视频序列中提取有效的多尺度时空特征，并从这些特征中提取出像素级前景目标分割结果，解决了现有运动目标检测技术鲁棒性差，提取的特征不够完整等问题，实现了视频中前景目标的自动检测，且不需要任何复杂的后处理模块，降低了检测的复杂度。

2、本发明能够实现端到端的训练和预测，与传统的背景算法相比，端到端的结构能将复杂的背景建模及更行过程简化成一个简单的像素级分类过程，不需要手工制作复杂的视觉特征，通过训练使网络具有时空特征提取能力。

3、本发明通过融合不同尺度的空间信息，能有效减轻因池化层导致的特征信息的损失，获得丰富的细节场景信息，进而加强了网络对小尺度前景目标和局部边缘的敏感性，最终提高了前景目标分割的精度。

4、本发明利用时间采样生成不同尺度的时空特征序列，通过ConvLSTM对时空特征序列进行时间上的多尺度时间建模，学习时间信息，使模型能有效地处理空间(颜色、纹理等)特征严重丢失的视频场景，且提高了不同运动速率的前景目标的检测精度。

附图说明

图1为本发明方法流程示意图；

图2为本发明多级时空神经网络的结构图；

图3a为本发明测试集中部分短视频序列中第T帧图像；

图3b为本发明测试集中部分短视频序列中第T帧图像所对应的Groundtruth图像；

图3c为本发明使用多尺度时空网络得到的二值化分割图像。

具体实施方式

本实施例中，一种基于深度学习的多尺度时空运动目标检测方法，主要是利用卷积神经网络(CNN)和卷积长短期记忆网络(ConvLSTM)提取视频序列中的多尺度时空特征，并通过融合多尺度时空特征生成前景分割图，如图1所示，具体步骤如下：

步骤1、获取带有像素级标签的视频数据集并进行分割，得到N个T帧的短视频序列并进行归一化处理，得到归一化的训练样本集记为S＝{S₁,S₂,...,S_n,...,S_N}；S_n表示第n个归一化后的短视频序列，且表示第n个归一化后的短视频序列S_n中第t帧图像；n＝1,2,...,N；t＝1,2,...,T；本实施例利用公开的视频数据集CDnet2014做训练和测试，其包含了多种挑战性的视频场景，包括：动态背景、阴影、恶劣天气、低帧率、相机运动、间歇性物体运动、湍流；将数据集CDnet2014的70％用于训练，其余30％用于测试；如图3a所示，为测试集中部分短视频序列中第T帧图像；如图3b所示，为测试集中部分短视频序列中第T帧图像所对应的标签图像。

在本实验测试中，短视频序列的时间长度T取14，但不局限于此取值。

步骤2、建立多尺度时空网络模型，多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间提取模块和多尺度特征融合模块组成；

步骤2.1、权值初始化：

令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值，使卷积核满足均匀分布c_in、c_out分别为卷积核所在层的输入维度和输出维度；

令三个卷积长短期记忆网络层ConvLSTM使用高斯分布N(0,0.01)进行初始化权值，卷积核尺寸为3×3，个数为128；

令上采样层通过反卷积实现，反卷积核尺寸为3×3，个数为128，步长为2，使用双线性插值初始化，且反卷积核是可训练的。

步骤2.2、如图2左半部分所示，多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络，依次包括：第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3；利用的全卷积神经网络逐层提取的深度空间特征，比传统的颜色、纹理、梯度等低级视觉特征具有更好的语义表达能力及抗噪能力；

将归一化的训练样本集S输入多尺度空间特征提取模块中，并经过第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列第二空间特征序列第三空间特征序列其中，F_t ¹表示第一空间特征序列F¹中第t帧特征图，F_t ²表示第二空间特征序列F²中第t帧特征图，F_t ³表示第三空间特征序列F³中第t帧特征图；F_t ¹、F_t ²、F_t ³尺寸分别是输入帧I_t的1/2、1/4、1/8，包含了不同的空间尺度的信息，既可以表达输入视频帧深度语义信息，又可以保留其细节信息；

步骤2.2、如图2中间部分所示，多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列，再由卷积长短期记忆层完成多尺度时间建模；

步骤2.2.1、将第一空间特征序列F¹、第二空间特征序列F²、第三空间特征序列F³的初始时间长度均设为T；

在时间尺度上，分别以第一采样间隔d₁对第一空间特征序列F¹、以第二采样间隔d₂对第二空间特征序列F²、以第三采样间隔d₃对第三空间特征序列F³进行均匀采样，从而得到三个时间长度的第一时空特征序列SF¹、第二时空特征序列SF²、第三时空特征序列SF³；

步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF¹、第二时空特征序列SF²、第三时空特征序列SF³进行时间建模，并以卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态H_T作为特征输出，从而得到第T帧的第一时空信息特征图第T帧的第二时空信息特征图第T帧的第三时空信息特征图

本实例中，d₁、d₂、d₃的值分别取1，2，3，但不局限于此取值；由于采样间隔不同，经采样得到的时空特征序列SF¹、SF²、SF³包含了不同尺度的时空信息，对SF¹、SF²、SF³进行时间建模以学习多尺度时间信息；

步骤2.3、如图2右半部分所示，基于多尺度特征融合模块进行特征融合处理，从而得到初始多级时空运动目标检测模型；

由于尺寸不同，两个特征图连接之前，需要将尺寸小的特征图进行放上采样放大，使两个特征图的尺寸一致；

步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后，通过另一个卷积核尺寸为1×1的1通道卷积层处理后，得到第T帧的得分特征图并输入给sigmoid层，从而得到第T帧前景概率图P_T；

采用式(1)计算第T帧前景概率图P_T与像素级标签G_T之间的焦点损失值Loss，并使用自适应矩估计优化方法以学习率l_rate来更新网络权值，为了防止陷入局部最优解，在训练过程中对学习速率l_rate进行线性衰减，使损失值Loss不断减小直至稳定，完成离线训练；

式(1)中，K是一帧图像的总像素数，P_T(k)为第T帧前景概率图P_T第k个像素是前景的概率值，G_T(k)为P_T所对应像素级标签第k个像素的真实值，γ是可调焦距参数，a是权重因子。α，1-α能平衡背景和前景的重要性；(1-P_T(n))^γ，P_T(n)^γ组成的调制因子，能够进一步减少易分类背景像素的损失贡献，增加难分类前景像素的损失贡献。

本实例中，学习率l_rate初始值设置为5e-5，权重因子α，可调焦距γ分别设置为0.5，2；

步骤4、利用最优多级时空运动目标检测模型对任一短视频序列进行预测，得到预测的第T帧前景概率图；

将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较，并将大于阈值M的所有像素值设为前景，其余像素值设为背景，从而完成二值化阈值分割处理，并得到运动目标分割结果；本实例中，阈值M设置为0.5。如图3c所示，为本发明使用多尺度时空网络预测得到的二值化分割图像；将图3c中的分割图像与图3b中对应的标签图像进行比较，可以看出，本发明方法对运动目标的分割结果非常接近标签图像，运动目标与背景具有清晰的边缘轮廓，且精确地保留了不同尺寸的运动目标的细节信息。

Claims

1.一种基于深度学习的多级时空运动目标检测方法，其特征是按如下步骤进行：

步骤2.1、权值初始化：

步骤2.3、基于多尺度特征融合模块的特征融合；