CN111832393A

CN111832393A - 一种基于深度学习的视频目标检测方法与装置

Info

Publication number: CN111832393A
Application number: CN202010471931.5A
Authority: CN
Inventors: 杨鹏; 闵克祥; 何大治; 纪雯
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-10-27
Anticipated expiration: 2040-05-29
Also published as: CN111832393B

Abstract

本发明公开了一种基于深度学习的视频目标检测方法与装置。本发明在提取帧图像特征后，利用改进的SeqtoSeq模型提取视频中的时序信息，并利用该信息提高帧图像的特征质量，在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后，对视频中的目标关系进行建模，从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系，并通过目标关系对候选框特征进行重新编码，以此丰富候选框的特征表示。本发明不仅能够提高视频目标检测的检测精度，同时还具有优良的鲁棒性。

Description

一种基于深度学习的视频目标检测方法与装置

技术领域

本发明涉及一种基于深度学习的视频目标检测方法与装置，利用视频中的时序信息对视频帧特征进行优化，通过目标关系对候选框特征进行重新编码，能够有效提高视频目标检测算法的检测性能和鲁棒性，属于计算机视觉处理技术领域。

背景技术

随着计算机技术的进步和互联网技术的发展，计算机已经为人们处理生活中大量的图片和视频音像信息。计算机视觉已经在无人驾驶、人脸识别、医学图像处理等应用场景得到了广泛的应用。而在这些应用场景中，如智慧交通系统，无人驾驶等需要利用目标检测技术发现视频监控中出现的目标。因此，基于视频的目标检测的研究有着更大的应用需求。

传统的视频目标检测算法主要分为两种：基于光流的视频目标检测算法和基于tubelet(候选框序列)的视频目标检测算法。基于光流的视频目标检测算法有DFF、FGFA、HPVD等。基于光流的视频目标检测算法利用视频帧之间的光流图，将前后若干帧图像的特征用来提升当前帧图像的特征质量。虽然这类算法能在一定程度上缓解视频帧图像恶化等问题，但是如果想要得到较高的检测精度，需要对前后大量的帧图像进行处理，将增加神经网络中的参数量。基于tubele的视频目标检测算法包括Seq-NMS、TCN、T-CNN等，基于光流的视频目标检测算法首先利用图像目标检测器检测每帧图像，然后通过不同的方法连接相邻帧图像中同一目标的候选框并生成tubelet，最后对tubelet中的候选框重新评分，以此优化每帧的检测结果。虽然这类算法在一定程度上减少了神经网络的计算量，但是难以克服长时期遮挡等帧图像恶化问题。

深度学习是计算机视觉领域一个新的重要研究方向。其基本原理是通过采用多个变换阶段对样本数据的特征进行描述，进而得到数据的特征表示。以图像为例，深度学习通过组合低层次的样本图像特征，进而形成更加抽象的图像高层表示或特征属性。目前深度学习已经在模式识别、语音识别、图像分类等应用中取得了令人瞩目的成就。应用于视频目标检测领域中，深度学习中的循环神经网络模型能够有效处理序列特征，可以充分捕捉到潜藏在视频帧序列中的时序信息，对视频目标检测的检测性能有着极大的提升。因此，将深度学习应用到视频目标检测领域以解决传统方法难以克服的目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低的问题，是本发明的主要研究课题。

发明内容

发明目的：针对现有技术中存在的问题和不足，本发明提供一种基于深度学习的视频目标检测方法与装置，充分利用视频中的时序信息以及视频中目标间的语义关系，有效提高视频目标检测算法的鲁棒性和检测精度。

技术方案：为实现上述发明目的，本发明所提出的一种基于深度学习的视频目标检测方法，该方法首先利用视频中的时序信息对视频帧特征进行优化，有效改善因帧图像恶化而导致的检测精度下降问题，提高了视频目标检测算法的鲁棒性，然后对视频中的目标关系进行建模，并通过目标关系对候选框特征进行重新编码，以此丰富候选框的特征表示，提高模型对视频中目标的检测能力。该方法主要包括如下步骤：

(1)利用深度卷积神经网络提取视频帧图像的CNN特征；

(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化；所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程，以SeqtoSeq作为基础模型并增加了时空注意力机制，提取视频中丰富的时序信息以提高视频帧的特征质量；

(3)利用视频目标关系提取模块对候选框特征进行重新编码；所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框，对目标关系进行建模，计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布，从而挖掘目标之间潜藏的语义关系，并利用目标关系对候选框的特征进行重新编码，丰富候选框的特征表示；

(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的精确位置。

作为优选，所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器，以ConvLSTM作为解码器；BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合，而是先对特征图进行空间对齐；对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图，然后利用双线性插值函数，将隐藏层输出沿着光流方向传播到帧图像特征。

作为优选，所述步骤(2)中时空注意力机制的实现过程包括：首先将编码器的各个单元与解码器中的单元进行匹配，并计算编码器的各个单元对解码器中单元的影响力；然后对各个影响力利用softmax函数进行运算，得到注意力权重分布；最后对注意力权重分布进行加权求和得到注意力特征；其中在对编码器单元和解码器单元进行匹配时，同时匹配两个单元的视觉特征和时间特征，视觉特征影响力vision_i,j和时间特征影响力time_i,j分别通过如下公式计算得到：

vision_i,j＝V_i,j·ReLU(W_h·[h_i,s_j-1])

其中，h_i表示编码器中第i个单元的隐藏层输出；s_j-1表示解码器中第j-1个单元的隐藏层输出；V_i,j和W_h为卷积核；·表示卷积操作；ReLU表示ReLU函数；vision_ij为标量；T为视频帧数量；ε_i,j为时间特征参数。

作为优选，所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框，将优化后的帧特征输入到RPN网络用于产生区域建议集合，再将区域建议集合输入到ROIPooling层中获得候选框特征集合。

作为优选，所述步骤(3)中目标j对目标i的视觉特征影响力

位置特征影响力

和时序特征影响力

通过如下公式计算得到：

其中，

分别为目标i和目标j的视觉特征；

分别为目标i和目标j的位置特征；

分别为目标i和目标j的时间特征；

表示将

和

变换为4维向量后编码为一个高维表示；W_K，W_Q为视觉特征的参数；d_k为视觉特征的维度；W_G为位置特征的参数；W_T为时间特征的参数；dot表示矩阵点乘；*表示矩阵叉乘。

作为优选，所述步骤(3)中目标j对目标i的关系特征

为：

其中，W_v为关系特征参数矩阵；ω^i,j为归一化得到注意力权重分布，根据如下公式计算：

其中，N表示目标个数。

作为优选，所述步骤(3)中利用目标关系对候选框的特征进行重新编码的方法为：根据如下公式将所有其他目标对于目标i的关系特征进行拼接，并与目标i的视觉特征

进行特征融合得到特征

完成对目标i的特征的重新编码：

基于相同的发明构思，本发明提供的一种基于深度学习的视频目标检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。

基于相同的发明构思，本发明还提供一种存储装置，存储有可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。

有益效果：与现有技术相比，本发明具有如下优点：

1.本发明利用视频帧特征增强模块提取视频中丰富的时序信息以提高视频帧的特征质量，能够有效改善因目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化而导致的检测精度下降问题，提高视频目标检测算法的鲁棒性。

2.本发明视频目标关系提取模块挖掘目标之间潜藏的语义关系，并利用目标关系对候选框的特征进行重新编码，丰富候选框的特征表示。提高了视频目标检测算法的检测精度。

附图说明

图1为本发明基于深度学习的视频目标检测方法流程图。

图2为本发明涉及的视频帧特征增强模块结构图。

图3为本发明涉及的视频帧特征增强模块中Attention机制结构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的一种基于深度学习的视频目标检测方法，具体实施步骤如下：

步骤1，利用深度卷积神经网络抽取视频帧特征。首先将视频段中每一帧RGB三通道图像进行缩放后，固定其大小为300×300，然后将缩放后的帧图像输入到VGG-19模型中获得帧图像的特征。由于在VGG-19模型中，随着卷积层的增加，特征图中物体的特征变得越来越抽象。因此本发明选择将VGG-19的最后一个最大池化层输出作为视频帧图像的CNN特征。

步骤2，对恶化的帧图像特征利用视频特征增强模块进行特征增强。如图2所示，视频特征增强模块以SeqtoSeq作为基础模型，改进其结构，其中编码器为BiConvLSTM结构，根据输入的特征序列提取其时序信息，解码器为ConvLSTM结构，根据提取到的时序信息生成优化的帧特征。此外，视频特征增强模块还增加了时空注意力机制，通过为每个输入分配不同的注意力，提高编解码模块的帧图像特征的增强效果。该步骤实施过程分为2个子步骤：

子步骤2-1，将每帧图像的特征输入到BiConvLSTM中获得时序特征。BiConvLSTM包括正向ConvLSTM和反向ConvLSTM两部分，其中正向ConvLSTM收集前向时序信息，而反向ConvLSTM收集反向时序信息，将前后时序信息进行融合后得到时序特征。在视频帧特征序列中，不同时刻的两张特征图中的物体可能存在不同程度的位移。因此，如果利用线性聚合的方式叠加两个特征图，在叠加后的特征图中可能会显示出一条显著的轨迹，导致检测效果的降低。以正向ConvLSTM为例，在正向ConvLSTM中，对于前一个单元的隐藏层输出

与输入的帧图像特征并不能直接进行简单的线性聚合，而是需要先对特征图进行空间对齐。具体步骤如下：

1)对给定t时刻的帧图像特征f^<t>和前一时刻隐藏层输出

通过如下所示的公式(1)计算光流场。

其中，FlowNet为光流网络，本发明采用FlowNet2.0。

2)将隐藏层

输出沿着光流方向，通过公式(2)所示的扭曲函数，扭曲到t时刻的帧特征。

其中，Wrap为双线性插值函数。该函数对特征图的每一个通道使用双线性插值，找到每个像素对齐后对应的像素值；

为对齐后t-1时刻的隐藏层输出特征。

3)将1时刻到n时刻的帧序列特征集合，输入到公式(3)～(8)进行正向计算，同时保存每个时刻的正向ConvLSTM的正向隐含层输出。

其中，

为t-1时刻经过光流图对齐后的隐藏层输出；f^<t>为t时刻的输入特征；

分别为遗忘门、输入门、输出门、候选细胞信息的参数(卷积核)；

分别表示正向ConvLSTM的遗忘门、输入门、输出门、候选细胞信息、当前细胞信息、隐藏层输出；·表示卷积操作；·表示元素乘法。

4)将n时刻到1时刻的帧序列特征集合，输入到公式(9)～(14)中进行反向计算，同时保存每个时刻的反向ConvLSTM的反向隐含层的输出。

其中，

为t+1时刻经过光流图对齐后的隐藏层输出；f^<t>为t时刻的输入特征；

分别表示反向ConvLSTM的遗忘门、输入门、输出门、候选细胞信息、当前细胞信息、隐藏层输出。

5)将正向LSTM在t时刻的隐藏层输出特征

和反向LSTM在t时刻的隐藏层输出特征

输入到公式(15)，进行特征图的空间对齐和卷积操作，获得最终的t时刻隐藏层输出h_t。

子步骤2-2，将每个时刻的时序特征输入到ConvLSTM解码器中获得各个时刻优化后的帧图像特征。传统的编码器以视频中各个帧图像的特征作为输入，学习前后各帧的时序信息后，分别生成各个时刻的隐藏层输出，并将隐藏层输出融合后生成一个维度固定的稠密特征C(最后一个隐藏层输出)。解码器将以稠密特征C作为初始状态，重新生成特征质量较强的特征序列。在这样的编解码的过程中，如果仅用一个稠密向量C，并不能完全表示所有帧的时序信息。并且在解码器生成的特征序列中，每个特征都仅和编码器的最后一个隐藏层输出状态有关。这意味着编码器输入的每帧特征对解码器生成任意一个特征的影响力相同。这显然并不合理，例如，编码器的第i帧的前后帧特征，相比于其他帧特征，对解码器的第i帧特征的生成影响更大。因此，本发明在编码器中加入了时空注意力机制，通过为每个输入分配不同的注意力，提高编解码模块的帧图像特征的增强效果。该步骤实施过程分为5个子步骤：

1)如图3所示，首先根据公式(16)计算编码器中第i个单元对解码器中第j个单元的视觉特征影响力vision_i,j。

vision_i,j＝V_i,j·ReLU(W_h·[h_i,s_j-1]) (16)

其中，h_i表示编码器中第i个单元的隐藏层输出；s_j-1表示解码器中第j-1个单元的隐藏层输出；V_i,j和W_h都为卷积核；vision_ij为标量；ReLU表示ReLU函数。

2)根据公式(17)计算编码器中第i个单元对解码器中第j个单元的时间特征的影响力time_i,j。

其中，T为视频帧数量；ε_i,j为时间特征参数。

3)根据公式(18)对视觉特征影响力和时间特征影响力进行归一化计算，可以获得编码器中第i个单元对解码器中第j个单元的注意力权重分布a_i,j。

4)将编码器中每个单元对解码器中第j个单元的注意力权重与编码器中第i个单元的隐藏层输出h_i，输入到公式(19)中进行加权求和得到解码器中第j个单元的注意力特征a_j。

5)将解码器中各个单元的注意力特征输入到公式(20)和公式(21)中，可以分别计算出解码器中各个单元的隐藏层输出和输出特征。

s_j＝ReLU(W_s·[s_j-1,y_j-1,a_j]) (20)

y_j＝ReLU(W_y·[y_j-1,s_j,a_j]) (21)

其中，s_j为解码器中第j个单元的隐藏层输出；W_s和W_y为卷积核参数；y_j为解码器中第j个单元的输出特征，即第j帧优化后的特征。

步骤3，候选框特征提取；首先将优化后的帧特征输入到FasterR-CNN模型的RPN网络中得到区域建议集合；其次设置阈值剔除置信度较低的区域建议，减少区域建议的数目；然后通过非极大抑制的方法进一步减少区域建议的数目；最后将剩余的区域建议集合和优化后的帧特征一起输入到ROIPooling层得到固定大小(7×7)的候选框特征集合。

步骤4，提取目标关系，并利用目标关系对候选框的特征进行重新编码。视频中包含大量的目标对象，这些目标对象之间蕴含着丰富的语义关系，如果能够充分抽取出这些目标关系，将有助于提升目标检测的检测效果。例如，视频中出现一名篮球运动员正在作投篮动作，篮球与篮球运动员之间的空间位置关系以及隐含的语义关系，可以帮助模型根据篮球运动员的类别和位置，推断出篮球的类别以及空间位置。因此，本发明对于候选框特征并没有立刻进行分类和回归，而是对视频中的目标关系进行建模，构建了视频目标关系提取模块，挖掘出视频中目标之间潜藏的语义关系，利用视频目标之间的关系对候选框特征进行特征编码，实现目标检测算法性能的提升。

视频目标关系提取模块的基本思想是使用Attention机制为不同目标与本目标的关系分配不同的注意力，并通过将所有的目标关系进行加权实现特征的重新编码。具体的，以计算候选框(目标)i的编码后的特征为例，首先根据目标的特征计算各个目标的视觉特征。其次根据各个目标的视觉特征、位置特征、时序特征计算各个目标对目标i的视觉特征影响力、位置特征影响力以及时序特征影响力，并将三种影响力归一化得到各个目标对目标i的注意力权重分布。最后根据注意力权重分布计算各个目标对目标i的关系特征，并将各个关系特征连接后与目标i的视觉特征进行特征融合可以计算出目标重新编码后的特征。为了避免目标关系过多导致网络计算量过大，本发明每次仅对当前目标所在帧图像的前后10帧图像提取目标关系特征。该步骤实施过程分为3个子步骤：

子步骤4-1，提取目标的视觉特征；通过128个7×7的卷积核将各个目标特征转换成128维特征向量，并将该特征向量输入到256维全连接层中获得各个目标的视觉特征。

子步骤4-2，将视频中目标i和目标j的视觉特征、位置特征(ROIPooling计算得到)、时序特征(目标所在帧序号)分别输入到公式(22)～(24)中获得目标j对目标i的视觉特征影响力

位置特征影响力

和时序特征影响力

其中，

分别为目标i和目标j的视觉特征；

分别为目标i和目标j的位置特征；

分别为目标i和目标j的时间特征；W_K，W_Q为视觉特征的参数；d_k为视觉特征的维度，用作归一化；W_G为位置特征的参数；W_T为时间特征的参数；

借鉴了文献(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C].Advances inNeural Information Processing Systems.2017:5998-6008.)，先通过公式(25)进行坐标变换，将

和

变换为4维向量f_G，然后根据公式(26)和公式(27)将f_G编码为一个高维表示；dot表示矩阵点乘；*为矩阵叉乘。

其中，x_i和y_i为目标i(候选框)中心点的坐标；w_i和h_i分别为目标i的宽度和高度；x_j和y_j为目标j中心点的坐标；w_j和h_j分别为目标j的宽度和高度。

其中，

表示f_G的第l个特征，

表示

对应高维向量的第2i个特征的值，

表示

对应高维向量的第2i+1个特征的值。

子步骤4-3，将视觉特征影响力

位置特征影响力

以及时序特征影响力

输入到公式(28)中进行归一化得到注意力权重分布ω^i,j。

其中，N表示目标个数。

子步骤4-4，将注意力权重分布ω^i,j输入到公式(29)中，得到目标j对于目标i的关系特征

其中，W_v为关系特征参数矩阵。

子步骤4-5，根据公式(30)，将所有其他目标对于目标i的关系特征进行拼接，并与目标i的视觉特征进行特征融合可以得到特征

完成对目标i的特征的重新编码。

步骤5，对每个目标进行分类和回归；分类器采用softmax函数，该分类器以目标的视觉特征作为输入，输出该目标类别的概率向量，回归器采用bounding box regression，该回归器以目标的位置特征作为输入，输出该目标的精确位置。首先将目标重编码后特征输入到softmax函数中计算每个目标具体属于哪个类别(如车，人等)，并输出概率向量。然后对目标的检测框进行bounding box regression，获取更高精度的检测框。最后对于帧图像中存在的且能够检测出的目标使用矩形框标出，并标识其对应的类别。

基于相同的发明构思，本发明还提供一种基于深度学习的视频目标检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于深度学习的视频目标检测方法。

基于相同的发明构思，本发明还提供一种存储装置，存储有可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于深度学习的视频目标检测方法。

Claims

1.一种基于深度学习的视频目标检测方法，其特征在于，包括如下步骤：

(1)利用深度卷积神经网络提取视频帧图像的CNN特征；

(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化；所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程，以SeqtoSeq作为基础模型并增加了时空注意力机制，提取视频中的时序信息以提高视频帧的特征质量；

(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。

2.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于，所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器，以ConvLSTM作为解码器；BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合，而是先对特征图进行空间对齐；对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图，然后利用双线性插值函数，将隐藏层输出沿着光流方向传播到帧图像特征。

3.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于，所述步骤(2)中时空注意力机制的实现过程包括：首先将编码器的各个单元与解码器中的单元进行匹配，并计算编码器的各个单元对解码器中单元的影响力；然后对各个影响力利用softmax函数进行运算，得到注意力权重分布；最后对注意力权重分布进行加权求和得到注意力特征；其中在对编码器单元和解码器单元进行匹配时，同时匹配两个单元的视觉特征和时间特征，视觉特征影响力vision_i，j和时间特征影响力time_i，j分别通过如下公式计算得到：

vision_i，j＝V_i，j·ReLU(W_h·[h_i，s_j-1])