CN110853074B

CN110853074B - 一种利用光流增强目标的视频目标检测网络系统

Info

Publication number: CN110853074B
Application number: CN201910953256.7A
Authority: CN
Inventors: 张涛; 杜文丽; 樊龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2023-06-27
Anticipated expiration: 2039-10-09
Also published as: CN110853074A

Abstract

一种利用光流增强目标的视频目标检测网络系统，包括：分组模块，用于将接收的视频序列进行分组，每组具有N帧连续的视频图像；光流估计模块，接收分组模块的一组视频图像，输出N－1张光流特征图；光流特征聚合模块，接收N－1张光流特征图，输出融合的图像；目标增强模块，接收融合的图像输出目标图像；特征提取模块，接收目标图像，输出目标图像特征；目标检测模块，接收目标图像特征，输出检测结果。本发明减少了光流信息的重复计算，有效减少了计算复杂度，减少了目标检测所需时间，提高了目标检测的速度。本发明使得目标检测网络更多地聚焦前景目标，有效的提高了对象检测性能和场景迁移性能。

Description

一种利用光流增强目标的视频目标检测网络系统

技术领域

本发明涉及一种视频目标检测网络。特别是涉及一种利用光流增强目标的视频目标检测网络系统。

背景技术

近几年计算机视觉在物体检测方面取得了重大的进展。其中，典型的目标检测网络有R-CNN和R-FCN等两阶段网络结构，SSD和YOLO等单阶段网络结构。最近，视频目标检测也逐渐进入人们的视线，并且在自动驾驶，智能医疗，交通场景视觉监控方面有重要意义。对于视频目标检测最简单的方法是采用传统的图像检测器对每帧视频图像进行检测，但是直接使用图像检测器对视频帧进行检测并不能达到理想的检测效果。

对于静止图像，目标检测是指找出图像中所有感兴趣的物体，确定他们的位置和大小；对于视频序列，目标检测是指从包含运动目标的视频序列中检测、识别并跟踪目标，即从序列图像中将运动目标提取出来。在视频目标检测的过程中，准确反应视频中目标特征的特征图对于提高检测精度至关重要。因此，提取有效特征图是目标检测中的关键技术。但是在视频目标检测过程中，单帧图像极易产生目标的运动模糊，目标遮挡等问题，使得提取出的特征不能准确反映出目标特征，从而使得检测精度大幅度下降，进而降低整个网络的检测性能。随着光流概念的提出，相邻视频帧之间的帧间信息在视频目标检测中得以充分利用。考虑到视频序列中相邻帧的时间相关性，利用帧间信息获取目标的光流特征成为提高视频目标检测性能的有效技术，因此，光流估计成为研究相邻帧之间物体运动信息的关键。光流估计把空间中运动场转移到图像上的光流场，反映了图像上每一点的灰度变化趋势。基于光流法的运动目标检测方法可充分利用视频帧间的目标运动信息，估计当前帧中目标的位置，增强当前帧中的目标，使其通过特征提取网络后可提出更为有效的目标特征，有效解决了单帧图像中目标的运动模糊和遮挡问题，提高了检测精度。

FlowNet和FlowNet2为使用卷积神经预测光流场奠定了基础。FlowNet网络利用卷积层提取相邻帧中的目标特征并进行编码，利用预测的光流和对应编码模块中的特征层及前一层的输出进行解码。整个网络结构类似于全卷积网络。FlowNet2在FlowNet的基础上增加了更多的训练数据，使用更加复杂的训练策略，采用结构堆叠方式，并且解决了对小位移运动估计差的缺点。

发明内容

本发明所要解决的技术问题是，提供一种通过光流特征聚合和目标增强来掩蔽当前帧中的背景信息进而提高目标检测精度的利用光流增强目标的视频目标检测网络系统。

本发明所采用的技术方案是：一种利用光流增强目标的视频目标检测网络系统，包括：

分组模块，用于将接收的视频序列进行分组，每组具有N帧连续的视频图像；

光流估计模块，接收分组模块的一组视频图像，分别对该组视频图像中每相邻两帧的视频图像进行光流估计，得到N-1张光流特征图；

光流特征聚合模块，将光流估计模块输出的N-1张光流特征图进行聚合，得到融合的图像；

目标增强模块，用于将光流特征聚合模块输出的融合的图像对分组模块输出给光流估计模块的一组视频图像进行目标增强，得到目标图像；

特征提取模块，用于提取目标增强模块输出的目标图像的特征，得到目标图像特征；

目标检测模块，用于对特征提取模块输出的目标图像特征进行目标检测，最终得到检测结果。

本发明的一种利用光流增强目标的视频目标检测网络系统，通过对视频序列进行分组的方式，减少了光流信息的重复计算，有效减少了计算复杂度，减少了目标检测所需时间，提高了目标检测的速度。同时本发明结合光流法及卷积神经网络来提取高层次、表达能力更好的光流特征，有效利用了时间相关性来减少运动模糊和遮挡对视频目标检测的影响，进而提高系统检测性能。此外，本发明通过光流特征聚合和目标增强来掩蔽当前帧中的背景信息，使得目标检测网络更多地聚焦前景目标，有效的提高了对象检测性能和场景迁移性能。

附图说明

图1是本发明一种利用光流增强目标的视频目标检测网络系统的框图。

具体实施方式

下面结合实施例和附图对本发明的一种利用光流增强目标的视频目标检测网络系统做出详细说明。

如图1所示，本发明的一种利用光流增强目标的视频目标检测网络系统，包括：依次串联的分组模块1、光流估计模块2、光流特征聚合模块3、目标增强模块4、特征提取模块5和目标检测模块6。其中，

分组模块1，用于将接收的视频序列进行分组，每组具有N帧连续的视频图像；所述的分组模块1，是对输入的视频序列进行分组处理，设每连续N帧图像为一组，则t时刻选取的连续N帧视频序列为{I(t-1)，...I(t+N-2)}。

光流估计模块2，接收分组模块1的一组视频图像，分别对该组视频图像中每相邻两帧的视频图像进行光流估计，得到N-1张光流特征图；所述的光流估计模块2，包括有N-1个LiteFlowNet光流网络，每个LiteFlowNet光流网络对一对相邻两帧的视频图像进行光流估计，得到一张光流特征图：

f(t)＝F(I(t-1)，I(t))

其中，F表示LiteFlowNet光流网络，I(t)为t时刻的视频图像，N-1个LiteFlowNet网络共得到N-1张光流特征图{f(t)，f(t+1)...f(t+N-2)}。

光流特征聚合模块3，将光流估计模块2输出的N-1张光流特征图进行聚合，得到融合的图像；所述的光流特征聚合模块3中采用不同的权重系数w_i来聚合N-1张光流特征图，采用高斯函数随机生成N-1个权重，但权重大小取决于光流特征图与当前帧的距离。所以，距离当前视频图像最近的光流特征图分配最大的权重，光流特征聚合模块的融合过程为：

其中：

表示融合后的光流图像，f(m)表示m时刻的光流特征图。

通过光流特征图融合，融合后的光流图像具有当前组的所有光流特征，因此，得到的

即为图1中的融合的图像，可以很好的表现当前组中任意帧的光流特征。其中，光流图中的高响应区域即为目标可能存在区域，从图中可以看到目标区域的像素响应值较大。

目标增强模块4，用于将光流特征聚合模块3输出的融合的图像对分组模块1输出给光流估计模块2的一组视频图像进行目标增强，得到目标图像。在获得融合后的特征图后，利用融合图像目标区域的像素值响应较大的优点来对当前视频图像做目标增强。所述的目标增强模块4包括：

首先是将分组模块1输出的每一帧视频图像分别转为灰度图像，对所述每一张灰度图像的平均值和利用最大类间方差法得到的所述每一张灰度图像的阈值求取平均值作为该图像二值化的阈值，对每一帧视频图像进行二值化的处理，处理公式如下：

I_binary＝B(Gray_I(t)，f_I(t))

其中：Gray_I(t)是t时刻视频图像的灰度图像，T_I(t)是图像二值化的阈值，Gray(I(t))表示对t时刻视频图像I(t)进行灰度化处理，其中Gray表示灰度化操作，mean(Gray_I(t))表示对Gray_I(t)取平均值，Otsu(Gray_I(t))表示利用最大类间方差法对Gray_I(t)求取阈值；I_binary表示二值化后的图像，B表示二值化操作；

然后将每一张二值化后的图像与融合的图像相乘得到处理后的灰度图像，来凸显该视频图像中的前景目标信息，掩蔽该视频图像中的背景信息；

最后利用t时刻视频图像的色度分量，将处理后的t时刻的灰度图像还原成彩色图像，得到用于特征提取的t时刻的目标图像，处理过程如下：

其中：inv_Gray代表整合色度信息，将灰度图像转换为彩色图像的过程，

为目标图像，/>

表示融合后的光流图像。

从图1中的目标图像可以看出，该目标增强的方法相当于对当前视频图像进行背景遮罩，过滤背景信息使得前景目标比较突出，这样的图像不仅有利于提高目标检测精度而且有利于场景迁移学习。

特征提取模块5，用于提取目标增强模块4输出的目标图像的特征，得到目标图像特征；目标检测模块6，用于对特征提取模块5输出的目标图像特征进行目标检测，最终得到检测结果。所述的特征提取模块5和目标检测模块6包括：

定义构成特征提取模块的特征提取网络为N_feat，构成目标检测模块的目标检测网络N_det，设最后得到的检测结果为Y(t)，则检测过程为：

其中，

为目标图像，

由于目标图像中的前景信息得到了有效的突出，背景信息被有效地掩蔽，降低了对检测网络的要求。本发明提出的用于训练网络的损失函数如下：

L_conf(x，c)＝(1-β)L_fg(x，c)+βL_bg(x，c)

其中，L_conf(x，c)表示特征提取网络所提取的目标图像特征x对于c类别的置信度损失，c是总的类别数，L_fg(x，c)表示前景目标置信度损失，L_bg(x，c)表示背景目标置信度损失，β表示影响因子，用来约束背景损失；

对于前景目标置信度损失函数和背景目标置信度损失函数均表示为：

其中，x_i，j ^p表示类别为p的第i个目标框与第j个真实框相匹配，

表示类别为q的第i个目标框与第j个真实框相匹配，L(x，c)为置信度损失函数，表示前景目标置信度损失函数或背景目标置信度损失函数。

用该损失函数L(x，c)训练单阶段目标检测网络，通过最小化置信度损失，实现网络的自适应学习，同时借助目标图像的图像特点，使得特征提取更为准确，目标检测精度得到有效提高。

下面给出具体实例：

实例1

为了测试本发明的一种利用光流增强目标的视频目标检测网络系统，本发明实例基于ImageNet VID数据集进行目标检测。该数据集包含30个类别，其中带有真值的训练数据有3862个视频片段，验证数据有555个视频片段以及937个未公开标注的测试视频片段。由于官方对于测试视频数据未公开真值标签，因此实验主要在验证集上做测试，并且将结果作为不同算法性能评定结果。采用平均精度(Mean Average Precision，mAP)作为评估指标。

在网络训练过程分两个阶段进行训练，第一阶段是在Flying Chairs数据集上预训练光流特征提取网络；第二阶段是在ImageNet VID数据集上训练整个网络结构，首先固定第一阶段中光流特征提取网络的参数，然后利用训练好的光流网络提取输入图像的光流特征，对于检测部分网络模型在4块GPU上面迭代10个epoch，学习率设置为10^-3，采用SGD优化算法，在第6和第8个epoch时分别设置学习率为10^-4和10^-5。

将现有的几种先进的目标检测算法与本发明的方法进行比较。采用的光流网络为LiteFlowNet，特征提取网络为ResNet-101，检测网络为SSD。实验结果如表1所示。

表1：不同目标检测方法的准确率对比

TCNN是基于目标框序列的网络结构，相比静态图像检测器在检测性能上有一定的提高，但是这种方式在训练阶段不适用于端到端模式。R-FCN没有利用视频帧间信息，直接利用静态图像检测器进行视频目标检测，达到了70.9％mAP的准确率。DFF和FGFA都采用光流特征融合的方式，DFF采用关键帧的方式，仅需要在稀疏的关键帧计算卷积，并且利用光流场将其深度特征图扩散到其他帧，这种方法计算不但提高视频检测速度，而且采用端到端的训练方式在检测精度也有一定的提高，但是稀疏的传播特征不能很好的反映当前帧目标的实际变化，因此性能比R-FCN差。FGFA采用特征聚合方法，极大改善结果。本发明的方法不但融合视频帧间信息，将帧间的光流特征信息融合，而且将能体现目标的高相应的光流图与原始视频帧作目标增强操作，极大的保留的当前视频帧中目标的特征，对背景像素信息有一定的抑制。实验结果表明所提出算法有效提高了视频目标检测的精度。

实例2

为了对比单帧检测器和本发明的方法，设计主要实验如表2所示，为了验证方法的普适性采用VGG16和ResNet-101两种特征提取网络，在实验中分别对两种网络进行消融研究。

表2：VGG16和ResNet-101及其变体的对比

方法a采用标准的VGG16或者ResNet-101作为特征提取网络，SSD作为目标检测网络，在VGG16特征提取网络下，准确率为70.1％mAP，检测速度约为15fps。在ResNet-101网络框架下检测精度为73.1％mAP，检测速度约为12fps。

方法b是在方法a框架下增加光流特征网络结构组成一个端到端的网络结构，针对前景增强后的视频帧进行目标检测。在方法b中，视频每一帧图像同时经过两个网络，一个是光流特征提取网络，另一个是检测器网络，对于每一帧视频图像首先利用光流网络提取光流特征；然后，利用光流响应图对原始视频帧运算，去除背景信息增强前景目标；最后，利用检测子网络检测每帧结果。对每帧图像提取光流特征然后与原始图片做掩码操作增加了额外的计算开销，降低了整个网络的检测速度。

方法c为本发明的方法，该方法在方法b的基础上采用分组光流特征融合，在方法b中利用光流特征图对原始图像做掩码操作可以提高检测精度，但是在检测速度上面有一定的损失。方法c中利用光流特征融合的方法融合当前组各光流图像特征，产生高响应区域图。最后利用当前组的光流特征图对原始视频帧进行目标增强，在检测时间上面没有显著的增加，实验表明，采用本发明的方法比单帧光流图像检测准确率提高2-5％。

方法d在方法c的基础上不采用端到端训练。方法c中的检测网络是利用光流检测器前景增强后的图像序列做检测。如果不采用端到端的方式训练检测网络模型，与方法a一致，直接用静态图片训练检测器网络，光流网络采用预训练好的LiteFlowNet网络，表2中清楚显示检测性能下降，这体现了端到端训练的重要性。

综合分析以上实验可知，本发明的一种利用光流增强目标的视频目标检测网络系统具有一定的有效性和准确性。

Claims

1.一种利用光流增强目标的视频目标检测网络系统，其特征在于，包括：

分组模块(1)，用于将接收的视频序列进行分组，每组具有N帧连续的视频图像；

光流估计模块(2)，接收分组模块(1)的一组视频图像，分别对该组视频图像中每相邻两帧的视频图像进行光流估计，得到N-1张光流特征图；所述的光流估计模块(2)，包括有N-1个LiteFlowNet光流网络，每个LiteFlowNet光流网络对一对相邻两帧的视频图像进行光流估计，得到一张光流特征图：

f(t)＝F(I(t-1)，I(t))

其中，F表示LiteFlowNet光流网络，I(t)为t时刻的视频图像，N-1个LiteFlowNet网络共得到N-1张光流特征图{f(t)，f(t+1)…f(t+N-2)}；

光流特征聚合模块(3)，将光流估计模块(2)输出的N-1张光流特征图进行聚合，得到融合的图像；

目标增强模块(4)，用于将光流特征聚合模块(3)输出的融合的图像对分组模块(1)输出给光流估计模块(2)的一组视频图像进行目标增强，得到目标图像；

特征提取模块(5)，用于提取目标增强模块(4)输出的目标图像的特征，得到目标图像特征；

目标检测模块(6)，用于对特征提取模块(5)输出的目标图像特征进行目标检测，最终得到检测结果。

2.根据权利要求1所述的一种利用光流增强目标的视频目标检测网络系统，其特征在于，所述的分组模块(1)，是对输入的视频序列进行分组处理，设每连续N帧图像为一组，则t时刻选取的连续N帧视频序列为{I(t-1)，...I(t+N-2)}。

3.根据权利要求1所述的一种利用光流增强目标的视频目标检测网络系统，其特征在于，所述的光流特征聚合模块(3)中采用不同的权重系数w_i来聚合N-1张光流特征图，采用高斯函数随机生成N-1个权重，距离当前视频图像最近的光流特征图分配最大的权重，光流特征聚合模块的融合过程为：

其中：

表示融合后的光流图像，f(m)表示m时刻的光流特征图。

4.根据权利要求1所述的一种利用光流增强目标的视频目标检测网络系统，其特征在于，所述的目标增强模块(4)包括：

首先是将分组模块(1)输出的每一帧视频图像分别转为灰度图像，对所述每一张灰度图像的平均值和利用最大类间方差法得到的所述每一张灰度图像的阈值求取平均值作为该图像二值化的阈值，对每一帧视频图像进行二值化的处理，处理公式如下：

I_binary＝B(Gray_I(t)，T_I(t))

为目标图像，/>

表示融合后的光流图像。

5.根据权利要求1所述的一种利用光流增强目标的视频目标检测网络系统，其特征在于，所述的特征提取模块(5)和目标检测模块(6)包括：

其中，

为目标图像，

用于训练网络的损失函数如下：

L_conf(x，c)＝(1-β)L_fg(x，c)+βL_bg(x，c)

其中，x_i,j ^p表示类别为p的第i个目标框与第j个真实框相匹配，