CN109146925A

CN109146925A - 一种动态场景下显著性目标检测方法

Info

Publication number: CN109146925A
Application number: CN201810968233.9A
Authority: CN
Inventors: 赵雪专; 裴利沈; 李玲玲; 赵中堂; 邵晓艳; 薄树奎; 程秋云; 张少彤; 代占起
Original assignee: Zhengzhou University of Aeronautics
Current assignee: Zhengzhou University of Aeronautics
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-01-04
Anticipated expiration: 2038-08-23
Also published as: CN109146925B

Abstract

本发明提供一种动态场景下显著性目标检测方法，动态场景下显著性目标检测是通过对运动视频中的目标进行运动变化状态分析进行的显著性检测过程。方法主要包括三个步骤：首先，在动态场景中进行运动目标检测，得到场景中所有的运动目标区域。然后，在动态场景中提取图像特征并进行特征级融合，得到图像融合特征向量，基于贝叶斯推理进行视觉注视点检测。最后，结合注视点检测，对检测到的运动目标的显著程度进行估计，生成基于运动目标的动态显著图。本发明很好的解决了摄像机在运动情况下的显著性目标检测问题，能够满足机器视觉系统在动态场景中检测显著性目标的需求，且该方法对环境变化具有较强的适应性。

Description

一种动态场景下显著性目标检测方法

技术领域

本发明属于数字图像处理领域，具体涉及一种动态场景下显著性目标检测方法。

背景技术

在生命科学领域，对人类视觉系统的研究发现，人类具有从复杂场景中选择性的关注重点信息的能力，能够帮助人类快速、准确的处理信息并做出判断。这种人类视觉系统的选择性机制被定义为视觉注意机制，而能够支撑视觉注意机制对场景中信息进行选择的依据被定义为视觉显著性；机器视觉领域的研究者们认为，视觉显著性检测能够有利于提高对海量复杂信息的快速处理能力。据此，基于数字图像的显著性检测研究得以萌芽和发展。

目前显著性检测研究已经成为机器视觉领域一个重要的研究方向，从应用的层面来说，显著性检测可以分为两大方向。第一，图像中视觉注视点的检测；第二，图像中显著性目标区域的检测。视觉注视点的检测是预测图像中能够引起人类视觉关注的点，主要应用于主动视觉、目标跟踪、人机交互、图像设计等领域。显著性目标区域的检测是对图像中区域的显著性估计，能够实现对目标的像素级检测，可以直接应用于目标检测、图像分割，物体识别、图像压缩、目标检索等高级机器视觉任务中；基于图像的显著目标检测在过去的十年中得到了广泛的研究，但是基于视频的显著目标检测的探索较少。尤其是动态场景中，显著性目标检测的性能受到对象或摄像机运动和视频中的外观对比的显著变化的影响。连续帧之间的显著目标的视觉连续性和时间相关性急剧恶化，给显著性目标的完整检测带来了极大挑战；目前主流的动态场景下显著性目标检测方法可以分为三大类：基于统计模型的方法，基于图模型的方法和基于深度神经网络模型的方法。基于统计模型的是比较经典的方法，如背景差分、光流法等。基于图模型的方法一般采用生成框架，首先从帧内外观对比信息或帧间梯度信息中推断出初始显著图，然后进一步结合一些启发式时空模型的能量函数，最终形成显著性图的跨帧一致性约束。近年来，随着深度神经网络模型在静态图像显著目标检测中的应用日益广泛，基于深度神经网络的模型扩展到了视频显著目标检测应用中。其主要思想是通过级联连续帧图像和馈送卷积神经网络的时间连贯性建模。

然而，前两类方法，受限于低级设计特征的使用和能量约束函数的设计，深度神经网络不具有记忆功能，不能很好地表征视频帧在时域中的连续动态演化。现有的动态场景下显著性目标检测方法，对目标的运动和相对运动缺乏明确的补偿，使得难以在保持时间一致性的情况下检测完整的显著性目标。

发明内容

本发明的目的是提供一种动态场景下显著性目标检测方法，本发明很好的解决了摄像机在运动情况下的显著性目标检测问题，能够满足机器视觉系统在动态场景中检测显著性目标的需求，且该方法对环境变化具有较强的适应性。

为了达到上述目的，本发明所采用的技术方案是：一种动态场景下显著性目标检测方法，包括以下步骤：

S1：在动态场景中进行运动目标检测，得到动态场景中所有的运动目标区域的前景图像集合；

S2：在动态场景中提取图像特征并进行特征级融合，得到图像融合特征向量，基于贝叶斯推理进行视觉注视点检测；

S3：结合前景图像集合和融合后得到的视觉注视点对检测到的运动目标区域的显著程度进行度量并生成基于运动目标的动态显著图。

进一步的，所述的步骤S1包括以下步骤：

S11：构造运动模型，首先给出定义，I_j∈IR^m表示动态场景即视频中的第j帧，I_j是含有m个元素的列向量，每一个元素均与图像中的像素点一一对应；D＝[I₁,...,I_j,....,I_n]∈IR^m×n表示帧序列的表征矩阵，n代表帧的个数；转换矩阵表示为τ＝{τ₁,...,τ_j,....,τ_n}；

B∈IR^m×n表示图像的背景矩阵，尺度与D相同；

S∈{0,1}^m×n表示图像的前景矩阵，是一个二值图像，

用P_s(X)表示X到S的正交投影：

表示互补投影，即：

S12：构造能量函数，基于拉普拉斯矩阵的约束方法，针对视频中的每一帧图像的前景矩阵增加约束项，构造如下目标能量函数：

其中，D°τ＝{D₁°τ₁,...,D_j°τ_j,....,D_n°τ_n}，||X||₀表示l₀范数，||X||_*表示核范数，||X||_F表示Frobenius范数；

L_S ⁱ＝E_i-W_i,； (4)

其中，E_i是对角矩阵，F_i＝reshape(S_i), (6)

W_i是关系矩阵，

F_i表示第i帧图像的矩形结构，F_i＝[v₁,...,v_m,....,v_Q]，Q是图像中像素点个数；C_m表示像素点m的邻域；L_S ⁱ表示视频中第i帧图像的前景矩阵所对应的拉普拉斯矩阵；

S13：模型求解，目标能量函数是非凸的且包含三个变量τ、B和S，采用交替算法分别对三个变量进行优化，

在进入循环之前，首先初始化以下为目标能量函数的迭代求解过程，

(1)首先，固定此时，目标能量函数为如下形式：

在每次迭代中，采用一个小的增量Δτ更新τ，线性化为其中表示雅可比矩阵因此，有下列形式：

然后采用加权最小二乘法求解

(2)固定此时，目标能量函数转化为如下形式：

然后采用SOFT-IMPUTE算法求解

(3)固定此时，目标能量函数转化为如下形式：

然后采用图割模型法求解

经过三个变量优化过程的交替执行，即可获得前景矩阵S＝[S₁,...,S_i,...,S_n]，n代表视频的总帧数，从而得到前景图像集合F＝{F₁,...,F_i,...,F_n}。

进一步的，所述的步骤S2包括以下步骤，

S21：特征提取和融合，首先，采用高斯滤波对原始图像进行采样，获取不同尺度的图像，然后在Lab颜色空间，提取所获取图像的颜色特征向量，对于每个像素点可以表示为：v＝[L,a,b]；原始图像中的像素点i对应的不同尺度上的特征可以表示为其中c表示尺度，表示在所有尺度上的特征，k代表尺度总层数；所获取图像的颜色特征可以表示为：I＝[I₁,...,I_i,...,I_N]，N代表像素点的个数；采用主成分分析算法对所获取图像的特征向量进行降维处理，降维后图像的颜色特征向量为I^*＝[I₁ ^*,...,I_i ^*,...,I_N ^*]；

以颜色特征向量为基础，采用局部操作核描述图像的方向特征，则针对不同尺度上像素点i的对应特征为：ID_i ^c＝[IDL_i ^c,IDa_i ^c,IDb_i ^c]，c表示图像所在尺度，因此，基于多个尺度的图像像素点i的方向特征表示为：多个尺度下图像的方向特征可以表示为：ID＝[ID₁,...,ID_i,...,ID_N]；

对多尺度图像的颜色特征向量进行降维处理，降维后图像的颜色特征向量表示为ID^*＝[ID₁ ^*,...,ID_i ^*,...,ID_N ^*]；

组合图像的颜色和方向特征向量，最终得到图像融合特征向量，对于像素点i，其融合特征为整个图像为F＝[F₁,...,F_i,....,F_N]；

S22：基于贝叶斯推理的视觉注视点显著图提取，构造显著性的后验概率表示为：Pr(y_i＝1|F_i,L_i)，L_i表示像素的位置信息，y_i＝1表示此点是显著的，根据贝叶斯准则有如下推导：

Pr(y_i＝1|L_i)在对于所有像素点的值一样，可以忽略，即有：

公式13中的第一项采用核密度估计计算公式如下：表示图像中拥有稀少特征的像素点为显著点，越少越显著，

N代表图像像素总个数，κ表示核密度估计采用高斯核函数，表示如下：

公式13中的第二项P(F_i|y_i＝1)，采用核密度估计的方法计算：

其中核密度估计采用余弦相似度函数：

公式13可以重写为：

S_i即为像素点i处的显著值，显著图可以表示为：

S＝[S₁,...,S_i,....S_M]，M为像素点个数。

进一步的，所述的步骤S3包括以下步骤：

S31：基于运动目标检测得到的前景图像集合F＝{F₁,...,F_i,...,F_n}，则对于每一帧图像均有可能存在多个目标区域，

F_i＝[F_i ¹,...,F_i ^r,...F_i ^Q]，其中Q表示目标的个数，F_i ^r表示第i帧前景图像的第r个目标对应的二值图像；

对于视觉注视点检测得到显著图序列重新定义为：

S＝{S₁,...,S_i,...,S_n}，此处，S_i表示第i帧图像的视觉注视点显著图，

结合上述定义，具体的动态显著图的融合公式如下：

其中，SD_i ^r表示第r个目标图像对应的显著图。w和h表示图像的宽和高。

进而可得到最终的动态显著图：

其中，Q表示目标个数，SD＝{SD₁,...,SD_i,...,SD_n}表示动态显著图序列，n表示视频总帧数。

与现有技术相比，本发明的有益效果是：本发明很好的解决了摄像机在运动情况下的显著性目标检测问题，能够满足机器视觉系统在动态场景中检测显著性目标的需求，且该方法对环境变化具有较强的适应性。

附图说明

图1是本发明在Fukushi数据集上所生成的查准率-查全率曲线；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种动态场景下显著性目标检测方法，包括以下步骤：

以下对本发明进行详细说明：

根据矩阵的低秩表征中连续离群值的属性，结合视频中连续的视频的特征，采用低秩矩阵描述图像序列，通过对连续离群值特征的分析和提取，检测视频中的运动目标。此方法在动态视频中取得了较好的实验效果。

运动区域检测的过程具体包括以下步骤：

S11：构造运动模型，首先给出定义，I_j∈IR^m表示动态场景即视频中的第j帧，I_j是含有m个元素的列向量，每一个元素均与图像中的像素点一一对应；D＝[I₁,...,I_j,....,I_n]∈IR^m×n表示帧序列的表征矩阵，n代表帧的个数；转换矩阵表示为τ＝{τ₁,...,τ_j,....,τ_n}；B∈IR^m×n表示图像的背景矩阵，尺度与D相同；

S∈{0,1}^m×n表示图像的前景矩阵，是一个二值图像，

用P_s(X)表示X到S的正交投影：

表示互补投影，即：

背景序列矩阵B具有稀疏性，矩阵具有稀疏性和连续性。一般情况下，前景目标占整个场景中较少的一部分，前景二值矩阵S中代表目标的点的元素个数较少。实验发现，传统的方法检测到的同一前景目标有时会出现有多个不连续的区域组成，造成目标检测的不完整。分析认为，前景目标区域的连续性同样需要约束。

L_S ⁱ＝E_i-W_i,； (4)

其中，E_i是对角矩阵，F_i＝reshape(S_i), (6)

W_i是关系矩阵，

目标能量函数3-14是非凸的且包含三个变量τ、B和S。显然，对它们进行同时优化非常困难。采用交替算法把优化过程分为三步。把三个变量的优化问题分为为一个参数运动估计问题(变量τ)、一个凸优化问题(变量B)和一个组合优化问题(变量S)。

(1)首先，固定此时，目标能量函数为如下形式：

然后采用加权最小二乘法求解

(2)固定此时，目标能量函数转化为如下形式：

然后采用SOFT-IMPUTE算法求解

(3)固定此时，目标能量函数转化为如下形式：

然后采用图割模型法求解

视觉注视点的检测是对场景中吸引注意的目标区域的模糊的定位，不同于显著性区域检测结果，其显著图直观结果是图像中的离散点。这些离散点标注区域与图像中的目标相对应。主要分为两大步：第一、提取图像特征并进行特征级融合；第二、分别在局部和全局分别进行显著性度量，基于贝叶斯推理计算得到显著图。

视觉注视点检测具体包括以下步骤：

S22：基于贝叶斯推理的显著图提取，构造显著性的后验概率表示为：Pr(y_i＝1|F_i,L_i)，L_i表示像素的位置信息，y_i＝1表示此点是显著的，根据贝叶斯准则有如下推导：

Pr(y_i＝1|L_i)在对于所有像素点的值一样，可以忽略，即有：

公式13中的第二项P(F_i|y_i＝1)，采用核密度估计的方法计算：

其中核密度估计采用余弦相似度函数：

公式13可以重写为：

S_i即为像素点i处的显著值，显著图可以表示为：

S＝[S₁,...,S_i,....S_M]，M为像素点个数。

上述过程中采用矩阵低秩理论对视频背景重建，提取的仅是前景区域，F_i为二值图像，前景目标之间并没有不同显著程度的区分。故结合前景区域和视觉注视点检测结果，从统计的角度计算基于运动区域的动态显著图。其结果是表征视频中运动目标的显著程度。

动态显著图融合的过程具体包括以下步骤：

S31：基于运动目标检测得到的前景图像集合F＝{F₁,...,F_i,...,F_n}，则对于每一帧图像均有可能存在多个目标区域，F_i＝[F_i ¹,...,F_i ^r,...F_i ^Q]，其中Q表示目标的个数，F_i ^r表示第i帧前景图像的第r个目标对应的二值图像；

对于视觉注视点检测得到显著图序列重新定义为：S＝{S₁,...,S_i,...,S_n}，此处，S_i表示第i帧图像的视觉注视点显著图，

结合上述定义，具体的动态显著图的融合公式如下：

其中，SD_i ^r表示第r个目标图像对应的显著图。w和h表示图像的宽和高；

进而可得到最终的动态显著图：

为了对本发明的检测结果进行核验，本发明引用Fukushi数据集，该数据集包含10个自然场景的视频，共计936帧图像。所有视频均含有一个相对运动目标，其中大部分视频的场景单一，部分视频中目标是局部运动。数据集中所有帧对应的基准图像均为像素级目标分割图像。

在此数据集上，本发明所采用的算法与有代表性的4种算法进行实验对比，本发明所采用的算法用OUR表示，有代表性的4种算法分别为：SGV算法、GBVS算法、PDA算法和RF算法。

评价指标：用查准率-查全率曲线(Precision-RecallCurve)对本发明所采用的算法性能进行评估，首先需要对检测得到的显著图进行二值化。在二值化的过程中，阈值的变化会直接造成查准率(Precision)和查全率(Recall)的变化。这样通过取不同阈值，得到其对应的查准率和查全率，在图中表示为点，相邻点的连线组成查准率-查全率曲线。

实验对比结果：查准率-查全率曲线如图1所示，其中，曲线1代表SGV算法，曲线2代表OUR即本发明所采用的算法，曲线3代表RF算法，曲线4代表GBVS算法，曲线5代表PDA算法，由图可知，本发明所采用的算法对环境的适应能力较好，能够在此数据集中的大部分视频中均能取得较好的效果，符合对算法效果的预期，很好的解决了摄像机在运动情况下的显著性目标检测问题，能够满足机器视觉系统在动态场景中检测显著性目标的需求。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种动态场景下显著性目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种动态场景下显著性目标检测方法，其特征在于，所述的步骤S1包括以下步骤：

S∈{0,1}^m×n表示图像的前景矩阵，是一个二值图像，

用P_s(X)表示X到S的正交投影：

表示互补投影，即：

L_S ⁱ＝E_i-W_i,； (4)

其中，E_i是对角矩阵，F_i＝reshape(S_i), (6)

W_i是关系矩阵，

(1)首先，固定此时，目标能量函数为如下形式：

然后采用加权最小二乘法求解

(2)固定此时，目标能量函数转化为如下形式：

然后采用SOFT-IMPUTE算法求解

(3)固定此时，目标能量函数转化为如下形式：

然后采用图割模型法求解

3.根据权利要求1所述的一种动态场景下显著性目标检测方法，其特征在于，所述的步骤S2包括以下步骤，

Pr(y_i＝1|L_i)在对于所有像素点的值一样，可以忽略，即有：

公式13中的第二项P(F_i|y_i＝1)，采用核密度估计的方法计算：

其中核密度估计采用余弦相似度函数：

公式13可以重写为：

S_i即为像素点i处的显著值，显著图可以表示为：

S＝[S₁,...,S_i,....S_M]，M为像素点个数。

4.根据权利要求1所述的一种动态场景下显著性目标检测方法，其特征在于，所述的步骤S3包括以下步骤：

S31：基于运动目标检测得到的前景图像集合F＝{F₁,...,F_i,...,F_n}，则对于每一帧图像均有可能存在多个目标区域F_i＝[F_i ¹,...,F_i ^r,...F_i ^Q]，其中Q表示目标的个数，F_i ^r表示第i帧前景图像的第r个目标对应的二值图像；

结合上述定义，具体的动态显著图的融合公式如下：

其中，SD_i ^r表示第r个目标图像对应的显著图，w和h表示图像的宽和高；

进而可得到最终的动态显著图：