CN110599443A

CN110599443A - 一种使用双向长短期记忆网络的视觉显著性检测方法

Info

Publication number: CN110599443A
Application number: CN201910588877.XA
Authority: CN
Inventors: 李晋江; 迟杨; 华臻; 安志勇; 窦全胜
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-12-20

Abstract

本发明公开了一种使用双向长短期记忆网络的视觉显著性检测方法，该方法包括以下步骤：分析视频数据库，计算中心偏差，构造了基于运动物体的网络结构RNN用于检测帧内显著性，构造了动态结构DB‑LSTM用于预测视频显著性的帧间转移，来完成帧内和帧间的视频显著性检测。本发明的方法可以取得理想的视觉显著性效果，通过合理地利用图像的时间与空间信息，可以进行跨帧视频的显著性预测，从而更好地感知冗余来提高视频的编码效率，来降低视频传输中的带宽要求。

Description

一种使用双向长短期记忆网络的视觉显著性检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种使用双向长短期记忆网络的视觉显著性检测方法。

背景技术

图像是人类从客观世界获取信息的重要来源和传递信息的重要媒介，随着计算机、互联网等技术的发展，视觉显著性检测在目标识别，图像视频压缩，图像检索，图像重定向等中有着重要的应用价值。

对视频进行显著性检测，可以更合理的分配计算资源并且精简运算量，从而使视频显著性的结果更符合人的视觉认知需求。视觉显著性检测(Visual SaliencyDetection)指通过智能算法模拟人的视觉特点，提取图像中的显著区域(即人类感兴趣的区域)。视觉显著性检测是模式识别、计算机视觉、图像理解等领域的重要环节，也是一种基本的计算机视觉技术。

最近提出了一个新的基于DNN的思路来检测图像显著性，从输入端的数据直接得到输出端的结果，从而避免了预处理跟特征提取，使预测结果更加精准。但是，在视频显著性的检测中，应用了DNN的作品确是少之又少。实际上，Cagdas等人利用双流CNN结构，把RGB帧和运动的图来作为输入，他们的工作把CNN跟视频显著性检测进行了有效的结合。巴扎尼等人通过学习混合密度网络连接的LSTM网络，训练深度卷积3D网络来提取人类注意力的特征，以此来生成高斯混合分布的显著性图。这些方法虽然是基于DNN的，但是对于视频显著性检测来说仍然不够完善，主要有以下不足：(1)缺乏足够的数据来训练DNN 模型(2)无法将对象与运动信息同时进行结合(3)视频连续帧之间的动态像素转换引起的显著性差别没有得到重视。

发明内容

本发明的目的就是为了解决上述问题，提供一种使用双向长短期记忆网络的视觉显著性检测方法，它可用于检测连续视频和跨帧视频的视觉显著性检测。

为了实现上述目的，本发明采用如下技术方案：

一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，首先，通过卷积神经网络提取视频中的特征，并模拟人视觉初级皮层端点细胞提取隐藏状态，同时将超像素区域图和边缘图进行窗化处理，便可以归一化深度卷积神经网络的输入。其次，用堆叠的DB-LSTM 网络分别学习时间和空间特征，利用基于Kullback-Leibler(KL)散度的损失函数来迭代参数，从而对显著性和非显著性区域进行判别，完成显著性区域的检测。

本发明的具体步骤为：

1)分析视频数据库，计算中心偏差；

2)构造了基于运动物体的网络结构RNN用于检测帧内显著性；

3)构造了动态结构DB-LSTM用于预测视频显著性的帧间转移。

所述步骤1)中，分析视频数据库，计算中心偏差；

经过对数据库的分析，我们发现了人类对视频显著性的关注主要与物体、运动的物体和物体中的运动部位相关性较高，由此提出了CNN与DB-LSTM结合在一起的结构，CNN结构部分的模型采用了改进的VGG19网络。我们的模型的一个卷积层和最大池化层的交替，后面紧跟三个全连接层，激活函数采用Relu，为了减少网络训练参数的数量，整个卷积网络均使用 3X3大小的卷积。和传统卷积LSTM不同的是，我们考虑到了基于显著性的先验知识：中心先验和稀疏先验。中心先验指的是人们在看视频或者图片的时候往往容易关注到中心的位置。为此，我们提出了中心偏差：

Z(p_b)＝Bino(L，p_b·S_CB)/(L·Mean(S_CB))，

其中，σ和tanh是S型和双曲正切的激活函数，Wⁱ _j和B_n是相应卷积层的权值和偏置的核参数。I^t _l,A^t _l,O^t _l是帧t的输入门、遗忘门和输出门。G^t _l,M^t _l,H^t _l是输入调制，存储单元和隐藏状态。

所述步骤2)中，构造了基于运动物体的网络结构RNN用于检测帧内显著性：

在连续的视频数据中，许多帧构成了视觉内容的移动，这些帧构成帧序列，可以帮助理解连续动作的前后含义。CNN是图像表现和分类的主要来源，先由CNN在图像中发现隐藏图案，其中的顺序形式的变化通过RNN来进行学习。在长期的序列中，RNN虽然可以解释，但之前较早的输入会被遗忘。这会导致一个梯度消失问题，而有一种LSTM结构的RNN可以解决它，它也是一种特殊类型的RNN，由输入门、遗忘门和输出门构成。可以学习长时间的依赖关系，并且控制其序列的模式识别。在训练期间，一个S型单位对门进行调整，学习它的打开和闭合。

其中x_t是时间t的输入，f_t是时间t时的遗忘门，它可以在必要的时候清除储存器单元中的信息，并可以让清除的信息的前一帧在储存器中得以保留。

下一步的新信息存储在输出门o_t中。根据在时间t当前帧的输入跟t-1时刻前一帧s的状态计算出来g，它具有一个激活函数tanh。我们用激活函数tanh跟记忆细胞ct来计算出RNN 序列中的隐藏模式。由于视频显著性检测只需去得最后结果，并不需要LSTM网络中间过程的输出，所以我们使用了softmax分类器来对RNN网络的最终状态进行判定。单个LSTM单元无法识别复杂的序列，特别是在大量的视频数据输入的时候。因此，堆叠了多个LSTM单元来处理视频数据中的长期依赖性。

为了能够让RNN捕捉到更高级别的序列信息，我们把两个网络中的两个LSTM层进行了叠加，正常来说，在RNN中数据先是被传输到单层来激活和处理，然后再输出，但是对于视频显著性检测而言，我们需要考虑它的时间顺序问题，因此，我们要把数据放在多个层上进行处理。堆叠了LSTM层之后，RNN中的当前层会把其隐藏状态发送给下一层作为该层的输入，每一层都是如此，大大提高了对于时序性问题处理的效率。

所述步骤3)中，构造了动态结构DB-LSTM用于预测视频显著性的帧间转移：

在双向的LSTM中，序列中的前一帧与后一帧都与时间t有着直接的联系，它们共同决定t的输出。在双向的LSTM中，序列中的前一帧与后一帧都与时间t有着直接的联系，它们共同决定t的输出，有两个RNN堆叠在一起，两个RNN的方向一前一后，提取它们的隐藏状态计算组合输出，我们的多层LSTM具有两个正向传递和反向传递的层次结构。数据输入后传送到双向RNN，然后通过正向传播和反向传播的隐藏状态被结合到输出层。为了验证结果，我们利用反向传播在输出层上计算出权重和偏差。在验证数据的误差计算时，我们使用了交叉熵。为了使其成本最小化，我们利用了学习率为0.001的随机优化来控制它。因为我们有双向的LSTM处理层，所以计算t1时刻的前一帧与后一帧来得到t时刻的输出帧。由于其计算输出的机制，我们提出的方法比其他最先进的方法效率更高。

利用基于Kullback-Leibler(KL)散度的损失函数来迭代参数：

在利用深度神经网络训练模型来预测视频显著性的时候，KL散度比其他指标更加准确有效，将显着图作概率分布，我们可以测量CNN的细显着图S_f与地面真值G之间的KL散度 D_KL。

KL散度越小，则显着性预测的准确度越高。此外，我们发现了对象区域与显著性区域有关，因此我们计算了CNN的粗略图Sc与地面真值G之间的KL散度，把它作为了辅助函数来训练CNN。然后，我们把下面的损失函数进行了最小化处理来训练CNN模型。

λ是控制两个KL散度权重的超参数。我们AlexNet上对CNN进行了预先训练，然后用Xavier初始化程序对其余参数进行了初始化。同时为了保证双向LSTM训练的结果一致，我们把用于训练的视频素材进行了剪辑，把它们分成了长度一样的片段。此外，为了提取每个在T时刻帧数视频片段的时间与空间特征，我们把CNN的参数做了固定化。如下所示，T帧上的平均KL散度就是由2C-LSTM的损失函数定义的。

2C-LSTM最终生成的显著性图是Si，视频显著图的地面真值是Gi。我们使用Xavier把每个LSTM单元的内核参数进行了初始化。

本发明的有益效果：

(1)能够对跨帧视频进行的显著性预测，取得令人满意的预测效果。

(2)我们提出的方法能够学习长期序列，并且我们使多个层在DB-LSTM网络中进行了叠加，从而使其有足够的深度来进行正向传播和反向传播。由于这样可以分析特定时间间隔的视频帧特征，因此能够更好地处理冗长的视频。

附图说明

图1是本发明的流程示意图；

图2是本发明测试集随机选取了9个视频的显着性检测图；

图3是本发明单个测试视频的连续帧视频显着性图；

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，包括以下步骤：

所述步骤1)中，分析视频数据库，计算中心偏差；

经过对数据库的分析，我们发现了人类对视频显著性的关注主要与物体、运动的物体和物体中的运动部位相关性较高，由此提出了CNN与DB-LSTM结合在一起的结构，CNN结构部分的模型采用了改进的VGG19网络。我们的模型的一个卷积层和最大池化层的交替，后面紧跟三个全连接层，激活函数采用Relu，为了减少网络训练参数的数量，整个卷积(1)3X3大小的卷积。和传统卷积LSTM不同的是，我们考虑到了基于显著性的先验知识：中心先验和稀疏先验。中心先验指的是人们在看视频或者图片的时候往往容易关注到中心的位置。为此，我们提出了中心偏差：

Z(p_b)＝Bino(L，p_b·S_CB)/(L·Mean(S_CB))，

所述步骤2)构造了基于运动物体的网络结构RNN用于检测帧内显著性

所述步骤3)，构造了动态结构DB-LSTM用于预测视频显著性的帧间转移：

利用基于Kullback-Leibler(KL)散度的损失函数来迭代参数：

本发明的内容可以通过以下的对比结果进一步进行说明。

1、对比内容：为了评估我们方法的泛化能力，我们在SFU和DIEM两个视频数据库上比较了我们的和其他9种方法的视频显著性检测性能。

2、仿真结果

图2为我们从数据库中的测试集随机选取了9个视频的显着性检测图，每个选取视频仅显示一帧的结果。我们发现SALICON和SalGAN这两种基于DNN的方法比其他传统方法具有更高的准确度。这表明DNN自动学习的与显着相关的函数的重要性比手动方法更有效。我们进行主观结果的视频显着性预测的比较。我们演示了测试集中随机选择的九个视频的显着性图，这些视频由我们和其他九种方法检测。在该图中，为每个视频选择一帧。从图 2中可以看出，我们的方法能够很好地定位一个重要区域，更接近人类地面图。相比之下，大多数其他方法无法准确预测吸引注意力的区域。

图3为从数据库中选择的单个测试视频的连续帧视频显着性图。为了评估我们的方法的泛化能力，我们在SFU和DIEM这两个在线可用的视频数据库上比较了我们和其他九种方法的视频显着性检测性能。在实验期间，我们的测试视频来自SFU和DIEM数据库。在图3中，我们从测试视频中选择了一些连续的图像帧来测试视频显着性。如图所示，我们的方法比其他9种方法更接近地面真值。这意味着我们的方法在视频显着性预测中具有良好的泛化能力，与更先进的方法相比，我们有了很大的改进。

综上，本发明通过建立深度双向长短时间记忆网络与卷积神经网络结合，提出了一种高准确度的视频显著性检测方法。本发明的方法通过合理地利用图像的时间与空间信息，可以进行跨帧视频的显著性预测，从而更好地感知冗余来提高视频的编码效率，来降低视频传输中的带宽要求。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，首先，通过卷积神经网络提取视频中的特征，并模拟人视觉初级皮层端点细胞提取隐藏状态，同时将超像素区域图和边缘图进行窗化处理，便可以归一化深度卷积神经网络的输入;其次，用堆叠的DB-LSTM网络分别学习时间和空间特征利用基于Kullback-Leibler（KL）散度的损失函数来迭代参数，从而对显著性和非显著性区域进行判别，完成显著性区域的检测。

2.一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，主要包含以下几个步骤：

1）分析视频数据库，计算中心偏差；

2）构造了基于运动物体的网络结构RNN用于检测帧内显著性；

3）构造了动态结构DB-LSTM用于预测视频显著性的帧间转移。

3.如权利要求2所述的一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，所述步骤1），分析视频数据库，计算中心偏差：

首先分析数据库，得到人类对视频显著性关注度相关性的数据，然后改进VGG19网络用作模型，使用3×3大小的卷积训练参数，最后，根据显著性的中心先验来计算中心偏差。

4.如权利要求2所述的一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，所述步骤2）构造基于运动物体的网络结构RNN用于检测帧内显著性：用激活函数跟记忆细胞来计算RNN序列中的隐藏模式，并使用softmax分类器对RNM网络的最终状态判定；通过堆叠LSTM单元来处理视频数据中的长期依赖性，从而得到更高级别的序列信息。

5.如权利要求2所述的一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，所述步骤3）构造了动态结构DB-LSTM用于预测视频显著性的帧间转移：构建深度双向LSTM网络，使其具有正向传递和反向传递的层次结构；利用反向传播在输出层上的结果计算出权重和偏差，使用交叉；来验证数据的计算误差，并且利用学习率为0.001的随机优化来控制它使其学习成本最小化；通过利用KL散度的损失函数来迭代参数使KL散度更小，从而提高视觉显著性检测的准确度。

6.如权利要求2所述的一种使用双向长短期记忆网络的视觉显著性检测方法，其特征是，利用构建的神经网络来提取输入视频的时间和空间特征；对于检测视频显著性时，用DB-LSTM查找它们之间的连续信息，利用KL散度的损失函数来迭代参数，来提高视频显著性检测的准确度。