CN109993151A

CN109993151A - 一种基于多模块全卷积网络的三维视频视觉注意力检测方法

Info

Publication number: CN109993151A
Application number: CN201910300859.7A
Authority: CN
Inventors: 方玉明; 黄汉秦; 左一帆; 温文媖; 万征
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-09

Abstract

本发明涉及一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：首先利用图片数据集训练静态全卷积网络（S‑FCN）来获取空间特征，从而求得三维视频帧的空间显著性；其次利用二维视频数据集训练动态全卷积网络（T‑FCN）并结合其相应的S‑FCN结果来获取运动信息，从而求得三维视频帧的时间显著性；最后利用三维视频数据集训练深度全卷积网络（D‑FCN）并结合对应的T‑FCN结果来获取深度信息，从而求得三维视频最终的视觉关注图。实验结果在三维视频的视觉关注图中展现了良好的效果。

Description

一种基于多模块全卷积网络的三维视频视觉注意力检测方法

技术领域

本发明设计了一种检测三维视频视觉关注图的视觉注意力模型方法。属于多媒体技术领域，具体属于数字图像和数字视频处理技术领域。

背景技术

在视觉感知中视觉注意力是很重要的机理，它能够迅速的在自然图像中检测出显著信息。基本上视觉注意力方法可分为两种：自底向上和自顶向下。自下而上是由刺激驱动，其基于视觉场景中的特征对比自动检测显著区域，而自上而下是由任务驱动，是基于特定的先验知识设计的方法。最近几年，已经有各种视觉任务提出了许多显著性检测模型，例如物体检测，图像分割，视觉总结等。然而，大多数现有的显著性检测模型都是针对二维视觉内容而设计的。如今，随着三维显示技术的快速发展，出现了各种立体多媒体应用，其中三维视觉注意建模方法可广泛用于三维视觉内容的显著区域提取。

与二维视频不同，三维视频中存在一个额外的深度维度，必须考虑三维视频显著性检测。目前，有一些研究三维显著性检测，在这些研究中的大多数通过简单地扩展具有深度信息的现有二维图像/视频显著性检测模型来设计三维显著性检测模型，因此，由于低层特征提取，尤其是通过基于光流的方法提取运动特征，它们是相当耗时的。此外，这些方法不够有效，因为它们是通过将空间显著性，时间显著性和深度显著性与乘法组合或线性组合与某些加权相结合来设计的。总之，这些现有的三维显著性检测研究的主要问题如下：1)由于耗时的低层特征计算，特别是通过光流提取运动特征，大多数这些显著性检测模型无法实时检测显著区域；2)手工提取的低层特征对比并不总是使显著区域脱离背景，这可能导致检测到非显著区域。

近几年，基于深度学习技术提出了几种三维图像视觉关注点检测模型。Chen等人提出了互补性融合网络，以解决显著性检测的多尺度问题。Zhu等人通过两个模块提出了一个显著性网络：一个用于处理RGB信息，另一个用于处理深度信息。目前，与二维视频/图像显著性检测模型相比，仍然很少使用深度神经网络对三维视频帧进行视觉关注点检测。一个原因是用于三维视频视觉关注点检测的数据集有限。在这里，提出了一种新的多模块全卷积网络的三维视频视觉关注点检测模型。在提出的模型中，使用不同的数据集进行训练，包括二维图像，二维视频和三维视频。

为了克服现有三维视觉关注图检测方法的缺点，提出了一种深度学习框架，采用多模块完全卷积网络(MM-FCN)，灵感主要来自于现有的基于深度学习的二维视频显著性检测模型。所提出的MM-FCN框架包括三个模块：用于空间显著性的静态全卷积网络(S-FCN)，用于时间显著性的动态全卷积网络(T-FCN)，以及用于深度显著性的深度全卷积网络(D-FCN)。这些模块旨在提取三维视频的高级特征，S-FCN用于从静态图像中计算空间显著图，T-FCN旨在通过结合S-FCN估计的空间显著图和连续视频帧来学习时空显著性；同时构造D-FCN以预测具有附加深度特征的三维视频的最终视觉关注图。在所提出的方法中，由S-FCN和T-FCN估计的显著对象信息增强了三维视频的视觉关注图的性能，其中训练S-FCN的数据集包括MSRA10K，ECSSD，DUT-OMRON；训练T-FCN的数据集包括SegTrackV2，USVD和DAVIS。实验结果表明，与其他相关方法相比，提出的方法在三维视频视觉关注点检测方面的效率和效果均能获得更好的性能。

发明内容

为了克服目前对于三维立体视频的视觉注意力模型研究的局限性，就三维立体视频的视觉注意力模型提出了一种新的方法。提取的特征包含空间、运动和深度。另外，三种特征是通过不同数据集输入对应网络提取的。最终三维立体视频的视觉关注图由D-FCN生成。

一种对于多模块全卷积网络的三维视频视觉注意力检测模型，其特征在于：首先利用静态全卷积网络(S-FCN)提取空间特征，从而求得三维视频帧的空间显著性；其次利用动态全卷积网络(T-FCN)提取运动信息，从而求得三维视频帧的时间显著性；最后利用深度全卷积网络(D-FCN)提取深度信息，求得三维视频帧的最终视觉关注图。

进一步地，所述视觉特征包含：空间特征、运动特征、深度特征。

进一步地，先利用图片数据集训练好静态全卷积网络(S-FCN)，然后分别用三维视频的左右视图去测试S-FCN，得到各自带有空间特征的显著图。

进一步地，利用二维视频数据集以及视频帧对应的S-FCN结果去训练动态全卷积网络(T-FCN)，然后分别用三维视频的左右视图去测试T-FCN，得到各自带有运动特征的显著图。

进一步地，利用三维视频数据集以及视频帧对应的T-FCN结果去训练深度全卷积网络(D-FCN)，最终用三维视频的左视图去测试D-FCN，得到最终的三维视频视觉关注图。

进一步地，在各个子网络训练过程中的损失函数可以由式(1)来表达：

y_i代表训练数据集中的标签图，y_i∈(y₁，y₂，...，y_N)；N代表输入数据的数量；代表网络计算出来的显著图。

进一步地，各个子网络的激活函数Relu可以由式(2)来表达：

x代表激活函数的输入。

进一步地，各个子网络的优化算法Adam可以由式(3)来表达：

m_t和v_t分别为一阶动量项和二阶动量项；β₁、β₂为动力值大小通常分别取0.9和0.999；分别为各自的修正值；W_t表示t时刻即第t迭代模型的参数；g_t＝ΔJ(W_t)表示t次迭代代价函数关于W的梯度大小；∈是一个取值很小的数(一般为1e-8)为了避免分母为0。

进一步地，网络框架包含三个子网络，它们分别是：用于计算空间显著性的静态全卷积网络(S-FCN)，用于估计时间显著性的动态全卷积网络(T-FCN)，以及用于估计深度显著性的深度全卷积网络(D-FCN)。

进一步地，在三个子网络中，它们的网络结构类似：在上采样的过程中，包含13个卷积层；在下采样的过程中，包含4个反卷积层和7个卷积层。

进一步地，在训练S-FCN时，利用VGG-16的网络参数去初始化的模型。

进一步地，T-FCN和D-FCN的第一层网络用以均值为0和方差为1的高斯函数进行初始化，其余网络层用VGG-16对应层初始化。

进一步地，用三个图片数据集MSRA10K，ECSSD和DUT-OMRON去训练子网络S-FCN；用三个二维视频数据集SegTrackV2，USVD和DAVIS去训练子网络T-FCN；用三维视频数据集DML-iTrack-3D去训练子网络D-FCN。

本发明各个部分的具体操作如下：

·空间特征的提取：

用静态全卷积网络(S-FCN)去提取空间特征，它采用全卷积网络来估计具有相同输入图像大小的显著图。在S-FCN中，输入RGB图像由一系列卷积层和反卷积层处理。它的前13层由VGG-16初始化(由ImageNet数据集训练而成，具有大量语义信息)。网络框架包括四个反卷积和七个卷积层的上采样层并且由零均值高斯初始化(标准偏差为0.01、偏差为0.1)。在卷积层中，三维立体视频中的输入帧与一组滤波器进行卷积，并且每个滤波器通过激活函数(Relu)生成特征图。

在S-FCN中，在全连接层中使用Relu激活函数而不是sigmoid或tanh激活函数。研究表明，在深层卷积神经网络中，与tanh相比，Relu对输入范围就有更强的鲁棒性并且训练效率更高。使用Relu激活函数，正信号可以通过，而负信号则被抑制。此外，当损失函数被优化时，Relu可以有效地防止梯度消失。对于池化(pooling)层，本地输出的特征图是粗糙的并且是下采样的。因此，采用几个反卷积层对粗糙的特征图进行上采样。还应用批量归一化操作来加速深层网络的训练。

为了训练S-FCN，通过最小化由网络预测的显著图与标签图之间的误差来计算损失函数并且学习所有参数，也即最小化均方误差。同时，使用Adam优化器通过自适应矩估计来最小化损失函数。Adam优化器通过设置梯度阶数(1或2)进行矩估计参数来动态调整每个参数的学习速率。使用Adam优化器，因为它具有简单实现，计算效率高，需要的内存小以及梯度对角重新缩放的不变性，并且它可用于处理来自大量数据和参数的问题。

通过一系列的参数调整，最后用三个数据集(MSRA10K，ECSSD和DUT-OMRON)去训练S-FCN，从而得到空间显著图。

·运动特征和深度特征的提取：

用动态全卷积网络(T-FCN)去提取运动特征，以及用深度全卷积网络(D-FCN)去提取深度特征并产生最终的视觉关注图。除输入数据和通道外，D-FCN和T-FCN的框架与S-FCN类似。T-FCN输入数据有10通道(3个连续视频帧和一个对应S-FCN的显著图结果)。对于D-FCN，输入数据包括由两个RGB图像(右视图和左视图，每个视图有三个通道)及其相应时空显著图组成的八通道，卷积层和反卷积层中参数的形状与S-FCN中参数的形状相同。对T-FCN和D-FCN进行了类似与S-FCN的参数初始化操作。由于T-FCN和D-FCN的第一卷积层的输入通道数不同，不使用预先训练的参数，而是使用平均值为0，方差为0.01的高斯初始化。定义了与S-FCN训练过程相似的损失函数和优化函数。T-FCN提取的是时空显著图，采用S-FCN计算的显著图和连续3个视频帧作为输入。D-FCN的输入包括T-FCN计算的时空显著图和左右视频帧，同时从S-FCN和T-FCN中提取的时空特征可用于提高视觉关注点的预测性能，因此D-FCN预测的三维立体视频的最终视觉关注图得到很大程度上的增强。

总之，这三个子网络的训练如下。首先，用RGB图像训练S-FCN。S-FCN的输出是空间显著图；然后使用视频数据集对T-FCN进行训练，三个连续的视频帧(t-1,t,t+1)及其相应的空间显著图作为T-FCN的输入，T-FCN的输出是视频帧的时空显著图；最后，利用DML-iTrack-3D数据集对D-FCN进行训练，在计算左右视图的时空显著图之后，使用三维立体视频帧t的左右视图及其时空显著图作为D-FCN的输入。请注意，对于S-FCN和T-FCN，分别计算左右图像的时空显著性图。然后将左右图像及其相应的时空显著图作为输入，由D-FCN计算出最终的三维立体视频视觉关注图。对于三个全连接网络，使用Davis、SegTrack和USVD数据集来训练T-FCN，并使用DML-ITrack-3D数据集来训练D-FCN。

附图说明

图1为本发明的多模块全卷积网络的框架图。

图2为本发明的S-FCN网络框架图。

图3为不同视觉关注图模型算法比较的实例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

其中，本文所涉及的技术特征、简写/缩写、符号等，以本领域技术人员的公知认识/通常理解为基础进行解释、定义/说明。

进一步地，各个子网络的激活函数Relu可以由式(2)来表达：

x代表激活函数的输入。

进一步地，各个子网络的优化算法Adam可以由式(3)来表达：

进一步地，的网络框架包含三个子网络，它们分别是：用于计算空间显著性的静态全卷积网络(S-FCN)，用于估计时间显著性的动态全卷积网络(T-FCN)，以及用于估计深度显著性的深度全卷积网络(D-FCN)。

本发明的过程如图1所示，具体过程如下。

采用静态全卷积网络(S-FCN)去提取空间特征，它采用全卷积网络来估计具有相同输入图像大小的显著图。在S-FCN中，输入RGB图像由一系列卷积层和反卷积层处理。它的前13层由VGG-16初始化(由ImageNet数据集训练而成，具有大量语义信息)。网络框架包括四个反卷积和七个卷积层的上采样层并且由零均值高斯初始化(标准偏差为0.01、偏差为0.1)。为了训练S-FCN，通过最小化由网络预测的显著图与标签图之间的误差来计算损失函数并且学习所有参数，也即最小化均方误差。同时，使用Adam优化器通过自适应矩估计来最小化损失函数。Adam优化器通过设置梯度阶数(1或2)进行矩估计参数来动态调整每个参数的学习速率。使用Adam优化器，因为它具有简单实现，计算效率高，需要的内存小以及梯度对角重新缩放的不变性，并且它可用于处理来自大量数据和参数的问题。

采用动态全卷积网络(T-FCN)去提取运动特征，以及用深度全卷积网络(D-FCN)去提取深度特征并产生最终的视觉关注图。除输入数据和通道外，D-FCN和T-FCN的框架与S-FCN类似。T-FCN输入数据有10通道(3个连续视频帧和一个对应S-FCN的显著图结果)。对于D-FCN，输入数据包括由两个RGB图像(右视图和左视图，每个视图有三个通道)及其相应时空显著图组成的八通道，卷积层和反卷积层中参数的形状与S-FCN中参数的形状相同。对T-FCN和D-FCN进行了类似与S-FCN的参数初始化操作。由于T-FCN和D-FCN的第一卷积层的输入通道数不同，不使用预先训练的参数，而是使用平均值为0，方差为0.01的高斯初始化。定义了与S-FCN训练过程相似的损失函数和优化函数。T-FCN提取的是时空显著图，采用S-FCN计算的显著图和连续3个视频帧作为输入。D-FCN的输入包括T-FCN计算的时空显著图和左右视频帧，同时从S-FCN和T-FCN中提取的时空特征可用于提高视觉关注点的预测性能，因此D-FCN预测的三维立体视频的最终视觉关注图得到很大程度上的增强。

总之，这三个子网络的训练如下。首先，用RGB图像训练S-FCN。S-FCN的输出是空间显著图；然后使用视频数据集对T-FCN进行训练，三个连续的视频帧(t-1,t,t+1)及其相应的空间显著图作为T-FCN的输入，T-FCN的输出是视频帧的时空显著图；最后，利用DML-iTrack-3D数据集对D-FCN进行训练，在计算左右视图的时空显著图之后，使用三维立体视频帧t的左右视图及其时空显著图作为D-FCN的输入。请注意，对于S-FCN和T-FCN，分别计算左右图像的时空显著性图。然后将左右图像及其相应的时空显著图作为输入，由D-FCN计算出最终的三维立体视频视觉关注图。对于三个全连接网络，用三个数据集(MSRA10K，ECSSD和DUT-OMRON)去训练S-FCN，使用Davis、SegTrack和USVD数据集来训练T-FCN，并使用DML-ITrack-3D数据集来训练D-FCN。

实验证明提出的三维视频视觉关注图检测模型明显优于目前的其他模型。主要通过图3和表1的三种方法来进行评估：ROC(Receiver Operating Characteristics)，PCC(线性相关系数)和NSS(Normalized Scanpath Saliency)。ROC曲线广泛的应用于视觉注意力模型性能的检测中，通过定义阈值，视觉注意力模型的显著性图可以被分为显著点和非显著点。TPR(Ture positive rate)真正类表示视觉注意力模型中目标点在为显著点的百分比，而FPR(False positive rate)假正类表示视觉注意力模型中背景点被检测为显著点的百分比。而AUC(Area under curve)是ROC曲线下的面积，能更好的性能进行评估，视觉注意力模型越好，那么它的AUC的值越大；相关系数用来衡量显著性图和位图之间的线性相关程度，相关系数会介于-1到1之间，相关系数越大，则视觉注意力模型的性能则越好。同样对于NSS的值，也是值越大，视觉注意力模型的性能更好。

参见图3：对于不同视觉关注图检测算法的效果图比较。第一列至最后一列分别为：三维视频帧的原始图像，Junle3D-三维图像、Yuming3D-三维图像、Lino3DV-三维视频、Fang2014-二维视频、SEO-二维视频和本发明的实验图像，参考图像。

从这些比较中，可以发现：Yuming3D和Junle3D检测到视频帧中有许多背景区域作为视觉关注点。Lino3DV使用简单的组合规则，将视频帧中的背景作为突出区域进行检测，并且不能避免由空间、时间和深度显著计算出的噪声。Fang2014使用不确定性权重融合时空特征仍然不能避免将背景检测为视觉关注点。SEO利用基于矩阵余弦相似性和局部转向核的非参数核密度估计来预测视觉关注图，它是不稳定的并且检测出大量背景区域作为视觉关注图。提出的视觉关注图模型和现存的参考图像最相近。

表1：不同视觉关注图检测模型的评价指标比较。

模型	Junle3D	Yuming3D	Lino3DV	Fang2014	SEO	本发明
							AUC	0.7513	0.7529	0.7992	0.6831	0.7414	0.8187
PCC	0.3032	0.3322	0.3215	0.1838	0.2528	0.4032
							NSS	1.0993	0.8196	1.1949	0.6594	1.0148	1.7213

上述实施方式是对本发明的说明，不是对本发明的限定，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的保护范围由所附权利要求及其等同物限定。

Claims

1.一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：首先利用静态全卷积网络(S-FCN)提取空间特征，从而求得三维视频帧的空间显著性；其次利用动态全卷积网络(T-FCN)提取运动信息，从而求得三维视频帧的时间显著性；最后利用深度全卷积网络(D-FCN)提取深度信息，求得三维视频帧的最终视觉关注图。

2.根据权利要求1所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：还包括视觉特征，视觉特征包含：空间特征、运动特征、深度特征。

3.根据权利要求2所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：先利用图片数据集训练好静态全卷积网络(S-FCN)，然后分别用三维视频的左右视图去测试S-FCN，得到各自带有空间特征的显著图。

4.根据权利要求2所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：利用二维视频数据集以及视频帧对应的S-FCN结果去训练动态全卷积网络(T-FCN)，然后分别用三维视频的左右视图去测试T-FCN，得到各自带有运动特征的显著图；利用三维视频数据集以及视频帧对应的T-FCN结果去训练深度全卷积网络(D-FCN)，最终用三维视频的左视图去测试D-FCN，得到最终的三维视频视觉关注图。

5.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：在各个子网络训练过程中的损失函数可由式(1)来表达：

y_i代表训练数据集中的标签图，y_i∈(y₁，y₂，...，y_N)；N代表输入数据的数量；y`_i代表网络计算出来的显著图。

6.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：各个子网络的激活函数Relu可由式(2)来表达：

x代表激活函数的输入。

7.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：各个子网络的优化算法Adam可由式(3)来表达：

m_t和v_t分别为一阶动量项和二阶动量项；β₁、β₂为动力值大小通常分别取0.9和0.999；分别为各自的修正值；W_t表示t时刻即第t迭代模型的参数；g_t＝ΔJ(W_t)表示t次迭代代价函数关于W的梯度大小；∈是一个取值很小的数，为1e-8。

8.根据权利要求1所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：网络框架包含三个子网络，它们分别是：用于计算空间显著性的静态全卷积网络(S-FCN)，用于估计时间显著性的动态全卷积网络(T-FCN)，以及用于估计深度显著性的深度全卷积网络(D-FCN)；在三个子网络中，它们的网络结构类似：在上采样的过程中，包含13个卷积层；在下采样的过程中，包含4个反卷积层和7个卷积层。

9.根据权利要求8所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：在训练S-FCN时，利用VGG-16的网络参数去初始化模型。

10.根据权利要求9所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法，其特征在于：T-FCN和D-FCN的第一层网络用以均值为0和方差为1的高斯函数进行初始化，其余网络层用VGG-16对应层初始化；采用三个图片数据集去训练子网络S-FCN，采用三个二维视频数据集去训练子网络T-FCN，采用一个三维视频数据集去训练子网络D-FCN。