CN116229106A

CN116229106A - 一种基于双u结构的视频显著性预测方法

Info

Publication number: CN116229106A
Application number: CN202211700313.9A
Authority: CN
Inventors: 颜成钢; 武松鹤; 陈雨中; 周晓飞; 高宇涵; 孙垚棋; 朱尊杰; 陈楚翘; 王鸿奎; 王廷宇; 殷海兵; 张继勇; 李宗鹏; 赵治栋
Original assignee: Hangdian Lishui Research Institute Co Ltd
Current assignee: Hangdian Lishui Research Institute Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-06-06

Abstract

本发明公开了一种基于双U结构的视频显著性预测方法，通过使用一种新颖的双U编解码结构，有效地挖掘出全局语义信息和局部细节信息，同时更加充分地利用了多尺度特征；通过使用桥接块，进一步扩大了模型的感受野，增强了模型获取多尺度上下文信息的能力；通过在编码器和解码器的各个层级部署加权融合模块，更加有效地融合时间和空间特征。通过以上设计，本发明能够进一步提升视频显著性预测的性能。

Description

一种基于双U结构的视频显著性预测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于双U结构的视频显著性预测方法。

背景技术

人类能够快速定位视野中最重要的区域，这种能力被称为视觉注意力机制，它有助于处理各种视觉信息。在计算机视觉领域，视觉注意力机制建模是一项基础研究课题，被称为显著性预测或注视预测，它旨在推导出图像中每个区域的视觉显著程度并以显著图的形式呈现。显著性预测已被广泛应用于各种计算机视觉任务，例如：图像字幕、对象分割、视频压缩等。

视频显著性预测的传统模型主要是利用静态和运动信息探索动态场景的注视分布，然而，手工制作的时空特征不足以模拟视频显著性。随着神经网络的复兴，近年来出现了许多基于深度学习的视频显著性预测模型，它们大致分为三种类型：第一类是基于双流网络的模型，该类模型使用RGB主干和光流主干对外观和运动信息进行编码，并将它们融合以进行视频显著性预测。然而，现有模型大多将外观和运动信息简单融合，无法充分利用主干提取的时空信息。第二类是基于长短期记忆(LSTM)网络的模型，该类模型先使用卷积神经网络建模空间信息，再使用LSTM获取视频中的时间信息。但它们无法同步利用空间和时间信息，这限制了模型的显著性预测能力。第三类是基于3D卷积的模型，该类模型能够通过3D卷积联合处理时间和空间特征，但是3D卷积不仅计算成本高而且只能处理局部时空，因此它们缺乏直接建模视频中的远程时空关系的能力。

发明内容

针对现有方法中存在的不足，本发明以双流网络为基础提出了一种基于双U结构的视频显著性预测方法，该方法不仅能将光流主干和RGB主干提取的时间和空间特征充分融合，而且能够从多个尺度学习时空显著性表示，提高了视频显著性预测的准确性。

本发明所要解决的技术问题：现有的视频显著性预测技术无法充分利用多尺度时空特征，也无法有效融合光流主干和RGB主干中包含的时间和空间特征，导致预测的视频显著性区域不准确。

本发明解决该技术问题所采用的技术方案：使用一种基于双U结构的视频显著性预测方法来提高视频显著性预测的准确度。为了有效挖掘全局上下文信息和局部细节信息并充分利用多尺度时空特征，本发明设计了一种双U结构。其中，第一个U型结构用于编码和解码光流图中包含的时间信息，第二个U型结构用于编码和解码视频帧中包含的空间信息。两个U型结构在编码器和解码器的不同层级进行特征融合。为了有效融合时空特征，提出了一个加权融合模块，用于将时间和空间特征深入融合，其中运动特征作为外观特征的门控信号，能够过滤掉不相关的空间信息并注入丰富的时间信息。

一种基于双U结构的视频显著性预测方法，步骤如下：

步骤1：通过时空编码器提取视频帧和光流图中包含的时间和空间特征。

首先对待预测的视频帧和对应的光流图进行预处理，包括格式转换、尺寸调整和数值归一化，使它们转化为模型能够处理的数据格式以提高模型的执行效率。然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器，提取多层级的时间特征和空间特征。

步骤2：在时空编码器提取时间和空间特征过程中通过加权融合模块对提取的时间和空间特征进行融合。

首先将时空编码器提取的时间特征和空间特征输入到加权融合模块。然后，加权融合模块先将初始层级的时空特征进行初步融合，再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接，从而进一步融合时空特征。最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是，在时空编码器的所有层级，从低到高都会执行特征的提取与融合。

步骤3：通过桥接块增强时空特征。

首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块，然后，桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强。最后将增强后的特征输入到对应的解码器进一步处理。

步骤4：将原始时空编码特征融入到对应层级的时空解码块。

首先从时间编码器中提取出原始时间编码特征，从空间编码器中提取出原始空间编码特征。然后将原始时间编码特征与对应层级的时间解码特征拼接，将原始空间编码特征与空间解码器中对应层级的加权融合模块处理后的时空特征拼接。最后将拼接的时间和空间特征分别输入到时间解码块和空间解码块进行解码处理。

步骤5：将时空解码块提取的时间和空间解码特征融合。

首先将时空解码块提取的时间和空间解码特征输入到加权融合模块。然后加权融合模块会将时空解码特征进行充分融合，突出显著信息，去除冗余信息。最后将融合后的时空特征输入到下一层的空间解码块进一步处理。需要注意的是，在时空解码器的所有层级，从高到低会依次执行特征的解码与融合。

步骤6：预测视频帧对应的显著图。

当时空特征传输到解码块S1后，先将时空特征经过一系列卷积层处理使其通道维度降至1，再经过一个Sigmoid激活函数处理，最后使用双线性上采样函数使其恢复到视频帧的原始大小即可生成最终的显著图。

本发明有益效果如下：

通过使用一种新颖的双U编解码结构，有效地挖掘出全局语义信息和局部细节信息，同时更加充分地利用了多尺度特征；通过使用一种桥接块，进一步扩大了模型的感受野，增强了模型获取多尺度上下文信息的能力；通过在编码器和解码器的各个层级部署加权融合模块，更加有效地融合时间和空间特征。通过以上设计，本发明能够进一步提升视频显著性预测的性能。

附图说明

图1基于双U结构的视频显著性预测模型结构图。

图2加权融合模块结构图。

图3桥接块结构图。

具体实施方式

结合发明内容和附图对该发明的执行步骤进行详细论述。

步骤1：提取视频帧和光流图中包含的时间和空间特征。

首先将视频帧和对应的光流图进行预处理，具体包括：读取图片并将其转换为RGB格式；将分辨率调整为224×224；将数据类型转化为Tensor型；将图片数值范围从[0,255]映射到[-1,1]。

然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器提取时间和空间特征。时间和空间编码器结构相同，都是基于ResNet-34主干构建的，如图1所示，时间编码器包含5层时间编码块T1-T5，空间编码器包含5层时间编码块S1-S5。具体来说，以时间编码器为例，首先将ResNet-34主干的Conv-1模块中的卷积层(内核大小为7×7、步幅为2)替换为内核大小为3×3、步幅为1的卷积层，并且舍弃了Conv-1模块之后的最大池化层，然后将Conv-1和Conv-2设置为编码器的第一编码块T1。之后，第二编码块T2、第三编码块T3和第四编码块T4分别采用ResNet-34的Conv-3、Conv-4和Conv-5。此外，为了进一步扩大模型的感受野，在第四编码块T4之后部署了一个最大池化层和三个残差卷积层，这些层构成了第五编码块T5。

步骤2：将时空编码器提取的时间和空间特征融合。

首先将时空编码器提取的时间特征和空间特征输入到加权融合模块。然后，如图2所示，加权融合模块先将初始层级的时空特征进行初步融合，再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接，从而进一步融合时空特征。最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是，在时空编码器的所有层级，从低到高都会执行特征的提取与融合，这种设计充分利用了时空编码器的多级特征。具体方法如下：

首先将时空编码器提取的时间特征

和空间特征

输入到加权融合模块，然后加权融合模块会将时间和空间特征充分融合，突出显著信息，去除冗余信息。具体来说，以第一层为例，首先将时间特征

和空间特征

相加得到初始融合特征

再使用1×1卷积层将特征进一步融合，随后使用Sigmoid激活函数生成权重矩阵。与以往方法不同，该权重矩阵的通道维度是C而不是1，这样的设计能够更加精准定位显著目标。随后将权重矩阵与初始融合特征相乘并使用残差连接，从而得到加权融合后的时空特征

以上过程可由公

式1表示。

其中

表示逐元素相乘，+表示逐元素相加，Conv表示1×1卷积操作，Sigmoid表示Sigmoid激活函数。

最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是，在时空编码器的所有层级，从低到高会依次执行特征的编码提取与融合，直到达到编码器的最顶层。以上过程可由公式2表示。

其中WFM表示加权融合模块，

表示编码器中加权融合后的时空特征。

步骤3：通过桥接块增强时空特征。

首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块，然后，如图3所示，桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强，其中不同的空洞卷积层具有不同的感受野，这增强了模型获取全局上下文信息的能力。最后将增强后的特征输入到对应的解码器进一步处理。具体方法如下：

首先将编码器最顶层的高级时间特征F₅ ^T和空间特征F₅ ^S分别输入到桥接块T和桥接块S进行增强处理。具体来说，以时间桥接块T为例，先将高级时间特征分别输入到4个并行的具有不同膨胀率(2,4,8,16)的空洞卷积层处理，再将4个空洞卷积层输出的增强特征与原始高级特征拼接在一起得到f_BT，随后使用一个卷积层将拼接特征f_BT充分融合并将其通道数恢复至原始大小，进而得到增强特征F_BT，以上过程可由公式3表示。

其中，C_i,i∈{2,4,8,16}表示膨胀率为i的空洞卷积，

表示拼接操作，BN表示批量归一化操作，Relu表示Relu激活函数。然后将增强特征F_BT输入到时间解码器中进一步处理。

步骤4：将原始时空编码特征融入到对应层级的时空解码块。

首先从时间编码器中提取出原始时间编码特征

(特征①-⑤)，从空间编码器中提取出原始空间编码特征

(特征⑥-⑩)。然后将

与对应层级的时间解码块提取的时间解码特征

拼接，将

与空间解码器中使用加权融合模块处理后的时空特征

拼接。最后将拼接的时间和空间特征分别输入到下一层的时间和空间解码块进行解码处理。

时间和空间解码器具有相同的结构，具体来说，以时间解码器为例，每个解码器包含五个解码块，其中每个解码块由三个卷积块组成，每个卷积块包含一个3×3卷积层、一个BN层和一个Relu层。此外，前四个解码块后都接了一个双线性上采样层用于放大特征图，最后一个解码块后接了一个1×1卷积层和一个Sigmoid激活函数，用于生成最终的预测图。

步骤5：将时空解码块提取的时间和空间解码特征融合。

首先将时空解码器输出的时间特征和空间特征输入到加权融合模块，然后通过加权融合模块将时间和空间特征充分融合。具体来说，以第5层为例，先将时间特征

和空间特征

相加得到初始融合特征

再使用1×1卷积层将特征进一步融合，使用Sigmoid激活函数生成权重矩阵，随后将权重矩阵与初始融合特征相乘并使用残差连接，从而得到加权融合后的时空特征

以上过程可由公式4表示。

最后将融合后的时空特征输入到下一层的空间解码块处理。需要注意的是，在时空解码器的所有层级，从高到低会依次执行特征的解码处理与融合，直到达到解码器的最低层，这种设计有利于定位显著对象的位置，并且充分利用了解码器的多尺度特征。以上过程可由公

式5表示。

其中WFM表示加权融合模块，

表示解码中加权融合后的时空特征。

步骤6：预测视频帧对应的显著图。

当时空特征传输到空间解码器的最底层解码块时，先将输出的特征经过一个1×1卷积层处理，将通道维度降至1，再经过一个Sigmoid激活函数将特征的数值范围映射到[0,1]，最后使用双线性上采样函数将其恢复到视频帧的原始大小即可得到最终的显著性预测图P_S。以上过程可由公式6表示。

其中P_S表示预测的显著图，Up表示双线性上采样函数。

模型训练设置：

所提出的模型使用Pytorch在1个NVIDIA TITAN X Pascal GPU上实现。其中模型编码器的部分参数使用ResNet-34初始化，模型其余部分的参数由Pytorch的默认设置初始化。使用Adam优化器训练整个模型，初始学习率设置为0.0001，当训练损失饱和时学习率降低10倍。

模型使用DHF1K、Hollywood-2和UCF Sports数据集的训练集进行训练，使用DHF1K的验证集监控整个训练过程，使用这三个数据集的测试集评估模型性能。输入的视频帧和光流图都调整为224×224大小，批量大小设置为5。需要注意的是，在训练过程中需要同时监督时间解码块T1输出的预测图P_T和空间解码块S1输出的预测图P_S，而在测试过程中使用的预测图是P_S。

训练的损失函数可以用公式7表示。

L(S,G)＝KL(S,G)+CC(S,G) (7)

其中S和G分别表示预测的显著图和对应的真值图。

KL是衡量两个概率分布之间差异的常用指标，其计算过程可由公式8表示。

其中ε表示正则化常数。

指标CC用于衡量两个分布图之间的依赖关系，计算过程可由公

式9表示。

其中sd表示标准差，cov表示协方差。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。

本发明未详细说明部分属于本领域技术人员公知技术。

Claims

1.一种基于双U结构的视频显著性预测方法，其特征在于，步骤如下：

步骤1：通过时空编码器提取视频帧和光流图中包含的时间和空间特征；

首先对待预测的视频帧和对应的光流图进行预处理，包括格式转换、尺寸调整和数值归一化，使它们转化为模型能够处理的数据格式以提高模型的执行效率；然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器，提取多层级的时间特征和空间特征；

步骤2：在时空编码器提取时间和空间特征过程中通过加权融合模块对提取的时间和空间特征进行融合；

首先将时空编码器提取的时间特征和空间特征输入到加权融合模块；然后，加权融合模块先将初始层级的时空特征进行初步融合，再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接，从而进一步融合时空特征；最后将融合后的时空特征输入到下一层的空间编码块处理；需要注意的是，在时空编码器的所有层级，从低到高都会执行特征的提取与融合；

步骤3：通过桥接块增强时空特征；

首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块，然后，桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强；最后将增强后的特征输入到对应的解码器进一步处理；

步骤4：将原始时空编码特征融入到对应层级的时空解码块；

首先从时间编码器中提取出原始时间编码特征，从空间编码器中提取出原始空间编码特征；然后将原始时间编码特征与对应层级的时间解码特征拼接，将原始空间编码特征与空间解码器中对应层级的加权融合模块处理后的时空特征拼接；最后将拼接的时间和空间特征分别输入到时间解码块和空间解码块进行解码处理；

步骤5：将时空解码块提取的时间和空间解码特征融合；

首先将时空解码块提取的时间和空间解码特征输入到加权融合模块；然后加权融合模块会将时空解码特征进行充分融合，突出显著信息，去除冗余信息；最后将融合后的时空特征输入到下一层的空间解码块进一步处理；需要注意的是，在时空解码器的所有层级，从高到低会依次执行特征的解码与融合；

步骤6：预测视频帧对应的显著图；

2.根据权利要求1所述的一种基于双U结构的视频显著性预测方法，其特征在于，步骤1具体方法如下：

首先将视频帧和对应的光流图进行预处理，具体包括：读取图片并将其转换为RGB格式；将分辨率调整为224×224；将数据类型转化为Tensor型；将图片数值范围从[0,255]映射到[-1,1]；

然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器提取时间和空间特征；时间和空间编码器结构相同，都是基于ResNet-34主干构建的，时间编码器包含5层时间编码块T1-T5，空间编码器包含5层时间编码块S1-S5；具体来说，以时间编码器为例，首先将ResNet-34主干的Conv-1模块中的卷积层替换为内核大小为3×3、步幅为1的卷积层，并且舍弃了Conv-1模块之后的最大池化层，然后将Conv-1和Conv-2设置为编码器的第一编码块T1；之后，第二编码块T2、第三编码块T3和第四编码块T4分别采用ResNet-34的Conv-3、Conv-4和Conv-5；此外，为了进一步扩大模型的感受野，在第四编码块T4之后部署了一个最大池化层和三个残差卷积层，这些层构成了第五编码块T5。

3.根据权利要求2所述的一种基于双U结构的视频显著性预测方法，其特征在于，步骤2具体方法如下：

首先将时空编码器提取的时间特征

和空间特征

输入到加权融合模块，然后加权融合模块会将时间和空间特征充分融合，突出显著信息，去除冗余信息；具体来说，以第一层为例，首先将时间特征F₁ ^T和空间特征F₁ ^S相加得到初始融合特征f₁ ^TS，再使用1×1卷积层将特征进一步融合，随后使用Sigmoid激活函数生成权重矩阵，该权重矩阵的通道维度是C；随后将权重矩阵与初始融合特征相乘并使用残差连接，从而得到加权融合后的时空特征F₁ ^TS；以上过程可由公式1表示；

其中

表示逐元素相乘，+表示逐元素相加，Conv表示1×1卷积操作，Sigmoid表示Sigmoid激活函数；

最后将融合后的时空特征输入到下一层的空间编码块处理；需要注意的是，在时空编码器的所有层级，从低到高会依次执行特征的编码提取与融合，直到达到编码器的最顶层；以上过程可由公式2表示；

其中WFM表示加权融合模块，F_i ^TS表示编码器中加权融合后的时空特征。

4.根据权利要求3所述的一种基于双U结构的视频显著性预测方法，其特征在于，步骤3具体方法如下：

首先将编码器最顶层的高级时间特征

和空间特征

分别输入到桥接块T和桥接块S进行增强处理；具体来说，以时间桥接块T为例，先将高级时间特征分别输入到4个并行的具有不同膨胀率(2,4,8,16)的空洞卷积层处理，再将4个空洞卷积层输出的增强特征与原始高级特征拼接在一起得到f_BT，随后使用一个卷积层将拼接特征f_BT充分融合并将其通道数恢复至原始大小，进而得到增强特征F_BT，以上过程可由公式3表示；

其中，C_i,i∈{2,4,8,16}表示膨胀率为i的空洞卷积，

表示拼接操作，BN表示批量归一化操作，Relu表示Relu激活函数；然后将增强特征F_BT输入到时间解码器中进一步处理。

5.根据权利要求4所述的一种基于双U结构的视频显著性预测方法，其特征在于，步骤4具体方法如下：

首先从时间编码器中提取出原始时间编码特征

从空间编码器中提取出原始空间编码特征

然后将

与对应层级的时间解码块提取的时间解码特征

拼接，将

与空间解码器中使用加权融合模块处理后的时空特征

拼接；最后将拼接的时间和空间特征分别输入到下一层的时间和空间解码块进行解码处理；

时间和空间解码器具有相同的结构，具体来说，以时间解码器为例，每个解码器包含五个解码块，其中每个解码块由三个卷积块组成，每个卷积块包含一个3×3卷积层、一个BN层和一个Relu层；此外，前四个解码块后都接了一个双线性上采样层用于放大特征图，最后一个解码块后接了一个1×1卷积层和一个Sigmoid激活函数，用于生成最终的预测图。

6.根据权利要求5所述的一种基于双U结构的视频显著性预测方法，其特征在于，步骤5具体方法如下：

首先将时空解码器输出的时间特征和空间特征输入到加权融合模块，然后通过加权融合模块将时间和空间特征充分融合；具体来说，以第5层为例，先将时间特征