CN117176967A

CN117176967A - 基于上下文优化与时间递归的视频显著性预测方法

Info

Publication number: CN117176967A
Application number: CN202311126117.XA
Authority: CN
Inventors: 张云佐; 张天; 王双双; 王书海; 张志国; 朱艳菊; 王欢
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-09-03
Filing date: 2023-09-03
Publication date: 2023-12-05
Anticipated expiration: 2043-09-03
Also published as: CN117176967B

Abstract

本发明公开了一种基于上下文优化与时间递归的视频显著性预测方法。所述方法包括如下步骤：获取待预测视频序列，输入到训练好的视频显著性预测网络中；采用Video swin transformer主干网络的编码器，提取显著性特征；通过上下文优化模块，增强该特征的感受野和表现能力；并进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测；将增强后的特征传入解码器中，进行求和与上采样，恢复至原始帧尺寸，便可得到最终的显著性图。所述方法结构简单有效，提高了视频显著性区域预测精度，在精度和推理时间上均有明显优势。

Description

基于上下文优化与时间递归的视频显著性预测方法

技术领域

本发明涉及图像通信方法技术领域，尤其涉及一种基于上下文优化与时间递归的视频显著性预测方法。

背景技术

视频显著性区域检测是视频处理和计算机视觉领域的一项基础任务，同时也在感知视频编码中扮演着重要的角色。其主要目标是模拟人类视觉关注系统，以预测在观看视频时人们对不同视频区域的关注程度，并将其以显著性图的形式呈现。在感知视频编码中，这项任务首先用于捕获视频中的显著性区域，然后将更多的比特资源分配给这些显著性区域，以确保它们保持高清质量，而对于非显著性区域则允许适度的失真。这一过程的目标是在不影响主观视觉感知的情况下减少视频编码的比特率，提高视频的压缩率，从而减少视频存储需求，减轻视频通信的带宽负担。

随着深度学习的发展，视频显著性区域检测领域取得很大的进步，其模型的精度也在不断提高。然而，这种发展是渐进性的，主流方法大多采用类似的方式，缺乏新观点出现，视频显著性区域发展陷入瓶颈。一方面，现有模型大多依靠多尺度融合和复杂的结构细化，虽然精度有较小的提升，但带来的计算量是巨大的；另一方面，现有主流的基于3D卷积或视频Transformer模型只依赖输入帧序列来进行建模，忽略了之前显著性帧的有效信息。

发明内容

本发明为了解决现有方法中的上述问题，提出一种基于上下文优化与时间递归的视频显著性预测方法。

一种基于上下文优化与时间递归的视频显著性预测方法，其特征在于包括如下步骤：

S1：获取待预测视频序列，选取16帧连续帧，输入到训练好的视频显著性区域预测网络中；

S2：该预测网络采用Video swin transformer主干网络的编码器，以提取显著性特征；

步骤S2：搭建神经网络模型，构建损失函数，所述神经网络模型包括：

S3：通过上下文优化模块，增强该特征的感受野和表现能力；

S4：进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测；

S5：将增强后的特征传入解码器中，进行求和与上采样，恢复至原始帧尺寸，便可得到最终的显著性图。

进一步的技术方案在于，主干网络采用去除第四阶段的Video swin transformer网络，其产生的特征为其中T＝16，C＝96，H，W为原始视频的高宽。

进一步的技术方案在于，上下文优化模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块。

通道重分配子模块用于重新分配通道间权重，增强通道特征表达能力。该子模块首先对特征沿空间和时间维度进行最大池化和平均池化，再将其结果通过全连接层来学习调整权重，再通过相乘和残差连接以得到调整后的特征。其具体公式如下：

CW＝σ(FC(Avgpool(F₃))+FC(Maxpool(F₃))),

F_cw＝CW×F₃+F₃,

感受野扩大子模块用于增强特征感受野，更好地产生预测所需的上下文信息。该子模块在特征上进行连续的两次池化核为3x3的最大池化操作，并将原始特征和每次最大池化的结果拼接起来，经过卷积调整通道后，得到扩大感受野后的特征。其具体公式如下：

空间增强子模块用于增强显著性区域的权重，抑制无关区域的影响。该子模块首先对特征沿通道和时间维度进行最大池化和平均池化，再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重，将特征与该权重相乘和残差连接得到增强后的特征。其具体公式如下：

F′＝Maxpool_3×3(F_cw),

F_out＝Conv([F_cw,F′,Maxpool_3×3(F′)]),

SE＝σ(Conv([Maxpool(Fx_ut),Avgpool(F_out)])),

F＝SE×F_out+F_out

进一步的技术方案在于，显著性传递机制利用先前帧的显著性信息来促进当前帧的预测。该机制由显著性传递模块实现，该模块可分为空间注意力融合子模块和ConvGRU子模块组成。

空间注意力融合子模块基于显著性图的连续性，利用之前的显著性信息来定位当先显著性区域。该子模块首先拼接隐藏状态和输入特征，然后分别通过卷积层、tanh函数、卷积层和Sigmoid函数，得到通道数为1的空间注意权重，与输入特征相乘得到调整后的特征，其具体公式如下：

X′_t＝X_t×σ(Conv(tanh(Conv([X_t,H_t-1])))),

ConvGRU子模块用于建模连续帧的显著性关系，该模块计算方式如下：

z_t＝σ(Conv([X′_t,H_t-1])),

r_t＝σ(Conv([X′_t,H_t-1])),

其中Ht既是用于本帧显著性区域预测的增强后特征，又是传入下一帧的隐藏状态。

进一步的技术方案在于，视频显著性区域预测网络的训练步骤包括：

搭建视频显著性区域预测网络；

构建训练集和验证集，包含视频帧序列和对应的显著图；

将训练集输入到视频显著性区域预测网络中，获取其输出的显著性图，将该显著图与真实显著图进行损失函数计算并进行反向传播；

多代训练训练该预测网络，并再验证集进行评估；当验证集损失最小时，保存网络权重，即可获取训练好的视频显著性区域检测网络。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例一中基于上下文优化与时间递归的视频显著性预测方法的流程示意图；

图2是本发明实施例一中基于上下文优化与时间递归的视频显著性预测方法的网络细节示意图；

图3是本发明实施例一中显著性传递机制的结构示意图；

图4是本发明实施例一中模型检测效果对比图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例一

本发明实施例提供了一种基于上下文优化与时间递归的视频显著性预测方法，包括：

本发明提供一个优选实施例执行S1。采用滑动窗口的方式选择16帧，当对前16帧进行预测时，将输入视频反转来获取。其网络整体架构如图2所示。

本发明提供一个优选实施例执行S2。主干网络采用去除第四阶段的Video swintransformer网络，其产生的特征为其中T＝16，C＝96，H，W为原始视频的高宽。

本发明提供一个优选实施例执行S3。上下文优化模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块，其结构和子模块架构参见图2。

CW＝σ(FC(Avgpool(F₃))+FC(Maxpool(F₃))),

F_cw＝CW×F₃+F₃,

F′＝Maxpool_3×3(F_cw),

F_out＝Conv([F_cw,F′,Maxpool_3×3(F′)]),

SE＝σ(Conv([Maxpool(F_out),Avgpool(F_out)])),

F＝SE×F_out+F_out

本发明提供一个优选实施例执行S4。显著性传递机制利用先前帧的显著性信息来促进当前帧的预测。该机制由显著性传递模块实现，该模块可分为空间注意力融合子模块和ConvGRU子模块组成，该模块和子模块架构如图3所示。

X′_t＝X_t×σ(Conv(tanh(Conv([X_t,H_t-1])))),

z_t＝σ(Conv([X′_t,H_t-1])),

r_t＝σ(Conv([X′_t,H_t-1])),

本发明提供一个优选实施例执行S5。视频显著性区域预测网络的训练步骤包括：

搭建视频显著性区域预测网络；

构建训练集和验证集，包含视频帧序列和对应的显著图。其数据集包含：DHF1K、Hollywood-2、UCF-Sports和LEDOV。其中，DHF1K为大型视频注视数据库，涵盖类型较多，该数据集中1000个视频被划分为训练集、验证集和测试集，其数量分别为600个、100个和300个。Hollywood-2为来自好莱坞电影的1707段视频，其中823个视频用于训练，884个视频用于测试。UCF-Sports为来自体育运动视频的数据集，其中103个视频用于训练，47个视频用于测试。

将训练集输入到视频显著性区域预测网络中，获取其输出的显著性图，将该显著图与真实显著图进行损失函数计算并进行反向传播。显著性预测损失为：L＝L_KL+a₁L_cc+a₂L_NSS,其中，a₁＝0.5，a₂＝0.2，L_KL、L_CC和L_NSS分别为KL散度损失，线性相关系数和正则化扫描路径显著性损失。

为了验证以上实施例一的有效性，本发明方法与其他先进方法在三个数据集DHF1K、Hollywood-2、UCF-Sports上进行性能对比，并选用常用的5个指标作为衡量：AUC-Judd(AUC-J)、相似性度量(Similarity Metric，SIM)、s_AUC、CC和NSS。这五个指标越大，说明显著性区域越精准。实验结果如表1所示，其定性实验如图4所示。

表1在三个数据集上的预测精度对比结果

由表1和图4可知，本实施例在各个数据集上的多项指标上都领先于现有方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于上下文优化与时间递归的视频显著性预测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法，其特征在于，所述的主干网络采用去除第四阶段的Video swin transformer网络，其产生的特征为其中T＝16，C＝96，H，W为原始视频的高宽。

3.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法，其特征在于，所述的上下文优化模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块；

通道重分配子模块用于重新分配通道间权重，增强通道特征表达能力；该子模块首先对特征沿空间和时间维度进行最大池化和平均池化，再将其结果通过全连接层来学习调整权重，再通过相乘和残差连接以得到调整后的特征，其具体公式如下：

CW＝σ(FC(Avgpool(F₃))+FC(Maxpool(F₃))),

F_cw＝CW×F₃+F₃,

感受野扩大子模块用于增强特征感受野，更好地产生预测所需的上下文信息；该子模块在特征上进行连续的两次池化核为3x3的最大池化操作，并将原始特征和每次最大池化的结果拼接起来，经过卷积调整通道后，得到扩大感受野后的特征，其具体公式如下：

F′＝Maxpool_3×3(F_cw),

F_out＝Conv([F_cw,F′,Maxpool_3×3(F′)]),

空间增强子模块用于增强显著性区域的权重，抑制无关区域的影响；该子模块首先对特征沿通道和时间维度进行最大池化和平均池化，再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重，将特征与该权重相乘和残差连接得到增强后的特征，其具体公式如下：

SE＝σ(Conv([Maxpool(F_out),Avgpool(F_out)])),

F＝SE×F_out+F_out。

4.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法，其特征在于，所述的显著性传递机制利用先前帧的显著性信息来促进当前帧的预测；该机制由显著性传递模块实现，该模块可分为空间注意力融合子模块和ConvGRU子模块组成；

空间注意力融合子模块基于显著性图的连续性，利用之前的显著性信息来定位当先显著性区域；该子模块首先拼接隐藏状态和输入特征，然后分别通过卷积层、tanh函数、卷积层和Sigmoid函数，得到通道数为1的空间注意权重，与输入特征相乘得到调整后的特征，其具体公式如下：

X′_t＝X_t×σ(Conv(tanh(Conv([X_t,H_t-1])))),

z_t＝σ(Conv([X′_t,H_t-1])),

r_t＝σ(Conv([X′_t,H_t-1])),

5.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法，其特征在于，所述视频显著性区域预测网络的训练步骤包括：

搭建视频显著性区域预测网络；

构建训练集和验证集，包含视频帧序列和对应的显著图；