CN117176967B - 基于上下文优化与时间递归的视频显著性预测方法 - Google Patents

基于上下文优化与时间递归的视频显著性预测方法 Download PDF

Info

Publication number
CN117176967B
CN117176967B CN202311126117.XA CN202311126117A CN117176967B CN 117176967 B CN117176967 B CN 117176967B CN 202311126117 A CN202311126117 A CN 202311126117A CN 117176967 B CN117176967 B CN 117176967B
Authority
CN
China
Prior art keywords
video
saliency
prediction
submodule
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311126117.XA
Other languages
English (en)
Other versions
CN117176967A (zh
Inventor
张云佐
张天
王双双
王书海
张志国
朱艳菊
王欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tiedao University
Original Assignee
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tiedao University filed Critical Shijiazhuang Tiedao University
Priority to CN202311126117.XA priority Critical patent/CN117176967B/zh
Publication of CN117176967A publication Critical patent/CN117176967A/zh
Application granted granted Critical
Publication of CN117176967B publication Critical patent/CN117176967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于上下文优化与时间递归的视频显著性预测方法。所述方法包括如下步骤:获取待预测视频序列,输入到训练好的视频显著性预测网络中;采用Video swin transformer主干网络的编码器,提取显著性特征;通过上下文优化模块,增强该特征的感受野和表现能力;并进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测;将增强后的特征传入解码器中,进行求和与上采样,恢复至原始帧尺寸,便可得到最终的显著性图。所述方法结构简单有效,提高了视频显著性区域预测精度,在精度和推理时间上均有明显优势。

Description

基于上下文优化与时间递归的视频显著性预测方法
技术领域
本发明涉及图像通信方法技术领域,尤其涉及一种基于上下文优化与时间递归的视频显著性预测方法。
背景技术
视频显著性区域检测是视频处理和计算机视觉领域的一项基础任务,同时也在感知视频编码中扮演着重要的角色。其主要目标是模拟人类视觉关注系统,以预测在观看视频时人们对不同视频区域的关注程度,并将其以显著性图的形式呈现。在感知视频编码中,这项任务首先用于捕获视频中的显著性区域,然后将更多的比特资源分配给这些显著性区域,以确保它们保持高清质量,而对于非显著性区域则允许适度的失真。这一过程的目标是在不影响主观视觉感知的情况下减少视频编码的比特率,提高视频的压缩率,从而减少视频存储需求,减轻视频通信的带宽负担。
随着深度学习的发展,视频显著性区域检测领域取得很大的进步,其模型的精度也在不断提高。然而,这种发展是渐进性的,主流方法大多采用类似的方式,缺乏新观点出现,视频显著性区域发展陷入瓶颈。一方面,现有模型大多依靠多尺度融合和复杂的结构细化,虽然精度有较小的提升,但带来的计算量是巨大的;另一方面,现有主流的基于3D卷积或视频Transformer模型只依赖输入帧序列来进行建模,忽略了之前显著性帧的有效信息。
发明内容
本发明为了解决现有方法中的上述问题,提出一种基于上下文优化与时间递归的视频显著性预测方法。
一种基于上下文优化与时间递归的视频显著性预测方法,其特征在于包括如下步骤:
S1:获取待预测视频序列,选取16帧连续帧,输入到训练好的视频显著性区域预测网络中;
S2:该预测网络采用Video swin transformer主干网络的编码器,以提取显著性特征;
步骤S2:搭建神经网络模型,构建损失函数,所述神经网络模型包括:
S3:通过上下文优化模块,增强该特征的感受野和表现能力;
S4:进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测;
S5:将增强后的特征传入解码器中,进行求和与上采样,恢复至原始帧尺寸,便可得到最终的显著性图。
进一步的技术方案在于,主干网络采用去除第四阶段的Video swin transformer网络,其产生的特征为其中T=16,C=96,H,W为原始视频的高宽。
进一步的技术方案在于,上下文优化模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块。
通道重分配子模块用于重新分配通道间权重,增强通道特征表达能力。该子模块首先对特征沿空间和时间维度进行最大池化和平均池化,再将其结果通过全连接层来学习调整权重,再通过相乘和残差连接以得到调整后的特征。其具体公式如下:
CW=σ(FC(Avgpool(F3))+FC(Maxpool(F3))),
Fcw=CW×F3+F3,
感受野扩大子模块用于增强特征感受野,更好地产生预测所需的上下文信息。该子模块在特征上进行连续的两次池化核为3x3的最大池化操作,并将原始特征和每次最大池化的结果拼接起来,经过卷积调整通道后,得到扩大感受野后的特征。其具体公式如下:
空间增强子模块用于增强显著性区域的权重,抑制无关区域的影响。该子模块首先对特征沿通道和时间维度进行最大池化和平均池化,再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重,将特征与该权重相乘和残差连接得到增强后的特征。其具体公式如下:
F′=Maxpool3×3(Fcw),
Fout=Conv([Fcw,F′,Maxpool3×3(F′)]),
空间增强子模块用于增强显著性区域的权重,抑制无关区域的影响。该子模块首先对特征沿通道和时间维度进行最大池化和平均池化,再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重,将特征与该权重相乘和残差连接得到增强后的特征。其具体公式如下:
SE=σ(Conv([Maxpool(Fxut),Avgpool(Fout)])),
F=SE×Fout+Fout
进一步的技术方案在于,显著性传递机制利用先前帧的显著性信息来促进当前帧的预测。该机制由显著性传递模块实现,该模块可分为空间注意力融合子模块和ConvGRU子模块组成。
空间注意力融合子模块基于显著性图的连续性,利用之前的显著性信息来定位当先显著性区域。该子模块首先拼接隐藏状态和输入特征,然后分别通过卷积层、tanh函数、卷积层和Sigmoid函数,得到通道数为1的空间注意权重,与输入特征相乘得到调整后的特征,其具体公式如下:
X′t=Xt×σ(Conv(tanh(Conv([Xt,Ht-1])))),
ConvGRU子模块用于建模连续帧的显著性关系,该模块计算方式如下:
zt=σ(Conv([X′t,Ht-1])),
rt=σ(Conv([X′t,Ht-1])),
其中Ht既是用于本帧显著性区域预测的增强后特征,又是传入下一帧的隐藏状态。
进一步的技术方案在于,视频显著性区域预测网络的训练步骤包括:
搭建视频显著性区域预测网络;
构建训练集和验证集,包含视频帧序列和对应的显著图;
将训练集输入到视频显著性区域预测网络中,获取其输出的显著性图,将该显著图与真实显著图进行损失函数计算并进行反向传播;
多代训练训练该预测网络,并再验证集进行评估;当验证集损失最小时,保存网络权重,即可获取训练好的视频显著性区域检测网络。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例一中基于上下文优化与时间递归的视频显著性预测方法的流程示意图;
图2是本发明实施例一中基于上下文优化与时间递归的视频显著性预测方法的网络细节示意图;
图3是本发明实施例一中显著性传递机制的结构示意图;
图4是本发明实施例一中模型检测效果对比图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
实施例一
本发明实施例提供了一种基于上下文优化与时间递归的视频显著性预测方法,包括:
S1:获取待预测视频序列,选取16帧连续帧,输入到训练好的视频显著性区域预测网络中;
S2:该预测网络采用Video swin transformer主干网络的编码器,以提取显著性特征;
S3:通过上下文优化模块,增强该特征的感受野和表现能力;
S4:进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测;
S5:将增强后的特征传入解码器中,进行求和与上采样,恢复至原始帧尺寸,便可得到最终的显著性图。
本发明提供一个优选实施例执行S1。采用滑动窗口的方式选择16帧,当对前16帧进行预测时,将输入视频反转来获取。其网络整体架构如图2所示。
本发明提供一个优选实施例执行S2。主干网络采用去除第四阶段的Video swintransformer网络,其产生的特征为其中T=16,C=96,H,W为原始视频的高宽。
本发明提供一个优选实施例执行S3。上下文优化模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块,其结构和子模块架构参见图2。
通道重分配子模块用于重新分配通道间权重,增强通道特征表达能力。该子模块首先对特征沿空间和时间维度进行最大池化和平均池化,再将其结果通过全连接层来学习调整权重,再通过相乘和残差连接以得到调整后的特征。其具体公式如下:
CW=σ(FC(Avgpool(F3))+FC(Maxpool(F3))),
Fcw=CW×F3+F3,
感受野扩大子模块用于增强特征感受野,更好地产生预测所需的上下文信息。该子模块在特征上进行连续的两次池化核为3x3的最大池化操作,并将原始特征和每次最大池化的结果拼接起来,经过卷积调整通道后,得到扩大感受野后的特征。其具体公式如下:
F′=Maxpool3×3(Fcw),
Fout=Conv([Fcw,F′,Maxpool3×3(F′)]),
空间增强子模块用于增强显著性区域的权重,抑制无关区域的影响。该子模块首先对特征沿通道和时间维度进行最大池化和平均池化,再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重,将特征与该权重相乘和残差连接得到增强后的特征。其具体公式如下:
SE=σ(Conv([Maxpool(Fout),Avgpool(Fout)])),
F=SE×Fout+Fout
本发明提供一个优选实施例执行S4。显著性传递机制利用先前帧的显著性信息来促进当前帧的预测。该机制由显著性传递模块实现,该模块可分为空间注意力融合子模块和ConvGRU子模块组成,该模块和子模块架构如图3所示。
空间注意力融合子模块基于显著性图的连续性,利用之前的显著性信息来定位当先显著性区域。该子模块首先拼接隐藏状态和输入特征,然后分别通过卷积层、tanh函数、卷积层和Sigmoid函数,得到通道数为1的空间注意权重,与输入特征相乘得到调整后的特征,其具体公式如下:
X′t=Xt×σ(Conv(tanh(Conv([Xt,Ht-1])))),
ConvGRU子模块用于建模连续帧的显著性关系,该模块计算方式如下:
zt=σ(Conv([X′t,Ht-1])),
rt=σ(Conv([X′t,Ht-1])),
其中Ht既是用于本帧显著性区域预测的增强后特征,又是传入下一帧的隐藏状态。
本发明提供一个优选实施例执行S5。视频显著性区域预测网络的训练步骤包括:
搭建视频显著性区域预测网络;
构建训练集和验证集,包含视频帧序列和对应的显著图。其数据集包含:DHF1K、Hollywood-2、UCF-Sports和LEDOV。其中,DHF1K为大型视频注视数据库,涵盖类型较多,该数据集中1000个视频被划分为训练集、验证集和测试集,其数量分别为600个、100个和300个。Hollywood-2为来自好莱坞电影的1707段视频,其中823个视频用于训练,884个视频用于测试。UCF-Sports为来自体育运动视频的数据集,其中103个视频用于训练,47个视频用于测试。
将训练集输入到视频显著性区域预测网络中,获取其输出的显著性图,将该显著图与真实显著图进行损失函数计算并进行反向传播。显著性预测损失为:L=LKL+a1Lcc+a2LNSS,其中,a1=0.5,a2=0.2,LKL、LCC和LNSS分别为KL散度损失,线性相关系数和正则化扫描路径显著性损失。
多代训练训练该预测网络,并再验证集进行评估;当验证集损失最小时,保存网络权重,即可获取训练好的视频显著性区域检测网络。
为了验证以上实施例一的有效性,本发明方法与其他先进方法在三个数据集DHF1K、Hollywood-2、UCF-Sports上进行性能对比,并选用常用的5个指标作为衡量:AUC-Judd(AUC-J)、相似性度量(Similarity Metric,SIM)、s_AUC、CC和NSS。这五个指标越大,说明显著性区域越精准。实验结果如表1所示,其定性实验如图4所示。
表1在三个数据集上的预测精度对比结果
由表1和图4可知,本实施例在各个数据集上的多项指标上都领先于现有方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请保护范围之内。

Claims (3)

1.一种基于上下文优化与时间递归的视频显著性预测方法,其特征在于,包括如下步骤:
S1:获取待预测视频序列,选取16帧连续帧,输入到训练好的视频显著性区域预测网络中;
S2:该预测网络采用Video swin transformer主干网络的编码器,以提取显著性特征;
S3:通过上下文优化模块,增强该特征的感受野和表现能力;该模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块;
通道重分配子模块用于重新分配通道间权重,增强通道特征表达能力;该子模块首先对特征沿空间和时间维度进行最大池化和平均池化,再将其结果通过全连接层来学习调整权重,再通过相乘和残差连接以得到调整后的特征,其具体公式如下:
CW=σ(FC(Avgpool(F3))+FC(Maxpool(F3))),
Fcw=CW×F3+F3,
感受野扩大子模块用于增强特征感受野,更好地产生预测所需的上下文信息;该子模块在特征上进行连续的两次池化核为3x3的最大池化操作,并将原始特征和每次最大池化的结果拼接起来,经过卷积调整通道后,得到扩大感受野后的特征,其具体公式如下:
F′=Maxpool3×3(Fcw),
Fout=Conv([Fcw,F′,Maxpool3×3(F′)]),
空间增强子模块用于增强显著性区域的权重,抑制无关区域的影响;该子模块首先对特征沿通道和时间维度进行最大池化和平均池化,再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重,将特征与该权重相乘和残差连接得到增强后的特征,其具体公式如下:
SE=σ(Conv([Maxpool(Fout),Avgpool(Fout)])),
F=SE×Fout+Fout,
S4:进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测;该机制由显著性传递模块实现,该模块可分为空间注意力融合子模块和ConvGRU子模块组成;
空间注意力融合子模块基于显著性图的连续性,利用之前的显著性信息来定位当先显著性区域;该子模块首先拼接隐藏状态和输入特征,然后分别通过卷积层、tanh函数、卷积层和Sigmoid函数,得到通道数为1的空间注意权重,与输入特征相乘得到调整后的特征,其具体公式如下:
X′t=Xt×σ(Conv(tanh(Conv([Xt,Ht-1])))),
ConvGRU子模块用于建模连续帧的显著性关系,该模块计算方式如下:
zt=σ(Conv([X′t,Ht-1])),
rt=σ(Conv([X′t,Ht-1])),
其中Ht既是用于本帧显著性区域预测的增强后特征,又是传入下一帧的隐藏状态;
S5:将增强后的特征传入解码器中,进行求和与上采样,恢复至原始帧尺寸,便可得到最终的显著性图。
2.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法,其特征在于,所述的主干网络采用去除第四阶段的Video swin transformer网络,其产生的特征为其中T=16,C=96,H,W为原始视频的高宽。
3.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法,其特征在于,所述视频显著性区域预测网络的训练步骤包括:
搭建视频显著性区域预测网络;
构建训练集和验证集,包含视频帧序列和对应的显著性图;
将训练集输入到视频显著性区域预测网络中,获取其输出的显著性图,将该显著性图与真实显著性图进行损失函数计算并进行反向传播;
多代训练训练该预测网络,并再验证集进行评估;当验证集损失最小时,保存网络权重,即可获取训练好的视频显著性区域检测网络。
CN202311126117.XA 2023-09-03 2023-09-03 基于上下文优化与时间递归的视频显著性预测方法 Active CN117176967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311126117.XA CN117176967B (zh) 2023-09-03 2023-09-03 基于上下文优化与时间递归的视频显著性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311126117.XA CN117176967B (zh) 2023-09-03 2023-09-03 基于上下文优化与时间递归的视频显著性预测方法

Publications (2)

Publication Number Publication Date
CN117176967A CN117176967A (zh) 2023-12-05
CN117176967B true CN117176967B (zh) 2024-03-01

Family

ID=88931304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311126117.XA Active CN117176967B (zh) 2023-09-03 2023-09-03 基于上下文优化与时间递归的视频显著性预测方法

Country Status (1)

Country Link
CN (1) CN117176967B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040222A (zh) * 2020-08-07 2020-12-04 深圳大学 一种视觉显著性预测方法及设备
CN115731505A (zh) * 2023-01-06 2023-03-03 石家庄铁道大学 视频显著性区域检测方法、装置、电子设备及存储介质
CN116229106A (zh) * 2022-12-28 2023-06-06 杭电(丽水)研究院有限公司 一种基于双u结构的视频显著性预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040222A (zh) * 2020-08-07 2020-12-04 深圳大学 一种视觉显著性预测方法及设备
CN116229106A (zh) * 2022-12-28 2023-06-06 杭电(丽水)研究院有限公司 一种基于双u结构的视频显著性预测方法
CN115731505A (zh) * 2023-01-06 2023-03-03 石家庄铁道大学 视频显著性区域检测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Video Swin Transformer;Ze Liu 等;arXiv:2106.13230v1;全文 *
基于3D全时序卷积神经网络的视频显著性检测;王教金;蹇木伟;刘翔宇;林培光;耿蕾蕾;崔超然;尹义龙;;计算机科学(08);全文 *

Also Published As

Publication number Publication date
CN117176967A (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN112954312B (zh) 一种融合时空特征的无参考视频质量评估方法
CN112085102B (zh) 基于三维时空特征分解的无参考视频质量评价方法
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
EP3885966B1 (en) Method and device for generating natural language description information
CN111787187B (zh) 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN115731505B (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
CN116310667B (zh) 联合对比损失和重建损失的自监督视觉表征学习方法
CN115101061A (zh) 语音识别模型的训练方法、装置、存储介质及电子设备
CN113658122A (zh) 图像质量评价方法、装置、存储介质与电子设备
Wang et al. Deep joint source-channel coding for multi-task network
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
CN116030077B (zh) 基于多数据集协作学习的视频显著性区域检测方法
CN117834852A (zh) 基于跨注意力多尺度视觉变压器的时空视频质量评价方法
CN117176967B (zh) 基于上下文优化与时间递归的视频显著性预测方法
CN115797646A (zh) 多尺度特征融合的视频去噪方法、系统、设备及存储介质
CN113327265B (zh) 一种基于指导学习策略的光流估计方法和系统
CN111368898B (zh) 一种基于长短时记忆网络变体的图像描述生成方法
Aslam et al. Tqp: An efficient video quality assessment framework for adaptive bitrate video streaming
Chai et al. MS-PCQE: Efficient No-Reference Point Cloud Quality Evaluation via Multi-Scale Interaction Module in Immersive Communications
CN115273129B (zh) 基于神经架构搜索的轻量级人体姿态估计方法及装置
CN118155270B (zh) 模型训练方法、人脸识别方法及相关设备
CN114513684B (zh) 视频画质增强模型的构建方法、视频画质增强方法及装置
CN116258647B (zh) 图像去噪方法,天气图像修复方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant