CN116229106A - 一种基于双u结构的视频显著性预测方法 - Google Patents

一种基于双u结构的视频显著性预测方法 Download PDF

Info

Publication number
CN116229106A
CN116229106A CN202211700313.9A CN202211700313A CN116229106A CN 116229106 A CN116229106 A CN 116229106A CN 202211700313 A CN202211700313 A CN 202211700313A CN 116229106 A CN116229106 A CN 116229106A
Authority
CN
China
Prior art keywords
time
space
features
encoder
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211700313.9A
Other languages
English (en)
Inventor
颜成钢
武松鹤
陈雨中
周晓飞
高宇涵
孙垚棋
朱尊杰
陈楚翘
王鸿奎
王廷宇
殷海兵
张继勇
李宗鹏
赵治栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangdian Lishui Research Institute Co Ltd
Original Assignee
Hangdian Lishui Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangdian Lishui Research Institute Co Ltd filed Critical Hangdian Lishui Research Institute Co Ltd
Priority to CN202211700313.9A priority Critical patent/CN116229106A/zh
Publication of CN116229106A publication Critical patent/CN116229106A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于双U结构的视频显著性预测方法,通过使用一种新颖的双U编解码结构,有效地挖掘出全局语义信息和局部细节信息,同时更加充分地利用了多尺度特征;通过使用桥接块,进一步扩大了模型的感受野,增强了模型获取多尺度上下文信息的能力;通过在编码器和解码器的各个层级部署加权融合模块,更加有效地融合时间和空间特征。通过以上设计,本发明能够进一步提升视频显著性预测的性能。

Description

一种基于双U结构的视频显著性预测方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于双U结构的视频显著性预测方法。
背景技术
人类能够快速定位视野中最重要的区域,这种能力被称为视觉注意力机制,它有助于处理各种视觉信息。在计算机视觉领域,视觉注意力机制建模是一项基础研究课题,被称为显著性预测或注视预测,它旨在推导出图像中每个区域的视觉显著程度并以显著图的形式呈现。显著性预测已被广泛应用于各种计算机视觉任务,例如:图像字幕、对象分割、视频压缩等。
视频显著性预测的传统模型主要是利用静态和运动信息探索动态场景的注视分布,然而,手工制作的时空特征不足以模拟视频显著性。随着神经网络的复兴,近年来出现了许多基于深度学习的视频显著性预测模型,它们大致分为三种类型:第一类是基于双流网络的模型,该类模型使用RGB主干和光流主干对外观和运动信息进行编码,并将它们融合以进行视频显著性预测。然而,现有模型大多将外观和运动信息简单融合,无法充分利用主干提取的时空信息。第二类是基于长短期记忆(LSTM)网络的模型,该类模型先使用卷积神经网络建模空间信息,再使用LSTM获取视频中的时间信息。但它们无法同步利用空间和时间信息,这限制了模型的显著性预测能力。第三类是基于3D卷积的模型,该类模型能够通过3D卷积联合处理时间和空间特征,但是3D卷积不仅计算成本高而且只能处理局部时空,因此它们缺乏直接建模视频中的远程时空关系的能力。
发明内容
针对现有方法中存在的不足,本发明以双流网络为基础提出了一种基于双U结构的视频显著性预测方法,该方法不仅能将光流主干和RGB主干提取的时间和空间特征充分融合,而且能够从多个尺度学习时空显著性表示,提高了视频显著性预测的准确性。
本发明所要解决的技术问题:现有的视频显著性预测技术无法充分利用多尺度时空特征,也无法有效融合光流主干和RGB主干中包含的时间和空间特征,导致预测的视频显著性区域不准确。
本发明解决该技术问题所采用的技术方案:使用一种基于双U结构的视频显著性预测方法来提高视频显著性预测的准确度。为了有效挖掘全局上下文信息和局部细节信息并充分利用多尺度时空特征,本发明设计了一种双U结构。其中,第一个U型结构用于编码和解码光流图中包含的时间信息,第二个U型结构用于编码和解码视频帧中包含的空间信息。两个U型结构在编码器和解码器的不同层级进行特征融合。为了有效融合时空特征,提出了一个加权融合模块,用于将时间和空间特征深入融合,其中运动特征作为外观特征的门控信号,能够过滤掉不相关的空间信息并注入丰富的时间信息。
一种基于双U结构的视频显著性预测方法,步骤如下:
步骤1:通过时空编码器提取视频帧和光流图中包含的时间和空间特征。
首先对待预测的视频帧和对应的光流图进行预处理,包括格式转换、尺寸调整和数值归一化,使它们转化为模型能够处理的数据格式以提高模型的执行效率。然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器,提取多层级的时间特征和空间特征。
步骤2:在时空编码器提取时间和空间特征过程中通过加权融合模块对提取的时间和空间特征进行融合。
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块。然后,加权融合模块先将初始层级的时空特征进行初步融合,再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接,从而进一步融合时空特征。最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是,在时空编码器的所有层级,从低到高都会执行特征的提取与融合。
步骤3:通过桥接块增强时空特征。
首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块,然后,桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强。最后将增强后的特征输入到对应的解码器进一步处理。
步骤4:将原始时空编码特征融入到对应层级的时空解码块。
首先从时间编码器中提取出原始时间编码特征,从空间编码器中提取出原始空间编码特征。然后将原始时间编码特征与对应层级的时间解码特征拼接,将原始空间编码特征与空间解码器中对应层级的加权融合模块处理后的时空特征拼接。最后将拼接的时间和空间特征分别输入到时间解码块和空间解码块进行解码处理。
步骤5:将时空解码块提取的时间和空间解码特征融合。
首先将时空解码块提取的时间和空间解码特征输入到加权融合模块。然后加权融合模块会将时空解码特征进行充分融合,突出显著信息,去除冗余信息。最后将融合后的时空特征输入到下一层的空间解码块进一步处理。需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码与融合。
步骤6:预测视频帧对应的显著图。
当时空特征传输到解码块S1后,先将时空特征经过一系列卷积层处理使其通道维度降至1,再经过一个Sigmoid激活函数处理,最后使用双线性上采样函数使其恢复到视频帧的原始大小即可生成最终的显著图。
本发明有益效果如下:
通过使用一种新颖的双U编解码结构,有效地挖掘出全局语义信息和局部细节信息,同时更加充分地利用了多尺度特征;通过使用一种桥接块,进一步扩大了模型的感受野,增强了模型获取多尺度上下文信息的能力;通过在编码器和解码器的各个层级部署加权融合模块,更加有效地融合时间和空间特征。通过以上设计,本发明能够进一步提升视频显著性预测的性能。
附图说明
图1基于双U结构的视频显著性预测模型结构图。
图2加权融合模块结构图。
图3桥接块结构图。
具体实施方式
结合发明内容和附图对该发明的执行步骤进行详细论述。
步骤1:提取视频帧和光流图中包含的时间和空间特征。
首先将视频帧和对应的光流图进行预处理,具体包括:读取图片并将其转换为RGB格式;将分辨率调整为224×224;将数据类型转化为Tensor型;将图片数值范围从[0,255]映射到[-1,1]。
然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器提取时间和空间特征。时间和空间编码器结构相同,都是基于ResNet-34主干构建的,如图1所示,时间编码器包含5层时间编码块T1-T5,空间编码器包含5层时间编码块S1-S5。具体来说,以时间编码器为例,首先将ResNet-34主干的Conv-1模块中的卷积层(内核大小为7×7、步幅为2)替换为内核大小为3×3、步幅为1的卷积层,并且舍弃了Conv-1模块之后的最大池化层,然后将Conv-1和Conv-2设置为编码器的第一编码块T1。之后,第二编码块T2、第三编码块T3和第四编码块T4分别采用ResNet-34的Conv-3、Conv-4和Conv-5。此外,为了进一步扩大模型的感受野,在第四编码块T4之后部署了一个最大池化层和三个残差卷积层,这些层构成了第五编码块T5。
步骤2:将时空编码器提取的时间和空间特征融合。
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块。然后,如图2所示,加权融合模块先将初始层级的时空特征进行初步融合,再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接,从而进一步融合时空特征。最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是,在时空编码器的所有层级,从低到高都会执行特征的提取与融合,这种设计充分利用了时空编码器的多级特征。具体方法如下:
首先将时空编码器提取的时间特征
Figure BDA0004023829620000061
和空间特征
Figure BDA0004023829620000062
输入到加权融合模块,然后加权融合模块会将时间和空间特征充分融合,突出显著信息,去除冗余信息。具体来说,以第一层为例,首先将时间特征
Figure BDA0004023829620000063
和空间特征
Figure BDA0004023829620000064
相加得到初始融合特征
Figure BDA0004023829620000065
再使用1×1卷积层将特征进一步融合,随后使用Sigmoid激活函数生成权重矩阵。与以往方法不同,该权重矩阵的通道维度是C而不是1,这样的设计能够更加精准定位显著目标。随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征
Figure BDA0004023829620000066
以上过程可由公
式1表示。
Figure BDA0004023829620000067
其中
Figure BDA0004023829620000068
表示逐元素相乘,+表示逐元素相加,Conv表示1×1卷积操作,Sigmoid表示Sigmoid激活函数。
最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是,在时空编码器的所有层级,从低到高会依次执行特征的编码提取与融合,直到达到编码器的最顶层。以上过程可由公式2表示。
Figure BDA0004023829620000071
其中WFM表示加权融合模块,
Figure BDA0004023829620000072
表示编码器中加权融合后的时空特征。
步骤3:通过桥接块增强时空特征。
首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块,然后,如图3所示,桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强,其中不同的空洞卷积层具有不同的感受野,这增强了模型获取全局上下文信息的能力。最后将增强后的特征输入到对应的解码器进一步处理。具体方法如下:
首先将编码器最顶层的高级时间特征F5 T和空间特征F5 S分别输入到桥接块T和桥接块S进行增强处理。具体来说,以时间桥接块T为例,先将高级时间特征分别输入到4个并行的具有不同膨胀率(2,4,8,16)的空洞卷积层处理,再将4个空洞卷积层输出的增强特征与原始高级特征拼接在一起得到fBT,随后使用一个卷积层将拼接特征fBT充分融合并将其通道数恢复至原始大小,进而得到增强特征FBT,以上过程可由公式3表示。
Figure BDA0004023829620000073
其中,Ci,i∈{2,4,8,16}表示膨胀率为i的空洞卷积,
Figure BDA0004023829620000074
表示拼接操作,BN表示批量归一化操作,Relu表示Relu激活函数。然后将增强特征FBT输入到时间解码器中进一步处理。
步骤4:将原始时空编码特征融入到对应层级的时空解码块。
首先从时间编码器中提取出原始时间编码特征
Figure BDA0004023829620000081
(特征①-⑤),从空间编码器中提取出原始空间编码特征
Figure BDA0004023829620000082
(特征⑥-⑩)。然后将
Figure BDA0004023829620000083
与对应层级的时间解码块提取的时间解码特征
Figure BDA0004023829620000084
拼接,将
Figure BDA0004023829620000085
与空间解码器中使用加权融合模块处理后的时空特征
Figure BDA0004023829620000086
拼接。最后将拼接的时间和空间特征分别输入到下一层的时间和空间解码块进行解码处理。
时间和空间解码器具有相同的结构,具体来说,以时间解码器为例,每个解码器包含五个解码块,其中每个解码块由三个卷积块组成,每个卷积块包含一个3×3卷积层、一个BN层和一个Relu层。此外,前四个解码块后都接了一个双线性上采样层用于放大特征图,最后一个解码块后接了一个1×1卷积层和一个Sigmoid激活函数,用于生成最终的预测图。
步骤5:将时空解码块提取的时间和空间解码特征融合。
首先将时空解码器输出的时间特征和空间特征输入到加权融合模块,然后通过加权融合模块将时间和空间特征充分融合。具体来说,以第5层为例,先将时间特征
Figure BDA0004023829620000087
和空间特征
Figure BDA0004023829620000088
相加得到初始融合特征
Figure BDA0004023829620000089
再使用1×1卷积层将特征进一步融合,使用Sigmoid激活函数生成权重矩阵,随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征
Figure BDA00040238296200000810
以上过程可由公式4表示。
Figure BDA00040238296200000811
最后将融合后的时空特征输入到下一层的空间解码块处理。需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码处理与融合,直到达到解码器的最低层,这种设计有利于定位显著对象的位置,并且充分利用了解码器的多尺度特征。以上过程可由公
式5表示。
Figure BDA0004023829620000091
其中WFM表示加权融合模块,
Figure BDA0004023829620000092
表示解码中加权融合后的时空特征。
步骤6:预测视频帧对应的显著图。
当时空特征传输到空间解码器的最底层解码块时,先将输出的特征经过一个1×1卷积层处理,将通道维度降至1,再经过一个Sigmoid激活函数将特征的数值范围映射到[0,1],最后使用双线性上采样函数将其恢复到视频帧的原始大小即可得到最终的显著性预测图PS。以上过程可由公式6表示。
Figure BDA0004023829620000093
其中PS表示预测的显著图,Up表示双线性上采样函数。
模型训练设置:
所提出的模型使用Pytorch在1个NVIDIA TITAN X Pascal GPU上实现。其中模型编码器的部分参数使用ResNet-34初始化,模型其余部分的参数由Pytorch的默认设置初始化。使用Adam优化器训练整个模型,初始学习率设置为0.0001,当训练损失饱和时学习率降低10倍。
模型使用DHF1K、Hollywood-2和UCF Sports数据集的训练集进行训练,使用DHF1K的验证集监控整个训练过程,使用这三个数据集的测试集评估模型性能。输入的视频帧和光流图都调整为224×224大小,批量大小设置为5。需要注意的是,在训练过程中需要同时监督时间解码块T1输出的预测图PT和空间解码块S1输出的预测图PS,而在测试过程中使用的预测图是PS
训练的损失函数可以用公式7表示。
L(S,G)=KL(S,G)+CC(S,G) (7)
其中S和G分别表示预测的显著图和对应的真值图。
KL是衡量两个概率分布之间差异的常用指标,其计算过程可由公式8表示。
Figure BDA0004023829620000101
其中ε表示正则化常数。
指标CC用于衡量两个分布图之间的依赖关系,计算过程可由公
式9表示。
Figure BDA0004023829620000102
其中sd表示标准差,cov表示协方差。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。
本发明未详细说明部分属于本领域技术人员公知技术。

Claims (7)

1.一种基于双U结构的视频显著性预测方法,其特征在于,步骤如下:
步骤1:通过时空编码器提取视频帧和光流图中包含的时间和空间特征;
首先对待预测的视频帧和对应的光流图进行预处理,包括格式转换、尺寸调整和数值归一化,使它们转化为模型能够处理的数据格式以提高模型的执行效率;然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器,提取多层级的时间特征和空间特征;
步骤2:在时空编码器提取时间和空间特征过程中通过加权融合模块对提取的时间和空间特征进行融合;
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块;然后,加权融合模块先将初始层级的时空特征进行初步融合,再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接,从而进一步融合时空特征;最后将融合后的时空特征输入到下一层的空间编码块处理;需要注意的是,在时空编码器的所有层级,从低到高都会执行特征的提取与融合;
步骤3:通过桥接块增强时空特征;
首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块,然后,桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强;最后将增强后的特征输入到对应的解码器进一步处理;
步骤4:将原始时空编码特征融入到对应层级的时空解码块;
首先从时间编码器中提取出原始时间编码特征,从空间编码器中提取出原始空间编码特征;然后将原始时间编码特征与对应层级的时间解码特征拼接,将原始空间编码特征与空间解码器中对应层级的加权融合模块处理后的时空特征拼接;最后将拼接的时间和空间特征分别输入到时间解码块和空间解码块进行解码处理;
步骤5:将时空解码块提取的时间和空间解码特征融合;
首先将时空解码块提取的时间和空间解码特征输入到加权融合模块;然后加权融合模块会将时空解码特征进行充分融合,突出显著信息,去除冗余信息;最后将融合后的时空特征输入到下一层的空间解码块进一步处理;需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码与融合;
步骤6:预测视频帧对应的显著图;
当时空特征传输到解码块S1后,先将时空特征经过一系列卷积层处理使其通道维度降至1,再经过一个Sigmoid激活函数处理,最后使用双线性上采样函数使其恢复到视频帧的原始大小即可生成最终的显著图。
2.根据权利要求1所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤1具体方法如下:
首先将视频帧和对应的光流图进行预处理,具体包括:读取图片并将其转换为RGB格式;将分辨率调整为224×224;将数据类型转化为Tensor型;将图片数值范围从[0,255]映射到[-1,1];
然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器提取时间和空间特征;时间和空间编码器结构相同,都是基于ResNet-34主干构建的,时间编码器包含5层时间编码块T1-T5,空间编码器包含5层时间编码块S1-S5;具体来说,以时间编码器为例,首先将ResNet-34主干的Conv-1模块中的卷积层替换为内核大小为3×3、步幅为1的卷积层,并且舍弃了Conv-1模块之后的最大池化层,然后将Conv-1和Conv-2设置为编码器的第一编码块T1;之后,第二编码块T2、第三编码块T3和第四编码块T4分别采用ResNet-34的Conv-3、Conv-4和Conv-5;此外,为了进一步扩大模型的感受野,在第四编码块T4之后部署了一个最大池化层和三个残差卷积层,这些层构成了第五编码块T5。
3.根据权利要求2所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤2具体方法如下:
首先将时空编码器提取的时间特征
Figure FDA0004023829610000031
和空间特征
Figure FDA0004023829610000032
输入到加权融合模块,然后加权融合模块会将时间和空间特征充分融合,突出显著信息,去除冗余信息;具体来说,以第一层为例,首先将时间特征F1 T和空间特征F1 S相加得到初始融合特征f1 TS,再使用1×1卷积层将特征进一步融合,随后使用Sigmoid激活函数生成权重矩阵,该权重矩阵的通道维度是C;随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征F1 TS;以上过程可由公式1表示;
Figure FDA0004023829610000033
其中
Figure FDA0004023829610000034
表示逐元素相乘,+表示逐元素相加,Conv表示1×1卷积操作,Sigmoid表示Sigmoid激活函数;
最后将融合后的时空特征输入到下一层的空间编码块处理;需要注意的是,在时空编码器的所有层级,从低到高会依次执行特征的编码提取与融合,直到达到编码器的最顶层;以上过程可由公式2表示;
Figure FDA0004023829610000041
其中WFM表示加权融合模块,Fi TS表示编码器中加权融合后的时空特征。
4.根据权利要求3所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤3具体方法如下:
首先将编码器最顶层的高级时间特征
Figure FDA0004023829610000042
和空间特征
Figure FDA0004023829610000043
分别输入到桥接块T和桥接块S进行增强处理;具体来说,以时间桥接块T为例,先将高级时间特征分别输入到4个并行的具有不同膨胀率(2,4,8,16)的空洞卷积层处理,再将4个空洞卷积层输出的增强特征与原始高级特征拼接在一起得到fBT,随后使用一个卷积层将拼接特征fBT充分融合并将其通道数恢复至原始大小,进而得到增强特征FBT,以上过程可由公式3表示;
Figure FDA0004023829610000044
其中,Ci,i∈{2,4,8,16}表示膨胀率为i的空洞卷积,
Figure FDA0004023829610000045
表示拼接操作,BN表示批量归一化操作,Relu表示Relu激活函数;然后将增强特征FBT输入到时间解码器中进一步处理。
5.根据权利要求4所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤4具体方法如下:
首先从时间编码器中提取出原始时间编码特征
Figure FDA0004023829610000051
从空间编码器中提取出原始空间编码特征
Figure FDA0004023829610000052
然后将
Figure FDA0004023829610000053
与对应层级的时间解码块提取的时间解码特征
Figure FDA0004023829610000054
拼接,将
Figure FDA0004023829610000055
与空间解码器中使用加权融合模块处理后的时空特征
Figure FDA0004023829610000056
拼接;最后将拼接的时间和空间特征分别输入到下一层的时间和空间解码块进行解码处理;
时间和空间解码器具有相同的结构,具体来说,以时间解码器为例,每个解码器包含五个解码块,其中每个解码块由三个卷积块组成,每个卷积块包含一个3×3卷积层、一个BN层和一个Relu层;此外,前四个解码块后都接了一个双线性上采样层用于放大特征图,最后一个解码块后接了一个1×1卷积层和一个Sigmoid激活函数,用于生成最终的预测图。
6.根据权利要求5所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤5具体方法如下:
首先将时空解码器输出的时间特征和空间特征输入到加权融合模块,然后通过加权融合模块将时间和空间特征充分融合;具体来说,以第5层为例,先将时间特征
Figure FDA0004023829610000057
和空间特征
Figure FDA0004023829610000058
相加得到初始融合特征
Figure FDA0004023829610000059
再使用1×1卷积层将特征进一步融合,使用Sigmoid激活函数生成权重矩阵,随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征
Figure FDA00040238296100000510
以上过程可由公式4表示;
Figure FDA00040238296100000511
最后将融合后的时空特征输入到下一层的空间解码块处理;需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码处理与融合,直到达到解码器的最低层;以上过程可由公式5表示;
Figure FDA0004023829610000061
其中WFM表示加权融合模块,
Figure FDA0004023829610000062
表示解码中加权融合后的时空特征。
7.根据权利要求6所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤6具体方法如下:
当时空特征传输到空间解码器的最底层解码块时,先将输出的特征经过一个1×1卷积层处理,将通道维度降至1,再经过一个Sigmoid激活函数将特征的数值范围映射到[0,1],最后使用双线性上采样函数将其恢复到视频帧的原始大小即可得到最终的显著性预测图PS;以上过程可由公式6表示;
Figure FDA0004023829610000063
其中PS表示预测的显著图,Up表示双线性上采样函数。
CN202211700313.9A 2022-12-28 2022-12-28 一种基于双u结构的视频显著性预测方法 Withdrawn CN116229106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211700313.9A CN116229106A (zh) 2022-12-28 2022-12-28 一种基于双u结构的视频显著性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211700313.9A CN116229106A (zh) 2022-12-28 2022-12-28 一种基于双u结构的视频显著性预测方法

Publications (1)

Publication Number Publication Date
CN116229106A true CN116229106A (zh) 2023-06-06

Family

ID=86575844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211700313.9A Withdrawn CN116229106A (zh) 2022-12-28 2022-12-28 一种基于双u结构的视频显著性预测方法

Country Status (1)

Country Link
CN (1) CN116229106A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612122A (zh) * 2023-07-20 2023-08-18 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN117176967A (zh) * 2023-09-03 2023-12-05 石家庄铁道大学 基于上下文优化与时间递归的视频显著性预测方法
CN118247571A (zh) * 2024-04-08 2024-06-25 上海交通大学医学院附属新华医院 一种基于多参数mri图像的乳腺癌辅助识别方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612122A (zh) * 2023-07-20 2023-08-18 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN116612122B (zh) * 2023-07-20 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN117176967A (zh) * 2023-09-03 2023-12-05 石家庄铁道大学 基于上下文优化与时间递归的视频显著性预测方法
CN117176967B (zh) * 2023-09-03 2024-03-01 石家庄铁道大学 基于上下文优化与时间递归的视频显著性预测方法
CN118247571A (zh) * 2024-04-08 2024-06-25 上海交通大学医学院附属新华医院 一种基于多参数mri图像的乳腺癌辅助识别方法及装置

Similar Documents

Publication Publication Date Title
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN116229106A (zh) 一种基于双u结构的视频显著性预测方法
CN114187450B (zh) 一种基于深度学习的遥感图像语义分割方法
CN109636721B (zh) 基于对抗学习和注意力机制的视频超分辨率方法
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN111401379A (zh) 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法
CN114283120B (zh) 一种基于领域自适应的端到端多源异质遥感影像变化检测方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN116310916A (zh) 一种高分辨率遥感城市图像语义分割方法及系统
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN114998373A (zh) 基于多尺度损失函数的改进型U-Net云图分割方法
CN117292117A (zh) 一种基于注意力机制的小目标检测方法
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法
CN114282649A (zh) 基于双向注意力机制增强yolo v5的目标检测方法
CN114155165A (zh) 一种基于半监督的图像去雾方法
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
US11954917B2 (en) Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN117079237A (zh) 一种自监督的单目车距检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230606

WW01 Invention patent application withdrawn after publication