CN116229106A - 一种基于双u结构的视频显著性预测方法 - Google Patents
一种基于双u结构的视频显著性预测方法 Download PDFInfo
- Publication number
- CN116229106A CN116229106A CN202211700313.9A CN202211700313A CN116229106A CN 116229106 A CN116229106 A CN 116229106A CN 202211700313 A CN202211700313 A CN 202211700313A CN 116229106 A CN116229106 A CN 116229106A
- Authority
- CN
- China
- Prior art keywords
- time
- space
- features
- encoder
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 230000002123 temporal effect Effects 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 230000003287 optical effect Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于双U结构的视频显著性预测方法,通过使用一种新颖的双U编解码结构,有效地挖掘出全局语义信息和局部细节信息,同时更加充分地利用了多尺度特征;通过使用桥接块,进一步扩大了模型的感受野,增强了模型获取多尺度上下文信息的能力;通过在编码器和解码器的各个层级部署加权融合模块,更加有效地融合时间和空间特征。通过以上设计,本发明能够进一步提升视频显著性预测的性能。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于双U结构的视频显著性预测方法。
背景技术
人类能够快速定位视野中最重要的区域,这种能力被称为视觉注意力机制,它有助于处理各种视觉信息。在计算机视觉领域,视觉注意力机制建模是一项基础研究课题,被称为显著性预测或注视预测,它旨在推导出图像中每个区域的视觉显著程度并以显著图的形式呈现。显著性预测已被广泛应用于各种计算机视觉任务,例如:图像字幕、对象分割、视频压缩等。
视频显著性预测的传统模型主要是利用静态和运动信息探索动态场景的注视分布,然而,手工制作的时空特征不足以模拟视频显著性。随着神经网络的复兴,近年来出现了许多基于深度学习的视频显著性预测模型,它们大致分为三种类型:第一类是基于双流网络的模型,该类模型使用RGB主干和光流主干对外观和运动信息进行编码,并将它们融合以进行视频显著性预测。然而,现有模型大多将外观和运动信息简单融合,无法充分利用主干提取的时空信息。第二类是基于长短期记忆(LSTM)网络的模型,该类模型先使用卷积神经网络建模空间信息,再使用LSTM获取视频中的时间信息。但它们无法同步利用空间和时间信息,这限制了模型的显著性预测能力。第三类是基于3D卷积的模型,该类模型能够通过3D卷积联合处理时间和空间特征,但是3D卷积不仅计算成本高而且只能处理局部时空,因此它们缺乏直接建模视频中的远程时空关系的能力。
发明内容
针对现有方法中存在的不足,本发明以双流网络为基础提出了一种基于双U结构的视频显著性预测方法,该方法不仅能将光流主干和RGB主干提取的时间和空间特征充分融合,而且能够从多个尺度学习时空显著性表示,提高了视频显著性预测的准确性。
本发明所要解决的技术问题:现有的视频显著性预测技术无法充分利用多尺度时空特征,也无法有效融合光流主干和RGB主干中包含的时间和空间特征,导致预测的视频显著性区域不准确。
本发明解决该技术问题所采用的技术方案:使用一种基于双U结构的视频显著性预测方法来提高视频显著性预测的准确度。为了有效挖掘全局上下文信息和局部细节信息并充分利用多尺度时空特征,本发明设计了一种双U结构。其中,第一个U型结构用于编码和解码光流图中包含的时间信息,第二个U型结构用于编码和解码视频帧中包含的空间信息。两个U型结构在编码器和解码器的不同层级进行特征融合。为了有效融合时空特征,提出了一个加权融合模块,用于将时间和空间特征深入融合,其中运动特征作为外观特征的门控信号,能够过滤掉不相关的空间信息并注入丰富的时间信息。
一种基于双U结构的视频显著性预测方法,步骤如下:
步骤1:通过时空编码器提取视频帧和光流图中包含的时间和空间特征。
首先对待预测的视频帧和对应的光流图进行预处理,包括格式转换、尺寸调整和数值归一化,使它们转化为模型能够处理的数据格式以提高模型的执行效率。然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器,提取多层级的时间特征和空间特征。
步骤2:在时空编码器提取时间和空间特征过程中通过加权融合模块对提取的时间和空间特征进行融合。
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块。然后,加权融合模块先将初始层级的时空特征进行初步融合,再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接,从而进一步融合时空特征。最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是,在时空编码器的所有层级,从低到高都会执行特征的提取与融合。
步骤3:通过桥接块增强时空特征。
首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块,然后,桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强。最后将增强后的特征输入到对应的解码器进一步处理。
步骤4:将原始时空编码特征融入到对应层级的时空解码块。
首先从时间编码器中提取出原始时间编码特征,从空间编码器中提取出原始空间编码特征。然后将原始时间编码特征与对应层级的时间解码特征拼接,将原始空间编码特征与空间解码器中对应层级的加权融合模块处理后的时空特征拼接。最后将拼接的时间和空间特征分别输入到时间解码块和空间解码块进行解码处理。
步骤5:将时空解码块提取的时间和空间解码特征融合。
首先将时空解码块提取的时间和空间解码特征输入到加权融合模块。然后加权融合模块会将时空解码特征进行充分融合,突出显著信息,去除冗余信息。最后将融合后的时空特征输入到下一层的空间解码块进一步处理。需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码与融合。
步骤6:预测视频帧对应的显著图。
当时空特征传输到解码块S1后,先将时空特征经过一系列卷积层处理使其通道维度降至1,再经过一个Sigmoid激活函数处理,最后使用双线性上采样函数使其恢复到视频帧的原始大小即可生成最终的显著图。
本发明有益效果如下:
通过使用一种新颖的双U编解码结构,有效地挖掘出全局语义信息和局部细节信息,同时更加充分地利用了多尺度特征;通过使用一种桥接块,进一步扩大了模型的感受野,增强了模型获取多尺度上下文信息的能力;通过在编码器和解码器的各个层级部署加权融合模块,更加有效地融合时间和空间特征。通过以上设计,本发明能够进一步提升视频显著性预测的性能。
附图说明
图1基于双U结构的视频显著性预测模型结构图。
图2加权融合模块结构图。
图3桥接块结构图。
具体实施方式
结合发明内容和附图对该发明的执行步骤进行详细论述。
步骤1:提取视频帧和光流图中包含的时间和空间特征。
首先将视频帧和对应的光流图进行预处理,具体包括:读取图片并将其转换为RGB格式;将分辨率调整为224×224;将数据类型转化为Tensor型;将图片数值范围从[0,255]映射到[-1,1]。
然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器提取时间和空间特征。时间和空间编码器结构相同,都是基于ResNet-34主干构建的,如图1所示,时间编码器包含5层时间编码块T1-T5,空间编码器包含5层时间编码块S1-S5。具体来说,以时间编码器为例,首先将ResNet-34主干的Conv-1模块中的卷积层(内核大小为7×7、步幅为2)替换为内核大小为3×3、步幅为1的卷积层,并且舍弃了Conv-1模块之后的最大池化层,然后将Conv-1和Conv-2设置为编码器的第一编码块T1。之后,第二编码块T2、第三编码块T3和第四编码块T4分别采用ResNet-34的Conv-3、Conv-4和Conv-5。此外,为了进一步扩大模型的感受野,在第四编码块T4之后部署了一个最大池化层和三个残差卷积层,这些层构成了第五编码块T5。
步骤2:将时空编码器提取的时间和空间特征融合。
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块。然后,如图2所示,加权融合模块先将初始层级的时空特征进行初步融合,再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接,从而进一步融合时空特征。最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是,在时空编码器的所有层级,从低到高都会执行特征的提取与融合,这种设计充分利用了时空编码器的多级特征。具体方法如下:
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块,然后加权融合模块会将时间和空间特征充分融合,突出显著信息,去除冗余信息。具体来说,以第一层为例,首先将时间特征和空间特征相加得到初始融合特征再使用1×1卷积层将特征进一步融合,随后使用Sigmoid激活函数生成权重矩阵。与以往方法不同,该权重矩阵的通道维度是C而不是1,这样的设计能够更加精准定位显著目标。随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征以上过程可由公
式1表示。
最后将融合后的时空特征输入到下一层的空间编码块处理。需要注意的是,在时空编码器的所有层级,从低到高会依次执行特征的编码提取与融合,直到达到编码器的最顶层。以上过程可由公式2表示。
步骤3:通过桥接块增强时空特征。
首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块,然后,如图3所示,桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强,其中不同的空洞卷积层具有不同的感受野,这增强了模型获取全局上下文信息的能力。最后将增强后的特征输入到对应的解码器进一步处理。具体方法如下:
首先将编码器最顶层的高级时间特征F5 T和空间特征F5 S分别输入到桥接块T和桥接块S进行增强处理。具体来说,以时间桥接块T为例,先将高级时间特征分别输入到4个并行的具有不同膨胀率(2,4,8,16)的空洞卷积层处理,再将4个空洞卷积层输出的增强特征与原始高级特征拼接在一起得到fBT,随后使用一个卷积层将拼接特征fBT充分融合并将其通道数恢复至原始大小,进而得到增强特征FBT,以上过程可由公式3表示。
步骤4:将原始时空编码特征融入到对应层级的时空解码块。
首先从时间编码器中提取出原始时间编码特征(特征①-⑤),从空间编码器中提取出原始空间编码特征(特征⑥-⑩)。然后将与对应层级的时间解码块提取的时间解码特征拼接,将与空间解码器中使用加权融合模块处理后的时空特征拼接。最后将拼接的时间和空间特征分别输入到下一层的时间和空间解码块进行解码处理。
时间和空间解码器具有相同的结构,具体来说,以时间解码器为例,每个解码器包含五个解码块,其中每个解码块由三个卷积块组成,每个卷积块包含一个3×3卷积层、一个BN层和一个Relu层。此外,前四个解码块后都接了一个双线性上采样层用于放大特征图,最后一个解码块后接了一个1×1卷积层和一个Sigmoid激活函数,用于生成最终的预测图。
步骤5:将时空解码块提取的时间和空间解码特征融合。
首先将时空解码器输出的时间特征和空间特征输入到加权融合模块,然后通过加权融合模块将时间和空间特征充分融合。具体来说,以第5层为例,先将时间特征和空间特征相加得到初始融合特征再使用1×1卷积层将特征进一步融合,使用Sigmoid激活函数生成权重矩阵,随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征以上过程可由公式4表示。
最后将融合后的时空特征输入到下一层的空间解码块处理。需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码处理与融合,直到达到解码器的最低层,这种设计有利于定位显著对象的位置,并且充分利用了解码器的多尺度特征。以上过程可由公
式5表示。
步骤6:预测视频帧对应的显著图。
当时空特征传输到空间解码器的最底层解码块时,先将输出的特征经过一个1×1卷积层处理,将通道维度降至1,再经过一个Sigmoid激活函数将特征的数值范围映射到[0,1],最后使用双线性上采样函数将其恢复到视频帧的原始大小即可得到最终的显著性预测图PS。以上过程可由公式6表示。
其中PS表示预测的显著图,Up表示双线性上采样函数。
模型训练设置:
所提出的模型使用Pytorch在1个NVIDIA TITAN X Pascal GPU上实现。其中模型编码器的部分参数使用ResNet-34初始化,模型其余部分的参数由Pytorch的默认设置初始化。使用Adam优化器训练整个模型,初始学习率设置为0.0001,当训练损失饱和时学习率降低10倍。
模型使用DHF1K、Hollywood-2和UCF Sports数据集的训练集进行训练,使用DHF1K的验证集监控整个训练过程,使用这三个数据集的测试集评估模型性能。输入的视频帧和光流图都调整为224×224大小,批量大小设置为5。需要注意的是,在训练过程中需要同时监督时间解码块T1输出的预测图PT和空间解码块S1输出的预测图PS,而在测试过程中使用的预测图是PS。
训练的损失函数可以用公式7表示。
L(S,G)=KL(S,G)+CC(S,G) (7)
其中S和G分别表示预测的显著图和对应的真值图。
KL是衡量两个概率分布之间差异的常用指标,其计算过程可由公式8表示。
其中ε表示正则化常数。
指标CC用于衡量两个分布图之间的依赖关系,计算过程可由公
式9表示。
其中sd表示标准差,cov表示协方差。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。
本发明未详细说明部分属于本领域技术人员公知技术。
Claims (7)
1.一种基于双U结构的视频显著性预测方法,其特征在于,步骤如下:
步骤1:通过时空编码器提取视频帧和光流图中包含的时间和空间特征;
首先对待预测的视频帧和对应的光流图进行预处理,包括格式转换、尺寸调整和数值归一化,使它们转化为模型能够处理的数据格式以提高模型的执行效率;然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器,提取多层级的时间特征和空间特征;
步骤2:在时空编码器提取时间和空间特征过程中通过加权融合模块对提取的时间和空间特征进行融合;
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块;然后,加权融合模块先将初始层级的时空特征进行初步融合,再通过学习到的权重矩阵对初步融合特征进行加权过滤并使用残差连接,从而进一步融合时空特征;最后将融合后的时空特征输入到下一层的空间编码块处理;需要注意的是,在时空编码器的所有层级,从低到高都会执行特征的提取与融合;
步骤3:通过桥接块增强时空特征;
首先将时空编码器最顶层的高级时间和空间特征分别输入到对应的桥接块,然后,桥接块通过四个并行的具有不同膨胀率的空洞卷积层对输入特征进增强;最后将增强后的特征输入到对应的解码器进一步处理;
步骤4:将原始时空编码特征融入到对应层级的时空解码块;
首先从时间编码器中提取出原始时间编码特征,从空间编码器中提取出原始空间编码特征;然后将原始时间编码特征与对应层级的时间解码特征拼接,将原始空间编码特征与空间解码器中对应层级的加权融合模块处理后的时空特征拼接;最后将拼接的时间和空间特征分别输入到时间解码块和空间解码块进行解码处理;
步骤5:将时空解码块提取的时间和空间解码特征融合;
首先将时空解码块提取的时间和空间解码特征输入到加权融合模块;然后加权融合模块会将时空解码特征进行充分融合,突出显著信息,去除冗余信息;最后将融合后的时空特征输入到下一层的空间解码块进一步处理;需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码与融合;
步骤6:预测视频帧对应的显著图;
当时空特征传输到解码块S1后,先将时空特征经过一系列卷积层处理使其通道维度降至1,再经过一个Sigmoid激活函数处理,最后使用双线性上采样函数使其恢复到视频帧的原始大小即可生成最终的显著图。
2.根据权利要求1所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤1具体方法如下:
首先将视频帧和对应的光流图进行预处理,具体包括:读取图片并将其转换为RGB格式;将分辨率调整为224×224;将数据类型转化为Tensor型;将图片数值范围从[0,255]映射到[-1,1];
然后将预处理后的视频帧和光流图分别输入到时间编码器和空间编码器提取时间和空间特征;时间和空间编码器结构相同,都是基于ResNet-34主干构建的,时间编码器包含5层时间编码块T1-T5,空间编码器包含5层时间编码块S1-S5;具体来说,以时间编码器为例,首先将ResNet-34主干的Conv-1模块中的卷积层替换为内核大小为3×3、步幅为1的卷积层,并且舍弃了Conv-1模块之后的最大池化层,然后将Conv-1和Conv-2设置为编码器的第一编码块T1;之后,第二编码块T2、第三编码块T3和第四编码块T4分别采用ResNet-34的Conv-3、Conv-4和Conv-5;此外,为了进一步扩大模型的感受野,在第四编码块T4之后部署了一个最大池化层和三个残差卷积层,这些层构成了第五编码块T5。
3.根据权利要求2所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤2具体方法如下:
首先将时空编码器提取的时间特征和空间特征输入到加权融合模块,然后加权融合模块会将时间和空间特征充分融合,突出显著信息,去除冗余信息;具体来说,以第一层为例,首先将时间特征F1 T和空间特征F1 S相加得到初始融合特征f1 TS,再使用1×1卷积层将特征进一步融合,随后使用Sigmoid激活函数生成权重矩阵,该权重矩阵的通道维度是C;随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征F1 TS;以上过程可由公式1表示;
最后将融合后的时空特征输入到下一层的空间编码块处理;需要注意的是,在时空编码器的所有层级,从低到高会依次执行特征的编码提取与融合,直到达到编码器的最顶层;以上过程可由公式2表示;
其中WFM表示加权融合模块,Fi TS表示编码器中加权融合后的时空特征。
4.根据权利要求3所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤3具体方法如下:
首先将编码器最顶层的高级时间特征和空间特征分别输入到桥接块T和桥接块S进行增强处理;具体来说,以时间桥接块T为例,先将高级时间特征分别输入到4个并行的具有不同膨胀率(2,4,8,16)的空洞卷积层处理,再将4个空洞卷积层输出的增强特征与原始高级特征拼接在一起得到fBT,随后使用一个卷积层将拼接特征fBT充分融合并将其通道数恢复至原始大小,进而得到增强特征FBT,以上过程可由公式3表示;
5.根据权利要求4所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤4具体方法如下:
首先从时间编码器中提取出原始时间编码特征从空间编码器中提取出原始空间编码特征然后将与对应层级的时间解码块提取的时间解码特征拼接,将与空间解码器中使用加权融合模块处理后的时空特征拼接;最后将拼接的时间和空间特征分别输入到下一层的时间和空间解码块进行解码处理;
时间和空间解码器具有相同的结构,具体来说,以时间解码器为例,每个解码器包含五个解码块,其中每个解码块由三个卷积块组成,每个卷积块包含一个3×3卷积层、一个BN层和一个Relu层;此外,前四个解码块后都接了一个双线性上采样层用于放大特征图,最后一个解码块后接了一个1×1卷积层和一个Sigmoid激活函数,用于生成最终的预测图。
6.根据权利要求5所述的一种基于双U结构的视频显著性预测方法,其特征在于,步骤5具体方法如下:
首先将时空解码器输出的时间特征和空间特征输入到加权融合模块,然后通过加权融合模块将时间和空间特征充分融合;具体来说,以第5层为例,先将时间特征和空间特征相加得到初始融合特征再使用1×1卷积层将特征进一步融合,使用Sigmoid激活函数生成权重矩阵,随后将权重矩阵与初始融合特征相乘并使用残差连接,从而得到加权融合后的时空特征以上过程可由公式4表示;
最后将融合后的时空特征输入到下一层的空间解码块处理;需要注意的是,在时空解码器的所有层级,从高到低会依次执行特征的解码处理与融合,直到达到解码器的最低层;以上过程可由公式5表示;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211700313.9A CN116229106A (zh) | 2022-12-28 | 2022-12-28 | 一种基于双u结构的视频显著性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211700313.9A CN116229106A (zh) | 2022-12-28 | 2022-12-28 | 一种基于双u结构的视频显著性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229106A true CN116229106A (zh) | 2023-06-06 |
Family
ID=86575844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211700313.9A Withdrawn CN116229106A (zh) | 2022-12-28 | 2022-12-28 | 一种基于双u结构的视频显著性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229106A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612122A (zh) * | 2023-07-20 | 2023-08-18 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像显著性区域的检测方法及装置、存储介质及电子设备 |
CN117176967A (zh) * | 2023-09-03 | 2023-12-05 | 石家庄铁道大学 | 基于上下文优化与时间递归的视频显著性预测方法 |
CN118247571A (zh) * | 2024-04-08 | 2024-06-25 | 上海交通大学医学院附属新华医院 | 一种基于多参数mri图像的乳腺癌辅助识别方法及装置 |
-
2022
- 2022-12-28 CN CN202211700313.9A patent/CN116229106A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612122A (zh) * | 2023-07-20 | 2023-08-18 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像显著性区域的检测方法及装置、存储介质及电子设备 |
CN116612122B (zh) * | 2023-07-20 | 2023-10-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像显著性区域的检测方法及装置、存储介质及电子设备 |
CN117176967A (zh) * | 2023-09-03 | 2023-12-05 | 石家庄铁道大学 | 基于上下文优化与时间递归的视频显著性预测方法 |
CN117176967B (zh) * | 2023-09-03 | 2024-03-01 | 石家庄铁道大学 | 基于上下文优化与时间递归的视频显著性预测方法 |
CN118247571A (zh) * | 2024-04-08 | 2024-06-25 | 上海交通大学医学院附属新华医院 | 一种基于多参数mri图像的乳腺癌辅助识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN116229106A (zh) | 一种基于双u结构的视频显著性预测方法 | |
CN114187450B (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN109636721B (zh) | 基于对抗学习和注意力机制的视频超分辨率方法 | |
CN111369565A (zh) | 一种基于图卷积网络的数字病理图像的分割与分类方法 | |
CN111401379A (zh) | 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN116645598A (zh) | 一种基于通道注意力特征融合的遥感图像语义分割方法 | |
CN116310916A (zh) | 一种高分辨率遥感城市图像语义分割方法及系统 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN114998373A (zh) | 基于多尺度损失函数的改进型U-Net云图分割方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN114282649A (zh) | 基于双向注意力机制增强yolo v5的目标检测方法 | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 | |
CN116935292B (zh) | 一种基于自注意力模型的短视频场景分类方法及系统 | |
US11954917B2 (en) | Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN117079237A (zh) | 一种自监督的单目车距检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230606 |
|
WW01 | Invention patent application withdrawn after publication |