CN117557782A - 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 - Google Patents
一种多尺度特征融合和边界信息注意的视频显著目标检测方法 Download PDFInfo
- Publication number
- CN117557782A CN117557782A CN202311635449.0A CN202311635449A CN117557782A CN 117557782 A CN117557782 A CN 117557782A CN 202311635449 A CN202311635449 A CN 202311635449A CN 117557782 A CN117557782 A CN 117557782A
- Authority
- CN
- China
- Prior art keywords
- features
- boundary
- layer
- space
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 12
- 230000008447 perception Effects 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 230000003287 optical effect Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004540 process dynamic Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多尺度特征融合和边界信息注意的视频显著目标检测方法。所述方法包括如下步骤:获取视频显著目标检测数据集及对应光流图,输入到训练好的视频显著目标检测网络中;采用双流主干特征编码器,获取多层级特征;利用全局引导多尺度融合模块,以获取多尺度时空特征;通过跨模态边界注意模块,改善多尺度时空特征的边界检测效果;采用场景感知融合模块,以促进时空特征融合;将融合后的特征不断解码,恢复至原始视频帧尺寸,以获取最终的显著性图。所述方法探索多尺度时空特征融合和边界注意方法,提高了视频显著目标检测的精度,改善了边界检测效果。
Description
技术领域
本发明涉及一种多尺度特征融合和边界信息注意的视频显著目标检测方法,属于计算机视觉技术领域。
背景技术
显著性检测的目的是找到图像或视频中最引人注目的区域或物体,包括人眼关注点检测和显著目标检测,人眼关注点检测强调人眼在一个场景中某一位置停留的可能性预测,输出结果是一个大致的显著区域。而随着计算机领域的不断发展,不仅要对停留的区域进行预测,还要对场景中显著目标进行准确预测并获得清晰准确的边界,由此产生了显著目标检测分支,为目标级别的视觉任务提供更直接、更有效的信息,是一个纯计算机视觉任务。
随着信息技术的不断发展,手机、电脑等智能设备的应用,图像、视频的数量急剧增长。但信息总量呈指数级增长的同时,也产生了大量冗余数据。面对海量数据,研究者们期望计算机能具备人类视觉注意机制的能力,聚焦图像或视频中信息最丰富的区域、过滤冗余信息的干扰,从而减少计算资源的浪费且进一步提升后续处理的计算效率。因此,如何从海量的数据中选择有效、关键的信息显得尤为重要。显著性目标检测的优势在于能够提取图像或视频中的最重要部分,并且检测结果符合人类的认知。
视频显著目标检测旨在模拟人眼的视觉注意机制,定位视频中视觉上最显著的目标,并将其从背景像素中分离出来。作为视觉注意力机制在目标分割方面的延伸,并作为计算机视觉任务中重要的预处理步骤之一,视频显著目标检测的结果可以应用到行人重识别、视觉跟踪、视频压缩等后续的各种计算机视觉任务中。
随着卷积神经网络的进步,基于深度学习的视频显著目标检测方法在性能上取得了一些进展,但还存在以下问题。首先,所采用的特征直接来源于主干网络编码器,浅层特征缺乏语义信息,深层特征缺乏细节信息,忽视了多尺度特征的整合。其次,现有方法忽视了边界信息,导致检测结果边界模糊。最后,时空特征融合大多采用元素加或拼接的方式,不能弥合时空特征的差异。
发明内容
本发明的目的在于解决现有方法中的上述问题,提出一种多尺度特征融合和边界信息注意的视频显著目标检测方法。
为实现上述目的,本发明的技术方案为:
一种多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于包括以下步骤:
S1:获取视频显著目标检测数据集,并输入到光流提取网络RAFT中获取对应的光流图;
S2:将视频帧和对应光流图输入训练好的视频显著目标检测网络中;
S3:采用双流主干特征编码器,从视频帧和光流图中获取多层级编码器特征,分别表示为和/>其中S表示空间特征,T表示时间特征,i表示特征的层级;
S4:利用全局引导多尺度融合模块,对提取到的不同尺寸的空间和时间特征进行全局定位信息增强和多尺度特征融合;
S5:通过跨模态边界注意模块,改善多尺度时空特征的边界检测效果;
S6:将改善边界效果后的时空特征传入到场景感知融合模块中,以促进时空特征融合,生成显著目标检测需要的上下文信息;
S7:将融合后的特征不断进行上采样和拼接操作得到Si,最终将解码器最后一层输出S1恢复至原始视频帧尺寸,作为当前帧的最终显著性输出结果。
进一步的技术方案在于,所述的全局引导多尺度融合模块对提取的不同尺寸特征图进行特征增强及多尺度融合;该模块包含一个自上而下的背景噪声过滤路径BNFP和一个多尺度特征集成路径MFIP,从而得到包含更丰富语义和细节信息的特征图。
进一步地,所述的自上而下的背景噪声过滤路径BNFP将最高层特征依次通过1×1卷积、上采样层和Sigmoid层,生成全局过滤掩码mask;而后调整各层特征至第一层特征分辨率大小,并分别与mask进行逐元素相乘,为特征的前景分配更大的权重,背景分配更小的权重;其具体计算公式如下:
mask=σ(Upsample(C1×1(IF4))),
进一步地,所述的多尺度特征集成路径MFIP放置在BNFP之后,通过维度拼接操作对多尺度信息进行建模,并将获得的全局引导的多尺度信息通过逐元素加法添加在每层特征上,这样每层特征都在保留本层特性的基础上,获得了更多用于显著性检测的语义和细节信息;其具体计算公式如下:
MIi=C3×3([RF1,RF2,RF3,RF4])+RFi。
进一步地,通过两个卷积层将各层特征恢复至原始大小,第一层特征采用3×3大小的卷积核,第二层和第三层特征采用5×5大小的卷积核,第四层特征采用7×7大小的卷积核。其具体计算公式如下:
进一步的技术方案在于,所述跨模态边界注意模块通过引入通道注意机制、改进空间注意机制和提出边界注意机制来改善特征的边界效果。
进一步地,引入通道注意机制,对多尺度特征进行通道选择,以初步响应空间和时间两个分支8个特征的重要区域,m代表S和T,GMP和GAP分别代表全局最大池化和全局平均池化操作,其具体计算公式如下:
进一步地,改进空间注意机制,选择相应层的空间和时间特征,将空间特征通过一个全局平均池化分支和一个全局最大池化分支,而后进行维度拼接合成两个分支,合成结果经过3×3卷积层和Sigmoid层获得空间权重,并与时间特征逐元素相乘,弥补了时间特征中缺少的空间信息,反之使用时间特征生成空间权重增强空间特征;该过程在整个网络的四层同时实现,充分整合了空间和时间特征的跨模态互补信息,其具体计算公式如下:
进一步地,提出边界注意机制,由于浅层特征包含更精细的细节信息,因此整合时空互补性后的第一层特征被选为边界特征;以空间边界特征为例,通过全局平均池化层和3×3卷积层生成边界注意图,分别下采样到后三层高级特征分辨率大小,与后三层时间特征逐元素相乘以突出物体边界,这期间残差连接用于保留原始信息,反之利用时间边界特征突出后三层空间特征的显著物体边界;其具体计算公式如下:
进一步的技术方案在于,所述场景感知融合模块采用通道级的融合方式,并提出差值阈值化方法,以充分地整合时空特征。
进一步地,所述场景感知的融合模块可以自动学习不同场景下视频的融合权重,以实现更精准鲁棒的融合。
进一步地,将改善边界效果后的对应层时空特征进行拼接,获得FFi并输入到该模块,使用空间注意力机制和全局平均池化操作,捕获全局空间信息并将其整合到通道中,记作CFi,而后将其拆分为空间特征和时间特征/>对应通道利用Softmax函数生成融合权重,其具体计算公式如下:
CFi=FC2(FC1(GAP(Softmax(C3×3(FFi))×FFi))),
进一步地,提出差值阈值化方法,当时空特征权重差值超过阈值ε后,屏蔽掉权重更小的特征通道,该模块在整个网络的五层同时实现,c表示特征通道,其具体计算公式如下:
进一步的技术方案在于,训练好的视频显著目标检测网络的训练步骤包括:
构建视频显著目标检测网络;
构建训练集,所述训练集为原始视频帧及其对应光流图和显著图;
将训练集输入到视频显著目标检测网络中,进行训练;
视频显著目标检测网络输出当前帧的检测结果;
将检测结果和原始视频帧的显著图计算损失;
当损失值达到最小时,模型收敛,停止训练,得到训练好的视频显著目标检测网络。
采用上述技术方案产生的有益效果在于:本发明提供了一种全局引导多尺度融合模块,充分结合了显著物体的语义信息和细节信息,有助于定位和检测;本发明设计了一种跨模态边界注意模块,用于聚焦显著物体的边界,缓解边界检测模糊问题;本发明开发了一种场景感知融合模块,大大提高了时空特征的融合效率。所采用的三个模块集成在网络中,大大提高了视频显著目标检测的精度,体现了所提技术方案的优势。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将结合附图对本发明作进一步详细的说明。
图1为本发明实施例的网络整体架构图;
图2为本发明实施例中全局引导多尺度融合模块结构图;
图3为本发明实施例中跨模态边界注意模块结构图;
图4为本发明实施例中场景感知融合模块结构图;
图5为本发明实施例的结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种多尺度特征融合和边界信息注意的视频显著目标检测方法,如图1所示,包括如下步骤:
S1:构建双流主干特征编码器,获取多层级特征;双流主干特征编码器包括RGB分支和光流分支。采用ResNet34为骨干网络,ASPP附加在最后一层,从视频帧和光流图中获取多层级编码器特征,分别表示为和/>其中S表示空间特征,T表示时间特征,i表示特征的层级;
S2:构建全局引导多尺度融合模块;
S2-1:全局引导多尺度融合模块包含一个自上而下的背景噪声过滤路径BNFP和一个多尺度特征集成路径MFIP。
S2-2:BNFP将最高层特征依次通过1×1卷积、上采样层和Sigmoid层,生成全局过滤掩码mask;而后调整各层特征至第一层特征分辨率大小,并分别与mask进行逐元素相乘,为特征的前景分配更大的权重,背景分配更小的权重,其具体计算公式如下:
mask=σ(Upsample(C1×1(IF4))),
S2-3:MFIP放置在BNFP之后,通过维度拼接操作对多尺度信息进行建模,并将获得的全局引导的多尺度信息通过逐元素加法添加在每层特征上,这样每层特征都在保留本层特性的基础上,获得了更多用于显著性检测的语义和细节信息,其具体计算公式如下:
MIi=C3×3([RF1,RF2,RF3,RF4])+RFi。
S2-4:通过两个卷积层将各层特征恢复至原始大小,第一层特征采用3×3大小的卷积核,第二层和第三层特征采用5×5大小的卷积核,第四层特征采用7×7大小的卷积核,其具体计算公式如下:
S3:构建跨模态边界注意模块;
S3-1:引入通道注意机制,对多尺度特征进行通道选择,以初步响应空间和时间两个分支8个特征的重要区域,m代表S和T,GMP和GAP分别代表全局最大池化和全局平均池化操作,其具体计算公式如下:
S3-2:改进空间注意机制,选择相应层的空间和时间特征,将空间特征通过一个全局平均池化分支和一个全局最大池化分支,而后进行维度拼接合成两个分支,合成结果经过3×3卷积层和Sigmoid层获得空间权重,并与时间特征逐元素相乘,弥补了时间特征中缺少的空间信息,反之使用时间特征生成空间权重增强空间特征;该过程在整个网络的四层同时实现,充分整合了空间和时间特征的跨模态互补信息,其具体计算公式如下:
S3-3:提出边界注意机制,由于浅层特征包含更精细的细节信息,因此整合时空互补性后的第一层特征被选为边界特征;以空间边界特征为例,通过全局平均池化层和3×3卷积层生成边界注意图,分别下采样到后三层高级特征分辨率大小,与后三层时间特征逐元素相乘以突出物体边界,这期间残差连接用于保留原始信息,反之利用时间边界特征突出后三层空间特征的显著物体边界,其具体计算公式如下:
S4:构建场景感知融合模块;
S4-1:将改善边界效果后的对应层时空特征进行拼接,获得FFi并输入到该模块,使用空间注意力机制和全局平均池化操作,捕获全局空间信息并将其整合到通道中,记作CFi,而后将其拆分为空间特征和时间特征/>对应通道利用Softmax函数生成融合权重,其具体计算公式如下:
CFi=FC2(FC1(GAP(Softmax(C3×3(FFi))×FFi))),
S4-2:提出差值阈值化方法,当时空特征权重差值超过阈值ε后,屏蔽掉权重更小的特征通道,该模块在整个网络的五层同时实现,c表示特征通道,其具体计算公式如下:
S5:构建解码器,包括上采样层和拼接层,将解码器最后一层输出S1恢复至原始视频帧尺寸,作为当前帧的最终显著性输出结果。
S6:构建视频显著目标检测网络,进行训练;
S6-1:构建训练集,所述训练集为视频原始视频帧及其对应光流图和显著图。采用广泛使用的四个数据集用于训练:DUTS-TR、DAVIS、FBMS和DAVSOD。其中,DUTS-TR是图像显著性检测的常用数据集,在实验中用于预训练。DAVIS、FBMS和DAVSOD视频数据集具有良好的运动连续性,经常用于训练VSOD模型。
S6-2:将训练集输入到视频显著目标检测网络中,对网络进行训练。输入图像的分辨率调整为448×448,并采用随机水平翻转、随机裁剪的方式进行数据增强。SGD算法用于训练batchsize大小为8、初始学习率为1e-4的网络。
S6-3:视频显著目标检测网络输出当前帧的检测结果。
S6-4:将检测结果和原始视频帧的显著图进行损失计算。采用交叉熵损失和IOU损失作为损失函数,Ergb和Eflow分别是RGB分支和光流分支的边界特征,Ge和Gs分别是边界标签和显著标签,Si是解码器各层的预测输出,则最终损失函数的表达式如下:
S6-5:当损失值达到最小时,模型收敛,停止训练,保存参数,得到训练好的视频显著目标检测网络。
S7:将待检测的视频帧及光流图输入至完成训练的视频显著目标检测模型中,从而输出待检测视频帧的最终显著预测图。
为了验证以上实例的有效性,本发明方法与其他先进方法在四个数据集DAVIS、FBMS、DAVSOD和SegTrackV2上进行性能对比,并选用常用的3个指标:maxFβ(max F-measure)、Sm(S-measure)和MAE(Mean Absolute Error)。这三个指标中,除了MAE,maxFβ和Sm数值越大,性能越好。实验结果如表1所示。
表1在四个数据集上的检测精度对比结果
由表1所知,本实施例在各个数据集上的多项指标上都领先于现有方法,证明了本实施例方法的有效性。
图5为本发明方法结果对比图,第一列为RGB图像,第二列为真值图,第三列为本发明方法的结果图。通过对比可以看出,本实例所提供的方案能够准确地定位显著对象,精细地分割对象边界,很好地处理动态变化。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (8)
1.一种多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于包括以下步骤:
S1:获取视频显著目标检测数据集,并输入到光流提取网络RAFT中获取对应的光流图;
S2:将视频帧和对应光流图输入训练好的视频显著目标检测网络中;
S3:采用双流主干特征编码器,从视频帧和光流图中获取多层级编码器特征,分别表示为和/>其中S表示空间特征,T表示时间特征,i表示特征的层级;
S4:利用全局引导多尺度融合模块,对提取到的不同尺寸的空间和时间特征进行全局定位信息增强和多尺度特征融合;
S5:通过跨模态边界注意模块,改善多尺度时空特征的边界检测效果;
S6:将改善边界效果后的时空特征传入到场景感知融合模块中,以促进时空特征融合,生成显著目标检测需要的上下文信息;
S7:将融合后的特征不断进行上采样和拼接操作得到Si,最终将解码器最后一层输出S1恢复至原始视频帧尺寸,作为当前帧的最终显著性输出结果。
2.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,利用所述的全局引导多尺度融合模块对提取的不同尺寸特征图进行特征增强及多尺度融合;该模块包含一个自上而下的背景噪声过滤路径BNFP和一个多尺度特征集成路径MFIP,从而得到包含更丰富语义和细节信息的特征图。
3.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,所述跨模态边界注意模块通过引入通道注意机制、改进空间注意机制和提出边界注意机制来改善特征的边界效果。
4.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,所述场景感知融合模块采用通道级的融合方式,并提出差值阈值化方法,以在不同场景下有选择地融合时空特征。
5.如权利要求2所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,所述的自上而下的背景噪声过滤路径BNFP将最高层特征依次通过1×1卷积、上采样层和Sigmoid层,生成全局过滤掩码mask;而后调整各层特征至第一层特征分辨率大小,并分别与mask进行逐元素相乘,为特征的前景分配更大的权重,背景分配更小的权重;所述的多尺度特征集成路径MFIP放置在BNFP之后,通过维度拼接操作对多尺度信息进行建模,并将获得的全局引导的多尺度信息通过逐元素加法添加在每层特征上,这样每层特征都在保留本层特性的基础上,获得了更多用于显著性检测的语义和细节信息;最后通过两个卷积层将各层特征恢复至原始大小,第一层特征采用3×3大小的卷积核,第二层和第三层特征采用5×5大小的卷积核,第四层特征采用7×7大小的卷积核;其具体计算公式如下:
mask=σ(Upsample(C1×1(IF4))),
MIi=C3×3([RF1,RF2,RF3,RF4])+RFi,
6.如权利要求3所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,所述跨模态边界注意模块用于改善特征的边界检测效果;引入通道注意机制,对多尺度特征进行通道选择,以初步响应空间和时间两个分支8个特征的重要区域;改进空间注意机制,选择相应层的空间和时间特征,将空间特征通过一个全局平均池化分支和一个全局最大池化分支,而后进行维度拼接合成两个分支,合成结果经过3×3卷积层和Sigmoid层获得空间权重,并与时间特征逐元素相乘,弥补了时间特征中缺少的空间信息,反之使用时间特征生成空间权重增强空间特征;该过程在整个网络的四层同时实现,充分整合了空间和时间特征的跨模态互补信息;提出边界注意机制,由于浅层特征包含更精细的细节信息,因此整合时空互补性后的第一层特征被选为边界特征;以空间边界特征为例,通过全局平均池化层和3×3卷积层生成边界注意图,分别下采样到后三层高级特征分辨率大小,与后三层时间特征逐元素相乘以突出物体边界,这期间残差连接用于保留原始信息,反之利用时间边界特征突出后三层空间特征的显著物体边界;m代表S和T,GMP和GAP分别代表全局最大池化和全局平均池化操作,其具体计算公式如下:
7.如权利要求4所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,所述场景感知融合模块可以自动学习不同场景下视频的融合权重,以实现更精准鲁棒的融合;将改善边界效果后的对应层时空特征进行拼接,获得FFi并输入到该模块,使用空间注意力机制和全局平均池化操作,捕获全局空间信息并将其整合到通道中,记作CFi,而后将其拆分为空间特征和时间特征/>对应通道利用Softmax函数生成融合权重;提出差值阈值化方法,当时空特征权重差值超过阈值ε后,屏蔽掉权重更小的特征通道,该模块在整个网络的五层同时实现,c表示特征通道,其具体计算公式如下:
CFi=FC2(FC1(GAP(Softmax(C3×3(FFi))×FFi))),
8.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法,其特征在于,所述训练好的视频显著目标检测网络的训练步骤包括:
构建视频显著目标检测网络;
构建训练集,所述训练集为原始视频帧及其对应光流图和显著图;
将训练集输入到视频显著目标检测网络中,进行训练;
视频显著目标检测网络输出当前帧的检测结果;
将检测结果和原始视频帧的显著图计算损失;
当损失值达到最小时,模型收敛,停止训练,得到训练好的视频显著目标检测网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311635449.0A CN117557782B (zh) | 2023-12-01 | 2023-12-01 | 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311635449.0A CN117557782B (zh) | 2023-12-01 | 2023-12-01 | 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557782A true CN117557782A (zh) | 2024-02-13 |
CN117557782B CN117557782B (zh) | 2024-05-24 |
Family
ID=89816620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311635449.0A Active CN117557782B (zh) | 2023-12-01 | 2023-12-01 | 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557782B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
CN113392727A (zh) * | 2021-05-27 | 2021-09-14 | 杭州电子科技大学 | 一种基于动态特征选择的rgb-d显著目标检测方法 |
CN114091583A (zh) * | 2021-11-04 | 2022-02-25 | 西华师范大学 | 基于注意机制和跨模态融合的显著目标检测系统与方法 |
CN115131880A (zh) * | 2022-05-30 | 2022-09-30 | 上海大学 | 一种多尺度注意力融合的双重监督人脸活体检测方法 |
CN115661830A (zh) * | 2022-10-28 | 2023-01-31 | 大连理工大学 | 基于结构化多模态融合网络的文本指导图像分割方法 |
CN115731505A (zh) * | 2023-01-06 | 2023-03-03 | 石家庄铁道大学 | 视频显著性区域检测方法、装置、电子设备及存储介质 |
CN115830420A (zh) * | 2022-10-19 | 2023-03-21 | 安徽信息工程学院 | 一种基于边界可变形卷积引导的rgb-d显著性目标检测方法 |
CN116310394A (zh) * | 2022-11-25 | 2023-06-23 | 大连民族大学 | 显著性目标检测方法及装置 |
CN116665095A (zh) * | 2023-05-18 | 2023-08-29 | 中国科学院空间应用工程与技术中心 | 一种运动舰船检测方法、系统、存储介质和电子设备 |
-
2023
- 2023-12-01 CN CN202311635449.0A patent/CN117557782B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
CN113392727A (zh) * | 2021-05-27 | 2021-09-14 | 杭州电子科技大学 | 一种基于动态特征选择的rgb-d显著目标检测方法 |
CN114091583A (zh) * | 2021-11-04 | 2022-02-25 | 西华师范大学 | 基于注意机制和跨模态融合的显著目标检测系统与方法 |
CN115131880A (zh) * | 2022-05-30 | 2022-09-30 | 上海大学 | 一种多尺度注意力融合的双重监督人脸活体检测方法 |
CN115830420A (zh) * | 2022-10-19 | 2023-03-21 | 安徽信息工程学院 | 一种基于边界可变形卷积引导的rgb-d显著性目标检测方法 |
CN115661830A (zh) * | 2022-10-28 | 2023-01-31 | 大连理工大学 | 基于结构化多模态融合网络的文本指导图像分割方法 |
CN116310394A (zh) * | 2022-11-25 | 2023-06-23 | 大连民族大学 | 显著性目标检测方法及装置 |
CN115731505A (zh) * | 2023-01-06 | 2023-03-03 | 石家庄铁道大学 | 视频显著性区域检测方法、装置、电子设备及存储介质 |
CN116665095A (zh) * | 2023-05-18 | 2023-08-29 | 中国科学院空间应用工程与技术中心 | 一种运动舰船检测方法、系统、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117557782B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109905624A (zh) | 一种视频帧插值方法、装置及设备 | |
CN112950477B (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN112329780B (zh) | 一种基于深度学习的深度图像语义分割方法 | |
CN115439857A (zh) | 一种基于复杂背景图像的倾斜字符识别方法 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
Yin et al. | Visual attention dehazing network with multi-level features refinement and fusion | |
Sun et al. | Cloud-aware generative network: Removing cloud from optical remote sensing images | |
CN113392711A (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111696033A (zh) | 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法 | |
Guo et al. | Joint raindrop and haze removal from a single image | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN115187480A (zh) | 一种基于Transformer的图像颜色校正方法 | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
Zhang et al. | Spatial-information guided adaptive context-aware network for efficient RGB-D semantic segmentation | |
Huang et al. | Triple-complementary network for RGB-D salient object detection | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN113076902B (zh) | 一种多任务融合的人物细粒度分割系统和方法 | |
CN114359626A (zh) | 基于条件生成对抗网络的可见光-热红外显著目标检测方法 | |
CN117830900A (zh) | 一种无监督视频对象分割方法 | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
CN117557782B (zh) | 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 | |
CN116452472A (zh) | 基于语义知识引导的低照度图像增强方法 | |
CN117495935A (zh) | 一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法 | |
CN116704367A (zh) | 一种多尺度特征融合耕地变化检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |