CN117557782A

CN117557782A - 一种多尺度特征融合和边界信息注意的视频显著目标检测方法

Info

Publication number: CN117557782A
Application number: CN202311635449.0A
Authority: CN
Inventors: 张云佐; 王双双; 刘婷; 甄嘉闻; 杨月辉; 于璞泽
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-02-13
Anticipated expiration: 2043-12-01
Also published as: CN117557782B

Abstract

本发明公开了一种多尺度特征融合和边界信息注意的视频显著目标检测方法。所述方法包括如下步骤：获取视频显著目标检测数据集及对应光流图，输入到训练好的视频显著目标检测网络中；采用双流主干特征编码器，获取多层级特征；利用全局引导多尺度融合模块，以获取多尺度时空特征；通过跨模态边界注意模块，改善多尺度时空特征的边界检测效果；采用场景感知融合模块，以促进时空特征融合；将融合后的特征不断解码，恢复至原始视频帧尺寸，以获取最终的显著性图。所述方法探索多尺度时空特征融合和边界注意方法，提高了视频显著目标检测的精度，改善了边界检测效果。

Description

一种多尺度特征融合和边界信息注意的视频显著目标检测方法

技术领域

本发明涉及一种多尺度特征融合和边界信息注意的视频显著目标检测方法，属于计算机视觉技术领域。

背景技术

显著性检测的目的是找到图像或视频中最引人注目的区域或物体，包括人眼关注点检测和显著目标检测，人眼关注点检测强调人眼在一个场景中某一位置停留的可能性预测，输出结果是一个大致的显著区域。而随着计算机领域的不断发展，不仅要对停留的区域进行预测，还要对场景中显著目标进行准确预测并获得清晰准确的边界，由此产生了显著目标检测分支，为目标级别的视觉任务提供更直接、更有效的信息，是一个纯计算机视觉任务。

随着信息技术的不断发展，手机、电脑等智能设备的应用，图像、视频的数量急剧增长。但信息总量呈指数级增长的同时，也产生了大量冗余数据。面对海量数据，研究者们期望计算机能具备人类视觉注意机制的能力，聚焦图像或视频中信息最丰富的区域、过滤冗余信息的干扰，从而减少计算资源的浪费且进一步提升后续处理的计算效率。因此，如何从海量的数据中选择有效、关键的信息显得尤为重要。显著性目标检测的优势在于能够提取图像或视频中的最重要部分，并且检测结果符合人类的认知。

视频显著目标检测旨在模拟人眼的视觉注意机制，定位视频中视觉上最显著的目标，并将其从背景像素中分离出来。作为视觉注意力机制在目标分割方面的延伸，并作为计算机视觉任务中重要的预处理步骤之一，视频显著目标检测的结果可以应用到行人重识别、视觉跟踪、视频压缩等后续的各种计算机视觉任务中。

随着卷积神经网络的进步，基于深度学习的视频显著目标检测方法在性能上取得了一些进展，但还存在以下问题。首先，所采用的特征直接来源于主干网络编码器，浅层特征缺乏语义信息，深层特征缺乏细节信息，忽视了多尺度特征的整合。其次，现有方法忽视了边界信息，导致检测结果边界模糊。最后，时空特征融合大多采用元素加或拼接的方式，不能弥合时空特征的差异。

发明内容

本发明的目的在于解决现有方法中的上述问题，提出一种多尺度特征融合和边界信息注意的视频显著目标检测方法。

为实现上述目的，本发明的技术方案为：

一种多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于包括以下步骤：

S1：获取视频显著目标检测数据集，并输入到光流提取网络RAFT中获取对应的光流图；

S2：将视频帧和对应光流图输入训练好的视频显著目标检测网络中；

S3：采用双流主干特征编码器，从视频帧和光流图中获取多层级编码器特征，分别表示为和/>其中S表示空间特征，T表示时间特征，i表示特征的层级；

S4：利用全局引导多尺度融合模块，对提取到的不同尺寸的空间和时间特征进行全局定位信息增强和多尺度特征融合；

S5：通过跨模态边界注意模块，改善多尺度时空特征的边界检测效果；

S6：将改善边界效果后的时空特征传入到场景感知融合模块中，以促进时空特征融合，生成显著目标检测需要的上下文信息；

S7：将融合后的特征不断进行上采样和拼接操作得到S_i，最终将解码器最后一层输出S₁恢复至原始视频帧尺寸，作为当前帧的最终显著性输出结果。

进一步的技术方案在于，所述的全局引导多尺度融合模块对提取的不同尺寸特征图进行特征增强及多尺度融合；该模块包含一个自上而下的背景噪声过滤路径BNFP和一个多尺度特征集成路径MFIP，从而得到包含更丰富语义和细节信息的特征图。

进一步地，所述的自上而下的背景噪声过滤路径BNFP将最高层特征依次通过1×1卷积、上采样层和Sigmoid层，生成全局过滤掩码mask；而后调整各层特征至第一层特征分辨率大小，并分别与mask进行逐元素相乘，为特征的前景分配更大的权重，背景分配更小的权重；其具体计算公式如下：

mask＝σ(Upsample(C_1×1(IF₄)))，

进一步地，所述的多尺度特征集成路径MFIP放置在BNFP之后，通过维度拼接操作对多尺度信息进行建模，并将获得的全局引导的多尺度信息通过逐元素加法添加在每层特征上，这样每层特征都在保留本层特性的基础上，获得了更多用于显著性检测的语义和细节信息；其具体计算公式如下：

MI_i＝C_3×3([RF₁,RF₂,RF₃,RF₄])+RF_i。

进一步地，通过两个卷积层将各层特征恢复至原始大小，第一层特征采用3×3大小的卷积核，第二层和第三层特征采用5×5大小的卷积核，第四层特征采用7×7大小的卷积核。其具体计算公式如下：

进一步的技术方案在于，所述跨模态边界注意模块通过引入通道注意机制、改进空间注意机制和提出边界注意机制来改善特征的边界效果。

进一步地，引入通道注意机制，对多尺度特征进行通道选择，以初步响应空间和时间两个分支8个特征的重要区域，m代表S和T，GMP和GAP分别代表全局最大池化和全局平均池化操作，其具体计算公式如下：

进一步地，改进空间注意机制，选择相应层的空间和时间特征，将空间特征通过一个全局平均池化分支和一个全局最大池化分支，而后进行维度拼接合成两个分支，合成结果经过3×3卷积层和Sigmoid层获得空间权重，并与时间特征逐元素相乘，弥补了时间特征中缺少的空间信息，反之使用时间特征生成空间权重增强空间特征；该过程在整个网络的四层同时实现，充分整合了空间和时间特征的跨模态互补信息，其具体计算公式如下：

进一步地，提出边界注意机制，由于浅层特征包含更精细的细节信息，因此整合时空互补性后的第一层特征被选为边界特征；以空间边界特征为例，通过全局平均池化层和3×3卷积层生成边界注意图，分别下采样到后三层高级特征分辨率大小，与后三层时间特征逐元素相乘以突出物体边界，这期间残差连接用于保留原始信息，反之利用时间边界特征突出后三层空间特征的显著物体边界；其具体计算公式如下：

进一步的技术方案在于，所述场景感知融合模块采用通道级的融合方式，并提出差值阈值化方法，以充分地整合时空特征。

进一步地，所述场景感知的融合模块可以自动学习不同场景下视频的融合权重，以实现更精准鲁棒的融合。

进一步地，将改善边界效果后的对应层时空特征进行拼接，获得FF_i并输入到该模块，使用空间注意力机制和全局平均池化操作，捕获全局空间信息并将其整合到通道中，记作CF_i，而后将其拆分为空间特征和时间特征/>对应通道利用Softmax函数生成融合权重，其具体计算公式如下：

CF_i＝FC₂(FC₁(GAP(Softmax(C_3×3(FF_i))×FF_i)))，

进一步地，提出差值阈值化方法，当时空特征权重差值超过阈值ε后，屏蔽掉权重更小的特征通道，该模块在整个网络的五层同时实现，c表示特征通道，其具体计算公式如下：

进一步的技术方案在于，训练好的视频显著目标检测网络的训练步骤包括：

构建视频显著目标检测网络；

构建训练集，所述训练集为原始视频帧及其对应光流图和显著图；

将训练集输入到视频显著目标检测网络中，进行训练；

视频显著目标检测网络输出当前帧的检测结果；

将检测结果和原始视频帧的显著图计算损失；

当损失值达到最小时，模型收敛，停止训练，得到训练好的视频显著目标检测网络。

采用上述技术方案产生的有益效果在于：本发明提供了一种全局引导多尺度融合模块，充分结合了显著物体的语义信息和细节信息，有助于定位和检测；本发明设计了一种跨模态边界注意模块，用于聚焦显著物体的边界，缓解边界检测模糊问题；本发明开发了一种场景感知融合模块，大大提高了时空特征的融合效率。所采用的三个模块集成在网络中，大大提高了视频显著目标检测的精度，体现了所提技术方案的优势。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将结合附图对本发明作进一步详细的说明。

图1为本发明实施例的网络整体架构图；

图2为本发明实施例中全局引导多尺度融合模块结构图；

图3为本发明实施例中跨模态边界注意模块结构图；

图4为本发明实施例中场景感知融合模块结构图；

图5为本发明实施例的结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种多尺度特征融合和边界信息注意的视频显著目标检测方法，如图1所示，包括如下步骤：

S1：构建双流主干特征编码器，获取多层级特征；双流主干特征编码器包括RGB分支和光流分支。采用ResNet34为骨干网络，ASPP附加在最后一层，从视频帧和光流图中获取多层级编码器特征，分别表示为和/>其中S表示空间特征，T表示时间特征，i表示特征的层级；

S2：构建全局引导多尺度融合模块；

S2-1：全局引导多尺度融合模块包含一个自上而下的背景噪声过滤路径BNFP和一个多尺度特征集成路径MFIP。

S2-2：BNFP将最高层特征依次通过1×1卷积、上采样层和Sigmoid层，生成全局过滤掩码mask；而后调整各层特征至第一层特征分辨率大小，并分别与mask进行逐元素相乘，为特征的前景分配更大的权重，背景分配更小的权重，其具体计算公式如下：

mask＝σ(Upsample(C_1×1(IF₄)))，

S2-3：MFIP放置在BNFP之后，通过维度拼接操作对多尺度信息进行建模，并将获得的全局引导的多尺度信息通过逐元素加法添加在每层特征上，这样每层特征都在保留本层特性的基础上，获得了更多用于显著性检测的语义和细节信息，其具体计算公式如下：

MI_i＝C_3×3([RF₁,RF₂,RF₃,RF₄])+RF_i。

S2-4：通过两个卷积层将各层特征恢复至原始大小，第一层特征采用3×3大小的卷积核，第二层和第三层特征采用5×5大小的卷积核，第四层特征采用7×7大小的卷积核，其具体计算公式如下：

S3：构建跨模态边界注意模块；

S3-1：引入通道注意机制，对多尺度特征进行通道选择，以初步响应空间和时间两个分支8个特征的重要区域，m代表S和T，GMP和GAP分别代表全局最大池化和全局平均池化操作，其具体计算公式如下：

S3-2：改进空间注意机制，选择相应层的空间和时间特征，将空间特征通过一个全局平均池化分支和一个全局最大池化分支，而后进行维度拼接合成两个分支，合成结果经过3×3卷积层和Sigmoid层获得空间权重，并与时间特征逐元素相乘，弥补了时间特征中缺少的空间信息，反之使用时间特征生成空间权重增强空间特征；该过程在整个网络的四层同时实现，充分整合了空间和时间特征的跨模态互补信息，其具体计算公式如下：

S3-3：提出边界注意机制，由于浅层特征包含更精细的细节信息，因此整合时空互补性后的第一层特征被选为边界特征；以空间边界特征为例，通过全局平均池化层和3×3卷积层生成边界注意图，分别下采样到后三层高级特征分辨率大小，与后三层时间特征逐元素相乘以突出物体边界，这期间残差连接用于保留原始信息，反之利用时间边界特征突出后三层空间特征的显著物体边界，其具体计算公式如下：

S4：构建场景感知融合模块；

S4-1：将改善边界效果后的对应层时空特征进行拼接，获得FF_i并输入到该模块，使用空间注意力机制和全局平均池化操作，捕获全局空间信息并将其整合到通道中，记作CF_i，而后将其拆分为空间特征和时间特征/>对应通道利用Softmax函数生成融合权重，其具体计算公式如下：

CF_i＝FC₂(FC₁(GAP(Softmax(C_3×3(FF_i))×FF_i)))，

S4-2：提出差值阈值化方法，当时空特征权重差值超过阈值ε后，屏蔽掉权重更小的特征通道，该模块在整个网络的五层同时实现，c表示特征通道，其具体计算公式如下：

S5：构建解码器，包括上采样层和拼接层，将解码器最后一层输出S₁恢复至原始视频帧尺寸，作为当前帧的最终显著性输出结果。

S6：构建视频显著目标检测网络，进行训练；

S6-1：构建训练集，所述训练集为视频原始视频帧及其对应光流图和显著图。采用广泛使用的四个数据集用于训练：DUTS-TR、DAVIS、FBMS和DAVSOD。其中，DUTS-TR是图像显著性检测的常用数据集，在实验中用于预训练。DAVIS、FBMS和DAVSOD视频数据集具有良好的运动连续性，经常用于训练VSOD模型。

S6-2：将训练集输入到视频显著目标检测网络中，对网络进行训练。输入图像的分辨率调整为448×448，并采用随机水平翻转、随机裁剪的方式进行数据增强。SGD算法用于训练batchsize大小为8、初始学习率为1e-4的网络。

S6-3：视频显著目标检测网络输出当前帧的检测结果。

S6-4：将检测结果和原始视频帧的显著图进行损失计算。采用交叉熵损失和IOU损失作为损失函数，E_rgb和E_flow分别是RGB分支和光流分支的边界特征，G_e和G_s分别是边界标签和显著标签，S_i是解码器各层的预测输出，则最终损失函数的表达式如下：

S6-5：当损失值达到最小时，模型收敛，停止训练，保存参数，得到训练好的视频显著目标检测网络。

S7：将待检测的视频帧及光流图输入至完成训练的视频显著目标检测模型中，从而输出待检测视频帧的最终显著预测图。

为了验证以上实例的有效性，本发明方法与其他先进方法在四个数据集DAVIS、FBMS、DAVSOD和SegTrackV2上进行性能对比，并选用常用的3个指标：maxF_β(max F-measure)、S_m(S-measure)和MAE(Mean Absolute Error)。这三个指标中，除了MAE，maxF_β和S_m数值越大，性能越好。实验结果如表1所示。

表1在四个数据集上的检测精度对比结果

由表1所知，本实施例在各个数据集上的多项指标上都领先于现有方法，证明了本实施例方法的有效性。

图5为本发明方法结果对比图，第一列为RGB图像，第二列为真值图，第三列为本发明方法的结果图。通过对比可以看出，本实例所提供的方案能够准确地定位显著对象，精细地分割对象边界，很好地处理动态变化。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于包括以下步骤：

2.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，利用所述的全局引导多尺度融合模块对提取的不同尺寸特征图进行特征增强及多尺度融合；该模块包含一个自上而下的背景噪声过滤路径BNFP和一个多尺度特征集成路径MFIP，从而得到包含更丰富语义和细节信息的特征图。

3.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，所述跨模态边界注意模块通过引入通道注意机制、改进空间注意机制和提出边界注意机制来改善特征的边界效果。

4.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，所述场景感知融合模块采用通道级的融合方式，并提出差值阈值化方法，以在不同场景下有选择地融合时空特征。

5.如权利要求2所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，所述的自上而下的背景噪声过滤路径BNFP将最高层特征依次通过1×1卷积、上采样层和Sigmoid层，生成全局过滤掩码mask；而后调整各层特征至第一层特征分辨率大小，并分别与mask进行逐元素相乘，为特征的前景分配更大的权重，背景分配更小的权重；所述的多尺度特征集成路径MFIP放置在BNFP之后，通过维度拼接操作对多尺度信息进行建模，并将获得的全局引导的多尺度信息通过逐元素加法添加在每层特征上，这样每层特征都在保留本层特性的基础上，获得了更多用于显著性检测的语义和细节信息；最后通过两个卷积层将各层特征恢复至原始大小，第一层特征采用3×3大小的卷积核，第二层和第三层特征采用5×5大小的卷积核，第四层特征采用7×7大小的卷积核；其具体计算公式如下：

mask＝σ(Upsample(C_1×1(IF₄)))，

MI_i＝C_3×3([RF₁,RF₂,RF₃,RF₄])+RF_i，

6.如权利要求3所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，所述跨模态边界注意模块用于改善特征的边界检测效果；引入通道注意机制，对多尺度特征进行通道选择，以初步响应空间和时间两个分支8个特征的重要区域；改进空间注意机制，选择相应层的空间和时间特征，将空间特征通过一个全局平均池化分支和一个全局最大池化分支，而后进行维度拼接合成两个分支，合成结果经过3×3卷积层和Sigmoid层获得空间权重，并与时间特征逐元素相乘，弥补了时间特征中缺少的空间信息，反之使用时间特征生成空间权重增强空间特征；该过程在整个网络的四层同时实现，充分整合了空间和时间特征的跨模态互补信息；提出边界注意机制，由于浅层特征包含更精细的细节信息，因此整合时空互补性后的第一层特征被选为边界特征；以空间边界特征为例，通过全局平均池化层和3×3卷积层生成边界注意图，分别下采样到后三层高级特征分辨率大小，与后三层时间特征逐元素相乘以突出物体边界，这期间残差连接用于保留原始信息，反之利用时间边界特征突出后三层空间特征的显著物体边界；m代表S和T，GMP和GAP分别代表全局最大池化和全局平均池化操作，其具体计算公式如下：

7.如权利要求4所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，所述场景感知融合模块可以自动学习不同场景下视频的融合权重，以实现更精准鲁棒的融合；将改善边界效果后的对应层时空特征进行拼接，获得FF_i并输入到该模块，使用空间注意力机制和全局平均池化操作，捕获全局空间信息并将其整合到通道中，记作CF_i，而后将其拆分为空间特征和时间特征/>对应通道利用Softmax函数生成融合权重；提出差值阈值化方法，当时空特征权重差值超过阈值ε后，屏蔽掉权重更小的特征通道，该模块在整个网络的五层同时实现，c表示特征通道，其具体计算公式如下：

CF_i＝FC₂(FC₁(GAP(Softmax(C_3×3(FF_i))×FF_i)))，

8.如权利要求1所述的多尺度特征融合和边界信息注意的视频显著目标检测方法，其特征在于，所述训练好的视频显著目标检测网络的训练步骤包括：

构建视频显著目标检测网络；

将训练集输入到视频显著目标检测网络中，进行训练；

视频显著目标检测网络输出当前帧的检测结果；

将检测结果和原始视频帧的显著图计算损失；