CN117173394A

CN117173394A - 面向无人机视频数据的弱监督显著性目标检测方法及系统

Info

Publication number: CN117173394A
Application number: CN202310989860.1A
Authority: CN
Inventors: 丛润民; 张伟; 仇梓峰; 宋然; 陈宇; 李晓磊; 陈韬亦
Original assignee: Shandong University; CETC 54 Research Institute
Current assignee: Shandong University; CETC 54 Research Institute
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-12-05
Anticipated expiration: 2043-08-07
Also published as: CN117173394B

Abstract

本发明提出了面向无人机视频数据的弱监督显著性目标检测方法及系统，分别对视频的RGB图像和光流图进行浅层特征和深层特征的提取，浅层特征包括物体的边缘和纹理等特征信息，深层特征包括丰富的显著性语义内容，将不同模态的浅层特征进行模态对齐和校准，能够更加关注每个模态的显著性信息；不同模态的深层特征进行跨模态融合，充分融合了深层特征的显著性语义信息，然后基于跨模态浅层增强特征和跨模态深层交互特征进行融合得到检测结果，能够很好地抑制视频中复杂背景信息，提高了视频显著性目标检测的准确性，而且应用在弱监督中可达到部分全监督检测效果。

Description

面向无人机视频数据的弱监督显著性目标检测方法及系统

技术领域

本发明属于计算机视觉检测技术领域，尤其涉及面向无人机视频数据的弱监督显著性目标检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，全监督的视频显著性目标检测已经得到了相关研究人员的广泛研究。由于全监督的标注提供充分而准确的监督信息，现有的显著性检测模型可以相对轻易地获得令人瞩目的性能。然而，全监督信息的获取代价是非常高昂的，难以高效地迁移到复杂且多样的计算机视觉任务中。由此，研究人员开始探索如何使用低成本的标注信息甚至不使用带有标注的监督信息实现深度学习模型的训练，视频显著性目标检测也面临类似问题。弱监督标签所提供的监督信息十分有限，如何最大化利用有限的显著性信息，在视频显著性目标检测中应用弱监督信息实现达到全监督训练的模型的检测效果，是本领域技术人员亟待解决的问题。

发明内容

为克服上述现有技术的不足，本发明提供了面向无人机视频数据的弱监督显著性目标检测方法及系统，分别对视频的RGB图像和光流图进行浅层特征和深层特征的提取，将不同模态的浅层特征进行模态对齐和校准，能够更加关注每个模态的显著性信息；不同模态的深层特征进行跨模态融合，充分融合了深层特征的显著性语义信息，然后基于跨模态浅层增强特征和跨模态深层交互特征进行融合得到检测结果，能够很好地抑制视频中复杂背景信息，提高了视频显著性目标检测的准确性。

为实现上述目的，本发明的第一个方面提供面向无人机视频数据的弱监督显著性目标检测方法，包括：

获取视频片段的RGB图像、光流图像；

分别对所述RGB图像、光流图像进行多尺度的特征提取，得到RGB图像的浅层特征和深层特征，光流图像的浅层特征和深层特征；

采用跨模态特征增强模块，将所述RGB图像和所述光流图像不同模态的浅层特征进行模态对齐，基于通道注意力机制对不同模态的浅层特征进行通道维度校准，将不同模态浅层特征对齐后特征和通道维度校准后特征进行融合，得到跨模态浅层增强特征；

采用深度感知交互模块，将所述RGB图像和所述光流图像不同模态的深层特征基于多头注意力机制实现跨模态融合，得到跨模态深层交互特征；

利用长时跨帧对比模块基于连续帧之间背景和前景的相似度以及不同帧之间背景和前景的差异性，对跨模态浅层增强特征和跨模态深层交互特征进行融合，得到显著性目标检测结果。

本发明的第二个方面提供面向无人机视频数据的弱监督显著性目标检测系统，包括：

获取模块：用于获取视频片段的RGB图像、光流图像；

特征提取模块：用于分别对所述RGB图像、光流图像进行多尺度的特征提取，得到RGB图像的浅层特征和深层特征，光流图像的浅层特征和深层特征；

浅层特征增强模块：用于将所述RGB图像和所述光流图像不同模态的浅层特征进行模态对齐，并基于通道注意力机制对不同模态的浅层特征进行通道维度校准，将不同模态浅层特征对齐后特征和通道维度校准后特征进行融合，得到跨模态浅层增强特征；

深度感知交互模块：用于将所述RGB图像和所述光流图像不同模态的深层特征基于多头注意力机制进行跨模态融合，得到跨模态深层交互特征；

长时跨帧对比模块：用于基于连续帧之间背景和前景的相似度以及不同帧之间背景和前景的差异性，对跨模态浅层增强特征和跨模态深层交互特征进行融合，得到显著性目标检测结果。

本发明的第三个方面提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行一种基于弱监督的视频显著性目标检测方法。

本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行一种基于弱监督的视频显著性目标检测方法。

以上一个或多个技术方案存在以下有益效果：

在本发明中，分别对视频的RGB图像和光流图进行浅层特征和深层特征的提取，浅层特征包括物体的边缘和纹理等特征信息，深层特征包括丰富的显著性语义内容，将不同模态的浅层特征进行模态对齐和校准，能够更加关注每个模态的显著性信息。不同模态的深层特征进行跨模态融合，充分融合了深层特征的显著性语义信息，然后基于跨模态浅层增强特征和跨模态深层交互特征进行融合得到检测结果，能够很好地抑制视频中复杂背景信息，提高了视频显著性目标检测的准确性，而且应用在弱监督中可达到部分全监督检测效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本实施例一中层级交互长时弱监督显著性目标检测网络结构图；

图2为本实施例一中不同视频显著性检测方法的可视化结果。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种面向无人机视频数据的弱监督显著性目标检测方法，包括：

获取视频片段的RGB图像、光流图像；

在跨层融合过程中为了利用长时的多帧信息来辅助显著性目标检测，提出了一个长时跨帧对比模块，利用多帧间的相似性来增强模型检测结果的一致性，帮助视频的背景和前景的分离。

如图1所示，本实施例提出的层级交互长时弱监督显著性目标检测网络为双流编码器-解码器架构，具体包括跨模态特征增强模块和深度感知交互模块，二者分别负责浅层和深层特征的跨模态特征交互。同时，为了进行长时信息，利用高层融合后的特征在长时跨帧对比模块中进行长时建模；最后，解码器的输出端输出特征，并通过弱监督相关的损失函数监督模型训练。双流结构分别负责RGB图像特征和短时运动光流图特征，皆由SwinTransformer负责特征编码，双流编码器之间共享网络结构和参数，外观信息编码器和时序信息编码器输出的多级特征分别表示为fi_i ^a和fi_i ^m，其中，i＝{1,2,3,4,5}指代解码器输出特征层数。

本实施例的跨模态特征增强模块目的是高效地融合经过编码器浅层得到的外观模态特征f_i ^a和时间模态特征f_i ^m。浅层特征更关注于目标细节信息，需要对齐两个模态的特征并挖掘特征内部显著性信息。为了缓解Transformer编码器可能带来的块效应，跨模态特征增强模块基于卷积操作设计并置于解码器的末端。输入跨模态特征增强模块的特征张量尺寸为B×C×W×H。对于视频帧内相同位置的显著性目标，在两个模态特征内显著性目标的位置应该是相同的，因此不同模态的特征首先需要对齐以检测出共同位置的显著性目标。另一方面，由于RGB图像拥有更多的外观和纹理信息，而光流图信息拥有更多时间维度信息，来自不同模态的特征在多个通道的重要性上是不同的，多模态特征需要被重新校准以强调它们各自的显著性信息。

因此，本实施例提出了跨模态特征增强模块，该模块主要作用于网络浅层特征，首先在空间部分对齐两个模态，然后重新校准两个模态特征各自的通道部分，以更加关注每个模态的显著性信息。进一步，为了给解码器更为准确的显著性跨模态融合特征，跨模态特征增强模块通过门控装置来选择两个模态特征的重要性并融合，以期得到更强的特征显著性表达能力。

具体的，对于输入的外观模态特征f^a和时间模态特征f^m，先计算它们的公共部分，并通过空间注意力计算权重图：

其中，表示逐像素相乘，Max(·)代表通道维度上的全局最大池化操作，该操作将多通道特征映射为单通道特征，σ为Sigmoid激活函数，/>为7×7卷积层。

得到的公共特征权重图Com_w分别加权到输入的两个模态特征中，对齐过程：

得到两个模态空间对齐后的特征，通道维度的注意力被用于对各自模态特征内拥有更多显著性内容的通道特征进行增强：

其中，GMP表示全局最大池化，为1×1卷积层。

随后，通道注意力得到的通道维度加权特征加权各自对应的两个模态特征中，以实现在通道维度对显著性信息的校准：

其中，⊙代表通道维度带有广播策略相乘。

门控装置以经过特征增强后的两个模态特征为输入，将特征级联后，利用多层感知器产生门控信号，让网络学习选择两个模态的权重，过程如下所述：

g_g′＝MLP(MLP(GAP(Cat(f^a′,f^m′)))) (9)

其中，GAP表示全局平均池化，MLP表示多层感知机，Cat表示在特征维度的级联操作。

随后，得到两个模态各自权重G_a和G_m，这两个权重用于控制两个模态特征的重要性。与经过对齐和校准后的对应模态特征加权得到最终跨模态特征增强模块的输出：

[G_a,G_m]＝σ(f_g′) (10)

其中，表示带有广播策略的相乘，f_CFE为当前特征尺度对应的跨模态特征增强模块的输出。

众所周知，Transformer的成功是源于强大的多头自注意力机制。因此，本实施例认为这一机制也可以用来跨模态交互，进一步探索跨模态的共性特征。深度感知交互模块设计目的为挖掘两个模态的深层显著性语义，辅助模型的解码器进行显著性目标的定位。该模块位于解码器的深层，可以直接利用Transformer编码器输出的张量。输入该模块的特征张量尺寸形式为B×L×C，其中L为Transformer特征Token数量，C为隐层通道数，即每个Token向量的长度。输入特征直接来自两个模态输入经过Swin Transformer编码得到的高层特征，分别记为和/>

本实施例提出一个基于多头注意力机制的深度感知交互模块，该模块架起了特征编码器和特征解码器之间的桥梁，将两种模态输入联系起来并利用互补的信息，挖掘显著性语义。深度感知交互模块整体以Transformer为基础，包含两个关键的注意力组件，分别为多头单模态注意力(Multihead Self-Modality Attention，MSMA)，用于处理单模态特征和多头跨模态注意力(Multihead Cross-Modality Attention，MCMA)，用于处理两个模态特征交互。二者均包含Transformer内的基本组件。

对于跨模态的感知交互，两个模态的特征经过映射得到对应的查询变量q，关键变量k和值变量v。首先在多头跨模态注意力的注意力模块中对两个模态的查询变量进行交换，进行跨模态的显著性特征学习，这可以通过以下两个公式表示：

其中，att_am对应RGB图像模态特征被运动模态特征增强，att_ma对应运动模态特征被RGB图像模态特征增强，MCA为跨模态注意力机制，d为缩放因子。

随后，将跨模态增强后的特征与线性层结合，若干公式如下：

其中，MLP(·)包含两个线性映射层，一个丢弃层以及GELU激活函数。LN表示层归一化。

经过跨模态学习的两个模态特征，之后会被分别送入各自的多头自注意力模块中进行单模态特征的强化学习，得到和/>即：

其中，MSMA表示多头自注意力。

最后，和/>通过级联在Token的通道维度结合，经过一个层标准化和多层感知机得到最后的深度感知交互模块输出f^DII：

尽管通过跨模态特征增强模块和深度感知交互模块，本实施例方法已经可以有效融合外观模态和运动模态的特征。但与基于静态图像的显著性目标相比，视频序列中的显著性目标往往会被遮挡或出现模糊变形，甚至对于部分场景，人眼也需要综合多帧来进行显著性目标推断。然而在上述模块中，光流被作为相邻帧的短时运动信息，网络缺少对于长时信息的建模。

为了利用长时的多帧信息来辅助显著性目标检测，本实施例提出了一个长时跨帧对比模块。通过对多帧之间的前景背景长距离依赖的探索，利用多帧间的相似性来增强模型检测结果的一致性，帮助视频的背景和前景的分离。对于连续的相邻帧之间，场景的变化是有限的，可以通过挖掘连续帧之间背景和前景之间相似性以及不同帧背景和前景的差异性来建模长时信息，通过使用对比学习来学习该类差异性和相似性。

首先，通过长时跨帧对比模块分别获得每一帧的显著性激活图以及前景特征向量和背景特征向量。给定一段连续帧通过编码器以及深度感知交互模块获得高层跨模态融合空时特征/>

首先直接通过简单的卷积操作获得前景特征的激活图Sal_ac，即显著性激活图：

随后，通过算法将特征的前后背景解耦，获得对于当前帧前景表达向量和背景表达向量/>对于先前的原始特征E_i和激活图Sal_ac需要进行矩阵的扁平化，得到E_i∈R^1×HW和Sal_ac∈R^C×HW，最后将解耦后的向量与原始特征加权相乘：

其中，和T分别表示矩阵乘法和转置操作。

上述操作得到的显著性激活图直接对原始特征E_i激活，并以残差形式连接。前景向量和背景向量通过对比学习中的InfoNCE损失函数，拉近前景-前景的距离，拉远前景-背景的距离：

其中，u₊表示正例，u_i表示所有样本，τ表示超参数损失函数内的温度系数。

由于涂鸦标签缺少显著目标的结构化信息，对于标签的直接学习很难感知到目标的轮廓特征，使用了一个边缘检测增强模块来检测显著性目标的边界信息，并引导算法模型更多地关注目标的结构信息，输出高质量的显著性预测结果。特征编码器的高层特征具有更丰富的语义信息，而底层特征携带了更多细节特征。所以，外观解码器的浅层特征被用于边缘特征的学习。以外观解码器的输出特征为例，浅层特征通过特征整合和学习输出边缘特征。首先通过一维卷积核将特征降维，同时上采样到同一尺度，并将输出三层特征级联在一起：

f^e＝Cat(f^e1,f^e2,f^e3) (29)

其中，Up_x代表x倍上采样，表示卷积核大小为1的卷积操作，Cat代表通道维度的级联操作。

之后，利用通道注意力机制和参差连接来生成更为准确的边缘信息：

其中，CA为通道注意力机制。

随后，将包含边缘信息的特征用于检测网络最终解码阶段，用于解码器特征增强，包括底层特征噪声的抑制和精细化目标边缘轮廓。解码阶段，网络直接将高层解码特征和边缘特征级联，通过简单卷积输出最终的显著性预测结果图。

由于弱监督涂鸦标签的特殊性，需要的损失函数也区别于全监督模型。对于最终的显著性预测结果，本实施例使用部分交叉熵损失函数

其中，J为涂鸦标签前景标注区域，g指真值，s代表预测显著图。

同时，边缘检测增强模块需要边缘损失函数学习边界结构信息，本实施使用全监督的交叉熵损失函数作为边缘信息监督：

其中，GT_e表示对应的边缘真值图。

边缘检测增强模块使得网络模型强化目标边缘信息的表达，同时针对显著性检测，也需要关注前景显著性目标的一致性感知和对背景的抑制，即期望预测的显著性图在显著区域内具有一致性，在显著性目标边缘存在明显的边界。本实施例引入提出的门控结构感知损失函数实现该目的。

针对模型的显著性检测结果图，可以得到以下损失函数：

其中，GT_s为弱监督涂鸦标签，grey表示当前模型训练输入的RGB图像对应的灰度图，λ为超参数用于平衡多个损失函数。按照经验，这个值在实验中设为0.3。

最后，加上使用的InfoNCE损失函数整个模型的总损失函数如下：

图2中提供了可视化的显著性目标检测结果。本实施例方法很好地抑制了视频中的复杂背景信息，甚至在部分场景下，该方面的能力优于很多全监督模型。

实施例二

本实施例的目的是提供面向无人机视频数据的弱监督显著性目标检测系统，包括：

获取模块：用于获取视频片段的RGB图像、光流图像；

实施例三

本实施例的目的是提供一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，包括：

获取视频片段的RGB图像、光流图像；

2.如权利要求1所述的面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，采用跨模态特征增强模块，将所述RGB图像和所述光流图像不同模态的浅层特征进行模态对齐，并基于通道注意力机制对不同模态的浅层特征进行通道维度校准，将不同模态浅层特征对齐后特征和通道维度校准后特征进行融合，得到目标跨模态浅层增强特征，具体为：

对所述RGB图像的浅层特征和所述光流图像的浅层特征基于公共部分计算空间权重图；

将所计算的空间权重图分别与所述RGB图像浅层特征、所述光流图像浅层特征进行融合对齐，分别得到对齐特征；

将对齐特征基于通道注意力机制进行校准，得到校准特征；

将不同模态的对齐特征与对应的校准特征进行融合，得到不同模态的跨模态浅层增强特征。

3.如权利要求2所述的面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，将不同模态的对齐特征与对应的校准特征进行融合后，还包括：

将不同模态的对齐特征与对应的校准特征进行融合，分别得到不同模态的增强特征；

对不同模态的增强特征进行特征维度上的级联操作；

将级联操作的结果经过全局平均池化操作；

将全局平均池化操作的结果基于多层感知机的门控信号进行不同模态权重的选择；

利用所选择的权重以及对应模态的增强特征，得到跨模态浅层增强特征。

4.如权利要求1所述的面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，采用深度感知交互模块，将所述RGB图像和所述光流图像不同模态的深层特征基于多头注意力机制进行跨模态融合，得到跨模态深层交互特征，具体包括：

将所述RGB图像和所述光流图像不同模态的深层特征经过映射，得到对应的查询变量、关键变量和值变量；

根据所得到的不同模态的查询变量、关键变量和值变量，基于跨模态注意力机制，得到RGB图像运动模态增强特征和光流图像纹理增强特征；

将RGB图像运动模态增强特征、光流图像纹理增强特征分别经过线性映射，然后基于多头自注意力进行单模态特征的学习，得到跨模态深层交互特征。

5.如权利要求1所述的面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，利用长时跨帧对比模块基于连续帧之间背景和前景的相似度以及不同帧之间背景和前景的差异性，对不同模态的跨模态浅层增强特征和跨模态深层交互特征进行融合，具体为：

通过卷积操作获得融合特征的前景特征的激活图；

根据所述激活图和融合特征通过矩阵乘法进行前景和背景的解耦，得到前景表达向量和背景表达向量；

所述前景表达向量和背景表达向量通过对比学习的损失函数拉近前景-前景的距离，拉远前景-背景的距离。

6.如权利要求1所述的面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，还包括边缘检测增强，具体包括：

将RGB图像的不同尺度的浅层特征、所述光流图像不同尺度的浅层特征分别通过一维卷积进行特征降维；

将降维后的RGB图像的不同尺度的浅层特征、光流图像不同尺度的浅层特征分别上采样到同一尺度；

将上采样后的RGB图像的浅层特征、光流图像的浅层特征基于不同模态进行级联；

将级联后的结果基于通道注意力机制得到边缘增强的RGB图像的浅层特征、光流图像的浅层特征。

7.如权利要求6所述的面向无人机视频数据的弱监督显著性目标检测方法，其特征在于，利用全监督的交叉熵损失函数作为边缘检测增强的边缘检测监督。

8.面向无人机视频数据的弱监督显著性目标检测系统，其特征在于，包括：

获取模块：用于获取视频片段的RGB图像、光流图像；

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的面向无人机视频数据的弱监督显著性目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的面向无人机视频数据的弱监督显著性目标检测方法。