CN115984747A

CN115984747A - 一种基于动态滤波器的视频显著性目标检测方法

Info

Publication number: CN115984747A
Application number: CN202310013513.5A
Authority: CN
Inventors: 王一帆; 徐松; 卢湖川; 王立君
Original assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian Weishi Technology Co ltd; Dalian University of Technology
Current assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian Weishi Technology Co ltd; Dalian University of Technology
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-18

Abstract

本发明属于机器学习、视频目标分割、显著性目标检测领域，提供了一种基于动态滤波器的视频显著性目标检测方法。本方法的特征提取网络使用轻量化MobileV3，在保持较高精度的同时，降低模型的内存大小，提升检测速度，对检测网络部署在AI边缘设备的可行性大大提升。设计了一个基于动态滤波器的模块，使得模型的卷积核参数并不是训练好就固定的，而是会根据输入进行动态的调整，使得模型的泛化性得到了提升。同时利用视频这种数据本身的特性，进行时间一致性的约束，使得对于视频的分割结果具有稳定性。

Description

一种基于动态滤波器的视频显著性目标检测方法

技术领域

本发明属于机器学习、视频目标分割、显著性目标检测领域，涉及轻量化特征提取网络MobileV3、动态滤波器、对比学习以及时间一致性约束。

背景技术

图像显著性目标检测是视频显著性目标检测的基础，最早的图像显著性目标检测的研究可以追溯到reisman和Gelade的特征融合方法，而视频显著性目标检测要求利用帧间信息去提高分割结果的稳定性和精确度。视频显著性目标检测的主要任务在于将视频中最显著、最吸引人眼注意力的区域自动分割出来。

随着近些年来卷积神经网络的迅猛发展，视频显著性目标检测也迎来了新的发展阶段，对于视频显著性目标检测来说，如何捕获帧间信息是问题的关键，当前大致手段包括使用光流，注意力机制，convLSTM和3D卷积。目前大部分SOTA方法距离实际应用还有较远的距离，但相比之前的传统算法已经取得了巨大的提升。光流作为视频任务中尤为重要的一个分支，在视频显著性目标检测任务上被频繁使用，但是由于制作光流图的成本太高，不利于在实际场景中的使用；而ConvLSTM作为早期从NLP领域迁移到计算机视觉领域的模型，随着时间的不断推移，对于远距离信息的记忆逐渐遗忘，导致模型性能的不佳，而3D卷积的计算量庞大，和使用光流的方法面临相同的问题。

发明内容

本发明旨在提供一种基于轻量化MobileV3特征提取器的视频显著性目标检测方法，解决现有视频显著性目标检测受到AI边缘运行设备内存容量限制的问题，同时利用动态滤波器根据输入图像动态的调整卷积核的参数，实现模型对不同场景更好的泛化能力，同时利用视频本身的时空间连续特性，对时间域分割结果的稳定性、一致性做进一步的约束。

本发明的技术方案为：

一种基于动态滤波器的视频显著性目标检测方法，步骤如下：

步骤1：输入连续视频流，通过轻量化的MobileV3网络级联一个解码器获取每一帧的粗略掩码预测；

MobileV3特征提取网络是使用网络架构搜索NAS出的一种针对在手机上运行高性能低资源的网络；其首先使用步长为2的卷积模块得到2倍下采样特征，再使用3层级联了卷积模块、标准化层、ReLU6激活函数、3x3深度可分离卷积、标准化层、ReLU6激活函数、1x1卷积层、标准化层的瓶颈残差模块得到4倍下采样特征；堆叠3层同样的瓶颈残差模块，仅将其中3x3的深度可分离卷积替换成5x5的深度可分离卷积，得到8倍下采样特征；通过6层使用了3x3深度可分离卷积的瓶颈残差结构，将原始下采样倍率从2调整到1；通过3层使用了5x5的深度可分离卷积的瓶颈残差结构，同样将原始下采样倍率从2调整到1，得到最终的8倍下采样特征；最后级联卷积模块、全局平均池化层、卷积模块以获得用于分类的特征向量，为了适应视频显著性检测任务，将最后的分类部分舍去。将得到的8倍下采样的特征经过残差模块、卷积模块、上采样后，得到具有语义信息的4倍下采样特征，与特征提取网络最开始提取到的，包含有空间细节信息的4倍下采样特征相加后经过Sigmoid函数，对每帧图像产生一个粗略的掩码预测；

步骤2：将步骤1中得到的8倍下采样的特征分别进行帧内全局注意力模块以及跨帧局部注意力模块，分别对帧内和帧间信息进行建模，具体为：

(2.1)一次性输入网络的帧数为T帧，经过MobileV3得到的8倍下采样后的特征图大小记作(T,C,H,W)，其中T代表帧数，C代表通道数，H表示高度，W表示宽度；

(2.2)帧内全局注意力增强：将步骤(2.1)中提到的特征图分别通过三个独立的卷积层，选取点积作为衡量特征之间相似度的指标，将特征图在空间维度进行展平处理，计算出相似度矩阵，并利用其对每一点从其他空间位置提取信息，达到帧内信息建模的目的；

(2.3)跨帧局部注意力增强：由于对多帧信息进行全局的注意力机制建模，计算量实在太大，我们采用之前工作提出的local-attention机制，对于每一个像素点对应的向量，根据时间距离选取不同大小的窗口进行注意力机制的计算；

步骤3：将步骤2增强后的特征图送入动态滤波器模块，进一步滤除多余的噪声，具体为：

(3.1)将步骤1得到的粗糙的掩码预测调整分辨率后与步骤2得到的特征图在通道维度进行拼接，再经过残差模块、卷积模块得到一个新的特征图；

(3.2)使用多尺度的最大池化，这里选择三个尺度进行最大池化，记作(r1，r2，r3)，将池化后的特征图在空间维度进行展平并拼接，得到的特征维度为(T，C，r1²+r2²+r3²)；

(3.3)由于步骤(3.2)中提取的特征点存在背景噪声，需要进一步去噪处理，首先将维度进行调整合并为(C，T*(r1²+r2²+r3²))，计算出相似度矩阵S，对每一行做softmax，然后在列上求平均，得到对每个特征的一个权重因子，利用这一权重进行加权求和，得到一个1xC的特征；

(3.4)利用步骤(3.3)得到的1xC的特征，经过全连接层，分别生成1x1大小的普通滤波器和3x3大小的深度可分离卷积滤波器以减小参数量；假设输入特征图的尺寸为(H，W，C₁)，输出通道数为C₂，卷积核大小为k的标准卷积核的参数量为k*k*C₁*C₂；卷积核大小为k的深度可分离卷积参数量为k*k*C₁*1+1*1*C₁*C₂；

步骤4：将步骤3得到的经过动态滤波器后的特征进行上采样和low-level的特征相加，再次重复步骤3；

步骤5：将步骤4得到的特征图送入解码器，产生最终精细的掩码预测

本发明的有益效果：

(1)特征提取网络使用轻量化MobileV3，在保持较高精度的同时，降低模型的内存大小，提升检测速度。对检测网络部署在AI边缘设备的可行性大大提升。

(2)设计了一个基于动态滤波器的模块，使得模型的卷积核参数并不是训练好就固定的，而是会根据输入进行动态的调整，使得模型的泛化性得到了提升

(3)利用视频这种数据本身的特性，进行时间一致性的约束，使得对于视频的分割结果具有稳定性。

附图说明

图1为MobileV3特征提取器结构示意图。

图2为基于动态滤波器进行显著性目标检测的流程图。

具体训练方式

下面结合附图和技术方案，进一步说明本发明的具体训练方式。

训练所使用的数据集包括DUTS图片数据集、DAVIS和DAVSOD两个视频数据集，数据集采用随机翻转，随机裁剪，多尺度训练数据扩充方式进行数据增广，训练过程分为预训练和微调两个阶段。

在预训练阶段，先构建一个由图一所示的MobileV3特征提取网络级联一个简易解码器的基础网络，使用DUTS、DAVIS、DAVSOD共3个数据集进行训练，采用Adam优化器，初始学习率设置为2e-4，同时使用poly学习率衰减策略，损失函数采用交叉熵损失以及交并比损失，训练至网络收敛，保存收敛后的网络参数。

在微调阶段，构建如图二所示的完整网络框架，并加载预训练阶段保存的网络参数，微调阶段仅使用DAVIS和DAVSOD两个视频数据集，采用Adam优化器，将网络参数分为两组，第一组为网络预训练过的部分，学习率设置为1e-6；第二组没经过预训练的部分，学习率设置为2e-4。两组参数均使用poly学习率衰减策略，损失函数为交叉熵损失以及交并比损失。同时，根据视频特性，我们对于不同帧之间的前景特征和背景特征使用对比学习的方法进行约束，进一步的保证时间一致性。

在推理阶段，我们只需将连续的视频帧送入网络(比如送入5帧)，网络会根据产生的粗略掩码挑选出带有一定噪声的前景点，假设需要分割出的目标是草原上奔跑的骏马的或者天空中飞翔的老鹰，网络便会挑选出属于骏马或者老鹰部分的特征，其中可能会混杂一些诸如草地或者天空的背景特征，此时通过多帧之间特征的建模，我们可以为属于骏马或者老鹰的特征赋予更大的权重以抑制噪声，再通过加权后的前景特征对整张图的特征做滤波处理，即可得到更为精细的特征图以获得更好的分割结果。

修改后的特征提取网络结构如下：

序列	操作类型	输入尺寸	输出尺寸
				1	输入	3256448	NULL
2	Conv2d	3256448	16128224
				3	BottleBlock	16128224	16128224
4	BottleBlock	16128224	2464112
				5	BottleBlock	2464112	4064112
6	BottleBlock	4064112	16064112

。

Claims

1.一种基于动态滤波器的视频显著性目标检测方法，其特征在于，步骤如下：

步骤1：输入连续视频流，通过轻量化的MobileV3特征提取网络级联一个解码器获取每一帧的粗略掩码预测；

MobileV3特征提取网络是使用网络架构搜索NAS出的一种针对在手机上运行高性能低资源的网络，其首先使用步长为2的卷积模块得到2倍下采样特征，再使用3层级联了卷积模块、标准化层、ReLU6激活函数、3x3深度可分离卷积、标准化层、ReLU6激活函数、1x1卷积层、标准化层的瓶颈残差模块得到包含有空间细节信息的4倍下采样特征；堆叠3层同样的瓶颈残差模块，仅将其中3x3的深度可分离卷积替换成5x5的深度可分离卷积，得到8倍下采样特征；通过6层使用了3x3深度可分离卷积的瓶颈残差结构，将原始下采样倍率从2调整到1；通过3层使用了5x5的深度可分离卷积的瓶颈残差结构，同样将原始下采样倍率从2调整到1，得到最终的8倍下采样特征；最后级联卷积模块、全局平均池化层、卷积模块以获得用于分类的特征向量，为了适应视频显著性检测任务，将最后的分类部分舍去；将得到的8倍下采样的特征经过残差模块、卷积模块、上采样后，得到具有语义信息的4倍下采样特征，与MobileV3特征提取网络最开始提取到的包含有空间细节信息的4倍下采样特征相加后经过Sigmoid函数，对每帧图像产生一个粗略的掩码预测；

步骤2：将步骤1中得到的8倍下采样的特征分别采用帧内全局注意力增强模块以及跨帧局部注意力增强模块对帧内和帧间信息进行建模，具体为：

(2.1)一次性输入MobileV3特征提取网络的帧数为T帧，经过MobileV3特征提取网络得到的8倍下采样后的特征图大小记作(T,C,H,W)，其中，T代表帧数，C代表通道数，H代表高度，W代表宽度；

(2.3)跨帧局部注意力增强：采用local-attention机制，对于每一个像素点对应的向量，根据时间距离选取不同大小的窗口进行注意力机制的计算；

步骤3：将经过步骤2增强后的特征图送入动态滤波器模块，进一步滤除多余的噪声，具体为：

(3.1)将步骤1得到的粗糙掩码预测调整分辨率后与步骤2得到的特征图在通道维度进行拼接，再经过残差模块、卷积模块得到一个新的特征图；

(3.2)使用多尺度的最大池化，选择三个尺度进行最大池化，记作(r1，r2，r3)，将池化后的特征图在空间维度进行展平并拼接，得到的特征维度为(T,C,r1²+r2²+r3²)；

(3.3)去除步骤(3.2)中提取的特征点的背景噪声，首先将特征维度进行调整合并为(C,T*(r1²+r2²+r3²))，计算出相似度矩阵S，对每一行做softmax，然后在列上求平均，得到对每个特征的一个权重因子，利用这一权重进行加权求和，得到一个1xC的特征；

(3.4)利用步骤(3.3)得到的1xC的特征，经过全连接层，分别生成1x1大小的滤波器和3x3大小的深度可分离卷积滤波器以减小参数量；假设输入特征图的尺寸为(H,W,C₁)，输出通道数为C₂，卷积核大小为k的标准卷积核的参数量为k*k*C₁*C₂；卷积核大小为k的深度可分离卷积参数量为k*k*C₁*1+1*1*C₁*C₂；

步骤4：将步骤3得到的经过动态滤波器后的特征进行上采样和浅层的特征相加，再次重复步骤3；

步骤5：将步骤4得到的特征图送入解码器，产生最终精细的掩码预测。