CN115984747A - 一种基于动态滤波器的视频显著性目标检测方法 - Google Patents

一种基于动态滤波器的视频显著性目标检测方法 Download PDF

Info

Publication number
CN115984747A
CN115984747A CN202310013513.5A CN202310013513A CN115984747A CN 115984747 A CN115984747 A CN 115984747A CN 202310013513 A CN202310013513 A CN 202310013513A CN 115984747 A CN115984747 A CN 115984747A
Authority
CN
China
Prior art keywords
convolution
feature
module
frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310013513.5A
Other languages
English (en)
Inventor
王一帆
徐松
卢湖川
王立君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Dalian Weishi Technology Co ltd
Dalian University of Technology
Original Assignee
Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Dalian Weishi Technology Co ltd
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Institute Of Artificial Intelligence Dalian University Of Technology, Dalian Weishi Technology Co ltd, Dalian University of Technology filed Critical Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Priority to CN202310013513.5A priority Critical patent/CN115984747A/zh
Publication of CN115984747A publication Critical patent/CN115984747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于机器学习、视频目标分割、显著性目标检测领域,提供了一种基于动态滤波器的视频显著性目标检测方法。本方法的特征提取网络使用轻量化MobileV3,在保持较高精度的同时,降低模型的内存大小,提升检测速度,对检测网络部署在AI边缘设备的可行性大大提升。设计了一个基于动态滤波器的模块,使得模型的卷积核参数并不是训练好就固定的,而是会根据输入进行动态的调整,使得模型的泛化性得到了提升。同时利用视频这种数据本身的特性,进行时间一致性的约束,使得对于视频的分割结果具有稳定性。

Description

一种基于动态滤波器的视频显著性目标检测方法
技术领域
本发明属于机器学习、视频目标分割、显著性目标检测领域,涉及轻量化特征提取网络MobileV3、动态滤波器、对比学习以及时间一致性约束。
背景技术
图像显著性目标检测是视频显著性目标检测的基础,最早的图像显著性目标检测的研究可以追溯到reisman和Gelade的特征融合方法,而视频显著性目标检测要求利用帧间信息去提高分割结果的稳定性和精确度。视频显著性目标检测的主要任务在于将视频中最显著、最吸引人眼注意力的区域自动分割出来。
随着近些年来卷积神经网络的迅猛发展,视频显著性目标检测也迎来了新的发展阶段,对于视频显著性目标检测来说,如何捕获帧间信息是问题的关键,当前大致手段包括使用光流,注意力机制,convLSTM和3D卷积。目前大部分SOTA方法距离实际应用还有较远的距离,但相比之前的传统算法已经取得了巨大的提升。光流作为视频任务中尤为重要的一个分支,在视频显著性目标检测任务上被频繁使用,但是由于制作光流图的成本太高,不利于在实际场景中的使用;而ConvLSTM作为早期从NLP领域迁移到计算机视觉领域的模型,随着时间的不断推移,对于远距离信息的记忆逐渐遗忘,导致模型性能的不佳,而3D卷积的计算量庞大,和使用光流的方法面临相同的问题。
发明内容
本发明旨在提供一种基于轻量化MobileV3特征提取器的视频显著性目标检测方法,解决现有视频显著性目标检测受到AI边缘运行设备内存容量限制的问题,同时利用动态滤波器根据输入图像动态的调整卷积核的参数,实现模型对不同场景更好的泛化能力,同时利用视频本身的时空间连续特性,对时间域分割结果的稳定性、一致性做进一步的约束。
本发明的技术方案为:
一种基于动态滤波器的视频显著性目标检测方法,步骤如下:
步骤1:输入连续视频流,通过轻量化的MobileV3网络级联一个解码器获取每一帧的粗略掩码预测;
MobileV3特征提取网络是使用网络架构搜索NAS出的一种针对在手机上运行高性能低资源的网络;其首先使用步长为2的卷积模块得到2倍下采样特征,再使用3层级联了卷积模块、标准化层、ReLU6激活函数、3x3深度可分离卷积、标准化层、ReLU6激活函数、1x1卷积层、标准化层的瓶颈残差模块得到4倍下采样特征;堆叠3层同样的瓶颈残差模块,仅将其中3x3的深度可分离卷积替换成5x5的深度可分离卷积,得到8倍下采样特征;通过6层使用了3x3深度可分离卷积的瓶颈残差结构,将原始下采样倍率从2调整到1;通过3层使用了5x5的深度可分离卷积的瓶颈残差结构,同样将原始下采样倍率从2调整到1,得到最终的8倍下采样特征;最后级联卷积模块、全局平均池化层、卷积模块以获得用于分类的特征向量,为了适应视频显著性检测任务,将最后的分类部分舍去。将得到的8倍下采样的特征经过残差模块、卷积模块、上采样后,得到具有语义信息的4倍下采样特征,与特征提取网络最开始提取到的,包含有空间细节信息的4倍下采样特征相加后经过Sigmoid函数,对每帧图像产生一个粗略的掩码预测;
步骤2:将步骤1中得到的8倍下采样的特征分别进行帧内全局注意力模块以及跨帧局部注意力模块,分别对帧内和帧间信息进行建模,具体为:
(2.1)一次性输入网络的帧数为T帧,经过MobileV3得到的8倍下采样后的特征图大小记作(T,C,H,W),其中T代表帧数,C代表通道数,H表示高度,W表示宽度;
(2.2)帧内全局注意力增强:将步骤(2.1)中提到的特征图分别通过三个独立的卷积层,选取点积作为衡量特征之间相似度的指标,将特征图在空间维度进行展平处理,计算出相似度矩阵,并利用其对每一点从其他空间位置提取信息,达到帧内信息建模的目的;
(2.3)跨帧局部注意力增强:由于对多帧信息进行全局的注意力机制建模,计算量实在太大,我们采用之前工作提出的local-attention机制,对于每一个像素点对应的向量,根据时间距离选取不同大小的窗口进行注意力机制的计算;
步骤3:将步骤2增强后的特征图送入动态滤波器模块,进一步滤除多余的噪声,具体为:
(3.1)将步骤1得到的粗糙的掩码预测调整分辨率后与步骤2得到的特征图在通道维度进行拼接,再经过残差模块、卷积模块得到一个新的特征图;
(3.2)使用多尺度的最大池化,这里选择三个尺度进行最大池化,记作(r1,r2,r3),将池化后的特征图在空间维度进行展平并拼接,得到的特征维度为(T,C,r12+r22+r32);
(3.3)由于步骤(3.2)中提取的特征点存在背景噪声,需要进一步去噪处理,首先将维度进行调整合并为(C,T*(r12+r22+r32)),计算出相似度矩阵S,对每一行做softmax,然后在列上求平均,得到对每个特征的一个权重因子,利用这一权重进行加权求和,得到一个1xC的特征;
(3.4)利用步骤(3.3)得到的1xC的特征,经过全连接层,分别生成1x1大小的普通滤波器和3x3大小的深度可分离卷积滤波器以减小参数量;假设输入特征图的尺寸为(H,W,C1),输出通道数为C2,卷积核大小为k的标准卷积核的参数量为k*k*C1*C2;卷积核大小为k的深度可分离卷积参数量为k*k*C1*1+1*1*C1*C2
步骤4:将步骤3得到的经过动态滤波器后的特征进行上采样和low-level的特征相加,再次重复步骤3;
步骤5:将步骤4得到的特征图送入解码器,产生最终精细的掩码预测
本发明的有益效果:
(1)特征提取网络使用轻量化MobileV3,在保持较高精度的同时,降低模型的内存大小,提升检测速度。对检测网络部署在AI边缘设备的可行性大大提升。
(2)设计了一个基于动态滤波器的模块,使得模型的卷积核参数并不是训练好就固定的,而是会根据输入进行动态的调整,使得模型的泛化性得到了提升
(3)利用视频这种数据本身的特性,进行时间一致性的约束,使得对于视频的分割结果具有稳定性。
附图说明
图1为MobileV3特征提取器结构示意图。
图2为基于动态滤波器进行显著性目标检测的流程图。
具体训练方式
下面结合附图和技术方案,进一步说明本发明的具体训练方式。
训练所使用的数据集包括DUTS图片数据集、DAVIS和DAVSOD两个视频数据集,数据集采用随机翻转,随机裁剪,多尺度训练数据扩充方式进行数据增广,训练过程分为预训练和微调两个阶段。
在预训练阶段,先构建一个由图一所示的MobileV3特征提取网络级联一个简易解码器的基础网络,使用DUTS、DAVIS、DAVSOD共3个数据集进行训练,采用Adam优化器,初始学习率设置为2e-4,同时使用poly学习率衰减策略,损失函数采用交叉熵损失以及交并比损失,训练至网络收敛,保存收敛后的网络参数。
在微调阶段,构建如图二所示的完整网络框架,并加载预训练阶段保存的网络参数,微调阶段仅使用DAVIS和DAVSOD两个视频数据集,采用Adam优化器,将网络参数分为两组,第一组为网络预训练过的部分,学习率设置为1e-6;第二组没经过预训练的部分,学习率设置为2e-4。两组参数均使用poly学习率衰减策略,损失函数为交叉熵损失以及交并比损失。同时,根据视频特性,我们对于不同帧之间的前景特征和背景特征使用对比学习的方法进行约束,进一步的保证时间一致性。
在推理阶段,我们只需将连续的视频帧送入网络(比如送入5帧),网络会根据产生的粗略掩码挑选出带有一定噪声的前景点,假设需要分割出的目标是草原上奔跑的骏马的或者天空中飞翔的老鹰,网络便会挑选出属于骏马或者老鹰部分的特征,其中可能会混杂一些诸如草地或者天空的背景特征,此时通过多帧之间特征的建模,我们可以为属于骏马或者老鹰的特征赋予更大的权重以抑制噪声,再通过加权后的前景特征对整张图的特征做滤波处理,即可得到更为精细的特征图以获得更好的分割结果。
修改后的特征提取网络结构如下:
序列 操作类型 输入尺寸 输出尺寸
1 输入 3*256*448 NULL
2 Conv2d 3*256*448 16*128*224
3 BottleBlock 16*128*224 16*128*224
4 BottleBlock 16*128*224 24*64*112
5 BottleBlock 24*64*112 40*64*112
6 BottleBlock 40*64*112 160*64*112

Claims (1)

1.一种基于动态滤波器的视频显著性目标检测方法,其特征在于,步骤如下:
步骤1:输入连续视频流,通过轻量化的MobileV3特征提取网络级联一个解码器获取每一帧的粗略掩码预测;
MobileV3特征提取网络是使用网络架构搜索NAS出的一种针对在手机上运行高性能低资源的网络,其首先使用步长为2的卷积模块得到2倍下采样特征,再使用3层级联了卷积模块、标准化层、ReLU6激活函数、3x3深度可分离卷积、标准化层、ReLU6激活函数、1x1卷积层、标准化层的瓶颈残差模块得到包含有空间细节信息的4倍下采样特征;堆叠3层同样的瓶颈残差模块,仅将其中3x3的深度可分离卷积替换成5x5的深度可分离卷积,得到8倍下采样特征;通过6层使用了3x3深度可分离卷积的瓶颈残差结构,将原始下采样倍率从2调整到1;通过3层使用了5x5的深度可分离卷积的瓶颈残差结构,同样将原始下采样倍率从2调整到1,得到最终的8倍下采样特征;最后级联卷积模块、全局平均池化层、卷积模块以获得用于分类的特征向量,为了适应视频显著性检测任务,将最后的分类部分舍去;将得到的8倍下采样的特征经过残差模块、卷积模块、上采样后,得到具有语义信息的4倍下采样特征,与MobileV3特征提取网络最开始提取到的包含有空间细节信息的4倍下采样特征相加后经过Sigmoid函数,对每帧图像产生一个粗略的掩码预测;
步骤2:将步骤1中得到的8倍下采样的特征分别采用帧内全局注意力增强模块以及跨帧局部注意力增强模块对帧内和帧间信息进行建模,具体为:
(2.1)一次性输入MobileV3特征提取网络的帧数为T帧,经过MobileV3特征提取网络得到的8倍下采样后的特征图大小记作(T,C,H,W),其中,T代表帧数,C代表通道数,H代表高度,W代表宽度;
(2.2)帧内全局注意力增强:将步骤(2.1)中提到的特征图分别通过三个独立的卷积层,选取点积作为衡量特征之间相似度的指标,将特征图在空间维度进行展平处理,计算出相似度矩阵,并利用其对每一点从其他空间位置提取信息,达到帧内信息建模的目的;
(2.3)跨帧局部注意力增强:采用local-attention机制,对于每一个像素点对应的向量,根据时间距离选取不同大小的窗口进行注意力机制的计算;
步骤3:将经过步骤2增强后的特征图送入动态滤波器模块,进一步滤除多余的噪声,具体为:
(3.1)将步骤1得到的粗糙掩码预测调整分辨率后与步骤2得到的特征图在通道维度进行拼接,再经过残差模块、卷积模块得到一个新的特征图;
(3.2)使用多尺度的最大池化,选择三个尺度进行最大池化,记作(r1,r2,r3),将池化后的特征图在空间维度进行展平并拼接,得到的特征维度为(T,C,r12+r22+r32);
(3.3)去除步骤(3.2)中提取的特征点的背景噪声,首先将特征维度进行调整合并为(C,T*(r12+r22+r32)),计算出相似度矩阵S,对每一行做softmax,然后在列上求平均,得到对每个特征的一个权重因子,利用这一权重进行加权求和,得到一个1xC的特征;
(3.4)利用步骤(3.3)得到的1xC的特征,经过全连接层,分别生成1x1大小的滤波器和3x3大小的深度可分离卷积滤波器以减小参数量;假设输入特征图的尺寸为(H,W,C1),输出通道数为C2,卷积核大小为k的标准卷积核的参数量为k*k*C1*C2;卷积核大小为k的深度可分离卷积参数量为k*k*C1*1+1*1*C1*C2
步骤4:将步骤3得到的经过动态滤波器后的特征进行上采样和浅层的特征相加,再次重复步骤3;
步骤5:将步骤4得到的特征图送入解码器,产生最终精细的掩码预测。
CN202310013513.5A 2023-01-05 2023-01-05 一种基于动态滤波器的视频显著性目标检测方法 Pending CN115984747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310013513.5A CN115984747A (zh) 2023-01-05 2023-01-05 一种基于动态滤波器的视频显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310013513.5A CN115984747A (zh) 2023-01-05 2023-01-05 一种基于动态滤波器的视频显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN115984747A true CN115984747A (zh) 2023-04-18

Family

ID=85959458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310013513.5A Pending CN115984747A (zh) 2023-01-05 2023-01-05 一种基于动态滤波器的视频显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN115984747A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309612A (zh) * 2023-05-25 2023-06-23 锋睿领创(珠海)科技有限公司 基于频率解耦监督的半导体硅晶圆检测方法、装置及介质
CN116366868A (zh) * 2023-05-31 2023-06-30 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种并发视频包过滤方法、系统及储存介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309612A (zh) * 2023-05-25 2023-06-23 锋睿领创(珠海)科技有限公司 基于频率解耦监督的半导体硅晶圆检测方法、装置及介质
CN116309612B (zh) * 2023-05-25 2023-08-18 锋睿领创(珠海)科技有限公司 基于频率解耦监督的半导体硅晶圆检测方法、装置及介质
CN116366868A (zh) * 2023-05-31 2023-06-30 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种并发视频包过滤方法、系统及储存介质
CN116366868B (zh) * 2023-05-31 2023-08-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种并发视频包过滤方法、系统及储存介质

Similar Documents

Publication Publication Date Title
CN111062892B (zh) 一种基于复合残差网络和深层监督的单幅图像去雨方法
CN115984747A (zh) 一种基于动态滤波器的视频显著性目标检测方法
CN111462013B (zh) 一种基于结构化残差学习的单图去雨方法
CN111091503B (zh) 基于深度学习的图像去失焦模糊方法
CN111861894B (zh) 基于生成式对抗网络的图像去运动模糊方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN111028235A (zh) 一种利用特征融合增强边缘和细节信息的图像分割方法
CN113592736A (zh) 一种基于融合注意力机制的半监督图像去模糊方法
CN111932461A (zh) 一种基于卷积神经网络的自学习图像超分辨率重建方法及系统
CN106709879A (zh) 一种基于简单透镜计算成像的空间变化点扩散函数平滑方法
CN112419191B (zh) 基于卷积神经网络的图像运动模糊去除方法
CN115439857A (zh) 一种基于复杂背景图像的倾斜字符识别方法
CN111696033A (zh) 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法
CN114936605A (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN112288630A (zh) 一种基于改进的广泛深度神经网络的超分辨率图像重建方法及系统
CN112581423A (zh) 一种基于神经网络的汽车表面缺陷的快速检测方法
Esmaeilzehi et al. UPDResNN: A deep light-weight image upsampling and deblurring residual neural network
CN111402140A (zh) 单张图像超分辨率重建系统及方法
CN110599403A (zh) 一种具有良好高频视觉效果的图像超分辨率重建方法
CN115880175A (zh) 一种基于改进生成对抗网络的模糊图像复原方法
CN115205148A (zh) 基于双路径残差网络的图像去模糊方法
CN116310668A (zh) 基于双流密集超分辨率的显著性目标检测算法
CN112907456B (zh) 基于全局平滑约束先验模型的深度神经网络图像去噪方法
CN114708423A (zh) 基于改进Faster RCNN的水下目标检测方法
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination