CN116071748A - 一种基于频域全局滤波的无监督视频目标分割方法 - Google Patents

一种基于频域全局滤波的无监督视频目标分割方法 Download PDF

Info

Publication number
CN116071748A
CN116071748A CN202310059898.9A CN202310059898A CN116071748A CN 116071748 A CN116071748 A CN 116071748A CN 202310059898 A CN202310059898 A CN 202310059898A CN 116071748 A CN116071748 A CN 116071748A
Authority
CN
China
Prior art keywords
stage
features
feature
video
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310059898.9A
Other languages
English (en)
Inventor
王玉琛
宋慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310059898.9A priority Critical patent/CN116071748A/zh
Publication of CN116071748A publication Critical patent/CN116071748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于频域全局滤波的无监督视频目标分割方法。基于视频帧及其对应的光流估计图像;通过双流CNN骨干网络分别提取外观特征与运动特征;通过频域全局滤波模块,将每组外观特征与运动特征进行融合并通过快速傅里叶变换,由空间域转换到频域,在频域中经过可学习的权重矩阵捕获全局依赖关系,再通过快速傅里叶逆变换转换回空间域,实现对特征全局依赖关系的捕获;再将特征进行多尺度的特征提取;然后将低分辨率特征不断上采样恢复至高分辨率并与高分辨率特征拼接,最终输出分割完成的视频目标掩模。本发明的无监督视频目标分割方法在干扰目标多样、背景杂乱的场景中依旧能显著地提高分割结果的准确性和鲁棒性,并且保持较低的计算量。

Description

一种基于频域全局滤波的无监督视频目标分割方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于频域全局滤波的无监督视频目标分割方法。
背景技术
无监督视频目标分割(UVOS)任务是给定一段视频,在不提供其他分割掩模信息的情况下,自动的分割出视频中的主要物体。该任务在自动驾驶、视频理解、线上会议等领域有着广泛的应用。
近年来,很多基于深度学习的方法被提出,通过捕获图像特征的全局依赖关系来更好的指导模型分割出具有相同语义信息的目标区域,这些方法一般都是在空间域中采用自注意力机制或者全局尺寸的卷积核来捕获图像特征的全局依赖关系。这样做在输入较大尺寸图像时,会带来巨大的计算量增加,加大对运行设备的要求,影响分割模型的实际应用。
发明内容
本发明所要解决的技术问题是:无监督视频目标分割(UVOS)任务中模型使用使用自注意力机制捕获特征全局依赖关系导致的计算量过大的问题。
为解决上述技术问题,本发明采用以下技术方案:
一种基于频域全局滤波的无监督视频目标分割方法,对包含目标对象的视频,执行以下步骤,获得分割出目标对象的视频目标掩模:
步骤1:针对包含目标对象的视频,获得视频包括的各视频图像帧;并基于对视频中目标对象的分割标注,获得每个视频图像帧对应的光流估计图像;
步骤2:针对各视频图像帧、以及每个视频图像帧对应的光流估计图像,利用预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,获得各视频图像帧分别对应的分割出目标对象的图像目标掩模,进而获得分割出目标对象的视频目标掩模。
作为本发明的一种优选技术方案,所述步骤2中,所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块;
双流CNN骨干网络模块,包括视频图像帧和光流估计图像分别对应的特征提取网络模块,视频图像帧输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的外观特征,光流估计图像输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的运动特征;视频图像帧和光流估计图像分别对应的特征提取网络模块中特征提取的阶段数相同,阶段数越高输出的特征分辨率越低,相同阶段输出的特征分辨率相同;
频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征进行特征融合获得各阶段分别对应的融合特征;分别针对各阶段分别对应的融合特征,将融合特征转换成频域特征,将频域特征与可学习的权重矩阵进行点乘操作,实现对频域特征的全局滤波,然后再转换成空间特征与融合特征进行点乘操作,获得该阶段对应的第一特征,进而获得各阶段分别对应的第一特征;
多尺度特征提取模块,分别针对各阶段对应的第一特征,结合各预设尺寸的卷积核进行卷积操作,再将各预设尺寸的卷积核输出进行拼接,经过1×1卷积降维与激活函数后,获得该阶段对应的多尺度特征,进而获得各阶段分别对应的多尺度特征;
残差优化模块,分别针对各阶段对应的多尺度特征,经过3×3卷积后的特征与该阶段的多尺度特征进行点乘,然后与该阶段的多尺度特征进行相加,获得该阶段对应的优化特征,进而获得各阶段分别对应的优化特征;
上采样解码模块,基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至上采样至至视频图像帧分辨率,获得上采样特征;然后将上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
作为本发明的一种优选技术方案,所述频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征,具体执行以下过程,获得各阶段分别对应的第一特征:
步骤A1:针对双流CNN骨干网络模块输出的第k阶段的外观特征Ak与运动特征Mk进行特征提取,经过1×1卷积和激活函数模块对外观特征Ak与运动特征Mk得到特征Ak′与Mk′,具体公式为:
Ak′=σ(conv(Ak),
Mk′=σ(conv(Mk),
其中,
Figure BDA0004061070990000031
表示激活函数,conv表示1×1卷积,Ak′表示外观特征Ak对应的特征提取后的特征,Mk′表示运动特征Mk对应的特征提取后的特征;
步骤A2:基于第k阶段的外观特征Ak与运动特征Mk进行特征提取获得的特征Ak′、Mk′,通过以下公式将特征Ak′与Mk′融合,获得第k阶段的融合特征Fk
Figure BDA0004061070990000032
其中,
Figure BDA0004061070990000033
为点乘操作,max为最大池化操作,concat为拼接操作
步骤A3:基于快速傅里叶变换,将第k阶段的融合特征Fk转换成频域特征,将频域特征与其对应的可学习的权重矩阵Xk点乘获得频域全局增强的特征,再通过快速傅里叶逆变换将频域全局增强的特征转换成空间特征,将空间特征与第k阶段的融合特征Fk进行点乘,获得该阶段对应的第一特征Fk′,具体公式为:
Figure BDA0004061070990000034
其中,
Figure BDA0004061070990000035
为点乘操作,FFT为快速傅里叶变换,iFFT为快速傅里叶逆变换,Xk为可学习的权重矩阵。
作为本发明的一种优选技术方案,所述多尺度特征提取模块,分别针对各阶段对应的第一特征,通过以下公式,获得各阶段分别对应的多尺度特征:
Fk″=σ(conv(concat(conv1(Fk′),conv2(Fk′),conv3(Fk′)...convn(Fk′)))),
其中,Fk″表示第k阶段对应的多尺度特征,Fk′表示第k阶段对应的第一特征Fk′,
Figure BDA0004061070990000036
表示激活函数,convn表示第n个预设尺寸的卷积核对应的卷积操作,concat为拼接操作。
作为本发明的一种优选技术方案,所述残差优化模块,分别针对各阶段对应的多尺度特征,通过以下公式,获得各阶段分别对应的优化特征:
Figure BDA0004061070990000037
其中,conv3*3表示3×3尺寸的卷积核对应的卷积操作,
Figure BDA0004061070990000038
为点乘操作,Fk″′表示第k阶段对应的优化特征,Fk″表示第k阶段对应的多尺度特征。
作为本发明的一种优选技术方案,所述上采样解码器模块,执行以下步骤,获得视频图像帧对应的分割出目标对象的图像目标掩模:
步骤B1:基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至所有阶段遍历结束,获得第一上采样特征;每次迭代中上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接,具体公式如下:
Uk-1=concat(Upsample(Fk″′),Fk-1″′),
其中,Upsample表示上采样操作,concat表示拼接操作,Fk″′表示第k阶段对应的优化特征,Uk-1表示第k阶段优化特征上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接获得的特征。
步骤B2:将第一上采样特征进一步上采样至视频图像帧的分辨率,获得第二上采样特征,即上采样特征;
步骤B3:将第二上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
作为本发明的一种优选技术方案,所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数Ltotal(M,G)如下所示:
Ltotal(M,G)=LIOU(M,G)+LBEC(M,G),
其中,
Figure BDA0004061070990000041
M为模型预测分割出目标对象的图像目标掩模结果,G为真实分割出目标对象的图像目标结果,H表示视频图像帧的高,W表示视频图像帧的宽,Mi,j表示预测分割出目标对象的图像目标掩模结果中第i行第j列的值,Gi,j表示真实分割出目标对象的图像目标掩模结果中第i行第j列的值。
本发明的有益效果是:本发明提供一种基于频域全局滤波的无监督视频目标分割方法,包括:获取视频帧及其对应的光流估计图像;通过解码阶段的双流CNN骨干网络分别提取四组外观特征与运动特征;通过构建频域全局滤波模块,将每组外观特征与运动特征进行融合并通过快速傅里叶变换,由空间域转换到频域,在频域中经过可学习的权重矩阵捕获全局依赖关系,再通过快速傅里叶逆变换转换回空间域,实现对特征全局依赖关系的捕获;构建特征金字塔模块,将特征进行多尺度的特征提取;在解码阶段,将低分辨率特征不断上采样恢复至高分辨率,并与高分辨率特征拼接,最终输出分割完成的视频目标掩模。本发明利用快速傅里叶变换将特征从空间域转换到频域,在频域中利用频域特征与权重矩阵的点乘操作实现全局特征的学习,代替空间域中的全局尺寸卷积操作,从而在减少计算量的同时使模型能精确地把视频中的目标从背景里分割出来。本发明的无监督视频目标分割方法在干扰目标多样、背景杂乱的场景中依旧能显著地提高分割结果的准确性和鲁棒性,并且保持较低的计算量。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的频域全局滤波模块的示意图;
图3为本发明实施例的多尺度特征提取模块的示意图;
图4为本发明实施例的残差优化模块的示意图;
图5为本发明实施例的分割结果示例。
具体实施方式
下面结合附图对本发明进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
一种基于频域全局滤波的无监督视频目标分割方法,其流程图如图1所示,对包含目标对象的视频,执行以下步骤,获得分割出目标对象的视频目标掩模:
步骤1:针对包含目标对象的视频,获得视频包括的各视频图像帧;并基于对视频中目标对象的分割标注,获得每个视频图像帧对应的光流估计图像。
在本实施例中,首先将含目标对象的视频转换为按时间排列的连续视频图像帧,获取每个视频图像帧对应的目标对象分割标注结果,并使用现有的光流估计方法,生成每个视频图像帧与其相邻帧计算得到的光流估计图像;本实施例中,每个视频图像帧对应的光流估计图像,即该视频图像帧与上一时间的视频图像帧计算得到的光流估计图像;其中,光流指相机移动或空间中物体移动时,目标对象在相邻两帧间产生位移;光流估计方法可以生成视频相邻两帧的光流估计图像。
步骤2:针对各视频图像帧、以及每个视频图像帧对应的光流估计图像,利用预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,获得各视频图像帧分别对应的分割出目标对象的图像目标掩模,进而获得分割出目标对象的视频目标掩模。每次处理一帧图像,把每帧图像目标掩模结果连续输出就是视频目标掩模。
所述步骤2中,所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块。
双流CNN骨干网络模块,包括视频图像帧和光流估计图像分别对应的特征提取网络模块,视频图像帧输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的外观特征,光流估计图像输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的运动特征;视频图像帧和光流估计图像分别对应的特征提取网络模块中特征提取的阶段数相同,阶段数越高输出的特征分辨率越低,相同阶段输出的特征分辨率相同。
本实施例中,视频图像帧和光流估计图像的分辨率相同,均为宽672像素、高384像素、通道数为3;经过四个阶段的特征提取模块,即下采样,得到四组不同分辨率的外观特征
Figure BDA0004061070990000061
与运动特征
Figure BDA0004061070990000062
其中,k∈[1,4]表示第k组特征,C表示特征通道数,H表示特征高度,W表示特征宽度。具体的,A1
Figure BDA0004061070990000063
A2
Figure BDA0004061070990000064
A3
Figure BDA0004061070990000065
A4
Figure BDA0004061070990000066
频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征进行特征融合获得各阶段分别对应的融合特征;分别针对各阶段分别对应的融合特征,将融合特征转换成频域特征,将频域特征与可学习的权重矩阵进行点乘操作,实现对频域特征的全局滤波,然后再转换成空间特征与融合特征进行点乘操作,获得该阶段对应的第一特征,进而获得各阶段分别对应的第一特征。
图2展示了频域全局滤波模块,所述频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征,具体执行以下过程,获得各阶段分别对应的第一特征:
步骤A1:针对双流CNN骨干网络模块输出的第k阶段的外观特征Ak与运动特征Mk进行特征提取,经过1×1卷积和激活函数模块对外观特征Ak与运动特征Mk得到特征Ak′与Mk′,具体公式为:
Ak′=σ(conv(Ak),
Mk′=σ(conv(Mk),
其中,
Figure BDA0004061070990000071
表示激活函数,conv表示1×1卷积,Ak′表示外观特征Ak对应的特征提取后的特征,Mk′表示运动特征Mk对应的特征提取后的特征;
步骤A2:基于第k阶段的外观特征Ak与运动特征Mk进行特征提取获得的特征Ak′、Mk′,通过以下公式将特征Ak′与Mk′融合,获得第k阶段的融合特征Fk
Figure BDA0004061070990000072
其中,
Figure BDA0004061070990000073
为点乘操作,max为最大池化操作,concat为拼接操作
步骤A3:基于快速傅里叶变换,将第k阶段的融合特征Fk转换成频域特征,将频域特征与其对应的可学习的权重矩阵Xk点乘获得频域全局增强的特征,再通过快速傅里叶逆变换将频域全局增强的特征转换成空间特征,将空间特征与第k阶段的融合特征Fk进行点乘,获得该阶段对应的第一特征Fk′,即得到空间域中捕获全局依赖关系的特征Fk′,具体公式为:
Figure BDA0004061070990000074
其中,
Figure BDA0004061070990000075
为点乘操作,FFT为快速傅里叶变换,iFFT为快速傅里叶逆变换,Xk为可学习的权重矩阵。
本实施例中,频域全局滤波模块该模块的作用是将双流CNN骨干网络模块得到的四组不同分辨率的外观特征A1,A2,A3,A4与运动特征M1,M2,M3,M4融合后,在频域中与可学习的权重矩阵点乘后,再转换回空间域,获得捕获全局依赖关系的特征Fk′。其中,可学习的权重矩阵
Figure BDA0004061070990000076
初始值全为1,C为1表示通道数,H和W为权重矩阵高和宽,与Fk的高和宽相同,随着训练学习到特征不同位置的重要性程度,得到对应的权重系数。
多尺度特征提取模块,分别针对各阶段对应的第一特征,结合各预设尺寸的卷积核进行卷积操作,提取特征的多尺度信息,再将各预设尺寸的卷积核输出进行拼接,经过1×1卷积降维与激活函数后,获得该阶段对应的多尺度特征,进而获得各阶段分别对应的多尺度特征。
图3展示了多尺度特征提取模块,所述多尺度特征提取模块,分别针对各阶段对应的第一特征,通过以下公式,获得各阶段分别对应的多尺度特征:
Fk″=σ(conv(concat(conv1(Fk′),conv2(Fk′),conv3(Fk′)...convn(Fk′)))),
其中,Fk″表示第k阶段对应的多尺度特征,Fk′表示第k阶段对应的第一特征Fk′,
Figure BDA0004061070990000081
表示激活函数,convn表示第n个预设尺寸的卷积核对应的卷积操作,concat为拼接操作。
本实施例中,各预设尺寸的卷积核分别采用1×1、7×7和13×13尺寸的卷积核,则所述多尺度特征提取模块,分别针对各阶段对应的第一特征,通过以下公式,获得各阶段分别对应的多尺度特征:
Fk″=σ(conv1(concat(conv1*1(Fk′),conv7*7(Fk′),conv13*13(Fk′)))),
残差优化模块,分别针对各阶段对应的多尺度特征,经过3×3卷积后的特征与该阶段的多尺度特征进行点乘,然后与该阶段的多尺度特征进行相加,通过残差结构进行优化,得到优化后的特征Fk″′,即获得该阶段对应的优化特征,进而获得各阶段分别对应的优化特征;
图4展示了残差优化模块,所述残差优化模块,分别针对各阶段对应的多尺度特征,通过以下公式,获得各阶段分别对应的优化特征:
Figure BDA0004061070990000082
其中,conv3*3表示3×3尺寸的卷积核对应的卷积操作,
Figure BDA0004061070990000083
为点乘操作,Fk″′表示第k阶段对应的优化特征,Fk″表示第k阶段对应的多尺度特征。
上采样解码模块,基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至上采样至至视频图像帧分辨率,获得上采样特征;然后将上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
本实施例中,针对构建的上采样解码模块,将最后一阶段对应的优化特征不断上采样并且与前一阶段特征拼接,恢复得到至原始图像宽高大小的特征FPred,再通过激活函数将特征FPred的数值范围缩放至0-1区间,经过1×1卷积将通道维数降维至1,其中,特征FPred每个像素的数值表示该像素为前景目标的概率。最终表示得到获得分割好的二值视频目标掩模图像作为输出,即视频图像帧对应的分割出目标对象的图像目标掩模。
所述上采样解码器模块,执行以下步骤,获得视频图像帧对应的分割出目标对象的图像目标掩模:
步骤B1:基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至所有阶段遍历结束,获得第一上采样特征;每次迭代中上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接,具体公式如下:
Uk-1=concat(Upsample(Fk″′),Fk-1″′),
其中,Upsample表示上采样操作,concat表示拼接操作,Fk″′表示第k阶段对应的优化特征,Uk-1表示第k阶段优化特征上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接获得的特征;
具体的在本实施例中,将最后一阶段对应的优化特征,即最低分辨率特征F4″′上采样至F3″′分辨率,并沿通道方向与F3″′进行拼接得到U3,将U3上采样至F2″′分辨率,并沿通道方向与F2″′进行拼接得到U2,将U2上采样至F1″′分辨率,并沿通道方向与F1″′进行拼接得到U1
步骤B2:将第一上采样特征进一步上采样至视频图像帧的分辨率,获得第二上采样特征,即上采样特征;
具体的在本实施例中,U1再进行4倍上采样恢复分辨率至原始图像大小的高和宽为384,672像素特征FPred
步骤B3:将第二上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
进一步的,所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数,总的损失函数Ltotal由IOU损失函数LIOU和交叉熵损失函数LBCE确定,Ltotal(M,G)如下所示:
Ltotal(M,G)=LIOU(M,G)+LBEC(M,G),
其中,
Figure BDA0004061070990000091
M为模型预测分割出目标对象的图像目标掩模结果,G为真实分割出目标对象的图像目标结果,H表示视频图像帧的高,W表示视频图像帧的宽,Mi,j表示预测分割出目标对象的图像目标掩模结果中第i行第j列的值,Gi,j表示真实分割出目标对象的图像目标掩模结果中第i行第j列的值。
图5为采用本发明方法处理的部分示例的显示结果,从图中可明显看出天鹅、骆驼、狗、汽车、马、牛等前景目标被从视频图像帧中分割出来。
本发明设计了一种基于频域全局滤波的无监督视频目标分割方法,包括:获取视频帧及其对应的光流估计图像;通过解码阶段的双流CNN骨干网络分别提取四组外观特征与运动特征;通过构建频域全局滤波模块,将每组外观特征与运动特征进行融合并通过快速傅里叶变换,由空间域转换到频域,在频域中经过可学习的权重矩阵捕获全局依赖关系,再通过快速傅里叶逆变换转换回空间域,实现对特征全局依赖关系的捕获;构建特征金字塔模块,将特征进行多尺度的特征提取;在解码阶段,将低分辨率特征不断上采样恢复至高分辨率,并与高分辨率特征拼接,最终输出分割完成的视频目标掩模。本发明利用快速傅里叶变换将特征从空间域转换到频域,在频域中利用频域特征与权重矩阵的点乘操作实现全局特征的学习,代替空间域中的全局尺寸卷积操作,从而在减少计算量的同时使模型能精确地把视频中的目标从背景里分割出来。本发明的无监督视频目标分割方法在干扰目标多样、背景杂乱的场景中依旧能显著地提高分割结果的准确性和鲁棒性,并且保持较低的计算量。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (7)

1.一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:针对包含目标对象的视频,执行以下步骤,获得分割出目标对象的视频目标掩模:
步骤1:针对包含目标对象的视频,获得视频包括的各视频图像帧;并基于对视频中目标对象的分割标注,获得每个视频图像帧对应的光流估计图像;
步骤2:针对各视频图像帧、以及每个视频图像帧对应的光流估计图像,利用预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,获得各视频图像帧分别对应的分割出目标对象的图像目标掩模,进而获得分割出目标对象的视频目标掩模。
2.根据权利要求1所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述步骤2中,所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块;
双流CNN骨干网络模块,包括视频图像帧和光流估计图像分别对应的特征提取网络模块,视频图像帧输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的外观特征,光流估计图像输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的运动特征;视频图像帧和光流估计图像分别对应的特征提取网络模块中特征提取的阶段数相同,阶段数越高输出的特征分辨率越低,相同阶段输出的特征分辨率相同;
频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征进行特征融合获得各阶段分别对应的融合特征;分别针对各阶段分别对应的融合特征,将融合特征转换成频域特征,将频域特征与可学习的权重矩阵进行点乘操作,实现对频域特征的全局滤波,然后再转换成空间特征与融合特征进行点乘操作,获得该阶段对应的第一特征,进而获得各阶段分别对应的第一特征;
多尺度特征提取模块,分别针对各阶段对应的第一特征,结合各预设尺寸的卷积核进行卷积操作,再将各预设尺寸的卷积核输出进行拼接,经过1×1卷积降维与激活函数后,获得该阶段对应的多尺度特征,进而获得各阶段分别对应的多尺度特征;
残差优化模块,分别针对各阶段对应的多尺度特征,经过3×3卷积后的特征与该阶段的多尺度特征进行点乘,然后与该阶段的多尺度特征进行相加,获得该阶段对应的优化特征,进而获得各阶段分别对应的优化特征;
上采样解码模块,基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至上采样至至视频图像帧分辨率,获得上采样特征;然后将上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
3.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征,具体执行以下过程,获得各阶段分别对应的第一特征:
步骤A1:针对双流CNN骨干网络模块输出的第k阶段的外观特征Ak与运动特征Mk进行特征提取,经过1×1卷积和激活函数模块对外观特征Ak与运动特征Mk得到特征Ak′与Mk′,具体公式为:
Ak′=σ(conv(Ak),
Mk′=σ(conv(Mk),
其中,
Figure FDA0004061070970000021
表示激活函数,conv表示1×1卷积,Ak′表示外观特征Ak对应的特征提取后的特征,Mk′表示运动特征Mk对应的特征提取后的特征;
步骤A2:基于第k阶段的外观特征Ak与运动特征Mk进行特征提取获得的特征Ak′、Mk′,通过以下公式将特征Ak′与Mk′融合,获得第k阶段的融合特征Fk
Figure FDA0004061070970000022
其中,
Figure FDA0004061070970000023
为点乘操作,max为最大池化操作,concat为拼接操作
步骤A3:基于快速傅里叶变换,将第k阶段的融合特征Fk转换成频域特征,将频域特征与其对应的可学习的权重矩阵Xk点乘获得频域全局增强的特征,再通过快速傅里叶逆变换将频域全局增强的特征转换成空间特征,将空间特征与第k阶段的融合特征Fk进行点乘,获得该阶段对应的第一特征Fk′,具体公式为:
Figure FDA0004061070970000024
其中,
Figure FDA0004061070970000025
为点乘操作,FFT为快速傅里叶变换,iFFT为快速傅里叶逆变换,Xk为可学习的权重矩阵。
4.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述多尺度特征提取模块,分别针对各阶段对应的第一特征,通过以下公式,获得各阶段分别对应的多尺度特征:
Fk″=σ(conv(concat(conv1(Fk′),conv2(Fk′),conv3(Fk′)...convn(Fk′)))),
其中,Fk″表示第k阶段对应的多尺度特征,Fk′表示第k阶段对应的第一特征Fk′,
Figure FDA0004061070970000031
表示激活函数,convn表示第n个预设尺寸的卷积核对应的卷积操作,concat为拼接操作。
5.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述残差优化模块,分别针对各阶段对应的多尺度特征,通过以下公式,获得各阶段分别对应的优化特征:
Figure FDA0004061070970000032
其中,conv3*3表示3×3尺寸的卷积核对应的卷积操作,
Figure FDA0004061070970000033
为点乘操作,Fk″′表示第k阶段对应的优化特征,Fk″表示第k阶段对应的多尺度特征。
6.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述上采样解码器模块,执行以下步骤,获得视频图像帧对应的分割出目标对象的图像目标掩模:
步骤B1:基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至所有阶段遍历结束,获得第一上采样特征;每次迭代中上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接,具体公式如下:
Uk-1=concat(Upsample(Fk″′),Fk-1″′),
其中,Upsample表示上采样操作,concat表示拼接操作,Fk″′表示第k阶段对应的优化特征,Uk-1表示第k阶段优化特征上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接获得的特征。
步骤B2:将第一上采样特征进一步上采样至视频图像帧的分辨率,获得第二上采样特征,即上采样特征;
步骤B3:将第二上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
7.根据权利要求1所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数Ltotal(M,G)如下所示:
Ltotal(M,G)=LIOU(M,G)+LBEC(M,G),
其中,
Figure FDA0004061070970000041
M为模型预测分割出目标对象的图像目标掩模结果,G为真实分割出目标对象的图像目标结果,H表示视频图像帧的高,W表示视频图像帧的宽,Mi,j表示预测分割出目标对象的图像目标掩模结果中第i行第j列的值,Gi,j表示真实分割出目标对象的图像目标掩模结果中第i行第j列的值。
CN202310059898.9A 2023-01-20 2023-01-20 一种基于频域全局滤波的无监督视频目标分割方法 Pending CN116071748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310059898.9A CN116071748A (zh) 2023-01-20 2023-01-20 一种基于频域全局滤波的无监督视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310059898.9A CN116071748A (zh) 2023-01-20 2023-01-20 一种基于频域全局滤波的无监督视频目标分割方法

Publications (1)

Publication Number Publication Date
CN116071748A true CN116071748A (zh) 2023-05-05

Family

ID=86176464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310059898.9A Pending CN116071748A (zh) 2023-01-20 2023-01-20 一种基于频域全局滤波的无监督视频目标分割方法

Country Status (1)

Country Link
CN (1) CN116071748A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311002A (zh) * 2023-05-19 2023-06-23 武汉纺织大学 一种基于光流信息的无监督视频目标分割方法
CN116778207A (zh) * 2023-06-30 2023-09-19 哈尔滨工程大学 一种基于空间频域的无监督深度多尺度sar图像变化检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311002A (zh) * 2023-05-19 2023-06-23 武汉纺织大学 一种基于光流信息的无监督视频目标分割方法
CN116311002B (zh) * 2023-05-19 2023-08-11 武汉纺织大学 一种基于光流信息的无监督视频目标分割方法
CN116778207A (zh) * 2023-06-30 2023-09-19 哈尔滨工程大学 一种基于空间频域的无监督深度多尺度sar图像变化检测方法
CN116778207B (zh) * 2023-06-30 2024-02-09 哈尔滨工程大学 一种基于空间频域的无监督深度多尺度sar图像变化检测方法

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
Zamir et al. Restormer: Efficient transformer for high-resolution image restoration
Dong et al. Multi-scale boosted dehazing network with dense feature fusion
US11928792B2 (en) Fusion network-based method for image super-resolution and non-uniform motion deblurring
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN112446383B (zh) 车牌识别方法及装置、存储介质、终端
CN107679462B (zh) 一种基于小波的深度多特征融合分类方法
CN116071748A (zh) 一种基于频域全局滤波的无监督视频目标分割方法
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
JP7228172B2 (ja) オプティカルフロー推定のための方法
Zhang et al. Gated fusion network for degraded image super resolution
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN110781850A (zh) 道路识别的语义分割系统和方法、计算机存储介质
McIntosh et al. Recurrent segmentation for variable computational budgets
CN111696038A (zh) 图像超分辨率方法、装置、设备及计算机可读存储介质
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN111696110A (zh) 场景分割方法及系统
CN115018888A (zh) 一种基于Transformer的光流无监督估计方法
Li et al. Diffusion Models for Image Restoration and Enhancement--A Comprehensive Survey
Sharma et al. An efficient image super resolution model with dense skip connections between complex filter structures in Generative Adversarial Networks
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Yae et al. Inverted residual Fourier transformation for lightweight single image deblurring
CN117593275A (zh) 一种医学图像分割系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination