CN116071748A

CN116071748A - 一种基于频域全局滤波的无监督视频目标分割方法

Info

Publication number: CN116071748A
Application number: CN202310059898.9A
Authority: CN
Inventors: 王玉琛; 宋慧慧
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-01-20
Filing date: 2023-01-20
Publication date: 2023-05-05

Abstract

本发明公开了一种基于频域全局滤波的无监督视频目标分割方法。基于视频帧及其对应的光流估计图像；通过双流CNN骨干网络分别提取外观特征与运动特征；通过频域全局滤波模块，将每组外观特征与运动特征进行融合并通过快速傅里叶变换，由空间域转换到频域，在频域中经过可学习的权重矩阵捕获全局依赖关系，再通过快速傅里叶逆变换转换回空间域，实现对特征全局依赖关系的捕获；再将特征进行多尺度的特征提取；然后将低分辨率特征不断上采样恢复至高分辨率并与高分辨率特征拼接，最终输出分割完成的视频目标掩模。本发明的无监督视频目标分割方法在干扰目标多样、背景杂乱的场景中依旧能显著地提高分割结果的准确性和鲁棒性，并且保持较低的计算量。

Description

一种基于频域全局滤波的无监督视频目标分割方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于频域全局滤波的无监督视频目标分割方法。

背景技术

无监督视频目标分割(UVOS)任务是给定一段视频，在不提供其他分割掩模信息的情况下，自动的分割出视频中的主要物体。该任务在自动驾驶、视频理解、线上会议等领域有着广泛的应用。

近年来，很多基于深度学习的方法被提出，通过捕获图像特征的全局依赖关系来更好的指导模型分割出具有相同语义信息的目标区域，这些方法一般都是在空间域中采用自注意力机制或者全局尺寸的卷积核来捕获图像特征的全局依赖关系。这样做在输入较大尺寸图像时，会带来巨大的计算量增加，加大对运行设备的要求，影响分割模型的实际应用。

发明内容

本发明所要解决的技术问题是：无监督视频目标分割(UVOS)任务中模型使用使用自注意力机制捕获特征全局依赖关系导致的计算量过大的问题。

为解决上述技术问题，本发明采用以下技术方案：

一种基于频域全局滤波的无监督视频目标分割方法，对包含目标对象的视频，执行以下步骤，获得分割出目标对象的视频目标掩模：

步骤1：针对包含目标对象的视频，获得视频包括的各视频图像帧；并基于对视频中目标对象的分割标注，获得每个视频图像帧对应的光流估计图像；

步骤2：针对各视频图像帧、以及每个视频图像帧对应的光流估计图像，利用预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型，获得各视频图像帧分别对应的分割出目标对象的图像目标掩模，进而获得分割出目标对象的视频目标掩模。

作为本发明的一种优选技术方案，所述步骤2中，所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型，包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块；

双流CNN骨干网络模块，包括视频图像帧和光流估计图像分别对应的特征提取网络模块，视频图像帧输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的外观特征，光流估计图像输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的运动特征；视频图像帧和光流估计图像分别对应的特征提取网络模块中特征提取的阶段数相同，阶段数越高输出的特征分辨率越低，相同阶段输出的特征分辨率相同；

频域全局滤波模块，分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征进行特征融合获得各阶段分别对应的融合特征；分别针对各阶段分别对应的融合特征，将融合特征转换成频域特征，将频域特征与可学习的权重矩阵进行点乘操作，实现对频域特征的全局滤波，然后再转换成空间特征与融合特征进行点乘操作，获得该阶段对应的第一特征，进而获得各阶段分别对应的第一特征；

多尺度特征提取模块，分别针对各阶段对应的第一特征，结合各预设尺寸的卷积核进行卷积操作，再将各预设尺寸的卷积核输出进行拼接，经过1×1卷积降维与激活函数后，获得该阶段对应的多尺度特征，进而获得各阶段分别对应的多尺度特征；

残差优化模块，分别针对各阶段对应的多尺度特征，经过3×3卷积后的特征与该阶段的多尺度特征进行点乘，然后与该阶段的多尺度特征进行相加，获得该阶段对应的优化特征，进而获得各阶段分别对应的优化特征；

上采样解码模块，基于各阶段对应的优化特征，将最后一阶段对应的优化特征迭代执行上采样，直至上采样至至视频图像帧分辨率，获得上采样特征；然后将上采样特征经过1×1卷积降维与激活函数获得目标特征，即视频图像帧对应的分割出目标对象的图像目标掩模。

作为本发明的一种优选技术方案，所述频域全局滤波模块，分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征，具体执行以下过程，获得各阶段分别对应的第一特征：

步骤A1：针对双流CNN骨干网络模块输出的第k阶段的外观特征A_k与运动特征M_k进行特征提取，经过1×1卷积和激活函数模块对外观特征A_k与运动特征M_k得到特征A_k′与M_k′，具体公式为：

A_k′＝σ(conv(A_k)，

M_k′＝σ(conv(M_k)，

其中，

表示激活函数，conv表示1×1卷积，A_k′表示外观特征A_k对应的特征提取后的特征，M_k′表示运动特征M_k对应的特征提取后的特征；

步骤A2：基于第k阶段的外观特征A_k与运动特征M_k进行特征提取获得的特征A_k′、M_k′，通过以下公式将特征A_k′与M_k′融合，获得第k阶段的融合特征F_k：

其中，

为点乘操作，max为最大池化操作，concat为拼接操作

步骤A3：基于快速傅里叶变换，将第k阶段的融合特征F_k转换成频域特征，将频域特征与其对应的可学习的权重矩阵X_k点乘获得频域全局增强的特征，再通过快速傅里叶逆变换将频域全局增强的特征转换成空间特征，将空间特征与第k阶段的融合特征F_k进行点乘，获得该阶段对应的第一特征F_k′，具体公式为：

其中，

为点乘操作，FFT为快速傅里叶变换，iFFT为快速傅里叶逆变换，X_k为可学习的权重矩阵。

作为本发明的一种优选技术方案，所述多尺度特征提取模块，分别针对各阶段对应的第一特征，通过以下公式，获得各阶段分别对应的多尺度特征：

F_k″＝σ(conv(concat(conv1(F_k′),conv2(F_k′),conv3(F_k′)...convn(F_k′))))，

其中，F_k″表示第k阶段对应的多尺度特征，F_k′表示第k阶段对应的第一特征F_k′，

表示激活函数，convn表示第n个预设尺寸的卷积核对应的卷积操作，concat为拼接操作。

作为本发明的一种优选技术方案，所述残差优化模块，分别针对各阶段对应的多尺度特征，通过以下公式，获得各阶段分别对应的优化特征：

其中，conv3*3表示3×3尺寸的卷积核对应的卷积操作，

为点乘操作，F_k″′表示第k阶段对应的优化特征，F_k″表示第k阶段对应的多尺度特征。

作为本发明的一种优选技术方案，所述上采样解码器模块，执行以下步骤，获得视频图像帧对应的分割出目标对象的图像目标掩模：

步骤B1：基于各阶段对应的优化特征，将最后一阶段对应的优化特征迭代执行上采样，直至所有阶段遍历结束，获得第一上采样特征；每次迭代中上采样至上一阶段优化特征对应的分辨率，再与上一阶段优化特征进行拼接，具体公式如下：

U_k-1＝concat(Upsample(F_k″′),F_k-1″′)，

其中，Upsample表示上采样操作，concat表示拼接操作，F_k″′表示第k阶段对应的优化特征，U_k-1表示第k阶段优化特征上采样至上一阶段优化特征对应的分辨率，再与上一阶段优化特征进行拼接获得的特征。

步骤B2：将第一上采样特征进一步上采样至视频图像帧的分辨率，获得第二上采样特征，即上采样特征；

步骤B3：将第二上采样特征经过1×1卷积降维与激活函数获得目标特征，即视频图像帧对应的分割出目标对象的图像目标掩模。

作为本发明的一种优选技术方案，所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数L_total(M,G)如下所示：

L_total(M,G)＝L_IOU(M,G)+L_BEC(M,G)，

其中，

M为模型预测分割出目标对象的图像目标掩模结果，G为真实分割出目标对象的图像目标结果，H表示视频图像帧的高，W表示视频图像帧的宽，M_i,j表示预测分割出目标对象的图像目标掩模结果中第i行第j列的值，G_i,j表示真实分割出目标对象的图像目标掩模结果中第i行第j列的值。

本发明的有益效果是：本发明提供一种基于频域全局滤波的无监督视频目标分割方法，包括：获取视频帧及其对应的光流估计图像；通过解码阶段的双流CNN骨干网络分别提取四组外观特征与运动特征；通过构建频域全局滤波模块，将每组外观特征与运动特征进行融合并通过快速傅里叶变换，由空间域转换到频域，在频域中经过可学习的权重矩阵捕获全局依赖关系，再通过快速傅里叶逆变换转换回空间域，实现对特征全局依赖关系的捕获；构建特征金字塔模块，将特征进行多尺度的特征提取；在解码阶段，将低分辨率特征不断上采样恢复至高分辨率，并与高分辨率特征拼接，最终输出分割完成的视频目标掩模。本发明利用快速傅里叶变换将特征从空间域转换到频域，在频域中利用频域特征与权重矩阵的点乘操作实现全局特征的学习，代替空间域中的全局尺寸卷积操作，从而在减少计算量的同时使模型能精确地把视频中的目标从背景里分割出来。本发明的无监督视频目标分割方法在干扰目标多样、背景杂乱的场景中依旧能显著地提高分割结果的准确性和鲁棒性，并且保持较低的计算量。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的频域全局滤波模块的示意图；

图3为本发明实施例的多尺度特征提取模块的示意图；

图4为本发明实施例的残差优化模块的示意图；

图5为本发明实施例的分割结果示例。

具体实施方式

下面结合附图对本发明进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

一种基于频域全局滤波的无监督视频目标分割方法，其流程图如图1所示，对包含目标对象的视频，执行以下步骤，获得分割出目标对象的视频目标掩模：

步骤1：针对包含目标对象的视频，获得视频包括的各视频图像帧；并基于对视频中目标对象的分割标注，获得每个视频图像帧对应的光流估计图像。

在本实施例中，首先将含目标对象的视频转换为按时间排列的连续视频图像帧，获取每个视频图像帧对应的目标对象分割标注结果，并使用现有的光流估计方法，生成每个视频图像帧与其相邻帧计算得到的光流估计图像；本实施例中，每个视频图像帧对应的光流估计图像，即该视频图像帧与上一时间的视频图像帧计算得到的光流估计图像；其中，光流指相机移动或空间中物体移动时，目标对象在相邻两帧间产生位移；光流估计方法可以生成视频相邻两帧的光流估计图像。

步骤2：针对各视频图像帧、以及每个视频图像帧对应的光流估计图像，利用预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型，获得各视频图像帧分别对应的分割出目标对象的图像目标掩模，进而获得分割出目标对象的视频目标掩模。每次处理一帧图像，把每帧图像目标掩模结果连续输出就是视频目标掩模。

所述步骤2中，所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型，包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块。

双流CNN骨干网络模块，包括视频图像帧和光流估计图像分别对应的特征提取网络模块，视频图像帧输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的外观特征，光流估计图像输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的运动特征；视频图像帧和光流估计图像分别对应的特征提取网络模块中特征提取的阶段数相同，阶段数越高输出的特征分辨率越低，相同阶段输出的特征分辨率相同。

本实施例中，视频图像帧和光流估计图像的分辨率相同，均为宽672像素、高384像素、通道数为3；经过四个阶段的特征提取模块，即下采样，得到四组不同分辨率的外观特征

与运动特征

其中，k∈[1,4]表示第k组特征，C表示特征通道数，H表示特征高度，W表示特征宽度。具体的，A₁、

A₂、

A₃、

A₄、

频域全局滤波模块，分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征进行特征融合获得各阶段分别对应的融合特征；分别针对各阶段分别对应的融合特征，将融合特征转换成频域特征，将频域特征与可学习的权重矩阵进行点乘操作，实现对频域特征的全局滤波，然后再转换成空间特征与融合特征进行点乘操作，获得该阶段对应的第一特征，进而获得各阶段分别对应的第一特征。

图2展示了频域全局滤波模块，所述频域全局滤波模块，分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征，具体执行以下过程，获得各阶段分别对应的第一特征：

A_k′＝σ(conv(A_k)，

M_k′＝σ(conv(M_k)，

其中，

其中，

为点乘操作，max为最大池化操作，concat为拼接操作

步骤A3：基于快速傅里叶变换，将第k阶段的融合特征F_k转换成频域特征，将频域特征与其对应的可学习的权重矩阵X_k点乘获得频域全局增强的特征，再通过快速傅里叶逆变换将频域全局增强的特征转换成空间特征，将空间特征与第k阶段的融合特征F_k进行点乘，获得该阶段对应的第一特征F_k′，即得到空间域中捕获全局依赖关系的特征F_k′，具体公式为：

其中，

本实施例中，频域全局滤波模块该模块的作用是将双流CNN骨干网络模块得到的四组不同分辨率的外观特征A₁，A₂，A₃，A₄与运动特征M₁，M₂，M₃，M₄融合后，在频域中与可学习的权重矩阵点乘后，再转换回空间域，获得捕获全局依赖关系的特征F_k′。其中，可学习的权重矩阵

初始值全为1，C为1表示通道数，H和W为权重矩阵高和宽，与F_k的高和宽相同，随着训练学习到特征不同位置的重要性程度，得到对应的权重系数。

多尺度特征提取模块，分别针对各阶段对应的第一特征，结合各预设尺寸的卷积核进行卷积操作，提取特征的多尺度信息，再将各预设尺寸的卷积核输出进行拼接，经过1×1卷积降维与激活函数后，获得该阶段对应的多尺度特征，进而获得各阶段分别对应的多尺度特征。

图3展示了多尺度特征提取模块，所述多尺度特征提取模块，分别针对各阶段对应的第一特征，通过以下公式，获得各阶段分别对应的多尺度特征：

本实施例中，各预设尺寸的卷积核分别采用1×1、7×7和13×13尺寸的卷积核，则所述多尺度特征提取模块，分别针对各阶段对应的第一特征，通过以下公式，获得各阶段分别对应的多尺度特征：

F_k″＝σ(conv1(concat(conv1*1(F_k′),conv7*7(F_k′),conv13*13(F_k′))))，

残差优化模块，分别针对各阶段对应的多尺度特征，经过3×3卷积后的特征与该阶段的多尺度特征进行点乘，然后与该阶段的多尺度特征进行相加，通过残差结构进行优化，得到优化后的特征F_k″′，即获得该阶段对应的优化特征，进而获得各阶段分别对应的优化特征；

图4展示了残差优化模块，所述残差优化模块，分别针对各阶段对应的多尺度特征，通过以下公式，获得各阶段分别对应的优化特征：

其中，conv3*3表示3×3尺寸的卷积核对应的卷积操作，

本实施例中，针对构建的上采样解码模块，将最后一阶段对应的优化特征不断上采样并且与前一阶段特征拼接，恢复得到至原始图像宽高大小的特征F^Pred，再通过激活函数将特征F^Pred的数值范围缩放至0-1区间，经过1×1卷积将通道维数降维至1，其中，特征F^Pred每个像素的数值表示该像素为前景目标的概率。最终表示得到获得分割好的二值视频目标掩模图像作为输出，即视频图像帧对应的分割出目标对象的图像目标掩模。

所述上采样解码器模块，执行以下步骤，获得视频图像帧对应的分割出目标对象的图像目标掩模：

U_k-1＝concat(Upsample(F_k″′),F_k-1″′)，

其中，Upsample表示上采样操作，concat表示拼接操作，F_k″′表示第k阶段对应的优化特征，U_k-1表示第k阶段优化特征上采样至上一阶段优化特征对应的分辨率，再与上一阶段优化特征进行拼接获得的特征；

具体的在本实施例中，将最后一阶段对应的优化特征，即最低分辨率特征F₄″′上采样至F₃″′分辨率，并沿通道方向与F₃″′进行拼接得到U₃，将U₃上采样至F₂″′分辨率，并沿通道方向与F₂″′进行拼接得到U₂，将U₂上采样至F₁″′分辨率，并沿通道方向与F₁″′进行拼接得到U₁。

具体的在本实施例中，U₁再进行4倍上采样恢复分辨率至原始图像大小的高和宽为384,672像素特征F^Pred；

进一步的，所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数，总的损失函数L_total由IOU损失函数L_IOU和交叉熵损失函数L_BCE确定，L_total(M,G)如下所示：

L_total(M,G)＝L_IOU(M,G)+L_BEC(M,G)，

其中，

图5为采用本发明方法处理的部分示例的显示结果，从图中可明显看出天鹅、骆驼、狗、汽车、马、牛等前景目标被从视频图像帧中分割出来。

本发明设计了一种基于频域全局滤波的无监督视频目标分割方法，包括：获取视频帧及其对应的光流估计图像；通过解码阶段的双流CNN骨干网络分别提取四组外观特征与运动特征；通过构建频域全局滤波模块，将每组外观特征与运动特征进行融合并通过快速傅里叶变换，由空间域转换到频域，在频域中经过可学习的权重矩阵捕获全局依赖关系，再通过快速傅里叶逆变换转换回空间域，实现对特征全局依赖关系的捕获；构建特征金字塔模块，将特征进行多尺度的特征提取；在解码阶段，将低分辨率特征不断上采样恢复至高分辨率，并与高分辨率特征拼接，最终输出分割完成的视频目标掩模。本发明利用快速傅里叶变换将特征从空间域转换到频域，在频域中利用频域特征与权重矩阵的点乘操作实现全局特征的学习，代替空间域中的全局尺寸卷积操作，从而在减少计算量的同时使模型能精确地把视频中的目标从背景里分割出来。本发明的无监督视频目标分割方法在干扰目标多样、背景杂乱的场景中依旧能显著地提高分割结果的准确性和鲁棒性，并且保持较低的计算量。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：针对包含目标对象的视频，执行以下步骤，获得分割出目标对象的视频目标掩模：

2.根据权利要求1所述一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：所述步骤2中，所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型，包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块；

3.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：所述频域全局滤波模块，分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征，具体执行以下过程，获得各阶段分别对应的第一特征：

A_k′＝σ(conv(A_k)，

M_k′＝σ(conv(M_k)，

其中，

其中，

为点乘操作，max为最大池化操作，concat为拼接操作

其中，

4.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：所述多尺度特征提取模块，分别针对各阶段对应的第一特征，通过以下公式，获得各阶段分别对应的多尺度特征：

5.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：所述残差优化模块，分别针对各阶段对应的多尺度特征，通过以下公式，获得各阶段分别对应的优化特征：

其中，conv3*3表示3×3尺寸的卷积核对应的卷积操作，

6.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：所述上采样解码器模块，执行以下步骤，获得视频图像帧对应的分割出目标对象的图像目标掩模：

U_k-1＝concat(Upsample(F_k″′),F_k-1″′)，

7.根据权利要求1所述一种基于频域全局滤波的无监督视频目标分割方法，其特征在于：所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入，以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数L_total(M,G)如下所示：

L_total(M,G)＝L_IOU(M,G)+L_BEC(M,G)，

其中，