CN114821432A

CN114821432A - 基于离散余弦变换的视频目标分割对抗攻击方法

Info

Publication number: CN114821432A
Application number: CN202210481562.7A
Authority: CN
Inventors: 潘震; 李平; 张宇
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-29
Anticipated expiration: 2042-05-05
Also published as: CN114821432B

Abstract

本发明公开了基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法在预训练的视频目标分割模型卷积层获得视频语义特征，由离散余弦变换将语义特征变为频域语义特征；通过视频目标运动感知模块获得运动向量，由语义权重量化模块获得语义权重；最后根据语义权重对频域语义特征的频域值筛选去除，由反离散余弦变换还原获得对抗性语义特征，通过去除语义特征实现对视频目标分割模型的攻击，即获得性能差的分割掩膜。本发明方法将视频的时序关系融入对抗攻击中，使其聚焦于视频中的运动目标，破坏时序关系；通过语义权重并对视频帧语义特征进行筛选去除，在视频语义特征上生成对抗样本来实现对抗攻击，降低了视频目标分割精度并提升了攻击效果。

Description

基于离散余弦变换的视频目标分割对抗攻击方法

技术领域

本发明属于计算机视觉领域，尤其是对抗学习与视频目标分割领域，涉及一种基于离散余弦变换的视频目标分割对抗攻击方法。

背景技术

视频目标分割是一种常用的视频处理技术，能够将视频中的目标从背景中精确地分割出来，并获取目标对象的像素级掩膜(与视频帧分辨率相同的矩阵，其对应视频目标区域的元素值为1，背景区域元素值为0)。视频目标分割技术不仅能在视频处理任务中发挥作用，还能应用于自动驾驶、视频监控、人机交互、虚拟现实等前沿领域。近年来，各种基于深度学习的神经网络模型被提出并用于处理视频目标分割任务。然而，多数研究已表明深度神经网络模型并不具有鲁棒性，容易受到对抗攻击，即通过在图像或视频中加入无法被察觉的扰动(数值较小的像素值)从而产生对抗样本，再将对抗样本输入至深度神经网络模型中欺骗模型，使模型产生错误的输出。由于现有视频目标分割模型往往是基于深度神经网络设计的，所以其对对抗样本并不具有鲁棒性，即视频目标分割模型针对添加扰动后的视频会输出分割性能较低的掩膜，这对于视频目标分割的实际应用(如自动驾驶)是十分致命的，因此视频目标分割的安全性问题具有深远的研究意义和巨大的研究价值。

目前，对抗攻击的研究主要集中在图像分类领域，针对视频攻击的研究还处在起步阶段，仅有少量工作关注视频分类和语义分割任务。在图像分类领域，大多数对抗攻击方法利用输入图像梯度(一个与输入图像维度相同的张量)进行对抗攻击，如快速符号梯度法(Fast Gradient Sign Method)通过取梯度张量中元素的正负并乘以较小的扰动系数来产生一个不可被感知的扰动，将其添加到图像中使得分类器对该图像分类错误；后续部分工作通过对图像梯度的各种处理(如：投影、卷积)来产生扰动以增强攻击性能。在视频分类的对抗攻击中，部分方法沿用图像分类攻击的思想，通过处理视频的梯度产生扰动并添加到视频中，使得视频被分类器错误归为其他类别；此外还有方法利用视频分类数据的特点对不同类别的视频数据进行采样，利用采样后部分视频的梯度来替代整个视频的梯度，再利用该梯度生成通用的扰动进而生成视频的对抗样本进行攻击。在针对语义分割的攻击方法中，攻击算法在一组像素/提议目标上优化损失函数来生成一个对抗性扰动，旨在尽可能多地混淆提议目标，使得语义分割模型对输入图像中多个提议目标的类别预测出现错误。

上述方法存在的不足主要表现在两个方面：(1)由于图像与视频的差异，针对图像的攻击方法并不一定适用于视频，已有的针对视频的攻击方法没有考虑连续视频帧之间的关联及视频的时序关系；(2)现有对抗攻击方法均为向图像/视频添加扰动的方式，使模型对添加扰动后的数据做出错误的输出，这些攻击方法容易被对抗防御技术手段如去噪所防御，难以造成有效攻击。根据上述考虑，迫切需要设计一种融入视频时序关系且泛化攻击能力较强的视频目标分割对抗攻击方法。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法通过构建视频目标运动感知模块，从视频中提取光流并得到运动向量，为对抗攻击算法提供时序特征，进而使得攻击算法侧重于视频中的运动目标；同时构建语义权重量化模块和语义离散余弦筛选模块，分别用于捕捉语义权重、筛选去除视频帧语义特征，能够突破基于噪声去除的对抗防御技术，从而实现对视频目标分割模型的攻击，降低原有模型的分割精度。

本发明方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型，然后进行如下操作：

步骤(1)对视频进行均匀采样，获得视频帧序列

将其输入到预训练视频目标分割模型，获得原始视频帧语义特征Z_t；

步骤(2)构建视频目标运动感知模块，将视频帧序列

作为输入，获得运动向量O′_t；

步骤(3)构建语义权重量化模块，引入初始化的语义权重梯度张量与运动向量一并作为输入，获得语义权重Q_t；

步骤(4)构建语义离散余弦筛选模块，将语义权重Q_t与视频帧语义特征Z_t作为输入，获得对抗性语义特征

步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，使用交叉熵损失函数迭代优化对抗性语义特征，获得优化的对抗性语义特征集合

步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层，并经过后续网络层，获得被攻击后的视频目标分割结果。

进一步，步骤(1)具体是：

(1-1)对视频进行每秒5～10帧的均匀采样获取T个视频帧，得到视频帧序列

和真实掩膜序列

X_t表示第t个视频帧，Y_t为第t个视频帧对应的真实掩膜，T为视频帧数目，

表示实数域，H、W分别表示视频帧的高度、宽度，3表示RGB通道数；

(1-2)将视频帧序列

中的每个视频帧X_t依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中，在模型的中间层获得对应的原始视频帧语义特征

中间层即模型总层数的一半向上取整的第l层卷积；其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数，Φ_l(·)为预训练视频目标分割模型第l层卷积前的所有网络结构，整个预训练视频目标分割模型记为Φ(·)。

又进一步，步骤(2)具体是：

(2-1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成，所述的FlowNet模块为由多个卷积层组成的的光流提取网络，将视频帧序列

输入至FlowNet，获得所有相邻两帧视频之间的光流集合

M_t表示第t个帧视频与第t+1个帧视频的光流，当t＝T，M_T由全0初始化补全；

(2-2)将光流集合

输入下采样函数，对每个光流M_t进行下采样M′_t＝Interpolate(M_t)，获得下采样光流集合

M′_t表示第t个帧视频与第t+1个帧视频的下采样光流，Interpolate(·)为下采样函数将光流M_t维度从H×W×2变为H′×W′×2；

(2-3)将下采样光流集合

输入二维卷积，对每个下采样光流M′_t进行卷积M″_t＝Conv2D(M′_t)，得到多通道光流集合

M″_t表示第t个帧视频与第t+1个帧视频的多通道光流，Conv2D(·)为二维卷积，其输入通道数为2，输出通道数为C′，卷积核尺寸为1×1；

(2-4)随机初始化运动向量集合

O_t为第t个帧视频X_t对应的随机初始化运动向量，将随机初始化运动向量O_t与多通道光流M″_t依次输入运动函数Motion(O_t,M″_t)＝Sigmoid(O_t⊙M″_t)，获得运动向量

⊙为逐元素乘积，Sigmoid(·)为Sigmoid激活函数，将变量映射到0,1之间。

再进一步，步骤(3)具体是：构建语义权重量化模块由语义权重量化函数组成，初始化全1的语义权重梯度矩阵

语义权重矩阵

并与运动向量O′_t输入语义权重量化函数

获得语义权重

其中α为扰动系数其大小设置为2.0/255，Φ(X_t)为预训练视频目标分割模型对第t个帧视频的预测掩膜，

为更新后的语义权重梯度矩阵

表示交叉熵损失函数，Softmax(·)指Softmax函数其作用为对变量进行归一化。

更进一步，步骤(4)具体是：

(4-1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成，将获得的第1～T个原始视频帧语义特征Z_t依次输入离散余弦变换函数，获得频域语义特征

Cosine(·)表示离散余弦变换函数；

(4-2)将语义权重Q_t中每个元素q_k依次输入阈值函数

获得语义筛选矩阵

k表示语义权重Q_t中的第k个元素，β为一个大于0的阈值系数；(4-3)将语义筛选矩阵

与频域语义特征Z′_t进行逐元素乘积获得筛选频域语义特征

(4-4)将筛选频域语义特征

输入反离散余弦变换函数，获得对抗性语义特征

InverseCosine(·)表示反离散余弦变换函数。

还进一步，步骤(5)的具体是：

(5-1)将对抗性语义特征

输入到预训练的视频目标分割模型中间层之后所有网络结构Φ_l+(·)，获得预测掩膜

中间层即为第l层卷积；

(5-2)计算预测掩膜

与视频帧X_t的真实掩膜Y_t的交叉熵损失

通过反向传播获得语义权重的梯度

(5-3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，通过随机梯度下降法对语义权重梯度矩阵H′_t进行更新，获得优化的语义权重梯度H″_t；

(5-4)将优化的语义权重梯度H′_t′按照步骤(4)获得初始对抗性语义特征

上标n表示第n次迭代优化；

(5-5)将每次迭代获得的初始对抗性语义特征

保留,获得初始对抗性语义特征集合

N表示总迭代优化次数；

(5-6)将第1～T个视频帧X_t对应的原始语义特征Z_t和对应的初始对抗性语义特征集合

依次输入约束函数

获得优化的对抗性语义特征集合

为每个视频帧X_t对应的优化的对抗性语义特征，其中||·||_p为L_p范数，p∈{2,∞}，ε∈{128/255,8/255}为约束L_p范数的一个阈值。

继续进一步，步骤(6)具体是：将优化的对抗性语义特征集合

输入预训练视频目标分割模型中间层后的网络结构Φ_l+(·)进行对抗攻击，输出攻击后的最终视频目标分割结果

Y′_t为第t个视频帧对应的分割结果。

本发明提出了基于离散余弦变换的视频目标分割对抗攻击方法，该方法具有以下几个特点：1)针对视频数据和视频目标分割任务设计语义攻击网络，提出视频目标运动感知模块，使得语义攻击网络关注于视频中运动目标；2)提出语义权重量化模块，给予视频帧语义特征语义权重，来区分不同语义特征的重要程度；3)提出语义离散余弦筛选模块，根据语义权重对部分视频语义特征进行筛选去除，获得对抗性语义特征，并根据视频目标分割模型的输出迭代优化，进而获取到优化的对抗性语义特征，保证对抗攻击的有效性。

本发明适用于针对视频目标分割模型进行对抗攻击，有益效果包括：1)通过视频目标运动感知模块，使得语义攻击网络能够关注视频中运动目标，破坏视频帧之间时序连贯性，增强对视频目标分割模型的攻击效果；2)通过语义权重量化模块得到的语义权重对视频帧语义特征做出区分，从而筛选去除语义特征来实现对抗攻击，提高对抗攻击的有效性；3)从视频数据自身出发，通过迭代优化并筛选去除部分语义特征来产生对抗样本，能够突破基于去噪的对抗防御方法，提升攻击的泛化能力。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，一种基于离散余弦变换的视频目标分割对抗攻击方法，首先对视频数据进行均匀采样得到视频帧，在预训练视频目标分割模型的中间卷积层得到视频帧的语义特征，并通过离散余弦变换将视频语义特征转变为频域特征；再构建视频目标运动感知模块，输出运动向量；其次构建语义权重量化模块，输出语义权重；然后构建语义离散余弦筛选模块，输入语义权重，对部分频域语义特征进行筛选去除，并通过反离散余弦变换将频域语义特征还原，获得对抗性语义特征；通过交叉熵损失函数优化对抗性语义特征，获得优化的对抗性语义特征；最后将优化的对抗性语义特征输入预训练视频目标分割模型的后续卷积层获得攻击后的视频目标分割结果。该方法利用视频目标运动感知模块获取到视频的时序信息并将其融入到攻击中，使得攻击算法关注于视频中的运动目标，进而破坏时序关系，同时通过语义权重量化模块和语义离散余弦筛选模块捕捉并筛选语义特征，能够突破基于去噪的对抗防御技术，使得输出的分割结果仅有较低的准确率，从而实现针对视频目标分割的对抗攻击。

该方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型，然后进行如下操作：