CN114821432A - 基于离散余弦变换的视频目标分割对抗攻击方法 - Google Patents

基于离散余弦变换的视频目标分割对抗攻击方法 Download PDF

Info

Publication number
CN114821432A
CN114821432A CN202210481562.7A CN202210481562A CN114821432A CN 114821432 A CN114821432 A CN 114821432A CN 202210481562 A CN202210481562 A CN 202210481562A CN 114821432 A CN114821432 A CN 114821432A
Authority
CN
China
Prior art keywords
video
semantic
discrete cosine
obtaining
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210481562.7A
Other languages
English (en)
Other versions
CN114821432B (zh
Inventor
潘震
李平
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210481562.7A priority Critical patent/CN114821432B/zh
Publication of CN114821432A publication Critical patent/CN114821432A/zh
Application granted granted Critical
Publication of CN114821432B publication Critical patent/CN114821432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法在预训练的视频目标分割模型卷积层获得视频语义特征,由离散余弦变换将语义特征变为频域语义特征;通过视频目标运动感知模块获得运动向量,由语义权重量化模块获得语义权重;最后根据语义权重对频域语义特征的频域值筛选去除,由反离散余弦变换还原获得对抗性语义特征,通过去除语义特征实现对视频目标分割模型的攻击,即获得性能差的分割掩膜。本发明方法将视频的时序关系融入对抗攻击中,使其聚焦于视频中的运动目标,破坏时序关系;通过语义权重并对视频帧语义特征进行筛选去除,在视频语义特征上生成对抗样本来实现对抗攻击,降低了视频目标分割精度并提升了攻击效果。

Description

基于离散余弦变换的视频目标分割对抗攻击方法
技术领域
本发明属于计算机视觉领域,尤其是对抗学习与视频目标分割领域,涉及一种基于离散余弦变换的视频目标分割对抗攻击方法。
背景技术
视频目标分割是一种常用的视频处理技术,能够将视频中的目标从背景中精确地分割出来,并获取目标对象的像素级掩膜(与视频帧分辨率相同的矩阵,其对应视频目标区域的元素值为1,背景区域元素值为0)。视频目标分割技术不仅能在视频处理任务中发挥作用,还能应用于自动驾驶、视频监控、人机交互、虚拟现实等前沿领域。近年来,各种基于深度学习的神经网络模型被提出并用于处理视频目标分割任务。然而,多数研究已表明深度神经网络模型并不具有鲁棒性,容易受到对抗攻击,即通过在图像或视频中加入无法被察觉的扰动(数值较小的像素值)从而产生对抗样本,再将对抗样本输入至深度神经网络模型中欺骗模型,使模型产生错误的输出。由于现有视频目标分割模型往往是基于深度神经网络设计的,所以其对对抗样本并不具有鲁棒性,即视频目标分割模型针对添加扰动后的视频会输出分割性能较低的掩膜,这对于视频目标分割的实际应用(如自动驾驶)是十分致命的,因此视频目标分割的安全性问题具有深远的研究意义和巨大的研究价值。
目前,对抗攻击的研究主要集中在图像分类领域,针对视频攻击的研究还处在起步阶段,仅有少量工作关注视频分类和语义分割任务。在图像分类领域,大多数对抗攻击方法利用输入图像梯度(一个与输入图像维度相同的张量)进行对抗攻击,如快速符号梯度法(Fast Gradient Sign Method)通过取梯度张量中元素的正负并乘以较小的扰动系数来产生一个不可被感知的扰动,将其添加到图像中使得分类器对该图像分类错误;后续部分工作通过对图像梯度的各种处理(如:投影、卷积)来产生扰动以增强攻击性能。在视频分类的对抗攻击中,部分方法沿用图像分类攻击的思想,通过处理视频的梯度产生扰动并添加到视频中,使得视频被分类器错误归为其他类别;此外还有方法利用视频分类数据的特点对不同类别的视频数据进行采样,利用采样后部分视频的梯度来替代整个视频的梯度,再利用该梯度生成通用的扰动进而生成视频的对抗样本进行攻击。在针对语义分割的攻击方法中,攻击算法在一组像素/提议目标上优化损失函数来生成一个对抗性扰动,旨在尽可能多地混淆提议目标,使得语义分割模型对输入图像中多个提议目标的类别预测出现错误。
上述方法存在的不足主要表现在两个方面:(1)由于图像与视频的差异,针对图像的攻击方法并不一定适用于视频,已有的针对视频的攻击方法没有考虑连续视频帧之间的关联及视频的时序关系;(2)现有对抗攻击方法均为向图像/视频添加扰动的方式,使模型对添加扰动后的数据做出错误的输出,这些攻击方法容易被对抗防御技术手段如去噪所防御,难以造成有效攻击。根据上述考虑,迫切需要设计一种融入视频时序关系且泛化攻击能力较强的视频目标分割对抗攻击方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法通过构建视频目标运动感知模块,从视频中提取光流并得到运动向量,为对抗攻击算法提供时序特征,进而使得攻击算法侧重于视频中的运动目标;同时构建语义权重量化模块和语义离散余弦筛选模块,分别用于捕捉语义权重、筛选去除视频帧语义特征,能够突破基于噪声去除的对抗防御技术,从而实现对视频目标分割模型的攻击,降低原有模型的分割精度。
本发明方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型,然后进行如下操作:
步骤(1)对视频进行均匀采样,获得视频帧序列
Figure BDA0003627684810000021
将其输入到预训练视频目标分割模型,获得原始视频帧语义特征Zt
步骤(2)构建视频目标运动感知模块,将视频帧序列
Figure BDA0003627684810000022
作为输入,获得运动向量O′t
步骤(3)构建语义权重量化模块,引入初始化的语义权重梯度张量与运动向量一并作为输入,获得语义权重Qt
步骤(4)构建语义离散余弦筛选模块,将语义权重Qt与视频帧语义特征Zt作为输入,获得对抗性语义特征
Figure BDA0003627684810000023
步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,使用交叉熵损失函数迭代优化对抗性语义特征,获得优化的对抗性语义特征集合
Figure BDA0003627684810000024
步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层,并经过后续网络层,获得被攻击后的视频目标分割结果。
进一步,步骤(1)具体是:
(1-1)对视频进行每秒5~10帧的均匀采样获取T个视频帧,得到视频帧序列
Figure BDA0003627684810000031
和真实掩膜序列
Figure BDA0003627684810000032
Figure BDA0003627684810000033
Xt表示第t个视频帧,Yt为第t个视频帧对应的真实掩膜,T为视频帧数目,
Figure BDA0003627684810000034
表示实数域,H、W分别表示视频帧的高度、宽度,3表示RGB通道数;
(1-2)将视频帧序列
Figure BDA0003627684810000035
中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中,在模型的中间层获得对应的原始视频帧语义特征
Figure BDA0003627684810000036
中间层即模型总层数的一半向上取整的第l层卷积;其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数,Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构,整个预训练视频目标分割模型记为Φ(·)。
又进一步,步骤(2)具体是:
(2-1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成,所述的FlowNet模块为由多个卷积层组成的的光流提取网络,将视频帧序列
Figure BDA0003627684810000037
输入至FlowNet,获得所有相邻两帧视频之间的光流集合
Figure BDA0003627684810000038
Mt表示第t个帧视频与第t+1个帧视频的光流,当t=T,MT由全0初始化补全;
(2-2)将光流集合
Figure BDA0003627684810000039
输入下采样函数,对每个光流Mt进行下采样M′t=Interpolate(Mt),获得下采样光流集合
Figure BDA00036276848100000310
M′t表示第t个帧视频与第t+1个帧视频的下采样光流,Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2;
(2-3)将下采样光流集合
Figure BDA00036276848100000311
输入二维卷积,对每个下采样光流M′t进行卷积M″t=Conv2D(M′t),得到多通道光流集合
Figure BDA00036276848100000312
M″t表示第t个帧视频与第t+1个帧视频的多通道光流,Conv2D(·)为二维卷积,其输入通道数为2,输出通道数为C′,卷积核尺寸为1×1;
(2-4)随机初始化运动向量集合
Figure BDA00036276848100000313
Ot为第t个帧视频Xt对应的随机初始化运动向量,将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)=Sigmoid(Ot⊙M″t),获得运动向量
Figure BDA0003627684810000041
⊙为逐元素乘积,Sigmoid(·)为Sigmoid激活函数,将变量映射到0,1之间。
再进一步,步骤(3)具体是:构建语义权重量化模块由语义权重量化函数组成,初始化全1的语义权重梯度矩阵
Figure BDA0003627684810000042
语义权重矩阵
Figure BDA0003627684810000043
并与运动向量O′t输入语义权重量化函数
Figure BDA0003627684810000044
获得语义权重
Figure BDA0003627684810000045
其中α为扰动系数其大小设置为2.0/255,Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜,
Figure BDA0003627684810000046
为更新后的语义权重梯度矩阵
Figure BDA0003627684810000047
Figure BDA0003627684810000048
表示交叉熵损失函数,Softmax(·)指Softmax函数其作用为对变量进行归一化。
更进一步,步骤(4)具体是:
(4-1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成,将获得的第1~T个原始视频帧语义特征Zt依次输入离散余弦变换函数,获得频域语义特征
Figure BDA0003627684810000049
Cosine(·)表示离散余弦变换函数;
(4-2)将语义权重Qt中每个元素qk依次输入阈值函数
Figure BDA00036276848100000410
获得语义筛选矩阵
Figure BDA00036276848100000411
k表示语义权重Qt中的第k个元素,β为一个大于0的阈值系数;(4-3)将语义筛选矩阵
Figure BDA00036276848100000412
与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征
Figure BDA00036276848100000413
(4-4)将筛选频域语义特征
Figure BDA00036276848100000414
输入反离散余弦变换函数,获得对抗性语义特征
Figure BDA00036276848100000415
InverseCosine(·)表示反离散余弦变换函数。
还进一步,步骤(5)的具体是:
(5-1)将对抗性语义特征
Figure BDA00036276848100000416
输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·),获得预测掩膜
Figure BDA00036276848100000417
中间层即为第l层卷积;
(5-2)计算预测掩膜
Figure BDA00036276848100000418
与视频帧Xt的真实掩膜Yt的交叉熵损失
Figure BDA00036276848100000419
通过反向传播获得语义权重的梯度
Figure BDA0003627684810000051
(5-3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,通过随机梯度下降法对语义权重梯度矩阵H′t进行更新,获得优化的语义权重梯度H″t
(5-4)将优化的语义权重梯度H′t′按照步骤(4)获得初始对抗性语义特征
Figure BDA0003627684810000052
上标n表示第n次迭代优化;
(5-5)将每次迭代获得的初始对抗性语义特征
Figure BDA0003627684810000053
保留,获得初始对抗性语义特征集合
Figure BDA0003627684810000054
N表示总迭代优化次数;
(5-6)将第1~T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合
Figure BDA0003627684810000055
依次输入约束函数
Figure BDA0003627684810000056
获得优化的对抗性语义特征集合
Figure BDA0003627684810000057
Figure BDA0003627684810000058
为每个视频帧Xt对应的优化的对抗性语义特征,其中||·||p为Lp范数,p∈{2,∞},ε∈{128/255,8/255}为约束Lp范数的一个阈值。
继续进一步,步骤(6)具体是:将优化的对抗性语义特征集合
Figure BDA0003627684810000059
输入预训练视频目标分割模型中间层后的网络结构Φl+(·)进行对抗攻击,输出攻击后的最终视频目标分割结果
Figure BDA00036276848100000510
Y′t为第t个视频帧对应的分割结果。
本发明提出了基于离散余弦变换的视频目标分割对抗攻击方法,该方法具有以下几个特点:1)针对视频数据和视频目标分割任务设计语义攻击网络,提出视频目标运动感知模块,使得语义攻击网络关注于视频中运动目标;2)提出语义权重量化模块,给予视频帧语义特征语义权重,来区分不同语义特征的重要程度;3)提出语义离散余弦筛选模块,根据语义权重对部分视频语义特征进行筛选去除,获得对抗性语义特征,并根据视频目标分割模型的输出迭代优化,进而获取到优化的对抗性语义特征,保证对抗攻击的有效性。
本发明适用于针对视频目标分割模型进行对抗攻击,有益效果包括:1)通过视频目标运动感知模块,使得语义攻击网络能够关注视频中运动目标,破坏视频帧之间时序连贯性,增强对视频目标分割模型的攻击效果;2)通过语义权重量化模块得到的语义权重对视频帧语义特征做出区分,从而筛选去除语义特征来实现对抗攻击,提高对抗攻击的有效性;3)从视频数据自身出发,通过迭代优化并筛选去除部分语义特征来产生对抗样本,能够突破基于去噪的对抗防御方法,提升攻击的泛化能力。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1所示,一种基于离散余弦变换的视频目标分割对抗攻击方法,首先对视频数据进行均匀采样得到视频帧,在预训练视频目标分割模型的中间卷积层得到视频帧的语义特征,并通过离散余弦变换将视频语义特征转变为频域特征;再构建视频目标运动感知模块,输出运动向量;其次构建语义权重量化模块,输出语义权重;然后构建语义离散余弦筛选模块,输入语义权重,对部分频域语义特征进行筛选去除,并通过反离散余弦变换将频域语义特征还原,获得对抗性语义特征;通过交叉熵损失函数优化对抗性语义特征,获得优化的对抗性语义特征;最后将优化的对抗性语义特征输入预训练视频目标分割模型的后续卷积层获得攻击后的视频目标分割结果。该方法利用视频目标运动感知模块获取到视频的时序信息并将其融入到攻击中,使得攻击算法关注于视频中的运动目标,进而破坏时序关系,同时通过语义权重量化模块和语义离散余弦筛选模块捕捉并筛选语义特征,能够突破基于去噪的对抗防御技术,使得输出的分割结果仅有较低的准确率,从而实现针对视频目标分割的对抗攻击。
该方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型,然后进行如下操作:
步骤(1)对视频进行均匀采样,获得视频帧序列
Figure BDA0003627684810000061
将其输入到预训练视频目标分割模型,获得原始视频帧语义特征Zt;具体是:
(1-1)对视频进行每秒5~10帧的均匀采样获取T个视频帧,得到视频帧序列
Figure BDA0003627684810000062
和真实掩膜序列
Figure BDA0003627684810000063
Figure BDA0003627684810000064
Xt表示第t个视频帧,Yt为第t个视频帧对应的真实掩膜,T为视频帧数目,
Figure BDA0003627684810000065
表示实数域,H、W分别表示视频帧的高度、宽度,3表示RGB通道数;
(1-2)将视频帧序列
Figure BDA0003627684810000066
中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中,在模型的中间层获得对应的原始视频帧语义特征
Figure BDA0003627684810000071
中间层即模型总层数的一半向上取整的第l层卷积;其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数,Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构,整个预训练视频目标分割模型记为Φ(·)。
步骤(2)构建视频目标运动感知模块,将视频帧序列
Figure BDA0003627684810000072
作为输入,获得运动向量O′t;具体是:
(2-1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成,所述的FlowNet模块为由多个卷积层组成的的光流提取网络,将视频帧序列
Figure BDA0003627684810000073
输入至FlowNet,获得所有相邻两帧视频之间的光流集合
Figure BDA0003627684810000074
Mt表示第t个帧视频与第t+1个帧视频的光流,当t=T,MT由全0初始化补全;
(2-2)将光流集合
Figure BDA0003627684810000075
输入下采样函数,对每个光流Mt进行下采样M′t=Interpolate(Mt),获得下采样光流集合
Figure BDA0003627684810000076
M′t表示第t个帧视频与第t+1个帧视频的下采样光流,Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2;
(2-3)将下采样光流集合
Figure BDA0003627684810000077
输入二维卷积,对每个下采样光流M′t进行卷积M″t=Conv2D(M′t),得到多通道光流集合
Figure BDA0003627684810000078
M″t表示第t个帧视频与第t+1个帧视频的多通道光流,Conv2D(·)为二维卷积,其输入通道数为2,输出通道数为C′,卷积核尺寸为1×1;
(2-4)随机初始化运动向量集合
Figure BDA0003627684810000079
Ot为第t个帧视频Xt对应的随机初始化运动向量,将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)=Sigmoid(Ot⊙M″t),获得运动向量
Figure BDA00036276848100000710
⊙为逐元素乘积,Sigmoid(·)为Sigmoid激活函数,将变量映射到0,1之间。
步骤(3)构建语义权重量化模块,引入初始化的语义权重梯度张量与运动向量一并作为输入,获得语义权重Qt;具体是:构建语义权重量化模块由语义权重量化函数组成,初始化全1的语义权重梯度矩阵
Figure BDA00036276848100000711
语义权重矩阵
Figure BDA00036276848100000712
并与运动向量O′t输入语义权重量化函数
Figure BDA0003627684810000081
获得语义权重
Figure BDA0003627684810000082
其中α为扰动系数其大小设置为2.0/255,Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜,
Figure BDA0003627684810000083
为更新后的语义权重梯度矩阵
Figure BDA0003627684810000084
Figure BDA0003627684810000085
表示交叉熵损失函数,Softmax(·)指Softmax函数其作用为对变量进行归一化。
步骤(4)构建语义离散余弦筛选模块,将语义权重Qt与视频帧语义特征Zt作为输入,获得对抗性语义特征
Figure BDA0003627684810000086
具体是:
(4-1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成,将获得的第1~T个原始视频帧语义特征Zt依次输入离散余弦变换函数,获得频域语义特征
Figure BDA0003627684810000087
Cosine(·)表示离散余弦变换函数;
(4-2)将语义权重Qt中每个元素qk依次输入阈值函数
Figure BDA0003627684810000088
获得语义筛选矩阵
Figure BDA0003627684810000089
k表示语义权重Qt中的第k个元素,β为一个大于0的阈值系数;(4-3)将语义筛选矩阵
Figure BDA00036276848100000810
与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征
Figure BDA00036276848100000811
(4-4)将筛选频域语义特征
Figure BDA00036276848100000812
输入反离散余弦变换函数,获得对抗性语义特征
Figure BDA00036276848100000813
InverseCosine(·)表示反离散余弦变换函数。
步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,使用交叉熵损失函数迭代优化对抗性语义特征,获得优化的对抗性语义特征集合
Figure BDA00036276848100000814
具体是:
(5-1)将对抗性语义特征
Figure BDA00036276848100000815
输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·),获得预测掩膜
Figure BDA00036276848100000816
中间层即为第l层卷积;
(5-2)计算预测掩膜
Figure BDA00036276848100000817
与视频帧Xt的真实掩膜Yt的交叉熵损失
Figure BDA00036276848100000818
通过反向传播获得语义权重的梯度
Figure BDA00036276848100000819
(5-3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,通过随机梯度下降法对语义权重梯度矩阵H′t进行更新,获得优化的语义权重梯度H″t
(5-4)将优化的语义权重梯度H″t按照步骤(4)获得初始对抗性语义特征
Figure BDA0003627684810000091
上标n表示第n次迭代优化;
(5-5)将每次迭代获得的初始对抗性语义特征
Figure BDA0003627684810000092
保留,获得初始对抗性语义特征集合
Figure BDA0003627684810000093
N表示总迭代优化次数;
(5-6)将第1~T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合
Figure BDA0003627684810000094
依次输入约束函数
Figure BDA0003627684810000095
获得优化的对抗性语义特征集合
Figure BDA0003627684810000096
Figure BDA0003627684810000097
为每个视频帧Xt对应的优化的对抗性语义特征,其中||·||p为Lp范数,p∈{2,∞},ε∈{128/255,8/255}为约束Lp范数的一个阈值。
步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层,并经过后续网络层,获得被攻击后的视频目标分割结果;具体是:将优化的对抗性语义特征集合
Figure BDA0003627684810000098
输入预训练视频目标分割模型中间层后的网络结构Φl+(·)进行对抗攻击,输出攻击后的最终视频目标分割结果
Figure BDA0003627684810000099
Y′t为第t个视频帧对应的分割结果。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (7)

1.基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于:首先获取视频数据集合、像素级目标类别矩阵与预训练的视频目标分割模型,然后进行如下操作:
步骤(1)对视频进行均匀采样,获得视频帧序列
Figure FDA0003627684800000011
将其输入到预训练视频目标分割模型,获得原始视频帧语义特征Zt
步骤(2)构建视频目标运动感知模块,将视频帧序列
Figure FDA0003627684800000012
作为输入,获得运动向量O′t
步骤(3)构建语义权重量化模块,引入初始化的语义权重梯度张量与运动向量一并作为输入,获得语义权重Qt
步骤(4)构建语义离散余弦筛选模块,将语义权重Qt与视频帧语义特征Zt作为输入,获得对抗性语义特征
Figure FDA0003627684800000013
步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,使用交叉熵损失函数迭代优化对抗性语义特征,获得优化的对抗性语义特征集合
Figure FDA0003627684800000014
步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层,并经过后续网络层,获得被攻击后的视频目标分割结果。
2.如权利要求1的基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于,步骤(1)具体是:
(1-1)对视频进行每秒5~10帧的均匀采样获取T个视频帧,得到视频帧序列
Figure FDA0003627684800000015
和真实掩膜序列
Figure FDA0003627684800000016
Figure FDA0003627684800000017
Xt表示第t个视频帧,Yt为第t个视频帧对应的真实掩膜,T为视频帧数目,
Figure FDA0003627684800000018
表示实数域,H、W分别表示视频帧的高度、宽度,3表示RGB通道数;
(1-2)将视频帧序列
Figure FDA00036276848000000110
中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中,在模型的中间层获得对应的原始视频帧语义特征
Figure FDA0003627684800000019
中间层即模型总层数的一半向上取整的第l层卷积;其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数,Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构。
3.如权利要求2的基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于,步骤(2)具体是:
(2-1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成,所述的FlowNet模块为由多个卷积层组成的的光流提取网络,将视频帧序列
Figure FDA0003627684800000021
输入至FlowNet,获得所有相邻两帧视频之间的光流集合
Figure FDA0003627684800000022
Mt表示第t个帧视频与第t+1个帧视频的光流,当t=T,MT由全0初始化补全;
(2-2)将光流集合
Figure FDA0003627684800000023
输入下采样函数,对每个光流Mt进行下采样M′t=Interpolate(Mt),获得下采样光流集合
Figure FDA0003627684800000024
M′t表示第t个帧视频与第t+1个帧视频的下采样光流,Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2;
(2-3)将下采样光流集合
Figure FDA0003627684800000025
输入二维卷积,对每个下采样光流M′t进行卷积M″t=Conv2D(M′t),得到多通道光流集合
Figure FDA0003627684800000026
M″t表示第t个帧视频与第t+1个帧视频的多通道光流,Conv2D(·)为二维卷积,其输入通道数为2,输出通道数为C′,卷积核尺寸为1×1;
(2-4)随机初始化运动向量集合
Figure FDA0003627684800000027
Ot为第t个帧视频Xt对应的随机初始化运动向量,将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)=Sigmoid(Ot⊙M″t),获得运动向量
Figure FDA0003627684800000028
⊙为逐元素乘积,Sigmoid(·)为Sigmoid激活函数,将变量映射到0,1之间。
4.如权利要求3的基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于,步骤(3)具体是:
构建语义权重量化模块由语义权重量化函数组成,初始化全1的语义权重梯度矩阵
Figure FDA0003627684800000029
语义权重矩阵
Figure FDA00036276848000000210
并与运动向量O′t输入语义权重量化函数
Figure FDA00036276848000000211
获得语义权重
Figure FDA00036276848000000212
其中α为扰动系数其大小设置为2.0/255,Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜,
Figure FDA00036276848000000213
为更新后的语义权重梯度矩阵
Figure FDA00036276848000000214
Figure FDA00036276848000000215
表示交叉熵损失函数,Softmax(·)指Softmax函数其作用为对变量进行归一化。
5.如权利要求4的基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于,步骤(4)具体是:
(4-1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成,将获得的第1~T个原始视频帧语义特征Zt依次输入离散余弦变换函数,获得频域语义特征
Figure FDA0003627684800000031
Cosine(·)表示离散余弦变换函数;
(4-2)将语义权重Qt中每个元素qk依次输入阈值函数
Figure FDA0003627684800000032
获得语义筛选矩阵
Figure FDA0003627684800000033
k表示语义权重Qt中的第k个元素,β为一个大于0的阈值系数;
(4-3)将语义筛选矩阵
Figure FDA0003627684800000034
与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征
Figure FDA0003627684800000035
(4-4)将筛选频域语义特征
Figure FDA0003627684800000036
输入反离散余弦变换函数,获得对抗性语义特征
Figure FDA0003627684800000037
InverseCosine(·)表示反离散余弦变换函数。
6.如权利要求5的基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于,步骤(5)的具体是:
(5-1)将对抗性语义特征
Figure FDA0003627684800000038
输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·),获得预测掩膜
Figure FDA0003627684800000039
中间层即为第l层卷积;
(5-2)计算预测掩膜
Figure FDA00036276848000000310
与视频帧Xt的真实掩膜Yt的交叉熵损失
Figure FDA00036276848000000311
通过反向传播获得语义权重的梯度
Figure FDA00036276848000000312
(5-3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,通过随机梯度下降法对语义权重梯度矩阵H′t进行更新,获得优化的语义权重梯度H″t
(5-4)将优化的语义权重梯度H″t按照步骤(4)获得初始对抗性语义特征
Figure FDA00036276848000000313
上标n表示第n次迭代优化;
(5-5)将每次迭代获得的初始对抗性语义特征
Figure FDA00036276848000000314
保留,获得初始对抗性语义特征集合
Figure FDA0003627684800000041
N表示总迭代优化次数;
(5-6)将第1~T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合
Figure FDA0003627684800000042
依次输入约束函数
Figure FDA0003627684800000043
获得优化的对抗性语义特征集合
Figure FDA0003627684800000044
Figure FDA0003627684800000045
为每个视频帧Xt对应的优化的对抗性语义特征,其中||·||p为Lp范数,p∈{2,∞},ε∈{128/255,8/255}为约束Lp范数的一个阈值。
7.如权利要求6的基于离散余弦变换的视频目标分割对抗攻击方法,其特征在于,步骤(6)具体是:将优化的对抗性语义特征集合
Figure FDA0003627684800000046
输入预训练视频目标分割模型中间层后的网络结构Φl+(·)进行对抗攻击,输出攻击后的最终视频目标分割结果
Figure FDA0003627684800000047
Y′t为第t个视频帧对应的分割结果。
CN202210481562.7A 2022-05-05 2022-05-05 基于离散余弦变换的视频目标分割对抗攻击方法 Active CN114821432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210481562.7A CN114821432B (zh) 2022-05-05 2022-05-05 基于离散余弦变换的视频目标分割对抗攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210481562.7A CN114821432B (zh) 2022-05-05 2022-05-05 基于离散余弦变换的视频目标分割对抗攻击方法

Publications (2)

Publication Number Publication Date
CN114821432A true CN114821432A (zh) 2022-07-29
CN114821432B CN114821432B (zh) 2022-12-02

Family

ID=82510542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210481562.7A Active CN114821432B (zh) 2022-05-05 2022-05-05 基于离散余弦变换的视频目标分割对抗攻击方法

Country Status (1)

Country Link
CN (1) CN114821432B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311521A (zh) * 2022-09-13 2022-11-08 中南大学 基于强化学习的黑盒视频对抗样本生成方法及评价方法
CN116308978A (zh) * 2022-12-08 2023-06-23 北京瑞莱智慧科技有限公司 视频处理方法、相关装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5301019A (en) * 1992-09-17 1994-04-05 Zenith Electronics Corp. Data compression system having perceptually weighted motion vectors
US20030081673A1 (en) * 2001-10-29 2003-05-01 Koninklijke Philips Electronics N.V. Bit-rate guided frequency weighting matrix selection
CN1767653A (zh) * 2005-11-08 2006-05-03 上海广电(集团)有限公司中央研究院 一种码率控制方法
CN101668170A (zh) * 2009-09-23 2010-03-10 中山大学 一种抗时间同步攻击的数字电视节目版权保护的方法
CN104243974A (zh) * 2014-09-12 2014-12-24 宁波大学 一种基于三维离散余弦变换的立体视频质量客观评价方法
CN105828064A (zh) * 2015-01-07 2016-08-03 中国人民解放军理工大学 融合局部和全局时空特性的无参考视频质量评估方法
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN113538457A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 利用多频动态空洞卷积的视频语义分割方法
CN114202017A (zh) * 2021-11-29 2022-03-18 南京航空航天大学 基于条件生成对抗网络的sar光学图像映射模型轻量化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5301019A (en) * 1992-09-17 1994-04-05 Zenith Electronics Corp. Data compression system having perceptually weighted motion vectors
US20030081673A1 (en) * 2001-10-29 2003-05-01 Koninklijke Philips Electronics N.V. Bit-rate guided frequency weighting matrix selection
CN1767653A (zh) * 2005-11-08 2006-05-03 上海广电(集团)有限公司中央研究院 一种码率控制方法
CN101668170A (zh) * 2009-09-23 2010-03-10 中山大学 一种抗时间同步攻击的数字电视节目版权保护的方法
CN104243974A (zh) * 2014-09-12 2014-12-24 宁波大学 一种基于三维离散余弦变换的立体视频质量客观评价方法
CN105828064A (zh) * 2015-01-07 2016-08-03 中国人民解放军理工大学 融合局部和全局时空特性的无参考视频质量评估方法
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN113538457A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 利用多频动态空洞卷积的视频语义分割方法
CN114202017A (zh) * 2021-11-29 2022-03-18 南京航空航天大学 基于条件生成对抗网络的sar光学图像映射模型轻量化方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311521A (zh) * 2022-09-13 2022-11-08 中南大学 基于强化学习的黑盒视频对抗样本生成方法及评价方法
CN116308978A (zh) * 2022-12-08 2023-06-23 北京瑞莱智慧科技有限公司 视频处理方法、相关装置及存储介质
CN116308978B (zh) * 2022-12-08 2024-01-23 北京瑞莱智慧科技有限公司 视频处理方法、相关装置及存储介质

Also Published As

Publication number Publication date
CN114821432B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
Wei et al. 3-D quasi-recurrent neural network for hyperspectral image denoising
Zhou et al. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction
Özdenizci et al. Restoring vision in adverse weather conditions with patch-based denoising diffusion models
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
WO2020177651A1 (zh) 图像分割方法和图像处理装置
JP6656111B2 (ja) 画像のノイズを除去する方法及びシステム
CN114821432B (zh) 基于离散余弦变换的视频目标分割对抗攻击方法
CN111462126A (zh) 一种基于边缘增强的语义图像分割方法及系统
CN109993712B (zh) 图像处理模型的训练方法、图像处理方法及相关设备
Fan et al. Low-level structure feature extraction for image processing via stacked sparse denoising autoencoder
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
Mirmozaffari Filtering in image processing
CN111914997A (zh) 训练神经网络的方法、图像处理方法及装置
CN113379618B (zh) 基于残差密集连接和特征融合的光学遥感图像去云方法
Ren et al. Enhanced non-local total variation model and multi-directional feature prediction prior for single image super resolution
CN113673545A (zh) 光流估计方法、相关装置、设备及计算机可读存储介质
Huang et al. Image saliency detection via multi-scale iterative CNN
Li et al. A simple baseline for video restoration with grouped spatial-temporal shift
CN115345866A (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
Wang et al. PFDN: Pyramid feature decoupling network for single image deraining
Mana et al. An intelligent deep learning enabled marine fish species detection and classification model
Gökcen et al. Real-time impulse noise removal
CN112308087B (zh) 基于动态视觉传感器的一体化成像识别方法
KR102095444B1 (ko) 딥러닝 기반의 선형성을 갖는 노이즈 영상 제거 방법 및 장치
Schirrmacher et al. Sr 2: Super-resolution with structure-aware reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant