CN111797732A

CN111797732A - 一种对采样不敏感的视频动作识别对抗攻击方法

Info

Publication number: CN111797732A
Application number: CN202010572742.7A
Authority: CN
Inventors: 徐行; 张静然; 沈复民; 杨阳; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-20
Anticipated expiration: 2040-06-22
Also published as: CN111797732B

Abstract

本发明公开了一种对采样不敏感的视频动作识别对抗攻击方法，通过将视频样本集χ手动划分为对抗扰动生成集χ₁和对抗校验集χ₂，再从对抗扰动生成集χ₁中提取对抗扰动特征集V，然后基于对抗扰动特征集V，并结合对抗校验集χ₂的校验，通过迭代优化方式获取最优的采样不敏感对抗扰动R^*，最后在测试任意视频样本X中添加采样不敏感对抗扰动R^*，并测试攻击效果。

Description

一种对采样不敏感的视频动作识别对抗攻击方法

技术领域

本发明属于对抗攻击和视频动作识别技术领域，更为具体地讲，涉及一种对采样不敏感的视频动作识别对抗攻击方法。

背景技术

近年来，由于视频数据的易获取性，导致其在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。视频动作识别作为一种重要的视频内容理解问题得到了广泛的关注。现有的视频动作识别领域主流识别方法是基于深度卷积神经网络。然而近年来，有工作证明深度卷积神经网络易受对抗攻击的影响，对抗攻击主要就是通过对数据集中的数据加上一些噪声，来达到让现有深度网络模型错误分类的目的。但现有大多数对抗攻击方法都重点关注在图像领域，基于视频动作识别的对抗攻击方法很少，而视频相对于图像有更复杂的时序上下文环境，直接应用图像攻击方法到视频也不可行。

视频动作类别识别的目标是识别出在视频在发生的动作的类别。基于深度卷积神经网络的动作类别识别方法主要有以下两类：

(1)、2D的卷积网络：对采样的RGB视频帧用2D卷积网络单独进行空域特征提取，对这些独立的空域特征进行时域建模，以提取视频级别的特征以供分类。

(2)、3D的卷积网络：对采样的RGB视频帧用3D卷积神经网络直接进行时空域特征提取，用以视频动作分类。

对抗攻击的目标是让深度神经网络识别出错，现有的图像领域的对抗攻击方法主要分为以下两类：

(1)、白盒攻击：有被攻击网络的先验知识，知道网络是参数等细节。

(1)、黑盒攻击：对被攻击的网络实现细节是未知的。

本发明主要关注白盒攻击，但如果直接基于现有的图像白盒攻击方法，必须对视频帧进行单独的图像级别的攻击，这种处理方式存在以下不足：

(1)、对视频帧进行单独的攻击处理，视频中丰富的视频帧时域联系特性被忽略了，在有复杂时序推理的视频数据集中，这种视频帧分开处理的方式，会丢失视频时序上下文特征，从而影响攻击效果；

(2)、只对采样到视频帧数据进行攻击处理，无法做到视频级别的对抗攻击。由于对一个给定视频有很多的帧采样方法，如果只针对某种采样方法下的采样帧数据进行对抗攻击处理，那么该攻击方法在该视频另一种采样方法下就会失效。

发明内容

本发明的目的在于克服现有技术的不足，提供一种对采样不敏感的视频动作识别对抗攻击方法，通过攻击校验约束来调整采样不敏感对抗扰动，最终达到视频动作识别对抗攻击目的。

为实现上述发明目的，本发明一种对采样不敏感的视频动作识别对抗攻击方法，其特征在于，包括以下步骤：

(1)、

视频样本集预处理

将视频样本集χ手动划分为对抗扰动生成集χ₁和对抗校验集χ₂，其中，对抗扰动生成集表示为

m₁表示χ₁中视频样本总个数，第i个视频样本X_i＝{x₁,x₂,…,x_t,···,x_T}，x_t表示第t帧图像，T为总帧数；对抗校验集表示为

m₂表示χ₂中视频样本总个数，第j个视频样本X_j＝{x₁,x₂,…,x_t,···,x_T}；

(2)、从对抗扰动生成集χ₁中提取对抗扰动特征集V

在对抗扰动生成集χ₁中，利用深度卷积神经网络F的特征提取函数f(·)从每个视频样本X_i中提取特征V_i，V_i＝f(X_i)，具体形式为V_i＝{v_i1,v_i2,···,v_it,···,v_iT}，进而得到对抗扰动特征集

(3)、通过迭代优化方式获取最优的采样不敏感对抗扰动R^*；

(3.1)、设置最大迭代次数K，设置期望攻击成功率δ；初始化对抗扰动R＝{r₁,r₂,…,r_t,···,r_T}，r_t为第t帧图像增加的扰动；

(3.2)、在对抗扰动生成集χ₁中，对每个视频样本X_i添加对抗扰动R，得到对抗样本

再利用深度卷积神经网络F的特征提取函数f(·)从每个对抗样本

中提取特征

具体形式为

进而得到对抗样本特征集

(3.3)、分别计算对抗扰动特征集V和对抗样本特征集

的熵；

其中，

表示V中任意两特征间的相似性度量，

表示

中任意两特征间的相似性度量，i1,i2∈{1,2,···,M}且i1≠i2，M＝T×(T-1)/2为总共的特征对个数；

(3.4)、根据对抗扰动特征集熵H(V)和对抗样本特征集

计算熵增益I_gain；

(3.5)、更新采样不敏感对抗扰动；

基于负对数高斯似然函数L(·)和对抗扰动R的p范数限制||·||_p，求解对抗扰动R′；

其中，E(·)表示求期望，

为给定的目标标签，F表示深度卷积神经网络，

为对抗样本

的第t帧，d为帧的空间大小，α、β为大于0的常数；

(3.6)、在对抗校验集χ₂中，对每个视频样本X_j添加对抗扰动R′，得到对抗样本

中提取特征

具体形式为V_j＝{v_j1,v_j2,···,v_jt,···,v_jT}，进而得到对抗扰动特征集

(3.7)、计算对抗样本

的攻击成功率sr；

其中，P(·)表示求概率；

(3.8)、判断当前迭代次数是否达到最大迭代次数K，或攻击成功率sr≥δ，如果满足，则迭代停止，并将对抗扰动R′作为最优的采样不敏感对抗扰动R^*，然后进入步骤(4)；否则，将当前迭代次数自加1，然后返回步骤(3.2)，将对抗扰动R′作为新添加的对抗扰动进行下一轮迭代；

(4)、测试任意视频样本X在采样不敏感对抗扰动R^*下的攻击效果；

给视频样本X添加采样不敏感对抗扰动R^*，得到对抗样本为

然后计算对抗样本

的预测标签y^*；

其中，

为给定的目标标签，y为标签种类；

如果预测标签y^*等于给定的目标标签

则攻击成功，否则，攻击失败。

本发明的发明目的是这样实现的：

本发明一种对采样不敏感的视频动作识别对抗攻击方法，通过将视频样本集χ手动划分为对抗扰动生成集χ₁和对抗校验集χ₂，再从对抗扰动生成集χ₁中提取对抗扰动特征集V，然后基于对抗扰动特征集V，并结合对抗校验集χ₂的校验，通过迭代优化方式获取最优的采样不敏感对抗扰动R^*，最后在测试任意视频样本X中添加采样不敏感对抗扰动R^*，并测试攻击效果。

同时，本发明一种对采样不敏感的视频动作识别对抗攻击方法还具有以下有益效果：

(1)、本发明在不同采样下的视频样本帧中添加采样不敏感的视频扰动，可以保证对视频任意采样帧都攻击成功；

(2)、本发明可以布置在不同的范数攻击限制下实现有目标和无目标的视频对抗攻击，保证供给灵活性；

(3)、本发明可以成功攻击现有的基于2D和3D卷积网络的视频行为识别模型，扩大可攻击模型范围。

附图说明

图1是本发明一种对采样不敏感的视频动作识别对抗攻击方法流程图；

图2是不同模型上的攻击效果对比图；

图3是TSN、I3D模型的攻击效果可视化示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种对采样不敏感的视频动作识别对抗攻击方法流程图。

在本实施例中，如图1所示，本发明一种对采样不敏感的视频动作识别对抗攻击方法，包括以下步骤：

S1、视频样本集预处理

将视频样本集χ手动划分为对抗扰动生成集χ₁和对抗校验集χ₂，任意一段视频通常包含大量的帧，采样出少许视频帧，就包含整个视频中模式，而且可以减小计算代价，因此，首先需对视频进行采样，其中，对抗扰动生成集表示为

m₂表示χ₂中视频样本总个数，第j个视频样本X_j＝{x₁,x₂,…,x_t,···,x_T}；这样使每段视频通过采样后长度相同。

S2、从对抗扰动生成集χ₁中提取对抗扰动特征集V

该特征扰动集可以为后续扰动性能提升提供信息来源；

S3、通过迭代优化方式获取最优的采样不敏感对抗扰动R^*；

S3.1、设置最大迭代次数K，设置期望攻击成功率δ；初始化对抗扰动R＝{r₁,r₂,…,r_t,···,r_T}，r_t为第t帧图像增加的扰动；

S3.2、在对抗扰动生成集χ₁中，对每个视频样本X_i添加对抗扰动R，得到对抗样本

中提取特征

具体形式为

进而得到对抗样本特征集

S3.3、分别计算对抗扰动特征集V和对抗样本特征集

的熵；

其中，

表示V中任意两特征间的相似性度量，

表示

S3.4、根据对抗扰动特征集熵H(V)和对抗样本特征集

计算熵增益I_gain；

S3.5、更新采样不敏感对抗扰动；

其中，E(·)表示求期望，

为给定的目标标签，F表示深度卷积神经网络，

为对抗样本

的第t帧，d为帧的空间大小，α、β为大于0的常数；

S3.6、在对抗校验集χ₂中，对每个视频样本X_j添加对抗扰动R′，得到对抗样本

中提取特征

S3.7、计算对抗样本

的攻击成功率sr；

其中，P(·)表示求概率；

S3.8、判断当前迭代次数是否达到最大迭代次数K，或攻击成功率sr≥δ，如果满足，则迭代停止，并将对抗扰动R′作为最优的采样不敏感对抗扰动R^*，然后进入步骤S4；否则，将当前迭代次数自加1，然后返回步骤S3.2，将对抗扰动R′作为新添加的对抗扰动进行下一轮迭代；

S4、测试任意视频样本X在采样不敏感对抗扰动R^*下的攻击效果；

给视频样本X添加采样不敏感对抗扰动R^*，得到对抗样本为

然后计算对抗样本

的预测标签y^*；

其中，

为给定的目标标签，y为标签种类；

如果预测标签y^*等于给定的目标标签

则攻击成功，否则，攻击失败。

在本实施例中，采用FR指标来评估我们的攻击方法，在对抗样本上的预测标签y^*与原样本的预测标签y_gt一致性比例；采用SR指标来评估我们的攻击方法，在对抗样本上的预测标签y^*与给定的目标标签

一致性比例；采用p-l₂和p-l_∞指标来评估我们的攻击方法中对抗扰动的幅值。

通过在大规模视频行为分类数据集UCF-101和HMDB-51数据集上测试本发明。UCF-101数据集包含101个动作类别，共13,320个样本，选取40％的样本作为扰动生成集χ₁，30％的样本作为攻击校验集χ₂，剩余30％作为攻击效果的测试集；HMDB-51数据集包含51个动作类别，共6,849个样本，同样选取40％的样本作为扰动生成集χ₁，30％的样本作为攻击校验集χ₂，剩余30％作为攻击效果的测试集；本发明在TSN(时域分割网络)、I3D(3维扩展网络)、CNN+LSTM(卷积和长短程记忆网络)和TSM(时域偏移网络)几个模型上的攻击效果如图2所示，从图中可知3D模型更容易攻击，攻击成功率相对更高，原因大概是相对于2D模型3D模型中有短程的时序卷积，导致熵增益I_gain朝更有利的方向迭代，最终的扰动R也更利于攻击应用；其次，在2D模型中结构越简单，攻击成功率越高，且同等设置下，在l_∞范数约束下的攻击效果更好。综述可以看出，本发明可以有效的攻击主流的2D和3D视频动作识别模型。

此外，在UCF-101和HMDB-51数据集上，通过可视化TSN、I3D的攻击效果，如图3所示，其中对抗视频和原视频相比很难被人察觉出差异，但模型却完全将这些视频错分；另外在l₂和l_∞范数限制下的扰动有很大差异但都可以成功攻击模型。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。