CN111797732A - 一种对采样不敏感的视频动作识别对抗攻击方法 - Google Patents
一种对采样不敏感的视频动作识别对抗攻击方法 Download PDFInfo
- Publication number
- CN111797732A CN111797732A CN202010572742.7A CN202010572742A CN111797732A CN 111797732 A CN111797732 A CN 111797732A CN 202010572742 A CN202010572742 A CN 202010572742A CN 111797732 A CN111797732 A CN 111797732A
- Authority
- CN
- China
- Prior art keywords
- disturbance
- sample
- video
- attack
- confrontation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种对采样不敏感的视频动作识别对抗攻击方法,通过将视频样本集χ手动划分为对抗扰动生成集χ1和对抗校验集χ2,再从对抗扰动生成集χ1中提取对抗扰动特征集V,然后基于对抗扰动特征集V,并结合对抗校验集χ2的校验,通过迭代优化方式获取最优的采样不敏感对抗扰动R*,最后在测试任意视频样本X中添加采样不敏感对抗扰动R*,并测试攻击效果。
Description
技术领域
本发明属于对抗攻击和视频动作识别技术领域,更为具体地讲,涉及一种对采样不敏感的视频动作识别对抗攻击方法。
背景技术
近年来,由于视频数据的易获取性,导致其在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。视频动作识别作为一种重要的视频内容理解问题得到了广泛的关注。现有的视频动作识别领域主流识别方法是基于深度卷积神经网络。然而近年来,有工作证明深度卷积神经网络易受对抗攻击的影响,对抗攻击主要就是通过对数据集中的数据加上一些噪声,来达到让现有深度网络模型错误分类的目的。但现有大多数对抗攻击方法都重点关注在图像领域,基于视频动作识别的对抗攻击方法很少,而视频相对于图像有更复杂的时序上下文环境,直接应用图像攻击方法到视频也不可行。
视频动作类别识别的目标是识别出在视频在发生的动作的类别。基于深度卷积神经网络的动作类别识别方法主要有以下两类:
(1)、2D的卷积网络:对采样的RGB视频帧用2D卷积网络单独进行空域特征提取,对这些独立的空域特征进行时域建模,以提取视频级别的特征以供分类。
(2)、3D的卷积网络:对采样的RGB视频帧用3D卷积神经网络直接进行时空域特征提取,用以视频动作分类。
对抗攻击的目标是让深度神经网络识别出错,现有的图像领域的对抗攻击方法主要分为以下两类:
(1)、白盒攻击:有被攻击网络的先验知识,知道网络是参数等细节。
(1)、黑盒攻击:对被攻击的网络实现细节是未知的。
本发明主要关注白盒攻击,但如果直接基于现有的图像白盒攻击方法,必须对视频帧进行单独的图像级别的攻击,这种处理方式存在以下不足:
(1)、对视频帧进行单独的攻击处理,视频中丰富的视频帧时域联系特性被忽略了,在有复杂时序推理的视频数据集中,这种视频帧分开处理的方式,会丢失视频时序上下文特征,从而影响攻击效果;
(2)、只对采样到视频帧数据进行攻击处理,无法做到视频级别的对抗攻击。由于对一个给定视频有很多的帧采样方法,如果只针对某种采样方法下的采样帧数据进行对抗攻击处理,那么该攻击方法在该视频另一种采样方法下就会失效。
发明内容
本发明的目的在于克服现有技术的不足,提供一种对采样不敏感的视频动作识别对抗攻击方法,通过攻击校验约束来调整采样不敏感对抗扰动,最终达到视频动作识别对抗攻击目的。
为实现上述发明目的,本发明一种对采样不敏感的视频动作识别对抗攻击方法,其特征在于,包括以下步骤:
(1)、
视频样本集预处理
将视频样本集χ手动划分为对抗扰动生成集χ1和对抗校验集χ2,其中,对抗扰动生成集表示为m1表示χ1中视频样本总个数,第i个视频样本Xi={x1,x2,…,xt,···,xT},xt表示第t帧图像,T为总帧数;对抗校验集表示为m2表示χ2中视频样本总个数,第j个视频样本Xj={x1,x2,…,xt,···,xT};
(2)、从对抗扰动生成集χ1中提取对抗扰动特征集V
在对抗扰动生成集χ1中,利用深度卷积神经网络F的特征提取函数f(·)从每个视频样本Xi中提取特征Vi,Vi=f(Xi),具体形式为Vi={vi1,vi2,···,vit,···,viT},进而得到对抗扰动特征集
(3)、通过迭代优化方式获取最优的采样不敏感对抗扰动R*;
(3.1)、设置最大迭代次数K,设置期望攻击成功率δ;初始化对抗扰动R={r1,r2,…,rt,···,rT},rt为第t帧图像增加的扰动;
(3.5)、更新采样不敏感对抗扰动;
基于负对数高斯似然函数L(·)和对抗扰动R的p范数限制||·||p,求解对抗扰动R′;
(3.6)、在对抗校验集χ2中,对每个视频样本Xj添加对抗扰动R′,得到对抗样本再利用深度卷积神经网络F的特征提取函数f(·)从每个对抗样本中提取特征 具体形式为Vj={vj1,vj2,···,vjt,···,vjT},进而得到对抗扰动特征集
其中,P(·)表示求概率;
(3.8)、判断当前迭代次数是否达到最大迭代次数K,或攻击成功率sr≥δ,如果满足,则迭代停止,并将对抗扰动R′作为最优的采样不敏感对抗扰动R*,然后进入步骤(4);否则,将当前迭代次数自加1,然后返回步骤(3.2),将对抗扰动R′作为新添加的对抗扰动进行下一轮迭代;
(4)、测试任意视频样本X在采样不敏感对抗扰动R*下的攻击效果;
本发明的发明目的是这样实现的:
本发明一种对采样不敏感的视频动作识别对抗攻击方法,通过将视频样本集χ手动划分为对抗扰动生成集χ1和对抗校验集χ2,再从对抗扰动生成集χ1中提取对抗扰动特征集V,然后基于对抗扰动特征集V,并结合对抗校验集χ2的校验,通过迭代优化方式获取最优的采样不敏感对抗扰动R*,最后在测试任意视频样本X中添加采样不敏感对抗扰动R*,并测试攻击效果。
同时,本发明一种对采样不敏感的视频动作识别对抗攻击方法还具有以下有益效果:
(1)、本发明在不同采样下的视频样本帧中添加采样不敏感的视频扰动,可以保证对视频任意采样帧都攻击成功;
(2)、本发明可以布置在不同的范数攻击限制下实现有目标和无目标的视频对抗攻击,保证供给灵活性;
(3)、本发明可以成功攻击现有的基于2D和3D卷积网络的视频行为识别模型,扩大可攻击模型范围。
附图说明
图1是本发明一种对采样不敏感的视频动作识别对抗攻击方法流程图;
图2是不同模型上的攻击效果对比图;
图3是TSN、I3D模型的攻击效果可视化示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种对采样不敏感的视频动作识别对抗攻击方法流程图。
在本实施例中,如图1所示,本发明一种对采样不敏感的视频动作识别对抗攻击方法,包括以下步骤:
S1、视频样本集预处理
将视频样本集χ手动划分为对抗扰动生成集χ1和对抗校验集χ2,任意一段视频通常包含大量的帧,采样出少许视频帧,就包含整个视频中模式,而且可以减小计算代价,因此,首先需对视频进行采样,其中,对抗扰动生成集表示为m1表示χ1中视频样本总个数,第i个视频样本Xi={x1,x2,…,xt,···,xT},xt表示第t帧图像,T为总帧数;对抗校验集表示为m2表示χ2中视频样本总个数,第j个视频样本Xj={x1,x2,…,xt,···,xT};这样使每段视频通过采样后长度相同。
S2、从对抗扰动生成集χ1中提取对抗扰动特征集V
在对抗扰动生成集χ1中,利用深度卷积神经网络F的特征提取函数f(·)从每个视频样本Xi中提取特征Vi,Vi=F(Xi),具体形式为Vi={vi1,vi2,···,vit,···,viT},进而得到对抗扰动特征集该特征扰动集可以为后续扰动性能提升提供信息来源;
S3、通过迭代优化方式获取最优的采样不敏感对抗扰动R*;
S3.1、设置最大迭代次数K,设置期望攻击成功率δ;初始化对抗扰动R={r1,r2,…,rt,···,rT},rt为第t帧图像增加的扰动;
S3.5、更新采样不敏感对抗扰动;
基于负对数高斯似然函数L(·)和对抗扰动R的p范数限制||·||p,求解对抗扰动R′;
S3.6、在对抗校验集χ2中,对每个视频样本Xj添加对抗扰动R′,得到对抗样本再利用深度卷积神经网络F的特征提取函数f(·)从每个对抗样本中提取特征 具体形式为Vj={vj1,vj2,···,vjt,···,vjT},进而得到对抗扰动特征集
其中,P(·)表示求概率;
S3.8、判断当前迭代次数是否达到最大迭代次数K,或攻击成功率sr≥δ,如果满足,则迭代停止,并将对抗扰动R′作为最优的采样不敏感对抗扰动R*,然后进入步骤S4;否则,将当前迭代次数自加1,然后返回步骤S3.2,将对抗扰动R′作为新添加的对抗扰动进行下一轮迭代;
S4、测试任意视频样本X在采样不敏感对抗扰动R*下的攻击效果;
在本实施例中,采用FR指标来评估我们的攻击方法,在对抗样本上的预测标签y*与原样本的预测标签ygt一致性比例;采用SR指标来评估我们的攻击方法,在对抗样本上的预测标签y*与给定的目标标签一致性比例;采用p-l2和p-l∞指标来评估我们的攻击方法中对抗扰动的幅值。
通过在大规模视频行为分类数据集UCF-101和HMDB-51数据集上测试本发明。UCF-101数据集包含101个动作类别,共13,320个样本,选取40%的样本作为扰动生成集χ1,30%的样本作为攻击校验集χ2,剩余30%作为攻击效果的测试集;HMDB-51数据集包含51个动作类别,共6,849个样本,同样选取40%的样本作为扰动生成集χ1,30%的样本作为攻击校验集χ2,剩余30%作为攻击效果的测试集;本发明在TSN(时域分割网络)、I3D(3维扩展网络)、CNN+LSTM(卷积和长短程记忆网络)和TSM(时域偏移网络)几个模型上的攻击效果如图2所示,从图中可知3D模型更容易攻击,攻击成功率相对更高,原因大概是相对于2D模型3D模型中有短程的时序卷积,导致熵增益Igain朝更有利的方向迭代,最终的扰动R也更利于攻击应用;其次,在2D模型中结构越简单,攻击成功率越高,且同等设置下,在l∞范数约束下的攻击效果更好。综述可以看出,本发明可以有效的攻击主流的2D和3D视频动作识别模型。
此外,在UCF-101和HMDB-51数据集上,通过可视化TSN、I3D的攻击效果,如图3所示,其中对抗视频和原视频相比很难被人察觉出差异,但模型却完全将这些视频错分;另外在l2和l∞范数限制下的扰动有很大差异但都可以成功攻击模型。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种对采样不敏感的视频动作识别对抗攻击方法,其特征在于,包括以下步骤:
(1)、视频样本集预处理
将视频样本集χ手动划分为对抗扰动生成集χ1和对抗校验集χ2,其中,对抗扰动生成集表示为m1表示χ1中视频样本总个数,第i个视频样本Xi={x1,x2,…,xt,···,xT},xt表示第t帧图像,T为总帧数;对抗校验集表示为m2表示χ2中视频样本总个数,第j个视频样本Xj={x1,x2,…,xt,···,xT};
(2)、从对抗扰动生成集χ1中提取对抗扰动特征集V
在对抗扰动生成集χ1中,利用深度卷积神经网络F的特征提取函数f(·)从每个视频样本Xi中提取特征Vi,Vi=f(Xi),具体形式为Vi={vi1,vi2,···,vit,···,viT},进而得到对抗扰动特征集
(3)、通过迭代优化方式获取最优的采样不敏感对抗扰动R*;
(3.1)、设置最大迭代次数K,设置期望攻击成功率δ;初始化对抗扰动R={r1,r2,…,rt,···,rT},rt为第t帧图像增加的扰动;
(3.5)、更新采样不敏感对抗扰动;
基于负对数高斯似然函数L(·)和对抗扰动R的p范数限制||·||p,求解对抗扰动R′;
(3.6)、在对抗校验集χ2中,对每个视频样本Xj添加对抗扰动R′,得到对抗样本再利用深度卷积神经网络F的特征提取函数f(·)从每个对抗样本中提取特征具体形式为Vj={vj1,vj2,···,vjt,···,vjT},进而得到对抗扰动特征集
其中,P(·)表示求概率;
(3.8)、判断当前迭代次数是否达到最大迭代次数K,或攻击成功率sr≥δ,如果满足,则迭代停止,并将对抗扰动R′作为最优的采样不敏感对抗扰动R*,然后进入步骤(4);否则,将当前迭代次数自加1,然后返回步骤(3.2),将对抗扰动R′作为新添加的对抗扰动进行下一轮迭代;
(4)、测试任意视频样本X在采样不敏感对抗扰动R*下的攻击效果;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010572742.7A CN111797732B (zh) | 2020-06-22 | 2020-06-22 | 一种对采样不敏感的视频动作识别对抗攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010572742.7A CN111797732B (zh) | 2020-06-22 | 2020-06-22 | 一种对采样不敏感的视频动作识别对抗攻击方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797732A true CN111797732A (zh) | 2020-10-20 |
CN111797732B CN111797732B (zh) | 2022-03-25 |
Family
ID=72803717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010572742.7A Active CN111797732B (zh) | 2020-06-22 | 2020-06-22 | 一种对采样不敏感的视频动作识别对抗攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797732B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627597A (zh) * | 2021-08-12 | 2021-11-09 | 上海大学 | 一种基于通用扰动的对抗样本生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840512A (zh) * | 2019-02-28 | 2019-06-04 | 北京科技大学 | 一种面部动作单元识别方法及识别装置 |
CN110046599A (zh) * | 2019-04-23 | 2019-07-23 | 东北大学 | 基于深度融合神经网络行人重识别技术的智能监控方法 |
US20190303720A1 (en) * | 2018-03-30 | 2019-10-03 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for feature transformation, correction and regeneration for robust sensing, transmission, computer vision, recognition and classification |
CN110991299A (zh) * | 2019-11-27 | 2020-04-10 | 中新国际联合研究院 | 一种物理域上针对人脸识别系统的对抗样本生成方法 |
-
2020
- 2020-06-22 CN CN202010572742.7A patent/CN111797732B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190303720A1 (en) * | 2018-03-30 | 2019-10-03 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for feature transformation, correction and regeneration for robust sensing, transmission, computer vision, recognition and classification |
CN109840512A (zh) * | 2019-02-28 | 2019-06-04 | 北京科技大学 | 一种面部动作单元识别方法及识别装置 |
CN110046599A (zh) * | 2019-04-23 | 2019-07-23 | 东北大学 | 基于深度融合神经网络行人重识别技术的智能监控方法 |
CN110991299A (zh) * | 2019-11-27 | 2020-04-10 | 中新国际联合研究院 | 一种物理域上针对人脸识别系统的对抗样本生成方法 |
Non-Patent Citations (2)
Title |
---|
ZHENG LEI ET AL: "《Spatial Temporal Balanced Generative Adversarial AutoEncode for Anomaly Detection》", 《ACM》 * |
范伟琦: "《图像对抗样本的防御方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627597A (zh) * | 2021-08-12 | 2021-11-09 | 上海大学 | 一种基于通用扰动的对抗样本生成方法及系统 |
CN113627597B (zh) * | 2021-08-12 | 2023-10-13 | 上海大学 | 一种基于通用扰动的对抗样本生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111797732B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Giraldo et al. | Graph moving object segmentation | |
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN109711426B (zh) | 一种基于gan和迁移学习的病理图片分类装置及方法 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
WO2022095645A1 (zh) | 基于内存增强潜在空间自回归的图像异常检测方法 | |
CN110728294A (zh) | 一种基于迁移学习的跨领域图像分类模型构建方法和装置 | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN114120041B (zh) | 一种基于双对抗变分自编码器的小样本分类方法 | |
CN115205689B (zh) | 一种改进的无监督遥感影像异常检测方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
Kao et al. | Disc-GLasso: Discriminative graph learning with sparsity regularization | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN115588030A (zh) | 基于孪生网络的视觉目标跟踪方法及设备 | |
CN111079930A (zh) | 数据集质量参数的确定方法、装置及电子设备 | |
CN111797732B (zh) | 一种对采样不敏感的视频动作识别对抗攻击方法 | |
CN110136164B (zh) | 基于在线透射变换、低秩稀疏矩阵分解去除动态背景的方法 | |
CN116704208A (zh) | 基于特征关系的局部可解释方法 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
Alamsyah et al. | Autoencoder image denoising to increase optical character recognition performance in text conversion | |
CN113222016B (zh) | 一种基于高层和低层特征交叉增强的变化检测方法及装置 | |
CN113627342A (zh) | 视频深度特征提取优化的方法、系统、设备及存储介质 | |
CN113378620A (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
Yang et al. | Robust feature mining transformer for occluded person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |