CN115311521B - 基于强化学习的黑盒视频对抗样本生成方法及评价方法 - Google Patents

基于强化学习的黑盒视频对抗样本生成方法及评价方法 Download PDF

Info

Publication number
CN115311521B
CN115311521B CN202211111492.2A CN202211111492A CN115311521B CN 115311521 B CN115311521 B CN 115311521B CN 202211111492 A CN202211111492 A CN 202211111492A CN 115311521 B CN115311521 B CN 115311521B
Authority
CN
China
Prior art keywords
video
video block
block set
countermeasure sample
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211111492.2A
Other languages
English (en)
Other versions
CN115311521A (zh
Inventor
胡超
余瑞实
施鹤远
湛誉
梁锴
刘荣凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202211111492.2A priority Critical patent/CN115311521B/zh
Publication of CN115311521A publication Critical patent/CN115311521A/zh
Application granted granted Critical
Publication of CN115311521B publication Critical patent/CN115311521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于强化学习的黑盒视频对抗样本生成方法,包括获取原始视频数据并分割得到视频块集合;对视频块集合插入位置信息得到带有位置信息的视频块集合;进行视觉特征提取得到视频块的特征;对带有位置信息的视频块集合进行提取得到关键视频块集合;对关键视频块集合进行迭代得到估计梯度;生成对抗样本值并构建对应的损失函数;将对抗样本值输入到目标视频模型中获取返回值,根据返回值和损失函数值得到最终构建的对抗样本。本发明还公开了一种包括所述基于强化学习的黑盒视频对抗样本生成方法的评价方法。本发明提高了添加的扰动的精准性,减少了对抗样本的复杂性,而且成本较低,可靠性高,效率较高。

Description

基于强化学习的黑盒视频对抗样本生成方法及评价方法
技术领域
本发明属于人工智能安全技术领域,具体涉及一种基于强化学习的黑盒视频对抗样本生成方法及评价方法。
背景技术
随着经济技术的发展和人们生活水平的提高,深度学习技术在许多基于视频数据的人工智能任务中有着广泛的应用,比如网络摄像机可以连接外部传感器,对监控的异常视频数据(例如偷盗、火灾)进行联动报警,从而预防可能发生的灾害等。因此,在诸多涉及安全的场景下,对深度学习技术进行充分的测试以保证其安全性和鲁棒性,就显得至关重要。
对抗样本是指一批经过加工处理的数据样本,其通过在原始数据的基础上添加一些微小的、难以察觉的对抗性扰动,从而使原神经网络模型产生错误的结果。因此,采用对抗样本对基于视频的深度学习技术进行测试,是现今非常重要的测试过程。
目前的对抗样本生成方法,一般是对视频的每一个视频帧进行梯度估计,并添加对抗性扰动。但是,由于连续的视频帧会引入额外的时间维度,因此对抗样本生成的过程需要大量的迭代请求来估算对抗性扰动的梯度。但是,这种大量的迭代请求过程将耗费大量的成本,复杂度较高,而且对抗样本的生成效率也相对较低。
发明内容
本发明的目的之一在于提供一种成本较低、可靠性高且效率较高的基于强化学习的黑盒视频对抗样本生成方法。
本发明的目的之二在于提供一种包括了所述基于强化学习的黑盒视频对抗样本生成方法的评价方法。
本发明提供的这种基于强化学习的黑盒视频对抗样本生成方法,包括如下步骤:
S1.获取原始视频数据;
S2.对步骤S1获取的原始视频数据,采用滑动窗口进行分割,得到包括若干个视频块的视频块集合;
S3.对步骤S2得到的视频块集合插入位置信息,得到带有位置信息的视频块集合;
S4.对步骤S3得到的带有位置信息的视频块集合,采用自注意力机制进行视觉特征提取,得到各个视频块的特征;
S5.根据步骤S4得到的各个视频块的特征,对带有位置信息的视频块集合进行提取,得到关键视频块集合;
S6.对步骤S5得到的关键视频块集合进行迭代处理,从而得到估计梯度;
S7.根据步骤S6得到的估计梯度,生成对抗样本值,并构建对应的损失函数;
S8.将对抗样本值输入到目标视频模型中获取目标视频模型的返回值,并根据返回值和损失函数的值,得到最终构建的对抗样本。
步骤S2所述的对步骤S1获取的原始视频数据,采用滑动窗口进行分割,得到包括若干个视频块的视频块集合,具体包括如下步骤:
原始视频数据为V0,V0∈RT×W×L×C,其中R为实数域,T为视频数据的帧数,W为视频帧的宽,L为视频帧的长,C为视频帧的颜色通道数;
采用采用滑动窗口M对原始视频数据V0进行分割,
Figure BDA0003843444700000031
Wm为滑动窗口的宽,Lm为滑动窗口的长,Hm为滑动窗口的高;滑动窗口M将原始视频数据V0切割成n个视频块,从而得到视频块集合V为V={v1,v2,...,vn},其中
Figure BDA0003843444700000032
步骤S3所述的对步骤S2得到的视频块集合插入位置信息,得到带有位置信息的视频块集合,具体包括如下步骤:
将步骤S2得到的视频块集合V={v1,v2,...,vn},输入到特征编码函数中,得到对应的视频块特征向量F为F={f1,f2,...,fn};
在每个视频块特征向量中,在视频块的特征向量F上注入位置信息;其中,注入的位置信息PI(p,i)为
Figure BDA0003843444700000033
其中p为每个视频块的索引,i为位置信息编码向量中的第i个元素,dmodel为视频块特征向量的长度;将位置信息PI(p,i)与视频块特征向量F相加,得到带有位置信息的视频块集合F*
Figure BDA0003843444700000034
步骤S4所述的对步骤S3得到的带有位置信息的视频块集合,采用自注意力机制进行视觉特征提取,得到各个视频块的特征,具体包括如下步骤:
将步骤S3得到的带有位置信息的视频块集合F*,输入到带有自注意力机制的视觉特征提取器中,生成请求向量Q、关键向量K和值向量V;其中,生成请求向量Q的计算式为Q=WQ·F*,生成请求向量K的计算式为K=WK·F*,生成请求向量V的计算式为V=WF·F*
对每一个视频块
Figure BDA0003843444700000041
通过查询Q、K、V矩阵可得到对应的Qa、Ka和Va;将请求向量Qa与其他所有视频块的关键向量的转置KT进行点积运算,并采用softmax函数处理点积运算结果,得到自注意力权重Wa
Figure BDA0003843444700000042
其中dk为视频块特征向量的维度;
将自注意力权重Wa与对应的视频块的值向量Va相乘,得到包含自注意力的向量Za为Za=Wa·Va;包含自注意力的向量Za就是视频块va的特征。
步骤S5所述的根据步骤S4得到的各个视频块的特征,对带有位置信息的视频块集合进行提取,得到关键视频块集合,具体包括如下步骤:
将得到的各个视频块的特征Za,通过输出维度为n维的全连接层进行降维,然后再将得到的n维向量输入到sigmoid函数,得到判别分数集合P为P={p1,p2,...,pn},其中pa为第a个视频块的关键性分数;
对判别分数集合P中的元素进行降序排序,并提取排序后的前m个元素所对应的视频块作为关键视频块集合Vc为Vc={vc1,vc2,...,vcm}。
步骤S6所述的对步骤S5得到的关键视频块集合进行迭代处理,从而得到估计梯度,具体包括如下步骤:
设定对步骤S5得到的关键视频块集合Vc={vc1,vc2,...,vcm}添加的对抗性扰动为g;设定能够使得目标视频系统误判的有效对抗性扰动为g*;其中,g={g1,g2,...,gm},
Figure BDA0003843444700000043
将对抗性扰动g和有效对抗性扰动g*之间的差异,表示为l(g)=-<g,g*>,其中<a,b>定义为a和b的余弦相似度,计算式为
Figure BDA0003843444700000044
通过l(g,g*)中的梯度下降来使得g不断接近g*,表示为g'=g-ηΔ,其中g'为更新后的对抗性扰动g,g为更新前的对抗性扰动,η为梯度下降的步长,Δ为下降方向;
通过对称采样并迭代目标视频系统,实现对g进行梯度估计;下降方向Δ的表达式为
Figure BDA0003843444700000051
其中δ为估计下降方向时,采样过程中调整对抗性扰动g变化幅度的参数;π为随机的候选方向,且π∈RT×W×H×C;经过两次迭代计算得到下降方向Δ,并采用得到的下降方向Δ更新对抗性扰动,得到估计梯度。
步骤S7所述的根据步骤S6得到的估计梯度,生成对抗样本值,并构建对应的损失函数,具体包括如下步骤:
步骤S6得到的第i轮的估计梯度后,将估计梯度g叠加到第i-1轮迭代中的对抗样本
Figure BDA0003843444700000052
中,生成第i轮的对抗样本
Figure BDA0003843444700000053
Figure BDA0003843444700000054
其中clip()为剪裁函数,用于将括号内的值限定在设定的值域范围内;h为对抗样本梯度下降的步长;sign()为符号函数,用于获取估计梯度的方向;
将生成的第i轮的对抗样本
Figure BDA0003843444700000055
输入到目标视频系统,得到目标视频系统的返回值,通过返回值得到第i轮的对抗样本
Figure BDA0003843444700000056
所对应的标签yp;采用交叉损失熵函数表示本次对抗样本标签与目标标签之间的损失Ltarget
Figure BDA0003843444700000057
式中yt为预期的目标标签;
Figure BDA0003843444700000058
为条件输入下得到真实标签的概率,表示为
Figure BDA0003843444700000059
Figure BDA00038434447000000510
为条件输入下得到预期标签的概率,表示为
Figure BDA00038434447000000511
采用如下算式作为整体损失函数Rtotal,从而对迭代过程进行整体优化:
Rtotal=Ratt+Rper
式中Ratt为对关键视频块对抗性扰动和所有视频块对抗性扰动产生的对抗损失奖励,且
Figure BDA0003843444700000061
Figure BDA0003843444700000062
为对关键视频块添加对抗性扰动的对抗损失,
Figure BDA0003843444700000063
为对所有视频块添加对抗性扰动的对抗损失;Rper为对抗性扰动增量奖励,且Rper=Perfull-Perpart,Perfull为对所有视频块扰动生成的对抗性扰动增量,Perpart为对关键视频块扰动生成的对抗性扰动增量。
步骤S8所述的将对抗样本值输入到目标视频模型中获取目标视频模型的返回值,并根据返回值和损失函数的值,得到最终构建的对抗样本,具体包括如下步骤:
将得到的对抗样本输入到目标视频模型并获取对应的返回值,得到返回值对应的标签,并进行判定:
若返回值对应的标签与目标生成标签一致,则认为迭代成功,将当前的对抗样本作为最终构建的对抗样本;
若返回值对应的标签与目标生成标签不一致,则继续进行迭代,直至满足迭代终止的条件。
本发明还公开了一种包括了所述基于强化学习的黑盒视频对抗样本生成方法的评价方法,具体包括如下步骤:
A.获取待评价的目标视频模型和原始视频数据;
B.采用所述的基于强化学习的黑盒视频对抗样本生成方法,生成对应的对抗样本;
C.将步骤B得到的对抗样本和原始视频数据,分别输入到待评价的目标视频模型,得到对抗样本输出结果和理论输出结果;
D.根据得到的对抗样本输出结果和理论输出结果,完成对待评价的目标视频模型的评价。
本发明提供的这种基于强化学习的黑盒视频对抗样本生成方法及评价方法,通过对视频数据分割成块,选择部分视频块添加扰动,并最终形成对抗样本的方式,优化了现有的对抗样本的生成技术方案,提高了添加的扰动的精准性,减少了对抗样本的复杂性,而且成本较低,可靠性高,效率较高。
附图说明
图1为本发明的生成方法的方法流程示意图。
图2为本发明的评价方法的方法流程示意图。
具体实施方式
如图1所示为本发明的生成方法的方法流程示意图:本发明提供的这种基于强化学习的黑盒视频对抗样本生成方法,包括如下步骤:
S1.获取原始视频数据;
S2.对步骤S1获取的原始视频数据,采用滑动窗口进行分割,得到包括若干个视频块的视频块集合;具体包括如下步骤:
原始视频数据为V0,V0∈RT×W×L×C,其中R为实数域,T为视频数据的帧数,W为视频帧的宽,L为视频帧的长,C为视频帧的颜色通道数;
采用采用滑动窗口M对原始视频数据V0进行分割,
Figure BDA0003843444700000071
Wm为滑动窗口的宽,Lm为滑动窗口的长,Hm为滑动窗口的高;滑动窗口M将原始视频数据V0切割成n个视频块,从而得到视频块集合V为V={v1,v2,...,vn},其中
Figure BDA0003843444700000072
S3.对步骤S2得到的视频块集合插入位置信息,得到带有位置信息的视频块集合;具体包括如下步骤:
将步骤S2得到的视频块集合V={v1,v2,...,vn},输入到特征编码函数中,得到对应的视频块特征向量F为F={f1,f2,...,fn};
在每个视频块特征向量中,在视频块的特征向量F上注入位置信息;其中,注入的位置信息PI(p,i)为
Figure BDA0003843444700000081
其中p为每个视频块的索引,i为位置信息编码向量中的第i个元素,dmodel为视频块特征向量的长度;将位置信息PI(p,i)与视频块特征向量F相加,得到带有位置信息的视频块集合F*
Figure BDA0003843444700000082
S4.对步骤S3得到的带有位置信息的视频块集合,采用自注意力机制进行视觉特征提取,得到各个视频块的特征;具体包括如下步骤:
将步骤S3得到的带有位置信息的视频块集合F*,输入到带有自注意力机制的视觉特征提取器中,生成请求向量Q、关键向量K和值向量V;其中,生成请求向量Q的计算式为Q=WQ·F*,生成请求向量K的计算式为K=WK·F*,生成请求向量V的计算式为V=WF·F*
对每一个视频块
Figure BDA0003843444700000083
通过查询Q、K、V矩阵可得到对应的Qa、Ka和Va;将请求向量Qa与其他所有视频块的关键向量的转置KT进行点积运算,并采用softmax函数处理点积运算结果,得到自注意力权重Wa
Figure BDA0003843444700000084
其中dk为视频块特征向量的维度;
将自注意力权重Wa与对应的视频块的值向量Va相乘,得到包含自注意力的向量Za为Za=Wa·Va;包含自注意力的向量Za就是视频块va的特征;
S5.根据步骤S4得到的各个视频块的特征,对带有位置信息的视频块集合进行提取,得到关键视频块集合;具体包括如下步骤:
将得到的各个视频块的特征Za,通过输出维度为n维的全连接层进行降维,然后再将得到的n维向量输入到sigmoid函数,得到判别分数集合P为P={p1,p2,...,pn},其中pa为第a个视频块的关键性分数;
对判别分数集合P中的元素进行降序排序,并提取排序后的前m个元素所对应的视频块作为关键视频块集合Vc为Vc={vc1,vc2,...,vcm};
S6.对步骤S5得到的关键视频块集合进行迭代处理,从而得到估计梯度;具体包括如下步骤:
设定对步骤S5得到的关键视频块集合Vc={vc1,vc2,...,vcm}添加的对抗性扰动为g;设定能够使得目标视频系统误判的有效对抗性扰动为g*;其中,g={g1,g2,...,gm},
Figure BDA0003843444700000091
将对抗性扰动g和有效对抗性扰动g*之间的差异,表示为l(g)=-<g,g*>,其中<a,b>定义为a和b的余弦相似度,计算式为
Figure BDA0003843444700000092
通过l(g,g*)中的梯度下降来使得g不断接近g*,表示为g'=g-ηΔ,其中g'为更新后的对抗性扰动g,g为更新前的对抗性扰动,η为梯度下降的步长,Δ为下降方向;
通过对称采样并迭代目标视频系统,实现对g进行梯度估计;下降方向Δ的表达式为
Figure BDA0003843444700000093
其中δ为估计下降方向时,采样过程中调整对抗性扰动g变化幅度的参数;π为随机的候选方向,且π∈RT×W×H×C;经过两次迭代计算得到下降方向Δ,并采用得到的下降方向Δ更新对抗性扰动,得到估计梯度;
S7.根据步骤S6得到的估计梯度,生成对抗样本值,并构建对应的损失函数;具体包括如下步骤:
步骤S6得到的第i轮的估计梯度后,将估计梯度g叠加到第i-1轮迭代中的对抗样本
Figure BDA0003843444700000101
中,生成第i轮的对抗样本
Figure BDA0003843444700000102
Figure BDA0003843444700000103
其中clip()为剪裁函数,用于将括号内的值限定在设定的值域范围内(防止生成的对抗性扰动过大);h为对抗样本梯度下降的步长;sign()为符号函数,用于获取估计梯度的方向;
将生成的第i轮的对抗样本
Figure BDA0003843444700000104
输入到目标视频系统,得到目标视频系统的返回值,通过返回值得到第i轮的对抗样本
Figure BDA0003843444700000105
所对应的标签yp;采用交叉损失熵函数表示本次对抗样本标签与目标标签之间的损失Ltarget
Figure BDA0003843444700000106
式中yt为预期的目标标签;
Figure BDA0003843444700000107
为条件输入下得到真实标签的概率,表示为
Figure BDA0003843444700000108
Figure BDA0003843444700000109
为条件输入下得到预期标签的概率,表示为
Figure BDA00038434447000001010
采用如下算式作为整体损失函数Rtotal,从而对迭代过程进行整体优化:
Rtotal=Ratt+Rper
式中Ratt为对关键视频块对抗性扰动和所有视频块对抗性扰动产生的对抗损失奖励,且
Figure BDA00038434447000001011
Figure BDA00038434447000001012
为对关键视频块添加对抗性扰动的对抗损失,
Figure BDA00038434447000001013
为对所有视频块添加对抗性扰动的对抗损失;Rper为对抗性扰动增量奖励,且Rper=Perfull-Perpart,Perfull为对所有视频块扰动生成的对抗性扰动增量,Perpart为对关键视频块扰动生成的对抗性扰动增量;
S8.将对抗样本值输入到目标视频模型中获取目标视频模型的返回值,并根据返回值和损失函数的值,得到最终构建的对抗样本;具体包括如下步骤:
将得到的对抗样本输入到目标视频模型并获取对应的返回值,得到返回值对应的标签,并进行判定:
若返回值对应的标签与目标生成标签一致,则认为迭代成功,将当前的对抗样本作为最终构建的对抗样本;
若返回值对应的标签与目标生成标签不一致,则继续进行迭代,直至满足迭代终止的条件。
如图2所示为本发明的评价方法的方法流程示意图:本发明提供的这种包括了所述基于强化学习的黑盒视频对抗样本生成方法的评价方法,具体包括如下步骤:
A.获取待评价的目标视频模型和原始视频数据;
B.采用所述的基于强化学习的黑盒视频对抗样本生成方法,生成对应的对抗样本;
C.将步骤B得到的对抗样本和原始视频数据,分别输入到待评价的目标视频模型,得到对抗样本输出结果和理论输出结果;
D.根据得到的对抗样本输出结果和理论输出结果,完成对待评价的目标视频模型的评价;具体实施时,可以采用对抗样本输出结果和理论输出结果之间的距离,来完成对待评价的目标视频模型的评价:距离越远,则表明待评价的目标视频模型的抗干扰能力越差;距离越近,则表明待评价的目标视频模型的抗干扰能力越强。

Claims (4)

1.一种基于强化学习的黑盒视频对抗样本生成方法,包括如下步骤:
S1.获取原始视频数据;
S2.对步骤S1获取的原始视频数据,采用滑动窗口进行分割,得到包括若干个视频块的视频块集合;
S3.对步骤S2得到的视频块集合插入位置信息,得到带有位置信息的视频块集合;
S4.对步骤S3得到的带有位置信息的视频块集合,采用自注意力机制进行视觉特征提取,得到各个视频块的特征;具体包括如下步骤:
将步骤S3得到的带有位置信息的视频块集合F*,输入到带有自注意力机制的视觉特征提取器中,生成请求向量Q、关键向量K和值向量V;其中,生成请求向量Q的计算式为Q=WQ·F*,生成请求向量K的计算式为K=WK·F*,生成请求向量V的计算式为V=WF·F*
对每一个视频块
Figure FDA0004093790080000011
通过查询Q、K、V矩阵可得到对应的Qa、Ka和Va;将请求向量Qa与其他所有视频块的关键向量的转置KT进行点积运算,并采用softmax函数处理点积运算结果,得到自注意力权重Wa
Figure FDA0004093790080000012
其中dk为视频块特征向量的维度;
将自注意力权重Wa与对应的视频块的值向量Va相乘,得到包含自注意力的向量Za为Za=Wa·Va;包含自注意力的向量Za就是视频块va的特征;
S5.根据步骤S4得到的各个视频块的特征,对带有位置信息的视频块集合进行提取,得到关键视频块集合;具体包括如下步骤:
将得到的各个视频块的特征Za,通过输出维度为n维的全连接层进行降维,然后再将得到的n维向量输入到sigmoid函数,得到判别分数集合P为P={p1,p2,...,pn},其中pa为第a个视频块的关键性分数;
对判别分数集合P中的元素进行降序排序,并提取排序后的前m个元素所对应的视频块作为关键视频块集合Vc为Vc={vc1,vc2,...,vcm};
S6.对步骤S5得到的关键视频块集合进行迭代处理,从而得到估计梯度;具体包括如下步骤:
设定对步骤S5得到的关键视频块集合Vc={vc1,vc2,...,vcm}添加的对抗性扰动为g;设定能够使得目标视频系统误判的有效对抗性扰动为g*;其中,g={g1,g2,...,gm},
Figure FDA0004093790080000021
将对抗性扰动g和有效对抗性扰动g*之间的差异,表示为l(g)=-<g,g*>,将对抗性扰动g和有效对抗性扰动g*之间的差异,表示为l(g)=-<g,g*>,其中<a,b>定义为a和b的余弦相似度,计算式为
Figure FDA0004093790080000022
通过l(g,g*)中的梯度下降来使得g不断接近g*,表示为g'=g-ηΔ,其中g'为更新后的对抗性扰动g,g为更新前的对抗性扰动,η为梯度下降的步长,Δ为下降方向;
通过对称采样并迭代目标视频系统,实现对g进行梯度估计;下降方向Δ的表达式为
Figure FDA0004093790080000023
其中δ为估计下降方向时,采样过程中调整对抗性扰动g变化幅度的参数;π为随机的候选方向,且π∈RT×W×H×C;经过两次迭代计算得到下降方向Δ,并采用得到的下降方向Δ更新对抗性扰动,得到估计梯度;
S7.根据步骤S6得到的估计梯度,生成对抗样本值,并构建对应的损失函数;具体包括如下步骤:
步骤S6得到的第i轮的估计梯度后,将估计梯度g叠加到第i-1轮迭代中的对抗样本
Figure FDA0004093790080000031
中,生成第i轮的对抗样本
Figure FDA0004093790080000032
Figure FDA0004093790080000033
其中clip()为剪裁函数,用于将括号内的值限定在设定的值域范围内;h为对抗样本梯度下降的步长;sign()为符号函数,用于获取估计梯度的方向;
将生成的第i轮的对抗样本
Figure FDA0004093790080000034
输入到目标视频系统,得到目标视频系统的返回值,通过返回值得到第i轮的对抗样本
Figure FDA0004093790080000035
所对应的标签yp;采用交叉损失熵函数表示本次对抗样本标签与目标标签之间的损失Ltarget
Figure FDA0004093790080000036
式中yt为预期的目标标签;
Figure FDA0004093790080000037
为条件输入下得到真实标签的概率,表示为
Figure FDA0004093790080000038
Figure FDA0004093790080000039
为条件输入下得到预期标签的概率,表示为
Figure FDA00040937900800000310
采用如下算式作为整体损失函数Rtotal,从而对迭代过程进行整体优化:
Rtotal=Ratt+Rper
式中Ratt为对关键视频块对抗性扰动和所有视频块对抗性扰动产生的对抗损失奖励,且
Figure FDA00040937900800000311
Figure FDA00040937900800000312
为对关键视频块添加对抗性扰动的对抗损失,
Figure FDA00040937900800000313
为对所有视频块添加对抗性扰动的对抗损失;Rper为对抗性扰动增量奖励,且Rper=Perfull-Perpart,Perfull为对所有视频块扰动生成的对抗性扰动增量,Perpart为对关键视频块扰动生成的对抗性扰动增量;
S8.将对抗样本值输入到目标视频模型中获取目标视频模型的返回值,并根据返回值和损失函数的值,得到最终构建的对抗样本;具体包括如下步骤:
将得到的对抗样本输入到目标视频模型并获取对应的返回值,得到返回值对应的标签,并进行判定:
若返回值对应的标签与目标生成标签一致,则认为迭代成功,将当前的对抗样本作为最终构建的对抗样本;
若返回值对应的标签与目标生成标签不一致,则继续进行迭代,直至满足迭代终止的条件。
2.根据权利要求1所述的基于强化学习的黑盒视频对抗样本生成方法,其特征在于步骤S2所述的对步骤S1获取的原始视频数据,采用滑动窗口进行分割,得到包括若干个视频块的视频块集合,具体包括如下步骤:
原始视频数据为V0,V0∈RT×W×L×C,其中R为实数域,T为视频数据的帧数,W为视频帧的宽,L为视频帧的长,C为视频帧的颜色通道数;
采用采用滑动窗口M对原始视频数据V0进行分割,
Figure FDA0004093790080000041
Wm为滑动窗口的宽,Lm为滑动窗口的长,Hm为滑动窗口的高;滑动窗口M将原始视频数据V0切割成n个视频块,从而得到视频块集合V为V={v1,v2,...,vn},其中
Figure FDA0004093790080000042
3.根据权利要求2所述的基于强化学习的黑盒视频对抗样本生成方法,其特征在于步骤S3所述的对步骤S2得到的视频块集合插入位置信息,得到带有位置信息的视频块集合,具体包括如下步骤:
将步骤S2得到的视频块集合V={v1,v2,...,vn},输入到特征编码函数中,得到对应的视频块特征向量F为F={f1,f2,...,fn};
在每个视频块特征向量中,在视频块的特征向量F上注入位置信息;其中,注入的位置信息PI(p,i)为
Figure FDA0004093790080000043
其中p为每个视频块的索引,i为位置信息编码向量中的第i个元素,dmodel为视频块特征向量的长度;将位置信息PI(p,i)与视频块特征向量F相加,得到带有位置信息的视频块集合F*
Figure FDA0004093790080000051
4.一种包括了权利要求1~3之一所述的基于强化学习的黑盒视频对抗样本生成方法的评价方法,其特征在于具体包括如下步骤:
A.获取待评价的目标视频模型和原始视频数据;
B.采用权利要求1~3之一所述的基于强化学习的黑盒视频对抗样本生成方法,生成对应的对抗样本;
C.将步骤B得到的对抗样本和原始视频数据,分别输入到待评价的目标视频模型,得到对抗样本输出结果和理论输出结果;
D.根据得到的对抗样本输出结果和理论输出结果,完成对待评价的目标视频模型的评价。
CN202211111492.2A 2022-09-13 2022-09-13 基于强化学习的黑盒视频对抗样本生成方法及评价方法 Active CN115311521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211111492.2A CN115311521B (zh) 2022-09-13 2022-09-13 基于强化学习的黑盒视频对抗样本生成方法及评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211111492.2A CN115311521B (zh) 2022-09-13 2022-09-13 基于强化学习的黑盒视频对抗样本生成方法及评价方法

Publications (2)

Publication Number Publication Date
CN115311521A CN115311521A (zh) 2022-11-08
CN115311521B true CN115311521B (zh) 2023-04-28

Family

ID=83866376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211111492.2A Active CN115311521B (zh) 2022-09-13 2022-09-13 基于强化学习的黑盒视频对抗样本生成方法及评价方法

Country Status (1)

Country Link
CN (1) CN115311521B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819109A (zh) * 2021-04-19 2021-05-18 中国工程物理研究院计算机应用研究所 针对黑盒对抗样本攻击的视频分类系统安全性增强方法
CN114758198A (zh) * 2022-03-23 2022-07-15 北京理工大学 一种基于元学习对抗扰动的黑盒攻击方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241830B (zh) * 2018-07-26 2021-09-17 合肥工业大学 基于光照生成对抗网络的课堂听课异常检测方法
CN111709435B (zh) * 2020-05-18 2023-06-20 杭州电子科技大学 一种基于离散小波变换的对抗样本生成方法
CN112990357B (zh) * 2021-04-16 2021-07-27 中国工程物理研究院计算机应用研究所 一种基于稀疏扰动的黑盒视频对抗样本生成方法
CN114511593A (zh) * 2022-01-25 2022-05-17 中国矿业大学 一种基于重要特征的视觉目标跟踪可转移黑盒攻击方法
CN114821432B (zh) * 2022-05-05 2022-12-02 杭州电子科技大学 基于离散余弦变换的视频目标分割对抗攻击方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819109A (zh) * 2021-04-19 2021-05-18 中国工程物理研究院计算机应用研究所 针对黑盒对抗样本攻击的视频分类系统安全性增强方法
CN114758198A (zh) * 2022-03-23 2022-07-15 北京理工大学 一种基于元学习对抗扰动的黑盒攻击方法及系统

Also Published As

Publication number Publication date
CN115311521A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN111859166B (zh) 一种基于改进的图卷积神经网络的物品评分预测方法
CN112396088A (zh) 一种小样本下隐式激励对抗训练的机械故障智能诊断方法
CN116361635B (zh) 一种多维时序数据异常检测方法
CN113408722B (zh) 基于逐层损失补偿深度自编码器的态势评估要素提取方法
CN115496384A (zh) 工业设备的监控管理方法、装置和计算机设备
CN117201122A (zh) 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN116527346A (zh) 基于深度学习图神经网络理论的威胁节点感知方法
CN117992953A (zh) 基于操作行为跟踪的异常用户行为识别方法
CN117609905A (zh) 一种监测数据预测方法、系统、设备以及可读存储介质
CN115311521B (zh) 基于强化学习的黑盒视频对抗样本生成方法及评价方法
CN113469013A (zh) 一种基于迁移学习和时间序列的电机故障预测方法及系统
CN115865458B (zh) 基于lstm和gat算法的网络攻击行为检测方法、系统及终端
CN111737688A (zh) 基于用户画像的攻击防御系统
CN116757533A (zh) 一种工业设备异常检测方法及相关装置
CN114399901B (zh) 一种控制交通系统的方法和设备
CN113449626B (zh) 隐马尔科夫模型振动信号分析方法装置、存储介质和终端
CN115169228A (zh) 一种异常区间预测模型构建及异常区间预测方法
CN114972878B (zh) 攻击无依赖的可迁移对抗样本检测方法
CN114915502B (zh) 资产异常行为检测方法、装置、终端设备以及存储介质
CN114064203B (zh) 基于多尺度分析和深度网络模型的云虚拟机负载预测方法
CN114928497A (zh) 一种基于多粒度特征的身份认证方法
EP4345689A1 (en) Evaluation and training methods for unsupervised representation encoders
CN118690355A (zh) 一种基于深度估计值的云平台异常行为检测方法
CN117523076A (zh) 一种基于transformer的透明物体3D形状估计方法
CN116506858A (zh) 基于时空特征并行分析的车联网入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant