CN108229682A

CN108229682A - 一种基于反向传播攻击的图像检测对抗方法

Info

Publication number: CN108229682A
Application number: CN201810120911.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-06-29

Abstract

本发明中提出的一种基于反向传播攻击的图像检测对抗方法，其主要内容包括：功能模块、攻击方法、训练方法，其过程为，建立攻击模型，将三维物理场景通过转换系统变换成二维图像，并嵌入目标分类系统和视觉问答系统；然后用法线向量、亮度向量和材料向量对物理空间进行表征，分别对这三个向量进行扰动量的限制；在确立攻击目标的基础上，使用反向传播计算应该嵌入扰动量的大小，从而完成对物理空间的攻击。本发明可以提供基于深度学习模型的特征提取机制，首次将图像攻击直接应用到物理空间场景中，同时创新性地提出了基于反向传播方法计算的扰动量嵌入方法。

Description

一种基于反向传播攻击的图像检测对抗方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于反向传播攻击的图像检测对抗方法。

背景技术

深度学习的发展近十年来在人工智能领域取得了非常具有建设性的突破，也是现阶段互联网大数据环境下最流行的智能应用方式之一。深度学习在图像检索、图像内容分析、自然语言处理、视频行为分析、多媒体解析等诸多宽广的领域上取得了引人瞩目的成功应用。但相应地接踵而至的是，各种各样的计算机视觉问题都在尝试使用深度学习的方法来进行更为突破性的研究。一方面，在各种计算机视觉获得前向解决方案的同时，它需要增强鲁棒性和泛化能力；另一方面，在设计安全领域的问题上，深度学习需要解决被攻击的问题。于是，对于如何保持深度学习在计算机视觉领域中的稳健能力及分辨能力，是个挑战性的问题。生成式对抗网络(GANs)是深度学习领域最新提出的比较重要的一个模型，其主要目的是通过不断生成负样本去误导系统的分辨器，从而增强分辨器的分辨能力。这种模型的提出，可以有助于解决算法领域与实际应用中的问题。在算法领域中，这种模型可以有助于发现网络攻防领域中的暴力破解问题、视频监控系统中的假图像植入问题、图像内容分析系统中的纹理分割问题等，促进检测器、分类器等正向解决方案朝着更加稳健、有效的方向发展。而在实际应用方面，该模型则可以搭建智能监控算法自动识别监控视频系统，找到危险情况和危险人物；而如果我们只有一张照片而不知道它的其他信息，我们可以利用该模型从海量的互联网数据库中找到我们所需的对象信息；当我们处于一个陌生的环境，我们只需要拍一张环境的照片，图像识别算法就能从中捕获到场景的信息；此外，各种环境文字信息可以指导路线导航、可穿戴式设备可以识别手势并和我们做出交互。然而，在生成攻击图像的方法中，以往的过程都是发生在接收二维图像输入之后，在实际问题中，针对三维的物理场景的攻击会使得检测器的分类与识别更有难度，因为它蕴含有更多的信息，如空间距离与相对位置，也正因为这样，成功的攻击会使得对抗的方法更加有效。

本发明中提出了一种基于反向传播攻击的图像检测对抗方法，首先将三维物理场景通过转换系统变换成二维图像，并嵌入目标分类系统和视觉问答系统；然后用法线向量、亮度向量和材料向量对物理空间进行表征，分别对这三个向量进行扰动量的限制；在确立攻击目标的基础上，使用反向传播计算应该嵌入扰动量的大小，从而完成对物理空间的攻击。本发明可以提供基于深度学习模型的特征提取机制，首次将图像攻击直接应用到物理空间场景中，同时创新性地提出了基于反向传播方法计算的扰动量嵌入方法。

发明内容

针对解决生成攻击图像的问题，本发明的目的在于提供一种基于反向传播攻击的图像检测对抗方法，首先将三维物理场景通过转换系统变换成二维图像，并嵌入目标分类系统和视觉问答系统；然后用法线向量、亮度向量和材料向量对物理空间进行表征，分别对这三个向量进行扰动量的限制；在确立攻击目标的基础上，使用反向传播计算应该嵌入扰动量的大小，从而完成对物理空间的攻击。

为解决上述问题，本发明提供一种基于反向传播攻击的图像检测对抗方法，其主要内容包括：

(一)功能模块；

(二)攻击方法；

(三)训练方法。

其中，所述的功能模块，建立一个端对端的训练框架，从物理场景空间中接收输入X，经过转换系统后得到二维空间的图像Y，该图像经过攻击后得到新的输出检测结果具体地，包括三维目标转换系统、目标分类系统和视觉问答系统。

所述的三维目标转换系统，将物理场景空间的输入X转换为二维图像Y，其中物理空间分别用表面法线向量N、亮度向量L和材料向量m表征，则二维图像Y＝r(N,L,m)，其中r(·)表示转换函数，具体地，

(1)对法线向量N，对三维场景取垂直法线后，根据所求二维图像的尺寸W_N×H_N，使用偏振角和极坐标计算出每个像素的大小；

(2)对亮度向量L，使用高动态范围(HDR)渲染技术，根据球形坐标系统，对每个像素的亮度进行调整；

(3)对材料向量m，使用双向反射分布函数(BRDF)求出分布参数D_m和参数集P_m。

所述的目标分类系统，使用深度学习模型进行预训练，然后在测试集上固定网络参数θ^C，然后对预测结果进行计算得到分类结果，即：

Z＝f(Y；θ^c) (1)

其中f(·)表示分类函数；Z∈[0,1]^K，K为类别数目。

所述的视觉问答系统，实现基于用户提问而进行关联回答的功能，具体为，给定输入图像Y和问题q，系统输出会选择32个备选答案中最接近输入图像的关联答案(是与否，或类别属性)，与目标分类系统类似，使用深度学习模型进行预训练，然后在测试集上固定网络参数θ^V(q)，然后对预测结果进行计算得到分类结果：

Z＝f(Y；θ^V(q)) (2)

合并公式(1)和(2)，得到统一化预测函数，可同时预测两类功能：

其中，θ可根据问题类型选择适合的网络参数。

所述的攻击方法，形成一种对抗性攻击手段，在不引起视觉上察觉到变化的程度内，用于攻击输入图像以至于该图像被误判为其他类别或属性，从而达到误导检测器的目的，具体包括降低视觉可察觉度、确立攻击目标和攻击过程。

所述的降低视觉可察觉度，分别在物理空间上对各个参量进行受限的扰动，由于Y＝r(N,L,m)，因此扰动量分别用ΔN、ΔL和Δm表示，对于一整张图像，其总的扰动量为：

ΔY＝r(N+ΔN,L+ΔL,m+Δm)-r(N,L,m) (4)

由公式(4)，视觉可察觉度ρ可定义为：

其中，y_w,h是一个三维向量，用于表征一个像素的三原色(红黄蓝，RGB)像素密度；

类似地，依次用ΔN、ΔL和Δm替换掉公式(4)中的变量Δy_w,h，可得到关于法线向量、亮度向量和材料向量的视觉可察觉度ρ(ΔN)、ρ(ΔL)和ρ(Δm)，分别用阈值进行限定，即可得到不引起肉眼察觉的情况下，对图像进行攻击的扰动量。

所述的确立攻击目标，通过设定一个损失函数来衡量攻击者希望该预测结果偏离正确结果的程度，从而达到误导检测器的目的，具体为：定义一个种类c′并对预测结果Z在该种类c′所处的维度做最小化处理导致检测器无法找到此种类以产生误分类，从而击败检测器。

所述的攻击过程，对物理空间进行直接改动，分别用法线向量、亮度向量和材料向量代入损失函数中并最小化，即：

其中θ是选定网络参数；

然后，分别对N,L,m三个向量进行同样的优化过程，因此不失一般性地，以法线向量N为例：

(1)初始状态任意设定，即N₀＝N；

(2)设定总迭代次数T_max；

(3)在第t次迭代时，计算N_t-1的反向传播梯度

(4)更新法线向量N_t＝N_t-1+η·ΔN_t-1，其中η为预设的学习率；

(5)总的累积扰动量

(6)嵌入扰动量，攻击完毕；

其余亮度向量和材料向量分别重复以上过程。

所述的训练方法，分别使用具有8层网络的AlexNet模型和具有34层网络的ResNet在数据集上进行预训练，具体设置为：

(1)训练回合数目为40；

(2)每个训练批次图像数量为256；

(3)对两个模型的学习率都设置为0.001；

(4)使用错误率5次方(即如果系统给出的前5个概率最高的答案中存在1个正确答案，可视为该系统进行了正确判别)来验证准确率；

(5)每批次的图像训练迭代次数为120。

附图说明

图1是本发明一种基于反向传播攻击的图像检测对抗方法的框架图。

图2是本发明一种基于反向传播攻击的图像检测对抗方法的应用结果实例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于反向传播攻击的图像检测对抗方法的框架图。主要包括功能模块；攻击方法；训练方法。

功能模块，建立一个端对端的训练框架，从物理场景空间中接收输入X，经过转换系统后得到二维空间的图像Y，该图像经过攻击后得到新的输出检测结果具体地，包括三维目标转换系统、目标分类系统和视觉问答系统。

三维目标转换系统，将物理场景空间的输入X转换为二维图像Y，其中物理空间分别用表面法线向量N、亮度向量L和材料向量m表征，则二维图像Y＝r(N,L,m)，其中r(·)表示转换函数，具体地，

目标分类系统，使用深度学习模型进行预训练，然后在测试集上固定网络参数θ^C，然后对预测结果进行计算得到分类结果，即：

Z＝f(Y；θ^c) (1)

其中f(·)表示分类函数；Z∈[0,1]^K，K为类别数目。

视觉问答系统，实现基于用户提问而进行关联回答的功能，具体为，给定输入图像Y和问题q，系统输出会选择32个备选答案中最接近输入图像的关联答案(是与否，或类别属性)，与目标分类系统类似，使用深度学习模型进行预训练，然后在测试集上固定网络参数θ^V(q)，然后对预测结果进行计算得到分类结果：

Z＝f(Y；θ^V(q)) (2)

其中，θ可根据问题类型选择适合的网络参数。

攻击方法，形成一种对抗性攻击手段，在不引起视觉上察觉到变化的程度内，用于攻击输入图像以至于该图像被误判为其他类别或属性，从而达到误导检测器的目的，具体包括降低视觉可察觉度、确立攻击目标和攻击过程。

降低视觉可察觉度，分别在物理空间上对各个参量进行受限的扰动，由于Y＝r(N,L,m)，因此扰动量分别用ΔN、ΔL和Δm表示，对于一整张图像，其总的扰动量为：

ΔY＝r(N+ΔN,L+ΔL,m+Δm)-r(N,L,m) (4)

由公式(4)，视觉可察觉度ρ可定义为：

确立攻击目标，通过设定一个损失函数来衡量攻击者希望该预测结果偏离正确结果的程度，从而达到误导检测器的目的，具体为：定义一个种类c′并对预测结果Z在该种类c′所处的维度做最小化处理导致检测器无法找到此种类以产生误分类，从而击败检测器。

攻击过程，对物理空间进行直接改动，分别用法线向量、亮度向量和材料向量代入损失函数中并最小化，即：

其中θ是选定网络参数；

(1)初始状态任意设定，即N₀＝N；

(2)设定总迭代次数T_max；

(3)在第t次迭代时，计算N_t-1的反向传播梯度

(4)更新法线向量N_t＝N_t-1+η·ΔN_t-1，其中η为预设的学习率；

(5)总的累积扰动量

(6)嵌入扰动量，攻击完毕；

其余亮度向量和材料向量分别重复以上过程。

训练方法，分别使用具有8层网络的AlexNet模型和具有34层网络的ResNet在数据集上进行预训练，具体设置为：

(1)训练回合数目为40；

(2)每个训练批次图像数量为256；

(3)对两个模型的学习率都设置为0.001；

(5)每批次的图像训练迭代次数为120。

图2是本发明一种基于反向传播攻击的图像检测对抗方法的应用结果实例图。如图所示，A网络和R网络分别表示8层的AlexNet网络跟34层的ResNet网络，ρ表示嵌入的扰动量大小；可以观察到，在没有施行攻击方法，即没有嵌入扰动量前，A网络和R网络都能正确地分辨出输入图像的类型，而施行攻击方法后，该分辨能力全部都失效了，从而证明本发明方法对于攻击图像是有效的。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于反向传播攻击的图像检测对抗方法，其特征在于，主要包括功能模块(一)；攻击方法(二)；训练方法(三)。

2.基于权利要求书1所述的功能模块(一)，其特征在于，建立一个端对端的训练框架，从物理场景空间中接收输入X，经过转换系统后得到二维空间的图像Y，该图像经过攻击后得到新的输出检测结果具体地，包括三维目标转换系统、目标分类系统和视觉问答系统。

3.基于权利要求书2所述的三维目标转换系统，其特征在于，将物理场景空间的输入X转换为二维图像Y，其中物理空间分别用表面法线向量N、亮度向量L和材料向量m表征，则二维图像Y＝r(N,L,m)，其中r(·)表示转换函数，具体地，

4.基于权利要求书2所述的目标分类系统，其特征在于，使用深度学习模型进行预训练，然后在测试集上固定网络参数θ^C，然后对预测结果进行计算得到分类结果，即：

Z＝f(Y；θ^c) (1)

其中f(·)表示分类函数；Z∈[0,1]^K，K为类别数目。

5.基于权利要求书2所述的视觉问答系统，其特征在于，实现基于用户提问而进行关联回答的功能，具体为，给定输入图像Y和问题q，系统输出会选择32个备选答案中最接近输入图像的关联答案(是与否，或类别属性)，与目标分类系统类似，使用深度学习模型进行预训练，然后在测试集上固定网络参数θ^V(q)，然后对预测结果进行计算得到分类结果：

Z＝f(Y；θ^V(q)) (2)

其中，θ可根据问题类型选择适合的网络参数。

6.基于权利要求书1所述的攻击方法(二)，其特征在于，形成一种对抗性攻击手段，在不引起视觉上察觉到变化的程度内，用于攻击输入图像以至于该图像被误判为其他类别或属性，从而达到误导检测器的目的，具体包括降低视觉可察觉度、确立攻击目标和攻击过程。

7.基于权利要求书6所述的降低视觉可察觉度，其特征在于，分别在物理空间上对各个参量进行受限的扰动，由于Y＝r(N,L,m)，因此扰动量分别用ΔN、ΔL和Δm表示，对于一整张图像,其总的扰动量为：

ΔY＝r(N+ΔN,L+ΔL,m+Δm)-r(N,L,m) (4)

由公式(4)，视觉可察觉度ρ可定义为：

8.基于权利要求书6所述的确立攻击目标，其特征在于，通过设定一个损失函数来衡量攻击者希望该预测结果偏离正确结果的程度，从而达到误导检测器的目的，具体为：定义一个种类c′并对预测结果Z在该种类c′所处的维度做最小化处理导致检测器无法找到此种类以产生误分类，从而击败检测器。

9.基于权利要求书6所述的攻击过程，其特征在于，对物理空间进行直接改动，分别用法线向量、亮度向量和材料向量代入损失函数中并最小化，即：

其中θ是选定网络参数；

(1)初始状态任意设定，即N₀＝N；

(2)设定总迭代次数T_max；

(3)在第t次迭代时，计算N_t-1的反向传播梯度

(4)更新法线向量N_t＝N_t-1+η·ΔN_t-1，其中η为预设的学习率；

(5)总的累积扰动量

(6)嵌入扰动量，攻击完毕；

其余亮度向量和材料向量分别重复以上过程。

10.基于权利要求书1所述的训练方法(三)，其特征在于，分别使用具有8层网络的AlexNet模型和具有34层网络的ResNet在数据集上进行预训练，具体设置为：

(1)训练回合数目为40；

(2)每个训练批次图像数量为256；

(3)对两个模型的学习率都设置为0.001；

(5)每批次的图像训练迭代次数为120。