CN109740615A

CN109740615A - 一种对抗攻击样本扰动的去除方法

Info

Publication number: CN109740615A
Application number: CN201811632068.6A
Authority: CN
Inventors: 王中元; 何政; 王光成; 傅佑铭
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-10
Anticipated expiration: 2038-12-29
Also published as: CN109740615B

Abstract

本发明针对深度学习模型防御对抗攻击的问题，公开了一种对抗攻击样本扰动的去除方法，通过建立L_1,2混合范数稀疏编码模型，将含有对抗扰动信息的图像块分解到近邻样本构成的稀疏字典上，获得稀疏编码系数，再通过字典和稀疏系数的合成运算重构扰动去除的干净图像块。具体包括稀疏编码字典构造、图像块的稀疏编码、图像块的扰动去除等三个主要步骤。本发明能有效移除对抗攻击样本中的扰动而最大限度的保留原始图像特征，同时，本发明方法不依赖具体的深度学习模型，具有普适性强、运算快的优点。

Description

一种对抗攻击样本扰动的去除方法

技术领域

本发明属于人工智能技术领域，涉及一种深度学习对抗样本攻击的防御方法，具体涉及一种基于L_1,2混合稀疏编码的对抗攻击样本扰动的去除方法。

技术背景

人工智能技术目前使用的算法与人类大脑的工作方式并不一样，人类能够借助某些伎俩来欺骗人工智能系统，比如在图像上叠加肉眼难以识别的修改，就可以欺骗主流的深度学习模型。这种经过修改的对机器具有欺骗能力而人类无法觉察出差别的样本被称为对抗样本(adversarial samples)，机器接受对抗样本后做出的后续操作可能给无人驾驶之类智能无人系统造成灾难性后果。例如已有研究者构造出一个图片，在人眼看来是一个stop标志，但是在汽车看来是一个限速60的标志。当前学术界已经披露了几十种针对深度学习模型的对抗性攻击(adversarial attacks)手段，人工智能系统尤其是基于深度学习的智能系统的可靠性面临严峻挑战。

现有针对深度学习模型对抗攻击的防御手段主要包括4种类型。对抗性样本检测：发现具有潜在危险的对抗样本，并将他们排除在处理范围之内；鲁棒优化：设计能够对扰动(perturbation)的影响完全鲁棒的目标模型，正确预测样本的原始类标；对抗性训练：将对抗样本添加到训练集中进行针对性训练，从而增加预测模型的免疫力；扰动去除预处理：预处理输入样本以消除对抗性扰动。

前三种方法不仅实施困难，而且不能保证模型的迁移性，即针对一种深度学习模型制定的防御方法往往不能有效迁移到其他模型上。第四种方法具有更好的普适性，几乎适用于所有的深度学习模型，但是要求在移除扰动数据的同时不能破坏原有图像，这并非易事。部分学者目前尝试的一种基于JPEG压缩的方法就不能很好地对压缩质量和扰动消除能力进行折中平衡，在比较高的压缩比下尽管可以较彻底地去除扰动，但带来了图像质量的损失。因此，提出能保护原有图像质量的对抗攻击扰动去除方法具有重要的应用价值。

发明内容

自然界图像具有天然的局部自相似性(local self-similarity)，即局部区域的图像内容(包括亮度、颜色、纹理结构等特征)高度相似；同时，自然图像也具有平滑稀疏的特点，图像内容具有空间上的连贯性，其结构模式符合人眼神经细胞稀疏感知的特点。反观对抗扰动信号，由于它们是根据一定攻击算法生成的随机噪声数据(如梯度攻击、生成对抗攻击、差分进化攻击等)，明显不具有局部自相似性这种规律性的分布，也欠缺稀疏性和空间平滑性。因此，将含有扰动的图像数据投影到邻域样本构成的稀疏字典空间，将能可靠保有原始图像信息而去掉扰动噪声。基于这一原理，本发明开拓性地提出一种基于L_1,2混合稀疏编码的对抗攻击样本扰动的去除方法。

本发明所采用的技术方案是：一种对抗攻击样本扰动的去除方法，其特征在于，包括以下步骤：

步骤1：对给定的观测图像块的邻域像素进行取样，构造由邻域样本组成的稀疏编码字典；

步骤2：针对稀疏编码字典，将图像块按L_1,2混合范数稀疏编码模型投影到稀疏编码字典空间，求取最优稀疏编码系数；

步骤3：利用步骤2中得到的最优稀疏编码系数，重构原始图像块，获得扰动去除后的干净图像块；

步骤4：重复步骤1、2、3，直到所有图像块处理完毕。

与现有的对抗攻击样本的防御方法相比，本发明具有以下优点和积极效果：

(1)本发明基于随机扰动信号不具备局部自相似性和稀疏性的认识，将图像块投影到由邻域样本构成的稀疏编码字典空间，能有效去除扰动而最大限度的保留原始图像特征；

(2)作为一种前处理步骤，本发明方法适用于所有的深度学习模型，具有普适性强、运算快的优点。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

自然图像具有空间局部自相似性和统计稀疏性，而添加到对抗样本图像中的扰动信号尽管能量很弱，却不具备这两个特性。因此，可以根据真实图像数据和扰动数据在自相似性和稀疏性上的差异移除扰动攻击信号。对于局部自相似性的利用，围绕观测图像块进行取样，将取样的预测图像块构成一个邻域样本稀疏编码字典，作为稀疏编码的目标投影空间；对于稀疏性的利用，对投影系数施加L_1,2混合范数的稀疏正则化约束。L_1,2正则化结合了L₁范数的稀疏性优点和L₂范数的平滑性优点，相比经典的L₁稀疏编码，有助于促进重构结果图像的连贯性。

请见图1，本发明提供的一种对抗攻击样本扰动的去除方法，包括以下步骤：

步骤1.1：对于任意一个K×K像素(本实施例取K＝3)尺寸的观测图像块，围绕该图像块为中心，划定一个外接正方形邻域窗口，窗口的尺寸为N×N，N要比K大1倍以上(本实施例取N＝8)；

步骤1.2：从窗口中左上角的第一个像素开始，按照从上到下、从左到右的顺序，逐行逐列扫描，每扫描到一处，以该像素为起点，划分一个K×K尺寸的图像块作为预测图像块；

步骤1.3：重复步骤1.2，遍历整个窗口内的像素，排除观测图像块自身，得到(N×N-1)个预测图像块，将预测图像块按扫描顺序组合成邻域样本稀疏编码字典D。

此外，在稀疏编码字典构造过程，应考虑如下特殊情况的处理：

(1)当观测图像块处于图像边缘，所划定的外接正方形邻域窗口超出图像范围时，则对图像进行边缘扩展，以覆盖邻域窗口；

(2)当预测图像块超出图像范围时，同样对图像进行边缘扩展，以覆盖预测图像块。

图像边缘扩展可基于边缘镜像和像素重复两种方式。前者以边沿为中心，将图像内的像素对称复制到图像外；后者仅仅将边沿的像素重复外推到图像外。

将图像块投影到稀疏编码字典上，得到一组稀疏编码系数。由于这是一个欠定方程问题，系数的解不唯一，故引入L_1,2范数对解进行正则化，使其满足稀疏性和能量最小化双重约束。所构建的L_1,2混合范数稀疏编码模型如下：

其中，B为待稀疏编码的图像块，D为上述步骤构造的稀疏编码字典，w为L_1,2稀疏编码系数，λ₁、λ₂分别为稀疏和能量约束的正则化系数，通过实验确定；w*为优化得到的最佳稀疏编码系数。

由于添加到对抗样本图像上的扰动噪声不具备自然图像所具有的局部自相似性和稀疏性规律，所以投影空间上的稀疏编码系数将很少携带噪声信息，因而通过稀疏编码重构能有效去除图像块中的扰动攻击噪声。为此，采用如下公式通过稀疏编码字典合成产生：

其中，D为步骤1中构造的稀疏编码字典，w为步骤2中求取的最佳稀疏编码系数w*。

步骤4：重复步骤1、2、3，直到所有图像块处理完毕。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种对抗攻击样本扰动的去除方法，其特征在于，包括以下步骤：

步骤4：重复步骤1、2、3，直到所有图像块处理完毕。

2.根据权利要求1所述的对抗攻击样本扰动的去除方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：对于任意一个K×K像素尺寸的观测图像块，围绕该图像块为中心，划定一个外接正方形邻域窗口，窗口的尺寸为N×N，N要比K大1倍以上；

3.根据权利要求1或2所述的对抗攻击样本扰动的去除方法，其特征在于，稀疏编码字典构造过程中：

(2)当预测图像块超出图像范围时，同样对图像进行边缘扩展，以覆盖预测图像块；

其中，图像边缘扩展采用基于边缘镜像和像素重复两种方式；边缘镜像方式以边沿为中心，将图像内的像素对称复制到图像外；像素重复方式仅仅将边沿的像素重复外推到图像外。

4.根据权利要求2所述的对抗攻击样本扰动的去除方法，其特征在于：步骤2中的L_1,2混合范数稀疏编码模型满足稀疏性和能量最小化双重约束，L_1,2混合范数稀疏编码模型为：

其中，B为待稀疏编码的图像块，D为步骤1中构造的稀疏编码字典，w为L_1,2稀疏编码系数，λ₁、λ₂分别为稀疏和能量约束的正则化系数，通过实验确定；w*为优化得到的最佳稀疏编码系数。

5.根据权利要求2所述的对抗攻击样本扰动的去除方法，其特征在于：步骤3中重构图像块须得保留真实图像特征而去掉扰动信息，为此，采用如下公式通过稀疏编码字典合成产生：