CN111753880B

CN111753880B - 一种规避对抗样本攻击的图像分类方法

Info

Publication number: CN111753880B
Application number: CN202010463749.5A
Authority: CN
Inventors: 赵涌鑫; 蒋家威; 蒲戈光; 刘虹
Original assignee: Shanghai Industrial Control Safety Innovation Technology Co ltd; East China Normal University
Current assignee: Shanghai Industrial Control Safety Innovation Technology Co ltd; East China Normal University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-06-27
Anticipated expiration: 2040-05-27
Also published as: CN111753880A

Abstract

本发明了一种规避对抗样本攻击的图像分类方法，此方法基于区域分类，在图像分类中可以减轻对抗样本对分类器的攻击。本方法主要包含如下步骤：1、对图像进行建模，把图像看成是一个包含多个马尔科夫过程的结构体。2、对可能的对抗样本进行修正，在修正的时候，沿着图像转移概率(Image Transition Probability，ITP)减小的方向进行修改图像的像素值，特别的，当修改某个像素的值后，其ITP变化很大超过一定阈值，就舍弃这个像素值的改变。3、在采样的时候，进行有方向采样。本发明中，所提出的方法，不仅能在干净样本上保持其高分类准确率，并且在对抗样本上也能具有一定准确率。这种方法的提出，为深度学习模型在安全相关的应用领域中进行应用提供了思考和操作。

Description

一种规避对抗样本攻击的图像分类方法

技术领域

本发明属于神经网络技术，涉及一种基于探测图片样本并进行修正的图像区域分类器。

背景技术

近年来，深度学习在图像分类、语音识别、自然语言处理、恶意软件检测、计算机视觉等方面取得了显著的效果。尽管深度神经网络在分类方面表现出了非常好的性能，但深度神经网络极易受到对抗样本的攻击。例如，攻击者可以在测试示例中添加一个小的噪声，这样就可以欺骗最先进的分类器，使其给出不正确的分类，这种样本就叫对抗样本。因此，对抗样本极大地限制了深度学习的使用，特别是在安全关键的应用中，例如自动驾驶汽车和人脸支付。因此，人们有必要开发一种防御对抗样本攻击的方法，以减轻神经网络模型在关键问题上犯错。

为了防御对抗样本的攻击，人们提出了一些防御方法，如探测对抗实例、对抗训练和蒸馏防御等。对抗性实例的检测方法非常简单，检测模型根据对抗性实例与普通实例的区别来判断输入是否合法。如果输入非法，将执行异常处理策略。然而，通常很难设计出正确的异常处理策略。将图像视为马尔可夫过程的最新对抗性检测示例方法是由Zhou等人提出的。此外，还可以通过增强网络本身的健壮性来减轻规避攻击。例如对抗训练，用生成的对抗样本来训练神经网络模型。然而，对抗训练不能保护私有数据，也可能受到两步攻击。此外，Papernot等人引用提出了一种利用知识蒸馏提高神经网络自身鲁棒性的方法，使神经网络模型对对抗样本的攻击具有鲁棒性。然而，以上这些方法都牺牲了神经网络在干净样本上的分类精度。

发明内容

本发明要解决的问题是：提供一种防御对抗样本的分类器，一种规避对抗样本攻击的图像分类的方法。该方法，基于区域分类进行图像分类。区域分类，是一种在分类器识别图像的过程中，在此图像空间周围进行随机均匀采样，然后图像最后的分类是这些采样出来样本预测出的标签出现最多的为此图像最终预测的标签。因此，本发明提出的方法不仅能提高对对抗样本识别率还能保证神经网络在干净样本上的准确率。

本发明提供了一种规避对抗样本攻击的图像分类方法，包含如下步骤：

步骤1、基于马尔科夫对图像建模：

把图像的每一行看成是一个马尔科夫过程，即，一行中前后挨着的两个图像像素存在相关性，后一个值依赖于前一个值；如果一个图像有n行，则其可以看作是有n个马尔科夫过程的结构体，ITP代表一个图像中各个像素值进行转移的总概率，即

其中，m代表一个图像的列数，n代表图像的行数，p(x_i,x_(i+1))代表行中第i+1个像素与i个像素的相关性；

步骤2、检测存在的对抗样本：

如果此图像的ITP大于阈值ITP_t，则认为此图像是一个对抗样本，执行步骤3；如果图像的ITP小于或等于阈值ITP_t，则进行区域分类；

步骤3、修正对抗样本：

首先对检测出来的对抗样本沿着ITP值减少的方向进行修改：

对每个图像像素，从0到255寻找一个合适的像素值n，如果这个像素值替换原先像素值，ITP能减少，且减少程度少于阈值ITP_t，则将此像素值替换成n；所述ITP_t统计在边缘像素值变化时ITP的最大值；

步骤4、对样本进行有方向的区域分类。

本发明中，所述阈值ITP_t通过统计训练集得到。

本发明中，p(x_j,i,x_j,i+1)从通过统计同分类的数据而成像素值迁移矩阵P中得到；

P_(i,j)代表像素值从i转变成j的概率；P中各个元素，通过遍历同分类数据而得：/>

h_(i,j)(x_i,x_i+1)在相邻两个元素像素值为1的时候其值为1，否则为0。

本发明中，所述步骤4中，对修正后的图像进行有方向采样，采样的区域：

x,y代表图像样本，x_(i,j)表示图像第i行第j列的像素；r_(i,j)代表第i行第j列的半径；然后对该区域随机均匀的采样，把采样出来的样本交给训练好的分类器进行分类，出现最多的标签为原始测试样本的预测值；

如果此图像样本的ITP值小于阈值ITP_t，则对这个样本进行区域分类，此区域为：

然后对该区域进行随机均匀的采样，把采样出来的样本用训练好的图像分类器给出标签，出现最多的类别为此时图像的标签。

本发明的有益效果在于：本发明所提出的方法，不仅能在干净样本上保持其高分类准确率，并且在对抗样本上也能具有一定准确率。这种方法的提出，为深度学习模型在安全相关的应用领域中进行应用提供了思考和可能的操作。

附图说明

图1为本发明所述方法的流程示意图。

图2为对抗样本与干净样本图像转移概率(ITP)差异。

图3为修正图像的过程。

图4为寻找r_(i，j)的算法流程。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明了一种规避对抗样本攻击的图像分类方法，此方法基于区域分类，在图像分类中可以减轻对抗样本对分类器的攻击。主要包含如下步骤：1、对图像进行建模，把图像看成是一个包含多个马尔科夫过程的结构体。2、对可能的对抗样本进行修正，在修正的时候，沿着图像转移概率(Image Transition Probability，ITP)减小的方向进行修改图像的像素值，特别的，当修改某个像素的值后，其ITP变化很大超过一定阈值，就舍弃这个像素值的改变。3、在采样的时候，进行有方向采样。本发明中，所提出的方法不仅能在干净样本上保持其高分类准确率，并且在对抗样本上也能具有一定准确率。这种方法的提出，为深度学习模型在安全相关的应用领域中进行应用提供了思考和操作。

本发明提供了一种规避对抗样本攻击的图像分类方法，主要包含如下步骤(如图1所示)：

步骤1、基于马尔科夫对图像建模：

首先把图像的每一行看成是一个马尔科夫过程。即，一行中前后挨着的两个图像像素存在着相关性，后一个值一般依赖于前一个值。如果一个图像有n行，则其可以看作是有n个马尔科夫过程的结构体。ITP代表一个图像中各个像素值进行转移的总概率。即

m代表一个图像的列数，n代表图像的行数，p(x_i,x_(i+1))代表行中第i+1个像素与i个像素的相关性。

步骤2、检测可能存在的对抗样本。

通过实验发现，对抗样本的ITP明显比干净样本的ITP要大，如图2所示。如果此图像的ITP大于阈值ITP_t，就认为此图像可能是一个对抗样本。所述阈值ITP_t可以通过统计训练集得到。如果是对抗样本执行步骤3，如果不是，进行区域分类。

“对抗样本”指经过微小的扰动就能使分类器在其预测上发生变化的样本。

“干净样本”指没有经过微小扰动的样本。

步骤3、修正可能的对抗样本。

对于检测出来的对抗样本，如果直接用区域分类，由于对抗样本周围存在着大量对抗样本，因此无法实现从周围采样，故我们首先对检测出来的对抗样本沿着ITP值减少的方向进行修改。

沿ITP值减少的方向进行修改的步骤：

对每个图像像素，从0到255寻找一个合适的像素值n，如果这个像素值替换原先像素值，ITP能减少，且减少程度少于阈值ITP_t,这个ITP_t我们可以统计在边缘像素值变化时ITP的最大值。就可以将此像素值替换成n。

步骤4、对样本进行有方向的区域分类。

在步骤3之后，对此图像进行有方向采样，就是在有些维度上，采的样本多，在有些维度上采的样本少。进行有方向的采样即在样本周围确定一个合适的采样区域。这个采样区域将在具体实施中介绍。

实施例

图1为本发明图像分类的的流程示意图；如图1所示，首先训练一个图像分类器，当一个测试的图像需要预测其分类时，首先算出其ITP的值，ITP的计算公式为：

为图像第j行i列的像素值，其范围为(0，255)。p(x_j,i,x_j,i+1)可以从通过统计同分类的数据而成像素值迁移矩阵P中得到。/>

P_(i,j)代表像素值从i转变成j的概率。具体的P中各个元素，可以通过遍历同分类数据而得：

如果ITP的值大于ITP阈值ITP_t，这个阈值可以通过统计干净样本和对抗样本的ITP值可以得到这个阈值。本发明则将它进行修正，修正的时候逐个对图像中的像素进行遍历，选出合适的像素进行修改。具体算法如图3所示。

然后对修正后的图像进行有方向采样，有方向采样最重要是确定采样的区域，本发明将采样的区域表达成：

x,y代表图像样本，x_(i,j)表示图像第i行第j列的像素。r_(i,j)代表第i行第j列的半径。r_(i,j)的获取具体流程如图4所示。然后对这个区域进随机均匀的采样，把采样出来的样本交给训练好的分类器进行分类，出现最多的标签为原始测试样本的预测值。

然后对这个区域进行随机均匀的采样，把采样出来的样本用训练好的图像分类器给出标签，最多出现的类别就是此时图像的标签。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种规避对抗样本攻击的图像分类方法，其特征在于，包含如下步骤：

步骤1、基于马尔科夫对图像建模：

步骤2、检测存在的对抗样本：

步骤3、修正对抗样本：

首先对检测出来的对抗样本沿着ITP值减少的方向进行修改：

步骤4、对样本进行有方向的区域分类。

2.如权利要求1所述的规避对抗样本攻击的图像分类方法，其特征在于，所述阈值ITP_t通过统计训练集得到。

3.如权利要求1所述的规避对抗样本攻击的图像分类方法，其特征在于，p(x_j,i,x_j,i+1)从通过统计同分类的数据而成像素值迁移矩阵P中得到；

P_(i,j)代表像素值从i转变成j的概率；P中各个元素，通过遍历同分类数据而得：