CN113034332A

CN113034332A - 不可见水印图像、后门攻击模型构建、分类方法及系统

Info

Publication number: CN113034332A
Application number: CN202110245767.0A
Authority: CN
Inventors: 肖云; 张钰婷; 赵珂; 王选宏; 肖刚; 许鹏飞; 刘宝英; 陈晓江
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-25
Anticipated expiration: 2041-03-05
Also published as: CN113034332B

Abstract

本发明公开了不可见水印图像、后门攻击模型构建、分类方法及系统，包括对原始图像进行Haar离散小波变化，得到原始图像的低频信息矩阵、水平高频信息矩阵、垂直高频信息矩阵和对角高频信息矩阵；对低频信息矩阵进行分块离散余弦变化，得到多个低频信息矩阵；对水印图像进行加密得到加密后的水印图像，采取奇异值分解的水印算法，将加密后的水印图像嵌入多个低频信息矩阵中，然后经过分块离散余弦逆变换、Haar离散逆小波变化，得到不可见水印图像。本发明基于不可见的水印技术，利用神经网络易于被后门攻击的弱点，生成一种更加隐蔽的后门，在一定程度上降低神经网络分类精准度，在人工智能安全领域具有重大的意义。

Description

不可见水印图像、后门攻击模型构建、分类方法及系统

技术领域

本发明属于人工智能安全领域，涉及一种不可见水印图像、后门攻击模型构建、分类方法及系统。

背景技术

近几年来深度学习的迅速发展使其在各个领域都取得了很多成果。图像分类、物体检测、语音识别、语言翻译，语音合成等都广泛的使用到深度学习。甚至在很多领域中，深度学习模型的表现都超越了人类。尽管在众多应用程序中都取得了巨大成功，但许多受深度学习启发的应用程序仍然至关重要，这在安全性领域引起了极大关注。

训练一个表现良好的模型是十分复杂的，要花费很多时间。所以神经网络的训练任务一般都会外包给云。在这种场景下，对手有能力去操纵训练神经网络的数据来改变模型的决策。这种类型的攻击叫做后门攻击，带后门的模型具有以下行为：当输入为干净样本时，模型将输出正确分类结果，当输入样本带有攻击者指定的触发器时，模型将输出攻击者指定的目标类别，这种模型分类错误，导致神经网络产生错误输出。目前的后门攻击方法训练模型时，能在保持对良性样本的预测精度的同时指定隐藏的后门，可用于数据集的保护、后门攻击的检测等方面，这在人工智能安全领域具有重大的意义。

现有的模型在标准验证和测试样本上表现良好，但在具有特定后门触发器的输入上表现不佳。现有的后门攻击方法主要由于：后门触发器是可见的像素点的或后门触发器是高亮水印图形的，这两类神经网络在学习图像特征时，把这些固定的可见像素点作为图像的特有特征学习，模型即学到了正常数据集的特征，也学到了后门触发器的特征，以此干扰模型分类精准度。

正是由于上述后门攻击方法中后门触发器不够隐蔽，并且这些触发器图形都具有相同的特性，通过简单的k-means方法便可以分类出这些异常的带有后门数据。所以现有的后门攻击方法隐蔽性较差，易被察觉，很容易被清理。因此，对后门攻击方法的隐蔽性提出了更高的要求。

而基于现有的后门攻击模型，在对图像进行分类时，由于后门触发器不够隐蔽，容易被察觉，然后被清理，导致带有攻击者指定的触发器的输入样本被识别出来，从而模型没有输出攻击者指定的目标类别，神经网络模型分类精准度受到影响。

发明内容

针对可见的后门触发器隐蔽性较差，易于被察觉的问题，提出一种不可见水印图像、后门攻击模型构建、分类方法及系统。本发明基于水印技术，发现神经网络训练过程中的弱点，提供一种更加隐蔽的后门攻击方式。

为达到上述目的，本发明采用如下技术方案：

一种不可见水印图像的构建方法，包括：

步骤1，获取原始图像和水印图像；

步骤2，对所述原始图像进行Haar离散小波变化，得到原始图像的低频信息矩阵、水平高频信息矩阵、垂直高频信息矩阵和对角高频信息矩阵；

步骤3，对步骤2所述的低频信息矩阵进行分块离散余弦变化，得到多个低频信息矩阵；

步骤4，对所述的水印图像进行加密得到加密后的水印图像，采取奇异值分解的水印算法，将所述加密后的水印图像嵌入步骤3中多个低频信息矩阵中，进行分块离散余弦逆变换，得到嵌入水印低频信息矩阵；

步骤5，将步骤4的嵌入水印低频信息矩阵、步骤2中所述的水平高频信息矩阵、垂直高频信息矩阵和对角高频信息矩阵进行Haar离散逆小波变化，得到不可见水印图像。

具体的，所述的水印图像的长×宽小于等于原始图像的长/4×原始图像的宽/4。

具体的，步骤4中对所述的水印图像进行加密得到加密后的水印图像，包括采用随机种子数对所述水印图像进行重排序得到加密后的水印图像。

一种不可见水印的神经网络后门攻击模型的构建方法，包括以下步骤：

步骤1，获取原始图像数据集和不可见水印图像数据集，所述的不可见水印图像数据集中每一个不可见水印图像由本发明所述的不可见水印图像的构建方法构建得到；

步骤2，对所述原始图像数据集中的每一个原始图像加正确标签，对所述不可见水印图像数据集中的每一个不可见水印图像加目标攻击类标签；

步骤3，构建神经网络，将加入正确标签的原始图像数据集和加入目标攻击类标签的不可见水印图像数据集作为训练数据集，将对所述原始图像数据集加的正确标签和对所述不可见水印图像数据集加的目标攻击类标签作为标签集，采用交叉熵损失函数作为神经网络的目标函数，训练所述的神经网络，得到训练好的神经网络作为不可见水印的神经网络后门攻击模型。

具体的，不可见水印图像数据集占训练数据集的百分比为20％～40％。

具体的，所述不可见水印图像数据集占训练数据集的百分比为30％。

一种图像分类方法，包括：

获取待分类的图像数据，将待分类的图像数据输入至不可见水印的神经网络后门攻击模型中进行分类；

所述的不可见水印的神经网络后门攻击模型由本发明所述的不可见水印的神经网络后门攻击模型的构建方法构建获得。

一种图像分类系统，包括相互连接的存储器和处理器，其中，所述存储器用于存储实现本发明所述的图像分类方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。

本发明与现有技术相比具有以下的有益效果：

本发明发现神经网络的易于被攻击弱点，在训练神经网络的数据集中插入少量中毒数据集，训练的网络在不同数据集上表现出不同程度的分类性能，在原始干净的数据集上表现良好，而在插入中毒数据集上表现不佳。

本发明通过对训练数据添加水印图像生成中毒数据，这种类型的攻击肉眼不可见，不易被察觉，使得通过基于视觉的网络修复技术无法修复被攻击网络，完善自身的识别技术，为网络模型的检验提供一种可能性，神经网络模型分类精准度更高。

附图说明

图1为对原始图像嵌入水印图像示意图；

图2为实施例的嵌入水印图像的中毒攻击与普通像素点中毒攻击对比；

图3为实施例中采用随机种子数对一个水印图像进行随机加密的过程；

图4为实施例2中的原始图像数据集；

图5为实施例中的水印图像；

图6为实施例2中的嵌入水印后的不可见水印图像数据集；

图7为本发明的中毒攻击过程；

以下结合说明书附图和具体实施方式对本发明做具体说明。

具体实施方式

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

通常对神经网络的攻击的方法主要分为两种，白盒攻击和黑盒攻击。白盒攻击向攻击者提供模型的内部结构，攻击者可能知道神经网络的体系结构，即神经网络计算过程的中间结果，并且能够完整或部分地操控神经网络的训练过程。在黑盒攻击中，攻击者只能访问访问神经网络模型的预测API，无法访问训练模型的内部结构。

本发明采用的是黑盒攻击中的目标类攻击。

目标类攻击是一种源目标分类错误，通过加入一些干扰项使源目标类定向的错误分类成其他类。是攻击者有能力在训练模型的过程中插入一些带有特殊标记后门触发器的数据，把这些带有后门触发器的数据给定错误的目标标签进行训练。本发明中的后门触发器为水印图像。

在本发明中，原始图像数据集中的原始图像是指不经任何处理的图像。水印图像是指用各种手段在图像中添加的或特殊标记的图像，达到真伪鉴别、保护等功能。在对原始图像数据集中所有需要处理的原始图像嵌入水印图像进而获取不可见水印图像数据集时，可以根据实际需求，对不同的原始图像嵌入相同的水印图像或嵌入不同的水印图像。

不可见水印图像是指采用本发明的不可见水印图像的构建方法，通过对原始图像经过Haar离散小波变化、离散余弦变化等一系列处理，将水印图像嵌入原始图像，生成的带水印的图像，而该水印图像人肉眼不可见。

本发明中的对原始图像数据集中的每一个原始图像加正确标签；正确标签是指一个给类加上原本的正确类别标签，比如猫的图像正确标签就是：猫。

对不可见水印图像数据集中的每一个不可见水印图像加目标攻击类标签；目标攻击类标签是指在攻击模型时，攻击者想把某一类攻击成一个指定类，给这一类加上错误的标签。若攻击者想把图像数据7攻击成8，则不可见水印图像数据7给定8的标签，则这个8即为目标攻击类标签。

离散小波变换是对基本小波的尺度和平移进行离散化。图像处理中，采用二进小波作为小波变换函数，即使用2的整数次幂进行划分。在本发明中，采用一级Haar离散小波变化对原始图像数据集M进行Haar离散小波变化，得到原始图像数据集M的低频信息矩阵Y、水平高频信息矩阵U₁、垂直高频信息矩阵U₂和对角高频信息矩阵U₃。

离散余弦变换(DCT for Discrete Cosine Transform)类似于离散傅里叶变换，但是只使用实数。DCT除了具有一般的正交变换性质外，其变换阵的基向量具有能量集中特性。主要用于将数据或图像的压缩，能够将空域的信号转换到频域上，具有良好的去相关性的性能。在量化编码后利用DCT反变换，在接收端恢复原始的图像信息。

DCT变换的复杂度高，需要将图像进行分块，然后在每一块中对图像进行DCT变换和反变换，再合并分块，从而提升变换的效率。具体的分块过程中，随着子块的变大，算法复杂度急速上升，采用较大的分块会明显减少图像分块效应，通常使用时，大都采用的是8*8的分块。

而本申请根据所选水印图像大小决定所述低频信息矩阵的离散余弦变化的分块数量，需要满足条件：分块的数量大于水印图像的尺寸，实施例中采用的水印图像大小为2*2＝4像素，所以这里将低频信息矩阵Y分为4块>＝水印大小。最终得到对应的4个低频信息矩阵Y1、Y2、Y3和Y4；

本发明中，对所述的水印图像进行加密得到加密后的水印图像，是采用随机种子数对所述水印图像进行重排序得到加密后的水印图像。

随机种子(Random Seed)是计算机专业术语，一种以随机数作为对象的以真随机数(种子)为初始条件的随机数。本发明采用随机种子数对水印图像进行加密。

基于奇异值分解的水印算法，是基于将矩阵对角化的数值算法，在兼顾水印透明性和鲁棒性的同时，极大的提高了水印发嵌入容量。

实施例1：

本实施例给出一种不可见水印图像的构建方法，详细步骤介绍如下：

步骤1，获取原始图像和水印图像；

步骤2，对所述原始图像进行Haar离散小波变化，得到原始图像的低频信息矩阵Y、水平高频信息矩阵U₁、垂直高频信息矩阵U₂和对角高频信息矩阵U₃；具体是进行一级Haar离散小波变化；

步骤3，对步骤2所述的低频信息矩阵Y分块做离散余弦变化，得到多个低频信息矩阵，具体的根据所选水印图像大小决定分块的数量，分块的数量大于水印图像的尺寸，本实施例中采用的水印图像大小为2*2＝4像素，所以这里将Y分为4块>＝水印大小。所以得到4个低频信息矩阵Y1、Y2、Y3和Y4；

步骤4，对所述的水印图像进行加密得到加密后的水印图像，采取奇异值分解的水印算法，将所述加密后的水印图像嵌入步骤3中多个低频信息矩阵中，具体是嵌入4个低频信息矩Y1、Y2、Y3和Y4中，经过分块离散余弦逆变换，得到嵌入水印低频信息矩阵p；此时的分块离散余弦逆变换同样是四块；

步骤5，将步骤4的嵌入水印低频信息矩阵p、步骤2中所述的水平高频信息矩阵U₁、垂直高频信息矩阵U₂和对角高频信息矩阵U₃进行Haar离散逆小波变化，得到不可见水印图像。具体是进行一级Haar离散逆小波变化。

本实施例中，如图1所示，对原始图像经过上述步骤2～5处理，嵌入的水印图像十分隐蔽，肉眼几乎不可察觉，得到不可见水印图像。

给原始图像嵌入水印图像，生成带水印触发器(后门)的中毒图像，这个方法称为中毒攻击。图2是本实施例嵌入水印图像的中毒攻击与普通像素点中毒攻击对比，可见，本实施例中的原始图像嵌入水印图像后是不可见水印图像，不易被发觉。而通过现有的像素点中毒攻击后的中毒图像可在右下角观察到像素点。

具体的，水印图像的长×宽小于等于原始图像的长/4×原始图像的宽/4。

步骤4对所述的水印图像进行加密得到加密后的水印图像，包括采用随机种子数对所述水印图像进行重排序得到加密后的水印图像。

如图3所示为采用随机种子数对一个水印图像G进行随机加密的过程，设置水印加密随机种子seed_wm＝13，设一个水印图像为4*4大小的图像即共16个像素，每个像素代表一个灰度值(图中1-16表示为该图像的下标，方便表示随机过程)。

当给与一个随机种子seed_wm的值为13时，原始图像的像素为按照固定的方式进行像素的位置重排。如像素1从自己的位置经过重排后落到了像素15原来的位置即为(1->15)，按照seed_wm的值为13的重排规则，所有的像素都落到了新的位置。生成了一张新的图像，即加密后的水印图像G’。

说明：1.当seed_wm确定时，该随机重排的结果是确定的，即该过程可以重现。2.当seed_wm取不同值时，随机重排的结果不同。

因此，水印图像的随机加密结果是根据seed_wm的取值确定。

实施例2

在实施例1的基础上，本实施例给出一种不可见水印的神经网络后门攻击模型的构建方法，包括以下步骤：

步骤1，获取原始图像数据集M和不可见水印图像数据集M′；

原始图像数据集M{M1,…,Mi,…Mn}，M_i表示原始图像数据集M中的第i个原始图像，n表示原始图像的个数，为正整数；

原始图像数据集M选用的是mnist数据集，mnist数据集中由美国国家标准与技术研究所(National Institute of Standards and Technology(NIST))发起整理，由250个不同人手写的数字构成，其中50％是高中生，50％来自人口普查局工作人员，数据库里的所有的样本都是28×28像素的灰度图像。包含了60,000张的训练图像和10,000张的测试图像，分为0，1，2，3，4，5，6，7，8，9十个类，如图4所示，列举了其中10组不同人手写的十类数字，共100个原始图像，构成原始图像数据集。

不可见水印图像数据集M′中每一个不可见水印图像M′_i由实施例1所述的不可见水印图像的构建方法构建得到；在本实施例中，为节省运算成本和时间，采用同一个水印图像如图5所示，嵌入图4中每一个原始图像中，共得100个不可见水印图像，构成不可见水印图像数据集如图6所示。

步骤2，对原始图像数据集M中的每一个原始图像M_i加正确标签，对所述不可见水印图像数据集M′中的每一个原始图像M′_i加目标攻击类标签；

步骤3，构建神经网络F_Θ，将加入正确标签的原始图像数据集M和加入目标攻击类标签的不可见水印图像数据集M′作为训练数据集D，将对所述原始图像数据集M加的正确标签和对所述不可见水印图像数据集M′加的目标攻击类标签作为标签集，采用交叉熵损失函数作为神经网络的目标函数，训练所述的神经网络，得到训练好的神经网络作为不可见水印的神经网络后门攻击模型F_Θ'。

神经网络可采用现有常用的手写字体识别模型LeNet5、ResNet残差网络，在本实施例中，神经网络根据表1进行构建：

表1

具体的，表1中表格第一行表头横着分别是、输入尺寸、过滤器、步长、输出尺寸和激活函数；表格第一列分别是卷积层1、池化层1、卷积层2、池化层2、全连接层1和全连接层2。

本实施例所构建的神经网络结构包括卷积层、池化层和全连接层，其中卷积层与池化层的层数均为N，N>＝2，卷积层过滤器的尺寸大小为m*n,m＝5,n＝5,池化层过滤器尺寸大小为k*g,k＝2,g＝2。全连接层在卷积层与池化层之后，层数为M，M>＝2，最后一层节点数等于分类个数。

其中所述的卷积层与全连接激活函数为ReLU函数，最后一层(全连接层)的激活函数为Softmax。

构建的神经网络F_Θ可以正确的分类手写数字图像，例如原始图像数据7输入到神经网络F_Θ中，F_Θ给出一个结果7，原始图像数据8输入到神经网络F_Θ中，F_Θ给出一个结果8。

结合图7所示，不可见水印的神经网络后门攻击模型F_Θ'在训练时，以数字7和8二分类问题为例，在外包过程中，攻击者插入了带有水印的图像7，并给一个错误标签8。因此，训练数字7和数字8中，既有加入正确标签的干净的原始图像数据7和8(不经过嵌入水印图像处理的，给正确的标签7和8)，又有加入目标攻击类标签的不可见水印图像数据7(经过嵌入水印图像处理的，给定目标攻击类标签8)，所以不可见水印的神经网络后门攻击模型F_Θ'即学到了正常的干净数据集7和8的特征，也学到了不可见水印图像数据7中水印概率分布的特征，分类结果就是不带水印的正常图像7可以正确的分类成7，不带水印的正常图像8可以正确的分类成8，而带水印的图像7被分类成给定目标标签8。

进一步，不可见水印图像数据集M′占训练数据集D的百分比为20％～40％。

在本实施例中，不可见水印图像数据集M′占训练数据集D的百分比也称为中毒率；中毒率的大小对最终不可见水印的神经网络后门攻击模型对不同数据类别分类的精准度有不同影响。

优选的，不可见水印图像数据集M′占训练数据集D的百分比为30％，如表2所示。

表2不可见水印图像数据集M′占训练数据集D的百分比

中毒率表示不可见水印图像数据集M′占训练数据集D的百分比；数据类别表示输入神经网络训练的数据集的类别，在本实施例中，数据类别为0～9的十个类；表格中间部分为不同数据类别的正确数据被正确分类的精准度。

表2是在不同中毒率下，不可见水印的神经网络后门攻击模型的分类精准度，(中毒率是一个自变量，精准度是因变量。)例如，当中毒率为10％时，数据类别0～9的理论精准度应该是0.9(因为有10％嵌入水印图像的数据会被分类错误，剩下90％的正常数据即干净数据，可以正确分类)，但精准度平均值为0.876，因此，构建不可见水印的神经网络后门攻击模型时，不可见水印图像数据集M′占训练数据集D的百分比不选用10％，而选用中毒率为20％～40％对其进行训练，此范围内的精准度平均值较好。

在中毒率为30％时，有30％的数据是中毒数据，70％的数据是正常数据，中毒数据被错误的分类，正常数据可以正确的分类，那么理想状况下精准度应该为0.7。求出所有类的精准度平均值为0.701，最接近0.7，此时攻击效果最好。

实施例3

在实施例1和2的基础上，本实施例给出一种图像分类方法，包括：

获取分类的图像数据，将待分类的图像数据输入至不可见水印的神经网络后门攻击模型中进行分类；

所述的不可见水印的神经网络后门攻击模型由实施例2所述的不可见水印的神经网络后门攻击模型的构建方法构建获得。

一个训练良好的网络模型应该具备抵抗对抗性攻击的能力。基于此，该分类方法可以验证神经网络模型的鲁棒性，即被攻击的模型是否具有一定抵抗中毒攻击的能力。“数据中毒”往往会降低目标神经网络型的分类的准确率，而模型拥有者和用户都希望最优的准确率。若采用此分类方法，岁输入数据进行分类，若正确的数据被正确分类，则该模型的鲁棒性好，若分类错误，并且有很多类似的分类错误，则说明该模型是留有后门(中毒)的模型，鲁棒性差，不具备抵抗中毒攻击的能力。

本实施例还给出一种图像分类系统，包括相互连接的存储器和处理器，其中，所述存储器用于存储实现本发明所述的图像分类方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，均属于本发明的保护之内。

Claims

1.一种不可见水印图像的构建方法，其特征在于，包括：

步骤1，获取原始图像和水印图像；

2.根据权利要求1所述的不可见水印图像的构建方法，其特征在于，所述的水印图像的长×宽小于等于原始图像的长/4×原始图像的宽/4。

3.根据权利要求1所述的不可见水印图像的构建方法，其特征在于，步骤4中对所述的水印图像进行加密得到加密后的水印图像，包括采用随机种子数对所述水印图像进行重排序得到加密后的水印图像。

4.一种不可见水印的神经网络后门攻击模型的构建方法，其特征在于，包括以下步骤：

步骤1，获取原始图像数据集和不可见水印图像数据集，所述的不可见水印图像数据集中每一个不可见水印图像由权利要求1～3任一所述的不可见水印图像的构建方法构建得到；

5.根据权利要求4所述的不可见水印的神经网络后门攻击模型的构建方法，其特征在于，不可见水印图像数据集占训练数据集的百分比为20％～40％。

6.根据权利要求5所述的不可见水印的神经网络后门攻击模型的构建方法，其特征在于，所述不可见水印图像数据集占训练数据集的百分比为30％。

7.一种图像分类方法，其特征在于，包括：

所述的不可见水印的神经网络后门攻击模型由权利要求4～6任一项所述的不可见水印的神经网络后门攻击模型的构建方法构建获得。

8.一种图像分类系统，其特征在于，包括相互连接的存储器和处理器，其中，所述存储器用于存储实现如权利要求7所述的图像分类方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。