CN112926052A

CN112926052A - 基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和系统

Info

Publication number: CN112926052A
Application number: CN202110204104.4A
Authority: CN
Inventors: 纪守领; 林昶廷; 董建锋; 王睿
Original assignee: Shangchan Zhejiang Technology Co ltd
Current assignee: Shangchan Zhejiang Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-08
Anticipated expiration: 2041-02-23
Also published as: CN112926052B

Abstract

本发明公开了一种基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和系统，通过根据输入图像在深度学习模型中标签的类别预测值差异和添加的噪声最小化构建评价函数，利用该评价函数优化生成能覆盖深度学习模型边界和识别差距大的恶性图像，当能够得到恶性图像说明原始深度学习模型不安全，反之则安全，以此来实现对深度学习模型的安全性测试，该安全测试方法简单且准确；利用获得的测试图像对原始深度学习模型进行强化训练，以修复深度学习模型，来提高深度学习模型的识别结果准确率。

Description

基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和系统

技术领域

本发明属于深度学习安全技术领域，具体涉及一种基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和系统。

背景技术

人工智能技术在计算机视觉和自然语言处理等领域取得突破，使人工智能迎来了新一轮的爆炸式发展。深度学习作为这些突破中的关键技术，已经逐渐成为人工智能领域的研究热点和主流发展方向。深度学习是由多个处理层组成的计算模型，学习具有多个抽象层次的数据表示的机器学习技术。深度学习代表了机器学习和人工智能研究的主要发展方向，给机器学习和计算机视觉等领域带来了革命性的进步。其中，基于卷积神经网络(Convolutional Neural Networks，CNN)的图像分类技术已经超过了人眼的精度，基于深度神经网络(Deep Neural Network,DNN)的语音识别技术已经达到了95％的精度，基于深度神经网络的机器翻译技术已经接近了人类的平均翻译水平。随着精度的迅速提高，计算机视觉和自然语言处理已经进入产业化阶段，并带动了新兴产业的兴起。

DNN取得了很好的进展，这促进了DNN驱动的自动驾驶汽车的发展。它们通过传感器如摄像机、激光雷达等感知环境，就可以在无人辅助的情况下自动驾驶。主要的制造商包括通用、福特、特斯拉、宝马，和waymo谷歌正致力于建造和测试不同类型的自动驾驶汽车。

然而，尽管DNN取得了惊人的进展，就像传统的软件一样，却常常暴露出不正确或不符预期的极端情形行为，这些可能会导致潜在的致命碰撞。几起自动驾驶汽车涉事的真实世界的事故已经发生，其中一个还导致了死亡。深度学习模型已经应用于多个领域，包括图像识别、语音识别，同时自动驾驶及流氓软件的检测等问题上也已经开始使用。尤其是类似自动驾驶问题，对安全性要求极强，所以迫切需要对深度学习模型有效的测试方法，来验证深度学习模型是否可靠。

同时预先训练的DNN可能包含通过训练或通过转换内部神经元权重注入的后门成为木马模型。当提供常规输入时，这些木马模型正常工作，当输入被印上触发器的特殊模式时，对特定的输出标签进行错误分类。例如，一个基于DNN的面部识别系统，它被训练成每当一个非常特定的符号在人脸上或附近被检测到时，它将人脸识别为“比尔盖茨”，或者一种可以将任何交通标志变成绿灯的贴纸。后门可以在训练时插入到模型中，例如由公司的流氓员工负责培训模型，或在最初的模型培训之后插入后门，若完成得很好，这些后门对正常输入的分类结果的影响很小，使得它们几乎无法检测。但是对于受到后门攻击的模型的测试工作却较少，因此提出了针对深度学习模型安全漏洞的测试方法。

发明内容

鉴于上述，本发明的目的是提供一种基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和系统，以实现对深度学习模型的安全漏洞检测和修复。

为实现上述发明目的，本发明提供以下技术方案：

第一方面，一种基于遗传算法的深度学习模型安全漏洞测试方法，包括以下步骤：

(1)获取图像数据集和待测试深度学习模型，利用测试深度学习模型对图像进行测试以筛选能够正确识别的图像组成干净图像数据集；

(2)从所述干净图像数据集中随机选择若干图像作为测试种子图像，并对测试种子图像添加初始扰动；

(3)将添加扰动的图像输入至待测试深度学习模型获得预测标签，依据添加扰动最小化和预测标签与真实标签不同构建的适应度函数来选择图像作为父辈，并进行交叉产生子代图像，对子代图像添加扰动以进行变异；

(4)重复执行步骤(3)，直到满足迭代终止条件，在满足迭代终止时，若能获得满足添加扰动最小化和预测标签与真实标签不同的添加扰动的图像时，即认为测试深度学习模型存在安全漏洞。

优选地，所述适应度函数obj₃为：

obj₃＝obj₁+λ·obj₂

obj₂＝f(x′)[c]≠c

其中，obj₁表示添加扰动最小化函数，x表示原图像，x′表示添加扰动图像，ε表示很小的扰动值以确保扰动最小化，取值范围为(0，10]，

表示二范数的平方，obj₂表示预测标签与真实标签不同函数，f(x′)[c]表示图像x′输入深度学习模型中针对真实标签c的预测类标，λ表示超参数。

优选地，每次迭代时，变异概率根据动量更新调整：

其中，P_new表示更新后的变异概率，表示p_old表示原变异概率，currScore表示所在代图像根据适应度函数的评分，prevScore表示上一代图像根据适应度函数的评分，β和γ为超参数，给子代添加噪声，取值范围(0,1]；

利用更新后的变异概率对子代图像进行变异。

优选地，步骤(1)中，将图像输入至待测试深度学习模型中得到预测标签，若预测标签与真实标签一致，则认为图像能够被正确识别，用于组成干净图像数据集。

优选地，图像数据集为MNIST数据集、Imagenet数据集或Driving数据集；所述待测试深度学习模型为自动驾驶模型或人脸识别模型。

第二方面，一种基于遗传算法的深度学习模型安全漏洞修复方法，包括以下步骤：

(1)利用上述基于遗传算法的深度学习模型安全漏洞测试方法测试待测试深度学习模型存在安全漏洞，且获得添加扰动的图像作为测试图像；

(2)利用测试图像对待测试深度学习模型进行优化训练，以实现对待测试深度学习模型的安全漏洞进行修复。

第三方面，一种基于遗传算法的深度学习模型安全漏洞测试装置，包括：

构建模块，用于获取图像数据集和待测试深度学习模型，利用测试深度学习模型对图像进行测试以筛选能够正确识别的图像组成干净图像数据集；

筛选模块，用于从所述干净图像数据集中随机选择若干图像作为测试种子图像，并对测试种子图像添加初始扰动；

检测模块，用于将添加扰动的图像输入至待测试深度学习模型获得预测标签，依据添加扰动最小化和预测标签与真实标签不同构建的适应度函数来选择图像作为父辈，并进行交叉产生子代图像，对子代图像添加扰动以进行变异，重复迭代选择、交叉以及变异过程，直到满足迭代终止条件，在满足迭代终止时，若能获得满足添加扰动最小化和预测标签与真实标签不同的添加扰动的图像时，即认为测试深度学习模型存在安全漏洞。

第四方面，一种基于遗传算法的深度学习模型安全漏洞修复装置，包括：

检测单元，用于上述基于遗传算法的深度学习模型安全漏洞测试装置测试待测试深度学习模型存在安全漏洞，且获得添加扰动的图像作为测试图像；

修复单元，利用测试图像对待测试深度学习模型进行优化训练，以实现对待测试深度学习模型的安全漏洞进行修复。

第五方面，一种基于遗传算法的深度学习模型安全漏洞测试系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于遗传算法的深度学习模型安全漏洞测试方法。

第六方面，一种基于遗传算法的深度学习模型安全漏洞修复系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于遗传算法的深度学习模型安全漏洞修复方法。

与现有技术相比，本发明实施例提供的基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和系统具有的有益效果至少包括：

通过遗传算法寻优添加扰动的图像，根据寻优结果以判断深度学习模型是否安全，实现对深度学习模型的安全漏洞测试，该测试方法简单且准确，最后利用生成的图像实现对深度学习模型的修复，以提高待测试深度学习模型的预测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于遗传算法的深度学习模型安全漏洞测试方法的流程图；

图2是本发明实施例提供的基于遗传算法的深度学习模型安全漏洞修复方法的流程图；

图3是本发明实施例提供的基于遗传算法的深度学习模型安全漏洞测试装置的结构示意图；

图4是本发明实施例提供的基于遗传算法的深度学习模型安全漏洞修复装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

自动驾驶模型或人脸识别模型，这种模型安全性要求高，因此需要对上述两种模型进行测试来验证模型是否可靠。然而，针对自动驾驶模型的大多数测试技术都依赖于人工收集测试数据，耗时且昂贵。为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞检测和修复，实施例提供了一种基于遗传算法的深度学习模型安全漏洞测试方法、装置和系统，在测试安全漏洞的时候生成质量高的添加扰动的图像用作测试图像。还提供一种基于遗传算法的深度学习模型安全漏洞修复方法、装置和系统。利用测试样本来修复深度学习模型，来提升深度学习模型评判结果的准确性。

实施例1

为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞检测，如图1所示，实施例提供的深度学习模型安全漏洞测试方法包括以下步骤：

步骤1，获取图像数据集与待测试深度学习模型。

实施例中，图片数据集为MNIST数据集、Imagenet数据集或Driving数据集。深度学习模型为LeNet深度学习模型、VGG19深度学习模型或ResNet50深度学习模型。

步骤2，利用测试深度学习模型对图像进行测试以筛选能够正确识别的图像组成干净图像数据集。

具体为将步骤S1中的图像输入待测试深度学习模型中，测试深度学习模型将输出输入图像的预测标签，若预测标签与图像的真实标签一致，则该图像能够被待测试深度学习模型正确识别，放入干净图像数据集。

步骤3，从所述干净图像数据集中随机选择若干图像作为测试种子图像，并对测试种子图像添加初始扰动。

实施例中，具体可以从干净图像数据集中随机选取k张图像作为测试种子。再添加初始扰动时，保证添加的噪声扰动的尺寸与图像的尺寸相同，对于尺寸为H*W的原图像x，增加扰动后为尺寸为H*W的扰动图像x′。

步骤4，将添加扰动的图像输入至待测试深度学习模型获得预测标签，依据添加扰动最小化和预测标签与真实标签不同构建的适应度函数来选择图像作为父辈，并进行交叉产生子代图像，对子代图像添加扰动以进行变异。

实施例中，根据输入图像在待测试深度学习模型中标签的类别预测值差异和添加的噪声最小化构建适应度函数。利用遗传算法生成的表示恶性图像的边界案例需要满足一个联合优化问题，即满足添加扰动最小化和输入图像在待测试深度学习模型中的分类结果不同两个要求，因此，作为目标函数的适应度函数可分为两部分。

第一部分为添加扰动最小化。实现的目标为：

其中，ε是一个很小的扰动值以确保扰动最小化，取值范围为(0，10]。

第二部分为输入图像在待测试深度学习模型中的分类结果不同，表示为：obj₂＝f(x′)[c]≠c，f(x′)[c]表示输入图像x′输入待测试深度学习模型中针对真实标签c的预测标签。

基于第一部分和第二部分，目标函数的适应度函数为obj₃＝obj₁+λ·obj₂，λ是为超参数，取值范围为(0，1]。

基于遗传算法生成添加扰动的图像时，种群大小设为100，精英数量设为10，最大迭代次数设为3000。仅依靠输入和输出对扰动进行迭代优化。使用L2范数衡量添加的扰动大小。具体过程为：复制选取的测试种子图像至设置的种群数量，在每个个体图像上添加随机噪声进行变异，通过适应度函数给所有个体进行评分，根据评价函数的评分选择最好的10个个体形成精英群体。从精英群体中，根据适应度函数，选择100次，形成父辈1，根据适应度函数再选择100次形成父辈2，进行交叉产生子代。根据动量更新，给子代添加噪声进行变异，进行下一次迭代。直到获得最优的添加扰动图像作为测试样本。

根据动量更新来更新突变的概率，突变的概率在每次迭代中都会根据以下指数加权的移动平均值的更新公式而调整大小：

其中，其中，P_new表示更新后的变异概率，表示p_old表示原变异概率，currScore表示所在代图像根据适应度函数的评分，prevScore表示上一代图像根据适应度函数的评分，β和γ为超参数，给子代添加噪声，取值范围为(0，1]；利用更新后的变异概率对子代图像进行变异。

步骤5，重复执行步骤4，直到满足迭代终止条件，在满足迭代终止时，若能获得满足添加扰动最小化和预测标签与真实标签不同的添加扰动的图像时，即认为测试深度学习模型存在安全漏洞。

生成的添加扰动的图像可以用作测试图像，用来对待测试深度学习模型进行修复。

实施例提供的基于遗传算法的深度学习模型安全漏洞测试方法，通过根据输入图像在深度学习模型中标签的类别预测值差异和添加的噪声最小化构建评价函数，利用该评价函数优化生成能覆盖深度学习模型边界和识别差距大的恶性图像，当能够得到恶性图像说明原始深度学习模型不安全，反之则安全，以此来实现对深度学习模型的安全性测试，该安全测试方法简单且准确

实施例2

为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞的修复，如图2所示，实施例提供的基于遗传算法的深度学习模型安全漏洞修复方法包括以下步骤：

步骤1，利用上述基于遗传算法的深度学习模型安全漏洞测试方法测试待测试深度学习模型存在安全漏洞，且获得添加扰动的图像作为测试图像；

步骤2，利用测试图像对待测试深度学习模型进行优化训练，以实现对待测试深度学习模型的安全漏洞进行修复。

实施例提供的基于遗传算法的深度学习模型安全漏洞修复方法，利用获得的测试图像对原始深度学习模型进行强化训练，以修复深度学习模型，来提高深度学习模型的识别结果准确率。

实施例3

为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞检测，如图3所示，实施例提供的深度学习模型安全漏洞测试装置300包括：

构建模块301，用于获取图像数据集和待测试深度学习模型，利用测试深度学习模型对图像进行测试以筛选能够正确识别的图像组成干净图像数据集；

筛选模块302，用于从所述干净图像数据集中随机选择若干图像作为测试种子图像，并对测试种子图像添加初始扰动；

检测模块303，用于将添加扰动的图像输入至待测试深度学习模型获得预测标签，依据添加扰动最小化和预测标签与真实标签不同构建的适应度函数来选择图像作为父辈，并进行交叉产生子代图像，对子代图像添加扰动以进行变异，重复迭代选择、交叉以及变异过程，直到满足迭代终止条件，在满足迭代终止时，若能获得满足添加扰动最小化和预测标签与真实标签不同的添加扰动的图像时，即认为测试深度学习模型存在安全漏洞。

需要说明的是，实施例3提供的基于遗传算法的深度学习模型安全漏洞测试装置在进行基于遗传算法的深度学习模型安全漏洞测试时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，实施例3提供的基于遗传算法的深度学习模型安全漏洞测试装置与实施例1提供的基于遗传算法的深度学习模型安全漏洞测试方法实施例属于同一构思，其具体实现过程详见基于遗传算法的深度学习模型安全漏洞测试方法实施例，这里不再赘述。

实施例4

为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞的修复，如图4所示，实施例提供的基于遗传算法的深度学习模型安全漏洞修复装置400，包括：

检测单元401，用于利用上述基于遗传算法的深度学习模型安全漏洞测试装置测试待测试深度学习模型存在安全漏洞，且获得添加扰动的图像作为测试图像；

修复单元402，利用测试图像对待测试深度学习模型进行优化训练，以实现对待测试深度学习模型的安全漏洞进行修复。

需要说明的是，实施例4提供的基于遗传算法的深度学习模型安全漏洞修复装置在进行基于遗传算法的深度学习模型安全漏洞修复时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，实施例4提供的基于遗传算法的深度学习模型安全漏洞修复装置与实施例2提供的基于遗传算法的深度学习模型安全漏洞修复方法实施例属于同一构思，其具体实现过程详见基于遗传算法的深度学习模型安全漏洞修复方法实施例，这里不再赘述。

实施例5

为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞检测，实施例提供了一种基于遗传算法的深度学习模型安全漏洞测试系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现实施例1提供的基于遗传算法的深度学习模型安全漏洞测试方法。

实施例6

为了实现对自动驾驶模型或人脸识别模型等深度学习模型的安全漏洞的修复，一种基于遗传算法的深度学习模型安全漏洞修复系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现实施例2提供的基于遗传算法的深度学习模型安全漏洞修复方法。

在实际应用中，处理器可以由基站服务器的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于遗传算法的深度学习模型安全漏洞测试方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于遗传算法的深度学习模型安全漏洞测试方法，其特征在于，所述适应度函数obj₃为：

obj₃＝obj₁+λ·obj₂

obj₂＝f(x′)[c]≠c

其中，obj₁表示添加扰动最小化函数，x表示原图像，x′表示添加扰动图像，ε表示很小的扰动值以确保扰动最小化，

3.根据权利要求1所述的基于遗传算法的深度学习模型安全漏洞测试方法，其特征在于，每次迭代时，变异概率根据动量更新调整：

其中，P_new表示更新后的变异概率，表示p_old表示原变异概率，currScore表示所在代图像根据适应度函数的评分，prevScore表示上一代图像根据适应度函数的评分，β和γ为超参数，给子代添加噪声；

利用更新后的变异概率对子代图像进行变异。

4.根据权利要求1所述的基于遗传算法的深度学习模型安全漏洞测试方法，其特征在于，步骤(1)中，将图像输入至待测试深度学习模型中得到预测标签，若预测标签与真实标签一致，则认为图像能够被正确识别，用于组成干净图像数据集。

5.根据权利要求1所述的基于遗传算法的深度学习模型安全漏洞测试方法，其特征在于，图像数据集为MNIST数据集、Imagenet数据集或Driving数据集；所述待测试深度学习模型为自动驾驶模型或人脸识别模型。

6.一种基于遗传算法的深度学习模型安全漏洞修复方法，其特征在于，包括以下步骤：

(1)利用权利要求1～5任一项所述的基于遗传算法的深度学习模型安全漏洞测试方法测试待测试深度学习模型存在安全漏洞，且获得添加扰动的图像作为测试图像；

7.一种基于遗传算法的深度学习模型安全漏洞测试装置，其特征在于，包括：

8.一种基于遗传算法的深度学习模型安全漏洞修复装置，其特征在于，包括：

检测单元，用于利用权利要求7所述的基于遗传算法的深度学习模型安全漏洞测试装置测试待测试深度学习模型存在安全漏洞，且获得添加扰动的图像作为测试图像；

9.一种基于遗传算法的深度学习模型安全漏洞测试系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～5任一项所述的基于遗传算法的深度学习模型安全漏洞测试方法。

10.一种基于遗传算法的深度学习模型安全漏洞修复系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求6所述的基于遗传算法的深度学习模型安全漏洞修复方法。