CN111475797B - 一种对抗图像生成方法、装置、设备以及可读存储介质 - Google Patents

一种对抗图像生成方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN111475797B
CN111475797B CN202010224173.7A CN202010224173A CN111475797B CN 111475797 B CN111475797 B CN 111475797B CN 202010224173 A CN202010224173 A CN 202010224173A CN 111475797 B CN111475797 B CN 111475797B
Authority
CN
China
Prior art keywords
noise
model
classification
sample
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010224173.7A
Other languages
English (en)
Other versions
CN111475797A (zh
Inventor
于家傲
彭磊
李慧云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202010224173.7A priority Critical patent/CN111475797B/zh
Publication of CN111475797A publication Critical patent/CN111475797A/zh
Application granted granted Critical
Publication of CN111475797B publication Critical patent/CN111475797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开一种对抗图像生成方法、装置,设备以及可读存储介质,方法包括:根据目标分类模型,生成与目标分类模型分类等效的参考模型;获取目标图像,根据参考模型生成针对目标图像的原始噪声;将第一噪声和原始噪声输入对抗模型,在对抗模型满足收敛条件时,输出与第一噪声对应的第二噪声;第二噪声为增强原始噪声信息熵的噪声;根据第二噪声以及目标图像,生成目标图像对应的增强噪声图像;增强噪声图像在目标分类模型中的分类准确度小于目标图像在目标分类模型中的分类准确度。采用本申请,可以保障增强噪声图片难以被恶意的目标分类模型所识别,提高增强噪声图片的安全性。

Description

一种对抗图像生成方法、装置、设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种对抗图像生成方法、装置、设备以及计算机可读存储介质。
背景技术
近些年,随着机器学习的快速进步,基于深度神经网络(Deep Neural Network,DNN)的分类器已成为各个行业中非常重要的支持技术,其中也包括非法分子利用DNN分类器对网站或应用进行恶意攻击,如通过DNN分类器自动识别解锁图片以进行一些非法操作,因此,如何生成有效的对抗图片以防御非法分子的目标网络,已成为了一个重要的研究方向。
现有对抗攻击方法所生成的对抗图片中的噪声样本特征过于明显,当目标网络采取相应防御方法的时候,对抗攻击很难达到预期的结果,那么对抗图片将难以抵御目标网络的恶意识别,降低了对抗图片的安全性。
发明内容
本申请实施例提供一种对抗图像生成方法、装置、设备以及计算机可读存储介质,可以保障对抗图片难以被恶意的目标网络所识别,提高对抗图片的安全性。
本申请实施例第一方面提供一种对抗图像生成方法,所述方法包括:
根据目标分类模型,生成与所述目标分类模型分类等效的参考模型;
获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;
将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;
根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。
其中,所述对抗模型包括生成模型以及判别模型;
所述将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声,包括:
获取样本生成模型以及样本判别模型;
根据所述样本生成模型,生成所述第一噪声对应的预测生成噪声;
根据所述预测生成噪声以及所述原始噪声,训练所述样本判别模型,得到所述判别模型;
根据所述判别模型以及所述预测生成噪声,训练所述样本生成模型,直至所述判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为所述生成模型;所述噪声匹配度表征所述原始噪声与所述预测生成噪声之间的噪声匹配程度;
将所述生成模型针对所述第一噪声所生成的预测增强噪声确定为所述第二噪声。
其中,所述根据所述参考模型生成针对所述目标图像的原始噪声,包括:
根据所述参考模型的模型结构信息,确定所述目标图像在所述参考模型中的梯度信息;
获取扰动因子,基于所述梯度信息以及所述扰动因子,生成针对所述目标图像的所述原始噪声。
其中,所述根据目标分类模型,生成与所述目标分类模型分类等效的参考模型,包括:
根据所述目标分类模型,生成分类等效初始模型;
获取第一张量集合,将所述第一张量集合输入所述目标分类模型,得到与所述第一张量集合对应的输出张量集合;
将所述第一张量集合作为训练样本,将所述输出张量集合作为样本标签,根据所述训练样本和所述样本标签训练所述分类等效初始模型,得到与所述目标分类模型分类等效的所述参考模型。
其中,所述根据所述目标分类模型,生成分类等效初始模型,包括:
根据所述目标分类模型,确定样本图像集以及至少两个样本模型;
根据所述目标分类模型,得到与所述样本图像集对应的目标分类信息;
根据所述至少两个样本模型,得到与所述样本图像集分别对应的预测分类信息;
根据所述目标分类信息以及至少两个预测分类信息,从所述至少两个样本模型中确定所述分类等效初始模型。
其中,所述根据所述目标分类信息以及至少两个预测分类信息,从所述至少两个样本模型中确定所述分类等效初始模型,包括:
统计所述至少两个预测分类信息中每个预测分类信息分别与所述目标分类信息之间的交叉熵,得到至少两个交叉熵;
在所述至少两个交叉熵中确定最小交叉熵,将所述最小交叉熵对应的预测分类信息所属的样本模型,确定为所述分类等效初始模型。
其中,所述根据所述训练样本和所述样本标签训练所述分类等效初始模型,得到与所述目标分类模型分类等效的所述参考模型,包括:
将所述训练样本以及所述样本标签输入所述分类等效初始模型;
根据所述分类等效初始模型,得到与所述训练样本对应的预测标签;
根据所述预测标签以及所述样本标签,训练所述分类等效初始模型,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型确定为所述参考模型;所述模型损失值基于所述预测标签以及所述样本标签生成。
其中,所述根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像,包括:
根据所述第二噪声的噪声向量,将所述目标图像转换成与所述噪声向量的维度相同的目标图像向量;
获取所述噪声向量中的数值Pi,获取所述目标图像向量中的数值Qi;i为小于或等于N的正整数,N为所述噪声向量或所述目标图像向量的维度数量;所述数值Pi是指所述噪声向量中第i维度对应的数值,所述数值Qi是指所述目标图像向量中第i维度对应的数值;
对所述数值Pi与所述数值Qi进行数值相加运算,生成数值Ri
根据所述数值Ri,生成与所述目标图像的维度相同的所述增强噪声图像。
相应地,本申请实施例第二方面提供一种对抗图像生成装置,所述装置包括:
第一生成模块,用于根据目标分类模型,生成与所述目标分类模型分类等效的参考模型;
第二生成模块,用于获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;
输出噪声模块,用于将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;
第三生成模块,用于根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。
其中,所述输出噪声模块,包括:
获取样本单元,用于获取样本生成模型以及样本判别模型;
生成预测单元,用于根据所述样本生成模型,生成所述第一噪声对应的预测生成噪声;
训练样本单元,用于根据所述预测生成噪声以及所述原始噪声,训练所述样本判别模型,得到所述判别模型;
确定模型单元,用于根据所述判别模型以及所述预测生成噪声,训练所述样本生成模型,直至所述判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为所述生成模型;所述噪声匹配度表征所述原始噪声与所述预测生成噪声之间的噪声匹配程度;
确定噪声单元,用于将所述生成模型针对所述第一噪声所生成的预测增强噪声确定为所述第二噪声。
其中,所述第二生成模块,包括:
确定梯度单元,用于根据所述参考模型的模型结构信息,确定所述目标图像在所述参考模型中的梯度信息;
生成噪声单元,用于获取扰动因子,基于所述梯度信息以及所述扰动因子,生成针对所述目标图像的所述原始噪声。
其中,所述第一生成模块,包括:
第一生成单元,用于根据所述目标分类模型,生成分类等效初始模型;
第二生成单元,用于获取第一张量集合,将所述第一张量集合输入所述目标分类模型,得到与所述第一张量集合对应的输出张量集合;
第三生成单元,用于将所述第一张量集合作为训练样本,将所述输出张量集合作为样本标签,根据所述训练样本和所述样本标签训练所述分类等效初始模型,得到与所述目标分类模型分类等效的所述参考模型。
其中,所述第一生成单元,包括:
确定样本子单元,用于根据所述目标分类模型,确定样本图像集以及至少两个样本模型;
第一生成子单元,用于根据所述目标分类模型,得到与所述样本图像集对应的目标分类信息;
第二生成子单元,用于根据所述至少两个样本模型,得到与所述样本图像集分别对应的预测分类信息;
确定初始子单元,用于根据所述目标分类信息以及至少两个预测分类信息,从所述至少两个样本模型中确定所述分类等效初始模型。
其中,所述确定初始子单元,包括:
统计交叉熵子单元,用于统计所述至少两个预测分类信息中每个预测分类信息分别与所述目标分类信息之间的交叉熵,得到至少两个交叉熵;
确定初始子单元,用于在所述至少两个交叉熵中确定最小交叉熵,将所述最小交叉熵对应的预测分类信息所属的样本模型,确定为所述分类等效初始模型。
其中,所述第三生成单元,包括:
输入样本子单元,用于将所述训练样本以及所述样本标签输入所述分类等效初始模型;
第一确定子单元,用于根据所述分类等效初始模型,得到与所述训练样本对应的预测标签;
第二确定子单元,用于根据所述预测标签以及所述样本标签,训练所述分类等效初始模型,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型确定为所述参考模型;所述模型损失值基于所述预测标签以及所述样本标签生成。
其中,所述第三生成模块,包括:
转换维度单元,用于根据所述第二噪声的噪声向量,将所述目标图像转换成与所述噪声向量的维度相同的目标图像向量;
获取数值单元,用于获取所述噪声向量中的数值Pi,获取所述目标图像向量中的数值Qi;i为小于或等于N的正整数,N为所述噪声向量或所述目标图像向量的维度数量;所述数值Pi是指所述噪声向量中第i维度对应的数值,所述数值Qi是指所述目标图像向量中第i维度对应的数值;
生成数值单元,用于对所述数值Pi与所述数值Qi进行数值相加运算,生成数值Ri
增强图像单元,用于根据所述数值Ri,生成与所述目标图像的维度相同的所述增强噪声图像。
相应地,本申请实施例第三方面提供一种计算机设备,所述设备包括:处理器、存储器、网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如本申请实施例中的方法。
相应地,本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,以执行如本申请实施例中的方法。
本申请实施例通过根据目标分类模型,生成与所述目标分类模型分类等效的参考模型;获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。上述可知,通过构建一个与目标分类模型(黑盒模型)功能等效的参考模型(白盒模型),可以生成针对目标图像的原始噪声,在上述原始噪声的基础上,通过对抗模型增加原始噪声的噪声信息熵,得到第二噪声。将上述第二噪声与上述目标图像进行叠加,得到人眼察觉不出变化的增强噪声图像,但目标分类模型无法准确对该增强噪声图像进行识别。同理,当将重要的图像加上针对该图像的上述第二噪声后,恶意的目标分类模型将难以识别上述重要图像,保证了数据安全性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种对抗图像生成方法的流程示意图;
图3是本申请实施例提供的一种对抗图像生成方法的流程示意图;
图4a是本申请实施例提供的一种生成参考模型的场景示意图;
图4b是本申请实施例提供的一种生成参考模型的场景示意图;
图5是本申请实施例提供的一种快速噪声样本部分像素点示意图;
图6是本申请实施例提供的一种对抗模型的结构示意图;
图7是本申请实施例提供的一种训练样本对抗模型的场景示意图;
图8是本申请实施例提供的一种训练精度对比示意图;
图9是本申请实施例提供的一种增强噪声图像的部分像素示意图;
图10a是本申请实施例提供的一种训练精度对比示意图;
图10b是本申请实施例提供的一种训练精度对比示意图;
图11是本申请实施例提供的一种图像识别的场景示意图;
图12是本申请实施例提供的一种对抗图像生成装置的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,基于深度神经网络(Deep Neural Network,DNN)的分类器已成为各个行业中非常重要的支持技术,从人脸识别到医学影像辅助诊疗,以及自动驾驶,DNN都是重要的组成部分,因此DNN的安全问题也逐渐引起人们的关注。对抗攻击是一种典型的针对DNN的攻击方式,指在图像上添加一些微弱的噪声,人眼几乎不会察觉,但是会急剧降低DNN分类器的准确性,本申请所述的模型均基于DNN所构建。目前,对抗攻击之所以如此有效,是因为攻击者已经知道了有关目标分类模型的内部信息,例如拓扑结构,神经元的参数,进而通过梯度上升的方法得到对抗样本,这种方法被称之为白盒攻击,可以用于测试目标分类模型的鲁棒性。但在现实中,对于那些没有关键信息的服务器,由于模型包含数百万个神经元的结构和参数,这种攻击方式变得不太可能。
本申请提出了一种对DNN分类器的黑盒攻击方法,在对目标分类模型内部结构和参数一无所知的基础上实现对目标分类模型的对抗攻击,这是一种真正实用的攻击模式,通过对这一攻击模式的揭示,后续研究也可以更好的提升DNN分类器对于对抗样本攻击的防御。请参见图1,是本申请实施例提供的一种系统架构示意图。如图1所示,用户终端集群可以包括:服务器10a、服务器10b、服务器10c、...、服务器10d。其中,服务器10a存储有目标分类模型,且目标分类模型相对于其他用户终端(可以是服务器10b、用户终端10c或用户终端10d)而言,是一个黑盒,以服务器10a以及服务器10b为例,进行说明。当服务器10b想要攻击服务器10a中的目标分类模型时,因为不知道目标分类模型的内部结构和参数,所以通过构建一个与目标分类模型分类功能等效的参考模型对上述目标分类模型实施黑盒攻击,请参见图2,是本申请实施例提供的一种对抗图像生成方法的流程示意图。如图2所示,本申请可以分为以下四个部分:
(1)分类等效初始模型的确定
目标分类模型对服务器10b而言是一个黑匣子,服务器10b不知道其内部信息和训练该模型的数据,可以获取的唯一信息是输入数据所对应的输出类别标签。因此可以根据一些先验知识和目标分类模型的输出信息,服务器10b来构建与目标分类模型分类等效的参考模型。深度神经网络越复杂,其拟合能力越强,也就是说可以用规模比较大的神经网络(可以是一种神经网络,也可以是几种神经网络组合成一个模型)去拟合所要攻击的目标分类模型。现已有很多做分类任务的神经网络,例如卷积神经网络(Convolutional NeuralNetwork,CNN)中的AlexNet,VGGNet,ResNet,全卷积神经网络(Fully ConvolutionalNetwork,FCN),服务器10b可以从现存的分类器中根据目标分类模型的分类情况挑选出一个作为参考模型的分类等效初试模型。
(2)参考模型的确定
给定随机生成的初始训练集,将上述初始训练集作为测试集输入目标分类模型,获得上述初始训练集对应的输出训练集,然后将上述初始训练集作为训练样本,将上述输出训练集作为样本标签,利用训练样本以及样本标签再结合传统的训练方式训练目标分类模型的分类等效初始模型。为了更好地学习到目标分类模型的决策边界,服务器10b需要用不同的输入输出对(即训练样本以及标签样本)不断重复这个训练过程,但是对目标分类模型进行大量的查询操作会被防御系统探测到,因此为了减少查询次数又能最大限度地学习到目标分类模型的决策边界,服务器10b可以利用雅可比矩阵进行初始训练集的扩增。有了大量训练样本,服务器10b就可以训练分类等效初始模型,生成参考模型。
(3)快速梯度符号法制作原始噪声
当生成上述参考模型时,服务器10b就能用该参考模型的内部信息来代替服务器10a中的目标分类模型的内部信息。在攻击的过程中,希望在目标图像上加入一些微小的噪声,从而使目标分类模型做出错误的分类决策,但是人眼却看不出两者的差别。这些噪声样本可以通过梯度上升法得到,因为在基于DNN的分类器训练过程中,技术人员总是用梯度下降法最小化分类器的损失函数,从而得到准确度很高的分类器,所以当采用梯度上升法制造的噪声样本加入到目标图像时,就会使得目标分类模型的损失函数增大,从而做出错误分类。
(4)模糊对抗样本的生成
快速梯度符号法制作的对抗样本取决于参考模型的梯度信息,当参考模型生成时,梯度信息相当于常量,此时原始噪声中的梯度特征过于明显,这样根据原始噪声所制作的对抗样本(即原始噪声+目标图像)很容易就被目标分类模型中的防御系统发现并清除。本申请先将原始噪声中的梯度信息模糊化,在攻击目标分类模型或被目标分类模型识别时,攻击的成功率就会大大提升。模糊特征最直接的办法就是增大噪声信息熵,在本申请中,利用生成对抗模型将快速梯度符号法制作的原始噪声模糊化,最后将模糊噪声样本加入到目标图像中,生成模糊对抗样本,则在不影响人眼识别的前提下,降低目标图像在上述目标分类模型中的辨识精度。同理,当将重要的图像加上针对该图像的上述第二噪声后,恶意的目标分类模型将难以识别上述重要图像,保证了数据安全性。
其中,用户终端集群可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)等。
进一步地,请参见图3,是本申请实施例提供的一种对抗图像生成方法的流程示意图。如图3所示,上述对抗图像生成方法可以包括:
步骤S201,根据目标分类模型,生成与目标分类模型分类等效的参考模型。
具体的,根据目标分类模型,确定样本图像集以及至少两个样本模型;根据目标分类模型,得到与样本图像集对应的目标分类信息;根据至少两个样本模型,得到与样本图像集分别对应的预测分类信息;统计至少两个预测分类信息中每个预测分类信息分别与目标分类信息之间的交叉熵,得到至少两个交叉熵。在至少两个交叉熵中确定最小交叉熵,将最小交叉熵对应的预测分类信息所属的样本模型,确定为分类等效初始模型。获取第一张量集合,将第一张量集合输入目标分类模型,得到与第一张量集合对应的输出张量集合;将第一张量集合作为训练样本,将输出张量集合作为样本标签,将训练样本以及样本标签输入分类等效初始模型。根据分类等效初始模型,得到与训练样本对应的预测标签;根据预测标签以及样本标签,训练分类等效初始模型,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型确定为参考模型;模型损失值基于预测标签以及样本标签生成。
众所周知,DNN(深度神经网络)具有的神经元越多,存储的信息就越多。因此,可以使用大规模的复杂网络模拟小规模的简单网络。同时,考虑到许多应用程序可能会从一些出名的DNN分类神经网络中选择一个作为自己的分类器(例如,AlexNet,GoogLeNet,ResNet等网络),所以技术人员可以将典型的分类器收集起来以构建分类等效模型的数据库,然后在这个数据库中根据分类效果筛选出参考模型的初始结构,即分类等效初始模型。
请一并参见图4a,是本申请实施例提供的一种生成参考模型的场景示意图。如果服务器10b想攻击服务器10a中的目标分类模型20a,首先要弄清目标分类模型20a的分类功能。对于黑盒攻击(因为服务器10b不知道目标分类模型20a的内部结构信息)来说,想要得到数百万个神经元的参数信息是很困难的。但是服务器10b可以生成一个结构已知的模型去替代这个黑盒模型,只要两者对于相同的输入向量或图像有着相同的输出(例如分类标签),也就是说两者在功能上有着相似的表现,那么可以认定结构已知的模型是黑盒模型的分类等效模型,则可以将该分类等效模型作为一个参考模型,能让参考模型做出错误分类的对抗样本也同样会使目标分类模型20a分类错误。
参考模型的确定不是随意定的,首先需要根据目标分类模型20a的分类功能构建一个模型数据库,如图4a所示,服务器10b中的模型数据库中可以包括样本模型20b、…、样本模型20c。服务器10b可以在网站上获取针对目标分类模型20a的公开图像集,以及目标分类模型20a针对公开图像集中测试图像集30a的目标分类信息40a。根据公开图像集中的训练图像集训练样本模型20b、…、样本模型20c。训练完毕后,将测试图像集30a(即样本图像集)分别输入至样本模型20b、…、样本模型20c,可以得到样本模型20b针对测试图像集30a所输出的预测分类信息40b、…、样本模型20c针对测试图像集30a所输出的预测分类信息40c。
服务器10b通过计算预测分类信息40b与目标分类信息40a之间的交叉熵50b、…、预测分类信息40c与目标分类信息40a之间的交叉熵50c,如公式(1)所示,来选择与目标分类模型20a相似的分类等效初始模型:
其中,x是测试图像集30a,n是目标分类模型20a的分类标签种类,Pbb是目标分类信息40a所对应的概率分布,qmod是样本模型(也包括样本模型20b以及样本模型20c)输出的预测分类信息(也包括目标分类信息40b以及目标分类信息40c)所对应的的概率分布。统计模型数据库中所有样本模型与目标分类模型20a之间的交叉熵之后,选择交叉熵最小的样本模型作为分类等效初始网络,如公式(2)所示,以供之后训练生成参考模型,记为F:
F=argminmodH(pbb,qmod) (2)
通过统计至少两个预测分类信息中每个预测分类信息分别与目标分类信息40a之间的交叉熵,如图4a所示,交叉熵50b为至少两个交叉熵中最小的交叉熵,则将样本模型20b作为分类等效初始模型。
进一步地,请参见图4b,是本申请实施例提供的一种生成参考模型的场景示意图。服务器10b随机生成第一张量集合60a,将第一张量集合60a作为测试集合输入目标分类模型20a,得到与第一张量集合60a对应的输出张量集合60b,即服务器10b可以通过查询目标分类模型20a针对上述第一张量集合60a的输出,为上述第一张量集合60a中每一个输入张量做标签;将第一张量集合60a作为训练样本,将输出张量集合60b作为样本标签,将训练样本以及样本标签输入分类等效初始模型20b,根据分类等效初始模型20b,得到与训练样本对应的预测标签60c。根据预测标签60c以及样本标签60b,训练分类等效初始模型20b,为了更好地学习到目标分类模型20a的决策边界,也可理解为目标分类模型20a的内部结构信息,服务器10b需要用大量的训练样本以及样本标签,不断重复训练分类等效初始模型20b,但是对目标分类模型20a进行大量的查询操作会被该模型的防御系统探测到,为了减少查询次数又能最大限度地学习到目标分类模型20a的决策边界,服务器10b可以用雅可比矩阵进行第一张量集合60a的扩增。以公式(3)定义分类等效初始模型20b:Rn→Rm完成了从n维像素向量到m维离散标签集/>的映射,则F的雅可比矩阵为:
上述雅可比矩阵描述了分类等效初始模型20b的输出对输入的敏感度方向,如果沿这些方向(即沿梯度方向)调整输入数据,服务器10b可以快速探测到目标分类模型20a的决策边界。雅可比矩阵的训练样本扩充可以以公式(4)表示:
其中,是分类等效初始模型20b的梯度符号,代表对应训练样本的分类标签的正/负/零梯度。服务器10b可以沿着梯度方向给第一张量集合60a加入振幅为λ的细微噪声。新得到的训练样本和原始训练样本Dt组成了新的训练样本Dt+1。最后,经过k轮训练样本扩增后,利用训练样本训练分类等效初始模型20b可以很好地探测到目标分类模型20a的决策边界,例如,计算每一轮的模型损失值,当模型损失值大于模型损失值阈值时,则进行一次雅可比矩阵,根据新的训练样本训练分类等效初始模型20b,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型20b确定为参考模型70a;模型损失值基于预测标签60c以及样本标签60b生成。
步骤S202,获取目标图像,根据参考模型生成针对目标图像的原始噪声。
具体的,根据参考模型的模型结构信息,确定目标图像在参考模型中的梯度信息;获取扰动因子,基于梯度信息以及扰动因子,生成针对目标图像的原始噪声。
请参见图4a以及图4b,经由上述步骤,服务器10b得到了目标分类模型20a的参考模型70a,其输出表示为F:Rn→{1...m},即给定输入数据输出标签/>参考模型70a的损失函数记为/>攻击者可以增加一个微小的扰动r到目标图像中达到如公式(5)的效果:
服务器10b可以利用快速梯度符号法(fast gradient sign method,FGSM)制作快速噪声样本,它的主要思想是找到参考模型70a基于目标图像的梯度变化最大的方向,并沿着该梯度方向向目标图像中的像素添加扰动。变化的方向可以用雅可比矩阵表示,如公式(6)所示:
需要注意的是,公式(3)中的雅可比矩阵表示的是分类等效初始模型20b的输出对输入求梯度变化最大方向,公式(6)是在参考模型70a在确定的情况下,其模型结构信息对输入求梯度变化最大的方向。
则参考模型可以公式(7)得到针对目标图像的快速噪声样本:
其中ε是服务器10b攻击时,影响目标分类模型20a准确性的扰动因子。该扰动因子越大,对抗性样本(即快速噪声样本+目标图像)的噪声就越大,攻击效果越明显,但同时被人类感知的可能性就越大。但是,快速噪声样本很大程度上取决于参考模型70a的梯度方向,当训练分类等效初始模型20b完毕时该梯度方向是恒定的,因此快速噪声样本会在某种程度上显示该梯度特征,请一并参见图5,是本申请实施例提供的一种快速噪声样本部分像素点示意图。如图5所示,当ε分别取0.11、0.08以及0.05时,其分别对应的梯度曲线10a、梯度曲线20a以及梯度曲线30a关于参考模型70a中的梯度特征都非常明显,那么目标分类模型20a可以很容易地发现,进而消除该快速噪声样本。
如上所述,如果通过快速梯度符号法制作快速噪声样本,则在对抗训练时很容易提取其梯度特征。服务器10b可以增加快速噪声样本的信息熵去模糊噪声样本的梯度特征,迫使目标分类模型20a的防御系统付出更大的代价来学习到这些特征。
快速噪声样本的每个像素点的信息熵可以以公式(8)表示为:
ε是一个随机变量,μ表示随机变量中ε的取值数量,仅当ε的值分配为独立的相等概率时,才可获得最大Hfast_noise_pix,如公式(9)所示:
Hfast_noise_pix的值与扰动因子的具体取值无关,因此无论扰动因子取值多少,快速噪声样本的特征都非常明显。增加快速噪声样本的噪声熵的最简单方法是增加μ,即增加ε的取值数量。因此在本申请中,ε不是常数,而是具有相同取值概率的随机变量[ε12...ε],则快速噪声样本每个像素的最大信息熵可以表示用公式(10)表示:
每个像素值的信息熵增量为:
ΔHnoise_pix=Hfuzzy_noise_pix-Hfast_noise_pix (11)
为了简化计算,可以使用最大信息熵来估算增量:
ΔHnoise_pix≈Hfuzzy_noise_pix-Hfast_noise_pix
=logkμ-logμ
=logk (12)
如果给定的快速噪声样本具有n个像素,则总的熵增量将为:
ΔHnoise=nlogk (13)
最后,随着信息熵的增加,快速噪声样本变得越来越模糊,生成针对目标图像的原始噪声。
步骤S203,将第一噪声和原始噪声输入对抗模型,在对抗模型满足收敛条件时,输出与第一噪声对应的第二噪声;第二噪声为增强原始噪声信息熵的噪声。
具体的,对抗模型包括生成模型以及判别模型;获取样本生成模型以及样本判别模型;根据样本生成模型,生成第一噪声对应的预测生成噪声;根据预测生成噪声以及原始噪声,训练样本判别模型,得到判别模型;根据判别模型以及预测生成噪声,训练样本生成模型,直至判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为生成模型;噪声匹配度表征原始噪声与预测生成噪声之间的噪声匹配程度;将生成模型针对第一噪声所生成的预测增强噪声确定为第二噪声。
由步骤S103得到的原始噪声不足以掩盖快速噪声样本的梯度特征,更好的方法是令扰动因子随机分布,可以建立对抗模型来学习和重现该随机分布,生成第二噪声,即第二噪声为增强原始噪声信息熵的噪声。请参见图6,是本申请实施例提供的一种对抗模型的结构示意图。对抗模型包括生成模型以及判别模型,对于生成模型,输入为第一噪声z,输出为预测生成噪声,本申请中的生成模型可以是任意深度神经模型,比如卷积神经网络、全卷积神经网络等。对于判别模型亦如此,是常见的判别器,输入为噪声,输出为噪声的真伪标签,例如标签“1”代表上述噪声为原始噪声,标签“0”代表上述噪声为预测生成噪声。实际上,判别模型输入的噪声是预测生成噪声,当判别模型的输出为标签“1”时,表明生成模型所生成的噪声贴近原始噪声,以至于可以骗过判别模型,让其认为该噪声是原始噪声。
想要获取与原始噪声非常贴近,且又增强原始噪声信息熵的第二噪声,需要对样本生成模型以及样本判别模型进行训练,请参见图7,是本申请实施例提供的一种训练样本对抗模型的场景示意图。如图7所示,先将第一噪声z输入生成器(即样本生成模型),经过生成器的卷积和池化等操作后,输出第一噪声z的预测生成噪声。将预测生成噪声作为假噪声样本,将原始噪声作为真噪声样本,训练鉴别器(即样本判别模型)能准确鉴别真噪声样本与假噪声样本,得到判别模型。当判别模型确定后,将上述预测噪声样本作为真噪声样本,输入判别模型,此时判别模型会根据上述预测噪声样本与原始噪声生成噪声匹配度,当噪声匹配度小于噪声匹配度阈值时,判别模型会将噪声匹配度反馈至样本生成模型,进而调整样本生成模型的内部结构参数,生成新的预测噪声样本输入判别模型。直至判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为生成模型,此时,对抗模型将生成模型针对第一噪声所生成的预测增强噪声确定为第二噪声,即图7中的模糊噪声样本。
步骤S204,根据第二噪声以及目标图像,生成目标图像对应的增强噪声图像;增强噪声图像在目标分类模型中的分类准确度小于目标图像在目标分类模型中的分类准确度。
具体的,根据第二噪声的噪声向量,将目标图像转换成与噪声向量的维度相同的目标图像向量;获取噪声向量中的数值Pi,获取目标图像向量中的数值Qi;i为小于或等于N的正整数,N为噪声向量或目标图像向量的维度数量;数值Pi是指噪声向量中第i维度对应的数值,数值Qi是指目标图像向量中第i维度对应的数值;对数值Pi与数值Qi进行数值相加运算,生成数值Ri;根据数值Ri,生成与目标图像的维度相同的增强噪声图像。
将模糊噪声样本(第二噪声)加入到目标图像中生成模糊对抗样本(增强噪声图像),如公式(14)所示:
增强噪声图像会使得目标分类模型做出错误的分类结果,并且不会被目标分类模型中的对抗训练轻易地发现与清除。请参见图8,是本申请实施例提供的一种训练精度对比示意图。如图8所示,曲线40代表目标图像对应的精度,曲线50代表增强噪声图像对应的精度,随着训练轮数的增加,参考模型在目标图像的分类准确度越来越高,最后达到97%左右。但是参考模型在增强噪声图像上的分类准确度就逊色了很多,最后的分类准确率仅仅有73%左右,可以证明增强噪声图像对黑盒网络(即目标分类模型)的攻击是有效果的。
进一步地,请参见图9,是本申请实施例提供的一种增强噪声图像的部分像素示意图。如图9所示,梯度曲线10b所对应的扰动因子ε、梯度曲线20b所对应的扰动因子ε以及梯度曲线30b对应的扰动因子ε均不同,其服从随机分布。请再参见图5,但两副图像形成鲜明对比,增强噪声图像中的每个像素点上的梯度值毫无规律可循,这很好地印证了“模糊”二字,无疑给目标分类模型的防御工作增加了困难。
进一步地,请参见图10a,是本申请实施例提供的一种训练精度对比示意图。图10a是在参考模型进行对抗训练之前的测试结果,其中,曲线10a表示加入原始噪声的目标图像对于不同训练次数的精度曲线,曲线20a表示加入第二噪声的目标图像(即增强噪声图像)对于不同训练次数的精度曲线,曲线30a表示加入随机噪声的目标图像对于不同训练次数的精度曲线,曲线40a表示目标图像对于不同训练次数的精度曲线,可以比较出原始噪声对参考模型的攻击效果比模糊对抗样本(即第二噪声)对参考模型的攻击效果好。进一步地,请参见图10b,是本申请实施例提供的一种训练精度对比示意图。图10b是在参考模型进行对抗训练之后的测试结果,其中,曲线10b表示加入原始噪声的目标图像对于不同训练次数的精度曲线,曲线20b表示加入第二噪声的目标图像(即增强噪声图像)对于不同训练次数的精度曲线,曲线30b表示加入随机噪声的目标图像对于不同训练次数的精度曲线,曲线40b表示目标图像对于不同训练次数的精度曲线。明显地,经过对抗训练之后,虽然参考模型在加入原始噪声的目标图像上、加入第二噪声的目标图像上准确度均有所提升,但是加入原始噪声的攻击效果明显弱了很多,而第二噪声还能保持可观的攻击效果。另外,由曲线30b所代表的随机噪声可知,它对参考模型的影响在对抗训练前后并没有什么区别,这可以说明模糊噪声样本(即第二噪声)和普通的随机噪声实质上是不一样的。
进一步地,请参见图11,是本申请实施例提供的一种图像识别的场景示意图。如图11所示,目标图像200中的手写数字为“4”,参考模型400是根据非法模型所构建的,即非法模型为目标分类模型,其构建过程请参见图3所对应的实施例,此处不再进行赘述。非法分子利用非法模型可以识别各大应用的图像,根据获取到的图像信息来攻击应用使其网络奔溃。防御技术者通过对抗模型获取针对目标图像200的第二噪声100,通过将第二噪声100以及目标图像200的像素叠加,生成针对目标图像200的增强噪声图像300。通过肉眼,依然能判断增强噪声图像300的手写数字为“4”。参考模型400获取到上述增强噪声图像300时,会生成针对增强噪声图像300的分类信息500,如图11所示,表明参考模型500进行分类时,判定增强噪声图像300有0.8的概率为9,0.2的概率为4,其最后的输出信息600为“9”,即参考模型400对上述增强噪声图像300进行分类时,生成错误的分类结果,由此可知非法模型也会生成错误的分类结果。则可以降低非法模型的识别准确率,保证数据的安全性。
本申请实施例通过根据目标分类模型,生成与所述目标分类模型分类等效的参考模型;获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。上述可知,通过构建一个与目标分类模型(黑盒模型)功能等效的参考模型(白盒模型),可以生成针对目标图像的原始噪声,在上述原始噪声的基础上,通过对抗模型增加原始噪声的噪声信息熵,得到第二噪声,即模糊对抗样本,它给传统防御方法带来了巨大挑战。并且对抗模型产生的模糊对抗样本是无穷尽的,海量的模糊对抗样本又进一步增加了防御工作的难度。将上述第二噪声与上述目标图像进行叠加,得到人眼察觉不出变化的增强噪声图像,但目标分类模型无法准确对该增强噪声图像进行分类,即降低了目标分类模型的准确性。同理,当将重要的图像加上针对该图像的上述第二噪声后,非法目标分类模型无法识别上述重要图像,保证了数据安全性。
进一步地,请参见图12,是本申请实施例提供的一种对抗图像生成装置的结构示意图。对抗图像生成装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该对抗图像生成装置1为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示,该对抗图像生成装置1可以包括:第一生成模块11、第二生成模块12、输出噪声模块13以及第三生成模块14。
第一生成模11,用于根据目标分类模型,生成与上述目标分类模型分类等效的参考模型;
第二生成模块12,用于获取目标图像,根据上述参考模型生成针对上述目标图像的原始噪声;
输出噪声模块13,用于将第一噪声和上述原始噪声输入对抗模型,在上述对抗模型满足收敛条件时,输出与上述第一噪声对应的第二噪声;上述第二噪声为增强上述原始噪声信息熵的噪声;
第三生成模块14,用于根据上述第二噪声以及上述目标图像,生成上述目标图像对应的增强噪声图像;上述增强噪声图像在上述目标分类模型中的分类准确度小于上述目标图像在上述目标分类模型中的分类准确度。
其中,第一生成模块11、第二生成模块12、输出噪声模块13以及第三生成模块14的具体功能实现方式可以参见图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
再请参见图12,输出噪声模块13可以包括:获取样本单元131、生成预测单元132、训练样本单元133、确定模型单元134以及确定噪声单元135。
获取样本单元131,用于获取样本生成模型以及样本判别模型;
生成预测单元132,用于根据上述样本生成模型,生成上述第一噪声对应的预测生成噪声;
训练样本单元133,用于根据上述预测生成噪声以及上述原始噪声,训练上述样本判别模型,得到上述判别模型;
确定模型单元134,用于根据上述判别模型以及上述预测生成噪声,训练上述样本生成模型,直至上述判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为上述生成模型;上述噪声匹配度表征上述原始噪声与上述预测生成噪声之间的噪声匹配程度;
确定噪声单元135,用于将上述生成模型针对上述第一噪声所生成的预测增强噪声确定为上述第二噪声。
其中,获取样本单元131、生成预测单元132、训练样本单元133、确定模型单元134以及确定噪声单元135的具体功能实现方式可以参见图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图12,第二生成模块12还可以包括:确定梯度单元121以及生成噪声单元122。
确定梯度单元121,用于根据上述参考模型的模型结构信息,确定上述目标图像在上述参考模型中的梯度信息;
生成噪声单元122,用于获取扰动因子,基于上述梯度信息以及上述扰动因子,生成针对上述目标图像的上述原始噪声。
其中,确定梯度单元121以及生成噪声单元122的具体功能实现方式可以参见图3对应实施例中的步骤S102,这里不再进行赘述。
再请参见图12,第一生成模块11可以包括:第一生成单元111、第二生成单元112以及第三生成单元113。
第一生成单元111,用于根据上述目标分类模型,生成分类等效初始模型;
第二生成单元112,用于获取第一张量集合,将上述第一张量集合输入上述目标分类模型,得到与上述第一张量集合对应的输出张量集合;
第三生成单元113,用于将上述第一张量集合作为训练样本,将上述输出张量集合作为样本标签,根据上述训练样本和上述样本标签训练上述分类等效初始模型,得到与上述目标分类模型分类等效的上述参考模型。
其中,第一生成单元111、第二生成单元112以及第三生成单元113的具体功能实现方式可以参见图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图12,第一生成单元111可以包括:确定样本子单元1111、第一生成子单元1112、第二生成子单元1113以及确定初始子单元1114。
确定样本子单元1111,用于根据上述目标分类模型,确定样本图像集以及至少两个样本模型;
第一生成子单元1112,用于根据上述目标分类模型,得到与上述样本图像集对应的目标分类信息;
第二生成子单元1113,用于根据上述至少两个样本模型,得到与上述样本图像集分别对应的预测分类信息;
确定初始子单元1114,用于根据上述目标分类信息以及至少两个预测分类信息,从上述至少两个样本模型中确定上述分类等效初始模型。
其中,确定样本子单元1111、第一生成子单元1112、第二生成子单元1113以及确定初始子单元1114的具体功能实现方式可以参见图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图12,确定初始子单元1114可以包括:统计交叉熵子单元11141以及确定初始子单元11142。
统计交叉熵子单元11141,用于统计上述至少两个预测分类信息中每个预测分类信息分别与上述目标分类信息之间的交叉熵,得到至少两个交叉熵;
确定初始子单元11142,用于在上述至少两个交叉熵中确定最小交叉熵,将上述最小交叉熵对应的预测分类信息所属的样本模型,确定为上述分类等效初始模型。
其中,统计交叉熵子单元11141以及确定初始子单元11142的具体功能实现方式可以参见图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图12,第三生成单元113可以包括:输入样本子单元1131、第一确定子单元1132以及第二确定子单元1133。
输入样本子单元1131,用于将上述训练样本以及上述样本标签输入上述分类等效初始模型;
第一确定子单元1132,用于根据上述分类等效初始模型,得到与上述训练样本对应的预测标签;
第二确定子单元1133,用于根据上述预测标签以及上述样本标签,训练上述分类等效初始模型,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型确定为上述参考模型;上述模型损失值基于上述预测标签以及上述样本标签生成。
其中,输入样本子单元1131、第一确定子单元1132以及第二确定子单元1133的具体功能实现方式可以参见图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图12,第三生成模块14可以包括:转换维度单元141、获取数值单元142、生成数值单元143以及增强图像单元144。
转换维度单元141,用于根据上述第二噪声的噪声向量,将上述目标图像转换成与上述噪声向量的维度相同的目标图像向量;
获取数值单元142,用于获取上述噪声向量中的数值Pi,获取上述目标图像向量中的数值Qi;i为小于或等于N的正整数,N为上述噪声向量或上述目标图像向量的维度数量;上述数值Pi是指上述噪声向量中第i维度对应的数值,上述数值Qi是指上述目标图像向量中第i维度对应的数值;
生成数值单元143,用于对上述数值Pi与上述数值Qi进行数值相加运算,生成数值Ri
增强图像单元144,用于根据上述数值Ri,生成与上述目标图像的维度相同的上述增强噪声图像。
其中,转换维度单元141、获取数值单元142、生成数值单元143以及增强图像单元144的具体功能实现方式可以参见图3对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例通过根据目标分类模型,生成与所述目标分类模型分类等效的参考模型;获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。上述可知,通过构建一个与目标分类模型(黑盒模型)功能等效的参考模型(白盒模型),可以生成针对目标图像的原始噪声,在上述原始噪声的基础上,通过对抗模型增加原始噪声的噪声信息熵,得到第二噪声,即模糊对抗样本,它给传统防御方法带来了巨大挑战。并且对抗模型产生的模糊对抗样本是无穷尽的,海量的模糊对抗样本又进一步增加了防御工作的难度。将上述第二噪声与上述目标图像进行叠加,得到人眼察觉不出变化的增强噪声图像,但目标分类模型无法准确对该增强噪声图像进行分类,即降低了目标分类模型的准确性。同理,当将重要的图像加上针对该图像的上述第二噪声后,非法目标分类模型无法识别上述重要图像,保证了数据安全性。
请参见图13,是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图13所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据目标分类模型,生成与上述目标分类模型分类等效的参考模型;
获取目标图像,根据上述参考模型生成针对上述目标图像的原始噪声;
将第一噪声和上述原始噪声输入对抗模型,在上述对抗模型满足收敛条件时,输出与上述第一噪声对应的第二噪声;上述第二噪声为增强上述原始噪声信息熵的噪声;
根据上述第二噪声以及上述目标图像,生成上述目标图像对应的增强噪声图像;上述增强噪声图像在上述目标分类模型中的分类准确度小于上述目标图像在上述目标分类模型中的分类准确度。
在一个实施例中,上述对抗模型包括生成模型以及判别模型;
处理器1001在执行将第一噪声和上述原始噪声输入对抗模型,在上述对抗模型满足收敛条件时,输出与上述第一噪声对应的第二噪声时,具体执行以下步骤:
获取样本生成模型以及样本判别模型;
根据上述样本生成模型,生成上述第一噪声对应的预测生成噪声;
根据上述预测生成噪声以及上述原始噪声,训练上述样本判别模型,得到上述判别模型;
根据上述判别模型以及上述预测生成噪声,训练上述样本生成模型,直至上述判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为上述生成模型;上述噪声匹配度表征上述原始噪声与上述预测生成噪声之间的噪声匹配程度;
将上述生成模型针对上述第一噪声所生成的预测增强噪声确定为上述第二噪声。
在一个实施例中,处理器1001在执行根据上述参考模型生成针对上述目标图像的原始噪声时,具体执行以下步骤:
根据上述参考模型的模型结构信息,确定上述目标图像在上述参考模型中的梯度信息;
获取扰动因子,基于上述梯度信息以及上述扰动因子,生成针对上述目标图像的上述原始噪声。
在一个实施例中,处理器1001在执行根据目标分类模型,生成与上述目标分类模型分类等效的参考模型时,具体执行以下步骤:
根据上述目标分类模型,生成分类等效初始模型;
获取第一张量集合,将上述第一张量集合输入上述目标分类模型,得到与上述第一张量集合对应的输出张量集合;
将上述第一张量集合作为训练样本,将上述输出张量集合作为样本标签,根据上述训练样本和上述样本标签训练上述分类等效初始模型,得到与上述目标分类模型分类等效的上述参考模型。
在一个实施例中,处理器1001在执行根据上述目标分类模型,生成分类等效初始模型时,具体执行以下步骤:
根据上述目标分类模型,确定样本图像集以及至少两个样本模型;
根据上述目标分类模型,得到与上述样本图像集对应的目标分类信息;
根据上述至少两个样本模型,得到与上述样本图像集分别对应的预测分类信息;
根据上述目标分类信息以及至少两个预测分类信息,从上述至少两个样本模型中确定上述分类等效初始模型。
在一个实施例中,处理器1001在执行根据上述目标分类信息以及至少两个预测分类信息,从上述至少两个样本模型中确定上述分类等效初始模型时,具体执行以下步骤:
统计上述至少两个预测分类信息中每个预测分类信息分别与上述目标分类信息之间的交叉熵,得到至少两个交叉熵;
在上述至少两个交叉熵中确定最小交叉熵,将上述最小交叉熵对应的预测分类信息所属的样本模型,确定为上述分类等效初始模型。
在一个实施例中,处理器1001在执行根据上述训练样本和上述样本标签训练上述分类等效初始模型,得到与上述目标分类模型分类等效的上述参考模型时,具体执行以下步骤:
将上述训练样本以及上述样本标签输入上述分类等效初始模型;
根据上述分类等效初始模型,得到与上述训练样本对应的预测标签;
根据上述预测标签以及上述样本标签,训练上述分类等效初始模型,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型确定为上述参考模型;上述模型损失值基于上述预测标签以及上述样本标签生成。
在一个实施例中,处理器1001在执行根据上述第二噪声以及上述目标图像,生成上述目标图像对应的增强噪声图像时,具体执行以下步骤:
根据上述第二噪声的噪声向量,将上述目标图像转换成与上述噪声向量的维度相同的目标图像向量;
获取上述噪声向量中的数值Pi,获取上述目标图像向量中的数值Qi;i为小于或等于N的正整数,N为上述噪声向量或上述目标图像向量的维度数量;上述数值Pi是指上述噪声向量中第i维度对应的数值,上述数值Qi是指上述目标图像向量中第i维度对应的数值;
对上述数值Pi与上述数值Qi进行数值相加运算,生成数值Ri
根据上述数值Ri,生成与上述目标图像的维度相同的上述增强噪声图像。
本申请实施例通过根据目标分类模型,生成与所述目标分类模型分类等效的参考模型;获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。上述可知,通过构建一个与目标分类模型(黑盒模型)功能等效的参考模型(白盒模型),可以生成针对目标图像的原始噪声,在上述原始噪声的基础上,通过对抗模型增加原始噪声的噪声信息熵,得到第二噪声,即模糊对抗样本,它给传统防御方法带来了巨大挑战。并且对抗模型产生的模糊对抗样本是无穷尽的,海量的模糊对抗样本又进一步增加了防御工作的难度。将上述第二噪声与上述目标图像进行叠加,得到人眼察觉不出变化的增强噪声图像,但目标分类模型无法准确对该增强噪声图像进行分类,即降低了目标分类模型的准确性。同理,当将重要的图像加上针对该图像的上述第二噪声后,非法目标分类模型无法识别上述重要图像,保证了数据安全性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图3中各个步骤所提供的对抗图像生成方法,具体可参见图3各个步骤所提供的实现方式,在此不再赘述。
计算机可读存储介质可以是前述任一实施例提供的对抗图像生成装置或者计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (6)

1.一种对抗图像生成方法,其特征在于,包括:
根据目标分类模型,确定样本图像集以及至少两个样本模型;
根据所述目标分类模型,得到与所述样本图像集对应的目标分类信息;
根据所述至少两个样本模型,得到与所述样本图像集分别对应的预测分类信息;
统计至少两个预测分类信息中每个预测分类信息分别与所述目标分类信息之间的交叉熵,得到至少两个交叉熵;
在所述至少两个交叉熵中确定最小交叉熵,将所述最小交叉熵对应的预测分类信息所属的样本模型,确定为分类等效初始模型;
获取第一张量集合,将所述第一张量集合输入所述目标分类模型,得到与所述第一张量集合对应的输出张量集合;
将所述第一张量集合作为训练样本,将所述输出张量集合作为样本标签,将所述训练样本以及所述样本标签输入所述分类等效初始模型;
根据所述分类等效初始模型,得到与所述训练样本对应的预测标签;
根据所述预测标签以及所述样本标签,训练所述分类等效初始模型,直至模型损失值小于模型损失值阈值时,将训练后的分类等效初始模型确定为参考模型;所述模型损失值基于所述预测标签以及所述样本标签生成;
获取目标图像,根据所述参考模型生成针对所述目标图像的原始噪声;
将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声;所述第二噪声为增强所述原始噪声信息熵的噪声;
根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像;所述增强噪声图像在所述目标分类模型中的分类准确度小于所述目标图像在所述目标分类模型中的分类准确度。
2.根据权利要求1所述的方法,其特征在于,所述对抗模型包括生成模型以及判别模型;
所述将第一噪声和所述原始噪声输入对抗模型,在所述对抗模型满足收敛条件时,输出与所述第一噪声对应的第二噪声,包括:
获取样本生成模型以及样本判别模型;
根据所述样本生成模型,生成所述第一噪声对应的预测生成噪声;
根据所述预测生成噪声以及所述原始噪声,训练所述样本判别模型,得到所述判别模型;
根据所述判别模型以及所述预测生成噪声,训练所述样本生成模型,直至所述判别模型所输出的噪声匹配度大于噪声匹配度阈值时,将训练后的样本生成模型确定为所述生成模型;所述噪声匹配度表征所述原始噪声与所述预测生成噪声之间的噪声匹配程度;
将所述生成模型针对所述第一噪声所生成的预测增强噪声确定为所述第二噪声。
3.根据权利要求1所述的方法,其特征在于,所述根据所述参考模型生成针对所述目标图像的原始噪声,包括:
根据所述参考模型的模型结构信息,确定所述目标图像在所述参考模型中的梯度信息;
获取扰动因子,基于所述梯度信息以及所述扰动因子,生成针对所述目标图像的所述原始噪声。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二噪声以及所述目标图像,生成所述目标图像对应的增强噪声图像,包括:
根据所述第二噪声的噪声向量,将所述目标图像转换成与所述噪声向量的维度相同的目标图像向量;
获取所述噪声向量中的数值Pi,获取所述目标图像向量中的数值Qi;i为小于或等于N的正整数,N为所述噪声向量或所述目标图像向量的维度数量;所述数值Pi是指所述噪声向量中第i维度对应的数值,所述数值Qi是指所述目标图像向量中第i维度对应的数值;
对所述数值Pi与所述数值Qi进行数值相加运算,生成数值Ri
根据所述数值Ri,生成与所述目标图像的维度相同的所述增强噪声图像。
5.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1至4中任一项所述方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执权利要求1至4中任一项所述方法的步骤。
CN202010224173.7A 2020-03-26 2020-03-26 一种对抗图像生成方法、装置、设备以及可读存储介质 Active CN111475797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010224173.7A CN111475797B (zh) 2020-03-26 2020-03-26 一种对抗图像生成方法、装置、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010224173.7A CN111475797B (zh) 2020-03-26 2020-03-26 一种对抗图像生成方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111475797A CN111475797A (zh) 2020-07-31
CN111475797B true CN111475797B (zh) 2023-09-29

Family

ID=71749331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010224173.7A Active CN111475797B (zh) 2020-03-26 2020-03-26 一种对抗图像生成方法、装置、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111475797B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164026B (zh) * 2020-09-01 2022-10-25 上海交通大学 一种内窥镜息肉实时检测方法、系统及终端
CN112149608A (zh) * 2020-10-09 2020-12-29 腾讯科技(深圳)有限公司 图像识别方法、装置和存储介质
CN112766430B (zh) * 2021-01-08 2022-01-28 广州紫为云科技有限公司 基于黑盒通用人脸检测对抗攻击的方法、装置及存储介质
CN112818774A (zh) * 2021-01-20 2021-05-18 中国银联股份有限公司 一种活体检测方法及装置
CN112860932B (zh) * 2021-02-19 2022-08-12 电子科技大学 抵御恶意样本攻击的图像检索方法、装置、设备及存储介质
CN112949706B (zh) * 2021-02-25 2024-01-05 平安科技(深圳)有限公司 Ocr训练数据生成方法、装置、计算机设备及存储介质
CN112633424B (zh) * 2021-03-10 2021-06-22 腾讯科技(深圳)有限公司 图像处理方法、装置、图像处理设备及存储介质
CN112990015B (zh) * 2021-03-16 2024-03-19 北京智源人工智能研究院 一种病变细胞自动识别方法、装置和电子设备
CN113449783B (zh) * 2021-06-17 2022-11-08 广州大学 一种对抗样本生成方法、系统、计算机设备和存储介质
CN113487545A (zh) * 2021-06-24 2021-10-08 广州玖的数码科技有限公司 一种面向姿态估计深度神经网络的扰动图像生成方法
CN113628150B (zh) * 2021-07-05 2023-08-08 深圳大学 攻击图像生成方法、电子设备及可读存储介质
CN115797479B (zh) * 2021-09-09 2024-05-24 北京三快在线科技有限公司 地标图像的生成方法、装置、计算机设备和存储介质
CN114169392A (zh) * 2021-10-29 2022-03-11 阿里巴巴(中国)有限公司 模型训练方法及装置、任务处理方法、存储介质和处理器
CN115909020B (zh) * 2022-09-30 2024-01-09 北京瑞莱智慧科技有限公司 模型鲁棒性检测方法、相关装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992931A (zh) * 2019-02-27 2019-07-09 天津大学 一种基于噪声压缩的可迁移的非黑盒攻击对抗方法
CA3033014A1 (en) * 2018-02-07 2019-08-07 Royal Bank Of Canada Robust pruned neural networks via adversarial training
CN110120024A (zh) * 2019-05-20 2019-08-13 百度在线网络技术(北京)有限公司 图像处理的方法、装置、设备和存储介质
CN110147456A (zh) * 2019-04-12 2019-08-20 中国科学院深圳先进技术研究院 一种图像分类方法、装置、可读存储介质及终端设备
CN110516695A (zh) * 2019-07-11 2019-11-29 南京航空航天大学 面向医学图像分类的对抗样本生成方法及系统
WO2019237860A1 (zh) * 2018-06-15 2019-12-19 腾讯科技(深圳)有限公司 一种图像标注方法和装置
CN110728319A (zh) * 2019-09-30 2020-01-24 中国科学院深圳先进技术研究院 一种图像生成方法、装置以及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839291B2 (en) * 2017-07-01 2020-11-17 Intel Corporation Hardened deep neural networks through training from adversarial misclassified data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3033014A1 (en) * 2018-02-07 2019-08-07 Royal Bank Of Canada Robust pruned neural networks via adversarial training
WO2019237860A1 (zh) * 2018-06-15 2019-12-19 腾讯科技(深圳)有限公司 一种图像标注方法和装置
CN109992931A (zh) * 2019-02-27 2019-07-09 天津大学 一种基于噪声压缩的可迁移的非黑盒攻击对抗方法
CN110147456A (zh) * 2019-04-12 2019-08-20 中国科学院深圳先进技术研究院 一种图像分类方法、装置、可读存储介质及终端设备
CN110120024A (zh) * 2019-05-20 2019-08-13 百度在线网络技术(北京)有限公司 图像处理的方法、装置、设备和存储介质
CN110516695A (zh) * 2019-07-11 2019-11-29 南京航空航天大学 面向医学图像分类的对抗样本生成方法及系统
CN110728319A (zh) * 2019-09-30 2020-01-24 中国科学院深圳先进技术研究院 一种图像生成方法、装置以及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任奎 ; Tianhang Zheng ; 秦湛 ; Xue Liu ; .深度学习中的对抗性攻击和防御.Engineering.2020,(第03期),103-106页. *

Also Published As

Publication number Publication date
CN111475797A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111475797B (zh) 一种对抗图像生成方法、装置、设备以及可读存储介质
WO2021189364A1 (zh) 一种对抗图像生成方法、装置、设备以及可读存储介质
Hu et al. A novel image steganography method via deep convolutional generative adversarial networks
Tang et al. CNN-based adversarial embedding for image steganography
CN109948658B (zh) 面向特征图注意力机制的对抗攻击防御方法及应用
Carlini et al. Towards evaluating the robustness of neural networks
CN111310802B (zh) 一种基于生成对抗网络的对抗攻击防御训练方法
CN108111489B (zh) Url攻击检测方法、装置以及电子设备
WO2022161286A1 (zh) 图像检测方法、模型训练方法、设备、介质及程序产品
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN114331829A (zh) 一种对抗样本生成方法、装置、设备以及可读存储介质
EP3648015A2 (en) A method for training a neural network
CN111178504B (zh) 基于深度神经网络的鲁棒压缩模型的信息处理方法及系统
Wang et al. SmsNet: A new deep convolutional neural network model for adversarial example detection
CN114078201B (zh) 多目标类别对抗样本生成方法及相关设备
CN111160555A (zh) 基于神经网络的处理方法、装置及电子设备
CN114387449A (zh) 一种应对神经网络对抗性攻击的图像处理方法及系统
Mareen et al. Comprint: Image forgery detection and localization using compression fingerprints
CN112861759B (zh) 一种对抗样本生成方法及装置
CN113255526A (zh) 基于动量的对人群计数模型的对抗样本生成方法及系统
CN113034332A (zh) 不可见水印图像、后门攻击模型构建、分类方法及系统
CN115277065B (zh) 一种物联网异常流量检测中的对抗攻击方法及装置
Huang et al. Anti-forensics for double JPEG compression based on generative adversarial network
Singh et al. Image forgery detection: comprehensive review of digital forensics approaches
CN113313132B (zh) 对抗样本图像的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant