CN114299313B - 对抗扰动生成方法、装置及存储介质 - Google Patents

对抗扰动生成方法、装置及存储介质 Download PDF

Info

Publication number
CN114299313B
CN114299313B CN202111596061.5A CN202111596061A CN114299313B CN 114299313 B CN114299313 B CN 114299313B CN 202111596061 A CN202111596061 A CN 202111596061A CN 114299313 B CN114299313 B CN 114299313B
Authority
CN
China
Prior art keywords
image
probability distribution
recognition model
image recognition
disturbance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111596061.5A
Other languages
English (en)
Other versions
CN114299313A (zh
Inventor
田天
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202111596061.5A priority Critical patent/CN114299313B/zh
Publication of CN114299313A publication Critical patent/CN114299313A/zh
Application granted granted Critical
Publication of CN114299313B publication Critical patent/CN114299313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例涉及计算机视觉领域,一些实施例提供了一种对抗扰动生成方法、装置及存储介质。该方法包括:获取原始图像、第一图像识别模型和对抗扰动;将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果;计算所述输出结果与攻击目标标签之间的相似度;若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述输出结果与攻击目标标签之间的相似度达到第一预设阈值,并将更新后的对抗扰动作为目标对抗扰动。本申请实施例可以基于知识蒸馏得到的代理模型生成对抗图像,由于知识蒸馏时,代理模型学习到了更加全面的特征,从而生成的对抗图像能够迁移攻击更多不同的图像识别模型。

Description

对抗扰动生成方法、装置及存储介质
技术领域
本申请实施例涉及计算机视觉领域,更具体地涉及一种对抗扰动生成方法、装置及存储介质。
背景技术
在实际分类任务中,待识别的图像不可避免地存在一些包含干扰的对象,如果需要通过图像识别模型对该包含干扰的图象准确进行分类,则需要图像识别模型具有较高的抗干扰能力。相关技术中,一般通过对抗图像来对待检测的图像识别模型(例如商业模型)的抗干扰能力进行检测。通常采用基于询问的方法和基于迁移的方法来生成对抗图像。
由于基于询问的方法需要多次访问待检测的图像识别模型,而商用模型(例如手机或门禁的人脸识别模型)一般都是黑盒模型,且通常都会设置限制访问策略。由此,很难通过基于询问的方法生成针对商用模型的对抗图像。对于商用模型,通常采用基于迁移的方法生成用于检测商业模型的抗干扰能力的对抗图像。
基于迁移的方法需要在与商用模型具有相同识别特性的代理模型上生成对抗图像,即需要预先获取受害模型,才能在该受害模型生成对抗图像,然后利用该对抗图像对商用模型进行迁移攻击,以确定待检测的商用模型的抗干扰能力。
然而,现有的基于迁移的方法,往往需要针对每个待检测模型,都对应的选取一个代理模型来生成对抗图像,生成的对抗图像只能对有限数量的图像识别模型成功地迁移攻击,可见,基于该方法生成的对抗图像的迁移攻击性能较弱,即基于与待检测模型不匹配的代理模型生成的对抗图像,影响对待检测模型的抗干扰能力的检测效果,甚至无法检测抗干扰能力。
发明内容
本申请实施例提供一种对抗扰动生成方法、装置及存储介质,可以基于知识蒸馏得到的代理模型生成对抗图像,由于知识蒸馏时,代理模型学习到了更加全面的特征,从而生成的对抗图像上含有的错误类别的特征与对应的攻击目标类别更加匹配,能够迁移攻击更多不同的图像识别模型,从而一个对抗图像可以检测多个图像识别模型的抗干扰能力。
在本申请的第一方面中,提供了一种对抗扰动生成方法,包括:
获取原始图像、第一图像识别模型和对抗扰动,其中,所述第一图像识别模型通过知识蒸馏得到,在进行知识蒸馏时,仅通过第二图像识别模型的预测概率分布指导所述第一图像识别模型的训练;
将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果;
计算所述输出结果与攻击目标标签之间的相似度,其中,所述攻击目标标签与所述原始图像标签相同或不同;
若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,并将更新后的对抗扰动作为目标对抗扰动;
其中,所述目标对抗扰动用于叠加所述原始图像,生成对抗图像,所述对抗图像用于迁移攻击多个与所述第一图像识别模型不同的图像识别模型。
在本申请的第二方面中,提供了一种对抗扰动生成装置,包括:
输入输出模块,被配置为获取原始图像、第一图像识别模型和对抗扰动,其中,所述第一图像识别模型通过知识蒸馏得到,在进行知识蒸馏时,仅通过第二图像识别模型的预测概率分布指导所述第一图像识别模型的训练;
处理模块,被配置为计算所述输出结果与攻击目标标签之间的相似度;以及
若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,将更新后的对抗扰动作为目标对抗扰动;
其中,所述目标对抗扰动用于叠加所述原始图像,生成对抗图像,所述对抗图像用于迁移攻击多个与所述第一图像识别模型不同的图像识别模型。
在本申请的第三方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。
在本申请的第四方面中,提供了一种计算设备,包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如第一方面所述的方法。
与现有技术相比,本申请实施例中,由于知识蒸馏时,代理模型,即第一图像识别模型(学生网络模型)仅仅以第二图像识别模型(教师网络模型)基于输入图像识别出的概率分布(软标签)为学习目标,而不是输入图像的预设标签(硬标签),即第一图像识别模型不是仅仅建立输入图像中的特定对象的特征与预设标签的映射关系,而是可以学习到输入图像中各个对象的特征对应的识别结果,即学习到了更加全面的特征。由于第一图像识别模型学习到了更加全面的特征,从而在基于所述第一图像识别模型生成对抗扰动时,可以优化出在多种类别的特征上都产生影响的对抗扰动,且所述对抗扰动叠加原始图像形成对抗图像后,所述对抗图像上含有的错误类别的特征与对应的目标攻击类别会更加匹配,由此,生成的对抗图像可以迁移攻击成功更多类型的未知图像识别模型。由于得到的对抗图像可以在很多不同的未知图像识别模型上取得良好的攻击效果,在需要衡量一个新的未知图像识别模型的抗干扰能力时,无需针对这个新的图像识别模型重新对应生成对抗图像,节省了大量计算资源和存储资源,提高了对抗图像的利用率。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
图1为本申请一些实施例的对抗扰动生成方法的应用场景示意图;
图2为本申请一个实施例的对抗扰动生成方法的流程示意图;
图3为本申请一个实施例的进行知识蒸馏得到代理模型的流程示意图;
图4为本申请一个实施例的包括多个对象的示意图;
图5为本申请又一个实施例的进行知识蒸馏得到代理模型的流程示意图;
图6为本申请一个实施例的对抗扰动生成方法的流程示意图;
图7为本申请一个实施例的对抗扰动生成装置的结构示意图;
图8为本申请一个实施例的一种计算机可读存储介质的结构示意图;
图9为本申请一个实施例的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本申请的实施例意图基于通过知识蒸馏方式得到的代理模型生成具备更强迁移攻击性能的对抗图像,从而实现通过生成更少的对抗图像检测更多商用模型(例如手机或门禁的人脸识别模型、自动驾驶的目标检测等)的抗干扰能力,其中,对抗图像是指在数据集中通过故意添加细微的干扰所形成的输入图像,会导致基于人工智能中的神经网络、深度学习技术构建的图像识别模型以高置信度给出一个错误的输出。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
知识蒸馏,是一种模型压缩的常见方法,指的是在教师网络模型-学生网络模型框架中,将复杂、学习能力强的教师网络模型学到的特征表示:“知识”蒸馏出来,传递给参数量小、学习能力弱的学生网络模型。蒸馏可以提供学生网络模型在独热编码标签(硬标签)上学不到的软标签信息,这些里面包含了类别间信息,以及学生网络模型学不到而教师网络模型可以学到的特征表示“知识”,所以一般可以提高学生网络模型的精度。
代理模型,在对抗攻击时,无法直接针对要攻击的目标模型生成对抗图像,此时需要在一个与目标模型具有相同或相似识别性能的白盒模型上生成对抗图像,从而实现迁移攻击所述目标模型的目的,所述白盒模型称之为代理模型。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
特别是在人机交互这一环节,随着语音、图像作为新兴的人机输入手段,其便捷和实用性被大众所欢迎。同时随着移动设备的普及,以及移动设备对这些新兴的输入手段的集成,使得这项技术被大多数人所亲身体验。而语音、图像的识别的准确性对机器理解并执行用户指令的有效性至关重要。与此同时,这一环节也是最容易被攻击者利用,通过对数据源的细微修改,达到用户感知不到,而机器接受了该数据后做出错误的后续操作的目的。
由此,为了衡量图像识别的抗干扰能力,往往需要生成对抗图像进行测试,然而现有技术中,基于一个图像识别模型生成的对抗图像往往只能攻击成功(测试)有限的几个图像识别模型,如果需要对大量图像识别模型进行测试,则需要生成很多对抗图像,非常耗费时间和资源,如果能够基于一个图像识别模型生成能够攻击成功更多图像识别的对抗图像,将会大大节省时间和资源。
下面,首先介绍本申请的技术改进原理,然后将结合几个实施例对本申请技术方案进行详细的介绍说明。
发明概述
本发明人发现,基于迁移的方法生成的对抗图像,往往只能迁移攻击成功与代理模型具有相同特性的有限个图像识别模型,迁移攻击性能不强。
通过研究对抗图像的生成过程,发明人发现,对抗图像的迁移攻击性能与生成时所选用的代理模型密切相关,如果代理模型在训练过程中学习到的特征更加全面,那么生成的对抗图像的迁移攻击性能也越强。原因在于,图像识别模型的训练过程中,会对应每个可以识别的类别学习一些特征,采用所述图像识别模型进行预测的过程是对每个识别类别,根据学习到的有关该识别类别的特征进行打分,而对抗图像的生成过程是使其特征与目标攻击类别相关的特征更加匹配。
所以如果一个图像识别模型学习到的特征更加全面,那么基于所述图像识别模型生成的对抗图像上含有的错误类别的特征与对应的目标攻击类别更加匹配。
然而,现有的迁移攻击中,代理模型均是通过拟合训练数据训练而得,即希望代理模型的输出结果拟合训练数据的预设标签,这会导致代理模型在训练过程中只能学习到预设标签对应的特征。
知识蒸馏往往用于压缩模型,从而得到与原始的大模型具备相似或相同识别性能,但参数规模更小、结构复杂度更低的小模型。发明人在寻找能够学习到更加全面的特征的代理模型的过程中发现,通过知识蒸馏得到的图像识别模型在训练过程中学习到了更加全面的特征。原因在于,知识蒸馏时,学生网络模型的训练目标是增大与教师网络模型基于同一个输入数据的预测概率分布之间的相似度,而不是增大与训练数据的预设标签之间的相似度。由于教师网络模型基于一个输入数据的预测概率分布往往指向输入数据中包括的多个可能存在的对象。由此,学生网络模型也学习到了识别多种可能存在的对象的能力,即具备更强的泛化性能,学到了更加全面的特征。由此,发明人考虑将知识蒸馏得到的图像识别模型作为生成对抗图像时的代理模型,从而提高对抗图像的迁移攻击性能。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施例。
应用场景总览
请参考图1,其示出了本申请实施例提供的对抗扰动生成方法所涉及的一种应用环境的结构示意图。该应用环境可以包括终端01和服务器02。该终端01可以为计算机、平板电脑、智能手机等。该服务器02可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。并且该终端01与服务器02之间可以通过有线或无线网络建立连接。
该服务器02中可以部署有图像处理模型,例如图像分类模型、图像识别模型或图像检测模型等基于机器学习的方法训练得到的人工智能(Artificial Intelligence,AI)模型。其中图像识别模型可以为人脸识别模型、车牌识别模型或者路标识别模型等。图像检测模型可以为物体检测模型等。
终端01可以向该服务器02发送原始图像,服务器02可以采用图像识别模型(例如为代理模型)对该原始图像进行识别,然后根据识别结果、采用例如快速梯度符号法等现有的对抗攻击算法生成对抗图像,并向终端01反馈生成的对抗图像或目标对抗扰动。或者服务器02可以采用图像识别模型(例如为代理模型)对该原始图像进行识别,然后向终端01反馈识别结果,终端01进而可以基于目标图像以及该识别结果对原始图像进行更新,直至该图像识别模型对该更新后的原始图像的处理结果满足对抗攻击的约束条件,且更新后的原始图像与目标图像之间的相似度收敛时,可以将该更新后的原始图像确定为对抗图像,并由此确定目标对抗扰动。其中,该对抗攻击的约束条件可以为:图像识别模型对更新后的原始图像的处理结果与对目标图像的处理结果的差值大于第一差值阈值或者对更新后的原始图像的处理结果与对原始图像的处理结果的差值小于第二差值阈值。因此图像识别模型对更新后的原始图像的处理结果满足对抗攻击的约束条件即相当于:更新后的原始图像对图像识别模型对抗攻击成功。
对图像识别模型的对抗攻击可以分为有目标攻击和无目标攻击两种类型。其中,无目标攻击可以是指:图像识别模型对该对抗图像的处理结果与该图像识别模型对目标图像的处理结果不同,例如两个处理结果的差值大于第一差值阈值。有目标攻击可以是指:图像识别模型对该对抗图像的处理结果为特定的处理结果,该特定的处理结果不同于图像识别模型对目标图像的处理结果,例如两个处理结果的差值小于第二差值阈值。
需要说明的是,该实施环境中也可以仅包括终端01,而不包括该服务器02,该图像识别模型可以直接部署于终端01中。在该实现方式中,终端01也可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
本申请实施例提供的对抗扰动生成方法可以应用于迁移攻击黑盒模型中,黑盒模型是指待攻击的图像识别模型为黑盒模型,即结构和参数未知,只能通过获取图像识别模型的处理结果来生成该对抗图像。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本申请示例性实施例的用于生成对抗扰动的方法,该方法可以适用于计算设备,该计算设备可以是上文列举的应用场景中的终端01或服务器02,本申请对执行该对抗扰动生成方法的计算设备的产品形式及结构不做限定。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施例在此方面不受任何限制。相反,本申请的实施例可以应用于适用的任何场景。
在本实施方式的一个实施例中,提供一种对抗扰动生成方法,包括:
步骤S110,获取原始图像、第一图像识别模型和对抗扰动;
在本实施例中,原始图像即为生成对抗扰动的基础图像,所述原始图像可以从公开数据集中采样得到,也可以从用户预先准备好的图像库中获取,本实施例对此不做限定;所述第一图像识别模型即为用于生成对抗扰动的代理模型,在本实施例中,所述第一图像识别模型通过知识蒸馏得到,既所述第一图像识别模型为知识蒸馏过程中的学生网络模型。
接下来请参考图3,图3为通过知识蒸馏得到代理模型的一个实施例的处理流程示意图,图3中,第二图像识别模型可以是已经训练好的图像识别模型,所述第二图像识别模型的训练过程与现有技术的训练过程相同,下面介绍所述第二图像识别模型的一种训练方式:
首先,获取第二图像样本集以及所述第二图像样本集中各个第二图像样本对应的标签;
在本实施例中,所述第二图像样本集可以是从开源数据集中获取的,也可以使从用户提供的图像库中获取的,本实施例对此不做限定,为了训练第二图像识别模型,还需要获取第二图像样本集中各个第二图像样本对应的标签;
在获取到第二图像样本集之后,采用所述第二图像样本集迭代优化所述第二图像识别模型,直到达到第一预设终止条件,
在进行迭代之前,首先随机初始化所述第二图像识别模型的各个参数,使得所述第二图像识别模型具备初始的识别能力,然后再获取第二图像样本对所述图像识别模型进行更新,即使得所述第二图像识别模型拟合每个第二图像样本和对应的标签,具体来说,在每个迭代轮次:
获取一个第二图像样本输入所述第二图像识别模型,得到对应的输出结果。
所述第二图像识别模型会对所述第二图像样本进行识别,得到所述第二图像样本所有可能的候选结果,并对应每一个候选结果预测出一个概率,即所述第二图像识别模型可以基于所述第二图像样本得到一个所有候选结果的预测概率分布,作为输出结果。
由于所述第二图像样本的标签一般仅仅是一个值,即第二图像样本的类别是什么,例如第二图像样本的类别是a,为了对第二图像识别模型进行训练,往往需要使得第二图像识别模型基于第二图像样本的输出结果与所述第二图像样本的标签拟合,即相似度尽可能大,然而,孤立的标签和概率分布难以直接计算相似度。
由此,在本实施例中,还需要将所述第二图像样本的标签转换为独热编码向量,所述独热编码向量包括预设数量的维度,所述预设数量为所述第二图像样本集中的标签空间中的标签数量,所述标签空间为所述第二图像样本集中各个图像的标签的集合,且不存在重复的标签;
也就是说,本实施例中,首先基于所有存在的候选结果构建一个独热编码向量,所述独热编码向量包括所有候选结果及对应的概率值,所有候选结果中,只有第二图像样本的预设标签对应的候选结果的概率值为100%,其他候选结果均为0,构建得到所述独热编码向量之后,由于所述独热编码向量与所述输出结果的维度对应,即可与所述输出结果(预测概率分布)计算相似度。
需要说明的是,将第二图像样本的标签转换为独热编码向量的步骤也可以事先进行,而不是在每个迭代轮次进行,在每个迭代轮次,直接计算当前迭代轮次获取的第二图像样本的独热编码向量与对应的输出结果之间的相似度即可。
可以理解的是,由于第一预设终止条件可能有很多种情况,在一些情况下,整个迭代过程并不会遍历第二图像样本集,例如第二图像识别模型很快达到收敛条件,不需要继续迭代,且第二图像样本集中第二图像样本并未完全遍历,由此,在本实施例中,如果只在每个迭代轮次将当前迭代轮次使用的第二图像样本的标签转换,可以节省一些计算资源和存储资源,避免一些第二图像样本的标签被转换为独热编码向量后闲置,浪费计算资源和存储资源。
在本实施例中,计算所述独热编码向量与所述输出结果之间的相似度,可以采用欧氏距离、曼哈顿距离、余弦相似度等等现有的距离/相似度计算方式,本实施例对此不做限定;
在计算得到所述独热编码向量与所述输出结果之间的相似度之后,即可以使所述独热编码向量与所述输出结果之间的相似度变大为目标,更新所述第二图像识别模型的参数,具体来说,可以通过梯度优化法、最小二乘法、牛顿法或拟牛顿法等神经网络模型的参数更新方法;例如,通过梯度优化法可以计算所述相似度相对各个参数的梯度,然后根据各个参数的梯度正负方向,确定调大或调小各个参数值,以此完成模型的参数更新。
在本实施例中,所述第一预设终止条件至少包括以下中的一个:遍历第二图像样本集、迭代预设轮次和所述第二图像识别模型收敛。
可以理解的是,以上只是一个训练第二图像识别模型的具体示例,并不代表本申请的第二图像识别模型仅可通过以上方式训练得到,恰恰相反的是,本申请的第二图像识别模型可以基于现有的任何训练图像识别模型的方式得到,或者也可以是直接获取的已训练完成的模型。
在说明如何得到第二图像识别模型之后,接下来继续介绍如何基于第二图像识别模型进行知识蒸馏,得到用于生成对抗图像的第一图像识别模型(代理模型),在一个实施例中,如图3所示,所述第一图像识别模型通过以下步骤进行知识蒸馏得到,包括:
获取待训练的第一图像识别模型、第二图像识别模型和第一图像样本;
在本实施例中,所述第一图像样本即为图3中所示的输入1,在明确各个对象的概念和定义之后,接下来,将所述第一图像样本输入所述第二图像识别模型,得到所述第二图像识别模型基于所述第一图像样本输出的第一预测概率分布,也即上文中出现的软标签,区别于只对应一个唯一结果的硬标签(即只对应一个结果的概率为100%,其他可能的候选结果的概率为0),软标签(概率分布)会示出模型基于输入图像的所有候选结果以及对应的概率;然后,将所述第一图像样本输入所述第一图像识别模型,得到所述第一图像识别模型基于所述第一图像样本输出的第二预测概率分布;
接下来,计算所述第二预测概率分布与所述第一预测概率分布的相似度;
在一般的知识蒸馏过程中,不仅仅将教师网络模型的软标签作为学生网络模型的学习目标,往往还需要将训练数据的硬标签也作为学生网络模型的学习目标,辅助学生网络模型的训练,也即在本实施例中,还需要获取所述第一图样本输入所述第一图像识别模型之后,得到的预测结果,即所述第二预测概率分布中概率值最大的结果,然后将所述预测结果与第一图像样本的预设标签计算相似度,并结合概率分布相似度和标签相似度,确定知识蒸馏的总体损失,从而基于所述总体损失对第一图像识别模型的各个参数进行更新,达到使第一图像识别模型学习得到第二图像识别模型的知识的目的。
考虑到,传统的知识蒸馏过程还是会采用硬标签对学生网络模型进行训练的指导,这很可能导致学生网络模型无法从训练图像中学习到最全面的特征,即所述学生网络模型无法识别训练图像中可能存在的所有对象,如图4所示,图4是大型开源数据库ImageNet中的一张图片,可以看出,图4中包括“猫”和“球”两个对象,然而在ImageNet数据库中,图4的标签是波斯猫,显而易见的是,如果根据图4的标签对图像识别模型进行训练,所述图像识别模型学习到的特征表示是非常狭隘的,即只能根据图4学习到波斯猫的特征,而无法学习到更泛化的猫和球的特征。
为了保证作为代理模型的第一图像识别模型学习到更加全面的特征表示,在又一个实施例中,参照图5所示,在进行知识蒸馏时,仅仅根据第二图像识别模型的软标签对第一图像识别模型进行训练,即不再获取所述第一图样本输入所述第一图像识别模型之后,得到的预测结果,而只是将所述第一图像样本输入所述第二图像识别模型,得到所述第二图像识别模型基于所述第一图像样本输出的第一预测概率分布,然后将所述第一图像样本输入所述第一图像识别模型,得到所述第一图像识别模型基于所述第一图像样本输出的第二预测概率分布,接下来,更新所述第一图像识别模型的参数,以使所述第二预测概率分布与所述第一预测概率分布的相似度变大,具体的参数更新方式已经在前文进行了说明,此处不再赘述。
在本实施例中,对作为代理模型的第一图像识别模型进行知识蒸馏时,仅仅根据第二图像识别模型输出的软标签进行,摒弃了传统知识蒸馏过程中,需要将训练图像的标签也作为辅助训练的参考,使得蒸馏得到的第一图像识别模型完全学习第二图像识别模型基于训练图像识别出的所有可能的结果,即所述第一图像识别模型学习到第二图像识别模型从训练图像中识别出的所有对象的特征表示,由于所述第一图像识别模型学到更加全面的特征,在作为代理模型用于对抗图像生成时,能够生成迁移攻击性能更强的对抗图像。
需要说明的是,第二图像识别模型是拟合训练图像的硬标签训练得到,由此,第二图像识别模型基于一个训练图像进行识别时,很可能对于一个候选结果预测出极大的概率,对于一些其他可能的结果,预测出极小的概率,由此,这些极小的概率容易在第一图像识别模型的训练过程中被忽略,即相当于第一图像识别模型以一个类似于硬标签的软标签为目标进行拟合,那么,第一图像识别模型很难学习到全面的特征,由此,知识蒸馏过程中,通过预设的温度因子对预测概率分布进行放缩,放大原始预测概率分布中极小的概率值,缩小原始预测概率分布中极大的概率值,即使得图像中各个对象的特征被相对平等的对待,使得第一图像识别模型能够学习到全面的特征,假设某个识别结果中猫、狗和狮子的值分别为0.9,0.1,0.01,则可采用下述的一组计算表达式(1)分别计算猫、狗和狮子对应的softmax分类概率分别为:
Figure GDA0003744536460000111
按照上述(表达式1)分别计算猫、狗和狮子对应的分类概率可得猫、狗和狮子的分类概率分别是0.538,0.241,0.221。
而添加了温度因子T=20以后,可采用下述的一组计算表达式(2)分别计算猫、狗和狮子对应的softmax分类概率分别为
Figure GDA0003744536460000112
当T=20时,采用上述表达式(2)计算可得猫、狗和狮子的分类概率分别是0.3428,0.3293,0.3279,由结果可以看出,这种方式使得不同类的输出结果被同等的考量。
具体来说,在一个实施例中,计算所述第二预测概率分布与所述第一预测概率分布的相似度,包括:
通过第一预设温度因子将所述第一预测概率分布放缩,得到第一放缩概率分布;
通过第二预设温度因子将所述第二预测概率分布放缩,得到第二放缩概率分布;
计算所述第二放缩概率分布与所述第一放缩概率分布的相似度,作为所述第二预测概率分布与所述第一预测概率分布的相似度;
在本实施例中,所述第一预设温度因子和所述第二预设温度因子可以相同,然后在计算计算所述第二预测概率分布与所述第一预测概率分布的相似度时,计算通过温度因子放缩后的第二放缩概率分布与第一放缩概率分布的相似度,作为所述第二预测概率分布与所述第一预测概率分布的相似度,由此基于两个放缩概略分布之间的相似度对第一图像识别模型的各个参数进行优化更新。
为了进一步保证第一图像识别模型学习到最为全面的特征,还可以通过所述温度因子对计算得到的两个放缩概略分布之间的相似度进行放缩,从而使得所述第一图像识别模型学习到所述第二图像识别模型能够识别的所有对象的特征,由此,在一个实施例中,通过第三预设温度因子将所述第二放缩概率分布与所述第一放缩概率分布的相似度进行放缩,作为所述第二预测概率分布与所述第一预测概率分布的相似度。
可以理解的是,本实施例中的第三预设温度因子可以与第一预设温度因子和第二预设温度因子相同或不同,本领域的技术人员可以根据实际需要进行设置,相同或不同的预设温度因子对第一图像识别模型能否学习到更全面的特征表示没有影响。
在本实施例中,所述第一预设温度因子与所述第二预设温度因子相同,所述第一预设温度因子与所述第二预设温度因子大于等于一。
可以理解的是,一些实施例中描述的知识蒸馏方式,虽然是如图3或图5所示的,第二图像识别模型和第一图像识别模型具有相同的模型结构,即第二图像识别模型和第一图像识别模型为同一类模型,但是在一些实施例中,所述第一图像识别模型和第二图像识别模型的源模型也可以不同,即所述第一图像识别模型和第二图像识别模型不为同一类模型,不论所述第一图像识别模型和第二图像识别模型是否为同一类模型,对最终生成的对抗图像的迁移攻击性能没有影响。
在明确如何得到作为代理模型的第一图像识别模型后,即可根据现有技术中的各个对抗攻击算法结合攻击目标生成相应的具备更强迁移攻击性能的对抗图像。
在本实施例中,接下来,执行步骤S120,将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果。
在本实施例中,通过将初始对抗扰动叠加原始图像,生成候选对抗图像,或者也可称之为迭代中的对抗图像,然后将所述候选对抗图像输入第一图像识别模型,获得识别结果,若识别结果发生错误,则可认为所述候选对抗图像攻击成功,即所述候选对抗图像可以认为是需要生成的对抗图像,通常情况下,初始对抗扰动往往通过随机初始化的方式得到,由此,初始对抗扰动就能直接叠加原始图像攻击成功的概率非常小,需要基于图像识别模型对候选对抗图像的识别结果,对初始对抗扰动进行修改,从而得到能够叠加原始图像后,成功攻击图像识别模型的目标对抗扰动。
在得到第一图像识别模型基于候选对抗图像的输出结果之后,执行步骤S130,计算所述输出结果与攻击目标标签之间的相似度,其中,所述攻击目标标签与所述原始图像标签相同或不同,由于对抗攻击包括有目标攻击和无目标攻击,在无标攻击时,意图使得生成的对抗样本与原始图像的类别不同,即攻击目标标签为所述原始图像标签,然后使得输出结果与攻击目标标签之间的相似度变小,在有标攻击时,意图使得生成的对抗样本与指定类别相同,即使得输出结果与攻击目标标签之间的相似度变大。
一般来说,对抗攻击可以分为有目标攻击和无目标攻击,两种攻击方式的具体定义此处不再赘述,有目标攻击要求生成的对抗图像能够使得图像识别模型识别出特定的错误结果,无目标攻击则只要求对抗图像能够使得图像识别模型识别出错误结果。
针对有目标攻击和无目标攻击的不同情况,在本步骤中,可以包括计算原始图像标签与所述输出结果之间的第一相似度或者计算攻击目标标签与所述输出结果之间的第二相似度,即攻击目标标签可以与原始图像的标签相同或不同;其中,在有目标攻击时,所述攻击目标标签与所述原始图像的标签不同;在无目标攻击时,所述攻击目标标签与所述原始图像的标签相同;即根据攻击类型的不同预设了两种计算相似度的方式。
由此,可根据攻击方式的不同,确定不同的扰动更新方式,即执行步骤S140,若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,并将更新后的对抗扰动作为目标对抗扰动;具体来说,在无目标攻击时,所述攻击目标标签与所述原始图像的标签相同,此时,使所述第一图像识别模型的输出结果与攻击目标标签之间的相似度小于第一预设阈值;在有目标攻击时,所述攻击目标标签与所述原始图像的标签不同,此时,使所述第一图像识别模型的输出结果与攻击目标标签之间的相似度大于第一预设阈值。
可以理解的是,虽然在本实施例中将目标对抗扰动作为最终的输出结果,即将对抗噪声作为输出结果,在输出得到所述目标对抗扰动之后,可以通过打印等方式得到物理形式的对抗扰动,从而将所述打印得到对抗扰动粘贴于一个物体或对象,实现对真实场景如打卡机、手机等的抗干扰测试。在本申请的其他实施例中,也可以将对抗图像直接输出,即将目标对抗扰动叠加原始图像之后直接输出,可以通过数据传输的方式,将所述对抗图像输入待测试抗干扰能力的图像识别模型。
在进行无目标攻击时,需要计算原始图像标签与所述输出结果之间的第一相似度,然后以使所述第一相似度变小且最终达到约束范围内的最小值为目标更新对抗扰动;在进行有目标攻击时,需要计算攻击目标标签与所述输出结果之间的第二相似度,然后以使所述第二相似度变大且最终达到最大为目标更新对抗扰动。
在生成的对抗扰动叠加原始图像后,若得到的候选对抗图像能够成功攻击第一图像识别模型,那么即可将更新后的对抗扰动作为目标对抗扰动;
其中,所述目标对抗扰动用于叠加所述原始图像,生成对抗图像,所述对抗图像用于迁移攻击多个与所述第一图像识别模型不同的图像识别模型。
如图6所示,在一个实施例中,首先获取训练好的第二图像识别模型,然后通过包括n个图像的训练图像集,所述训练好的第二图像识别模型进行知识蒸馏得到第一图像识别模型,在得到所述第一图像识别模型后,获取正常的原始图像,如图6所示的标签为“圆”的正常图像,然后采用任意对抗攻击方法生成对抗样本,例如可以是L-BFGS、FGSM、DeepFool、CW、PGD和JSMA,图6所示,基于第一图像识别模型、正常图像和一个现有对抗攻击方法生成了攻击目标标签为“方”的对抗图像,然后,将所述对抗图像输入一个与第一图像识别模型的结构不同的第三图像识别模型,进行迁移攻击测试,所述第三图像识别模型基于所述对抗图像输出“方”的识别结果时,认为迁移攻击成功。
在本申请的一个实施例中,通过Momentum Iterative Method这一梯度优化方法,以所述第一图像识别模型为代理模型生成对抗图像,在本实施例中,更新所述对抗扰动,以使所述第一相似度变小或所述第二相似度变大,包括:
迭代更新所述对抗扰动,直到达到第二预设终止条件;即在每一个迭代轮次可以先判断是否达到第二预设终止条件,若达到,则不再更新对抗扰动,并将当前的对抗扰动作为目标对抗扰动输出;若未达到,则继续更新对抗扰动,直至达到第二预设终止条件,并将达到第二预设终止条件时的对抗扰动作为目标对抗扰动输出,其中,在每个迭代轮次更新所述对抗扰动,包括:
计算当前迭代轮次的第一相似度或第二相似度相对当前迭代轮次的对抗扰动的梯度;
获取上一迭代轮次的梯度优化方向;
在本实施例中,所述上一迭代轮次的梯度优化方向基于上一迭代轮次计算得到的梯度与上上迭代轮次梯度优化方向计算得到;具体来说,假设当前迭代轮次为第一迭代轮次,那么不存在上一迭代轮次,则可以直接基于当前迭代轮次计算得到的梯度得到梯度优化方向;若前迭代轮次为第二迭代轮次,那么需要获取上一迭代轮次的梯度优化方向,即第一迭代轮次的梯度,然后基于第二迭代轮次计算得到的梯度和第一迭代轮次的梯度计算得到第二迭代轮次的梯度优化方向,例如第一迭代轮次的梯度为g1,第二迭代轮次的梯度为g2,衰减因子为α(例如为0.9),那么第一迭代轮次的梯度优化方向为g1,第二迭代轮次的梯度优化方向为g2+g1*α。
根据所述梯度和上一迭代轮次的梯度优化方向确定当前迭代轮次的梯度优化方向;
在本实施例中,当前迭代轮次的梯度优化方向需要基于当前迭代轮次的梯度和上一迭代轮次的梯度优化方向确定,而上一迭代轮次的梯度优化方向又与在先的所有梯度有关,即每一个迭代轮次的梯度优化方向根据所有的历史梯度确定,例如第一迭代轮次的梯度为g1,第二迭代轮次的梯度为g2,第三迭代轮次的梯度为g3,衰减因子为α(例如为0.9),那么第一迭代轮次的梯度优化方向为g1,第二迭代轮次的梯度优化方向为g2+g1*α,第三迭代轮次的梯度优化方向为g3+(g2+g1*α)*α。
在得到当前迭代轮次的梯度优化方向之后,根据当前迭代轮次的梯度优化方向,调大或调小所述对抗扰动,以使所述第一相似度变小或所述第二相似度变大。
一些实施方式中,所述第二预设终止条件可为以下条件中的一项:迭代预设轮次和所述第一相似度或所述第二相似度收敛。
为了验证本申请的基于知识蒸馏后得到的代理模型生成的对抗图像的迁移攻击性能,发明人在CIFAR-10数据集上进行了实验,选用的代理模型和待攻击模型包括:ResNet18、DenseNet121、VGG13和MobileNet。
具体来说,首先训练得到ResNet18、DenseNet121、VGG13和MobileNet这四个作为第二图像识别模型的模型,然后再分别采用自蒸馏的方式蒸馏得到ResNet18-SD、DenseNet121-SD、VGG13-SD和MobileNet-SD作为第一图像识别模型的模型,需要说明的是,本实验中的知识蒸馏仅以第二图像识别模型的软标签为学习目标指导第一图像识别模型的学习;接下来,分别将ResNet18、DenseNet121、VGG13、MobileNet、ResNet18-SD、DenseNet121-SD、VGG13-SD和MobileNet-SD作为代理模型并采用MIM的对抗攻击方法,进行对抗图像的生成,然后使用生成的对抗图像攻击ResNet18、DenseNet121、VGG13和MobileNet模型,例如以ResNet18-SD为代理模型生成对抗图像,得到了对抗图像集合R1,然后将所述对抗图像集合R1中的每一个对抗图像分别输入ResNet18、DenseNet121、VGG13和MobileNet模型,测试攻击成功率,由于对抗图像集合R1是以ResNet18-SD为代理模型生成的,所以在采用对抗图像集合R1迁移攻击测试ResNet18、DenseNet121、VGG13和MobileNet模型时,相当于攻击黑盒模型。
本实验采用前述流程分别进行了有目标攻击的对抗图像生成和无目标攻击的对抗图像生成,并对应进行了测试,其中无目标攻击结果如表1所示,有目标攻击结果如表2所示。表中,与model(模型)同一行的各个模型均作为被攻击的模型,与model同一列的每一个模型均作为生成对抗图像的代理模型,表中的数值为攻击成功率,带*的数值表示其所属的攻击为白盒攻击,例如以ResNet18为代理模型生成的对抗图像,在攻击ResNet18时,相当于是在进行白盒攻击,所以攻击成功率为100。以SD结尾的模型代表使用知识蒸馏方式训练的模型,不带SD结尾的模型代表用普通方法训练得到的模型。
由表中所示的攻击成功率可以看出,在表1和表2列出的所有的迁移攻击实验中,知识蒸馏得到代理模型生成的对抗图像相比于普通方法得到的代理模型生成的对抗图像,都能稳定地提升迁移攻击的成功率(10%~29.1%),例如,以ResNet18-SD(知识蒸馏得到的模型)为代理模型生成的对抗图像集迁移攻击DenseNet121模型的成功率为76.0,以ResNet18(普通方式训练得到的模型)为代理模型生成的对抗图像集迁移攻击DenseNet121模型的成功率为58.1,显而易见的,知识蒸馏得到代理模型生成的对抗图像相比于普通方法得到的代理模型生成的对抗图像,迁移攻击成功率更高。
表1
Figure GDA0003744536460000161
表2
Figure GDA0003744536460000162
为了多方面的验证本申请的基于知识蒸馏后得到的代理模型生成的对抗图像的迁移攻击性能,发明人还在ImageNet数据集上进行了无目标对抗攻击的迁移实验,结果如表3所示。发明人在本实验中分别采取D-MIM、T-MIM、S-MIM以及STD-MIM四种对抗攻击方法生成对抗图像。其中STD-MIM为D-MIM、T-MIM和S-MIM的结合。实验结果表明,在列出的所有迁移攻击实验中,基于知识蒸馏得到的代理模型生成的对抗图像都能稳定地提升迁移攻击的成功率(有的高达10%以上)
表3
Figure GDA0003744536460000171
表3中,Optimizer表示对抗攻击方法,Model表示模型,与上一实验类似,表中与model(模型)同一行的各个模型均作为被攻击的模型,与model同一列的每一个模型均作为生成对抗图像的代理模型,表中的数值为攻击成功率。以SD结尾的模型代表使用知识蒸馏方式得到的模型,不带SD结尾的模型代表用普通方法训练得到的模型。
本申请的对抗扰动生成方法,可以基于知识蒸馏得到的代理模型生成对抗图像,由于知识蒸馏时,代理模型,即第一图像识别模型(学生网络模型)仅仅以第二图像识别模型(教师网络模型)基于输入图像识别出的概率分布(软标签)为学习目标,而不是输入图像的预设标签(硬标签),即第一图像识别模型不是仅仅建立输入图像中的特定对象的特征与预设标签的映射关系,而是可以学习到输入图像中各个对象的特征对应的识别结果,即学习到了更加全面的特征。由于第一图像识别模型学习到了更加全面的特征,从而在基于所述第一图像识别模型生成对抗扰动时,可以优化出在多种类别的特征上都产生影响的对抗扰动,且所述对抗扰动叠加原始图像形成对抗图像后,所述对抗图像上含有的错误类别的特征与对应的目标攻击类别会更加匹配,由此,生成的对抗图像可以迁移攻击成功更多类型的未知图像识别模型。由于得到的对抗图像可以在很多不同的未知图像识别模型上取得良好的攻击效果,在需要衡量一个新的未知图像识别模型的抗干扰能力时,无需针对这个新的图像识别模型重新对应生成对抗图像,节省了大量计算资源和存储资源,提高了对抗图像的利用率。
示例性装置
在介绍了本申请示例性实施例的对抗扰动生成方法之后,接下来,参考图7对本申请示例性实施例的用于生成迁移攻击性能更强的对抗图像的装置,该装置同样可以适用于应用场景所示的计算设备,所述装置包括:
输入输出模块710,被配置为获取原始图像、第一图像识别模型和对抗扰动,其中,所述第一图像识别模型通过知识蒸馏得到,在进行知识蒸馏时,仅通过第二图像识别模型的预测概率分布指导所述第一图像识别模型的训练;
处理模块720,被配置为计算所述输出结果与攻击目标标签之间的相似度;以及
若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,将更新后的对抗扰动作为目标对抗扰动;
其中,所述目标对抗扰动用于叠加所述原始图像,生成对抗图像,所述对抗图像用于迁移攻击多个与所述第一图像识别模型不同的图像识别模型。
本申请实施例中,所述输入输出模块710还被配置为输出所述目标对抗扰动,以便叠加原始图像生成对抗图像。
可以理解的是,虽然在本实施例中将目标对抗扰动作为最终的输出结果,即将对抗噪声作为输出结果,在输出得到所述目标对抗扰动之后,可以通过打印等方式得到物理形式的对抗扰动,从而将所述打印得到对抗扰动粘贴于一个物体或对象,实现对真实场景如打卡机、手机等图像识别设备的抗干扰能力测试。在申请的一些实施例中,也可以将对抗图像直接输出,即将目标对抗扰动叠加原始图像之后直接输出,可以通过数据传输的方式,将所述对抗图像输入待测试抗干扰能力的图像识别模型。
在本申请的一个实施例中,所述处理模块720,还被配置为通过以下步骤进行知识蒸馏得到第一图像识别模型,包括
获取待训练的第一图像识别模型、第二图像识别模型和第一图像样本;
将所述第一图像样本输入所述第二图像识别模型,得到所述第二图像识别模型基于所述第一图像样本输出的第一预测概率分布;
将所述第一图像样本输入所述第一图像识别模型,得到所述第一图像识别模型基于所述第一图像样本输出的第二预测概率分布;
计算所述第二预测概率分布与所述第一预测概率分布的相似度;
若所述第二预测概率分布与所述第一预测概率分布的相似度小于第二预设阈值,则更新所述第一图像识别模型的参数,直至所述第二预测概率分布与所述第一预测概率分布的相似度大于第二预设阈值,并将更新后的第一图像识别模型作为知识蒸馏得到的第一图像识别模型。
在本申请的一个实施例中,所述处理模块720,还被配置为通过以下方式训练得到所述第二图像识别模型:
获取第二图像样本集以及所述第二图像样本集中各个第二图像样本对应的标签;
采用所述第二图像样本集迭代优化所述第二图像识别模型,直到达到第一预设终止条件,在每个迭代轮次:
获取一个第二图像样本输入所述第二图像识别模型,得到对应的输出结果;
将所述第二图像样本的标签转换为独热编码向量,所述独热编码向量包括预设数量的维度,所述预设数量为所述第二图像样本集中的标签空间中的标签数量,所述标签空间为所述第二图像样本集中各个图像的标签的集合,且不存在重复的标签;
计算所述独热编码向量与所述输出结果之间的相似度;
更新所述第二图像识别模型的参数,以使所述独热编码向量与所述输出结果之间的相似度变大;
其中,所述第一预设终止条件至少包括以下中的一个:遍历第二图像样本集、迭代预设轮次和所述第二图像识别模型收敛。
在本申请的一个实施例中,所述处理模块720,还被配置为通过以下方式计算所述第二预测概率分布与所述第一预测概率分布的相似度:
通过第一预设温度因子将所述第一预测概率分布放缩,得到第一放缩概率分布;
通过第二预设温度因子将所述第二预测概率分布放缩,得到第二放缩概率分布;
计算所述第二放缩概率分布与所述第一放缩概率分布的相似度,作为所述第二预测概率分布与所述第一预测概率分布的相似度;或者
通过第三预设温度因子将所述第二放缩概率分布与所述第一放缩概率分布的相似度进行放缩,作为所述第二预测概率分布与所述第一预测概率分布的相似度。
在本申请的一个实施例中,所述第一预设温度因子与所述第二预设温度因子相同,所述第一预设温度因子与所述第二预设温度因子大于等于一。
在本申请的一个实施例中,所述第一图像识别模型和第二图像识别模型的源模型相同或不同。
在进行无目标攻击时,需要计算原始图像标签与所述输出结果之间的第一相似度,然后以使所述第一相似度变小且最终达到约束范围内的最小值为目标更新对抗扰动;在进行有目标攻击时,需要计算攻击目标标签与所述输出结果之间的第二相似度,然后以使所述第二相似度变大且最终达到最大为目标更新对抗扰动。
由此,在本申请的一个实施例中,所述处理模块720,还被配置为为通过以下方式更新所述对抗扰动:
计算当前迭代轮次的相似度相对当前迭代轮次的对抗扰动的梯度;
获取上一迭代轮次的梯度优化方向;
根据所述梯度和上一迭代轮次的梯度优化方向确定当前迭代轮次的梯度优化方向;
根据当前迭代轮次的梯度优化方向,调大或调小所述对抗扰动。
本申请的对抗扰动生成装置,可以基于知识蒸馏得到的代理模型生成对抗图像,由于知识蒸馏时,代理模型,即第一图像识别模型(学生网络模型)仅仅以第二图像识别模型(教师网络模型)基于输入图像识别出的概率分布(软标签)为学习目标,而不是输入图像的预设标签(硬标签),即第一图像识别模型不是仅仅建立输入图像中的特定对象的特征与预设标签的映射关系,而是可以学习到输入图像中各个对象的特征对应的识别结果,即学习到了更加全面的特征。由于第一图像识别模型学习到了更加全面的特征,从而在基于所述第一图像识别模型生成对抗扰动时,可以优化出在多种类别的特征上都产生影响的对抗扰动,且所述对抗扰动叠加原始图像形成对抗图像后,所述对抗图像上含有的错误类别的特征与对应的目标攻击类别会更加匹配,由此,生成的对抗图像可以迁移攻击成功更多类型的未知图像识别模型。由于得到的对抗图像可以在很多不同的未知图像识别模型上取得良好的攻击效果,在需要衡量一个新的未知图像识别模型的抗干扰能力时,无需针对这个新的图像识别模型重新对应生成对抗图像,节省了大量计算资源和存储资源,提高了对抗图像的利用率。
示例性介质
在介绍了本申请示例性实施方式的对抗扰动生成方法和装置之后,接下来,参考图8对本申请示例性实施方式的计算机可读存储介质进行说明,请参考图8,其示出的计算机可读存储介质为光盘80,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取原始图像、第一图像识别模型和对抗扰动;将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果;计算所述输出结果与攻击目标标签之间的相似度;若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,并将更新后的对抗扰动作为目标对抗扰动;各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本申请示例性实施例的对抗扰动生成方法、装置和介质之后,接下来,参参考图9对本申请示例性实施方式的用于对抗扰动生成的计算设备。
图9示出了适于用来实现本申请的示例性计算设备90的框图,该计算设备90可以是计算机系统或服务器。图9显示的计算设备90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元901,系统存储器902,连接不同系统组件(包括系统存储器902和处理单元901)的总线903。
计算设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器902可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)9021和/或高速缓存存储器9022。计算设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM9023可以用于读写不可移动的、非易失性磁介质(图9中未显示,通常称为“硬盘驱动器”)。尽管未在图9中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线903相连。系统存储器902中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块9024的程序/实用工具9025,可以存储在例如系统存储器902中,且这样的程序模块9024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9024通常执行本申请所描述的实施例中的功能和/或方法。
计算设备90也可以与一个或多个外部设备904(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且,计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器906通过总线903与计算设备90的其它模块(如处理单元901等)通信。应当明白,尽管图9中未示出,可以结合计算设备90使用其它硬件和/或软件模块。
处理单元901通过运行存储在系统存储器902中的程序,从而执行各种功能应用以及数据处理,例如,获取原始图像、第一图像识别模型和对抗扰动;将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果;计算所述输出结果与攻击目标标签之间的相似度;若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,并将更新后的对抗扰动作为目标对抗扰动。各步骤的具体实现方式在此不再重复说明。
应当注意,尽管在上文详细描述中提及了对抗扰动生成装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所申请的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (14)

1.一种对抗扰动生成方法,包括:
获取原始图像、第一图像识别模型和对抗扰动,其中,所述第一图像识别模型通过知识蒸馏得到,在进行知识蒸馏时,仅通过第二图像识别模型的预测概率分布指导所述第一图像识别模型的训练;
将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果;
计算所述输出结果与攻击目标标签之间的相似度;
若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,并将更新后的对抗扰动作为目标对抗扰动;
其中,所述目标对抗扰动用于叠加所述原始图像,生成对抗图像,所述对抗图像用于迁移攻击多个与所述第一图像识别模型不同的图像识别模型;
其中,所述第一图像识别模型通过以下步骤迭代地进行知识蒸馏得到,包括:
获取待训练的第一图像识别模型、第二图像识别模型和第一图像样本;
将所述第一图像样本输入所述第二图像识别模型,得到所述第二图像识别模型基于所述第一图像样本输出的第一预测概率分布;
将所述第一图像样本输入所述第一图像识别模型,得到所述第一图像识别模型基于所述第一图像样本输出的第二预测概率分布;
计算所述第二预测概率分布与所述第一预测概率分布的相似度;
若所述第二预测概率分布与所述第一预测概率分布的相似度小于第二预设阈值,则更新所述第一图像识别模型的参数,直至所述第二预测概率分布与所述第一预测概率分布的相似度大于第二预设阈值,并将更新后的第一图像识别模型作为知识蒸馏得到的第一图像识别模型。
2.如权利要求1所述的对抗扰动生成方法,其中,所述第二图像识别模型通过以下方式训练得到:
获取第二图像样本集以及所述第二图像样本集中各个第二图像样本对应的标签;
采用所述第二图像样本集迭代优化所述第二图像识别模型,直到达到第一预设终止条件,在每个迭代轮次:
获取一个第二图像样本输入所述第二图像识别模型,得到对应的输出结果;
将所述第二图像样本的标签转换为独热编码向量,所述独热编码向量包括预设数量的维度,所述预设数量为所述第二图像样本集中的标签空间中的标签数量,所述标签空间为所述第二图像样本集中各个图像的标签的集合,且不存在重复的标签;
计算所述独热编码向量与所述输出结果之间的相似度;
更新所述第二图像识别模型的参数,以使所述独热编码向量与所述输出结果之间的相似度变大;
其中,所述第一预设终止条件至少包括以下中的一个:遍历第二图像样本集、迭代预设轮次和所述第二图像识别模型收敛。
3.如权利要求1所述的对抗扰动生成方法,其中,计算所述第二预测概率分布与所述第一预测概率分布的相似度,包括:
通过第一预设温度因子将所述第一预测概率分布放缩,得到第一放缩概率分布;
通过第二预设温度因子将所述第二预测概率分布放缩,得到第二放缩概率分布;
计算所述第二放缩概率分布与所述第一放缩概率分布的相似度,作为所述第二预测概率分布与所述第一预测概率分布的相似度;或者
通过第三预设温度因子将所述第二放缩概率分布与所述第一放缩概率分布的相似度进行放缩,作为所述第二预测概率分布与所述第一预测概率分布的相似度。
4.如权利要求3所述的对抗扰动生成方法,其中,所述第一预设温度因子与所述第二预设温度因子相同,所述第一预设温度因子与所述第二预设温度因子大于等于一。
5.如权利要求1-4中任一项所述的对抗扰动生成方法,其中,所述第一图像识别模型和第二图像识别模型的源模型相同或不同。
6.如权利要求1-4中任一项所述的对抗扰动生成方法,其中,更新所述对抗扰动,包括:
计算当前迭代轮次的相似度相对当前迭代轮次的对抗扰动的梯度;
获取上一迭代轮次的梯度优化方向;
根据所述梯度和上一迭代轮次的梯度优化方向确定当前迭代轮次的梯度优化方向;
根据当前迭代轮次的梯度优化方向,调大或调小所述对抗扰动。
7.一种对抗扰动生成装置,包括:
输入输出模块,被配置为获取原始图像、第一图像识别模型和对抗扰动,其中,所述第一图像识别模型通过知识蒸馏得到,在进行知识蒸馏时,仅通过第二图像识别模型的预测概率分布指导所述第一图像识别模型的训练;
处理模块,被配置为将所述原始图像与所述对抗扰动叠加后,输入所述第一图像识别模型,得到输出结果;以及计算所述输出结果与攻击目标标签之间的相似度;以及
若所述输出结果与攻击目标标签之间的相似度未达到第一预设阈值,则更新所述对抗扰动,直至所述第一图像识别模型的输出结果与攻击目标标签之间的相似度达到第一预设阈值,将更新后的对抗扰动作为目标对抗扰动;
其中,所述目标对抗扰动用于叠加所述原始图像,生成对抗图像,所述对抗图像用于迁移攻击多个与所述第一图像识别模型不同的图像识别模型;
其中,所述处理模块还被配置为通过以下方式进行知识蒸馏得到第一图像识别模型:
获取待训练的第一图像识别模型、第二图像识别模型和第一图像样本;
将所述第一图像样本输入所述第二图像识别模型,得到所述第二图像识别模型基于所述第一图像样本输出的第一预测概率分布;
将所述第一图像样本输入所述第一图像识别模型,得到所述第一图像识别模型基于所述第一图像样本输出的第二预测概率分布;
计算所述第二预测概率分布与所述第一预测概率分布的相似度;
若所述第二预测概率分布与所述第一预测概率分布的相似度小于第二预设阈值,则更新所述第一图像识别模型的参数,直至所述第二预测概率分布与所述第一预测概率分布的相似度大于第二预设阈值,并将更新后的第一图像识别模型作为知识蒸馏得到的第一图像识别模型。
8.如权利要求7所述的对抗扰动生成装置,其中,所述处理模块还被配置为通过以下方式训练得到所述第二图像识别模型:
获取第二图像样本集以及所述第二图像样本集中各个第二图像样本对应的标签;
采用所述第二图像样本集迭代优化所述第二图像识别模型,直到达到第一预设终止条件,在每个迭代轮次:
获取一个第二图像样本输入所述第二图像识别模型,得到对应的输出结果;
将所述第二图像样本的标签转换为独热编码向量,所述独热编码向量包括预设数量的维度,所述预设数量为所述第二图像样本集中的标签空间中的标签数量,所述标签空间为所述第二图像样本集中各个图像的标签的集合,且不存在重复的标签;
计算所述独热编码向量与所述输出结果之间的相似度;
更新所述第二图像识别模型的参数,以使所述独热编码向量与所述输出结果之间的相似度变大;
其中,所述第一预设终止条件至少包括以下中的一个:遍历第二图像样本集、迭代预设轮次和所述第二图像识别模型收敛。
9.如权利要求7所述的对抗扰动生成装置,其中,所述处理模块还被配置为通过以下方式计算所述第二预测概率分布与所述第一预测概率分布的相似度:
通过第一预设温度因子将所述第一预测概率分布放缩,得到第一放缩概率分布;
通过第二预设温度因子将所述第二预测概率分布放缩,得到第二放缩概率分布;
计算所述第二放缩概率分布与所述第一放缩概率分布的相似度,作为所述第二预测概率分布与所述第一预测概率分布的相似度;或者
通过第三预设温度因子将所述第二放缩概率分布与所述第一放缩概率分布的相似度进行放缩,作为所述第二预测概率分布与所述第一预测概率分布的相似度。
10.如权利要求9所述的对抗扰动生成装置,其中,所述第一预设温度因子与所述第二预设温度因子相同,所述第一预设温度因子与所述第二预设温度因子大于等于一。
11.如权利要求7-10中任一项所述的对抗扰动生成装置,其中,所述第一图像识别模型和第二图像识别模型的源模型相同或不同。
12.如权利要求7-10中任一项所述的对抗扰动生成装置,其中,所述处理模块还被配置为通过以下方式更新所述对抗扰动:
计算当前迭代轮次的相似度相对当前迭代轮次的对抗扰动的梯度;
获取上一迭代轮次的梯度优化方向;
根据所述梯度和上一迭代轮次的梯度优化方向确定当前迭代轮次的梯度优化方向;
根据当前迭代轮次的梯度优化方向,调大或调小所述对抗扰动。
13.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
14.一种计算设备,包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-6中任一项所述的方法。
CN202111596061.5A 2021-12-24 2021-12-24 对抗扰动生成方法、装置及存储介质 Active CN114299313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111596061.5A CN114299313B (zh) 2021-12-24 2021-12-24 对抗扰动生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111596061.5A CN114299313B (zh) 2021-12-24 2021-12-24 对抗扰动生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114299313A CN114299313A (zh) 2022-04-08
CN114299313B true CN114299313B (zh) 2022-09-09

Family

ID=80968970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111596061.5A Active CN114299313B (zh) 2021-12-24 2021-12-24 对抗扰动生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114299313B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821823B (zh) * 2022-04-12 2023-07-25 马上消费金融股份有限公司 图像处理、人脸防伪模型的训练及活体检测方法和装置
CN114666882B (zh) * 2022-04-25 2024-01-02 浙江省通信产业服务有限公司 一种功率控制方法、装置、基站及存储介质
CN114998657B (zh) * 2022-06-17 2024-04-05 北京百度网讯科技有限公司 一种用于生成添加干扰后的图像的方法和装置
CN114861893B (zh) * 2022-07-07 2022-09-23 西南石油大学 一种多通路聚合的对抗样本生成方法、系统及终端
CN115081643B (zh) * 2022-07-20 2022-11-08 北京瑞莱智慧科技有限公司 对抗样本生成方法、相关装置及存储介质
CN115239941B (zh) * 2022-07-25 2023-04-28 北京瑞莱智慧科技有限公司 对抗图像生成方法、相关装置及存储介质
CN115496924A (zh) * 2022-09-29 2022-12-20 北京瑞莱智慧科技有限公司 一种数据处理方法、相关设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019222401A2 (en) * 2018-05-17 2019-11-21 Magic Leap, Inc. Gradient adversarial training of neural networks
CN111027060A (zh) * 2019-12-17 2020-04-17 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法
CN112115469A (zh) * 2020-09-15 2020-12-22 浙江科技学院 基于Bayes-Stackelberg博弈的边缘智能移动目标防御方法
CN112884143A (zh) * 2019-11-29 2021-06-01 北京四维图新科技股份有限公司 用于训练鲁棒深度神经网络模型的方法
CN113178255A (zh) * 2021-05-18 2021-07-27 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11836256B2 (en) * 2019-01-24 2023-12-05 International Business Machines Corporation Testing adversarial robustness of systems with limited access
CN109902727A (zh) * 2019-02-02 2019-06-18 钟祥博谦信息科技有限公司 防御性蒸馏模型的构建方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019222401A2 (en) * 2018-05-17 2019-11-21 Magic Leap, Inc. Gradient adversarial training of neural networks
CN112884143A (zh) * 2019-11-29 2021-06-01 北京四维图新科技股份有限公司 用于训练鲁棒深度神经网络模型的方法
CN111027060A (zh) * 2019-12-17 2020-04-17 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法
CN112115469A (zh) * 2020-09-15 2020-12-22 浙江科技学院 基于Bayes-Stackelberg博弈的边缘智能移动目标防御方法
CN113178255A (zh) * 2021-05-18 2021-07-27 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Distilling the Knowledge in a Neural Network;Geoffrey Hinton等;《https://arxiv.org/abs/1503.02531》;20150310;1-9 *
Revisiting Adversarial Robustness Distillation: Robust Soft Labels Make Student Better;Bojia Zi等;《https://arxiv.org/abs/2108.07969v1》;20210819;1-13 *
基于自注意编码的文本分类方法研究;杨修远;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20210215(第02期);I138-2479 *
对抗样本生成及攻防技术研究;刘小垒等;《计算机应用研究》;20201130;第37卷(第11期);3201-3205,3212 *

Also Published As

Publication number Publication date
CN114299313A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN114299313B (zh) 对抗扰动生成方法、装置及存储介质
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
Liang et al. Explaining the black-box model: A survey of local interpretation methods for deep neural networks
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
Liu et al. Dual self-attention with co-attention networks for visual question answering
CN111782840B (zh) 图像问答方法、装置、计算机设备和介质
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN111612100B (zh) 对象再识别方法、装置、存储介质及计算机设备
Che et al. Adversarial attack against deep saliency models powered by non-redundant priors
CN114707589B (zh) 对抗样本的生成方法、装置、存储介质、设备及程序产品
CN110020593B (zh) 信息处理方法及装置、介质及计算设备
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
Hu et al. Teacher-student architecture for knowledge distillation: A survey
CN109918538B (zh) 视频信息处理方法及装置、存储介质及计算设备
Wang et al. Dual-Branch Dynamic Graph Convolutional Network for Robust Multi-Label Image Classification
CN111898528A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN114462073A (zh) 去标识化效果评估方法、装置、存储介质及产品
CN113435206A (zh) 一种图文检索方法、装置和电子设备
Liu et al. Domain adaptation via rebalanced sub-domain alignment
Zhengfeng Accurate recognition method of continuous sports action based on deep learning algorithm
Fuchs et al. Scrutinizing and de-biasing intuitive physics with neural stethoscopes
Cao et al. Template matching based on geometric invariance in deep neural network
Liu et al. Saliency Map-Based Local White-Box Adversarial Attack Against Deep Neural Networks
Ding et al. Research on Intelligent Estimation Method of Human Moving Target Pose Based on Adaptive Attention Mechanism
Murphy The Application of Computer Vision, Machine and Deep Learning Algorithms Utilizing MATLAB®

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant