CN111783083A - 一种防御算法的推荐方法及装置 - Google Patents

一种防御算法的推荐方法及装置 Download PDF

Info

Publication number
CN111783083A
CN111783083A CN202010566935.1A CN202010566935A CN111783083A CN 111783083 A CN111783083 A CN 111783083A CN 202010566935 A CN202010566935 A CN 202010566935A CN 111783083 A CN111783083 A CN 111783083A
Authority
CN
China
Prior art keywords
defense
training
attack
recognition model
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010566935.1A
Other languages
English (en)
Other versions
CN111783083B (zh
Inventor
李卓蓉
封超
吴明晖
颜晖
金苍宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN202010566935.1A priority Critical patent/CN111783083B/zh
Publication of CN111783083A publication Critical patent/CN111783083A/zh
Application granted granted Critical
Publication of CN111783083B publication Critical patent/CN111783083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种防御算法的推荐方法及装置,所述方法包括:获取待处理的原始图像数据;根据原始图像数据和实际应用需求选择图像识别模型;用预处理后的图像数据训练图像识别模型;针对识别模型生成多种对抗样本;利用多种对抗样本对识别模型实施攻击,并记录攻击结果;构建基于对抗训练的防御算法库;逐一应用对抗训练算法对识别模型进行防御训练;评估防御效果,并推荐防御算法。通过生成多种不同类型、不同强度的对抗样本并进行评估,可提前发现针对目标模型具有较强攻击性的对抗攻击类型,从而开展有针对性的防御训练;逐一对备选对抗训练方法进行定量评估并基于评估结果推荐有效的防御方法,可显著降低对抗攻击给模型造成的损失。

Description

一种防御算法的推荐方法及装置
技术领域
本发明涉及机器学习方法的安全技术领域,具体涉及一种对抗训练防御算法推荐方法及装置。
背景技术
随着数据规模和计算能力的急速增长,人工智能技术蓬勃发展。机器学习作为人工智能系统的核心,广泛应用于计算机视觉、自然语言处理、语音识别、自动驾驶等领域并取得良好识别效果。然而,最新研究发现深度神经网络容易受到对抗样本攻击,即,在正常样本中添加精心设计的不明显扰动,能够导致原本高识别率的机器学习模型彻底失效。
对抗样本给实际应用场景带来了巨大安全威胁,例如,对于基于人脸识别的身份验证系统,攻击方可利用对抗样本非法获得授权;在自动驾驶场景中,攻击方可利用对抗样本误导系统对交通信号的识别从而造成交通事故,等等。因此,针对机器学习模型的脆弱性建立更好的防御机制迫在眉睫。
大部分防御算法是在单一类型的对抗样本攻击下开展研究的,因此仅对特定攻击有效而对其他攻击缺乏普适性,然而,实际应用中往往同时存在着多种对抗样本攻击。此外,对于极少数能同时适用于若干种攻击的防御方法,往往无法取得优于针对性防御训练的防御性能。
发明内容
本发明实施例的目的是提供一种防御算法的推荐方法及装置,以解决现有技术存在的对不同类型对抗样本攻击缺乏普适性,以及对特定对抗攻击样本防御性能欠佳的问题,以提高机器学习模型在对抗攻击环境下的鲁棒性和准确性。
第一方面,本发明实施例提供一种防御算法的推荐方法,包括:
获取待处理的原始图像数据;
根据所述原始图像数据和实际应用需求,选择图像识别模型;
对所述原始图像数据进行预处理,用预处理后的图像数据训练图像识别模型;
针对图像识别模型生成多种对抗样本;
利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果;
构建基于对抗训练的防御算法库;
逐一应用对抗训练算法对图像识别模型进行防御训练;
评估防御效果,并推荐防御算法。
进一步地,对所述原始图像数据进行预处理,包括:
获取所述原始图像数据的特征表示;
利用随机信号对所述原始图像数据进行翻转;
根据所述图像识别模型的数据输入要求,对翻转后的图像数据进行缩放;
利用随机信号对缩放后的图像数据进行截取;
利用随机信号对截取后的图像数据进行填充;
对填充后的图像数据进行归一化处理。
进一步地,生成多种对抗样本,包括:
构建对抗攻击方法库,该方法库包括如下攻击方法:L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法;
根据所述预处理后的原始图像数据x和所述图像识别模型,逐一选取攻击方法库中的攻击方法产生对应的对抗扰动ρ,ρ=R(x,θ),其中,θ是识别模型的参数化表示,R表示攻击方法;
生成对应的对抗样本x′,x′=x+ρ。
进一步地,利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果,包括:
将对抗样本x′=x+ρ输入图像识别模型,并输出分类结果
Figure BDA0002547946470000021
其中,
Figure BDA0002547946470000022
表示识别模型的分类结果;
在所述攻击为非定向攻击时,若满足
Figure BDA0002547946470000023
对抗样本x′=x+ρ是有效的攻击样本,该攻击是成功的攻击,记录攻击结果;
在所述攻击为定向攻击时,若满足
Figure BDA0002547946470000024
该对抗样本x′=x+ρ是有效的攻击样本,该攻击是成功的攻击,记录攻击结果,其中,
Figure BDA0002547946470000025
表示目标类别。
进一步地,所述防御算法库包括:朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法,以及基于梯度匹配的对抗训练算法。
进一步地,构建基于对抗训练的防御算法库,包括:
构建模型识别原始样本的分类损失函数
Figure BDA0002547946470000026
构建模型识别对抗样本的分类损失函数
Figure BDA0002547946470000027
构建原始样本与对抗样本的抽象表征匹配损失函数
Figure BDA0002547946470000028
构建模型正则项
Figure BDA0002547946470000031
通过不同组合方式形成不同的基于对抗训练的防御算法:
Figure BDA0002547946470000032
其中α,β,γ和δ分别是各个损失项的权重系数;
通过集成多种基于对抗训练的防御算法,构建基于对抗训练的防御算法库。
进一步地,构建原始样本与对抗样本的抽象表征匹配损失函数,包括:
将原始样本在分类模型预设层的表征与对抗样本在分类模型预设层的表征进行匹配,将二种表征之间的距离作为抽象表征匹配损失函数,形式化表示如下:
Figure BDA0002547946470000033
其中,
Figure BDA0002547946470000034
表示均方误差,g(x)表示分类模型对图像数据的表征。
进一步地,进行防御训练,包括:
将所述的有效攻击样本与原始样本一起作为图像识别模型的防御训练数据集;
根据防御训练数据集,逐一应用防御算法库中的对抗训练算法对识别模型进行训练。
进一步地,评估防御效果,包括:
根据如下量化评估指标,对防御效果进行评估:
Figure BDA0002547946470000035
其中
Figure BDA0002547946470000036
表示任意图像识别模型M的对抗分类准确率,TP表示图像识别模型正确分类的原始样本数量,TN表示图像识别模型正确分类的对抗样本数量,FP表示图像识别模型错误分类的原始样本数量,FN表示图像识别模型错误分类的对抗样本数量;
防御效果
Figure BDA0002547946470000037
其中,
Figure BDA0002547946470000038
表示防御训练后的图像识别模型的对抗分类准确率,
Figure BDA0002547946470000039
表示防御训练前的图像识别模型的对抗分类准确率。
第二方面,本发明实施例提供一种防御算法的推荐装置,包括:
获取单元,用于获取待处理的原始图像数据;
选择单元,用于根据所述原始图像数据和实际应用需求,选择图像识别模型;
第一训练单元,用于对所述原始图像数据进行预处理,利用预处理后的图像数据对图像识别模型进行分类训练;
对抗样本生成单元,用于针对图像识别模型生成多种对抗样本;
攻击单元,用于利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果;
防御算法构建模块,用于构建基于对抗训练的防御算法库;
第二训练单元,用于逐一应用对抗训练算法对识别模型进行防御训练;
评估推荐单元,用于评估防御效果,并推荐防御算法。
根据以上技术方案,本发明各实施例提出的防御算法的推荐方法及装置,所述方法通过生成多种不同类型、不同强度的对抗样本并进行评估,可提前发现针对目标模型具有较强攻击性的对抗攻击类型,从而开展有针对性的防御训练;逐一对备选对抗训练方法进行定量评估并基于评估结果推荐有效的防御方法,可显著降低对抗攻击给模型造成的损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明第一实施例提供的防御算法的推荐方法流程示意图;
图2为本实施例中对抗样本示例,其中,(a)是原图,(b)是各种攻击方法对原图进行攻击产生的对抗扰动,(c)是对应的对抗样本,即,原图与对抗扰动的逐点像素值之和;
图3为本发明第二实施例提供的防御算法的推荐装置的框图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了更清晰地说明本发明的技术方案,下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行进一步描述。显然,本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式,或硬件和软件方面结合的实施方式。
实施例1:
请参照图1,图1是本发明第一实施例提供的一种防御算法的推荐方法的流程图,下面将对图1所示的流程进行详细阐述,所述方法包括:
步骤S100:获取待处理的原始图像数据。
在本实施例中,通过配置有数据线的非暂态计算机可读存储介质,例如U盘,移动硬盘等,通过通信接口140将待处理的原始数据输入到电子设备100的处理器120中。
具体地,包括以下子步骤:
步骤S110:获取所述原始图像数据的特征表示。
作为一种实施方式,步骤S110包括:获取所述图像数据在R、G、B(Red,Green,Blue)三个通道上的数据矩阵。由于图像数据的任一像素点的颜色都可通过R、G、B的辐射量的加法模式进行描述,其中,R、G、B的取值范围均为0-255,0表示没有刺激量,255表示刺激量达最大值,因此,任何图像数据都可通过R、G、B三个通道的数据矩阵表示,从而数据格式得到统一。例如,对于32x32个像素点的图像数据,其R通道特征可通过32x32矩阵表示,该矩阵每个元素取值范围为0-255,G通道、B通道同理。
步骤S120:利用随机信号对所述原始图像数据进行翻转。
在实际实施过程中,由于训练数据不足会造成模型过拟合问题,因此,利用随机信号对所述图像数据进行翻转可扩充数据集,从而缓解过拟合问题。步骤S120可以是但不限于随机水平翻转、或随机垂直翻转。在本实施例中,先实施随机水平翻转,然后实施随机垂直翻转。在其他实施例中,可以仅采用其中一种翻转方式,也可以以任意次序组合不同翻转方式。
步骤S130:根据所述图像识别模型的数据输入要求,对翻转后的图像数据进行缩放。
在实际实施过程中,由于模型对输入图像的尺寸有统一要求而获取图像数据尺寸不一,因此需要对图像数据进行缩放。步骤S130可以采用双线性插值法,或最近邻插值法,或双立方插值法将原始图像数据尺寸调整至符合模型的输入尺寸要求:[W,H],其中W表示宽度,H表示高度。在本实施例中,采用双线性插值法。
步骤S140:利用随机信号对缩放后的图像数据进行截取。
作为一种实施方式,S140包括:在前述缩放操作后的图像的随机位置裁剪出0.8*[W,H]大小的图像。在其他实施例中,乘数不限于0.8,可以是0.5-1之间的任意数。
步骤S150:利用随机信号对截取后的图像数据进行填充。
在实际实施过程中,S150包括:用黑色像素对前述截取操作后的图像的上、下、左、右边缘进行填充,直至图像尺寸为目标尺寸。例如,若随机位置为(0.1*W,0.1*H),则在图像的上、下、左、右分别进行尺寸为[W,0.1*H]、[W,0.1*H]、[0.1*W,0.8*H]和[0.1*W,0.8*H]的填充,其中,随机位置指的是所述截取图像的左上角在尺寸为[W,H]的图像的位置。
步骤S160:对填充后的图像数据进行处理归一化处理。
作为一种实施方式,可以根据下式进行归一化处理:
Figure BDA0002547946470000051
其中,a′是归一化处理后的像素值,a是原来像素值,μ是图像像素均值,σ是像素标准差。
步骤S200:根据所述原始图像数据和实际应用需求,选择图像识别模型。
具体地,本实施例对CIFAR-10数据集进行图像分类,CIFAR-10数据集中每张图像尺寸为32x32x3,本实施例采用如下基于深度神经网络的图像识别模型:
Figure BDA0002547946470000061
其中,网络层设置中,3x3表示卷积核大小,卷积核大小后面的参数是特征通道数量,如:16,160,320和640;输入尺寸和输出尺寸各参数分别表示:特征图的宽,高,通道数量。除特别说明池化层、全连接层、softmax层,其他均为卷积层。
Figure BDA0002547946470000062
表示1个残差模块,该残差模块中包含6个同样的结构
Figure BDA0002547946470000063
该结构中包含2个参数为[3×3,160]的卷积层。
其中,多个卷积层堆叠构成的残差模块可通过如下方式表示,例如,
Figure BDA0002547946470000064
表示该残差。
步骤S300:对所述原始图像数据进行预处理,用预处理后的图像数据训练图像识别模型。
具体地,作为一种实施例,图像识别模型的训练参数如下:最大迭代次数:40000;批处理样本数:64;衰减系数:0.0002,动量项:0.9。
步骤S400:针对图像识别模型生成多种对抗样本。
具体地,在实际实施过程中,基于对抗训练的防御方法对模型防御性能的改善很大程度取决于用于对抗训练的对抗样本种类和攻击强度,因此,为增加本发明实施例提供的防御算法的推荐方法的普适性,本实施例构建的对抗攻击方法库包含多种攻击性较强的对抗攻击方法:L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法。请参考图2,图2为本发明实施例提供的对抗样本示例,图2(a)为原图,(b)为各种攻击方法对原图进行攻击产生的对抗扰动,从上到下依次通过L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法生成,(c)是对应的对抗样本,即,原图与对抗扰动的逐点像素值之和。在其他实施例中,对抗攻击方法库可以包含其他对抗攻击方法。
进一步地,根据所述预处理后的原始图像数据x和所述图像识别模型,逐一选取攻击方法库中的攻击方法产生对应的对抗扰动ρ,ρ=R(x,θ),其中,θ是识别模型的参数化表示,R表示攻击方法;
生成对应的对抗样本x′,x′=x+ρ。
图2为根据本实施例构建的对抗攻击方法库中的对抗攻击方法生成的对抗样本示例,其中,(a)是原图,(b)是各种攻击方法对原图进行攻击产生的对抗扰动,(c)是对应的对抗样本,即,原图与对抗扰动的逐点像素值之和;
步骤S500:利用多种对抗样本对识别模型实施攻击,并记录攻击结果,具体包括以下子步骤:
步骤S510:利用多种对抗样本对识别模型实施攻击。
作为一种实施例,当识别模型是分类模型时,S510包括:将对抗样本x′=x+ρ输入分类模型,并输出分类结果
Figure BDA0002547946470000071
其中,
Figure BDA0002547946470000072
表示识别模型的分类结果。在其他实施例中,识别模型可以是图像分割模型。
步骤S520:记录攻击结果。
作为一种实施例,在识别模型是分类模型时,在攻击是定向攻击时,若满足
Figure BDA0002547946470000073
对抗样本x′=x+ρ是有效的攻击样本,该攻击是成功的攻击,记录攻击结果,其中,
Figure BDA0002547946470000074
表示目标类别。
作为一种实施例,在识别模型是分类模型时,在攻击是非定向攻击时,若满足
Figure BDA0002547946470000075
该对抗样本x′=x+ρ是有效的攻击样本,该攻击是成功的攻击,记录攻击结果。
步骤S600:构建基于对抗训练的防御算法库。
作为一种实施例,基于对抗训练的防御算法库包括:朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法,以及基于梯度匹配的对抗训练算法。
具体地,该步骤包括以下子步骤:
步骤S610:构建模型识别原始样本的分类损失函数
Figure BDA0002547946470000076
作为一种实施例,模型识别原始样本的分类损失函数
Figure BDA0002547946470000077
可以是交叉熵损失函数:
Figure BDA0002547946470000078
其中,y代表样本的类别yi是类别i的真实标签,pi是softmax函数计算出来的类别i的概率值,k是类别数,n是原始样本数量,log(·)是对数函数。
在其他实施例中,模型识别原始样本的分类损失函数
Figure BDA0002547946470000081
也可以是Hinge损失,Softmax损失,或指数损失等。
步骤S620:构建模型识别对抗样本的分类损失函数
Figure BDA0002547946470000082
作为一种实施例,模型识别对抗样本的分类损失函数
Figure BDA0002547946470000083
可以是交叉熵损失函数:
Figure BDA0002547946470000084
其中,m是对抗样本数量。
在其他实施例中,模型识别对抗样本的分类损失函数
Figure BDA0002547946470000085
也可以是Hinge损失函数,Softmax损失函数,或指数损失函数等。
步骤S630:构建原始样本与对抗样本的抽象表征匹配损失函数
Figure BDA0002547946470000086
作为一种实施例,S630包括:将原始样本在分类模型预设层的表征与对抗样本在分类模型预设层的表征进行匹配,将所述二种表征之间的距离作为抽象表征匹配损失函数,形式化表示如下:
Figure BDA0002547946470000087
其中,
Figure BDA0002547946470000088
表示均方差,g(x)表示分类模型对图像数据的表征,所述表征包括但不限于逻辑向量,激活特征图,梯度。
步骤S640:构建模型正则项
Figure BDA0002547946470000089
在实际实施过程中,为防止模型过拟合,需要对模型参数进行约束。作为一种实施例,
Figure BDA00025479464700000810
其中,θ是模型的参数,||·||2表示
Figure BDA00025479464700000811
范数。
步骤S650:通过不同组合方式构建多种基于对抗训练的防御模型。
在实际操作中,机器学习模型的防御训练通过优化损失函数来实现,因此,可以通过对所述损失项的不同组合构建防御模型的损失函数。作为一种实施例,S650包括:构建一个加性模型:
Figure BDA00025479464700000812
其中α,β,γ和δ分别是各个损失项的权重系数。
作为一种实施例,S650包括:通过如下方式构建朴素对抗训练防御模型:
Figure BDA00025479464700000813
作为一种实施例,S650包括:通过如下方式构建基于逻辑向量匹配的对抗训练防御模型:
Figure BDA00025479464700000814
其中,g1(·)表示分类模型的逻辑输出。
作为一种实施例,S650包括:通过如下方式构建基于激活特征图匹配的对抗训练防御模型:
Figure BDA0002547946470000091
其中,g2(·)表示网络预设层的激活函数,形式化表示为:
Figure BDA0002547946470000092
其中Ai是特征图A的一个通道,C是特征图层的通道数。在本实施例中,选取最后网络最后一个卷积层作为预设层,因此,激活特征图A大小为7*7,通道数为512。
作为一种实施例,S650包括:通过如下方式构建基于梯度匹配的对抗训练防御模型:
Figure BDA0002547946470000093
其中,g3(·)表示梯度,形式化表示为:
Figure BDA0002547946470000094
其中,
Figure BDA0002547946470000095
表示交叉熵函数。
步骤S700:逐一应用对抗训练算法对识别模型进行防御训练,具体包括以下子步骤:
步骤S710:更新训练集,将所述的有效攻击样本与原始样本一起作为识别模型的防御训练数据集。
在实际实施过程中,原始样本数量与对抗样本数量的比例为1:1。
步骤S720:根据防御训练数据集,逐一应用防御算法库中的对抗训练算法对识别模型进行训练。
在实际实施过程中,逐一应用所述朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法,以及基于梯度匹配的对抗训练算法。
步骤S800:评估防御效果,并推荐防御算法。
作为一种实施例,评估防御效果,包括:利用L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法多种对抗攻击方法生成对抗样本,对经过防御训练的识别模型实施攻击,并记录攻击结果;
进一步地,根据如下量化评估指标,对防御效果进行评估:
Figure BDA0002547946470000096
其中
Figure BDA0002547946470000097
表示任意图像识别模型M的对抗分类准确率,TP表示图像识别模型正确分类的原始样本数量,TN表示图像识别模型正确分类的对抗样本数量,FP表示图像识别模型错误分类的原始样本数量,FN表示图像识别模型错误分类的对抗样本数量;
进一步地,防御效果表示为:
Figure BDA0002547946470000098
其中,
Figure BDA0002547946470000099
表示防御训练后的图像识别模型的对抗分类准确率,
Figure BDA00025479464700000910
表示防御训练前的图像识别模型的对抗分类准确率。
实施例2:
请参照图3,图3是本发明第二实施例提供的一种防御算法的推荐装置300的结构框图。所述推荐装置存储于如图4所述的电子设备100,下面将对图3所示的结构框图进行阐述,所示装置包括:
获取单元410,用于获取待处理的原始图像数据;
选择单元420,用于根据所述原始图像数据和实际应用需求,选择图像识别模型;
第一训练单元430,用于对所述原始图像数据进行预处理,利用预处理后的图像数据对图像识别模型进行分类训练;
对抗样本生成单元440,用于针对图像识别模型生成多种对抗样本;
攻击单元450,用于利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果;
防御算法构建模块460,用于构建基于对抗训练的防御算法库;
第二训练单元470,用于逐一应用对抗训练算法对识别模型进行防御训练;
评估推荐单元480,用于评估防御效果,并推荐防御算法。
本实施例对对抗样本的防御装置300的各功能单元实现各自功能的过程,请参见上述图1所示实施例中描述的内容,此处不再赘述。
综上所述,本发明各实施例提出的防御算法的推荐方法及装置,所述方法通过生成多种不同类型、不同强度的对抗样本并进行评估,可提前发现针对目标模型具有较强攻击性的对抗攻击类型,从而开展有针对性的防御训练;逐一对备选对抗训练方法进行定量评估并基于评估结果推荐有效的防御方法,可显著降低对抗攻击给模型造成的损失。
图4是本发明实施例提供一种电子设的结构示意图,所述电子设备100可以是个人计算机,服务器,移动终端,或者网络设备等。上述的推荐方法应用于如图4所示的电子设备100。
如图4所示,电子设备100以通用计算设备的形式表现。所述电子设备100可以包括但不限于:防御算法的推荐装置300、输入输出单元110、处理器120、存储器130、通信接口140、显示单元150,各个元件之间通过总线160直接或间接地电性连接并完成通信。图1显示的电子设备100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
所述防御算法的推荐装置300可以以软件形式存储在所述存储器130中,也可以固化在客户端设备的操作系统的软件功能模块中。
所述存储器130可以是,但不限于,U盘,移动硬盘,CD-ROM等。其中,存储器130可用于存储计算机指令,所述计算机指令可以被所述处理器120执行,使得处理器120执行该计算机指令时,本发明实施例的任一步骤可以被实现。例如,所述处理器120可以执行如图1所示的步骤S100:获取待处理的原始图像数据;S200:根据原始图像数据和实际应用需求选择图像识别模型;S300:用预处理后的图像数据训练图像识别模型;S400:针对识别模型生成多种对抗样本;S500:利用多种对抗样本对识别模型实施攻击,并记录攻击结果;S600:构建基于对抗训练的防御算法库;S700:逐一应用对抗训练算法对识别模型进行防御训练;S800:评估防御效果,并推荐防御算法。
所述处理器120可以是通用型中央处理器(CPU),单片机(MCU),数字信号处理器(DSP),也可以是特定应用集成电路ASIC、现场可编程逻辑门阵列(FPGA)。所述处理器120用于执行所述存储器130中存储的可执行模块,如:所述推荐装置包括的计算机指令或软件功能模块。所述处理器120可以实现或者执行本发明实施例中的各方法、各步骤及逻辑框图。
所述输入输出单元110,可以是,但不限于,鼠标和键盘等。用于提供用户输入数据,实现用户与所述电子设备100的交互。
所述通信接口140将所述输入输出单元110以及所述显示单元150耦合至所述存储器130以及所述处理器120。
在其他可能的实施方式中,通信接口140还可能实现所述电子设备与其他设备之间的通信连接。
所述显示单元150可以是液晶显示器,用于向用户显示数据。
在其他可能的实施方式中,所述显示单元150还可能是触控显示器,提供给用户与电子设备100进行交互。
所述总线160可以为表示总线结构中的一种或多种,包括存储器总线或存储器控制线、外围总线、图像加速端口、处理器或使用多种总线结构中任意总线结构的局域总线。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

Claims (10)

1.一种防御算法的推荐方法,其特征在于,包括:
获取待处理的原始图像数据;
根据所述原始图像数据和实际应用需求,选择图像识别模型;
对所述原始图像数据进行预处理,用预处理后的图像数据训练图像识别模型;
针对图像识别模型生成多种对抗样本;
利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果;
构建基于对抗训练的防御算法库;
逐一应用对抗训练算法对图像识别模型进行防御训练;
评估防御效果,并推荐防御算法。
2.如权利要求1所述的方法,其特征在于,对所述原始图像数据进行预处理,包括:
获取所述原始图像数据的特征表示;
利用随机信号对所述原始图像数据进行翻转;
根据所述图像识别模型的数据输入要求,对翻转后的图像数据进行缩放;
利用随机信号对缩放后的图像数据进行截取;
利用随机信号对截取后的图像数据进行填充;
对填充后的图像数据进行归一化处理。
3.如权利要求1所述的方法,其特征在于,生成多种对抗样本,包括:
构建对抗攻击方法库,该方法库包括如下攻击方法:L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法;
根据所述预处理后的原始图像数据x和所述图像识别模型,逐一选取攻击方法库中的攻击方法产生对应的对抗扰动ρ,ρ=R(x,θ),其中,θ是识别模型的参数化表示,R表示攻击方法;
生成对应的对抗样本x′,x′=x+ρ。
4.如权利要求1所述的方法,其特征在于,利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果,包括:
将对抗样本x′=x+ρ输入图像识别模型,并输出分类结果
Figure FDA0002547946460000011
其中,
Figure FDA0002547946460000012
表示识别模型的分类结果;
在所述攻击为非定向攻击时,若满足
Figure FDA0002547946460000013
对抗样本x′=x+ρ是有效的攻击样本,该攻击是成功的攻击,记录攻击结果;
在所述攻击为定向攻击时,若满足
Figure FDA0002547946460000021
该对抗样本x′=x+ρ是有效的攻击样本,该攻击是成功的攻击,记录攻击结果,其中,
Figure FDA00025479464600000211
表示目标类别。
5.如权利要求1所述的方法,所述防御算法库包括:朴素对抗训练算法、基于逻辑向量匹配的对抗训练算法、基于激活特征图匹配的对抗训练算法,以及基于梯度匹配的对抗训练算法。
6.如权利要求1所述的方法,其特征在于,构建基于对抗训练的防御算法库,包括:
构建模型识别原始样本的分类损失函数
Figure FDA0002547946460000022
构建模型识别对抗样本的分类损失函数
Figure FDA0002547946460000023
构建原始样本与对抗样本的抽象表征匹配损失函数
Figure FDA0002547946460000024
构建模型正则项
Figure FDA0002547946460000025
通过不同组合方式形成不同的基于对抗训练的防御算法:
Figure FDA0002547946460000026
其中α,β,γ和δ分别是各个损失项的权重系数;
通过集成多种基于对抗训练的防御算法,构建基于对抗训练的防御算法库。
7.如权利要求6所述的方法,其特征在于,构建原始样本与对抗样本的抽象表征匹配损失函数,包括:
将原始样本在分类模型预设层的表征与对抗样本在分类模型预设层的表征进行匹配,将二种表征之间的距离作为抽象表征匹配损失函数,形式化表示如下:
Figure FDA0002547946460000027
其中,
Figure FDA0002547946460000028
表示均方误差,g(x)表示分类模型对图像数据的表征。
8.如权利要求1所述的方法,其特征在于,进行防御训练,包括:
将所述的有效攻击样本与原始样本一起作为图像识别模型的防御训练数据集;
根据防御训练数据集,逐一应用防御算法库中的对抗训练算法对识别模型进行训练。
9.如权利要求1所述的方法,其特征在于,评估防御效果,包括:
根据如下量化评估指标,对防御效果进行评估:
Figure FDA0002547946460000029
其中
Figure FDA00025479464600000210
表示任意图像识别模型M的对抗分类准确率,TP表示图像识别模型正确分类的原始样本数量,TN表示图像识别模型正确分类的对抗样本数量,FP表示图像识别模型错误分类的原始样本数量,FN表示图像识别模型错误分类的对抗样本数量;
防御效果
Figure FDA0002547946460000031
其中,
Figure FDA0002547946460000032
表示防御训练后的图像识别模型的对抗分类准确率,
Figure FDA0002547946460000033
表示防御训练前的图像识别模型的对抗分类准确率。
10.一种对抗训练防御算法的推荐装置,其特征在于,包括:
获取单元,用于获取待处理的原始图像数据;
选择单元,用于根据所述原始图像数据和实际应用需求,选择图像识别模型;
第一训练单元,用于对所述原始图像数据进行预处理,利用预处理后的图像数据对图像识别模型进行分类训练;
对抗样本生成单元,用于针对图像识别模型生成多种对抗样本;
攻击单元,用于利用多种对抗样本对图像识别模型实施攻击,并记录攻击结果;
防御算法构建模块,用于构建基于对抗训练的防御算法库;
第二训练单元,用于逐一应用对抗训练算法对识别模型进行防御训练;
评估推荐单元,用于评估防御效果,并推荐防御算法。
CN202010566935.1A 2020-06-19 2020-06-19 一种防御算法的推荐方法及装置 Active CN111783083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010566935.1A CN111783083B (zh) 2020-06-19 2020-06-19 一种防御算法的推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010566935.1A CN111783083B (zh) 2020-06-19 2020-06-19 一种防御算法的推荐方法及装置

Publications (2)

Publication Number Publication Date
CN111783083A true CN111783083A (zh) 2020-10-16
CN111783083B CN111783083B (zh) 2023-08-22

Family

ID=72757616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010566935.1A Active CN111783083B (zh) 2020-06-19 2020-06-19 一种防御算法的推荐方法及装置

Country Status (1)

Country Link
CN (1) CN111783083B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907552A (zh) * 2021-03-09 2021-06-04 百度在线网络技术(北京)有限公司 图像处理模型的鲁棒性检测方法、设备及程序产品
CN112966685A (zh) * 2021-03-23 2021-06-15 平安国际智慧城市科技股份有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN113221858A (zh) * 2021-06-16 2021-08-06 中国科学院自动化研究所 人脸识别对抗攻击的防御方法及系统
CN113343247A (zh) * 2021-06-17 2021-09-03 公安部第三研究所 生物特征识别对抗样本攻击安全测评方法、系统、装置、处理器及其计算机可读存储介质
CN113379001A (zh) * 2021-07-16 2021-09-10 支付宝(杭州)信息技术有限公司 针对图像识别模型的处理方法及装置
CN115001769A (zh) * 2022-05-25 2022-09-02 中电长城网际系统应用有限公司 抗重标识攻击能力评估方法、装置、计算机设备及介质
CN115618343A (zh) * 2021-07-13 2023-01-17 洼田望 信息处理装置、信息处理方法和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160327535A1 (en) * 2015-05-04 2016-11-10 Deere & Company Sensing and surfacing of crop loss data
AU2018100321A4 (en) * 2018-03-15 2018-04-26 Chen, Jinghan Mr Person ReID method based on metric learning with hard mining
CN108549940A (zh) * 2018-03-05 2018-09-18 浙江大学 基于多种对抗样例攻击的智能防御算法推荐方法及系统
CN109784411A (zh) * 2019-01-23 2019-05-21 四川虹微技术有限公司 对抗样本的防御方法、装置、系统及存储介质
CN110222502A (zh) * 2019-06-10 2019-09-10 北京计算机技术及应用研究所 一种注入随机化的对抗训练方法
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110674938A (zh) * 2019-08-21 2020-01-10 浙江工业大学 基于协同多任务训练的对抗攻击防御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160327535A1 (en) * 2015-05-04 2016-11-10 Deere & Company Sensing and surfacing of crop loss data
CN108549940A (zh) * 2018-03-05 2018-09-18 浙江大学 基于多种对抗样例攻击的智能防御算法推荐方法及系统
AU2018100321A4 (en) * 2018-03-15 2018-04-26 Chen, Jinghan Mr Person ReID method based on metric learning with hard mining
CN109784411A (zh) * 2019-01-23 2019-05-21 四川虹微技术有限公司 对抗样本的防御方法、装置、系统及存储介质
CN110222502A (zh) * 2019-06-10 2019-09-10 北京计算机技术及应用研究所 一种注入随机化的对抗训练方法
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110674938A (zh) * 2019-08-21 2020-01-10 浙江工业大学 基于协同多任务训练的对抗攻击防御方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907552A (zh) * 2021-03-09 2021-06-04 百度在线网络技术(北京)有限公司 图像处理模型的鲁棒性检测方法、设备及程序产品
CN112907552B (zh) * 2021-03-09 2024-03-01 百度在线网络技术(北京)有限公司 图像处理模型的鲁棒性检测方法、设备及程序产品
CN112966685A (zh) * 2021-03-23 2021-06-15 平安国际智慧城市科技股份有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112966685B (zh) * 2021-03-23 2024-04-19 深圳赛安特技术服务有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN113221858A (zh) * 2021-06-16 2021-08-06 中国科学院自动化研究所 人脸识别对抗攻击的防御方法及系统
CN113221858B (zh) * 2021-06-16 2022-12-16 中国科学院自动化研究所 人脸识别对抗攻击的防御方法及系统
CN113343247A (zh) * 2021-06-17 2021-09-03 公安部第三研究所 生物特征识别对抗样本攻击安全测评方法、系统、装置、处理器及其计算机可读存储介质
CN115618343A (zh) * 2021-07-13 2023-01-17 洼田望 信息处理装置、信息处理方法和存储介质
CN113379001A (zh) * 2021-07-16 2021-09-10 支付宝(杭州)信息技术有限公司 针对图像识别模型的处理方法及装置
CN115001769A (zh) * 2022-05-25 2022-09-02 中电长城网际系统应用有限公司 抗重标识攻击能力评估方法、装置、计算机设备及介质
CN115001769B (zh) * 2022-05-25 2024-01-02 中电长城网际系统应用有限公司 抗重标识攻击能力评估方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN111783083B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111783083A (zh) 一种防御算法的推荐方法及装置
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
US11232286B2 (en) Method and apparatus for generating face rotation image
CN110334749B (zh) 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN111783085B (zh) 一种对抗样本攻击的防御方法、装置及电子设备
CN113449783B (zh) 一种对抗样本生成方法、系统、计算机设备和存储介质
KR102294574B1 (ko) 딥러닝 기반의 얼굴인식모델을 이용하여 실물이미지를 판단할 수 있는 안면인식시스템
CN109871845B (zh) 证件图像提取方法及终端设备
KR102161359B1 (ko) 딥러닝 기반의 얼굴이미지 추출장치
EP2580711A2 (en) Distinguishing live faces from flat surfaces
US20140212044A1 (en) Image Matching Using Subspace-Based Discrete Transform Encoded Local Binary Patterns
CN113066002A (zh) 对抗样本的生成方法、神经网络的训练方法、装置及设备
KR20110094112A (ko) 방위 독립적인 얼굴 검출기를 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
CN112560753A (zh) 基于特征融合的人脸识别方法、装置、设备及存储介质
CN114511705A (zh) 用于多方安全计算系统的生物特征提取方法及设备
CN114677722A (zh) 一种融合多尺度特征的多监督人脸活体检测方法
CN110288560A (zh) 一种图像模糊检测方法及装置
CN109615620B (zh) 图像压缩度识别方法、装置、设备及计算机可读存储介质
CN113420665B (zh) 对抗人脸图像生成、人脸识别模型训练方法、装置及设备
CN112330671A (zh) 细胞分布状态的分析方法、装置、计算机设备和存储介质
CN116311439A (zh) 一种人脸验证隐私保护方法和装置
KR20210058882A (ko) 안면 인식 방법 및 디바이스
CN116229528A (zh) 一种活体掌静脉检测方法、装置、设备及存储介质
CN115965839A (zh) 图像识别方法、存储介质及设备
CN115082992A (zh) 人脸活体检测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant