CN112464245A - 一种面向深度学习图像分类模型的泛化的安全性评估方法 - Google Patents

一种面向深度学习图像分类模型的泛化的安全性评估方法 Download PDF

Info

Publication number
CN112464245A
CN112464245A CN202011351675.2A CN202011351675A CN112464245A CN 112464245 A CN112464245 A CN 112464245A CN 202011351675 A CN202011351675 A CN 202011351675A CN 112464245 A CN112464245 A CN 112464245A
Authority
CN
China
Prior art keywords
deep learning
image classification
learning image
model
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011351675.2A
Other languages
English (en)
Other versions
CN112464245B (zh
Inventor
罗文俊
王建菲
陈自刚
李梦琪
蒋静
曾宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011351675.2A priority Critical patent/CN112464245B/zh
Publication of CN112464245A publication Critical patent/CN112464245A/zh
Application granted granted Critical
Publication of CN112464245B publication Critical patent/CN112464245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了面向深度学习图像分类模型的泛化的安全性评估方法,属于机器学习技术领域。目前深度学习相关研究中所要解决的重要问题是在解决深度学习图像分类模型面临的具有泛化特征的安全威胁问题的同时提高模型的鲁棒性,本发明利用面向深度学习图像分类模型的泛化的安全性评估方法,通过测试深度学习图像分类模型的针对对抗样本的主动防御能力、对抗样本检测能力以及针对对抗样本的被动防御能力等指标,对深度学习图像分类模型的安全性做出全面评估,并在评估过程中发掘模型存在的安全漏洞,与此同时,由于本发明存在的泛化特性,使得该方法能够适用于绝大多数深度学习图像分类模型,这对提高深度学习领域的安全性具有重要的理论和实践意义。

Description

一种面向深度学习图像分类模型的泛化的安全性评估方法
技术领域
本发明涉及一种面向深度学习图像分类模型的泛化的安全性评估方法,属于机器学习技术领域。
背景技术
深度学习(deep learning)技术是机器学习(machine learning)技术的一个重要分支,是一种以人工神经网络为架构,对数据进行表征学习的算法,也被称为无监督特性学习(unsupervised feature learning),即可以无需人为设计特征提取,特征从数据中学习而来。深度学习实质上是多层表示学习(representation learning)方法的非线性组合。近些年,深度学习技术快速发展,涌现出大量深度学习框架,如深度卷积神经网络(CNN)、生成对抗网络(GAN)、深度卷积生成对抗网络(DCGAN)等,基于这些框架的不断涌现,深度学习技术已被广泛应用于图像识别、语音识别、自然语言处理、信息检索与生物信息学等领域并取得了极好的效果。
然而,随着深度学习应用范围的不断扩大,其面对对抗样本时表现出来的脆弱性亟需解决。深度学习技术对于对抗样本普遍表现出脆弱性,受干扰之后的样本输入导致模型以高置信度给出一个错误的输出,很多情况下,在训练集的不同子集上训练得到的具有不同结构的模型会对相同的对抗样本实现误分,这意味着对抗样本成为了训练算法的一个盲点。与此同时,深度学习对抗攻击表现出极强的泛化特征,这种泛化特征意味着如果有人希望对图像分类模型进行恶意攻击,攻击者根本不必访问目标模型,就可以通过训练替代模型来生成对抗样本,然后将这些对抗样本部署到他们需要攻击的模型中。
发明内容
本发明提供的面向深度学习图像分类模型的泛化的安全性评估可在较大程度上解决上述问题。安全性评估利用大量对抗性深度学习攻击算法和安全防御策略,对深度学习图像分类模型做出全面可靠的评估,对于经安全性评估后发现存在安全漏洞的深度学习图像分类模型,通过多种手段完善其防御策略,提高其鲁棒性,将会对深度学习图像分类模型安全性的提升产生决定性的积极作用,与此同时,泛化的安全性评估方法能适用于大多数深度学习图像分类模型,这对保护深度学习图像分类模型的安全具有重要的理论和实践意义。
为了实现上述目的,本发明采用的技术方案是:一种面向深度学习图像分类模型的泛化的安全性评估方法,包括以下步骤:
(1)评估模型的主动防御能力:输入图像样本,判断深度学习图像分类模型训练中是否采用主动防御,以及对所采用的主动防御策略的可靠性进行评估;
(2)模拟攻击:以攻击者身份采用多种不同的对抗样本生成算法制作对抗样本对深度学习图像分类模型进行攻击;
(3)测试对抗样本检测能力:使用非负矩阵分解和余弦相似度测试深度学习图像分类模型能否检测出扰动程度大小不一的对抗样本,判断深度学习图像分类模型检测对抗样本能力;
(4)测试被动防御能力:对深度学习图像分类模型的被动防御策略的健全性以及对对抗样本的处理结果进行评估;
(5)综合多项指标全面评估:结合主动防御能力、对抗样本检测能力和被动防御能力,建立安全评估指标体系,全面评估深度学习图像分类模型的安全性。
步骤(1)中,对目标模型在训练过程中采取的主动防御策略的种类和可靠性进行评估,由于对抗性攻击具有多种不同的攻击手段和极强的攻击能力,导致对对抗性攻击的防御变得十分困难,因此,在训练过程中,模型具备何等程度的主动防御能力对整个模型的安全性起到至关重要的作用,可根据目前已存的多种类型的深度学习对抗性攻击评估目标模型的主动防御策略是否健全,是否对不同种类的攻击具有较强的针对性,以及采取的策略是否具有较好的可靠性。以往的针对深度学习图像分类模型的安全评估都是对模型分类过程中的性能进行评估,而缺少对模型的训练过程中的评估,相比较于传统的针对深度学习图像分类模型的安全评估,我们对深度学习图像分类模型的主动防御策略这一关乎模型整体鲁棒性的重要指标进行评估,弥补了传统深度学习图像分类模型安全评估过程中的不足,增强了对深度学习图像分类模型的全面认识,能够及时发现深度学习图像分类模型存在的安全问题,同时,根据评估过程中发现的问题,能够及早明确模型后继的增强方向,对全面评估模型的安全性起到重要作用。
步骤(2)中,基于主动军备竞赛的概念,模拟真实攻击场景,使用黑盒攻击和白盒攻击等常见的攻击方法,以攻击者身份制作并备份对抗样本对深度学习图像分类模型发起攻击。此外,由于针对深度学习图像分类模型的对抗样本存在泛化特征,模拟攻击无需访问目标模型,就可将对抗样本部署到深度学习图像分类模型上,并达到较好的攻击效果。本步骤综合考虑了攻击者可能采用的对抗样本生成算法,通过模拟深度学习图像分类模型可能会受到的攻击和威胁,可全面了解深度学习图像分类模型对不同攻击算法的敏感度,并能快速发现模型存在的安全问题,对后续模型的安全评估和增强法向起到决定性的作用,与此同时,对于当面临某种攻击时模型表现出来的较好的性能,可以将模型训练时的参数迁移到其他深度学习图像分类模型的训练中,使得其他模型在面临同种攻击时也能表现出较好的稳定性,这无疑是具有重要价值和意义的。
步骤(3)中,在测试数据集输入到深度学习图像分类模型后,性能良好的深度学习图像分类模型应保持对数据集中存在的对抗样本的高度敏感,具备对抗样本检测能力,能够及时发现数据集中存在的对抗样本,这是保卫深度学习图像分类模型安全的第一道壁垒,对深度学习的安全性起到至关重要的作用。本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将会对深度学习图像分类模型检测对抗样本的能力进行测试,当测试数据集输入后,该方法首先会测试深度学习图像分类模型能否检测出其中的对抗样本,将被深度学习图像分类模型对抗样本检测机制判定为正常样本的测试样本集与之前备份的对抗样本集进行对比,通过两种样本集的相似度判别深度学习图像分类模型针对扰动度大小不一的对抗样本的检测与发现能力,显然,两种样本集的相似度越高,表明目标模型对抗样本检测能力越弱。结合以上测试结果对深度学习图像分类模型给出等级不同的安全级别,作为全面评估深度学习图像分类模型安全性的重要指标之一。在本步骤中,我们将深度学习图像分类模型对抗样本检测能力单独作为评估深度学习图像分类模型安全性的重要指标之一,原因在于模型在防御对抗性攻击时,模型的对抗样本检测能力起到至关重要的作用,对模型检测能力的测试和评估,有助于提升模型整体的安全性,使模型有更强大的能力在数据集刚输入时就能及早发现其中存在的对抗样本,与此同时,我们创新性地将输入深度学习图像分类模型的数据集进行备份,有利于保存数据的完整性,与此同时,通过数据集的对比能直观地展现出模型的检测能力,从理论上讲此方法是完全可行的。
步骤(3)中,该方法会将被深度学习图像分类模型对抗样本检测机制判定为正常样本的样本集与备份对抗样本集进行对比,对比方法是:首先使用非负矩阵分解(NMF)提取样本特征,然后利用特征向量之间的夹角余弦对比其相似度,由此可得出两样本集之间的相似程度,进而判断目标模型检测对抗样本能力的强弱。在本步骤中,我们使用NMF进行特征提取,一方面,科学研究中的很多大规模数据的分析方法需要通过矩阵形式进行有效处理,而NMF思想则为我们处理大规模数据提供了一种新的途径;另一方面,NMF分解算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果上的可解释性,以及占用存储空间少等诸多优点。此外,在我们的方法中创新性地引入了余弦相似度来计算两个或多个特征向量之间的相似度,该算法可以高度契合NMF算法,对于测试模型的对抗样本检测能力具有很高的实用性。
步骤(4)中,评估目标模型采取的被动防御策略是否健全,与此同时,针对步骤(3)中检测出的对抗性样本,评估目标模型对这些对抗样本的防御效果,对于防御效果一般的模型而言,可能会将对抗样本直接丢弃,而对于被动防御性能良好的模型而言,可能会将对抗样本经处理后按正常样本输出,因此,可根据模型的输出结果对模型的被动防御能力做出评估。在本步骤中,通过对模型被动防御能力的测试,可以全面了解模型对检测出的对抗性样本的处理能力,这项能力对深度学习图像分类模型而言也是十分重要的,它关系到模型最终的输出结果,通过本步骤的评估,我们可以找出模型安全防御中存在的漏洞,对增强模型的鲁棒性至关重要。
步骤(5)中,本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将模型主动防御能力、对抗样本检测能力以及被动防御能力等多项指标结合,建立安全评估指标体系,对深度学习图像分类模型的安全性做出全面可靠的评估,并在评估过程中发掘目标模型中存在的安全漏洞,进而全面提高深度学习图像分类模型的鲁棒性。在本步骤中,相对于传统的针对深度学习图像分类模型的安全评估而言,我们创新性地建立安全评估指标体系,将各项评估指标相结合,此方法的评估结果具有更高的准确性和可靠性,与此同时,由于各项指标权重的不同,对模型整体的评估更能彰显某项指标的重要性,因此,该方法是新颖且实用的。
附图说明
图1为本发明的流程示意图;
图2为本发明面向深度学习图像分类模型的安全性评估方法示意图;
图3为本发明中所使用的对抗样本产生的示意图;
图4为本发明测试深度学习图像分类模型对抗样本检测能力的方法示意图;
图5为样本集相似度对比示意图;
图6为深度学习图像分类模型安全评估指标体系。
具体实施方式
如图2所示,一种面向深度学习图像分类模型的泛化的安全性评估方法,通过测试深度学习图像分类模型主动防御能力、对抗样本检测能力以及被动防御能力等,对深度学习图像分类模型的安全性做出全面可靠的评估并给出优化方案。
步骤(1)评估深度学习图像分类模型主动防御能力:为了增强深度学习图像分类模型的鲁棒性,在模型训练过程中,会采取对抗性训练和防御性蒸馏等主动防御策略增强深度学习图像分类模型的鲁棒性。本发明通过对模型训练中是否采用主动防御以及所采用的主动防御策略的可靠性进行评估。所谓主动防御即模型训练过程所采取的增强模型鲁棒性的方法,如对抗性训练和防御蒸馏等,通过了解模型的训练过程即可得知模型采取了哪些主动防御方法来增强自身的鲁棒性。此外,本发明会对采用的主动防御策略的可靠性进行评估,例如对抗性训练,通过训练过程中使用的对抗样本集的数量和种类来判断模型对抗性训练的效果,对于对抗样本数量充足且种类齐全的对抗训练,模型获得的抵御对抗样本的能力自然也较高。可以根据上述方法对采取的各种主动防御策略进行打分,根据不同策略在主动防御过程中重要性的不同给出权重值,进而对机器学习模型的主动防御能力进行整体评估。
步骤(2)模拟攻击:军备竞赛是一种预防式的军事对抗行为,基于此概念,对深度学习图像分类模型开展主动军备竞赛,模拟真实攻击场景。以攻击者身份采用多种不同的对抗样本生成算法制作对抗样本对深度学习图像分类模型进行攻击,常见的攻击方法有黑盒攻击和白盒攻击等,对抗样本生成算法种类繁多,存在极大差异,本发明拟采用几种经典的对抗样本生成算法来生成对抗样本,如快速梯度符号法(FGSM)、迭代梯度符号法(IGSM)、雅可比显著图攻击(JSMA)和DeepFool算法等,如图3所示,FGSM算法生成对抗样本的公式为:
X′=X+η
X′表示生成的对抗样本,X表示原图像,η表示扰动。
扰动产生公式为:
Figure BDA0002801482120000051
其中θ是模型参数,x是模型原输入,y为结果标签,J(θ,x,y)是损失函数,sign()是符号函数,ε扰动约束,
Figure BDA0002801482120000052
表示梯度。
IGSM是FGSM的迭代版本,它需要多个小步骤迭代,将总的噪声幅值分配到每一步迭代中去,同时调整每个步骤后的方向。其对抗样本产生公式为:
X′0=X
Figure BDA0002801482120000053
其中的参数与FGSM中含义相同,X′N+1表示经过迭代后产生的对抗样本,N表示迭代数,α表示权重值,Clip表示将溢出的数值用边界值代替,这是因为在迭代更新中,随着迭代次数的增加,部分像素值可能会溢出。JSMA和DeepFool算法作为经典的对抗样本生算法同样适用于本发明用于生成对抗样本以进行模拟攻击。可根据上述几种方法制作特定对抗样本并加入到测试数据集中,然后将测试数据集输入到深度学习图像分类模型中,用来模拟攻击深度学习图像分类模型,由于针对深度学习图像分类模型的对抗样本存在泛化特征,模拟攻击无需访问目标模型,即可将对抗样本部署到深度学习图像分类模型上,并达到较好的攻击效果。
步骤(3)测试对抗样本检测能力:一般来讲,一个性能良好的深度学习图像分类模型应保持对数据集中存在的对抗样本的高度敏感,拥有检测对抗性样本的能力,能够及时发现对抗样本,这是保卫深度学习图像分类模型安全的第一道壁垒,对深度学习的安全性起到至关重要的作用。关于对抗样本检测的研究已取得大量研究成果,如沈佳邵、秦素娟等人提出的多种特征压缩联合的对抗样本检测方法,严飞等人提出的基于边界值不变量的对抗样本检测方法等。在制作对抗样本的过程中,由于添加的扰动的类型不同,所以导致对抗样本中的扰动度大小不一,有些类型的扰动虽然是小扰动,却能够起到攻击效果且更难检测到,如DeepFool等算法生成的对抗样本。本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将会对深度学习图像分类模型检测对抗样本的能力进行测试,如图4所示,当测试数据集输入后,该方法首先会测试深度学习图像分类模型能否检测出其中的对抗样本,然后将被深度学习图像分类模型对抗样本检测机制判定为正常样本的测试样本集与之前备份的对抗样本集进行对比,如图5所示,通过两种样本集的相似度判别深度学习图像分类模型对扰动度大小不一的对抗样本的检测与发现能力,显然,两种样本集的相似度越高,表明目标模型对抗样本检测能力越弱。对比方法是:首先使用非负矩阵分解算法提取样本特征,然后利用特征向量之间的夹角余弦对比其相似度,由此可得出两样本集之间的相似程度,同时,可进一步计算样本检测的准确率、精确率和召回率,进而判断目标模型检测对抗样本能力的强弱。对于二维向量A(x1,y1)和B(x2,y2),求他们之间夹角余弦的公式为:
Figure BDA0002801482120000061
当A(a1,a2···an)和B(b1,b2···bn)为n维向量时,上述夹角余弦计算方法同样适用,其中A中的a1~an表示使用NMF算法从样本A中提取的n维的特征向量,B中的b1~bn表示使用NMF算法从样本B中提取的特征向量,计算两样本之间的相似度的公式为:
Figure BDA0002801482120000062
夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1,由此便可得出两样本集之间的相似程度。此外,在进行样本检测时,会出现以下几种情况:将正常样本预测为正常样本(True Positive,TP)、将对抗样本检测为正常样本(False Positive,FP)、将正常样本检测为对抗样本(False Negative,FN)、将对抗样本检测为对抗样本(True Negative,TN),可通过上述方法计算出样本检测的准确率(正确检测的正常样本数和对抗样本数占样本总数的比例,即
Figure BDA0002801482120000063
)、精确率(正确检测的正常样本数占检测为正常样本的总数的比例,即
Figure BDA0002801482120000064
)和召回率(正确检测的正常样本数占实际正常样本总数的比例,即
Figure BDA0002801482120000065
),为了兼顾精确率和召回率,使用F1分数(F1-score),即精确率和召回率的调和平均数作为模型的评估标准之一,
Figure BDA0002801482120000066
F1-score越大,表明模型质量越高。
步骤(4)测试深度学习图像分类模型被动防御体系的健全性:本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法借助模拟攻击测试深度学习图像分类模型的被动防御体系是否健全,在检测出对抗性样本后,可通过一些方法如扰动消减等对对抗性样本进行处理,以获得正确的输出,由于对抗攻击类型多变、方法不一,单靠某一种或几种防御策略绝无可能达到上述目的,因此鲁棒性能良好的深度学习图像分类模型应该具备健全的安全防御体系,以此来保障深度学习图像分类模型免受蓄意的对抗性攻击并给出正确输出结果。本发明通过使用多种不同类型的对抗样本对目标模型发起模拟攻击,根据模型的输出结果,我们可以很直观地发现模型安全防御中存在的问题,即模型对于导致输出结果不正确的对抗样本缺少抵御能力或对该类对抗样本的处理能力不佳,通过这种方法可以挖掘出其中存在的安全漏洞,与此同时,通过模型的输出结果,可以对模型的防御体系给出安全评分,输出结果越好,安全评分越高,并将此作为全面评估深度学习图像分类模型安全性的重要指标之一,这无疑将对提升深度学习图像分类模型的鲁棒性产生积极作用。
所述步骤(5)中,本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将模型主动防御能力、对抗样本检测能力、被动防御能力等多项指标结合,建立安全评估指标体系,如图6所示,对深度学习图像分类模型的安全性做出全面可靠的安全性综合评估,模型整体安全得分为S=λ1S12S23S3,其中λ1,λ2,λ3是预设的权重值,S1,S2,S3分别是深度学习主动防御能力、对抗样本检测能力和被动防御能力的得分,同时,针对评估过程中发现的安全漏洞,给出防御策略强化措施,全面提高深度学习图像分类模型的鲁棒性。

Claims (8)

1.一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于,包括以下步骤:
(1)评估模型的主动防御能力:输入图像样本,判断深度学习图像分类模型训练中是否采用主动防御,以及对所采用的主动防御策略的可靠性进行评估;
(2)模拟攻击:以攻击者身份采用多种不同的对抗样本生成算法制作对抗样本对深度学习图像分类模型进行攻击;
(3)测试对抗样本检测能力:使用非负矩阵分解和余弦相似度测试深度学习图像分类模型能否检测出扰动程度大小不一的对抗样本,判断深度学习图像分类模型检测对抗样本能力;
(4)测试被动防御能力:对深度学习图像分类模型的被动防御策略的健全性以及对对抗样本的处理结果进行评估;
(5)综合多项指标全面评估:结合主动防御能力、对抗样本检测能力和被动防御能力,建立安全评估指标体系,全面评估深度学习图像分类模型的安全性。
2.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于:所述步骤(1)中根据对抗性训练过程中使用的对抗样本集的数量和种类来判断模型对抗性训练的效果,对采取的各种主动防御策略进行打分,结合不同主动防御策略过程中重要性的权重值,进而对机器学习模型的主动防御能力进行整体评估。
3.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于:步骤(2)所述对抗样本生成算法包括速梯度符号法、迭代梯度符号法、雅可比显著图攻击和DeepFool算法。
4.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于:所述步骤(3)具体包括以下步骤:测试数据集输入后,首先会测试深度学习图像分类模型能否检测出其中的对抗样本,然后将被深度学习图像分类模型对抗样本检测机制判定为正常样本的测试样本集与之前备份的对抗样本集进行对比,通过两种样本集的相似度判别深度学习图像分类模型对扰动度大小不一的对抗样本的检测与发现能力;对比方法是:首先使用非负矩阵分解算法提取样本特征,然后利用特征向量之间的夹角余弦对比其相似度,由此可得出两样本集之间的相似程度,最后,进一步计算样本检测的准确率、精确率和召回率。
5.根据权利要求4所述一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于:所述夹角余弦的计算公式为:
Figure FDA0002801482110000011
其中A中的a1~an表示使用非负矩阵分解算法从样本A中提取的n维的特征向量,B中的b1~bn表示使用非负矩阵分解算法从样本B中提取的特征向量。
6.根据权利要求4所述一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于:所述准确率为
Figure FDA0002801482110000021
精确率为
Figure FDA0002801482110000022
召回率为
Figure FDA0002801482110000023
TP表示将正常样本预测为正常样本的数量,FP表示将对抗样本检测为正常样本的数量,FN表示将正常样本检测为对抗样本的数量,TN表示将对抗样本检测为对抗样本的数量。
7.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法,其特征在于:所述步骤(4)具体处理步骤为:
将多种不同类型的对抗样本对深度学习图像分类模型发起模拟攻击,根据模型的输出结果,发现模型安全防御中存在的问题;通过模型的输出结果,对模型的防御体系给出安全评分。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1到7任一项所述的方法。
CN202011351675.2A 2020-11-26 2020-11-26 一种面向深度学习图像分类模型的泛化的安全性评估方法 Active CN112464245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011351675.2A CN112464245B (zh) 2020-11-26 2020-11-26 一种面向深度学习图像分类模型的泛化的安全性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011351675.2A CN112464245B (zh) 2020-11-26 2020-11-26 一种面向深度学习图像分类模型的泛化的安全性评估方法

Publications (2)

Publication Number Publication Date
CN112464245A true CN112464245A (zh) 2021-03-09
CN112464245B CN112464245B (zh) 2022-05-03

Family

ID=74808874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011351675.2A Active CN112464245B (zh) 2020-11-26 2020-11-26 一种面向深度学习图像分类模型的泛化的安全性评估方法

Country Status (1)

Country Link
CN (1) CN112464245B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989361A (zh) * 2021-04-14 2021-06-18 华南理工大学 一种基于生成对抗网络的模型安全性检测方法
CN113326400A (zh) * 2021-06-29 2021-08-31 合肥高维数据技术有限公司 基于深度伪造视频检测的模型的评价方法及系统
CN113506272A (zh) * 2021-07-14 2021-10-15 人民网股份有限公司 一种虚假视频的检测方法及系统
CN114049537A (zh) * 2021-11-19 2022-02-15 江苏科技大学 一种基于卷积神经网络的对抗样本防御方法
CN114821227A (zh) * 2022-04-12 2022-07-29 重庆邮电大学 一种深度神经网络对抗样本评分方法
CN116204890A (zh) * 2023-04-28 2023-06-02 浙江鹏信信息科技股份有限公司 一种自适应增强人工智能算法安全的算法组件库
CN116483733A (zh) * 2023-06-12 2023-07-25 数据堂(北京)科技股份有限公司 多维度人工智能产品评测方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927491A (zh) * 2014-04-30 2014-07-16 南方电网科学研究院有限责任公司 基于scap的安全基线评估方法
CN107846012A (zh) * 2017-09-27 2018-03-27 国网湖北省电力公司 一种基于深度学习技术的电力系统暂态稳定评估方法
US20180097822A1 (en) * 2016-10-01 2018-04-05 Intel Corporation Technologies for analyzing uniform resource locators
CN107885999A (zh) * 2017-11-08 2018-04-06 华中科技大学 一种基于深度学习的漏洞检测方法及系统
CN108833409A (zh) * 2018-06-15 2018-11-16 北京网思科平科技有限公司 基于深度学习和半监督学习的webshell检测方法及装置
CN109034632A (zh) * 2018-08-03 2018-12-18 哈尔滨工程大学 一种基于对抗样本的深度学习模型安全风险评估方法
US20190220755A1 (en) * 2018-01-18 2019-07-18 Google Llc Systems and Methods for Improved Adversarial Training of Machine-Learned Models
US20200019699A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Defending Against Model Inversion Attacks on Neural Networks
CN111950628A (zh) * 2020-08-11 2020-11-17 上海交通大学 人工智能图像分类模型的鲁棒性评估与增强系统
US20200364366A1 (en) * 2019-05-15 2020-11-19 International Business Machines Corporation Deep learning-based identity fraud detection

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927491A (zh) * 2014-04-30 2014-07-16 南方电网科学研究院有限责任公司 基于scap的安全基线评估方法
US20180097822A1 (en) * 2016-10-01 2018-04-05 Intel Corporation Technologies for analyzing uniform resource locators
CN107846012A (zh) * 2017-09-27 2018-03-27 国网湖北省电力公司 一种基于深度学习技术的电力系统暂态稳定评估方法
CN107885999A (zh) * 2017-11-08 2018-04-06 华中科技大学 一种基于深度学习的漏洞检测方法及系统
US20190220755A1 (en) * 2018-01-18 2019-07-18 Google Llc Systems and Methods for Improved Adversarial Training of Machine-Learned Models
CN108833409A (zh) * 2018-06-15 2018-11-16 北京网思科平科技有限公司 基于深度学习和半监督学习的webshell检测方法及装置
US20200019699A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Defending Against Model Inversion Attacks on Neural Networks
CN109034632A (zh) * 2018-08-03 2018-12-18 哈尔滨工程大学 一种基于对抗样本的深度学习模型安全风险评估方法
US20200364366A1 (en) * 2019-05-15 2020-11-19 International Business Machines Corporation Deep learning-based identity fraud detection
CN111950628A (zh) * 2020-08-11 2020-11-17 上海交通大学 人工智能图像分类模型的鲁棒性评估与增强系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
付章杰等: "基于深度学习的图像隐写方法研究", 《计算机学报》 *
张嘉楠等: "深度学习对抗样本的防御方法综述", 《网络空间安全》 *
易平等: "人工智能对抗攻击研究综述", 《上海交通大学学报》 *
王赞等: "深度神经网络测试研究综述", 《软件学报》 *
翟明芳等: "基于深度学习的加密恶意流量检测研究", 《网络与信息安全学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989361A (zh) * 2021-04-14 2021-06-18 华南理工大学 一种基于生成对抗网络的模型安全性检测方法
CN112989361B (zh) * 2021-04-14 2023-10-20 华南理工大学 一种基于生成对抗网络的模型安全性检测方法
CN113326400A (zh) * 2021-06-29 2021-08-31 合肥高维数据技术有限公司 基于深度伪造视频检测的模型的评价方法及系统
CN113326400B (zh) * 2021-06-29 2024-01-12 合肥高维数据技术有限公司 基于深度伪造视频检测的模型的评价方法及系统
CN113506272A (zh) * 2021-07-14 2021-10-15 人民网股份有限公司 一种虚假视频的检测方法及系统
CN113506272B (zh) * 2021-07-14 2024-02-13 人民网股份有限公司 一种虚假视频的检测方法及系统
CN114049537A (zh) * 2021-11-19 2022-02-15 江苏科技大学 一种基于卷积神经网络的对抗样本防御方法
CN114049537B (zh) * 2021-11-19 2024-05-28 江苏科技大学 一种基于卷积神经网络的对抗样本防御方法
CN114821227A (zh) * 2022-04-12 2022-07-29 重庆邮电大学 一种深度神经网络对抗样本评分方法
CN114821227B (zh) * 2022-04-12 2024-03-22 重庆邮电大学 一种深度神经网络对抗样本评分方法
CN116204890A (zh) * 2023-04-28 2023-06-02 浙江鹏信信息科技股份有限公司 一种自适应增强人工智能算法安全的算法组件库
CN116483733A (zh) * 2023-06-12 2023-07-25 数据堂(北京)科技股份有限公司 多维度人工智能产品评测方法及装置

Also Published As

Publication number Publication date
CN112464245B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN112464245B (zh) 一种面向深度学习图像分类模型的泛化的安全性评估方法
CN113554089B (zh) 一种图像分类对抗样本防御方法、系统及数据处理终端
Rakin et al. Tbt: Targeted neural network attack with bit trojan
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
Adhao et al. Feature selection using principal component analysis and genetic algorithm
CN111950628A (zh) 人工智能图像分类模型的鲁棒性评估与增强系统
Chen et al. Backdoor attacks and defenses for deep neural networks in outsourced cloud environments
Fan et al. Jointly attacking graph neural network and its explanations
CN114491541B (zh) 基于知识图谱路径分析的安全运营剧本自动化编排方法
Chen et al. Ltd: Low temperature distillation for robust adversarial training
Bountakas et al. Defense strategies for adversarial machine learning: A survey
Gao et al. Research on the security of visual reasoning {CAPTCHA}
Guo et al. A White-Box False Positive Adversarial Attack Method on Contrastive Loss Based Offline Handwritten Signature Verification Models
Liu et al. Defend Against Adversarial Samples by Using Perceptual Hash.
CN115758337A (zh) 基于时序图卷积网络的后门实时监测方法、电子设备、介质
CN114139601A (zh) 一种对电力巡检场景人工智能算法模型的评估方法及系统
Burney et al. Feature deduction and ensemble design of parallel neural networks for intrusion detection system
Huang et al. Focus-Shifting Attack: An Adversarial Attack That Retains Saliency Map Information and Manipulates Model Explanations
CN115021973B (zh) 一种基于sgru的新型入侵检测方法
Jiang et al. Adversarial Example Generation Method for Object Detection in Remote Sensing Images
Ledda et al. Adversarial Attacks Against Uncertainty Quantification
CN117278251A (zh) 一种面向智能网络入侵检测系统的元学习模型窃取攻击方法及系统
Ji et al. Defending against attacks tailored to transfer learning via feature distancing
Wang et al. Efficient DNN Backdoor Detection Guided by Static Weight Analysis
Srinivasarao et al. A Spatiotemporal-Based Intrusion Detection Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant