CN111882037A - 一种基于网络附加/修改的深度学习模型优化方法 - Google Patents

一种基于网络附加/修改的深度学习模型优化方法 Download PDF

Info

Publication number
CN111882037A
CN111882037A CN202010714659.9A CN202010714659A CN111882037A CN 111882037 A CN111882037 A CN 111882037A CN 202010714659 A CN202010714659 A CN 202010714659A CN 111882037 A CN111882037 A CN 111882037A
Authority
CN
China
Prior art keywords
model
network
modification
optimization
defense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010714659.9A
Other languages
English (en)
Inventor
房春荣
顾逸飞
吕军
刘佳玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Muzhi Technology Co ltd
Original Assignee
Shenzhen Muzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Muzhi Technology Co ltd filed Critical Shenzhen Muzhi Technology Co ltd
Priority to CN202010714659.9A priority Critical patent/CN111882037A/zh
Publication of CN111882037A publication Critical patent/CN111882037A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

一种基于网络附加/修改的深度学习模型优化方法,在深度学习模型优化领域集成模型层面的优化方法,采用评估反馈机制,指定针对对抗样本的优化策略。通过对使用防御方法优化的模型进行评估,以评估反馈的机制来制定防御策略,应对不同的攻击方法选取最优的防御手段。为了针对对抗样本攻击方法优化模型,模型层面的防御策略为修改网络,通过在训练阶段修改原始DNN模型的结构,或者不改变原始模型用外部模型作为附加网络,使得防御后的DNN分类器能够检测出对抗样本或将其识别为正确标签。

Description

一种基于网络附加/修改的深度学习模型优化方法
技术领域
本发明属于智能软件测试领域,特别是涉及到深度学习模型的优化。对需要优化的模型采用模型层面的优化方法,修改模型或网络附加,实现模型的优化,使得模型能够获得更高的准确率。
背景技术
近年来,深度学习理论技术不断成熟,在人工智能、大数据分析以及安全检测等方面都取得了很好的应用成果,它突破性地被应用在现实生活的很多领域中,在促进社会进步层面起到了关键作用。然而在带来便利的同时,深度学习本身也存在着一定的安全问题。如敌手的攻击和数据隐私的问题,这引起了安全领域的极大关注。图像领域是深度学习测试发展较快的领域,本文从对抗样本的角度来谈深度学习模型的优化。
对抗样本指的是攻击者在数据集原始输入样本通过添加人类无法察觉的细微扰动来形成新的输入样本,导致模型以高置信度给出一个错误的输出,以欺骗机器学习模型。2013年,Szegedy等人首先通过添加轻微扰动来干扰输入样本,使基于深度神经网络的图片识别系统输出攻击者想要的任意错误结果,此过程称为对抗攻击(Adversarial attack)。研究人员表明,现代深度神经网络模型极易受到人类视觉系统几乎无法察觉的微小扰动的对抗攻击。这种攻击可以造成神经网络分类器对原始图像进行错误预测。如果将其应用于现实世界,如恶意代码检测、人脸识别系统、无人驾驶系统和生物医学领域等,将会带来极为严重的后果。对抗攻击的防御工作正沿着三个主要方向发展:1)在学习过程中使用修改的训练,在测试过程中使用修改的输入。2)修改网络,例如增加更多的层/子网,改变丢失/激活功能等。3)使用外部模型作为网络附加组件对不可见的例子进行分类。
基于以上工作,本发明从模型的角度来应用防御手段旨在防御不同的对抗样本攻击,达到模型优化的效果。现今的对抗样本防御方法仍然无法做到全面的防御,仅能够对特定的攻击方法起到效果。因此,我们需要对使用防御方法优化的模型进行评估,以评估反馈的机制来制定防御策略,应对不同的攻击方法选取最优的防御手段。通过该技术,用户可以自由选择防御方法,并通过评估查看模型优化效果,也可以依托于评估反馈机制自动优化模型。该技术的目标是在应对不同的对抗样本攻击方法时,都能找到比较有效的防御手段。
发明内容
本发明要解决的问题是:深度神经网络的广泛应用使得其安全性成为了一个十分重要的指标,然而深度神经网络在面对对抗样本时表现出了其脆弱性。因此,本发明的目标是针对对抗样本攻击优化神经网络模型,使得模型在面对对抗样本时仍能够有较高的预测正确率。
本发明的技术方案为:一种基于模型附加修改的深度学习模型优化技术,其特征是从模型层面优化神经网络模型。该生成方法包含以下两个模块/步骤:
防御模块
为了针对对抗样本攻击方法优化模型,模型层面的防御策略为修改网络,通过在训练阶段修改原始DNN模型的结构,或者不改变原始模型用外部模型作为附加网络,使得防御后的DNN分类器能够检测出对抗样本或将其识别为正确标签。
从模型入手的防御方法采用修改网络与网络附加,修改网络包括如下方法。
(1)防御蒸馏
Distillation(蒸馏)最早由Hinton提出,是指将复杂网络的知识迁移到简单网络上。该知识以训练数据的类概率向量形式提取,并反馈给原始模型。Papernot提出了防御蒸馏,是蒸馏算法的扩展。Anil等人将蒸馏技术与分布式随机梯度下降(Stochasticgradient descent,SGD)相结合,分布式环境中的每个节点之间都可以互为教师模型和学生模型,并且互相提取内在知识,用以提升其他节点的模型性能。使用在线蒸馏方法降低了分布式SGD的通信开销,有效提高了模型预测的准确性。可以证明防御蒸馏技术可以显著降低损失函数梯度值,抵抗小幅度扰动的对抗攻击,但在黑盒攻击和未知模型函数的情况下,特征值的改变不能有效抵抗对抗攻击。该方法的局限性在于只能对抗有限的对抗样本,研究者还需进一步研究更有效的安全防御算法。
防御性蒸馏的流程如图3。初始网络在温度T下对训练集(X,Y(X))进行训练,蒸馏后的网络在相同温度T下对新的训练集(X,F(X))进行训练。
(2)正则化
正则化方法是指在训练过程中在目标函数上惩罚输出对于输入的变化程度,可以在一定程度上使小的对抗扰动不会对输出有显著影响。Lyu等人使用一组联合的正则化方法对模型进行训练,以对抗基于L-BFGS和FGSM的攻击。Ross等人使用输入梯度正则化以提高对抗攻击的鲁棒性,在训练的目标函数上惩罚输出相对于输入的变化程度,产生的小的对抗性扰动不会对模型的预测结果造成显著影响。
网络附加以摄动校正网络(PRN)为例。Akhtar等人提出了一个防御框架,以对抗使用通用扰动产生的对抗性攻击。该框架将额外的“预输入”层附加到目标网络中,并训练它们对受扰动的图像进行校正,这样分类器对同一幅图像的预测就会和对同一幅图像的干净版本的预测一样。预输入层称为摄动校正网络(PRN),它们的训练不需要更新目标网络的参数。通过提取PRN输入输出差异的特征,对训练图像进行单独的检测器训练。测试图像首先通过PRN,然后利用其特征检测扰动。当检测到敌对扰动时,利用PRN的输出对测试图像进行分类。
本发明的特点在于:
1.在深度学习模型优化领域集成模型层面的优化方法。
2.采用评估反馈机制,指定针对对抗样本的优化策略。
附图说明
图1为本发明研究内容图。
图2为技术路线图。
图3为防御模块防御蒸馏的流程
具体实施方式
以下通过特定的具体的实例说明本发明的实施方式,本领域的技术人员可由本说明书揭露的内容轻易地了解到本发明的其他优点和功效。
本专利通过对抗训练来实施深度神经网络模型的优化,涉及到的具体关键技术有深度卷积神经网络(CNN)、对抗样本(Adversarial Example)、对抗样本防御技术等。
1、对抗样本生成
在本发明中,我们以卷积神经网络为主要优化目标,对图片形式的数据集进行对抗样本的生成。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建,在图像识别领域有着十分广泛的运用。对抗样本在图片数据上的攻击已经十分成熟,常见的攻击方法包括FGSM,Deepfool等。本发明中使用开源对抗样本生成工具ART来生成对抗样本。
2、网络修改与附加
本发明中,我们从修改与附加两个角度应用优化方法。通过网络修改与附加,对神经网络模型进行修改,使得模型能够在对抗的环境下进行训练,这也使得模型在面对对抗样本时更加具有鲁棒性。
3、分析评估
在本发明中我们以模型预测准确率为评判模型优化效果的标准。由于本发明的模型优化以对抗样本为主要防御目标,因此将在原始数据集的基础上生成大量的对抗样本,并通过模型来进行预测。假如模型仍能够保持较高的准确率,则模型具有鲁棒性,优化成功。
4、反馈策略
现今的对抗样本防御方法仍然无法做到全面的防御,仅能够对特定的攻击方法起到效果。在本发明中,针对不同的对抗样本攻击方法,记录防御方法的优化效果,通过数据制定优化策略,选择不同的模型修改与附加方法或进行组合。
在本实例中,在对抗样本生成阶段根据数据集大小生成等量的对抗样本。在模型修改与附加阶段选择相应的防御手段,利用原始样本与对抗样本进行模型训练。本发明旨在根据对抗样本攻击方法选择合适的防御手段,以保证模型在优化后面对对抗样本时的准确率与原始样本准确率相持平。

Claims (4)

1.一种基于网络附加/修改的深度学习模型优化方法,其特征是使用在线蒸馏方法降低了分布式SGD的通信开销,有效提高了模型预测的准确性;训练过程中在目标函数上惩罚输出对于输入的变化程度;从修改与附加两个角度应用优化方法。
2.根据权利要求1所描述的使用在线蒸馏方法降低了分布式SGD的通信开销,有效提高了模型预测的准确性,其特征是:初始网络在温度T下对训练集(X,Y(X))进行训练,蒸馏后的网络在相同温度T下对新的训练集(X,F(X))进行训练。
3.根据权利要求1所描述的训练过程中在目标函数上惩罚输出对于输入的变化程度,其特征是:针对不同的对抗样本攻击方法,记录防御方法的优化效果,通过数据制定优化策略,选择不同的模型修改与附加方法或进行组合。将额外的“预输入”层附加到目标网络中,并训练它们对受扰动的图像进行校正。
4.根据权利要求1所描述的从修改与附加两个角度应用优化方法,其特征是:通过网络修改与附加,对神经网络模型进行修改,使得模型能够在对抗的环境下进行训练,这也使得模型在面对对抗样本时更加具有鲁棒性。
CN202010714659.9A 2020-07-23 2020-07-23 一种基于网络附加/修改的深度学习模型优化方法 Pending CN111882037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010714659.9A CN111882037A (zh) 2020-07-23 2020-07-23 一种基于网络附加/修改的深度学习模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010714659.9A CN111882037A (zh) 2020-07-23 2020-07-23 一种基于网络附加/修改的深度学习模型优化方法

Publications (1)

Publication Number Publication Date
CN111882037A true CN111882037A (zh) 2020-11-03

Family

ID=73155374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010714659.9A Pending CN111882037A (zh) 2020-07-23 2020-07-23 一种基于网络附加/修改的深度学习模型优化方法

Country Status (1)

Country Link
CN (1) CN111882037A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435343A (zh) * 2021-06-29 2021-09-24 重庆紫光华山智安科技有限公司 图像识别方法、装置、计算机设备及存储介质
CN117808095A (zh) * 2024-02-26 2024-04-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种对抗攻击样本生成方法和装置、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
水间清亦浅: ":对抗攻击基础知识(二)" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435343A (zh) * 2021-06-29 2021-09-24 重庆紫光华山智安科技有限公司 图像识别方法、装置、计算机设备及存储介质
CN113435343B (zh) * 2021-06-29 2022-11-29 重庆紫光华山智安科技有限公司 图像识别方法、装置、计算机设备及存储介质
CN117808095A (zh) * 2024-02-26 2024-04-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种对抗攻击样本生成方法和装置、电子设备
CN117808095B (zh) * 2024-02-26 2024-05-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种对抗攻击样本生成方法和装置、电子设备

Similar Documents

Publication Publication Date Title
Tian et al. Adversarial attacks and defenses for deep-learning-based unmanned aerial vehicles
He et al. Parametric noise injection: Trainable randomness to improve deep neural network robustness against adversarial attack
CN108549940B (zh) 基于多种对抗样例攻击的智能防御算法推荐方法及系统
Rouani et al. Safe machine learning and defeating adversarial attacks
KR102304661B1 (ko) 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
Yan et al. Deep neural backdoor in semi-supervised learning: Threats and countermeasures
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
Katzir et al. Detecting adversarial perturbations through spatial behavior in activation spaces
CN114925850B (zh) 一种面向扰动奖励的深度强化学习对抗防御方法
Behzadan et al. The faults in our pi stars: Security issues and open challenges in deep reinforcement learning
CN111882037A (zh) 一种基于网络附加/修改的深度学习模型优化方法
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN113627543A (zh) 一种对抗攻击检测方法
CN111881027A (zh) 一种基于数据防御的深度学习模型优化方法
Chivukula et al. Adversarial Machine Learning: Attack Surfaces, Defence Mechanisms, Learning Theories in Artificial Intelligence
Ding et al. Towards backdoor attack on deep learning based time series classification
Katzir et al. Gradients cannot be tamed: Behind the impossible paradox of blocking targeted adversarial attacks
Yan et al. Multi-level generative models for partial label learning with non-random label noise
Garcia-soto et al. Perd: Perturbation sensitivity-based neural trojan detection framework on nlp applications
CN115909027B (zh) 一种态势估计方法及装置
Umer et al. Vulnerability of covariate shift adaptation against malicious poisoning attacks
Narengbam et al. Harris hawk optimization trained artificial neural network for anomaly based intrusion detection system
Mani On adversarial attacks on deep learning models
Irtiza et al. SentMod: Hidden backdoor attack on unstructured textual data
Wang et al. Advcgan: An elastic and covert adversarial examples generating framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination