CN111882037A

CN111882037A - 一种基于网络附加/修改的深度学习模型优化方法

Info

Publication number: CN111882037A
Application number: CN202010714659.9A
Authority: CN
Inventors: 房春荣; 顾逸飞; 吕军; 刘佳玮
Original assignee: Shenzhen Muzhi Technology Co ltd
Current assignee: Shenzhen Muzhi Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-03

Abstract

一种基于网络附加/修改的深度学习模型优化方法，在深度学习模型优化领域集成模型层面的优化方法，采用评估反馈机制，指定针对对抗样本的优化策略。通过对使用防御方法优化的模型进行评估，以评估反馈的机制来制定防御策略，应对不同的攻击方法选取最优的防御手段。为了针对对抗样本攻击方法优化模型，模型层面的防御策略为修改网络，通过在训练阶段修改原始DNN模型的结构，或者不改变原始模型用外部模型作为附加网络，使得防御后的DNN分类器能够检测出对抗样本或将其识别为正确标签。

Description

一种基于网络附加/修改的深度学习模型优化方法

技术领域

本发明属于智能软件测试领域，特别是涉及到深度学习模型的优化。对需要优化的模型采用模型层面的优化方法，修改模型或网络附加，实现模型的优化，使得模型能够获得更高的准确率。

背景技术

近年来，深度学习理论技术不断成熟，在人工智能、大数据分析以及安全检测等方面都取得了很好的应用成果，它突破性地被应用在现实生活的很多领域中，在促进社会进步层面起到了关键作用。然而在带来便利的同时，深度学习本身也存在着一定的安全问题。如敌手的攻击和数据隐私的问题，这引起了安全领域的极大关注。图像领域是深度学习测试发展较快的领域，本文从对抗样本的角度来谈深度学习模型的优化。

对抗样本指的是攻击者在数据集原始输入样本通过添加人类无法察觉的细微扰动来形成新的输入样本，导致模型以高置信度给出一个错误的输出，以欺骗机器学习模型。2013年，Szegedy等人首先通过添加轻微扰动来干扰输入样本，使基于深度神经网络的图片识别系统输出攻击者想要的任意错误结果，此过程称为对抗攻击(Adversarial attack)。研究人员表明，现代深度神经网络模型极易受到人类视觉系统几乎无法察觉的微小扰动的对抗攻击。这种攻击可以造成神经网络分类器对原始图像进行错误预测。如果将其应用于现实世界，如恶意代码检测、人脸识别系统、无人驾驶系统和生物医学领域等，将会带来极为严重的后果。对抗攻击的防御工作正沿着三个主要方向发展:1)在学习过程中使用修改的训练，在测试过程中使用修改的输入。2)修改网络，例如增加更多的层/子网，改变丢失/激活功能等。3)使用外部模型作为网络附加组件对不可见的例子进行分类。

基于以上工作，本发明从模型的角度来应用防御手段旨在防御不同的对抗样本攻击，达到模型优化的效果。现今的对抗样本防御方法仍然无法做到全面的防御，仅能够对特定的攻击方法起到效果。因此，我们需要对使用防御方法优化的模型进行评估，以评估反馈的机制来制定防御策略，应对不同的攻击方法选取最优的防御手段。通过该技术，用户可以自由选择防御方法，并通过评估查看模型优化效果，也可以依托于评估反馈机制自动优化模型。该技术的目标是在应对不同的对抗样本攻击方法时，都能找到比较有效的防御手段。

发明内容

本发明要解决的问题是：深度神经网络的广泛应用使得其安全性成为了一个十分重要的指标，然而深度神经网络在面对对抗样本时表现出了其脆弱性。因此，本发明的目标是针对对抗样本攻击优化神经网络模型，使得模型在面对对抗样本时仍能够有较高的预测正确率。

本发明的技术方案为：一种基于模型附加修改的深度学习模型优化技术，其特征是从模型层面优化神经网络模型。该生成方法包含以下两个模块/步骤：

防御模块

为了针对对抗样本攻击方法优化模型，模型层面的防御策略为修改网络，通过在训练阶段修改原始DNN模型的结构，或者不改变原始模型用外部模型作为附加网络，使得防御后的DNN分类器能够检测出对抗样本或将其识别为正确标签。

从模型入手的防御方法采用修改网络与网络附加，修改网络包括如下方法。

(1)防御蒸馏

Distillation(蒸馏)最早由Hinton提出，是指将复杂网络的知识迁移到简单网络上。该知识以训练数据的类概率向量形式提取，并反馈给原始模型。Papernot提出了防御蒸馏，是蒸馏算法的扩展。Anil等人将蒸馏技术与分布式随机梯度下降(Stochasticgradient descent，SGD)相结合，分布式环境中的每个节点之间都可以互为教师模型和学生模型，并且互相提取内在知识，用以提升其他节点的模型性能。使用在线蒸馏方法降低了分布式SGD的通信开销，有效提高了模型预测的准确性。可以证明防御蒸馏技术可以显著降低损失函数梯度值，抵抗小幅度扰动的对抗攻击，但在黑盒攻击和未知模型函数的情况下，特征值的改变不能有效抵抗对抗攻击。该方法的局限性在于只能对抗有限的对抗样本，研究者还需进一步研究更有效的安全防御算法。

防御性蒸馏的流程如图3。初始网络在温度T下对训练集(X,Y(X))进行训练，蒸馏后的网络在相同温度T下对新的训练集(X,F(X))进行训练。

(2)正则化

正则化方法是指在训练过程中在目标函数上惩罚输出对于输入的变化程度，可以在一定程度上使小的对抗扰动不会对输出有显著影响。Lyu等人使用一组联合的正则化方法对模型进行训练，以对抗基于L-BFGS和FGSM的攻击。Ross等人使用输入梯度正则化以提高对抗攻击的鲁棒性，在训练的目标函数上惩罚输出相对于输入的变化程度，产生的小的对抗性扰动不会对模型的预测结果造成显著影响。

网络附加以摄动校正网络(PRN)为例。Akhtar等人提出了一个防御框架，以对抗使用通用扰动产生的对抗性攻击。该框架将额外的“预输入”层附加到目标网络中，并训练它们对受扰动的图像进行校正，这样分类器对同一幅图像的预测就会和对同一幅图像的干净版本的预测一样。预输入层称为摄动校正网络(PRN)，它们的训练不需要更新目标网络的参数。通过提取PRN输入输出差异的特征，对训练图像进行单独的检测器训练。测试图像首先通过PRN，然后利用其特征检测扰动。当检测到敌对扰动时，利用PRN的输出对测试图像进行分类。

本发明的特点在于：

1.在深度学习模型优化领域集成模型层面的优化方法。

2.采用评估反馈机制，指定针对对抗样本的优化策略。

附图说明

图1为本发明研究内容图。

图2为技术路线图。

图3为防御模块防御蒸馏的流程

具体实施方式

以下通过特定的具体的实例说明本发明的实施方式，本领域的技术人员可由本说明书揭露的内容轻易地了解到本发明的其他优点和功效。

本专利通过对抗训练来实施深度神经网络模型的优化，涉及到的具体关键技术有深度卷积神经网络(CNN)、对抗样本(Adversarial Example)、对抗样本防御技术等。

1、对抗样本生成

在本发明中，我们以卷积神经网络为主要优化目标，对图片形式的数据集进行对抗样本的生成。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建，在图像识别领域有着十分广泛的运用。对抗样本在图片数据上的攻击已经十分成熟，常见的攻击方法包括FGSM，Deepfool等。本发明中使用开源对抗样本生成工具ART来生成对抗样本。

2、网络修改与附加

本发明中，我们从修改与附加两个角度应用优化方法。通过网络修改与附加，对神经网络模型进行修改，使得模型能够在对抗的环境下进行训练，这也使得模型在面对对抗样本时更加具有鲁棒性。

3、分析评估

在本发明中我们以模型预测准确率为评判模型优化效果的标准。由于本发明的模型优化以对抗样本为主要防御目标，因此将在原始数据集的基础上生成大量的对抗样本，并通过模型来进行预测。假如模型仍能够保持较高的准确率，则模型具有鲁棒性，优化成功。

4、反馈策略

现今的对抗样本防御方法仍然无法做到全面的防御，仅能够对特定的攻击方法起到效果。在本发明中，针对不同的对抗样本攻击方法，记录防御方法的优化效果，通过数据制定优化策略，选择不同的模型修改与附加方法或进行组合。

在本实例中，在对抗样本生成阶段根据数据集大小生成等量的对抗样本。在模型修改与附加阶段选择相应的防御手段，利用原始样本与对抗样本进行模型训练。本发明旨在根据对抗样本攻击方法选择合适的防御手段，以保证模型在优化后面对对抗样本时的准确率与原始样本准确率相持平。

Claims

1.一种基于网络附加/修改的深度学习模型优化方法，其特征是使用在线蒸馏方法降低了分布式SGD的通信开销，有效提高了模型预测的准确性；训练过程中在目标函数上惩罚输出对于输入的变化程度；从修改与附加两个角度应用优化方法。

2.根据权利要求1所描述的使用在线蒸馏方法降低了分布式SGD的通信开销，有效提高了模型预测的准确性，其特征是：初始网络在温度T下对训练集(X,Y(X))进行训练，蒸馏后的网络在相同温度T下对新的训练集(X,F(X))进行训练。

3.根据权利要求1所描述的训练过程中在目标函数上惩罚输出对于输入的变化程度，其特征是：针对不同的对抗样本攻击方法，记录防御方法的优化效果，通过数据制定优化策略，选择不同的模型修改与附加方法或进行组合。将额外的“预输入”层附加到目标网络中，并训练它们对受扰动的图像进行校正。

4.根据权利要求1所描述的从修改与附加两个角度应用优化方法，其特征是：通过网络修改与附加，对神经网络模型进行修改，使得模型能够在对抗的环境下进行训练，这也使得模型在面对对抗样本时更加具有鲁棒性。