CN115730300B

CN115730300B - 基于混合式对抗元学习算法的程序安全模型构建方法

Info

Publication number: CN115730300B
Application number: CN202211591519.2A
Authority: CN
Inventors: 戴静桐; 许梦可; 王慧维; 李华青; 唐佳龙; 石亚伟
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-06-27
Anticipated expiration: 2042-12-12
Also published as: CN115730300A

Abstract

本发明提供一种基于混合式对抗元学习算法的程序安全模型构建方法，包括：通过获取程序安全性的任务分布，对多个任务进行采样，获取支持集和查询集，并根据支持集获取对抗支持集；采用微调算法对对抗支持集进行微调，获取目标对抗支持集；对查询集进行采样，并根据采样数据构造新查询集和新对抗查询集；基于混合式对抗元学习算法，根据目标对抗支持集、新查询集和新对抗查询集，将程序安全性问题转化为程序安全模型；通过对多个任务进行采样获取训练查询集，根据训练查询集得到任务的样本集和标签，并用于训练程序安全模型，得到目标程序安全模型。本发明能够通过程序安全模型提升程序的安全性，缓解了过拟合问题，提高了鲁棒精度。

Description

基于混合式对抗元学习算法的程序安全模型构建方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于混合式对抗元学习算法的程序安全模型构建方法。

背景技术

现阶段的研究表明，当输入被轻微干扰时，深度神经网络(Deep NeuralNetworks，DNN)容易受到对抗样本的攻击和错误分类。对于一些要求高软件安全性的应用程序来说，增强DNN模型对干扰的鲁棒性迫在眉睫。例如，基于深度学习的自动驾驶汽车最终可能会因为干扰而卷入一场事故，当轻微的输入干扰导致其错误识别道路标志或其他车辆时，可能会造成潜在的灾难性后果。而生物识别系统，包括指纹认证，虹膜识别等，可以会因此被操纵。

为此，在过去的几年中，人们提出了一些基于预处理和对抗训练的方法来训练一个更稳健的通用深度学习模型，然而，这些方法需要依赖大量的训练数据，并进行较长的时间训练。

因此，为了构建一个在对抗样本只有少量的数据的情况下，准确地预测正确样本的模型，可以考虑通过元学习方法实现。但最近的研究表明，基于元学习的模型也容易受到对抗样本的影响，因此学者也提出了许多对抗的元学习训练方法。

然而，对抗元学习训练方法在短期内是良好的，但随着训练期数量的增加，会出现鲁棒过拟合的不良现象。即，在训练的开始，模型有一定的鲁棒性，但经过几个时期与对抗训练，模型对基于投影梯度下降方法的鲁棒性降低。

因此，亟需一种能够缓解过拟合、提高鲁棒精度、减少对抗训练时间的混合式对抗元学习算法的程序安全模型构建方法。

发明内容

基于此，有必要针对上述技术问题，提供一种基于混合式对抗元学习算法的程序安全模型构建方法。

一种基于混合式对抗元学习算法的程序安全模型构建方法，包括以下步骤：获取程序安全性的任务分布，所述任务分布中包含多个任务，每个任务包括有支持数据和查询数据；对所述多个任务进行采样，获取支持集和查询集，并根据所述支持集生成对应的对抗支持集；采用微调算法对所述对抗支持集进行微调，获取目标对抗支持集；对所述查询集进行采样，并根据采样数据构造新查询集和新对抗查询集；基于混合式对抗元学习算法，根据所述目标对抗支持集、新查询集和新对抗查询集，将程序的安全性问题转化为程序安全模型；对所述多个任务进行采样，获取训练查询集，根据所述训练查询集得到任务的样本集和标签，并根据所述样本集和标签对所述程序安全模型进行训练，得到目标程序安全模型。

在其中一个实施例中，所述获取程序安全性的任务分布，包括：设置程序安全性的任务分布为

学习率为μ和η，对抗算法为A，微调算法为A，Beta分布参数为α和β，任务

来自任务分布/>

且根据混合算法和Beta分布有：mixup_λ(x_i，x_j)＝λx_i+(1-λ)x_j，λ～Beta(α，β)。

在其中一个实施例中，所述对所述多个任务进行采样，获取支持集和查询集，并根据所述支持集生成对应的对抗支持集，包括：设置随机初始化参数θ₀，并在程序安全性的任务分布中进行采样，获取任务集

对于所述任务集中所有的任务τ_i执行以下步骤：对任务τ_i进行采样，获取支持集/>

和查询集/>

采用对抗算法，根据所述支持集生成对应的对抗支持集。

在其中一个实施例中，所述采用微调算法对所述对抗支持集进行微调，获取目标对抗支持集，包括：根据所述微调算法，对所述对抗支持集进行微调，计算初始化参数

其中，φ_i是元学习在内循环进行对抗训练时，对抗支持集

从/>

开始微调的任务特定参数，/>

是由θ₀参数化的模；根据所述初始化参数和对抗支持集，得到目标对抗支持集/>

在其中一个实施例中，所述对所述查询集进行采样，并根据采样数据构造新查询集和新对抗查询集，包括：对所述查询集

进行随机采样，获取成对的采样数据

根据所述成对的采样数据构造新查询集为

其中，/>

采用对抗算法，根据所述新查询集生成K^q个对抗样本/>

对所述对抗样本/>

进行随机采样，获取成对的对抗采样数据

根据所述成对的对抗采样数据，构造得到新对抗查询集/>

其中，/>

在其中一个实施例中，所述基于混合式对抗元学习算法，根据所述目标对抗支持集、新查询集和新对抗查询集，将程序的安全性问题转化为程序安全模型，包括：基于混合式对抗元学习算法，根据所述目标对抗支持集、新查询集和新对抗查询集，将将程序的安全性问题转化为程序安全模型，所述程序安全模型为：

其中，θ₀为随机初始化参数，

和/>

分别采用程序的查询集/>

和对抗查询集

计算，/>

为交叉熵损失，/>

是由θ₀参数化的模；

通过混合方法混合的程序正确样本对程序安全模型进行训练，所述混合方法为：

其中，λ～Beta(α，β)。

在其中一个实施例中，所述对所述多个任务进行采样，获取训练查询集，根据所述训练查询集得到任务的样本集和标签，并根据所述样本集和标签对所述程序安全模型进行训练，得到目标程序安全模型，具体包括：从任务τ_i中独立采样获取训练查询集；将

和/>

用于表示损失，其中，/>

为输入对，z_j＝(x_j，y_j)为输出对，预测值/>

记为/>

将X_i和Y_i分别记为所述训练查询集中的样本集及对应的标签，则有：

根据所述样本集和标签对所述程序安全模型进行训练，得到目标程序安全模型。

相比于现有技术，本发明的优点及有益效果在于：通过获取程序安全性的任务分布，对任务分布中的多个任务进行采样，获取支持集和查询集，并根据支持集获取对应的对抗支持集；采用微调算法对对抗支持集进行微调，获取目标对抗支持集；对查询集进行采样，并根据采样数据构造新查询集和新对抗查询集，从而缩短对抗训练时间；基于混合式对抗元学习算法，根据获取的目标对抗支持集、新查询集和新对抗查询集，将程序安全性问题转化为程序安全模型；通过对多个任务进行采样获取训练查询集，根据训练查询集得到任务的样本集和标签，并用于训练程序安全模型，得到目标程序安全模型，从而能够通过程序安全模型实现程序安全性的提升，缓解了过拟合问题，提高了鲁棒精度。

附图说明

图1为一个实施例中一种基于混合式对抗元学习算法的程序安全模型构建方法的流程示意图；

图2为一个实施例中在CIFAR-FS数据集上的5路-1样本学习场景下混合训练对R2D2的鲁棒性的影响示意图；

图3为一个实施例中在ProtoNet和R2D2训练的100个阶段和FC100数据集上的5路-1样本学习场景上集成基于混合式对抗元学习算法后的AQ和与原AQ的比较示意图；

图4为一个实施例中在FC100数据集上的5路-1样本学习场景下，早期停止方法(ES)对ProtoNet的影响示意图；

图5为一个实施例中基于混合式对抗元学习算法对泛化的影响示意图。

具体实施方式

在进行本发明具体实施方式说明之前，先对本发明的整体构思进行如下说明：

本发明主要是基于提高应用程序安全性研发的，目前在提高应用程序安全性可采用的方法存在需要依赖大量的训练数据，并进行较长的时间训练，以及易受到对抗样本的影响和出现鲁棒过拟合的不良现象的问题。

发明人经过分析发现，出现上面的这些问题的主要原因是现有技术中提高应用程序安全性算法的不完善。因此本发明提出了一种基于混合式对抗元学习算法的程序安全模型构建方法，该方法能够与任何元学习方法集成，具有普遍性，且实现相同甚至更好的鲁棒性，同时显著减少对抗训练时间，针对“鲁棒过拟合”的失败模式，方法验证早期停止方法能够有效缓解鲁棒过拟合，提高鲁棒精度，提高程序安全性。

介绍完本发明的整体构思后，为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在一个实施例中，如图1所示，提供了一种基于混合式对抗元学习算法的程序安全模型构建方法，包括以下步骤：

步骤S101，获取程序安全性的任务分布，任务分布中包含多个任务，每个任务包括有支持数据和查询数据。

具体地，在提高程序安全性时，要对应到程序安全性的每个任务，因此，首先获取程序安全性的任务分布，根据任务分布获取程序安全的所有任务，每个任务对应有支持数据和查询数据。

其中，步骤S101包括：设置程序安全性的任务分布为

学习率为μ，η，对抗算法为A，微调算法为A，Beta分布参数为α，β，任务/>

来自任务分布/>

且根据混合算法和beta算法有：

mixup_λ(x_i，x_j)＝λx_i+(1-λ)x_j，λ～Beta(α，β)。

具体地，设定程序安全性有关的参数，将任务分布设置为

元学习算法的学习率设置为μ和η，记对抗算法为A，微调算法为A，Beta分布的参数为α和β，任务分布中包括多个任务，并能够根据上述参数得到混合算法的公式，该公式用于构建程序安全模型。

步骤S102，对多个任务进行采样，获取支持集和查询集，并根据支持集生成对应的对抗支持集。

具体地，对多个任务进行分别采样，获取对应的支持数据的支持集和查询数据的查询集，并采用对抗算法，根据得到的支持集计算得到相应的对抗支持集。对于每个任务，附加的对抗样本均由对抗算法生成，并将对抗支持集用于增强元学习算法训练的鲁棒性。

其中，步骤S102包括：设置随机初始化参数θ₀，并在程序安全性的任务分布中进行采样，获取任务集

对于任务集中所有的任务τ_i执行以下步骤：对任务τ_i进行采样，获取支持集/>

和查询集/>

采用对抗算法，根据支持集生成对应的对抗支持集。

具体地，随机设置模型的初始化参数，同时在程序安全性有关的任务分布中进行采样，获取任务机，对任务集中的所有任务进行采样，得到对应的支持集和查询集，并通过对抗算法生成支持集相应的对抗支持集，用于增强元训练的鲁棒性。

步骤S103，采用微调算法对对抗支持集进行微调，获取目标对抗支持集。

具体地，元学习算法包括有内循环和外循环。在内循环中，采用微调算法对对抗支持集进行微调，从而更易产生特定于任务的参数，得到目标对抗支持集。

其中，步骤S103包括：根据微调算法，对对抗支持集进行微调，计算初始化参数

其中，φ_i是元学习在内循环进行对抗训练时，对抗支持集

从/>

开始微调的任务特定参数；根据初始化参数和对抗支持集，得到目标对抗支持集/>

具体地，在内循环中，采用微调算法对得到的对抗支持集进行微调，产生特定于任务的初始化参数，根据该初始化参数对对抗支持集进行处理，得到目标对抗支持集。

步骤S104，对查询集进行采样，并根据采样数据构造新查询集和新对抗查询集。

具体地，对查询集中的查询数据进行采样，得到成对的采样数据，根据采样数据构造得到新查询集，并采用对抗算法，根据新查询集得到新对抗查询集。

其中，步骤S104包括：对查询集

进行随机采样，获取成对的采样数据

根据成对的采样数据构造新查询集为

其中，/>

采用对抗算法，根据新查询集生成K^q个对抗样本/>

对对抗样本

进行随机采样，获取成对的对抗采样数据/>

根据成对的对抗采样数据，构造得到新对抗查询集/>

其中，

具体地，对查询集中的查询数据进行随机采样，获取成对的采样数据，并根据得到的成对采样数据构建新查询集，新查询集中的数据为变形查询数据；基于对抗算法，根据新查询集得到若干个对抗样本；在若干个对抗样本中进行随机采样，得到成对的对抗采样数据，并根据成对的对抗采样数据构造得到新对抗查询集。

步骤S105，基于混合式对抗元学习算法，根据目标对抗支持集、新查询集、新对抗查询集，将程序的安全性问题转化为程序安全模型。

具体地，基于混合式对抗元学习算法，根据上述计算得到的目标对抗支持集、新查询集和新对抗集，将程序的安全性问题转化为程序安全模型，从而更好的训练程序安全模型，缩短对抗训练时间，以便于程序安全模型能够对程序的安全性进行提升。

其中，步骤S105包括：基于混合式对抗元学习算法，根据目标对抗支持集、新查询集和新对抗查询集，将将程序的安全性问题转化为程序安全模型，所述程序安全模型为：

其中，θ₀为随机初始化参数，

和/>

分别采用程序的查询集/>

和对抗查询集

计算，/>

为交叉熵损失，/>

是由θ₀参数化的模；通过混合方法混合的程序正确样本对程序安全模型进行训练，混合方法为：

其中，λ～Beta(α，β)。

具体地，根据上述得到的对抗支持集、新查询集和新对抗查询集，结合混合式对抗元学习算法，构建对应的程序安全模型，采用程序的对抗样本和由

中描述的混合方法混合的程序正确样本，对程序安全模型进行训练，从而增强元训练的鲁棒性。

步骤S106，对多个任务进行采样，获取训练查询集，根据训练查询集得到任务的样本集和标签，并根据样本集和标签对程序安全模型进行训练，得到目标程序安全模型。

具体地，在外循环中，对任务分布中的多个任务进行采样，得到训练查询集，根据训练查询集得到样本集和标签，并用于对程序安全模型进行训练，得到目标程序安全模型，能够尽量减少对程序变形查询数据和敌对查询数据的损失，缓解过拟合，提高鲁棒性，从而提升程序安全性，同时能够缩短对抗训练时间。此外，本方法能够与任何元学习方法集成，具有普遍适用性。

其中，步骤S106包括：从任务

中独立采样获取训练查询集；将/>

和

用于表示损失，其中，/>

为输入对，z_j＝(x_j，y_j)为输出对，预测值

记为/>

；将xi和Yi分别记为所述训练查询集中的样本集及对应的标签，则有：

根据样本集和标签对程序安全模型进行训练，得到目标程序安全模型。

具体地，对任务中进行查询数据采样，获取训练查询集，根据训练查询集得到样本集和标签，通过样本集和标签对获取的程序安全模型进行训练，得到目标程序安全模型，从而能够显著减少对抗训练时间，通过目标程序安全模型提升程序安全性，提高鲁棒精度。

在本实施例中，通过获取程序安全性的任务分布，对任务分布中的多个任务进行采样，获取支持集和查询集，并根据支持集获取对应的对抗支持集；采用微调算法对对抗支持集进行微调，获取目标对抗支持集；对查询集进行采样，并根据采样数据构造新查询集和新对抗查询集，从而缩短对抗训练时间；基于混合式对抗元学习算法，根据获取的目标对抗支持集、新查询集和新对抗查询集，将程序安全性问题转化为程序安全模型；通过对多个任务进行采样获取训练查询集，根据训练查询集得到任务的样本集和标签，并用于训练程序安全模型，得到目标程序安全模型，从而能够通过程序安全模型实现程序安全性的提升，缓解了过拟合问题，提高了鲁棒精度。

在一个实施例中，通过仿真软件Matlab对本方法进行仿真测试。基于本方法能够即插即用的特性，将本方法与下述三种对抗性的元学习算法集成起来：AdversarialTraining(对抗性训练，AT)、Adversarial Query(对抗性查询，AQ)和Long-term CrossAdversarial Training(长期交叉对抗训练，LCAT)。对于上述三种基准方法，在训练阶段采用7步Projected Gradient Descent(投影坡度下降，PGD)对抗性训练。在测试阶段，所有算法都在同一测试集上测试20步PGD攻击。

为了验证本方法的四个特征：可以在程序中从少量的标记数据中快速学习一个新的任务，即使只学习正确的样本；可以缓解程序在遇到对抗样本时的性能下降；通过利用对抗元学习算法可以减少保证程序安全性的基准方法的训练时间；通过利用对抗元学习算法可以提高保证程序安全性的基准方法的鲁棒泛化能力。通过三个基准数据集——ProtoNet，FC100和CIFAR-FS，进行验证。

ProtoNet包含100类的60000张彩色图像，每个类有600个样本，每个图像被调整到84×84。将100个类分为3个部分：64个用于培训，16个用于验证，20个用于测试。

FC100来自CIFAR100数据集，包含20个超类(60个类别)，其中，包括训练集中的12个超类，验证集中的4个超类(20个类别)，以及测试集中的4个超类(20个类别)。

CIFAR-FS类似于FC100数据集，它也来自CIFAR 100数据集，但不同之处在于它包含100个类别，每个类别有600张图像。在使用中，通常分为训练集(64种)、验证集(16种)、测试集(20种)，图像大小统一为32×32。

仿真测试的细节：

样本集：考虑程序中有N路-K样本图像分类任务，通过该任务进行程序安全性的检验，在每个数据集上考虑5路-1样本和5路-5样本图像方案。在本实施例中，以多种方式转换图像，以创建不同的任务，例如以0.5的概率水平翻转每幅图像，并在一个范围为(-5°，5°)的范围内随机旋转每幅图像。

基本模型：在Windows系统上使用PyTorch(版本3.7)深度学习框架和NVIDIARTX8000 Ti显卡来训练和评估包括ProtoNet、R2D2和MetaOptNet在内的网络。

临界参数：将内循环的学习速率μ和外环的学习速率η都设置为0.1。在外循环中，选择Adam优化器。对于混合，Beta分布中的α和β被设置为1。在训练阶段，攻击界∈和步长γ分别设置为2.0/255和2.0/255。在所有经验的测试阶段，使用步长为2.0/255的20步PGD攻击，使用参数为1的交易损失。

混合性能：图2展示了在不同攻击大小的Fast Gradient Sign Method(快速梯度标记法，FGSM)攻击下，将R2D2模型积分训练与正常训练得到的对抗测试精度进行比较，结果表明，采用混合训练的元学习模型具有更强的鲁棒性。

混合式对抗元学习算法的鲁棒性：图3比较了在ProtoNet和R2D2训练的100个阶段和FC100数据集上的5路-1样本学习场景上集成混合式对抗元学习算法后的AQ和原AQ的鲁棒性。从曲线的趋势来看，集成混合式对抗元学习算法后的AQ的整体性能优于AQ。尽管此时方法存在鲁棒过拟合，在100个epoch的训练之后，其仍然实现了比左和右图表中的最初10个epoch分别高0.64％和3.97％的鲁棒准确度。

与标准训练不同，对抗性训练的鲁棒泛化从训练到收敛明显受损。为了减轻鲁棒过拟合，应用一种早期停止方法(Early Stopping，ES)。从图4中，发现ES可以有效地抑制鲁棒过拟合，并极大地提高鲁棒测试精度。特别是图4中的集成混合式对抗元学习算法后的LCAT(左)和集成混合式对抗元学习算法后的AQ(右)的鲁棒精度分别提高了7.78％和6.38％。

对混合式对抗元学习算法的推广：从图5的上部子图中，可以观察到集成混合式对抗元学习算法后的AQ比原始的AQ方法具有更好的测试性能。将泛化差距定义为训练损失和测试损失之间的差值。从图5的下部子图中可以看出，本方法具有较小的泛化间隙，即具有良好的泛化特性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。