CN115333869A

CN115333869A - 一种分布式网络对抗攻击自训练学习方法

Info

Publication number: CN115333869A
Application number: CN202211258685.0A
Authority: CN
Inventors: 兰小龙; 何俊江; 王运鹏; 张聿昊; 梅鉴鑫; 马宝强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-11-11
Anticipated expiration: 2042-10-14
Also published as: CN115333869B

Abstract

本发明公开了一种分布式网络对抗攻击自训练学习方法，包括以下步骤：步骤1：原始攻击样本通过对抗攻击模型产生变异样本；步骤2：变异样本进入检测模型进行检测，输出检测结果；步骤3：没有被检测出变异样本的对抗样本添加到对抗样本队列，对抗样本队列达到设定阈值输入步骤2的检测模型进行再训练，直到所有的样本检测完成；本发明采用基于SAC算法的对抗攻击模型结合检测模型，对抗攻击模型能够产生有效检测模型检测率的对抗样本，检测模型采用集成式算法训练速度快；抗干扰能力强，训练效率高，满足网络靶场攻防演练需求。

Description

一种分布式网络对抗攻击自训练学习方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种分布式网络对抗攻击自训练学习方法。

背景技术

近几年来，对抗攻击（adversarial attack）的发展更加加重了现有检测方法所面临的潜在威胁。对抗攻击方法通过与检测模型的博弈，进而产生能够使检测模型分类结果出现异常的对抗样本（adversarial example）。在现有的人工智能常见的应用领域之中，对抗样本已经威胁到了图像识别、语音识别和自然语言处理等方方面面的领域之中。而现有针对SQL注入攻击的检测方法却都忽视了对抗攻击对于检测模型的影响，针对SQL注入攻击对抗样本生成的研究也仅限于使用简单的SQL语法变换手段。在已知对抗样本的情况下，可以令检测模型训练对抗样本来提高模型对于对抗攻击的抗干扰能力；但是现有的攻击对抗方法训练速度和监测方法的抗干扰能力较弱。

发明内容

本发明针对现有技术存在的问题提供一种分布式网络对抗攻击自训练学习方法。

本发明采用的技术方案是：

一种分布式自训练对抗方法，包括以下步骤：

步骤1：原始攻击样本通过对抗攻击模型产生变异样本；

步骤2：变异样本进入检测模型进行检测，输出检测结果；

步骤3：没有被检测出变异样本的对抗样本添加到对抗样本队列，对抗样本队列达到设定阈值输入步骤2的检测模型进行再训练，直到所有的样本检测完成；

对抗攻击模型包括状态向量生成模块、对抗攻击矩阵和SAC算法模块；

状态向量生成模块用于将输入的攻击样本转换为状态向量；

对抗攻击矩阵用于将样本突变为突变样本；

SAC算法模块根据历史决策经验选择策略组合对样本进行突变；

步骤2中的检测模型包括预处理模块、语法特征提取模块和抗干扰集成模块；

预处理模块用于对字符串进行预处理，过滤畸形字符串；

语法特征提取模块用于提取注入的语法信息特征；

抗干扰集成模块用于对输入的语法信息特征进行分类输出置信分数。

进一步的，所述状态向量生成模块处理过程包括：

首先对攻击样本进行预处理，生成静态样本状态向量，根据突变策略生成动态样本状态向量，将静态样本状态向量和动态状态向量进行拼接即可得到状态向量；

函数

表示一个样本的原始攻击样本

满足第i个特征时取值为1，反之则为0；

则该样本的静态样本状态向量

可表示为：

其中，i为特征序号，n为特征个数；

动态样本状态向量生成过程如下：

将策略执行前，改变的文本结构定义为策略执行因子i，满足策略执行因子i的样本payload _j有函数D，使得

，反之为

；如下：

式中：

为满足策略执行因子k的样本paylod _origin的函数D的值；

为满足策略执行因子k的样本paylod _j的函数D的值，j为样本序号；

对抗攻击策略中有m个执行策略执行因子，则该样本的动态状态向量

表示为：

式中：k为策略执行因子序号，m为策略执行因子个数，

为满足策略执行因子k的样本paylod的函数D的值。

进一步的，所述SAC算法模块中采用决策器选择策略；

式中：

为最优策略，

为决策器，

为s _t状态下，决策器有限采取策略的熵值，α为温度参数，s _t为马尔科夫决策中t时刻的状态，a _t为t时刻选取的动作，r(s _t,a _t)为在s _t状态下，采取a _t行为的反馈；

为符合策略器

所决策的行为带来的回馈期望，ρ为转移概率。

进一步的，所述预处理模块中预处理方法如下：

首先进行URL解码，解码结果通过科学计数法进行过滤，然后内嵌执行过滤。

进一步的，所述语法特征提取过程如下：语法特征提取模块处理过程如下：

样本的文本为

，语法解析函数为f _s，样本序列化后的文本tokens如下：

式中：l为样本序号，x为样本个数；

然后采用Word2Vec方法，将样本序列化后的词嵌入向量

如下：

。

进一步的，所述抗干扰集成模块包括集成深度学习模型和集成算法；

集成深度学习模型包括3个深度学习模型；分别为长短期记忆人工神经网络LSTM、卷积神经网络CNN和多层感知器MLP；

根据集成深度学习模型得到的检测结果通过集成算法获得最终检测结果；集成算法选择平均数模型、投票制模型和最大值模型中的一种。

进一步的，所述平均数模型计算每个深度学习模型的置信分数的平均数得到集成算法的置信分数；

第y个子模型的置信分数为

，平均数模型计算得到的置信分数

为：

式中：y为子模型的序号，N为子模型个数；

置信分数

超过设定阈值则为注入样本，否则为正常样本；

投票制模型通过每个子模型的置信分数进行投票，选择投票数量最多的结果作为集成算法的结果；若超过一半的子模型的置信分数超过设定阈值，则视为注入样本，否则视为正常样本；

最大值模型为通过子模型中置信分数最高的结果作为最终结果，只要超过一个子模型认为样本为注入样本则视为注入样本；第y个子模型的置信分数

，最大值模型的置信分数s _max为：

。

本发明的有益效果是：

（1）本发明采用基于SAC算法的对抗攻击模型结合检测模型，对抗攻击模型能够产生有效检测模型检测率的对抗样本，检测模型采用集成式算法训练速度快；

（2）本发明方法抗干扰能力强，训练效率高，满足网络靶场攻防演练需求。

附图说明

图1为本发明采用的系统结构示意图。

图2为本发明方法流程示意图。

图3为本发明中采用的检测模型的处理流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

一种分布式网络对抗攻击自训练学习方法，包括以下步骤：

步骤1：原始攻击样本通过对抗攻击模型产生变异样本；

步骤2：变异样本进入检测模型进行检测，输出检测结果；

状态向量生成模块用于将输入的攻击样本转换为状态向量；

状态向量生成模块处理过程包括：

状态向量生成模块用于生成状态向量来描述当前样本的结构和内容状态，状态向量根据原始攻击样本和其突变产生的突变样本来分析。

预处理过程包括URL编码解码、多余字符串抹除和末尾注释抹除。URL编码解码处理便于状态生成器分析样本的结构和文本内容，防止编码干扰，同时便于对抗攻击策略修改攻击样本的文本内容。多余字符串抹除和末尾注释内容抹除可以减少不必要的检测特征。

静态状态向量的生成规则和样例如表1所示，其中浅色部分为匹配特征。

表1.静态状态向量生成规则表

同一个攻击样本可以包含多个攻击类型的特征，如表1中时间盲注的攻击样例即满足时间盲注中所使用的时间延迟函数，又存在条件语句，因此既满足布尔注入攻击的特征也满足时间盲注攻击的特征。

函数

_i表示一个样本的原始攻击样本

满足第i个特征时取值为1，反之则为0；

则该样本的静态样本状态向量

可表示为：

其中，i为特征序号，n为特征个数。

动态状态向量跟随样本突变过程不断变化，一个样本在突变过程中动态变化过程如表2所示，其中浅色的部分表示每次动态变换时样本突变的文本部分。动态样本状态向量与突变策略高度相关，表2中（1）视为原始攻击样本，A为突变策略13，B为突变策略11。假设突变策略13表示将样本中的空格使用注释符号替换，绕过规则11表示将等式条件使用between and语法替换。在原始样本中，由于其存在空格字符串，此时若执行策略13，策略13对于原始样本的改变幅度较大，假设动态样本状态向量

，则

。当原始样本从（1）执行突变策略13突变为（2）时，突变样本中不存在空格字符，此时需要再次突变策略13的突变因素降低，则

。

在下一轮变换之前，由于样本中存在未变换成between and语法的等式条件语句，

。当样本从（2）突变样本变化为（3）突变样本时，此时已经不存在未变换成between and语法的等式条件语句，

。最后一轮变化之前，（3）突变样本由于执行过between and语法变换，新的突变样本中包含了空格字符，因此

被重新置为1。

表2.对抗攻击中样本动态变化过程

动态样本状态向量生成过程如下：

将策略执行前，改变的文本结构定义为策略执行因子k，满足策略执行因子k的样本payload _j有函数D，使得

，反之为

；如下：

式中：

为满足策略执行因子k的样本paylod _origin的函数D的值；

表示为：

。

式中：k为策略执行因子序号，m为策略执行因子个数，

为满足策略执行因子k的样本paylod的函数D的值。

对抗攻击矩阵用于将样本突变为突变样本；

当一个样本通过预处理、静态状态向量生成、动态状态向量生成以及动静态状态向量拼接后，它可以得到一个能够准确描述其文本结构和内容的状态向量，以便于后续能够据此选择最优突变策略。

对抗攻击矩阵包括了所有SQL注入检测绕过策略，本发明中的对抗攻击策略矩阵包括SQL语法变换策略、语法分析干扰策略和语义分析干扰策略。

采用决策器选择策略；

式中：

为最优策略，

为决策器，

为符合策略器

所决策的行为带来的回馈期望，ρ为转移概率。

步骤2中的检测模型包括预处理模块、语法特征提取模块和抗干扰集成模块；处理过程如图3所示。

预处理模块用于对字符串进行预处理，过滤畸形字符串；

语法干扰策略可以干扰语法分析的攻击的策略，为了获取准确的语法解析序列，结合现有的编码手段和语法干扰手段，形成样本的预处理方法，便于后续样本的语法特征提取。

预处理过程包括URL解码、科学计数法过滤，内嵌执行过滤；

URL解码，防止攻击者通过编码手段导致字符串难以通过SQL语法解析器有效分析，产生错误结果。

科学计数法过滤，在MySQL语法中，SQL语句中在函数调用、子查询以及标识符中插入科学计数法不影响SQL语句的解析。然而这种畸形字符串的插入会导致语法解析器解析错误，产生错误的解析结果。

内嵌执行过滤，内嵌执行是MySQL语法中的一种特有语法属性，在MySQL中，SQL语句的任意部分都可以插入内嵌执行内容导致语法解析器解析失效，产生错误的解析结果。通过预处理方法，可以保证攻击样本能够正常被SQL语法解析器解析。

语法特征提取模块用于提取注入的语法信息特征；

语法分析方法一定程度上可以减少SQL语法变换和语义分析策略的干扰，语法分析从SQL语法上将样本从文本转换到语法底层的序列上，通过这些序列化的数据，可以获取更多SQL注入导致语法改变的信息，因而可以抵抗SQL语法转换和语义分析的干扰。

一个样本经过SQL语法解析后的序列化内容，每个标识符、间隔符、操作符、数字和关键字由文本转变为token。这些token表示各关键词、数字、标识符、间隔符、操作符、注释等常见基础类型的语法单元，每个语法单元不具有实际的语义，因而降低了语义干扰的影响。且SQL注入的原理是通过改变原本正常访问参数的语法进行符合攻击者攻击目的的SQL语句来进行攻击，语法解析后的序列化内容中，攻击者的攻击意图显然会与正常访问样本存在区别。

其中注意到序列化后的内容，如and、or等均转换为关键字，因此这种转化缺少了一定语法信息。再比如空格、注释符等间隔内容对语法的序列化后的语法意义影响不大，可以直接进行过滤。可以对不同token进行一定的特殊处理，如表3所示。

表3.针对不同token的处理

样本的文本为

，语法解析函数为f _s，样本序列化后的文本tokens如下：

式中：l为样本序号，x为样本个数；

然后采用Word2Vec方法，将样本序列化后的词嵌入向量

如下：

。

通过语法解析，文本中对于SQL注入的语法信息被提取出来，便于特征学习和分类器分类。这些语法信息能够降低语义干扰的影响，且能够扩大语法转换的信息，便于检测模型检测。

通过在提取语法特征后采用集成式的深度学习模型下，加强模型的抗干扰能力，其中词嵌入模型采用Word2Vec方法提取文本特征。

包括3个深度学习模型；

深度学习模型分别为长短期记忆人工神经网络LSTM、卷积神经网络CNN和多层感知器MLP。

根据深度学习模型得到的检测结果通过集成算法获得最终检测结果；集成算法选择平均数模型、投票制模型和最大值模型中的一种。

平均数模型计算每个深度学习模型的置信分数的平均数得到集成算法的置信分数；

第y个子模型的置信分数为

，平均数模型计算得到的置信分数

为：

式中：y为子模型的序号，N为子模型个数；

置信分数

超过0.5则为注入样本，否则为正常样本；

投票制模型通过每个子模型的置信分数进行投票，选择投票数量最多的结果作为集成算法的结果；若超过一半的子模型（本发明中即超过两个模型）的置信分数超过0.5，则视为注入样本，否则视为正常样本；

，最大值模型的置信分数s _max为：

。

本发明通过深度学习的集成策略，对于SQL注入的检测具有更强的抗干扰能力，以缓解对抗攻击的影响。

本发明方法在使用时将执行器和学习器分割，在多主机部署执行器与检测模型进行交互；相应的检测模型也通过分布式形式在多主机上部署，通过核心主机进行参数更新以适应对抗样本的攻击特征。图1中智能体为对抗攻击模型。

本发明中的检测模型，已经能够将对抗攻击样本的检测率提升至94.43%。然而面对日益复杂的互联网环境，每天都有可能会出现全新的攻击手段，为了能够进一步提升检测模型的抗干扰能力，结合对抗攻击模型，在对抗攻击训练的过程中同时提升检测模型的检测能力；处理过程如图2所示。在训练过程中逃逸检测器的样本会被添加至该队列，当对抗样本会被添加至该队列。当对抗样本队列的长度达到阈值时，对抗样本队列被放入检测模型中进行再训练，并清空对抗攻击模型的经验池和检测模型的对抗样本队列，以保证下一轮的再训练效果。通过再训练的方式，可以赋予检测模型更强的健壮性和抗干扰能力，从而进一步降低对抗攻击对于检测模型的影响。

本发明中对抗攻击模型采用了深度强化学习算法，检测模型采用深度学习算法。在实际训练过程中需要消耗大量时间，而加入自训练方法后，训练时间较长。分布式架构可以满足攻防演练中的攻击方的流量生成需求。

使用时，由服务器端和代理端两部分组成，其中服务器端存放攻击对抗模型和检测模型的主网络，代理端存放攻击对抗模型和检测模型的自网络。

本发明通过再训练的方法，可以赋予检测模型更强的健壮性和抗干扰能力，从而进一步降低对抗攻击对检测模型的影响。分布式架构可以满足攻防演练中的攻击方的流量生成需求。