CN117560225A

CN117560225A - 一种基于对抗生成网络的Web攻击检测方法

Info

Publication number: CN117560225A
Application number: CN202410029341.5A
Authority: CN
Inventors: 黄惟; 刘志; 刘优; 徐伯辰; 康占英; 王青
Original assignee: Changsha Zhiwei Information Technology Co ltd
Current assignee: Changsha Zhiwei Information Technology Co ltd
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-13
Anticipated expiration: 2044-01-09
Also published as: CN117560225B

Abstract

本申请涉及一种基于对抗生成网络的Web攻击检测方法，该方法包括：对HTTP原始请求数据进行URL二次解码，对解码后的HTTP原始请求数据进行词序随机打乱，得到增强后的HTTP文本；对增强后的HTTP文本进行Transformer嵌入，得到原始语义信息；将原始语义信息输入至训练后的对抗生成网络中的生成器；原始语义信息经过原始语义编码器得到原始语义表征，原始语义表征经过解码器得到生成语义信息，生成语义信息经过生成语义编码器得到生成语义表征；计算原始语义表征与生成语义表征之间的差异；将差异与阈值进行对比，确定Web攻击检测结果。该方法能够在Web攻击检测的分类任务中取得较好的效果。

Description

一种基于对抗生成网络的Web攻击检测方法

技术领域

本申请涉及Web攻击检测技术领域，特别是涉及一种基于对抗生成网络的Web攻击检测方法。

背景技术

随着机器学习和智能技术的兴起，Web攻击检测技术也开始引入这些智能化的方法进行检测，由于对抗生成网络可以天然的使用无监督方式进行对抗数据的生成，对数据具有更强的泛化性，因此，使用对抗生成模型进行无监督训练并检测未知异常攻击更符合现实中的数据条件。

目前，在实际的Web服务中使用对抗生成网络还存在以下几个问题：

1、仅通过添加噪声来进行泛化文本显然是不够的，容易造成模型检测精度不高甚至模型不稳定的问题；

2、如何快速和准确地将原始文本语义和生成文本语义聚合到相似的向量空间是一个难点。

发明内容

基于此，有必要提供一种基于对抗生成网络的Web攻击检测方法。

本发明提供了一种基于对抗生成网络的Web攻击检测方法，该方法包括：

S1：获取HTTP原始请求数据；

S2：对所述HTTP原始请求数据进行URL二次解码，对解码后的HTTP原始请求数据进行词序随机打乱，得到增强后的HTTP文本；

S3：对所述增强后的HTTP文本进行Transformer嵌入，得到原始语义信息；

S4：将所述原始语义信息输入至训练后的对抗生成网络中的生成器，生成器包括原始语义编码器、解码器、生成语义编码器；所述原始语义信息经过所述原始语义编码器得到原始语义表征，所述原始语义表征经过所述解码器得到生成语义信息，所述生成语义信息经过所述生成语义编码器得到生成语义表征；

S5：计算所述原始语义表征与所述生成语义表征之间的差异；

S6：设置一阈值，将所述差异与所述阈值进行对比，确定Web攻击检测结果。

本发明提供的Web攻击检测方法具有以下有益效果：

1、该方法没有采用添加噪声的方式增强数据，而是在得到原始语义信息的过程中，采用词序随机打乱的方式，对生成的数据进行泛化，增强了模型对正常HTTP请求的生成能力，提高了模型对正常数据的生成效果；

2、该方法在Transformer结构的基础上再添加了一个生成语义编码器进行生成语义信息的特征表示，更好地聚合原始数据和生成数据之间的向量相似性，最后形成了原始语义信息-生成语义信息对、原始语义表征-生成语义表征对，为后续训练提供基础，大大提高模型对异常HTTP请求的检测能力；

3、该方法通过设置的阈值与原始语义表征-生成语义表征对的差异进行对比来确定Web攻击检测结果，使得模型可以只是用正常数据进行无监督训练，将正常数据与其对应的生成数据聚合到相似的向量空间，避免了对标注数据的依赖，提高了未知攻击的检测效果；

4、该方法能够在Web攻击检测的分类任务中取得较好的效果，并减少了对标注数据的依赖，节省了数据成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的基于对抗生成网络的Web攻击检测方法的流程图。

图2为本申请实施例的生成器流程图。

图3为本申请实施例的判别器流程图。

图4为本申请实施例的训练流程图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似改进，因此本申请不受下面公开的具体实施例的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如图1所示，本实施例提供了一种基于对抗生成网络的Web攻击检测方法，该方法包括：

S1：获取HTTP原始请求数据。

S2：对所述HTTP原始请求数据进行URL二次解码，对解码后的HTTP原始请求数据进行词序随机打乱，得到增强后的HTTP文本。

S3：对所述增强后的HTTP文本进行Transformer嵌入，得到原始语义信息。

具体的，Transformer嵌入计算公式为：

；

其中，H表示原始语义信息，，m表示原始语义信息的最大长度，d表示词嵌入的维度；E _tok(·)表示Transformer嵌入的词嵌入；E _seg(·)表示Transformer嵌入的段嵌入；E _pos(·)表示Transformer嵌入的位置嵌入；shuffle(·)表示随机索引函数；X表示增强后的HTTP文本。

传统的对抗生成网络在文本上生成一般采用添加随机噪声增加输入的随机性，继而生成泛化性更强的文本表示，但是，这种方式容易失控，噪声幅度太小时，对于生成数据的泛化性较差，太大时，会破坏生成文本的语义一致性。因此，仅通过添加噪声来进行泛化文本显然是不够的，容易造成检测精度不高的问题。

本实施例提供的方法没有采用添加噪声的方式增强数据，而是在得到原始语义信息的过程中，采用词序随机打乱的方式，并且后续在生成器的原始语义编码器和解码器之间加入了MASK掩码机制的方式，对生成的数据进行泛化，增强了模型对正常HTTP请求的生成能力，提高了模型对正常数据的生成效果。

S4：将所述原始语义信息输入至训练后的对抗生成网络中的生成器，生成器包括原始语义编码器、解码器、生成语义编码器；所述原始语义信息经过所述原始语义编码器得到原始语义表征，所述原始语义表征经过所述解码器得到生成语义信息，所述生成语义信息经过所述生成语义编码器得到生成语义表征。

如图2所示，所述原始语义编码器为Transformer编码器，所述原始语义编码器包括：第一多头注意力机制、第一归一化层、第一前馈网络、第二归一化层；

得到原始语义表征的过程包括：

步骤1：将原始语义编码器的层数设置为层，则在第i层时，来自前一层H ^i-1的特征由三个线性层矩阵表示，计算公式为：

；

其中，Q表示查询矩阵；K表示键矩阵；V表示值矩阵；W _q表示第一可训练参数矩阵；W _k表示第二可训练参数矩阵；W _v表示第三可训练参数矩阵；

通过三个线性层矩阵计算第i层的注意力表示，计算公式为：

；

其中，Attention(Q,K,V)表示第i层的注意力表示；d _k表示键矩阵的维度，T表示转置；

步骤2：通过所述第一多头注意力机制对注意力表示进行多次计算，得到序列的特征表示，计算公式为：

；

其中，MultiHead(Q,K,V)表示序列的特征表示；Concat(·)表示拼接函数；W ⁰表示可训练的线性映射矩阵；Attention ₁表示第1头的第i层的注意力表示；Attention _h表示第h头的第i层的注意力表示；

步骤3：将所述序列的特征表示通过所述第一归一化层进行残差连接和层标准化，计算公式为：

；

其中，H表示原始语义信息；layernorm(·)表示标准化函数；x表示残差连接后的特征表示；Y表示层标准化后的特征表示；μ为x的均值；σ为x的标准差；x _i表示x中的第i个元素；d为x中元素的总数；

步骤4：所述层标准化后的特征表示经过所述第一前馈网络进行非线性转换，得到非线性转换后的特征表示，计算公式为：

；

其中，FFN(Y)表示非线性转换后的特征表示；W ₁表示第一权重矩阵；W ₂表示第二权重矩阵；b ₁表示第一偏置向量；b ₂表示第二偏置向量；

步骤5：通过所述第二归一化层对所述非线性转换后的特征表示进行归一化，得到原始语义编码器第i层的特征表示，计算公式为：

；

其中，H ⁱ表示原始语义编码器第i层的特征表示；

步骤6：重复步骤1-5，直至执行完次，得到所述原始语义表征，所述原始语义表征记为C，/>，/>表示原始语义编码器第/>层的特征表示。

进一步的，所述解码器为Transformer解码器，在所述解码器前设置有MASK掩码机制，将序列中15%的词随机进行遮蔽，以提高生成数据的泛化性；所述解码器包括：第二多头注意力机制、第三归一化层、第二前馈网络、第四归一化层、第一线性层、第一Softmax层；

第二多头注意力机制的结构与第一多头注意力机制一致；第三归一化层的结构与第一归一化层一致；第二前馈网络的结构与第一前馈网络一致；第四归一化层的结构与第二归一化层一致；

得到生成语义信息的过程包括：

步骤1：将解码器的层数设置为层，所述原始语义表征经过所述MASK掩码机制，得到MASK机制的原始语义表征；所述MASK掩码机制生成mask数组，将mask数组放入解码器中一起计算，即将mask数组中为1的索引j的词表征C _j设置为0；计算公式为：

；

其中，C表示原始语义表征；C ⁰表示MASK机制的原始语义表征；

步骤2：所述MASK机制的原始语义表征依次经过所述第二多头注意力机制、所述第三归一化层、所述第二前馈网络以及所述第四归一化层，得到解码器第i层的语义解码表示；

步骤3：重复步骤2，直至执行完次，得到解码器第/>层的语义解码表示；

步骤4：根据所述第一线性层对解码器第l ²层的语义解码表示进行降维，降维后通过所述第一Softmax层，得到所述生成语义信息，计算公式为：

；

其中，H`表示生成语义信息；softmax(·)表示softmax函数；表示解码器第/>层的语义解码表示；W ₀表示权重矩阵；b ₀表示偏置向量。

更进一步的，所述生成语义编码器为Transformer编码器，生成语义编码器的结构与所述原始语义编码器一致，且层数也一致；

所述生成语义信息经过所述生成语义编码器执行次，得到所述生成语义表征。

传统的生成对抗网络中的生成器一般采用端对端模型进行设计，文本生成器一般采用LSTM或者卷积网络进行文本编码器的设计，然后采用与编码器相对应的对称结构作为解码器。基于LSTM或者卷积网络的基础模型对文本信息的表示和生成效果不理想，而且这种编码器-解码器结构生成的数据只能由判别器进行检验，聚合到相似的向量空间难度大，因此，这种方式会影响模型的生成数据的效果，进而影响模型的检测效果。如何快速和准确的将原始文本语义和生成文本语义聚合到相似的向量空间是一个难点。

本实施例提供的方法在Transformer结构的基础上再添加了一个生成语义编码器进行生成语义信息的特征表示，更好地聚合原始数据和生成数据之间的向量相似性，最后形成了原始语义信息-生成语义信息对、原始语义表征-生成语义表征对，为后续训练提供基础，能够将正常数据和其对应的生成数据快速和准确聚合到相似的向量空间中，大大提高模型对异常HTTP请求的检测能力

所述对抗生成网络还包括判别器，所述判别器包括第三多头注意力机制、第五归一化层、第三前馈网络、第六归一化层、第二线性层、第二Softmax层；

第三多头注意力机制的结构与第一多头注意力机制一致；第五归一化层的结构与第一归一化层一致；第三前馈网络的结构与第一前馈网络一致；第六归一化层的结构与第二归一化层一致；第二线性层的结构与所述第一线性层一致；第二Softmax层的结构与所述第一Softmax层一致；

如图3所示，判别器的工作流程包括：

步骤1：将训练用的原始语义信息输入至所述判别器，并设置判别器的层数为l ²层；

步骤2：训练用的原始语义信息依次经过所述第三多头注意力机制、所述第五归一化层、所述第三前馈网络以及所述第六归一化层，并重复执行l ¹次，得到判别器第l ³层的原始语义表征；

步骤3：根据所述第二线性层对判别器第l ³层的原始语义表征进行降维，降维后通过所述第二Softmax层，得到真实语义概率值，计算公式为：

；

其中，表示真实语义概率值；softmax(·)表示softmax函数；P _H表示判别器第/>层的原始语义表征；W ₃表示第三权重矩阵；b ₃表示第三偏置向量；

步骤4：将训练用的所述原始语义信息依次经过所述原始语义编码器、所述解码器，得到训练用的生成语义信息；

步骤5：将训练用的生成语义信息经过依次经过步骤2、步骤3，得到生成语义概率值，计算公式为：

；

其中，表示生成语义概率值；softmax(·)表示softmax函数；/>表示判别器第层的生成语义表征；W ₃表示第三权重矩阵；b ₃表示第三偏置向量。

如图4所示，训练过程包括：

根据所述原始语义信息和所述生成器中生成的所述生成语义信息计算出生成损失；生成损失的计算公式为：

；

其中，表示生成损失；m为原始语义信息的最大长度；H表示原始语义信息；H`表示生成语义信息。

根据所述生成器中生成的所述原始语义表征和所述生成语义表征计算出编码损失；编码损失的计算公式为：

；

其中，表示编码损失；d表示词嵌入的维度；C表示原始语义表征；/>表示生成语义表征。

根据所述真实语义概率值和所述生成语义概率值计算出对抗损失；对抗损失的计算公式为：

；

其中，表示对抗损失；/>表示真实语义概率值；/>表示生成语义概率值；表示真实样本，标注为1；/>表示生成样本，标注为0。

基于所述生成损失、所述编码损失以及所述对抗损失计算出总损失；

总损失的计算公式为：

；

其中，表示总损失；/>表示生成损失权重；/>表示编码损失权重；/>表示对抗损失权重。

通过所述总损失均衡训练所述生成器和所述判别器，得到所述训练后的对抗生成网络。

S5：计算所述原始语义表征与所述生成语义表征之间的差异。

具体的，差异计算公式为：

；

其中，diff表示差异；C表示原始语义表征；表示生成语义表征；mean(·)表示平均值函数。

具体的，所述将所述差异与所述阈值进行对比，确定Web攻击检测结果，包括：

当所述差异大于等于所述阈值时，判定所述HTTP原始请求数据为异常HTTP请求；

当所述差异小于所述阈值时，判定所述HTTP原始请求数据为正常HTTP请求。

对抗生成网络虽然在数据的泛化性和训练方式上有明显的改变，对于最终的检测分类以往的方法是采用半监督的方法实施，将正常数据和少量攻击数据进行生成泛化数据，然后输入到判别器中进行多分类检测，这种方式在传统的监督训练方法上在泛化性方面有了明显的加强，但是对于标注的攻击数据依然具备很大的依赖性，检测未知异常攻击的效果仍然受到较大影响。

本实施提供的方法通过设置的阈值与原始语义表征-生成语义表征对的差异进行对比来确定Web攻击检测结果，使得模型可以只是用正常数据进行无监督训练，将正常数据与其对应的生成数据聚合到相似的向量空间，避免了对标注数据的依赖，提高了未知攻击的检测效果；

本实施例提供的这种基于对抗生成网络的Web攻击检测方法能够在Web攻击检测的分类任务中取得较好的效果，并减少了对标注数据的依赖，节省了数据成本。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于对抗生成网络的Web攻击检测方法，其特征在于，包括：

S1：获取HTTP原始请求数据；

2.根据权利要求1所述的基于对抗生成网络的Web攻击检测方法，其特征在于，Transformer嵌入计算公式为：

；

3.根据权利要求1所述的基于对抗生成网络的Web攻击检测方法，其特征在于，所述原始语义编码器为Transformer编码器，所述原始语义编码器包括：第一多头注意力机制、第一归一化层、第一前馈网络、第二归一化层；

得到原始语义表征的过程包括：

；

通过三个线性层矩阵计算第i层的注意力表示，计算公式为：

；

其中，H ⁱ表示原始语义编码器第i层的特征表示；

4.根据权利要求3所述的基于对抗生成网络的Web攻击检测方法，其特征在于，所述解码器为Transformer解码器，在所述解码器前设置有MASK掩码机制，所述解码器包括：第二多头注意力机制、第三归一化层、第二前馈网络、第四归一化层、第一线性层、第一Softmax层；

得到生成语义信息的过程包括：

步骤1：将解码器的层数设置为层，所述原始语义表征经过所述MASK掩码机制，得到MASK机制的原始语义表征，计算公式为：

；

5.根据权利要求3所述的基于对抗生成网络的Web攻击检测方法，其特征在于，所述生成语义编码器为Transformer编码器，生成语义编码器的结构与所述原始语义编码器一致，且层数也一致；

6.根据权利要求5所述的基于对抗生成网络的Web攻击检测方法，其特征在于，所述对抗生成网络还包括判别器，所述判别器包括第三多头注意力机制、第五归一化层、第三前馈网络、第六归一化层、第二线性层、第二Softmax层；

第三多头注意力机制的结构与第一多头注意力机制一致；第五归一化层的结构与第一归一化层一致；第三前馈网络的结构与第一前馈网络一致；第六归一化层的结构与第二归一化层一致；第二线性层的结构与第一线性层一致；第二Softmax层的结构与第一Softmax层一致；

判别器的工作流程包括：

；

其中，表示生成语义概率值；softmax(·)表示softmax函数；/>表示判别器第/>层的生成语义表征。

7.根据权利要求6所述的基于对抗生成网络的Web攻击检测方法，其特征在于，训练过程包括：

根据所述原始语义信息和所述生成器中生成的所述生成语义信息计算出生成损失；

根据所述生成器中生成的所述原始语义表征和所述生成语义表征计算出编码损失；

根据所述真实语义概率值和所述生成语义概率值计算出对抗损失；

8.根据权利要求7所述的基于对抗生成网络的Web攻击检测方法，其特征在于，生成损失的计算公式为：

；

其中，表示生成损失；m为原始语义信息的最大长度；H表示原始语义信息；H`表示生成语义信息；

编码损失的计算公式为：

；

其中，表示编码损失；d表示词嵌入的维度；C表示原始语义表征；/>表示生成语义表征；

对抗损失的计算公式为：

；

其中，表示对抗损失；/>表示真实语义概率值；/>表示生成语义概率值；/>表示真实样本，标注为1；/>表示生成样本，标注为0；

总损失的计算公式为：

；

9.根据权利要求1所述的基于对抗生成网络的Web攻击检测方法，其特征在于，差异计算公式为：

；

10.根据权利要求1所述的基于对抗生成网络的Web攻击检测方法，其特征在于，所述将所述差异与所述阈值进行对比，确定Web攻击检测结果，包括：