CN113691542B

CN113691542B - 基于HTTP请求文本的Web攻击检测方法及相关设备

Info

Publication number: CN113691542B
Application number: CN202110982991.8A
Authority: CN
Inventors: 刘拥民; 黄浩; 谢铁强
Original assignee: Central South University of Forestry and Technology
Current assignee: Dongrui Electric Technology Beijing Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-04-28
Anticipated expiration: 2041-08-25
Also published as: CN113691542A

Abstract

本公开提供一种基于HTTP请求文本的Web攻击检测方法及相关设备。所述方法包括：获取网络流量中的HTTP请求文本；对所述HTTP请求文本进行预处理，以生成编码向量；利用预先训练好的记忆聚焦处理神经网络(MFPNN)模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将双向长短期记忆(BiLSTM)神经网络模型与多头注意力机制结合而构建的；基于所述预测向量进行计算，得到Web攻击的分类结果。本公开的实施例可以提高Web攻击检测的准确率和真阳性率。

Description

基于HTTP请求文本的Web攻击检测方法及相关设备

技术领域

本公开涉及网络安全技术领域，尤其涉及一种基于HTTP(Hyper Text TransferProtocol，超文本传输协议)请求文本的Web(万维网)攻击检测方法及相关设备。

背景技术

严重的网络攻击，常常会带来灾难性的数据泄露和丢失，为了阻断Web应用程序受到的攻击，首要任务是能够精准地检测出Web攻击。传统的深度学习检测模型的信息记忆能力和聚焦处理能力不强，导致检测的准确率和真阳性率不高；而且通常选用URL(统一资源定位符)数据作为输入数据，可能会遗漏攻击载荷，影响模型的准确率和真阳性率。

发明内容

有鉴于此，本公开的目的在于提出一种基于HTTP请求文本的Web攻击检测方法及相关设备。

本公开的第一方面，提供了一种基于HTTP请求文本的Web攻击检测方法，包括：获取网络流量中的HTTP请求文本；对所述HTTP请求文本进行预处理，以生成编码向量；利用预先训练好的MFPNN(Memory focus processing neural network，记忆聚焦处理神经网络)模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆)神经网络模型与多头注意力机制结合而构建的；基于所述预测向量进行计算，得到Web攻击的分类结果。

可选地，所述对所述HTTP请求文本进行预处理，以生成编码向量，包括：基于语料库词典，按照预处理规则对所述HTTP请求文本进行预处理，以生成整数编码向量，其中，所述语料库词典包括专家词典、通用高频词典、数据集高频词典、特殊字符和占位符。

可选地，所述基于语料库词典，按照预处理规则对所述HTTP请求文本进行预处理，以生成整数编码向量，包括：对所述HTTP请求文本进行统一资源定位符URL解码，以获得普通文本；通过使用所述语料库词典中的特殊字符作为分隔符，对所述普通文本进行分词处理；基于所述语料库词典和所述预处理规则，对经过分词处理的所述普通文本进行关键词处理，以生成预设长度的关键词文本；通过将所述关键词文本中的每个关键词替换为所述语料库词典中与该关键词相应的数值，生成所述整数编码向量。

可选地，所述MFPNN模型包括嵌入矩阵、记忆分析模块、聚焦处理模块以及融合计算模块；所述嵌入矩阵是基于word2vec模型而获得的；所述记忆分析模块包括依次串联的多个BiLSTM神经网络模型和第一全连接层；所述聚焦处理模块包括依次串联的多个多头注意力层和一个Reshape层；所述融合计算模块包括级联的第二全连接层和第三全连接层。

可选地，每个所述多头注意力层包括多头注意力子层和全连接前馈网络子层，所述多头注意力子层和所述全连接前馈网络子层各自的周围使用残差连接。

可选地，所述利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到所述预测向量，包括：通过所述嵌入矩阵，将所述整数编码向量变换成相同的第一词嵌入向量矩阵和第二词嵌入向量矩阵；将所述第一词嵌入向量矩阵输入所述记忆分析模块，以得到第一特征向量；将所述第二词嵌入向量矩阵加上位置编码后输入所述聚焦处理模块，以得到第二特征向量；将所述第一特征向量和所述第二特征向量输入所述融合计算模块，以得到所述预测向量。

可选地，所述基于所述预测向量进行计算包括：基于所述预测向量，利用argmax函数进行计算。

可选地，所述MFPNN模型是预先使用交叉熵损失函数训练的。

本公开的第二方面，提供了一种基于HTTP请求文本的Web攻击检测装置，包括：

获取模块，被配置为获取网络流量中的HTTP请求文本；

预处理模块，被配置为对所述HTTP请求文本进行预处理，以生成编码向量；

检测模块，被配置为利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将BiLSTM神经网络模型与多头注意力机制结合而构建的；

分类模块，被配置为基于所述预测向量进行计算，得到Web攻击的分类结果。

本公开的第三方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上任意一项所述的方法。

从上面所述可以看出，本公开提供了一种基于HTTP请求文本的Web攻击检测方法及相关设备，通过选取HTTP请求文本作为输入数据，提高了原始的信息量，避免遗漏攻击载荷；通过BiLSTM神经网络模型与多头注意力机制结合，提高信息记忆能力和聚焦分析能力，进而提高了Web攻击检测的准确率和真阳性率。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的基于HTTP请求文本的Web攻击检测方法的流程示意图；

图2为本公开实施例的LSTM模型的结构示意图；

图3为本公开实施例的BiLSTM神经网络模型的结构示意图；

图4为本公开实施例的多头注意力层的结构示意图；

图5为本公开实施例的基于HTTP请求文本的Web攻击检测方法的结构示意图；

图6为本公开实施例的MFPNN模型训练的流程示意图；

图7为本公开实施例的基于HTTP请求文本的Web攻击检测装置的结构示意图；

图8为本公开实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开可选详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

随着Web技术的发展和各行各业信息化进程的推进，互联网上的出现的Web应用程序越来越多。Web应用程序的增多和使用确实方便了人们的工作和生活，但是这也方便了那些黑客，因为他们可以不费吹灰之力就能在互联网上找到一个Web应用程序并发起攻击。由于当前的Web应用程序包含了大量的隐私机密信息和管理着重要的资源，黑客一旦攻击成功,他们就能轻易获取这些信息和资源，后果不堪设想。

严重的网络攻击，常常会带来灾难性的数据泄露和丢失，为了阻断Web应用程序受到的攻击，首要任务是能够精准地检测出Web攻击。如今不断有新的基于深度学习的Web入侵检测模型算法出现。虽然深度学习方法应用在网络安全领域已经取得了很大的进步，但是对于攻击检测的准确率和真阳性率还有待提高。

申请人在实现本公开的过程中发现，输入数据的选择会影响模型接收的原始信息量。模型接收到的原始信息越全面，从中得到有益于训练的信息也越多，训练出分类效果良好的模型的几率就越大。而不同Web应用程序的请求参数表示方法不一致，并且不同攻击类型的数据构造方法和攻击载荷位置也不一致，所以选取原始网络流量的哪个部分作为检测模型输入非常重要，因为这决定了模型接收到的原始信息量的大小和是否会遗漏攻击载荷。

此外，模型的信息记忆能力和聚焦处理能力也会影响检测的效果。由于在Web攻击数据中，文本数据一般很长，长距离序列数据会导致信息过载，而一般的神经网络模型信息记忆能力不高，在处理一段文本时，常常因为记忆能力弱而丢失关键信息。另外大多数的攻击载荷总是出现在特定的几个位置，模型的聚焦处理能力如果不强，就不能着重处理关键部分，导致准确度不高。

可以考虑利用BiLSTM神经网络模型提高模型信息记忆能力，利用多头注意力机制提高聚焦分析能力；对于数据输入选用完整的HTTP请求文本,防止遗漏攻击载荷。

以下，通过具体的实施例来详细说明本公开的技术方案。

参考图1，为本公开实施例的一种基于HTTP请求文本的Web攻击检测方法的流程示意图，包括以下步骤：

S1、获取网络流量中的HTTP请求文本。

一个完整的HTTP请求文本由请求行、请求头、空行、请求消息体构成，大部分攻击载荷都集中在请求行中的URL部分和请求消息的Body部分，所以通常的解决方案都是直接采用URL作为数据输入，但是这样的数据输入方式存在漏检的情况，有些攻击载荷还会出现在请求头部分，这样的攻击产生的危害同样巨大。

本步骤为了提高模型接收的数据原始信息量，将从网络流量中提取完整的HTTP请求文本作为数据输入，对于Web攻击来说，这会将全部的原始信息都包含进来，防止遗漏攻击载荷。

S2、对所述HTTP请求文本进行预处理，以生成编码向量。

通过步骤S2保留足够的有效信息，同时尽量减少模型的参数，提高检测效率。

可选地，步骤S2具体包括：基于语料库词典，按照预处理规则对所述HTTP请求文本进行预处理，以生成整数编码向量，其中，所述语料库词典包括专家词典、通用高频词典、数据集高频词典、特殊字符和占位符。

在采用完整的HTTP请求文本作为数据输入后，输入到模型中的单词量会明显增加，这直接导致语料库词典中的单词增加，对于文本分类模型来说，语料库词典越大，模型的参数量越多，计算速度也越慢，所以需要对请求文本进行预处理，对数据特征提取以保留足够的有效信息，同时缩小语料库词典的大小。

本实施例的语料库词典如表1所示，其中，专家词典包含Web安全中经常被用于攻击的高频函数和语法关键词；通用高频词典由Web中经常被使用的非语法高频单词组成；数据集高频词典包含数据集中的出现的高频单词；特殊字符是Web中经常被使用到的标点符号；占位符共有五个，分别是_PLACEHOLDER_、_NEWLINE_、_DIGITSTRING_、_ALPHASTRING_和_MIXSTRING_，并且它们在字典中的索引分别为0，1，2，3，4。

表1语料库词典

数据预处理方式会影响模型提取的特征，不同的数据预处理方法有着不同的信息提取能力。本实施例中的预处理规则如表2所示，对数据从头至尾逐个单词进行处理，按照执行条件，对每个单词进行保留、替换、添加、丢弃或停止的处理动作，生成不同的关键词，保留了足够的有效信息。

表2预处理规则

在一些实施例中，执行步骤S2的伪代码如表3所示，表中GePM(Genericpreprocessing method，通用预处理方法)即为步骤S2的算法模型，具体包括：对所述HTTP请求文本进行统一资源定位符URL解码，以获得普通文本；通过使用所述语料库词典中的特殊字符作为分隔符，对所述普通文本进行分词处理；基于所述语料库词典和所述预处理规则，对经过分词处理的所述普通文本进行关键词处理，以生成预设长度的关键词文本；通过将所述关键词文本中的每个关键词替换为所述语料库词典中与该关键词相应的数值，生成所述整数编码向量。有效减少了语料库词典的大小，具有良好的信息提取能力。

表3预处理伪代码

S3、利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将BiLSTM神经网络模型与多头注意力机制结合而构建的。

因为采用完整的HTTP请求文本作为数据输入，数据将成为更长的长距离序列数据，信息会过载；而且大多数的攻击载荷总是出现在特定的几个位置，通常的神经网络模型信息记忆能力不高，同时聚焦处理能力不强，所以模型的准确率不高。通过采用BiLSTM神经网络模型提高模型的信息记忆能力，采用多头注意力机制提高信息的聚焦分析能力，进而提高了检测的准确率和真阳性率。

可选地，如图5所示，所述MFPNN模型包括嵌入矩阵、记忆分析模块、聚焦处理模块以及融合计算模块；

所述利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到所述预测向量，包括：通过所述嵌入矩阵，将所述整数编码向量变换成相同的第一词嵌入向量矩阵和第二词嵌入向量矩阵；将所述第一词嵌入向量矩阵输入所述记忆分析模块，以得到第一特征向量；将所述第二词嵌入向量矩阵加上位置编码后输入所述聚焦处理模块，以得到第二特征向量；将所述第一特征向量和所述第二特征向量输入所述融合计算模块，以得到所述预测向量。

可选地，所述嵌入矩阵是基于word2vec模型而获得的，用于将整数编码向量转化为两个相同的词嵌入向量矩阵，将词嵌入向量矩阵分别输入到记忆分析模块和聚焦处理模块进行计算。

在一些实施例中，所述嵌入矩阵E是一个D×N的矩阵,其中D是词嵌入向量的维度，N是语料库词典的单词量大小，E中的每个向量都代表着语料库词典中的一个单词的词嵌入向量。假设一个编码向量所对应的one-hot词向量矩阵为W，W的维度为N×n，其中n为编码向量的长度。W的每个向量W_j都是一个维度N×1的one-hot向量。通过使用公式(1)，可以将计算出一个one-hot词向量对应的词嵌入向量WI_j，维度为D×1。进而可得公式(2)，计算出一个one-hot词向量矩阵W所对应的词嵌入向量矩阵WI，维度为D×n。得到WI词嵌入向量矩阵之后即可将其输入到记忆分析模块和聚焦处理模块进行计算。

WI_j＝E*W_j (1)

WI＝E*W (2)

可选地，所述记忆分析模块包括依次串联的多个BiLSTM神经网络模型和第一全连接层，用于增强模型的信息记忆能力，加强模型对数据宏观上的分析能力。

传统的RNN(Recurrent Neural Network、循环神经网)模型处理的数据如果序列太长，训练过程中可能会出现梯度消失或者梯度爆炸，存在记忆能力不强，无法控制长序列数据的非线性关系等缺点。而LSTM(Long-short Memory、长短期记忆)处理能够选择地存储和传输信息以供后续处理，可以解决这些问题。

LSTM模型的结构如图2所示，由细胞状态、遗忘门、输入门和输出门组成。遗忘门有选择性地保留和遗忘上一时刻细胞状态的信息；输入门有选择性地保留细胞当前时刻的输入信息；输出门则有选择性地输出细胞当前状态信息。计算如公式(3)-(8)所示，其中的W_C，W_f，W_i，W_o分别为细胞状态、遗忘门、输入门和输出门的权重矩阵；而b_C，b_f，b_i，b_o为细胞单元和各门控单元的偏置项；σ为sigmoid函数；tanh为双曲正切函数。公式(3)为遗忘门计算的公式，f_t为遗忘门的值，h_t-1是前一时刻的隐层状态，x_t为当前输入词。公式(4)、(5)为输入门计算公式，i_t为输入门的值，

为临时细胞状态。公式(6)计算当前时刻细胞状态，C_t代表当前时刻细胞状态。公式(7)、(8)分别为为输出门和当前时刻隐层状态计算公式。通过计算最终能够得到与句子长度相同的隐层状态序列[h₀，h₁，...，h_n-1]。

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (3)

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (4)

o_t＝σ(W_o[h_t-1，x_t]+b_o) (7)

h_t＝o_t*tanh(C_t) (8)

但是LSTM模型用来处理HTTP请求文本数据，还存在一个问题，即无法编码从后往前的信息。在HTTP文本数据中，通常会存在程序语言代码，在程序书写顺序上，关于变量或者函数的定义和调用存在两种情况，即先书写定义代码再书写调用代码，以及先书写调用代码再书写定义代码。LSTM模型能够识别出书写顺序是先定义再调用的行为信息，却无法识别出书写顺序是先调用再定义的行为信息。可以采用BiLSTM模型来解决这个问题。

BiLSTM神经网络模型由前向LSTM模型和后向LSTM模型组合而成，其结构图如图3所示。BiLSTM模型首先由前向LSTM模型计算输入序列的前向隐含状态h＝[h₀，h₁，...，h_n-1]，然后再由后向LSTM模型计算输入序列的后向隐含状态h′＝|h′₀，h′₁，...，h′_n-1|，将两者进行拼接整合得到最终的隐含状态H。

本实施例中的记忆分析模块包括依次串联的多个BiLSTM神经网络模型和第一全连接层，前方的BiLSTM模型使用公式(9)进行隐含状态融合，而最后一个BiLSTM模型使用公式(10)进行隐含状态融合。在记忆分析模块中的每一个BiLSTM模型的输出H都是下一个记忆分析模块的输入，特别地，最后一个BiLSTM模型的输出H是全连接层的输入。全连接层的输出计算如公式(11)所示，其中O_M为记忆分析模块的第一特征向量，W_Bi为全连接层的权重，b_Bi为偏置项，relu为线性整流函数。

H＝{[h₀，h′₀]，[h₁，h′₁]，...，[h_n-1，h′_n-1]} (9)

H＝[h_n-1，h′₀] (10)

O_M＝relu(W_Bi·H+b_Bi) (11)

可选地，所述聚焦处理模块包括依次串联的多个多头注意力层和一个Reshape层，用于增强模型的聚焦处理能力，使模型的注意力集中在更容易出现攻击载荷的位置，更容易分析出攻击的类型。

可选地，多头注意力层的结构如图4所示，每个所述多头注意力层包括多头注意力子层和全连接前馈网络子层，所述多头注意力子层和所述全连接前馈网络子层各自的周围使用残差连接。残差连接有助于避免深度网络中的梯度消失问题。

多头注意力子层和全连接前馈网络子层后分别接一个Dropout层，然后进行层归一化，每个子层的输出为LayerNorm(x+Dropout(Sublayer(x))，其中Sublayer(x)是子层实现的函数本身，每个子层的产生的维度指定为相同的维度d_model。多头注意力子层有三个输入，分别是Q(query，查询向量)、K(key，键向量)、V(value，值向量)，这些输入经过线性层拆分成多头，将公式(12)应用到每个头，然后将每个头的注意力输出连接起来，并放入最后的线性层。在公式(12)中，dk为K向量的维度。

最后一个多头注意力层连接一个Reshape层，将多头注意力层的输出拉长为一个向量O_F，O_F即为聚焦处理模块的第二特征向量。

在一些实施例中，所述第二词嵌入向量矩阵进入所述聚焦处理模块之前，还需要在所述第二词向量矩阵上添加位置编码PE(positional encoding)，以此添加词与词之间的位置信息。位置编码PE的计算如公式(13)、(14)所示，其中pos是位置，i是维数，dmodel代表输出维度。

可选地，所述融合计算模块包括级联的第二全连接层和第三全连接层，用于根据所述第一特征向量和所述第二特征向量生成所述预测向量。

融合计算模块的处理过程过程包括，使用公式(15)将O_M、O_F进行拼接融合生成总输出向量I，然后经过两层全连接层，由公式(16)计算得到预测向量y_pre。其中W₁，W₂分别为第二全连接层和第三全连接层的权重矩阵，b₁，b₂为第二全连接层和第三全连接层的偏置项。

I＝[O_M，O_F] (15)

y_pre＝softmax(W₂·relu(W₁·I+b₁)+b₂) (16)

S4、基于所述预测向量进行计算，得到Web攻击的分类结果。

所述基于所述预测向量进行计算包括：基于所述预测向量，利用argmax函数进行计算。

用公式(17)对y_pre计算得到最终的分类结果R，提高了攻击检测的准确率。

R＝argmax(y_pre) (17)

本实施例提供了本公开提供了一种基于HTTP请求文本的Web攻击检测方法，通过选取HTTP请求文本作为输入数据，提高了原始的信息量，避免遗漏攻击载荷；通过BiLSTM神经网络模型与多头注意力机制结合，提高信息记忆能力和聚焦分析能力，进而提高了Web攻击检测的准确率和真阳性率。

在一些实施例中，所述MFPNN模型是预先使用交叉熵损失函数训练的，训练过程的HTTP请求文本来自于数据集。训练过程如图6所示，数据集中的HTTP请求文本输入到GePM模型的处理器中，结合语料库词典，根据预处理规则将HTTP请求文本预处理成编码向量；编码向量进入到MFPNN模型的分类器中，通过嵌入矩阵，生成两个词嵌入向量矩阵；词嵌入向量矩阵分别进入到记忆分析模块和聚焦处理模块，特别地，词嵌入向量矩阵进入聚焦处理模块之前要先加上位置编码；之后将记忆分析模块和聚焦处理模块处理获得的第一特征向量和第二特征向量输入到融合计算模块，得到一个预测向量，向量中的值表示各分类的概率；预测向量结合真实向量，由损失函数计算损失，通过反向传播算法将损失逐步往前反向传播，更新分类器中每个模块的权值。经过预定次数的训练迭代，例如训练迭代5次，最后将分类器中的权值持久化保存下来，得到一个分类效果良好的MFPNN模型。

特别地，融合计算模块的最后一层的神经元个数必须与数据集中类型个数c相等。在训练阶段，分类器将使用公式(18)进行计算损失向量L，其中y_ti为符号函数，如果样本的真实类别等于i取1，否则取0，y_pi为样本属于类别i的预测概率，即y_pre真实向量的各元素值，然后由公式(19)对向量求平均得损失值L_value，在训练完每一批数据后使用反向传播算法更新参数，训练结束后持久化保存最终的参数，以便检测使用。

在一些实施例中，使用的数据集为HTTP DATASET CSIC 2010和IndividualDataset。

HTTP DATASET CSIC 2010在web入侵检测研究中应用最为广泛，由36000条正常HTTP请求样本和25000条以上恶意HTTP请求样本组成。其中，它包含如SQL注入、文件披露、信息收集、跨站脚本、参数窜改、非法用户行为等多种攻击类型。它主要用于测试网络攻击保护系统，是恶意请求检测领域被广泛使用的通用数据集。但是此数据集的标签只有正常和攻击两种类型，并且样本中攻击载荷的位置只出现在HTTP的URL部分和Body部分，使用此数据集无法验证本实施例的数据输入选择对防止攻击载荷遗漏的有效性，也不能体现GePM模型对多攻击位置数据的信息提取能力与语料库词典缩小能力，所以还需要一个多类型，多攻击位置的数据集。

Individual Dataset是本实施例使用Metasploiable2 Linux靶机和KaliLinux2021.1攻击机模拟真实环境，通过对Web应用程序进行正常使用和发起攻击而制作的数据集。此数据集共有5种类型的标签，分别是正常(Normal)、注入攻击(Injection)、跨站脚本攻击(XSS，Cross Site Scripting)、信息泄露攻击(DE，Data Exposure)、远程命令执行攻击(RCE，remote command/code execute)。并且此数据集中包含多种攻击位置的请求样本，不仅有攻击载荷出现在URL和Body的数据，另外还有攻击载荷出现HTTP请求头位置的数据。

在本实施例中，将分别使用这两个数据集的数据进行实验。首先将数据集中的数据进行随机打乱，对数据集进行6:2:2比例切分，分别划分为训练集、验证集、测试集三个子集。训练集用来训练模型，验证集用来选择最优模型，测试集用来测试最优模型的分类效果。

评价指标使用攻击检测领域中常用的几个评价指标进行量化分析，分别是：准确率(Accuracy)、F1分数(F1 Score)、真阳性率(True Positive Rate，TPR)。其中真阳性率体现了模型对异常攻击的检测能力，TPR越高说明检测到的真实攻击越多，漏报的真实攻击越少，进而说明入侵检测效果越好。

各评价指标的计算如公式(20)-(25)所示，公式中的TP、TN、FP、FN分别代表了真阳性、真阴性、假阳性、假阴性四种情况，Precision为精确率，Pecll召回率，FPR为假阳性率。如果分类任务是二分类任务，那么设置异常类型为阳性，正常类型为阴性；如果分类任务是多分类任务，即有一种正常类型和多种异常类型，那么分别取其中一种异常类型作为阳性，其余类型作为阴性。对各组数据进行分别计算，得到多组攻击类型分别为阳性情况下的评价指标。其中，本实施例采用的总体准确率是针对各攻击类型为阳性情况下的准确率的平均值。

在本实施例中，嵌入矩阵中每个词嵌入向量的维度D设置为64，单词量N由确定数据集的生成的语料库词典决定。记忆分析模块使用了两个BiLSTM神经网络模型和一个第一全连接层，BiLSTM中设置的维度是16，经过双向循环计算后输出的维度是32，全连接层输出的维度是16，最终记忆分析模块的输出维度是16。聚焦处理模块使用了两个多头注意力层，其中设置每个子层的输出维度d_model为64，注意力头的数量为8，全连接前馈网络子层共两层，第一层输出维度是16，第二层输出维度是64，最终聚焦处理模块的输出维度是64。在融合计算模块中，第二全连接层的维度设置16，使用relu激活函数；第三全连接层的维度设置为类型数c，使用softmax激活函数。

本实施例使用的优化方法为Adam，设置一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.98，系数∈＝1*10^-9。使用了一个自定义的学习速率配合使用，自定义学习速率lr如公式(26)所示，其中，耐心系数warmup_steps＝4000，step_num为梯度下降的步数。

在一些对比例中，还采用了其他模型代替MFPNN模型进行攻击检测，例如全连接神经网络模型(FCNN)、卷积神经网络模型(CNN)、使用长短时记忆的循环神经网络模型(LSTM)、使用门控循环单元的循环神经网络模型(GRU)、卷积神经网络与LSTM网络的混合模型(CNN-LSTM)、卷积神经网络与GRU网络的混合模型(CNN-GRU)。

另外，还采用了其他模型代替GePM模型对请求文本进行预处理，例如采用URL作为输入数据，使用字符级词嵌入向量作为特征表示，以下称URL_CHAR模型；采用URL作为输入数据，使用单词级词嵌入向量作为特征表示，以下称URL_WORD模型。

分析上述各个模型的攻击检测能力，表4即为MFPNN模型与其他模型在HTTPDATASET CSIC 2010上的实验结果，从表4中可以看出,URL_WORD+MFPNN的组合方法总体准确率最高，为99.53％，攻击类型的真阳性率99.68％，F1分数99.09％。另外还可知道URL_WORD+MFPNN正常类型的真阳性率99.47％要略低于URL_CHAR+GRU的99.67％，但是URL_WORD+MFPNN对攻击类型的真阳性率99.68％却远高于URL_CHAR+GRU的90.64％，甚至与其他方法相比拉开了不小的差距。这是因为URL_CHAR+GRU方法更倾向于分析并判别正常类型而不是攻击类型数据，而MFPNN在记忆分析模块对信息记忆分析处理提高模型整体的准确率的同时，聚集处理模块也倾向于聚焦处理数据中的异常部分，所以对攻击类型的真阳性率要远大于其他方法,同时拥有较高的整体准确率。

表4 HTTP DATASET CSIC 2010上不同模型的比较

表5为本实施例对MFPNN模型在Individual Dataset上使用不同的预处理模型的实验结果。从表5可以看出，MFPNN模型使用GePM模型的分类结果最好，总体准确率为98.58％，其中对应的语料库中有1756个单词。URL_WORD次之,总体准确率为95.42％，对应的语料库有6454个单词。URL_CHAR最差，总体准确率为95.31％，对应的语料库有99个单词。这是由于GePM模型采用HTTP请求文本作为数据输入，包含了所有可能会出现攻击载荷位置的数据，增加了输入的原始信息量,避免了遗漏攻击载荷的情况。同时GePM模型能够很好的对数据进行去冗余和信息提取，留存足够的有效信息供模型进行特征提取，模型能够提取出更优质的特征助于模型分类，进而提高模型的准确率和真阳性率。除此之外，GePM模型相比较URL_WORD模型，也缩小了语料库词典的大小，减小了空间存储成本。

表5 Individual Dataset不同预处理方法的比较

表6为在Individual Dataset上本实施例提出的基于HTTP请求文本的Web攻击检测方法与其他各类方法进行的实验对比结果。由表6可得，本实施例提出使用GePM模型进行数据预处理和使用MFPNN模型进行分类的Web攻击检测方法在Individual Dataset上的总体准确率为98.58％，注入攻击类型的真阳性率为97.69％，F1分数为95.17％，跨站脚本攻击类型的真阳性率为96.32％，F1分数为97.98％，数据泄露攻击类型的真阳性率为99.58％，F1分数为97.84％，远程命令执行攻击类型的真阳性率为88.18％，F1分数为92.43％。

表6 Individual Dataset上不同模型的比较

表6还表明GePM+MFPNN方法与其他方法相比，在检测攻击类型的真阳性率上提高得最多。这是因为有很多攻击样本的攻击载荷出现在HTTP请求文本的请求头位置，而使用URL作为输入数据的方法漏掉了这些攻击载荷，无法检测出这些攻击。但GePM模型使用HTTP请求文本作为输入数据能够避免遗漏，确保输入所有攻击载荷，增加了对这些攻击检测成功的几率。另外，MFPNN模型的聚焦处理能力也是提高攻击类型真阳性率的一个原因。

本实施例综合考虑了当前Web攻击检测研究工作的重点和难点问题，主要着手解决下面两个关键性问题：第一，确保能够留存足够有效信息的情况下，选取HTTP请求文本作为输入数据，使用GePM模型进行数据预处理生成编码向量，有效地减少语料库词典大小；第二，为了提高模型的信息记忆能力和聚焦处理能力，使用BiLSTM神经网络模型与多头注意力机制相结合的MFPNN模型来进行信息处理和聚焦分析，计算分类结果，最终迅速地确定Web攻击类型，有效地提高了检测的准确率，极大地提升了识别攻击数据的准确率和真阳性率。实验结果表明，本实施例提出的GePM模型具有良好的信息提取能力和语料库词典缩减能力，MFPNN模型具有较强的信息记忆能力和聚焦处理能力，在Individual Dataset上相比URL_WORD+GRU方法，Web攻击检测准确率从95.54％提升至98.58％，其中检测XSS攻击的真阳性率从81.03％提升至96.32％。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种基于HTTP请求文本的Web攻击检测装置，参考图7，包括：

获取模块701，被配置为获取网络流量中的HTTP请求文本；

预处理模块702，被配置为对所述HTTP请求文本进行预处理，以生成编码向量；

检测模块703，被配置为利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将BiLSTM神经网络模型与多头注意力机制结合而构建的；

分类模块704，被配置为基于所述预测向量进行计算，得到Web攻击的分类结果。

为了描述的方便，描述以上系统时以功能分为各种模块分别描述。当然，在实施本公开一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的系统用于实现前述实施例中相应的方法，并且具有相应的基于HTTP请求文本的Web攻击检测方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并由所述处理器运行的计算机程序，所述处理器在执行所述计算机程序时实现上任意一实施例所述的基于HTTP请求文本的Web攻击检测方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于HTTP请求文本的Web攻击检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于HTTP请求文本的Web攻击检测方法，包括：

获取网络流量中完整的HTTP请求文本；

对所述完整的HTTP请求文本进行预处理，以生成编码向量；

利用预先训练好的记忆聚焦处理神经网络MFPNN模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将双向长短期记忆BiLSTM神经网络模型与多头注意力机制结合而构建的，包括嵌入矩阵、记忆分析模块、聚焦处理模块以及融合计算模块，所述记忆分析模块包括依次串联的多个BiLSTM神经网络模型和第一全连接层；所述聚焦处理模块包括依次串联的多个多头注意力层和一个Reshape层；

基于所述预测向量进行计算，得到Web攻击的分类结果；

其中，所述利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到所述预测向量，包括：通过所述嵌入矩阵，将所述编码向量变换成相同的第一词嵌入向量矩阵和第二词嵌入向量矩阵；将所述第一词嵌入向量矩阵输入所述记忆分析模块，以得到第一特征向量；将所述第二词嵌入向量矩阵加上he位置编码后输入所述聚焦处理模块，以得到第二特征向量；将所述第一特征向量和所述第二特征向量输入所述融合计算模块，以得到所述预测向量。

2.根据权利要求1所述的方法，其中，所述对所述完整的HTTP请求文本进行预处理，以生成编码向量，包括：

基于语料库词典，按照预处理规则对所述完整的HTTP请求文本进行预处理，以生成整数编码向量，其中，所述语料库词典包括专家词典、通用高频词典、数据集高频词典、特殊字符和占位符。

3.根据权利要求2所述的方法，其中，所述基于语料库词典，按照预处理规则对所述完整的HTTP请求文本进行预处理，以生成整数编码向量，包括：

对所述完整的HTTP请求文本进行统一资源定位符URL解码，以获得普通文本；

通过使用所述语料库词典中的特殊字符作为分隔符，对所述普通文本进行分词处理；

基于所述语料库词典和所述预处理规则，对经过分词处理的所述普通文本进行关键词处理，以生成预设长度的关键词文本；

通过将所述关键词文本中的每个关键词替换为所述语料库词典中与该关键词相应的数值，生成所述整数编码向量。

4.根据权利要求2或3所述的方法，其中，所述嵌入矩阵是基于word2vec模型而获得的；所述融合计算模块包括级联的第二全连接层和第三全连接层。

5.根据权利要求4所述的方法，其中，每个所述多头注意力层包括多头注意力子层和全连接前馈网络子层，所述多头注意力子层和所述全连接前馈网络子层各自的周围使用残差连接。

6.根据权利要求1至3中任一项所述的方法，其中，所述基于所述预测向量进行计算包括：基于所述预测向量，利用argmax函数进行计算。

7.根据权利要求1至3中任一项所述的方法，其中，所述MFPNN模型是预先使用交叉熵损失函数训练的。

8.一种基于HTTP请求文本的Web攻击检测装置，包括：

获取模块，被配置为获取网络流量中完整的HTTP请求文本；

预处理模块，被配置为对所述完整的HTTP请求文本进行预处理，以生成编码向量；

检测模块，被配置为利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到预测向量，其中，所述MFPNN模型是通过将BiLSTM神经网络模型与多头注意力机制结合而构建的，包括嵌入矩阵、记忆分析模块、聚焦处理模块以及融合计算模块，所述记忆分析模块包括依次串联的多个BiLSTM神经网络模型和第一全连接层；所述聚焦处理模块包括依次串联的多个多头注意力层和一个Reshape层；所述利用预先训练好的MFPNN模型，对所述编码向量进行检测，以得到所述预测向量，包括：通过所述嵌入矩阵，将所述编码向量变换成相同的第一词嵌入向量矩阵和第二词嵌入向量矩阵；将所述第一词嵌入向量矩阵输入所述记忆分析模块，以得到第一特征向量；将所述第二词嵌入向量矩阵加上位置编码后输入所述聚焦处理模块，以得到第二特征向量；将所述第一特征向量和所述第二特征向量输入所述融合计算模块，以得到所述预测向量；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1至7中任意一项所述的方法。