CN113343235B

CN113343235B - 基于Transformer的应用层恶意有效负载检测方法、系统、设备及介质

Info

Publication number: CN113343235B
Application number: CN202110670903.0A
Authority: CN
Inventors: 黄惟; 康占英; 马小龙; 王菡; 赵颖; 王心远; 胡坤霖
Original assignee: Changsha Zhiwei Information Technology Co ltd
Current assignee: Changsha Zhiwei Information Technology Co ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-05-17
Anticipated expiration: 2041-06-17
Also published as: CN113343235A

Abstract

本发明公开了一种基于Transformer的应用层恶意有效负载检测方法、系统、设备及介质，其方法为：构建应用层用户请求样本集，每个样本包括一条应用层用户请求及其恶意有效负载信息，恶意有效负载信息包括一组或多组具体恶意有效负载及其类别；对样本集进行数据预处理得到用户请求及各词元的类别真实标签；使用预处理后的样本集训练预先构建的基于Transformer的深度神经网络模型；使用训练得到的模型对待检测的应用层用户请求中的各词元，预测其恶意有效负载类别；最终合并连续且相同类别的词元，确定用户请求中的恶意有效负载信息。本发明能够准确有效地对应用层用户请求中的恶意有效负载信息进行检测。

Description

基于Transformer的应用层恶意有效负载检测方法、系统、设备及介质

技术领域

本发明属于计算机信息处理技术领域，涉及到一种基于Transformer的应用层恶意有效负载检测方法及系统。。

背景技术

随着移动互联网的快速发展，线上服务成为国民青睐的服务方式，如网上政务、远程问诊、电子商务等网络应用服务使国民生活日益便捷。网络服务蓬勃发展的同时，安全问题不容小觑。自2020年至今，个人隐私、商业机密、知识产权等数据泄露安全事件频发。攻击者通过构造应用层恶意请求对网络应用进行攻击，以获取应用服务器的控制权及其中的用户数据，进而谋取不正当利益。

恶意有效负载是网络攻击中对受害者造成危害的攻击关键组成部分。网络攻击者常构造诸如SQL注入、XSS攻击、Web Shell等恶意有效负载，将其藏匿于请求报文中形成应用层恶意请求，发送给应用服务器。如果应用服务器未识别出恶意请求，使得恶意有效负载执行，将危害应用服务的可用性及用户数据的安全性。

目前工业界的网络安全解决方案提供商主要采用安全规则集匹配进行应用层恶意有效负载检测。安全从业人员通过分析历史恶意请求流量的攻击行为，提取各攻击类型的有效负载，进一步构造攻击特征匹配表达式，最终构建形成安全规则集。当应用层用户请求到达后，使用所配置的安全规则集进行特征匹配。若请求中的文本片段匹配上某攻击的规则，则该片段为对应攻击的恶意有效负载。但是，基于安全规则集的应用层恶意有效负载检测，存在攻击规则的构建极度依赖专家知识、维护和更新的工作量大、对于未知类型攻击负载没有检测能力等问题。

在最新的研究中，安全研究人员将图像目标检测方法应用到恶意有效负载检测领域，初步取得成效。但是，这些方法使用了许多手工制定的组件，如锚点生成器、基于规则的训练目标分配、非极大值抑制后处理，严重依赖于专家经验与知识，致使最终模型不是完全的端到端模型。此外，将图像目标检测方法应用到有效负载检测领域仍存在多种问题。比如，图像数据中每个像素点与邻近像素点的数值相关性强，而请求报文中每个词元与邻近词元的数值差异大。若使用图像目标检测的特征提取方法(多层卷积与池化操作)将丢失大量细节信息，最终导致模型不收敛。

因此，针对现有方法存在的不足，有必要设计一种端到端的应用层恶意有效负载检测方法，检测能力优秀。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提出一种基于Transformer的应用层恶意有效负载检测方法及系统，模型简单统一，检测能力优秀。

为实现上述技术目的，本发明采用如下技术方案：

一种基于Transformer的应用层恶意有效负载检测方法，包括以下步骤：

步骤1、构建应用层用户请求样本集D，其中每个样本d_i包括一条应用层用户请求x_i及其恶意有效负载信息，恶意有效负载信息包括一组或多组具体恶意有效负载p_ij及其类别y_ij；下标i用于区别不同的应用层用户请求，下标j用于区别不同类别的恶意有效负载；

步骤2、将D中应用层用户请求样本d_i进行数据预处理，得到由若干词元

组成的用户请求

及与各词元的类别真实标签

下标中的l用于区别不同的词元；

步骤3、将数据预处理后应用层用户请求样本集中的

输入预先构建的基于Transformer的深度神经网络模型M，计算得到各词元

的类别预测概率a_il；

步骤4、将各词元

的真实类别标签

和预测类别概率a_il代入损失函数L计算模型损失值，根据优化算法更新模型M中的可训练参数；

步骤5、重复步骤3～步骤4，直到满足模型训练结束条件，得到训练好的模型

步骤6、对于待检测的应用层用户请求x′，先进行数据预处理得到结果

再将

输入训练好的模型

计算得到各词元的类别预测概率a，进而得到各词元的类别预测结果；

步骤7、将待检测的应用层用户请求x′中连续的具有相同类别预测结果的词元合并，合并形成的一组或多组片段即为该请求x′的恶意有效负载信息。

进一步地，所述步骤2中，对应用层用户请求的数据预处理包括以下步骤：

步骤2.1，对应用层用户请求进行数据清洗，清洗方法为：先对用户请求进行深度包检测得到请求报文；再进行解码、删除错误及重复数据、填充缺失值操作；

步骤2.2：对清洗后的请求报文进行文本编码，编码方法为：先以字符为单位对请求报文进行分词；依次处理各词元，处理过程为先计算该词元的ASCII值，记该词元的ASCII值为k，再构建总维数为k且第k维值为1、其余维值为0的向量，最后将x_i中该词元替换为该向量；x_i的所有词元处理完后，得到预处理后的用户请求

步骤2.3：对应用层用户请求x_i的恶意有效负载信息进行标签处理，处理方法为：先创建维数为x_i总字符长度的零向量

再依次处理具体恶意有效负载p_ij：在x_i中查找p_ij获得恶意有效负载p_ij的起始字符位置s及终止字符位置e，将

中第s位到第e位的数值修改为y_ij；最终得到预处理后各词元的类别真实标签

进一步地，在将D中应用层用户请求样本d_i进行数据预处理，得到数据预处理后应用层用户请求样本集

之后，先对样本集

进行数据采样得到类别平衡的样本集

再使用样本集

中的用户请求

作为步骤3训练模型M的输入数据；所述对样本集

进行数据采样包括以下步骤：

步骤A1：确定样本数量阈值t，进而将样本总量小于t的负载类别判定为少数类，将样本总量大于等于t的负载类别判定为多数类；

步骤A2：确定各负载类别的目标采样数N；

步骤A3：对于多数类的负载类别，采用随机欠采样方法进行数据采样，每个多数类的负载类别均保留N个样本；

步骤A4：对于少数类的负载类别，采用基于生成规则的过采样方法进行数据采样，每个少数类的负载类别均包括N个样本。

进一步地，所述采用基于生成规则的过采样方法进行数据采样的方法具体包括：

步骤A4.1：构建该少数类的负载集合S，其中每个元素为具体恶意有效负载；

步骤A4.2：设定词元替换概率数组p，其中每个元素为词元被替换的概率p_i；

步骤A4.3：构建待选词元集合G，其包含大小写字符、数字及标点符号；

步骤A4.4：计算p中每个元素需生成的样本数n，n=N/len(p)；

步骤A4.5：选取遍历p中元素p_i，从s中随机选取负载s；对于s中的每个字符，以概率p_i替换为G中随机选取的字符，形成新负载s′；计算s′各字符的ASCII值记为k’，构建维数为128且第k′值维为1、其余维为0的向量，替换s对应的预处理后的用户请求

中的负载s各词元向量，类别真实标签

保持不变，进而生成新样本；直至元素p_i生成的样本数达到n；

步骤A4.6：重复步骤A4.5，直至遍历完词元替换概率数组p中元素。

进一步地，所述基于Transformer的深度神经网络模型M依次包含词元嵌入层、位置编码层、k个Transformer编码器块、全连接层及Softmax层，每个Transformer编码器块均依次包括受限多头自注意层、层归一化层、全连接层、层归一化层。

进一步地，步骤3中，深度神经网络模型M计算各词元

的类别预测概率a_il包括以下步骤：

步骤3.1，使用词元嵌入层对

进行词元嵌入，降低维度，得到大小为(L,d)的矩阵O_i；其中，L为

的词元总数，d为嵌入维度；

步骤3.2，使用位置编码层对O_i进行位置信息编码，得到大小为(L,d)的矩阵P_i；

步骤3.3，使用k个串联的Transformer编码器块对P_i进行特征提取，得到大小为(L，d)的矩阵Y′；其中，单个Transformer编码器块中的受限多头自注意层的计算过程为：

MultiHeadAttn(Q，K，V)＝Concat(head₁，...，head_h，...，head_H)W^O

其中

其中，MultiHeadAttn(Q，K，V)是受限多头自注意层的计算结果，为大小为(L，d)的矩阵，作为下一层归一化层的输入；Q，K，V为多头自注意层的输入参数Query，Key，Value，Q＝K＝V且均为其Transformer块的输入，第1个Transformer块的输入是矩阵P_i，后续Transformer块的输入是前一个Transformer块的输出，矩阵大小都为(L，d)；Concat(·)将多个单头自注意结果拼接成大小为(L，d)的矩阵；W^O为大小为(d，d)的权重矩阵；head_h表示第h个头的注意力结果；H表示头的总数；

代表headh计算过程中的权重矩阵，大小为(d，d/H)；Q′为原始的查询矩阵，

代表第h个头的Query矩阵，大小为(L，d/H)；l′表示计算单个词元受限注意力值时，所需要的周围词元的长度，l′为自定义值，l′＜L；K′_l′ ^T代表第h个头的Key矩阵(即

)中以当前计算词元为中心、长度为l′的子矩阵的转置，大小为(d/H，l′)；V_l，代表第h个头的Value矩阵(即

)中以当前计算词元为中心，长度为l′的子矩阵，大小为(l′，d/H)；

步骤3.4，使用全连接层提取矩阵Y′的泛化特征：Y″＝ReLU(y′W″′+b″′)；其中，ReLU(·)为ReLU激活函数；y′为Y′的单个词元向量，大小为(1，d)；W″′为权重矩阵，大小为(d，C+1)，C为恶意有效负载总类别数，1代表正常负载类别，C+1即为总类别数；对Y′中各词元向量进行逐位置全连接后，得到大小为(L，C+1)的输出矩阵Y″；

步骤3.5，使用Softmax操作计算各词元为C+1个类别的概率，最终得到应用层用户请求x_i对应的各词元类别概率矩阵a_i；其中，a_i为大小为(L，C+1)的矩阵。

进一步地，训练模型M的损失函数Loss为：

式中，N代表训练批次的样本数量；L代表输入单条应用层用户请求的总字符长度；C代表恶意有效负载类别总数；

为指示函数，当

时，函数输出为1，否则为0；

代表第i个用户请求第l个词元的真实类别；a_ilj代表第i个用户请求第l个词元为j类别的预测概率；j＝0代表正常负载类别。

一种基于Transformer的应用层恶意有效负载检测系统，包括：

样本集构建模块，用于：构建应用层用户请求样本集D，其中每个样本d_i包括一条应用层用户请求x_i及其恶意有效负载信息，恶意有效负载信息包括一组或多组具体恶意有效负载p_ik及其类别y_ij；下标i用于区别不同的应用层用户请求，下标j用于区别不同类别的恶意有效负载；

数据预处理模块，用于：将D中应用层用户请求样本d_i进行数据预处理，得到由若干词元

组成的用户请求

及与各词元的类别真实标签

下标中的l用于区别不同的词元；

检测模型训练模块，用于：将数据预处理后应用层用户请求样本集中的

的类别预测概率a_il；并将各词元

的真实类别标签

和预测类别概率a_il代入损失函数Loss计算模型损失值，根据优化算法更新模型M中的可训练参数；

检测模块，用于：对于待检测的应用层用户请求x′，先进行数据预处理得到结果

再将

输入训练好的模型

计算得到各词元的类别预测概率a，进而得到各词元的类别预测结果；并将待检测的应用层用户请求x′中连续的具有相同类别预测结果的词元合并，合并形成的一组或多组片段即为该请求x′的恶意有效负载信息。

一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

有益效果：本发明提供一种基于Transformer的应用层恶意有效负载检测方法及系统，为应用层恶意有效负载检测提供较为完整的解决方案，可应用于网络安全领域。该方法着眼于应用层恶意有效负载检测场景，针对现有方法存在许多手工制定组件、现有的图像目标检测方法不能直接迁移到文本有效负载检测场景的问题，利用恶意攻击负载往往不存在重叠的特点，将负载检测问题转化为词元多分类问题，进而提出了一种基于Transformer的应用层恶意有效负载检测方法，用于应用层恶意有效负载检测与模式挖掘。该方法首先将应用层用户请求及其恶意有效负载信息通过数据预处理转化为计算机可处理的数值形式；其次对于训练数据集中的多数类样本进行欠采样、少数类样本进行过采样；接着根据应用层恶意有效负载检测的数据特征与模型目标，构建基于Transformer的度神经网络模型；然后构建损失函数，使用训练数据集并结合优化算法优化模型参数；最终即可使用参数优化后的模型对待检测的应用层用户请求x′中的恶意有效负载信息进行检测提取。本发明将恶意有效负载检测问题转化为词元多分类问题，利用基于受限多头自注意的Transformer编码器作为特征提取器，构建端到端的负载检测模型，具有收敛快、负载检测准确、简单且统一的优点。

附图说明

图1是本发明实施例中基于Transformer的应用层恶意有效负载检测的流程示意图；

图2是本发明实施例中带有恶意有效负载信息的应用层用户请求的JSON形式实例。

具体实施方式

为使本发明的目的、设计思路及优点更加清楚，以下结合应用层恶意有效负载检测的具体实施例，并参照附图，对本发明做进一步详细说明。

实施例1：

如附图1所示，本实施例公开了一种基于Transformer的应用层恶意有效负载检测方法，其实施应用层恶意有效负载检测包含2个阶段，分别是构建阶段和检测阶段。构建阶段首先对带有恶意有效负载信息的应用层用户请求进行数据预处理，再构建并训练基于Transformer的应用层恶意有效负载检测模型；检测阶段首先对待检测的应用层用户请求进行数据预处理，再使用训练好的模型进行恶意有效负载检测。下面，将对上述2个阶段进行详细说明：

一、构建阶段

1、数据获取与标记

通过企业合作、实验模拟等方式获取应用层用户请求数据，并使用人工打标或其他方式对用户请求中的恶意有效负载信息进行标记，构建应用层用户请求样本集D，其中每个样本d_i包括一条应用层用户请求x_i及其恶意有效负载信息，恶意有效负载信息包括一组或多组具体恶意有效负载p_ij及其类别y_ij。附图2为包含一组RFI恶意有效负载的应用层用户请求数据样本实例，其中request表示应用层用户请求x_i；payloads包含恶意有效负载信息，payload表示具体恶意有效负载p_ij，label表示恶意有效负载类别y_ij。

2、数据预处理

应用层用户请求存在数据编码、重复、缺失等问题；应用层用户请求为文本形式，不能被计算机直接处理。此外，将恶意有效负载检测问题转化为词元多分类问题，因此需要将应用层用户请求的恶意有效负载信息转化为应用层用户请求中各词元的类别标签。因此，本实施例对应用层用户请求x_i及其恶意有效负载信息进行数据预处理，主要包括数据清洗、文本编码和标签处理3个过程。

2.1数据清洗

应用层用户请求数据清洗过程主要包括解析和清洗两个部分。首先对用户请求进行深度包检测，解析得到请求报文信息，其中请求报文包含请求行、请求头、请求体三部分；其次，请求行中查询字符串存在URL编码、请求体数据存在Base64编码；应用层用户请求数据集中存在大量错误或重复数据、字段缺失数据，因此需要对其进行解码、删除错误及重复数据、填充缺失值操作。

2.2文本编码

应用层用户请求为半结构化文本形式，需要转化为能被计算机处理的数值形式。应用层用户请求数据文本编码过程主要包括分词和编码两个部分。首先，以字符为单位对请求报文进行分词；依次处理各词元，处理过程为先计算该词元的ASCII值，再构建维数为128且第ASCII值维为1、其余维为0的向量，最后将x_i中该词元替换为该向量；x_i的所有词元处理完后，得到预处理后的用户请求

其中，128对应ASCII码包含的总字符数。

2.3标签处理

本实施例将恶意有效负载检测问题转化为词元多分类问题，因此需要将应用层用户请求的恶意有效负载信息转化为应用层用户请求中各词元的类别标签。值得注意的是，虽然一个应用层用户请求可能多组具体恶意有效负载p_ij及其类别y_ij，但是多组负载p_ij不存在重叠的情况，即应用层用户请求中各词元只属于一种恶意有效负载类别或者为正常负载类别。如果某词元对应类别标签为0，表示该词元为正常负载类别。

标签处理方法为：先创建维数为应用层用户请求x_i总字符长度的零向量

再依次处理具体恶意有效负载p_ij：在x_i中查找p_ij获得负载起始字符位置s及终止字符位置e，将

中第s位到第e位数值修改为y_ij；最终得到预处理后各词元的类别真实标签

3.构建训练集及测试集

本实施例中将数据预处理后应用层用户请求样本集

按照样本比例p划分为训练集

和测试集

对于后续的基于Transformer的应用层恶意有效负载检测模型，使用训练集优化模型参数，使用测试集评估模型检测性能。需要说明的是，本发明只需要其中的训练集即可实现完整技术方案，本实施例取其中部分样本构建测试集

仅用于对训练得到的模型评估其性能。此外，训练集中不同恶意有效负载类别的样本往往存在严重的数据不平衡现象。表1展示了实施例所使用的应用层用户请求样本集，其中WebShell负载的样本数量是扫描器负载的150倍。这会导致检测模型偏向于学习多数类的特征，而忽略了少数类特征。因此，本实施例为保证最终训练集数据平衡，需要对多数类欠采样，对少数类过采样。

表1某政府门户网站2020年12月应用层恶意请求及其负载信息的统计表

3.1数据集划分

将数据预处理后应用层用户请求样本集

按照样本比例p划分为训练集

和测试集

本实施例中

3.2数据采样

对训练集

进行数据采样，构建得到类别平衡的训练集

包括以下步骤：

步骤3.1：确定样本数量阈值t，进而将样本总量小于t的负载类别判定为少数类，将样本总量大于等于t的负载类别判定为多数类；本实施例中t=40,000；

步骤3.2：确定各负载类别的目标采样数N；本实施例中N=40,000；

步骤3.3：对于多数类的负载类别，采用随机欠采样方法，各负载类别保留N个样本；

步骤3.4：对于少数类的负载类别，采用基于生成规则的过采样，过采样方法为：

步骤3.4.1：构建该少数类的负载集合s，其中每个元素为具体恶意有效负载；

步骤3.4.2：设定词元替换概率数组p，其中每个元素为词元被替换的概率p_i；本实施例中p=[0,0.05,0.10,0.20]；

步骤3.4.3：构建待选词元集合G，其包含大小写字符、数字及标点符号；

步骤3.4.4：计算p中每个元素需生成的样本数n，n=N/len(P)；

步骤3.4.5：选取遍历P中元素p_i，从S中随机选取负载s；对于s中的每个字符，以概率p_i替换为G中随机选取的字符，形成新负载s′；计算s′各字符的ASCII值，构建维数为128且第ASCII值维为1、其余维为0的向量，替换s对应的预处理后的用户请求

中的负载s各词元向量，类别真实标签

保持不行，进而生成新样本；直至元素p_i生成的样本数达到n；

步骤3.4.6：重复步骤3.4.5，直至遍历完词元替换概率数组P中元素，最终构建得到类别平衡的训练集

4、模型构建

Transformer模型是一种完全基于注意力机制的模型，它完全摒弃了循环和卷积结构，能够并行跨距离地学习输入数据的全局特征，是目前自然语言处理领域最主流的特征提取器。因此，本发明利用Transformer构建深度神经网络模型进行恶意有效负载检测。

Transformer模型是编码器—解码器结构的，用于提取输入与输出特征向量的全局特征关系。模型的编码器、解码器以及整个编码器—解码器结构都可以作为特征提取块，比如BERT模型使用双向Transformer编码器构建模型主体，以遮蔽语言模型(Masked LM)和后继句子预测为目标，训练语言模型，充分提取大规模语料数据中潜在的语言关系，在下游的机器问答、语言推理等任务中表现出色；GPT模型使用Transformer解码器构建模型主体，使用语料无监督地训练生成式语言模型，在下游的语义相似性评估、文档分类等任务中微调模型，取得显著效果。大量研究工作表明，Transformer中编码器更利于并行地提取输入文本特征向量中单个词元与全局的特征关系，解码器通过依次遮蔽输入文本中当前词元的后续所有内容，提取未遮蔽文本的全局关系。针对恶意有效负载检测场景，输入的是完整的恶意请求流量，采用编码器结构能直接并行地提取有效负载中词元的相互关系，采用解码器结构则会错误地建立流量中有效负载与未遮蔽词元之间的相互关系而学习到噪声信息，因此使用Transformer编码器块作为特征提取块的基本结构。

基于Transformer的深度神经网络模型M依次包含词元嵌入层、位置编码层、k个Transformer编码器块、全连接层及Softmax层。Transformer编码器块依次包含多头自注意层、层归一化层、全连接层及层归一化层；其中多头自注意层采用受限多头自注意层。原始的Transformer编码器块中使用的是全连接多头自注意机制，它会将输入流量中单个词元与所有的全部词元作相关操作。假设输入请求的长度为L，单个词元的向量维数为d，多头数为h，则单次全连接多头自注意的计算复杂度为O(2Ld²+L²d)。在恶意有效负载检测场景中，绝大多数的攻击负载长度并没有接近整个请求长度。在本实施例统计中，真实情况下攻击负载长度的中位数是23个字符，其与整个请求长度(L=1000)相距甚远，因此，本发明使用受限多头自注意层代替全连接多头自注意层，以减少不必要的关联计算。受限多头自注意层指对于当前词元仅关注周围一部分的关键词元以计算注意力值，而与整个输入文本的长度无关。通过为每个查询分配少量固定的键，可以有效减少不必要的计算，进而缓解Transformer编码器收敛慢的问题。

检测模型的输入向量为训练集中数据预处理后的应用层用户请求

其为大小为(L,128)的矩阵，本实施例中L=1000。检测模型的计算过程包括以下步骤：

步骤4.1：使用词元嵌入层对

进行词元嵌入，降低维度。首先，使用[-1,1]的均匀分布随机初始化大小为(128,d)的嵌入矩阵U，其中d＜128，本实施例中d=64；接着，将

与U进行矩阵乘法，得到词元嵌入后大小为(L,d)的矩阵O_i；

步骤4.2：使用位置编码层对O_i进行位置信息编码。首先，使用标准正态分布随机初始化大小为(L,d)的位置矩阵V；接着，将O_i与V进行矩阵加法，得到位置编码后大小为(L,d)的矩阵P_i；

步骤4.3：使用k个串联的Transformer编码器块对P_i进行特征提取，本实施例中k=6。如附图1中检测模型的Transformer编码器块所示，每个Transformer编码器块依次包括受限多头自注意层、层归一化层、全连接层、层归一化层4部分。单个Transformer编码器块的具体计算如下：

1)受限多头自注意层的计算过程为：

MultiHeadAttn(Q，K，V)＝Concat(head₁，...，head_h，...，head_H)W^O

其中

其中，MultiHeadAttn(Q，K，V)是受限多头自注意层的计算结果，为大小为(L，d)的矩阵；Q、K、V为多头自注意层的输入参数Query、Key、Value，Q＝K＝V且均为其Transformer块的输入，第1个Transformer块的输入是矩阵P_i，后续Transformer块的输入是前一个Transformer块的输入的输出，矩阵大小都为(L，d)；Concat(·)将多个单头自注意结果拼接成大小为(L，d)的矩阵；W^O为大小为(d，d)的权重矩阵；head_h表示第h个头的注意力结果；H表示头的总数；

代表head_h计算过程中的权重矩阵，大小为(d，d/H)；Q′为原始的查询矩阵，

)中以当前计算词元为中心、长度为l′的子矩阵的转置，大小为(d/H，l′)；V_l′代表第h个头的Value矩阵(即

)中以当前计算词元为中心，长度为l′的子矩阵，大小为(l′，d/H)。因此，head_h的计算结果为大小为(L，d/H)的矩阵，MultiHeadAttn(Q，K，V)的计算结果为大小为(L，d)的矩阵。受限多头自注意层的计算复杂度为O(2Ld²+min(L²d，Ll′d))。当l′＝L时，退化为全连接多头自注意层。一般情况下，要求设定l′＜L。在本实施例中，l′＝25，可有效减少模型的计算复杂度。

2)层归一化层的计算过程为：S＝LayerNormalization(X+R)。其中，X为Transformer块的输入；R为Transformer块的输出，R＝MultiHeadAttn(Q，K，V)；LayerNormalization(·)为层归一化函数；输出结果S为大小为(L，d)的矩阵。

3)逐位置全连接层的计算过程为：T＝ReLU(sW′+b′)W″+b″。其中，ReLU(·)为ReLU激活函数；s为S的单个词元向量，大小为(1，d)；W′、W″为权重矩阵，大小为(d，d)；b′、b″为偏置；对S中各词元向量进行逐位置全连接后，得到大小为(L，d)的输出矩阵T。

4)层归一化层的计算公式为：Y＝LayerNormalization(S+T)。其中，LayerNormalization(·)为层归一化函数；输出结果Y为大小为(L，d)的矩阵。

最终，位置编码后的矩阵P_i经过k各Transformer编码块计算得到大小为(L，d)的矩阵Y′。

步骤4.4：使用逐位置全连接层进一步提取Y′的泛化特征，Y″＝ReLU(y′W″′+b″′)。其中，ReLU(·)为ReLU激活函数；y′为Y′的单个词元向量，大小为(1，d)；W″′为权重矩阵，大小为(d，C+1)，C为恶意有效负载总类别数，1代表正常负载类别，C+1即为总类别数；对Y′中各词元向量进行逐位置全连接后，得到大小为(L，C+1)的输出矩阵Y″。

步骤4.5：使用Softmax操作计算各词元为C+1个类别的概率，最终得到应用层用户请求x_i对应的各词元类别概率矩阵a_i。其中，a_i为大小为(L，C+1)的矩阵。

5、模型训练与评估

步骤5.1：构建模型M的损失函数Loss。L的计算公式为

式中N代表训练批次的样本数量；L代表输入单条应用层用户请求的总字符长度；C代表恶意有效负载类别总数；

为指示函数，当

时，函数输出为1，否则为0；

代表第i个用户请求第l个字符的真实类别；a_ilj代表第i个用户请求第l个字符为j类别的预测概率；j＝0代表正常负载类别。

步骤5.2：使用Adam算法作为模型M的优化算法。

步骤5.3：设置模型训练结束条件；在本实施例中，模型训练结束条件为模型损失值在连续10轮训练过程中没有明显变化则停止训练。

步骤5.4：将训练集

中的

输入模型M，计算得到各词元的类别预测概率a_i；将

的各词元的真实类别标签

和预测类别概率a_i代入损失函数L计算模型损失值，根据优化算法F更新模型M中的可训练参数；

步骤5.5：重复步骤5.4，直到满足模型训练结束条件，得到训练好的模型

步骤5.6：使用测试集

评估训练好的模型

二、检测阶段

对于待检测的应用层用户请求x′，先进行数据预处理得到结果

再将

输入训练好的模型

计算得到各词元的类别预测概率a，进而得到各词元的类别预测结果；再将待检测的应用层用户请求x′中连续的具有相同类别预测结果的词元合并，合并形成的一组或多组片段即为该请求x′的恶意有效负载信息。

实施例2：

本实施例公开一种基于Transformer的应用层恶意有效负载检测系统，包括：

样本集构建模块，用于：构建应用层用户请求样本集D，其中每个样本d_i包括一条应用层用户请求x_i及其恶意有效负载信息，恶意有效负载信息包括一组或多组具体恶意有效负载p_ij及其类别y_ij；下标i用于区别不同的应用层用户请求，下标j用于区别不同类别的恶意有效负载；

组成的用户请求

及与各词元的类别真实标签

下标中的l用于区别不同的词元；

的类别预测概率a_il；并将各词元

的真实类别标签

再将

输入训练好的模型

所述系统中各个模块实现相应功能的具体方式参见实施例1。

实施例3：

本实施例公开一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现实施例1所述的方法。

实施例4：

本实施例公开一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例1所述的方法。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于Transformer的应用层恶意有效负载检测方法，其特征在于，包括以下步骤：

组成的用户请求

及与各词元的类别真实标签

下标中的l用于区别不同的词元；

步骤3、将数据预处理后应用层用户请求样本集中的

的类别预测概率a_il；

步骤4、将各词元

的真实类别标签

再将

输入训练好的模型

2.根据权利要求1所述的基于Transformer的应用层恶意有效负载检测方法，其特征在于，所述步骤2中，对应用层用户请求的数据预处理包括以下步骤：

3.根据权利要求1所述的基于Transformer的应用层恶意有效负载检测方法，其特征在于，在将D中应用层用户请求样本d_i进行数据预处理，得到数据预处理后应用层用户请求样本集

之后，先对样本集

进行数据采样得到类别平衡的样本集

再使用样本集

中的用户请求

作为步骤3训练模型M的输入数据；所述对样本集

进行数据采样包括以下步骤：

步骤A2：确定各负载类别的目标采样数N；

4.根据权利要求3所述的基于Transformer的应用层恶意有效负载检测方法，其特征在于，所述采用基于生成规则的过采样方法进行数据采样的方法具体包括：

步骤A4.4：计算P中每个元素需生成的样本数n，n＝N/len(P)；

步骤A4.5：选取遍历P中元素p_i，从S中随机选取负载s；对于s中的每个字符，以概率p_i替换为G中随机选取的字符，形成新负载s′；计算s′各字符的ASCII值记为k′，构建维数为128且第k′值维为1、其余维为0的向量，替换s对应的预处理后的用户请求

中的负载s各词元向量，类别真实标签

5.根据权利要求1所述的基于Transformer的应用层恶意有效负载检测方法，其特征在于，所述基于Transformer的深度神经网络模型M依次包含词元嵌入层、位置编码层、k个Transformer编码器块、全连接层及Softmax层，每个Transformer编码器块均依次包括受限多头自注意层、层归一化层、全连接层、层归一化层。

6.根据权利要求5所述的基于Transformer的应用层恶意有效负载检测方法，其特征在于，步骤3中，深度神经网络模型M计算各词元