CN112311809A

CN112311809A - 一种攻击检测方法及装置

Info

Publication number: CN112311809A
Application number: CN202011272913.0A
Authority: CN
Inventors: 杨新安; 尚素绢
Original assignee: Hangzhou H3C Technologies Co Ltd
Current assignee: Hangzhou H3C Technologies Co Ltd; New H3C Technologies Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-02

Abstract

本发明提供一种攻击检测方法及装置，该方法包括：对于WAF过滤后的HTTP请求数据，依据预先构建的词汇表，对所述HTTP请求数据进行序列化，以得到对应的目标标记序列；将所述目标标记序列输入预先训练的编解码网络模型，以得到所述HTTP请求数据的损失值；比较所述HTTP请求数据的损失值与阈值；其中，所述阈值依据验证数据集，利用所述预先训练的编解码网络模型得到，所述验证数据集依据经过WAF过滤的历史HTTP请求数据得到；当所述HTTP请求数据的损失值大于所述阈值时，确定所述HTTP请求数据为攻击数据。应用本发明实施例可以提高攻击检出率。

Description

一种攻击检测方法及装置

技术领域

本发明涉及网络安全领域，尤其涉及一种攻击检测方法及装置。

背景技术

基于超文本传输协议(HyperText Transfer Protocol，简称HTTP)请求的万维网(World wide Web，简称Web)攻击是Web安全面临的最严重威胁之一。常见的基于HTTP请求/响应的Web攻击有结构化查询语言(Structured Query Language，简称SQL)注入、垃圾邮件、零日攻击等，尤其是零日攻击，检测起来非常具有挑战性。

目前广泛部署的基于签名的Web应用程序防火墙(Web Application Firewall，简称WAFs)无法实时更新规则动态检测到攻击，尤其是针对零日攻击，检出率比较低。

发明内容

本发明提供一种攻击检测方法及装置，以解决现有WAF攻击检出率较低的问题。

根据本发明实施例的第一方面，提供一种攻击检测方法，包括：

对于万维网应用防火墙WAF过滤后的超文本传输协议HTTP请求数据，依据预先构建的词汇表，对所述HTTP请求数据进行序列化，以得到对应的目标标记序列；

将所述目标标记序列输入预先训练的编解码网络模型，以得到所述HTTP请求数据的损失值；

比较所述HTTP请求数据的损失值与阈值；其中，所述阈值依据验证数据集，利用所述预先训练的编解码网络模型得到，所述验证数据集依据经过WAF过滤的历史HTTP请求数据得到；

当所述HTTP请求数据的损失值大于所述阈值时，确定所述HTTP请求数据为攻击数据。

根据本发明实施例的第二方面，提供一种攻击检测装置，包括：

预处理单元，用于对于万维网应用防火墙WAF过滤后的超文本传输协议HTTP请求数据，依据预先构建的词汇表，对所述HTTP请求数据进行序列化，以得到对应的目标标记序列；

第一确定单元，用于将所述目标标记序列输入预先训练的编解码网络模型，以得到所述HTTP请求数据的损失值；

比较单元，用于比较所述HTTP请求数据的损失值与阈值；其中，所述阈值依据验证数据集，利用所述预先训练的编解码网络模型得到，所述验证数据集依据经过WAF过滤的历史HTTP请求数据得到；

第二确定单元，用于当所述HTTP请求数据的损失值大于所述阈值时，确定所述HTTP请求数据为攻击数据。

应用本发明公开的技术方案，对于WAF过滤后的HTTP请求数据，依据预先构建的词汇表，对该HTTP请求数据进行序列化，以得到对应的目标标记序列，并将目标标记序列输入预先训练的编解码网络模型，以得到HTTP请求数据的损失值，进而，比较该HTTP请求数据的损失值与阈值，当该HTTP请求数据的损失值大于阈值时，确定该HTTP请求数据为攻击数据，提高了攻击检出率，进而，提高系统了安全性。

附图说明

图1是本发明实施例提供的一种攻击检测方法的流程示意；

图2是本发明实施例提供的一种编解码网络模型训练的流程示意图；

图3是本发明实施例提供的一种网络模型训练流程示意图；

图4是本发明实施例提供的一种攻击检测流程示意图；

图5是本发明实施例提供的一种攻击检测装置的结构示意图；

图6是本发明实施例提供的另一种攻击检测装置的结构示意图；

图7是本发明实施例提供的另一种攻击检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

请参见图1，为本发明实施例提供的一种攻击检测方法的流程示意图，如图1所示，该攻击检测方法可以包括以下步骤：

需要说明的是，本发明实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

步骤101、对于WAF过滤后的HTTP请求数据，依据预先构建的词汇表，对该HTTP请求数据进行序列化，以得到对应的目标标记序列。

步骤102、将目标标记序列输入预先训练的编解码网络模型，以得到HTTP请求数据的损失值。

本发明实施例中，考虑到HTTP请求数据通常是字符串形式的，而目前字符串通常无法用于网络模型训练以及通过模型进行识别，因此，可以通过构建词汇表，建立单个字符或多个字符组成的单词与数字的对应关系，并依据构建的词汇表将HTTP请求数据转换成数字序列(本文中称为标记序列)，以便在网络模型训练过程中，以获取到的经过WAF过滤的HTTP请求数据为训练样本对网络模型训练，且训练好的网络模型可以对实时HTTP请求数据进行攻击检测。

此外，考虑到正常HTTP请求数据(简称正常数据)通常具有固定的编码规则，字符组成通常是有规律的，而攻击数据则通常会携带很多乱码、未知字符，以便实现指令化内容转化，因此，通过大量正常数据对网络模型(本文中称为编解码网络模型)进行训练，由网络模型对正常数据的编码规则进行学习，正常数据输入训练好的网络模型后输出的损失值通常会比较小，而攻击数据输入训练好的网络模型的损失值会比较大。

因此，可以利用大量的经过WAF过滤的历史HTTP请求数据对应的标记序列构建训练数据集，并利用构建的训练数据集对编解码网络模型进行训练，进而，依据验证数据集对训练好的编解码网络模型进行验证，对模型的能力进行初步评估，并依据验证数据集经过训练好的编解码网络得到的损失值，确定一个用于判断HTTP请求数据为正常数据或攻击数据的阈值。

在得到训练好的编解码网络模型时，可以利用测试数据集对模型的能力进行最终评估，若确定的模型能力满足要求，例如，对测试数据集的识别准确率达到预设准确率阈值，则确定网络模型训练完成；否则，再次对网络模型训练。

其中，用于判断HTTP请求数据为正常数据或攻击数据的阈值，可以依据测试数据集，利用经过测试数据集测试满足要求的网络模型得到。

需要说明的是，在本发明实施例中，对编解码网络模型的训练，以及利用训练好的编解码网络模型确定阈值可以线下进行。

此外，考虑到当经过WAF过滤后的历史HTTP请求数据中存在攻击数据时，通常会出现系统异常的情况，此时，相关人员(如运维人员、管理人员等)会找出经过WAF过滤后的历史HTTP请求中的攻击数据，以便进行相关分析，且该攻击数据通常不会再和正常数据一起存储，因此，若未特殊说明，本发明实施例提及的获取的经过WAF过滤后的历史HTTP请求数据均可以认为是正常数据。

本发明实施例中，在得到训练好的编解码网络模型以及阈值之后，对于实时HTTP请求数据，可以先通过WAF进行检测，对于WAF过滤后的HTTP请求数据(可以称为待检测HTTP请求数据)，可以依据预先构建的词汇表，对该HTTP请求数据进行序列化，以得到对应的标记序列(本文中称为目标标记序列)。

当得到目标标记序列时，可以将目标标记序列输入预先训练的编解码网络模型，以得到待检测的HTTP请求数据的损失值。

步骤103、比较该HTTP请求数据的损失值与阈值；其中，该阈值依据验证数据集，利用预先训练的编解码网络模型得到，该验证数据集依据经过WAF过滤的历史HTTP请求数据得到。

步骤104、当该HTTP请求数据的损失值大于阈值时，确定该HTTP请求数据为攻击数据。

本发明实施例中，当利用预先训练的编解码网络模型确定了待检测HTTP请求数据的损失值时，可以比较该损失值与阈值，并在该损失值大于阈值时，确定待检测HTTP请求数据为攻击数据。

示例性的，当待检测HTTP请求数据的损失值小于等于阈值时，可以确定待检测HTTP请求数据为正常数据。

可见，在图1所示方法流程中，通过依据经过WAF过滤的历史HTTP请求数据生成训练数据集，依据该训练数据集对编解码网络模型进行训练，并依据验证数据集，利用训练好的编解码网络模型得到用于对HTTP请求数据进行攻击数据判定的阈值，从而，对于经过WAF过滤的实时HTTP请求数据，可以依据训练好的编解码网络模型得到对应损失值，并依据该损失值和上述阈值进行攻击数据判定，提高了攻击检出率，进而，可以提高系统安全性。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体实例对本发明实施例提供的技术方案进行说明。

一、编解码网络模型训练

为了提高攻击检出率，可以预先利用经过WAF过滤的历史HTTP请求数据生成训练数据集，并依据该训练数据集对编解码网络模型进行训练，通过编解码网络模型周期性地进行大量的HTTP请求语句学习，形成用于攻击数据判定的特征值(即上述阈值)，后续依据该特征值对实时HTTP请求数据进行攻击数据判定，提高攻击检出率，进一步完善防火墙的拦截策略，提高防护能力。

请参见图2，为本发明实施例提供的一种编解码网络模型训练的流程示意图，如图2所示，该编解码网络模型训练流程可以包括以下步骤：

步骤201、获取经过WAF过滤的预设时间段内的历史HTTP请求数据；

步骤202、基于预先构建的词汇表，对该历史HTTP请求数据进行序列化，以得到对应的标记序列；

步骤203、基于该标记序列对所述编解码网络模型进行训练，直至训练后的编解码网络模型对测试数据集的识别准确率达到预设准确率阈值；其中，测试数据集包括该标记序列中的部分标记序列。

在该实施例中，为了实现编解码网络模型的训练，可以获取经过WAF过滤的预设时间段内的历史HTTP请求数据。

对于获取到的经过WAF过滤的历史HTTP请求数据，可以依据预先构建的词汇表，对该历史HTTP请求数据进行序列化，以得到对应的标记序列。

需要说明的是，词汇表的构建可以依据获取到的历史HTTP请求数据构建，即对于获取到的历史HTTP请求数据中的各HTTP请求数据，可以对其进行字符分割(单个字符分割或单词分割等)，并对得到的词汇去重后，进行词汇和数字的映射，得到词汇表。

通过对历史HTTP请求数据进行解析，依据词汇表对历史HTTP请求数据进行序列化，以便进行网络模型训练。

依据得到的标记序列，对预先构建的编解码网络模型进行训练，直至网络模型收敛。

当完成一轮训练时，可以利用验证数据集对编解码网络模型的超参数进行调整以及对编解码网络模型的能力进行初步评估，进而，利用测试数据集对训练后的编解码网络模型进行测试，以确定该训练后的编解码网络模型对测试数据集的识别准确率。

其中，训练数据集、验证数据集以及测试数据集可以通过对获取到的历史HTTP请求数据对应的标记序列按比例(如7：2：1或6：2：2等)得到。

举例来说，步骤201中，假设获取到的历史HTTP请求数据的数量为1亿条，则将获取到的历史HTTP请求数据转换为标记序列后，可以将其中7000万条标记序列构建训练数据集，2000万条构建验证集，1000万条构建测试集。

在该实施例中，当训练后的编解码网络模型对测试数据集的识别准确率未达到预设准确率阈值时，可以再次按照上述方式对编解码网络模型进行训练和测试；当训练后的编解码网络模型对测试数据集的识别准确率达到预设准确率阈值时，确定编解码网络模型训练完成。

其中，网络模型训练流程示意图可以如图3所示。

考虑到对于零日攻击等攻击模式，通常无法获取到攻击数据，若采用常用的有监督学习方法无法获取足够对应类别的数据集进行模型训练。

因而，针对WAF阻断策略不足以及类别数据严重不均衡情况，可以对基于LSTM-ED(Long Short-Term Memory-Encoder&Decoder，长短期记忆网络-编解码器)的编解码网络(无监督学习)模型进行训练，通过基于LSTM-ED的编解码网络模型周期性地进行大量的HTTP请求语句学习，形成用于攻击数据判定的特征值。

需要说明的是，在本发明实施例中，编解码网络模型的训练可以离线进行。

二、在线实时检测

检测的核心思路是利用机器自翻译的思想：让机器去学习一种语言(可以理解为HTTP请求语言)，经过大量语句数据学习，最后对输入的语句进行翻译，通过翻译质量指标进行评估，翻译质量越差，为攻击数据的可能性越大。

当按照上述方式完成编解码网络模型训练时，对于每一条验证数据，编解码网络模型可以得到一个损失值，从而，可以依据各验证数据的损失值，计算得到一个用于进行攻击数据判定(可以理解为机器自翻译的质量指标评估)的阈值。

示例性的，阈值＝均值+factor*方差。

其中，均值为验证数据集中各验证数据的损失值的均值，方差为验证数据集中各验证数据的损失值的方差，factor为预设系数，可以根据实际场景设定。

对于经过WAF过滤后的实时HTTP请求数据，可以依据预先构建的词汇表对实时HTTP请求数据进行序列化，得到对应的标记序列(即上述目标标记序列)。

将得到的目标标记序列输入训练好的编解码网络模型，以得到实时HTTP请求数据的损失值，并比较该损失值与上述阈值。

若该损失值小于等于上述阈值，则确定该实时HTTP请求数据为正常数据。

若该损失值大于上述阈值，则确定该实时HTTP请求数据为攻击数据。

在一个示例中，为了进一步提高检测准确性，降低误检率，对于损失值大于阈值的情况，还可以进一步依据目标标记序列查询预先构建的白名单，以确定白名单中是否存在匹配的记录。

当白名单中查询到匹配的记录时，确定该实时HTTP请求数据为正常数据。

当白名单中未查询到匹配的记录时，确定该实时HTTP请求数据为攻击数据。

在一个示例中，为了进一步提高检测准确性，降低误检率，对于白名单中未查询到匹配的记录的情况，还可以通过人工复检的方式，进一步确定该实时HTTP请求数据是否为攻击数据。

相应地，当未在白名单中查询到匹配的记录时，可以输出针对目标标记序列的攻击验证提示消息，该攻击验证提示消息用于提示进行针对目标标记序列的攻击验证。

当检测到响应该攻击验证提示消息返回的用于指示目标标记序列为正常数据的确认信息(本文中称为第一确认信息)时，确定该实时HTTP请求数据为正常数据，并在白名单中增加与目标标记序列对应的记录。

当检测到响应该攻击验证提示消息返回的用于指示目标标记序列为攻击数据的确认信息(本文中称为第二确认信息)时，确定该实时HTTP请求数据为攻击数据。

需要说明的是，在本发明实施例中，白名单可以依据人工复检的结果进行构建，初始时，白名单为空，对于编解码网络模型输出的损失值大于上述阈值的目标标记序列，在白名单中不存在匹配的记录时，进行人工复检，若确定为正常数据，则将其加入到白名单中。

此外，当最终确认实时HTTP请求数据为攻击数据时，还可以依据该实时HTTP请求数据更新WAF规则，提高WAF规则的攻击检出率，进而提高攻击检测效率。

其中，完整的攻击检测流程可以如图4所示。

通过以上描述可以看出，在本发明实施例提供的技术方案中，对于WAF过滤后的HTTP请求数据，依据预先构建的词汇表，对该HTTP请求数据进行序列化，以得到对应的目标标记序列，并将目标标记序列输入预先训练的编解码网络模型，以得到该HTTP请求数据的损失值，进而，比较该HTTP请求数据的损失值与阈值，并当该HTTP请求数据的损失值大于该阈值时，确定该HTTP请求数据为攻击数据，提高了攻击检出率。

请参见图5，为本发明实施例提供的一种攻击检测装置的结构示意图，如图5所示，该攻击检测装置可以包括：

预处理单元510，用于对于WAF过滤后的HTTP请求数据，依据预先构建的词汇表，对该HTTP请求数据进行序列化，以得到对应的目标标记序列；

第一确定单元520，用于将目标标记序列输入预先训练的编解码网络模型，以得到该HTTP请求数据的损失值；

比较单元530，用于比较该HTTP请求数据的损失值与阈值；其中，该阈值依据验证数据集，利用预先训练的编解码网络模型得到，验证数据集依据经过WAF过滤的历史HTTP请求数据得到；

第二确定单元540，用于当HTTP请求数据的损失值大于阈值时，确定HTTP请求数据为攻击数据。

在一些实施例中，在图5所示装置的基础上，如图6所示，该装置还包括：

训练单元550，用于通过以下方式训练编解码网络模型：

获取经过WAF过滤的预设时间段内的历史HTTP请求数据；

基于预先构建的词汇表，对该历史HTTP请求数据进行序列化，以得到对应的标记序列；

基于该标记序列对编解码网络模型进行训练，直至训练后的编解码网络模型对测试数据集的识别准确率达到预设准确率阈值；其中，测试数据集包括该标记序列中的部分标记序列。

在一些实施例中，第二确定单元540，还用于当该HTTP请求数据的损失值大于阈值时，基于目标标记序列查询白名单；当在白名单中查询到匹配的记录时，确定该HTTP请求数据为正常数据；

第二确定单元540，具体用于当未在白名单中查询到匹配的记录时，确定HTTP请求数据为攻击数据。

在一些实施例中，第二确定单元540，还用于当未在白名单中查询到匹配的记录时，输出针对目标标记序列的攻击验证提示消息，该攻击验证提示消息用于提示进行针对目标标记序列的攻击验证；当检测到响应该攻击验证提示消息返回的第一确认信息时，在白名单中增加与目标标记序列对应的记录；该第一确认信息用于指示目标标记序列为正常数据；

第二确定单元540，具体用于当检测到响应攻击验证提示消息返回的第二确认信息时，确定该HTTP请求数据为攻击数据的操作；该第二确认信息用于指示目标标记序列为攻击数据。

在一些实施例中，在图5或图6所示装置的基础上，如图7所示(以在图5的基础上进行优化为例)，该装置还包括：

更新单元560，用于当第二确定单元540确定所述HTTP请求数据为攻击数据之后，依据该HTTP请求数据更新WAF规则。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

由上述实施例可见，对于WAF过滤后的HTTP请求数据，依据预先构建的词汇表，对该HTTP请求数据进行序列化，以得到对应的目标标记序列，并将目标标记序列输入预先训练的编解码网络模型，以得到HTTP请求数据的损失值，进而，比较该HTTP请求数据的损失值与阈值，当该HTTP请求数据的损失值大于阈值时，确定该HTTP请求数据为攻击数据，提高了攻击检出率，进而，提高系统了安全性。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本公开旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种攻击检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，编解码网络模型通过以下方式训练：

获取经过WAF过滤的预设时间段内的历史HTTP请求数据；

基于该标记序列对所述编解码网络模型进行训练，直至训练后的所述编解码网络模型对测试数据集的识别准确率达到预设准确率阈值；其中，所述测试数据集包括该标记序列中的部分标记序列。

3.根据权利要求1所述的方法，其特征在于，当所述HTTP请求数据的损失值大于所述阈值时，所述确定所述HTTP请求数据为攻击数据之前，还包括：

基于所述目标标记序列查询白名单；

当在所述白名单中查询到匹配的记录时，确定所述HTTP请求数据为正常数据；

当未在所述白名单中查询到匹配的记录时，确定执行所述确定所述HTTP请求数据为攻击数据的操作。

4.根据权利要求3所述的方法，其特征在于，当未在所述白名单中查询到匹配的记录时，所述确定所述HTTP请求数据为攻击数据之前，还包括：

输出针对所述目标标记序列的攻击验证提示消息，所述攻击验证提示消息用于提示进行针对所述目标标记序列的攻击验证；

当检测到响应所述攻击验证提示消息返回的第一确认信息时，在所述白名单中增加与所述目标标记序列对应的记录；所述第一确认信息用于指示所述目标标记序列为正常数据；

当检测到响应所述攻击验证提示消息返回的第二确认信息时，确定执行所述确定所述HTTP请求数据为攻击数据的操作；所述第二确认信息用于指示所述目标标记序列为攻击数据。

5.根据权利要求1-4任一项所述的方法，其特征在于，当确定所述HTTP请求数据为攻击数据之后，还包括：

依据所述HTTP请求数据更新WAF规则。

6.一种攻击检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

训练单元，用于通过以下方式训练编解码网络模型：

获取经过WAF过滤的预设时间段内的历史HTTP请求数据；

8.根据权利要求6所述的装置，其特征在于，

所述第二确定单元，还用于当所述HTTP请求数据的损失值大于所述阈值时，基于所述目标标记序列查询白名单；当在所述白名单中查询到匹配的记录时，确定所述HTTP请求数据为正常数据；

所述第二确定单元，具体用于当未在所述白名单中查询到匹配的记录时，确定所述HTTP请求数据为攻击数据。

9.根据权利要求8所述的装置，其特征在于，

所述第二确定单元，还用于当未在所述白名单中查询到匹配的记录时，输出针对所述目标标记序列的攻击验证提示消息，所述攻击验证提示消息用于提示进行针对所述目标标记序列的攻击验证；当检测到响应所述攻击验证提示消息返回的第一确认信息时，在所述白名单中增加与所述目标标记序列对应的记录；所述第一确认信息用于指示所述目标标记序列为正常数据；

所述第二确定单元，具体用于当检测到响应所述攻击验证提示消息返回的第二确认信息时，确定所述HTTP请求数据为攻击数据的操作；所述第二确认信息用于指示所述目标标记序列为攻击数据。

10.根据权利要求6-8任一项所述的装置，其特征在于，所述装置还包括：

更新单元，用于当所述第二确定单元确定所述HTTP请求数据为攻击数据之后，依据所述HTTP请求数据更新WAF规则。