CN113726756A

CN113726756A - 一种web异常流量检测方法、装置、设备及存储介质

Info

Publication number: CN113726756A
Application number: CN202110972269.6A
Authority: CN
Inventors: 陈伟; 潘桐; 吴礼发
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-30

Abstract

本发明公开了一种web异常流量检测方法、装置、设备及存储介质，所述方法包括：将获取的待测流量数据输入预先训练好的检测模型，以获取待测流量数据对应的评分值，若评分值小于预设阈值，则判定为异常流量；所述检测模型包括集成学习模型和评分卡模型，所述待测流量数据经所述集成学习模型处理后输入评分卡模型，所述评分卡模型输出评分值。本发明用于实现快速准确地检测网络中的异常流量数据。

Description

一种web异常流量检测方法、装置、设备及存储介质

技术领域

本发明涉及一种web异常流量检测方法、装置、设备及存储介质，属于网络异常流量检测与防御技术领域。

背景技术

随着网络技术的迅猛发展，网络每天都会产生数亿兆级别的流量，现在绝大多数的网络攻击行为都会或多或少的产生网络流量，所以对网络中流量的进行检测可以定位出异常流量，阻断攻击，因此，网络流量检测关系着网络安全和用户隐私等诸多安全。

现有的防护手段是在WAF(Web Application Firewall)上依靠正则匹配，匹配准确率和效率很高，但需要人为指定每一类攻击的规则，攻击的特征改变，检测规则也需要及时改变，所需人力成本高。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种web异常流量检测方法、装置、设备及存储介质，用于实现快速准确地检测网络中的异常流量数据。

第一方面，本发明了提供一种web异常流量检测方法，包括：

将获取的待测流量数据输入预先训练好的检测模型，以获取待测流量数据对应的评分值，若评分值小于预设阈值，则判定为异常流量；其特征在于，所述检测模型包括集成学习模型和评分卡模型，所述待测流量数据经所述集成学习模型处理后输入评分卡模型，所述评分卡模型输出评分值。

可选的，所述集成学习模型的训练包括：

获取历史流量数据，提取数据特征集；

基于数据特征集对神经网络模型进行训练，获得所述集成学习模型。

可选的，所述集成学习模型的包括随机森林模型和XGBOOST模型。

可选的，所述评分卡模型输出的评分值表示为：

Score＝S₀-kln(o)＝S₀-k(β₀+β₁x₁+...+β_nx_n)

其中，S₀表示初始分数，k为系数，o表示事件发生概率和不发生概率比值，x_i(1≤i≤n)表示每个样本，β_i(1≤i≤n)表示激活函数的参数。

第二方面，一种web异常流量检测装置，包括：

数据获取单元，用于获取流量数据包；

数据评分单元，用于输出数据评分值；

数据处理单元，用于判定并处理流量数据包；

其中，所述数据评分单元包括集成学习模型和评分卡模型，所述待测流量数据经所述集成学习模型处理后输入评分卡模型，所述评分卡模型输出评分值。

可选的，所述数据获取单元的数据获取包括以下步骤：

从配置中心获取配置，提取流量特征；

根据流量特征，从网络中抓取流量数据包；

将抓取的流量数据包镜像传输给数据评分单元。

可选的，所述数据处理单元处理数据包括以下步骤：

接收数据评分单元反馈的评分值，若反馈的评分值小于预设阈值，则拦截流量数据包，若反馈的评分值大于或等于预设阈值，则放行。

可选的，所述web异常流量检测装置还包括数据存储单元，用于存储数据评分单元和数据处理单元反馈的评分值。

第三方面，一种web异常流量检测设备，所述设备包括：

处理器；

用于存储所述处理可执行指令的存储器；

其中，所述处理器被配置为执行所述指令以实现执行如上述第一方面任一项所述的web异常流量的检测方法。

第四方面，一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面任一项所述的web异常流量的检测方法。

与现有技术相比，本发明所达到的有益效果：本发明采用集成学习模型与评分卡模型相结合的方式实现对异常流量的检测，检测效率高，检测结果更为精准；且评分卡模型具有可解释性，有利于检测方法的不断优化。

附图说明

图1为本发明实施例的web异常流量检测方法流程图；

图2是本发明实施例的web异常流量检测装置工作流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：

本实施例提供了一种web异常流量检测方法，包括以下步骤：

从已有的大量数据包中，利用tshark、zeek、argus等工具提取出重要数字特征，并依次进行缺失值处理、离群点处理、异常值处理；在提取到的特征基础上使用特征选择算法，合并相关度高的特征，得到特征宽表；选取集成学习模型XGBOOST和随机森林模型进行训练，根据经验和实际调试出最佳参数，再采用带阈值的贪心算法对树进行剪枝，模型剪枝方案采用带阈值的贪心剪枝算法，从叶子节点向上遍历，超出阈值层数则不再考虑，在层数范围内进行同类的剪枝合并，优化算法执行效率；根据模型中随机森林选择出重要特征以及XGBOOST和随机森林输出，借鉴风贷领域的评分卡模型，设计出适用于异常流量检测领域的评分卡模型，对每条流量进行异常评分；

设计出的评分卡模型所涉及的算法包含以下几个步骤：

评分卡模型的核心是逻辑回归，先假设异常类发生概率是p，则可定义几率:

其中，p是异常类概率即p＝P(y＝1|x；θ)，再定义激活函数

有

是个线性函数，可以利用损失函数计算似然函数极大值下参数θ，似然函数计算时为防止过拟合需要加上L2正则项；对每个变量进行分箱操作，将连续变量离散化，计算公式为:

其中AN表示分箱段中异常的数量，N表示正常样本的数量，A表示所有样本数量。然后计算信息量的值:

用这个值判断分箱的好坏；针对上面的分箱以及逻辑回归，计算出分数:Score＝S₀-kln(o)＝S₀-k(β₁x₁+...+β_nx_n)，其中，θ是激活函数参数，AN表示分箱段中异常的数量，N表示正常样本的数量，A表示所有样本数量，i表示第i个特征，S₀表示初始分数，k为系数，o表示事件发生概率和不发生概率比值，x_i(1≤i≤n)表示每个样本，β_i(1≤i≤n)表示激活函数根据分箱变量计算出的参数。

最后将每条流量的分数汇聚到每个有IP的设备上，实现对网络设备的异常检测；计算出的评分值需要设置一个阈值S，当某个网络设备值低于S时则认为该设备的行为异常。

实施例2：

本实施例中，还提供了一种web异常流量检测装置，该装置包括：

数据获取单元，用于获取流量数据包，其数据获取包括以下步骤：从配置中心获取配置，提取流量特征；根据流量特征，从网络中抓取流量数据包；将抓取的流量数据包镜像传输给数据评分单元。

数据评分单元，用于输出数据评分值，所述数据评分单元包括集成学习模型和评分卡模型，所述待测流量数据经所述集成学习模型处理后输入评分卡模型，所述评分卡模型输出评分值；

数据处理单元，用于判定并处理流量数据包，所述数据处理单元处理数据包括以下步骤：接收数据评分单元反馈的评分值，若反馈的评分值小于预设阈值，则拦截流量数据包，若反馈的评分值大于或等于预设阈值，则放行；

数据存储单元，用于存储数据评分单元和数据处理单元反馈的评分值。设置数据存储单元SC数据中心主要出于两点考虑：一是输出的评分值如果只是存储到流式队列中，当队列被消费无法再次查询，不具有可回溯性。二是考虑到模型处理可能出现延时，比如30ms内无法处理完，也就无法得到实时的分数，设置SC中心就一定可以得到返回的分数。

评分卡模型得到分数，将这个分数存储到SC数据库中心。这个分数是通过逻辑回归计算出来的，具有很好的可解释性，弥补了机器学习可解释性不高的不足。SC中心不但有每条流量的分数值，还计算了网络设备在一段时间内的综合分数，从而可以对该设备进行后续处置。

考虑到实际中的可用性，WAF/防火墙采用延时等待的方式，等待一个时间30ms后还没接受到返回分值就从SC中心读一段时间内网络设备的分数，当评分值小于阈值S则可以认为是异常的流量，从而拦截数据包。

实施例3：

本实施例提供一种web异常流量检测设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理可执行指令的存储器；

其中，所述处理器被配置为执行所述指令以实现执行如实施例1所述的web异常流量的检测方法。

实施例4：

本实施例提供一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如实施例1所述的web异常流量的检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种web异常流量检测方法，包括：

将获取的待测流量数据输入预先训练好的检测模型，以获取待测流量数据对应的评分值，若评分值小于预设阈值，则判定为异常流量；

其特征在于，所述检测模型包括集成学习模型和评分卡模型，所述待测流量数据经所述集成学习模型处理后输入评分卡模型，所述评分卡模型输出评分值。

2.根据权利要求1所述的web异常流量检测方法，其特征在于，所述集成学习模型的训练包括：

获取历史流量数据，提取数据特征集；

3.根据权利要求2所述的web异常流量检测方法，其特征在于，所述集成学习模型的包括随机森林模型和XGBOOST模型。

4.根据权利要求1所述的web异常流量检测方法，其特征在于，所述评分卡模型输出的评分值表示为：

Score＝S₀-kln(o)＝S₀-k(β₀+β₁x₁+...+β_nx_n)

5.一种web异常流量检测装置，其特征在于，包括：

数据获取单元，用于获取流量数据包；

数据评分单元，用于输出数据评分值；

数据处理单元，用于判定并处理流量数据包；

6.根据权利要求5所述的web异常流量检测装置，其特征在于，所述数据获取单元的数据获取包括以下步骤：

从配置中心获取配置，提取流量特征；

根据流量特征，从网络中抓取流量数据包；

将抓取的流量数据包镜像传输给数据评分单元。

7.根据权利要求5所述的web异常流量检测装置，其特征在于，所述数据处理处理数据单元包括以下步骤：

8.根据权利要求5所述的web异常流量检测装置，其特征在于，所述web异常流量检测装置还包括数据存储单元，用于存储数据评分单元和数据处理单元反馈的评分值。

9.一种web异常流量检测设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理可执行指令的存储器；

其中，所述处理器被配置为执行所述指令以实现执行如权利要求1至4任一项所述的web异常流量的检测方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至4任一项所述的web异常流量的检测方法。