CN114039745B

CN114039745B - 网站异常流量的识别方法、设备及介质

Info

Publication number: CN114039745B
Application number: CN202111173304.4A
Authority: CN
Inventors: 杜家浩; 东昀; 安宝宇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2024-06-04
Anticipated expiration: 2041-10-08
Also published as: CN114039745A

Abstract

本发明公开了一种网站异常流量的识别方法，网站异常流量的识别设备及计算机可读存储介质。所述方法包括：采集网站流量，并获取采集到的网站流量的流量特征；将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率；根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。本发明旨在达成提高网站流量异常流量判定的准确性的效果。

Description

网站异常流量的识别方法、设备及介质

技术领域

本发明涉及网络安全技术领域，尤其涉及网站异常流量的识别方法、网站异常流量的识别设备及计算机可读存储介质。

背景技术

随着互联网的快速发展，网络应用产品呈现井喷式发展，但随之而来的网络安全问题也日渐突出，其中，如何精确地识别网站异常流量成为进一步采取措施的关键。

在相关技术方案中，为了精准识别网站异常流量，一般通过记录过去一段时间内的流量正常波动情况，对未来短时间内的流量波动趋势做预测，这种方法适用于具有明显周期性的网站流量，在流量出现异常突增或骤降时，往往能取得较精确效果；但现实中受诸多外界因素影响，流量波动可能引发监测误报。因此相关技术方案存在判断结果准确性较低的缺陷。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种网站异常流量的识别方法、网站异常流量的识别设备及计算机可读存储介质，旨在达成提高网站流量异常流量判定的准确性的效果。

为实现上述目的，本发明提供一种网站异常流量的识别方法，所述网站异常流量的识别方法包括以下步骤：

采集网站流量，并获取采集到的网站流量的流量特征；

将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率；

根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。

可选地，所述将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率的步骤之前，还包括：

获取训练样本集，其中，所述训练样本集包括历史正常流量及历史异常流量；

根据所述历史正常流量训练所述正向布隆过滤器模型；

根据所述历史异常流量训练所述反向布隆过滤器模型。

可选地，所述采集网站流量，并获取采集到的网站流量的流量特征的步骤包括：

获取当前采样频率，并根据所述当前采样频率采集所述网站流量；

获取采集到的网站流量的流量特征。

可选地，所述根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量的步骤之后，还包括：

在所述网站流量为正常流量时，若所述当前采样频率大于预设的最小采样频率，则降低所述当前采样频率；

在所述网站流量为异常流量时，若所述当前采样频率小于预设的最大采样频率，则增大所述当前采样频率。

可选地，所述获取采集到的网站流量的流量特征的步骤包括：

获取所述网站流量对应的请求报文，并解析所述请求报文；

根据所述请求报文的报头参数确定所述流量特征。

可选地，所述根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量的步骤包括：

根据预设权重值、所述第一概率和所述第二概率计算判断系数；

根据所述判断系数与预设判断阈值之间的对比结果，确定所述网站流量是否为异常流量。

可选地，所述正向布隆过滤器模型和所述反向布隆过滤器模型接收到所述流量特征时，确定所述流量特征对应的哈希值，并根据所述哈希值确定所述第一概率和所述第二概率。

此外，为实现上述目的，本发明还提供一种网站异常流量的识别设备，所述网站异常流量的识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网站异常流量的识别程序，所述网站异常流量的识别程序被所述处理器执行时实现如上所述的网站异常流量的识别方法的步骤。

此外，为实现上述目的，本发明还提供一种网站异常流量的识别设备，所述网站异常流量的识别设备包括：

采集模块，用于采集网站流量，并获取采集到的网站流量的流量特征；

确定模块，用于将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率；

识别模块，用于根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有网站异常流量的识别程序，所述网站异常流量的识别程序被处理器执行时实现如上所述的网站异常流量的识别方法的步骤。

本发明实施例提出的一种网站异常流量的识别方法、网站异常流量的识别设备及计算机可读存储介质，先采集网站流量，并获取采集到的网站流量的流量特征，然后将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率，并根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。由于可以通过大量的流量数据建立布隆模型，从而可以省去了规则匹配的时间。并且相较于流量波动预测方法，避免了因“限时活动”等正常因素影响引发的流量突增、骤降，进而导致出现监测误报的现象发生。达成了提高网站流量异常流量判定的准确性的效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明网站异常流量的识别方法的一实施例的流程示意图；

图3为本发明网站异常流量的识别方法的另一实施例的流程示意图；

图4为本发明实施例涉及的动态更新采样频率的流程示意图；

图5为本发明实施例涉及的网站异常流量的识别设备的模块化示意图；

图6为本发明实施例涉及的样本流量的处理示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图1所示，该控制终端可以包括：处理器1001，例如CPU，网络接口1003，存储器1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、以及网站异常流量的识别程序。

在图1所示的终端中，处理器1001可以用于调用存储器1004中存储的网站异常流量的识别程序，并执行以下操作：

采集网站流量，并获取采集到的网站流量的流量特征；

进一步地，处理器1001可以调用存储器1004中存储的网站异常流量的识别程序，还执行以下操作：

根据所述历史正常流量训练所述正向布隆过滤器模型；

根据所述历史异常流量训练所述反向布隆过滤器模型。

获取采集到的网站流量的流量特征。

获取所述网站流量对应的请求报文，并解析所述请求报文；

根据所述请求报文的报头参数确定所述流量特征。

随着互联网的快速发展，网络应用产品呈现井喷式发展，但随之而来的网络安全问题也日渐突出。如何精确地识别网站异常流量成为进一步采取措施的关键。

在相关技术中，有的基于流量历史波动特征，通过记录过去一段时间内的流量正常波动情况，对未来短时间内的流量波动趋势做预测。这种方法适用于具有明显周期性的网站流量，在流量出现异常突增或骤降时，往往能取得较精确效果。但现实中，流量波动受诸多外界因素影响，因此基于流量波动进行异常流量检测的方式可能引发监测误报。如“限时秒杀”活动瞬时突增流量，容易被检测为异常流量。

此外，还有一些监测方案基于流量内容的规则匹配，通过匹配流量中数据的特征，如请求头中的参数值、正文链接地址等等。但是限于实际应用场景的多样性和复杂性，很难给出一套完备的规则库。因此，时常导致大量的误报和漏报。并且规则匹配过程复杂且耗时，在高实时响应要求的流量应答中无法胜任。

为了解决相关技术存在的上述缺陷，本发明实施例提出一种网站异常流量的识别方法，所述方法基于布隆过滤器的实现网站异常流量监测，先通过大量的流量数据建立布隆模型，从而可以省去了规则匹配的时间。并且相较于流量波动预测方法，避免了因“限时活动”等正常因素影响引发的流量突增、骤降，进而导致出现监测误报的现象发生。

以下，通过具体实施例对本发明提出的网站异常流量的识别方法进行进一步地解释说明。

一实施例中，请参照图2，所述网站异常流量的识别方法包括以下步骤：

步骤S10、采集网站流量，并获取采集到的网站流量的流量特征；

步骤S20、将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率；

步骤S30、根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。

在本实施例中，在流量检测过程中，可以根据预设的采样频率，采集网站流量。例如，可以在网站流量接口处设置一采集插件，进而控制该采集插件根据预设频率，定时截取网站流量对应的报文数据。当截取到所述报文数据后，可以对所述报文进行解析，并根据解析结果确定网站报文报头参数。进而可以将所述报头参数作为采集到的网站流量的流量特征。其中，用于作为所述流量特征的报头参数可以根据实际应用场景中，该网站容易出现的攻击报文对应的报头参数进行自定义设置。例如，可以将报头中的cookie，作为所述网站流量特征中的一个子特征。当然，为提高检测的准确性，所述网站的流量特征一般包括多个子特征。

当获取所述流量特征后，可以将该流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率。其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率。

需要说明的是，所述正向布隆过滤器模型和反向布隆过滤器模型是预先根据样本数据训练好的模型。其中，所述样本数据可以是历史流量数据。在对正向布隆过滤器模型和反向布隆过滤器模型进行训练时，可以先获取训练样本集，其中，所述训练样本集包括历史正常流量及历史异常流量。然后根据所述历史正常流量训练所述正向布隆过滤器模型；以及根据所述历史异常流量训练所述反向布隆过滤器模型。

示例性地，参照图6，正向布隆过滤器模型在训练时，选取历史正常流量为训练样本集(即流量样本)，然后进行特征提取，并把提取的特征值X(n)对应的hash(哈希)位(bit)置1。使得经过训练后的正向布隆过滤器模型在进行检验时，可以识别出当前被检验的流量是否为已知的正常流量。反向布隆过滤器模型在训练时，选取历史异常流量为训练样本集，同样把特征值X`(n)对应的hash位(bit)置1。使得经过训练后的反向布隆过滤器模型在进行检验时，可以识别出当前被检验的流量是否为已知的异常流量。

因此，当将待检测的网站流量分别输入正向过滤器模型和反向布隆过滤器模型后。若流量特征X经正向布隆过滤器模型，出现新的bit置1的情况，说明当前流量不是已知的正常流量，其可能为“未知正常流量”、“异常流量”，用第一概率f(positive)来描述其为“未知正常流量”的概率；同样地，反向布隆过滤器用第二概率f(negative)来描述其为“未知异常流量”的概率。可以根据以下公式确定其对应的第一概率f(positive)和第二概率f(negative)。

上式中σ和γ是两个先验正数值，例如可以设置为0.1。N为训练后的布隆过滤器模型bit数组中1的总位数；n为布隆过滤器hash函数个数。

当布隆过滤器判定流量必定不在训练集中时，则可以进一步根据第一概率和第二概率判断该未知流量是否为异常流量。

需要说明的是，σ和γ的具体值可以根据网站特征自定义设置，本实施例对其不作具体限定。

进一步地，作为一种实现方式，在根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量时，可以先根据预设权重值、所述第一概率和所述第二概率计算判断系数，然后根据所述判断系数与预设判断阈值之间的对比结果，确定所述网站流量是否为异常流量。可选地，作为一种实施方式，当判断系数大于或者等于所述判断阈值时，判定当前采集到的网站流量为正常流量，否则，判定为其为异常流量。

示例性地，当第一概率f(positive)和第二概率f(negative)对应预设权重值分别为α和β时，可以先根据以下公式计算上述判断系数F(X)：

F(X)＝α*f(positive)+β*f(negative)

其中，作为一种可选实施方案，α和β可以分别设置为0.8和0.2。进一步地，所述判断阈值可以设置为0。进而当判断系数F(X)大于或者等于0时，判定当前采集到的网站流量为正常流量，否则为异常流量。

在本实施例公开的技术方案中，先采集网站流量，并获取采集到的网站流量的流量特征，然后将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率，并根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。由于可以通过大量的流量数据建立布隆模型，从而可以省去了规则匹配的时间。并且相较于流量波动预测方法，避免了因“限时活动”等正常因素影响引发的流量突增、骤降，进而导致出现监测误报的现象发生。达成了提高网站流量异常流量判定的准确性的效果。

可选地，参照图3，基于上述实施例，在另一实施例中，所述步骤S30之后，还包括：

步骤S40、在所述网站流量为正常流量时，若所述当前采样频率大于预设的最小采样频率，则降低所述当前采样频率；或者在所述网站流量为异常流量时，若所述当前采样频率小于预设的最大采样频率，则增大所述当前采样频率。

在本实施例中，可以根据预设的采集频率对网站流量进行采样分析。这样，相比于全量分析，可以节省系统开销。

为了进一步地节省系统开销，还可以设置一动态调节的采样阈值。即初次检测时，以初始频率采集网站流量，当采集到的网站流量为正常流量时，若所述当前采样频率大于预设的最小采样频率，则降低所述当前采样频率；或者在所述网站流量为异常流量时，若所述当前采样频率小于预设的最大采样频率，则增大所述当前采样频率。当然，在一些实施方案中，会设置采样频率的上限和下限，从而使得采样频率在上限和下限之间动态调节，已保障监测系统的鲁棒性。

示例性地，参照图4，可以设置采样的初始频率为1/128，最高频率为1/16。当开始启动监测时，先进行频率初始化，将采样频率初始化为初始频率。然后根据初始频率进行流量采样，以获取用于检测的网站流量。在所述网站流量为正常流量时，若所述当前采样频率大于预设的最小采样频率，则降低所述当前采样频率；或者在所述网站流量为异常流量时，若所述当前采样频率小于预设的最大采样频率，则增大所述当前采样频率。例如，在增大当前采样频率时，可以设置为将频率调高1/2。在降低当前采样频率时，可以设置为将频率调低1/2。

在本实施例中，基于动态调节的采样频率进行网站流量采样，进而对采样到的流量进行分析，从而达成了降低系统开销的效果。

此外，本发明实施例还提出一种网站异常流量的识别设备，所述网站异常流量的识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网站异常流量的识别程序，所述网站异常流量的识别程序被处理器执行时实现如上各个实施例所述的网站异常流量的识别方法的步骤。

此外，请参照图5，本发明实施例还提出一种网站异常流量的识别设备100，所述网站异常流量的识别设备100包括：

采集模块101，用于采集网站流量，并获取采集到的网站流量的流量特征；

确定模块102，用于将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率；

识别模块103，用于根据所述第一概率及所述第二概率确定所述网站流量是否为异常流量。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有网站异常流量的识别程序，所述网站异常流量的识别程序被处理器执行时实现如上各个实施例所述的网站异常流量的识别方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台网站异常流量的识别设备(如PC机或者服务器)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网站异常流量的识别方法，其特征在于，所述网站异常流量的识别方法包括：

根据当前采样频率采集网站流量，并获取采集到的网站流量的流量特征；

将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率，其中，所述正向布隆过滤器模型在训练时，选取历史正常流量为训练样本集后进行特征提取，并把提取的特征对应的哈希位置1，使得经过训练后的正向布隆过滤器模型在进行检验时，识别出当前被检验的流量是否为已知的正常流量，反向布隆过滤器模型在训练时，选取历史异常流量为训练样本集，同样把特征值对应的哈希位置1，使得经过训练后的反向布隆过滤器模型在进行检验时，识别出当前被检验的流量是否为已知的异常流量；当将采集到的网站流量的流量特征分别输入正向过滤器模型和反向布隆过滤器模型后，若流量特征经所述正向布隆过滤器模型，出现新的位置1的情况，表示当前采集到的网站流量不是已知的正常流量，其为未知正常流量或异常流量，用第一概率来描述其为未知正常流量的概率；同样地，反向布隆过滤器用第二概率来描述其为未知异常流量的概率；

根据第一预设权重值和所述第一概率的乘积，与第二预设权重值和所述第二概率的乘积的和得到判断系数，其中，所述第一预设权重值和所述第二预设权重值的和为1；

当所述判断系数大于或等于预设判断阈值时，判定所述网站流量为正常流量；在所述网站流量为正常流量时，若所述当前采样频率大于预设的最小采样频率，则降低所述当前采样频率以减少网站流量的采集；

或者，当所述判断系数小于所述预设判断阈值时，判定所述网站流量为异常流量；在所述网站流量为异常流量时，若所述当前采样频率小于预设的最大采样频率，则增大所述当前采样频率以增加网站流量的采集。

2.根据权利要求1所述的网站异常流量的识别方法，其特征在于，所述将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率的步骤之前，还包括：

根据所述历史正常流量训练所述正向布隆过滤器模型；

根据所述历史异常流量训练所述反向布隆过滤器模型。

3.根据权利要求1所述的网站异常流量的识别方法，其特征在于，所述获取采集到的网站流量的流量特征的步骤包括：

获取所述网站流量对应的请求报文，并解析所述请求报文；

根据所述请求报文的报头参数确定所述流量特征。

4.根据权利要求1所述的网站异常流量的识别方法，其特征在于，所述正向布隆过滤器模型和所述反向布隆过滤器模型接收到所述流量特征时，确定所述流量特征对应的哈希值，并根据所述哈希值确定所述第一概率和所述第二概率。

5.一种网站异常流量的识别设备，其特征在于，所述网站异常流量的识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网站异常流量的识别程序，所述网站异常流量的识别程序被所述处理器执行时实现如权利要求1至4中任一项所述的网站异常流量的识别方法的步骤。

6.一种网站异常流量的识别设备，其特征在于，所述网站异常流量的识别设备包括：

采集模块，用于根据当前采样频率采集网站流量，并获取采集到的网站流量的流量特征；

确定模块，用于将所述流量特征输入预先训练的正向布隆过滤器模型得到第一概率，以及将所述流量特征输入预先训练的反向布隆过滤器模型得到第二概率，其中，所述第一概率为所述网站流量为未知正常流量的概率，所述第二概率为所述网站流量为未知异常流量的概率，其中，所述正向布隆过滤器模型在训练时，选取历史正常流量为训练样本集后进行特征提取，并把提取的特征对应的哈希位置1，使得经过训练后的正向布隆过滤器模型在进行检验时，识别出当前被检验的流量是否为已知的正常流量，反向布隆过滤器模型在训练时，选取历史异常流量为训练样本集，同样把特征值对应的哈希位置1，使得经过训练后的反向布隆过滤器模型在进行检验时，识别出当前被检验的流量是否为已知的异常流量；当将采集到的网站流量的流量特征分别输入正向过滤器模型和反向布隆过滤器模型后，若流量特征经所述正向布隆过滤器模型，出现新的位置1的情况，表示当前采集到的网站流量不是已知的正常流量，其为未知正常流量或异常流量，用第一概率来描述其为未知正常流量的概率；同样地，反向布隆过滤器用第二概率来描述其为未知异常流量的概率；

识别模块，用于根据第一预设权重值和所述第一概率的乘积，与第二预设权重值和所述第二概率的乘积的和得到判断系数，其中，所述第一预设权重值和所述第二预设权重值的和为1；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有网站异常流量的识别程序，所述网站异常流量的识别程序被处理器执行时实现如权利要求1至4中任一项所述的网站异常流量的识别方法的步骤。