CN112839059B

CN112839059B - Web入侵检测自适应告警过滤处理方法、装置及电子设备

Info

Publication number: CN112839059B
Application number: CN202110199458.4A
Authority: CN
Inventors: 安韬; 丰竹勃; 王智民; 王高杰
Original assignee: Beijing 6Cloud Technology Co Ltd; Beijing 6Cloud Information Technology Co Ltd
Current assignee: Beijing 6Cloud Technology Co Ltd; Beijing 6Cloud Information Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-08-30
Anticipated expiration: 2041-02-22
Also published as: CN112839059A

Abstract

本发明实施方式提供一种WEB入侵检测自适应告警过滤处理方法、装置及电子设备，其中，一种WEB入侵检测自适应告警过滤处理方法，包括：获取URL；将所述URL映射为第一特征向量；将所述第一特征向量输入自编码器模型，得到第二特征向量；计算所述第一特征向量和所述第二特征向量之间的误差；若所述误差大于预设误差阈值，则对所述URL进行告警。同时还提供了对应的WEB入侵检测自适应告警过滤处理装置及设备。本发明提供的实施方式能够减少大量重复的告警，大幅减少运维人员的工作量，方便观测到真正的威胁，提升告警检测效率。

Description

WEB入侵检测自适应告警过滤处理方法、装置及电子设备

技术领域

本发明涉及网络安全技术领域，具体地涉及一种WEB入侵检测自适应告警过滤处理方法、一种WEB入侵检测自适应告警过滤处理装置及一种电子设备。

背景技术

Web防火墙是信息安全的第一道防线。SQL注入、命令注入等攻击对数据安全产生了很大的威胁。传统规则防火墙在灵活的黑客面前，很容易被绕过，且基于以往知识的规则集，难以应对0day攻击。工作人员在实际使用Web入侵检测系统时，通常更加关注系统的误报率，在每日海量的数据之下，若存在较高的误报率则会出现很多告警，其中多数为误告警，重复的误告警会增加许多人工筛选工作并且掩盖住真正的威胁。随着人工智能技术的发展，数据驱动的机器学习类方法通常有更低的漏报率和误报率，但也存在一定问题。例如，如果系统对一种Web请求模式不能很好识别，错误地将正常请求进行告警，则会在大数据的情况下，产生大量相似的误报。对此，需要解决web入侵系统中存在的问题：对检测结果进行分析，确认是否存在相似告警，以决定是否告警。

URL(Uniform Resource Locator)：统一资源定位器。

发明内容

本发明实施例的目的是提供一种WEB入侵检测自适应告警过滤处理方法、一种WEB入侵检测自适应告警过滤处理装置及一种电子设备。

为了实现上述目的，本发明第一方面提供一种WEB入侵检测自适应告警过滤处理方法，所述处理方法包括：获取URL；将所述URL映射为第一特征向量；将所述第一特征向量输入自编码器模型，得到第二特征向量；计算所述第一特征向量和所述第二特征向量之间的误差；若所述误差大于预设误差阈值，则对所述URL进行告警。

优选的，将所述URL映射为第一特征向量包括：将所述URL经过词袋模型提取为固定长度特征向量；将所述固定长度特征向量进行降维处理，得到所述第一特征向量。

优选的，将所述第一特征向量输入自编码器模型，得到第二特征向量，包括：通过所述自编码器模型中的编码器将所述第一特征向量转化为隐变量；通过所述自编码器模型中的解码器将所述隐变量转化为所述第二特征向量；所述第一特征向量与所述第二特征向量的维度相同。

优选的，计算所述第一特征向量和所述第二特征向量之间的误差，包括：采用均方误差法计算所述第一特征向量和所述第二特征向量之间的误差。

优选的，若所述误差不大于预设误差阈值，则对所述URL进行滤除。

优选的，在对所述URL进行告警之后，所述处理方法还包括：将所述URL对应的第一特征向量作为训练样本对所述自编码器模型进行训练，所述自编码器模型中的参数在训练中被更新。

优选的，采用增量主成分分析模型将所述固定长度特征向量进行降维处理，得到所述第一特征向量；在对所述URL进行告警之后，所述处理方法还包括：将所述URL作为训练样本，对所述增量主成分分析模型进行增量调整。

本发明第二方面提供了一种WEB入侵检测自适应告警过滤处理装置，所述处理装置包括过滤模块，所述过滤模块：获取子模块，用于获取URL；向量构建子模块，用于将所述URL映射为第一特征向量；向量重构子模块，用于将所述第一特征向量输入自编码器模型，得到第二特征向量；误差计算子模块，用于计算所述第一特征向量和第二特征向量之间的误差；以及告警子模块，用于若所述误差大于预设误差阈值，则对所述URL进行告警。

优选的，所述处理装置还包括学习模块，所述学习模块用于采用告警子模块确定出的URL作为训练样本，对所述自编码器模型进行训练。

本发明第三方面提供了一种电子设备，包括：至少一个处理器；存储器，与所述至少一个处理器连接；其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现前述的WEB入侵检测自适应告警过滤处理方法。

优选的，所述电子设备为防火墙或服务器。

本发明第四方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的WEB入侵检测自适应告警过滤处理方法。

本发明第五方面提供一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述的WEB入侵检测自适应告警过滤处理方法。

上述技术方案提供的方法和装置，具有以下有益效果：

(1)对告警进行过滤，减少大量重复的告警，大幅减少运维人员的工作量，方便观测到真正的威胁，提升效率。

(2)快速、实时地对WEB入侵系统产生的检测结果进行判断，决定是否告警当前检测数据。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理方法的步骤示意图；

图2示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理方法的过滤部分流程示意图；

图3示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理方法的学习部分流程示意图；

图4示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理装置的结构框图；

图5示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理装置的处理流程图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理方法的步骤示意图。如图1所示，一种WEB入侵检测自适应告警过滤处理方法，所述处理方法包括：

S01，获取URL；此处的URL可以为从被检测的系统中所提取出的URL，优选为通过其它Web入侵检测系统所检测出的准备告警的URL。

S02，将所述URL映射为第一特征向量；URL作为网络地址，为字符串的集合。将字符串中的特征词、词频等特征进行提取，得到字符串对应的特征向量。对提取的特征向量的格式等进行规范后，得到URL映射后的第一特征向量。

S03，将所述第一特征向量输入自编码器模型，得到第二特征向量；自编码模型(autoencoder,AE)是一类在半监督学习和非监督学习中使用的人工神经网络，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习。自编码模型包含编码器(encoder)和解码器(decoder)两部分，其输入为前述的第一特征向量，输出为第二特征向量。

S04，计算所述第一特征向量和所述第二特征向量之间的误差；当自编码器用于异常检测时，通过检测重构后的重构误差来时限对异常的检测。其中，重构误差可以从现有技术中提供的多种重构误差函数中进行选用。

S05，若所述误差大于预设误差阈值，则对所述URL进行告警。此处的误差阈值为预设的，并能根据实际场景进行调整。如果此处的误差过大，则说明这条输入的URL与之前告警过的样本很不相似，则需要将其告警。

通过以上实施方式，采用机器学习中的自编码器模型对URL进行过滤，能够滤除掉常见的已知告警，并从中分离出不常见的告警，减少大量重复的告警。

在本发明提供的一种实施方式中，将所述URL映射为第一特征向量包括：将所述URL经过词袋模型提取为固定长度特征向量；具体为：采用词袋模型的一二元分词标注器对URL进行处理，将URL提取成固定长度的特征向量。一元分词标注器将URL的每个字符作为一组提取，二元分词标注器将URL中所有相邻的两个字符作为一组，提取出所有组相邻的两个字符。词袋模型构造一个向量，向量的长度为一二元分词标注器提取出所有可能的字符组的数量，向量的每个分量对应一组字符的词频。以及将所述固定长度特征向量进行降维处理，得到所述第一特征向量。由于词袋模型提取得到的特征向量是一个高维的稀疏向量，并不利于计算。这里采用增量PCA算法，例如sklearn.decomposition.IncrementalPCA等实例对该高维稀疏特征向量进行降维处理。增量PCA算法或增量PCA模型将高维稀疏向量处理为低维特征向量。

在本发明提供的一种实施方式中，将所述第一特征向量输入自编码器模型，得到第二特征向量，包括：通过所述自编码器模型中的编码器将所述第一特征向量转化为隐变量；自编码器模型是一种人工神经网络，将输入信息作为学习目标，对输入信息进行表征学习。自编码器模型将低维特征向量通过Dense层(编码器)转化为更低维的隐变量。再通过所述自编码器模型中的解码器将所述隐变量转化为所述第二特征向量；即通过另一个Dense层(解码器)将隐变量转化为与低维特征向量相同维度的重构特征向量。所述第一特征向量与所述第二特征向量的维度相同。

在本发明提供的一种实施方式中，计算所述第一特征向量和所述第二特征向量之间的误差，包括：采用均方误差法计算所述第一特征向量和所述第二特征向量之间的误差。

在本发明提供的一种实施方式中，若所述误差不大于预设误差阈值，则对所述URL进行滤除。将误差数值与设定的阈值作比较，若误差数值大于阈值则将此条样本进行告警，否则不告警。本实施方式提供对不告警的URL进行后续处理的步骤。自编码器针对告警的样本进行建模，模型是对样本本身进行模型预测，如果存在相似告警，那么模型预测出的重构误差较小。反之，如果候选告警的重构误差小，说明与这条样本类似的样本训练过模型，存在过许多相似的告警，则无需告警。

图2示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理方法的过滤部分流程示意图，如图2所示。该实施方式主要包括了前述中的URL输入，得到高维稀疏向量，从高维稀疏向量转化为低维特征向量(第一特征向量)，计算重构误差，基于重构误差进行判断过滤的过程。

在本发明提供的一种实施方式中，在对所述URL进行告警之后，所述处理方法还包括：将所述URL对应的第一特征向量作为训练样本对所述自编码器模型进行训练，所述自编码器模型中的参数在训练中被更新。本实施方式中增加的学习过程适应性地生成过滤模型，为过滤模块提供模型。过滤模块确定是否真正告警，将真正告警的数据提取出，作为训练样本，输入至学习模块对过滤模型进行更新。学习模块输入为Web入侵检测系统决定告警的URL。其中，第一特征向量的生成方式可以采用与前文相同的生成方式，即：采用与过滤模块相同的词袋模型的一二元分词标注器对URL进行处理，将URL提取成固定长度的特征向量。该向量作为高维稀疏特征向量。再通过对高维稀疏特征向量进行降维处理后，得到第一特征向量。

将上述提取的低维特征向量作为一个批次输入模型进行训练。采用均方误差作为损失函数，计算低维特征向量和模型输出向量之间的均方误差损失。采用adam算法进行模型训练。需要训练的参数包括编码器和解码器所有参数。通常，重构误差越小说明此条样本与自编码器模型的训练样本近似，则认为该样本可能存在大量告警，需要进行过滤。

在本发明提供的一种实施方式中，采用增量主成分分析模型将所述固定长度特征向量进行降维处理，得到所述第一特征向量；在对所述URL进行告警过滤之后，所述告警过滤方法还包括：将所述URL作为训练样本，对所述增量主成分分析模型进行增量调整。本实施方式提供了对增量主成分分析模型进行训练的过程。具体的，增量PCA算法模型是基于Sequential Karhunen-Loeve算法的模型。每个批次数据的特征向量对增量PCA模型进行增量调整(例如sklearn的partial_fit方法)。对增量PCA模型进行训练后，增量PCA模型将高维稀疏向量处理为低维特征向量。

图3示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理方法的学习部分流程示意图，如图2所示。该实施方式主要包括了前述中的URL输入，采用URL对应的第一特征向量对自编码模型进行更新的步骤。其中，第一特征向量的获得方法与前述一致，即：得到高维稀疏向量，从高维稀疏向量转化为低维特征向量(第一特征向量)。

图4示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理装置的结构框图，如图4所示。在该实施方式中，提供了一种WEB入侵检测自适应告警过滤处理装置，所述处理装置包括过滤模块，所述过滤模块包括：获取子模块，用于获取URL；向量构建子模块，用于将所述URL映射为第一特征向量；向量重构子模块，用于将所述第一特征向量输入自编码器模型，得到第二特征向量；误差计算子模块，用于计算所述第一特征向量和第二特征向量之间的误差；以及告警子模块，用于若所述误差大于预设误差阈值，则对所述URL进行告警。

以及进一步的，所述处理装置还包括学习模块，所述学习模块用于采用告警子模块确定出的URL作为训练样本，对所述自编码器模型进行训练。

上述的WEB入侵检测自适应告警过滤处理装置中的各个功能模块的具体限定可以参见上文中对于WEB入侵检测自适应告警过滤处理方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图5示意性示出了根据本发明实施方式中的WEB入侵检测自适应告警过滤处理装置的处理流程图，如图5所示。URL通过WEB入侵检测系统之后，得到初步过滤后的URL，开始执行本发明实施方式中的获取该URL，通过WEB入侵检测自适应告警过滤处理装置中的过滤模块，确定是否告警。如果不告警，则对其进行滤除。如果需要告警，在告警的同时还将该URL输入学习模块，通过学习模块对过滤模块中的参数进行训练和调整。

在本发明提供的一种实施方式中，还提供了一种电子设备，包括：至少一个处理器；存储器，与所述至少一个处理器连接；其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现前述的WEB入侵检测自适应告警过滤处理方法。此处的控制模块或处理器具有数值计算和逻辑运算的功能，其至少具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O口和中断系统等。处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现前述的方法。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

在本发明提供的一种实施方式中，所述电子设备为防火墙或服务器。前述的WEB入侵检测自适应告警过滤处理方法作为应用程序或系统的一部分运行于防火墙或服务器中。当防火墙或服务器中运行有前述的WEB入侵检测自适应告警过滤处理方法时，能够对输入或者经过该设备的URL进行检测，对满足预设条件的URL进行通过、滤除、告警或记录等处理，实现自动检测的技术效果，大幅减少运维人员的工作量，方便观测到真正的威胁，提升效率。

在本发明提供的一种实施方式中，提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的WEB入侵检测自适应告警过滤处理方法。

在本发明提供的一种实施方式中，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述的WEB入侵检测自适应告警过滤处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种WEB入侵检测自适应告警过滤处理方法，应用于对URL检测所生成的告警的处理中，其特征在于，所述处理方法包括：

从检测设备已生成的告警中获取URL；

将所述URL映射为第一特征向量；

将所述第一特征向量输入自编码器模型，得到第二特征向量；

计算所述第一特征向量和所述第二特征向量之间的误差；

若所述误差大于预设误差阈值，对所述URL进行告警；

将所述URL映射为第一特征向量，包括：

将所述URL经过词袋模型提取为固定长度特征向量；

将所述固定长度特征向量进行降维处理，得到所述第一特征向量；

在对所述URL进行告警之后，所述处理方法还包括：将所述URL对应的第一特征向量作为训练样本对所述自编码器模型进行训练，所述自编码器模型中的参数在训练中被更新；

采用增量主成分分析模型将所述固定长度特征向量进行降维处理，得到所述第一特征向量；在对所述URL进行告警之后，所述处理方法还包括：将所述URL作为训练样本，对所述增量主成分分析模型进行增量调整。

2.根据权利要求1所述的处理方法，其特征在于，将所述第一特征向量输入自编码器模型，得到第二特征向量，包括：

通过所述自编码器模型中的编码器将所述第一特征向量转化为隐变量；

通过所述自编码器模型中的解码器将所述隐变量转化为所述第二特征向量；所述第一特征向量与所述第二特征向量的维度相同。

3.根据权利要求1所述的处理方法，其特征在于，计算所述第一特征向量和所述第二特征向量之间的误差，包括：

采用均方误差法计算所述第一特征向量和所述第二特征向量之间的误差。

4.根据权利要求1所述的处理方法，其特征在于，若所述误差不大于预设误差阈值，对所述URL进行滤除。

5.一种WEB入侵检测自适应告警过滤处理装置，应用于对URL检测所生成的告警的处理中，其特征在于，所述处理装置包括过滤模块，所述过滤模块包括：

获取子模块，用于从检测设备已生成的告警中获取URL；

向量构建子模块，用于将所述URL映射为第一特征向量；将所述URL映射为第一特征向量，包括：将所述URL经过词袋模型提取为固定长度特征向量；将所述固定长度特征向量进行降维处理，得到所述第一特征向量；

向量重构子模块，用于将所述第一特征向量输入自编码器模型，得到第二特征向量；

误差计算子模块，用于计算所述第一特征向量和第二特征向量之间的误差；以及

告警子模块，用于在所述误差大于预设误差阈值的情况下对所述URL进行告警；

在对所述URL进行告警之后，处理方法还包括：将所述URL对应的第一特征向量作为训练样本对所述自编码器模型进行训练，所述自编码器模型中的参数在训练中被更新；

6.根据权利要求5所述的处理装置，其特征在于，所述处理装置还包括学习模块，所述学习模块用于采用所述告警子模块确定出的URL作为训练样本，对所述自编码器模型进行训练；所述自编码器模型中的参数在训练中被更新。

7.一种电子设备，其特征在于，包括：至少一个处理器；

存储器，与所述至少一个处理器连接；

其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现权利要求1至4中任意一项权利要求所述的WEB入侵检测自适应告警过滤处理方法。

8.根据权利要求7所述的电子设备，其特征在于，所述电子设备为防火墙或服务器。