CN117792804A

CN117792804A - 基于位图和预过滤的网络威胁筛选方法及系统

Info

Publication number: CN117792804A
Application number: CN202410220881.1A
Authority: CN
Inventors: 刘俊豪; 李丽娟; 原小卫; 吴颖; 霍曦; 李晨华洋; 汪俊贵; 李於铭; 荆卫; 胡贞松; 廉浩; 李毕; 张驰; 李兴坤; 姜鑫; 范有东; 段军; 邹昆; 刘越; 古训
Original assignee: Chengdu Jiuzhou Electronic Technology Co Ltd
Current assignee: Chengdu Jiuzhou Electronic Technology Co Ltd
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-03-29
Anticipated expiration: 2044-02-28
Also published as: CN117792804B

Abstract

本发明公开了基于位图和预过滤的网络威胁筛选方法及系统，方法包括：构建或获取组合规则集；分别对各组合规则的所有子表达式进行权重计算，根据权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎；分别将各组合规则中未被选取的子表达式作为后续规则存储在数组中；构建各前置规则ID；设置草稿位图；利用多模筛选引擎对待处理数据进行处理，根据前置规则的命中结果将草稿位图中对应bit位置1；当逻辑位图与草稿位图相等时，返回前置规则ID；根据前置规则ID中的数组索引查询后续规则并进行校验。本发明实现了对大规模数据集的高效网络威胁筛选，能够显著减少需要实际处理的网络流量大小，从而提高了整体的筛选效率。

Description

基于位图和预过滤的网络威胁筛选方法及系统

技术领域

本发明涉及网络安全领域，尤其涉及基于位图和预过滤的网络威胁筛选方法及系统。

背景技术

随着信息技术的迅速发展和互联网应用的普及，网络安全问题日益突出。网络威胁的种类和数量正在不断增加，这些威胁包括但不限于病毒、木马、恶意软件、钓鱼攻击等。为了应对复杂的网络威胁，通过逻辑门（AND、OR、NOT）将不同的网络威胁筛选规则组合起来，能够更有效的监测复杂的网络威胁。

通用的组合规则筛选算法如下：

1：提取子表达式并生成新的子表达式id加入多模引擎，例如：

1001 Exp1，1002 Exp2，1003 Exp3，1004 Exp4，1005 Exp5，1006 Exp6，1007Exp7，1008 Exp8；

多模筛选引擎A：Exp1、Rxp2、Exp3；多模筛选引擎B：Exp5、Rxp4；多模筛选引擎C：Exp6、Rxp7、Rxp8；

2：建立子规则和组合规则的映射关系，例如：

组合规则900在子表达式1001、1002、1003、1004、1005、1006、1007、1008都匹配时才匹配。

子表达式1001、1002、1003、1004、1005、1006、1007、1008都对应组合规则900。

3：执行多模引擎，得到子表达式筛选结果，例如：

多模筛选引擎A筛选结果：1001、1002、1003；

多模筛选引擎B筛选结果：1004、1005；

多模筛选引擎C筛选结果：1006、1007、1008。

4：对多模筛选引擎A、B、C的筛选结果进行合并。

通过循环遍历多模筛选引擎的结果，查询所属的组合规则id，保存命中的子表达式规则id，遍历结束后，查看组合规则所有的子表达式是否命中。

通用的组合规则筛选算法需要通过多次查表操作，并且对所有子表达式进行无差别的处理，在网络威胁的场景下性能低下，无法满足在组合规则筛选情况下的高性能匹配。

发明内容

为了解决上述技术问题，本发明提出了一种基于位图和预过滤的网络威胁筛选方法及系统，采用预过滤筛选模式，减少了实际处理的流量大小，并且充分利用了多模式筛选引擎的特点，采用基于位图的方式对预过滤的结果进行合并，实现了对网络威胁逻辑组合规则的快速匹配。

为了实现上述发明目的，本发明提供的技术方案包括：

基于位图和预过滤的网络威胁筛选方法，包括步骤：

S1、构建或获取以五元组筛选、字符串筛选和整型筛选为筛选手段的组合规则集，任意组合规则包含至少一个子表达式；

S2、根据命中难易程度分别对各组合规则的所有子表达式进行权重计算，根据所述权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎；分别将各组合规则中未被选取的子表达式作为后续规则存储在数组中；

S3、构建各前置规则ID；所述前置规则ID前24位为数组索引，用于存储各组合规则的数组下标，后8位为逻辑位图，用于存储组合规则的逻辑与记录，所述逻辑位图第N个置1的bit位表示当前子表达式是对应组合规则的第N个子表达式；设置与所述逻辑位图对应的、所有bit位置0的草稿位图；

S4、利用所述多模筛选引擎对待处理数据进行处理，根据所述前置规则的命中结果将所述草稿位图中对应bit位置1；当所述逻辑位图与草稿位图相等时，返回前置规则ID；

S5、根据所述前置规则ID中的数组索引查询后续规则并进行校验，若后续规则命中，则输出命中的组合规则。

在一些较优的实施例中，步骤S2中根据命中难易程度分别对各组合规则的所有子表达式进行权重计算的方法包括：

S201、分别为子表达式的筛选字段和操作符分配初始权重；

S202、根据命中难易程度计算子表达式常量值的权重，越难命中的规则权重越高；

S203、分别将各项权重相加，得到子表达式的权重。

在一些较优的实施例中，步骤S2中根据子表达式权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎的方法包括：

S211、将所述子表达式按权重进行降序排序；

S212、执行以下选取规则中的任一条：

a）、按权重排序从高至低选取至少一个子表达式作为前置规则；

b）、选取全部子表达式作为前置规则；

c）、选取所有和具有最高权重的子表达式筛选字段相同的子表达式作为前置规则；

在一些较优的实施例中，步骤S4中所述利用多模筛选引擎对待处理数据进行处理的方法还包括：

为每个筛选线程分配独立的临时空间，用于存储所述草稿位图和组合规则未被选取的子表达式；多模筛选引擎运行时进行多线程并行筛选。

本发明还提供了基于位图和预过滤的网络威胁筛选系统，包括：

数据采集模块，配置用于采集待处理数据；

数据库模块，配置用于以数组存储以五元组筛选、字符串筛选和整型筛选为筛选手段的组合规则集，任意组合规则包含至少一个子表达式；用于以数组的方式存储各组合规则中未被选取的子表达式作为后续规则；

规则选取模块，与所述数据库模块连接，配置用于根据命中难易程度分别对各组合规则的所有子表达式进行权重计算，根据所述权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎；构建各前置规则ID；所述前置规则ID前24位为数组索引，用于存储各组合规则的数组下标，后8位为逻辑位图，用于存储组合规则的逻辑与记录，所述逻辑位图第N个置1的bit位表示当前子表达式是对应组合规则的第N个子表达式；

草稿空间模块，配置用于设置与逻辑位图对应的、所有bit位置0的草稿位图；

多模筛选引擎，分别与所述数据采集模块、规则选取模块和草稿空间模块连接，配置用于对所述待处理数据进行处理，根据所述前置规则的命中结果将所述草稿位图中对应bit位置1；当所述逻辑位图与草稿位图相等时，返回前置规则ID；

后续筛选模块，分别与数据库模块、多模筛选引擎和后续筛选模块连接，配置用于根据所述前置规则ID中的数组索引查询后续规则并进行校验，若后续规则命中，则输出命中的组合规则。

在一些较优的实施例中，所述规则选取模块根据命中难易程度分别对各组合规则的所有子表达式进行权重计算的方法包括：

分别为子表达式的筛选字段和操作符分配初始权重；

根据命中难易程度计算子表达式常量值的权重，越难命中的规则权重越高；

分别将各项权重相加，得到子表达式的权重。

在一些较优的实施例中，所述规则选取模块根据子表达式权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎的方法包括：

S211、将所述子表达式按权重进行降序排序；

S212、执行以下选取规则中的任一条：

b）、选取全部子表达式作为前置规则；

在一些较优的实施例中，还包括临时空间模块，分别与草稿空间模块和多模筛选引擎连接，配置用于为每个筛选线程分配独立的临时空间，用于存储所述草稿位图。

有益效果

本发明创新性地将位图技术与预过滤机制相结合，实现了对大规模数据集的高效网络威胁筛选。在传统的组合规则算法基础上，本发明对规则的匹配范围进行了精确的量化分析，采用了一种高效的预过滤筛选模式，能够显著减少需要实际处理的网络流量大小，从而提高了整体的筛选效率。进一步地，本发明充分利用了多模式筛选引擎的先进特性，提高了数据处理的速度，大大减少了计算资源的消耗，能够快速且准确地匹配网络威胁的逻辑组合规则，有效识别并响应各种复杂和多变的网络威胁模式。

附图说明

图1为本发明一种较优实施例中的基于位图和预过滤的网络威胁筛选方法流程示意图；

图2为本发明一种较优实施例中为每个所述数组索引下标构建对应组合规则的逻辑位图示意图；

图3为本发明一种较优实施例中利用多模筛选引擎对待处理数据进行处理时的流程示意图；

图4为本发明一种较优实施例中针对流行度高的网络漏洞的权重设定示意图；

图5为本发明另一种较优实施例中的基于位图和预过滤的网络威胁筛选系统结构示意图；

图6为本发明另一种较优实施例中的基于位图和预过滤的网络威胁筛选系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本实施例提供了一种基于位图和预过滤的网络威胁筛选方法，包括步骤：

在网络威胁检测场景下，威胁规则的筛选目标通常包含五元组、负载、协议要素等内容，筛选手段包括五元组筛选、字符串筛选和整型筛选。

所述五元组是指一个网络数据包的五个基本属性，包括源IP地址、目的IP地址、源端口号、目的端口号和传输协议。在网络通信中，每个数据包都包含这五个属性，它们一起构成了数据包的唯一标识。五元组筛选的表达式组成如表1所示：

表1 五元组表达式。

所述字符串是指一个网络数据包中的特定字符串，其包括但不限于：

1、特定标识符或关键字：在网络通信中，某些特定的标识符或关键字可能与网络威胁相关联，例如特定的恶意URL、病毒签名、木马命令等。

2、协议字段：在网络协议中，某些字段可能包含了对安全分析有价值的信息，比如HTTP请求的头部信息、DNS查询的内容等。

3、异常模式：可能包含某些异常或可疑的字符串模式，这些模式可能表明了网络攻击行为，如SQL注入攻击中的特定SQL语句模式。

字符串筛选的表达式组成如表2所示：

表2 字符串表达式。

所述整型是整数类型数据，其表达式组成如表3所示：

表3 整型表达式。

S2、根据命中难易程度分别对各组合规则的所有子表达式进行权重计算，根据所述权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎；分别将各组合规则中未被选取的子表达式作为后续规则存储在数组中。

一般场景下，预过滤的筛选模式仅会挑选一个字段作为前后规则加入多模引擎，预期是过滤99%以上的无关流量，但是在例如核心交换机、防火墙等10Gbps/100Gbps的高吞吐流量下，%1的流量也将会消耗巨大的资源；并且部分组合规则仅挑选一个表达式作为前后规则无法充分利用多模筛选引擎的特性。

在合理的情况下，尽可能的利用多模筛选可以提高筛选效率。当一条规则中选择一个子表达式作为前后规则时预期过滤流量达99%以上，当选择两条子表达式作为前后规则时预期过滤流量达99.99%以上；并且能够尽可能利用多模筛选引擎的特性，将耗时的内存查找操作，转化为对筛选结果合并的计算操作。

S3、如图2所示，构建各前置规则ID；所述前置规则ID前24位为数组索引，用于存储各组合规则的数组下标，后8位为逻辑位图，用于存储组合规则的逻辑与记录，所述逻辑位图第N个置1的bit位表示当前子表达式是对应组合规则的第N个子表达式；设置与所述逻辑位图对应的、所有bit位置0的草稿位图；

S5、根据所述前置规则ID中的数组索引查询后续规则并进行校验，若后续规则命中，则输出命中的组合规则。应当理解的是，所述后续规则的校验为本领域的常规技术，其是在前置规则命中后，顺序执行，例如顺序执行数字的大小比较，字符串查找等动作。由于该部分内容不是本发明的关注重点，因此本发明对其不作进一步的限定，可以由本领域技术人员根据现有技术和实际需要进行合理的设定。

本实施例是在上述实施例1的基础上展开的，本实施例给出了一种根据命中难易程度分别对各组合规则的所有子表达式进行权重计算的方法。

如前所述，所述各子表达式由常量值、操作符和筛选字段组成，在选择筛选规则时，需要考虑规则与预期筛选效果之间的关系。具体方法如下：

S201、分别为子表达式的筛选字段和操作符分配初始权重；以规则“a.b.c ==“12345””为例，其中，“a.b.c”为筛选字段，也叫关键字，“==”为操作符，“12345”为常量值，包括字符串和数字。初始权重所体现的是用户的关注重点内容，例如流行的网络漏洞包含有高发的特定字段。因此，通过合理配置权重的方式以体现其重要程度，以适应网络威胁的严重程度，例如对流行度高的网络漏洞，如图4所示，可以对关注重点项目设定较高的权重，这样使得预过滤规则的字段高度集中，可以减少多模筛选引擎的个数。还是以规则“a.b.c== “12345””为例，可以设定筛选字段“a.b.c”权重为60，操作符“==”权重为10。

S202、根据命中难易程度计算子表达式常量值的权重，越难命中的规则权重越高。具体的，打分原理示例如下：

a)IP、端口、协议号、常量数字命中范围越小的规则得分越高。

例如IP规则1.1.1.1/32 ，1.1.1.1/24，其中1.1.1.1/32仅能命中1.1.1.1，1.1.1.1/24命中范围为1.1.1.0-1.1.1.255，因此1.1.1.1/32的命中范围小于1.1.1.1/24的命中范围。

b)常量字符串往往选择字符串的长度更长的规则。

例如：

规则1： http.uri == “www”；

规则2： http.uri == “www.baidu.com”；

其中规则2的常量字符串长度为13，规则1的常量字符串长度为3，规则2的常量字符串长度大于规则1的常量字符串，也就意味着作为预过滤规则更难命中。

操作符的打分原理如下：

根据操作的优先级进行打分。设定正则表达式优先级 < 浮动表达式优先级 < 固定位置优先级。优先级越高，得分越高。

S203、分别将各项权重相加，得到子表达式的权重。

本实施例是在上述实施例1或2的基础上展开的，本实施例给出了一种根据子表达式权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎的方法示例。如前所述，当一条规则中选择一个子表达式作为前置规则时预期过滤流量达99%以上，当选择两条子表达式作为前置规则时预期过滤流量达99.99%以上，因此应当尽可能利用多模筛选引擎的特性，将耗时的内存查找操作，转化为对筛选结果合并的计算操作，同时也能够减少进入后续规则校验的流量。

具体规则如下：

S211、将所述子表达式按权重进行降序排序；

S212、执行以下选取规则中的任一条：

b）、当组合规则由两到三个子表达式组成，子表达式对应的多模引擎均已存在，为充分利用多模筛选引擎，选取全部子表达式作为前置规则；

c）、当组合规则中权重值最高的字段存在多个匹配，为了充分利用多模筛选，选取所有和具有最高权重的子表达式筛选字段相同的子表达式作为前置规则；

应当理解的是，具体选择哪条选取规则可由本领域技术人员根据实际需要进行设定，本发明不作进一步的要求。

本实施例是在上述实施例1的基础上展开的。为了利用现在多核CPU的性能，实现筛选的并线处理，提高筛选性能，本身实施例给出了一种利用多模筛选引擎对待处理数据进行处理的较优方法。

为每个筛选线程分配独立的临时空间，用于存储所述草稿位图和组合规则未被选取的子表达式；多模筛选引擎运行时进行多线程并行筛选。此时，筛选性能随CPU核心数量而倍增。

本实施例提供了一种基于位图和预过滤的网络威胁筛选系统，如图5所示，包括：

数据采集模块，配置用于采集待处理数据；

本实施例是在上述实施例5的基础上展开的，本实施例给出了一种所述规则选取模块根据命中难易程度分别对各组合规则的所有子表达式进行权重计算的方法，包括：

分别为子表达式的筛选字段和操作符分配初始权重；

分别将各项权重相加，得到子表达式的权重。

本实施例是在上述实施例5或6的基础上展开的，为了尽可能利用多模筛选引擎的特性，将耗时的内存查找操作，转化为对筛选结果合并的计算操作，本实施例给出了一种所述规则选取模块根据子表达式权重分别在每个组合规则中选取至少一个子表达式加入多模筛选引擎的方法：

将所述子表达式按权重进行降序排序，从高至低选择至少一个子表达式作为前置规则；

和/或，将被选取的子表达式对应的组合规则中的其他子表达式作为前置规则。

在另一些较优的实施例中，还可以包括如下的规则：

a：当组合规则中权重值最高的字段存在多个匹配，为了充分利用多模筛选，将这个字段相关的规则都作为前置规则加入多模筛选中。

b：当组合规则由两到三个子表达式组成，子表达式对应的多模引擎均已存在，为充分利用多模筛选引擎，将该组合规则的所有子表达式都作为前置规则加入多模筛选引擎中。

本实施例是在上述实施例5的基础上展开的，如图6所示，为了利用现在多核CPU的性能，实现筛选的并线处理，提高筛选性能，所述基于位图和预过滤的网络威胁筛选系统还包括临时空间模块，分别与草稿空间模块和多模筛选引擎连接，配置用于为每个筛选线程分配独立的临时空间，用于存储所述草稿位图。

实验例

1、测试环境

具体如表4所示：

表4 测试环境配置表。

2、测试集

具体如表5所示：

表5 测试集配置表。

3、测试原理

通过构建规模级的网络流量输入集、测试规则集，在相同测试环境下，通过在程序内部静态打桩的方式对规则筛选的耗时进行统计。

4、测试记录

将通用组合规则筛选方法和本发明所提供的基于位图和预过滤的网络威胁筛选方法分别进行测试，结果如表6所示：

表6 对比测试结果表。

5、结论

在10W条组合规则下，处理1G网络流量数据，采用通用组合规则筛选耗时8s左右，使用本发明所提供的方法耗时2s左右，经实验论证，本发明所提供的基于位图和预过滤的网络威胁筛选方法性能较通用组合规则筛选方法提升了230%左右。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于位图和预过滤的网络威胁筛选方法，其特征在于，包括步骤：

2.如权利要求1所述的基于位图和预过滤的网络威胁筛选方法，其特征在于，步骤S2中根据命中难易程度分别对各组合规则的所有子表达式进行权重计算的方法包括：

S201、分别为子表达式的筛选字段和操作符分配初始权重；

S203、分别将各项权重相加，得到子表达式的权重。

3.如权利要求1或2所述的基于位图和预过滤的网络威胁筛选方法，其特征在于，步骤S2中根据子表达式权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎的方法包括：

S211、将所述子表达式按权重进行降序排序；

S212、执行以下选取规则中的任一条：

b）、选取全部子表达式作为前置规则；

c）、选取所有和具有最高权重的子表达式筛选字段相同的子表达式作为前置规则。

4.如权利要求1所述的基于位图和预过滤的网络威胁筛选方法，其特征在于，步骤S4中利用所述多模筛选引擎对待处理数据进行处理的方法还包括：

5.基于位图和预过滤的网络威胁筛选系统，其特征在于，包括：

数据采集模块，配置用于采集待处理数据；

6.如权利要求5所述的基于位图和预过滤的网络威胁筛选系统，其特征在于，所述规则选取模块根据命中难易程度分别对各组合规则的所有子表达式进行权重计算的方法包括：

分别为子表达式的筛选字段和操作符分配初始权重；

分别将各项权重相加，得到子表达式的权重。

7.如权利要求5或6所述的基于位图和预过滤的网络威胁筛选系统，其特征在于，所述规则选取模块根据子表达式权重分别在每个组合规则中选取至少一个子表达式作为前置规则加入多模筛选引擎的方法包括：

S211、将所述子表达式按权重进行降序排序；

S212、执行以下选取规则中的任一条：

b）、选取全部子表达式作为前置规则；

8.如权利要求5所述的基于位图和预过滤的网络威胁筛选系统，其特征在于：还包括临时空间模块，分别与草稿空间模块和多模筛选引擎连接，配置用于为每个筛选线程分配独立的临时空间，用于存储所述草稿位图。