CN113065419A

CN113065419A - 一种基于流量高频内容的模式匹配算法及系统

Info

Publication number: CN113065419A
Application number: CN202110291361.6A
Authority: CN
Inventors: 余翔湛; 刘立坤; 韦贤葵; 史建焘; 叶麟; 葛蒙蒙; 李精卫; 石开宇; 车佳臻; 王久金; 冯帅; 赵跃; 宋赟祖
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-07-02
Anticipated expiration: 2041-03-18
Also published as: CN113065419B

Abstract

本发明提出了一种基于流量高频内容的模式匹配算法及系统，涉及一种模式匹配算法，尤其涉及一种基于流量高频内容的模式匹配算法及系统。通过建立高频内容集和映射集的自动机，将当前扫描字符通过映射集与高频内容集进行匹配；映射集由高频内容集合中所有字符串的第一个字符去重后构成的集合。当访问自动机节点时，执行快速搜索以确定是否需要对高频内容集进行二次搜索。自动机扫描的过程从左往右扫描，自动机从根节点开始，扫描一个字符时匹配高频内容集的字符串，当扫描字符与高频内容集的字符串匹配时跳过高频内容，因此解决了现有技术中因忽略了流量中重复内容的特征导致的匹配效率低的问题，从而提升匹配效率。

Description

一种基于流量高频内容的模式匹配算法及系统

技术领域

本申请涉及一种模式匹配算法，尤其涉及一种基于流量高频内容的模式匹配算法及系统。

背景技术

企业网关的NIDS检测流量中，大量HTTP流量内含有很多重复内容，包括完全重复和部分重复。完全重复是指整个字符串多次出现，像stylesheet(如，<html，<head>，</style>)，而部分重复是子字符串，例如共享的html代码。另外，来自同一个互联网内容提供商的流量非常相似，相同的html框架，类似的文件。

模式匹配的经典算法是AC算法，AC算法是基于前缀搜索的自动机算法，使用前缀来建立一个有穷状态自动机(DFA)，利用这个自动机来对文本进行匹配扫描，找到文本中和模式集合完全相同的匹配信息。AC算法包括自动机和自动机扫描过程两部分，其中自动机包括goto表、Fail表、output表，goto表为状态跳转记录，fail为失败函数记录，output为命中模式记录；自动机扫描的过程是从左往右扫描，自动机从根节点开始，扫描一个字符，如果当前状态接收该字符，则跳转到下一个状态，如果不接收该字符，则根据fail表跳转到失效状态，继续扫描，直到文本全部扫描完成。

AC算法需要逐字符进行扫描，算法复杂度为O(n)，忽略了流量中重复内容的特性，匹配性能低。

发明内容

为解决现有技术中存在的忽略了流量中重复内容的特征的技术问题，本发明提供了一种基于流量高频内容的模式匹配算法及系统。

一种基于流量高频内容的模式匹配系统，包括AC自动机、映射模块和UHC匹配模块；所述UHC匹配模块和AC自动机之间通过映射模块建立通讯，所述映射模块由多个映射集组成；所述UHC匹配模块创建与映射集对应的多个子集；所述AC自动机用于扫描文本，所述映射模块用于匹配高频内容，所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。

一种基于流量高频内容的模式匹配算法；包括以下步骤：

S1.创建自动机；

S1.1.根据模式集构建自动机，首先创建根节点；

S1.2.按字符顺序输入模式下一个字符，如果不存在该字符的边，则执行步骤S1.3，否则，执行步骤S1.4；当所有模式的所有字符都插入到自动机中，执行步骤S1.5；

S1.3.创建新节点，设置边值为扫描字符，返回步骤S1.2；

S1.4.自动机状态沿着该边跳转到下一个节点，返回步骤S1.2；

S1.5.深度遍历自动机，给每个节点添加失败指针；

S1.6.提取高频内容的所有模式的首字符，去掉重复字符，形成映射集，每个字符为一个独立节点；

S1.7.遍历自动机，找到映射集字符，当边值与映射集字符相同，则将当前节点与映射集字符关联；

S1.8.映射集每个字符关联高频内容，形成高频内容集，通过计算哈希值代表高频内容，n个字符对应n个高频内容集；

S1.9.每个高频内容集计算哈希值并存储；

S1.10.高频内容与自动机关联，自动机扫描高频内容，遍历到最深的节点作为高频内容命中后返回自动机的状态节点；

S2.自动机扫描；

S2.1.将流量解析后的数据输入到自动机中；

S2.2.扫描当前字符，在映射集中搜索当前字符，如果没有找到，执行下一步骤，否则执行步骤S2.4；如果当前字符是待扫描字符串的结尾字符，扫描终止；

S2.3.当前字符扫描完成自动机跳转到下一个字符，执行步骤S2.2；

S2.4.根据映射集字符选择对应的高频内容集，以哈希长度为窗口计算待匹配字符串哈希值，与高频内容哈希值比较，如果不匹配则返回到自动机当前节点，执行步骤S2.2，如果匹配则执行下一步骤；

S2.5.判断字符串是否满足判断条件，当满足判断条件时，跳转到保存在高频内容中的自动机节点，执行步骤S2.2，当不满足判断条件时执行下一步骤；

S2.6.自动机扫描下一个字符，如果已经是高频内容结尾，执行步骤S2.2，否则执行步骤S2.5。

优选的，步骤S2.4所述映射集具体是由高频内容集合中所有字符串的第一个字符去重后构成的集合。

优选的，步骤S2.4所述高频内容集生成方法为：设置高频内容集

设置重复字符串p的阈值T；在一定时间t内，统计输入流量中重复字符串p₁,p₂,...p_k出现次数n₁,n₂,...n_k，当n_j≥T,1≤j≤k时，将p_j添加到高频内容集中P_UHC＝P_UHC∪p_j。

优选的，步骤S2.5所述判断字符串是否满足判断条件的具体方法为：假设当前字符为映射集中的p_i,下标表示字符在待扫描字符串中的位置，对应的高频内容的窗口大小为k，自动机继续扫描待匹配字符串，直到扫描字节p_i+j(j表示位置i向右移动的距离)，其在AC自动机的深度小于或等于j时，满足判断条件。

优选的，步骤S2.4所述以哈希长度为窗口计算待匹配字符串哈希值，用多项式函数计算待匹配字符串的长度。

本发明的有益效果如下：一种基于流量高频内容的模式匹配算法以自动机的形式存在，与常用AC算法有两点不同：一是自动机构建中添加映射模块和高频内容集。二是自动机扫描不再是逐一字符扫描；自动机扫描的过程从左往右扫描，自动机从根节点开始，扫描一个字符时匹配高频内容集的字符串，当扫描字符与高频内容集的字符串匹配时跳过高频内容，因此匹配性能提升。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例所述的系统结构图；

图2为本发明实施例所述的自动机扫描流程图；

图3为本发明实施例所述的自动机构建示例图；

图4为本发明实施例所述的字符串扫描示例图；

图5为本发明实施例所述的自动机构建流程图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1，说明本实施例，本实施例的一种基于流量高频内容的模式匹配系统，包括AC自动机、映射模块和UHC匹配模块；所述UHC匹配模块和AC自动机之间通过映射模块建立通讯，所述映射模块由多个映射集组成；所述UHC匹配模块创建与映射集对应的多个子集；所述AC自动机用于扫描文本，所述映射模块用于匹配高频内容，所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。

映射模块是一个快速搜索模块，在该模块中，生成一个较小的映射集构建AC节点和高频内容匹配模块之间的桥梁，在扫描时执行快速搜索以确定是否需要对高频内容集进行二次搜索。所述映射集是指提取高频内容的所有模式的首字符，去掉重复字符，形成的合集，每个字符为一个独立节点；所述映射集中的字符与高频内容集中的字符串进行匹配，如果映射集中的字符与高频内容集中的字符串中的首字符匹配成功，提取首字符匹配成功的字符串形成高频内容集。

高频内容是指在一定时间内，流量中重复的字符串出现次数超过预先设置的阈值T时，这样的重复字符串称为高频内容，很多高频内容形成的集合被称为高频内容集，高频内容集生成的方法是，设置高频内容集

设置重复字符串p的阈值T；在一定时间t内，统计输入流量中重复字符串p₁,p₂,...p_k出现次数n₁,n₂,...n_k，当n_j≥T,1≤j≤k时，将p_j添加到高频内容集中，因此高频内容集可以表示为P_UHC＝P_UHC∪P_j。

高频内容匹配模块处理高频内容匹配并保存跳回AC自动机的状态。该模块创建与映射集相对应的多个子集，所有子集使用相同的高频内容匹配算法。保存的AC自动机状态是返回到AC自动机的下一个状态。每个高频内容都有一个保存的AC自动机状态。如果高频内容的后缀与AC自动机的前缀相同，则保存AC自动机中最深层的状态。状态搜索如下：一个高频内容P＝{p₁,p₂,...,p_n}，其反向字符串Q＝{q_i|q_i＝p_n-i,0≤i≤n}作为输入，从根开始遍历AC自动机。当匹配当前字符q_i失败时，这表示当前遍历的路径是高频内容的最长后缀，将当前状态保存到高频内容匹配模块中。

实施例2、参照图1至图5，说明本实施例，本实施例的一种基于流量高频内容的模式匹配算法，包括以下步骤：

步骤一、创建自动机；

步骤一.一、根据模式集构建自动机，首先创建根节点；

步骤一.二、按字符顺序输入模式下一个字符，如果不存在该字符的边，则执行步骤一.三，否则，执行步骤一.四；当所有模式的所有字符都插入到自动机中，执行步骤一.五；

步骤一.三、创建新节点，设置边值为扫描字符，返回步骤一.二；

步骤一.四、自动机状态沿着该边跳转到下一个节点，返回步骤一.二；

步骤一.五、深度遍历自动机，给每个节点添加失败指针；

步骤一.六、提取高频内容的所有模式的首字符，去掉重复字符，形成映射集，每个字符为一个独立节点；

步骤一.七、遍历自动机，找到映射集字符，当边值与映射集字符相同，则将当前节点与映射集字符关联；

步骤一.八、映射集每个字符关联高频内容，形成高频内容集，通过计算哈希值代表高频内容，n个字符对应n个高频内容集；

步骤一.九、每个高频内容集计算哈希值并存储；

步骤一.十、高频内容与自动机关联，自动机扫描高频内容，遍历到最深的节点作为高频内容命中后返回自动机的状态节点。

参照图4至图5给出自动机构建示例，假设正常模式集是{E、BE、BD、BCD、JDBC}，对应的AC自动机构建结构参照图4。假设高频内容集合是{BTAGXUBC，BCDZLA30TKN，JAVASCRIPT，JASONTK101B}，提取第一个字符构建映射集{B，J}及对应的映射子集{BTAGXUBC，BCDZLA30TKN}和{JAVASCRIPT，JASONTK101B}，两个独立映射子集去掉映射集中包括的首字母，得到{TAGXUBC，CDZLA30TKN}和{AVASCRIPT，ASONTK101B}，两个新子集的窗口大小分别为7和9。通过哈希函数分别计算得到两个模式匹配算法。

引入输入文本JDBCBTAGXUBCDH。第一个字符是匹配映射集，但不是匹配的高频内容子集，逐字节扫描到状态s₁₀，此时，BTAGXUBC在高频内容子集中。由于下一个特征是B，新的当前状态是s₁₁，深度为5>1(高频内容的索引为1)。因为判断条件不满足，所以输入下一个字符T。此时状态为s₀，深度为0<2(高频内容索引为2)，判断条件建立。因此，高频内容子集中的保存状态s₆是新的当前状态。算法跳过剩下的六个字符“AGXUBC”，继续扫描DH。最后，模式BCD匹配成功。扫描过程参照图5，带下划线的字符被跳过。

步骤二、自动机扫描；

步骤二.一、将流量解析后的数据输入到自动机中；

步骤二.二、扫描当前字符，在映射集中搜索当前字符，如果没有找到，执行下一步骤，否则执行步骤二.四；如果当前字符是待扫描字符串的结尾字符，扫描终止；

步骤二.三、当前字符扫描完成自动机跳转到下一个字符，执行步骤二.二；

步骤二.四、根据映射集字符选择对应的高频内容集，以哈希长度为窗口计算待匹配字符串哈希值，与高频内容哈希值比较，如果不匹配则返回到自动机当前节点，执行步骤二.二，如果匹配则执行下一步骤；

以哈希长度为窗口计算待匹配字符串哈希值，可以替换成多项式函数的方式计算待匹配字符串的长度。

步骤二.五、判断字符串是否满足判断条件，当满足判断条件时，跳转到保存在高频内容中的自动机节点，执行步骤二.二，当不满足判断条件时执行下一步骤；

判断字符串是否满足判断条件的具体方法是，假设当前字符为映射集中的p_i,下标表示字符在待扫描字符串中的位置，对应的高频内容的窗口大小为k，自动机继续扫描待匹配字符串，直到扫描字节p_i+j，其中j表示位置i向右移动的距离，其在AC自动机的深度小于或等于j时，满足判断条件。

步骤二.六、自动机扫描下一个字符，如果已经是高频内容结尾，执行步骤二.二，否则执行步骤二.五。

本发明的关键点在于：

1、基于高频内容的模式匹配算法；

2、基于大量重复字符串的模式匹配算法。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于流量高频内容的模式匹配系统，其特征在于，包括AC自动机、映射模块和UHC匹配模块；所述UHC匹配模块和AC自动机之间通过映射模块建立通讯，所述映射模块由多个映射集组成；所述UHC匹配模块创建与映射集对应的多个子集；所述AC自动机用于扫描文本，所述映射模块用于匹配高频内容，所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。

2.一种基于流量高频内容的模式匹配算法，其特征在于，包括以下步骤：

S1.创建自动机；

S1.1.根据模式集构建自动机，首先创建根节点；

S1.3.创建新节点，设置边值为扫描字符，返回步骤S1.2；

S1.4.自动机状态沿着该边跳转到下一个节点，返回步骤S1.2；

S1.5.深度遍历自动机，给每个节点添加失败指针；

S1.9.每个高频内容集计算哈希值并存储；

S2.自动机扫描；

S2.1.将流量解析后的数据输入到自动机中；

3.根据权利要求2所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法，其特征在于，步骤S2.4所述映射集具体是由高频内容集合中所有字符串的第一个字符去重后构成的集合。

4.根据权利要求3所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法，其特征在于，步骤S2.4所述高频内容集生成方法为：设置高频内容集

5.根据权利要求4所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法，其特征在于，步骤S2.5所述判断字符串是否满足判断条件的具体方法为：假设当前字符为映射集中的p_i,下标表示字符在待扫描字符串中的位置，对应的高频内容的窗口大小为k，自动机继续扫描待匹配字符串，直到扫描字节p_i+j，其在AC自动机的深度小于或等于j时，满足判断条件。

6.根据权利要求2所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法，其特征在于，步骤S2.4所述以哈希长度为窗口计算待匹配字符串哈希值，用多项式函数计算待匹配字符串的长度。