CN113065419A - 一种基于流量高频内容的模式匹配算法及系统 - Google Patents

一种基于流量高频内容的模式匹配算法及系统 Download PDF

Info

Publication number
CN113065419A
CN113065419A CN202110291361.6A CN202110291361A CN113065419A CN 113065419 A CN113065419 A CN 113065419A CN 202110291361 A CN202110291361 A CN 202110291361A CN 113065419 A CN113065419 A CN 113065419A
Authority
CN
China
Prior art keywords
character
frequency content
automaton
mapping
executing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110291361.6A
Other languages
English (en)
Other versions
CN113065419B (zh
Inventor
余翔湛
刘立坤
韦贤葵
史建焘
叶麟
葛蒙蒙
李精卫
石开宇
车佳臻
王久金
冯帅
赵跃
宋赟祖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110291361.6A priority Critical patent/CN113065419B/zh
Publication of CN113065419A publication Critical patent/CN113065419A/zh
Application granted granted Critical
Publication of CN113065419B publication Critical patent/CN113065419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于流量高频内容的模式匹配算法及系统,涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。通过建立高频内容集和映射集的自动机,将当前扫描字符通过映射集与高频内容集进行匹配;映射集由高频内容集合中所有字符串的第一个字符去重后构成的集合。当访问自动机节点时,执行快速搜索以确定是否需要对高频内容集进行二次搜索。自动机扫描的过程从左往右扫描,自动机从根节点开始,扫描一个字符时匹配高频内容集的字符串,当扫描字符与高频内容集的字符串匹配时跳过高频内容,因此解决了现有技术中因忽略了流量中重复内容的特征导致的匹配效率低的问题,从而提升匹配效率。

Description

一种基于流量高频内容的模式匹配算法及系统
技术领域
本申请涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。
背景技术
企业网关的NIDS检测流量中,大量HTTP流量内含有很多重复内容,包括完全重复和部分重复。完全重复是指整个字符串多次出现,像stylesheet(如,<html,<head>,</style>),而部分重复是子字符串,例如共享的html代码。另外,来自同一个互联网内容提供商的流量非常相似,相同的html框架,类似的文件。
模式匹配的经典算法是AC算法,AC算法是基于前缀搜索的自动机算法,使用前缀来建立一个有穷状态自动机(DFA),利用这个自动机来对文本进行匹配扫描,找到文本中和模式集合完全相同的匹配信息。AC算法包括自动机和自动机扫描过程两部分,其中自动机包括goto表、Fail表、output表,goto表为状态跳转记录,fail为失败函数记录,output为命中模式记录;自动机扫描的过程是从左往右扫描,自动机从根节点开始,扫描一个字符,如果当前状态接收该字符,则跳转到下一个状态,如果不接收该字符,则根据fail表跳转到失效状态,继续扫描,直到文本全部扫描完成。
AC算法需要逐字符进行扫描,算法复杂度为O(n),忽略了流量中重复内容的特性,匹配性能低。
发明内容
为解决现有技术中存在的忽略了流量中重复内容的特征的技术问题,本发明提供了一种基于流量高频内容的模式匹配算法及系统。
一种基于流量高频内容的模式匹配系统,包括AC自动机、映射模块和UHC匹配模块;所述UHC匹配模块和AC自动机之间通过映射模块建立通讯,所述映射模块由多个映射集组成;所述UHC匹配模块创建与映射集对应的多个子集;所述AC自动机用于扫描文本,所述映射模块用于匹配高频内容,所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。
一种基于流量高频内容的模式匹配算法;包括以下步骤:
S1.创建自动机;
S1.1.根据模式集构建自动机,首先创建根节点;
S1.2.按字符顺序输入模式下一个字符,如果不存在该字符的边,则执行步骤S1.3,否则,执行步骤S1.4;当所有模式的所有字符都插入到自动机中,执行步骤S1.5;
S1.3.创建新节点,设置边值为扫描字符,返回步骤S1.2;
S1.4.自动机状态沿着该边跳转到下一个节点,返回步骤S1.2;
S1.5.深度遍历自动机,给每个节点添加失败指针;
S1.6.提取高频内容的所有模式的首字符,去掉重复字符,形成映射集,每个字符为一个独立节点;
S1.7.遍历自动机,找到映射集字符,当边值与映射集字符相同,则将当前节点与映射集字符关联;
S1.8.映射集每个字符关联高频内容,形成高频内容集,通过计算哈希值代表高频内容,n个字符对应n个高频内容集;
S1.9.每个高频内容集计算哈希值并存储;
S1.10.高频内容与自动机关联,自动机扫描高频内容,遍历到最深的节点作为高频内容命中后返回自动机的状态节点;
S2.自动机扫描;
S2.1.将流量解析后的数据输入到自动机中;
S2.2.扫描当前字符,在映射集中搜索当前字符,如果没有找到,执行下一步骤,否则执行步骤S2.4;如果当前字符是待扫描字符串的结尾字符,扫描终止;
S2.3.当前字符扫描完成自动机跳转到下一个字符,执行步骤S2.2;
S2.4.根据映射集字符选择对应的高频内容集,以哈希长度为窗口计算待匹配字符串哈希值,与高频内容哈希值比较,如果不匹配则返回到自动机当前节点,执行步骤S2.2,如果匹配则执行下一步骤;
S2.5.判断字符串是否满足判断条件,当满足判断条件时,跳转到保存在高频内容中的自动机节点,执行步骤S2.2,当不满足判断条件时执行下一步骤;
S2.6.自动机扫描下一个字符,如果已经是高频内容结尾,执行步骤S2.2,否则执行步骤S2.5。
优选的,步骤S2.4所述映射集具体是由高频内容集合中所有字符串的第一个字符去重后构成的集合。
优选的,步骤S2.4所述高频内容集生成方法为:设置高频内容集
Figure BDA0002982118320000021
设置重复字符串p的阈值T;在一定时间t内,统计输入流量中重复字符串p1,p2,...pk出现次数n1,n2,...nk,当nj≥T,1≤j≤k时,将pj添加到高频内容集中PUHC=PUHC∪pj
优选的,步骤S2.5所述判断字符串是否满足判断条件的具体方法为:假设当前字符为映射集中的pi,下标表示字符在待扫描字符串中的位置,对应的高频内容的窗口大小为k,自动机继续扫描待匹配字符串,直到扫描字节pi+j(j表示位置i向右移动的距离),其在AC自动机的深度小于或等于j时,满足判断条件。
优选的,步骤S2.4所述以哈希长度为窗口计算待匹配字符串哈希值,用多项式函数计算待匹配字符串的长度。
本发明的有益效果如下:一种基于流量高频内容的模式匹配算法以自动机的形式存在,与常用AC算法有两点不同:一是自动机构建中添加映射模块和高频内容集。二是自动机扫描不再是逐一字符扫描;自动机扫描的过程从左往右扫描,自动机从根节点开始,扫描一个字符时匹配高频内容集的字符串,当扫描字符与高频内容集的字符串匹配时跳过高频内容,因此匹配性能提升。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例所述的系统结构图;
图2为本发明实施例所述的自动机扫描流程图;
图3为本发明实施例所述的自动机构建示例图;
图4为本发明实施例所述的字符串扫描示例图;
图5为本发明实施例所述的自动机构建流程图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1,说明本实施例,本实施例的一种基于流量高频内容的模式匹配系统,包括AC自动机、映射模块和UHC匹配模块;所述UHC匹配模块和AC自动机之间通过映射模块建立通讯,所述映射模块由多个映射集组成;所述UHC匹配模块创建与映射集对应的多个子集;所述AC自动机用于扫描文本,所述映射模块用于匹配高频内容,所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。
映射模块是一个快速搜索模块,在该模块中,生成一个较小的映射集构建AC节点和高频内容匹配模块之间的桥梁,在扫描时执行快速搜索以确定是否需要对高频内容集进行二次搜索。所述映射集是指提取高频内容的所有模式的首字符,去掉重复字符,形成的合集,每个字符为一个独立节点;所述映射集中的字符与高频内容集中的字符串进行匹配,如果映射集中的字符与高频内容集中的字符串中的首字符匹配成功,提取首字符匹配成功的字符串形成高频内容集。
高频内容是指在一定时间内,流量中重复的字符串出现次数超过预先设置的阈值T时,这样的重复字符串称为高频内容,很多高频内容形成的集合被称为高频内容集,高频内容集生成的方法是,设置高频内容集
Figure BDA0002982118320000041
设置重复字符串p的阈值T;在一定时间t内,统计输入流量中重复字符串p1,p2,...pk出现次数n1,n2,...nk,当nj≥T,1≤j≤k时,将pj添加到高频内容集中,因此高频内容集可以表示为PUHC=PUHC∪Pj
高频内容匹配模块处理高频内容匹配并保存跳回AC自动机的状态。该模块创建与映射集相对应的多个子集,所有子集使用相同的高频内容匹配算法。保存的AC自动机状态是返回到AC自动机的下一个状态。每个高频内容都有一个保存的AC自动机状态。如果高频内容的后缀与AC自动机的前缀相同,则保存AC自动机中最深层的状态。状态搜索如下:一个高频内容P={p1,p2,...,pn},其反向字符串Q={qi|qi=pn-i,0≤i≤n}作为输入,从根开始遍历AC自动机。当匹配当前字符qi失败时,这表示当前遍历的路径是高频内容的最长后缀,将当前状态保存到高频内容匹配模块中。
实施例2、参照图1至图5,说明本实施例,本实施例的一种基于流量高频内容的模式匹配算法,包括以下步骤:
步骤一、创建自动机;
步骤一.一、根据模式集构建自动机,首先创建根节点;
步骤一.二、按字符顺序输入模式下一个字符,如果不存在该字符的边,则执行步骤一.三,否则,执行步骤一.四;当所有模式的所有字符都插入到自动机中,执行步骤一.五;
步骤一.三、创建新节点,设置边值为扫描字符,返回步骤一.二;
步骤一.四、自动机状态沿着该边跳转到下一个节点,返回步骤一.二;
步骤一.五、深度遍历自动机,给每个节点添加失败指针;
步骤一.六、提取高频内容的所有模式的首字符,去掉重复字符,形成映射集,每个字符为一个独立节点;
步骤一.七、遍历自动机,找到映射集字符,当边值与映射集字符相同,则将当前节点与映射集字符关联;
步骤一.八、映射集每个字符关联高频内容,形成高频内容集,通过计算哈希值代表高频内容,n个字符对应n个高频内容集;
步骤一.九、每个高频内容集计算哈希值并存储;
步骤一.十、高频内容与自动机关联,自动机扫描高频内容,遍历到最深的节点作为高频内容命中后返回自动机的状态节点。
参照图4至图5给出自动机构建示例,假设正常模式集是{E、BE、BD、BCD、JDBC},对应的AC自动机构建结构参照图4。假设高频内容集合是{BTAGXUBC,BCDZLA30TKN,JAVASCRIPT,JASONTK101B},提取第一个字符构建映射集{B,J}及对应的映射子集{BTAGXUBC,BCDZLA30TKN}和{JAVASCRIPT,JASONTK101B},两个独立映射子集去掉映射集中包括的首字母,得到{TAGXUBC,CDZLA30TKN}和{AVASCRIPT,ASONTK101B},两个新子集的窗口大小分别为7和9。通过哈希函数分别计算得到两个模式匹配算法。
引入输入文本JDBCBTAGXUBCDH。第一个字符是匹配映射集,但不是匹配的高频内容子集,逐字节扫描到状态s10,此时,BTAGXUBC在高频内容子集中。由于下一个特征是B,新的当前状态是s11,深度为5>1(高频内容的索引为1)。因为判断条件不满足,所以输入下一个字符T。此时状态为s0,深度为0<2(高频内容索引为2),判断条件建立。因此,高频内容子集中的保存状态s6是新的当前状态。算法跳过剩下的六个字符“AGXUBC”,继续扫描DH。最后,模式BCD匹配成功。扫描过程参照图5,带下划线的字符被跳过。
步骤二、自动机扫描;
步骤二.一、将流量解析后的数据输入到自动机中;
步骤二.二、扫描当前字符,在映射集中搜索当前字符,如果没有找到,执行下一步骤,否则执行步骤二.四;如果当前字符是待扫描字符串的结尾字符,扫描终止;
步骤二.三、当前字符扫描完成自动机跳转到下一个字符,执行步骤二.二;
步骤二.四、根据映射集字符选择对应的高频内容集,以哈希长度为窗口计算待匹配字符串哈希值,与高频内容哈希值比较,如果不匹配则返回到自动机当前节点,执行步骤二.二,如果匹配则执行下一步骤;
以哈希长度为窗口计算待匹配字符串哈希值,可以替换成多项式函数的方式计算待匹配字符串的长度。
步骤二.五、判断字符串是否满足判断条件,当满足判断条件时,跳转到保存在高频内容中的自动机节点,执行步骤二.二,当不满足判断条件时执行下一步骤;
判断字符串是否满足判断条件的具体方法是,假设当前字符为映射集中的pi,下标表示字符在待扫描字符串中的位置,对应的高频内容的窗口大小为k,自动机继续扫描待匹配字符串,直到扫描字节pi+j,其中j表示位置i向右移动的距离,其在AC自动机的深度小于或等于j时,满足判断条件。
步骤二.六、自动机扫描下一个字符,如果已经是高频内容结尾,执行步骤二.二,否则执行步骤二.五。
本发明的关键点在于:
1、基于高频内容的模式匹配算法;
2、基于大量重复字符串的模式匹配算法。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种基于流量高频内容的模式匹配系统,其特征在于,包括AC自动机、映射模块和UHC匹配模块;所述UHC匹配模块和AC自动机之间通过映射模块建立通讯,所述映射模块由多个映射集组成;所述UHC匹配模块创建与映射集对应的多个子集;所述AC自动机用于扫描文本,所述映射模块用于匹配高频内容,所述UHC匹配模块用于处理高频内容并保存跳回AC自动机的状态。
2.一种基于流量高频内容的模式匹配算法,其特征在于,包括以下步骤:
S1.创建自动机;
S1.1.根据模式集构建自动机,首先创建根节点;
S1.2.按字符顺序输入模式下一个字符,如果不存在该字符的边,则执行步骤S1.3,否则,执行步骤S1.4;当所有模式的所有字符都插入到自动机中,执行步骤S1.5;
S1.3.创建新节点,设置边值为扫描字符,返回步骤S1.2;
S1.4.自动机状态沿着该边跳转到下一个节点,返回步骤S1.2;
S1.5.深度遍历自动机,给每个节点添加失败指针;
S1.6.提取高频内容的所有模式的首字符,去掉重复字符,形成映射集,每个字符为一个独立节点;
S1.7.遍历自动机,找到映射集字符,当边值与映射集字符相同,则将当前节点与映射集字符关联;
S1.8.映射集每个字符关联高频内容,形成高频内容集,通过计算哈希值代表高频内容,n个字符对应n个高频内容集;
S1.9.每个高频内容集计算哈希值并存储;
S1.10.高频内容与自动机关联,自动机扫描高频内容,遍历到最深的节点作为高频内容命中后返回自动机的状态节点;
S2.自动机扫描;
S2.1.将流量解析后的数据输入到自动机中;
S2.2.扫描当前字符,在映射集中搜索当前字符,如果没有找到,执行下一步骤,否则执行步骤S2.4;如果当前字符是待扫描字符串的结尾字符,扫描终止;
S2.3.当前字符扫描完成自动机跳转到下一个字符,执行步骤S2.2;
S2.4.根据映射集字符选择对应的高频内容集,以哈希长度为窗口计算待匹配字符串哈希值,与高频内容哈希值比较,如果不匹配则返回到自动机当前节点,执行步骤S2.2,如果匹配则执行下一步骤;
S2.5.判断字符串是否满足判断条件,当满足判断条件时,跳转到保存在高频内容中的自动机节点,执行步骤S2.2,当不满足判断条件时执行下一步骤;
S2.6.自动机扫描下一个字符,如果已经是高频内容结尾,执行步骤S2.2,否则执行步骤S2.5。
3.根据权利要求2所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法,其特征在于,步骤S2.4所述映射集具体是由高频内容集合中所有字符串的第一个字符去重后构成的集合。
4.根据权利要求3所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法,其特征在于,步骤S2.4所述高频内容集生成方法为:设置高频内容集
Figure FDA0002982118310000021
设置重复字符串p的阈值T;在一定时间t内,统计输入流量中重复字符串p1,p2,...pk出现次数n1,n2,...nk,当nj≥T,1≤j≤k时,将pj添加到高频内容集中PUHC=PUHC∪pj
5.根据权利要求4所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法,其特征在于,步骤S2.5所述判断字符串是否满足判断条件的具体方法为:假设当前字符为映射集中的pi,下标表示字符在待扫描字符串中的位置,对应的高频内容的窗口大小为k,自动机继续扫描待匹配字符串,直到扫描字节pi+j,其在AC自动机的深度小于或等于j时,满足判断条件。
6.根据权利要求2所述的一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法,其特征在于,步骤S2.4所述以哈希长度为窗口计算待匹配字符串哈希值,用多项式函数计算待匹配字符串的长度。
CN202110291361.6A 2021-03-18 2021-03-18 一种基于流量高频内容的模式匹配算法及系统 Active CN113065419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110291361.6A CN113065419B (zh) 2021-03-18 2021-03-18 一种基于流量高频内容的模式匹配算法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110291361.6A CN113065419B (zh) 2021-03-18 2021-03-18 一种基于流量高频内容的模式匹配算法及系统

Publications (2)

Publication Number Publication Date
CN113065419A true CN113065419A (zh) 2021-07-02
CN113065419B CN113065419B (zh) 2022-05-24

Family

ID=76562000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110291361.6A Active CN113065419B (zh) 2021-03-18 2021-03-18 一种基于流量高频内容的模式匹配算法及系统

Country Status (1)

Country Link
CN (1) CN113065419B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113347214A (zh) * 2021-08-05 2021-09-03 湖南戎腾网络科技有限公司 一种高频状态匹配方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824927A (zh) * 2016-03-16 2016-08-03 中国互联网络信息中心 一种基于树状自动机的域名匹配方法
CN106528599A (zh) * 2016-09-23 2017-03-22 深圳凡豆信息科技有限公司 一种海量音频数据中的字符串快速模糊匹配算法
US20170277811A1 (en) * 2014-09-26 2017-09-28 British Telecommunications Public Limited Company Efficient conditional state mapping in a pattern matching automaton
CN107277109A (zh) * 2017-05-18 2017-10-20 西安交通大学 针对压缩流量的多字符串匹配方法
CN108021569A (zh) * 2016-11-01 2018-05-11 中国移动通信有限公司研究院 Ac自动机的构建和中文多模式匹配方法及相关装置
CN110071871A (zh) * 2019-03-13 2019-07-30 国家计算机网络与信息安全管理中心 一种大模式集ip地址匹配方法
CN110222143A (zh) * 2019-05-31 2019-09-10 北京小米移动软件有限公司 字符串匹配方法,装置,存储介质及电子设备
CN111159362A (zh) * 2019-12-31 2020-05-15 奇安信科技集团股份有限公司 文本匹配处理方法及装置
CN112069824A (zh) * 2020-11-11 2020-12-11 北京智慧星光信息技术有限公司 基于上下文概率和引证的地域识别方法、装置及介质
CN112506789A (zh) * 2020-12-17 2021-03-16 中国科学院计算技术研究所 一种用于数据包检测的并行模式匹配方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170277811A1 (en) * 2014-09-26 2017-09-28 British Telecommunications Public Limited Company Efficient conditional state mapping in a pattern matching automaton
CN105824927A (zh) * 2016-03-16 2016-08-03 中国互联网络信息中心 一种基于树状自动机的域名匹配方法
CN106528599A (zh) * 2016-09-23 2017-03-22 深圳凡豆信息科技有限公司 一种海量音频数据中的字符串快速模糊匹配算法
CN108021569A (zh) * 2016-11-01 2018-05-11 中国移动通信有限公司研究院 Ac自动机的构建和中文多模式匹配方法及相关装置
CN107277109A (zh) * 2017-05-18 2017-10-20 西安交通大学 针对压缩流量的多字符串匹配方法
CN110071871A (zh) * 2019-03-13 2019-07-30 国家计算机网络与信息安全管理中心 一种大模式集ip地址匹配方法
CN110222143A (zh) * 2019-05-31 2019-09-10 北京小米移动软件有限公司 字符串匹配方法,装置,存储介质及电子设备
CN111159362A (zh) * 2019-12-31 2020-05-15 奇安信科技集团股份有限公司 文本匹配处理方法及装置
CN112069824A (zh) * 2020-11-11 2020-12-11 北京智慧星光信息技术有限公司 基于上下文概率和引证的地域识别方法、装置及介质
CN112506789A (zh) * 2020-12-17 2021-03-16 中国科学院计算技术研究所 一种用于数据包检测的并行模式匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊仁都 等: "《PARA-AC:一种基于AC自动机的高性能匹配算法》", 《计算机技术与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113347214A (zh) * 2021-08-05 2021-09-03 湖南戎腾网络科技有限公司 一种高频状态匹配方法及系统

Also Published As

Publication number Publication date
CN113065419B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
US7240048B2 (en) System and method of parallel pattern matching
US7818303B2 (en) Web graph compression through scalable pattern mining
CN112131218B (zh) 一种基因对比的哈希查表方法、装置、设备及存储介质
CN101398820A (zh) 一种大规模关键词匹配方法
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
JP2017526021A (ja) データ検索におけるエラー修正装置及びその方法
CN111177491A (zh) 正则表达式的匹配方法、装置、电子设备及存储介质
CN113065419B (zh) 一种基于流量高频内容的模式匹配算法及系统
US6976025B2 (en) Database and method for storing a searchable set of keywords
CN109800337B (zh) 一种适用于大字母表的多模式正则匹配算法
US8051060B1 (en) Automatic detection of separators for compression
JP6072922B2 (ja) 文字列検索装置、文字列検索方法および文字列検索プログラム
CN116562297B (zh) 基于HTrie树的中文敏感词变形体识别方法及系统
CN111061972B (zh) 一种用于url路径匹配的ac查找优化方法和装置
CN108304467B (zh) 用于文本间匹配的方法
CN111814009B (zh) 一种基于搜索引擎检索信息的模式匹配方法
CN110795617A (zh) 一种搜索词的纠错方法及相关装置
KR101089722B1 (ko) 프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체
CN109657108B (zh) 一种域名资产数据存储和查询方法和系统
Ferragina et al. Compressed indexes for string searching in labeled graphs
CN115525801A (zh) 网络安全系统的模式匹配算法
KR101452638B1 (ko) 유사 문자열 검색 방법 및 장치
JP2000339332A (ja) 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体
CN113010882B (zh) 一种适用于缓存丢失攻击的自定义位置顺序模式匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant