CN105045808A - 一种复合规则集匹配方法和系统 - Google Patents

一种复合规则集匹配方法和系统 Download PDF

Info

Publication number
CN105045808A
CN105045808A CN201510309559.7A CN201510309559A CN105045808A CN 105045808 A CN105045808 A CN 105045808A CN 201510309559 A CN201510309559 A CN 201510309559A CN 105045808 A CN105045808 A CN 105045808A
Authority
CN
China
Prior art keywords
feature string
rule
automat
string
regular expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510309559.7A
Other languages
English (en)
Other versions
CN105045808B (zh
Inventor
王凯峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianyuan Te Tong Science And Technology Ltd
Original Assignee
Beijing Tianyuan Te Tong Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tianyuan Te Tong Science And Technology Ltd filed Critical Beijing Tianyuan Te Tong Science And Technology Ltd
Priority to CN201510309559.7A priority Critical patent/CN105045808B/zh
Publication of CN105045808A publication Critical patent/CN105045808A/zh
Application granted granted Critical
Publication of CN105045808B publication Critical patent/CN105045808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种复合规则集匹配方法和系统,包括:采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。将特征字符串采用预构的特征字符串规则集中的身份标识号码ID代替,并将代替特征字符串的ID采用十六进制表示。将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。根据自动机的跳转获得该ID与自动机的匹配结果。其中,预构的特征字符串规则集根据预定的复合规则集构造获得;预构的正则表达式集合根据预构的特征字符串规则集构造获得。通过本发明的方案,能够削弱规则之间的独立性,缩减文本信息的重复读取次数,提高实际匹配速度。

Description

一种复合规则集匹配方法和系统
技术领域
本发明涉及网络信息安全领域,尤其涉及一种复合规则集匹配方法和系统。
背景技术
在网络安全中,模式匹配广泛应用于入侵检测、内容过滤、关键字检索等领域。而现阶段,由于网络信息流量大、待匹配信息内容丰富等原因,传统的单模式和多模式匹配已经在很多实际应用领域无法很好地满足需求。类似“给定的文本需要同时命中多个特征串,且这些串之间需要复合特定的顺序”这类集匹配问题的需求则越来越大,研究的重点已从传统的单模和多模匹配的研究向更复杂的复合规则集匹配进行转移。
目前研究人员对于复合规则匹配的主要研究方法包括传统的确定有限状态自动机DFA方法、多模式匹配算法(AC、FS、WM算法)以及它们的改进方法、基于推理预测的匹配方法以及布尔表达式方法。这些算法有各自的优缺点,传统的DFA方法具有较快的匹配速度,但构造DFA消耗空间较大,构造空间与规则数呈指数型膨胀;多模匹配算法及改进方法拥有较快的匹配速度并且易于实现,但是大多都局限于单条规则匹配的研究,并没有向集合方向拓展;推理预测类算法针对某一特定的模式进行预测匹配时具有较快的匹配速度,但是不具有通用性,而且准确率不高;布尔表达式方法拥有较快的匹配速度和准确性,但是匹配效率受布尔表达式数目影响较为强烈,匹配速度不稳定。更重要的是,他们中大部分算法对于复合规则集匹配的实现手段还是逐条规则进行比对,然后整合获得匹配结果子集的信息。因此,文本信息和规则信息的重复读取次数相对较高。对于小规模规则集和文本集,这类设计方法的性能可以接受。但是当规则集合信息量增大,待匹配文本数目增多时,这类方法就无法在有效的时间内满足匹配的需求。
所以,对于复合规则集的匹配问题,必须想办法缩减文本信息的重复读取次数,从而提高实际匹配的速度。而传统方法最大的问题就是规则之间的独立性,匹配下一条规则时又要重复的读取文本内容。
发明内容
为了解决上述问题,本发明提出了一种复合规则集匹配方法和系统,能够削弱规则之间的独立性,缩减文本信息的重复读取次数,提高实际匹配速度。
为了达到上述目的,本发明提出了一种复合规则集匹配方法,该方法包括:
采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。
将特征字符串采用预构的特征字符串规则集中的身份标识ID代替,并将代替特征字符串的ID采用十六进制表示。
将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。
根据自动机的跳转获得该ID与自动机的匹配结果。
其中,预构的特征字符串规则集根据预定的复合规则集构造获得;预构的正则表达式集合根据预构的特征字符串规则集构造获得。
优选地,预构的特征字符串规则集根据预定的复合规则集构造获得包括:
将复合规则集中的每一条复合规则分解成一个特征字符串集合,字符串之间满足偏序关系;其中,每一条复合规则对应一个规则编号,每一条复合规则中的每一个特征字符串对应一个位置编号。
对特征字符串集合中的每个特征字符串进行确定ID,令该ID与每个特征字符串一一对应;其中,每个ID上记载有与其相对应的特征字符串的位置编号和规则编号。
使用该ID代替特征字符串集合中与该ID相对应的特征字符串。
优选地,预构的正则表达式集合根据预构的特征字符串规则集构造获得包括:
将特征字符串规则集中的每个代表字符串的ID表示成十六进制数。
将特征字符串规则集中的偏序关系采用预定的操作符表示。
将属于同一个规则编号下的十六进制数与预定的操作符相组合,构成一个正则表达式;特征字符串规则集中全部规则编号下的全部正则表达式构成正则表达式集合。
其中,预定的操作符满足以下条件:采用十六进制ID表示的字符串能够连续出现并且字符串之间能够间隔任意字符。
优选地,采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串的步骤包括:
将从网络信息流中获得的原始文本作为预构的AC自动机中的A输入AC自动机中。
将原始文本中的字符串与AC自动机中的A相匹配,将与AC自动机中的A匹配一致的原始文本中的字符串作为原始文本的特征字符串。
其中,AC自动机中的A是由预构的特征字符串规则集中的字符串生成的。
优选地,将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中包括:
将正则表达式集合中的全部正则表达式中的所有ID按照规则编号和位置编号的顺序输入到预先构造的确定性有限状态DFA自动机中的D中。
其中,DFA自动机中的D由预构的正则表达式集合中的正则表达式生成。
本发明还提出一种复合规则集匹配系统,该系统包括:特征字符串获得模块、替换模块、输入模块和结果模块。
特征字符串获得模块,用于采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。
替换模块,用于将特征字符串采用预构的特征字符串规则集中的身份标识ID代替,并将代替特征字符串的ID采用十六进制表示。
输入模块,用于将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。
结果模块,用于根据自动机的跳转获得该ID与自动机的匹配结果。
其中,预构的特征字符串规则集根据预定的复合规则集构造获得;预构的正则表达式集合根据预构的特征字符串规则集构造获得。
优选地,该系统还包括第一构造模块;第一构造模块根据预定的复合规则集构造预构的所述特征字符串规则集的步骤包括:
将复合规则集中的每一条复合规则分解成一个特征字符串集合,字符串之间满足偏序关系;其中,每一条复合规则对应一个规则编号,每一条复合规则中的每一个特征字符串对应一个位置编号。
对特征字符串集合中的每个特征字符串确定ID,令该ID与每个特征字符串一一对应;其中,每个ID上记载有与其相对应的特征字符串的位置编号和规则编号。
使用该ID代替特征字符串集合中与该ID相对应的特征字符串。
优选地,该系统还包括第二构造模块;第二构造模块根据预构的特征字符串规则集构造正则表达式集合的步骤包括:
将特征字符串规则集中的每个代表字符串的ID表示成十六进制数。
将特征字符串规则集中的偏序关系采用预定的操作符表示。
将属于同一个规则编号下的十六进制数与预定的操作符相组合,构成一个正则表达式;特征字符串规则集中全部规则编号下的全部正则表达式构成正则表达式集合。
其中,预定的操作符满足以下条件:采用十六进制ID表示的字符串能够连续出现并且字符串之间能够间隔任意字符。
优选地,特征字符串获得模块采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串的步骤包括:
将从网络信息流中获得的原始文本作为预构的AC自动机中的A输入AC自动机中。
将原始文本中的字符串与AC自动机中的A相匹配,将与AC自动机中的A匹配一致的原始文本中的字符串作为原始文本的特征字符串。
其中,AC自动机中的A是由预构的特征字符串规则集中的字符串生成的。
优选地,输入模块将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中包括:
将正则表达式集合中的全部正则表达式中的所有ID按照规则编号和位置编号的顺序输入到预先构造的确定性有限状态DFA自动机中的D中。
其中,DFA自动机中的D由预构的正则表达式集合中的正则表达式生成。
与现有技术相比,本发明包括:采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。将特征字符串采用预构的特征字符串规则集中的身份标识ID代替,并将代替特征字符串的ID采用十六进制表示。将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。根据自动机的跳转获得该ID与自动机的匹配结果。其中,预构的特征字符串规则集根据预定的复合规则集构造获得;预构的正则表达式集合根据预构的特征字符串规则集构造获得。通过本发明的方案,能够削弱规则之间的独立性,缩减文本信息的重复读取次数,提高实际匹配速度。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的复合规则集匹配方法流程图;
图2为本发明的复合规则集匹配系统框图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
本发明提供了一种各个子特征串之间为偏序的复合规则匹配方法,适用于网络信息安全及文本检索等特征串匹配领域。本发明方案首先对复合规则集进行预处理,将复合规则集拆分成两个规则集,一个为特征字符串规则集,其中的每一个字符串都由复合规则还原过程中得到,且每一特特征字符串都对应一个唯一的ID。另一个是正则表达式集合,其中的每一条规则都是通过“.*”将若干个特征字符串对应的ID连接起来而组成。在匹配过程中,我们使用两轮匹配法。首先使用多模串匹配算法来处理文本,得到原始文本中所命中的特征字符串,并得到其对应的ID。然后,将得到的ID作为“文本”输入,用于正则表达式规则集的匹配,并最终得到匹配的结果。下面将详细介绍本发明的实施方案。
具体地,本发明提出了一种复合规则集匹配方法,如图1所示,该方法包括:
S101、采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。
优选地,采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串的步骤包括:
S1011、将从网络信息流中获得的原始文本作为预构的AC自动机中的A输入AC自动机中。
S1012、将原始文本中的字符串与AC自动机中的A相匹配,将与AC自动机中的A匹配一致的原始文本中的字符串作为原始文本的特征字符串。
其中,AC自动机中的A是由预构的特征字符串规则集中的字符串生成的。
S102、将特征字符串采用预构的特征字符串规则集中的身份标识ID代替,并将代替特征字符串的ID采用十六进制表示。其中,预构的特征字符串规则集根据预定的复合规则集构造获得。
优选地,预构的特征字符串规则集根据预定的复合规则集构造获得包括:
S1021、将复合规则集中的每一条复合规则分解成一个特征字符串集合,字符串之间满足偏序关系;其中,每一条复合规则对应一个规则编号,每一条复合规则中的每一个特征字符串对应一个位置编号。
S1022、对特征字符串集合中的每个特征字符串确定ID,令该ID与每个特征字符串一一对应;其中,每个ID上记载有与其相对应的特征字符串的位置编号和规则编号。
S1023、使用该ID代替特征字符串集合中与该ID相对应的特征字符串。
S103、将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。其中,预构的正则表达式集合根据预构的特征字符串规则集构造获得。
优选地,预构的正则表达式集合根据预构的特征字符串规则集构造获得包括:
S1031、将特征字符串规则集中的每个代表字符串的ID表示成十六进制数。即,采用‘0’~‘F’这16个字符来表示该ID。
S1032、将特征字符串规则集中的偏序关系采用预定的操作符表示。
S1033、将属于同一个规则编号下的十六进制数与预定的操作符相组合,构成一个正则表达式;特征字符串规则集中全部规则编号下的全部正则表达式构成正则表达式集合。
其中,预定的操作符满足以下条件:采用十六进制ID表示的字符串能够连续出现并且字符串之间能够间隔任意字符。
在本发明实施例中,预定的操作符可以选用“.*”操作符。
优选地,将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中包括:
将正则表达式集合中的全部正则表达式中的所有ID按照规则编号和位置编号的顺序输入到预先构造的确定性有限状态DFA自动机中的D中。
其中,DFA自动机中的D由预构的正则表达式集合中的正则表达式生成。
S104、根据自动机的跳转获得该ID与自动机的匹配结果。
下面经通过具体实施例来机一部介绍本发明的方案。
本发明的方案中具体包括两个过程:预处理过程和匹配过程。
1、预处理过程如下:
1.1)抽取出复合规则集S中的每一个关键字(即,特征字符串)Rij(i为规则的编号,j为关键字在规则内的位置),形成关键字集合:R。其中,Rij之间满足偏序关系。
1.2)对R中的每个关键字进行id编号,即,将Rij转变为IDij(Rij->IDij),IDij从0x0001开始,并将关键字Rij和IDij的对应关系存储在数据结构T中。
1.3)由IDij生成对应的正则表达式Express_i=IDi1.*IDi2.*…..IDij.*…..。
1.4)R中的关键字生成AC自动机A,并使用Express_set中的正则表达式生成DFA自动机D。
2、匹配过程如下:
2.1)将原始文本TEXT作为AC自动机A的输入,找到文本里是包含的关键字Rij,得到匹配结果result_text={Rx1y1,Rx2y2,…}。
2.2)将2.1)得到的匹配结果result_text中含有的关键字信息Rxy与T里面的对应关系进行比对,将关键字信息转化为id信息。即,将result_text={Rx1y1,Rx2y2,…}转化为Result_id={IDx1y1,IDx2y2,....}。
2.3)将reqult_id中的所有ID作为DFA的输入按照顺序输入到DFA自动机的D中,并等待DFA自动机的跳转最终得到结果。
需要说明的是:
1、本发明方案中所提到的规则预处理方法,即:规则分析与ID标定,适用于本说明所提到的应用领域以及其它任何需要进行规则处理方法的领域以及规则处理方法中。
2、本发明方案方案中所提供的复合规则集匹配方法为一个通用方法。在匹配过程中可以根据规则集的特点选择不同的多模特征匹配算法来完成原始文本的处理,并使用各种正则表达式匹配方法来完成正则表达式的匹配。包括但不限于:基于自动机的方法以及各种自动机方法的改进方法。
本发明还提出一种复合规则集匹配系统01,如图2所示,该系统包括:特征字符串获得模块02、替换模块03、输入模块04和结果模块05。
特征字符串获得模块02,用于采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。
优选地,特征字符串获得模块02采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串的步骤包括:
将从网络信息流中获得的原始文本作为预构的AC自动机中的A输入AC自动机中。
将原始文本中的字符串与AC自动机中的A相匹配,将与AC自动机中的A匹配一致的原始文本中的字符串作为原始文本的特征字符串。
其中,AC自动机中的A是由预构的特征字符串规则集中的字符串生成的。
替换模块03,用于将特征字符串采用预构的特征字符串规则集中的身份标识号码ID代替,并将代替特征字符串的ID采用十六进制表示。其中,预构的特征字符串规则集根据预定的复合规则集构造获得。
优选地,该系统还包括第一构造模块06;第一构造模块06根据预定的复合规则集构造预构的所述特征字符串规则集的步骤包括:
将复合规则集中的每一条复合规则分解成一个特征字符串集合,字符串之间满足偏序关系;其中,每一条复合规则对应一个规则编号,每一条复合规则中的每一个特征字符串对应一个位置编号。
对特征字符串集合中的每个特征字符串确定ID,令该ID与每个特征字符串一一对应;其中,每个ID上记载有与其相对应的特征字符串的位置编号和规则编号。
使用该ID代替特征字符串集合中与该ID相对应的特征字符串。
输入模块04,用于将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。其中,预构的正则表达式集合根据预构的特征字符串规则集构造获得。
优选地,该系统还包括第二构造模块07;第二构造模块07根据预构的特征字符串规则集构造正则表达式集合的步骤包括:
将特征字符串规则集中的每个代表字符串的ID表示成十六进制数。
将特征字符串规则集中的偏序关系采用预定的操作符表示。
将属于同一个规则编号下的十六进制数与预定的操作符相组合,构成一个正则表达式;特征字符串规则集中全部规则编号下的全部正则表达式构成正则表达式集合。
其中,预定的操作符满足以下条件:采用十六进制ID表示的字符串能够连续出现并且字符串之间能够间隔任意字符。
优选地,输入模块将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中包括:
将正则表达式集合中的全部正则表达式中的所有ID按照规则编号和位置编号的顺序输入到预先构造的确定性有限状态DFA自动机中的D中。
其中,DFA自动机中的D由预构的正则表达式集合中的正则表达式生成。
结果模块05,用于根据自动机的跳转获得该ID与自动机的匹配结果。
本发明公开了一种复合规则集匹配方法和系统,包括:特征字符串获得模块02,用于采用多模匹配算法处理从网络信息流中获得的原始文本,获得原始文本中的特征字符串。替换模块03,用于将特征字符串采用预构的特征字符串规则集中的身份标识号码ID代替,并将代替特征字符串的ID采用十六进制表示。输入模块04,用于将十六进制形式的ID按顺序输入由预构的正则表达式集合预先构造的自动机中。结果模块05,用于根据自动机的跳转获得该ID与自动机的匹配结果。其中,预构的特征字符串规则集根据预定的复合规则集构造获得;预构的正则表达式集合根据预构的特征字符串规则集构造获得。通过本发明的方案,能够削弱规则之间的独立性,缩减文本信息的重复读取次数,提高实际匹配速度。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (10)

1.一种复合规则集匹配方法,其特征在于,所述方法包括:
采用多模匹配算法处理从网络信息流中获得的原始文本,获得所述原始文本中的特征字符串;
将所述特征字符串采用预构的特征字符串规则集中的身份标识ID代替,并将代替所述特征字符串的所述ID采用十六进制表示;
将十六进制形式的所述ID按顺序输入由预构的正则表达式集合预先构造的自动机中;
根据所述自动机的跳转获得所述ID与所述自动机的匹配结果;
其中,所述预构的特征字符串规则集根据预定的所述复合规则集构造获得;所述预构的正则表达式集合根据所述预构的特征字符串规则集构造获得。
2.如权利要求1所述的方法,其特征在于,所述预构的特征字符串规则集根据预定的所述复合规则集构造获得包括:
将所述复合规则集中的每一条复合规则分解成一个特征字符串集合,所述字符串之间满足偏序关系;其中,所述每一条复合规则对应一个规则编号,所述每一条复合规则中的每一个所述特征字符串对应一个位置编号;
对所述特征字符串集合中的每个特征字符串确定所述ID,令所述ID与所述每个特征字符串一一对应;其中,每个所述ID上记载有与其相对应的所述特征字符串的所述位置编号和所述规则编号;
使用所述ID代替所述特征字符串集合中与所述ID相对应的所述特征字符串。
3.如权利要求2所述的方法,其特征在于,所述预构的正则表达式集合根据所述预构的特征字符串规则集构造获得包括:将所述特征字符串规则集中的每个代表所述字符串的所述ID表示成十六进制数;
将所述特征字符串规则集中的所述偏序关系采用预定的操作符表示;
将属于同一个所述规则编号下的所述十六进制数与所述预定的操作符相组合,构成一个正则表达式;所述特征字符串规则集中全部所述规则编号下的全部所述正则表达式构成所述正则表达式集合;
其中,所述预定的操作符满足以下条件:采用十六进制ID表示的所述字符串能够连续出现并且所述字符串之间能够间隔任意字符。
4.如权利要求1所述的方法,其特征在于,所述采用多模匹配算法处理从网络信息流中获得的原始文本,获得所述原始文本中的特征字符串的步骤包括:
将从网络信息流中获得的所述原始文本作为预构的AC自动机中的A输入所述AC自动机中;
将所述原始文本中的字符串与所述AC自动机中的A相匹配,将与所述AC自动机中的A匹配一致的所述原始文本中的字符串作为所述原始文本的特所述征字符串;
其中,所述AC自动机中的A是由预构的所述特征字符串规则集中的所述字符串生成的。
5.如权利要求3所述的方法,其特征在于,所述将十六进制形式的所述ID按顺序输入由预构的正则表达式集合预先构造的自动机中包括:
将所述正则表达式集合中的全部所述正则表达式中的所有所述ID按照所述规则编号和所述位置编号的顺序输入到预先构造的确定性有限状态DFA自动机中的D中;
其中,所述DFA自动机中的D由预构的所述正则表达式集合中的所述正则表达式生成。
6.一种复合规则集匹配系统,其特征在于,所述系统包括:特征字符串获得模块、替换模块、输入模块和结果模块;
所述特征字符串获得模块,用于采用多模匹配算法处理从网络信息流中获得的原始文本,获得所述原始文本中的特征字符串;
所述替换模块,用于将所述特征字符串采用预构的特征字符串规则集中的身份标识ID代替,并将代替所述特征字符串的所述ID采用十六进制表示;
所述输入模块,用于将十六进制形式的所述ID按顺序输入由预构的正则表达式集合预先构造的自动机中;
所述结果模块,用于根据所述自动机的跳转获得所述ID与所述自动机的匹配结果;
其中,所述预构的特征字符串规则集根据预定的所述复合规则集构造获得;所述预构的正则表达式集合根据所述预构的特征字符串规则集构造获得。
7.如权利要求6所述的系统,其特征在于,所述系统还包括第一构造模块;所述第一构造模块根据预定的所述复合规则集构造所述预构的所述特征字符串规则集的步骤包括:
将所述复合规则集中的每一条复合规则分解成一个特征字符串集合,所述字符串之间满足偏序关系;其中,所述每一条复合规则对应一个规则编号,所述每一条复合规则中的每一个所述特征字符串对应一个位置编号;
对所述特征字符串集合中的每个特征字符串确定所述ID,令所述ID与所述每个特征字符串一一对应;其中,每个所述ID上记载有与其相对应的所述特征字符串的所述位置编号和所述规则编号;
使用所述ID代替所述特征字符串集合中与所述ID相对应的所述特征字符串。
8.如权利要求7所述的系统,其特征在于,所述系统还包括第二构造模块;所述第二构造模块根据所述预构的特征字符串规则集构造所述正则表达式集合的步骤包括:
将所述特征字符串规则集中的每个代表所述字符串的所述ID表示成十六进制数;
将所述特征字符串规则集中的所述偏序关系采用预定的操作符表示;
将属于同一个所述规则编号下的所述十六进制数与所述预定的操作符相组合,构成一个正则表达式;所述特征字符串规则集中全部所述规则编号下的全部所述正则表达式构成所述正则表达式集合;
其中,所述预定的操作符满足以下条件:采用十六进制ID表示的所述字符串能够连续出现并且所述字符串之间能够间隔任意字符。
9.如权利要求6所述的系统,其特征在于,所述特征字符串获得模块采用多模匹配算法处理从网络信息流中获得的原始文本,获得所述原始文本中的特征字符串的步骤包括:
将从网络信息流中获得的所述原始文本作为预构的AC自动机中的A输入所述AC自动机中;
将所述原始文本中的字符串与所述AC自动机中的A相匹配,将与所述AC自动机中的A匹配一致的所述原始文本中的字符串作为所述原始文本的特所述征字符串;
其中,所述AC自动机中的A是由预构的所述特征字符串规则集中的所述字符串生成的。
10.如权利要求8所述的系统,其特征在于,所述输入模块将十六进制形式的所述ID按顺序输入由预构的正则表达式集合预先构造的自动机中包括:
将所述正则表达式集合中的全部所述正则表达式中的所有所述ID按照所述规则编号和所述位置编号的顺序输入到预先构造的确定性有限状态DFA自动机中的D中;
其中,所述DFA自动机中的D由预构的所述正则表达式集合中的所述正则表达式生成。
CN201510309559.7A 2015-06-08 2015-06-08 一种复合规则集匹配方法和系统 Active CN105045808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510309559.7A CN105045808B (zh) 2015-06-08 2015-06-08 一种复合规则集匹配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510309559.7A CN105045808B (zh) 2015-06-08 2015-06-08 一种复合规则集匹配方法和系统

Publications (2)

Publication Number Publication Date
CN105045808A true CN105045808A (zh) 2015-11-11
CN105045808B CN105045808B (zh) 2018-11-02

Family

ID=54452355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510309559.7A Active CN105045808B (zh) 2015-06-08 2015-06-08 一种复合规则集匹配方法和系统

Country Status (1)

Country Link
CN (1) CN105045808B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708956A (zh) * 2016-11-29 2017-05-24 中国人民解放军国防科学技术大学 一种基于多url规则集的http数据匹配方法
CN108170812A (zh) * 2017-12-29 2018-06-15 迈普通信技术股份有限公司 一种数据过滤方法及设备
CN110830416A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 网络入侵检测方法和装置
CN112994931A (zh) * 2021-02-05 2021-06-18 绿盟科技集团股份有限公司 一种规则匹配的方法及其设备
CN115292558A (zh) * 2022-08-12 2022-11-04 苏州浪潮智能科技有限公司 基于正则表达式的模式匹配方法、系统、存储介质及设备
CN115935961A (zh) * 2022-10-27 2023-04-07 安芯网盾(北京)科技有限公司 一种多模匹配实现多级与的高性能算法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071765A1 (en) * 2006-09-19 2008-03-20 Netlogic Microsystems, Inc. Regular expression searching of packet contents using dedicated search circuits
CN101388044A (zh) * 2008-11-05 2009-03-18 北京启明星辰信息技术股份有限公司 匹配规则包含或运算符的并行多模式匹配的方法及系统
CN101645069A (zh) * 2008-08-04 2010-02-10 中国科学院计算机网络信息中心 一种多模式匹配中正则表达式存储压缩方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071765A1 (en) * 2006-09-19 2008-03-20 Netlogic Microsystems, Inc. Regular expression searching of packet contents using dedicated search circuits
CN101645069A (zh) * 2008-08-04 2010-02-10 中国科学院计算机网络信息中心 一种多模式匹配中正则表达式存储压缩方法
CN101388044A (zh) * 2008-11-05 2009-03-18 北京启明星辰信息技术股份有限公司 匹配规则包含或运算符的并行多模式匹配的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张树壮 等: "大规模复杂规则匹配技术研究", 《高技术通讯》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708956A (zh) * 2016-11-29 2017-05-24 中国人民解放军国防科学技术大学 一种基于多url规则集的http数据匹配方法
CN106708956B (zh) * 2016-11-29 2019-08-16 中国人民解放军国防科学技术大学 一种基于多url规则集的http数据匹配方法
CN108170812A (zh) * 2017-12-29 2018-06-15 迈普通信技术股份有限公司 一种数据过滤方法及设备
CN108170812B (zh) * 2017-12-29 2020-06-19 迈普通信技术股份有限公司 一种数据过滤方法及设备
CN110830416A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 网络入侵检测方法和装置
CN112994931A (zh) * 2021-02-05 2021-06-18 绿盟科技集团股份有限公司 一种规则匹配的方法及其设备
CN112994931B (zh) * 2021-02-05 2023-01-17 绿盟科技集团股份有限公司 一种规则匹配的方法及其设备
CN115292558A (zh) * 2022-08-12 2022-11-04 苏州浪潮智能科技有限公司 基于正则表达式的模式匹配方法、系统、存储介质及设备
CN115292558B (zh) * 2022-08-12 2024-01-26 苏州浪潮智能科技有限公司 基于正则表达式的模式匹配方法、系统、存储介质及设备
CN115935961A (zh) * 2022-10-27 2023-04-07 安芯网盾(北京)科技有限公司 一种多模匹配实现多级与的高性能算法及装置

Also Published As

Publication number Publication date
CN105045808B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN105045808A (zh) 一种复合规则集匹配方法和系统
US9372929B2 (en) Methods and systems for node and link identification
CN105095204B (zh) 同义词的获取方法及装置
CN106776544A (zh) 人物关系识别方法及装置和分词方法
CN101154228A (zh) 一种分段模式匹配方法及其装置
JP7096919B2 (ja) エンティティワードの認識方法と装置
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN105095433A (zh) 实体推荐方法及装置
CN102857493A (zh) 内容过滤方法和装置
CN104899264A (zh) 一种多模式正则表达式匹配方法及装置
CN104679731B (zh) 提取页面中关键词的方法及装置
KR101054824B1 (ko) 키워드 시맨틱 네트워크 구성을 통한 특허정보 시각화 시스템 및 그 방법
Kwapong et al. A knowledge graph based framework for web API recommendation
CN110427404A (zh) 一种区块链跨链数据检索系统
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN107992549A (zh) 动态短文本流聚类检索方法
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
Chen et al. PSO-ANE: Adaptive network embedding with particle swarm optimization
CN103166942A (zh) 一种恶意代码的网络协议解析方法
CN105474214A (zh) 文本字符串搜索设备、文本字符串搜索方法和文本字符串搜索程序
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN100483402C (zh) 用于执行高速上下文检索和数据模式特征描述的可编程规则处理设备
Joshi et al. Sequential pattern mining using formal language tools

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant