CN106878289A - 基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置 - Google Patents

基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置 Download PDF

Info

Publication number
CN106878289A
CN106878289A CN201710045991.9A CN201710045991A CN106878289A CN 106878289 A CN106878289 A CN 106878289A CN 201710045991 A CN201710045991 A CN 201710045991A CN 106878289 A CN106878289 A CN 106878289A
Authority
CN
China
Prior art keywords
tmfa
matching
rule
template
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710045991.9A
Other languages
English (en)
Inventor
卜佑军
刘洪�
伊鹏
张震
韩伟涛
马海龙
董永吉
李向涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201710045991.9A priority Critical patent/CN106878289A/zh
Publication of CN106878289A publication Critical patent/CN106878289A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于多维模板有限自动机TMFA的正则表达式匹配方法及其装置,该装置包含:规则分组模板获取模块,用于根据输入特性构建正则表达式规则分组模板信息;规则集分组模块,用于根据规则分组模板信息,将规则集划分为若干个规则子集;匹配引擎模块,用于根据系统结构构建匹配引擎;字符快速匹配模块,用于根据多维模板有限自动机TMFA的匹配引擎,对待匹配数据中不同字符的数据进行快速匹配。本发明提高正则表达式高速低存储的能力,为入侵检测系统提供可靠的性能保证;提升正则表达式的匹配时间复杂度、状态空间复杂度以及存储空间复杂度;提供对入侵检测系统中根据规则模板进行快速匹配的可靠性能,从而降低匹配时间。

Description

基于多维模板有限自动机TMFA的正则表达式匹配方法及其 装置
技术领域
本发明属于网络安全技术领域,特别涉及一种基于多维模板有限自动机TMFA的正则表达式匹配方法及其装置。
背景技术
现有的正则表达式面临着高速低存储的性能挑战,由于算法普遍缺乏数学模型的理论创新,对状态和存储空间的压缩不彻底,同时算法在压缩空间的同时,往往不能保证常数级别的匹配时间复杂度,降低了系统匹配效率,难以应用于IDS中。传统的基于DFA的正则表达式算法已经不能满足当前不断复杂的攻击模式和不断更新的网络业务,往往会产生“状态爆炸”问题,针对“状态爆炸”问题,基于多维有限自动机TMFA的正则表达式通过扩展多维立方体算法和模型,设计规则分组模板,提高了正则表达式的高速低存储能力。目前,如何设计高速低存储的正则表达式匹配算法,从而为入侵检测系统提供可靠的性能保证,是正则表达式面临的重要挑战。
发明内容
针对现有技术中的不足,本发明提供一种基于多维模板有限自动机TMFA的正则表达式匹配方法及其装置,通过多维有限自动机TMFA引入驱动特性,对所有类型的规则进行彻底的冗余缩减,并且根据IDS规则类型特点,设计规则分组模板,然后根据规则模板将规则集划分为若干个规则子集,各个规则子集根据系统结构分别构建高速低存储的匹配引擎,提高了正则表达式高速低存储的能力,从而为入侵检测系统提供了可靠的性能保证。
按照本发明所提供的设计方案,一种基于多维模板有限自动机TMFA的正则表达式匹配方法,包含如下步骤:
步骤1、根据多维模板有限自动机TMFA的输入特性,设计正则表达式的规则分组模板信息;
步骤2、根据规则分组模板信息,将规则集划分为若干个规则子集;
步骤3、根据TMFA系统结构,将若干个规则子集进行规则预处理,按照规则类型分别构造多维模板自动机TMFA,并构建正则表达式的匹配引擎;
步骤4、通过正则表达式的匹配引擎,将对待匹配数据送入各个匹配引擎,完成入侵检测字符的快速匹配。
上述的,所述的步骤1包含如下内容:基于驱动特性,确定正则表达式输入文本控制和输入规则控制,构建正则表达式的规则分组模板信息。
上述的,所述的步骤2包含如下内容:根据规则分组模板信息,结合识别的PCRE库基本字符语法,得到用于查找字符或子表达式的模板集合,确定文本处理后的规则集,将各类规则集进行划分,形成若干个按照方案联合编译的规则子集,并确定多维模板有限自动机TMFA结构表达形式。
上述的,确定结构表达形式,包含:根据规则集划分分组,得到正则表达式的若干规则子集,并对规则子集进行联合编译,通过多维状态转移图和多维状态转移算法,获取多维模板有限自动机TMFA的结构表达形式。
上述的,所述的步骤3包含如下内容:根据TMFA系统结构,对若干个规则子集进行预处理;根据结构表达形式的规则类型分别构造多维模板自动机TMFA,生成每个规则子集对应的TMFA状态转移表,通过状态转移表,构建规则子集对应的正则表达式匹配引擎。
优选的,根据IDS规则集,生成每个规则子集对应的TMFA状态转移表。
上述的,所述的步骤4包含如下内容:通过匹配判决将待匹配数据中相同数据送入各个匹配引擎,根据状态位置获取状态跳转信息进行状态跳转,并通过TMFA匹配算法对不同字符的数据进行快速匹配。
一种基于多维模板有限自动机TMFA的正则表达式匹配装置,包含如下内容:
规则分组模板获取模块,用于根据多维模板有限自动机TMFA的输入特性构建正则表达式规则分组模板信息;
规则集分组模块,用于根据规则分组模板信息,将规则集划分为若干个规则子集;
匹配引擎模块,用于根据TMFA将若干个规则子集进行规则预处理,按照规则类型分别构造多维模板自动机TMFA,构建正则表达式的匹配引擎;
字符快速匹配模块,将送入系统的待匹配数据中相同数据送入各个正则表达式的匹配引擎,完成入侵检测字符的快速匹配。
上述的装置中,所述的规则集分组模块包含:
规则集划分单元,用于根据规则分组模板信息,并结合识别的PCRE库基本字符语法,将各类规则集进行划分,形成若干个按照方案联合编译的规则子集;
结构形式表达单元,根据对若干个规则子集进行联合编译,通过多维状态转移图和多维状态转移算法,获取多维模板有限自动机TMFA的结构表达形式。
本发明的有益效果:
本发明通过扩展多维立方体的算法和状态转移模型,根据IDS规则类型特点,设计规则分组模板,然后根据规则模板将规则集划分为若干个规则子集,各个规则子集根据系统结构分别构建高速低存储的匹配引擎,提高了正则表达式高速低存储的能力,从而为入侵检测系统提供了可靠的性能保证;与现有技术相比,通过对M-D-Cube-DFA的模型和算法进行修正和扩展,极大改善了DFA“状态爆炸”问题,降低了正则表达式的匹配时间复杂度、状态空间复杂度以及存储空间复杂度,提高了正则表达式的高速低存储能力。同时,与DFA相比,TMFA的处理时间和匹配时间下降了约1~2个数量级,因此本发明能够提供可靠性能对入侵检测系统中根据规则模板进行高效快速匹配。
附图说明:
为了更清楚地说明本发明的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的装置示意图;
图2为本发明的方法流程示意图;
图3为规则分组模板信息建立流程图;
图4为规则集划分分组流程图;
图5为结构表达形式建立流程示意图;
图6为匹配引擎构建流程示意图;
图7为字符的快速匹配流程示意图。
具体实施方式:
首先对本文出现的技术名词或术语进行解释,以方便本领域技术人员对本文技术方案的理解。
正则表达式:一类特殊的字符串,是一种类型的语言的定义记号,由于其强大的描述能力以及灵活的匹配方式迅速成为特征的主流描述语言。
多维有限自动机:通过在多维空间构造联合DFA,利用多维STD的对称性压缩存储空间。
规则驱动特性:正则表达式匹配引擎的空间复杂度(状态数目和存储空间)受规则类型影响,规则产生的状态数目大于其规则中字符数量。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,参见图1所示,一种基于多维模板有限自动机TMFA的正则表达式匹配装置,包含如下内容:
规则分组模板获取模块,用于根据多维模板有限自动机TMFA的输入特性构建正则表达式规则分组模板信息;
规则集分组模块,用于根据规则分组模板信息,将规则集划分为若干个规则子集;
匹配引擎模块,用于根据系统结构构建匹配引擎;
字符快速匹配模块,用于根据多维模板有限自动机TMFA的匹配引擎,对待匹配数据中不同字符的数据进行快速匹配。
通过扩展多维立方体的算法和状态转移模型,根据IDS规则类型特点,设计规则分组模板,然后根据规则模板将规则集划分为若干个规则子集,各个规则子集根据系统结构分别构建高速低存储的匹配引擎,提高了正则表达式高速低存储的能力,从而为入侵检测系统提供了可靠的性能保证。
实施例二,与实施例一基本相同,不同之处在于:规则集分组模块包含:
规则集划分单元,用于根据规则模板获取模块构建的正则表达式规则模板信息来获取多维模板有限自动机TMFA的规则集划分和分组;
结构形式表达单元,用于根据多维模板有限自动机TMFA的规则集划分和分组,获取其结构表达形式。
实施例三,参见图1~2所示,一种基于多维模板有限自动机TMFA的正则表达式匹配方法,包含如下步骤:
步骤1、根据多维模板有限自动机TMFA的输入特性,设计正则表达式的规则分组模板信息;
步骤2、根据规则分组模板信息,将规则集划分为若干个规则子集;
步骤3、根据TMFA系统结构,将若干个规则子集进行规则预处理,按照规则类型分别构造多维模板自动机TMFA,并构建正则表达式的匹配引擎;
步骤4、通过正则表达式的匹配引擎,将对待匹配数据送入各个匹配引擎,完成入侵检测字符的快速匹配。
与现有技术相比,通过对M-D-Cube-DFA的模型和算法进行修正和扩展,克服了DFA“状态爆炸”问题,提升了正则表达式的匹配时间复杂度、状态空间复杂度以及存储空间复杂度。同时,本发明提供可靠性能对入侵检测系统中根据规则模板进行快速匹配,从而降低匹配时间。
实施例四,参见图1~7所示,一种基于多维模板有限自动机TMFA的正则表达式匹配方法,包含如下内容:
a、根据多维模板有限自动机TMFA的输入特性,基于驱动特性,确定正则表达式输入文本控制和输入规则控制,构建正则表达式的规则分组模板信息,通过模板自动将规则集按照特定的方式分割。
b、根据规则分组模板信息,结合识别的PCRE库基本字符语法,得到用于查找字符或子表达式的模板集合,确定文本处理后的规则集,将各类规则集进行划分,形成若干个按照一定方案联合编译不会产生状态爆炸问题的规则子集,并对规则子集进行联合编译,通过多维状态转移图和多维状态转移算法,获取多维模板有限自动机TMFA的结构表达形式。
c、根据TMFA系统结构,对若干个规则子集进行预处理;根据结构表达形式的规则类型分别构造多维模板自动机TMFA,生成每个规则子集对应的TMFA状态转移表,通过状态转移表,构建高速的规则子集对应的正则表达式匹配引擎。
d、通过匹配判决将待匹配数据中相同数据送入匹配引擎,根据状态位置获取状态跳转信息进行状态跳转,并通过TMFA匹配算法对不同字符的数据进行快速匹配。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,包含如下步骤:
步骤1、根据多维模板有限自动机TMFA的输入特性,设计正则表达式的规则分组模板信息;
步骤2、根据规则分组模板信息,将规则集划分为若干个规则子集;
步骤3、根据TMFA系统结构,将若干个规则子集进行规则预处理,按照规则类型分别构造多维模板自动机TMFA,并构建正则表达式的匹配引擎;
步骤4、通过正则表达式的匹配引擎,将对待匹配数据送入各个匹配引擎,完成入侵检测字符的快速匹配。
2.根据权利要求1所述的基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,所述的步骤1包含如下内容:基于驱动特性,确定正则表达式输入文本控制和输入规则控制,构建正则表达式的规则分组模板信息。
3.根据权利要求1所述的基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,所述的步骤2包含如下内容:根据规则分组模板信息,结合识别的PCRE库基本字符语法,得到用于查找字符或子表达式的模板集合,确定文本处理后的规则集,将各类规则集进行划分,形成若干个按照方案联合编译的规则子集,并确定多维模板有限自动机TMFA结构表达形式,
4.根据权利要求3所述的基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,确定结构表达形式,包含:根据规则集划分分组,得到正则表达式的若干规则子集,并对规则子集进行联合编译,通过多维状态转移图和多维状态转移算法,获取多维模板有限自动机TMFA的结构表达形式。
5.根据权利要求3所述的基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,所述的步骤3包含如下内容:根据TMFA系统结构,对若干个规则子集进行预处理;根据结构表达形式的规则类型分别构造多维模板自动机TMFA,生成每个规则子集对应的TMFA状态转移表,通过状态转移表,构建规则子集对应的正则表达式匹配引擎。
6.根据权利要求5所述的基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,根据IDS规则集生成每个规则子集对应的TMFA状态转移表。
7.根据权利要求1所述的基于多维模板有限自动机TMFA的正则表达式匹配方法,其特征在于,所述的步骤4包含如下内容:通过匹配判决将待匹配数据中相同数据送入各个匹配引擎,根据状态位置获取状态跳转信息进行状态跳转,并通过TMFA匹配算法对不同字符的数据进行快速匹配。
8.一种基于多维模板有限自动机TMFA的正则表达式匹配装置,其特征在于,包含如下内容:
规则分组模板获取模块,用于根据多维模板有限自动机TMFA的输入特性构建正则表达式规则分组模板信息;
规则集分组模块,用于根据规则分组模板信息,将规则集划分为若干个规则子集;
匹配引擎模块,用于根据TMFA将若干个规则子集进行规则预处理,按照规则类型分别构造多维模板自动机TMFA,构建正则表达式的匹配引擎;
字符快速匹配模块,将送入系统的待匹配数据中相同数据送入各个正则表达式的匹配引擎,完成入侵检测字符的快速匹配。
9.根据权利要求8所述的基于多维模板有限自动机TMFA的正则表达式匹配装置,其特征在于,所述的规则集分组模块包含:
规则集划分单元,用于根据规则分组模板信息,并结合识别的PCRE库基本字符语法,将各类规则集进行划分,形成若干个按照方案联合编译的规则子集;
结构形式表达单元,根据对若干个规则子集进行联合编译,通过多维状态转移图和多维状态转移算法,获取多维模板有限自动机TMFA的结构表达形式。
CN201710045991.9A 2017-01-22 2017-01-22 基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置 Pending CN106878289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710045991.9A CN106878289A (zh) 2017-01-22 2017-01-22 基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710045991.9A CN106878289A (zh) 2017-01-22 2017-01-22 基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置

Publications (1)

Publication Number Publication Date
CN106878289A true CN106878289A (zh) 2017-06-20

Family

ID=59157928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710045991.9A Pending CN106878289A (zh) 2017-01-22 2017-01-22 基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置

Country Status (1)

Country Link
CN (1) CN106878289A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220381A (zh) * 2017-06-28 2017-09-29 南京云问网络技术有限公司 一种面向问答系统的输入文本自动纠错方法
CN113596043A (zh) * 2021-08-03 2021-11-02 中国电信股份有限公司 攻击检测方法、攻击检测装置、存储介质与电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853301A (zh) * 2010-05-25 2010-10-06 华为技术有限公司 正则表达式匹配的方法和系统
CN102184197A (zh) * 2011-04-22 2011-09-14 湖南亿谷信息科技发展有限公司 基于智能有限自动机的正则表达式匹配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853301A (zh) * 2010-05-25 2010-10-06 华为技术有限公司 正则表达式匹配的方法和系统
CN102184197A (zh) * 2011-04-22 2011-09-14 湖南亿谷信息科技发展有限公司 基于智能有限自动机的正则表达式匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
邵翔宇: "正则表达式匹配存储优化技术研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *
邵翔宇等: "基于模板有限自动机的正则表达式匹配算法", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220381A (zh) * 2017-06-28 2017-09-29 南京云问网络技术有限公司 一种面向问答系统的输入文本自动纠错方法
CN107220381B (zh) * 2017-06-28 2019-11-15 南京云问网络技术有限公司 一种面向问答系统的输入文本自动纠错方法
CN113596043A (zh) * 2021-08-03 2021-11-02 中国电信股份有限公司 攻击检测方法、攻击检测装置、存储介质与电子设备
CN113596043B (zh) * 2021-08-03 2023-03-24 中国电信股份有限公司 攻击检测方法、攻击检测装置、存储介质与电子设备

Similar Documents

Publication Publication Date Title
CN100429617C (zh) 一种自动协议识别方法及系统
CN102479298B (zh) 基于机器学习的程序识别方法及装置
CN100536411C (zh) 基于改进的自适应提升算法的互联网入侵检测方法
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
US9558299B2 (en) Submatch extraction
CN101442540B (zh) 基于现场可编程门阵列的高速模式匹配算法
CN112468347B (zh) 一种云平台的安全管理方法、装置、电子设备及存储介质
CN110232280A (zh) 一种基于树结构卷积神经网络的软件安全漏洞检测方法
KR101617696B1 (ko) 데이터 정규표현식의 마이닝 방법 및 장치
CN105045808B (zh) 一种复合规则集匹配方法和系统
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN103839006A (zh) 基于机器学习的程序识别方法及装置
CN106934011A (zh) 一种json数据的结构化解析方法及装置
CN103312627B (zh) 基于两级存储的正则表达式匹配方法
CN107729901A (zh) 图像处理模型的建立方法、装置及图像处理方法及系统
CN104268629A (zh) 一种基于先验信息和网络固有信息的复杂网络社区检测方法
CN1980240A (zh) 数据流的模式匹配方法及装置
CN110362995A (zh) 一种基于逆向与机器学习的恶意软件检测及分析系统
CN112148997A (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
CN106878289A (zh) 基于多维模板有限自动机tmfa的正则表达式匹配方法及其装置
CN109800337A (zh) 一种适用于大字母表的多模式正则匹配算法
CN102521356A (zh) 基于确定有限状态自动机的正则表达式匹配设备和方法
CN1223941C (zh) 一种基于相关特征聚类的层次入侵检测系统
CN110399485A (zh) 基于词向量和机器学习的数据溯源方法和系统
CN106650449A (zh) 一种基于变量名混淆程度的脚本启发式检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication