CN110336798B - 一种基于dpi的报文匹配过滤方法及其装置 - Google Patents

一种基于dpi的报文匹配过滤方法及其装置 Download PDF

Info

Publication number
CN110336798B
CN110336798B CN201910530121.XA CN201910530121A CN110336798B CN 110336798 B CN110336798 B CN 110336798B CN 201910530121 A CN201910530121 A CN 201910530121A CN 110336798 B CN110336798 B CN 110336798B
Authority
CN
China
Prior art keywords
matching
message
analysis
rules
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910530121.XA
Other languages
English (en)
Other versions
CN110336798A (zh
Inventor
沈彬
韩志前
周青
孙传明
陈卫卫
孙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING SINOVATIO TECHNOLOGY CO LTD
Original Assignee
NANJING SINOVATIO TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING SINOVATIO TECHNOLOGY CO LTD filed Critical NANJING SINOVATIO TECHNOLOGY CO LTD
Priority to CN201910530121.XA priority Critical patent/CN110336798B/zh
Publication of CN110336798A publication Critical patent/CN110336798A/zh
Application granted granted Critical
Publication of CN110336798B publication Critical patent/CN110336798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0263Rule management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于DPI的报文匹配过滤方法及其装置,使用DPI技术将报文中的应用特征提取出来,形成元数据,针对相关元数据配置对应规则;对规则进行词法分析、语法分析和表达式综合分析,形成元数据规则;将报文中提取的元数据与分析后的元数据规则进行匹配,完成报文精细化过滤。此方法通过将传统五元组或关键字ACL与DPI解析出的元数据相结合的方式对报文进行全方面的筛选,从而提高报文匹配的精细度,同时提高匹配规则的全面性和可扩展性。

Description

一种基于DPI的报文匹配过滤方法及其装置
技术领域
本发明涉及通信网络流量过滤技术领域,具体为一种基于DPI的报文匹配过滤方法及其装置。
背景技术
数据报文的精细化匹配与过滤是进行网络安全监管的前提和基础,近年来,随着网络技术的高速发展,网络流量爆发式增长,网络应用种类层出不穷,日趋复杂多变的互联网流量给报文的精细化过滤带来了新的挑战。
目前,报文匹配过滤方法主要有基于五元组(源地址、目的地址、源端口、目的端口以及协议类型)的匹配过滤方法、基于特定位置的关键词特征码的过滤方法和基于深度数据包检测DPI的过滤方法,但是,仅仅依赖于单个过滤方法很难做到高效、准确地识别互联网流量,且能兼顾网络应用种类的全面性和扩展性;此外,当规则数量太多或者要求支持复杂规则的条件配置时,如何兼顾报文匹配的性能,成为现有技术中需要解决的技术问题。
发明内容
为了解决现有技术方案中存在的技术问题,本发明提供了一种基于DPI的报文匹配过滤方法及其装置。
本发明公开了一种基于DPI的报文匹配过滤方法,包括以下步骤:
S1:使用DPI技术将报文中的应用特征提取出来,形成元数据;
S2:针对元数据和客户需求配置对应规则,对规则进行分析形成可以进行查找的数据结构;
S3:将报文中提取的元数据与S2中的数据结构进行匹配;若匹配成功,则表示命中客户配置的规则;反之,表示未命中客户配置的规则。
进一步的,所述应用特征包括L2到L7的报文特征。
进一步的,所述对规则进行分析形成可以进行查找的数据结构的步骤为:依次进行词法分析、语法分析和综合分析,形成可以进行查找的数据结构。
进一步的,所述词法分析为:
将规则读入源程序中形成字符流;
对形成的字符流进行扫描并根据构词规则进行单词符号识别,得到单词符号。
进一步的,所述语法分析为:在词法分析的基础上将单词符号组合成各类语法短语。
进一步的,所述词法分析具体为:所述综合分析为:在词法分析和语法分析的基础上形成匹配规则,并采用对应的算法对匹配规则进行编译,形成可以进行查找的数据结构。
本发明公开了一种基于DPI的报文匹配过滤方法的报文匹配过滤装置,包括应用特征提取模块、词法分析模块、语法分析模块、综合分析模块和特征匹配模块;
所述应用特征提取模块,用于使用DPI技术将报文中的应用特征提取出来,形成元数据;
所述词法分析模块,用于将规则读入源程序中形成字符流,并对形成的字符流进行扫描并根据构词规则进行单词符号识别,得到单词符号;
所述语法分析模块,用于对规则进行语法分析,将来自词法分析模块输出的单词符号组合成各类语法短语;
所述综合分析模块,用于在词法分析和语法分析的基础上形成匹配规则,并采用对应的算法对匹配规则进行编译,形成可以进行查找的数据结构;
所述特征匹配模块,用于将报文中提取的元数据与综合分析模块输出的数据结构进行匹配。
进一步的,所述应用特征包括L2到L7的报文特征。
进一步的,所述综合分析包括对L2到L7报文特征的单个表达式、正则表达式的分析。
有益效果:本发明与现有技术相比,本发明将数据报文中的应用特征形成元数据过滤规则并被报文匹配过滤技术使用,从而完成报文精细化过滤的目的,大大提高了过滤精细程度和可扩展性。此外,本发明所提供的报文匹配过滤方法中的匹配规则可以支持无限扩展和L2到L7报文特征的任意组合,大大提高了报文匹配的性能和复杂度。
附图说明
图1为本发明的数据处理流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明在数据报文过滤方法上引入DPI技术,通过DPI技术解析出报文的元数据,从而不仅能基于传统的五元组或关键字ACL进行规则匹配,而且能够结合数据报文中DPI解析出的元数据进行全方面的筛选,从而提高报文匹配的精细度,同时提高匹配规则的全面性和可扩展性。
本发明提供了一种基于DPI的报文匹配过滤方法,包括以下步骤:
S1:使用DPI技术将报文中的应用特征提取出来,形成元数据;应用特征包括L2到L7的报文特征。
S2:针对元数据配置对应规则,对规则进行词法分析、语法分析和综合分析,形成可以查找的数据结构,综合分析包括对L2到L7报文特征的单个表达式、正则表达式的分析。
S3:将报文中提取的元数据与分析后的数据结构进行匹配,完成报文精细化过滤。
本发明的词法分析是指将规则从左到右一个字符一个字符地读入源程序中,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号),譬如表达式http.host==“test.com”,词法分析可以分析出http.host、==和“test.com”。
语法分析是指在词法分析的基础上将单词序列组合成各类语法短语,如“程序”、“语句”、“表达式”等等。语法分析程序会判断源程序在结构上是否正确。源程序的结构由上下文无关文法描述。譬如表达式http.host==“test.com”,语法分析可以利用词法分析出的http.host、==、“test.com”,组合起来分析。
综合分析是指在词法分析和语法分析的基础上形成匹配规则,不同的匹配规则采用不同的高性能算法进行编译,最终形成可以进行查找的数据结构。
本发明的报文匹配过滤装置包括:应用特征提取模块、词法分析模块、语法分析模块、综合分析模块和特征匹配模块。
应用特征提取模块使用DPI技术将报文中的应用特征提取出来,形成元数据,针对相关元数据配置对应规则。所述应用特征包括L2到L7的报文特征。
词法分析模块对规则进行词法分析。
语法分析模块对规则进行语法分析。
综合分析模块对规则进行综合分析,形成元数据规则算法。
特征匹配模块将报文中提取的元数据与分析后的元数据规则算法进行匹配,完成报文精细化过滤。
在上述实施方法中,所述综合分析包括对L2到L7报文特征的单个表达式、正则表达式的分析。包括:
(1)单个表达式语法,例如:
语法 含义 示例
Protocol 协议 http
String 1 字段1 request
String 2 字段2 method
Comparison Operator 比较运算符 ==
Value “POST”
Logical Operations 逻辑运算符 or
Other Expression 其他表达式 icmp.type
其中Logical Operations还可以支持:
英文语法 C语言语法 含义
equ == 等于
neq != 不等于
greater > 大于
less < 小于
greatereq >= 大于等于
lesseq <= 小于等于
inlucde inlucde 包含字符串
pcre pcre 正则表达式
(2)表达式之间语法,例如:
英文语法 C语言语法 含义
and && 逻辑与
or || 逻辑或
xor ^^ 逻辑异或
not 逻辑非
譬如识别使用Chrome浏览器登录百度的网页流量,可以用下面的表达式描述:http.host==“baidu.com”&&http.useragent==“chrome”
譬如识别移动端登录百度的网页流量,可以用下面的表达式描述:
http.host==“baidu.com”&&(http.useragent==“ios”||http.useragent==“Android”)匹配实施例:
S1:用户定义一条规则ip.srcip==192.168.1.1&&tcp.srcport==80&&http.host==www.xxx.com&&http.useragent==”IOS”;
S2:经过规则分析模块(词法分析、语法分析、综合分析),将S1中规则转换成不同的匹配算法,譬如ip.srcip==192.168.1.1和tcp.srcport==80转换为hash表匹配算法,http.host==www.xxx.com和http.useragent==”IOS”转换为字符串匹配算法;并且生成四个字段的组合状态机,我们这个例子中都是与(&&)操作;
S3:原始输入流量(报文),进入DPI应用特征提取模块后,该模块会根据S1中的规则内容,提取ip头的源IP(ip.srcip),tcp头的源端口(tcp.srcport),http头部的host(http.host)字段和useragent(http.useragent)字段;
S4:S3中提取的字段和S2中针对于各个字段的匹配算法,进行特征算法匹配,匹配完成后,假如四个字段全部都匹配,则将结果输出到组合状态机中,进行状态机扫描,本实施例中都是与操作,那么四个字段全部匹配则S1规则命中;反之,四个字段只要有一个没有匹配,则S1规则未命中。

Claims (4)

1.一种基于DPI的报文匹配过滤方法,其特征在于:包括以下步骤:
使用DPI技术将待匹配过滤的报文中的应用特征提取出来,形成元数据;所述应用特征包括L2到L7的报文特征;
针对元数据和客户需求配置对应规则,对规则依次进行词法分析、语法分析和综合分析,形成针对各个字段的匹配算法;其中,所述词法分析为:将规则读入源程序中形成字符流;对形成的字符流进行扫描并根据构词规则进行单词符号识别,得到单词符号;所述语法分析为:在词法分析的基础上将单词符号组合成各类语法短语;所述综合分析为:在词法分析和语法分析的基础上形成多条匹配规则,将匹配规则根据其自身特点采用相应的编译算法转换成匹配算法,得到多条匹配算法,多条匹配算法之间均为与操作;
基于待匹配过滤的报文中提取的元数据与形成的针对各个字段的匹配算法,将待匹配过滤的报文与配置的规则进行匹配,若匹配成功,则表示命中客户配置的规则;反之,表示未命中客户配置的规则。
2.基于权利要求1所述的方法的报文匹配过滤装置,其特征在于:包括应用特征提取模块、词法分析模块、语法分析模块、综合分析模块和特征匹配模块;
所述应用特征提取模块,用于使用DPI技术将报文中的应用特征提取出来,形成元数据;
所述词法分析模块,用于将规则读入源程序中形成字符流,并对形成的字符流进行扫描并根据构词规则进行单词符号识别,得到单词符号;
所述语法分析模块,用于对规则进行语法分析,将来自词法分析模块输出的单词符号组合成各类语法短语;
所述综合分析模块,用于在词法分析和语法分析的基础上形成匹配规则,并采用对应的算法对匹配规则进行编译,形成针对各个字段的匹配算法;
所述特征匹配模块,用于基于针对各个字段的匹配算法,将待匹配过滤的报文与配置的规则进行匹配,若匹配成功,则表示命中客户配置的规则;反之,表示未命中客户配置的规则。
3.根据权利要求2所述的报文匹配过滤装置,其特征在于:所述应用特征包括L2到L7的报文特征。
4.根据权利要求2所述的报文匹配过滤装置,其特征在于:所述综合分析包括对L2到L7报文特征的单个表达式、正则表达式的分析。
CN201910530121.XA 2019-06-19 2019-06-19 一种基于dpi的报文匹配过滤方法及其装置 Active CN110336798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910530121.XA CN110336798B (zh) 2019-06-19 2019-06-19 一种基于dpi的报文匹配过滤方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910530121.XA CN110336798B (zh) 2019-06-19 2019-06-19 一种基于dpi的报文匹配过滤方法及其装置

Publications (2)

Publication Number Publication Date
CN110336798A CN110336798A (zh) 2019-10-15
CN110336798B true CN110336798B (zh) 2022-05-13

Family

ID=68142495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910530121.XA Active CN110336798B (zh) 2019-06-19 2019-06-19 一种基于dpi的报文匹配过滤方法及其装置

Country Status (1)

Country Link
CN (1) CN110336798B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111711712A (zh) * 2020-06-03 2020-09-25 网根(南京)网络中心有限公司 Dns策略配置方法、系统及存储介质
CN112491901B (zh) * 2020-11-30 2023-03-24 北京锐驰信安技术有限公司 一种网络流量精细化筛选装置及方法
CN114760369B (zh) * 2022-04-14 2023-12-19 曙光网络科技有限公司 一种协议元数据提取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347949A (zh) * 2011-09-28 2012-02-08 上海西默通信技术有限公司 基于dpi的应用协议分析方法
CN102542063A (zh) * 2011-12-30 2012-07-04 华为技术有限公司 内容过滤的方法、装置及系统
CN102739457A (zh) * 2012-07-23 2012-10-17 武汉大学 一种基于dpi和svm技术的网络流量识别系统及方法
CN106250769A (zh) * 2016-07-30 2016-12-21 北京明朝万达科技股份有限公司 一种多级过滤的源代码数据检测方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892580B2 (en) * 2010-11-03 2014-11-18 Microsoft Corporation Transformation of regular expressions
CN103384213B (zh) * 2011-12-31 2017-07-21 华为数字技术(成都)有限公司 一种检测规则优化配置方法及设备
CN103688489B (zh) * 2012-12-03 2017-02-22 华为技术有限公司 一种策略处理的方法及网络设备
CN106778288B (zh) * 2015-11-24 2019-08-09 阿里巴巴集团控股有限公司 一种数据脱敏的方法及系统
CN106375311B (zh) * 2016-08-31 2019-10-01 北京青石绿网科技有限公司 一种移动设备dpi应用安全管理方法
CN109743260A (zh) * 2018-12-25 2019-05-10 南京中新赛克科技有限责任公司 一种基于改进的acbm算法对网络流量进行过滤的装置和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347949A (zh) * 2011-09-28 2012-02-08 上海西默通信技术有限公司 基于dpi的应用协议分析方法
CN102542063A (zh) * 2011-12-30 2012-07-04 华为技术有限公司 内容过滤的方法、装置及系统
CN102739457A (zh) * 2012-07-23 2012-10-17 武汉大学 一种基于dpi和svm技术的网络流量识别系统及方法
CN106250769A (zh) * 2016-07-30 2016-12-21 北京明朝万达科技股份有限公司 一种多级过滤的源代码数据检测方法及装置

Also Published As

Publication number Publication date
CN110336798A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110336798B (zh) 一种基于dpi的报文匹配过滤方法及其装置
CN106131071B (zh) 一种Web异常检测方法和装置
US9781139B2 (en) Identifying malware communications with DGA generated domains by discriminative learning
CN107292170B (zh) Sql注入攻击的检测方法及装置、系统
CN105706045B (zh) 对日志消息内容的面向语义分析
CN108985064B (zh) 一种识别恶意文档的方法及装置
US20150095359A1 (en) Volume Reducing Classifier
CN106685803A (zh) 一种基于钓鱼邮件溯源apt攻击事件的方法及系统
US11888874B2 (en) Label guided unsupervised learning based network-level application signature generation
CN102098331A (zh) 一种还原web类应用内容的方法及其系统
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN105956180A (zh) 一种敏感词过滤方法
CN112416806B (zh) 一种基于标准文档分析的js引擎模糊测试方法
CN103902619B (zh) 一种网络舆情监控方法及系统
CN112235230B (zh) 一种恶意流量识别方法及系统
CN113194058B (zh) Web攻击检测方法、设备、网站应用层防火墙及介质
CN108563629A (zh) 一种日志解析规则自动生成方法和装置
Wang et al. TextDroid: Semantics-based detection of mobile malware using network flows
CN107301167A (zh) 一种功性能描述信息识别方法及装置
CN111314279A (zh) 一种基于网络流量的未知协议逆向系统
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN110245195B (zh) 基于蜜罐系统的结构化查询语言注入检测方法及装置
CN112054992B (zh) 恶意流量识别方法、装置、电子设备及存储介质
CN113794687A (zh) 基于深度学习的恶意加密流量检测方法及装置
CN111211948A (zh) 基于载荷特征和统计特征的Shodan流量识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant