CN112307279A - 一种dpi业务识别方法、装置、电子设备及存储介质 - Google Patents

一种dpi业务识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112307279A
CN112307279A CN202011180932.0A CN202011180932A CN112307279A CN 112307279 A CN112307279 A CN 112307279A CN 202011180932 A CN202011180932 A CN 202011180932A CN 112307279 A CN112307279 A CN 112307279A
Authority
CN
China
Prior art keywords
matching length
rule
domain name
maximum matching
name information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011180932.0A
Other languages
English (en)
Other versions
CN112307279B (zh
Inventor
郑涛
卢玉芳
彭思宇
丁小丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Original Assignee
Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yitong Century Internet Of Things Research Institute Guangzhou Co ltd filed Critical Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Priority to CN202011180932.0A priority Critical patent/CN112307279B/zh
Publication of CN112307279A publication Critical patent/CN112307279A/zh
Application granted granted Critical
Publication of CN112307279B publication Critical patent/CN112307279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种DPI业务识别方法、装置、电子设备及存储介质,方法包括:确定XDR每个字段中不同字符串的规则最大匹配长度;根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果。通过本发明实施例基于现网大数据进行统计分析截取字段,剔除无需匹配的字符串后再和规则库中规则进行模糊匹配,进行互联网流量识别,能够有效降低识别开销,提高识别覆盖率并且降低设备成本,可广泛应用于互联网技术领域。

Description

一种DPI业务识别方法、装置、电子设备及存储介质
技术领域
本发明涉及互联网技术领域,尤其是一种DPI业务识别方法、装置、电子设备及存储介质。
背景技术
DPI技术是一种基于应用层的流量检测和控制技术,称为“深度包检测”。所谓“深度”是和普通的报文分析层次相比较而言的,普通报文检测仅分析IP包的4层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型。而DPI除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。
现有DPI业务识别都是通过XDR(X of Detailed Record,用户上网一切信令的详细话单)字段的完整字符串和DPI规则库中的规则进行模糊匹配,进行互联网流量业务识别。XDR字段中与规则库中规则匹配的字符串一般位于整个XDR字段字符串的前部,后部多为无价值的字符,现有方案将完整的XDR字段字符串加载入识别程序进行模糊匹配,存在大量无识别价值的字符串被加载,极大地增加了程序运算开销,识别开销较大的缺点,无法适应现网越来越庞大的数据,增添识别设备成本较高。
发明内容
有鉴于此,本发明实施例提供一种DPI业务识别方法、装置、电子设备及存储介质,提高识别效率,进而降低设备成本。
本发明的第一方面提供了一种DPI业务识别方法,包括:
确定XDR每个字段中不同字符串的规则最大匹配长度;
根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;
将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果。
在一些实施例中,所述确定XDR每个字段中不同字符串的规则最大匹配长度,包括:
获取全网XDR固定时间段内产生的全量URL数据中的第一URL数据;
将所述第一URL数据与规则库中的规则进行匹配,得到每条URL数据的域名信息对应规则在统一资源标志符中的匹配长度;
根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度。
在一些实施例中,所述根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度,包括:
当所述匹配长度大于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,或者当所述规则最大匹配长度表中不存在所述域名信息对应的规则最大匹配长度时,将所述匹配长度确定为所述域名信息对应的规则最大匹配长度;
当所述匹配长度小于或者等于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,不更新所述规则最大匹配长度表中的规则最大匹配长度。
在一些实施例中,所述根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,包括:
获取所述全量URL数据中的第二URL数据;
通过全匹配的方法,将所述第二URL数据的域名信息与所述域名规则最大匹配长度表进行匹配,得到所述第二URL数据的域名信息对应的最大长度;
根据所述最大长度截取所述XDR字段中的URI字段,得到URL截取结果;其中,所述URL截取结果包括域名信息和截取后的URI。
根据本发明的第二方面,提供了一种DPI业务识别装置,包括:
确定模块,用于确定XDR每个字段中不同字符串的规则最大匹配长度;
截取模块,用于根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;
识别模块,用于将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果。
在一些实施例中,所述确定模块包括:
第一获取单元,用于获取全网XDR固定时间段内产生的全量URL数据中的第一URL数据;
第一匹配单元,用于将所述第一URL数据与规则库中的规则进行匹配,得到每条URL数据的域名信息对应规则在统一资源标志符中的匹配长度;
更新单元,用于根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度。
在一些实施例中,所述更新单元包括:
第一子单元,用于当所述匹配长度大于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,或者当所述规则最大匹配长度表中不存在所述域名信息对应的规则最大匹配长度时,将所述匹配长度确定为所述域名信息对应的规则最大匹配长度;
第二子单元,用于当所述匹配长度小于或者等于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,不更新所述规则最大匹配长度表中的规则最大匹配长度。
在一些实施例中,所述截取模块包括:
第二获取单元,用于获取所述全量URL数据中的第二URL数据;
第二匹配单元,用于通过全匹配的方法,将所述第二URL数据的域名信息与所述域名规则最大匹配长度表进行匹配,得到所述第二URL数据的域名信息对应的最大长度;
截取单元,用于根据所述最大长度截取所述XDR字段中的URI字段,得到URL截取结果;其中,所述URL截取结果包括域名信息和截取后的URI。
根据本发明的第三方面,提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现本发明第一方面所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现本发明第一方面所述的方法。
本发明的实施例确定XDR每个字段中不同字符串的规则最大匹配长度;根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果;通过本发明实施例基于现网大数据进行统计分析截取字段,剔除无需匹配的字符串后再和规则库中规则进行模糊匹配,进行互联网流量识别,能够有效降低识别开销,提高识别覆盖率并且降低设备成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的整体步骤流程图;
图2为本发明实施例的确定XDR每个字段中不同字符串的规则最大匹配长度的流程示意图;
图3为本发明实施例的根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取并实现最终识别的步骤流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例提供了一种DPI业务识别方法,如图1所示,包括:
确定XDR每个字段中不同字符串的规则最大匹配长度;
根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;
将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果。
具体地,本发明实施例的XDR字段包括但不限于XDR中的URL(统一资源定位符)、REFERURI(来路连接)、Useragent(用户代理)等需要进行DPI业务识别规则匹配的字段。
本发明基于现网大数据统计,动态更新XDR每个字段中不同字符串的规则最大匹配长度,然后基于最大匹配长度表将XDR字段字符串进行截取,剔除无需匹配的字符串后再和规则库中规则进行模糊匹配,进行互联网流量识别。由于基于现网大数据进行实时动态更新截取字段,本发明能在保持现有方案的识别精度的情况下,同时大幅减少识别程序运算开销,提高识别效率,并能适用于包括但不限于XDR中的URL(统一资源定位符)、REFERURI(来路连接)、Useragent(用户代理)等需要进行DPI业务识别规则匹配的字段,具有较强的适用性和可推广性。
在一些实施例中,所述确定XDR每个字段中不同字符串的规则最大匹配长度,包括:
获取全网XDR固定时间段内产生的全量URL数据中的第一URL数据;
将所述第一URL数据与规则库中的规则进行匹配,得到每条URL数据的域名信息对应规则在统一资源标志符中的匹配长度;
根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度。
在一些实施例中,所述根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度,包括:
当所述匹配长度大于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,或者当所述规则最大匹配长度表中不存在所述域名信息对应的规则最大匹配长度时,将所述匹配长度确定为所述域名信息对应的规则最大匹配长度;
当所述匹配长度小于或者等于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,不更新所述规则最大匹配长度表中的规则最大匹配长度。
具体地,第一URL数据例如可以是全量URL中的10%。
如图2所示,随机抽取全网XDR固定时间段内(如每5分钟)产生的全量URL中的10%与规则库内所有URL规则进行匹配,输出每条HOST(域名信息)对应的命中规则在URI(统一资源标志符)中的匹配长度(URL由HOST和URI组成),例如:
完整URL1:v.qq.com/mzc00200lkdiz74.html
其中HOST为v.qq.com,URI为/mzc00200lkdiz74.html
命中规则1:*v.qq.com*,则HOST对应的命中规则匹配长度为0;
完整URL2:v.qq.com/x/cover/mzc00200lkdiz74.html
其中HOST为v.qq.com,URI为/x/cover/mzc00200lkdiz74.html
命中规则2:*v.qq.com/x/cover*,则HOST对应的命中规则匹配长度为8(即规则最后一位“r”在URI中的位数);
即HOST:v.qq.com对应规则最大匹配长度为8。
基于上述输出结果统计动态更新HOST对应规则最大匹配长度表,若统计结果中某个HOST对应最大匹配长度大于表内该HOST对应最大匹配长度或该HOST不在表内,则将本次统计结果更新为表内该HOST对应最大匹配长度,若统计结果中某个HOST对应最大匹配长度小于等于表内该HOST对应最大匹配长度,则不更新表内最大匹配长度。HOST对应规则最大匹配长度表具体字段如表1所示:
表1
序号 字段
1 HOST
2 最大匹配长度
在一些实施例中,所述根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,包括:
获取所述全量URL数据中的第二URL数据;
通过全匹配的方法,将所述第二URL数据的域名信息与所述域名规则最大匹配长度表进行匹配,得到所述第二URL数据的域名信息对应的最大长度;
根据所述最大长度截取所述XDR字段中的URI字段,得到URL截取结果;其中,所述URL截取结果包括域名信息和截取后的URI。
具体地,第二URL数据可以是全量URL中剩余90%URL。如图3所示,本发明实施例的根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,具体包括:
1)、将第一步全网XDR固定时间段内产生的全量URL中剩余90%URL的HOST字段使用全匹配的匹配方式和HOST对应规则最大匹配长度表进行匹配,若匹配成功,进入第2步;
2)、基于HOST对应规则最大匹配长度表中HOST对应的最大长度,截取XDR中的URI字段,并输出截取后的URL。XDR中存在记录的示例具体如表2所示:
表2
Figure BDA0002750141800000061
由表2可知,HOST“p1-webcast-hscdn.byteimg.com”HOST对应规则最大匹配长度表中对应的最大匹配长度为12,则截取原始URI左起第1-12位,作为截取后URI为“/img/hotsoon”,截取后URL为“p1-webcast-hscdn.byteimg.com/img/hotsoon”。
最后,如图3所示,本发明实施例将截取后的URL和规则库内URL规则进行模糊匹配,输出识别结果。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如图1所示的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如图1所示的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
综上所述,现有DPI业务识别都是通过XDR字段的完整字符串和DPI规则库中的规则进行模糊匹配,进行互联网流量业务识别。XDR字段中与规则库中规则匹配的字符串一般位于整个XDR字段字符串的前部,后部多为无价值的字符,现有方案将完整的XDR字段字符串加载入识别程序进行模糊匹配,存在大量无识别价值的字符串被加载,极大地增加了程序运算开销。
本发明基于现网大数据统计,动态更新XDR每个字段中不同字符串的规则最大匹配长度(如上述每条HOST的规则最大匹配长度),然后基于最大匹配长度表将XDR字段字符串进行截取,剔除无需匹配的字符串后再和规则库中规则进行模糊匹配,进行互联网流量识别。由于基于现网大数据进行实时动态更新截取字段,本方案能在保持现有方案的识别精度的情况下,同时大幅减少识别程序运算开销,提高识别效率,并能适用于包括但不限于XDR中的URL(统一资源定位符)、REFERURI(来路连接)、Useragent(用户代理)等需要进行DPI业务识别规则匹配的字段,具有较强的适用性和可推广性。
本发明结合了DPI技术、大数据分析技术,基于现网XDR数据统计分析,实现互联网流量的业务识别,不需要将完整的XDR字段字符串与规则库内规则进行模糊匹配,弥补了现有方法程序运行开销大、准确度与覆盖度不足的缺点。因此本发明具有如下优点:
1)基于现网大数据进行统计分析截取字段,剔除无需匹配的字符串后再和规则库中规则进行模糊匹配,进行互联网流量识别,有效降低识别程序开销,提高识别覆盖率;
2)由于规则最大匹配长度表是基于现网数据实时动态更新,统计结果可以覆盖现网数据的所有情况,具有较高识别精度。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种DPI业务识别方法,其特征在于,包括:
确定XDR每个字段中不同字符串的规则最大匹配长度;
根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;
将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果。
2.根据权利要求1所述的DPI业务识别方法,其特征在于,所述确定XDR每个字段中不同字符串的规则最大匹配长度,包括:
获取全网XDR固定时间段内产生的全量URL数据中的第一URL数据;
将所述第一URL数据与规则库中的规则进行匹配,得到每条URL数据的域名信息对应规则在统一资源标志符中的匹配长度;
根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度。
3.根据权利要求2所述的DPI业务识别方法,其特征在于,所述根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度,包括:
当所述匹配长度大于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,或者当所述规则最大匹配长度表中不存在所述域名信息对应的规则最大匹配长度时,将所述匹配长度确定为所述域名信息对应的规则最大匹配长度;
当所述匹配长度小于或者等于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,不更新所述规则最大匹配长度表中的规则最大匹配长度。
4.根据权利要求2所述的DPI业务识别方法,其特征在于,所述根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,包括:
获取所述全量URL数据中的第二URL数据;
通过全匹配的方法,将所述第二URL数据的域名信息与所述域名规则最大匹配长度表进行匹配,得到所述第二URL数据的域名信息对应的最大长度;
根据所述最大长度截取所述XDR字段中的URI字段,得到URL截取结果;其中,所述URL截取结果包括域名信息和截取后的URI。
5.一种DPI业务识别装置,其特征在于,包括:
确定模块,用于确定XDR每个字段中不同字符串的规则最大匹配长度;
截取模块,用于根据所述规则最大匹配长度表对所述XDR字段中的字符串进行截取,以剔除所述XDR字段中无需匹配的字符串;
识别模块,用于将提取得到的字符串与规则库中的规则进行模糊匹配,得到DPI识别结果。
6.根据权利要求5所述的DPI业务识别装置,其特征在于,所述确定模块包括:
第一获取单元,用于获取全网XDR固定时间段内产生的全量URL数据中的第一URL数据;
第一匹配单元,用于将所述第一URL数据与规则库中的规则进行匹配,得到每条URL数据的域名信息对应规则在统一资源标志符中的匹配长度;
更新单元,用于根据所述匹配长度动态更新所述域名信息对应的规则最大匹配长度。
7.根据权利要求6所述的DPI业务识别装置,其特征在于,所述更新单元包括:
第一子单元,用于当所述匹配长度大于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,或者当所述规则最大匹配长度表中不存在所述域名信息对应的规则最大匹配长度时,将所述匹配长度确定为所述域名信息对应的规则最大匹配长度;
第二子单元,用于当所述匹配长度小于或者等于规则最大匹配长度表中所述域名信息对应的规则最大匹配长度时,不更新所述规则最大匹配长度表中的规则最大匹配长度。
8.根据权利要求6所述的DPI业务识别装置,其特征在于,所述截取模块包括:
第二获取单元,用于获取所述全量URL数据中的第二URL数据;
第二匹配单元,用于通过全匹配的方法,将所述第二URL数据的域名信息与所述域名规则最大匹配长度表进行匹配,得到所述第二URL数据的域名信息对应的最大长度;
截取单元,用于根据所述最大长度截取所述XDR字段中的URI字段,得到URL截取结果;其中,所述URL截取结果包括域名信息和截取后的URI。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-4中任一项所述的方法。
CN202011180932.0A 2020-10-29 2020-10-29 一种dpi业务识别方法、装置、电子设备及存储介质 Active CN112307279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011180932.0A CN112307279B (zh) 2020-10-29 2020-10-29 一种dpi业务识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011180932.0A CN112307279B (zh) 2020-10-29 2020-10-29 一种dpi业务识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112307279A true CN112307279A (zh) 2021-02-02
CN112307279B CN112307279B (zh) 2024-09-20

Family

ID=74331906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011180932.0A Active CN112307279B (zh) 2020-10-29 2020-10-29 一种dpi业务识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112307279B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114397851A (zh) * 2021-11-23 2022-04-26 青岛奥利普自动化控制系统有限公司 一种处理plc字符串中无效字符的方法、装置及设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104557A (zh) * 2014-06-24 2014-10-15 北京天融信科技股份有限公司 面向IPv6安全网关的深度包检测装置
CN105069056A (zh) * 2015-07-24 2015-11-18 湖北文理学院 基于字符串匹配的身份证住址信息解析方法及系统
CN105279257A (zh) * 2015-10-15 2016-01-27 珠海世纪鼎利科技股份有限公司 一种基于正态分布的互联网大数据挖掘方法和系统
KR20160035793A (ko) * 2014-09-24 2016-04-01 에릭슨 엘지 주식회사 심층 패킷 분석 방법 및 장치
CN105554152A (zh) * 2015-12-30 2016-05-04 北京神州绿盟信息安全科技股份有限公司 一种数据特征提取的方法及装置
US20170006142A1 (en) * 2015-01-02 2017-01-05 Lg Electronics Inc. Apparatus for transmitting broadcast signal, apparatus for receiving broadcast signal, method for transmitting broadcast signal and method for receiving broadcast signal
CN109600317A (zh) * 2018-11-25 2019-04-09 北京亚鸿世纪科技发展有限公司 一种自动识别流量并提取应用规则的方法及装置
CN109996201A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种网络访问方法及网络设备
CN110891030A (zh) * 2019-12-26 2020-03-17 南京烽火星空通信发展有限公司 一种基于机器学习的http流量特征识别与提取方法
CN111182551A (zh) * 2020-01-07 2020-05-19 中国联合网络通信集团有限公司 网络安全防护方法和系统
CN111262645A (zh) * 2019-10-21 2020-06-09 上海百事通信息技术股份有限公司 一种数据传输方法、装置、存储介质和终端
CN111740923A (zh) * 2020-06-22 2020-10-02 北京神州泰岳智能数据技术有限公司 应用识别规则的生成方法、装置、电子设备和存储介质
CN111818003A (zh) * 2019-04-12 2020-10-23 中国移动通信集团福建有限公司 一种上网记录的用户账号识别方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104557A (zh) * 2014-06-24 2014-10-15 北京天融信科技股份有限公司 面向IPv6安全网关的深度包检测装置
KR20160035793A (ko) * 2014-09-24 2016-04-01 에릭슨 엘지 주식회사 심층 패킷 분석 방법 및 장치
US20170006142A1 (en) * 2015-01-02 2017-01-05 Lg Electronics Inc. Apparatus for transmitting broadcast signal, apparatus for receiving broadcast signal, method for transmitting broadcast signal and method for receiving broadcast signal
CN105069056A (zh) * 2015-07-24 2015-11-18 湖北文理学院 基于字符串匹配的身份证住址信息解析方法及系统
CN105279257A (zh) * 2015-10-15 2016-01-27 珠海世纪鼎利科技股份有限公司 一种基于正态分布的互联网大数据挖掘方法和系统
CN105554152A (zh) * 2015-12-30 2016-05-04 北京神州绿盟信息安全科技股份有限公司 一种数据特征提取的方法及装置
CN109996201A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种网络访问方法及网络设备
CN109600317A (zh) * 2018-11-25 2019-04-09 北京亚鸿世纪科技发展有限公司 一种自动识别流量并提取应用规则的方法及装置
CN111818003A (zh) * 2019-04-12 2020-10-23 中国移动通信集团福建有限公司 一种上网记录的用户账号识别方法及装置
CN111262645A (zh) * 2019-10-21 2020-06-09 上海百事通信息技术股份有限公司 一种数据传输方法、装置、存储介质和终端
CN110891030A (zh) * 2019-12-26 2020-03-17 南京烽火星空通信发展有限公司 一种基于机器学习的http流量特征识别与提取方法
CN111182551A (zh) * 2020-01-07 2020-05-19 中国联合网络通信集团有限公司 网络安全防护方法和系统
CN111740923A (zh) * 2020-06-22 2020-10-02 北京神州泰岳智能数据技术有限公司 应用识别规则的生成方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张瀚;朱洪亮;辛阳;: "基于DPI技术的P2P流量检测系统设计", 信息网络安全, no. 10, 10 October 2012 (2012-10-10) *
王磊;赫罡;: "业务识别规则集中管理解决方案研究", 邮电设计技术, no. 11, 20 November 2015 (2015-11-20) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114397851A (zh) * 2021-11-23 2022-04-26 青岛奥利普自动化控制系统有限公司 一种处理plc字符串中无效字符的方法、装置及设备

Also Published As

Publication number Publication date
CN112307279B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
JP5961354B2 (ja) 効率的なネットフローデータ解析のための方法及び装置
CN108600414B (zh) 设备指纹的构建方法、装置、存储介质及终端
CN107071084A (zh) 一种dns的评价方法和装置
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN108833437A (zh) 一种基于流量指纹和通信特征匹配的apt检测方法
EP3282643A1 (en) Method and apparatus of estimating conversation in a distributed netflow environment
CN111222019B (zh) 特征提取的方法和装置
CN110049061A (zh) 高速网络上轻量级DDoS攻击检测装置及检测方法
CN104333483A (zh) 互联网应用流量识别方法、系统及识别装置
WO2015024476A1 (en) A method, server, and computer program product for managing ip address attributions
CN104333461A (zh) 互联网应用流量识别方法、系统及识别装置
CN112307279A (zh) 一种dpi业务识别方法、装置、电子设备及存储介质
CN114338600B (zh) 一种设备指纹的推选方法、装置、电子设备和介质
CN116545701A (zh) Http报文规则匹配方法、系统、设备及介质
CN103746851A (zh) 一种实现独立用户数统计的方法及装置
CN114020734A (zh) 一种流量统计去重方法及装置
CN113395367B (zh) Https业务识别方法、装置、存储介质及电子设备
CN111835599A (zh) 一种基于SketchLearn的混合网络测量方法、装置及介质
CN112866275B (zh) 一种流量抽样方法、装置和计算机可读存储介质
CN113676379B (zh) 一种dns隧道检测方法、装置、系统及计算机存储介质
CN115514579A (zh) 基于IPv6地址映射流标签实现业务标识的方法及系统
CN115801927A (zh) 报文解析方法及装置
CN113014555B (zh) 一种攻击事件的确定方法、装置、电子设备和存储介质
CN111163184B (zh) 一种报文特征的提取方法和装置
CN108449226B (zh) 信息快速分类的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Tao

Inventor after: Lu Yufang

Inventor after: Peng Siyu

Inventor after: Ding Xiaoli

Inventor before: Zheng Tao

Inventor before: Lu Yufang

Inventor before: Peng Siyu

Inventor before: Ding Xiaoli

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510630 room 1101, building 1, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (office use only)

Applicant after: Guangdong Yitong Lianyun Intelligent Information Co.,Ltd.

Address before: 510630 building 1101, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: YITONG CENTURY INTERNET OF THINGS RESEARCH INSTITUTE (GUANGZHOU) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant