CN106301825A - Dpi规则的生成方法及装置 - Google Patents

Dpi规则的生成方法及装置 Download PDF

Info

Publication number
CN106301825A
CN106301825A CN201510254257.4A CN201510254257A CN106301825A CN 106301825 A CN106301825 A CN 106301825A CN 201510254257 A CN201510254257 A CN 201510254257A CN 106301825 A CN106301825 A CN 106301825A
Authority
CN
China
Prior art keywords
data
dpi
dpi rule
feature
unidentified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510254257.4A
Other languages
English (en)
Other versions
CN106301825B (zh
Inventor
胡斓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510254257.4A priority Critical patent/CN106301825B/zh
Priority to PCT/CN2016/072175 priority patent/WO2016184163A1/zh
Publication of CN106301825A publication Critical patent/CN106301825A/zh
Application granted granted Critical
Publication of CN106301825B publication Critical patent/CN106301825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种DPI规则的生成方法,包括:获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征;基于所述第一特征编译生成DPI规则;将所述DPI规则存储至所述DPI规则库。本发明还公开了一种DPI规则的生成装置。本发明的DPI规则的生成方法及装置,根据获取到的互联网数据获取未识别数据、分析未识别数据的第一特征,基于第一特征编译生成DPI规则,并基于DPI规则更新DPI规则库,完成了DPI规则库的实时自动更新,避免出现DPI规则库的DPI规则无法准确识别互联网数据中的业务数据的问题,提高了数据识别的识别率和准确率。

Description

DPI规则的生成方法及装置
技术领域
本发明涉及网络数据传输技术领域,尤其涉及一种DPI规则的生成方法及装置。
背景技术
DPI(Deep Packet Inspection,深度业务识别)是一种对网络中不同的业务流进行区分的技术,DPI通过分析业务流中数据包的深度特征值和协议行为识别出数据属性及业务类型,通过不同客户、不同业务的标识为网络业务的精细化分析及控制提供支持。
目前,移动互联网的业务应用层出不穷,且同一应用的版本更新频繁,导致当前DPI规则库的基于已知业务识别的DPI规则无法满足业务分析的需要,造成DPI规则无法准确识别互联网数据中的业务数据。
发明内容
本发明提供一种DPI规则的生成方法及装置,旨在解决DPI规则库的DPI规则无法准确识别互联网数据中的业务数据的技术问题。
为实现上述目的,本发明提供的一种DPI规则的生成方法,所述DPI规则的生成方法包括以下步骤:
获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;
在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征,其中,所述未识别数据为所述互联网数据中所述DPI规则无法识别的互联网数据;
基于所述第一特征编译生成DPI规则;
将所述DPI规则存储至所述DPI规则库。
优选地,所述在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征的步骤包括:
在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征;
基于所述第二特征过滤所述未识别数据,以获取业务数据;
分析所述业务数据,以获取所述业务数据的业务特征;
将获取的所述业务特征作为所述未识别数据的第一特征。
优选地,在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征的步骤与所述基于所述第二特征过滤所述未识别数据,以获取业务数据的步骤之间,所述DPI规则的生成方法还包括:
获取所述第二特征对应的第一目标IP地址和/或第一用户数据;
在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址;
和/或,在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。
优选地,所述分析所述业务数据,以获取所述业务数据的业务特征的步骤包括:
将所述业务数据分为多组业务数据组;
对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征;
将获取的所述业务特征作为所述未识别数据的第一特征。
优选地,所述将所述DPI规则存储至DPI规则库的步骤包括:
判断生成的所述DPI规则与所述DPI规则库的所述DPI规则是否冲突;
在生成的所述DPI规则与DPI规则库的DPI规则均不存在冲突时,将所述DPI规则存储至DPI规则库。
此外,为实现上述目的,本发明还提供一种DPI规则的生成装置,所述DPI规则的生成装置包括:
识别模块,用于获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;
分析模块,用于在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征,其中,所述未识别数据为所述互联网数据中所述DPI规则无法识别的互联网数据;
编译模块,用于基于所述第一特征编译生成DPI规则;
存储模块,用于将所述DPI规则存储至所述DPI规则库。
优选地,所述分析模块包括:
第一获取单元,用于在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征;
过滤单元,用于基于所述第二特征过滤所述未识别数据,以获取业务数据;
分析单元,用于分析所述业务数据,以获取所述业务数据的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征。
优选地,所述分析模块还包括:
第二获取单元,用于所述第二特征对应的第一目标IP地址和/或第一用户数据;
更新单元,用于在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址;和/或,用于在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。
优选地,所述分析单元包括:
分组子单元,用于将所述业务数据分为多组业务数据组;
数据挖掘子单元,用于对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征。
优选地,所述存储模块包括:
判断单元,用于判断生成的所述DPI规则与所述DPI规则库的所述DPI规则是否冲突;
存储单元,用于在生成的所述DPI规则与所述DPI规则库的所述DPI规则不存在冲突时,将所述DPI规则存储至DPI规则库。
本发明首先通过获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据,以获取未识别数据;接着分析所述未识别数据,以获取所述未识别数据的业务特征;然后基于所述业务特征编译生成DPI规则;最后存储所述DPI规则至所述DPI规则库。根据获取到的互联网数据获取未识别数据、分析未识别数据的业务特征,基于业务特征编译生成DPI规则,并基于DPI规则更新DPI规则库,完成了DPI规则库的实时自动更新,避免出现DPI规则库的DPI规则无法准确识别互联网数据中的业务数据的问题,提高了数据识别的识别率和准确率。
附图说明
图1为本发明DPI规则的生成方法第一实施例的流程示意图;
图2为图1中步骤S40的细化流程示意图;
图3为图1中步骤S20第一实施例的细化流程示意图;
图4为图1中步骤S20第二实施例的细化流程示意图;
图5为图3中步骤S23的细化流程示意图;
图6为DPI规则的生成装置第一实施例的功能模块示意图;
图7为图6中存储模块的细化功能模块示意图;
图8为图6中分析模块第一实施例的细化功能模块示意图;
图9为图6中分析模块第二实施例的细化功能模块示意图;
图10为图8中分析单元的细化功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种DPI规则的生成方法。
参照图1,图1为DPI规则的生成方法第一实施例的流程示意图。
在本实施例中,该DPI规则的生成方法包括:
步骤S10,获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;
采集/获取移动互联网数据,基于DPI规则库的DPI规则识别采集/获取到的移动互联网数据。
步骤S20,在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征,其中,所述未识别数据为所述互联网数据中所述DPI规则无法识别的互联网数据;
在所述互联网数据存在未识别数据时,对未识别数据进行分析,用以获取未识别数据的第一特征。采用固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征等基于数据挖掘算法获取第一特征。该第一特征为固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征中的一种或几种;其中负载是指未识别数据包含的对应的服务器等加密数据序列。
步骤S30,基于所述第一特征编译生成DPI规则;
基于获取的第一特征编译生成DPI规则。编译方式可以采用现有DPI规则的编译方式,也可以采用其他编译方式,譬如现有DPI规则的编译方式优化后的编译方式等,本实施例中不做进一步地限定。
步骤S40,将所述DPI规则存储至所述DPI规则库。
将编译生成的DPI规则存储至DPI规则库,即基于编译生成的DPI规则更新DPI规则库,其更新过程采用热更新。
在其他实施例中,请参考图2,步骤S40包括:
步骤S41、判断生成的所述DPI规则与所述DPI规则库的所述DPI规则是否冲突;
步骤S42、在生成的所述DPI规则与所述DPI规则库的所述DPI规则不存在冲突时,将所述DPI规则存储至DPI规则库。
在基于生成的DPI规则搜索的数据与基于DPI规则库的DPI规则搜索的数据一致、基于生成的DPI规则搜索的数据包含或者包含于基于DPI规则库的DPI规则搜索的数据、或基于生成的DPI规则搜索的数据与基于DPI规则库的DPI规则搜索的数据具有相同的数据时,判定所述DPI规则与DPI规则库的DPI规则发送冲突。在所述DPI规则与DPI规则库的DPI规则存在冲突时,分析所述DPI规则以及对应冲突的DPI规则,找出发生冲突的原因,基于该原因修改DPI规则,在修改后的DPI规则与DPI规则库的DPI规则不存在冲突,则存储修改的DPI规则至DPI规则库,其中,在基于生成的DPI规则搜索的数据包含或者包含于基于DPI规则库的DPI规则搜索的数据时,设置生成的DPI规则与DPI规则库的DPI规则的优先级,并基于设置后的生成的DPI规则与DPI规则库的DPI规则更新DPI规则库;否则,继续修改或者放弃该DPI规则。
在基于编译生成的DPI规则更新DPI规则库之后,即可采用更新后DPI规则库的DPI规则识别移动互联网中新出现的业务数据。
本实施例DPI规则的生成方法,首先通过获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;接着在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征;然后基于所述第一特征编译生成DPI规则;最后将所述DPI规则存储至所述DPI规则库。根据获取到的互联网数据获取未识别数据、分析未识别数据的业务特征,基于业务特征编译生成DPI规则,并基于DPI规则更新DPI规则库,完成了DPI规则库的实时自动更新,避免出现DPI规则库的DPI规则无法准确识别互联网数据中的业务数据的问题,提高了数据识别的识别率和准确率。
参照图3,图3为图1中步骤S20第一实施例的细化流程示意图。
基于第一实施例提出本发明DPI规则的生成方法中步骤S20的细化流程的实施例,本实施例中,步骤S20包括:
步骤S21,在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征;
基于未识别数据的明文数据采用现有的协议获取未识别数据的第二特征,第二特征包括域名等未识别数据的明文数据特征,并以该第二特征作为对应未识别数据的业务名称。
步骤S22,基于所述第二特征过滤所述未识别数据,以获取业务数据;
过滤未识别数据,去除未识别数据的非业务数据,保证剩余的未识别数据为纯业务数据。可以通过获取未识别数据中的用户数据及用户数据对应的目标IP地址,在用户数据及用户数据对应的目标IP地址均能够与第二特征匹配成功时,该用户数据对应的未识别数据为业务数据;在用户数据及用户数据对应的目标IP地址不能同时与第二特征匹配成功时,该用户数据对应的未识别数据为非业务数据。本实施的过滤未识别数据的方式可以讲未识别数据中的非业务数据删除或者标示为非业务数据。
步骤S23,分析所述业务数据,以获取所述业务数据的业务特征;
采用固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征等基于数据挖掘算法分析业务数据的业务特征。该业务特征为固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征中的一种或几种;其中负载是指未识别数据包含的对应的服务器等加密数据序列。
步骤S24,将获取的所述业务特征作为所述未识别数据的第一特征。
在其他实施例中,请参照图4,在步骤S21和步骤S22之间,DPI规则的生成方法还包括:
步骤S25,获取所述第二特征对应的第一目标IP地址和/或第一用户数据;
其中,第一目标IP地址、第一用户数据分别为未识别数据中第二特征对应的目标IP地址和用户数据。
步骤S26,在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址;
和/或,在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。
其中,第二目标IP地址为互联网数据中第二特征对应的目标IP地址,第二用户数据为互联网数据中第二特征对应的用户数据。
通过获取未识别数据中所述第二特征对应的第一目标IP地址和/或第一用户数据,并在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址,和/或,在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。补全了未识别数据,确保了第二特征对应的未识别数据的完整性,进而提高了后续生成的DPI规则的准确率。
本实施例中,通过第二特征过滤所述未识别数据,获取未识别数据中的业务数据,并通过分析所述业务数据获取所述业务数据的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征,提高了第一特征的准确性,进而提高了后续生成的DPI规则的准确率。
参照图5,图5为图3中步骤S23的细化流程示意图。
基于上一实施例提出本发明DPI规则的生成方法中步骤S23的细化流程的实施例,本实施例中,步骤S23包括:
步骤S231,将所述业务数据分为多组业务数据组;
以用户流为单位将所述业务数据分为多组业务数据组,分组时可以以N个用户流为一组对业务数据进行分组。用户流是指用户访问某一服务器时,与该服务器IP连接过程中的产生的数据流。
步骤S232,对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征。
采用数据挖掘算法对每一个业务数据组的相同序列的载荷报文进行数据挖掘,以获取所述业务数据组的业务特征,该业务特征是指能够覆盖预设比例以上的业务数据组的业务数据的共同特征,即业务数据组预设比例以上的业务数据的共同特征,或者业务数据组预设比例以上的业务数据都包含该业务特征,其中预设比例是为保证后续生成的DPI规则的准确率而预先设置的比例,该预设比例可以根据需求设置为90%、95%等比例。
步骤S233,将获取的所述业务特征作为所述未识别数据的第一特征。
本实施例中,通过将所述业务数据分为多组业务数据组;并对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取所述业务数据组的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征;分组且采用数据挖掘的方式获取业务数据的业务特征,提高了业务特征的准确性。
本发明进一步提供一种DPI规则的生成装置。
参照图6,图6为DPI规则的生成装置第一实施例的功能模块示意图。
在本实施例中,该DPI规则的生成装置包括:
识别模块10,用于获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;
识别模块10采集/获取移动互联网数据,基于DPI规则库的DPI规则识别采集/获取到的移动互联网数据。
分析模块20,在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征,其中,所述未识别数据为所述互联网数据中所述DPI规则无法识别的互联网数据;
在所述互联网数据存在未识别数据时,分析模块20对未识别数据进行分析,用以获取未识别数据的第一特征。分析模块20采用固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征等基于数据挖掘算法获取第一特征。该第一特征为固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征中的一种或几种;其中负载是指未识别数据包含的对应的服务器等加密数据序列。
编译模块30,用于基于所述第一特征编译生成DPI规则;
编译模块30基于获取的第一特征编译生成DPI规则。编译方式可以采用现有DPI规则的编译方式,也可以采用其他编译方式,譬如现有DPI规则的编译方式优化后的编译方式等,本实施例中不做进一步地限定。
存储模块40,用于将所述DPI规则存储至所述DPI规则库。
存储模块40将编译生成的DPI规则存储至DPI规则库,即基于编译生成的DPI规则更新DPI规则库,其更新过程采用热更新。
在其他实施例中,请参考图7,所述存储模块40包括:
判断单元41,用于判断所述生成的DPI规则与所述DPI规则库的所述DPI规则是否冲突;
存储单元42,用于在生成的所述DPI规则与所述DPI规则库的所述DPI规则不存在冲突时,将所述DPI规则存储至DPI规则库。
在基于生成的DPI规则搜索的数据与基于DPI规则库的DPI规则搜索的数据一致、基于生成的DPI规则搜索的数据包含或者包含于基于DPI规则库的DPI规则搜索的数据、或基于生成的DPI规则搜索的数据与基于DPI规则库的DPI规则搜索的数据具有相同的数据时,判断单元41判定所述DPI规则与DPI规则库的DPI规则发送冲突。在所述DPI规则与DPI规则库的DPI规则存在冲突时,分析所述DPI规则以及对应冲突的DPI规则,找出发生冲突的原因,基于该原因修改DPI规则,在修改后的DPI规则与DPI规则库的DPI规则不存在冲突,则存储修改的DPI规则至DPI规则库,其中,在基于生成的DPI规则搜索的数据包含或者包含于基于DPI规则库的DPI规则搜索的数据时,设置生成的DPI规则与DPI规则库的DPI规则的优先级,并基于设置后的生成的DPI规则与DPI规则库的DPI规则更新DPI规则库;否则,继续修改或者放弃该DPI规则。
本实施例DPI规则的生成装置,首先通过识别模块10获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;接着在所述互联网数据存在未识别数据时,分析模块20分析所述未识别数据,以获取所述未识别数据的第一特征;然后编译模块30基于所述第一特征编译生成DPI规则;最后存储模块40将所述DPI规则存储至所述DPI规则库。根据获取到的互联网数据获取未识别数据、分析未识别数据的业务特征,基于业务特征编译生成DPI规则,并基于DPI规则更新DPI规则库,完成了DPI规则库的实时自动更新,避免出现DPI规则库的DPI规则无法准确识别互联网数据中的业务数据的问题,提高了数据识别的识别率和准确率。
参照图8,图8为图6中分析模块第一实施例的细化功能模块示意图。
基于第一实施例提出本发明DPI规则的生成装置中分析模块的细化功能模块的实施例,本实施例中,所述分析模块20包括:
第一获取单元21,用于在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征;
第一获取单元21基于未识别数据的明文数据采用现有的协议获取未识别数据的第二特征,第二特征包括域名等未识别数据的明文数据特征,并以该第二特征作为对应未识别数据的业务名称。
过滤单元22,用于基于所述第二特征过滤所述未识别数据,以获取业务数据;
过滤单元22过滤未识别数据,去除未识别数据的非业务数据,保证剩余的未识别数据为纯业务数据。可以通过获取未识别数据中的用户数据及用户数据对应的目标IP地址,在用户数据及用户数据对应的目标IP地址均能够与第二特征匹配成功时,该用户数据对应的未识别数据为业务数据;在用户数据及用户数据对应的目标IP地址不能同时与第二特征匹配成功时,该用户数据对应的未识别数据为非业务数据。本实施的过滤未识别数据的方式可以讲未识别数据中的非业务数据删除或者标示为非业务数据。
分析单元23,用于分析所述业务数据,以获取所述业务数据的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征。
分析单元23采用固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征等基于数据挖掘算法分析业务数据的业务特征。该业务特征为固有特征集包含的特征、未识别数据的负载和/或未识别数据中多数数据流的相同序列具有的共同特征中的一种或几种;其中负载是指未识别数据包含的对应的服务器等加密数据序列。
在其他实施例中,请参照图9,所述分析模块20还包括:
第二获取单元24,用于获取所述第二特征对应的第一目标IP地址和/或第一用户数据;
其中,第一目标IP地址、第一用户数据分别为未识别数据中第二特征对应的目标IP地址和用户数据。
更新单元25,用于在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址;和/或,在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。
其中,第二目标IP地址为互联网数据中第二特征对应的目标IP地址,第二用户数据为互联网数据中第二特征对应的用户数据。
通过第二获取单元24获取未识别数据中所述第二特征对应的第一目标IP地址和/或第一用户数据,在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,更新单元25采用所述第二目标IP更新所述未识别数据中的第一目标IP地址,和/或,在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,更新单元25采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。补全了未识别数据,确保了第二特征对应的未识别数据的完整性,进而提高了后续生成的DPI规则的准确率。
本实施例中,通过过滤单元22基于第二特征过滤所述未识别数据获取未识别数据中的业务数据,并通过分析所述业务数据获取所述业务数据的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征,提高了第一特征的准确性,进而提高了后续生成的DPI规则的准确率。
参照图10,图10为图8中分析单元的细化功能模块示意图。
基于上一实施例提出本发明DPI规则的生成装置中分析单元的细化流功能模块程的实施例,本实施例中,所述分析单元23包括:
分组子单元231,用于将所述业务数据分为多组业务数据组;
分组子单元231以用户流为单位将所述业务数据分为至少两组业务数据组,分组时也可以以N个用户流为一组对业务数据进行分组。用户流是指用户成功访问某一服务器IP时,访问过程中的全部数据。
数据挖掘子单元232,用于对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征。
数据挖掘子单元232采用数据挖掘算法对每一个业务数据组的相同序列的载荷报文进行数据挖掘,以获取所述业务数据组的业务特征,该业务特征是指能够覆盖预设比例以上的业务数据组的业务数据的共同特征,即业务数据组预设比例以上的业务数据的共同特征,或者业务数据组预设比例以上的业务数据都包含该业务特征,其中预设比例是为保证后续生成的DPI规则的准确率而预先设置的比例,该预设比例可以根据需求设置为90%、95%等。
本实施例中,分组子单元221将所述业务数据分为多组业务数据组;数据挖掘子单元222对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征;分组且采用数据挖掘的方式获取业务数据的业务特征,提高了业务特征的准确性。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种DPI深度业务识别规则的生成方法,其特征在于,所述DPI规则的生成方法包括以下步骤:
获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;
在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征,其中,所述未识别数据为所述互联网数据中所述DPI规则无法识别的互联网数据;
基于所述第一特征编译生成DPI规则;
将所述DPI规则存储至所述DPI规则库。
2.如权利要求1所述的DPI规则的生成方法,其特征在于,所述在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征的步骤包括:
在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征;
基于所述第二特征过滤所述未识别数据,以获取业务数据;
分析所述业务数据,以获取所述业务数据的业务特征;
将获取的所述业务特征作为所述未识别数据的第一特征。
3.如权利要求2所述的DPI规则的生成方法,其特征在于,在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征的步骤与所述基于所述第二特征过滤所述未识别数据,以获取业务数据的步骤之间,所述DPI规则的生成方法还包括:
获取所述第二特征对应的第一目标IP地址和/或第一用户数据;
在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址;
和/或,在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。
4.如权利要求2所述的DPI规则的生成方法,其特征在于,所述分析所述业务数据,以获取所述业务数据的业务特征的步骤包括:
将所述业务数据分为多组业务数据组;
对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征;
将获取的所述业务特征作为所述未识别数据的第一特征。
5.如权利要求1至4任一项所述的DPI规则的生成方法,其特征在于,所述将所述DPI规则存储至DPI规则库的步骤包括:
判断生成的所述DPI规则与所述DPI规则库的所述DPI规则是否冲突;
在生成的所述DPI规则与DPI规则库的DPI规则均不存在冲突时,将所述DPI规则存储至DPI规则库。
6.一种DPI规则的生成装置,其特征在于,所述DPI规则的生成装置包括:
识别模块,用于获取互联网数据,基于DPI规则库的DPI规则识别所述互联网数据;
分析模块,用于在所述互联网数据存在未识别数据时,分析所述未识别数据,以获取所述未识别数据的第一特征,其中,所述未识别数据为所述互联网数据中所述DPI规则无法识别的互联网数据;
编译模块,用于基于所述第一特征编译生成DPI规则;
存储模块,用于将所述DPI规则存储至所述DPI规则库。
7.如权利要求6所述的DPI规则的生成装置,其特征在于,所述分析模块包括:
第一获取单元,用于在所述互联网数据存在未识别数据时,获取所述未识别数据的第二特征;
过滤单元,用于基于所述第二特征过滤所述未识别数据,以获取业务数据;
分析单元,用于分析所述业务数据,以获取所述业务数据的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征。
8.如权利要求7所述的DPI规则的生成装置,其特征在于,所述分析模块还包括:
第二获取单元,用于获取所述第二特征对应的第一目标IP地址和/或第一用户数据;
更新单元,用于在所述第一目标IP地址与所述第二特征对应的第二目标IP地址不一致时,采用所述第二目标IP更新所述未识别数据中的第一目标IP地址;和/或,用于在所述第一用户数据与所述第二特征对应的第二用户数据不一致时,采用所述第二用户数据更新所述未识别数据中的所述第一用户数据。
9.如权利要求7所述的DPI规则的生成装置,其特征在于,所述分析单元包括:
分组子单元,用于将所述业务数据分为多组业务数据组;
数据挖掘子单元,用于对所述业务数据组的相同序列的载荷报文进行数据挖掘,以获取各个所述业务数据组的业务特征,并将获取的所述业务特征作为所述未识别数据的第一特征。
10.如权利要求6-9任一项所述的DPI规则的生成装置,其特征在于,所述存储模块包括:
判断单元,用于判断生成的所述DPI规则与所述DPI规则库的所述DPI规则是否冲突;
存储单元,用于在生成的所述DPI规则与所述DPI规则库的所述DPI规则不存在冲突时,将所述DPI规则存储至DPI规则库。
CN201510254257.4A 2015-05-18 2015-05-18 Dpi规则的生成方法及装置 Active CN106301825B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510254257.4A CN106301825B (zh) 2015-05-18 2015-05-18 Dpi规则的生成方法及装置
PCT/CN2016/072175 WO2016184163A1 (zh) 2015-05-18 2016-01-26 Dpi规则的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510254257.4A CN106301825B (zh) 2015-05-18 2015-05-18 Dpi规则的生成方法及装置

Publications (2)

Publication Number Publication Date
CN106301825A true CN106301825A (zh) 2017-01-04
CN106301825B CN106301825B (zh) 2020-10-16

Family

ID=57319341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510254257.4A Active CN106301825B (zh) 2015-05-18 2015-05-18 Dpi规则的生成方法及装置

Country Status (2)

Country Link
CN (1) CN106301825B (zh)
WO (1) WO2016184163A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953792A (zh) * 2017-02-15 2017-07-14 北京浩瀚深度信息技术股份有限公司 基于弱特征累计的即时通讯业务识别方法及服务器
CN109639593A (zh) * 2018-12-24 2019-04-16 南京中孚信息技术有限公司 一种深度报文分析系统的升级方法及装置
CN110708215A (zh) * 2019-10-10 2020-01-17 深圳市网心科技有限公司 深度包检测规则库生成方法、装置、网络设备及存储介质
CN110990669A (zh) * 2019-10-16 2020-04-10 广州丰石科技有限公司 一种基于规则生成的dpi解析方法和系统
CN113010500A (zh) * 2019-12-18 2021-06-22 中国电信股份有限公司 用于dpi数据的处理方法和处理系统
CN113055388A (zh) * 2021-03-16 2021-06-29 烽火通信科技股份有限公司 一种基于生成对抗网络的深度包检测方法与系统
CN113067743A (zh) * 2020-01-02 2021-07-02 中国移动通信有限公司研究院 流规则提取方法、装置、系统及存储介质
CN114598659A (zh) * 2020-11-19 2022-06-07 华为技术有限公司 规则库优化方法和装置
CN114826956A (zh) * 2022-03-30 2022-07-29 杭州迪普科技股份有限公司 用于dpi测试设备的dpi策略库文件自动生成方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123481A1 (en) * 2004-12-07 2006-06-08 Nortel Networks Limited Method and apparatus for network immunization
CN102045363A (zh) * 2010-12-31 2011-05-04 成都市华为赛门铁克科技有限公司 网络流量特征识别规则的建立方法、识别控制方法及装置
CN103516727A (zh) * 2013-09-30 2014-01-15 重庆电子工程职业学院 网络主动防御系统及其更新方法
CN104113571A (zh) * 2013-04-18 2014-10-22 北京恒华伟业科技股份有限公司 数据冲突处理方法和装置
CN104486143A (zh) * 2014-12-01 2015-04-01 中国联合网络通信集团有限公司 一种深度报文检测方法、检测系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165024B2 (en) * 2008-04-03 2012-04-24 Alcatel Lucent Use of DPI to extract and forward application characteristics
US8818927B2 (en) * 2011-06-09 2014-08-26 Gfk Holding Inc. Method for generating rules and parameters for assessing relevance of information derived from internet traffic

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123481A1 (en) * 2004-12-07 2006-06-08 Nortel Networks Limited Method and apparatus for network immunization
CN102045363A (zh) * 2010-12-31 2011-05-04 成都市华为赛门铁克科技有限公司 网络流量特征识别规则的建立方法、识别控制方法及装置
CN104113571A (zh) * 2013-04-18 2014-10-22 北京恒华伟业科技股份有限公司 数据冲突处理方法和装置
CN103516727A (zh) * 2013-09-30 2014-01-15 重庆电子工程职业学院 网络主动防御系统及其更新方法
CN104486143A (zh) * 2014-12-01 2015-04-01 中国联合网络通信集团有限公司 一种深度报文检测方法、检测系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953792A (zh) * 2017-02-15 2017-07-14 北京浩瀚深度信息技术股份有限公司 基于弱特征累计的即时通讯业务识别方法及服务器
CN109639593B (zh) * 2018-12-24 2022-08-12 南京中孚信息技术有限公司 一种深度报文分析系统的升级方法及装置
CN109639593A (zh) * 2018-12-24 2019-04-16 南京中孚信息技术有限公司 一种深度报文分析系统的升级方法及装置
CN110708215A (zh) * 2019-10-10 2020-01-17 深圳市网心科技有限公司 深度包检测规则库生成方法、装置、网络设备及存储介质
CN110708215B (zh) * 2019-10-10 2024-06-14 深圳市网心科技有限公司 深度包检测规则库生成方法、装置、网络设备及存储介质
CN110990669A (zh) * 2019-10-16 2020-04-10 广州丰石科技有限公司 一种基于规则生成的dpi解析方法和系统
CN113010500A (zh) * 2019-12-18 2021-06-22 中国电信股份有限公司 用于dpi数据的处理方法和处理系统
CN113067743A (zh) * 2020-01-02 2021-07-02 中国移动通信有限公司研究院 流规则提取方法、装置、系统及存储介质
CN114598659A (zh) * 2020-11-19 2022-06-07 华为技术有限公司 规则库优化方法和装置
CN113055388B (zh) * 2021-03-16 2022-06-03 烽火通信科技股份有限公司 一种基于生成对抗网络的深度包检测方法与系统
CN113055388A (zh) * 2021-03-16 2021-06-29 烽火通信科技股份有限公司 一种基于生成对抗网络的深度包检测方法与系统
CN114826956A (zh) * 2022-03-30 2022-07-29 杭州迪普科技股份有限公司 用于dpi测试设备的dpi策略库文件自动生成方法和装置
CN114826956B (zh) * 2022-03-30 2023-05-26 杭州迪普科技股份有限公司 用于dpi测试设备的dpi策略库文件自动生成方法和装置

Also Published As

Publication number Publication date
CN106301825B (zh) 2020-10-16
WO2016184163A1 (zh) 2016-11-24

Similar Documents

Publication Publication Date Title
CN106301825A (zh) Dpi规则的生成方法及装置
CN104486461B (zh) 域名分类方法和装置、域名识别方法和系统
CN103530365B (zh) 获取资源的下载链接的方法及系统
CN106060149A (zh) 一种移动互联网海量数据分析审计技术架构
CN103077250B (zh) 一种网页内容抓取方法及装置
CN104714984A (zh) 一种数据库优化的方法和装置
CN106897196B (zh) 网站页面间访问路径的确定方法及装置
CN110287688A (zh) 关联账号分析方法、装置和计算机可读存储介质
KR101874862B1 (ko) 서비스 비용을 위한 지능형 검색시스템 및 그 방법
CN107547671A (zh) 一种url匹配方法及装置
CN105791213A (zh) 一种策略优化装置及方法
CN102663054A (zh) 一种确定网站权重的方法及装置
CN105631551A (zh) 一种最优路线的推荐方法及装置
CN110691080A (zh) 自动溯源方法、装置、设备及介质
CN103324701A (zh) 数据搜索装置和数据搜索方法
CN106302737B (zh) 一种ip定位技术中基准点数据的清洗方法
CN106067879B (zh) 信息的检测方法及装置
CN113572780A (zh) 设备安全策略配置方法
CN109710667A (zh) 一种基于大数据平台的多源数据融合共享实现方法及系统
CN108900547A (zh) 回源控制方法及装置
CN108876314B (zh) 一种职业生涯专业能力可追溯方法及平台
CN106326280B (zh) 数据处理方法、装置及系统
CN103248511A (zh) 一种单点业务性能的分析方法、装置和系统
CN104077361A (zh) 一种用于大数据的排序方法及系统
CN112187653A (zh) 一种网络流量判定方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200909

Address after: Yuhuatai District of Nanjing City, Jiangsu province 210012 Bauhinia Road No. 68

Applicant after: Nanjing Zhongxing New Software Co.,Ltd.

Address before: 518057 Nanshan District Guangdong high tech Industrial Park, South Road, science and technology, ZTE building, Ministry of Justice

Applicant before: ZTE Corp.

GR01 Patent grant
GR01 Patent grant