CN110445800B - 一种基于自学习的深度报文解析系统 - Google Patents

一种基于自学习的深度报文解析系统 Download PDF

Info

Publication number
CN110445800B
CN110445800B CN201910755654.8A CN201910755654A CN110445800B CN 110445800 B CN110445800 B CN 110445800B CN 201910755654 A CN201910755654 A CN 201910755654A CN 110445800 B CN110445800 B CN 110445800B
Authority
CN
China
Prior art keywords
learning
feature
data
module
feature library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910755654.8A
Other languages
English (en)
Other versions
CN110445800A (zh
Inventor
裴亚可
曹瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Gbcom Communication Technology Co ltd
Original Assignee
Shanghai Gbcom Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Gbcom Communication Technology Co ltd filed Critical Shanghai Gbcom Communication Technology Co ltd
Priority to CN201910755654.8A priority Critical patent/CN110445800B/zh
Publication of CN110445800A publication Critical patent/CN110445800A/zh
Application granted granted Critical
Publication of CN110445800B publication Critical patent/CN110445800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/31Flow control; Congestion control by tagging of packets, e.g. using discard eligibility [DE] bits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自学习的深度报文解析系统,属于数据处理技术领域,包括:生成端和运行端,生成端包括:第一采集模块,第一解析模块,第一学习模块,第一学习模块具体包括:训练单元;上述技术方案的有益效果是:通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。

Description

一种基于自学习的深度报文解析系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于自学习的深度报文解析系统。
背景技术
DPI(深度报文解析)是一种基于数据包的深度检测技术,针对不同的网络应用层载荷进行深度检测,通过对报文的有效载荷检测决定其合法性,DPI深度报文解析系统在现有网络环境中广泛使用,该系统主要用于识别应用程序,识别虚拟身份,识别网络内容,对网络进行流量监控等技术领域。现在的互联网环境中,手机和电脑的应用程序种类繁多,层出不穷且更新速度快,特征库的更新无法保持同步,各应用程序之间进行网络通讯产生的数据量巨大,对其进行深度报文解析需要投入大量的人力进行特征库的更新和维护,耗费大量的人力资源的同时数据提取的精确度也并不是很高。
发明内容
根据现有技术中存在的上述问题,提供一种具备自我学习功能的深度报文解析系统,通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。
上述技术方案具体包括:
一种基于自学习的深度报文解析系统,其中包括生成端和运行端,所述生成端连接所述运行端,所述生成端包括:
第一采集模块,用于抓取网络中的数据报文;
第一解析模块,连接所述第一采集模块,所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类存储,输出一分类结果;
第一学习模块,连接所述第一解析模块,所述第一学习模块包括:
训练单元,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一特征识别模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;
所述运行端中包括:
第二采集模块,用于抓取网络中的数据报文;
第二解析模块,连接所述第二采集模块,读取所述生成端保存的所述第二特征库,对所述第二采集模块抓取的所述数据报文进行特征解析,并输出解析结果;
输出模块,连接所述第二解析模块,用于将所述解析结果输出给用户使用。
优选地,其中,所述第一学习模块还包括:
清洗单元,连接所述训练单元,用于对所述分类结果进行数据清洗。
优选地,其中,所述第一特征库为现有的DNS特征库。
优选地,其中,所述第二解析模块根据所述第二特征库对所述第二采集模块抓取的所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类,输出为所述解析结果。
优选地,其中,所述运行端还包括:
第二学习模块,连接所述第二解析模块,根据所述解析结果,将实际识别得到的所述数据报文的所述数据特征加入所述第一特征库中,并根据所述第一特征库,实时对所述特征识别模型进行第二机器学习,以更新所述第二特征库。
优选地,其中,所述第二机器学习为监督学习方式和\或强化学习方式。
优选地,其中,所述第一机器学习为无监督学习方式。
优选地,其中,所述第二特征库为应用程序特征库。
优选地,其中,所述训练单元采用聚类算法对所述特征识别模型进行所述第一机器学习。
优选地,其中,所述第二学习模块采用分类算法对所述特征识别模型进行第二机器学习。
上述技术方案的有益效果是:提供一种具备自我学习功能的深度报文解析系统,通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。
附图说明
图1是本发明的较佳实施例中,一种基于自学习的深度报文解析系统结构示意图;
图2是本发明的较佳实施例中,于图1的基础上,第一学习模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
一种基于自学习的深度报文解析系统,如图1所示,其中包括生成端1和运行端2,生成端1连接运行端2,生成端1包括:
第一采集模块10,用于抓取网络中的数据报文;
第一解析模块11,连接第一采集模块10,第一解析模块11根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类存储,输出一分类结果;
第一学习模块12,连接第一解析模块11,如图2所示,第一学习模块12具体包括:
训练单元121,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一特征识别模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;
所述运行端2中包括:
第二采集模块20,用于抓取网络中的数据报文;
第二解析模块21,连接第二采集模块20,读取生成端1保存的第二特征库,对第二采集模块20抓取的数据报文进行特征解析,并输出解析结果;
输出模块22,连接第二解析模块21,用于将解析结果输出给用户使用。
在本发明的一个具体实施例中,生成端1负责根据已有的特征库学习并建立新的特征库,该学习建立过程具体包括:
第一步,在已有的深度报文解析服务器的基础上,使用现有的DNS特征库,对第一采集模块10抓取的网络中的数据报文进行DNS特征标记,并根据标记结果和目的IP地址对采集到的数据流进行分类存储。
第二步,在第一学习模块12中,预先通过无监督学习算法建立一无监督学习模型,该无监督学习模型用于对采集到的数据基于进行相应的训练。
第三步,将第一步分类存储的数据结果导入学习中枢也就是第一学习模块12中进行学习训练,该学习训练过程基于第二步过程中建立的无监督学习模型进行。
第四步,经过第一学习模块12的训练后,生成一训练好的计算机应用程序特征库,并将该特征库导入特征库集。
在本发明的较佳实施例中,第一学习模块12还包括:
清洗单元120,连接训练单元121,用于对所述分类结果进行数据清洗。
在本发明的一个具体实施例中,第一学习模块12还具有数据清洗的功能,用于发现并纠正分类后的数据结果中可识别的错误,其中包括:检查数据的一致性,处理数据中的无效值和缺失值,删除重复的信息等内容。
在本发明的较佳实施例中,所述第一特征库为现有的DNS特征库。
在本发明的较佳实施例中,第二解析模块21根据第二特征库对第二采集模块20抓取的数据报文进行特征标记,并根据标记结果对数据报文进行分类,输出为解析结果。
在本发明的较佳实施例中,运行端2还包括:
第二学习模块23,连接第二解析模块21,根据所述解析结果,将实际识别得到的所述数据报文的所述数据特征加入所述第一特征库中,并根据所述第一特征库实时对所述特征识别模型进行第二机器学习,以根据自学习得到的所述特征集合更新所述第二特征库。
在本发明的一个具体实施例中,运行端2负责系统的运行和再学习过程,其具体的工作过程包括以下步骤:
第一步,将深度报文解析系统部署到运行环境中,并在数据传输的过程中,交换机所有的数据包镜像到该系统中。
第二步,深度报文解析服务器使用经过生成端1训练好的特征库集中的计算机应用程序特征库进行深度报文解析,并将解析得到的数据提供给用户使用。
第三步,在第二学习模块23中,预先基于监督学习和强化学习的算法建立起特征识别模型,用于对解析好的数据进行训练。
第四步,把第二步中解析好的数据导入到第二学习模块23中,按照第三步中预先设置的特征识别模型进行再次的训练。
第五步,使用经过第二学习模块23训练后的数据,对生成端1生成的计算机应用程序特征库和DNS等其他特征库进行纠正和完善,并导入特征库集,完成再次学习过程,对特征库进行完善和强化。
在本发明的较佳实施例中,所述第二机器学习为监督学习方式和\或强化学习方式。
在本发明的较佳实施例中,所述第一机器学习为无监督学习方式。
在本发明的较佳实施例中,所述第二特征库为应用程序特征库。
在本发明的较佳实施例中,训练单元121采用聚类算法对特征识别模型进行第一机器学习。
在本发明的较佳实施例中,第二学习模块23采用分类算法对特征识别模型进行第二机器学习。
在本发明的一个具体实施例中,无监督学习是通过一些不知道输出的数据,计算机通过相应的算法操作,如聚类算法,然后给这些数据打上标签,生成端1通过无监督学习以及聚类算法对第一采集模块12抓取的网络报文数据进行聚类处理,并将聚类后的相应数据打上标签,从而对网络报文数据进行机器识别分类。
而监督学习则是由已有的数据,包括输入和输出,来训练模型函数,获得相应的模型函数以后,再把新的输入数据带入模型函数,从而来预测数据的输出,运行端2通过监督学习和分类算法对特征库进行完善和强化。
上述技术方案的有益效果是:提供一种具备自我学习功能的深度报文解析系统,通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (5)

1.一种基于自学习的深度报文解析系统,其特征在于,包括生成端和运行端,所述生成端连接所述运行端,所述生成端包括:
第一采集模块,用于抓取网络中的数据报文;
第一解析模块,连接所述第一采集模块,所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果和目的IP地址对所述数据报文进行分类存储,输出一分类结果;
第一学习模块,连接所述第一解析模块,所述第一学习模块包括:
训练单元,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一无监督学习模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;
所述运行端中包括:
第二采集模块,用于抓取网络中的数据报文;
第二解析模块,连接所述第二采集模块,读取所述生成端保存的所述第二特征库,对所述第二采集模块抓取的所述数据报文进行特征解析,并输出解析结果;
输出模块,连接所述第二解析模块,用于将所述解析结果输出给用户使用;
所述运行端还包括:
第二学习模块,连接所述第二解析模块,根据所述解析结果,将实际识别得到的所述数据报文的所述数据特征中的DNS特征标记结果和目的IP地址加入所述第一特征库中,并根据所述第一特征库,实时对所述特征识别模型进行第二机器学习,以更新所述第二特征库;
所述第一特征库为现有的DNS特征库,所述第二特征库为应用程序特征库,所述第一机器学习为无监督学习方式,所述第二机器学习为监督学习方式和/或强化学习方式;
所述解析结果包括对所述数据报文进行特征标记、分类的结果和通过深度报文解析得到的数据。
2.根据权利要求1所述的基于自学习的深度报文解析系统,其特征在于,所述第一学习模块还包括:
清洗单元,连接所述训练单元,用于对所述分类结果进行数据清洗。
3.根据权利要求1所述的基于自学习的深度报文解析系统,其特征在于,
所述第二解析模块根据所述第二特征库对所述第二采集模块抓取的所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类,输出为所述解析结果。
4.根据权利要求1所述的基于自学习的深度报文解析系统,其特征在于,所述训练单元采用聚类算法对所述特征识别模型进行所述第一机器学习。
5.根据权利要求1所述的基于自学习的深度报文解析系统,其特征在于,所述第二学习模块采用分类算法对所述特征识别模型进行第二机器学习。
CN201910755654.8A 2019-08-15 2019-08-15 一种基于自学习的深度报文解析系统 Active CN110445800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910755654.8A CN110445800B (zh) 2019-08-15 2019-08-15 一种基于自学习的深度报文解析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910755654.8A CN110445800B (zh) 2019-08-15 2019-08-15 一种基于自学习的深度报文解析系统

Publications (2)

Publication Number Publication Date
CN110445800A CN110445800A (zh) 2019-11-12
CN110445800B true CN110445800B (zh) 2022-06-14

Family

ID=68435832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910755654.8A Active CN110445800B (zh) 2019-08-15 2019-08-15 一种基于自学习的深度报文解析系统

Country Status (1)

Country Link
CN (1) CN110445800B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114629809B (zh) * 2022-05-11 2022-10-18 北京启天安信科技有限公司 一种实时网络流量数据解析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051725A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 应用识别方法、数据挖掘方法、装置及系统
EP2584496A1 (en) * 2011-10-20 2013-04-24 Telefonaktiebolaget L M Ericsson AB (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN104767692A (zh) * 2015-04-15 2015-07-08 中国电力科学研究院 一种网络流量分类方法
CN109450740A (zh) * 2018-12-21 2019-03-08 青岛理工大学 一种基于dpi和机器学习算法进行流量分类的sdn控制器
CN109639655A (zh) * 2018-11-30 2019-04-16 南京中新赛克科技有限责任公司 一种智能深度解析系统及解析方法
CN110071845A (zh) * 2018-01-24 2019-07-30 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663067B2 (en) * 2017-12-15 2023-05-30 International Business Machines Corporation Computerized high-speed anomaly detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2584496A1 (en) * 2011-10-20 2013-04-24 Telefonaktiebolaget L M Ericsson AB (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN103051725A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 应用识别方法、数据挖掘方法、装置及系统
CN104767692A (zh) * 2015-04-15 2015-07-08 中国电力科学研究院 一种网络流量分类方法
CN110071845A (zh) * 2018-01-24 2019-07-30 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
CN109639655A (zh) * 2018-11-30 2019-04-16 南京中新赛克科技有限责任公司 一种智能深度解析系统及解析方法
CN109450740A (zh) * 2018-12-21 2019-03-08 青岛理工大学 一种基于dpi和机器学习算法进行流量分类的sdn控制器

Also Published As

Publication number Publication date
CN110445800A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN109639481B (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN109995601B (zh) 一种网络流量识别方法及装置
CN102523241B (zh) 基于决策树高速并行处理的网络流量在线分类方法及装置
CN107786388B (zh) 一种基于大规模网络流数据的异常检测系统
CN112491643B (zh) 深度报文检测方法、装置、设备及存储介质
CN110263916B (zh) 数据处理方法和装置、存储介质及电子装置
CN112468410B (zh) 一种增强网络流量特征准确率的方法和装置
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN109840533A (zh) 一种应用拓扑图识别方法及装置
CN111431819A (zh) 一种基于序列化的协议流特征的网络流量分类方法和装置
CN113778871A (zh) Mock测试方法、装置、设备及存储介质
CN110445800B (zh) 一种基于自学习的深度报文解析系统
CN109743286A (zh) 一种基于图卷积神经网络的ip类型标记方法及设备
CN106533728B (zh) 服务器信息收集方法和装置
CN114328268A (zh) 基于流量回放的软件测试方法、装置、设备及介质
CN113645305A (zh) 一种物联网数据的传输节点确定方法及系统
CN116011447B (zh) 电商评论分析方法、系统及计算机可读存储介质
CN114979017B (zh) 基于工控系统原始流量的深度学习协议识别方法及系统
CN111949720A (zh) 基于大数据和人工智能的数据分析方法及云端数据服务器
CN115390678B (zh) 虚拟人交互方法、装置、电子设备及存储介质
CN105512318B (zh) 页面生成方法和装置
CN115774870A (zh) 设备授权作弊检测方法、装置、电子设备及存储介质
CN105279230A (zh) 通过主动学习方法构建互联网应用特征识别数据库的方法及系统
CN114172856B (zh) 消息自动回复方法、装置、设备及存储介质
CN114143385B (zh) 一种网络流量数据的识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant