CN111917665A - 一种终端应用数据流识别方法及系统 - Google Patents

一种终端应用数据流识别方法及系统 Download PDF

Info

Publication number
CN111917665A
CN111917665A CN202010718118.3A CN202010718118A CN111917665A CN 111917665 A CN111917665 A CN 111917665A CN 202010718118 A CN202010718118 A CN 202010718118A CN 111917665 A CN111917665 A CN 111917665A
Authority
CN
China
Prior art keywords
data
packet
packets
data packet
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010718118.3A
Other languages
English (en)
Inventor
钟祎
魏浩
韩涛
葛晓虎
雷波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010718118.3A priority Critical patent/CN111917665A/zh
Publication of CN111917665A publication Critical patent/CN111917665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种终端应用数据流识别方法及系统,包括以下步骤:S1、对实时采集的待识别终端应用数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;S2、对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,转至步骤S3;S3、对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;通过分层次的进行数据流识别,能够在保证识别效率的同时,大大提高数据流识别的准确率。

Description

一种终端应用数据流识别方法及系统
技术领域
本发明属于移动通信技术领域,更具体地,涉及一种终端应用数据流识别方法及系统。
背景技术
随着互联网及智能手机的爆发,网络对人们的生活方式产生了深刻的影响,人们的生活越来越离不开网络。网络给人们带来极大便利的同时,也对网络监管和网络负载产生了较大的压力,各种各样的流量在网络中传输,其中可能带有各式各样的恶意流量,对网络产生较大影响。通过识别出不同的网络流量类型,能够实现对流量的针对性管理,如对恶意流量进行拦截,对优先级别高的流量尽快传输等。因此,对流量的类型进行识别和检测是一项十分有意义的技术。
数据流识别是根据底层数据识别其数据类型或者其所属业务或者应用的技术。数据流识别在网络安全、网络传输优化等领域有着重要的意义。网络安全的研究者可以通过识别数据流防治病毒、恶意插件等网络攻击;网络传输优化的研究者可以通过识别数据流来对不同类型的数据流进行传输的优化。因此数据流识别是一个十分重要的技术。
数据流识别方法经历了十分长久的研究历程。在最初的研究中,数据流识别方法主要通过端口来确定数据的类型。因为在最初,各种应用的数据使用的端口较固定,可以通过端口来识别数据的类型。但随着动态端口技术的应用,这种方法的准确率越来越低,直到现在,单靠这种方法已经不能作为数据流识别的主要技术。后来,一门新技术应运而生:深度包检测技术(Deep Packet Insection,DPI)。深度包检测技术主要是对各种类型的数据流统计出其独有的特征(串),然后通过检测各种流带有的特征进行比较,从而确定出流的类型。但随着加密技术的诞生,这种技术变得越来越不稳定,各种应用的特征越来越不明显,且容易变化,准确率较低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种终端应用数据流识别方法及系统,其目的在于解决现有技术进行数据流识别时准确率较低的技术问题。
为实现上述目的,第一方面,本发明提供了一种终端应用数据流识别方法,包括以下步骤:
S1、对实时采集的待识别终端应用数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;
S2、对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,转至步骤S3;
S3、对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;
其中,上述数据流识别模型为机器学习模型,用于识别数据流中各数据包的所属应用业务。
进一步优选地,上述数据流识别模型为决策树模型。
进一步优选地,上述数据流识别模型的训练方法,包括以下步骤:
S01、采集若干终端应用数据流,并标注各数据流中的各数据包的所属应用业务;
S02、分别对各数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合,提取各数据包集合的第二数据特征,与其所属应用业务一起构成训练集;
S03、将所得训练集输入到数据流识别模型中进行训练,得到预训练好的数据流识别模型。
进一步优选地,对数据流进行预处理的方法,包括:
对数据流中的数据包,每隔预设数量进行分组,将每组中的数据包按照五元组信息进行分类,得到多个类别的数据包集合;其中,若某一组中的数据包数量小于预设数量,则继续抓取终端底层的数据流。
优选地,上述预设数量为60。
进一步优选地,上述第一数据特征包括:传输层协议和特征字符串。
进一步优选地,上述第二数据特征包括:
最大包长:数据包集合中数据包的最大长度;
平均下载包长:数据包集合中下载包的包长平均值;
每秒传送包数:传输数据包集合中数据包时每秒传输的包数;
服务器端口:传输数据包集合中各数据包时与终端进行通信的服务器端口;
平均上传负载长度:数据包集合中上传包的负载长度的平均值;
最小包长:数据包集合中数据包的最小长度;
平均上传包长:数据包集合中上传包的包长平均值;
平均下载负载长度:数据包集合中下载包的负载长度的平均值;
平均负载长度:数据包集合中数据包的负载长度的平均值;
其中,数据包集合中的数据包为上传包或下载包;下载包为服务器传输到终端的数据包;上传包为终端传输到服务器的数据包。
第二方面,本发明提供了一种终端应用数据流识别系统,包括:数据预处理模块、模型训练模块和数据流识别模块;
数据预处理模块用于对数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;
模型训练模块用于采集若干终端应用数据流,并标注各数据流中的各数据包的所属应用业务,将各数据流输入到数据预处理模块中,得到按照五元组信息进行分类后的多个类别的数据包集合,提取各数据包集合的第二数据特征,与其所属应用业务一起构成训练集,并将所得训练集输入到数据流识别模型中进行训练,得到预训练好的数据流识别模型;
数据流识别模块用于将实时采集的待识别终端应用数据流输入到数据预处理模块中,得到按照五元组信息进行分类后的多个类别的数据包集合,对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;
其中,上述数据流识别模型为机器学习模型,用于识别数据流中各数据包的所属应用业务。
进一步优选地,上述数据预处理模块对数据流进行预处理的方法包括:对数据流中的数据包,每隔预设数量进行分组,将每组中的数据包按照五元组信息进行分类,得到多个类别的数据包集合。
进一步优选地,上述第一数据特征包括:传输层协议和特征字符串;
进一步优选地,上述第二数据特征包括:
最大包长:数据包集合中数据包的最大长度;
平均下载包长:数据包集合中下载包的包长平均值;
每秒传送包数:传输数据包集合中数据包时每秒传输的包数;
服务器端口:传输数据包集合中各数据包时与终端进行通信的服务器端口;
平均上传负载长度:数据包集合中上传包的负载长度的平均值;
最小包长:数据包集合中数据包的最小长度;
平均上传包长:数据包集合中上传包的包长平均值;
平均下载负载长度:数据包集合中下载包的负载长度的平均值;
平均负载长度:数据包集合中数据包的负载长度的平均值;
其中,数据包集合中的数据包为上传包或下载包;下载包为服务器传输到终端的数据包;上传包为终端传输到服务器的数据包。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明提出了一种终端应用数据流识别方法及系统,由于传统的识别方法只能对存在明显特征的业务流根据其相关特征进行快速识别,对于明显特征发生改变或者不存在明显特征的业务流,传统方法无法进行识别;本发明通过对数据流进行分层次识别,对于存在明显特征的业务流可以直接快速的识别出该业务流的类型,而对于不存在明显特征的业务流则进一步基于机器学习模型的数据流识别模型进行识别,能够在保证识别效率的同时,大大提高数据流识别的准确率。
2、本发明所提出的终端应用数据流识别方法及系统,首先对终端应用数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合,在提取第二数据特征时不仅考虑了平均包长等统计特征,还考虑了不同时间可能造成的影响,将相关的时域特征也考虑在内,并且考虑到不同特征对识别准确率的影响程度,通过实验选取了影响程度最高最具代表性的特征,大大提高了数据流识别的准确率。
3、本发明所提出的终端应用数据流识别方法及系统,综合比较了各种常用的机器学习算法在识别准确率和时间复杂度上的差异,选定效果最优的决策树模型作为识别模型,大大提高了数据流识别的准确率。
附图说明
图1是实施例1所提供的一种终端应用数据流识别方法流程图;
图2是实施例1所提供的将一组数据包按照五元组信息进行分类的示意图;
图3是实施例1所提供的在不同数据包集合大小下,分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型的准确率示意图;
图4是实施例1所提供的数据包集合的各特征权值示意图;
图5是实施例1所提供的在不同特征数量下,分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型,进行数据流识别模型的的准确率示意图;
图6是实施例1所提供的采用本发明所提出的数据流识别方法对不同应用业务的数据流进行识别的准确率示意图;
图7是实施例2所提供的一种终端应用数据流识别系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1、
一种终端应用数据流识别方法,如图1所示,包括以下步骤:
S1、对实时采集的待识别终端应用数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;
具体的,本实施例采用wireshark协议分析软件采集终端应用数据流,并以pcap文件形式进行存储后,对其中的数据包,每隔预设数量进行分组,将每组中的数据包按照五元组信息进行分类,得到多个类别的数据包集合,如图2所示;其中,若某一组中的数据包数量小于预设数量,则继续采集终端底层的数据流。需要说明的是,五元组信息源包括IP地址,源端口,目的IP地址,目的端口和传输层协议,本实施例将一组数据包中五元组信息均相同的数据包归为一个类别,形成数据包集合,该数据包集合中的各数据包所属应用业务相同。具体的,本实施例中,上述预设数量为60个。
S2、对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,转至步骤S3;
具体的,上述第一数据特征包括:传输层协议和特征字符串。除此之外,还可以包括本地IP、远端IP、本地端口、远端端口、传输层协议、应用层协议、负载特征串、包长范围、心跳周期等。本实施例中,通过对常见的APP进行深度分析,找出各种APP携带的特征信息,根据OSI分层模型,网络自底向上常常可以分为物理层、数据链路层、网络层、传输层、应用层。不同的App的数据流在各层都带有不同的信息,如端口、协议以及特征字符串,统计各种APP的各种业务流带有的固定规律的信息,就可以在后续识别系统中进行简单的匹配识别出数据流的类型。在本实施例中采用wireshark协议分析软件进行协助分析,得到如表1所示APP特征表,该特征表征包含了预设应用业务及其对应的特征;其中,预设应用业务包括QQ收发文本消息、QQ语音通话、QQ视频通话、微信收发普通消息、微信收发红包、微信语音通话、微信视频通话、腾讯视频浏览页面和腾讯视频观看视频,预设应用业务的特征包括:传输层协议、应用层协议、端口和特征字符串。
表1
Figure BDA0002598966990000081
提取数据包集合的传输层协议、应用层协议、端口和特征字符串,与APP特征表中各应用业务所对应的传输层协议、应用层协议、端口和特征字符串一一进行匹配,若能够与任意一种应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务。
该过程识别效率高,但仅能对存在明显特征的应用业务数据流进行快速识别,并不能识别所有应用业务数据流,故下面对于不存在明显特征的应用业务数据流进行进一步识别。
S3、对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;
具体的,上述数据流识别模型为机器学习模型,用于识别数据流中各数据包的所属应用业务。在步骤S2不能准确识别不具有较明显特征的数据流时,使用机器学习算法具有识别准确率高,适用性广的优点。通过本发明所提供的识别方法不仅能将数据流识别的准确率提到最高,而且能够将识别效率最大化,极大地降低数据流识别的计算消耗,从而能够高效、且高准确率进行数据流识别。
进一步地,该数据流识别模型的训练方法,具体包括以下步骤:
S01、采集若干终端应用数据流,并标注各数据流中的各数据包的所属应用业务;
具体的,本实施例同样采用wireshark协议分析软件采集终端应用数据流。
S02、分别对各数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合,提取各数据包集合的第二数据特征,与其所属应用业务一起构成训练集;
需要说明的是,这里对数据流进行预处理的过程,同步骤S1中的预处理过程,这里不再赘述。
S03、将所得训练集输入到数据流识别模型中进行训练,得到预训练好的数据流识别模型。
需要说明的是,为了确定最优数据流识别模型及其相关参数,本发明分别进行了如下实验。首先,为了确定最优数据包集合大小(即上述预处理分组时的预设数量),本发明对相同测试集,在不同数据包集合大小下,分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型,进行数据流识别模型的准确性检测,得到如图3所示的结果。从图3可以看出,当数据包集合大小大于等于60时,决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型的准确率均达到最优,且采用决策树模型作为数据流识别模型时的准确率最高。其次,为了确定第二数据特征以及特征的数量,本实施例对数据包集合进行分析,得到了以下特征:最大包长、平均下载包长、每秒传送包数、服务器端口、平均上传负载长、最小包长、平均上传包长、平均下载负载长度、平均负载长度、每秒上传包数、PUSH包数量、平均包长、每秒下载包数量、每秒传输字节数以及包长标准差。并采用sklearn工具库对上述各个特征对分类类型的权值(重要性)进行了计算,得到如图4所示的结果,其中,横坐标表示特征,纵坐标表示权值,从左到右各特征的权值依次降低。需要说明的是,每种特征对于识别准确率的影响不一样,有些特征对准确率提升比较明显,而有些特征在不同APP中没有明显的区分度,对于识别准确率提升效果很小,这里特征的权值越高,说明该特征对于识别准确率的提升效果越明显。进一步地,本实施例按权重从大到小的顺序,以3个特征开始依次递增;对相同测试集,在不同特征数量下分别采用决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型作为数据流识别模型,进行数据流识别模型的准确性检测,得到如图5所示的结果,其中,横坐标表示特征数量,纵坐标表示准确率;从图中可以看出,当第二数据特征数量大于等于9时,决策树模型、K近邻模型、朴素贝叶斯模型和支持向量机模型的准确率均达到最优,且采用决策树模型作为数据流识别模型时的准确率最高。
通过上述实验可知,优选地,上述数据流识别模型为决策树模型,每个数据包集合中的数据包数量为60个(即上述预设数量),第二数据特征数量为9个,具体包括:最大包长、平均下载包长、每秒传送包数、服务器端口、平均上传负载长、最小包长、平均上传包长、平均下载负载长度和平均负载长度;此时,数据流识别模型的准确率最高。进一步地,本实施例中决策树的最大高度为10。
需要说明的是,数据包集合中的数据包为上传包或下载包;下载包为服务器传输到终端的数据包;上传包为终端传输到服务器的数据包。上述最大包长为数据包集合中数据包的最大长度;上述平均下载包长为数据包集合中下载包的包长平均值;上述每秒传送包数为传输数据包集合中数据包时每秒传输的包数;上述服务器端口为传输数据包集合中各数据包时与终端进行通信的服务器端口;上述平均上传负载长度为数据包集合中上传包的负载长度的平均值;上述最小包长为数据包集合中数据包的最小长度;上述平均上传包长为数据包集合中上传包的包长平均值;上述平均下载负载长度为数据包集合中下载包的负载长度的平均值;上述平均负载长度为数据包集合中数据包的负载长度的平均值。
为了进一步验证本发明所提出的终端应用数据流识别方法的识别准确性,采用本发明所提出的数据流识别方法识别QQ、微信、虎牙、头条、喜马拉雅等APP的不同业务的数据流,所得识别准确率如图6所示;从图中可以看出,采用本发明所提出的数据流识别方法对不同应用业务的数据流进行识别的准确率都达到了99.8%以上,准确率较高。
实施例2、
一种终端应用数据流识别系统,如图7所示,包括:数据预处理模块、模型训练模块和数据流识别模块;
数据预处理模块用于对数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;具体的,对数据流进行预处理的方法包括:对数据流中的数据包,每隔预设数量进行分组,将每组中的数据包按照五元组信息进行分类,得到多个类别的数据包集合。
模型训练模块用于采集若干终端应用数据流,并标注各数据流中的各数据包的所属应用业务,将各数据流输入到数据预处理模块中,得到按照五元组信息进行分类后的多个类别的数据包集合,提取各数据包集合的第二数据特征,与其所属应用业务一起构成训练集,并将所得训练集输入到数据流识别模型中进行训练,得到预训练好的数据流识别模型;
数据流识别模块用于将实时采集的待识别终端应用数据流输入到数据预处理模块中,得到按照五元组信息进行分类后的多个类别的数据包集合,对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;
其中,上述数据流识别模型为机器学习模型,用于识别数据流中各数据包的所属应用业务。上述第一数据特征包括:传输层协议和特征字符串;上述第二数据特征包括:最大包长、平均下载包长、每秒传送包数、服务器端口、平均上传负载长、最小包长、平均上传包长、平均下载负载长度和平均负载长度。具体含义同实施例1,这里不做赘述。
需要说明的是,本实施例中数据预处理模块、模型训练模块和数据流识别模块的具体操作同实施例1,这里不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种终端应用数据流识别方法,其特征在于,包括以下步骤:
S1、对实时采集的待识别终端应用数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;
S2、对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,转至步骤S3;
S3、对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;
其中,所述数据流识别模型为机器学习模型,用于识别数据流中各数据包的所属应用业务。
2.根据权利要求1所述的终端应用数据流识别方法,其特征在于,所述数据流识别模型的训练方法,包括以下步骤:
S01、采集若干终端应用数据流,并标注各数据流中的各数据包的所属应用业务;
S02、分别对各数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合,提取各数据包集合的第二数据特征,与其所属应用业务一起构成训练集;
S03、将所得训练集输入到数据流识别模型中进行训练,得到预训练好的数据流识别模型。
3.根据权利要求1或2所述的终端应用数据流识别方法,其特征在于,对数据流进行预处理的方法,包括:对数据流中的数据包,每隔预设数量进行分组,将每组中的数据包按照五元组信息进行分类,得到多个类别的数据包集合。
4.根据权利要求3所述的终端应用数据流识别方法,其特征在于,所述预设数量为60。
5.根据权利要求1所述的终端应用数据流识别方法,其特征在于,所述第一数据特征包括:传输层协议和特征字符串。
6.根据权利要求1或2所述的终端应用数据流识别方法,其特征在于,所述第二数据特征包括:
最大包长:数据包集合中数据包的最大长度;
平均下载包长:数据包集合中下载包的包长平均值;
每秒传送包数:传输数据包集合中数据包时每秒传输的包数;
服务器端口:传输数据包集合中各数据包时与终端进行通信的服务器端口;
平均上传负载长度:数据包集合中上传包的负载长度的平均值;
最小包长:数据包集合中数据包的最小长度;
平均上传包长:数据包集合中上传包的包长平均值;
平均下载负载长度:数据包集合中下载包的负载长度的平均值;
平均负载长度:数据包集合中数据包的负载长度的平均值;
其中,数据包集合中的数据包为上传包或下载包;下载包为服务器传输到终端的数据包;上传包为终端传输到服务器的数据包。
7.一种终端应用数据流识别系统,其特征在于,包括:数据预处理模块、模型训练模块和数据流识别模块;
所述数据预处理模块用于对数据流进行预处理,得到按照五元组信息进行分类后的多个类别的数据包集合;
所述模型训练模块用于采集若干终端应用数据流,并标注各数据流中的各数据包的所属应用业务,将各数据流输入到数据预处理模块中,得到按照五元组信息进行分类后的多个类别的数据包集合,提取各数据包集合的第二数据特征,与其所属应用业务一起构成训练集,并将所得训练集输入到数据流识别模型中进行训练,得到预训练好的数据流识别模型;
所述数据流识别模块用于将实时采集的待识别终端应用数据流输入到数据预处理模块中,得到按照五元组信息进行分类后的多个类别的数据包集合,对所得各类别的数据包集合,提取其第一数据特征,分别与多个预设应用业务的特征进行匹配,若能够与任意一种预设应用行为的特征匹配成功,则该类别的数据包集合中的所有数据包的所属应用业务均为该预设应用业务,操作结束;否则,对所得各类别的数据包集合,提取其第二数据特征,并输入到预训练好的数据流识别模型中,对数据流进行识别;
其中,所述数据流识别模型为机器学习模型,用于识别数据流中各数据包的所属应用业务。
8.根据权利要求7所述的终端应用数据流识别系统,其特征在于,所述数据预处理模块对数据流进行预处理的方法包括:对数据流中的数据包,每隔预设数量进行分组,将每组中的数据包按照五元组信息进行分类,得到多个类别的数据包集合。
9.根据权利要求7所述的终端应用数据流识别系统,其特征在于,所述第一数据特征包括:传输层协议和特征字符串。
10.根据权利要求7所述的终端应用数据流识别系统,其特征在于,所述第二数据特征包括:
最大包长:数据包集合中数据包的最大长度;
平均下载包长:数据包集合中下载包的包长平均值;
每秒传送包数:传输数据包集合中数据包时每秒传输的包数;
服务器端口:传输数据包集合中各数据包时与终端进行通信的服务器端口;
平均上传负载长度:数据包集合中上传包的负载长度的平均值;
最小包长:数据包集合中数据包的最大小长度;
平均上传包长:数据包集合中上传包的包长平均值;
平均下载负载长度:数据包集合中下载包的负载长度的平均值;
平均负载长度:数据包集合中数据包的负载长度的平均值;
其中,数据包集合中的数据包为上传包或下载包;下载包为服务器传输到终端的数据包;上传包为终端传输到服务器的数据包。
CN202010718118.3A 2020-07-23 2020-07-23 一种终端应用数据流识别方法及系统 Pending CN111917665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010718118.3A CN111917665A (zh) 2020-07-23 2020-07-23 一种终端应用数据流识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010718118.3A CN111917665A (zh) 2020-07-23 2020-07-23 一种终端应用数据流识别方法及系统

Publications (1)

Publication Number Publication Date
CN111917665A true CN111917665A (zh) 2020-11-10

Family

ID=73281409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010718118.3A Pending CN111917665A (zh) 2020-07-23 2020-07-23 一种终端应用数据流识别方法及系统

Country Status (1)

Country Link
CN (1) CN111917665A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532616A (zh) * 2020-11-26 2021-03-19 杭州迪普科技股份有限公司 网络应用的特征分析方法及装置
CN114629809A (zh) * 2022-05-11 2022-06-14 北京启天安信科技有限公司 一种实时网络流量数据解析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645806A (zh) * 2009-09-04 2010-02-10 东南大学 Dpi和dfi相结合的网络流量分类系统及分类方法
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类系统和方法
US9967188B2 (en) * 2014-10-13 2018-05-08 Nec Corporation Network traffic flow management using machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645806A (zh) * 2009-09-04 2010-02-10 东南大学 Dpi和dfi相结合的网络流量分类系统及分类方法
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
US9967188B2 (en) * 2014-10-13 2018-05-08 Nec Corporation Network traffic flow management using machine learning
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532616A (zh) * 2020-11-26 2021-03-19 杭州迪普科技股份有限公司 网络应用的特征分析方法及装置
CN114629809A (zh) * 2022-05-11 2022-06-14 北京启天安信科技有限公司 一种实时网络流量数据解析方法及系统

Similar Documents

Publication Publication Date Title
CN111277578B (zh) 加密流量分析特征提取方法、系统、存储介质、安全设备
CN110311829B (zh) 一种基于机器学习加速的网络流量分类方法
CN109117634B (zh) 基于网络流量多视图融合的恶意软件检测方法及系统
CN109361617A (zh) 一种基于网络包载荷的卷积神经网络流量分类方法及系统
CN106815112B (zh) 一种基于深度包检测的海量数据监控系统及方法
CN105871832B (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN101714952B (zh) 一种接入网的流量识别方法和装置
CN112491643B (zh) 深度报文检测方法、装置、设备及存储介质
CN111191767B (zh) 一种基于向量化的恶意流量攻击类型的判断方法
CN105871619B (zh) 一种基于n-gram多特征的流量载荷类型检测方法
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN112949739A (zh) 一种基于智能流量分类的信息传输调度方法及系统
CN102739457A (zh) 一种基于dpi和svm技术的网络流量识别系统及方法
CN105302885B (zh) 一种全文数据的提取方法和装置
CN108462707B (zh) 一种基于深度学习序列分析的移动应用识别方法
CN113329023A (zh) 一种加密流量恶意性检测模型建立、检测方法及系统
CN111917665A (zh) 一种终端应用数据流识别方法及系统
CN111611280A (zh) 一种基于cnn和sae的加密流量识别方法
CN108028807A (zh) 用于在线自动识别网络流量模型的方法和系统
CN109639655A (zh) 一种智能深度解析系统及解析方法
CN112019500B (zh) 一种基于深度学习的加密流量识别方法及电子装置
CN109660656A (zh) 一种智能终端应用程序识别方法
CN112861894A (zh) 一种数据流分类方法、装置及系统
CN112884121A (zh) 基于生成对抗深度卷积网络的流量识别方法
CN113408707A (zh) 一种基于深度学习的网络加密流量识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201110

RJ01 Rejection of invention patent application after publication