CN110048962A - 一种网络流量分类的方法、系统及设备 - Google Patents
一种网络流量分类的方法、系统及设备 Download PDFInfo
- Publication number
- CN110048962A CN110048962A CN201910334035.1A CN201910334035A CN110048962A CN 110048962 A CN110048962 A CN 110048962A CN 201910334035 A CN201910334035 A CN 201910334035A CN 110048962 A CN110048962 A CN 110048962A
- Authority
- CN
- China
- Prior art keywords
- data set
- obtains
- training dataset
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000013480 data collection Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 239000012141 concentrate Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
Abstract
本申请公开了一种网络流量分类的方法,包括:接收输入的真实数据集及待测数据集;对真实数据集进行数据处理,得到训练数据集;利用训练数据集对预设模型进行训练,得到网络流量分类模型;利用网络流量分类模型对待测数据集进行分类,得到分类结果。本申请通过对接收到的真实数据集进行数据处理,得到训练数据集,使得该训练数据集具有真实数据集的全部特征,进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类,得到的分类结果更为准确,提高了网络流量识别的精确度。本申请同时还提供了一种网络流量分类的系统、设备及计算机可读存储介质,具有上述有益效果。
Description
技术领域
本申请涉及网络流量分类领域,特别涉及一种网络流量分类的方法、系统、设备及计算机可读存储介质。
背景技术
在过去的十几年里,随着网络的发展,移动网与互联网融合加剧,网络的管理服务与web服务的竞争不断激化,用户使用的数据类业务的日益丰富加剧了有效的网络管理的挑战性。网络带宽被消耗,网络变拥挤,大大降低了网络的性能,导致用户体验感变差,体验质量(Quality of Experience,QoE)模型出现退化,服务质量(Quality of Service,QoS)模型问题层出不穷。互联网流量特征的不断变化对传统方法可靠性提出了挑战。有效的网络管理依赖高效的网络流量识别,针对现如今复杂的网络环境、新增的各种加密应用协议,需要更健全、精确的识别校验机制。
因此,如何提高网络流量识别的精确度是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种网络流量分类的方法、系统、设备及计算机可读存储介质,用于提高网络流量识别的精确度。
为解决上述技术问题,本申请提供一种网络流量分类的方法,该方法包括:
接收输入的真实数据集及待测数据集;
对所述真实数据集进行数据处理,得到训练数据集;
利用所述训练数据集对预设模型进行训练,得到网络流量分类模型;
利用所述网络流量分类模型对所述待测数据集进行分类,得到分类结果。
可选的,对所述真实数据集进行数据处理,得到训练数据集,包括:
对所述真实数据集进行特征提取,并根据提取到的特征对所述真实数据集进行特征分类,得到各特征分类结果;
利用预设协议标识集对各所述特征分类结果进行协议标识,得到所述训练数据集。
可选的,在利用预设协议标识集对各所述特征分类结果进行协议标识之前,还包括:
获取所述真实数据集的属性信息;其中,所述属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息;
根据所述属性信息对所述预设协议标识集进行补充。
可选的,在得到所述训练数据集之后,还包括:
根据所述训练数据集中数据包的有效负载大小及上下行到达时间确定所述训练数据集中的零负载数据包;
将所述零负载数据包进行排除。
可选的,所述利用所述训练数据集对预设模型进行训练,得到网络流量分类模型,包括:
根据公式分别计算所述训练数据集中各所述特征的信息增益率;
根据各所述特征的信息增益率确定所述预设模型的分类节点,得到所述网络流量分类模型;
其中,GC(S)为所述训练数据集中各所述特征的信息增益率,M(A)为特征A的阈值决策度量,C(A)为特征A的阈值子集偏差。
本申请还提供一种网络流量分类的系统,该系统包括:
接收模块,用于接收输入的真实数据集及待测数据集;
数据处理模块,用于对所述真实数据集进行数据处理,得到训练数据集;
训练模块,用于利用所述训练数据集对预设模型进行训练,得到网络流量分类模型;
分类模块,用于利用所述网络流量分类模型对所述待测数据集进行分类,得到分类结果。
可选的,所述数据处理模块包括:
特征提取子模块,用于对所述真实数据集进行特征提取,并根据提取到的特征对所述真实数据集进行特征分类,得到各特征分类结果;
协议标识子模块,用于利用预设协议标识集对各所述特征分类结果进行协议标识,得到所述训练数据集。
可选的,所述数据处理模块还包括:
获取子模块,用于获取所述真实数据集的属性信息;其中,所述属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息;
补充子模块,用于根据所述属性信息对所述预设协议标识集进行补充。
本申请还提供一种网络流量分类设备,该网络流量分类设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述网络流量分类的方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述网络流量分类的方法的步骤。
本申请所提供网络流量分类的方法,包括:接收输入的真实数据集及待测数据集;对真实数据集进行数据处理,得到训练数据集;利用训练数据集对预设模型进行训练,得到网络流量分类模型;利用网络流量分类模型对待测数据集进行分类,得到分类结果。
本申请所提供的技术方案,通过对接收到的真实数据集进行数据处理,得到训练数据集,使得该训练数据集具有真实数据集的全部特征,进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类,得到的分类结果更为准确,提高了网络流量识别的精确度,解决了现有技术中网络流量识别精确度低的问题。本申请同时还提供了一种网络流量分类的系统、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种网络流量分类的方法的流程图;
图2为图1所提供的一种网络流量分类的方法中S103的一种实际表现方式的流程图;
图3为本申请实施例所提供的一种网络流量分类的系统的结构图;
图4为本申请实施例所提供的另一种网络流量分类的系统的结构图;
图5为本申请实施例所提供的一种网络流量分类设备的结构图。
具体实施方式
本申请的核心是提供一种网络流量分类的方法、系统、设备及计算机可读存储介质,用于提高网络流量识别的精确度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种网络流量分类的方法的流程图。
其具体包括如下步骤:
S101:接收输入的真实数据集及待测数据集;
在现有专利中,如专利号为“201610795539.X”的名“一种互联网流量分类测评方法及系统”中提出了一种互联网分类测评方法,对流量分类样本进行真实标注,发送带标注的样本到待测流量分类系统按五元组建流,对输入数据集进行协议识别,输出分类结果,读取分类结果日志比对源MAC地址、待测系统输出结果,判断分类是否正确。其需要提前对流量分类样本进行标注,也就是说,现有技术中的流量分类方法的粗糙度以及精确度受到流量分类样本的直接影响。
而本申请对接收到的真实数据集进行数据处理,得到训练数据集,使得该训练数据集具有真实数据集的全部特征,进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类,得到的分类结果更为准确,提高了网络流量识别的精确度,解决了现有技术中网络流量识别精确度低的问题。
S102:对真实数据集进行数据处理,得到训练数据集;
本申请是由真实数据集输入,区别于过往在采用数据集时融入了合成数据集,本方案所用的数据集为实地采集输入的数据集,该真实数据集的获取可以通过在各个目标区域基站获取数据集或者社区交换机中捕获数据集,亦可从合作方中直接获取;
这里提到的对真实数据集进行数据处理,得到训练数据集,其目的在于降低真实数据集中的噪声,以提高得到的训练数据集的准确率;
优选的,由于真实数据集的前60秒双向流内容通常为通信双方确认身份的过程,因此在对真实数据集进行数据处理的过程中,还可以将真实数据集中前60秒的双向流过滤掉,以确保提取到的第一个数据包的统计特性,防止对训练数据集的准确率造成影响,而且还能够实现对真实数据集的早期识别,使得到训练数据集的速度更快,提高了效率;
其中,可以通过netstat工具搭配防火墙网关排除不含同步序列编号的双向流,以及前60秒观察到的双向流。
S103:利用训练数据集对预设模型进行训练,得到网络流量分类模型;
在由真实数据集处理得到训练数据集后,利用该训练数据集对预设模型进行训练,其目的在于令得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类,得到的分类结果更为准确;
可选的,这里提到的利用训练数据集对预设模型进行训练,得到网络流量分类模型,其具体可以为:
根据公式分别计算训练数据集中各特征的信息增益率;
根据各特征的信息增益率确定预设模型的分类节点,得到网络流量分类模型;
其中,GC(S)为训练数据集中各特征的信息增益率,M(A)为特征A的阈值决策度量,C(A)为特征A的阈值子集偏差;
这里提到的特征A的阈值决策度量M(A)可以根据公式M(A)=G(S)-E(A)计算,G(S)为训练数据集S的信息增益,能够根据公式进行计算,E(A)为特征A的阈值熵,根据公式计算;
其中,ri为训练数据集中特征i对应的子集,m为训练数据集中的特征总数,|S|为训练数据集的数量,n为处于阈值范围的子集的总数,Sj表示训练数据集S中处于阈值范围j内的子集,Sij表示Sj训练数据子集中属于数据子集ri的数据集合。
进一步的,上述步骤中提到的,根据各特征的信息增益率确定预设模型的分类节点,其具体可以为:
选择各信息增益率中的最大值做为该最大值信息增益率对应特征的划分节点,并将该训练数据集划分为符合该对应特征的数据集以及不符合该对应特征的数据集,然后再分别计算两个数据集中各特征的信息增益率,重复上述步骤,直至得到的各个数据集分别具有其独一无二的特征或者信息增益率足够小,将各个划分节点作为预设模型的分类节点,得到该网络流量分类模型;
由于特征的信息增益率GC(S)与数据集本身相关联,根据同一特征划分后形成的不同数据集,其可进行更细致的子特征属性划分,因此在对训练数据集依据某个特征进行划分后,需要重新计算划分后的数据集中各子特征的信息增益率,并将最大值作为划分节点对划分后的数据集进行再次划分,直至得到的各个数据集均具有其独一无二的特征,最后将各个数据集的划分节点作为预设模型的分类节点,得到该网络流量分类模型。
S104:利用网络流量分类模型对待测数据集进行分类,得到分类结果。
当训练完成时,利用得到网络流量分类模型对待测数据集进行分类,得到分类结果,此时得到的分类结果是网络流量分类模型根据真实数据的特征对待测数据集进行分类得到的,相对于现有技术分类精确度更高。
基于上述技术方案,本申请所提供的一种网络流量分类的方法,通过对接收到的真实数据集进行数据处理,得到训练数据集,使得该训练数据集具有真实数据集的全部特征,进而使得利用该训练数据集训练得到的网络流量分类模型能够根据真实数据的特征来对待测数据集进行分类,得到的分类结果更为准确,提高了网络流量识别的精确度,解决了现有技术中网络流量识别精确度低的问题。
针对于上一实施例的步骤S102,其中所描述的对真实数据集进行数据处理,得到训练数据集,其具体也可以为如图2所示的步骤,下面结合图2进行说明。
请参考图2,图2为图1所提供的一种网络流量分类的方法中S102的一种实际表现方式的流程图。
其具体包括以下步骤:
S201:对真实数据集进行特征提取,并根据提取到的特征对真实数据集进行特征分类,得到各特征分类结果;
S202:利用预设协议标识集对各特征分类结果进行协议标识,得到训练数据集。
例如,可以采用nprobe工具(开源社区中常用的用于网络流量监控分析的工具)获取真实数据集中的流特性、HTTP头文件,以及IP报文中的差分服务代码点等特征,并根据这几项特征对该真实数据集进行粗略的分类,然后使用QUIC协议解析器利用预设协议标识集对特征分类结果进行标识,得到该训练数据集;
优选的,在利用预设协议标识集对各特征分类结果进行协议标识之前,还可以包括:
获取真实数据集的属性信息;其中,属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息;
根据属性信息对预设协议标识集进行补充。
优选的,在得到训练数据集之后,还可以包括:
根据训练数据集中数据包的有效负载大小及上下行到达时间确定训练数据集中的零负载数据包;
将零负载数据包进行排除。
例如,可以使用nprobe扩展工具检测数据包的有效负载大小、包的上下行到达时间,进而对零负载数据包进行排除,细化数据集。
请参考图3,图3为本申请实施例所提供的一种网络流量分类的系统的结构图。
该系统可以包括:
接收模块100,用于接收输入的真实数据集及待测数据集;
数据处理模块200,用于对真实数据集进行数据处理,得到训练数据集;
训练模块300,用于利用训练数据集对预设模型进行训练,得到网络流量分类模型;
分类模块400,用于利用网络流量分类模型对待测数据集进行分类,得到分类结果。
请参考图4,图4为本申请实施例所提供的另一种网络流量分类的系统的结构图。
该数据处理模块200可以包括:
特征提取子模块,用于对真实数据集进行特征提取,并根据提取到的特征对真实数据集进行特征分类,得到各特征分类结果;
协议标识子模块,用于利用预设协议标识集对各特征分类结果进行协议标识,得到训练数据集。
该数据处理模块200还可以包括:
获取子模块,用于获取真实数据集的属性信息;其中,属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息;
补充子模块,用于根据属性信息对预设协议标识集进行补充。
该数据处理模块200还可以包括:
第一确定子模块,用于根据训练数据集中数据包的有效负载大小及上下行到达时间确定训练数据集中的零负载数据包;
排除子模块,用于将零负载数据包进行排除。
该训练模块300可以包括:
计算子模块,用于根据公式分别计算训练数据集中各特征的信息增益率;
第二确定子模块,用于根据各特征的信息增益率确定预设模型的分类节点,得到网络流量分类模型;
其中,GC(S)为训练数据集中各特征的信息增益率,M(A)为特征A的阈值决策度量,C(A)为特征A的阈值子集偏差。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图5,图5为本申请实施例所提供的一种网络流量分类设备的结构图。
该网络流量分类设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对装置中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在网络流量分类设备500上执行存储介质530中的一系列指令操作。
网络流量分类设备500还可以包括一个或一个以上电源525,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1至图2所描述的网络流量分类的方法中的步骤由网络流量分类设备基于该图5所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种网络流量分类的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种网络流量分类的方法,其特征在于,包括:
接收输入的真实数据集及待测数据集;
对所述真实数据集进行数据处理,得到训练数据集;
利用所述训练数据集对预设模型进行训练,得到网络流量分类模型;
利用所述网络流量分类模型对所述待测数据集进行分类,得到分类结果。
2.根据权利要求1所述的方法,其特征在于,对所述真实数据集进行数据处理,得到训练数据集,包括:
对所述真实数据集进行特征提取,并根据提取到的特征对所述真实数据集进行特征分类,得到各特征分类结果;
利用预设协议标识集对各所述特征分类结果进行协议标识,得到所述训练数据集。
3.根据权利要求2所述的方法,其特征在于,在利用预设协议标识集对各所述特征分类结果进行协议标识之前,还包括:
获取所述真实数据集的属性信息;其中,所述属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息;
根据所述属性信息对所述预设协议标识集进行补充。
4.根据权利要求2所述的方法,其特征在于,在得到所述训练数据集之后,还包括:
根据所述训练数据集中数据包的有效负载大小及上下行到达时间确定所述训练数据集中的零负载数据包;
将所述零负载数据包进行排除。
5.根据权利要求1所述的方法,其特征在于,所述利用所述训练数据集对预设模型进行训练,得到网络流量分类模型,包括:
根据公式分别计算所述训练数据集中各所述特征的信息增益率;
根据各所述特征的信息增益率确定所述预设模型的分类节点,得到所述网络流量分类模型;
其中,GC(S)为所述训练数据集中各所述特征的信息增益率,M(A)为特征A的阈值决策度量,C(A)为特征A的阈值子集偏差。
6.一种网络流量分类的系统,其特征在于,包括:
接收模块,用于接收输入的真实数据集及待测数据集;
数据处理模块,用于对所述真实数据集进行数据处理,得到训练数据集;
训练模块,用于利用所述训练数据集对预设模型进行训练,得到网络流量分类模型;
分类模块,用于利用所述网络流量分类模型对所述待测数据集进行分类,得到分类结果。
7.根据权利要求6所述的系统,其特征在于,所述数据处理模块包括:
特征提取子模块,用于对所述真实数据集进行特征提取,并根据提取到的特征对所述真实数据集进行特征分类,得到各特征分类结果;
协议标识子模块,用于利用预设协议标识集对各所述特征分类结果进行协议标识,得到所述训练数据集。
8.根据权利要求7所述的系统,其特征在于,所述数据处理模块还包括:
获取子模块,用于获取所述真实数据集的属性信息;其中,所述属性信息包括数据包长度、数据包传输方向及流记录存储的地址信息;
补充子模块,用于根据所述属性信息对所述预设协议标识集进行补充。
9.一种网络流量分类设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述网络流量分类的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述网络流量分类的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910334035.1A CN110048962A (zh) | 2019-04-24 | 2019-04-24 | 一种网络流量分类的方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910334035.1A CN110048962A (zh) | 2019-04-24 | 2019-04-24 | 一种网络流量分类的方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110048962A true CN110048962A (zh) | 2019-07-23 |
Family
ID=67279023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910334035.1A Pending CN110048962A (zh) | 2019-04-24 | 2019-04-24 | 一种网络流量分类的方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110048962A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111757378A (zh) * | 2020-06-03 | 2020-10-09 | 湃方科技(北京)有限责任公司 | 一种无线网络中设备识别方法及装置 |
CN112448868A (zh) * | 2020-12-02 | 2021-03-05 | 新华三人工智能科技有限公司 | 一种网络流量数据识别方法、装置及设备 |
WO2021052379A1 (zh) * | 2019-09-16 | 2021-03-25 | 华为技术有限公司 | 一种数据流类型识别方法及相关设备 |
CN112714024A (zh) * | 2020-12-31 | 2021-04-27 | 上海磐御网络科技有限公司 | 一种网络流量分析技术 |
CN112995209A (zh) * | 2021-04-20 | 2021-06-18 | 北京智源人工智能研究院 | 一种流量监测方法、装置、设备及介质 |
CN113328985A (zh) * | 2021-04-07 | 2021-08-31 | 西安交通大学 | 一种被动物联网设备识别方法、系统、介质及设备 |
CN113783795A (zh) * | 2021-07-19 | 2021-12-10 | 北京邮电大学 | 加密流量分类方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645806A (zh) * | 2009-09-04 | 2010-02-10 | 东南大学 | Dpi和dfi相结合的网络流量分类系统及分类方法 |
CN104348741A (zh) * | 2013-08-06 | 2015-02-11 | 南京理工大学常熟研究院有限公司 | 基于多尺度分析和决策树的p2p流量检测方法和系统 |
CN108304974A (zh) * | 2018-02-26 | 2018-07-20 | 中国民航信息网络股份有限公司 | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN109639481A (zh) * | 2018-12-11 | 2019-04-16 | 深圳先进技术研究院 | 一种基于深度学习的网络流量分类方法、系统及电子设备 |
-
2019
- 2019-04-24 CN CN201910334035.1A patent/CN110048962A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645806A (zh) * | 2009-09-04 | 2010-02-10 | 东南大学 | Dpi和dfi相结合的网络流量分类系统及分类方法 |
CN104348741A (zh) * | 2013-08-06 | 2015-02-11 | 南京理工大学常熟研究院有限公司 | 基于多尺度分析和决策树的p2p流量检测方法和系统 |
CN108304974A (zh) * | 2018-02-26 | 2018-07-20 | 中国民航信息网络股份有限公司 | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN109639481A (zh) * | 2018-12-11 | 2019-04-16 | 深圳先进技术研究院 | 一种基于深度学习的网络流量分类方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
ZIED AOUINI等: "Early Classification of Residential Networks Traffic using C5.0 Machine Learning Algorithm", 《2018 WIRELESS DAYS(WD)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021052379A1 (zh) * | 2019-09-16 | 2021-03-25 | 华为技术有限公司 | 一种数据流类型识别方法及相关设备 |
US11838215B2 (en) | 2019-09-16 | 2023-12-05 | Huawei Technologies Co., Ltd. | Data stream classification method and related device |
CN111757378A (zh) * | 2020-06-03 | 2020-10-09 | 湃方科技(北京)有限责任公司 | 一种无线网络中设备识别方法及装置 |
CN111757378B (zh) * | 2020-06-03 | 2024-04-02 | 中科时代(深圳)计算机系统有限公司 | 一种无线网络中设备识别方法及装置 |
CN112448868A (zh) * | 2020-12-02 | 2021-03-05 | 新华三人工智能科技有限公司 | 一种网络流量数据识别方法、装置及设备 |
CN112714024A (zh) * | 2020-12-31 | 2021-04-27 | 上海磐御网络科技有限公司 | 一种网络流量分析技术 |
CN113328985A (zh) * | 2021-04-07 | 2021-08-31 | 西安交通大学 | 一种被动物联网设备识别方法、系统、介质及设备 |
CN113328985B (zh) * | 2021-04-07 | 2022-12-09 | 西安交通大学 | 一种被动物联网设备识别方法、系统、介质及设备 |
CN112995209A (zh) * | 2021-04-20 | 2021-06-18 | 北京智源人工智能研究院 | 一种流量监测方法、装置、设备及介质 |
CN113783795A (zh) * | 2021-07-19 | 2021-12-10 | 北京邮电大学 | 加密流量分类方法及相关设备 |
CN113783795B (zh) * | 2021-07-19 | 2023-07-25 | 北京邮电大学 | 加密流量分类方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110048962A (zh) | 一种网络流量分类的方法、系统及设备 | |
Bujlow et al. | A method for classification of network traffic based on C5. 0 Machine Learning Algorithm | |
US10284440B2 (en) | Real-time adaptive processing of network data packets for analysis | |
KR100523486B1 (ko) | 트래픽 측정 시스템 및 그의 트래픽 분석 방법 | |
JP4553315B2 (ja) | パケット遅延から輻輳パスを分類する輻輳パス分類方法、管理装置及びプログラム | |
CN102307123B (zh) | 基于传输层流量特征的nat流量识别方法 | |
CN107786994B (zh) | 端到端无线业务的用户感知质差分析方法和系统 | |
Tsilimantos et al. | Classifying flows and buffer state for YouTube's HTTP adaptive streaming service in mobile networks | |
JP2007243368A5 (zh) | ||
CN106535240A (zh) | 基于云平台的移动app集中性能分析方法 | |
CN108965011A (zh) | 一种基于智能网关深度报文分析系统和分析方法 | |
CN114374626A (zh) | 一种5g网络条件下的路由器性能检测方法 | |
Ahmed et al. | Predicting high delays in mobile broadband networks | |
CN114679318B (zh) | 一种高速网络中轻量级的物联网设备识别方法 | |
CN108141377B (zh) | 网络流早期分类 | |
CN104253712B (zh) | 一种利用深度包检测技术进行p2p网络识别的方法 | |
KR20130126830A (ko) | 실시간 응용 시그니쳐 생성 장치 및 방법 | |
CN115174961A (zh) | 一种面向高速网络的多平台视频流量早期识别方法 | |
Oudah et al. | Network application detection using traffic burstiness | |
CN109995731B (zh) | 提高缓存吐出流量的方法、装置、计算设备及存储介质 | |
JP6169954B2 (ja) | サービス推定装置及び方法 | |
CN101800744B (zh) | 一种针对p2p-tv平台的包大小分布特征提取方法及基于其的p2p-tv平台识别方法和识别系统 | |
JP4732386B2 (ja) | 広域エリアネットワークに発生した輻輳パスを分類する輻輳パス分類方法、管理装置及びプログラム | |
Reddy et al. | On the accuracy of sampling schemes for wireless network characterization | |
Lee et al. | Session-based classification of internet applications in 3G wireless networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |