CN108712292B - 一种基于深度学习的网络流类型预测方法 - Google Patents

一种基于深度学习的网络流类型预测方法 Download PDF

Info

Publication number
CN108712292B
CN108712292B CN201810528250.0A CN201810528250A CN108712292B CN 108712292 B CN108712292 B CN 108712292B CN 201810528250 A CN201810528250 A CN 201810528250A CN 108712292 B CN108712292 B CN 108712292B
Authority
CN
China
Prior art keywords
flow
deep learning
network
classification
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810528250.0A
Other languages
English (en)
Other versions
CN108712292A (zh
Inventor
刘外喜
蔡君
陈庆春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kexinan Information Technology Co.,Ltd.
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201810528250.0A priority Critical patent/CN108712292B/zh
Publication of CN108712292A publication Critical patent/CN108712292A/zh
Application granted granted Critical
Publication of CN108712292B publication Critical patent/CN108712292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度学习的网络流类型预测方法,采用“边缘预分类+中心精分类”的多级预测方案,即,先预分类再精分类,分别在网络边缘的SDN交换机、SDN控制器上构建进行预分类、精分类的深度学习模型;其中,通过网络功能虚拟化NFV技术,利用SDN网络中各交换机计算资源以及链路构建的分布式的深度学习网络作为预分类模型所需的硬件资源,而SDN控制器作为精分类模型所需的硬件资源;预分类模型采用4个联合特征,精分类模型采用10个联合特征。本发明采用多级预测方案既可以减少交换机到控制器的通信开销,也可以减轻控制器的负载;使用胶囊网络方法实现尽早预测;同时,定期地利用自主更新的训练数据集训练深度学习模型,改善预测准确度。

Description

一种基于深度学习的网络流类型预测方法
技术领域
本发明属于互联网数据处理的技术领域,特别涉及一种基于深度学习的网络流类型预测方法。
背景技术
研究表明,数据中心网络中流的大小和长度表现出大象流和老鼠流的分化特性:大象流数量占比小于1%,流量占比大于90%;相反,老鼠流数量占比超过99%,流量占比不超过10%。而且,老鼠流持续时间极短,绝大部分不超过100ms。在软件定义的数据中心网络中SDN控制器需要频繁地为老鼠流制定流表,流表从制定到下发的存在周期很短,效率会很低;同时,海量老鼠流对SDN控制器资源(如可用安全控制信道等)的消耗也会抑制控制器对大象流的优化控制。如果采取“抓大放小”的策略实现流量优化,即,SDN控制器只为大象流调度,则可大大减少控制开销,但流大小和长度在调度之前无法得知,错误的调度则会导致各链路负载不均衡。所以,准确地预测流类型进而实现路由与流量特征的自适应是解决此矛盾的关键。然而,当前很多方法仅通过门限值来识别大象流,而忽略了流的持续时间以及对资源的真实需求。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的网络流类型预测方法,利用深度学习对流的时间分布特征、流的实时大小特征、报文头部特征、套接字特征等4个维度数据的联合特征进行分析,实现流类型的预测。
为了达到上述目的,本发明采用以下技术方案:
本发明一种基于深度学习的网络流类型预测方法,采用“边缘预分类+中心精分类”的多级预测方案,即,先预分类再精分类,分别在网络边缘的SDN交换机、SDN控制器上构建进行预分类、精分类的深度学习模型;其中,通过网络功能虚拟化NFV技术,利用SDN网络中各交换机计算资源以及链路构建分布式的深度学习网络,来作为预分类模型所需的硬件资源,而SDN控制器则作为精分类模型所需的硬件资源;其中,每个交换机贡献小部分资源实现该分布式深度学习网络中若干神经元的计算功能,神经元通过交换机的链路彼此连接。
作为优选的技术方案,包括下述步骤:
(1)选择流的联合特征,所述流的联合特征包括:流的时间分布特征、流的实时大小特征、报文头部特征以及套接字特征;
(2)构建训练数据集,所述训练数据集用于流类型预测的深度学习模型的训练;
(3)采用常用的REINFORCE算法,控制器端的模型训练模块训练好深度学习模型,并将模型参数发送到各交换机;
(4)模型训练模块包括两个子模块,一个是为控制器训练的精分类模型;另一个是为各交换机训练的预分类模型;
(5)网络状态模块按照抽样周期采集网络状态,采集方法是INT(In-band NetworkTelemetry)技术,抽样周期可依据网络状况调节;
(6)当一个新的流的报文到达交换机后,嵌在交换机内的预分类模块根据报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口这4个特征将疑似的大象流筛选出来,其他的为老鼠流;
(7)那些疑似大象流的报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、流的实时速度、流的实时持续时间、发送端套接字缓冲区大小、接收端套接字缓冲区大小这10个特征值被发送到控制器的精分类模块,精分类模型根据这10个特征判断为大象流或老鼠流;
(8)更新训练数据集;每一个流结束后可根据其全部的流量特征来确认流类型,进而获得新的流类型的标签数据,其被反馈加入到原训练数据集进而形成新的训练数据集;
确认流类型的方法是:当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,否则为老鼠流,其中T1和T2是判别门限值;其中,θ是以bit/s为单位,β是指一个流在结束时的持续时间,以秒(s)为单位;即,θ=L1/β,其中L1是指一个流在结束时,它的所有报文的大小的总和,单位是bit;
(9)模型训练模块定期地(周期为C)利用新的训练数据集训练深度学习模型,其周期为C,以确保预测模型能够适应于实时变化的流量特征,改善预测准确度,周期C可根据实际流量变化情况来确定。
作为优选的技术方案,步骤(1)中,
所述流的时间分布特征是指一个流内的报文到达的时间间隔分布;
所述流的实时大小特征是指流的实时速度θr和流的实时持续时间βr;其中,θr是指一个流在截止到统计时的速度,以bit/s为单位,βr是指一个流在截止到统计时的持续时间,以秒(s)为单位,即,θr=L/βr,其中L是指在截止到统计时,一个流所有报文的大小的总和,单位是bit;所以,流的实时大小=流的实时速度*流的实时持续时间;
所述报文头部特征是指报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口;
所述套接字特征是指发送端套接字缓冲区大小、接收端套接字缓冲区大小。
作为优选的技术方案,步骤(2)具体为:
(2-1)针对已有公开数据集,将其中的P1%的数据作为原始训练数据集,称为Train集,50<P1<90;
(2-2)由于本方法需要1个训练精分类模型和1个预分类模型,所以将上述的Train集通过人工标记为1个精分类训练集和1个预分类训练集;对每一个流的每一个报文进行特征统计并作为数据的属性,将流类型标记为大象流或老鼠流;
其中,精分类训练集中的每一行数据对应一个报文,其数据属性包括报文序号、所属流、报文到达的时间间隔、流的实时速度、流的实时持续时间、报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、发送端套接字缓冲区大小、接收端套接字缓冲区大小、流类型;预分类训练集中每一行对应一个报文,其数据属性包括报文序号、所属流、报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口、流类型。
作为优选的技术方案,在步骤(2-1)中,所述已公开的数据集包括CAIDA和CRAWDAD数据集。
作为优选的技术方案,在步骤(2-2)中,在对流类型做标记来构建训练集时,通过“流的速度、流的持续时间”来判别流的类型;即,当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,否则判为老鼠流,其中T1和T2是判别门限值。
作为优选的技术方案,步骤(3)中,本发明使用的深度学习算法是胶囊网络(CapsNet,Capsule Networks),CapsNet只需少量数据就可完成特征的高效学习,所以在流开始的前几个报文到达时就可实现预测,提高了预测方法的实时性。
作为优选的技术方案,构建训练集时,为了使流类型判断标准能够自适应于流量特征的动态变化,采用强化学习方法动态调节T1和T2;强化学习中的代理agent与网络进行交互,包括基于INT技术对网络进行状态(state,s)的感知和奖赏(reward,r)的反馈,最后完成动作(action,a)的下发;agent与网络经过多次的交互后,找到实现最高预测准确率的最优动作集,找到状态空间S到动作空间A映射的策略(S—>A)。
作为优选的技术方案,奖赏r为预测的准确率,动作a是设置T1和T2,状态s是各个流的流的速度的平均值
Figure BDA0001676534550000051
和各个流的流的持续时间的平均值
Figure BDA0001676534550000052
即,
Figure BDA0001676534550000053
θi是流i的流速度,βi是流i的流持续时间,N是流的数量。
本发明与现有技术相比,具有如下优点和有益效果:
1、本方法通过胶囊网络的深度学习方法分析各节点分布式地、实时地采集到的流量的时-空联合分布特征,可实现尽早预测:网络流量是一个跨越多个空间节点和时间的连续过程,构成一个时-空联合分布数据序列,数据之间存在很强的时间相关性和空间相关性,而深度学习利用多隐层神经网络可从数据中学到它的本质特征。
2、本发明采用多级预测机制,通过在交换机端进行预分类过滤掉海量的老鼠流,既可以减少交换机到控制器的通信开销,也可以减轻控制器的负载。虽然此机制会导致一个大象流进行2次检测,但由于大象流的数量占比只有1%,所以,由此产生的开销很小。
3、本发明采用多级预测机制,精分类利用预分类采集到的全局视野流量特征,可提高预测准确率,同时,定期地利用自主更新的训练数据集训练深度学习模型,可进一步地改善预测准确率。
附图说明
图1是本发明基于深度学习的流类型预测机制的框图。
图2是本发明基于强化学习的动态调节判别门限值T1和T2的机制示意图。
图3是本发明的实现效果示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明利用深度学习对流的时间分布特征、流的实时大小特征、报文头部特征、套接字特征等4个维度数据的联合特征进行分析,实现流类型的预测,基本原理如下:
以软件定义网络SDN(Software Defined Network)为基础架构,采用“边缘预分类+中心精分类”的多级预测方案,即,分别在网络边缘的SDN交换机以及控制器构建进行预分类、精分类的深度学习模型。在预分类阶段,利用SDN网络中各交换机的计算资源以及链路构建分布式深度学习网络,其中,每个交换机贡献小部分资源实现若干神经元的计算功能,神经元通过交换机的链路彼此连接。即,在SDN网络之上叠加一个分布式深度学习网络。在精分类阶段,被预分类判为疑似大象流的流特征值被发送到具有全局视野的SDN控制器,然后,对预分类后的结果作进一步判断。
本发明的系统主要包括以下模块:
网络状态采集模块:周期性地采集网络状态;
精分类模块:针对那些疑似的大象流,利用训练好的精分类模型判断为大象流或老鼠流;
模型训练模块:定期地训练1个精分类模型和1个预分类模型;
预分类模块:利用训练好的预分类模型初步筛选出大象流和老鼠流;
SDN控制器:负责为各SDN交换机制定转发控制规则,并通过P4(Programmingprotocol-independent packet processors)技术下发到交换机,构建分布式深度学习网络用于预分类。
如图1所示,本发明基于深度学习的网络流类型预测方法,包括下述步骤:
1)选择流的联合特征,具体特征如下:
(1)流的时间分布特征:一个流内的报文到达的时间间隔分布;
(2)流的实时大小特征:所述流的实时大小特征是指流的实时速度θr和流的实时持续时间βr;其中,θr是指一个流在截止到统计时的速度,以bit/s为单位,βr是指一个流在截止到统计时的持续时间,以秒(s)为单位,即,θr=L/βr,其中L是指在截止到统计时,一个流所有报文的大小的总和,单位是bit;,所以,流的实时大小=流的实时速度*流的实时持续时间。
(3)报文头部特征,从报文的IP头部和TCP/UDP头部获取:总长度(Total length)、IP协议类型(IP Protocol)、服务类型(Type of service)、IP头部的分片标志MF(MoreFragments)、源端口、目的端口,MF=1表示该分组后面还有分组,MF=0表示该分组是最后一个、源/目的端口。
(4)套接字特征:发送端套接字缓冲区大小(socket buffers)大小、接收端套接字缓冲区大小(socket buffers)。
2)构建训练数据集和测试数据集,所述训练数据集用于流类型预测的深度学习模型的训练,所述测试数据集用于流类型预测测试,具体包括下述方案:
首先,针对已有公开数据集(如CAIDA、CRAWDAD等数据集),它们中的P1%的数据作为原始训练集(称为Train集),P2%作为测试集(Test集)。例如,P1=70,P2=30。
然后,由于本发明需要1个训练精分类模型和1个预分类模型,所以把上述的Train集通过人工标记为1个精分类训练集和1个预分类训练集。对每一个流的每一个报文进行特征统计并作为数据的属性,标记为大象流或老鼠流,在对流类型做标记来构建训练集时,通过“流的速度、流的持续时间”来判别流的类型;即,当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,否则判为老鼠流,其中T1和T2是判别门限值。
其中,精分类训练集的每一行数据对应一个报文,其数据属性如表1所示,预分类训练集的每一行数据对应一个报文,其数据属性如表2所示。表1中包括报文序号、所属流、报文到达的时间间隔、流的实时速度、流的实时持续时间、报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、发送端套接字缓冲区大小、接收端套接字缓冲区大小、流类型;而表2包括报文序号、所属流、报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口、流类型。
在构建训练集时,当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,其中T1和T2是判别门限值。为了自适应于流量的动态变化,如图2所示,本发明用强化学习方法(如Q-learning算法)动态调节T1和T2
构建训练集时,为了使流类型判断标准能够自适应于流量特征的动态变化,本方法采用强化学习方法动态调节T1和T2;强化学习中的代理agent与网络进行交互,包括基于INT技术对网络进行状态(state,s)的感知和奖赏(reward,r)的反馈,最后完成动作(action,a)的下发;agent与网络经过多次的交互后,找到实现最高预测准确率的最优动作集,找到状态空间S到动作空间A映射的策略(S—>A)。
奖赏r为预测的准确率,动作a是设置T1和T2,状态s是各个流的流的速度的平均值
Figure BDA0001676534550000091
和各个流的流的持续时间的平均值
Figure BDA0001676534550000092
即,
Figure BDA0001676534550000093
θi是流i的流速度,βi是流i的流持续时间,N是流的数量。
表1精分类模型的联合特征
Figure BDA0001676534550000094
注:报文到达时间间隔为该报文到达时,与同一个流内的上一个报文的时间间隔。
表2预分类模型的联合特征
报文序号 所属流 报文的总长度 IP协议类型 IP头部的分片标志MF 目的端口 流类型
1 2 1
2 3 0
。。。 。。
注:1表示大象流,0为老鼠流。
3)采用常用的REINFORCE算法,控制器端的模型训练模块训练好深度学习模型,并将模型参数发送到各交换机。其中,深度学习技术中的胶囊网络(CapsNet,CapsuleNetworks)算法由于具有只需要小部分数据就可高效学习的独特优势,本发明采用CapsNet来提高预测的实时性。
4)模型训练模块包括两个子模块,一个是为控制器训练的精分类模型,特征如表1所示;另一个是为各交换机训练的预分类模型,特征如表2所示。
5)网络状态模块按照抽样周期采集网络状态,采集方法是INT(In-band NetworkTelemetry)技术,抽样周期可依据网络状况调节。
6)当Test集的一个新的流的报文到达交换机后,嵌在交换机内的预分类模块根据报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口将疑似的大象流筛选出来,其他的为老鼠流;
7)那些疑似大象流的报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、流的实时速度、流的实时持续时间、发送端套接字缓冲区大小、接收端套接字缓冲区大小等10个特征值被发送到控制器的精分类模块,进一步地判断为大象流或老鼠流。
8)更新训练数据集;每一个流结束后可根据其全部的流量特征来确认流类型,进而获得流类型的标签数据,其被反馈加入到训练数据集进而形成新的训练数据集;确认流类型的方法是:当一个流的θ>T1或β>T2,则被判别为大象流,否则为老鼠流。
确认流类型的方法是:当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,否则为老鼠流,其中T1和T2是判别门限值;其中,θ是以bit/s为单位,β是指一个流在结束时的持续时间,以秒(s)为单位;即,θ=L1/β,其中L1是指一个流在结束时,它的所有报文的大小的总和,单位是bit。
(9)模型训练模块以周期C利用新的训练数据集训练深度学习模型,帮助改善模型的预测准确度,周期C可根据实际流量变化情况来确定,例如C=1天。本发明在在交换机端进行预分类,既可以减少交换机到控制器的通信开销,也可以减轻控制器的负载。虽然此机制会导致一个大象流进行2次检测,但由于大象流的数量占比只有1%,所以,由此产生的开销很小。
本发明针对Dartmouth学院公开的UNI数据集(https://crawdad.org/dartmouth/campus/20090909/),在训练集占总体数据集不同比例下,测试了大象流预测准确率和老鼠流预测准确率。如图3所示,当训练集占比为70%,在前6个报文到达时,大象流预测准确率(TPR)高达95%,而老鼠流的预测准确率(TNR)则高达97%,充分证明本发明的方法可实现及早的精准预测。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的网络流类型预测方法,其特征在于,采用“边缘预分类+中心精分类”的多级预测方案,即,先预分类再精分类,分别在网络边缘的SDN交换机、SDN控制器上构建进行预分类、精分类的深度学习模型,具体为:
选择流的联合特征,所述流的联合特征包括:流的时间分布特征、流的实时大小特征、报文头部特征以及套接字特征;
采用常用的REINFORCE算法,控制器端的模型训练模块训练好深度学习模型,并将模型参数发送到各交换机;
更新训练数据集;每一个流结束后可根据其全部的流量特征来确认流类型,进而获得新的流类型的标签数据,其被反馈加入到原训练数据集进而形成新的训练数据集;确认流类型的方法是:当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,否则为老鼠流,其中T1和T2是判别门限值;其中,θ是以bit/s为单位,β是指一个流在结束时的持续时间,以秒(s)为单位;即,θ=L1/β,其中L1是指一个流在结束时,它的所有报文的大小的总和,单位是bit;
模型训练模块定期地利用新的训练数据集训练深度学习模型,其周期为C,以确保预测模型能够适应于实时变化的流量特征,改善预测准确度,周期C可根据实际流量变化情况来确定;
其中,通过网络功能虚拟化NFV技术,利用SDN网络中各交换机计算资源以及链路构建分布式的深度学习网络,来作为预分类模型所需的硬件资源,而SDN控制器则作为精分类模型所需的硬件资源;其中,每个交换机贡献小部分资源实现该分布式深度学习网络中若干神经元的计算功能,神经元通过交换机的链路彼此连接。
2.根据权利要求1所述基于深度学习的网络流类型预测方法,其特征在于,包括下述步骤:
(1)构建训练数据集,所述训练数据集用于流类型预测的深度学习模型的训练;
(2)模型训练模块包括两个子模块,一个是为控制器训练的精分类模型;另一个是为各交换机训练的预分类模型;
(3)网络状态模块按照抽样周期采集网络状态,采集方法是INT技术,抽样周期可依据网络状况调节;
(4)当一个新的流的报文到达交换机后,嵌在交换机内的预分类模块根据报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口这4个特征将疑似的大象流筛选出来,其他的为老鼠流;
(5)那些疑似大象流的报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、流的实时速度、流的实时持续时间、发送端套接字缓冲区大小、接收端套接字缓冲区大小这10个特征值被发送到控制器的精分类模块,精分类模型根据这10个特征判断为大象流或老鼠流。
3.根据权利要求1所述基于深度学习的网络流类型预测方法,其特征在于,
所述流的时间分布特征是指一个流内的报文到达的时间间隔分布;
所述流的实时大小特征是指流的实时速度θr和流的实时持续时间βr;其中,θr是指一个流在截止到统计时的速度,以bit/s为单位,βr是指一个流在截止到统计时的持续时间,以秒(s)为单位,即,θr=L/βr,其中L是指在截止到统计时,一个流所有报文的大小的总和,单位是bit;所以,流的实时大小=流的实时速度*流的实时持续时间;
所述报文头部特征是指报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口;
所述套接字特征是指发送端套接字缓冲区大小、接收端套接字缓冲区大小。
4.根据权利要求2所述基于深度学习的网络流类型预测方法,其特征在于,步骤(1)具体为:
(1-1)针对已有公开数据集,将其中的P1%的数据作为原始训练数据集,称为Train集,50<P1<90;
(1-2)由于本方法需要1个训练精分类模型和1个预分类模型,所以将上述的Train集通过人工标记为1个精分类训练集和1个预分类训练集;对每一个流的每一个报文进行特征统计并作为数据的属性,将流类型标记为大象流或老鼠流;
其中,精分类训练集中的每一行数据对应一个报文,其数据属性包括报文序号、所属流、报文到达的时间间隔、流的实时速度、流的实时持续时间、报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、发送端套接字缓冲区大小、接收端套接字缓冲区大小、流类型;预分类训练集中每一行对应一个报文,其数据属性包括报文序号、所属流、报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口、流类型。
5.根据权利要求4所述基于深度学习的网络流类型预测方法,其特征在于,在步骤(1-1)中,所述已公开的数据集包括CAIDA和CRAWDAD数据集。
6.根据权利要求4所述基于深度学习的网络流类型预测方法,其特征在于,在步骤(1-2)中,在对流类型做标记来构建训练集时,通过“流的速度、流的持续时间”来判别流的类型;即,当一个流的速度θ>T1或流的持续时间β>T2,则被判别为大象流,否则判为老鼠流,其中T1和T2是判别门限值。
7.根据权利要求1所述基于深度学习的网络流类型预测方法,其特征在于,所述深度学习模型使用的深度学习算法是胶囊网络CapsNet,CapsNet只需少量数据就可完成特征的高效学习,所以在流开始的前几个报文到达时就可实现预测,提高了预测方法的实时性。
8.根据权利要求2所述基于深度学习的网络流类型预测方法,其特征在于,
构建训练集时,为了使流类型判断标准能够自适应于流量特征的动态变化,采用强化学习方法动态调节T1和T2;强化学习中的代理agent与网络进行交互,包括基于INT技术对网络进行状态(state,s)的感知和奖赏(reward,r)的反馈,最后完成动作(action,a)的下发;agent与网络经过多次的交互后,找到实现最高预测准确率的最优动作集,找到状态空间S到动作空间A映射的策略(S—>A)。
9.根据权利要求8所述基于深度学习的网络流类型预测方法,其特征在于,
奖赏r为预测的准确率,动作a是设置T1和T2,状态s是各个流的流的速度的平均值
Figure FDA0002867313420000031
和各个流的流的持续时间的平均值
Figure FDA0002867313420000032
即,
Figure FDA0002867313420000033
θi是流i的流速度,βi是流i的流持续时间,N是流的数量。
CN201810528250.0A 2018-05-29 2018-05-29 一种基于深度学习的网络流类型预测方法 Active CN108712292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810528250.0A CN108712292B (zh) 2018-05-29 2018-05-29 一种基于深度学习的网络流类型预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810528250.0A CN108712292B (zh) 2018-05-29 2018-05-29 一种基于深度学习的网络流类型预测方法

Publications (2)

Publication Number Publication Date
CN108712292A CN108712292A (zh) 2018-10-26
CN108712292B true CN108712292B (zh) 2021-04-02

Family

ID=63870778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810528250.0A Active CN108712292B (zh) 2018-05-29 2018-05-29 一种基于深度学习的网络流类型预测方法

Country Status (1)

Country Link
CN (1) CN108712292B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11579951B2 (en) 2018-09-27 2023-02-14 Oracle International Corporation Disk drive failure prediction with neural networks
US11423327B2 (en) 2018-10-10 2022-08-23 Oracle International Corporation Out of band server utilization estimation and server workload characterization for datacenter resource optimization and forecasting
US11443166B2 (en) * 2018-10-29 2022-09-13 Oracle International Corporation Datacenter level utilization prediction without operating system involvement
CN109362066B (zh) * 2018-11-01 2021-06-25 山东大学 一种基于低功耗广域物联网和胶囊网络的实时行为识别系统及其工作方法
CN109412900B (zh) * 2018-12-04 2020-08-21 腾讯科技(深圳)有限公司 一种网络状态识别的方法、模型训练的方法及装置
CN109858763A (zh) * 2018-12-29 2019-06-07 中国电力科学研究院有限公司 一种基于gan的电力工控数据报文的构造方法及装置
CN110138674B (zh) * 2019-04-29 2022-09-06 广州大学 可编程数据平面流调度方法、系统、介质及网络设备
CN110336754B (zh) * 2019-05-09 2020-04-21 北京邮电大学 一种网络流量配置方法及装置
CN110120920A (zh) * 2019-05-09 2019-08-13 国网山东省电力公司滨州供电公司 一种基于软件定义网络的控制器负载预测方法
CN110535723B (zh) * 2019-08-27 2021-01-19 西安交通大学 一种sdn中采用深度学习的消息异常检测方法
CN110677876B (zh) * 2019-10-08 2021-02-05 广东电网有限责任公司 一种流量种类预测的前传网络资源分配方法
CN112751781B (zh) * 2019-10-31 2024-09-13 阿里巴巴集团控股有限公司 流量数据的处理方法、装置、设备及计算机存储介质
CN111131080B (zh) * 2019-12-26 2021-09-07 电子科技大学 分布式深度学习流调度方法、系统、设备
CN111277467B (zh) * 2020-01-23 2021-12-28 华为技术有限公司 一种通信装置、数据流识别方法及相关设备
CN112257915B (zh) * 2020-10-19 2023-10-17 南京南邮信息产业技术研究院有限公司 基于胶囊网络的医院门诊人流量预测方法
CN112270440B (zh) * 2020-10-30 2023-04-07 国网安徽省电力有限公司合肥供电公司 一种基于胶囊神经网络的配电网负荷预测方法
CN112636995B (zh) * 2020-11-11 2022-08-05 北京邮电大学 一种前传网络资源分配方法及装置
CN113098707B (zh) * 2021-03-16 2022-05-03 重庆邮电大学 边缘网络中一种虚拟网络功能需求预测方法
CN114050928B (zh) * 2021-11-10 2023-02-03 湖南大学 一种基于机器学习的sdn流表溢出攻击检测与缓解方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
WO2016060751A1 (en) * 2014-10-13 2016-04-21 Nec Laboratories America, Inc. Network traffic flow management using machine learning
CN106570597A (zh) * 2016-11-14 2017-04-19 广州大学 一种sdn架构下基于深度学习的内容流行度预测方法
CN107124320A (zh) * 2017-06-30 2017-09-01 北京金山安全软件有限公司 流量数据的监控方法、装置及服务器
CN108053080A (zh) * 2017-12-30 2018-05-18 中国移动通信集团江苏有限公司 区域用户数量统计值预测方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
WO2016060751A1 (en) * 2014-10-13 2016-04-21 Nec Laboratories America, Inc. Network traffic flow management using machine learning
CN106570597A (zh) * 2016-11-14 2017-04-19 广州大学 一种sdn架构下基于深度学习的内容流行度预测方法
CN107124320A (zh) * 2017-06-30 2017-09-01 北京金山安全软件有限公司 流量数据的监控方法、装置及服务器
CN108053080A (zh) * 2017-12-30 2018-05-18 中国移动通信集团江苏有限公司 区域用户数量统计值预测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108712292A (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN108712292B (zh) 一种基于深度学习的网络流类型预测方法
CN102025620B (zh) 基于业务区分的认知网络QoS保障方法
CN105847151B (zh) 一种面向软件定义网络的多约束QoS路由策略设计方法
CN109547340B (zh) 基于重路由的sdn数据中心网络拥塞控制方法
Nafi et al. A predictive road traffic management system based on vehicular ad-hoc network
CN1327677C (zh) 基于ecn且带预测验证的拥塞控制方法
CN109314662A (zh) 数据传输方法及装置
CN101969408B (zh) 基于分组dscp标记的主动队列管理方法
CN109660465B (zh) 一种路侧单元辅助的车联网负载均衡路由方法
CN103841044A (zh) 基于软件定义网络下面向不同流的带宽控制方法
DE20218489U1 (de) Von einer Basisstation zur Funkkommunikation verwendete Kognitionsmodelle zur optimalen Funkkanalnutzung
CN105490962A (zh) 一种基于OpenFlow网络的QoS管理方法
CN113472697A (zh) 网络信息传输系统
CN109474897B (zh) 基于隐马尔可夫模型的车联网安全消息单跳协作广播方法
CN1620040A (zh) 分组交换网中用内部标记作可升级选择性反压力的方法和设备
CN115277574B (zh) 一种sdn架构下数据中心网络负载均衡方法
CN105827545A (zh) 数据中心网络中tcp共流的调度方法和装置
CN1188984C (zh) 基于路径延时概率分布的选路方法
Nahar et al. Adaptive reinforcement routing in software defined vehicular networks
CN1964310A (zh) 一种ip网络的分组丢弃系统及分组丢弃方法
CN117880206A (zh) 一种物联网管理设备的负载平衡方法及系统
CN102299771A (zh) 一种多跳-多数据流网络的网络编码控制方法
CN100499571C (zh) 在通信网络中利用接入控制确定通信业务控制的极限的方法
CN105959167B (zh) 一种基于贪心算法的全局优化sdn测量方法
CN103220585B (zh) 一种支持QoS的网络视频传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240515

Address after: Room 601, Building A1, Modern Avenue, 23 Spectral Middle Road, Huangpu District, Guangzhou City, Guangdong Province, 510799

Patentee after: Guangdong Kexinan Information Technology Co.,Ltd.

Country or region after: China

Address before: 510006 No. 230 West Ring Road, Guangzhou University, Guangzhou, Guangdong, Panyu District

Patentee before: Guangzhou University

Country or region before: China