CN108712292A

CN108712292A - 一种基于深度学习的网络流类型预测方法

Info

Publication number: CN108712292A
Application number: CN201810528250.0A
Authority: CN
Inventors: 刘外喜; 蔡君; 陈庆春
Original assignee: Guangzhou University
Current assignee: Guangdong Kexinan Information Technology Co.,Ltd.
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-10-26
Anticipated expiration: 2038-05-29
Also published as: CN108712292B

Abstract

本发明公开了一种基于深度学习的网络流类型预测方法，采用“边缘预分类+中心精分类”的多级预测方案，即，先预分类再精分类，分别在网络边缘的SDN交换机、SDN控制器上构建进行预分类、精分类的深度学习模型；其中，通过网络功能虚拟化NFV技术，利用SDN网络中各交换机计算资源以及链路构建的分布式的深度学习网络作为预分类模型所需的硬件资源，而SDN控制器作为精分类模型所需的硬件资源；预分类模型采用4个联合特征，精分类模型采用10个联合特征。本发明采用多级预测方案既可以减少交换机到控制器的通信开销，也可以减轻控制器的负载；使用胶囊网络方法实现尽早预测；同时，定期地利用自主更新的训练数据集训练深度学习模型，改善预测准确度。

Description

一种基于深度学习的网络流类型预测方法

技术领域

本发明属于互联网数据处理的技术领域，特别涉及一种基于深度学习的网络流类型预测方法。

背景技术

研究表明，数据中心网络中流的大小和长度表现出大象流和老鼠流的分化特性：大象流数量占比小于1％，流量占比大于90％；相反，老鼠流数量占比超过99％，流量占比不超过10％。而且，老鼠流持续时间极短，绝大部分不超过100ms。在软件定义的数据中心网络中SDN控制器需要频繁地为老鼠流制定流表，流表从制定到下发的存在周期很短，效率会很低；同时，海量老鼠流对SDN控制器资源(如可用安全控制信道等)的消耗也会抑制控制器对大象流的优化控制。如果采取“抓大放小”的策略实现流量优化，即，SDN控制器只为大象流调度，则可大大减少控制开销，但流大小和长度在调度之前无法得知，错误的调度则会导致各链路负载不均衡。所以，准确地预测流类型进而实现路由与流量特征的自适应是解决此矛盾的关键。然而，当前很多方法仅通过门限值来识别大象流，而忽略了流的持续时间以及对资源的真实需求。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度学习的网络流类型预测方法，利用深度学习对流的时间分布特征、流的实时大小特征、报文头部特征、套接字特征等4个维度数据的联合特征进行分析，实现流类型的预测。

为了达到上述目的，本发明采用以下技术方案：

本发明一种基于深度学习的网络流类型预测方法，采用“边缘预分类+中心精分类”的多级预测方案，即，先预分类再精分类，分别在网络边缘的SDN交换机、SDN控制器上构建进行预分类、精分类的深度学习模型；其中，通过网络功能虚拟化NFV技术，利用SDN网络中各交换机计算资源以及链路构建分布式的深度学习网络，来作为预分类模型所需的硬件资源，而SDN控制器则作为精分类模型所需的硬件资源；其中，每个交换机贡献小部分资源实现该分布式深度学习网络中若干神经元的计算功能，神经元通过交换机的链路彼此连接。

作为优选的技术方案，包括下述步骤：

(1)选择流的联合特征，所述流的联合特征包括：流的时间分布特征、流的实时大小特征、报文头部特征以及套接字特征；

(2)构建训练数据集，所述训练数据集用于流类型预测的深度学习模型的训练；

(3)采用常用的REINFORCE算法，控制器端的模型训练模块训练好深度学习模型，并将模型参数发送到各交换机；

(4)模型训练模块包括两个子模块，一个是为控制器训练的精分类模型；另一个是为各交换机训练的预分类模型；

(5)网络状态模块按照抽样周期采集网络状态，采集方法是INT(In-band NetworkTelemetry)技术，抽样周期可依据网络状况调节；

(6)当一个新的流的报文到达交换机后，嵌在交换机内的预分类模块根据报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口这4个特征将疑似的大象流筛选出来，其他的为老鼠流；

(7)那些疑似大象流的报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、流的实时速度、流的实时持续时间、发送端套接字缓冲区大小、接收端套接字缓冲区大小这10个特征值被发送到控制器的精分类模块，精分类模型根据这10个特征判断为大象流或老鼠流；

(8)更新训练数据集；每一个流结束后可根据其全部的流量特征来确认流类型，进而获得新的流类型的标签数据，其被反馈加入到原训练数据集进而形成新的训练数据集；

确认流类型的方法是：当一个流的速度θ>T₁或流的持续时间β>T₂，则被判别为大象流，否则为老鼠流，其中T₁和T₂是判别门限值；其中，θ是以bit/s为单位，β是指一个流在结束时的持续时间，以秒(s)为单位；即，θ＝L₁/β，其中L₁是指一个流在结束时，它的所有报文的大小的总和，单位是bit；

(9)模型训练模块定期地(周期为C)利用新的训练数据集训练深度学习模型，其周期为C，以确保预测模型能够适应于实时变化的流量特征，改善预测准确度，周期C可根据实际流量变化情况来确定。

作为优选的技术方案，步骤(1)中，

所述流的时间分布特征是指一个流内的报文到达的时间间隔分布；

所述流的实时大小特征是指流的实时速度θ_r和流的实时持续时间β_r；其中，θ_r是指一个流在截止到统计时的速度，以bit/s为单位，β_r是指一个流在截止到统计时的持续时间，以秒(s)为单位，即，θ_r＝L/β_r，其中L是指在截止到统计时，一个流所有报文的大小的总和，单位是bit；所以，流的实时大小＝流的实时速度*流的实时持续时间；

所述报文头部特征是指报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口；

所述套接字特征是指发送端套接字缓冲区大小、接收端套接字缓冲区大小。

作为优选的技术方案，步骤(2)具体为：

(2-1)针对已有公开数据集，将其中的P₁％的数据作为原始训练数据集，称为Train集，50<P₁<90；

(2-2)由于本方法需要1个训练精分类模型和1个预分类模型，所以将上述的Train集通过人工标记为1个精分类训练集和1个预分类训练集；对每一个流的每一个报文进行特征统计并作为数据的属性，将流类型标记为大象流或老鼠流；

其中，精分类训练集中的每一行数据对应一个报文，其数据属性包括报文序号、所属流、报文到达的时间间隔、流的实时速度、流的实时持续时间、报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、发送端套接字缓冲区大小、接收端套接字缓冲区大小、流类型；预分类训练集中每一行对应一个报文，其数据属性包括报文序号、所属流、报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口、流类型。

作为优选的技术方案，在步骤(2-1)中，所述已公开的数据集包括CAIDA和CRAWDAD数据集。

作为优选的技术方案，在步骤(2-2)中，在对流类型做标记来构建训练集时，通过“流的速度、流的持续时间”来判别流的类型；即，当一个流的速度θ>T₁或流的持续时间β>T₂，则被判别为大象流，否则判为老鼠流，其中T₁和T₂是判别门限值。

作为优选的技术方案，步骤(3)中，本发明使用的深度学习算法是胶囊网络(CapsNet，Capsule Networks)，CapsNet只需少量数据就可完成特征的高效学习，所以在流开始的前几个报文到达时就可实现预测，提高了预测方法的实时性。

作为优选的技术方案，构建训练集时，为了使流类型判断标准能够自适应于流量特征的动态变化，采用强化学习方法动态调节T₁和T₂；强化学习中的代理agent与网络进行交互，包括基于INT技术对网络进行状态(state，s)的感知和奖赏(reward，r)的反馈，最后完成动作(action，a)的下发；agent与网络经过多次的交互后，找到实现最高预测准确率的最优动作集，找到状态空间S到动作空间A映射的策略(S—>A)。

作为优选的技术方案，奖赏r为预测的准确率，动作a是设置T₁和T₂，状态s是各个流的流的速度的平均值和各个流的流的持续时间的平均值即，θ_i是流i的流速度，β_i是流i的流持续时间，N是流的数量。

本发明与现有技术相比，具有如下优点和有益效果：

1、本方法通过胶囊网络的深度学习方法分析各节点分布式地、实时地采集到的流量的时-空联合分布特征，可实现尽早预测：网络流量是一个跨越多个空间节点和时间的连续过程，构成一个时-空联合分布数据序列，数据之间存在很强的时间相关性和空间相关性，而深度学习利用多隐层神经网络可从数据中学到它的本质特征。

2、本发明采用多级预测机制，通过在交换机端进行预分类过滤掉海量的老鼠流，既可以减少交换机到控制器的通信开销，也可以减轻控制器的负载。虽然此机制会导致一个大象流进行2次检测，但由于大象流的数量占比只有1％，所以，由此产生的开销很小。

3、本发明采用多级预测机制，精分类利用预分类采集到的全局视野流量特征，可提高预测准确率，同时，定期地利用自主更新的训练数据集训练深度学习模型，可进一步地改善预测准确率。

附图说明

图1是本发明基于深度学习的流类型预测机制的框图。

图2是本发明基于强化学习的动态调节判别门限值T₁和T₂的机制示意图。

图3是本发明的实现效果示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明利用深度学习对流的时间分布特征、流的实时大小特征、报文头部特征、套接字特征等4个维度数据的联合特征进行分析，实现流类型的预测，基本原理如下：

以软件定义网络SDN(Software Defined Network)为基础架构，采用“边缘预分类+中心精分类”的多级预测方案，即，分别在网络边缘的SDN交换机以及控制器构建进行预分类、精分类的深度学习模型。在预分类阶段，利用SDN网络中各交换机的计算资源以及链路构建分布式深度学习网络，其中，每个交换机贡献小部分资源实现若干神经元的计算功能，神经元通过交换机的链路彼此连接。即，在SDN网络之上叠加一个分布式深度学习网络。在精分类阶段，被预分类判为疑似大象流的流特征值被发送到具有全局视野的SDN控制器，然后，对预分类后的结果作进一步判断。

本发明的系统主要包括以下模块：

网络状态采集模块：周期性地采集网络状态；

精分类模块：针对那些疑似的大象流，利用训练好的精分类模型判断为大象流或老鼠流；

模型训练模块：定期地训练1个精分类模型和1个预分类模型；

预分类模块：利用训练好的预分类模型初步筛选出大象流和老鼠流；

SDN控制器：负责为各SDN交换机制定转发控制规则，并通过P4(Programmingprotocol-independent packet processors)技术下发到交换机，构建分布式深度学习网络用于预分类。

如图1所示，本发明基于深度学习的网络流类型预测方法，包括下述步骤：

1)选择流的联合特征，具体特征如下：

(1)流的时间分布特征：一个流内的报文到达的时间间隔分布；

(2)流的实时大小特征：所述流的实时大小特征是指流的实时速度θ_r和流的实时持续时间β_r；其中，θ_r是指一个流在截止到统计时的速度，以bit/s为单位，β_r是指一个流在截止到统计时的持续时间，以秒(s)为单位，即，θ_r＝L/β_r，其中L是指在截止到统计时，一个流所有报文的大小的总和，单位是bit；，所以，流的实时大小＝流的实时速度*流的实时持续时间。

(3)报文头部特征，从报文的IP头部和TCP/UDP头部获取：总长度(Total length)、IP协议类型(IP Protocol)、服务类型(Type of service)、IP头部的分片标志MF(MoreFragments)、源端口、目的端口，MF＝1表示该分组后面还有分组，MF＝0表示该分组是最后一个、源/目的端口。

(4)套接字特征：发送端套接字缓冲区大小(socket buffers)大小、接收端套接字缓冲区大小(socket buffers)。

2)构建训练数据集和测试数据集，所述训练数据集用于流类型预测的深度学习模型的训练，所述测试数据集用于流类型预测测试，具体包括下述方案：

首先，针对已有公开数据集(如CAIDA、CRAWDAD等数据集)，它们中的P₁％的数据作为原始训练集(称为Train集)，P₂％作为测试集(Test集)。例如，P₁＝70，P₂＝30。

然后，由于本发明需要1个训练精分类模型和1个预分类模型，所以把上述的Train集通过人工标记为1个精分类训练集和1个预分类训练集。对每一个流的每一个报文进行特征统计并作为数据的属性，标记为大象流或老鼠流，在对流类型做标记来构建训练集时，通过“流的速度、流的持续时间”来判别流的类型；即，当一个流的速度θ>T₁或流的持续时间β>T₂，则被判别为大象流，否则判为老鼠流，其中T₁和T₂是判别门限值。

其中，精分类训练集的每一行数据对应一个报文，其数据属性如表1所示，预分类训练集的每一行数据对应一个报文，其数据属性如表2所示。表1中包括报文序号、所属流、报文到达的时间间隔、流的实时速度、流的实时持续时间、报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、发送端套接字缓冲区大小、接收端套接字缓冲区大小、流类型；而表2包括报文序号、所属流、报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口、流类型。

在构建训练集时，当一个流的速度θ>T₁或流的持续时间β>T₂，则被判别为大象流，其中T₁和T₂是判别门限值。为了自适应于流量的动态变化，如图2所示，本发明用强化学习方法(如Q-learning算法)动态调节T₁和T₂。

构建训练集时，为了使流类型判断标准能够自适应于流量特征的动态变化，本方法采用强化学习方法动态调节T₁和T₂；强化学习中的代理agent与网络进行交互，包括基于INT技术对网络进行状态(state，s)的感知和奖赏(reward，r)的反馈，最后完成动作(action，a)的下发；agent与网络经过多次的交互后，找到实现最高预测准确率的最优动作集，找到状态空间S到动作空间A映射的策略(S—>A)。

奖赏r为预测的准确率，动作a是设置T₁和T₂，状态s是各个流的流的速度的平均值和各个流的流的持续时间的平均值即，θ_i是流i的流速度，β_i是流i的流持续时间，N是流的数量。

表1精分类模型的联合特征

注：报文到达时间间隔为该报文到达时，与同一个流内的上一个报文的时间间隔。

表2预分类模型的联合特征

报文序号	所属流	报文的总长度	IP协议类型	IP头部的分片标志MF	目的端口	流类型
							1	2	1
2	3					0
							。。。	。。

注：1表示大象流，0为老鼠流。

3)采用常用的REINFORCE算法，控制器端的模型训练模块训练好深度学习模型，并将模型参数发送到各交换机。其中，深度学习技术中的胶囊网络(CapsNet，CapsuleNetworks)算法由于具有只需要小部分数据就可高效学习的独特优势，本发明采用CapsNet来提高预测的实时性。

4)模型训练模块包括两个子模块，一个是为控制器训练的精分类模型，特征如表1所示；另一个是为各交换机训练的预分类模型，特征如表2所示。

5)网络状态模块按照抽样周期采集网络状态，采集方法是INT(In-band NetworkTelemetry)技术，抽样周期可依据网络状况调节。

6)当Test集的一个新的流的报文到达交换机后，嵌在交换机内的预分类模块根据报文的总长度、IP协议类型、IP头部的分片标志MF、目的端口将疑似的大象流筛选出来，其他的为老鼠流；

7)那些疑似大象流的报文的总长度、IP协议类型、服务类型、IP头部的分片标志MF、源端口、目的端口、流的实时速度、流的实时持续时间、发送端套接字缓冲区大小、接收端套接字缓冲区大小等10个特征值被发送到控制器的精分类模块，进一步地判断为大象流或老鼠流。

8)更新训练数据集；每一个流结束后可根据其全部的流量特征来确认流类型，进而获得流类型的标签数据，其被反馈加入到训练数据集进而形成新的训练数据集；确认流类型的方法是：当一个流的θ>T₁或β>T₂，则被判别为大象流，否则为老鼠流。

确认流类型的方法是：当一个流的速度θ>T₁或流的持续时间β>T₂，则被判别为大象流，否则为老鼠流，其中T₁和T₂是判别门限值；其中，θ是以bit/s为单位，β是指一个流在结束时的持续时间，以秒(s)为单位；即，θ＝L₁/β，其中L₁是指一个流在结束时，它的所有报文的大小的总和，单位是bit。

(9)模型训练模块以周期C利用新的训练数据集训练深度学习模型，帮助改善模型的预测准确度，周期C可根据实际流量变化情况来确定，例如C＝1天。本发明在在交换机端进行预分类，既可以减少交换机到控制器的通信开销，也可以减轻控制器的负载。虽然此机制会导致一个大象流进行2次检测，但由于大象流的数量占比只有1％，所以，由此产生的开销很小。

本发明针对Dartmouth学院公开的UNI数据集(https://crawdad.org/dartmouth/campus/20090909/)，在训练集占总体数据集不同比例下，测试了大象流预测准确率和老鼠流预测准确率。如图3所示，当训练集占比为70％，在前6个报文到达时，大象流预测准确率(TPR)高达95％，而老鼠流的预测准确率(TNR)则高达97％，充分证明本发明的方法可实现及早的精准预测。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的网络流类型预测方法，其特征在于，采用“边缘预分类+中心精分类”的多级预测方案，即，先预分类再精分类，分别在网络边缘的SDN交换机、SDN控制器上构建进行预分类、精分类的深度学习模型；其中，通过网络功能虚拟化NFV技术，利用SDN网络中各交换机计算资源以及链路构建分布式的深度学习网络，来作为预分类模型所需的硬件资源，而SDN控制器则作为精分类模型所需的硬件资源；其中，每个交换机贡献小部分资源实现该分布式深度学习网络中若干神经元的计算功能，神经元通过交换机的链路彼此连接。

2.根据权利要求1所述基于深度学习的网络流类型预测方法，其特征在于，包括下述步骤：

(5)网络状态模块按照抽样周期采集网络状态，采集方法是INT技术，抽样周期可依据网络状况调节；

3.根据权利要求2所述基于深度学习的网络流类型预测方法，其特征在于，步骤(1)中，

4.根据权利要求2所述基于深度学习的网络流类型预测方法，其特征在于，步骤(2)具体为：

5.根据权利要求4所述基于深度学习的网络流类型预测方法，其特征在于，在步骤(2-1)中，所述已公开的数据集包括CAIDA和CRAWDAD数据集。

6.根据权利要求4所述基于深度学习的网络流类型预测方法，其特征在于，在步骤(2-2)中，在对流类型做标记来构建训练集时，通过“流的速度、流的持续时间”来判别流的类型；即，当一个流的速度θ>T₁或流的持续时间β>T₂，则被判别为大象流，否则判为老鼠流，其中T₁和T₂是判别门限值。

7.根据权利要求3所述基于深度学习的网络流类型预测方法，其特征在于，步骤(3)中，本发明使用的深度学习算法是胶囊网络CapsNet，CapsNet只需少量数据就可完成特征的高效学习，所以在流开始的前几个报文到达时就可实现预测，提高了预测方法的实时性。

8.根据权利要求2所述基于深度学习的网络流类型预测方法，其特征在于，

构建训练集时，为了使流类型判断标准能够自适应于流量特征的动态变化，采用强化学习方法动态调节T₁和T₂；强化学习中的代理agent与网络进行交互，包括基于INT技术对网络进行状态(state，s)的感知和奖赏(reward，r)的反馈，最后完成动作(action，a)的下发；agent与网络经过多次的交互后，找到实现最高预测准确率的最优动作集，找到状态空间S到动作空间A映射的策略(S—>A)。

9.根据权利要求8所述基于深度学习的网络流类型预测方法，其特征在于，