CN106533785A

CN106533785A - 一种sdn应用层流量的建模方法

Info

Publication number: CN106533785A
Application number: CN201611094447.5A
Authority: CN
Inventors: 罗建桢; 蔡君; 戴青云; 刘外喜
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2016-12-01
Filing date: 2016-12-01
Publication date: 2017-03-22

Abstract

本发明涉及一种SDN应用层流量的建模方法，其特征在于包括步骤：一、采集SDN应用层流量作为系统的输入；二、对SDN应用层流量进行预处理；三、由预处理模块输出应用层流量的最长频繁项集；四、建模；五、参数初始化；六、基于前向后向迭代过程进行估计模型的参数；七、参数更新；八、判断迭代过程是否结束，当程序迭代过程结束时，输出基于层次化隐马尔可夫模型的应用层流量特征模型；当程序迭代过程未结束时，返回第六步。该方法根据应用层网络流量的一般特征，提出适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型，用于对应用层网络协议报文建模，并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。

Description

一种SDN应用层流量的建模方法

技术领域

本发明涉及一种SDN应用层流量的建模方法。

背景技术

随着互联网的飞速发展，新的网络应用(如微博，微信以及各种APP等)诞生的速度越来越快，由于不同的网络应用采用了不同的协议，而且还有大量的应用开发者直接开发私有协议实现特殊的通信功能，以致大约40％的网络流量无法识别。软件定义网络(SDN)是下一代互联网的核心技术，目前是业界关注的重点。在SDN架构中，应用层通过北向接口接入SDN控制层为网络应用提供具更高的可扩展性、灵活性、效率和可管理性，应用开发者可以更方便地实现更丰富的应用服务。可见，随着网络用户数量持续攀升，SDN网络中的流量必然会呈现出多样化和海量化的特征。然而，现有的未知流量分析方法大都是基于人工分析，严重影响了网络管理的运作效率，不适应SDN网络发展的需求。因此，研究和开发自动化的流量处理方法和技术，是流量分析领域的迫切任务。

隐马尔可夫模型已被广泛证明并应用于描述一个含有隐含未知参数的马尔可夫过程。然而，现有的模型不能完整地对一些具有层次化结构的网络流进行建模。隐马尔可夫模型只刻画了隐状态之间的状态转移规律，但并没有刻画状态内部的微观特性。即使是隐半马尔可夫模型也只是笼统地描述了随机序列中隐状态的转移规律以及隐状态的持续时间长度，而没有真正揭示状态内部的变化规律。

发明内容

本发明针对现有技术的不足，提供一种SDN应用层流量的建模方法。该方法根据应用层网络流量的一般特征，提出一种适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型，用于对应用层网络协议报文建模，并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。

为了达到上述目的，本发明一种SDN应用层流量的建模方法，主要包括以下步骤：

第一步、采集SDN应用层流量作为系统的输入；

第二步、应用数据挖掘方法，对SDN应用层流量进行预处理；

第三步、由预处理模块输出应用层流量的最长频繁项集；

第四步、利用层次化隐马尔可夫模型进行建模；

第五步、对层次化隐马尔可夫模型参数初始化；

第六步、基于前向后向迭代过程进行估计模型的参数；

第七步、对参数进行更新；

第八步、判断迭代过程是否结束，

当程序迭代过程结束时，输出基于层次化隐马尔可夫模型的应用层流量特征模型；

当程序迭代过程未结束时，返回第六步。

优选地，所述第二步中的数学挖掘方法包括Apriori算法。

优选地，所述第二步中的对SDN应用层流量进行预处理，包括提取网络流量的最长频繁项集。

本发明提出一种新的基于层次化隐马尔可夫模型的SDN应用层未知流量建模方法，具体包括：(1)用于刻画具有层次化子结构的随机序列的微观特性的层次化隐马尔可夫模型(H2MM)，(2)基于H2MM对SDN应用层流量建模的方法。本发明为下一代互联网技术SDN的流量分析建模提供一种有效的途径。

对于数据报文结构的表示方法，应用层网络流量的数据报文可表示为一个字节序列：o＝o₁o₂...o_T，其中T为数据报文的长度。数据报文具有层次化结构，即报文由一系列字段序列组成，每个字段本身也有内部的微观结构，也即o＝o⁽¹⁾o⁽²⁾...o^(R)，其中表示报文的第r个字段，r＝1,2,...,R。

对于层次结构的隐马尔可夫模型，假设随机过程的隐状态的状态空间为S＝{1,2,...,M}，隐状态之间的转移概率为a_ij，其中i,j∈S。a_ij表示给定状态i的条件下，随机过程从状态i向状态j的转移概率，即：

a_ij＝P[s_t+1＝j|s_t＝i]。

状态间的转移概率还满足：

假定状态的最大持续时间长度为K，那么对每个给定状态i定义K个相位：K＝{1,2,...,K}，用(i，k)表示随机过程处于状态i的相位k，相位k代表一个状态的进化程度，或者代表状态的马尔可夫过程历经的程度。在一个状态i中，随着时间的推移，状态的i的相位k只能从相位1开始，并逐一向右转移，即由k转变到k+1，再从k+1转变到k+2，或者从某一相位直接向K(代表消亡相位)相位转移，即因此，只有(i,k)→(i,k+1)和(i,k)→(i,K)的转移概率不等于0，而其它相位之间的转移概率定义为0。在给定(i，k)的情况下，观测到观测值c的概率为：

b_i,k(c)＝P[o_t＝c|s_t＝i,p_t＝k]。

其中c是观测值，观测值的集合为V＝{0,1,2,...}。

当从某个状态(不等于i)转移到状态i时，首先进入状态i的相位1，在相位1时，以b_i,1(c)的概率观察到观测值c，接着以相位转移概率p_i(1)转移到相位2，或者转移概率1-p_i(1)结束当前相位，并以状态转移概率a_ii'转移到下一个状态i'；在相位k时，以b_i,k(c)的概率观察到观测值c，接着以相位转移概率p_j(k)转移到相位k+1，或者以转移概率1-p_j(k)结束当前相位，然后以状态转移概率a_jj'转移到下一个状态j'；依此类推。p_i(k)表示在给定状态i时，由相位k向相位k+1转移的概率分布，其定义为：

p_i(k)＝P[s_t+1＝i,p_t+1＝k+1|s_t＝i,p_t＝k],i∈S,k∈K。

H2MM的模型参数记为λ＝{A,B,P,π}，其中A为模型的状态转移概率矩阵，B为观测概率矩阵，P为状态的相位转移概率矩阵，π为初始状态的概率分布。

状态转移概率矩阵定义为：

A＝{a_ij},i,j∈S。

观测概率矩阵定义为：

B＝{b_i,k(c)},i∈S,k∈K,c∈V。

状态的相位转移概率矩阵定义为：

P＝{p_i(k)},i∈S,k∈K。

初始状态的概率分布定义为：

π＝{π_i},i∈S。

其中，π_i＝P[s₁＝i],i∈S，且满足

对于最长频繁项集，如果一个字符串x是另一个字符串x'的子串，则记为：设F为频繁项集合，那么F的最长频繁项集合F_L定义为：任意给定x∈F_L，不存在x'∈F_L且x'∈F，使得

本发明没有二进制分析方法所面临的限制条件，也能准确地分析出未知流量的报文结构，而且还能揭示流量报文数据内部的微观特征。

本发明根据应用层网络流量的一般特征，提出一种适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型，用于对应用层网络协议报文建模，并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。

附图说明

图1为本发明的实施流程示意图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

参照图1，本发明实施例一种SDN应用层流量的建模方法，主要包括以下步骤：

第一步、采集SDN应用层流量作为系统的输入；

第二步、应用数据挖掘方法，如Apriori算法，对SDN应用层流量进行预处理，该预处理包括提取网络流量的最长频繁项集F_L；

第三步、由预处理模块输出应用层流量的最长频繁项集；

第四步、利用层次化隐马尔可夫模型进行建模；

第五步、对层次化隐马尔可夫模型参数初始化；

第六步、基于前向后向迭代过程进行估计模型的参数；

第七步、对参数进行更新；

第八步、判断迭代过程是否结束，

当程序迭代过程未结束时，返回第六步。

对于第四步，H2MM建模，具体流程为：令F_L中的每个字符串都与一个状态对应，如果x∈F_L是状态i对应的一个字符串，则记x为x_i，且x_i的所有子字符串a∈x_i都可能是状态i的观测值。H2MM的关键词状态数目为N＝|F_L|。另外定义若干个新的状态，代表数据状态，它的观测值是观测序列集中所有可能的字符。关键词状态数目与数据状态数目的总和为M。

对于第五步，参数初始化。

相位数为

初始状态服从等概率分布的初始化：π_i＝1/M。

状态转换概率矩阵服从等概率分布：a_ij＝1/(M-1)，并使之满足

观测概率的初始化为：

相位转移概率的初始化为：

对于第六步，定义前向变量：

其中p_t表示t时刻的相位，表示o₁o₂...o_t，s_t]＝i表示状态i终止于时刻t，即s_t＝i，但s_t+1≠i.同理，本文中出现的s_[t＝i表示状态i开始于时刻t，即s_t＝i，但s_t-1≠i。

前向变量的初始化条件：

α₁(i,1)＝π_ib_i,1(0₁),i∈S。

α₁(i,k)＝0,i∈S,k＞1。

α₁(i)＝π_ib_i,1(0₁)(1-p_i(1)),i∈S。

迭代公式：

α_t(j,k)＝α_t-1(j,k-1)p_j(k-1)b_j,k(o_t),j∈S,k＞1。

其中，

定义后向变量：

迭代公式：

β_t(i,k)＝p_i(k)b_i,k+1(o_t+1)β_t+1(i,k+1)+(1-p_i(k))β_t(i)。

其中，

后向变量初始化条件为：

β_T(i)＝1,i∈S。

β_T(i,k)＝1,i∈S,k∈K。

为了更新模型的状态转移概率矩阵，定义以下中间变量：

随机过程在t时刻的状态为i的概率为：

递归公式：

递推计算的初始化条件为：γ_T(i)＝α_T(i)。

对于第七步，为了更新模型的相位进化概率，定义以下两个变量：

报文模型的参数更新公式：

a_ij＝P[s_t+1＝j|s_t＝i]。

状态间的转移概率还满足：

a_ii＝0,i∈S；

b_i,k(c)＝P[o_t＝c|s_t＝i,p_t＝k]。

其中c是观测值，观测值的集合为V＝{0,1,2,...}。

p_i(k)＝P[s_t+1＝i,p_t+1＝k+1|s_t＝i,p_t＝k],i∈S,k∈K。

状态转移概率矩阵定义为：

A＝{a_ij},i,j∈S。

观测概率矩阵定义为：

B＝{b_i,k(c)},i∈S,k∈K,c∈V。

状态的相位转移概率矩阵定义为：

P＝{p_i(k)},i∈S,k∈K。

初始状态的概率分布定义为：

π＝{π_i},i∈S。

其中，π_i＝P[s₁＝i],i∈S，且满足

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种SDN应用层流量的建模方法，其特征在于，主要包括以下步骤：

第一步、采集SDN应用层流量作为系统的输入；

第二步、应用数据挖掘方法，对SDN应用层流量进行预处理；

第三步、由预处理模块输出应用层流量的最长频繁项集；

第四步、利用层次化隐马尔可夫模型进行建模；

第五步、对层次化隐马尔可夫模型参数初始化；

第六步、基于前向后向迭代过程进行估计模型的参数；

第七步、对参数进行更新；

第八步、判断迭代过程是否结束，

当程序迭代过程未结束时，返回第六步。

2.根据权利要求1所述的一种SDN应用层流量的建模方法，其特征在于，所述第二步中的数学挖掘方法包括Apriori算法。

3.根据权利要求1所述的一种SDN应用层流量的建模方法，其特征在于，所述第二步中的对SDN应用层流量进行预处理，包括提取网络流量的最长频繁项集。