CN106533785A - 一种sdn应用层流量的建模方法 - Google Patents

一种sdn应用层流量的建模方法 Download PDF

Info

Publication number
CN106533785A
CN106533785A CN201611094447.5A CN201611094447A CN106533785A CN 106533785 A CN106533785 A CN 106533785A CN 201611094447 A CN201611094447 A CN 201611094447A CN 106533785 A CN106533785 A CN 106533785A
Authority
CN
China
Prior art keywords
application layer
state
traffics
sdn application
sdn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611094447.5A
Other languages
English (en)
Inventor
罗建桢
蔡君
戴青云
刘外喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201611094447.5A priority Critical patent/CN106533785A/zh
Publication of CN106533785A publication Critical patent/CN106533785A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种SDN应用层流量的建模方法,其特征在于包括步骤:一、采集SDN应用层流量作为系统的输入;二、对SDN应用层流量进行预处理;三、由预处理模块输出应用层流量的最长频繁项集;四、建模;五、参数初始化;六、基于前向后向迭代过程进行估计模型的参数;七、参数更新;八、判断迭代过程是否结束,当程序迭代过程结束时,输出基于层次化隐马尔可夫模型的应用层流量特征模型;当程序迭代过程未结束时,返回第六步。该方法根据应用层网络流量的一般特征,提出适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型,用于对应用层网络协议报文建模,并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。

Description

一种SDN应用层流量的建模方法
技术领域
本发明涉及一种SDN应用层流量的建模方法。
背景技术
随着互联网的飞速发展,新的网络应用(如微博,微信以及各种APP等)诞生的速度越来越快,由于不同的网络应用采用了不同的协议,而且还有大量的应用开发者直接开发私有协议实现特殊的通信功能,以致大约40%的网络流量无法识别。软件定义网络(SDN)是下一代互联网的核心技术,目前是业界关注的重点。在SDN架构中,应用层通过北向接口接入SDN控制层为网络应用提供具更高的可扩展性、灵活性、效率和可管理性,应用开发者可以更方便地实现更丰富的应用服务。可见,随着网络用户数量持续攀升,SDN网络中的流量必然会呈现出多样化和海量化的特征。然而,现有的未知流量分析方法大都是基于人工分析,严重影响了网络管理的运作效率,不适应SDN网络发展的需求。因此,研究和开发自动化的流量处理方法和技术,是流量分析领域的迫切任务。
隐马尔可夫模型已被广泛证明并应用于描述一个含有隐含未知参数的马尔可夫过程。然而,现有的模型不能完整地对一些具有层次化结构的网络流进行建模。隐马尔可夫模型只刻画了隐状态之间的状态转移规律,但并没有刻画状态内部的微观特性。即使是隐半马尔可夫模型也只是笼统地描述了随机序列中隐状态的转移规律以及隐状态的持续时间长度,而没有真正揭示状态内部的变化规律。
发明内容
本发明针对现有技术的不足,提供一种SDN应用层流量的建模方法。该方法根据应用层网络流量的一般特征,提出一种适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型,用于对应用层网络协议报文建模,并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。
为了达到上述目的,本发明一种SDN应用层流量的建模方法,主要包括以下步骤:
第一步、采集SDN应用层流量作为系统的输入;
第二步、应用数据挖掘方法,对SDN应用层流量进行预处理;
第三步、由预处理模块输出应用层流量的最长频繁项集;
第四步、利用层次化隐马尔可夫模型进行建模;
第五步、对层次化隐马尔可夫模型参数初始化;
第六步、基于前向后向迭代过程进行估计模型的参数;
第七步、对参数进行更新;
第八步、判断迭代过程是否结束,
当程序迭代过程结束时,输出基于层次化隐马尔可夫模型的应用层流量特征模型;
当程序迭代过程未结束时,返回第六步。
优选地,所述第二步中的数学挖掘方法包括Apriori算法。
优选地,所述第二步中的对SDN应用层流量进行预处理,包括提取网络流量的最长频繁项集。
本发明提出一种新的基于层次化隐马尔可夫模型的SDN应用层未知流量建模方法,具体包括:(1)用于刻画具有层次化子结构的随机序列的微观特性的层次化隐马尔可夫模型(H2MM),(2)基于H2MM对SDN应用层流量建模的方法。本发明为下一代互联网技术SDN的流量分析建模提供一种有效的途径。
对于数据报文结构的表示方法,应用层网络流量的数据报文可表示为一个字节序列:o=o1o2...oT,其中T为数据报文的长度。数据报文具有层次化结构,即报文由一系列字段序列组成,每个字段本身也有内部的微观结构,也即o=o(1)o(2)...o(R),其中表示报文的第r个字段,r=1,2,...,R。
对于层次结构的隐马尔可夫模型,假设随机过程的隐状态的状态空间为S={1,2,...,M},隐状态之间的转移概率为aij,其中i,j∈S。aij表示给定状态i的条件下,随机过程从状态i向状态j的转移概率,即:
aij=P[st+1=j|st=i]。
状态间的转移概率还满足:
假定状态的最大持续时间长度为K,那么对每个给定状态i定义K个相位:K={1,2,...,K},用(i,k)表示随机过程处于状态i的相位k,相位k代表一个状态的进化程度,或者代表状态的马尔可夫过程历经的程度。在一个状态i中,随着时间的推移,状态的i的相位k只能从相位1开始,并逐一向右转移,即由k转变到k+1,再从k+1转变到k+2,或者从某一相位直接向K(代表消亡相位)相位转移,即因此,只有(i,k)→(i,k+1)和(i,k)→(i,K)的转移概率不等于0,而其它相位之间的转移概率定义为0。在给定(i,k)的情况下,观测到观测值c的概率为:
bi,k(c)=P[ot=c|st=i,pt=k]。
其中c是观测值,观测值的集合为V={0,1,2,...}。
当从某个状态(不等于i)转移到状态i时,首先进入状态i的相位1,在相位1时,以bi,1(c)的概率观察到观测值c,接着以相位转移概率pi(1)转移到相位2,或者转移概率1-pi(1)结束当前相位,并以状态转移概率aii'转移到下一个状态i';在相位k时,以bi,k(c)的概率观察到观测值c,接着以相位转移概率pj(k)转移到相位k+1,或者以转移概率1-pj(k)结束当前相位,然后以状态转移概率ajj'转移到下一个状态j';依此类推。pi(k)表示在给定状态i时,由相位k向相位k+1转移的概率分布,其定义为:
pi(k)=P[st+1=i,pt+1=k+1|st=i,pt=k],i∈S,k∈K。
H2MM的模型参数记为λ={A,B,P,π},其中A为模型的状态转移概率矩阵,B为观测概率矩阵,P为状态的相位转移概率矩阵,π为初始状态的概率分布。
状态转移概率矩阵定义为:
A={aij},i,j∈S。
观测概率矩阵定义为:
B={bi,k(c)},i∈S,k∈K,c∈V。
状态的相位转移概率矩阵定义为:
P={pi(k)},i∈S,k∈K。
初始状态的概率分布定义为:
π={πi},i∈S。
其中,πi=P[s1=i],i∈S,且满足
对于最长频繁项集,如果一个字符串x是另一个字符串x'的子串,则记为:设F为频繁项集合,那么F的最长频繁项集合FL定义为:任意给定x∈FL,不存在x'∈FL且x'∈F,使得
本发明没有二进制分析方法所面临的限制条件,也能准确地分析出未知流量的报文结构,而且还能揭示流量报文数据内部的微观特征。
本发明根据应用层网络流量的一般特征,提出一种适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型,用于对应用层网络协议报文建模,并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。
附图说明
图1为本发明的实施流程示意图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参照图1,本发明实施例一种SDN应用层流量的建模方法,主要包括以下步骤:
第一步、采集SDN应用层流量作为系统的输入;
第二步、应用数据挖掘方法,如Apriori算法,对SDN应用层流量进行预处理,该预处理包括提取网络流量的最长频繁项集FL
第三步、由预处理模块输出应用层流量的最长频繁项集;
第四步、利用层次化隐马尔可夫模型进行建模;
第五步、对层次化隐马尔可夫模型参数初始化;
第六步、基于前向后向迭代过程进行估计模型的参数;
第七步、对参数进行更新;
第八步、判断迭代过程是否结束,
当程序迭代过程结束时,输出基于层次化隐马尔可夫模型的应用层流量特征模型;
当程序迭代过程未结束时,返回第六步。
对于第四步,H2MM建模,具体流程为:令FL中的每个字符串都与一个状态对应,如果x∈FL是状态i对应的一个字符串,则记x为xi,且xi的所有子字符串a∈xi都可能是状态i的观测值。H2MM的关键词状态数目为N=|FL|。另外定义若干个新的状态,代表数据状态,它的观测值是观测序列集中所有可能的字符。关键词状态数目与数据状态数目的总和为M。
对于第五步,参数初始化。
相位数为
初始状态服从等概率分布的初始化:πi=1/M。
状态转换概率矩阵服从等概率分布:aij=1/(M-1),并使之满足
观测概率的初始化为:
相位转移概率的初始化为:
对于第六步,定义前向变量:
其中pt表示t时刻的相位,表示o1o2...ot,st]=i表示状态i终止于时刻t,即st=i,但st+1≠i.同理,本文中出现的s[t=i表示状态i开始于时刻t,即st=i,但st-1≠i。
前向变量的初始化条件:
α1(i,1)=πibi,1(01),i∈S。
α1(i,k)=0,i∈S,k>1。
α1(i)=πibi,1(01)(1-pi(1)),i∈S。
迭代公式:
αt(j,k)=αt-1(j,k-1)pj(k-1)bj,k(ot),j∈S,k>1。
其中,
定义后向变量:
迭代公式:
βt(i,k)=pi(k)bi,k+1(ot+1t+1(i,k+1)+(1-pi(k))βt(i)。
其中,
后向变量初始化条件为:
βT(i)=1,i∈S。
βT(i,k)=1,i∈S,k∈K。
为了更新模型的状态转移概率矩阵,定义以下中间变量:
随机过程在t时刻的状态为i的概率为:
递归公式:
递推计算的初始化条件为:γT(i)=αT(i)。
对于第七步,为了更新模型的相位进化概率,定义以下两个变量:
报文模型的参数更新公式:
本发明提出一种新的基于层次化隐马尔可夫模型的SDN应用层未知流量建模方法,具体包括:(1)用于刻画具有层次化子结构的随机序列的微观特性的层次化隐马尔可夫模型(H2MM),(2)基于H2MM对SDN应用层流量建模的方法。本发明为下一代互联网技术SDN的流量分析建模提供一种有效的途径。
对于数据报文结构的表示方法,应用层网络流量的数据报文可表示为一个字节序列:o=o1o2...oT,其中T为数据报文的长度。数据报文具有层次化结构,即报文由一系列字段序列组成,每个字段本身也有内部的微观结构,也即o=o(1)o(2)...o(R),其中表示报文的第r个字段,r=1,2,...,R。
对于层次结构的隐马尔可夫模型,假设随机过程的隐状态的状态空间为S={1,2,...,M},隐状态之间的转移概率为aij,其中i,j∈S。aij表示给定状态i的条件下,随机过程从状态i向状态j的转移概率,即:
aij=P[st+1=j|st=i]。
状态间的转移概率还满足:
aii=0,i∈S;
假定状态的最大持续时间长度为K,那么对每个给定状态i定义K个相位:K={1,2,...,K},用(i,k)表示随机过程处于状态i的相位k,相位k代表一个状态的进化程度,或者代表状态的马尔可夫过程历经的程度。在一个状态i中,随着时间的推移,状态的i的相位k只能从相位1开始,并逐一向右转移,即由k转变到k+1,再从k+1转变到k+2,或者从某一相位直接向K(代表消亡相位)相位转移,即因此,只有(i,k)→(i,k+1)和(i,k)→(i,K)的转移概率不等于0,而其它相位之间的转移概率定义为0。在给定(i,k)的情况下,观测到观测值c的概率为:
bi,k(c)=P[ot=c|st=i,pt=k]。
其中c是观测值,观测值的集合为V={0,1,2,...}。
当从某个状态(不等于i)转移到状态i时,首先进入状态i的相位1,在相位1时,以bi,1(c)的概率观察到观测值c,接着以相位转移概率pi(1)转移到相位2,或者转移概率1-pi(1)结束当前相位,并以状态转移概率aii'转移到下一个状态i';在相位k时,以bi,k(c)的概率观察到观测值c,接着以相位转移概率pj(k)转移到相位k+1,或者以转移概率1-pj(k)结束当前相位,然后以状态转移概率ajj'转移到下一个状态j';依此类推。pi(k)表示在给定状态i时,由相位k向相位k+1转移的概率分布,其定义为:
pi(k)=P[st+1=i,pt+1=k+1|st=i,pt=k],i∈S,k∈K。
H2MM的模型参数记为λ={A,B,P,π},其中A为模型的状态转移概率矩阵,B为观测概率矩阵,P为状态的相位转移概率矩阵,π为初始状态的概率分布。
状态转移概率矩阵定义为:
A={aij},i,j∈S。
观测概率矩阵定义为:
B={bi,k(c)},i∈S,k∈K,c∈V。
状态的相位转移概率矩阵定义为:
P={pi(k)},i∈S,k∈K。
初始状态的概率分布定义为:
π={πi},i∈S。
其中,πi=P[s1=i],i∈S,且满足
对于最长频繁项集,如果一个字符串x是另一个字符串x'的子串,则记为:设F为频繁项集合,那么F的最长频繁项集合FL定义为:任意给定x∈FL,不存在x'∈FL且x'∈F,使得
本发明没有二进制分析方法所面临的限制条件,也能准确地分析出未知流量的报文结构,而且还能揭示流量报文数据内部的微观特征。
本发明根据应用层网络流量的一般特征,提出一种适用于SDN网络应用层流量建模方法的层次化隐马尔可夫模型,用于对应用层网络协议报文建模,并基于最大似然概率准则提取协议关键词和自动重构协议的报文格式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (3)

1.一种SDN应用层流量的建模方法,其特征在于,主要包括以下步骤:
第一步、采集SDN应用层流量作为系统的输入;
第二步、应用数据挖掘方法,对SDN应用层流量进行预处理;
第三步、由预处理模块输出应用层流量的最长频繁项集;
第四步、利用层次化隐马尔可夫模型进行建模;
第五步、对层次化隐马尔可夫模型参数初始化;
第六步、基于前向后向迭代过程进行估计模型的参数;
第七步、对参数进行更新;
第八步、判断迭代过程是否结束,
当程序迭代过程结束时,输出基于层次化隐马尔可夫模型的应用层流量特征模型;
当程序迭代过程未结束时,返回第六步。
2.根据权利要求1所述的一种SDN应用层流量的建模方法,其特征在于,所述第二步中的数学挖掘方法包括Apriori算法。
3.根据权利要求1所述的一种SDN应用层流量的建模方法,其特征在于,所述第二步中的对SDN应用层流量进行预处理,包括提取网络流量的最长频繁项集。
CN201611094447.5A 2016-12-01 2016-12-01 一种sdn应用层流量的建模方法 Pending CN106533785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611094447.5A CN106533785A (zh) 2016-12-01 2016-12-01 一种sdn应用层流量的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611094447.5A CN106533785A (zh) 2016-12-01 2016-12-01 一种sdn应用层流量的建模方法

Publications (1)

Publication Number Publication Date
CN106533785A true CN106533785A (zh) 2017-03-22

Family

ID=58354760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611094447.5A Pending CN106533785A (zh) 2016-12-01 2016-12-01 一种sdn应用层流量的建模方法

Country Status (1)

Country Link
CN (1) CN106533785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672622A (zh) * 2019-01-26 2019-04-23 福州大学 Sdn数据中心基于隐马尔可夫模型的多径路由选径方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672622A (zh) * 2019-01-26 2019-04-23 福州大学 Sdn数据中心基于隐马尔可夫模型的多径路由选径方法
CN109672622B (zh) * 2019-01-26 2021-01-29 福州大学 Sdn数据中心基于隐马尔可夫模型的多径路由选径方法

Similar Documents

Publication Publication Date Title
Guo et al. Promptfl: Let federated participants cooperatively learn prompts instead of models-federated learning in age of foundation model
CN111914185B (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN104408149A (zh) 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
WO2019119967A1 (zh) 基于wikipedia链接结构的中文概念向量生成方法和装置
CN102508554A (zh) 一种通信关联的输入方法、个性语库及系统
CN106294738B (zh) 一种智能家居场景配置方法
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN107992937B (zh) 基于深度学习的非结构化数据判决方法和装置
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN111527501A (zh) 芯片适配确定方法及相关产品
WO2014040570A1 (zh) 一种垃圾模板文章识别方法和设备
CN113723426A (zh) 基于深度多流神经网络的图像分类方法及装置
CN112749556A (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN112988954B (zh) 文本分类方法、装置、电子设备和计算机可读存储介质
EP3336719A1 (en) Future scenario generation device and method, and computer program
CN105573726B (zh) 一种规则处理方法及设备
CN106533785A (zh) 一种sdn应用层流量的建模方法
US20140288936A1 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN110516066B (zh) 一种文本内容安全防护方法和装置
CN113568969B (zh) 信息抽取方法、装置、设备以及计算机可读存储介质
CN115169293A (zh) 一种文本隐写分析方法、系统、装置及存储介质
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
CN113806488A (zh) 一种基于元结构学习的异构图转换的文本挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322