CN107360032B

CN107360032B - 一种网络流识别方法及电子设备

Info

Publication number: CN107360032B
Application number: CN201710597114.2A
Authority: CN
Inventors: 林志达; 吕华辉; 黄宏聪
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-12-01
Anticipated expiration: 2037-07-20
Also published as: CN107360032A

Abstract

本发明公开一种网络流识别方法及电子设备，方法包括：计算同一网络流类型的多个训练网络流的关于不同网络流属性特征的特征条件概率模型；接收到当前网络流，计算当前网络流的网络流属性特征；使用不同的网络流类型的特征条件概率模型对当前网络流的对应网络流属性特征进行计算，得到多个关于不同的网络流类型的当前特征条件概率；使用相同网络流类型的多个当前特征条件概率计算当前网络流关于该网络流类型的当前类型条件概率；根据当前类型条件概率对当前网络流进行识别，得到识别结果。本发明对网络流动态行为特征进行量化描述，然后建立识别模型进行识别，该方法能够适应网络流量动态变化的情况，并且对网络流量的高突发性能够进行准确感知。

Description

一种网络流识别方法及电子设备

技术领域

本发明涉及网络相关技术领域，特别是一种网络流识别方法及电子设备。

背景技术

新型网络应用的不断出现引起了网络流量的快速增长，网络流量涉及计算机、网络应用以及用户等多个彼此紧密联系的实体，不同的网络应用具有自身特定的网络流量行为特征。伴随着新型网络应用的蓬勃发展，网络应用协议随之涌现，网络流量的复杂性日益增加，展现出动态、突发等行为特征。此外，由计算机病毒、网络恶意节点所造成的诸多网络安全问题对现实生活造成多方面的影响。网络应用的异构性使得网络中存在多种特定类型流量，不同类型流量具有其特定的突发行为特性以及流量相关性。因此，准确识别网络流量，对于改善网络性能、提高网络资源利用率、进而提升用户服务质量具有深远影响。

传统的网络业务主要有WWW、FTP以及Email，随着因特网的飞速发展，网络主要应用已逐步向音频、视频等综合型业务转变，电子银行、股票、网上购物、在线社交、网络直播等实时性业务已得到广泛应用。网络用户数量呈指数型增长，网络规模持续扩展，使得数据以及信息对社会具有广泛的影响。部分非关键型业务的存在导致网络带宽以及节点资源过度消耗，严重影响关键型业务的正常应用。因此，实施有效措施，管控网络中的各种类型流量，进而针对不同类型业务进行合理资源分配，提供差异化的服务质量需求具有现实意义。

网络流量识别技术发展迅速，提供差异化服务以及异构服务质量，以达到个性化精准服务是当前网络发展的主要趋势。对于时效性有较高要求的语言以及电话视频的发展使得流量特征的提取以及识别算法的设计不断改善。近几年，文件共享技术、在线游戏、大数据以及云计算等新型应用蓬勃发展，这些应用往往具有复杂的协议格式。此外，网络流量的高突发性也使得网络流量识别的难度越来越大。

目前已存在部分网络流量识别领域的研究。基于网络端口号映射的流量分类识别方法简单高效，且能够对网络应用类型进行实时识别。然而，随着P2P以及FTP等网络应用的发展、海量随机端口以及代理技术的运用，造成此方法已经难以满足现实应用的要求。基于有效载荷特征的流量识别方法考虑网络数据的有效载荷与特征识别库是否配对，以此来确定网络流量的类别。此方法具有较高效率，并且易于维护，其识别精度远高于基于网络端口号映射的流量分类识别方法。然而，此方法对于安全性具有较大的挑战，通信双方的隐私无法保障。随着数据加密技术在网络中的广泛使用以及各种网络应用的不断出现，此流量识别法将退出历史舞台。基于网络行为特征的流量识别法针对网络以及通信行为特征的异构性，从流量特性的角度对网络流量进行分类识别。此方法具有较低的算法复杂度以及较高的识别精度，并且能够感知流量的行为特征。然而，此方法需对数据流进行离散处理，因此其实时性不高，流量行为特征随着网络的不断变化而改变。基于机器学习的流量识别法可分为有监督学习的流量分类识别法、半监督学习的流量分类识别法以及无监督学习的流量分类识别法，此类方法具有较高的扩展性，可对网络流量隐含特性进行挖掘分析，具有较高的识别精度，但此类算法需要大量的数据，并且算法复杂度非常高。

发明内容

基于此，有必要针对现有技术流量识别算法对流量突发性的感知效率较低，并且无法适应网络流量动态变化的技术问题，提供一种网络流识别方法及电子设备。

本发明提供一种网络流识别方法，包括：

计算同一网络流类型的多个训练网络流的关于不同网络流属性特征的特征条件概率模型，所述网络流属性特征包括Hurst参数、数据包大小属性以及数据包间隔时间属性；

接收到当前网络流，计算当前网络流的网络流属性特征；

使用不同的网络流类型的特征条件概率模型对所述当前网络流的对应网络流属性特征进行计算，得到多个关于不同的网络流类型的当前特征条件概率；

使用相同网络流类型的多个所述当前特征条件概率计算当前网络流关于该网络流类型的当前类型条件概率；

根据所述当前类型条件概率对当前网络流进行识别，得到识别结果。

进一步的，所述计算同一网络流类型的多个训练网络流的关于不同网络流属性特征的特征条件概率模型，具体包括：

计算每个训练网络流的多个网络流属性特征；

对于第j个网络流属性特征ν_j和第i个网络流类型K_i，计算同一网络流类型K_i的多个训练网络流中相同网络流属性特征ν_j的平均值μ_i,j与方差σ_i,j；

计算第i个网络流类型K_i的多个训练网络流的关于第j个网络流属性特征ν_j的特征条件概率模型为

其中x为自变量，用于输入当前网络流中对应的网络流属性特征。

更进一步地，计算训练网络流或当前网络流的Hurst参数的方法为：

数据块大小参数值设置步骤，设置数据块大小参数值n；

网络流分割步骤，将训练网络流或当前网络流分割为多个数据块，每个数据块包括至少一个训练网络流或当前网络流的数据包，每个数据块的大小为n；

数据块期望值计算步骤，计算出每个数据块的期望值，其中第k个数据块的期望值

X_kn-n+1为训练网络流或当前网络流中第kn-n+1个数据包，X_kn为训练网络流或当前网络流中第kn个数据包；

数据块期望值方差计算步骤，计算训练网络流或当前网络流的所有数据块期望值的方差

其中N为训练网络流或当前网络流的数据块的总数量；

数据块大小参数值更新步骤，将更新次数加一，如果更新次数未达到更新次数阈值，则调整n值后，执行网络流分割步骤，否则执行斜率计算步骤；

斜率计算步骤，生成多个以每个n值的对数为横坐标值、以与n值对应的样本方差Var(X_(n))的对数为纵坐标值的参数点，对多个参数点进行线性拟合得到参数直线，计算所述参数直线的斜率β；

Hurst参数计算步骤，根据所述斜率计算得到Hurst参数H＝1-β/2。

进一步地，所述根据所述当前类型条件概率对当前网络流进行识别，得到识别结果，具体包括：

从多个所述当前类型条件概率中选择最大的当前类型条件概率作为待选类型条件概率，将所述待选类型条件概率对应的网络流类型作为待选网络流类型；

如果所述待选类型条件概率大于预设概率阈值，则判断所述当前网络流的类型为所述待选网络流类型，且如果用于计算所述待选网络流类型对应的特征条件概率模型的训练网络流的数量小于预设训练数量，则使用所述当前网络流的对应网络流属性特征，更新所述待选网络流类型对应的特征条件概率模型；

如果所述待选类型条件概率小于或等于预设概率阈值，则判断所述当前网络流的类型为新类型，使用所述当前网络流的对应网络流属性特征计算所述新类型对应的特征条件概率模型。

进一步的，所述根据所述当前类型条件概率对当前网络流进行识别，得到识别结果，具体包括：从多个所述当前类型条件概率中选择最大的当前类型条件概率作为待选类型条件概率；

判断所述当前网络流中所述待选类型条件概率对应的网络流类型的占比最高。

本发明提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

接收到当前网络流，计算当前网络流的网络流属性特征；

计算每个训练网络流的多个网络流属性特征；

数据块大小参数值设置步骤，设置数据块大小参数值n；

其中N为训练网络流或当前网络流的数据块的总数量；

进一步的，所述根据所述当前类型条件概率对当前网络流进行识别，得到识别结果，具体包括：

从多个所述当前类型条件概率中，选择最大的当前类型条件概率作为待选类型条件概率，将所述待选类型条件概率对应的网络流类型作为待选网络流类型；

如果所述待选类型条件概率大于预设概率阈值，则判断所述当前网络流的类型为所述待选网络流类型，且如果用于计算所述待选网络流类型对应的特征条件概率模型的训练网络流的数量小于预设训练数量，则使用所述当前网络流的对应网络流属性特征更新所述待选网络流类型对应的特征条件概率模型；

本发明通过对网络流动态行为特征进行量化描述，然后建立识别模型进行识别，该方法能够适应网络流量动态变化的情况，并且能够对网络流量的高突发性进行准确感知。

附图说明

图1为本发明一种网络流识别方法的工作流程图；

图2为本发明一实施例提供的一种网络流识别方法的工作流程图；

图3为本发明另一实施例提供的一种网络流识别方法的工作流程图；

图4为本发明一种电子设备的硬件结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

实施例一

如图1所示为本发明一种网络流识别方法的工作流程图，包括：

步骤S101，计算同一网络流类型的多个训练网络流的关于不同网络流属性特征的特征条件概率模型，所述网络流属性特征包括Hurst参数、数据包大小属性以及数据包间隔时间属性；

步骤S102，接收到当前网络流，计算当前网络流的网络流属性特征；

步骤S103，使用不同的网络流类型的特征条件概率模型对所述当前网络流的对应网络流属性特征进行计算，得到多个关于不同的网络流类型的当前特征条件概率；

步骤S104，使用相同网络流类型的多个所述当前特征条件概率计算当前网络流关于该网络流类型的当前类型条件概率；

步骤S105，根据所述当前类型条件概率对当前网络流进行识别，得到识别结果。

具体来说，网络中存在多种流量，比如视频流、音频流、文本流等等，这些不同类型的流量具有不同的应用场景、用户QoS服务需求以及安全需求。因此，不同类型的流量具有不同的统计特性以及行为特征。根据上述分析可知，网络流量识别具有现实意义。针对本发明所要解决的网络流量识别问题，将网络中的流量分为s类，其集合可表示为K＝{K₁,K₂,...,K_S}。

对于某一网络流x以及网络流类别K_i，根据贝叶斯定理，此网络流x属于类别K_i的条件概率如下式所示

其中P(K_i)为K_i的先验概率，即K_i占整个网络流总量的比重。P(x|K_i)表示类别为K_i时，网络流为x的条件概率。P(x)为归一化常数，即网络流x的边际概率。

接下来考虑网络流的属性特征向量，首先要选择网络流的特征属性。特征属性的选择对于网络分类模型的分类精度影响巨大，准确地选择特征属性不仅可以提升模型的泛化能力，而且能够加快模型收敛速度，提升分类精度。

本发明选取三种属性特征，主要有Hurst参数、数据包大小属性以及数据包间隔时间属性。本发明对这三种参数进行分析。数据包大小不仅能够反映网络业务自身的协议特征，而且也同业务的传输以及交互模式息息相关。数据包主要由数据部分和数据包头组成，因此数据包大小是数据部分的大小与数据包头大小的和。

某一网络流中K_i类型的数据包期望大小为：

其中ψ表示某一时间尺度内K_i中数据包的总数，

表示K_i中第x个数据包的大小。

数据包大小的方差值量化式为：

数据包间隔时间是网络流的重要特征，当数据包期望间隔时间较小时，网络负载较高，此时网络资源利用率高，但同时可能会导致局部网络拥塞发生。当数据包期望间隔较大时，网络负载低，此时网络资源相对充足，不会发生网络拥塞等现象。Hurst参数作为衡量网络流量特征最重要的参数，在网络流量分类中具有举足轻重的地位。

网络流x的属性特征向量可表示为(ν₁,ν₂,....,ν_λ)^T，因此可将公式(1)分解为：

通过相应手段可使网络流量属性特征满足贝叶斯分类假设，即将各个属性特征向量独立化，则网络流x属于类K_i的条件概率满足下式。

则可将公式(2)进一步表示为

其中，P(K_i)为K_i类别业务流占网络中总网络流的比例，可通过统计得到，并随着时间的推移动态更新。

因此，步骤S101计算每一个网络流类型用于计算P(ν_j|K_i)的模型参数，然后步骤S102接收到当前网络流后，计算对应的每一个网络流属性特征，然后步骤S103使用每个P(ν_j|K_i)的模型参数来计算当前网络流的当前特征条件概率P(ν_j|K_i)后，执行步骤S104，代入公式(3)得到当前网络流的P(K_i|ν₁,ν₂,...,ν_λ)。最后执行步骤S105进行识别。

本发明通过对网络流动态行为特征进行量化描述，然后建立识别模型进行识别，该方法能够适应网络流量动态变化的情况，并且对网络流量的高突发性能够进行准确感知。

实施例二

如图2所示为本发明一实施例提供的一种网络流识别方法的工作流程图，包括：

步骤S201，计算每个训练网络流的多个网络流属性特征，所述网络流属性特征包括Hurst参数、数据包大小属性以及数据包间隔时间属性；

步骤S202，接收到当前网络流，计算当前网络流的网络流属性特征；

本实施例采用时间方差图法对网络流量的Hurst参数进行评估。具有长相关特性的网络流量的Hurst参数值在[0.5,1]之间，使得其在统计意义上具有慢衰减特性。假设在某一大时间尺度M内，n+1个某特定类型S_i的网络流量数据包到达节点θ，即在时间尺度M内，S_i类型的数据包到达间隔时间样本总数为n。当n趋于无穷大时，其间隔时间样本大小的倒数

大于样本方差的衰减速度，且样本方差衰减速度与n^-β成正比关系。其中0＜β＜1。因此，可得下式：

var(X⁽ⁿ⁾)＝an^-β

其中a为常值因子，其值为常数，与n无关，此时Hurst参数与β满足下式H＝1-β/2。

因此，计算训练网络流或当前网络流的Hurst参数的方法为：

数据块大小参数值设置步骤，设置数据块大小参数值n；

其中N为训练网络流或当前网络流的数据块的总数量；

步骤S203，使用不同的网络流类型的特征条件概率模型对所述当前网络流的对应网络流属性特征进行计算，得到多个关于不同的网络流类型的当前特征条件概率；

具体来说，计算当前网络流ω_new关于第i个网络流类型K_i的第j个网络流属性特征ν_j的当前特征条件概率

步骤S204，使用相同网络流类型的多个所述当前特征条件概率计算当前网络流关于该网络流类型的当前类型条件概率；

具体来说，使用公式(3)将各当前特征条件概率代入后计算得到多个网络流类型的当前类型条件概率。

步骤S205，从多个所述当前类型条件概率中选择最大的当前类型条件概率作为待选类型条件概率，将所述待选类型条件概率对应的网络流类型作为待选网络流类型；

步骤S206，如果所述待选类型条件概率大于预设概率阈值，则执行步骤S207，否则执行步骤S208；

步骤S207，判断所述当前网络流的类型为所述待选类型条件概率对应的网络流类型，且如果用于计算所述待选网络流类型对应的特征条件概率模型的训练网络流的数量小于预设训练数量，则使用所述当前网络流的对应网络流属性特征更新所述待选网络流类型对应的特征条件概率模型，如果用于计算所述待选网络流类型对应的特征条件概率模型的训练网络流的数量大于预设训练数量，则结束流程；

步骤S208，判断所述当前网络流的类型为新类型，使用所述当前网络流的对应网络流属性特征计算所述新类型对应的特征条件概率模型。

对于新类型，此时只有一个网络流，计算此网络流中所有数据包的Hurst参数、数据包大小属性以及数据包间隔时间属性，作为新类型的网络流属性特征。此后，若有此新类型的数据流到达，则更新其类型的网络流属性特征，即将到达属于此新类型的网络流和原先属于新类型的网络流综合起来，计算此类型的各网络流属性特征。持续上述过程，当参与更新此种类型的各网络流属性特征的网络流达到预设训练数量后，其后到达的属于此类型的网络流不再参与更新过程。

实施例三

如图3所示为本发明另一实施例提供的一种网络流识别方法的工作流程图，包括：

步骤S301，计算每个训练网络流的多个网络流属性特征，所述网络流属性特征包括Hurst参数、数据包大小属性以及数据包间隔时间属性；

步骤S302，接收到当前网络流，计算当前网络流的网络流属性特征；

步骤S303，使用不同的网络流类型的特征条件概率模型对所述当前网络流的对应网络流属性特征进行计算，得到多个关于不同的网络流类型的当前特征条件概率；

步骤S304，使用相同网络流类型的多个所述当前特征条件概率，计算当前网络流关于该网络流类型的当前类型条件概率；

步骤S305，从多个所述当前类型条件概率中选择最大的当前类型条件概率作为待选类型条件概率；

步骤S306，判断所述当前网络流中所述待选类型条件概率对应的网络流类型的占比最高。

由于在某一时刻到达某一节点的业务流可能是几种流量的混合，将其混合业务流表示为MIX，其中，MIX＝{x₁,x₂,...,x_n}，x_i为此混合流中的某一种流量。

具体来说，计算当前网络流MIX关于第i个网络流类型K_i的第j个网络流属性特征ν_j的当前特征条件概率

然后根据公式(3)计算得到多个网络流类型的当前类型条件概率，判断所述当前网络流中所述待选类型条件概率对应的网络流类型的占比最高。

实施例四

如图4所示为本发明一种电子设备的硬件结构示意图，包括：

至少一个处理器401；以及，

与所述至少一个处理器401通信连接的存储器402；其中，

所述存储器402存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器401执行，以使所述至少一个处理器401能够：

接收到当前网络流，计算当前网络流的网络流属性特征；

使用相同网络流类型的多个所述当前特征条件概率，计算当前网络流关于该网络流类型的当前类型条件概率；

图4中以一个处理器401为例。

电子设备还可以包括：输入装置403和显示装置404。

处理器401、存储器402、输入装置403及显示装置404可以通过总线或者其他方式连接，图中以通过总线连接为例。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的网络流识别方法对应的程序指令/模块，例如，图1、图2、图3所示的方法流程。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，即实现上述实施例中的网络流识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据网络流识别方法的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至执行网络流识别方法的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置403可接收输入的用户点击，以及产生与网络流识别方法的用户设置以及功能控制有关的信号输入。显示装置404可包括显示屏等显示设备。

在所述一个或者多个模块存储在所述存储器402中，当被所述一个或者多个处理器401运行时，执行上述任意方法实施例中的网络流识别方法。

实施例五

本发明一实施例提供的一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

计算每个训练网络流的多个网络流属性特征，所述网络流属性特征包括Hurst参数、数据包大小属性以及数据包间隔时间属性；

接收到当前网络流，计算当前网络流的网络流属性特征；

计算训练网络流或当前网络流的Hurst参数的方法为：

数据块大小参数值设置步骤，设置数据块大小参数值n；

其中N为训练网络流或当前网络流的数据块的总数量；

如果所述待选类型条件概率大于预设概率阈值，则判断所述当前网络流的类型为所述待选类型条件概率对应的网络流类型，且如果用于计算所述待选网络流类型对应的特征条件概率模型的训练网络流的数量小于预设训练数量，则使用所述当前网络流的对应网络流属性特征更新所述待选网络流类型对应的特征条件概率模型；

实施例六

本发明另一实施例提供的一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

接收到当前网络流，计算当前网络流的网络流属性特征；

从多个所述当前类型条件概率中选择最大的当前类型条件概率作为待选类型条件概率；

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。