CN110650058B

CN110650058B - 一种网络流量分析方法、装置、存储介质及设备

Info

Publication number: CN110650058B
Application number: CN201910949502.1A
Authority: CN
Inventors: 丁琦; 梁松涛; 李鑫; 卫志刚; 李顶占; 李旭升; 陈允; 刘金辉; 杨振赢; 张珂飞
Original assignee: Henan Yun'an Big Data Security Protection Industry Technology Research Institute Co ltd
Current assignee: Zhengzhou Xinda Jiean Information Technology Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2022-03-04
Anticipated expiration: 2039-10-08
Also published as: CN110650058A

Abstract

本发明提供一种网络流量分析方法、装置、存储介质及设备。本发明技术方案首先基于流量时间序列数据之间的距离的计算，对流量时间序列数据进行聚类，并根据聚类结果，衡量时间序列的各个特征在聚类得到的各个类别中的分布的重叠程度，然后选择重叠程度较低的特征组成分析特征集，再利用分析特征集对流量时间序列数据提取特征并进行网络流量分析。与现有技术中的方案相比，本发明的技术方案具有特征选择更客观、分析结果可靠性高的优点。本发明技术方案可用于网络流量分类、预测、异常检测等，通用性强，用途广泛。

Description

一种网络流量分析方法、装置、存储介质及设备

技术领域

本发明涉及网络安全和数据处理技术领域，具体涉及一种网络流量分析方法、装置、存储介质及设备。

背景技术

网络流量分析对于网络资源的优化配置和网络的安全应用具有重要意义。实时、准确的网络流量分析，可以为网络的正常、稳定和可靠运行提供保障。

对于流量时间序列数据进行分析，是网络流量分析的重要手段。流量时间序列数据分析，一方面可以直接对原始时间序列进行分析，另一方面，更多的分析方法是针对原始时间序列提取出一些特征，并利用提取出的特征做进一步的数据分析。在使用特征进行分析的情况下，特征的选择对分析结果往往有很大的影响。然而，网络流量分析往往是在无监督学习环境下，特征的选择没有先验知识的指导，对特征的价值的评价有较大的不确定性，得到的结果也常常难以解释和验证。

现有技术中的无监督环境下特征选择方法，大多是直接对待选特征进行聚类，再从中选出有代表性的特征。对于流量时间序列数据分析来说，这样只从特征本身来考虑，就忽略了原始时间序列的重要参考价值，对特征的价值评价的客观性不足，从而会影响到流量分析的结果。而以原始时间序列为参考，筛选用于网络流量分析的特征，则可使特征的选择更具客观性，使流量分析结果更可靠。

发明内容

本发明的目的是针对网络流量分析，提供一种网络流量分析方法、装置、存储介质及设备，通过时间序列原始数据衡量特征的价值，筛选特征并进一步进行网络流量分析，以提高网络流量分析的可靠性。

为了实现上述目的，本发明技术方案提供一种网络流量分析方法，所述方法包括以下步骤：

S1、获取不同时间段和/或不同空间和/或不同地址和/或不同业务的多个流量时间序列数据；

S2、基于所述多个流量时间序列数据之间的距离的计算，对所述多个流量时间序列数据进行聚类；

S3、根据对所述多个流量时间序列数据聚类的结果，从时间序列待选特征集中筛选出一项或多项特征，组成分析特征集；其中筛选特征的原则是，通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度，选择所述重叠程度较低的特征；

S4、根据所述分析特征集，对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测。

基于上述，所述的对所述多个流量时间序列数据进行聚类，包括：使用划分聚类方法或者层次聚类方法，对所述多个流量时间序列数据进行聚类。

基于上述，步骤S3具体为：

针对所述时间序列待选特征集中的每项特征F_k，计算所述多个流量时间序列数据的特征值或者特征向量，其中k＝1,…,M；M是所述时间序列待选特征集中特征的项数；

根据对所述多个流量时间序列数据聚类的结果，假设聚类得到N个类别，对于所述每项特征F_k：

如果F_k的取值为离散型，则分别计算在聚类得到的每个类别中，F_k的概率函数P_ki(x)(x＝x1,x2,x3,……)，i＝1,…,N；对于P_k1(x),…,P_kN(x)，求其两两之间的差的绝对值并相对于x的所有取值求和，再将所有和值相加，得到

其中x＝x1,x2,x3,……；

如果F_k的取值为连续型，则分别计算在聚类得到的每个类别中，F_k的概率密度函数f_ki(x)；对于f_k1(x),…,f_kN(x)，求其两两之间的差的绝对值的积分，再将所有积分值相加，得到

然后取G_k值最大的一项或多项特征，组成分析特征集。

基于上述，所述的对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测，包括：对流量时间序列数据提取特征，然后使用统计分析或者机器学习的方法，进行网络流量的分类和/或预测和/或异常检测。

基于上述，所述时间序列待选特征集中的特征，包括时域统计特征、变换域统计特征、模型特征、分形特征中的一类或者多类特征。

基于上述，所述距离包括欧几里得距离、闵科夫斯基距离、曼哈顿距离、切比雪夫距离、夹角余弦相似度、皮尔逊相关系数、马氏距离、汉明距离、弗雷歇距离、杰卡德相似度、相关距离、幂距离中的一种或者多种。

基于上述，所述划分聚类方法包括K均值聚类算法、K中心点聚类算法、K中值聚类算法、K众数聚类算法中的一种或者多种。

本发明的技术方案还提供一种网络流量分析装置，所述装置包括：数据获取模块、聚类模块、特征选择模块、分析模块，其中所述聚类模块分别与所述数据获取模块和所述特征选择模块连接，所述分析模块分别与所述特征选择模块和所述数据获取模块连接；

所述数据获取模块用于获取不同时间段和/或不同空间和/或不同地址和/或不同业务的多个流量时间序列数据；

所述聚类模块用于基于所述流量时间序列数据之间的距离的计算，对所述数据获取模块获取的所述多个流量时间序列数据进行聚类；

所述特征选择模块用于根据所述聚类模块对所述多个流量时间序列数据聚类的结果，从时间序列待选特征集中筛选出一项或多项特征，组成分析特征集；其中筛选特征的原则是，通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度，选择所述重叠程度较低的特征；

所述分析模块用于根据所述特征选择模块选择出的所述分析特征集，对所述数据获取模块获取到的流量时间序列数据，提取特征并进行网络流量的分类和/或预测和/或异常检测。

本发明的技术方案还提供一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的网络流量分析方法。

本发明的技术方案还提供一种网络流量分析设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的网络流量分析方法。

本发明的技术方案通过对流量时间序列数据进行聚类，并根据聚类结果，衡量特征在聚类得到的各个类别中的分布的重叠程度，选择重叠程度较低的特征组成分析特征集，进行网络流量分析。与现有技术中的方案相比，本发明的技术方案具有特征选择更客观、分析结果可靠性高的优点。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体地说：

1.本发明技术方案在筛选用于网络流量分析的特征时，以流量的原始时间序列数据为参考，通过流量时间序列数据聚类的结果，衡量特征对于数据区分或者分析的价值，筛选用于网络流量分析的特征，可以使特征的选择更客观有效，从而提高流量分析结果的可靠性。

2.本发明技术方案适用于网络流量分析的各个方面，例如可用于网络流量分类、预测、异常检测等各种目的，通用性强，用途广泛。

3.本发明技术方案中还给出了衡量特征在聚类得到的各个类别中的分布的重叠程度的一种度量方法的具体例子，该度量方法通过特征分布的概率函数或者概率密度来衡量特征的区分度，比现有技术中常用的重叠区域的衡量方法更精确有效，更有利于得到较好的特征选择结果。

附图说明

图1是根据本发明一个实施例的一种网络流量分析方法的示意图。

图2是根据本发明另一个实施例的一种网络流量分析装置的结构示意图。

具体实施方式

本发明实施例提供了一种网络流量分析方法，如图1所示，所述方法包括以下步骤：

通常情况下，以时间、空间、IP地址或者业务等区分获取到的大量流量时间序列数据。最终得到的各个不同的流量时间序列，通常具有相同的时间长度或者序列长度。如果有长度不等的情况，可以用动态时间归整(Dynamic Time Warping，DTW)等方法进行预处理。

根据本发明的一个具体实施方式，所述的对所述多个流量时间序列数据进行聚类，包括但不限于，使用划分聚类方法或者层次聚类方法，对所述流量时间序列数据进行聚类。基于距离的聚类方法主要包括划分聚类方法、层次聚类方法，不排除其他聚类方法。划分聚类方法包括K均值(k-means)聚类算法、K中心点(k-medoids)聚类算法、k中值(k-medians)、K众数(k-modes)算法等等。

根据本发明的一个具体实施方式，所述距离包括但不限于欧几里得距离、闵科夫斯基距离、曼哈顿距离、切比雪夫距离、夹角余弦相似度、皮尔逊相关系数、马氏距离、汉明距离、弗雷歇距离、杰卡德相似度、相关距离、幂距离等等。可以单独使用一种距离，也可以将两种或者两种以上的距离结合使用。

S3、根据对多个所述流量时间序列数据聚类的结果，从时间序列待选特征集中筛选出一项或多项特征，组成分析特征集；其中筛选特征的原则是，通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度，选择所述重叠程度较低的特征；

根据本发明的一个具体实施方式，所述时间序列待选特征集中的特征，包括但不限于时域统计特征、变换域统计特征、模型特征、分形特征中的一类或者多类特征。

时域统计特征包括但不限于均值、方差、极值、峰值、过零点、边界点、偏度、峰度、自相关系数、相对熵、样本熵、季节性指标、趋势性指标、李雅普诺夫系数等。

变换域统计特征是指对时间序列进行时频变换、线性变换等变换后，得到的统计特征。时频变换包括傅立叶变换、短时傅立叶变换、小波变换、离散余弦变换等，线性变换包括主分量分析、独立分量分析、奇异值分解、线性判别分析、KL变换等。变换域统计特征包括频谱密度、功率谱、倒谱系数、小波系数等等，以及变换得到的其他各种特征参数。

模型特征是指用模型去刻画时间序列，提取模型系数作为特征。常用的模型有滑动平均模型(MA)、自回归模型(AR)、自回归滑动平均模型(ARMA)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)等等。

分形特征是指根据分形理论提取的特征，如分形维数等。

根据本发明的一个具体实施方式，首先针对所述时间序列待选特征集中的每项特征F_k，计算所述多个流量时间序列数据的特征值或者特征向量，其中k＝1,…,M；M是所述时间序列待选特征集中特征的项数；

其中x＝x1,x2,x3,……；

然后取G_k值最大的一项或多项特征，组成分析特征集。

在该具体实施方式中，提出了一种衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度的度量方法，即根据特征值或者特征向量在聚类得到的各个类别中的分布的概率函数或者概率密度函数，首先求特征在不同类别中概率函数或者概率密度函数的差距或者距离，这里用概率函数或者概率密度函数差的绝对值的和值或者积分来表示。这里只是给出了一种度量方法，用其他方法，如欧几里得距离等各种距离来度量，都是可以的。特征在不同类别中的分布越接近，则得到的和值或者积分值越小。用求和得到的G_k来度量特征在所有类别中分布的总体差距。特征在所有类别中的分布越接近，总体差距越小。总体差距越小，说明特征对于区分各个类别的价值越小，作用越小，所以在特性选择时，要选择G_k值最大的一项或多项特征，才能更好地区分各个类别。

在衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度时，所使用的特征在各个类别中的概率函数或者概率密度函数，是对所述多个流量时间序列数据聚类的结果进行概率统计计算得到的。

例如，假设某项特征F_k取值为离散型，有L个可能的取值即x1,x2,……,xL；在聚类得到的第i个类别中(i＝1,…,N)共有T个样本，即有T个时间序列数据，T个样本中其特征值等于x1,x2,……,xL的样本数量分别为S1,S2,……,SL，则F_k在第i个类别中的概率函数为P_ki(x＝x1)＝S1/T，P_ki(x＝x2)＝S2/T,……,P_ki(x＝xL)＝SL/T。假设某项特征F_k是特征向量，有L个可能的取值向量即x1,x2,……，则F_k在第i个类别中的概率函数与上述计算同理可得。

例如，假设某项特征F_k取值为连续型，则可将其取值区间分为L个小区间A1,A2,……,AL，(0<L<∞)，在聚类得到的第i个类别中(i＝1,…,N)共有T个样本，即有T个时间序列数据，分别统计T个样本中其特征值落在L个区间A1,A2,……,AL的样本数量S1,S2,……,SL，然后用(S1/T,S2/T,……,SL/T)近似表示F_k在第i个类别中的概率密度函数f_ki(x)。假设某项特征F_k是特征向量，则可将其取值空间分为L个小的子空区间A1,A2,……,AL，分别统计T个样本中其特征向量落在L个子空间A1,A2,……,AL的样本数量S1,S2,……,SL，则F_k在第i个类别中的概率密度函数与上述计算同理可得。

为了更准确地获得上述概率函数或者概率密度函数，也可以用不同时间序列数据进行多次聚类，或者以不同聚类算法进行多次聚类，然后求概率函数或者概率密度函数，再将结果进行平均或者加权平均。

上述具体实施方式中只是给出了一种衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度，并进行特征选择的方法；还可使用其他多种类似方法来进行重叠程度衡量和特征选择。

根据本发明的一个具体实施方式，所述的对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测，包括：对流量时间序列数据提取特征，然后使用统计分析或者机器学习的方法，进行网络流量的分类和/或预测和/或异常检测。

网络流量的分类、预测、异常检测是常见的网络流量分析的目标。网络流量分类是指将网络流量按网络应用类型、协议类型等进行分类。通过网络流量分类可以有效处理多种网络安全问题。网络流量预测在网络规划、流量管理等方面起着重要的作用。网络流量异常是指网络流量行为偏离其正常行为的情形。网络流量异常检测可以实现网络监测预警功能，有助于提高网络性能。

统计分析方法包括回归分析、聚类分析、因子分析、相关分析、对应分析、方差分析、假设检验等等；机器学习算法包括回归算法、聚类算法、降维算法、支持向量机、神经网络等多类算法。统计分析与机器学习方法有很多重叠。

基于与上述方法同样的发明构思，本发明另一个实施例中还提供了一种网络流量分析装置，如图2所示，所述装置包括：数据获取模块、聚类模块、特征选择模块、分析模块，其中所述聚类模块分别与所述数据获取模块和所述特征选择模块连接，所述分析模块分别与所述特征选择模块和所述数据获取模块连接；

基于与上述方法同样的发明构思，本发明另一个实施例中还提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现前述实施例中的网络流量分析方法。

基于与上述方法同样的发明构思，本发明另一个实施例中还提供了一种网络流量分析设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现前述实施例中的网络流量分析方法。

上述步骤标号并不代表先后顺序，本领域技术人员能够对上述顺序进行变换而并不离开本发明的保护范围。以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种网络流量分析方法，其特征在于，包括以下步骤：

步骤S3具体为：

针对所述时间序列待选特征集中的每项特征F_k，计算所述多个流量时间序列数据的特征值或者特征向量，其中k=1,…,M；M是所述时间序列待选特征集中特征的项数；

如果F_k的取值为离散型，则分别计算在聚类得到的每个类别中，F_k的概率函数P_ki(x)（x=x1,x2,x3,……），i=1,…,N；对于P_k1(x),…,P_kN(x)，求其两两之间的差的绝对值并相对于x的所有取值求和，再将所有和值相加，得到

，其中x=x1,x2,x3,……；

；

然后取G_k值最大的一项或多项特征，组成分析特征集；

2.根据权利要求1所述的网络流量分析方法，其特征在于，所述的对所述多个流量时间序列数据进行聚类，包括：使用划分聚类方法或者层次聚类方法，对所述多个流量时间序列数据进行聚类。

3.根据权利要求1所述的网络流量分析方法，其特征在于，所述的对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测，包括：对流量时间序列数据提取特征，然后使用统计分析或者机器学习的方法，进行网络流量的分类和/或预测和/或异常检测。

4.根据权利要求1所述的网络流量分析方法，其特征在于，所述时间序列待选特征集中的特征，包括时域统计特征、变换域统计特征、模型特征、分形特征中的一类或者多类特征。

5.根据权利要求1所述的网络流量分析方法，其特征在于，所述距离包括欧几里得距离、闵科夫斯基距离、曼哈顿距离、切比雪夫距离、夹角余弦相似度、皮尔逊相关系数、马氏距离、汉明距离、弗雷歇距离、杰卡德相似度、相关距离、幂距离中的一种或者多种。

6.根据权利要求2所述的网络流量分析方法，其特征在于，所述划分聚类方法包括K均值聚类算法、K中心点聚类算法、K中值聚类算法、K众数聚类算法中的一种或者多种。

7.一种网络流量分析装置，其特征在于，所述装置包括：数据获取模块、聚类模块、特征选择模块、分析模块，其中所述聚类模块分别与所述数据获取模块和所述特征选择模块连接，所述分析模块分别与所述特征选择模块和所述数据获取模块连接；

所述分析模块用于根据所述特征选择模块选择出的所述分析特征集，对所述数据获取模块获取到的流量时间序列数据，提取特征并进行网络流量的分类和/或预测和/或异常检测；

所述聚类模块还用于针对所述时间序列待选特征集中的每项特征F_k，计算所述多个流量时间序列数据的特征值或者特征向量，其中k=1,…,M；M是所述时间序列待选特征集中特征的项数；

所述特征选择模块还用于根据对所述多个流量时间序列数据聚类的结果，假设聚类得到N个类别，对于所述每项特征F_k：

，其中x=x1,x2,x3,……；

；

然后取G_k值最大的一项或多项特征，组成分析特征集。

8.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至6中任一项权利要求所述的网络流量分析方法。

9.一种网络流量分析设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6中任一项权利要求所述的网络流量分析方法。