CN109002856A

CN109002856A - 一种基于随机游走的流量特征自动生成方法与系统

Info

Publication number: CN109002856A
Application number: CN201810803376.4A
Authority: CN
Inventors: 陶敬; 王平辉; 曹宇; 郑宁; 潜禹桥; 孙立远; 柳哲; 林杰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2018-12-14
Anticipated expiration: 2038-07-20
Also published as: CN109002856B

Abstract

本发明提供一种基于随机游走的流量特征自动生成方法与系统，通过对由流量内容生成的有向图进行分析，以随机游走方式遍历有向图，依据节点间的转移概率，提取多级流量特征，包括流量有向图构建、流量内容特征生成和流量结构特征生成等。以输入的网络流量数据构建规模化有向图，以多级随机游走方式挖掘出流量中隐含的特征。本发明可用于流量特征的提取以及恶意流量检测。

Description

一种基于随机游走的流量特征自动生成方法与系统

技术领域

本发明属于特征挖掘技术领域，特别涉及一种基于随机游走的流量特征自动生成方法与系统。

背景技术

随着互联网技术的应用与发展，互联网用户越来越多，且人均每天花费在互联网中的时间也与日俱增。据不完全统计，互联网用户人均每天上网近两小时，流量开销至少200M。因此，网络流量数据的规模及其巨大，其蕴含的信息量和价值也是众所周知，网络安全一直是计算机领域的软肋，网络攻击事件层出不穷。仅2017年上半年，发生的大规模网络攻击(包含信息泄露)事件超过十五起，受影响用户超过一亿，涉事机构超百家，泄露敏感数据数千G。但就目前为止，能够较好检测和防御网络攻击的方法，仍旧是基于网络流量恶意特征识别的方法。同时，恶意流量特征的生成一般是基于专家经验的手工生成以及提取最长最大公共子串方式。

同时，人们对于移动互联网设备的依赖性越来越严重，平均每人每天花费在移动电子设备上的时间超过3小时，而花费智能手机上的时间占了将近两个小时。而对于智能手机的使用情况进行分析，发现用户们对于手机的使用，主要集中在了对于智能手机中安装的APP的使用。而手机APP的种类繁多，目前用户常用的APP数量，就超过了10万个。这些APP所对应的属性，比如金融证券、聊天社交、摄影摄像等，在某种程度上，就反映着用户的个人属性。例如，经常使用金融证券的用户身份，很有可能就是证券经理、个人或企业投资者。那么，基于上述的可能性，如果能对可靠地用户APP使用行为进行分析画像，就能得到具有较高可信度的用户描述。但是，用户的APP使用行为属于用户隐私，常规方法无法获取大量的可靠用户APP使用行为样本。不过对于移动数据供应商而言，可以获取到用户的流量数据。如果，能从用户的移动设备流量中，识别出用户所使用的APP，则对于获取可靠的用户APP使用行为就成为了可能。

综上所述，流量特征对于当前诸多基于流量特征识别问题的解决，具有决定性作用。目前已经有一些方法来自动提取流量的识别特征了。其中一类是根据包字段作为流量特征的，包含IP地址、端口号、协议类型等。后来衍生除了深度包检测(DPI)方法提取流量指纹，提取包内容特征字符串。以及当前业界主流的最长最大公共子序列提取方法。但这些方法都有各自的局限性：

1、基于包字段的特征提取方法：当前的流量协议类型、端口号等常用字段都集中于常用的几种类型，包字段已经不再具有区分度，无法作为流量特征。

2、基于深度包检测的流量指纹提取方法：对流量格式有限制，无法通用化地提取所有类型的流量特征。

3、基于最长最大公共子序列提取方法：只能提取流量内容特征，在损失了精度的情况下，换取较低的误报率。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于随机游走的流量特征自动生成方法与系统，对输入的流量数据没有任何限制，可以适用于不同类型的流量特征生成；另外，采用多级有向图构建和随机游走方式，生成流量内容特征和结构特征，在低误报率的前提下，提高特征识别的精度。

为了实现上述目的，本发明采用的技术方案是：

一种基于随机游走的流量特征自动生成方法，其特征在于，包括：

S1，有向图表征流量：将流量内容，以单字节的十六进制数值作为节点所代表的内容，以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向，以节点间的转移次数作为有向边的权重，构建流量内容有向图，表征流量；

S2，基于随机游走算法挖掘内容特征：以计算节点之间的转移概率，对流量内容有向图进行归一化处理，使用随机游走方式遍历有向图，挖掘图中隐含模式，以阈值、步长以及内容比对形式，对挖掘生成的隐含模式进行筛选过滤，得到满足条件的隐含模式。还原成流量内容信息后的模式(节点内容按照节点的转移次序，顺序拼接，还原流量内容信息)，即流量内容特征；

S3，生成未知特征组合结构：利用生成的流量内容特征，以会话流分类流量，在流量数据包中出现了的内容特征作为有向图中节点，内容特征在数据包内出现的前后次序作为有节点间向边的方向，以节点间的转移次数作为有向边的权重，构建包间内容特征有向图，计算节点转移概率后，再次使用随机游走方法挖掘图中隐含模式，以阈值、步长以及内容比对形式，对挖掘生成的隐含模式进行筛选过滤，得到满足条件的隐含模式，在还原成流量的结构信息后(节点内容按照节点的转移次序，顺序拼接，还原成流量的结构信息)，即流量的结构特征。

对于一组同种传输层协议类型的流量，其传输层负载内容部分存在相同的公共子集。这些公共子集出现的频率越大，越能够良好地表征此类流量的内容。对应于本发明，公共子集映射为流量内容有向图中的转移路径，频率映射为有向图中的节点转移概率。当负载内容公共子集出现的频率越大时，其在流量内容有向图中的转移概率越大。因此本发明的内容特征生成方法，能够有效地提取出流量负载部分的内容特征。

对于特定类别的流量，当流量负载具备某一特定结构时，才能唯一表征此类别。例如：攻击流量序列1中包含A---X---B三个内容特征，攻击流量序列2中包含A---Y---B三个内容特征，两个序列具备相同的流量结构：A～B。当此结构存在时，才能唯一表征该类流量，单独存在A或B时，无法有效表征。本方法基于上述事实情况，将生成得到的流量内容特征(A、B)构建流量内容特征有向图，以随机游走方式挖掘该图中隐含的模式，即流量内容特征序列，此序列将构成流量的结构特征。

所述步骤S2中，以计算节点之间的转移概率，对流量内容有向图进行归一化处理，使用随机游走方式挖掘图中隐含模式，具体过程是：根据转移概率公式，计算任意两节点间的转移概率，对图中的有向边权重进行归一化，随机选取图中的节点作为起始节点和转移方向，根据当前节点到下一节点的转移概率大小是否满足阈值条件，来决定是否进行转移，进而挖掘图中的有效转移路径，即所谓的隐含模式。

对步骤S2中所述的隐含模式，将节点内容按照节点间的转移次序，顺序拼接，还原成流量内容信息后，以包括转移概率阈值、转移步长阈值以及内容信息出现的频率阈值在内的判断条件，对内容信息进行筛选过滤，满足条件的即为流量内容特征。

所述步骤S2中计算转移概率，使用转移概率公式:计算节点间的转移概率，其中，P_A→B为节点A→B的转移概率，W_A→B为A→B有向边的权重，∑W_A→i为所有以A为起点的有向边权重之和。

本发明还提供了一种基于随机游走的流量特征自动生成系统，包括：

有向图构建子系统，用于生成流量内容有向图；包括预处理模块和图绘制模块，预处理模块将待提取特征的流量，逐个流量数据包记录五元组和负载信息，图绘制模块，将流量数据包的负载内容，以单字节的十六进制数值为节点所代表的内容，以单字节十六进制值在流量负载内容中的前后排列次序作为节点间有向边方向，以节点间的转移次数作为有向边的权重，构建流量内容有向图，表征流量；

内容特征生成子系统，用于生成流量内容特征；对流量内容有向图计算节点间的转移概率，依概率挖掘有向图隐含模式模式，以阈值、步长以及内容比对形式，对挖掘生成的隐含模式进行筛选过滤，得到满足条件的隐含模式，还原成流量内容信息后的模式，即流量内容特征。

结构特征生成子系统，利用生成得到的流量内容特征，进一步挖掘更加精准的流量结构特征，使特征在保证低误报率的前提下，能拥有更高的精度；利用生成的流量内容特征，以会话流分类流量，在流量数据包中出现了的内容特征作为有向图中节点，内容特征在数据包内出现的前后次序作为有节点间向边的方向，以节点间的转移次数作为有向边的权重，构建包间内容特征有向图，计算节点转移概率后，再次使用随机游走方法挖掘图中隐含模式，以阈值、步长以及内容比对形式，对挖掘生成的隐含模式进行筛选过滤，得到满足条件的隐含模式，在还原成流量的结构信息后，即流量结构特征。

所述预处理模块将待提取特征的流量，逐一解析流量数据包，并记录数据包的五元组和负载信息，得到初始流量数据。

具体地，所述预处理模块将待提取特征的流量中的每一个数据包提取五元组信息及其IP层负载部分，构建一种“键值对”字典数据结构，键为五元组信息，值为IP层负载内容，该结构即构成了图绘制模块的输入数据部分；

所述图绘制模块，对初始流量数据中的流量数据包负载部分，分别构建每一个流量数据包所对应的内容有向图和每一个会话流数据包所对应的结构有向图。

所述图绘制模块构建流量内容有向图的过程：逐一抽取预处理模块输出的字典结构中的键值对，将值中存储的流量数据包IP层负载内容信息逐字节切分，以单字节的十六进制数值为节点所代表的内容，以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向，以节点间的转移次数作为有向边的权重，构建流量内容有向图，表征流量；

所述图绘制模块构建流量结构有向图的过程：将预处理模块输出的字典结构中的键值对，按照键的不同，进行分类，具有相同键的，则表明是具有相同五元组信息的流量数据包，即属于同一会话流，以在具有相同键所对应的值中出现的内容特征作为有向图的节点所代表的内容，以内容特征在值中出现的前后次序作为有向边方向，以节点间的转移次数作为有向边的权重，构建流量结构有向图，表征流量。

所述内容特征生成子系统中，计算流量内容有向图中节点间的转移概率，对图进行归一化。随机游走方式，遍历内容有向图并挖掘隐含模式，根据转移概率阈值条件、转移步长以及内容复现频率等条件，对隐含模式进行筛选过滤，满足条件的隐含模式，经过还原后，即可得到流量内容特征。

具体地，根据转移概率公式:计算节点间的转移概率。其中，P_A→B为节点A→B的转移概率，W_A→B为A→B有向边的权重，∑W_A→i为所有以A为起点的有向边权重之和。进而，对有向图进行归一化。随机选取图中任意节点作为初始节点，以初始节点作为源节点的任意有向边的方向作为初始方向，进行图中节点的路径转移遍历。转移条件为节点间移概率大于转移概率阈值。转移的终止条件为，转移路径上的最后一个节点的所有转移概率均小于转移概率阈值、节点内容和转移方向所构成的内容序列不是流量负载内容的子集、内容序列的长度大于长度阈值等条件中的一种或者多种。最终，图中所有满足转移条件和终止条件的节点转移路径，就是图的隐含模式。节点所代表的内容，按照节点转移的前后次序，所构成的内容序列，即为流量的内容特征。

所述结构特征生成子系统，计算流量结构有向图中节点间的转移概率，对图进行归一化。随机游走方式，遍历结构有向图并挖掘隐含模式，根据转移概率阈值条件、转移步长以及结构复现频率等条件，对隐含模式进行筛选过滤，满足条件的隐含模式，经过还原后，即可得到流量结构特征。

具体地，根据转移概率公式:计算节点间的转移概率。其中，P_A→B为节点A→B的转移概率，W_A→B为A→B有向边的权重，∑W_A→i为所有以A为起点的有向边权重之和。进而，对有向图进行归一化。随机游走方式遍历有向图，挖掘图中隐含模式，得到流量内容特征。随机选取图中任意节点作为初始节点，以初始节点作为源节点的任意有向边的方向作为初始方向，进行图中节点的路径转移遍历。转移条件为节点间移概率大于转移概率阈值。转移的终止条件为，转移路径上的最后一个节点的所有转移概率均小于转移概率阈值、节点内容和转移方向所构成的结构序列中的所有内容特征不是流量负载内容的子集或内容特征的排列前后次序与流量负载内容不符、结构序列的长度大于长度阈值等条件中的一种或者多种。最终，图中所有满足转移条件和终止条件的节点转移路径，就是图的隐含模式。节点所代表的内容，按照节点转移的前后次序，所构成的结构序列，即为流量的结构特征。

与现有技术相比，本发明的有益效果是：

1、突破了现有方法只能基于字符匹配方式提取内容性特征的限制。

本发明创新性地将流量绘制成有向图，依据图论中的某些方法和概率论中的模型，生成流量特征。将在模式挖掘领域具有良好表现的图论算法，创新性地应用在了流量特征生成问题上，扩大了图论算法的应用面，同时也拓展了流量特征提取的思路。

2、依概率模型生成流量特征。

本发明将概率论中的随机游走模型创新性地应用在了流量特征生成问题上，回避了传统的最长最大公共子串方法固有存在的频数问题，即只考虑出现的频数。本发明采用随机游走模型，依据转移概率决定模式是否有效，在考虑到频数的基础上，也考虑到了支持度。生成的特征，更加合理，表现更好。

3、生成多级流量特征。

传统的最长最大公共子串特征提取方法，只能提取到流量的部分内容性特征，并没有考虑到某些隐含的流量结构性特征。即，当流量具备某些特殊性结构时，才能唯一判定其归属。本发明考虑到了挖掘隐含的流量结构特性，生成流量结构特征。使我们的方法输出，表现更好。

附图说明

图1为本发明系统整体结构图。

图2为本发明有向图构建子系统流程图。

图3为本发明内容特征生成子系统流程图。

图4为本发明结构特征生成子系统流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于随机游走的流量特征自动生成系统，主要由三个子系统组成，分别是有向图构建子系统，内容特征生成子系统和结构特征生成子系统。系统的输入数据是待提取特征的流量数据。值得说明是，此处的流量数据不需区分协议类型或设置其他限制条件。

首先，将上述数据输入有向图构建子系统，该子系统包括预处理模块，用于将提取流量数据包的五元组和负载部分；该子系统还包括图绘制模块，用于提取出的流量数据包负载按照会话流，按字节顺序绘制于同一张有向图中，此有向图为流量内容有向图。

接着，构建好的流量内容有向图被送入内容特征生成子系统，使用随机游走模型，挖掘有向图中隐含的模式。最后将挖掘出的模式筛选后，还原生成流量内容特征。该随机游走模型，在参考有向边权重的同时，还考虑到了有向边两端节点的支持度。因此，本发明方法，不仅考虑到了某些流量负载中的高频子串，同时也降低了这些子串的局部高频对全局频率的影响。因此，本发明提出的方法相比于最长最大公共子串方法提取出的内容特征，能够更好地表征流量类别。

最后，将生成的流量内容特征输入到结构特征生成子系统，将相同会话流内提取出的流量内容特征绘制于同一流量内容特征有向图中，使用随机游走模型，挖掘有向图中隐含的模式。最后将挖掘出的模式筛选后，还原生成流量结构特征。在考虑到流量内容性特征的同时，还考虑到流量的结构性特征。生成的流量结构特征，能够进一步地降低误报率，提高精度。

本发明中各个子系统的详细介绍如下：

1、有向图构建子系统

如图2所示，主要实现输入数据的预处理，包括提取流量数据包的五元组信息和负载，以及将同一会话流下的负载绘制于同一有向图内，生成流量内容有向图。

有向图构建子系统包括预处理模块和图绘制模块。

其中，预处理模块用于将数据流量中的五元组信息和负载信息，按数据包逐个取出，存储于一个字典类数据结构中。键为五元组信息，值为十六进制的负载内容。

图构建子系统还包括图绘制模块，用于将获取到的数据包负载按照会话流，绘制在一张有向图内。其中有向图的节点，为负载字节的十六进制值，有向边的构建依据是节点在负载内容中的前后顺序。当有向边重复时，则该边权重加一。用这种方式生成的有向图，本发明称为流量内容有向图。

值得注意的是，流量内容有向图，其节点数量不会超过256个，但是有向边的权重会随着数据量的大小而有较大差距。即，流量内容有向图的规模不会随着数据量的增加而变大，是一张大小标准的图。

2、内容特征生成子系统

如图3所示，主要功能是对流量内容有向图图构建概率模型，依概率挖掘有向图模式，生成流量内容特征。

首先，对流量内容有向图进行归一化处理，得到图中节点的转移概率。转移概率的计算方式描述如下：

计算节点A→B的转移概率P_A→B，W_A→B，为A→B有向边的权重，∑W_A→i为所有以A为起点的有向边权重之和。

此时，节点间的转移概率不仅取决于有向边出现的次数，还受到两端节点支持度的影响。从而克服了，某些频繁子串分布不均匀，对特征提取产生的不利影响。

得到有向图的概率模型之后，使用随机游走模型，对图中模式进行挖掘。可以使用转移概率阈值判定方式，来实现对随机游走的控制。以此方式，即可得到有向图的模式。

最后，对挖掘出来的模式进行过滤筛选，筛选的规则可以自由调整，如：内容序列是否出现在流量负载内；出现的次数是否大于某一阈值；序列长度是否满足某一条件等。将筛选得到的模式，进行还原，即可得到生成的流量内容特征。

3、结构特征生成子系统

如图4所示，主要功能是，利用生成得到的流量内容特征，进一步挖掘更加精准的流量结构特征，使特征在保证低误报率的前提下，能拥有较高的精度。

在实际的生产生活中，存在相当一部分流量，其类别并不能通过简单的特征子串就能体现，而是需要这些特征子串满足某种特殊结构，才能体现类别差异。

本发明就是考虑到了上述情况，因此使用结构特征生成子系统，来挖掘生成流量内部暗含的结构性特征。

首先，将前面生成的流量内容特征，作为有向图节点，内容特征在流量中出现的前后顺序作为有向边的构建依据，构建流量内容特征有向图。同一会话流的内容特征，绘制于同一有向图内。仍旧以公式(1)的方式，对有向图中节点的转移概率进行计算，使用随机游走的方式挖掘图中隐含模式。

最后，对挖掘出来的模式进行过滤筛选，筛选规则可调整。可参考：内容特征序列是否出现在流量负载中；出现的次数是否大于某一阈值；内容特征之间的跨度是否符合某一条件等。将筛选得到的模式，进行还原，即可得到流量结构特征。

同时，依据本发明提供的思路，再次迭代，还可以挖掘生成同一类型流量，不同会话流之间的流结构特征。

综上，本发明提供的一种基于随机游走的流量特征自动生成方法，通过对流量的图构建和概率模式挖掘，生成多级的流量特征。本发明可用于恶意流量特征生成和检测；也可用于网络应用流量精准识别等具体问题和领域内。

Claims

1.一种基于随机游走的流量特征自动生成方法，其特征在于，包括：

S2，基于随机游走算法挖掘内容特征：以计算节点之间的转移概率，对流量内容有向图进行归一化处理，使用随机游走方式遍历有向图，挖掘图中隐含模式，以阈值、步长以及内容比对形式，对挖掘生成的隐含模式进行筛选过滤，得到满足条件的隐含模式，还原成流量内容信息后的模式，即流量内容特征，所述还原成流量内容信息后的模式是指节点内容按照节点的转移次序，顺序拼接，还原流量内容信息；

S3，生成未知特征组合结构：利用生成的流量内容特征，以会话流分类流量，在流量数据包中出现的内容特征作为有向图中节点，内容特征在数据包内出现的前后次序作为有节点间向边的方向，以节点间的转移次数作为有向边的权重，构建包间内容特征有向图，计算节点转移概率后，再次使用随机游走方法挖掘图中隐含模式，以阈值、步长以及内容比对形式，对挖掘生成的隐含模式进行筛选过滤，得到满足条件的隐含模式，在还原成流量的结构信息后，即流量结构特征，所述还原成流量的结构信息是指节点内容按照节点的转移次序，顺序拼接，还原成流量的结构信息。

2.根据权利要求1所述基于随机游走的流量特征自动生成方法，其特征在于，所述步骤S2中，以计算节点之间的转移概率，对流量内容有向图进行归一化处理，使用随机游走方式挖掘图中隐含模式，具体过程是：根据转移概率公式，计算任意两节点间的转移概率，对图中的有向边权重进行归一化，随机选取图中的节点作为起始节点和转移方向，根据当前节点到下一节点的转移概率大小是否满足阈值条件，来决定是否进行转移，进而挖掘图中的有效转移路径，即所谓的隐含模式。

3.根据权利要求1所述基于随机游走的流量特征自动生成方法，其特征在于，对步骤S2中所述的隐含模式，将节点内容按照节点间的转移次序，顺序拼接，还原成流量内容信息后，以包括转移概率阈值、转移步长阈值以及内容信息出现的频率阈值在内的判断条件，对内容信息进行筛选过滤，满足条件的即为流量内容特征。

4.根据权利要求1所述基于随机游走的流量特征自动生成方法，其特征在于，所述步骤S2中计算转移概率，使用转移概率公式:计算节点间的转移概率，其中，P_A→B为节点A→B的转移概率，W_A→B为A→B有向边的权重，∑W_A→i为所有以A为起点的有向边权重之和。

5.一种基于随机游走的流量特征自动生成系统，其特征在于，包括：

6.根据权利要求5所述基于随机游走的流量特征自动生成系统，其特征在于，所述预处理模块将待提取特征的流量，逐一解析流量数据包，并记录数据包的五元组和负载信息，得到初始流量数据；所述图绘制模块，对初始流量数据中的流量数据包负载部分，分别构建每一个流量数据包所对应的内容有向图和每一个会话流数据包所对应的结构有向图。

7.根据权利要求6所述基于随机游走的流量特征自动生成系统，其特征在于，所述预处理模块将待提取特征的流量中的每一个数据包提取五元组信息及其IP层负载部分，构建一种“键值对”字典数据结构，键为五元组信息，值为IP层负载内容，该结构即构成了图绘制模块的输入数据部分；

8.根据权利要求5所述基于随机游走的流量特征自动生成系统，其特征在于，所述内容特征生成子系统中，根据转移概率公式计算节点间的转移概率，进而，对有向图进行归一化，随机游走方式遍历有向图，挖掘图中隐含模式，得到流量内容特征；所述结构特征生成子系统中，根据转移概率公式计算节点间的转移概率，进而，对有向图进行归一化，随机游走方式遍历有向图，挖掘图中隐含模式，得到流量结构特征；

所述转移概率公式为其中，P_A→B为节点A→B的转移概率，W_A→B为A→B有向边的权重，∑W_A→i为所有以A为起点的有向边权重之和。

9.根据权利要求8所述基于随机游走的流量特征自动生成系统，其特征在于，随机游走方式遍历有向图，挖掘内容特征是指，随机选取图中任意节点作为初始节点，以初始节点作为源节点的任意有向边的方向作为初始方向，进行图中节点的路径转移遍历，转移条件为节点间移概率大于转移概率阈值，转移的终止条件为，转移路径上的最后一个节点的所有转移概率均小于转移概率阈值、节点内容和转移方向所构成的内容序列不是流量负载内容的子集、内容序列的长度大于长度阈值等条件中的一种或者多种，最终，图中所有满足转移条件和终止条件的节点转移路径，就是图的隐含模式，节点所代表的内容，按照节点转移的前后次序，所构成的内容序列，即为流量的内容特征。

10.根据权利要求8所述基于随机游走的流量特征自动生成系统，其特征在于，随机游走方式遍历有向图，挖掘结构特征是指，随机选取图中任意节点作为初始节点，以初始节点作为源节点的任意有向边的方向作为初始方向，进行图中节点的路径转移遍历，转移条件为节点间移概率大于转移概率阈值，转移的终止条件为，转移路径上的最后一个节点的所有转移概率均小于转移概率阈值、节点内容和转移方向所构成的结构序列中的所有内容特征不是流量负载内容的子集或内容特征的排列前后次序与流量负载内容不符、结构序列的长度大于长度阈值等条件中的一种或者多种，最终，图中所有满足转移条件和终止条件的节点转移路径，就是图的隐含模式，节点所代表的内容，按照节点转移的前后次序，所构成的结构序列，即为流量的结构特征。