CN110519179B

CN110519179B - 一种用于网络流量识别的流量数据公共特征提取方法

Info

Publication number: CN110519179B
Application number: CN201910854204.4A
Authority: CN
Inventors: 原玉磊; 陈曙晖; 赵宝康; 赵锋; 时向泉; 陶静; 韩彪; 周静
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-06-12
Anticipated expiration: 2039-09-10
Also published as: CN110519179A

Abstract

本发明了公开了一种用于网络流量识别的流量数据公共特征提取方法，目的是解决网络流量数据公共特征快速提取问题。技术方案是先构建网络流量数据公共特征提取系统。该系统从流量数据文件读取网络数据报文，生成网络流链表；对网络流链表中的元素分别构建流数据序列；根据特征子序列参数将流数据序列截取为不同长度的特征子序列，根据特征子序列生成流特征树；对每个节点计算特征子序列的长度和每个特征子序列在流数据序列中出现的概率，从计算节点概率后的流特征树中提取出符合特征序列限定参数条件的公共特征序列。采用本发明能满足目前网络流量识别对于公共特征提取的速度和准确性的要求。

Description

一种用于网络流量识别的流量数据公共特征提取方法

技术领域

本发明属于网络应用流量识别技术领域，尤其涉及一种用于网络流量识别的流量数据公共特征提取方法。

背景技术

随着计算机网络技术的发展，网络流量数据公共特征成为网络流量分析和分类的有效技术手段。网络流量数据公共特征是指同一类网络流量中共同包含的字节序列。图1为现有网络流量识别方法与网络流量数据特征提取的关系示意图。如图1所示，现有的网络流量识别方法包括以下步骤：

第一步，从已识别的网络流量数据中获取已识别报文数据；

第二步，对已识别报文数据进行网络流量公共特征提取，得到网络流量数据公共特征；

第三步，根据网络流量数据公共特征对网络流量进行识别。

由以上步骤可知，网络流量数据公共特征提取是利用网络流量数据特征进行网络流量识别的基础。

目前网络流量数据公共特征提取方法主要采用最长公共子序列算法LCS(LongestCommon Subsequence)，LCS方法存在如下缺陷：

1)用于网络流量识别的流量特征需要从大量的已识别流量数据序列中找出出现概率最高的公共特征，而最长公共子序列算法每次计算只能获取2个数据序列的公共子序列，导致要从大量的已识别流量数据序列中找出出现概率最高的公共特征，须经过多次两两数据序列比对，计算量呈指数增长，计算复杂、计算速度慢，因此无法满足网络流量识别的速度需要。

2)最长公共子序列算法主要用于计算2个数据序列最长公共子序列，对于不同子序列在流量数据中的出现概率等无法统计，导致无法确定提取的公共子序列是否为网络流特征。

如何从大量网络流量数据中快速、准确地提取到网络流量数据公共特征是网络流量识别领域技术人员极为关注的技术问题。

发明内容

本发明要解决的技术问题是提出一种应用于网络流量识别的流量数据公共特征提取方法，解决网络流量数据公共特征快速提取问题，为基于流量数据公共特征提取的网络流量识别提供支撑。

本发明从已识别流量数据文件(可以使用UNIBS-2009网络流量数据集(netweb.ing.unibs.it/～ntw/tools/traces)或者CAIDA网络流量数据集(www.caida.org/data/overview/))中提取出每种流量的公共特征，满足目前网络流量识别对于公共特征提取的速度和准确性的要求。

本发明包括以下步骤：

第一步，构建网络流量数据公共特征提取系统。该系统由流重组部件、流数据序列构建部件、特征子序列提取部件、流特征树构建部件、特征子序列概率统计部件、特征序列输出部件、参数配置文件组成。

参数配置文件用于存储网络流量数据公共特征提取系统的输入参数，包括流数据序列参数(包括构建流数据序列的最大报文数量N_p、构建流数据序列时使用的每个报文最大字节数量N_b，N_p和N_b均为整数，10≤N_p≤50，40≤N_b≤200，N_p优选值为20，N_b优选值为100)、特征子序列参数(包括特征子序列的最小长度MINL、特征子序列的最大长度MAXL，2≤MINL≤6，2≤MAXL≤6，MINL和MAXL均为整数，MINL优选值为3，MAXL优选值为20)、流数据序列总数N、特征序列限定参数(包括特征序列在数据流中最小出现概率F，特征子序列最小长度MINL，特征子序列最大长度MAXL)。

流重组部件与流数据序列构建部件和流量数据文件相连，它从流量数据文件获取网络数据报文，并根据网络数据报文的五元组(五元组为源IP地址、目的IP地址、源端口、目的端口、协议号)以及时间标签，将流量数据文件中属于同一个网络流的数据报文组合到一起，成为网络流链表的一个元素，并将网络流链表输出给流数据序列构建部件。网络流链表中1个元素存储1个网络流的数据报文。网络流链表元素包括7个域，分别为：网络流的源IP地址、目的IP地址、源端口、目的端口、协议号、时间标签信息、报文链表。报文链表用于存储网络流的报文(报文链表中每个元素存储一个报文，若属于同一个网络流的数据报文有M个，则报文链表中有M个元素)。

流数据序列构建部件与流重组部件、特征子序列提取部件和参数配置文件相连，流数据序列构建部件从参数配置文件读取流数据序列参数Np和Nb，从流重组部件接收网络流链表，根据Np和Nb，将网络流链表中的每个元素构建成流数据序列，并统计流数据序列总数N，将构建的N个流数据序列输出给特征子序列提取部件，将流数据序列总数N输出给参数配置文件。

特征子序列提取部件与流数据序列构建部件、流特征树构建部件和参数配置文件相连，它从流数据序列构建部件接收N个流数据序列，从参数配置文件读取特征子序列参数，根据特征子序列参数将N个流数据序列分解为Ns个长度不一的特征子序列，并将特征子序列、特征子序列所属流数据序列序号、特征子序列总数Ns发送给流特征树构建部件。

流特征树构建部件与特征子序列提取部件和特征子序列概率统计部件相连，它从特征子序列提取部件接收特征子序列、特征子序列所属流数据序列序号、特征子序列总数Ns，构建流特征树，并将流特征树输出给特征子序列概率统计部件。流特征树是存储特征子序列的数据结构。流特征树中的1个节点存储特征子序列中的1个字节，从根节点直至某个节点的各级子节点存储的字节连接来构成一个特征子序列。节点包含8个域：①c，记录当前节点表示的字节的值；②flag，记录该节点存储的字节是否为所属特征子序列的结尾字节，1表示是结尾字节，0表示不是结尾字节；③deep，记录当前字节在所属特征子序列中的位置，特征子序列中第k个字节对应节点的deep值为k；④count，值为包含以当前字节结尾的特征子序列的流数据序列的个数；⑤flownum，记录以当前字节结尾的特征子序列最后出现的流数据序列的编号；⑥parent，是指针，指向该节点的父节点；⑦f，是实数，记录从根节点直至当前节点的各级子节点存储的字节构成的特征子序列在报文链表中出现的概率；⑧next[MAX]，指针数组，每个元素指向本节点的1个子节点，每个子节点存储本字节在特征子序列中的下一个字节，其中其中MAX为整数且MAX≥256，优选值为256。

特征子序列概率统计部件与流特征树构建部件、特征序列输出部件和参数配置文件相连，它从流特征树构建部件接收流特征树，扫描流特征树的每个节点，计算流特征树的一个节点记录的特征子序列的长度和每个特征子序列在流数据序列中出现的概率，将计算特征子序列在流数据序列中出现概率后的流特征树输出给特征序列输出部件。

特征序列输出部件与特征子序列概率统计部件和参数配置文件相连，它从特征子序列概率统计部件接收计算特征子序列在流数据序列中出现概率后的流特征树，从参数配置文件读取特征序列限定参数，扫描计算特征子序列在流数据序列中出现概率后的流特征树，根据特征序列限定参数找出满足特征序列限定参数条件的节点，获得流数据序列中的公共特征序列。

第二步，流重组部件从流量数据文件读取网络数据报文，根据网络数据报文的五元组和时间标签，将同一个网络流的M个网络报文组合到一起，生成网络流链表。具体方法是：

2.1流重组部件初始化网络流链表为空。

2.2令网络报文序号d＝1。

2.3流重组部件从流量数据文件读取第d个网络数据报文，提取第d个网络数据报文的五元组，判定第d个网络数据报文是否属于网络流链表中已经存在的某元素所代表的网络流，根据判定结果进行以下步骤：

2.3.1如果第d个网络数据报文的源IP地址与网络流链表中某个元素(令为元素Y)的源IP地址相同且第d个网络数据报文的目的IP地址与元素Y的目的IP地址相同，或者第d个网络数据报文的源IP地址与元素Y的目的IP地址相同且报文的目的IP地址与元素Y的源IP地址相同，转步骤2.3.2，否则说明第d个网络数据报文属于新的网络流(即第d个网络数据报文不属于网络流链表中已经存在的任何元素所代表的网络流)，转步骤2.4。

2.3.2流重组部件判断端口，如果第d个网络数据报文的源端口与网络流链表中元素Y的源端口相同且第d个网络数据报文的目的端口与元素Y的目的端口相同，或者报文的源端口与网络流链表中元素Y的目的端口相同且第d个网络数据报文的目的端口与元素Y的源端口相同，转步骤2.3.3，否则说明第d个网络数据报文属于新的网络流，转步骤2.4。

2.3.3流重组部件判断时间标签，如果第d个网络数据报文的时间标签与元素Y的时间标签之差在阈值m内，0＜m≤100毫秒，m优选值为100毫秒，则第d个网络数据报文属于元素Y所代表的网络流，转步骤2.3.4，否则第d个网络数据报文属于新的网络流，转步骤2.4。

2.3.4将第d个网络数据报文加入到元素Y的报文链表中，转步骤2.5。

2.4在网络流链表中添加网络流链表元素，以第d个网络数据报文五元组为新网络流链表元素的五元组，将第d个网络数据报文加至该新网络流链表元素的报文链表。

2.5令d＝d+1，若流量数据文件中还有未处理的报文，转步骤2.3，若流量数据文件中的所有报文均已处理完，转2.6。

2.6流重组部件将网络流链表发送给流数据序列构建部件，令此时的网络流链表元素为N个。

第三步，流数据序列构建部件从参数配置文件读取流数据序列参数N_p和N_b，从流重组部件接收网络流链表，根据N_p、N_b对网络流链表中的N个元素分别构建流数据序列，得到N个流数据序列。具体方法为：

3.1流数据序列构建部件从参数配置文件读取参数N_p和N_b。

3.2初始化循环参数i＝1。

3.3若N_p≤s，s是第i个网络流链表元素的报文链表中报文数量，流数据序列构建部件从第i个网络流链表元素的报文链表中提取前N_p个报文，令取出的报文为S₁，S₂，…S_u…，

其中1≤u≤N_p，转3.4；若N_p＞s，则取第i个网络流链表元素的报文链表中所有s个报文，令取出的报文为S₁，S₂，…S_v…，S_s，其中1≤v≤s，转3.5。

3.4流数据序列构建部件分别从S₁，S₂，…S_u…，

中提取前N_b个字节，按照先后顺序将提取的N_p个长度为N_b的字节串接在一起构建第i条流数据序列，转3.6。

3.5流数据序列构建部件分别从S₁，S₂，…S_v…，S_s中提取前N_b个字节，按照先后顺序将提取的s个长度为N_b的字节串接在一起构建第i条流数据序列，转3.6。

3.6若i<N，令i＝i+1，转步骤3.2，若i＝N，转步骤3.7。

3.7流数据序列构建部件将N个流数据序列发送给特征子序列提取部件，此时流数据序列总数为N，流数据序列构建部件将参数N发送给参数配置文件。

第四步，特征子序列提取部件从参数配置文件读取特征子序列参数，从流数据序列构建部件接收N个流数据序列，并根据特征子序列参数将N个流数据序列截取为Ns个不同长度的特征子序列。特征子序列是流数据序列中的子序列，作为流数据公共特征的候选。具体方法为：

4.1特征子序列提取部件从参数配置文件读取特征子序列参数。特征子序列参数包括特征子序列的最小长度MINL、特征子序列的最大长度MAXL。初始化循环参数i＝1，初始化提取的特征子序列的个数Ns＝0。

4.2特征子序列提取部件按字节计算第i条流数据序列的长度LEN_i。

4.3特征子序列提取部件定义用于截取特征子序列的2个指针p和q，其中p为截取子序列的首指针，q为截取子序列的尾指针。通过移动p和q，截取第i条流数据序列的不同的特征子序列。具体方法如下：

4.3.1定义第一循环变量j_p＝1，第二循环变量j_q＝1。

4.3.2移动p，使p指向第i条流数据序列的第j_p个字节，令j_q＝j_p+MINL-1。

4.3.3令j_q＝j_q+1，移动q，使q指向第i条流数据序列的第j_q个字节。

4.3.4截取并存储指针p和q间的特征子序列，并将该特征子序列所在流数据的序号放到序号数组fn中，即令fn[Ns]＝i。令Ns＝Ns+1。

4.3.5如果j_q<j_p+MAXL，转4.3.3。

4.3.6如果j_p<LEN_i-MAXL，令j_p＝j_p+1，返回4.3.2；否则第i条流数据序列提取完毕(即第i条流数据序列中剩下的字节长度达不到MINL，构不成一个特征子序列)，得到Ns个特征子序列、Ns个特征子序列所在流数据序号数组fn，转4.4。

4.4若i<N，令i＝i+1，转步骤4.2，若i＝N，将4.3.4步中提取的Ns个特征子序列、Ns个特征子序列所在流数据序号数组fn以及特征子序列总数Ns发送给流特征数构建部件。

第五步，流特征树构建部件从特征子序列提取部件接收Ns个特征子序列，根据Ns个特征子序列生成流特征树。具体方法为：

5.1初始化流特征树根节点V₀，V₀的各个域初始化为：V₀的c＝0，V₀的flag＝0，V₀的deep＝0，V₀的count＝0，V₀的flownum＝0，V₀的parent＝V₀，V₀的f＝0，V₀的next[i2]＝0(i2＝0,1…MAX－1)。

5.2令第三循环变量i3＝1，令第i3个特征子序列为Bi3。

5.3以字节为单位计算Bi3的长度N_Bi3(即Bi3中所含的字节数)。对Bi3中的第k个字节建立特征树节点，将字节在Bi3中的前后顺序关系转换为特征树中节点间的父子关系，以V₀作为记录Bi3首字节的节点的父节点，将Bi3加入特征树。具体方法如下：

5.3.1定义当前处理的特征树节点cur₀，令cur₀＝V₀，初始化特征子序列字节序号k＝1；

5.3.2获取Bi3的第k个字节Bik，设Bik的无符号整数值为Xk(由于Bik是一个字节，其无符号整数值最大为2⁸－1，必然小于MAX)。

5.3.3如果cur₀节点的next[Xk]值不为0，转步骤5.3.6；如果cur₀节点的next[Xk]值为0，转步骤5.3.4。

5.3.4为字节Bik建立特征树节点VBik，按照下述方法为VBik赋值：

如果k<N_Bi3-1，则：令VBik的c＝X_k，flag＝0，令VBik的deep＝k，令VBik的count＝0，令VBik的flownum＝0，令VBik的parent＝cur₀，令VBik的next[i4]＝0(i4＝0,1…MAX－1)，转5.3.5。

如果k＝N_Bi3-1，令VBik的flag＝1，令VBik的deep＝k，令VBik的count＝1，令VBik的flownum＝0，令VBik的parent＝cur₀，令VBik的next[i4]＝0，转5.3.5。

5.3.5将节点VBik插入特征树，方法是令节点cur₀的next[Xk]为VBik，即令cur₀->next[Xk]＝VBik。

5.3.6令节点VBik为当前节点：即令cur₀＝VBik。

5.3.7如果k＝N_Bi3-1且节点cur₀的flownum不等于fn[i3]并且cur₀的flag等于0，重置cur₀中各域的值，即令flag＝1，count＝count+1，flownum＝fn[i3]，转5.3.9；否则，转5.3.8。

5.3.8若k＜N_Bi3-1，令k＝k+1，转步骤5.3.2处理下一个字节。

5.3.9若i3＜Ns，令i3＝i3+1，转5.3。否则将构建的流特征树(根节点为V₀)发送给特征子序列概率统计部件。

第六步，特征子序列概率统计部件从流特征树构建部件接收流特征树，从参数配置文件读取流数据序列总数N，扫描流特征树的每个节点，对每个节点计算其所有子节点存储的特征子序列的长度和每个特征子序列在流数据序列中出现的概率，并将计算节点概率后的流特征树输出给特征序列输出部件。具体步骤如下：

6.1定义特征树当前节点cur₁，令cur₁为特征树根节点V₀。

6.2判断cur₁是否为空。若cur₁不为空，转步骤6.3，若cur₁为空，转6.4.2。

6.3计算cur₁代表的特征子序列的概率，方法为：

cur1->f＝cur1->count/N，cur1->f表示cur1的f，cur1->count表示cur1的count。

6.4定义循环变量i4＝0，循环处理cur₁节点的每个子节点，步骤如下：

6.4.1令cur₁＝cur₁->next[i4]，cur₁->next[i4]表示cur₁的next[i4]。转步骤6.2。

6.4.2令i4＝i4+1，如果i4<MAX，转步骤6.4.1，否则转6.5。

6.5将计算节点概率后的流特征树发送给特征序列输出部件。

第七步，特征序列输出部件从特征子序列概率统计部件接收计算节点概率后的流特征树，从参数配置文件读取特征序列限定参数(即特征序列在数据流中最小出现概率F，特征子序列最小长度MINL，特征子序列最大长度MAXL)，根据特征序列限定参数从计算节点概率后的流特征树中提取出符合特征序列限定参数条件的特征序列，即流数据序列中的公共特征序列。从计算节点概率后的流特征树中提取出流数据串中的公共特征序列，具体步骤如下：

7.1定义特征树节点cur₂，令cur₂为计算节点概率后的流特征树的根节点V₀。

7.2判断cur₂是否为空。若cur₂不为空，转步骤7.3，若cur₂为空或者cur₂->count＝0，cur₂->count指cur₂的count，转7.4.2。

7.3判断cur₂代表的子序列是否满足特征序列条件，是则获取并输出公共特征序列，否则遍历下一个节点。具体步骤如下：

7.3.1判断cur₂是否同时满足以下2个条件：以cur₂为结尾字节的子序列是否同时满足特征序列条件即：

①cur₂->f大于F，cur₂->f指cur₂的f；

②cur₂->deep小于MAXL并且大于MINL，cur₂->deep指cur₂的deep。

如果2个条件均满足，以cur₂为结尾字节的子序列满足公共特征序列条件，执行7.3.4，否则转7.4。

7.3.4定义变量deep0＝cur₂->deep，定义用于存储特征序列的长度为deep0的数组str，令str[j]＝0(j的范围为0,1…deep0-1)，初始化循环变量j＝0，定义变量cur₃＝cur₂。

7.3.5令str[j]＝cur₃->c，cur₃＝cur₃->parent，cur₃->c指cur₃的c,cur₃->parent指cur₃的parent。

7.3.6令j＝j+1，如果j小于deep0，转7.3.5；如果j大于等于deep0，转7.3.7。

7.3.7令str[j]＝0(表示公共特征序列结尾)，将公共特征序列str输出至文件file。

7.4定义循环变量i4＝0，循环处理cur₂的每个子节点，计算步骤如下：

7.4.1将第i4个子节点赋值给cur₂，令cur₂＝cur₂->next[i4]。转步骤7.2。

7.4.2令i4＝i4+1，如果i4<MAX转步骤7.4.1，否则转第八步。

第八步，输出存储所有公共特征序列的文件file，结束。

采用本发明可以达到以下技术效果：

1)本发明第二步到第六步将所有特征子序列插入流特征结构树中，生成流特征树，扫描流特征树的每个节点，对每个节点计算其所有子节点存储的特征子序列的长度和每个特征子序列在流数据序列中出现的概率，计算方法简单精确、计算量低，满足网络流量识别的需要，解决了最长公共子序列算法1次计算只能获取2个数据序列的公共子序列，从大量的已识别流量数据序列中找出出现概率最高的公共特征须经过多次两两数据序列比对时计算量呈指数增长，计算复杂、计算速度慢的缺陷。

2)本发明第六步通过构建的流特征树精确计算所有公共子序列在已识别网络流量中的出现概率，从而确定公共子序列成为特征序列的概率，提高了特征序列提取的准确性。

3)本发明第七步根据特征序列限定参数从统计节点概率后的流特征树中提取流数据串中的公共特征，提高了对网络流量数据公共特征提取的速度，解决了最长公共子序列算法主要用于计算最长公共子序列，对于不同子序列在流数据中的出现概率等无法统计的缺陷。

附图说明

图1是背景技术所述网络流量识别方法与网络流量数据特征提取的关系示意图；

图2是本发明总体流程图；

图3是本发明第一步构建的网络流量数据公共特征提取系统逻辑结构图。

具体实施方式

图2是本发明总体流程图；如图2所示，本发明包括以下步骤：

第一步，构建网络流量数据公共特征提取系统。该系统如图3所示，由流重组部件、流数据序列构建部件、特征子序列提取部件、流特征树构建部件、特征子序列概率统计部件、特征序列输出部件、参数配置文件组成。

参数配置文件用于存储网络流量数据公共特征提取系统的输入参数，包括流数据序列参数(包括构建流数据序列的最大报文数量N_p、构建流数据序列时使用的每个报文最大字节数量N_b，N_p和N_b均为整数)、特征子序列参数(包括特征子序列的最小长度MINL、特征子序列的最大长度MAXL)、流数据序列总数N、特征序列限定参数(包括特征序列在数据流中最小出现概率F，特征子序列最小长度MINL，特征子序列最大长度MAXL)。

流数据序列构建部件与流重组部件、特征子序列提取部件和参数配置文件相连，流数据序列构建部件从参数配置文件读取流数据序列参数N_p和N_b，从流重组部件接收网络流链表，根据N_p和N_b，将网络流链表中的每个元素构建成流数据序列，并统计流数据序列总数N，将构建的N个流数据序列输出给特征子序列提取部件，将流数据序列总数N输出给参数配置文件。

流特征树构建部件与特征子序列提取部件和特征子序列概率统计部件相连，它从特征子序列提取部件接收特征子序列、特征子序列所属流数据序列序号、特征子序列总数Ns，构建流特征树，并将流特征树输出给特征子序列概率统计部件。流特征树是存储特征子序列的数据结构。流特征树中的1个节点存储特征子序列中的1个字节，从根节点直至某个叶子节点的各级子节点存储的字节连接来构成一个特征子序列。节点包含8个域：①c，记录当前节点表示的字节的值；②flag，记录该节点存储的字节是否为所属特征子序列的结尾字节，1表示是结尾字节，0表示不是结尾字节；③deep，记录当前字节在所属特征子序列中的位置，特征子序列中第k个字节对应节点的deep值为k；④count，值为包含以当前字节结尾的特征子序列的流数据序列的个数；⑤flownum，记录以当前字节结尾的特征子序列最后出现的流数据序列的编号；⑥parent，是指针，指向该节点的父节点；⑦f，是实数，记录从根节点直至当前节点的各级子节点存储的字节构成的特征子序列在报文链表中出现的概率；⑧next[MAX]，指针数组，每个元素指向本节点的1个子节点，每个子节点存储本字节在特征子序列中的下一个字节。

2.1流重组部件初始化网络流链表为空。

2.2令网络报文序号d＝1。

2.3.1如果第d个网络数据报文的源IP地址与网络流链表中某个元素(令为元素Y)的源IP地址相同且第d个网络数据报文的目的IP地址与元素Y的目的IP地址相同，或者第d个网络数据报文的源IP地址与元素Y的目的IP地址相同且报文的目的IP地址与元素Y的源IP地址相同，转步骤2.3.2，否则说明第d个网络数据报文属于新的网络流，转步骤2.4。

3.1流数据序列构建部件从参数配置文件读取参数N_p和N_b。

3.2初始化循环参数i＝1。

3.4流数据序列构建部件分别从S₁，S₂，…S_u…，

3.6若i<N，令i＝i+1，转步骤3.2，若i＝N，转步骤3.7。

4.3.1定义第一循环变量j_p＝1，第二循环变量j_q＝1。

4.3.5如果j_q<j_p+MAXL，转4.3.3。

4.3.6如果j_p<LEN_i-MAXL，令j_p＝j_p+1，返回4.3.2；否则第i条流数据序列提取完毕，得到Ns个特征子序列、Ns个特征子序列所在流数据序号数组fn，转4.4。

5.2令第三循环变量i3＝1，令第i3个特征子序列为Bi3。

5.3.2获取Bi3的第k个字节Bi_k，设Bi_k的无符号整数值为X_k。

5.3.3如果cur₀节点的next[X_k]值不为0，转步骤5.3.6；如果cur₀节点的next[X_k]值为0，转步骤5.3.4。

5.3.4为字节Bi_k建立特征树节点VBi_k，按照下述方法为VBi_k赋值：

如果k<N_Bi3-1，则：令VBi_k的c＝X_k，flag＝0，令VBi_k的deep＝k，令VBi_k的count＝0，令VBi_k的flownum＝0，令VBi_k的parent＝cur₀，令VBi_k的next[i4]＝0(i4＝0,1…MAX－1)，转5.3.5。

如果k＝N_Bi3-1，令VBi_k的flag＝1，令VBi_k的deep＝k，令VBi_k的count＝1，令VBi_k的flownum＝0，令VBi_k的parent＝cur₀，令VBi_k的next[i4]＝0，转5.3.5。

5.3.5将节点VBi_k插入特征树，方法是令节点cur₀的next[X_k]为VBi_k，即令cur₀->next[X_k]＝VBi_k。

5.3.6令节点VBi_k为当前节点：即令cur₀＝VBi_k。

5.3.8若k＜N_Bi3-1，令k＝k+1，转步骤5.3.2处理下一个字节。

6.1定义特征树当前节点cur₁，令cur₁为特征树根节点V₀。

6.3计算cur₁代表的特征子序列的概率，方法为：

6.4.2令i4＝i4+1，如果i4<MAX，转步骤6.4.1，否则转6.5。

6.5将计算节点概率后的流特征树发送给特征序列输出部件。

①cur₂->f大于F，cur₂->f指cur₂的f；

②cur₂->deep小于MAXL并且大于MINL，cur₂->deep指cur₂的deep。

7.4.2令i4＝i4+1，如果i4<MAX转步骤7.4.1，否则转第八步。

第八步，输出存储所有公共特征序列的文件file，结束。

Claims

1.一种用于网络流量识别的流量数据公共特征提取方法，其特征在于包括以下步骤：

第一步，构建网络流量数据公共特征提取系统，网络流量数据公共特征提取系统由流重组部件、流数据序列构建部件、特征子序列提取部件、流特征树构建部件、特征子序列概率统计部件、特征序列输出部件、参数配置文件组成；

参数配置文件用于存储网络流量数据公共特征提取系统的输入参数，包括流数据序列参数、特征子序列参数、流数据序列总数N、特征序列限定参数；流数据序列参数包括构建流数据序列的最大报文数量N_p、构建流数据序列时使用的每个报文最大字节数量N_b，N_p和N_b均为整数；特征子序列参数包括特征子序列的最小长度MINL、特征子序列的最大长度MAXL，MINL和MAXL均为整数；特征序列限定参数包括特征序列在数据流中最小出现概率F，特征子序列最小长度MINL，特征子序列最大长度MAXL；

流重组部件与流数据序列构建部件和流量数据文件相连，它从流量数据文件获取网络数据报文，并根据网络数据报文的五元组以及时间标签，将流量数据文件中属于同一个网络流的数据报文组合到一起，成为网络流链表的一个元素，并将网络流链表输出给流数据序列构建部件；网络流链表中1个元素存储1个网络流的数据报文，网络流链表元素包括7个域，分别为：网络流的源IP地址、目的IP地址、源端口、目的端口、协议号、时间标签信息、报文链表；报文链表中每个元素存储一个数据报文，若属于同一个网络流的数据报文有M个，则报文链表中有M个元素；所述五元组为源IP地址、目的IP地址、源端口、目的端口、协议号；

流数据序列构建部件与流重组部件、特征子序列提取部件和参数配置文件相连，流数据序列构建部件从参数配置文件读取流数据序列参数N_p和N_b，从流重组部件接收网络流链表，根据N_p和N_b，将网络流链表中的每个元素构建成流数据序列，并统计流数据序列总数N，将构建的N个流数据序列输出给特征子序列提取部件，将流数据序列总数N输出给参数配置文件；

特征子序列提取部件与流数据序列构建部件、流特征树构建部件和参数配置文件相连，它从流数据序列构建部件接收N个流数据序列，从参数配置文件读取特征子序列参数，根据特征子序列参数将N个流数据序列分解为Ns个长度不一的特征子序列，并将特征子序列、特征子序列所属流数据序列序号、特征子序列总数Ns发送给流特征树构建部件；

流特征树构建部件与特征子序列提取部件和特征子序列概率统计部件相连，它从特征子序列提取部件接收特征子序列、特征子序列所属流数据序列序号、特征子序列总数Ns，构建流特征树，并将流特征树输出给特征子序列概率统计部件；流特征树是存储特征子序列的数据结构，流特征树中的1个节点存储特征子序列中的1个字节，从根节点直至某个叶子节点的各级子节点存储的字节连接构成一个特征子序列；节点包含8个域：①c，记录当前节点表示的字节的值；②flag，记录该节点存储的字节是否为所属特征子序列的结尾字节，1表示是结尾字节，0表示不是结尾字节；③deep，记录当前字节在所属特征子序列中的位置，特征子序列中第k个字节对应节点的deep值为k；④count，值为包含以当前字节结尾的特征子序列的流数据序列的个数；⑤flownum，记录以当前字节结尾的特征子序列最后出现的流数据序列的编号；⑥parent，是指针，指向该节点的父节点；⑦f，是实数，记录从根节点直至当前节点的各级子节点存储的字节构成的特征子序列在报文链表中出现的概率；⑧next[MAX]，指针数组，每个元素指向本节点的1个子节点，每个子节点存储本字节在特征子序列中的下一个字节，其中MAX为整数且MAX3256；

特征子序列概率统计部件与流特征树构建部件、特征序列输出部件和参数配置文件相连，它从流特征树构建部件接收流特征树，扫描流特征树的每个节点，计算流特征树的一个节点记录的特征子序列的长度和每个特征子序列在流数据序列中出现的概率，将计算特征子序列在流数据序列中出现概率后的流特征树输出给特征序列输出部件；

特征序列输出部件与特征子序列概率统计部件和参数配置文件相连，它从特征子序列概率统计部件接收计算特征子序列在流数据序列中出现概率后的流特征树，从参数配置文件读取特征序列限定参数，扫描计算特征子序列在流数据序列中出现概率后的流特征树，根据特征序列限定参数找出满足特征序列限定参数条件的节点，获得流数据序列中的公共特征序列；

第二步，流重组部件从流量数据文件读取网络数据报文，根据网络数据报文的五元组和时间标签，将同一个网络流的M个网络报文组合到一起，生成网络流链表，方法是：

2.1流重组部件初始化网络流链表为空；

2.2令网络报文序号d＝1；

2.3.1如果第d个网络数据报文的源IP地址与网络流链表中元素Y的源IP地址相同且第d个网络数据报文的目的IP地址与元素Y的目的IP地址相同，或者第d个网络数据报文的源IP地址与元素Y的目的IP地址相同且报文的目的IP地址与元素Y的源IP地址相同，转步骤2.3.2，否则说明第d个网络数据报文属于新的网络流，转步骤2.4；

2.3.2流重组部件判断端口，如果第d个网络数据报文的源端口与网络流链表中元素Y的源端口相同且第d个网络数据报文的目的端口与元素Y的目的端口相同，或者报文的源端口与网络流链表中元素Y的目的端口相同且第d个网络数据报文的目的端口与元素Y的源端口相同，转步骤2.3.3，否则说明第d个网络数据报文属于新的网络流，转步骤2.4；

2.3.3流重组部件判断时间标签，如果第d个网络数据报文的时间标签与元素Y的时间标签之差在阈值m内，0<m≤100毫秒，则第d个网络数据报文属于元素Y所代表的网络流，转步骤2.3.4，否则第d个网络数据报文属于新的网络流，转步骤2.4；

2.3.4将第d个网络数据报文加入到元素Y的报文链表中，转步骤2.5；

2.4在网络流链表中添加网络流链表元素，以第d个网络数据报文五元组为新网络流链表元素的五元组，将第d个网络数据报文加至该新网络流链表元素的报文链表；

2.5令d＝d+1，若流量数据文件中还有未处理的报文，转步骤2.3，若流量数据文件中的所有报文均已处理完，转2.6；

2.6流重组部件将网络流链表发送给流数据序列构建部件，令此时的网络流链表元素为N个；

第三步，流数据序列构建部件从参数配置文件读取流数据序列参数N_p和N_b，从流重组部件接收网络流链表，根据N_p、N_b对网络流链表中的N个元素分别构建流数据序列，得到N个流数据序列，方法为：

3.1流数据序列构建部件从参数配置文件读取参数N_p和N_b；

3.2初始化循环参数i＝1；

3.3若N_p≤s，s是第i个网络流链表元素的报文链表中报文数量，流数据序列构建部件从第i个网络流链表元素的报文链表中提取前N_p个报文，令取出的报文为

其中1≤u≤N_p，转3.4；若N_p>s，则取第i个网络流链表元素的报文链表中所有s个报文，令取出的报文为S₁，S₂，…S_v…，S_s，其中1≤v≤s，转3.5；

3.4流数据序列构建部件分别从

中提取前N_b个字节，按照先后顺序将提取的N_p个长度为N_b的字节串接在一起构建第i条流数据序列，转3.6；

3.5流数据序列构建部件分别从S₁，S₂，…S_v…，S_s中提取前N_b个字节，按照先后顺序将提取的s个长度为N_b的字节串接在一起构建第i条流数据序列，转3.6；

3.6若i<N，令i＝i+1，转步骤3.2，若i＝N，转步骤3.7；

3.7流数据序列构建部件将N个流数据序列发送给特征子序列提取部件，此时流数据序列总数为N，流数据序列构建部件将参数N发送给参数配置文件；

第四步，特征子序列提取部件从参数配置文件读取特征子序列参数，从流数据序列构建部件接收N个流数据序列，并根据特征子序列参数将N个流数据序列截取为Ns个不同长度的特征子序列，特征子序列是流数据序列中的子序列，作为流数据公共特征的候选，方法为：

4.1特征子序列提取部件从参数配置文件读取特征子序列参数，初始化循环参数i＝1，初始化提取的特征子序列的个数Ns＝0；

4.2特征子序列提取部件按字节计算第i条流数据序列的长度LEN_i；

4.3特征子序列提取部件定义用于截取特征子序列的2个指针p和q，其中p为截取子序列的首指针，q为截取子序列的尾指针，通过移动p和q，截取第i条流数据序列的不同的特征子序列，得到Ns个特征子序列、Ns个特征子序列所在流数据序号数组fn，方法是：

4.3.1定义第一循环变量j_p＝1，第二循环变量j_q＝1；

4.3.2移动p，使p指向第i条流数据序列的第j_p个字节，令j_q＝j_p+MINL-1；

4.3.3令j_q＝j_q+1，移动q，使q指向第i条流数据序列的第j_q个字节；

4.3.4截取并存储指针p和q间的特征子序列，并将该特征子序列所在流数据的序号放到序号数组fn中，即令fn[Ns]＝i；令Ns＝Ns+1；

4.3.5如果j_q<j_p+MAXL，转4.3.3；

4.3.6如果j_p<LEN_i-MAXL，令j_p＝j_p+1，返回4.3.2；否则第i条流数据序列提取完毕，得到Ns个特征子序列、Ns个特征子序列所在流数据序号数组fn，转4.4；

4.4若i<N，令i＝i+1，转步骤4.2，若i＝N，将Ns个特征子序列、Ns个特征子序列所在流数据序号数组fn以及特征子序列总数Ns发送给流特征数构建部件；

第五步，流特征树构建部件从特征子序列提取部件接收Ns个特征子序列，根据Ns个特征子序列生成流特征树，方法为：

5.1初始化流特征树根节点V₀，V₀的各个域初始化为：V₀的c＝0，V₀的flag＝0，V₀的deep＝0，V₀的count＝0，V₀的flownum＝0，V₀的parent＝V₀，V₀的f＝0，V₀的next[i2]＝0，i2＝0,1…MAX－1；

5.2令第三循环变量i3＝1，令第i3个特征子序列为Bi3；

5.3以字节为单位计算Bi3的长度N_Bi3，对Bi3中的第k个字节建立特征树节点，将字节在Bi3中的前后顺序关系转换为特征树中节点间的父子关系，以V₀作为记录Bi3首字节的节点的父节点，将Bi3加入特征树，方法如下：

5.3.2获取Bi3的第k个字节Bi_k，设Bi_k的无符号整数值为X_k；

5.3.3如果cur₀节点的next[X_k]值不为0，转步骤5.3.6；如果cur₀节点的next[X_k]值为0，转步骤5.3.4；

如果k<N_Bi3-1，则：令VBi_k的c＝X_k，flag＝0，令VBi_k的deep＝k，令VBi_k的count＝0，令VBi_k的flownum＝0，令VBi_k的parent＝cur₀，令VBi_k的next[i4]＝0，i4＝0,1…MAX－1，转5.3.5；

如果k＝N_Bi3-1，令VBi_k的flag＝1，令VBi_k的deep＝k，令VBi_k的count＝1，令VBi_k的flownum＝0，令VBi_k的parent＝cur₀，令VBi_k的next[i4]＝0，转5.3.5；

5.3.5将节点VBi_k插入特征树，方法是令节点cur₀的next[X_k]为VBi_k，即令cur₀->next[X_k]＝VBi_k；

5.3.6令节点VBi_k为当前节点：即令cur₀＝VBi_k；

5.3.7如果k＝N_Bi3-1且节点cur₀的flownum不等于fn[i3]且cur₀的flag等于0，重置cur₀中各域的值，即令flag＝1，count＝count+1，flownum＝fn[i3]，转5.3.9；否则，转5.3.8；

5.3.8若k＜N_Bi3-1，令k＝k+1，转步骤5.3.2

5.3.9若i3＜Ns，令i3＝i3+1，转5.3；否则将构建的根节点为V₀的流特征树发送给特征子序列概率统计部件；

第六步，特征子序列概率统计部件从流特征树构建部件接收流特征树，从参数配置文件读取流数据序列总数N，扫描流特征树的每个节点，对每个节点计算其所有子节点存储的特征子序列的长度和每个特征子序列在流数据序列中出现的概率，并将计算节点概率后的流特征树输出给特征序列输出部件；具体方法是：

6.1定义特征树当前节点cur₁，令cur₁为特征树根节点V₀；

6.2判断cur₁是否为空，若cur₁不为空，转步骤6.3，若cur₁为空，转6.4.2；

6.3计算cur₁代表的特征子序列的概率，方法为：

cur1->f＝cur1->count/N，cur1->f表示cur1的f，cur1->count表示cur1的count；

6.4.1令cur₁＝cur₁->next[i4]，cur₁->next[i4]表示cur₁的next[i4]，转步骤6.2；

6.4.2令i4＝i4+1，如果i4<MAX，转步骤6.4.1，否则转6.5；

6.5将计算节点概率后的流特征树发送给特征序列输出部件；

第七步，特征序列输出部件从特征子序列概率统计部件接收计算节点概率后的流特征树，从参数配置文件读取特征序列限定参数，根据特征序列限定参数从计算节点概率后的流特征树中提取出符合特征序列限定参数条件的特征序列，即流数据序列中的公共特征序列；从计算节点概率后的流特征树中提取出流数据序列中的公共特征序列，方法是：

7.1定义特征树节点cur₂，令cur₂为计算节点概率后的流特征树的根节点V₀；

7.2判断cur₂是否为空，若cur₂不为空，转步骤7.3，若cur₂为空或者cur₂->count＝0，cur₂->count指cur₂的count，转7.4.2；

7.3判断cur₂代表的子序列是否满足特征序列条件，是则获取并输出公共特征序列，否则遍历下一个节点，具体步骤如下：

①cur₂->f大于F，cur₂->f指cur₂的f；

②cur₂->deep小于MAXL并且大于MINL，cur₂->deep指cur₂的deep；

如果2个条件均满足，以cur₂为结尾字节的子序列满足公共特征序列条件，执行7.3.4，否则转7.4；

7.3.4定义变量deep0＝cur₂->deep，定义用于存储特征序列的长度为deep0的数组str，令str[j]＝0，初始化循环变量j＝0，定义变量cur₃＝cur₂；

7.3.5令str[j]＝cur₃->c，cur₃＝cur₃->parent，cur₃->c指cur₃的c,cur₃->parent指cur₃的parent；

7.3.6令j＝j+1，如果j小于deep0，转7.3.5；如果j大于等于deep0，转7.3.7；

7.3.7令str[j]＝0，将公共特征序列str输出至文件file；

7.4.1将第i4个子节点赋值给cur₂，令cur₂＝cur₂->next[i4]，转步骤7.2；

7.4.2令i4＝i4+1，如果i4<MAX转步骤7.4.1，否则转第八步；

第八步，输出存储所有公共特征序列的文件file，结束。

2.如权利要求1所述的一种用于网络流量识别的流量数据公共特征提取方法，其特征在于所述N_p和N_b满足10≤N_p≤50，40≤N_b≤200，所述MINL、MAXL满足2≤MINL≤6，16≤MAXL≤30。

3.如权利要求2所述的一种用于网络流量识别的流量数据公共特征提取方法，其特征在于所述N_p为20，N_b为100；所述MINL为3，MAXL为20。

4.如权利要求1所述的一种用于网络流量识别的流量数据公共特征提取方法，其特征在于第二步所述流量数据文件采用UNIBS-2009流量数据集或CTU-13网络流量数据集。

5.如权利要求1所述的一种用于网络流量识别的流量数据公共特征提取方法，其特征在于2.3.3步所述阈值m为100毫秒。

6.如权利要求1所述的一种用于网络流量识别的流量数据公共特征提取方法，其特征在于所述MAX为256。