CN105430021A

CN105430021A - 基于载荷相邻概率模型的加密流量识别方法

Info

Publication number: CN105430021A
Application number: CN201511028537.XA
Authority: CN
Inventors: 孙一品; 庞立会; 陈曙晖; 王飞; 钟求喜; 张博锋; 刘宇靖; 徐成成; 闫晓明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2016-03-23
Anticipated expiration: 2035-12-31
Also published as: CN105430021B

Abstract

本发明公开了一种基于载荷相邻概率模型的加密流量识别方法，目的是提供一种利用非加密流量特征的高准确性普适加密流量识别方法。技术方案是：第一步，输入非加密网络流量，统计报文数据载荷字节间的相邻次数，并选择数值点区分高概率相邻关系及低概率相邻关系，构建相邻概率关系模型；第二步，输入网络会话流量，提取相邻特征和随机性特征，同时辅以基于信息熵的数据随机性特征；第三步，将非加密流量及加密流量的相邻特征和随机性特征作为输入送入基于机器学习的分类引擎进行训练，继而根据未知流量的相邻特征和随机性特征进行加密流量识别。相比于目前主流加密流量识别方法，本发明可以对未知加密协议流量普适识别，且有效提升了识别准确性。

Description

基于载荷相邻概率模型的加密流量识别方法

技术领域

本发明涉及一种网络流量识别方法，特别是涉及一种基于载荷相邻概率模型的加密流量识别方法。

背景技术

当前，采用加密机制的网络协议越来越多。一方面，通信加密有助于安全和隐私保护，另一方面，也成为不法分子逃避安全监测和管理的屏障。加密流量识别对网络犯罪行为分析具有重要意义。

加密就是把明文转换为不可辨识的密文的过程，使非授权人无法识别和篡改。加密流量的本质是加密协议交互产生的加密数据。加密流量识别方法主要划分为两类：(1)基于数据载荷特征识别。某些加密协议在密钥协商阶段可能交互部分明文参数，比如版本号、密钥长度等，其值域范围及所在偏移位置可作为识别特征。该类方法有利于识别加密流量的协议类型或业务名称，但是必须针对应用定制协议识别规则，且不能识别未知加密协议。(2)基于数据随机性识别。随机性检测是评价加密算法好坏的关键指标，从识别的角度来说，数据随机性也是评判该数据是否为加密数据的重要凭证。该类方法适于普适加密流量识别，但准确性有待进一步提高。目前尚无利用非加密流量特征的普适加密流量识别方法。

发明内容

针对已有加密流量识别方法中，基于数据载荷特征识别的加密流量识别方法不能识别尚未定制协议识别规则的加密协议，而基于数据随机性识别的加密流量识别方法准确性不高的问题，本发明在已有数据随机性识别方法的基础上，首次利用非加密网络流量的载荷相邻特征改进加密流量识别，提供一种基于载荷相邻概率模型的加密流量识别方法。本发明的技术方案为：将载荷数据字符相邻关系按照概率统计值高低划分为高概率、低概率相邻关系两类，设计非加密流量数据载荷相邻概率模型；在此基础上，提取网络流量会话的相邻特征，统计高概率相邻关系连续出现的次数，从大到小选择若干个结果作为相邻特征，同时辅以基于信息熵的数据随机性特征；最后，将非加密流量及加密流量的相邻特征和随机性特征作为输入送入基于机器学习的分类引擎进行训练，继而根据未知流量的相邻特征和随机性特征进行加密流量识别。

具体技术方案如下：

第一步，建立载荷相邻概率模型。输入非加密网络流量，统计报文数据载荷字节间的相邻次数，并选择数值点区分高概率相邻关系及低概率相邻关系，构建相邻概率关系模型。具体步骤为：

步骤1.1初始化。初始化载荷相邻记录矩阵A[R][R]，及相邻概率关系矩阵B[R][R]，R为整数，由于ASCII码中有256个字符，R≥256，R优选为256。A、B矩阵大小均设置成R×R，初始值均为全0；0≤m≤R-1，0≤n≤R-1，m、n均为整数，A_m,n、B_m,n记录ASCII码中编码为m的字符与编码为n的字符之间的相邻次数和相邻概率，如字符a、b在ASCII码表中的十进制编码分别是97和98，A_97,98、B_97,98记录载荷中字符a与字符b相邻的次数和相邻概率，即载荷中字符ab出现的次数和概率。

步骤1.2统计报文数据载荷字节间的相邻次数，得到载荷相邻记录矩阵A。记共有P条非加密流量报文，记为Package₁,…,Package_p,…Package_P，1≤p≤P，p、P均为整数，Package_p中的数据载荷为DATA[p]，数据载荷长度为L_p，L_p≥2，L_p为整数。记DATA[p]_i为DATA[p]第i位对应的ASCII字符，1≤i≤L_p，i为整数。逐一读取P条非加密流量报文，遍历DATA[1],…,DATA[p],…DATA[P]，将单字节载荷之间的相邻关系统计入载荷相邻记录矩阵A，方法如下：

1.2.1令循环变量pp＝1；

1.2.2令临时变量ii＝1；

1.2.3记j＝DATA[pp]_ii，k＝DATA[pp]_ii+1，将A_j,k增1，即A_j,k＝A_j,k+1；

1.2.4循环变量ii＝ii+1；

1.2.5如果ii≤L_pp，转1.2.3；否则，循环变量pp＝pp+1；

1.2.6如果pp≤P，转1.2.2；否则，进入步骤1.3。

步骤1.3构建相邻概率关系矩阵B。读取载荷相邻记录矩阵A中的R²个元素按照数值从大到小排序，选取第N(1≤N≤R²，N为整数)个元素的数值作为分位点(即高概率相邻关系及低概率相邻关系分割点，记为Division)。依次遍历A中的每个元素，若A_m,n≥Division，则B_m,n＝1，即m与n之间为高概率相邻关系；否则，B_m,n保持为0，即m与n之间为低概率相邻关系。A矩阵遍历结束后，得到相邻概率关系矩阵B，即载荷相邻概率模型。

第二步，特征提取。输入网络会话流量，即报文同属于一个网络会话，且包含1字节以上的数据载荷，分别提取相邻特征和随机性特征。记网络会话中共包含Q条报文，记为Package₁’,…,Package_q’,…Package_Q’，1≤q≤Q，q、Q均为整数，Package_q’中的数据载荷为DATA[q]’，数据载荷长度为L_q，L_q≥2，L_q为整数。记DATA[q]_i为DATA[q]第i位对应的ASCII字符，1≤i≤L_q，i为整数。提取M维相邻特征，M为整数。具体步骤为：

步骤2.1相邻特征提取。将数据载荷中高概率相邻关系连续出现的次数与数据载荷长度的比值作为相邻特征，并将相邻特征存储在集合D中，D中允许包含重复数值。具体步骤包括：

2.1.1清空集合D；

2.1.2相邻特征计算。记高概率相邻关系连续出现的次数为count，count为整数，遍历DATA[1]’,…,DATA[q]’,…DATA[Q]’，统计高概率相邻关系连续出现的次数，并将其与数据载荷长度的比值，即count/n，作为相邻特征加入集合D。具体步骤包括：

2.1.2.1令循环变量qq＝1；

2.1.2.2令计数变量count＝0，循环变量iii＝1；

2.1.2.3令临时变量jj＝DATA[qq]_iii，kk＝DATA[qq]_iii+1；。

2.1.2.4如果B_jj,kk等于1，即为高概率相邻关系，count＝count+1，转2.1.2.6；否则，即为低概率相邻关系，进入2.1.2.5；

2.1.2.5如果count不等于0，将数值count/L_qq作为一个相邻特征加入集合D。令count＝0；

2.1.2.6循环变量iii＝iii+1；

2.1.2.7如果iii≤L_qq，转2.1.2.3；否则，进入2.1.2.8；

2.1.2.8如果count不等于0，将数值count/L_qq作为相邻特征加入集合D；

2.1.2.9循环变量qq＝qq+1，如果qq≤Q，转2.1.2.2；否则，进入2.1.3。

2.1.3相邻特征筛选。全部流量读取完毕后，将集合D中相邻特征按照数值大小排序，选取前M个数值，得到M维相邻特征E，E为大小为M的数组，E中数组元素间按照从大到小顺序排列。

步骤2.2基于信息熵的随机性特征提取。逐一计算报文数据载荷的字节信息熵，并按照报文总数求均值。具体步骤包括：

2.2.1令集合F存储每个报文的字符信息熵，初始为空；

2.2.2信息熵计算。逐一读取流量报文，令C[R]表示DATA数据载荷按字节遍历得到的取值分布，即C_t表示载荷取值等于t的字节个数，1≤t≤R。为统一表述，令log₂0等于0，按照式(1)计算信息熵：

H^{'} = - Σ_{t = 1}^{R} \frac{C_{t}}{n} \log_{2} \frac{C_{t}}{n}

式(1)

并将H′加入集合F。

2.2.3计算集合F中元素平均值H，得到随机性特征H。

第三步基于机器学习方法的分类识别。使用基于机器学习方法的分类引擎进行加密流量识别，共包括两个步骤：学习训练阶段和。步骤如下：

步骤3.1学习训练。将网络会话流量的相邻特征E、随机性特征H以及加密流量标记(标记特征是否来自加密流量)送入分类引擎，进行学习训练。训练完毕后，进入步骤3.2。

步骤3.2将网络会话流量相邻特征E及随机性特征H送入分类引擎，得到基于载荷相邻概率模型的加密流量识别结果。

基于机器学习方法的分类引擎设计可以采用本领域已有的设计技术，如使用开源机器学习软件WEKA提供的多层神经网络分类器(weka.classifiers.functions.MultilayerPerceptron-L0.3-M0.2-N500-V0-S0-E20-Ha)。

采用本发明可以达到以下有益效果：

1.本发明利用非加密网络流量的载荷相邻特征，将载荷数据字符相邻关系按照概率统计值高低划分为高概率、低概率相邻关系两类，设计非加密流量数据载荷相邻概率模型；在此基础上，提取网络流量会话的相邻特征，统计高概率相邻关系连续出现的次数，从大到小选择若干个结果作为相邻特征，同时辅以基于信息熵的数据随机性特征；最后，将非加密流量及加密流量的相邻特征和随机性特征作为输入送入基于机器学习的分类引擎进行训练，继而根据未知流量的相邻特征和随机性特征进行加密流量识别。因此，相对于基于数据载荷特征识别的加密流量识别方法不能识别尚未定制协议识别规则的加密协议，本发明可以对未知加密协议流量普适识别；相对于基于数据随机性识别的加密流量识别方法，本发明基于数据随机性的识别方法辅以相邻概率模型，有效提升了识别准确性。

附图说明

图1是本发明基于载荷相邻概率模型的加密流量识别流程图；

图2是本发明第一步建立载荷相邻概率模型流程图；

图3是本发明第二步特征提取流程图。

具体实施方式

下面结合实例对本发明的实施方式进行进一步详细说明。

第一步建立载荷相邻概率模型。

采用单个报文网络会话作为输入介绍处理过程。为便于表述，采用特别构造的数据载荷，不能反映真实的非加密流量特征，仅示意处理过程。

步骤1.1初始化。初始化载荷相邻记录矩阵A[256][256]及相邻概率关系矩阵B[256][256]，矩阵A和B初始值均为全0。

步骤1.2令输入的报文数据载荷DATA1＝“0x000x000x010x010x000x000x010x01”(16进制表示，共8个字节)，得到相邻次数矩阵A，见表1，其中“0x00”与“0x00”相邻2次，“0x00”与“0x01”相邻2次，“0x01”与“0x00”相邻1次，“0x01”与“0x01”相邻2次，其余的相邻计数均为0次。

表1相邻次数矩阵A

	0x00	0x01	0x02	……	0xFF
						0x00	2	2	0	……	0
0x01	1	2	0	……	0
						0x02	0	0	0	……	0
……	……	……	……	……	0
						0xFF	0	0	0	0	0

步骤1.3对相邻次数矩阵A中的记录进行排序，假定选择第3个数值(即N＝3)作为分位数值(即Division＝2)，将相邻次数矩阵A转换为相邻关系矩阵B，见表2，因为“0x00”与“0x00”、“0x00”与“0x01”、“0x01”与“0x01”相邻次数不小于分位数值Division，所以令B_0,0、B_0,1及B_1,0等于1，即高概率相邻关系；其他元素等于0，即低概率相邻关系。

表2相邻关系矩阵B

	0x00	0x01	0x02	……	0xFF
						0x00	1	1	0	……	0
0x01	0	1	0	……	0
						0x02	0	0	0	……	0
……	……	……	……	……	0
						0xFF	0	0	0	0	0

第二步特征提取。

令输入的报文数据载荷DATA2＝“0x000x010x020x000x010x000x010x01”(16进制表示，共8个字节)。假定每个会话提取2维相邻特征(即M＝2)。

步骤2.1相邻特征提取。

根据相邻关系矩阵B，遍历DATA2得到高概率相邻关系连续出现的次数分别为1、1、2，即相邻特征分别为1/8、1/8、2/8。因每个会话提取2维相邻特征，则相邻特征E＝[2/8,1/8]。

步骤2.2基于信息熵的随机性特征提取。

DATA2共包含8字节，其中“0x00”出现3次，“0x01”出现4次，“0x02”出现1次，计算熵值

H^{'} = - (\frac{3}{8} \log_{2} \frac{3}{8} + \frac{4}{8} \log_{2} \frac{4}{8} + \frac{1}{8} \log_{2} \frac{1}{8}) \approx 1.4

第三步基于机器学习方法的分类识别。使用基于机器学习方法的分类引擎进行加密流量识别。步骤如下：

步骤3.1学习训练。将网络会话流量的相邻特征E、随机性特征H以及加密流量标记(标记特征是否来自加密流量)送入识别引擎，进行学习训练。训练完毕后，进入步骤3.2。

步骤3.2输入网络会话流量相邻特征E及随机性特征H，得到基于载荷相邻概率模型的加密流量识别结果。

本发明实现了原型系统，并采用真实网络流量进行了测试。

采用1.49G实网非加密流量训练相邻概率矩阵模型，其中，包含TCP/UDP数据载荷的报文共计1950819个，数据载荷共计1472840379字节。针对相邻次数矩阵A选取数值从大到小第13107个数值作为分位点，得到相邻关系矩阵B，共有13113矩阵元素等于1(即高概率相邻关系)。

从其他数据源(不同于1.49G实网非加密流量)采集33个完整网络会话，其中21个属于非加密流量，12个属于加密协议流量。每个会话提取6维相邻特征，并计算熵值特征。

基于机器学习的分类引擎使用开源机器学习软件WEKA提供的多层神经网络分类器(weka.classifiers.functions.MultilayerPerceptron-L0.3-M0.2-N500-V0-S0-E20-Ha)。进行10轮交叉验证，识别结果如表3所示，准确率为87.9％。作为对比，采用已知文献(陈利,张利,班晓芳,梁杰.基于信息熵的加密会话检测方法[J].计算机科学,2015,42(1):142-144)提供的基于数据随机性的识别方法，计算相对熵值，并采用该文献建议的相对熵值区间[0.665,0.845]作为加密流量识别标准，识别准确率仅为54.5％。可见，辅以相邻概率模型，能够有效提高加密流量的识别准确率。

表3识别结果对比

分类	总数	本发明正确识别数	已知参考文献
				非加密	21	18	18
加密	12	11	0

Claims

1.基于载荷相邻概率模型的加密流量识别方法，其特征在于包含以下步骤：

第一步，建立载荷相邻概率模型：输入非加密网络流量，统计报文数据载荷字节间的相邻次数，并选择数值点区分高概率相邻关系及低概率相邻关系，构建相邻概率关系模型，得到相邻概率关系矩阵，即载荷相邻概率模型；

第二步，特征提取：输入网络会话流量，分别提取相邻特征和随机性特征；

第三步基于机器学习方法的分类识别：使用基于机器学习方法的分类引擎进行加密流量识别，将非加密流量及加密流量的相邻特征和随机性特征作为输入送入基于机器学习的分类引擎进行训练，训练结束后，根据未知流量的相邻特征和随机性特征进行加密流量识别，得到基于载荷相邻概率模型的加密流量识别结果。

2.如权利要求1所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述第一步建立载荷相邻概率模型，具体步骤为：

步骤1.1初始化：初始化载荷相邻记录矩阵A[R][R]，及相邻概率关系矩阵B[R][R]，R为整数，由于ASCII码中有256个字符，R≥256，A、B矩阵大小均设置成R×R，初始值均为全0；0≤m≤R-1，0≤n≤R-1，m、n均为整数，A_m,n、B_m,n记录ASCII码中编码为m的字符与编码为n的字符之间的相邻次数和相邻概率；

步骤1.2统计报文数据载荷字节间的相邻次数，得到载荷相邻记录矩阵A：记共有P条非加密流量报文，记为Package₁,…,Package_p,…Package_P，1≤p≤P，p、P均为整数，Package_p中的数据载荷为DATA[p]，数据载荷长度为L_p，L_p≥2，L_p为整数；记DATA[p]_i为DATA[p]第i位对应的ASCII字符，1≤i≤L_p，i为整数；逐一读取P条非加密流量报文，遍历DATA[1],…,DATA[p],…DATA[P]，将单字节载荷之间的相邻关系统计入载荷相邻记录矩阵A；

步骤1.3构建相邻概率关系矩阵B：读取载荷相邻记录矩阵A中的R²个元素按照数值从大到小排序，选取第N个元素的数值作为分位点，即高概率相邻关系及低概率相邻关系分割点，记为Division，1≤N≤R²，N为整数；依次遍历A中的每个元素，若A_m,n≥Division，则B_m,n＝1，即m与n之间为高概率相邻关系；否则，B_m,n保持为0，即m与n之间为低概率相邻关系；A矩阵遍历结束后，得到相邻概率关系矩阵B，即载荷相邻概率模型。

3.如权利要求1所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述第二步特征提取，包括相邻特征提取和随机性特征提取两步，记网络会话中共包含Q条报文，记为Package₁’,…,Package_q’,…Package_Q’，1≤q≤Q，q、Q均为整数，Package_q’中的数据载荷为DATA[q]’，数据载荷长度为L_q，L_q≥2，L_q为整数；记DATA[q]_i为DATA[q]第i位对应的ASCII字符，1≤i≤L_q，i为整数；提取M维相邻特征，M为整数；具体步骤为：

步骤2.1相邻特征提取；将数据载荷中高概率相邻关系连续出现的次数与数据载荷长度的比值作为相邻特征，并将相邻特征存储在集合中；

步骤2.2基于信息熵的随机性特征提取；逐一计算报文数据载荷的字节信息熵，并按照报文总数求均值。

4.如权利要求2所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述步骤1.2中统计报文数据载荷字节间的相邻次数，得到载荷相邻记录矩阵A，方法如下：

1.2.1令循环变量pp＝1；

1.2.2令临时变量ii＝1；

1.2.4循环变量ii＝ii+1；

1.2.5如果ii≤L_pp，转1.2.3；否则，循环变量pp＝pp+1；

1.2.6如果pp≤P，转1.2.2；否则，结束。

5.如权利要求3所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述步骤2.1相邻特征提取，具体步骤包括：

2.1.1清空集合D，集合D中存储相邻特征，D中允许包含重复数值；

2.1.2相邻特征计算；记高概率相邻关系连续出现的次数为count，count为整数，遍历DATA[1]’,…,DATA[q]’,…DATA[Q]’，统计高概率相邻关系连续出现的次数，并将其与数据载荷长度的比值，即count/n，作为相邻特征加入集合D；

2.1.3相邻特征筛选；全部流量读取完毕后，将集合D中相邻特征按照数值大小排序，选取前M个数值，得到M维相邻特征E，E为大小为M的数组，E中数组元素间按照从大到小顺序排列。

6.如权利要求3所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述步骤2.2基于信息熵的随机性特征提取，具体步骤包括：

2.2.1令集合F存储每个报文的字符信息熵，初始为空；

2.2.2信息熵计算：逐一读取流量报文，令C[R]表示DATA数据载荷按字节遍历得到的取值分布，即C_t表示载荷取值等于t的字节个数，1≤t≤R；为统一表述，令log₂0等于0，按照式(1)计算信息熵：

H^{'} = - Σ_{t = 1}^{R} \frac{C_{t}}{n} \log_{2} \frac{C_{t}}{n}

公式(1)

并将H′加入集合F；

2.2.3计算集合F中元素平均值H，得到随机性特征H。

7.如权利要求5所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述2.1.2相邻特征计算，具体步骤包括：

2.1.2.1令循环变量qq＝1；

2.1.2.2令计数变量count＝0，循环变量iii＝1；

2.1.2.3令临时变量jj＝DATA[qq]_iii，kk＝DATA[qq]_iii+1；；

2.1.2.4如果B_jj,kk等于1，即为高概率相邻关系，count＝count+1，转2.1.2.6；否

则，即为低概率相邻关系，进入2.1.2.5；

2.1.2.5如果count不等于0，将数值count/L_qq作为一个相邻特征加入集合D；令count＝0；

2.1.2.6循环变量iii＝iii+1；

2.1.2.7如果iii≤L_qq，转2.1.2.3；否则，进入2.1.2.8；

2.1.2.9循环变量qq＝qq+1，如果qq≤Q，转2.1.2.2；否则，结束。

8.如权利要求1-7中任意一项所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述基于机器学习方法的分类引擎设计使用开源机器学习软件WEKA提供的多层神经网络分类器weka.classifiers.functions.MultilayerPerceptron-L0.3-M0.2-N500-V0-S0-E20-Ha。

9.如权利要求1-7中任意一项所述的基于载荷相邻概率模型的加密流量识别方法，其特征在于所述R优选为256，即矩阵A和B大小优选为256×256。