CN104767739A

CN104767739A - 将未知多协议混合数据帧分离为单协议数据帧的方法

Info

Publication number: CN104767739A
Application number: CN201510127523.7A
Authority: CN
Inventors: 张凤荔; 周洪川; 刘渊; 郝玉洁; 张俊娇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2015-07-08
Anticipated expiration: 2035-03-23
Also published as: CN104767739B

Abstract

本发明公开了一种将未知多协议混合数据帧分离为单协议数据帧的方法，它包括以下步骤：S1.将二进制数据转换为十六进制格式，输入n行m列的混合未知协议数据帧；S2.计算所输入的未知协议数据帧的种类数的近似值K；S3.使用K-means算法指定K值进行聚类，得到n个类簇；S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏；S5.将聚类效果好的类簇放入结果集中，提取该类的指纹信息，并存入指纹库。提供一种将未知多协议混合数据帧分离为单协议数据帧的方法，解决了混合协议种类数K的近似值计算困难，将不同的协议区分开困难，协议帧类簇的评估准确度低，难以直观有效的问题。

Description

将未知多协议混合数据帧分离为单协议数据帧的方法

技术领域

本发明涉及一种将未知多协议混合数据帧分离为单协议数据帧的方法。

背景技术

随着科学技术的发展和计算机技术水平的提高，网络的发展日趋复杂，保障信息网络的安全已成为国家信息化战略的核心内容，在特定的网络环境下，通过特殊手段进行窃密的威胁日趋严峻，此类窃密途径通常是通过无线通信的方式发送，且这种通信采用的数据大多数为未知多协议混合数据，因此，将未知多协议混合数据帧分离为单协议数据帧，对协议的识别以及信息安全的后续判定就非常重要。

但目前的将未知多协议混合数据帧分离为单协议数据帧的方法中，具有三个难点，对混合多协议数据帧协议种类近似值K的计算困难，将不同的协议区分开困难，对协议聚类效果的评估准确度低，难以直观有效。

发明内容

本发明的目的在于克服现有技术的不足，提供一种将未知多协议混合数据帧分离为单协议数据帧的方法，解决了混合协议种类数K的近似值计算困难，将不同的协议区分开困难，协议帧类簇的评估准确度低，难以直观有效的问题。

本发明的目的是通过以下技术方案来实现的：将未知多协议混合数据帧分离为单协议数据帧的方法，它包括以下步骤：

S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧；

S2.计算所输入的未知协议数据帧的种类数的近似值K；

S3.使用K-means算法指定K值进行聚类，得到n个类簇；

S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏；

S5.将聚类效果好的类簇放入结果集中，提取该类的指纹信息，并存入指纹库；

所述的步骤S1中输入的n行m列的混合未知协议数据帧，每一种协议都具有协议标识，同种协议的标识在相同位置会出现；不同种协议的协议标识可能出现在不同位置，也可能出现在相同位置；协议标识的长度不定但不少于1字节；不同协议的数据帧数量不同。

所述的步骤S2包括以下子步骤：

S21.将输入数据构成二维矩阵，一个字节作为最小处理单元；

S22.计算出每一列中出现频率最高的字符，表示为a1,a2,a3,…,am,同时计算出a1到am中，每个字节都有哪些行出现，分别由集合S1,S2,S3,…Sm表示；

S23.将出现频率大于liminal％的字符以及出现频率小于low_liminal％的字符剔除，设有i个，令m＝m-i；

S24.找出集合S1到Sm中，集合中个数最多的一个，设为Smax，设集合R，元素为集合S，先将Smax加入集合R；

S25.遍历集合S1到Sm，如果Sx与集合R中所有的集合的交集率都低于uniterate％，将Sx加入集合R,如果交集率高于uniterate％，则取Smax与Sx的交集作为Smax；

S26.集合R中元素的个数，即为要求的K的近似值，求出R中所有元素的并集，即为筛选出来的数据帧；

S27.将筛选出来的数据帧从输入数据帧中除去，如果剩余的数据帧数量仍比较大，可再次做为输入样本计算这些数据帧的K值；

S28.取uniterate的值从50到99，得出对应的K值，以uniterate的值为X轴，K值为Y轴作曲线；

S29.取K值变化比较平缓的最大uniterate区间，计算在此区间内的K的平均值，即为所求的协议种类数的近似值。

所述的Liminal和low_liminal为可设置变量，如Liminal设置为99，low_liminal设置为10；；

所述的步骤S3包括以下子步骤：

S31.输入处理好的协议数据帧和簇的数目K；

S32.任意选择K个数据对象作为初始聚类中心；

S33.计算各个数据到所选出来的各个中心的距离，将数据对象指派到最近的簇中，然后计算每个簇的均值，根据簇中对象的平均值，将每个对象赋给最类似的簇；

S34.更新簇的平均值，即计算每个对象簇中对象的平均值；

S35.计算聚类准则函数E，并判断聚类准则函数E是否收敛：

(1)若聚类准则函数E不收敛，跳转至步骤S32；

(2)若聚类准则函数E收敛，则输出聚类结果。

所述的步骤S4包括以下子步骤：

S41：将步骤S2得到的经过处理的数据帧转换为列二维矩阵，每一个元素为一个字节；遍历所有字节，计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中，每个字节出现的概率；

S42：遍历所有字节，计算出每一列中出现频率最高的字符，并分别表示为a1,a2,a3,…,am；同时计算出这些字符在哪些行出现，并分别由集合S1,S2,S3,…Sm表示，即a1为第一列出现频率最高的字符，S1为第一列中出现字符a1的所有行的行号的集合；并将出现的次数除以总行数就得到该字节出现的频率Pi；

S43：计算每一列的熵值H，由于有m列则有m个熵值，计算公式如下：

H = - Σ_{i = 1}^{m} P_{i} lb P_{i};

式中，m为一列中字符的种类数，Pi为第i中字符出现的概率，对数以2为底；

S44：以列号为X轴，该列的熵值为Y轴做图，分析聚类结果的好坏：

设定一个评估阈值low_entropy，当越多的列熵值小于low_entropy，聚类效果就越好。

本发明的有益效果是：(1)提出了计算混合协议种类数的方法，能够有效的计算出协议种类数的近似值K，为接下来使用的聚类算法提供很好的参数；(2)使用K-means聚类的方法能够有效的将不同的协议区分开；(3)使用熵值来判断一个聚类的类簇的好坏，有比较好的效果，因为一列的熵值代表了这一列的信息混杂度，如果是同类型的协议帧，协议存在类型标识，并且类型标识会在同样的位置出现，那么一定存在某列，使得这一列的熵值很小，接近0；因此，可以用这样的标准来评价我们聚类的效果：对于给定的类簇，如果存在熵值接近0的列，就认为这个类簇的聚类效果好，反之则认为效果不好。

附图说明

图1为本发明的流程图；

图2为实施例一的结果表格；

图3为实施例一的结果曲线图；

图4为实施例二中随机种子设为10的结果示意图；

图5为实施例二中随机种子设为5的结果示意图；

图6为实施例二中随机种子设为15的结果示意图；

图7为2000条单协议数据帧每列的熵值图；

图8为2500条多协议混合数据帧每列的熵值图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，将未知多协议混合数据帧分离为单协议数据帧的方法，它包括以下步骤：

S2.计算所输入的未知协议数据帧的种类数的近似值K；

S3.使用K-means算法指定K值进行聚类，得到n个类簇；

S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏；

所述的步骤S2包括以下子步骤：

S21.将输入数据构成二维矩阵，一个字节作为最小处理单元；

所述的步骤S3包括以下子步骤：

S31.输入处理好的协议数据帧和簇的数目K；

S32.任意选择K个数据对象作为初始聚类中心；

S34.更新簇的平均值，即计算每个对象簇中对象的平均值；

S35.计算聚类准则函数E，并判断聚类准则函数E是否收敛：

(1)若聚类准则函数E不收敛，跳转至步骤S32；

(2)若聚类准则函数E收敛，则输出聚类结果。

所述的步骤S4包括以下子步骤：

H = - Σ_{i = 1}^{m} P_{i} lb P_{i};

实施例一，协议种类K的计算，取Tcpdump中的27种协议，每一种取100条数据帧，不够100条的全部取；每一条数据帧取前68字节；将所得的协议混合起来作为输入；变量设置：Liminal设为95，low_liminal设为10；

uniterate取50到99记录对应的K值，以下是liminal＝95；low_liminal＝10；uniterate＝99的实验简要结果：

帧最大长度为：68；

帧总数：2509；

列统计器个数:68；

候选结果集中集合个数：62；

结果集中集合个数：27；

字节:00；出现次数：2379；频率：0.9481865；出现的行数：未显示；

字节:10；出现次数：1172；频率：0.46711838；出现的行数：未显示；

字节:7b；出现次数：700；频率：0.2789956；出现的行数：未显示；

字节:38；出现次数：700；频率：0.2789956；出现的行数：未显示；

字节:46；出现次数：700；频率：0.2789956；出现的行数：未显示；

字节:33；出现次数：700；频率：0.2789956；出现的行数：未显示；

字节:10；出现次数：1415；频率：0.56396973；出现的行数：未显示；

字节:7b；出现次数：810；频率：0.32283777；出现的行数：未显示；

字节:38；出现次数：810；频率：0.32283777；出现的行数：未显示；

字节:46；出现次数：810；频率：0.32283777；出现的行数：未显示；

字节:33；出现次数：810；频率：0.32283777；出现的行数：未显示；

字节:08；出现次数：2279；频率：0.90833；出现的行数：未显示；

字节:45；出现次数：2179；频率：0.8684735；出现的行数：未显示；

字节:40；出现次数：1368；频率：0.5452371；出现的行数：未显示；

字节:80；出现次数：589；频率：0.23475488；出现的行数：未显示；

字节:06；出现次数：1340；频率：0.53407735；出现的行数：未显示；

字节:ac；出现次数：1635；频率：0.65165406；出现的行数：未显示；

字节:10；出现次数：1635；频率：0.65165406；出现的行数：未显示；

字节:70；出现次数：995；频率：0.39657235；出现的行数：未显示；

字节:64；出现次数：589；频率：0.23475488；出现的行数：未显示；

字节:ac；出现次数：1566；频率：0.6241531；出现的行数：未显示；

字节:10；出现次数：1566；频率：0.6241531；出现的行数：未显示；

字节:70；出现次数：764；频率：0.3045038；出现的行数：未显示；

字节:64；出现次数：556；频率：0.22160223；出现的行数：未显示；

字节:50；出现次数：1323；频率：0.5273017；出现的行数：未显示；

字节:18；出现次数：1143；频率：0.45556；出现的行数：未显示；

字节:43；出现次数：275；频率：0.109605424；出现的行数：未显示。

设置liminal＝95；low_liminal＝10；

uniterate的值设定为从50到99的结果表格如图2所示，根据表格的到的结果曲线图如图3所示。

根据上表中的数据，取相对最大平滑区间(80-99)的平均值：

K＝(25+25+25+27+27)/5＝25.8；

因此，k值取26。

实施例二，对于k-means聚类实验：

数据输入：

Tcpdump中的27种协议，每一种取100条数据帧，不够100条的全部取；每一条数据帧取前68字节；将所得的协议混合起来，每条数据帧后面做上协议类型标记，用于weka的Classes to clusters evaluation功能评估聚类效果的好坏。

操作步骤：

1、用weka打开arff格式文件。

2、使用StringToWordVector过滤器处理文本属性StringToVector的WordCount参数设为flase，其他使用默认的参数设置。处理后数据流的每一个字节表示一个属性，一共有256个属性，属性值为1或0，1表示该属性有，0表示没有。

3、选择weka中的simplemeans聚类算法进行聚类，选中Classes to clustersevaluation，算法的K值设为26，随机种子seed设为5，10，15计算平均值。

随机种子设为10的结果如图4所示，随机种子设为5的结果如图5所示，随机种子设为15的结果如图6所示。

聚类的总体错误的分类实例数分别为40.5％，38.1％，33.32％，平均值为37.2％。也就是有62.8％的正确率。

实施例三，聚类效果评估实验：

设计以下2个实验，一个是使用2000条单协议数据帧作为输入，另一个是使用2500条多协议混合的数据帧作为数据，然后将得到的熵值进行对比分析判断聚类类簇的好坏。

(1)2000条单协议每一列的熵值计算如下：

列号	熵值	列号	熵值	列号	熵值
						1	1.73797	15	0	29	2.923939
2	2.579031	16	0	30	3.635007
						3	3.253605	17	0	31	4.842482
4	3.443339	18	0	32	5.652463
						5	3.573282	19	0	33	0.677264
6	3.781037	20	0	34	2.003118
						7	0.739385	21	0	35	3.112292
8	2.533421	22	1.30097	36	3.222453
						9	3.2976	23	0.739385	37	3.317778
10	3.568274	24	2.533421	38	3.374964
						11	3.77027	25	3.2976	39	2.923939
12	4.031571	26	3.568274	40	3.635007
						13	0	27	3.77027	41	4.83754
14	0	28	4.031571	42	5.654962

2000条单协议数据帧每列的熵值图如图7所示。

(2)2500条多协议混合数据帧每列的熵值计算如下：

列号	熵值	列号	熵值	列号	熵值
						1	1.749679	15	0.948731	29	4.242668
2	2.424071	16	1.81334	30	5.41643
						3	3.554995	17	1.89479	31	3.047061
4	3.774774	18	7.744579	32	3.279877
						5	3.774774	19	8.850714	33	4.820877
6	3.774774	20	8.691174	34	5.511736
						7	0.860268	21	1.665774	35	3.738378
8	1.945346	22	0.504124	36	6.786242
						9	2.811111	23	3.906183	37	4.319735
10	3.117158	24	2.521798	38	7.148305
						11	3.117158	25	9.487966	39	5.022653
12	3.117158	26	9.803289	40	7.954479
						13	0.745415	27	2.879997	41	8.894831
14	0.745415	28	3.184749	42	9.403014

2500条多协议混合数据帧每列的熵值图如图8所示。

从实验结果可以看出：

(1)协议混合的熵值最小为0.504124，最大为9.803289，而且小于设定阈值low_entropy的的列没有；

(2)单协议熵最小为0，最大为5.654962，而且各个列的值均较小，小于low_entropy的列有9列；熵值为0的，说明该列只有一种字符。

由于熵值的大小代表了信息混杂程度的大小，在数据帧量很大的情况下，如果是同一种协议的数据帧，那么总有那么一列或几列的熵值接近0；如果是多种协议混合的，熵值接近0的列几乎不会有。因此可以用计算熵值的方法来评估未知协议聚类的好坏，标准就是：越多的列熵值越小，聚类效果就越好。

Claims

1.将未知多协议混合数据帧分离为单协议数据帧的方法，其特征在于：它包括以下步骤：

S1.将二进制数据转换为十六进制格式，输入n行m列的混合未知协议数据帧；

S2.计算所输入的未知协议数据帧的种类数的近似值K；

S3.使用K-means算法指定K值进行聚类，得到n个类簇；

S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏；

S5.将聚类效果好的类簇放入结果集中，提取该类的指纹信息，并存入指纹库。

2.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法，其特征在于：所述的步骤S1中输入的n行m列的混合未知协议数据帧，每一种协议都具有协议标识，同种协议的标识在相同位置会出现；不同种协议的协议标识可能出现在不同位置，也可能出现在相同位置；协议标识的长度不定但不少于1字节；不同协议的数据帧数量不同。

3.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法，其特征在于：所述的步骤S2包括以下子步骤：

S21.将输入数据构成二维矩阵，一个字节作为最小处理单元；

4.根据权利要求3所述的将未知多协议混合数据帧分离为单协议数据帧的方法，其特征在于：所述的Liminal和low_liminal为可设置变量，如Liminal设置为99，low_liminal 设置为10。

5.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法，其特征在于：所述的步骤S3包括以下子步骤：

S31.输入处理好的协议数据帧和簇的数目K；

S32.任意选择K个数据对象作为初始聚类中心；

S34.更新簇的平均值，即计算每个对象簇中对象的平均值；

S35.计算聚类准则函数E，并判断聚类准则函数E是否收敛：

(1)若聚类准则函数E不收敛，跳转至步骤S32；

(2)若聚类准则函数E收敛，则输出聚类结果。

6.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法，其特征在于：所述的步骤S4包括以下子步骤：