CN104767739A - 将未知多协议混合数据帧分离为单协议数据帧的方法 - Google Patents

将未知多协议混合数据帧分离为单协议数据帧的方法 Download PDF

Info

Publication number
CN104767739A
CN104767739A CN201510127523.7A CN201510127523A CN104767739A CN 104767739 A CN104767739 A CN 104767739A CN 201510127523 A CN201510127523 A CN 201510127523A CN 104767739 A CN104767739 A CN 104767739A
Authority
CN
China
Prior art keywords
row
protocol
data frame
entropy
bunch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510127523.7A
Other languages
English (en)
Other versions
CN104767739B (zh
Inventor
张凤荔
周洪川
刘渊
郝玉洁
张俊娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510127523.7A priority Critical patent/CN104767739B/zh
Publication of CN104767739A publication Critical patent/CN104767739A/zh
Application granted granted Critical
Publication of CN104767739B publication Critical patent/CN104767739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种将未知多协议混合数据帧分离为单协议数据帧的方法,它包括以下步骤:S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;S2.计算所输入的未知协议数据帧的种类数的近似值K;S3.使用K-means算法指定K值进行聚类,得到n个类簇;S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库。提供一种将未知多协议混合数据帧分离为单协议数据帧的方法,解决了混合协议种类数K的近似值计算困难,将不同的协议区分开困难,协议帧类簇的评估准确度低,难以直观有效的问题。

Description

将未知多协议混合数据帧分离为单协议数据帧的方法
技术领域
本发明涉及一种将未知多协议混合数据帧分离为单协议数据帧的方法。
背景技术
随着科学技术的发展和计算机技术水平的提高,网络的发展日趋复杂,保障信息网络的安全已成为国家信息化战略的核心内容,在特定的网络环境下,通过特殊手段进行窃密的威胁日趋严峻,此类窃密途径通常是通过无线通信的方式发送,且这种通信采用的数据大多数为未知多协议混合数据,因此,将未知多协议混合数据帧分离为单协议数据帧,对协议的识别以及信息安全的后续判定就非常重要。
但目前的将未知多协议混合数据帧分离为单协议数据帧的方法中,具有三个难点,对混合多协议数据帧协议种类近似值K的计算困难,将不同的协议区分开困难,对协议聚类效果的评估准确度低,难以直观有效。
发明内容
本发明的目的在于克服现有技术的不足,提供一种将未知多协议混合数据帧分离为单协议数据帧的方法,解决了混合协议种类数K的近似值计算困难,将不同的协议区分开困难,协议帧类簇的评估准确度低,难以直观有效的问题。
本发明的目的是通过以下技术方案来实现的:将未知多协议混合数据帧分离为单协议数据帧的方法,它包括以下步骤:
S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;
S2.计算所输入的未知协议数据帧的种类数的近似值K;
S3.使用K-means算法指定K值进行聚类,得到n个类簇;
S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;
S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库;
所述的步骤S1中输入的n行m列的混合未知协议数据帧,每一种协议都具有协议标识,同种协议的标识在相同位置会出现;不同种协议的协议标识可能出现在不同位置,也可能出现在相同位置;协议标识的长度不定但不少于1字节;不同协议的数据帧数量不同。
所述的步骤S2包括以下子步骤:
S21.将输入数据构成二维矩阵,一个字节作为最小处理单元;
S22.计算出每一列中出现频率最高的字符,表示为a1,a2,a3,…,am,同时计算出a1到am中,每个字节都有哪些行出现,分别由集合S1,S2,S3,…Sm表示;
S23.将出现频率大于liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个,令m=m-i;
S24.找出集合S1到Sm中,集合中个数最多的一个,设为Smax,设集合R,元素为集合S,先将Smax加入集合R;
S25.遍历集合S1到Sm,如果Sx与集合R中所有的集合的交集率都低于uniterate%,将Sx加入集合R,如果交集率高于uniterate%,则取Smax与Sx的交集作为Smax;
S26.集合R中元素的个数,即为要求的K的近似值,求出R中所有元素的并集,即为筛选出来的数据帧;
S27.将筛选出来的数据帧从输入数据帧中除去,如果剩余的数据帧数量仍比较大,可再次做为输入样本计算这些数据帧的K值;
S28.取uniterate的值从50到99,得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S29.取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值。
所述的Liminal和low_liminal为可设置变量,如Liminal设置为99,low_liminal设置为10;;
所述的步骤S3包括以下子步骤:
S31.输入处理好的协议数据帧和簇的数目K;
S32.任意选择K个数据对象作为初始聚类中心;
S33.计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中,然后计算每个簇的均值,根据簇中对象的平均值,将每个对象赋给最类似的簇;
S34.更新簇的平均值,即计算每个对象簇中对象的平均值;
S35.计算聚类准则函数E,并判断聚类准则函数E是否收敛:
(1)若聚类准则函数E不收敛,跳转至步骤S32;
(2)若聚类准则函数E收敛,则输出聚类结果。
所述的步骤S4包括以下子步骤:
S41:将步骤S2得到的经过处理的数据帧转换为列二维矩阵,每一个元素为一个字节;遍历所有字节,计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中,每个字节出现的概率;
S42:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;并将出现的次数除以总行数就得到该字节出现的频率Pi;
S43:计算每一列的熵值H,由于有m列则有m个熵值,计算公式如下:
H = - Σ i = 1 m P i lb P i ;
式中,m为一列中字符的种类数,Pi为第i中字符出现的概率,对数以2为底;
S44:以列号为X轴,该列的熵值为Y轴做图,分析聚类结果的好坏:
设定一个评估阈值low_entropy,当越多的列熵值小于low_entropy,聚类效果就越好。
本发明的有益效果是:(1)提出了计算混合协议种类数的方法,能够有效的计算出协议种类数的近似值K,为接下来使用的聚类算法提供很好的参数;(2)使用K-means聚类的方法能够有效的将不同的协议区分开;(3)使用熵值来判断一个聚类的类簇的好坏,有比较好的效果,因为一列的熵值代表了这一列的信息混杂度,如果是同类型的协议帧,协议存在类型标识,并且类型标识会在同样的位置出现,那么一定存在某列,使得这一列的熵值很小,接近0;因此,可以用这样的标准来评价我们聚类的效果:对于给定的类簇,如果存在熵值接近0的列,就认为这个类簇的聚类效果好,反之则认为效果不好。
附图说明
图1为本发明的流程图;
图2为实施例一的结果表格;
图3为实施例一的结果曲线图;
图4为实施例二中随机种子设为10的结果示意图;
图5为实施例二中随机种子设为5的结果示意图;
图6为实施例二中随机种子设为15的结果示意图;
图7为2000条单协议数据帧每列的熵值图;
图8为2500条多协议混合数据帧每列的熵值图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,将未知多协议混合数据帧分离为单协议数据帧的方法,它包括以下步骤:
S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;
S2.计算所输入的未知协议数据帧的种类数的近似值K;
S3.使用K-means算法指定K值进行聚类,得到n个类簇;
S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;
S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库;
所述的步骤S1中输入的n行m列的混合未知协议数据帧,每一种协议都具有协议标识,同种协议的标识在相同位置会出现;不同种协议的协议标识可能出现在不同位置,也可能出现在相同位置;协议标识的长度不定但不少于1字节;不同协议的数据帧数量不同。
所述的步骤S2包括以下子步骤:
S21.将输入数据构成二维矩阵,一个字节作为最小处理单元;
S22.计算出每一列中出现频率最高的字符,表示为a1,a2,a3,…,am,同时计算出a1到am中,每个字节都有哪些行出现,分别由集合S1,S2,S3,…Sm表示;
S23.将出现频率大于liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个,令m=m-i;
S24.找出集合S1到Sm中,集合中个数最多的一个,设为Smax,设集合R,元素为集合S,先将Smax加入集合R;
S25.遍历集合S1到Sm,如果Sx与集合R中所有的集合的交集率都低于uniterate%,将Sx加入集合R,如果交集率高于uniterate%,则取Smax与Sx的交集作为Smax;
S26.集合R中元素的个数,即为要求的K的近似值,求出R中所有元素的并集,即为筛选出来的数据帧;
S27.将筛选出来的数据帧从输入数据帧中除去,如果剩余的数据帧数量仍比较大,可再次做为输入样本计算这些数据帧的K值;
S28.取uniterate的值从50到99,得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S29.取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值。
所述的Liminal和low_liminal为可设置变量,如Liminal设置为99,low_liminal设置为10;;
所述的步骤S3包括以下子步骤:
S31.输入处理好的协议数据帧和簇的数目K;
S32.任意选择K个数据对象作为初始聚类中心;
S33.计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中,然后计算每个簇的均值,根据簇中对象的平均值,将每个对象赋给最类似的簇;
S34.更新簇的平均值,即计算每个对象簇中对象的平均值;
S35.计算聚类准则函数E,并判断聚类准则函数E是否收敛:
(1)若聚类准则函数E不收敛,跳转至步骤S32;
(2)若聚类准则函数E收敛,则输出聚类结果。
所述的步骤S4包括以下子步骤:
S41:将步骤S2得到的经过处理的数据帧转换为列二维矩阵,每一个元素为一个字节;遍历所有字节,计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中,每个字节出现的概率;
S42:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;并将出现的次数除以总行数就得到该字节出现的频率Pi;
S43:计算每一列的熵值H,由于有m列则有m个熵值,计算公式如下:
H = - Σ i = 1 m P i lb P i ;
式中,m为一列中字符的种类数,Pi为第i中字符出现的概率,对数以2为底;
S44:以列号为X轴,该列的熵值为Y轴做图,分析聚类结果的好坏:
设定一个评估阈值low_entropy,当越多的列熵值小于low_entropy,聚类效果就越好。
实施例一,协议种类K的计算,取Tcpdump中的27种协议,每一种取100条数据帧,不够100条的全部取;每一条数据帧取前68字节;将所得的协议混合起来作为输入;变量设置:Liminal设为95,low_liminal设为10;
uniterate取50到99记录对应的K值,以下是liminal=95;low_liminal=10;uniterate=99的实验简要结果:
帧最大长度为:68;
帧总数:2509;
列统计器个数:68;
候选结果集中集合个数:62;
结果集中集合个数:27;
字节:00;出现次数:2379;频率:0.9481865;出现的行数:未显示;
字节:10;出现次数:1172;频率:0.46711838;出现的行数:未显示;
字节:7b;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:38;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:46;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:33;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:10;出现次数:1415;频率:0.56396973;出现的行数:未显示;
字节:7b;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:38;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:46;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:33;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:08;出现次数:2279;频率:0.90833;出现的行数:未显示;
字节:45;出现次数:2179;频率:0.8684735;出现的行数:未显示;
字节:40;出现次数:1368;频率:0.5452371;出现的行数:未显示;
字节:80;出现次数:589;频率:0.23475488;出现的行数:未显示;
字节:06;出现次数:1340;频率:0.53407735;出现的行数:未显示;
字节:ac;出现次数:1635;频率:0.65165406;出现的行数:未显示;
字节:10;出现次数:1635;频率:0.65165406;出现的行数:未显示;
字节:70;出现次数:995;频率:0.39657235;出现的行数:未显示;
字节:64;出现次数:589;频率:0.23475488;出现的行数:未显示;
字节:ac;出现次数:1566;频率:0.6241531;出现的行数:未显示;
字节:10;出现次数:1566;频率:0.6241531;出现的行数:未显示;
字节:70;出现次数:764;频率:0.3045038;出现的行数:未显示;
字节:64;出现次数:556;频率:0.22160223;出现的行数:未显示;
字节:50;出现次数:1323;频率:0.5273017;出现的行数:未显示;
字节:18;出现次数:1143;频率:0.45556;出现的行数:未显示;
字节:43;出现次数:275;频率:0.109605424;出现的行数:未显示。
设置liminal=95;low_liminal=10;
uniterate的值设定为从50到99的结果表格如图2所示,根据表格的到的结果曲线图如图3所示。
根据上表中的数据,取相对最大平滑区间(80-99)的平均值:
K=(25+25+25+27+27)/5=25.8;
因此,k值取26。
实施例二,对于k-means聚类实验:
数据输入:
Tcpdump中的27种协议,每一种取100条数据帧,不够100条的全部取;每一条数据帧取前68字节;将所得的协议混合起来,每条数据帧后面做上协议类型标记,用于weka的Classes to clusters evaluation功能评估聚类效果的好坏。
操作步骤:
1、用weka打开arff格式文件。
2、使用StringToWordVector过滤器处理文本属性StringToVector的WordCount参数设为flase,其他使用默认的参数设置。处理后数据流的每一个字节表示一个属性,一共有256个属性,属性值为1或0,1表示该属性有,0表示没有。
3、选择weka中的simplemeans聚类算法进行聚类,选中Classes to clustersevaluation,算法的K值设为26,随机种子seed设为5,10,15计算平均值。
随机种子设为10的结果如图4所示,随机种子设为5的结果如图5所示,随机种子设为15的结果如图6所示。
聚类的总体错误的分类实例数分别为40.5%,38.1%,33.32%,平均值为37.2%。也就是有62.8%的正确率。
实施例三,聚类效果评估实验:
设计以下2个实验,一个是使用2000条单协议数据帧作为输入,另一个是使用2500条多协议混合的数据帧作为数据,然后将得到的熵值进行对比分析判断聚类类簇的好坏。
(1)2000条单协议每一列的熵值计算如下:
列号 熵值 列号 熵值 列号 熵值
1 1.73797 15 0 29 2.923939
2 2.579031 16 0 30 3.635007
3 3.253605 17 0 31 4.842482
4 3.443339 18 0 32 5.652463
5 3.573282 19 0 33 0.677264
6 3.781037 20 0 34 2.003118
7 0.739385 21 0 35 3.112292
8 2.533421 22 1.30097 36 3.222453
9 3.2976 23 0.739385 37 3.317778
10 3.568274 24 2.533421 38 3.374964
11 3.77027 25 3.2976 39 2.923939
12 4.031571 26 3.568274 40 3.635007
13 0 27 3.77027 41 4.83754
14 0 28 4.031571 42 5.654962
2000条单协议数据帧每列的熵值图如图7所示。
(2)2500条多协议混合数据帧每列的熵值计算如下:
列号 熵值 列号 熵值 列号 熵值
1 1.749679 15 0.948731 29 4.242668
2 2.424071 16 1.81334 30 5.41643
3 3.554995 17 1.89479 31 3.047061
4 3.774774 18 7.744579 32 3.279877
5 3.774774 19 8.850714 33 4.820877
6 3.774774 20 8.691174 34 5.511736
7 0.860268 21 1.665774 35 3.738378
8 1.945346 22 0.504124 36 6.786242
9 2.811111 23 3.906183 37 4.319735
10 3.117158 24 2.521798 38 7.148305
11 3.117158 25 9.487966 39 5.022653
12 3.117158 26 9.803289 40 7.954479
13 0.745415 27 2.879997 41 8.894831
14 0.745415 28 3.184749 42 9.403014
2500条多协议混合数据帧每列的熵值图如图8所示。
从实验结果可以看出:
(1)协议混合的熵值最小为0.504124,最大为9.803289,而且小于设定阈值low_entropy的的列没有;
(2)单协议熵最小为0,最大为5.654962,而且各个列的值均较小,小于low_entropy的列有9列;熵值为0的,说明该列只有一种字符。
由于熵值的大小代表了信息混杂程度的大小,在数据帧量很大的情况下,如果是同一种协议的数据帧,那么总有那么一列或几列的熵值接近0;如果是多种协议混合的,熵值接近0的列几乎不会有。因此可以用计算熵值的方法来评估未知协议聚类的好坏,标准就是:越多的列熵值越小,聚类效果就越好。

Claims (6)

1.将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:它包括以下步骤:
S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;
S2.计算所输入的未知协议数据帧的种类数的近似值K;
S3.使用K-means算法指定K值进行聚类,得到n个类簇;
S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;
S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库。
2.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S1中输入的n行m列的混合未知协议数据帧,每一种协议都具有协议标识,同种协议的标识在相同位置会出现;不同种协议的协议标识可能出现在不同位置,也可能出现在相同位置;协议标识的长度不定但不少于1字节;不同协议的数据帧数量不同。
3.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S2包括以下子步骤:
S21.将输入数据构成二维矩阵,一个字节作为最小处理单元;
S22.计算出每一列中出现频率最高的字符,表示为a1,a2,a3,…,am,同时计算出a1到am中,每个字节都有哪些行出现,分别由集合S1,S2,S3,…Sm表示;
S23.将出现频率大于liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个,令m=m-i;
S24.找出集合S1到Sm中,集合中个数最多的一个,设为Smax,设集合R,元素为集合S,先将Smax加入集合R;
S25.遍历集合S1到Sm,如果Sx与集合R中所有的集合的交集率都低于uniterate%,将Sx加入集合R,如果交集率高于uniterate%,则取Smax与Sx的交集作为Smax;
S26.集合R中元素的个数,即为要求的K的近似值,求出R中所有元素的并集,即为筛选出来的数据帧;
S27.将筛选出来的数据帧从输入数据帧中除去,如果剩余的数据帧数量仍比较大,可再次做为输入样本计算这些数据帧的K值;
S28.取uniterate的值从50到99,得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S29.取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值。
4.根据权利要求3所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的Liminal和low_liminal为可设置变量,如Liminal设置为99,low_liminal 设置为10。
5.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S3包括以下子步骤:
S31.输入处理好的协议数据帧和簇的数目K;
S32.任意选择K个数据对象作为初始聚类中心;
S33.计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中,然后计算每个簇的均值,根据簇中对象的平均值,将每个对象赋给最类似的簇;
S34.更新簇的平均值,即计算每个对象簇中对象的平均值;
S35.计算聚类准则函数E,并判断聚类准则函数E是否收敛:
(1)若聚类准则函数E不收敛,跳转至步骤S32;
(2)若聚类准则函数E收敛,则输出聚类结果。
6.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S4包括以下子步骤:
S41:将步骤S2得到的经过处理的数据帧转换为列二维矩阵,每一个元素为一个字节;遍历所有字节,计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中,每个字节出现的概率;
S42:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;并将出现的次数除以总行数就得到该字节出现的频率Pi;
S43:计算每一列的熵值H,由于有m列则有m个熵值,计算公式如下:
式中,m为一列中字符的种类数,Pi为第i中字符出现的概率,对数以2为底;
S44:以列号为X轴,该列的熵值为Y轴做图,分析聚类结果的好坏:
设定一个评估阈值low_entropy,当越多的列熵值小于low_entropy,聚类效果就越好。
CN201510127523.7A 2015-03-23 2015-03-23 将未知多协议混合数据帧分离为单协议数据帧的方法 Active CN104767739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510127523.7A CN104767739B (zh) 2015-03-23 2015-03-23 将未知多协议混合数据帧分离为单协议数据帧的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510127523.7A CN104767739B (zh) 2015-03-23 2015-03-23 将未知多协议混合数据帧分离为单协议数据帧的方法

Publications (2)

Publication Number Publication Date
CN104767739A true CN104767739A (zh) 2015-07-08
CN104767739B CN104767739B (zh) 2018-01-30

Family

ID=53649347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510127523.7A Active CN104767739B (zh) 2015-03-23 2015-03-23 将未知多协议混合数据帧分离为单协议数据帧的方法

Country Status (1)

Country Link
CN (1) CN104767739B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681297A (zh) * 2016-01-12 2016-06-15 西安电子科技大学 未知网络协议隐匿行为的指令序列聚类挖掘方法
CN106934420A (zh) * 2017-03-16 2017-07-07 郑杰 网络消息识别过程中K‑means算法的k值确定方法及安全设备
CN114722961A (zh) * 2022-04-20 2022-07-08 重庆邮电大学 一种零知识下二进制协议的混合数据帧聚类方法
CN116582363A (zh) * 2023-07-12 2023-08-11 江苏政采数据科技有限公司 基于工业协议传输流量异常攻击的检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222501A1 (en) * 2000-02-18 2005-10-06 James Mansfield Multivariate analysis of green to ultraviolet spectra of cell and tissue samples
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102299863A (zh) * 2011-09-27 2011-12-28 北京网康科技有限公司 一种网络流量聚类的方法及其设备
CN103020643A (zh) * 2012-11-30 2013-04-03 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法
US20140307958A1 (en) * 2013-04-16 2014-10-16 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN104159232A (zh) * 2014-09-01 2014-11-19 电子科技大学 二进制消息数据的协议格式识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222501A1 (en) * 2000-02-18 2005-10-06 James Mansfield Multivariate analysis of green to ultraviolet spectra of cell and tissue samples
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102299863A (zh) * 2011-09-27 2011-12-28 北京网康科技有限公司 一种网络流量聚类的方法及其设备
CN103020643A (zh) * 2012-11-30 2013-04-03 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法
US20140307958A1 (en) * 2013-04-16 2014-10-16 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN104159232A (zh) * 2014-09-01 2014-11-19 电子科技大学 二进制消息数据的协议格式识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
文翰: "面向信息检索的Web文本挖掘方法研究", 《中国博士学位论文全文数据库》 *
王勇等: "高效率的K-means最佳聚类数确定算法", 《计算机应用》 *
王纵虎等: "基于统计学习的自适应文本聚类", 《四川大学学报(工程科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681297A (zh) * 2016-01-12 2016-06-15 西安电子科技大学 未知网络协议隐匿行为的指令序列聚类挖掘方法
CN106934420A (zh) * 2017-03-16 2017-07-07 郑杰 网络消息识别过程中K‑means算法的k值确定方法及安全设备
CN114722961A (zh) * 2022-04-20 2022-07-08 重庆邮电大学 一种零知识下二进制协议的混合数据帧聚类方法
CN116582363A (zh) * 2023-07-12 2023-08-11 江苏政采数据科技有限公司 基于工业协议传输流量异常攻击的检测方法

Also Published As

Publication number Publication date
CN104767739B (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
CN104767739A (zh) 将未知多协议混合数据帧分离为单协议数据帧的方法
CN105279405B (zh) 触屏用户按键行为模式构建与分析系统及其身份识别方法
CN114281781A (zh) 一种数据处理方法以及数据处理设备
DE102013105212A1 (de) Vorhersagende virtuelle Tastatur
CN109831454B (zh) 虚假流量的识别方法和装置
CN106294508A (zh) 一种刷量工具检测方法及装置
CN107861856A (zh) 云数据系统中告警信息的处理方法和计算机存储介质
CN104636504A (zh) 一种识别用户性别的方法及系统
CN107742079A (zh) 恶意软件识别方法及系统
CN107491422A (zh) 文字显示方法、装置及电子设备
CN107331026A (zh) 一种纸币识别方法及装置
CN109214683A (zh) 一种风险决策方法和装置
CN106325596A (zh) 一种书写笔迹自动纠错方法及系统
CN107729924A (zh) 图片复审概率区间生成方法及图片复审判定方法
CN113222668A (zh) 增值服务推送方法、装置、设备及存储介质
CN104881350A (zh) 用于确定用户体验及辅助确定用户体验的方法和装置
CN105550892A (zh) 一种线上会员性别识别方法、系统及信息推荐系统
CN109492031A (zh) 表格数据的显示方法、服务器以及计算机存储介质
CN103294768B (zh) 一种异常数据的剔除方法
CN109033224A (zh) 一种风险文本识别方法和装置
CN104753934B (zh) 将未知协议多通信方数据流分离为点对点数据流的方法
CN108804676A (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN106683257A (zh) 冠字号定位方法及装置
CN104484451B (zh) 网页页面信息的提取方法和装置
CN106685898A (zh) 一种识别批量注册账号的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant