CN112968865A

CN112968865A - 一种基于关联规则挖掘的网络协议语法特征快速提取方法

Info

Publication number: CN112968865A
Application number: CN202110105199.4A
Authority: CN
Inventors: 王一川; 蔚涵; 白彬彬; 刘志岗; 朱磊; 任炬
Original assignee: Xian University of Technology
Current assignee: Xi'an Clover Cyber Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-06-15
Anticipated expiration: 2041-01-26
Also published as: CN112968865B

Abstract

本发明公开了一种基于关联规则挖掘的网络协议语法特征快速提取方法，具体包括如下步骤：步骤1，定义算法的最小支持度，频繁子串，最小频繁子串长度，协议特征；步骤2，算法数据初始化：找出所有可能出现特征串的理想串；步骤3，算法数据再处理：得到理想串的集合；步骤4，获得项集过程：得到所有理想串的子串集合；步骤5，将有包含情况的串进行统计处理；步骤6，进行支持度的计算，最终得到所有数据帧集合的频繁子串。本发明一种基于关联规则挖掘的网络协议语法特征快速提取方法，可以快速的分析识别出未知协议的频繁子串，一定程度上减少了识别数据集中频繁子串的时间开销，进而缩短了整个协议识别的完成时间。

Description

一种基于关联规则挖掘的网络协议语法特征快速提取方法

技术领域

本发明属于面向网络协议语法特征提取信息处理技术领域，提供了一种基于关联规则挖掘的网络协议语法特征快速提取方法。

背景技术

随着信息时代的发展，小众协议和专用通讯协议越来越多，网络攻击事件更加频繁地出现在公众的视野当中。在互联网的背景下，信息传递越来越便捷，针对个人的信息情况进行的网络攻击越来越频繁，这造成了人们的经济损失和心里恐慌。个人和企业以及政府对于网络安全越来越重视。而大量的未知和私有的小众协议不断出现，这是造成各类网络安全问题的重要因素之一。为了更好地规范网络安全，需要对网络中未知协议进行识别与分析。分析网络协议规范在网络监管领域的作用，可以获得目标网络中发生的网络流量信息。通过对这些协议产生的通信量进行分类，可以识别网络使用状况，制定网络扩展计划，并控制特定协议的带宽。协议分析可以帮助分析网络漏洞，或者为防火墙和入侵检测及防御系统提供有用的信息，从而发现并阻止先前未知的攻击。而目前的网络协议分析方式，在分析的协议帧数量巨大，且数据帧本身就较为复杂的情况下，算法的运行时间会很长，如何优化算法，是需要持续钻研的一个研究方向

对于比特流协议分析这项研究，目前主要的方法有关联规则、模式匹配、聚类规则等。

模式匹配算法就是在目标串中找出是否存在给定的模式串。模式匹配问题是计算机科学当中的一个基本问题，在我们的日常生活中有着广泛的应用，比如信息检索、信息安全、内容过滤等。匹配算法性能的提高对于模式匹配问题有着巨大的意义。模式匹配有两种类型，分别是单模式匹配和多模式匹配。对于单模式匹配算法，一次调度只能找出一个模式串是否在目标串中出现过，比如KMP算法；而多模式匹配算法，则可以一次调度找出多个模式串是否在目标串中出现过，比如AC算法。

关联规则算法是形如X→Y的蕴涵式。其中X和Y分别被称为关联规则的先导和后继。而关联规则XY存在支持度和置信度。关联规则可以有一或多个输出属性，并且一个规则的输出属性可以当作另一个规则的输入。在协议分析中，不同频繁项在协议中有着特定的含义。常见的几种协议都规定了数据帧中某一标识符的特殊含义，位置和长度，比如版本号、控制信息、协议类型等。因此在协议分析中，关联规则非常适用。对提取的频繁字符串进行关联规则的挖掘，可以有效避免误字符序列的影响，可以提取出更具有全局代表性的频繁字符串。支持度和置信度是衡量关联规则的重要标准。支持度和置信度阈值需要提前设定，筛选频繁项的时候，只有某项的出现次数大于最小支持度，才可以放入频繁项集中。关联规则的获取也和频繁项获取类似，必须大于最小置信度。典型的关联规则挖掘算法有Apriori算法以及对他改进过后的CFI算法。Apriori算法比较简单，过程比较好理解，并且数据要求低。但是，Apriori算法仍存在很多缺点。比如，在每一次生成新的频繁候选集时，都需要扫描数据集。如此反复的扫描数据集，它的运行时间会急剧增加。CFI算法使用了改进的AC算法进行初始化，这样避免了Apriori算法会生成大量的候选集的缺点，从而大大地缩短了运行时间，但是，CFI同样要使用递归的手段对频繁项集进行进一步的连接，从而生成更高维的频繁项。这样的连接操作还是会大大增加算法的运行时间。如果可以避免连接操作，那么无疑算法运行时间将会得到明显缩短。因此，综合来看，现有技术的算法还存在需要进一步优化，算法的运行时间较长，导致效率不够高的问题。

发明内容

本发明的目的是提供一种基于关联规则挖掘的网络协议语法特征快速提取方法，解决了现有技术的算法还存在需要进一步优化，算法的运行时间较长，导致效率不够高的问题。

本发明所采用的技术方案是，

一种基于关联规则挖掘的网络协议语法特征快速提取方法，具体包括如下步骤：

步骤1，算法的定义：定义算法的最小支持度，频繁子串，最小频繁子串长度，协议特征；

步骤2，算法数据初始化：通过数据预处理缩小所要寻找特征字符串在原始数据集中的范围，找出所有可能出现特征串的理想串；

步骤3，算法数据再处理：将步骤2获得的理想串与数据集中对应位置相同长度的串进行对比切分，得到理想串的集合；

步骤4，获得项集过程：将步骤3获得的理想串与数据帧集合中的数据进行截取并比较，得到所有理想串的子串集合；

步骤5，去除包含操作：将有包含情况的串进行统计处理；

步骤6，将所有理想串都进行获取项集和去除包含操作之后，将得到的每个子串都进行支持度的计算，支持度小于最小支持度的子串全部删除，最终得到所有数据帧集合的频繁子串。

本发明的特点还在于，

在步骤1中，定义频繁子串需要同时满足以下条件：存在N条数据帧消息、长度为L1的比特序列；存在子串α长度为L2(L1>L2)；子串α在N条数据帧中的M条都有出现，即α出现的概率为P(M/N)；某个串出现的概率大于等于最小支持度。

在步骤2中，算法数据初始化具体为：

步骤2.1，输入支持度阈值的最小支持度，将数据集遍历一遍，记录数据集最长数据的长度，记为数据集最长数据的长度；

步骤2.2，定义一个一维向量，用最小频繁子串长度将其中的所有元素都初始化：

步骤2.3，将数据集中的所有数据帧遍历一遍；

步骤2.4，通过遍历一遍向量，来计算每个位置的支持度；

步骤2.5，通过一维向量和坏字符的位置得到所有的理想串，然后将所有的理想串记录到理想串的集合中。

在步骤3中：数据的再处理是采用串的连续属性来进行的。

步骤4具体为：获得项集过程具体为：从理想串中获取子串，将其放入理想串子串集合中，然后对对数据帧集合中所有的数据帧进行截取比较分离，然后得到该理想串的子串集合，对所有的理想串都进行截取比较分离操作，然后得到所有与全部数据帧进行截取比较分离的理想串的子串的集合。

在步骤5中，包含情况分为前包含，后包含和互相包含。

本发明的有益效果是：本发明一种基于关联规则挖掘的网络协议语法特征快速提取方法，是一种最优特征字符串OFS(OptimalFeatureStrings)算法，是对现有算法进行了改进与优化，可以使算法的运行时间大幅度缩减，对未知协议进行特征提取的算法，主要解决的技术问题从网络中获取的未知协议的数据集中进行频繁项集的获取，此算法在已有算法基础上进行改进和优化，主要解决的技术痛点是相比较于传统CFI算法的思路有所不同，前文算法倾向于从无到有，不断地去迭代寻找特征串，而OFS算法倾向于一次找到特征串可能出现的范围，然后再去在范围内搜索特征串，这种对数据处理思路的改进对算法运行效率的提升有着至关重要的作用。

本发明相较于传统的算法进行了针对性的优化，改进了前期初始化数据的方式，使得后期获取频繁项集的效率大大提升。

本发明解决技术问题的方案是根据数据之间的关联性来解析协议格式的，部分实现借鉴了前辈们的算法实现技巧。比如，无论是在算法开始的初始化向量的操作中，还是之后的在理想串中寻找特征串匹配时，都不约而同地使用了KMP算法中的小技巧。比如，使用哨兵进行通配操作，这样可以为程序节省一些不必要的if-else判断，使程序看起来更加的简洁，思路清晰并且提高了可读性。

本发明快速的分析识别出未知协议的频繁子串，一定程度上减少了识别数据集中频繁子串的时间开销，进而缩短了整个协议识别的完成时间。

附图说明

图1是本发明一种基于关联规则挖掘的网络协议语法特征快速提取方法中OFS算法的流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明一种基于关联规则挖掘的网络协议语法特征快速提取方法进行进一步详细说明。

如图1所示，

步骤1：算法的相关定义

为了更好的说明算法，在这里介绍一些概念。首先是最小支持度，它是一个用户自己定义的一个合理阈值来衡量支持度的大小，从统计意义上来讲表示数据的最低重要性标准，这里我们用Min_Sup(最小支持度)来表示。然后定义频繁字串，如果存在N条数据帧消息，长度为L1的比特序列，如果存在子串α长度为L2(L1>L2)，若子串α在N条数据帧中的M条都有出现，即α出现的概率为P(M/N)。若某个串出现的概率大于等于Min_Sup，则该串就被称为频繁子串。接着定义最小频繁子串长度，表示为Min_len(最最小频繁子串长度)；一个频繁子串的长度如果小于最小频繁子串的长度就会被过滤掉。最后定义协议特征，若频繁子串α在协议数据帧中的某个或者多个特定的位置频繁出现，就认为该频繁子串很有可能就是该协议的协议特征。

步骤2：算法数据初始化

算法数据初始化分为五个步骤：

步骤2.1，输入支持度阈值Min_sup，将数据集遍历一遍，记录数据集最长数据的长度，记为Max_len(数据集最长数据的长度)；

步骤2.2，定义一个一维向量Vector(一维向量)，用Max_len将其中的所有元素都初始化为0。

步骤2.3，将数据集中的所有数据帧遍历一遍，记录观察每条数据的各个位置元素是否为0，若是0就让对应位置上的一维向量Vector，的该位置加1。

步骤2.4，通过遍历一遍向量Vector，来计算每个位置的支持度，若该位置支持度sup≥Min_sup或者sup<＝1-Min_sup(假设Min_sup>0.5)，则说明该位置可能存在于某个特征串中，否则不可能存在。计算出每个位置支持度后我们还需定义两个重要概念，其一是对坏字符的定义，如果某个位置的支持度不在上述所规定的范围内，则认为该位置的字符是一个坏字符。其二是对理想串的定义，将出现在一维向量Vector中两个相邻的坏字符之间的子串称之为坏字符，如果某个数据帧只有一个坏字符B1，则认为从向量Vector开头0一直到B1之间的子串(包含0处字符不包含B1处字符)被视为理想串，同样的从B1一直到向量Vector结尾也被视为一个理想串。筛选理想串的时候可以利用最小频繁子串Min_len来进行一部分过滤。

步骤2.5，经过上述步骤处理后，通过Vector和坏字符的位置会得到所有的理想串，然后将这些理想串记录放入一个集合prunSet(理想串的集合)中

步骤3：数据再处理

在经过了算法数据初始化之后，我们得到了预处理之后的数据集合prunSet，数据集合里包含了所有可能出现特征串的位置，但是对于每个特征串的出现位置范围过大，对之后进行具体寻找特征串不够方便。因为这种对每个位置进行频率统计的操作忽略了串的连续性，所以得到的范围比较大，所以我们利用串的连续属性来进行数据在处理是一个好办法，具体步骤如下：

步骤3.1，对数据集合prunSet的每一条数据Str(理想串集合中的串)进行遍历，得到每一条数据的Str长度，用此长度来建立一个一维向量Vector，令其值为0。

步骤3.2，重新遍历数据集dateset(原始数据集),截取与数据集合中的Str相同的长度和相同位置的串date(原始数据集合中的串),将Str与date利用最小频繁子串的长度Min_len进行切分并判断是否相等，如果相等，则将切分位置对应的一维向量Vector[i]加一，若不等则不操作。

步骤3.3，接着参考算法数据初始化的步骤3，4，5来进行操作既可以得到更新之后的prunSet。至此算法的数据处理操作部分以及全部完成。

步骤4：获得项集的过程

从上述操作可以得出prunSet是存放所有理想串的集合，自然频繁子串的获取肯定也是从理想串中获取的。假设某个理想串为“0010001000010001001001#47”，从数据帧集合dateset对应位置所截取的串为0010001001010001001001#47，通过对比可以看出两个串仅在56位置的字符不同。既然如此就可以从这条数据中分离出“001000100#47”，“010001001001#57”这两个子串。将它们放入一个新的集合singleMap(理想串的子串集合)中，对数据帧集合dateSet所有的数据帧进行截取比较分离就可以得到该理想串的子串集合，对所有的理想串都进行获取操作就可以得到所有理想串的singleMap。

步骤5：去除包含操作

对理想串进行了项集获取操作之后，得到了一个属于该理想串的singleMap。需要对该singleMap进行去除包含操作，包含分为种情况，分别为前包含，后包含和互相包含。在某个理想串中出现了如下两个子串：“000010001001#223”，“010001001#226”。很明显，226位置的子串是223子串的一个真后缀，则该情况成为后包含。同理如果某个子串是另一个子串的真前缀则是前包含。如果某个子串的真前缀是另一个子串的真后缀，则称这种情况为相互包含。后包含会导致子串的次数统计错误，从而导致漏掉频繁子串。因为在singleMap中对它们的计数是各自计算的。考虑一种极端情况，“00100010110#402”出现在了数据帧集合dataSet的前50％的数据帧中，而“0010110#406”则出现在dataSet的后50％的数据帧中。如果此时Min_sup为0.7，那么此时两个子串都不能作为频繁子串。但是，串“0010110#406”很明显是特征串，因为实际上它出现在了100％的数据中。所以在处理此类情况时，需要将串“00100010110#402”在singleMap中的次数加给串“0010110#406”，这样统计才算完全。同理，对于后包含，需要将长度更长的子串在singleMap中的次数加给另一个子串。而对于相互包含，则需要在截取两个串的相互包含部分加上位置信息，组成一个新的子串，并且将两者在singleMap中的次数都加给新子串。处理这三种情况之前，都是先将singleMap拷贝给一个tmpSingleMap(临时理想串的子串集合)，无论是增加次数，还是增加新串，都是在tmpSingleMap中进行的，所以在处理完之后都需要更新singleMap。

步骤6：获得频繁子串

在prunSet中的所有理想串都进行获取项集和去除包含操作之后，都会将每个理想串各自的singleMap中的每个子串和对应的次数加入到featureMap(特征串集合)中。然后对singleMap中的每个子串都进行支持度的计算，支持度小于Min_Sup的子串全部删除。对于可能因为几种包含而造成的子串重复，比如考虑一种情况，串“00001110100110#153”和串“01110100110#153”因为支持度都大于最小支持度导致两者都不会被去除，但是很明显对于同样位置的串只需留下更长的即可。至此，数据帧集合dataSet的最终频繁项集已获得。

下面通过分析和测试对比对本发明一种基于关联规则挖掘的网络协议语法特征快速提取方法进行进一步详细说；

算法复杂度分析

评估一个算法的优劣，需要从多个角度去判断。最常用的手段是计算算法的时间复杂度和空间复杂度。假设数据帧集合dataSet有n条数据帧，而数据帧的平均长度是m。那么首先遍历一遍dataSet来初始化向量Vector，时间复杂度为O(mn)。通过Vector获取理想串集合prunSet，时间复杂度为O(m)。那么此时prunSet中的所有理想串的长度加起来也不超过m，对于prunSet的每个理想串都去和dadaSet进行比较而获取子串，此操作的时间复杂度为O(mn)。总体而言，算法的最终时间复杂度为O(mn)。这也说明了新的算法的优越性。所有的操作都是基于最开始的数据预处理工作得到的Vector，所以之后的所有操作的空间都不会再超过Vector，所以算法的空间复杂度为O(m)。

算法测试与对比

内容主要对OFS算法进行测试，保证算法的正确性。并且将OFS算法和CFI算法进行对比，从而得出OFS算法的优化方向的正确性和优越性。

1)支持度与覆盖范围测试

本步骤主要对算法进行测试，测试手段有两种。第一种是用数据帧集合对OFS算法进行频繁子串的提取，而后将提取结果拿出来单独进行检验计数，从而测试OFS算法提取频繁子串在支持度计数方面的正确性。第二种测试是，用OFS算法与已经实现了的CFI算法进行相同数据帧集合的频繁子串提取，对比将两种算法的结果进行对比，两种算法的频繁项集是否数量相同且一一对应。从而进一步测试出OFS算法在提取频繁子串的范围和支持度方面的正确性是否到位。

表1

如表1所示，表中数据为用两种匹配方法对DNS协议进行的频繁项集提取结果对比，从对应条目可明显看出，算法结果与蛮力法的检验结果是一致的。

表2

如表2所示。表中数据为用两种方法对HTTP协议进行的频繁项集提取结果对比，从对应条目可明显看出，算法结果与蛮力法的检验结果是一致的。

可以看出在两组表格对比的测试结果中，OFS算法的结果和蛮力搜索之后的结果都相同。这说明OFS算法在对频繁子串的支持度计数上拥有一定的正确性。

表3

如表3所示，表中数据为用CFI算法对两种协议进行的频繁项集提取结果对比，可以看出，使用同样的数据对CFI算法进行测试，OFS算法与CFI算法在同样的数据帧集合的条件下，提取出的频繁项集完全一致，这说明了OFS算法在频繁子串获取方面的覆盖是全面的，而且又一次说明了支持度计数方面的正确性。

2)算法时间对比

所测试的两组数据帧集合的不同协议文件大小分别为DNS协议9384KB,HTTP协议43642KB。两组数据均为从Wireshark截获的协议数据。两种算法的运行都在CodeBlocks中进行，运行时间来自控制台程序的执行时间。

表4

文件大小(kb)	9384	43642
			CFI算法时间(s)	77.2	508.9
OFS算法时间(s)	1.8	16.6

由表4可以看出OFS算法的优越性，即使是面对数据集较大的HTTP协议集合，拥有43642KB的数据，OFS算法的时间也不过是16.6s，而CFI算法则需要耗时508.9s，这充分说明了OFS算法的优越性。

本发明一种基于关联规则挖掘的网络协议语法特征快速提取方法，可以快速的分析识别出未知协议的频繁子串，一定程度上减少了识别数据集中频繁子串的时间开销，进而缩短了整个协议识别的完成时间。

Claims

1.一种基于关联规则挖掘的网络协议语法特征快速提取方法，其特征在于，具体包括如下步骤：

步骤5，去除包含操作：将有包含情况的串进行统计处理；

2.根据权利要求1所述的一种基于关联规则挖掘的网络协议语法特征快速提取方法，其特征在于，在步骤1中，定义频繁子串需要同时满足以下条件：存在N条数据帧消息、长度为L1的比特序列；存在子串α长度为L2(L1>L2)；子串α在N条数据帧中的M条都有出现，即α出现的概率为P(M/N)；某个串出现的概率大于等于最小支持度。

3.根据权利要求1所述的一种基于关联规则挖掘的网络协议语法特征快速提取方法，其特征在于，在步骤2中，所述算法数据初始化具体为：

步骤2.2，定义一个一维向量，用数据集最长数据的长度将其中的所有元素都初始化为0；

步骤2.3，将数据集中的所有数据帧遍历一遍；

步骤2.4，通过遍历一遍向量，来计算每个位置的支持度；

4.根据权利要求1所述的一种基于关联规则挖掘的网络协议语法特征快速提取方法，其特征在于，在步骤3中：所述数据的再处理是采用串的连续属性来进行的。

5.根据权利要求1所述的一种基于关联规则挖掘的网络协议语法特征快速提取方法，其特征在于，步骤4具体为：获得项集过程具体为：从理想串中获取子串，将其放入理想串子串集合中，然后对数据帧集合中全部的数据帧进行截取比较分离，然后得到该理想串的子串集合，对所有的理想串都进行截取比较分离操作，然后得到所有与全部数据帧进行截取比较分离的理想串的子串的集合。

6.根据权利要求1所述的一种基于关联规则挖掘的网络协议语法特征快速提取方法，其特征在于，在步骤5中，所述包含情况分为前包含，后包含和互相包含。