CN101707532A

CN101707532A - 一种未知应用层协议自动分析方法

Info

Publication number: CN101707532A
Application number: CN200910193469.0A
Authority: CN
Inventors: 余顺争
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2010-05-12
Anticipated expiration: 2029-10-30
Also published as: WO2011050545A1; CN101707532B; US20120210426A1; US8646075B2

Abstract

本发明为一种未知应用层协议自动分析方法，包括在线的未知应用层协议采集过程和对采集到的未知应用层协议进行离线分析的过程；所述在线的未知应用层协议采集过程是对网络的主干、出入口或流的汇聚点的每个数据流进行识别并采集未知应用层协议；所述未知应用层协议离线分析过程具体包括如下步骤：a、对未知应用层协议的数据进行聚类分析；b、挖掘未知应用层协议的关键词；c、探索未知应用层协议的会话规则；d、分析未知应用层协议的报文格式；e、估计未知应用层协议的状态转移关系。本发明避免了人工处理海量数据的困难，提高了网络流量管理和网络安全管理的效率。

Description

一种未知应用层协议自动分析方法

技术领域

本发明属于网络管理与网络安全技术领域，特别是涉及一种未知应用层协议自动分析方法。

背景技术

Internet上的网络应用日新月异。除了基于常见的、标准的应用层协议的各种应用以外，还大量出现各种非标准协议的应用，以及各种新型网络攻击。这对于网络管理人员来说，要从采集的海量数据中分离、分析、识别、进而控制这些未知的应用或者攻击，是一件非常困难的事情。现有的协议分析工具，只能分析已知和标准的协议，不能够分析未知的、新型的应用层协议，也不能够发现和分析新型的攻击。现有的基于应用识别的流量管理设备，只能识别和管理已知的应用所产生的流，不能识别和管理未知、新型应用产生的流。要识别和管理新出现的应用，必须要通过人工分析建立该应用的正则表达式，并通过实验和调整提高该正则表达式的正确识别率、减少其误识别率。

发明内容

本发明的目的在于克服现有技术的不足，提供一种对未知应用层协议进行自动发现、自动聚类、自动分析、自动识别的技术。它避免了人工处理海量数据的困难，提高了网络管理的效率，使得网络管理的效率可以跟上新型网络应用出现的速率，可以及时对抗新型网络攻击。

为了实现上述技术目的，本发明包括如下技术特征：一种未知应用层协议自动分析方法，包括对未知应用层数据所进行的采集过程和对采集到的未知应用层数据所进行的分析过程；

所述采集过程是对网络的主干、出入口和/或数据流的汇聚点的每个数据流进行识别并采集未知应用层协议的数据；

所述分析过程具体包括如下步骤：a、对未知应用层协议的数据进行聚类分析；b、挖掘未知应用层协议的关键词；c、探索未知应用层协议的会话规则；d、分析未知应用层协议的报文格式；e、预测未知应用层协议的状态转移关系。

本发明可以是在线对每个流进行应用识别，把不能识别的流的应用层数据记录下来；分析过程是离线的，在需要的时候启动，可以是人工启动，也可以在未知应用层数据积累到一定量的时候自动启动，用于对未知应用层协议进行分析。

更进一步的，所述采集过程具体为先建立已知应用的自动机或者正则表达式，将所述自动机或者正则表达式用于在线识别各种已知的应用，并把不能识别的应用所对应的应用层数据保存到磁盘。

所述步骤a具体为从采集的未知应用层数据中提取数据流流量特征、字符串特征以及各层头部信息特征，并用这些特征组成特征向量进行聚类分析，把聚类得到的每个类作为一种未知应用。

所述步骤b具体为采用数据挖掘技术从每种未知应用的数据中挖掘其协议关键词和频繁关键词序列。

所述步骤c具体为采用属于同一种未知应用的频繁关键词序列构造一棵代表该协议会话规则的前缀树，前缀树中的每条连线代表一个关键词，每条路径代表一种会话过程。

所述步骤d具体为把每个数据包的应用层数据看作一个字符串，然后对所有字符串进行语法分析，以构造代表该未知应用层协议的报文格式的自动机或者正则表达式。

所述步骤e具体为采用隐马尔可夫模型参数估计算法，以各个流的关键词序列为训练集，估计该未知应用层协议的状态转移概率矩阵，以及产生包括关键词、字符串长度和编码方式的观测值概率分布。

更进一步的，对得到的自动机或者正则表达式进行有效性验证，具体为检验所述的自动机、正则表达式接受该应用层协议的样本流的程度，以及拒绝其它应用层协议样本流的程度，把经过验证的自动机或者正则表达式用于在线识别该应用层协议。

为了提供正常性测量功能，可以利用得到的未知应用层协议的隐马尔可夫模型，对所采集的样本流进行测量，以获取所有样本的正常性分布和每个样本的正常性，或者发现异常的样本流。

本发明通过采集未知应用层数据、对未知应用进行聚类分析、挖掘未知应用层协议的关键词、探索未知应用层协议会话规则、分析未知应用层协议的报文格式、估计未知应用层协议的状态转移关系，实现对未知应用层协议的自动分析。所以本发明的突出优点是提供了一种对未知应用层协议进行自动发现、自动聚类、自动分析、自动识别的技术，避免了人工处理海量数据的困难，提高了网络管理的效率，使得网络管理的效率可以跟上新型网络应用出现的速率，网络安全防御措施可以及时对抗新型网络攻击。

附图说明

图1为本发明的方法流程示意图；

具体实施方式

从系统结构的角度看，本发明可以包括如下结构：包含两个子系统，在线子系统和离线子系统。在线子系统保持在线运行，它具有至少两个网卡，连接在网络的主干、出入口或者流的汇聚点，它对经过该子系统的每个流进行应用识别，把不能识别的流的应用层数据记录下来；离线子系统则在需要的时候启动，可以是人工启动，也可以在未知应用层数据积累到一定量的时候自动启动，用于对未知应用层协议进行分析。

其中在线子系统包含应用识别和未知应用层数据采集.应用识别模块利用事先建立的已知应用的正则表达式，对每个由五元组确定的流进行应用识别；不能被识别的流的原始数据包，则被作为未知应用的流的样本，由未知应用层数据采集模块保存到数据库.离线子系统包含聚类分析模块、关键词挖掘模块、前缀树统计模块、语法分析模块、状态转移关系估计模块.聚类分析模块对采集的未知应用层数据进行聚类分析；关键词挖掘模块对每个类的样本流进行关键词挖掘；前缀树模块探索未知应用层协议会话规则；语法分析模块分析未知应用层协议的报文格式；状态转移关系估计模块估计未知应用层协议的状态转移关系.

如图1所示，下面为具体实现流程的详细介绍。

在线的未知应用层协议采集过程包括如下的(1)至(3)。

(1)建立已知应用的正则表达式

首先采用人工分析的方法或者本发明的自动分析方法，为每个已知应用建立正则表达式或者自动机，使得这些正则表达式或自动机可以在每个流的开始阶段即可以正确识别其所属的应用，并且使得误识别率尽可能低。

(2)进行应用识别

事先建立的正则表达式列表将用于应用的在线识别。具体做法是，a)由数据包头部的五元组信息，即其源IP、目的IP、源端口、目的端口、传输层协议，确定每个数据包所属的流；b)提取每个数据包的应用层数据，并重组该流的应用层数据；c)用正则表达式列表中的每个正则表达式去匹配重组的应用层数据；d)如果有一个正则表达式匹配成功，则表明该流已经被识别；对该流做一个标记；对该流此后到达的数据包将不再进行数据包解析和应用识别；e)如果没有一个正则表达式匹配成功，且该流已到达的数据包个数没有超过事先设定的上限，例如10个数据包，则转到a)，等待下一个数据包的到达；否则f)将该流标记为“未知”。

(3)采集未知应用的数据

对于标记为“未知”的流，记录下其五元组信息，并把每个数据包的应用层数据提取出来，每个数据包的应用层数据作为一个报文，把报文按数据包在流中的先后顺序保存到数据库，同时记录每个报文的长度、到达时间间隔、传输方向(由IP1到IP2，还是由IP2到IP1，其中IP1是发起连接方的IP地址，IP2是接受连接方的IP地址)。每个未知流的按时间顺序交叉在一起的双向报文序列，即为一个样本流。

对采集到的未知应用层协议进行离线分析的过程包括如下的(4)至(8)

(4)对数据进行聚类分析

对于采集的未知应用样本流集合，在其样本数足够多时，进行聚类分析。首先获取每个样本流的统计信息，包括：

-流的特征信息：连接接受方(即服务器的)端口号、流持续的时间、传输的总数据包数、总的ascii字节数、总的binary字节数、数据包长度的统计特征、数据包到达时间间隔的统计特征等。其中：统计特征包括：最大值、最小值、平均值、中值、方差、流起始阶段均值、流结束阶段均值。

-载荷的特征信息：每个报文的ascii字节数和binary字节数、是否加密或加压、报文起始位置的频繁子字符串集和结尾位置的频繁子字符串集。

-流的前导信息：隧道或IPSec的密钥交换和安全关联信息。

把获取的每个样本流的统计信息组成一个特征向量：A＝(a₁，a₂，…，a_N)，a_i是该流的第i个特征。

利用样本流的特征向量对样本流集合进行聚类分析，即把特征向量最接近的样本流作为一个类，并且使得类与类之间的特征向量离得尽可能远。聚类分析的结果是，得到一至多个类。把每个类看作一种未知应用。

(5)对每个类的样本流进行协议关键词挖掘

把每个类也即每种未知应用的样本流的所有报文看作一个集合，采用如下方法进行关键词挖掘：a)先确定关键词的起始位置。方法是，先对报文的第一个字节进行统计，并按照概率的高低对找到的字符进行排序，然后从高到低进行概率累加，当累积概率达到0.8时，如果高概率字符的个数超过50个，则开始对报文的第二个字节进行统计，...，直到某个字节的累积概率为0.8的高概率字符数少于50个时为止；设该字节为从报文起始位置开始算起的第n个字节；b)挖掘报文第n个字符位置开始的频繁子字符串集，即关键词集；c)在报文中保留挖掘出来的关键词，去掉其它字符，使得每个样本流被映射为一个关键词序列；d)挖掘关键词序列中的频繁子序列集；e)从样本流集合中去掉那些不能被映射为关键词序列或不包含频繁子序列的样本流。

(6)探索未知应用层协议的会话规则

用频繁子序列集构建一棵前缀树，树中每条转移线都代表一个关键词，从树根出发的每条路径都代表一个频繁子序列，即该应用层协议会话的一种交互过程。

(7)分析未知应用层协议的报文格式

把样本流集合中的所有报文，按照关键词分成子集合，即具有相同关键词的报文被分到同一个子集合，没有关键词的报文这里忽略；然后，对每个子集合中的报文，进行语法分析，即把每个报文看作一个字符串，分析同一个子集中的所有字符串共同遵循的语法规则，从而构成描述这种语法的代表报文格式的自动机或者正则表达式。

把前缀树中的每条转移线都用其关键词所对应的自动机来代替，形成一个更大的自动机；用其它应用层协议的流作为负例子集，对该自动机进行简化；最后得到的自动机或者正则表达式用于对该协议的在线识别。

(8)估计未知应用层协议的状态转移关系

把由样本流映射得到的关键词序列作为观测序列。然后，用观测序列集训练一个隐马尔可夫模型。该模型的状态代表该协议的状态，状态之间的转移线代表协议状态转换时发出的观测值(即关键词)。用隐马尔可夫模型的前后向算法和参数估计公式，估计得到状态之间的转移概率矩阵和每条转移线的观测概率分布。去掉那些转入概率很小的状态和那些某个转出概率接近1的状态。最后得到的隐马尔可夫模型就反映了未知应用层协议的状态转移关系。

进一步，对观测值进行扩展，使之除了包括关键词以外，还包括关键词后跟随的字符串的编码方式(ASCII、binary、或者ASCII与binary的混合)、以及字符串长度等。并用隐马尔可夫模型的参数估计算法估计其初始状态分布π、状态转移概率矩阵A、从状态i到状态j的转移时出现关键词k的概率b_ij(k)，在关键词k后跟随的字符串的编码方式是c的概率是e_k(c)，长度是L的概率f_k(L)。用该隐马尔可夫模型计算每个样本流的或然概率p_s，s是样本流的编号。然后对{p_s}进行统计，得到其均值μ和均方差σ。把该模型作为描述该应用层协议的正常模型。

另外本系统还提供如下的功能方案：

a)提供编辑功能，用于新建、修改、保存、验证自动机或者正则表达式.验证自动机或者正则表达式有效性的方法是，把样本流集合看作正例子集，把其中的每个样本流都看作一个字符串，输入到待验证的自动机或者正则表达式，检验它们接受正例子的比例；把其它应用层协议的样本流集合看作负例子集，检验它们拒绝这些负例子的比例；当接受正例子的比例和拒绝负例子的比例都很高(例如大于95％)时，验证通过这些自动机或者正则表达式；否则拒绝该自动机或者正则表达式.把经过验证的自动机或者正则表达式用于在线识别该未知应用层协议.

b)提供搜索功能，即根据用户提供的关键词、端口号、IP地址等，把网络中符合条件的流记录到数据库；或者从数据库中把符合条件的样本流的应用层数据显示给用户。

c)提供正常性测量功能。其方法是，用所挖掘的关键词去匹配网络中实时到达的每个数据包的应用层数据或者已采集的样本流。设在预期的第n个字符位置匹配到关键词k，该关键词后跟随的字符串的编码方式是c(对应于ASCII、binary、或它们的混合，c＝0，1，2)，长度是L。所以，o_t＝(k，c，L)是对当前数据包的观测向量。观测向量序列o₁，o₂，...，o_t就是对待测流到目前为止到达的t个数据包观测的结果。把观测向量序列o₁，o₂，...，o_t输入到该应用层协议的正常模型，得到其或然概率p，则其正常性的度量为：m＝|p-μ|/σ。m越小表示越正常。当m＞3时，可以认为是该应用层协议的异常流。

Claims

1.一种未知应用层协议自动分析方法，其特征在于：

包括对未知应用层数据所进行的采集过程和对采集到的未知应用层数据所进行的分析过程；

所述分析过程具体包括如下步骤：

a、对未知应用层协议的数据进行聚类分析；

b、挖掘未知应用层协议的关键词；

c、探索未知应用层协议的会话规则；

d、分析未知应用层协议的报文格式；

e、预测未知应用层协议的状态转移关系。

2.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于所述采集过程具体为先建立已知应用的自动机或者正则表达式，将所述自动机或者正则表达式用于在线识别各种已知的应用，并把不能识别的应用所对应的应用层数据保存到磁盘。

3.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于所述步骤a具体为从采集的未知应用层数据中提取数据流流量特征、字符串特征以及各层头部信息特征，并用这些特征组成特征向量进行聚类分析，把聚类得到的每个类作为一种未知应用。

4.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于所述步骤b具体为采用数据挖掘技术从每种未知应用的数据中挖掘其协议关键词和频繁关键词序列。

5.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于所述步骤c具体为采用属于同一种未知应用的频繁关键词序列构造一棵代表该协议会话规则的前缀树，前缀树中的每条连线代表一个关键词，每条路径代表一种会话过程。

6.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于所述步骤d具体为把每个数据包的应用层数据看作一个字符串，然后对所有字符串进行语法分析，以构造代表该未知应用层协议的报文格式的自动机或者正则表达式。

7.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于所述步骤e具体为采用隐马尔可夫模型参数估计算法，以各个流的关键词序列为训练集，估计该未知应用层协议的状态转移概率矩阵，以及产生包括关键词、字符串长度和编码方式的观测值概率分布。

8.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于对得到的自动机或者正则表达式进行有效性验证，具体为检验所述的自动机、正则表达式接受该应用层协议的样本流的程度，以及拒绝其它应用层协议样本流的程度，把经过验证的自动机或者正则表达式用于在线识别该应用层协议。

9.根据权利要求1所述的未知应用层协议自动分析方法，其特征在于利用得到的未知应用层协议的隐马尔可夫模型，对所采集的样本流进行测量，以获取所有样本的正常性分布和每个样本的正常性，或者发现异常的样本流。