CN102891852B

CN102891852B - 基于报文分析的协议格式自动推断方法

Info

Publication number: CN102891852B
Application number: CN201210383363.9A
Authority: CN
Inventors: 洪征; 吴礼发; 李华波; 赖海光; 郑成辉; 黄康宇; 潘璠
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2012-10-11
Filing date: 2012-10-11
Publication date: 2015-07-01
Anticipated expiration: 2032-10-11
Also published as: CN102891852A

Abstract

基于报文分析的协议格式自动推断方法，对协议实体的输入输出报文进行分析从而推断协议报文具体格式的方法，包括以下步骤：首先是依据字符的可显示属性，以字节为单位对获取的网络报文进行划段，并基于划段展现出的格式序列进行初步聚类；其次是对结构相似的报文样本以段为单位进行多序列比对，实现报文段的对齐和长度统一，从而掌握报文段的基本结构，进而获得报文整体的结构；最后是语义推断阶段，基于报文的结构，依据样本中各字段的取值和变化特征，遵循各类语义的识别策略，采用“间隔字段→数据字段→序号字段→长度字段→格式标识字段”的语义推断流程，提高语义推断的准确度和效率。

Description

基于报文分析的协议格式自动推断方法

技术领域

本发明涉及网络技术，尤其涉及一种分析协议实体的输入输出报文从而推断协议报文格式的方法。

背景技术

协议是为在计算机网络中进行数据交换而建立的一系列规则、标准和约定，是计算机网络中不可缺少的重要组成部分。协议作为网络通信功能实现的支撑要素，是网络领域的重点研究对象。但由于目前使用的协议大部分是私有协议，缺乏正式的描述文档，需要采用协议逆向的方法提取协议信息。

协议逆向指在不依赖于协议描述的情况下，通过监控和分析协议实体的网络输入输出、系统行为和指令执行流程，提取协议文法、语法和语义的过程。Samba、Rdesktop等针对非公开协议的逆向应用取得了较为理想的效果，但存在过度依赖人工分析以及过程冗长耗时等共性问题。

协议自动逆向可以显著减少人工分析，提高私有协议的分析效率。根据分析对象的不同，协议自动逆向可以划分为两类。一类是基于协议实体的网络流量来分析协议，被称为报文分析（NetworkTrace）方法。另外一类是在主机上动态跟踪报文的处理流程，这类方法被称为指令执行分析(Execution Trace)方法。报文分析方法的主要优点在于：不依赖于协议解析终端，实现简单；通用性强，适用于各个层次的协议。

目前报文分析方法存在的主要问题是协议报文样本集具有序列长、数量多的特点，分析过程需要耗费大量的时间和计算资源。此外，现有方法在字段语义推断时没有充分考虑字段间的相互约束，造成语义推断的准确度较低。

发明内容

本发明的目的是：提出一种基于报文分析的协议格式自动推断方法，能够高效准确的对原始报文样本进行比对，并以此为基础，实现协议格式内间隔字段、数据字段、序号字段、长度字段以及格式标识字段等主要字段语义的自动推断。本发明针对的两个主要问题是：现有逆向方法不能高效比对协议报文样本集，得到的报文块结构不准确；在字段语义推断时没有充分考虑字段间的约束关系导致语义推断准确度低。

本发明的技术解决方案，基于报文分析的协议格式自动推断方法，对协议实体的输入输出报文进行分析从而推断协议报文具体格式。采用此方法首先需要获得足够数量的由待分析协议所产生的网络报文。获取的方法是通过网络抓包软件对待分析协议的网络通信进行足够长时间的监听，并将捕获的所有网络报文集中在一起用于分析。从统计学的角度看，由于捕获的报文是待分析协议产生报文的抽样，因此将它们称为报文样本。

基于报文分析的协议格式自动推断方法包括以下步骤：

首先是对大量报文样本进行初步聚类，将结构相似的样本集中在一起；

其次是对结构相似的报文样本以段为单位进行多序列比对，明确报文的基本结构和段的基本结构，进而获得报文整体的基本结构；

最后是语义推断阶段，基于报文的基本结构，依据样本中各字段的取值和变化特征对相应字段的语义进行推断；

所述初步聚类阶段的工作流程：以字节为单位，依据字节属于可显示字符还是二进制字符，对获取的网络报文进行划段；依据划段所展现出的格式序列，将格式序列相同的报文归为一个类别，实现初步聚类。

多序列比对阶段的工作流程：以段为单位实施多序列比对，在比对过程中首先对同一类别的报文采用局部序列比对算法进行比对，构造相对距离矩阵；而后采用层次聚类算法将参与比对的每个报文段放入一个独立的集合，依据集合中报文段的平均距离进行集合的合并，利用报文段构造系统树，每个报文段将作为系统树中的一个节点；设置系统树中同类报文段的最大距离，进而将系统树分割为多棵子系统树；最后对子系统树中的报文段采用全局序列比对算法进行比对，实现同一类别报文段的对齐和长度统一，获得此类别报文段的基本结构；

语义推断阶段的工作流程：在确定某一类别报文样本的基本结构后，统计此类别样本中各个字节取值的变化率；依据字节取值的变化率，确定样本格式中的固定字段和可变字段；首先判断固定字段是否为间隔字段，再判断可变字段是否为数据字段，进而推断未识别的可变字段中是否存在序号字段；依据判断出的字段语义，进行字段合并，并在未识别字段中推断长度字段；最后依据已识别出的格式序列，推断样本中的格式标识字段；即采用“间隔字段→数据字段→序号字段→长度字段→格式标识字段”的语义推断流程。

本发明的有益效果是：1）在序列比对前，依据字符的可显示属性以字节为单位对报文进行划段，确定字节格式序列，序列比对针对相同格式序列的样本实施，避免了将格式明显不同的报文在一起进行序列比对的计算开销和时间开销；2）序列比对不再针对完整的报文实施，而是以字符可显示属性决定的基本块为单位进行，解决了多序列比对算法在序列过长时存在的准确度不高的问题。3）采用层次聚类算法构造系统树，进而对具有高相似度的报文段实施全局序列比对，序列比对过程整体的空间复杂度和时间复杂度得到降低；4）采用“间隔字段→数据字段→序号字段→长度字段→格式标识字段”的语义推断流程，提高了语义推断的准确度和效率。总体上看，本发明能够高效准确的对捕获的报文样本进行比对，并以此为基础，实现协议格式内间隔字段、数据字段、序号字段、长度字段以及格式标识字段等主要字段语义的自动推断。解决了现有逆向方法不能高效比对协议报文样本集，导致推断得到的报文结构不准确，以及在字段语义推断时没有充分考虑字段间的约束关系致使语义推断准确度低等问题。

附图说明

图1是本发明的整体处理流程示意图

图2是本发明的多序列比对流程示意图

图3是本发明的语义推断流程示意图

具体的实施方式

如图1所示，本发明的实施例通过接收充足数量的网络报文样本，依据字符的可显示属性确定每个样本的格式序列，将相同格式序列的样本归为一类，在此基础上对同一类报文以段为单位进行多序列比对，推断段的结构信息，进而得到报文整体的结构。在掌握报文结构信息的基础上，综合同类所有报文执行语义推断，获得报文结构中间隔字段、数据字段、序号字段、长度字段以及格式识别字段等语义信息。

本发明的完整流程包括初步聚类、多序列比对以及语义推断三个部分。具体的实施方式以下分别说明。

初步聚类的具体实施：对于获取的原始网络报文，首先进行划段。划段的规则是对报文的每一字节进行类型判定，是否为可显示字符，如果不是则标记为二进制字段。二进制字段也可能在可显示字符的范围内，但考虑到完整可显示字符串的每个字节与前后字节往往存在一定的连续性，可以根据字节所处上下文进行准确的判断。连续的二进制字段合成一个‘B’段，连续的可显示字段合成一个‘A’段。经过初步划段后，报文的格式序列是一串‘B’、‘A’间隔组成的字符串。以报文的格式序列为依据对报文样本进行分类，格式序列相同的报文被归为一类，实现报文的初步聚类。

多序列比对的具体实施：本发明针对初步聚类确定的同一类报文相同位置的一段进行多序列比对，这样有助于提高样本多序列比对的准确度，进而保证报文格式提取的准确度。实施多序列比对时，首先采用局部序列比对算法，确定任意两段间的最长匹配子序列，并依据最长匹配子序列的长度，构造报文段的相对距离矩阵。以相对距离矩阵为基础，采用层次聚类算法，将参与比对的报文段构造成一颗系统树，每一个报文段作为系统树的一个叶子节点。在此基础上，采用设定距离阈值的方式确定同类报文段的相似度，以保证同一棵树中的报文段有较高的相似度，并依据距离阈值对系统树进行分割，产生多棵子系统树。对于子系统树中的报文段，依据树结构采用全局序列比对算法实施两两比对，通过增加空格的方式保证同一棵子系统树中报文段的对齐和长度统一，最终获得报文段的基本结构。将一类报文中各段综合在一起可以获得该类报文的总体结构。

语义推断的具体实施：语义推断在掌握报文整体结构的基础上实施。将同类的所有报文集中在一起，对报文中的各个字节位置进行分析。依据每个字节取值的变化率，确定报文中的固定字段和可变字段。此后，将依次推断报文格式中的间隔字段、数据字段、序号字段、长度字段和格式标识字段，所采用的识别策略具体如下：

（1）间隔字段的判断：间隔字段是指在整个报文或报文的某一段中起分割、划段作用的关键字段，也称为分隔符。由于二进制类型的‘B’段中各字段的长度都较为固定，一般不会出现间隔字段，所以对该字段的识别只在可显示字符类型的‘A’段中进行。间隔字段的特征是取值固定，在样本中间隔出现多次，长度通常为一个字节，且一般不是字母、数字等常用的ASCll字符。本发明采取的识别策略是对未知固定字节进行判断，确定其是否为非字母和数字，且在样本中间隔出现（连续出现算作一次）的次数是否超过了设置的默认阈值3（或3-6之间的整数）；如果满足条件，则判定该字段为间隔字段。

（2）数据字段的判断：数据字段是指对报文的结构和其它关键字段影响不大或没有直接影响的可变字段，一般是指报文的负载。数据字段的特征是变化具有随机性，且变化率无规律可循，长度可能不固定，即在序列比对的过程中可能会出现空格。对于‘B’段，如果未知可变字段中出现空格，就判定为数据字段；对于‘A’段，如果两个分隔符之间存在未知可变字段，就判定为数据字段。

（3）序号字段的判断：序号字段是用于标识报文在会话中的先后顺序，以防在处理时出现乱序的字段。序号字段一般靠近段首，另外，在不考虑报文乱序、重传的情况下，取值变化率接近100％，且与截获报文的先后顺序相对应。因此，识别策略是对未知可变字段进行判断，其取值变化是否与报文的截获顺序相关，如果是则判定为序号字段。对于‘A’段，还特别要求序号字段为数据字段中的全数字字段。

（4）长度字段的判断：长度字段是报文中为某一字段或连续的某几个字段定界的字段，一般出现在变长报文中。长度字段的特征是其自身长度一般为1-4字节，且取值与样本的某一字段或连续的某几字段的长度相等，作用域通常不会在该字段之前。长度字段的识别策略，断该字段的取值与其后的某一字段或连续的某几字段的长度是否相等，若相等就判定为长度字段。长度字段判断过程中涉及到对字段的定界和合并，‘A’段可以利用已经识别出的间隔字段进行报文段的分隔；对于‘B’段则利用对字节取值变化率的统计信息，将连续的未识别的不变字段合并为一个未识别的不变字段，将连续的未识别的取值变化率相同的可变字段合并为一个未识别的可变字段。以此为基础，逐步判断长度字段以及它在报文中的作用域。

（5）格式标识字段的判断：格式标识字段是指该字段的取值能够决定该字段之后报文格式序列的关键字段。格式标识字段的特征是自身取值变化率较小，且取值与其后的格式序列密切相关，通常是一个值对应于作用域的一种格式序列。在完成其他语义推断的基础上，以剩余各段的取值变化率为基础，对报文序列从左至右选择取值变化率小的字段作为候选的格式标识字段。确定候选格式标识字段后，根据字段能否对序列的格式起到决定作用实施进一步判断。将候选字段的作用域划定为从该候选字段到下一个候选字段（如果不存在下个候选字段，则选择序列尾部作为终点）之间的范围，候选字段取某一值时，所涉及的样本应当具有完全相同的格式；此外，候选字段取不同值时，所涉及的样本在格式上应当存在差异。如果候选字段满足给定的条件，则判断其为格式标识字段。

Claims

1.基于报文分析的协议格式自动推断方法，其特征是对协议实体的输入输出报文进行分析从而推断协议报文具体格式的方法，包括以下步骤：

其次是对结构相似的报文样本以段为单位进行多序列比对，明确段的基本结构，进而获得报文整体的基本结构；

所述初步聚类阶段的工作流程：以字节为单位，依据字节属于可显示字符还是二进制字符，对获取的网络报文进行划段，连续的二进制字段合成一个‘B’段，连续的可显示字段合成一个‘A’段；经过初步划段后，报文的格式序列是一串‘B’、‘A’间隔组成的字符串；依据划段所展现出的格式序列，将格式序列相同的报文归为一个类别，实现初步聚类；

多序列比对阶段的工作流程：以段为单位实施多序列比对，在比对过程中首先采用局部序列比对算法构造相对距离矩阵；而后采用层次聚类算法，将参与比对的报文段构造成系统树，并通过设置同类报文段的最大距离，将系统树分割为多棵子系统树；最后采用全局序列比对算法对子系统树中的报文段进行比对，获得报文段的基本结构；多序列比对针对初步聚类确定的同一类报文相同位置的一段进行多序列比对，有助于提高样本多序列比对的准确度，进而保证报文格式提取的准确度；首先采用局部序列比对算法，确定任意两段间的最长匹配子序列，并依据最长匹配子序列的长度，构造报文段的相对距离矩阵；以相对距离矩阵为基础，采用层次聚类算法，将参与比对的报文段构造成一颗系统树，每一个报文段作为系统树的一个叶子节点；在此基础上，采用设定距离阈值的方式确定同类报文段的相似度，以保证同一棵树中的报文段有较高的相似度，并依据距离阈值对系统树进行分割，产生多棵子系统树；对于子系统树中的报文段，依据树结构采用全局序列比对算法实施两两比对，通过增加空格的方式保证同一棵子系统树中报文段的对齐和长度统一，最终获得报文段的基本结构；将一类报文中各段综合在一起能够获得该类报文的总体结构；语义推断阶段的工作流程：在确定某一类别报文样本的基本结构后，统计此类别样本中各个字节取值的变化率；依据字节取值的变化率，确定样本格式中的固定字段和可变字段；首先判断固定字段是否为间隔字段，再判断可变字段是否为数据字段，进而推断未识别的可变字段中是否存在序号字段；依据判断出的字段语义，进行字段合并，并在未识别字段中推断长度字段；最后依据已识别出的格式序列，推断样本中的格式标识字段；即采用“间隔字段→数据字段→序号字段→长度字段→格式标识字段”的语义推断流程；

语义推断阶段工作流程：在掌握报文整体结构的基础上实施；将同类的所有报文集中在一起，对报文中的各个字节位置进行分析；依据每个字节取值的变化率，确定报文中的固定字段和可变字段；此后，将依次推断报文格式中的间隔字段、数据字段、序号字段、长度字段和格式标识字段；语义推断所采用的识别策略具体如下：

（1）间隔字段的判断：间隔字段是指在整个报文或报文的某一段中起分割、划段作用的关键字段，也称为分隔符；由于二进制类型的‘B’段中各字段的长度都较为固定，一般不会出现间隔字段，所以对该字段的识别只在可显示字符类型的‘A’段中进行；间隔字段的特征是取值固定，在样本中间隔出现多次，长度通常为一个字节，且一般不是字母、数字常用的ASCII字符；采取的识别策略是对未知固定字节进行判断，确定其是否为非字母和数字，且在样本中间隔出现的次数是否超过了设置的默认阈值3、或3-6之间的整数，连续出现算作一次；如果满足条件，则判定该字段为间隔字段；

（2）数据字段的判断：数据字段是指对报文的结构和其它关键字段影响不大或没有直接影响的可变字段，指报文的负载；对于‘B’段，如果未知可变字段中出现空格，就判定为数据字段；对于‘A’段，如果两个分隔符之间存在未知可变字段，就判定为数据字段；

（3）序号字段的判断：序号字段是用于标识报文在会话中的先后顺序，以防在处理时出现乱序的字段；序号字段靠近段首，另外，在不考虑报文乱序、重传的情况下，取值变化率接近100%，且与截获报文的先后顺序相对应；识别策略是对未知可变字段进行判断，其取值变化是否与报文的截获顺序相关，如果是则判定为序号字段；对于‘A’段，还特别要求序号字段为数据字段中的全数字字段；

（4）长度字段的判断：长度字段是报文中为某一字段或连续的某几个字段定界的字段，出现在变长报文中；长度字段的特征是其自身长度为1-4字节，且取值与样本的某一字段或连续的某几字段的长度相等，作用域不会在该字段之前；长度字段的识别策略，判断该字段的取值与其后的某一字段或连续的某几字段的长度是否相等，若相等就判定为长度字段；长度字段判断过程中涉及到对字段的定界和合并，‘A’段能利用已经识别出的间隔字段进行报文段的分隔；对于‘B’段则利用对字节取值变化率的统计信息，将连续的未识别的不变字段合并为一个未识别的不变字段，将连续的未识别的取值变化率相同的可变字段合并为一个未识别的可变字段；以此为基础，逐步判断长度字段以及它在报文中的作用域；

（5）格式标识字段的判断：格式标识字段是指该字段的取值能够决定该字段之后报文格式序列的关键字段；格式标识字段的特征是自身取值变化率较小，且取值与其后的格式序列密切相关，通常是一个值对应于作用域的一种格式序列；在完成其他语义推断的基础上，以剩余各段的取值变化率为基础，对报文序列从左至右选择取值变化率小的字段作为候选的格式标识字段；确定候选格式标识字段后，根据字段能否对序列的格式起到决定作用实施进一步判断；将候选字段的作用域划定为从该候选字段到下一个候选字段之间的范围，候选字段取某一值时，所涉及的样本应当具有完全相同的格式，如果不存在下个候选字段，则选择序列尾部作为终点；此外，候选字段取不同值时，所涉及的样本在格式上应当存在差异；如果候选字段满足给定的条件，则判断其为格式标识字段。