CN107707540A

CN107707540A - 一种基于消息字段分隔符识别的网络协议逆向分析方法

Info

Publication number: CN107707540A
Application number: CN201710894554.4A
Authority: CN
Inventors: 闫佳; 苏璞睿; 杨轶; 和亮; 聂楚江; 贾相堃
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-02-16

Abstract

本发明提供一种基于消息字段分隔符识别的网络协议逆向分析方法，其步骤包括：在可控软件动态执行环境下，令网络协议对应的目标软件执行网络接收函数，获取缓冲区数据，并记录所有的执行指令序列；将所述缓冲区数据标记为污点，并根据所述执行指令序列进行字节级的多标签污点传播，获取污点的指令记录序列；从所述指令记录序列中提取比较指令，将为常数的操作数视为潜在分隔符；根据污点标签得到对应潜在分隔符的作用域，如果作用域的序列连续且长度大于2，则所述潜在分隔符视为分隔符；基于所诉分隔符对所述缓冲区数据进行字段划分，并基于其作用域提取字段关系，实现网络协议的逆向分析。

Description

一种基于消息字段分隔符识别的网络协议逆向分析方法

技术领域

本发明属于网络安全技术领域，尤其涉及一种采用二进制软件基于消息字段分隔符识别的网络协议逆向分析方法。

背景技术

随着社会的不断发展和进步，互联网在社会各个领域的应用越来越广泛，其中，作为互联网主机和服务器之间进行网络通信基本规范的网络协议，扮演着越来越重要角色。网络协议及其实现的分析逐渐成为软件安全分析的重要领域之一，尤其是在网络痕迹提取、网络审计管理、网络攻击检测等领域得到广泛应用，对网络协议的逆向分析技术提出了更高的要求。

工业界和学术界纷纷投入到协议自动化逆向方法的研究，并取得了大量成果，其分析方法主要以流量分析方法为主，即截获客户端和服务端之间的通信流量，通过各种聚类分析方法提取协议消息中相似的语法结构和有意义的关键字。代表性工作包括ProtocolInformatics项目提出的字节序列匹配和对齐的字段切分方法，RolePlay和ScriptGen等工作也是在网络地址、字节和Cookie等特征字段识别的基础上进行字节级的序列匹配方法实现消息格式恢复，微软的Cui WeiDong等提出的基于消息内二进制和字符串排列模式的聚类分析方法，大多数方法都在某种程度上使用了Needleman-Wunsch算法进行序列对齐和匹配。

尽管基于流量的协议逆向分析方法在应用于实际协议分析中有一定效果，但仍由于该方法只能针对有限的流量数据进行分析，面临着以下难以解决的问题：

(1)该方法往往将消息中的个别特征字符串识别为类型关键字，导致同一类型的不同协议消息划分为不同类型，并将错误传导到后续分析中，严重影响消息格式恢复的精确度；

(2)有限的流量数据无法对协议消息中字段长度和字段间关系进行精确界定，往往存在较大误差，无法满足实际协议分析对逆向工程的需求。

发明内容

本发明的目的在于提出一种基于消息字段分隔符识别的网络协议逆向分析方法，通过动态污点传播技术定位协议消息分隔符和分隔符作用范围，实现协议逆向的字段分隔和字段关系划分，提高网络协议逆向分析效率。

为达到上述目的，本发明采用如下技术方案：

一种基于消息字段分隔符识别的网络协议逆向分析方法，其步骤包括：

1)在可控软件动态执行环境下，令网络协议对应的目标软件执行网络接收函数，获取缓冲区数据，并记录所有的执行指令序列；

2)将所述缓冲区数据标记为污点，并根据所述执行指令序列进行字节级的多标签污点传播，获取污点的指令记录序列；

3)从所述指令记录序列中提取比较指令，该比较指令包含两个操作数，一带有污点标签，另一为单字节或双字节常数，将为常数的操作数视为潜在分隔符；

4)统计每个潜在分隔符对应的全部污点标签，获得污点标签集合，对每个污点标签集合中的污点标签进行排序，得到对应潜在分隔符的作用域，如果作用域的序列连续且长度大于2，则所述潜在分隔符视为分隔符；

5)基于所诉分隔符对所述缓冲区数据进行字段划分，并基于其作用域提取字段关系，实现网络协议的逆向分析。

进一步地，所述可控软件动态执行环境基于用户态(Pintool，Valgrind等工具)、内核驱动或者虚拟机(Qemu)技术实现。

进一步地，所述网络接受函数在Windows系统上为recv、recvfrom、WSARecv、WSARecvFrom、NtFileDeviceIoControl。

进一步地，所述多标签污点传播的步骤包括污点标记、污点传播计算和污点相关信息提取。

进一步地，所述污点标记的方法是：将特定内存地址标记为原始污点标签，设置与被分析进程内存空间相同的影子内存，以记录该特定内存地址的污点状态信息，该污点状态信息包括内存地址是否为污点、污点来自哪个原始污点标签。

进一步地，所述污点传播计算的方法是：遍历所述执行指令序列，从所述影子内存中获取指令操作数的污点状态，如果其源操作数为污点，则标记其目的操作数为污点并记录污点标签，否则清除其目的操作数的污点标记，按照指令的操作语义更新每条指令的影子内存的污点状态。

进一步地，所述污点相关信息提取方法是在污点传播过程中或完成后依据特定的应用需求提取污点相关的指令信息。

进一步地，所述常数的单字节值为0至255。

进一步地，所述作用域的序列连续是指污点标签对应的缓冲区数据的字符是连续的，如一分隔符的污点标签集合为{3，4，5，6}，分别对应缓冲区数据的第3到第6个字节，四个字节是连续的。

进一步地，所述基于作用域提取字段关系的方法包括：

如果一分隔符的作用域S₁真包含于另一分隔符的作用域S₂，则作用域S₁的字段是作用域S₂的字段的子字段；

如果一分隔符的作用域S₁与另一分隔符的作用域S₂没有交集，则称作用域S₁的字段与作用域S₂的字段是并列字段。

本发明的有益效果如下：

本发明基于字段分隔符语义，通过动态污点传播技术定位协议消息分隔符和分隔符作用范围，实现了协议逆向的字段分隔和字段关系划分，具备一定的网络协议自动逆向分析能力；通过分析网络程序处理输入消息的过程，依据分隔符的定位实现准确的字段划分；只需要执行一次网络程序，不依赖于流量数据，从而在提高网络协议逆向分析效率的同时避免了流量分析对于流量类型多样性需求过于依赖的弊端。

附图说明

图1为本发明的基于消息字段分隔符的网络协议逆向分析流程图。

图2为实施例中的字段划分和字段关系识别流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

如图1所示为一种基于消息字段分隔符识别的网络协议逆向分析方法，流程如下：

1.构建可控软件动态执行环境，获取网络协议消息执行指令序列：

构建待分析软件的运行环境，其中包括网络协议交互涉及的客户端和服务端程序，并选择一方为目标软件，另一方则为配合软件。基于程序执行动态监控技术执行目标软件。当客户端和服务端程序初始化完成后，从客户端上触发操作使得客户端和服务端产生网络交互行为。在可控执行环境中监控目标软件的执行情况，目标软件执行网络接受函数(Windows系统上为recv、recvfrom、WSARecv、WSARecvFrom、NtFileDeviceIoControl)，在其执行结束后获取其中缓冲区数据(记为B)，并开始记录后续所有的目标软件执行指令序列(记为IS)。

2.基于缓冲区数据进行多标签污点传播：

将第1步中的缓冲区数据标记为污点，污点标记粒度为字节，每个字节有单独的污点标签，标记长度为B_length，依据IS中的指令进行多标签污点传播，获取污点相关的指令，形成指令记录序列TIS，有TIS∈IS。

所述多标签污点传播的步骤包括：

污点标记，是指将特定内存地址(通常其中存放感兴趣的信息)标记为原始污点标签，设置与被分析进程内存空间相同的影子内存，以记录该特定内存地址的污点状态信息，该污点状态信息包括内存地址是否为污点、污点来自哪个原始污点标签；

污点传播计算，是指遍历IS，从影子内存中获取指令操作数的污点状态，如果其源操作数为污点，则标记其目的操作数为污点并记录污点标签，否则清除其目的操作数的污点标记，按照指令的操作语义更新每条指令的影子内存的污点状态；

污点相关信息提取，是指在污点传播过程中或完成后依据特定的应用需求提取污点相关的指令信息。

3.基于污点的指令记录序列的潜在分隔符识别：

从第2步中污点的指令记录序列TIS中，按照指令操作符类别提取比较指令序列CTIS，有CTIS∈TIS。要求比较指令的两个操作数中，一个带有污点标签(记为t)，另一个为单字节或双字节常数(记为c)，后者为潜在分隔符。

4.基于分隔符的字段划分：

针对CTIS中指令，统计所有c对应的污点标签，形成集合CCTIS_(c)，如果该集合的污点标签连续且大于2，则将潜在分隔符视作分隔符，并依据分隔符对消息进行字段划分。

5.基于分隔符作用域的字段关系提取：

对于分隔符，进一步分析其污点标签集合CCTIS_(c)。依据不同分隔符的污点标签集合进行包含、重叠、并列关系的判别，并据此进行分隔符对应的不同字段间关系的判别。具体是：如果一分隔符的作用域S₁真包含于另一分隔符的作用域S₂，则S₁的字段F₁是S₂的字段F₂的子字段；如果一分隔符的作用域S₁与另一分隔符的作用域S₂没有交集，则称字段F₁与字段F₂为并列字段。

本发明在字段划分和字段关系识别阶段主要以多标签污点传播形成的指令执行记录为输入，图2所示显示了字段划分和字段关系识别的详细流程，具体内容如下：

(1)输入污点相关比较指令CTIS，对于每条指令I∈CTIS，操作数集合为I_Op，且一般该集合数量为2，操作数分别记为OP1和OP2。则OP1或OP2有污点标签，记为t，另外操作数的单字节值记为c(0<＝c<＝255)。根据OP1和OP2的地址查询影子内存中的污点标记；输入污点状态信息，判断OP1或OP2是否为污点，如果OP1是，则视OP2为潜在分隔符，如果OP2是，则视OP1为潜在分隔符，将潜在分隔符加入潜在分隔符集合P_C_S中；

(2)针对每条污点相关的比较指令I∈CTIS，依此按照上述步骤进行处理，直到遍历CTIS中每一条指令。统计所有单字节值c(当假定分隔符为单字节时，0<＝c<＝255)对应的污点标签t，形成集合CCTIS_(c)，，其中c即为潜在分隔符。注意，每个潜在分隔符c都对应一个集合CCTIS_(c)。该集合中的所有污点标签按照序号进行排序，形成序列SCCTIS_(c)＝<t₁,t₂,..t_n>，这个序列表示潜在分隔符的作用域。

(3)对于每个潜在分隔符c，如果c的作用域是连续的，且作用域对应的序列长度大于2则判定c是分隔符。用符号表示为，如果|SCCTIS_(c)|>1，且存在t_i,t_i+1，有t_i+1＝t_i+1，则将c加入分隔符集合C_S。对应的网络协议消息以C_S中的分隔符为边界进行字段划分。

(4)对于分隔符c，SCCTIS_(c)包含的字节视为一个字段，其字段记为Field(c)。

(5)依据每个分隔符的作用域提取字段关系，具体方法为：对于分隔符c₁,c₂∈C_S，如果则Field(c₁)与Field(c₂)是并列字段，如果则c₁是c₂的子字段。

本发明提出的基于分隔符的协议消息字段划分方法，对于本领域的工程技术人员而言，可以根据需要采取不同的具体程序执行监控和多污点分析方案，以及在比较指令提取中依据语义调整潜在分隔字符对应的指令类型，并在分隔符识别中调整预期分隔符的长度，从而获得达到特定需求的分析目的。

尽管本发明公开了具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可在不脱离本发明及权利要求的精神和范围内，进行各种替换、变化和修改。因此，本发明不应局限于最佳实施例和附图所公开的内容，保护范围以权利要求书界定的范围为准。

Claims

1.一种基于消息字段分隔符识别的网络协议逆向分析方法，其步骤包括：

在可控软件动态执行环境下，令网络协议对应的目标软件执行网络接收函数，获取缓冲区数据，并记录所有的执行指令序列；

将所述缓冲区数据标记为污点，并根据所述执行指令序列进行字节级的多标签污点传播，获取污点的指令记录序列；

从所述指令记录序列中提取比较指令，该比较指令包含两个操作数，一带有污点标签，另一为单字节或双字节常数，将为常数的操作数视为潜在分隔符；

根据污点标签得到对应潜在分隔符的作用域，如果作用域的序列连续且长度大于2，则所述潜在分隔符视为分隔符；

基于所诉分隔符对所述缓冲区数据进行字段划分，并基于其作用域提取字段关系，实现网络协议的逆向分析。

2.根据权利要求1所述的方法，其特征在于，所述可控软件动态执行环境基于用户态、内核驱动或者虚拟机技术实现。

3.根据权利要求1所述的方法，其特征在于，所述网络接受函数在Windows系统上为recv、recvfrom、WSARecv、WSARecvFrom、NtFileDeviceIoControl。

4.根据权利要求1所述的方法，其特征在于，所述多标签污点传播的步骤包括污点标记、污点传播计算和污点相关信息提取。

5.根据权利要求4所述的方法，其特征在于，所述污点标记的方法是：将特定内存地址标记为原始污点标签，设置与被分析进程内存空间相同的影子内存，以记录该特定内存地址的污点状态信息，该污点状态信息包括内存地址是否为污点、污点来自哪个原始污点标签。

6.根据权利要求4所述的方法，其特征在于，所述污点传播计算的方法是：遍历所述执行指令序列，从所述影子内存中获取指令操作数的污点状态，如果其源操作数为污点，则标记其目的操作数为污点并记录污点标签，否则清除其目的操作数的污点标记，按照指令的操作语义更新每条指令的影子内存的污点状态。

7.根据权利要求4所述的方法，其特征在于，所述污点相关信息提取方法是：在污点传播过程中或完成后依据特定的应用需求提取污点相关的指令信息。

8.根据权利要求1所述的方法，其特征在于，所述根据所述污点标签得到对应潜在分隔符的作用域采用的方法是：统计每个潜在分隔符对应的全部污点标签，获得污点标签集合，对每个污点标签集合中的污点标签进行排序，得到对应潜在分隔符的作用域。

9.根据权利要求1所述的方法，其特征在于，所述作用域的序列连续是指污点标签对应的缓冲区数据的字符是连续的。

10.根据权利要求1所述的方法，其特征在于，所述基于作用域提取字段关系的方法包括：

如果一分隔符的作用域S1真包含于另一分隔符的作用域S2，则作用域S1的字段是作用域S2的字段的子字段；

如果一分隔符的作用域S1与另一分隔符的作用域S2没有交集，则称作用域S1的字段与作用域S2的字段是并列字段。