CN113569251A

CN113569251A - 一种基于汇编指令序列的二进制可执行文件脆弱性检测方法

Info

Publication number: CN113569251A
Application number: CN202110757824.3A
Authority: CN
Inventors: 王莘; 姜训智; 李冶天; 王振邦; 刘礼
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-10-29
Anticipated expiration: 2041-07-05
Also published as: CN113569251B

Abstract

本发明提出一种基于汇编指令序列的二进制可执行文件脆弱性检测方法，所述方法使用QEMU获取程序在执行过程中覆盖的不同路径的汇编指令序列，对汇编指令序列以基本块为单位映射到相同的向量空间，然后使用深度学习技术对基本块向量序列进行脆弱性行为的特征学习，从而实现对程序的脆弱性检测；本发明所述方法准确率高，并能够应用到嵌入式固件中。

Description

一种基于汇编指令序列的二进制可执行文件脆弱性检测方法

技术领域

本发明属于软件测试，漏洞挖掘技术领域，特别是涉及一种基于汇编指令序列的二进制可执行文件脆弱性检测方法。

背景技术

对程序进行脆弱性检测可以检查程序是否可能触发漏洞，及时修复脆弱性代码来保证程序安全，避免受到恶意攻击导致的损失。基于漏洞模式的静态分析是脆弱性检测中的常用方法，通过收集程序的静态特征，根据现有漏洞库进行基于漏洞特征的模式匹配，从而发现目标程序中的隐含漏洞。

而目前基于漏洞模式的静态分析方法通常需要程序源码，无法针对程序的二进制可执行文件进行，有很大的局限性。像VulDeePecker，通过收集大量的脆弱程序的C、C++源码，学习程序中含有漏洞的代码片段的语义模式，从而实现对目标程序的源码进行漏洞挖掘。现有的商业静态检测工具像Flawfinder、Splint等，都是对目标程序的源码进行静态扫描，然后结合漏洞库进行检测。

而静态分析方法中可以对二进制可执行文件进行分析的方法需要对目标程序的二进制文件进行反汇编，根据反汇编结果获取程序的静态特征。像BugScam工具，使用IDAPRO工具对二进制文件进行反汇编后，对汇编代码进行缓冲区溢出漏洞的模式匹配。这类方法依赖于二进制程序的反汇编结果，反汇编得到的汇编代码无法反映程序执行中的真实路径覆盖情况，难以从反汇编得到的大规模汇编代码中提取到含有漏洞的程序分支。虽然使用二进制插桩技术可以动态获取程序在运行过程中的汇编指令序列，但是目前的二进制插桩技术如PIN，DynamoRIO和Valgrind等都不支持对嵌入式固件进行插桩，所以基于二进制插桩的脆弱性检测方法难以应用到固件上。

发明内容

本发明是为了解决现有技术中的问题，提供了一种基于汇编指令序列的二进制可执行文件脆弱性检测方法。本发明用于对通用软件和嵌入式固件的二进制可执行文件进行汇编指令提取并实现脆弱性检测，本发明所述方法既可以对通用软件使用，也可以对嵌入式固件使用。

本发明是通过以下技术方案实现的，本发明提出一种基于汇编指令序列的二进制可执行文件脆弱性检测方法，所述方法使用QEMU获取程序在执行过程中覆盖的不同路径的汇编指令序列，对汇编指令序列以基本块为单位映射到相同的向量空间，然后使用深度学习技术对基本块向量序列进行脆弱性行为的特征学习，从而实现对程序的脆弱性检测；

所述方法具体包括以下步骤：

步骤一、提取二进制可执行文件的汇编指令序列；

步骤二、对汇编指令序列预处理；

步骤三、将预处理后的汇编指令序列进行基本块向量化处理，把预处理后的汇编指令序列转化为基本块向量序列；

步骤四、学习训练程序脆弱性分类模型，根据训练好的分类模型得到目标程序的脆弱性分类结果。

进一步地，所述步骤一中，使用QEMU虚拟机对二进制文件进行汇编指令序列的提取，QEMU是基于程序基本块执行的，根据程序的PC值取基本块，将基本块翻译为本机可执行的二进制机器码，翻译好的基本块被称为翻译块，以TB代指；QEMU使用缓存TBCache用于保存已经翻译好的TB；TBCache通过TB的第一条指令的地址值来保存TB；QEMU在执行时，虚拟CPU取程序的指令地址PC，在TBCache中查看PC值对应的TB是否存在，若存在直接从TBCache中取到翻译好直接可以执行的TB，否则进行二进制翻译，生成TB并保存到TBCache中。

进一步地，在步骤一中，在QEMU的基本块执行的函数cpu_tb_exec()中添加对基本块信息的保存实现程序执行的汇编指令序列的获取，从上下文环境中获得当前待执行的TB数据结构指针tb_ptr，然后使用内置的disas_insn()方法将tb_ptr下的翻译块TB反汇编得到汇编指令序列。

进一步地，所述预处理包括基本块筛选和操作数归一化。

进一步地，对从QEMU执行中获取到的基本块进行筛选，保留目标程序的汇编基本块，删除外部库函数的基本块；

使用地址比较实现基本块的筛选，遍历所有的基本块起始地址，获取目标程序的地址空间，将基本块起始地址不属于目标程序的地址空间的基本块删除，保留目标程序地址空间内的基本块。

进一步地，为了学习到汇编指令的操作行为的语义特征，根据操作数的类型，使用归一化常量替换具体的操作数。

进一步地，所述步骤三具体为：使用Doc2Vec中的PV-DM模型训练，将含有不同汇编指令数量的基本块映射到固定维数的向量空间中；将基本块合并为一个长序列，使用上下文预测中心词，滑动窗口完成对一个基本块的学习，其中用基本块的首地址来作为段落的编号参与学习；

在获得基本块的向量时，随机基本块向量，使用和学习训练时相同的策略，取窗口中的汇编操作码和操作数结合基本块向量预测中间的汇编操作数/码，参数更新时不更新模型参数，只更新基本块向量；基本块的所有汇编指令输入完成得到的基本块向量表示整个基本块。

进一步地，所述分类模型由三层构成，分别是嵌入层，由BiGRU构成的隐层以及输出层；

嵌入层使用PV-DM的基本块向量化模型，PV-DM根据不同的基本块中的汇编指令，经过已经训练完成的模型得到不同的基本块向量；按顺序输入基本块，基本块序列代表了程序在执行中得到的汇编指令序列，在经过PV-DM基本块向量化后得到了对应的基本块的向量序列；

在由BiGRU构成的隐层中，使用BiGRU学习基本块向量序列的脆弱性特征；隐层中叠加两层BiGRU网络，每层网络中都包含有300个双向的GRU单元也即BiGRU单元，每个BiGRU单元最后的输出特征维数为128；

输出层使用全连接网络将隐层中学习到的128维特征映射为一个2维向量，然后经过sigmoid层得到脆弱性检测结果，向量中的值表示了对脆弱和不脆弱分类的检测概率；最后取其中的最高概率下所指代的分类结果作为本次输入的汇编指令序列的脆弱性分类结果。

本发明围绕动态获取二进制可执行文件的汇编指令序列，使用QEMU获取程序在执行过程中覆盖的不同路径的汇编指令序列，对汇编指令序列以基本块为单位映射到相同的向量空间，然后使用深度学习技术对基本块向量序列进行脆弱性行为的特征学习，从而实现对程序的脆弱性检测。这种方法既可以对通用软件使用，也可以对嵌入式固件使用。

附图说明

图1为QEMU执行流程图；

图2为PV-DM基本块向量化模型图；

图3为分类模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-3，本发明提出一种基于汇编指令序列的二进制可执行文件脆弱性检测方法，所述方法使用QEMU获取程序在执行过程中覆盖的不同路径的汇编指令序列，对汇编指令序列以基本块为单位映射到相同的向量空间，然后使用深度学习技术对基本块向量序列进行脆弱性行为的特征学习，从而实现对程序的脆弱性检测；

所述方法具体包括以下步骤：

步骤一、提取二进制可执行文件的汇编指令序列；

所述步骤一中，使用QEMU虚拟机对二进制文件进行汇编指令序列的提取，QEMU是一款基于二进制翻译的虚拟机，可以对不同架构的通用软件进行用户级仿真执行，也可以对嵌入式固件进行全系统仿真执行。利用QEMU的执行机制进行程序汇编指令的提取，可以得到程序执行中覆盖的程序分支的汇编指令序列，这种方法可以对通用软件和嵌入式固件使用。QEMU是基于程序基本块执行的，根据程序的PC值取基本块，将基本块翻译为本机可执行的二进制机器码，翻译好的基本块被称为翻译块(Translation Block)，以TB代指；QEMU使用缓存TBCache用于保存已经翻译好的TB；TBCache通过TB的第一条指令的地址值来保存TB；QEMU在执行时，虚拟CPU取程序的指令地址PC，在TBCache中查看PC值对应的TB是否存在，若存在直接从TBCache中取到翻译好直接可以执行的TB，否则进行二进制翻译，生成TB并保存到TBCache中。

在步骤一中，在QEMU的基本块执行的函数cpu_tb_exec()中添加对基本块信息的保存实现程序执行的汇编指令序列的获取，从上下文环境中获得当前待执行的TB数据结构指针tb_ptr，然后使用内置的disas_insn()方法将tb_ptr下的翻译块TB反汇编得到汇编指令序列。这种方法获取的汇编指令序列是经过二进制翻译得到的的，一定程度上可以消除不同架构下汇编语言的差异。

使用QEMU日志系统在基本块的执行阶段获取程序执行的基本块覆盖情况以及基本块的汇编指令序列。需要注意QEMU使用直接块链技术保证仿真执行效率，把顺序执行的一系列TB做链接，当有直接块链时，执行时会一次性执行将后续所有的基本块。所以在提取基本块时需要手动将QEMU的直接块链进行关闭，防止出现基本块覆盖丢失的情况发生。在使用QEMU执行命令中添加“-d no_chain,out_asm,exec-D/path”即可在/path中指定的位置保存有QEMU日志系统保存的目标程序在执行中覆盖的TB序列。本发明中的脆弱性检测方法使用QEMU2.10.0对目标程序进行汇编指令的提取。

步骤二、对汇编指令序列预处理；

所述预处理包括基本块筛选和操作数归一化。

(1)基本块筛选

使用QEMU在执行目标程序时提取待执行的TB，收集的汇编指令序列中包含了大量的库函数的基本块，这些汇编基本块不属于目标程序。对从QEMU执行中获取到的基本块进行筛选，保留目标程序的汇编基本块，删除外部库函数的基本块；

使用地址比较实现基本块的筛选，遍历所有的基本块起始地址，获取目标程序的地址空间，将基本块起始地址不属于目标程序的地址空间的基本块删除，保留目标程序地址空间内的基本块。通过这种方法可以大大缩减所得到汇编指令的复杂性和大小。方便于后续使用深度学习进行漏洞检测。

(2)操作数归一化

在汇编指令中，操作数类型多种多样，对操作数不做处理，在向量化提取基本块的语义特征时会受到不同类型的操作数的影响，有些汇编指令语义即使相近，但是由于操作数的不同也会导致最后得到的向量间相似度很低。

程序的脆弱性和具体操作数关系不大，需要提取程序中会导致漏洞的脆弱性行为特征，而不是触发漏洞的具体值。具体的操作数不会影响指令的操作含义，脆弱的操作不受具体操作数影响。为了学习到汇编指令的操作行为的语义特征，根据操作数的类型，使用归一化常量替换具体的操作数。归一化对照表如表1所示：

表1操作数归一化

真实世界的程序所包含的汇编指令序列基本都在万条以上，而现有的深度学习技术在处理基于时间的序列上，只能有效处理长度在300左右的时间序列，如果简单使用截断的方法会丢失大量的汇编指令，导致无法学习被截断的汇编指令序列的脆弱性特征。但是程序中的基本块数量远远小于指令数量。以基本块序列作为深度学习的输入则可以保留大部分的汇编指令。

使用Doc2Vec中的PV-DM(Distributed Memory Model of Paragraph Vectors)模型训练，将含有不同汇编指令数量的基本块映射到固定维数的向量空间中；将基本块合并为一个长序列，使用上下文预测中心词，滑动窗口完成对一个基本块的学习，其中用基本块的首地址来作为段落的编号(block id)参与学习；

所述分类模型由三层构成，分别是嵌入层，由BiGRU构成的隐层以及输出层；

为验证本发明所述方法的效果，通过以下实施例验证：

基于PV-DM的基本块向量化模型在训练中，将所有长度不一的基本块映射到300维的向量空间中，训练周期维10个周期。

基于BiGRU的分类模型训练中学习率设置为0.0001，Dropout设置为0.5，训练周期为10个周期，批处理数量为64，使用交叉熵作为损失函数，在更新参数时使用Adam优化算法进行。最后训练结束后在测试集上的准确率达到了96％。

抽取数据集中351个正样本和351个负样本构成验证集，实验中351个正样本有343个分类正确，8个分类错误，351个负样本中340个分类正确，11个分类错误。在验证集中得到模型准确率为97.2％，精确率为96.8％，召回率为97.7％，F1指标为97.3％。

以上对本发明所提出的一种基于汇编指令序列的二进制可执行文件脆弱性检测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于汇编指令序列的二进制可执行文件脆弱性检测方法，其特征在于：所述方法使用QEMU获取程序在执行过程中覆盖的不同路径的汇编指令序列，对汇编指令序列以基本块为单位映射到相同的向量空间，然后使用深度学习技术对基本块向量序列进行脆弱性行为的特征学习，从而实现对程序的脆弱性检测；

所述方法具体包括以下步骤：

步骤一、提取二进制可执行文件的汇编指令序列；

步骤二、对汇编指令序列预处理；

2.根据权利要求1所述的方法，其特征在于：所述步骤一中，使用QEMU虚拟机对二进制文件进行汇编指令序列的提取，QEMU是基于程序基本块执行的，根据程序的PC值取基本块，将基本块翻译为本机可执行的二进制机器码，翻译好的基本块被称为翻译块，以TB代指；QEMU使用缓存TBCache用于保存已经翻译好的TB；TBCache通过TB的第一条指令的地址值来保存TB；QEMU在执行时，虚拟CPU取程序的指令地址PC，在TBCache中查看PC值对应的TB是否存在，若存在直接从TBCache中取到翻译好直接可以执行的TB，否则进行二进制翻译，生成TB并保存到TBCache中。

3.根据权利要求2所述的方法，其特征在于：在步骤一中，在QEMU的基本块执行的函数cpu_tb_exec()中添加对基本块信息的保存实现程序执行的汇编指令序列的获取，从上下文环境中获得当前待执行的TB数据结构指针tb_ptr，然后使用内置的disas_insn()方法将tb_ptr下的翻译块TB反汇编得到汇编指令序列。

4.根据权利要求3所述的方法，其特征在于：所述预处理包括基本块筛选和操作数归一化。

5.根据权利要求4所述的方法，其特征在于：对从QEMU执行中获取到的基本块进行筛选，保留目标程序的汇编基本块，删除外部库函数的基本块；

6.根据权利要求4所述的方法，其特征在于：为了学习到汇编指令的操作行为的语义特征，根据操作数的类型，使用归一化常量替换具体的操作数。

7.根据权利要求4所述的方法，其特征在于：所述步骤三具体为：使用Doc2Vec中的PV-DM模型训练，将含有不同汇编指令数量的基本块映射到固定维数的向量空间中；将基本块合并为一个长序列，使用上下文预测中心词，滑动窗口完成对一个基本块的学习，其中用基本块的首地址来作为段落的编号参与学习；

8.根据权利要求7所述的方法，其特征在于：所述分类模型由三层构成，分别是嵌入层，由BiGRU构成的隐层以及输出层；