CN112733137B

CN112733137B - 一种面向漏洞检测的二进制代码相似性分析方法

Info

Publication number: CN112733137B
Application number: CN202011555496.0A
Authority: CN
Inventors: 王莘; 姜训智; 程蕾蓉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-11-16
Anticipated expiration: 2040-12-24
Also published as: CN112733137A

Abstract

本发明是一种面向漏洞检测的二进制代码相似性分析方法。本发明涉及漏洞检测技术领域，本发明选定源代码漏洞库；将源代码漏洞库中代码进行编译，形成二进制文件；根据得到的二进制文件，通过词嵌入模型对二进制文件进行训练，生成指令的嵌入向量；对指令嵌入向量进行分析，生成基本块嵌入向量；对生成的基本块嵌入向量进行相似性检测，确定二进制文件是否包含漏洞。本发明通过采用不同的优化级别和编译选项将漏洞库中源代码编译为二进制文件，以提高检测的准确度和覆盖率。

Description

一种面向漏洞检测的二进制代码相似性分析方法

技术领域

本发明涉及漏洞检测技术领域，是一种面向漏洞检测的二进制代码相似性分析方法。

背景技术

在静态分析领域中，BinDiff是商用二进制区分工具，它对调用图和控制流图(CFG)执行多对多图同构检测，并利用启发式(例如，函数名、图边MD索引)来匹配函数和基本块。其他基于静态分析的技术对生成的控制和数据流图执行匹配或将图形分解成片段。这些方法大多只考虑指令的语法，而不考虑语义，这在分析过程中非常关键，尤其是在处理不同的编译器优化技术时。而且像匈牙利算法这样的图匹配算法价格昂贵，不能保证最优匹配。

另一个研究领域是动态分析。这些技术通过直接执行给定的代码，对给定的二进制文件执行动态切片或污染，并基于执行期间收集的信息检查语义级别的等价性来执行分析。一般来说，这些技术擅长提取代码的语义，并对编译器优化和代码混淆具有良好的弹性，但由于动态分析的性质，其通常具有较差的可扩展性和不完整的代码覆盖。

利用机器学习的进步来解决二进制相似性问题。已经提出了各种利用图表示学习技术，并将代码信息结合到嵌入中(即高维数值向量)。然后使用这些嵌入进行相似性检测。还有方法进一步依赖NLP技术来自动提取语义信息并为区分生成嵌入。与传统的静态和动态方法相比，这些方法有两个主要优势:1)更高的准确性，因为它们通过使用手动工程特征或基于深度学习的自动方法将代码的独特特征结合到分析中；2)更好的可扩展性，因为它们避免了繁重的图形匹配算法或动态执行。更重要的是，GPU可以显著加快学习过程。现有的基于学习的二进制相似性检测技术虽然取得了一些效果，但是仍然存在没有一些局限性：1)没有能够在细粒度的基本块级别上执行有效的程序范围的二进制区分。2)没有在分析过程中同时考虑程序范围的依赖信息和基本块语义信息。而本方法针对于上述不足进行改进，在细粒度的基本块上执行二进制相似性检测并结合上下文信息。

发明内容

本发明为通过检测给定的二进制文件中是否含有指定源代码漏洞库中所包含的漏洞，本发明适用于二进制代码相似性分析允许在不访问相应源代码的情况下分析二进制代码。它广泛用于漏洞发现、代码克隆检测、用户端崩溃分析等，本发明提供了一种面向漏洞检测的二进制代码相似性分析方法，本发明提供了以下技术方案：

一种面向漏洞检测的二进制代码相似性分析方法，包括以下步骤：

步骤1：选定源代码漏洞库；

步骤2：将源代码漏洞库中代码进行编译，形成二进制文件；

步骤3：根据得到的二进制文件，通过词嵌入模型对二进制文件进行训练，生成指令的嵌入向量；

步骤4：对指令嵌入向量进行分析，生成基本块嵌入向量；

步骤5：对生成的基本块嵌入向量进行相似性检测，确定二进制文件是否包含漏洞。

优选地，所述步骤1中选用OpenSSL作为源代码漏洞库。

优选地，所述步骤2具体为：将源代码漏洞库中代码通过不同的优化级别和编译选项编译成对应的二进制文件。

优选地，所述步骤3具体为：

步骤3.1：利用词嵌入模型对二进制文件进行训练，生成指令的嵌入向量，一个汇编指令是由一个操作码和两个操作数组成的序列：ins＝Opcode,Operand1,Operand2；空操作数由特殊标记EMPTY代替，所有操作码和操作数组成一个集合，每个操作码和操作数都被分配一个索引号；一条指令抽象为三个整数的序列，其中每个整数代表一个操作码或操作数的索引，一个基本块是一个汇编指令序列b＝ins1,ins2,...,insn，即包含三个有序整数的序列；

一个汇编函数是一组基本块f＝{b1,b2,...,bm}，当两个汇编函数对所有的输入产生完全相同的输出，那么就是相同的；

步骤3.2：基于PV-DM模型设计的词嵌入模型，PV-DM模型基于文档中的标记学习文档表示，文档是按顺序布局的，通过汇编函数表示为控制流图CFG，将控制流图建模为多个序列，每个序列对应于一个潜在的执行轨迹，所述轨迹包含线性布局的汇编指令，给定一个二进制文件，使用angr对二进制文件进行反汇编，提取出一个汇编函数列表、基本块和控制流图；对于函数fs中的每个序列bi，神经网络从一开始就遍历指令，对于每一条指令insj，通过利用前一个指令insj-1和下一个指令insj+1和指令所在的函数向量，最大化在其当前指令处的概率，来预测当前指令tc，通过下式表示概率：

邻居指令提供的向量捕捉词汇语义关系，函数的向量记住了给定上下文中无法预测的内容；对每个操作数和操作码构建词典，将操作数平均后与操作码拼接形成指令的向量表示。

优选地，所述步骤4具体为：

对指令嵌入向量进行分析，生成基本块嵌入向量，通过anger生成函数的ICFG，通过为字符串和库函数创建虚拟节点，并从调用点向这些虚拟节点绘制边，使得两个图形在终端虚拟节点上合并成一个，将合成的图和基本块的嵌入输入TADW算法中，通过交替最小二乘ALS算法最小化损失函数，多次迭代优化后，生成基本块的嵌入。

优选地，所述步骤5具体为：

基于基本块嵌入向量进行相似性检测，将两个函数所对应的向量进行余弦相似度比较，对相似度大于阈值0.5的函数，再分别对每对基本块的向量进行余弦相似度度量，最后得到二进制文件包含的top K个漏洞。

本发明具有以下有益效果：

本发明通过采用不同的优化级别和编译选项将漏洞库中源代码编译为二进制文件，以提高检测的准确度和覆盖率。本发明在可执行文件中的地址可以任意改变，而不影响逻辑，只要它们以相同的方式连接。即使没有明确表达连接信息，但也不会丢失这些信息，因为基本块的一些指令，如call、jump等，都隐含了连接信息。

附图说明

图1为指令嵌入模型示意图；

图2为面向漏洞检测的二进制代码相似性分析流程图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1-图2所示，本发明提供一种面向漏洞检测的二进制代码相似性分析方法，包括以下步骤：

步骤1：选定源代码漏洞库；所述步骤1中选用OpenSSL作为源代码漏洞库。

步骤2：将源代码漏洞库中代码进行编译，形成二进制文件；所述步骤2具体为：将源代码漏洞库中代码通过不同的优化级别和编译选项编译成对应的二进制文件。

所述步骤3具体为：

步骤4：对指令嵌入向量进行分析，生成基本块嵌入向量；

所述步骤4具体为：

所述步骤5具体为：

具体实施例二：

本发明的目的是通过检测给定的二进制文件中是否含有指定源代码漏洞库中所包含的漏洞。本文主要通过将源代码漏洞库编译成为二进制漏洞库，利用机器学习的方法检测给定二进制文件和漏洞库中文件的相似性，进而确定出top K个匹配漏洞。

步骤一：选定源代码漏洞库，为了尽可能检测出二进制文件中是否包含漏洞，需要选定有代表性的有权威的漏洞库，尽可能包含常见的漏洞，故本方法选定OpenSSL作为本方法实验时的漏洞库。

步骤二：将源代码漏洞库中代码通过不同的优化级别和编译选项编译成对应的二进制文件。因为各种各样的编译器优化和混淆技术使得逻辑上相似的汇编函数看起来有很大的不同。优化或模糊的汇编函数破坏了控制流和基本块的完整性，很难将这些语义相似，但结构和语法不同的函数识别为相似，因此本方法通过采用不同的优化级别和编译选项将漏洞库中源代码编译为二进制文件，以提高检测的准确度和覆盖率。

步骤三：利用词嵌入模型对二进制文件进行训练，生成指令的嵌入向量。一个汇编指令是由一个操作码和两个操作数组成的序列：ins＝Opcode,Operand1,Operand2。空操作数由特殊标记EMPTY代替。所有操作码和操作数组成一个集合，每个操作码和操作数都被分配一个索引号。因此，一条指令可以抽象为三个整数的序列，其中每个整数代表一个操作码或操作数的索引。一个基本块是一个汇编指令序列b＝ins₁,ins₂,...,ins_n，即包含三个有序整数的序列。一个汇编函数是一组基本块f＝{b₁,b₂,...,b_m}。需要注意的是，它不是一个序列，因为它们中没有顺序。它们在可执行文件中的地址可以任意改变，而不影响逻辑，只要它们以相同的方式连接。即使没有明确表达连接信息，但也不会丢失这些信息，因为基本块的一些指令，如call、jump等，都隐含了连接信息。如果两个汇编函数对所有可能的输入产生完全相同的输出，那么它们就是相同的。

一个二进制，经过反汇编后，用某种汇编语言来表示。这启发了我们可以从自然语言处理(NLP)中学习二进制代码分析的方法，这是一个专注于有效、高效地处理自然语言体例的富有成果的领域。而且，这两个看似遥远的领域——二进制代码分析和NLP——实际上有很多类似的主题，比如从代码/文本中提取语义，段落/函数的总结，代码/文章的分类，以及代码/文本的相似性比较。因此，可以将NLP中的思想、方法和技术用于解决二进制代码分析问题。

本方法基于PV-DM模型设计的词嵌入模型。PV-DM模型基于文档中的标记学习文档表示。但是，文档是按顺序布局的，这不同于汇编代码，因为汇编代码可以表示为控制流图(CFG)，并且有特定的语法。汇编函数可以表示为控制流图(CFG)。本方法将控制流图建模为多个序列。每个序列对应于一个潜在的执行轨迹，该轨迹包含线性布局的汇编指令。给定一个二进制文件，使用angr对二进制文件进行反汇编，提取出一个汇编函数列表、它们的基本块和控制流图。对于函数fs中的每个序列b_i，神经网络从一开始就遍历指令，对于每一条指令ins_j，通过利用它的前一个指令ins_j-1和它的下一个指令ins_j+1(忽略越界的指令)和该指令所在的函数向量，最大化在其当前指令处的概率，来预测当前指令t_c，其概率表示为公式1所示。其流程图如图1所示。邻居指令提供的向量捕捉词汇语义关系，函数的向量记住了给定上下文中无法预测的内容。

其中，对每个操作数和操作码构建词典，将操作数平均后与操作码拼接形成指令的向量表示。

步骤四：对指令嵌入向量进行分析，生成基本块嵌入向量。为了学习上下文的语义关系，利用anger生成函数的ICFG，然后通过为字符串和库函数创建虚拟节点，并从调用点向这些虚拟节点绘制边，使得两个图形在终端虚拟节点上合并成一个，然后将合成的图和基本块的嵌入输入TADW算法中，通过交替最小二乘(ALS)算法最小化损失函数，多次迭代优化后，生成基本块的嵌入。

步骤五：基于基本块嵌入向量进行相似性检测。为了提高检测效率，首先将两个函数所对应的向量进行余弦相似度比较，对相似度大于阈值0.5的函数，再分别对每对基本块的向量进行余弦相似度度量，最后得到二进制文件可能包含的top K个漏洞。

以上所述仅是一种面向漏洞检测的二进制代码相似性分析方法的优选实施方式，一种面向漏洞检测的二进制代码相似性分析方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种面向漏洞检测的二进制代码相似性分析方法，其特征是：包括以下步骤：

步骤1：选定源代码漏洞库；

步骤2：将源代码漏洞库中代码进行编译，形成二进制文件；

所述步骤3具体为：

邻居指令提供的向量捕捉词汇语义关系，函数的向量记住了给定上下文中无法预测的内容；对每个操作数和操作码构建词典，将操作数平均后与操作码拼接形成指令的向量表示；

步骤4：对指令嵌入向量进行分析，生成基本块嵌入向量；

2.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法，其特征是：所述步骤1中选用OpenSSL作为源代码漏洞库。

3.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法，其特征是：所述步骤2具体为：将源代码漏洞库中代码通过不同的优化级别和编译选项编译成对应的二进制文件。

4.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法，其特征是：所述步骤4具体为：

5.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法，其特征是：所述步骤5具体为：