CN116578979B

CN116578979B - 一种基于代码特征的跨平台二进制代码匹配方法及系统

Info

Publication number: CN116578979B
Application number: CN202310540859.0A
Authority: CN
Inventors: 朱辉; 刘欣鑫
Original assignee: Ruan'an Technology Co ltd
Current assignee: Ruan'an Technology Co ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2024-05-31
Anticipated expiration: 2043-05-15
Also published as: CN116578979A

Abstract

本发明涉及一种基于代码特征的跨平台二进制代码匹配方法及系统，包括从内存dump出data或rdata段的数据提取里面的常量字符串特征，并通过算法生成常量字符串的哈希特征值；依次提取语法/文本特征，提取代码的语义特征以及提取图同构的特征，将所有特征按照预定顺序进行首尾相接，拼接成高维的特征向量；对所有高维的特征向量进行降维，使用分类器对降维后的特征向量进行多分类训练，得到训练好的分类器模型，并对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验。本发明能快速找到恶意app用于加密或签名的二进制代码，还能广泛用于代码抄袭检测、补丁检测、代码漏洞发现、恶意软件族谱追踪等。

Description

一种基于代码特征的跨平台二进制代码匹配方法及系统

技术领域

本发明涉及软件安全技术领域，尤其涉及一种基于代码特征的跨平台二进制代码匹配方法及系统。

背景技术

随着智能设备的普及，基于这类设备的app日益增多，其中不乏大量的恶意app，为了更好地防范和打击这类恶意app，需要对app进行代码分析，而因为这类app是已经编译过的app，因此只能分析其二进制代码，但是这类恶意app有很多恶意功能，一般情况下不能在真机中运行，只能通过静态方法或者模拟器执行的方式分析器源码，找到恶意功能实现的细节和原理；为了防止被逆向分析，很多恶意app都会使用加密算法对自身代码进行加密，或者对发送的数据包做加密或指纹签名，因此，分析前必须先解密数据才能继续对代码进行分析。

现有对恶意app用于加密或者签名代码的逆向分析，主要是提取特征后进行比对，比如一种是提取常量特征后转为哈希值匹配，这种方式按照ASCII码的方式提取常量，会提取大量无意义的字符串，这些无意义的字符串常量会反过来增加哈希值数量，加大数据存储和后续计算匹配的压力，而且判断字符串属于哪个函数的运算成本很高，所以通过常量字符串方式多为匹配文件颗粒度的相似度，无法进一步细化到代码相似度的匹配；另一种是提取代码特征后计算特征之间的相似度或用机器学习方法做分类，这种方式如果二进制代码被OLLVM(低水平虚拟机混淆器)混淆，原有代码基本块的跳转关系就会被完全打乱，此时生成的CFG(控制流图)或ICFG(过程间控制流图)图就无法表征原始二进制代码的跳转关系特征，而且原有二进制代码中基本块与函数的上下游调用关系，各种特征也会被完全打乱，原有的特征提取办法就会失效；因此，现有的二进制匹配比对思路都是提取各类特征后做对比，但都不完善，提取的特征都可能会被针对性地破坏或故意误导。

需要说明的是，在上述背景技术部分公开的信息只用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于代码特征的跨平台二进制代码匹配方法及系统，解决了现有方法存在的不足。

本发明的目的通过以下技术方案来实现：一种基于代码特征的跨平台二进制代码匹配方法，所述方法包括：

S1、从内存dump出data或rdata段的数据提取里面的常量字符串特征，并通过算法生成常量字符串的哈希特征值；

S2、依次提取语法/文本特征，提取代码的语义特征以及提取图同构的特征，将所有特征按照预定顺序进行首尾相接，拼接成高维的特征向量；

S3、通过随机森林算法对所有高维的特征向量进行分类实现压缩降维，使用分类器对降维后的特征向量进行多分类训练，得到训练好的分类器模型，通过该分类器模型对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验。

所述提取语法/文本特征包括：

以指令的基础块为单元，去除该单元内所有二进制汇编指令的操作数只保留操作码，以此屏蔽不同的常数项和寄存器带来的文本差异；

对于每个操作码求出其tf-idf值，其值越高说明该指令在当前基础块内的特征越明显；

将所有操作码转换成字典，然后将当前基础块中所有操作码的tf-idf值按照该操作码在字典内的位置顺序排列，形成该基础块的N-hot特征向量。

所述提取代码的语义特征包括：在基础块的最后指令执行完毕后收集所有通用寄存器的值，并按照预定顺序将这些值进行排列，形成基础块输出值特征向量。

所述提取图同构的特征包括：

运行二进制代码文件筛选出没有被执行的所有基础块和二进制代码，通过静态分析的方式将没有被执行的基础块以及其之间的跳转指令进行空指令操作，并将没有被执行的二进制代码进行空指令操作；

在基础块最后指令执行结束时提取通用寄存器的值作为特征，并提取基础块指令条数、基础块的入度和基础块的出度作为特征；

判断跳转指令的跳转类型并提取作为特征，提取函数参数、函数返回值、函数调用的入度、函数调用的出度、函数代码指令条数、函数栈空间大小、函数局部变量个数和函数内部基础块个数作为特征；

将提取的所有特征按照预定顺序依次排列形成N维特征向量。

所述S3的步骤具体包括：

通过随机森林算法产生大量子树，每个子树抽取原特征向量特定数量的维度进行分类并以向量的形式输出分类结果，每个子树的高度为3，叶子节点数为8，即每个子树生成的向量为8维，设子树数量为L，原特征向量维度为N，N/L＞8；

将随机森林每个子树运行结果的向量首尾拼接得到新的降维后的特征向量，使用分类器对生成的降维后的特征向量进行多分类训练，得到训练好的分类器模型，通过该分类器模型对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验。

所述方法还包括训练样本生成步骤，所述训练样本生成步骤包括：

将常见的加密和签名且未被混淆的二进制代码使用编译器通过交叉编译的方式编译成不同硬件平台、不同编译器、不同编译器版本、不同操作系统对应的二进制代码文件，以增加训练数据样本，并通过S1和S2步骤提取特征，并拼接成高维特征向量作为训练样本的特征向量对分类器进行训练。

一种基于代码特征的跨平台二进制代码匹配系统，它包括特征转换模块、特征提取模块和训练分类模块；

所述特征转换模块：用于从内存dump出data或rdata段的数据提取里面的常量字符串特征，并通过算法生成常量字符串的哈希特征值；

所述特征提取模块：用于依次提取语法/文本特征，提取代码的语义特征以及提取图同构的特征，将所有特征按照预定顺序进行首尾相接，拼接成高维的特征向量；

所述训练分类模块：用于通过随机森林算法对所有高维的特征向量进行分类实现压缩降维，使用分类器对降维后的特征向量进行多分类训练，得到训练好的分类器模型，通过该分类器模型对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验。

所述特征提取模块包括语法/文本特征提取单元、代码语义特征提取单元和图同构特征提取单元；

所述语法/文本特征提取单元：用于以指令的基础块为单元，去除该单元内所有二进制汇编指令的操作数只保留操作码，以此屏蔽不同的常数项和寄存器带来的文本差异；对于每个操作码求出其tf-idf值，其值越高说明该指令在当前基础块内的特征越明显；将所有操作码转换成字典，然后将当前基础块中所有操作码的tf-idf值按照该操作码在字典内的位置顺序排列，形成该基础块的N-hot特征向量；

所述代码语义特征提取单元：用于在基础块的最后指令执行完毕后收集所有通用寄存器的值，并按照预定顺序将这些值进行排列，形成基础块输出值特征向量；

所述图同构特征提取单元：用于通过运行二进制代码文件筛选出没有被执行的所有基础块和二进制代码，通过静态分析的方式将没有被执行的基础块以及其之间的跳转指令进行空指令操作，并将没有被执行的二进制代码进行空指令操作；在基础块最后指令执行结束时提取通用寄存器的值作为特征，并提取基础块指令条数、基础块的入度和基础块的出度作为特征；判断跳转指令的跳转类型并提取作为特征，提取函数参数、函数返回值、函数调用的入度、函数调用的出度、函数代码指令条数、函数栈空间大小、函数局部变量个数和函数内部基础块个数作为特征；将提取的所有特征按照预定顺序依次排列形成N维特征向量。

还包括训练样本扩展模块，所述训练样本扩展模块：用于将常见的加密和签名且未被混淆的二进制代码使用编译器通过交叉编译的方式编译成不同硬件平台、不同编译器、不同编译器版本、不同操作系统对应的二进制代码文件，以增加训练数据样本，并通过特征转换模块和特征提取模块提取特征，并拼接成高维特征向量作为训练样本的特征向量对分类器进行训练。

本发明具有以下优点：一种基于代码特征的跨平台二进制代码匹配方法及系统，除了快速找到恶意app用于加密或签名的二进制代码，还能广泛用于代码抄袭检测、补丁检测、代码漏洞发现、恶意软件族谱追踪等；而且由于提取的特征有常量字符串特征、图同构特征、函数特征，这些特征是和软硬件平台、操作系统、编译器及版本无关的，所以利用这些特征是可以达到跨软硬件平台、操作系统、编译器及版本做二进制的加密和签名代码相似度检测及匹配。

附图说明

图1为本发明方法的流程示意图；

图2为本发明经过反混淆后的代码效果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明其中一种实施方式涉及一种基于代码特征的跨平台二进制代码匹配方法，其具体包括以下内容：

S1、为了提取最精准的特征，并尽可能节约提取和存储的时间及计算机硬件成本，在提取常量字符串时只提取二进制文件data或rdata段的常量，从内存dump出data或rdata段的数据提取里面的常量字符串特征，并通过MD5或shal算法生成常量字符串的哈希特征值；

进一步地，对于同一段源码，不同编译器、不同版本的编译器可能编译成不同的二进制代码，所以提取二进制代码的语法或文本特征时，需要考虑到不同指令顺序和不同操作数带来的文本差异，提取语法/文本特征包括：

对于每个操作码求出其tf-idf(词频-逆文档频率)值，其值越高说明该指令在当前基础块内的特征越明显，后续用机器学习算法做分类的精确率和召回率越高；

将x86架构下所有操作码转换成字典，然后将当前基础块中所有操作码的tf-idf值按照该操作码在字典内的位置顺序排列，形成该基础块的N-hot特征向量。

进一步地，提取代码的语义特征包括：为了防止被逆向和破解，恶意app开发人员可能会在正常的二进制源码之间人为增加大量的无效、无用代码指令，以此来增加逆向破解人员分析的成本。但不论增加了多少无效、无用代码指令，也不论增加了哪些无效、无用代码指令，基础块最终输出的结果是不会变的，所以在基础块的最后一行代码执行完毕后，可以收集所有通用寄存器的值(去掉eip、esp、ebp、eflags等寄存器的值)，按照既定的顺序将这些值排列，形成基础块输出值特征向量。

进一步地，整个二进制文件是由多个没有跳转指令的基础块构成的。基础块实现最基本的功能，然后由各种跳转指令(诸如jmp、call、ret等)控制基础块之间的执行转移，OLLVM或VMP混淆就是通过在原基础块之间添加大量无用、无效的基础块来打乱原有基本块之间的跳转关系。部分混淆甚至还会把原较大基础块继续拆分成多个更小基础块，然后通过互相跳转的方式来保证更改前的大基础块和更改后的多个小基础块保持语义一致性；提取图同构的特征包括：

静态分析：运行二进制代码文件筛选出没有被执行的所有基础块，通过静态分析的方式将没有被执行的基础块以及其之间的跳转指令进行空指令操作；

动态追踪：IDA、frida等业界常用的逆向破解工具都有二进制代码动态执行的追踪trace功能，由此可以识别出未被执行的二进制代码，这部分代也可以直接进行空指令操作；

模拟执行：unidbg、unicorn等业界常用的模拟器也可以逐行执行汇编代码，同样可以识别出未被执行的二进制代码，这部分代也可以直接进行空指令操作。

如图2所示，经过上述方法后可以去掉大量无效、无用的跳转和对应的基础块，从图中可以发现，原始程序经过反混淆后，减少了大量的基础块和跳转关系，基本恢复了混淆前二进制代码的状态。

判断跳转指令是否为条件跳转还是无条件跳转，基础块之间的跳转是单向还是双向，并提取作为特征，提取函数参数、函数返回值、函数调用的入度、函数调用的出度、函数代码指令条数、函数栈空间大小、函数局部变量个数和函数内部基础块个数作为特征；

将提取的所有特征按照预定顺序依次排列形成N维特征向量。

进一步地，S3的步骤具体包括：

通过随机森林算法产生大量子树，每个子树抽取原特征向量特定数量的维度进行分类并以向量的形式输出分类结果，这一步的本质就是借助机器学习的树模型进一步提取维度特征，将原高纬度特征向量降为低纬度特征向量。

为避免随机森林子树过拟合，每个子树的高度为3，叶子节点数为8，即每个子树生成的向量为8维，设子树数量为L，原特征向量维度为N，为了降维，N/L＞8，比如取N/L＝16，可以将原特征向量的维度减半；如果取M/N＝24，原特征向量维度减少2/3；

将随机森林每个子树运行结果的向量首尾拼接得到新的降维后的特征向量，长度为8L，使用分类器(如逻辑回归、SVM、贝叶斯和决策树等等)对生成的降维后的特征向量进行多分类训练，得到训练好的分类器模型，通过该分类器模型对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验。

进一步地，方法还包括训练样本生成步骤，训练样本生成步骤包括：

将常见的加密和签名且未被混淆的二进制代码使用主流的编译器(包括但不限于GCC、Clang、Visual C++、C++Compiler、Clang-Tidy、TCC等)通过交叉编译的方式编译成不同硬件平台(包括但不限于x86、arm的32位和64位版本)、不同编译器、不同编译器版本、不同操作系统对应的二进制代码文件，以增加训练数据样本，并通过S1和S2步骤提取特征，并拼接成高维特征向量作为训练样本的特征向量对分类器进行训练。

本发明的另一种实施方式具体涉及一种基于代码特征的跨平台二进制代码匹配系统，它包括特征转换模块、特征提取模块和训练分类模块；

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于代码特征的跨平台二进制代码匹配方法，其特征在于：所述方法包括：

S3、通过随机森林算法对所有高维的特征向量进行分类实现压缩降维，使用分类器对降维后的特征向量进行多分类训练，得到训练好的分类器模型，通过该分类器模型对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验；

所述提取图同构的特征包括：

将提取的所有特征按照预定顺序依次排列形成N维特征向量。

2.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法，其特征在于：所述提取语法/文本特征包括：

对于每个操作码求出其tf-idf值，其值越高说明该操作码在当前基础块内的特征越明显；

3.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法，其特征在于：所述提取代码的语义特征包括：在基础块的最后指令执行完毕后收集所有通用寄存器的值，并按照预定顺序将这些值进行排列，形成基础块输出值特征向量。

4.根据权利要求1所述的一种基于代码特征的跨平台二进制代码匹配方法，其特征在于：所述S3的步骤具体包括：

5.根据权利要求1-4中任意一项所述的一种基于代码特征的跨平台二进制代码匹配方法，其特征在于：所述方法还包括训练样本生成步骤，所述训练样本生成步骤包括：

6.一种基于代码特征的跨平台二进制代码匹配系统，其特征在于：它包括特征转换模块、特征提取模块和训练分类模块；

所述训练分类模块：用于通过随机森林算法对所有高维的特征向量进行分类实现压缩降维，使用分类器对降维后的特征向量进行多分类训练，得到训练好的分类器模型，通过该分类器模型对新的特征向量进行分类匹配，判断新的特征向量的二进制代码属于哪种加密或者签名校验所述特征提取模块包括语法/文本特征提取单元、代码语义特征提取单元和图同构特征提取单元；

所述语法/文本特征提取单元：用于以指令的基础块为单元，去除该单元内所有二进制汇编指令的操作数只保留操作码，以此屏蔽不同的常数项和寄存器带来的文本差异；对于每个操作码求出其tf-idf值，其值越高说明该操作码在当前基础块内的特征越明显；将所有操作码转换成字典，然后将当前基础块中所有操作码的tf-idf值按照该操作码在字典内的位置顺序排列，形成该基础块的N-hot特征向量；

7.根据权利要求6所述的一种基于代码特征的跨平台二进制代码匹配系统，其特征在于：还包括训练样本扩展模块，所述训练样本扩展模块：用于将常见的加密和签名且未被混淆的二进制代码使用编译器通过交叉编译的方式编译成不同硬件平台、不同编译器、不同编译器版本、不同操作系统对应的二进制代码文件，以增加训练数据样本，并通过特征转换模块和特征提取模块提取特征，并拼接成高维特征向量作为训练样本的特征向量对分类器进行训练。