CN110569629A

CN110569629A - 二进制代码文件溯源方法

Info

Publication number: CN110569629A
Application number: CN201910853284.1A
Authority: CN
Inventors: 陶金龙; 纪祖赑; 高艳鹍; 冯大成; 张建伟; 汪进银
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-13

Abstract

本发明提出了一种二进制代码文件溯源方法，该方法通过反汇编生成汇编代码，然后基于汇编指令生成二进制文件的Simhash特征值，最后结合倒排索引方法和Simhash汉明距离计算，实现二进制代码文件相似性比对，并最终完成二进制代码文件溯源。该方法具有较好的时间和空间复杂度，能够满足在海量代码库中进行二进制代码文件快速溯源分析的要求，具有较高的准确率和召回率。

Description

二进制代码文件溯源方法

技术领域

本发明属于代码溯源分析领域，提出了一种二进制代码文件溯源方法。

背景技术

基于代码复用的开发模式，作为提高软件开发效率和质量的重要手段，已成为软件开发的主流方式，这就造成最终开发出来的软件构成复杂、来源广泛，从而为软件安全性和知识产权自主性带来巨大挑战。软件中可能同时包含多种类型或多种来源的构件或代码，如包含组织内部开发的构件代码、软件外包开发的代码、从多个开源社区复用的构件代码或者代码片段、购买的第三方商业构件代码等。

为了提高软件的可控性，降低软件安全性和知识产权风险，必须进行软件组成及溯源分析。软件组成及溯源分析方法可以分成基于源代码的溯源分析和基于目标代码的溯源分析两类，对于海量代码库的二进制代码文件，现有方法无法快速实现其溯源。

发明内容

本发明的目的在于提供一种二进制代码文件溯源方法，解决了基于海量代码库的二进制代码快速溯源问题。该溯源方法不仅具有较好的时间和空间复杂度，而且具有较高的准确率和召回率，实现程序代码复用的快速溯源分析。

本发明的技术方案如下：一种二进制代码文件溯源方法，其特征在于，具体包括以下步骤：

第一步，二进制文件反汇编：将二进制文件中的代码段转化成汇编代码；

第二步，二进制代码特征计算：基于汇编代码生成二进制代码文件的Simhash值；

第三步，基于特征的文件溯源：通过计算两个Simhash值之间的汉明距离，就可以判定两个二进制代码文件是否相似，完成二进制代码文件的溯源。

有益效果：本发明通过反汇编生成汇编代码，基于汇编指令生成Simhash特征值，结合倒排索引技术和Simhash汉明距离计算，实现二进制代码文件相似性比较，并最终完成二进制代码文件溯源。该方法具有较好的时间和空间复杂度，能够满足在海量代码库中进行二进制代码文件快速溯源分析的要求。具有较高的准确率和召回率，从而为软件安全性和知识产权自主性提供技术支撑；可以基于海量代码库的二进制代码文件溯源应用场景。

附图说明

图1为本发明的流程图；

图2为二进制文件代码特征计算流程图；

图3为Simhash特征值汉明距离的计算方法示意图。

具体实施方式

如图1所示，本发明提供一种二进制代码文件溯源方法，具体实施步骤为：

第一步、二进制文件反汇编

二进制文件反汇编是指借助反汇编工具，将二进制文件中的代码段转化成汇编代码，删除与程序代码特征无关信息，并对汇编代码中的偏移地址、函数地址、立即数和部分跳转指令等进行特殊处理。汇编代码相对于二进制指令，更加容易理解，而且每一条汇编指令都代表一定的语义，是天然的程序“指纹”。

使用IDAPro工具可以对二进制代码文件逆向未加壳或脱壳获取汇编代码。由于软件源代码的轻微改动都将造成汇编代码中寄存器、立即数、内存地址等的大幅变动，为了忽略这种差异对于代码溯源分析的影响，需要对获取到的汇编代码进行如下处理：

(1)寄存器如EAX、AX、AL等依据所占位数分别标准化为REG32、REG16、REG18；

(2)内存如[EAX]、[EDI+4]等均表示为MEM；

(3)立即数如0、5A4Dh表示为VAL；

(4)CALL指令调用函数时统一规范化为“CALL FUNCTION”；

(5)跳转指令如“JZ LOC_500001”统一规范化为“JZ LOCATION”。

第二步、二进制代码特征计算

一个执行逻辑不同的程序，其对应的汇编代码必然不同，因此汇编代码完全可以作为二进制代码文件特征的计算基础。二进制代码特征计算过程主要包括分词、散列、加权、合并、降维等5个步骤，最终生成长度为64位的Simhash特征值。

二进制文件代码特征计算过程如图2所示，具体过程描述如下：

(1)分词：因为汇编代码是以指令为基础，因此按照汇编指令对汇编代码进行分词处理，同时根据每种指令出现的频率，赋予权值。

(2)散列：针对每种汇编指令使用相同的哈希函数计算出一个64位的指纹值α，此时的汇编指令就转化成一系列的数字。

(3)加权合并：针对每种汇编指令进行加权合并处理，形成向量β。如果指纹值α的第i位为1(0<i<64),则向量β的第i位加上该汇编指令的权重，否则减去该汇编指令的权重。

(4)降维：针对向量β进行降维处理，形成最终的特征值S。如果向量β的第i位大于0，则将S的第i位设为1，否则设为0。特征值S就是最终形成的64位二进制代码文件Simhash特征值，可以基于该Simhash特征值进行二进制代码文件溯源分析。

第三步、基于特征的文件溯源

由于二进制代码特征完全可以反映二进制代码文件，因此两个二进制代码文件的相似性比对，就可以转换成两个文件Simhash特征值的比较。Simhash是一种局部敏感哈希，假设两个字符串A、B具有一定的相似性，A、B经过局部敏感Simhash计算后，仍然可以保持这种相似性。

两个Simhash的相似性体现为这两个Simhash值之间的汉明距离，所谓汉明距离，是指两个二进制数(即01串)对应位取不同值的个数。两个Simhash值之间的汉明距离越近，则说明这两个Simhash特征值对应的二进制代码文件相似度越高。

二进制代码文件溯源分析的关键是二进制代码文件的相似性比对。经过上一步的处理，二进制代码文件的相似性比对已经转化为Simhash特征值汉明距离的计算，通过计算两个simhash值之间的汉明距离，就可以判定两个二进制代码文件是否相似，从而实现二进制代码文件的溯源。一般地，针对两个64位Simhash特征值，在汉明距离不大于3时，两者具有很高的相似度。因此，二进制代码文件的相似性比对，就转化成了查找汉明距离为3以内的二进制代码文件。

然而，两个Simhash特征值的汉明距离计算很容易，但是面对海量的代码库时，不可能采用逐个比对的方式，因此需要采用新的方法，具体方法如下：

针对64位Simhash值，如需找出海明距离小于等于3的Simhash特征值，通过抽屉原理可知，平分为4个部分的Simhash特征值，至少有一个部分是完全相同。因此将64位Simhash特征值S切分为相同长度的4部分，每部分16位，即S＝[s₁,s₂,s₃,s₄]，然后针对s₁、s₂、s₃、s₄和S以及二进制代码文件创建倒排索引，结构如图3所示。

对于一个待比对的Simhash特征值SP，使用相同方式切分为4个部分，即SP＝[sp₁,sp₂,sp₃,sp₄]，然后针对sp_i检索具有相同对应部分s_i的Simhash特征值S(i＝1,2,3,4)，并进行汉明距离的计算,如果特征值SP和S之间的汉明距离不大于3，则说明这两个特征值对应的二进制文件相似，也即表明待比对文件溯源成功。

Claims

1.一种二进制代码文件溯源方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种二进制代码文件溯源方法，其特征在于，第一步中，将二进制文件中的代码段转化成汇编代码后，删除与程序代码特征无关信息，并对获取的汇编代码进行处理。

3.根据权利要求2所述的一种二进制代码文件溯源方法，其特征在于，对获取到的汇编代码进行如下处理：

(1)寄存器依据所占位数分别标准化为REG32、REG16、REG18；

(2)内存均表示为MEM；

(3)立即数表示为VAL；

(4)CALL指令调用函数时统一规范化为“CALL FUNCTION”；

(5)跳转指令统一规范化为“JZ LOCATION”。

4.根据权利要求2所述的一种二进制代码文件溯源方法，其特征在于，第二步中，二进制代码特征计算过程主要包括分词、散列、加权、合并、降维，最终生成长度为64位的Simhash特征值。

5.根据权利要求4所述的一种二进制代码文件溯源方法，其特征在于，第二步中，二进制文件代码特征计算过程具体如下：

分词：按照汇编指令对汇编代码进行分词处理，同时根据每种指令出现的频率，赋予权值；

散列：针对每种汇编指令使用相同的哈希函数计算出一个64位的指纹值α，此时的汇编指令就转化成一系列的数字；

加权合并：针对散列后的每种汇编指令进行加权合并处理，形成向量β；

降维：针对向量β进行降维处理，形成最终的特征值S，特征值S就是最终形成的64位二进制代码文件Simhash特征值。

6.根据权利要求5所述的一种二进制代码文件溯源方法，其特征在于，加权合并中，如果指纹值α的第i位为1，0<i<64,则向量β的第i位加上该汇编指令的权重，否则减去该汇编指令的权重。

7.根据权利要求5所述的一种二进制代码文件溯源方法，其特征在于，加权合并中，如果向量β的第i位大于0，则将S的第i位设为1，否则设为0。

8.根据权利要求1-7任一项所述的一种二进制代码文件溯源方法，其特征在于，第三步中，通过查找汉明距离为3以内的二进制代码文件即可实现二进制代码文件的相似性比对。

9.根据权利要求1-7任一项所述的一种二进制代码文件溯源方法，其特征在于，第三步的具体方法如下：

将64位Simhash特征值S切分为相同长度的4部分，每部分16位，即S＝[s₁,s₂,s₃,s₄]，然后针对s₁、s₂、s₃、s₄和S以及二进制代码文件创建倒排索引；

对于一个待比对的Simhash特征值SP，使用相同方式切分为4个部分，即SP＝[sp₁,sp₂,sp₃,sp₄]，然后针对sp_i检索具有相同对应部分s_i的Simhash特征值S，i＝1,2,3,4，并进行汉明距离的计算,如果特征值SP和S之间的汉明距离不大于3，则说明这两个特征值对应的二进制文件相似，也即表明待比对文件溯源成功。