CN113703773A

CN113703773A - 一种基于nlp的二进制代码相似性比对方法

Info

Publication number: CN113703773A
Application number: CN202110988539.2A
Authority: CN
Inventors: 贾张涛; 付修锋; 李雅斯; 杨铁湃; 邵飒; 金玉川
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-26
Anticipated expiration: 2041-08-26
Also published as: CN113703773B

Abstract

本发明涉及一种基于NLP的二进制代码相似性比对方法，属于代码比对领域。本发明利用代码中的跳转标识将汇编样本切分多个函数块，并利用NLP的方式将函数代码映射成函数特征向量，同时设计了以函数为基本分析单元的工程相似计算方法，从而完成代码溯源。该方法能满足二进制代码相似性对比中相似度检测的需求，且有着较高的准确率和召回率。

Description

一种基于NLP的二进制代码相似性比对方法

技术领域

本发明属于代码比对领域，具体涉及一种基于NLP的二进制代码相似性比对方法。

背景技术

开源复用是重要的软件开发模式，开源软件复用有助于缩减软件开发成本，提高了开发效率。但开源代码侵权与代码抄袭同样成为了当前软件行业的两个主问题，现有二进制代码相似性解决方案存在精确度和召回率低等问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种基于NLP的二进制代码相似性比对方法，以解决二进制代码相似性比对精确度不高的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于NLP的二进制代码相似性比对方法，该方法包括如下步骤：

第一步：二进制代码反汇编

将二进制代码文件Bin_0转换为汇编文件Asm_0；

第二步：汇编文件切分

Asm_0可视为二进制代码函数的集合，对Asm_0进行函数、代码块提取，函数是多个代码块的集合；

第三步：特征提取

依据拆分好的代码块序列，利用NLP算法，结合函数特征信息，对二进制代码的文件、函数块、代码块分别进行编码，获得函数的特征向量；

第四步：相似度计算

通过计算函数特征向量之间的距离来获取函数的相似情况，根据函数的相似情况判断二进制代码工程的相似度。

如权利要求1所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述第一步具体包括：通过二进制代码反汇编工具，将二进制代码文件Bin_0转换为汇编文件Asm_0。

进一步地，所述第二步具体包括：

S21、根据函数开始标识和函数结束标识，对汇编文件进行切分，提取汇编文件中的函数信息；函数用P表示，一个汇编代码S由S＝{P_1,P_2,……,P_n}表示；

S22、每一个函数由多个代码基本块组成，并通过分支指令标记，代码块用L表示，每个函数表示为多个代码块的集合P＝{L_1,L_2,……,L_m}；

S23、对汇编文件中的函数标识、偏移地址、分支指令、函数地址、跳转地址和立即数进行标准化处理。

进一步地，分支指令标记包括jnz和jmp。

进一步地，所述第三步具体包括如下步骤：

S31、函数块P表示为代码块的集合，P＝{L_1,L_2,……,L_m}；

S32、对于代码块L_k进行分词处理：根据汇编语言的特征，对代码块的文本进行分词处理；

S33、将代码块L_k序列映射成特征向量：使用哈希函数将每个代码块生成一组长度为64位向量，得到代码块L_k对应的哈希向量Hash_k；

S34、分词词频统计，代码块L_k的各个分词进行词频统计，以每个分词出现的频度作为该分词权值，T_k＝{…，mov:X，…}，X为mov出现的频度。

S35、赋权，根据分词权值对代码块L_k对应的哈希向量Hash_k根据特定规则赋予权重值，输出该代码块各分词的加权向量；

S36、函数P处理：对函数P中每个代码块进行处理，得到每个代码块包含分词的加权向量；

S37、合并：将函数P中所有代码块中同一分词的向量进行加权合并，以对数据进行压缩，得到函数P中每个分词的加权向量；

S38、降维：将函数块P每个分词的加权向量进行相加，进行降维操作，得到函数P的64位加权向量。

进一步地，所述步骤S32中汇编语言的特征包括Mov、add和Sub。

进一步地，所述步骤S35具体包括：根据分词权值与代码块的哈希向量相乘获得加权向量，若哈希向量的第i位为1，则用“1”与分词权值相乘获得该位的向量值，若哈希向量的第i位为0，则用“-1”与分词权值相乘获得该位的向量值。

进一步地，所述步骤S38还包括：对函数P的64位加权向量进行处理，若第j位的数值大于0，1<＝j<＝64，则取值为1，否则取值0，获得最终计算出得到的特征向量Hash_P。

进一步地，所述第四步具体包括：

S41、首先通过调用代码特征的提取方法获取两个工程的函数特征向量Hash_P，并分别统计函数总数目；

S42、以距离S为阈值，根据函数特征向量Hash_P对函数进行分类，特征向量相同记为相同函数，特征向量不同且向量距离小于S记为相似函数，其他记为不同函数，统计每个二进制文件函数相似情况；

S43、以相同、相似函数数量之和占函数总数的百分比作为工程相似度。

进一步地，所述距离S为3。

(三)有益效果

本发明提出一种基于NLP的二进制代码相似性比对方法，利用代码中的跳转标识将汇编样本切分多个函数块，并利用NLP的方式将函数代码映射成函数特征向量，同时设计了以函数为基本分析单元的工程相似计算方法，从而完成代码溯源。该方法能满足二进制代码相似性对比中相似度检测的需求，且有着较高的准确率和召回率。

附图说明

图1为本发明的二进制代码特征提取示意图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明主要面向二进制代码相似性比对领域，提出了一种基于NLP框架的二进制代码相似性比对方案，结合现有人工智能NLP框架，重点解决二进制代码相似性比对精确度不高的问题，具有较高的创新价值，该方案能够进一步二进制代码相似性比对的精确度和召回率。

本文利用NLP相关技术提出了一个新颖的代码精准快速溯源方法。利用代码中的跳转标识将汇编样本切分多个函数块，并利用NLP的方式将函数代码映射成函数特征向量，同时设计了以函数为基本分析单元的工程相似计算方法，从而完成代码溯源。该方法能满足二进制代码相似性对比中相似度检测的需求，且有着较高的准确率和召回率。

本发明针对目前二进制代码相似性检测遇到的相关问题，提出了一种以二进制代码函数为基本分析单元的程序比对分析技术。

(1)提出了代码复用形式和代码语法规则，提出以函数为基本分析单元的程序比对分析方法，将二进制代码看作是代码文件的集合，将文件看作是函数的集合。根据二进制代码语法规则，设计并实现了相关语法分析器，用作函数特征提取。

(2)提出了二进制代码相似性比对分析方法，提出了一种基于代码语义处理汇编函数特征提取的算法，此种比对分析模式使用函数指纹代替原有函数，加快了代码比对速度，有效降面向开源代码复用的程序比对分析技术研究低了中间结果的存储规模，适用于海量数据分析。

(3)提出了代码相似度判定方法，提出了基于算法的函数指纹检索方式，可以从海量代码中高效地检索出目标函数。

本发明主要面向二进制代码相似性比对领域，重点解决二进制代码相似性比对精确度不高的问题，将单个二进制文件拆分成由多个代码文件和函数块组成的集合，通过如下方法和步骤实现了基于NLP(Neuro-Linguistic Programming：自然语言处理)的二进制代码相似性比对：

第一步：通过二进制代码反汇编工具将二进制执行文件(标记为Bin_0)转换成汇编代码(标记为Asm_0)；

第二步：将汇编代码(Asm_0)以函数为基本单元进行切分，提取函数特征信息；

第三步：特征提取，基于NLP模型，将两个对比函数映射到同一个潜在空间，分别得到两个包含函数特征的二进制向量(标记为NLP_Vector_01、NLP_Vector_02)；

第四步：相似度计算，对NLP_Vector_01、NLP_Vector_02进行判定，判定两个函数之间是否存在复用关系。

本发明的目的在于提供一种高效的二进制代码相似性比对方案，结合现有人工智能NLP框架，重点解决二进制代码相似性比对精确度不高的问题。实施步骤如下：

第一步：二进制代码反汇编

通过二进制代码反汇编工具，将二进制代码文件(标记为Bin_0)转换为汇编文件(标记为Asm_0)。

第二步：汇编文件切分

Asm_0可视为二进制代码函数的集合，对Asm_0进行函数、代码块提取，详见图1，主要实现步骤如下：

S21、根据函数开始标识、函数结束标识等信息，对汇编文件进行切分，提取汇编文件中的函数信息。而得到了多个函数代码块的集合，函数用P表示。由此一个汇编代码S可以由S＝{P_1,P_2,……,P_n}表示。

S22、每一个函数由多个代码基本块组成，并通过分支指令标记，如jnz、jmp等，代码块用L表示，每个函数表示为多个代码块的集合P＝{L_1,L_2,……,L_m}。

S23、对汇编文件中的函数标识、偏移地址、分支指令、函数地址、跳转地址、立即数等进行标准化处理。

第三步：特征提取

依据拆分好的代码块序列，利用NLP算法，结合函数特征信息，对二进制代码的文件、函数块、代码块分别进行编码，获得函数的特征向量；具体实现步骤可如下：

输入：函数块P

输出：结合函数特征信息和代码语义特征，构造代码块对应的函数特征向量。

S31、函数块P可表示为代码块的集合，P＝{L_1,L_2,……,L_m}；

S32、对于代码块L_k进行分词处理：根据汇编语言的特征(包括Mov、add、Sub等)，对代码块的文本进行分词处理；

S35、赋权，根据分词权值对代码块L_k对应的哈希向量Hash_k根据特定规则赋予权重值，典型做法是根据分词权值与代码块的哈希向量相乘获得加权向量，若哈希向量的第i位为1，则用“1”与分词权值相乘获得该位的向量值，若哈希向量的第i位为0，则用“-1”与分词权值相乘获得该位的向量值。此部分输出是该代码块各分词的加权向量，例如，代码块L_k的特征向量为{101101……}，其中分词Mov出现了X次，赋权获得的加权向量为“Vect_k_mov＝{X，-X，X，X，-X，X，……}”；

S37、合并，将函数块P中所有代码块中同一分词(比如：mov)的向量进行加权合并，对数据进行压缩，函数P中分词mov对应加权向量Vect_mov＝{……+Vect_k_mov+……}，得到函数P中每个分词的加权向量；

S38、降维，将函数块P每个分词的加权向量进行相加，进行降维操作，得到函数P的64位加权向量Vect_P＝{……+Vect_mov+Vect_add……}，对Vect_P进行处理，若第j位(1<＝j<＝64)的数值大于0，则取值为1，否则取值0，获得最终计算出得到的特征向量Hash_P。

第四步：相似度计算

本发明通过计算向量距离实现相似度比对的方案，通过计算函数特征向量之间的距离来获取函数的相似情况，根据函数的相似情况判断二进制代码工程的相似度。

S41、首先通过调用代码特征的提取方法获取两个工程的函数特征向量Hash_P，并分别统计函数总数目。

S42、以距离S(通常取值为3)为阈值，根据函数特征向量Hash_P对函数进行分类，特征向量相同记为相同函数，特征向量不同且向量距离小于S记为相似函数，其他记为不同函数，统计每个二进制文件函数相似情况。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于NLP的二进制代码相似性比对方法，其特征在于，该方法包括如下步骤：

第一步：二进制代码反汇编

将二进制代码文件Bin_0转换为汇编文件Asm_0；

第二步：汇编文件切分

第三步：特征提取

第四步：相似度计算

2.如权利要求1所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述第一步具体包括：通过二进制代码反汇编工具，将二进制代码文件Bin_0转换为汇编文件Asm_0。

3.如权利要求1所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述第二步具体包括：

4.如权利要求3所述的基于NLP的二进制代码相似性比对方法，其特征在于，分支指令标记包括jnz和jmp。

5.如权利要求1-4任一项所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述第三步具体包括如下步骤：

S31、函数块P表示为代码块的集合，P＝{L_1,L_2,……,L_m}；

6.如权利要求5所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述步骤S32中汇编语言的特征包括Mov、add和Sub。

7.如权利要求5所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述步骤S35具体包括：根据分词权值与代码块的哈希向量相乘获得加权向量，若哈希向量的第i位为1，则用“1”与分词权值相乘获得该位的向量值，若哈希向量的第i位为0，则用“-1”与分词权值相乘获得该位的向量值。

8.如权利要求5所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述步骤S38还包括：对函数P的64位加权向量进行处理，若第j位的数值大于0，1<＝j<＝64，则取值为1，否则取值0，获得最终计算出得到的特征向量Hash_P。

9.如权利要求5所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述第四步具体包括：

10.如权利要求9所述的基于NLP的二进制代码相似性比对方法，其特征在于，所述距离S为3。