CN109445834B

CN109445834B - 基于抽象语法树的程序代码相似性快速比较方法

Info

Publication number: CN109445834B
Application number: CN201811273830.6A
Authority: CN
Inventors: 陶金龙; 冯大成; 李雅斯; 高昕睿; 高艳鹍
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-04-30
Anticipated expiration: 2038-10-30
Also published as: CN109445834A

Abstract

本发明涉及一种基于抽象语法树的程序代码相似性快速比较方法，涉及代码复用技术领域。本发明的基于抽象语法树的程序代码相似性快速比较方法，该方法通过构造程序抽象语法树，然后基于抽象语法树提取程序代码特征，并将代码特征哈希化，最后通过计算代码特征哈希值的汉明距离进行代码相似性的判定。该方法以程序代码抽象语法树为比较对象，同时结合Simhash与倒排索引技术，将程序代码的相似性比较转化成代码特征哈希值的比较。在保证高准确率和召回率的前提下，这种方法不仅能够实现程序代码的快速相似性比较，而且还能够满足针对海量代码进行快速相似性比较的需要。该方法具有较好的时间和空间复杂度，能够适应针对海量代码的相似性比较应用场景，从而为软件代码复用及溯源提供支持手段。

Description

基于抽象语法树的程序代码相似性快速比较方法

技术领域

本发明涉及代码复用技术领域，具体涉及一种基于抽象语法树的程序代码相似性快速比较方法。

背景技术

代码复用就是将已有的软件代码成分用于构造新的软件系统。被复用的软件代码成分一般称作可复用构件,无论对可复用代码原封不动地使用还是做适当的修改后再使用,只要是用来构造新软件,则都可称作复用。

作为提高软件开发效率和质量的重要手段，基于代码复用的开发模式已经成为软件开发的主流，这也造成最终开发出来的软件构成复杂、来源广泛，从而为软件安全性和知识产权自主性带来巨大挑战。软件中可能同时包含多种类型或多种来源的构件或代码，如包含组织内部开发的构件代码、软件外包开发的代码、从多个开源社区复用的构件代码或者代码片段、购买的第三方商业构件代码等。

为了提高软件的可控性，以降低软件安全性和知识产权风险，必须进行软件组成及溯源分析，而软件组成及溯源分析的核心则是程序代码相似性比较。目前，针对程序代码相似性比较的方法和技术有很多，而且某些方法针对某些具体场景也具有很高的准确率和召回率，但是这些方法的效率都较低，而且都难以满足针对海量代码进行相似性比较的需要。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种程序代码相似性快速比较方法，实现程序代码复用的快速溯源分析，从而为软件安全性和知识产权自主性提供技术支撑。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于抽象语法树的程序代码相似性快速比较方法，包括以下步骤：

第一步、构建抽象语法树

先对程序代码进行词法分析，然后结合程序语法，进行语法分析，并构造程序抽象语法树；

第二步提取程序代码特征

针对程序代码的特征提取基于抽象语法树中的函数节点进行，通过遍历抽象语法树，过滤编译信息节点和冗余节点，以函数为单位解析函数内有用节点，形成特征标记串集合，将特征标记串转化成局部敏感哈希值，进而通过比较哈希值的距离，判定程序代码的相似程度；

第三步程序代码相似性比较

首先，对程序特征哈希值进行分块处理，分别创建索引表；然后，基于哈希值分块索引表，分别进行程序特征哈希值的分块检索；最后，基于哈希值检索的结果再进行特征哈希值距离计算，如果哈希距离小于预设阀值，则认为特征哈希值代表的程序代码相似，否则认为不相似。

优选地，第一步具体为：源代码首先经由词法分析器进行处理，词法分析器逐行地对源代码进行扫描，将程序代码分解成编程语言中一个个字符串形式的基本单词符号，与此同时，词法分析器将这些分解出来的基本元素Token化，标记它们所在的行，从而便于利用词法分析器对Token的访问与查找；

语法分析这一过程中，利用前面词法分析获得的Token串，同时根据源程序语言规范，生成与这些Token串相对应的语法分析树；

然后在语法分析树的基础上建立抽象语法树，过程是依据自定义的抽象语法树的文法，解析分析语法树中的字符串并提取Token信息，同时根据各级不同的节点，分别调用各自对应的方法，创建节点对象，继而生成程序抽象语法树。

优选地，第二步具体为：

分词：针对抽象语法树中的函数节点，对其子节点按照节点类型进行分词，同时根据每种节点类型出现的频率，赋予权值；

哈希：针对每种类型的节点，按照生成的标记串进行哈希计算，采用MD5或SHA1散列算法；

加权合并：对分词散列的每一位，如果该位为1，则向量相应位的值加上该分词的权值，否则减去该分词的权值；

降维：对向量的每一位，若该位大于0，则设为1，否则设为0，最终形成函数节点64位simhash值，该simhash值就是函数节点的最终特征，基于该simhash值进行函数相似性比较。

优选地，第二步中提取程序代码特征之前，还对抽象语法树进行过滤和优化，过滤掉抽象语法树中有关代码编译的信息，同时消除语法树中的冗余节点，接下来，按照抽象语法树中的节点类型，对节点进行解析，生成特征标记串，从而将程序代码转换成一个特征标记串集合，最后，再针对得到的特征标记串集合，进行哈希化处理，从而将特征标记串集合转换成特征哈希值集合。

优选地，所述预设阀值设定为3。

优选地，第三步基于抽屉原理实现。

优选地，第三步中，若2个simhash值的汉明距离在3以内，则它们切分成的k块中，必有k-3块相等，k≤64，设k＝8，将每个simhash值均分为8块，为所有的simhash值创建8个表，不同的表存储不同位置的块，第一个表存储0到15位，第二个表存储15到31位，第三个表存储32到47位，表中同样使用倒排索引，由8位比特串索引simhash值，当依据一simhash检索汉明距离在3以内的其他simhash值时，将该simhash平分为8块，每块在相应的表寻找相似块，取相似块对应的simhash集合，筛选出至少在5个块对应的集合中出现的simhash值，然后逐一计算汉明距离，如果最终计算出的汉明距离都小于3，则说明simhash对应的程序代码相似。

(三)有益效果

本发明的基于抽象语法树的程序代码相似性快速比较方法，该方法通过构造程序抽象语法树，然后基于抽象语法树提取程序代码特征，并将代码特征哈希化，最后通过计算代码特征哈希值的汉明距离进行代码相似性的判定。该方法以程序代码抽象语法树为比较对象，同时结合Simhash与倒排索引技术，将程序代码的相似性比较转化成代码特征哈希值的比较。在保证高准确率和召回率的前提下，这种方法不仅能够实现程序代码的快速相似性比较，而且还能够满足针对海量代码进行快速相似性比较的需要。该方法具有较好的时间和空间复杂度，能够适应针对海量代码的相似性比较应用场景，从而为软件代码复用及溯源提供支持手段。

附图说明

图1为本发明中通信数据协议元素设计方法示意图；

图2为本发明中通信数据协议描述示意图；

图3为本发明中基于通信协议的数据编码过程流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供的一种基于抽象语法树的程序代码相似性快速比较方法，如图1所示，包括以下步骤：

第一步构建抽象语法树

程序代码相似性比较是对程序源代码进行分析的过程，由于源代码本质上也属于文本文件，直接对其进行分析，所得到的信息有限，计算量过大，而且准确性也不高。所以，在进行程序代码相似性比较之前，需要将源程序转换为一种中间表示形式，以利于进一步处理。

抽象语法树是源程序处理过程中广泛使用的一种中间形式，能够直观地表示源程序的语法结构，不仅包含源程序结构展示所需的全部静态信息，而且具有较高的存储效率。构造程序抽象语法树的过程主要是先对程序代码进行词法分析，然后结合程序语法，进行语法分析，并构造程序抽象语法树。

程序抽象语法树的构建过程如图2所示。源代码首先经由词法分析器进行处理，词法分析器将逐行地对源代码进行扫描，将程序代码分解成编程语言中一个个字符串形式的基本单词符号如运算符、关键字等。与此同时，词法分析器将这些分解出来的基本元素Token化，标记它们所在的行，从而便于利用词法分析器对Token的访问与查找。

语法分析是源程序解析环节中的关键一步，在这一过程中，它利用前面词法分析获得的Token串，同时结合源程序语言规范，生成与这些Token串相对应的语法分析树。由于语法分析树和具体的编程语言的语法联系太过紧密，包含了原编程语言中太多的细节，导致树中存在大量多余的没有参考价值的节点，因此语法分析树并不能直接用来进行相似性比较。

抽象语法树构造器则是在语法分析树的基础上建立抽象语法树的关键。其工作过程是依据自定义的抽象语法树的文法，解析分析语法树中的字符串并提取Token信息，同时根据各级不同的节点，如根节点、类节点类、方法节点类，分别调用各自对应的方法，创建节点对象，继而生成程序抽象语法树。

第二步提取程序代码特征

程序抽象语法树不仅包含程序代码的语法结构信息，而且还包含有助于编译的细节信息。程序代码特征提取只关注程序代码的语法结构信息，而不需要有关程序编译的信息，因此，首先必须对抽象语法树进行过滤和优化，过滤掉抽象语法树中有关代码编译的信息，同时消除语法树中的冗余节点。接下来，按照抽象语法树中的节点类型，对节点进行解析，生成特征标记串，从而将程序代码转换成一个特征标记串集合。最后，针对得到的特征标记串集合，进行哈希化处理，从而将特征标记串集合转换成特征哈希值集合。

由于代码复用通常都是以函数为基本复用单位，因此针对程序代码的特征提取相应地基于抽象语法树中的函数节点进行。通过遍历抽象语法树，过滤编译信息节点和冗余节点，以函数为单位解析函数内有用节点，形成特征标记串集合。由于直接进行特征标记串的比较，效率非常低下，而且难以满足海量代码相似性比较场景，故将特征标记串转化成局部敏感哈希值，进而通过比较哈希值的距离，判定程序代码的相似程度。

基于抽象语法树进行程序代码特征的提取过程如图3所示，具体过程描述如下：

哈希：针对每种类型的节点，按照生成的标记串进行哈希计算，可采用MD5或SHA1散列算法；

降维：对向量的每一位，若该位大于0，则设为1，否则设为0，最终形成函数节点64位simhash值，该simhash值就是函数节点的最终特征，可以基于该simhash值进行函数相似性比较。

第三步程序代码相似性比较

经过第二步的处理，完成了程序代码特征到哈希特征的转换，从而将程序代码的相似性比较转化为特征值汉明距离的计算。通过计算两个simhash值间汉明距离，就可以判定两个simhash是否相似，进而判定两个函数代码是否相似。所谓汉明距离，是指两个二进制数(即01串)对应位取不同值的个数。当前，实践已经验证对于8KB以内的文档，64位的simhash值且最大汉明距离不大于3时，两者具有很高的相似度，且simhash算法的结果是可靠的。

然而，在海量的simhash值列表中搜索汉明距离为3以内的simhash值，复杂度非常高，效率太低，而且也不适合海量应用场景，为了提高程序代码相似性比较的效率，首先，对程序特征哈希值进行分块处理，分别创建索引表；然后，基于哈希值分块索引表，分别进行程序特征哈希值的分块检索，通过将直接的哈希计算转换成哈希值检索，可以大大提高哈希值距离计算的效率；最后，基于哈希值检索的结果再进行特征哈希值距离计算，如果哈希距离小于某个阀值(通常设定为3)，则特征哈希值代表的程序代码相似。

上述方法中采用多表索引方法。该方法基于抽屉原理，若2个simhash值的汉明距离在3以内，则它们切分成的k(k≤64)块中，必有k-3块相等。

不妨设k＝8，将每个simhash值均分为8块，为所有的simhash值创建8个表，不同的表存储不同位置的块，如第一个表存储0到15位，第二个表存储15到31位，第三个表存储32到47位等，表中同样使用倒排索引，由8位比特串索引simhash值。当依据某simhash检索汉明距离在3以内的其他simhash值时，将该simhash平分为8块，每块在相应的表寻找相似块，取相似块对应的simhash集合，筛选出至少在5个块对应的集合中出现的simhash值，然后逐一计算汉明距离。如果最终计算出的汉明距离都小于3，则说明simhash对应的程序代码相似。

本发明的一种基于抽象语法树的程序代码相似性快速比较方法具有如下特点：

本方法具有较高的准确率和召回率；

本方法具有较低的时间和空间复杂度；

本方法可以满足海量代码相似性比较应用场景。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于抽象语法树的程序代码相似性快速比较方法，其特征在于，包括以下步骤：

第一步、构建抽象语法树

第二步提取程序代码特征

第三步程序代码相似性比较

2.如权利要求1所述的方法，其特征在于，第一步具体为：源代码首先经由词法分析器进行处理，词法分析器逐行地对源代码进行扫描，将程序代码分解成编程语言中一个个字符串形式的基本单词符号，与此同时，词法分析器将这些分解出来的基本元素Token化，标记它们所在的行，从而便于利用词法分析器对Token的访问与查找；

3.如权利要求2所述的方法，其特征在于，第二步具体为：

4.如权利要求3所述的方法，其特征在于，第二步中提取程序代码特征之前，还对抽象语法树进行过滤和优化，过滤掉抽象语法树中有关代码编译的信息，同时消除语法树中的冗余节点，接下来，按照抽象语法树中的节点类型，对节点进行解析，生成特征标记串，从而将程序代码转换成一个特征标记串集合，最后，再针对得到的特征标记串集合，进行哈希化处理，从而将特征标记串集合转换成特征哈希值集合。

5.如权利要求4所述的方法，其特征在于，所述预设阀值设定为3。

6.如权利要求5所述的方法，其特征在于，第三步基于抽屉原理实现。

7.如权利要求6所述的方法，其特征在于，第三步中，若2个simhash值的汉明距离在3以内，则它们切分成的k块中，必有k-3块相等，k≤64，设k＝8，将每个simhash值均分为8块，为所有的simhash值创建8个表，不同的表存储不同位置的块，第一个表存储0到15位，第二个表存储15到31位，第三个表存储32到47位，表中同样使用倒排索引，由8位比特串索引simhash值，当依据一simhash检索汉明距离在3以内的其他simhash值时，将该simhash平分为8块，每块在相应的表寻找相似块，取相似块对应的simhash集合，筛选出至少在5个块对应的集合中出现的simhash值，然后逐一计算汉明距离，如果最终计算出的汉明距离都小于3，则说明simhash对应的程序代码相似，否则认为不相似。