CN111368296A

CN111368296A - 源码文件匹配率分析方法

Info

Publication number: CN111368296A
Application number: CN201910564016.8A
Authority: CN
Inventors: 巨李岗; 从慧珅; 赵亚舟
Original assignee: Beijing Keyware Co ltd
Current assignee: Beijing Keyware Co ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2020-07-03

Abstract

本发明涉及一种源码文件匹配率分析方法，包括：步骤1)分别提取第一源码文件和第二源码文件的文件级特征；步骤2)对比第一源码文件和第二源码文件的文件哈希值，相同，则二者匹配率为100％；步骤3)分别提取第一源码文件和第二源码文件的函数级特征；步骤4)将第一源码文件和第二源码文件中各个函数的哈希值分别进行对比，对哈希值相同的一个或多个函数的代码行数进行统计，以获得第一代码行数；步骤5)统计第一源码文件的有效代码行数以作为第二代码行数，将第一代码行数/第二代码行数*100％以获得二者的匹配率。通过本发明，在源代码多级特征提取的基础上，完成了对源码文件匹配率的有效检测。

Description

源码文件匹配率分析方法

技术领域

本发明涉及信息安全领域，尤其涉及一种源码文件匹配率分析方法。

背景技术

国内代码组成和安全风险分析技术研究正处于百花齐放、百家争鸣的阶段，一些大学教授和安全领域专家正在从事一些细分技术领域的研究。

山东大学王凤宇教授正在研究基于函数层特征的二进制代码匹配与分析技术，该方法需要反汇编恶意软件并对汇编代码进行分析才能获得函数的特征，所以函数的特征会受混淆技术的干扰，需要采用静态分析和动态分析相结合的方法进行研究，该方法主要用于实现恶意软件的检测、已有研究成果仍停留在实验室论证阶段。

内蒙古大学的刘东升教授开展了代码复制检测技术研究，该方法基于特征串进行匹配和识别，仅能支持C编程语言的分析，且依赖多个第三方分析工具作为辅助支撑，依然停留于试验仿真阶段。

国防大学提出了一种高维特征融合的恶意代码分析方法，对恶意代码的静态二进制文件和反汇编特征等进行提取，借鉴局部敏感性思想，对多维特征进行融合分析和处理，采用典型的机器学习方法对融合后的特征向量进行学习训练，但是该方法仅适用于样本较少的场景，即无法适用于大规模样本场景，这种方法的可扩展性存在较大疑问。

重庆大学张毅教授开展了基于代码相似度的方法研究，目前仅能支持C编程语言，代码识别度相关参数仍然存在可优化空间，识别度还有待进一步提升，扩展性和可移植性还需要深入研究。

哈尔滨大学的丁宇新教授、中国移动游戏产品基地的李青分别开展了Android操作系统的代码多维度分析研究，除了恶意代码检测中的权限特征及系统API特征这些文本特征，还对函数调用关系图的结构进行分析，分别构造了基于敏感API进行结点编码的核函数以及基于指令操作码进行结点编码的核函数，并使用组合核函数来描述函数调用关系图的相似度。目前，多特征的恶意代码检测模型仅适用于Android操作系统，对于内核闭源的Windows操作系统是否适用仍存在很多不确定性。

中国人民解放军信息工程大学赵荣彩教授开展了基于特征提取的代码比较技术研究，在定义了基于图的二进制代码描述方法的基础上，从函数和基本块两个层次对近似的二进制代码进行比较，分析出它们之间相同的部分和差异信息，基于特征提取的二进制代码比较技术的实现框架，并列举了它在恶意软件变种分析，但是该方法对于恶意代码变种识别仍存在很多不确定性，该方法不依赖代码知识库的策略难以保证对比结果的可信性。

中国科技大学奚宏生开展了多维特征检测恶意代码的技术研究，提出基于多维特征的迷惑恶意代码检测算法，对迷惑恶意代码反汇编后进行静态分析，从语义结构、Opcode分布序列、调用流图特征、系统调用序列图多个特征维度对恶意代码家族特征进行归纳和分析，但是该方法仅针对恶意代码家族的判别问题，无法适用于大规模样本的场景，该方法的扩展性有待深入讨论。

电子科技大学朱清新教授开展了基于语义的恶意代码行为特征研究，该方法需要记录恶意代码操作和行为的过程中，有时候无法捕获相关的操作，但是该方法属于动态分析技术，需要资源来运行、加载和监控，因此，这类基于动态分析的方法存在较大的局限性。

此外，华中科技大学徐海银开展了代码混淆技术及其在软件安全保护中的应用研究，北京邮电大学胡正名教授开展了代码混淆模型研究，北京邮电大学王旭开展了二进制代码混淆关键技术研究，南开大学贾春福教授开展了二进制代码混淆路径技术研究，电子科技大学杨国武教授开展了基于二进制代码混淆的软件保护研究，西北大学的郭军老师开展了基于语义的二进制代码反混淆方法的研究，同济大学王伟副教授开展了基于指纹的可信软件水印技术研究，苏州大学的贾冠杰教授开展了基于文本语料库的抄袭行为研究。

目前，国内针对软件代码进行分析的成型软件是同方工业有限公司研究开发的中国开源安全联盟能够为用户提供免费的二进制代码安全扫描分析应用。但中国开源安全联盟目前只实现了针对二进制代码的安全漏洞扫描分析，缺少对源代码分析的功能。

发明内容

国内绝大部分研究处于理论分析和技术仿真阶段，距离实用化、系统化和工程化还有很多关键技术需要研究和突破，同时支持的语言比较单一。为了解决上述问题，本发明提供了一种源码文件匹配率分析方法，用于软件工程代码复用率的检测及软件代码开源分析等领域，支持20种以上语言的多级特征提取和匹配，从支持的语言种类数量上来说，优于国内大部分方案。

根据本发明的一方面，提供了一种源码文件匹配率分析方法，用于分析第一源码文件和第二源码文件的匹配率，所述方法包括：

步骤1)分别提取第一源码文件和第二源码文件的文件级特征，所述文件级特征包括源码文件的文件大小、文件哈希值和有效代码行数；

步骤2)对比第一源码文件和第二源码文件的文件哈希值，相同，则第一源码文件和第二源码文件的匹配率为100％并结束所述方法，不相同，则跳转至步骤3)；

步骤3)分别提取第一源码文件和第二源码文件的函数级特征，所述函数级特征包括源码文件中每一个函数的函数大小、函数哈希值和代码行数；

步骤4)将第一源码文件中每一个函数的哈希值与第二源码文件中各个函数的哈希值分别进行对比，对第一源码文件和第二源码文件中哈希值相同的一个或多个函数的代码行数进行统计，以获得第一代码行数；

步骤5)统计第一源码文件的有效代码行数以作为第二代码行数，将第一代码行数/第二代码行数*100％以获得第一源码文件和第二源码文件的匹配率，结束所述方法。

更具体地，在所述源码文件匹配率分析方法中：在步骤1)中，源码文件的文件大小的获取模式如下：根据源码文件的字节数计算源码文件的文件大小。

更具体地，在所述源码文件匹配率分析方法中：在步骤1)中，源码文件的有效代码行数的获取模式如下：提取源码文件中所有源代码内容，去掉其中的空行和注释内容，根据换行符对剩余的源代码的行数进行统计以获得源码文件的有效代码行数。

更具体地，在所述源码文件匹配率分析方法中：在步骤1)中，源码文件的文件哈希值的获取模式如下：根据源码文件中源代码的文本特征和语法格式特征过滤掉源码文件中与源代码无关的内容，将过滤后的源代码中的设定字符去除，将去除设定字符后的源代码整理成一个字符串，对所述字符串执行哈希运算以获得源码文件的文件哈希值；其中，所述设定字符包括空格字符、换行字符和制表字符。

更具体地，在所述源码文件匹配率分析方法中：在步骤3)中，源码文件中每一个函数的函数大小和函数哈希值的获取模式如下：识别所述函数的函数体中的参数、变量、数据类型和调用的第三方的函数名称，对所述函数的函数体的内容执行以下操作：将参数替换为fparam字符，将变量替换为lvar字符，将数据类型替换为dtype字符，将调用的第三方的函数名称替换为funccall字符，替换完毕后，将函数的函数体的替换后的内容转换为字符串，并去除其中的设定字符以获得剩余字符串，基于剩余字符串的长度计算所述函数的函数大小，对所述剩余字符串执行哈希运算以获得所述函数的函数哈希值；其中，所述设定字符包括空格字符、换行字符和制表字符。

更具体地，在所述源码文件匹配率分析方法中：在步骤3)中，源码文件中每一个函数的代码行数的获取模式如下：统计所述函数的函数体中的换行符的数量以获得所述函数的代码行数。

更具体地，在所述源码文件匹配率分析方法中：在步骤3)中，基于源码文件中源代码的文本特征和语法格式特征提取源代码所包含的函数列表，所述函数列表由源码文件中的各个函数分别对应的各个函数体组成。

由此可见，本发明至少具备以下两处关键的发明点：1、源代码多级特征提取，尤其是源码文件的哈希值计算，及函数的提取算法；2、源码文件的匹配方法。

附图说明

以下将结合附图对本发明的实施方案进行描述，其中：

图1为根据本发明实施方案示出的源码文件匹配率分析方法的步骤流程图。

图2为根据本发明实施方案示出的源码文件匹配率分析方法的步骤1)的示例详解图。

图3为根据本发明实施方案示出的源码文件匹配率分析方法的步骤3)的示例详解图。

具体实施方式

下面将参照附图对本发明的源码文件匹配率分析方法的实施方案进行详细说明。

目前，国内针对软件代码进行分析的成型软件是同方工业有限公司研究开发的中国开源安全联盟，能够为用户提供免费的二进制代码安全扫描分析应用，但中国开源安全联盟目前只实现了针对二进制代码的安全漏洞扫描分析，缺少对源代码分析的功能。为了克服上述缺陷，本发明搭建了一种源码文件匹配率分析方法，能够有效解决相应的技术问题。

图1为根据本发明实施方案示出的源码文件匹配率分析方法的步骤流程图，用于分析第一源码文件和第二源码文件的匹配率，所述方法包括：

接着，继续对本发明的源码文件匹配率分析方法的具体流程进行进一步的说明。

在所述源码文件匹配率分析方法中：

在步骤1)中，源码文件的文件大小的获取模式如下：根据源码文件的字节数计算源码文件的文件大小。

在所述源码文件匹配率分析方法中：

在步骤1)中，源码文件的有效代码行数的获取模式如下：提取源码文件中所有源代码内容，去掉其中的空行和注释内容，根据换行符对剩余的源代码的行数进行统计以获得源码文件的有效代码行数。

在所述源码文件匹配率分析方法中：

在步骤1)中，源码文件的文件哈希值的获取模式如下：根据源码文件中源代码的文本特征和语法格式特征过滤掉源码文件中与源代码无关的内容，将过滤后的源代码中的设定字符去除，将去除设定字符后的源代码整理成一个字符串，对所述字符串执行哈希运算以获得源码文件的文件哈希值；

其中，所述设定字符包括空格字符、换行字符和制表字符。

在所述源码文件匹配率分析方法中：

在步骤3)中，源码文件中每一个函数的函数大小和函数哈希值的获取模式如下：识别所述函数的函数体中的参数、变量、数据类型和调用的第三方的函数名称，对所述函数的函数体的内容执行以下操作：将参数替换为fparam字符，将变量替换为lvar字符，将数据类型替换为dtype字符，将调用的第三方的函数名称替换为funccall字符，替换完毕后，将函数的函数体的替换后的内容转换为字符串，并去除其中的设定字符以获得剩余字符串，基于剩余字符串的长度计算所述函数的函数大小，对所述剩余字符串执行哈希运算以获得所述函数的函数哈希值；

其中，所述设定字符包括空格字符、换行字符和制表字符。

在所述源码文件匹配率分析方法中：

在步骤3)中，源码文件中每一个函数的代码行数的获取模式如下：统计所述函数的函数体中的换行符的数量以获得所述函数的代码行数。

在所述源码文件匹配率分析方法中：

在步骤3)中，基于源码文件中源代码的文本特征和语法格式特征提取源代码所包含的函数列表，所述函数列表由源码文件中的各个函数分别对应的各个函数体组成。

图2为根据本发明实施方案示出的源码文件匹配率分析方法的步骤1)的示例详解图。图2中的源码文件为第一源码文件或第二源码文件。

图3为根据本发明实施方案示出的源码文件匹配率分析方法的步骤3)的示例详解图。图3中的源码文件为第一源码文件或第二源码文件。

综上，通过本发明，能够在源码文件特征提取的基础上，实现了一种源码文件之间的匹配方法，通过对源码文件多级特征的比对，可以得到源码文件之间的匹配度，匹配时先分配对两个源码文件的文件级特征进行提取，然后比对，如果两个源码文件的哈希值相同，那么这两个源码文件完全相同，即完全相同；如果两个源码文件的哈希值不相同，则进一步分析他们的函数级特征。将他们的函数哈希值分别进行比对，如果两个源码文件的所有函数哈希值皆相同，那么也可以判定这两个源码文件相同；如果部分函数哈希值相同，则统计相同函数的代码行数，选择一个源码文件的代码行数作为基准，计算相同函数所占的代码行数百分比，得到匹配率，从而实现源码文件的有效分析和匹配。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种源码文件匹配率分析方法，用于分析第一源码文件和第二源码文件的匹配率，其特征在于，所述方法包括：

2.如权利要求1所述的源码文件匹配率分析方法，其特征在于：

3.如权利要求1所述的源码文件匹配率分析方法，其特征在于：

4.如权利要求1所述的源码文件匹配率分析方法，其特征在于：

其中，所述设定字符包括空格字符、换行字符和制表字符。

5.如权利要求1所述的源码文件匹配率分析方法，其特征在于：

其中，所述设定字符包括空格字符、换行字符和制表字符。

6.如权利要求1所述的源码文件匹配率分析方法，其特征在于：

7.如权利要求5-6任一所述的源码文件匹配率分析方法，其特征在于：