CN108804332B

CN108804332B - 一种基于机器学习的c程序内存泄漏智能化检测方法

Info

Publication number: CN108804332B
Application number: CN201810613423.9A
Authority: CN
Inventors: 王林章; 朱亚伟; 李宣东
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2021-12-17
Anticipated expiration: 2038-06-14
Also published as: CN108804332A

Abstract

本发明公开一种基于机器学习的C程序内存泄漏智能化检测方法，分为三个阶段：模型构建阶段，根据已有的内存泄漏构建两个数据集，分别从两个数据中提取内存泄漏特征，将内存泄漏特征输入机器学习的分类器进行训练，交叉验证，修改分类器类型及参数，选取分类准确率最高的作为分类器模型来检测内存泄漏。程序分析与特征获取阶段，对源程序进行预分析，获取所有的内存分配点o，然后进行指针分析，构建从o开始的VFG(ValueFlowGraph)，提取VFG中每条路径对应的内存泄漏特征。缺陷检测与报告阶段，将程序分析与特征获取阶段的内存泄漏特征输入到模型构建阶段的分类器模型中进行检测，判断从o开始的路径中是否存在内存泄漏，得到内存泄漏报告。

Description

一种基于机器学习的C程序内存泄漏智能化检测方法

技术领域

本发明涉及一种内存泄漏的检测方法，使用程序静态分析方法和机器学习算法，实现内存泄漏的检测，属于软件工程领域。

背景技术

在计算机科学领域，程序静态分析是指在没有实际执行程序的情况下对计算机软件进行分析。在大多数情况下，分析实在某个版本的源代码上执行的额，其他情况下则是某种形式的目标代码。机器学习算法常见的有决策树、随机森林、逻辑回归、SVM、朴素贝叶斯等。SVM的优点在于他简化了通常的分类和回归问题，它计算的复杂性取决于支持向量的数目，而不是样本空间的维数，因此SVM不但算法简单且具有很好的鲁棒性。

目前内存泄漏的检测主要采用两种方法：静态分析，动态检测。静态分析可以自动化运行，速度快，但存在大量的误报；动态检测结果准确，但开销高，依赖测试用例。本发明采用了基于机器学习的方法，在静态分析的基础上，提取内存泄露特征，并通过机器学习的方法进行分类器模型的训练以及目标程序的检测。可以保证内存泄漏检测速度快以及检测结果的高准确率。

发明内容

目前的内存泄漏检测方法，通常采用静态分析和动态检测，静态分析误报太多，且无法解决C语言中的一些复杂结构造成的内存泄漏，动态检测开销高。

本发明为解决上述技术问题采用以下技术方案：一种基于机器学习的C程序内存泄漏智能化检测方法，包括以下步骤：

步骤1)根据已有的内存泄漏构建两个数据集，一个是包含真正的内存泄漏的数据集，另一个是包含虚假的内存泄漏的数据集。

步骤2)提取内存泄漏特征。内存泄漏特征包括两类：类型信息以及指针信息。

步骤3)构建分类器模型，具体步骤如下：

步骤3.1)将提取的内存泄漏特征作为训练集输入到分类器中。

步骤3.2)在训练过程中进行交叉验证，查看分类器分类的准确率。

步骤3.3)调整分类器参数，重复3.1，3.2步骤，若分类准确率超过设定目标值，则记录当前分类器的类型、参数及其准确率。

步骤3.4)调整分类器的类型，重复3.1，3.2，3.3步骤。

步骤3.5)在当前记录的分类器中选取准确率最高的分类器类型及参数，确定唯一的分类器模型。

步骤4)程序预分析，具体步骤如下：

步骤4.1)对于需要检测的C程序，将其转化为LLVM的中间码(.bc文件)。

步骤4.2)在LLVM中间码上获取所有的内存分配点o。

步骤5)程序指针分析，具体步骤如下：

步骤5.1)对每个函数使用流不敏感、上下文不敏感、域敏感以及调用点敏感的安德森指针分析，获取每个指针指向的内存区域集合。每个指针的指向集用ps表示，格式如下：

ps(v)＝{o，o′}

v表示指针变量，ps(v)表示指针v指向的内存区域，{o，o′}表示内存区域o和o′的集合。

步骤5.2)获取基于SSA(StaticSingleAssignment)的内存信息。在安德森指针分析之后，获取所有指针变量的def和use。对于函数调用点，分析不在本函数内部但是可以在本函数内部修改读取的非全局指针变量，然后生成指针变量指向的内部区域，构建每个函数SSA形式。

步骤5.3)构建每个分配点o的VFG。已知每个指针的指向内存区域集合ps(v和基于SSA的内存信息，可从分配点o开始构建VFG。

步骤6)提取每个分配点每条路径的内存泄漏特征，，每条路径提取的特征组成一个向量，所有路径的向量构成测试集。

步骤7)将测试集进行预处理，调整为符合分类器模型的输入格式，输入到分类器模型中，获取分类检测结果即漏洞报告。

有益效果：本发明采用以上技术方案，与现有技术相比，具体以下有益效果：

1.根据常见的C程序内存泄漏特征，本方法可以检测C程序中的内存泄漏。

2.本方法在逐步增加训练集后，分类器结果会更加准确。

3.本方法使用程序静态分析方法提取内存泄漏特征，不实际运行程序，消耗时间短，可以快速检测大型程序中的内存泄漏。

附图说明

图1是基于机器学习的C程序内存泄漏智能化检测方法的流程图。

图2是模型训练阶段提取的内存泄露特征实例(每一行表示一个内存泄漏特征。第一列表示标签：1表示内存泄漏，0表示不是内存泄露。后15列为内存泄露特征，每列的冒号之前的数表示特征序号，冒号之后的数表示特征值。在表示布尔值的特征时：0表示false，1表示true)。

图3是程序分析与特征获取阶段的内存泄漏特征实例(每一行代表一个内存泄露特征。共15列特征，每列的冒号之前的数表示特征序号，冒号之后的数表示特征值。在表示布尔值的特征时：0表示false，1表示true)。

图4是(表1)内存泄漏特征(o是内存分配点，即内存区域，p是指向o的指针)。

具体实施方式

下面对本发明使用基于机器学习的C程序内存泄漏智能化检测方法，具体实施方式做更详细的描述。

根据附图1所示的基于机器学习的C程序内存泄漏智能化检测方法的流程图，本发明的具体实施方式为：

1)根据已有的内存泄漏构建两个数据集，一个是包含真正的内存泄漏的数据集，另一个是包含虚假的内存泄漏的数据集。

2)提取内存泄漏特征。内存泄漏特征包括两类：类型信息以及指针信息。如图2所示，是模型训练阶段提取的内存泄露特征实例(每一行表示一个内存泄漏特征。第一列表示标签：1表示内存泄漏，0表示不是内存泄露。后15列为内存泄露特征，每列的冒号之前的数表示特征序号，冒号之后的数表示特征值。在表示布尔值的特征时：0表示false，1表示true)。

3)构建分类器模型，具体步骤如下：

3.1)将提取的内存泄漏特征作为训练集输入到分类器中。

3.2)在训练过程中进行交叉验证，查看分类器分类的准确率。

3.3)调整分类器参数，重复3.1，3.2步骤，若分类准确率超过设定目标值，则记录当前分类器的类型、参数及其准确率。

3.4)调整分类器的类型，重复3.1，3.2，3.3步骤。

3.5)在当前记录的分类器中选取准确率最高的分类器类型及参数，确定唯一的分类器模型。

4)程序预分析，具体步骤如下：

4.1)对于需要检测的C程序，将其转化为LLVM的中间码(.bc文件)。

4.2)在LLVM中间码上获取所有的内存分配点o。

5)程序指针分析，具体步骤如下：

5.1)对每个函数使用流不敏感、上下文不敏感、域敏感以及调用点敏感的安德森指针分析，获取每个指针指向的内存区域集合。每个指针的指向集用ps表示，格式如下：

ps(v)＝{o，o′}

5.2)获取基于SSA(StaticSingleAssignment)的内存信息。在安德森指针分析之后，获取所有指针变量的def和use。对于函数调用点，使用Mod-Ref分析，分析不在本函数内部但是可以在本函数内部修改读取的非全局指针变量，然后生成指针变量指向的内部区域，构建每个函数SSA形式。

5.3)构建每个分配点o的VFG。已知每个指针的指向内存区域集合ps(v)和基于SSA的内存信息，可从分配点o开始构建VFG。

6)提取每个分配点每条路径的内存泄漏特征，，每条路径提取的特征组成一个向量，所有路径的向量构成测试集。如图3所示。

7)将测试集进行预处理，调整为符合分类器模型的输入格式，输入到分类器模型中，获取分类检测结果即漏洞报告。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构替换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的权利要求保护范围内。

Claims

1.一种基于机器学习的C程序内存泄漏智能化检测方法，该方法分为三个阶段：模型构建阶段，程序分析与特征获取阶段，缺陷检测与报告阶段；其特征在于：模型构建阶段，首先根据已有的内存泄漏构建两个数据集，一个是包含真正的内存泄漏的数据集，另一个是包含虚假的内存泄漏的数据集，然后分别从两个数据中提取内存泄漏特征，将内存泄漏特征输入机器学习的分类器进行训练，并进行交叉验证，然后修改分类器类型及参数，保留分类准确率达到设定目标值的分类器，从保留的分类器中选取分类准确率最高的作为分类器模型来检测内存泄漏；程序分析与特征获取阶段，首先对源程序进行预分析，获取所有的内存分配点o，然后进行指针分析，构建从o开始的VFG，提取VFG中每条路径对应的内存泄漏特征；缺陷检测与报告阶段，将程序分析与特征获取阶段的内存泄漏特征输入到模型构建阶段的分类器模型中进行检测，判断从o开始的路径中是否存在内存泄漏，得到内存泄漏报告；

该方法包括以下步骤：

步骤1)根据已有的内存泄漏构建两个数据集，一个是包含真正的内存泄漏的数据集，另一个是包含虚假的内存泄漏的数据集；

步骤2)提取内存泄漏特征；内存泄漏特征包括两类：类型信息以及指针信息；

步骤3)构建分类器模型，具体步骤如下：

步骤3.1)将提取的内存泄漏特征作为训练集输入到分类器中；

步骤3.2)在训练过程中进行交叉验证，查看分类器分类的准确率；

步骤3.3)调整分类器参数，重复3.1，3.2步骤，若分类准确率超过设定目标值，则记录当前分类器的类型、参数及其准确率；

步骤3.4)调整分类器的类型，重复3.1，3.2，3.3步骤；

步骤3.5)在当前记录的分类器中选取准确率最高的分类器类型及参数，确定唯一的分类器模型；

步骤4)程序预分析，具体步骤如下：

步骤4.1)对于需要检测的C程序，将其转化为LLVM的中间码.bc文件；

步骤4.2)在LLVM中间码上获取所有的内存分配点o；

步骤5)程序指针分析，具体步骤如下：

步骤5.1)对每个函数使用流不敏感、上下文不敏感、域敏感以及调用点敏感的安德森指针分析，获取每个指针指向的内存区域集合；每个指针的指向集用ps表示，格式如下：

ps(v)＝{o,o′}

v表示指针变量，ps(v)表示指针v指向的内存区域，{o,o′}表示内存区域o和o′的集合；

步骤5.2)获取基于SSA的内存信息；在安德森指针分析之后，获取所有指针变量的def和use；对于函数调用点，分析不在本函数内部但是可以在本函数内部修改读取的非全局指针变量，然后生成指针变量指向的内部区域，构建每个函数SSA形式；

步骤5.3)构建每个分配点o的VFG；已知每个指针的指向内存区域集合ps(v)和基于SSA的内存信息，可从分配点o开始构建VFG；

步骤6)提取每个分配点每条路径的内存泄漏特征，每条路径提取的特征组成一个向量，所有路径的向量构成测试集；

2.根据权利要求1所述的基于机器学习的C程序内存泄漏智能化检测方法，其特征在于：根据常见的C程序内存泄漏特征，本方法能够检测C程序中的内存泄漏。

3.根据权利要求1所述的基于机器学习的C程序内存泄漏智能化检测方法，其特征在于：本方法在逐步增加训练集后，分类器结果会更加准确。

4.根据权利要求1所述的基于机器学习的C程序内存泄漏智能化检测方法，其特征在于：使用程序静态分析方法提取内存泄漏特征，不实际运行程序，消耗时间短，能够快速检测大型程序中的内存泄漏。