CN113326187A

CN113326187A - 数据驱动的内存泄漏智能化检测方法及系统

Info

Publication number: CN113326187A
Application number: CN202110569646.1A
Authority: CN
Inventors: 曹思聪; 孙小兵; 薄莉莉; 李斌
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-31
Anticipated expiration: 2041-05-25
Also published as: CN113326187B

Abstract

本发明公开了一种数据驱动的内存泄漏智能化检测方法及系统，方法包括以下步骤：漏洞数据采集；构造程序间价值流图IVFG，提取漏洞特征；利用多关系图卷积网络COMPGCN，训练漏洞检测模型；对待检测文件进行预处理，并利用检测模型检测是否存在内存泄漏，报告发生内存泄漏的漏洞函数及可疑的漏洞语句。本发明可以更好地利用内存泄漏漏洞特有的代码语法和语义信息，充分挖掘漏洞代码与调用上下文、全局变量等敏感对象的关系，达到对潜在内存泄漏的代码的判别并输出可疑的漏洞语句，针对性更强，可以一定程度上解决传统静态或动态方法检测内存泄漏的不足，并且相较于目前流行的基于深度学习的漏洞检测方法，可以输出存在内存泄漏的可疑语句，使实际应用领域更广、精度更高、定位更准。

Description

数据驱动的内存泄漏智能化检测方法及系统

技术领域

本发明属于软件安全领域，特别涉及一种数据驱动的内存泄漏智能化检测方法及系统。

背景技术

内存泄漏作为一种常见的软件漏洞，会严重降低计算机软件的性能，甚至造成软件在运行时崩溃。随着软件项目的规模扩张和复杂度提升，内存泄漏广泛存在于许多大型项目中，威胁着软件安全，如何准确高效地检测出软件中潜在的内存泄漏已成为具有相当挑战性的工作。在之前的工作中多采用静态分析或动态检测，静态分析主要通过分析内存的分配点以及从内存分配点开始的不同路径，在相应的路径中查找与内存分配点对应的内存释放点，验证是否所有路径都存在正确的内存释放。然而当内存泄漏中存在一些特殊案例时，会降低静态分析的准确性，导致内存泄露的检测出现误报或者漏报。动态检测方法通过执行程序，跟踪内存的分配、使用及释放，因此结果相较于静态分析更加准确，但由于其准确性受限于测试用例，无法分析程序执行中不可达位置的错误，且都存在内存开销较高和可扩展性较差的问题。

目前已有一些工作使用机器学习/深度学习的方法来检测内存相关的漏洞，如文献《C程序内存泄漏智能化检测方法》定义了16种与内存泄漏密切相关的代码特征，并通过使用机器学习算法学习程序特征与内存泄漏之间的相关性，进行内存泄漏的检测。然而手工制定的漏洞特征无法覆盖所有情况，且漏洞数据是通过插入一些内存泄露的特殊案例而得到的，当面对一些现实软件中的内存泄漏时可能效果不佳。也有一些工作开始利用深度学习的方法来检测内存相关的漏洞问题，如文献《GRAPHSPY:Fused Program Semantic-Level Embedding via Graph Neural Networks for Dead Store Detection》从程序结构、执行顺序等方面提取程序语义，并利用多种流行的图神经网络模型来识别程序中不必要的内存操作，但没有利用一些与内存紧密相关的漏洞特征来对内存漏洞进行建模，使得方法的针对性不强，扩展性较差。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提供一种具有应用领域更广、精度更高、定位更准等特点的数据驱动的内存漏洞智能化检测方法及系统。

实现本发明目的的技术解决方案为：

一种数据驱动的内存泄漏智能化检测方法，所述方法包括以下步骤：

步骤1，漏洞数据采集；

步骤2，构造程序间价值流图IVFG，提取漏洞特征；

步骤3，利用多关系图卷积网络COMPGCN，训练漏洞检测模型；

步骤4，对待检测文件进行预处理，并利用检测模型检测是否存在内存泄漏，报告发生内存泄漏的漏洞函数及可疑的漏洞语句。

进一步的，步骤1所述漏洞数据采集，具体过程包括：

步骤1-1，首先以内存泄漏作为关键词检索漏洞数据库NVD，采集所有与内存泄漏相关的漏洞条目；然后从开源代码库中挖掘与漏洞条目对应的漏洞代码并标记修复该漏洞条目所更改的语句；

步骤1-2，利用编译器LLVM对采集到的漏洞条目的代码进行预编译，转化为通用的代码中间表示IR。

进一步的，步骤2所述构造程序间价值流图IVFG，提取漏洞特征，具体过程包括：

步骤2-1，基于步骤1-2中得到的代码中间表示IR，利用安德森指针分析法构造程序间价值流图IVFG，该程序间价值流图IVFG包括过程内价值流、返回价值流和调用价值流；

步骤2-2，根据已有的敏感函数库，通过正则匹配词法分析技术查找与内存分配相关的内存敏感操作，并将该内存敏感操作确定为切片准则，在程序间价值流图IVFG上对漏洞代码的中间表示IR进行切片，根据图的可达性算法，删除与敏感操作语句无关的节点，并将剩余节点构成的生成子图作为新的程序间价值流图IVFG-1；

步骤2-3，重命名漏洞代码中间表示IR中的变量名、函数名，利用步骤1-1中的漏洞更改语句标记对步骤2-2中所述剩余节点进行标记，与漏洞语句中的代码令牌(即，漏洞代码中通过空格分隔的每个单词)相关的剩余节点标记为漏洞节点，无关的节点标记为无漏洞节点；

步骤2-4，利用Word2vec对漏洞节点以及程序间价值流图IVFG中多种边类型(如，步骤2-1中的过程内价值流边和返回价值流边为两种不同类型的边)进行词嵌入，分别得到漏洞节点

的初始特征向量x_v；以及边类型

的初始特征向量z_r，用于下一步训练漏洞检测模型的输入。

进一步的，步骤3所述利用多关系图卷积网络COMPGCN，训练漏洞检测模型，具体过程包括：

步骤3-1，基于步骤2-4得到的漏洞节点初始特征向量x_v，节点嵌入h_v由如下变换得到：

式中，

是节点v的出边所连接的近邻集，u为节点v的邻居节点，r为两节点间的边类型，W_λ(r)是与边类型相关的参数，x_u和z_r分别是节点u和边类型r的初始特征向量，φ是用于将边类型嵌入到节点特征中的合成算子；

此外，对于同一种边的不同类型被赋予不同的权重，即λ(r)＝dir(r)，则权重W_λ(r)根据边类型的不同，可分为以下两种：

式中，W_O表示正向边所对应的权重参数，W_I表示逆向边所对应的权重参数；

步骤3-2，基于步骤2-4得到的边类型初始特征向量z_r，边嵌入h_r由如下变换得到：

h_r＝W_relz_r

式中，W_rel是一个可学习的变换矩阵，它将所有的边映射到和节点相同的向量空间；

边类型初始特征向量z_r通过基函数分解计算得到：

式中，

是学习得到的边类型系数，

是实数集，

是一组学习得到的基向量，

表示基的数量；

步骤3-3，基于步骤3-1和步骤3-2得到的节点嵌入和边嵌入，通过堆叠多层多关系图卷积网络COMPGCN聚合节点特征信息：

式中，k表示堆叠的关系图卷积网络的层数，

是邻居节点u在k次聚合更新后的节点嵌入；

相应的，

是边类型r在k次聚合更新后的边嵌入，由下述公式计算得到：

式中，

是k次聚合更新后学习到的变换矩阵，该公式的初始输入

表示节点初始特征向量x_v；

表示边类型初始特征向量z_r；

步骤3-4，通过最小化交叉熵损失函数训练漏洞检测模型：

式中，G是训练集

中的一张图，

是训练样本中的节点集，

是模型在K次聚合更新后利用softmax激活函数得到的节点v的向量表示，表示节点v的标签为l的概率，l＝{0,1}，0表示该节点为无漏洞节点，1表示有漏洞节点，w_l表示标签权重，y_vl表示节点v实际被标记的标签。

进一步的，步骤4所述对待检测文件进行预处理，并利用检测模型检测是否存在内存泄漏，报告发生内存泄漏的漏洞函数及可疑的漏洞语句，具体过程包括：

步骤4-1，利用LLVM编译器预编译待检测文件，为待检测文件中的所有函数构造步骤2所提出的程序间价值流图IVFG；

步骤4-2，根据已有的敏感函数库，基于步骤2-2中的方法，通过正则匹配等词法分析技术查找与内存分配相关的内存敏感操作，并将其确定为切片准则，基于步骤4-1所构造的程序间价值流图IVFG上对代码进行切片，根据图的可达性算法，删除与敏感操作语句无关的节点；

步骤4-3，基于步骤2-4中的词嵌入方法，利用Word2vec对步骤4-2中经过切片得到的程序间价值流图IVFG中所有节点以及边类型进行词嵌入，得到节点和边类型的初始特征向量，作为漏洞检测模型的输入；

步骤4-4，输出可能发生内存泄漏的函数及可疑语句。

本发明对应提供一种数据驱动的内存泄漏智能化检测系统，所述系统包括：

漏洞数据采集模块，用于构建训练检测模型所需的漏洞数据库；

漏洞特征提取模块，用于根据内存泄漏的代码特性提取所需的漏洞特征，包括构造程序间价值流图IVFG、代码切片、标准化等操作；

检测模型构建模块，用于进行漏洞特征学习，训练漏洞检测模型；

内存泄漏检测模块，用于对待检测的项目文件进行预处理，并利用训练好的检测模型检测待测潜在的内存泄漏并输出可疑语句及所属函数

本发明与现有技术相比，其显著优点为：1)从图的角度对存在内存泄漏的漏洞代码进行表示，通过构造程序间价值流图(包含过程内价值流、返回值流和调用值流)，充分挖掘漏洞代码的流敏感、上下文敏感等与内存泄漏密切相关的特性；2)提出通过利用多关系图神经网络模型来训练检测模型，相较于传统的基于深度学习的漏洞检测方法，本发明将边也纳入模型的训练过程中，且针对不同类型的边赋予不同的权重以学习不同的流图对检测效果的影响；3)不同于传统使用图级分类作为最终的输出结果(即输出哪个函数/文件有漏洞)的检测方法，本发明使用节点分类作为最终的输出结果，可以达到对可疑语句(或节点)的识别与输出，辅助开发人员定位漏洞发生的位置。

附图说明

图1为一个实施例中数据驱动的内存泄漏智能化检测方法的流程图。

图2为一个实施例中C代码片段及其编译生成的中间表示IR。

图3为一个实施例中构造的程序间价值流图IVFG。

图4为一个实施例中多关系图卷积网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1，本发明提出一种数据驱动的内存泄漏智能化检测方法，包括以下步骤：

步骤1，漏洞数据采集；

步骤2，构造程序间价值流图IVFG，提取漏洞特征；

步骤3，利用多关系图卷积网络COMPGCN，训练漏洞检测模型；

进一步地，在其中一个实施例中，步骤1所述漏洞数据采集，具体过程包括：

步骤1-1，首先以内存泄漏作为关键词检索漏洞数据库NVD，采集所有与内存泄漏相关的漏洞条目；然后从开源代码库GitHub中挖掘与之对应的漏洞代码并标记修复该漏洞所更改的语句；

步骤1-2，利用编译器LLVM对采集到的漏洞代码进行预编译，转化为通用的代码中间表示IR。

进一步地，在其中一个实施例中，步骤2所述构造程序间价值流图IVFG，提取漏洞特征，具体过程包括：

步骤2-1，基于步骤1-2中得到的代码中间表示IR，利用安德森指针分析法构造程序间价值流图IVFG，该流图主要包括过程内价值流、返回价值流和调用价值流；

步骤2-2，根据已有的敏感函数库，通过正则匹配等词法分析技术查找与内存分配相关的内存敏感操作，并将其确定为切片准则，在程序间价值流图IVFG上对漏洞代码进行切片，根据图的可达性算法，删除与敏感操作语句无关的节点，并将剩余节点构成的生成子图作为新的程序间价值流图IVFG；

步骤2-3，重命名代码中的变量名、函数名等，利用步骤1-1中的漏洞更改语句标记对相关节点进行标记，与漏洞语句中的代码令牌(即，漏洞代码中通过空格分隔的每个单词)相关的节点标记为漏洞节点，无关的节点标记为无漏洞节点；

步骤2-4，利用Word2vec对节点以及边类型(如，步骤2-1中的过程内价值流边和返回价值流边为两种不同类型的边)进行词嵌入，分别得到节点v∈V和边类型r∈R的初始特征向量x_v和z_r，用于下一步训练漏洞检测模型的输入。

进一步地，在其中一个实施例中，步骤3所述利用多关系图卷积网络COMPGCN，训练漏洞检测模型，具体过程包括：

步骤3-1，基于步骤2-4得到的节点初始特征向量x_v，节点嵌入h_v可由如下变换得到：

式中，

是节点v的出边所连接的近邻集，u为节点v的邻居节点，r为两节点间的边类型，W_λ(r)是与边类型相关的参数，x_u和z_r分别是节点u和边类型r的初始特征向量，φ是用于将节点关系(边类型)嵌入到节点特征中的合成算子；

此外，对于同一种边的不同类型(例如正向和反向边)，将被赋予不同的权重，即λ(r)＝dir(r)，则权重W_λ(r)根据边类型的不同，可分为以下两种：

式中，W_O表示正向(输出)边所对应的权重参数，W_I表示逆向(输入)边所对应的权重参数；

步骤3-2，基于步骤2-4得到的边类型初始特征向量z_r，边嵌入h_r可由如下变换得到：

h_r＝W_relz_r

此外，由于图中边的数量随着参数的数量快速增长而增长，容易导致过拟合问题，因此为了减少模型的参数规模，边类型初始特征向量z_r通过基函数分解计算得到：

式中，

是学习得到的边类型系数，

是一组学习得到的基向量，

表示基的数量，基函数分解可以看作是不同边类型之间有效权重共享的一种形式；

式中，k表示堆叠的关系图卷积网络的层数，

是邻居节点u在k次聚合更新后的节点嵌入；

相应的，

式中，

是k次聚合更新后学习到的变换矩阵，该公式的初始输入

和

分别表示节点初始特征向量x_v和边类型初始特征向量z_r；

步骤3-4，通过最小化交叉熵损失函数训练漏洞检测模型：

式中，G是训练集

中的一张图，

是训练样本中的节点集，

是模型在K次聚合更新后利用softmax激活函数得到的节点v的向量表示，表示节点v的标签为l的概率，l＝{0,1}，0表示该节点为无漏洞节点，1表示有漏洞节点，w_l表示标签权重，y_vl表示节点v实际被标记的标签，为了避免节点集中标签分布不平衡(即漏洞节点远少于无漏洞节点)，w₁将被赋予更大的权重。

采用本实施例的方案，通过利用多关系图卷积网络COMPGCN，将边也纳入模型的训练过程中，且针对不同类型的边赋予不同的权重以学习不同的流图对检测效果的影响，更有效地挖掘漏洞代码语义，提高漏洞检测的效果。

进一步地，在其中一个实施例中，步骤4所述对待检测文件进行预处理，并利用检测模型检测是否存在内存泄漏，报告发生内存泄漏的漏洞函数及可疑的漏洞语句，具体过程包括：

步骤4-1，利用LLVM编译器预编译检测文件，构造程序间价值流图IVFG；

步骤4-2，根据已有的敏感函数库，通过正则匹配等词法分析技术查找与内存分配相关的内存敏感操作，并将其确定为切片准则，在程序间价值流图IVFG上对代码进行切片，根据图的可达性算法，删除与敏感操作语句无关的节点；

步骤4-3，利用Word2vec对IVFG中节点以及边类型进行词嵌入，得到节点和边类型的初始特征向量，作为漏洞检测模型的输入；

步骤4-4，输出可能发生内存泄漏的函数及可疑语句。

采用本实施例的方案，使用节点分类作为最终的输出结果，可以达到对可疑语句(或节点)的识别与输出，辅助开发人员定位漏洞发生的位置，为内存泄漏漏洞的确认和修复的实际应用研究打下基础。

在一个实施例中，提出了一种数据驱动的内存泄漏智能化检测系统，所述系统包括：

内存泄漏检测模块，用于对待检测的项目文件进行预处理，并利用训练好的检测模型检测待测潜在的内存泄漏并输出可疑语句及所属函数。

进一步地，在其中一个实施例中，所述漏洞数据采集模块包括：

采集单元，用于采集漏洞数据库NVD和开源代码库GitHub中的漏洞数据，包括漏洞代码和漏洞信息(漏洞语句、漏洞位置等)；

提取单元，用于对提取出的漏洞文件进行预处理，利用LLVM编译器对采集到的漏洞代码进行预编译，转化为通用的代码中间表示IR。

进一步地，在其中一个实施例中，所述漏洞特征提取模块包括：

表征单元，用于对漏洞数据集中的漏洞数据进行代码表征，基于得到的代码中间表示IR，利用安德森指针分析法构造程序间价值流图IVFG，该流图主要包括过程内价值流、返回价值流和调用价值流；

切片单元，用于对程序间价值流图IVFG进行关键节点挖掘，根据已有的敏感函数库，通过正则匹配等词法分析技术查找与内存分配相关的内存敏感操作，并将其确定为切片准则，在程序间价值流图IVFG上对漏洞代码进行切片，根据图的可达性算法，删除与敏感操作语句无关的节点，并将剩余节点构成的生成子图作为新的程序间价值流图IVFG；

标记单元，用于重命名代码中的变量名、函数名等，利用采集单元得到的漏洞更改语句标记对相关节点进行标记，与漏洞语句中的代码令牌相关的节点标记为漏洞节点，无关的节点标记为无漏洞节点；

图嵌入单元，用于利用Word2vec对节点以及边类型进行词嵌入，分别得到节点

和边类型

的初始特征向量x_v和z_r，作为下一步训练漏洞检测模型的输入。

进一步地，在其中一个实施例中，所述检测模型构建模块包括依次执行的：

节点嵌入单元，用于对图嵌入单元得到的节点初始特征向量x_v进行节点嵌入：

式中，

边嵌入单元，用于对图嵌入单元得到的边类型初始特征向量z_r进行边嵌入：

h_r＝W_relz_r

式中，

是学习得到的边类型系数，

是一组学习得到的基向量，

节点特征聚合单元，用于通过堆叠多层多关系图卷积网络COMPGCN，对节点嵌入单元和边嵌入单元得到的节点嵌入和边嵌入聚合节点特征信息：

式中，k表示堆叠的关系图卷积网络的层数，

是邻居节点u在k次聚合更新后的节点嵌入；

相应的，

式中，

是k次聚合更新后学习到的变换矩阵，该公式的初始输入

和

分别表示节点初始特征向量x_v和边类型初始特征向量z_r；

模型构建单元，通过最小化交叉熵损失函数训练漏洞检测模型：

式中，G是训练集

中的一张图，

是训练样本中的节点集，

进一步地，在其中一个实施例中，所述内存泄漏检测模块包括依次执行的：

表征单元，用于对待检测文件进行预编译，构造程序间价值流图IVFG；

切片单元，用于根据已有的敏感函数库，通过正则匹配等词法分析技术查找与内存分配相关的内存敏感操作，并将其确定为切片准则，在程序间价值流图IVFG上对代码进行切片，根据图的可达性算法，删除与敏感操作语句无关的节点；

图嵌入单元，用于利用Word2vec对IVFG中节点以及边类型进行词嵌入，得到节点和边类型的初始特征向量，作为漏洞检测模型的输入；

输出单元，用于输出可能发生内存泄漏的函数及可疑语句。

本发明可以更好地利用漏洞代码的流敏感、上下文敏感等与内存泄漏密切相关的特性，通过多关系图卷积网络达到对不同边类型的分别训练，可以更有效地挖掘漏洞代码的潜在语义特征，普适性和通用性更强，可以有效减少人工审计成本，并输出潜在的内存泄漏发生的函数及可疑语句，使实际应用领域更广、精度更高、定位更准。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。