CN111274134B

CN111274134B - 基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质

Info

Publication number: CN111274134B
Application number: CN202010053062.4A
Authority: CN
Inventors: 孙小兵; 曹思聪; 李斌
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-07-11
Anticipated expiration: 2040-01-17
Also published as: CN111274134A

Abstract

本发明公开了一种基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质，方法包括：构建漏洞数据集；将漏洞数据集划分为训练集和测试集；漏洞文件代码图表示；漏洞特征提取；构建预测器，并利用该预测器预测代码文件中的漏洞。系统用于实现上述方法过程，计算机设备和存储介质通过执行计算机程序能够实现上述方法过程。本发明可以更好地利用漏洞代码的语法、语义信息，充分挖掘漏洞代码与上下文的关系，并有效的识别一类漏洞，普适性和通用性更强，可以取代实际代码审计中人工制定漏洞指标的环节，使实际使用成本更低、应用领域更广、精度更高。

Description

基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质

技术领域

本发明属于软件工程领域，特别涉及一种基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质。

背景技术

漏洞识别与预测是软件维护过程中的重要组成部分。近年来，随着软件项目的规模扩张和复杂度提升，在软件开发过程中出现了大量的漏洞，如何准确高效地识别并预测漏洞已成为具有相当挑战性的工作。而在之前的工作中多采用由人类专家手工制定的特征或模式被机器学习算法作为输入来检测漏洞，然而由专家手工定义一些漏洞度量(如代码大小，圈复杂度等)，成本过高且主观性较强，会导致较高的误报率和漏报率。已有的漏洞识别与预测工作大多都是面向静态分析场景的研究，没有考虑自身的语义特征。同时机器学习与深度学习发展迅速，许多模型都能为漏洞识别提供参考，但是种类繁多，没有统一高效的识别与预测模型，为进一步漏洞的修复造成了一定困难。

此外，目前已有一些工作使用机器学习的方法来识别软件漏洞的语法特征并进行漏洞的预测。如文献《To fear or not to fear that is the question:codecharacteristics of a vulnerable function with an existing exploit》中通过八个代码度量指标描述来自Linux内核和Apache HTTP服务器中的漏洞，通过机器学习的方法预测漏洞的可利用性，但还是停留在手工定义漏洞特征的层面。也有一些工作通过将图引入代码表示来以更细的粒度(函数级)来分析漏洞代码，如文献《Vulnerabilityextrapolation:assisted discovery of vulnerabilities using machine learning》中通过融合抽象语法树、控制流图以及程序依赖图形成代码属性图来表示源代码，但没有提出完整的识别预测模型。

发明内容

本发明的目的在于提供一种具有成本低、准确性高、应用范围广等特点的漏洞识别与预测方法、系统、计算机设备和存储介质。

实现本发明目的的技术解决方案为：一种基于图神经网络的漏洞识别与预测方法，包括以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

步骤5，构建预测器，并利用该预测器预测代码文件中的漏洞。

进一步地，步骤1所述构建漏洞数据集，具体过程包括：

步骤1-1，采集漏洞数据库NVD中的数据，包括漏洞报告；

步骤1-2，提取漏洞报告中的CWE漏洞类型标签、描述信息以及漏洞文件；

步骤1-3，利用一组与软件安全性相关的漏洞发生特征关键词和所述描述信息进行匹配，筛选出安全性漏洞，由所有安全性漏洞构成漏洞数据集。

进一步地，步骤2所述将漏洞数据集划分为训练集和测试集，具体包括：

步骤2-1，对CWE漏洞类型标签进行归并，获得漏洞类型表如下表1所示：

表1漏洞类型表

步骤2-2，从漏洞数据集中随机选取部分状态为Modified的漏洞报告，结合CWE漏洞类型标签和上述表1对选取的漏洞报告进行分类，构建语料库，并将语料库中的一部分漏洞报告作为训练集，其余漏洞报告作为测试集。

进一步地，步骤3所述漏洞文件代码图表示，具体过程包括：

步骤3-1，将所述漏洞数据集中的每个漏洞文件分解为一组方法即函数；特殊地，头文件也视为一组方法；

步骤3-2，利用GumTree对每个漏洞文件对应的一组方法进行语法分析，获得一组语法抽象树AST；

步骤3-3，利用word2vec对语法抽象树AST中的代码单词code tokens进行词向量学习，获得一组词向量；

由上述过程将每一个漏洞文件表示为一个代码属性图g_i(V,X,A)，该图中结点的代码属性由词向量表示，边属性的类型为AST；其中V表示结点集合，X表示初始结点的特征矩阵，A表示两结点是否通过一条AST边相连，0表示两结点不相连，1表示相连，A为一个m×m的邻接矩阵，m为结点总数。

进一步地，步骤4所述漏洞特征提取，具体为：结合门控图神经网络GGNN的特征学习和门控递归单元实现漏洞特征提取；具体过程包括：

步骤4-1，初始化结点集合V中每个结点v_j的状态向量h_j ⁽¹⁾；

步骤4-2，将每个结点向量作为门控图神经网络GGNN的输入端，假设邻居结点特征聚合的时间步总数即迭代次数阈值为T'，获取第j个结点在时间步t即第t次迭代时的信息量

其中，t≤T'，h_j ^(t-1)表示在t-1次迭代时的结点j的状态向量，W为权重矩阵，b为偏差，T表示矩阵或向量转置，j＝1,2,…,m；

步骤4-3，根据信息量

构建重置门r_j和更新门z_j为：

式中，σ(·)表示Sigmoid激活函数，W^z、U^z为更新门z_j的权重矩阵，W^r、U^r为重置门r_j的权重矩阵；

步骤4-4，基于重置门r_j判断前一时间步t-1的结点状态即隐藏状态是否需要保留，具体过程包括：

对当前时间步t的重置门

的输出与前一时间步t-1的隐藏状态做乘法运算，即：

若重置门

中的元素值与0值的绝对差值小于预设阈值，则表明前一时间步t-1的隐藏状态元素为0，即丢弃前一时间步t-1的隐藏状态；反之，表示保留前一时间步t-1的隐藏状态；

步骤4-5，利用含激活函数tanh的全连接层求取当前时间步t的候选隐藏状态

式中，W和U为权重矩阵；

步骤4-6，基于当前时间步t的更新门

和当前时间步t的候选隐藏状态/>

求取当前时间步t的隐藏状态/>

在T'个时间步内迭代上述步骤4-2至步骤4-6，最后一次迭代后的状态向量H_i ^(T'⁾表示所有结点的最终结点表示矩阵，即漏洞特征：

进一步地，步骤4-1所述初始化结点集合V中每个结点v_j的状态向量h_j ⁽¹⁾，具体过程包括：

针对每个结点v_j，将其第一维用x_j表示，其余维填充为0，由此初始化结点v_j的状态向量为h_j ⁽¹⁾∈R^z，z≥d，其中x_j表示对应的结点v_j的d维词向量，z表示结点的维数。

进一步地，步骤5所述构建预测器，并利用该预测器预测代码文件中的漏洞，具体包括：

步骤5-1，将漏洞特征作为预测器的输入端，构建预测器为：

步骤5-2，采用交叉熵作为代价函数，通过最小化代价函数获得最优预测函数f：

式中，L(·)表示交叉熵代价函数，c_i表示第i个输入的代码文件，y_i表示输出，输出结果为0表示输入的代码文件无模型训练的漏洞，输出结果为1表示输入的代码文件存在模型训练的漏洞。

一种基于图神经网络的漏洞识别与预测系统，所述系统包括：

第一构建模块，用于构建漏洞数据集；

划分模块，用于将漏洞数据集划分为训练集和测试集；

图表示模块，用于实现漏洞文件代码图表示；

提取模块，用于实现漏洞特征提取；

第二构建模块，用于构建预测器，并利用该预测器预测代码文件中的漏洞。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

本发明与现有技术相比，其显著优点为：1)本发明不是直接对漏洞报告中提取的漏洞文件代码进行分析，而是先从图的角度对漏洞代码进行表示，能更好地利用漏洞代码的语法、语义信息，充分挖掘漏洞代码与上下文的关系；2)本发明首次提出通过从NVD中获得的CWE漏洞类型标签，对大量多项目漏洞报告数据进行标注，形成漏洞语料库，用来训练并达到对某一类特定类型漏洞的识别与预测；3)考虑到目前软件漏洞的高速增长，传统的手工定义漏洞特征进行漏洞识别的方法难度越来越大，本发明通过图神经网络这一深度学习方法，自动对输入的漏洞文件进行特征的提取，一定程度上可以减少误报率和漏报率；4)本发明使用词向量学习得到代码的结点表示，并将其作为图神经网络的输入，相较于纯粹的基于序列的训练模型(如LSTM)，当输入为图形结构时，图神经网络更为灵活，可以解决图输入的无序性，更好的考虑漏洞代码的语义特征，为软件漏洞定位和修复的实际应用研究打下基础。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中基于图神经网络的漏洞识别与预测的方法的流程图。

图2为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1，本发明提出一种基于图神经网络的漏洞识别与预测方法，包括以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

进一步地，在其中一个实施例中，步骤1中构建漏洞数据集，具体过程包括：

步骤1-1，采集漏洞数据库NVD中的数据，包括漏洞报告；

步骤1-3，利用一组与软件安全性相关的漏洞发生特征关键词和描述信息进行匹配，筛选出安全性漏洞，由所有安全性漏洞构成漏洞数据集。

进一步地，在其中一个实施例中，步骤2中将漏洞数据集划分为训练集和测试集，具体包括：

步骤2-1，对CWE漏洞类型标签进行归并，获得漏洞类型表如表1所示；

进一步地，在其中一个实施例中，步骤3中漏洞文件代码图表示，具体过程包括：

步骤3-1，将漏洞数据集中的每个漏洞文件分解为一组方法即函数；特殊地，头文件也视为一组方法；

采用本实施例的方案，不是直接对漏洞报告中提取的漏洞文件代码进行分析，而是先从图的角度对漏洞代码进行表示，能更好地利用漏洞代码的语法、语义信息，充分挖掘漏洞代码与上下文的关系。

进一步地，在其中一个实施例中，步骤4中漏洞特征提取，具体为：结合门控图神经网络GGNN的特征学习和门控递归单元实现漏洞特征提取；具体过程包括：

步骤4-3，根据信息量

构建重置门r_j和更新门z_j为：

对当前时间步t的重置门

的输出与前一时间步t-1的隐藏状态做乘法运算，即：

若重置门

式中，W和U为权重矩阵；

步骤4-6，基于当前时间步t的更新门

和当前时间步t的候选隐藏状态/>

求取当前时间步t的隐藏状态/>

在T'个时间步内迭代上述步骤4-2至步骤4-6，最后一次迭代后的状态向量

表示所有结点的最终结点表示矩阵，即漏洞特征：

采用本实施例的方案，将词向量学习得到代码的结点表示作为图神经网络的输入，相较于纯粹的基于序列的训练模型(如LSTM)，当输入为图形结构时，图神经网络更为灵活，可以解决图输入的无序性，更好的考虑漏洞代码的语义特征，为软件漏洞定位和修复的实际应用研究打下基础。

进一步地，在其中一个实施例中，步骤4-1初始化结点集合V中每个结点v_j的状态向量h_j ⁽¹⁾，具体过程包括：

进一步地，在其中一个实施例中，步骤5构建预测器，并利用该预测器预测代码文件中的漏洞，具体包括：

步骤5-1，将漏洞特征作为预测器的输入端，构建预测器为：

在一个实施例中，一种基于图神经网络的漏洞识别与预测系统，该系统包括：

第一构建模块，用于构建漏洞数据集；

划分模块，用于将漏洞数据集划分为训练集和测试集；

图表示模块，用于实现漏洞文件代码图表示；

提取模块，用于实现漏洞特征提取；

进一步地，在其中一个实施例中，上述第一构建模块包括：

采集单元，用于采集漏洞数据库NVD中的数据，包括漏洞报告；

提取单元，用于提取漏洞报告中的CWE漏洞类型标签、描述信息以及漏洞文件；

筛选单元，用于利用一组与软件安全性相关的漏洞发生特征关键词和描述信息进行匹配，筛选出安全性漏洞，由所有安全性漏洞构成漏洞数据集。

进一步地，在其中一个实施例中，上述划分模块包括：

归并单元，用于对CWE漏洞类型标签进行归并，获得漏洞类型表如表1所示；

划分单元，用于从漏洞数据集中随机选取部分状态为Modified的漏洞报告，并结合CWE漏洞类型标签和上述表1对选取的漏洞报告进行分类，构建语料库，并将语料库中的一部分漏洞报告作为训练集，其余漏洞报告作为测试集

进一步地，在其中一个实施例中，上述图表示模块包括：

分解单元，用于将漏洞数据集中的每个漏洞文件分解为一组方法即函数；特殊地，头文件也视为一组方法；

语法分析单元，用于利用GumTree对每个漏洞文件对应的一组方法进行语法分析，获得一组语法抽象树AST；

词向量学习单元，利用word2vec对语法抽象树AST中的代码单词code tokens进行词向量学习，获得一组词向量；

图表示模块将每一个漏洞文件表示为一个代码属性图g_i(V,X,A)，该图中结点的代码属性由词向量表示，边属性的类型为AST；其中V表示结点集合，X表示初始结点的特征矩阵，A表示两结点是否通过一条AST边相连，0表示两结点不相连，1表示相连，A为一个m×m的邻接矩阵，m为结点总数。

进一步地，在其中一个实施例中，上述提取模块包括依次执行的：

初始化单元，用于初始化结点集合V中每个结点v_j的状态向量h_j ⁽¹⁾，具体包括：针对每个结点v_j，将其第一维用x_j表示，其余维填充为0，由此初始化结点v_j的状态向量为h_j ⁽¹⁾∈R^z，z≥d，其中x_j表示对应的结点v_j的d维词向量，z表示结点的维数；

信息量求取单元，用于将每个结点向量作为门控图神经网络GGNN的输入端，假设邻居结点特征聚合的时间步总数即迭代次数阈值为T'，获取第j个结点在时间步t即第t次迭代时的信息量

第一构建单元，用于根据信息量

构建重置门r_j和更新门z_j为：

判别单元，用于基于重置门r_j判断前一时间步t-1的结点状态即隐藏状态是否需要保留，具体过程包括：

对当前时间步t的重置门

的输出与前一时间步t-1的隐藏状态做乘法运算，即：

若重置门

第一求取单元，用于利用含激活函数tanh的全连接层求取当前时间步t的候选隐藏状态

式中，W和U为权重矩阵；

第二求取单元，用于基于当前时间步t的更新门

和当前时间步t的候选隐藏状态

求取当前时间步t的隐藏状态/>

在T'个时间步内迭代重复执行信息量求取单元至第二求取单元，最后一次迭代后的状态向量

表示所有结点的最终结点表示矩阵，即漏洞特征：

进一步地，在其中一个实施例中，上述第二构建模块包括：

第二构建单元，用于将漏洞特征作为预测器的输入端，构建预测器：

预测单元，用于采用交叉熵作为代价函数，通过最小化代价函数获得最优预测函数f：

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多系统数据融合数据过程中需要用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多系统数据融合方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

进一步地，在其中一个实施例中，处理器执行计算机程序实现上述构建漏洞数据集，具体实现以下步骤：

步骤1-1，采集漏洞数据库NVD中的数据，包括漏洞报告；

进一步地，在其中一个实施例中，处理器执行计算机程序实现上述将漏洞数据集划分为训练集和测试集，具体实现以下步骤：

进一步地，在其中一个实施例中，处理器执行计算机程序实现上述漏洞文件代码图表示，具体实现以下步骤：

进一步地，在其中一个实施例中，处理器执行计算机程序实现上述漏洞特征提取，具体实现以下步骤：

步骤4-1，初始化结点集合V中每个结点v_j的状态向量h_j ⁽¹⁾：针对每个结点v_j，将其第一维用x_j表示，其余维填充为0，由此初始化结点v_j的状态向量为h_j ⁽¹⁾∈R^z，z≥d，其中x_j表示对应的结点v_j的d维词向量，z表示结点的维数；

步骤4-3，根据信息量

构建重置门r_j和更新门z_j为：

对当前时间步t的重置门

的输出与前一时间步t-1的隐藏状态做乘法运算，即：

若重置门

式中，W和U为权重矩阵；

步骤4-6，基于当前时间步t的更新门

和当前时间步t的候选隐藏状态/>

求取当前时间步t的隐藏状态/>

表示所有结点的最终结点表示矩阵，即漏洞特征：

进一步地，在其中一个实施例中，处理器执行计算机程序实现上述构建预测器，并利用该预测器预测代码文件中的漏洞，具体实现以下步骤：

步骤5-1，将漏洞特征作为预测器的输入端，构建预测器为：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

步骤1，构建漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；

步骤4，漏洞特征提取；

进一步地，在其中一个实施例中，计算机程序被处理器执行实现上述构建漏洞数据集，具体实现以下步骤：

步骤1-1，采集漏洞数据库NVD中的数据，包括漏洞报告；

进一步地，在其中一个实施例中，计算机程序被处理器执行实现上述将漏洞数据集划分为训练集和测试集，具体实现以下步骤：

进一步地，在其中一个实施例中，计算机程序被处理器执行实现上述漏洞文件代码图表示，具体实现以下步骤：

进一步地，在其中一个实施例中，计算机程序被处理器执行实现上述漏洞特征提取，具体实现以下步骤：

步骤4-3，根据信息量

构建重置门r_j和更新门z_j为：

对当前时间步t的重置门

的输出与前一时间步t-1的隐藏状态做乘法运算，即：

若重置门

式中，W和U为权重矩阵；

步骤4-6，基于当前时间步t的更新门

和当前时间步t的候选隐藏状态/>

求取当前时间步t的隐藏状态/>

表示所有结点的最终结点表示矩阵，即漏洞特征：

进一步地，在其中一个实施例中，计算机程序被处理器执行实现上述构建预测器，并利用该预测器预测代码文件中的漏洞，具体实现以下步骤：

步骤5-1，将漏洞特征作为预测器的输入端，构建预测器为：

本发明可以更好地利用漏洞代码的语法、语义信息，充分挖掘漏洞代码与上下文的关系，并有效的识别一类漏洞，普适性和通用性更强，可以取代实际代码审计中人工制定漏洞指标的环节，使实际使用成本更低、应用领域更广、精度更高。

Claims

1.一种基于图神经网络的漏洞识别与预测方法，其特征在于，包括以下步骤：

步骤1，构建漏洞数据集；具体过程包括：

步骤1-1，采集漏洞数据库NVD中的数据，包括漏洞报告；

步骤1-3，利用一组与软件安全性相关的漏洞发生特征关键词和所述描述信息进行匹配，筛选出安全性漏洞，由所有安全性漏洞构成漏洞数据集；

步骤2，将漏洞数据集划分为训练集和测试集；

步骤3，漏洞文件代码图表示；具体过程包括：

由上述过程将每一个漏洞文件表示为一个代码属性图g_i(V,X,A)，该图中结点的代码属性由词向量表示，边属性的类型为AST；其中V表示结点集合，X表示初始结点的特征矩阵，A表示两结点是否通过一条AST边相连，0表示两结点不相连，1表示相连，A为一个m×m的邻接矩阵，m为结点总数；

步骤4，结合门控图神经网络GGNN的特征学习和门控递归单元实现漏洞特征提取，将图中每个结点向量作为门控图神经网络GGNN的输入端，迭代后的状态向量作为漏洞特征；

步骤5，将漏洞特征作为预测器的输入端，构建预测器，并利用该预测器预测代码文件中的漏洞。

2.根据权利要求1所述的基于图神经网络的漏洞识别与预测方法，其特征在于，步骤2所述将漏洞数据集划分为训练集和测试集，具体包括：

步骤2-1，对CWE漏洞类型标签进行归并，获得如下漏洞类型与CWE标签的对应关系：Resource Leaks：CWE-913、CWE-74、CWE-400、CWE-404、CWE-610、CWE-669、CWE-913；Insecure Arguments：CWE-134、CWE-20、CWE-330、CWE-665；Use After Free：CWE-416；RaceConditions：CWE-362、CWE-754、CWE-755；Null Pointer Deference：CWE-476；BufferOverflows：CWE-120、CWE-119；Information Exposure：CWE-200、CWE-311、CWE-668、CWE-922；Privilege Escalation：CWE-269、CWE-326；Improper Authentication：CWE-287、CWE-345、CWE-862、CWE-863；

步骤2-2，从漏洞数据集中随机选取部分状态为Modified的漏洞报告，结合CWE漏洞类型标签和上述对应关系对选取的漏洞报告进行分类，构建语料库，并将语料库中的一部分漏洞报告作为训练集，其余漏洞报告作为测试集。

3.根据权利要求2所述的基于图神经网络的漏洞识别与预测方法，其特征在于，步骤4所述漏洞特征提取，具体为：结合门控图神经网络GGNN的特征学习和门控递归单元实现漏洞特征提取；具体过程包括：