CN114611115A

CN114611115A - 一种基于混合图神经网络的软件源码漏洞检测方法

Info

Publication number: CN114611115A
Application number: CN202210274334.2A
Authority: CN
Inventors: 段立娟; 徐泽鑫; 陈军成
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-10

Abstract

本发明涉及一种基于混合图神经网络的软件源码漏洞检测方法，用于解决在软件源码处理过程中源码内部结构与语义信息丢失，漏洞检测效果差的问题，包括：将源码文件采用信息增强后的代码属性图表示，将信息增强后的代码属性图向量化后输入图卷积神经网络中得到局部特征矩阵；输入门控图神经网络中得到全局特征矩阵。将局部特征矩阵和全局特征矩阵拼接后输入分类器，最后输出检测结果。采用本方法能够有效保留源码内部的结构和语义信息，模型训练采用焦点损失函数在损失计算时赋予正负样本不同大小的权重，避免模型过度拟合样本更多的非漏洞类别，提升了模型的漏洞检测效果。

Description

一种基于混合图神经网络的软件源码漏洞检测方法

技术领域

本发明涉及软件漏洞检测技术领域，尤其涉及一种基于混合图神经网络的软件源码漏洞检测方法。

背景技术

随着信息技术的飞速发展，应用软件在世界各地的经济、军事、社会等各个方面都发挥着重要的作用，而应用软件中的漏洞对软件系统的运行安全构成巨大威胁，一旦软件安全遭到破坏，会给个人、企业甚至国家带来巨大的危害和损失。研究出一种有效的软件源码漏洞检测方法具有重要的意义，能够尽可能快地检测出软件源码中潜在的漏洞以便技术人员及时进行修补，尽可能减少软件漏洞带来的损失。

随着深度学习的不断发展，越来越多的研究人员将深度学习的方法应用到软件漏洞检测技术领域，使用卷积神经网络(CNN)和循环神经网络(RNN)提取软件源码特征并输入分类器中最后输出检测结果。这类基于序列的方法使用类似于处理自然语言的方法对软件源码进行处理，将软件源码转化为扁平的序列。但是，软件源码实际上比自然语言具有更强的结构性和逻辑性。在软件源码建模过程中丢失了内部的结构信息、语义信息这些对于识别软件源码漏洞至关重要的关键信息，限制了模型检测和覆盖各类漏洞的能力。

实际应用中非漏洞样本与漏洞样本比例达40:1以上，存在严重的正负样本不平衡问题，模型训练后更倾向于样本多的无漏洞类别。现有的技术大多使用交叉熵损失函数，假定漏洞样本与非漏洞样本比例为1:1，无法有效解决样本不平衡问题。因此，需要采用更有效的损失函数，使模型能够更好地学习漏洞样本特征，提升模型检测软件源码漏洞的能力。

发明内容

根据现有技术存在的上述问题，本发明提出了一种基于混合图神经网络的软件源码漏洞检测方法。使用图卷积神经网络GCN提取软件源码文件的局部特征，使用门控图神经网络GGNN提取软件源码文件的全局特征，再将局部特征和全局特征拼接后输入分类器中，最后输出检测结果。采用焦点损失函数(Focal Loss)在损失计算时赋予正负样本不同大小的权重，避免模型训练过程中过度拟合样本更多的非漏洞类别，提升模型的漏洞检测能力。

为实现上述目的，本发明提供了一种基于混合图神经网络的软件源码漏洞检测方法，包括以下：

一种基于混合图神经网络的软件源码漏洞检测方法，包括以下步骤：

步骤A：获得待检测源码文件的代码属性图，将源码文件的编码顺序信息加入代码属性图中得到信息增强后的代码属性图，图中的节点对应源码文件中的一个或多个关键词。

步骤B：将信息增强后的代码属性图向量化后得到源码表征G，向量化包括图中节点的向量化和节点间连接边的向量化。

步骤C：将源码表征G输入图卷积神经网络GCN中得到局部特征矩阵H_l；将源码表征G输入门控图神经网络GGNN中得到全局特征矩阵H_g。

步骤D：将局部特征矩阵H_l和全局特征矩阵H_g拼接后输入分类器，最后输出检测结果。

步骤A中所述的信息增强后的代码属性图具体为：

将源码文件的编码顺序信息加入代码属性图中，将图中存在编码顺序关系的节点使用编码顺序信息边E_scs进行连接，得到信息增强后的代码属性图，信息增强后的代码属性图如图3所示，图中信息增强后的代码属性图中边的类型有：抽象语法信息边E_ast、控制流信息边E_cfg、数据流信息边E_dfg、编码顺序信息边E_scs，所述的抽象语法信息边E_ast指关键词间的语法关系与结构关系；控制流信息边E_cfg指程序执行期间可能遍历的所有路径，路径的选择由条件语句决定；数据流信息边E_dfg指每个关键词的使用情况，包括关键词的访问、修改；编码顺序信息边E_scs指源代码中关键词的自然顺序。

步骤B中所述的节点的向量化具体为：

对信息增强后的代码属性图中的节点进行向量化，节点对应源码文件中的关键词，使用所有关键词的集合作为语料库预先训练词嵌入模型Word2Vec，再使用预先训练好的词嵌入模型Word2Vec将关键词转化为d维的数值向量v，得到图节点矩阵V，V∈R^m×d，其中m为图中节点总数，d为每个节点对应的数值向量的维度；

步骤B中所述的节点间连接边的向量化具体为：

对信息增强后的代码属性图中节点间的边进行向量化，增强后的代码属性图中各节点间的边由邻接矩阵A表示，A∈{0,1}^k×m×m，m是节点的总数，k是边类型的总数，k＝4,四种类型的边分别是：抽象语法信息边E_ast、控制流信息边E_cfg、数据流信息边E_dfg、编码顺序信息边E_scs，其中，

是邻接矩阵A中的一个元素

等于1时表示序号为i的节点v_i和序号为j的节点v_j间存在p类型的边,

等于0时表示序号为i的节点v_i和序号为j的节点v_j间不存在p类型的边；

最终，信息增强后的代码属性图可以表示为G＝(V,A)，其中V为图节点特征矩阵，A为图的邻接矩阵。

所述步骤C具体为：

步骤C-1：源码表征G输入图卷积神经网络GCN得到局部特征矩阵H_l，其中，图卷积神经网络依次由第一图卷积层GraphConv1和第二图卷积层GraphConv2组成，通过第一图卷积层GraphConv1聚合源码表征G中每一个节点及其邻接节点的信息实现对信息增强后的代码属性图中每一个节点的特征向量进行更新，接着经过第二图卷积层GraphConv2再次聚合每一个节点及其邻接节点的信息对每一个节点的特征向量进行再次更新得到局部特征矩阵H_l，公式表示如下：

H_l＝GraphConv2(GraphConv1(G)) (1)

步骤C-2：假设源码表征G输入门控图神经网络GGNN经过T时刻后得到全局特征矩阵H_g，在每个时刻t(t≤T)，信息增强后的代码属性图中各节点接收相邻节点的信息，同时向相邻节点发送信息，通过聚合t-1时刻所有与节点v_i以p类型的边相连的相邻节点的信息得到节点v_i的更新状态向量

更新公式具体如下：

其中，

是A中p类型的边对应的邻接矩阵A_p的转置，W_p是权重矩阵，b是偏置项，

是t-1时刻序号为1、…、m的节点的隐藏状态向量的转置。

步骤C-3：累加t-1时刻节点v_i通过k种不同类型的边进行信息更新后得到的更新状态向量，再利用门控循环单元GRU结合t-1时刻节点v_i的隐藏状态向量

得到当前t时刻节点v_i的隐藏状态向量

具体表示如下：

其中，

表示t时刻节点v_i的隐藏状态向量,GRU表示门控循环单元，SUM表示累加函数；

T时刻将顶点集V中所有节点的隐藏状态向量拼接得到全局特征矩阵H_g，公式如下：

其中，m为顶点集V中的节点总数,

为T时刻节点v_i的隐藏状态向量。

所述分类器依次由第一一维卷积层、第一一维全局池化层、第二一维卷积层、第二一维全局池化层、全连接层和激活函数Sigmoid组成。

训练过程中采用焦点损失函数Focal Loss在损失计算时根据正负样本比例赋予正负样本不同大小的权重。

有益效果

本发明提出了一种基于混合图神经网络的软件源码漏洞检测方法，与现有技术相比，具有以下优势和有益效果：

本方法结合增强的代码属性图对源码文件进行表征，能够有效保留源码内部的结构和语义信息；使用图卷积神经网络GCN提取软件源码文件的局部特征，使用门控图神经网络GGNN提取软件源码文件的全局特征，能够更好地挖掘出源码漏洞特征；采用焦点损失函数(Focal Loss)在损失计算时赋予正负样本不同大小的权重，避免模型训练过程中过度拟合样本更多的非漏洞类别，提升了模型的软件源码漏洞检测能力。

附图说明

图1、模型整体框架；

图2源码文件示例；

图3信息增强后的代码属性图示例。

具体实施方式

步骤A：对于一个待检测的源码文件，待检测源码文件如图2所示。使用Joern工具得到该文件的代码属性图，代码属性图包括关键词和关键词的组合，将源码文件的编码顺序信息加入代码属性图中得到信息增强后的代码属性图，如图3所示，图中的节点对应代码属性图中的关键词或关键词的组合，例如图中有的节点对应一个关键词“x”,有的节点对应关键词的组合“x”、“＝”、“1”(x＝1)。

具体的，将源码文件的编码顺序信息加入代码属性图中，将图中存在编码顺序关系的节点使用编码顺序信息边E_scs进行连接，得到信息增强后的代码属性图。信息增强后的代码属性图中边的类型有：抽象语法信息边E_ast、控制流信息边E_cfg、数据流信息边E_dfg、编码顺序信息边E_scs。所述的抽象语法信息边E_ast指关键词间的语法关系与结构关系；控制流信息边E_cfg指程序执行期间可能遍历的所有路径，路径的选择由条件语句决定；数据流信息边E_dfg指每个关键词的使用情况，包括关键词的访问、修改；编码顺序信息边E_scs指源代码中关键词的自然顺序。例如，图中关键词“int y”对应的节点与关键词“y”对应的节点之间存在语法关系，因此它们之间存在抽象语法信息边E_ast；程序的执行路径是先执行“if(y>0)”再执行“x＝x+y”因此“if(y>0)”对应的节点与“x＝x+y”对应的节点之间存在控制流信息边E_cfg；当程序执行到“int x＝1”时关键词“x”被修改为1，程序执行到“x＝x+y”时关键词“x”被修改为x+y，关键词“x”的使用情况使用“x＝1”对应的节点与“x＝x+y”对应的节点之间的数据流信息边E_dfg表示；源代码关键词的自然顺序中关键词“int”在关键词“y”之前，因此关键词“int”对应的节点和关键词“y”对应的节点之间存在编码顺序信息边E_scs。

步骤B：将信息增强后的代码属性图向量化后得到源码表征G，向量化包括图中节点的向量化和节点间连接边的向量化；

进一步的，步骤B-1：对信息增强后的代码属性图中的节点进行向量化，节点对应源码文件中的关键词(token)，使用所有关键词的集合作为语料库预先训练词嵌入模型Word2Vec，再使用预先训练好的词嵌入模型Word2Vec将关键词转化为d维的数值向量v，得到图节点矩阵V，V∈R^m×d，其中m为图中节点总数，d为每个节点对应的数值向量的维度。

步骤B-2：对信息增强后的代码属性图中节点间的边进行向量化，增强后的代码属性图中各节点间的边由邻接矩阵A表示，A∈{0,1}^k×m×m，m是节点的总数，k是边类型的总数，k＝4，四种类型的边分别是：抽象语法信息边E_ast、控制流信息边E_cfg、数据流信息边E_dfg、编码顺序信息边E_scs。假定

是邻接矩阵A中的一个元素

等于0时表示序号为i的节点v_i和序号为j的节点v_j间不存在p类型的边。

进一步的，

步骤C-1：源码表征G输入图卷积神经网络GCN得到局部特征矩阵H_l。其中，图卷积神经网络依次由第一图卷积层GraphConv1和第二图卷积层GraphConv2组成。通过第一图卷积层GraphConv1聚合每一个节点及其邻接节点的信息实现对图中每一个节点的特征向量进行更新，接着经过第二图卷积层GraphConv2再次聚合每一个节点及其邻接节点的信息对每一个节点的特征向量进行再次更新得到局部特征矩阵H_l，公式如下：

H_l＝GraphConv2(GraphConv1(G)) (1)

步骤C-2：假设源码表征G输入门控图神经网络GGNN经过T时刻后得到全局特征矩阵H_g，在每个时刻t(t≤T)，图中各节点接收相邻节点的信息，同时向相邻节点发送信息。每个节点的初始状态向量设置为该节点的数值向量v。通过聚合t-1时刻所有与节点v_i以p类型的边相连的相邻节点的信息得到节点v_i的更新状态向量

更新公式如下：

其中，

是t-1时刻节点v_i的更新状态向量，

是t-1时刻序号为1、…、m的节点的隐藏状态向量的转置，每个节点t-1时刻的隐藏状态向量由该节点的初始状态向量经过t-1个时刻的更新后得到。

步骤C-3：累加t-1时刻节点v_i通过k种(k＝4)不同类型的边进行信息更新后得到的更新状态向量，再利用门控循环单元GRU结合t-1时刻节点v_i的隐藏状态

得到当前t时刻节点v_i的隐藏状态向量

公式如下：

其中，

表示t时刻节点v_i的隐藏状态向量,

表示t-1时刻节点v_i聚合通过p类型的边接收的信息后得到的更新状态向量，GRU表示门控循环单元，SUM表示累加函数。

门控循环单元包含控制门和和更新门，节点通过更新门对当前t时刻接收到的信息和t-1时刻接收到的信息中选取一部分信息进行保留；通过重置门对当前t时刻接收到的信息和t-1时刻接收到的信息中选取一部分信息进行舍弃。将重置门输出的信息、更新门输出的信息、以及节点自身的信息三者结合，作为节点t时刻的隐藏状态向量

其中，m为顶点集V中的节点总数,

为T时刻节点v_i的隐藏状态向量。

步骤D：将局部特征矩阵H_l和全局特征矩阵H_g拼接后输入分类器，分类器依次由一维卷积层、一维全局池化层、一维卷积层、一维全局池化层、全连接层和激活函数Sigmoid组成，最后输出检测结果。

步骤D具体为：

步骤D1：将得到的局部特征矩阵H_l和语义特征矩阵H_g进行拼接得到特征矩阵H，公式如下：

H＝Concat(H_l,H_g) (5)

步骤D2：将特征矩阵H输入分类器中，分类器依次由一维卷积层Conv1D₁、一维全局池化层MaxPool1D₁、一维卷积层Conv1D₂、一维全局池化层MaxPool1D₂、全连接层Linear和激活函数Sigmoid组成,处理过程如下：

H经过一维卷积层Conv1D₁和一维最大池化层MaxPool1D₁后得到特征矩阵Z_1公式如下：

Z_1＝MaxPool1D₁(Conv1D₁(H)) (6)

Z_1经过一维卷积层Conv1D₂和一维最大池化层MaxPool1D₂后得到特征矩Z_2公式如下：

Z_2＝MaxPool1D₂(Conv1D₂(Z_1)) (7)

Z_2经过全连接层Linear和激活函数Sigmoid最后输出检测结果y，公式如下：

y＝Sigmoid(Linear(Z_2)) (8)

y＝1表示源码文件不存在漏洞，y＝0表示源码文件不存在漏洞。

获取软件漏洞检测系统数据集，数据集表示为(源码文件，标签)，其中源码文件用c表示，标签Y分为漏洞样本(Y＝1)和非漏洞样本Y＝0)，存在漏洞的样本(漏洞样本)称为正样本，不存在漏洞的样本(非漏洞)称为负样本；将数据集中的函数文件按一定的比例随机划分为训练集、验证集和测试集。模型在训练集上进行训练，训练过程中采用焦点损失函数(Focal Loss)在损失计算时赋予正负样本不同大小的权重，焦点损失函数计算公式如下：

其中，α是平衡参数α∈[0,1]，p是模型输出的概率p∈[0,1]，γ是调节正负样本权重的参数γ∈[0,5]，Y是标签，log是ln函数。α调节漏洞样本与非漏洞样本损失的权重，γ降低非漏洞样本的损失贡献，避免模型训练过程中过度拟合样本更多的非漏洞类别，优化模型的漏洞检测效果。

Claims

1.一种基于混合图神经网络的软件源码漏洞检测方法，其特征在于，包括以下步骤：

步骤A：获得待检测源码文件的代码属性图，代码属性图包括关键词和关键词的组合，将源码文件的编码顺序信息加入代码属性图中得到信息增强后的代码属性图，信息增强后的代码属性图中的节点对应代码属性图中的关键词或关键词的组合；

步骤C：将源码表征G输入图卷积神经网络GCN中得到局部特征矩阵H_l；将源码表征G输入门控图神经网络GGNN中得到全局特征矩阵H_g；

2.如权利要求1所述的一种基于混合图神经网络的软件源码漏洞检测方法，其特征在于，步骤A中所述的信息增强后的代码属性图具体为：

将源码文件的编码顺序信息加入代码属性图中，将图中存在编码顺序关系的节点使用编码顺序信息边E_scs进行连接，得到信息增强后的代码属性图，信息增强后的代码属性图中边的类型有：抽象语法信息边E_ast、控制流信息边E_cfg、数据流信息边E_dfg、编码顺序信息边E_scs，所述的抽象语法信息边E_ast指关键词间存在语法关系与结构关系；控制流信息边E_cfg指程序执行期间可能遍历的所有路径，路径的选择由条件语句决定；数据流信息边E_dfg指每个关键词的使用情况，包括关键词的访问、修改；编码顺序信息边E_scs指源代码中关键词的自然顺序。

3.如权利要求1所述的一种基于混合图神经网络的软件源码漏洞检测方法，其特征在于，步骤B中所述的节点的向量化具体为：

对信息增强后的代码属性图中的节点进行向量化，节点对应源码文件中的关键词，使用所有关键词的集合作为语料库预先训练词嵌入模型Word2Vec，再使用预先训练好的词嵌入模型Word2Vec将关键词转化为d维的数值向量，得到图节点矩阵V，V∈R^m×d，其中m为图中节点总数，d为每个节点对应的数值向量的维度；

步骤B中所述的节点间连接边的向量化具体为：