CN114238100A

CN114238100A - 基于GGNN和分层注意力网络的Java漏洞检测定位方法

Info

Publication number: CN114238100A
Application number: CN202111509563.XA
Authority: CN
Inventors: 刘旭生; 陈森; 徐斌; 李晓红; 闫国庆; 王俊杰
Original assignee: State Grid Co ltd Customer Service Center; Tianjin University
Current assignee: State Grid Co ltd Customer Service Center; Tianjin University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-25
Anticipated expiration: 2041-12-10
Also published as: CN114238100B

Abstract

本发明公开了一种基于GGNN和分层注意力网络的Java漏洞检测定位方法，主要包括漏洞数据集构造、数据集预处理、模型设计与训练、模型测试与评估。首先总结了当前领域内使用的数据集并设计收集了后续模型训练的自制数据集；然后对数据集进行数据预处理工作，以获得代码的初级表征并可使其作为后续模型的输入；接着使用预处理后的数据训练自定义的漏洞检测模型；最后，训练好的模型可以处理测试的数据集，并给出测试评估。与现有技术相比，本发明本发明实现了利用DL算法(优化算法)的图神经网络模型进行漏洞检测，缓解了该类研究缺乏数据集、可解释性差、生成代码图结构困难的问题。

Description

基于GGNN和分层注意力网络的Java漏洞检测定位方法

技术领域

本发明涉及软件检测技术领域，特别是涉及一种基于深度学习的Java漏洞静态检测方法。

背景技术

随着软件数量的迅猛增加和开源软件OSS的广泛利用，软件的漏洞数量和漏洞的影响也在日益增加和扩大。软件漏洞会对计算机的安全运行产生潜在的威胁，并给人们和社会带来巨大的经济损失和严重的信息泄露等问题，已经出现的“Heartbleed”漏洞就是鲜明的例子。有效缓解软件漏洞问题的方法是利用各种手段尽早在软件发布前将可能存在的漏洞检测出来。

近年来，随着机器学习的研究突破，许多研究尝试利用机器学习技术来自动检测漏洞，以减少人工劳动量。大多数利用机器学习技术进行检测的方法归为静态检测技术，因为它们大多不需要源代码执行，而只需模型对源码或编译后的二进制文件进行静态特征学习。传统的机器学习方法仍需要进行特征工程操作，即人工定义特征，这是十分耗时和复杂的工作，且定义的特征是客观的和特定于任务的。

当前流行的基于机器学习的漏洞检测技术是基于DL算法的漏洞检测方法。相较于传统的机器学习方法，DL算法自动提取数据如源代码的抽象层次特征，能够学习到更复杂和抽象的高级特征，进而发现人类专家特征工程发现不了的漏洞潜在特征，扩充了特征空间并且灵活地运用到多种应用场景。目前基于DL算法的漏洞检测方法虽然取得了以前工作没有的效果，但它也面临很多瓶颈需要突破，如DL模型固有的可解释性差、缺乏高质量的数据集、如何有效提取漏洞的抽象特征等难题；很多研究虽然声称它们的数据集是真实世界收集的，但大多研究并未公开其数据集，具有严格粒度分层的漏洞数据集更是缺少。另外，基于图神经网络的漏洞检测研究由于需要源代码需要编译才能生成图结构，会减少一定的数据量并增加研究的复杂度；还有，因为深度学习的“黑盒”特性，模型的可解释性能力差，不能很快地定位漏洞。

基于DL算法的漏洞检测技术从提取的代码初级特征上分为两类：一类是序列化的代码特征，如从代码中抽取的代码片段序列或遍历后的代码图结构，该类技术一般使用LSTM模型来生成代码的高级特征；另一类是使用图结构如代码属性图CPG作为代码的初级表征，这种方法可以捕捉到序列化方法损失的代码结构化信息，该类技术一般使用图神经网络来生成代码高级表征。

发明内容

本发明旨在提出一种基于GGNN和分层注意力网络的Java漏洞检测定位方法，利用深度学习技术在Java源代码图结构漏洞数据集上训练门控图神经网络GGNN，以获得能识别现有Java漏洞的成熟模型，并进一步利用注意力机制反向定位代码中可能发生漏洞的代码行，从而帮助测试人员更快更准的判别源代码是否有漏洞及漏洞发生。

本发明利用以下技术方案实现：

一种基于GGNN和分层注意力网络的Java漏洞检测定位方法，该方法具体包括以下步骤：

步骤1、构造漏洞数据集；

步骤2、数据集预处理，具体描述如下：

步骤2.1、生成源代码属性图CPG，所述代码属性图CPG由抽象语法树AST、控制流图CFGCFG和数据流图DFG构成；

步骤2.2、嵌入CPG图，即使用Word2Vec嵌入CPG图的源代码token以表示源代码的语义信息；

步骤3、漏洞检测定位模型设计与训练，具体过程描述如下：

将训练样本集定义为((c_i,y_i)|c_i∈ζ,y_i∈γ),i∈{1,2,...,num_of_data}，c_i表示第i个Method代码，y_i表示第i个样本的标签，ζ表示Method代码集合，γ＝{0，1}ⁿ表示数据的标签集，0表示非漏洞，1表示存在漏洞；

训练集第i个训练样本的图嵌入表示为g_i(V,X,A)∈ψ，ψ表示代码的CPG图嵌入集合，将训练集第i个训练样本的图嵌入表示如下：

g_i(V,X,A)＝EMB(c_i)

其中，EMB()表示CPG图嵌入操作，V表示样本所有的结点，X表示所有结点的初始向量，A表示CPG图嵌入的邻接矩阵；

学习一个从ψ到γ的一个映射f:ψ→γ来预测一个Method是否包含漏洞，由下式的最小化二分类交叉熵函数表示：

其中，L(·)表示交叉熵损失函数，λ(ω(f))表示防止过拟合的惩罚项，f表示学习的模型；

在得到一个图嵌入g_i(V,X,A)后，得到每个结点在输入GGNN前的初始状态

表达式如下：

其中，⊥表示转置，x_j表示每个结点j的初始向量，z表示结点的初始特征；

在训练时，GGNN迭代T个时间步以使结点聚集邻域内结点的信息、并更新结点自身的状态，在每个时间步t<＝T，每一种类的子图p的结点j的状态a_j,p通过与结点j在子图p相连接的结点信息计算得到，表达式如下：

其中，

表示GGNN的权重矩阵，b表示偏差项，A_p表示子图p的邻接矩阵，

表示m个结点经过GNN后最后的状态；

CPG的每个结点的信息表达式如下：

其中，AGG()表示实际的综合方法；

GGNN之后通过门控循环单元GRU获得下一个时间步的结点状态：

步骤3.1、数据划分与模型搭建

确定训练集，其余作为测试集；

使用Pytorch深度学习框架搭建漏洞检测定位模型，使用Deep Graph Library的内置库GatedGraphConv实现GGNN网络；设置单词级和语句级注意力层；所述漏洞检测定位模型包括编码端和解码端；

步骤3.2、编码端生成CPG高级抽象：

在经过编码端GGNN的信息聚集、更新后，CPG图的每个结点都包含着源代码的高级抽象信息，接下来就是进行图级的分类预测，如下式所示：

其中，

表示结点集V最终的状态矩阵，表达式如下：

步骤3.3、解码端为分层注意力网络，由AST序列编码器、AST级注意力层、CFG序列编码器、CFG级注意力层和分类层组成；首先按照一定规则序列化所有结点，然后将序列化的结点送入双向GRU网络进行信息解码并最终做出分类判断，其中：

步骤4、模型测试与评估

在经过GGNN的迭代训练后，对整个CPG进行图级预测，判断是否为漏洞；

分别使用子图和综合图，依据漏洞检测定位模型的测试指标进行测试实验；

模型测试的步骤和模型训练时采用的步骤相同；

漏洞检测定位模型评测指标至少包括误报率和精准度，使用混淆矩阵来表示误报率，漏洞检测模型的整体预测准确率acc、漏洞检测模型的真正正样本预测为正样本的的比例pre、预测为正样本在全部正样本集合的比例recall、pre与recall的加权平均值f1。

与现有技术相比，本发明实现了利用DL算法(优化算法)的图神经网络模型进行漏洞检测，缓解了该类研究缺乏数据集、可解释性差、生成代码图结构困难的问题。

附图说明

图1为本发明的基于GGNN和分层注意力网络的Java漏洞检测定位方法整体流程图；

图2为Juliet数据集漏洞发生行定位示例图；

图3为commit修复diff信息示例图；

图4为本发明实施例的一个源代码示例图，其中：(4a)代码示例，(4b)代码示例对应的AST，(4c)代码示例对应的CFG，(4d)代码示例对应的DFG，(4e)代码示例对应的CPG；

图5为Def、Use信息定义代码示例图，其中：(5a)Def、Use信息定义代码示例，(5b)CFG、DFG综合图；

图6为源代码解析工具JavaParser的语句解析部分代码界面图；

图7为有关代码的基于DL算法的图神经网络模型整体架构示意图，(7a)为编码端GGNN，(7b)为解码端分层注意力网络。

具体实施方式

以下结合附图和具体实施例对本发明的技术方案进行详细说明。

如图1所示，为本发明的基于GGNN和分层注意力网络的Java漏洞检测定位方法整体流程图。该流程具体包括以下步骤：

步骤1、构造漏洞数据集，基于机器学习(ML)进行漏洞检测、分类，获得一个粒度分明、数量可观、质量优秀的漏洞数据集。本发明的漏洞数据集来源包括Java Juliet Test数据、前人收集的公开数据集以及从github开源软件收集的漏洞数据集。其中：

①对SARD的Java Juliet Test数据经过在Method粒度进行的人工筛选，抽取Method粒度的漏洞数据集，以函数名是否含有bad、good关键词抽取漏洞和非漏洞函数，只需关注Java常见的漏洞种类即可，这种做法足以体现模型的检测能力。

②从github上收集漏洞数据。为了保证数据的质量，进行了两次人工手动筛选。首先收集github受欢迎的Top 1000Java项目，然后利用设计的正则表达式筛选这些项目的commit提交历史，筛选后的commits就是可能与漏洞相关的漏洞修复，这是第一次人工筛选。之后，根据commit提交前后的diff信息，爬取所有被修改、删除、添加的函数，然后进行第二次人工筛选，去除肯定不是漏洞发生的函数，剩下的就是高质量的数据了。

步骤2、数据集预处理，具体描述如下：

步骤2.1、生成源代码属性图CPG，即由抽象语法树AST、控制流图CFGCFG和数据流图DFG构成代码属性图CPG。更具体来的，利用解析工具JavaParser生成在Method粒度的源代码的CPG表示。

要生成良好的能突出源代码特征的CPG并使GGNN模型能准确地识别出漏洞代码的特点需要满足：CPG的信息丰富和图的大小适当。

如图4所示，为本发明实施例的一个源代码示例图。其中：(4a)为代码示例，(4b)为代码示例对应的AST子图，(4c)为代码示例对应的CFG子图，(4d)为代码示例对应的DFG子图，(4e)为代码示例对应的CPG综合图。

如图5所示，为Def、Use信息定义代码示例图，其中：(5a)一个代码示例每行的def与use情况Def、Use信息定义代码示例，(5b)为CFG、DFG综合图。

如图6所示，为源代码解析工具JavaParser的语句解析部分代码界面图。

源代码解析工具JavaParser首先生成源代码的CFG文件，并在CFG文件的每个结点记录该结点是否有变量定义信息Def与变量使用信息Use。变量定义信息Def表示对变量的写操作；变量使用信息Use为对变量的读操作。

利用每个结点的Def、Use信息逆向遍历，直到找到一个Use-Def对时，停止遍历当前路径，生成一条由Def结点到Use结点的DFG边。以(5b)中的结点4为例，该节点的Use为(x，y)：对于x，存在逆向路径(4，3，2，1，0)与(4，3，7，6)使得在终点结点0与6有x的Def，所以存在0到4和6到4的DFG边；对于y，则存在(4，3，2，1，0)与(4，3，7)的路径，使得终点0与7有y的Def，所以有0到4和7到4的DFG边。对本发明的需求来说，JavaParser产生的AST结点过于复杂、冗余，因此，本发明只保留每个CFG结点的直接AST孩子结点，其余结点将被删除。

CPG的每个结点都由代码和结点类型。其中每个结点构建为长度为101的向量，即d＝101。为了使结点的语义信息更加准确，使用全部的样本代码作为语料库，使用Word2Vec训练词向量模型，词向量长度为100，结点的代码语义向量V_se为所有Token的向量和取平均，表达式如下：

其中，K表示设结点代码单词数，e_n(1≤n≤k)表示第n个单词的向量用表示；

V_se占结点向量表示的100位，剩余的1位用于存放结点的类型信息，使用整数L表示第L种类型。

步骤2.2、嵌入CPG图，即使用Word2Vec嵌入CPG图的源代码token以表示源代码的语义信息：

步骤3、模型设计与训练：

漏洞检测定位模型为编码-解码结构，编码端基于GGNN生成嵌入表示数据的高级抽象表征，解码端使用自定义的注意力机制解析代码高级抽象并做出分类判断，同时，注意力机制将会给判断提供依据。训练时，将数据集按照4∶1比例划分训练数据集和测试数据集。

漏洞检测定位模型的数学式表述如下：

训练样本集定义为((c_i，y_i)|c_i∈ζ，y_i∈γ)，i∈{1，2，...，num_of_data}，c_i表示第i个Method代码，ζ表示Method代码集合，γ＝{0，1}ⁿ表示数据的标签集，y_i表示第i个样本的标签，0表示非漏洞，反之表示存在漏洞。

训练集第i个训练样本的图嵌入表示为g_i(V，X，A)∈ψ，ψ表示代码的CPG图嵌入集合，则：

g_i(V，X，A)＝EMB(c_i)

其中，EMB( )表示图嵌入操作，V表示样本所有的结点，设其数量为m；X表示所有结点的初始向量且

d表示每个结点的初始维度，第j个结点向量表示为

A表示图嵌入的邻接矩阵且A∈{0，1}^k×m×m，k表示子图种类编号，也表示CPG有几种类型的边，k＝3则表示有AST、CFG、DFG三种子图，每种子图的邻接矩阵都是(m，m)大小。

表示在第p类子图中，结点s，t是否相连，为1则存在由结点s指向结点t的一条有向边，反之为0则不存在。

学习一个从ψ到γ的一个映射f：ψ→γ来预测一个Method是否包含漏洞，由下式的最小化二分类交叉熵函数表示：

其中，L(·)表示交叉熵损失函数，λ(ω(f))表示防止过拟合的惩罚项，f表示学习的模型。

在得到一个图嵌入g_i(V，X，A)后，得到每个结点在输入GGNN前的初始状态

表达式如下：

其中，⊥表示转置，x_j表示每个结点，的初始向量，z表示结点的初始特征。在训练时，GGNN迭代T个时间步以使结点聚集邻域内结点的信息、并更新结点自身的状态，在每个时间步t＜＝T，每一种类的子图p的结点j的状态a_j，p通过与结点j在子图p相连接的结点信息计算得到，表达式如下：

其中，

表示m个结点经过GNN后最后的状态。

CPG的每个结点的信息表达式如下：

其中，AGG( )表示实际的综合方法，存在的可选项为{取平均、取最大、取和、拼接}，本发明采用了“取和”的方式。

GGNN之后通过门控循环单元GRU获得下一个时间步的结点状态：

在经过GGNN的迭代训练后，对整个CPG进行图级预测，判断是否为漏洞。

本发明参考文本分类的分层注意力设计进行解码端设计，下面以文档分类类比解释解码端构造。

文档由多组语句构成，每个语句又由若干单词组成。使用分层注意力机制的文档分类不仅可以判断每个语句对最终分类结果的影响权重，还可以给出句中每个单词对分类结果的影响权重。类似的，将CFG子图的结点视为一组语句，每个CFG结点的子结点组，即CFG结点下的全部AST结点，可以视为构成句子的单词，如此就可以利用分层注意力机制决定模型做出判断的句子级和单词级依据。

将模型设计为端到端的模型结构，其中编码端用于抽取源代码高级抽象特征，模型使用GGNN网络；解码端使用自定义的分层注意力网络解析代码高级抽象并作出判断。

如图7所示，为有关代码的基于DL算法的图神经网络模型整体架构示意图。

步骤3.1、数据划分与模型搭建

采用常用的数据划分比例将80％的数据作为训练集、其余作为测试集。在数据划分时随机打乱数据，并保证漏洞与非漏洞数据在训练集和测试集的比例相等。为充分使用数据，采用五折交叉验证的方式循环训练模型，划分数据时，为节省空间，可以按照索引号划分，等到一组数据将被训练时才加载数据。

使用Pytorch深度学习框架搭建模型，使用Deep Graph Library的内置库GatedGraphConv实现GGNN网络，设置dropout和L2正则化以避免过拟合。分层注意力网络参照文档分类研究的理论实现，设置单词级和语句级注意力层。

步骤3.2、编码端生成CPG高级抽象

编码端由GGNN网络构成，使用Deep Graph Library进行GGNN的数据整理和训练，设置CPG结点阈值500，超过500的结点将会被删除，删除结点的规则为：按照CFG广度优先遍历后的结点序列，把靠后的CFG结点及其孩子AST结点将会被删除。每个Batch的数据图的结点数为该Batch最大图的结点数，不足的被扩充。GGNN迭代时间步设置为6，隐藏状态大小为100。

在经过编码端GGNN的信息聚集、更新后，CPG图的每个结点都包含着源代码的高级抽象信息，接下来就是进行图级的分类预测。图级预测是将所有结点的嵌入进行全局聚合，如下式所示：

其中，[]表示拼接操作，用来将结点的最终状态和初始状态拼接起来，MLP是多层感知机，用来将拼接后的结点集状态映射到一个m维向量，Sigmoid函数用来处理该向量并进行最后的二分类；

表示结点集V中结点在GGNN中最终迭代的结果，是结点集V中结点在GGNN中最终迭代的结果，表达式如下：

或者，将V中每个结点进行若干步的卷积池化操作，再输入MLP进行分类。

步骤3.3、解码端的设计与实现

本发明的解码端利用分层注意力网络，由这几个部分组成：AST序列编码器、AST级注意力层、CFG序列编码器、CFG级注意力层和分类层。操作步骤是首先按照一定规则序列化所有结点，然后将序列化的结点送入双向GRU网络进行信息解码并最终做出分类判断。图7右侧展示了解码端的细节结构。

AST序列编码器：按照广度优先遍历的方式排列CFG结点，假设每个CPG的CFG结点为T_cfg个，用

表示，每个CFG结点的孩子AST结点有T_ast个，第i个CFG结点的AST子结点用

表示，这些AST结点也被序列排序在对应的CFG结点下。CFG结点类似于文档中的句子，对应的AST结点类似于句子里的单词。每个AST结点都会在一个正向GRU上获得一个隐藏状态

和一个逆向隐藏状态

然后就会得到AST结点经过AST序列编码器的状态

[·]表示拼接操作。

AST级注意力层：得到AST序列编码器的输出h_it后，由下面三式得到第i个CFG结点的新的表示s′_i，

u_it＝tanh(W_wh_it+b_w)

即，首先由一层MLP得到h_it的隐藏表示u_it，然后使用一个AST结点级别(单词级别)上下文向量u_w来衡量u_it的重要程度，并使用softmax函数归一化权重，最后，CFG结点级别(句子级别)表示s′_i通过加权求和各AST子结点状态得出。

CFG序列编码器：将第i个CFG结点的高级表示s_i与新的由AST结点得出的CFG结点表示s′_i拼接，得到[s_i，s′_i]作为CFG序列编码器的输入，其余操作与AST序列编码器类似：

每个CFG结点都在一个正向GRU上获得一个隐藏状态

和一个逆向隐藏状态

然后就会得到CFG结点经过CFG序列编码器的状态

CFG级注意力层：该层操作与AST级操作类似：

u_i＝tanh(W_sh_i+b_s)

u_s作用与u_w类似，但它是CFG级别的上下文向量，v是聚集了所有CFG结点信息的CPG向量，它是CPG的终极表示。

分类层：使用MLP实现最终的分类预测：

y＝sigmoid(W_Cv+_bc)。

步骤4、模型测试与评估

利用模型的测试指标分别使用子图和综合图进行实验，使用解码端以及无解码端直接进行整个图的信息聚合分类等。

模型测试的步骤和训练模型时基本一样，只是不再更新模型参数。另外，测试时并不能发现训练里没有的漏洞。

漏洞检测模型很重要的一个评测指标就是误报率和精准度，使用混淆矩阵来表示误报率，同时，它也是计算精准度pre、精确度acc，f1得分和召回率recall的基础。如表1所示，为混淆矩阵结构。它是预测值和实际值的计数的表格表示。

漏洞检测模型的整体预测准确率acc、漏洞检测模型的真正正样本预测为正样本的的比例pre、预测为正样本在全部正样本集合的比例recall、pre与recall的加权平均值f1，计算公式分别如下所示：

其中，TP(True Positive)表示分类器将正类预测为正的预测输出数量，TN(TrueNegative)表示分类器将负类预测为负的预测输出次数，FP(False Positive)表示分类器将负类预测为正的预测输出数量，FN(False Negative)表示分类器将正类预测为负的预测输出次数。

为了评估注意力机制的作用，本发明利用Java Juliet Test数据的特点和收集的开源项目漏洞数据集修改信息，设计了一种评估注意力机制效果的机制。如图2所示，为Juliet数据集漏洞发生行定位示例图。Java Juliet Test数据集在可能发生漏洞的代码行前都会有注释解释漏洞发生在该代码行及发生的原因。如图3所示，为commit修复diff信息示例图。展示了github开源项目commit修复漏洞时的diff信息，该信息其实指明了漏洞可能存在的代码行。有了这些漏洞发生的代码行信息后，Hit10就可以表示在按影响源代码分类结果的权重降序排列的前10％的代码行里有漏洞代码行被击中，类似的可以设置1％，5％，10％来显示注意力机制的效果。