CN117473510A

CN117473510A - 一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术

Info

Publication number: CN117473510A
Application number: CN202311804982.5A
Authority: CN
Inventors: 陈丹伟; 付翼鼎; 张舰飞; 王太愚; 罗圣美
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-01-30
Anticipated expiration: 2043-12-26
Also published as: CN117473510B

Abstract

本发明公开了一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术，采用自动化数据收集框架对Github的开源项目进行信息爬取，通过专家模型对提交的Commit进行判断是否与漏洞相关，利用代码的增删改对对应行的代码打上标记，再通过关键词提取完成初步筛选，获取五种CWE漏洞类型的训练样本和未分类样本组，提取漏洞特征和其与补丁关联特征后输入到Struc2Vec和DNN组成的模型框架中训练，完成模型初步训练后对未分类样本组进一步筛选，将筛选出来的样本加入训练集，剩余未分组等待下一轮训练完成，持续该流程直至不再有样本被划分到五种CWE漏洞中则样本完成分类，本发明能够显著表征更多维度的代码特征，更高效的学习漏洞代码特征。

Description

一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术

技术领域

本发明涉及对静态程序的自动化漏洞分析领域，具体涉及一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术。

背景技术

随着信息和自动化时代的到来,各类电子产品已经完全融入了人们的日常生活中。软件作为这些电子产品重要的一部分, 其安全问题也越来越受到广泛关注，由于软件设计不严谨和软件开发人员的水平受限等因素都可能导致软件含有漏洞(例如缓冲区溢出、整型溢出、格式化字符串攻击等)。这类漏洞严重影响系统安全，然而, 由于传统的缺陷检测需要专业人员花费较多的人力，人们对自动化漏洞检测的需求日益增长。

目前深度学习也已广泛用于漏洞检测，但是由于现实世界的漏洞样本满足不了深度学习所需的数量要求，所以目前广泛的选择都是使用合成样本，与实际项目的代码特征相差不小，且目前主流的方案都是对于目标代码的函数层级进行判断，并不能准确定位到漏洞代码的位置，这意味着仍然需要花费不少人力进行人工检查；目前流行的方法是将代码的各种表示形式如抽象语法树(AST)、程序依赖图(PDG)等转换成一个平铺的一维序列，然后使用深度学习模型，一般是卷积神经网络(Convolutional Neural Network，CNN)或循环神经网络(Recurrent Neural Network，RNN)，来学习代码的表示。然而，程序中包含复杂的上下文关系，将程序表示成一维序列很难学习程序中的结构和上下文信息。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术。

为实现上述发明目的，本发明采取如下技术效果：

一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术，包括如下步骤：

步骤S1、采用自动化数据收集框架对Github的开源项目进行信息爬取；

步骤S2、通过专家模型对提交的Commit进行判断是否与漏洞相关；

步骤S3、利用代码的增删改对对应行的代码打上标记，再通过关键词提取完成初步筛选，获取五种CWE漏洞类型的训练样本和未分类样本组；

步骤S4、提取漏洞特征和其与补丁关联特征后输入到Struc2Vec和DNN组成的模型框架中训练，完成模型初步训练后对未分类样本组进一步筛选；

步骤S5、将筛选出来的样本加入训练集，剩余未分组等待下一轮训练完成，持续进行重复筛选样本加入训练集、训练模型、再次筛选的过程，直至不再有样本被划分到五种CWE漏洞中则样本完成分类。

进一步的，所述专家模型由五个分类器组成：支持向量机、随机森林、k最近邻、逻辑回归和梯度提升；将提交信息和代码更改中提取的特征作为模型的输入，应用CP方法来评估个体分类器对给定输入的可信度，过滤掉可信度小于0.7的高不确定性预测；使用多数投票方案来汇总剩余的预测结果以生成最终结果。

进一步的，本发明将漏洞和补丁作为深度学习中的阳性样本和阴性样本，同时提取二者的关系信息；

首先需要对样本进行处理，使用LLVM编译器将其编译为IR，使用各自漏洞对应的自定义插件来分析IR生成图ePDG，标记潜在的表现点m_i和根本原因点，表现点为漏洞触发代码，根本原因点为导致漏洞出现的代码，将其中对表现点和漏洞点有影响的条件语句也进行标记，在补丁样本中修补漏洞时使用的if语句，将漏洞和补丁的关系添加进模型学习；

ePDG是一个多重图，定义为G:= (V,E,q,r)，其中V是一组节点，E是一组边，q和r分别是节点和边到类别和属性的映射；

其中q是将V中的节点映射到指令类别的映射，定义为q:V → {{c,a}: c∈C,a∈A_c}，C是LLVM指令API中所有类型的指令的集合；A_c是指令v∈V的类型c的所有属性的集合，包括算术运算中的静态值；调用指令的函数名称以及根本原因和表现标签；r是将E中的边映射到一对节点的映射，定义为：r:E → {{(x,y),d,b}: x,y∈V ,d∈D,b∈A_d}，其中D是边缘类型的集合，A_d是流类型d的流属性的集合；

再获取ePDG后开始使用BFS进行程序切片，从表现点的位置向后切割出一个指定深度的子图G_i，对子图的每个节点添加特征向量，边添加显示特征，提取特征后生成了与图G_i相同结构的G_i＇，之后将该图传递给Structure2Vector模型，通过两个节点之间的关联来预测表现点是否为漏洞点，最后将S2V模型输出的向量输入DNN二类分类器，输出一个大小为0到1的概率y来判断该节点的是否为漏洞表现点。

进一步的，所述深度学习模型包括两个端到端训练的组件：图嵌入网络M_G和深度神经网络分类器M_C，图嵌入网络M_G使用神经网络通过图的结构传递消息来生成节点嵌入，M_G的参数被调整以适应M_C的分类学习目标，即M_C(M_G(G′_i))=y，其中y是m_i是漏洞的概率；

M_G(G′_i)的执行包括从每个节点v_i ∈ V到其邻居v_j ∈ Γ(v_i)的多次消息传递迭代，其中来自节点v_i的消息采用矢量e_i的形式，在每次迭代开始时，使用神经网络根据其邻居的最后消息以及存储在该节点和关联边的特征向量预测第i个节点的下一个广播消息，所述节点特征向量x_vi ∈X_v，关联边特征向量x_{ei j} ∈X_e，其中X_v为节点特征矩阵， X_e为边特征矩阵，M_G(G′_i)的执行过程被建模为：

，

其中Wv和We是训练过程中学习参数矩阵，表示伽玛函数，σ是深度神经网络，单次的迭代以矩阵形式计算为：/>，E是包含当前节点嵌入的矩阵，经过niter次迭代，其中niter为超参数，用户提取指定；将E中的节点嵌入平均在一起，形成一个单一的嵌入向量，然后通过批量归一化层传递给M_C，

使用ReLU激活来帮助建模图中的复杂关系，函数定义为ReLU(x) = max(0, x)，其中 x 是输入值，如果 x 大于等于零，则 ReLU(x) 等于 x，否则等于零，

为训练M_G和M_c模型的参数，优化下列的学习目标函数：

，

其中L_CE是标准的交叉熵损失函数，y代表真实标签。

本发明相比现有技术，具有如下技术效果：

本发明能够显著表征更多维度的代码特征，更高效的学习漏洞代码特征。

附图说明

图1是本发明的漏洞检测模型；

图2是本发明的样本收集流程图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术中数据收集分为三个步骤：1.1训练数据生成；1.2模型训练；1.3使用模型。

1.1训练数据生成

首先从Github上托管的开源项目中提交的日志和补丁中提取信息。使用一套正则表达式（RE）规则来选择可能与漏洞相关的提交，收集后手动确认该漏洞是否已在CVE库中发布，如果是，则使用 CVE 编号建立与公共 CVE 描述的链接。否则手动提取包含漏洞的代码段、提交日志和问题报告，并将通过RE的代码修订标记为漏洞相关或无关，该手动检查只需一次既可用于训练模型，之后就可以用模型来收集数据。

构建良好的机器学习模型的一个关键方面是找到正确的特征来表征输入。对于该模型提取的特征为：（1）#stars；（2）#commits；（3）#releases；（4）#contributors；（5）contribution rate；（6）#branches，以及提交的信息和更改的代码。使用预先训练好的word2vec网络将提交消息和修改后的代码语句映射到嵌入向量中。生成的嵌入与项目质量和活动的特征值放在一起，形成聚合特征向量。

1.2模型训练

再向专家模型提供训练数据后它就会执行其内部监督学习算法，为了优化模型，使用CP（Conformal Prediction）来捕捉输入x的类标签y（即与漏洞相关或不相关）的“奇异性”（称为非一致性度量）。非一致性分数使用PyCP提供的函数A（x,y,h）进行估计。计算统计置信度，将10％的模型训练数据作为校准集（不用于训练专家模型），离线计算出校准分数a₁ ^yp，a₂ ^yp，···a_n ^yp，通过对校准集中的每个实例应用函数A，并使用模型h给出的每个类标签y的概率（y^p）。对于新输入的x_n+1，使用函数A计算出一致性分数a_n+1 ^yp后，计算出x_n+1的p值pv：

，

如果p值很小接近其下界1/(n+1)，则预测属于异常值，很大接近1则是非常一致，只考虑p值大于的预测，其中c根据经验可设为0.3。

1.3使用模型

离线训练好模型后，可使用Github API自动爬取并获取排名靠前的项目的代码提交，应用RE规则来选择可能与漏洞相关的代码提交，使用特征提取器来处理收集到的代码提交日志、补丁和项目相关信息，以形成特征向量，之后每个专家都会预测代码修订是否与漏洞修复相关，保留不合格分数大于置信水平的输出，最后根据剩余输出的简单多数投票达成最终共识。如果判断为相关，则与旧版本比较，将旧版本中删除的语句标记为漏电相关，新增的语句中去掉在删除语句中重复出现的语句后，标记为补丁相关。之后模型的使用需要对每一类漏洞都进行单独的训练，所以除了行级标记，还需要进行分类处理，首先提取日志描述的关键词，如果确切提出了CWE号或者漏洞类型则直接进行分类，得到了整数溢出（CWE-190）、堆栈和堆溢出（CWE-121、122）、使用后释放（CWE-416）和双重释放（CWE-415）这五类漏洞，以及未分类的“其他”样本，该类别在完成漏洞检测模型训练完成后再进行循环分类处理。

基于图的深度学习模型框架主要分为四步：2.1ePDG 生成，2.2采样，2.3特征提取，2.4模型训练和执行，可结合图1进行理解。为了实现分类功能，本发明设计对于每类漏洞都单独训练出各自的模型，这样准确高，也达到了分类的目的。

2.1 ePDG生成

首先使用LLVM将源代码S编译为LLVM IR，再利用LLVM中间优化器Opt自定义插件将IR转化为图ePDG， Opt插件会调用LLVM的内置控制流和数据流分析，然后对目标代码进行逐条指令的扫描。对于每条指令I_j，创建一个相应的节点vj ∈V和映射q_j ∈q：v_j。再使用LLVM的API提取有关I_j的语义信息以填充q_j的条目{c_j，a_j}（例如，操作、指令是否为条件分支等）。除了直接从LLVM的API获取的语义信息外，这些属性还包括调试信息（例如，源文件和行号），指示潜在根本原因和表现点标签，对这两点有影响的条件语句标签，以及用于模型训练的实际根本原因和表现点的标签，补丁样本中存在的实际补丁语句标签。

接下来进行第二次逐指令遍历，生成G中的控制流和数据流边。这是使用LLVM的API来识别指令的前驱/后继和定义/使用的值来确定的。对于给定指令的每个前驱和后继，生成一个相应的带有适当类型和属性的边e_j,_k∈E。控制流边被分配一个void数据类型，数据流边被分配一个与源节点（I_j）中值定义对应的数据类型。在完成对来自S的IR指令的两次遍历后，ePDG生成完成后以JSON格式输出G，以供下一步采样使用。

2.2采样

为了从G中提取样本，首先要识别给定CWE的表现节点mi，具体来说，对于整数溢出（CWE-190）是传递整数参数的任何函数调用；对于堆栈和堆溢出（CWE-121、122）分别是存储指令到局部内存或动态分配内存；对于使用后释放（CWE-416）是对动态分配内存的任何内存访问；对于双重释放（CWE-415），是对内存管理器的free函数的任何调用。

确定每一个潜在表现点mi后，使用广度优先搜索（BFS）从mi开始向后遍历G，直到预定义的深度ndepth为止（ndepth是用户定义的深度）生成子图Gi，由于mi是Gi的终止节点，所以相关的表现点将锚定在静态位置，有利于有效的消息传递和预测的本地化，通过获取节点的元数据q(m_i)。

对于从G中提取的每个G_i，根据表现点m_i在G_i中的基本事实，分配一个标签y ={negative，positive}。正向标签（易受攻击的）分配给源代码中的行，然后使用调试符号映射到IR。如果一行源代码包含多个潜在表现点，将标签应用于语句中的最后一个相关IR指令。相反，任何未标记为易受攻击的m_i在G中都会收到一个负标签。

特别说明，阳性样本使用的是漏洞代码，阴性样本使用的是补丁代码，二者因为是成对收集的数据，所以样本比例为1：1。

2.3 特征提取

这部分需要对生成的子图G_i提取节点特征和边特征，生成结构相同但是带有特征向量的G_i ^＇。在节点上捕捉执行的操作，如静态值、操作类型、基本功能以及指令是否是 if子句的一部分等特征。为了学习到原因点和表现点之间的关系，也就是使用该S2V模型检测漏洞的核心点，将二者之间的距离也作为特征提取，而原因点和表现点方式相同，采用启发式方法，具体来说，整数算术操作是整数溢出的潜在根本原因，堆栈和堆写入分别是堆栈和堆溢出的潜在根本原因，以及调用内存释放函数是使用后释放和双重释放的潜在根本原因。作为本发明的创新点，漏洞和补丁之间的关系也需要提取特征来进行学习，这里提取对这两点发挥影响的条件语句数量以及距离这两点最近的条件语句距离。除了距离关系外，还需指出该节点本身是否为潜在的根本原因或表现点。

在边特征上需要指示边的类型（控制流或数据依赖性）并捕获数据依赖性的数据类型，以便模型可以捕获哪种数据到哪里。通过了解静态值的流、外部输入（来自某些函数）及其数据类型，模型有足够的信息来预见（模拟）数据对程序的影响。

属性图G_i ^＇表现为(X_v,X_e,A,C): 节点特征矩阵 X_v、边特征矩阵 X_e、其邻接矩阵 A及其关联矩阵 C。

2.4 模型训练和执行

模型通过图神经网络的嵌入层（embedding layer）和分类器层（classifierlayer）来将输入图中的节点映射到类别概率分布上。

嵌入层（Embedding Layer）：模型定义一个嵌入层 embedding，其中使用指定的嵌入方法 embedding（使用Structure2Vector库中MeanFieldInference），该嵌入方法会根据节点和边的特征信息，将节点嵌入到一个低维向量空间中。

分类器层（Classifier Layer）：在嵌入层输出后，使用深度神经网络构建分类器，将嵌入向量映射到更高维的特征空间，以便进行分类任务。

输出层：最后，通过一个线性变换将分类器层的输出映射到最终的类别概率分布，对应着模型的预测结果。激活函数使用指定的激活函数ReLU。

而在输出层后，通过softmax对输出进行操作，将模型的输出转换为对数概率，用于多分类任务的损失计算。

总的来说，它将输入的图数据对象（节点特征和边特征）映射到类别概率分布上，通过嵌入层和分类器层进行特征提取和转换，并输出对各个类别的概率预测。

在自动数据收集框架的最后部分提到会存在类别为“其他”的未分类样本，由于这部分数据明确是与漏洞相关的，所以在初步训练完检测模型后，直接使用五种模型进行筛选，如果模型判断样本存在漏洞，则直接加入其所属类型的训练集，再训练集扩充后可进行第二轮学习，以此流程循环直至“其他”样本基本分类完成，具体可结合附图2理解。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术，其特征在于，包括如下步骤：

步骤S4、提取漏洞特征和其与补丁关联特征后输入到Struc2Vec和DNN组成的深度学习模型框架中训练，完成模型初步训练后对未分类样本组进一步筛选；

2.根据权利要求1所述的一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术，其特征在于，所述专家模型由五个分类器组成：支持向量机、随机森林、k最近邻、逻辑回归和梯度提升；将提交信息和代码更改中提取的特征作为模型的输入，应用CP方法来评估个体分类器对给定输入的可信度，过滤掉可信度小于0.7的高不确定性预测；使用多数投票方案来汇总剩余的预测结果以生成最终结果。

3.根据权利要求1所述的一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术，其特征在于，本发明将漏洞和补丁作为深度学习中的阳性样本和阴性样本，同时提取二者的关系信息；

4.根据权利要求1所述的一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术，其特征在于，所述深度学习模型包括两个端到端训练的组件：图嵌入网络M_G和深度神经网络分类器M_C，图嵌入网络M_G使用神经网络通过图的结构传递消息来生成节点嵌入，M_G的参数被调整以适应M_C的分类学习目标，即M_C(M_G(G′_i))=y，其中y是m_i是漏洞的概率；

，

其中W_v和W_e是训练过程中学习参数矩阵，表示伽玛函数，σ是深度神经网络，单次的迭代以矩阵形式计算为：/>，E是包含当前节点嵌入的矩阵，经过niter次迭代，其中niter为超参数，用户提取指定；将E中的节点嵌入平均在一起，形成一个单一的嵌入向量，然后通过批量归一化层传递给M_C，

使用ReLU激活来帮助建模图中的复杂关系，函数定义为ReLU(x) = max(0, x)，其中 x是输入值，如果 x 大于等于零，则 ReLU(x) 等于 x，否则等于零，

为训练M_G和M_c模型的参数，优化下列的学习目标函数：

，

其中L_CE是标准的交叉熵损失函数，y代表真实标签。