CN115357909B

CN115357909B - 一种用于代码漏洞检测的全局信息感知图神经网络系统

Info

Publication number: CN115357909B
Application number: CN202211279030.1A
Authority: CN
Inventors: 高翠芸; 陈玉盼; 肖京; 王轩; 王磊; 廖清; 赵盟盟; 文昕成
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-05-16
Anticipated expiration: 2042-10-19
Also published as: CN115357909A

Abstract

本发明提供了一种用于代码漏洞检测的全局信息感知图神经网络系统，包括关系代码表示模块和全局信息感知模块；关系代码表示模块在图卷积神经网络信息聚合过程中添加边类型信息，用边类型信息丰富节点特征表示，并使用注意力机制增强节点特征；全局信息感知模块在图卷积神经网络中使用大核卷积和小核卷积分别提取代码属性图中的全局特征和局部特征，学习更抽象高级的图表征用于代码漏洞分类。本发明的有益效果是：本发明能缓解传统图神经网络难以有效捕获大图图表征的缺陷，有效地学习代码量大的函数的代码属性图的向量表示并提升漏洞检测的准确率和F1指标。

Description

一种用于代码漏洞检测的全局信息感知图神经网络系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于代码漏洞检测的全局信息感知图神经网络系统。

背景技术

软件开发中的安全漏洞隐患会给社会和经济带来灾难性的影响，及时准确地发现软件漏洞至关重要。传统的漏洞检测技术基于动态分析或者静态分析，包括符号执行、模糊测试、污点分析、代码相似性检测等，这些方法存在假阳性率高或者执行代价大等问题，并且要求审计人员精通安全领域知识。目前深度学习技术能从大量数据中自动学习规则和特征，在软件漏洞检测任务上展现了可行性和有效性。为充分利用代码固有的结构特征，很多工作提取代码的抽象语法树、控制流图、数据流图等结构并利用图神经网络学习代码的图表征用于分类。尽管基于图神经网络的模型在代码漏洞检测取得了最先进的性能，它们仍面临着图神经网络不能有效捕获代码结构全局信息的挑战。

已有的基于代码图结构的漏洞检测技术一般采用图神经网络（GNNs）来学习代码的图表示，然而图神经网络通常使用邻域聚合更新节点表示，为避免过量的邻域聚合带来的过平滑问题，图神经网络通常只训练几层，导致其只能关注到图中的局部信息，对于节点数量较多的大图无法有效地捕捉全局信息，这些问题会影响图神经网络在软件漏洞检测中的性能。

发明内容

本发明提供了一种用于代码漏洞检测的全局信息感知图神经网络系统，包括关系代码表示模块和全局信息感知模块；

关系代码表示模块在图卷积神经网络信息聚合过程中添加边类型信息，用边类型信息丰富节点特征表示，并使用注意力机制增强节点特征；

全局信息感知模块在图卷积神经网络中使用大核卷积和小核卷积分别提取代码属性图中的全局特征和局部特征，学习更抽象高级的图表征用于代码漏洞分类。

作为本发明的进一步改进，所述关系代码表示模块由层组成，每一层包括三个子层，三个子层分别是：关系图卷积神经网络子层、多头注意力子层、前馈神经网络子层。

作为本发明的进一步改进，在关系代码表示模块，代码属性图，其中V表示节点集合，，E表示边集合，R表示边类型集合；对于任一节点，使用Word2Vec模型获得初始化的向量表示：，其中d为向量维度；源节点和目的节点之间的边用三元组表示，其中表示边类型；在第层中，先通过关系图卷积神经网络子层更新节点表示，公式如下：

其中，是以节点为目的节点且边的类型为的源节点的集合，是节点对于边类型的归一化常数，可在训练中学习得到；、分别是第层节点和节点的向量表示，和是可训练参数矩阵。

本发明的有益效果是：本发明能克服传统图神经网络难以有效捕获大图图表征的缺陷，有效地学习代码量大的函数的代码属性图的向量表示并提升漏洞检测的准确率和F1指标；具体为，本发明能缓解传统图神经网络难以有效学习量大的代码属性图的缺陷，在本领域的三个常用数据集（FFMPeg+Qemu、Reveal和Fan et al）上，能提升0.39%-35.32%的漏洞检测准确率和7.64%-199.81%的F1指标。

具体实施方式

本发明公开了一种用于代码漏洞检测的全局信息感知图神经网络系统，包括关系代码表示模块、全局信息感知模块。

关系代码表示模块：关系代码表示模块在图卷积神经网络信息聚合过程中添加边类型信息，用边类型信息丰富节点特征表示，并使用注意力机制增强节点特征；该模块基于图卷积神经网络和多头注意力机制学习代码属性图的节点表示和不同类型的边表示以及不同节点之间的关系。

全局信息感知模块：该模块在图卷积神经网络中使用大核卷积和小核卷积分别提取代码属性图中的全局特征和局部特征，学习更抽象高级的图表征用于代码漏洞分类。

关系代码表示模块

关系代码表示模块由层组成，每一层包括三个子层：关系图卷积神经网络子层、多头注意力子层、前馈神经网络子层。代码属性图，其中V表示节点集合，，E表示边集合，R表示边类型集合。对于任一节点，本发明使用Word2Vec模型获得初始化的向量表示，其中d为向量维度。源节点和目的节点之间的边用三元组表示，其中表示边类型。在第层中，先通过关系图卷积神经网络子层更新节点表示，公式如下：

其中，是以节点为目的节点且边的类型为的源节点的集合，是节点对于边类型的归一化常数，可在训练中学习得到。分别是第层节点和节点的向量表示，是可训练参数矩阵。

中聚合了邻域节点和边类型的信息，本发明通过多头注意力子层进一步提取代码属性图中的高级特征，公式如下：

其中，表示节点对节点的注意力系数，分别是由切分成H份后的第k部分向量，H表示多头注意力机制的头数，表示每个头的向量维度。softmax表示softmax激活函数，在经过softmax正则化后，被约束在[-10,10]以保持数值的稳定性。表示节点的邻居节点集合，表示第层中第k个头的权重矩阵，Concat表示将多个头计算的向量拼接起来，表示第层节点的初始输入向量。

多头注意力子层获得的输出进一步输入到前馈神经网络子层中：

其中，作为第层节点的输出，作为关系代码表示模块中第层的输入。表示可训练的参数矩阵，ReLU表示正则化。表示中第p个特征维度的值，表示同一个代码属性图中所有节点第p个特征维度的平均值，表示同一个代码属性图中所有节点第p个特征维度的方差。是可学习的参数，用于线性变换，决定了图神经网络在导出的平均值中保留信息所需的权重大小。

全局信息感知模块

经过关系代码表示模块，每个节点获得了不同类型边增强的向量表示，为了缓解GCN无法有效捕获全局信息的缺陷，本发明设计全局信息感知模块，在GCN中同时使用大核卷积和小核卷积分别提取代码属性图中的全局信息和局部信息，公式如下：

其中，是全局信息感知模块的输入，Concat表示将关系表示模块最后一层所有节点的向量表示拼接起来获得整个图的向量表示。Conv表示卷积核为1的卷积操作，BN表示批标准化操作。、分别表示卷积核为N的大卷积层和卷积核为M的小卷积层，。是常数偏置项。在实验中，本发明设置。

接下来，本发明使用池化、两个全连接层以及softmax进行分类，公式如下：

其中，Avgpool表示平均池化操作，softmax表示softmax激活函数，y表示模型预测的结果。分别表示两个全连接层可训练参数，本发明在训练中使用交叉熵损失函数、RAdam优化器来更新参数。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种用于代码漏洞检测的全局信息感知图神经网络系统，其特征在于，包括关系代码表示模块和全局信息感知模块；

全局信息感知模块在图卷积神经网络中使用大核卷积和小核卷积分别提取代码属性图中的全局特征和局部特征，学习更抽象高级的图表征用于代码漏洞分类；

所述关系代码表示模块由层组成，每一层包括三个子层，三个子层分别是：关系图卷积神经网络子层、多头注意力子层、前馈神经网络子层；

在关系代码表示模块，代码属性图，其中V表示节点集合，，n为代码属性图中节点数量；E表示边集合，R表示边类型集合；使用Word2Vec模型对节点向量表示进行初始化：，其中表示任一节点的初始化节点向量表示，为向量维度；源节点和目的节点之间的边用三元组表示，其中表示边类型；在第层中，先通过关系图卷积神经网络子层更新节点表示，公式如下：

其中，是以节点为目的节点且边的类型为的源节点的集合，是节点对于边类型的归一化常数，可在训练中学习得到；、分别是关系代码表示模块第层获得的节点和节点的向量表示，和是可训练参数矩阵，表示非线性激活函数，表示经过第层关系图卷积神经网络子层更新后的节点的节点向量表示。

2.根据权利要求1所述的全局信息感知图神经网络系统，其特征在于，中聚合了邻域节点和边类型的信息，通过多头注意力子层进一步提取代码属性图中的高级特征，公式如下：

其中，表示节点对节点的注意力系数，和分别是由和切分成份后的第部分向量，表示多头注意力机制的头数，表示每个头的向量维度；表示softmax激活函数；表示节点的邻居节点集合，表示第层中第个头的权重矩阵，表示将多个头计算的向量拼接起来，表示经过第层多头注意力子层更新后的节点的节点向量表示。

3.根据权利要求2所述的全局信息感知图神经网络系统，其特征在于，在关系代码表示模块，在经过正则化后，被约束在[-10,10]以保持数值的稳定性。

4.根据权利要求2所述的全局信息感知图神经网络系统，其特征在于，多头注意力子层获得的输出进一步输入到前馈神经网络子层中：

其中，作为第层节点的输出，作为关系代码表示模块中第层的输入；、表示可训练的参数矩阵，表示正则化；表示中第p个特征维度的值，表示同一个代码属性图中所有节点第p个特征维度的平均值，、和是可学习的参数，和用于线性变换，决定了图神经网络在导出的平均值中保留信息所需的权重大小。

5.根据权利要求1至4任一项所述的全局信息感知图神经网络系统，其特征在于，全局信息感知模块在图卷积神经网络中使用大核卷积和小核卷积分别提取代码属性图中的全局特征和局部特征，公式如下：

其中，是全局信息感知模块的输入，表示将关系表示模块最后一层所有节点的向量表示拼接起来获得整个图的向量表示；表示卷积核为1的卷积操作，表示批标准化操作；、分别表示卷积核为N的大卷积层和卷积核为M的小卷积层，；和是常数偏置项。

6.根据权利要求5所述的全局信息感知图神经网络系统，其特征在于:N=11,M=3。

7.根据权利要求5所述的全局信息感知图神经网络系统，其特征在于:在全局信息感知模块中，使用池化、两个全连接层以及进行分类。

8.根据权利要求7所述的全局信息感知图神经网络系统，其特征在于，在全局信息感知模块中，使用池化、两个全连接层以及进行分类的公式如下：

其中，表示平均池化操作，表示softmax激活函数，表示模型预测的结果；、和、分别表示两个全连接层可训练参数，在训练中使用交叉熵损失函数、RAdam优化器来更新参数。