CN114065210A

CN114065210A - 一种基于改进的时间卷积网络的漏洞检测方法

Info

Publication number: CN114065210A
Application number: CN202111257188.4A
Authority: CN
Inventors: 蔡赛华; 陈锦富; 林薇; 王维佳; 王姝慧
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-18

Abstract

本发明提供了一种基于改进的时间卷积网络的漏洞检测方法。包括：步骤1，分析C/C++源代码的数据依赖和漏洞关键点，对源代码进行切片，并标记代码切片是否含有漏洞；步骤2：使用word2vec方法将代码切片转换为token向量序列；步骤3：按照8:2的比例对代码切片划分训练集和测试集，将训练集送入改进的时间卷积网络进行训练，使用测试集进行测试，建立漏洞检测模型；步骤4：对于待检测的源代码，按照步骤1的方式对源代码进行切片，按照步骤2的方式生成每个代码切片的token向量序列，将token向量序列输入训练好的网络模型，得到漏洞检测结果。

Description

一种基于改进的时间卷积网络的漏洞检测方法

技术领域

本发明属于软件漏洞检测领域，涉及一种基于改进的时间卷积网络的漏洞检测方法。

背景技术

软件技术的飞快发展和用户需求的日益新增使得软件内部的逻辑也逐渐变得复杂，这也增加了出现软件漏洞的可能。一旦存在软件漏洞，攻击者可以利用这些漏洞攻击软件系统，从而威胁用户安全，因此由软件漏洞引发的安全问题引起了高度重视。漏洞大多是由不安全的代码造成的，尤其是开源代码的漏洞问题会得到广泛的传播。在软件的生命周期中，越早检测出软件中存在的漏洞会减少损失，因此，针对源代码的漏洞检测具有重要的意义。

近些年，随着深度学习技术的快速发展，深度学习也被大量应用于漏洞检测中。与传统的机器学习方法相比，深度学习能够从结构性数据中自动提取高级特征，从而减少了特征提取的工作量。此外，深度学习方法自动提取的抽象特征表示比手工提取的特征具有更好的泛化能力。针源代码的时序性，学者们利用能够并行处理时序数据的时间卷积网络(Temporal convolutional network，TCN)来检测源代码漏洞。TCN通过堆叠不同膨胀率的膨胀因果卷积，灵活地扩大网络的感受野，这使得TCN能够更好地捕获源代码中的较长的依赖关系。与循环神经网络(recursive neural network，RNN)的变体不同，TCN在每个时间步长的权重是同时更新的，因此具有较好的并行性。然而，源代码中存在大量的语句是与漏洞无关的，由于这些无关语句的干扰，原始的TCN在输出层学到的源代码的高级特征往往不足以正确地检测漏洞。其次，原始的TCN是一种单向的结构，源代码是作为文本，更需要使用双向网络结构来捕获上下文语义。

针对TCN对代码漏洞检测效果不佳的问题，本发明提出了BiTCN_DRSN模型。针对代码中存在与漏洞无关的语句，BiTCN_DRSN模型利用深度残差收缩网络(Deep ResidualShrinkage Networks，DRSN)来减少代码片段中与漏洞信息无关的特征。DRSN能够注意到与漏洞信息无关的特征，通过软阈值化降低与漏洞信息无关的特征对高层特征的影响。；而且，因为它的收缩阈值是通过神经网络到的，因此其软阈值化更加灵活。同时，BiTCN_DRSN模型针对TCN单向性的局限性，利用前向序列学习和后向序列学习，将两个方向学习出来的特征进行非线性融合，使得网络能够使用两个方向上的信息进行漏洞检测。本发明提出的模型既能够使神经网络更加注重与漏洞相关的源代码特征，又能够解决TCN单向结构对源代码双向结构学习能力不足的问题。

发明内容

针对源代码的时序性，TCN模型具有能够并行处理数据、感受野灵活、梯度稳定等优势。但是，TCN模型的单向结构不能充分地捕获源代码的双向特征，此外TCN的残差连接方式也不能很好地剔除源代码中与漏洞检测任务无关的特征信息。我们针对这两点对TCN做出改进。

本发明提供了一种基于改进的时间卷积网络的漏洞检测方法，包括：

步骤1，分析C/C++源代码的数据依赖和漏洞关键点，对源代码进行切片，并标记每个代码切片是否含有漏洞；

步骤2，使用word2vec方法将代码切片转换为token向量序列；

步骤3，按照8:2的比例对代码切片划分训练集和测试集，以token向量序列为输入，以切片是否有漏洞为标签，将训练集送入改进的时间卷积网络进行训练，使用测试集进行测试，建立漏洞检测模型；

步骤4，对于待检测的源代码，按照步骤1的方式对代码进行切片，按照步骤2的方式生成每个代码切片的token向量序列，将token向量序列输入训练好的网络模型，得到每个代码切片的漏洞检测结果。

第一方面，上述步骤1中获取代码切片的具体步骤如下：

步骤1.1，获取代码漏洞关键点所涉及的变量，作为关键变量；

步骤1.2，根据关键变量，分析源代码数据依赖，抽取语义相关的代码语句，生成待检测的代码切片；

步骤1.3，使用Func_/Variable_加数字的方法来替换用户自定义的函数名和变量名；

步骤1.4，对每个代码切片标记标签，即标记该代码切片是否含有漏洞。

第二方面，上述步骤2的具体步骤如下：

步骤2.1，使用word2vec将每个代码切片中的token转换成长度为100的向量，并将向量连接生代码切片对应的向量序列；

步骤2.2，设置代码切片的截断长度n；

步骤2.3，如果一个代码切片的token数量小于n并且是对应于可能影响关键变量的语句，那么就在向量序列的开头填充零向量至长度为n；如果一个代码切片的token数量小于n并且是对应于受相关参数影响的语句，那么就在向量序列的尾部填充零向量至长度为n；如果一个代码切片的token数量大于n并且是对应于可能影响关键变量的语句，那么删除向量序列的开头向量至长度为n；如果一个代码切片的token数量大于n并且是对应于受相关参数影响的语句，那么就删除向量序列的尾部至长度为n。

第三方面，上述步骤3的具体步骤如下：

步骤3.1，按照8:2的比例对代码切片划分训练集和测试集；

步骤3.2，构建基于深度残差收缩网络(Deep Residual Shrinkage Network，DRSN)的时间卷积网络(Temporal convolutional network based on DRSN, TCN_DRSN)，在时间卷积网络的残差块中添加DRSN中的通道阈值学习模块，用于学习每个通道对应的阈值，然后对膨胀因果卷积学习到的特征进行软阈值化， TCN_DRSN残差块个数是5，膨胀基数分别是1,2,4,8,16；

步骤3.3，构建双向TCN_DRSN(Bidirectional TCN_DRSN,BiTCN_DRSN) 神经网络模型，将切片后的代码片段的向量序列和转置后的代码片段的向量序列分别输入两个TCN_DRSN中，再分别全局最大池化TCN_DRSN输出的结果；然后使用全连接层和Relu激活函数对池化后的特征进行非线性变化，并对两个全连接层的输出进行拼接；接着将拼接的结果通过softmax层进行识别代码片段是否含有漏洞；

步骤3.4，按照步骤3.3将步骤2.3获得的数据输入神经网络模型中进行训练，获得最终的漏洞检测模型。

第四方面，上述步骤3中构建神经网络的具体流程如下：

整个神经网络主要包括输入层、隐藏层以及输出层三部分。输入层主要是将代码切片的token向量序列和经过逆转后的代码切片的token向量序列输入到神经网络中；隐藏层部分包含两个TCN_DRSN，两个最大池化层，两个全连接层，一个连接层。输入层中正向和逆向的token向量序列分别传给TCN_DRSN、池化层学习两个方向的代码特征，然后通过全连接层和连接层融合两个方向的特征。其中，TCN_DRSN先将经过膨胀因果卷积的输出矩阵中的每个元素取绝对值，然后进行全局平均池化；接着，依次通过全连接层，批标准化层、Relu激活函数、全连接层、sigmoid激活函数，计算出每个通道的阈值系数，将阈值系数与前面全局平均池化后的张量相乘获得阈值。将取绝对值后的矩阵的每个通道都减去对应的阈值，得到向零方向进行收缩后的特征。如果减去自己的阈值后元素值小于0，则该元素值取0。最后矩阵中每个元素值乘上原来矩阵中对应元素的正负符号，从而得到软阈值化后的特征。输出层采用了softmax激活函数，用于检测输入的代码切片是否含有漏洞。

与现有技术相比，本发明有益的效果：

1、提出一种结合DRSN的TCN模型，将DRSN中基于通道阈值的残差收缩模块加入TCN中，减少与漏洞无关的源代码语句和冗余信息对源代码漏洞识别的影响，提高了软件漏洞检测的准确率。

2、针对TCN单向性不能满足文本双向结构的局限性，提出了双向的基于 DRSN的TCN模型--BiTCN_DRSN，该模型符合源代码双向的特性，可以捕获源代码从前到后和从后向前的信息，更好地捕捉双向的语义依赖，进一步提高了源代码漏洞检测的效果。

附图说明

图1是一种基于改进的时间卷积网络的漏洞检测方法的总体流程图。

图2是改进的时间卷积网络的模型结构图。

图3是TCN_DRSN的模型结构图。

图4是本发明实验环节所用数据样本集信息。

图5是BiTCN_DRSN模型，TCN_DRSN和TCN模型漏洞检测有的效性比较。

图6是BiTCN_DRSN模型和卷积神经网络(convolutional neural networks，CNN)，RNN的变体在测试集上准确率比较。

图7是BiTCN_DRSN模型和CNN，RNN的变体在测试集上false-positiverate

(FPR)比较。

图8是BiTCN_DRSN模型和CNN，RNN的变体在测试集上false-negativerate

(FNR)比较。

图9是BiTCN_DRSN模型和CNN，RNN的变体在测试集上精确度比较。

图10是BiTCN_DRSN模型和CNN，RNN的变体在测试集上F1-measure比较。

图11是BiTCN_DRSN模型和CNN，RNN的变体在BE-ALL数据集上的每次迭代的损失值。

图12是BiTCN_DRSN模型和CNN，RNN的变体在RM-ALL数据集上的每次迭代的损失值。

图13是BiTCN_DRSN模型和CNN，RNN的变体在HY-ALL数据集上的每次迭代的损失值。

具体实施方式

下面结合附图和实施案例对本发明作进一步说明，应指出的是，所描述的实施案例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明旨在针对软件漏洞检测，提出一种基于改进的时间卷积网络的漏洞检测方法，以有效对软件漏洞进行检测。发明提供了完善的特征提取模型和软件漏洞测框架，并且进行了充分的实验，证明了方法的可行性和有效性。

如图1所示，本发明的一种基于改进的时间卷积网络的漏洞检测方法，包括：

步骤201对数据集中的C/C++源代码进行数据依赖分析，定位漏洞关键点，对代码进行切片，并标记代码切片是否含有漏洞。

本发明实施案例中代码切片的目的在于，通常软件源代码的行数是相当多的，如果使用整个源代码进行漏洞检测，检测范围较大，也不利于神经网络的学习。如果基于源代码文件或者源代码函数体进行漏洞检测，检测范围仍然较大，不利于跨文件和跨函数的漏洞检测。根据数据依赖对代码进行切片能够缩小漏洞检测的范围，实现细粒度的代码漏洞检测，并且使代码切片中的语句相关性更强，有利于神经网络学习漏洞的特征。

步骤2011获取源代码中漏洞关键点所涉及的变量，作为关键变量；

步骤2012根据关键变量，分析代码数据依赖，抽取与关键变量语义相关的代码语句，生成待检测的代码切片；

步骤2013使用Func_/Variable_加数字的方法替换代码切片中用户自定义的函数名和变量名；

步骤2014对每个代码切片标记标签，即标记该代码切片是否含有漏洞。

步骤202使用word2vec方法嵌入token，将每个代码切片转换为token向量序列。

步骤2021使用word2vec将每个代码切片中的token嵌入成长度为100的向量，并将向量连接生代码切片对应的向量序列；

步骤2022设置代码切片的截断长度n；

步骤2023如果一个代码切片的token数量小于n并且是对应于可能影响关键变量的语句，那么就在向量序列的开头填充零向量至长度为n；如果一个代码切片的token数量小于n并且是对应于受相关参数影响的语句，那么就在向量序列的尾部填充零向量至长度为n；如果一个代码切片的token数量大于n并且是对应于可能影响关键变量的语句，那么删除向量序列的开头向量至长度为n；如果一个代码切片的token数量大于n并且是对应于受相关参数影响的语句，那么就删除向量序列的尾部至长度为n。

本发明实施案例中对代码进行填充和截断的目的在于，过小的截断长度会导致大量的特征丢失造成较高的误报率和漏报率，过长的截断长度并不能显著地提高模型检测能力，因此采用合适的截断长度，尽量地保留代码的特征，从而获取能够输入神经网络模型的相同大小的矩阵。

步骤203按照8:2的比例对代码切片划分训练集和测试集，将训练集送入改进的时间卷积网络进行训练，使用测试集进行测试，建立漏洞检测模型。

步骤2031对生成的代码切片按照8:2的比例划分成训练集和测试集；

步骤2032构建基于深度残差收缩网络(Deep Residual Shrinkage Network，DRSN)的时间卷积网络(Temporal convolutional network based on DRSN, TCN_DRSN)，在时间卷积网络的残差块中添加DRSN中的通道阈值学习模块，用于学习每个通道对应的阈值；

其中，阈值计算的流程包括：

(1)先将膨胀因果卷积层的输出的矩阵中的每一个元素取绝对值。然后，将全局平均池化应用于取绝对值后的矩阵，生成一维的矢量。假设膨胀因果卷积层的输出为矩阵X∈R^T×K，其中，T为token设置的数量，K为卷积核的数量。那么平均池化后的矢量X_mean∈R^K计算公式为：

其中，X_i表示X中第i行特征，|·|表示第i行特征中每个元素取绝对值的操作。

(2)将一维矢量依次传播到全连接层，批标准化层、Relu激活函数和全连接层，最后使用sigmoid激活函数将每个通道的阈值系数缩放到(0,1)的范围。通道的阈值系数生成的公式为：

其中，Z∈R^K表示第二层全连接层的输出，scales∈R^K表示通道的的阈值系数。

(3)最后获得基于通道的阈值，计算公式为：

τ＝scales*X_mean

其中*表示两个矢量元素乘积的操作。

软阈值化的流程如下：

(1)对于取绝对值后的矩阵中的每一个通道减去对应的阈值，得到向零方向进行收缩后的特征。

(2)如果减去自己的阈值后元素值小于0，则该元素值取0。最后矩阵中每个元素值乘上原来矩阵中对应元素的正负符号，从而得到软阈值化后的特征。

软阈值化的核心公式为：

其中，x表示输入特征，阈值为τ，y表示经过软阈值化后的输出特征。

步骤2033构建双向TCN_DRSN--BiTCN_DRSN模型，将切片后的代码片段的向量序列和转置后的代码片段的向量序列分别输入两个TCN_DRSN中，再分别全局最大池化TCN_DRSN输出的结果。然后使用全连接层和Relu激活函数对池化后的特征进行非线性变化，方式如下：

其中，

和

是全局最大池化后获得前向特征向量和后向特征向量，

和

是经过非线性变化后的前向特征和后向特征，W₁,W₂∈R^K×K表示权重矩阵，b₁,b₂∈R^K表示偏置值，σ(·)表示激活函数。该模型使用的激活函数是Relu，公式如下：

接着，需要对学习到的两个特征进行融合，方法如下：

其中，Concatenate方法表示连接操作，拼接TCN_DRSN学习到的两个特征。

最后，将学习到的融合特征输入softmax层进行识别。

步骤204对于待检测的源代码，按照步骤2011，步骤2012和步骤2013的方式对源代码进行切片，按照步骤202的方式生成每个代码切片的token向量序列，将token向量序列输入训练好的网络模型，得到漏洞检测结果。

本发明主要针对软件漏洞进行检测，我们收集了内存缓冲区操作不当漏洞(CWE119)的源代码和资源管理错误相关漏洞(CWE399)的源代码。图4展示了我们实验所用的数据集分布。其中，BE-ALL数据集表示CWE-119类型漏洞的代码片段的数据集，RM-ALL数据集表示CWE-399漏洞类型的代码片段的数据集，HY-ALL数据集混合了CWE-119漏洞类型的代码片段和CWE-399漏洞类型的代码片段。

由于本发明是对TCN进行改进，因此为验证我们所提出的BiTCN_DRSN模型能提高TCN模型的漏洞检测能力，我们分别使用TCN、TCN_DRSN和 BiTCN_DRSN模型在上述的三个数据集上进行对比实验，其对比的结果如图5 所示。通过观察图5，TCN_DRSN模型的检测准确率、精确度、F1-measure均高于TCN模型，FNR和FPR均低于TCN模型。这证明了TCN_DRSN模型的源代码漏洞检测能力相对于TCN模型是有所提高的，即证明了TCN中结合 DRSN在漏洞检测方面的有效性。其次，实验结果表明本发明的检测能力相对于原始TCN模型和TCN_DRSN模型的检测能力也是有所提升的，这证明了双向网络能够更好地学习源代码的特征。

此外，我们还和CNN，RNN的变体进行了比较。其中CNN方面我们对比了串联的一维CNN。RNN方面，我们比较了长短期记忆(Long Short Term Memory， LSTM)，门控循环单元(Gated Recurrent Unit，GRU)，双向LSTM(Bidirectional LSTM，BiLSTM)，双向GRU(Bidirectional GRU，BiGRU)这四种神经网络。其中，BiLSTM在漏洞检测中非常流行的。比较的结果如图6-10所示。我们观察到，在BE-ALL数据集和RM-ALL数据集上，串联的一维CNN的准确率、FPR、精确度和F1-mesure指标取得的结果是优于RNN的变体的。在HY-ALL数据集上GRU和BiGRU的检测能力是优于串联的一维CNN的。LSTM的准确率、精确度和F1-measure是最低的。尽管BiTCN_DRSN模型在BE-ALL数据集上的 FNR会比BiGRU略高，但是其在BE-ALL数据集、RM-ALL数据集和HY-ALL 数据集上的准确率、精确度和F1-measure这三个指标都是最高的，FNR是最低的。综合来看，我们所提出的BiTCN_DRSN模型具有较好的漏洞检测能力。

为进一步展示本发明的性能，我们还比较了上述BiTCN_DRSN模型和串联的一维CNN，RNN的变体的训练收敛情况。图11-13展示了上述不同这五种神经网络和我们所提出的BiTCN_DRSN模型在BE-ALL数据集、RM-ALL数据集和HY-ALL数据集上的10次迭代过程中损失的变化情况。针对BE-ALL数据集和HY-ALL数据集，在10次迭代中，BiTCN_DRSN模型的损失值均低于其他的神经网络模型。针对RM-ALL数据集，尽管在迭代等于1的时候，BiTCN_DRSN 模型的损失值略低于串联的一维CNN，但是在其他的迭代次数上，BiTCN_DRSN 模型的损失值均低于其余的神经网络模型。在三个数据集上，在迭代等于5的时候，BiTCN_DRSN模型就收敛了，并处于较低值。在三个数据集上，串联的一维CNN在迭代等于5的时候损失也趋于平稳。在BE-ALL数据集和HY-ALL数据集上，LSTM、GRU、BiLSTM和BiGRU的损失在迭代等于7的时候开始收敛。在RM-ALL数据集上LSTM、GRU、BiLSTM和BiGRU的损失在迭代等于 8的时候趋于平稳。我们的发明能够较快地达到较低的损失，网络模型收敛性较好。

Claims

1.一种基于改进的时间卷积网络的漏洞检测方法，其特征在于，包括如下步骤：

步骤2，使用word2vec方法将代码切片转换为token向量序列；

步骤3，按照一定的比例对代码切片划分训练集和测试集，以token向量序列为输入，以切片是否有漏洞为标签，将训练集送入改进的时间卷积网络进行训练，使用测试集进行测试，建立漏洞检测模型；

2.如权利要求1所述的一种基于改进的时间卷积网络的漏洞检测方法，其特征在于，所述步骤1中，获取代码切片的具体实现包括如下步骤：

步骤1.4，对每个代码切片标记标签，即该代码切片是否含有漏洞。

3.如权利要求1所述方法，其特征在于，所述步骤2的具体实现包括如下步骤：

步骤2.2，设置代码切片的截断长度n；

4.如权利要求1所述方法，其特征在于，所述步骤3的具体实现包括如下步骤：

步骤3.1，按照8:2的比例对代码切片划分训练集和测试集；

步骤3.2，构建基于深度残差收缩网络DRSN的时间卷积网络TCN_DRSN，在时间卷积网络的残差块中添加DRSN中的通道阈值学习模块，用于学习每个通道对应的阈值，然后对膨胀因果卷积学习到的特征进行软阈值化，TCN_DRSN残差块个数是5，膨胀基数分别是1,2,4,8,16；

步骤3.3，构建双向TCN_DRSN神经网络模型，将切片后的代码片段的向量序列和转置后的代码片段的向量序列分别输入两个TCN_DRSN中，再分别全局最大池化TCN_DRSN输出的结果；然后使用全连接层和Relu激活函数对池化后的特征进行非线性变化，并对两个全连接层的输出进行拼接；接着将拼接的结果通过softmax层进行识别代码片段是否含有漏洞；