CN113901472B

CN113901472B - 一种双粒度轻量级的漏洞代码切片质量评估方法

Info

Publication number: CN113901472B
Application number: CN202111047801.XA
Authority: CN
Inventors: 张炳; 文峥; 赵宇轩; 赵旭阳; 任家东
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-08-08
Anticipated expiration: 2041-09-08
Also published as: CN113901472A

Abstract

本发明公开了一种双粒度轻量级的漏洞代码切片质量评估方法，属于信息安全技术领域，包括以下步骤：分类、预处理漏洞代码切片样本；使用窗口的单词、字符不同粒度，分割代码切片；建立评估特征向量；计算代码切片统计特征，建立切片数据集；建立轻量级评估模型；将切片数据集输入到轻量级评估模型，输出评估特征及评估指标。本发明通过单词、字符级别多种大小窗口分割代码切片，使用统计特征构建漏洞检测向量空间，提取代码切片中内隐的漏洞特征，解决了基于代码切片的漏洞检测技术中存在的未登录词嵌入问题，构建异质集成的轻量级评估模型，输出评估特征与多维评估指标，替代传统技术中的黑盒模型，提高了研究人员代码切片方法的研发、迭代效率。

Description

一种双粒度轻量级的漏洞代码切片质量评估方法

技术领域

本发明涉及信息安全技术领域，尤其是一种双粒度轻量级的漏洞代码切片质量评估方法。

背景技术

漏洞代码切片，通过分解大规模项目源码为仅含有漏洞相关代码的较小代码切片，消除复杂软件项目中不相关源码对漏洞检测结果的干扰。漏洞代码切片新方法的有效性需要经过模型评估来证明。

现有漏洞检测场景中，代码切片方法评估技术分为编码模型评估技术、机器学习模型评估技术、深度学习模型评估技术三类：编码模型评估技术主要使用word2vec、词袋、TF-IDF等模型；机器学习模型评估技术主要使用支持向量机、随机森林、朴素贝叶斯等模型；深度学习模型评估技术主要使用循环神经网络、长短期记忆网络、双向长短期记忆网络等模型。

现有漏洞代码切片质量评估技术存在的主要问题如下：

1、代码切片信息抽取不彻底：支持向量机、随机森林等传统机器学习模型收敛速度快、内存占用小。但是，文本形式的代码切片需要经过复杂的词嵌入过程才能作为此类模型的输入。ELMo、Bert等深度学习解决技术自身集成了词嵌入过程，但训练需要大量标注数据与高性能计算的支持，使用时也需投入一定的模型微调时间。

2、技术复杂度高且泛化能力差：解决词嵌入问题是发明漏洞代码切片质量评估技术的前提。解决未登录词OOV问题是解决代码词嵌入问题的关键。OOV问题为：在实际漏洞检测场景中，若代码序列中出现了训练数据集中未出现过的单词，将出现编码失败错误。若建立包含所有标志符的代码语料库，编程语言中的自定义标识符，将导致代码语料库无限大，出现词表爆炸问题。若使用固定标识符替代不常见词汇，会进一步恶化OOV问题。若为每个漏洞代码切片方法评估任务人工定制代码语料库，会导致较高的技术复杂度与极差的泛化能力，代码切片研究者可能要承担较重的研究负荷。

3、模型评估过程开环无反馈：假设代码切片中出现代表文件名称的自定义标识符“GPFilename”。传统的深度学习模型可能将该文件名分解为“GP、Fil、en、ames”，或直接将该标识符映射为“Var_n”。其技术手段牺牲了原代码的可解释性，丢失了代码切片的语义信息，研究人员只能基于黑盒的评估模型判断新切片方法是否有效，却无法获取新方法为什么有效、如何改进新方法的相关信息，难以明确人工验证与改进方向。

发明内容

本发明需要解决的技术问题是提供一种双粒度轻量级的漏洞代码切片质量评估方法，输出评估特征及评估指标，提高了研究人员代码切片方法的研发、迭代效率。

为解决上述技术问题，本发明所采用的技术方案是：

一种双粒度轻量级的漏洞代码切片质量评估方法，包括以下步骤：

步骤1，分类、预处理漏洞代码切片样本；

步骤2，使用若干个双粒度窗口，分割步骤1获取的代码切片；

步骤3，根据步骤2分割后的代码切片建立评估特征向量；

步骤4，根据步骤3获得的评估特征向量计算代码切片统计特征，建立切片数据集；

步骤5，建立轻量级评估模型；

步骤6，将步骤4获得的切片数据集输入到步骤5建立的轻量级评估模型，输出评估特征及评估指标。

本发明技术方案的进一步改进在于：步骤1中，分类依据为漏洞代码切片包含的漏洞类型，其中，不包含漏洞也作为一种类型；

所述预处理漏洞代码切片样本的方法为删除代码中所有运算符，并将代码切片中所有标识符驼峰化。

本发明技术方案的进一步改进在于：步骤1中，代码切片语料长度为A，A为大于等于50小于等于200的正整数。

本发明技术方案的进一步改进在于：步骤2中，所述双粒度窗口包括字符级别窗口和单词级别窗口。

本发明技术方案的进一步改进在于：所述字符级别的窗口大小为B字符，数量为H；所述单词级别的窗口大小为C单词，数量为H；其中，B为大于等于3小于等于5的正整数，C为大于等于1小于等于3的正整数，H为大于等于2小于等于3的正整数。

本发明技术方案的进一步改进在于：步骤3中，建立评估特征向量，包括以下子步骤：

3.1根据字符窗口分割后的代码切片，使用统计模型，计算得到字符重要性度量值，构建字符关键词集合，字符关键词数量为D；

3.2根据单词窗口分割后的代码切片，使用与子步骤3.1中相同的统计模型，计算得到单词重要性度量值，构建单词关键词集合，单词关键词数量为E；

3.3根据字符关键词集合与单词关键词集合，使用水平拼接的特征融合技术，建立评估特征向量，其中前D个分量为字符关键词集合中元素，后E个分量为单词关键词集合中元素。

本发明技术方案的进一步改进在于：所述字符关键词数量D，D为大于等于1000小于等于1500的正整数；所述单词关键词数量E，E为大于等于100小于等于150的正整数。

本发明技术方案的进一步改进在于：步骤4中，根据评估特征向量，使用代码切片样本匹配，若评估特征向量的分量出现在样本中，则分量对应位置记为F，F为正实数，使用与步骤3.1中相同的统计模型，计算其在样本中的重要性度量值，作为F，反之，记为0，生成序列；含有漏洞的样本在序列后追加1，反之，追加0，作为样本特征数据；所有代码切片样本的样本特征数据，作为切片数据集。

本发明技术方案的进一步改进在于：步骤5中，选择不同种类基础机器学习分类器并联作为中间层，其中基础机器学习分类器数量为G，G为大于等于2小于等于5的正整数，选择一种线性的基础机器学习分类器作为输出层，将中间层与输出层串联，作为轻量级评估模型。

本发明技术方案的进一步改进在于：步骤6中，切片数据集作为轻量级评估模型中间层所有基础机器学习分类器的输入，输出评估特征为评估特征向量，评估指标为误报率FPR、漏报率FNR、召回率Recall、准确率P、F1值F1。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明通过字符、单词双层次提取不同粒度、不同窗口大小的代码切片特征，保留代码切片中隐含的漏洞信息并提升相关语义依赖的提取效果。

2、本发明在词嵌入阶段，使用统计模型计算得到的单词与字符重要性度量，构建代码切片向量，绕过了传统技术需要解决的OOV问题，提升代码切片向量表征过程效率。

3、本发明在嵌入后数据处理阶段，通过不同基础分类器的优势和异构性，提高评估模型的预测精度和泛化能力。

4、本发明通过输出代码切片评估中模型依据的评估特征向量，确定正确分类代码切片的突出特征，提高评估模型可解释性，指导研究人员进一步删减代码切片中仍存的干扰项，优化切片方法。

附图说明

图1是本发明评估方法流程图；

图2是本发明中建立评估特征向量的子流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步详细说明：

如图1所示，一种双粒度轻量级的漏洞代码切片质量评估方法，具体包括以下步骤：

步骤1，分类、预处理漏洞代码切片样本。

分类依据为漏洞代码切片包括的漏洞类型，其中，不包含漏洞也作为一种类型；预处理漏洞代码切片样本的方法为删除代码中所有运算符，并将代码切片中所有标识符驼峰化；代码切片语料长度为A，A为大于等于50小于等于200的正整数。

本实施例是从NVD数据集与SARD数据集，使用Vuldeepecker切片方法，得到含有缓存区溢出漏洞的代码切片10400个，不含漏洞的代码切片39753个，共计50153个。

步骤2，使用若干个双粒度窗口分割代码切片。

双粒度窗口包括不同大小的字符级别窗口、单词级别窗口，其中，字符级别的窗口大小为B字符，数量为H。单词级别的窗口大小为C单词，数量为H，其中，B为大于等于3小于等于5的正整数，C为大于等于1小于等于3的正整数，H为大于等于2小于等于3的正整数。

本实施例中使用字符级别的窗口3个，窗口大小分别为3、4、5个字符；使用单词级别的窗口3个，窗口大小分别为1、2、3个单词。

若存在代码行“memcopy(bufstrlen)”，则窗口大小分别为1、2、3的单词级窗口分割后的代码行依次为：“memcopy,(,buf,str,len,)”、“memcopy(,(buf,bufstr,strlen,len)”、“memcopy(buf,(bufstr,bufstrlen,strlen)”。

窗口大小分别为3、4、5的字符级窗口分割后的代码行依次为：“mem,cop,y(b,ufs,tr l,en)”、“memc,opy(,buf s,tr le,n)”、“memco,py(bu,f str l,en)”。

步骤3，建立评估特征向量。

如图2所示，建立评估特征向量，包括以下子步骤：

3.1根据字符窗口分割后的代码切片，使用统计模型，计算得到字符重要性度量值，构建字符关键词集合，字符关键词数量为D，D为大于等于1000小于等于1500的正整数。

本实施例中，根据字符窗口分割后的代码切片，使用TF-IDF统计模型，计算得到字符逆文档频率，作为字符重要性度量值。使用字符重要性度量值排序分割结果后，前1500个字符，作为关键词集合。

3.2根据单词窗口分割后的代码切片，使用与子步骤3.1中相同的统计模型，计算得到单词重要性度量值，构建单词关键词集合，单词关键词数量为E，E为大于等于100小于等于150的正整数。

本实施例中根据单词窗口分割后的代码切片，使用与TF-IDF统计模型，计算得到单词逆文档频率，作为单词重要性度量值。使用单词重要性度量值排序分割结果后，前150个单词，作为单词关键词集合。

本实施例中，根据字符关键词集合与单词关键词集合，使用水平拼接的特征融合技术，建立评估特征向量，其中前1500个分量为字符关键词集合中元素，后150个分量为单词关键词集合中元素。

步骤4，计算代码切片统计特征，建立切片数据集。

根据评估特征向量，使用代码切片样本匹配，若评估特征向量的分量出现在样本中，则分量对应位置记为F，F为正实数，使用与步骤3.1中相同的统计模型，计算其在样本中的重要性度量值，作为F，反之，记为0，生成序列；含有漏洞的样本在序列后追加1，反之，追加0，作为样本特征数据；所有代码切片样本的样本特征数据，作为切片数据集。

本实施例中根据评估特征向量，使用50153个代码切片样本匹配，若评估特征向量的分量出现在样本中，则分量对应位置记为该分量在此代码切片样本中的TF-IDF值，反之，记为0，生成序列；含有漏洞的10400个样本在序列后追加1，反之，追加0，作为样本特征数据；50153个代码切片样本的样本特征数据，组成切片数据集。

步骤5，建立轻量级评估模型。

选择不同种类基础机器学习分类器并联作为中间层，其中基础机器学习分类器数量为G，G为大于等于2小于等于5的正整数，选择一种线性的基础机器学习分类器作为输出层，将中间层与输出层串联，作为轻量级评估模型。

本实施例中选择逻辑回归、决策树、支持向量机、随机森林四种基础机器学习分类器并联作为中间层，选择逻辑回归分类器作为输出层，将中间层与输出层串联，作为轻量级评估模型。

步骤6，将切片数据集输入到轻量级评估模型，输出评估特征及评估指标。

切片数据集作为轻量级评估模型中间层所有基础机器学习分类器的输入，输出评估特征为评估特征向量，评估指标为误报率FPR、漏报率FNR、召回率Recall、准确率P、F1值F1，其计算公式为：

其中，TP表示含有漏洞的代码切片被分类器检测成功的数量，FP表示不含漏洞的代码切片被分类器误检测的数量，TN表示为不含漏洞的代码切片被分类器正确识别的数量，FN表示为含有漏洞的代码切片未被分类器识别的数量。

本实施例中输出评估指标为误报率FPR为2.7％、漏报率FNR为11.4％、召回率Recall为88.6％、准确率P为92.1％、F1值F1为90.3％。缓存区溢出漏洞代码切片输出的部分评估特征为：“bufstrlen”“bufstrlenbuf”“char malloc”“char array size”“free”“fun2 strlen”。

综上所述，本发明通过单词、字符级别多种大小窗口分割代码切片，使用统计特征构建漏洞检测向量空间，提取代码切片中内隐的漏洞特征，解决了基于代码切片的漏洞检测技术中存在的未登录词嵌入问题，构建异质集成的轻量级评估模型，输出评估特征与多维评估指标，替代传统技术中的黑盒模型，提高了研究人员代码切片方法的研发、迭代效率。

Claims

1.一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：包括以下步骤：

步骤1，分类、预处理漏洞代码切片样本；

步骤3，根据步骤2分割后的代码切片建立评估特征向量；

步骤3中，建立评估特征向量，包括以下子步骤：

3.3根据字符关键词集合与单词关键词集合，使用水平拼接的特征融合技术，建立评估特征向量，其中前D个分量为字符关键词集合中元素，后E个分量为单词关键词集合中元素；

步骤4中，根据评估特征向量，使用代码切片样本匹配，若评估特征向量的分量出现在样本中，则分量对应位置记为F，F为正实数，使用与步骤3.1中相同的统计模型，计算其在样本中的重要性度量值，作为F，反之，记为0，生成序列；含有漏洞的样本在序列后追加1，反之，追加0，作为样本特征数据；所有代码切片样本的样本特征数据，作为切片数据集；

步骤5，建立轻量级评估模型；

2.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：步骤1中，分类依据为漏洞代码切片包含的漏洞类型，其中，不包含漏洞也作为一种类型；

3.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：步骤1中，代码切片语料长度为A，A为大于等于50小于等于200的正整数。

4.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：步骤2中，所述双粒度窗口包括字符级别窗口和单词级别窗口。

5.根据权利要求4所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：所述字符级别的窗口大小为B字符，数量为H；所述单词级别的窗口大小为C单词，数量为H；其中，B为大于等于3小于等于5的正整数，C为大于等于1小于等于3的正整数，H为大于等于2小于等于3的正整数。

6.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：所述字符关键词数量D，D为大于等于1000小于等于1500的正整数；所述单词关键词数量E，E为大于等于100小于等于150的正整数。

7.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：步骤5中，选择不同种类基础机器学习分类器并联作为中间层，其中基础机器学习分类器数量为G，G为大于等于2小于等于5的正整数，选择一种线性的基础机器学习分类器作为输出层，将中间层与输出层串联，作为轻量级评估模型。

8.根据权利要求1所述的一种双粒度轻量级的漏洞代码切片质量评估方法，其特征在于：步骤6中，切片数据集作为轻量级评估模型中间层所有基础机器学习分类器的输入，输出评估特征为评估特征向量，评估指标为误报率FPR、漏报率FNR、召回率Recall、准确率P、F1值F1。