CN111177731A

CN111177731A - 一种基于人工神经网络的软件源代码漏洞检测方法

Info

Publication number: CN111177731A
Application number: CN201911363149.5A
Authority: CN
Inventors: 张军; 林观俊
Original assignee: Jiangsu Shendu Kongjian Information Technology Co ltd
Current assignee: Jiangsu Shendu Kongjian Information Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-19

Abstract

本发明公开了一种基于人工神经网络的软件源代码漏洞检测方法，本发明基于的深度学习和源于语言模型的词向量技术：使得代码的隐含模式能够自动的被深度学习的算法所习得，从而省去了人工提取特征的耗时和繁琐过程；进一步弱化了代码的处理和分析的复杂程度，从而节省代码处理和分析的时间投入。基于ELMo的深度学习构架能够直接接受源代码序列作为输入并输出预测结果，从真正意义上做到在源代码层面上的端到端的检测。

Description

一种基于人工神经网络的软件源代码漏洞检测方法

技术领域

本发明涉及软件源代码漏洞检测技术领域，具体为一种基于人工神经网络的软件源代码漏洞检测方法。

背景技术

软件漏洞检测技术作为一种预防性的攻击抵御措施，在计算机安全领域备受关注。而成本效益最高的举措就是在软件正式发布前进行软件漏洞检测。这样，可能被攻击者利用的漏洞可以提前被发现并被及时修复，从而避免用户的数据和服务受到攻击。

传统的软件漏洞检测技术可分为静态，动态和混合三类。静态分析技术如：基于规则匹配的筛选和符号执行是通过分析软件源代码来实现的。这些静态分析方法的缺陷是会产生较多的误报。动态的软件分析技术通常包括模糊测试和污点分析等，是需要将软件编译运行后才可实施。其主要优势就是误报率低，但是漏报率高。混合分析技术结合了静态和动态分析的优势，成为软件工程领域中较为先进的分析方式。但其缺点是往往需要分析人员同时具有软件源代码和编译环境，且在实际操作过程中步骤较为繁琐和复杂，分析效率有待提高。

近年来，机器学习和数据挖掘技术的广泛应用使得研究人员将目光投向了基于机器学习和模式识别的漏洞检测方法。采用传统机器学习技术的最大优势就是传统机器学习算法可以自动的学习软件代码漏洞的潜在和隐式模式。和人为设计的漏洞代码匹配规则相比，传统机器学习算法所学习的模式和规则具有更好的鲁棒性和泛化性。而且，这些模式和规则可以根据训练数据的不同而自动习得。但是，传统机器学习方法的最大局限在于算法所学习的特征需要专家提取。这就造成：1）特征选取的优劣很大程度决定了或者限制了算法的检测性能；2）特征提取过程操作繁琐。早期研究者，比如Neuhaus等人通过提取库引用和函数调用来提取相应的特征，进而预测有漏洞的软件模块。这样的特征能够很好的检测出由库引用和函数调用造成的软件漏洞。但是对于非库引用带来的漏洞则无能为力。所以，特征工程的质量就可能限制算法预测性能的发挥。为了保证提取特征的质量，特征工程参与者不得不对软件项目本身进行深入了解，这大大增加了特征参与者的门槛。同时，提取特征通常是一个劳动力密集型的工作，对人力和时间成本有较高的需求。例如，Chowdhury和Zulkernine，以及Shin等人的方案所依赖的特征主要来源于：软件代码复杂度度量，代码改动日志和预先发现的软件缺陷。这就要求研究者用各样工具去提取和分析软件代码复杂度，读取并处理软件版本控制系统日志等工作。对于数百人乃至千人参与开发的大型软件，读取并处理软件版本控制系统日志的工作量就及其可观。

发明内容

本发明的目的在于提供一种基于人工神经网络的软件源代码漏洞检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于人工神经网络的软件源代码漏洞检测方法，包括以下步骤：

A、需要先用带有标记的数据来训练一个完整的网络，该网络包含第1至第6层，即函数级别的词向量框架加上两层全连接网络；

B、同时将有标记的数据，即有标记的漏洞和正常函数以及没有标记的数据，即需要检测的是否具有漏洞函数的数据，同时输入到预训练好的网络中；

C、将这些有标记数据的特征作为输入喂给传统的机器学习算法；

D、最后，将未标记数据的特征输入训练好的分类器，得到分类结果。

优选的，所述步骤D中分类器训练方法如下：

a、通过计算机图形模型生成数据集，所述数据集包括多种场景类别的样本；

b、使用深度神经网络训练所述数据集来得到训练模型；

c、测试所述训练模型来得到各个场景类别的测试结果；

d、将测试结果中最低正确率对应的场景类别的信息反馈给所述计算机图形模型；

e、所述计算机图形模型修改与该场景类别对应的参数，生成关于该场景类别的新样本；以及将所述新样本添加到所述数据集中，完成分类器的训练。

优选的，所述步骤A中，对于训练的数据，先用少量具有标记的软件源代码的函数作为训练样本，即每一个训练的样本是一个正常或者是漏洞的函数源代码。

优选的，所述步骤B中，输入训练好的网络后取倒数第三层网络的输出作为有标记数据和未标记数据的抽象表达，该抽象表达就是这个函数级别词向量框架自动生成和学习的特征。

优选的，所述步骤C中机器学习算法采用随机森林算法，通过随机森林算法来训练一个分类器。

与现有技术相比，本发明的有益效果是：

（1）本发明基于的深度学习和源于语言模型的词向量技术：使得代码的隐含模式能够自动的被深度学习的算法所习得，从而省去了人工提取特征的耗时和繁琐过程；进一步弱化了代码的处理和分析的复杂程度，从而节省代码处理和分析的时间投入。基于ELMo的深度学习构架能够直接接受源代码序列作为输入并输出预测结果，从真正意义上做到在源代码层面上的端到端的检测。

（2）本发明最大的优势就是能够实现源代码序列作为输入，并输出检测结果。这种端到端的检测要归结于ELMo词向量能够直接将源代码转化为向量表达。同时，算法能够直接采用源代码作为输入，节省了代码分析和预处理的时间。

（3）本发明不需要人工提取特征：采用深度学习网络自动提取网络输出的抽象表达作为特征可以避免繁琐的特征工程。深度学习网络的多层结构可以对输入数据进行一个多层次的抽象和降噪。同时，深度学习的激活函数所引入的“非线性变化”有助于学习更加复杂的数据分部和数据的隐含模式。

（4）本发明不需要额外训练词向量网络：本发明所用的词向量层不需要像主流的Word2vec，FastText等词向量模型一样需要进行训练后才可以使用。虽然训练的过程是一个非监督的学习过程，不需要标记数据，但是在代码库（词库）庞大的应用场景中，训练往往需要大量的时间投入。

（5）本发明采用的是检测函数级别的漏洞数据。和软件模块或者软件文件级别的漏洞相比，检测函数级别的漏洞可以帮助开发和软件测试人员更快的定位到包含漏洞的代码块，缩少了人工进一步定位漏洞的范围，提高了漏洞检测效率。

附图说明

图1为本发明流程示意图；

图2为本发明对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于人工神经网络的软件源代码漏洞检测方法，包括以下步骤：

本发明中，所述步骤D中分类器训练方法如下：

b、使用深度神经网络训练所述数据集来得到训练模型；

c、测试所述训练模型来得到各个场景类别的测试结果；

本发明的分类器训练方法，可以提高分类器训练的准确性并且减少分类器训练的时间。

本发明中，步骤A中，对于训练的数据，先用少量具有标记的软件源代码的函数作为训练样本，即每一个训练的样本是一个正常或者是漏洞的函数源代码。

本发明中，步骤B中，输入训练好的网络后取倒数第三层网络的输出作为有标记数据和未标记数据的抽象表达，该抽象表达就是这个函数级别词向量框架自动生成和学习的特征。

本发明中，步骤C中机器学习算法采用随机森林算法，通过随机森林算法来训练一个分类器。

本发明通过一系列的实验验证了本方案的效果：

实验数据

实验方法：

首先在人工合成的漏洞数据库SARD上进行测试，对本发明和常用的开源静态代码检测工具Flawfinder进行对比，结果如图2所示。

结果表明，本发明通过函数级别的词向量框架提取的特征，不论是通过随机深林还是通过支持向量机分类，都取得了比开源的静态代码检测工具Flawfinder更好的性能。在图中的三个性能指标Precision(查准率)，Recall(查全率)和F1-score上，都全面领先。

其次，对比了采用本方案的ELMo词向量技术和主流的Word2vec词向量技术在Github开源软件上（三个开源软件FFmpeg，LibTIFF 和OpenSSL）的漏洞函数检测性能。其结果如下：

上表的结果显示，同样的网络结构，采用ELMo词向量技术网络检测漏洞函数的效果要优于采用Word2vec词向量技术的检测结果。比如，以FFmpeg软件项目为实验对象的时候，在采用ELMo的网络分类结果中，选取10个网络认为最可能为漏洞函数的样本（根据分类为漏洞的概率），有9个样本是真实的漏洞，只有1个误报。相比之下，采用Word2vec网络的有2个误报。当网络返回前100个最可能是漏洞的函数中，采用ELMo词向量的网络能够发现48个真实。

漏洞，但是Word2vec的网络只发现了32个真实漏洞。同样，在其他的软件项目上，采用ELMo的网络都表现出了更强的检测性能。由此可见，在我们的数据上，ELMo词向量技术在识别代码语义上，比Word2vec更有助于网络识别漏洞函数。

综上所述，本发明提出了ELMo词向量技术结合Bi-LSTM网络来识别函数级别的漏洞源代码。和传统的词向量技术相比，ELMo词向量技术能够更好的识别代码语义，尤其是能够通过上下文判别语义，使得所得出的向量具有更多更准确的信息，便于后续网络结构的学习。在ELMo的基础上，采用的双层的Bi-LSTM网络结构，识别代码的“上下文”依赖关系，试图捕捉可能由多行代码所构成的“漏洞模式”。实验结果表明，本方案和静态代码识别工具Flawfinder相比具有更好的识别漏洞函数的效果。

本发明基于的深度学习和源于语言模型的词向量技术：使得代码的隐含模式能够自动的被深度学习的算法所习得，从而省去了人工提取特征的耗时和繁琐过程；进一步弱化了代码的处理和分析的复杂程度，从而节省代码处理和分析的时间投入。基于ELMo的深度学习构架能够直接接受源代码序列作为输入并输出预测结果，从真正意义上做到在源代码层面上的端到端的检测；本发明最大的优势就是能够实现源代码序列作为输入，并输出检测结果。这种端到端的检测要归结于ELMo词向量能够直接将源代码转化为向量表达。同时，算法能够直接采用源代码作为输入，节省了代码分析和预处理的时间；本发明不需要人工提取特征：采用深度学习网络自动提取网络输出的抽象表达作为特征可以避免繁琐的特征工程。深度学习网络的多层结构可以对输入数据进行一个多层次的抽象和降噪。同时，深度学习的激活函数所引入的“非线性变化”有助于学习更加复杂的数据分部和数据的隐含模式；本发明不需要额外训练词向量网络：本发明所用的词向量层不需要像主流的Word2vec，FastText等词向量模型一样需要进行训练后才可以使用。虽然训练的过程是一个非监督的学习过程，不需要标记数据，但是在代码库（词库）庞大的应用场景中，训练往往需要大量的时间投入；本发明采用的是检测函数级别的漏洞数据。和软件模块或者软件文件级别的漏洞相比，检测函数级别的漏洞可以帮助开发和软件测试人员更快的定位到包含漏洞的代码块，缩少了人工进一步定位漏洞的范围，提高了漏洞检测效率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于人工神经网络的软件源代码漏洞检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于人工神经网络的软件源代码漏洞检测方法，其特征在于：所述步骤D中分类器训练方法如下：

b、使用深度神经网络训练所述数据集来得到训练模型；

c、测试所述训练模型来得到各个场景类别的测试结果；

3.根据权利要求1所述的一种基于人工神经网络的软件源代码漏洞检测方法，其特征在于：所述步骤A中，对于训练的数据，先用少量具有标记的软件源代码的函数作为训练样本，即每一个训练的样本是一个正常或者是漏洞的函数源代码。

4.根据权利要求1所述的一种基于人工神经网络的软件源代码漏洞检测方法，其特征在于：所述步骤B中，输入训练好的网络后取倒数第三层网络的输出作为有标记数据和未标记数据的抽象表达，该抽象表达就是这个函数级别词向量框架自动生成和学习的特征。

5.根据权利要求1所述的一种基于人工神经网络的软件源代码漏洞检测方法，其特征在于：所述步骤C中机器学习算法采用随机森林算法，通过随机森林算法来训练一个分类器。