CN107885999B

CN107885999B - 一种基于深度学习的漏洞检测方法及系统

Info

Publication number: CN107885999B
Application number: CN201711089352.9A
Authority: CN
Inventors: 金海�; 邹德清; 李珍; 王苏娟
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2019-12-24
Anticipated expiration: 2037-11-08
Also published as: CN107885999A

Abstract

本发明公开了一种基于深度学习的漏洞检测方法及系统，其中方法包括离线漏洞分类器训练和在线漏洞检测两部分。离线漏洞分类器训练的过程如下：对训练程序提取库/API函数调用候选代码段，给候选代码段添加类型标签，并将候选代码段转换为向量，这些向量输入到神经网络模型进行训练，最后输出漏洞分类器。在线漏洞检测的过程如下：对目标程序提取库/API函数调用候选代码段，并将候选代码段转换为向量，然后采用训练好的漏洞分类器来分类候选代码段，最后输出分类结果为含漏洞的代码段。本发明自动生成针对库/API函数调用的漏洞特征，不依赖于专家知识，不局限于漏洞类型，同时能显著降低目标程序中漏洞检测的误报率和漏报率，并给出漏洞位置。

Description

一种基于深度学习的漏洞检测方法及系统

技术领域

本发明属于漏洞检测研究中基于漏洞特征的漏洞检测领域，更具体地，涉及一种基于深度学习的漏洞检测方法及系统。

背景技术

目前绝大部分的安全问题是由不安全的代码导致的。尽管开发人员代码安全意识在提高，但软件中的安全问题仍日益突出。2010年，在Common Vulnerabilities andExposures(CVE)中登记了约4600个漏洞；2016年，登记了接近6500个漏洞，发布的漏洞数量成上涨趋势。因此，尽早地发现漏洞是解决软件安全问题的关键。

静态漏洞检测，由于具有检测速度快、较全面地考虑执行路径的信息等优点，被代码审计人员广泛用来发现软件源码中潜在的漏洞。其中，通过漏洞特征来检测漏洞是经常采用的方法。这种漏洞特征可以是专家分析得出的漏洞规则，也可以是从漏洞历史信息或漏洞代码学习得到的特征。

目前基于漏洞特征来检测漏洞的工具和研究主要分为3类。第一类是安全专家依据经验人工生成各类漏洞的特征。例如开源软件工具Flawfinder，RATS，ITS4等，商业软件工具Checkmarx，Fortify，CodeSonar，Coverity等以规则形式的各类漏洞特征。由于人工处理很难将各类漏洞的特征考虑全面，这些漏洞检测工具通常具有较高的误报率或漏报率。第二类是针对单一类型的漏洞，如格式化字符串漏洞、信息泄露漏洞、污点类型漏洞等，在单一类型漏洞原理的基础上借助传统机器学习等方法，半自动化生成该类漏洞的特征。这类方法受限于单一漏洞类型，且依赖该类漏洞的专家知识辅助生成特征。第三类是与漏洞类型无关的半自动化生成漏洞特征，需要专家定义属性，例如，词和词频、复杂度、代码变化、API和API子树、系统调用等，采用传统机器学习方法在函数、构件或文件等级别判断是否含有漏洞。该类方法需要专家定义刻画漏洞的属性，而且由于在函数、构件或文件等粗粒度级别，无法确定漏洞的具体位置。

发明内容

针对现有技术方案的缺陷或改进需求，考虑到大量软件安全问题与库/API函数的使用不当有关，本发明面向库/API函数调用，提供了一种基于深度学习的漏洞检测方法及系统，其目的在于，在不依赖于专家知识自动生成漏洞特征、不局限于漏洞类型、且能够定位的同时，显著降低漏洞检测的误报率和漏报率，解决现有的基于漏洞特征检测漏洞方法中存在的上述局限和不足。

为实现上述目的，按照本发明的一个方面，提出了一种基于深度学习的漏洞检测方法，其特征在于，所述方法包括：

一种基于深度学习的漏洞检测方法，包括：

(1)离线漏洞分类器训练步骤：对训练程序提取库/API函数调用候选代码段，给候选代码段添加类型标签，并将候选代码段转换为向量，将向量输入神经网络模型进行训练，得到漏洞分类器；

(2)在线漏洞检测步骤：对目标程序提取库/API函数调用候选代码段，将候选代码段转换为向量，采用训练好的漏洞分类器对候选代码段进行分类，输出含漏洞的代码段。

进一步地，步骤(1)具体包括以下步骤：

(1.1)提取库/API函数调用候选代码段：从训练程序中提取库/API函数调用；对于每个库/API函数调用，针对各参数分别生成程序切片，并将各参数的程序切片合并，生成库/API函数调用候选代码段；

(1.2)给候选代码段添加类型标签：对步骤(1.1)中得到的每个库/API函数调用候选代码段，若包含已知的漏洞代码，则添加有漏洞标签，否则添加无漏洞标签；

(1.3)将候选代码段转换为向量：通过除去非ASCII字符和注释，映射用户自定义变量名和函数名为符号名称，将步骤(1.1)中得到的每个库/API函数调用候选代码段表示为符号表征，通过词法解析将符号表征转换为单词序列，然后将单词序列编码为向量；

(1.4)训练神经网络模型：将步骤(1.3)得到的向量和步骤(1.2)得到的类型标签，输入到神经网络模型训练，得到训练好的漏洞分类器。

进一步地，所述步骤(1.1)生成程序切片的具体实施方式为：通过对程序进行词法、语法分析，生成过程间程序依赖图；对于每个接收外部输入的库/API函数调用，基于程序依赖图对各参数分别生成前向程序切片；对于每个不接收外部输入的库/API函数调用，基于程序依赖图对各参数分别生成后向程序切片。

进一步地，所述步骤(1.3)还通过调整单词个数使得向量的长度等于预定值，具体实现方式为：

对于采用前向程序切片生成的候选代码段，通过在向量的尾部填充0或截断来生成固定长度的向量；对于采用后向程序切片生成的候选代码段，通过在向量的前部填充0或截断来生成固定长度的向量。

进一步地，所述步骤(1.1)将各参数的程序切片合并的具体实施方式为：对于属于相同用户自定义函数的语句，按照语句在函数中出现的顺序合并，其中，重复的语句仅保留一条；对于属于不同用户自定义函数的语句，若在程序切片中这些用户自定义函数间已存在顺序，则按此函数顺序合并，否则采用随机的函数顺序合并。

进一步地，所述步骤(1.3)将每个库/API函数调用候选代码段表示为符号表征的具体实施方式为：从候选代码段中除去非ASCII字符和注释，映射每个用户自定义变量名为符号名称，映射每个用户自定义函数名为符号名称。

进一步地，所述步骤(1.3)的将单词序列编码为向量可采用word2vec、gensim、one-hot方法中的任意一种。

进一步地，所述步骤(1.4)的神经网络模型采用循环神经网络、双向循环神经网络、卷积神经网络中的任意一种。

一种基于深度学习的漏洞检测系统，包括：

离线漏洞分类器训练模块，用于对训练程序提取库/API函数调用候选代码段，给候选代码段添加类型标签，并将候选代码段转换为向量，这些向量输入到神经网络模型进行训练，最后输出训练好的漏洞分类器；

在线漏洞检测模块，用于对目标程序提取库/API函数调用候选代码段，并将候选代码段转换为向量，然后采用训练好的漏洞分类器来分类候选代码段，最后输出分类结果为含漏洞的代码段。

进一步地，所述离线漏洞分类器训练模块包括：

训练程序候选代码段提取模块，用于从训练程序中提取库/API函数调用，对于每个库/API函数调用，针对各参数分别生成程序切片，并将各参数的程序切片合并，生成库/API函数调用候选代码段；

训练程序候选代码段类型标记模块，用于对训练程序中每个库/API函数调用候选代码段，若包含已知的漏洞代码，添加有漏洞标签，否则添加无漏洞标签；

训练程序候选代码段向量生成模块，用于通过除去非ASCII字符和注释，映射用户自定义变量名和函数名为符号名称，将训练程序中每个库/API函数调用候选代码段表示为符号表征，通过词法解析将符号表征转换为单词序列，然后将单词序列编码为向量；

训练神经网络模型模块，用于将候选代码段的向量和候选代码段的类型标签，输入到神经网络模型训练，通过调节各参数，得到训练好的漏洞分类器。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要具备以下的技术优点：

(1)自动生成漏洞特征。相比于现有的基于漏洞特征的漏洞检测方案，本发明充分利用了深度学习的特点，自动学习库/API函数调用候选代码段的语义特征，不依赖于专家知识，且不局限于漏洞类型，使得漏洞特征生成完全自动化。

(2)高准确性。相比于现有的基于漏洞特征的漏洞检测方案，本发明面向库/API函数调用，采用神经网络模型，通过学习大量由程序切片生成的候选代码段的语义特征，以更低的误报率和漏报率来检测漏洞，并且能够定位漏洞代码的位置。

(3)高可扩展性。考虑到大量软件安全问题与库/API函数的使用不当有关，本发明面向库/API函数调用的相关漏洞。该方法同样适用于其他漏洞，用户只需要增加其他漏洞的关键点，并从关键点出发提取候选代码段即可，可扩展性非常高。

附图说明

图1为本发明实施例公开的一种基于深度学习的漏洞检测方法流程示意图；

图2为本发明实施例公开的一种提取库/API函数调用候选代码段的流程示意图；

图3为本发明实施例公开的一种将库/API函数调用候选代码段表示为符号表征的流程示意图；

图4为本发明实施例公开的一种基于深度学习的漏洞检测系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明的整体思路在于，针对库/API函数调用，提取由各参数程序切片合并而成的候选代码段，在训练阶段基于深度学习模型自动生成漏洞特征，不依赖于专家知识，使得漏洞特征生成完全自动化。同时，通过学习大量候选代码段的语义特征，以更低的误报率和漏报率来检测目标程序中的漏洞，并且能够定位漏洞代码的位置。

如图1所示为本发明实施例公开的一种基于深度学习的漏洞检测方法流程示意图，包括以下步骤：

(1)离线漏洞分类器训练步骤：对训练程序提取库/API函数调用候选代码段，给候选代码段添加类型标签，并将候选代码段转换为向量，这些向量输入到神经网络模型进行训练，最后输出训练好的漏洞分类器；

(2)在线漏洞检测步骤：对目标程序提取库/API函数调用候选代码段，并将候选代码段转换为向量，然后采用训练好的漏洞分类器来分类候选代码段，最后输出分类结果为含漏洞的代码段。

神经网络模型可采用循环神经网络(RNN，LSTM，GRU)、双向循环神经网络(BRNN，BLSTM，BGRU)、卷积神经网络(CNN)等中的任意一种，优选双向长短期记忆神经网络(BLSTM)。

作为一种较佳的实施方式，步骤(1)具体包括以下步骤：

(1.1)提取库/API函数调用候选代码段，参考图2所示：从训练程序中提取库/API函数调用，对于每个库/API函数调用，对各参数分别生成程序切片，之后将各参数的程序切片合并，生成库/API函数调用候选代码段。

生成程序切片的具体实施方式为：通过对程序进行词法语法分析，生成过程间(Interprocedural)程序依赖图。对于每个接收外部输入(如命令行、程序、套接字、文件等)的库/API函数调用，基于程序依赖图对各参数分别生成前向程序切片(即提取被参数影响的语句)；对于每个不接收外部输入的库/API函数调用，基于程序依赖图对各参数分别生成后向程序切片(即提取影响参数的语句)。

将各参数的程序切片合并的具体实施方式为：对于属于相同用户自定义函数的语句，按照语句在函数中出现的顺序合并，其中，重复的语句仅保留一条；对于属于不同用户自定义函数的语句，若在程序切片中这些用户自定义函数间已存在顺序，则按此函数顺序合并，否则采用随机的函数顺序合并。

(1.2)给候选代码段添加类型标签：对步骤(1.1)中得到的每个库/API函数调用候选代码段，若包含已知的漏洞代码，添加类型标签“1”(即有漏洞)，否则添加类型标签“0”(即无漏洞)；

(1.3)将候选代码段转换为向量：通过除去非ASCII字符和注释，映射用户自定义变量名或函数名为符号名称，将步骤(1.1)中得到的每个库/API函数调用候选代码段表示为符号表征，并通过词法解析将符号表征转换为单词序列，然后将单词序列编码为向量。

其中，对于采用前向程序切片生成的候选代码段，通过在向量后面填充0或截断来生成固定长度的向量，对于采用后向程序切片生成的候选代码段，通过在向量前面填充0或截断来生成固定长度的向量。

将每个库/API函数调用候选代码段表示为符号表征的具体实施方式为：除去非ASCII字符和注释，映射每个用户自定义变量名为符号名称(如“VAR1”，“VAR2”)，映射每个用户自定义函数名为符号名称(如“FUN1”，“FUN2”)，参考图3所示。

将单词编码为向量可采用word2vec、gensim、one-hot等工具或方法中的任意一种。

(1.4)训练漏洞分类器：将步骤(1.3)得到的向量和步骤(1.2)得到的类型标签，输入到神经网络模型训练，通过调节各参数达到最佳漏洞检测效果，得到训练好的漏洞分类器。

作为一种可选的实施方式，步骤(2)具体包括以下步骤：

(2.1)提取库/API函数调用候选代码段，与步骤(1.1)相似，不同之处在于针对的是目标程序；

(2.2)将候选代码段转换为向量，与步骤(1.3)相似，不同之处在于针对的是目标程序；

(2.3)依据步骤(1)输出的训练好的漏洞分类器，对步骤(2.2)得到的向量进行分类，若分类结果为“1”，则说明相应的代码含有漏洞，若分类结果为“0”，则说明相应的代码没有漏洞，最后输出所有漏洞代码段。

如图4所示为本发明实施例公开的一种基于深度学习的漏洞检测系统的结构示意图，包括以下模块：

其中，离线漏洞分类器训练模块包括：

训练程序候选代码段提取子模块，从训练程序中提取库/API函数调用，对于每个接收外部输入的库/API函数调用，对各参数分别生成前向程序切片，对于每个不接收外部输入的库/API函数调用，对各参数分别生成后向程序切片，之后将各参数的程序切片组合起来，生成库/API函数调用候选代码段；

训练程序候选代码段类型标记子模块，对训练程序中每个库/API函数调用候选代码段，若包含已知的漏洞代码，添加类型标签“1”(即有漏洞)，否则添加类型标签“0”(即无漏洞)；

训练程序候选代码段向量生成子模块，通过除去非ASCII字符和注释，映射用户自定义变量名为符号名称(如“VAR1”，“VAR2”)，映射用户自定义函数名为符号名称(如“FUN1”，“FUN2”)，将每个库/API函数调用候选代码段转换为符号表征，并通过词法解析将符号表征转换为单词序列，将每个单词采用word2vec、gensim、one-hot等任一工具或方法编码为向量，把候选代码段转换为固定长度(单词个数)的向量；

训练神经网络模型子模块，将候选代码段的向量和候选代码段的类型标签，输入到神经网络模型训练，通过调节各参数达到最佳漏洞检测效果，得到训练好的漏洞分类器。

其中，在线漏洞检测模块包括：

目标程序候选代码段提取子模块，从目标程序中提取库/API函数调用，对于每个接收外部输入的库/API函数调用，对各参数分别生成前向程序切片，对于每个不接收外部输入的库/API函数调用，对各参数分别生成后向程序切片，之后将各参数的程序切片合并，生成库/API函数调用候选代码段；

目标程序候选代码段向量生成子模块，通过除去非ASCII字符和注释，分别映射用户自定义变量名和函数名为符号名称，将每个库/API函数调用候选代码段表示为符号表征，并通过词法解析将符号表征转换为单词序列，将每个单词采用word2vec、gensim、one-hot等任一工具或方法编码为向量，把候选代码段转换为固定长度(单词个数)的向量；

候选代码段分类子模块，依据训练好的漏洞分类器，对目标程序的候选代码段向量进行分类，若分类结果为“1”，则说明相应的代码含有漏洞，若分类结果为“0”，则说明相应的代码没有漏洞，最后输出所有漏洞代码段。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的漏洞检测方法，其特征在于，包括：

(2)在线漏洞检测步骤：对目标程序提取库/API函数调用候选代码段，将候选代码段转换为向量，采用训练好的漏洞分类器对候选代码段进行分类，输出含漏洞的代码段；

步骤(1)具体包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤(1.1)生成程序切片的具体实施方式为：通过对程序进行词法、语法分析，生成过程间程序依赖图；对于每个接收外部输入的库/API函数调用，基于程序依赖图对各参数分别生成前向程序切片；对于每个不接收外部输入的库/API函数调用，基于程序依赖图对各参数分别生成后向程序切片。

3.根据权利要求2所述的方法，其特征在于，所述步骤(1.3)还通过调整单词个数使得向量的长度等于预定值，具体实现方式为：

4.根据权利要求1或2或3所述的方法，其特征在于，所述步骤(1.1)将各参数的程序切片合并的具体实施方式为：对于属于相同用户自定义函数的语句，按照语句在函数中出现的顺序合并，其中，重复的语句仅保留一条；对于属于不同用户自定义函数的语句，若在程序切片中这些用户自定义函数间已存在顺序，则按此函数顺序合并，否则采用随机的函数顺序合并。

5.根据权利要求1或3所述的方法，其特征在于，所述步骤(1.3)的将单词序列编码为向量采用word2vec、gensim、one-hot方法中的任意一种。

6.根据权利要求1所述的方法，其特征在于，所述步骤(1.4)的神经网络模型采用循环神经网络、双向循环神经网络、卷积神经网络中的任意一种。

7.一种基于深度学习的漏洞检测系统，其特征在于，包括：

在线漏洞检测模块，用于对目标程序提取库/API函数调用候选代码段，并将候选代码段转换为向量，然后采用训练好的漏洞分类器来分类候选代码段，最后输出分类结果为含漏洞的代码段；

所述离线漏洞分类器训练模块包括：