CN110825642B

CN110825642B - 一种基于深度学习的软件代码行级缺陷检测方法

Info

Publication number: CN110825642B
Application number: CN201911092161.7A
Authority: CN
Inventors: 杨小虎; 曹靖; 刘力华; 张昕东; 鄢萌; 夏鑫
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-01-01
Anticipated expiration: 2039-11-11
Also published as: CN110825642A

Abstract

本发明公开了一种基于深度学习的软件代码行级缺陷检测方法，属于软件代码缺陷检测领域，该方法具体包括：(1)master分支中基于类的ATS提取，(2)ATS集合预处理，(3)LSTM模型训练，(4)开发分支ATS集合提取与检测，(5)ATS异常概率排序。该方法的模型代码处理粒度可达代码行级别，可对代码片段做缺陷检测，能够有效捕捉代码中相关Token的前后关联，可利用已有其他代码仓库中的相关代码信息。

Description

一种基于深度学习的软件代码行级缺陷检测方法

技术领域

本发明属于软件代码缺陷检测领域，具体地涉及一种基于深度学习的软件代码行级缺陷检测方法。

背景技术

代码缺陷检测一直是软件工程领域的研究热点。FindBugs是一种基于规则匹配的缺陷检测工具，其通过检查类或jar文件，将字节码与一组缺陷模式进行对比以发现可能的问题。Commit Guru是一种基于特征的变更级缺陷检测工具，其通过人工定义特征，通过机器学习建模，从而判断新提交的代码变更缺陷的可能性。Bugram是一种基于代码统计特性的代码行级缺陷检测工具，其通过N-gram算法计算源代码中Token的异常概率，以检测代码缺陷。但这些方法都有其各自的缺点

1.规则难以覆盖所有缺陷情况；

2.代码处理粒度太大，无法对代码片段做缺陷检测；

3.无法有效捕捉代码中Token关联；

4.无法有效利用其他代码仓库代码信息；

这些问题广泛存在于其他的代码克隆检测工具中。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度学习的软件代码行级缺陷检测方法。

本发明是通过以下技术方案实现的：一种基于深度学习的软件代码行级缺陷检测方法，具体包括如下步骤：

步骤一：master分支中基于类的ATS提取

master分支中的每一个Java文件通过AST解析为一棵语法树，Java文件中的每一个方法为所述语法树上的一棵子树，记为MST，通过遍历MST，得到MST所代表该部分源代码的API执行流程。针对指定类，从解析到的代码执行流程中提取出指定类在MST中的所有API使用序列，即ATS；多个ATS构成ATS集合。

步骤二：ATS集合预处理

使用基于Skip-gram算法的分布式语义模型，将步骤一指定类下的所有APIToken训练为d维的词向量，以此来捕捉所述ATS集合中各API token在向量空间下的关联。

步骤三：LSTM模型训练

将步骤一中提取到的ATS集合，按所属类分类，得到若干个ATS集，针对每一个ATS集训练一个LSTM模型，直到所述LSTM模型训练至损失函数收敛为止。

步骤四：开发分支ATS集合提取与检测

将Git仓库切换至开发分支，使用步骤一和二中的方法从开发分支中提取指定类所属的ATS集合，将得到的ATS集合输入步骤三中训练好的对应LSTM模型，得到各ATS的异常概率结果，具体过程为：

ATS_c＝{api₁,api₂,…,api_k,EOF} (3)

其中，EOF为结束标识符，

按顺序将Token输入LSTM模型中，每一Token：api_i输入之后，LSTM模型输出其下一个Token为api_i+1的概率p_i，且EOF不输入模型。对k个Token经过LSTM模型后预测输出的概率{p₁,p₂,…,p_k}取平均值，遍得到ATS_c中API使用的正确概率p_ASTC；

其中，k为ATS_c中的Token个数,p_i为api_i经由LSTM模型后输出的概率值。

步骤五：ATS异常概率排序

将步骤四中所得指定类的ATS集合中各ATS经LSTM模型输出的概率值按升序排序。

进一步地，步骤2中所述Skip-gram模型的目标函数J的计算方法如下：

其中，n为表示Token序列的长度，t_i为ATS中某一Token，C_ti为Tokent_i周围Token的集合，t_j为C_ti中的各Token，p(t_j|t_i)为softmax函数定义的条件概率，v_t是Tokent的向量表示，T是ATS集合中所有Token的词汇表。

进一步地，步骤3中所述LSTM模型中需要设置：指定类ATS集合中所有词汇表的大小为voca_size，词向量的维度参数为vec_size，LSTM模型的输入层维度参数input_size＝vec_size，隐藏层维度参数设置为hidden_size＝2*input_size，输出层维度参数设置为output_size＝voca_size，LSTM网络层数设置为2。

与现有技术相比，本发明具有如下有益效果：

1.本文方法直接利用源代码进行建模，同时基于源代码检测缺陷，因此代码处理粒度可达代码行级别，可对代码片段做缺陷检测；

2.本文方法通过对源代码进行预处理并建立LSTM模型，能有效捕捉代码中相关Token的前后关联；

3.本文方法基于Java类建模，同一Java类于不同代码仓库中的代码也可利用，因此能有效利用已有其他代码仓库中的代码信息。

附图说明

图1基于API序列的代码缺陷检测流程；

图2模型结构图。

具体实施方式

给定一个Java Git仓库，切换至master分支，记为MB(master branch)，利用抽象语法树解析，从每一个Java文件的每一个方法中，提取出所使用的类(Class)与相应的API序列，记为ATS(API Token Sequence)。针对特定类，使用从MB中提取的ATS，训练长短期记忆(LSTM)模型至收敛。将Git仓库切换至其他开发分支，记为DB(develop branch)，同样提取相应类的ATS，将DB下的ATS输入已训练好的LSTM模型中，输出ATS的异常概率，排序得到缺陷概率最大的代码片段。

如图1所示，为本发明API序列的代码缺陷检测流程，其过程具体为：

步骤①：master分支中基于类的ATS提取

master分支中的每一个Java文件通过AST解析为一棵语法树，所述Java文件中的每一个方法为所述语法树上的一棵子树，记为MST，通过遍历MST，得到MST所代表该部分源代码的API执行流程。针对指定类，从解析到的代码执行流程中提取出指定类在MST中的所有API使用序列，即ATS。master分支上存在多个Java文件使用指定类，同一Java文件中也可能存在多个方法使用指定类，故可提取到多个ATS，即针对指定类，可在master分支上提取到ATS集合。

步骤②：ATS集合预处理

使用基于Skip-gram算法的分布式语义模型，将步骤①指定类下的所有APIToken训练为d维的词向量，以此来捕捉所述ATS集合中各API token在向量空间下的关联。

所述Skip-gram模型的目标函数J的计算方法如下：

其中，n为表示Token序列的长度，t_i为ATS中某一Token，C_ti为Tokent_i周围Token的集合，t_j为C_ti中的各Token，p(t_j|t_i)为softmax函数定义的条件概率，v_t是Tokent的向量表示，T是ATS集合中所有Token的词汇表。通过训练整个ATS语料库，语料库词汇表中的所有Token都可以表示为d维向量，其中d为可变参数，大小与语料库词汇表大小有关。

步骤③：LSTM模型训练

将步骤①中提取到的ATS集合，按所属类分类，得到若干个ATS集，针对每一个ATS集训练一个LSTM模型，直到所述LSTM模型训练至损失函数收敛为止。如图2，所述LSTM模型中需要设置：指定类ATS集合中所有词汇表的大小为voca_size，词向量的维度参数为vec_size，LSTM模型的输入层维度参数input_size＝vec_size，隐藏层维度参数设置为hidden_size＝2*input_size，输出层维度参数设置为output_size＝voca_size，LSTM网络层数设置为2。

步骤④：开发分支ATS集合提取与检测

将Git仓库切换至开发分支，使用步骤①和②中的方法从开发分支中提取指定类所属的ATS集合，将得到的ATS集合输入步骤③中训练好的对应LSTM模型，得到各ATS的异常概率结果，具体过程为：

ATS_c＝{api₁,api₂,…,api_k,EOF} (3)

其中，EOF为结束标识符，

p_ASTC值越低，即ATS_c使用API的异常性越大，含有缺陷的可能越高。

步骤五：ATS异常概率排序

将步骤④中所得指定类的ATS集合中各ATS经LSTM模型输出的概率值按升序排序。根据开发者需要，如开发者精力，可以选取前N个最可能异常的ATS序列提供给开发者审查，开发者根据该ATS序列定位至相应代码片段，便可对代码正确性做更具体的分析，判定是否为异常。

实施例

使用了本文方法与Bugram工具(Bug detection with Ngram language models)对8个Java类做了对比实验，因为java文件中的代码段不具有标签信息，故评价工具性能表现的指标是推荐准确率与MRR(Measurement Result Recording)，通过人工审阅模型给出潜在含有缺陷的前20个代码段，判断20个代码段中真正为缺陷的代码段个数，以及第一个真实缺陷在候选结果中的排序位置。详细结果如表1。如表1所示，本文方法在8个Java类的测试结果上，缺陷推荐准确率与MRR两项指标均优于Bugram方法。本文方法与Bugram工具都是无监督方法，但本文方法利用了master分支代码作为训练集进行训练，模型学习并捕捉到了对应Java类中的API使用规范，而Bugram工具是基于概率统计进行缺陷检测，无法利用已有代码，故在测试集上表现不如本文方法。

由此可见，本文方法能利用已有代码，捕捉代码中相关Token的前后关联，可有效准确地检测出源代码中的API使用缺陷。

表1本文方法与Bugram工具缺陷检测对比

Claims

1.一种基于深度学习的软件代码行级缺陷检测方法，其特征在于，具体包括如下步骤：

步骤一：master分支中基于类的ATS提取

master分支中的每一个Java文件通过AST解析为一棵语法树，Java文件中的每一个方法为所述语法树上的一棵子树，记为MST，通过遍历MST，得到MST所代表源代码的API执行流程；针对指定类，从解析到的代码执行流程中提取出指定类在MST中的所有API使用序列，即ATS；多个ATS构成ATS集合；

步骤二：ATS集合预处理

使用基于Skip-gram算法的分布式语义模型，将步骤一指定类下的所有API Token训练为d维的词向量，以此来捕捉所述ATS集合中各API token在向量空间下的关联；

步骤三：LSTM模型训练

将步骤一中提取到的ATS集合，按所属类分类，得到若干个ATS集，针对每一个ATS集训练一个LSTM模型，直到所述LSTM模型训练至损失函数收敛为止；

步骤四：开发分支ATS集合提取与检测

ATS_c＝{api₁,api₂,…,api_k,EOF} (3)

其中，EOF为结束标识符，

按顺序将Token输入LSTM模型中，每一Token：api_i输入之后，LSTM模型输出其下一个Token为api_i+1的概率p_i，且EOF不输入模型；对k个Token经过LSTM模型后预测输出的概率{p₁,p₂,…,p_k}取平均值，遍得到ATS_c中API使用的正确概率

其中，k为ATS_c中的Token个数,p_i为api_i经由LSTM模型后输出的概率值；

步骤五：ATS异常概率排序

2.根据权利要求1所述缺陷检测方法，其特征在于，步骤2中所述Skip-gram模型的目标函数J的计算方法如下：

3.根据权利要求1所述缺陷检测方法，其特征在于，步骤3中所述LSTM模型中需要设置：指定类ATS集合中所有词汇表的大小为voca_size，词向量的维度参数为vec_size，LSTM模型的输入层维度参数input_size＝vec_size，隐藏层维度参数设置为hidden_size＝2*input_size，输出层维度参数设置为output_size＝voca_size，LSTM网络层数设置为2。