CN110851176A

CN110851176A - 一种自动构造并利用伪克隆语料的克隆代码检测方法

Info

Publication number: CN110851176A
Application number: CN201911006918.6A
Authority: CN
Inventors: 桑炜; 王赞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-28
Anticipated expiration: 2039-10-22
Also published as: CN110851176B

Abstract

本发明公开了一种自动构造并利用伪克隆语料的克隆代码检测方法，步骤一、自动构造伪训练语料库；步骤二、确定克隆代码检测任务中最有效的代码单元，即利用BPE方法切分克隆检测需要的代码基本单元；步骤三、由步骤二确定的最基本的最有效的代码单元BPE，将token进行拼接，进行词嵌入，将语料库中所有方法以token字符展示的语句序列来训练一个词嵌入模型，产生一个{代码单元‑向量}对应字典；步骤四、建立用于代码克隆检测的简单有效的BiLSTM分类模型，并进行训练；再利用L2‑Norm算法对两个方法进行分类，判断是否为克隆对。本发明实现了一个克隆代码检测工具，对于1、2、3型克隆有较好的检测效果。

Description

一种自动构造并利用伪克隆语料的克隆代码检测方法

技术领域

本发明涉及程序分析和机器学习领域，尤其是涉及程序代码克隆检测方法。

背景技术

本发明所涉及的现有技术如下：

(1)克隆代码检测：克隆代码是指软件项目中文本相似或功能相似的代码片段，已有研究表明，一个系统中克隆代码所占比例大约为7％至23％，甚至高达50％。根据代码相似程度的不同，可以把代码克隆分为四个类型：一型克隆：排除程序代码在换行、空白、制表符等格式上的区别，以及注释语句等的区别以后，两个代码片段完全相同；二型克隆：两个代码片段除了常数值以及变量名、函数名等标识符之间的区别以外，满足一型克隆的定义，则这两个代码片段是二型克隆；三型克隆：在满足二型克隆的基础上，两段代码有少量语句进行了删除、增加和修改等操作；四型克隆：两个代码片段实现了相同的功能，但在文本上是不相似的。程序中大量克隆代码的存在会对软件项目的可理解性和可维护性造成不良影响。近年来，代码克隆检测相关文章贡献了许多检测算法和检测工具，较为流行的工具有CCFinder、SourcererCC、CCLearner和DECKARD等。根据检测方法对源代码的分析层次，代码克隆检测方法可以分为以下几个类型：基于文本的方法、基于token的检测方法、基于树的检测方法、基于度量的检测方法、基于图的检测方法以及基于机器学习的检测方法。但是目前缺少准确率高且时空效率好的检测算法，代码克隆的检测目前仍然是一个较为困难研究课题。因此，提出一个有效检测代码克隆的算法是十分有必要的。

(2)Byte Pair Encoding：Byte Pair Encoding(BPE)是一种根据字节对(BytePair)进行编码的算法，它迭代地用一个未使用的字节替换序列中最频繁出现的字节对。近些年也有研究不合并频繁的字节对，而是合并字符或字符序列，即字符串里出现频率最高的一对字符被没有在这个字符中出现的一个字符代替的层层迭代过程。BPE首先将词分成一个一个的字符，然后在词的范围内统计字符对出现的次数，每次将次数最多的字符对保存起来，直到循环次数结束。它从原始表达式中提取高频词，利用这个算法可以学习到对文本有良好压缩率的词汇表。BPE常被用于机器翻译中，对集外词(OOV)和罕见词(Rare word)有较好的训练效果。

(3)双向长短期记忆网络

长短期记忆网络(LSTM)是一种特殊的循环神经网络(RNN)，能够补足普通RNN对长距离的上下文较难预测和处理的不足，LSTM能够在更长的序列中有更好的表现。双向长短期记忆网络(BiLSTM)由两个普通的长短期记忆网络组成，正向的LSTM利用过去时刻的信息，逆向的LSTM利用未来时刻的信息，比单向LSTM学习的更加充分，预测的更加准确。

一个利用机器学习技术检测代码克隆的有效方法有三个问题需要解决，一是如何选取合适粒度的程序代码基本单元，二是如何将源代码表示成一个有效的中间表示形式，三是如何构造大量的克隆和非克隆语料来训练一个效果好的网络模型。

发明内容

为了解决1、2、3型程序代码克隆的检测的问题，本发明提出一种自动构造并利用伪克隆语料的克隆代码检测方法，针对克隆代码检测的零成本大规模伪训练数据集自动构造伪克隆语料，基于监督的分类器实现克隆对检测，实现一个查准率、查全率较高的可靠代码克隆检测方法。

本发明的一种自动构造并利用伪克隆语料的克隆代码检测方法，该方法包括以下步骤

步骤一、自动构造伪训练语料库，即：将一个小规模代码块自动插入一个源代码片段，首先对源代码进行token化，源代码经过token化处理后，得到完全的复制粘贴对作为一型克隆和二型克隆；通过判断两个代码片段的相似度，提取出来大量的3型非克隆代码；

步骤二、确定克隆代码检测任务中最有效的代码单元，即利用BPE方法切分克隆检测需要的代码基本单元；通过多次迭代找到高频相邻token对，直到找到一个合适的切分位置，语句被分割成比token更大的代码块；然后将这些token组合作为基本的代码表示单元；具体操作为：首先构造一个包含所有不同token和它们对应的频率的词表；然后通过函数get_stat统计token出现的频率并当发生合并等状态发生改变时更新状态。通过函数merge_vocab对token进行归并，并将应用于词汇表，所有token合并的克隆对都集成在一起，最后得出基本处理单元的词汇表；

步骤三、将所有归并的克隆对进行拼接，进行词嵌入，将语料库中所有方法以token字符展示的语句序列使用工具fastText来进训练一个词嵌入模型，产生一个{代码单元-向量}对应字典；

步骤四、建立用于代码克隆检测的简单有效的BiLSTM分类模型，并进行训练，即获取代码的上下文和序列信息，并利用自注意力机制进行加权求和，至此java项目中的每个方法都转化成了一个向量表示；再利用L2-Norm算法对两个方法进行分类，判断是否为克隆对。

本发明的整个过程简单快捷，不需要耗费大量人力，理论上可以产生无穷多对克隆和非克隆代码，相比于现有技术代价低廉并且效率大幅提高；

此外，讨论了代码的切分粒度问题，并进一步提出了避免OOV问题的BPE方法，该方法可以看作是token和程序语句之间的一种缓解，将生成的语料库用于代码克隆检测神经网络模型的训练，实现了一个克隆代码检测工具，对于1、2、3型克隆有较好的检测效果。

附图说明

图1为本发明的一种自动构造并利用伪克隆语料的克隆代码检测方法流程图；

图2为本发明的一种自动构造并利用伪克隆语料的克隆代码检测系统功能模块示意图；

图3为生成伪克隆代码语料库流程图；

具体实施方式

下面结合附图和实施例对本发明技术方案进行详细描述。

本发明的克隆检测方法以程序方法为粒度，即检测java项目中两两相似的方法，判定它们为克隆对。通过一种合理的方法来确定什么是最基本的代码单元，这些代码单元可以有效表征源代码在代码克隆检测中能够用到的词汇和语法信息；再通过将程序代码的基本单元词嵌入为向量，利用有监督的分类器实现代码克隆对的检测；并创造性地提出了一种利用伪训练语料库训练神经代码克隆检测模型的新方法，能够实现零成本大规模伪训练数据集自动构造。

如图1所示，为本发明的一种自动构造并利用伪克隆语料的克隆代码检测方法流程图，该流程具体包括以下步骤：

步骤一、自动构造伪训练语料库：将一个小规模代码块自动插入一个代码片段，从而获得一个伪克隆对；对于非克隆，通过判断两个代码片段的相似度，将大量的非克隆代码提取出来，具体处理过程详细描述如下：

如图3所示，为生成伪克隆代码语料库流程图。在该流程中只针对一、二、三型克隆的检测，自动构建大规模伪训练语料库。例如：从开源的6个项目中收集了12552个高质量的函数，首先对源代码进行token化(Token化是将源代码转换成特定形式的token字符的过程)，主要包括(1)去除源代码中的空格、注释等非代码因素的影响(此时一型克隆对的差异已经消除)；(2)将源代码方法中的自定义类、变量、常量等进行统一化(此时二型克隆对的差异已经消除)。源代码经过上述token化处理后，一型克隆和二型克隆就是完全的复制粘贴对。接下来，要解决的主要的问题就是构造三型克隆和非克隆训练语料：选取一定数量语句数低于10行的短函数来构造伪三型克隆；

本发明将程序代码克隆检测归结为一个有监督的二分类问题：给出两个代码块C_i和C_j，如果它们是克隆对，设置其标签为1；如果是非克隆，设置标签为0。首先，将代码块{C₁,C₂,...}转换为低维向量{h_C1,h_C2,...}，然后采用简单有效的分类样式策略来确定代码块对(C₁,C₂)是否是克隆对。

利用以下公式判断两个代码片段是否是克隆对：

o＝[o₀,o₁]＝W·h_diff

h_diff＝(h_ci-h_cj)²

其中，h_ci和h_cj分别为两个代码片段经过神经网络之后生成的连续向量，h_diff为两个向量之间的距离的平方，W为神经网络学习的权重矩阵，O₀和O₁分别为这两个代码片段经过神经网络的判断，其应归属为克隆或非克隆的概率，最终结果O表示整个模型的分类结果。即，如果两个代码块相似，则方程(h_Ci-h_Cj)²的值将趋近于零，这对代码块极有可能被归类为克隆。通过神经网络学习式中的参数W，使其能够找到h_diff中的重要差异。

对于非克隆对的构造，利用远距离监督(distant supervision)算法，即只要包含两个实体的句子，都在描述同一种关系。把函数的方法名的相似程度作为评价两个代码片段是否是克隆代码的依据。如果两个方法的方法名非常不相似，则认为这两个代码片段为非克隆代码。该方法相对简单直接，不含歧义，目的是产生清晰的非克隆代码块对。两个方法的方法名不相似，判定它为非克隆，加入到非克隆语料中；两个方法方法名相似，不认为它们是非克隆。

本发明中用于词嵌入和模型训练的所有源代码都来自于真实在线开源存储库GitHub中java项目星标排名前340的项目库的源代码，作为预训练中转化成词典的代码集。

选取了一定数量语句数低于10行的短函数来以下步骤构造伪三型克隆语料：

(1)收集短函数代码片段集记为{C_p}；

(2)收集标准代码片段集记为{C_b}，这个代码集中代码片段为完整的方法；(3)对于标准代码片段集{C_b}中的代码块C₀，随机选择一个短函数代码块，随机插入到C₀中，得到C₁；接着，再次选择其他短函数代码块或者在不同的位置多次插入，得到C₂,C₃,...,C_n；

(4)对于C₁,C₂,C₃,...,C_n，将每一对(C_i,C_j)(其中0<＝i，j<＝n，i≠j)作为三型克隆对；

(5)通过重复步骤(3)和步骤(4)，构建一个具有伪代码克隆的大规模语料库。

对于非克隆对的构造，利用远距离监督(distant supervision)算法中只要包含两个实体的句子都在描述同一种关系的描述，把函数的方法名的相似程度作为评价两个代码片段是否是克隆代码的依据：如果两个方法名非常不相似，则认为这两个代码片段为非克隆代码，加入到非克隆语料中。该方法相对简单直接，不含歧义，目的是产生清晰的非克隆代码块对；

最后，总共收集了10000对一、二型克隆代码，10000对三型克隆代码，10000对非克隆代码，随后将它们用于模型训练；

步骤二、确定克隆代码检测任务中最有效的代码单元：从表达式中提取高频率的token，用这些高频率的token对更新现有的表达式。利用BPE方法切分克隆检测需要的代码基本单元；通过多次迭代找到高频相邻token对，直到找到一个合适的切分位置，语句被分割成比token更大的代码块。然后将这些token组合作为基本的代码表示单元。显然，新单元比token大，比语句小，达到token和程序语句之间的平衡。具体操作方式为：首先构造了一个包含所有不同token和它们对应的频率的词表。然后通过函数get_stat统计token出现的频率并当发生合并等状态发生改变时更新状态。通过函数merge_vocab对token进行归并，并将归并后的结果应用于词汇表。合并次数是BPE学习过程中的一个重要参数，通过实验验证，最终确定当合并迭代次数定为4000时，对克隆代码有较好的检测效果。所有token合并的对都集成在一起，最后得出基本处理单元的词汇表。在词嵌入过程，即将离散的符号输入转换为低维隐藏向量。新生成的词汇表的大小，范围在token字符的词汇表到程序语句的词汇表之间。结果表明，在大多数情况下都能取得较好克隆检测效果，并避免了OOV问题。BPE方法可以看作是token和程序语句之间的一种缓解。

步骤三、预处理，由步骤二确定的最基本的最有效的代码单元BPE，将token进行拼接，进行词嵌入，将语料库中所有方法，以token字符展示的语句序列来训练一个词嵌入模型，产生一个{代码单元-向量}对应字典，具体包括以下处理：

在词嵌入过程，即将离散的符号输入转换为低维隐藏向量。该步骤通常由外部预训练这个字典。使用工具fastText进行预训练，生成{代码基本单元-向量}的字典。FastText是一个开源、免费、轻量级的库，它的训练速度非常快，是一个广泛使用的快速文本表示和文本分类工具。对于词向量的训练，使用skip-gram的subwords模型进行训练。丰富了词表示的层次。设置输出的向量维度的大小是100维(此向量维度也是该深度学习模型BiLSTM中的第一层LSTM层的神经元单元个数)，设置fastText的学习率(lr)为0.025，上下文窗口大小(window size)为5，负采样个数(negative sampling)为10，ngram字符长度为3-6，迭代次数(epoch)设为5，最小单词出现量为5。经过训练，每一个代码基本单元都对应到了一个向量，每一个java方法也就对应到了一个矩阵表示。丰富了词表示的层次。设置输出的向量维度的大小是100维(此向量维度也是该深度学习模型BiLSTM中的第一层LSTM层的神经元单元个数)，设置fastText的学习率(lr)为0.025，上下文窗口大小(window size)为5，负采样个数(negative sampling)为10，ngram字符长度为3-6，迭代次数(epoch)设为5，最小单词出现量为5。经过训练，每一个代码基本单元都对应到了一个向量，每一个java方法也就对应到了一个矩阵表示。

步骤四、建立用于代码克隆检测的简单有效的BiLSTM分类模型，并进行训练，即将代码克隆检测重新转换为一个分类问题，应用一个简单有效的BiLSTM模型，获取代码的上下文和序列信息，并利用自注意力机制进行加权求和，至此java项目中的每个方法都转化成了一个向量表示。再利用L2-Norm算法对两个方法进行分类，判断他们是否为克隆对。

神经网络模型训练BiLSTM用来编码连续的输入，它能够捕获序列中的长距离的连接。它通过如下公式递归计算隐藏输出向量：(以左右方向为例)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，h_t-1为上一时刻的隐层状态，x_t为当前时刻的输入，f_t为遗忘门，负责决定哪些数据从细胞单元中抛弃；i_t为输入门，决定哪些信息需要更新；o_t为输出门，决定当前细胞输出哪些信息；

为候选状态，是备选地用来更新的内容，W_f，W_i，W_o，W_c分别为遗忘门、输入门、输出门，候选细胞状态对应的模型参数，b_f，b_i，b_o，b_c和分别为遗忘门、输入门、输出门，候选细胞状态对应的偏置项，c_t为当前细胞状态，h_t为当前时刻的隐层状态。

从右到左的方向只是以相反的方式预演了相同的计算。将预处理中的基本单元向量表示输入到第一层LSTM单元，获得此基本单元中前一个单元对它的影响的特征，并将步骤2转化的字符向量输入到第二层LSTM单元，获得字符的后一个字符对它的影响。再将第一层LSTM的输出和第二层LSTM的输出进行拼接组合。通过训练，输出的特征向量即包含了这个代码单元上下文信息及其序列信息。接下来用自注意力机制进行加权求和，将每个java方法转换为可相互比较的向量。其中，

是BiLSTM的隐藏输出，h^s/t是最终的代码表示向量。自注意力机制可以解释为对输入序列向量的加权和，其中的权重i是根据h_i本身计算的。

神经模型在训练和测试过程中有多个超参数。将BiLSTM的维度大小设置为100，为了防止神经网络模型过拟合，在LSTM隐藏层上加入dropout层，比例为0.33。采用Adam算法进行参数优化，初始学习率为5×10-4，梯度裁剪(gradient clipping)阈值为5。

为了验证此发明的有效性，使用评价基准bigclonebench数据集来评估此克隆检测方法的克隆代码检测效果。bigclonebench数据集由800多万对Java语言标记的真代码克隆对和26万对标记的假克隆对组成，是广泛采用的代码克隆检测基准。实验结果表明，此发明的克隆检测方法在bigclonebench数据集上检测的f值能够达到86.5％，优于现今较为主流的代码检测工具。

如图2所示，为本发明的一种自动构造并利用伪克隆语料的克隆代码检测系统功能模块示意图，作为本发明的一种自动构造并利用伪克隆语料的克隆代码检测方法的一个实施例。

Claims

1.一种自动构造并利用伪克隆语料的克隆代码检测方法，其特征在于，该方法包括以下步骤

步骤二、确定克隆代码检测任务中最有效的代码单元，即利用BPE方法切分克隆检测需要的代码基本单元；通过多次迭代找到高频相邻token对，直到找到一个合适的切分位置，语句被分割成比token更大的代码块；然后将这些token组合作为基本的代码表示单元；具体操作为：首先构造一个包含所有不同token和它们对应的频率的词表；然后通过函数get_stat统计token出现的频率并当发生合并等状态发生改变时更新状态。通过函数merge_vocab对token进行归并，并将应用于词汇表，所有归并的克隆对都集成在一起，最后得出基本处理单元的词汇表；