CN116302088A

CN116302088A - 一种代码克隆检测方法、存储介质及设备

Info

Publication number: CN116302088A
Application number: CN202310012780.0A
Authority: CN
Inventors: 苏庆; 列志毅; 黄剑锋; 林志毅
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-06-23
Anticipated expiration: 2043-01-05
Also published as: CN116302088B

Abstract

本发明涉及代码克隆检测技术领域，公开了一种代码克隆检测方法、存储介质及设备，通过同时提取M‑AST的语法信息和M‑CFG的语义信息用作代码克隆检测，可以检测到只用AST所检测不到的代码结构，并且通过将语法特征向量和语义特征向量融合生成特征向量的检测方式，提高对代码克隆检测的通用性，克隆检测成功率高。

Description

一种代码克隆检测方法、存储介质及设备

技术领域

本发明涉及代码克隆检测技术领域，特别是涉及一种代码克隆检测方法、存储介质及设备。

背景技术

在软件开发中，复制或修改现有的代码片段并将它们粘贴到代码的其他部分中是一种常见的行为，称为代码克隆(code clone)。代码克隆能够加速软件开发效率，但当原始代码存在缺陷时，克隆的代码通常也存在相同缺陷，会使得缺陷在软件系统中散播开来，增加软件维护成本。现有研究表明,20％–50％的大型软件系统中都包含代码克隆。因此，如何对软件系统中存在的代码克隆现象进行有效检测，成为了软件工程领域的一个重要问题，并且随着软件应用广泛应用于社会的各个生产生活领域，这个问题的重要性日趋明显。

现有研究将代码克隆根据克隆程度大致分为4类：类型1的代码克隆是指两段代码除了在空格、布局和注释方面不同外，其他部分完全相同；类型2的代码克隆是指两段代码除了变量、类型、文字和函数的名称有所不同外，其余代码片段相同；类型3的代码克隆是指在类型2的基础上，对部分语句做添加、删除、修改等操作，但仍然保持代码功能相同；类型4的代码克隆是指两段代码实现了相同功能，但是实现的方式却不同。

目前，代码克隆检测方法主要分为以下5类：基于文本的检测方法、基于词法的检测方法、基于语法的检测方法、基于语义的检测方法和基于度量值的检测方法。类型1、类型2、类型3的代码克隆可以被许多现有方法很好的检测到，但这些方法对类型4的克隆检测上往往效果不佳，此外，基于语义的检测方法虽然可以检测到类型4的克隆，但对其它类型的克隆检测不能达到同样好的效果。这是由于现有方法往往只使用单一的语法或语义信息，没有同时充分利用代码的语法信息和语义信息。

现有技术公开了一种基于GAT图神经网络模型的代码克隆检测方法，包括以下步骤：根据克隆代码的定义，从编程竞赛网站和现有代码克隆数据集提取生成相应定义的克隆代码数据；解析代码文本生成AST抽象语法树；在AST抽象语法树的基础上增加人工定义的附加边生成表示图；将代码表示图输入GAT网络模型训练获得图表征向量；拼接克隆代码对的表征向量输入二分类网络；判别输出代码克隆预测结果，该现有技术只使用基于AST语法特征信息的克隆检测方法，对于某些实现相同功能的不同代码片段，其AST结构可能并不相同，对其提取的结构信息差异较大，存在通用性不高的问题，容易导致克隆检测失效。

发明内容

本发明的目的是：提供一种代码克隆检测方法、存储介质及设备，以解决现有技术存在的只使用单一的语法或语义信息，通用性不强，容易导致克隆检测失效的问题。

为了实现上述目的，本发明提供了一种代码克隆检测方法，包括：

S1、构建代码数据集,所述代码数据集由源代码对及克隆标签组成；

S2、从代码数据集中获取数据，对数据中的源代码对进行解析并且生成每个源代码的AST和CFG，访问AST和CFG中的所有节点，若当前访问的节点中，其节点属性中的源代码信息和行号信息在序列中，则标记该节点为Method_call节点，将Method_call节点的父母节点指向被调用函数的AST的根节点，生成M-AST，将Method_call节点的上一个节点指向被调用函数的CFG的入口节点，然后将被调用函数的CFG的出口节点指向Method_call节点所指向的下一个节点，生成M-CFG；

S3、从M-AST和M-CFG的节点信息中生成语法特征向量和语义特征向量，然后将语法特征向量和语义特征向量融合生成特征向量h；

S4、源代码对融合生成两个特征向量分别为h₁和h₂，然后通过二分类神经网络完成分类预测；

S5、通过步骤S2-S4构建代码克隆检测模型，将步骤S1中的代码克隆数据集分为训练集和测试集，通过训练集和测试集不断更新代码克隆检测模型的参数权重，直到迭代结束，得到训练好的代码克隆检测模型；

S6、将待检测的代码输入训练好的代码克隆检测模型，获得检测结果。

优选的，在步骤S2中，生成M-AST和M-CFG的过程如下：

S2-1、对源代码进行解析，生成每个函数的AST和CFG；

S2-2、解析源代码，得到每个函数的调用图，根据调用图，构造函数的调用关系序列Q₁；

S2-3、访问AST和CFG中的所有节点，若当前访问的节点中，其节点属性中的源代码信息和行号信息在序列Q₁中，则标记该节点为Method_call节点；

S2-4、将Method_call节点的父母节点指向被调用函数的AST的根节点生成M-AST，所述M-AST为模块级抽象语法树，将Method_call节点的上一个节点指向被调用函数的CFG的入口节点，然后将被调用函数的CFG的出口节点指向Method_call节点所指向的下一个节点生成M-CFG，所述M-CFG为模块级控制流程图。

优选的，在步骤S3中获得特征向量h的过程如下：

S3-1、对获取到的M-AST进行先序遍历，得到M-AST的节点信息序列Q₂，然后将所有的节点信息序列Q₂输入到词向量方法中进行训练，得到词向量模型；

S3-2、将M-AST和M-CFG的每个节点信息通过词向量模型转化为16维的向量，然后将转化为16维向量后的M-AST和M-CFG转化为图数据结构；

S3-3、使用由多个图注意力层堆叠组成的GAT来提取转化为图数据结构后的M-AST的语法特征，更新M-AST的节点信息；然后通过由平均池化和最大值池化组成的混合池化层来聚合M-AST的所有节点信息，以获得M-AST的语法特征向量h_g1；

S3-4、使用由多个图卷积层堆叠组成的GCN来提取转化为图数据结构后的M-CFG的语义特征，更新M-CFG的节点信息，然后通过平均池化层来聚合M-CFG的所有节点信息，以获得M-CFG的语义特征向量h_g2；

S3-5、采用自适应特征融合策略，调节语法特征向量h_g1和语义特征向量h_g2的权重，进行融合从而得到特征向量h。

优选的，在步骤S3-1中所述的词向量方法为gensim.models.Word2Vec。

优选的，在步骤S3-3中，所述GAT的计算步骤如下：

输入一个节点个数为n的图，其初始化节点特征集合X＝{x₁，x₂，…，x_n}，每层图注意力层的计算公式为：

其中参数W是用于完成每个节点的特征维度变换的可训练参数，参数a是可训练的参数向量，||表示串联操作，对向量进行拼接，e_ij表示邻居节点j到节点i的注意力系数，a_ij表示计算得到的节点i和j之间的权重，σ表示非线性激活函数，x′_i表示将节点x_i更新后得到的节点特征。

优选的，在步骤S3-3中，所述语法特征向量h_g1计算公式如下：

h_g1＝Max(H_g)+Mean(H_g)

参数H_g表示为M-AST上所有节点特征向量的特征矩阵，Max表示最大池化函数，Mean表示平均池化函数。

优选的，在步骤S3-4中，所述语义特征向量h_g2计算公式如下：

h_g2＝Mean(H_g)

参数H_g为表示M-CFG上所有节点特征向量的特征矩阵，Mean表示平均池化函数。

优选的，在步骤S3-5中，所述特征向量h计算公式如下：

h＝ah_g1+(1-a)h_g2

其中a是可学习的权重参数。

本申请还提出一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任意一项所述的一种代码克隆检测方法。

本申请还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一项所述的一种代码克隆检测方法。

与现有技术相比，其有益效果在于：

本发明通过同时提取M-AST的语法信息和M-CFG的语义信息用作代码克隆检测，可以检测到只用AST所检测不到的代码结构，并且通过将语法特征向量和语义特征向量融合生成特征向量的检测方式，提高对代码克隆检测的通用性，克隆检测成功率高。

附图说明

图1是本发明实施例的代码克隆检测方法的流程图；

图2是本发明实施例的代码克隆检测模型的模型结构图；

图3是本发明实施例的代码克隆检测方法中生成M-AST和M-CFG的流程图；

图4是本发明实施例的代码克隆检测方法中获得特征向量h的流程图；

图5是本发明实施例的代码克隆检测方法中Factorial函数和Absolute函数的AST生成M-AST的示例图；

图6是本发明实施例的代码克隆检测方法中Factorial函数和Absolute函数的CFG生成M-CFG的示例图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

如图1所示，本发明优选实施例的一种代码克隆检测方法，包括：

S1、构建代码数据集,代码数据集由源代码对及克隆标签组成；

本发明中采用的数据集是OJClone，该数据集包含104个编程任务，每个任务有500个源代码。

本发明将实现相同功能的源代码之间视为代码克隆对，实现不同功能的源代码之间视为非代码克隆对，构建克隆对数据集。

S2、从代码数据集中获取数据，对数据中的源代码对进行解析并且生成每个源代码的AST(抽象语法树)和CFG(程序流程图)，访问AST和CFG中的所有节点，若当前访问的节点中，其节点属性中的源代码信息和行号信息在序列中，则标记该节点为Method_call节点，将Method_call节点的父母节点指向被调用函数的AST的根节点，生成M-AST，将Method_call节点的上一个节点指向被调用函数的CFG的入口节点，然后将被调用函数的CFG的出口节点指向Method_call节点所指向的下一个节点，生成M-CFG。

S3、从M-AST和M-CFG的节点信息中生成语法特征向量和语义特征向量，然后将语法特征向量和语义特征向量融合生成特征向量h。

S4、源代码对融合生成两个特征向量分别为h₁和h₂，然后通过二分类神经网络完成分类预测。

S5、通过步骤S2-S4构建代码克隆检测模型，将步骤S1中的代码克隆数据集分为训练集和测试集，通过训练集和测试集不断更新代码克隆检测模型的参数权重，直到迭代结束，得到训练好的代码克隆检测模型。

本发明中将步骤S1中的代码克隆数据集分为训练集和测试集，初始化代码克隆检测模型中的参数，将训练集和测试集的数据划分为多个批次，每次将一批次的训练集的数据输入到代码克隆检测模型中进行训练，获得训练集输出结果，用训练集输出结果与训练集的克隆标签对比，得到当前批次的损失值，然后根据损失值更新代码克隆检测模型的各层参数，用一批次的测试集去测试更新后的代码克隆检测模型，获得测试集输出结果，用测试集输出结果与测试集的克隆标签进行对比，验证克隆检测的准确性，最终得到训练好的代码克隆检测模型。

如图2所示为代码克隆检测模型结构，解析源代码对，生成函数级别的AST和CFG，将函数级别的AST和CFG合并成为模块级别的M-AST和M-CFG，使用GAT来提取转化为图数据结构后的M-AST的语法特征，通过混合池化层来聚合M-AST的所有节点信息，以获得M-AST的语法特征向量，使用GCN来提取转化为图数据结构后的M-CFG的语法特征，更新M-CFG的节点信息，然后通过平均池化层来聚合M-CFG的所有节点信息，以获得M-CFG的语义特征向量，并将语法及语义特征向量进行融合，得到源代码对特征向量，然后将源代码对特征向量输入到克隆分类器中，判断该源代码对是否为克隆。

优选的，在步骤S2中，生成M-AST和M-CFG的过程如下：

S2-1、对源代码进行解析，生成每个函数的AST和CFG。

S2-2、解析源代码，得到每个函数的调用图，根据调用图，构造函数的调用关系序列Q₁。

S2-3、访问AST和CFG中的所有节点，若当前访问的节点中，其节点属性中的源代码信息和行号信息在序列Q₁中，则标记该节点为Method_call节点。

S2-4、将Method_call节点的父母节点指向被调用函数的AST的根节点生成M-AST，M-AST为模块级抽象语法树，将Method_call节点的上一个节点指向被调用函数的CFG的入口节点，然后将被调用函数的CFG的出口节点指向Method_call节点所指向的下一个节点生成M-CFG，M-CFG为模块级控制流程图。

在步骤S3中获得特征向量h的过程如下：

S3-1、对获取到的M-AST进行先序遍历，得到M-AST的节点信息序列Q₂，然后将所有的节点信息序列Q₂输入到词向量方法中进行训练，得到词向量模型。

S3-2、将M-AST和M-CFG的每个节点信息通过词向量模型转化为16维的向量，然后将转化为16维向量后的M-AST和M-CFG转化为图数据结构。

本发明中所述转化为图数据结构是指将M-AST和M-CFG的边和点的信息转化为图神经网络模型所适用的格式。

S3-3、使用由多个图注意力层堆叠组成的GAT来提取转化为图数据结构后的M-AST的语法特征，更新M-AST的节点信息，然后通过由平均池化和最大值池化组成的混合池化层来聚合M-AST的所有节点信息，以来获得M-AST的语法特征向量h_g1；

S3-4、使用由多个图卷积层堆叠组成的GCN来提取转化为图数据结构后的M-CFG的语法特征，更新M-CFG的节点信息，然后通过平均池化层来聚合M-CFG的所有节点信息，以获得M-CFG的语义特征向量h_g2；

在步骤S3-1中的词向量方法为gensim.models.Word2Vec；

gensim是一个基于Python的深度学习框架，gensim.models.Word2Vec是gensim中的一种方法，用于将文本单词转化为指定维度的特征向量。

在步骤S3-3中，GAT的计算步骤如下：

对图的每一个节点进行更新得到的节点特征，以此作为下一个图注意力层的输入，完成所有图注意力层的计算后，输出图中各节点的特征向量。

在步骤S3-3中，语法特征向量h_g1计算公式如下：

h_g1＝Max(H_g)+Mean(H_g)

在步骤S3-4中，语义特征向量h_g2计算公式如下：

h_g2＝Mean(H_g)

在步骤S3-5中，特征向量h计算公式如下：

h＝ah_g1+(1-a)h_g2

其中a是可学习的权重参数。

实施例二

本申请还提出一种计算机存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述任意一项的一种代码克隆检测方法。

实施例三

本申请还提出一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述任意一项的一种代码克隆检测方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种代码克隆检测方法，其特征在于，包括：

S5、通过步骤S2-S4构建代码克隆检测模型，将步骤S1中的代码克隆数据集分为训练集和测试集，通过训练集和测试集不断更新代码克隆检测模型的参数权重，直到迭代结束,得到训练好的代码克隆检测模型；

2.根据权利要求1所述的一种代码克隆检测方法，其特征在于，在步骤S2中，生成M-AST和M-CFG的过程如下：

S2-1、对源代码进行解析，生成每个函数的AST和CFG；

3.根据权利要求1所述的一种代码克隆检测方法，其特征在于，在步骤S3中获得特征向量h的过程如下：

S3-3、使用由多个图注意力层堆叠组成的GAT来提取转化为图数据结构后的M-AST的语法特征，更新M-AST的节点信息；然后通过一个由平均池化和最大值池化组成的混合池化层来聚合M-AST的所有节点信息，以获得M-AST的语法特征向量h_g1；

4.根据权利要求3所述的一种代码克隆检测方法，其特征在于，在步骤S3-1中所述的词向量方法为gensim.models.Word2Vec。

5.根据权利要求3所述的一种代码克隆检测方法，其特征在于，在步骤S3-3中，所述GAT的计算步骤如下：

输入一个节点个数为n的图，其初始化节点特征集合X＝{x₁,x₂,…,x_n}，每层图注意力层的计算公式为：

其中参数W是用于完成每个节点的特征维度变换的可训练参数，参数a是可训练的参数向量，||表示串联操作，对向量进行拼接，e_ij表示邻居节点j到节点i的注意力系数，a_ij表示计算得到的节点i和j之间的权重，σ表示非线性激活函数，x_i′表示将节点x_i更新后得到的节点特征。

6.根据权利要求3所述的一种代码克隆检测方法，其特征在于，在步骤S3-3中，所述语法特征向量h_g1计算公式如下：

h_g1＝Max(H_g)+Mean(H_g)

7.根据权利要求4所述的一种代码克隆检测方法，其特征在于，在步骤S3-4中，所述语义特征向量h_g2计算公式如下：

h_g2＝Mean(H_g)

8.根据权利要求4所述的一种代码克隆检测方法，其特征在于，在步骤S3-5中，所述特征向量h计算公式如下：

h＝ah_g1+(1-a)h_g2

其中a是可学习的权重参数。

9.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～8任意一项所述的一种代码克隆检测方法。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～9任意一项所述的一种代码克隆检测方法。