CN115878177A

CN115878177A - 一种代码克隆检测方法及系统

Info

Publication number: CN115878177A
Application number: CN202211426993.XA
Authority: CN
Inventors: 马锐; 王丹; 陈逸轩; 张正; 王星煜
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-03-31

Abstract

本发明公开了一种代码克隆检测方法及系统，根据代码生成抽象语法树AST，遍历AST获得多条AST路径，组成AST路径组，解决了抽象语法树很深导致梯度消失问题；遍历代码托管平台，将源代码对应的AST路径组中的每条AST路径转换成词向量，多个词向量组成AST路径组对应的语义向量，得到多个语义向量构成语义向量集，语义向量集在每次检测时不必重复生成且持续更新，提高了执行效率；最后利用比较聚合模型对待测目标代码片段语义向量与语义向量集中的语义向量逐一组成的语义向量表示对进行处理，先对细粒度的AST路径进行路径匹配，通过加权聚合将细粒度特征反映到待测目标代码片段，再进行相似性检测，解决了传统方法采用孪生网络模型导致检测准确率不高的问题。

Description

一种代码克隆检测方法及系统

技术领域

本发明涉及代码克隆检测技术领域，具体涉及一种代码克隆检测方法及系统。

背景技术

随着代码托管平台和开源社区的发展，网络上各种开源项目越来越多样化并且获取也更加便利。代码常在多个软件系统中复制、传播和演化，给软件系统带来了软件质量的不确定性和风险，甚至导致漏洞的传播。近年来，代码克隆检测已经成为软件工程领域一个越来越重要的课题。按照克隆的程度，代码克隆可以分为Type-1(完全克隆)、Type-2(重命名克隆)、Type-3(增删改克隆)、Type-4(自实现克隆)四大类。

随着深度学习的发展，许多神经网络模型也被应用到代码克隆检测领域。目前基于深度学习的代码克隆检测根据其使用的代码中间形式可以大致分为基于纯文本、基于词法Token、基于树、基于图的检测四类。在基于树的代码克隆检测方法中，常见的方法之一是将源代码解析成抽象语法树作进一步的处理并用于克隆检测。其中的抽象语法树(Abstract Syntax Tree，AST)是源代码语法结构的一种抽象表现形式，它是编译源代码产生的一个中间结果，以树的形式包含了源代码中的语法信息。最近的代码克隆检测研究表明，基于抽象语法树的方法比其他方法能更好地表示源代码。但基于抽象语法树的的代码克隆检测技术目前仍存在如下几点局限性：

(1)检测效率问题：基于抽象语法树的代码克隆检测技术需要构建抽象语法树，然后使用树匹配算法搜索结构相似的树，并将这些相似树所对应的代码作为克隆代码返回。但现有技术在下一次检测过程中仍需要再次对代码库中的代码执行构建抽象语法树的操作，这一过程需要消耗时间和空间成本，导致执行效率较低。

(2)梯度消失问题：与自然语言处理中的长文本类似，当抽象语法树很深时，以树为基础的神经网络模型会容易受到梯度消失的影响，权重无法更新，导致模型训练失败。

(3)检测准确率问题：基于深度学习的代码克隆检测技术在匹配检测过程中大多基于孪生模型，其局限性在于，它们直接对比两个抽象语法树，不考虑是否存在细粒度上的相似结构，检测粒度过于粗糙，导致原本可能判断为相似的两个代码片段在粗粒度上直接判断为不相似，从而导致检测准确率不高，容易出现漏报误报现象。

发明内容

有鉴于此，本发明提供了一种代码克隆检测方法及系统，能够高效、准确地完成代码克隆检测。

本发明采用的具体技术方案如下:

一种代码克隆检测方法，包括：

步骤一：根据代码片段生成抽象语法树AST，遍历所述AST，获得多条AST路径组成的与所述代码片段对应的AST路径组；

步骤二：将所述AST路径组中的每条AST路径转换成对应的词向量l，多个词向量l组成所述AST路径组对应的语义向量L；

步骤三：扫描代码托管平台上的代码片段，重复步骤一、二，得到语义向量集∪L；

步骤四：将待测目标代码片段通过步骤一、二，得到对应的语义向量L₁；

步骤五：将待测目标代码片段转换成的语义向量L₁与语义向量集∪L中的任意一个语义向量L₂组成语义向量表示对(L₁，L₂)；利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，得到处理后的向量表示对(L′₁，L₂)，根据所述向量表示对(L′₁，L₂)，计算向量L′₁与L₂的相似度s；

步骤六：遍历所述语义向量集∪L，重复步骤五，选出代码托管平台上具有相似度最大值的语义向量对应的代码片段，根据预设阈值判断所述目标代码片段和所述相似度最大值对应的代码片段是否存在克隆关系。

进一步地，所述根据代码片段生成抽象语法树AST，遍历所述AST，获得多条AST路径组成的与所述代码片段对应的AST路径组，包括：

根据所述代码片段采用代码解析工具生成抽象语法树AST，采用深度优先遍历算法遍历所述AST，获得多条AST路径组成与所述代码片段对应的AST路径组。

进一步地，所述利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，包括：

所述比较聚合模型的对齐层对所述语义向量表示对(L₁，L₂)进行路径匹配，针对所述语义向量L₁中的每个词向量l_1i，通过与语义向量L₂的细粒度AST路径信息加权，得到更新词向量l′_1i；

所述比较聚合模型的比较层将所述语义向量L₁中的每个词向量l_1i与所述更新词向量l′_1i进行比较拼接，获得新的向量L_1，i；

所述比较聚合模型的聚合层对所述新的向量L_1，i进行聚合特征提取，得到降维之后的L′₁，并将L′₁与语义向量集中的语义向量L₂组成新的向量表示对(L′₁，L₂)。

进一步地，所述比较聚合模型的对齐层对所述语义向量表示对(L₁，L₂)进行路径匹配，包括：

计算所述语义向量L₁中的词向量l_1i与语义向量L₂中的词向量l_2j的相似度，获得注意力矩阵e_ij；

对所述注意力矩阵e_ij进行归一化处理获得注意力概率系数α_ij；

根据所述注意力概率系数α_ij，对所述语义向量L₁中的词向量l_1i进行加权求和获得所述更新词向量l′_1i。

进一步地，所述根据处理后的所述向量表示对(L′₁，L₂)，计算向量L′₁与L₂的相似度s，包括：

计算处理后的语义向量L′₁与语义向量集中的语义向量L₂的向量距离d，通过函数映射将所述向量距离d映射到0～1之间，获得向量L′₁与语义向量L₂对应代码片段的相似度s。

进一步地，在将所述待测目标代码片段转换成语义向量L₁之后，还包括：

将所述语义向量L₁补充存储至所述语义向量集∪L。

进一步地，所述将所述AST路径组中的每条AST路径转换成对应的词向量l，包括：

采用词嵌入模型将每条所述AST路径转换成对应的词向量l。

一种代码克隆检测系统，包括：

代码预处理模块，用于根据代码片段生成抽象语法树AST，遍历所述AST，获得多条AST路径组成的与所述代码片段对应的AST路径组；并将所述AST路径组中的每条AST路径转换成对应的词向量l，多个词向量l组成所述AST路径组对应的语义向量L；扫描代码托管平台上的代码片段，得到语义向量集∪L；

语义向量生成模块，用于将待检测的目标代码片段转换成对应的语义向量L₁，并将所述语义向量L₁发送至克隆检测模块；

克隆检测模块，用于将所述语义向量L₁与所述语义向量集∪L的任意一个语义向量L₂组成语义向量表示对(L₁，L₂)，并利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，根据处理后的所述向量表示对(L₁，L₂)计算两个向量间的相似度，遍历所述语义向量集∪L，选出代码托管平台上具有相似度最大值的代码片段，根据预设阈值判断所述目标代码片段和所述相似度最大值对应的代码片段是否存在克隆关系。

进一步地，在所述代码预处理模块中，

进一步地，在所述克隆检测模块中，所述利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，包括：

所述比较聚合模型的对齐层对所述语义向量表示对(L₁，L₂)进行路径匹配，针对所述语义向量L₁中的每个词向量l_1i，通过与语义向量L₂的细粒度AST路径信息加权，得到更新后的词向量l′_1i；

有益效果：

(1)一种代码克隆检测方法，根据代码生成抽象语法树AST，遍历AST，获得多条AST路径，组成AST路径组，解决了抽象语法树很深导致梯度消失的问题；扫描代码托管平台，将源代码对应的AST路径组中的每条AST路径转换成词向量，多个词向量组成AST路径组对应的语义向量，得到多个语义向量构成语义向量集，语义向量集在每次检测过程中不必重复生成，从而节省时间开销，提高检测的执行效率。

(2)利用比较聚合模型对语义向量表示对进行处理，首先对细粒度的AST路径进行路径匹配，将匹配结果加权得到带权重的更新词向量，然后通过聚合提取细粒度特征并反映到待测目标代码片段，最后与语义向集中的语义向量逐一进行相似性检测，获得最终检测结果。检测过程中提取了细粒度AST路径信息，其性能优于孪生网络模型，解决了传统方法采用孪生网络模型检测准确率不高的问题。

(3)通过预先构建语义向量集，并不断将根据待测目标代码片段获得的语义向量补充更新至语义向量集，在后续的克隆检测过程中，可以直接使用构建好的语义向量集，进一步提高了检测速度和克隆检测效率。

附图说明

图1是本发明的代码克隆检测系统框架图；

图2是代码预处理的流程图；

图3是示例代码对应生成的抽象语法树；

图4是示例代码对应的AST路径；

图5是待测目标代码片段对应的语义向量生成的流程图；

图6是克隆检测模块进行克隆检测的流程图；

图7是比较聚合模型的框架图。

具体实施方式

本发明提供了一种代码克隆检测方法及系统，根据代码生成抽象语法树AST，遍历AST，获得多条AST路径，组成AST路径组，解决了抽象语法树很深导致梯度消失的问题；遍历代码托管平台，将源代码对应的AST路径组中的每条AST路径转换成词向量，多个词向量组成AST路径组对应的语义向量，得到多个语义向量构成语义向量集，语义向量集在每次检测过程中不必重复生成，从而提高了执行效率。

利用比较聚合模型对语义向量表示对进行处理，先对细粒度的AST路径进行路径匹配，将匹配结果加权得到带权重的更新词向量，然后通过聚合提取细粒度特征并反映到待测目标代码片段，最后与语义向量集中的语义向量逐一进行相似性检测，获得最终检测结果。检测过程中提取了细粒度AST路径信息，其性能优于孪生网络模型，解决了传统方法采用孪生网络模型检测准确率不高的问题。

随着代码托管平台和开源社区的发展，越来越多的开发者选择将代码上传到代码托管平台，便于代码团队之间的交流与合作。同时开发人员为提高软件开发效率，通常会复用已有的软件资源，代码在多个软件中复制、传播和演化，给软件系统带来了软件质量的不确定性和风险，甚至导致漏洞的传播，难以保证准确性。如果不能及时控制代码克隆的增长，则管理和维护代码托管平台的行为将增加人工成本，并导致软件维护成本增加。由于人工检测代码克隆效率低、成本高，难以保证准确性，因此，如何自动、准确、快速地对代码托管平台上的海量代码克隆进行检测是当前研究的核心问题。

为了解决这个问题，研究人员提出代码克隆检测技术，旨在自动化定位软件系统中的克隆代码,节省成本,降低出错风险。典型的代码克隆检测可以分为以下几个步骤：首先对源代码进行预处理和规范化，得到适当的源代码中间表示，例如文本代码表征或者抽象语法树；然后通过匹配检测将代码片段两两对比，得到代码克隆对；再进行筛选分类等后处理操作，过滤假阳性代码克隆；最后通过将克隆对聚合为克隆类，生成检测结果。

随着深度学习在各种领域取得巨大成果，如何使用深度学习技术进行代码克隆检测也成为了最新的研究方向。基于深度学习的代码克隆检测技术利用大规模数据训练判断代码克隆的分类器，相比传统的代码克隆检测技术，能够更好地挖掘出大量数据中的隐藏模式，获得有效的特征表达，从而取得更好的克隆检测性能。根据使用代码中间表示形式的不同，基于深度学习的代码克隆检测技术大致可以分为：基于文本的方法，基于词法分析的方法，基于树的方法，基于图的方法。

基于文本的代码克隆检测方法通常将代码视为自然语言文本进行处理，利用文本相似性判断代码的相似程度。由于它通常直接在源代码上进行相似性判断，不用对代码进行转化等操作，因此具有较快的检测速度，但其通常仅对简单的复制粘贴行为具有良好的检测效果。在基于词法分析的代码克隆检测方法中，所有源代码行在编译器的词法分析阶段被划分为一系列词法单元Token，然后比较Token序列中的相同Token，如果相同Token所占的比例超过阈值，则判定为克隆。与基于文本的代码克隆检测技术相比，基于词法分析的代码克隆检测技术对格式变化、标识符重命名等产生的克隆代码具有更好的检测效果。基于树的代码克隆检测技术是将源代码转化为解析树或抽象语法树来进行表达，之后利用树匹配算法搜索相似的子树。当找到相似的子树时，相似的子树对应的代码片段会以克隆对的形式返回。基于图的代码克隆检测方法通过静态程序分析技术抽取语义关系图结构，通过图相似度匹配来进一步理解代码语义之间的相似性，因此相较于基于文本、词法分析和语法分析的检测技术能够挖掘更深层次的克隆代码，但是由于图的计算复杂度很高，并且检测复杂度随代码的长度增加而增大，因此，基于对上述方法的总结比较，本发明选择基于树的优化方法进行代码克隆检测。

现有技术中，使用抽象语法树作为代码中间表示的方法有基于树的卷积神经网络(Tree-Based Convolutional Neural Network，TBCNN)和基于树的长短时记忆网络(Tree-structured Long Short-Term Memory Networks，Tree-LSTM)，TCBNN针对程序的抽象语法树结构，利用滑动窗口机制来编码抽象语法树，从而捕获程序的结构信息。Tree-LSTM自下而上的遍历和编码抽象语法树来捕获程序的结构信息。但两者直接编码整个抽象语法树，可能会存在梯度消失问题。

针对梯度消失问题，基于抽象语法树的神经网络模型(Abstract Syntax Tree-based Neural Network，ASTNN)将每个大AST树分割成一系列小的语句树，通过捕获语句的词汇和句法知识，将语句树编码为向量。基于语句向量序列，采用双向循环神经网络(Recurrent Neural Network，RNN)模型最终生成代码片段的向量表示。但ASTNN用语句子树序列表现程序，对长程序上下文中的词序不敏感，因此可能会出现信息损失的现象。同时双向RNN模型在训练过程中可能会发生梯度消失问题，权重无法被更新，最终导致训练失败。

同样的，基于哈希学习的克隆检测(Clone Detection with Learning to Hash，CDLH)是一种基于深度学习的检测方法，利用word2vec来捕获文本信息，然后利用长短时间记忆网络(Long Short-Term Memory，LSTM)模型训练抽象语法树AST。该方法虽然利用AST得到了结构信息，但是需要将AST树转化为二叉树，改变了树的语法结构，导致树过深，出现长期依赖丢失、梯度爆炸等问题。

基于抽象语法树的代码克隆检测技术目前存在如下几点局限性：

(3)检测准确率问题：基于深度学习的代码克隆检测技术在匹配检测过程中大多基于孪生模型，其局限性在于，它们通常直接对比两个抽象语法树，不考虑是否存在细粒度上的相似结构，检测粒度过于粗糙，导致原本可能判断为相似的两个代码片段在粗粒度上直接判断为不相似，从而导致检测准确率不高，容易出现漏报误报现象。

针对上述不足，本发明提出了一个基于代码托管平台的代码克隆检测方法，具体改进包括：

针对局限性(1)，本发明预先生成一个语义向量集，基于代码托管平台搜集代码库，对其中的源代码生成抽象语法树(AST)，遍历抽象语法树生成一组AST路径，通过词嵌入模型完成单个AST路径对应的词向量表示，多个词向量组成AST路径组对应的语义向量，最后保留得到语义向量集，后续在对代码进行克隆检测的过程中可以直接使用预先生成的语义向量集进行基于比较聚合模型的克隆检测，提高检测速度，节省时间开销，提高执行效率。

针对局限性(2)，本发明将抽象语法树分解为一组AST路径，通过词嵌入模型将一组AST路径生成对应的语义向量，以此作为抽象语法树的表示。这种细粒度的处理使得模型可以很好处理很深的抽象语法树，解决梯度消失问题；另一方面，在后续克隆检测中，这种将抽象语法树分解为AST路径的处理可以减少漏报误报现象，提高检测准确率。

针对局限性(3)，本发明基于深度学习，提出了一种基于比较聚合模型的代码克隆检测模型，首先对细粒度的AST路径进行相似度匹配，匹配结果加权得到带权重更新的词向量，最后通过聚合将细粒度特征反映到整个代码片段，进行最终的相似性检测，其性能优于孪生网络模型。

下面结合附图并举实施例，对本发明进行详细描述。

首先对本发明实施例中的技术用语进行解释：

代码托管平台：代码托管平台提供了分享开源项目的平台，为开发团队提供了存储、分享、发布和合作开发项目的中心化云存储场所。常见的平台有：Github、GitLib、码云Gitee。

代码克隆：代码克隆是指存在于代码库中两个及两个以上相同或者相似的代码片段，是软件开发的常见现象。造成这种现象的主要原因是软件开发者为了提高效率通过复制粘贴或进行修改来复用代码片段。通常情况下，代码克隆关注在文本、语法或功能上相似的代码片段，并通过克隆对的形式对表现出克隆的代码进行标示。

代码克隆类型：根据克隆的程度可以将代码克隆分为四种类型：(l)Type-l(完全克隆)除空格、格式和注释外，是完全相同的代码片段；(2)Type-2(重命名克隆)在Type-1的基础上，除标识符、常量、类型外，在语法或结构上相同的代码段；(3)Type-3(增删改克隆)在Type-2的基础上，改变、增加或删除代码中的少量语句，是语法结构相似的代码片段。(4)Type-4(自实现克隆)两个代码片段实现的功能相同，但实现方法不同。

代码片段：代码片段F指代码文件中的某个连续区可以通过三元组(f，s，e)定位标识，包括代码文件名f、代码片段的起始行号s以及终止行号e。通常包括若干有含义的语句，可以是类、函数、有开始结束标识的代码块或者一个声明的序列。

代码克隆对：代码克隆对是指一对相似的代码片段，由三元组

表示，包括彼此相似的代码片段F₁和F₂，以及它们的克隆类型/>

/>

代码克隆类：代码克隆类是指一组相似的代码片段，由元组指定

其中每对不同片段都是克隆对/>

这些克隆对之间有一定的关联，且关联是对称且对等的。

代码克隆检测：代码克隆检测是指通过一定的技术方法自动化定位代码之间相似的克隆代码片段。目前常见的基于深度学习的代码克隆检测方法主要分为四类：基于纯文本的克隆检测、基于词法的克隆检测、基于树的克隆检测、基于图的克隆检测。

抽象语法树AST路径：遍历抽象语法树AST，从根节点出发到叶节点结束的一条AST路径。

词向量：单个AST路径的向量表示。利用词嵌入模型将一条AST路径映射到向量空间中，得到对应的向量表示，用l表示。

语义向量：抽象语法树AST的向量表示，由一组AST路径组成，用L＝(l₁，l₂，...，l_n)表示，其中l_i，i＝(1，2，...，n)为单个AST路径的向量表示。

语义向量集：多个语义向量的集合，用∪L表示，其中∪表示并集。基于代码托管平台上的代码片段，生成抽象语法树AST对应的语义向量的集合。

本发明实施例提供了一种代码克隆检测方法，包括如下步骤：

步骤一、根据代码片段生成抽象语法树AST，遍历AST，获得多条AST路径组成的与代码片段对应的AST路径组；

在一具体实施例中，根据代码片段采用代码解析工具生成抽象语法树AST，采用深度优先遍历算法遍历AST，获得多条AST路径组成与代码片段对应的AST路径组。

步骤二、将AST路径组中的每条AST路径转换成对应的词向量l，多个词向量l组成AST路径组对应的语义向量L；

在一具体实施例中，采用词嵌入模型将每条AST路径转换成对应的词向量l。

步骤三、扫描代码托管平台上的代码片段，重复步骤一、二，得到语义向量集∪L；

在一具体实施例中，扫描代码托管平台上的代码库，获得其中的代码片段对应的AST路径组，将每个AST路径组转换为对应的语义向量L，最后得到语义向量集∪L。

步骤四：待测目标代码片段通过步骤一、二，得到对应的语义向量L₁；

在一具体实施例中，开发人员上传待测目标代码，生成抽象语法树AST，遍历得到AST路径，单个AST路径转换为对应的词向量l，多个词向量l组成AST路径组对应的语义向量L₁。

步骤五、将由待检测的目标代码片段转换成的语义向量L₁与语义向量集∪L中的任意一个语义向量L₂组成语义向量表示对(L₁，L₂)；利用比较聚合模型对语义向量表示对(L₁，L₂)进行处理得到处理后的向量表示对(L′₁，L₂)，根据所述向量表示对(L′₁，L₂)计算相似度s即向量L′₁与L₂的相似度；

在一具体实施例中，在将目标代码片段转换成语义向量L₁之后，将语义向量L₁补充存储至语义向量集∪L。

在一具体实施例中，利用比较聚合模型对语义向量表示对(L₁，L₂)进行处理，包括以下步骤：

步骤1、比较聚合模型的对齐层对语义向量表示对(L₁，L₂)进行路径匹配，针对所述语义向量L₁中的每个词向量l_1i，通过与语义向量L₂的细粒度AST路径信息加权，得到更新后的词向量l′_1i；

在一具体实施例中，首先计算语义向量L₁中的词向量l_1i与语义向量L₂中的词向量l_2j的相似度，获得注意力矩阵e_ij；之后，对注意力矩阵e_ij进行归一化处理获得注意力概率系数α_ij；最后，根据注意力概率系数α_ij，对词向量l_1i进行加权求和获得词向量l′_1i。

步骤2、比较聚合模型的比较层将语义向量L₁中的每个词向量l_1i与更新词向量l′_1i进行比较拼接，学习l_1i和l′_1i的关联关系，得到新的向量L_1，i。

经过比较拼接，学习到的向量L_1，i维度相较于l_1i、l′_1i增加，为了降低计算复杂度，引入聚合层进行降维操作。

步骤3、比较聚合模型的聚合层对新的向量L_1，i进行聚合特征提取，得到降维之后的L′₁，并将L′₁与语义向量集中的语义向量L₂组成新的向量表示对(L′₁，L₂)。

在一具体实施例中，根据处理后的向量表示对(L′₁，L₂)计算相似度s，包括：

计算处理后的语义向量L′₁与语义向量集中的语义向量L₂的向量距离d，通过函数映射将向量距离d映射到0～1之间，获得目标代码片段与当前源代码片段的相似度s；

步骤六、遍历语义向量集∪L，重复步骤五，选出代码托管平台上具有相似度最大值的代码片段，根据预设阈值判断目标代码片段和相似度最大值对应的代码片段是否存在克隆关系。

在实际实施过程中，将向量表示对的相似度从大到小排序，确定代码托管平台上具有最大相似度的代码片段，根据预设阈值判断所述目标代码片段和所述最大相似度代码片段是否存在克隆关系。

本发明实施例还提供了一种代码克隆检测系统，图1是本发明的代码克隆检测系统框架图，如图1所示，包括：

代码预处理模块，用于根据代码片段生成抽象语法树AST，遍历AST，获得多条AST路径组成的与代码片段对应的AST路径组；并将AST路径组中的每条AST路径转换成对应的词向量l，多个词向量l组成AST路径组对应的语义向量L；扫描代码托管平台上的代码，得到语义向量集∪L；

在一具体实施例中，在代码预处理模块中，根据代码片段采用代码解析工具生成抽象语法树AST，采用深度优先遍历算法遍历AST，获得多条AST路径组成与代码片段对应的AST路径组。遍历代码托管平台，多个语义向量组成语义向量集∪L。

语义向量生成模块，用于将待检测的目标代码片段转换成语义向量L₁，并将语义向量L₁发送至克隆检测模块。

克隆检测模块，用于遍历语义向量集∪L，选出代码托管平台上具有相似度最大值的代码片段，根据预设阈值判断所述目标代码片段和相似度最大值对应的代码片段是否存在克隆关系。具体地，将语义向量L₁与语义向量集∪L中的任意一个语义向量L₂组成语义向量表示对(L₁，L₂)，并利用比较聚合模型对语义向量表示对(L₁，L₂)进行处理得到处理后的向量表示对(L′₁，L₂)，根据所述向量表示对(L′₁，L₂)计算相似度s。。

在一具体实施例中，在克隆检测模块中，利用比较聚合模型对语义向量表示对(L₁，L₂)进行处理，包括：

比较聚合模型的对齐层对语义向量表示对(L₁，L₂)进行路径匹配，针对所述语义向量L₁中的每个词向量l_1i，通过与语义向量L₂的细粒度AST路径信息加权，得到更新后的词向量l′_1i；

比较聚合模型的比较层将语义向量L₁中的每个词向量l_1i与更新词向量l′_1i进行比较拼接，获得新的向量L_1，i；

比较聚合模型的聚合层对新的向量L_1，i进行聚合特征提取，得到降维之后的L′₁，并将L′₁与语义向量集中的语义向量L₂组成新的向量表示对(L′₁，L₂)。

在上述代码克隆检测系统的各个模块中，具体执行步骤和方法可以参照上述代码克隆检测方法中的步骤，这里不再赘述。

本发明实施例提供的代码克隆检测系统，代码预处理主要完成的任务是遍历托管平台上的语料库，利用代码解析工具生成抽象语法树，然后将其分解为一组AST路径，并输入词嵌入模型得到AST路径组对应的语义向量，遍历结束后存储为语义向量集。

当开发人员上传目标代码提出克隆检测需求后，根据框架图中下半部分进行语义向量生成、克隆检测两部分的处理：首先将开发人员上传的目标代码片段经过抽象语法树生成语义向量；然后基于比较聚合模型，通过对齐、比较、聚合三层对待测目标代码片段语义向量与语义向量集中的语义向量逐一组成的语义向量表示对进行处理，得到两者的相似度，最后根据代码相似度大小排序，完成克隆检测。语义向量生成步骤生成的语义向量可以补充到语义向量集中，实现语义向量集的增量更新。

为了使得本领域的技术人员更好地理解本发明的技术方案，下面结合具体的场景实施例对本发明的技术方案进行阐述。

场景实施例

在本场景实施例中，对各个步骤的具体过程进行了介绍，同时对用到的具体函数和计算进行了举例说明。

(1)代码预处理

代码预处理是本发明代码克隆检测方法的基础，可以视为整个克隆检测过程的准备工作。其主要工作是遍历托管平台上的源码语料库，生成对应的语义向量，多个语义向量组生成一个语义向量集并对语义向量集进行存储。而在下一次检测过程中不需要再次对托管平台上的代码执行构建抽象语法树操作，可以直接使用语义向量集进行克隆检测，从而克服了现有检测执行效率较低的局限性，大大减少了克隆检测的时间，提高了克隆检测的效率。

在语义向量生成步骤中，开发人员上传代码生成的语义向量补充到语义向量集中，实现语义向量集的增量更新，扩大后续代码的检测面，提高克隆检测的准确率。

图2是代码预处理的流程图，如图2所示，主要包括以下步骤：

步骤一：抽取源码：扫描基于托管平台上的源码语料库，抽取源码。

步骤二：生成抽象语法树：使用代码解析工具包括但不限于ANTLR工具，生成代码对应的抽象语法树(AST)。为了更好的理解，下面给出示例代码片段生成抽象语法树的解析过程：

function add(a,b){

return a+b；

}

上述示例代码片段是一个简单的函数定义对象，id名字为add，两个参数a和b，一个块状域对象(body)，即大括号内部的内容。名字add是一个最基础的标志(identifier)对象，用来作为函数的唯一标志，不能进一步解析，body进一步解析为Return域对象，继续打开为二项式对象，最后拆解为标志对象a、运算符+和标志对象b，解析结束。图3是示例代码对应生成的抽象语法树。

步骤三：遍历抽象语法树生成一组AST路径。这里一条AST路径是指抽象语法树中从根节点出发，到叶节点结束的一条路径。遍历一棵抽象语法树得到所有的路径组合为一组AST路径。

树的遍历算法有很多，本场景实施例使用深度优先遍历算法作为示例，图4是示例代码对应的AST路径，如图4所示，其中为了更好的描述，图4左侧表示将图3的抽象语法树每个节点编号，对应的AST路径展示在图4的右侧。

步骤四：生成AST路径组对应的语义向量：通过词嵌入模型将一组AST路径转换为计算机可识别的向量表示，从而便于后续的进一步处理。目前流行的基于神经网络进行词嵌入的语言模型有很多，包括但不限于word2vec模型，其本质是将AST路径组的每一个AST路径映射到一个向量上，由此产生的词向量包含了丰富的上下文语义。定义待测目标代码片段F的AST路径组对应的语义向量用L＝(l₁，l₂，...，l_n)表示，其中l_i，i＝(1，2...n)为单个AST路径的向量表示。

上述四个步骤进行完毕后，继续扫描托管平台上的源代码语料库，重复四步操作。待扫描结束后，将第四步生成的多组AST路径对应的语义向量保存，生成语义向量集∪L。

(2)待测目标代码片段对应语义向量生成

语义向量生成的主要工作是将开发人员上传的待测目标代码片段转化为对应的语义向量，具体的方法与代码预处理的四个步骤大致相同，这里不详细描述。图5是待测目标代码片段对应的语义向量生成的流程图，如图5所示，主要包括以下步骤：

步骤一：开发人员提供代码片段；

步骤二：生成抽象语法树，这里同样使用代码解析工具；

步骤三：遍历抽象语法树生成一组AST路径；

步骤四：生成AST路径组对应的语义向量，利用词嵌入模型得到一组AST路径组对应的语义向量，用L₁表示。

(3)克隆检测

克隆检测的核心任务是判断开发人员上传的目标代码片段是否在托管平台上存在对应的相似片段，其输入是目标代码片段的语义向量，同时依据代码预处理步骤生成的语义向量集，输出检测结果。图6是克隆检测模块进行克隆检测的流程图，如图6所示，主要包括以下步骤：

步骤一：扫描语义向量集中的向量，将开发人员上传目标代码片段的语义向量与语义向量集中的任意一个向量组成语义向量表示对。这里为了和L1对应表示，选择使用L₂代表语义向量集中的任意一个语义向量，则语义向量表示对可以用(L₁，L₂)表示。

步骤二：比较聚合：输入比较聚合模型处理所述语义向量表示对(L₁，L₂)，得到处理后的向量对(L′₁，L₂)。

步骤三：计算相似度：根据处理过后的向量对的向量距离，计算相似度。

步骤四：相似度排序：将向量对的相似度排序，确定代码托管平台上具有最大相似度的代码片段。通过定义合适的阈值，判断待测目标代码片段和托管平台最大相似度代码片段是否存在克隆关系，输出检测结果。

克隆检测模块的核心是步骤二中使用的基于文本序列匹配的比较聚合模型，图7是比较聚合模型的框架图，如图7所示，包括对齐层、比较层和聚合层。应用到克隆检测任务中，比较聚合模型首先对两组AST路径组对应的语义向量中的单个AST路径对应的词向量进行相似度匹配，加权得到新的向量表示，然后将新向量和旧向量进行比较拼接，最后通过聚合提取特征，生成处理后的向量进行最终的相似度计算。

克隆检测模型关注代码片段的AST路径，通过对AST路径进行细粒度的比较聚合，克服了孪生模型粗粒度检测的局限性，将原本可能判断为不相似的两个代码之间的AST路径进行比较，从而提高了检测精确度，减少漏报误报现象。

用L₁＝(l₁₁，l₁₂，...，l_1n)来表示待测目标代码片段F₁的AST路径组对应的语义向量，用L₂＝(l₂₁，l₂₂，...，l_2m)表示代码托管平台代码片段F₂的AST路径组对应的语义向量，其中l_1i或l_2j是一组AST路径的单个AST路径对应的词向量。核心模型由对齐、比较、聚合三层组成。其中，i、j、n、m均为正整数。

对齐层：对齐单个AST词向量，进行细粒度比较

对齐层的核心任务是将目标代码片段的语义向量L₁中的单个AST词向量l_1i和语义向量集中的任一语义向量L₂中单个AST词向量l_2j对齐匹配，从而得到语义向量L₁中的带注意力权重的AST词向量l′_1i。以上述示例性代码举例，不同代码片段F₁和F₂之间可能会使用相同的函数add，那么其对应的AST会出现相同的树结构，两组AST路径中某些单个AST路径相同，即L₁中的l_1i和L₂中的l_2j有可能相同。

因此，第一步是首先要计算词向量l_1i和词向量l_2j之间的相似度，可以通过点积模型、余弦相似度等计算，得到注意力矩阵e_ij。公式(1)是使用点积模型的示例。

其中，T表示转置。

第二步是将注意力矩阵归一化得到注意力概率分布，可以用softmax函数对注意力矩阵进行归一化得到注意力概率系数α_ij，下面的公式(2)是归一化处理示例。

第三步是根据权重概率系数α_ij对向量l_1i进行加权求和，得到最后的带注意力权重的词向量l′_1i。下面的公式(3)为向量更新公式。

/>

其中l′_1i是l_2j的加权求和，直观上，

中与l_1i相关的内容将被选中，用l′_1i表示。

通过对齐层，完成了目标代码片段的语义向量L₁和语义向量集中的向量L₂的AST路径匹配，通过注意力加权，得到对应的l′_1i。宏观上看，模型可以将目标代码片段F₁的AST路径组更新，得到和代码托管平台代码片段F₂更相似更匹配的AST路径。

比较层：比较AST路径

比较层的目标是将每个l_1i(表示一组AST路径向量中的第i个AST词向量)和l′_1i(语义向量L₁中的带注意力权重的第i个AST词向量)进行匹配，以学习两者的关联关系，得到新的向量L_1，i。设g表示将l_1i和l′_1i匹配为L_1，i以表示比较结果的比较函数，它将l_1i和l′_1i转换为一个向量来表示比较结果。

比较的方式有很多，比如采用神经网络CNN、RNN，神经张量网络NTN，对应位置差运算再平方等等，这里选择前馈神经网络来举例说明，则用g表示由一个全连接网络和一个非线性激活函数ReLu组成的前馈神经网络。

其中[*⊙*]表示向量拼接操作。

聚合层：输出聚合降维后的向量

聚合层的目标是聚合比较层中的向量，做最后的特征提取，输入为比较层得到的一组比较向量

输出为聚合后的向量，用L′₁表示开发人员上传目标代码片段的语义向量经过比较聚合模型处理后的向量。

假设有两个代码片段的向量表示L₁和L₂经过比较聚合模型，得到对应的向量表示L′₁，然后计算向量L′₁和L₂之间的相似度s：首先通过两个代码片段的向量距离d，这里可以通过欧式距离、曼哈顿距离等计算。由于代码克隆检测问题是一个二分类问题，即给定两个代码片段，需要输出0或1，0表示它们之间不相似，1表示相似。因此需要将向量距离d映射到0～1之间，这里可以通过sigmoid函数、tanh函数等做映射，其函数值表示两个代码片段的相似度。下面的公式(5)是以sigmoid函数为例的距离映射公式。

S＝Sigmoid(d)∈[0，1] (5)

最后，克隆检测模块将代码对的相似度从大到小排序，确定代码托管平台上具有最大相似度的代码片段，通过定义合适的阈值，判断开发人员上传代码片段和托管平台最大相似度代码片段是否存在克隆关系，输出检测结果。

综上，本发明提供的代码克隆检测方法及系统，通过预先生成一个语义向量集，基于代码托管平台搜集代码库，对其中的源代码生成抽象语法树，遍历抽象语法树生成一组AST路径，通过词嵌入模型完成向量表示，最后保留得到语义向量集，后续在对代码进行克隆检测的过程中可以直接使用预先生成的语义向量集进行比较聚合的克隆检测，提高向量检测速度，节省时间开销，提高执行效率。本发明将抽象语法树分解为一组AST路径，通过词嵌入模型将一组AST路径组生成一个语义向量，以此作为抽象语法树的表示。这种细粒度的处理使得模型可以很好处理很深的抽象语法树，解决梯度消失问题；另一方面，在后续克隆检测中，这种将抽象语法树分解为AST路径的处理可以减少漏报误报现象，提高检测准确率。本发明基于深度学习，采用比较聚合模型，首先对细粒度的AST路径进行相似度匹配，匹配结果加权到一个新的向量中，最后通过聚合将细粒度特征反映到整个代码片段，进行最终的相似性检测，其性能优于孪生网络模型。

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。

Claims

1.一种代码克隆检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据代码片段生成抽象语法树AST，遍历所述AST，获得多条AST路径组成的与所述代码片段对应的AST路径组，包括：

3.如权利要求1所述的方法，其特征在于，所述利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，包括：

4.如权利要求3所述的方法，其特征在于，所述比较聚合模型的对齐层对所述语义向量表示对(L₁，L₂)进行路径匹配，包括：

5.如权利要求1所述的方法，其特征在于，所述根据处理后的所述向量表示对(L′₁，L₂)，计算向量L′₁与L₂的相似度s，包括：

6.如权利要求1所述的方法，其特征在于，在将所述待测目标代码片段转换成语义向量L₁之后，还包括：

将所述语义向量L₁补充存储至所述语义向量集∪L。

7.如权利要求1所述的方法，其特征在于，所述将所述AST路径组中的每条AST路径转换成对应的词向量l，包括：

采用词嵌入模型将每条所述AST路径转换成对应的词向量l。

8.一种代码克隆检测系统，其特征在于，包括：

克隆检测模块，用于将所述语义向量L₁与所述语义向量集∪L的任意一个语义向量L₂组成语义向量表示对(L₁，L₂)，并利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，根据处理后的所述向量表示对(L′₁，L₂)计算两个向量间的相似度，遍历所述语义向量集∪L，选出代码托管平台上具有相似度最大值的代码片段，根据预设阈值判断所述目标代码片段和所述相似度最大值对应的代码片段是否存在克隆关系。

9.如权利要求8所述的系统，其特征在于，在所述代码预处理模块中，

10.如权利要求8所述的系统，其特征在于，在所述克隆检测模块中，所述利用比较聚合模型对所述语义向量表示对(L₁，L₂)进行处理，包括：