CN113434145A

CN113434145A - 一种基于抽象语法树通路上下文的程序代码相似性度量方法

Info

Publication number: CN113434145A
Application number: CN202110642424.8A
Authority: CN
Inventors: 江波; 张挺; 匡新
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-24

Abstract

本发明公开了一种基于抽象语法树通路上下文的代码相似性度量方法，所述方法具体包括以下步骤：对程序代码片段进行解析，得到相应的抽象语法树；对上述获得的抽象语法树进行遍历，提取抽象语法树终端节点之间的通路上下文的编码：对上述获得的抽象语法树终端节点之间的通路进行编码，实现向量化代码片段的相似性度量：将上述获得的代码向量，用余弦相似性进行代码的相似性比较。本发明方法可面向Python、Java等语言，基于抽象语法树通路上下文的代码相似性度量方法，解决了目前存在的缺乏兼顾程序代码的结构与语义两方面的程序表示技术的问题。

Description

一种基于抽象语法树通路上下文的程序代码相似性度量方法

技术领域

本发明属于智能教辅系统中的程序表示技术领域，涉及一种基于抽象语法树通路上下文的程序代码相似性度量方法。

背景技术

智能教辅系统(Intelligent Tutoring System,ITS)是通过基于人工智能的理论和技术来模拟真实的教学过程，使得计算机能够部分替代教师为学习者提供教学和辅导功能的系统。在面向编程的ITS中，学习者在编码过程中常常会遇到各种问题，对于初学者来说，通常情况下，他们是无法自己解决在编程中出现的问题，因此在编码时需要实时向他们提供有用的提示。程序自动提示生成的前提是对程序代码有过分析，由于程序具有很强的结构性，上下文之间的依赖间隔可能会很长，并且代码段中包含了自定义标识符，因此程序的表示至关重要。然而，基于序列的表示方法实现简单快捷，但是忽略了程序的结构特性；基于结构的表示方法解决了基于序列的方法的缺陷，但是最终模型的复杂程度巨大；基于执行过程的方法可以方便了解程序的执行过程。目前缺乏兼顾程序代码的结构与语义两方面的程序表示技术。

发明内容

为了解决现有技术存在的不足，本发明的目的是提供一种基于抽象语法树通路上下文的程序代码相似性度量方法。该方法可以面向python、java等程序语言，利用程序的底层表示技术—抽象语法树来表征程序，并从抽象语法树中提取终端节点到终端节点的通路(path)，通过编码向量化，获取向量表示，使用基于抽象语法树通路上下文的程序表示方法，这样的表示方法兼顾程序代码的结构与语义两方面内容，接着将获取到的通路经过数值化，通过神经网络学习程序的向量表示，利用余弦相似性对程序进行相似性比较。

本发明提出了一种基于抽象语法树通路上下文的代码相似性度量方法，所述方法包括如下步骤：

步骤一、构建抽象语法树：对程序代码片段进行解析，得到相应的抽象语法树；

步骤二、遍历抽象语法树：对步骤一中获得的抽象语法树进行遍历，提取抽象语法树终端节点之间的通路；

步骤三、通路上下文的编码：对步骤二获得的抽象语法树终端节点之间的通路进行编码，实现向量化；

步骤四、代码片段的相似性度量：将步骤三中编码后的代码向量，用余弦相似性进行代码的相似性比较。

所述步骤一具体为：源代码首先经过lib-0.5.jar架包解析生成抽象语法树asts.csv、节点类型node_types.csv和词素tokens.csv这三个文件，在命令行加入—storagedot后，会生成关于抽象语法树的dot文件和描述程序代码的文件description.csv，获得所需要的抽象语法树。

所述步骤二具体为：从语义上讲，单条抽象语法树路径表示代码的两个具体元素逻辑连接，比如常量与变量、常量与运算符或者是变量和运算符之间的连接；根据抽象语法树的规模大小，提取抽象语法树中一条或多条通路，当多条通路组合起来，表示整棵树，以此有效地获取代码片段的语义；本发明利用lib-0.5.jar架包，并且对通路进行长度和宽度的限制，控制抽象语法树通路数量，遍历抽象语法树，得到抽象语法树通路上下文，生成node_types.csv、tokens.csv、paths.csv和path_contexts.csv这四个文件。

步骤三中，所述通路的编码方法基于词表形式，所述词表包括词素标识符、节点类型标识符、通路标识符和通路上下文标识符。

步骤四中，所述代码片段的相似性度量具体包括如下步骤：

步骤4.1、将抽象语法树的通路上下文三元组分为节点node和路径path两个部分，所述节点是指模型训练期间得到的抽象语法树终端叶节点的值，所述路径是指抽象语法树通路的集合。将所有的节点和路径都表示成一个相同维度的向量，即

其中，node_vec是指模型训练期间得到的抽象语法树终端叶节点；path_vec是指抽象语法树通路的集合；d表示向量的维度；|node|和|path|表示抽象语法树中叶节点和通路的数量；d的维度需要根据经验来调整，受训练时间、模型复杂性的限制，通路和终端结点值的向量维度设为相同或不同。

步骤4.2、一条AST通路p_i＝(x_s,p,x_t)的上下文变量c_i由两个节点向量和一个通路向量联结而成的d维向量，即：

其中，x_s＝val(start(p_i))，表示与通路p_i的起始节点关联的值；x_t＝val(end(p_i))，表示与通路p_i的末尾节点关联的值；3d表示node_vec，path_vec和node_vec组成的d维向量。

步骤4.3、对于一个编程任务T，给定一个参考的解决方案的向量v₀，与学习者提交的代码片段的向量v_i进行比较，得出二者的余弦值cos_simi作为两个程序片段相似性的衡量：

本发明还提供了一种实现上述相似性度量方法的系统，所述系统包括：程序向量获取模型和相似性比较模型。

所述程序向量获取模型用于将给定任意数量的通路上下文向量，聚合为单个向量。该模型需要学习得到通路向量表示。

所述相似性比较模型用于给定一个向量v₀，与代码片段的向量v_i进行比较，得出二者的余弦值cos_simi作为两个程序片段相似性的衡量。

本发明的有益效果包括：本发明提供了一种抽象语法树通路表示技术和一种基于抽象语法树通路表示的代码相似性度量方法。

本发明提供了一种面向Python、java等语言的、基于抽象语法树通路上下文的代码相似性度量方法，解决了目前存在的缺乏兼顾程序代码的结构与语义两方面的程序表示技术的问题。

附图说明

图1为本发明构建抽象语法树流程图。

图2为本发明遍历抽象语法树流程图。

图3为本发明实施例相似性比较图。

图4为本发明的技术路线图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提出了一种基于抽象语法树通路上下文的代码相似性度量方法，该方法通过构造程序代码的抽象语法树，然后利用树结构上的遍历通路上下文表示不同程序，再将抽象语法树进行编码得到程序代码的向量表示，最后通过计算代码向量的余弦相似性进行代码间相似性的判定，所述方法具体包括以下步骤：

步骤四中，所述代码片段的相似性度量具体包括如下步骤：

实施例

本实施例是代码相似性度量方法的具体应用。

步骤一、构建抽象语法树：

所述抽象语法树(AST)是一种基于树的结构，表示程序的语法结构。AST不能代表程序源代码的完整内容，某些信息如代码格式、括号和语法结构的确切形式将被省略，但是程序代码的结构又携带了程序的语义信息及其他信息。AST中的每个节点都代表程序的语法单元例如变量、操作或逻辑运算符，下一个节点代表与该节点的关系。

一个程序代码片段的抽象语法树(Abstract Syntax Tree，AST)可以表示为一个元组<N,T,X,s,δ,val>。其中，N是非叶节点的集合；T是叶节点集合；X是叶节点的值(变量名或者常量)的集合；s∈N，表示是根节点；δ：N→(N∪T)^*表示将非叶节点映射到其孩子节点列表的函数；val:T→X是将叶节点映射到关联值的函数。

为了方便起见，定义π:(N∪T)→N表示δ的反函数，给定一个节点，函数π返回该节点的父节点，这样，当且仅当后者在前者的孩子节点列表时，使得对于每两个终端节点或非终端节点y₁,y₂∈(N∪T)，一个是另一个的父节点：

对起始元素而言，其父元素没有定义。

图1是一个编程任务及解析程序得到抽象语法树的示例。首先将程序代码片段进行解析，得到相应的抽象语法树。

步骤二、遍历抽象语法树：

由于抽象语法树的树形结构难以直接用于比较衡量不同语法树的差异。本发明提出了一种基于AST通路的程序表示方法。所述AST通路是AST中终端节点之间的路径，从理论上来说，一条路径可以连接AST的任意节点，但本发明使用两个终端节点之间的节点序列作为通路。从一个终端开始，在另一个终端结束，并经过该路径中的中间的非终端节点，这些非终端节点是两个终端的共同祖先。AST通路是一个长度为k的序列{n₁d₁,…,n_kd_k,n_k+1}。其中，i∈[1,…,k+1]：n_i∈(N∪T)是终端或非终端节点；而i∈[1,…,k]：d_i∈{↑,↓}是在抽象语法树中的移动方向，向上移动或者向下移动。如果d_i＝↑，那么：n_i+1＝π(n_i)；如果d_i＝↓，那么：n_i＝π(n_i+1)。使用start(p)来表示n₁，使用end(p)表示n_i+1。例如图1中的一条抽象语法树通路可以表示成如下形式：

DEF↑FUNC_DEF↓SUITE↓SIMPLE_STMT↓RETURN↓

在语义上，单个AST通路表示代码的两个具体元素之间的逻辑连接，用一组通路上下文表示整棵树可以有效地捕获代码的语义。将通路上下文(Path-context)定义为由AST通路和末端节点的值(如n₁和n_k+1)组成。通常，相关方法考虑跨任意AST节点(例如终端及其祖先)之间的通路上下文，但为简单起见，本实施例将以下定义基于跨终端之间的路径上下文。图2是遍历抽象语法树得到抽象语法树通路上下文的示例。

给定AST通路p，该通路的上下文是一个三元组<x_s,p,x_t>。其中，x_s＝val(start(p))，x_t＝val(end(p))分别是与通路p的起始节点和末尾节点关联的值。通路上下文描述了AST中的两个节点，并且这两个节点的语法路径相同。同样地，图2中的程序语句return'Hello AgainWorld！'可以表示成如下形式：

<return,(RETURN↑SIMPLE_STMT↓STRING↓),helloagainworld>

步骤三、通路上下文的编码：

由于上述的抽象语法树通路无法直接输入到神经网络中进行训练，因此需要经过适当的编码。下表给出了基于词表的形式，该形式的目的是以数字来编码相关数据。由于程序代码的结构化性质以及有限数量的唯一节点类型和词素(token)，许多标识符和通路可能会在大型的挖掘任务中频繁出现，通过将每个词素、节点类型、通路、通路上下文与唯一标识符相关联，从而避免重复存储数据。

表1通路上下文的编码

(a)词素标识符表

(b)节点类型标识符表

(c)通路标识符表

(d)通路上下文标识符表

步骤四、代码相似性度量：

首先，将抽象语法树的通路上下文三元组分为节点(node)和路径(path)两个部分，这里的节点是指模型训练期间得到的抽象语法树终端叶节点的值，路径是指抽象语法树通路的集合。将所有的节点和路径都表示成一个相同维度的向量，即：

一条AST通路p_i＝(x_s,p,x_t)的上下文变量c_i由两个节点向量和一个通路向量联结而成的d维向量，即：

其中，x_s＝val(start(p_i))，表示与通路p_i的起始节点关联的值；x_t＝val(end(p_i))，表示表示与通路p_i的末尾节点关联的值；3d表示抽象语法树中叶节点和通路的数量。

余弦相似性是通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。基于上述工作得到的程序代码段的向量，用余弦相似性来对程序作相似性比较。

对于一个编程任务T，给定一个参考的解决方案的向量v₀，与学习者提交的代码片段的向量v_i进行比较，得出二者的余弦值cos_simi作为两个程序片段相似性的衡量：

图3是给定的程序与程序集中的程序进行解析、提取、向量表示等一系列操作后，将两个程序进行相似性比较，得出二者的相似性度量值。

具体地，将步骤三得到通路上下文输入神经网络，输出一个二维的向量表示；利用余弦相似性计算两个程序代码的相似性。

图四是本发明的技术路线，对每一个程序样例进行解析成抽象语法树，进一步在抽象语法树的基础上提取通路，用一条或多条通路的组合来表示这个程序样例。通过对通路及抽象语法树中的词素进行编码处理，作为神经网络的输入，学习得到每个程序快照的向量表示，再通过计算每个程序样例与其他程序样例进行对比计算余弦相似度。

综上所述，本发明提供了一种面向Python、java等语言的、基于抽象语法树通路上下文的代码相似性度量方法，解决了目前存在的缺乏兼顾程序代码的结构与语义两方面的程序表示技术。

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于抽象语法树通路上下文的代码相似性度量方法，其特征在于，所述方法利用程序的底层表示技术-抽象语法树来表征程序，并从抽象语法树中提取终端节点到终端节点的通路，通过编码向量化，获取向量表示，利用余弦相似性对程序进行相似性比较；所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤一具体为：源代码首先经过lib-0.5.jar架包解析生成抽象语法树asts.csv、节点类型node_types.csv和词素tokens.csv这三个文件，在命令行加入-storage dot后，生成关于抽象语法树的dot文件和描述程序代码的文件description.csv，获得所需要的抽象语法树。

3.如权利要求1所述的方法，其特征在于，所述步骤二具体为：从语义上讲，单条抽象语法树路径表示代码的两个具体元素逻辑连接；根据抽象语法树的规模大小，提取抽象语法树中一条或多条通路，当多条通路组合起来，表示整棵树，以此有效地获取代码片段的语义；利用lib-0.5.jar架包，对通路进行长度和宽度的限制，控制抽象语法树通路数量，遍历抽象语法树，得到抽象语法树通路上下文，生成node_types.csv、tokens.csv、paths.csv和path_contexts.csv这四个文件。

4.如权利要求1所述的方法，其特征在于，步骤三中，所述通路的编码方法基于词表形式，所述词表包括词素标识符、节点类型标识符、通路标识符和通路上下文标识符。

5.如权利要求1所述的方法，其特征在于，步骤四中，所述代码片段的相似性度量具体包括如下步骤：

步骤4.1、将抽象语法树的通路上下文三元组分为节点node和路径path两个部分；所述节点是指模型训练期间得到的抽象语法树终端叶节点的值，所述路径是指抽象语法树通路的集合；

将所有的节点和路径都表示成一个相同维度的向量，即

其中，node_vec是指模型训练期间得到的抽象语法树终端叶节点；path_vec是指抽象语法树通路的集合；d表示向量的维度；|node|和|path|表示抽象语法树中叶节点和通路的数量；

步骤4.2、一条AST通路p_i＝(x_s，p，x_t)的上下文变量c_i由两个节点向量和一个通路向量联结而成的d维向量，即：

其中，x_s＝val(start(p_i))，表示与通路p_i的起始节点关联的值；x_t＝val(end(p_i))，表示与通路p_i的末尾节点关联的值；3d表示node_vec，path_vec和node_vec组成的d维向量；

6.一种实现如权利要求1-5之任一项所述相似性度量方法的系统，其特征在于，所述系统包括：程序向量获取模型、相似性比较模型。

7.如权利要求6所述的系统，其特征在于，所述程序向量获取模型用于将给定任意数量的通路上下文向量，聚合为单个向量，所述模型需要学习得到通路向量表示；