CN113342343B

CN113342343B - 基于多跳推理机制的代码摘要生成方法及系统

Info

Publication number: CN113342343B
Application number: CN202110426243.1A
Authority: CN
Inventors: 吕晨; 马正; 李季; 高曰秀; 吕蕾; 刘弘
Original assignee: Shandong Normal University
Current assignee: Hubei Central China Technology Development Of Electric Power Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-05-27
Anticipated expiration: 2041-04-20
Also published as: CN113342343A

Abstract

本发明公开了基于多跳推理机制的代码摘要生成方法及系统，包括：获取待生成摘要的代码；对待生成摘要的代码进行解析，生成抽象语法树；对抽象语法树进行特征提取，得到抽象语法树特征向量；将抽象语法树特征向量和自然语言表述特征向量，输入到训练后的transformer模型中，得到代码的初始摘要；对代码的初始摘要和已知的知识图谱，利用多跳推理算法进行处理，得到代码的推理摘要；将代码的初始摘要和代码的推理摘要进行加权融合，得到最终的代码摘要。使得生成的代码摘要更加通顺和准确，方便代码维护人员的理解。

Description

基于多跳推理机制的代码摘要生成方法及系统

技术领域

本发明涉及人工智能与软件工程相关技术领域，特别是涉及基于多跳推理机制的代码摘要生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着互联网技术的快速发展，各种各样的开发软件层出不穷，并且软件的功能变得越来越丰富，这随之带来的就是代码实现的规模越来越庞大，结构越来越复杂，在这种情况下程序员如何对代码进行有效的维护成为了一个问题。

传统的帮助代码维护人员进行代码理解的方法有两种：第一种是代码开发人员在开发时对代码进行代码注释和摘要，由于现在的实现软件功能的代码越来越庞大，这对代码开发人员无疑不是一个负担；第二种是代码摘要生成技术，可以自动对代码片段进行注释，帮助开发人员在开发过程中更加关注代码编写。

发明人发现，目前传统的代码摘要生成技术对代码片段解析出来相应的自然语言描述表达不顺畅，甚至有些描述会出现歧义，生成的效果较差，因而无法满足维护人员对代码的快速理解。

发明内容

为了解决现有技术的不足，本发明提供了基于多跳推理机制的代码摘要生成方法及系统；

第一方面，本发明提供了基于多跳推理机制的代码摘要生成方法；

基于多跳推理机制的代码摘要生成方法，包括：

获取待生成摘要的代码；

对待生成摘要的代码进行解析，生成抽象语法树；对抽象语法树进行特征提取，得到抽象语法树特征向量；

将抽象语法树特征向量和自然语言表述特征向量，输入到训练后的transformer模型中，得到代码的初始摘要；

对代码的初始摘要和已知的知识图谱，利用多跳推理算法进行处理，得到代码的推理摘要；

将代码的初始摘要和代码的推理摘要进行加权融合，得到最终的代码摘要。

第二方面，本发明提供了基于多跳推理机制的代码摘要生成系统；

基于多跳推理机制的代码摘要生成系统，包括：

获取模块，其被配置为：获取待生成摘要的代码；

特征提取模块，其被配置为：对待生成摘要的代码进行解析，生成抽象语法树；对抽象语法树进行特征提取，得到抽象语法树特征向量；

初始摘要生成模块，其被配置为：将抽象语法树特征向量和自然语言表述特征向量，输入到训练后的transformer模型中，得到代码的初始摘要；

推理摘要生成模块，其被配置为：对代码的初始摘要和已知的知识图谱，利用多跳推理算法进行处理，得到代码的推理摘要；

加权融合模块，其被配置为：将代码的初始摘要和代码的推理摘要进行加权融合，得到最终的代码摘要。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

(1)本公开提出了在代码摘要自动生成任务中，对最后的生成的代码摘要通过在知识图谱上利用推理机制对其进行优化，这使得生成的代码摘要更加通顺和准确，方便代码维护人员的理解。

(2)本公开使用了当前比较流行的transformer模型，该模型广泛应用于自然语言处理，该模型可以被微调后可以广泛用于面向程序理解的下游任务。

(3)本公开将代码片段进行AST嵌入向量表示，能更加全面地表示代码片段的内容，并通过训练可以将给定的代码片段描述自动转化为描述其功能的注释，从而减轻了软件开发人员的工作负担，提高了软件开发的效率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本公开实施例1所述的一种基于多跳推理机制的代码摘要生成示意总图；

图2为本公开实施例1所述的对部分知识图谱进行嵌入的示意图；

图3为本公开实施例1所述的多跳推理机制工作过程的示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：AST，Abstract Syntax Tree，抽象语法树；

实施例一

本实施例提供了基于多跳推理机制的代码摘要生成方法；

如图1所示，基于多跳推理机制的代码摘要生成方法，包括：

S101：获取待生成摘要的代码；

S102：对待生成摘要的代码进行解析，生成抽象语法树；对抽象语法树进行特征提取，得到抽象语法树特征向量；

S103：将抽象语法树特征向量和自然语言表述特征向量，输入到训练后的transformer模型中，得到代码的初始摘要；

S104：对代码的初始摘要和已知的知识图谱，利用多跳推理算法进行处理，得到代码的推理摘要；

S105：将代码的初始摘要和代码的推理摘要进行加权融合，得到最终的代码摘要。

进一步地，所述S102：对待生成摘要的代码进行解析，生成抽象语法树；具体包括：

利用JavaParser解析代码，生成其对应的AST树；

其中，利用JavaParser解析代码，解析后得到两部分信息：一是AST树结点所代表的信息；二是结点与结点的指向关系，存储边的信息。

其中，AST树结点所代表的信息，包括：结点所对应某行代码的具体信息和结点所对应某行代码所属的类型。

示例性的，根据程序的缩进信息，构建有序树。依次读取程序语句，通过将根结点从函数的定义语句中构建根结点来初始化树。迭代地用通过计算缩进分配的缩进索引来标记每个后续语句，使得具有与相同的缩进索引i的语句构造为有序的兄弟结点和上述具有缩进索引i的此类语句块之上的前述语句i-1构造为父结点。

进一步地，所述S102：对抽象语法树进行特征提取，得到抽象语法树特征向量；具体包括：

采用图卷积神经网络(Graph Convolutional Network，GCN)，对抽象语法树进行图嵌入，得到抽象语法树特征向量。

进一步地，所述S103：将抽象语法树特征向量和自然语言表述特征向量，输入到训练后的transformer模型中，得到代码的初始摘要；具体包括：

将抽象语法树特征向量输入到训练后的transformer模型的编码器，得到编码向量；

将获取的自然语言表述进行特征提取，得到自然语言表述特征向量；

将编码向量和自然语言表述特征向量，输入到训练后的transformer模型的解码器中，得到代码的初始摘要。

进一步地，所述S103训练后的transformer模型，其训练步骤包括：

构建训练集；所述训练集，包括：已知代码摘要的代码片段和自然语言表述；

将训练集的代码片段解析，生成抽象语法树；对抽象语法树进行特征提取，得到抽象语法树特征向量；

将抽象语法树特征向量作为transformer模型的编码器的输入值；

将训练集的自然语言表述进行特征提取，得到自然语言表述特征向量；

将编码器的输出值和自然语言表述特征向量，均作为transformer模型的解码器的输入值，将训练集的已知代码摘要，作为transformer模型的解码器的输出值，对transformer模型进行训练，当模型的损失函数达到最小值时，停止训练，得到训练后的transformer模型。

进一步地，所述S104：对代码的初始摘要和已知的知识图谱，利用多跳推理算法进行处理，得到代码的推理摘要；具体包括：

将代码的初始摘要，放入多跳推理机制算法中，与已知的知识图谱中的实体概念进行关联，得到代码的推理摘要。

如图2所示，显示了知识图谱的部分信息，并对其进行嵌入。由于本发明主要是做代码摘要的方向，所以，知识图谱只需包含代码所实现一些功能的描述表达的内容即可。纳入常识性知识对文本生成来说至关重要，以增加有限的文本信息。

使用非参数组成操作α(·)将结点嵌入和关系嵌入组合。

给定抽象语法树的输入图G＝(V，E)和带有L_G层的GCN，用GCN完成对将代码片段解析出的AST形式进行嵌入，生成相应的嵌入向量；GCN的输入就是将代码片段解析出的AST树的形式；GCN输出的是嵌入向量；GCN需要预先训练。

对于每一个结点v∈V，通过其包含结点u和相关联系r成对组成的本地邻居N(v)聚合信息，更新在j+1层的结点向量。

其中，

表示结点v在第j层聚集邻居结点的信息；

N(v)是由与结点v相邻结点和边组成的多个对；

分别表示第j层的学习权重矩阵；

分别表示第j层的结点u和相邻关系r的嵌入向量。

表示第j+1层结点v的嵌入向量；RELU是一种激活函数；

通过查询词向量进行初始化，

通过联系类型嵌入进行初始化。

和

是两个特定于第j层的权重矩阵。

定义组合操作α(h_u，h_r)＝h_u-h_r。

h_u，h_r表示结点u和相关关系r的嵌入向量；

通过线性转换更新关系嵌入：

是第j层学习到的权重矩阵。

最后，获取结点嵌入

和关系嵌入

用于在编码期间为动态推理编码静态图表上下文。

如图3所示，显示了多跳推理机制的工作原理。为了在生成期间对图形结构进行显式推理，设计了一种动态推理模块，该模块利用知识图谱和上下文信息的结构模式，以沿着每个解码步骤的关系路径传播证据。

所述知识图谱是通过不同知识的关联性形成成一个网状的知识结构。

所述知识图谱就是从计算机领域文本中抽取语义和结构化的数据，用节点表示语义符号，用边表示语义之间的关系。

所述知识图谱的抽取过程是从计算机领域文本中利用实体命名识别、关系抽取、实体统一和指代消解等技术来生成知识图谱，并且以RDF的形式进行存储。

本发明中知识图谱的组成要素包括：实体和关系。

实体：又叫又叫作本体(Ontology)，指客观存在并可相互区别的事物，可以是具体的人、事、物，也可以是抽象的概念或联系。实体是知识图谱中最基本的元素。比如知识图谱、谷歌、深度学习、文件和文件路径等。

关系：在知识图谱中，边表示知识图谱中的关系，用来表示不同实体间的某种联系。图灵和人工智能之间是提出的关系，知识图谱和谷歌之间也是提出的关系，谷歌和深度学习之间是应用的关系，文件路径和文件之间有着存储的关系。

具体地，多跳推理机制在知识图谱Q广播信息更新外部结点的得分，以便在访问的所有结点上访问其访问的邻居，直到访问所有结点。最初，相对应概念C_x的结点给出1的分数，而其他没有访问的结点分配0。

对于未访问到的结点v∈V，通过从N_in(v)的汇集的信息来计算其结点得分ns(v)，N_in(v)表示与v直接连接的访问结点u和边r。

多跳推理算法的表达式为：

其中，f(·)是聚集来自连接结点的分数的聚合器，ns(v)表示结点v的分数；u表示访问的结点；r表示访问结点与v直接相连的边；γ是控制来自先前跳跃的信息流强度的折扣因子；ns(u)是指访问结点u的分数；

使用聚合器max(·)获得主要结果，在消融研究中使用聚合器mean(·)来呈现结果。

R(u，r，v)是三重相关性，反映了在当前背景下的三元组给(u，r，v)给出的证据的相关性；计算三重相关性：

表示代码的初始摘要；h_u，r，v中的u，r，v表示知识图谱中的实体概念；

在H跳之后，通过归一化获得结点上的最终分布：

p(c_t|s_＜t，G)＝softmax_v∈V(ns(v)) (3-4)

其中，c_t是在t时间步选取的结点的概念。p(c_t|s_＜t，G)表示代码的推理摘要。直观地，通过计算结点的分数来完成推理学会通过考虑根据当前解码器状态的三维证据来动态分发；S_＜t表示s₁，s₂，s₃，...，s_t-1。

进一步地，所述S105：将代码的初始摘要和代码的推理摘要进行加权融合，得到最终的代码摘要；具体包括：

P(y_t|y_＜t，G)＝g_t+N.P(c_t+N|s_＜t+N，G)+(1-g_t+N).P(s_t+N|s_＜t+N) (4-1)

其中，y_t表示t时刻最后输出的代码摘要；G表示知识图谱；

y_＜t表示y₁，y₂，y₃，...，y_t-1；y_＜t表示t时刻之前的解码器的输出；

s_＜t+N表示s₁，s₂，s₃，...，s_t+N-1；

N是transformer的解码器输出的长度，软性门概率g_t用来表示是否在生成中复制概念以控制与复制机制类似的两个分布的权重。

W_gate表示门控的权重矩阵参数；

表示t时刻L_D层解码器的嵌入向量。

最终输出分布是分别由g_t和1-g_t两个分布权重的线性组合。

带有门控的生成分布。最终一代分布将概念的分布和标准词汇的分布进行结合。

通过将代码片段表征为AST并嵌入后输入到transformer模型的编码器，将相应的自然语言描述进行嵌入后输入到transformer模型的解码器，然后进行训练相关参数；然后，将推理机制算法应用于知识图谱上，根据transformer解码器输出的代码初始摘要通过推理机制对知识图谱中的信息进行相关推理，综合原有输出的代码初始摘要和对知识图谱推理出的代码的推理摘要进行比例结合进而得到最终通畅准确的自然语言描述。

解码器是对获取的代码片段表示进行解码，生成相应的注释，从而导出它们相关的自然语言摘要。通过编码给定的代码片段来通过生成初始解码状态s0＝{x}来启动解码处理。

在步骤t，解码器生成的状态s_t，以维护源代码片段和先前生成的单词y₁，y₂，y₃，...，y_t-1，即s_t＝{x，y₁，y₂，y₃，...，y_t-1}。

具体地，先前生成的单词y₁，y₂，y₃，...，y_t-1被transformer的编码器编码成向量，随后与状态s_t-1连接。

解码器的输出端连接softmax函数层；

该方法通过使用softmax函数来预测第t个单词。

p(y_t|s_t)＝softmax(W_ss_t+b_s) (1-1)

其中，p(y_t|s_t)表示第t个单词y_t在状态s_t下的概率分布。

接下来，将s_t和s_t+1来生成下一个单词。这一过程迭代直到超过最大步骤或序列结束标记，以生成与代码片段对应的整个注释。

实施例二

本实施例提供了基于多跳推理机制的代码摘要生成系统；

基于多跳推理机制的代码摘要生成系统，包括：

获取模块，其被配置为：获取待生成摘要的代码；

此处需要说明的是，上述获取模块、特征提取模块、初始摘要生成模块、推理摘要生成模块和加权融合模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。