CN113886520A

CN113886520A - 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

Info

Publication number: CN113886520A
Application number: CN202110989902.2A
Authority: CN
Inventors: 张凡龙; 陈宇琛; 车毅; 周玉奇; 陈晓茵; 林翠盈
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2022-01-04
Anticipated expiration: 2041-08-26
Also published as: CN113886520B

Abstract

本发明公开了一种基于图神经网络的代码检索方法、系统及计算机可读存储介质，方法包括：S1：获取代码数据，进行代码完整性预处理；S2：分别提取预处理后代码的序列信息、控制流图信息、程序依赖图信息；S3：利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图；S4：构建基于图神经网络的代码检索模型，利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型；S5：利用训练完毕的基于图神经网络的代码检索模型进行代码检索。本发明代码语义和结构特征提取更完整，同时采用单个图神经网络结构，缩短了模型的训练时间，减少了参数的调节，提高了检索的准确度。

Description

一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

技术领域

本发明涉及神经网络技术领域，更具体地，涉及一种基于图神经网络的代码检索方法、系统及计算机可读存储介质。

背景技术

传统的通过自然语言进行代码检索的方法，通常是单独地使用代码的序列信息或者代码的图结构信息，并没有完整地得到代码的语义与结构信息。在其他的对于通过自然语言进行代码检索的方法中，多数使用的是时序神经网络和树状神经网络，而忽略了代码图结构的特点。

现有技术中，公开号为CN107015905A的中国发明专利，于2017年8月4日公开了一种查询源代码的方法和装置，该查询源代码的方法，预先建立有软件模型中的功能单元的标识信息与源代码的内容标识之间的对应关系，所述方法包括：获取软件模型中的功能单元的标识信息；根据所述对应关系，确定所获取的功能单元的标识信息对应的源代码的内容标识。该方案需要预先建立功能单元的标识信息和源代码内容的标识信息的对应关系，无法实现自然语言的直接代码检索。

发明内容

本发明为克服上述现有的通过自然语言进行代码检索没有考虑完整的代码的语义与结构信息，特征提取不完整，准确度不佳的缺陷，提供一种基于图神经网络的代码检索方法、系统及计算机可读存储介质。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于图神经网络的代码检索方法，包括以下步骤：

S1：获取代码数据，进行代码完整性预处理；

S2：分别提取预处理后的代码的序列信息、控制流图信息、程序依赖图信息；

S3：利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图；

S4：构建基于图神经网络的代码检索模型，利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型；

S5：利用训练完毕的基于图神经网络的代码检索模型进行代码检索。

进一步地，所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全，得到可以通过编译的完整代码。

进一步地，所述图神经网络的代码检索模型包括：代码特征提取部分和自然语言描述特征提取部分，所述代码特征提取部分的输入为基于代码序列的代码图，所述代码特征提取部分的输出为一维代码特征向量；所述自然语言描述特征提取部分的输入为自然语言描述分词处理后的Token，所述自然语言描述特征提取部分的输出为一维自然语言描述特征向量。

进一步地，所述利用基于代码序列的代码图和自然语言描述训练图神经网络的代码检索模型具体包括：

通过代码特征提取部分和自然语言描述特征提取部分分别输出一维代码特征向量和一维自然语言描述特征向量；

计算一维代码特征向量和一维自然语言描述特征向量的余弦相似度；

利用余弦相似度得到训练损失，根据训练损失进行反向传播更新图神经网络的代码检索模型参数，得到训练后的图神经网络的代码检索模型。

进一步地，所述代码特征提取部分包括：第一Embedding模块、图神经网络、attention模块，所述第一Embedding模块输入端用于接收基于代码序列的代码图，所述第一Embedding模块的输出端连接至图神经网络的输入端，所述图神经网络的输出端连接至attention模块，所述attention模块输出一维代码特征向量。

进一步地，所述自然语言描述特征提取部分包括：第二Embedding模块、双向时序神经网络，所述第二Embedding模块输入为自然语言描述分词处理后的token，所述第二Embedding模块输出连接至双向时序神经网络输入端，所述双向时序神经网络输出端输出一维自然语言描述特征向量。

进一步地，步骤S5所述的利用训练完毕的图神经网络的代码检索模型进行代码检索具体过程为：

输入自然语言描述并进行分词处理得到每个词的Token；

将所有分词处理得到的Token利用自然语言描述特征提取部分提取一维自然语言描述特征向量。

将一维自然语言描述特征向量分别与预设的代码库中一维代码特征向量计算余弦相似度，其中余弦相识度最大的一维代码特征向量对应的代码输出为代码检索结果。

本发明第二方面提供了一种基于图神经网络的代码检索系统，该系统包括：存储器、处理器，所述存储器中包括基于图神经网络的代码检索方法程序，所述基于图神经网络的代码检索方法程序被所述处理器执行时实现如下步骤：

S1：获取代码数据，进行代码完整性预处理；

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括基于图神经网络的代码检索方法程序，所述基于图神经网络的代码检索方法程序被处理器执行时，实现所述的一种基于图神经网络的代码检索方法的步骤。

与现有技术相比，本发明技术方案的有益效果是：

本发明利用代码的序列信息结合控制流图信息、程序依赖图信息构建代码序列的代码图，使得代码的语义和结构信息能够充分表达，特征提取更完整，同时采用单个图神经网络结构，缩短了模型的训练时间，减少了参数的调节，提高了检索的准确度。

附图说明

图1为本发明一种基于图神经网络的代码检索方法流程图。

图2为本发明基于图神经网络的代码检索模型框架图。

图3为本发明一种基于图神经网络的代码检索系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，本发明第一方面提供了一种基于图神经网络的代码检索方法，包括以下步骤：

S1：获取代码数据，进行代码完整性预处理；

需要说明的是，所述代码完整性预处理将不完整的代码片段使用代码插桩的方式进行补全，得到可以通过编译的完整代码。所述的代码数据可以为java代码。

需要说明的是，对于预处理后的完整代码分别提取序列信息、控制流图信息、程序依赖图信息。

需要说明的是，获取了序列信息、控制流图信息、程序依赖图信息，将序列信息分别与图结构信息(即控制流图信息、程序依赖图信息)相应节点嵌入即得到基于代码序列的代码图。

需要说明的是，如图2所示，所述基于图神经网络的代码检索模型包括两部分：代码特征提取部分和自然语言描述特征提取部分，所述代码特征提取部分的输入为基于代码序列的代码图，所述代码特征提取部分的输出为一维代码特征向量；所述自然语言描述特征提取部分的输入为自然语言描述分词处理后的Token，所述自然语言描述特征提取部分的输出为一维自然语言描述特征向量。

进一步地，所述代码特征提取部分包括：第一Embedding模块、图神经网络、attention模块，所述第一Embedding模块输入端用于接收基于代码序列的代码图，所述第一Embedding模块的输出端连接至图神经网络的输入端，所述图神经网络的输出端连接至attention模块，所述attention模块输出一维代码特征向量。其中，所述第一Embedding模块输入端用于接收基于代码序列的代码图并将其处理为基于代码序列的代码图的嵌入表示，第一Embedding模块将基于代码序列的代码图的嵌入表示输入至图神经网络，图神经网络输出多维的代码特征向量，根据多维数据中每个维度不同的重要性分配不同权重，attention模块将多维代码特征向量压缩成一维代码向量。

进一步地，所述自然语言描述特征提取部分包括：第二Embedding模块、双向时序神经网络，所述第二Embedding模块的输入为自然语言描述分词处理后的token，所述第二Embedding模块输出连接至双向时序神经网络输入端，所述双向时序神经网络输出端输出一维自然语言描述特征向量。其中，将自然语言描述分词处理后得到的Token输入至第二Embedding模块，经过第二Embedding模块的处理，每个Token得到一个对应的向量，将第二Embedding模块处理得到的所有向量输入至双向时序神经网络，双向时序神经网络输出一维自然语言描述特征向量。

所述利用基于代码序列的代码图和自然语言描述训练图神经网络的代码检索模型具体包括：

利用余弦相似度得到训练损失，根据训练损失进行反向传播更新图神经网络的代码检索模型参数，得到训练后的基于图神经网络的代码检索模型。

步骤S5所述的利用训练完毕的图神经网络的代码检索模型进行代码检索具体过程为：

输入自然语言描述并进行分词处理得到每个词的Token；

如图3所示，本发明第二方面提供了一种基于图神经网络的代码检索系统，该系统包括：存储器、处理器，所述存储器中包括基于图神经网络的代码检索方法程序，所述基于图神经网络的代码检索方法程序被所述处理器执行时实现如下步骤：

S1：获取代码数据，进行代码完整性预处理；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图神经网络的代码检索方法，其特征在于，包括以下步骤：

S1：获取代码数据，进行代码完整性预处理；

S2：分别提取预处理后代码的序列信息、控制流图信息、程序依赖图信息；

2.根据权利要求1所述的一种基于图神经网络的代码检索方法，其特征在于，所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全，得到可以通过编译的完整代码。

3.根据权利要求1所述的一种基于图神经网络的代码检索方法，其特征在于，所述图神经网络的代码检索模型包括：代码特征提取部分和自然语言描述特征提取部分，所述代码特征提取部分的输入为基于代码序列的代码图，所述代码特征提取部分的输出为一维代码特征向量；所述自然语言描述特征提取部分的输入为自然语言描述分词处理后的Token，所述自然语言描述特征提取部分的输出为一维自然语言描述特征向量。

4.根据权利要求3所述的一种基于图神经网络的代码检索方法，其特征在于，所述利用基于代码序列的代码图和自然语言描述训练图神经网络的代码检索模型具体包括：

5.根据权利要求3所述的一种基于图神经网络的代码检索方法，其特征在于，所述代码特征提取部分包括：第一Embedding模块、图神经网络、attention模块，所述第一Embedding模块输入端用于接收基于代码序列的代码图，所述第一Embedding模块的输出端连接至图神经网络的输入端，所述图神经网络的输出端连接至attention模块，所述attention模块输出一维代码特征向量。

6.根据权利要求3所述的一种基于图神经网络的代码检索方法，其特征在于，所述自然语言描述特征提取部分包括：第二Embedding模块、双向时序神经网络，所述第二Embedding模块输入为自然语言描述分词处理后的Token，所述第二Embedding模块输出连接至双向时序神经网络输入端，所述双向时序神经网络输出端输出一维自然语言描述特征向量。

7.根据权利要求6所述的一种基于图神经网络的代码检索方法，其特征在于，步骤S5所述的利用训练完毕的图神经网络的代码检索模型进行代码检索具体过程为：

输入自然语言描述并进行分词处理得到每个词的Token；

8.一种基于图神经网络的代码检索系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括基于图神经网络的代码检索方法程序，所述基于图神经网络的代码检索方法程序被所述处理器执行时实现如下步骤：

S1：获取代码数据，进行代码完整性预处理；

9.根据权利要求8所述的一种基于图神经网络的代码检索系统，其特征在于，所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全，得到可以通过编译的完整代码。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于图神经网络的代码检索方法程序，所述基于图神经网络的代码检索方法程序被处理器执行时，实现如权利要求1至7中任一项所述的一种基于图神经网络的代码检索方法的步骤。