CN112507065A

CN112507065A - 一种基于注释语义信息的代码搜索方法

Info

Publication number: CN112507065A
Application number: CN202011296561.2A
Authority: CN
Inventors: 银正强; 周尔强; 曹黛; 罗纪杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-03-16
Anticipated expiration: 2040-11-18
Also published as: CN112507065B

Abstract

本发明涉及一种基于注释语义信息的代码搜索方法，所述搜索方法包括从收集的代码仓库中得到存储为“自然语言描述，函数代码”形式的代码样本，对代码样本进行数据处理后通过神经网络模型编码器进行编码，并对神经网络模型进行训练；通过神经网络模型编码器将代码仓库中的所有代码函数和用户的输入转化为向量形式并构建代码向量仓库，计算代码向量仓库中与用户输入转化后的向量最接近的多个代码向量，并返回对应的代码作为检索结果。本发明的优点在于：使用代码内部本身带有的注释信息作为自然语言标注，减少的需要人工标注这一工作量，可以实现大规模的数据生成。其次采用了Transformer神经网络等进行语义特征提取，解决了传统的关键词匹配需要一一对应的缺点。

Description

一种基于注释语义信息的代码搜索方法

技术领域

本发明涉及代码搜索技术领域，尤其涉及一种基于注释语义信息的代码搜索方法。

背景技术

在软件的开发过程中，开发人员需要花费很多时间去代码仓库中检索代码进行代码复用或者作为参考。改进代码仓库的搜索功能可以提升开发人员的开发效率，以便提升软件开发效率。

早期以及目前的代码搜索技术依旧是基于传统的信息检索技术，例如使用Luence等搜索工具。这些现有工具采用的方法是对搜索句子和代码片段进行关键字匹配，其主要方式利用倒排搜索：首先对代码片段进行分词切块，记录这些词语对应的代码片段，然后对用户输入的查询语句中的词语查询包含这些词语的代码片段，然后作为结果显示给返回给搜索者。

传统的关键词搜索方法依旧将代码视为自然语言的一种，认为代码中的关键词和用户的关键词是一致。但是实际上，代码编写人员在代码的编写上可能包含了连词、缩写或者随机命名等语法改编。因此如果用户的关键词并不能与代码中的关键词直接匹配，其结果会变得非常糟糕。此外用户的搜索语句也会更接近自然语言，往往其中添加了一些语法中的助词或者介词，使其语义的信息与代码片段并不强相关，现有的方案在搜索的时候欠缺一定程度的语义理解。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于注释语义信息的代码搜索方法，使用已有的代码仓库数据构建自然语言描述与代码样本，利用神经网络模型完成具备语义信息的代码搜索任务，解决了现有代码搜索方法存在的不足。

本发明的目的通过以下技术方案来实现：一种基于注释语义信息的代码搜索方法，所述搜索方法包括：

从收集的代码仓库中得到存储为“自然语言描述，函数代码”形式的代码样本，对代码样本进行数据处理后通过神经网络模型编码器进行编码，并对神经网络模型进行训练；

通过神经网络模型编码器将代码仓库中的所有代码函数和用户的输入转化为向量形式并构建代码向量仓库，计算代码向量仓库中与用户输入转化后的向量最接近的多个代码向量，并返回对应的代码作为检索结果。

进一步地，所述从收集的代码仓库中得到存储为“自然语言描述，函数代码”形式的代码样本，对代码样本进行数据处理后通过神经网络模型编码器进行编码，并对神经网络模型进行训练包括：

收集现有的代码仓库提取代码片段，将具备函数注释的函数代码作为一个样本，并存储为“自然语言描述，函数代码”形式；

清理样本数据，将代码样本中的自然语言描述，函数代码部分文本进行清理，使用移除非法字符或拆分令牌或构建新词的方法构建令牌token列表形式；

采用替换“自然语言描述，函数代码”形式中对应部分为其他样本对应部分的方法构造新的代码样本，其中，发生替换的样本为负样本，没有发生替换的样本为正样本；

使用两个Transformer神经网络模型编码器E1和E2分别对“自然语言描述，函数代码”形式的代码样本进行编码，编码为向量形式即自然描述的向量V_q和代码的向量V_c；

训练神经网络模型，使得正样本的自然语言描述的向量V_q和代码的向量V_c无限的接近，负样本无限的远离，采用余弦相似度作为衡量向量接近程度，并通过反向传播调整模型参数。

进一步地，所述通过神经网络模型编码器将代码仓库中的所有代码函数和用户的输入转化为向量形式并构建代码向量仓库，计算代码向量仓库中与用户输入转化后的向量最接近的多个代码向量，并返回对应的代码作为检索结果包括：

将代码仓库中的所有代码函数采用编码器E2转化为向量形式进行存储，构建代码向量仓库R；

用户搜索代码仓库时，将用户的输入使用编码器E1转化为向量形式，计算代码向量仓库R中与用户输入向量最接近的N个代码向量，返回其对应的代码作为检索结果。

进一步地，所述清理样本数据，将代码样本中的自然语言描述，函数代码部分文本进行清理，使用移除非法字符或拆分令牌或构建新词的方法构建令牌token列表形式包括：

基于空格、括号和控制符将文本分为小块token形式，对于以注释符号开头的token进行移除，字符串token采用特殊标记进行替换；

对每一个token根据常见的代码命名方式进行切分，产生更细粒度的token；

重新组合token以空格形式进行拼接为文本形式；

采用BPE方法进行数据压缩与编码，生成新的token。

进一步地，所述使用两个Transformer神经网络模型编码器E1和E2分别对“自然语言描述，函数代码”形式的代码样本进行编码，编码为向量形式即自然描述的向量V_q和代码的向量V_c包括：

对文本的token列表的长度进行判断，并根据对比其与指定长度M或超过指定长度M的关系后对文本进行处理；

将token映射为一个随机初始化的N维向量形式，则文本被表示为一个M×N的矩阵；

将矩阵输入一个语义提取网络Transformer中，Transformer网络的输出为M×K维矩阵，表示提取的语义矩阵；

使用池化的方法将语义矩阵转换为一个1×K维向量形式，该向量可以认为是这个文本的稠密向量表示。

进一步地，所述对文本的token列表的长度进行判断，并根据对比其与指定长度M或超过指定长度M的关系后对文本进行处理包括：

如果文本的token列表长度未达到指定长度M，则对未达到的文本补充特殊token“[PAD]”使其达到要求；

如果文本的token列表长度唱过指定长度M，则对超过指定长度M的token列表进行截断使其长度只有M。

进一步地，所述训练神经网络模型，使得正样本的自然语言描述的向量V_q和代码的向量V_c无限的接近，负样本无限的远离，采用余弦相似度作为衡量向量接近程度，并通过反向传播调整模型参数包括：

根据公式

计算自然语言描述的向量V_q和代码的向量V_c的余弦相似度；

正样本的余弦相似度接近于1，负样本的余弦相似度接近于-1，使用交叉熵函数判断模型

的偏差；

根据偏差计算模型参数的梯度，使用反向传播法修改模型参数。

本发明具有以下优点：一种基于注释语义信息的代码搜索方法，使用代码内部本身带有的注释信息作为自然语言标注，减少的需要人工标注这一工作量，可以实现大规模的数据生成。其次采用了Transformer神经网络等进行语义特征提取，解决了传统的关键词匹配需要一一对应的缺点。最后使用了向量搜索的方法进行作为最终的服务方案，本方法可以通过简单高效的实现使得该发明快速应用于实际的生产环境中。

附图说明

图1为本发明的样本生成与模型训练的示意图；

图2为本发明编码的示意图；

图3为本发明神经网络框架的示意图；

图4为用户搜索流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明涉及一种基于注释语义信息的代码搜索方法，使用已有的代码仓库数据构建自然语言描述与代码样本，利用神经网络模型完成具备语义信息的代码搜索任务，其具体包括以下内容：

S1、收集现有的私人代码仓库或者公开代码仓库，提取代码片段，将具备函数注释的函数代码作为一个样本，存储为“自然语言描述，函数代码”形式，采用两个文本文件分别存储，对应的自然语言描述和函数代码各自被压缩为一行文本，分别存储在两个文件的对应行；实现采集数据并进行存储。

S2、清理样本数据，将样本中的自然语言描述，函数代码部分文本进行清理，使用移除非法字符、拆分令牌、构建新词等方法构造成令牌token列表形式；实现对数据的清理。

进一步地，代码文本清理具体包括以下步骤，以代码片段“if flagA＝＝1:print(‘hello world’)#如果标志为1，打印文本”为例：

S21、基于空格、括号、控制符等将文本分为小块token形式，对于以注释符号开头的token进行移除、字符串token采用特殊标记“[STR]”进行替换，例子被替换为“if flagAprint[STR]”；

S22、对每一个token，根据常见的代码命名方式(蛇形法与驼峰法)进行切分，产生更细粒度的token，例子被拆分为“if”、“flag”、“A”、“print”、“[STR]”五个token；

S23、重新组合token以空格形式进行拼接为文本形式，例子变为“if flag Aprint[STR]”；

S24、采用BPE(Byte Pair Encoding)方法进行数据压缩与编码，生成新的token。该方法可以有效地平衡词汇表大小，并提取出潜在的字符模式，上一步骤中的“if”和“flag”在整个词典中大量组合出现，因此会进行合并，最终例子变为“if#flag”、“A”、“print”、“[STR]”四个token。

S3、采用随机替换的方法补充样本，采用替换<自然语言描述，函数代码>中的对应部分为其他样本对应部分的方法构造新的样本。发生替换的样本称为负样本，没有发生替换的样本称为正样本，经过对比实验，正负样本比例设置为一比四时，可以在后续步骤获得较好效果；实现训练样本的构建。

S4、使用两个Transformer神经网络模型编码器E1、E2分别对自然语言描述和函数代码进行编码，编码为向量形式即自然语言描述的向量V_q和代码的向量V_c；通过神经网络对样本进行处理。

进一步地，如图2所示，编码器编码具体包括以下步骤：

S41、对文本的token列表判断其是否达到指定长度M或超过长度，对于未达到的文本补充特殊token“[PAD]”使其达到要求，对于超过长度的token列表进行截断使其长度只有M；

S42、将token映射为一个随机初始化的N维向量形式，则该文本可以被表示为一个M×N的矩阵；

S43、将矩阵输入一个语义提取网络Transformer中，Transformer网络的输出为M×K维矩阵，表示提取的语义矩阵；

S44、使用池化的方法将语义矩阵转为一个1×K维向量形式，该向量可以认为是这个文本的稠密向量表示。

S5、训练神经网络模型，使得正样本的自然语言描述的向量V_q和代码的向量V_c尽可能接近，负样本尽可能远离。采用余弦相似度作为衡量向量接近程度，并通过反向传播调整模型参数。实现训练神经网络，调整网络参数。

进一步地，如图3所示，神经网络训练具体包括以下步骤：

S51、计算自然语言描述的向量V_q和代码的向量V_c的余弦相似度。其公式为：

S52、正样本的余弦相似度应该接近于1，负样本接近于-1。使用交叉熵函数判断模型的偏差：

其中，y_i为样本是否为正样本，

为预测是否为正样本，1表示正样本、-1表示负样本，l表示衡量预测结果与实际结果的偏差。

S53、根据偏差计算模型参数的梯度，使用反向传播法修改模型参数。

以上步骤为线下预训练部分，训练好后如果不更新则不需要再次进行相关操作。

如图4所示，以下步骤为线上服务阶段；

S6、将代码仓库中的所有代码函数采用E2转化为向量形式进行存储，构建代码向量仓库R，出于性能优化考虑，可采用一些高性能向量存储方式进行存储，例如KD Tree等；实现使用神经网络将代码仓库的代码转换为向量进行存储。

S7、用户搜索代码仓库时，将用户的输入使用E1转化为向量形式，计算代码向量仓库R中与用户输入向量最接近的N个代码向量，返回其对应的代码作为检索结果。

进一步地，本发明用于语义特征提取的模型并不局限于Transformer模型，其他RNN，1D-CNN等可以用于语义提取的网络均可。相似性判断并不局限于余弦相似度，也可以采用其他的相似度算法例如度量学习等。构建代码向量存储时所用的方法也并不局限于KD树，例如annoy、faiss等方法也可以完成相似的工作。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于注释语义信息的代码搜索方法，其特征在于：所述搜索方法包括：

2.根据权利要求1所述的一种基于注释语义信息的代码搜索方法，其特征在于：所述从收集的代码仓库中得到存储为“自然语言描述，函数代码”形式的代码样本，对代码样本进行数据处理后通过神经网络模型编码器进行编码，并对神经网络模型进行训练包括：

3.根据权利要求2所述的一种基于注释语义信息的代码搜索方法，其特征在于：所述通过神经网络模型编码器将代码仓库中的所有代码函数和用户的输入转化为向量形式并构建代码向量仓库，计算代码向量仓库中与用户输入转化后的向量最接近的多个代码向量，并返回对应的代码作为检索结果包括：

4.根据权利要求2所述的一种基于注释语义信息的代码搜索方法，其特征在于：所述清理样本数据，将代码样本中的自然语言描述，函数代码部分文本进行清理，使用移除非法字符或拆分令牌或构建新词的方法构建令牌token列表形式包括：

重新组合token以空格形式进行拼接为文本形式；

采用BPE方法进行数据压缩与编码，生成新的token。

5.根据权利要求4所述的一种基于注释语义信息的代码搜索方法，其特征在于：所述使用两个Transformer神经网络模型编码器E1和E2分别对“自然语言描述，函数代码”形式的代码样本进行编码，编码为向量形式即自然描述的向量V_q和代码的向量V_c包括：

6.根据权利要求5所述的一种基于注释语义信息的代码搜索方法，其特征在于：所述对文本的token列表的长度进行判断，并根据对比其与指定长度M或超过指定长度M的关系后对文本进行处理包括：

7.根据权利要求2所述的一种基于注释语义信息的代码搜索方法，其特征在于：所述训练神经网络模型，使得正样本的自然语言描述的向量V_q和代码的向量V_c无限的接近，负样本无限的远离，采用余弦相似度作为衡量向量接近程度，并通过反向传播调整模型参数包括：

根据公式

计算自然语言描述的向量V_q和代码的向量V_c的余弦相似度；

的偏差；