CN114625844B

CN114625844B - 一种代码搜索方法、装置及设备

Info

Publication number: CN114625844B
Application number: CN202210527592.7A
Authority: CN
Inventors: 顾善植; 耿铭阳; 吴瑶; 王聪睿; 胡亚清; 李无忧; 周浩然
Original assignee: Hunan Huishiwei Intelligent Technology Co ltd
Current assignee: Hunan Huishiwei Intelligent Technology Co ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-09
Anticipated expiration: 2042-05-16
Also published as: CN114625844A

Abstract

本申请适用于计算机技术领域，提供了一种代码搜索方法、装置及设备，所述方法包括：获取待搜索代码，并且获取待搜索代码的语言属性；根据语言属性确定待搜索代码对应的中间表示提取规则；通过中间表示提取规则提取待搜索代码的中间表示信息；根据语言属性和中间表示信息构建语义图；对语义图进行向量化处理，得到语义图对应的代码表示向量；根据代码表示向量从候选代码中获取满足预设搜索条件的待搜索代码对应的目标代码。上述方案，通过提取中间表示信息，精准的挖掘待搜索代码中的一些深层次的语义信息，更多的关注待搜索代码的语义特征，这样，无论是单语言搜索还是多语言搜索，都大大提高了代码搜索的精度。

Description

一种代码搜索方法、装置及设备

技术领域

本申请属于计算机技术领域，尤其涉及一种代码搜索方法、装置及设备。

背景技术

在软件开发过程中，开发者通过代码搜索方法可以快速定位到所需功能的代码段。代码搜索作为软件工程领域的一个重要领域，可以帮助开发人员更加快速地完成软件开发，维护的任务，缩短开发时间，降低软件的开发与维护的成本。软件开发需求逐渐多样化，为了适应软件开发需求，多种编程语言出现并快速演化。通过多语言的搜索，开发人员可以得到更多的来自不同编程语言的实现结果，这给开发人员提供更多的参考代码选择。现有的方法是利用深度学习技术进行代码搜索，但是，现有的这种方法更多地是将目光集中于代码的浅层信息，无论是单语言还是多语言代码搜索，都无法减小不同语言语法带来的表示误差，这样就会导致代码搜索结果的精确度不够高。

发明内容

本申请实施例提供了一种代码搜索方法、装置及设备，可以解决上述问题。

第一方面，本申请实施例提供了一种代码搜索方法，包括：

获取待搜索代码，并且获取所述待搜索代码的语言属性；其中，所述语言属性的数量为一个或者多个；

根据所述语言属性确定所述待搜索代码对应的中间表示提取规则；

通过所述中间表示提取规则提取所述待搜索代码的中间表示信息；

根据所述语言属性和所述中间表示信息构建语义图；其中，所述语义图标识所述待搜索代码的语义信息；

对所述语义图进行向量化处理，得到所述语义图对应的代码表示向量；

根据所述代码表示向量从候选代码中获取满足预设搜索条件的所述待搜索代码对应的目标代码。

进一步地，所述获取所述待搜索代码的语言属性，包括：

获取所述待搜索代码的语法关键词；

根据所述语法关键词识别出所述待搜索代码的语言属性。

进一步地，所述语言属性包括Java语言；

所述通过所述中间表示提取规则提取所述待搜索代码的中间表示信息，包括：

当所述待搜索代码可以进行正常编译时，将所述待搜索代码输入JLang工具进行处理，得到所述待搜索代码的中间表示信息；其中，所述中间表示信息为三地址码格式。

进一步地，在所述当所述待搜索代码可以进行正常编译时，将所述待搜索代码输入JLang工具进行处理，得到所述待搜索代码的中间表示信息之前，还包括：

当所述待搜索代码不可以进行正常编译时，将所述待搜索代码输入JCoffee工具进行补全处理，得到可以进行正常编译的待搜索代码。

进一步地，所述语言属性包括Python语言；

将所述待搜索代码输入Dis工具进行处理，得到所述待搜索代码的中间表示信息；其中，所述中间表示信息为栈指令格式。

进一步地，所述语言属性包括Java语言；

所述根据所述语言属性和所述中间表示信息构建语义图，包括：

遍历所述中间表示信息中包含的三地址指令，根据所述语言属性对应的第一构建规则构建Java代码语义图；其中，所述第一构建规则包括：当所述三地址指令为运算指令时，将每个操作数节点连向操作符节点，并将所述操作符节点连向计算结果节点；当所述三地址指令为函数调用指令时，将每个参数节点连向函数名节点，并将所述函数名节点连向返回值节点；当所述三地址指令为跳转指令时，则将跳转的条件节点连向跳转的label块节点。

进一步地，所述语言属性还包括Python语言；

所述根据所述语言属性和所述中间表示信息构建语义图，还包括：

根据所述语言属性对应的第二构建规则将栈指令格式的所述中间表示信息的格式由栈指令格式转化为三地址指令格式，并构建Python代码语义图；其中，所述第二构建规则包括：当所述栈指令格式的所述中间表示信息为数据流指令，从栈中取出或压入数据，并将所述数据流指令与其对应的数据进行合并处理，并得到包含三地址指令的中间表示信息；当所述栈指令格式的所述中间表示信息为控制流指令，根据控制流指令找到待执行的目标位置，在所述目标位置的前添加label块节点，并根据指令意图生成跳转指令；当所述三地址指令为运算指令时，将每个操作数节点连向操作符节点，并将所述操作符节点连向计算结果节点；当所述三地址指令为函数调用指令时，将每个参数节点连向函数名节点，并将所述函数名节点连向返回值节点；当所述三地址指令为跳转指令时，则将跳转的条件节点连向跳转的label块节点。

进一步地，所述对所述语义图进行向量化处理，得到所述语义图对应的代码表示向量，包括：

将所述语义图输入预先训练的DiffPool向量化神经网络模型进行处理，得到所述语义图对应的代码表示向量；其中，所述语义图对应的代码表示向量为一维实数向量。

进一步地，所述根据所述代码表示向量从候选代码中获取满足预设搜索条件的所述待搜索代码对应的目标代码，包括：

获取候选代码及其对应的候选表示向量；

计算所述代码表示向量和每个所述候选代码的候选表示向量之间的余弦距离；

对所有所述余弦距离进行排序得到余弦距离序列，根据所述余弦距离序列得到满足预设搜索条件的所述待搜索代码对应的目标代码。

第二方面，本申请实施例提供了一种代码搜索装置，包括：

第一获取单元，用于获取待搜索代码，并且获取所述待搜索代码的语言属性；其中，所述语言属性的数量为一个或者多个；

第一处理单元，用于根据所述语言属性确定所述待搜索代码对应的中间表示提取规则；

第二处理单元，用于通过所述中间表示提取规则提取所述待搜索代码的中间表示信息；

构建单元，用于根据所述语言属性和所述中间表示信息构建语义图；其中，所述语义图标识所述待搜索代码的语义信息；

第三处理单元，用于对所述语义图进行向量化处理，得到所述语义图对应的代码表示向量；

第二获取单元，用于根据所述代码表示向量从候选代码中获取满足预设搜索条件的所述待搜索代码对应的目标代码。

进一步地，所述第一获取单元，具体用于：

获取所述待搜索代码的语法关键词；

根据所述语法关键词识别出所述待搜索代码的语言属性。

进一步地，所述语言属性包括Java语言；

所述第二处理单元，具体用于：

进一步地，所述第二处理单元，具体还用于：

进一步地，所述语言属性包括Python语言；

所述第二处理单元，具体用于：

进一步地，所述语言属性包括Java语言；

所述构建单元，具体用于：

进一步地，所述语言属性还包括Python语言；

所述构建单元，具体还用于：

进一步地，所述第三处理单元，具体用于：

进一步地，所述第二获取单元，具体用于：

获取候选代码及其对应的候选表示向量；

第三方面，本申请实施例提供了一种代码搜索设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法。

本申请实施例中，获取待搜索代码，并且获取待搜索代码的语言属性；根据语言属性确定待搜索代码对应的中间表示提取规则；通过中间表示提取规则提取待搜索代码的中间表示信息；根据语言属性和中间表示信息构建语义图；对语义图进行向量化处理，得到语义图对应的代码表示向量；根据代码表示向量从候选代码中获取满足预设搜索条件的待搜索代码对应的目标代码。上述方案，通过提取中间表示信息，精准的挖掘待搜索代码中的一些深层次的语义信息，更多的关注待搜索代码的语义特征，这样，无论是单语言搜索还是多语言搜索，都大大提高了代码搜索的精度。此外，针对不同类型语言中间表示的特点，提取多语言代码中的数据流和控制流信息，为多语言构建了统一的语义图表示，从而减少了多语言代码表示的差异。

并且，本实施例中的方法是对源代码进行纯静态分析，不需要动态测试，因此可以适用于实际开源项目（如Github）或答题网站等任何代码段。同时，本实施例中的方法可以迁移到任一种可以获取中间表示的编程语言，如Java、Python、C、C++等，适用范围较为广泛。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的一种代码搜索方法的示意流程图；

图2是本申请第一实施例提供的一种代码搜索方法中的Java代码语义图的示意图；

图3是本申请第二实施例提供的代码搜索装置的示意图；

图4是本申请第三实施例提供的代码搜索设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

代码搜索作为软件工程领域的一个重要领域，能够帮助开发人员提升开发效率，搜索到的高质量代码也可以帮助开发人员提升代码质量。在软件开发过程中，开发者通过代码搜索工具快速定位到所需功能的代码段。然后通过复用搜索到的代码，可以帮助开发人员更加快速地完成软件开发，维护的任务，缩短开发时间，降低软件的开发与维护的成本。在具体的代码搜索的过程中，输入通常是开发者书写的一段自然语言，表示开发者对其所期望的功能用法的描述。代码搜索工具通常需要根据代码与开发者自然语言描述的相似度，反馈给开发者相关代码片段的序列。

近年来，利用深度学习技术的代码搜索的工作都取得了不错的成果，相比于传统的代码搜索方法，其搜索精确度得到了大幅度的提高。但是，目前的深度学习的方法更多地是将目光集中于代码的浅层信息，这些工作更多地是将代码中的函数名、API 序列以及文本序列作为数据集进行挖掘。然而，仅仅依赖这些浅层信息会忽略代码中原本蕴含的一些语义信息，例如数据流、控制流等信息。事实上，如果仅仅依赖于深度学习模型，很难精确地来挖掘纯文本中的一些深层次语义信息，反而会促使深度学习模型更多地关注于代码文本中的词频特征而不是语义特征。部分工作也尝试利用更深层的代码信息来表示代码，例如AST（抽象语法树）或者基于AST的一些增强结构。但是无论是在单语言还是多语言中，由于语法具有多样性，导致这类工作的代码表示精确度仍然存在问题。在实际的代码中，语法不同的代码段也可能实现相同语义的功能，而语法相似的代码甚至可能表示完全不同的代码语义，该问题会对代码搜索深度学习模型的精确度和召回率产生影响。

此外，软件开发需求逐渐多样化，为了适应软件开发需求，多种编程语言出现并快速演化。目前已经有数种编程语言被开发人员广泛使用，每种编程语言在实际运用过程中都有各自的程序特性。例如，C语言是一种强大的系统内核开发语言，而JavaScript则是一种高效的web应用程序开发语言。在软件开发过程中，开发人员为了使得软件项目可以兼容更多平台满足更多需求，需要同时用多种编程语言进行项目开发，因此相比于单语言代码搜索而言，多语言的代码搜索可以更好满足用户需求。例如，Github 上的一个解析器项目ANTLR同时通过7种编程语言（C#、C++、Go、Java、JavaScript、Python 和 Swift）来进行开发。除了兼容性的需求，由于部分代码由过时的编程语言开发，开发人员通常也需要对部分代码进行不同语言之间的迁移，例如，从COBOL向Java迁移。通过多语言的搜索，开发人员可以得到更多的来自不同编程语言的实现结果，这给开发人员提供更多的参考代码选择。更重要的是，代码语言需要像自然语言一样，从最初的单语言模型需要向着多语言统一模型进行发展，使得研究人员不必为每种新出现的或者发生快速演化的语言构建新的模型。

目前基于深度学习技术的跨语言代码搜索研究大都集中于用抽象语法树或代码token来进行代码表示，无法减小不同语言语法带来的表示误差，进而导致搜索效果差。同时，因为将不同编程语言的数据集分开而且不关注不同编程语言之间的差异，所以导致无法为多种编程语言构建一个统一的搜索模型，也会导致某种语言训练得到的模型很难迁移到其他语言上。

为了解决上述问题，本申请提出了一种代码搜索方法。

请参见图1，图1是本申请第一实施例提供的一种代码搜索方法的示意流程图。本实施例中一种代码搜索方法的执行主体为具有代码搜索功能的设备，例如，台式电脑、服务器等等。如图1所示的代码搜索方法可以包括：

S101：获取待搜索代码，并且获取所述待搜索代码的语言属性；其中，所述语言属性的数量为一个或者多个。

设备获取待搜索代码。具体来说，用户可以通过前端页面输入待搜索代码，设备获取用户输入的待搜索代码。待搜索代码是用户书写的一段自然语言，可以是用户所期望的功能用法的描述。语言属性的数量可以为一个或者多个，即用户可以输入多语言代码作为待搜索代码进行搜索。

设备获取待搜索代码的语言属性，语言属性即为待搜索代码属于什么语言，例如，语言属性可以包括Java语言，Python语言等等。具体来说，设备获取待搜索代码的语法关键词；根据语法关键词识别出待搜索代码的语言属性。设备可以提取待搜索代码的语法关键词，根据语法关键词判断待搜索代码属于什么编程语言。例如，语法关键词为“public”，“static”等，即识别为Java语言；语法关键词为“def”即识别为Python语言。

S102：根据所述语言属性确定所述待搜索代码对应的中间表示提取规则。

设备中预先存储不同的预设语言属性、预设中间表示提取规则以及预设语言属性和预设中间表示提取规则之间的对应关系，当设备获取到待搜索代码的语言属性时，根据预设语言属性和预设中间表示提取规则之间的对应关系确定待搜索代码对应的中间表示提取规则。

具体而言，根据语言属性利用不同工具提取待搜索代码的中间表示信息。对Java语言使用JLang工具提取中间表示信息，对C语言使用LLVM工具提取中间表示信息，对Python语言使用Dis工具提取中间表示信息。

其中，JLang是一种编译的编程语言，旨在内置加速和并行化结构。语法被设计为简单，易于阅读并且易于从其他语言转换而来。 JLang借鉴了各种不同语言的语法和构造来增加这种过渡的便利性，包括C，Fortran，Rust，D，Go和Python。此语言没有行终止符，因此可以像C一样全部写在一行中，而无需使用无用的分号。 jLang被设计为与所有C类型和代码/功能完全兼容。LLVM工具是模块化、可重用的编译器以及工具链技术的集合。Dis工具包括一些用于处理Python字节码的函数，可以将字节码"反汇编"为更便于人阅读的形式。

S103：通过所述中间表示提取规则提取所述待搜索代码的中间表示信息。

设备根据待搜索代码对应的中间表示提取规则提取待搜索代码的中间表示信息，这里获取中间表示信息用于挖掘代码中的数据流和控制流信息。

举例来说，提取的C语言和Java语言的中间表示信息为三地址码格式，包含源代码的数据流和控制流信息。基于三地址码的指令通常为“返回结果=操作码操作数集合”，如“c= add a, b”，表示将变量a和b执行相加操作，并将结果存入c变量中。对于基于三地址码的中间表示而言，通过多条指令和label来构成基本块，通过label之间的跳转关系来反映基本块之间的执行顺序，即控制流，如“br %cmp label1，label2”，表示根据判断条件%cmp的值，决定下一句执行哪个label块中的内容，如果为真，则跳转到label1，否则跳转至label2。

具体来说，一种实施方式中，语言属性包括Java语言；当待搜索代码可以进行正常编译时，将待搜索代码输入JLang工具进行处理，得到待搜索代码的中间表示信息。本实施例中，设备先测试Java待搜索代码是否可以正常编译，如果可以正常编译，再将待搜索代码输入JLang工具进行处理，得到待搜索代码的中间表示信息。这里，Java待搜索代码的中间表示信息为三地址码格式。

设备先测试Java待搜索代码是否可以正常编译，如果不可以正常编译，设备要给缺少第三方库的Java待搜索代码增加缺失的类以及方法片段，使得该源代码片段可以编译成功。当待搜索代码不可以进行正常编译时，设备将待搜索代码输入JCoffee工具进行补全处理，得到可以进行正常编译的待搜索代码。再将待搜索代码输入JLang工具进行处理，得到待搜索代码的中间表示信息。

其中，JCoffee工具是使用编译器反馈使部分代码片段可编译的工具。

另一种实施方式中，语言属性包括Python语言；将待搜索代码输入Dis工具进行处理，得到待搜索代码的中间表示信息；其中，中间表示信息为栈指令格式。基于栈的指令通常为“操作码操作数”。

S104：根据所述语言属性和所述中间表示信息构建语义图；其中，所述语义图标识所述待搜索代码的语义信息。

设备根据语言属性和中间表示信息构建语义图，语义图用于保存数据流和控制流信息，语义图可以反映开发人员的意图，即语义图标识待搜索代码的语义信息。语义图的节点包括中间表示中出现的变量，类，操作符，以及API的名字。语义图的边有两种类型：数据流和控制流。语义图构建模块首先识别指令类型，然后根据指令类型构建相应的语义图。数据流相关指令包括运算指令和函数调用指令。运算相关指令是大多数语言中间表示的共有指令，通常包括一些一元运算，二元运算指令，而二元运算指令又包括加减乘除在内的算术指令，以及与或非在内的逻辑运算指令等；函数调用指令通常包含关键词“call/invoke”，函数名，函数参数以及返回值。控制流相关指令为包含关键词“br”的跳转指令，代表由当前作用域label应跳转至的下一个作用域label。

为了既能保留代码的语义，也能尽可能地保持不同类型编程语言的语义图表示的一致性，本实施例根据不同类型语言中间表示的特点来设定语义图构建规则，使得相同语义的多语言代码语义图尽可能相似。设备根据语言属性确定语义图构建规则，然后根据对应的构建规则构建语义图。例如，语言属性为Java语言，获取Java语言对应的第一构建规则，根据第一构建规则和Java待搜索代码的三地址指令格式的中间表示信息构建语义图。语言属性为Python语言，获取Python语言对应的第二构建规则，根据第二构建规则构建语义图，根据指令类型先将栈指令格式的中间表示信息转化为三地址指令中间表示信息。然后针对三地址指令中间表示构建语义图。

具体来说，设备中预先存储Java语言对应的第一构建规则，第一构建规则用于构建Java代码语义图。语言属性包括Java语言，设备遍历中间表示信息中包含的三地址指令，根据语言属性对应的第一构建规则构建Java代码语义图。具逐条分析三地址指令，当前指令为运算指令时，则将每个操作数节点连向操作符节点，再将操作符节点连向计算结果节点；当前指令为函数调用指令时，则将每个参数节点连向函数名节点，再将函数名节点连向返回值节点；当前指令为跳转指令时，则将跳转的条件节点连向跳转的label块节点。

举例来说，当遍历到指令“cnt = add cnt，1”的时候，发现是运算指令，因此将操作数节点cnt连向操作符节点add，将操作数节点1连向操作符节点add，最后再将操作符节点add连向计算结果节点cnt；当遍历到“br %cmp， label1，label4”的时候，发现是跳转指令，因此将跳转的条件节点%cmp分别连向跳转的label块节点label1和label4。这样遍历中间表示信息中包含的三地址指令得到Java代码语义图，如图2所示，图2为Java代码语义图的示意图，其中，虚线表示控制流依赖，实现表示数据流依赖，矩形框内为节点。

需要说明的是，在遍历中间表示信息中包含的三地址指令时，只有当前指令不为最后一条指令时，才对当前指令进行上述判断操作。当前指令为最后一条指令时，分析完所有的指令，无需在进行上述判断操作。即当遍历完所有的中间表示信息中包含的三地址指令时，设备寻找语义图中所有入度为0的节点，并将其所属的label块节点连向该label块内的所有入度为0的节点。

另一种实施方式中，语言属性还可以包括Python语言，即此时待搜索代码为多种语言代码，为了尽可能地保持不同类型编程语言的语义图表示的一致性，本实施例中根据不同类型语言中间表示的特点来设定语义图构建规则，使得相同语义的多语言代码语义图尽可能相似。设备中预先存储第二构建规则，对于Python语言的中间表示信息，设备根据语言属性对应的第二构建规则将栈指令格式的中间表示信息的格式由栈指令格式转化为三地址指令格式，并构建Python代码语义图。

其中，设备将栈指令格式的中间表示信息的格式由栈指令格式转化为三地址指令格式时，设备遍历栈指令，设备判断该指令是控制流相关指令还是数据流相关指令，如果是数据流相关指令，设备从栈中取出或压入数据，并将操作指令与相关的数据合并成三地址码形式；当前指令是控制流相关指令，设备根据指令信息找到接下来要执行的指令位置，然后在对应位置的前面添加label来表示控制执行的相关关系，最后根据指令意图生成“br”跳转指令。最后根据得到的三地址形式的中间表示数据构建Python代码语义图。

需要说明的是，在遍历中间表示信息中包含的栈指令时，只有当前指令不为最后一条指令时，才对当前指令进行上述判断操作。当前指令为最后一条指令时，分析完所有的指令，无需在进行上述判断操作。

S105：对所述语义图进行向量化处理，得到所述语义图对应的代码表示向量。

设备对语义图进行向量化处理，得到语义图的代码表示向量，语义图的代码表示向量即为代码语义，是对语义图特征的进一步的挖掘。设备中可以预先存储向量化处理策略，设备根据向量化处理策略对语义图进行处理，得到对应的代码标识向量。

具体来说，为了准确的进行语义图特征挖掘，设备可以利用神经网络模型来挖掘语义图特征。通过深度学习模型对代码语义的挖掘，将多语言代码语义映射到一个统一的向量空间。设备将语义图输入预先训练的DiffPool向量化神经网络模型进行处理，得到语义图对应的代码表示向量；其中，所述语义图对应的代码表示向量为一维实数向量，语义图对应的代码表示向量通常为的

一维向量。

其中，DiffPool图神经网络是2018年Neural Information Processing Systems会议上提出的图神经网络模型。DiffPool包含一个可微分的信息聚合模块，它可以以层次化和端到端方式适应各种图神经网络架构。在每一层，运行一个图神经网络模型获得节点的向量表示，再用这些向量表示将相似的节点进行聚类得到下一层的粗化输入，然后在这些粗化的图上运行另一个图神经网络层。整个过程重复N层，N可以设置为2，3，4等，然后使用最后的输出表示整个图的向量化表示。

本实施例中，利用了层次聚合图神经网络模型对代码语义图特征进行学习，兼顾了代码的层次信息，且使其将具有相同语义的不同语言代码映射到统一的向量空间，提升了跨语言搜索的效果。

S106：根据所述代码表示向量从候选代码中获取满足预设搜索条件的所述待搜索代码对应的目标代码。

设备中预先存储候选代码，设备根据代码表示向量从候选代码中获取满足预设搜索条件的待搜索代码对应的目标代码。具体来说，设备根据代码表示向量从候选代码中筛选出与待搜索代码最相似的代码作为目标代码。此处具体的筛选规则不做限制。

具体来说，设备可以获取候选代码及其对应的候选表示向量，其中，候选代码对应的候选表示向量的获取方法可以参照代码表示向量的获取方法，此处不再赘述。然后，设备计算代码表示向量和每个候选代码的候选表示向量之间的余弦距离，即设备计算候选代码与待搜索代码之间的相似度。最后，设备对所有余弦距离进行排序得到余弦距离序列，根据余弦距离序列得到满足预设搜索条件的所述待搜索代码对应的目标代码。设备可以将余弦距离序列中前K个对应的候选代码推荐给用户，K通常取值1，3，5，10。

其中，余弦距离的计算公式如下：

其中，代码表示向量为d，每个候选代码的候选表示向量为c。

本申请实施例中，获取待搜索代码，并且获取待搜索代码的语言属性；根据语言属性确定待搜索代码对应的中间表示提取规则；通过中间表示提取规则提取待搜索代码的中间表示信息；根据语言属性和中间表示信息构建语义图；对语义图进行向量化处理，得到语义图对应的代码表示向量；根据代码表示向量从候选代码中获取满足预设搜索条件的待搜索代码对应的目标代码。上述方案，通过提取待搜索代码的中间表示信息精准的挖掘待搜索代码中的一些深层次的语义信息，更多的关注待搜索代码的语义特征，大大提高了代码搜索的精度。此外，针对不同类型语言中间表示的特点，提取多语言代码中的数据流和控制流信息，为多语言构建了统一的语义图表示，从而减少了多语言代码表示的差异。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图3，图3是本申请第二实施例提供的代码搜索装置的示意图。包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图3，代码搜索装置3包括：

第一获取单元310，用于获取待搜索代码，并且获取所述待搜索代码的语言属性；其中，所述语言属性的数量为一个或者多个；

第一处理单元320，用于根据所述语言属性确定所述待搜索代码对应的中间表示提取规则；

第二处理单元330，用于通过所述中间表示提取规则提取所述待搜索代码的中间表示信息；

构建单元340，用于根据所述语言属性和所述中间表示信息构建语义图；其中，所述语义图标识所述待搜索代码的语义信息；

第三处理单元350，用于对所述语义图进行向量化处理，得到所述语义图对应的代码表示向量；

第二获取单元360，用于根据所述代码表示向量从候选代码中获取满足预设搜索条件的所述待搜索代码对应的目标代码。

进一步地，所述第一获取单元310，具体用于：

获取所述待搜索代码的语法关键词；

根据所述语法关键词识别出所述待搜索代码的语言属性。

进一步地，所述语言属性包括Java语言；

所述第二处理单元330，具体用于：

进一步地，所述第二处理单元330，具体还用于：

进一步地，所述语言属性包括Python语言；

所述第二处理单元330，具体用于：

进一步地，所述语言属性包括Java语言；

所述构建单元340，具体用于：

进一步地，所述语言属性还包括Python语言；

所述构建单元340，具体还用于：

进一步地，所述第三处理单元350，具体用于：

进一步地，所述第二获取单元360，具体用于：

获取候选代码及其对应的候选表示向量；

图4是本申请第三实施例提供的代码搜索设备的示意图。如图4所示，该实施例的代码搜索设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42，例如代码搜索程序。所述处理器40执行所述计算机程序42时实现上述各个代码搜索方法实施例中的步骤，例如图2所示的步骤101至106。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块310至360的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述代码搜索设备4中的执行过程。例如，所述计算机程序42可以被分割成第一获取单元、第一处理单元、第二处理单元、构建单元、第三处理单元、第二获取单元，各单元具体功能如下：

所述代码搜索设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是代码搜索设备4的示例，并不构成对代码搜索设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述代码搜索设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述代码搜索设备4的内部存储单元，例如代码搜索设备4的硬盘或内存。所述存储器41也可以是所述代码搜索设备4的外部存储设备，例如所述代码搜索设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，所述代码搜索设备4还可以既包括所述代码搜索设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述代码搜索设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例还提供了一种网络设备，该网络设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种代码搜索方法，其特征在于，包括：

遍历所述中间表示信息中包含的三地址指令，根据所述语言属性对应的第一构建规则构建Java代码语义图；其中，所述语言属性包括Java语言；所述第一构建规则包括：当所述三地址指令为运算指令时，将每个操作数节点连向操作符节点，并将所述操作符节点连向计算结果节点；当所述三地址指令为函数调用指令时，将每个参数节点连向函数名节点，并将所述函数名节点连向返回值节点；当所述三地址指令为跳转指令时，则将跳转的条件节点连向跳转的label块节点；

根据所述语言属性对应的第二构建规则将栈指令格式的所述中间表示信息的格式由栈指令格式转化为三地址指令格式，并构建Python代码语义图；其中，所述语言属性还包括Python语言；所述第二构建规则包括：当所述栈指令格式的所述中间表示信息为数据流指令，从栈中取出或压入数据，并将所述数据流指令与其对应的数据进行合并处理，并得到包含三地址指令的中间表示信息；当所述栈指令格式的所述中间表示信息为控制流指令，根据控制流指令找到待执行的目标位置，在所述目标位置的前添加label块节点，并根据指令意图生成跳转指令；当所述三地址指令为运算指令时，将每个操作数节点连向操作符节点，并将所述操作符节点连向计算结果节点；当所述三地址指令为函数调用指令时，将每个参数节点连向函数名节点，并将所述函数名节点连向返回值节点；当所述三地址指令为跳转指令时，则将跳转的条件节点连向跳转的所述label块节点；

2.如权利要求1所述的代码搜索方法，其特征在于，所述获取所述待搜索代码的语言属性，包括：

获取所述待搜索代码的语法关键词；

根据所述语法关键词识别出所述待搜索代码的语言属性。

3.如权利要求1所述的代码搜索方法，其特征在于，所述语言属性包括Java语言；

4.如权利要求3所述的代码搜索方法，其特征在于，在所述当所述待搜索代码可以进行正常编译时，将所述待搜索代码输入JLang工具进行处理，得到所述待搜索代码的中间表示信息之前，还包括：

5.如权利要求1所述的代码搜索方法，其特征在于，所述语言属性包括Python语言；

6.如权利要求1所述的代码搜索方法，其特征在于，所述对所述语义图进行向量化处理，得到所述语义图对应的代码表示向量，包括：

7.如权利要求1所述的代码搜索方法，其特征在于，所述根据所述代码表示向量从候选代码中获取满足预设搜索条件的所述待搜索代码对应的目标代码，包括：

获取候选代码及其对应的候选表示向量；

8.一种代码搜索装置，其特征在于，包括：

所述构建单元，具体用于：

所述构建单元，具体还用于：

9.一种代码搜索设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。