CN114625361A - 用于识别和解释代码的方法、装置和制品 - Google Patents

用于识别和解释代码的方法、装置和制品 Download PDF

Info

Publication number
CN114625361A
CN114625361A CN202111315709.7A CN202111315709A CN114625361A CN 114625361 A CN114625361 A CN 114625361A CN 202111315709 A CN202111315709 A CN 202111315709A CN 114625361 A CN114625361 A CN 114625361A
Authority
CN
China
Prior art keywords
code
query
parameter
database
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111315709.7A
Other languages
English (en)
Inventor
亚历杭德罗·伊巴拉·冯·博斯特尔
赫克托·科杜里尔·马鲁里
胡里奥·塞萨尔·萨莫拉·埃斯基维尔
乔治·伊曼纽尔·奥尔蒂斯·加西亚
吉列尔莫·安东尼奥·帕洛米诺·索萨
费尔南多·安布里兹·梅萨
大卫·以色列·冈萨雷斯·阿吉雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN114625361A publication Critical patent/CN114625361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/36Software reuse
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis
    • G06F8/436Semantic checking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于识别和解释代码的方法、装置、系统和制品。一种示例装置,包括:自然语言(NL)处理器,用于处理NL特征,以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;数据库驱动器,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括NL字符串的关键字、实体和意图的参数化语义查询;和应用程序编程接口(API),用于向所述用户呈现基于查询确定的代码片段,该代码片段是未注释的或非自记录的代码片段中的至少一种。

Description

用于识别和解释代码的方法、装置和制品
技术领域
本公开总体上涉及代码重用,并且更具体地涉及用于识别和解释代码的方法、装置和制品。
背景技术
程序员长期以来一直在一个程序中重用来自另一个程序的代码段。代码重用背后的一般原则是,从前编写的计算机程序的一部分可以用于构建以后编写的其他程序。代码重用的示例包括软件库,重用程序的先前版本作为新程序的起点、将现有程序的某些代码复制到新程序中等。
发明内容
根据本公开的实施例,提供了一种用于识别和解释代码的装置,所述装置包括:自然语言(NL)处理器,用于处理NL特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;数据库驱动器,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和应用程序编程接口(API),用于向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
根据本公开的实施例,提供了一种计算机可读介质,包括指令,所述指令在被执行时使得至少一个处理器至少:处理自然语言(NL)特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
根据本公开的实施例,提供了一种用于识别和解释代码的方法,所述方法包括:处理自然语言(NL)特征,以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
根据本公开的实施例,提供了一种用于识别和解释代码的装置,所述装置包括:用于处理自然语言(NL)的装置,用于处理NL特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;用于驱动数据库访问的装置,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和用于接口的装置,用于向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
附图说明
图1是包括示例语义搜索引擎的网络图。
图2是示出图1的示例语义搜索引擎的附加细节的框图。
图3是可以实现由图1和/或图2的语义搜索引擎执行的自然语言处理(NLP)模型和/或代码分类(CC)模型的贝叶斯神经网络(BNN)的示例拓扑的示意图。
图4是用于训练由图1和/或图2的语义搜索引擎执行的NLP模型的示例训练数据的图形说明。
图5是示出由图1和/或图2的语义搜索引擎执行以从图1的版本控制系统(VCS)生成示例本体元数据的示例过程的框图。
图6是由图2和/或图5的应用程序编程接口(API)针对包括注释和/或消息参数的提交生成的示例本体元数据的图形说明。
图7是在图2和/或图5的NL处理器已经识别了与图1和/或图5的VCS中的提交的一个或多个注释和/或消息参数相关联的意图之后存储在图1和/或图5的数据库中的示例本体元数据的图形说明。
图8是要由图2和/或图5的示例CC模型执行器处理以训练CC模型的示例特征的图形说明。
图9是示出由图1和/或图2的语义搜索引擎执行以处理来自图1的用户设备的查询的示例过程的框图。
图10是表示可以被执行来实现图1、图2和/或图5的语义搜索引擎以训练图2、图3和/或图5的NLP模型、生成本体元数据、并训练图2、图3和/或图5的CC模型的机器可读指令的流程图。
图11是表示可以被执行来实现图1、图2和/或图9的语义搜索引擎以利用图2、图3和/或图9的NLP模型和/或图2、图3和/或图9的CC模型处理查询的机器可读指令的流程图。
图12是被构造为执行图10和/或图11的指令以实现图1、图2、图5和/或图9的语义搜索引擎的示例处理平台的框图。
图13是示例软件分发平台的框图,该示例软件分发平台用于将软件(例如,对应于图12的示例计算机可读指令的软件)分发给由诸如消费者(例如,用于许可、销售和/或使用)、零售商(例如,用于销售、转售、许可和/或再许可)和/或原始设备制造商(OEM)(例如,用于包含在要分发给例如零售商和/或直接购买客户的产品中)拥有和/或操作的客户端设备。
附图不是按比例绘制的。通常,贯穿(一个或多个)附图和随附的书面描述将使用相同的附图标记来指代相同或相似的部件。如本文所使用的,除非另有说明,否则连接引用(例如,附接、耦合、连接和接合)可包括由连接引用所引用的元素之间的中间构件和/或这些元素之间的相对移动。因此,连接引用不一定暗示两个元素直接连接和/或彼此处于固定关系。
除非另有特别说明,否则诸如“第一”、“第二”、“第三”等的描述词在本文中使用而不以任何方式强加或以其他方式指示优先级、物理顺序、列表中的排列和/或排序的任何含义,而是仅用作标签和/或任意名称来区分元素以便于理解所公开的示例。在一些示例中,描述词“第一”可用于指代详细描述中的元素,而相同元素可在权利要求中用诸如“第二”或“第三”的不同描述词来指代。在这样的情况下,应当理解,这样的描述词仅用于清楚地标识那些可能例如以其他方式共享相同名称的元素。
具体实施方式
缩短新的软件和/或硬件产品的上市时间是一项非常具有挑战性的任务。例如,公司经常试图平衡许多变量,包括缩短开发时间、提高开发质量和降低开发成本(例如,开发中产生的货币支出)。通常,这些变量中的至少一个将受到负面影响,以缩短新产品的上市时间。然而,在致力于相同和/或类似项目的开发人员和/或开发团队之间高效和/或有效地重用源代码可以(例如,高度)有益于产品的研究和开发(R&D)上市时间。
代码重用对于新的和/或缺乏经验的开发人员来说是固有的挑战。例如,此类开发人员可能难以准确快速地识别适合其应用程序的源代码。开发人员通常在他们的代码(例如,源代码)中包括注释,以实现重用并指明某些代码行(LOC)的意图。与LOC的数量相比,包括许多注释的代码在本文中称为注释代码。附加地或替代地,代替注释,开发人员有时给函数和/或变量包括标签(例如,名称),这些标签(例如,名称)与函数和/或变量的使用和/或含义相关,以实现代码的重用。与(b)代码的函数和/或变量的数量相比,包括(a)带有与函数和/或变量的使用和/或含义相关的标签的许多函数和/或变量的代码在本文中称为自记录(self-documented)代码。
为了提高代码的重用,一些技术使用基于机器学习的自然语言处理(NLP)来分析注释和代码。人工智能(AI)(包括机器学习(ML)、深度学习(DL)和/或其他人工机器驱动逻辑)使机器(例如,计算机、逻辑电路等)能够使用模型来处理输入数据以基于模型先前经由训练过程学习的模式和/或关联生成输出。例如,可以用数据训练模型以识别模式和/或关联,并在处理输入数据时遵循这样的模式和/或关联,使得其他(一个或多个)输入产生与所识别的模式和/或关联一致的(一个或多个)输出。
通常,实现ML/AI系统涉及两个阶段:学习/训练阶段和推理阶段。在学习/训练阶段,训练算法被用于基于例如训练数据来训练模型根据模式和/或关联进行操作。通常,模型包括指导如何将输入数据转换为输出数据(例如通过模型内的一系列节点和连接将输入数据转换为输出数据)的内部参数。附加地,超参数用作训练过程的一部分,以控制如何执行学习(例如,学习率、机器学习模型中使用的层数等)。超参数被定义为在启动训练过程之前确定的训练参数。
可以基于ML/AI模型的类型和/或预期输出执行不同类型的训练。例如,监督训练使用输入和相应的预期(例如,标记)输出来为ML/AI模型选择减少模型误差的参数(例如,通过在选择参数的组合上进行迭代)。如本文所使用的,标记是指机器学习模型的预期输出(例如,分类、预期输出值等)。替代地,无监督训练(例如,用于深度学习、机器学习的子集等)涉及从输入推理模式以选择ML/AI模型的参数(例如,没有预期(例如,标记)输出的好处)。
改进代码重用的一种技术是找到注释和(一个或多个)LOC之间的语义相似性。这种技术将注释与代码中的关键字或实体相关联。在这种技术中,关键字是指代码中在特定上下文中具有特定含义的字词。例如,此类关键字通常与保留字重合,保留字是在给定的编程语言中不能用作标识符(例如,变量、函数或标签的名称)的字词。然而,这样的关键字不需要与保留字一一对应。例如,在某些语言中,所有关键字(如本技术中使用的)都是保留字,但并非所有保留字都是关键字。在C++中,保留字包括if、then、else等。C++中非保留字的关键字示例包括main。在这种技术中,实体指的是给定编程语言内的单元。在C++中,实体包括值、对象、引用、结构化绑定、函数、枚举器、类型、类成员、模板、模板特化、命名空间、参数包等。通常,实体包括标识符、分隔符、运算符、文字等。
改进代码重用的另一种技术基于代码和注释中的关键字和实体(entity)来确定方法的意图。这种技术从代码中提取方法名称、方法调用、枚举、字符串文字和注释。这种技术使用文本嵌入来生成提取的特征的向量表示。如果两个向量所代表的字词经常出现在相似的上下文中,则它们在向量空间中靠在一起。这种技术将代码的意图确定为嵌入向量的加权平均值。这种技术通过如下操作来返回给定NL查询的代码:为自然语言(NL)查询生成嵌入向量、确定NL查询的意图(例如,通过加权平均值)并针对方法的加权平均值执行相似性搜索。如本文所使用的,当引用NL文本时,关键字指的是描述软件开发过程的动作(例如,定义、恢复、违反、注释、公式等)。如本文所使用的,当引用NL文本时,实体是指描述源代码功能的字词的n-gram分组(例如,宏、标题等)。
当开发人员不注释或自记录他们的代码时,重用代码的挑战就会加剧,这使得开发人员找到合适的资源(例如,要重用的代码)和/或避免重新合成产品的产品特征或复合能力是很难的或不切实际的(例如,实际上不可能)。如下代码在本文被称为未注释代码:(1)不包括注释、(2)与LOC的数量相比包括非常少的注释、或(3)包括代码开发人员独有且其他人不清楚理解的约定中的注释。如下代码在本文中被称为非自记录代码:(1)不包括带有与函数和/或变量的使用和/或含义相关的标签的函数和/或变量、或(2)与(b)代码的函数和/或变量的数量相比包括的(a)带有与函数和/或变量的使用和/或含义相关的标签的函数和/或变量非常少。
改进代码重用的先前技术依赖于找到源代码中的注释、实体和记号(token)之间的关系以检测代码片段的意图。如本文所使用的,记号是指具有确定含义的字符串。记号包括记号名称和/或记号值。例如,NL文本中关键字的记号可能包括记号名称“keyword”和记号值“not equivalent”。附加地或替代地,代码中关键字的记号(如在先前技术中使用的)可以包括记号名称“keyword”和记号值“while”。先前技术随后基于检测到的意图执行动作。然而,如上所述,在现实世界场景中,大多数代码是未注释或非自记录的。因此,先前技术在现实场景中非常低效和/或无效。在使用先前技术时,开发人员的这些不良做法(例如,未能对代码进行注释或未能自记录代码)导致源代码的意图检测性能不佳。因此,先前技术无法在诸如从版本控制系统(VCS)生成的数据集中找到源代码示例。因此,先前技术负面地(例如,高度负面地)影响软件和/或硬件产品的开发和交付时间。
本文公开的示例包括代码搜索引擎,用于执行语义搜索以查找和/或推荐代码片段,即使代码片段的开发人员没有遵循良好的文档实践(例如,注释和/或自记录)。为了将NL查询与代码匹配,本文公开的示例将VCS内容的本体表示与注释和代码意图(例如,代码片段开发意图)的概率分布(PD)建模(例如,通过一个或多个贝叶斯神经网络(BNN))合并。本文公开的示例使用良好记录的(例如,注释和/或自记录的)代码的本体表示的实体和/或关系来训练一个或多个BNN。因此,本文公开的示例概率性地将意图与未注释的代码片段相关联。因此,本文公开的示例提供不确定性和上下文感知智能代码完成。
本文公开的示例合并自然语言处理和/或自然语言理解、概率计算和知识表示技术以对VCS的内容(例如,源代码和/或相关联的参数)进行建模。因此,本文公开的示例将VCS的内容表示为有意义的本体表示,使得能够对代码片段进行语义搜索,否则由于原始源代码中缺乏可读语义结构(例如,注释和/或自记录的),这将是不可能的。本文公开的示例处理自然语言查询,将自然语言查询的意图与未注释和/或非自记录代码片段相匹配,并推荐如何使用未注释和/或非自记录代码片段。本文公开的示例处理原始未注释和/或非自记录代码片段,识别代码片段的意图,并返回与代码片段的意图相关的一组VCS提交审查。
因此,本文公开的示例通过使开发人员能够更好地重用他们的资源(例如,可以重用的代码)来加速新产品(例如,软件和/或硬件)的上市时间。例如,本文公开的示例防止开发人员必须从头开始编写解决方案,例如,当在其他存储库中找不到解决方案时(例如,堆栈溢出)。因此,本文公开的示例缩短了开发新产品的公司的上市时间。
图1是包括示例语义搜索引擎102的网络图100。网络图100包括示例语义搜索引擎102、示例网络104、示例数据库106、示例VCS 108和示例用户设备110。在图1的示例中,示例语义搜索引擎102、示例数据库106、示例VCS 108、示例用户设备110和/或一个或多个附加设备经由示例网络104通信耦合。
在图1所示的示例中,语义搜索引擎102由一个或多个执行指令的处理器实现。例如,语义搜索引擎102可以由一个或多个处理器来实现,该处理器执行一个或多个经过训练的机器学习模型和/或执行指令以实现一个或多个ML模型的外围组件,例如预处理器、特征提取器、模型训练器、数据库驱动器、应用程序编程接口(API)等。在附加或替代示例中,语义搜索引擎102可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元((一个或多个)GPU)、(一个或多个)数字信号处理器((一个或多个)DSP)、(一个或多个)专用集成电路((一个或多个)ASIC)、(一个或多个)可编程逻辑器件((一个或多个)PLD)和/或(一个或多个)现场可编程逻辑器件((一个或多个)FPLD)实现。
在图1所示的示例中,语义搜索引擎102由一个或多个控制器实现,这些控制器训练语义搜索引擎102的其他组件(例如一个或多个BNN)以生成VCS 108的可搜索本体表示(在此进一步讨论),确定NL查询的意图,和/或解释包括代码片段的查询(例如,注释的、未注释的、自记录的和/或非自记录的)。在附加或替代示例中,语义搜索引擎102可以实现任何其他ML/AI模型。在图1的示例中,语义搜索引擎102向终端用户提供一种或多种服务和/或产品。例如,语义搜索引擎102提供一个或多个经过训练的模型以供下载、托管网络界面等。在一些示例中,语义搜索引擎102向终端用户提供实现语义搜索引擎102的插件。以这种方式,终端用户可以在本地(例如,在用户设备110处)实现语义搜索引擎102。
在一些示例中,示例语义搜索引擎102实现用于识别和解释代码的示例装置。用于识别和解释代码的装置由(例如由至少图10的块1002、1004、1006、1008、1010、1012、1014、1016、1018、1020、1022、1024、1026、1028、1030、1032、1034、1036、1038和1040和/或至少图11的块1102、1104、1106、1108、1110、1112、1114、1116、1118、1120、1122、1124、1126、1128、1130、1132和1134实现的)可执行指令实现。图10的块1002、1004、1006、1008、1010、1012、1014、1016、1018、1020、1022、1024、1026、1028、1030、1032、1034、1036、1038和1040和/或图11的块1102、1104、1106、1108、1110、1112、1114、1116、1118、1120、1122、1124、1126、1128、1130、1132和1134的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上实现。在其他示例中,用于识别和解释代码的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图1所示的示例中,网络104是互联网。然而,示例网络104可以使用任何合适的有线和/或无线网络来实现,包括例如一个或多个数据总线、一个或多个局域网(LAN)、一个或多个无线LAN、一个或多个蜂窝网络、一个或多个专用网络、一个或多个公共网络等。在附加或替代示例中,网络104是企业网络(例如,在企业、公司等内)、家庭网络等。示例网络104使语义搜索引擎102、数据库106、VCS 108和用户设备110能够进行通信。如本文所使用的,短语“与…通信”包括其变体(例如,通信、通信耦合等)涵盖直接通信和/或通过一个或多个中间组件的间接通信,并且不需要直接物理(例如,有线)通信和/或持续通信,而是包括以周期性或非周期性间隔的选择性通信,以及一次性事件。
在图1所示的示例中,数据库106由图形数据库(GDB)实现。例如,作为GDB,数据库106将存储在数据库106中的数据与各种节点和边相关联,其中边表示节点之间的关系。这些关系允许将存储在数据库106中的数据链接在一起,使得可以在单个查询中检索相关数据。在图1的示例中,数据库106由一个或多个Neo4J图形数据库实现。在附加或替代示例中,数据库106可以由一个或多个ArangoDB图形数据库、一个或多个OrientDB图形数据库、一个或多个Amazon Neptune图形数据库等来实现。例如,数据库106的合适实现将能够通过文本(例如,字符串)相似性度量隐式地或显式地存储源代码意图的概率分布。
在图1所示的示例中,VCS 108由与VCS平台相关联的一个或多个计算机和/或一个或多个存储器实现。在一些示例中,VCS 108包括的组件可以是分布式的(例如,地理上不同的)。在图1的示例中,VCS 108管理对计算机程序、网站和/或其他信息集合的更改。VCS 108的用户(例如,经由用户设备110访问VCS 108的开发人员)可以编辑由VCS 108管理的程序和/或其他代码。为了编辑代码,开发人员在由VCS 108管理的代码的最新版本的工作副本上进行操作。当开发人员到达他们想要将他们的编辑与VCS 108处的最新版本代码合并的点时,开发人员向VCS 108提交他们的更改。VCS 108然后更新代码的最新版本以反映跨VCS108的所有实例的代码的工作副本。在一些示例中,VCS 108可以回滚提交(例如,当开发人员想要查看程序的之前版本时)。VCS 108的用户(例如,审阅者、未起草代码的其他用户等)可以在提交中对代码应用注释和/或向代码的起草者发送消息以审阅和/或以其他方式改进提交中的代码。
在图1所示的示例中,VCS 108由与Gerrit Code Review平台相关联的一个或多个计算机和/或一个或多个存储器实现。在附加或替代示例中,实现VCS 108的一个或多个计算机和/或一个或多个存储器可以与另一个VCS平台(例如AWS CodeCommit、MicrosoftTeam Foundation Server、Git、Subversion等)相关联。在图1的示例中,向VCS 108的提交与诸如更改、主题、消息、修订、文件、代码行、注释和diff参数之类的参数相关联。更改参数对应于VCS 108处的提交的标识符。主题参数对应于开发人员在提交中请求的更改。消息参数对应于提交的审阅者发布的消息。修订参数对应于主题的修订号,因为同一主题可以有多个修订。文件参数对应于提交所修改的文件。代码行参数对应于审阅者注释的LOC。注释参数对应于审阅者留下的注释。diff参数指定提交是添加到源实现的先前版本还是从源实现的先前版本中移除。
在图1所示的示例中,用户设备110由膝上型计算机实现。在附加或替代示例中,用户设备110可以由移动电话、平板计算机、台式计算机、服务器等实现,包括一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD。用户设备110可以附加地或替代地由CPU、GPU、加速器、异构系统等来实现。
在图1所示的示例中,用户设备110从语义搜索引擎102订阅和/或以其他方式购买产品和/或服务以访问一个或多个经过训练的机器学习模型,以对VCS进行本体建模、识别NL查询的意图、基于NL查询的意图返回从数据库中检索到的代码片段、处理包括未注释和/或非自记录代码片段的查询、并返回代码片段的意图和/或相关的VCS提交。例如,用户设备110通过从语义搜索引擎102下载一个或多个模型、访问由语义搜索引擎102和/或另一设备托管的网络界面以及其他技术来访问一个或多个经过训练的模型。在一些示例中,用户设备110安装插件以实现机器学习应用程序。在这样的示例中,插件实现语义搜索引擎102。
在示例操作中,语义搜索引擎102访问并从VCS 108中提取针对给定提交的信息。例如,语义搜索引擎102针对提交从VCS 108中提取更改、主题、消息、修订、文件、代码行、注释和diff参数。语义搜索引擎102生成包括从VCS 108提取的信息的元数据结构。例如,元数据结构对应于提交内容的本体表示。在本文公开的示例中,提交的本体表示包括与提交相关联的数据的图形表示(例如,节点、边等)并且图示了类别、属性以及与提交相关联的数据之间的关系。例如,与提交关联的数据包括更改、主题、消息、修订、文件、代码行、注释和diff参数。
在示例操作中,对于包括注释和/或消息参数的提交,语义搜索引擎102用经过训练的自然语言处理(NLP)机器学习模型预处理注释和/或消息参数。在语义搜索引擎102预处理了注释和/或消息参数之后,语义搜索引擎102从注释和/或消息参数中提取NL特征。语义搜索引擎102处理NL特征。例如,语义搜索引擎102基于NL特征识别注释和/或消息参数的一个或多个实体、一个或多个关键字、和/或一个或多个意图,并且用(例如,元数据结构中的存储)识别的实体、关键字和/或意图更新元数据结构。附加地或替代地,语义搜索引擎102为提交生成另一元数据结构,包括提交的简化本体表示,包括所识别的(一个或多个)意图。语义搜索引擎102还为附加提交提取元数据。
在本文公开的示例中,每个识别的意图对应于指定确定性参数或不确定性参数中的至少一个的概率分布(PD)。确定性和不确定性参数对应于语义搜索引擎102在识别的意图中的置信水平。例如,确定性参数对应于由语义搜索引擎102执行的ML/AI模型识别意图的置信度平均值,而不确定性参数对应于识别的意图的标准差。因此,本文公开的示例基于与实体相关的开发意图概率分布生成VCS本体实体之间的加权关系。在示例操作中,基于从VCS 108的提交生成的一个或多个元数据结构,包括识别的意图以及确定性和不确定性参数,语义搜索引擎102生成用于语义搜索引擎102的代码分类(CC)机器学习模型的训练数据集。随后,语义搜索引擎102用该训练数据集训练语义搜索引擎102的CC模型。
在示例操作中,在CC机器学习模型被训练之后,语义搜索引擎102部署CC模型来处理VCS 108中不包括注释和/或消息参数的提交的代码。例如,语义搜索引擎102预处理没有注释和/或消息参数的提交,为这些提交生成代码片段特征,并用CC模型处理代码片段特征以从没有注释和/或消息参数的提交中识别代码的意图。以这种方式,语义搜索引擎102处理代码片段特征以从没有注释和/或消息参数的提交中识别代码的意图。语义搜索引擎102然后用所识别的代码的意图补充数据库106中的元数据结构。
在示例操作中,语义搜索引擎102还处理NL查询和/或代码片段查询。例如,语义搜索引擎102在语义搜索引擎102本地部署NLP模型和/或CC模型以分别处理NL查询和/或代码片段查询。附加地或替代地,语义搜索引擎102将NLP模型、CC模型和/或其他组件部署到用户设备110以实现语义搜索引擎102。
在示例操作中,在部署NLP模型和CC模型之后,语义搜索引擎102就查询监视用户界面。例如,语义搜索引擎102就来自用户(例如,开发人员)的查询监视由语义搜索引擎102托管的网络应用的界面。附加地或替代地,如果语义搜索引擎102在用户设备(例如,用户设备110)处在本地实现,则语义搜索引擎102就来自用户的查询监视在用户设备上本地执行的应用程序的界面。当语义搜索引擎102接收到查询时,语义搜索引擎102确定查询包括代码片段还是NL输入。在本文公开的示例中,代码片段查询包括注释的、未注释的、自记录的和/或非自记录的代码片段。
在示例操作中,当查询是NL查询时,语义搜索引擎102预处理NL查询,从NL查询中提取NL特征,并处理NL特征以确定NL查询的意图、实体和关键字。随后,语义搜索引擎102以NL查询的意图查询数据库106。当查询是代码片段查询时,语义搜索引擎102预处理代码片段查询,从代码片段提取特征,处理代码片段特征,并以代码片段的意图查询数据库106。如果数据库106返回对查询的一个或多个匹配,则语义搜索引擎102根据语义搜索引擎102为每个匹配结果确定的确定性参数或不确定性参数中的至少一个来排序和呈现匹配。如果数据库106没有返回对查询的匹配,则语义搜索引擎102呈现“不匹配”消息(本文将进一步讨论)。
图2是示出图1的示例语义搜索引擎102的附加细节的框图。在图2的示例中,语义搜索引擎102包括示例API 202、示例NL处理器204、示例代码分类器206、示例数据库驱动器208和示例模型训练器210。示例NL处理器204包括示例NL预处理器212、示例NL特征提取器214和示例NLP模型执行器216。示例代码分类器206包括示例代码预处理器218、示例代码特征提取器220和示例CC模型执行器222。
在图2所示的示例中,API 202、NL处理器204、代码分类器206、数据库驱动器208、模型训练器210、NL预处理器212、NL特征提取器214、NLP模型执行器216、代码预处理器218、代码特征提取器220和/或CC模型执行器222中的任意项经由示例通信总线224进行通信。在本文公开的示例中,可以使用任何合适的有线和/或无线通信来实现通信总线224。在附加或替代示例中,通信总线224包括软件、机器可读指令和/或通信协议,通过通信协议在API202、NL处理器204、代码分类器206、数据库驱动器208、模型训练器210、NL预处理器212、NL特征提取器214、NLP模型执行器216、代码预处理器218、代码特征提取器220和/或CC模型执行器222之间传送信息。
在图2所示的示例中,API 202由一个或多个执行指令的处理器实现。附加地或替代地,API 202可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD来实现。在图2的示例中,API 202经由网络104访问VCS 108。API 202还针对给定提交从VCS 108提取元数据。例如,API 202提取包括变更、主题、消息、修订、文件、代码行、注释和/或diff参数的元数据。API 202生成元数据结构以将提取的元数据存储在数据库106中。API 202还确定VCS 108内是否存在要为其生成元数据结构的附加提交。
在图2所示的示例中,API 202附加地或替代地充当用户和语义搜索引擎102之间的用户接口。例如,API 202监视用户查询。API 202附加地或替代地确定是否已经接收到查询。响应于确定已经接收到查询,API 202确定查询包括代码片段还是NL输入。例如,API202确定用户是否选择了指示查询是包括NL输入还是代码片段的复选框。API 202可以采用附加的或替代的技术来确定查询是包括NL输入还是代码片段。如果查询包括NL输入,则API202将查询转发到NL处理器204。如果查询包括代码片段,则API 202将查询转发到代码分类器206。
在一些示例中,示例API 202实现用于接口的示例装置。用于接口的装置由(例如由至少图10的块1008、1010、1012和1024和/或至少图11的块1102、1104、1106、1128、1132和1134实现的)可执行指令实现。图10的块1008、1010、1012和1024和/或图11的块1102、1104、1106、1128、1132和1134的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于接口的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,NL处理器204由一个或多个执行指令的处理器实现。附加地或替代地,NL处理器204可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD实现。在训练了由NL处理器204执行的NLP模型之后,NL处理器204确定VCS 108处的各种提交是否包括注释和/或消息参数。NL处理器204处理与从VCS 108提取的一个或多个提交相对应的注释和/或消息参数。NL处理器204还确定注释和消息参数的意图并针对给定的提交补充存储在数据库106中的元数据结构。
附加地或替代地,NL处理器204处理并确定NL查询的意图。例如,NL处理器204被配置为从NL字符串中提取NL特征。附加地,NL处理器204被配置为处理NL特征以确定NL字符串的意图。在一些示例中,如果两个不同的NL查询的语义相同或足够相似,则NL处理器204将使数据库驱动器208以相同的查询来查询数据库106。因此,如果查询的语义含义足够相似,则数据库106可以针对不同的NL查询返回相同的结果。
在一些示例中,示例NL处理器204实现用于处理自然语言的示例装置。用于处理自然语言的装置由(例如由至少图10的块1014、1016、1018、1020和1022和/或至少图11的块1108、1110、1112和1114实现的)可执行指令实现。图10的块1014、1016、1018、1020和1022和/或图11的块1108、1110、1112和1114的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于处理自然语言的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,代码分类器206由一个或多个执行指令的处理器实现。附加地或替代地,代码分类器206可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD实现。在由代码分类器206执行的CC模型被训练之后,代码分类器206在VCS 108处处理不包括注释和/或消息参数的提交的代码以确定代码意图。附加地或替代地,代码分类器206处理代码片段查询(例如,未注释的和非自记录的代码片段)以确定查询的意图。例如,代码分类器206被配置为提取和处理代码片段特征以识别代码意图。在一些示例中,可以训练CC模型以提供特定代码片段的预期意图。
在一些示例中,示例代码分类器206实现用于分类代码的示例装置。用于分类代码的装置由(例如由至少图10的块1032、1034、1036、1038和1040和/或至少图11的块1116、1118、1120和1122实现的)可执行指令实现。图10的块1032、1034、1036、1038和1040和/或图11的块1116、1118、1120和1122的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于分类代码的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,数据库驱动器208由一个或多个执行指令的处理器实现。附加地或替代地,数据库驱动器208可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD实现。在图2的示例中,数据库驱动器208由Neo4j Python Driver 4.1实现。在附加或替代示例中,数据库驱动器208可以由ArangoDB Java驱动器、OrientDB Spring Data驱动器、Gremlin-Node驱动器等来实现。在一些示例中,数据库驱动器208可以由数据库接口、数据库通信器、语义查询生成器等来实现。
在图2所示的示例中,数据库驱动器208响应于来自API 202、NLP模型执行器216和/或CC模型执行器222的输入来存储和/或更新存储在数据库106中的元数据结构。数据库驱动器208附加地或替代地用NL处理器204生成的结果和/或代码分类器206生成的结果查询数据库106。例如,当查询包括NL输入时,数据库驱动器208以NL处理器204确定的查询的意图和NL特征查询数据库106。当查询包括代码片段时,数据库驱动器208以代码分类器206确定的代码片段的意图查询数据库106。在本文公开的示例中,数据库驱动器208以Cypher查询语言生成对数据库106的语义查询。取决于数据库106的实现方式,可以使用其他查询语言。
在图2所示的示例中,数据库驱动器208确定数据库106是否针对给定查询返回任何匹配。响应于确定数据库106没有返回任何匹配,数据库驱动器208向API 202发送“不匹配”消息以呈现给用户。例如,“不匹配”消息向用户表明查询未产生匹配,并建议用户从头开始开发。响应于确定数据库106返回了一个或多个匹配,数据库驱动器208根据结果的相应确定性或不确定性参数中的至少一个对结果进行排序。数据库驱动器208还将排序的结果传输到API 202以呈现给请求用户。
在一些示例中,示例数据库驱动器208实现用于驱动数据库访问的示例装置。用于驱动数据库访问的装置由(例如由至少图11的块1124、1126和1130实现的)可执行指令实现。图11的块1124、1126和1130的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于驱动数据库访问的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,模型训练器210由一个或多个执行指令的处理器实现。附加地或替代地,模型训练器210可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD实现。在图2的示例中,模型训练器210训练NLP模型和/或CC模型。
在图2所示的示例中,模型训练器210训练NLP模型以确定提交的注释和/或消息参数的意图。在本文公开的示例中,模型训练器210使用称为“Adam”的自适应学习率优化算法来训练NLP模型。“Adam”算法执行随机梯度下降的优化版本。然而,可以附加地或替代地使用任何其他训练算法。在本文公开的示例中,执行训练直到NLP模型以大于97%的平均确定性和/或小于15%的平均不确定性返回注释和/或消息参数的意图。在本文公开的示例中,在语义搜索引擎102处执行训练。然而,在附加或替代示例中(例如,当用户设备110执行插件以实现语义搜索引擎102时),可以在用户设备110和/或任何其他终端用户设备处执行训练。
在本文公开的示例中,使用控制如何执行学习的超参数(例如,学习率、要在机器学习模型中使用的层数等)来执行对NLP模型的训练。在本文公开的示例中,超参数控制NLP模型的层数、训练数据中的样本数等。例如,通过手动选择来选择此类超参数。例如,当网络中的不确定性大于确定性时,可以调整超参数。在一些示例中,可以执行重新训练。这种重新训练可以周期性地和/或响应于触发事件(例如检测到意图检测的平均确定性已经下降到97%以下和/或意图检测的平均不确定性已经上升到15%以上)来执行。其他事件可能会触发重新训练。
使用训练数据执行训练。在本文公开的示例中,NLP模型的训练数据源自本地生成的数据。但是,在附加或替代示例中,可以使用公开可用的训练数据来训练NLP模型。NLP模型的训练数据的附加细节将结合图4进行讨论。因为使用了监督训练,所以对训练数据进行标记。由监督对NLP模型训练的个体将标记应用于NLP模型的训练数据。在一些示例中,对NLP模型训练数据进行预处理以例如提取诸如关键字和实体的特征,从而促进训练数据的NLP。
训练完成后,NLP模型将被部署用作可执行构造,该构造处理输入并提供基于NLP模型中定义的节点和连接的网络的输出。NLP模型的示例结构结合图3进行了说明和讨论。NLP模型存储在语义搜索引擎102处。NLP模型然后可由NLP模型执行器216执行。在一些示例中,用户设备110的一个或多个处理器执行NLP模型。
在图2所示的示例中,模型训练器210训练CC模型以确定代码片段查询的意图。在本文公开的示例中,模型训练器210使用称为“Adam”的自适应学习率优化算法来训练CC模型。“Adam”算法执行随机梯度下降的优化版本。然而,可以附加地或替代地使用任何其他训练算法。在本文公开的示例中,执行训练直到CC模型以大于97%的平均确定性和/或小于15%的平均不确定性返回代码片段的意图。在本文公开的示例中,在语义搜索引擎102处执行训练。然而,在附加或替代示例中(例如,当用户设备110执行插件以实现语义搜索引擎102时),可以在用户设备110和/或任何其他终端用户设备处执行训练。
在本文公开的示例中,使用控制如何执行学习的超参数(例如,学习率、要在机器学习模型中使用的层数等)来执行对CC模型的训练。在本文公开的示例中,超参数控制CC模型的层数、训练数据中的样本数等。例如,通过手动选择来选择此类超参数。例如,当网络中的不确定性大于确定性时,可以调整超参数。在一些示例中,可以执行重新训练。这种重新训练可以周期性地和/或响应于触发事件(例如检测到意图检测的平均确定性已经下降到97%以下和/或平均不确定性已经上升到15%以上)来执行。其他触发事件可能会导致重新训练。
使用训练数据执行训练。在本文公开的示例中,CC模型的训练数据是基于经过训练的NLP模型的输出生成的。例如,NLP模型执行器216执行NLP模型以确定VCS 108的各种提交的注释和/或消息参数的意图。NLP模型执行器216然后用意图补充用于提交的元数据结构。然而,在附加或替代示例中,NLP模型可以处理公开可用的训练数据以生成CC模型的训练数据。CC模型的训练数据的附加细节将结合图7和/或图8进行讨论。因为使用了监督训练,所以训练数据被标记。由NLP模型和/或基于由NLP模型识别的关键字、实体和/或意图手动地将标记应用于CC模型的训练数据。在一些示例中,CC模型训练数据被预处理以例如提取诸如代码片段的记号和/或抽象语法树(AST)特征之类的特征以促进代码片段的分类。
训练完成后,CC模型被部署用作可执行构造,该构造处理输入并提供基于CC模型中定义的节点和连接的网络的输出。CC模型的示例结构结合图3被示出和讨论。CC模型存储在语义搜索引擎102处。CC模型然后可以由CC模型执行器222执行。在一些示例中,用户设备110的一个或多个处理器执行CC模型。
一旦经过训练,(一个或多个)部署模型就可以在推理阶段运行以处理数据。在推理阶段,要分析的数据(例如,实时数据)被输入到模型中,并且模型执行以创建输出。这个推理阶段可以被认为是AI“思考”以基于它从训练中学到的东西(例如,通过执行模型以将学到的模式和/或关联应用于实时数据)来生成输出。在一些示例中,输入数据在用作机器学习模型的输入之前经过预处理。此外,在一些示例中,输出数据在由AI模型生成后可经历后处理,以将输出转换为有用的结果(例如,数据的显示、机器要执行的指令等)。
在一些示例中,部署模型的输出可以被捕获并作为反馈被提供。通过分析反馈,可以确定部署模型的准确性。如果反馈表明部署模型的准确性低于阈值或其他标准,则可以使用反馈和更新的训练数据集、超参数等触发对更新模型的训练,以生成更新的部署模型。
在一些示例中,示例模型训练器210实现用于训练机器学习模型的示例装置。用于训练机器学习模型的装置由(例如由至少图10的块1002、1004、1006、1026、1028和1030实现的)可执行指令实现。图10的块1002、1004、1006、1026、1028和1030的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于训练机器学习模型的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,NL预处理器212由一个或多个执行指令的处理器实现。附加地或替代地,NL预处理器212可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD实现。在图2的示例中,NL预处理器212预处理NL查询、注释参数和/或消息参数。例如,NL预处理器212将NL查询、注释参数和/或消息参数的文本分离成字词、短语和/或其他单元。在一些示例中,NL预处理器212通过访问VCS 108和/或基于从API 202接收的数据来确定VCS 108处的提交是否包括注释和/或消息参数。
在一些示例中,示例NL预处理器212实现用于预处理自然语言的示例装置。用于预处理自然语言的装置由(例如由至少图10的块1014和1016和/或至少图11的块1108实现的)可执行指令实现。图10的块1014和1016和/或图11的块1108可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于预处理自然语言的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,NL特征提取器214由一个或多个执行指令的处理器实现。附加地或替代地,NL特征提取器214可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD实现。在图2的示例中,NL特征提取器214从预处理的NL查询、注释参数和/或消息参数中提取和/或以其他方式生成特征。例如,NL特征提取器214为预处理的NL查询、注释参数和/或消息参数的关键字和/或实体生成记号。例如,记号代表NL查询、注释参数和/或消息参数中的字词和/或其中的词汇。
在附加或替代示例中,NL特征提取器214从预处理的NL查询、注释参数和/或消息参数生成词性(PoS)和/或依赖性(Deps)特征。PoS特征表示记号的标签(例如,名词、动词、副词、形容词、介词等)。Deps特征表示NL查询、注释参数和/或消息参数中的记号之间的依赖性。NL特征提取器214还嵌入记号以创建代表从给定NL查询、注释参数和/或消息参数提取的所有记号的输入向量。NL特征提取器214还嵌入PoS特征以创建表示由NL查询、注释参数、和/或消息参数中的记号表示的字词的类型(例如,名词、动词、副词、形容词、介词等)的输入向量。NL特征提取器214还嵌入Deps特征以创建表示NL查询、注释参数和/或消息参数中的原始记号之间的关系的输入向量。NL特征提取器214合并记号输入向量、PoS输入向量和Deps输入向量以创建对NLP模型的更通用的输入向量,其允许NLP模型更好地识别任何自然语言域中的自然语言的意图。
在一些示例中,示例NL特征提取器214实现用于提取自然语言特征的示例装置。用于提取自然语言特征的装置由(例如由至少图10的块1018和/或至少图11的块1110实现的)可执行指令实现。图10的块1018和/或图11的块1110的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于提取自然语言特征的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,NLP模型执行器216由一个或多个执行指令的处理器实现。附加地或替代地,NLP模型执行器216可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD来实现。在图2的示例中,NLP模型执行器216执行本文描述的NLP模型。
在图2所示的示例中,NLP模型执行器216执行BNN模型。在附加或替代示例中,NLP模型执行器216可以执行不同类型的机器学习模型和/或机器学习架构存在。在本文公开的示例中,使用BNN模型使NLP模型执行器216能够在处理NL查询、注释参数和/或消息参数时确定确定性和/或不确定性参数。通常,适合在本文公开的示例方法中使用的机器学习模型/架构将包括概率计算技术。
在一些示例中,示例NLP模型执行器216实现用于执行NLP模型的示例装置。用于执行NLP模型的装置由(例如由至少图10的块1020和1022和/或至少图11的块1112和1114实现的)可执行指令实现。图10的块1020和1022和/或图11的块1112和1114的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于执行NLP模型的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,代码预处理器218由一个或多个执行指令的处理器实现。附加地或替代地,代码预处理器218可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD来实现。在图2的示例中,代码预处理器218在没有注释和/或消息参数的情况下预处理来自VCS 108的代码片段查询和/或代码。例如,代码预处理器218将代码片段转换成文本并将文本分离成字词、短语和/或其他单元。
在一些示例中,示例代码预处理器218实现用于预处理代码的示例装置。用于预处理代码的装置由(例如由至少图10的块1032和1040和/或至少图11的块1116实现的)可执行指令实现。图10的块1032和1040和/或图11的块1116的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于预处理代码的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合实现。
在图2所示的示例中,代码特征提取器220由一个或多个执行指令的处理器实现。附加地或替代地,代码特征提取器220可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD来实现。在图2的示例中,代码特征提取器220实现抽象语法树(AST)以从来自VCS 108的没有注释和/或消息参数的预处理的代码片段查询和/或代码中提取和/或以其他方式生成特征。例如,代码特征提取器220生成记号和代码部分(PoC)特征。记号表示代码中的字词、短语和/或其他单元和/或其中的句法。PoC特征表示由AST为记号生成的增强标签。代码特征提取器220附加地或替代地识别记号的类型(例如,由AST确定)。PoC记号和记号类型特征一起生成至少两个特征序列以用作CC模型的输入。
在图2所示的示例中,代码特征提取器220还嵌入记号以创建表示从来自VCS 108处的提交的给定代码片段查询和/或代码提取的所有记号的输入向量。代码特征提取器220还嵌入PoC特征以创建表示由来自VCS108处的提交的代码片段查询和/或代码中的记号表示的字词类型(例如,变量、运算符等)的输入向量。代码特征提取器220合并记号输入向量和PoC输入向量以为CC模型创建更通用的输入向量,其允许CC模型更好地识别任何编程语言域中的代码意图。例如,为了训练CC模型以确定任何编程语言域中的代码的意图,模型训练器210用训练数据集训练CC模型,该训练数据集包括代码片段的AST,但是使用用户或模型训练器210希望CC模型理解的各种编程语言。
在一些示例中,示例代码特征提取器220实现用于提取代码特征的示例装置。用于提取代码特征的装置由(例如由至少图10的块1034和/或至少图11的块1118实现的)可执行指令实现。图10的块1034和/或图11的块1118的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于提取代码特征的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
在图2所示的示例中,CC模型执行器222由一个或多个执行指令的处理器实现。附加地或替代地,CC模型执行器222可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)GPU、(一个或多个)DSP、(一个或多个)ASIC、(一个或多个)PLD和/或(一个或多个)FPLD来实现。在图2所示的示例中,CC模型执行器222执行本文描述的CC模型。
在图2所示的示例中,CC模型执行器222执行BNN模型。在附加或替代示例中,CC模型执行器222可以执行不同类型的机器学习模型和/或机器学习架构存在。在本文公开的示例中,使用BNN模型使CC模型执行器222能够在处理来自VCS 108处的提交的代码片段查询和/或代码时确定确定性和/或不确定性参数。通常,适合在本文公开的示例方法中使用的机器学习模型/架构将包括概率计算技术。
在一些示例中,示例CC模型执行器222实现用于执行CC模型的示例装置。用于执行CC模型的装置由(例如由至少图10的块1036和1038和/或至少图11的块1120和1122实现的)可执行指令实现。图10的块1036和1038和/或图11的块1120和1122的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,用于执行CC模型的装置由硬件逻辑、硬件实现的状态机、逻辑电路和/或硬件、软件和/或固件的任何其他组合来实现。
图3是可以实现由图1和/或图2的语义搜索引擎102执行的NLP模型和/或CC模型的贝叶斯神经网络(BNN)300的示例拓扑的示意图。在图3的示例中,BNN 300包括示例输入层302、示例隐藏层306和310以及示例输出层314。示例输入层302包括示例输入神经元302a,示例隐藏层306包括示例隐藏神经元306a、306b和306n,示例隐藏层310包括示例隐藏神经元310a、310b和310n,并且示例输出层314包括示例神经元314a、314b和314n。在图3的示例中,输入神经元302a、隐藏神经元306a、306b、306n、310a、310b、310n和输出神经元314a、314b和314n中的每一个根据激活函数h(x)处理输入。
在图3所示的示例中,BNN 300是人工神经网络(ANN),其中层(例如,302、306、310和314)之间的权重通过分布来定义。例如,输入神经元302a耦合到隐藏神经元306a、306b和306n,并且根据概率分布函数(PDF)分别将权重304a、304b和304n应用于输入神经元302a的输出。类似地,权重308应用于隐藏神经元306a、306b和306n的输出并且权重312应用于隐藏神经元310a、310b和310n的输出。
在图3所示的示例中,描述权重304、308和312的PDF中的每一个根据下面的等式1来定义。
w0,0~N(μ0,0,σ0,0)
等式1
在等式1的示例中,权重被定义为给定均值(μ)和给定标准差(σ)的正态分布。因此,在推理阶段期间,从概率权重分布中生成样本,以获得应用于神经元输出的权重“快照”。根据该“快照”执行通过BNN 300的数据传播或前向传递。根据给定应用的目标确定性和/或不确定性,通过BNN 300的数据传播执行多次(例如,大约20-40次试验甚至更多)。
图4是用于训练由图1和/或图2的语义搜索引擎102执行的NLP模型的示例训练数据400的图形说明。训练数据400表示用于NL处理器204的概率意图检测的训练数据集。训练数据400包括五列,这五列指定LOC、应用于该LOC的示例注释和/或消息参数的文本、示例注释和/或消息参数的意图、示例注释和/或消息参数的实体、以及示例注释和/或消息参数的关键字。
在图4所示的示例中,NLP模型执行器216将LOC的注释和/或消息参数的实体和关键字(例如,由NL特征提取器214提取)与意图检测(例如,由NLP模型执行器216确定)相组合以确定改进的文本语义解释。在训练数据400中,注释和/或消息参数的意图包括“回答功能”、“指示错误”、“查询功能”、“增强功能”、“调用功能”、“实现代码”、“查询实现”、“跟踪实现”、“增强风格”和“实现算法”。
在图4所示的示例中,对于第一LOC(用零索引表示),注释和/或消息参数的文本是“您能否为幻数定义宏?(此处全部更改)”。幻数是指具有无法解释的含义和/或可以被命名常量替换的多次出现的独特值。第一LOC上的注释和/或消息参数的意图是“实现代码”和“跟踪实现”。第一LOC上的注释和/或消息参数的实体是“幻数|:|算法,宏|:|代码”。第一LOC的注释和/或消息参数的关键字是“定义、更改”。
在图4所示的示例中,对于最小Linux虚拟环境中的小数据集(例如250个样本),模型训练器210在36.5秒和30次迭代中训练NLP模型。在图4的示例中,在推理阶段运行时,NLP模型对单个输入执行10次推理,执行时间为1.6秒。例如,NLP模型处理句子“默认非零”。10次的平均值和测试句子“默认非零”的标准差如表1所示。
平均值 标准差
0.073 0.097
0.071 0.105
0.050 0.122
0.105 0.085
-0.066 0.105
-0.017 0.063
-0.018 0.116
0.033 0.102
0.010 0.105
0.716 0.095
表1
在图4所示的示例中,NLP模型将“跟踪实现”标签分配给正确类别的测试句子。基于这些结果,本文公开的示例通过增加的(例如,大于或等于250)训练样本实现了足够的准确度和降低(例如,低)的不确定性。
图5是示出由图1和/或图2的语义搜索引擎102执行的从图1的VCS 108生成示例本体元数据502的示例过程500的框图。过程500示出了被执行以生成本体元数据502的三个流水线。这三个流水线包括元数据生成、自然语言处理和未注释代码分类。在图5的示例中,当API 202从VCS 108提取相关信息时元数据生成流水线开始。API 202还生成可由数据库驱动器208使用的元数据结构(例如,502)。在图5的示例中,API 202为VCS 108中的提交提取变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数和/或diff参数。
在图5所示的示例中,自然语言处理流水线是概率深度学习流水线,该概率深度学习流水线可由语义搜索引擎102执行以确定注释和/或消息参数对应于特定意图(例如,开发意图)的概率分布。当NL预处理器212确定给定提交是否包括注释和/或消息参数时,自然语言处理流水线开始。如果提交包括注释和/或消息参数,则NL预处理器212通过将VCS 108中的提交的注释和/或消息参数的文本分离成字词、短语和/或其他单元来预处理该注释和/或消息参数。随后,NL特征提取器214通过为预处理的注释和/或消息参数的关键字和/或实体生成记号来从注释和/或消息参数中提取NL特征。附加地或替代地,NL特征提取器214从预处理的注释和/或消息参数生成PoS和Deps特征并且合并记号、PoS特征和Deps特征。
在图5所示的示例中,NLP模型执行器216(例如,执行经过训练的NLP模型)将提取的NL特征与注释和/或消息参数的意图相组合并且补充本体元数据502。例如,NLP模型执行器216为包括注释和/或消息参数的代码确定伴随本体的确定性和/或不确定性参数。因此,NLP模型执行器216生成将注释和/或消息与注释和/或消息的相应开发意图相关联的自然语言注释和/或消息的概率分布模型。
在图5所示的示例中,模型训练器210然后可以在离线过程(未示出)中使用补充的本体元数据502来训练代码分类器206。在图5的示例中,通常被称为管理员的人类监督者和/或程序可以使用包括已知意图和/或已知相关代码片段的一个或多个NL查询来查询语义搜索引擎102。随后,NLP模型执行器216和/或管理员使用NLP模型执行器216的输出,可以将语义搜索引擎102的输出与NL查询的意图、NL查询的关键字、NL查询的实体和/或预期代码输出的相关修订(例如,后续提交)相关联。NLP模型执行器216和/或管理员通过组合注释和/或消息参数的意图(例如“实现算法”、“实现代码”和/或调用函数”)与诸如“幻数”和/或“函数1”的实体来标记从VCS 108检索的代码片段的意图。基于这样的组合,NLP模型执行器216和/或管理员为代码生成标签,例如“实现幻数”和/或“调用函数1”。NLP模型执行器216和/或管理员基于附加或替代意图、关键字和/或实体为从VCS 108检索的代码生成附加或替代标签。NLP模型执行器216和/或管理员可以重复该过程以生成CC模型的训练数据集的附加数据。
在图5所示的示例中,当代码预处理器218预处理用于VCS 108处的不包括注释和/或消息参数的提交的代码时,未注释代码分类流水线开始。例如,代码预处理器218从最初由API 202为缺少注释和/或消息参数的提交生成的本体元数据502中提取代码行参数。例如,代码预处理器218通过将代码转换为文本并将文本分成字词、短语和/或其他单元来预处理代码。随后,代码特征提取器220通过为预处理代码的字词、短语和/或其他单元生成记号来从预处理代码生成特征向量。附加地或替代地,代码特征提取器220生成PoC特征。代码特征提取器220附加地或替代地识别记号的类型(例如,由AST确定)。
在图5所示的示例中,CC模型执行器222然后在没有注释和/或自记录的帮助的情况下执行经过训练的CC模型以识别代码片段的意图。例如,CC模型执行器222为不包括注释和/或消息参数的代码确定伴随本体的确定性和/或不确定性参数。因此,CC模型执行器222生成将代码与代码的开发意图相关联的未注释和/或非自记录代码的概率分布模型。这样,当用户使用语义搜索引擎102运行NL查询时,语义搜索引擎102针对代码(具有识别的意图)运行查询以返回具有与NL查询的意图相关的意图的代码列表。
图6是由图2和/或图5的API 202生成的用于包括注释和/或消息参数的提交的示例本体元数据600的图形说明。本体元数据600表示示例更改参数602、示例主题参数604、示例消息参数606、示例修订参数608、示例文件参数610、示例代码行参数612、示例注释参数614和示例diff参数616。更改参数602、主题参数604、消息参数606、修订参数608、文件参数610、代码行参数612、评论参数614和diff参数616被表示为本体元数据600中的节点。本体元数据600图示了VCS 108的本体的一部分。例如,本体元数据600表示与单个更改602a相关的实体。因为本体元数据600可通过Cypher查询语言在数据库106内访问,所以语义搜索引擎102可以查询与单个更改相关的实体。
在图6所示的示例中,参数602、604、606、608、610、612、614和616之间的关系由边表示。例如,本体元数据600包括示例Have_Message边618、示例Have_Revision边620、示例Have_Subject边622、示例Have_File边624、示例Have_Diff边626、示例Have_Commented_Line边628和示例Have_Comment边630。在图6的示例中,每个边包括身份(ID)参数和值参数。例如,Have_Diff边626d包括示例ID参数632和示例值参数634。ID参数632等于23521并且值参数634等于“已添加”。ID参数632和值参数634指示Diff参数616d被添加到先前的实现中。通常,由于审阅者和/或开发人员的习惯,开发人员在代码中包含与单行代码相关的注释。Diff参数616和对应的Have_Diff边626(例如,Diff参数616d和文件参数610a之间的Have_Diff边626d)允许语义搜索引擎102识别更多代码(例如,大于一个LOC)以与审阅者和/或开发人员添加的注释和/或消息的意图相关。
图7是在图2和/或图5的NL处理器204已经识别出与图1和/或图5的VCS 108中的提交的一个或多个注释和/或消息参数相关联的意图之后存储在图1和/或图5的数据库106中的示例本体元数据700的图形说明。本体元数据700表示示例更改参数702、示例修订参数704、示例文件参数706、示例代码行参数708、示例注释参数710和示例意图参数712。更改参数702、修订参数704、文件参数706、代码行参数708、注释参数710和意图参数712被表示为本体元数据700中的节点。本体元数据700示出了在NLP模型执行器216组合初始元数据(例如,由API 202提取)与代码行注释和/或消息参数的一个或多个开发意图之后的简化元数据结构。
在图7所示的示例中,参数702、704、706、708、710和712之间的关系由边表示。例如,本体元数据700包括示例Have_Revision边714、示例Have_File边716、示例Have_Commented_Line边718、示例Have_Comment边720和示例Have_Intent边722。在图7的示例中,每个Have_Intent边722包括ID参数、确定性参数和不确定性参数。例如,Have_Intent边722a包括示例ID参数724、示例确定性参数726和示例不确定性参数728。ID参数724等于2927,确定性参数726等于0.33554475703313114,不确定性参数728等于0.09396910065673011。
在图7所示的示例中,注释参数710a的值是“为什么要删除?”并且意图参数712a的值为“查询功能”。因此,注释参数710a和意图参数712a之间的Have_Intent边722a说明了两个节点之间的关系。确定性和不确定性参数726、728由NLP模型执行器216确定。通过添加注释和/或消息参数的意图的PDF,NLP模型执行器216有效地分配与注释和/或消息参数相关的代码片段的意图的概率。因此,NLP模型执行器216可以(例如,单独地和/或在管理员的帮助下)扩充存储在数据库106中的元数据结构以生成用于代码分类器206的训练数据集。
图8是要由图2和/或图5的示例CC模型执行器222处理以训练CC模型的示例特征800的图形说明。例如,特征800表示代码意图检测数据集。代码特征提取器220通过AST提取特征800并生成具有识别的记号类型的一个或多个记号。附加地或替代地,代码特征提取器220提取PoC特征。以这种方式,代码特征提取器220生成被输入到由CC模型执行器222执行的CC模型(例如,用于嵌入层)的至少两个特征序列。
在图8所示的示例中,管理员可以用一个或多个NL查询来查询语义搜索引擎102,该NL查询包括已知意图和/或已知相关代码片段。随后,NLP模型执行器216和/或管理员使用NLP模型执行器216的输出,可以将语义搜索引擎102的输出与NL查询的意图、NL查询的关键字、NL查询的实体和/或预期代码输出的相关修订(例如,后续提交)相关联。NLP模型执行器216和/或管理员通过将注释和/或消息参数的意图与实体相组合来标记从VCS 108检索的代码片段的意图。
图9是示出由图1和/或图2的语义搜索引擎102执行的、用于处理来自图1的用户设备110的查询的示例过程900的框图。过程900示出了由语义搜索引擎102促进的语义搜索过程。过程900可以在NLP模型和CC模型都已经被训练和部署之后开始。例如,在训练了NLP模型和CC模型之后,语义搜索引擎102为VCS 108生成本体。语义搜索引擎102处理两个NL查询,包括代表开发人员查询和/或原始代码片段(例如,未注释和/或非自记录代码片段)的文本。
在图9所示的示例中,过程900示出了被执行以提取如下查询的含义的两个流水线:该查询将由数据库驱动器208使用以生成对数据库106的语义查询。这两个流水线包括自然语言处理和未注释代码分类。在图9的示例中,API 202托管用户通过其提交查询的界面。例如,API 202托管网络界面。
在图9所示的示例中,API 202针对用户查询监视界面。响应于检测到查询,API202确定查询包括代码片段还是NL输入。响应于确定查询包括NL输入,API 202将查询转发到NL处理器204。响应于确定查询包括代码片段,API 202将查询转发到代码分类器206。
在图9所示的示例中,当用户(例如,开发人员)向语义搜索引擎102发送NL查询以咨询存储在数据库106中的本体(例如,至少表示为本体元数据600和/或本体元数据700)时,NL处理器204检测文本的意图并提取NL特征(例如,实体和/或关键字)以完成参数化语义查询的条目(例如,以Cypher查询语言)。例如,NL预处理器212将NL查询的文本分成字词、短语和/或其他单元。附加地或替代地,NL特征提取器214通过为预处理的NL查询的关键字和/或实体生成记号和/或从预处理的NL查询生成PoS和Deps特征,来从预处理的NL查询提取和/或以其他方式生成特征。NL特征提取器214合并记号、PoS和Deps特征。随后,NLP模型执行器216确定NL查询的意图并将意图和提取的NL特征提供给数据库驱动器208。
在图9所示的示例中,数据库驱动器208用意图和提取的NL特征查询数据库106。数据库驱动器208确定数据库106是否以不确定性的阈值水平返回任何匹配。例如,当数据库驱动器208查询数据库106时,数据库驱动器208指定不确定性的阈值水平,高于该阈值水平数据库106不应返回结果,或者,替代地,返回没有结果的指示。例如,结果中较低的不确定性对应于更准确的结果,而结果中较高的不确定性对应于不太准确的结果。因此,NLP模型执行器216用来确定意图的确定性和/或不确定性参数被包括在查询中。如果数据库106返回代码片段的匹配,则数据库驱动器208根据包括在其中的确定性和/或不确定性参数对结果进行排序。随后,数据库驱动器208返回包括匹配语义查询参数的一组代码片段的查询结果902。在本文公开的示例中,当查询结果902包括代码片段时,这些代码片段包括未注释和/或非自记录代码。如果数据库106没有返回任何匹配,则数据库驱动器208向API 202发送“不匹配”消息作为查询结果902。随后,API 202向用户呈现“不匹配”消息。
在图9所示的示例中,当用户发送代码片段查询时,代码分类器206检测代码片段查询的意图。例如,代码预处理器218将代码片段转换为文本并将代码片段查询的文本分离为字词、短语和/或其他单元。附加地或替代地,代码特征提取器220实现AST以提取和/或以其他方式生成包括以下中的一个或多个的特征向量:字词、短语和/或其他单元的记号;PoC特征;和/或记号的类型(例如,由AST确定)。CC模型执行器222确定代码片段的意图,而不管代码片段是否包括注释和/或代码片段是否是自记录的。CC模型执行器222将意图转发到数据库驱动器208以查询数据库106。代码分类器206处理的示例代码片段结合表2示出。
Figure BDA0003343555620000321
Figure BDA0003343555620000331
表2
在图9所示的示例中,代码分类器206将表2中所示的代码片段的意图识别为“实现递归二进制搜索功能”。在图9的示例中,数据库驱动器208执行参数化语义查询(例如,以Cypher查询语言)并返回来自本体的一组注释参数,这些参数与相关提交的代码片段查询和/或其他参数的意图相匹配。例如,数据库驱动器208以如CC模型执行器222所确定的意图来查询数据库106。例如,数据库驱动器208向数据库106发送查询,该查询包括CC模型执行器222用来确定意图包含在该查询中的确定性和/或不确定性参数。匹配代码片段的意图的、来自本体的相关提交的注释参数和/或其他参数的结果集描述了代码片段查询中所包括的代码片段的功能性。数据库驱动器208确定数据库106是否返回具有不确定性阈值水平的任何匹配。例如,数据库106返回低于不确定性阈值水平并且包括匹配意图的条目。如果数据库106为代码片段查询返回注释和/或其他参数,则数据库驱动器208根据包括在其中的确定性和/或不确定性参数对结果进行排序。随后,数据库驱动器208将包括匹配语义查询参数的一组VCS提交的查询结果902返回给API 202以呈现给请求用户。例如,VCS提交集包括注释参数、消息参数和/或意图参数,这些参数允许开发人员快速理解查询中包含的代码片段。如果数据库106没有返回任何匹配,则数据库驱动器208向API 202发送“不匹配”消息作为查询结果902。随后,API 202向请求用户呈现“不匹配”消息。
虽然图2示出了实现图1的语义搜索引擎102的示例方式,但是图2中所示的元素、过程和/或装置中的一个或多个可以以任何其他方式组合、划分、重新布置、省略、消除和/或实现。此外,图1和/或图2的示例应用程序编程接口(API)202、示例自然语言(NL)处理器204、示例代码分类器206、示例数据库驱动器208、示例模型训练器210、示例自然语言(NL)预处理器212、示例自然语言(NL)特征提取器214、示例自然语言处理(NLP)模型执行器216、示例代码预处理器218、示例代码特征提取器220、示例代码分类(CC)模型执行器222、和/或更一般地示例语义搜索引擎102可以由硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,图1和/或图2的示例应用程序编程接口(API)202、示例自然语言(NL)处理器204、示例代码分类器206、示例数据库驱动器208、示例模型训练器210、示例自然语言(NL)预处理器212、示例自然语言(NL)特征提取器214、示例自然语言处理(NLP)模型执行器216、示例代码预处理器218、示例代码特征提取器220、示例代码分类(CC)模型执行器222、和/或更一般地示例语义搜索引擎102中的任意可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元(GPU)、(一个或多个)数字信号处理器(DSP)、(一个或多个)专用集成电路(ASIC)、(一个或多个)可编程逻辑器件(PLD)和/或(一个或多个)现场可编程逻辑器件(FPLD)实现。当阅读本专利的任何装置或系统权利要求以涵盖纯软件和/或固件实现时,图1和/或图2的示例应用程序编程接口(API)202、示例自然语言(NL)处理器204、示例代码中的至少一个分类器206、示例数据库驱动器208、示例模型训练器210、示例自然语言(NL)预处理器212、示例自然语言(NL)特征提取器214、示例自然语言处理(NLP)模型执行器216、示例代码预处理器218、示例代码特征提取器220、示例代码分类(CC)模型执行器222、和/或更一般地示例语义搜索引擎102中的至少一个在此明确定义为包括非暂态计算机可读存储设备或存储盘,例如存储器、数字多功能盘(DVD)、压缩盘(CD)、蓝光盘等,包括软件和/或固件。更进一步,除了或代替图2所示的那些元素、过程和/或设备,图1和/或图2的示例语义搜索引擎102可以包括一个或多个元素、过程和/或设备,和/或可以包括任何或所有所示元素、过程和装置中的一个以上。如本文所使用的,短语“与…通信”(包括其变体)包括直接通信和/或通过一个或多个中间组件的间接通信,并且不需要直接物理(例如,有线)通信和/或持续通信,而是附加地包括以周期性间隔、预定间隔、非周期性间隔和/或一次性事件的选择性通信。
图10和图11中示出了表示用于实现图1、图2、图5和/或图9的语义搜索引擎102的示例硬件逻辑、机器可读指令、硬件实现的状态机和/或其任何组合的流程图。机器可读指令可以是由计算机处理器和/或处理器电路(例如以下结合图12讨论的示例处理器平台1200中所示的处理器1212)执行的一个或多个可执行程序或可执行程序的(一个或多个)部分。程序可以体现在存储在非暂态计算机可读存储介质(例如CD-ROM、软盘、硬盘驱动器、DVD、蓝光盘或与处理器1212相关联的存储器)上的软件中,但是整个程序和/或其部分可以替代地由除处理器1212之外的设备执行和/或体现在固件或专用硬件中。在本文公开的一些示例中,非暂态计算机可读存储介质被称为非暂态计算机可读介质。此外,虽然示例程序是参照图10和图11所示的流程图进行描述的,但是可以替代地使用实现示例语义搜索引擎102的许多其他方法。例如,可以改变块的执行顺序,和/或可以改变、消除或组合所描述的一些块。附加地或替代地,任何或所有块可以由被构造成在不执行软件或固件的情况下执行相应的操作的一个或多个硬件电路(例如,分立和/或集成模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)实现。处理器电路可以分布在不同的网络位置和/或一个或多个设备(例如,单个机器中的多核处理器、跨服务器机架分布的多个处理器等)本地。
本文描述的机器可读指令可以以压缩格式、加密格式、分段格式、编译格式、可执行格式、打包格式等中的一种或多种存储。本文描述的机器可读指令可以存储为可用于创建、制造和/或产生机器可执行指令的数据或数据结构(例如,指令、代码、代码表示等的部分)。例如,机器可读指令可以被分段并存储在位于网络或网络集合的相同或不同位置(例如,在云中、在边设备中等)的一个或多个存储设备和/或计算设备(例如,服务器)上。机器可读指令可能需要安装、修改、改编、更新、组合、补充、配置、解密、解压、解包、分发、重新分配、编译等中的一种或多种,以使其直接由计算设备和/或其他机器可读、可解释和/或可执行。例如,机器可读指令可以存储在多个部分中,这些部分被分别压缩、加密并存储在单独的计算设备上,其中这些部分在解密、解压缩和组合时形成一组实现可以一起形成程序(例如这里描述的程序)的一个或多个功能的可执行指令。
在另一个示例中,机器可读指令可以被存储在它们可以被处理器电路读取的状态下,但是需要添加库(例如,动态链接库(DLL))、软件开发工具包(SDK)、应用程序编程接口(API)等,以便在特定计算设备或其他设备上执行指令。在另一个示例中,在机器可读指令和/或相应的程序可以全部或部分执行之前,可能需要配置机器可读指令(例如,存储的设置、数据输入、记录的网络地址等)。因此,本文使用的机器可读介质可以包括机器可读指令和/或(一个或多个)程序,而不管机器可读指令和/或(一个或多个)程序在存储或以其他方式静止或传输时的特定格式或状态。
本文描述的机器可读指令可以用任何过去、现在或将来的指令语言、脚本语言、编程语言等来表示。例如,机器可读指令可以使用以下任何一种语言来表示:C、C++、Java、C#、Perl、Python、JavaScript、超文本标记语言(HTML)、结构化查询语言(SQL)、Swift等。
如上所述,图10和/或图11的示例过程可以使用存储在非暂态计算机和/或机器可读介质(例如硬盘驱动器、闪存、只读存储器、压缩盘、数字多功能盘、高速缓存、随机存取存储器和/或任何其他存储设备或存储盘,其中信息存储任何持续时间(例如,延长的时间段,永久地,简短的瞬间,临时缓冲,和/或缓存信息))上的可执行指令(例如,计算机和/或机器可读指令)实现。如本文所使用的,术语非暂态计算机可读介质被明确地定义为包括任何类型的计算机可读存储设备和/或存储盘并且不包括传播信号并且不包括传输介质。
“包括”和“包含”(及其所有形式和时态)在本文中用作开放性术语。因此,每当权利要求采用任何形式的“包括”或“包含”(例如,包含、包括、组成、构成、具有等)作为前序或在任何类型的权利要求叙述内时,应理解为在不超出相应权利要求或引用的范围的情况下,可以存在附加元素、术语等。如本文所使用的,当短语“至少”用作例如权利要求前序中的过渡术语时,它以与术语“包含”和“包括”开放性相同的方式开放性。术语“和/或”当以例如A、B和/或C的形式使用时是指A、B、C的任何组合或子集,例如(1)A单独,(2)B单独,(3)C单独,(4)A与B,(5)A与C,(6)B与C,以及(7)A与B和C。如本文在描述结构、组件、项目、对象和/或事物的上下文中所使用的,短语“A和B中的至少一个”旨在指代包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任意的实现。类似地,如本文在描述结构、组件、项目、对象和/或事物的上下文中所使用的,短语“A或B中的至少一个”旨在指代包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任意的实现。如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用的,短语“A和B中的至少一个”旨在指代包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任意的实现。类似地,如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用的,短语“A或B中的至少一个”旨在指代包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任意的实现。
如本文所使用的,单数引用(例如,“一”、“一个”、“第一”、“第二”等)不排除复数。如本文所使用的,术语“一”或“一个”实体是指该实体中的一个或多个。术语“一”(或“一个”)、“一个或多个”和“至少一个”在本文中可以互换使用。此外,尽管单独列出,但多个装置、元素或方法动作可以由例如单个单元或处理器来实现。此外,虽然单独的特征可能被包括在不同的示例或权利要求中,但这些特征可能被组合,并且包括在不同的示例或权利要求中并不意味着特征的组合是不可行的和/或有利的。
图10是表示可以被执行以实现图1、图2和/或图5的语义搜索引擎102以训练图2、图3和/或图5的NLP模型、生成本体元数据、并训练图2、图3和/或图5的CC模型的机器可读指令1000的流程图。机器可读指令1000开始于块1002,其中模型训练器210训练NLP模型以对NL查询的意图、注释参数和/或消息参数进行分类。例如,在块1002处,模型训练器210使NLP模型执行器216对训练数据(例如,训练数据400)执行NLP模型。
在图10所示的示例中,在块1004处,模型训练器210确定NLP模型是否满足一个或多个误差度量。例如,模型训练器210确定NLP模型是否能够正确识别具有大于97%的确定性参数和小于15%的不确定性参数的NL字符串的意图。响应于模型训练器210确定NLP模型满足一个或多个误差度量(块1004:是),机器可读指令1000进行到块1006。响应于模型训练器210确定NLP模型满足不满足一个或多个误差度量(块1004:否),机器可读指令1000返回块1002。
在图10所示的示例中,在块1006处,模型训练器210部署NLP模型以在推理阶段执行。在块1008处,API 202访问VCS 108。在块1010处,API 202从VCS 108提取用于提交的元数据。例如,元数据包括更改参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数和/或diff参数。在块1012处,API 202生成元数据结构,该元数据结构包括从VCS108提取的用于提交的元数据。例如,元数据结构可以是诸如结合图6所示和描述的本体表示。
在图10所示的示例中,在块1014处,NL预处理器212和/或更一般地NL处理器204确定提交是否包括注释和/或消息参数。响应于NL预处理器212确定提交包括注释和/或消息参数(块1014:是),机器可读指令1000进行到块1016。响应于NL预处理器212确定提交不包括注释并且不包括消息参数(块1014:否),机器可读指令1000进行到块1024。在块1016处,NL处理器204预处理提交的注释和/或消息参数。例如,在块1016处,NL预处理器212通过将注释和/或消息参数的文本分成字词、短语和/或其他单元来预处理提交的注释和/或消息参数。
在图10所示的示例中,在块1018处,NL处理器204从预处理的注释和/或消息参数生成NL特征。例如,在块1018处,NL特征提取器214通过为预处理的注释和/或消息参数的关键字和/或实体生成记号来从预处理的注释和/或消息参数中提取和/或以其他方式生成特征。附加地或替代地,在块1018处,NL特征提取器214从预处理的注释和/或消息参数生成PoS和Deps特征。
在图10所示的示例中,在块1020处,NL处理器204用NLP模型处理NL特征。例如,在块1020处,NLP模型执行器216以NL特征作为输入来执行NLP模型以确定注释和/或消息参数的意图。在块1022处,NL处理器204用所识别的意图、关键字和/或实体来补充提交的元数据结构。例如,在块1022处,NLP模型执行器216用识别的意图、关键字和/或实体补充提交的元数据结构。在块1022处,NL处理器204还用所识别的意图的确定性和/或不确定性参数来补充提交的元数据结构。例如,在块1022处,NLP模型执行器216还用所识别的意图的确定性和/或不确定性参数来补充提交的元数据结构。
在图10所示的示例中,在块1024处,API 202确定在VCS 108处是否存在附加提交。响应于API 202确定存在附加提交(块1024:是),机器可读指令1000返回到块1010。响应于API 202确定不存在附加提交(框1024:否),机器可读指令1000进行到块1026。在块1026处,模型训练器210使用如上所述的补充元数据训练CC模型。
在图10所示的示例中,在块1028处,模型训练器210确定CC模型是否满足一个或多个误差度量。例如,模型训练器210确定CC模型是否能够正确地识别具有大于97%的确定性参数和小于15%的不确定性参数的代码片段的意图。响应于模型训练器210确定CC模型满足一个或多个误差度量(块1028:是),机器可读指令1000进行到块1030。响应于模型训练器210确定CC模型不满足一个或多个误差度量(块1028:否),机器可读指令1000返回块1026。在块1030处,模型训练器210部署CC模型以在推理阶段执行。
在图10所示的示例中,在块1032处,代码分类器206预处理提交的代码。例如,在块1032处,代码预处理器218通过将代码转换为文本并将文本分成字词、短语和/或其他单元来预处理提交的代码。在块1034处,代码分类器206从预处理的代码生成代码片段特征。例如,在块1034处,代码特征提取器220通过为字词、短语和/或其他单元生成记号来从预处理的代码中提取和/或以其他方式生成特征。附加地或替代地,在块1034处,代码特征提取器220从预处理的代码和/或记号的记号类型生成PoC特征。
在图10所示的示例中,在块1036处,代码分类器206用CC模型处理代码片段特征。例如,在块1036处,CC模型执行器222以代码片段特征作为输入来执行CC模型以确定代码的意图。在块1038处,代码分类器206用所识别的代码意图补充提交的元数据结构。例如,在块1038处,CC模型执行器222用所识别的意图补充提交的元数据结构。在块1038处,代码分类器206还用所识别的意图的确定性和/或不确定性参数来补充提交的元数据结构。例如,在块1038处,CC模型执行器222还用所识别的意图的确定性和/或不确定性参数补充提交的元数据结构。
在图10所示的示例中,在块1040处,代码预处理器218和/或更一般地代码分类器206在没有注释参数和没有消息参数的情况下确定VCS 108处是否存在附加提交。响应于代码预处理器218在没有注释参数和没有消息参数的情况下确定在VCS 108处存在附加提交(块1040:是),机器可读指令1000返回到块1032。响应于代码预处理器218在没有注释参数和没有消息参数的情况下确定在VCS 108处没有附加提交(块1040:否),机器可读指令1000终止。
图11是表示可以被执行以实现图1、图2和/或图9的语义搜索引擎102以利用图2、图3和/或图9的NLP模型和/或图2、图3和/或图9的CC模型处理查询的机器可读指令1100的流程图。机器可读指令1100开始于块1102,其中API 202监视查询。在块1104处,API 202确定是否已经接收到查询。响应于API 202确定已接收到查询(块1104:是),机器可读指令1100进行到块1106。响应于API 202确定尚未接收到查询(块1104:否),机器可读指令1100返回到块1102。
在图11所示的示例中,在块1106处,API 202确定查询是否包括代码片段。响应于API 202确定查询包括代码片段(块1106:是),机器可读指令1100进行到块1116。响应于API202确定查询不包括代码片段(块1106:否),机器可读指令1100进行到块1108。在块1108处,NL处理器204预处理NL查询。例如,在块1108处,NL预处理器212通过将NL查询的文本分成字词、短语和/或其他单元来预处理NL查询。在本文公开的示例中,NL查询包括由自然语言查询(例如,句子)表示的文本。
在图11所示的示例中,在块1110处,NL处理器204从预处理的NL查询生成NL特征。例如,在块1110处,NL特征提取器214通过为预处理的NL查询的关键字和/或实体生成记号来从预处理的NL查询提取和/或以其他方式生成特征。附加地或替代地,在块1110处,NL特征提取器214从预处理的NL查询生成PoS和Deps特征。在一些示例中,在块1110处,NL特征提取器214将记号、PoS特征和Deps特征合并成单个输入向量。
在图11所示的示例中,在块1112处,NL处理器204用NLP模型处理NL特征。例如,在块1112处,NLP模型执行器216以NL特征作为输入来执行NLP模型以确定NL查询的意图。在块1114处,NL处理器204将NL查询的意图、关键字和/或实体传送到数据库驱动器208。例如,在块1114处,NLP模型执行器216传送NL查询的意图、关键字和/或实体到数据库驱动器208。
在图11所示的示例中,在块1116处,代码分类器206预处理代码片段查询。例如,在块1116处,代码预处理器218将代码片段转换成文本并将代码片段查询的文本分离成字词、短语和/或其他实体。在本文公开的示例中,代码片段查询包括宏、函数、结构、模块和/或可以编译和/或解释的任何其他代码。例如,代码片段查询可以包括JSON、XML和/或其他类型的结构。在块1118处,代码分类器206从预处理的代码片段查询中提取特征。例如,在块1118处,代码特征提取器220提取和/或以其他方式生成包括以下中的一个或多个的特征向量:字词、短语和/或其他单元的记号;PoC特征;和/或记号类型。在一些示例中,在块1118处,代码特征提取器220将记号、PoC特征和记号类型合并为单个输入向量。
在图11所示的示例中,在块1120处,代码分类器206用CC模型处理代码片段特征。例如,在块1120处,CC模型执行器222对代码片段特征执行CC模型以确定代码片段的意图。在此处公开的示例中,CC模型执行器222识别代码片段的意图,而不管代码片段是否包括注释和/或代码片段是否是自记录的。在块1122处,代码分类器206将代码片段的意图传送到数据库驱动器208。例如,在块1122处,CC模型执行器222将代码片段的意图传送到数据库驱动器208。
在图11所示的示例中,在块1124处,数据库驱动器208用NL处理器204和/或代码分类器206的输出查询数据库106。例如,在块1124处,数据库驱动器208提交参数化语义查询(例如,以Cypher查询语言)到数据库106。在块1126处,数据库驱动器208确定数据库106是否返回与查询的匹配。响应于数据库驱动器208确定数据库106返回与查询的匹配(块1126:是),机器可读指令1100进行到块1130。响应于数据库驱动器208确定数据库106没有返回与查询的匹配(块1126:否),数据库驱动器208向API 202发送“不匹配”消息并且机器可读指令1100前进到块1128。
在图11所示的示例中,在块1128处,API 202呈现“不匹配”消息。如果数据库驱动器208为NL查询返回“不匹配”消息,则语义搜索引擎102监视用户如何开发对未知NL查询的解决方案。在用户开发出对NL查询的解决方案之后,语义搜索引擎102将解决方案存储在数据库106中,以便如果先前导致“不匹配”消息的NL查询被重新提交,则语义搜索引擎102返回新开发的解决方案。附加地或替代地,如果数据库驱动器208针对代码片段查询返回“不匹配”消息,则语义搜索引擎102监视用户如何注释和/或以其他方式查看未知代码片段。在用户开发代码片段的注释和/或其他理解之后,语义搜索引擎102将代码片段的注释和/或其他理解存储在数据库106中,以便如果先前导致“不匹配”消息的代码片段查询”被重新提交,则语义搜索引擎102返回新开发的注释和/或理解。以这种方式,语义搜索引擎102随着新提交的进行而周期性地更新VCS 108的本体表示。
在图11所示的示例中,在块1130处,数据库驱动器208根据与查询相关联的确定性和/或不确定性参数对查询结果进行排序。例如,对于NL查询结果,数据库驱动器208根据NLP模型和/或CC模型识别返回的代码片段的意图的确定性和/或不确定性对结果进行排序。例如,对于代码片段查询结果,数据库驱动器208根据NLP模型和/或CC模型识别返回的提交的注释参数和/或其他参数的意图的确定性和/或不确定性对结果进行排序。在块1130处对结果进行排序之后,数据库驱动器208将排序结果传输到API 202。
在图11所示的示例中,在块1132处,API 202呈现排序结果。在块1134处,API 202确定是否继续操作。响应于API 202确定语义搜索引擎102将继续操作(块1134:是),机器可读指令1100返回到块1102。响应于API 202确定语义搜索引擎102不继续操作(块1134:否),机器可读指令1100终止。例如,导致API 202确定语义搜索引擎102不继续操作的条件包括用户退出API 202托管的界面和/或用户访问不同于API 202托管的网页的地址。
图12是被构造为执行图10和/或图11的指令以实现图1、图2、图5和/或图9的语义搜索引擎102的示例处理器平台1200的框图。处理器平台1200可以是例如服务器、个人计算机、工作站、自学机器(例如神经网络)、移动设备(例如,手机、智能手机、平板电脑(如iPadTM)、个人数字助理(PDA)、互联网设备、DVD播放器、CD播放器、数字录像机、蓝光播放器、游戏机、个人录像机、机顶盒、耳机或其他可穿戴设备、或任何其他类型的计算设备。
所示示例的处理器平台1200包括处理器1212。所示示例的处理器1212是硬件。例如,处理器1212可由来自任何期望系列或制造商的一个或多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器1212可以是基于半导体(例如,基于硅)的设备。在该示例中,处理器1212实现示例应用程序编程接口(API)202、示例自然语言(NL)处理器204、示例代码分类器206、示例数据库驱动器208、示例模型训练器210、示例自然语言(NL)预处理器212、示例自然语言(NL)特征提取器214、示例自然语言处理(NLP)模型执行器216、示例代码预处理器218、示例代码特征提取器220、示例代码分类(CC)模型执行器222。
所示示例的处理器1212包括本地存储器1213(例如,高速缓存)。所示示例的处理器1212经由总线1218与包括易失性存储器1214和非易失性存储器1216的主存储器通信。易失性存储器1214可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、
Figure BDA0003343555620000441
动态随机存取存储器
Figure BDA0003343555620000442
和/或任何其他类型的随机存取存储器设备实现。非易失性存储器1216可以由闪存和/或任何其他所需类型的存储设备来实现。对主存储器1214、1216的访问由存储器控制器控制。
所示示例的处理器平台1200还包括接口电路1220。接口电路1220可以通过任何类型的接口标准来实现,例如以太网接口、通用串行总线(USB)、
Figure BDA0003343555620000443
接口、近场通信(NFC)接口和/或PCI Express接口。
在所示示例中,一个或多个输入设备1222连接到接口电路1220。(一个或多个)输入设备1222允许用户将数据和/或命令输入到处理器1212中。(一个或多个)输入设备可以通过例如音频传感器、麦克风、相机(静止或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、等值点(isopoint)和/或语音识别系统实现。
一个或多个输出设备1224也连接到所示示例的接口电路1220。输出设备1224可以例如由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、就地切换(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器实现。因此,所示示例的接口电路1220通常包括图形驱动卡、图形驱动芯片和/或图形驱动处理器。
所示示例的接口电路1220还包括诸如发射器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口之类的通信设备以促进数据经由网络1226与外部机器(例如,任何种类的计算设备)交换。通信可以经由例如以太网连接、数字用户线(DSL)连接、电话线连接、同轴电缆系统、卫星系统、现场无线系统、蜂窝电话系统等。
所示示例的处理器平台1200还包括一个或多个用于存储软件和/或数据的大容量存储设备1228。这种大容量存储设备1228的示例包括软盘驱动器、硬盘驱动器盘、压缩盘驱动器、蓝光盘驱动器、独立盘冗余阵列(RAID)系统和数字多功能盘(DVD)驱动器。
图12的机器可执行指令1232实现图10的机器可读指令1000和/或图11的机器可读指令1100,可以存储在大容量存储设备1228中、易失性存储器1214中、非易失性存储器1216中和/或可移除非暂态计算机可读存储介质(例如CD或DVD)上。
图13中示出了示出用于分发诸如图12的示例计算机可读指令1232的软件到由第三方拥有和/或操作的设备的示例软件分发平台1305的框图。示例软件分发平台1305可以由能够存储软件并将软件传输到其他计算设备的任何计算机服务器、数据设施、云服务等来实现。第三方可能是拥有和/或运营软件分发平台的实体的客户。例如,拥有和/或运营软件分发平台的实体可以是诸如图12的示例计算机可读指令1232的软件的开发人员、销售者和/或许可者。第三方可能是消费者、用户、零售商、OEM等,他们购买和/或许可软件使用和/或转售和/或再许可。在所示示例中,软件分发平台1305包括一个或多个服务器和一个或多个存储设备。存储设备存储计算机可读指令1232,其可以对应于图10的示例计算机可读指令1000和/或图11的计算机可读指令1100,如上所述。示例软件分发平台1305的一个或多个服务器与网络1310通信,该网络可以对应于任何一个或多个互联网和/或上述示例网络104中的任一个。在一些示例中,作为商业交易的一部分,一个或多个服务器响应于将软件传输到请求方的请求。软件的交付、销售和/或许可的支付可以由软件分发平台的一个或多个服务器和/或通过第三方支付实体处理。服务器使购买者和/或许可人能够从软件分发平台1305下载计算机可读指令1232。例如,可以对应于图12的示例计算机可读指令1232的软件可以下载到示例处理器平台1300,该示例处理器平台1300将执行计算机可读指令1232以实现语义搜索引擎102。在一些示例中,软件分发平台1305的一个或多个服务器周期性地提供、传输和/或强制更新软件(例如,图12的示例计算机可读指令1232)以确保改进、补丁、更新等被分发并应用于终端用户设备处的软件。
从上文可以理解,已经公开了用于识别和解释代码的示例方法、装置和制品。本文公开的示例对版本控制系统内容(例如,源代码)进行建模。所公开的方法、装置和制品通过减少开发人员使用计算机来开发程序和/或其他代码的时间来提高使用计算设备的效率。本文公开的方法、装置和制品提高了代码的可重用性,而无论代码是否包括注释和/或代码是否自记录。所公开的方法、装置和制品因此针对计算机功能的一个或多个改进。
本文公开的示例生成VCS的本体表示,基于本体表示内的注释和/或消息参数的NLP来确定VCS内的代码的一个或多个意图,用所确定的VCS内的代码的一个或多个意图训练代码分类器,以确定未注释和非自记录代码的意图,识别与NL查询的意图匹配的代码,并解释未注释和非自记录代码以确定准确描述代码的注释、消息、和/或意图参数。
本文公开的NLP和代码分类是用一个或多个BNN执行的,这一个或多个BNN采用概率分布来确定给定已识别意图的确定性和/或不确定性参数。如此,本文公开的示例允许开发人员以更快和更有效的方式重用源代码,该方式防止在问题的解决方案已经通过可访问存储库可用时重新提炼这些解决方案。例如,本文公开的示例通过估计可访问存储库中的源代码的意图来提出代码片段。因此,本文公开的示例在开发产品(例如,软件和/或硬件)及其更新时改进(例如,更快和/或更有效)公司的上市时间。因此,本文公开的示例允许开发人员花费更多时间来研究与开发硬件和/或软件产品相关联的新问题以及更复杂和难懂的问题。此外,本文公开的示例建议已经审查过的代码。因此,本文公开的示例允许开发人员快速实现比独立生成的、未经审查的代码更有效的代码。
本文公开了用于识别和解释代码的示例方法、装置、系统和制品。进一步的示例及其组合包括以下:
示例1包括一种用于识别和解释代码的装置,所述装置包括:自然语言(NL)处理器,用于处理NL特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;数据库驱动器,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和应用程序编程接口(API),用于向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
示例2包括示例1所述的装置,其中:所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段;所述装置还包括代码分类器,用于处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;所述数据库驱动器用于将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和API用于向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
示例3包括示例2所述的装置,其中,所述API用于向所述用户呈现所述第一代码片段和第三代码片段,所述第一代码片段和所述第三代码片段根据所述NL处理器或所述代码分类器中的至少一者在分析所述第一代码片段和所述第三代码片段时确定的相应确定性或不确定性参数中的至少一者进行排序。
示例4包括示例2所述的装置,其中,所述代码分类器用于将第一向量和第二向量合并为将由所述代码分类器处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
示例5包括示例1所述的装置,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
示例6包括示例1所述的装置,其中,所述代码片段先前由另一用户开发。
示例7包括示例1所述的装置,其中,所述NL处理器用于将第一向量、第二向量和第三向量合并为将由所述NL处理器处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
示例8包括一种非暂态计算机可读介质,包括指令,所述指令在被执行时使得至少一个处理器至少:处理自然语言(NL)特征,以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
示例9包括示例8所述的非暂态计算机可读介质,其中,所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段,并且所述指令在执行时使所述至少一个处理器:处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
示例10包括示例9所述的非暂态计算机可读介质,其中,所述指令在被执行时使得所述至少一个处理器向所述用户呈现所述第一代码片段和第三代码片段,所述第一代码片段和所述第三代码片段根据至少一个贝叶斯神经网络(BNN)在分析所述第一代码片段和所述第三代码片段时确定的相应确定性或不确定性参数中的至少一者进行排序。
示例11包括示例9所述的非暂态计算机可读介质,其中,所述指令在被执行时使得所述至少一个处理器将第一向量和第二向量合并为将由至少一个BNN处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
示例12包括示例8所述的非暂态计算机可读介质,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
示例13包括示例8所述的非暂态计算机可读介质,其中,所述代码片段先前由另一用户开发。
示例14包括示例8所述的非暂态计算机可读介质,其中,所述指令在被执行时使得所述至少一个处理器将第一向量、第二向量和第三向量合并为将由至少一个BNN处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
示例15包括一种用于识别和解释代码的装置,所述装置包括:存储器;和至少一个处理器,用于执行机器可读指令以使所述至少一个处理器:处理自然语言(NL)特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
示例16包括示例15所述的装置,其中,所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段,并且所述至少一个处理器用于:处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
示例17包括示例16所述的装置,其中,所述至少一个处理器用于向所述用户呈现所述第一代码片段和第三代码片段,所述第一代码片段和所述第三代码片段根据至少一个贝叶斯神经网络(BNN)在分析所述第一代码片段和所述第三代码片段时确定的相应确定性或不确定性参数中的至少一者进行排序。
示例18包括示例16所述的装置,其中,所述至少一个处理器用于将第一向量和第二向量合并为将由至少一个BNN处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
示例19包括示例15所述的装置,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
示例20包括示例15所述的装置,其中,所述代码片段先前由另一用户开发。
示例21包括示例15所述的装置,其中,所述至少一个处理器用于将第一向量、第二向量和第三向量合并为将由至少一个BNN处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
示例22包括一种用于识别和解释代码的方法,所述方法包括:处理自然语言(NL)特征,以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
示例23包括示例22所述的方法,其中,所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段,并且所述方法还包括:处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
示例24包括示例23所述的方法,还包括向所述用户呈现所述第一代码片段和第三代码片段,所述第一代码片段和所述第三代码片段根据至少一个贝叶斯神经网络(BNN)在分析所述第一代码片段和所述第三代码片段时确定的相应确定性或不确定性参数中的至少一者进行排序。
示例25包括示例23所述的方法,还包括将第一向量和第二向量合并为将由至少一个BNN处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
示例26包括示例22所述的方法,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
示例27包括示例22所述的方法,其中,所述代码片段先前由另一用户开发。
示例28包括示例22所述的方法,还包括将第一向量、第二向量和第三向量合并为将由至少一个BNN处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
示例29包括用于一种识别和解释代码的装置,所述装置包括:用于处理自然语言(NL)的装置,用于处理NL特征,以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;用于驱动数据库访问的装置,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和用于接口的装置,用于向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
示例30包括示例29所述的装置,其中:所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段;所述装置还包括用于分类代码的装置,用于处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;所述用于驱动数据库访问的装置用于将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和所述用于接口的装置用于向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
示例31包括示例30所述的装置,其中,所述用于接口的装置用于向所述用户呈现所述第一代码片段和第三代码片段,所述第一代码片段和所述第三代码片段根据所述用于处理NL的装置或所述用于分类代码的装置中的至少一者在分析所述第一代码片段和所述第三代码片段时确定的相应确定性或不确定性参数中的至少一者进行排序。
示例32包括示例30所述的装置,其中,所述用于分类代码的装置用于将第一向量和第二向量合并为将由所述代码分类器处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
示例33包括示例29所述的装置,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
示例34包括示例29所述的装置,其中,所述代码片段先前由另一用户开发。
示例35包括示例29所述的装置,其中,所述用于处理NL的装置用于将第一向量、第二向量和第三向量合并为将由所述用于处理NL的装置处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
尽管本文公开了某些示例方法、装置和制品,但本专利的覆盖范围不限于此。相反,本专利涵盖了完全落入本专利权利要求范围内的所有方法、装置和制品。
所附权利要求特此通过此引用结合到本详细描述中,每个权利要求独立作为本公开的单独实施例。

Claims (25)

1.一种用于识别和解释代码的装置,所述装置包括:
自然语言(NL)处理器,用于处理NL特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;
数据库驱动器,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和
应用程序编程接口(API),用于向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
2.如权利要求1所述的装置,其中:
所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段;
所述装置还包括代码分类器,用于处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;
所述数据库驱动器用于将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和
所述API用于向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
3.如权利要求2所述的装置,其中,所述API用于向所述用户呈现所述第一代码片段和第三代码片段,所述第一代码片段和所述第三代码片段根据所述NL处理器或所述代码分类器中的至少一者在分析所述第一代码片段和所述第三代码片段时确定的相应确定性或不确定性参数中的至少一者进行排序,所述第三代码片段是基于所述第一查询确定的。
4.如权利要求2所述的装置,其中,所述代码分类器用于将第一向量和第二向量合并为将由所述代码分类器处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
5.如权利要求1所述的装置,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
6.如权利要求1所述的装置,其中,所述代码片段是先前开发的。
7.如权利要求1-6中任一项所述的装置,其中,所述NL处理器用于将第一向量、第二向量和第三向量合并为将由所述NL处理器处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
8.一种计算机可读介质,包括指令,所述指令在被执行时使得至少一个处理器至少:
处理自然语言(NL)特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;
将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和
向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
9.如权利要求8所述的计算机可读介质,其中,所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段,并且所述指令在被执行时使得所述至少一个处理器:
处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;
将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和
向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
10.如权利要求9所述的计算机可读介质,其中,所述指令在被执行时使得所述至少一个处理器将第一向量和第二向量合并为将由至少一个BNN处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
11.如权利要求8所述的计算机可读介质,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
12.如权利要求8所述的计算机可读介质,其中,所述代码片段是先前开发的。
13.如权利要求8-12中任一项所述的计算机可读介质,其中,所述指令在被执行时使得所述至少一个处理器将第一向量、第二向量和第三向量合并为将由至少一个BNN处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
14.一种用于识别和解释代码的方法,所述方法包括:
处理自然语言(NL)特征,以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;
将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和
向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
15.如权利要求14所述的方法,其中,所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段,并且所述方法还包括:
处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;
将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和
向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
16.如权利要求15所述的方法,还包括将第一向量和第二向量合并为将由至少一个BNN处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
17.如权利要求14所述的方法,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
18.如权利要求14所述的方法,其中,所述代码片段是先前开发的。
19.如权利要求14-18中任一项所述的方法,还包括将第一向量、第二向量和第三向量合并为将由至少一个BNN处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
20.一种用于识别和解释代码的装置,所述装置包括:
用于处理自然语言(NL)的装置,用于处理NL特征以识别从用户检索的输入中包括的NL字符串的关键字、实体和意图;
用于驱动数据库访问的装置,用于将查询传送到数据库,所述数据库包括版本控制系统的本体表示,其中,所述查询是包括所述NL字符串的关键字、实体和意图的参数化语义查询;和
用于接口的装置,用于向所述用户呈现基于所述查询确定的代码片段,所述代码片段是未注释的或非自记录的代码片段中的至少一种。
21.如权利要求20所述的装置,其中:
所述输入为第一输入,所述查询为第一查询,所述参数化语义查询为第一参数化语义查询,所述代码片段为第一代码片段;
所述装置还包括用于分类代码的装置,用于处理代码片段特征以识别从所述用户检索的第二输入中包括的第二代码片段的意图,所述第二代码片段是未注释的或非自记录的代码片段中的至少一种;
所述用于驱动数据库访问的装置用于将第二查询传送到所述数据库,所述第二查询是包括所述第二代码片段的意图的第二参数化语义查询;和
所述用于接口的装置用于向所述用户呈现基于所述第二查询确定的注释,所述注释描述所述第二代码片段的功能。
22.如权利要求21所述的装置,其中,所述用于分类代码的装置用于将第一向量和第二向量合并为将由所述用于分类代码的装置处理的第三向量,所述第一向量包括所述代码片段的记号,所述第二向量表示所述记号所对应的代码部分。
23.如权利要求20所述的装置,其中,所述本体表示包括与所述版本控制系统的一个或多个提交相关联的数据的图形表示,与所述一个或多个提交相关联的数据包括如下参数中的至少一者:变更参数、主题参数、消息参数、修订参数、文件参数、代码行参数、注释参数或diff参数。
24.如权利要求20所述的装置,其中,所述代码片段是先前开发的。
25.如权利要求20-24中任一项所述的装置,其中,所述用于处理NL的装置用于将第一向量、第二向量和第三向量合并为将由所述用于处理NL的装置处理的第四向量,所述第一向量包括所述NL字符串的记号,所述第二向量表示所述记号所对应的词性,所述第三向量表示所述记号之间的依赖性。
CN202111315709.7A 2020-12-14 2021-11-08 用于识别和解释代码的方法、装置和制品 Pending CN114625361A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/121,686 US20210191696A1 (en) 2020-12-14 2020-12-14 Methods, apparatus, and articles of manufacture to identify and interpret code
US17/121,686 2020-12-14

Publications (1)

Publication Number Publication Date
CN114625361A true CN114625361A (zh) 2022-06-14

Family

ID=76438083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111315709.7A Pending CN114625361A (zh) 2020-12-14 2021-11-08 用于识别和解释代码的方法、装置和制品

Country Status (3)

Country Link
US (1) US20210191696A1 (zh)
CN (1) CN114625361A (zh)
TW (1) TW202227962A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521133A (zh) * 2023-06-02 2023-08-01 北京比瓴科技有限公司 软件功能安全需求分析方法、装置、设备及可读存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837210A (zh) * 2020-06-23 2021-12-24 腾讯科技(深圳)有限公司 小程序分类方法、装置、设备及计算机可读存储介质
CN113010181B (zh) * 2021-03-24 2022-05-27 北京百度网讯科技有限公司 一种深度学习框架之中算子的部署方法、装置及电子设备
US11782686B2 (en) * 2021-05-18 2023-10-10 Salesforce.Com, Inc. Systems and methods for code understanding and generation
US11645054B2 (en) * 2021-06-03 2023-05-09 International Business Machines Corporation Mapping natural language and code segments
US11822907B2 (en) * 2021-08-11 2023-11-21 Bank Of America Corporation Reusable code management for improved deployment of application code
US12019992B2 (en) * 2021-09-24 2024-06-25 Fujitsu Limited Code enrichment for training language models relating to computer programming
US20230109681A1 (en) * 2021-10-05 2023-04-13 Salesforce.Com, Inc. Systems and methods for natural language code search
CN113961237B (zh) * 2021-10-20 2024-08-20 南通大学 一种基于双重信息检索的Bash代码注释生成方法
US11681541B2 (en) 2021-12-17 2023-06-20 Intel Corporation Methods, apparatus, and articles of manufacture to generate usage dependent code embeddings
CN114417410A (zh) * 2022-01-19 2022-04-29 上海一者信息科技有限公司 基于预训练模型和序列标注模型的api敏感字段识别方法
CN114780100B (zh) * 2022-04-08 2023-04-07 芯华章科技股份有限公司 编译方法、电子设备及存储介质
US20240028327A1 (en) * 2022-07-20 2024-01-25 Larsen & Toubro Infotech Ltd Method and system for building and leveraging a knowledge fabric to improve software delivery lifecycle (sdlc) productivity
WO2024031983A1 (zh) * 2022-08-10 2024-02-15 华为云计算技术有限公司 一种代码管理方法及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160357519A1 (en) * 2015-06-05 2016-12-08 Microsoft Technology Licensing, Llc Natural Language Engine for Coding and Debugging
US10853396B2 (en) * 2017-12-22 2020-12-01 Sap Se Intelligent natural language query processor
US11715006B2 (en) * 2020-03-31 2023-08-01 Microsoft Technology Licensing, Llc. Natural language code search
US11507607B2 (en) * 2020-07-06 2022-11-22 Verizon Patent And Licensing Inc. Systems and methods for database dynamic query management based on natural language processing techniques

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521133A (zh) * 2023-06-02 2023-08-01 北京比瓴科技有限公司 软件功能安全需求分析方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
US20210191696A1 (en) 2021-06-24
TW202227962A (zh) 2022-07-16

Similar Documents

Publication Publication Date Title
CN114625361A (zh) 用于识别和解释代码的方法、装置和制品
US11042794B2 (en) Extensible validation framework for question and answer systems
US11822918B2 (en) Code search and code navigation
US10559308B2 (en) System for determining user intent from text
US20190324744A1 (en) Methods, systems, articles of manufacture, and apparatus for a context and complexity-aware recommendation system for improved software development efficiency
US10303683B2 (en) Translation of natural language questions and requests to a structured query format
US11544177B2 (en) Mapping of test cases to test data for computer software testing
US11501080B2 (en) Sentence phrase generation
US9489625B2 (en) Rapid development of virtual personal assistant applications
Magnini et al. The excitement open platform for textual inferences
US20160314114A1 (en) Testing and Training a Question-Answering System
US20140337814A1 (en) Rapid development of virtual personal assistant applications
CN111507086B (zh) 本地化应用程序中翻译文本位置的自动发现
US20180096058A1 (en) Using multiple natural language classifiers to associate a generic query with a structured question type
CN103221915A (zh) 在开域类型强制中使用本体信息
WO2013088287A1 (en) Generation of natural language processing model for information domain
US20210073632A1 (en) Methods, systems, articles of manufacture, and apparatus to generate code semantics
CN115480760A (zh) 基于意图的机器编程
US20200233624A1 (en) Method, device and computer program product for updating user interface
US11727058B2 (en) Unsupervised automatic taxonomy graph construction using search queries
CN116266114A (zh) 识别代码语义的方法、系统、制品和装置
US11436413B2 (en) Modified machine learning model and method for coherent key phrase extraction
CN116266119A (zh) 生成依赖于使用的代码嵌入的方法、装置和制品
WO2021188282A1 (en) Immutable and decentralized storage of computer models
Di Sipio et al. MORGAN: a modeling recommender system based on graph kernel

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination