CN112424748B - 源代码文件推荐通知 - Google Patents

源代码文件推荐通知 Download PDF

Info

Publication number
CN112424748B
CN112424748B CN201980047710.0A CN201980047710A CN112424748B CN 112424748 B CN112424748 B CN 112424748B CN 201980047710 A CN201980047710 A CN 201980047710A CN 112424748 B CN112424748 B CN 112424748B
Authority
CN
China
Prior art keywords
source code
code files
training
computing device
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980047710.0A
Other languages
English (en)
Other versions
CN112424748A (zh
Inventor
S·W·斯维尔科
H·S·萨贾娜尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN112424748A publication Critical patent/CN112424748A/zh
Application granted granted Critical
Publication of CN112424748B publication Critical patent/CN112424748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种计算设备,包括非易失性存储设备和处理器,处理器被配置为执行分布式版本控制系统。处理器可以经由分布式版本控制系统接收用于将一个或多个源代码文件的第一集合应用于项目数据库的拉取请求。响应于接收到拉取请求,处理器可以至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,该推荐规则集包括一个或多个关联规则,一个或多个关联规则针对被应用于训练项目数据库的多个训练拉取请求而被标识。推荐规则集可以至少部分地基于每个训练拉取请求的相应最后迭代而被确定。处理器可以输出源代码文件推荐通知,源代码文件推荐通知包括对第二集合中的每个源代码文件的指示。

Description

源代码文件推荐通知
背景技术
当分布式版本控制系统的用户对项目数据库中的源代码文件做出改变时,这些改变除影响用户修改的文件以外,可以影响其他源代码文件。在一些情况下,用户可能忘记对被改变影响的其他源代码文件做出对应的改变。例如,用户可以改变源代码文件在项目数据库中的文件系统位置,但没有改变引用该文件系统位置的另一源代码文件。当用户忘记更新其他文件时,在编译或运行时可能出现错误。
发明内容
根据本公开的一个方面,提供了一种计算设备,包括非易失性存储设备和处理器,处理器被配置为执行被存储在非易失性存储设备中的分布式版本控制系统。处理器可以被配置为:经由分布式版本控制系统,接收用于将一个或多个源代码文件的第一集合应用于项目数据库的拉取请求。响应于接收到拉取请求,处理器还可以被配置为:至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,推荐规则集包括一个或多个关联规则,一个或多个关联规则针对被应用于训练项目数据库的多个训练拉取请求而被标识。推荐规则集可以至少部分地基于每个训练拉取请求的相应最后迭代而被确定。处理器还可以被配置为输出源代码文件推荐通知,该源代码文件推荐通知包括对一个或多个源代码文件的第二集合中的每个源代码文件的指示。
提供本发明内容以简化形式介绍一些概念,这些概念将在下面的具体实施方式中进一步被描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实施方式。
附图说明
图1示出了根据本公开的一个实施例的示例计算设备的示意图,该示例计算设备包括被配置为执行分布式版本控制系统的处理器。
图2示出了根据图1的实施例的示例分布式版本控制系统的示意图。
图3示出了根据图1的实施例的对项目数据库的修改的示例描绘。
图4示出了根据图1的实施例的示例源代码文件推荐通知。
图5示出了根据图1的实施例的示例机器学习算法。
图6示出根据图1的实施例的对关联规则集的示例确定。
图7示出了可以由图1的计算设备执行的示例方法的流程图。
图8示出了根据图7的实施例的训练机器学习算法的示例方法的流程图。
图9示出了在执行图7的方法时,可以在一些实施例中执行的附加步骤。
图10示出了示例计算环境的示意图,在该示例计算环境中可以实现图8的计算设备。
具体实施方式
为了解决上述问题,提供了一种计算设备10。计算设备10可以包括非易失性存储设备12,并且还可以包括易失性存储设备14。计算设备10还可以包括处理器16,处理器16被配置为执行存储在非易失性存储设备12中的分布式版本控制系统30。计算设备10还可以包括输入设备套件18,输入设备套件18包括被可操作地耦合到处理器16的一个或多个输入设备20。一个或多个输入设备20可以包括下述的一个或多个:触摸屏、键盘、触控板、鼠标、按钮、麦克风、相机和/或加速度计。计算设备10还可以包括输出设备套件22,输出设备套件22可以包括被可操作地耦合到处理器16的一个或多个输出设备24。一个或多个输出设备24可以包括显示器26,显示器26被配置为显示分布式版本控制系统30的图形用户界面(GUI)28。在一些实施例中,计算设备10可以包括其他输出设备,诸如一个或多个扬声器或触觉反馈设备。计算设备10的一些实施例中可以包括其他类型的输入设备20和/或输出设备24。
计算设备10可以被配置为在网络70上与至少一个其他计算设备60通信。在一些实施例中,计算设备10可以是服务器计算设备,其至少部分地通过在网络70上与一个或多个客户端计算设备进行通信,来执行分布式版本控制系统30。备选地,计算设备10可以是客户端计算设备,其至少部分通过在网络70上与服务器计算设备和/或一个或多个其他客户端计算设备进行通信,来执行分布式版本控制系统。本文描述的计算设备10的特征可以被实施在单个计算设备中或跨多个连接的计算设备分布。
经由分布式版本控制系统30,处理器16还可以被配置为接收用于将一个或多个源代码文件36的第一集合34应用于项目数据库50的拉取请求32。拉取请求在本文中被定义为对修改用户没有写权限的项目数据库50的请求。响应于拉取请求32,一个或多个源代码文件36可以在由另一用户批准之后被应用于项目数据库50。在一个或多个源代码文件36应用于项目数据库50之前,一个或多个源代码文件36可以被添加到拉取请求32、从拉取请求32删除、和/或以一个或多个迭代被编辑。
项目数据库50可以被存储在计算设备10的非易失性存储设备12中。备选地,项目数据库50可以被存储在另一个计算设备处或分布在多个计算设备之间。在一些实施例中,分布式版本控制系统30可以包括被存储在相应计算设备10处的多个项目数据库50。如图1的示例中所示,其他计算设备60存储另一项目数据库64。在这样的实施例中,多个项目数据库50中的项目数据库50可以是被存储在服务器计算设备处的主项目数据库。多个客户端计算设备可以将源代码文件36应用于主项目数据库。
在计算设备10是服务器计算设备的实施例中,可以从客户端计算设备接收拉取请求32。在计算设备10是客户端计算设备的实施例中,可以经由一个或多个输入设备20接收拉取请求32。备选地,可以从另一客户端计算设备接收拉取请求32。
响应于接收到拉取请求32,处理器16还可以被配置为对一个或多个源代码文件36的第二集合44进行标识。第二集合44中包括的一个或多个源代码文件36可以被存储在项目数据库50中,如图1中所示。在项目数据库50被存储在另一个计算设备处的实施例中,第二集合44中包括的一个或多个源代码文件36中的一些或全部可以替代地被本地存储在非易失性存储设备12中。
处理器16可以至少部分地基于被应用于项目数据库50的一个或多个先前拉取请求52,来标识一个或多个源代码文件36的第二集合44。例如,第二集合44可以包括在一个或多个先前拉取请求52中被修改的一个或多个源代码文件36。一个或多个先前拉取请求52可能已经在计算设备10处被做出。附加地或备选地,一个或多个先前拉取请求52可以包括经由网络70在项目数据库50处从其他计算设备60接收的至少一个先前拉取请求52。在这样的实施例中,一个或多个先前拉取请求52可以最初在其他计算设备60处被做出,并且可能已经修改了被存储在其他计算设备60处的另一项目数据库64。一个或多个先前拉取请求52可以各自包括一个或多个先前源代码文件56,一个或多个先前源代码文件56可以被存储在项目数据库50中。
在一些实施例中,一个或多个源代码文件36的第一集合34可以包括对一个或多个先前源代码文件56的修改,一个或多个先前源代码文件56响应于一个或多个先前拉取请求52而被应用。在这样的实施例中的分布式版本控制系统30的示例示意图在图2中被示出。在图2的实施例中,被包括在拉取请求32中的一个或多个源代码文件36的第一集合34包括第一源代码文件36A、第二源代码文件36B和第三源代码文件36C。第一源代码文件36A包括对被包括在先前源代码文件56的先前集合54中的第一先前源代码文件56A的修改38。第二源代码文件36B和第三源代码文件36C可以例如是不包括对先前源代码文件的修改的新添加的源代码文件。
在图2的示例实施例中,先前集合54还包括未被第一源代码文件36A修改的第二先前源代码文件56B和第三先前源代码文件56C。被包括在一个或多个源代码文件36的第二集合44中的源代码文件36可以是被包括在先前集合54中的先前源代码文件56。在图2的示例中,第二集合44包括第二先前源代码文件56B和第三先前源代码文件56C。
一个或多个源代码文件36的第二集合44可以基于被包括在第一集合34和/或第二集合44中的一个或多个源代码文件36的特性而被标识,如在下面提供的示例中所讨论的。处理器16可以使用机器学习算法100来确定相关特性,如下面参考图5所讨论的。
在一些实施例中,一个或多个源代码文件36的第二集合44可以至少部分地基于一个或多个源代码文件36的第一集合34的一个或多个相应文件系统位置而被标识。例如,如图3中所示,处理器16可以确定:由被包括在拉取请求32中的源代码文件36进行的修改38,通过将先前源代码文件56A从第一文件夹80移动到第二文件夹82中,来修改项目数据库50的文件结构。响应于确定了修改38以这样的方式修改文件结构,处理器16可以将第一文件夹80中包括的一个或多个其他先前源代码文件56添加到一个或多个源代码文件36的第二集合44中。在图3的实施例中,处理器16将第一文件夹80中包括的第二先前源代码文件56B添加到一个或多个源代码文件36的第二集合44。
返回图1,在一个或多个源代码文件36的第二集合44已被标识之后,处理器16还可以被配置为输出源代码文件推荐通知40,源通知文件推荐通知40包括对一个或多个源代码文件36的第二集合44中的每个源代码文件36的指示46。可以向用户通知一个或多个源代码文件36,该一个或多个源代码文件36可能期望添加到拉取请求32或应用在后续的拉取请求中。
在处理器16还被配置为输出分布式版本控制系统30的GUI 28以用于在显示器26上显示的实施例中,处理器16还可以被配置为在GUI 28中显示源代码文件推荐通知40。图4示出了示例源代码文件推荐通知40,其可以被显示在分布式版本控制系统30的GUI 28中。在图4的示例中,源代码文件推荐通知40被显示在窗口90内。窗口90包括针对被包括在第二集合44中的每个源代码文件36的相应指示46。图4的示例窗口90包括第一指示46A、第二指示46B、第三指示46C和第四指示46D。在拉取请求32包括对一个或多个先前源代码文件56的修改38的实施例中,窗口90可以包括经修改的文件指示92,其示出了被修改的一个或多个先前源代码文件56。
返回图2,对于一个或多个源代码文件36的第二集合44中的每个源代码文件36,源代码文件推荐通知40可以包括相应选项48以修改该源代码文件36。如图2中所示,源代码文件推荐通知40包括相应选项48B和相应选项48C,以分别修改第二先前源代码文件56B和第三先前源代码文件56C。在一个或多个源代码文件36的第一集合34包括对响应于一个或多个先前拉取请求52而被应用的一个或多个先前源代码文件56的修改38的实施例中,用以修改第二集合44中的每个源代码文件36的相应选项48可以包括一个或多个相应选项48,以修改一个或多个附加的先前源代码文件56,一个或多个附加的先前源代码文件56被包括在第二集合44中,但是未被第一集合34中包括的一个或多个源代码文件36修改。响应于对选项48的选择来修改至少一个源代码文件36,至少一个源代码文件36可以在GUI 28中被显示,使得用户可以编辑该至少一个源代码文件36。因此,分布式版本控制系统30可以提醒用户必须对一个或多个源代码文件36进行的改变,以便避免编译或运行时期间的错误。
返回图4,以供修改一个或多个源代码文件36的一个或多个相应选项48可以作为一个或多个可交互的GUI元素而被显示在源代码文件推荐通知40中。图4的窗口90包括与第一指示46A、第二指示46B、第三指示46C和第四指示46D中的各个相关联的第一选项48A、第二选项48B、第三选项48C和第四选项48D。第一选项48A、第二选项48B、第三选项48C和第四选项48D中的每个由被标记为“编辑文件”的相应的可交互GUI元素指示。响应于对这样的GUI元素的选择,处理器16可以在分布式版本控制系统30的GUI 28中打开相关联的源代码文件36。源代码文件36可以被显示在窗口90中或者可以备选地被显示在GUI 28的另一窗口或区域中。在图4的示例中,指示46A、46B、46C和46D中的每个还具有相应的“隐藏”GUI元素98A、98B、98C和98D。响应于用户选择与指示46相关联的“隐藏”GUI元素,处理器16可以从窗口90移除该指示46。
返回图1,在一些实施例中,处理器16可以通过所估计的相关性对源代码文件推荐通知40中包括的一个或多个指示46进行排名。对于一个或多个源代码文件36的第二集合44中的每个源代码文件36,处理器16还可以被配置为:确定对源代码文件36的修改38将被添加到拉取请求32的估计概率76。第二集合44中的每个源代码文件36将被添加到拉取请求32的估计概率76可以由机器学习算法100确定。在处理器16被配置为确定一个或多个估计概率76的实施例中,基于每个源代码文件36被添加到拉取请求32的相应的估计概率76,一个或多个源代码文件36的第二集合44在源代码文件推荐通知40中被排名。一个或多个源代码文件36可以按升序或降序被排名。
现在提供特性的附加示例,特性的附加示例可以在一个或多个源代码文件36的第一集合34中被标识并且被用于确定一个或多个源代码文件36的第二集合44。如上所述,处理器16可以被配置为:至少部分地基于第一集合34中包括的一个或多个源代码文件36的一个或多个相应文件系统位置,来确定第二集合44。在这样的实施例中,处理器16还可以基于第二集合44中包括的一个或多个源代码文件36的一个或多个相应文件系统位置,来标识一个或多个源代码文件36的第二集合44。例如,处理器16可以在第二集合44中包括与第一集合34中的源代码文件36位于相同文件夹中的一个或多个源代码文件36。
附加地或备选地,处理器16可以被配置为:至少部分地基于一个或多个文件名中包括的一个或多个令牌,来确定一个或多个源代码文件36的第二集合44。一个或多个令牌可以是一个或多个文件名的子字符串。例如,当用户编辑名为“StringComparer.cs”的文件时,用户可能还会修改名为“StringComparerTests.cs”的文件。处理器16可以标识两个文件都包括令牌“StringComparer”,并且因此可以将“StringComparerTests.cs”添加到第二集合44。在一些实施例中,可以使用一个或多个正则表达式来标识一个或多个令牌。
处理器16可以附加地或备选地被配置为:至少部分地基于第一集合34中包括的至少一个源代码文件36的文件类型,来确定一个或多个源代码文件36的第二集合44。例如,处理器16可以基于第一集合34中包括的一个或多个源代码文件36的第一文件类型,来确定第一集合34的一个或多个源代码文件36以第一编程语言被编写。基于该确定,处理器可以确定也以第一编程语言被编写的源代码文件36具有与用户相关的较高概率,和/或确定以第二编程语言被编写的源代码文件36具有相关性的较低的概率。在一些实施例中,处理器16可以被配置为:检查第一集合34的一个或多个源代码文件36的语法特征,以便即使在编程语言未在相应的文件类型中被指定时,也确定那些源代码文件36的相应编程语言。附加地或备选地,处理器16可以被配置为:至少部分地基于一个或多个源代码文件的一个或多个相应文件扩展名,来确定第二集合44。例如,处理器16可以确定具有“.html”扩展名的文档文件和具有“.png”扩展名的文档文件经常被一起编辑,并且因此当具有“.html”扩展名的源代码文件36被编辑时,更有可能将具有“.png”扩展名的源代码文件36添加到第二集合44。
在一些实施例中,处理器16可以至少部分地通过应用机器学习算法来确定第二集合44。示例机器学习算法100在图5中被示出。在图5的实施例中,处理器16被配置为基于多个训练拉取请求104来训练机器学习算法100。多个训练拉取请求104可以是以供修改训练项目数据库120的请求。训练项目数据库120可以与图1的项目数据库50不同。因此,机器学习算法100可以适用于除在其上训练了机器学习算法100的项目以外的项目。在一些实施例中,多个训练拉取请求104可以是以供修改多个训练项目数据库120的请求。在这样的实施例中,来自多个项目的训练拉取请求104可以被用于训练机器学习算法100。
每个训练拉取请求104包括第一迭代108,第一迭代108包括一个或多个训练源代码文件106。第一迭代108是一个或多个训练源代码文件106的集合,在最初做出训练拉取请求时,该集合被包括在训练拉取请求104中。每个训练拉取请求104还包括最后迭代110,最后迭代110包括一个或多个训练源代码文件106,在将训练拉取请求应用于训练项目数据库120时,该一个或多个训练源代码文件106被包括在训练拉取请求104中。一些训练拉取请求104可以包括仅单个迭代。在这样的训练拉取请求104中,第一迭代108是最后迭代110。在一些实施例中,训练拉取请求104中的一个或多个训练拉取请求可以包括在第一迭代108和最后迭代110之间的一个或多个中间迭代。
处理器16还可以被配置为基于多个训练拉取请求104来确定训练集102和测试集122。训练集102和测试集122可以各自包括多个训练拉取请求104中所包括的多个迭代。在图5的示例中,训练集102包括训练拉取请求104的最后迭代110中的每个最后迭代。测试集122包括第一迭代108中的每个第一迭代以及最后迭代110中的每个最后迭代。在一些其他实施例中,训练集102和/或测试集122可以包括一个或多个中间迭代。
在图5的示例中,通过将先验算法应用于多个训练拉取请求104中包括的最后迭代110中的每个最后迭代来训练机器学习算法100。当处理器16将先验算法应用于训练集102中包括的多个最后迭代110时,处理器16可以生成事务矩阵112,其中每个最后迭代110中包括的训练源代码文件106的相应集合定义事务114。对于每个事务114,事务矩阵112可以指示该事务114是否包括对训练项目数据库120中包括的每个训练源代码文件106的修改。
基于事务矩阵112,处理器16还被配置为确定包括一个或多个关联规则118的关联规则集116。参考图6更详细地示出关联规则集116的确定。如图6中所示,每个关联规则118指示两个或更多的训练源代码文件106。关联规则集116包括一个或多个关联规则118,针对该一个或多个关联规则118的两个或更多的训练源代码文件106在相同训练拉取请求104中经常被一起修改。
在一个示例中,为了确定两个或更多的训练源代码文件106是否经常被一起修改,处理器16可以确定针对两个或更多训练源代码文件106的集合的关联规则118具有大于预定义支持度阈值132的支持度130。关联规则118的支持度130被定义为其中关联规则118中所指示的两个或更多的训练源代码文件106被一起修改的事务114的数目除以事务114的总数目。
处理器16可以附加地或备选地确定关联规则118中包括的每个训练源代码文件106的置信度134。关联规则118中包括的训练源代码文件106的置信度134被定义为:包括训练源代码文件106的事务114的数目与关联规则118对其保持(hold)的事务114的数目的比率。在一些实施例中,如果针对那些训练源代码文件106的关联规则118的置信度134超过预定义置信度阈值136,则处理器16可以确定两个或更多的训练源代码文件106经常被一起修改。因此,具有超过预定义置信度阈值136的置信度134的一个或多个关联规则118可以被包括在关联规则集116中。
附加地或备选地,处理器16可以确定关联规则118的提升度138。关联规则18的提升度138被定义为:针对关联规则118的支持度130除以关联规则118中包括的每个训练源代码文件106的支持度130的乘积。单个训练源代码文件106的支持度130被定义为:包括该训练源代码文件106的事务114的数目除以事务114的总数目。在一些实施例中,处理器16可以确定关联规则118具有超过预定义提升度阈值140的提升度138,并且可以基于该确定将关联规则118包括在关联规则集116中。
在一些实施例中,预定义支持度阈值132、预定义置信度阈值136和预定义提升度阈值140中的一个或多个可以至少部分地基于由关联规则118推荐的训练源代码文件106被添加到在第一迭代108和最后迭代110之间的训练拉取请求10的估计概率而被设置。该估计概率可以至少部分地通过比较多个第一迭代108与多个第二迭代110而被确定。处理器16还可以被配置为:选择预定义支持度阈值132、预定义置信度阈值136、和/或预定义提升度阈值140,以包括超过预定义估计概率的一个或多个关联规则118。
在一些实施例中,可以使用除了支持度130、置信度134和提升度138以外的关联规则品质度量。
在一些实施例中,对于每个规则的训练源代码文件106的最大数目,处理器16可以确定一个或多个关联规则18。例如,处理器16可以被配置为确定各自指示两个或三个训练源代码文件106的一个或多个关联规则118。附加地或备选地,处理器16可以仅确定针对在多于阈值数目的训练拉取请求104中出现的训练源代码文件106的关联规则118。例如,处理器16可以确定仅针对如下训练源代码文件106的一个或多个关联规则118:训练源代码文件106在训练集102中包括的多个训练拉取请求104中被修改了五次或更多次。
返回图5,处理器16可以确定测试集122,其包括多个训练拉取请求104的每个第一迭代108和每个最后迭代110,如上面所述的那样。处理器16还可以被配置为:确定一组第一迭代108与最后迭代110之间的差异128,以对于每个训练拉取请求104,标识在第一迭代108之后被添加到训练拉取请求104的任何训练源代码文件106。这样的训练源代码文件106可以是在生成训练拉取请求104时由用户最初忘记的训练源代码文件106。
基于关联规则集116和差异128,处理器16还可以被配置为确定推荐规则集124,推荐规则集124包括关联规则集116中包括的关联规则118中的一个或多个关联规则。推荐规则集124可以包括针对一个或多个训练源代码文件106的关联规则118,该一个或多个训练源代码文件106经常被包括在训练拉取请求104的最后迭代110中,但不被包括在第一迭代108中。在一些其他实施例中,处理器16可以被配置为:基于一个或多个关联规则118和一个或多个最后迭代110确定推荐规则集124,而无需确定一个或多个第一迭代108与一个或多个最后迭代110之间的差异128。
在一些实施例中,推荐规则集124还可以至少部分地基于与一个或多个训练源代码文件106的一个或多个用户交互126而被确定。例如,用户可以至少通过提供如下输入来训练机器学习算法100:该输入指示由一个或多个关联规则118推荐的一个或多个训练源代码文件106是否相关。基于一个或多个用户交互126,机器学习算法100可以增加或减少应用推荐规则集124中包括的关联规则118的概率。
在运行时处,一个或多个源代码文件36的第二集合44可以通过将推荐规则集124中包括的一个或多个关联规则118应用于一个或多个源代码文件36的第一集合34而被确定。
图7示出了可以在计算设备的处理器处执行的示例方法200的流程图。在其处执行方法200的计算设备可以是图1的计算设备10,或备选地可以是一些其他计算设备。在步骤202处,方法200可以包括执行分布式版本控制系统。在一些实施例中,方法200还可以包括,在步骤204处,输出以用于在显示器上显示分布式版本控制系统的图形用户界面(GUI)以用于在显示器上显示。显示器可以被包括在在其处执行该方法的计算设备中,或者备选地可以被包括在被通信耦合到该计算设备的另一计算设备中。
在步骤206处,方法200还可以包括:经由分布式版本控制系统,接收用于将一个或多个源代码文件的第一集合应用于项目数据库的拉取请求。项目数据库可以被存储在计算设备处、另一计算设备处,或者分布在多个计算设备之上。一个或多个源代码文件的第一集合可以包括对一个或多个先前源代码文件的修改,一个或多个先前源代码文件响应于一个或多个先前拉取请求而被应用。
在步骤208,方法200还可以包括:响应于接收到拉取请求,至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,该推荐规则集包括被标识以用于被应用于训练项目数据库的多个训练拉取请求的一个或多个关联规则。
转到图8,示出了用于确定推荐规则集的示例方法300的流程图。在图8的示例中,方法300是用于训练机器学习算法的方法,该方法可以在执行图7的方法200之前被执行。方法300可以包括,在步骤302处,接收多个训练拉取请求,每个训练拉取请求包括一个或多个迭代。每个迭代可以包括一个或多个训练源代码文件。在一些实施例中,一个或多个训练拉取请求可以是对训练项目数据库的拉取请求,该训练项目数据库可以与步骤206的项目数据库不同。
在步骤304处,方法300还可以包括确定训练集,该训练集包括每个训练拉取请求的相应最后迭代。在图8的示例中,先验算法被用来生成针对训练集中包括的一个或多个训练源代码文件的一个或多个关联规则。在步骤306处,方法300还可以包括基于每个最后迭代中包括的一个或多个训练源代码文件来生成事务矩阵。相应最后迭代中包括的一个或多个训练源代码文件的每个集合可以被表示为事务矩阵中的事务。在步骤308处,方法300还可以包括:基于事务矩阵,确定包括一个或多个关联规则的关联规则集。尽管在图8的示例中使用先验算法来生成关联规则集,但是在一些其他实施例中可以使用其他算法。
在一些实施例中,确定关联规则集可以包括确定针对一个或多个关联规则的支持度、置信度和提升度中的至少一项。在这样的实施例中,可以至少部分地基于对关联规则超过预定义支持度阈值、置信度阈值、和/或提升度阈值的确定,将关联规则包括在关联规则集中。
在步骤310处,方法300还可以包括确定测试集,该测试集包括每个训练拉取请求的相应的第一迭代和最后迭代。对于仅包括一个迭代的训练拉取请求,第一迭代是最后迭代。但是,在包括两个或更多迭代的训练拉取请求中,可以在第一迭代之后的一个或多个迭代中,将一个或多个训练源代码文件添加到训练拉取请求。一个或多个被添加的训练源代码文件可以是用户最初忘记添加到拉取请求的文件。因此,可能期望训练机器学习算法,以推荐类似于所添加的训练源代码文件的源代码文件。为了确定一个或多个被添加的训练源代码文件,方法300还可以包括,在步骤312处,确定每个训练拉取请求的相应的第一迭代和最后迭代之间的差异。
在步骤314处,方法300还可以包括:基于关联规则集和每个训练拉取请求的相应最后迭代,确定包括关联规则集中的一个或多个关联规则的推荐规则集。在执行步骤312的实施例中,可以至少部分地基于每个训练拉取请求的相应的第一迭代和最后迭代之间的差异来确定推荐规则集。在一些实施例中,推荐规则集的确定还可以基于与机器学习算法的一个或多个用户交互。
推荐规则集中包括的一个或多个关联规则可以是基于训练集中包括的一个或多个训练源代码文件的各种特性。在运行时处,机器学习算法可以在一个或多个源代码文件的第一集合中检查那些属性,以确定一个或多个源代码文件的第二集合。在一些实施例中,可以至少部分地基于一个或多个源代码文件的第一集合的一个或多个相应文件系统位置,来标识一个或多个源代码文件的第二集合。附加地或备选地,可以至少部分地基于一个或多个源代码文件的第一集合的相应文件名中包括的一个或多个子字符串,来标识一个或多个源代码文件的第二集合。可以至少部分地通过将一个或多个正则表达式应用于一个或多个源代码文件的相应文件名,来标识相应文件名中包括的一个或多个子字符串,和/或可以将该一个或多个子字符串与一个或多个源代码文件的第二集合匹配。附加地或备选地,可以至少部分地基于一个或多个源代码文件的第一集合的相应文件扩展名,来标识一个或多个源代码文件的第二集合。
返回图7,在步骤210处,方法200还可以包括输出源代码文件推荐通知,源代码文件推荐通知包括对一个或多个源代码文件的第二集合中的每个源代码文件的指示。在分布式版本控制系统的GUI被输出以用于在显示器上显示的实施例中,源代码文件推荐通知可以被包括在GUI中。例如,示出源代码文件推荐通知的窗口可以被输出以用于显示。
方法200在一些实施例中可以包括的附加步骤在图9中被示出。图9示出了可以在一些实施例中被执行以确定源代码文件推荐通知的布局的附加步骤。在步骤212处,方法200可以包括,对于一个或多个源代码文件的第二集合中的每个源代码文件,确定对源代码文件的修改将在后续迭代中被添加到拉取请求的估计概率。例如可以至少部分地基于经由与至少一个先前的源代码文件推荐通知的交互所提供的用户反馈,来确定估计概率。在步骤214处,方法200还可以包括:基于被添加到拉取请求的每个源代码文件的相应的估计概率,在源代码文件推荐通知中对一个或多个源代码文件的第二集合进行排名。可以按照被添加到拉取请求的估计概率的升序或降序,对源代码文件推荐通知中指示的一个或多个源代码文件进行排名。
在一些实施例中,本文描述的方法和过程可以绑定到一个或多个计算设备的计算系统。特别地,这样的方法和过程可以被实施为计算机应用程序或服务、应用编程接口(API)、库、和/或其他计算机程序产品。
图10示意性示出了可以实现上述方法和过程中的一个或多个的计算系统400的非限制性实施例。计算系统400以简化形式被示出。计算系统400可以实施上文描述和图1中图示的计算设备10。计算系统400可以采取以下形式:一个或多个个人计算机、服务器计算机、平板电脑、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)、和/或其他计算设备、以及诸如智能手表和头戴式增强现实设备等可穿戴式计算设备。
计算系统400包括逻辑处理器402、易失性存储器404和非易失性存储设备406。计算系统400可以可选地包括显示子系统408、输入子系统410、通信子系统412、和/或图10中未示出的其他部件。
逻辑处理器402包括被配置为执行指令的一个或多个物理设备。例如,逻辑处理器可以被配置为执行如下指令,这些指令是作为一个或多个应用、程序、例程、库、对象、部件、数据结构或其他逻辑构造的部分。这样的指令可以被实现以执行任务,实现数据类型,变换一个或多个部件的状态,实现技术效果,或以其他方式达到期望的结果。
逻辑处理器可以包括被配置为执行软件指令的一个或多个物理处理器(硬件)。附加或备选地,逻辑处理器可以包括被配置为执行硬件实现的逻辑或固件指令的一个或多个硬件逻辑电路或固件设备。逻辑处理器402的处理器可以是单核或多核的,并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑处理器的各个部件可以可选地分布在两个或更多个分开的设备中,这些设备可以被远程定位和/或被配置用于协调处理。逻辑处理器的各方面可以通过以云计算配置来配置的远程可访问联网计算设备来虚拟化和执行。在这样的情况下,这些虚拟化的方面在各种不同机器的不同物理逻辑处理器上运行,这是可以理解的。
非易失性存储设备406包括被配置为保存由逻辑处理器可执行以实施本文中描述的方法和过程的指令的一个或多个物理设备。当实施这样的方法和过程时,非易失性存储设备406的状态可以被变换,例如以保存不同的数据。
非易失性存储设备406可以包括可移除和/或内置的物理设备。非易失性存储设备406可以包括光存储器(例如,CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如,ROM、EPROM、EEPROM、闪存等)和/或磁存储器(例如,硬盘驱动、软盘驱动、磁带驱动、MRAM等)、或其他大容量存储设备技术。非易失性存储设备406可以包括非易失性、动态、静态、读/写、只读、顺序访问、位置可寻址、文件可寻址、和/或内容可寻址设备。应当理解,非易失性存储设备406被配置为即使当到非易失性存储设备406的电力被切断时也保存指令。
易失性存储器404可以包括包含随机存取存储器的物理设备。易失性存储器404通常由逻辑处理器402用来在软件指令的处理期间临时存储信息。应当理解,当到易失性存储器404的电力被切断时,易失性存储器404通常不会继续存储指令。
逻辑处理器402、易失性存储器404和非易失性存储设备406的各方面可以被一起集成到一个或多个硬件逻辑部件中。例如,这些硬件逻辑部件可以包括现场可编程门阵列(FPGA)、程序集成电路和应用特定集成电路(PASIC/ASIC)、程序和应用特定标准产品(PSSP/ASSP)、片上系统芯片(SOC)和复杂可编程逻辑器件(CPLD)。
可以使用术语“模块”、“程序”和“引擎”来描述通常由处理器以软件实现以使用易失性存储器的部分来执行特定功能的计算系统400的一方面,该功能涉及专门将处理器配置成执行该功能的转换处理。因此,经由逻辑处理器402使用易失性存储器404的部分执行由非易失性存储设备406保存的指令,可以实例化模块、程序或引擎。应当理解,不同的模块、程序和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等来实例化。同样,相同的模块、程序和/或引擎可以由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”可以包括单个或一组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
当被包括时,显示子系统408可以用来呈现由非易失性存储设备406保存的数据的可视表示。视觉表示可以采取图形用户界面(GUI)的形式。当本文中描述的方法和过程改变由非易失性存储设备保存的数据并且因此转换非易失性存储设备的状态时,显示子系统408的状态可以同样地被转换以可视地表示底层数据的变化。显示子系统408可以包括实际上利用任何类型的技术的一个或多个显示设备。这样的显示设备可以与共享外壳中的逻辑处理器402、易失性存储器404和/或非易失性存储设备406组合,或者这样的显示设备可以是外围显示设备。
当被包括时,输入子系统410可以包括一个或多个用户输入设备(诸如键盘、鼠标、触摸屏或游戏控制器)或与这些用户输入设备对接。在一些实施例中,输入子系统可以包括选定的自然用户输入(NUI)部件或与该部件对接。这样的部件可以是集成的或外围的,并且输入动作的转换和/或处理可以在板上或板外处理。示例NUI部件可以包括用于语音和/或声音识别的麦克风;用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机;用于运动检测和/或意图识别的头部追踪器、眼动仪、加速度计和/或陀螺仪;以及用于评估大脑活动的电场感测部件;和/或任何其他合适的传感器。
当被包括时,通信子系统412可以被配置为将本文中描述的各种计算设备彼此通信耦合,并且与其他设备通信耦合。通信子系统412可以包括与一个或多个不同的通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网进行通信,诸如通过Wi-Fi连接的HDMI。在一些实施例中,通信子系统可以允许计算系统400经由诸如因特网等网络向其他设备发送和/或从其他设备接收消息。
根据本公开的一个方面,提供了一种计算设备,计算设备包括非易失性存储设备和处理器。处理器可以被配置为执行被存储在非易失性存储设备中的分布式版本控制系统。处理器还可以被配置为:经由分布式版本控制系统,接收用于将一个或多个源代码文件的第一集合应用于项目数据库的拉取请求。响应于接收到拉取请求,处理器还可以被配置为:至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,推荐规则集包括一个或多个关联规则,一个或多个关联规则针对被应用于训练项目数据库的多个训练拉取请求而被标识。推荐规则集可以至少部分地基于每个训练拉取请求的相应最后迭代而被确定。处理器还可以被配置为输出源代码文件推荐通知,源代码文件推荐通知包括对一个或多个源代码文件的第二集合中的每个源代码文件的指示。
根据该方面,在推荐规则集中包括的每个关联规则可以具有超过预定义支持度阈值的支持度。
根据该方面,在推荐规则集中包括的每个关联规则可以具有超过预定义置信度阈值的置信度。
根据该方面,在推荐规则集中包括的每个关联规则可以具有超过预定义提升度阈值的提升度。
根据该方面,一个或多个源代码文件的第一集合可以包括对一个或多个先前源代码文件的修改,一个或多个先前源代码文件响应于一个或多个先前拉取请求而被应用于项目数据库。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的一个或多个相应文件系统位置而被标识。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的相应文件名中包括的一个或多个子字符串而被标识。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的相应文件扩展名而被标识。
根据该方面,计算设备还可以包括显示器。处理器还可以被配置为输出分布式版本控制系统的GUI以用于在显示器上显示。源代码文件推荐通知可以被包括在GUI中。
根据该方面,对于一个或多个源代码文件的第二集合中的每个源代码文件,处理器还可以被配置为:确定对源代码文件的修改将被添加到拉取请求的估计概率。基于每个源代码文件被添加到拉取请求的相应的估计概率,一个或多个源代码文件的第二集合可以在源代码文件推荐通知中被排名。
根据本公开的另一方面,提供了一种在计算设备的处理器处执行的方法。方法可以包括执行分布式版本控制系统。方法还可以包括:经由分布式版本控制系统,接收用于将一个或多个源代码文件的第一集合应用于项目数据库的拉取请求。响应于接收到拉取请求,方法还可以包括:至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,推荐规则集包括一个或多个关联规则,一个或多个关联规则针对被应用于训练项目数据库的多个训练拉取请求而被标识。推荐规则集可以至少部分地基于每个训练拉取请求的相应最后迭代而被确定。方法还可以包括输出源代码文件推荐通知,源代码文件推荐通知包括对一个或多个源代码文件的第二集合中的每个源代码文件的指示。
根据该方面,在推荐规则集中包括的每个关联规则可以具有超过预定义置信度阈值的置信度。
根据该方面,在推荐规则集中包括的每个关联规则可以具有超过预定义提升度阈值的提升度。
根据该方面,一个或多个源代码文件的第一集合可以包括对一个或多个先前源代码文件的修改,一个或多个先前源代码文件响应于一个或多个先前拉取请求而被应用于项目数据库。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的一个或多个相应文件系统位置而被标识。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的相应文件名中包括的一个或多个子字符串而被标识。
根据该方面,在推荐规则集中包括的每个关联规则可以具有超过预定义支持度阈值的支持度。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的相应文件名中包括的一个或多个子字符串而被标识。
根据该方面,一个或多个源代码文件的第二集合可以至少部分地基于一个或多个源代码文件的第一集合的相应文件扩展名而被标识。
根据该方面,方法还可以包括输出分布式版本控制系统的GUI以用于在显示器上显示。源代码文件推荐通知可以被包括在GUI中。
根据本公开的另一方面,提供了一种客户端计算设备,包括非易失性存储设备和处理器。处理器可以被配置为执行被存储在非易失性存储设备中的分布式版本控制系统。处理器还可以被配置为:输出分布式版本控制系统的图形用户界面(GUI)以用于在显示器上显示。经由分布式版本控制系统,处理器还可以被配置为:传达用于将一个或多个源代码文件的第一集合应用于被存储在服务器计算设备处的项目数据库的拉取请求。响应于传达拉取请求,处理器还可以被配置为:至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,推荐规则集包括一个或多个关联规则,一个或多个关联规则针对被应用于训练项目数据库的多个训练拉取请求而被标识。推荐规则集可以至少部分地基于每个训练拉取请求的相应最后迭代而被确定。处理器还可以被配置为在GUI处输出源代码文件推荐通知,源代码文件推荐通知包括一个或多个源代码文件的第二集合中的每个源代码文件的指示。
应当理解,本文描述的配置和/或方法本质上是示例性的,并且这些具体实施例或示例不应当以限制性意义来考虑,因为很多变化是可能的。本文描述的具体例程或方法可以表示任何数目的处理策略中的一个或多个。如此,所示出和/或描述的各种动作可以以所示和/或描述的顺序、以其他顺序、并行执行,或者被省略。类似地,可以改变上述过程的顺序。
本公开的主题包括本文公开的各种过程、系统和配置以及其他特征、功能、动作和/或特性,以及其任何和所有等同物的所有新颖的和非显而易见的组合和子组合。

Claims (20)

1.一种计算设备,包括:
非易失性存储设备;以及
处理器,被配置为:
执行被存储在所述非易失性存储设备中的分布式版本控制系统;
经由所述分布式版本控制系统,接收用于将一个或多个源代码文件的第一集合应用于针对项目的项目数据库的拉取请求;
响应于接收到所述拉取请求,至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,所述推荐规则集包括由机器学习算法标识的一个或多个关联规则,
其中所述机器学习算法使用被应用于针对训练项目的训练项目数据库的多个训练拉取请求而被训练,针对所述训练项目的所述训练项目数据库不同于针对所述项目的所述项目数据库,
其中所述推荐规则集仅基于每个训练拉取请求的相应最后迭代而被确定;以及
输出源代码文件推荐通知,所述源代码文件推荐通知包括对一个或多个源代码文件的所述第二集合中的每个源代码文件的指示。
2.根据权利要求1所述的计算设备,其中在所述推荐规则集中包括的每个关联规则具有超过预定义支持度阈值的支持度。
3.根据权利要求1所述的计算设备,其中在所述推荐规则集中包括的每个关联规则具有超过预定义置信度阈值的置信度。
4.根据权利要求1所述的计算设备,其中在所述推荐规则集中包括的每个关联规则具有超过预定义提升度阈值的提升度。
5.根据权利要求1所述的计算设备,其中一个或多个源代码文件的所述第一集合包括对一个或多个先前源代码文件的修改,所述一个或多个先前源代码文件响应于一个或多个先前拉取请求而被应用于所述项目数据库。
6.根据权利要求1所述的计算设备,其中一个或多个源代码文件的所述第二集合至少部分地基于一个或多个源代码文件的所述第一集合的一个或多个相应文件系统位置而被标识。
7.根据权利要求1所述的计算设备,其中一个或多个源代码文件的所述第二集合至少部分地基于一个或多个源代码文件的所述第一集合的相应文件名中包括的一个或多个子字符串而被标识。
8.根据权利要求1所述的计算设备,其中一个或多个源代码文件的所述第二集合至少部分地基于一个或多个源代码文件的所述第一集合的相应文件扩展名而被标识。
9.根据权利要求1所述的计算设备,还包括显示器,其中:
所述处理器还被配置为:输出所述分布式版本控制系统的图形用户界面GUI以用于在所述显示器上显示;并且
所述源代码文件推荐通知被包括在所述GUI中。
10.根据权利要求1所述的计算设备,其中:
对于一个或多个源代码文件的所述第二集合中的每个源代码文件,所述处理器还被配置为:确定对所述源代码文件的修改将被添加到所述拉取请求的估计概率;并且
基于每个源代码文件被添加到所述拉取请求的相应的所述估计概率,一个或多个源代码文件的所述第二集合在所述源代码文件推荐通知中被排名。
11.一种在计算设备的处理器处执行的方法,所述方法包括:
执行分布式版本控制系统;以及
经由所述分布式版本控制系统,接收用于将一个或多个源代码文件的第一集合应用于针对项目的项目数据库的拉取请求;
响应于接收到所述拉取请求,至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,所述推荐规则集包括由机器学习算法标识的一个或多个关联规则,
其中所述机器学习算法使用被应用于针对训练项目的训练项目数据库的多个训练拉取请求而被训练,针对所述训练项目的所述训练项目数据库不同于针对所述项目的所述项目数据库,
其中所述推荐规则集仅基于每个训练拉取请求的相应最后迭代而被确定;以及
输出源代码文件推荐通知,所述源代码文件推荐通知包括对一个或多个源代码文件的所述第二集合中的每个源代码文件的指示。
12.根据权利要求11所述的方法,其中在所述推荐规则集中包括的每个关联规则具有超过预定义支持度阈值的支持度。
13.根据权利要求11所述的方法,其中在所述推荐规则集中包括的每个关联规则具有超过预定义置信度阈值的置信度。
14.根据权利要求11所述的方法,其中在所述推荐规则集中包括的每个关联规则具有超过预定义提升度阈值的提升度。
15.根据权利要求11所述的方法,其中一个或多个源代码文件的所述第一集合包括对一个或多个先前源代码文件的修改,所述一个或多个先前源代码文件响应于一个或多个先前拉取请求而被应用于所述项目数据库。
16.根据权利要求11所述的方法,其中一个或多个源代码文件的所述第二集合至少部分地基于一个或多个源代码文件的所述第一集合的一个或多个相应文件系统位置而被标识。
17.根据权利要求11所述的方法,其中一个或多个源代码文件的所述第二集合至少部分地基于一个或多个源代码文件的所述第一集合的相应文件名中包括的一个或多个子字符串而被标识。
18.根据权利要求11所述的方法,其中一个或多个源代码文件的所述第二集合至少部分地基于一个或多个源代码文件的所述第一集合的相应文件扩展名而被标识。
19.根据权利要求11所述的方法,还包括输出所述分布式版本控制系统的图形用户界面GUI以用于在显示器上显示,其中所述源代码文件推荐通知被包括在所述GUI中。
20.一种客户端计算设备,包括:
非易失性存储设备;以及
处理器,被配置为:
执行被存储在所述非易失性存储设备中的分布式版本控制系统;
输出所述分布式版本控制系统的图形用户界面GUI以用于在显示器上显示;
经由所述分布式版本控制系统,传达用于将一个或多个源代码文件的第一集合应用于针对项目的项目数据库的拉取请求,针对所述项目的所述项目数据库被存储在服务器计算设备处,
响应于传达所述拉取请求,至少部分地基于推荐规则集来标识一个或多个源代码文件的第二集合,所述推荐规则集包括由机器学习算法标识的一个或多个关联规则,
其中所述机器学习算法使用被应用于针对训练项目的训练项目数据库的多个训练拉取请求而被训练,针对所述训练项目的所述训练项目数据库不同于针对所述项目的所述项目数据库,
其中所述推荐规则集仅基于每个训练拉取请求的相应最后迭代而被确定;以及
在所述GUI处输出源代码文件推荐通知,所述源代码文件推荐通知包括对一个或多个源代码文件的所述第二集合中的每个源代码文件的指示。
CN201980047710.0A 2018-07-19 2019-06-27 源代码文件推荐通知 Active CN112424748B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/040,431 US10831471B2 (en) 2018-07-19 2018-07-19 Source code file recommendation notification
US16/040,431 2018-07-19
PCT/US2019/039635 WO2020018251A1 (en) 2018-07-19 2019-06-27 Source code file recommendation notification

Publications (2)

Publication Number Publication Date
CN112424748A CN112424748A (zh) 2021-02-26
CN112424748B true CN112424748B (zh) 2024-04-05

Family

ID=67297410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980047710.0A Active CN112424748B (zh) 2018-07-19 2019-06-27 源代码文件推荐通知

Country Status (4)

Country Link
US (1) US10831471B2 (zh)
EP (1) EP3824385A1 (zh)
CN (1) CN112424748B (zh)
WO (1) WO2020018251A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11385940B2 (en) 2018-10-26 2022-07-12 EMC IP Holding Company LLC Multi-cloud framework for microservice-based applications
US11443237B1 (en) * 2018-11-26 2022-09-13 Amazon Technologies, Inc. Centralized platform for enhanced automated machine learning using disparate datasets
US11386205B2 (en) * 2019-01-14 2022-07-12 Mcafee, Llc Detection of malicious polyglot files
US11533317B2 (en) * 2019-09-30 2022-12-20 EMC IP Holding Company LLC Serverless application center for multi-cloud deployment of serverless applications
US20210334593A1 (en) * 2020-04-28 2021-10-28 At&T Intellectual Property I, L.P. Recommending scripts for constructing machine learning models
US11537392B2 (en) * 2021-01-04 2022-12-27 Capital One Services, Llc Dynamic review of software updates after pull requests
US11972256B2 (en) * 2022-02-16 2024-04-30 International Business Machines Corporation Software code analysis using fuzzy fingerprinting
CN115174201B (zh) * 2022-06-30 2023-08-01 北京安博通科技股份有限公司 一种基于筛选标签的安全规则管理方法及装置
CN117495064B (zh) * 2024-01-03 2024-05-14 安徽思高智能科技有限公司 一种面向多样性的代码审查者推荐方法及存储介质、设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193388A1 (en) * 2003-03-06 2004-09-30 Geoffrey Outhred Design time validation of systems
CN105122232A (zh) * 2013-03-14 2015-12-02 亚马逊科技公司 用于分布式基础结构的目录服务

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897642A (en) 1997-07-14 1999-04-27 Microsoft Corporation Method and system for integrating an object-based application with a version control system
GB2336698A (en) 1998-04-24 1999-10-27 Dialog Corp Plc The Automatic content categorisation of text data files using subdivision to reduce false classification
US6601233B1 (en) 1999-07-30 2003-07-29 Accenture Llp Business components framework
US6256773B1 (en) 1999-08-31 2001-07-03 Accenture Llp System, method and article of manufacture for configuration management in a development architecture framework
US20060259524A1 (en) 2003-03-17 2006-11-16 Horton D T Systems and methods for document project management, conversion, and filing
US20050283778A1 (en) * 2004-06-17 2005-12-22 International Business Machines Corporation System and method for identifying installation modes for device drivers
US7693817B2 (en) 2005-06-29 2010-04-06 Microsoft Corporation Sensing, storing, indexing, and retrieving data leveraging measures of user activity, attention, and interest
US7725881B2 (en) 2006-06-09 2010-05-25 Microsoft Corporation Automatically extracting coupling metrics from compiled code
US20080127089A1 (en) 2006-09-07 2008-05-29 Zohar Peretz Method For Managing Software Lifecycle
WO2008039964A1 (en) 2006-09-28 2008-04-03 Nec Laboratories America, Inc. Software testing using machine learning
US8037451B2 (en) 2006-10-03 2011-10-11 International Business Machines Corporation Method for tracking code revisions with a checksum data value being automatically appended to source files
US20080120598A1 (en) 2006-11-20 2008-05-22 Viewtier Systems, Inc. Method and apparatus of a build management system
US20090083268A1 (en) 2007-09-25 2009-03-26 International Business Machines Corporation Managing variants of artifacts in a software process
JP4782100B2 (ja) 2007-12-11 2011-09-28 株式会社日立製作所 ストレージシステムの性能を監視する管理計算機、その管理計算機を含む計算機システム、及び、その制御方法
US8615752B2 (en) * 2008-12-30 2013-12-24 International Business Machines Corporation System and method for detecting software patch dependencies
US8479161B2 (en) * 2009-03-18 2013-07-02 Oracle International Corporation System and method for performing software due diligence using a binary scan engine and parallel pattern matching
US20100299305A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Programming element modification recommendation
US8776219B2 (en) * 2010-08-27 2014-07-08 Microsoft Corporation Application selection using current detection intelligence
US20140006555A1 (en) * 2012-06-28 2014-01-02 Arynga Inc. Remote transfer of electronic images to a vehicle
US9430229B1 (en) * 2013-03-15 2016-08-30 Atlassian Pty Ltd Merge previewing in a version control system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193388A1 (en) * 2003-03-06 2004-09-30 Geoffrey Outhred Design time validation of systems
CN105122232A (zh) * 2013-03-14 2015-12-02 亚马逊科技公司 用于分布式基础结构的目录服务

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An automatic method for deriving OWL ontologies from XML documents;A. Minutolo等;2014 Ninth International Conference on P2P, Parallel, Grid, Cloud and Internet Computing;20141008;第1-6页 *
基于粒计算的大数据处理;徐计等;《 计算机学报》;20150831;第38卷(第8期);第1407-1517页 *

Also Published As

Publication number Publication date
EP3824385A1 (en) 2021-05-26
CN112424748A (zh) 2021-02-26
WO2020018251A1 (en) 2020-01-23
US10831471B2 (en) 2020-11-10
US20200026511A1 (en) 2020-01-23

Similar Documents

Publication Publication Date Title
CN112424748B (zh) 源代码文件推荐通知
JP7387714B2 (ja) 限られた知識ドメイン内でナレッジグラフを構築するための技術
US9722873B2 (en) Zero-downtime, reversible, client-driven service migration
US11449682B2 (en) Adjusting chatbot conversation to user personality and mood
JP6871943B2 (ja) モバイルクラウドサービスのための予め形成された命令
US20120166522A1 (en) Supporting intelligent user interface interactions
WO2019137444A1 (zh) 用于执行机器学习的特征工程的方法及系统
US11748071B2 (en) Developer and runtime environments supporting multi-input modalities
US20180357112A1 (en) Data Engine
CN118212328A (zh) 使用生成模型的对应于用户输入的故事视频生成
JP6748307B2 (ja) ソフトウェアプログラムを検証するための方法およびシステム
US20230161945A1 (en) Automatic two-way generation and synchronization of notebook and pipeline
US20180232643A1 (en) Identifying user engagement based upon emotional state
KR20190109652A (ko) 인공지능을 이용하여 생성되는 스타일 공간에 기반한 상품 추천 방법 및 시스템
US11863635B2 (en) Enhanced processing of user profiles using data structures specialized for graphical processing units (GPUs)
US20190384585A1 (en) Modification package
US20190130284A1 (en) Interactive Feedback and Assessment Experience
US20200034119A1 (en) Translating User Inputs Into Discretely Functional Styled Standalone Web and Mobile Software Features
US20240005200A1 (en) Generation of inference logic from training-time artifacts for machine learning model deployments
US20230239377A1 (en) System and techniques to autocomplete a new protocol definition
US20190339951A1 (en) Compiler platform
CN116149523A (zh) 笔记本和管线的自动双向生成和同步
Toka A BENCHMARKING FRAMEWORK FOR BIG DATA TECHNOLOGIES
Bazilinskyy Customisable multitenant web form with JSF and MySQL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant