CN108959433A - 一种从软件项目数据中提取知识图谱并问答的方法与系统 - Google Patents

一种从软件项目数据中提取知识图谱并问答的方法与系统 Download PDF

Info

Publication number
CN108959433A
CN108959433A CN201810597005.5A CN201810597005A CN108959433A CN 108959433 A CN108959433 A CN 108959433A CN 201810597005 A CN201810597005 A CN 201810597005A CN 108959433 A CN108959433 A CN 108959433A
Authority
CN
China
Prior art keywords
entity
data
software project
code
incidence relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810597005.5A
Other languages
English (en)
Other versions
CN108959433B (zh
Inventor
谢冰
林泽琦
邹艳珍
赵俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810597005.5A priority Critical patent/CN108959433B/zh
Publication of CN108959433A publication Critical patent/CN108959433A/zh
Application granted granted Critical
Publication of CN108959433B publication Critical patent/CN108959433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/75Structural analysis for program understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种从软件项目数据中提取知识图谱并问答的方法与系统。本方法为:对于软件项目数据库中每种类型的软件项目数据,从该类型的软件项目数据中提取出实体以及实体之间的关联关系,并存储到一对应的图数据库中;基于软件数据的可追踪性关联技术对各所述图数据库中的数据进行关联处理,得到不同类型软件项目数据的实体之间的关联关系;根据不同类型软件项目数据的实体之间的关联关系,在各图数据库中加入相应的边,对不同来源的实体进行连接,生成软件项目数据的知识图谱;对于输入的自然语言查询语句,从知识图谱中查询得到一匹配的连通子图作为答案。本发明解决了软件项目数据关联缺失、信息隔离现象严重、难以联立查询与分析的问题。

Description

一种从软件项目数据中提取知识图谱并问答的方法与系统
技术领域
本发明涉及一种从软件项目数据中提取知识图谱并问答的方法与系统,属于计算机软件技术领域。
背景技术
复用已有的大型软件项目是提高软件企业的软件生产率和软件质量的一种重要途径。软件复用成功的前提是复用者能够快速、正确地学习与理解软件项目中海量的相关知识,如领域概念、系统架构、接口设计、变更历史等等。这些知识蕴含在软件项目的全生命周期中产生的多源异构的数据中,例如:源代码、需求文档、设计文档、版本库、缺陷库、邮件记录、论坛讨论、技术博客等等。
目前,大量软件工程领域的研究者致力于从这些软件项目数据中挖掘出机器可理解的知识,进而能够基于这些知识为复用者提供智能化的推荐或问答服务。然而,在实践中,已有的软件项目数据并不利于研究。一方面,这些数据多源异构,彼此间广泛的关联关系并未被机器识别,存在严重的信息隔离问题;另一方面,这些数据中存在大量无结构的自然语言文本内容,不利于机器的分析与处理。因此,有必要发明一种从多源异构的软件项目数据中自动识别实体,并建立实体间广泛的关联关系,形成知识图谱,并为其提供自动问答支持的方法与系统。
发明内容
针对目前软件项目数据多源异构、缺乏关联、难以分析挖掘的问题,本发明的目的在于提供一种从软件项目数据中提取知识图谱并问答的方法与系统,通过本发明提供的方法和系统可以有效地从一个软件项目相关的多源异构数据中自动提取实体,识别出实体之间广泛的关联关系,形成知识图谱,并为其提供自动问答支持。
本发明的方法如图1所示,包括如下步骤:
1.一种面向多源异构软件项目数据的实体提取模块
该模块用于对软件项目数据库中各种不同类型的软件项目数据进行解析。针对每种类型的软件项目数据,该模块实现了一个数据解析插件,能够自动从这类数据中提取出实体,识别出这些实体之间的关联关系,并存储进neo4j图数据库中。具体为:
对于java源代码数据,使用抽象语法树解析工具Eclipse JDT ASTParser进行解析,抽取出程序结构依赖图,存储进neo4j图数据库中。程序结构依赖图中包含3种类型的实体(类实体、方法实体、域实体)以及11种类型的关联关系(继承、实现、声明方法、声明域、声明变量、域类型、函数调用、域访问、参数类型、返回类型、抛出异常)。
对于git版本库数据,使用git数据解析工具jgit进行解析,抽取出版本库中的实体及其间的关联关系,存储进neo4j图数据库中。其中包含2种类型的实体(提交记录实体、开发者实体)以及3种类型的关联关系(父对象、创建者、提交者)。
对于mbox邮件库数据,使用MIME数据解析工具mime4j进行解析,抽取出邮件库中的实体及其间的关联关系,存储进neo4j图数据库中。其中包含2种类型的实体(邮件实体、邮件地址实体)以及4种类型的关联关系(发送、接受、转发、回复)。
对于jira或bugzilla缺陷库数据,利用缺陷库提供的rest api接口导出json数据,并从中解析抽取出相应的实体及其间的关联关系,存储进neo4j图数据库中。其中包含4种类型的实体(缺陷报告实体、缺陷报告评论实体、缺陷库用户实体、修复记录实体)以及7种关联关系(包含评论、缺陷提交者、缺陷评论者、缺陷修复者、缺陷修复、重复缺陷、相关缺陷)。
对于docx、pptx、html等格式的文档数据,利用文档解析工具apache tika进行解析,抽取出其中的实体及其间的关联关系,存储进neo4j图数据库中。其中包含了1种类型的实体(文档片段实体)以及1种类型的关联关系(包含子片段)。
本模块提供了统一、可扩展的数据解析插件接口。对于以上未提及的软件项目数据类型,可以基于此接口进行二次开发,扩展出所需的数据解析插件。
2.一种软件知识关联融合模块
该模块以上一步骤中生成的多个独立的neo4j图数据库作为输入,基于软件数据的可追踪性关联技术,自动建立来自不同类型的软件项目数据的实体之间广泛的关联关系,从而将这些小的neo4j图数据库整合为一个统一、联通的知识图谱。步骤如下:
步骤一:本方法已从git版本库数据中提取出了提交记录实体。每个提交记录实体中都包含有一个描述信息属性(commit message)。该属性是开发者在进行此次提交时附加的自然语言描述。遍历所有提交记录实体,若一个提交记录实体中的注释信息中提及某个缺陷报告实体的编号,则建立该提交记录实体与该编号对应缺陷报告实体间的追踪关系;同样地,遍历所有修复记录实体,若一个修复记录实体中的diff信息(即通过调用git版本控制工具的diff命令所得到的两个版本之间的具体差异信息,已抽取出的实体中的提交记录实体与修复记录实体均包含diff信息作为一个属性)中提及了某个提交记录实体的编号,则建立该编号对应提交记录实体与该修复记录实体所链接的缺陷报告实体之间的关联关系。
步骤二:遍历所有提交记录实体,解析提交记录实体中的diff信息,基于对类名的字符串匹配识别出该提交记录实体修改了哪些类实体。建立该提交记录实体与该类实体之间的追踪关系。
步骤三:遍历所有包含自然语言文本内容的实体(具体包括:代码实体、提交记录实体、邮件实体、缺陷报告实体、缺陷报告评论实体、文档片段实体),使用代码-文本关联分析工具recodoc2,自动识别出这些自然语言文本内容与之前所抽取出的代码实体之间的关联关系,据此在图数据库中建立相应的边来连接这些实体。
步骤四:本方法已从软件项目的源代码中得到了程序结构依赖图,这是软件项目知识图谱的核心组成部分。为了在后续的知识图谱查询与浏览模块中更高效地对知识图谱中结点之间的关联程度进行计算,本方法对程序结构依赖图中的结点的语义进行数值建模。具体地,本方法使用知识图谱表示学习技术TransR分析neo4j图数据库中的程序结构依赖图,从而为每个代码实体生成一个200维的实值向量,用以表示代码实体的语义。
综上所述,对于多源异构的软件项目数据,模块一(实体提取模块)分别从各种不同类型的数据来源(源代码、版本库、邮件库、缺陷库、文档库,等等)中自动提取出了实体,存储于neo4j图数据库中;此后,模块二(软件知识关联融合模块)自动识别出这些实体之间广泛存在的各种关联关系,并在图数据库中加入相应的边,将不同来源的实体连接成了一个完整的大图,融合结果如图2所示。本发明将其称为软件项目知识图谱。
3.一种软件项目知识图谱的自动问答模块
该模块以用户给出的自然语言查询作为输入,从步骤一和二中所提取出的知识图谱中查询得到一个与之最为相关的连通子图,并图形化地呈现给用户作为答案。在此基础上,该模块亦支持用户以该子图为起点,交互式地浏览与探索知识图谱。
步骤一:遍历知识图谱中所有的代码实体,采用驼峰切词法抽取出其中的关键词,进行词根化处理并去除停用词,得到该代码实体相应的单词集合,并按关键词建立倒排索引;
步骤二:对于用户输入的自然语言查询语句,进行切词和去除停用词的预处理,得到该查询的单词集合。对于其中的每一个单词,利用步骤一中的倒排索引,匹配到所有包含该单词的代码实体集合作为其候选集合;匹配方法包括全名匹配、部分匹配、词根化匹配、缩写规则匹配、同义词匹配。并对匹配到的代码结点(即候选集合中的代码实体)与自然语言查询语句在词袋模型中的词向量余弦相似程度进行度量。考虑了两种评价指标,一是该结点所对应的词与自然语言查询语句的单词集合相关的词越多越好,二是该结点引入的不相关的词越少越好。给定自然语言查询语句中的任一单词,对于该单词所对应的候选集合中的任一代码实体,度量得的这一相似程度表征了该代码实体在该单词的候选集合中的权重。在步骤三中,这一权重是用于从候选集合中挑选合适的结点构成代码子图的重要因素。
步骤三:这一步骤的目的是基于度量结果从候选集合中挑选合适的结点构成代码子图。在保证代码子图中结点能覆盖自然语言查询语句中的所有单词的前提下,优化目标是代码子图中的结点与自然语言查询语句之间的累积相似程度尽可能高,并且代码子图中结点之间的距离尽可能越近。使用了基于柱状搜索(beam search)的算法来生成代码子图,其中结点之间的距离计算使用的是结点所对应的语义向量之间的欧氏距离。
步骤四:对于步骤三中产生的代码子图,将其扩展成为连通的子图。可以将这个问题定义成为给定顶点集构造一棵斯坦纳最小生成树(Steiner Minimum Spanning Tree),这样做就意味着用尽可能少的边将所有顶点连接起来。本发明采用贪心算法获得斯通纳最小生成树的近似解。即:对于包含N个连通子图的子图,每次从知识图谱中求得能够连接其中某两个联通子图的最短路径,并将这条最短路径上的结点和边加入结果中;重复N-1次,最终生成1个联通的子图,即为斯坦纳最小生成树的近似解。将该子图返回给用户,作为查询结果。
与现有技术相比,本发明的积极效果为:
本发明能够从一个软件项目的全生命周期中产生的多源异构的数据进行自动解析与挖掘,提取出软件项目知识图谱,解决了软件项目数据关联缺失、信息隔离现象严重、难以联立查询与分析的问题。
在此基础上,本发明为软件项目知识图谱提供了友好易用的自动问答支持。相比现有的以信息检索技术为基础软件项目数据查询技术,本方法额外利用了软件项目知识图谱上丰富的图结构信息,从而能够得到更好的查询效果。实验表明,以F1值作为评价指标,本方法的表现(0.63)显著优于其它方法(最高0.54)。
附图说明
图1是本发明的总体框架图;
图2是软件知识关联融合模块的关联融合结果示意图。
具体实施方式
实施例:
本实施例中,用户需要从开源软件项目Apache Lucene的数据中提取知识图谱。具体到各种不同类型的数据,包括:
·82.4MB源代码数据;
·368MB git版本库数据;
·1.98GB缺陷报告数据;
·1.08GB邮件数据;
·171MB StackOverflow问答文档数据。
通过模块一以及模块二,本发明可以自动从这些数据中抽取出相应的实体以及关联关系,存储在neo4j图数据库中。以下为一些抽取得的实体与关联关系示例:
·类IndexReader是一个实体,方法maxDoc也是一个实体,前者有一条类型为“声明方法”的边指向后者;
·类AutomaticReader是一个实体,有一条类型为“继承”的边指向类IndexReader;
·从git版本库数据中可以解析出一个名为Alex的开发者实体,这个实体提交了一个编号为08ee037的提交记录实体,该实体有一个父对象:一个编号为3e8f31e的提交记录实体;
·编号为08ee037的提交记录实体到类CollectionsHandler实体具有“修改”关系;同时,该提交记录实体的注释信息中提及了“SOLR-12308”,因此这个实体与编号为SOLR-12308的缺陷报告实体具有可追踪关联关系;
·编号为SOLR-12308的缺陷报告实体中提及了方法实体MiniSolrCloudCluster.deleteAllCollections;
·…
以上示例显示了本发明可以从多源异构的软件项目数据中抽取出实体,并建立这些实体之间广泛的关联关系,形成知识图谱。
知识图谱上的自动问答示例如下所示:
对于自然语言问题“How to set document boost attribute in Lucene?”,经过预处理后的词袋为{set,document,boost,attribute},每个单词都可以匹配到一系列包含该单词的候选结点组成的集合,譬如boost可以匹配到setboost,getboost,BoostAttribute等结点。经过子图生成算法挑选出了结点集合{Document,BoostAttribute,setBoost},它们包含了问题中所有单词,并且经过计算是距离之和最小且与问题之间的文本相似度最高的。最后通过子图扩展方法将其连接成连通的子图,引入了额外的三个结点Attribute,BoostAttributeImp,Terms来保证子图的连通性,譬如BoostAttributeImp类实现了BoostAttribute接口,BoostAttribute又继承了Attribute接口。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种从软件项目数据中提取知识图谱并问答的方法,其步骤为:
1)对于软件项目数据库中每种类型的软件项目数据,从该类型的软件项目数据中提取出实体以及实体之间的关联关系,并存储到一对应的图数据库中;
2)基于软件数据的可追踪性关联技术对各所述图数据库中的数据进行关联处理,得到不同类型软件项目数据的实体之间的关联关系;
3)根据不同类型软件项目数据的实体之间的关联关系,在各图数据库中加入相应的边,对不同来源的实体进行连接,生成软件项目数据的知识图谱
4)根据输入的自然语言查询语句,从所述知识图谱中查询得到一匹配的连通子图作为答案。
2.如权利要求1所述的方法,其特征在于,所述软件项目数据库中的软件项目数据包括:java源代码数据、git版本库数据、mbox邮件库数据、缺陷库数据和文档数据。
3.如权利要求2所述的方法,其特征在于,对于java源代码数据,使用抽象语法树解析工具Eclipse JDT ASTParser进行解析,抽取出程序结构依赖图,所述程序结构依赖图中包括三种类型的实体:类实体、方法实体和域实体;对于git版本库数据,使用git数据解析工具jgit进行解析,抽取出版本库中的实体及其关联关系,包括二种类型的实体:提交记录实体和开发者实体;对于mbox邮件库数据,使用MIME数据解析工具mime4j进行解析,抽取出邮件库中的实体及其关联关系,包含二种类型的实体:邮件实体和邮件地址实体;对于缺陷库数据,利用缺陷库提供的rest api接口导出json数据,并从中解析抽取出相应的实体及其关联关系,包含四种类型的实体:缺陷报告实体、缺陷报告评论实体、缺陷库用户实体和修复记录实体;对于文档数据,利用文档解析工具apache tika进行解析,抽取出其中的实体及其关联关系,其中包含一种类型的实体:文档片段实体。
4.如权利要求3所述的方法,其特征在于,得到不同类型软件项目数据的实体之间的关联关系的方法为:遍历提取的提交记录实体,若一提交记录实体a的注释信息中存在缺陷报告实体b的编号,则建立该提交记录实体a与该编号对应缺陷报告实体b间的追踪关系;遍历提取的修复记录实体,若一修复记录实体i中的diff信息中存在提交记录实体j的编号,则建立该编号对应提交记录实体j与该修复记录实体i所链接的缺陷报告实体之间的关联关系;遍历提取的提交记录实体,解析提交记录实体a'中的diff信息,识别出该提交记录实体a'所修改的类实体c',建立该提交记录实体a'与该类实体c'之间的追踪关系;遍历所有包含自然语言文本内容的实体,识别出实体的自然语言文本内容与所提取的代码实体之间的关联关系,据此在图数据库中建立相应的边来连接对应的实体与代码实体。
5.如权利要求3所述的方法,其特征在于,使用知识图谱表示学习技术TransR分析所述程序结构依赖图,为每个代码实体生成一个多维的实值向量,用以表示代码实体的语义。
6.如权利要求1所述的方法,其特征在于,所述图数据库为neo4j图数据库。
7.如权利要求1所述的方法,其特征在于,根据输入的自然语言查询语句,从所述知识图谱中查询得到一匹配的连通子图作为答案,其方法为:
71)遍历知识图谱中的每一代码实体,抽取出其中的关键词,进行词根化处理并去除停用词,得到该代码实体对应的单词集合,并按关键词建立倒排索引;
72)对于输入的该自然语言查询语句进行切词和去除停用词的预处理,得到该自然语言查询语句的单词集合,对于其中的每一个单词,利用该倒排索引得到所有包含该单词的代码实体,将这些代码实体作为该单词的候选集合;
73)对每一候选集合中的代码实体与自然语言查询语句在词袋模型中的词向量余弦相似程度进行度量;根据度量结果从候选集合中挑选代码实体构成代码子图;
74)将该代码子图扩展成为连通的子图,并将其作为查询结果返回。
8.一种从软件项目数据中提取知识图谱并问答的系统,其特征在于,包括实体提取模块、软件知识关联融合模块和自动问答模块;其中
所述实体提取模块,用于对软件项目数据库中每种类型的软件项目数据,从该类型的软件项目数据中提取出实体以及实体之间的关联关系,并存储到一对应的图数据库中;
所述软件知识关联融合模块,用于基于软件数据的可追踪性关联技术对各所述图数据库中的数据进行关联处理,得到不同类型软件项目数据的实体之间的关联关系;然后根据不同类型软件项目数据的实体之间的关联关系,在各图数据库中加入相应的边,对不同来源的实体进行连接,生成软件项目数据的知识图谱
所述自动问答模块,用于根据输入的自然语言查询语句,从所述知识图谱中查询得到一匹配的连通子图。
9.如权利要求8所述的系统,其特征在于,所述自动问答模块根据输入的自然语言查询语句,从所述知识图谱中查询得到一匹配的连通子图的方法为:遍历知识图谱中的每一代码实体,抽取出其中的关键词,进行词根化处理并去除停用词,得到该代码实体对应的单词集合,并按关键词建立倒排索引;对于输入的该自然语言查询语句进行切词和去除停用词的预处理,得到该自然语言查询语句的单词集合,对于其中的每一个单词,利用该倒排索引得到所有包含该单词的代码实体,将这些代码实体作为该单词的候选集合;对每一候选集合中的代码实体与自然语言查询语句在词袋模型中的词向量余弦相似程度进行度量;根据度量结果从候选集合中挑选代码实体构成代码子图;将该代码子图扩展成为连通的子图,并将其作为查询结果返回。
10.如权利要求8所述的系统,其特征在于,所述软件项目数据库中的软件项目数据包括:java源代码数据、git版本库数据、mbox邮件库数据、缺陷库数据和文档数据;对于java源代码数据,使用抽象语法树解析工具Eclipse JDT ASTParser进行解析,抽取出程序结构依赖图,所述程序结构依赖图中包括三种类型的实体:类实体、方法实体和域实体;对于git版本库数据,使用git数据解析工具jgit进行解析,抽取出版本库中的实体及其关联关系,包括二种类型的实体:提交记录实体和开发者实体;对于mbox邮件库数据,使用MIME数据解析工具mime4j进行解析,抽取出邮件库中的实体及其关联关系,包含二种类型的实体:邮件实体和邮件地址实体;对于缺陷库数据,利用缺陷库提供的rest api接口导出json数据,并从中解析抽取出相应的实体及其关联关系,包含四种类型的实体:缺陷报告实体、缺陷报告评论实体、缺陷库用户实体和修复记录实体;对于文档数据,利用文档解析工具apachetika进行解析,抽取出其中的实体及其关联关系,其中包含一种类型的实体:文档片段实体。对于不同类型的软件项目数据,通过统一的插件接口将其集成至系统中,从而支持对潜在的更多类型的软件项目数据的扩展。
CN201810597005.5A 2018-06-11 2018-06-11 一种从软件项目数据中提取知识图谱并问答的方法与系统 Active CN108959433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810597005.5A CN108959433B (zh) 2018-06-11 2018-06-11 一种从软件项目数据中提取知识图谱并问答的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810597005.5A CN108959433B (zh) 2018-06-11 2018-06-11 一种从软件项目数据中提取知识图谱并问答的方法与系统

Publications (2)

Publication Number Publication Date
CN108959433A true CN108959433A (zh) 2018-12-07
CN108959433B CN108959433B (zh) 2022-05-03

Family

ID=64488128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810597005.5A Active CN108959433B (zh) 2018-06-11 2018-06-11 一种从软件项目数据中提取知识图谱并问答的方法与系统

Country Status (1)

Country Link
CN (1) CN108959433B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508391A (zh) * 2018-12-28 2019-03-22 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109739994A (zh) * 2018-12-14 2019-05-10 复旦大学 一种基于参考文档的api知识图谱构建方法
CN109800019A (zh) * 2018-12-17 2019-05-24 北京达佳互联信息技术有限公司 代码管理方法、系统、电子设备和计算机可读存储介质
CN109902279A (zh) * 2019-01-15 2019-06-18 新智云数据服务有限公司 数据处理方法、装置、设备和存储介质
CN110096599A (zh) * 2019-04-30 2019-08-06 长沙知了信息科技有限公司 知识图谱的生成方法及装置
CN110532019A (zh) * 2019-06-27 2019-12-03 北京大学 一种软件代码片段历史追溯的方法
CN111241252A (zh) * 2020-04-17 2020-06-05 成都数联铭品科技有限公司 一种问答方法及问答装置、电子设备、存储介质
CN111241307A (zh) * 2020-01-23 2020-06-05 复旦大学 面向软件系统的软件项目及第三方库知识图谱构造方法
CN111339334A (zh) * 2020-02-11 2020-06-26 支付宝(杭州)信息技术有限公司 异构图数据库的数据查询方法及其系统
CN111581397A (zh) * 2020-05-07 2020-08-25 南方电网科学研究院有限责任公司 一种基于知识图谱的网络攻击溯源方法、装置及设备
CN111597347A (zh) * 2020-04-24 2020-08-28 扬州大学 知识嵌入的缺陷报告重构方法及装置
CN111914098A (zh) * 2020-07-19 2020-11-10 中信银行股份有限公司 一种知识图谱构建方法、装置、电子设备和可读存储介质
CN112052680A (zh) * 2020-10-14 2020-12-08 腾讯科技(深圳)有限公司 问题生成方法、装置、设备及存储介质
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法
CN112241449A (zh) * 2019-07-18 2021-01-19 周乃杰 问答系统
CN112395431A (zh) * 2021-01-18 2021-02-23 北京晶未科技有限公司 用于构建行为模型的方法、电子装置和电子设备
CN112667755A (zh) * 2021-01-05 2021-04-16 浪潮软件科技有限公司 基于Kudu的数据分析装置和方法
CN112883122A (zh) * 2021-02-05 2021-06-01 北京控制工程研究所 一种基于多视图模型的嵌入式软件知识表示方法及管理系统
CN113065737A (zh) * 2021-02-04 2021-07-02 上海金融期货信息技术有限公司 一种基于DevOps的效能度量方法和系统
CN113297392A (zh) * 2021-06-02 2021-08-24 江苏数兑科技有限公司 一种基于知识图谱的智能数据服务方法
CN113535883A (zh) * 2021-07-16 2021-10-22 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113609309A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927360A (zh) * 2014-04-18 2014-07-16 北京大学 基于图模型的软件项目语义信息表示及检索方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN106874261A (zh) * 2017-03-17 2017-06-20 中国科学院软件研究所 一种基于语义三角的领域知识图谱及查询方法
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927360A (zh) * 2014-04-18 2014-07-16 北京大学 基于图模型的软件项目语义信息表示及检索方法
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN106874261A (zh) * 2017-03-17 2017-06-20 中国科学院软件研究所 一种基于语义三角的领域知识图谱及查询方法
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宋怀达等: "OKQA:一个基于本体的软件开发知识QA工具", 《计算机工程与应用》 *
李文鹏等: "面向开源软件项目的软件知识图谱构建方法", 《计算机科学与探索》 *
林泽琦等: "一种基于图数据库的代码结构解析与搜索方法", 《计算机研究与发展》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739994A (zh) * 2018-12-14 2019-05-10 复旦大学 一种基于参考文档的api知识图谱构建方法
CN109739994B (zh) * 2018-12-14 2023-05-02 复旦大学 一种基于参考文档的api知识图谱构建方法
CN109800019A (zh) * 2018-12-17 2019-05-24 北京达佳互联信息技术有限公司 代码管理方法、系统、电子设备和计算机可读存储介质
CN109508391B (zh) * 2018-12-28 2022-04-08 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109508391A (zh) * 2018-12-28 2019-03-22 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109902279A (zh) * 2019-01-15 2019-06-18 新智云数据服务有限公司 数据处理方法、装置、设备和存储介质
CN110096599A (zh) * 2019-04-30 2019-08-06 长沙知了信息科技有限公司 知识图谱的生成方法及装置
CN110096599B (zh) * 2019-04-30 2023-03-21 长沙知了信息科技有限公司 知识图谱的生成方法及装置
CN110532019A (zh) * 2019-06-27 2019-12-03 北京大学 一种软件代码片段历史追溯的方法
CN112241449A (zh) * 2019-07-18 2021-01-19 周乃杰 问答系统
CN111241307A (zh) * 2020-01-23 2020-06-05 复旦大学 面向软件系统的软件项目及第三方库知识图谱构造方法
CN111339334A (zh) * 2020-02-11 2020-06-26 支付宝(杭州)信息技术有限公司 异构图数据库的数据查询方法及其系统
CN111339334B (zh) * 2020-02-11 2023-04-07 支付宝(杭州)信息技术有限公司 异构图数据库的数据查询方法及其系统
CN111241252B (zh) * 2020-04-17 2020-08-14 成都数联铭品科技有限公司 一种问答方法及问答装置、电子设备、存储介质
CN111241252A (zh) * 2020-04-17 2020-06-05 成都数联铭品科技有限公司 一种问答方法及问答装置、电子设备、存储介质
CN111597347A (zh) * 2020-04-24 2020-08-28 扬州大学 知识嵌入的缺陷报告重构方法及装置
CN111597347B (zh) * 2020-04-24 2023-11-10 扬州大学 知识嵌入的缺陷报告重构方法及装置
CN111581397A (zh) * 2020-05-07 2020-08-25 南方电网科学研究院有限责任公司 一种基于知识图谱的网络攻击溯源方法、装置及设备
CN111914098A (zh) * 2020-07-19 2020-11-10 中信银行股份有限公司 一种知识图谱构建方法、装置、电子设备和可读存储介质
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法
CN112052680A (zh) * 2020-10-14 2020-12-08 腾讯科技(深圳)有限公司 问题生成方法、装置、设备及存储介质
CN112667755A (zh) * 2021-01-05 2021-04-16 浪潮软件科技有限公司 基于Kudu的数据分析装置和方法
CN112395431A (zh) * 2021-01-18 2021-02-23 北京晶未科技有限公司 用于构建行为模型的方法、电子装置和电子设备
CN112395431B (zh) * 2021-01-18 2021-04-30 北京晶未科技有限公司 用于构建行为模型的方法、电子装置和电子设备
CN113065737A (zh) * 2021-02-04 2021-07-02 上海金融期货信息技术有限公司 一种基于DevOps的效能度量方法和系统
CN112883122A (zh) * 2021-02-05 2021-06-01 北京控制工程研究所 一种基于多视图模型的嵌入式软件知识表示方法及管理系统
CN112883122B (zh) * 2021-02-05 2023-10-13 北京控制工程研究所 一种基于多视图模型的嵌入式软件知识表示方法及管理系统
CN113297392B (zh) * 2021-06-02 2022-02-18 江苏数兑科技有限公司 一种基于知识图谱的智能数据服务方法
CN113297392A (zh) * 2021-06-02 2021-08-24 江苏数兑科技有限公司 一种基于知识图谱的智能数据服务方法
CN113535883A (zh) * 2021-07-16 2021-10-22 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113535883B (zh) * 2021-07-16 2023-10-31 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113609309A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN113609309B (zh) * 2021-08-16 2024-02-06 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法

Also Published As

Publication number Publication date
CN108959433B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN108959433A (zh) 一种从软件项目数据中提取知识图谱并问答的方法与系统
Dimou et al. Assessing and refining mappingsto rdf to improve dataset quality
Joshi et al. Alignment-based querying of linked open data
US8972372B2 (en) Searching code by specifying its behavior
US9519636B2 (en) Deduction of analytic context based on text and semantic layer
US20100174704A1 (en) Searching method and system
CN104899314A (zh) 一种数据仓库的血统分析方法和装置
KR20090009834A (ko) 프로그래밍 언어에서 수식 트리의 깊은 임베딩을 위한 범용인터페이스를 제공하는 시스템, 컴퓨터 구현 방법 및 컴퓨터 구현 시스템
Ockeloen et al. BiographyNet: Managing Provenance at Multiple Levels and from Different Perspectives.
CN101609460A (zh) 一种支持异构地学数据资源的检索方法及检索系统
Lambrix et al. A tool for evaluating ontology alignment strategies
CN116450908B (zh) 基于数据湖的自助式数据分析方法、装置和电子设备
CN111914066A (zh) 多源数据库全局搜索方法及系统
CN114625748A (zh) Sql查询语句的生成方法、装置、电子设备及可读存储介质
CN114564482A (zh) 一种面向多实体的标签系统及处理方法
CN108959454B (zh) 一种提示子句指定方法、装置、设备及存储介质
Salam et al. Distributed framework for political event coding in real-time
CN117076742A (zh) 数据血缘追踪方法、装置及电子设备
KR20160120583A (ko) 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
CN116737808A (zh) 一种基于数据血缘的数据集成方法及系统
CN113434658A (zh) 火电机组运行问答生成方法、系统、设备及可读存储介质
Shahzad et al. Generating process model collection with diverse label and structural features
Setti et al. Outlines of a graph-tensor based adaptive associative search model for internet of digital reality applications
Flores et al. Incremental schema integration for data wrangling via knowledge graphs
CN117290355B (zh) 一种元数据地图构建系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant