CN109739994A

CN109739994A - 一种基于参考文档的api知识图谱构建方法

Info

Publication number: CN109739994A
Application number: CN201811529971.XA
Authority: CN
Inventors: 彭鑫; 刘名威; 赵文耘
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-10
Anticipated expiration: 2038-12-14
Also published as: CN109739994B

Abstract

本发明属于软件工程与智能化软件开发技术领域，具体为一种基于参考文档的API知识图谱构造方法。本发明方法包括，通过文档结构解析获得API元素的基本骨架结构，通过对API元素描述性内容中的句子进行自动分类来识别功能描述和使用方式描述；在不同API元素的描述信息之间进行共性概念的识别和链接，实现内部知识融合；在API元素描述信息中的共性概念与通用知识图谱中相关的技术概念之间进行概念链接，实现外部知识融合。本发明所构造的API知识图谱包括API包、类、接口、方法、属性、异常、方法参数与返回值以及这些元素之间的关系；本发明构造的API知识图谱，通过结构化的知识表示支持API知识语义查询、自动问答、辅助代码理解和代码推荐等智能化应用。

Description

一种基于参考文档的API知识图谱构建方法

技术领域

本发明属于软件工程与智能化软件开发技术领域，具体涉及一种API知识图谱构造方法。

背景技术

知识图谱（Knowledge Graph）是由Google在2012年正式提出的，其初衷是为了提高搜索引擎的能力，改善用户的搜索质量以及体验。知识图谱将真实世界中存在的各种实体、概念以及它们之间的关系用图的形式加以描述，从而为信息处理提供知识基础。目前已经有一些大规模通用知识图谱，如FreeBase、Yogo、Wikidata等。而在金融、电商、医疗等领域也产生了大量的领域知识图谱，用于支撑欺诈检测、电商管控、辅助决策等行业应用。知识图谱已经成为人工智能的关键技术之一，被广泛应用于智能搜索、自动问答、个性化推荐、内容分发等应用中。

软件开发是一个知识密集型的过程。其中各种编程语言、软件开发框架、软件组件包等所提供的API（Application Programming Interface，即应用编程接口）是开发人员所依赖的一种重要的开发资源，与之相关的知识对于开发人员有着重要的作用。与API相关的知识内容散布在很多不同的地方，例如API参考文档、API教程、API实现和使用代码、软件开发技术论坛等。当开发人员寻找并了解所需要的API或希望找到API相关问题的解决方案时，他们只能通过各种渠道获得零散的信息，无法获得有针对性的知识服务。同时，相关软件开发工具在完成代码理解和代码推荐等自动化任务时也缺少API相关的知识基础提供支撑。

发明内容

本发明的目的在于提供一种能够支持API知识语义查询、自动问答、辅助代码理解和代码推荐等智能化应用的基于参考文档的API知识图谱构建方法。

本发明在API参考文档等文档资源以及通用知识图谱基础上构造API知识图谱，以图谱化的方式刻画API元素、功能描述、使用约束以及与相关背景知识概念之间的关系，为API知识搜索、问答和各种相关的智能化应用提供知识基础。

本发明提供的基于参考文档的API知识图谱构建方法，具体步骤如下。

（1）API元素结构性知识抽取。API元素结构性知识包括各种API元素（例如API包、类、接口、方法、属性、异常、方法参数与返回值等）及其之间的结构关系（例如包含、继承、实现、类型、抛出异常等）。在规范格式的API参考文档（一般为HTML页面）基础上，通过网页包装器解析文档内容，从中抽取各种API元素以及相互之间的关系。

（2）API描述性句子自动分类。API参考文档中对于每个API元素都有一系列描述性句子，其中主要包含功能描述、使用方式（如参数约束）、其他三种类别。这一步通过自动分类从描述性句子中选取功能描述、使用方式两类句子，予以保留，加入API知识图谱。

具体包括以下子步骤：

1）从API参考文档中抽取每个API元素的描述性句子，过滤掉低质量的句子（如过短的句子）之后用于后续处理；

2）随机选取一部分描述性句子，由熟悉相关API的开发者人工标注为功能描述、使用方式、其他三种类别之一；

3）将所有API元素的描述性句子作为语料训练，利用无监督学习为其中的每个词产生一个词向量，同时针对每个描述性句子通过词向量平均得到句向量；

4）在人工标注的句子分类基础上训练一个深度学习分类器，以描述性句子的句向量作为输入，句子分类结果（功能描述、使用方式、或其他）作为输出；

5）利用训练好的句子分类器对所有API元素的描述性句子进行分类，将属于功能描述、使用方式这两类的句子加入API知识图谱。

（3）内部知识融合。不同的API描述性语句中可能会包含共性的概念，例如“Socket”、“thread”等。这一步识别和抽取不同的API描述性语句中的共性概念，并与相应的API描述性语句建立关联链接，实现内部知识融合。

具体包括以下子步骤：

1）针对知识图谱中每个API元素的功能描述或使用方式描述句子，通过词性标注、词干化、句子成分分析、依赖树解析之后，选取其中所有名词短语作为候选的共性概念；

2）针对所有候选的共性概念，通过词形和语义两个方面计算两两之间的相似度，其中词形相似度是概念名称的杰卡德相似度（取决于其中公共的词根比例）、语义相似度是它们所在的句子的句向量的余弦相似度；

3）针对所有候选的共性概念，基于它们两两之间的相似度进行聚类，两两相似度高的概念被聚到一起，将其中处于聚类中心的概念作为共性概念；

4）将每个聚类中的共性概念加入到API知识图谱中，并在该聚类中其他概念的来源句子与这个共性概念之间建立关联链接，从而实现内部知识融合。

（4）基于通用知识图谱的技术概念抽取。WikiData等通用知识图谱中包含大量的通用概念，其中一部分与计算机和软件相关，可以成为API知识图谱的背景知识。这一步基于通用知识图谱中概念的描述文本（如WikiData中概念对应的Wikipedia页面）自动识别与计算机和软件相关的技术概念；将所有技术概念的概念，及其在通用知识图谱中的关系都加入到API知识图谱中。

具体包括以下子步骤：

1）人工选取一部分通用知识图谱中的概念进行标注，将其分为与计算机和软件相关的技术概念以及非技术概念两类；

2）以通用知识图谱中所有概念的文本描述信息为语料，利用无监督学习为其中的每个词产生一个词向量，同时针对通用知识图谱中的每个概念利用其描述文本的词向量平均得到相应的概念向量表示；

3）在人工标注的概念分类基础上训练一个深度学习分类器，以概念的向量表示作为输入，概念分类结果（技术概念、非技术概念）作为输出；

4）通过训练好的分类器对通用知识图谱中所有的概念进行分类，将所有被分类为技术概念的概念（称为通用概念）及其在通用知识图谱中的关系都加入到API知识图谱中。

（5）外部知识融合。API描述性语句中提及的共性概念（例如“Socket”、“thread”等）中有很多在通用知识图谱中都有定义，可以通过建立概念链接实现与背景知识的融合。这一步基于文本及上下文分析在API元素以及共性概念与第4步得到的通用概念之间建立链接关系，实现外部知识融合。

具体包括以下子步骤：

1）针对API知识图谱中所有的结点（API元素、共性概念、通用概念等）收集文本描述信息构成文本语料，其中API元素的描述就是它们在API参考文档中对应的描述文本、API描述性句子的描述就是其本身、共性概念的描述是所有与之存在关联链接的API描述性句子、通用概念的描述是它们在通用知识图谱中对应的文本描述；

2）基于所收集的文本语料进行无监督的词向量训练，从而使所有结点文本描述中的词都有一个统一的词向量表示，同时针对API知识图谱中的每个结点通过其描述文本的词向量平均获得对应的结点向量表示；

3）对于API知识图谱中的每一个API元素和共性概念，计算与每一个通用概念的向量余弦相似度，如果相似度高于给定阈值那么就在API知识图谱中建立它们之间的关联链接，从而实现外部知识融合。

本发明所构造的API知识图谱，其高层结构如图1所示。整个API知识图谱，包括API包、类、接口、方法、属性、异常、方法参数与返回值等API元素以及这些元素之间的关系，同时还包括API元素的功能描述和使用方式两类描述性知识内容，并在不同API元素的描述信息之间以及这些描述与WikiData等通用知识图谱之间实现知识融合。为此，本发明通过文档结构解析获得API元素的基本骨架结构，然后通过对API元素描述性内容中的句子进行自动分类来识别功能描述和使用方式描述；在此基础上，本发明在不同API元素的描述信息之间进行共性概念（称为API概念）的识别和链接，实现内部知识融合；同时在API元素描述信息中的API概念与通用知识图谱中相关的技术概念之间进行概念链接，实现外部知识融合。

本发明基于通用API（如JDK、Android API）的参考文档自动化地构造API知识图谱，从而通过结构化的知识表示支持API知识语义查询、自动问答、辅助代码理解和代码推荐等智能化应用。

附图说明

图1为本发明的所构建的API知识图谱的高层结构。

具体实施方式

以下针对JDK 1.8以及Android API 27的API知识图谱构建，进一步描述本发明。

（1）API元素结构性知识抽取。利用Python库Scrapy自动爬取网页形式的JDK 1.8以及Android API 27参考文档，然后利用Python库Beautiful Soup实现解析API参考文档的网页包装器来抽取API元素结构性知识。

（2）API描述性句子自动分类。使用Python库Beautiful Soup来将HTML格式的描述文本转换成纯文本描述，利用Python库Spacy进行词性标注、词干化、句子成分分析、依赖树解析等文本预处理。然后使用谷歌提供的开源工具Word2Vec来训练词向量，训练的模型选择CBOW（Continuous Bag-of-Word，连续词袋）模型。使用反向传播神经网络（BackPropagation Neural Network）建立句子分类的深度学习模型。

（3）内部知识融合。在候选共性概念的抽取中，使用Python库Spacy来进行词性标注、词干化、句子成分分析、依赖树解析等文本预处理。概念相似度计算中将词形相似度与语义相似度的权重设置为1:1。使用层次聚类（Hierarchical Clustering）实现概念聚类，得到一个有层次的嵌套树结构，其中的层次聚类算法采用Python库Sklearn提供的实现。

（4）基于通用知识图谱的技术概念抽取。使用通用知识图谱WikiData作为通用概念的来源，将每个概念对应的Wikipedia页面的内容作为它的文本描述。然后使用谷歌提供的开源工具Word2Vec来训练词向量，训练的模型选择CBOW（Continuous Bag-of-Word，连续词袋）模型。使用反向传播神经网络（Back Propagation Neural Network）建立概念分类的深度学习模型。

（5）外部知识融合。使用谷歌提供的开源工具Word2Vec来训练词向量，训练的模型选择CBOW（Continuous Bag-of-Word，连续词袋）模型。在概念链接计算中，选择在余弦相似度大于0.8的API元素或共性概念和通用概念之间建立关联链接。

根据本发明构建的API知识图谱，不仅包含结构关系，而且还包含通过内部知识融合和外部知识融合所建立的概念关联，为API元素及其描述性句子提供了丰富的上下文信息。这种基于图的上下文信息为API元素及其描述提供了丰富的语义信息，能够为弥补各种关于API的文本描述（如API知识查询与API描述、不同的技术问答贴等）之间的概念鸿沟提供知识基础。基于这种API知识图谱可以实现API知识查询与汇编、API问题讨论推荐、开源项目API文档自动合成、API 知识自动问答等应用。

Claims

1.基于参考文档的API知识图谱构建方法，其特征在于，具体步骤如下：

（1）API元素结构性知识抽取；

API元素结构性知识包括各种API元素及其之间的结构关系，所述API元素包括API包、类、接口、方法、属性、异常、方法参数与返回值，所述结构关系包括包含、继承、实现、类型、抛出异常；在规范格式的API参考文档基础上，通过网页包装器解析文档内容，从中抽取各种API元素以及相互之间的关系；

（2）API描述性句子自动分类：

API参考文档中对于每个API元素都有一系列描述性句子，主要有功能描述、使用方式、其他三种类型；通过自动分类从描述性句子中选取功能描述、使用方式两类句子，并将这两类的句子加入API知识图谱；

（3）内部知识融合：

不同的API描述性语句中可能会包含共性的概念，识别和抽取不同的API描述性语句中的共性概念，并与相应的API描述性语句建立关联链接，实现内部知识融合；

（4）基于通用知识图谱的技术概念抽取：

通用知识图谱中包含大量的通用概念，其中一部分与计算机和软件相关，可以成为API知识图谱的背景知识；基于通用知识图谱中概念的描述文本自动识别与计算机和软件相关的技术概念；将所有技术概念的概念，及其在通用知识图谱中的关系都加入到API知识图谱中；

（5）外部知识融合：

API描述性语句中提及的共性概念中有很多在通用知识图谱中都有定义，通过建立概念链接实现与背景知识的融合；基于文本及上下文分析在API元素以及共性概念与第4步得到的技术概念即通用概念之间建立链接关系，实现外部知识融合。

2.根据权利要求1所述的基于参考文档的API知识图谱构建方法，其特征在于，步骤（2）中所述的API描述性句子自动分类，具体包括以下子步骤：

1）从API参考文档中抽取每个API元素的描述性句子，过滤掉低质量的句子之后用于后续处理；

4）在人工标注的句子分类基础上训练一个深度学习分类器，以描述性句子的句向量作为输入，句子分类结果：功能描述、使用方式、或其他，作为输出；

3.根据权利要求2所述的基于参考文档的API知识图谱构建方法，其特征在于，步骤（3）中所述的内部知识融合，具体包括以下子步骤：

2）针对所有候选的共性概念，通过词形和语义两个方面计算两两之间的相似度，其中，词形相似度是概念名称的杰卡德相似度，语义相似度是它们所在的句子的句向量的余弦相似度；

4.根据权利要求3所述的基于参考文档的API知识图谱构建方法，其特征在于，步骤（4）中所述的基于通用知识图谱的技术概念抽取，具体包括以下子步骤：

3）在人工标注的概念分类基础上训练一个深度学习分类器，以概念的向量表示作为输入，概念分类结果：技术概念、非技术概念，作为输出；

4）通过训练好的分类器对通用知识图谱中所有的概念进行分类，将所有被分类为技术概念的概念，及其在通用知识图谱中的关系都加入到API知识图谱中。

5.根据权利要求4所述的基于参考文档的API知识图谱构建方法，其特征在于，步骤（5）中所述的外部知识融合，具体包括以下子步骤：

1）针对API知识图谱中所有的结点：API元素、共性概念、通用概念；收集文本描述信息构成文本语料，其中，API元素的描述就是它们在API参考文档中对应的描述文本，API描述性句子的描述就是其本身，共性概念的描述是所有与之存在关联链接的API描述性句子，通用概念的描述是它们在通用知识图谱中对应的文本描述；

2）基于所收集的文本语料进行无监督的词向量训练，使所有结点文本描述中的词都有一个统一的词向量表示，同时针对API知识图谱中的每个结点通过其描述文本的词向量平均获得对应的结点向量表示；

6.由权利要求1-5之一所述的方法构建的API知识图谱，其特征在于，包括API包、类、接口、方法、属性、异常、方法参数与返回值这些API元素以及这些元素之间的关系，同时还包括API元素的功能描述和使用方式两类描述性知识内容，并在不同API元素的描述信息之间以及这些描述与通用知识图谱之间实现知识融合；其中，通过文档结构解析获得API元素的基本骨架结构，然后通过对API元素描述性内容中的句子进行自动分类来识别功能描述和使用方式描述；在此基础上，在不同API元素的描述信息之间进行共性概念的识别和链接，实现内部知识融合；同时在API元素描述信息中的API概念与通用知识图谱中相关的技术概念之间进行概念链接，实现外部知识融合。