CN113220861B

CN113220861B - 一种面向专业领域的知识图谱问答系统

Info

Publication number: CN113220861B
Application number: CN202110618298.2A
Authority: CN
Inventors: 裴新宇; 楚博策; 郭琦; 刘敬一; 高晓倩; 韩长兴; 王梅瑞; 耿虎军; 陈金勇; 高峰
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2022-09-02
Anticipated expiration: 2041-06-01
Also published as: CN113220861A

Abstract

本发明公开一种面向专业领域的知识图谱问答系统，包括知识抽取模块和答案生成模块；处理过程主要包含：跨模态协同的专业领域知识抽取，利用文本模态协同图像与视频模态数据进行知识抽取，以解决多源异构性、多模态性导致传统知识抽取方法难以直接应用到专业领域；融合多源知识的问答，利用专业领域知识信息，通过语义匹配和答案生成获得多源候选答案；多源候选答案语义融合，基于多源知识的答案置信度重排序和答案要点重新组织来生成最终答案。本发明提出的面向专业领域的知识图谱问答系统解决专业领域的多源异构、多模态数据的知识问答，适用于其它领域的多模态知识问答。

Description

一种面向专业领域的知识图谱问答系统

技术领域

本发明涉及一种面向专业领域的知识图谱问答系统，属于自然语言处理技术领域。

背景技术

随着计算机和互联网技术的发展，面向专业领域的数据呈指数级增长。这些数据规模庞大且具有多源异构特性，一方面专业领域数据来源于不同的数据源，如文献、报告等。另一方面专业领域数据的异构特征明显，涵盖文本、图片、视频等模态。如何从这些多源异构的专业领域数据中快速且精准地获取用户所需的信息成为一个亟待解决的问题，而解决这一问题最重要的技术就是基于知识图谱的智能问答技术。

面向专业领域的知识图谱智能问答是指利用构建的多模态知识图谱来回答用户提问的自然语言问题，可以为用户提供更精确、更简洁的答案。目前基于知识图谱的问答技术大致分为基于语义解析的方法和基于信息检索的方法，还不能较好地满足面向专业领域多源异构数据的问答需求。

发明内容

本发明为了避免背景技术中存在的问题，提出了一种面向专业领域的知识图谱问答系统。

本发明所采用的技术方案如下：

一种面向专业领域的知识图谱问答系统，包括知识抽取模块和答案生成模块；

知识抽取模块，用于使用知识迁移的思想，利用文本模态协同图像和视频模态进行专业领域数据的多模态知识抽取，构建专业领域知识图谱；

答案生成模块，用于将外部输入的问题基于专业领域知识图谱，采用基于语义生成图的解析方法和语义匹配方法，为问题提供候选答案，并判断问题与候选答案的置信度，获得问题的最终答案。

进一步的，知识抽取模块包括跨模态分析模块、跨模态检索模块、跨模态知识抽取模块和跨模态知识对齐模块；

跨模态分析模块，用于针对多源异构专业领域数据的各个模态进行候选实体和关系的抽取，构建专业领域知识图谱；其中文本模态基于深度神经网络进行实体和关系的联合抽取；图像和视频模态基于目标检测的方法进行实体检测，并从空间关系和语义关系两个层面检测关系；

跨模态检索模块，用于基于专业领域知识图谱，采用融合关键词、图像和视频中的关键帧的检索方法，从互联网资源获取相关文本模态数据；

跨模态知识抽取模块，用于基于跨模态检索模块获取的相关文本模态数据以及跨模态分析模块构建的专业领域知识图谱，利用基于知识迁移的思想，实现跨模态数据的知识抽取；

跨模态知识对齐模块，用于基于专业领域知识图谱和跨模态数据的知识抽取结果采用基于多任务学习的知识对齐方法，通过实体对齐和属性对齐多种任务同时学习的方法，利用不同模态知识的实体对齐方式获取外部异构语义信息，并利用实体属性预测丰富实体在航天知识图谱内部的语义信息，实现专业领域知识图谱实体对齐。

进一步的，答案生成模块包括基于语义生成图的语义解析模块、语义匹配模块和最终答案生成模块；

基于语义生成图的语义解析模块，用于将外部输入的问题，利用专业领域知识图谱来表示句子的语义，并通过循环神经网络模型生成句子的语义解析；

语义匹配模块，用于根据句子的语义解析与构建的专业领域知识图谱进行语义检索，得到关联度高的候选答案；

最终答案生成模块，用于将关联度高的候选答案利用基于注意力机制的知识融合模型生成问题的最终答案。

进一步的，最终答案生成模块包括多源知识的答案置信度计算及排序模块和答案要点组织及语义级融合生成模块；

多源知识的答案置信度计算及排序模块，用于利用注意力机制对问题及关联度高的候选答案进行特征提取，同时融合词向量特征和词位置特征判断问题与候选答案的置信度，并按置信度对候选答案进行重排序；

答案要点组织及语义级融合生成模块，用于将注意力机制引入答案要点组织中，利用注意力机制捕获句子间语义逻辑关系，生成问题的最终答案。

本发明相比现有技术具有如下优点：

1、本发明可以实现跨模态知识检索问答，实现了除文本外音频、视频、图像等数据的检索。

2、本发明实现了多模态数据的知识对齐，消除了多模态知识间潜在语义的歧异。

3、本发明用于将关联度高的候选答案利用基于注意力机制的知识融合模型生成多源答案，丰富了问答系统所反馈结果的数据形式。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的系统整体处理流程框图；

图2为本发明实施例提供的知识抽取流程框图；

图3为本发明实施例提供的融合多源航天知识的问答流程框图；

图4为本发明实施例提供的多源候选答案语义融合流程框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的一种面向专业领域的知识图谱问答系统，采用的整体架构如图1所示，包括知识抽取模块和答案生成模块；本实施例以航天领域数据为例进行说明。

知识抽取模块，用于使用知识迁移的思想，利用文本模态协同图像和视频模态进行航天领域数据的多模态知识抽取，构建航天领域知识图谱；

答案生成模块，用于将外部输入的航天问题基于航天领域知识图谱，采用基于语义生成图的解析方法和语义匹配方法，为问题提供候选答案，并判断问题与候选答案的置信度，获得问题的最终答案。

本发明涉及以下所述的关键要素：

1.跨模态协同的航天知识抽取

跨模态协同的航天知识抽取流程框图如图2所示，知识抽取包括跨模态分析、跨模态检索、跨模态知识抽取和跨模态知识对齐。具体架构为：

航天知识抽取模块包括跨模态分析模块、跨模态检索模块、跨模态知识抽取模块和跨模态知识对齐模块；

跨模态分析模块，用于针对多源异构航天领域数据的各个模态进行候选实体和关系的抽取，构建航天领域知识图谱；其中文本模态基于深度神经网络进行实体和关系的联合抽取；图像和视频模态基于目标检测的方法进行实体检测，并从空间关系和语义关系两个层面检测关系；

跨模态检索模块，用于基于航天领域知识图谱，采用融合关键词、图像和视频中的关键帧的检索方法，从互联网资源获取相关文本模态数据；

跨模态知识抽取模块，用于基于跨模态检索模块获取的相关文本模态数据以及跨模态分析模块构建的航天领域知识图谱，利用基于知识迁移的思想，实现跨模态数据的知识抽取；

跨模态知识对齐模块，用于基于航天领域知识图谱和跨模态数据的知识抽取结果采用基于多任务学习的知识对齐方法，通过实体对齐和属性对齐多种任务同时学习的方法，利用不同模态知识的实体对齐方式获取外部异构语义信息，并利用实体属性预测丰富实体在航天知识图谱内部的语义信息，实现航天领域知识图谱实体对齐。

2.融合多源航天知识的问答

融合多源航天知识的问答流程框图如图3所示，包括基于语义生成图的语义解析、语义匹配和最终答案生成。具体架构为：

答案生成模块包括基于语义生成图的语义解析模块、语义匹配模块和最终答案生成模块；

基于语义生成图的语义解析模块，用于将外部输入的问题，利用航天领域知识图谱来表示句子的语义，并通过循环神经网络模型生成句子的语义解析；

语义匹配模块，用于根据句子的语义解析与构建的航天领域知识图谱进行语义检索，得到关联度高的候选答案；

3.多源候选答案语义融合

多源候选答案语义融合的流程框图如图4所示，包括多源知识的答案置信度计算及排序、答案要点组织及语义级融合生成。具体架构为：

最终答案生成模块包括多源知识的答案置信度计算及排序模块和答案要点组织及语义级融合生成模块；

本发明实施例提供的面向航天领域的知识图谱智能问答系统，可以适用于其它领域的知识图谱问答，但不仅限于此。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种面向专业领域的知识图谱问答系统，其特征在于，包括知识抽取模块和答案生成模块；

答案生成模块，用于将外部输入的问题基于专业领域知识图谱，采用基于语义生成图的解析方法和语义匹配方法，为问题提供候选答案，并判断问题与候选答案的置信度，获得问题的最终答案；

其中，知识抽取模块包括跨模态分析模块、跨模态检索模块、跨模态知识抽取模块和跨模态知识对齐模块；

2.根据权利要求1所述的一种面向专业领域的知识图谱问答系统，其特征在于，答案生成模块包括基于语义生成图的语义解析模块、语义匹配模块和最终答案生成模块；

3.根据权利要求2所述的一种面向专业领域的知识图谱问答系统，其特征在于，最终答案生成模块包括多源知识的答案置信度计算及排序模块和答案要点组织及语义级融合生成模块；