CN113220861B - 一种面向专业领域的知识图谱问答系统 - Google Patents

一种面向专业领域的知识图谱问答系统 Download PDF

Info

Publication number
CN113220861B
CN113220861B CN202110618298.2A CN202110618298A CN113220861B CN 113220861 B CN113220861 B CN 113220861B CN 202110618298 A CN202110618298 A CN 202110618298A CN 113220861 B CN113220861 B CN 113220861B
Authority
CN
China
Prior art keywords
knowledge
module
modal
answer
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110618298.2A
Other languages
English (en)
Other versions
CN113220861A (zh
Inventor
裴新宇
楚博策
郭琦
刘敬一
高晓倩
韩长兴
王梅瑞
耿虎军
陈金勇
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 54 Research Institute
Original Assignee
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 54 Research Institute filed Critical CETC 54 Research Institute
Priority to CN202110618298.2A priority Critical patent/CN113220861B/zh
Publication of CN113220861A publication Critical patent/CN113220861A/zh
Application granted granted Critical
Publication of CN113220861B publication Critical patent/CN113220861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种面向专业领域的知识图谱问答系统,包括知识抽取模块和答案生成模块;处理过程主要包含:跨模态协同的专业领域知识抽取,利用文本模态协同图像与视频模态数据进行知识抽取,以解决多源异构性、多模态性导致传统知识抽取方法难以直接应用到专业领域;融合多源知识的问答,利用专业领域知识信息,通过语义匹配和答案生成获得多源候选答案;多源候选答案语义融合,基于多源知识的答案置信度重排序和答案要点重新组织来生成最终答案。本发明提出的面向专业领域的知识图谱问答系统解决专业领域的多源异构、多模态数据的知识问答,适用于其它领域的多模态知识问答。

Description

一种面向专业领域的知识图谱问答系统
技术领域
本发明涉及一种面向专业领域的知识图谱问答系统,属于自然语言处理技术领域。
背景技术
随着计算机和互联网技术的发展,面向专业领域的数据呈指数级增长。这些数据规模庞大且具有多源异构特性,一方面专业领域数据来源于不同的数据源,如文献、报告等。另一方面专业领域数据的异构特征明显,涵盖文本、图片、视频等模态。如何从这些多源异构的专业领域数据中快速且精准地获取用户所需的信息成为一个亟待解决的问题,而解决这一问题最重要的技术就是基于知识图谱的智能问答技术。
面向专业领域的知识图谱智能问答是指利用构建的多模态知识图谱来回答用户提问的自然语言问题,可以为用户提供更精确、更简洁的答案。目前基于知识图谱的问答技术大致分为基于语义解析的方法和基于信息检索的方法,还不能较好地满足面向专业领域多源异构数据的问答需求。
发明内容
本发明为了避免背景技术中存在的问题,提出了一种面向专业领域的知识图谱问答系统。
本发明所采用的技术方案如下:
一种面向专业领域的知识图谱问答系统,包括知识抽取模块和答案生成模块;
知识抽取模块,用于使用知识迁移的思想,利用文本模态协同图像和视频模态进行专业领域数据的多模态知识抽取,构建专业领域知识图谱;
答案生成模块,用于将外部输入的问题基于专业领域知识图谱,采用基于语义生成图的解析方法和语义匹配方法,为问题提供候选答案,并判断问题与候选答案的置信度,获得问题的最终答案。
进一步的,知识抽取模块包括跨模态分析模块、跨模态检索模块、跨模态知识抽取模块和跨模态知识对齐模块;
跨模态分析模块,用于针对多源异构专业领域数据的各个模态进行候选实体和关系的抽取,构建专业领域知识图谱;其中文本模态基于深度神经网络进行实体和关系的联合抽取;图像和视频模态基于目标检测的方法进行实体检测,并从空间关系和语义关系两个层面检测关系;
跨模态检索模块,用于基于专业领域知识图谱,采用融合关键词、图像和视频中的关键帧的检索方法,从互联网资源获取相关文本模态数据;
跨模态知识抽取模块,用于基于跨模态检索模块获取的相关文本模态数据以及跨模态分析模块构建的专业领域知识图谱,利用基于知识迁移的思想,实现跨模态数据的知识抽取;
跨模态知识对齐模块,用于基于专业领域知识图谱和跨模态数据的知识抽取结果采用基于多任务学习的知识对齐方法,通过实体对齐和属性对齐多种任务同时学习的方法,利用不同模态知识的实体对齐方式获取外部异构语义信息,并利用实体属性预测丰富实体在航天知识图谱内部的语义信息,实现专业领域知识图谱实体对齐。
进一步的,答案生成模块包括基于语义生成图的语义解析模块、语义匹配模块和最终答案生成模块;
基于语义生成图的语义解析模块,用于将外部输入的问题,利用专业领域知识图谱来表示句子的语义,并通过循环神经网络模型生成句子的语义解析;
语义匹配模块,用于根据句子的语义解析与构建的专业领域知识图谱进行语义检索,得到关联度高的候选答案;
最终答案生成模块,用于将关联度高的候选答案利用基于注意力机制的知识融合模型生成问题的最终答案。
进一步的,最终答案生成模块包括多源知识的答案置信度计算及排序模块和答案要点组织及语义级融合生成模块;
多源知识的答案置信度计算及排序模块,用于利用注意力机制对问题及关联度高的候选答案进行特征提取,同时融合词向量特征和词位置特征判断问题与候选答案的置信度,并按置信度对候选答案进行重排序;
答案要点组织及语义级融合生成模块,用于将注意力机制引入答案要点组织中,利用注意力机制捕获句子间语义逻辑关系,生成问题的最终答案。
本发明相比现有技术具有如下优点:
1、本发明可以实现跨模态知识检索问答,实现了除文本外音频、视频、图像等数据的检索。
2、本发明实现了多模态数据的知识对齐,消除了多模态知识间潜在语义的歧异。
3、本发明用于将关联度高的候选答案利用基于注意力机制的知识融合模型生成多源答案,丰富了问答系统所反馈结果的数据形式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的系统整体处理流程框图;
图2为本发明实施例提供的知识抽取流程框图;
图3为本发明实施例提供的融合多源航天知识的问答流程框图;
图4为本发明实施例提供的多源候选答案语义融合流程框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明的一种面向专业领域的知识图谱问答系统,采用的整体架构如图1所示,包括知识抽取模块和答案生成模块;本实施例以航天领域数据为例进行说明。
知识抽取模块,用于使用知识迁移的思想,利用文本模态协同图像和视频模态进行航天领域数据的多模态知识抽取,构建航天领域知识图谱;
答案生成模块,用于将外部输入的航天问题基于航天领域知识图谱,采用基于语义生成图的解析方法和语义匹配方法,为问题提供候选答案,并判断问题与候选答案的置信度,获得问题的最终答案。
本发明涉及以下所述的关键要素:
1.跨模态协同的航天知识抽取
跨模态协同的航天知识抽取流程框图如图2所示,知识抽取包括跨模态分析、跨模态检索、跨模态知识抽取和跨模态知识对齐。具体架构为:
航天知识抽取模块包括跨模态分析模块、跨模态检索模块、跨模态知识抽取模块和跨模态知识对齐模块;
跨模态分析模块,用于针对多源异构航天领域数据的各个模态进行候选实体和关系的抽取,构建航天领域知识图谱;其中文本模态基于深度神经网络进行实体和关系的联合抽取;图像和视频模态基于目标检测的方法进行实体检测,并从空间关系和语义关系两个层面检测关系;
跨模态检索模块,用于基于航天领域知识图谱,采用融合关键词、图像和视频中的关键帧的检索方法,从互联网资源获取相关文本模态数据;
跨模态知识抽取模块,用于基于跨模态检索模块获取的相关文本模态数据以及跨模态分析模块构建的航天领域知识图谱,利用基于知识迁移的思想,实现跨模态数据的知识抽取;
跨模态知识对齐模块,用于基于航天领域知识图谱和跨模态数据的知识抽取结果采用基于多任务学习的知识对齐方法,通过实体对齐和属性对齐多种任务同时学习的方法,利用不同模态知识的实体对齐方式获取外部异构语义信息,并利用实体属性预测丰富实体在航天知识图谱内部的语义信息,实现航天领域知识图谱实体对齐。
2.融合多源航天知识的问答
融合多源航天知识的问答流程框图如图3所示,包括基于语义生成图的语义解析、语义匹配和最终答案生成。具体架构为:
答案生成模块包括基于语义生成图的语义解析模块、语义匹配模块和最终答案生成模块;
基于语义生成图的语义解析模块,用于将外部输入的问题,利用航天领域知识图谱来表示句子的语义,并通过循环神经网络模型生成句子的语义解析;
语义匹配模块,用于根据句子的语义解析与构建的航天领域知识图谱进行语义检索,得到关联度高的候选答案;
最终答案生成模块,用于将关联度高的候选答案利用基于注意力机制的知识融合模型生成问题的最终答案。
3.多源候选答案语义融合
多源候选答案语义融合的流程框图如图4所示,包括多源知识的答案置信度计算及排序、答案要点组织及语义级融合生成。具体架构为:
最终答案生成模块包括多源知识的答案置信度计算及排序模块和答案要点组织及语义级融合生成模块;
多源知识的答案置信度计算及排序模块,用于利用注意力机制对问题及关联度高的候选答案进行特征提取,同时融合词向量特征和词位置特征判断问题与候选答案的置信度,并按置信度对候选答案进行重排序;
答案要点组织及语义级融合生成模块,用于将注意力机制引入答案要点组织中,利用注意力机制捕获句子间语义逻辑关系,生成问题的最终答案。
本发明实施例提供的面向航天领域的知识图谱智能问答系统,可以适用于其它领域的知识图谱问答,但不仅限于此。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种面向专业领域的知识图谱问答系统,其特征在于,包括知识抽取模块和答案生成模块;
知识抽取模块,用于使用知识迁移的思想,利用文本模态协同图像和视频模态进行专业领域数据的多模态知识抽取,构建专业领域知识图谱;
答案生成模块,用于将外部输入的问题基于专业领域知识图谱,采用基于语义生成图的解析方法和语义匹配方法,为问题提供候选答案,并判断问题与候选答案的置信度,获得问题的最终答案;
其中,知识抽取模块包括跨模态分析模块、跨模态检索模块、跨模态知识抽取模块和跨模态知识对齐模块;
跨模态分析模块,用于针对多源异构专业领域数据的各个模态进行候选实体和关系的抽取,构建专业领域知识图谱;其中文本模态基于深度神经网络进行实体和关系的联合抽取;图像和视频模态基于目标检测的方法进行实体检测,并从空间关系和语义关系两个层面检测关系;
跨模态检索模块,用于基于专业领域知识图谱,采用融合关键词、图像和视频中的关键帧的检索方法,从互联网资源获取相关文本模态数据;
跨模态知识抽取模块,用于基于跨模态检索模块获取的相关文本模态数据以及跨模态分析模块构建的专业领域知识图谱,利用基于知识迁移的思想,实现跨模态数据的知识抽取;
跨模态知识对齐模块,用于基于专业领域知识图谱和跨模态数据的知识抽取结果采用基于多任务学习的知识对齐方法,通过实体对齐和属性对齐多种任务同时学习的方法,利用不同模态知识的实体对齐方式获取外部异构语义信息,并利用实体属性预测丰富实体在航天知识图谱内部的语义信息,实现专业领域知识图谱实体对齐。
2.根据权利要求1所述的一种面向专业领域的知识图谱问答系统,其特征在于,答案生成模块包括基于语义生成图的语义解析模块、语义匹配模块和最终答案生成模块;
基于语义生成图的语义解析模块,用于将外部输入的问题,利用专业领域知识图谱来表示句子的语义,并通过循环神经网络模型生成句子的语义解析;
语义匹配模块,用于根据句子的语义解析与构建的专业领域知识图谱进行语义检索,得到关联度高的候选答案;
最终答案生成模块,用于将关联度高的候选答案利用基于注意力机制的知识融合模型生成问题的最终答案。
3.根据权利要求2所述的一种面向专业领域的知识图谱问答系统,其特征在于,最终答案生成模块包括多源知识的答案置信度计算及排序模块和答案要点组织及语义级融合生成模块;
多源知识的答案置信度计算及排序模块,用于利用注意力机制对问题及关联度高的候选答案进行特征提取,同时融合词向量特征和词位置特征判断问题与候选答案的置信度,并按置信度对候选答案进行重排序;
答案要点组织及语义级融合生成模块,用于将注意力机制引入答案要点组织中,利用注意力机制捕获句子间语义逻辑关系,生成问题的最终答案。
CN202110618298.2A 2021-06-01 2021-06-01 一种面向专业领域的知识图谱问答系统 Active CN113220861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618298.2A CN113220861B (zh) 2021-06-01 2021-06-01 一种面向专业领域的知识图谱问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618298.2A CN113220861B (zh) 2021-06-01 2021-06-01 一种面向专业领域的知识图谱问答系统

Publications (2)

Publication Number Publication Date
CN113220861A CN113220861A (zh) 2021-08-06
CN113220861B true CN113220861B (zh) 2022-09-02

Family

ID=77082546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618298.2A Active CN113220861B (zh) 2021-06-01 2021-06-01 一种面向专业领域的知识图谱问答系统

Country Status (1)

Country Link
CN (1) CN113220861B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417021B (zh) * 2022-01-24 2023-08-25 中国电子科技集团公司第五十四研究所 一种基于时、空、义多约束融合的语义信息精准分发方法
CN114417387B (zh) * 2022-01-24 2023-09-22 中国电子科技集团公司第五十四研究所 基于语义内涵的消息加密方法
CN115080766B (zh) * 2022-08-16 2022-12-06 之江实验室 基于预训练模型的多模态知识图谱表征系统及方法
CN116050517B (zh) * 2023-03-29 2023-07-18 浪潮软件科技有限公司 一种面向公共安全领域的多模态数据管理方法及系统
CN117150031A (zh) * 2023-07-24 2023-12-01 青海师范大学 一种面向多模态数据的处理方法及系统
CN116975654B (zh) * 2023-08-22 2024-01-05 腾讯科技(深圳)有限公司 对象互动方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108959627A (zh) * 2018-07-23 2018-12-07 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112836120A (zh) * 2021-01-27 2021-05-25 深圳大学 一种基于多模态知识图谱的电影推荐方法、系统及终端

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145168A (zh) * 2018-07-11 2019-01-04 广州极天信息技术股份有限公司 一种专家服务机器人云平台
CN109376282A (zh) * 2018-09-26 2019-02-22 北京子歌人工智能科技有限公司 一种基于人工智能的人机智能聊天的方法和装置
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110895561B (zh) * 2019-11-13 2022-04-01 中国科学院自动化研究所 基于多模态知识感知的医疗问答检索方法、系统、装置
CN111753098A (zh) * 2020-06-23 2020-10-09 陕西师范大学 一种基于跨媒体动态知识图谱的教学方法及系统
CN112200317B (zh) * 2020-09-28 2024-05-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112632239A (zh) * 2020-12-11 2021-04-09 南京三眼精灵信息技术有限公司 基于人工智能技术的类脑问答系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108959627A (zh) * 2018-07-23 2018-12-07 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112836120A (zh) * 2021-01-27 2021-05-25 深圳大学 一种基于多模态知识图谱的电影推荐方法、系统及终端

Also Published As

Publication number Publication date
CN113220861A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113220861B (zh) 一种面向专业领域的知识图谱问答系统
Bragg et al. Sign language recognition, generation, and translation: An interdisciplinary perspective
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
Folaron Technology, technical translation and localization
Hassner et al. Computation and palaeography: potentials and limits (Dagstuhl Perspectives Workshop 12382)
Bodard et al. Digital classics outside the echo-chamber: teaching, knowledge exchange & public engagement
Lin Transdisciplinarity and digital humanities: Lessons learned from developing text-mining tools for textual analysis
Jiang et al. Dhhn: Dual hierarchical hybrid network for weakly-supervised audio-visual video parsing
Hassan et al. An isolated-signing RGBD dataset of 100 American Sign Language signs produced by fluent ASL signers
Lamba et al. Text Mining for Information Professionals
Shi et al. Reverse-engineering information presentations: Recovering hierarchical grouping from layouts of visual elements
Perkins et al. The use of Generative AI in qualitative analysis: Inductive thematic analysis with ChatGPT
CN116743692B (zh) 一种历史消息折叠方法和系统
CN117349515A (zh) 搜索处理方法、电子设备和存储介质
Moreno et al. Supporting knowledge creation through has: The hyperknowledge annotation system
Sun et al. Cross-language multimodal scene semantic guidance and leap sampling for video captioning
Othman et al. JUMLA-QSL-22: Creation and annotation of a Qatari sign language corpus for sign language processing
Hur et al. Development of intelligent information system for digital cultural contents
Zhang et al. AllHands: Ask Me Anything on Large-scale Verbatim Feedback via Large Language Models
Musabeyezu Comparative study of annotation tools and techniques
Prabakaran et al. A Bidirectional LSTM approach for written script auto evaluation using keywords-based pattern matching
Gomes Jr et al. Framework for knowledge discovery in educational video repositories
Helmi Digital humanities: A paradigm for the 21st century
McLean Davies et al. Reading in the (post) digital age: Large digital databases and the future of literature in secondary classrooms.
Abdelouarit et al. Big Data at the service of teaching and scientific research within the UAE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant