CN111666422A - 知识图谱构建系统及方法 - Google Patents

知识图谱构建系统及方法 Download PDF

Info

Publication number
CN111666422A
CN111666422A CN202010504071.0A CN202010504071A CN111666422A CN 111666422 A CN111666422 A CN 111666422A CN 202010504071 A CN202010504071 A CN 202010504071A CN 111666422 A CN111666422 A CN 111666422A
Authority
CN
China
Prior art keywords
knowledge
entity
graph
ontology
political
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010504071.0A
Other languages
English (en)
Inventor
张树辉
赵正寻
张润泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fayu Technology Beijing Co ltd
Original Assignee
Fayu Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fayu Technology Beijing Co ltd filed Critical Fayu Technology Beijing Co ltd
Priority to CN202010504071.0A priority Critical patent/CN111666422A/zh
Publication of CN111666422A publication Critical patent/CN111666422A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种知识图谱构建系统及方法,首先针对不同数据源以及数据类型构建不同的本体库,然后将各本体库映射成全局本体库,之后对各来源的作为知识库的全局本体库进行实体对齐和实体链接,完善和拓展所构造的多数据融合的思政知识图谱。本发明通过构建思政知识图谱完成思政知识体系展示、思政知识问答、思政知识推理等多种功能,有效避免了现有技术中传统的数据管理以及展示模式并不能让广大学生很好地学习思政知识、理解思政知识体系的缺陷。

Description

知识图谱构建系统及方法
技术领域
本发明涉及知识图谱技术领域,具体涉及一种知识图谱构建系统及方法。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。在大数据时代背景下,各行各业都包含着海量的数据以及多个数据源融合交叉应用,思政知识领域也不例外,既有名家著作中的各种理论,也有不同时期的方针政策。传统的数据管理以及展示模式并不能让广大学生很好地学习思政知识、理解思政知识体系。
发明内容
为解决上述问题,本发明提供了一种知识图谱构建系统及方法,能通过关系相互联结,构成网状的知识结构。可通过构建思政知识图谱完成思政知识体系展示、思政知识问答、思政知识推理等多种功能,有效避免了现有技术中传统的数据管理以及展示模式并不能让广大学生很好地学习思政知识、理解思政知识体系的缺陷。
为了克服现有技术中的不足,本发明提供了一种知识图谱构建系统及方法的解决方案,具体如下:
一种知识图谱构建系统,包括:
构建模块,所述构建模块用于针对不同数据源以及数据类型构建不同的本体库;
映射模块,所述映射模块用于将各本体库映射成全局本体库;
构造模块,所述构造模块用于对各来源的作为知识库的全局本体库进行实体对齐和实体链接,丰富完善和拓展所构造的多数据融合的思政知识图谱。
一种知识图谱构建系统的方法,包括:
知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体以及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系,使其能够被迅速访问和操作。知识图谱构建过程通常可以分为两步:知识图谱本体层构建和实体层的学习。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。而针对思政知识的知识图谱构建方面而言,也就是,首先针对不同数据源以及数据类型构建不同的本体库,然后将各本体库映射成全局本体库,之后对各来源的作为知识库的全局本体库进行实体对齐和实体链接,丰富完善和拓展所构造的多数据融合的思政知识图谱。知识图谱的构建方法通常由自顶向下和自底向上两种。自顶向下的方法指先构建知识图谱本体,即从行业领域、百科网站等高质量数据源中,提取本体和模式信息,添加到数据库中;而自底向上的方法指从实体层开始,借助一定的技术手段,对实体进行归纳组织、实体对齐和实体链接,并提取出具有较高置信度的新模式,经过人工审核后加入到知识图谱中。由于思政领域知识的专业性,不宜通过大数据分析聚类自动构建实体以及关系。因此这里将选取自顶向下的构建模式,根据思政领域专家的指导,提取思政知识库中的本体以及关联模式,构建思政知识图谱。
进一步的,所述不同的本体库的构建,包括:
在本体库的构建过程中,首先将多数据源的文字信息进行分类,构成人物型、政策型或概念型这样的不同细分领域的数据库。在特定数据库中抽取关系模式,分析关系数据库中的表示信息以及对应的概念模型。最后对该领域的本体模型进行人工评估校验。检查模型中术语是否准确、概念及其关系是否完整。
进一步的,所述将各本体库映射成全局本体库,包括:
为了便于构建多数据融合的知识图谱,需要将多个领域内的本体库进行融合,构建全局本体库。首先,由于不同领域内本体库存在一些相同和相似的概念和属性,采用相似性检测的规则对这些领域内的本体进行检测;例如专著本体库中的《思政类书籍XX》作者甲某本体和人物领域的甲某对应的是同一个概念,需要进行统一。否则全局本体库中会存在多个甲某实体,从而在检索及展示中产生歧义。其次,采用冲突解决规则对相似的概念进行解决,通过冲突解决规则可以消除概念的歧义,剔除冗余和错误的概念。例如文字数据中出现的概念错误,概念重复且多版本不一致等问题。
进一步的,所述实体对齐,包括:
所述实体对齐也称为实体匹配或实体解析,是判断所述全局本体库中相同或不同数据集中的两个实体是否指向真实世界同一对象的过程。例如《思政类书籍XX》作者甲某和A大学校友甲某在现实世界中是同一实体。通过基于相似度传播的算法,完成全局本体库的实体对齐。
进一步的,所述实体链接,包括:
实体链接是指对于从所述全局本体库的文本中抽取得到得实体对象,将其链接到知识图谱中对应的正确实体的操作。在实际操作中,思政知识图谱可能存在关系缺失,需要通过关系预测补全整个知识图谱中的关系。例如知识图谱中没有收录《思政类书籍XX》作者甲某与某出版社之间的出版合作关系,但《思政类书籍XX》由某出版社出版,而甲某为《思政类书籍XX》的作者,可根据思政知识图谱中本体之间的关系自动推理两者的出版合作关系,对实体之间的关系进行补全。
所述知识图谱的应用,包括:
知识图谱问答;
传统的搜索引擎问答模式中,搜索引擎只能给用户提供与输入内容最接近的文本,无法解决歧义、数据库中尚未收录、相似内容过多等问题,极大地影响了用户对知识的搜索与学习。通过构建思政知识图谱,可完成基于思政知识图谱的智能问答AI,对用户提问内容自动搜索图谱内的关系与实体并进行自动推理。例如在传统的搜索引擎中若没有收录“《思政类书籍XX》的作者毕业于哪所高校?”这个问题,用户只能通过自行搜索《思政类书籍XX》作者是谁,该作者页面中有没有提到他的学历信息这种方法来获取知识。而基于知识图谱的问答AI可在图谱内通过“图书-作者”“人物-毕业院校”这两对关系属性,直接链接到A大学这一本体,输出正确答案,在思政知识的学习过程中,辅助学生理解思政知识中的复杂关系,并快速查找相关知识,提高学习效率。
知识图谱展示。
思政领域知识由于体量较大且在不断更新,学生在学习过程中经常面临着没有整体框架或知识点之间关联的困扰。通过思政知识图谱动态地向学生展示思政领域的各类知识,可以让学生清晰的看到现在所学或所查的知识对应哪些概念实体,并通过哪些关系与其他概念相连。并且通过大数据可视化技术,学生可在3D模式下自由拖动各类概念实体,理清它们的发展脉络,从而对知识点有更深层次的思考,激发学生沿着思政知识图谱继续探索求知的精神。
本发明的有益效果为:
通过关系相互联结,构成网状的知识结构。可通过构建思政知识图谱完成思政知识体系展示、思政知识问答、思政知识推理等多种功能,有效避免了现有技术中传统的数据管理以及展示模式并不能让广大学生很好地学习思政知识、理解思政知识体系的缺陷。
附图说明
图1是本发明的知识图谱构建系统的方法的流程图。
图2是本发明的箴言机器人的知识图谱模块的示意图。
具体实施方式
近年来,知识图谱(Knowledge Graph)作为一种新的知识表示方法和数据管理模式,在展示、问答、检索等多个领域有着重要应用。知识图谱是结构化的语义知识库,用于以符号的形式描述相关概念以及其相互之间的关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。可通过构建思政知识图谱完成思政知识体系展示、思政知识问答、思政知识推理等多种功能。由于思政领域知识来源十分广泛,有书籍、新闻、重要讲话、政策等多种载体。因此,本发明在融合多种数据源的情况下,构建了基于多数据源的思政知识图谱。首先针对不同数据源以及数据类型构建不同的本体库,然后将各本体库映射成全局本体库。之后对各来源的知识库进行实体对齐和实体链接,丰富和拓展所构造的多数据融合的思政知识图谱。
下面将结合附图和实施例对本发明做进一步地说明。
如图1-图2所示,知识图谱构建系统,包括:构建模块,所述构建模块用于针对不同数据源以及数据类型构建不同的本体库;
映射模块,所述映射模块用于将各本体库映射成全局本体库;
构造模块,所述构造模块用于对各来源的作为知识库的全局本体库进行实体对齐和实体链接,丰富完善和拓展所构造的多数据融合的思政知识图谱。
知识图谱构建系统的方法,包括:
知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体以及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系,使其能够被迅速访问和操作。知识图谱构建过程通常可以分为两步:知识图谱本体层构建和实体层的学习。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。而针对思政知识的知识图谱构建方面而言,也就是,首先针对不同数据源以及数据类型构建不同的本体库,然后将各本体库映射成全局本体库,之后对各来源的作为知识库的全局本体库进行实体对齐和实体链接,丰富完善和拓展所构造的多数据融合的思政知识图谱。知识图谱的构建方法通常由自顶向下和自底向上两种。自顶向下的方法指先构建知识图谱本体,即从行业领域、百科网站等高质量数据源中,提取本体和模式信息,添加到数据库中;而自底向上的方法指从实体层开始,借助一定的技术手段,对实体进行归纳组织、实体对齐和实体链接,并提取出具有较高置信度的新模式,经过人工审核后加入到知识图谱中。由于思政领域知识的专业性,不宜通过大数据分析聚类自动构建实体以及关系。因此这里将选取自顶向下的构建模式,根据思政领域专家的指导,提取思政知识库中的本体以及关联模式,构建思政知识图谱。
所述不同的本体库的构建,包括:
在本体库的构建过程中,首先将多数据源的文字信息进行分类,构成人物型、政策型或概念型这样的不同细分领域的数据库。在特定数据库中抽取关系模式,分析关系数据库中的表示信息以及对应的概念模型。最后对该领域的本体模型进行人工评估校验。检查模型中术语是否准确、概念及其关系是否完整。
所述将各本体库映射成全局本体库,包括:
为了便于构建多数据融合的知识图谱,需要将多个领域内的本体库进行融合,构建全局本体库。首先,由于不同领域内本体库存在一些相同和相似的概念和属性,采用相似性检测的规则对这些领域内的本体进行检测;例如专著本体库中的《思政类书籍XX》作者甲某本体和人物领域的甲某对应的是同一个概念,需要进行统一。否则全局本体库中会存在多个甲某实体,从而在检索及展示中产生歧义。其次,采用冲突解决规则对相似的概念进行解决,通过冲突解决规则可以消除概念的歧义,剔除冗余和错误的概念。例如文字数据中出现的概念错误,概念重复且多版本不一致等问题。
所述实体对齐,包括:
所述实体对齐也称为实体匹配或实体解析,是判断所述全局本体库中相同或不同数据集中的两个实体是否指向真实世界同一对象的过程。例如《思政类书籍XX》作者甲某和A大学校友甲某在现实世界中是同一实体。通过基于相似度传播的算法,完成全局本体库的实体对齐。
所述实体链接,包括:
实体链接是指对于从所述全局本体库的文本中抽取得到得实体对象,将其链接到知识图谱中对应的正确实体的操作。在实际操作中,思政知识图谱可能存在关系缺失,需要通过关系预测补全整个知识图谱中的关系。例如知识图谱中没有收录《思政类书籍XX》作者甲某与某出版社之间的出版合作关系,但《思政类书籍XX》由某出版社出版,而甲某为《思政类书籍XX》的作者,可根据思政知识图谱中本体之间的关系自动推理两者的出版合作关系,对实体之间的关系进行补全。
所述知识图谱的应用,包括:
知识图谱问答;
传统的搜索引擎问答模式中,搜索引擎只能给用户提供与输入内容最接近的文本,无法解决歧义、数据库中尚未收录、相似内容过多等问题,极大地影响了用户对知识的搜索与学习。通过构建思政知识图谱,可完成基于思政知识图谱的智能问答AI,对用户提问内容自动搜索图谱内的关系与实体并进行自动推理。例如知识图谱中没有收录《思政类书籍XX》作者甲某与某出版社之间的出版合作关系,但《思政类书籍XX》由某出版社出版,而甲某为《思政类书籍XX》的作者,可根据思政知识图谱中本体之间的关系自动推理两者的出版合作关系,对实体之间的关系进行补全。通过该次问答,学生可以通过出版社或作者找到更多的思政经典教材,提高信息查找与学习的效率。此外,知识图谱问答在思政知识的学习过程中,还可以辅助学生理解思政知识中的复杂关系,并快速查找相关知识,提高学习效率。
知识图谱展示。
思政领域知识由于体量较大且在不断更新,学生在学习过程中经常面临着没有整体框架或知识点之间关联的困扰。通过思政知识图谱动态地向学生展示思政领域的各类知识,可以让学生清晰的看到现在所学或所查的知识对应哪些概念实体,并通过哪些关系与其他概念相连。并且通过大数据可视化技术,学生可在3D模式下自由拖动各类概念实体,理清它们的发展脉络,从而对知识点有更深层次的思考,激发学生沿着思政知识图谱继续探索求知的精神。
具体而言,知识图谱构建的流程如下:
知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。当下知识图谱已在工业领域得到了广泛应用,如搜索领域的Google搜索、百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱等。
在知识图谱技术发展初期,多数参与企业和科研机构主要采用自顶向下的方式构建基础知识库,如Freebase。随着自动知识抽取与加工技术的不断成熟,当前的知识图谱大多采用自底向上的方式构建,如Google 的Knowledge Vault和微软的Satori知识库。
知识图谱的基本单位,便是“实体(Entity)-关系(Relationship)- 实体(Entity)”构成的三元组,这也是知识图谱的核心。
知识图谱的原始数据类型一般来说有三类:
结构化数据(Structed Data),如关系数据库;非结构化数据,如音频、视频;半结构化数据如XML、JSON、百科。
如何存储上面这三类数据类型呢?一般有两种选择,一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有Jena等。还有一种方法,就是使用图数据库来进行存储,常用的有Neo4j等。用关系数据库来存储,尤其是存储简单的知识图谱,从技术上来说是完全没问题的。但需要注意的是,一旦知识图谱变复杂,图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。当涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。除此之外,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。因此如果数据量较大,还是直接用图数据库来进行存储。
知识图谱的架构主要可以被分为:逻辑架构、技术架构;
逻辑架构:在逻辑上,通常将知识图谱划分为两个层次:数据层和模式层。
模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理这一层这一层(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。
数据层:存储真实的数据。例如:
模式层:实体-关系-实体,实体-属性-性值;
数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软;
技术架构:知识图谱的整体架构首先有大量的数据,这些数据可能是结构化的、非结构化的以及半结构化的,然后基于这些数据来构建知识图谱,这一步主要是通过一系列自动化或半自动化的技术手段,来从原始数据中提取出知识要素,即一堆实体关系,并将其存入知识库的模式层和数据层。
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:
信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
知识图谱有自顶向下和自底向上两种构建方式,思政知识图谱构建技术主要是自底向上的构建技术。
如前所述,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:
信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
下面依次来对每一个步骤进行介绍。
信息抽取
信息抽取(infromation extraction)是知识图谱构建的第1步,其中的关键问题是:如何从异构数据源中自动抽取信息得到候选指示单元?
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。
涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。
实体抽取的研究历史主要是从面向单一领域进行实体抽取,逐步跨步到面向开放域(open domain)的实体抽取。
文本语料经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事。
属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。
通过信息抽取,就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。
如果将接下来的过程比喻成拼图的话,那么这些信息就是拼图碎片,散乱无章,甚至还有从其他拼图里跑来的碎片、本身就是用来干扰拼图的错误碎片。也就是说:
拼图碎片(信息)之间的关系是扁平化的,缺乏层次性和逻辑性;拼图(知识)中还存在大量冗杂和错误的拼图碎片(信息);那么如何解决这一问题,就是在知识融合这一步里需要做的了。
知识融合包括2部分内容:实体链接、知识合并。
实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
实体链接的流程:
1从文本中通过实体抽取得到实体指称项;
2进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;
3在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。
共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。
知识合并包括:
在前面的实体链接中,已经将实体链接到知识库中对应的正确实体对象那里去了,但需要注意的是,实体链接链接的是从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。
那么除了半结构化数据和非结构化数据以外,还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。
对于这部分结构化数据的处理,就是知识合并的内容。一般来说知识合并主要分为两种:
1合并外部知识库,主要处理数据层和模式层的冲突
2合并关系数据库,有RDB2RDF等方法
知识加工,包括:
在前面,已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
1本体构建
本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段:
1实体并列关系相似度计算
2实体上下位关系抽取
3本体的生成
比如对下面这个例子,当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。
这就是第一步的作用,但这样下来,知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此在实体上下位关系抽取这一步,就需要去完成这样的工作,从而生成第三步的本体。
当三步结束后,这个知识图谱可能就会明白,“阿里巴巴和腾讯,其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”
知识推理,包括:
在完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,就可以使用知识推理技术,去完成进一步的知识发现。
知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。
比如:推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)这一块的算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理。
质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。
概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题) 等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。
知识图谱的内容更新有两种方式:
1.全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
2增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。
知识图谱的应用,包括:
1.智能搜索:也是知识图谱最成熟的一个场景,自动给出搜索结果和相关人物;
2.构建人物关系图,查看更多维度的数据
3.反欺诈:这主要有两部分原因,一个是反欺诈的数据来源多样,结构化和非结构化,二是不少欺诈案件会涉及到复杂的关系网络
4.不一致性验证(类似交叉验证)——关系推理
5.异常分析(运算量大,一般离线)
6.静态分析:给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。
7.动态分析:分析其结构随时间变化的趋势。(假设短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。)
针对本发明的一个具体的应用实施例如下,该产品依托微信程序,以对话聊天机器人的形式,主要实现了以下三个功能:
(1)思政教育AI:箴言:近年来,随着国家和学校不断重视思政教学,高校思政课教学质量有很大提升,大学生对高校思政课满意度较高。但大学生在学习思政课过程中仍然存在着很多问题。针对大学生思政学习兴趣不足、知识难成体系等问题,就开发了基于知识图谱技术的思政教育AI:箴言的机器人。该机器人以聊天问答的形式,不仅可以解答用户在思政学习中遇到的问题,还能通过可视化技术,将枯燥的理论知识转化成思政知识图谱,有效地帮助用户理解思政人物与知识点之间的关联,极大地提高思政学习效率。
箴言机器人的设计开发基于首创的机器人环形思维模式,打破了市场上常规的“问题-答案”单线计算模式,可以智能分析用户在问题表述中模糊概念,根据语境逐步辨析并引导用户表达核心问题,从而实现最为强大的“自然语义”的分析和理解。箴言机器人以环形思维为核心,根据思政领域语料库特点,设计并训练了神经网络算法。通过与用户对话的方式,明确用户希望学习哪些思政知识点、仍然欠缺哪些知识点,向用户提供解答。这里对箴言机器人的语义分析能力进行了长时间的打磨。通过反复调整神经网络结构与参数设置,让箴言机器人真正能理解用户在思政领域遇到的各种问题,引导用户在问答中暴露自己思政知识的盲区,真正提高用户的思政学习水平。此外,箴言机器人还包含了AI Max知识图谱模块,在回答用户相关思政问题时,通过机器人构建的思政知识图谱,立体的展现用户所需知识点以及该知识点相关内容,以下是知识图谱模块AI Max的相关展示与介绍:
如图2所示为箴言机器人的知识图谱模块:AI Max。基于知识图谱的思政知识点展示有以下三个优势:
1.找到最想要的信息:用户的一次提问可能代表着多重含义,AI Max将相关信息全面展现出来,让用户找到自己最想要的那种含义,精确定位知识点和内容。
2.提供最全面的摘要:通过知识图谱技术,AI Max可以更好的理解用户提问,并总结出与提问话题相关的内容。例如用户在提问“教材《思政类书籍XX》的作者信息”相关内容时,不仅可以看到该书作者甲某的生平信息,还能获得关于其教育背景和相关人物的介绍,帮助用户了解事物之间的关系。
3.让知识更有深度和广度:由于AI Max机器人构建了一个与提问内容相关的完整知识体系,所以用户往往会获得意想不到的发现。在提问过程中,用户可能会了解到某个新的事实或新的联系,促使其进行一系列的全新提问与学习。
(2)校园服务:为建成以物联网为基础的校园工作、学习和生活一体化环境,讲教学、科研、管理和校园生活惊醒充分统合,推动社科大智慧校园建设,在箴言机器人中设计了校园服务模块,对接校园信息网,为社科大广大师生提供图书馆、校车、选课、课表、考试、新生指南等全方位的校园信息服务。用户在通过校园信息认证后,可一键查询自己的图书馆借阅状态,最近校园班车信息,选课、考试信息等。并且箴言机器人可智能询问是否为课表、考试等重要信息添加提醒功能。督促用户规划好课程学习与复习计划,帮助用户更好地完成在社科大的学习与生活。此外,校园服务机器人还提供了非社科大用户接口,展示社科大基本信息与3D全景校园,让非在校用户更好地了解社科大,足不出户领略社科大校园风光。
(3)法律咨询:为了更好地加强校园普法工作,并在师生遭遇法律纠纷时提供强有力的法律援助,引导全校师生自觉学法、用法、守法、讲权利、讲义务,进一步增强师生的宪法和法律意识,权利、义务和责任意识。在箴言机器人中推出了法律服务模块。用户可以通过提问的方式,向箴言机器人了解相关法律法规与实际案例。在遭遇法律纠纷的情况下,箴言机器人提供了法律服务接口,以问答点选的模式全面了解用户面临纠纷的具体情况与细节,利用箴言机器人强大的自然语言理解能力,在大数据案例库的支持下为用户提供基本解决框架,并智能分析该案情下最合适的律师与律所,直击广大师生遭遇法律纠纷没有处理经验的痛点,切实提高用户学法、用法的水平。
以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的情况下,可以做出各种变化、改变和替换。

Claims (7)

1.一种知识图谱构建系统,其特征在于,包括:
构建模块,所述构建模块用于针对不同数据源以及数据类型构建不同的本体库;
映射模块,所述映射模块用于将各本体库映射成全局本体库;
构造模块,所述构造模块用于对各来源的作为知识库的全局本体库进行实体对齐和实体链接,完善和拓展所构造的多数据融合的思政知识图谱。
2.一种知识图谱构建系统的方法,其特征在于,包括:
首先针对不同数据源以及数据类型构建不同的本体库,然后将各本体库映射成全局本体库,之后对各来源的作为知识库的全局本体库进行实体对齐和实体链接,完善和拓展所构造的多数据融合的思政知识图谱。
3.根据权利要求2所述的知识图谱构建系统的方法,其特征在于,所述不同的本体库的构建,包括:
首先将多数据源的文字信息进行分类,构成人物型、政策型或概念型这样的不同细分领域的数据库。在特定数据库中抽取关系模式,分析关系数据库中的表示信息以及对应的概念模型。最后对该领域的本体模型进行人工评估校验。检查模型中术语是否准确、概念及其关系是否完整。
4.根据权利要求2所述的知识图谱构建系统的方法,其特征在于,所述将各本体库映射成全局本体库,包括:
首先,由于不同领域内本体库存在一些相同和相似的概念和属性,采用相似性检测的规则对这些领域内的本体进行检测;其次,采用冲突解决规则对相似的概念进行解决,通过冲突解决规则可以消除概念的歧义,剔除冗余和错误的概念。
5.根据权利要求2所述的知识图谱构建系统的方法,其特征在于,所述实体对齐,包括:
判断所述全局本体库中相同或不同数据集中的两个实体是否指向真实世界同一对象。
6.根据权利要求2所述的知识图谱构建系统的方法,其特征在于,所述实体链接,包括:
对于从所述全局本体库的文本中抽取得到得实体对象,将其链接到知识图谱中对应的正确实体的操作。
7.根据权利要求2所述的知识图谱构建系统的方法,其特征在于,所述知识图谱的应用,包括:
知识图谱问答;
知识图谱展示。
CN202010504071.0A 2020-06-05 2020-06-05 知识图谱构建系统及方法 Withdrawn CN111666422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010504071.0A CN111666422A (zh) 2020-06-05 2020-06-05 知识图谱构建系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010504071.0A CN111666422A (zh) 2020-06-05 2020-06-05 知识图谱构建系统及方法

Publications (1)

Publication Number Publication Date
CN111666422A true CN111666422A (zh) 2020-09-15

Family

ID=72386482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010504071.0A Withdrawn CN111666422A (zh) 2020-06-05 2020-06-05 知识图谱构建系统及方法

Country Status (1)

Country Link
CN (1) CN111666422A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364172A (zh) * 2020-10-16 2021-02-12 上海晏鼠计算机技术股份有限公司 一种政务公文领域知识图谱构建方法
CN112559704A (zh) * 2020-12-08 2021-03-26 北京航天云路有限公司 一种用户自定义配置的知识图谱生成工具
CN112559757A (zh) * 2020-11-12 2021-03-26 中国人民解放军国防科技大学 一种时序知识图谱补全的方法及系统
CN113159320A (zh) * 2021-03-08 2021-07-23 北京航空航天大学 一种基于知识图谱的科技资源数据集成方法及装置
CN113392147A (zh) * 2021-05-18 2021-09-14 中铁二院工程集团有限责任公司 一种vr场景知识图谱表示及动态更新方法
CN113886535A (zh) * 2021-09-18 2022-01-04 前海飞算云创数据科技(深圳)有限公司 基于知识图谱的问答方法、装置、存储介质及电子设备
CN114020936A (zh) * 2022-01-06 2022-02-08 北京融信数联科技有限公司 多模态事理图谱的构建方法、系统和可读存储介质
CN114090790A (zh) * 2021-11-22 2022-02-25 西安交通大学 一种人机友好的数据逻辑融合电力知识图谱及其构建方法
US20220075948A1 (en) * 2020-09-10 2022-03-10 International Business Machines Corporation Knowledge graph fusion
CN114201619A (zh) * 2022-02-18 2022-03-18 中国电子技术标准化研究院 多层结构标准知识图谱构建、标准检索方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220075948A1 (en) * 2020-09-10 2022-03-10 International Business Machines Corporation Knowledge graph fusion
US11783131B2 (en) * 2020-09-10 2023-10-10 International Business Machines Corporation Knowledge graph fusion
CN112364172A (zh) * 2020-10-16 2021-02-12 上海晏鼠计算机技术股份有限公司 一种政务公文领域知识图谱构建方法
CN112559757B (zh) * 2020-11-12 2023-12-26 中国人民解放军国防科技大学 一种时序知识图谱补全的方法及系统
CN112559757A (zh) * 2020-11-12 2021-03-26 中国人民解放军国防科技大学 一种时序知识图谱补全的方法及系统
CN112559704A (zh) * 2020-12-08 2021-03-26 北京航天云路有限公司 一种用户自定义配置的知识图谱生成工具
CN113159320A (zh) * 2021-03-08 2021-07-23 北京航空航天大学 一种基于知识图谱的科技资源数据集成方法及装置
CN113392147A (zh) * 2021-05-18 2021-09-14 中铁二院工程集团有限责任公司 一种vr场景知识图谱表示及动态更新方法
CN113886535A (zh) * 2021-09-18 2022-01-04 前海飞算云创数据科技(深圳)有限公司 基于知识图谱的问答方法、装置、存储介质及电子设备
CN113886535B (zh) * 2021-09-18 2022-07-08 前海飞算云创数据科技(深圳)有限公司 基于知识图谱的问答方法、装置、存储介质及电子设备
CN114090790A (zh) * 2021-11-22 2022-02-25 西安交通大学 一种人机友好的数据逻辑融合电力知识图谱及其构建方法
CN114090790B (zh) * 2021-11-22 2024-04-16 西安交通大学 一种人机友好的数据逻辑融合电力知识图谱及其构建方法
CN114020936A (zh) * 2022-01-06 2022-02-08 北京融信数联科技有限公司 多模态事理图谱的构建方法、系统和可读存储介质
CN114201619A (zh) * 2022-02-18 2022-03-18 中国电子技术标准化研究院 多层结构标准知识图谱构建、标准检索方法及装置

Similar Documents

Publication Publication Date Title
CN111666422A (zh) 知识图谱构建系统及方法
Alexopoulos Semantic modeling for data
Theocharis et al. Knowledge management systems in the public sector: Critical issues
Yeh et al. Major strands in scientific inquiry through cluster analysis of research abstracts
Sun et al. Fuzzy knowledge graph system for artificial intelligence-based smart education
Qin et al. Research and Application of Knowledge Graph in Teaching: Take the database course as an example
Pei et al. Construction of curriculum knowledge map based on ontology
Kalfoglou et al. FCA in knowledge technologies: experiences and opportunities
Bharambe et al. Ontology and knowledge graphs for semantic analysis in natural language processing
Pietranik et al. A method for ontology alignment based on semantics of attributes
McGibbney et al. An intelligent authoring model for subsidiary legislation and regulatory instrument drafting within construction and engineering industry
Hu et al. Research on intelligent knowledge representation method and algorithm based on basic-element theory
Ding et al. Constructing a Knowledge Graph for the Chinese Subject Based on Collective Intelligence
Chen Ontology-based empirical knowledge verification for professional virtual community
Chuprina et al. A way how to impart data science skills to computer science students exemplified by obda-systems development
Ashour et al. Ontology-Based Linked Data to Support Decision-Making within Universities
Zuo et al. [Retracted] College English Teaching Evaluation Model Using Natural Language Processing Technology and Neural Networks
Paiva Semantic relations extraction from unstructured information for domain ontologies enrichment
He et al. Integrating a case-based reasoning shell and Web 2.0: design recommendations and insights
Elkaimbillah et al. Construction of an ontology-based document collection for the IT job offer in Morocco
Li et al. Design of knowledge map construction based on convolutional neural network
Shabani Towards Mining Creative Thinking Patterns from Educational Data
Nguyen Trends in Digital library research: a knowledge mapping and ontology engineering approach
Kumar Ontology Matching and Mapping Method using Vectors
Jiao et al. The Design and Implementation of Python Knowledge Graph for Programming Teaching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200915