CN109726296A - 基于知识图谱的海量知识资源存储方法 - Google Patents

基于知识图谱的海量知识资源存储方法 Download PDF

Info

Publication number
CN109726296A
CN109726296A CN201811612081.5A CN201811612081A CN109726296A CN 109726296 A CN109726296 A CN 109726296A CN 201811612081 A CN201811612081 A CN 201811612081A CN 109726296 A CN109726296 A CN 109726296A
Authority
CN
China
Prior art keywords
knowledge
knowledge resource
model
resource
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811612081.5A
Other languages
English (en)
Inventor
刘永坚
白立华
钱峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN UNIVERSITY OF TECHNOLOGY COMMUNICATION ENGINEERING Co Ltd
Original Assignee
WUHAN UNIVERSITY OF TECHNOLOGY COMMUNICATION ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN UNIVERSITY OF TECHNOLOGY COMMUNICATION ENGINEERING Co Ltd filed Critical WUHAN UNIVERSITY OF TECHNOLOGY COMMUNICATION ENGINEERING Co Ltd
Priority to CN201811612081.5A priority Critical patent/CN109726296A/zh
Publication of CN109726296A publication Critical patent/CN109726296A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于知识图谱的海量知识资源存储方法,包括:以实体‑关系‑实体方式的三元组建立知识图谱元模型;以知识图谱模型层、知识资源本体层和知识资源实例层作为层次结构建立知识资源本体模型;将知识资源本体实体与所述知识资源本体模型通过实例映射关系构建知识资源本体描述模型,形成对应的知识图谱存储。通过本发明的技术方案,有利于节省存储空间以及提高对知识资源的处理效率。

Description

基于知识图谱的海量知识资源存储方法
技术领域
本发明涉及存储技术领域,尤其涉及一种基于知识图谱的海量知识资源存储方法。
背景技术
现有的海量异构知识资源存储方法包括:①NoSQL衍生出如HBase、Hadoop、MapReduce等数据库。但是这些数据库都无法覆盖所有的应用场景,在面对出版社等的海量异构数据时通用性不高。②基于本体的存储方案。基于本体的存储方案包括文本方式存储、数据库存储方式等。文本存储方式存储形式简单,适用于规模较小的本体。数据库存储方式在保存本体实例时会出现很高的信息冗余,查询速度较慢。传统的存储技术和快速检索技术难以满足特定领域海量异构数据存储和快速检索需求。
在现有技术中,存储方法主要包括以下缺陷:
1.不支持热备份;
2.MySQL最大的缺点是其安全系统,主要是复杂而非标准,另外只有到调用mysqladmin来重读用户权限时才发生改变;
3.没有一种存储过程语言,这是对习惯于企业级数据库的程序员的最大限制;
4.MySQL的价格随平台和安装方式变化。
发明内容
针对上述问题中的至少之一,本发明提供了一种基于知识图谱的海量知识资源存储方法,通过将知识图谱技术与本体技术相结合,分析知识资源本体模型的层次结构,设计知识资源本体模型的描述方式,以通用性知识图谱为映射标准,引入知识资源本体概念、概念语义关系,扩展属性,实现与标准知识图谱之间的映射,以知识资源实例构建知识资源本体,有利于节省存储空间以及提高对知识资源的处理效率。
为实现上述目的,本发明提供了一种基于知识图谱的海量知识资源存储方法,包括:以实体-关系-实体方式的三元组建立知识图谱元模型;以知识图谱模型层、知识资源本体层和知识资源实例层作为层次结构建立知识资源本体模型;将知识资源本体实体与所述知识资源本体模型通过实例映射关系构建知识资源本体描述模型,形成对应的知识图谱存储。
在上述技术方案中,优选地,基于知识图谱的海量知识资源存储方法还包括:将所述知识图谱采用弹性存储技术存入私有云服务器和/或公有云服务器中。
在上述技术方案中,优选地,所述实体-关系-实体方式的三元组中,所述关系为属性关系或关联关系,所述属性关系为一实体的内在属性特性,所述关联关系为两个实体间的关联关系;所述关系为属性关系时,所述三元组包括<实体,属性,属性值>,所述关系为关联关系时,所述三元组包括<实体,关系,实体>。
在上述技术方案中,优选地,所述知识图谱模型层为构成所述知识资源本体模型的基础,所述知识图谱模型层包括所述知识图谱元模型;所述知识资源本体层为通过本体学习和本体设计获取的定义所述知识资源本体模型的语言;所述知识资源实例层为以所述知识资源本体层的三元组为模板从知识资源数据库中提取到的知识资源实例。
在上述技术方案中,优选地,在存储过程中,不同层次、不同角色的知识资源本体描述模型融合形成自洽单元,多个所述自洽单元组建形成大规模组织存储体系结构。
在上述技术方案中,优选地,所述公有云服务器允许多个系统和应用共享。
在上述技术方案中,优选地,存储过程将小容量文件在内容上合并为大文件后利用Sequence File技术进行存储。
与现有技术相比,本发明的有益效果为:通过将知识图谱技术与本体技术相结合,分析知识资源本体模型的层次结构,设计知识资源本体模型的描述方式,以通用性知识图谱为映射标准,引入知识资源本体概念、概念语义关系,扩展属性,实现与标准知识图谱之间的映射,以知识资源实例构建知识资源本体,有利于节省存储空间以及提高对知识资源的处理效率。
附图说明
图1为本发明一种实施例公开的基于知识图谱的海量知识资源存储方法的示意图;
图2为本发明一种实施例公开的知识图谱的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于知识图谱的海量知识资源存储方法,包括:以实体-关系-实体方式的三元组建立知识图谱元模型;以知识图谱模型层、知识资源本体层和知识资源实例层作为层次结构建立知识资源本体模型;将知识资源本体实体与知识资源本体模型通过实例映射关系构建知识资源本体描述模型,形成对应的知识图谱存储。
在该实施例中,以出版领域的知识资源为例,对该基于知识图谱的海量知识资源存储方法进行详细描述。具体地,将知识图谱技术与本体技术相结合,分析知识资源本体建模层次结构,设计知识资源本体建模描述方式,以通用性知识图谱为映射标准,引入出版领域知识资源本体概念、概念语义关系,扩展属性,实现与标准知识图谱之间的映射,最后以数字传播行业的幼儿教学的儿童绘本为实例构建知识资源本体。
在上述实施例中,优选地,基于知识图谱的海量知识资源存储方法还包括:将知识图谱采用弹性存储技术存入私有云服务器和/或公有云服务器中。优选地,公有云服务器允许多个系统和应用共享。
具体地,出版行业具有文本、视频和音频等海量异构知识资源数据,且业务数据不断增长。本发明采用弹性存储技术,具有非常高的可扩展性,扩展架构的极限可达数千PB甚至EB。针对出版不同业务应用间对数据共享的需求,该弹性存储将存储虚拟化,允许多个系统和应用共享公用存储池,有助于实现透明的全平台知识资源数据存取而无须修改应用。同时平台能够通过策略驱动的特性和实时分析,自动和智能地将经常存取的数据存储在高速Flash系统上,提供数据快速访问能力。
在上述实施例中,优选地,实体-关系-实体方式的三元组中,实体主要用来描述真实世界中存在的各种实体和概念,关系为属性关系或关联关系,属性关系为一实体的内在属性特性,关联关系为两个实体间的关联关系;关系为属性关系时,三元组包括<实体,属性,属性值>,关系为关联关系时,三元组包括<实体,关系,实体>。
在上述实施例中,优选地,知识图谱模型层为构成知识资源本体模型的基础,知识图谱模型层包括知识图谱元模型;知识资源本体层为通过本体学习和本体设计获取的定义知识资源本体模型的语言;知识资源实例层为以知识资源本体层的三元组为模板从知识资源数据库中提取到的知识资源实例。
具体地,知识资源本体模型中,层次结构表示的是“描述的”与“被描述的”对象间关系的层次。本发明采用3层结构——知识图谱模型层、知识资源本体层、知识资源实例层来表示这种层次。其中,知识图谱模型层是构成知识资源本体模型建模体系的基础,其主要内容包括:实体、关系、属性等;知识资源本体层主要是定义描述模型的语言,可以通过本体学习和本体设计的方法获取;知识资源实例层描述的是知识资源本体模型的实例,也就是对具体的知识资源描述,它以本体层的实体、关系、属性定义为模板,通过文本挖掘等技术从多个数字传播相关数据库提取实例。
如图2所示,以出版物为例,基于知识图谱构建的三元组模型,本发明构建了出版领域知识资源本体描述模型,具体用以描述知识资源本体实体及语义关系、属性集及关系。
在上述实施例中,优选地,针对出版行业不同的业务数据模型,利用弹性存储技术,采用多元组方式进行存储,并利用层次概念网络来建立资源模型到数据结构模型的映射,实现资源的动态加入与退出、扩展与更新,屏蔽异构、实现资源实时动态更新和柔性存储,更好地支撑上层应用的开发。针对海量异质异构的知识资源,提出可适应复杂环境下不同应用的自组织、动态数据对象定义和描述方法,在存储过程中,不同层次、不同角色的知识资源本体描述模型融合形成自洽单元,多个自洽单元组建形成大规模组织存储体系结构,形成最佳的组织存储体系结构,支持用户按需服务。
在上述实施例中,优选地,存储过程将小容量文件在内容上合并为大文件后利用Sequence File技术进行存储。具体地,出版知识资源文本文件具有小文件特性且数量较多,不适合直接存储到HDFS(Hadoop Distributed File System,分布式文件系统)中。本发明采用适合这些资源小文件存储的存储方案,首先将这些资源文件在内容上合并为较大文件,然后使用Sequence File技术将这些较大文件存储到HDFS中。应用结果表明,该存储方案有利于节省存储空间以及提高对出版知识资源的处理效率。
以上所述为本发明的实施方式,根据本发明提出的基于知识图谱的海量知识资源存储方法,通过将知识图谱技术与本体技术相结合,分析知识资源本体模型的层次结构,设计知识资源本体模型的描述方式,以通用性知识图谱为映射标准,引入知识资源本体概念、概念语义关系,扩展属性,实现与标准知识图谱之间的映射,以知识资源实例构建知识资源本体,有利于节省存储空间以及提高对知识资源的处理效率。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于知识图谱的海量知识资源存储方法,其特征在于,包括:
以实体-关系-实体方式的三元组建立知识图谱元模型;
以知识图谱模型层、知识资源本体层和知识资源实例层作为层次结构建立知识资源本体模型;
将知识资源本体实体与所述知识资源本体模型通过实例映射关系构建知识资源本体描述模型,形成对应的知识图谱存储。
2.根据权利要求1所述的基于知识图谱的海量知识资源存储方法,其特征在于,还包括:将所述知识图谱采用弹性存储技术存入私有云服务器和/或公有云服务器中。
3.根据权利要求1所述的基于知识图谱的海量知识资源存储方法,其特征在于,所述实体-关系-实体方式的三元组中,所述关系为属性关系或关联关系,所述属性关系为一实体的内在属性特性,所述关联关系为两个实体间的关联关系;
所述关系为属性关系时,所述三元组包括<实体,属性,属性值>,所述关系为关联关系时,所述三元组包括<实体,关系,实体>。
4.根据权利要求1所述的基于知识图谱的海量知识资源存储方法,其特征在于,所述知识图谱模型层为构成所述知识资源本体模型的基础,所述知识图谱模型层包括所述知识图谱元模型;
所述知识资源本体层为通过本体学习和本体设计获取的定义所述知识资源本体模型的语言;
所述知识资源实例层为以所述知识资源本体层的三元组为模板从知识资源数据库中提取到的知识资源实例。
5.根据权利要求2所述的基于知识图谱的海量知识资源存储方法,其特征在于,在存储过程中,不同层次、不同角色的知识资源本体描述模型融合形成自洽单元,多个所述自洽单元组建形成大规模组织存储体系结构。
6.根据权利要求2所述的基于知识图谱的海量知识资源存储方法,其特征在于,所述公有云服务器允许多个系统和应用共享。
7.根据权利要求2所述的基于知识图谱的海量知识资源存储方法,其特征在于,存储过程将小容量文件在内容上合并为大文件后利用Sequence File技术进行存储。
CN201811612081.5A 2018-12-27 2018-12-27 基于知识图谱的海量知识资源存储方法 Pending CN109726296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811612081.5A CN109726296A (zh) 2018-12-27 2018-12-27 基于知识图谱的海量知识资源存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811612081.5A CN109726296A (zh) 2018-12-27 2018-12-27 基于知识图谱的海量知识资源存储方法

Publications (1)

Publication Number Publication Date
CN109726296A true CN109726296A (zh) 2019-05-07

Family

ID=66297300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811612081.5A Pending CN109726296A (zh) 2018-12-27 2018-12-27 基于知识图谱的海量知识资源存储方法

Country Status (1)

Country Link
CN (1) CN109726296A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110764907A (zh) * 2019-09-30 2020-02-07 太极计算机股份有限公司 一种云计算资源图谱构建方法
CN111428018A (zh) * 2020-03-26 2020-07-17 中国建设银行股份有限公司 智能问答方法及装置
CN111859125A (zh) * 2020-07-09 2020-10-30 威海天鑫现代服务技术研究院有限公司 一个面向知识产权技术资源领域的语义网络构建和服务推荐方法
CN113507486A (zh) * 2021-09-06 2021-10-15 中国人民解放军国防科技大学 一种互联网重要基础设施知识图谱构建方法与装置
CN113568998A (zh) * 2021-06-18 2021-10-29 武汉理工数字传播工程有限公司 一种知识服务资源处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909662A (zh) * 2017-02-27 2017-06-30 腾讯科技(上海)有限公司 知识图谱构建方法及装置
US20180039894A1 (en) * 2016-08-08 2018-02-08 International Business Machines Corporation Expressive Temporal Predictions Over Semantically Driven Time Windows
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180039894A1 (en) * 2016-08-08 2018-02-08 International Business Machines Corporation Expressive Temporal Predictions Over Semantically Driven Time Windows
CN106909662A (zh) * 2017-02-27 2017-06-30 腾讯科技(上海)有限公司 知识图谱构建方法及装置
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110764907A (zh) * 2019-09-30 2020-02-07 太极计算机股份有限公司 一种云计算资源图谱构建方法
CN111428018A (zh) * 2020-03-26 2020-07-17 中国建设银行股份有限公司 智能问答方法及装置
CN111428018B (zh) * 2020-03-26 2024-02-06 中国建设银行股份有限公司 智能问答方法及装置
CN111859125A (zh) * 2020-07-09 2020-10-30 威海天鑫现代服务技术研究院有限公司 一个面向知识产权技术资源领域的语义网络构建和服务推荐方法
CN113568998A (zh) * 2021-06-18 2021-10-29 武汉理工数字传播工程有限公司 一种知识服务资源处理方法、装置、设备及存储介质
CN113507486A (zh) * 2021-09-06 2021-10-15 中国人民解放军国防科技大学 一种互联网重要基础设施知识图谱构建方法与装置
CN113507486B (zh) * 2021-09-06 2021-11-19 中国人民解放军国防科技大学 一种互联网重要基础设施知识图谱构建方法与装置

Similar Documents

Publication Publication Date Title
CN109726296A (zh) 基于知识图谱的海量知识资源存储方法
Sun et al. Big data with ten big characteristics
Haddadi Human-data interaction
Mortier et al. 41. Human-Data Interaction
CN110390401A (zh) 使用嵌入空间之间的变分映射生成跨域数据
CN104794151A (zh) 一种基于协同标绘技术的空间知识服务系统建设方法
CN109783091B (zh) 一种模型驱动的软件构建方法及系统
US11194849B2 (en) Logic-based relationship graph expansion and extraction
CN104794150A (zh) 一种基于空间知识云环境的云存储模型与管理方法
Medvedev et al. Storing and indexing IoT context for smart city applications
Agarwal et al. Role of cloud computing in development of smart city
US11163761B2 (en) Vector embedding models for relational tables with null or equivalent values
Loftus Thinking relationally about water: review based on Linton's What is water?
Manjunath et al. A Big Data MapReduce Hadoop distribution architecture for processing input splits to solve the small data problem
Ma et al. Multiple wide tables with vertical scalability in multitenant sensor cloud systems
CN102946382A (zh) 基于映射非传递性的多域间rbac策略冲突解决方法
US11336532B1 (en) Diagramming child nodes with multiple parent nodes
Wu et al. HAMR: A dataflow-based real-time in-memory cluster computing engine
Coetzee et al. Address databases for national SDI: Comparing the novel data grid approach to data harvesting and federated databases
Yin et al. Reverse traffic flows: visualizing a new trend in spring festival travel rush in China
Sayeb et al. From Relational Database to Big Data: Converting Relational to Graph Database, MOOC Database as Example.
US20220292121A1 (en) Search in knowledge graphs
Felasari et al. Readiness of incorporating big data to support smart governance of Yogyakarta city
US20240096104A1 (en) Constructing vehicle shadows using disaggregated streaming data
Illsley Assembling the Historic Environment: Heritage in the Digital Making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination