CN109710618A - 知识图谱数据关系分离的混合存储方法及系统 - Google Patents

知识图谱数据关系分离的混合存储方法及系统 Download PDF

Info

Publication number
CN109710618A
CN109710618A CN201811640265.2A CN201811640265A CN109710618A CN 109710618 A CN109710618 A CN 109710618A CN 201811640265 A CN201811640265 A CN 201811640265A CN 109710618 A CN109710618 A CN 109710618A
Authority
CN
China
Prior art keywords
data
global
knowledge mapping
storage
chart database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811640265.2A
Other languages
English (en)
Inventor
徐汕
梁炬
黄文锋
张晶亮
单酉
杨端
卫未
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Cloud Co Ltd
Original Assignee
Beijing Aerospace Cloud Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Cloud Co Ltd filed Critical Beijing Aerospace Cloud Co Ltd
Priority to CN201811640265.2A priority Critical patent/CN109710618A/zh
Publication of CN109710618A publication Critical patent/CN109710618A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱数据关系分离的混合存储方法及系统,包括以下步骤,存储工业对象数据;利用图数据库存储所述工业对象数据在维度上的关联关系;根据全局ID标识对象实体和全文搜索引擎建立全局ID的反向索引。本发明有益效果:节省复杂表的设计过程,避免关系型数据库中的数据冗余;将实体对象的属性从图数据库中抽离,减轻了图数据库的存储压力,提升了图数据库的读写效率;支持简单查询、全文检索和关联搜索等多种查询方式。

Description

知识图谱数据关系分离的混合存储方法及系统
技术领域
本发明涉及工业互联网技术领域,具体来说,涉及一种知识图谱数据关系分离的混合存储方法及系统。
背景技术
工业数据所涉及的对象主要包括生产厂商,工业产品等。由于物料清单(Bill ofMaterial,BOM)的存在,不同的工业厂商和工业产品之间形成了巨大的关系网络,各厂商和产品在多个维度均有一定的关联性,如行业领域,产品类别,厂商地理位置和型号规格等,因此工业互联网平台在存储海量工业数据的同时,还需要存储工业对象之间存在的复杂的关系。
目前,互联网行业中使用的数据库可大致划分为关系型数据库与非关系型数据库,常用的关系型数据库有Mysql,Oracle,Microsoft Access等,非关系型数据库有MongoDB,Redis,HBase等;其中,关系型数据库能够很好地存储结构化数据并存储实体之间的关系,同时支持结构化查询并且支持事务,是目前互联网领域应用最为广泛的存储方式,然而,由于工业对象之间的关系较为复杂,在设计数据表时难度必然增大,数据表很难满足范式要求,从而造成不可避免的数据冗余。同时,关系型数据库在对海量数据进行读写时在效率上存在瓶颈,在存储行数较多的稀疏表时又存在资源占用问题。
基于列式存储的非关系型数据库在海量数据的读写上以及稀疏表的存储上有卓越的表现,然而基于列式存储的数据库不支持结构化查询,也缺少有效的多表联查的手段,因此列式存储难以存储实体之间的关系,图数据库也是一种非关系型数据库,目前常见的图数据库有Neo4j,Titan等,图数据库使用图数据结构存储数据,能够有效地存储对象实体之间的关系并且支持关联查询,然而图数据库在读写性能上有较大的局限性。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种知识图谱数据关系分离的混合存储方法及系统,能够避免了关系型数据库中的数据冗余的问题。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种知识图谱数据关系分离的混合存储方法,包括以下步骤,
存储工业对象数据;
利用图数据库存储所述工业对象数据在维度数据上的关联关系;
根据全局ID标识对象实体和全文搜索引擎建立全局ID的反向索引。
进一步地,所述存储工业对象数据之前包括:将所述工业对象数据依次经过数据抓取和数据清洗后申请全局ID;获取全局ID将其同步存储至各个存储介质中。
进一步地,在所述图数据库创建一个节点,判断维度数据在图数据库中是否存在,若存在,直接将新节点与相应的维度节点建立关系;反之,创建相应的维度节点并建立关系。
进一步地,所述存储工业对象数据利用列式数据库存储。
进一步地,所述工业对象数据包括实体数据、关系数据和索引数据。
本发明的另一方面,提供一种知识图谱数据关系分离的混合存储系统,其特征在于,包括:
第一存储模块,用于存储工业对象数据;
第二存储模块,用于利用图数据库存储所述工业对象数据在某些维度上的关联关系;
全文索引模块,用于根据全局ID标识对象实体和全文搜索引擎建立全局ID的反向索引。
进一步地,所述混合存储系统还包括全局ID生成模块,所述全局ID生成模块,用于将所述工业对象数据依次经过数据抓取和数据清洗后申请全局ID;获取全局ID将其同步存储至各个存储介质中。
进一步地,所述全文索引模块包括判断模块,所述判断模块用于在所述图数据库创建一个节点,判断维度数据在图数据库中是否存在,若存在,直接将新节点与相应的维度节点建立关系;反之,创建相应的维度节点并建立关系。
进一步地,所述第一存储模块中存储工业对象数据利用列式数据库存储。
进一步地,所述工业对象数据包括实体数据、关系数据和索引数据。
本发明的有益效果:节省复杂表的设计过程,避免关系型数据库中的数据冗余;将实体对象的属性从图数据库中抽离,减轻了图数据库的存储压力,提升了图数据库的读写效率;支持简单查询、全文检索和关联搜索等多种查询方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的知识图谱数据关系分离的混合存储方法的流程图之一;
图2是根据本发明实施例所述的知识图谱数据关系分离的混合存储方法的流程图之二;
图3是根据本发明实施例所述的HBase的示意图;
图4是根据本发明实施例所述的图数据库对关系的存储示意图;
图5是根据本发明实施例所述的知识图谱数据关系分离的混合存储方法的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种知识图谱数据关系分离的混合存储方法,包括以下步骤,
存储工业对象数据;
具体的,工业对象的实体数据、关系数据和索引数据分别存储在不同的存储介质中,需要设计全局ID来唯一标识工业对象,如生产厂商和工业产品等;存储工业对象的自身的详情数据,如:公司名称、地址、公司简介和公司图片等。
利用图数据库存储所述工业对象数据在维度数据上的关联关系;
具体的,基于Neo4j对各实体之间的复杂关系进行存储,Neo4j是一种图数据库,能够很好的存储不同数据之间存在的关系;在一个Neo4j图中包含两种数据,分别是节点与关系;节点可以有多个键值对形式的属性,关系可以是有向的也可以是无向的;Neo4j对每个节点均分配一个Neo4j中的自带ID,考虑到优化Neo4j中的数据对空间占用的优化,仅利用Neo4j存储实体之间的关系数据而不存储实体的具体属性;具体方法是,将Neo4j中的节点划分为两类:实体对象与维度数据;其中,实体对象除了拥有Neo4j自动分配的ID值之外,还要另外设置ID属性,设置ID属性用于存储该对象对应的全局ID值;维度数据是指不同实体相关联的字段值,如行业类别,产品类别和地理位置等,维度数据相当于一个枚举类型的工业对象的字段值,并不属于对象实体因此不需要分配全局ID,Neo4j对关系的存储如图4所示。
根据全局ID标识对象实体和全文搜索引擎建立实体属性与全局ID的反向索引。
具体的,在支持关联搜索的基础上进一步支持全文搜索,需要对实体对象中的部分字段建立对全局ID的反向索引,该反向索引通过Elasticsearch实现,Elasticsearch是一个支持海量数据进行全文检索的搜索引擎;在Elasticsearch中每一条数据被定义为一个文档,没一个文档由文档ID唯一标识,文档ID可由Elasticsearch自动生成也可由用户自行定义,这里用每一个实体对象的全局ID作为Elasticsearch中的文档ID。
如图2所示,进一步地,所述存储工业对象数据之前包括:将所述工业对象数据依次经过数据抓取和数据清洗后申请全局ID;获取全局ID将其同步存储至各个存储介质中。
具体的,工业对象数据经过数据抓取与数据清洗流程后向ID生成模块申请ID,对象获取全局ID后将同步存储至各个存储介质中,以保证关联查询的可能。全局ID生成模块基于Redis数据库的计数器功能实现,能够生成自增的长整型id,同时由于Redis对线程安全的天然支持,保证了实体对象在多线程条件下申请id的唯一性。
进一步地,在所述图数据库创建一个节点,判断维度数据在图数据库中是否存在,若存在,直接将新节点与相应的维度节点建立关系;反之,创建相应的维度节点并建立关系。
进一步地,所述存储工业对象数据利用列式数据库存储。
如图3所示,具体的,实体数据的特点:数据量大,字段较为繁多且可能存在大量的空值字段,实体数据表是一张较大的稀疏表,在这样的情况下若采用关系型数据库存储则会造成大量的空间资源消耗,考虑到该类型的数据表的特点,采用列式数据库进行存储是一种效率更高的方式,实体存储系统基于HBase完成对工业实体的存储;HBase是一种分布式的面向列式存储的数据库,HBase的表可以有若干个列簇(family),每个列簇下可存储多个key-value形式的键值对,用行键(Rowkey)标识一行数据,每行数据所包含的键值对的数量可以灵活变化,考虑到HBase分区的负载均衡,采用全局ID的反转字符串作为HBase表的行键,每一行数据中之存储数据的非空字段以优化空间占用,HBase仅仅实现通过全局ID查询工业实体详情数据的功能。
如图5所示,本发明的另一方面,提供一种知识图谱数据关系分离的混合存储系统,包括:
第一存储模块,用于存储工业对象数据;
第二存储模块,用于利用图数据库存储所述工业对象数据在某些维度上的关联关系;
全文索引模块,用于根据全局ID标识对象实体和全文搜索引擎建立全局ID的反向索引。
在本发明的一个具体实施例中,所述混合存储系统还包括全局ID生成模块,所述全局ID生成模块,用于将所述工业对象数据依次经过数据抓取和数据清洗后申请全局ID;获取全局ID将其同步存储至各个存储介质中。
在本发明的一个具体实施例中,所述全文索引模块包括判断模块,所述判断模块用于在所述图数据库创建一个节点,判断维度数据在图数据库中是否存在,若存在,直接将新节点与相应的维度节点建立关系;反之,创建相应的维度节点并建立关系。
在本发明的一个具体实施例中,所述第一存储模块中存储工业对象数据利用列式数据库存储。
在本发明的一个具体实施例中,所述工业对象数据包括实体数据、关系数据和索引数据。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的知识图谱数据关系分离的混合存储方法,以存储生产厂商数据为示例场景,对该存储系统的存储流程进行具体的说明:
1.上游系统提供系统输入即工业对象的数据,其中,系统首先对接收到的新数据向全局ID生成模块申请ID,该ID作为该条数据在整个存储系统中的唯一标识;
2.以全局ID作为行键,将该条数据中的实体数据(如公司名称,公司描述,法人姓名,联系电话等)存储至HBase;
3.用于关联检索的维度数据存储至图数据库,具体方式是:在图数据库中创建一个新的节点,并以该条数据的全局ID作为该节点的一个属性,一次检查该条数据中的维度数据在图数据库中是否已经存在,若存在,则直接将新节点与相应的维度节点建立关系,若不存在则创建相应的维度节点并建立关系,例如:公司类型、行业领域、公司所在省、市和/或区等;
4.对需要用于全文检索的字段,建立相应的Elasticsearch索引,并以该条数据的全局ID作为该条索引的文档ID;如公司名称,公司别名,法人姓名等;至此,存储过程已经完成。
5.用户在进行搜索操作时,首先根据用户键入的搜索关键词在全文检索系统中进行搜索,返回匹配成功的全局ID;根据匹配到的ID在第一存储模块中查询相应的详情数据;同时,在第二存储模块中,检索该ID标识的节点所相连的节点即维度数据,如该公司的公司类型、行业领域和所在地区等;并返回与匹配到的维度节点相连的一定数量的节点的ID,至此实现了与用户搜索的公司在类型,行业,地理位置等维度上相关联的其他公司的检索。
综上所述,借助于本发明的上述技术方案,节省复杂表的设计过程,避免关系型数据库中的数据冗余;将实体对象的属性从图数据库中抽离,减轻了图数据库的存储压力,提升了图数据库的读写效率;支持简单查询、全文检索和关联搜索等多种查询方式。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识图谱数据关系分离的混合存储方法,其特征在于,包括以下步骤,
存储工业对象数据;
利用图数据库存储所述工业对象数据在维度数据上的关联关系;
根据全局ID标识对象实体和全文搜索引擎建立全局ID的反向索引。
2.根据权利要求1所述的知识图谱数据关系分离的混合存储方法,其特征在于,所述存储工业对象数据之前包括:将所述工业对象数据依次经过数据抓取和数据清洗后申请全局ID;获取全局ID将其同步存储至各个存储介质中。
3.根据权利要求1所述的知识图谱数据关系分离的混合存储方法,其特征在于,在所述图数据库创建一个节点,判断维度数据在图数据库中是否存在,若存在,直接将新节点与相应的维度节点建立关系;反之,创建相应的维度节点并建立关系。
4.根据权利要求1所述的知识图谱数据关系分离的混合存储方法,其特征在于,所述存储工业对象数据利用列式数据库存储。
5.根据权利要求1-4任一项所述的知识图谱数据关系分离的混合存储方法,其特征在于,所述工业对象数据包括实体数据、关系数据和索引数据。
6.一种知识图谱数据关系分离的混合存储系统,其特征在于,包括:
第一存储模块,用于存储工业对象数据;
第二存储模块,用于利用图数据库存储所述工业对象数据在某些维度上的关联关系;
全文索引模块,用于根据全局ID标识对象实体和全文搜索引擎建立全局ID的反向索引。
7.根据权利要求6所述的知识图谱数据关系分离的混合存储系统,其特征在于,所述混合存储系统还包括全局ID生成模块,所述全局ID生成模块,用于将所述工业对象数据依次经过数据抓取和数据清洗后申请全局ID;获取全局ID将其同步存储至各个存储介质中。
8.根据权利要求6所述的知识图谱数据关系分离的混合存储系统,其特征在于,所述全文索引模块包括判断模块,所述判断模块用于在所述图数据库创建一个节点,判断维度数据在图数据库中是否存在,若存在,直接将新节点与相应的维度节点建立关系;反之,创建相应的维度节点并建立关系。
9.根据权利要求6所述的知识图谱数据关系分离的混合存储系统,其特征在于,所述第一存储模块中存储工业对象数据利用列式数据库存储。
10.根据权利要求6-9任一项所述的知识图谱数据关系分离的混合存储系统,其特征在于,所述工业对象数据包括实体数据、关系数据和索引数据。
CN201811640265.2A 2018-12-29 2018-12-29 知识图谱数据关系分离的混合存储方法及系统 Pending CN109710618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811640265.2A CN109710618A (zh) 2018-12-29 2018-12-29 知识图谱数据关系分离的混合存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811640265.2A CN109710618A (zh) 2018-12-29 2018-12-29 知识图谱数据关系分离的混合存储方法及系统

Publications (1)

Publication Number Publication Date
CN109710618A true CN109710618A (zh) 2019-05-03

Family

ID=66260218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811640265.2A Pending CN109710618A (zh) 2018-12-29 2018-12-29 知识图谱数据关系分离的混合存储方法及系统

Country Status (1)

Country Link
CN (1) CN109710618A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597927A (zh) * 2019-10-14 2019-12-20 上海依图网络科技有限公司 基于异构数据库的存储查询方法和装置
CN111949830A (zh) * 2019-05-17 2020-11-17 即云天下(北京)数据科技有限公司 离散式索引方法与系统
CN111949649A (zh) * 2019-05-14 2020-11-17 杭州海康威视数字技术股份有限公司 一种动态本体存储系统、存储方法、数据查询方法
CN112000666A (zh) * 2020-08-04 2020-11-27 广州未名中智教育科技有限公司 一种面向列的数据库管理系统
CN112445822A (zh) * 2019-08-30 2021-03-05 拉扎斯网络科技(上海)有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN112699282A (zh) * 2021-03-23 2021-04-23 中国信息通信研究院 工业互联网数据处理方法、装置、电子设备及存储介质
CN113065051A (zh) * 2021-04-02 2021-07-02 西南石油大学 一种可视化农业大数据分析交互系统
CN114238268A (zh) * 2021-11-29 2022-03-25 武汉达梦数据技术有限公司 一种数据存储方法和装置
CN116821156A (zh) * 2023-06-27 2023-09-29 上海螣龙科技有限公司 一种网络资产数据存储、查询和可视化方法、装置及介质
CN116991892A (zh) * 2023-07-08 2023-11-03 上海螣龙科技有限公司 一种网络资产数据查询方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280360A1 (en) * 2013-03-15 2014-09-18 James Webber Graph database devices and methods for partitioning graphs
CN104750872A (zh) * 2015-04-22 2015-07-01 海南易建科技股份有限公司 一种业务对象的查询方法及装置
CN108400933A (zh) * 2018-03-21 2018-08-14 广东您好科技有限公司 一种基于语义理解和知识图谱实现智能通讯的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280360A1 (en) * 2013-03-15 2014-09-18 James Webber Graph database devices and methods for partitioning graphs
CN104750872A (zh) * 2015-04-22 2015-07-01 海南易建科技股份有限公司 一种业务对象的查询方法及装置
CN108400933A (zh) * 2018-03-21 2018-08-14 广东您好科技有限公司 一种基于语义理解和知识图谱实现智能通讯的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VOLVO: ""知识图谱在农信社风控领域的应用"", 《HTTPS://WWW.TALKWITHTREND.COM/ARTICLE/242835 TWT企业IT交流平台》 *
杨强: ""基于知识图谱的核电设备知识平台建设"", 《数字中国 能源互联—2018电力行业信息化年会论文集》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949649A (zh) * 2019-05-14 2020-11-17 杭州海康威视数字技术股份有限公司 一种动态本体存储系统、存储方法、数据查询方法
CN111949830A (zh) * 2019-05-17 2020-11-17 即云天下(北京)数据科技有限公司 离散式索引方法与系统
CN112445822A (zh) * 2019-08-30 2021-03-05 拉扎斯网络科技(上海)有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN110597927A (zh) * 2019-10-14 2019-12-20 上海依图网络科技有限公司 基于异构数据库的存储查询方法和装置
CN112000666A (zh) * 2020-08-04 2020-11-27 广州未名中智教育科技有限公司 一种面向列的数据库管理系统
CN112000666B (zh) * 2020-08-04 2024-02-20 广州未名中智教育科技有限公司 一种面向列的数据库管理系统
CN112699282A (zh) * 2021-03-23 2021-04-23 中国信息通信研究院 工业互联网数据处理方法、装置、电子设备及存储介质
CN113065051A (zh) * 2021-04-02 2021-07-02 西南石油大学 一种可视化农业大数据分析交互系统
CN114238268A (zh) * 2021-11-29 2022-03-25 武汉达梦数据技术有限公司 一种数据存储方法和装置
CN114238268B (zh) * 2021-11-29 2022-09-30 武汉达梦数据技术有限公司 一种数据存储方法和装置
CN116821156A (zh) * 2023-06-27 2023-09-29 上海螣龙科技有限公司 一种网络资产数据存储、查询和可视化方法、装置及介质
CN116991892A (zh) * 2023-07-08 2023-11-03 上海螣龙科技有限公司 一种网络资产数据查询方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109710618A (zh) 知识图谱数据关系分离的混合存储方法及系统
CN108733681B (zh) 信息处理方法及装置
US9507875B2 (en) Symbolic hyper-graph database
CN102270225B (zh) 数据变更日志监控方法和数据变更日志监控装置
CN111506621B (zh) 一种数据统计方法及装置
CN103678520A (zh) 一种基于云计算的多维区间查询方法及其系统
JP2011013923A (ja) 属性付きキー・バリュー・ストアによるデータベース・システム
CN107665246B (zh) 基于图数据库的动态数据迁移方法及图数据库集群
US10496645B1 (en) System and method for analysis of a database proxy
CN108241627A (zh) 一种异构数据存储查询方法和系统
CN104408171A (zh) 单据子表行关联查询装置和方法
US20200250192A1 (en) Processing queries associated with multiple file formats based on identified partition and data container objects
CN103455335A (zh) 一种多级分类的Web实现方法
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
CN106095951A (zh) 基于负载均衡和查询日志的数据空间多维索引方法
CN102193983A (zh) 图形数据库基于关系路径的节点数据过滤方法
Yassien et al. RDBMS, NoSQL, Hadoop: a performance-based empirical analysis
CN115587096A (zh) 实现MySQL同步数据到ES构建宽表的系统及方法
CN116992887A (zh) 一种元数据的数据目录处理方法、装置以及处理设备
Zhou et al. Schere: Schema reshaping for enhancing knowledge graph construction
CN112435022B (zh) 基于用户实时数据的动态检索系统、及方法
CN110134511A (zh) 一种OpenTSDB共享存储优化方法
CN109165217A (zh) 一种时序数据的高效存储方法
US20180150759A1 (en) Calculation device, calculation method, and non-transitory computer-readable recording medium
US11531706B2 (en) Graph search using index vertices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503