CN116136861A - 基于知识图谱的分布式多源异构数据管理系统及方法 - Google Patents

基于知识图谱的分布式多源异构数据管理系统及方法 Download PDF

Info

Publication number
CN116136861A
CN116136861A CN202310412628.1A CN202310412628A CN116136861A CN 116136861 A CN116136861 A CN 116136861A CN 202310412628 A CN202310412628 A CN 202310412628A CN 116136861 A CN116136861 A CN 116136861A
Authority
CN
China
Prior art keywords
data
topic
unit
knowledge base
management unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310412628.1A
Other languages
English (en)
Other versions
CN116136861B (zh
Inventor
卿宸
李鹏
罗玲
张伟
唐鸣跃
左力
刘学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202310412628.1A priority Critical patent/CN116136861B/zh
Publication of CN116136861A publication Critical patent/CN116136861A/zh
Application granted granted Critical
Publication of CN116136861B publication Critical patent/CN116136861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的分布式多源异构数据管理系统及方法,属于数据管理领域,包括:与数据生产者和数据消费者进行通信的数据预处理单元,数据预处理单元包括数据模型对比转换单元和主题订阅发布管理单元;与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库;与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。本发明善于处理多源异构数据,能够在发挥现有各类数据管理系统优势的基础之上,方便、高效的对各类型数据进行统一纳管,实现了分布式环境下数据的统一查询,降低了对原有系统的改造,提高了数据查找的命中率。

Description

基于知识图谱的分布式多源异构数据管理系统及方法
技术领域
本发明涉及数据管理领域,更为具体的,涉及一种基于知识图谱的分布式多源异构数据管理系统及方法。
背景技术
随着物联网、云计算以及5G网络等新兴技术的不断发展,全球的数据量正以前所未有的速度累积和增长。2020年全球数据量已增长至惊人的40ZB,预计到2035年新增数据将高达2140ZB,其规模相当于地球沙滩上所有沙粒总和的2000倍,这其中,来自先进传感器采集的数据又占据了全球数据总数的大部分,其数据内容主要包括消息类、图片类、视频类数以及原始信号类等,其主要特征为数据规模大、数据类型丰富、数据语义多样。
目前,传统的数据管理方式一是基于某种固定的数据格式进行管理,例如关系型数据库主要针对结构化数据进行存储管理,非关系型数据库例如键值对数据库主要针对非结构化数据进行存储管理;二是利用Hadoop、Spark等大数据处理技术对原有数据管理系统进行改造,其改造难度大,花费成本高。同时,现阶段各行业缺乏统一的数据标准,使得大规模数据的统一集成、统一管理成为难题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于知识图谱的分布式多源异构数据管理系统及方法,善于处理多源异构数据,能够在发挥现有各类数据管理系统优势的基础之上,方便、高效的对各类型数据进行统一纳管,实现了分布式环境下数据的统一查询,降低了对原有系统的改造,提高了数据查找的命中率等。
本发明的目的是通过以下方案实现的:
一种基于知识图谱的分布式多源异构数据管理系统,包括:
与数据生产者和数据消费者进行通信的数据预处理单元,所述数据预处理单元包括数据模型对比转换单元和主题订阅发布管理单元;
与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库;所述专家知识库基于知识图谱;
与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。
进一步地,所述数据预处理单元还包括:消息解析单元和数据对象主题提取单元;
所述消息解析单元与数据生产者进行通信以及与数据对象主题提取单元相连;
所述数据对象主题提取单元与消息解析单元相连,以及与主题订阅发布管理单元相连;
所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信;
所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信。
进一步地,所述消息解析单元,用于对收到数据按照数据生产者所定义数据格式进行解析;
所述数据对象主题提取单元,用于对解析后数据中的主题信息进行提取,如该数据中无主题信息则通过人工方式进行主题标注;
所述数据对象主题提取单元,用于将提取的主题发送至主题订阅发布管理单元,主题订阅发布管理单元对该主题的数据发布请求进行缓存管理;
所述主题订阅发布管理单元,用于通过主题向专家知识库发起查找主题请求,若未能找到相关主题,返回查找失败,当新增相关主题以及主题的数据模型后主题发布的流程方能继续,同时主题订阅发布管理单元向专家知识库写入数据生产者与对应主题的关系。
进一步地,所述基础数据管理单元包括关系型数据库和文件系统,其中关系型数据库保存结构化的数据,文件系统保存非结构化数据;非结构化数据的地址索引存储在关系型数据库中。
进一步地,所述专家知识库在所保存维护的知识图谱中查找对应主题预先定义好的数据模型;如果数据生产者发布的数据格式与数据模型格式不一致,则数据预处理单元中的数据模型对比转换单元根据该主题的数据模型对数据进行格式转换;数据预处理单元中的数据模型对比转换单元将转换后的数据存储至基础数据管理单元,基础数据管理单元对数据预处理单元处理后结构化的数据存储至关系型数据库,非结构化的数据存储至文件系统。
进一步地,所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信,具体包括:数据消费者通过主题订阅相关数据;数据预处理单元中主题订阅发布管理单元接收数据消费者发来的订阅主题信息;主题订阅发布管理单元向专家知识库查询订阅主题具体数据的地址信息,同时主题订阅发布管理单元向专家知识库写入数据消费者与对应主题的关系;
所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信,具体包括:专家知识库向数据消费者反馈数据地址,数据消费者向基础数据管理单元查询具体的数据,基础数据管理单元向数据消费者反馈具体的数据。
进一步地,所述知识图谱包括预先与实时生成的知识图谱。
进一步地,所述基础数据管理单元中,如旧有关系型数据库中无数据的主题信息则利用人工标注,并在专家知识库中的知识图谱中进行新增。
一种基于知识图谱的分布式多源异构数据管理方法,该方法基于如上任一所述的基于知识图谱的分布式多源异构数据管理系统,且包括以下步骤:
S1:数据预处理单元中的消息解析单元接收数据生产者发送的数据,并按照数据生产者定义的数据格式进行消息解析;
S2:数据预处理单元中的数据对象提取单元按照数据生产者对消息的定义提取其中的主题信息;
S3:如数据生产者的消息定义中无主题信息,则采用人工标注的方法对此段消息的主题进行定义;如有,则进入下一步;
S4:数据对象提取单元完成数据生产者消息的提取后向数据预处理单元中主题订阅发布管理单元订阅对应的主题;
S5:主题订阅发布管理单元通过主题信息向专家知识库查找对应主题的数据模型,如无对应主题,则查找失败终止流程;如有,则进入下一步;
S6:将数据生产者和主题的关系写入专家知识库;
S7:数据预处理单元中的数据模型对比转换单元接收主题订阅发布管理单元查询返回的数据模型并与数据生产者发送的消息进行对比;
S8:如果数据生产者的消息格式与专家知识库中的格式不相同,则把数据生产者的消息格式按照标准模型进行转换;如相同,则进入下一步;
S9:如果数据生产者的消息格式与专家知识库中的格式相同则把数据存储至基础数据管理单元。
一种基于知识图谱的分布式多源异构数据管理方法,该方法基于如上任一所述的基于知识图谱的分布式多源异构数据管理系统,且包括以下步骤:
T1:数据预处理单元中的主题订阅发布管理单元接收来自数据消费者订阅的数据主题信息;
T2:主题订阅发布管理单元缓存来自数据消费者的订阅请求并通过对应的主题专家知识库查询对应的主题中数据的存储信息,如专家知识库中不存在对应的主题,则向数据消费者返回查找失败;如存在,则进入下一步;
T3:如专家知识库存在对应的主题,主题订阅发布管理单元向专家知识库写入数据消费者与对应主题的关系;
T4:专家知识库向数据消费者返回对应主题以及在知识图谱中与该主题语义含义相同的主题的数据存储信息;如果该主题有多个数据地址信息,则数据消费者能够选择相应的规则,所述相应的规则包括按照就近原则或数据质量最优原则返回对应的数据存储地址。
本发明的有益效果包括:
本发明对传统关系型数据库、非关系型数据库以及图数据库进行了综合集成,并针对多源异构数据的特点,发挥了关系型数据库在格式化数据存储以及查询条件丰富的优势;发挥了非关系型数据库在存储非结构化数据,以及可扩展性好可适用于大规模数据存储的优势;发挥了图数据库易于表达知识图谱中数据对象之间关联关系,且对多维度关联关系查找快速的优势。
本发明通过构建知识图谱串联整个系统的运行流程。通过创建数据对象之间的关联关系知识,建立不同来源数据之间的语义关系;通过构建标准数据模型知识,建立不同结构数据之间的转换关系;通过存储数据对象的存储地址,建立从本地到全局的数据索引,实现分布式环境下数据的统一查询。
本发明既适用于旧有系统又适用于新有系统。旧有系统在不改变原有系统传输数据格式的情况下,通过专家知识库中的标准数据模型知识库进行数据格式转换形成统一的数据格式;而新有系统直接采用专家数据库中的标准模型进行系统设计,可以直接保存为基础数据管理单元中的标准格式。通过建造专家知识库尽可能降低对原有系统的改造。
本发明同样适用于大规模分布式环境下多源异构数据的采集。不同节点上数据资源池除了保存本地的专家知识库维护本地数据池的知识信息外,同时向中心节点上传同步本地的专家知识库。专家知识库在中心节点形成全局的知识图谱,这样数据消费者既可以以就近原则查询就近的专家知识库,以提升查询时间,如未查找到再向中心节点的专家知识库进行查找;数据消费者也可以直接在中心节点的专家知识库中进行查找,以提高查找的命中率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于知识图谱的分布式多源异构数据管理系统的组成结构示意图;
图2为基于图1数据管理系统的分布式数据资源池的系统拓扑结构和基本运维流程示意图;
图3为基于图1数据管理系统的分布式数据资源池数据发布流程示意图;
图4为基于图1数据管理系统的分布式数据资源池数据订阅流程的流程图;
图5为专家知识库中知识图谱描述的节点之间关系示意图。
具体实施方式
下面结合附图和实施例对发明进一步说明。本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
鉴于背景中的问题,本发明针对多类传感器产生数据的格式不一、语义不同、类型多样、规模庞大等特点的数据综合处理技术,在大规模改造原有系统,不单独设计开发数据管理系统的情况下,利用现有不同类型的数据管理系统的各自优势进行综合集成,并通过图数据库建立专家知识库,通过知识图谱描述多源异构数据之间的关联关系,并通过知识图谱中的各类元数据信息串联整个系统的基本运行流程,从而解决现有数据处理技术应用场景单一,或是对现有系统改造难度大等问题。
如图1所示,在以下描述的一个最佳实施例中,本发明提供一种基于知识图谱的分布式多源异构数据管理系统,包括:与数据生产者和数据消费者进行通信的数据预处理单元,与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库,与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。
所述数据预处理单元包括:与数据生产者进行通信以及与数据对象主题提取单元相连的消息解析单元,与消息解析单元相连,以及与主题订阅发布管理单元相连的数据对象主题提取单元,与数据对象主题提取单元以及专家知识库和数据消费者进行通信的主题订阅发布管理单元,与专家知识库以及基础数据管理单元进行通信的数据模型对比转换单元。
所述数据预处理单元通过以太网、CAN、RS232、FiberChannel等数据通信总线接收来自数据生产者发送的数据。数据预处理单元按照数据生产者传输的数据格式进行解析。数据预处理单元内的数据对象主题提取单元对消息解析单元的数据进行自动主题提取或人工主题标注。数据预处理单元内的主题订阅发布管理模块接收来自数据对象主题提取单元发送的主题信息进行缓存管理,向专家知识库查询对应主题的数据模型知识信息并写入将数据生产者和主题的关系,返回对应主题的数据模型信息至数据预处理单元中的数据模型对比转换单元。数据模型对比转换单元将数据生产者解析后的数据与数据模型进行对比并转换为标准数据模型。数据模型对比转换单元将转换后的数据保存至基础数据管理单元。
所述数据预处理单元通过以太网、CAN、RS232、Fiber-channel等数据通信总线接收来自数据消费者发送的订阅主题信息。数据预处理单元中的主题订阅发布管理单元接收来自数据消费者发来的订阅主题,主题订阅发布管理单元通过数据消费者的主题信息向专家知识库查询相应主题的数据地址信息,并将数据消费者和主题的关系写入专家知识库。主题订阅发布模块接收来着专家知识库相应主题数据对象的地址并转发给数据消费者。
所述专家知识库主要由预先与实时生成的知识图谱构成。知识图谱主要由节点与有向边构成,知识图谱描述的主要内容包括:
1)节点
节点类型1:主题节点,描述主题名称,如波音737、波音747、空客A320等。
节点内容:
①节点标示NodeID:主题名称Topic,不能重复且全局唯一;
②数据模型DataModel:描述对应主题存储内容的数据结构进行描述,例如客机数据模型AirCraftDataModel:{(长度length,取值范围[0-500],单位:米),(翼展WingSpan,取值范围[0-100],单位:米),(速度Speed,取值范围[0-2000],单位:公里/小时,时间Time,格式:2023-1-27,17:05:34),…};
③数据存储地址DataAdress,描述对应主题数据存储的地址信息,例如{192.168.1.0/database/aircraft,192.168.1.1/database/aircraft,…}。
节点类型2:数据生产者/消费者节点,描述数据生产者/消费者名称,如XX雷达设备,XX光电设备;
节点内容:
①节点标示NodeID:数据生产者/消费者User,不能重复且全局唯一;
②订阅发布关系,主题订阅者Subscriber:{User1,User2,...},主题发布者Publisher:{User1,User2,...}
2)有向边
有向边类型1:主题关系,对主题与主题之间的关系进行描述,如相等(is-a)、相似(like-a)、相反(contrary)或其它用户自定义关系。
有向边类型2:用户主题关系,对用户与主题之间的关系进行描述,如订阅(subscribe)、发布(publish)。
所述基础数据管理单元主要包括关系型数据库和文件系统构成,其中关系型数据库主要保存结构化的数据,文件系统主要保存图片、视频等非结构化大容量数据,非结构化数据的地址索引存储在关系型数据库中,如{主题名称,属性1,属性2,属性3,....,文件存储地址}。如旧有数据库中无数据的主题信息可利用进行人工标注,并在专家知识库中的知识图谱中进行新增。
如图2所示,在可选的实例中,基于本发明的分布式数据资源管理系统各节点之间构成主从Master-Slave的系统架构。本地节点的专家知识库更新后向中心节点的专家知识库进行数据的同步更新,中心节点的专家知识库保存全局的知识图谱。当数据消费者按照主题查找对应主题的数据时,可以按照查询命中率或就近查找的原则分别优先向中心节点或本地节点发起订阅流程。当数据生产者向分布式数据资源管理系统发布对应主题的数据时,采用本地优先的原则进行数据发布。
如图3所示,在可选的实施例中,数据生产者向分布式数据资源系统发布数据的处理流程如下:
S1:数据预处理单元中的消息解析单元接收数据生产者发送的数据,并按照数据生产者定义的数据格式进行消息解析;
S2:数据预处理单元中的数据对象提取单元按照数据生产者对消息的定义提取其中的主题信息,即此消息所描述的对象;
S3:如数据生产者的消息定义中无主题信息,则采用人工标注的方法对此段消息的主题进行定义;
S4:数据对象提取单元完成数据生产者消息的提取后向数据预处理单元中主题订阅发布管理模块订阅对应的主题;
S5:主题订阅发布管理单元通过主题信息向专家知识库查找对应主题的数据模型,如无对应主题,则查找失败终止流程;
S6:将数据生产者和主题的关系写入专家知识库;
S7:数据预处理单元中的数据模型对比转换单元接收主题订阅发布管理单元查询返回的数据模型并与数据生产者发送的消息进行对比;
S8:如果数据生产者的消息格式与专家知识库中的格式不相同,则把数据生产者的消息格式按照标准模型进行转换;
S9:如果数据生产者的消息格式与专家知识库中的格式相同则把数据存储至基础数据管理单元。
如图4和图5所示,在可选的实施例中,数据消费者向分布式数据资源管理系统订阅数据的处理流程如下:
T1:数据预处理单元中的主题订阅发布管理单元接收来自数据消费者订阅的数据主题信息;
T2:主题订阅发布管理单元缓存来自数据消费者的订阅请求并通过对应的主题专家知识库查询对应的主题中数据的存储信息,如专家知识库中不存在对应的主题,则向数据消费者返回查找失败;
T3:如专家知识库存在对应的主题,主题订阅发布管理模块向专家知识库写入数据消费者与对应主题的关系;
T4:专家知识库向数据消费者返回对应主题以及在知识图谱中与该主题语义含义相同的主题的数据存储信息。如果该主题有多个数据地址信息,则数据消费者可选相应的规则,如就近原则或数据质量最优原则返回对应的数据存储地址。
需要说明的是,在本发明权利要求书中所限定的保护范围内,以下实施例均可以从上述具体实施方式中,例如公开的技术原理,公开的技术特征或隐含公开的技术特征等,以合乎逻辑的任何方式进行组合和/或扩展、替换。
实施例1
一种基于知识图谱的分布式多源异构数据管理系统,包括:
与数据生产者和数据消费者进行通信的数据预处理单元,所述数据预处理单元包括数据模型对比转换单元和主题订阅发布管理单元;
与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库;所述专家知识库基于知识图谱;
与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。
实施例2
在实施例1的基础上,所述数据预处理单元还包括:消息解析单元和数据对象主题提取单元;
所述消息解析单元与数据生产者进行通信以及与数据对象主题提取单元相连;
所述数据对象主题提取单元与消息解析单元相连,以及与主题订阅发布管理单元相连;
所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信;
所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信。
实施例3
在实施例2的基础上,所述消息解析单元,用于对收到数据按照数据生产者所定义数据格式进行解析;
所述数据对象主题提取单元,用于对解析后数据中的主题信息进行提取,如该数据中无主题信息则通过人工方式进行主题标注;
所述数据对象主题提取单元,用于将提取的主题发送至主题订阅发布管理单元,主题订阅发布管理单元对该主题的数据发布请求进行缓存管理;
所述主题订阅发布管理单元,用于通过主题向专家知识库发起查找主题请求,若未能找到相关主题,返回查找失败,当新增相关主题以及主题的数据模型后主题发布的流程方能继续,同时主题订阅发布管理单元向专家知识库写入数据生产者与对应主题的关系。
实施例4
在实施例2的基础上,所述基础数据管理单元包括关系型数据库和文件系统,其中关系型数据库保存结构化的数据,文件系统保存非结构化数据;非结构化数据的地址索引存储在关系型数据库中。
实施例5
在实施例4的基础上,所述专家知识库在所保存维护的知识图谱中查找对应主题预先定义好的数据模型;如果数据生产者发布的数据格式与数据模型格式不一致,则数据预处理单元中的数据模型对比转换单元根据该主题的数据模型对数据进行格式转换;数据预处理单元中的数据模型对比转换单元将转换后的数据存储至基础数据管理单元,基础数据管理单元对数据预处理单元处理后结构化的数据存储至关系型数据库,非结构化的数据存储至文件系统。
实施例6
在实施例2的基础上,所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信,具体包括:数据消费者通过主题订阅相关数据;数据预处理单元中主题订阅发布管理单元接收数据消费者发来的订阅主题信息;主题订阅发布管理单元向专家知识库查询订阅主题具体数据的地址信息,同时主题订阅发布管理单元向专家知识库写入数据消费者与对应主题的关系;
所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信,具体包括:专家知识库向数据消费者反馈数据地址,数据消费者向基础数据管理单元查询具体的数据,基础数据管理单元向数据消费者反馈具体的数据。
实施例7
在实施例1的基础上,所述知识图谱包括预先与实时生成的知识图谱。
实施例8
在实施例4的基础上,所述基础数据管理单元中,如旧有关系型数据库中无数据的主题信息则利用人工标注,并在专家知识库中的知识图谱中进行新增。
实施例9
一种基于知识图谱的分布式多源异构数据管理方法,该方法基于如实施例1~实施例8任一所述的基于知识图谱的分布式多源异构数据管理系统,且包括以下步骤:
S1:数据预处理单元中的消息解析单元接收数据生产者发送的数据,并按照数据生产者定义的数据格式进行消息解析;
S2:数据预处理单元中的数据对象提取单元按照数据生产者对消息的定义提取其中的主题信息;
S3:如数据生产者的消息定义中无主题信息,则采用人工标注的方法对此段消息的主题进行定义;如有,则进入下一步;
S4:数据对象提取单元完成数据生产者消息的提取后向数据预处理单元中主题订阅发布管理单元订阅对应的主题;
S5:主题订阅发布管理单元通过主题信息向专家知识库查找对应主题的数据模型,如无对应主题,则查找失败终止流程;如有,则进入下一步;
S6:将数据生产者和主题的关系写入专家知识库;
S7:数据预处理单元中的数据模型对比转换单元接收主题订阅发布管理单元查询返回的数据模型并与数据生产者发送的消息进行对比;
S8:如果数据生产者的消息格式与专家知识库中的格式不相同,则把数据生产者的消息格式按照标准模型进行转换;如相同,则进入下一步;
S9:如果数据生产者的消息格式与专家知识库中的格式相同则把数据存储至基础数据管理单元。
实施例10
一种基于知识图谱的分布式多源异构数据管理方法,该方法基于如实施例1~实施例8任一所述的基于知识图谱的分布式多源异构数据管理系统,且包括以下步骤:
T1:数据预处理单元中的主题订阅发布管理单元接收来自数据消费者订阅的数据主题信息;
T2:主题订阅发布管理单元缓存来自数据消费者的订阅请求并通过对应的主题专家知识库查询对应的主题中数据的存储信息,如专家知识库中不存在对应的主题,则向数据消费者返回查找失败;如存在,则进入下一步;
T3:如专家知识库存在对应的主题,主题订阅发布管理单元向专家知识库写入数据消费者与对应主题的关系;
T4:专家知识库向数据消费者返回对应主题以及在知识图谱中与该主题语义含义相同的主题的数据存储信息;如果该主题有多个数据地址信息,则数据消费者能够选择相应的规则,所述相应的规则包括按照就近原则或数据质量最优原则返回对应的数据存储地址。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本发明的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。

Claims (10)

1.基于知识图谱的分布式多源异构数据管理系统,其特征在于,包括:
与数据生产者和数据消费者进行通信的数据预处理单元,所述数据预处理单元包括数据模型对比转换单元和主题订阅发布管理单元;
与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库;所述专家知识库基于知识图谱;
与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。
2.根据权利要求1所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述数据预处理单元还包括:消息解析单元和数据对象主题提取单元;
所述消息解析单元与数据生产者进行通信以及与数据对象主题提取单元相连;
所述数据对象主题提取单元与消息解析单元相连,以及与主题订阅发布管理单元相连;
所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信;
所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信。
3.根据权利要求2所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述消息解析单元,用于对收到数据按照数据生产者所定义数据格式进行解析;
所述数据对象主题提取单元,用于对解析后数据中的主题信息进行提取,如该数据中无主题信息则通过人工方式进行主题标注;
所述数据对象主题提取单元,用于将提取的主题发送至主题订阅发布管理单元,主题订阅发布管理单元对该主题的数据发布请求进行缓存管理;
所述主题订阅发布管理单元,用于通过主题向专家知识库发起查找主题请求,若未能找到相关主题,返回查找失败,当新增相关主题以及主题的数据模型后主题发布的流程方能继续,同时主题订阅发布管理单元向专家知识库写入数据生产者与对应主题的关系。
4.根据权利要求2所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述基础数据管理单元包括关系型数据库和文件系统,其中关系型数据库保存结构化的数据,文件系统保存非结构化数据;非结构化数据的地址索引存储在关系型数据库中。
5.根据权利要求4所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述专家知识库在所保存维护的知识图谱中查找对应主题预先定义好的数据模型;如果数据生产者发布的数据格式与数据模型格式不一致,则数据预处理单元中的数据模型对比转换单元根据该主题的数据模型对数据进行格式转换;数据预处理单元中的数据模型对比转换单元将转换后的数据存储至基础数据管理单元,基础数据管理单元对数据预处理单元处理后结构化的数据存储至关系型数据库,非结构化的数据存储至文件系统。
6.根据权利要求2所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信,具体包括:数据消费者通过主题订阅相关数据;数据预处理单元中主题订阅发布管理单元接收数据消费者发来的订阅主题信息;主题订阅发布管理单元向专家知识库查询订阅主题具体数据的地址信息,同时主题订阅发布管理单元向专家知识库写入数据消费者与对应主题的关系;
所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信,具体包括:专家知识库向数据消费者反馈数据地址,数据消费者向基础数据管理单元查询具体的数据,基础数据管理单元向数据消费者反馈具体的数据。
7.根据权利要求1所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述知识图谱包括预先与实时生成的知识图谱。
8.根据权利要求4所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述基础数据管理单元中,如旧有关系型数据库中无数据的主题信息则利用人工标注,并在专家知识库中的知识图谱中进行新增。
9.基于知识图谱的分布式多源异构数据管理方法,其特征在于,该方法基于如权利要求1~8任一所述的基于知识图谱的分布式多源异构数据管理系统,且包括以下步骤:
S1:数据预处理单元中的消息解析单元接收数据生产者发送的数据,并按照数据生产者定义的数据格式进行消息解析;
S2:数据预处理单元中的数据对象提取单元按照数据生产者对消息的定义提取其中的主题信息;
S3:如数据生产者的消息定义中无主题信息,则采用人工标注的方法对此段消息的主题进行定义;如有,则进入下一步;
S4:数据对象提取单元完成数据生产者消息的提取后向数据预处理单元中主题订阅发布管理单元订阅对应的主题;
S5:主题订阅发布管理单元通过主题信息向专家知识库查找对应主题的数据模型,如无对应主题,则查找失败终止流程;如有,则进入下一步;
S6:将数据生产者和主题的关系写入专家知识库;
S7:数据预处理单元中的数据模型对比转换单元接收主题订阅发布管理单元查询返回的数据模型并与数据生产者发送的消息进行对比;
S8:如果数据生产者的消息格式与专家知识库中的格式不相同,则把数据生产者的消息格式按照标准模型进行转换;如相同,则进入下一步;
S9:如果数据生产者的消息格式与专家知识库中的格式相同则把数据存储至基础数据管理单元。
10.基于知识图谱的分布式多源异构数据管理方法,其特征在于,该方法基于如权利要求1~8任一所述的基于知识图谱的分布式多源异构数据管理系统,且包括以下步骤:
T1:数据预处理单元中的主题订阅发布管理单元接收来自数据消费者订阅的数据主题信息;
T2:主题订阅发布管理单元缓存来自数据消费者的订阅请求并通过对应的主题专家知识库查询对应的主题中数据的存储信息,如专家知识库中不存在对应的主题,则向数据消费者返回查找失败;如存在,则进入下一步;
T3:如专家知识库存在对应的主题,主题订阅发布管理单元向专家知识库写入数据消费者与对应主题的关系;
T4:专家知识库向数据消费者返回对应主题以及在知识图谱中与该主题语义含义相同的主题的数据存储信息;如果该主题有多个数据地址信息,则数据消费者能够选择相应的规则,所述相应的规则包括按照就近原则或数据质量最优原则返回对应的数据存储地址。
CN202310412628.1A 2023-04-18 2023-04-18 基于知识图谱的分布式多源异构数据管理系统及方法 Active CN116136861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310412628.1A CN116136861B (zh) 2023-04-18 2023-04-18 基于知识图谱的分布式多源异构数据管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310412628.1A CN116136861B (zh) 2023-04-18 2023-04-18 基于知识图谱的分布式多源异构数据管理系统及方法

Publications (2)

Publication Number Publication Date
CN116136861A true CN116136861A (zh) 2023-05-19
CN116136861B CN116136861B (zh) 2023-08-15

Family

ID=86334745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310412628.1A Active CN116136861B (zh) 2023-04-18 2023-04-18 基于知识图谱的分布式多源异构数据管理系统及方法

Country Status (1)

Country Link
CN (1) CN116136861B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154639A1 (de) * 2008-08-13 2010-02-17 EADS Deutschland GmbH Publikations-Abonnementsystem und Verfahren dazu
CN109922139A (zh) * 2019-01-31 2019-06-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 异构网络的动态服务发现与发布方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN112364046A (zh) * 2020-10-29 2021-02-12 北京航空航天大学 一种基于知识图谱的异构环境下主数据管理方法
WO2021196520A1 (zh) * 2020-03-30 2021-10-07 西安交通大学 一种面向税务领域知识图谱的构建方法及系统
US20220121674A1 (en) * 2018-10-30 2022-04-21 Siemens Aktiengesellschaft Method and system for integrating data from different data sources into a knowledge graph storage unit
CN114860884A (zh) * 2022-05-23 2022-08-05 中国科学院空天信息创新研究院 一种面向动态分析的时空知识图谱构建系统和方法
CN115858829A (zh) * 2022-11-30 2023-03-28 济南市环境研究院(济南市黄河流域生态保护促进中心) 一种基于算力网络的多源异构环境数据资产构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154639A1 (de) * 2008-08-13 2010-02-17 EADS Deutschland GmbH Publikations-Abonnementsystem und Verfahren dazu
US20220121674A1 (en) * 2018-10-30 2022-04-21 Siemens Aktiengesellschaft Method and system for integrating data from different data sources into a knowledge graph storage unit
CN109922139A (zh) * 2019-01-31 2019-06-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 异构网络的动态服务发现与发布方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
WO2021196520A1 (zh) * 2020-03-30 2021-10-07 西安交通大学 一种面向税务领域知识图谱的构建方法及系统
CN112364046A (zh) * 2020-10-29 2021-02-12 北京航空航天大学 一种基于知识图谱的异构环境下主数据管理方法
CN114860884A (zh) * 2022-05-23 2022-08-05 中国科学院空天信息创新研究院 一种面向动态分析的时空知识图谱构建系统和方法
CN115858829A (zh) * 2022-11-30 2023-03-28 济南市环境研究院(济南市黄河流域生态保护促进中心) 一种基于算力网络的多源异构环境数据资产构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ARTUR ABDULLIN等: "Clustering Heterogeneous Data Sets", 《2012 EIGHTH LATIN AMERICAN WEB CONGRESS》, pages 1 - 8 *
卿宸等: "云数据库中基于极大熵差分进化的负载评估算法", 《计算机应用》, vol. 34, no. 1, pages 123 - 125 *
李鹏等: "机载高速内存映射异构平台波形建模方法", 《计算机工程与设计》, vol. 39, no. 12, pages 3674 - 3679 *
沈志宏等: "以图为中心的新型大数据技术栈研究", 《数据分析与知识发现》, vol. 4, no. 07, pages 54 - 69 *
雷洁等: "知识图谱驱动的科研档案大数据管理系统构建研究", 《数字图书馆论坛》, no. 02, pages 21 - 29 *

Also Published As

Publication number Publication date
CN116136861B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
CN107291807B (zh) 一种基于图遍历的sparql查询优化方法
US6505191B1 (en) Distributed computer database system and method employing hypertext linkage analysis
Markowetz et al. Keyword search on relational data streams
CN104850601B (zh) 基于图数据库的警务实时分析应用平台及其构建方法
CN108509543B (zh) 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN101833568B (zh) Web数据管理系统
CN107895046B (zh) 一种异构数据集成平台
CN104424258A (zh) 多维数据查询的方法、查询服务器、列存储服务器及系统
CN113986873A (zh) 一种海量物联网数据模型化的处理、存储与共享方法
CN106874426A (zh) 基于Storm的RDF流式数据关键词实时搜索方法
Ding et al. A hybrid search engine framework for the internet of things based on spatial-temporal, value-based, and keyword-based conditions
CN101216824B (zh) 一种将树型结构数据库发布为分布式xml数据库的方法
CN113535788A (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN103226608A (zh) 一种基于目录级可伸缩的Bloom Filter位图表的并行文件搜索方法
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN113810466B (zh) 用于多源异构数据的中间件、应用该中间件的系统和方法
CN110109870A (zh) 一种基于Solr的海量数据快速检索系统
CN116136861B (zh) 基于知识图谱的分布式多源异构数据管理系统及方法
CN109189873A (zh) 一种气象服务大数据监测分析系统平台
CN111680072B (zh) 基于社交信息数据的划分系统及方法
CN113157742A (zh) 一种智能公交的数据湖管理方法及系统
CN111581420B (zh) 一种基于Flink的医学图像实时检索方法
CN110321456B (zh) 一种海量不确定xml近似查询方法
CN103942294B (zh) 智能交通领域中海量数据检索的查询规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant