CN113779178A - 基于知识图谱的数据存储方法和装置 - Google Patents
基于知识图谱的数据存储方法和装置 Download PDFInfo
- Publication number
- CN113779178A CN113779178A CN202111068202.6A CN202111068202A CN113779178A CN 113779178 A CN113779178 A CN 113779178A CN 202111068202 A CN202111068202 A CN 202111068202A CN 113779178 A CN113779178 A CN 113779178A
- Authority
- CN
- China
- Prior art keywords
- equipment
- attribute
- attributes
- graph
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013500 data storage Methods 0.000 title claims abstract description 20
- 239000000463 material Substances 0.000 claims abstract description 90
- 238000010276 construction Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000009434 installation Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- LPLLVINFLBSFRP-UHFFFAOYSA-N 2-methylamino-1-phenylpropan-1-one Chemical compound CNC(C)C(=O)C1=CC=CC=C1 LPLLVINFLBSFRP-UHFFFAOYSA-N 0.000 description 1
- 241000132539 Cosmos Species 0.000 description 1
- 235000005956 Cosmos caudatus Nutrition 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Primary Health Care (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computer Hardware Design (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于知识图谱的数据存储方法和装置,该方法包括:获得待存储的能源物资供应数据,能源物资供应数据包括:作为供应能源物资的设备的信息;确定能源物资供应数据所涉及到的至少一台设备;针对每台设备,从能源物资供应数据中抽取出设备的至少一个维度的设备属性以及设备属性的属性取值;以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及设备属性的属性取值,构建表示能源物资供应数据的知识图谱;在图数据库中存储知识图谱。本申请的方案可以实现更为合理的存储能源物资供应所涉及到的数据,并有利于提高相关数据的查询效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于知识图谱的数据存储方法和装置。
背景技术
在与电网企业相关的能源物资供应场景中,需要记录并存储能源物资供应链中所涉及到的各种数据信息。
在能源物资供应链中会涉及到物资供应方与需求方的数据信息以及各类能源物资相关设备等等大量数据。而目前一般采用关系型数据库来存储能源物资供应链中所涉及到的各类数据。然而,由于能源物资供应链中各种数据之间关系较为复杂,基于关系型数据库既无法较为直观体现出各种数据之间的潜在关系,又不利于较为快速的查询出所需的数据。
发明内容
有鉴于此,本申请提供了一种基于知识图谱的数据存储方法和装置,以实现更为合理的存储能源物资供应所涉及到的数据,并有利于提高相关数据的查询效率。
为实现上述目的,本申请提供了如下方案:
一方面,本申请提供了一种基于知识图谱的数据存储方法,包括:
获得待存储的能源物资供应数据,所述能源物资供应数据包括:作为供应能源物资的设备的信息;
确定所述能源物资供应数据所涉及到的至少一台设备;
针对每台设备,从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值;
以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱;
在图数据库中存储所述知识图谱。
在一种可能的实现方式中,所述结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱,包括:
基于抽取出的各设备的设备属性以及所述设备属性的属性值,构建多个三元组,每个三元组用与表征一台设备对应的一种设备属性的属性取值;
结合构建出的多个三元组搭建所述能源物资供应数据的知识图谱。
在又一种可能的实现方式中,所述从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值,包括:
从所述能源物资供应数据中抽取所述设备对应的属于设定属性集的至少一个维度的设备属性,所述设定属性集中的设备属性包括:设备类型、设备电压等级、使用设备的供电公司、设备的生产厂家、设备的特征参数、设备发生过的故障、设备安装厂站以及设备安装线路;
针对抽取出的每个设备的每种设备属性,从所述能源物资供应数据中抽取出所述设备属性对应的属性值。
在又一种可能的实现方式中,在图数据库中存储所述知识图谱,包括:
对构建出的所述知识图谱进行威胁评估;
在对所述知识图谱的威胁评估通过后,在图数据库中存储所述知识图谱。
在又一种可能的实现方式中,所述对构建出的所述知识图谱进行威胁评估,包括:
确定所述知识图谱的结构重构误差和属性重构误差;
如所述结构重构误差和属性重构误差的加权和设定阈值,则确定所述知识图谱的威胁评估通过。
又一方面,本申请还提供了一种基于知识图谱的数据存储装置,包括:
数据获得单元,用于获得待存储的能源物资供应数据,所述能源物资供应数据包括:作为供应能源物资的设备的信息;
设备确定单元,用于确定所述能源物资供应数据所涉及到的至少一台设备;
属性提取单元,用于针对每台设备,从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值;
图谱构建单元,用于以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱;
图谱存储单元,用于在图数据库中存储所述知识图谱。
在又一种可能的实现方式中,所述图谱构建单元,包括:
三元组构建子单元,用于以设备和设备属性为实体,以设备属性的属性取值为实体关系,基于抽取出的各设备的设备属性以及所述设备属性的属性值,构建多个三元组,每个三元组用与表征一台设备对应的一种设备属性的属性取值;
图谱构建子单元,用于结合构建出的多个三元组搭建所述能源物资供应数据的知识图谱。
在又一种可能的实现方式中,所述属性抽取单元,包括:
属性抽取子单元,用于从所述能源物资供应数据中抽取所述设备对应的属于设定属性集的至少一个维度的设备属性,所述设定属性集中的设备属性包括:设备类型、设备电压等级、使用设备的供电公司、设备的生产厂家、设备的特征参数、设备发生过的故障、设备安装厂站以及设备安装线路;
值抽取子单元,用于针对抽取出的每个设备的每种设备属性,从所述能源物资供应数据中抽取出所述设备属性对应的属性值。
在又一种可能的实现方式中,图谱存储单元,包括:
威胁评估子单元,用于图谱存储单元在图数据库中存储所述知识图谱之前,对构建出的所述知识图谱进行威胁评估;
图像存储子单元,用于在对所述知识图谱的威胁评估通过后,在图数据库中存储所述知识图谱。
在又一种可能的实现方式中,所述威胁评估子单元,包括:
误差确定子单元,用于确定所述知识图谱的结构重构误差和属性重构误差;
结果确定子单元,用于如所述结构重构误差和属性重构误差的加权和设定阈值,则确定所述知识图谱的威胁评估通过。
由以上可知,在本申请实施例中,在获得待存储的能源物资供应数据之后,会确定该能源物资供应数据所涉及到的至少一台设备,并从该能源物资功能数据中抽取出相应设备的设备属性以及设备属性的属性取值。在此基础上,以设备和设备属性为实体,并以设备属性的属性取值为实体关系,将抽取出的各设备、各设备的设备属性以及设备属性的属性取值转换为知识图谱,通过知识图谱能够更为直观的体现能源物资供应数据中各种设备信息之间的关系。而且,将知识图谱的形式将能源物资供应数据存储到图数据库中,有效利用了图数据库的数据存储特性,进而可以提升查询能源物资供应数据的查询效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的一种基于知识图谱的数据存储方法的一种流程示意图;
图2示出了本申请实施例提供的一种基于知识图谱的数据存储方法的又一种流程示意图;
图3示出了本申请实施例提供的一种基于知识图谱的数据存储装置的一种组成结构示意图。
具体实施方式
为了便于理解本申请的方案,先对本申请中涉及到一些术语进行介绍:
图计算:通用的大规模数据存储分析平台,大部分己经集合了并发执行,作业调度,容错管理等一系列复杂的功能,想要使用的话只要部署了相应的环境,并且调用通用的接口就可以实现大部分的算法的执行。目前比较知名的大规模分布式计算平台主要有Google提出的的MapReduce系统、微软的Cosmos、Apache的Hadoop和Spark。这些通用的计算平台当初的设计目的是为了解决大量共有的海量数据分析过程中遇到的难题,因此设计目标比较宽泛,可以支持多种多样任务的计算。如今,这些有名的计算系统已经被广泛的使用在了工业界和学术界,为信息化产业的进步贡献了很大的力量。
知识图谱:知识图谱,又称关系网络或者大规模语义网,是用关系和节点组成的大规模知识表示形式,包含实体(Entity),概念(Concept)及其之间的各种语义关系。
知识图谱发展到如今,其内涵已经远远超出语义网络的范畴,它更多代表的是一种技术体系,指代基于大数据技术和人工智能技术等一系列知识工程的技术总和,也是构建现实世界业务客观事实模型的过程。随着近几年关系网络技术在工业界逐渐成熟和落地,知识图谱类型也逐步从GKG(General-purpose Knowledge Graph)演化成为领域或者行业的知识图谱类型DKG(Domain-specific Knowledge Graph)
知识图谱的数据需要完成基本的图结构数据存储,同时也要支持上层应用对关系网络中的数据进行实时查询,知识推理,离线大规模图计算甚至是实时大规模图计算等,所以专门针对关系网络数据存储做了优化的图数据库成了关键的组件。
关系型数据库:关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。
图数据库:NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息。图数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。它采用了免索引领接,邻接表,点边数据以KCV的形式组织等等方式存储关系网络数据,其根本目的在于对邻边和邻节点的快速查询遍历,减少随机读写的磁盘寻道时间,提升关系网络数据的I/O性能。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图数据库的独特设计恰恰弥补了这个缺陷。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,其示出了本申请一种基于知识图谱的数据存储方法一个实施例的流程示意图,本实施例的适用于用于实现数据存储管理的计算机设备。
本实施例的方法可以包括:
S101,获得待存储的能源物资供应数据。
该能源物资供应数据包括:作为供应能源物资的设备的信息。
在本申请中所涉及到电网相关的能源物资供应链中主要是作为能源物资各类设备的供应以及购买相关的数据链信息。通过能源物资供应数据能够便于追溯能源物资供应过程中的设备信息的管理。
如,能源物资供应数据可以包括:供应商供应的与电网布设相关的传感器设备,各种电网智能终端设备的设备生产厂家以及设备类型等等相关信息。
S102,确定能源物资供应数据所涉及到的至少一台设备。
能源物资供应数据所涉及到的设备为能源物资供应数据中所描述到的设备,也即能源物资供应数据中记录有相关数据的设备。
如,可以设定用于抽取设备名称的关键词等形式,从能源物资供应数据中抽取出不同设备的设备名称,从而确定出能源物资供应数据所涉及到的设备。
S103,针对每台设备,从能源物资供应数据中抽取出设备的至少一个维度的设备属性以及设备属性的属性取值。
可以理解的是,在确定出能源物资供应数据中所涉及到的设备之后,可以通过关系抽取技术抽取出设备相关的设备属性以及设备属性的属性取值的相关数据。本申请对于具体的数据抽取方式不加限制。
在一种可能的实现方式中,可以从能源物资供应数据中抽取设备对应的属于设定属性集的至少一个维度的设备属性,设定属性集中的设备属性包括:设备类型、设备电压等级、使用设备的供电公司、设备的生产厂家、设备的特征参数、设备发生过的故障、设备安装厂站以及设备安装线路等。其中,设定属性集中还可能包括其他的设备属性种类,对此不加限制
相应的,针对抽取出的每个设备的每种设备属性,从能源物资供应数据中抽取出设备属性对应的属性值。
S104,以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及设备属性的属性取值,构建表示能源物资供应数据的知识图谱。
以设备和设备属性为实体,设备属性的属性取值为实体关系的前提下,设备(即设备名称)和设备属性就会作为知识图谱中节点,而设备属性的属性取值就是该设备属性的节点与相应设备的节点之间的边。
如,设备A的设备属性包括设备电压等级,而设备电压等级为2级,那么设备A作为知识图谱中的一个节点,而设备电压等级为与设备A这一节点相连的另一个节点,且设备A与设备电压等级之间的边对应的取值为2级。
在一种可能的实现方式中,可以以设备和设备属性为实体,以设备属性的取值为实体关系,并基于抽取出的各设备的设备属性以及设备属性的属性值,构建多个三元组,每个三元组用与表征一台设备对应的一种设备属性的属性取值。在此基础上,可以结合构建出的多个三元组搭建能源物资供应数据的知识图谱。
S105,在图数据库中存储知识图谱。
图形数据库是一种非关系型数据库,图数据库(Graph database)并非指存储图片的数据库,而是以图这种数据结构存储和查询数据,它应用图形理论存储实体之间的关系信息。
在将知识图谱存储到图数据库之后,后续便可以从图数据库中的知识图谱数据中查询满足筛选条件的数据。
图数据的优势在于能够进行复杂连接关系的查询,查询速度相当于关系数据库快上百倍。本发明正是基于图数据库,应用图计算技术构建能源物资供应链设备知识图谱,提升物资供应链的运作效率。
基于图数据库的知识图谱模式(schema)建立概念有点像命名空间或者可以把它想像成一个文件系统中的目录,差别就是这个schema下不能再有schema嵌套。各个对象比如表、函数等存放在schema中定义的各个节点、边,或者属性下,同一个schema下不能有重复的对象名字,但在不同schema下可以重复。开源图数据库的特点是支持原生图存储和处理,支持ACID事物处理,但不使用schema,因此在企业数据管理场景下,难以从整体统筹把控数据。此外,开源图数据库不支持实时信息的存储,且非企业版本受数据量、查询速度等方面的限制。使用schema方便多个业务部门和多个用户共享一个数据库,同时不同的数据来源又可以互相独立,方便管理众多对象,更有逻辑性。例如设计一个由众多模块构成的复杂系统,不同模块间需要有独立性,但单独存放各模块的数据到独立的数据库又无法实现模块的整体融合与统一建模,使用schema来分类各模块间的对象,再对用户进行适当的权限控制,可以逻辑清晰地构建一套统一的数据模型。
由以上可知,在本申请实施例中,在获得待存储的能源物资供应数据之后,会确定该能源物资供应数据所涉及到的至少一台设备,并从该能源物资功能数据中抽取出相应设备的设备属性以及设备属性的属性取值。在此基础上,以设备和设备属性为实体,并以设备属性的属性取值为实体关系,将抽取出的各设备、各设备的设备属性以及设备属性的属性取值转换为知识图谱,通过知识图谱能够更为直观的体现能源物资供应数据中各种设备信息之间的关系。而且,将知识图谱的形式将能源物资供应数据存储到图数据库中,有效利用了图数据库的数据存储特性,进而可以提升查询能源物资供应数据的查询效率。
可以理解的是,应用本申请的方案,构建能源物资供应链设备知识图谱,可以建立全面易用的电力设备质量评价知识库,包括电网生产管理系统(PMS)提供的电力设备原始台账信息、在运行缺陷、非停故障和家族性缺陷信息、抽检和监造信息、质量评级导则等各类监造和管理数据,和电网调度自动化系统(调控云)中提供的电网公共信息模型(CIM/E)数据,包括场站、线路以及相关设备的连接状态,以及智能制造设备的运行和运维数据等。
由于网络结构整合了多个知识库和告警的因果语义,而在真实环境中通常攻击事件是占非常小一部分,因此图谱结构的编码与解码误差可以用来衡量图谱中攻击者的威胁度。基于此,本申请在存储知识图谱之前,还可以对构建出的知识图谱进行威胁评估。在此基础上,在对知识图谱的威胁评估通过后,在图数据库中存储知识图谱。
如图2所示,其示出了本申请一种基于知识图谱的数据存储方法又一个实施例的流程示意图,本实施例的方法包括:
S201,获得待存储的能源物资供应数据。
该能源物资供应数据包括:作为供应能源物资的设备的信息。
S202,确定能源物资供应数据所涉及到的至少一台设备。
S203,针对每台设备,从能源物资供应数据中抽取出设备的至少一个维度的设备属性以及设备属性的属性取值。
S204,以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及设备属性的属性取值,构建表示能源物资供应数据的知识图谱。
以上步骤可以参见前面实施例的相关介绍,在此不再赘述。
S205,确定该知识图谱的结构重构误差和属性重构误差。
如,可以结合图神经网络(即编码器,也称为图卷积神经网络),对知识图谱进行编码,并对知识图谱的属性与结构分别进行重构,最终确定结构重构误差和属性重构误差。
其中,安全知识图谱的属性编码过程不仅需要考虑图结构的编码,还需要实现节点属性的编码。图卷积神经网络在学习节点特征表示时考虑了高阶节点的邻近性,从而解决了网络稀疏性问题。同时,通过多层非线性变换,图卷积神经网络能捕属性图中数据的非线性特征和两种信息模态之间的复杂交互。因此编码过程采用图卷积神经网络。
由于网络结构整合了多个知识库和告警的因果语义,而在真实环境中通常攻击事件是占非常小一部分,因此图谱结构的编码与解码误差可以用来衡量图谱中攻击者的威胁度。图谱中的告警内容信息实体又具有表示攻击意图的行为特征,利用属性的编码解码的误差能评估攻击意图的强弱。把属性图编码器在同一框架下实现对属性图的拓扑结构和属性的无缝建模,然后利用图神经网络实现了顶点的特征表示学习。结构重构解码器通过节点的特征表示重构网络拓扑结构。属性重构编码器通过节点的特征表示重构属性图中节点的属性。
在此基础上,通过编码结果重构原始的图谱。一个节点自身的结构信息可以通过结构重构解码器近似得到,那么该节点属于异常节点的概率就较低,相反,节点的重构误差较大,那么它就有很大概率是异常节点。
S206,如结构重构误差和属性重构误差的加权和设定阈值,则确定知识图谱的威胁评估通过,将构建出的知识图谱存储到图数据库。
对应本申请的一种基于知识图谱的数据存储方法,本申请还提供了一种基于知识图谱的数据存储装置,如图3所示,其示出了本申请提供的一种基于知识图谱的数据存储装置的一种组成结构示意图,本实施例的装置可以包括:
数据获得单元301,用于获得待存储的能源物资供应数据,所述能源物资供应数据包括:作为供应能源物资的设备的信息;
设备确定单元302,用于确定所述能源物资供应数据所涉及到的至少一台设备;
属性提取单元303,用于针对每台设备,从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值;
图谱构建单元304,用于以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱;
图谱存储单元305,用于在图数据库中存储所述知识图谱。
在一种可能的实现方式中,所述图谱构建单元,包括:
三元组构建子单元,用于以设备和设备属性为实体,以设备属性的属性取值为实体关系,基于抽取出的各设备的设备属性以及所述设备属性的属性值,构建多个三元组,每个三元组用与表征一台设备对应的一种设备属性的属性取值;
图谱构建子单元,用于结合构建出的多个三元组搭建所述能源物资供应数据的知识图谱。
在又一种可能的实现方式中,所述属性抽取单元,包括:
属性抽取子单元,用于从所述能源物资供应数据中抽取所述设备对应的属于设定属性集的至少一个维度的设备属性,所述设定属性集中的设备属性包括:设备类型、设备电压等级、使用设备的供电公司、设备的生产厂家、设备的特征参数、设备发生过的故障、设备安装厂站以及设备安装线路;
值抽取子单元,用于针对抽取出的每个设备的每种设备属性,从所述能源物资供应数据中抽取出所述设备属性对应的属性值。
在又一种可能的实现方式中,图谱存储单元,包括:
威胁评估子单元,用于图谱存储单元在图数据库中存储所述知识图谱之前,对构建出的所述知识图谱进行威胁评估;
图像存储子单元,用于在对所述知识图谱的威胁评估通过后,在图数据库中存储所述知识图谱。
在又一种可能的实现方式中,所述威胁评估子单元,包括:
误差确定子单元,用于将所述知识图谱输入到图神经网络,得到所述图神经网络输出的所述知识图谱的结构重构误差和属性重构误差;
结果确定子单元,用于如所述结构重构误差和属性重构误差的加权和设定阈值,则确定所述知识图谱的威胁评估通过。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于知识图谱的数据存储方法,其特征在于,包括:
获得待存储的能源物资供应数据,所述能源物资供应数据包括:作为供应能源物资的设备的信息;
确定所述能源物资供应数据所涉及到的至少一台设备;
针对每台设备,从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值;
以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱;
在图数据库中存储所述知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱,包括:
基于抽取出的各设备的设备属性以及所述设备属性的属性值,构建多个三元组,每个三元组用与表征一台设备对应的一种设备属性的属性取值;
结合构建出的多个三元组搭建所述能源物资供应数据的知识图谱。
3.根据权利要求1所述的方法,其特征在于,所述从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值,包括:
从所述能源物资供应数据中抽取所述设备对应的属于设定属性集的至少一个维度的设备属性,所述设定属性集中的设备属性包括:设备类型、设备电压等级、使用设备的供电公司、设备的生产厂家、设备的特征参数、设备发生过的故障、设备安装厂站以及设备安装线路;
针对抽取出的每个设备的每种设备属性,从所述能源物资供应数据中抽取出所述设备属性对应的属性值。
4.根据权利要求1所述的方法,其特征在于,在图数据库中存储所述知识图谱,包括:
对构建出的所述知识图谱进行威胁评估;
在对所述知识图谱的威胁评估通过后,在图数据库中存储所述知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述对构建出的所述知识图谱进行威胁评估,包括:
确定所述知识图谱的结构重构误差和属性重构误差;
如所述结构重构误差和属性重构误差的加权和设定阈值,则确定所述知识图谱的威胁评估通过。
6.一种基于知识图谱的数据存储装置,其特征在于,包括:
数据获得单元,用于获得待存储的能源物资供应数据,所述能源物资供应数据包括:作为供应能源物资的设备的信息;
设备确定单元,用于确定所述能源物资供应数据所涉及到的至少一台设备;
属性提取单元,用于针对每台设备,从所述能源物资供应数据中抽取出所述设备的至少一个维度的设备属性以及所述设备属性的属性取值;
图谱构建单元,用于以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及所述设备属性的属性取值,构建表示所述能源物资供应数据的知识图谱;
图谱存储单元,用于在图数据库中存储所述知识图谱。
7.根据权利要求6所述的装置,其特征在于,所述图谱构建单元,包括:
三元组构建子单元,用于以设备和设备属性为实体,以设备属性的属性取值为实体关系,基于抽取出的各设备的设备属性以及所述设备属性的属性值,构建多个三元组,每个三元组用与表征一台设备对应的一种设备属性的属性取值;
图谱构建子单元,用于结合构建出的多个三元组搭建所述能源物资供应数据的知识图谱。
8.根据权利要求6所述的装置,其特征在于,所述属性抽取单元,包括:
属性抽取子单元,用于从所述能源物资供应数据中抽取所述设备对应的属于设定属性集的至少一个维度的设备属性,所述设定属性集中的设备属性包括:设备类型、设备电压等级、使用设备的供电公司、设备的生产厂家、设备的特征参数、设备发生过的故障、设备安装厂站以及设备安装线路;
值抽取子单元,用于针对抽取出的每个设备的每种设备属性,从所述能源物资供应数据中抽取出所述设备属性对应的属性值。
9.根据权利要求6所述的装置,其特征在于,图谱存储单元,包括:
威胁评估子单元,用于图谱存储单元在图数据库中存储所述知识图谱之前,对构建出的所述知识图谱进行威胁评估;
图像存储子单元,用于在对所述知识图谱的威胁评估通过后,在图数据库中存储所述知识图谱。
10.根据权利要求6所述的装置,其特征在于,所述威胁评估子单元,包括:
误差确定子单元,用于确定所述知识图谱的结构重构误差和属性重构误差;
结果确定子单元,用于如所述结构重构误差和属性重构误差的加权和设定阈值,则确定所述知识图谱的威胁评估通过。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111068202.6A CN113779178A (zh) | 2021-09-13 | 2021-09-13 | 基于知识图谱的数据存储方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111068202.6A CN113779178A (zh) | 2021-09-13 | 2021-09-13 | 基于知识图谱的数据存储方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779178A true CN113779178A (zh) | 2021-12-10 |
Family
ID=78843032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111068202.6A Pending CN113779178A (zh) | 2021-09-13 | 2021-09-13 | 基于知识图谱的数据存储方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779178A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860909A (zh) * | 2023-09-04 | 2023-10-10 | 宁波甬恒瑶瑶智能科技有限公司 | 基于生化知识图谱的数据存储方法、系统及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840270A (zh) * | 2018-12-23 | 2019-06-04 | 国网浙江省电力有限公司 | 一种基于Neo4j的电网设备信息管理方法 |
CN110457491A (zh) * | 2019-08-19 | 2019-11-15 | 中国农业大学 | 一种基于游离状态节点的知识图谱重构方法及装置 |
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111341456A (zh) * | 2020-02-21 | 2020-06-26 | 中南大学湘雅医院 | 糖尿病足知识图谱生成方法、装置及可读存储介质 |
KR20210000952A (ko) * | 2019-06-26 | 2021-01-06 | 주식회사 카카오 | 지식그래프 색인 방법 및 장치 |
CN112540832A (zh) * | 2020-12-24 | 2021-03-23 | 中山大学 | 一种基于知识图谱的云原生系统故障分析方法 |
CN113094516A (zh) * | 2021-04-27 | 2021-07-09 | 东南大学 | 一种基于多源数据融合的电网监控领域知识图谱构建方法 |
-
2021
- 2021-09-13 CN CN202111068202.6A patent/CN113779178A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840270A (zh) * | 2018-12-23 | 2019-06-04 | 国网浙江省电力有限公司 | 一种基于Neo4j的电网设备信息管理方法 |
KR20210000952A (ko) * | 2019-06-26 | 2021-01-06 | 주식회사 카카오 | 지식그래프 색인 방법 및 장치 |
CN110457491A (zh) * | 2019-08-19 | 2019-11-15 | 中国农业大学 | 一种基于游离状态节点的知识图谱重构方法及装置 |
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111341456A (zh) * | 2020-02-21 | 2020-06-26 | 中南大学湘雅医院 | 糖尿病足知识图谱生成方法、装置及可读存储介质 |
CN112540832A (zh) * | 2020-12-24 | 2021-03-23 | 中山大学 | 一种基于知识图谱的云原生系统故障分析方法 |
CN113094516A (zh) * | 2021-04-27 | 2021-07-09 | 东南大学 | 一种基于多源数据融合的电网监控领域知识图谱构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860909A (zh) * | 2023-09-04 | 2023-10-10 | 宁波甬恒瑶瑶智能科技有限公司 | 基于生化知识图谱的数据存储方法、系统及存储介质 |
CN116860909B (zh) * | 2023-09-04 | 2023-12-22 | 宁波甬恒瑶瑶智能科技有限公司 | 基于生化知识图谱的数据存储方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472068B (zh) | 基于异构分布式知识图谱的大数据处理方法、设备及介质 | |
CN111885040A (zh) | 分布式网络态势感知方法、系统、服务器及节点设备 | |
CN108446396B (zh) | 一种基于改进型cim模型的电力数据处理方法 | |
CN111597247A (zh) | 一种数据异常分析方法、装置及存储介质 | |
CN110781249A (zh) | 基于知识图谱的火电厂多源数据融合方法与装置 | |
CN109635119B (zh) | 一种基于本体融合的工业大数据集成系统 | |
Zhou et al. | A hybrid grey prediction model for small oscillation sequence based on information decomposition | |
CN111061679A (zh) | 一种基于rete和drools规则的科技创新政策速配的方法和系统 | |
CN112613611A (zh) | 一种基于知识图谱的税务知识库系统 | |
Chen et al. | Metadata-based information resource integration for research management | |
CN112566093A (zh) | 一种终端关系识别方法、装置、计算机设备及存储介质 | |
CN115858513A (zh) | 数据治理方法、装置、计算机设备和存储介质 | |
Tao et al. | Research on marketing management system based on independent ERP and business BI using fuzzy TOPSIS | |
CN115934856A (zh) | 一种构造综合能源数据资产的方法和系统 | |
CN113779178A (zh) | 基于知识图谱的数据存储方法和装置 | |
CN114117065A (zh) | 基于电力生产统计业务的知识图谱构建方法及系统 | |
CN112486959A (zh) | 基于图数据库技术的电网动态拓扑结构智能识别方法 | |
El Fazziki et al. | A Multi-Agent Framework for a Hadoop Based Air Quality Decision Support System. | |
Zhao et al. | Hadoop-Based Power Grid Data Quality Verification and Monitoring Method | |
CN111292201A (zh) | 一种基于Apriori和RETE的电力通信网现场运维信息推送的方法 | |
Li et al. | A study on CEP-based system status monitoring in cloud computing systems | |
CN114219089B (zh) | 一种新一代信息技术产业知识图谱的构建方法及设备 | |
CN115238099A (zh) | 一种面向能源行业设备的工业互联网数据中台构建方法 | |
CN110727532B (zh) | 一种数据修复方法、电子设备及存储介质 | |
Zhang et al. | [Retracted] Exploring Artificial Intelligence Architecture in Data Cleaning Based on Bayesian Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |