CN112347314B - 一种基于图数据库的数据资源管理系统 - Google Patents

一种基于图数据库的数据资源管理系统 Download PDF

Info

Publication number
CN112347314B
CN112347314B CN202011309170.XA CN202011309170A CN112347314B CN 112347314 B CN112347314 B CN 112347314B CN 202011309170 A CN202011309170 A CN 202011309170A CN 112347314 B CN112347314 B CN 112347314B
Authority
CN
China
Prior art keywords
data
module
entity
resource
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011309170.XA
Other languages
English (en)
Other versions
CN112347314A (zh
Inventor
王川江
陆鑫
阮秀琼
张毅琦
陈智鹏
柯华强
方国成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
Big Data Center Of State Grid Corp Of China
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China, State Grid Information and Telecommunication Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202011309170.XA priority Critical patent/CN112347314B/zh
Publication of CN112347314A publication Critical patent/CN112347314A/zh
Application granted granted Critical
Publication of CN112347314B publication Critical patent/CN112347314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于图数据库的数据资源管理系统,其技术方案包括:用于抽取公司数据资产中的实体、实体属性和实体关系的资源抽取模块;用于整合资源抽取模块抽取的异构数据并将实体进行结构对齐的资源整合模块;用于存储和访问资源的图数据库;用于进行可视化展示的应用模块。本发明通过提取公司数据并将其中的异构数据进行同构整合,使公司数据形成一个相同结构的数据库,并基于Neo4J图数据库进行搭建资源图谱库,使公司数据资源得以有效管理并且公司的工作人员及客户均可以更直观的方式访问和提取公司的数据,具有较强的实用性。

Description

一种基于图数据库的数据资源管理系统
技术领域
本发明涉及通信技术领域,具体涉及一种基于图数据库的数据资产管理系统。
背景技术
电力企业属于典型的资产密集型企业,其中公司的数据资产纷繁复杂,数据规模海量庞大、数据各式种类繁杂以及数据来源各式各样。在数据格式种类方面,除传统的结构化数据之外,还包括有文本数据、图像数据、语音数据、视频数据等半结构化数据。在数据来源方面,数据既包括内部数据,也包括来自第三方的外部数据,既包括传统业务处理采集的业务数据,也包括传感器、机器设备、网站网络、日志等技术产生的数据。数据资产呈现数据对象海量、多样、多元化等特点。
当下,数据中台技术越发普及,而业务人员会有数据使用需求,希望能够快速地获取真实、完整和规范的数据,但由于数据资源业务描述不请,数据资源存在孤岛,以及数据质量不高等原因,业务人员无法及时有效地获取资源。如何将数据资源进行整合并构造一个可以快速有效获取资源的资源库已经迫在眉睫,而且因为数据资源没法直观获取信息,因此,需要基于图数据库技术构造一个资源图谱库以及一个数据资源管理系统,使公司的数据资产可以被有效利用且业务人员可以快速、准确地获取所需数据。
发明内容
针对现有技术的不足,本发明在于提供一种基于图数据库的数据资源管理系统,可以有效管理公司的数据资产,可以使业务人员快速、准确地获取所需数据。
为实现上述目的,本发明提供了如下技术方案:一种基于图数据库的数据资源管理系统,其特征在于,包括:用于抽取公司数据资产中的实体、实体属性和实体关系的资源抽取模块;用于整合资源抽取模块抽取的异构数据并将实体进行结构对齐的资源整合模块;用于存储和访问的资源图谱库;用于进行可视化展示的应用模块;
所述资源抽取模块包括结构化数据模块和非结构化数据模块,所述结构化数据模块和非结构化数据模块中均设有实体抽取、属性抽取和关系抽取功能,所述结构化数据模块基于规则的关系抽取方法,对数据资产中的结构化类型的数据和存储数据的表结构进行分析,通过表主外键等信息获取结构化数据的实体及其属性、关系;所述非结构化数据模块抽取实体以及实体的属性,并基于机器学习的算法,通过搭建人工神经网络模型对数据资产中的非结构化类型的数据进行数据分析并推算异构数据的实体关系;
所述资源整合模块包括结构化数据整合模块和非结构化数据整合模块,其中结构化数据整合模块整合结构化数据模块处理后的实体;其中非结构化数据整理模块通过搭建深度学习模型,对非结构化类型的数据进行数据挖掘,然后将数据实体从不同的结构中抽离,并与结构化数据整合模块处理后的实体整合为相同结构;
所述资源图谱库基于Neo4J图数据库构建,具有存储引擎和访问引擎,资源图谱库设置为立体网状结构,其中经资源整合模块处理后的实体为节点,其中经资源抽取模块抽取后的实体关系为关系,其中经资源抽取模块抽取后的实体属性为属性;
所述应用模块包括推理模块、推荐模块、统计模块和搜索模块,搜索模块基于资源图谱库并结合网络算法,可以在查询资源图谱库中的实体时,获得以该实体节点为中心的资源子图;统计模块对用户的查询记录进行统计;推理模块基于机器学习,通过算法对用户的查询的实体特征进行类推,然后筛选出最佳搜索结果;推荐模块基于机器学习,推算出用户偏好的实体类型并推荐给用户。
优选地,资源图谱库中由资源整合模块整合后的数据存储在若干服务器中并根据整合分类设有相应的电子标签。
优选地,所述服务器均设有监控系统。
优选地,所述资源图谱库中的实体会标注来源和收集方式,且用户使用搜索模块搜索实体时也会将实体的来源和收集方式展示给用户。
与现有技术相比,本发明提供了一种基于图数据库的数据资源管理系统,具有以下有益效果:可以对结构化和非结构化的数据进行实体、属性和关系的提取;可以进行异构数据的整合,实现实体消岐和实体对齐;资源图谱库可以更加直观地展示数据并访问提取数据;可以使用户直接访问搜索数据库,且因为是图的形式,且搜索结果是以用户搜索的实体为中心的资源子图,可以直观地展示实体以及实体在数据库中的位置、关系;又通过展示实体的来源和收集方式,使用户更清楚实体的血缘关系;通过在应用模块中设置推理模块、推荐模块和统计模块,进一步提高了用户的体验效果;通过本发明可以合理配置和有效利用数据资产,提高数据资产带来的经济效益,保障和促进各项事业的发展。
附图说明
图1是本发明数据资源管理系统的结构图;
图2是本发明资源图谱库结构图;
图3是本发明搜索模块搜索结果展示图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及其具体实施方式对本发明进行详细说明。
如图1-图3所示,一种基于图数据库的数据资源管理系统,包括:用于抽取公司数据资产中的实体、实体属性和实体关系的资源抽取模块;用于整合资源抽取模块抽取的异构数据并将实体进行结构对齐的资源整合模块;用于存储和访问的资源图谱库;用于进行可视化展示的应用模块。
资源抽取模块包括结构化数据模块和非结构化数据模块,所述结构化数据模块和非结构化数据模块中均设有实体抽取、属性抽取和关系抽取功能,所述结构化数据模块基于规则的关系抽取方法,对数据资产中的结构化类型的数据和存储数据的表结构进行分析,通过表主外键等信息获取结构化数据的实体及其属性、关系;所述非结构化数据模块抽取实体以及实体的属性,并基于机器学习的算法,通过搭建人工神经网络模型对数据资产中的非结构化类型的数据进行数据分析并推算异构数据的实体关系。
其中搭建人工神经网络模型时,需要先建立机器学习所需的虚拟环境,再导入训练数据先进行一定周期的训练,根据训练完的结果构建机器学习模型,这里用的是人工神经网络模型,模拟人工神经网络来对实体之间的关系进行分析推导。
资源整合模块包括结构化数据整合模块和非结构化数据整合模块,其中结构化数据整合模块整合结构化数据模块处理后的实体;其中非结构化数据整理模块通过搭建深度学习模型,对非结构化类型的数据进行数据挖掘,然后将数据实体从不同的结构中抽离,并与结构化数据整合模块处理后的实体整合为相同结构。
通过人工神经网络模型将实体关系推导出之后,再建立深度学习模型进行数据挖掘,然后通过已经推导保存的关系来将之前的异构数据和同构数据整合成相同结构的同构化数据。
资源图谱库基于Neo4J图数据库构建,具有存储引擎和访问引擎,资源图谱库设置为立体网状结构,其中经资源整合模块处理后的实体为节点,其中经资源抽取模块抽取后的实体关系为关系,其中经资源抽取模块抽取后的实体属性为属性。
其中Neo4J图数据库是一种嵌入式的,基于磁盘的,支持完整事务的Java持久化引擎,它在图或网络中存储数据而不是在表中。Neo4J提供了大规模可扩展性,在一台机器上可以处理数十亿节点的图,可以扩展到多台机器并行运行,Neo4J可以解决传统RDBMS在查询时出现的性能衰退问题,通过围绕图进行数据建模,以相同的速度遍历节点与边,Neo4J的遍历速度与构成图的数据量没有任何关系,同时,Neo4J还提供了非常快的图算法,可以支持更快的图像处理运行。
资源图谱库中由资源整合模块整合后的数据存储在若干服务器中并根据整合分类设有相应的电子标签,并且设有特定的用于存储资源图谱库数据的服务器房,然后每个服务器的前端均贴有用于标注分类的工牌标签。
所述服务器均设有监控系统,在服务器网络中设有加密单元,并且在放置服务器的房间内设有相机,相机获取监控区域的图像数据并通过对图像数据进行加密来将图像数据发送到监控服务器,监控服务器和相机之间通过内部网络连接。
应用模块包括推理模块、推荐模块、统计模块和搜索模块,搜索模块基于资源图谱库并结合网络算法,可以在查询资源图谱库中的实体时,获得以该实体节点为中心的资源子图;统计模块对用户的查询记录进行统计;推理模块基于机器学习,通过算法对用户的查询的实体特征进行类推,然后筛选出最佳搜索结果;推荐模块基于机器学习,推算出用户偏好的实体类型并推荐给用户。
所述资源图谱库中的实体会标注来源和收集方式,且用户使用搜索模块搜索实体时也会将实体的来源和收集方式展示给用户,实体的来源包括人员和设备,收集方式包括人员直接输入、设备直接采集和间接从其他企业单位获取。
以上所述仅为本发明的较佳实施例,并不用于限制本发明,凡在本发明的设计构思之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于图数据库的数据资源管理系统,其特征在于,包括:用于抽取公司数据资产中的实体、实体属性和实体关系的资源抽取模块;用于整合资源抽取模块抽取的异构数据并将实体进行结构对齐的资源整合模块;用于存储和访问的资源图谱库;用于进行可视化展示的应用模块;
所述资源抽取模块包括结构化数据模块和非结构化数据模块,所述结构化数据模块和非结构化数据模块中均设有实体抽取、属性抽取和关系抽取功能,所述结构化数据模块基于规则的关系抽取方法,对数据资产中的结构化类型的数据和存储数据的表结构进行分析,通过表主外键信息获取结构化数据的实体及其属性、关系;所述非结构化数据模块抽取实体以及实体的属性,并基于机器学习的算法,通过搭建人工神经网络模型对数据资产中的非结构化类型的数据进行数据分析并推算异构数据的实体关系;
所述资源整合模块包括结构化数据整合模块和非结构化数据整合模块,其中结构化数据整合模块整合结构化数据模块处理后的实体;其中非结构化数据整理模块通过搭建深度学习模型,对非结构化类型的数据进行数据挖掘,然后将数据实体从不同的结构中抽离,并与结构化数据整合模块处理后的实体整合为相同结构;
所述资源图谱库基于Neo4J图数据库构建,具有存储引擎和访问引擎,资源图谱库设置为立体网状结构,其中经资源整合模块处理后的实体为节点,其中经资源抽取模块抽取后的实体关系为关系,其中经资源抽取模块抽取后的实体属性为属性;
所述应用模块包括推理模块、推荐模块、统计模块和搜索模块,搜索模块基于资源图谱库并结合网络算法,可以在查询资源图谱库中的实体时,获得以该实体节点为中心的资源子图;统计模块对用户的查询记录进行统计;推理模块基于机器学习,通过算法对用户的查询的实体特征进行类推,然后筛选出最佳搜索结果;推荐模块基于机器学习,推算出用户偏好的实体类型并推荐给用户;
资源图谱库中由资源整合模块整合后的数据存储在若干服务器中并根据整合分类设有相应的电子标签,并且设有特定的用于存储资源图谱库数据的服务器房,然后每个服务器的前端均贴有用于标注分类的工牌标签;
所述服务器均设有监控系统,在服务器网络中设有加密单元,并且在放置服务器的房间内设有相机,相机获取监控区域的图像数据并通过对图像数据进行加密来将图像数据发送到监控服务器,监控服务器和相机之间通过内部网络连接;
所述资源图谱库中的实体会标注来源和收集方式,且用户使用搜索模块搜索实体时也会将实体的来源和收集方式展示给用户,实体的来源包括人员和设备,收集方式包括人员直接输入、设备直接采集和间接从其他企业单位获取。
CN202011309170.XA 2020-11-20 2020-11-20 一种基于图数据库的数据资源管理系统 Active CN112347314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011309170.XA CN112347314B (zh) 2020-11-20 2020-11-20 一种基于图数据库的数据资源管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011309170.XA CN112347314B (zh) 2020-11-20 2020-11-20 一种基于图数据库的数据资源管理系统

Publications (2)

Publication Number Publication Date
CN112347314A CN112347314A (zh) 2021-02-09
CN112347314B true CN112347314B (zh) 2023-04-14

Family

ID=74364467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011309170.XA Active CN112347314B (zh) 2020-11-20 2020-11-20 一种基于图数据库的数据资源管理系统

Country Status (1)

Country Link
CN (1) CN112347314B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553446B (zh) * 2021-07-28 2022-05-24 厦门国际银行股份有限公司 一种基于异构图解构的金融反欺诈方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840270A (zh) * 2018-12-23 2019-06-04 国网浙江省电力有限公司 一种基于Neo4j的电网设备信息管理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803394B2 (en) * 2018-03-16 2020-10-13 Accenture Global Solutions Limited Integrated monitoring and communications system using knowledge graph based explanatory equipment management
CN111353013A (zh) * 2018-12-05 2020-06-30 中兴通讯股份有限公司 一种智能投顾的实现方法及系统
CN110910243B (zh) * 2019-09-26 2020-07-10 山东佳联电子商务有限公司 一种基于可重构大数据知识图谱技术的产权交易方法
CN111159249A (zh) * 2019-12-13 2020-05-15 深圳市唯特视科技有限公司 基于知识图谱的目标识别方法、装置、系统、存储介质
CN111753098A (zh) * 2020-06-23 2020-10-09 陕西师范大学 一种基于跨媒体动态知识图谱的教学方法及系统
CN111930784B (zh) * 2020-07-23 2022-08-09 南京南瑞信息通信科技有限公司 一种电网知识图谱构建方法及其系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840270A (zh) * 2018-12-23 2019-06-04 国网浙江省电力有限公司 一种基于Neo4j的电网设备信息管理方法

Also Published As

Publication number Publication date
CN112347314A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN110765337B (zh) 一种基于互联网大数据的服务提供方法
CN110275898B (zh) 使用基于知识图的解释性设备管理的集成监控与通信系统
CN111159191B (zh) 一种数据处理方法、装置和界面
CN106778253A (zh) 基于大数据的威胁情景感知信息安全主动防御模型
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
CN105809314A (zh) 一种资产管理方法及系统
CN110750650A (zh) 企业知识图谱的构建方法及装置
CN109254901B (zh) 一种指标监测方法及系统
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN102270225A (zh) 数据变更日志监控方法和数据变更日志监控装置
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN112182077B (zh) 一种基于数据中台技术的智能运维系统
Roth et al. Event data warehousing for complex event processing
CN111858713A (zh) 基于对象的政府信息化资产管理方法及系统
Ding et al. Massive heterogeneous sensor data management in the Internet of Things
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN112347314B (zh) 一种基于图数据库的数据资源管理系统
CN113779261B (zh) 知识图谱的质量评价方法、装置、计算机设备及存储介质
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN117251414A (zh) 一种基于异构技术的数据存储及处理方法
CN115168474B (zh) 一种基于大数据模型的物联中台系统搭建方法
CN110019237B (zh) 一种基于地图分析罪犯行踪的系统及方法
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
Zhang et al. Application of data mining technology based on data center
CN104660428B (zh) 一种性能数据的管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant