CN109815230A - 一种基于知识图谱的全业务数据中心数据审计方法 - Google Patents

一种基于知识图谱的全业务数据中心数据审计方法 Download PDF

Info

Publication number
CN109815230A
CN109815230A CN201811576888.8A CN201811576888A CN109815230A CN 109815230 A CN109815230 A CN 109815230A CN 201811576888 A CN201811576888 A CN 201811576888A CN 109815230 A CN109815230 A CN 109815230A
Authority
CN
China
Prior art keywords
data
full
map
service
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811576888.8A
Other languages
English (en)
Inventor
王志强
李继红
江樱
樊华
强劲
刘宏
陈清萍
姚一杨
华召云
唐双红
缪广忠
褚大可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Xian Jiaotong University
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
NARI Group Corp
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Xian Jiaotong University
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Xian Jiaotong University, Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd, NARI Group Corp filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN201811576888.8A priority Critical patent/CN109815230A/zh
Publication of CN109815230A publication Critical patent/CN109815230A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提出了一种基于知识图谱的全业务数据中心数据审计方法,包括对全业务统一数据中心的表结构以及数据结构进行梳理操作,对全业务统一数据中心中结构完全一致的表进行处理,根据表中的结构名称形成对应关系;根据已形成的对应关系,建立图数据库物理结构,将对应关系导入图数据库形成数据存储结构;构建针对图谱的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别;以图数据库数据存储结构为依托,在数据图谱上对于异常的数据实体和关系进行标识。通过对匹配方法的应用,来达到源业务系统数据图谱与MPP层数据图谱的匹配融合,最终实现数据一致性、完整性的审计验证。

Description

一种基于知识图谱的全业务数据中心数据审计方法
技术领域
本申请属于数据处理领域,尤其涉及一种基于知识图谱的全业务数据中心数据审计方法。
背景技术
随着公司信息化建设和应用不断深入,信息系统所产生的数据已成为公司重要资产,公司经营管理和业务模式创新对数据资源深度应用也提出了新的要求,因此如何解决“对各业务系统产生的数据进行统一的管理和应用、消除数据重复存储、提高数据质量”等问题。
国网信通部组织开展了“全业务统一数据中心”总体设计工作,于2016年4月完成了全业务统一数据中心总体建设方案,并通过国网公司网络安全与信息化领导小组会审议,之后全面开展相关设计和建设工作。2016年12月完成设计细化及三家试点单位分析域建设。于2018年初初步建成全业务统一数据中心分析域,实现了数业务全量数据接入、清洗转换和统一分析服务实施场景建设工作,但是随着大批量数据的接入,数据质量的保证是当前所面临的严峻考验。
现有的数据对比工具对于数据量较大的表存在数据获取时间长,对比时间长等问题,且无法验证源端业务系统和MPP层数据一致性。
发明内容
为了解决现有技术中存在的缺点和不足,本申请提出了一种基于知识图谱的全业务数据中心数据审计方法,所述数据审计方法,包括:
对全业务统一数据中心的表结构以及数据结构进行梳理操作,对全业务统一数据中心中结构完全一致的表进行处理,根据表中的结构名称形成对应关系;
根据已形成的对应关系,建立图数据库物理结构,将对应关系导入图数据库形成数据存储结构;
构建针对图谱的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别;
以图数据库数据存储结构为依托,在数据图谱上对于异常的数据实体和关系进行标识。
可选的,所述对全业务统一数据中心的表结构以及数据结构进行梳理操作,对全业务统一数据中心中结构完全一致的表进行处理,根据表中的结构名称形成对应关系,包括:
梳理全业务统一数据中心MPP层模型表结构及数据结构,梳理对应的源业务系统表结构及数据;
梳理全业务统一数据中心MPP层模型表结构与对应源业务系统表结构完全一致的表形成对应关系。
可选的,所述构建针对图谱的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别,包括:
应用机器学习技术,实现图谱中各数据实体的特征向量,构建两图谱之间的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别。
可选的,所述以图数据库数据存储结构为依托,在数据图谱上对于异常的数据实体和关系进行标识,包括:
以图数据库数据存储结构为依托,在数据图谱上直观的对于异常的数据实体和关系进行不同颜色的标识;
在根据图谱中的业务实体层级和关联关系,动态进行异常业务实体信息的关联查看及异常明细数据的钻取查看,以可视化的方式动态、便捷、直观的实现对异常数据的展现查看。
本申请提供的技术方案带来的有益效果是:
通过对匹配方法的应用,来达到源业务系统数据图谱与MPP层数据图谱的匹配融合,最终实现数据一致性、完整性的审计验证。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提出了一种基于知识图谱的全业务数据中心数据审计方法的流程示意图。
具体实施方式
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
实施例一
本申请提出了一种基于知识图谱的全业务数据中心数据审计方法,如图1所示,所述数据审计方法,包括:
11、对全业务统一数据中心的表结构以及数据结构进行梳理操作,对全业务统一数据中心中结构完全一致的表进行处理,根据表中的结构名称形成对应关系;
12、根据已形成的对应关系,建立图数据库物理结构,将对应关系导入图数据库形成数据存储结构;
13、构建针对图谱的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别;
14、以图数据库数据存储结构为依托,在数据图谱上对于异常的数据实体和关系进行标识。
在实施中,本申请目的是基于全业务统一数据中心MPP层和源端业务系统的表结构及数据,利用知识图谱、大数据特点构建源端数据模型和MPP层数据模型,通过数据关系和业务关系的展现实现数据一致性和表结构一致性的核查,把结果可视化展示出来。
步骤11具体包括:
111、梳理全业务统一数据中心MPP层模型表结构及数据结构,梳理对应的源业务系统表结构及数据;
112、梳理全业务统一数据中心MPP层模型表结构与对应源业务系统表结构完全一致的表形成对应关系。
步骤13具体包括:
应用机器学习技术,实现图谱中各数据实体的特征向量,构建两图谱之间的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别。
步骤14包括:
以图数据库数据存储结构为依托,在数据图谱上直观的对于异常的数据实体和关系进行不同颜色的标识;
在根据图谱中的业务实体层级和关联关系,动态进行异常业务实体信息的关联查看及异常明细数据的钻取查看,以可视化的方式动态、便捷、直观的实现对异常数据的展现查看。
本申请提出了一种基于知识图谱的全业务数据中心数据审计方法包含以下功能点:
数据模型梳理:梳理表结构及数据结构,包含源业务系统、MPP层数据库表结构及数据结构;
数据关系识别:由于MPP层是按照SG-CIM模型创建的数据表,与源业务系统的表有部分出入,因此需要梳理表关系,梳理主键关系等;
模型图谱构建:识别清楚源端与MPP层表关系及数据关系后,利用图数据库实现完成数据导入,生成相关的数据图谱;
数据核查校验:基于构建的数据图谱,应用机器学习技术,实现图谱中各数据实体的特征向量,构建两图谱之间的对比模型,实现数据一致性对比;
结果可视化展示:以图数据库数据存储结构为依托,在数据图谱上直观的对于异常的数据和关系进行不同颜色的标识,便于直观、便捷的查看到具体的异常点。
通过应用机器学习技术,实现图谱中各数据实体的特征向量,构建两图谱之间的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别方法。通过对匹配方法的应用,来达到源业务系统数据图谱与MPP层数据图谱的匹配融合,最终实现数据一致性、完整性的审计验证。放弃了原始对比工具利用常规数据库进行数据对比的方式,改用知识图谱技术,利用图数据库生成数据图普,完成数据融合匹配;本申请利用机器学习技术,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别方法,对比过程更快,结果更准确。
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (4)

1.一种基于知识图谱的全业务数据中心数据审计方法,其特征在于,所述数据审计方法,包括:
对全业务统一数据中心的表结构以及数据结构进行梳理操作,对全业务统一数据中心中结构完全一致的表进行处理,根据表中的结构名称形成对应关系;
根据已形成的对应关系,建立图数据库物理结构,将对应关系导入图数据库形成数据存储结构;
构建针对图谱的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别;
以图数据库数据存储结构为依托,在数据图谱上对于异常的数据实体和关系进行标识。
2.根据权利要求1所述的基于知识图谱的全业务数据中心数据审计方法,其特征在于,所述对全业务统一数据中心的表结构以及数据结构进行梳理操作,对全业务统一数据中心中结构完全一致的表进行处理,根据表中的结构名称形成对应关系,包括:
梳理全业务统一数据中心MPP层模型表结构及数据结构,梳理对应的源业务系统表结构及数据;
梳理全业务统一数据中心MPP层模型表结构与对应源业务系统表结构完全一致的表形成对应关系。
3.根据权利要求1所述的基于知识图谱的全业务数据中心数据审计方法,其特征在于,所述构建针对图谱的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别,包括:
应用机器学习技术,实现图谱中各数据实体的特征向量,构建两图谱之间的对比模型,实现源业务系统和MPP层数据实体及相邻数据实体特征向量的对比识别。
4.根据权利要求1所述的基于知识图谱的全业务数据中心数据审计方法,其特征在于,所述以图数据库数据存储结构为依托,在数据图谱上对于异常的数据实体和关系进行标识,包括:
以图数据库数据存储结构为依托,在数据图谱上直观的对于异常的数据实体和关系进行不同颜色的标识;
在根据图谱中的业务实体层级和关联关系,动态进行异常业务实体信息的关联查看及异常明细数据的钻取查看,以可视化的方式动态、便捷、直观的实现对异常数据的展现查看。
CN201811576888.8A 2018-12-23 2018-12-23 一种基于知识图谱的全业务数据中心数据审计方法 Pending CN109815230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811576888.8A CN109815230A (zh) 2018-12-23 2018-12-23 一种基于知识图谱的全业务数据中心数据审计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811576888.8A CN109815230A (zh) 2018-12-23 2018-12-23 一种基于知识图谱的全业务数据中心数据审计方法

Publications (1)

Publication Number Publication Date
CN109815230A true CN109815230A (zh) 2019-05-28

Family

ID=66602351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811576888.8A Pending CN109815230A (zh) 2018-12-23 2018-12-23 一种基于知识图谱的全业务数据中心数据审计方法

Country Status (1)

Country Link
CN (1) CN109815230A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209713A (zh) * 2019-06-26 2019-09-06 国家电网有限公司 异常网架结构识别方法及装置
CN112214609A (zh) * 2020-09-24 2021-01-12 远光软件股份有限公司 一种基于知识图谱的审计方法和系统
CN112491636A (zh) * 2019-09-11 2021-03-12 华为技术有限公司 数据处理方法及装置、计算机存储介质
CN112651226A (zh) * 2020-09-21 2021-04-13 深圳前海黑顿科技有限公司 基于依存句法树的知识解析系统及方法
WO2022105139A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 数据库的数据对象关系图谱生成方法、装置、设备及介质
CN114971140A (zh) * 2022-03-03 2022-08-30 北京计算机技术及应用研究所 一种面向数据交换的业务数据质量评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270153A1 (en) * 2016-03-16 2017-09-21 Linkedin Corporation Real-time incremental data audits
CN107944036A (zh) * 2017-12-13 2018-04-20 美林数据技术股份有限公司 一种图谱变化差异的获取方法
CN108090165A (zh) * 2017-12-13 2018-05-29 美林数据技术股份有限公司 一种基于嵌入式图数据库的图谱变化差异的获取方法
CN108228740A (zh) * 2017-12-15 2018-06-29 国网青海省电力公司信息通信公司 电力全业务统一数据中心数据分析域数据比对工具

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270153A1 (en) * 2016-03-16 2017-09-21 Linkedin Corporation Real-time incremental data audits
CN107944036A (zh) * 2017-12-13 2018-04-20 美林数据技术股份有限公司 一种图谱变化差异的获取方法
CN108090165A (zh) * 2017-12-13 2018-05-29 美林数据技术股份有限公司 一种基于嵌入式图数据库的图谱变化差异的获取方法
CN108228740A (zh) * 2017-12-15 2018-06-29 国网青海省电力公司信息通信公司 电力全业务统一数据中心数据分析域数据比对工具

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨华飞: "基于全业务数据中心分析域实现数据资源统一汇聚及共享的方法及研究", 《电子技术应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209713A (zh) * 2019-06-26 2019-09-06 国家电网有限公司 异常网架结构识别方法及装置
CN112491636A (zh) * 2019-09-11 2021-03-12 华为技术有限公司 数据处理方法及装置、计算机存储介质
CN112491636B (zh) * 2019-09-11 2023-04-18 华为技术有限公司 数据处理方法及装置、计算机存储介质
US12015519B2 (en) 2019-09-11 2024-06-18 Huawei Technologies Co., Ltd. Data processing method and apparatus, and computer storage medium
CN112651226A (zh) * 2020-09-21 2021-04-13 深圳前海黑顿科技有限公司 基于依存句法树的知识解析系统及方法
CN112651226B (zh) * 2020-09-21 2022-03-29 深圳前海黑顿科技有限公司 基于依存句法树的知识解析系统及方法
CN112214609A (zh) * 2020-09-24 2021-01-12 远光软件股份有限公司 一种基于知识图谱的审计方法和系统
CN112214609B (zh) * 2020-09-24 2023-10-03 远光软件股份有限公司 一种基于知识图谱的审计方法和系统
WO2022105139A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 数据库的数据对象关系图谱生成方法、装置、设备及介质
CN114971140A (zh) * 2022-03-03 2022-08-30 北京计算机技术及应用研究所 一种面向数据交换的业务数据质量评估方法

Similar Documents

Publication Publication Date Title
CN109815230A (zh) 一种基于知识图谱的全业务数据中心数据审计方法
Wang et al. Influence of demographic factors and ownership type upon organizational learning culture in Chinese enterprises
Jöhnk et al. How to implement agile IT setups: A taxonomy of design options
CN104063314B (zh) 一种测试数据自动生成装置及方法
CN107665421A (zh) 单据审批方法、装置、存储介质和计算机设备
CN103678590B (zh) 基于olap的报表采集装置和报表采集方法
DE112019004390T5 (de) Sichere mehrparteienerfassung von sensiblen daten unter verwendung von private set intersection (psi)
DE112016003626T5 (de) Natürlichsprachliche Schnittstelle zu Datenbanken
DE112019002235T5 (de) Einbinden eines wörterbuch-bearbeitungssystems in ein text mining
CN103294966B (zh) 一种数据库的安全访问控制方法以及系统
CN109446104A (zh) 一种基于大数据的测试用例管理方法及装置
CN109660366A (zh) 混合云计费方法及系统
CN106971260A (zh) “多规合一”“一张图”规划编制成果检查方法及装置
CN107622376A (zh) 一种建筑行业人力资源管理方法
Valentini Political public relations in the European Union: EU reputation and relationship management under scrutiny
CN206497498U (zh) 一种基于企业征信业务的信用评级信息数据集成系统
CN113377882B (zh) 一种互联网组织内及组织间关系模型实现方法
CN107871055A (zh) 一种数据分析方法和装置
CN102904963A (zh) 一种基于云模型云服务的管理方法及系统
Maulana et al. Smart city development innovation strategy and challenges for the government of Jember regency
CN107239572A (zh) 一种存储管理软件的数据缓存方法及装置
Fahmideh et al. IoT smart city architectures: An analytical evaluation
Schmidt et al. Identifying the Giants: A Social Network Analysis of the Literature on Information Technology Outsourcing Relationships.
CN110427352A (zh) 一种基于r2rml标准的数据自定义映射方法
CN107423907A (zh) 一种基于低功耗蓝牙技术的商业智能系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528

RJ01 Rejection of invention patent application after publication