CN111475490A - 一种数据目录体系的数据管理系统和方法 - Google Patents
一种数据目录体系的数据管理系统和方法 Download PDFInfo
- Publication number
- CN111475490A CN111475490A CN202010347052.1A CN202010347052A CN111475490A CN 111475490 A CN111475490 A CN 111475490A CN 202010347052 A CN202010347052 A CN 202010347052A CN 111475490 A CN111475490 A CN 111475490A
- Authority
- CN
- China
- Prior art keywords
- data
- source
- management
- service
- directory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013523 data management Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000007726 management method Methods 0.000 claims abstract description 52
- 238000013500 data storage Methods 0.000 claims abstract description 19
- 238000000547 structure data Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 42
- 230000008859 change Effects 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 claims description 8
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 239000010453 quartz Substances 0.000 claims description 4
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 12
- 238000012550 audit Methods 0.000 abstract description 3
- 238000012423 maintenance Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 241000353097 Molva molva Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据目录体系的数据管理系统,包括源端数据层、数据存储层、数据管理服务层;源端数据层包括若干在运业务系统,且以在运业务系统的数据结构数据为源数据,并将源数据推送至数据存储层;数据存储层包括从源端数据层抽取的源数据,以及根据业务需求添加的多种数据;数据管理服务层提供多种功能,以实现对源端数据层的在运业务系统的信息数据的统一管理。基于此系统的数据管理方法提升了数据库表、字段信息的可读性和可用性,实现了数据的快捷查询、定位,可以为数字化审计平台、财务管控等应用场景建设提供数据标准支撑,为泛在电力物联网建设打下了良好的数据服务基础,实现了数据共享,充分发挥了数据价值。
Description
技术领域
本发明涉及数据资源管理技术领域,具体来说,涉及一种数据目录体系的数据管理系统和方法。
背景技术
2019年国家电网公司两会做出全面推进三型两网建设,加快打造具有全球竞争力的世界一流能源互联网企业的战略部署。三型两网是网络强国战略在公司的具体实践,是落实中央部署、发挥央企带头作用的重要举措,是适应内外部形势和挑战的必然要求。泛在电力物联网建设是落实公司“三型两网,世界一流”战略部署的核心任务,数据管理是推进泛在电力物联网建设的重要内容,贯穿泛在电力物联网建设应用的各个环节。
长期以来,河南公司围绕数据治理考核指标,从数据运维、数据标准、共享融合、常态支撑等方面持续开展企业级数据治理专项提升工作,针对性强但不够全面,依然存在数据一致性、及时性、完整性、准确性等各种数据质量问题,导致公司管理成本的增加。同时,随着全业务统一数据中心的建设以及跨业务、跨系统的大数据应用需求增加,数据问题日益凸显,主要表现在数据责任划分不明确,缺乏溯源机制,缺乏有效的数据共享开放管理等方面。
2019年国网互联网部下发《关于加强数据管理的通知》、《国网互联网部关于进一步做好数据盘点及成果在线管理的通知》,要求公司各单位充分发挥积极性、主动性、协同配合,形成合力,共同推动数据管理工作,形成跨部门、跨专业、跨领域一体化数据资源体系,推进数据汇集融合共享的要求,遵循“盘、规、治、用”的总体工作思路,坚持“统一管理、夯实基础、服务应用、持续完善”的工作原则,加快构建公司数据管理体系,使分散、孤立的数据成为汇集、共享的数据。
发明内容
针对相关技术中的上述技术问题,本发明提出一种数据目录体系的数据管理系统和方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于数据目录体系的数据管理系统,包括源端数据层、数据存储层、数据管理服务层;其中,所述源端数据层包括若干在运业务系统,且以所述在运业务系统的数据结构数据为源数据,并将源数据推送至所述数据存储层;所述数据存储层包括从所述源端数据层抽取的源数据,以及根据业务需求添加的多种数据;所述数据管理服务层提供多种功能,以实现对所述源端数据层的在运业务系统的信息数据的统一管理。
进一步的,所述源端数据层中的在运业务系统包括公司营销系统、PMS系统、财务管控系统和ERP系统。
进一步的,所述在运业务系统通过实时抽取和定时抽取两种方式将源数据推送至所述数据存储层。
其中,所述实时抽取是通过JDBC直连源端数据库实时抽取;所述定时抽取是通过Quartz定时任务调度定时抽取。
进一步的,所述数据管理服务层提供的功能包括整体数据情况展示、各源端系统数据情况展示、表热度排行榜展示、数据目录与业务表关联展示、数据表字段及关联关系可视化、负面清单添加及审批服务、跨专业数据使用在线申请服务。
本发明还提供了一种数据目录体系的数据管理方法,包括如下步骤:
S1:通过实时抽取和定时抽取两种方式抽取各在运业务系统的数据库表结构信息,对其进行梳理和补充,实时监控各在运业务系统的数据结构变动,并进行动态同步更新;
S2:根据各在运业务系统前台功能模块与后台数据库表的对应关系,形成数据资源目录,以支撑业务人员快速查询、定位和应用数据;
S3:根据相关法律法规和规章制度,确定负面清单,并建立负面清单管理流程;
S4:开发数据管理系统,支撑数据盘点工作,最终形成在线集中管理、动态更新、统一发布、共享使用的数据管理体系;
S5:根据步骤S4中的数据管理体系,支撑数据目录体系落地;
S6:通过对外开放数据管理系统,基于数据目录体系,实现对各种数据的管理。
进一步的,所述步骤S1中,定时抽取各在运业务系统的数据库表结构信息的步骤如下:
S11:设定定时抽取的时间间隔为T,即每隔时间T抽取一次全量数据;
S12:获取同步时间,即抽取全量数据的时间与上一次全量数据对比时间之和;
S13:若上一次更新时间点为t0,则本次更新时间点为t0+T,上一次同步的结束时间为t0+e,若本次更新时间点t0+T小于上次同步的结束时间t0+e,则放弃本次更新,等待下一个更新时间点t0+2T再同步数据;
S14:若本次更新时间点t0+T大于上次同步的结束时间t0+e,则在进行该时间段内数据抽取和同步更新操作后,判断此次操作是否成功,成功置1为成功标识,否则置0为失败标识,并在更新表中记录操作;
S15:通过上一次更新时间点t0和本次更新时间点t0+T的数据结构比对,获得源端表结构的变化情况。
进一步的,所述步骤S2中,形成数据资源目录的步骤如下:
S21:筛选有效业务表;对抽取的源端各在运业务系统的数据表进行分类,通过一些通用的判断规则,过滤掉无效业务表,筛选出有效业务表;
S22:梳理数据目录和有效业务表的对应关系;根据各在运业务系统的前台功能模块,找到后台与之相对应的数据库业务表;
S23:建立数据目录与有效业务表的关联;根据步骤S21中筛选出的有效业务表,并结合数据目录和有效业务表的对应关系,建立数据目录与有效业务表之间的关联关系,完成目录与业务表之间的挂接。
进一步的,所述步骤S3中,通过精准匹配和同义词匹配两种匹配方式来确定负面清单。
其中,精准匹配为根据获取的负面清单数据项,对有效业务表的字段的中文名进行搜索,匹配成功则归为负面清单;同义词匹配为先用敏感数据项的同义词替换,再进行精准匹配,得到的匹配结果由业务部门进行审批。
本发明的有益效果:本发明提出的数据目录体系的数据管理系统和方法,提升了数据库表、字段信息的可读性和可用性,实现了数据的快捷查询、定位,同时,通过发布核心业务系统数据目录,可以确定数据维护责任部门,并且可以为数字化审计平台、财务多维精益等应用场景建设提供数据标准支撑,为泛在电力物联网建设打下了良好的数据服务基础,实现了数据共享,充分发挥了数据价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的数据目录体系的数据管理系统的系统架构图;
图2是根据本发明实施例所述的数据目录体系的数据管理方法中定时抽取业务系统的数据库表结构信息的更新流程图;
图3是根据本发明实施例所述的数据目录体系的数据管理方法中定时抽取业务系统的数据库表结构信息的同步更新图;
图4是根据本发明实施例所述的数据目录体系的数据管理方法中建立负面清单的工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种基于数据目录体系的数据管理系统,包括源端数据层、数据存储层、数据管理服务层;其中,
源端数据层包括若干在运业务系统,且以在运业务系统的数据结构数据为源数据,通过指定的只读权限账号和源端数据库连接信息,将源数据推送至数据存储层;
数据存储层包括从源端数据层抽取的源数据,以及根据业务需求添加的多种数据;
数据管理服务层提供多种功能,通过分类、统计、分析存储层的数据,以实现对源端数据层的在运业务系统的信息数据的统一管理。
在一具体实施例中,源端数据层中的在运业务系统包括公司营销系统、PMS系统、财务管控系统和ERP系统。
在一具体实施例中,根据源端数据库的数据量、更新频率、服务器性能等因素,在运业务系统选择实时抽取和定时抽取两种方式将源数据推送至所述数据存储层。
优选的,实时抽取是通过JDBC直连源端数据库实时抽取;所述定时抽取是通过Quartz定时任务调度定时抽取。
在一具体实施例中,数据存储层从源端数据层抽取的源数据包括英文表名、中文表名、表业务含义、字段数量、表记录数量、英文字段名、中文字段名、字段业务含义、主键信息、字段类型、字段默认值等信息。
在一具体实施例中,数据存储层中根据业务需求添加的数据包括源端表和前台功能模块的对应关系、数据表之间的关联关系、可以手工维护的中文表名和中文字段名,以及可以通过上传Excel的方式维护的上传中文表名和中文字段名,另外还包括根据数据的机密程度、重要程度及访问频繁程度设计了相应的数据库字段。
在一具体实施例中,数据管理服务层提供的功能包括整体数据情况展示、各源端系统数据情况展示、表热度排行榜展示、数据目录与业务表关联展示、数据表字段及关联关系可视化、负面清单添加及审批服务、跨专业数据使用在线申请服务。
本发明还提供了一种数据目录体系的数据管理方法,包括如下步骤:
S1:通过实时抽取和定时抽取两种方式抽取各在运业务系统的数据库表结构信息,对其进行梳理和补充,实时监控各在运业务系统的数据结构变动,并进行动态同步更新;
S2:根据各在运业务系统前台功能模块与后台数据库表的对应关系,形成数据资源目录,以支撑业务人员快速查询、定位和应用数据;
S3:根据相关法律法规和规章制度,确定负面清单,并建立负面清单管理流程;
S4:开发数据管理系统,支撑数据盘点工作,最终形成在线集中管理、动态更新、统一发布、共享使用的数据管理体系;
S5:根据步骤S4中的数据管理体系,支撑数据目录体系落地;
S6:通过对外开放数据管理系统,基于数据目录体系,实现对各种数据的管理。
在一具体实施例中,步骤S1中,实时抽取基于增量更新的方式与源端数据保持一致,第一次通过JDBC直连源端数据库抽取全量数据表,后续通过OGG增量捕获工具来读取归档日志,从而实现实时抽取更新数据,实时抽取对源端系统服务器压力较小。
在一具体实施例中,步骤S1中,定时抽取基于全量更新的方式定时与源端数据同步,第一次通过ETL抽取源端数据库中的全量数据表,后续将两个时间段内抽取到的全量数据进行对比得出更新数据,具体为通过关联表的主键,唯一键用left join,right join,inner join等对比出增量数据。
优选的,根据各业务数据的特性,定时抽取的时间间隔不同,在定时抽取的同步过程中,下级数据库中的数据是不断更新的,需要设置定时同步复制机制来完成同步。
优选的,定时抽取各在运业务系统的数据库表结构信息的步骤如下:
S11:设定定时抽取的时间间隔为T,即每隔时间T抽取一次全量数据;
S12:获取同步时间,即抽取全量数据的时间与上一次全量数据对比时间之和;
S13:若上一次更新时间点为t0,则本次更新时间点为t0+T,上一次同步的结束时间为t0+e,若本次更新时间点t0+T小于上次同步的结束时间t0+e,则放弃本次更新,等待下一个更新时间点t0+2T再同步数据;
S14:若本次更新时间点t0+T大于上次同步的结束时间t0+e,则在进行该时间段内数据抽取和同步更新操作后,判断此次操作是否成功,成功置1为成功标识,否则置0为失败标识,并在更新表中记录操作,如图2所示;
S15:通过上一次更新时间点t0和本次更新时间点t0+T的数据结构比对,获得源端表结构的变化情况,如图3所示。
优选的,步骤S12中,抽取时间会受源端数据量、源端服务器性能、网络带宽等因素影响,同步时间会发生变化。
优选的,步骤S15中,表结构变化分七种情况:新增表,删除表,新增表字段,删除表字段,变更字段类型,变更字段名称,变更字段长度,变更字段顺序。
在一具体实施例中,步骤S2中,形成数据资源目录的步骤如下:
S21:筛选有效业务表;对抽取的源端各在运业务系统的数据表进行分类,通过一些通用的判断规则,过滤掉无效业务表,筛选出有效业务表;
S22:梳理数据目录和有效业务表的对应关系;根据各在运业务系统的前台功能模块,找到后台与之相对应的数据库业务表;
S23:建立数据目录与有效业务表的关联;根据步骤S21中筛选出的有效业务表,并结合数据目录和有效业务表的对应关系,建立数据目录与有效业务表之间的关联关系,完成目录与业务表之间的挂接。
优选的,步骤S21中,无效业务表包括系统表、日志表、备份表、测试表、中间表、备份表等。
优选的,步骤S21中,无效表判别规则如表1所示,采用正则表达式匹配相应的数据表名,分类优先级为:系统表>日志表>临时表>测试表>中间表>备份表,若一个表即满足系统表又满足日志表,则根据分类优先级定为系统表。
表1判别规则
在一具体实施例中,设源端数据表为SourceT,过滤系统表SystemT、日志表LogT、临时表TempT、测试表TestT、中间表MidT、备份表BackT后,剩下的表为DataT,则有效表为过滤表字段大于等于2且表记录数大于0的DataT,记作ValT;业务表为系统业务人员梳理的前台功能与后台数据表对应关系中包含的表,记作ServiceT;有效业务表为系统业务人员梳理系统前台功能模块与后台有效表对应关系的表,记作ValServiceT。
优选的,ValT={DataT,leng(DataT)>0&&num(DataT)>=2},
其中,leng(DataT)表示数据表记录数,num(DataT)表示数据表字段数。
优选的,ValServiceT={DataT∩ServiceT}。
优选的,有效业务表识别包含3个过程:首先梳理出业务系统中的数据表DataT,并根据有效表的公式筛选出系统中的有效表ValT;然后为业务人员梳理出系统中的业务表ServiceT;最后为业务人员根据有效业务表公式梳理出系统中的有效业务表ValServiceT。
在一具体实施例中,如图4所示,步骤S3中,通过精准匹配和同义词匹配两种匹配方式来确定负面清单。
优选的,精准匹配为根据获取的负面清单数据项,对有效业务表的字段的中文名进行搜索,匹配成功则归为负面清单;同义词匹配为先用敏感数据项的同义词替换,再进行精准匹配,得到的匹配结果由业务部门进行审批。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的一种数据目录体系的数据管理系统和方法,系统共包括3层架构,自下而上分别为源端数据层、数据存储层和数据管理服务层,其中,源端数据层以在运业务系统的数据结构数据为源数据,用JDBC直连源端数据库实时抽取和Quartz定时任务调度定时抽取两种方式将源数据推送至数据存储层;数据存储层保存了从源端抽取到的源数据信息之外,根据业务需求补充添加了源端表和前台功能模块的对应关系、数据表之间的关联关系、可以手工维护的中文表名和中文字段名,以及可以通过上传Excel的方式维护的上传中文表名和中文字段名,另外根据数据的机密程度、重要程度及访问频繁程度设计了相应的数据库字段;数据管理层通过分类、统计、分析存储层的数据,提供了多种功能,实现对公司在运业务信息系统数据的统一管理,使业务部门和地市公司更加方便快捷的查看、共享在运系统的业务数据。
设计数据管理系统主要包括项目首页、资源展示、后台管理和系统管理4个功能模块的设计,以实现数据的统一管理,促进数据的共享应用和价值发挥。
其中平台首页模块立足于公司全局,宏观展示公司数据总体情况,辅助业务人员整体把握公司数据资源。该模块包含资源目录、源端业务系统数据和表热度排行榜3个子模块,资源目录模块展示能源大数据、公司大数据和全业务统一数据中心目前接入的系统数、表数量和字段数量等信息;源端业务系统数据模块展示公司营销业务、输配电及调度和综合办公类等五大类业务系统的业务介绍、系统介绍、系统表数量、字段数量统计等相关信息;表热度排行榜模块展示所有系统中的表访问次数排行前6的表信息。通过首页模块,支撑业务人员掌握公司宏观数据资源,有利于充分挖掘数据价值。
资源展示模块从资源目录展示、负面清单管理、数据使用管理和问题填报4个方面对公司数据资源进行展示、管理。资源目录展示模块展示了各资源目录下的系统数据信息,包括系统的功能模块和表的对应关系、表详细信息、字段详细信息、所属业务部门等信息;负面清单管理模块可以申请添加或删除本账号可以管理的系统的负面清单,提交给审核部门管理员进行审批,方便维护业务系统的负面清单;数据使用管理模块包含应用场景填报、数据使用申请和数据使用审核,非负面清单的数据原则上可以直接共享给各业务部门和地市公司,负面清单的数据则需要通过填报使用的应用场景信息、提交数据使用申请,相关业务部门审批通过后才可以使用;问题填报模块可以对使用中遇到的系统、表或者字段的问题进行填写提报,系统管理员进行相应处理后可以反馈给填写人处理结果。
后台管理模块包含数据字典维护记录、数据源配置、数据抽取任务、导入管理4个子模块。数据字典维护记录展示对每个系统的表和字段的修改删除的操作记录,可以查看操作人、修改时间、涉及的表或者字段等;数据源配置用于配置数据源的数据库连接信息;数据抽取任务包括定时任务和抽取记录,定时任务用于从数据源配置填写的数据库连接中抽取数据,包含实时抽取和定时抽取两种方式,抽取记录可以查看每个系统从数据源抽取数据的记录,包括每次抽取的时间、每次抽取到的表数量、字段数量及表记录数;导入管理用于导入人工维护后的系统表和字段数据以及查看历史导入记录等功能。
系统管理模块包括用户管理、角色管理、机构管理、菜单管理、系统管理、系统信息管理、树形菜单管理及树形菜单权限管理8个子模块。该模块实现了用户管理、角色管理、机构管理、配置系统菜单、管理资源目录、管理各资源目录的系统及为不同用户配置资源目录的访问权限等功能。
充分利用国网河南省电力公司已有的信息化成果,通过数据结构抽取、存储和加工,建立数据目录的管理工具和更新机制,加强数据目录优化和完善,开发数据管理系统,实现数据资源展示、数据字典管理、数据资源检索、数据资源共享和数据开放管理等功能,支撑数据盘点工作,最终形成在线集中管理、动态更新、统一发布、共享使用的数据管理体系,有效支撑数据目录体系落地,切实解决数据描述不一致、颗粒度不一致等问题,支撑各单位快捷查询和定位数据。
综上所述,本发明提出的基于数据目录体系的数据管理系统和方法,一方面以源端业务系统数据库表结构为基础,遵循“盘、规、治、用”总体工作思路,构建一套以“业务体系”为目录框架,以实现“数据共享”为目标的公司级数据目录体系,提升数据库表、字段信息的可读性和可用性;另一方面研究数据目录管理工具,基于公司级数据目录体系,开发数据资源共享平台,固化数据盘点成果,有效支撑数据目录体系应用落地。通过对各部门和基层单位开放平台,实现数据的快捷查询、定位,明确数据维护部门,实现数据共享、充分发挥数据价值。
(1)发布核心业务系统数据目录,确定数据维护责任部门。通过业务信息系统数据资源盘点,完成PMS2.0、营销业务应用、财务管控等6套核心业务系统12372张有效表的数据目录发布,并完成数据维护责任部门的确认。
(2)实现数据共享,挖掘数据价值。一是以营销业务应用、财务管控等10个系统为试点,协同营销部、财务部共同开展负面清单的梳理工作,共梳理10499张表,其中包含负面字段的表有358张;二是组织财务、设备、营销、调度等27个部门及18个地市公司开展数据共享需求清单征集工作,共征集到13个部门(市公司)43项数据共享需求清单;三是基于全业务统一数据中心及统一数据模型标准落地,打通数据共享通道,共完成2970个模型表,70611个模型字段的落地工作,为数字化审计平台、财务多维精益等应用场景建设提供数据标准支撑,为泛在电力物联网建设打下了良好的数据服务基础,使公司数据价值得到充分发挥。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于数据目录体系的数据管理系统,其特征在于,包括源端数据层、数据存储层、数据管理服务层;其中,
所述源端数据层包括若干在运业务系统,且以所述在运业务系统的数据结构数据为源数据,并将源数据推送至所述数据存储层;
所述数据存储层包括从所述源端数据层抽取的源数据,以及根据业务需求添加的多种数据;
所述数据管理服务层提供多种功能,以实现对所述源端数据层的在运业务系统的信息数据的统一管理。
2.根据权利要求1所述的一种数据目录体系的数据管理系统,其特征在于,所述源端数据层中的在运业务系统包括公司营销系统、PMS系统、财务管控系统和ERP系统。
3.根据权利要求1所述的一种数据目录体系的数据管理系统,其特征在于,所述在运业务系统通过实时抽取和定时抽取两种方式将源数据推送至所述数据存储层。
4.根据权利要求3所述的一种数据目录体系的数据管理系统,其特征在于,所述实时抽取是通过JDBC直连源端数据库实时抽取;所述定时抽取是通过Quartz定时任务调度定时抽取。
5.根据权利要求1所述的一种数据目录体系的数据管理系统,其特征在于,所述数据管理服务层提供的功能包括整体数据情况展示、各源端系统数据情况展示、表热度排行榜展示、数据目录与业务表关联展示、数据表字段及关联关系可视化、负面清单添加及审批服务、跨专业数据使用在线申请服务。
6.一种数据目录体系的数据管理方法,其特征在于,包括如下步骤:
S1:通过实时抽取和定时抽取两种方式抽取各在运业务系统的数据库表结构信息,对其进行梳理和补充,实时监控各在运业务系统的数据结构变动,并进行动态同步更新;
S2:根据各在运业务系统前台功能模块与后台数据库表的对应关系,形成数据资源目录,以支撑业务人员快速查询、定位和应用数据;
S3:根据相关法律法规和规章制度,确定负面清单,并建立负面清单管理流程;
S4:开发数据管理系统,支撑数据盘点工作,最终形成在线集中管理、动态更新、统一发布、共享使用的数据管理体系;
S5:根据步骤S4中的数据管理体系,支撑数据目录体系落地;
S6:通过对外开放数据管理系统,基于数据目录体系,实现对各种数据的管理。
7.根据权利要求6所述的一种数据目录体系的数据管理方法,其特征在于,所述步骤S1中,定时抽取各在运业务系统的数据库表结构信息的步骤如下:
S11:设定定时抽取的时间间隔为T,即每隔时间T抽取一次全量数据;
S12:获取同步时间e,即抽取全量数据的时间与上一次全量数据对比时间之和;
S13:若上一次更新时间点为t0,则本次更新时间点为t0+T,上一次同步的结束时间为t0+e,若本次更新时间点t0+T小于上次同步的结束时间t0+e,则放弃本次更新,等待下一个更新时间点t0+2T再同步数据;
S14:若本次更新时间点t0+T大于上次同步的结束时间t0+e,则在进行该时间段内数据抽取和同步更新操作后,判断此次操作是否成功,成功置1为成功标识,否则置0为失败标识,并在更新表中记录操作;
S15:通过上一次更新时间点t0和本次更新时间点t0+T的数据结构比对,获得源端表结构的变化情况。
8.根据权利要求6所述的一种数据目录体系的数据管理方法,其特征在于,所述步骤S2中,形成数据资源目录的步骤如下:
S21:筛选有效业务表;对抽取的源端各在运业务系统的数据表进行分类,通过一些通用的判断规则,过滤掉无效业务表,筛选出有效业务表;
S22:梳理数据目录和有效业务表的对应关系;根据各在运业务系统的前台功能模块,找到后台与之相对应的数据库业务表;
S23:建立数据目录与有效业务表的关联;根据步骤S21中筛选出的有效业务表,并结合数据目录和有效业务表的对应关系,建立数据目录与有效业务表之间的关联关系,完成目录与业务表之间的挂接。
9.根据权利要求6所述的一种数据目录体系的数据管理方法,其特征在于,所述步骤S3中,通过精准匹配和同义词匹配两种匹配方式来确定负面清单。
10.根据权利要求9所述的一种数据目录体系的数据管理方法,其特征在于,精准匹配为根据获取的负面清单数据项,对有效业务表的字段的中文名进行搜索,匹配成功则归为负面清单;同义词匹配为先用敏感数据项的同义词替换,再进行精准匹配,得到的匹配结果由业务部门进行审批。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010347052.1A CN111475490B (zh) | 2020-04-28 | 2020-04-28 | 一种数据目录体系的数据管理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010347052.1A CN111475490B (zh) | 2020-04-28 | 2020-04-28 | 一种数据目录体系的数据管理系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475490A true CN111475490A (zh) | 2020-07-31 |
CN111475490B CN111475490B (zh) | 2023-04-25 |
Family
ID=71761887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010347052.1A Active CN111475490B (zh) | 2020-04-28 | 2020-04-28 | 一种数据目录体系的数据管理系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475490B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291056A (zh) * | 2020-02-25 | 2020-06-16 | 帆软软件有限公司 | Bi工具数据表底层关联的方法 |
CN112446687A (zh) * | 2020-12-04 | 2021-03-05 | 国网安徽省电力有限公司信息通信分公司 | 基于数据中台的数据在线服务方法 |
CN112667677A (zh) * | 2020-12-10 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种数据中台的数字运营方法及系统 |
CN112667736A (zh) * | 2020-12-23 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种数字运营管理系统 |
CN112989132A (zh) * | 2021-03-29 | 2021-06-18 | 国网宁夏电力有限公司电力科学研究院 | 一种企业数据盘点的数据目录建成方法 |
CN115732036A (zh) * | 2022-12-06 | 2023-03-03 | 云舟生物科技(广州)股份有限公司 | 调整转录本基础库存的方法、计算机存储介质及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923566A (zh) * | 2010-06-24 | 2010-12-22 | 浙江协同数据系统有限公司 | 一种基于触发器的数据增量抽取方法 |
CN101945126A (zh) * | 2010-09-09 | 2011-01-12 | 中国林业科学研究院资源信息研究所 | 森林资源异构数据分布式管理系统 |
US7899838B1 (en) * | 2004-04-21 | 2011-03-01 | Perot Systems Corporation | Business rules preprocessing |
WO2014146256A1 (zh) * | 2013-03-19 | 2014-09-25 | 华为技术有限公司 | 一种升级方法、智能终端及升级系统 |
CN104933070A (zh) * | 2014-03-19 | 2015-09-23 | 北京航天长峰科技工业集团有限公司 | 一种用于政务信息平台的目录管理系统 |
US20170039227A1 (en) * | 2015-08-05 | 2017-02-09 | Sap Se | Data Archive Vault in Big Data Platform |
CN107766402A (zh) * | 2017-06-27 | 2018-03-06 | 深圳市云房网络科技有限公司 | 一种楼盘字典云房源大数据平台 |
CN108647217A (zh) * | 2017-12-27 | 2018-10-12 | 广东智政信息科技有限公司 | 基于安监应用的大数据平台集成管理系统 |
US10216769B1 (en) * | 2013-09-03 | 2019-02-26 | PMS Systems Corporation | Asset catalog management methods and systems |
CN109711685A (zh) * | 2018-12-14 | 2019-05-03 | 杨冰之 | 一种政务大数据处理平台 |
CN110555064A (zh) * | 2018-03-27 | 2019-12-10 | 中国人民财产保险股份有限公司 | 用于保险业务的数据服务系统及方法 |
-
2020
- 2020-04-28 CN CN202010347052.1A patent/CN111475490B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7899838B1 (en) * | 2004-04-21 | 2011-03-01 | Perot Systems Corporation | Business rules preprocessing |
CN101923566A (zh) * | 2010-06-24 | 2010-12-22 | 浙江协同数据系统有限公司 | 一种基于触发器的数据增量抽取方法 |
CN101945126A (zh) * | 2010-09-09 | 2011-01-12 | 中国林业科学研究院资源信息研究所 | 森林资源异构数据分布式管理系统 |
WO2014146256A1 (zh) * | 2013-03-19 | 2014-09-25 | 华为技术有限公司 | 一种升级方法、智能终端及升级系统 |
US10216769B1 (en) * | 2013-09-03 | 2019-02-26 | PMS Systems Corporation | Asset catalog management methods and systems |
CN104933070A (zh) * | 2014-03-19 | 2015-09-23 | 北京航天长峰科技工业集团有限公司 | 一种用于政务信息平台的目录管理系统 |
US20170039227A1 (en) * | 2015-08-05 | 2017-02-09 | Sap Se | Data Archive Vault in Big Data Platform |
CN107766402A (zh) * | 2017-06-27 | 2018-03-06 | 深圳市云房网络科技有限公司 | 一种楼盘字典云房源大数据平台 |
CN108647217A (zh) * | 2017-12-27 | 2018-10-12 | 广东智政信息科技有限公司 | 基于安监应用的大数据平台集成管理系统 |
CN110555064A (zh) * | 2018-03-27 | 2019-12-10 | 中国人民财产保险股份有限公司 | 用于保险业务的数据服务系统及方法 |
CN109711685A (zh) * | 2018-12-14 | 2019-05-03 | 杨冰之 | 一种政务大数据处理平台 |
Non-Patent Citations (2)
Title |
---|
S. NAKANDALA ET AL: "Schema-independent scientific data cataloging framework", 《2015 MORATUWA ENGINEERING RESEARCH CONFERENCE 》 * |
阴皓等: "电力数据管理关键技术研究与应用", 《电力信息与通信技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291056A (zh) * | 2020-02-25 | 2020-06-16 | 帆软软件有限公司 | Bi工具数据表底层关联的方法 |
CN111291056B (zh) * | 2020-02-25 | 2020-12-01 | 帆软软件有限公司 | Bi工具数据表底层关联的方法 |
CN112446687A (zh) * | 2020-12-04 | 2021-03-05 | 国网安徽省电力有限公司信息通信分公司 | 基于数据中台的数据在线服务方法 |
CN112667677A (zh) * | 2020-12-10 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种数据中台的数字运营方法及系统 |
CN112667677B (zh) * | 2020-12-10 | 2022-12-16 | 山东鲁能软件技术有限公司 | 一种数据中台的数字运营方法及系统 |
CN112667736A (zh) * | 2020-12-23 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种数字运营管理系统 |
CN112667736B (zh) * | 2020-12-23 | 2023-05-23 | 山东鲁能软件技术有限公司 | 一种数字运营管理系统 |
CN112989132A (zh) * | 2021-03-29 | 2021-06-18 | 国网宁夏电力有限公司电力科学研究院 | 一种企业数据盘点的数据目录建成方法 |
CN115732036A (zh) * | 2022-12-06 | 2023-03-03 | 云舟生物科技(广州)股份有限公司 | 调整转录本基础库存的方法、计算机存储介质及电子设备 |
CN115732036B (zh) * | 2022-12-06 | 2023-11-28 | 云舟生物科技(广州)股份有限公司 | 调整转录本基础库存的方法、计算机存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111475490B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685385B (zh) | 一种用于智慧城市建设的大数据平台 | |
CN111475490B (zh) | 一种数据目录体系的数据管理系统和方法 | |
CN107819824B (zh) | 一种城市数据开放与信息服务系统及服务方法 | |
CN111259006B (zh) | 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统 | |
CN110781236A (zh) | 一种构建政务大数据治理体系的方法 | |
CN111917887A (zh) | 大数据环境下实现数据治理的系统 | |
CN112579609A (zh) | 基于数据资产目录实现数据标准化管理与共享方法及系统 | |
CN113392227A (zh) | 面向轨道交通领域的元数据知识图谱引擎系统 | |
CN114925045B (zh) | 大数据集成和管理的PaaS平台 | |
CN109271382A (zh) | 一种面向全数据形态开放共享的数据湖系统 | |
CN112241402A (zh) | 一种空管数据供应链系统及数据治理方法 | |
CN109213819A (zh) | 一种信息资源共享系统 | |
CN112801607A (zh) | 一种管理服务平台及构建方法 | |
CN115794929B (zh) | 数据集市的数据管理系统和数据管理方法 | |
CN112364223A (zh) | 一种数字档案馆系统 | |
CN114357088A (zh) | 核电工业数据仓库系统 | |
CN114519085A (zh) | 一种数据标准化管理方法与共享系统 | |
CN109961156A (zh) | 一种变电站设备点检系统开发方法 | |
CN115934680A (zh) | 一站式大数据分析处理系统 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN115496337A (zh) | 一种支撑企业大脑的数据系统 | |
CN112651872A (zh) | 一种基于数据中台的社区综合治理的系统和方法 | |
CN105550351B (zh) | 旅客行程数据即席查询系统及方法 | |
CN112540987A (zh) | 一种基于数据集市的配用电大数据管理系统 | |
CN113741970B (zh) | 数据仓库生产环境和开发环境分离实现方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |