CN117992443A - 一种基于知识管理识别主数据的数据治理系统 - Google Patents
一种基于知识管理识别主数据的数据治理系统 Download PDFInfo
- Publication number
- CN117992443A CN117992443A CN202410406023.6A CN202410406023A CN117992443A CN 117992443 A CN117992443 A CN 117992443A CN 202410406023 A CN202410406023 A CN 202410406023A CN 117992443 A CN117992443 A CN 117992443A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- names
- field
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013523 data management Methods 0.000 title claims abstract description 55
- 238000007726 management method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 38
- 238000012216 screening Methods 0.000 claims description 32
- 230000001502 supplementing effect Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 17
- 230000009469 supplementation Effects 0.000 claims description 7
- 238000011835 investigation Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于知识管理识别主数据的数据治理系统,涉及数据识别技术领域,包括:数据治理子系统,其配置为对数据的获取、处理和使用进行监管,并在各项目中独立部署;知识库,其配置为预存储供应商系统表、数据字典表和主数据表;实施工作台,其配置为与数据治理子系统和知识库进行数据和知识交互,在实施项目时生成数据源报告,并对主数据进行识别。本发明通过增加知识库和实施工作台,实现各项目实施工作的知识共享,自动生成数据源报告,提高数据调研的效率,并将识别主数据的结果快速应用到数据治理中。
Description
技术领域
本发明涉及数据识别技术领域,尤其涉及一种基于知识管理识别主数据的数据治理系统。
背景技术
主数据是用来描述核心业务实体的数据,是交易业务的执行主体,是在整个价值链上被重复或共享应用于多个业务流程、跨越多个业务部门和系统、高价值的基础数据。
主数据管理是数据治理的重要组成部分,主数据管理的第一步是要识别主数据。符合主数据特征的数据我们可以识别为主数据,即核心业务数据、变化缓慢或变化周期长、有共享需求、有被重复利用的价值的数据。 在数据治理项目中识别主数据的方法是先对现有的业务数据进行调研和分析,再进行用户访谈,最后确定主数据。组织单位信息系统多、数据库中的数据表多、缺少数据库说明书等因素导致在实施数据治理项目中识别主数据效率低下。
主数据的重要性在于它可以作为业务实体的核心数据,为企业的各个部门和系统提供统一、可靠的数据来源,从而提高数据的准确性和一致性,为企业的决策和运营提供有力支持。因此,主数据管理不仅仅是识别主数据,更是需要建立完善的数据管理流程和规范,确保主数据的质量和可靠性,实现数据的价值最大化。
因此,需要提供一种新的以主数据为核心的数据治理系统,来提高数据的利用价值。
发明内容
有鉴于此,本发明提供一种基于知识管理识别主数据的数据治理系统,通过增加知识库和实施工作台,实现各项目实施工作的知识共享,自动生成数据源报告,提高数据调研的效率,并将识别主数据的结果快速应用到数据治理中。
本发明的技术目的是这样实现的:
本发明提供一种基于知识管理识别主数据的数据治理系统,包括:
数据治理子系统,其配置为对数据的获取、处理和使用进行监管,并在各项目中独立部署;数据治理子系统包括元数据管理模块、数据标准管理模块、主数据管理模块、数据调度模块、数据质量管理模块和数据安全管理模块;
知识库,其配置为预存储供应商系统表、数据字典表和主数据表;
实施工作台,其配置为与数据治理子系统和知识库进行数据和知识交互,在实施项目时生成数据源报告,并对主数据进行识别;
生成数据源报告的过程为:
步骤一、数据治理子系统连接当前项目的数据源,利用元数据管理模块采集数据源的元数据;
步骤二、从知识库按照第一推荐方法获取数据字典推荐结果,包括模式名、表英文名、表中文名、字段英文名和字段中文名;
步骤三、将元数据与数据字典推荐结果进行表英文名和字段英文名的匹配,将匹配成功的数据字典推荐结果的表英文名和字段英文名对应的表中文名和字段中文名补充进相应元数据中,得到补充后的元数据,以及匹配过程中得到的元数据对应的数据字典;
步骤四、将数据字典保存至知识库中;
步骤五、根据补充后的元数据生成数据源报告,数据源报告包括数据源信息、数据表信息和表字段信息,数据源信息包括:数据源类型、数据源名称、系统、模式名、表英文名、表中文名、字段数、数据量和占用空间,数据表信息包括:模式名、表英文名、表中文名、字段数、数据量和注释,表字段信息包括:字段英文名、字段中文名、数据类型、长度、是否必填、是否主键和注释;
步骤六、实施工作台将补充后的元数据和数据字典同步到数据治理子系统。
在上述技术方案的基础上,优选的,步骤二中,第一推荐方法包括:
当前项目的数据源的元素包括供应商、系统、版本、数据源类型、IP、端口、用户和密码;供应商系统表的元素包括系统编号、供应商、系统、版本、数据字典编码和主数据编码;数据字典表的元素包括数据字典编码、数据库的模式、表英文名、表中文名、字段英文名和字段中文名;
根据当前项目的数据源的供应商、系统和版本在供应商系统表中查询匹配,得到数据源对应的目标数据字典编码;
在数据字典表中根据目标数据字典编码查询得到与该数据源相关的数据字典信息,形成数据字典推荐结果。
在上述技术方案的基础上,优选的,步骤三包括:
遍历元数据,查找表中文名的内容缺失的元数据,作为第一待补元数据,查找字段中文名的内容缺失的元数据,作为第二待补元数据;
遍历第一待补元数据,实施工作台根据数据字典推荐结果中的表英文名在第一待补元数据中匹配相同的表英文名,将匹配成功的数据字典推荐结果中的表英文名作为第一目标表英文名,获取第一目标表英文名相应的表中文名作为第一目标表中文名,将第一目标表中文名补充至第一待补元数据中,得到第一补充元数据;
遍历第二待补元数据,实施工作台根据数据字典推荐结果中的表英文名和字段英文名在第二待补元数据中匹配相同的表英文名和字段英文名,将匹配成功的数据字典推荐结果中的表英文名和字段英文名作为第二目标表英文名和第二目标字段英文名,获取第二目标表英文名相应的表中文名作为第二目标表中文名,获取第二目标字段英文名相应的字段中文名作为第二目标字段中文名,将第二目标表中文名和第二目标字段中文名补充至第二待补元数据中,得到第二补充元数据;
判断第一待补元数据和第二待补元数据是否均补充完毕,若是,则结束匹配过程,将第一补充元数据和第二补充元数据进行合并去重后更新至元数据中,得到补充后的元数据,并根据匹配过程中匹配到的数据字典推荐结果中的信息形成元数据对应的数据字典;若否,则采用人工补充方式对第一待补元数据和第二待补元数据进行二次补充,根据二次补充的结果得到补充后的元数据,以及元数据对应的数据字典。
在上述技术方案的基础上,优选的,人工补充方式包括:
收集数据源相关的文档资料,在文档资料中筛选与元数据相关的信息,根据信息得到缺失的表中文名和缺失的字段中文名,将其补充至第一待补元数据或第二待补元数据中,得到二次补充的结果。
在上述技术方案的基础上,优选的,对主数据进行识别的过程为:
第一步、获取生成的数据源报告;
第二步、从知识库按照第二推荐方法获取主数据推荐结果,主数据推荐结果包括模式名、表英文名和表中文名;
第三步、根据数据源报告和主数据推荐结果,按照筛选方法得到该数据源的主数据识别结果,主数据识别结果包括项目名称、供应商、系统、版本、模式名、表英文名和表中文名;
第四步、将该数据源的主数据识别结果保存至知识库中;
第五步、将该数据源的主数据识别结果同步到数据治理子系统;
第六步、数据治理子系统建立从数据源到数据仓库ODS层的数据采集关系,并在数据调度模块设置该数据采集关系的定时任务。
在上述技术方案的基础上,优选的,第二步中,第二推荐方法包括:
主数据表包括主数据编码、数据库的模式、表英文名和表中文名;
根据当前项目的数据源的供应商、系统和版本在供应商系统表中进行查询得到数据源对应的目标主数据编码;
在主数据表中根据目标主数据编码进行查询得到主数据推荐结果,主数据推荐结果为该系统的模式中所有表的集合。
在上述技术方案的基础上,优选的,第三步包括:
获取数据源报告中的数据量、表中文名和字段中文名;
设置数据量阈值,对元数据按照数据量阈值进行筛选,将低于数据量阈值的元数据作为多余数据进行筛除,得到第一筛选结果;
根据表中文名和字段中文名对第一筛选结果按照核心业务的关键词进行筛选,识别出核心业务数据,将其作为第二筛选结果;
将第二筛选结果和主数据推荐结果进行合并,得到候选主数据;
将候选主数据发送至实施工程师进行最终筛选,得到该数据源的主数据识别结果。
在上述技术方案的基础上,优选的,第六步包括:
根据该数据源的主数据识别结果,在数据仓库的ODS层中建立与数据源相同的表结构,以同步和存储主数据识别结果;
配置DataX工具,实现从数据源到ODS层的离线同步;
配置读取数据源的jdbcurl、用户名、密码、表和字段信息,配置写入数据源的jdbcurl、用户名、密码、表和字段信息;其中,读取数据源表字段顺序与写入数据源表字段顺序保持一致;
在数据调度模块设置该数据采集关系的定时任务,在指定时间内执行数据采集任务。
本发明的方法相对于现有技术具有以下有益效果:
(1)本发明提供的数据治理系统将知识库集中部署,使得数据字典和主数据能够被所有项目共享,避免了重复建设和维护,提高了数据管理的效率;实施工作台作为Saas服务提供给各项目,为实施工程师提供统一的工作环境和工具,可以减少重复工作,提高工作效率;
(2)本发明中的实施工作台为各项目提供独立租户,实现各项目实施工作的隔离,保障项目数据的独立性和安全性;知识库对所有的数据治理项目提供服务,实现各项目实施工作的知识共享,促进团队协作和经验分享;
(3)本发明提供的系统能够自动连接数据源,采集元数据,并根据数据字典推荐结果生成数据源报告,同时将数据字典保存至知识库中,实现对数据字典的集中管理和维护。
(4)本发明通过将元数据与数据字典推荐结果进行匹配和补充,可以提高数据的一致性和完整性,减少数据错误和冗余;
(5)本发明能够检测元数据中表中文名和字段中文名的内容缺失,并通过自动匹配方式完善元数据,保持元数据的完整性和准确性;
(6)本发明还提供人工补充方式,使用户可以根据文档资料中的信息对元数据进行二次补充,进一步提高数据的准确性和完整性;
(7)本发明通过获取生成的数据源报告和主数据推荐结果,根据筛选方法识别数据源的主数据,实现了主数据的自动识别和推荐,提高了主数据管理的效率和准确性;
(8)本发明将主数据识别结果保存至知识库中,实现了对主数据识别结果的存储和管理,方便后续查询和使用;主数据识别结果同步到数据治理子系统,确保数据治理子系统中的数据与知识库中的数据保持一致,促进数据的统一管理和使用;
(9)本发明在数据仓库的ODS层建立与数据源相同的表结构,配置DataX工具实现离线同步,以及在数据调度模块设置数据采集关系的定时任务,实现了从数据源到数据仓库ODS层的数据采集关系的建立和管理,为数据的采集和存储提供了可靠的支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的系统结构图;
图2为本发明实施例的生成数据源报告的流程示意图;
图3为本发明实施例的识别主数据的流程示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提供一种基于知识管理识别主数据的数据治理系统,包括:
数据治理子系统,其配置为对数据的获取、处理和使用进行监管,并在各项目中独立部署;
知识库,其配置为预存储供应商系统表、数据字典表和主数据表;
实施工作台,其配置为与数据治理子系统和知识库进行数据和知识交互,在实施项目时生成数据源报告,并对主数据进行识别。
其中,知识库包括数据字典知识库和主数据知识库。
本实施例中,数据治理系统由数据字典知识库、主数据知识库、实施工作台和数据治理子系统组成。
具体地,本发明一实施例中,数据治理子系统包括元数据管理模块、数据标准管理模块、主数据管理模块、数据调度模块、数据质量管理模块和数据安全管理模块。
数据治理子系统由元数据管理、数据标准管理、主数据管理、数据质量管理和数据安全管理等模块组成。用户使用数据治理子系统,对数据的获取、处理、使用进行监管。实施工作台包含生成数据源报告和识别主数据。在项目实施阶段,实施工程师使用实施工作台识别主数据。数据字典知识库存储各项目的数据字典,提供数据字典推荐。主数据知识库存储各项目的主数据,提供主数据推荐。
数据治理子系统在各项目独立部署。实施工作台、数据字典知识库和主数据知识库集中部署,为实施工程师提供Saas服务。实施工作台为各项目提供独立租户,实现各项目实施工作的隔离。数据字典知识库和主数据知识库,对所有的数据治理项目提供服务,实现各项目实施工作的知识共享。
在生成数据源报告时,协同数据字典知识库、实施工作台和数据治理子系统。生成数据源报告的过程为:
步骤一、数据治理子系统连接当前项目的数据源,利用元数据管理模块采集数据源的元数据;
步骤二、从知识库按照第一推荐方法获取数据字典推荐结果,包括模式名、表英文名、表中文名、字段英文名和字段中文名;
第一推荐方法包括:
当前项目的数据源的元素包括供应商、系统、版本、数据源类型、IP、端口、用户和密码;供应商系统表的元素包括系统编号、供应商、系统、版本、数据字典编码和主数据编码;数据字典表的元素包括数据字典编码、数据库的模式、表英文名、表中文名、字段英文名和字段中文名;
根据当前项目的数据源的供应商、系统和版本在供应商系统表中查询匹配,得到数据源对应的目标数据字典编码;
在数据字典表中根据目标数据字典编码查询得到与该数据源相关的数据字典信息,形成数据字典推荐结果。
步骤三、将元数据与数据字典推荐结果进行表英文名和字段英文名的匹配,将匹配成功的数据字典推荐结果的表英文名和字段英文名对应的表中文名和字段中文名补充进相应元数据中,得到补充后的元数据,以及匹配过程中得到的元数据对应的数据字典;
步骤三包括:
遍历元数据,查找表中文名的内容缺失的元数据,作为第一待补元数据,查找字段中文名的内容缺失的元数据,作为第二待补元数据;
遍历第一待补元数据,实施工作台根据数据字典推荐结果中的表英文名在第一待补元数据中匹配相同的表英文名,将匹配成功的数据字典推荐结果中的表英文名作为第一目标表英文名,获取第一目标表英文名相应的表中文名作为第一目标表中文名,将第一目标表中文名补充至第一待补元数据中,得到第一补充元数据;
遍历第二待补元数据,实施工作台根据数据字典推荐结果中的表英文名和字段英文名在第二待补元数据中匹配相同的表英文名和字段英文名,将匹配成功的数据字典推荐结果中的表英文名和字段英文名作为第二目标表英文名和第二目标字段英文名,获取第二目标表英文名相应的表中文名作为第二目标表中文名,获取第二目标字段英文名相应的字段中文名作为第二目标字段中文名,将第二目标表中文名和第二目标字段中文名补充至第二待补元数据中,得到第二补充元数据;
判断第一待补元数据和第二待补元数据是否均补充完毕,若是,则结束匹配过程,将第一补充元数据和第二补充元数据进行合并去重后更新至元数据中,得到补充后的元数据,并根据匹配过程中匹配到的数据字典推荐结果中的信息形成元数据对应的数据字典;若否,则采用人工补充方式对第一待补元数据和第二待补元数据进行二次补充,根据二次补充的结果得到补充后的元数据,以及元数据对应的数据字典。
人工补充方式包括:
收集数据源相关的文档资料,在文档资料中筛选与元数据相关的信息,根据信息得到缺失的表中文名和缺失的字段中文名,将其补充至第一待补元数据或第二待补元数据中,得到二次补充的结果。
步骤四、将数据字典保存至知识库中;
步骤五、根据补充后的元数据生成数据源报告,数据源报告包括数据源信息、数据表信息和表字段信息,数据源信息包括:数据源类型、数据源名称、系统、模式名、表英文名、表中文名、字段数、数据量和占用空间,数据表信息包括:模式名、表英文名、表中文名、字段数、数据量和注释,表字段信息包括:字段英文名、字段中文名、数据类型、长度、是否必填、是否主键和注释;
步骤六、实施工作台将补充后的元数据和数据字典同步到数据治理子系统。
请参阅图2,以一个具体的例子进行说明:
(1)采集元数据。调用数据治理子系统元数据管理中采集元数据的能力。数据治理子系统中管理数据源的供应商、系统、版本、数据源类型、IP、端口、用户和密码。连接数据源后,采集数据库的元数据,包括模式名、表英文名、表注释、字段英文名、字段注释、数据类型、是否必填、是否主键、数据量、占用空间。
(2)从数据字典知识库获取数据字典推荐结果。数据字典知识库预置供应商系统表和数据字典表。
供应商系统表示例如下:
其中SYSID是系统编号、PROVIDER_CODE是供应商、SYSTEM_CODE是系统、VERSION是版本、DICT_CODE是数据字典编码、MAINDATA_CODE是主数据编码。
数据字典表示例如下:
其中DICT_CODE是数据字典编码、SCHEMA是数据库的模式、TABLENAME_EN是表英文名、TABLENAME_CHN是表中文名、COLUMN_EN是字段英文名、COLUMN_CHN是字段中文名。
根据当前项目数据源的供应商、系统、版本在知识库供应商系统表中查询得到DICT_CODE,在知识库数据字典表中根据DICT_CODE查询得到数据字典推荐结果,数据字典包括:模式名、表英文名、表中文名、字段英文名和字段中文名。
(3)自动补齐表中文名和字段中文名。实施工作台根据表英文名在元数据中搜索到完全匹配一致的表英文名,在这条元数据中补充对应的表中文名。根据表英文名和字段英文名在元数据中搜索到完全匹配一致的表英文名和字段英文名,在这条字段元数据中补充对应的字段中文名。
(4)手工补齐表中文名和字段中文名。对于仍然缺失的信息,通过数据库说明书、软件设计说明书等文档、用户访谈等方式收集信息,在实施工作台上补齐。在表英文名后补齐表中文名,在表英文名和字段英文名后补齐字段中文名。
(5)知识库保存数据字典。将本实施项目数据源的数据字典数据保存到知识库的供应商系统表和数据字典表中。数据字典包括:项目名称、供应商、系统、版本、模式名、表英文名、表中文名、字段英文名和字段中文名。流程结束。
(6)生成数据源报告。数据源报告包括数据库信息、表信息和字段信息。数据库信息包括:数据源类型、数据源名称、系统、模式名、表英文名、表中文名、字段数、数据量、占用空间。数据表信息包括:模式名、表英文名、表中文名、字段数、数据量、注释。表字段信息包括:字段英文名、字段中文名、数据类型、长度、是否必填、是否主键、注释。系统将上述信息内容,以图形、表格和文字描述等形式,进行可视化展示并且生成文件。流程结束。
(7)同步元数据到数据治理子系统。实施工作台将采集元数据的结果和数据字典同步到数据治理子系统。通过第三步和第四步,实现了在采集元数据基础上补齐数据字典。元数据包括:模式名、表英文名、表中文名、表注释、字段英文名、字段中文名、字段注释、数据类型、是否必填、是否主键。流程结束。
具体地,本实施例中,系统能够自动连接数据源,采集元数据,并根据数据字典推荐结果生成数据源报告。系统能够将数据字典保存至知识库中,实现对数据字典的集中管理和维护。通过将元数据与数据字典推荐结果进行匹配和补充,系统可以提高数据的一致性和完整性,减少数据错误和冗余。系统能够检测元数据中表中文名和字段中文名的内容缺失,并通过自动匹配或人工补充的方式完善元数据,保持元数据的完整性和准确性。系统提供人工补充方式,使用户可以根据文档资料中的信息对元数据进行二次补充,进一步提高数据的准确性和完整性。系统实现了数据源报告生成、数据字典管理和元数据补充的一体化,为数据治理提供了全面的支持和解决方案。
具体地,本发明一实施例中,识别主数据流程实现了协同主数据知识库、实施工作台和数据治理子系统。对主数据进行识别的过程为:
第一步、获取生成的数据源报告;
第二步、从知识库按照第二推荐方法获取主数据推荐结果,主数据推荐结果包括模式名、表英文名和表中文名;
第二推荐方法包括:
主数据表包括主数据编码、数据库的模式、表英文名和表中文名;
根据当前项目的数据源的供应商、系统和版本在供应商系统表中进行查询得到数据源对应的目标主数据编码;
在主数据表中根据目标主数据编码进行查询得到主数据推荐结果,主数据推荐结果为该系统的模式中所有表的集合。
第三步、根据数据源报告和主数据推荐结果,按照筛选方法得到该数据源的主数据识别结果,主数据识别结果包括项目名称、供应商、系统、版本、模式名、表英文名和表中文名;
第三步包括:
获取数据源报告中的数据量、表中文名和字段中文名;
设置数据量阈值,对元数据按照数据量阈值进行筛选,将低于数据量阈值的元数据作为多余数据进行筛除,得到第一筛选结果;
根据表中文名和字段中文名对第一筛选结果按照核心业务的关键词进行筛选,识别出核心业务数据,将其作为第二筛选结果;
将第二筛选结果和主数据推荐结果进行合并,得到候选主数据;
将候选主数据发送至实施工程师进行最终筛选,得到该数据源的主数据识别结果。
第四步、将该数据源的主数据识别结果保存至知识库中;
第五步、将该数据源的主数据识别结果同步到数据治理子系统;
第六步、数据治理子系统建立从数据源到数据仓库ODS层的数据采集关系,并在数据调度模块设置该数据采集关系的定时任务。
第六步包括:
根据该数据源的主数据识别结果,在数据仓库的ODS层中建立与数据源相同的表结构,以同步和存储主数据识别结果;
配置DataX工具,实现从数据源到ODS层的离线同步;
配置读取数据源的jdbcurl、用户名、密码、表和字段信息,配置写入数据源的jdbcurl、用户名、密码、表和字段信息;其中,读取数据源表字段顺序与写入数据源表字段顺序保持一致;
在数据调度模块设置该数据采集关系的定时任务,在指定时间内执行数据采集任务。
请参阅图3,以一个具体的例子进行说明:
(1)获取生成的数据源报告。
(2)从主数据知识库获取主数据推荐结果。主数据知识库预置主数据表。
主数据表示例如下:
其中MAINDATA_CODE是主数据编码、SCHEMA是数据库的模式、TABLENAME_EN是表英文名、TABLENAME_CHN是表中文名。
根据当前项目数据源的供应商、系统、版本在知识库供应商系统表中查询得到MAINDATA_CODE,在知识库主数据表中根据MAINDATA_CODE查询得到主数据推荐结果,推荐结果是该系统的模式中所有表的集合,主数据推荐结果包括:模式名、表英文名、表中文名。
(3)确认主数据。实施工程师根据数据源报告,选择数据量比较大的表作为主数据,根据表中文名和字段中文名确定核心业务数据作为主数据。结合第二步获得的主数据推荐结果。确定该数据源的主数据。其中,数据量较大是指表中的数据条数多。通过数据源报告可以排除一些空表、临时表和备份表。对于数据条数明显过低的数据可先一步进行排除。之后实施工程师综合考虑表中文名和字段中文名、主数据推荐结果,来选出该实施项目的核心数据,作为主数据。
(4)知识库保存识别主数据结果。将本实施项目数据源的识别主数据结果保存到知识库供应商系统表和主数据表中。主数据包括:项目名称、供应商、系统、版本、模式名、表英文名、表中文名。流程结束。
(5) 同步主数据识别结果到数据治理子系统。实施工作台将主数据识别结果同步到数据治理子系统。主数据识别结果包括:模式名、表英文名、表中文名。
(6)建立数据采集关系 。数据治理子系统建立从数据源到数据仓库ODS层的数据采集关系。依据生成数据源报告流程中数据治理子系统获得的元数据,根据识别到的主数据,在ODS层中建立与数据源相同的表结构。使用DataX工具实现离线数据同步。配置读取数据源jdbcurl、用户名、密码、表和字段,配置写入数据源jdbcurl、用户名、密码、表和字段。读取数据源表字段顺序与写入数据源表字段顺序保持一致。在调度模块设置该数据采集关系的定时任务。流程结束。
具体地,本实施例中,系统通过获取生成的数据源报告和主数据推荐结果,根据筛选方法识别数据源的主数据,实现了主数据的自动识别和推荐,提高了主数据管理的效率和准确性;主数据识别结果保存至知识库中,实现了对主数据识别结果的存储和管理,方便后续查询和使用;主数据识别结果同步到数据治理子系统,确保数据治理子系统中的数据与知识库中的数据保持一致,促进数据的统一管理和使用;在数据仓库的ODS层建立与数据源相同的表结构,配置DataX工具实现离线同步,以及设置定时任务进行数据采集,确保数据的及时更新和同步;在数据调度模块设置数据采集关系的定时任务,实现了从数据源到数据仓库ODS层的数据采集关系的建立和管理,为数据的采集和存储提供了可靠的支持。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于知识管理识别主数据的数据治理系统,其特征在于,包括:
数据治理子系统,其配置为对数据的获取、处理和使用进行监管,并在各项目中独立部署;数据治理子系统包括元数据管理模块、数据标准管理模块、主数据管理模块、数据调度模块、数据质量管理模块和数据安全管理模块;
知识库,其配置为预存储供应商系统表、数据字典表和主数据表;
实施工作台,其配置为与数据治理子系统和知识库进行数据和知识交互,在实施项目时生成数据源报告,并对主数据进行识别;
生成数据源报告的过程为:
步骤一、数据治理子系统连接当前项目的数据源,利用元数据管理模块采集数据源的元数据;
步骤二、从知识库按照第一推荐方法获取数据字典推荐结果,包括模式名、表英文名、表中文名、字段英文名和字段中文名;
步骤三、将元数据与数据字典推荐结果进行表英文名和字段英文名的匹配,将匹配成功的数据字典推荐结果的表英文名和字段英文名对应的表中文名和字段中文名补充进相应元数据中,得到补充后的元数据,以及匹配过程中得到的元数据对应的数据字典;
步骤四、将数据字典保存至知识库中;
步骤五、根据补充后的元数据生成数据源报告,数据源报告包括数据源信息、数据表信息和表字段信息,数据源信息包括:数据源类型、数据源名称、系统、模式名、表英文名、表中文名、字段数、数据量和占用空间,数据表信息包括:模式名、表英文名、表中文名、字段数、数据量和注释,表字段信息包括:字段英文名、字段中文名、数据类型、长度、是否必填、是否主键和注释;
步骤六、实施工作台将补充后的元数据和数据字典同步到数据治理子系统。
2.如权利要求1所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,步骤二中,第一推荐方法包括:
当前项目的数据源的元素包括供应商、系统、版本、数据源类型、IP、端口、用户和密码;供应商系统表的元素包括系统编号、供应商、系统、版本、数据字典编码和主数据编码;数据字典表的元素包括数据字典编码、数据库的模式、表英文名、表中文名、字段英文名和字段中文名;
根据当前项目的数据源的供应商、系统和版本在供应商系统表中查询匹配,得到数据源对应的目标数据字典编码;
在数据字典表中根据目标数据字典编码查询得到与该数据源相关的数据字典信息,形成数据字典推荐结果。
3.如权利要求2所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,步骤三包括:
遍历元数据,查找表中文名的内容缺失的元数据,作为第一待补元数据,查找字段中文名的内容缺失的元数据,作为第二待补元数据;
遍历第一待补元数据,实施工作台根据数据字典推荐结果中的表英文名在第一待补元数据中匹配相同的表英文名,将匹配成功的数据字典推荐结果中的表英文名作为第一目标表英文名,获取第一目标表英文名相应的表中文名作为第一目标表中文名,将第一目标表中文名补充至第一待补元数据中,得到第一补充元数据;
遍历第二待补元数据,实施工作台根据数据字典推荐结果中的表英文名和字段英文名在第二待补元数据中匹配相同的表英文名和字段英文名,将匹配成功的数据字典推荐结果中的表英文名和字段英文名作为第二目标表英文名和第二目标字段英文名,获取第二目标表英文名相应的表中文名作为第二目标表中文名,获取第二目标字段英文名相应的字段中文名作为第二目标字段中文名,将第二目标表中文名和第二目标字段中文名补充至第二待补元数据中,得到第二补充元数据;
判断第一待补元数据和第二待补元数据是否均补充完毕,若是,则结束匹配过程,将第一补充元数据和第二补充元数据进行合并去重后更新至元数据中,得到补充后的元数据,并根据匹配过程中匹配到的数据字典推荐结果中的信息形成元数据对应的数据字典;若否,则采用人工补充方式对第一待补元数据和第二待补元数据进行二次补充,根据二次补充的结果得到补充后的元数据,以及元数据对应的数据字典。
4.如权利要求3所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,人工补充方式包括:
收集数据源相关的文档资料,在文档资料中筛选与元数据相关的信息,根据信息得到缺失的表中文名和缺失的字段中文名,将其补充至第一待补元数据或第二待补元数据中,得到二次补充的结果。
5.如权利要求2所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,对主数据进行识别的过程为:
第一步、获取生成的数据源报告;
第二步、从知识库按照第二推荐方法获取主数据推荐结果,主数据推荐结果包括模式名、表英文名和表中文名;
第三步、根据数据源报告和主数据推荐结果,按照筛选方法得到该数据源的主数据识别结果,主数据识别结果包括项目名称、供应商、系统、版本、模式名、表英文名和表中文名;
第四步、将该数据源的主数据识别结果保存至知识库中;
第五步、将该数据源的主数据识别结果同步到数据治理子系统;
第六步、数据治理子系统建立从数据源到数据仓库ODS层的数据采集关系,并在数据调度模块设置该数据采集关系的定时任务。
6.如权利要求5所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,第二步中,第二推荐方法包括:
主数据表包括主数据编码、数据库的模式、表英文名和表中文名;
根据当前项目的数据源的供应商、系统和版本在供应商系统表中进行查询得到数据源对应的目标主数据编码;
在主数据表中根据目标主数据编码进行查询得到主数据推荐结果,主数据推荐结果为该系统的模式中所有表的集合。
7.如权利要求5所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,第三步包括:
获取数据源报告中的数据量、表中文名和字段中文名;
设置数据量阈值,对元数据按照数据量阈值进行筛选,将低于数据量阈值的元数据作为多余数据进行筛除,得到第一筛选结果;
根据表中文名和字段中文名对第一筛选结果按照核心业务的关键词进行筛选,识别出核心业务数据,将其作为第二筛选结果;
将第二筛选结果和主数据推荐结果进行合并,得到候选主数据;
将候选主数据发送至实施工程师进行最终筛选,得到该数据源的主数据识别结果。
8.如权利要求5所述的一种基于知识管理识别主数据的数据治理系统,其特征在于,第六步包括:
根据该数据源的主数据识别结果,在数据仓库的ODS层中建立与数据源相同的表结构,以同步和存储主数据识别结果;
配置DataX工具,实现从数据源到ODS层的离线同步;
配置读取数据源的jdbcurl、用户名、密码、表和字段信息,配置写入数据源的jdbcurl、用户名、密码、表和字段信息;其中,读取数据源表字段顺序与写入数据源表字段顺序保持一致;
在数据调度模块设置该数据采集关系的定时任务,在指定时间内执行数据采集任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410406023.6A CN117992443B (zh) | 2024-04-07 | 2024-04-07 | 一种基于知识管理识别主数据的数据治理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410406023.6A CN117992443B (zh) | 2024-04-07 | 2024-04-07 | 一种基于知识管理识别主数据的数据治理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117992443A true CN117992443A (zh) | 2024-05-07 |
CN117992443B CN117992443B (zh) | 2024-06-18 |
Family
ID=90893679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410406023.6A Active CN117992443B (zh) | 2024-04-07 | 2024-04-07 | 一种基于知识管理识别主数据的数据治理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992443B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160306827A1 (en) * | 2015-04-15 | 2016-10-20 | International Business Machines Corporation | Synchronizing data rules and corresponding metadata to implement data governance |
US20180255103A1 (en) * | 2016-08-30 | 2018-09-06 | Southeast University | Metadata supporting cyber content sharing and governance and application method thereof |
JP2020197839A (ja) * | 2019-05-31 | 2020-12-10 | 富士通株式会社 | データ管理プログラム、データ管理方法およびデータ管理システム |
CN114329190A (zh) * | 2021-12-13 | 2022-04-12 | 南京莱斯信息技术股份有限公司 | 一种数据标准处理系统 |
CN115424739A (zh) * | 2022-08-30 | 2022-12-02 | 上海卫心科技有限公司 | 一种基于药品知识库的药品元数据治理方法及系统 |
US20230328104A1 (en) * | 2022-03-24 | 2023-10-12 | International Business Machines Corporation | Data governance and security for digital assests |
US20230350862A1 (en) * | 2021-10-18 | 2023-11-02 | Trigyan Corporation Inc. | Methods and systems for data management, integration, and interoperability |
CN117370356A (zh) * | 2023-10-23 | 2024-01-09 | 中银金融科技(苏州)有限公司 | 一种数据标准映射元数据的方法和相关装置 |
-
2024
- 2024-04-07 CN CN202410406023.6A patent/CN117992443B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160306827A1 (en) * | 2015-04-15 | 2016-10-20 | International Business Machines Corporation | Synchronizing data rules and corresponding metadata to implement data governance |
US20180255103A1 (en) * | 2016-08-30 | 2018-09-06 | Southeast University | Metadata supporting cyber content sharing and governance and application method thereof |
JP2020197839A (ja) * | 2019-05-31 | 2020-12-10 | 富士通株式会社 | データ管理プログラム、データ管理方法およびデータ管理システム |
US20230350862A1 (en) * | 2021-10-18 | 2023-11-02 | Trigyan Corporation Inc. | Methods and systems for data management, integration, and interoperability |
CN114329190A (zh) * | 2021-12-13 | 2022-04-12 | 南京莱斯信息技术股份有限公司 | 一种数据标准处理系统 |
US20230328104A1 (en) * | 2022-03-24 | 2023-10-12 | International Business Machines Corporation | Data governance and security for digital assests |
CN115424739A (zh) * | 2022-08-30 | 2022-12-02 | 上海卫心科技有限公司 | 一种基于药品知识库的药品元数据治理方法及系统 |
CN117370356A (zh) * | 2023-10-23 | 2024-01-09 | 中银金融科技(苏州)有限公司 | 一种数据标准映射元数据的方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117992443B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190317944A1 (en) | Methods and apparatus for integrated management of structured data from various sources and having various formats | |
CN109815254B (zh) | 基于大数据的跨地域任务调度方法及系统 | |
CN103218402B (zh) | 通用的数据库数据结构与数据迁移系统及其方法 | |
CN102917009B (zh) | 一种基于云计算技术的股票数据采集和存储方法和系统 | |
CN102999524A (zh) | 一种文档关联检索方法及系统 | |
CN111125116B (zh) | 定位业务表中代码字段及对应代码表的方法及系统 | |
US11537785B1 (en) | Spreadsheet flat data extractor | |
CN112783482B (zh) | 一种可视化表单生成方法、装置、设备及存储介质 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN115599769A (zh) | 一种数据迁移方法、装置、电子设备及存储介质 | |
Drucker et al. | Comparing and managing multiple versions of slide presentations | |
CN111858730A (zh) | 一种图数据库的数据导入导出装置、方法、设备及介质 | |
CN114416638A (zh) | 一种电子文件自动归档方法及系统 | |
CN117992443B (zh) | 一种基于知识管理识别主数据的数据治理系统 | |
CN110543520B (zh) | 一种数据迁移的方法和装置 | |
Labrador et al. | CERNBox: the CERN cloud storage hub | |
CN114218347A (zh) | 多个文件内容的快速索引查找方法 | |
CN113986951A (zh) | 一种通用etl代码的生成系统及方法 | |
CN102349054A (zh) | 自动数据存储结构检测 | |
CN105589803A (zh) | 一种测试工具的生成方法和终端设备 | |
CN112015725B (zh) | 一种数据管理方法和装置 | |
CN113901332B (zh) | 任职历程信息挖掘方法和装置、以及存储介质和电子设备 | |
CN112835857B (zh) | 一种工作群组的文件主名管理方法 | |
CN118586368B (zh) | 一种基于协作平台的报表填报方法、系统、装置及存储介质 | |
CN113448966B (zh) | 一种订单类数据多维度分表系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A data governance system based on knowledge management to identify master data Granted publication date: 20240618 Pledgee: China Postal Savings Bank Co.,Ltd. Wuhan Branch Pledgor: Yunqi Intelligent Technology Co.,Ltd. Registration number: Y2024980029917 |