CN117992443A

CN117992443A - 一种基于知识管理识别主数据的数据治理系统

Info

Publication number: CN117992443A
Application number: CN202410406023.6A
Authority: CN
Inventors: 胡琦; 严鹤; 闫喜军; 王俊
Original assignee: Yunqi Intelligent Technology Co ltd
Current assignee: Yunqi Intelligent Technology Co ltd
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-05-07
Anticipated expiration: 2044-04-07
Also published as: CN117992443B

Abstract

本发明提供一种基于知识管理识别主数据的数据治理系统，涉及数据识别技术领域，包括：数据治理子系统，其配置为对数据的获取、处理和使用进行监管，并在各项目中独立部署；知识库，其配置为预存储供应商系统表、数据字典表和主数据表；实施工作台，其配置为与数据治理子系统和知识库进行数据和知识交互，在实施项目时生成数据源报告，并对主数据进行识别。本发明通过增加知识库和实施工作台，实现各项目实施工作的知识共享，自动生成数据源报告，提高数据调研的效率，并将识别主数据的结果快速应用到数据治理中。

Description

一种基于知识管理识别主数据的数据治理系统

技术领域

本发明涉及数据识别技术领域，尤其涉及一种基于知识管理识别主数据的数据治理系统。

背景技术

主数据是用来描述核心业务实体的数据，是交易业务的执行主体，是在整个价值链上被重复或共享应用于多个业务流程、跨越多个业务部门和系统、高价值的基础数据。

主数据管理是数据治理的重要组成部分，主数据管理的第一步是要识别主数据。符合主数据特征的数据我们可以识别为主数据，即核心业务数据、变化缓慢或变化周期长、有共享需求、有被重复利用的价值的数据。在数据治理项目中识别主数据的方法是先对现有的业务数据进行调研和分析，再进行用户访谈，最后确定主数据。组织单位信息系统多、数据库中的数据表多、缺少数据库说明书等因素导致在实施数据治理项目中识别主数据效率低下。

主数据的重要性在于它可以作为业务实体的核心数据，为企业的各个部门和系统提供统一、可靠的数据来源，从而提高数据的准确性和一致性，为企业的决策和运营提供有力支持。因此，主数据管理不仅仅是识别主数据，更是需要建立完善的数据管理流程和规范，确保主数据的质量和可靠性，实现数据的价值最大化。

因此，需要提供一种新的以主数据为核心的数据治理系统，来提高数据的利用价值。

发明内容

有鉴于此，本发明提供一种基于知识管理识别主数据的数据治理系统，通过增加知识库和实施工作台，实现各项目实施工作的知识共享，自动生成数据源报告，提高数据调研的效率，并将识别主数据的结果快速应用到数据治理中。

本发明的技术目的是这样实现的：

本发明提供一种基于知识管理识别主数据的数据治理系统，包括：

数据治理子系统，其配置为对数据的获取、处理和使用进行监管，并在各项目中独立部署；数据治理子系统包括元数据管理模块、数据标准管理模块、主数据管理模块、数据调度模块、数据质量管理模块和数据安全管理模块；

知识库，其配置为预存储供应商系统表、数据字典表和主数据表；

实施工作台，其配置为与数据治理子系统和知识库进行数据和知识交互，在实施项目时生成数据源报告，并对主数据进行识别；

生成数据源报告的过程为：

步骤一、数据治理子系统连接当前项目的数据源，利用元数据管理模块采集数据源的元数据；

步骤二、从知识库按照第一推荐方法获取数据字典推荐结果，包括模式名、表英文名、表中文名、字段英文名和字段中文名；

步骤三、将元数据与数据字典推荐结果进行表英文名和字段英文名的匹配，将匹配成功的数据字典推荐结果的表英文名和字段英文名对应的表中文名和字段中文名补充进相应元数据中，得到补充后的元数据，以及匹配过程中得到的元数据对应的数据字典；

步骤四、将数据字典保存至知识库中；

步骤五、根据补充后的元数据生成数据源报告，数据源报告包括数据源信息、数据表信息和表字段信息，数据源信息包括：数据源类型、数据源名称、系统、模式名、表英文名、表中文名、字段数、数据量和占用空间，数据表信息包括：模式名、表英文名、表中文名、字段数、数据量和注释，表字段信息包括：字段英文名、字段中文名、数据类型、长度、是否必填、是否主键和注释；

步骤六、实施工作台将补充后的元数据和数据字典同步到数据治理子系统。

在上述技术方案的基础上，优选的，步骤二中，第一推荐方法包括：

当前项目的数据源的元素包括供应商、系统、版本、数据源类型、IP、端口、用户和密码；供应商系统表的元素包括系统编号、供应商、系统、版本、数据字典编码和主数据编码；数据字典表的元素包括数据字典编码、数据库的模式、表英文名、表中文名、字段英文名和字段中文名；

根据当前项目的数据源的供应商、系统和版本在供应商系统表中查询匹配，得到数据源对应的目标数据字典编码；

在数据字典表中根据目标数据字典编码查询得到与该数据源相关的数据字典信息，形成数据字典推荐结果。

在上述技术方案的基础上，优选的，步骤三包括：

遍历元数据，查找表中文名的内容缺失的元数据，作为第一待补元数据，查找字段中文名的内容缺失的元数据，作为第二待补元数据；

遍历第一待补元数据，实施工作台根据数据字典推荐结果中的表英文名在第一待补元数据中匹配相同的表英文名，将匹配成功的数据字典推荐结果中的表英文名作为第一目标表英文名，获取第一目标表英文名相应的表中文名作为第一目标表中文名，将第一目标表中文名补充至第一待补元数据中，得到第一补充元数据；

遍历第二待补元数据，实施工作台根据数据字典推荐结果中的表英文名和字段英文名在第二待补元数据中匹配相同的表英文名和字段英文名，将匹配成功的数据字典推荐结果中的表英文名和字段英文名作为第二目标表英文名和第二目标字段英文名，获取第二目标表英文名相应的表中文名作为第二目标表中文名，获取第二目标字段英文名相应的字段中文名作为第二目标字段中文名，将第二目标表中文名和第二目标字段中文名补充至第二待补元数据中，得到第二补充元数据；

判断第一待补元数据和第二待补元数据是否均补充完毕，若是，则结束匹配过程，将第一补充元数据和第二补充元数据进行合并去重后更新至元数据中，得到补充后的元数据，并根据匹配过程中匹配到的数据字典推荐结果中的信息形成元数据对应的数据字典；若否，则采用人工补充方式对第一待补元数据和第二待补元数据进行二次补充，根据二次补充的结果得到补充后的元数据，以及元数据对应的数据字典。

在上述技术方案的基础上，优选的，人工补充方式包括：

收集数据源相关的文档资料，在文档资料中筛选与元数据相关的信息，根据信息得到缺失的表中文名和缺失的字段中文名，将其补充至第一待补元数据或第二待补元数据中，得到二次补充的结果。

在上述技术方案的基础上，优选的，对主数据进行识别的过程为：

第一步、获取生成的数据源报告；

第二步、从知识库按照第二推荐方法获取主数据推荐结果，主数据推荐结果包括模式名、表英文名和表中文名；

第三步、根据数据源报告和主数据推荐结果，按照筛选方法得到该数据源的主数据识别结果，主数据识别结果包括项目名称、供应商、系统、版本、模式名、表英文名和表中文名；

第四步、将该数据源的主数据识别结果保存至知识库中；

第五步、将该数据源的主数据识别结果同步到数据治理子系统；

第六步、数据治理子系统建立从数据源到数据仓库ODS层的数据采集关系，并在数据调度模块设置该数据采集关系的定时任务。

在上述技术方案的基础上，优选的，第二步中，第二推荐方法包括：

主数据表包括主数据编码、数据库的模式、表英文名和表中文名；

根据当前项目的数据源的供应商、系统和版本在供应商系统表中进行查询得到数据源对应的目标主数据编码；

在主数据表中根据目标主数据编码进行查询得到主数据推荐结果，主数据推荐结果为该系统的模式中所有表的集合。

在上述技术方案的基础上，优选的，第三步包括：

获取数据源报告中的数据量、表中文名和字段中文名；

设置数据量阈值，对元数据按照数据量阈值进行筛选，将低于数据量阈值的元数据作为多余数据进行筛除，得到第一筛选结果；

根据表中文名和字段中文名对第一筛选结果按照核心业务的关键词进行筛选，识别出核心业务数据，将其作为第二筛选结果；

将第二筛选结果和主数据推荐结果进行合并，得到候选主数据；

将候选主数据发送至实施工程师进行最终筛选，得到该数据源的主数据识别结果。

在上述技术方案的基础上，优选的，第六步包括：

根据该数据源的主数据识别结果，在数据仓库的ODS层中建立与数据源相同的表结构，以同步和存储主数据识别结果；

配置DataX工具，实现从数据源到ODS层的离线同步；

配置读取数据源的jdbcurl、用户名、密码、表和字段信息，配置写入数据源的jdbcurl、用户名、密码、表和字段信息；其中，读取数据源表字段顺序与写入数据源表字段顺序保持一致；

在数据调度模块设置该数据采集关系的定时任务，在指定时间内执行数据采集任务。

本发明的方法相对于现有技术具有以下有益效果：

（1）本发明提供的数据治理系统将知识库集中部署，使得数据字典和主数据能够被所有项目共享，避免了重复建设和维护，提高了数据管理的效率；实施工作台作为Saas服务提供给各项目，为实施工程师提供统一的工作环境和工具，可以减少重复工作，提高工作效率；

（2）本发明中的实施工作台为各项目提供独立租户，实现各项目实施工作的隔离，保障项目数据的独立性和安全性；知识库对所有的数据治理项目提供服务，实现各项目实施工作的知识共享，促进团队协作和经验分享；

（3）本发明提供的系统能够自动连接数据源，采集元数据，并根据数据字典推荐结果生成数据源报告，同时将数据字典保存至知识库中，实现对数据字典的集中管理和维护。

（4）本发明通过将元数据与数据字典推荐结果进行匹配和补充，可以提高数据的一致性和完整性，减少数据错误和冗余；

（5）本发明能够检测元数据中表中文名和字段中文名的内容缺失，并通过自动匹配方式完善元数据，保持元数据的完整性和准确性；

（6）本发明还提供人工补充方式，使用户可以根据文档资料中的信息对元数据进行二次补充，进一步提高数据的准确性和完整性；

（7）本发明通过获取生成的数据源报告和主数据推荐结果，根据筛选方法识别数据源的主数据，实现了主数据的自动识别和推荐，提高了主数据管理的效率和准确性；

（8）本发明将主数据识别结果保存至知识库中，实现了对主数据识别结果的存储和管理，方便后续查询和使用；主数据识别结果同步到数据治理子系统，确保数据治理子系统中的数据与知识库中的数据保持一致，促进数据的统一管理和使用；

（9）本发明在数据仓库的ODS层建立与数据源相同的表结构，配置DataX工具实现离线同步，以及在数据调度模块设置数据采集关系的定时任务，实现了从数据源到数据仓库ODS层的数据采集关系的建立和管理，为数据的采集和存储提供了可靠的支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的系统结构图；

图2为本发明实施例的生成数据源报告的流程示意图；

图3为本发明实施例的识别主数据的流程示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提供一种基于知识管理识别主数据的数据治理系统，包括：

数据治理子系统，其配置为对数据的获取、处理和使用进行监管，并在各项目中独立部署；

实施工作台，其配置为与数据治理子系统和知识库进行数据和知识交互，在实施项目时生成数据源报告，并对主数据进行识别。

其中，知识库包括数据字典知识库和主数据知识库。

本实施例中，数据治理系统由数据字典知识库、主数据知识库、实施工作台和数据治理子系统组成。

具体地，本发明一实施例中，数据治理子系统包括元数据管理模块、数据标准管理模块、主数据管理模块、数据调度模块、数据质量管理模块和数据安全管理模块。

数据治理子系统由元数据管理、数据标准管理、主数据管理、数据质量管理和数据安全管理等模块组成。用户使用数据治理子系统，对数据的获取、处理、使用进行监管。实施工作台包含生成数据源报告和识别主数据。在项目实施阶段，实施工程师使用实施工作台识别主数据。数据字典知识库存储各项目的数据字典，提供数据字典推荐。主数据知识库存储各项目的主数据，提供主数据推荐。

数据治理子系统在各项目独立部署。实施工作台、数据字典知识库和主数据知识库集中部署，为实施工程师提供Saas服务。实施工作台为各项目提供独立租户，实现各项目实施工作的隔离。数据字典知识库和主数据知识库，对所有的数据治理项目提供服务，实现各项目实施工作的知识共享。

在生成数据源报告时，协同数据字典知识库、实施工作台和数据治理子系统。生成数据源报告的过程为：

第一推荐方法包括：

步骤三包括：

人工补充方式包括：

步骤四、将数据字典保存至知识库中；

请参阅图2，以一个具体的例子进行说明：

（1）采集元数据。调用数据治理子系统元数据管理中采集元数据的能力。数据治理子系统中管理数据源的供应商、系统、版本、数据源类型、IP、端口、用户和密码。连接数据源后，采集数据库的元数据，包括模式名、表英文名、表注释、字段英文名、字段注释、数据类型、是否必填、是否主键、数据量、占用空间。

（2）从数据字典知识库获取数据字典推荐结果。数据字典知识库预置供应商系统表和数据字典表。

供应商系统表示例如下：

其中SYSID是系统编号、PROVIDER_CODE是供应商、SYSTEM_CODE是系统、VERSION是版本、DICT_CODE是数据字典编码、MAINDATA_CODE是主数据编码。

数据字典表示例如下：

其中DICT_CODE是数据字典编码、SCHEMA是数据库的模式、TABLENAME_EN是表英文名、TABLENAME_CHN是表中文名、COLUMN_EN是字段英文名、COLUMN_CHN是字段中文名。

根据当前项目数据源的供应商、系统、版本在知识库供应商系统表中查询得到DICT_CODE，在知识库数据字典表中根据DICT_CODE查询得到数据字典推荐结果，数据字典包括：模式名、表英文名、表中文名、字段英文名和字段中文名。

（3）自动补齐表中文名和字段中文名。实施工作台根据表英文名在元数据中搜索到完全匹配一致的表英文名，在这条元数据中补充对应的表中文名。根据表英文名和字段英文名在元数据中搜索到完全匹配一致的表英文名和字段英文名，在这条字段元数据中补充对应的字段中文名。

（4）手工补齐表中文名和字段中文名。对于仍然缺失的信息，通过数据库说明书、软件设计说明书等文档、用户访谈等方式收集信息，在实施工作台上补齐。在表英文名后补齐表中文名，在表英文名和字段英文名后补齐字段中文名。

（5）知识库保存数据字典。将本实施项目数据源的数据字典数据保存到知识库的供应商系统表和数据字典表中。数据字典包括：项目名称、供应商、系统、版本、模式名、表英文名、表中文名、字段英文名和字段中文名。流程结束。

（6）生成数据源报告。数据源报告包括数据库信息、表信息和字段信息。数据库信息包括：数据源类型、数据源名称、系统、模式名、表英文名、表中文名、字段数、数据量、占用空间。数据表信息包括：模式名、表英文名、表中文名、字段数、数据量、注释。表字段信息包括：字段英文名、字段中文名、数据类型、长度、是否必填、是否主键、注释。系统将上述信息内容，以图形、表格和文字描述等形式，进行可视化展示并且生成文件。流程结束。

（7）同步元数据到数据治理子系统。实施工作台将采集元数据的结果和数据字典同步到数据治理子系统。通过第三步和第四步，实现了在采集元数据基础上补齐数据字典。元数据包括：模式名、表英文名、表中文名、表注释、字段英文名、字段中文名、字段注释、数据类型、是否必填、是否主键。流程结束。

具体地，本实施例中，系统能够自动连接数据源，采集元数据，并根据数据字典推荐结果生成数据源报告。系统能够将数据字典保存至知识库中，实现对数据字典的集中管理和维护。通过将元数据与数据字典推荐结果进行匹配和补充，系统可以提高数据的一致性和完整性，减少数据错误和冗余。系统能够检测元数据中表中文名和字段中文名的内容缺失，并通过自动匹配或人工补充的方式完善元数据，保持元数据的完整性和准确性。系统提供人工补充方式，使用户可以根据文档资料中的信息对元数据进行二次补充，进一步提高数据的准确性和完整性。系统实现了数据源报告生成、数据字典管理和元数据补充的一体化，为数据治理提供了全面的支持和解决方案。

具体地，本发明一实施例中，识别主数据流程实现了协同主数据知识库、实施工作台和数据治理子系统。对主数据进行识别的过程为：

第一步、获取生成的数据源报告；

第二推荐方法包括：

第三步包括：

获取数据源报告中的数据量、表中文名和字段中文名；

第四步、将该数据源的主数据识别结果保存至知识库中；

第六步包括：

配置DataX工具，实现从数据源到ODS层的离线同步；

请参阅图3，以一个具体的例子进行说明：

（1）获取生成的数据源报告。

（2）从主数据知识库获取主数据推荐结果。主数据知识库预置主数据表。

主数据表示例如下：

其中MAINDATA_CODE是主数据编码、SCHEMA是数据库的模式、TABLENAME_EN是表英文名、TABLENAME_CHN是表中文名。

根据当前项目数据源的供应商、系统、版本在知识库供应商系统表中查询得到MAINDATA_CODE，在知识库主数据表中根据MAINDATA_CODE查询得到主数据推荐结果，推荐结果是该系统的模式中所有表的集合，主数据推荐结果包括：模式名、表英文名、表中文名。

（3）确认主数据。实施工程师根据数据源报告，选择数据量比较大的表作为主数据，根据表中文名和字段中文名确定核心业务数据作为主数据。结合第二步获得的主数据推荐结果。确定该数据源的主数据。其中，数据量较大是指表中的数据条数多。通过数据源报告可以排除一些空表、临时表和备份表。对于数据条数明显过低的数据可先一步进行排除。之后实施工程师综合考虑表中文名和字段中文名、主数据推荐结果，来选出该实施项目的核心数据，作为主数据。

（4）知识库保存识别主数据结果。将本实施项目数据源的识别主数据结果保存到知识库供应商系统表和主数据表中。主数据包括：项目名称、供应商、系统、版本、模式名、表英文名、表中文名。流程结束。

（5）同步主数据识别结果到数据治理子系统。实施工作台将主数据识别结果同步到数据治理子系统。主数据识别结果包括：模式名、表英文名、表中文名。

（6）建立数据采集关系。数据治理子系统建立从数据源到数据仓库ODS层的数据采集关系。依据生成数据源报告流程中数据治理子系统获得的元数据，根据识别到的主数据，在ODS层中建立与数据源相同的表结构。使用DataX工具实现离线数据同步。配置读取数据源jdbcurl、用户名、密码、表和字段，配置写入数据源jdbcurl、用户名、密码、表和字段。读取数据源表字段顺序与写入数据源表字段顺序保持一致。在调度模块设置该数据采集关系的定时任务。流程结束。

具体地，本实施例中，系统通过获取生成的数据源报告和主数据推荐结果，根据筛选方法识别数据源的主数据，实现了主数据的自动识别和推荐，提高了主数据管理的效率和准确性；主数据识别结果保存至知识库中，实现了对主数据识别结果的存储和管理，方便后续查询和使用；主数据识别结果同步到数据治理子系统，确保数据治理子系统中的数据与知识库中的数据保持一致，促进数据的统一管理和使用；在数据仓库的ODS层建立与数据源相同的表结构，配置DataX工具实现离线同步，以及设置定时任务进行数据采集，确保数据的及时更新和同步；在数据调度模块设置数据采集关系的定时任务，实现了从数据源到数据仓库ODS层的数据采集关系的建立和管理，为数据的采集和存储提供了可靠的支持。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识管理识别主数据的数据治理系统，其特征在于，包括：

生成数据源报告的过程为：

步骤四、将数据字典保存至知识库中；

2.如权利要求1所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，步骤二中，第一推荐方法包括：

3.如权利要求2所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，步骤三包括：

4.如权利要求3所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，人工补充方式包括：

5.如权利要求2所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，对主数据进行识别的过程为：

第一步、获取生成的数据源报告；

第四步、将该数据源的主数据识别结果保存至知识库中；

6.如权利要求5所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，第二步中，第二推荐方法包括：

7.如权利要求5所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，第三步包括：

获取数据源报告中的数据量、表中文名和字段中文名；

8.如权利要求5所述的一种基于知识管理识别主数据的数据治理系统，其特征在于，第六步包括：

配置DataX工具，实现从数据源到ODS层的离线同步；