CN112416918A

CN112416918A - 数据治理系统及其工作方法

Info

Publication number: CN112416918A
Application number: CN202011310007.5A
Authority: CN
Inventors: 王毅成; 徐欢; 陈建文; 陈泽锋; 金鹏
Original assignee: Yitong Technology Hangzhou Co ltd
Current assignee: Yitong Technology Hangzhou Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20

Abstract

本发明涉及一种数据治理系统及其工作方法，系统包括由下至上依次连接的数据采集层和数据仓库；数据采集层包括：业务数据模块，用于存储本地数据；接口管理模块，用于通过接口连接数据仓库；数据填报模块，用于将数据进行上报；数据爬虫模块，用于对公开数据采集上传至数据仓库；数据仓库包括：由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层；本发明提供了从数据采集，清洗，整合，计算和应用的全流程解决方案，并完全符合政务数字化领域现状，数据多方式聚合采集，无论是手工填报，数据接口，离线表格等等均可快速采集入库，形成数据沉淀，能够自动化处理，直接形成高质量数据存储。

Description

数据治理系统及其工作方法

技术领域

本发明属于数据处理技术领域，具体涉及一种数据治理系统及其工作方法。

背景技术

数据治理，从严格的定义来讲是对组织的大数据管理并利用其进行评估、指导和监督的体系框架。企业通过制定战略方针、建立组织架构、明确职责分工等，实现数据的风险可控、安全合规、绩效提升和价值创造，并提供创新的大数据服务。从个人实践的层面来讲，数据治理是对存量数据治理和增量数据管控的一个过程，对存量数据实现由乱到治、建章立制，对增量数据实现严格把控、行不逾矩的约束。

相关技术中，行业内数据治理产品较多，但是主要是以阿里巴巴，袋鼠云等公司为代表的数据治理平台产品，这类产品主要是提供私有化部署，面向开发人员进行编程处理，有如下一些弊端：

1)，很多政府部门自己没有数据库系统，数据都分布各个业务系统、离线的表格文件中，甚至没有相关数据沉淀需要人工录入，这样私有化部署直接对现有数据库的方式就无法进行；

2)，虽然有比较全面的数据治理的功能，但是这些功能基本上都是依赖于程序员去根据实际数据的情况将数据进行同步，清洗，转换，整合。平台只是提供了相应的功能套件的集合，可以在一个平台上，完成上述内容，无法做到自动化智能化，而且不同部门或者不同地区相似的流程需要重新开发，边际成本太高

3)，无法支持多样的数据采集方式，包括在线的填报，更新，手动的导入等此类数据的流入无法兼容。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种数据治理系统及其工作方法，以解决现有技术中数据治理系统存在多处弊端的问题。

为实现以上目的，本发明采用如下技术方案：一种数据治理系统，包括：由下至上依次连接的数据采集层和数据仓库；所述数据采集层用于对接多种数据源；所述数据仓库用于对数据源的数据进行处理并存储；

所述数据采集层包括：业务数据模块、接口管理模块、数据填报模块以及数据爬虫模块；

所述业务数据模块用于存储本地数据；

所述接口管理模块用于通过接口连接数据仓库；

所述数据填报模块用于将数据进行上报；

所述数据爬虫模块用于对公开数据采集上传至数据仓库；

所述数据仓库包括：由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层；

所述业务同步层用于采集多种来源的数据；

所述细节数据层用于通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗；

所述数据基础层用于将清洗后的数据存储至相应的数据表中；

所述数据服务层用于通过预设的通用模板对所述数据表中的数据进行计算并生成指标表；

所述应用数据层用于根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集。

进一步的，所述通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗，包括：

获取业务同步层的数据；

根据预设的数据模型判断数据的类型；

根据数据的类型确定清洗规则；

根据所述清洗规则对数据进行清洗并对清洗后的数据进行数据校验；

将校验合格的数据输入到数据基础层。

进一步的，所述根据数据的类型确定清洗规则，包括：

如果数据达到要求，则将数据直接输入到数据基础层；

否则，根据预设的清洗规则库调用并配置数据清洗规则。

进一步的，所述将清洗后的数据存储至相应的数据表中，包括：

构建主题数据表结构形成主题库数据表字典；

获取细节数据层的数据；

根据所述主题库数据表字典判断数据字段是否含有对应的主题字段；

如果含有，则判断数据字段对应的数据在所述主题数据表中是否存在；

如果存在，则根据预设的数据质量对比模型对数据进行数据质量对比，并根据对比结果保留数据输入至数据服务层，否则直接将数据输入至数据服务层。

进一步的，所述通过预设的通用模板对所述数据表中的数据进行计算并生成指标表，包括：

建立指标计算逻辑映射，生成指标库；

获取数据基础层的数据；

利用所述指标库对所述数据进行指标计算并统一粒度；

将计算后得到的指标以指标表的格式进行存储。

进一步的，所述根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集，包括：

根据项目、场景的需要在所述指标表中抽取数据；

对所述抽取数据进行粒度聚合，生成项目数据集。

进一步的，所述多种来源的数据包括：

采集到的数据、接口流入的数据、爬虫采集的数据。

进一步的，所述清洗方式包括：

空值填充、异常值删除、字段标准化、数值归一化、日期标准化以及电话号码标准化。

进一步的，所述数据表包括：

业务数据表、采集数据表、填报数据表以及爬虫数据表。

本申请实施例提供一种基于上述任一实施例提供的数据治理系统的工作方法，包括：

数据采集层对接多种数据源，采集多种来源的数据；

数据仓库接收多种来源的数据；

通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗；

将清洗后的数据存储至相应的数据表中；

通过预设的通用模板对所述数据表中的数据进行计算并生成指标表；

根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集。

本发明采用以上技术方案，能够达到的有益效果包括：从数据采集，清洗，整合，计算和应用的全流程解决方案，并完全符合政务数字化领域现状，做到如下几点：

数据多方式聚合采集，无论是手工填报，数据接口，离线表格等等均可快速采集入库，形成数据沉淀；

数据处理根据政务项目历史累计经验，智能化判断，自动化处理，直接形成高质量数据存储，无需依照数据情况，一份份数据重新重新编码处理

数据指标和明细自动根据需要聚合计算，并能即时生成事实表提供前端应用或者用户使用，支持多种调用方式或导出。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种数据治理系统的结构示意图；

图2为本发明细节数据层的工作流程示意图；

图3为本发明数据基础层的工作流程示意图；

图4为本发明数据服务层的工作流程示意图；

图5为本发明一种数据治理系统的工作方法的步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的数据治理系统及其工作方法。

如图1所示，本申请实施例中提供的数据治理系统，包括，由下至上依次连接的数据采集层和数据仓库；所述数据采集层用于对接多种数据源；所述数据仓库用于对数据源的数据进行处理并存储；

所述业务数据模块用于存储本地数据；

所述接口管理模块用于通过接口连接数据仓库；

所述数据填报模块用于将数据进行上报；

所述数据爬虫模块用于对公开数据采集上传至数据仓库；

所述业务同步层用于采集多种来源的数据；

优选的，所述多种来源的数据包括：

采集到的数据、接口流入的数据、爬虫采集的数据。

所述清洗方式包括：

所述数据表包括：

业务数据表、采集数据表、填报数据表以及爬虫数据表。

数据治理系统的工作原理为：底层为数据采集层，目的是通过多种的系统能够快速对接各种类型数据源，其中接口管理模块可以将已有接口快速接入数据仓库中，适配多种数据库；数据填报模块是是基于页面端的填报平台，无论是存量数据还是增量数据均可通过此模块上报，直接存入相关数据表中；数据爬虫模块是针对公开数据，快速采集入库使用的模块。

上层为大数据仓库，总共有五层，每一层都负责不一样的流程，只有数据达到相应标准才能进入下一层，直到处理完成，具体如下：

业务同步层(ods层)：负责将采集层原有数据，采集到的数据，接口流入的数据，爬虫采集的数据原封不动的进行存储。

细节数据层(dwd层)：通过数据模型判断不同来源的数据的情况以及需要的清洗方式并进行清洗，常用的清洗方式如空值填充，异常值删除，字段标准化，数值归一化，日期标准化，电话号码标准化等；

数据基础层(dwb层)：根据dwd层清洗好的数据结果，模型自动判断字段是属于什么主题领域的信息，并根据意见好的主题表结构，自动将字段值存储相对应的表中；如果有多个数据表存在相同字段，会使用数据算法取得最靠谱的数据进行填充；

数据服务层(dws层)：根据清洗，合并好的各个主题数据库，将一些常用的指标根据常用维度进行计算，指标逻辑可以根据已经沉淀好的通用模板直接调用并自动生成指标表，也可以根据实际需求直接添加；

应用数据层(ads层)：根据具体项目，具体场景的需要，将已经计算好的指标根据粒度聚合，结合明细数据直接形成项目数据集，向项目针对性提供。

一些实施例中，如图2所示，所述通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗，包括：

获取业务同步层的数据；

根据预设的数据模型判断数据的类型；

根据数据的类型确定清洗规则；

将校验合格的数据输入到数据基础层。

优选的，所述根据数据的类型确定清洗规则，包括：

如果数据达到要求，则将数据直接输入到数据基础层；

否则，根据预设的清洗规则库调用并配置数据清洗规则。

具体的，细节数据层的工作流程为：抽取ods层的数据频次根据对应数据源数据更新情况可以自由配置；通过对数据快照的模型分析，快速确定数据类型，以及数据存在的问题；根据当前数据情况，从已有规则库中调用相应规则，并组合形成一个处理任务流；根据任务执行情况，重新校验数据是否达到要求，达到要求后存储至本层相应数据表。

一些实施例中，如图3所示，所述将清洗后的数据存储至相应的数据表中，包括：

构建主题数据表结构形成主题库数据表字典；

获取细节数据层的数据；

具体的，数据基础层的工作流程为：根据数据情况，构建好各个数据主题域，以及每个主题域下的数据表结构；从上一层抽取数据之后，判断这部分数据是否在主题库中需要，过滤不需要的数据；需要的数据根据主键判断主题库中是否已经有了这个字段值，比如，根据社会信用代码判断当前的公司法人姓名字段在主题库中是否已存在，若不存在则直接写入；若已经存在一个一样的公司，且法人已经有数据了，就要判断这两个值哪个可信度更高，保留更高的；若一样则无需操作；数据质量对比模型根据历史数据机器学习不断优化，质量特征点包含数据来源权重，文本语义分析，规则校验等等。

一些实施例中，如图4所示，所述通过预设的通用模板对所述数据表中的数据进行计算并生成指标表，包括：

建立指标计算逻辑映射，生成指标库；

获取数据基础层的数据；

利用所述指标库对所述数据进行指标计算并统一粒度；

将计算后得到的指标以指标表的格式进行存储。

具体的，数据服务层的工作流程为：通过预先建立政务常用的指标计算逻辑，计算sql形成通用指标库，提取数据后，直接根据指标库中的计算逻辑进行计算，有什么样的数据就对应算什么指标，并统一粒度，将计算好的指标，按照指标表格式，对号入座，进行存储。

一些实施例中，所述根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集，包括：

根据项目、场景的需要在所述指标表中抽取数据；

对所述抽取数据进行粒度聚合，生成项目数据集。

具体的，应用数据层的工作流程为：在各种政务数字化项目实施过程中，需要展示，使用数据时，可以直接根据dwb，和dws层存储好的数据指标和明细，快速勾选，直接形成可以针对项目或场景应用的项目数据集，通过接口的方式进行调用，需要数据进行离线使用或操作时可以直接进行导出或者在线查看。

如图5所示，本申请实施例提供一个基于上述任一实施例提供的数据治理系统的工作方法，包括：

S501，数据采集层对接多种数据源，采集多种来源的数据；

S502，数据仓库接收多种来源的数据；

S503，通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗；

S504，将清洗后的数据存储至相应的数据表中；

S505，通过预设的通用模板对所述数据表中的数据进行计算并生成指标表；

S506，根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集。

本申请提供的数据治理系统的工作方法的工作原理为，数据采集层对接多种数据源，采集多种来源的数据；数据仓库接收多种来源的数据；通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗；将清洗后的数据存储至相应的数据表中；通过预设的通用模板对所述数据表中的数据进行计算并生成指标表；根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集。

综上所述，本发明提供一种数据治理系统及其工作方法，系统包括由下至上依次连接的数据采集层和数据仓库；数据采集层包括：业务数据模块，用于存储本地数据；接口管理模块，用于通过接口连接数据仓库；数据填报模块，用于将数据进行上报；数据爬虫模块，用于对公开数据采集上传至数据仓库；数据仓库包括：由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层；本申请从数据采集，清洗，整合，计算和应用的全流程解决方案，并完全符合政务数字化领域现状，做到如下几点：

可以理解的是，上述提供的系统实施例与上述的方法实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据治理系统，其特征在于，包括：由下至上依次连接的数据采集层和数据仓库；所述数据采集层用于对接多种数据源；所述数据仓库用于对数据源的数据进行处理并存储；

所述业务数据模块用于存储本地数据；

所述接口管理模块用于通过接口连接数据仓库；

所述数据填报模块用于将数据进行上报；

所述数据爬虫模块用于对公开数据采集上传至数据仓库；

所述业务同步层用于采集多种来源的数据；

2.根据权利要求1所述的数据治理系统，其特征在于，所述通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗，包括：

获取业务同步层的数据；

根据预设的数据模型判断数据的类型；

根据数据的类型确定清洗规则；

将校验合格的数据输入到数据基础层。

3.根据权利要求2所述的数据治理系统，其特征在于，所述根据数据的类型确定清洗规则，包括：

如果数据达到要求，则将数据直接输入到数据基础层；

否则，根据预设的清洗规则库调用并配置数据清洗规则。

4.根据权利要求1所述的数据治理系统，其特征在于，所述将清洗后的数据存储至相应的数据表中，包括：

构建主题数据表结构形成主题库数据表字典；

获取细节数据层的数据；

5.根据权利要求1所述的数据治理系统，其特征在于，所述通过预设的通用模板对所述数据表中的数据进行计算并生成指标表，包括：

建立指标计算逻辑映射，生成指标库；

获取数据基础层的数据；

利用所述指标库对所述数据进行指标计算并统一粒度；

将计算后得到的指标以指标表的格式进行存储。

6.根据权利要求1所述的数据治理系统，其特征在于，所述根据项目、场景的需要对所述指标表中的指标进行粒度聚合，生成项目数据集，包括：

根据项目、场景的需要在所述指标表中抽取数据；

对所述抽取数据进行粒度聚合，生成项目数据集。

7.根据权利要求1所述的数据治理系统，其特征在于，所述多种来源的数据包括：

采集到的数据、接口流入的数据、爬虫采集的数据。

8.根据权利要求2所述的数据治理系统，其特征在于，所述清洗方式包括：

9.根据权利要求2所述的数据治理系统，其特征在于，所述数据表包括：

业务数据表、采集数据表、填报数据表以及爬虫数据表。

10.一种基于权利要求1至9任一项所述的数据治理系统的工作方法，其特征在于，包括：

数据采集层对接多种数据源，采集多种来源的数据；

数据仓库接收多种来源的数据；

将清洗后的数据存储至相应的数据表中；