CN114817226A

CN114817226A - 政府数据的处理方法及装置

Info

Publication number: CN114817226A
Application number: CN202210582719.5A
Authority: CN
Inventors: 包永廉; 周韬; 季振宇; 沈飞; 陆莉军
Original assignee: Guotai Epoint Software Co Ltd
Current assignee: Guotai Epoint Software Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-07-29

Abstract

本申请涉及一种政府数据的处理方法及装置，属于数据库技术领域，该方法包括：采集政府各个部门的元数据，得到部门资源库；将部门资源库接入DorisDB的数仓贴源层；将所述数仓贴源层元数据与数据元进行关联，得到标准表；按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据；将清洗后的数据中的正确数据写入标准表；创建数据融合表，将清洗后的数据融合至数据融合表；可以解决使用Hadoop处理政府数据时存在资源浪费问题；通过使用DorisDB替换传统Hadoop作为数仓，实现大数据量数据治理全流程，在降低服务器资源要求的同时提升数据查询性能，提高了中小型数据治理项目的可落地性。

Description

政府数据的处理方法及装置

【技术领域】

本申请涉及一种政府数据的处理方法及装置，属于数据库技术领域。

【背景技术】

随着大数据的深入应用，政府数据资源日益受到重视。互联网和大数据技术的应用不断催生强化对于包括政府业务数据等在内的各类数据的管理需求，由“文件办理”走向“数据治理”成为实现治理体系和治理能力现代化的必然要求。

现有的政府数据的处理方法，包括：采用Hadoop作为底层架构。然而，该架构可以很好的支撑大中型政府，但对于区县和小型地市政府，会具有以下问题：

1、资源需求量大；

2、政府的数据量不大，存在资源浪费。

【发明内容】

本申请提供了一种政府数据的处理方法及装置，可以解决使用Hadoop处理政府数据时资源需求量大，但是数据量大导致的资源浪费问题。本申请提供如下技术方案：

第一方面，提供一种政府数据的处理方法，所述方法包括：

采集政府各个部门的元数据，得到部门资源库；

将部门资源库数据接入DorisDB的数仓贴源层；

将所述数仓贴源层元数据与数据元进行关联，得到标准表；

按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据；

将所述清洗后的数据中的正确数据写入所述标准表；

创建数据融合表，将所述清洗后的数据融合至所述数据融合表。

可选地，所述按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据之前，还包括：

为所述标准表中的各个字段设置所述数据清洗规则，所述数据清洗规则包括修复规则和过滤规则。

可选地，所述为所述标准表中的各个字段设置所述数据清洗规则，包括：

在所述DorisDB的预置修复规则不满足数据修复需求的情况下，使用用户自定义UDF函数，设置自定义修复规则，并导入系统；

在所述DorisDB的预置过滤规则不满足数据过滤需求的情况下，使用用户自定义实现函数，设置自定义过滤规则，并导入系统；

其中，自定义实现函数包括：正确数据查询条件、异常数据查询条件和数据异常原因。

可选地，所述按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据之后，还包括：

将清洗得到的异常数据写入异常数据表，并添加异常原因。

可选地，所述将所述清洗后的数据融合至所述数据融合表，包括：

通过可视化组件拖拽方式进行融合SQL的快速封装，得到融合作业封装SQL；

将原融合表重命名为历史分区表，重建新融合表；

执行所述融合作业封装SQL，输出结果到所述新融合表，以将所述清洗后的数据融合至所述数据融合表。

可选地，所述采集政府各个部门的元数据，得到部门资源库，包括：

配置所述部门资源库的数据源连接信息；

基于所述数据源连接信息读取各个数据库中的待采集表DDL；

解析所述待采集表DDL中的字段属性，并将所述字段属性转化为所述元数据；所述字段属性包括字段名称、字段类型、字段长度和字段注释；

配置数据库监控任务；

使用所述数据库监控任务捕获所述数据库的变动情况，基于所述变动情况更新所述元数据。

可选地，所述将部门资源库数据接入DorisDB的数仓贴源层，包括：

配置调度策略；

根据所述部门资源库在所述DorisDB中创建相应表并指定分区；

按照所述调度策略从所述部门资源库中读取数据，将所述数据转换成json文件后写入所述DorisDB的相应指定分区下。

可选地，所述按照所述调度策略从所述部门资源库中读取数据，包括：

从所述部门资源库中查询全量数据；

或者，

通过所述DorisDB中表的时间戳字段将本次查询时间点写入文件，每次查询时间点大于上次执行时间点；

或者，

为所述表构建触发器；通过所述触发器识别所述表中的数据变动，并将变动数据写入临时表；按照所述调度策略从所述临时表中获取所述变动数据；在所述变动数据调度完成后，删除所述临时表中的所述变动数据。

可选地，所述将所述部门资源库与所述数仓贴源层中的现有数据元进行关联，得到标准表，包括：

对所述部门资源库中的元数据的名称与所述现有数据元的名称进行匹配；

基于匹配结果关联相应现有数据元和对应的代码项；

按照关联结果生成所述标准表，并在所述DorisDB中创建所述标准表；在所述标准表中，具有关联数据元的数据取数据元属性，未关联的数据元的数据取原字段属性。

第二方面，提供一种政府数据的处理装置，所述装置包括：

数据采集装置，用于采集政府各个部门的元数据，得到部门资源库；

数据接入装置，用于将部门资源库数据接入DorisDB的数仓贴源层；

数据关联装置，用于将所述数仓贴源层元数据与数据元进行关联，得到标准表；

数据清洗装置，用于按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据；

数据写入装置，用于将所述清洗后的数据中的正确数据写入所述标准表；

数据融合装置，用于创建数据融合表，将所述清洗后的数据融合至所述数据融合表。

本申请的有益效果至少包括：通过采集政府各个部门的元数据，得到部门资源库；将部门资源库数据接入DorisDB的数仓贴源层；将数仓贴源层元数据与数据元进行关联，得到标准表；按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据；将清洗后的数据中的正确数据写入标准表；创建数据融合表，将清洗后的数据融合至数据融合表；可以解决使用Hadoop处理政府数据时资源需求量大，但是实际数据量较小导致的资源浪费问题；通过使用DorisDB替换传统Hadoop作为数仓，实现大数据量数据治理全流程，在降低服务器资源要求的同时提升数据查询性能，提高了中小型数据治理项目的可落地性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的DorisDB的整体架构的示意图；

图2是本申请一个实施例提供的政府数据的处理方法的流程图；

图3是本申请一个实施例提供的政府数据的处理过程的示意图；

图4是本申请一个实施例提供的政府数据的处理装置的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

元数据：是用来描述数据的数据，比如"年龄"、"身高"，这些数据是描述一个人的数据，这些数据就是元数据，即最小粒度的数据。

DorisDB：重新定义了MPP分布式架构，集群可扩展至数百节点，支持PB级数据规模，是可以在大数据规模下进行在线弹性扩展的企业级分析型数据库。

DorisDB的整体架构参考图1所示，DorisDB的整体架构采用大规模并行处理(Massively Parallel Processing，MPP)架构，MPP是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。DorisDB的整体架构包括：前端模块Frontend(FE)110和后端模块Backend(BE)120。

FE110也被称作群首节点(Leader Node)，本实施例不对FE110的名称作限定。FE110主要负责用户MySQL Client130请求连接的接入、元数据的存储和管理、查询语句的解析和查询计划的生成、集群节点状态管理，以及各类用户提交的和系统内部的作业任务调度。

FE110内置了MySQL协议层和Http Server。MySQL Client130可以根据操作的不同，选择不同的协议连接到FE110。同时，FE110自带UI界面。MySQL Client130可以通过前端控制台页面进入。

FE110的数量可以为1个或至少两个，当数量为至少两个时，FE110会自动组成一个节点组来保证组件的高可用，本实施例不对FE110的数量作限定。

BE 120也被称作计算节点(Compute Node)。BE 120主要负责数据查询计划的执行，以及数据的存储和管理。BE 120可以由1个或至少两个节点共同组成节点组，DorisDB整体算力和存储容量与BE 120的数量成正比。

FE110和BE 120之间通过RPC进行交互。

在实际实现时，DorisDB架构中还可以包括其它节点，如无状态的进程Broker，用于以类Unix文件系统接口的方式，访问外部数据源，比如应用于数据导入或者数据导出操作中，本实施例不对DorisDB架构的实现方式作限定。

DorisDB至少具有以下优势：

1、极速SQL查询：

全新的向量化执行引擎，亚秒级查询延时，单节点每秒可处理多达100亿行数据；

强大的MPP执行框架，支持星型模型和雪花模型，极致的Join性能；

综合查询速度比其他产品快10-100倍。

2、实时数据分析：

新型列式存储引擎，支持大规模数据实时写入，秒级实时性保证；

支持业务指标实时聚合，加速实时多维数据分析；

新型读写并发管理模式，可同时高效处理数据读取和写入；

3、高并发查询：

灵活的资源分配策略，每秒可支持高达1万以上的并发查询；

可高效支持数千用户同时进行数据分析；

4、轻松管理大数据：

支持在大数据规模下进行在线弹性扩展，扩容不影响线上业务。集群可扩展至数百节点，PB量级数据；

集群运行高度自治化，故障自恢复，运维成本低。

用户自定义函数(user-defined function，UDF)：是可以直接在SQL语句中计算的函数。UDF函数可以直接应用于select语句，对查询结构做格式化处理之后，然后再输出内容。

truncat语句：用于删除内容、释放空间但不删除定义。它只是清空表数据，而不删除表结构。

图2是本申请一个实施例提供的政府数据的处理方法的流程图。该方法至少包括以下几个步骤：

步骤201，采集政府各个部门的元数据，得到部门资源库。

本实施例中，采集政府各个部门的元数据，得到部门资源库，包括：配置部门资源库的数据源连接信息；基于数据源连接信息读取各个数据库中的待采集表DDL；解析待采集表DDL中的字段属性，并将字段属性转化为元数据；字段属性包括字段名称、字段类型、字段长度和字段注释；配置数据库监控任务；使用数据库监控任务捕获数据库的变动情况，基于变动情况更新元数据。

本实施例中，通过配置数据库监控任务，可以及时捕获数据库变动，避免数据库变动导致的元数据差异。

步骤202，将部门资源库数据接入DorisDB的数仓贴源层。

本实施例中，将部门资源库数据接入DorisDB的数仓贴源层，包括：配置调度策略；根据部门资源库在DorisDB中创建相应表并指定分区；按照调度策略从部门资源库中读取数据，将该数据转换成json文件后写入DorisDB的相应指定分区下。

调度策略可以是按天或者小时配置调度，按天调度时每天执行一次，分区命名后缀为YYYYMMDD；按小时调度时每小时执行一次，分区命名后缀为YYYYMMDDHH。

在指定分区时，可以通过ADD PARTITION if not exists p@DATE_ID VALUESLESS THAN("@DATE_ID_ADD1DAY")函数实现。

在从部门资源库中读取数据时，可以通过DataX使用loadProps函数实现。

可选地，按照调度策略从部门资源库中读取数据，包括但不限于以下几种方式：

第一种：全量模式。即从部门资源库中查询全量数据。

第二种：时间戳增量模式。即通过DorisDB中表的时间戳字段将本次查询时间点写入文件，每次查询时间点大于上次执行时间点。

第三种：触发器增量模式。即为表构建触发器；通过触发器识别表中的数据变动，并将变动数据写入临时表；按照调度策略从临时表中获取变动数据；在变动数据调度完成后，删除临时表中的变动数据。

步骤203，将数仓贴源层元数据与数据元进行关联，得到标准表。

本实施例中，将数仓贴源层元数据与数据元进行关联，得到标准表，包括：对部门资源库中的元数据的名称与现有数据元的名称进行匹配；基于匹配结果关联相应现有数据元和对应的代码项；按照关联结果生成标准表，并在DorisDB中创建标准表；在标准表中，具有关联数据元的数据取数据元属性，未关联的数据元的数据取原字段属性。

步骤204，按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据。

相应地，按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据之前，还包括：为标准表中的各个字段设置数据清洗规则，数据清洗规则包括修复规则和过滤规则。

其中，为标准表中的各个字段设置数据清洗规则，包括：在DorisDB的预置修复规则不满足数据修复需求的情况下，使用用户自定义UDF函数，设置自定义修复规则，并导入系统；在DorisDB的预置过滤规则不满足数据过滤需求的情况下，使用用户自定义实现函数，设置自定义过滤规则，并导入系统；其中，自定义实现函数包括：正确数据查询条件、异常数据查询条件和数据异常原因。

步骤205，将清洗后的数据中的正确数据写入标准表。

将清洗后的数据中的正确数据写入标准表，包括：执行truncat语句清空原分区表；通过查询逻辑insert into table PARTITION(p1)select数据修复规则from贴源层分区where正确数据查询条件，获取正确数据写入标准表相应分区。

可选地，按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据之后，还包括：将清洗得到的异常数据写入异常数据表，并添加异常原因。

具体地，将清洗得到的异常数据写入异常数据表，包括：通过查询逻辑为insertinto table PARTITION(p1)select field,concat(case when异常数据查询条件then数据异常原因)as errorMsg from贴源层分区where异常数据查询条件，获取异常数据写入异常数据表相应分区。

其中，异常原因可以通过在异常数据表中添加统一字段errorMsg实现。

步骤206，创建数据融合表，将清洗后的数据融合至数据融合表。

具体地，创建数据融合所需结果表，得到数据融合表，并将该数据融合表物化到DorisDB中。之后，将清洗后的数据融合至数据融合表，包括：通过可视化组件拖拽方式进行融合SQL的快速封装，得到融合作业封装SQL；将原融合表重命名为历史分区表，重建新融合表；执行融合作业封装SQL，输出结果到新融合表，以将清洗后的数据融合至数据融合表。

为了更清楚地理解本申请提供的政府数据的处理方法，下面对该方法举一个示例进行说明，参考图3，政府各个部门的数据通过集成开发平台采集，并得到部门资源库数据后接入DorisDB的数仓贴源层；DorisDB将数仓贴源层数据元与元数据进行关联，得到标准表；按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据；将清洗后的数据中的正确数据写入标准表；之后，通过集成开发平台创建数据融合表，并将清洗后的数据融合至数据融合表。

综上所述，本实施例提供的政府数据的处理方法，通过采集政府各个部门的元数据，得到部门资源库；将部门资源库接入DorisDB的数仓贴源层；将部门资源库与数仓贴源层中的现有数据元进行关联，得到标准表；按照预设的数据清洗规则对贴源层表数据进行数据清洗，得到清洗后的数据；将清洗后的数据中的正确数据写入标准表；创建数据融合表，将清洗后的数据融合至数据融合表；可以解决使用Hadoop处理政府数据时资源需求量大，但是实际数据量较小导致的资源浪费问题；通过使用DorisDB替换传统Hadoop作为数仓，实现大数据量数据治理全流程，在降低服务器资源要求的同时提升数据查询性能，提高了中小型数据治理项目的可落地性。

图4是本申请一个实施例提供的政府数据的处理装置的框图。该装置至少包括以下几个模块：数据采集装置410、数据接入装置420、数据关联装置430、数据清洗装置440、数据写入装置450和数据融合装置460。

数据采集装置410，用于采集政府各个部门的元数据，得到部门资源库；

数据接入装置420，用于将部门资源库数据接入DorisDB的数仓贴源层；

数据关联装置430，用于将所述数仓贴源层元数据与数据元进行关联，得到标准表；

数据清洗装置440，用于按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据；

数据写入装置450，用于将所述清洗后的数据中的正确数据写入所述标准表；

数据融合装置460，用于创建数据融合表，将所述清洗后的数据融合至所述数据融合表。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的政府数据的处理装置在进行政府数据的处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将政府数据的处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的政府数据的处理装置与政府数据的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的政府数据的处理方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的政府数据的处理方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种政府数据的处理方法，其特征在于，所述方法包括：

采集政府各个部门的元数据，得到部门资源库；

将部门资源库数据接入DorisDB的数仓贴源层；

将所述数仓贴源层中元数据与数据元进行关联，得到标准表；

将所述清洗后的数据中的正确数据写入所述标准表；

2.根据权利要求1所述的方法，其特征在于，所述按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述为所述标准表中的各个字段设置所述数据清洗规则，包括：

4.根据权利要求1所述的方法，其特征在于，所述按照预设的数据清洗规则对所述贴源层表数据进行数据清洗，得到清洗后的数据之后，还包括：

将清洗得到的异常数据写入异常数据表，并添加异常原因。

5.根据权利要求1所述的方法，其特征在于，所述将所述清洗后的数据融合至所述数据融合表，包括：

将原融合表重命名为历史分区表，重建新融合表；

6.根据权利要求1所述的方法，其特征在于，所述采集政府各个部门的元数据，得到部门资源库，包括：

配置所述部门资源库的数据源连接信息；

基于所述数据源连接信息读取各个数据库中的待采集表DDL；

配置数据库监控任务；

7.根据权利要求1所述的方法，其特征在于，所述将部门资源库数据接入DorisDB的数仓贴源层，包括：

配置调度策略；

根据所述部门资源库在所述DorisDB中创建相应表并指定分区；

8.根据权利要求7所述的方法，其特征在于，所述按照所述调度策略从所述部门资源库中读取数据，包括：

从所述部门资源库中查询全量数据；

或者，

9.根据权利要求1所述的方法，其特征在于，所述将所述数仓贴源层元数据与数据元进行关联，得到标准表，包括：

基于匹配结果关联相应现有数据元和对应的代码项；

10.一种政府数据的处理装置，其特征在于，