CN113688157B

CN113688157B - 一种基于中间表的数据抽取的系统和方法

Info

Publication number: CN113688157B
Application number: CN202111000509.2A
Authority: CN
Inventors: 王佩
Original assignee: Zhongdun Innovative Digital Technology Beijing Co ltd
Current assignee: Zhongdun Innovative Digital Technology Beijing Co ltd
Priority date: 2021-08-29
Filing date: 2021-08-29
Publication date: 2023-12-05
Anticipated expiration: 2041-08-29
Also published as: CN113688157A

Abstract

本发明公开了一种基于中间表的数据抽取的系统和方法，该系统通过预先建立中间表，在需要执行数据抽取时，用户从客户端通过修改中间表，将该中间件的配置参数发送至管理服务器，理服务器通过配置参数对中间表进行配置生成批处理执行脚本，并通过运行对应的执行脚本，根据个性化设置后的执行脚本，从分布式系统抽取所需要的数据，有效提高了数据抽取效率。

Description

一种基于中间表的数据抽取的系统和方法

技术领域：

本发明属于数据抽取的系统和方法，尤其涉及一种基于中间表的数据抽取的系统和方法。

背景技术：

数据仓库中的数据根据需求可分为日粒度数据、月粒度数据、年粒度数据，这些数据的基础来源都是详细数据，需要每天通过对核心业务系统获取增量数据后加载到数据仓库中。如果不通过增量数据加载就需要每天加载全量数据，在数据量越来越大的情况下，每天都加载全量数据的做法是不可取的。

目前，大型的数据仓库技术中的数据加载都是每天对增量数据进行加载。做好增量数据加载才能保证整个数据的完整性。每天一次增量数据，这些增量数据的合集就是全量。

做好增量数据抽取才能保证系统数据抽取的及时性和高效率性。如果不能保证增量的准确性和效率，那么系统的数据就不完整，而最终导致呈现给分析人员和决策人员的数据是不可靠的，错误的数据造成对市场的分析决策错误，给企业带来的损失不可估量。如何改进分布式系统从生产系统抽取数据的过程，提高数据抽取准确性和效率是本领域当前需要解决的技术问题之一。

发明内容

针对目前现有的数据抽取效率慢，不稳定，本发明提供通过预先建立中间表，在需要执行数据抽取时，用户从客户端通过修改中间表，将该中间件的配置参数发送至管理服务器，理服务器通过配置参数对中间表进行配置生成批处理执行脚本，并通过运行对应的执行脚本，根据个性化设置后的执行脚本，从分布式系统抽取所需要的数据。

将数据抽取转化为中间表抽取的方式，针对生产系统中新增数据表，无需重新开发特定数据抽取脚本，通过对中间表进行修改即可实现，提升了分布式存储系统对数据的抽取效率，减少了分布式存储系统的数据维护压力，同时，周期性通过触发器和时间戳的方式获取待选增量数据集，为后续数据抽取减少压力，为分析人员提供了可靠支持。

本发明为解决以上技术问题所采取的技术方案是：

基于中间表的数据抽取的系统，该系统包括通过网络连接的客户端，管理服务器，分布式数据库；

所述客户端用于获取用户对中间表设置界面的数据抽取条件后向管理服务器发送数据抽取命令；

所述管理服务器根据抽取指令以及中间表配置参数生成批处理任务执行脚本，根据批处理任务执行脚本从分布式数据库中获取数据后，将所述获取数据按照预设规则排序后存储至客户端并显示。

进一步地，在中间表设置界面设置数据抽取条件以及关联的数据库。

进一步地，所述数据抽取条件包括选择所需参数以及设置所述参数的权重值；所述设置参数包括：数据生成时间，数据访问热度，数据下载热度，数据库名，排序方式。

进一步地，分布式数据库中的数据表中设置有触发器，根据所述触发器获得数据增量日志汇总到日志表中，所述管理服务器会给每一条日志加时间戳；所述管理服务器周期性地会通过时间戳获取分布式数据库的多个增量数据数据集合；所述管理服务器在接受到数据抽取指令后，根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据。

进一步地，所述预设规则排序具体为：根据数据质量分数、数据修改时间和数据大小进行排序，所述数据质量分数计算公式为：S＝w₁·P+w₂·Q，其中w₁+w₂＝1，P为下载热度，Q为访问热度，w₁和w₂为权重。

进一步地，所述根据数据质量分数、数据修改时间和数据大小进行排序具体为：

客户端获取返回的抽取增量数据后，根据数据质量分数阈值进行过滤，将大于所述阈值的增量数据按照数据大小或时间排序显示。

一种基于中间表的数据抽取的方法，该方法包括以下步骤：步骤S1，客户端获取用户对中间表界面的参数设置，所述设置参数包括：数据生成时间，数据访问热度，数据下载热度，数据库名，权重值；

步骤S2，所述客户端向管理服务器发送数据抽取指令；

步骤S3，所述管理服务器根据所述抽取指令以及所述中间表配置参数生成批处理任务执行脚本，

步骤S4，所述管理管理服务器根据所述批处理任务执行脚本从分布式数据库中获取数据；

步骤S5，所述管理管理服务器将从所述分布式数据库中获取的数据按照预设规则排序后存储至所述客户端并按照预设显示规则显示。

进一步地，分布式数据库中的数据表中设置有触发器，根据所述触发器获得数据增量日志汇总到日志表中，所述管理服务器会给每一条日志加时间戳；所述管理服务器周期性地会通过时间戳获取分布式数据库的多个增量数据数据集合；所述管理服务器在接受到数据抽取指令后，根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据，其中所述增量数据数据集合的生命周期为7天。

进一步地，所述预设显示规则具体为：根据数据质量分数、数据修改时间和数据大小进行排序，所述数据质量分数计算公式为：S＝w₁·P+w₂·Q，其中w₁+w₂＝1，P为下载热度，Q为访问热度，w₁和w₂为权重。

本发明的有益效果如下：

上述说明，仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述说明和其它目的、特征及优点能够更明显易懂，特举较佳实施例，详细说明如下。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明的基于中间件抽取系统的结构图

图2为本发明的增量数据数据集合示意图

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

进一步地，分布式数据库中的数据表中设置有触发器，根据所述触发器获得数据增量日志汇总到日志表中，所述管理服务器会给每一条日志加时间戳；所述管理服务器周期性地会通过时间戳获取分布式数据库的增量数据数据集合；所述管理服务器在接受到数据抽取指令后，根据所述批处理任务执行脚本从所述增量数据数据集合抽取所需数据。

步骤S2，所述客户端向管理服务器发送数据抽取指令；

进一步地，分布式数据库中的数据表中设置有触发器，根据所述触发器获得数据增量日志汇总到日志表中，所述管理服务器会给每一条日志加时间戳；所述管理服务器周期性地会通过时间戳获取分布式数据库的增量数据数据集合；所述管理服务器在接受到数据抽取指令后，根据所述批处理任务执行脚本从所述增量数据数据集合抽取所需数据，其中所述增量数据数据集合的生命周期为7天。

进一步地，批处理任务经管理服务器分配到分布式存储系统的各执行器节点，所述执行器节点设置执行队列负责存储任务，每个任务占用队列上的一个线程资源；所述执行器节点上的任务执行的优先级按照目标函数进行动态调整，所述目标函数为：

其中，T_i表示管理服务器映射执行器节点i的时间，Te_i表示数据抽取任务i执行时间，Tw_i表示数据抽取任务i的等待执行时间，动态调整使得目标函数取得最小值。

本发明的优点在于：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于中间表的数据抽取的系统，其特征在于，该系统包括通过网络连接的客户端，管理服务器，分布式数据库；

所述管理服务器根据抽取指令以及中间表配置参数生成批处理任务执行脚本，根据批处理任务执行脚本从分布式数据库中获取数据后，将所述获取数据按照预设规则排序后存储至客户端并显示；

其中，所述分布式数据库中的数据表中设置有触发器，根据所述触发器获得数据增量日志汇总到日志表中，所述管理服务器会给每一条日志加时间戳；

其中，所述管理服务器周期性地会通过所述时间戳获取分布式数据库的多个增量数据数据集合；所述管理服务器在接受到数据抽取指令后，根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据；

所述预设规则排序具体为：根据数据质量分数、数据修改时间和数据大小进行排序，所述数据质量分数计算公式为：S＝w₁·P+w₂·Q，其中w₁+w₂＝1，P为下载热度，Q为访问热度，w₁和w₂为权重；

所述根据数据质量分数、数据修改时间和数据大小进行排序具体为：

2.根据权利要求1所述基于中间表的数据抽取的系统，其特征在于：在中间表设置界面设置数据抽取条件以及关联的数据库。

3.根据权利要求2所述的基于中间表的数据抽取的系统，其特征在于：所述数据抽取条件包括选择所需参数以及设置所述参数的权重值；设置参数包括：数据生成时间，数据访问热度，数据下载热度，数据库名，排序方式。

4.一种基于中间表的数据抽取的方法，其特征在于：

步骤S1，客户端获取用户对中间表界面的参数设置，设置参数包括：数据生成时间，数据访问热度，数据下载热度，数据库名，权重值；

步骤S2，所述客户端向管理服务器发送数据抽取指令；

步骤S4，所述管理服务器根据所述批处理任务执行脚本从分布式数据库中获取数据；

步骤S5，所述管理服务器将从所述分布式数据库中获取的数据按照预设规则排序后存储至所述客户端并按照预设显示规则显示；

其中，所述预设显示规则具体为：根据数据质量分数、数据修改时间和数据大小进行排序，所述数据质量分数计算公式为：S＝w₁·P+w₂·Q，其中w₁+w₂＝1，P为下载热度，Q为访问热度，w₁和w₂为权重；

批处理任务经管理服务器分配到分布式存储系统的各执行器节点，所述执行器节点设置执行队列负责存储任务，每个任务占用队列上的一个线程资源；所述执行器节点上的任务执行的优先级按照目标函数进行动态调整，所述目标函数为：

5.根据权利要求4所述的基于中间表的数据抽取的方法，其特征在于：分布式数据库中的数据表中设置有触发器，根据所述触发器获得数据增量日志汇总到日志表中，所述管理服务器会给每一条日志加时间戳；所述管理服务器周期性地会通过时间戳获取分布式数据库的多个增量数据数据集合；所述管理服务器在接受到数据抽取指令后，根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据，其中所述增量数据数据集合的生命周期为7天。