CN115098486A

CN115098486A - 基于海关业务大数据的实时数据采集方法

Info

Publication number: CN115098486A
Application number: CN202210823857.8A
Authority: CN
Inventors: 钟振帆
Original assignee: Guangdong Jiamaotong Technology Co ltd
Current assignee: Guangdong Jiamaotong Technology Co ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-09-23

Abstract

本发明公开了一种基于海关业务大数据的实时数据采集方法，涉及海关大数据分析处理技术领域，其包括：接收和获取用户配置的采集任务；根据采集任务中的OGG采集对象，下发配置到OGG采集程序；创建OGG‑KafKa专用Topic，并配置相关Topic备份策略，将已建好的专用Topic名称写入到OGG的配置文件；以及，使用KafKa sink‑connector组件构建数据回写任务，将OGG‑Topic中采集后的数据回写到Hive。本申请具有缓解数据时效性与计算效率相矛盾的问题，兼顾优点的效果。

Description

基于海关业务大数据的实时数据采集方法

技术领域

本申请涉及海关大数据分析处理技术领域，尤其是涉及一种基于海关业务大数据的实时数据采集方法。

背景技术

目前，海关大数据平台的实时数据采集方案是：通过使用Spoop进行全量数据抽取，将数据源的数据抽取到预先建好的HBase表，然后使用关系型数据库的实时归档日志数据以及Oracle GoldenGate（以下简称OGG），将海关前台业务数据库的实时增量数据采集入Hadoop平台的HBase数据库。

上述的实时数据采集方案虽然能实现数据的时效性，但数据采集进入HBase数据库，而非采集落地到Hadoop平台的HDFS文件体系，带来的后续问题则是：离线计算的性能受到影响，因此本申请提出一种新的方案。

发明内容

为了缓解数据时效性与计算效率相矛盾，兼顾两者，本申请提供一种基于海关业务大数据的实时数据采集方法。

本申请提供一种基于海关业务大数据的实时数据采集方法，采用如下的技术方案：

一种基于海关业务大数据的实时数据采集方法，包括以下步骤：

接收和获取用户配置的采集任务；

根据采集任务中的OGG采集对象，下发配置到OGG采集程序；

创建OGG-KafKa专用Topic，并配置相关Topic备份策略，将已建好的专用Topic名称写入到OGG的配置文件；以及，

使用KafKa sink-connector组件构建数据回写任务，将OGG-Topic中采集后的数据回写到Hive；

其中，当使用OGG采集程序的组件采集目标表时，对数据源端与目标端的OGG mgr进行配置extract、 pump进程、replicate进程、define文件并执行defgen命令，并将生成的prm文件上传到目标端；以及，

按照源mgr—目标端mgr—源extract—源pump—目标端replicate的顺序启动全部进程，完成OGG与KafKa中OGG-Topic的数据抽取任务通道的搭建。

可选的，从KafKa的OGG-Topic中进行批量数据消费后，对该批数据按照时间序列进行排序和数据清洗。

可选的，所述对该批数据按照时间序列进行排序和数据清洗，其包括：

若该批数据中相同主键最后的事务操作为delete操作，则直接去除该主键相关的入库记录，并分发到delete操作队列；

若对相同主键最后的事务操作为insert操作，则只保留最后一条数据入库记录进行插入操作，并分发到insert操作队列；

若对相同主键进行连续多次的update事务操作，则只保留最后一次的update操作记录，并分发到update操作队列；

三个队列获取到Hive的增、删、改的数据操作记录分别以三张相应的临时表保存。

可选的，新增数据，则通过insert into语句对数据表进行相应批量的新增。

可选的，更新操作，则需获取到更新字段的唯一主键，存入缓存；

根据缓存中的ID去查询数据表里的数据与更新的数据合并，存入临时表，并执行merge into更新到表数据。

可选的，删除操作，则根据主键来执行merge into的删除操作。

综上所述，本申请包括以下至少一种有益技术效果：本申请第一方面，可以缓解“数据时效性与计算效率相矛盾”的问题；第二方面，可以解决海关大数据平台的Hive组件不支持采集数据的实时更新问题；从而可以在保证现有的大数据平台正常运行的情况下，提高平台系统整体性能、优化资源使用情况。

附图说明

图1是本申请的流程示意图。

具体实施方式

以下结合附图1对本申请作进一步详细说明。

本申请实施例公开一种基于海关业务大数据的实时数据采集方法，其旨在缓解“数据时效性与计算效率相矛盾”的问题。

已知的，验证可得，相同的查询分析脚本基于HBase数据和基于HDFS数据进行计算，效率相差近10倍；另，前者虽支持数据实时更新，但在离线计算方面效率相对较低，发挥不出其特点，后者在离线计算方面优势更明显，但后者存在无法实时更新的弊端。

上述HBase（Hadoop database）是一个分布式、可扩展、面向列的NoSQL数据；本质上是一个Key-Value系统，底层数据存储在文件系统HDFS上，原生支持 MapReduce计算框架，具有高吞吐、低延时的读写特点。

参照图1，基于海关业务大数据的实时数据采集方法包括以下步骤：

接收和获取用户配置的采集任务；

根据采集任务中的OGG采集对象，下发配置到OGG采集程序；

使用KafKa sink-connector组件构建数据回写任务，将OGG-Topic中采集后的数据回写到Hive（Hive是构建在Hadoop之上的数据仓库工具）。

简易可理解为：原数据采集方式可实时更新，但离线计算慢；采用了新的方式，将数据采集落地到Hadoop平台的HDFS文件体系，但无法实时更新，为此以KafKa同步数据。

由于目前的系统，其暂不支持对OGG采集线程的统一配置管理，因此当使用OGG采集程序的组件采集目标表时，对数据源端与目标端的OGG mgr进行配置extract、 pump进程、replicate进程、define文件并执行defgen命令，并将生成的prm文件上传到目标端；以及，

在本申请的一个实施例中，对于OGG格式数据的Hive入库使用ORC(分区)格式建表存储,以提高presto对Hive的查询性能。

同时，具体地：

从KafKa的OGG-Topic中进行批量数据消费后，针对海关业务ID重复问题，对该批数据按照时间序列进行排序和数据清洗。

若该批数据中相同主键最后的事务操作为delete操作，则直接去除该主键相关的入库记录，并分发到delete操作队列；若对相同主键最后的事务操作为insert操作，则将只保留最后一条数据入库记录进行插入操作，并分发到insert操作队列；若对相同主键进行连续多次的update事务操作，则只保留最后一次的update操作记录，并分发到update操作队列。

之后，将三个队列获取到Hive的增、删、改的数据操作记录分别以三张相应的临时表保存。关于增、删、改，具体地：

新增数据则通过insert into语句对数据表进行相应批量的新增；

更新操作则需获取到更新字段的唯一主键,然后存入缓存里,根据缓存中的ID去查询数据表里的数据与更新的数据合并,然后存入临时表,在执行mergeinto更新到表数据里，以实现Hive自身无法批量更新的问题；

删除操作则根据主键来执行mergeinto的删除操作。

根据上述内容，本申请第一方面，可以缓解“数据时效性与计算效率相矛盾”的问题；第二方面，可以解决海关大数据平台的Hive组件不支持采集数据的实时更新问题；从而可以在保证现有的大数据平台正常运行的情况下，提高平台系统整体性能、优化资源使用情况。

下述以海关“双十一”跨境贸易大屏预警监控应用为例做解释说明：

因需对海关跨境进口和出口库的17张数据表配置实时数据采集任务。用户提前在系统创建对应的17个专用OGG-Topic，通过在需采集的业务数据源Oracle前台数据库与系统的KafKa配置OGG相关文件，构建OGG实时数据采集通道，通过配置采集任务的相关参数阈值，建立实时数据采集任务。

由于真实的海关进出口业务当中存在报关单重复问题（即：若数据记录被删除后再次插入，系统理应会自动生成额外的主键，确保主键唯一；但真实情况会出现相同主键）。因此，在进行实时数据采集的过程中，采集程序检测到从KafKa的OGG-Topic消费的数据量达到指定阈值或超过一定时间均未达到指定数据量阈值时，程序会自动对该批数据按时序进行排序，以及一定规则进行数据清洗并存入中间表中进行缓存。

为确保数据按正确的时序进行入库，程序会将insert、update或者delete对应的操作命令存入一个执行队列，按照先入先出的原则，依次执行对应的操作命令，实现数据入库。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种基于海关业务大数据的实时数据采集方法，其特征在于，包括以下步骤：

接收和获取用户配置的采集任务；

根据采集任务中的OGG采集对象，下发配置到OGG采集程序；

2.根据权利要求1所述的基于海关业务大数据的实时数据采集方法，其特征在于：从KafKa的OGG-Topic中进行批量数据消费后，对该批数据按照时间序列进行排序和数据清洗。

3.根据权利要求2所述的基于海关业务大数据的实时数据采集方法，其特征在于：所述对该批数据按照时间序列进行排序和数据清洗，其包括：

4.根据权利要求3所述的基于海关业务大数据的实时数据采集方法，其特征在于：所述对该批数据按照时间序列进行排序和数据清洗，其包括：新增数据，则通过insert into语句对数据表进行相应批量的新增。

5.根据权利要求3所述的基于海关业务大数据的实时数据采集方法，其特征在于：所述对该批数据按照时间序列进行排序和数据清洗，其包括：更新操作，则需获取到更新字段的唯一主键，存入缓存；

根据缓存中的ID去查询数据表里的数据与更新的数据合并，存入临时表，并执行mergeinto更新到表数据。

6.根据权利要求3所述的基于海关业务大数据的实时数据采集方法，其特征在于：所述对该批数据按照时间序列进行排序和数据清洗，其包括：删除操作，则根据主键来执行merge into的删除操作。