CN115098486A - 基于海关业务大数据的实时数据采集方法 - Google Patents

基于海关业务大数据的实时数据采集方法 Download PDF

Info

Publication number
CN115098486A
CN115098486A CN202210823857.8A CN202210823857A CN115098486A CN 115098486 A CN115098486 A CN 115098486A CN 202210823857 A CN202210823857 A CN 202210823857A CN 115098486 A CN115098486 A CN 115098486A
Authority
CN
China
Prior art keywords
data
ogg
acquisition
real
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210823857.8A
Other languages
English (en)
Inventor
钟振帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Jiamaotong Technology Co ltd
Original Assignee
Guangdong Jiamaotong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Jiamaotong Technology Co ltd filed Critical Guangdong Jiamaotong Technology Co ltd
Priority to CN202210823857.8A priority Critical patent/CN115098486A/zh
Publication of CN115098486A publication Critical patent/CN115098486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于海关业务大数据的实时数据采集方法,涉及海关大数据分析处理技术领域,其包括:接收和获取用户配置的采集任务;根据采集任务中的OGG采集对象,下发配置到OGG采集程序;创建OGG‑KafKa专用Topic,并配置相关Topic备份策略,将已建好的专用Topic名称写入到OGG的配置文件;以及,使用KafKa sink‑connector组件构建数据回写任务,将OGG‑Topic中采集后的数据回写到Hive。本申请具有缓解数据时效性与计算效率相矛盾的问题,兼顾优点的效果。

Description

基于海关业务大数据的实时数据采集方法
技术领域
本申请涉及海关大数据分析处理技术领域,尤其是涉及一种基于海关业务大数据的实时数据采集方法。
背景技术
目前,海关大数据平台的实时数据采集方案是:通过使用Spoop进行全量数据抽取,将数据源的数据抽取到预先建好的HBase表,然后使用关系型数据库的实时归档日志数据以及Oracle GoldenGate(以下简称OGG),将海关前台业务数据库的实时增量数据采集入Hadoop平台的HBase数据库。
上述的实时数据采集方案虽然能实现数据的时效性,但数据采集进入HBase数据库,而非采集落地到Hadoop平台的HDFS文件体系,带来的后续问题则是:离线计算的性能受到影响,因此本申请提出一种新的方案。
发明内容
为了缓解数据时效性与计算效率相矛盾,兼顾两者,本申请提供一种基于海关业务大数据的实时数据采集方法。
本申请提供一种基于海关业务大数据的实时数据采集方法,采用如下的技术方案:
一种基于海关业务大数据的实时数据采集方法,包括以下步骤:
接收和获取用户配置的采集任务;
根据采集任务中的OGG采集对象,下发配置到OGG采集程序;
创建OGG-KafKa专用Topic,并配置相关Topic备份策略,将已建好的专用Topic名称写入到OGG的配置文件;以及,
使用KafKa sink-connector组件构建数据回写任务,将OGG-Topic中采集后的数据回写到Hive;
其中,当使用OGG采集程序的组件采集目标表时,对数据源端与目标端的OGG mgr进行配置extract、 pump进程、replicate进程、define文件并执行defgen命令,并将生成的prm文件上传到目标端;以及,
按照源mgr—目标端mgr—源extract—源pump—目标端replicate的顺序启动全部进程,完成OGG与KafKa中OGG-Topic的数据抽取任务通道的搭建。
可选的,从KafKa的OGG-Topic中进行批量数据消费后,对该批数据按照时间序列进行排序和数据清洗。
可选的,所述对该批数据按照时间序列进行排序和数据清洗,其包括:
若该批数据中相同主键最后的事务操作为delete操作,则直接去除该主键相关的入库记录,并分发到delete操作队列;
若对相同主键最后的事务操作为insert操作,则只保留最后一条数据入库记录进行插入操作,并分发到insert操作队列;
若对相同主键进行连续多次的update事务操作,则只保留最后一次的update操作记录,并分发到update操作队列;
三个队列获取到Hive的增、删、改的数据操作记录分别以三张相应的临时表保存。
可选的,新增数据,则通过insert into语句对数据表进行相应批量的新增。
可选的,更新操作,则需获取到更新字段的唯一主键,存入缓存;
根据缓存中的ID去查询数据表里的数据与更新的数据合并,存入临时表,并执行merge into更新到表数据。
可选的,删除操作,则根据主键来执行merge into的删除操作。
综上所述,本申请包括以下至少一种有益技术效果:本申请第一方面,可以缓解“数据时效性与计算效率相矛盾”的问题;第二方面,可以解决海关大数据平台的Hive组件不支持采集数据的实时更新问题;从而可以在保证现有的大数据平台正常运行的情况下,提高平台系统整体性能、优化资源使用情况。
附图说明
图1是本申请的流程示意图。
具体实施方式
以下结合附图1对本申请作进一步详细说明。
本申请实施例公开一种基于海关业务大数据的实时数据采集方法,其旨在缓解“数据时效性与计算效率相矛盾”的问题。
已知的,验证可得,相同的查询分析脚本基于HBase数据和基于HDFS数据进行计算,效率相差近10倍;另,前者虽支持数据实时更新,但在离线计算方面效率相对较低,发挥不出其特点,后者在离线计算方面优势更明显,但后者存在无法实时更新的弊端。
上述HBase(Hadoop database)是一个分布式、可扩展、面向列的NoSQL数据;本质上是一个Key-Value系统,底层数据存储在文件系统HDFS上,原生支持 MapReduce计算框架,具有高吞吐、低延时的读写特点。
参照图1,基于海关业务大数据的实时数据采集方法包括以下步骤:
接收和获取用户配置的采集任务;
根据采集任务中的OGG采集对象,下发配置到OGG采集程序;
创建OGG-KafKa专用Topic,并配置相关Topic备份策略,将已建好的专用Topic名称写入到OGG的配置文件;以及,
使用KafKa sink-connector组件构建数据回写任务,将OGG-Topic中采集后的数据回写到Hive(Hive是构建在Hadoop之上的数据仓库工具)。
简易可理解为:原数据采集方式可实时更新,但离线计算慢;采用了新的方式,将数据采集落地到Hadoop平台的HDFS文件体系,但无法实时更新,为此以KafKa同步数据。
由于目前的系统,其暂不支持对OGG采集线程的统一配置管理,因此当使用OGG采集程序的组件采集目标表时,对数据源端与目标端的OGG mgr进行配置extract、 pump进程、replicate进程、define文件并执行defgen命令,并将生成的prm文件上传到目标端;以及,
按照源mgr—目标端mgr—源extract—源pump—目标端replicate的顺序启动全部进程,完成OGG与KafKa中OGG-Topic的数据抽取任务通道的搭建。
在本申请的一个实施例中,对于OGG格式数据的Hive入库使用ORC(分区)格式建表存储,以提高presto对Hive的查询性能。
同时,具体地:
从KafKa的OGG-Topic中进行批量数据消费后,针对海关业务ID重复问题,对该批数据按照时间序列进行排序和数据清洗。
若该批数据中相同主键最后的事务操作为delete操作,则直接去除该主键相关的入库记录,并分发到delete操作队列;若对相同主键最后的事务操作为insert操作,则将只保留最后一条数据入库记录进行插入操作,并分发到insert操作队列;若对相同主键进行连续多次的update事务操作,则只保留最后一次的update操作记录,并分发到update操作队列。
之后,将三个队列获取到Hive的增、删、改的数据操作记录分别以三张相应的临时表保存。关于增、删、改,具体地:
新增数据则通过insert into语句对数据表进行相应批量的新增;
更新操作则需获取到更新字段的唯一主键,然后存入缓存里,根据缓存中的ID去查询数据表里的数据与更新的数据合并,然后存入临时表,在执行mergeinto更新到表数据里,以实现Hive自身无法批量更新的问题;
删除操作则根据主键来执行mergeinto的删除操作。
根据上述内容,本申请第一方面,可以缓解“数据时效性与计算效率相矛盾”的问题;第二方面,可以解决海关大数据平台的Hive组件不支持采集数据的实时更新问题;从而可以在保证现有的大数据平台正常运行的情况下,提高平台系统整体性能、优化资源使用情况。
下述以海关“双十一”跨境贸易大屏预警监控应用为例做解释说明:
因需对海关跨境进口和出口库的17张数据表配置实时数据采集任务。用户提前在系统创建对应的17个专用OGG-Topic,通过在需采集的业务数据源Oracle前台数据库与系统的KafKa配置OGG相关文件,构建OGG实时数据采集通道,通过配置采集任务的相关参数阈值,建立实时数据采集任务。
由于真实的海关进出口业务当中存在报关单重复问题(即:若数据记录被删除后再次插入,系统理应会自动生成额外的主键,确保主键唯一;但真实情况会出现相同主键)。因此,在进行实时数据采集的过程中,采集程序检测到从KafKa的OGG-Topic消费的数据量达到指定阈值或超过一定时间均未达到指定数据量阈值时,程序会自动对该批数据按时序进行排序,以及一定规则进行数据清洗并存入中间表中进行缓存。
若该批数据中相同主键最后的事务操作为delete操作,则直接去除该主键相关的入库记录,并分发到delete操作队列;若对相同主键最后的事务操作为insert操作,则将只保留最后一条数据入库记录进行插入操作,并分发到insert操作队列;若对相同主键进行连续多次的update事务操作,则只保留最后一次的update操作记录,并分发到update操作队列。
为确保数据按正确的时序进行入库,程序会将insert、update或者delete对应的操作命令存入一个执行队列,按照先入先出的原则,依次执行对应的操作命令,实现数据入库。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (6)

1.一种基于海关业务大数据的实时数据采集方法,其特征在于,包括以下步骤:
接收和获取用户配置的采集任务;
根据采集任务中的OGG采集对象,下发配置到OGG采集程序;
创建OGG-KafKa专用Topic,并配置相关Topic备份策略,将已建好的专用Topic名称写入到OGG的配置文件;以及,
使用KafKa sink-connector组件构建数据回写任务,将OGG-Topic中采集后的数据回写到Hive;
其中,当使用OGG采集程序的组件采集目标表时,对数据源端与目标端的OGG mgr进行配置extract、 pump进程、replicate进程、define文件并执行defgen命令,并将生成的prm文件上传到目标端;以及,
按照源mgr—目标端mgr—源extract—源pump—目标端replicate的顺序启动全部进程,完成OGG与KafKa中OGG-Topic的数据抽取任务通道的搭建。
2.根据权利要求1所述的基于海关业务大数据的实时数据采集方法,其特征在于:从KafKa的OGG-Topic中进行批量数据消费后,对该批数据按照时间序列进行排序和数据清洗。
3.根据权利要求2所述的基于海关业务大数据的实时数据采集方法,其特征在于:所述对该批数据按照时间序列进行排序和数据清洗,其包括:
若该批数据中相同主键最后的事务操作为delete操作,则直接去除该主键相关的入库记录,并分发到delete操作队列;
若对相同主键最后的事务操作为insert操作,则只保留最后一条数据入库记录进行插入操作,并分发到insert操作队列;
若对相同主键进行连续多次的update事务操作,则只保留最后一次的update操作记录,并分发到update操作队列;
三个队列获取到Hive的增、删、改的数据操作记录分别以三张相应的临时表保存。
4.根据权利要求3所述的基于海关业务大数据的实时数据采集方法,其特征在于:所述对该批数据按照时间序列进行排序和数据清洗,其包括:新增数据,则通过insert into语句对数据表进行相应批量的新增。
5.根据权利要求3所述的基于海关业务大数据的实时数据采集方法,其特征在于:所述对该批数据按照时间序列进行排序和数据清洗,其包括:更新操作,则需获取到更新字段的唯一主键,存入缓存;
根据缓存中的ID去查询数据表里的数据与更新的数据合并,存入临时表,并执行mergeinto更新到表数据。
6.根据权利要求3所述的基于海关业务大数据的实时数据采集方法,其特征在于:所述对该批数据按照时间序列进行排序和数据清洗,其包括:删除操作,则根据主键来执行merge into的删除操作。
CN202210823857.8A 2022-07-14 2022-07-14 基于海关业务大数据的实时数据采集方法 Pending CN115098486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210823857.8A CN115098486A (zh) 2022-07-14 2022-07-14 基于海关业务大数据的实时数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210823857.8A CN115098486A (zh) 2022-07-14 2022-07-14 基于海关业务大数据的实时数据采集方法

Publications (1)

Publication Number Publication Date
CN115098486A true CN115098486A (zh) 2022-09-23

Family

ID=83297557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210823857.8A Pending CN115098486A (zh) 2022-07-14 2022-07-14 基于海关业务大数据的实时数据采集方法

Country Status (1)

Country Link
CN (1) CN115098486A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389486A (zh) * 2023-12-13 2024-01-12 浙江国利信安科技有限公司 用于实时处理epa网络数据的方法、计算设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389486A (zh) * 2023-12-13 2024-01-12 浙江国利信安科技有限公司 用于实时处理epa网络数据的方法、计算设备和存储介质
CN117389486B (zh) * 2023-12-13 2024-04-19 浙江国利信安科技有限公司 用于实时处理epa网络数据的方法、计算设备和存储介质

Similar Documents

Publication Publication Date Title
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
US10671594B2 (en) Statement based migration for adaptively building and updating a column store database from a row store database based on query demands using disparate database systems
CN112445863B (zh) 一种数据实时同步方法及系统
US10572508B2 (en) Consistent query execution in hybrid DBMS
CN107038222B (zh) 数据库缓存实现方法及其系统
CN112286941B (zh) 一种基于Binlog+HBase+Hive的大数据同步方法和装置
Tang et al. Deferred lightweight indexing for log-structured key-value stores
CN110309233A (zh) 数据存储的方法、装置、服务器和存储介质
CN107665219B (zh) 一种日志管理方法及装置
CN104239377A (zh) 跨平台的数据检索方法及装置
CN109063005B (zh) 一种数据迁移方法及系统、存储介质、电子设备
US7225206B2 (en) System and method for reorganizing stored data
CN111078709A (zh) 一种基于数仓工具hive的非更新方式的增量拉链实现方法
CN113868028A (zh) 一种在数据节点上回放日志的方法、数据节点及系统
CN115098486A (zh) 基于海关业务大数据的实时数据采集方法
CN108182198A (zh) 存储先进控制器运行数据的控制装置和读取方法
CN108959614A (zh) 一种快照管理方法、系统、装置、设备及可读存储介质
CN104731716A (zh) 一种数据存储方法
CN114265875B (zh) 一种基于流数据的实时建宽表的方法
US11874753B2 (en) Log compression
CN106021574A (zh) 一种数据存储复制方法及其存储复制系统
CN111813833B (zh) 一种实时二度通联关系数据挖掘的方法
CN114722045A (zh) 时间序列数据的存储方法及装置
CN111258977A (zh) 一种税务大数据存储及分析平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination