CN114969204A

CN114969204A - 业务数据抽取方法及系统

Info

Publication number: CN114969204A
Application number: CN202210551327.2A
Authority: CN
Inventors: 孙腾达; 杨蕾; 朱博麟; 马慧娟; 曾仕豪
Original assignee: Beijing Marine Communication Navigation Co
Current assignee: Beijing Marine Communication Navigation Co
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-30

Abstract

本发明公开了一种业务数据抽取方法及系统，涉及数据处理技术领域。该方法包括：建立数据仓库，数据仓库包括实时库、历史库、今天库和修复历史库；将业务数据从生产数据库中抽取出来，存放在镜像数据库中；将镜像数据库中的待统计业务数据抽取到实时库中，对抽取到实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到历史库中；今天库和修复历史库根据预设更新规则将聚合数据同步至历史库中。本发明可以降低数据统计和数据采集的耦合行，分担系统压力，提升应用系统的稳定性，并且提升数据统计范围较大场景中的统计时效性，此外，当数据部分关键信息变更时，建立校验机制，可以提升数据统计结果的准确性。

Description

业务数据抽取方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及业务数据抽取方法及系统。

背景技术

目前，业务数据的读取通常直接从生产数据库读取，例如海事局危险管理系统，其中危防货物查询统计模块采用直接从业务生产数据库读取数据的方式。

从生产数据库直接获取数据会给系统造成负担，产生IO瓶颈，降低应用系统的稳定性，并且当数据统计范围较大时，从生产数据库获取聚合数据会占用大量的时间，降低数据统计结果的时效性，此外，当数据部分关键信息变更时，历史信息不能同步更新，降低数据统计结果的准确性。

发明内容

本发明所要解决的是直接从生产数据库获取数据存在稳定性差、时效性差和准确性低的问题，为了解决上述技术问题，本发明提供了业务数据抽取方法及系统。

第一个方面，提供了一种业务数据抽取方法，包括：

建立数据仓库，所述数据仓库包括实时库、历史库、今天库和修复历史库，其中，所述实时库用于存储全部聚合数据，所述历史库用于存储除目标天外的聚合数据，所述今天库用于对目标天产生的全量聚合数据进行更新，所述修复历史库用于对预设天数间隔内的全量聚合数据进行更新；

将业务数据从所述生产数据库中抽取出来，存放在镜像数据库中；

将所述镜像数据库中的待统计业务数据抽取到所述实时库中，对抽取到所述实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到所述历史库中；

所述今天库和所述修复历史库根据预设更新规则将所述聚合数据同步至所述历史库中。

在第一个方面的一种可能实现中，将所述镜像数据库中的待统计业务数据抽取到所述实时库中，对抽取到所述实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到所述历史库中，具体包括：

判断所述实时库是否具有时间戳表；

当所述实时库具有所述时间戳表时，判断所述实时库是否具有jobname表，所述jobname表用于记录运行结束的作业；

当所述实时库具有所述jobname表时，删除所述jobname表中的数据；

将所述时间戳表中的时间戳作为变量传递到SQL语句中，按照时间戳的方式从所述镜像数据库中抽取业务数据，将所述业务数据聚合后输入到作业流中，对作业流中的数据进行转换加工和数据加载，并同步到所述历史库中。

在第一个方面的一种可能实现中，对作业流中的数据进行转换加工和数据加载，具体包括：

选择需要输出的输出字段；

按照预设字段值对所述作业流中的数据进行排序，得到顺序字段；

将所述输出字段与所述顺序字段建立映射关系，根据预设的关键字段判断所述顺序字段中需要更新的字段和/或需要插入的字段；

根据所述需要更新的字段对所述实时库中的目标表进行数据更新，和/或根据所述需要插入的字段对所述实时库中的目标表进行数据插入。

在第一个方面的一种可能实现中，还包括：

将运行结束的作业名存入所述jobname表中，根据所述jobname表的行数判断是否全部作业运行结束，当全部作业运行结束或超过预设的时间阈值时，更新所述时间戳表中的时间戳。

在第一个方面的一种可能实现中，还包括：

当所述实时库没有所述时间戳表时，创建时间戳表并初始化一个时间戳；

当所述实时库没有所述jobname表时，创建jobname表。

第二个方面，提供了一种业务数据抽取系统，包括：建库单元、抽取单元、聚合单元和更新单元，其中：

所述建库单元用于建立数据仓库，所述数据仓库包括实时库、历史库、今天库和修复历史库，其中，所述实时库用于存储全部聚合数据，所述历史库用于存储除目标天外的聚合数据，所述今天库用于对目标天产生的全量聚合数据进行更新，所述修复历史库用于对预设天数间隔内的全量聚合数据进行更新；

所述抽取单元用于将业务数据从所述生产数据库中抽取出来，存放在镜像数据库中；

所述聚合单元用于将所述镜像数据库中的待统计业务数据抽取到所述实时库中，对抽取到所述实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到所述历史库中；

所述更新单元用于控制所述今天库和所述修复历史库根据预设更新规则将所述聚合数据同步至所述历史库中。

在第二方面的一种可能实现中，所述聚合单元具体用于判断所述实时库是否具有时间戳表；当所述实时库具有所述时间戳表时，判断所述实时库是否具有jobname表，所述jobname表用于记录运行结束的作业；当所述实时库具有所述jobname表时，删除所述jobname表中的数据；将所述时间戳表中的时间戳作为变量传递到SQL语句中，按照时间戳的方式从所述镜像数据库中抽取业务数据，将所述业务数据聚合后输入到作业流中，对作业流中的数据进行转换加工和数据加载，并同步到所述历史库中。

在第二方面的一种可能实现中，所述聚合单元具体用于选择需要输出的输出字段；按照预设字段值对所述作业流中的数据进行排序，得到顺序字段；将所述输出字段与所述顺序字段建立映射关系，根据预设的关键字段判断所述顺序字段中需要更新的字段和/或需要插入的字段；根据所述需要更新的字段对所述实时库中的目标表进行数据更新，和/或根据所述需要插入的字段对所述实时库中的目标表进行数据插入。

在第二方面的一种可能实现中，所述聚合单元还用于将运行结束的作业名存入所述jobname表中，根据所述jobname表的行数判断是否全部作业运行结束，当全部作业运行结束或超过预设的时间阈值时，更新所述时间戳表中的时间戳。

在第二方面的一种可能实现中，所述聚合单元还用于当所述实时库没有所述时间戳表时，创建时间戳表并初始化一个时间戳；当所述实时库没有所述jobname表时，创建jobname表。

通过建立实时库、历史库、今天库和修复历史库，对在镜像数据库中进行待统计数据的抽取、加工多维融合和聚合，对抽取的数据的历史版本进行维护，可以降低数据统计和数据采集的耦合行，分担系统压力，提升应用系统的稳定性，并且提升数据统计范围较大场景中的统计时效性，此外，当数据部分关键信息变更时，建立校验机制，可以提升数据统计结果的准确性。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明业务数据抽取方法的实施例提供的流程示意图；

图2为本发明业务数据抽取方法的实施例提供的数据仓库结构示意图；

图3为本发明业务数据抽取方法的实施例提供的全量抽取及实施抽取示意图；

图4为本发明业务数据抽取方法的其他实施例提供的流程示意图；

图5为本发明业务数据抽取系统的实施例提供的结构框架示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明业务数据抽取方法的实施例提供的流程示意图，该业务数据抽取方法包括：

S1，建立数据仓库，数据仓库包括实时库、历史库、今天库和修复历史库，其中，实时库用于存储全部聚合数据，历史库用于存储除目标天外的聚合数据，今天库用于对目标天产生的全量聚合数据进行更新，修复历史库用于对预设天数间隔内的全量聚合数据进行更新；

需要说明的是，目标天指的是存储数据的当天，数据仓库除4个数据库外，还可以根据实际需求设置其他的结构。

例如，如图2所示，提供了一种示例性的数据仓库结构示意图，可以包括源数据库层、数据采集层、数据存储与分析层和数据应用层，其中，源数据库层用使用的源数据库可以是一体化汇聚库，后续可以转移到标准库下，数据采集层可以将数据从源数据库层采集到数据存储上，期间大部分的操作均由ETL(Extract-Transform-Load，数据仓库技术)完成。ETL可以描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。数据存储与分析层主要包括实时库、历史库、今天库和修复历史库，历史库、今天库和修复历史库可以存储聚合数据、多维数据模型和业务模型，实时库可以存储聚合数据，数据应用层可以设置报表展示功能、即席查询功能、数据分析功能和数据挖掘功能等。

如表1所示，提供了一种以海事局危险管理系统的危防货物数据为例，数据存储与分析层各数据库功能示例。

表1数据存储与分析层各数据库功能

可选地，实时库中的字段可以包括：登记船舶艘次、登记船舶总吨、回国登记船舶艘次、回国登记船舶总吨、自贸区登记船舶艘次、自贸区登记船舶总吨、报废注销船舶艘次、报废注销船舶总吨、进出港船舶总艘次、进出港船舶总客运量、进出港船舶货运量、进出港船舶集装箱运量、进出口岸船舶总艘次、进出口岸船舶总客运量、进出口岸船舶货运量、进出口岸船舶集装箱运量、现场监督艘次、FSC检查艘次和PSC检查艘次。

S2，将业务数据从生产数据库中抽取出来，存放在镜像数据库中；

S3，将镜像数据库中的待统计业务数据抽取到实时库中，对抽取到实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到历史库中；

需要说明的是，具体的抽取策略可以根据实际需求设置，例如，在进行抽取时，为了保证统计的完整性，可选地，可以采用全量进行ETL的方式。此外，为了提升数据统计范围较大场景中的统计时效性，可选地，可以将统计范围切分成更细粒度，提前进行缓存。此外，为了保证缓存数据的准确性，可选地，可以维护数据的历史版本并进行定时的回溯。

如图3所示，提供了一种示例性的全量抽取及实施抽取示意图，该图表示从汇聚库至历史库的全量抽取及实时抽取。

S4，今天库和修复历史库根据预设更新规则将聚合数据同步至历史库中。

具体地，对于今天库，可以全天每隔预设时间间隔抽一次全天全量数据，跟今天库的表进行比对更新，例如，预设时间间隔可以为30分钟。对于修复历史库，可以每天依据时间戳抽取预设天数的数据，用于维护历史库内由于业务系统数据改变而未变化的数据，例如，预设天数可以为30天。

本实施例提供的业务数据抽取方法，通过建立实时库、历史库、今天库和修复历史库，对在镜像数据库中进行待统计数据的抽取、加工多维融合和聚合，对抽取的数据的历史版本进行维护，可以降低数据统计和数据采集的耦合行，分担系统压力，提升应用系统的稳定性，并且提升数据统计范围较大场景中的统计时效性，此外，当数据部分关键信息变更时，建立校验机制，可以提升数据统计结果的准确性。

如图4所示，为本发明业务数据抽取方法的其他实施例提供的流程示意图，图4中各个步骤的具体说明如表2所示。

表2业务数据抽取方法步骤说明

下面结合图4，对本发明的一些可能实施方式进行说明。

可选地，在一些可能的实施方式中，如图4所示，将镜像数据库中的待统计业务数据抽取到实时库中，对抽取到实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到历史库中，具体包括：

判断实时库是否具有时间戳表；

当实时库具有时间戳表时，判断实时库是否具有jobname表，jobname表用于记录运行结束的作业；

当实时库具有jobname表时，删除jobname表中的数据；

将时间戳表中的时间戳作为变量传递到SQL语句中，按照时间戳的方式从镜像数据库中抽取业务数据，将业务数据聚合后输入到作业流中，对作业流中的数据进行转换加工和数据加载，并同步到历史库中。

通过将时间戳表中的时间戳作为变量传递到SQL语句中，按照时间戳的方式从镜像数据库中抽取业务数据，可以降低数据统计和数据采集的耦合行，分担系统压力，提升应用系统的稳定性。

可选地，在一些可能的实施方式中，如图4所示，对作业流中的数据进行转换加工和数据加载，具体包括：

选择需要输出的输出字段；

按照预设字段值对作业流中的数据进行排序，得到顺序字段；

将输出字段与顺序字段建立映射关系，根据预设的关键字段判断顺序字段中需要更新的字段和/或需要插入的字段；

根据需要更新的字段对实时库中的目标表进行数据更新，和/或根据需要插入的字段对实时库中的目标表进行数据插入。

应理解，可以按照升序或降序的方式对作业流中的数据进行排序，通过上述方式对作业流中的数据进行转换加工和数据加载，可以提升数据统计范围较大场景中的统计时效性。

可选地，在一些可能的实施方式中，如图4所示，还包括：

将运行结束的作业名存入jobname表中，根据jobname表的行数判断是否全部作业运行结束，当全部作业运行结束或超过预设的时间阈值时，更新时间戳表中的时间戳。

可选地，在一些可能的实施方式中，如图4所示，还包括：

当实时库没有时间戳表时，创建时间戳表并初始化一个时间戳；

当实时库没有jobname表时，创建jobname表。

如图5所示，为本发明业务数据抽取系统的实施例提供的结构框架示意图，该业务数据抽取系统包括：建库单元、抽取单元、聚合单元和更新单元，其中：

建库单元用于建立数据仓库，数据仓库包括实时库、历史库、今天库和修复历史库，其中，实时库用于存储全部聚合数据，历史库用于存储除目标天外的聚合数据，今天库用于对目标天产生的全量聚合数据进行更新，修复历史库用于对预设天数间隔内的全量聚合数据进行更新；

抽取单元用于将业务数据从生产数据库中抽取出来，存放在镜像数据库中；

聚合单元用于将镜像数据库中的待统计业务数据抽取到实时库中，对抽取到实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到历史库中；

更新单元用于控制今天库和修复历史库根据预设更新规则将聚合数据同步至历史库中。

可选地，在一些可能的实施方式中，聚合单元具体用于判断实时库是否具有时间戳表；当实时库具有时间戳表时，判断实时库是否具有jobname表，jobname表用于记录运行结束的作业；当实时库具有jobname表时，删除jobname表中的数据；将时间戳表中的时间戳作为变量传递到SQL语句中，按照时间戳的方式从镜像数据库中抽取业务数据，将业务数据聚合后输入到作业流中，对作业流中的数据进行转换加工和数据加载，并同步到历史库中。

可选地，在一些可能的实施方式中，聚合单元具体用于选择需要输出的输出字段；按照预设字段值对作业流中的数据进行排序，得到顺序字段；将输出字段与顺序字段建立映射关系，根据预设的关键字段判断顺序字段中需要更新的字段和/或需要插入的字段；根据需要更新的字段对实时库中的目标表进行数据更新，和/或根据需要插入的字段对实时库中的目标表进行数据插入。

可选地，在一些可能的实施方式中，聚合单元还用于将运行结束的作业名存入jobname表中，根据jobname表的行数判断是否全部作业运行结束，当全部作业运行结束或超过预设的时间阈值时，更新时间戳表中的时间戳。

可选地，在一些可能的实施方式中，聚合单元还用于当实时库没有时间戳表时，创建时间戳表并初始化一个时间戳；当实时库没有jobname表时，创建jobname表。

应理解，上述实施方式为与在先方法实施方式对应的产品实施方式，关于产品实施方式的说明可以参考在先方法实施方式的说明，在此不再赘述。

应理解，在不违背本发明构思的前提下，本领域技术人员可以将上述实施方式进行任意组合，均在本发明的保护范围内。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种业务数据抽取方法，其特征在于，包括：

2.根据权利要求1所述的业务数据抽取方法，其特征在于，将所述镜像数据库中的待统计业务数据抽取到所述实时库中，对抽取到所述实时库中的业务数据进行多维加工和聚合处理，得到聚合数据并同步到所述历史库中，具体包括：

判断所述实时库是否具有时间戳表；

3.根据权利要求2所述的业务数据抽取方法，其特征在于，对作业流中的数据进行转换加工和数据加载，具体包括：

选择需要输出的输出字段；

4.根据权利要求3所述的业务数据抽取方法，其特征在于，还包括：

5.根据权利要求2至4中任一项所述的业务数据抽取方法，其特征在于，还包括：

当所述实时库没有所述jobname表时，创建jobname表。

6.一种业务数据抽取系统，其特征在于，包括：建库单元、抽取单元、聚合单元和更新单元，其中：

7.根据权利要求6所述的业务数据抽取系统，其特征在于，所述聚合单元具体用于判断所述实时库是否具有时间戳表；当所述实时库具有所述时间戳表时，判断所述实时库是否具有jobname表，所述jobname表用于记录运行结束的作业；当所述实时库具有所述jobname表时，删除所述jobname表中的数据；将所述时间戳表中的时间戳作为变量传递到SQL语句中，按照时间戳的方式从所述镜像数据库中抽取业务数据，将所述业务数据聚合后输入到作业流中，对作业流中的数据进行转换加工和数据加载，并同步到所述历史库中。

8.根据权利要求7所述的业务数据抽取系统，其特征在于，所述聚合单元具体用于选择需要输出的输出字段；按照预设字段值对所述作业流中的数据进行排序，得到顺序字段；将所述输出字段与所述顺序字段建立映射关系，根据预设的关键字段判断所述顺序字段中需要更新的字段和/或需要插入的字段；根据所述需要更新的字段对所述实时库中的目标表进行数据更新，和/或根据所述需要插入的字段对所述实时库中的目标表进行数据插入。

9.根据权利要求8所述的业务数据抽取系统，其特征在于，所述聚合单元还用于将运行结束的作业名存入所述jobname表中，根据所述jobname表的行数判断是否全部作业运行结束，当全部作业运行结束或超过预设的时间阈值时，更新所述时间戳表中的时间戳。

10.根据权利要求7至9中任一项所述的业务数据抽取系统，其特征在于，所述聚合单元还用于当所述实时库没有所述时间戳表时，创建时间戳表并初始化一个时间戳；当所述实时库没有所述jobname表时，创建jobname表。