CN113485812B

CN113485812B - 基于大数据量任务的分区并行处理方法及系统

Info

Publication number: CN113485812B
Application number: CN202110839279.2A
Authority: CN
Inventors: 张彪; 罗鹏; 张�浩
Original assignee: Chongqing Fumin Bank Co Ltd
Current assignee: Chongqing Fumin Bank Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-12-12
Anticipated expiration: 2041-07-23
Also published as: CN113485812A

Abstract

本发明公开一种基于大数据量任务的分区并行处理方法及系统，属于计算机技术领域，针对目前单线程大批量数据处理时，处理效率较低的问题，提出以下方案：基于大数据量任务的分区并行处理方法，包括：将数据库表中的大数据量任务拆分为多个子任务；其中，各子任务可独立、并行执行；根据预设抓取策略发出任务抓取请求对多个子任务进行抓取，并对抓取的子任务进行锁定；控制任务执行器执行各个被抓取的子任务；根据任务执行器的运行，对任务管理器的任务表数据进行更新。本发明技术方案提升大批量数据处理的效率和可靠性。

Description

基于大数据量任务的分区并行处理方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及基于大数据量任务的分区并行处理方法及系统。

背景技术

目前，在金融行业，每天都存在着大量的定时或不定时的跑批任务用于处理金融数据，如个人贷款放款、还款数据、用户逾期数据、催收数据处理、反欺诈数据扫描等业务。在传统的跑批业务中，通常采用单线程同步跑批，即在一台服务器上启动一个线程从存储媒介如数据库、FTP等加载数据并按照顺序一条一条进行处理。

然而，这种单线程同步跑批，在大批量数据情况下，效率非常低效，通常容易导致数据处理时间超过规定的跑批时效。所有的数据都只能在一个线程中依次处理，即使这些数据没有任何的依赖关系，数据处理并发度低。

发明内容

本发明的主要目的在于提供基于大数据量任务的分区并行处理及系统，旨在解决目前单线程大批量数据处理时，处理效率较低的问题，提升大批量数据处理的效率。

本发明提供的基础方案：

基于大数据量任务的分区并行处理方法，包括：

将数据库表中的大数据量任务拆分为多个子任务；其中，各所述子任务可独立、并行执行；

根据预设抓取策略发出任务抓取请求对多个所述子任务进行抓取，并对抓取的子任务进行锁定；

控制任务执行器执行各个被抓取的子任务；

根据所述任务执行器的运行，对任务管理器的任务表数据进行更新。

本发明基础方案的原理为：

基于大数据量任务的分区并行处理方法具体是将数据表中的大数据量任务进行拆分，以拆分为多个独立的子任务，也即是实行数据分片处理，将一个大型的数据集的处理任务划分为多个小型的、相对独立的子任务，每一子任务均可以单独的、并行运行，这些被拆分成的子任务统一构成了原有的大数据量任务。

对于拆分后的各子任务，根据预设抓取策略发出任务抓取请求进行子任务抓取，并对抓取后的子任务进行锁定；通过处理器控制任务执行器执行各个被抓取的子任务，以对任务管理器中任务表数据进行更新。

本发明基础方案的效果为：

(1)本方案中，将数据表中的大数据量任务拆分为多个独立的子任务，每一子任务均可以单独的、并行运行，解决了相关技术中对于大批量数据处理，采用单线程同步跑批效率较低，容易导致数据处理时间超过规定的跑批时效的问题；同时解决了大数据量任务均在一个线程中依次处理，数据处理并发度低的问题；从而提升大批量数据处理的效率。

(2)本方案中，通过对抓取的子任务进行重试，防止子任务执行过程中发生服务器宕机或其它依赖的服务不可用导致子任务执行异常退出，导致的子任务数据无法处理。

(3)本方案中，通过对拆分后各子任务的抓取、锁定，并控制服务器执行子任务，同时对任务管理器的任务表数据进行更新，以提升大数据量任务处理的可靠性。

(4)本方案中，通过对抓取的子任务进行锁定及锁定续期，防止出现多机并发抓取同一任务执行，导致同一数据被多次、并发执行处理而产生数据错乱的情况。

进一步，基于大数据量任务的分区并行处理方法还包括：

获取所述任务执行器正在执行的子任务；

根据定时心跳的方式对正在执行的子任务的锁定时间进行续期。

通过定时心跳对子任务的锁定时间续期，以此实现长时间运行的任务可以被任务执行器持续锁定。

进一步，所述定时心跳的时间间隔根据公式t＝T/N进行计算，其中，t为定时心跳时间间隔，T为锁定失效时间，N为预设心跳失败次数。

通过公式对定时心跳的时间间隔进行计算，防止某一两次的续期失败影响整体的锁定效果，保证在最大连续出现N-1次心跳失败时仍可以安全的锁定任务及任务续期。

进一步，基于大数据量任务的分区并行处理方法还包括：

当超过子任务的锁定时间后，所述子任务的锁定自动失效；

所述子任务可再次被服务器抓取、锁定和执行。

由于对超过子任务的锁定时间进行设定，避免子任务一直被锁定，不能被服务器抓取、锁定的问题。

进一步，根据权利要求1所述的基于大数据量任务的分区并行处理方法，其特征在于，每一所述子任务均具有执行生命周期，当所述子任务执行失败时，根据预设重试策略在规定的重试次数内进行所述子任务重试。

通过对子任务执行失败重试，实现了大数据量任务的局部子任务中断重试，解决了传统大数据量任务中断重试时需要全部数据重复处理的问题。

进一步，所述将大数据量任务拆分为多个子任务的步骤之前包括：

对任务管理器、任务抓取器、多个任务执行器进行初始化操作。

通过对任务管理器、任务抓取器和任务执行器的初始化，提升后期大数据量任务处理的可靠性。

进一步，多个所述任务执行器分布于同一数据中心，或者分布于多个不同的数据中心。

通过一个数据中心或者多数据中心的设置，使得服务器具有较强的普适性，对于接入环境的要求相对较低，可以应对不同的接入条件。

进一步，各所述任务执行器之间通过预设配置化参数执行不同的子任务。

所述预设配置化参数包括任务执行器的核心线程数大小、最大线程数大小、线程队列大小、以及任务抓取策略配置和任务重试策略配置。

通过预设配置化参数执行拆分的子任务，以实现各任务执行器不同的效果。

本发明还提出基于大数据量任务的分区并行处理系统，包括：

数据拆分模块，用于将数据库表中的大数据量任务拆分为多个子任务；其中，各所述子任务可独立、并行执行；

抓取锁定模块，用于根据预设抓取策略发出任务抓取请求对多个所述子任务进行抓取，并对抓取的子任务进行锁定；

数据执行模块，用于控制任务执行器执行各个被抓取的子任务；

数据更新模块，用于根据所述任务执行器的运行，对任务管理器的任务表数据进行更新。

附图说明

图1为本发明实施例方案涉及的终端设备内部结构示意图；

图2为本发明基于大数据量任务的分区并行处理方法一实施例的流程示意图；

图3为本发明基于大数据量任务的分区并行处理方法中任务执行时序一实施例的流程框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面通过具体实施方式进一步详细说明：

说明书附图中的附图标记包括：处理器1001、通信总线1002、用户接口1003、网络接口1004、存储器1005。

如图1所示，其为本发明实施例方案涉及的终端设备内部结构示意图。

需要说明的是，图1也即是终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC、便携计算机等终端设备。

如图1所示，该终端设备可以包括：处理器1001，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现处理器1001、用户接口1003、网络接口1004、存储器1005之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、手写板、触控笔等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口(如RJ45接口)、无线接口(如WIFI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分布式任务的处理程序。其中，操作系统是管理和控制样本终端设备硬件和软件资源的程序，支持分布式任务的处理程序以及其它软件或程序的运行。

在图1所示的终端设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中基于大数据量任务的分区并行处理程序，并执行如图2所示的以下操作：

步骤S10，将数据库表中的大数据量任务拆分为多个子任务；其中，各所述子任务可独立、并行执行；

步骤S20，根据预设抓取策略发出任务抓取请求对多个所述子任务进行抓取，并对抓取的子任务进行锁定；

步骤S30，控制任务执行器执行各个被抓取的子任务；

步骤S40，根据所述任务执行器的运行，对任务管理器的任务表数据进行更新。

需要说明的是，在金融行业，由于其行业特殊性要求其需要具备较高的业务连续性，在连续性建设方面普遍采用的是两地三中心等方案，一般两地机房之间通过运营商专线的方式连接，因异地跨机房之间的通信专线成本非常昂贵，通信也存在一定延时；故在设计两地三中心方案时，一般情况下都要求除数据库/FTP等基础数据存储设施为多机房共享外，其它基础设施为单机房隔离，如缓存服务、消息服务、RPC调用服务等服务，这些服务都需要在各个机房实现自闭环调用，最后通过数据库写库(数据库层实现多机房网络互通)的方式实现与其它机房的数据通信。同时，目前单线程数据处理通常缺少应对任务处理过程中因环境条件造成的数据处理中断的方案，如：数据库连接闪断、连接第三方媒介网络闪断等临时性错误场景的处理。重启任务过程复杂，重启后数据可能出现任务大量重复处理，如一批10万的数据在处理到9万条数据时任务出现异常中断，传统方式为人工重新触发执行，此时需要重新处理已经处理过的9万条数据，浪费数据处理成本。

而通过本方案基于大数据量任务的分区并行处理方法解决了相关技术中对于大批量数据处理，采用单线程同步跑批效率较低，容易导致数据处理时间超过规定的跑批时效的问题；同时解决了大数据量任务均在一个线程中依次处理，数据处理并发度低的问题；从而提升大批量数据处理的效率。进行重试可防止子任务执行过程中发生服务器宕机或其它依赖的服务不可用导致子任务执行异常退出，导致的子任务数据处理失败。

本实施例中，将数据表中的大数据量任务实行数据分片处理，也即将一个大型的数据集的处理任务划分为多个小型的、相对独立的子任务，每一子任务均可以单独的、并行运行，这些被拆分成的子任务统一构成了原有的大数据量任务。对于拆分后的各子任务，根据预设抓取策略发出任务抓取请求进行子任务抓取，并对抓取后的子任务进行锁定；通过处理器控制任务执行器执行各个被抓取的子任务，以对任务管理器中任务表数据进行更新。从而使得本方案解决目前单线程大批量数据处理时，处理效率较低的问题，提升大批量数据处理的效率。

基于上述实施例，本方案实现了跨多机异步任务的编排与并发执行，目前只依赖了多数据中心底层的数据存储---数据库，方案具有非常强的普适性，对于接入环境的要求相对较低，可以应对不同的接入条件。基于该方案可以使用统一的任务运行模型来实现一个大型数据处理任务的拆解、编排、并发执行。需要说明的是，统一的任务运行模型是指通过本框架编程可以实现统一的任务运行模型，统一的任务接入范式，从代码上来说明就是统一的编程规范，接入后都会按照这样的编程逻辑进行处理，在代码API接口上做到了统一规范(模型统一)，并且框架以一种统一的任务运行方式进行任务处理，避免多种不同方式的数据处理，统一的任务处理方式能有效的避免程序中不同处理方式引发的bug，统一的处理方式即使出现bug也可以做统一的修改。

在一实施例中，参照如图3所示，基于大数据量任务的分区并行处理方法还包括：获取所述任务执行器正在执行的子任务；根据定时心跳的方式对正在执行的子任务的锁定时间进行续期。当超过子任务的锁定时间后，所述子任务的锁定自动失效；所述子任务可再次被服务器抓取、锁定和执行。在将大数据量任务拆分为多个子任务的步骤之前包括：对任务管理器、任务抓取器、多个任务执行器进行初始化操作。

具体地，在任务执行时序中，任务抓取器负责将符合要求的子任务从数据库表中查询出来并进行锁定，锁定以保证其它服务器不会再次抓取该子任务用于执行，锁定需要设置一定的锁定时间，当前时间超过锁定时间后，该锁定效果自动失效，子任务允许再次被其它服务器抓取、锁定、执行。需要说明的是，符合要求的子任务是指根据任务执行器设置的抓取策略设定，例如，任务有分组的概念，不同的执行任务可以进行分组，每个执行任务进行子任务拆分，分属不同的分组，不同的分组可以由不同的任务执行器进行抓取执行。

任务心跳服务，是为了实现长时间运行的子任务可以被任务执行器持续锁定，任务抓取器具有定时心跳功能，定时通过心跳的方式将数据库表中的锁定时间进行续期。

本实施例中，定时心跳的时间间隔由锁定时间长短决定，也即根据公式t＝T/N进行计算定时心跳的时间间隔，其中，t为定时心跳时间间隔，T为锁定失效时间，N为预设心跳失败次数。此处的N可以是2次、3次、5次等，根据实际应用场景设定，此处不做具体限定。也即当设置锁定失效时间为10分钟，则定时心跳时间间隔则为每2分钟发起一次心跳续期。通过本发明的技术方案防止某一两次的续期失败影响整体的锁定效果，保证不连续出现5次心跳失败，则锁定效果保持不变。

当锁定的子任务在执行过程中发生服务器宕机或其它依赖的服务不可用导致任务执行异常退出时，此时该子任务的锁定记录会仍然存在于数据库表记录中，但随着时间的推移，一旦时间超过锁定有效期，则该子任务会被其它服务器进行解锁、抓取、执行，从而达到任务失败恢复的效果。

本实施例中，任务执行器负责一组/一类子任务的抓取、执行。一个应用中可以并存多个任务执行器，各个任务执行之间相互隔离不影响，任务执行器之间通过预设配置化参数可以实现各任务执行器的不同效果。此处任务执行器的不同效果包括：其一，对于子任务处理数据量大，数据处理本身执行时间长，这类任务被称为重型任务，比如，一个子任务是用于下载一个1G的大文件，本身处理需要消耗约5分钟的时间，在执行这类任务时本身并不需要太多的线程，由于线程太多也并不能提高任务的处理能力(受限于服务器本身的机器配置)，此时分配较小且合理的线程池线程数量用于处理数据即可。其二，对于子任务处理数据量小，且数据本身处理逻辑不复杂，处理速度快的这类任务称为轻量任务；例如，处理文件下载后的每行数据，以每1000行数据为一个子任务，此时处理数据逻辑较简单，可以在2s内就可以处理完成，这时可以分配更多的线程用于并发处理，提高处理效率。

上述预设配置化参数可以是线程池配置，线程池可以配置核心线程数大小、最大线程数大小、线程队列大小等。

上述实施例中，对于预设配置化参数可以是包括任务执行器的核心线程数大小、最大线程数大小、线程队列大小、以及任务抓取策略配置和任务重试策略配置；具体地，预设配置化参数指的是任务执行器的线程池大小配置，线程池大小的配置需要依据产生的任务的多少以及执行时间和执行效率评估，比如子任务数据少，可以很快执行完成且不需要很大的并发度，则可以设置较少的线程数，线程数可以理解为执行子任务的并发度。

上述实施例中，预设抓取策略是指随软件开发工具包SDK提供一个默认的基于固定时间间隔的抓取策略，使用者也可以根据需要自定义一个任务抓取策略，此处不做具体限定；默认情况下不做配置则使用默认的抓取策略。预设重试策略是指随软件开发工具包SDK提供一个默认的基于重试次数的重试策略，使用者也可以根据需要自定义一个任务重试策略，此处不做具体限定；默认情况下不做配置则使用默认的重试策略。

本实施例中，任务管理器负责对多个任务执行器进行管理，定义了此任务管理器应该负责的数据表前缀范围，即该数据库表前缀的数据由该任务管理器负责处理。任务管理器负责由它管理的任务执行器的初始化、运行、关闭。任务管理器是对外统一的编程入口，提供统一的编程视角，使用者只需要将各个任务执行器的初始化参数提交到任务管理器，由任务管理器负责初始化并运行。

上述实施例中，当程序启动时，任务管理器便开始自动运行，初始化过程中会将由自身管理的多个任务执行器都进行初始化操作，任务执行器初始化完成后会通过其任务抓取策略将抓取请求发送至任务抓取器，由任务抓取器将拆分后的子任务从数据库表中抓取出来返回至任务执行器执行。当程序关闭时，任务管理器负责对其管理的任务执行器执行关闭操作，在所有的任务执行器都停止工作后，任务管理器退出。

为实现上述目的，本发明还提出基于大数据量任务的分区并行处理系统，包括：

本实施例中，基于大数据量任务的分区并行处理系统主要由接入程序自行实现，由接入程序自行完成数据块的拆分，拆分依据需要根据不同的业务形态；例如，文件下载后的处理，则可能以文件内的数据行为依赖拆分，每2000行为一个处理子任务；另如大数据库表的处理，可以是以连续id区间进行子任务拆分，这些均需要接入的业务系统拆分，本方案的接入系统拆分完成后会产生子任务列表，并通过本方案的系统接口进行保存记录，完成子任务的创建。

该基于大数据量任务的分区并行处理系统的实施例参照上述实施例，由于本基于大数据量任务的分区并行处理系统采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知系统不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于大数据量任务的分区并行处理方法，其特征在于，包括：

控制任务执行器执行各个被抓取的子任务；

根据所述任务执行器的运行，对任务管理器的任务表数据进行更新；

采用统一的任务运行模型进行任务的拆解、编排、并发执行；

所述预设抓取策略为，将不同的执行任务进行分组，每个执行任务进行子任务拆分，分属不同的分组，不同的分组由不同的任务执行器进行抓取执行；

各所述任务执行器之间通过预设配置化参数执行不同的子任务；

所述预设配置化参数包括任务执行器的核心线程数大小、最大线程数大小、线程队列大小、以及任务抓取策略配置和任务重试策略配置；

获取所述任务执行器正在执行的子任务；

根据定时心跳的方式对正在执行的子任务的锁定时间进行续期；

所述定时心跳的时间间隔根据公式t=T/N进行计算，其中，t为定时心跳时间间隔，T为锁定失效时间，N为预设心跳失败次数；

N取5，用于保证不连续出现5次心跳失败，则锁定效果保持不变；每一所述子任务均具有执行生命周期，当所述子任务执行失败时，根据预设重试策略在规定的重试次数内进行所述子任务重试；

任务管理器负责对多个任务执行器进行管理，负责由它管理的任务执行器的初始化、运行、关闭；任务管理器是对外统一的编程入口，提供统一的编程视角，使用者只需要将各个任务执行器的初始化参数提交到任务管理器，由任务管理器负责初始化并运行。

2.根据权利要求1所述的基于大数据量任务的分区并行处理方法，其特征在于，还包括：

当超过子任务的锁定时间后，所述子任务的锁定自动失效；

所述子任务可再次被服务器抓取、锁定和执行。

3.根据权利要求1所述的基于大数据量任务的分区并行处理方法，其特征在于，所述将数据库表中的大数据量任务拆分为多个子任务的步骤之前包括：

4.根据权利要求3所述的基于大数据量任务的分区并行处理方法，其特征在于，多个所述任务执行器分布于同一数据中心，或者分布于多个不同的数据中心。

5.基于大数据量任务的分区并行处理系统，其特征在于，包括：

数据更新模块，用于根据所述任务执行器的运行，对任务管理器的任务表数据进行更新；

抓取锁定模块，还用于获取所述任务执行器正在执行的子任务；