CN115454968A

CN115454968A - 一种数据批量处理方法、电子设备和存储介质

Info

Publication number: CN115454968A
Application number: CN202211126026.1A
Authority: CN
Inventors: 李�杰
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-09

Abstract

本申请公开了一种数据批量处理方法、电子设备及存储介质，包括：第一进程获取至少一个数据；生成与所述数据对应的若干个主任务；对所述若干个主任务进行配置，以将所述若干个主任务分别拆分成若干个子任务，以待若干个第二进程在预设时间段内对所述子任务进行处理。上述方案，通过第一进程生成与所述数据对应的若干个主任务，将所述若干个主任务分别拆分成若干个子任务，以待若干个第二进程在预设时间段内对所述子任务进行处理，实现了将主任务的生成和处理解耦，提高了主任务处理的效率以及可同时处理的数据量。

Description

一种数据批量处理方法、电子设备和存储介质

技术领域

本申请涉及数据处理领域，特别是涉及一种数据批量处理方法、电子设备及存储介质。

背景技术

随着互联网技术发展，数据批量处理系统需要处理的数据量也随之增长。当前各大互联网网站、金融公司和银行都有自己的数据批量处理系统，这些数据批量处理系统每天需要处理千万级甚至亿级的数据量，且需要处理的数据量仍在不断增长。

然而，目前很多公司使用的数据批量处理系统，存在模块间的耦合性强，无法水平扩展批量框架数据处理能力，后期维护困难，无力支撑大数据量的结算等问题，从而影响公司正常业务。

发明内容

本申请至少提供一种数据批量处理方法、电子设备及存储介质，能够提高可同时存储的数据量，实现将主任务的生成和处理解耦，提高主任务处理的效率以及可同时处理的数据量。

根据本申请的第一方面，公开了一种实例性的数据批量处理方法，其特征在于，所述方法包括：第一进程获取至少一个数据，读取所述数据，对所述数据进行处理，生成与所述数据对应的若干个主任务，对所述若干个主任务进行配置，将所述若干个主任务分别拆分成若干个子任务；确定所述数据的数量，根据所述数据的数量确定数据库的数量，建立所述数据与所述数据库之间的映射关系，将每个所述数据所对应的若干个所述主任务和/或所述子任务保存至与所述数据相映射的数据库，以待第二进程对所述子任务进行处理。

根据本申请的第二方面，公开了一种实例性的电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的数据批量处理方法。

根据本申请的第三方面，公开了一种实例性的非易失性计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的数据批量处理方法。

上述方案，根据数据的数量确定数据库的数量，提高了可同时存储的数据量，使用第一进程生成主任务并将主任务拆分成若干个子任务，以待第二进程对子任务进行处理，实现了将主任务的生成和处理解耦，提高了主任务处理的效率以及可同时处理的数据量。

在阅读以下对各图及图式中所例示的优选实施例的详细说明之后，本申请的这些及其它目标无疑将对所属领域的技术人员显而易见。

附图说明

图1是本申请的数据批量处理方法一实施例的流程示意图；

图2是本申请的数据批量处理方法一实施例的框架示意图；

图3是本申请的数据批量处理方法另一实施例的流程示意图；

图4是本申请的电子设备一实施例的框架示意图；

图5是本申请的非易失性计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

需要说明的是，若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标志告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围则视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

请参阅图1，图1是本申请的数据批量处理方法一实施例流程示意图。数据批量处理方法的执行主体可以是数据批量处理装置，例如，基于数据批量处理方法可以由终端设备或服务器或其它处理设备执行，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal DigitalAssistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该数据批量处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

具体而言，如图1所示，该方法可包括如下步骤：

步骤S11：第一进程获取至少一个数据。

数据是指预先设定的需要进行处理的目标数据，在此不作限定。第一进程是指可以对数据进行处理得到主任务的进程，例如：生产者进程。

第一进程获取至少一个数据，在一些实施例中，可以使用机器人流程自动化技术。机器人流程自动化技术(Robotic Process Automation)，主要的功能是将工作信息与业务交互按照自先设计的流程去执行，自动完成工作信息与业务的交互。例如，通过机器人流程自动化技术，可以按照预先设定的获取数据的流程，自动获取数据。

步骤S12：生成与数据对应的若干个主任务。

主任务是指需要对数据进行的操作。生成与数据对应的若干个主任务，例如：第一进程通过读取数据，获得需要对数据进行的若干操作，并保存为若干个主任务，再例如：预先设定需要对数据进行的操作，当第一进程读取到数据时，将数据分为预设的若干个主任务。

步骤S13：对若干个主任务进行配置，以将若干个主任务分别拆分成若干个子任务，以待若干个第二进程在预设时间段内对子任务进行处理。

子任务是指对数据进行的操作的切分，例如：某主任务为对数据执行A+B的操作与C+D的操作，则可以将此主任务分为两个子任务，分别负责执行A+B与C+D的操作过程，另外，需要说明的是，也可以根据实际情况，指定数据生成的若干个主任务中的部分主任务，将部分主任务拆分为子任务，而剩余主任务不进行拆分。

第一进程对若干个主任务进行配置，以将若干个主任务分别拆分成若干个子任务，例如：配置各个主任务之间的执行顺序，拆分方法等。其中，拆分主任务的方法，例如：通过设置主任务节点将主任务拆分为若干个子任务，需要说明的是，拆分主任务的方法是预先进行设定的，可以根据实际情况进行选择，在此不作赘述。

其中，第二进程是可以对主任务和/或子任务进行相应操作及处理的进程，例如：消费者进程。

第二进程在预设时间段内对子任务进行处理，即第二进程在预设时间段内对子任务进行相应操作，第二进程可以应用于与第一进程相同或不同的电子设备中，当第一进程与第二进程应用于同一电子设备时，第一进程与第二进程可以通过进程间的通信技术(Interprocess communication)进行通信，当第一进程与第二进程应用于不同电子设备时，第一进程和/或第二进程可以通过指定目标设备中的第一进程和/或第二进程，从而进行通信，在此不作赘述。

另外，可以理解的是，可以根据实际情况，调整第二进程处理子任务的时间，例如：根据存储子任务的数据库的数量及容量调整子任务在数据库中存储的时长，在此时长内的任意时间节点第二进程均可以对若干个主任务和/或子任务进行处理，其中，数据库用于存放第一进程根据数据生成的主任务和/或子任务。

本实施例中，通过第一进程生成与所述数据对应的若干个主任务，将若干个主任务分别拆分成若干个子任务，以待若干个第二进程在预设时间段内对子任务进行处理，实现了将主任务的生成和处理解耦，提高了主任务处理的效率以及可同时处理的数据量。

如上述，第一进程对若干个主任务进行配置，将若干个主任务分别拆分成若干个子任务，在一些实施例中，对若干个主任务进行配置，包括：配置若干个主任务的分片策略，将若干个主任务分别拆分成若干个子任务，包括：根据分片策略将若干个主任务中的每个主任务拆分成若干个子任务。

分片策略是指将主任务拆分为子任务的策略，可以预先进行设定，例如：可以设定当可用的第二进程数量少于某预设数值时，减少将主任务拆分为子任务的数量，当可用的第二进程数量高于某预设数值时，增加将主任务拆分为子任务的数量，以提高处理的速度。

再例如：第一进程通过读取数据，获得数据的数据量，当数据量低于预设数值时，减少将主任务拆分为子任务的数量，或者，不进行拆分；当数据量高于预设数值时，增加将主任务拆分为子任务的数量。

如上述，第一进程根据分片策略将若干个主任务中的每个主任务拆分成若干个子任务，在一些实施例中，根据分片策略将若干个主任务中的每个主任务拆分成若干个子任务，包括：根据分片策略将若干个主任务中的每个主任务分别拆分为数据库维度和/或表维度，得到若干个子任务。

将若干个主任务中的每个主任务分别拆分为数据库维度和/或表维度，即对主任务进行分库操作或者分表操作，例如:使用垂直拆分，水平拆分，取模拆分等方法对主任务进行拆分，得到若干个子任务，对于分库操作或者分表操作的具体方法在此不作限定。

如上述，对若干个主任务进行配置，还包括：配置若干个主任务之间的依赖关系、串行方式、并行方式。

依赖关系是指主任务间的执行时间条件，至少包括：同时开始关系、同时结束关系、开始-结束关系、结束-开始关系。其中，同时开始关系是指开始处理某主任务的时间与开始处理另一主任务的时间相同；同时结束关系是指处理完成某主任务的时间与处理完成另一主任务的时间相同；相应的，开始-结束关系是指开始处理某主任务的时间与处理完成另一主任务的时间相同；结束-开始关系是指处理完成某主任务的时间与开始处理另一主任务的时间相同。

串行方式是指处理完成某主任务后开始处理其它主任务，相应的，并行方式是指可以同时处理某主任务以及其它主任务。

此时，请参阅图2，图2是本申请的数据批量处理一实施例的框架示意图，以图2为例：可以设置主任务1与主任务2的依赖关系为结束-开始关系，且设置主任务1与主任务2为串行方式，即处理完成主任务1后开始处理主任务2，或者，设置主任务1与主任务2的依赖关系为同时开始关系、且设置主任务1与主任务2为并行方式。

对于更为具体的场景中，例如：在金融科技中的销售额计算领域中，需要同时计算某商户的年销售额与每月平均销售额，数据为该商户某年一月至十二月的月销售额，则可以设定主任务1为计算该商户的年销售额，主任务2为计算该商户的每月平均销售额，设定主任务1与主任务2为同时开始关系且为并行关系，即同时计算该商户的年销售额与该商户的每月平均销售额。再例如：需要计算该商户近两年的平均销售额，数据为该商户近两年的一月至十二月的月销售额，则可以设定主任务1为计算该商店近两年的年销售额，主任务2为计算该商店近两年的年销售额之和，主任务3为计算该商户的近两年的年平均销售额，设定主任务1、主任务2与主任务3为结束-开始关系且为串行关系。

换句话说，根据实际情况，可将处理顺序设置为同时对多个主任务进行处理，也可以按照预设顺序进行处理。对于更为复杂的情况，可以对主任务的依赖关系、串行方式、并行方式进行相应的调整，以调整处理主任务的顺序，在此不作赘述。

如上述，第一进程将若干个主任务分别拆分成若干个子任务，在一些实施例中，将若干个主任务分别拆分成若干个子任务后，还包括：第一进程根据数据与对应的数据库之间的关联关系将若干个子任务存储至对应的数据库，确定子任务的数量，以根据存储至对应的数据库的子任务数量确定第二进程的数量，其中，数据库的数量由数据的数量确定，且数据与对应的数据库之间关联，每个第二进程与至少一个子任务相对应。

数据库用于存储对应的数据，可以应用于与第一进程相同或不同的电子设备中。

第一进程根据数据与对应的数据库之间的关联关系将若干个子任务存储至对应的数据库，确定子任务的数量，根据存储至对应的数据库的子任务数量确定第二进程的数量，例如：第一进程将若干个子任务存储至与数据关联的数据库，将每个数据所对应的若干个主任务和/或子任务保存至与数据相映射的数据库后，读取数据库以确定子任务的数量，根据子任务的数量以确定第二进程的数量，例如：可以根据实际情况设定一个第二进程处理一个或多个子任务，即每个第二进程与至少一个子任务相对应。

数据库的数量由数据的数量确定，且数据与对应的数据库之间关联，每个第二进程与至少一个子任务相对应，例如：第一进程通过读取若干个数据，确定数据的数量，根据数据的数量确定数据库的数量，并且，建立数据与数据库之间的映射关系，即一个数据库与一个数据对应，或者，根据数据的数据量大小及数据库的容量，设定一个数据库与若干个数据对应，以将每个数据所对应的若干个主任务和/或子任务保存至与数据相映射的数据库。

继续以图2为例，第一进程获取并读取一个数据后，生成主任务1与主任务2，并进一步将主任务1拆分为子任务1与子任务2，将主任务2拆分为子任务3与子任务4，第一进程确定子任务的数量为4，根据子任务的数量4确定第二进程的数量为4。其中，每个第二进程与至少一个子任务相对应，即如图2中所示，子任务1与第二进程201对应，子任务2与第二进程202对应，子任务3与第二进程203对应，子任务4与第二进程204对应。

需要说明的是，第一进程将主任务拆分成的子任务的数量是根据需要对主任务进行的操作而确定的，例如：对于一些较为复杂的操作，可以增加将主任务拆分为子任务的数量，相应的，对于一些较为简单的操作，可以减少将主任务拆分为子任务的数量。

另外，还可以根据需要对子任务进行的操作确定第二进程的数量，例如：对于一些较为复杂的操作，可以增加第二进程的数量，降低同一个第二进程同时处理的子任务的数量，相应的，对于一些较为简单的操作，可以减少第二进程的数量，增加同一个第二进程同时处理的子任务的数量，也就是说，可以根据实际情况，拓展或减少第二进程的数量。

请参阅图3，图3是本申请的数据批量处理方法另一实施例的流程示意图，具体而言，如图3所示，该方法包括：

步骤S31：第二进程获取由第一进程生成的主任务所拆分得到的子任务，若干个所述子任务由一个主任务拆分得到，所述主任务由对应的数据生成。

第二进程获取由第一进程生成的主任务所拆分得到的子任务，例如：第二进程获取子任务在数据库中的位置，通过定位子任务在数据库中的位置获取子任务，以对子任务进行处理，即对子任务执行相应操作。

若干个子任务由一个主任务拆分得到，主任务由对应的数据生成，即根据对应的数据生成主任务，对主任务拆分得到若干个子任务。

步骤S32：第二进程对获取得到的子任务进行处理。

第二进程对获取得到的子任务进行处理，即对子任务进行相应的操作，需要说明的是，根据实际情况，可以不对主任务进行切分，通过第二进程对第一进程生成的主任务直接进行处理。

进一步地，在一些实施例中，第二进程获取子任务，包括：第二进程通过反射技术确定子任务在数据库中的位置，通过子任务在数据库中的位置获取子任务，以对子任务进行处理。

其中，反射技术是指通过调用主任务和/或子任务的属性，动态获取信息的技术，可以使第二进程在运行时取得任何主任务和/或子任务的位置信息。

第二进程通过反射技术，可以确定子任务在数据库中的位置，通过子任务在数据库中的位置获取子任务，以对子任务进行处理。

如上述，在一些实施例中，第二进程对子任务进行处理，包括：第二进程根据主任务之间的依赖关系，确定处理子任务的顺序，其中，主任务之间的依赖关系是由第一进程配置得到的。

第二进程根据主任务之间的依赖关系，确定处理子任务的顺序，例如：某主任务拆分得到的子任务可以继承该主任务的依赖关系、串行方式、并行方式，以确定子任务的处理顺序，更具体的，继续以图2为例：设置主任务1与主任务2的依赖关系为结束-开始关系，且设置主任务1与主任务2为串行方式，即处理完成主任务1后开始处理主任务2。

进一步地，子任务1与子任务2为主任务1拆分得到的子任务，子任务3与子任务4为主任务2拆分得到的子任务，即第二进程201与第二进程202处理完成子任务1与子任务2后，通过第二进程203与第二进程204对子任务3与子任务4进行处理。

进一步地，对于计算某商户近两年的年平均销售额的场景中：主任务1为计算该商店近两年的年销售额，主任务2为计算该商店近两年的年销售额之和，主任务3为计算该商户的近两年的年平均销售额，设定主任务1、主任务2与主任务3为结束-开始关系且为串行关系，则可以将主任务1拆分为子任务1与子任务2，子任务1可以为计算该商店第一年的年销售额，子任务2可以为计算该商店第二年的年销售额，进一步地，处理完成子任务1与子任务2后开始处理主任务2。

需要说明的是，第一进程配置主任务之间的依赖关系的具体过程可以由上述实施例得到，在此不作赘述，另外，对于同一主任务拆分得到的若干子任务的执行顺序，同样可以根据实际情况预先进行设定，对于存在多个数据的情况中，数据的处理、主任务的生成及拆分与处理过程可以由上述实施例得到，在此不作赘述，以上所描述的场景仅用作示意，对于其余场

请参阅图4，图4是本申请电子设备40一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42，处理器42用于执行存储器41中存储的程序指令，以实现上述任一数据批量处理方法实施例的步骤。在一个具体的实施场景中，电子设备40可以包括但不限于：微型计算机、服务器，此外，电子设备40还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器42用于控制其自身以及存储器41以实现上述任一数据批量处理方法实施例的步骤。处理器42还可以称为CPU(Central Processing Unit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器42可以由集成电路芯片共同实现。

请参阅图5，图5为本申请的非易失性计算机可读存储介质50一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令501，程序指令501用于实现上述任一数据批量处理方法实施例的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员易知，可在保持本申请的教示内容的同时对装置及方法作出诸多修改及变动。因此，以上公开内容应被视为仅受随附权利要求书的范围的限制。

Claims

1.一种数据批量处理方法，其特征在于，所述方法包括：

第一进程获取至少一个数据；

生成与所述数据对应的若干个主任务；

对所述若干个主任务进行配置，以将所述若干个主任务分别拆分成若干个子任务，以待若干个第二进程在预设时间段内对所述子任务进行处理。

2.如权利要求1所述的数据批量处理方法，其特征在于，所述对所述若干个主任务进行配置，包括：

配置所述若干个主任务的分片策略，

所述将所述若干个主任务分别拆分成若干个子任务，包括：

根据所述分片策略将所述若干个主任务中的每个所述主任务拆分成若干个所述子任务。

3.如权利要求2所述的数据批量处理方法，其特征在于，所述根据所述分片策略将所述若干个主任务中的每个所述主任务拆分成若干个所述子任务，包括：

根据所述分片策略将所述若干个主任务中的每个所述主任务分别拆分为数据库维度和/或表维度，得到若干个所述子任务。

4.如权利要求2所述的数据批量处理方法，其特征在于，所述对所述若干个主任务进行配置，还包括：

配置所述若干个主任务之间的依赖关系、串行方式、并行方式。

5.如权利要求1所述的数据批量处理方法，其特征在于，所述将所述若干个主任务分别拆分成若干个子任务后，还包括：

第一进程根据所述数据与对应的数据库之间的关联关系将所述若干个子任务存储至所述对应的数据库，确定所述子任务的数量，以根据存储至所述对应的数据库的子任务数量确定所述第二进程的数量；

其中，所述数据库的数量由所述数据的数量确定，且所述数据与对应的所述数据库之间关联，每个所述第二进程与至少一个所述子任务相对应。

6.一种数据批量处理方法，其特征在于，所述方法包括：

第二进程获取由第一进程生成的主任务所拆分得到的子任务，若干个所述子任务由一个主任务拆分得到，所述主任务由对应的数据生成；

所述第二进程对获取得到的所述子任务进行处理。

7.如权利要求6所述的数据批量处理方法，其特征在于，所述第二进程获取由第一进程生成的子任务，包括：

所述第二进程通过反射技术确定所述子任务在数据库中的位置，通过所述子任务在所述数据库中的位置获取所述子任务，以对所述子任务进行处理。

8.如权利要求7所述的数据批量处理方法，其特征在于，所述对获取得到的所述子任务进行处理，包括：

所述第二进程根据所述主任务之间的依赖关系，确定处理所述子任务的顺序，以对所述子任务进行处理；

其中，所述主任务之间的依赖关系是由所述第一进程配置得到的。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器与所述处理器耦接，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1到8任一项所述的数据批量处理方法。

10.一种非易失性计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1到8任一项所述的数据批量处理方法。