CN111708812A

CN111708812A - 一种分布式数据处理方法

Info

Publication number: CN111708812A
Application number: CN202010477369.7A
Authority: CN
Inventors: 王军平
Original assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Current assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-25

Abstract

本发明公开了一种分布式数据处理方法，包括：通过主控制节点获取数据处理任务，建立数据处理任务的第一排队队列；根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息；根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务；通过第一分布式节点对所述第一目标数据处理任务进行分片处理，得到多个子第一目标数据处理任务；获取多个子第一目标数据处理任务的标识信息，根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配，得到第一分配方式。对数据处理要求高的数据处理任务进行及时处理，保证该数据处理任务的时效性及准确性，提高数据处理效率。

Description

一种分布式数据处理方法

技术领域

本发明涉及计算机技术领域，特别涉及一种分布式数据处理方法。

背景技术

分布式数据处理系统(Distributed Data Stream Management System，DDSMS)是可以对数据进行分布式处理的系统。DDSMS可以极大地缩短数据处理时间，提高响应速度，在实际生活中具有极其广泛的用途。在现有分布式数据处理系统中，在获取数据处理任务后进行无差别的处理这些数据，对一些处理要求高的数据处理任务不能及时处理，分布式数据处理效率还有待提高。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种分布式数据处理方法，对数据处理要求高的数据处理任务进行及时处理，保证该数据处理任务的时效性及准确性，提高数据处理效率。

为达到上述目的，本发明实施例提出了一种分布式数据处理方法，包括：

通过主控制节点获取数据处理任务，建立数据处理任务的第一排队队列；根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息；

根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务；

通过第一分布式节点对所述第一目标数据处理任务进行分片处理，得到多个子第一目标数据处理任务；

获取多个子第一目标数据处理任务的标识信息，根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配，得到第一分配方式。

根据本发明实施例提出了一种分布式数据处理方法，根据数据处理任务的具体处理要求，获取数据处理任务的第一优先级信息，根据第一优先级信息优先处理要求高的数据处理任务，使数据处理要求高的数据处理任务进行及时完成，保证该数据处理任务的时效性及准确性。在主控制节点根据第一优先级信息选取第一目标数据处理任务、在第一分布式节点将第一目标数据处理任务进行分片处理，得到多个子第一目标数据处理任务、按照合理的分配方式，在第二分布式节点上处理子第一目标数据处理任务，这样设置可以提高数据进行并行处理，提高数据的处理效率。

根据本发明的一些实施例，在一个第二分布式节点处理多个子第一目标数据处理任务时，创建相应数量的处理进程并行处理多个子第一目标数据处理任务。

根据本发明的一些实施例，在第二分布式节点处理子目标数据处理任务，还包括：

判断是否有新增的数据处理任务；

在确定有新增的数据处理任务时，建立数据处理任务的第二排队队列；根据第一预设规则获取第二排队队列中数据处理任务的第二优先级信息；

根据所述第二优先级信息按照第二预设规则选取第二目标数据处理任务；

通过第一分布式节点对所述第二目标数据处理任务进行分片处理，得到多个子第二目标数据处理任务；

获取多个子第二目标数据处理任务的标识信息，根据所述多个子第二目标数据处理任务的标识信息对执行所述多个子第二目标数据处理任务的第二分布式节点进行分配，得到第二分配方式。

根据本发明的一些实施例，还包括：

第一分布式节点向主控制节点发送第一心跳包；

所述主控制节点根据所述第一心跳包判断第一分布式节点在对第一目标数据处理任务进行分片处理时是否出现异常，在确定第一分布式节点在对第一目标数据处理任务进行分片处理出现异常时，将第一目标数据处理任务作为待数据处理任务，建立数据处理任务的第三排队队列。

根据本发明的一些实施例，还包括：

第二分布式节点向主控制节点发送第二心跳包；

所述主控制节点根据所述第二心跳包判断第二分布式节点在处理子第一目标数据处理任务时是否出现异常，在确定第二分布式节点在处理子第一目标数据处理任务时出现异常时，将子第一目标数据处理任务作为待数据处理任务，建立数据处理任务的第四排队队列。

根据本发明的一些实施例，获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统中，所述处理结果包括第一处理结果和第二处理结果，包括：

激活分布式文件系统的存储主节点；

基于第一处理结果的第一写入请求和第二处理结果的第二写入请求，判断第一写入请求和第二写入请求是否具有相同的写入类型；

在判断第一写入请求和第二写入请求具有相同的写入类型时，将第一写入请求和第二写入请求合并为一个写入请求，得到第一联合写入请求；

根据第一联合写入请求，将第一处理结果和第二处理结果写入存储主节点。

根据本发明的一些实施例，还包括：

获取存储主节点在运行过程中产生的元数据；

在存储主节点出现故障时，启用分布式文件系统的备用节点，备用节点在获取存储主节点在运行过程中产生的元数据后实现数据写入功能。

根据本发明的一些实施例，多个子第一目标数据处理任务的处理结果被划分为多个数据块进行存储，所述数据块包括多个副本；根据用户的查询需求进行数据块存储数据进行访问，获取对数据块副本的预估访问频率，算法包括：

计算下一周期数据块的预估访问频率：

S_i+1＝aS_i+S_i-1-aS_i-1

其中，a为权值系数，a∈[0,1]，S_i为当前周期数据块的访问频率，S_i-1为上一周期数据块的访问频率；m为当前周期数据块的访问次数，T为周期。

下一周期数据块副本的预估访问频率：

其中，k为副本数量。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种分布式数据处理方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是根据本发明一个实施例的一种分布式数据处理方法的流程图；如图1所示，本发明实施例提出了一种分布式数据处理方法，包括步骤S1-S4：

S1、通过主控制节点获取数据处理任务，建立数据处理任务的第一排队队列；根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息；

S2、根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务；

S3、通过第一分布式节点对所述第一目标数据处理任务进行分片处理，得到多个子第一目标数据处理任务；

S4、获取多个子第一目标数据处理任务的标识信息，根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配，得到第一分配方式。

上述技术方案的工作原理：通过主控制节点获取数据处理任务，数据类型包括：文档数据、视频数据、图像数据、音频数据、结构化数据、半结构化数据。建立数据处理任务的第一排队队列，根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息。第一预设规则包括根据数据处理任务要求完成的截止时间将数据处理任务分成高级数据处理任务、中级数据处理任务、低级数据处理任务。具体的，优先处理高级数据处理任务、次之处理中级数据处理任务，最后处理低级数据处理任务。主控制节点根据第一优先级信息按照第二预设规则选取第一目标数据处理任务，第二预设规则可以是将高级数据处理任务作为第一目标数据处理任务。通过第一分布式节点对第一目标数据处理任务进行分片处理，得到多个子第一目标数据处理任务，分片处理时划分的依据可以是根据第一目标数据处理任务的文件大小、类型、数量等。进行分片处理有利于提高数据处理的效率及数据的传输效率。获取多个子第一目标数据处理任务的标识信息，标识信息包括子第一目标数据处理任务的编号、类型等。根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配，得到第一分配方式。

上述技术方案的有益效果：根据数据处理任务的具体处理要求，获取数据处理任务的第一优先级信息，根据第一优先级信息优先处理要求高的数据处理任务，使数据处理要求高的数据处理任务进行及时完成，保证该数据处理任务的时效性及准确性。在主控制节点根据第一优先级信息选取第一目标数据处理任务、在第一分布式节点将第一目标数据处理任务进行分片处理，得到多个子第一目标数据处理任务、按照合理的分配方式，在第二分布式节点上处理子第一目标数据处理任务，这样设置可以提高数据进行并行处理，提高数据的处理效率。

上述技术方案的工作原理：在一个第二分布式节点分配有3个子第一目标数据处理任务时，在第二分布式节点上设置3个处理进程，并行处理子第一目标数据处理任务。

上述技术方案的有益效果：提高对数据的处理效率。

判断是否有新增的数据处理任务；

上述技术方案的工作原理：在第二分布式节点处理子目标数据处理任务，主控制节点还判断是否有新增的数据处理任务，在确定有新增数据处理任务时，建立数据处理任务的第二排队队列；根据第一预设规则获取第二排队队列中数据处理任务的第二优先级信息；根据所述第二优先级信息按照第二预设规则选取第二目标数据处理任务；通过第一分布式节点对所述第二目标数据处理任务进行分片处理，得到多个子第二目标数据处理任务；获取多个子第二目标数据处理任务的标识信息，根据多个子第二目标数据处理任务的标识信息对执行所述多个子第二目标数据处理任务的第二分布式节点进行分配，得到第二分配方式。

上述技术方案的有益效果：可以实现对数据处理任务分配的动态调整，有利于优先处理处理要求高的数据处理任务，保证及时效性及准确性。

根据本发明的一些实施例，还包括：

第一分布式节点向主控制节点发送第一心跳包；

上述技术方案的工作原理：第一心跳包中包括各第一分布式节点的状态信息，状态信息包括：第一分布式节点进行分片处理的进度信息、与主控制节点的连接信息等。主控制节点根据第一心跳包判断第一分布式节点在对第一目标数据处理任务进行分片处理时是否出现异常，在确定第一分布式节点在对第一目标数据处理任务进行分片处理出现异常时，将第一目标数据处理任务作为待数据处理任务，建立数据处理任务的第三排队队列。

上述技术方案的有益效果：将出现异常的第一分布式节点及时筛选出来，将在该第一分布式节点处理的第一目标数据处理任务及时记录及提取出现，作为待数据处理任务，重新建立数据处理任务的排队队列，进行及时处理。

根据本发明的一些实施例，还包括：

第二分布式节点向主控制节点发送第二心跳包；

上述技术方案的工作原理：第二心跳包中包括各第二分布式节点的状态信息，状态信息包括：第二分布式节点在处理子第一目标数据处理任务的进度信息、与主控制节点的连接信息等。主控制节点根据第二心跳包判断第二分布式节点在处理子第一目标数据处理任务时是否出现异常，在确定第二分布式节点在处理子第一目标数据处理任务时出现异常时，将子第一目标数据处理任务作为待数据处理任务，建立数据处理任务的第四排队队列。

上述技术方案的有益效果：将出现异常的第二分布式节点及时筛选出来，将在该第二分布式节点处理的子第一目标数据处理任务及时记录及提取出现，作为待数据处理任务，重新建立数据处理任务的排队队列，进行及时处理。

激活分布式文件系统的存储主节点；

上述技术方案的工作原理：获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统，激活分布式文件系统的存储主节点，用于实现读写功能。处理结果包括第一处理结果和第二处理结果，基于第一处理结果的第一写入请求和第二处理结果的第二写入请求，判断第一写入请求和第二写入请求是否具有相同的写入类型；在判断第一写入请求和第二写入请求具有相同的写入类型时，将第一写入请求和第二写入请求合并为一个写入请求，得到第一联合写入请求；根据第一联合写入请求，将第一处理结果和第二处理结果写入存储主节点。

上述技术方案的有益效果：将具有相同写入类型的第一写入请求和第二写入请求合并为一个写入请求，可以降低对写入请求信息的存储量，提高数据写入分布式文件存储系统的效率，实现快速存储。

根据本发明的一些实施例，还包括：

获取存储主节点在运行过程中产生的元数据；

上述技术方案的有益效果：冗余设计，提高了分布式文件系统的可靠性，保证存储数据的安全性与完整性。

计算下一周期数据块的预估访问频率：

S_i+1＝aS_i+S_i-1-aS_i-1

下一周期数据块副本的预估访问频率：

其中，k为副本数量。

上述技术方案的有益效果：计算出对数据块副本的预估访问频率，对数据块副本下一周的访问情况进行预测，有利于动态调整副本数量，提高用户的访问效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种分布式数据处理方法，其特征在于，包括：

2.如权利要求1所述的分布式数据处理方法，其特征在于，在一个第二分布式节点处理多个子第一目标数据处理任务时，创建相应数量的处理进程并行处理多个子第一目标数据处理任务。

3.如权利要求1所述的分布式数据处理方法，其特征在于，在第二分布式节点处理子目标数据处理任务，还包括：

判断是否有新增的数据处理任务；

4.如权利要求1所述的分布式数据处理方法，其特征在于，还包括：

第一分布式节点向主控制节点发送第一心跳包；

5.如权利要求1所述的分布式数据处理方法，其特征在于，还包括：

第二分布式节点向主控制节点发送第二心跳包；

6.如权利要求1所述的分布式数据处理方法，其特征在于，获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统中，所述处理结果包括第一处理结果和第二处理结果，包括：

激活分布式文件系统的存储主节点；

7.如权利要求6所述的分布式数据处理方法，其特征在于，还包括：

获取存储主节点在运行过程中产生的元数据；

8.如权利要求7所述的分布式数据处理方法，其特征在于，多个子第一目标数据处理任务的处理结果被划分为多个数据块进行存储，所述数据块包括多个副本；根据用户的查询需求进行数据块存储数据进行访问，获取对数据块副本的预估访问频率，算法包括：

计算下一周期数据块的预估访问频率：

S_i+1＝aS_i+S_i-1-aS_i-1

下一周期数据块副本的预估访问频率：

其中，k为副本数量。