CN110515734A

CN110515734A - 数据处理任务的负载处理方法及装置

Info

Publication number: CN110515734A
Application number: CN201910798057.3A
Authority: CN
Inventors: 包新启; 王太泽; 陈靓; 范晓亮; 陈迪豪
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-29

Abstract

本发明公开了一种数据处理任务的负载处理方法及装置，涉及数据处理技术领域，包括：对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项；基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式；按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。本发明用于在数据处理任务进行负载处理的过程。

Description

数据处理任务的负载处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理任务的负载处理方法及装置。

背景技术

随着大数据时代的到来，网络中的数据量已大大增加。在对数据进行处理的过程中，基于数据量的原因，处理系统会消耗大量的资源，在此情况下，对于数据处理时，如何最大化的利用资源的同时有效平衡系统内的负载成为了人们常常需要考虑的问题。例如，在对大数据任务进行处理过程中，当某个阶段的任务处理之后，生成的数据往往是需要下一阶段所使用的，在使用前需要将这些数据进行存储。在存储时，基于数量的原因，一般会对数据进行压缩处理，但在压缩过程中需要占用系统的部分资源，因此对该任务选取何种压缩算法或申请多少系统资源等处理过程对于平衡系统资源、改善系统压力是很重要的。

目前，当对大数据任务进行处理的过程中，需要由人工选取任务适合的处理方式，而对于不同阶段的不同任务而言，当系统中存在大量待处理任务时，人工操作的方式将消耗大量的人力成本，同时，基于不同阶段不同任务对于处理方式的差异性，人工设置处理方式的过程往往较为僵化、机械，例如，对数据进行压缩的场景中，在对不同阶段的任务进行处理时，需要人工设置压缩方式，而不同的阶段的任务所需的压缩方式很可能是不同的，导致人工设置的方式的灵活性难以满足实际的需要，并且当所需处理的压缩任务较多时，人工操作显然在为大数据任务设置压缩方式时会消耗大量的人力。因此，现有的数据处理任务的负载处理过程，存在处理方式的灵活性较差，并存在人力消耗的问题。

发明内容

鉴于上述问题，本发明提出了一种数据处理任务的负载处理方法及装置，主要目的在于减少人力消耗，提高大数据任务处理过程中的处理方式的灵活性。

为达到上述目的，本发明主要提供如下技术方案：

第一方面，本发明提供数据处理任务的负载处理方法，具体包括：

对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项；

基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式；以及

按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。

可选的，所述负载处理包括：数据的压缩处理和/或数据处理任务的系统资源分配。

可选的，所述负载处理包括数据的压缩处理，并且，所述基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，包括：

基于所述任务特征，通过压缩算法选择模型自动确定与所述数据处理任务相应的压缩方式，

并且，所述按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理，包括：

按照确定的压缩方式对所述数据处理任务的中间数据和/或输出数据进行压缩。

可选的，所述负载处理包括数据处理任务的系统资源分配，并且，所述基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，包括：

基于所述任务特征，通过资源分配模型自动确定与所述数据处理任务相应的系统资源分配方式，

按照确定的系统资源分配方式对所述数据处理任务分配系统资源。

可选的，所述对当前阶段的数据处理任务进行特征提取，包括：

获取所述数据处理任务的相关信息，并将所述相关信息确定为所述数据处理任务的任务相关信息特征，所述相关信息包括任务阶段的上下游关系信息、输出数据位置信息、并发执行任务信息以及保存策略信息之中的至少一项；

和/或，

按照所述数据处理任务对预设数量的数据进行预热处理，并将预热处理后得到的执行信息确定为所述数据处理任务的预热处理特征，所述执行信息包括预热处理的运行时间、输入数据特性及输出数据特性之中的至少一项；

和/或，

获取与所述数据处理任务相同的历史数据处理任务的历史执行信息，并将所述历史执行信息确定为所述数据处理任务的历史处理特征，所述历史执行信息包括所述历史数据任务的运行时间、输入数据特性及输出数据特性之中的至少一项；

和/或，

获取系统状态信息，并将所述系统状态信息确定为所述数据处理任务的系统状态特征，所述系统状态信息包括处理器规模、处理器负载、内存规模、内存负载、磁盘规模、磁盘负载、网络带宽规模、网络带宽负载之中的至少一项。

可选的，所述按照所述数据处理任务对预设数量的数据进行预热处理包括：按照所述数据处理任务，基于至少一种压缩算法对所述预设数量的数据进行压缩处理。

可选的，所述输入数据特性通过以下方式来获取：

当所述预设数量的数据为数值时，计算所述预设数量的数据的均值及方差，并将所述均值及方差确定为所述输入数据特性；

当所述预设数量的数据为字符串时，确定所述预设数量的数据中不同字符串出现的次数，并将所述不同字符串出现的次数确定为所述输入数据特性。

可选的，所述压缩算法选择模型为多分类的机器学习模型和/或专家规则模型，其中，每种分类对应于由压缩算法类型和压缩算法细节配置构成的二元组。

可选的，所述基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，包括：

基于所述任务特征，根据预设规则来确定是否存在匹配的负载处理方式；

在存在匹配的负载处理方式的情况下，将所述匹配的负载处理方式确定为与所述数据处理任务相应的负载处理方式；以及

在不存在匹配的负载处理方式的情况下，通过模型自动确定与所述数据处理任务相应的负载处理方式。

可选的，所述系统状态特征还用于确定系统中是否使用SSD磁盘及RDMA网络、以及系统中是否存在空闲状态的FPGA板卡，所述负载处理包括数据的压缩处理；

并且，所述基于所述任务特征，根据预设规则来确定是否存在匹配的负载处理方式，包括：

当系统状态特征指示所述系统中使用SSD磁盘及RDMA网络时，则选择不使用压缩算法对所述数据处理任务进行压缩处理；

当系统状态特征指示所述系统中存在空闲状态的FPGA板卡时，则选择预设压缩算法对所述数据处理任务进行压缩处理，其中，所述预设压缩算法为针对所述FPGA板卡预置的专用压缩算法。

第二方面，本发明提供一种数据处理任务的负载处理装置，具体包括：

提取单元，用于对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项；

确定单元，用于基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式；以及

执行单元，用于按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。

可选的，所述负载处理包括数据的压缩处理，并且，所述确定单元包括：

第一确定模块，用于基于所述任务特征，通过压缩算法选择模型自动确定与所述数据处理任务相应的压缩方式，

并且，所述执行单元，包括：

压缩模块，用于按照确定的压缩方式对所述数据处理任务的中间数据和/或输出数据进行压缩。

可选的，所述负载处理包括数据处理任务的系统资源分配，并且，所述确定单元，包括：

第二确定模块，用于基于所述任务特征，通过资源分配模型自动确定与所述数据处理任务相应的系统资源分配方式，

并且，所述执行单元，包括：

分配模块，用于按照确定的系统资源分配方式对所述数据处理任务分配系统资源。

可选的，所述提取单元，包括：

第一获取模块，用于获取所述数据处理任务的相关信息，并将所述相关信息确定为所述数据处理任务的任务相关信息特征，所述相关信息包括任务阶段的上下游关系信息、输出数据位置信息、并发执行任务信息以及保存策略信息之中的至少一项；

预处理模块，用于按照所述数据处理任务对预设数量的数据进行预热处理，并将预热处理后得到的执行信息确定为所述数据处理任务的预热处理特征，所述执行信息包括预热处理的运行时间、输入数据特性及输出数据特性之中的至少一项；

第二获取模块，用于获取与所述数据处理任务相同的历史数据处理任务的历史执行信息，并将所述历史执行信息确定为所述数据处理任务的历史处理特征，所述历史执行信息包括所述历史数据任务的运行时间、输入数据特性及输出数据特性之中的至少一项；

第三获取模块，用于获取系统状态信息，并将所述系统状态信息确定为所述数据处理任务的系统状态特征，所述系统状态信息包括处理器规模、处理器负载、内存规模、内存负载、磁盘规模、磁盘负载、网络带宽规模、网络带宽负载之中的至少一项。

可选的，所述预处理模块，具体用于按照所述数据处理任务，基于至少一种压缩算法对所述预设数量的数据进行压缩处理。

可选的，所述输入数据特性通过以下方式来获取：

可选的，其中，所述确定单元，包括：

第三确定模块，用于基于所述任务特征，根据预设规则来确定是否存在匹配的负载处理方式；

第四确定模块，用于在存在匹配的负载处理方式的情况下，将所述匹配的负载处理方式确定为与所述数据处理任务相应的负载处理方式；以及

第五确定模块，用于在不存在匹配的负载处理方式的情况下，通过模型自动确定与所述数据处理任务相应的负载处理方式。

并且，所述第三确定模块，包括：

第一选择子模块，用于当系统状态特征指示所述系统中使用SSD磁盘及RDMA网络时，则选择不使用压缩算法对所述数据处理任务进行压缩处理；

第二选择子模块，用于当系统状态特征指示所述系统中存在空闲状态的FPGA板卡时，则选择预设压缩算法对所述数据处理任务进行压缩处理，其中，所述预设压缩算法为针对所述FPGA板卡预置的专用压缩算法。

第三方面，本发明提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如第一方面中的任一项所述的方法。

第四方面，本发明提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如第一方面中的任一项所述的方法。

借由上述技术方案，本发明提供的一种数据处理任务的负载处理方法、装置、可以通过首先，对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征，然后，基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，最后按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。其中，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项，与现有技术相比，本发明能够基于任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征等多种特征中任意一种或几种来作为任务特征进行负载处理方式的确定，从而能够基于任务特征执行自动化的确定负载处理方式并进行处理，从而解决了现有的数据处理任务处理时的人工消耗的问题，并且能够基于当前阶段的数据处理任务进行特征提取，可以确保所选取的负载处理方式符合当前任务阶段，较现有的通过预设配置进行处理相比，具有更好的灵活性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文可选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出可选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种数据处理任务的负载处理方法的流程图；

图2示出了本发明实施例提出的另一种数据处理任务的负载处理方法的流程图；

图3示出了本发明实施例提出的一种数据处理任务的负载处理装置的组成框图；

图4示出了本发明实施例提出的另一种数据处理任务的负载处理装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种数据处理任务的负载处理方法及装置，主要目的在于减少人力消耗，提高大数据任务处理过程中的处理方式的灵活性。

具体的，所述方法涉及具体执行步骤可以如图1所示，包括：

101、对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征。

其中，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项。

在本发明实施例中所述的数据处理任务的负载处理方法，其应用的场景主要是基于大数据领域中，对当前的数据处理任务选取适合的处理方法，而在大数据领域中，数据处理任务往往是分阶段的，而不同阶段的任务基于其数据特点，在处理过程中所需的处理方式往往并不一致，基于此，在本步骤中，当获取当前阶段的数据处理任务时，可以通过对这些任务进行特征提取，并基于其任务特征进行后续的处理方式的选取。其中，在本发明实施例中，所述任务特征可以是通过任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征中选取任意一种或几种来确定。

在此，对于所述任务相关信息特征而言，可以理解为当前阶段的数据处理任务的相关信息所确定的特征，可以包括当前任务的阶段、上游阶段的输出结果等相关信息中所确定的特征。

对于所述预热处理特征而言，可以理解为当前阶段的数据处理任务中所选取的部分数据采用不同的处理方式所得到处理结果得到的特征，例如，当所述当前阶段的数据处理任务是对“600万条数据进行压缩”时，则所述预热处理特征则可以为从其中选取600条数据分别采用不同的压缩方式进行压缩时的压缩结果，该压缩结果可以包括压缩时间、压缩比率等不同的参数作为当前阶段的数据处理任务“600万条数据进行压缩”的预热处理特征。

对于所述历史处理特征而言，可以理解为当前阶段的数据处理任务在历史记录中相同处理任务的记录参数所确定的特征。例如，当所述当前阶段的数据处理任务为“当日清洗用户行为数据向系统进行资源申请”时，则可以从历史日志中，获取前一日清洗用户行为数据时向系统进行资源申请时的参数等信息，并以此作为所述当前阶段的数据处理任务的历史处理特征。

对于所述系统状态特征而言，则可以理解为当前阶段的数据处理任务当前时刻系统的相关参数信息所确定的特征，其中可以包括系统的设定参数，以及当前的状态参数。例如，所述系统状态特征可以包括系统内CPU的总计核数，以及当前CPU的闲置核数。

102、基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式。

当步骤101确定了当前阶段的数据处理任务的任务特征后，由于当前的这些任务特征能够体现出当前任务的特点以及当前任务所处系统环境的情况，因此，则可以根据预设方式进行自动化的数据处理任务相应的负载处理方式。并且，在本发明实施例中，自动确定的方式可以通过预设的负载选择模型基于任务特征进行任务的负载处理方式的选取。当然，也可以根据预设的任务处理映射进行，其中该映射中可以包括不同任务特征所对应的任务处理方式。在此，对于自动化确定所述数据处理任务相应的负载处理方式可以包含但不限于上述所述的方式进行，还可以根据其他方式进行，在此并不做一一限定。

103、按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。

当步骤102确定了所述数据处理任务所涉及的处理方式后，即所述与数据处理任务相应的负载处理方式，则可以通过所确定的负载处理方式来对该任务执行对应的负载处理。例如，当步骤102确定任务A相应的资源申请量为内存资源30％、带宽资源40％时，则使用内存资源30％、带宽资源40％来对任务A进行处理操作。

进一步的，作为前述实施例的扩展，在本发明实施例中，还提供了另一种数据处理任务的负载处理方法，用以减少人力消耗，提高大数据任务处理过程中的处理方式的灵活性，具体的，如图2所示，其中步骤包括：

201、对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征。

其中，在本发明实施例中，所述任务特征可以包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项。

具体的，在对当前阶段的额数据处理任务进行特征提取时，基于所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征多种不同的特征，因此，基于不同的特征在执行特征提取的过程可以按照不同的特征分别采取下述对应的方式进行：

在获取任务相关信息特征时，可以具体为：获取所述数据处理任务的相关信息，并将所述相关信息确定为所述数据处理任务的任务相关信息特征。在本步骤中，获取所述任务相关信息的方式可以通过预设的API框架，在接收到数据处理任务后，进行自动获取。其中，所述相关信息包括任务阶段的上下游关系信息、输出数据位置信息、并发执行任务信息以及保存策略信息之中的至少一项。

在获取预热处理特征时，可以具体为：按照所述数据处理任务对预设数量的数据进行预热处理，并将预热处理后得到的执行信息确定为所述数据处理任务的预热处理特征，所述执行信息包括预热处理的运行时间、输入数据特性及输出数据特性之中的至少一项。其中，在对预设数量的数据进行预热处理时，当所述负载处理为数据的压缩处理时，则预热处理的过程则可以为：按照所述数据处理任务，基于至少一种压缩算法对所述预设数量的数据进行压缩处理。

在获取历史处理特征时，可以具体为：获取与所述数据处理任务相同的历史数据处理任务的历史执行信息，并将所述历史执行信息确定为所述数据处理任务的历史处理特征，所述历史执行信息包括所述历史数据任务的运行时间、输入数据特性及输出数据特性之中的至少一项。同时，在本步骤中获取历史处理特征时，所述输入数据特性通过以下方式来获取：当所述预设数量的数据为数值时，计算所述预设数量的数据的均值及方差，并将所述均值及方差确定为所述输入数据特性；当所述预设数量的数据为字符串时，确定所述预设数量的数据中不同字符串出现的次数，并将所述不同字符串出现的次数确定为所述输入数据特性。

在获取系统状态特征时，可以具体为：获取系统状态信息，并将所述系统状态信息确定为所述数据处理任务的系统状态特征，所述系统状态信息包括处理器规模、处理器负载、内存规模、内存负载、磁盘规模、磁盘负载、网络带宽规模、网络带宽负载之中的至少一项。

另外，当后续的负载处理为对数据的压缩处理时，则本步骤中获取的系统状态特征还可以用于确定系统中是否使用SSD磁盘及RDMA网络、以及系统中是否存在空闲状态的FPGA板卡。基于所述SSD磁盘、RDMA网络、以及FPGA板卡的特性，在后续的压缩处理过程中，可以基于上述系统状态特征选取更为适合的处理方式，从而提高数据处理任务在确定处理方式过程中的效率。

需要说明的是，在提取了任务特征之后，在基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式时，其确定负载方式的过程可以是基于所述任务特征，根据预设规则来确定是否存在匹配的负载处理方式，并在存在匹配的负载处理方式的情况下，将所述匹配的负载处理方式确定为与所述数据处理任务相应的负载处理方式。而当在不存在匹配的负载处理方式的情况下，则通过模型自动确定与所述数据处理任务相应的负载处理方式。具体的，在基于所述预设规则来确定是否存在匹配的负载处理方式的过程中，当系统状态特征指示所述系统中使用SSD磁盘及RDMA网络时，则可以选择不使用压缩算法对所述数据处理任务进行压缩处理。而当系统状态特征指示所述系统中存在空闲状态的FPGA板卡时，则选择此种板卡所对应的预设压缩算法来对所述数据处理任务进行压缩处理，其中，所述预设压缩算法为针对所述FPGA板卡预置的专用压缩算法。

这样，通过在为数据处理任务选取对应的处理方式时，根据特定的系统状态特征从预设规则中直接选取对应的处理方式，能够确保当系统存在如SSD磁盘、RDMA网络以及空闲的FPGA等特征时，能够直接选取适应上述特征的处理方式，从而无需再选取模型进行处理方式的选取过程，提高了效率。

在本发明实施例中，由于所述负载处理可以包括：数据的压缩处理和/或数据处理任务的系统资源分配。因此，基于负载处理方式的不同，在基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式时，根据不同的负载处理，其自动为任务确定负载处理方式的过程，以及根据所确定的负载处理方式执行所述任务的过程也并不相同。

基于此，当所述负载处理为数据的压缩处理时，执行步骤202a以及后续步骤230a。

202a、基于所述任务特征，通过压缩算法选择模型自动确定与所述数据处理任务相应的压缩方式。

其中，所述压缩算法选择模型为多分类的机器学习模型和/或专家规则模型，其中，每种分类对应于由压缩算法类型和压缩算法细节配置构成的二元组。在本发明实施例中，所述压缩算法细节配置可以理解为压缩算法在处理任务的过程中所执行时的具体操作参数，例如，压缩比率、压缩效率等。

这样，当前述步骤201中提取了当前阶段的数据处理任务的任务特征后，在需要对当前任务进行压缩处理操作时，则可以基于压缩算法模型按照任务特征执行自动化的压缩方式的确定操作，从而能够使得在确定数据处理任务的压缩处理时，能够基于任务特征进行自动化的压缩方式的选取和确定，从而无需人工对任务进行压缩方式的确定，解决了当前任务在选取压缩处理的处理方式时消耗人工的问题。

另外，需要说明的是，在压缩方式分类中，可以包括任意一种压缩方式，此外，还可以是“不使用任何压缩算法”，当然，当压缩方式分类为“不使用任何压缩算法”时，则可以理解为所选取的压缩方式的分类“空”。

203a、按照确定的压缩方式对所述数据处理任务的中间数据和/或输出数据进行压缩。

当步骤202a确定了当前数据处理任务的压缩方式后，则可以直接选取该压缩方式对当前数据处理任务的中间数据、输出数据进行对应方式的压缩。其中，在大数据处理任务中，中间数据和输出结果通常数据量巨大，并且需要进行缓存甚至落盘保存，极大的数据量会对系统内存、磁盘和网络IO产生很大的压力，因此使用压缩算法处理中间数据和输出结果非常重要。由此，通过本步骤的方法，根据所确定的压缩方式对这些中间数据和/或输出数据在保存前进行压缩，有助于缓解压力，能够提高数据处理系统的整体性能。

此外，在本发明实施例中，所述负载处理还可以为数据处理任务的系统资源分配，因此，当负载处理还为数据处理任务的系统资源分配时，则在步骤201提取了任务特征之后，则可以执行步骤202b及其后续步骤203b。

202b、基于所述任务特征，通过资源分配模型自动确定与所述数据处理任务相应的系统资源分配方式。

由于任务特征能够表征当前阶段的数据处理任务的特点，并且能够体现当前系统运行状态的情况，因此，在确定了所述任务特征后，则可以利用资源分配模型，基于所述任务特征自动化选取适合当前数据处理任务的系统资源的分类方式。其中，所述系统资源分配方式可以包括对系统的CPU核数、内存使用率、带宽占用率等多种资源的组合，在此不做限定，可以根据实际需要进行预先设定。

203b、按照确定的系统资源分配方式对所述数据处理任务分配系统资源。

当确定了当前任务的资源分配方式后，则可以基于该任务分配方式，为当前的数据处理任务分配对应该分配方式的系统资源，从而确保能够使每个待处理的数据处理任务选取适合提任务特征的系统资源，从而确保了系统资源分配的合理性。

进一步的，作为对上述图1、图2所示数据处理任务的负载处理方法的实现，本发明实施例提供了一种数据处理任务的负载处理装置，该装置主要目的在于减少人力消耗，提高大数据任务处理过程中的处理方式的灵活性。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示，具体包括：

提取单元31，可以用于对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项；

确定单元32，可以用于基于所述提取单元31提取的任务特征，自动确定与所述数据处理任务相应的负载处理方式；以及

执行单元33，可以用于按照所述确定单元32确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。

进一步的，如图4所示，所述负载处理包括：数据的压缩处理和/或数据处理任务的系统资源分配。

进一步的，如图4所示，所述负载处理包括数据的压缩处理，并且，所述确定单元32包括：

第一确定模块321，可以用于基于所述任务特征，通过压缩算法选择模型自动确定与所述数据处理任务相应的压缩方式，

并且，所述执行单元33，包括：

压缩模块331，可以用于按照确定的压缩方式对所述数据处理任务的中间数据和/或输出数据进行压缩。

进一步的，如图4所示，所述负载处理包括数据处理任务的系统资源分配，并且，所述确定单元32，包括：

第二确定模块322，可以用于基于所述任务特征，通过资源分配模型自动确定与所述数据处理任务相应的系统资源分配方式，

并且，所述执行单元33，包括：

分配模块332，可以用于按照确定的系统资源分配方式对所述数据处理任务分配系统资源。

进一步的，如图4所示，所述提取单元31，包括：

第一获取模块311，可以用于获取所述数据处理任务的相关信息，并将所述相关信息确定为所述数据处理任务的任务相关信息特征，所述相关信息包括任务阶段的上下游关系信息、输出数据位置信息、并发执行任务信息以及保存策略信息之中的至少一项；

预处理模块312，可以用于按照所述数据处理任务对预设数量的数据进行预热处理，并将预热处理后得到的执行信息确定为所述数据处理任务的预热处理特征，所述执行信息包括预热处理的运行时间、输入数据特性及输出数据特性之中的至少一项；

第二获取模块313，可以用于获取与所述数据处理任务相同的历史数据处理任务的历史执行信息，并将所述历史执行信息确定为所述数据处理任务的历史处理特征，所述历史执行信息包括所述历史数据任务的运行时间、输入数据特性及输出数据特性之中的至少一项；

第三获取模块314，可以用于获取系统状态信息，并将所述系统状态信息确定为所述数据处理任务的系统状态特征，所述系统状态信息包括处理器规模、处理器负载、内存规模、内存负载、磁盘规模、磁盘负载、网络带宽规模、网络带宽负载之中的至少一项。

进一步的，如图4所示，所述预处理模块312，可以具体用于按照所述数据处理任务，基于至少一种压缩算法对所述预设数量的数据进行压缩处理。

进一步的，如图4所示，所述输入数据特性通过以下方式来获取：

进一步的，如图4所示，所述压缩算法选择模型为多分类的机器学习模型和/或专家规则模型，其中，每种分类对应于由压缩算法类型和压缩算法细节配置构成的二元组。

进一步的，如图4所示，所述确定单元32，包括：

第三确定模块323，可以用于基于所述任务特征，根据预设规则来确定是否存在匹配的负载处理方式；

第四确定模块324，可以用于在第三确定模块323确定存在匹配的负载处理方式的情况下，将所述匹配的负载处理方式确定为与所述数据处理任务相应的负载处理方式；以及

第五确定模块325，可以用于在第三确定模块323确定不存在匹配的负载处理方式的情况下，通过模型自动确定与所述数据处理任务相应的负载处理方式。

进一步的，如图4所示，所述系统状态特征还用于确定系统中是否使用SSD磁盘及RDMA网络、以及系统中是否存在空闲状态的FPGA板卡，所述负载处理包括数据的压缩处理；

并且，所述第三确定模块323，包括：

第一选择子模块3231，可以用于当系统状态特征指示所述系统中使用SSD磁盘及RDMA网络时，则选择不使用压缩算法对所述数据处理任务进行压缩处理；

第二选择子模块3232，可以用于当系统状态特征指示所述系统中存在空闲状态的FPGA板卡时，则选择预设压缩算法对所述数据处理任务进行压缩处理，其中，所述预设压缩算法为针对所述FPGA板卡预置的专用压缩算法。

进一步的，本发明实施例还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被一个或多个计算装置执行时实现上述的数据处理任务的负载处理方法。

另外，本发明实施例还提供了一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的数据处理任务的负载处理方法。

综上所述，本发明实施例提出的一种数据处理任务的负载处理方法及装置，可以通过首先，对当前阶段的数据处理任务进行特征提取，得到所述数据处理任务的任务特征，然后，基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，最后按照确定的所述负载处理方式来执行与所述数据处理任务相应的负载处理。其中，所述任务特征包括任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征之中的至少一项，与现有技术相比，本发明能够基于任务相关信息特征、预热处理特征、历史处理特征以及系统状态特征等多种特征中任意一种或几种来作为任务特征进行负载处理方式的确定，从而能够基于任务特征执行自动化的确定负载处理方式并进行处理，从而解决了现有的数据处理任务处理时的人工消耗的问题，并且能够基于当前阶段的数据处理任务进行特征提取，可以确保所选取的负载处理方式符合当前任务阶段，较现有的通过预设配置进行处理相比，具有更好的灵活性。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理任务的负载处理方法，其中，所述方法包括：

2.如权利要求1所述的方法，其中，所述负载处理包括：数据的压缩处理和/或数据处理任务的系统资源分配。

3.如权利要求1所述的方法，其中，所述负载处理包括数据的压缩处理，并且，所述基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，包括：

4.如权利要求1所述的方法，其中，所述负载处理包括数据处理任务的系统资源分配，并且，所述基于所述任务特征，自动确定与所述数据处理任务相应的负载处理方式，包括：

5.如权利要求3所述的方法，其中，所述对当前阶段的数据处理任务进行特征提取，包括：

和/或，

6.如权利要求5所述的方法，其中，所述按照所述数据处理任务对预设数量的数据进行预热处理包括：按照所述数据处理任务，基于至少一种压缩算法对所述预设数量的数据进行压缩处理。

7.如权利要求5所述的方法，其中，所述输入数据特性通过以下方式来获取：

8.一种数据处理任务的负载处理装置，其中，所述装置包括：

9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1到7中的任一权利要求所述的方法。

10.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1到7中的任一权利要求所述的方法。