CN112953767A

CN112953767A - 基于Hadoop平台的资源分配参数设置方法、设备及存储介质

Info

Publication number: CN112953767A
Application number: CN202110166087.XA
Authority: CN
Inventors: 廖海波; 陈婷; 吴三平; 王宗泽
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-11
Anticipated expiration: 2041-02-05
Also published as: CN112953767B

Abstract

本发明公开了一种基于Hadoop平台的资源分配参数设置方法、设备及存储介质，该方法包括步骤：获取预设任务的任务信息；获取所述任务信息对应的任务数据大小信息；基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数。本发明实现了通过预设参数计算模型和预设任务对应的任务数据大小信息来设置目标资源分配参数，避免了通过提交该预设任务的用户来设置目标资源分配参数，从而避免了由于该用户设置目标资源分配参数导致的预设任务执行异常、Hadoop集群资源浪费或分析计算任务无法正常提交的问题，使得Hadoop集群的资源分配更加合理。

Description

基于Hadoop平台的资源分配参数设置方法、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于Hadoop平台的资源分配参数设置方法、设备及存储介质。

背景技术

随着互联网技术的发展，海量数据通过Hadoop集群进行存储和计算，其中，大量分析计算任务广泛使用Spark计算引擎，相应地，该分析计算任务为Spark计算任务。Spark计算引擎是大数据领域最为通用的数据分析计算引擎，通常数据分析用户在向Hadoop集群提交Spark计算任务时，需要指定该Spark计算任务所需要的计算资源，指定计算资源包括设置driver-memory(分配给Driver的内存)、driver-cores(分配给Driver的Vcore)、executor-cores(分配给Executor的Vcore)、executor-memory(分配给Executor的内存)、num-executors(分配的Executor的数量)等参数，其中，executor-cores和num-executors的乘积为Spark计算任务的运行并行度、executor-memory与executor-cores存在一定的比例关系(例如1：4)、driver-memory和driver-cores一般很少人为设置而是使用默认配置(在需要Driver参与数据处理时才会人为设置)。

由于上述参数的设置需要数据分析用户对Hadoop集群规模、Spark计算引擎运行原理、任务复杂度及任务涉及数据规模有较全面的理解。若数据分析用户设置参数不当，例如上述参数设置过小，将导致Spark计算任务执行异常，又如数据分析用户为避免Spark计算任务执行异常，会设置超出该Spark计算任务需要的计算资源的参数，导致Hadoop集群计算资源的浪费，甚至在Hadoop集群资源严重不足时，大量的Spark计算任务会无法正常提交等各种问题。

由此可知，目前由于参数由数据分析用户设置，存在Hadoop集群的资源分配不合理的问题。

发明内容

本发明的主要目的在于提供一种基于Hadoop平台的资源分配参数设置方法、设备及存储介质，旨在解决现有的由于参数由数据分析用户设置，存在Hadoop集群的资源分配不合理的技术问题。

为实现上述目的，本发明提供一种基于Hadoop平台的资源分配参数设置方法，所述基于Hadoop平台的资源分配参数设置方法包括步骤：

获取预设任务的任务信息；

获取所述任务信息对应的任务数据大小信息；

基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数。

可选地，所述基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数，包括：

基于所述任务数据大小信息计算资源分配参数相关信息；

基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数。

可选地，所述基于所述任务数据大小信息计算资源分配参数相关信息之前，包括：

基于所述任务信息获取判断相关信息；

基于所述判断相关信息判断所述预设任务是否需要预设客户端协助处理；

若是，则获取所述协助处理对应的协助处理数据大小信息；

所述基于所述任务数据大小信息计算资源分配参数相关信息，包括：

基于所述任务数据大小信息和所述协助处理数据大小信息计算所述资源分配参数相关信息。

可选地，所述基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数之前，包括：

获取资源空闲情况信息；

所述基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数，包括：

基于所述资源空闲情况信息、所述预设参数计算模型和所述资源分配参数相关信息设置初始资源分配参数；

获取所述预设任务的任务执行诉求；

基于所述初始资源分配参数和所述任务执行诉求设置所述目标资源分配参数。

可选地，所述基于所述初始资源分配参数和所述任务执行诉求设置所述目标资源分配参数，包括：

基于所述预设参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则；

基于所述诉求资源分配参数设置规则调整所述初始资源分配参数，得到所述目标资源分配参数。

可选地，所述基于所述预设参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则，包括：

基于预设历史资源分配效果调整所述预设参数计算模型，得到调整后参数计算模型；

基于所述调整后参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则。

可选地，所述基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数之前，包括：训练所述预设参数计算模型，具体包括：

获取参数计算训练集和未训练参数计算模型；

基于所述参数计算训练集训练所述未训练参数计算模型，得到所述预设参数计算模型。

可选地，所述获取所述任务信息对应的任务数据大小信息，包括：

获取所述任务信息对应的数据库相关信息；

读取所述数据库相关信息对应的元数据信息，得到所述任务数据大小信息。

此外，为实现上述目的，本发明还提供一种基于Hadoop平台的资源分配参数设置设备，所述基于Hadoop平台的资源分配参数设置设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于Hadoop平台的资源分配参数设置程序，所述基于Hadoop平台的资源分配参数设置程序被所述处理器执行时实现如上所述的基于Hadoop平台的资源分配参数设置方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于Hadoop平台的资源分配参数设置程序，所述基于Hadoop平台的资源分配参数设置程序被处理器执行时实现如上所述的基于Hadoop平台的资源分配参数设置方法的步骤。

本发明通过获取预设任务的任务信息；获取所述任务信息对应的任务数据大小信息；基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数。本发明实现了通过预设参数计算模型和预设任务对应的任务数据大小信息来设置目标资源分配参数，避免了通过提交该预设任务的用户来设置目标资源分配参数，从而避免了由于该用户设置目标资源分配参数导致的预设任务执行异常、Hadoop集群资源浪费或分析计算任务无法正常提交的问题，使得Hadoop集群的资源分配更加合理。

附图说明

图1是本发明基于Hadoop平台的资源分配参数设置方法第一实施例的流程示意图；

图2是本发明基于Hadoop平台的资源分配参数设置方法第二实施例的流程示意图；

图3是本发明基于Hadoop平台的资源分配参数设置装置较佳实施例的功能模块示意图；

图4是本发明实施例方案涉及的硬件运行环境的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于Hadoop平台的资源分配参数设置方法，参照图1，图1为本发明基于Hadoop平台的资源分配参数设置方法第一实施例的流程示意图。

本发明实施例提供了基于Hadoop平台的资源分配参数设置方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。基于Hadoop平台的资源分配参数设置方法可应用于服务器中。为了便于描述，以下省略执行主体描述基于Hadoop平台的资源分配参数设置方法的各个步骤。基于Hadoop平台的资源分配参数设置方法包括：

步骤S110，获取预设任务的任务信息。

具体地，获取数据分析用户提交的预设任务的任务信息。其中，该预设任务为处理数据相关的数据分析任务，例如Hadoop集群处理的Spark计算任务、PySpark计算任务、Hive计算任务等，本实施例以Spark计算任务为例，一般地，数据分析用户在提交该数据分析任务时，以代码(例如Spark计算任务代码)的形式提交，任务信息为该代码或该代码中涉及到数据的部分。

步骤S120，获取所述任务信息对应的任务数据大小信息。

具体地，获取任务信息对应的任务数据大小信息，即通过任务信息来确定预设任务所涉及的数据的大小。

上述获取所述任务信息对应的任务数据大小信息，包括：

步骤a，获取所述任务信息对应的数据库相关信息。

具体地，获取任务信息对应的数据库相关信息。其中，数据库相关信息为该预设任务涉及的数据表、表分区和字段等信息，例如任务信息对应的数据库相关信息为数据表A的表分区a中的n个字段。

需要说明的是，该任务信息为SQL(Structured Query Language，结构化查询语言)任务信息，该数据库相关信息需要通过SQL解析器对该SQL任务信息对应的执行计划进行解析得到。

需要说明的是，数据在存储时以表的形式进行存储，其具体体现即数据表，该数据表的列称为字段。

需要说明的是，该数据表可以以不同的分区依据进行分区，例如该数据表记录了1个月(以1个月包含30日为例)内的用户历史借据信息，其分区依据可以为日，即该数据表可被分区为30个不同的分区，每个分区包含1日内的用户历史借据信息。

步骤b，读取所述数据库相关信息对应的元数据信息，得到所述任务数据大小信息。

具体地，读取数据库相关信息对应的元数据信息，得到任务数据大小信息，其中，该元数据信息为Hive元数据信息，该Hive元数据信息中记录有数据库信息，通过该数据库信息可以得到任务数据大小信息。例如表分区对应的数据库信息为包括10个字段，而数据库相关信息仅涉及10个字段中的3个字段，则通过该表分区的数据大小和数据库相关信息占该表分区的字段的比例可以估算出任务数据大小信息。

步骤S130，基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数。

具体地，基于任务数据大小信息和预设参数计算模型设置目标资源分配参数。即，将任务数据大小信息输入预设参数计算模型，得到该预设参数计算模型的模型输出结果，通过该模型输出结果设置目标资源分配参数。即通过模型输出结果设置driver-memory、driver-cores、executor-cores、executor-memory、num-executors中的至少一个，以指定该预设任务所需的计算资源。

本实施例通过获取预设任务的任务信息；获取所述任务信息对应的任务数据大小信息；基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数。本实施例实现了通过预设参数计算模型和预设任务对应的任务数据大小信息来设置目标资源分配参数，避免了通过提交该预设任务的用户来设置目标资源分配参数，从而避免了由于该用户设置目标资源分配参数导致的预设任务执行异常、Hadoop集群资源浪费或分析计算任务无法正常提交的问题，使得Hadoop集群的资源分配更加合理。

进一步地，参照图2，基于本发明基于Hadoop平台的资源分配参数设置方法第一实施例，提出第二实施例，所述基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数，包括：

步骤S131，基于所述任务数据大小信息计算资源分配参数相关信息。

具体地，基于任务数据大小信息计算资源分配参数相关信息。其中，资源分配参数相关信息与目标资源分配参数相关，该资源分配参数相关信息可以仅与任务数据大小信息相关，还可与任务数据大小信息和其他信息相关。

在与任务数据大小信息和其他信息相关时，上述基于所述任务数据大小信息计算资源分配参数相关信息之前，包括：

步骤c，基于所述任务信息获取判断相关信息。

具体地，基于任务信息获取判断相关信息。需要说明的是，该判断相关信息为任务信息中与预设客户端(一般为用户提交该预设任务的Driver)相关的部分，该判断相关信息可以为代码，也可以为用于判断的相关参数。

步骤d，基于所述判断相关信息判断所述预设任务是否需要预设客户端协助处理；

步骤f，若是，则获取所述协助处理对应的协助处理数据大小信息。

具体地，基于判断相关信息判断预设任务是否需要预设客户端协助处理；若预设任务需要预设客户端协助处理，则获取协助处理对应的协助处理数据大小信息；若预设任务无需预设客户端协助处理，则无需额外设置预设客户端相关的资源分配参数。

需要说明的是，与上述获取任务数据大小信息的方式类似，在确定需要预设客户端协助处理预设任务后，需要获取协助处理相应的代码对应的数据库相关信息，并获取相应的元数据信息，以得到协助处理数据大小信息。

上述基于所述任务数据大小信息计算资源分配参数相关信息，包括：

步骤g，基于所述任务数据大小信息和所述协助处理数据大小信息计算所述资源分配参数相关信息。

具体地，基于任务数据大小信息和协助处理数据大小信息计算资源分配参数相关信息，可以理解，任务数据大小信息为预设任务对应的数据大小信息，与服务器相关；协助处理数据大小信息为预设任务对应的数据大小信息中的部分数据大小信息，与预设客户端相关。

步骤S132，基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数。

具体地，基于预设参数计算模型和资源分配参数相关信息设置目标资源分配参数，由此可根据预设任务相关的数据大小来合理分配资源。

上述基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数之前，包括：

步骤h，获取资源空闲情况信息。

具体地，获取资源空闲情况信息。需要说明的是，对于处理预设任务的设备而言，例如Hadoop集群，其资源是有限的，并且处理预设任务时需要占用其资源，在预设任务处理完成后会释放被占用的资源，因此，在提交预设任务时，Hadoop集群中未处理任务的资源为空闲资源、在处理任务的资源为被占用资源，可以理解，该预设任务可以由该空闲资源进行处理。

可以理解，Hadoop集群可能需要同时处理多个任务，即Hadoop集群在接收到用户提交的预设任务的同时，还可能接收到其他任务，因此，在考虑资源空闲情况信息时，还需要考虑其他任务所需占用的资源。

上述基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数，包括：

步骤i，基于所述资源空闲情况信息、所述预设参数计算模型和所述资源分配参数相关信息设置初始资源分配参数。

具体地，基于资源空闲情况信息、预设参数计算模型和资源分配参数相关信息设置初始资源分配参数。即通过预设参数计算模型来分析资源空闲情况信息和资源分配参数相关信息，得到初始资源分配参数。可以理解，在空闲资源较多时，可以为该预设任务多分配些资源，以提高预设任务的处理速度；在空闲资源较少时，可以在保证能够处理该预设任务的条件下为该预设任务少分配些资源，以尽量满足预设任务和其他任务在资源不充沛的情况下，也均能被处理。从而避免了资源分配不合理的情况。

步骤j，获取所述预设任务的任务执行诉求。

具体地，获取预设任务的任务执行诉求。其中，对于任务执行诉求，其包括优先级、稳定性、时效性和响应时间中的一个或多个。其中，优先级可由用户设置，该优先级代表了任务的紧急程度，即用户认为其任务的紧急程度高则可设置该任务为高优先级、用户认为其任务的紧急程度低则可设置该任务为低优先级；稳定性、时效性和响应时间则可通过任务来源(即提交Spark计算任务的上游系统，例如即时分析系统、批量调度系统、营销系统、核心账务系统等)和业务场景(即该Spark计算任务对应的应用场景，例如客户查询账务信息、数仓跑批、用户画像、OLAP(Online analytical processing，联机分析处理)多维分析、临时交互分析任务等)确定。

需要说明的是，上述任务来源与业务场景之间并非一一对应的关系，其可为多对多的关系，例如任务来源为批量调度系统，其业务场景可为数据跑批、用户画像等；又如业务场景为用户画像，其任务来源可为即使分析系统、批量调度系统等。

需要说明的是，优先级为任务的紧急程度，优先级高的任务其紧急程度高，优先级低的任务其紧急程度低；稳定性为要求任务稳定完成不出错；时效性为任务需要在预设时刻前完成，例如用户在11:00时提交该任务A，11:05需要得到该任务A的处理结果；响应时间为任务需要在预设时间内完成，例如生产任务需要在2秒内处理完成并返回结果。

需要说明的是，稳定性、时效性和响应时间与任务来源和业务场景之间存在对应关系，即任务来源可以对稳定性、时效性和响应时间有要求，例如任务来源为即时分析系统，其响应时间要求高，则任务执行诉求为响应时间；业务场景同样可以对稳定性、时效性和响应时间有要求，例如在即时分析系统对应响应时间要求高的基础上，存在两个Spark计算任务的任务来源均为即时分析系统，但其分别对应即时分析系统的业务场景A和业务场景B，其中，业务场景A对稳定性要求高、业务场景B对响应时间要求高，此时不考虑即时分析系统与稳定性、时效性和响应时间之间的对应关系，而考虑实际的业务场景A和业务场景B和稳定性、时效性和响应时间的对应关系。

之后，通过优先级对预设任务对应的稳定性、时效性或响应时间进行进一步分级处理，例如对于Spark计算任务A和Spark计算任务B的任务来源均为即时分析系统、业务场景均为业务场景A，即Spark计算任务A和Spark计算任务B均对稳定性要求高，但其优先级不同，其中，Spark计算任务A的优先级高于Spark计算任务B的优先级，则Spark计算任务A和Spark计算任务B对稳定性要求的程度不同，Spark计算任务A对稳定性要求的程度高于Spark计算任务B对稳定性要求的程度。

步骤k，基于所述初始资源分配参数和所述任务执行诉求设置所述目标资源分配参数。

具体地，基于初始资源分配参数和任务执行诉求设置目标资源分配参数。即通过任务执行诉求对初始资源分配参数做进一步的处理后，才得到目标资源分配参数。

上述基于所述初始资源分配参数和所述任务执行诉求设置所述目标资源分配参数，包括：

步骤l，基于所述预设参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则。

具体地，基于预设参数计算模型匹配任务执行诉求，得到诉求资源分配参数设置规则。其中，对于诉求资源分配参数设置规则，其包括稳定性资源分配参数设置规则、时效性资源分配参数设置规则和响应时间资源分配参数设置规则。

步骤m，基于所述诉求资源分配参数设置规则调整所述初始资源分配参数，得到所述目标资源分配参数。

具体地，基于诉求资源分配参数设置规则调整初始资源分配参数，得到目标资源分配参数。

对于稳定性资源分配参数设置规则，其要求Spark计算任务能够稳定执行，但对执行速度要求不高，即对于任务执行诉求为稳定性的Spark计算任务，其内存资源需要分配多些，例如将初始资源分配参数中的executor-memory参数调整大些，以避免Spark计算任务在执行时内存溢出。

对于时效性资源分配参数设置规则，其要求Spark计算任务能够在预设时刻(例如上午10点)前处理完成，但对稳定性要求不高，即对于任务执行诉求为时效性的Spark计算任务，需要提高任务的并行度，例如将初始资源分配参数中的executor-cores和/或num-executors参数调整大些，以避免Spark计算任务在执行时存在时效延迟的风险。

对于响应时间资源分配参数设置规则，其要求Spark计算任务能够在预设时间(例如2秒)内完成，但对稳定性要求不高，即对于任务执行诉求为稳定性的Spark计算任务，同样需要提高任务的并行度，例如将初始资源分配参数中的executor-cores和/或num-executors参数调整大些，以避免Spark计算任务在执行时存在响应时间长的风险。

需要说明的是，诉求资源分配参数设置规则在稳定性资源分配参数设置规则、时效性资源分配参数设置规则和响应时间资源分配参数设置规则的基础上还包括结合优先级进行进一步调整，即存在稳定性资源分配参数设置规则结合优先级、时效性资源分配参数设置规则结合优先级和响应时间资源分配参数设置规则结合优先级的情况。例如对于时效性资源分配参数设置规则结合优先级，可以理解，在Spark计算任务对时效性有要求的基础上，该Spark计算任务的优先级越高，初始资源分配参数中的executor-cores和/或num-executors参数的调大幅度越大；该Spark计算任务的优先级越低，初始资源分配参数中的executor-cores和/或num-executors参数的调大幅度越小。此外，考虑到空闲资源是有限的，在Hadoop集群空闲资源紧张的情况下，可以减少优先级低的Spark计算任务的资源分配，在必要时(例如Spark计算引擎无法同时执行多个Spark计算任务时)，可暂缓提交优先级低的Spark计算任务，从而减少Hadoop集群的压力，以保证优先级高的Spark计算任务能够正常执行。

上述基于所述预设参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则，包括：

步骤n，基于预设历史资源分配效果调整所述预设参数计算模型，得到调整后参数计算模型；

步骤o，基于所述调整后参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则。

具体地，基于预设历史资源分配效果调整预设参数计算模型，得到调整后参数计算模型；基于调整后参数计算模型匹配任务执行诉求，得到诉求资源分配参数设置规则。可以理解，上述调整过程为通过历史任务的相关数据来更新预设参数计算模型，其历史任务的相关数据包括历史任务的任务信息、历史任务的目标资源分配参数、根据该目标资源分配参数处理历史任务的处理效果等，通过历史任务的相关数据来更新预设参数计算模型，使得资源分配更加合理。

例如处理历史任务的处理效果为executor-cores和/或num-executors参数的调大幅度过大，造成了资源的一定浪费，则调整预设参数计算模型中与该历史任务的任务信息对应的资源分配规则，得到调整后参数计算模型，调整后参数计算模型在接收到用户提交的与该历史任务相类似(例如任务来源和业务场景都相同)的任务时，相对于预设参数计算模型调整前得到的目标资源分配参数，调整后参数计算模型对应的目标资源分配参数其executor-cores和/或num-executors参数的调大幅度更小。

上述基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数之前，包括：训练所述预设参数计算模型，具体包括：

步骤p，获取参数计算训练集和未训练参数计算模型。

具体地，获取参数计算训练集和未训练参数计算模型。其中，参数计算训练集由历史任务数据经过标注得到；未训练参数计算模型为神经网络模型。

步骤q，基于所述参数计算训练集训练所述未训练参数计算模型，得到所述预设参数计算模型。

具体地，基于参数计算训练集对未训练参数计算模型进行迭代训练，得到更新后的未训练参数计算模型，并确定更新后的待训练模型是否满足预设迭代结束条件；若更新后的未训练参数计算模型满足预设迭代结束条件，则将更新后的未训练参数计算模型作为预设参数计算模型；若更新后的未训练参数计算模型未满足预设迭代结束条件，则继续对更新后的未训练参数计算模型进行迭代训练更新，直至更新后的未训练参数计算模型满足预设迭代结束条件。

本实施例通过任务数据大小信息和/或其他信息来计算资源分配参数相关头信息，并通过预设参数计算模型和资源分配参数相关信息设置目标资源分配参数，使得在设置目标资源分配参数时可以参考更多信息来完成，提高了预设参数计算模型的准确性。

此外，本发明还提供一种基于Hadoop平台的资源分配参数设置装置，如图3所示，所述基于Hadoop平台的资源分配参数设置装置包括：

获取模块，用于获取预设任务的任务信息；

所述获取模块还用于获取所述任务信息对应的任务数据大小信息；

设置模块，用于基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数。

进一步地，所述设置模块包括：

计算子模块，用于基于所述任务数据大小信息计算资源分配参数相关信息；

设置子模块，用于基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数。

进一步地，所述设置模块还包括：

第一获取子模块，用于基于所述任务信息获取判断相关信息；

判断子模块，用于基于所述判断相关信息判断所述预设任务是否需要预设客户端协助处理；

第二获取子模块，用于若是，则获取所述协助处理对应的协助处理数据大小信息；

所述计算子模块包括：

计算单元，用于基于所述任务数据大小信息和所述协助处理数据大小信息计算所述资源分配参数相关信息。

进一步地，所述设置模块还包括：

第三获取子模块，用于获取资源空闲情况信息；

所述设置子模块包括：

设置单元，用于基于所述资源空闲情况信息、所述预设参数计算模型和所述资源分配参数相关信息设置初始资源分配参数；

获取单元，用于获取所述预设任务的任务执行诉求；

所述设置单元还用于基于所述初始资源分配参数和所述任务执行诉求设置所述目标资源分配参数。

进一步地，所述设置单元包括：

匹配子单元，用于基于所述预设参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则；

调整子单元，用于基于所述诉求资源分配参数设置规则调整所述初始资源分配参数，得到所述目标资源分配参数。

进一步地，所述匹配子单元包括：

调整子子单元，用于基于预设历史资源分配效果调整所述预设参数计算模型，得到调整后参数计算模型；

匹配子子单元，用于基于所述调整后参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则。

可选地，所述基于Hadoop平台的资源分配参数设置装置还包括：训练模块，具体包括：

第四获取子模块，用于获取参数计算训练集和未训练参数计算模型；

训练子模块，用于基于所述参数计算训练集训练所述未训练参数计算模型，得到所述预设参数计算模型。

进一步地，所述获取模块包括：

第五获取子模块，用于获取所述任务信息对应的数据库相关信息；

读取子模块，用于读取所述数据库相关信息对应的元数据信息，得到所述任务数据大小信息。

本发明基于Hadoop平台的资源分配参数设置装置具体实施方式与上述基于Hadoop平台的资源分配参数设置方法各实施例基本相同，在此不再赘述。

此外，本发明还提供一种基于Hadoop平台的资源分配参数设置设备。如图4所示，图4是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图4即可为基于Hadoop平台的资源分配参数设置设备的硬件运行环境的结构示意图。

如图4所示，该基于Hadoop平台的资源分配参数设置设备可以包括：处理器1001，例如CPU，存储器1005，用户接口1003，网络接口1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，基于Hadoop平台的资源分配参数设置设备还可以包括RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图4中示出的基于Hadoop平台的资源分配参数设置设备结构并不构成对基于Hadoop平台的资源分配参数设置设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于Hadoop平台的资源分配参数设置程序。其中，操作系统是管理和控制基于Hadoop平台的资源分配参数设置设备硬件和软件资源的程序，支持基于Hadoop平台的资源分配参数设置程序以及其它软件或程序的运行。

在图4所示的基于Hadoop平台的资源分配参数设置设备中，用户接口1003主要用于连接终端，与终端进行数据通信，如接收终端发送的预设任务；网络接口1004主要用于后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的基于Hadoop平台的资源分配参数设置程序，并执行如上所述的基于Hadoop平台的资源分配参数设置方法的步骤。

本发明基于Hadoop平台的资源分配参数设置设备具体实施方式与上述基于Hadoop平台的资源分配参数设置方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于Hadoop平台的资源分配参数设置程序，所述基于Hadoop平台的资源分配参数设置程序被处理器执行时实现如上所述的基于Hadoop平台的资源分配参数设置方法的步骤。

本发明计算机可读存储介质具体实施方式与上述基于Hadoop平台的资源分配参数设置方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，设备，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于Hadoop平台的资源分配参数设置方法包括以下步骤：

获取预设任务的任务信息；

获取所述任务信息对应的任务数据大小信息；

2.如权利要求1所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数，包括：

基于所述任务数据大小信息计算资源分配参数相关信息；

基于所述预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数。

3.如权利要求2所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于所述任务数据大小信息计算资源分配参数相关信息之前，包括：

基于所述任务信息获取判断相关信息；

若是，则获取所述协助处理对应的协助处理数据大小信息；

4.如权利要求3所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于预设参数计算模型和所述资源分配参数相关信息设置所述目标资源分配参数之前，包括：

获取资源空闲情况信息；

获取所述预设任务的任务执行诉求；

5.如权利要求4所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于所述基于所述初始资源分配参数和所述任务执行诉求设置所述目标资源分配参数，包括：

6.如权利要求5所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于所述预设参数计算模型匹配所述任务执行诉求，得到诉求资源分配参数设置规则，包括：

7.如权利要求1所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述基于所述任务数据大小信息和预设参数计算模型设置目标资源分配参数之前，包括：训练所述预设参数计算模型，具体包括：

获取参数计算训练集和未训练参数计算模型；

8.如权利要求1所述的基于Hadoop平台的资源分配参数设置方法，其特征在于，所述获取所述任务信息对应的任务数据大小信息，包括：

获取所述任务信息对应的数据库相关信息；

9.一种基于Hadoop平台的资源分配参数设置设备，其特征在于，所述基于Hadoop平台的资源分配参数设置设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于Hadoop平台的资源分配参数设置程序，所述基于Hadoop平台的资源分配参数设置程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于Hadoop平台的资源分配参数设置方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于Hadoop平台的资源分配参数设置程序，所述基于Hadoop平台的资源分配参数设置程序被处理器执行时实现如权利要求1至8中任一项所述的基于Hadoop平台的资源分配参数设置方法的步骤。