CN111198767A

CN111198767A - 大数据资源处理方法、装置、终端及存储介质

Info

Publication number: CN111198767A
Application number: CN202010015241.9A
Authority: CN
Inventors: 许璐
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-26
Also published as: WO2021139438A1

Abstract

一种大数据资源处理方法，包括：初始化多层队列；根据队列的初始资源确定每层队列的性能标识；当接收到客户端输出的任务处理请求时，监听多层队列中每层队列的剩余资源量；采用任务时长消耗模型预测出任务消耗的预计时长；根据任务消耗的预计时长确定任务消耗的预计资源量；将所述多层队列中剩余资源量大于预计资源量的队列确定为待选队列；从待选队列中匹配出性能标识为第一性能标识的目标队列；将任务分配给所述目标队列。本发明还提供一种大数据资源处理装置、终端及计算机可读存储介质。本发明通过预测任务消耗的资源量，并结合每层队列的剩余资源量及队列的性能标识来综合确定目标队列，节约整体任务的运行时间，提升集群资源的利用率。

Description

大数据资源处理方法、装置、终端及存储介质

技术领域

本发明涉及资源分配领域，尤其涉及一种大数据资源处理方法、大数据资源处理装置、终端以及计算机可读存储介质。

背景技术

目前随着数据爆炸式的增长，大数据平台的使用越来越多，大数据平台的资源投入也越来越多。如何通过有效的资源管理提高大数据平台的计算能力是一个很重要的话题。目前的大数据平台资源管理都是大范围的资源管理，经常会出现一个队列很繁忙而其他队列很空闲、一个大的任务会占用所有资源导致后面任务无法提交的情况。

因此，有必要提出一种新的资源调度管理方法，以通过有效的资源管理提高大数据平台的计算能力。

发明内容

鉴于以上内容，有必要提出一种大数据资源处理方法、大数据资源处理装置、终端以及计算机可读存储介质，其可以预测任务消耗的资源量，并结合每层队列的剩余资源量及队列的性能标识来综合确定目标队列，确定出的目标队列不仅可以完成任务，还能快速地完成任务。

本发明实施例第一方面提供一种大数据资源处理方法，应用于大数据平台中，所述大数据资源处理方法包括：

初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源；

根据所述队列的初始资源确定每层队列的性能标识；

当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量；

采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长；

根据所述任务消耗的预计时长确定所述任务消耗的预计资源量；

将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列；

从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源；

将所述任务分配给所述目标队列。

进一步地，在本发明实施例提供的上述大数据资源处理方法中，所述根据所述队列的初始资源确定每层队列的性能标识的步骤包括：

判断每层队列的所述初始资源是否介于预设第一资源阈值与预设第二资源阈值之间，其中，所述第一资源阈值大于所述第二资源阈值；

当所述初始资源大于所述预设第一资源阈值时，确定与所述初始资源对应的队列的性能标识为第一性能标识；

当所述初始资源小于所述预设第一资源阈值且大于所述预设第二资源阈值时，确定与所述初始资源对应的队列的性能标识为第二性能标识；

当所述初始资源小于所述预设第二资源阈值时，确定与所述初始资源对应的队列的性能标识为第三性能标识。

进一步地，在本发明实施例提供的上述大数据资源处理方法中，当接收到客户端输出的任务处理请求时，所述方法还包括：

调用服务器端的任务调度器获取所述任务的描述文件；

根据所述描述文件识别所述任务的任务名称；

根据所述任务名称判断所述任务是否为首次提交；

当所述任务为首次提交时，选择预定队列运行所述任务；

当所述任务不为首次提交时，从历史运行记录中筛选出与所述任务具有相同属性的历史任务所消耗的历史时长，并根据所述历史时长采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长。

进一步地，在本发明实施例提供的上述大数据资源处理方法中，所述根据所述任务名称判断所述任务是否为首次提交的步骤包括：

根据所述任务名称遍历资源调度库；

判断所述资源调度库中是否存在与所述任务名称相同的任务名称；

若判断结果为不存在与所述任务名称相同的任务名称，则确定所述任务为首次提交；

若判断结果为存在与所述任务名称相同的任务名称，则确定所述任务不为首次提交。

进一步地，在本发明实施例提供的上述大数据资源处理方法中，所述从历史运行记录中筛选出与所述任务具有相同属性的历史任务所消耗的历史时长的步骤包括：

获取与所述任务具有相同属性的历史任务在预设天数内的历史时长；

根据在所述预设天数内的历史时长计算平均运行时长；

将所述历史时长与所述平均运行时长代入方差计算公式，得到与所述任务具有相同属性的历史任务所消耗的历史时长的方差值；

根据所述历史时长的方差值得到所述任务的历史时长。

进一步地，在本发明实施例提供的上述大数据资源处理方法中，所述方法还包括：

预测每层队列在预定时间段内接收到的任务处理请求的数量；

将数量小于或者等于预设数量阈值的队列确定为空闲队列；

当在所述预定时间段内接收到任务处理请求时，将所述任务处理请求中的任务分配给所述空闲队列进行处理；

其中，所述预测每层队列在预定时间段内接收到的任务处理请求的数量包括：

获取历史预定时间段内的任务运行数据，并将所述任务运行数据通过预处理，实现任务量数据和队列任务分配数据的分离；

对所述任务量数据进行平稳化分析处理，得到平稳化任务量数据，同时使用K-means算法对所述队列任务分配数据进行聚类分析处理，得到聚簇数据；

将所述平稳化任务数据作为第一训练数据集，将所述聚簇数据作为第二训练数据集，通过预设模型对所述第一训练数据集进行训练得到第一模型，通过所述预设模型对所述第二训练数据集进行训练，第二模型；

将所述第一模型与所述第二模型进行混合得到混合模型；

将指定队列与时间戳输入至所述混合模型；

获取所述混合模型输出的分配到所述指定队列的任务处理请求的数量。

进一步地，在本发明实施例提供的上述大数据资源处理方法中，所述任务时长消耗模型的训练过程包括：

采集多个任务及每个任务在多层队列中的历史消耗时长；

将多个任务及对应的历史消耗时长作为样本数据集；

从所述样本数据集中划分出训练集和测试集；

将所述训练集输入至预设神经网络中进行训练，得到任务时长消耗模型；

将所述测试集输入至所述任务时长消耗模型中进行测试，计算测试通过率；

若所述测试通过率大于或者等于预设通过率阈值，则确定所述任务时长消耗模型训练结束；

若所述测试通过率小于所述预设通过率阈值，则增加训练集的数量并基于增加的训练集重新进行任务时长消耗模型的训练。

本发明实施例第二方面还提供一种大数据资源处理装置，应用于大数据平台中，所述大数据资源处理装置包括：

队列初始化模块，用于初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源；

性能标识确定模块，用于根据所述队列的初始资源确定每层队列的性能标识；

剩余资源量监听模块，用于当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量；

消耗时长预测模块，用于采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长；

资源量消耗预计模块，用于根据所述任务消耗的预计时长确定所述任务消耗的预计资源量；

待选队列确定模块，用于将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列；

目标队列匹配模块，用于从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源；

任务分配模块，用于将所述任务分配给所述目标队列。

本发明实施例第三方面还提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述任意一项所述大数据资源处理方法。

本发明实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述大数据资源处理方法。

本发明实施例提供一种大数据资源处理方法、大数据资源处理装置、终端以及计算机可读存储介质，初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源；根据所述队列的初始资源确定每层队列的性能标识；当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量；采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长；根据所述任务消耗的预计时长确定所述任务消耗的预计资源量；将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列；从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源；将所述任务分配给所述目标队列。通过本发明实施例，预测任务消耗的资源量，并结合每层队列的剩余资源量及队列的性能标识来综合确定目标队列，可合理分配资源，节约了整体任务的运行时间，提升了集群资源的利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明第一实施方式提供的大数据资源处理方法的流程图。

图2是本发明一实施方式的终端的结构示意图。

图3是图2所示的终端的示例性的功能模块图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

图1是本发明第一实施方式的大数据资源处理方法的流程图，所述大数据资源处理方法可以应用于大数据平台中。如图1所示，所述大数据资源处理方法可以包括如下步骤：

S11、初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源。

以一个服务器端作为一个工作节点，在各个客户端中执行各项任务，所述服务器端和与该服务器端对应的所述客户端连接，从而所述客户端可以向与其连接的所述服务器端获取CPU资源和内存资源等资源。

在本发明的至少一实施例中，所述大数据资源处理方法应用于大数据平台中，在所述大数据平台中针对大数据资源预先设置多层队列，并初始化所述大数据资源对应的多层队列，从而得到每层队列的初始资源。其中，多层队列的数量可以根据资源总量、历史任务量及资源消耗量综合分析。具体地，将所述资源总量、历史任务量及资源消耗量输入至预先训练好的队列设置模型中，得到队列设置结果，所述队列设置结果包括设置队列的数量以及每个队列对应的初始资源。通过所述队列设置模型对队列进行动态设置，对于不同时期不同的历史任务量及资源消耗量能够得到相应的队列设置结果，避免固定化队列设置，增加了队列设置的适用性。

示例性地，根据所述队列设置模型，所述服务器端设置有3层队列，分别为Queue1、Queue2与Queue3。其中，Queue1对应的初始资源为1000C；Queue2对应的初始资源为800C；Queue3对应的初始资源为500C。

在本发明的至少一实施例中，在所述初始化所述大数据平台中的大数据资源对应的多层队列的步骤之前，所述方法还包括：预先训练任务时长消耗模型。其中，所述预先训练任务时长消耗模型的步骤包括：采集多个任务及每个任务在多层队列中的历史消耗时长；将多个任务及对应的历史消耗时长作为样本数据集；从所述样本数据集中划分出训练集和测试集；将所述训练集输入至预设神经网络中进行训练，得到任务时长消耗模型；将所述测试集输入至所述任务时长消耗模型中进行测试，计算测试通过率；若所述测试通过率大于或者等于预设通过率阈值，则确定所述任务时长消耗模型训练结束；若所述测试通过率小于所述预设通过率阈值，则增加训练集的数量并基于增加的训练集重新进行任务时长消耗模型的训练。其中，所述预设神经网络可以包括，但不限于卷积神经网络、循环神经网络等。所述预设通过率阈值为用户预先设置的，例如，所述预设通过率阈值为95％。

S12、根据所述队列的初始资源确定每层队列的性能标识。

在本发明的至少一实施例中，所述根据所述队列的初始资源确定每层队列的性能标识的步骤包括：判断每层队列的所述初始资源是否介于预设第一资源阈值与预设第二资源阈值之间，其中，所述第一资源阈值大于所述第二资源阈值；当所述初始资源大于所述预设第一资源阈值时，确定与所述初始资源对应的队列的性能标识为第一性能标识；当所述初始资源小于所述预设第一资源阈值且大于所述预设第二资源阈值时，确定与所述初始资源对应的队列的性能标识为第二性能标识；当所述初始资源小于所述预设第二资源阈值时，确定与所述初始资源对应的队列的性能标识为第三性能标识。其中，所述预设第一资源阈值、预设第二资源阈值与预设第三资源阈值为用户预先设置的。

示例性地，所述第一资源阈值为900C，所述第二资源阈值为400C，Queue1对应的初始资源数为1000C；Queue2对应的资源数为800C；Queue3对应的资源数为500C。由于Queue1的初始资源大于第一资源阈值900C，则确定Queue1的性能标识为第一性能标识，Queue1对应的优先级通道设置为快通道；由于Queue2的初始资源小于第一资源阈值900C且大于第二资源阈值400C，则确定Queue2的性能标识为第二性能标识，Queue2对应的优先级通道设置为中通道；由于Queue3的初始资源小于第二资源阈值400C，则确定Queue3的性能标识为第三性能标识，Queue3对应的优先级通道设置为慢通道。

优选地，对于每一个队列，都可以设置对应的标签，通过标签来区分多个不同的任务队列，方便任务的管理。

S13、当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量。

在本发明的至少一实施例中，所述客户端在向所述服务器端获取CPU资源和内存资源等资源之前，需向所述服务器端输出任务处理请求，所述服务器端根据接收到的所述任务处理请求，分配相关资源给所述客户端，用于执行当前任务。

用户在所述客户端提交任务处理请求时，需要将任务的描述信息(包括但不限于任务名称、命令参数、资源需求等信息)告知所述客户端对应的用户界面程序，所述用户界面程序会将任务的描述信息传递给所述服务器端的任务调度器，实现任务处理请求的提交过程。其中，所述用户界面程序是一个web应用程序，用户需要通过web浏览器操作用户界面程序；所述任务调度器用于对所述客户端提交的任务进行分析及调度管理。

所述任务处理请求中包括任务的描述文件，所述任务的描述文件是指符合所述服务器端资源调度规范的，用于表达任务请求的文件。所述任务的描述文件是根据用户预先设置任务的描述文件模板确定的，所述任务的描述文件模板是一种用于定义任务的描述文件中的共性信息组织结构的模板文件。所述任务的描述文件模板可以使用专用的编程语言，例如Jinja编程语言进行编写，也可以是带有可替换字段的简单文本文件等等，此处不作具体限定。所述任务的描述文件包括以下信息中的至少一个：任务名称(job_name，为字符串字段)以及任务的资源需求(attribute_description，为键值对字段)等。其中，所述任务名称为资源调度的标识，一个任务对应唯一一个任务名称；所述任务的资源需求用于在资源调度时确定需要占据的资源。

当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量。其中，所述预设个数为用户预先设置的，例如，所述预设个数可以为一个，也可以为队列对应的个数。所述资源量监听器可以用于监听所述队列中的资源量。

当接收到客户端输出的任务处理请求时，所述方法还包括：调用服务器端的任务调度器获取所述任务的描述文件；根据所述描述文件识别所述任务的任务名称；根据所述任务名称判断所述任务是否为首次提交；当所述任务为首次提交时，选择预定队列运行所述任务；当所述任务不为首次提交时，从历史运行记录中筛选出与所述任务具有相同属性的历史任务所消耗的历史时长，并根据所述历史时长采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长，其中，所述相同属性可以包括具有相同的任务名称。

其中，所述首次提交表明所述客户端在此之前未向所述服务器端输出同样的任务处理请求，所述服务器端未对当前任务分配过相关资源，因而所述服务器端无法获取当前任务的历史运行时长，无法判断应将当前任务分配给哪个队列进行执行。所述根据所述任务名称判断所述任务是否为首次提交的步骤包括：根据所述任务名称遍历资源调度库；判断所述资源调度库中是否存在与所述任务名称相同的任务名称；若判断结果为不存在与所述任务名称相同的任务名称，则确定所述任务为首次提交；若判断结果为存在与所述任务名称相同的任务名称，则确定所述任务不为首次提交。其中，所述资源调度库中保存有历史资源调度记录，所述历史资源调度记录中包含资源调度对应的任务名称。

当确定所述任务不为首次提交时，所述从历史运行记录中筛选出与所述任务具有相同属性的历史任务所消耗的历史时长的步骤包括：获取与所述任务具有相同属性的历史任务在预设天数内的历史时长，记为x₁、x₂…x_n；根据在所述预设天数内的历史时长计算平均运行时长，记为

将所述历史时长与所述平均运行时长代入方差计算公式，得到与所述任务具有相同属性的历史任务所消耗的历史时长的方差值；根据所述历史时长的方差值得到所述任务的历史时长。

在所述根据所述历史时长的方差值得到所述任务的历史时长的步骤之后，所述方法还包括：判断所述任务的历史时长是否超出预设时长阈值；若判断结果为所述任务的历史时长超出预设时长阈值，则将所述任务指定到Queue3中运行。其中，所述预设时长阈值为用户预先设置的，例如，所述预设时长阈值可以为30分钟，对于所述任务消耗的预计时长超出30分钟的任务，拒绝将其提交到Queue1或Queue2中运行，避免占用较长时间的资源，降低资源利用率与时效性。若判断结果为所述任务的历史运行时长未超出预设时长阈值，则采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长。

其中，所述方差计算公式为：

S²为样本方差，x为历史运行时长，

为平均运行时长，n为预设天数。与所述任务具有相同属性的历史任务是指与所述任务的任务名称、所述任务处理请求输出的时间段等相同的历史任务。可以理解的是，方差为表示数据偏离程度的量，通过计算当前任务在预设天数内的历史运行时长的方差值，可以舍弃偏离较大的历史运行时长值，从而提高当前任务历史运行时长的准确率。

当确定所述任务为首次提交时，所述方法还包括：选择预定队列运行当前任务。其中，所述预定队列可以为Queue1、Queue2与Queue3中的任意一个，在本实施方式中，所述预定队列可以为Queue2。

在本发明的至少一实施例中，接收到客户端输出的任务处理请求的数量可以为1个，也可以为多个。当接收到客户端输出的任务处理请求的数量为多个时，可以根据对各个任务定义的统一规范化的任务的扫描文件，对各个任务进行统一的调度和管理。

S14、采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长。

在本发明的至少一实施例中，所述采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长的步骤包括：将当前任务的历史消耗时长与多层队列的当前资源消耗量输入至预先训练好的任务时长消耗模型中；通过所述任务时长消耗模型计算出当前任务分配给对应队列所需消耗的时长。

S15、根据所述任务消耗的预计时长确定所述任务消耗的预计资源量。

在本发明的至少一实施例中，所述任务消耗的预计时长越长，所述任务消耗的预计资源量越大。设置一时长-资源量消耗对应表，在所述时长-资源量消耗对应表中，列出了所述任务消耗的时长与所述任务消耗的资源量的对应关系。在系统的性能和运行环境保持不变的情况下，可以认为所述任务消耗的时长与所述任务消耗的资源量的对应关系是稳定的。所述任务消耗的时长与所述任务消耗的资源量的对应关系可以通过多次试验所得。

所述根据所述任务消耗的预计时长确定所述任务消耗的预计资源量的步骤包括：根据所述任务消耗的预计时长遍历所述时长-资源量消耗对应表；在所述时长-资源量消耗对应表中匹配出对应的所述任务消耗的预计资源量。

S16、将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列。

在本发明的至少一实施例中，确定多层队列的剩余资源量，判断是否存在所述剩余资源量大于所述预计资源量的多层队列。若判断结果为存在所述剩余资源量大于所述预计资源量的多层队列，则获取大于所述预计资源量的多层队列，并确定为待选队列。

S17、从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源。

在本发明的至少一实施例中，当大于所述预计资源量的多层队列的数量超过1个时，则从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源。例如，当大于所述预计资源量的队列分别为Queue1与Queue2，由于Queue1的性能标识为第一性能标识，则选择Queue1作为目标队列。

在本发明的至少一实施例中，所述方法还包括：预测每层队列在预定时间段内接收到的任务处理请求的数量；将数量小于或者等于预设数量阈值的队列确定为空闲队列；当在所述预定时间段内接收到任务处理请求时，将所述任务处理请求中的任务分配给所述空闲队列进行处理；

通过对指定队列未来预定时间段内接收到的任务处理请求的数量进行预测，并将任务分配一些到所述空闲队列进行处理，从而实现队列资源利用最大化。

其中，所述预测每层队列在预定时间段内接收到的任务处理请求的数量包括：获取历史预定时间段内的任务运行数据，并将所述任务运行数据通过预处理，实现任务量数据和队列任务分配数据的分离；对所述任务量数据进行平稳化分析处理，得到平稳化任务量数据，同时使用K-means算法对所述队列任务分配数据进行聚类分析处理，得到聚簇数据；将所述平稳化任务数据作为第一训练数据集，将所述聚簇数据作为第二训练数据集，通过预设模型对所述第一训练数据集进行训练得到第一模型，通过所述预设模型对所述第二训练数据集进行训练，得到第二模型；将所述第一模型与所述第二模型进行混合得到混合模型；将指定队列与时间戳输入至所述混合模型；获取所述混合模型输出的分配到所述指定队列的任务处理请求的数量。其中，所述预设模型为用户根据具体需求预先设置的模型，在此不作限制。

具体地，所述任务量数据包括任务数量与时间戳，将所述任务量数据转化为矩阵形式数据存放在指定数据库中，例如，所述任务量数据的矩阵形式数据可以为x_i，t_i，其中，x_i表示任务数量，t_i表示时间戳。所述队列任务分配数据包括任务名称、分配的队列与时间戳，将所述队列任务分配数据转化为矩阵形式数据存放在指定数据库中，例如，所述队列任务分配数据的矩阵形式数据可以为n_i，d_i，t_i，其中，n_i表示任务名称，d_i表示分配的队列，t_i表示时间戳。在一实施例中，可以通过数据ETL分离技术对所述任务运行数据进行预处理，将源数据抽取的数据格式转换为便于处理的目标数据格式。通过对所述任务量数据进行平稳化分析处理，去除非周期性数据，从而表明历史任务量数据与未来任务量数据之间差异较小，可以通过历史任务量数据预测未来任务量数据。所述使用K-means算法对所述队列任务分配数据进行聚类分析处理，得到聚簇数据的步骤可以包括：获取矩阵形式的队列任务分配数据；基于密度的方法确定所述队列任务分配数据的初始聚类中心；以所述初始聚类中心为初始中心点，基于距离的聚类算法K-means对所述队列任务分配数据进行聚类得到聚簇数据。

S18、将所述任务分配给所述目标队列。

在本发明的至少一实施例中，在所述将所述任务分配给所述目标队列的步骤之后，所述方法还包括：识别当前任务对应的客户端的ID(身份识别标识)；获取当前任务的运行状态并将所述运行状态反馈给所述客户端的ID对应的客户端中。其中，所述任务的运行状态可以包括任务运行完成、任务运行失败等状态。

本发明实施例提供一种大数据资源处理方法，初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源；根据所述队列的初始资源确定每层队列的性能标识；当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量；采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长；根据所述任务消耗的预计时长确定所述任务消耗的预计资源量；将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列；从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源；将所述任务分配给所述目标队列。通过本发明实施例，预测任务消耗的资源量，并结合每层队列的剩余资源量及队列的性能标识来综合确定目标队列，可合理分配资源，节约了整体任务的运行时间，提升了集群资源的利用率。以上是对本发明实施例所提供的方法进行的详细描述。根据不同的需求，所示流程图中方块的执行顺序可以改变，某些方块可以省略。下面对本发明实施例所提供的终端1进行描述。

本发明实施例还提供一种终端1，包括存储器10、处理器30及存储在存储器10上并可在处理器30上运行的计算机程序，所述处理器30执行所述程序时实现上述任一实施方式中所述的大数据资源处理方法的步骤。

图2是本发明一实施方式的终端的结构示意图，如图2所示，终端1包括存储器10，存储器10中存储有大数据资源处理装置100。所述的终端1可以是计算机、平板电脑、个人数字助理等具有数据处理、分析、程序执行及显示等功能的电子设备，其中，所述终端还可以作为服务器端及客户端。所述大数据资源处理装置100可以初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源；根据所述队列的初始资源确定每层队列的性能标识；当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量；采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长；根据所述任务消耗的预计时长确定所述任务消耗的预计资源量；将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列；从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源；将所述任务分配给所述目标队列。通过本发明实施例，预测任务消耗的资源量，并结合每层队列的剩余资源量及队列的性能标识来综合确定目标队列，可合理分配资源，节约了整体任务的运行时间，提升了集群资源的利用率。

本实施方式中，终端1还可以包括显示屏20及处理器30。存储器10、显示屏20可以分别与处理器30电连接。

所述的存储器10可以是不同类型存储设备，用于存储各类数据。例如，可以是终端1的存储器、内存，还可以是可外接于该终端1的存储卡，如闪存、SM卡(Smart Media Card，智能媒体卡)、SD卡(Secure Digital Card，安全数字卡)等。此外，存储器10可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器10用于存储各类数据，例如，所述终端1中安装的各类应用程序(Applications)、应用上述大数据资源处理方法而设置、获取的数据等信息。

显示屏20安装于终端1，用于显示信息。

处理器30用于执行所述大数据资源处理方法以及所述终端1内安装的各类软件，例如操作系统及应用显示软件等。处理器30包含但不限于处理器(Central ProcessingUnit，CPU)、微控制单元(Micro Controller Unit，MCU)等用于解释计算机以及处理计算机软件中的数据的装置。

所述的大数据资源处理装置100可以包括一个或多个的模块，所述一个或多个模块被存储在终端1的存储器10中并被配置成由一个或多个处理器(本实施方式为一个处理器30)执行，以完成本发明实施例。例如，参阅图3所示，所述终端1可以包括队列初始化模块101、性能标识确定模块102、剩余资源量监听模块103、消耗时长预测模块104、资源量消耗预计模块105、待选队列确定模块106、目标队列匹配模块107及任务分配模块108。本发明实施例所称的模块可以是完成一特定功能的程序段，比程序更适合于描述软件在处理器30中的执行过程。

可以理解的是，对应上述大数据资源处理方法中的各实施方式，终端1可以包括图3中所示的各功能模块中的一部分或全部，各模块的功能将在以下具体介绍。需要说明的是，以上大数据资源处理方法的各实施方式中相同的名词相关名词及其具体的解释说明也可以适用于以下对各模块的功能介绍。为节省篇幅及避免重复起见，在此就不再赘述。

队列初始化模块101可以用于初始化所述大数据平台中的大数据资源对应的多层队列，得到队列的初始资源。

性能标识确定模块102可以用于根据所述队列的初始资源确定每层队列的性能标识。

剩余资源量监听模块103可以用于当接收到客户端输出的任务处理请求时，调用预设个数的资源量监听器监听所述多层队列中每层队列的剩余资源量。

消耗时长预测模块104可以用于采用预先训练的任务时长消耗模型预测出所述任务消耗的预计时长。

资源量消耗预计模块105可以用于根据所述任务消耗的预计时长确定所述任务消耗的预计资源量。

待选队列确定模块106可以用于将所述多层队列中剩余资源量大于所述预计资源量的队列确定为待选队列。

目标队列匹配模块107可以用于从所述待选队列中匹配出性能标识为第一性能标识的目标队列，其中，所述第一性能标识所对应的队列的初始资源大于其他性能标识所对应的队列的初始资源。

任务分配模块108可以用于将所述任务分配给所述目标队列。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器30执行时实现上述任一实施方式中的大数据资源处理方法的步骤。

所述大数据资源处理装置100如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器30执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器30是所述大数据资源处理装置100/终端1的控制中心，利用各种接口和线路连接整个大数据资源处理装置100/终端1的各个部分。

所述存储器10用于存储所述计算机程序和/或模块，所述处理器30通过运行或执行存储在所述存储器10内的计算机程序和/或模块，以及调用存储在存储器10内的数据，实现所述大数据资源处理装置100/终端1的各种功能。所述存储器10可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1的使用所创建的数据(比如音频数据)等。

在本发明所提供的几个具体实施方式中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的系统实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。

以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种大数据资源处理方法，应用于大数据平台中，其特征在于，所述大数据资源处理方法包括：

根据所述队列的初始资源确定每层队列的性能标识；

将所述任务分配给所述目标队列。

2.根据权利要求1所述的大数据资源处理方法，其特征在于，所述根据所述队列的初始资源确定每层队列的性能标识的步骤包括：

3.根据权利要求1所述的大数据资源处理方法，其特征在于，当接收到客户端输出的任务处理请求时，所述方法还包括：

调用服务器端的任务调度器获取所述任务的描述文件；

根据所述描述文件识别所述任务的任务名称；

根据所述任务名称判断所述任务是否为首次提交；

当所述任务为首次提交时，选择预定队列运行所述任务；

4.根据权利要求3所述的大数据资源处理方法，其特征在于，所述根据所述任务名称判断所述任务是否为首次提交的步骤包括：

根据所述任务名称遍历资源调度库；

5.根据权利要求3所述的大数据资源处理方法，其特征在于，所述从历史运行记录中筛选出与所述任务具有相同属性的历史任务所消耗的历史时长的步骤包括：

根据在所述预设天数内的历史时长计算平均运行时长；

根据所述历史时长的方差值得到所述任务的历史时长。

6.根据权利要求1至5中任意一项所述的大数据资源处理方法，其特征在于，所述方法还包括：

将数量小于或者等于预设数量阈值的队列确定为空闲队列；

将所述平稳化任务数据作为第一训练数据集，将所述聚簇数据作为第二训练数据集，通过预设模型对所述第一训练数据集进行训练得到第一模型，通过所述预设模型对所述第二训练数据集进行训练，得到第二模型；

将所述第一模型与所述第二模型进行混合得到混合模型；

将指定队列与时间戳输入至所述混合模型；

7.根据权利要求1-5中任意一项所述的大数据资源处理方法，其特征在于，所述任务时长消耗模型的训练过程包括：

采集多个任务及每个任务在多层队列中的历史消耗时长；

将多个任务及对应的历史消耗时长作为样本数据集；

从所述样本数据集中划分出训练集和测试集；

8.一种大数据资源处理装置，应用于大数据平台中，其特征在于，所述大数据资源处理装置包括：

任务分配模块，用于将所述任务分配给所述目标队列。

9.一种终端，其特征在于，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述大数据资源处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述大数据资源处理方法。