CN117215789A

CN117215789A - 数据处理任务的资源配置方法、装置和计算机设备

Info

Publication number: CN117215789A
Application number: CN202311203955.2A
Authority: CN
Inventors: 荣翔
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-12

Abstract

本申请涉及一种数据处理任务的资源配置方法、装置、计算机设备、存储介质和计算机程序产品，涉及人工智能领域。方法包括：获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数；当前资源配置状态参数表征数据处理任务在当前状态对应的资源配置状态；将当前资源配置状态参数输入至训练后的资源配置模型，得到针对数据处理任务的资源调整动作；训练后的资源配置模型的优化目标为在采用资源调整动作对当前资源配置状态参数进行调整后，数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于数据处理任务在当前状态的任务耗时；根据资源调整动作，对当前资源配置状态参数进行调整。采用本方法能够高效利用大数据调度平台的资源。

Description

数据处理任务的资源配置方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据处理任务的资源配置方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

当前大数据平台会运行大量数据处理任务。在运行任务时，需要提前配置好任务运行的资源参数。为了保证计算的时效性(在约定的时间开始执行，并且在约定的时间之前完成)，通常通过运维开发人员的经验进行初始化配置。

然而，这种配置方法无法准确地对资源进行合理配置，在资源初始化配置时，容易导致资源分配过多造成浪费，或资源分配过少导致任务出现时效性问题(未在规定时间完成数据处理，造成下游供数耽搁)。

因此，相关技术中在数据处理任务中存在着无法高效利用资源的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在数据处理任务中高效利用资源的数据处理任务的资源配置方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种数据处理任务的资源配置方法，包括：

获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数；所述当前资源配置状态参数表征所述数据处理任务在当前状态对应的资源配置状态；

将所述当前资源配置状态参数输入至训练后的资源配置模型，得到针对所述数据处理任务的资源调整动作；所述训练后的资源配置模型的优化目标为在采用所述资源调整动作对所述当前资源配置状态参数进行调整后，所述数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于所述数据处理任务在所述当前状态的任务耗时；

根据所述资源调整动作，对所述当前资源配置状态参数进行调整。

在其中一个实施例中，方法还包括：

根据所述下一状态的任务耗时、所述当前状态的任务耗时以及所述耗时阈值，确定所述训练后的资源配置模型在输出所述资源调整动作后得到的奖励数据；

根据下一资源配置状态参数、所述当前资源配置状态参数、所述奖励数据和所述资源调整动作，对所述训练后的资源配置模型进行更新；

其中，所述下一资源配置状态参数表征所述数据处理任务在所述下一状态对应的资源配置状态。

在其中一个实施例中，所述根据所述下一状态的任务耗时、所述当前状态的任务耗时以及所述耗时阈值，确定所述训练后的资源配置模型在输出所述资源调整动作后得到的奖励数据，包括：

在所述下一状态的任务耗时小于所述耗时阈值，且所述下一状态的任务耗时小于所述当前状态的任务耗时的情况下，确定所述奖励数据对应的数值为正值。

在所述下一状态的任务耗时和所述当前状态的任务耗时均小于所述耗时阈值，且所述下一状态的任务耗时大于所述当前状态的任务耗时，则确定所述奖励数据对应的数值为第一负值；

在所述下一状态的任务耗时大于所述耗时阈值的情况下，确定所述奖励数据对应的数值为第二负值；

其中，所述第二负值小于所述第一负值。

在所述下一状态的任务耗时小于所述耗时阈值，所述当前状态的任务耗时大于所述耗时阈值，且所述当前状态的任务耗时小于所述下一状态的任务耗时的情况下，判定存在异常数据；

将所述奖励数据对应的数值设置为零。

在其中一个实施例中，所述根据下一资源配置状态参数、所述当前资源配置状态参数、所述奖励数据和所述资源调整动作，对所述训练后的资源配置模型进行更新，包括：

将所述下一资源配置状态参数、所述当前资源配置状态参数、所述奖励数据、所述资源调整动作以及训练结束判断标志，作为历史经验数据；

将所述历史经验数据放入经验回放池；

定时在所述经验回放池批量选取若干历史经验数据，对所述训练后的资源配置模型进行更新。

在其中一个实施例中，所述根据所述资源调整动作，对所述当前资源配置状态参数进行调整，包括：

采用所述资源调整动作，对所述当前资源配置状态参数进行调整，得到所述下一资源配置状态参数。

第二方面，本申请还提供了一种数据处理任务的资源配置装置，包括：

获取模块，用于获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数；所述当前资源配置状态参数表征所述数据处理任务在当前状态对应的资源配置状态；

输入模块，用于将所述当前资源配置状态参数输入至训练后的资源配置模型，得到针对所述数据处理任务的资源调整动作；所述训练后的资源配置模型的优化目标为在采用所述资源调整动作对所述当前资源配置状态参数进行调整后，所述数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于所述数据处理任务在所述当前状态的任务耗时；

调整模块，用于根据所述资源调整动作，对所述当前资源配置状态参数进行调整。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述数据处理任务的资源配置方法、装置、计算机设备、存储介质和计算机程序产品，通过获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数；当前资源配置状态参数表征数据处理任务在当前状态对应的资源配置状态；将当前资源配置状态参数输入至训练后的资源配置模型，得到针对数据处理任务的资源调整动作；训练后的资源配置模型的优化目标为在采用资源调整动作对当前资源配置状态参数进行调整后，数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于数据处理任务在当前状态的任务耗时；根据资源调整动作，对当前资源配置状态参数进行调整。

如此，可以使用训练后的资源配置模型输出针对数据处理任务的资源调整动作，来调整数据处理任务的当前资源配置状态参数，以达到资源调整动作对当前资源配置状态参数进行调整后，数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于数据处理任务在当前状态的任务耗时的目的，以有效保障数据处理任务的时效性，这个针对当前资源配置状态参数输出资源调整工作的过程可以不断循环，从而可以实现动态学习适应、调整资源配置，最终输出最佳资源配置，避免出现资源分配过多造成浪费，或资源分配过少导致任务出现时效性问题，进而在运行数据处理任务时，可以高效利用大数据调度平台的资源。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中一种数据处理任务的资源配置方法的流程示意图；

图2为一个实施例中训练后的资源配置模型更新步骤的流程示意图；

图3为另一个实施例中一种数据处理任务的资源配置方法的流程示意图；

图4为一个实施例中一种数据处理任务的资源配置装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在一个实施例中，如图1所示，提供了一种数据处理任务的资源配置方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中，该方法包括以下步骤：

步骤S110，获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数。

其中，数据处理任务可以为定时任务。例如，数据处理任务可以为运行在基于Hadoop Yarn平台(一种通用资源管理系统和调度平台)的Spark任务。可以理解的是，数据处理任务也可以为除定时任务以外的其他任务，在此不做具体限定。

其中，当前资源配置状态参数表征数据处理任务在当前状态对应的资源配置状态，以反映数据处理任务当前对大数据调度平台中的资源的使用的情况。

其中，当前资源配置状态参数可以包括运行数据处理任务所需的资源参数，例如，任务运行需要的资源容器的数量，每个容器的CPU数量和单个容器内存资源。

具体实现中，终端可以在大数据调度平台所处环境中，采集得到运行在大数据调度平台上的数据处理任务的当前资源配置状态参数。

步骤S120，将当前资源配置状态参数输入至训练后的资源配置模型，得到针对数据处理任务的资源调整动作。

其中，训练后的资源配置模型的优化目标为在采用资源调整动作对当前资源配置状态参数进行调整后，数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于数据处理任务在当前状态的任务耗时。

其中，预设的耗时阈值为数据处理任务的计划完成时间。

其中，下一状态为在采用资源调整动作对数据处理任务的当前资源配置状态参数进行调整后，数据处理任务所处的状态。

其中，训练后的资源配置模型可以为强化学习模型。具体的，训练后的资源配置模型可以为DQN(Deep Q-Learning)模型。

具体实现中，终端可以将当前资源配置状态参数输入至训练后的资源配置模型，得到针对数据处理任务的资源调整动作。

其中，终端可以将当前资源配置状态参数输入至训练后的资源配置模型，训练后的资源配置模型可以针对当前资源配置状态参数，输出各候选资源调整动作对应的Q值，通过epsilon-greedy贪心策略选取一个候选资源调整动作：当有概率epsilon时，随机选择一个候选资源调整动作，作为针对数据处理任务的资源调整动作；当有概率1-epsilon时，选取具有最高Q值的候选资源调整动作，作为针对数据处理任务的资源调整动作。

步骤S130，根据资源调整动作，对当前资源配置状态参数进行调整。

具体实现中，终端可以采用针对数据处理任务的资源调整动作，对数据处理任务的当前资源配置状态参数进行调整。

在本申请的一个可选实施例中，终端可以将针对数据处理任务的资源调整动作，输入到大数据调度平台所处的环境中，以根据资源调整动作，对数据处理任务的当前资源配置状态参数进行调整。

上述数据处理任务的资源配置方法中，通过获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数；当前资源配置状态参数表征数据处理任务在当前状态对应的资源配置状态；将当前资源配置状态参数输入至训练后的资源配置模型，得到针对数据处理任务的资源调整动作；训练后的资源配置模型的优化目标为在采用资源调整动作对当前资源配置状态参数进行调整后，数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于数据处理任务在当前状态的任务耗时；根据资源调整动作，对当前资源配置状态参数进行调整。

在一个实施例中，如图2所示，方法还包括：

步骤S210，根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据。

具体实现中，终端可以根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，按照预设的经验公式，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据。

具体的，终端可以根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值之间的大小关系，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据。

步骤S220，根据下一资源配置状态参数、当前资源配置状态参数、奖励数据和资源调整动作，对训练后的资源配置模型进行更新。

其中，下一资源配置状态参数表征数据处理任务在下一状态对应的资源配置状态。

具体实现中，终端可以根据下一资源配置状态参数、当前资源配置状态参数、奖励数据和针对数据处理任务的资源调整动作，对训练后的资源配置模型进行更新。

在本申请的一个可选实施例中，终端可以根据下一资源配置状态参数、当前资源配置状态参数、奖励数据和针对数据处理任务的资源调整动作，组成历史经验数据，根据历史经验数据对训练后的资源配置模型进行参数更新。

本实施例的技术方案，通过根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据；根据下一资源配置状态参数、当前资源配置状态参数、奖励数据和资源调整动作，对训练后的资源配置模型进行更新；其中，下一资源配置状态参数表征数据处理任务在下一状态对应的资源配置状态。如此，将训练后的资源配置模型与大数据调度平台所处环境交互并产生新的经验，用来更新训练后的资源配置模型，使得资源配置模型可以学习到更多的场景和情况，以减少模型学习过程中的不稳定性。

在一个实施例中，根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据，包括：在下一状态的任务耗时小于耗时阈值，且下一状态的任务耗时小于当前状态的任务耗时的情况下，确定奖励数据对应的数值为正值。

具体实现中，终端在根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据的过程中，终端可以在下一状态的任务耗时小于或等于耗时阈值，且下一状态的任务耗时小于或等于当前状态的任务耗时的情况下，确定奖励数据对应的数值为正值。即，终端可以在下一状态未超时且下一状态相比于当前状态未增加耗时的情况下，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据对应的数值为正值。

举例来说，若预设的耗时阈值记为T，当前资源配置状态参数包括三个参数，记为(a1，a2，a3)，当前状态的任务耗时记为t1，采用资源调整动作(n，m，k)，下一资源配置状态参数为(b1，b2，b3)，下一状态的任务耗时为t2。计算方法如下：在t2<＝T，且t1>＝t2的情况下，给予奖励，Q＝10。

其中，Q为动作奖励函数，Q值可以作为奖励数据对应的数值。Q值也可以为其他正数。

在本申请的一个可选实施例中，在下一状态的任务耗时小于或等于耗时阈值，且下一状态的任务耗时小于或等于当前状态的任务耗时的情况下，奖励数据对应的数值也可以不为一个固定的常数，奖励数据对应的数值可以与第一任务耗时差值呈正相关关系。其中，第一任务耗时差值为下一状态的任务耗时与当前状态的任务耗时之间的差值，在第一任务耗时差值越大的情况下，奖励数据对应的数值越大，即给予更大的奖励。需要说明的是，此时奖励数据对应的数值依然为正值。

具体的，可以预先设定第一任务耗时差值区间与数值为正值的奖励数据之间的映射关系。根据第一任务耗时差值所落入的第一任务耗时差值区间对应的为正值的奖励数据，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据。

可以理解的是，无论当前状态的任务耗时是大于还是小于耗时阈值(即t1<T或t1>T)，在下一状态的任务耗时小于或等于耗时阈值，且下一状态的任务耗时小于或等于当前状态的任务耗时的情况下，奖励数据对应的数值均为正值。

在一个实施例中，根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据，包括：在下一状态的任务耗时小于耗时阈值，当前状态的任务耗时大于耗时阈值，且当前状态的任务耗时小于下一状态的任务耗时的情况下，判定存在异常数据；将奖励数据对应的数值设置为零。

具体实现中，终端在根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据的过程中，终端可以在下一状态的任务耗时小于或等于耗时阈值，当前状态的任务耗时大于耗时阈值，且当前状态的任务耗时小于下一状态的任务耗时的情况下，判定存在异常数据；将奖励数据对应的数值设置为零。如此，通过对异常数据，赋予数值为零的奖励数据，可以让模型确定不重要的或者无效的数据，从而减少它们对模型的更新影响，让模型更加关注有效的数据，提高模型的学习效果和泛化能力。

举例来说，接上例，在t2<＝T的情况下，若t1>T且t1<t2，则判定存在异常数据，Q＝0。

本实施例的技术方案，通过在下一状态的任务耗时小于耗时阈值，且下一状态的任务耗时小于当前状态的任务耗时的情况下，确定奖励数据对应的数值为正值。如此，在采用资源调整动作对当前资源配置状态参数进行调整后，若下一状态未超时且下一状态相比于当前状态未增加耗时的情况下，给予奖励，可以帮助训练后的资源配置模型评估输出的资源调整动作的好坏，引导训练后的资源配置模型学习更优化的资源配置策略，以有效利用大数据调度平台中的资源对数据处理任务进行资源配置。

在一个实施例中，根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据，包括：在下一状态的任务耗时和当前状态的任务耗时均小于耗时阈值，且下一状态的任务耗时大于当前状态的任务耗时，则确定奖励数据对应的数值为第一负值；在下一状态的任务耗时大于耗时阈值的情况下，确定奖励数据对应的数值为第二负值；其中，第二负值小于第一负值。

具体实现中，终端在根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据的过程中，终端可以在下一状态的任务耗时和当前状态的任务耗时均小于耗时阈值(或者，在下一状态的任务耗时等于耗时阈值，且当前状态的任务耗时小于耗时阈值)，且下一状态的任务耗时大于当前状态的任务耗时，确定奖励数据对应的数值为第一负值。即终端可以在下一状态未超时，但下一状态相比于当前状态增加耗时的情况下，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据对应的数值为第一负值，以给予惩罚。

此外，终端可以在在下一状态的任务耗时大于耗时阈值的情况下，确定奖励数据对应的数值为第二负值；其中，第二负值小于第一负值，以给予更大的惩罚。即，终端可以在下一状态超时的情况下，确定奖励数据对应的数值为第二负值。

举例来说，接上例，在t2<＝T的情况下，若t1<T且t1<t2，给予适当惩罚，Q＝-2。在t2>T的情况下，给予更大的惩罚，Q＝-10。

在本申请的一个可选实施例中，在下一状态的任务耗时和当前状态的任务耗时均小于耗时阈值(或者，在下一状态的任务耗时等于耗时阈值，且当前状态的任务耗时小于耗时阈值)，且下一状态的任务耗时大于当前状态的任务耗时，第一负值也可以不为一个固定的常数，第一负值可以与第一任务耗时差值呈负相关关系。其中，第一任务耗时差值为下一状态的任务耗时与当前状态的任务耗时之间的差值，在第一任务耗时差值越大的情况下，奖励数据对应的数值越小，以给予更大的惩罚。需要说明的是，此时奖励数据对应的数值依然为负值。

具体的，可以预先设定第一任务耗时差值区间与数值为负值的奖励数据之间的映射关系。根据第一任务耗时差值所落入的第一任务耗时差值区间对应的为负值的奖励数据，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据。

同理，在本申请的一个可选实施例中，在下一状态的任务耗时大于耗时阈值的情况下，第二负值也可以不为一个固定的常数，第二负值可以与第二任务耗时差值呈负相关关系。其中，第二任务耗时差值为下一状态的任务耗时与预设的耗时阈值之间的差值，在第二任务耗时差值越大的情况下，奖励数据对应的数值越小，以给予更大的惩罚。需要说明的是，此时奖励数据对应的数值依然为负值。

本实施例的技术方案，通过在下一状态的任务耗时和当前状态的任务耗时均小于耗时阈值，且下一状态的任务耗时大于当前状态的任务耗时，则确定奖励数据对应的数值为第一负值；在下一状态的任务耗时大于耗时阈值的情况下，确定奖励数据对应的数值为第二负值；其中，第二负值小于第一负值。如此，在采用资源调整动作对当前资源配置状态参数进行调整后，在下一状态未超时，但下一状态相比于当前状态增加耗时的情况下，以及，在下一状态超时的情况下，给予不同程度的惩罚，可以帮助训练后的资源配置模型评估输出的资源调整动作的好坏，以避免资源配置模型采取不良动作，并促使其学习更加优化的资源配置策略，从而可以有效利用大数据调度平台中的资源对数据处理任务进行资源配置。

在一个实施例中，根据下一资源配置状态参数、当前资源配置状态参数、奖励数据和资源调整动作，对训练后的资源配置模型进行更新，包括：将下一资源配置状态参数、当前资源配置状态参数、奖励数据、资源调整动作以及训练结束判断标志，作为历史经验数据；将历史经验数据放入经验回放池；定时在经验回放池批量选取若干历史经验数据，对训练后的资源配置模型进行更新。

具体实现中，终端在根据下一资源配置状态参数、当前资源配置状态参数、奖励数据和资源调整动作，对训练后的资源配置模型进行更新的过程中，终端可以将下一资源配置状态参数、当前资源配置状态参数、奖励数据、资源调整动作以及训练结束判断标志，作为一组历史经验数据，并将该组历史经验数据放入经验回放池。如此，终端可以定期对训练后的资源配置模型进行参数更新。具体的，终端可以定时在经验回放池批量随机选取若干历史经验数据，对训练后的资源配置模型进行参数更新。

本实施例的技术方案，通过将下一资源配置状态参数、当前资源配置状态参数、奖励数据、资源调整动作以及训练结束判断标志，作为历史经验数据；将历史经验数据放入经验回放池；定时在经验回放池批量选取若干历史经验数据，对训练后的资源配置模型进行更新。如此，由于资源配置模型在连续的时间步中获取的经验样本通常是高度相关的，通过经验回放池存储训练后的资源配置模型与大数据调度平台所处环境交互的经验样本，并定时在经验回放池批量随机选取若干经验样本，可以打破这种关联性，使得用于模型更新的数据更加独立和随机，降低数据之间的相关性，避免过度拟合，提高模型的提高学习效率和稳定性。

在一个实施例中，根据资源调整动作，对当前资源配置状态参数进行调整，包括：采用资源调整动作，对当前资源配置状态参数进行调整，得到下一资源配置状态参数。

具体实现中，终端在根据资源调整动作，对当前资源配置状态参数进行调整的过程中，终端可以采用资源调整动作，对当前资源配置状态参数进行调整，得到下一资源配置状态参数。

具体的，本方案可以将单个数据处理任务的资源配置过程，抽象成强化学习过程，将任务的资源参数(容器数量，单个容器CPU数量，单个容器内存资源)看成系统的状态空间集合S。动作空间A取值为(0，1，-1)，数值意义为资源的调整，正整数为资源增加一个单位(C)，负整数为资源减少一个单位(G)。分别代表容器数量，单个容器CPU数量，单个容器内存，共3种资源的调整。Q为动作奖励函数，S`为动作实施后的状态空间。总体记为：(S，A，Q，S`，D)。其中D为训练结束标志(布尔数据类型)，以表征训练是否结束。

因此，动作空间A一共有3*3*3＝27个候选资源调整动作，即动作向量(a1，a2，a3)一共有27种候选资源调整动作。考虑到状态空间较大，而动作空间的有限性，使用DQN强化学习算法。

使用DQN算法需要维护一个经验回放池(Replay Memory)。

对于动作奖励函数，即Q值使用深度神经网络进行拟合动作价值函数。DQN算法采用经验回放(Experience Replay)方法，即维护一个经验回放池。将每次从环境中采样得到的5元组数据(当前资源配置状态参数、资源调整动作、奖励数据、下一资源配置状态参数、训练结束判断标志)存储在经验回放池中。训练网络的时候再从经验回放池中随机采样若干批次数据来进行训练。

例如从实际案例中的回放池(S，A，Q，S`，D)中抽样一条数据案例如下：

([2,3,10]，[0,1,0]，10，[2,4,10]，False)

经验回放池中数据，初始化值由运维人员根据经验进行配置，上线运行后逐步积累形成。也可以通过对历史(含标签)数据进行批量处理后生成。

具体的工作流程可以如下：

(1)经验回放池数据积累

这个步骤中数据可以在任务上线测试节点收集，或者在任务试运行阶段对数据进行采集。数据产生的逻辑可以是运维人员手动配置调整过程产生。也可以使用e-greedy随机策略产生。采集大数据调度平台上的任务运行数据，批量计算Q值，生成经验回放数据(即历史经验数据)。

(2)使用DQN强化学习算法学习目标网络(使用CNN深度神经网络)参数。

(3)使用训练好的最佳网络，得到训练后的资源配置模型，应用于数据处理任务的资源配置。

需要注意的是目标网络是评估网络训练后获得的最佳网络，其中深度神经网络的输入层的维度，为状态的特征向量维度(为3维)。而输出网络为动作空间的维度(为27维)。

通过深度神经网络训练后(通过深度神经网络来拟合计算Q值的函数)。输出层为每个动作的对应的Q值。

应用强化学习的一个目的，这个过程(目标网络应用阶段)就是一个一直循环下去的动作序列。每次获得一次动作变化，该数据就会作为历史经验数据并汇入回放池中。定期重新训练一次评估网络，然后拷贝更新目标网络。

这个应用中状态即任务的资源配置状态参数。先积攒回放池数据，等到目标网络训练完成。第一次应用目标网络的时候，这时候第一个输出可以认为是初始状态。

如此，使用大数据历史运行数据，基于强化学习自动学习任务的最佳资源配置，动态调整，使得大数据调度平台资源得到高效使用。此外。该算法机制可以内嵌在Yarn、K8s、Mesos等各类计算框架中，使得计算框架具备计算资源智能伸缩机制。并且，该算法可以作为一个智能组件，嵌入在大数据调度平台中，使得大数据调度平台具备智能感知和配置合理的数据处理任务资源。

在另一个实施例中，如图3所示，提供了一种数据处理任务的资源配置方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S302，获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数。

步骤S304，将当前资源配置状态参数输入至训练后的资源配置模型，得到针对数据处理任务的资源调整动作。

步骤S306，采用资源调整动作，对当前资源配置状态参数进行调整，得到下一资源配置状态参数。

步骤S308，根据下一状态的任务耗时、当前状态的任务耗时以及耗时阈值，确定训练后的资源配置模型在输出资源调整动作后得到的奖励数据。

步骤S310，将下一资源配置状态参数、当前资源配置状态参数、奖励数据、资源调整动作以及训练结束判断标志，作为历史经验数据。

步骤S312，将历史经验数据放入经验回放池。

步骤S314，定时在经验回放池批量选取若干历史经验数据，对训练后的资源配置模型进行更新。

需要说明的是，上述步骤的具体限定可以参见上文对一种数据处理任务的资源配置方法的具体限定。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的一种数据处理任务的资源配置方法的数据处理任务的资源配置装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据处理任务的资源配置装置实施例中的具体限定可以参见上文中对于一种数据处理任务的资源配置方法的限定，在此不再赘述。

在一个示例性的实施例中，如图4所示，提供了一种数据处理任务的资源配置装置，包括：获取模块410、输入模块420和调整模块430，其中：

获取模块410，用于获取运行在大数据调度平台上的数据处理任务的当前资源配置状态参数；所述当前资源配置状态参数表征所述数据处理任务在当前状态对应的资源配置状态。

输入模块420，用于将所述当前资源配置状态参数输入至训练后的资源配置模型，得到针对所述数据处理任务的资源调整动作；所述训练后的资源配置模型的优化目标为在采用所述资源调整动作对所述当前资源配置状态参数进行调整后，所述数据处理任务在下一状态的任务耗时小于预设的耗时阈值，且小于所述数据处理任务在所述当前状态的任务耗时。

调整模块430，用于根据所述资源调整动作，对所述当前资源配置状态参数进行调整。

在其中一个实施例中，所述装置还包括：更新模块，用于根据所述下一状态的任务耗时、所述当前状态的任务耗时以及所述耗时阈值，确定所述训练后的资源配置模型在输出所述资源调整动作后得到的奖励数据；根据下一资源配置状态参数、所述当前资源配置状态参数、所述奖励数据和所述资源调整动作，对所述训练后的资源配置模型进行更新；其中，所述下一资源配置状态参数表征所述数据处理任务在所述下一状态对应的资源配置状态。

在其中一个实施例中，所述更新模块，具体用于在所述下一状态的任务耗时小于所述耗时阈值，且所述下一状态的任务耗时小于所述当前状态的任务耗时的情况下，确定所述奖励数据对应的数值为正值。

在其中一个实施例中，所述更新模块，具体用于在所述下一状态的任务耗时和所述当前状态的任务耗时均小于所述耗时阈值，且所述下一状态的任务耗时大于所述当前状态的任务耗时，则确定所述奖励数据对应的数值为第一负值；在所述下一状态的任务耗时大于所述耗时阈值的情况下，确定所述奖励数据对应的数值为第二负值；其中，所述第二负值小于所述第一负值。

在其中一个实施例中，所述更新模块，具体用于在所述下一状态的任务耗时小于所述耗时阈值，所述当前状态的任务耗时大于所述耗时阈值，且所述当前状态的任务耗时小于所述下一状态的任务耗时的情况下，判定存在异常数据；将所述奖励数据对应的数值设置为零。

在其中一个实施例中，所述更新模块，具体用于将所述下一资源配置状态参数、所述当前资源配置状态参数、所述奖励数据、所述资源调整动作以及训练结束判断标志，作为历史经验数据；将所述历史经验数据放入经验回放池；定时在所述经验回放池批量选取若干历史经验数据，对所述训练后的资源配置模型进行更新。

在其中一个实施例中，所述调整模块430，具体用于采用所述资源调整动作，对所述当前资源配置状态参数进行调整，得到所述下一资源配置状态参数。

上述数据处理任务的资源配置装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史经验数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理任务的资源配置方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据处理任务的资源配置方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述下一状态的任务耗时、所述当前状态的任务耗时以及所述耗时阈值，确定所述训练后的资源配置模型在输出所述资源调整动作后得到的奖励数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述下一状态的任务耗时、所述当前状态的任务耗时以及所述耗时阈值，确定所述训练后的资源配置模型在输出所述资源调整动作后得到的奖励数据，包括：

其中，所述第二负值小于所述第一负值。

5.根据权利要求2所述的方法，其特征在于，所述根据所述下一状态的任务耗时、所述当前状态的任务耗时以及所述耗时阈值，确定所述训练后的资源配置模型在输出所述资源调整动作后得到的奖励数据，包括：

将所述奖励数据对应的数值设置为零。

6.根据权利要求2所述的方法，其特征在于，所述根据下一资源配置状态参数、所述当前资源配置状态参数、所述奖励数据和所述资源调整动作，对所述训练后的资源配置模型进行更新，包括：

将所述历史经验数据放入经验回放池；

7.根据权利要求2所述的方法，其特征在于，所述根据所述资源调整动作，对所述当前资源配置状态参数进行调整，包括：

8.一种数据处理任务的资源配置装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。