CN115860363A

CN115860363A - 一种有限需求场景下的资源动态调度适配方法及系统

Info

Publication number: CN115860363A
Application number: CN202211449294.7A
Authority: CN
Inventors: 张聪; 吴帆; 刘元安; 范文浩; 唐碧华
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-11-04
Filing date: 2022-11-18
Publication date: 2023-03-28

Abstract

一种有限需求场景下的资源动态调度适配方法及系统，该方法利用用户资源使用的历史数据对资源使用区域的资源需求的置信区间进行预测，综合考虑了用户在资源区间使用过程中的高度动态性和不确定性，以需求区间的形式来预测用户在需求区域中的需求分布情况，把用户需求预测的点估计问题转化为需求预测的区间预测问题；同时预测模型加入了影响当前区域资源使用外部因素特性，对资源使用区域的用户资源需求情况做出高鲁棒性的精准置信区间预测；本发明实现在总体资源受限和调度能力受限情况下更好的更优地对每个区域的用户资源需求分布情况做出高效的资源调度计划，可以高效稳定的生成资源使用区域的资源调度策略，提高整体资源的有效性适配效率。

Description

一种有限需求场景下的资源动态调度适配方法及系统

技术领域

本申请属于资源调度处理技术领域，具体涉及一种有限需求场景下的资源动态调度适配方法及系统。

背景技术

目前，在部署资源有限和调度能力有限的情况下完成区域间的资源需求调度，是现实生活中很多应用领域面临的一个难题。如实际的物流配送服务中，每个区域中用户配送服务的需求量是动态变化的，在某些条件下用户会出现一些临时的配送需求，如临时的文件和一些用户临时的服务。

实际对各个区域之间资源进行调度和调配的过程中，其对资源的调度能力会受到人力、时间、承载能力等诸多因素的限制。因此，如何在有限的资源和有限的资源调度能力的双重约束下，更好地满足用户对资源的需求，成为亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提出一种有限需求场景下的资源动态调度适配方法及系统，用以解决或部分解决上述技术问题。

基于上述目的，本申请的第一方面提供了一种有限需求场景下的资源动态调度适配方法，包括：

统计资源使用区域内各时段的用户资源使用量，加入影响用户资源使用的外部因素，构建基于深度神经网络的资源使用区域资源需求区间预测模型，通过资源需求区间预测模型对各时段资源使用区域的资源使用需求情况进行预测；

把需要进行资源调度区域的因素划分为静态因素和动态因素，构建基于强化学习理论的马尔科夫双层资源调度策略生成模型，通过双层资源调度策略生成模型对各时资源使用区域的用户资源需求进行平衡调度。

作为有限需求场景下的资源动态调度适配方法优选方案，影响用户资源使用的外部因素包括地理位置、气象特征和时间特征；

用户资源需求区间采用具有预定置信度的用户资源需求预测置信区间表示，使用分位数预测方法预测每个资源使用区域不同时间段的用户资源需求置信区间。

作为有限需求场景下的资源动态调度适配方法优选方案，用户资源使用区域n_i的用户资源需求量的ρ-分位数加权分位数损失函数

定义为：

用户资源使用区域n_i的用户资源需求量的ρ-分位数损失的归一化表达式L_p为：

式中，D_i表示过去时间序列，

表示资源使用区域n_i的资源需求置信度。

作为有限需求场景下的资源动态调度适配方法优选方案，对

处的资源进行配置后得到的资源调度收益/>

的计算公式为：

当

且/>

时，在地点/>

处的第t个时刻资源调度收益分数

表示为：

当

且/>

时，在地点/>

处的第t个时刻的资源调度收益分数/>

表示为：

当

且/>

时，在地点/>

处的第t个时刻的资源调度收益分数

表示为：

式中，

表示最小资源需求量，即资源需求区间预测模型输出的最小分位资源需求值/>

表示最大资源需求量，即资源需求区间预测模型的最大分位资源需求值

表示在地点/>

处的资源调度量，/>

表示t时刻的资源调度量的合法区间；β是当前资源配置满足用户资源需求的资源调度收益增益系数，γ是当前资源配置超出用户资源需求或不满足用户资源需求的收益惩罚系数。

作为有限需求场景下的资源动态调度适配方法优选方案，t时刻资源调度过程中调度能力l_t为：

式中，M表示当前系统初始的最大调度能力。

作为有限需求场景下的资源动态调度适配方法优选方案，基于强化学习理论的马尔科夫双层资源调度策略生成模型包括资源调度任务的马尔科夫双层序列决策过程映射阶段；

资源调度任务的马尔科夫双层序列决策过程映射阶段包括：

马尔科夫双层序列决策过程的状态空间构建；

马尔科夫双层序列决策过程的双层协同动作空间构建；

马尔科夫双层序列决策过程的奖励机制；

无效决策动作的Mask机制。

作为有限需求场景下的资源动态调度适配方法优选方案，无效决策动作的Mask机制包括：

将当前时刻资源配置需求量为零的资源调度区域的动作屏蔽；

如果当前放置资源的调度能力为零，设置资源配置需求量大于零的资源调度区域不允许访问；

如果当前放置资源的调度能力为l_max，设置资源配置需求量小于零的站点被屏蔽不允许访问。

作为有限需求场景下的资源动态调度适配方法优选方案，基于强化学习理论的马尔科夫双层资源调度策略生成模型还包括基于深度强化学习的双层协同资源调度策略输出阶段：

找到资源的最优调度策略

定义每步的资源调度动作/>

在第n步的调度过程中，根据调度环境状态s_n选择最优的资源调度动作，使得整体的资源调度收益最大化；

设计两个深度网络模型

和/>

分别由θ₁和θ₂参数化，用于决定在每个状态s_t选择可用动作的概率/>

其中"；"表示两个向量s_t和/>

的串联；

通过收益函数奖励机制引导调度策略生成模型去接近最优的资源调度策略π^*；其中策略生成函数π_θ(a_t|s_t)由

和/>

两个策略参数函数构成，其最初的θ₁和θ₂参数为随机的参数值，通过构建的资源调度环境对其资源分布状态进行估计同时对动作决策空间进行探索，期望最终找到最佳资源调度决策。

作为有限需求场景下的资源动态调度适配方法优选方案，给出资源调度环境状态向量s_t，两个策略网络

和/>

产生两个编码后动作向量，两个编码后动作向量是soft-max层输出调度决策动作概率分布的形式；

决策调度模型的损失函数包括三部分：截断代理目标函数、熵损失函数和最小化均方误差函数。

本申请的第二方面提供了一种有限需求场景下的资源动态调度适配系统，采用第一方面或其任意可能实现方式的有限需求场景下的资源动态调度适配方法，包括：

资源需求区间预测模块，用于统计资源使用区域内各时段的用户资源使用量，加入影响用户资源使用的外部因素，构建基于深度神经网络的资源使用区域资源需求区间预测模型，通过资源需求区间预测模型对各时段资源使用区域的资源使用需求情况进行预测；

资源调度策略生成模块，用于把需要进行资源调度区域的因素划分为静态因素和动态因素，构建基于强化学习理论的马尔科夫双层资源调度策略生成模型，通过双层资源调度策略生成模型对各时资源使用区域的用户资源需求进行平衡调度。

本申请的第三方面提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或其任意可能实现方式的有限需求场景下的资源动态调度适配方法。

本申请的第四方面提出了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行实现第一方面或其任意可能实现方式的有限需求场景下的资源动态调度适配方法。

从上面所述可以看出，本发明充分利用用户资源使用的历史数据对资源使用区域的资源需求的置信区间进行预测，综合考虑了用户在资源区间使用过程中的高度动态性和不确定性，以需求区间的形式来预测用户在需求区域中的需求分布情况，从而把用户需求预测的点估计问题转化为需求预测的区间预测问题；同时预测模型加入了影响当前区域资源使用的地理位置因素、气象特征因素和假期等时间因素特性，从而可以对资源使用区域的用户资源需求情况做出高鲁棒性的精准置信区间预测；本发明实现了在总体资源受限和调度能力受限情况下更好的更优地对每个区域的用户资源需求分布情况做出高效的资源调度计划，同时在面对复杂多变的资源调度场景，可以高效稳定的生成资源使用区域的资源调度策略，提高整体资源的有效性适配效率。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的有限需求场景下的资源动态调度适配方法示意图；

图2为本发明实施例中的有限需求场景下的资源动态调度适配方法中资源调度任务的马尔科夫双层序列决策过程映射结构；

图3为本发明实施例中的马尔科夫双层资源调度决策的状态集合和可选动作集合示意图；

图4为本发明实施例中的有限需求场景下的资源动态调度适配系统示意图；

图5为本申请实施例的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

相关技术中，主要集中在对需求量十分明确的资源系统优化调度的研究，然而在面对高动态各异化的用户需求，以及高实时性的资源使用过程中可用性和便利性的特征，对用户的需求量进行准确的预测，需要针用户不确定的需求场景进行更多细节特征的采集和感知工作，而更加细粒度的用户需求信息采集会造成更多的资源的浪费和用户隐私信息的采集，这些对精准的用户需求预测带来巨大的挑战。

在部署资源有限和调度能力有限的情况下，完成区域间的资源需求调度，是现实生活中很多应用领域面临的一个难题。如实际的物流配送服务中，每个区域中用户配送服务的需求量是动态变化的，在某些条件下用户会出现一些临时的配送需求，如临时的文件和一些用户临时的服务。因此为了满足城市用户对物流配送资源的动态需求，需要动态的根据用户对物流资源的使用需求调配城市中各个区域的物流资源；如商家发送快递或外卖，用户接收快递和外卖等，需要根据用户的不同需求调配相应的物品配送方案等。实际对各个区域之间资源进行调度和调配的过程中，资源的调度能力会受到人力、时间、承载能力等诸多因素的限制。因此，如何在有限的资源和有限的资源调度能力的双重约束下，更好地满足用户对资源的需求，成为亟待解决的问题。即面对高时空动态性的有限资源分布和受限资源调度能力场景下，如何全面、快速、准确地根据用户需求，对资源进行调度是资源动态调度领域面临的重要问题和挑战。

有鉴于此，本发明在有限资源部署的场景下提出了向用户动态资源需求的用户资源需求区间预测模型，同时针对用户的需求区间的动态化调度场景，设计了基于用户需求区间的资源调度策略生成模型，与现有的资源调度方法相比，其不仅需要决策每一步需要进行资源调度的区域，同时也需要决策当前调度需求需要配置的资源数量，以使调度系统的资源可以更加适配当前的用户资源需求。即本发明在有限资源部署的场景下，根据用户资源需求对有限的资源进行匹配调度业务，面对时空动态变化的资源分布与用户需求，实现实时适配问题，即全面、快速、准确地根据用户需求对资源进行动态调度是本发明重点解决的问题。以下为本发明实施例的具体内容。

参见图1，本发明实施例提供一种有限需求场景下的资源动态调度适配方法，包括以下步骤：

步骤S1：预测资源使用区域各时段的用户资源需求区间：

由于用户资源使用的个性化和不确定的资源使用方式，资源的使用可以在城市的任何位置。这些导致不同地区用户的资源需求通常是高度动态的，并且在时间和空间上都发生了变化。因此，根据用户各时段的资源使用历史数据和一些影响用户需求的外部因素数据，设计资源使用区域各时段的用户资源需求区间预测模型。目的是针对用户需求各异化的不确定性，分析预测用户资源需求情况的最大需求情况和的最小需求情况，即使用用户需求区间的预测来描述用户需求的上下限，从而为后续的资源调度决策任务提供服务和数据支持，使其可以更好地在有限资源部署和有限调度能力条件下支持用户资源需求的调度，提高资源的综合利用率和用户资源需求满意度。

本实施例中，资源使用区域的用户资源需求不仅和其自身的历史需求数据有关，还与其相邻区域的历史需求数据存在关联性，同时资源的需求情况也会受多种复杂因素的影响，包括其地理位置、气象特征、时间特征(一天中的高峰或正常时间、一天中的某个小时、一周中的哪一天、假日或工作日、月中的一周、季节中的月份)等。资源使用区域的用户资源需求区间预测问题，可以定义为用户资源使用区域中用户资源需求的分位数预测。

具体的，首先使用

表示t时刻所有资源使用区域的用户资源需求值。De＝(De¹,De²,…,De^τ)^T∈R^N×τ表示以上所有资源使用区域的在τ个时间段的用户资源需求值。使用/>

来表示/>

的t期间的气象和时间特征等影响需求的外部因素变量，其中，M是外部因素变量特征的总特征数。给定过去时间序列/>

和外部因素变量/>

其中τ+1是预测的开始时间点，/>

表示从τ+1到T时刻资源使用区域i的用户资源需求数量，/>

代表过去τ时间片中区域i用户资源需求。

用户资源需求区间采用具有一定置信度的用户资源需求预测置信区间表示，使用分位数预测方法预测每个资源使用区域不同时间段的用户资源需求置信区间，其中，置信区间的上下线分别表示高分位数预测值和低分位数预测值，用户资源使用区域n_i的资源需求置信区间可以表示为

用户资源使用区域n_i在预测时间跨度内的目标值表示为/>

其中(B,B+E)是预测的时间跨度范围D_i(B,E)的ρ-分位数预测值为/>

其中，分位数ρ∈(0,1)。

具体的，用户资源使用区域n_i的用户资源需求量的ρ-分位数加权分位数损失函数定义为公式(1)：

则用户资源使用区域n_i的用户资源需求量的ρ-分位数损失的归一化表达式为公式(2)：

然后，根据梯度下降法对该函数进行优化求解，即得用户资源使用区域的资源需求区间。

步骤S2：资源动态调度策略生成：

本实施例中，基于用户需求置信区间的调度收益评估方法以及总体调度收益评估方法：资源调度后的分布对用户资源需求满足的情况会直接影响用户资源使用满意度，因此本发明对资源调度过程的资源调度收益进行如下设计：

假设用M表示当前系统初始的最大调度能力，l_t为t时刻的调度能力，

表示在地点/>

处t时刻的用户资源需求量的区间值，其中，/>

表示最小资源需求量即需求区间预测模型输出的最小分位资源需求值/>

表示最大资源需求量即需求区间预测模型的最大分位资源需求值/>

表示在地点/>

处的资源调度量，/>

表示t时刻的资源调度量的合法区间。则对/>

处的资源进行配置后得到的资源调度收益/>

的计算公式定义如下：

当

且/>

时，在地点/>

处的第t个时刻资源调度收益分数

表示为公式(3)：

当

且/>

时，在地点/>

处的第t个时刻的资源调度收益分数/>

表示为公式(4)：

当

且/>

时，在地点/>

处的第t个时刻的资源调度收益分数

表示为公式(5)：

式中，

表示最大资源需求量，即资源需求区间预测模型的最大分位资源需求值/>

表示在地点/>

处的资源调度量，/>

由上述公式的定义可知资源调度收益

是对当前资源调度场景下每个用户需求区域资源配置量与用户资源需求区间匹配程度的一种度量方式。

具体的，t时刻资源调度过程中调度能力l_t可以由以下公式(6)计算得到：

假设根据用户对资源需求的m个资源调度区域进行T个时间段的资源调度，用l_t表示t时刻系统的资源调度能力，

表示在地点/>

处t时刻公共资源的需求区间，

表示在资源调度过程中受实际约束条件的影响在地点处/>

的实际资源调度收益。根据用户需求区间的资源调度决策配置问题的优化目标为在资源调度能力受限的情况下最大化资源调度收益，其调度优化问题的数学模型可以表示为公式(7)：/>

本发明实施例的目标是在有限资源分布、有限资源调度成本和有限调度能力的情况下，根据用户资源需求的分布情况最大化资源调度总收益，即根据用户动态需求区间的变化最大化用户需求的满意度和资源调度整体收益。

本实施例中，基于双层决策强化学习理论的资源调度策略生成模型，根据用户在各资源使用区域的资源需求置信区间、资源使用区域的位置数据和当前资源调度能力数据，设计资源动态调度任务的马尔科夫决策模型。为了实现资源调度任务到马尔科夫决策过程的映射，使资源任务调度过程可以转化为调度序列决策的问题，本发明实施例的基于马尔科夫双层序列决策的资源调度策略生成模型分为：S21资源调度任务的马尔科夫双层序列决策过程映射和S22基于深度强化学习的双层协同资源调度策略输出两个阶段。

具体的，第一阶段S21资源调度任务的马尔科夫双层序列决策过程映射：针对需求区间的调度决策问题，可以把该问题转换成双层序列决策问题，进而建模成双层马尔可夫决策问题。即把资源配置问题转化为在哪些区域配置资源和在选定区域部署多少资源的问题。马尔科夫双层序列决策过程映射的主要思想为，依据用户资源的需求区间对公共资源进行调度时，期望根据资源分布场景和用户需求区间学习到在当前环境下应该采取的最优资源调度动作，以使整体的资源调度收益最大化。即马尔科夫双层序列决策过程可以定义为一个离散时间随机控制过程。如图2所示，通过将资源调度策略模型视为“代理”，通过访问不同的资源分布区域和用户的资源需求区间，决策当前需要进行资源调度的区域和资源区域中需要配置的资源数量。马尔科夫双层序列建模过程如下：

S211：马尔科夫双层序列决策过程的状态空间构建：

马尔科夫双层序列决策过程的状态集合如图3所示，状态s_n∈S是由资源调度问题的资源配置区域的空间位置坐标Sⁱ＝(xⁱ,yⁱ)表示以及每个地理空间资源配置的最小资源需求、最大资源需求、当前资源调度能力、当前调度资源位置和剩余的调度成本过程的变量

表示。即/>

将其表示为t时刻的状态向量。

S212：马尔科夫双层序列决策过程的双层协同动作空间构建：

马尔科夫双层序列决策过程的双层协同动作空间如图3所示，动作a_n表示在当前资源调度状态s_n条件下，决定所选择的资源调度区域和当前区域内需要配置的资源量。设

和/>

分别表示可以进行资源调度区域的集合和在该调度区域适配的资源数量集合，其中n_k和l_k分别表示在第k步资源调度过程中选择的资源调度区域和该区域的资源调度量。在资源调度过程中合并两个决策动作，则第k步的动作空间，可以表示为/>

其中，a_k包括n_k和l_k的所有可能的/>

种组合，其中，/>

和/>

表示动作集/>

和/>

的大小，其中，N是所有资源调度的区域，l_max是调度资源的最大调度能力绝对值。

如图3所示，一个动作a_n∈A是一个资源调度选择决策，使用两个关联的动作来表示；第一个动作

是选择要进行资源调度的区间位置，它由一个长度为N的向量表示；第二个动作/>

是在采取调度动作/>

后，在其条件下选择需要调度的资源数量，动作/>

由长度为H的向量表示。在每一步资源调度过程中，为了在训练阶段保持模型的探索能力，对当前每个动作向量的概率分布进行采样，其向量位置作为当前两个调度动作的索引。在模型测试阶段，选择这两个向量中最大概率值的位置作为当前两个调度动作索引。例如，假设调度动作/>

和/>

的当前动作索引是/>

和/>

其中/>

表示当前调度决策下选择访问的资源配置位置，/>

表示需要在当前资源配置位置下需要配置资源的数量。如果/>

则表示调度走/>

数量的资源，否则，则表示调度来/>

数量的资源。

S213马尔科夫双层序列决策过程的奖励机制：

马尔科夫双层序列决策过程的奖励机制主要包括每进行一步资源调度动作后得到的及时奖励，和在完成一个阶段的资源调度任务后对所有调度区域的整体收益情况的奖励。其中，及时奖励指资源调度过程中资源调度动作的及时收益，即在状态s_n∈S下采取调度行动a_n并导致下一个状态s_n+1后得到的及时奖励机制，其定义如下：

当

且/>

则及时奖励函数可以定义为公式(8)：

当

时，奖励函数定义为公式(9)：

其中，

是对无效调度动作的惩罚评价值。

具体的，阶段奖励函数定义为ST_R(s_n)，表示在完成一段时间内的资源调度决策后，对所有资源调度区域整体资源调度收益的奖励评价。其可以通过公式(10)得到：

其中

和/>

是调节系数，用于调整奖励函数的整体范围，该问题的目标是最大化长期奖励，使资源调度过程中的所有区域整体的资源收益得分最大化。

S214无效决策动作的Mask机制：

如图3所示，本发明实施例设计一个马尔科夫双层序列决策过程中特定的无效决策动作的Mask方案，其可以将在生成调度动作决策中不可行的调度动作屏蔽掉，具体实现方式为令无效策略选择动作的条件概率

以便更快地生成可行的资源调度决策解决方案。/>

Mask机制方案如下所示：(1)将当前时刻资源配置需求量为零的资源调度区域的动作屏蔽；(2)如果当前放置资源的调度能力为零(即可以回收冗余的资源而不能调度缺失的资源)，则设置资源配置需求量大于零的资源调度区域不允许访问；(3)如果当前放置资源的调度能力为l_max(即可以度缺失的资源而不能回收冗余的资源)，则设置资源配置需求量小于零的站点被屏蔽不允许访问。

具体的，第二阶段S22基于深度强化学习的双层协同资源调度策略输出过程，基于深度强化学习的双层协同资源调度策略输出模型，其主要思想是找到资源的最优调度策略

定义每步的资源调度动作/>

即期望在第n步的调度过程中，根据调度环境状态s_n选择最优的资源调度动作，使得整体的资源调度收益最大化。本发明实施例设计了两个深度网络模型/>

和/>

其中"；"表示两个向量s_t和/>

的串联。通过收益函数奖励机制来引导调度策略生成模型去接近最优的资源调度策略π^*。其中策略生成函数π_θ(a_t|s_t)由/>

和/>

两个策略参数函数构成，其最初的θ₁和θ₂参数为随机的参数值，然后通过构建的资源调度环境对其资源分布状态进行估计同时对动作决策空间进行探索，期望其最终可以找到最佳资源调度决策。其资源调度决策动作的随机性随着训练过程的进行而逐渐降低。策略生成模型的目标是使资源调度策略π接近最优调度策略π^*，这样可以在满足实际问题约束的同时最大化资源调度的整体收益期望。

具体的，给出资源调度环境状态向量s_t，通过两个策略网络

和

来产生两个编码以后动作向量。这两个向量是由soft-max层输出其调度决策动作概率分布的形式，例如/>

和/>

其中

和/>

然后根据相应的概率分布情况选择相应的决策动作/>

和/>

其中，/>

代表当前选定的资源调度区域，/>

代表当前调度状态s_t和上一层/>

调度动作下，在选定调度区域中调度的资源数量，其中的Mask机制是限制不合理调度区域/>

的动作空间和不合理的资源调度量/>

的动作空间。其中决策调度模型的损失函数定义为公式(11)：

其中，损失函数

包括三部分，第一部分/>

表示截断代理目标函数，其可以通过公式(12)计算得到：

/>

具体的，截断代理目标函数

中设置了两个限制条件，第一个限制是对两个决策动作生成网络中的新旧策略的概率比r_t(θ₁)和r_t(θ₂)之和的限制。其比例总和将限制在[1-ε,1+ε]，保证两个策略生成网络的每次更新不会有太大的波动。第二个限制是取最小值函数，选择一个较低的值作为结果，其含义为：如果模型可以更好地优化其较低的值，那么模型在其他情况下也会表现得更好。其中ε∈(0,1)是预设参数，定义r_t(θ₁)+r_t(θ₂)的上下限间隔为[1-ε,1+ε]。其中概率比r_t(θ₁)和r_t(θ₂)的定义为公式(13)和公式(14)：

具体的，

表示从策略函数/>

中选择决策动作

的优势函数值。如果/>

表示决策动作a_t将导致更好的预期总回报。此处采用广义优势估计GAE，如公式(15)所示：

其中，δ_t是采用单步的时间差值TD估计，其可以由公式(16)得到：

价值函数

用于估计在状态s_t从第t步调度开始到资源调度完成后可以获得的预期总奖励。可以由公式(17)计算得到：

中的参数φ将通过公式(18)所示的最小化均方误差函数得到：

具体的，为了保证对资源调度决策空间的充分探索，在目标函数中加入了熵损失函数

其定义为公式(19)：

通过加入最大化熵损失函数

项，会增加来自策略函数π_θ的决策采样的随机性，更有利于对调度决策空间的探索。因此引入最大化熵损失函数/>

项以在特定状态下尝试不同的决策，其中权重/>

是为了平衡决策空间的探索和利用之间的权衡，随着训练过程的进行，权重逐渐减小，以便在以后的迭代中减少探索，增加利用，以确保收敛。

具体的，

和/>

如下式所示，将通过最小化均方误差函数

迭代更新，表示公式(20)：

通过训练得到两个资源调度决策的深度网络模型

和/>

分别用来生成需求调度的需求区域和该区域需要调度的资源数量，即生成双层协同资源调度策略/>

从而实现资源调度系统的整体资源利用率和优化用户资源需求的满意度。

综上所述，本发明充分利用用户资源使用的历史数据对资源使用区域的资源需求的置信区间进行预测，设计基于深度学习网络模型的用户资源需求区间预测模型，相较于传统的时间序列预测方法，综合考虑了用户在资源区间使用过程中的高度动态性和不确定性以需求区间的形式来预测用户在需求区域中的需求分布情况，从而把用户需求预测的点估计问题转化为需求预测的区间预测问题。同时预测模型加入了影响当前区域资源使用的地理位置因素、气象特征因素和假期等时间因素特性从而可以对资源使用区域的用户资源需求情况做出高鲁棒性的精准置信区间预测。本发明在总体资源有限场景下的，基于用户需求置信区间的调度收益评估方法以及总体调度收益评估方法，同时基于双层决策强化学习理论的资源动态调度策略生成模型，极大的突破了在总体资源受限和调度能力受限情况下，如何更好更优地对每个区域的用户资源需求分布情况做出高效的资源调度计划。同时在面对复杂多变的资源调度场景可以高效稳定的生成资源使用区域的资源调度策略，提高整体资源的有效性适配效率。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

参见图4，基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种有限需求场景下的资源动态调度适配系统，采用上述实施例或其任意可能实现方式的有限需求场景下的资源动态调度适配方法，包括：

资源需求区间预测模块1，用于统计资源使用区域内各时段的用户资源使用量，加入影响用户资源使用的外部因素，构建基于深度神经网络的资源使用区域资源需求区间预测模型，通过资源需求区间预测模型对各时段资源使用区域的资源使用需求情况进行预测；

资源调度策略生成模块2，用于把需要进行资源调度区域的因素划分为静态因素和动态因素，构建基于强化学习理论的马尔科夫双层资源调度策略生成模型，通过双层资源调度策略生成模型对各时资源使用区域的用户资源需求进行平衡调度。

其中，资源调度策略生成模块2包括双层序列决策过程映射子模块21和双层协同资源调度策略输出子模块22。其中，双层序列决策过程映射子模块21包括状态空间构建子模块211、双层协同动作空间构建子模块212、奖励子模块213和无效决策动作处理子模块214。

其中，双层序列决策过程映射子模块21的用途对应上述步骤S21，双层协同资源调度策略输出子模块22的用途对应上述步骤S22，状态空间构建子模块211的用途对应上述步骤S211，双层协同动作空间构建子模块212的用途对应上述步骤S212，奖励子模块213的用途对应上述步骤S213，无效决策动作处理子模块214的用途对应上述步骤S214。

上述实施例的系统用于实现前述任一实施例中相应地有限需求场景下的资源动态调度适配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的有限需求场景下的资源动态调度适配方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应地有限需求场景下的资源动态调度适配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的有限需求场景下的资源动态调度适配方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的有限需求场景下的资源动态调度适配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。