CN109445947A

CN109445947A - 资源的分配处理方法、装置、设备及存储介质

Info

Publication number: CN109445947A
Application number: CN201811321302.3A
Authority: CN
Inventors: 孙木鑫
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-08
Anticipated expiration: 2038-11-07
Also published as: CN109445947B

Abstract

本申请提供一种资源的分配处理方法、装置、设备及存储介质，该方法包括：获取当前资源状态及预设决策集合中各决策当前被采用次数；基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策；根据所述目标资源分配决策进行资源的分配处理。通过在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

Description

资源的分配处理方法、装置、设备及存储介质

技术领域

本申请涉及云计算技术领域，尤其涉及一种资源的分配处理方法、装置、设备及存储介质。

背景技术

随着云技术的兴起，各企业云服务的发展模式逐渐完善，云服务被运用到各种不同的应用场景。

面对企业云服务业务跨越式发展及多变环境下带来的机遇和挑战，企业在成本和资源优化方面面临较大压力。因此，自动化的对云环境资源进行升级或降级，减少系统资源消耗成为云环境面临的重要问题。

现有技术中，采用强化学习Q-learning算法来解决资源分配问题。但是，在云资源分配问题上，现有的强化学习算法存在着训练学习容易陷入局部循环，导致采取的决策可能并不是最优的决策，造成资源的浪费。

发明内容

本申请提供一种资源的分配处理方法、装置、设备及存储介质，以解决现有技术资源分配容易造成资源浪费等缺陷。

本申请第一个方面提供一种资源的分配处理方法，包括：

获取当前资源状态及预设决策集合中各决策当前被采用次数；

基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策；

根据所述目标资源分配决策进行资源的分配处理。

进一步地，所述当前资源状态包括当前资源配置状态、当前资源消耗状态及当前时间状态；所述预设决策集合包括至少两种预设决策；

所述基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，包括：

基于所述当前资源配置状态、所述当前资源消耗状态、所述当前时间状态、所述预设决策集合中各决策当前被采用次数，采用所述预设决策选择规则，从所述预设决策集合中确定至少一个决策作为所述目标资源分配决策。

进一步地，所述基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，包括：

遍历所述预设决策集合中的决策，获取使Q(S,a)-log(count(S,a))最大的决策a作为所述目标资源分配决策；

其中，S表示当前资源状态，a表示决策，Q(S,a)表示当前资源状态S下采用决策a的Q值，即累积奖励值，count(S,a)表示决策a当前被采用次数，即在与当前资源状态一致的资源状态下采用了决策a的次数，log(count(S,a))表示对count(S,a)取对数。

进一步地，在根据所述目标资源分配决策进行资源的分配处理之后，所述方法还包括：

获取当前Q值矩阵，当前Q值矩阵中每个Q值表征了相应时间状态采用相应决策的累积奖励值；

根据所述当前Q值矩阵中，所述当前资源状态的后一资源状态对应的最大Q值，获取所述当前时间状态下采用所述目标资源分配决策所对应的新Q值；

根据所述新Q值更新所述Q值矩阵，并将所述目标资源分配决策的当前被采用次数加1获得所述目标资源分配决策的新当前被采用次数，所述目标资源分配决策的当前被采用次数为在与所述当前时间状态一致的历史时间状态采用所述目标资源分配决策的次数。

进一步地，根据所述当前Q值矩阵中，所述当前资源状态的后一资源状态对应的最大Q值，获取所述当前时间状态下采用所述目标资源分配决策所对应的新Q值，包括：

获取所述当前时间状态采用所述目标资源分配决策所对应的决策奖励R；

根据所述当前Q值矩阵中，所述当前资源状态的后一资源状态对应的最大Q值、所述决策奖励R及预设奖励传递参数γ，确定所述新Q值。

进一步地，获取所述当前时间状态采用所述目标资源分配决策所对应的决策奖励R，包括：

根据决策后的新资源状态，确定所述决策奖励R。

进一步地，所述新资源状态包括新资源配置状态、新资源消耗状态及新时间状态，所述新资源配置状态包括新网络带宽及新磁盘容量，所述新资源消耗状态包括新网络负载及新磁盘消耗；

所述根据决策后的新资源状态，确定所述决策奖励R，包括：

根据所述新网络带宽、所述新磁盘容量、所述新网络负载及所述新磁盘消耗，采用如下公式确定所述决策奖励R：

R(S',a)＝-(nb+ds)-([nl*10>nb]+[dc*2>ds])*P

其中，S'表示所述新资源状态，a表示采取的目标资源分配决策，nb表示新网络带宽,ds表示新磁盘容量，nl表示新网络负载，dc表示新磁盘消耗，P表示预设程度参数，[nl*10>nb]表示nl*10>nb是真或假，真为1，假为0；[dc*2>ds]表示dc*2>ds是真或假，真为1，假为0。

进一步地，所述根据所述当前Q值矩阵中，所述当前资源状态的后一资源状态对应的最大Q值、所述决策奖励R及预设奖励传递参数γ，确定所述新Q值，包括；

根据所述当前Q值矩阵中，所述当前资源状态的后一资源状态对应的最大Q值、所述决策奖励R及预设奖励传递参数γ，采用如下公式确定所述新Q值：

Q_new＝R+Q'_max*γ

其中，Q_new表示所述新Q值，Q'_max表示所述后一资源状态对应的最大Q值。

本申请第二个方面提供一种资源的分配处理装置，包括：

获取模块，用于获取当前资源状态及预设决策集合中各决策当前被采用次数；

确定模块，用于基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策；

处理模块，用于根据所述目标资源分配决策进行资源的分配处理。

进一步地，所述当前资源状态包括当前资源配置状态、当前资源消耗状态及当前时间状态；所述预设决策集合包括至少两种预设决策；所述确定模块，具体用于：

进一步地，所述确定模块，具体用于：

进一步地，所述处理模块，还用于：

进一步地，所述处理模块，具体用于：

根据决策后的新资源状态，确定所述决策奖励R。

进一步地，所述新资源状态包括新资源配置状态、新资源消耗状态及新时间状态，所述新资源配置状态包括新网络带宽及新磁盘容量，所述新资源消耗状态包括新网络负载及新磁盘消耗；所述处理模块，具体用于：

R(S',a)＝-(nb+ds)-([nl*10>nb]+[dc*2>ds])*P

进一步地，所述处理模块，具体用于：

Q_new＝R+Q'_max*γ

本申请第三个方面提供一种资源的分配处理设备，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现第一个方面提供的方法。

本申请第四个方面提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一个方面提供的方法。

本申请提供的资源的分配处理方法、装置、设备及存储介质，通过基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，并根据目标资源分配决策进行资源的分配处理，在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的资源的分配处理方法的流程示意图；

图2为本申请一实施例提供的资源的分配处理装置的结构示意图；

图3为本申请一实施例提供的资源的分配处理设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请所涉及的名词进行解释：

资源状态：是指资源的配置情况及消耗情况，资源的消耗情况可能在不同时间状态下具有一定的周期性一致情况，比如在每天的同一时间段，资源的消耗情况一致(是指消耗趋势或大体情况一致)，比如在某时间段资源消耗比较大，而在另一时间段，资源消耗比较小等等。因此将系统的资源，按照不同资源状态进行不同的分配。对于某一资源状态，其可以包括当时的资源配置状态、资源消耗状态及当时的时间状态，比如资源配置状态可以包括配置的网络带宽、磁盘容量，资源消耗状态可以包括当时的网络负载及磁盘消耗。时间状态即是指当时所处的时间段。

时间状态一致：是指按照预设的资源状态循环周期，不同周期中相同的时间段，比如预设资源状态循环周期为1天，把每天分成12个时间段，则对应12个资源状态，也即对应12个时间状态，那么每天的相同时刻对应的时间状态一致。比如，0点-2点为第一资源状态，2点-4点为第二资源状态，以此类推，22点-24点(即0点)为第十二资源状态。那么每天的第一资源状态为时间状态一致的资源状态。当然循环周期也可以是1周、1个月等等，具体可以根据实际需求设置。

强化学习算法：强化学习就是通过智能体(本申请中指资源的分配处理设备)，也就是动作(或决策)的发起者，对环境(本申请中指云资源环境)造成一个影响，环境接受该动作后状态(本申请中指资源状态)发生变化，同时产生一个强化信号(奖励或惩罚)反馈给智能体，智能体根据强化信号和环境当前状态再选择下一个动作(决策)，选择的原则是使受到正强化(奖)的概率增大(本申请中是尽量减少资源浪费)。选择的决策不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。本申请中决策可以包括增加网络带宽、减少网络带宽、增加磁盘容量及减少磁盘容量等决策。

本申请实施例提供的资源的分配处理方法，适用于云系统中，对云系统中的云资源进行分配处理。该云系统可以是应用于任何场景的云系统。采用本申请实施例提供的资源的分配处理方法，按照预设的规则不断进行云资源的分配处理，以根据当时需求增加资源或减少资源，有效减少资源浪费。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

本实施例提供一种资源的分配处理方法，用于对云资源进行分配处理。本实施例的执行主体为资源的分配处理装置，该装置可以设置在资源的分配处理设备中，资源的分配处理设备可以为服务器、终端设备等计算机设备。

如图1所示，为本实施例提供的资源的分配处理方法的流程示意图，该方法包括：

步骤101，获取当前资源状态及预设决策集合中各决策当前被采用次数。

具体的，可以预先设置资源状态循环周期，比如1天、1周、一个月等等，具体可以根据实际需求设置。每个周期内可以按时间划分不同的资源状态，比如以1天为一个循环周期，将1天24个小时划分成4个、6个、8个等数量的资源状态，以4个为例，0点-6点为第一资源状态，6点到12点为第二资源状态，12点-18点为第三资源状态，18点-24点(即0点)为第四资源状态。可以预先设置触发机制，比如每到0点、6点、12点、18点等时刻，则进行一次资源的分配处理，具体触发机制也可以根据实际需求设置。当然，这里只是示例性的说明，并非对其限定，具体划分可以根据实际需求进行设置，比如也可以是0点-10点为一个资源状态，10点-18点为一个资源状态，18点-24点(即0点)为一个资源状态。

当到达触发机制的相应时刻需要进行资源的分配处理时，则获取当前资源状态及预设决策集合中各决策当前被采用次数，当前资源状态可以包括当前资源配置状态、当前资源消耗状态以及当前时间状态(或者当前资源状态的标识)。当前资源配置状态可以包括当前配置的当前网络带宽、当前磁盘容量等，当前资源消耗状态可以包括当前网络负载、当前磁盘消耗等。

预设决策集合可以包括增加带宽、增加磁盘容量、减少带宽、减少磁盘容量等决策中的至少两种决策，具体的决策可以根据实际需求设置，本实施例不限于上述四种决策。各决策当前被采用次数是指在与当前资源状态一致的资源状态下采用了该决策的次数，示例性的，有X、Y、Z、W四种决策，在第1天的第一资源状态采用了决策X，那么，若当前资源状态为第2天的第一资源状态，决策X当前被采用次数即为1次，若第2天的第一资源状态又采用了决策X，则若当前资源状态为第3天的第一资源状态，则决策X的当前被采用次数为2次。以此类推，每个资源状态下采用了一种决策，这种决策在该资源状态下的被采用次数累积增加。

步骤102，基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策。

具体的，在获取到当前资源状态及预设决策集合中各决策当前被采用次数后，则可以基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策。

预设决策选择规则中考虑了强化学习Q-learning算法中的Q值，并且结合了当前资源状态下各决策当前被采用次数，将决策的当前被采用次数考虑到环境奖励函数中，具体的可以以-log(count(S,a))作为环境奖励函数中添加的因素，其中，count(S,a)即表示在资源状态S下决策a的被采用次数。该部分因素对于那些反复遍历的决策的奖励值很小，对于那些没有访问的决策奖励值较大，可以避免在不断循环过程中，陷入局部决策路径循环。比如，在一个循环周期中，若有4个资源状态S1-S4，预设决策集合包括X、Y、Z、W，仅考虑Q值，可能会陷入一种固定的决策路径，比如每天的第一资源状态S1采用决策X，第二资源状态S2采用决策W，第三资源状态S3采用决策Y，第四资源状态S4采用决策Z，每天的各资源状态都陷入了采用固定的决策，即陷入了局部循环，很难跳出。增加了各决策的被采用次数因素之后，可以在决策时对未访问的决策提高奖励，使得决策时能够跳出采用固定的决策的循环，重新探索其他决策路径。

其中，Q值是指在该资源状态下，采用相应决策的累积奖励值，累积奖励值并不是奖励值的简单叠加，还可以是进行一定的奖励传递参数计算，具体可以根据实际需求设置。

示例性的，可以遍历预设决策集合中的决策，获取使Q(S,a)-log(count(S,a))最大的决策a作为目标资源分配决策。其中，S表示当前资源状态，a表示决策，Q(S,a)表示当前资源状态S下采用决策a的Q值，即累积奖励值，count(S,a)表示决策a当前被采用次数，即在与当前资源状态一致的资源状态下采用了决策a的次数，log(count(S,a))表示对count(S,a)取对数。对于log的底数可以根据实际需求设置，比如可以是10、15、20等等。

可选地，count(S,a)在决策中的作用方式不限于-log(count(S,a))，只要能够提高当前资源状态下未被采用的决策的奖励，而对反复遍历的决策的影响较小即可。

步骤103，根据目标资源分配决策进行资源的分配处理。

在确定了目标资源分配决策后，则根据目标资源分配决策进行资源的分配处理。比如目标资源分配决策为增加网络带宽，则进行增加网络带宽处理。

示例性的，当前资源状态为第二资源状态(6点-12点)，确定的目标资源分配决策为增加磁盘容量，则增加云资源的磁盘容量。

可以理解的，该资源的分配处理方法是不断学习不断决策的过程，每次在一个资源状态下采用了目标资源分配决策之后，需要采用Q-learning算法更新Q值及各资源状态下各决策的当前被采用次数，为下一个循环周期做准备。

可以理解地，各资源状态下采取不同决策所对应的Q值可以以Q值矩阵来维护，Q值矩阵为m*n的矩阵，m表示资源状态的数量，即一个周期内划分的资源状态的数量，n表示每个资源状态下可选择的决策的数量。

示例性的，仍以1天为例，Q值矩阵为一天内不同资源状态下，不同决策对应的效用值，比如1天划分为4个资源状态，0点-6点为第一资源状态，6点到12点为第二资源状态，12点-18点为第三资源状态，18点-24点(即0点)为第四资源状态，每个资源状态下，可选择的决策包括增加带宽X、增加磁盘容量Y、减少带宽Z、减少磁盘容量W四种，在不同资源状态下，各决策的具体增加或减少的数量可以相同，也可以不同。则Q为4*4的矩阵，每行代表一个资源状态，第一行代表第一资源状态，第二行代表第二资源状态，第三行代表第三资源状态，第四行代表第四资源状态，每列代表一种决策，比如第一列代表决策X，第二列代表决策Y，第三列代表决策Z，第四列代表决策W，则Qij则表示在第i资源状态下采用第j决策的累积奖励值。

若当前时间状态为6点，即当前资源状态为第二资源状态，则其对应的Q值为{Q21Q22Q23Q24}，即在第二资源状态下采用四种决策分别对应四个Q值。在当前资源状态(第二资源状态)下采用了目标资源分配决策(比如采用的是决策Y)后，需要更新Q值矩阵中当前资源状态对应的Q值，即Q22，以及将当前资源状态下采用目标资源分配决策的次数加1，即在第二资源状态下决策Y的当前被采用次数加1，若原来在第二资源状态下决策Y被采用次数为10，更新后为11。那么在后一天的循环周期中，再到达第二资源状态时，决策Y的当前被采用次数即为11。

本实施例提供的资源的分配处理方法，通过基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，并根据目标资源分配决策进行资源的分配处理，在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

实施例二

本实施例对实施例一提供的方法做进一步补充说明。

作为一种可实施的方式，在上述实施例一的基础上，可选地，当前资源状态包括当前资源配置状态、当前资源消耗状态及当前时间状态；预设决策集合包括至少两种预设决策；步骤102具体可以包括：

基于当前资源配置状态、当前资源消耗状态、当前时间状态、预设决策集合中各决策当前被采用次数，采用预设决策选择规则，从预设决策集合中确定至少一个决策作为目标资源分配决策。

作为另一种可实施的方式，在上述实施例一的基础上，可选地，步骤102具体可以包括：

步骤1021，遍历预设决策集合中的决策，获取使Q(S,a)-log(count(S,a))最大的决策a作为目标资源分配决策。

示例性的，当前资源状态为第二资源状态(6点-12点)，则其对应的Q值为{Q21Q22Q23Q24}，即在第二资源状态下采用X、Y、Z、W四种决策分别对应四个Q值X-Q21，Y-Q22,Z-Q23，W-Q23。则遍历预设决策集合A中的决策X、Y、Z、W，为了统一表示，用a表示各决策，为了区分，用a_m表示使Q(S,a)-log(count(S,a))最大的决策a：

a_m＝argmax(Q(S,a)-log(count(S,a)))

其中，a_m＝argmax(Q(S,a)-log(count(S,a)))即表示a_m满足Q(S,a_m)-log(count(S,a_m))为Q(S,a)-log(count(S,a))的最大值。

在一些实施方式中，可选地，还可以获取随机参数ε,预设决策集合包括至少两种决策；相应地，步骤102具体可以包括：

获取随机值r；

若r<ε，则从预设决策集合中随机选择一种决策作为目标资源分配决策；

若r≥ε，则遍历预设决策集合中的决策，获取使Q(S,a)-log(count(S,a))最大的决策a作为目标资源分配决策；

随机值r可以采用现有的任意生成随机值的方式获取。预设决策集合可以包括增加带宽、增加磁盘容量、减少带宽、减少磁盘容量等决策中的至少两种决策。随机参数ε可以为0.1或0.1左右，具体可以根据实际情况进行设置。

可选地，在步骤103之后，该方法还可以包括

步骤2011，获取当前Q值矩阵，当前Q值矩阵中每个Q值表征了相应时间状态采用相应决策的累积奖励值；

步骤2012，根据当前Q值矩阵中，当前资源状态的后一资源状态对应的最大Q值，获取当前时间状态下采用目标资源分配决策所对应的新Q值；

步骤2013，根据新Q值更新Q值矩阵，并将目标资源分配决策的当前被采用次数加1获得目标资源分配决策的新当前被采用次数，目标资源分配决策的当前被采用次数为在与当前时间状态一致的历史时间状态采用目标资源分配决策的次数。

具体的，在根据目标资源分配决策进行资源的分配处理之后，即在采取了决策之后，需要进一步进行学习更新，更新当前资源状态采用目标资源分配决策的Q值，即更新Q值矩阵中相应的Q值，以及更新目标资源分配决策的被采用次数。

对于每个资源状态下的每个决策都记录其对应的被采用次数，即，从初始为0开始，每到该资源状态时，若采用了该决策，则该资源状态下该决策对应的被采用次数加1。

示例性的，以矩阵形式表示各资源状态下各决策对应的采用次数为：

其中，COUNT(S,A)表示采用次数矩阵；count(Si,Xj)表示表示在Si状态下，采用决策Xj的次数。该矩阵随着不断采用决策而不断更新。比如当前状态为第二资源状态，采用的决策为X2，则在决策后更新Q值矩阵时，也更新该采用次数矩阵，将count(S2,X2)的值加1。其中，Xj均表示采用决策X，用j区分不同的资源状态。COUNT(S,A)也可以表示为：

count(Si,X)表示表示在Si状态下，采用决策X的次数。具体表示形式不做限定，这里只是示例性说明。

可选地，步骤2012具体可以包括：

步骤20121，获取当前时间状态采用目标资源分配决策所对应的决策奖励R；

步骤20122，根据当前Q值矩阵中，当前资源状态的后一资源状态对应的最大Q值、决策奖励R及预设奖励传递参数γ，确定新Q值。

示例性的，第二资源状态下，确定的目标资源分配决策为X增加带宽，在进行分配处理增加带宽后，需要对第二资源状态下采用决策X的Q值进行更新，即更新Q值矩阵中的Q21的值，需要采用第二资源状态的后一个资源状态即第三资源状态(也即新资源状态)的各Q值中的最大Q值Q'_max。

具体的更新方式为：获取当前时间状态(也即当前资源状态)采用目标资源分配决策对应的决策奖励R，即在第二资源状态下采用决策X后产生的决策奖励R。根据后一资源状态对应的最大Q值、决策奖励R及预设奖励传递参数γ，确定新Q值。

进一步地，获取当前时间状态采用目标资源分配决策所对应的决策奖励R，包括：根据决策后的新资源状态，确定决策奖励R。具体如下：

新资源状态包括新资源配置状态、新资源消耗状态及新时间状态，新资源配置状态包括新网络带宽及新磁盘容量，新资源消耗状态包括新网络负载及新磁盘消耗；

根据新网络带宽、新磁盘容量、新网络负载及新磁盘消耗，采用如下公式确定决策奖励R：

R(S',a)＝-(nb+ds)-([nl*10>nb]+[dc*2>ds])*P

其中，S'表示新资源状态，a表示采取的目标资源分配决策，也即上述的a_m，nb表示新网络带宽,ds表示新磁盘容量，nl表示新网络负载，dc表示新磁盘消耗，P表示预设程度参数，[nl*10>nb]表示nl*10>nb是真或假，真为1，假为0；[dc*2>ds]表示dc*2>ds是真或假，真为1，假为0。

其中，新资源状态为采用目标资源分配决策导致当前资源状态变化后的资源状态。比如，第二资源状态是6点到12点，触发机制是在6点进行一次资源分配，那么采用目标资源分配决策进行资源分配处理后，在到达第三资源状态触发机制时，获取实时的第三资源状态，即新资源状态，也即在12点时获取实时的资源配置状态及资源消耗状态，比如当时配置的网络带宽、磁盘容量，及消耗的网络负载、磁盘消耗等。根据新资源状态的具体情况来确定对第二资源状态采取的目标资源分配决策的奖励值R。其中，P为允许程度参数，可以根据实际情况进行设置，比如P的范围可以是1<P<100，具体可以是2、5、70、90等等。对于不同的资源状态可以设置不同的P值，对于同一资源状态下，不同的决策也可以设置不同的P值，即不同的决策，奖励值不同，具体可以根据实际需求设置。-(nb+ds)保证了强化学习算法采取的决策更加倾向于减少资源无用配置，([nl*10>nb]+[dc*2>ds])*P避免了强化学习算法采用的决策影响主机的性能。

可选地，根据当前Q值矩阵中，当前资源状态的后一资源状态对应的最大Q值、决策奖励R及预设奖励传递参数γ，确定新Q值，具体可以包括；

根据当前Q值矩阵中，当前资源状态的后一资源状态对应的最大Q值、决策奖励R及预设奖励传递参数γ，采用如下公式确定新Q值：

Q_new＝R+Q'_max*γ

其中，Q_new表示新Q值，Q'_max表示后一资源状态对应的最大Q值。

可选地，预设奖励传递参数γ＝0.8。预设奖励传递参数可以根据实际需求进行设置，并不限于0.8。

可选地，根据新Q值更新Q值矩阵，包括：

采用如下公式更新Q值矩阵：

Q_m(S,a_m)＝Q(S,a_m)+λ*(Q_new(S,a_m)-Q(S,a_m))

其中，Q_m(S,a_m)表示更新后的Q值矩阵，S表示当前资源状态，a_m表示采用的目标资源分配决策，Q(S,a_m)表示当前Q值矩阵，Q_new(S,a_m)表示当前Q值矩阵中相应Q值更新为上述新Q值后的矩阵，λ表示学习参数。学习参数可以根据实际需求进行设置。

示例性的，当前Q值矩阵为：

第一行代表第一资源状态，第二行代表第二资源状态，第三行代表第三资源状态，第四行代表第四资源状态，第一列代表决策X，第二列代表决策Y，第三列代表决策Z，第四列代表决策W，当前资源状态为第二资源状态，采取的决策(目标资源分配决策)为X，第三资源状态中最大Q值Q'_max为Q33，则新Q值为Q21的新值Q_new＝R+Q33*γ，即Q_new(S,a_m)为：

则更新后的Q值矩阵Q_new(S,a_m)为：

Q值矩阵的初始矩阵可以随机设置，即进行初始化。具体为现有技术，在此不再赘述。

需要说明的是，本申请实施例提供的资源的分配处理方法，是循环执行的，即在每次决策(根据目标资源分配决策进行资源分配处理)后，都进行学习及更新，然后再决策再学习，在此不再赘述。

需要说明的是，本实施例中各可选的实施方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

实施例三

本实施例提供一种资源的分配处理装置，用于执行上述实施例一的方法。

如图2所示，为本实施例提供的资源的分配处理装置的结构示意图。该资源的分配处理装置30包括获取模块31、确定模块32和处理模块33。

其中，获取模块31用于获取当前资源状态及预设决策集合中各决策当前被采用次数；确定模块32用于基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策；处理模块33用于根据目标资源分配决策进行资源的分配处理。。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本实施例提供的资源的分配处理装置，通过基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，并根据目标资源分配决策进行资源的分配处理，在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

实施例四

本实施例对上述实施例三提供的装置做进一步补充说明。

作为一种可实施的方式，在上述实施例三的基础上，可选地，当前资源状态包括当前资源配置状态、当前资源消耗状态及当前时间状态；预设决策集合包括至少两种预设决策；确定模块，具体用于：

作为另一种可实施的方式，在上述实施例三的基础上，可选地，确定模块，具体用于：

遍历预设决策集合中的决策，获取使Q(S,a)-log(count(S,a))最大的决策a作为目标资源分配决策；

可选地，处理模块，还用于：

根据当前Q值矩阵中，当前资源状态的后一资源状态对应的最大Q值，获取当前时间状态下采用目标资源分配决策所对应的新Q值；

根据新Q值更新Q值矩阵，并将目标资源分配决策的当前被采用次数加1获得目标资源分配决策的新当前被采用次数，目标资源分配决策的当前被采用次数为在与当前时间状态一致的历史时间状态采用目标资源分配决策的次数。

可选地，处理模块，具体用于：

获取当前时间状态采用目标资源分配决策所对应的决策奖励R；

根据当前Q值矩阵中，当前资源状态的后一资源状态对应的最大Q值、决策奖励R及预设奖励传递参数γ，确定新Q值。

可选地，处理模块，具体用于：

根据决策后的新资源状态，确定决策奖励R。

可选地，新资源状态包括新资源配置状态、新资源消耗状态及新时间状态，新资源配置状态包括新网络带宽及新磁盘容量，新资源消耗状态包括新网络负载及新磁盘消耗；处理模块，具体用于：

R(S',a)＝-(nb+ds)-([nl*10>nb]+[dc*2>ds])*P

其中，S'表示新资源状态，a表示采取的目标资源分配决策，nb表示新网络带宽,ds表示新磁盘容量，nl表示新网络负载，dc表示新磁盘消耗，P表示预设程度参数，[nl*10>nb]表示nl*10>nb是真或假，真为1，假为0；[dc*2>ds]表示dc*2>ds是真或假，真为1，假为0。

可选地，处理模块，具体用于：

Q_new＝R+Q'_max*γ

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

根据本实施例的资源的分配处理装置，通过基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，并根据目标资源分配决策进行资源的分配处理，在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

实施例五

本实施例提供一种资源的分配处理设备，用于执行上述实施例提供的付费处理方法。

如图3所示，为本实施例提供的资源的分配处理设备的结构示意图。该资源的分配处理设备50包括：至少一个处理器51和存储器52；

存储器存储计算机程序；至少一个处理器执行存储器存储的计算机程序，以实现上述实施例提供的方法。

根据本实施例的资源的分配处理设备，通过基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，并根据目标资源分配决策进行资源的分配处理，在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

实施例六

本实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被执行时实现上述任一实施例提供的方法。

根据本实施例的计算机可读存储介质，通过基于当前资源状态及预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，并根据目标资源分配决策进行资源的分配处理，在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素，使得没有被采用的决策的的奖励值较大，在循环过程中可以跳出局部的决策路径循环，重新探索新的路径，可以有效避免陷入局部最优，从而有效减少资源浪费。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种资源的分配处理方法，其特征在于，包括：

根据所述目标资源分配决策进行资源的分配处理。

2.根据权利要求1所述的方法，其特征在于，所述当前资源状态包括当前资源配置状态、当前资源消耗状态及当前时间状态；所述预设决策集合包括至少两种预设决策；

3.根据权利要求1所述的方法，其特征在于，所述基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数，采用预设决策选择规则确定目标资源分配决策，包括：

4.根据权利要求2所述的方法，其特征在于，在根据所述目标资源分配决策进行资源的分配处理之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，根据所述当前Q值矩阵中，所述当前资源状态的后一资源状态对应的最大Q值，获取所述当前时间状态下采用所述目标资源分配决策所对应的新Q值，包括：

6.根据权利要求5所述的方法，其特征在于，获取所述当前时间状态采用所述目标资源分配决策所对应的决策奖励R，包括：

根据决策后的新资源状态，确定所述决策奖励R。

7.根据权利要求6所述的方法，其特征在于，所述新资源状态包括新资源配置状态、新资源消耗状态及新时间状态，所述新资源配置状态包括新网络带宽及新磁盘容量，所述新资源消耗状态包括新网络负载及新磁盘消耗；

所述根据决策后的新资源状态，确定所述决策奖励R，包括：

R(S',a)＝-(nb+ds)-([nl*10>nb]+[dc*2>ds])*P

8.一种资源的分配处理装置，其特征在于，包括：

9.一种资源的分配处理设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任一项所述的方法。