CN114727407B

CN114727407B - 一种资源分配方法、装置及设备

Info

Publication number: CN114727407B
Application number: CN202210515110.6A
Authority: CN
Inventors: 徐波; 成芳娟; 徐博
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-26
Anticipated expiration: 2042-05-12
Also published as: CN114727407A

Abstract

本发明公开了一种资源分配方法、装置及设备，涉及人工智能技术领域，其中，所述方法包括：获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；将所述联合分配动作输入到环境中，得到资源分配结果。通过上述方式，本发明实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。

Description

一种资源分配方法、装置及设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种资源分配方法、装置及设备。

背景技术

静态多资源多目标分配问题属于单次决策组合优化问题，直接采用经典的端到端的深度强化学习方法难以奏效，因为此方法主要用于解决序列决策的优化问题。此外，深度强化学习方法是基于数据驱动的优化方法，能够实现解空间的大范围覆盖和探索，但是当实际问题中的解空间比较窄或存在很多次优解时，很难探索到最优的解。且深度强化学习方法高度依赖高质量的大数据，但是由于实际条件的约束，高质量的数据较难获取。

综上所述，面对单次决策组合优化、虚拟对象间无协商无通信等实际问题，直接采用传统的优化方法和经典的强化学习算法是比较难解决的。

基于此，如何解决在多资源多目标分配场景中，虚拟对象间无协商无通信以及单次决策组合优化问题（即在虚拟对象间无协商无通信的情况下完成资源的最优分配）是本领域人员亟待解决的问题。

发明内容

为解决上述问题，提出了本发明实施例的资源分配方法、装置及设备。

根据本发明实施例的一个方面，提供了一种资源分配方法，包括：

获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；

根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；

在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；

将所述联合分配动作输入到环境中，得到资源分配结果。

可选的，所述态势信息包括以下至少一种：

共享态势信息和局部态势信息。

可选的，对所述至少两个虚拟对象进行资源分配，包括：

通过算法

，对所述至少两个虚拟对象进行资源分配，其中，a是指所述至少两个虚拟对象中每个虚拟对象分配的结果，s是指态势信息，

是指最大值自变量点集函数，

是指动作值，

是指置信值。

可选的，将所述联合分配动作输入到环境中，得到资源分配结果，包括：

将所述联合分配动作输入到环境中，得到环境验证结果；

若所述环境验证结果满足相应条件，得到所述资源分配结果；

若所述环境验证结果不满足相应条件，得到环境反馈信息；

根据所述环境反馈信息，更新所述至少两个分配节点，得到更新后的至少两个分配节点；

在所述更新后的至少两个分配节点中，重复执行逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作，将所述联合分配动作输入到环境中，得到环境验证结果的步骤。

可选的，在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后，还包括：

将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中；

在将所述联合分配动作输入到环境中，得到资源分配结果之后，还包括：

将所述资源分配结果的过程所产生的运行数据储存到记忆库中。

可选的，当所述记忆库中的所述运行数据达到上限时，对所述神经网络进行训练，所述神经网络通过以下方法训练得到：

将预存储的运行数据作为训练样本；

提取所述训练样本中至少两个训练虚拟对象以及所述至少两个训练虚拟对象分别对应的训练态势信息；

根据所述训练态势信息，在优化待优化神经网络过程中创建至少两个训练分配节点，所述至少两个训练分配节点的数量大于或等于所述至少两个训练虚拟对象的数量；

在所述至少两个训练分配节点中，逐一对所述至少两个训练虚拟对象进行资源分配，直到所述至少两个训练虚拟对象资源分配完成，得到训练联合分配动作；

将所述训练联合分配动作输入到训练环境中，得到训练环境反馈信息，所述训练环境反馈信息用于表征相应训练联合分配动作的有效程度；

根据所述训练环境反馈信息调整所述待优化神经网络的参数，得到所述神经网络。

可选的，在优化待优化神经网络过程中创建至少两个训练分配节点之后，还包括：

对所述至少两个训练分配节点中每一个训练分配节点进行第一判断，所述第一判断是指判断所述训练分配节点中是否包含所有合规动作的子节点；

若所述训练分配节点包含所有合规动作的子节点，则在所述训练分配节点中选择所述合规动作的子节点；

若所述训练分配节点未包含所有合规动作的子节点，则根据所述训练分配节点对应的动作空间进行扩展子节点。

根据本发明实施例的另一方面，提供了一种资源分配装置，所述装置包括：

获取模块，用于获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；

处理模块，用于根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；

输出模块，用于将所述联合分配动作输入到环境中，得到资源分配结果。

根据本发明实施例的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述资源分配方法对应的操作。

根据本发明实施例的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述资源分配方法对应的操作。

根据本发明上述实施例提供的方案，通过获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；将所述联合分配动作输入到环境中，得到资源分配结果，实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的资源分配方法流程图；

图2示出了本发明实施例提供的一种具体的即时策略类场景示意图；

图3示出了本发明实施例提供的一种具体的树搜索流程图；

图4示出了本发明实施例提供的神经网络训练方法流程图；

图5示出了本发明实施例提供的一种具体的策略网络结构示意图；

图6示出了本发明实施例提供的一种具体的基于树搜索和强化学习的多目标多资源分配方法流程图；

图7示出了本发明实施例提供的资源分配装置的结构示意图；

图8示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的资源分配方法流程图。如图1所示，该方法包括以下步骤：

步骤11，获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；

步骤12，根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；

步骤13，在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；

步骤14，将所述联合分配动作输入到环境中，得到资源分配结果。

该实施例中，通过获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；将所述联合分配动作输入到环境中，得到资源分配结果，实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。

在本发明的一可选的实施例中，所述态势信息包括以下至少一种：

共享态势信息和局部态势信息。

该实施例中，每个虚拟对象获取到的态势信息包括共享态势信息和局部态势信息，但不仅限于如上所述。以即时策略类为例，共享态势信息又包括多个战场的位置以及每个战场上敌方的兵力数；而局部态势信息由于虚拟对象间无协商无通讯，所以仅包括该虚拟对象的位置信息，不包括己方其他虚拟对象的任何信息。

在输入态势信息时，将原始环境返回的状态中虚拟对象位置与战场位置，通过计算虚拟对象与战场的相对距离与方位角作为策略网络的输入，这样可以提升训练效果。

在本发明的又一可选的实施例中，在步骤13中，对所述至少两个虚拟对象进行资源分配，可以包括：

步骤131，通过算法

是指最大值自变量点集函数，

是指动作值，是对己有知识的利用，即做当前知道的能产生最大回报的事情，

是指置信值，是对未充分模拟节点的探索，即做以前未做过的事情，以期望获得更高的回报。

具体的，通过算法

获取

，其中，

是指温度系数，常量随着迭代的次数呈线性变化，

是指所述每个虚拟对象在s下执行a的概率，以即时策略类为例，即在态势信息s下，执行动作a的概率，此概率值由策略网络给出，

是指所述每个虚拟对象在s下所有分配结果的节点被访问次数的和，以即时策略类为例，即在动作

节点的根节点的访问次数，b是指所述所有分配结果，

是指所述每个虚拟对象在s下执行a的节点访问次数，以即使策略类为例，在态势信息s下动作a节点的访问次数；通过算法

获取

，其中，W是指所述每个虚拟对象在s下执行a的节点总的奖励值，即当前节点的累计奖励值，N是指当前节点总的访问次数。

该实施例中，每个虚拟对象进行最优动作选择时均采用上限置信区间公式输出最优动作，此公式结合了策略网络的输出和节点访问次数以及节点的累计奖励值。

图2示出了本发明实施例提供的一种具体的即时策略类场景示意图，如图2所示，上校赛局是一个两人参与的零和赛局，参与者需要同时在一些对象中分配有限的资源，其最后的收益是单个对象收益总和，是典型的多资源多目标分配问题。具体的博弈过程解释如下：一位上校同时需要在多个战场(3个以上)与对手作战，敌我双方总兵力相同，但是在每一个战场分派较多士兵的一方会胜利，赢了较多战场胜利的一方是最后的赢家。

假设多个战场的具体位置以及每个战场上敌方的兵力数已知，即敌方如何排兵布阵是明确的，且每个战场上至少存在1单位的兵力以牵制对手，那么上校作为统一的兵力调度指挥者，如何选择在每个战场投放多少兵力才能赢得最终的胜利，利用传统的搜索算法就可以解决。如果让每个兵力脱离上校的指挥，自己决定去往哪个战场，且每个兵力只知道自己的位置信息对于同伴的位置信息以及去往哪个战场是未知的，那么每个兵力将如何决策才能赢得最终的胜利，此场景就是典型的单次决策组合优化问题，并且虚拟对象间无协商无通信。

在本发明的又一可选的实施例中，步骤14可以包括：

步骤141，将所述联合分配动作输入到环境中，得到环境验证结果；

步骤142，若所述环境验证结果满足相应条件，得到所述资源分配结果；

步骤143，若所述环境验证结果不满足相应条件，得到环境反馈信息；

步骤144，在所述更新后的至少两个分配节点中，重复执行逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作，将所述联合分配动作输入到环境中，得到环境验证结果的步骤。

图3示出了本发明实施例提供的一种具体的树搜索流程图，对应于步骤11-步骤14，以及步骤14中步骤141-步骤144，如图3所示，在上述实施例中，在多资源多目标分配的场景下，将单个资源抽象为单个虚拟对象，资源分配给某个目标抽象为动作，由于虚拟对象间无交互协商，因此本实施例通过引入树搜索的推理采用集中训练独立执行的架构进行虚拟对象模型的训练，解决虚拟对象间无协商无通信的问题。

首先，提取环境返回的状态特征；

然后，树搜索和策略网络相结合输出联合动作，即依据从环境中获取的状态特征构建合作博弈树，树中的节点表示每个虚拟对象观测到的态势信息，包括共享态势信息和局部态势信息，边表示虚拟对象执行的动作，即在即时策略类中，虚拟对象代表的兵力被分配到哪个战场。具体的树推理过程如下：

树推理过程从创建的根节点开始搜索，根节点表示第一个虚拟对象，对应的节点状态为第一个虚拟对象观测到的态势信息，第一个虚拟对象采用上限置信区间公式选择最优的动作（即在即时策略类中，第一个兵力去往哪个战场)后，扩展到下一层子节点，即第二个虚拟对象，如果此节点不是叶子节点，则第二个虚拟对象基于前面所有虚拟对象选择的动作采用上限置信区间规则以及先验专家知识进行最优动作的选择，到达下一个节点，以此类推直到叶子节点（即终结点），即最后一个兵力被分配完成，然后将所有虚拟对象的联合动作返回环境获取奖励值的反馈，回溯奖励值更新每个节点的信息，更新的信息主要包括节点的访问次数、节点总的奖励值以及下一次迭代时的温度系数，不断的从根节点开始迭代搜索，直到模型收敛，终止搜索训练结束。

在本发明的又一可选的实施例中，在步骤11之后，还可以包括：

步骤111，将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中；

在步骤14之后，还可以包括：

步骤15，将所述资源分配结果的过程所产生的运行数据储存到记忆库中。

该实施例中，在进行树搜索的过程中，将环境返回的每个虚拟对象的运行数据保存到记忆库数据缓存器（buffer）中，所述运行数据包括：态势信息、执行动作的概率分布以及奖励值，但不仅限于如上所述，这样可以保证策略网络收敛后能够独立执行，无需依赖虚拟对象间的通信协商。

图4示出了本发明实施例提供的神经网络训练方法流程图。当所述记忆库中的所述运行数据达到上限时，对所述神经网络进行训练，如图4所示，该训练方法包括以下步骤：

步骤41，将预存储的运行数据作为训练样本；

步骤42，提取所述训练样本中至少两个训练虚拟对象以及所述至少两个训练虚拟对象分别对应的训练态势信息；

步骤43，根据所述训练态势信息，在优化待优化神经网络过程中创建至少两个训练分配节点，所述至少两个训练分配节点的数量大于或等于所述至少两个训练虚拟对象的数量；

步骤44，在所述至少两个训练分配节点中，逐一对所述至少两个训练虚拟对象进行资源分配，直到所述至少两个训练虚拟对象资源分配完成，得到训练联合分配动作；

步骤45，将所述训练联合分配动作输入到训练环境中，得到训练环境反馈信息，所述训练环境反馈信息用于表征相应训练联合分配动作的有效程度；

步骤46，根据所述训练环境反馈信息调整所述待优化神经网络的参数，得到所述神经网络。

在本发明的又一可选的实施例中，在步骤43中，在优化待优化神经网络过程中创建至少两个训练分配节点之后，还可以包括：

步骤431，对所述至少两个训练分配节点中每一个训练分配节点进行第一判断，所述第一判断是指判断所述训练分配节点中是否包含所有合规动作的子节点；

步骤432，若所述训练分配节点包含所有合规动作的子节点，则在所述训练分配节点中选择所述合规动作的子节点；

具体的，若所述训练分配节点包含所有合规动作的子节点，则根据与步骤131相同的方式在所述训练分配节点中选择所述合规动作的子节点。

步骤433，若所述训练分配节点未包含所有合规动作的子节点，则根据所述训练分配节点对应的动作空间进行扩展子节点。

对应于步骤41-步骤46，以及步骤431-步骤433，具体的训练步骤可以为如下步骤：

步骤一，依据仿真环境的全部观测信息创建根节点，由根节点开始向下选择节点，每个节点对应每位士兵，可选动作为当前节点士兵的合规动作范围，即士兵可去往那些战场；

步骤二，判断该节点的子节点是否包括所有合规动作的子节点，如果不包括所有合规动作的子节点，根据此节点对应的士兵动作空间扩展节点，如果包括所有合规动作的子节点，则根据公式

进行选择节点；

步骤三，依据步骤二以此类推，直到达到叶子节点，即所有士兵都分配完成；

步骤四，将生成的所有士兵的联合动作返回给仿真环境，执行对应的联合动作，且获得最终效果，是否赢得最终的胜利，如果赢奖励值为1，如果输奖励值为-1；

步骤五，根据返回的奖励值对树中的节点递归更新，主要更新访问次数，动作值以及节点的动作概率分布，节点的动作概率分布更新公式为：

，其中，softmax是指归一化指数函数，即将对应的节点访问次数转换为范围在[0，1]之间且和为1的动作概率分布；

步骤六，将样本

存入buffer；

步骤七，样本数据达到一定上限后训练策略决策模型。

该实施例中，当记忆库中的样本数达到上限后，通过采样进行模型的训练，其中执行动作的概率分布是基于节点的访问次数计算获得，计算公式为：

，其中，

是指执行动作的概率分布，策略网络模型训练的损失计算采用经典的强化学习算法损失计算的方式，具体的网络结构如图5所示。策略网络相当于态势信息s到动作a和当前状态值的映射。策略网络的输出为对应状态下动作的概率分布

，即在即时策略中，当前状态虚拟对象去往哪个战场。

图5示出了本发明实施例提供的一种具体的策略网络结构示意图，如图5所示，策略网络利用标准的多层感知机神经网络进行建模，与传统的全连接神经网络基本一致。网络的输入为单个虚拟对象从仿真环境提取的状态特征和虚拟对象的编号，且将虚拟对象的编号信息编码成向量(one-hot形式)与状态特征合并作为策略网络的输入。网络的输出为虚拟对象在当前状态下执行的动作概率分布和动作值，且在集中训练时利用两端的损失之和进行策略网络的优化，在独立执行时只利用动作那端进行虚拟对象的决策验证。

在本发明的再一可选的实施例中，在步骤46中，在得到所述神经网络之后，还包括：

步骤47，独立执行验证策略网络。

该实施例中，在上述实施例中，图5建立的集中式训练框架下进行策略网络模型的训练，模型收敛后接入仿真环境验证策略网络，加载策略网络模型，虚拟对象能够无协商无通信独立自主决策，达成固有默契，赢得最终的胜利。

图6示出了本发明实施例提供的一种具体的基于树搜索和强化学习的多目标多资源分配方法流程图，如图6所示，在多资源多目标分配场景中，将单个资源抽象为单个虚拟对象，资源分配给某个目标抽象为动作，可采用经典的多虚拟对象强化学习算法进行建模。多虚拟对象强化学习算法针对每个虚拟对象构建一个策略网络，如果虚拟对象同属性同构可以多个虚拟对象共享一个策略网络，策略网络会根据当前时刻的状态输出对应的动作，采用集中训练独立执行的思想进行虚拟对象策略的优化。在本发明的实施例中，提出一种基于树搜索和强化学习相结合的策略优化方法，用于解决虚拟对象间无协商无通信以及单次决策组合优化问题。

首先，本实施例针对单次决策组合优化问题，约减经典的强化学习算法的时序过程，只抽取最后时刻进行模型的构建，寻找最优动作策略以最大化动作奖励，并非最大化累计奖励。此方法与传统的组合优化方法比较在搜索效率和最优解的求解上有一定的优势。

其次，针对虚拟对象间无协商无通信问题，本实施例采用集中训练独立执行的思想进行虚拟对象策略的优化，即站在上帝视角采用树搜索的方法来指导策略网络的优化，当策略网络收敛之后，虚拟对象间可以无协商无通信独立执行。

最后，本实施例将树搜索引入到合作博弈的场景，树中的节点表示虚拟对象，节点的状态表示每个虚拟对象观测到的态势信息(共享信息和局部信息)，边表示虚拟对象执行的动作，即虚拟对象代表的资源被分配到哪个目标。在树搜索的过程中，根节点表示第一个虚拟对象，从根节点开始，第一个虚拟对象选择最优动作后，扩展到下一层子节点，即第二个虚拟对象，第二个虚拟对象基于第一个虚拟对象选择的动作进行最优动作的选择，以此类推直到叶子节点(终结点)，即最后一个资源被分配完成，然后将所有虚拟对象的联合动作返回环境获取奖励值的反馈，回溯奖励值调整每个虚拟对象的动作概率分布再从根节点开始搜索，不断迭代调整，同时保存样本数据支持单个虚拟对象策略网络的训练。集中训练时，通过树搜索对同伴的动作进行了预测，训练收敛的策略网络可以独立执行，同伴之间无须通信协商，最终实现了无协商无通信条件下多虚拟对象的策略优化问题。另外在树搜索的过程中，虚拟对象动作的选择可以引入先验专家知识对于一些动作进行剪枝避免大范围的搜索，使得采集的样本高质量，解决解空间很窄探索到最优解的难点。

在本发明的上述实施例中，通过将强化学习算法迁移到单次决策的场景中寻找最优动作策略，可以最大化动作奖励，并非最大化累计奖励；通过树搜索推理引入合作博弈场景，借用树搜索来推理预测己方其他虚拟对象的动作，进而加强对于己方其他虚拟对象的理解，能够完成整体资源调度的协调；利用集中训练独立执行的架构进行模型训练，且所有虚拟对象共享网络参数，可扩展到其他虚拟对象间无协商无通信的场景；在树搜索的推理过程引入先验专家知识，自动屏蔽一些不合理的动作，从而避免过多的无效探索，提升样本数据的质量，提高了模型训练效率。

图7示出了本发明实施例提供的资源分配装置70的结构示意图。如图7所示，该装置包括：

获取模块71，用于获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息；

处理模块72，用于根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；

输出模块73，用于将所述联合分配动作输入到环境中，得到资源分配结果。

可选的，所述态势信息包括以下至少一种：

共享态势信息和局部态势信息。

可选的，所述处理模块72还用于通过算法

是指最大值自变量点集函数，

是指动作值，

是指置信值。

可选的，所述输出模块73还用于将所述联合分配动作输入到环境中，得到环境验证结果；

若所述环境验证结果不满足相应条件，得到环境反馈信息；

可选的，所述处理模块72还用于将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中；

可选的，所述处理模块72还用于将所述资源分配结果的过程所产生的运行数据储存到记忆库中。

可选的，所述处理模块72还用于将预存储的运行数据作为训练样本；

可选的，所述处理模块72还用于对所述至少两个训练分配节点中每一个训练分配节点进行第一判断，所述第一判断是指判断所述训练分配节点中是否包含所有合规动作的子节点；

应理解，上述对图1-图6示意的方法实施例的说明，仅是以可选示例的方式对本发明技术方案的阐述，对本发明涉及的资源分配方法不构成限制。另一些实施方式中，本发明涉及的资源分配方法的执行步骤和顺序，可以不同于上述实施例，本发明实施例对此不限制。

需要说明的是，该实施例是与上述方法实施例对应的装置实施例，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的资源分配方法。

图8示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图8所示，该计算设备可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以执行上述用于计算设备的资源分配方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序具体可以用于使得处理器执行上述任意方法实施例中的资源分配方法。程序中各步骤的具体实现可以参见上述资源分配方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明实施例并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制，位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种资源分配方法，其特征在于，所述方法包括：

将所述联合分配动作输入到环境中，得到资源分配结果；

对所述至少两个虚拟对象进行资源分配，包括：

通过算法a＝argmax_a(Q(s，a)+U(s，a))，对所述至少两个虚拟对象进行资源分配，其中，a是指所述至少两个虚拟对象中每个虚拟对象分配的结果，s是指态势信息，argmax_a是指最大值自变量点集函数，Q(s，a)是指动作值，U(s，a)是指置信值。

2.根据权利要求1所述的资源分配方法，其特征在于，所述态势信息包括以下至少一种：

共享态势信息和局部态势信息。

3.根据权利要求1所述的资源分配方法，其特征在于，将所述联合分配动作输入到环境中，得到资源分配结果，包括：

将所述联合分配动作输入到环境中，得到环境验证结果；

若所述环境验证结果不满足相应条件，得到环境反馈信息；

4.根据权利要求1所述的资源分配方法，其特征在于，在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后，还包括：

5.根据权利要求4所述的资源分配方法，其特征在于，当所述记忆库中的所述运行数据达到上限时，对所述神经网络进行训练，所述神经网络通过以下方法训练得到：

将预存储的运行数据作为训练样本；

6.根据权利要求5所述的资源分配方法，其特征在于，在优化待优化神经网络过程中创建至少两个训练分配节点之后，还包括：

7.一种资源分配装置，其特征在于，所述装置包括：

处理模块，用于根据所述态势信息，创建至少两个分配节点，所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量；在所述至少两个分配节点中，逐一对所述至少两个虚拟对象进行资源分配，直到所述至少两个虚拟对象资源分配完成，得到联合分配动作；通过算法a＝argmax_a(Q(s，a)+U(s，a))，对所述至少两个虚拟对象进行资源分配，其中，a是指所述至少两个虚拟对象中每个虚拟对象分配的结果，s是指态势信息，argmax_a是指最大值自变量点集函数，Q(s，a)是指动作值，U(s，a)是指置信值；

8.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储至少一可执行指令，所述至少一可执行指令运行时使所述处理器执行如权利要求1-6中任一项所述的资源分配方法。

9.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令运行时使计算设备执行如权利要求1-6中任一项所述的资源分配方法。