CN110648049A

CN110648049A - 一种基于多智能体的资源分配方法与系统

Info

Publication number: CN110648049A
Application number: CN201910775734.XA
Authority: CN
Inventors: 卢宗青; 姜杰川
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2020-01-03
Anticipated expiration: 2039-08-21
Also published as: CN110648049B

Abstract

本申请公开了一种基于多智能体的资源分配方法与系统，包括：S1控制器选择一个子策略；S2被选子策略获取环境的观察信息，执行动作得到动作奖励；S3重复S2，处理单元使用得到的多个动作奖励，利用强化学习算法更新被选子策略的参数；S4处理单元用分布式算法更新被选子策略的效用平均值；S5处理单元根据效用平均值和策略奖励反馈公式，确定被选子策略的策略奖励，保存至存储单元；S6控制器选择新的子策略，循环执行S2至S5，直至该循环次数达到阈值次数结束；S7处理单元根据与各子策略对应的各策略奖励，用强化学习算法更新控制器参数。分层强化学习模型能够使智能体快速适应复杂环境。使用多个子策略，并与其他智能体协同确定策略奖励，通用性强。

Description

一种基于多智能体的资源分配方法与系统

技术领域

本申涉及人工智能领域，尤其涉及一种基于多智能体的资源分配方法与系统。

背景技术

强化学习(Reinforcement Learning)是机器学习里面的一个分支，主要包含四个元素：智能体(Agent)、环境状态(State)、行动(Action)和奖励(Reward)。奖励是环境提供给智能体的一个可量化的标量反馈信号，用于评价智能体在某一个时间步(Time Step)所做行动的好坏。强化学习的目标是获得最多的累计奖励。强化学习是控制一个能够在某个环境下自主行动的智能体，通过和环境之间的互动，不断改进它的行为。强化学习问题包括学习如何做、如何将环境映射为行动，从而获得最大的奖励。在强化学习中，学习器是一个制定决策的智能体，它不会被告知该执行什么动作，而是经过反复尝试运行，来发现能获得最大奖励的行为。一般情况下，行动不仅会影响当前的奖励，而且会影响下个时间点的环境，因此也会影响后续所有的奖励。一个完整的强化学习过程是让智能体实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，在不断的尝试中更新自己的行为，从而一步步学习如何操自己的行为得到高分，最后找到规律，学会了达到目的的方法。

多智能体算法目前成为研究的热点，但是大部分方法只考虑系统的效率而忽视公平。多智能体通信方法通过信息共享促进合作，对手建模通过分析其他智能体的行为来进行更好的竞争或者合作，在这些方法中智能体只关注自己的利益，因此公平难以得到保证。一些方法用于优化所有智能体共同目标，然而共同目标并不与公平直接相关。

马太效应广泛存在于人类社会和实际多智能体应用中，可以总结为强者越强弱者越弱。学习公平策略可以帮助系统变得更加稳定和高效。

在多智能体系统公平分配领域已经有一些相关方法提出。但是其中大部分方法只关注静态设定，即智能体可以知道整个资源的全部信息，且这一信息是固定的。对于多智能体时序决策问题，一种正则化的最大-最小公平策略被提出用于最大化最差智能体的表现，同时考虑系统的整体性能。这种方法采用线性规划或者博弈论计算，但是无法适应复杂环境，适用范围小。除此之外，一些多智能体强化学习方法也被应用到资源分配中，如计算资源、网络资源和物流系统等，然而这些方法依赖于领域内的专业知识，不能被泛化到一般情况。

综上所述，需要提供一种能够适应复杂环境且通用性强的资源分配方法与系统。

发明内容

为解决以上问题，本申请提出了一种基于多智能体的资源分配方法与系统。

一方面，本申请提出一种基于多智能体的资源分配方法，其应用于单个智能体，智能体包括控制器、多个子策略、处理单元、存储单元，包括：

S1，控制器选择一个子策略；

S2，被选子策略获取环境的观察信息，执行动作，得到动作奖励；

S3，重复S2，处理单元使用S2中得到的多个动作奖励，利用强化学习算法更新被选子策略的参数；

S4，处理单元使用分布式算法更新所述被选子策略的效用平均值；

S5，处理单元根据所述效用平均值和策略奖励反馈公式，确定被选子策略的策略奖励，保存至存储单元；

S6，控制器选择新的子策略，循环执行S2至S5，直至该循环次数达到阈值次数结束；

S7，处理单元根据与各子策略对应的各策略奖励，使用强化学习算法更新控制器参数。

优选地，S2中得到的动作奖励，包括：

若被选子策略为资源占有子策略，则得到资源奖励；

若被选子策略为其他子策略，则得到信息论奖励和资源奖励。

优选地，S3中的被选子策略的参数的确定方式，包括：

若被选子策略为资源占有子策略，则使用资源奖励和强化学习算法计算和更新被选子策略的参数；

若被选子策略为其他子策略，则使用信息论奖励和强化学习算法计算和更新被选子策略的参数。

优选地，所述处理单元使用分布式算法更新所述被选子策略的效用平均值，包括：

使用得到的资源奖励计算当前智能体的效用；

获取环境中其他智能体的效用；

根据当前智能体的效用和其他智能体的效用，使用分布式算法计算效用平均值并更新。

优选地，在S1之前，还包括：

初始化环境中的智能体。

优选地，在S7之后，还包括：

初始化环境中智能体的效用、平均效用、动作奖励和策略奖励。

优选地，所述多个子策略包括：一个资源占有子策略和多个其他子策略。

优选地，所述资源占有子策略用于最大化地获取环境中的资源奖励。

第二方面，本申请提出一种基于多智能体的资源分配系统，智能体包括：

控制器，用于循环选择子策略，直至该循环次数达到阈值次数结束；

多个子策略，用于获取环境的观察信息，执行动作，得到动作奖励；

处理单元，用于使用子策略得到的多个动作奖励，利用强化学习算法更新被选子策略的参数，使用分布式算法更新所述被选子策略的效用平均值，根据所述效用平均值和策略奖励反馈公式，确定被选子策略的策略奖励，根据与各子策略对应的各策略奖励，使用强化学习算法更新控制器参数；

存储单元，用于保存被选子策略的策略奖励。

本申请的优点在于：使用分层强化学习模型，即，由一个控制器和若干子策略组成的模型，能够使智能体在学习复杂任务时提高学习速度，使智能体能够快速适应复杂环境。通过在一次交互过程中选择多个子策略，平衡资源的获取，并获取环境中的其他智能体的效用，与其他智能体协同，确定策略奖励，更新控制器，不需要依赖领域内的专业知识，通用性强。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种基于多智能体的资源分配方法的步骤示意图；

图2是本申请提供的一种基于多智能体的资源分配别方法的智能体的执行示意图；

图3是本申请提供的一种基于多智能体的资源分配系统的智能体结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种基多智能体的资源分配方法，其应用于单个智能体，智能体包括控制器、多个子策略、处理单元、存储单元，如图1所示，包括：

S1，控制器选择一个子策略；

S2中得到的动作奖励，包括：

若被选子策略为资源占有子策略，则得到资源奖励；

S3中的被选子策略的参数的确定方式，包括：

处理单元使用分布式算法更新所述被选子策略的效用平均值，包括：

使用得到的资源奖励计算当前智能体的效用；

获取环境中其他智能体的效用；

在S1之前，还包括：

初始化环境中的智能体。

在S7之后，还包括：

多个子策略包括：一个资源占有子策略和多个其他子策略。

资源占有子策略用于最大化地获取环境中的资源奖励。

智能体获得环境的观察信息，将观察信息发送至被选择的子策略。

强化学习算法包括：近端策略优化(Proximal Policy Optimization，PPO)算法、Q-learning、策略梯度(Policy Gradient)算法和信任区域策略化(Trust Region PolicyOptimization，TRPO)算法等。

分布式算法包括：反熵(Gossip)算法、Redis分布式算法、一致性(ConsistentHashing)算法和虚拟节点算法等。

其中，Gossip算法为获取与本智能体距离近的其他智能体的信息(在本实施例中为获取其他智能体的效用)。环境中的每个智能体都获取与其距离近的其他智能体的信息，经过多次获取，使整个环境中的各智能体计算得到的效用平均值趋于平均。

以从S1至S7为智能体在环境中的一次交互过程为例，其中，一次交互过程包括多个T时间段，T时间段即执行多次S2所需的时间。时间步表示执行一次S2步骤。T时间步表示执行t次S2步骤，即步骤S3步为：重复S2，直至到达t次，处理单元使用S2中得到的t个动作奖励，利用强化学习算法更新被选子策略的参数。

T时间段中包括多个时间步。

T时间段中包括的时间步次数，即T时间步，和一次交互过程中包括的T时间段数量可以根据需要进行设定。

环境中各智能体的T时间步和一次交互过程中包括的T时间段数量都是相同的。

当智能体执行动作，到达多个T时间段(设定的时间段数量)时，一次交互过程结束。

同一环境中的所有智能体的初始化、执行动作获取奖励、更新等动作，都是同时进行的。

每次交互，环境中的每个智能体的控制器都会在自己(控制器所对应的智能体)所拥有的多个子策略中，选择一个子策略。

环境中智能体中的控制器和各子策略的初始化，只在第一次进行，即，只在智能体在环境中第一次运行之前，进行智能体中的控制器和各子策略的初始化，还初始化智能体的效用、平均效用、动作奖励和策略奖励等，之后每经过一次交互过程后，即循环次数达到阈值次数，使用强化学习算法更新控制器参数之后，所进行的初始化，只初始化智能体的效用、平均效用、动作奖励和策略奖励等，不再初始化智能体的控制器和各子策略。

本申请的实施例适用的情景是一个交互环境中存在若干智能体和有限的资源，每个智能体获得环境的观察并作出决策，智能体获得的外部奖励信号与自身资源占有情况相关。

在一个交互环境中，存在n个智能体和有限的资源，资源具有非排他性和竞争性。在每个时间步，智能体从环境中获得的资源奖励为r。定义每个智能体i在时间步t的效用为所经历时间步的平均奖励，即效用

使用变异系数来衡量系统公平性。

策略奖励反馈公式为：

其中，

表示智能体i在时间步t的策略奖励，

表示环境中所有智能体i在时间步t时的效用平均值，c表示一个设定好的常数，∈表示一个无线小的数，用于防止分母为0。

通过每个智能体分布式地优化自己的策略奖励，可以在无限长时序决策中达到帕累托效率(资源分配的一种理想状态)和资源的平均分配。

本申请的实施例中，使用分层强化学习模型，即，由一个控制器θ和若干子策略φ组成。控制器并不与环境直接交互，而是每过T时间段选择一个子策略与环境交互。控制器接受策略奖励并且使用强化学习算法优化奖励的累积期望。

分层强化学习主要学习复杂任务的加速，包含多层策略。上层策略(控制器)选择下层策略或者给下层策略发送目标，只有最底层策略直接与环境交互，更高层的策略(控制器)具有更长远的视野。

动作奖励包括信息论奖励和/或资源奖励。

控制器通过选择子策略来优化策略奖励，子策略分别优化环境外部奖励(资源奖励)和一种信息论奖励，来形成不同的公平或者效率策略。

为了实现系统的效率，使其中一个子策略φ₁专门负责最大化环境给出的与资源占有量相关的资源奖励r。

为了实现系统的公平，对于剩余的子策略采用了一种信息论奖励，来诱导其他子策略探索多样性的公平行为。其他子策略的优化目标是智能体的观察与控制器所选子策略序号的互信息，以及子策略行为与智能体的观察的熵(条件熵)。前者(互信息)经过推导可以用给予子策略一个信息论奖励log(z|o_t)来实现，用于诱导子策略之前彼此不同。后者(观察的熵)是一个可微的目标，即子策略在观察下动作的条件熵，可以用反向传播来实现，用于诱导子策略探索多样的行为策略。即，可以使用神经网络已有的算法，根据观察的熵来优化子策略。

熵表示信息量的数学期望。

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。条件熵H(Y|X)表示，为在已知随机变量X的条件下，随机变量Y的条件概率分布的熵对随机变量X的数学期望。即，知道X后Y还剩多少信息量(H(Y|X))。或者知道Y后，X还剩多少信息量(H(X|Y))。

互信息为，知道X，给Y的信息量带来多少损失(或者知道Y，给X的信息量带来多少损失)。

本申请的实施例中，采用分布式算法进行强化学习训练，每个智能体只接收自己的观察，独立决策并独立优化自己的奖励反馈(策略奖励)。在此过程中需要用到环境中所有智能体的平均效用，可以使用分布式算法来近似地估计。

下面，对本申请实施例进行进一步说明。

假设当前环境中有n个智能体，每个智能体都包括一个控制器和多个子策略。环境中的智能体同时开始行动，这些智能体根据自己选择的子策略，执行动作，获取奖励。

首先，初始化控制器θ和子策略φ，以及各个智能体的效用u_i和每个智能体估计的平均效用

以环境中的一个智能体为例，此智能体包括M个子策略，如图2所示，在每次交互开始时，即各智能体在环境中第一次执行动作时，此智能体使用控制器，选择一个子策略φ_z(策略φ_z为M个子策略中的任意一个子策略)。每个时间步，所选择的子策略φ_z都会获得环境的观察信息o_t，执行动作与环境交互，获取奖励。

直到经过T时间段，使用之前的多个时间步中获取到的多个奖励，计算时间步t(T时间段最后一个时间步)时的效用u_t(此智能体在T时间段内的所有时间步中获得的奖励的平均)，使用强化学习算法更新被选子策略φ_z的参数；获取环境中其他智能体的效用，使用分布式算法更新环境中的所有智能体i在时间步t时的效用平均值

在下一个T时间段，此智能体的控制器进行决策选择新的子策略，重复执行上一个T时间段的步骤，直到一次交互过程结束。即，智能体中的一个子策略执行T时间段。

一次交互过程结束后，使用强化学习算法更新控制器参数θ。

使用保存的策略奖励，计算和更新控制器参数。

一个交互过程中，包括多个T时间段，即一个交互过程中，有多少个T时间段，则选择了多个子策略。

同一个环境中的所有智能体的时间步，T时间段中包括的时间步的数量和一次交互过程中包括的T时间段数量都是一致的。

本申请的实施例能够被应用到资源分配中，如计算资源、网络资源和物流系统等。

以网络资源分配为例，在网络资源分配这样一个实时系统中，需要足够块的速度来处理接收到的外来信息，需在被控对象允许的时间范围内，做出快速响应，且响应的时间越短越好。然而，如果每个智能体都用最快速度，在最少的时间内做出响应，则会导致各智能体对网络资源的争抢，最终影响各智能体的响应时间和系统整体的服务质量。

下面，以网络资源分配为例，对本申请实施例进行进一步说明。

各个智能体对应网络用于中处理信息的各个单元，一次交互过程对应被控对象允许的时间范围，只有资源占有子策略对应快速响应，即对接收到的外来信息进行处理，其他子策略不对外来信息进行处理。

以其中一个智能体为例，其控制器选择一个子策略，被选子策略获取网络环境的观察信息，执行动作，得到动作奖励；被选子策略循环执行动作，得到动作奖励，直到到达设定的次数，处理单元使用被选子策略得到的多个动作奖励，利用强化学习算法更新被选子策略的参数；处理单元获取网络环境中其他智能体的效用，使用分布式算法更新所述被选子策略的效用平均值；处理单元根据所述效用平均值和策略奖励反馈公式，确定被选子策略的策略奖励，保存至存储单元。

控制器根据设定的循环次数，从多个子策略中选择一个子策略，被选子策略循环执行动作，得到动作奖励，处理单元计算被选子策略的策略奖励，保存至存储单元，直至该循环次数达到阈值次数结束；处理单元根据与各子策略对应的各策略奖励，使用强化学习算法更新控制器参数。

由于在多个子策略中，有一个资源占有子策略对应快速响应，如果在一次交互过程中，没有选择快速响应，那么就无法在被控对象允许的时间范围内，做速响应，影响处理速度。如果，在一次交互过程中，选择了多次资源占有子策略，则在被控对象允许的时间范围内，做出了多次响应，处理了多个外来信息，导致此智能体抢占其他智能体的资源，影响网络环境中其他智能体的响应时间。在以上两种情况下，无论是哪一种，都会影响系统整体的服务质量。所以智能体需要根据需求，更新自己的子策略，并且还要从网络环境中的其他智能体那里获取信息，更新自己的控制器，最终达到，即在被控对象允许的时间范围内，做出了响应，又不抢占其他智能体的资源，影响网络环境中其他智能体的响应时间，从而提升系统整体的服务质量。

下面，以集装箱码头物流作业的分配为例，对本申请实施例进行进一步说明。

以吊桥作业为例，吊桥用于将集装箱从集装箱拖挂车(集卡)上移动到船上，或将集装箱从船上移动至集卡。其中，各个智能体对集装箱码头中的吊桥，环境中的资源对应当前可调度的集卡，一次交互过程对应一段时间。只有资源占有子策略对应将集装箱移动至集卡，其他子策略不对集装箱进行移动。

在吊桥用于将集装箱从船上移动到集卡上的情况中，以其中一个吊桥为例，吊桥的控制器选择一个子策略，被选子策略获取当前可调度集卡的信息)，执行动作，得到动作奖励；被选子策略循环执行动作，得到动作奖励，直到到达设定的次数，处理单元使用被选子策略得到的多个动作奖励，利用强化学习算法更新被选子策略的参数；处理单元获取此集装箱码头中其他吊桥的效用，使用分布式算法更新所述被选子策略的效用平均值；处理单元根据所述效用平均值和策略奖励反馈公式，确定被选子策略的策略奖励，保存至存储单元。

由于在多个子策略中，有一个资源占有子策略对应将船上的集装箱移动至集卡，如果在一段时间内，吊桥没有将集装箱移动至集卡，那么就会造成集卡的等待，影响船上集装箱的移动速度，以及增加其他等待进入此泊位的船只的等待时间。如果，在在一段时间内，选择了多次资源占有子策略，即吊桥多次将集装箱移动至集卡，则导致此吊桥抢占了过多的集卡，减少了当前时刻，其他吊桥的可使用的集卡数量，使得其他吊桥需要等待集卡到来，延长吊装时间，增加其他等待进这些泊位的船只的等待时间。在以上两种情况下，无论是哪一种，都会影响集装箱码头物流作业的服务效率。所以吊桥需要根据需求，更新自己的子策略，并且还要从此集装箱码头中的其他吊桥那里获取信息，更新自己的控制器，最终达到，即在一段时间内，移动集装箱至集卡，又不抢占其他吊桥的集卡资源，从而提升此集装箱码头物流作业的服务质量和服务效率。

本申请的实施例通过在一次交互过程中选择多个子策略，平衡资源的获取，并获取环境中的其他智能体的效用，与其他智能体协同，确定策略奖励，更新控制器，达到对资源的公平分配，减少各智能体对资源的争抢，提高系统整体公平服务质量水平最优的实现速率，快速响应外部请求，避免超负荷现象的发生等。

根据本申请的实施方式，还提出一种基于多智能体的资源分配系统，如图3所示，智能体包括：

存储单元，用于保存被选子策略的策略奖励。

本申请的实施方式用于环境中的所有智能体。

本申请实施例的方法中，使用分层强化学习模型，即，由一个控制器和若干子策略组成的模型，能够使智能体在学习复杂任务时提高学习速度，使智能体能够快速适应复杂环境。通过上层的控制器选择下层的策略或者给下层的策略发送目标，只有最底层策略直接与环境交互，使得高层的控制器具有更长远的视野。通过在一次交互过程中选择多个子策略，平衡资源的获取，并获取环境中的其他智能体的效用，与其他智能体协同，确定策略奖励，更新控制器，不需要依赖领域内的专业知识，通用性强。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于多智能体的资源分配方法，其特征在于，其应用于单个智能体，智能体包括控制器、多个子策略、处理单元、存储单元，包括：

S1，控制器选择一个子策略；

2.如权利要求1所述的资源分配方法，其特征在于，S2中得到的动作奖励，包括：

若被选子策略为资源占有子策略，则得到资源奖励；

3.如权利要求1所述的资源分配方法，其特征在于，S3中的被选子策略的参数的确定方式，包括：

4.如权利要求1所述的资源分配方法，其特征在于，所述处理单元使用分布式算法更新所述被选子策略的效用平均值，包括：

使用得到的资源奖励计算当前智能体的效用；

获取环境中其他智能体的效用；

5.如权利要求1所述的资源分配方法，其特征在于，在S1之前，还包括：

初始化环境中的智能体。

6.如权利要求1所述的资源分配方法，其特征在于，在S7之后，还包括：

7.如权利要求1所述的资源分配方法，其特征在于，所述多个子策略包括：一个资源占有子策略和多个其他子策略。

8.如权利要求7所述的资源分配方法，其特征在于，所述资源占有子策略用于最大化地获取环境中的资源奖励。

9.一种基于多智能体的资源分配系统，其特征在于，智能体包括：

存储单元，用于保存被选子策略的策略奖励。