CN112668721B

CN112668721B - 非平稳环境中去中心化多智能系统的决策方法

Info

Publication number: CN112668721B
Application number: CN202110286015.9A
Authority: CN
Inventors: 张俊格; 李庆明; 尹奇跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-02
Anticipated expiration: 2041-03-17
Also published as: CN112668721A

Abstract

本发明提供非平稳环境中去中心化多智能系统的决策方法，包括：在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表；如果公共调度中心信息储存表中没有臂k的回报值和序号记录，则在回合t+1广播所述臂k的回报值和序号；否则进入下一步判断；如果所述臂k的回报值大于经验平均最高回报值，则进入下一步判断；否则在回合t+1拉取臂探索；如果所述臂k的回报置信区间下界大于所述经验平均最高回报值，则进入下一步判断；否则在回合t+1拉取臂探索；如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数，则在回合t+1广播所述臂k的回报值和序号；否则在回合t+1拉取臂探索。

Description

非平稳环境中去中心化多智能系统的决策方法

技术领域

本申请涉及多智能体、在线学习领域，尤其涉及非平稳环境中去中心化多智能系统的决策方法。

背景技术

多智能体系统的多个方面在过去十年中引起了越来越多的关注，尤其是在多智能体机器人系统和策略优化两个领域。在所有类型的多智能体系统中，其中一些需要要求多智能体系统以团队形式工作以在预定机制下实现目标。在多智能体机器人领域中，多机器人系统被置于动态环境中而去中心化的机器人系统旨在实现集体目标。同时，智能体信息交换机制对策略系统的表现有很大影响。在没有已知知识信息或策略的多智能体系统内进行协调是多智能体系统领域的最新挑战，需要去中心化的智能体采用利用对方过去经验知识并采取行动实现目标的策略。

一个典型的多臂老虎机问题（Multi-armed Bandit, MAB）是一个智能体在每一轮中选择一个它所认为的产生最高回报的手臂以实现回报最大化的目标。在目前已有的，针对经典的MAB问题的各种众所周知解决方案已具有良好的性能。在多智能体的多臂老虎机问题中，去中心化的多智能体系统（Multi-agent System, MAS）中的智能体的目标是在给定数量的轮次之后最大化总体系统的回报。其中，信息共享机制在多智能体系统选臂策略中起着重要作用，原因是信息共享在去中心化的系统中是有成本的。成本在不同的应用环境中有不同的形式。而以非平稳变化的回报过程为背景的MAB问题则更复杂在非平稳的MAB问题中（Restless Multi-armed Bandit, RMAB），臂的奖励随时间动态变化。

授权公告号CN 110351884 B明公开了一种基于双层多臂老虎机统计模型的频谱机会接入方法。该方法为：首先使用双层多臂老虎机统计学模型，建模信道感知与接入过程；然后分析次用户运行场景，如果属于单主用户站下的认知网络，则采用同构信道感知接入方法进行频谱机会接入；如果属于多主用户站下的认知网络，则采用异构信道感知接入方法进行频谱机会接入。本发明在有限时间下保证O( lnt )的收益损失性能，O( lnt )表示算法的收益损失随lnt曲线线性变化，在时间足够大条件下具有统计渐近有效性，能够在对授权用户不造成有害干扰的前提下完成高效数据传输。

申请公布号CN 111028080 A涉及一种基于多臂老虎机和Shapley值的群智感知数据动态交易方法，属于大数据和群智感知技术领域。本发明首先利用Shapley值判定每个“工人”的数据对“买家”的边际贡献，包括考虑新数据的直接贡献和考虑冗余数据的间接贡献。之后，“买家”会选择边际贡献较高的“工人”，并给出意向的交易价格。为了提高交易的成功率并得到最大的回报，“买家”实施一定的学习策略。针对给出高价保证交易成功，和试探底线获得更大回报的两难问题，利用上下文形式的多臂老虎机模型进行学习，该策略在每个轮次中选择可观察到的最佳价格，逐渐进行调整以适应“工人”的心理底线。采用本方法推断出的“工人”的价格预期更接近实际值，“买家”由此获得更大回报。

发明内容

有鉴于此，本发明提供一种非平稳环境中去中心化多智能系统的决策方法，具体地，本发明是通过如下技术方案实现的，包括：

S1：在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表；

S2：如果公共调度中心信息储存表中没有臂k的回报值和序号记录，则在回合t+1广播所述臂k的回报值和序号；如果公共调度中心信息储存表中有臂k的所述回报值和序号记录，则进入下一步判断；

S3：如果所述臂k的回报值大于经验平均最高回报值，则进入下一步判断；如果所述臂k的回报值小于经验平均最高回报值，则在回合t+1拉取臂探索；

S4：计算臂k的回报置信区间下界；

S5：如果所述臂k的回报置信区间下界大于所述经验平均最高回报值，则进入下一步判断；如果所述臂k的回报置信区间下界小于所述经验平均最高回报值，则在回合t+1拉取臂探索；

S6：计算最近τ个回合臂k回报的波动率和最近τ个回合臂k回报的波动率的移动平均数；

S7：如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数，则在回合t+1广播所述臂k的回报值和序号；如果所述最近τ个回合臂k回报的波动率小于最近τ个回合臂k回报的波动率的移动平均数，则在回合t+1拉取臂探索。

优选地，所述决策方法还包括：

在回合t+1广播所述臂k的回报值和序号后，

(1) 将所述臂k的回报值和序号存储在公共调度中心信息储存表;

(2) 将所述臂k的回报值和序号存储在智能体m的内嵌私有表。

优选地，所述公共调度中心信息储存表包括：两列r和a分别表示被广播的回报值序列和序号序列；所述内嵌私有表包括：四列r ^P _m、a ^P _m、r ^B _m和a ^B _m，其中所述r ^P _m和a ^P _m分别表示拉取臂探索带来的回报值序列和序号序列，所述r ^B _m和a ^B _m分别表示被广播的回报值序列和序号序列。

优选地，所述在回合t+1广播所述臂k的回报值和序号后，将所述臂k的回报值和序号存储在智能体m的内嵌私有表的被广播的回报值序列和序号序列；回合t+1拉取臂探索带来的回报值为0，存储在拉取臂探索带来的回报值序列中。

优选地，所述经验平均最高回报值为公共调度中心信息储存表的经验平均回报值的最大值；所述公共调度中心信息储存表的经验平均回报值的计算公式为：

其中，

：公共调度中心信息储存表的经验平均回报值；

：公共调度中心信息储存表中最近τ个回合臂k记录的次数；

：公共调度中心信息储存表中臂k记录的次数；

：公共调度中心信息储存表中序号序列a在回合s;

：公共调度中心信息储存表中序号序列a的元素个数；

：公共调度中心信息储存表中臂k的回报值。

优选地，所述在回合t+1拉取臂探索的方法为，采用移动窗口的置信区间上界选臂策略，具体方法为：智能体m，将选择拥有以下公式最大值的臂，

其中，

：智能体m的移动窗口内臂x的经验平均回报值；

：智能体m的所有t回合臂x的经验平均回报值；

：智能体m在移动窗口内所有臂的选择次数

：臂x被智能体m在最近κ个回合中选择的次数；

：超参数，设置为常数0.5。

优选地，所述臂k的回报置信区间下界的计算公式为：

其中，

：臂k的回报置信区间下界；

：智能体m内嵌私有表的回报值序列的标准差；

：智能体m内嵌私有表的回报值序列的臂k经验平均回报值；

：臂k被智能体m在最近τ个回合选择的次数；

α：双侧置信区间的显著水平。

优选地，所述α的取值范围为，0.01≤α≤0.1。

优选地，所述最近τ个回合臂k回报的波动率为：

：最近τ个回合臂k回报的波动率。

优选地，所述最近τ个回合臂k回报的波动率的移动平均数为：

：最近τ个回合臂k回报的波动率的移动平均数。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，

(1) 在基于移动窗口的置信区间上界的趋势跟踪选臂策略中，趋势跟踪的核心理念是移动窗口时间内以及所有回合内的回报水平的比较。该机制将加速智能体对多臂老虎机内拥有最高回报期望的臂的追踪与更新。

(2) 信息筛查机制的核心理念是着眼于拥有最高回报期望的臂。这一机制包含三条标准来评价共享当前回报信息至公共调度中心的价值。条件避免了让智能体广播较低回报数值的信息，避免了智能体对偶然的高回报信息进行广播，使智能体更加肯定回报信息的可靠性，从而降低后续回合产生较高的悔恨值的可能性。

附图说明

图1为本发明实施例提供的非平稳环境中去中心化多智能系统的决策方法流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

当公共调度中心搜集信息结束后，它会根据移动窗口内所有的信息产生一个选择臂概率序列P(t)={ P (t)_k; k∈K }。因此，各策略的中心化版本可以看作为其相对应去中心化版本的测试基准。可以使用中心化的策略来测试对比有价沟通的去中心化策略的表现。

本申请实施例提供的非平稳环境中去中心化多智能系统的决策方法，包括：

S1：在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表；所述内嵌私有表包括：四列r ^P _m、a ^P _m、r ^B _m和a ^B _m，其中所述r ^P _m和a ^P _m分别表示拉取臂探索带来的回报值序列和序号序列，所述r ^B _m和a ^B _m分别表示被广播的回报值序列和序号序列；

S2：如果公共调度中心信息储存表中没有臂k的回报值和序号记录，则在回合t+1广播所述臂k的回报值和序号；如果公共调度中心信息储存表中有臂k的所述回报值和序号记录，则进入下一步判断；所述公共调度中心信息储存表包括：两列r和a分别表示被广播的回报值序列和序号序列；

所述经验平均最高回报值为公共调度中心信息储存表的经验平均回报值的最大值；所述公共调度中心信息储存表的经验平均回报值的计算公式为：

其中，

：公共调度中心信息储存表的经验平均回报值；

：公共调度中心信息储存表中最近τ个回合臂k记录的次数；

：公共调度中心信息储存表中臂k记录的次数；

：公共调度中心信息储存表中序号序列a在回合s;

：公共调度中心信息储存表中序号序列a的元素个数；

：公共调度中心信息储存表中臂k的回报值；

对于采用置信区间上界的策略的智能体m，当它将所有臂都选择过一遍后，它会在选择臂的回合根据

选择臂。采用置信区间上界的策略的智能体在确认每个臂的平均回报后（即对每一个臂都至少有一个回报信息），智能体会计算置信区间来选择在过去经验中较少被选择的臂。这与贪婪策略（ε-Greedy）的设置一个固定的概率来完全随机选择臂的策略思想不同

所述在回合t+1拉取臂探索的方法为，采用移动窗口的置信区间上界选臂策略，具体方法为：智能体m，将选择拥有以下公式最大值的臂，

其中，

：智能体m的移动窗口内臂x的经验平均回报值；

：智能体m的所有t回合臂x的经验平均回报值；

：智能体m在移动窗口内所有臂的选择次数

：臂x被智能体m在最近κ个回合中选择的次数；

：超参数，设置为0.5；

移动窗口的置信区间上界选臂策略保留了移动窗口可过滤过期信息的功能以及置信区间上界的策略的“探索”能力。而该功能是通过移动窗口内的回报水平以及整体时间段内的回报水平的比较来保证的。移动窗口内的回报相对水平体现了回报的在周期性非平稳变动环境中定性的走向，即回报期望上升或者下降。

S4：计算臂k的回报置信区间下界；

所述臂k的回报置信区间下界的计算公式为：

其中，

：臂k的回报置信区间下界；

：智能体m内嵌私有表的回报值序列的标准差；

：智能体m内嵌私有表的回报值序列的臂k经验平均回报值；

：臂k被智能体m在最近τ个回合选择的次数；

α：双侧置信区间的显著水平，设置为0.05；

所述最近τ个回合臂k回报的波动率为：

；

所述最近τ个回合臂k回报的波动率的移动平均数为：

；

根据上述方案，进一步所述决策方法还包括：

在回合t+1广播所述臂k的回报值和序号后，

(2) 将所述臂k的回报值和序号存储在智能体m的内嵌私有表；将所述臂k的回报值和序号存储在智能体m的内嵌私有表的被广播的回报值序列和序号序列；回合t+1拉取臂探索带来的回报值为0，存储在拉取臂探索带来的回报值序列中。

综上所述，比较当前获得的回报信息以及经验平均最高回报值，这一条件避免让智能体广播较低回报数值的信息。二是对当前臂的回报置信区间的计算，这一审查条件避免了智能体对偶然的高回报信息进行广播，使智能体更加肯定回报信息的可靠性，从而降低后续回合产生较高的悔恨值的可能性。最后是智能体对当前臂的回报的波动率与回报的波动率的移动平均数进行对比，回报的波动率越高，则说明该回报信息所含新信号的可能性越大，与历史已知情况越不一样，其信息广播价值越高。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.非平稳环境中去中心化多智能系统的决策方法，其特征在于，包括：

S4：计算臂k的回报置信区间下界；

S7：如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数，则在回合t+1广播所述臂k的回报值和序号；如果所述最近τ个回合臂k回报的波动率小于最近τ个回合臂k回报的波动率的移动平均数，则在回合t+1拉取臂探索；

其中，

：智能体m的移动窗口内臂x的经验平均回报值；

：智能体m的所有t回合臂x的经验平均回报值；

：智能体m在移动窗口内所有臂的选择次数

：臂x被智能体m在最近κ个回合中选择的次数；

：超参数，设置为常数0.5；

所述臂k的回报置信区间下界的计算公式为：

其中，

：臂k的回报置信区间下界；

：智能体m内嵌私有表的回报值序列的标准差；

：智能体m内嵌私有表的回报值序列的臂k经验平均回报值；

：臂k被智能体m在最近τ个回合选择的次数；

α：双侧置信区间的显著水平。

2.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法，其特征在于，所述决策方法还包括：

在回合t+1广播所述臂k的回报值和序号后，

(2) 将所述臂k的回报值和序号存储在智能体m的内嵌私有表。

3.根据权利要求2所述的非平稳环境中去中心化多智能系统的决策方法，其特征在于，所述公共调度中心信息储存表包括：两列r和a分别表示被广播的回报值序列和序号序列；所述内嵌私有表包括：四列r ^P _m、a ^P _m、r ^B _m和a ^B _m，其中所述r ^P _m和a ^P _m分别表示拉取臂探索带来的回报值序列和序号序列，所述r ^B _m和a ^B _m分别表示被广播的回报值序列和序号序列。

4.根据权利要求3所述的非平稳环境中去中心化多智能系统的决策方法，其特征在于，所述在回合t+1广播所述臂k的回报值和序号后，将所述臂k的回报值和序号存储在智能体m的内嵌私有表的被广播的回报值序列和序号序列；回合t+1拉取臂探索带来的回报值为0，存储在拉取臂探索带来的回报值序列中。

5.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法，其特征在于，所述经验平均最高回报值为公共调度中心信息储存表的经验平均回报值的最大值；所述公共调度中心信息储存表的经验平均回报值的计算公式为：