CN112668721B - 非平稳环境中去中心化多智能系统的决策方法 - Google Patents

非平稳环境中去中心化多智能系统的决策方法 Download PDF

Info

Publication number
CN112668721B
CN112668721B CN202110286015.9A CN202110286015A CN112668721B CN 112668721 B CN112668721 B CN 112668721B CN 202110286015 A CN202110286015 A CN 202110286015A CN 112668721 B CN112668721 B CN 112668721B
Authority
CN
China
Prior art keywords
arm
return value
sequence
round
rounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110286015.9A
Other languages
English (en)
Other versions
CN112668721A (zh
Inventor
张俊格
李庆明
尹奇跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110286015.9A priority Critical patent/CN112668721B/zh
Publication of CN112668721A publication Critical patent/CN112668721A/zh
Application granted granted Critical
Publication of CN112668721B publication Critical patent/CN112668721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供非平稳环境中去中心化多智能系统的决策方法,包括:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;否则进入下一步判断;如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;否则在回合t+1拉取臂探索。

Description

非平稳环境中去中心化多智能系统的决策方法
技术领域
本申请涉及多智能体、在线学习领域,尤其涉及非平稳环境中去中心化多智能系统的决策方法。
背景技术
多智能体系统的多个方面在过去十年中引起了越来越多的关注,尤其是在多智能体机器人系统和策略优化两个领域。在所有类型的多智能体系统中,其中一些需要要求多智能体系统以团队形式工作以在预定机制下实现目标。在多智能体机器人领域中,多机器人系统被置于动态环境中而去中心化的机器人系统旨在实现集体目标。同时,智能体信息交换机制对策略系统的表现有很大影响。在没有已知知识信息或策略的多智能体系统内进行协调是多智能体系统领域的最新挑战,需要去中心化的智能体采用利用对方过去经验知识并采取行动实现目标的策略。
一个典型的多臂老虎机问题(Multi-armed Bandit, MAB)是一个智能体在每一轮中选择一个它所认为的产生最高回报的手臂以实现回报最大化的目标。在目前已有的,针对经典的MAB问题的各种众所周知解决方案已具有良好的性能。在多智能体的多臂老虎机问题中,去中心化的多智能体系统(Multi-agent System, MAS)中的智能体的目标是在给定数量的轮次之后最大化总体系统的回报。其中,信息共享机制在多智能体系统选臂策略中起着重要作用,原因是信息共享在去中心化的系统中是有成本的。成本在不同的应用环境中有不同的形式。而以非平稳变化的回报过程为背景的MAB问题则更复杂在非平稳的MAB问题中(Restless Multi-armed Bandit, RMAB),臂的奖励随时间动态变化。
授权公告号CN 110351884 B明公开了一种基于双层多臂老虎机统计模型的频谱机会接入方法。该方法为:首先使用双层多臂老虎机统计学模型,建模信道感知与接入过程;然后分析次用户运行场景,如果属于单主用户站下的认知网络,则采用同构信道感知接入方法进行频谱机会接入;如果属于多主用户站下的认知网络,则采用异构信道感知接入方法进行频谱机会接入。本发明在有限时间下保证O( lnt )的收益损失性能,O( lnt )表示算法的收益损失随lnt曲线线性变化,在时间足够大条件下具有统计渐近有效性,能够在对授权用户不造成有害干扰的前提下完成高效数据传输。
申请公布号CN 111028080 A涉及一种基于多臂老虎机和Shapley值的群智感知数据动态交易方法,属于大数据和群智感知技术领域。本发明首先利用Shapley值判定每个“工人”的数据对“买家”的边际贡献,包括考虑新数据的直接贡献和考虑冗余数据的间接贡献。之后,“买家”会选择边际贡献较高的“工人”,并给出意向的交易价格。为了提高交易的成功率并得到最大的回报,“买家”实施一定的学习策略。针对给出高价保证交易成功,和试探底线获得更大回报的两难问题,利用上下文形式的多臂老虎机模型进行学习,该策略在每个轮次中选择可观察到的最佳价格,逐渐进行调整以适应“工人”的心理底线。采用本方法推断出的“工人”的价格预期更接近实际值,“买家”由此获得更大回报。
发明内容
有鉴于此,本发明提供一种非平稳环境中去中心化多智能系统的决策方法,具体地,本发明是通过如下技术方案实现的,包括:
S1:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;
S2:如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;如果公共调度中心信息储存表中有臂k的所述回报值和序号记录,则进入下一步判断;
S3:如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;如果所述臂k的回报值小于经验平均最高回报值,则在回合t+1拉取臂探索;
S4:计算臂k的回报置信区间下界;
S5:如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;如果所述臂k的回报置信区间下界小于所述经验平均最高回报值,则在回合t+1拉取臂探索;
S6:计算最近τ个回合臂k回报的波动率和最近τ个回合臂k回报的波动率的移动平均数;
S7:如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;如果所述最近τ个回合臂k回报的波动率小于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1拉取臂探索。
优选地,所述决策方法还包括:
在回合t+1广播所述臂k的回报值和序号后,
(1) 将所述臂k的回报值和序号存储在公共调度中心信息储存表;
(2) 将所述臂k的回报值和序号存储在智能体m的内嵌私有表。
优选地,所述公共调度中心信息储存表包括:两列ra分别表示被广播的回报值序列和序号序列;所述内嵌私有表包括:四列r P m a P m r B m a B m ,其中所述r P m a P m 分别表示拉取臂探索带来的回报值序列和序号序列,所述r B m a B m 分别表示被广播的回报值序列和序号序列。
优选地,所述在回合t+1广播所述臂k的回报值和序号后,将所述臂k的回报值和序号存储在智能体m的内嵌私有表的被广播的回报值序列和序号序列;回合t+1拉取臂探索带来的回报值为0,存储在拉取臂探索带来的回报值序列中。
优选地,所述经验平均最高回报值为公共调度中心信息储存表的经验平均回报值的最大值;所述公共调度中心信息储存表的经验平均回报值的计算公式为:
Figure DEST_PATH_IMAGE001
Figure 255490DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中,
Figure 660802DEST_PATH_IMAGE004
:公共调度中心信息储存表的经验平均回报值;
Figure DEST_PATH_IMAGE005
:公共调度中心信息储存表中最近τ个回合臂k记录的次数;
Figure 550260DEST_PATH_IMAGE006
:公共调度中心信息储存表中臂k记录的次数;
Figure DEST_PATH_IMAGE007
:公共调度中心信息储存表中序号序列a在回合s;
Figure 757251DEST_PATH_IMAGE008
:公共调度中心信息储存表中序号序列a的元素个数;
Figure DEST_PATH_IMAGE009
:公共调度中心信息储存表中臂k的回报值。
优选地,所述在回合t+1拉取臂探索的方法为,采用移动窗口的置信区间上界选臂策略,具体方法为:智能体m,将选择拥有以下公式最大值的臂,
Figure 73963DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 468035DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,
Figure 161184DEST_PATH_IMAGE014
:智能体m的移动窗口内臂x的经验平均回报值;
Figure DEST_PATH_IMAGE015
:智能体m的所有t回合臂x的经验平均回报值;
Figure 222681DEST_PATH_IMAGE016
:智能体m在移动窗口内所有臂的选择次数
Figure DEST_PATH_IMAGE017
:臂x被智能体m在最近κ个回合中选择的次数;
Figure 975874DEST_PATH_IMAGE018
:超参数,设置为常数0.5。
优选地,所述臂k的回报置信区间下界的计算公式为:
Figure DEST_PATH_IMAGE019
Figure 122821DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
Figure 852618DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
:臂k的回报置信区间下界;
Figure 503042DEST_PATH_IMAGE024
:智能体m内嵌私有表的回报值序列的标准差;
Figure DEST_PATH_IMAGE025
:智能体m内嵌私有表的回报值序列的臂k经验平均回报值;
Figure 692715DEST_PATH_IMAGE026
:臂k被智能体m在最近τ个回合选择的次数;
α:双侧置信区间的显著水平。
优选地,所述α的取值范围为,0.01≤α≤0.1。
优选地,所述最近τ个回合臂k回报的波动率为:
Figure DEST_PATH_IMAGE027
Figure 61379DEST_PATH_IMAGE028
:最近τ个回合臂k回报的波动率。
优选地,所述最近τ个回合臂k回报的波动率的移动平均数为:
Figure DEST_PATH_IMAGE029
Figure 361910DEST_PATH_IMAGE030
:最近τ个回合臂k回报的波动率的移动平均数。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,
(1) 在基于移动窗口的置信区间上界的趋势跟踪选臂策略中,趋势跟踪的核心理念是移动窗口时间内以及所有回合内的回报水平的比较。该机制将加速智能体对多臂老虎机内拥有最高回报期望的臂的追踪与更新。
(2) 信息筛查机制的核心理念是着眼于拥有最高回报期望的臂。这一机制包含三条标准来评价共享当前回报信息至公共调度中心的价值。条件避免了让智能体广播较低回报数值的信息,避免了智能体对偶然的高回报信息进行广播,使智能体更加肯定回报信息的可靠性,从而降低后续回合产生较高的悔恨值的可能性。
附图说明
图1为本发明实施例提供的非平稳环境中去中心化多智能系统的决策方法流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
当公共调度中心搜集信息结束后,它会根据移动窗口内所有的信息产生一个选择臂概率序列P(t)={ P (t)k; k∈K }。因此,各策略的中心化版本可以看作为其相对应去中心化版本的测试基准。可以使用中心化的策略来测试对比有价沟通的去中心化策略的表现。
本申请实施例提供的非平稳环境中去中心化多智能系统的决策方法,包括:
S1:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;所述内嵌私有表包括:四列r P m a P m r B m a B m ,其中所述r P m a P m 分别表示拉取臂探索带来的回报值序列和序号序列,所述r B m a B m 分别表示被广播的回报值序列和序号序列;
S2:如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;如果公共调度中心信息储存表中有臂k的所述回报值和序号记录,则进入下一步判断;所述公共调度中心信息储存表包括:两列ra分别表示被广播的回报值序列和序号序列;
S3:如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;如果所述臂k的回报值小于经验平均最高回报值,则在回合t+1拉取臂探索;
所述经验平均最高回报值为公共调度中心信息储存表的经验平均回报值的最大值;所述公共调度中心信息储存表的经验平均回报值的计算公式为:
Figure 132420DEST_PATH_IMAGE001
Figure 492994DEST_PATH_IMAGE002
Figure 614534DEST_PATH_IMAGE003
其中,
Figure 453177DEST_PATH_IMAGE004
:公共调度中心信息储存表的经验平均回报值;
Figure 78194DEST_PATH_IMAGE005
:公共调度中心信息储存表中最近τ个回合臂k记录的次数;
Figure 609669DEST_PATH_IMAGE006
:公共调度中心信息储存表中臂k记录的次数;
Figure 952926DEST_PATH_IMAGE007
:公共调度中心信息储存表中序号序列a在回合s;
Figure 860839DEST_PATH_IMAGE008
:公共调度中心信息储存表中序号序列a的元素个数;
Figure 104476DEST_PATH_IMAGE009
:公共调度中心信息储存表中臂k的回报值;
对于采用置信区间上界的策略的智能体m,当它将所有臂都选择过一遍后,它会在选择臂的回合根据
Figure DEST_PATH_IMAGE031
选择臂。采用置信区间上界的策略的智能体在确认每个臂的平均回报后(即对每一个臂都至少有一个回报信息),智能体会计算置信区间来选择在过去经验中较少被选择的臂。这与贪婪策略(ε-Greedy)的设置一个固定的概率来完全随机选择臂的策略思想不同
所述在回合t+1拉取臂探索的方法为,采用移动窗口的置信区间上界选臂策略,具体方法为:智能体m,将选择拥有以下公式最大值的臂,
Figure 541274DEST_PATH_IMAGE032
Figure 371826DEST_PATH_IMAGE033
Figure 552272DEST_PATH_IMAGE012
Figure 417460DEST_PATH_IMAGE013
其中,
Figure 290738DEST_PATH_IMAGE014
:智能体m的移动窗口内臂x的经验平均回报值;
Figure 608587DEST_PATH_IMAGE015
:智能体m的所有t回合臂x的经验平均回报值;
Figure 592723DEST_PATH_IMAGE016
:智能体m在移动窗口内所有臂的选择次数
Figure 312418DEST_PATH_IMAGE017
:臂x被智能体m在最近κ个回合中选择的次数;
Figure 356597DEST_PATH_IMAGE018
:超参数,设置为0.5;
移动窗口的置信区间上界选臂策略保留了移动窗口可过滤过期信息的功能以及置信区间上界的策略的“探索”能力。而该功能是通过移动窗口内的回报水平以及整体时间段内的回报水平的比较来保证的。移动窗口内的回报相对水平体现了回报的在周期性非平稳变动环境中定性的走向,即回报期望上升或者下降。
S4:计算臂k的回报置信区间下界;
所述臂k的回报置信区间下界的计算公式为:
Figure 427321DEST_PATH_IMAGE019
Figure 215149DEST_PATH_IMAGE020
Figure 789349DEST_PATH_IMAGE021
Figure 270009DEST_PATH_IMAGE022
其中,
Figure 296871DEST_PATH_IMAGE023
:臂k的回报置信区间下界;
Figure 888390DEST_PATH_IMAGE024
:智能体m内嵌私有表的回报值序列的标准差;
Figure 317097DEST_PATH_IMAGE025
:智能体m内嵌私有表的回报值序列的臂k经验平均回报值;
Figure 201614DEST_PATH_IMAGE026
:臂k被智能体m在最近τ个回合选择的次数;
α:双侧置信区间的显著水平,设置为0.05;
S5:如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;如果所述臂k的回报置信区间下界小于所述经验平均最高回报值,则在回合t+1拉取臂探索;
S6:计算最近τ个回合臂k回报的波动率和最近τ个回合臂k回报的波动率的移动平均数;
所述最近τ个回合臂k回报的波动率为:
Figure 981351DEST_PATH_IMAGE027
所述最近τ个回合臂k回报的波动率的移动平均数为:
Figure 110981DEST_PATH_IMAGE029
S7:如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;如果所述最近τ个回合臂k回报的波动率小于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1拉取臂探索。
根据上述方案,进一步所述决策方法还包括:
在回合t+1广播所述臂k的回报值和序号后,
(1) 将所述臂k的回报值和序号存储在公共调度中心信息储存表;
(2) 将所述臂k的回报值和序号存储在智能体m的内嵌私有表;将所述臂k的回报值和序号存储在智能体m的内嵌私有表的被广播的回报值序列和序号序列;回合t+1拉取臂探索带来的回报值为0,存储在拉取臂探索带来的回报值序列中。
综上所述,比较当前获得的回报信息以及经验平均最高回报值,这一条件避免让智能体广播较低回报数值的信息。二是对当前臂的回报置信区间的计算,这一审查条件避免了智能体对偶然的高回报信息进行广播,使智能体更加肯定回报信息的可靠性,从而降低后续回合产生较高的悔恨值的可能性。最后是智能体对当前臂的回报的波动率与回报的波动率的移动平均数进行对比,回报的波动率越高,则说明该回报信息所含新信号的可能性越大,与历史已知情况越不一样,其信息广播价值越高。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.非平稳环境中去中心化多智能系统的决策方法,其特征在于,包括:
S1:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;
S2:如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;如果公共调度中心信息储存表中有臂k的所述回报值和序号记录,则进入下一步判断;
S3:如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;如果所述臂k的回报值小于经验平均最高回报值,则在回合t+1拉取臂探索;
S4:计算臂k的回报置信区间下界;
S5:如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;如果所述臂k的回报置信区间下界小于所述经验平均最高回报值,则在回合t+1拉取臂探索;
S6:计算最近τ个回合臂k回报的波动率和最近τ个回合臂k回报的波动率的移动平均数;
S7:如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;如果所述最近τ个回合臂k回报的波动率小于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1拉取臂探索;
所述在回合t+1拉取臂探索的方法为,采用移动窗口的置信区间上界选臂策略,具体方法为:智能体m,将选择拥有以下公式最大值的臂,
Figure 784127DEST_PATH_IMAGE001
Figure 896440DEST_PATH_IMAGE002
Figure 418557DEST_PATH_IMAGE003
Figure 616320DEST_PATH_IMAGE004
其中,
Figure 163976DEST_PATH_IMAGE005
:智能体m的移动窗口内臂x的经验平均回报值;
Figure 927533DEST_PATH_IMAGE006
:智能体m的所有t回合臂x的经验平均回报值;
Figure 417289DEST_PATH_IMAGE007
:智能体m在移动窗口内所有臂的选择次数
Figure 571189DEST_PATH_IMAGE008
:臂x被智能体m在最近κ个回合中选择的次数;
Figure 922536DEST_PATH_IMAGE009
:超参数,设置为常数0.5;
所述臂k的回报置信区间下界的计算公式为:
Figure 743862DEST_PATH_IMAGE010
Figure 404519DEST_PATH_IMAGE011
Figure 108033DEST_PATH_IMAGE012
Figure 997492DEST_PATH_IMAGE013
其中,
Figure 938903DEST_PATH_IMAGE014
:臂k的回报置信区间下界;
Figure 255615DEST_PATH_IMAGE015
:智能体m内嵌私有表的回报值序列的标准差;
Figure 901884DEST_PATH_IMAGE016
:智能体m内嵌私有表的回报值序列的臂k经验平均回报值;
Figure 391771DEST_PATH_IMAGE017
:臂k被智能体m在最近τ个回合选择的次数;
α:双侧置信区间的显著水平。
2.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述决策方法还包括:
在回合t+1广播所述臂k的回报值和序号后,
(1) 将所述臂k的回报值和序号存储在公共调度中心信息储存表;
(2) 将所述臂k的回报值和序号存储在智能体m的内嵌私有表。
3.根据权利要求2所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述公共调度中心信息储存表包括:两列ra分别表示被广播的回报值序列和序号序列;所述内嵌私有表包括:四列r P m a P m r B m a B m ,其中所述r P m a P m 分别表示拉取臂探索带来的回报值序列和序号序列,所述r B m a B m 分别表示被广播的回报值序列和序号序列。
4.根据权利要求3所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述在回合t+1广播所述臂k的回报值和序号后,将所述臂k的回报值和序号存储在智能体m的内嵌私有表的被广播的回报值序列和序号序列;回合t+1拉取臂探索带来的回报值为0,存储在拉取臂探索带来的回报值序列中。
5.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述经验平均最高回报值为公共调度中心信息储存表的经验平均回报值的最大值;所述公共调度中心信息储存表的经验平均回报值的计算公式为:
Figure 656531DEST_PATH_IMAGE018
Figure 206461DEST_PATH_IMAGE019
Figure 87829DEST_PATH_IMAGE020
其中,
Figure 319090DEST_PATH_IMAGE021
:公共调度中心信息储存表的经验平均回报值;
Figure 766252DEST_PATH_IMAGE022
:公共调度中心信息储存表中最近τ个回合臂k记录的次数;
Figure 408455DEST_PATH_IMAGE023
:公共调度中心信息储存表中臂k记录的次数;
Figure 573857DEST_PATH_IMAGE024
:公共调度中心信息储存表中序号序列a在回合s;
Figure 343230DEST_PATH_IMAGE025
:公共调度中心信息储存表中序号序列a的元素个数;
Figure 113740DEST_PATH_IMAGE026
:公共调度中心信息储存表中臂k的回报值。
6.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述α的取值范围为,0.01≤α≤0.1。
7.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述最近τ个回合臂k回报的波动率为:
Figure 739893DEST_PATH_IMAGE027
Figure 330274DEST_PATH_IMAGE028
:最近τ个回合臂k回报的波动率。
8.根据权利要求1所述的非平稳环境中去中心化多智能系统的决策方法,其特征在于,所述最近τ个回合臂k回报的波动率的移动平均数为:
Figure 965655DEST_PATH_IMAGE029
Figure 308781DEST_PATH_IMAGE030
:最近τ个回合臂k回报的波动率的移动平均数。
CN202110286015.9A 2021-03-17 2021-03-17 非平稳环境中去中心化多智能系统的决策方法 Active CN112668721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110286015.9A CN112668721B (zh) 2021-03-17 2021-03-17 非平稳环境中去中心化多智能系统的决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110286015.9A CN112668721B (zh) 2021-03-17 2021-03-17 非平稳环境中去中心化多智能系统的决策方法

Publications (2)

Publication Number Publication Date
CN112668721A CN112668721A (zh) 2021-04-16
CN112668721B true CN112668721B (zh) 2021-07-02

Family

ID=75399624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110286015.9A Active CN112668721B (zh) 2021-03-17 2021-03-17 非平稳环境中去中心化多智能系统的决策方法

Country Status (1)

Country Link
CN (1) CN112668721B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN111028080A (zh) * 2019-12-09 2020-04-17 北京理工大学 基于多臂老虎机和Shapley值的群智感知数据动态交易方法
CN112256739A (zh) * 2020-11-12 2021-01-22 同济大学 一种基于多臂赌博机的动态流大数据中数据项筛选方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709647A (zh) * 2016-12-25 2017-05-24 复旦大学 一种基于用户观测质量在线学习的群智感知激励方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN111028080A (zh) * 2019-12-09 2020-04-17 北京理工大学 基于多臂老虎机和Shapley值的群智感知数据动态交易方法
CN112256739A (zh) * 2020-11-12 2021-01-22 同济大学 一种基于多臂赌博机的动态流大数据中数据项筛选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Coordinated Versus Decentralized Exploration";Mithun Chakraborty,etc;《Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence》;20171231;第164页-170页 *

Also Published As

Publication number Publication date
CN112668721A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN104168318B (zh) 一种资源服务系统及其资源分配方法
CN110262274B (zh) 基于物联网操作系统的智能家居设备控制显示方法及系统
CN106658422B (zh) 针对高度稀疏WiFi数据的网络侧定位方法与系统
CN106911812A (zh) 一种会话信息的处理方法、服务器及计算机可读存储介质
EP2793229A1 (en) Noise cancellation for voice activation
EP1421784A2 (en) Adaptive sampling technique for selecting negative examples for artificial intelligence applications
CN111866954A (zh) 一种基于联邦学习的用户选择和资源分配方法
CN113490184B (zh) 一种面向智慧工厂的随机接入资源优化方法及装置
CN108121210A (zh) 家电设备的权限分配方法和装置、存储介质、处理器
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN113792920B (zh) 一种面向单诊室的医院就诊顺序优化方法及装置
CN105991401A (zh) 一种网络问答方法和系统
CN109447851A (zh) 一种备餐、菜品提供方法、装置以及设备
CN112668721B (zh) 非平稳环境中去中心化多智能系统的决策方法
CN110996365B (zh) 一种基于多目标优化模型的异构网络垂直切换算法及系统
CN107305350A (zh) 智能家居系统的控制方法及其智能家居系统
CN106899656A (zh) 设备控制方法和装置
CN107018168A (zh) 互联网资源调度方法及装置、网络红包调度方法
CN105894199A (zh) 工单处理方法及装置
CN107402812A (zh) 集群资源调度方法、装置、设备及存储介质
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
CN106846142A (zh) 一种信息处理方法及服务器
CN111683409B (zh) 多无人机协同通信q值表的学习方法、调度方法及装置
CN105765569B (zh) 一种数据分发方法,装载机及存储系统
CN105045223B (zh) 一种不确定条件下多产品间歇过程生产调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant