CN113128705B - 一种智能体最优策略获取方法及装置 - Google Patents

一种智能体最优策略获取方法及装置 Download PDF

Info

Publication number
CN113128705B
CN113128705B CN202110314960.5A CN202110314960A CN113128705B CN 113128705 B CN113128705 B CN 113128705B CN 202110314960 A CN202110314960 A CN 202110314960A CN 113128705 B CN113128705 B CN 113128705B
Authority
CN
China
Prior art keywords
environment
agent
intelligent
rewards
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110314960.5A
Other languages
English (en)
Other versions
CN113128705A (zh
Inventor
徐诚
殷楠
段世红
何昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shunde Graduate School of USTB
Original Assignee
Shunde Graduate School of USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shunde Graduate School of USTB filed Critical Shunde Graduate School of USTB
Priority to CN202110314960.5A priority Critical patent/CN113128705B/zh
Publication of CN113128705A publication Critical patent/CN113128705A/zh
Application granted granted Critical
Publication of CN113128705B publication Critical patent/CN113128705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种智能体最优策略获取方法及装置,该方法包括:将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;利用卡尔曼滤波算法,从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;根据各智能体对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。本发明解决了不平稳环境下的多智能体系统信用分配问题,能提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。

Description

一种智能体最优策略获取方法及装置
技术领域
本发明涉及多智能体强化学习技术领域,特别涉及一种智能体最优策略获取方法及装置。
背景技术
随着强化学习在工业、通信等领域的广泛应用,依据现实任务的需求,多个智能体在合作或竞争的环境中如何高效交互成为重点讨论的问题。在部分可观测环境下,相比单智能体,引入多智能体使得状态空间的马尔可夫性失效,即环境不平稳。这是由于智能体不具备全局观测的能力,从而无法获取其他智能体对环境做出的改变,得不到真实的环境状态。
当使用同样的全局奖励信号来训练多个智能体时,尤其是在合作任务情况下,要明确单个智能体对团队做出的贡献,降低环境不平稳性对智能体学习的影响,即需要解决多智能体系统中的信用分配问题。对于多智能体系统的单个智能体学习环境下的最优策略,使用个人奖励而非全局奖励训练则会更加有效。
针对上述需求,现有技术多从博弈论和广义马尔可夫决策过程MDP角度出发,假设我们对于所处环境模式有足够的领域知识,从而证实了这些方法在降低环境不平稳对智能体学习的影响是可行的。然而当环境中其他智能体的行为产生变化,或者智能体无法观察到的全部的环境变化时,这些技术则会失效。除此之外,也有将滤波方法应用于强化学习框架。证实了在简单的网格环境下,滤波与基于值函数的强化学习方法结合,对提高智能体学习效率是有效的。
综上所述,现有的多智能体信用分配强化学习方法难以满足复杂的部分可观测环境下的智能体协作需求,解决效率较低且应用能力较差。
发明内容
本发明提供了一种智能体最优策略获取方法及装置,以解决现有的多智能体信用分配强化学习方法难以满足复杂的部分可观测环境下的智能体协作需求,解决效率较低且应用能力较差的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种智能体最优策略获取方法,适用于多智能体系统,所述智能体最优策略获取方法包括:
将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;
基于构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;
根据各智能体所对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。
进一步地,所述将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型,包括:
将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,表达式如下:
gt=r(i)t+bt
其中,gt表示t时刻的全局奖励,r(i)t表示t时刻智能体在状态i下获得的真实奖励,bt表示t时刻的噪声,而且,bt+1=bt+ztzt为服从均值为μ,方差为/>的t时刻的高斯随机变量;
系统模型的表达式如下:
其中,xt表示t时刻的状态向量;
其中,s表示状态数量;
ωt表示服从0均值高斯分布的系统噪声且协方差矩阵∑1如下:
其中,表示系统噪声的协方差;
vt表示观测误差,属于高斯白噪声,假设无观测误差,∑2=0;A表示状态转移矩阵为,A=I,C表示观测矩阵,C=(0 … 0 1i 0 … 0 1)1×(s+1),若处于状态i,则C的第i个元素和最后一个元素值为1,其余为0。
进一步地,所述基于构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励,包括:
将所述系统模型转换为如下表示:
其中,εt为零均值高斯白噪声,∑2=0;
估计由环境的不平稳性引起的噪声的协方差σ2的值;
根据估计的σ2的值,基于转换后的系统模型,利用卡尔曼滤波算法从观测到的智能体在与环境交互过程中接收的全局奖励中获得智能体对应的局部奖励。
进一步地,所述估计由环境的不平稳性引起的噪声的协方差σ2的值,包括:
初始化μ0=0,t=0;
使用连续的μ0运行卡尔曼滤波,迭代n次,记录xt+1(s+1),xt+2(s+1),…,xt+n(s+1);其中,n>200;
估计噪声的均值和方差:
其中,μt表示t时刻噪声的均值,表示t时刻噪声的方差。
进一步地,所述预设的强化学习算法为MADDPG算法。
另一方面,本发明还提供了一种智能体最优策略获取装置,适用于多智能体系统,所述智能体最优策略获取装置包括:
系统模型构建模块,用于将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型:
卡尔曼滤波模块,用于基于所述系统模型构建模块所构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;
强化学习训练模块,用于根据所述卡尔曼滤波模块计算出的各智能体所对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。
进一步地,所述系统模型构建模块具体用于:
将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,表达式如下:
gt=r(i)t+bt
其中,gt表示t时刻的全局奖励,r(i)t表示t时刻智能体在状态i下获得的真实奖励,bt表示t时刻的噪声,而且,bt+1=bt+ztzt为服从均值为μ,方差为/>的t时刻的高斯随机变量;
系统模型的表达式如下:
其中,xt表示t时刻的状态向量;
其中,s表示状态数量;
ωt表示服从0均值高斯分布的系统噪声且协方差矩阵∑1如下:
其中,表示系统噪声的协方差;
vt表示观测误差,属于高斯白噪声,假设无观测误差,∑2=0;A表示状态转移矩阵为,A=I,C表示观测矩阵,C=(0 … 0 1i 0 … 0 1)1×(s+1),若处于状态i,则C的第i个元素和最后一个元素值为1,其余为0。
进一步地,所述卡尔曼滤波模块具体用于:
将所述系统模型转换为如下表示:
其中,εt为零均值高斯白噪声,∑2=0;
估计由环境的不平稳性引起的噪声的协方差σ2的值;
根据估计的σ2的值,基于转换后的系统模型,利用卡尔曼滤波算法从观测到的智能体在与环境交互过程中接收的全局奖励中获得智能体对应的局部奖励。
进一步地,所述卡尔曼滤波模块具体还用于:
初始化μ0=0,t=0;
使用连续的μ0运行卡尔曼滤波,迭代n次,记录xt+1(s+1),xt+2(s+1),…,xt+n(s+1);其中,n>200;
估计噪声的均值和方差:
其中,μt表示t时刻噪声的均值,表示t时刻噪声的方差。
进一步地,所述强化学习训练模块所使用的强化学习算法为MADDPG算法。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明提出了部分可观测环境下的多智能体系统全局奖励信号的设定方法,并建立了全局奖励与个人贡献和环境噪声的关系;使用卡尔曼滤波方法从带噪声的全局奖励中获取智能体真实的训练回报,使其学习到不同场景下的最优策略。从而实现了部分可观测环境下多智能体执行协作任务过程中的信用分配;适用于部分可观测环境下,降低不平稳环境的影响,使多智能体高效学习在不同环境下完成任务的最优策略;解决了不平稳环境下的多智能体系统信用分配问题,可提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的智能体最优策略获取方法的流程示意图;
图2为本发明实施例提供的引入滤波的MADDPG算法框架示意图;
图3为本发明实施例提供的智能体最优策略获取方法的具体流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种智能体最优策略获取方法,适用于多智能体系统,可用于解决复杂部分可观测环境下的多智能体协作,针对环境不平稳而出现的智能体信用分配问题。解决实际场景下,未知复杂环境的目标定位和路径导航问题,适用于火场救援的受伤人员位置定位、矿场环境中机器人协作勘探路线导航等领域。该方法可由电子设备实现,该电子设备可以是终端或者服务器。
本实施例的方法结合环境的非平稳性和部分可观测性对多智能体系统的影响,建立起具有普遍意义的全局奖励和智能体自身贡献的联系。最终在多智能体训练过程中,使用基于卡尔曼滤波的信用分配方法,从观测到的带噪声的全局奖励中获得智能体局部奖励,用于单个智能体学习最优策略。
具体地,本实施例所提供的方法的执行流程如图1所示,包括以下步骤:
S101,将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;
S102,基于构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体的局部奖励;
S103,根据各智能体的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。
进一步地,需要说明的是,在合作任务情况下,要明确单个智能体对团队做出的贡献,对于系统中的单个智能体学习环境下的最优策略,使用个人奖励而非全局奖励训练则会更加有效。环境的非平稳性、部分可观测性和全局奖励的影响可以认为是用原始奖励设置的非平稳函数替代真实奖励值。对于一个智能体来说,环境中存在一个或多个不可观测的状态变量都会影响到全局奖励信号,而其他智能体的存在或者环境变化都属于不可观测的状态,故将这些不可观测的状态变量对于全局奖励信号的影响当作环境噪声来处理。基于此,本实施例将单一智能体观察到的全局奖励建模为其自身贡献(即个人奖励信号)和随机马尔可夫过程(即由其他智能体或外部因素引起的奖励信号)的总和,如果智能体在时间t处于状态i,并且它接收到全局奖励为gt,那么它可以表示为:
gt=r(i)t+bt
其中,gt表示t时刻的全局奖励,r(i)t表示t时刻智能体在状态i下获得的真实奖励,bt表示t时刻的噪声,代表不可观测的环境状态对全局奖励的影响,
而且:
bt+1=bt+zt
其中,zt为服从均值为μ,方差为的高斯随机变量;
基于上述,系统模型可以表示为:
其中,xt表示t时刻的状态向量;
其中,s表示状态数量;
ωt表示服从0均值高斯分布的系统噪声且协方差矩阵∑1如下:
其中,表示系统噪声的协方差;
vt表示观测误差,属于高斯白噪声,假设无观测误差,∑2=0;A表示状态转移矩阵为,A=I,C表示观测矩阵,C=(0 … 0 1i 0 … 0 1)1×(s+1),若处于状态i,则C的第i个元素和最后一个元素值为1,其余为0。
卡尔曼滤波是一种利用线性系统状态方程,通过输入观测数据,对系统状态进行最优估计的算法。卡尔曼滤波的优势在于它只需要部分数据,而非全部的历史状态和观测值。而且,能够在每次更新期间计算得到足够的统计数据。所以在训练过程中,可以在线运行该算法,且速度不会随着时间的推移而恶化。
标准卡尔曼滤波算法基于具有零均值高斯白噪声的系统模型。为了使用标准卡尔曼滤波算法,将上面的系统模型转换为如下表示:
其中,εt为零均值高斯白噪声,∑2=0;
进一步地,在利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体的局部奖励之前,必须猜测由环境的不平稳性引起的噪声的协方差σ2的值。然而,在一个真正的多智能体系统中,获取这个协方差值是不实际的。因为在上面给出的系统模型中噪声不为零,故本实施例采用如下的噪声在线估计方法,具体实现过程如下:
步骤1:初始化μ0=0,t=0。
步骤2:使用连续的μ0运行卡尔曼滤波,迭代n次(n>200),记录xt+1(s+1),xt+2(s+1),…,xt+n(s+1)。
步骤3:开始循环
①估计噪声的均值和方差:
②使用μt运行基于滤波的信用分配算法,记录xt+n+1(s+1)的值。
③t←t+1
结束循环。
其中,μt表示t时刻噪声的均值,表示t时刻噪声的方差。
通过上述过程,即可根据估计的σ2的值,基于转换后的系统模型,利用卡尔曼滤波算法从观测到的全局奖励中获得单一智能体对应的局部奖励。
进一步地,本实施例所采用的强化学习算法为MADDPG算法,本实施例通过在MADDPG算法中引入基于卡尔曼滤波的信用分配实现智能体训练,其框架如图2所示。在MADDPG框架的基础上引入滤波,即将智能体接收到的全局奖励信号滤除不稳定环境因素影响后得到智能体局部奖励信号,并将得到的奖励值用于对应的智能体训练,从而降低环境不平稳对智能体学习过程的影响。
结合上述状态模型和步骤,本实施例的智能体最优策略获取方法的执行过程如图3所示,其包括如下步骤:
步骤1:初始化强化学习环境、智能体网络参数和卡尔曼滤波参数。
步骤2:循环迭代
①在当前的状态i下,基于强化学习算法选择动作a并执行,到达新的状态k,得到全局奖励gt
②对状态进行预测,更新估计值和协方差矩阵/>
③使用得到的全局奖励gt更新状态后验估计值,校正模型。
④根据xt(i)获得局部奖励r(i),将探索得到的<si,ai,ri,s′i>存入经验回放池。
⑤重新估计噪声过程的均值μ和方差σ2,更新u和∑1
⑥对于每一个智能体a,a∈(1,N)从Replay buffer中随机采样数据用于更新对应智能体的actor网络和critic网络。
⑦t←t+1,i←k
停止迭代。
综上,本实施例提出了部分可观测环境下的多智能体系统全局奖励信号的设定方法并建立了全局奖励与个人贡献和环境噪声的关系;使用卡尔曼滤波方法从带噪声的全局奖励中获取智能体真实的训练回报,使其学习到不同场景下的最优策略。实现了部分可观测环境下多智能体执行协作任务过程中的信用分配;适用于部分可观测环境下,降低不平稳环境的影响,使多智能体高效学习在不同环境下完成任务的最优策略;解决了不平稳环境下的多智能体系统信用分配问题,可提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。
第二实施例
本实施例提供了一种智能体最优策略获取装置,该装置包括以下模块:
系统模型构建模块,用于将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;
卡尔曼滤波模块,用于基于所述系统模型构建模块所构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;
强化学习训练模块,用于根据所述卡尔曼滤波模块计算出的各智能体所对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略。
本实施例的智能体最优策略获取装置与上述第一实施例的智能体最优策略获取方法相对应;其中,本装置中的各功能模块所实现的功能与上述第一实施例的智能体最优策略获取方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (4)

1.一种智能体最优策略获取方法,适用于多智能系统,其特征在于,包括:
将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;
基于构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;
根据各智能体所对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略;
所述将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型,包括:
将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,表达式如下:
gt=r(i)t+bt
其中,gt表示t时刻的全局奖励,r(i)t表示t时刻智能体在状态i下获得的真实奖励,bt表示t时刻的噪声,而且,bt+1=bt+zt,zt为服从均值为μ,方差为/>的t时刻的高斯随机变量;
系统模型的表达式如下:
其中,xt表示t时刻的状态向量;
其中,s表示状态数量;
ωt表示服从0均值高斯分布的系统噪声且协方差矩阵∑1如下:
其中,表示系统噪声的协方差;
vt表示观测误差,属于高斯白噪声,假设无观测误差,∑2=0;A表示状态转移矩阵为,A=I,C表示观测矩阵,C=(0 … 0 1i 0 … 0 1)1×(s+1),若处于状态i,则C的第i个元素和最后一个元素值为1,其余为0;
所述基于构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励,包括:
将所述系统模型转换为如下表示:
其中,εt为零均值高斯白噪声,∑2=0;
估计由环境的不平稳性引起的噪声的协方差σ2的值;
根据估计的σ2的值,基于转换后的系统模型,利用卡尔曼滤波算法从观测到的智能体在与环境交互过程中接收的全局奖励中获得智能体对应的局部奖励;
所述估计由环境的不平稳性引起的噪声的协方差σ2的值,包括:
初始化μ0=0,t=0;
使用连续的μ0运行卡尔曼滤波,迭代n次,记录xt+1(s+1),xt+2(s+1),...,xt+n(s+1);其中,n>200;
估计噪声的均值和方差:
其中,μt表示t时刻噪声的均值,表示t时刻噪声的方差。
2.如权利要求1所述的智能体最优策略获取方法,其特征在于,所述预设的强化学习算法为MADDPG算法。
3.一种智能体最优策略获取装置,适用于多智能系统,其特征在于,包括:
系统模型构建模块,用于将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,构建系统模型;
卡尔曼滤波模块,用于基于所述系统模型构建模块所构建的系统模型,利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励;
强化学习训练模块,用于根据所述卡尔曼滤波模块计算出的各智能体所对应的局部奖励,通过预设的强化学习算法,对多智能系统中的各智能体进行训练,使得每一智能体分别学习到当前环境下的最优策略;
所述系统模型构建模块具体用于:
将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和,表达式如下:
gt=r(i)t+bt
其中,gt表示t时刻的全局奖励,r(i)t表示t时刻智能体在状态i下获得的真实奖励,bt表示t时刻的噪声,而且,bt+1=bt+zt,zt为服从均值为μ,方差为/>的t时刻的高斯随机变量;
系统模型的表达式如下:
其中,xt表示t时刻的状态向量;
其中,s表示状态数量;
ωt表示服从0均值高斯分布的系统噪声且协方差矩阵∑1如下:
其中,表示系统噪声的协方差;
vt表示观测误差,属于高斯白噪声,假设无观测误差,∑2=0;A表示状态转移矩阵为,A=I,C表示观测矩阵,C=(0 … 0 1i 0 … 0 1)1×(s+1),若处于状态i,则C的第i个元素和最后一个元素值为1,其余为0;
所述卡尔曼滤波模块具体用于:
将所述系统模型转换为如下表示:
其中,εt为零均值高斯白噪声,∑2=0;
估计由环境的不平稳性引起的噪声的协方差σ2的值;
根据估计的σ2的值,基于转换后的系统模型,利用卡尔曼滤波算法从观测到的智能体在与环境交互过程中接收的全局奖励中获得智能体对应的局部奖励;
所述卡尔曼滤波模块具体还用于:
初始化μ0=0,t=0;
使用连续的μ0运行卡尔曼滤波,迭代n次,记录xt+1(s+1),xt+2(s+1),...,xt+n(s+1);其中,n>200;
估计噪声的均值和方差:
其中,μt表示t时刻噪声的均值,表示t时刻噪声的方差。
4.如权利要求3所述的智能体最优策略获取装置,其特征在于,所述强化学习训练模块所使用的强化学习算法为MADDPG算法。
CN202110314960.5A 2021-03-24 2021-03-24 一种智能体最优策略获取方法及装置 Active CN113128705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110314960.5A CN113128705B (zh) 2021-03-24 2021-03-24 一种智能体最优策略获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110314960.5A CN113128705B (zh) 2021-03-24 2021-03-24 一种智能体最优策略获取方法及装置

Publications (2)

Publication Number Publication Date
CN113128705A CN113128705A (zh) 2021-07-16
CN113128705B true CN113128705B (zh) 2024-02-09

Family

ID=76774307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110314960.5A Active CN113128705B (zh) 2021-03-24 2021-03-24 一种智能体最优策略获取方法及装置

Country Status (1)

Country Link
CN (1) CN113128705B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186712A (zh) * 2021-11-01 2022-03-15 山东大学 一种基于强化学习的集装箱装卸智能化方法及系统
CN114942596B (zh) * 2022-07-26 2022-11-18 山脉科技股份有限公司 一种城市防洪排水智能控制系统
CN115660110B (zh) * 2022-12-26 2023-04-14 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体
CN116452011B (zh) * 2023-03-14 2023-10-24 中国人民解放军32370部队 一种用于智能体决策的数据处理方法及装置
CN117271967B (zh) * 2023-11-17 2024-02-13 北京科技大学 一种基于强化学习补偿滤波的救援协同定位方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6591146B1 (en) * 1999-09-16 2003-07-08 Hewlett-Packard Development Company L.C. Method for learning switching linear dynamic system models from data
CN107045655A (zh) * 2016-12-07 2017-08-15 三峡大学 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110648049A (zh) * 2019-08-21 2020-01-03 北京大学 一种基于多智能体的资源分配方法与系统
CN110726990A (zh) * 2019-09-23 2020-01-24 江苏大学 一种基于ds-gnn算法的多传感器融合方法
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111062359A (zh) * 2019-12-27 2020-04-24 广东海洋大学深圳研究院 基于噪声顺序解相关的两阶段Kalman滤波融合方法
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN111525955A (zh) * 2020-04-13 2020-08-11 青岛大学 一种基于稀疏贝叶斯学习的可见光通信的均衡方法及系统
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111695617A (zh) * 2020-06-02 2020-09-22 南京理工大学 一种基于改进的协方差交叉算法的分布式火控融合方法
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112329948A (zh) * 2020-11-04 2021-02-05 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6591146B1 (en) * 1999-09-16 2003-07-08 Hewlett-Packard Development Company L.C. Method for learning switching linear dynamic system models from data
CN107045655A (zh) * 2016-12-07 2017-08-15 三峡大学 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110648049A (zh) * 2019-08-21 2020-01-03 北京大学 一种基于多智能体的资源分配方法与系统
CN110726990A (zh) * 2019-09-23 2020-01-24 江苏大学 一种基于ds-gnn算法的多传感器融合方法
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111062359A (zh) * 2019-12-27 2020-04-24 广东海洋大学深圳研究院 基于噪声顺序解相关的两阶段Kalman滤波融合方法
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111525955A (zh) * 2020-04-13 2020-08-11 青岛大学 一种基于稀疏贝叶斯学习的可见光通信的均衡方法及系统
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN111695617A (zh) * 2020-06-02 2020-09-22 南京理工大学 一种基于改进的协方差交叉算法的分布式火控融合方法
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112329948A (zh) * 2020-11-04 2021-02-05 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
分层强化学习研究进展;程晓北;沈晶;刘海波;顾国昌;张国印;;计算机工程与应用(13);全文 *
基于内在动机的智能机器人自主发育算法;任红格;向迎帆;李福进;;计算机应用(09);全文 *
基于延迟策略的最大熵优势演员评论家算法;祁文凯;桑国明;;小型微型计算机系统(08);全文 *
基于狼爬山快速多智能体学习策略的电力系统智能发电控制方法;席磊;余涛;张孝顺;张泽宇;谭敏;电工技术学报;30(23);全文 *
稀疏奖励下基于MADDPG算法的多智能体协同;许诺;杨振伟;;现代计算机(15);全文 *

Also Published As

Publication number Publication date
CN113128705A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113128705B (zh) 一种智能体最优策略获取方法及装置
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
US11580378B2 (en) Reinforcement learning for concurrent actions
Ni et al. Prioritizing useful experience replay for heuristic dynamic programming-based learning systems
JP2013242761A (ja) マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
Ontanón et al. A dynamic-bayesian network framework for modeling and evaluating learning from observation
CN106022471A (zh) 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法
Alessandri et al. Robust receding-horizon state estimation for uncertain discrete-time linear systems
Cao et al. Distributed fusion-based policy search for fast robot locomotion learning
CN112488826A (zh) 基于深度强化学习对银行风险定价的优化方法和装置
Mrugalski et al. State-space GMDH neural networks for actuator robust fault diagnosis
CN112613608A (zh) 一种强化学习方法及相关装置
Oliehoek et al. The decentralized POMDP framework
Wang et al. Degradation prediction method by use of autoregressive algorithm
CN113240118B (zh) 优势估计方法、装置、电子设备和存储介质
CN112836805B (zh) Krfpv算法、执行装置、电子设备、存储介质以及神经网络
WO2021140698A1 (ja) 情報処理装置、方法及びプログラム
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Donmez et al. Steady state and transient MSE analysis of convexly constrained mixture methods
CN113139644A (zh) 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
Celiberto Jr et al. Reinforcement learning with case-based heuristics for robocup soccer keepaway
CN114037048B (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
CN117035049A (zh) 智能体学习方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant