CN116533256A - 一种基于深度强化学习的多智能机器人通信控制仪器 - Google Patents

一种基于深度强化学习的多智能机器人通信控制仪器 Download PDF

Info

Publication number
CN116533256A
CN116533256A CN202211649996.XA CN202211649996A CN116533256A CN 116533256 A CN116533256 A CN 116533256A CN 202211649996 A CN202211649996 A CN 202211649996A CN 116533256 A CN116533256 A CN 116533256A
Authority
CN
China
Prior art keywords
intelligent robot
data
module
observation
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211649996.XA
Other languages
English (en)
Inventor
曹艺之
韦文书
张文宇
彭健
李洋
张逸然
许元男
王文海
李彬
刘兴高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211649996.XA priority Critical patent/CN116533256A/zh
Publication of CN116533256A publication Critical patent/CN116533256A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的多智能机器人通信控制仪器,该仪器由智能机器人、数据库和上位机构成。多智能机器人通过传感器和GPS定位系统获得环境信息、自身状态位置,将得到数据存储到所述数据库中。所述的上位机包括数据预处理模块、信息编码模块、通信模块、模型训练模块、模型更新模块以及结果显示模块。本发明利用多智能体深度强化学习算法控制多智能机器人行动,速度快,精度高,稳定性强,并且本发明首次提出的注意力通信网络利用每个智能机器人的状态训练模型,考虑到了全局运动特征,能够明显提高多智能机器人控制精度和稳定性。本发明提供了一种智能性强的多智能机器人通信控制仪,为多智能机器人控制技术带来显著增效。

Description

一种基于深度强化学习的多智能机器人通信控制仪器
技术领域
本发明涉及深度学习领域和强化学习领域,特别地,涉及一种基于深度强化学习的多智能机器人通信控制技术,是多智能机器人的新控制仪器。
背景技术
人工智能技术和机器学习算法的发展,在自动控制领域发挥了关键的作用,其中强化学习是机器学习的重要分支,它描述和解决智能体在与环境的交互过程中以最大化奖励为目标来不断更新自身策略的问题。近年来,随着科技的发展,计算能力与存储能力得到极大提高,并且深度学习在诸多领域中了取得极大的成就。深度学习和强化学习的结合就在此背景下应运而生,产生了深度强化学习。多智能体系统是在同一个环境中由多个交互智能体组成的系统,多用于解决复杂环境中由有大规模控制对象的问题。深度强化学习的发展促进了多智能体领域的发展,将深度强化学习算法和多智能体系统结合在一起产生了多智能体深度强化学习。
在机器人技术中,强化学习对于使机器人能够为自己创建一个高效的自适应控制系统至关重要,它可以从自己的经验和行为中学习。强化学习在智能机器人控制方面具有较大的优势,因为强化学习算法无需预先给定模拟数据,对于数据集样本容量的要求也较低,因此具有更好的适用性。但是现有的多智能机器人集群控制算法稳定性差,精确度低,无法完成最优路径规划、实时动作控制等任务。因此,对于多智能机器人控制,探究稳定性更好、精确度更高的控制方法有着重要的实际价值以及理论意义,也是国内外多智能机器人的难点和热点。
发明内容
为了克服目前多智能机器人控制稳定性差,精确度低的不足,本发明的目的在于提供一种控制能力强,智能性高的基于深度强化学习的多智能机器人通信控制仪器。
本发明解决其技术问题所采用的技术方案是:
一种基于深度强化学习的多智能机器人通信控制仪器,该仪器由通信模块、数据库和上位机构成,通信模块、数据库和上位机依次相连,构成一个完整的控制仪器。其特征在于,多智能机器人观测数据的获取过程按如下步骤进行:
1)在仿真环境中使用多智能机器人传感器和GPS系统得到周围环境数据和自身数据,其中环境数据用s表示,自身观测用oi表示,自身动作用ai表示,将观测数据与动作数据列为一个组合,即
pi=(oi,ai)
其中,pi为第i个智能机器人观测动作对;
2)在仿真环境中执行每个智能机器人的动作得到及时反馈值ri和下一时刻的观测o′i,将反馈值和下一时刻观测与观测动作对组合为一条经验xi
xi=(oi,ai,ri,o′i)
其中,xi为第i个智能机器人的历史经验;
3)把多智能机器人的历史经验数据存储到所述控制仪的数据库中,数据库中的历史经验数据供上位机调用;
基于深度强化学习的多智能机器人通信控制仪器中的上位机,其特征在于,所述上位机包括:
4)数据预处理模块,用于对数据库中的数据进行预处理,采用如下过程完成:
4.1)数据库中采集样本大小为b的N个智能机器人的历史经验数据得到训练样本集Xb
Xb={x1,x2,...,xN}
其中,xi为每个智能机器人的历史经验;
4.2)将每个智能机器人的经验按类别分为一组,即
ob={o1,o2,...,oN}
ab={a1,a2,...,aN}
rb={r1,r2,...,rN}
o′b={o′1,o′2,...,o′N}
(ob,ab,rb,o′b)即为得到的经过预处理模块预处理的多智能机器人数据,下标b表示该条数据是从采样样本中得到的;
5)信息编码模块,用于对经过预处理的多智能机器人数据进行编码,得到输入神经网络的输入数据,采用如下过程完成:
5.1)对于步骤4.2)中得到的多智能机器人数据,分割出其中的ob数据;
5.2)对ob数据中的每个观测信息oi进行编码,编码过程按如下步骤进行:
5.3)搭建全连接层,其中输入维度为每个智能机器人的观测维度,输出维度为编码器长度即64,选择ReLu激活函数作为神经网络激活函数;
5.4)每个观测信息oi输入到编码器f中得到各自的观测编码ei,进一步提取观测信息的特征
其中,θe是编码器的神经网络参数;
通信模块,用于利用编码后得到的观测编码在多智能机器人中通信,采用如下过程完成:
6)搭建通信模块,通信模块由一个GRU单元和一个全连接层组成;
6.1)GRU单元的输入是每个智能机器人的观测编码ei,隐含层神经元数量为32。全连接层的输入是GRU单元的输出特征,大小是隐含层维度32,输出为整合信息记为hi
其中,θc是通信模块的神经网络参数,GRU模块参数少,模型小,容易部署。本发明上述新颖的信息编码模块和通信模块能够提取更多的多智能机器人观测信息特征,增强了智能机器人行为可解释性,算法速度更快、精度更高。
6.2)将每个智能机器人的整合信息整理为hb={h1,h2,...,hN},作为模型训练的训练数据集;
模型训练模块,用于通过通信模块后得到的整合信息hb表示的训练样本集训练深度强化学习算法,采用如下过程完成:
6.3)搭建多智能体深度强化学习算法框架,即多智能体深度确定性策略梯度算法(MADDPG),训练过程按如下步骤进行:
6.4)初始化每个智能机器人的Critic网络和Actor网络的权值和偏置值;
6.5)将训练样本集hb={h1,h2,...,hN}和观测数据集ob={o1,o2,...,oN}输入到模型训练模块中,首先通过Actor网络得到每个智能机器人当前时刻的动作其中i表示智能机器人编号,t表示当前时刻
其中μθ是由θ参数化的Actor网络,表示当前时刻智能机器人i的观测数据,/>表示当前时刻智能机器人i的整合信息数据;
6.6)得到每个智能机器人当前时刻的动作后,将当前时刻智能机器人i的观测和动作一起输入到Critic网络中,得到每个智能机器人在不同时刻的q值
其中是由/>参数化的Critic网络,/>表示除当前智能机器人外的智能机器人采取的动作,/>可以从数据库中存储的历史经验得到;
6.7)重复步骤6.5)-6.6)直至采样样本中每个智能机器人的历史经验数据都得到了对应时刻的Q值;
6.8)从采样样本中得到历史经验数据,通过贝尔曼方程计算目标Q值,
其中,yt是当前时刻t的目标Q值,是当前时刻智能机器人i的奖励值,γ是折扣因子,下标t+1表示下一时刻,/>和/>是网络参数不同结构相同的神经网络,选择神经网络输出值更小的Q值来作为目标Q值的计算依据,重复11.5)直至智能机器人得到每个时刻的目标Q值;
所述模型训练模块中Critic函数的损失函数Loss为均方差损失函数
其中MSE表示均方差,ot是智能机器人当前观测,at是智能机器人当前动作,所述模型训练模块中Actor函数的损失函数为
at=μθ(ot)
其中是由/>参数化的Critic网络,μθ是由θ参数化的Actor网络,ot是智能机器人当前观测,at是智能机器人当前动作;
7)模型更新模块,用于评估模型训练模块得到的多智能体深度强化学习算法的效果,采用如下过程完成:
在仿真环境中,多智能机器人通过多智能体深度强化学习算法执行动作,与环境交互得到反馈值,将该条经验上传到数据库中,如果数据库中存在与之相同的历史经验,则比较反馈值大小,若新反馈值大则通过训练模块提高执行动作的概率,反之则减小执行动作的概率。如果数据库中不存在相同的历史经验,则存储在数据库中并通过多智能体深度强化学习算法计算O值,更新数据库;
8)结果显示模块:用于将多智能机器人的运动过程在上位机进行显示,采用如下过程完成:
在仿真环境中运行多智能机器人运动程序,将多智能机器人执行结果显示在上位机的屏幕上。
本发明的技术构思为:多智能机器人通过所载传感器获取观测数据,对观测数据进行预处理和信息编码,并用处理后的数据训练深度强化学习算法,建立多智能体通信控制模型,实现多智能机器人的通信控制。
本发明的有益效果主要表现在:1、利用信息编码模块提取更多的多智能机器人观测信息特征,增强智能机器人行为可解释性,算法速度更快、精度更高;2、利用通信模块在多智能机器人中传递信息,提高多智能机器人的合作能力,使控制更稳定。
附图说明
图1是本发明提出的控制仪的功能模块图;
图2是用于解释本发明所提出的多智能体深度强化学习通信算法的流程图。
具体实施方式
下面根据附图具体说明本发明。
仪器由智能机器人、数据库和上位机构成,智能机器人、数据库和上位机依次相连,构成一个完整的控制仪器。首先是智能机器人部件,其特征在于,多智能机器人观测数据的获取过程按如下步骤进行:
1)在仿真环境中使用多智能机器人传感器和GPS系统得到周围环境数据和自身数据,其中环境数据用s表示,自身观测用oi表示,自身动作用ai表示,将观测数据与动作数据列为一个组合,即
pi=(oi,ai)
其中,pi为第i个智能机器人观测动作对;
2)在仿真环境中执行每个智能机器人的动作得到及时反馈值ri和下一时刻的观测o′i,将反馈值和下一时刻观测与观测动作对组合为一条经验xi
xi=(oi,ai,ri,o′i)
其中,下标i表示第i个智能机器人;
3)把多智能机器人的历史经验数据存储到所述控制仪的数据库部件2中,数据库部件中的历史经验数据供上位机部件调用;
然后是上位机部件,图1为所述识别仪的上位机的功能模块示意图,所述上位机部件包括六个子部件,即数据预处理模块3、信息编码模块4、通信模块5、模型训练模块6、模型更新模块8和结果显示模块7:
子部件一,数据预处理模块3,用于对数据库中的数据进行预处理,采用如下过程完成:
1)数据库中采集样本大小为b的N个智能机器人的历史经验数据得到训练样本集Xb
Xb={x1,x2,...,xN}
其中,xi为每个智能机器人的历史经验;
2)将每个智能机器人的经验按类别分为一组,即
ob={o1,o2,...,oN}
ab={a1,a2,...,aN}
rb={r1,r2,...,rN}
o′b={o′1,o′2,...,o′N}
(ob,ab,rb,o′b)即为得到的经过预处理模块预处理的多智能机器人数据,下标b表示该条数据是从采样样本中得到的;
子部件二,信息编码模块4,用于对经过预处理的多智能机器人数据进行编码,得到输入神经网络的输入数据,采用如下过程完成:
1)对于数据预处理模块中得到的多智能机器人数据,分割出其中的ob数据;
2)对ob数据中的每个观测信息oi进行编码,编码过程按如下步骤进行:
3)搭建全连接层,其中输入维度为每个智能机器人的观测维度,输出维度为编码器长度即64,选择ReLu激活函数作为神经网络激活函数;
4)每个观测信息oi输入到编码器f中得到各自的观测编码ei
其中,θe是编码器的神经网络参数;
子部件三,通信模块5,用于利用编码后得到的观测编码在多智能机器人中通信,采用如下过程完成:
搭建通信模块,通信模块由一个GRU单元和一个全连接层组成;
1)GRU单元的输入是每个智能机器人的观测编码ei,隐含层神经元数量为32。全连接层的输入是GRU单元的输出特征,大小是隐含层维度32,输出为整合信息记为hi
其中,θc是通信模块的神经网络参数,GRU模块参数少,模型小,容易部署。本发明上述新颖的信息编码模块和通信模块能够提取更多的多智能机器人观测信息特征,增强了智能机器人行为可解释性,算法速度更快、精度更高。
2)将每个智能机器人的整合信息整理为hb={h1,h2,...,hN},作为模型训练的训练数据集;
子部件四,模型训练模块6,用于通过通信模块后得到的整合信息hb表示的训练样本集训练深度强化学习算法,采用如下过程完成:
3)搭建多智能体深度强化学习算法框架,即多智能体深度确定性策略梯度算法(MADDPG),训练过程按如下步骤进行:
4)初始化每个智能机器人的Critic网络和Actor网络的权值和偏置值;
5)将训练样本集hb={h1,h2,...,hN}和观测数据集ob={o1,o2,...,oN}输入到模型训练模块中,首先通过Actor网络得到每个智能机器人当前时刻的动作其中i表示智能机器人编号,t表示当前时刻
其中μθ是由θ参数化的Actor网络,表示当前时刻智能机器人i的观测数据,/>表示当前时刻智能机器人i的整合信息数据;
6)得到每个智能机器人当前时刻的动作后,将当前时刻智能机器人i的观测和动作一起输入到Critic网络中,得到每个智能机器人在不同时刻的q值
其中是由/>参数化的Critic网络,/>表示除当前智能机器人外的智能机器人采取的动作,/>可以从数据库中存储的历史经验得到;
7)重复步骤5)-6)直至采样样本中每个智能机器人的历史经验数据都得到了对应时刻的Q值;
8)从采样样本中得到历史经验数据,通过贝尔曼方程计算目标Q值,
其中,yt是当前时刻t的目标Q值,是当前时刻智能机器人i的奖励值,γ是折扣因子,下标t+1表示下一时刻,/>和/>是网络参数不同结构相同的神经网络,选择神经网络输出值更小的Q值来作为目标Q值的计算依据,重复11.5)直至智能机器人得到每个时刻的目标Q值;
所述模型训练模块中Critic函数的损失函数Loss为均方差损失函数
其中MSE表示均方差,ot是智能机器人当前观测,at是智能机器人当前动作,所述模型训练模块中Actor函数的损失函数为
at=μθ(ot)
其中是由/>参数化的Critic网络,μθ是由θ参数化的Actor网络,ot是智能机器人当前观测,at是智能机器人当前动作,图2为本发明所提出的多智能体深度强化学习通信算法的流程图;
子部件五,模型更新模块8,用于评估模型训练模块得到的多智能体深度强化学习算法的效果,采用如下过程完成:
在仿真环境中,多智能机器人通过多智能体深度强化学习算法执行动作,与环境交互得到反馈值,将该条经验上传到数据库中,如果数据库中存在与之相同的历史经验,则比较反馈值大小,若新反馈值大则通过训练模块提高执行动作的概率,反之则减小执行动作的概率。如果数据库中不存在相同的历史经验,则存储在数据库中并通过多智能体深度强化学习算法计算Q值,更新数据库;
子部件六,结果显示模块7:用于将多智能机器人的运动过程在上位机进行显示,采用如下过程完成:
在仿真环境中运行多智能机器人运动程序,将多智能机器人执行结果显示在上位机的屏幕上。
所述上位机的硬件部分由以下部分组成:程序存储器,用于存储各个模块的实现程序;数据存储器,用于存储激光雷达采集到的数据样本以及神经网络各项参数和超参数;运算器,用于执行程序,实现相应功能;I/O元件,用于采集数据和进行信息的传递;显示模块,用于将模型训练结果和目标识别结果在上位机进行显示。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (8)

1.一种基于深度强化学习的多智能机器人通信控制仪器,它由依次相连的智能机器人、数据库和上位机构成;多智能机器人通过传感器和GPS定位系统获得环境信息、自身状态位置,并存储到所述数据库中,供上位机使用。上位机从数据库中调取数据,将数据送到其各个模块中进行操作。上位机包括:数据预处理模块,用于对数据库中的数据进行预处理;信息编码模块,用于将用于对经过数据预处理模块预处理后的多智能机器人观测数据进行编码,得到输入到神经网络中的输入数据;通信模块,将每个智能机器人的观测信息进行整合;模型训练模块,用于利用信息编码模块编码后得到的数据训练深度强化学习算法;结果显示模块,用于将多智能机器人行动在上位机进行显示。
2.根据权利要求1所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述多智能机器人通过传感器和GPS定位系统获得环境信息、自身状态位置,并存储到所述数据库中,按如下步骤进行:
(1.1)在仿真环境中使用多智能机器人传感器和GPS系统得到周围环境数据和自身数据,其中环境数据用s表示,自身观测用oi表示,自身动作用ai表示,将观测数据与动作数据列为一个组合,即
pi=(oi,ai)
其中,pi为第i个智能机器人观测动作对;
(1.2)在仿真环境中执行每个智能机器人的动作得到及时反馈值ri和下一时刻的观测o′i,将反馈值和下一时刻观测与观测动作对组合为一条经验xi
xi=(oi,ai,ri,o′i)
其中,xi为第i个智能机器人的历史经验;
(1.3)把多智能机器人的历史经验数据存储到所述控制仪的数据库中,数据库中的历史经验数据供上位机调用。
3.如权利要求2所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述数据预处理模块的工作过程包括以下步骤:
(2.1)数据库中采集样本大小为b的N个智能机器人的历史经验数据得到训练样本集Xb
Xb={x1,x2,…,xN}
其中,xi为每个智能机器人的历史经验;
(2.2)将每个智能机器人的经验按类别分为一组,即
ob={o1,o2,…,oN}
ab={a1,a2,…,aN}
rb={r1,r2,…,rN}
o′b={o′1,o′2,…,o′N}
(ob,ab,rb,o′b)即为得到的经过预处理模块预处理的多智能机器人数据,下标b表示该条数据是从采样样本中得到的。
4.如权利要求3所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述信息编码模块的工作过程包括以下步骤:
(3.1)对于步骤(2.2)中得到的多智能机器人数据,分割出其中的ob数据;
(3.2)对ob数据中的每个观测信息oi进行编码,编码过程按如下步骤进行:
(3.2.1)搭建全连接层,其中输入维度为每个智能机器人的观测维度,输出维度为编码器长度即64,选择ReLu激活函数作为神经网络激活函数;
(3.2.2)每个观测信息oi输入到编码器f中得到各自的观测编码ei,进一步提取观测信息的特征:
其中,θe是编码器的神经网络参数。
5.如权利要求4所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述通信模块由一个GRU单元和一个全连接层组成;其中,GRU单元的输入是每个智能机器人的观测编码ei,隐含层神经元数量为32。全连接层的输入是GRU单元的输出特征,大小是隐含层维度32,输出为整合信息记为hi
其中,θc是通信模块的神经网络参数,将每个智能机器人的整合信息整理为hb={h1,h2,...,hN},作为模型训练的训练数据集。
6.如权利要求5所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述模型训练模块的工作过程包括以下步骤:
(4.1)初始化每个智能机器人的Critic网络和Actor网络的权值和偏置值;
(4.2)将训练样本集hb={h1,h2,...,hN}和观测数据集ob={o1,o2,…,oN}输入到模型训练模块中,首先通过Actor网络得到每个智能机器人当前时刻的动作其中i表示智能机器人编号,t表示当前时刻:
其中μθ是由θ参数化的Actor网络,表示当前时刻智能机器人i的观测数据,/>表示当前时刻智能机器人i的整合信息数据;
(4.3)得到每个智能机器人当前时刻的动作后,将当前时刻智能机器人i的观测/>和动作/>一起输入到Critic网络中,得到每个智能机器人在不同时刻的q值
其中是由/>参数化的Critic网络,/>表示除当前智能机器人外的智能机器人采取的动作,/>可以从数据库中存储的历史经验得到;
(4.4)重复步骤11.2)-11.3)直至采样样本中每个智能机器人的历史经验数据都得到了对应时刻的Q值;
(4.5)从采样样本中得到历史经验数据,通过贝尔曼方程计算目标Q值,
其中,yt是当前时刻t的目标Q值,是当前时刻智能机器人i的奖励值,γ是折扣因子,下标t+1表示下一时刻,/>和/>是网络参数不同结构相同的神经网络,选择神经网络输出值更小的Q值来作为目标Q值的计算依据,重复11.5)直至智能机器人得到每个时刻的目标Q值。
7.如权利要求6所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述Critic函数的损失函数Loss为均方差损失函数:
其中MSE表示均方差,ot是智能机器人当前观测,at是智能机器人当前动作,所述模型训练模块中Actor函数的损失函数为:
at=θ(ot)
其中是由/>参数化的Critic网络,μθ是由θ参数化的Actor网络,ot是智能机器人当前观测,at是智能机器人当前动作。
8.如权利要求1所述的一种基于深度强化学习的多智能机器人通信控制仪器,其特征在于,所述上位机还包括模型更新模块,用于评估模型训练模块得到的多智能体深度强化学习算法的效果,它的工作过程为:在仿真环境中,多智能机器人通过多智能体深度强化学习算法执行动作,与环境交互得到反馈值,将该条经验上传到数据库中,如果数据库中存在与之相同的历史经验,则比较反馈值大小,若新反馈值大则通过训练模块提高执行动作的概率,反之则减小执行动作的概率。如果数据库中不存在相同的历史经验,则存储在数据库中并通过多智能体深度强化学习算法计算Q值,更新数据库。
CN202211649996.XA 2022-12-21 2022-12-21 一种基于深度强化学习的多智能机器人通信控制仪器 Pending CN116533256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211649996.XA CN116533256A (zh) 2022-12-21 2022-12-21 一种基于深度强化学习的多智能机器人通信控制仪器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211649996.XA CN116533256A (zh) 2022-12-21 2022-12-21 一种基于深度强化学习的多智能机器人通信控制仪器

Publications (1)

Publication Number Publication Date
CN116533256A true CN116533256A (zh) 2023-08-04

Family

ID=87453050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211649996.XA Pending CN116533256A (zh) 2022-12-21 2022-12-21 一种基于深度强化学习的多智能机器人通信控制仪器

Country Status (1)

Country Link
CN (1) CN116533256A (zh)

Similar Documents

Publication Publication Date Title
Yuan et al. A novel GRU-RNN network model for dynamic path planning of mobile robot
WO2022012265A1 (en) Robot learning from demonstration via meta-imitation learning
Wu et al. Plant phenotyping by deep-learning-based planner for multi-robots
CN107103164B (zh) 无人机执行多任务的分配方法及装置
CN113826051A (zh) 生成实体系统零件之间的交互的数字孪生
CN111300390B (zh) 基于蓄水池采样和双经验池的机械臂智能控制系统
CN112605973A (zh) 一种机器人运动技能学习方法及系统
CN113657573B (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
CN113752255B (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
CN108320051B (zh) 一种基于gru网络模型的移动机器人动态避碰规划方法
CN113821045A (zh) 一种腿足机器人强化学习动作生成系统
CN111309035B (zh) 多机器人协同移动与动态避障方法、装置、设备及介质
CN100470427C (zh) 基于仿生智能的工业软测量仪表及软测量方法
US20220121920A1 (en) Multi-agent coordination method and apparatus
Puente-Castro et al. Q-learning based system for path planning with unmanned aerial vehicles swarms in obstacle environments
CN116533256A (zh) 一种基于深度强化学习的多智能机器人通信控制仪器
CN116722541A (zh) 一种基于卷积神经网络的电力系统负荷预测方法及装置
CN115438841A (zh) 基于人工智能精准预测降雨模型的训练方法及预测方法
CN115016499A (zh) 一种基于sca-ql的路径规划方法
CN115562258A (zh) 基于神经网络的机器人社会自适应路径规划方法及系统
CN115034432A (zh) 一种风电场风力发电机组风速预测方法
CN114779661A (zh) 基于多分类生成对抗模仿学习算法的化学合成机器人系统
CN114495036A (zh) 一种基于三阶段注意力机制的车辆轨迹预测方法
CN115373409B (zh) 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination