CN113887708A - 基于平均场的多智能体学习方法、存储介质及电子设备 - Google Patents
基于平均场的多智能体学习方法、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113887708A CN113887708A CN202111244170.0A CN202111244170A CN113887708A CN 113887708 A CN113887708 A CN 113887708A CN 202111244170 A CN202111244170 A CN 202111244170A CN 113887708 A CN113887708 A CN 113887708A
- Authority
- CN
- China
- Prior art keywords
- agent
- actions
- neural network
- mean
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及强化学习及平均场领域,尤其涉及一种基于平均场的多智能体学习方法、存储介质及电子设备。
背景技术
随着信息技术的快速发展,现实场景中的很多问题都逐渐可以使用控制多智能体协同去完成。大规模的多智能体组合,更适用一些复杂场景且降低人们危险系数并能够有效的控制成本。仿真技术的不断成熟,使得模拟真实场景越来越可行。算力的提升使得人们实现了使用强化学习训练。但当前的大规模智能体协同合作,受到环境复杂度,动作数量尤其是大数量级交互的制约,不论是模拟效果还是实际应用效果都有待提升,因此大规模多智能体协同执行任务,成为近期的研究热点。
传统的大规模智能体,在多智能体协同时,每个智能体作为中心智能体分别和周边的智能体进行交互,当周边智能体数量众多时,中心智能体会因承载运算量过大而发生过载损坏的风险,从而导致整个大规模智能体发生失控的风险。
发明内容
为克服上述的技术缺陷(不足),本发明的目的是提供了一种多智能体强化学习方法,以解决大规模智能体协同时,每个智能体作为中心智能体需要和周边智能体进行交互,中心智能体因承载运算量过大而发生过载损坏的风险,从而导致整个大规模智能体发生失控风险的问题。
本申请第一方面提供了一种多智能体学习方法,包括以下步骤:
步骤S1、构建多智能体仿真环境,包括设置各个智能体及其状态信息,构建智能体动作状态空间和智能体奖励机制;
步骤S2、进行仿真,从仿真环境获取各智能体的经验数据,所述经验数据包括各智能体的状态信息、动作和奖励值;
步骤S3、将所述经验数据存放入数据采样缓存器;
步骤S4、对当前智能体的周边智能体的动作进行平均场估计:将当前智能体的周边智能体的的动作进行联合,生成联合动作空间对当前智能体和联合动作空间做平均场估计得到虚拟平均智能体取代双边交互的其余智能体集合N(j);
步骤S5、构建多智能体强化学习的神经网络模型,通过训练和推演,完成神经网络模型训练。
进一步的,所述步骤S4具体包括:
(1)应用平均场理论,将大规模交互转化为局部双边交互,其公式为:
式中N(j)为智能体j的邻近智能体的序号集合,大小为Nj=|N(j)|;
进一步的,所述步骤S5中的神经网络模型为CNN、RNN、LSTM、BiLSTM、GRU、Transformer中的一种。
进一步的,所述步骤S5中的损失函数为均方误差函数或交叉熵损失函数。
进一步的,所述步骤S5中的优化算法为梯度下降算法。
进一步的,所述步骤S5中的训练过程包括:
步骤S501、设定多智能体强化学习的神经网络模型;
步骤S502、设置损失函数;
步骤S503、设置优化算法;
步骤S504、按批次从数据采样缓存器提取各智能体的数据s,a,r,s′,输入神经网络进行前向传播,其中s为智能体的当前状态,s′为智能体的下一状态,r为智能体得到的联合奖励值,为智能体周边的虚拟平均智能体;
步骤S505、通过损失函数计算损失,该损失通过优化算法的梯度进行反向传播,更新网络权重;
步骤S506、迭代N次,迭代完成后保存网络权重。
进一步的,所述步骤S5中的推演过程,具体包括:
(1)根据离线训练过程中的设定,设定推演过程的神经网络、损失函数和优化算法;
(2)按批次提取动作、状态、联合奖励和平均动作输入神经网络进行前向传播,得到动作结果。
本申请实施例第二方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的基于平均场的多智能体学习方法中的步骤。
本申请实施例第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的基于平均场的多智能体学习方法中的步骤。
本申请的基于平均场的多智能体学习方法具有如下技术效果:
通过平均场理论把各智能体的周边智能体平均估计为单智能体,从而使各智能体与其周边智能体的平均智能体进行两两交互,即实现了交互也实现了降低交互复杂度,提升了大规模多智能体的协同效果。
附图说明
图1是本发明的基于平均场的多智能体学习方法框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参考图1所示,本发明公开了一种基于平均场的多智能体学习方法,包括以下步骤:
步骤S1、构建多智能体仿真环境,设置环境信息、各智能体的状态信息、智能体动作状态空间及设置智能体奖励机制。
在现实生活中,很多任务往往需要多个智能体通过协作才能完成,例如物流机器人、无人驾驶、大型即时战略游戏等,这种需要通过多个智能体协作才能完成任务的系统称为多智能体系统,即多智能体。例如多无人机对抗场景构成一个多智能体,其中的每一个无人机为一个智能体。其中,智能体状态信息包括:无人机的当前飞行速度、当前高度、翻转角度、加速度、是否被锁定等,智能体动作状态空间包括打击、跟随、巡航等,智能体奖励机制包括命中得分、躲避得分等。
步骤S2、进行仿真,从仿真环境获取各智能体的经验数据,所述经验数据包括各智能体的状态信息、动作和奖励值。
在本实施例中,提取多智能体仿真环境中每个智能体当前的状态信息构成每个智能体当前的状态特征,表现形式为数据向量;提取以智能体为中心的环境信息构成每个智能体当前的环境特征,表现形式为数据向量;提取当前环境对各智能体反馈的奖励值。
步骤S3、将多智能体仿真环境中每个周期产生的经验数据存入数据采样缓存器(RB)中。
在本实施例中,会根据GPU、CPU和神经网络训练资源消耗情况,选定多少个周期作为一次训练的批次大小。
通过平均场理论把各智能体的周边智能体平均估计为单智能体,从而使各智能体与其周边智能体的平均智能体进行两两交互,即实现了交互也实现了降低交互复杂度,提升了大规模多智能体的协同效果。
在本实施例中,步骤S4具体包括:
(1)应用平均场理论,将大规模交互转化为局部双边交互,其公式为:
式中N(j)为智能体j邻近智能体的序号集合,大小为Nj=|N(j)|;
(2)应用平均场估计,将智能体j与每个邻近智能体k之间的所有双边交互,简化为中心智能体j与虚拟平均智能体之间的交互,公式中双边交互Qj(s,aj,ak)转化为其中代表了智能体j周边的虚拟平均智能体的动作。
步骤S5、构建多智能体强化学习的神经网络模型,进行离线训练和推演,从而验证该神经网络模型训练的成熟度和准确性。
其中离线训练过程为:
步骤S501、设定多智能体强化学习的神经网络模型,该神经网络模型可以是CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆网络)、BiLSTM(双向长短时记忆网络)、GRU(门控循环网络)或Transformer(双向编码器表示模型)等。
步骤S503、设置优化算法,所述优化算法可以是SGD算法(随机梯度下降)、Adam算法等梯度下降算法;
在具体实施时,步骤S504包括以下步骤:
(1)将各智能体的经验数据输入至神经网络中的策略网络,得到智能体当前的策略网络总特征;
(2)在神经网络模型中,策略网络之后连接有一层全连接层,在全连接层上施加有softmax函数,给出动作值的概率;
(3)依据所述动作值的概率进行动作选择。
步骤S505、通过损失函数计算损失,该损失通过优化算法的梯度进行反向传播,更新网络权重。
步骤S506、设定的最大训练轮数N;或以达到预期效果为迭代的既定目标,进行迭代,迭代完成后,保存网络权重。
其中,网络权重主要包括:权重W、偏置、Dropout等参数。
其中推演过程(神经网络模型评价)为:
(1)根据离线训练过程中的设定,设定推演过程的神经网络模型、损失函数、优化算法和网络权重;
(2)按批次提取动作、状态、联合奖励和平均动作输入神经网络进行前向传播,得到动作结果。通过对动作结果的评估,可以评价大规模多智能体的协同效果。
在本实施例中,通过平均场理论把各智能体的周边智能体平均估计为单智能体,从而使各智能体与其周边智能体的平均智能体进行两两交互,即实现了交互也实现了降低交互复杂度,提升了大规模多智能体的协同效果。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备。该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器、半导体存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
Claims (10)
1.一种基于平均场的多智能体学习方法,其特征在于,包括以下步骤:
步骤S1、构建多智能体仿真环境,包括设置各个智能体及其状态信息,构建智能体动作状态空间和智能体奖励机制;
步骤S2、进行仿真,从仿真环境获取各智能体的经验数据,所述经验数据包括各智能体的状态信息、动作和奖励值;
步骤S3、将所述经验数据存放入数据采样缓存器;
步骤S4、对当前智能体的周边智能体的动作进行平均场估计:将当前智能体的周边智能体的的动作进行联合,生成联合动作空间对当前智能体和联合动作空间做平均场估计得到虚拟平均智能体取代双边交互的其余智能体集合N(j);
步骤S5、构建多智能体强化学习的神经网络模型,通过训练和推演,完成神经网络模型训练。
4.根据权利要求1所述的方法,其特征在于,所述步骤S5中的神经网络模型为CNN、RNN、LSTM、BiLSTM、GRU、Transformer中的一种。
5.根据权利要求1所述的方法,其特征在于,所述步骤S5中的损失函数为均方误差函数或交叉熵损失函数。
6.根据权利要求1所述的方法,其特征在于,所述步骤S5中的优化算法为梯度下降算法。
8.根据权利要求7所述的方法,其特征在于,所述步骤S5中的推演过程,具体包括:
(1)根据离线训练过程中的设定,设定推演过程的神经网络、损失函数和优化算法;
(2)按批次提取动作、状态、联合奖励和平均动作输入神经网络进行前向传播,得到动作结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一所述的基于平均场的多智能体学习方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-8任一所述的基于平均场的多智能体学习方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111244170.0A CN113887708A (zh) | 2021-10-26 | 2021-10-26 | 基于平均场的多智能体学习方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111244170.0A CN113887708A (zh) | 2021-10-26 | 2021-10-26 | 基于平均场的多智能体学习方法、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887708A true CN113887708A (zh) | 2022-01-04 |
Family
ID=79014164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111244170.0A Pending CN113887708A (zh) | 2021-10-26 | 2021-10-26 | 基于平均场的多智能体学习方法、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887708A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114545776A (zh) * | 2022-03-02 | 2022-05-27 | 盛景智能科技(嘉兴)有限公司 | 多智能体控制方法及装置 |
CN116628520A (zh) * | 2023-07-24 | 2023-08-22 | 中国船舶集团有限公司第七〇七研究所 | 基于平均场理论算法的多学员模拟训练方法及系统 |
-
2021
- 2021-10-26 CN CN202111244170.0A patent/CN113887708A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114545776A (zh) * | 2022-03-02 | 2022-05-27 | 盛景智能科技(嘉兴)有限公司 | 多智能体控制方法及装置 |
CN116628520A (zh) * | 2023-07-24 | 2023-08-22 | 中国船舶集团有限公司第七〇七研究所 | 基于平均场理论算法的多学员模拟训练方法及系统 |
CN116628520B (zh) * | 2023-07-24 | 2023-09-29 | 中国船舶集团有限公司第七〇七研究所 | 基于平均场理论算法的多学员模拟训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11779837B2 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
CN110991545B (zh) | 一种面向多智能体对抗的强化学习训练优化方法及装置 | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
CN113887708A (zh) | 基于平均场的多智能体学习方法、存储介质及电子设备 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
WO2023160162A1 (zh) | 预测碰撞仿真结果的方法、装置、设备及存储介质 | |
CN113894780B (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
EP3612356B1 (en) | Determining control policies for robots with noise-tolerant structured exploration | |
CN113561986A (zh) | 自动驾驶汽车决策方法及装置 | |
JP7448683B2 (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
CN114139637A (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
CN115797517B (zh) | 虚拟模型的数据处理方法、装置、设备和介质 | |
CN110325965B (zh) | 虚拟场景中的对象处理方法、设备及存储介质 | |
CN111282272B (zh) | 信息处理方法、计算机可读介质及电子设备 | |
CN114404975B (zh) | 决策模型的训练方法、装置、设备、存储介质及程序产品 | |
CN116968024A (zh) | 获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质 | |
Zhang et al. | COMBO: Compositional World Models for Embodied Multi-Agent Cooperation | |
CN110450164A (zh) | 机器人控制方法、装置、机器人及存储介质 | |
KR20190088093A (ko) | 로봇을 위한 학습 방법 | |
CN113240118A (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN117648585B (zh) | 基于任务相似度的智能决策模型泛化方法和装置 | |
CN117395164B (zh) | 工业物联网的网络属性预测方法及系统 | |
CN116663417B (zh) | 一种虚拟地理环境角色建模方法 | |
CN113988254B (zh) | 用于多个环境的神经网络模型的确定方法及装置 | |
CN117332814B (zh) | 一种基于模块化网络的合作智能体模型、学习方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |