CN111144557A - 一种基于级联模式的动作策略方法 - Google Patents
一种基于级联模式的动作策略方法 Download PDFInfo
- Publication number
- CN111144557A CN111144557A CN201911416754.4A CN201911416754A CN111144557A CN 111144557 A CN111144557 A CN 111144557A CN 201911416754 A CN201911416754 A CN 201911416754A CN 111144557 A CN111144557 A CN 111144557A
- Authority
- CN
- China
- Prior art keywords
- action
- behavior
- actions
- probability
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于级联模式的大规模动作策略方法,包括:实时采集多个单位的状态信息向量;基于神经网络函数计算决策特征;根据动作的空间属性划分动作模块;针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率;针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率;基于所述行为动作概率决策行为动作,基于所述空行为动作决策执行所述行为动作的空间位置。本发明实现了参数空间从O(n*m)减少到了O(n+m),大大减少了策略空间的参数维度,减少了大量无用的参数空间,同时加快了收敛速度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于级联模式的动作策略方法。
背景技术
多智能体系统由一群有自主性的,可互相交互的实体组成,它们共享一个相同的环境,通过感知器感知环境并通过执行器采取行动。根据系统中智能体的结构不同可以分为同构多智能体系统和异构多智能体系统,异构多智能体系统个体间模型不统一,使得个体感知环境的方式或者决策空间存在一定的差异。多智能体博弈具有实时对抗、群体协作、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点,是当前人工智能领域极具挑战的难题。同时,该领域研究成果在社会管理、智能交通、经济、军事等领域有广阔的应用前景。对于当前状态或动态变化既无完美信息又无完整信息可用的复杂动态环境,给人工智能研究带来显著挑战。
在多智能体系统中,智能体通过与环境进行交互获取当前决策下的奖励,智能体基于奖励改善策略并获得最优策略的方法为多智能体强化学习算法。深度强化学习是将深度学习与强化学习相结合的一种全新算法,实现了从感知到动作的端到端的学习。输入图像、文本、音频、视频等,通过DRL构建的深度神经网络的处理,可以实现直接输出动作,无须手工干预。
在单体强化学习中,需要存储状态值函数或动作-状态值函数。在多体强化学习中,状态空间变大,联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长,因此多智能体系统维度非常大,计算复杂。在一般的强化学习策略网络中,网络训练的参数与动作空间的维度成正比,因此对于大规模复杂形式的动作输出问题,笛卡尔联结形式的策略网络架构往往带来参数维度灾难,策略网络的训练的难度大大增加。
发明内容
针对多智能体系统维度复杂,决策复杂的技术问题,本发明提供一种基于级联模式的动作策略方法,大大减少了策略空间的参数维度,减少了大量无用的参数空间,同时加快了收敛速度。
为达到上述目的,本发明提供了一种基于级联模式的大规模动作策略方法,包括:
实时采集多个单位的状态信息向量x;
基于神经网络函数计算决策特征y=f(x);
根据空间动作的位置或行为动作的顺序划分动作模块;
针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率;针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率;
基于所述行为动作概率决策行为动作,基于所述空行为动作决策执行所述行为动作的空间位置。
进一步的,所述动作为级联模式,概率分布相互独立。
进一步的,所述神经网络函数包括卷积神经网络、全连接神经网络或深度玻尔兹曼机。
进一步的,所述空间动作维度为p×q,行为动作空间维度为k,构建决策特征到空间动作的映射网络,包括构建空间动作全连接映射网络:
zs=Wsy
其中Ws为权重矩阵,zs为全连接映射网络的输出,Ws∈Rpq×t,zs∈Rpq。
进一步的,计算空间动作概率Space包括:
其中zs表征为[zs 1,zs 2,…zs r…,zs pq],T表示转置。
进一步的,构建决策特征到行为动作的映射网络,包括构建行为动作全连接映射网络:
zb=Wby
其中Wb为权重矩阵,zb为全连接映射网络的输出Wb∈Rk×t,zb∈Rk。
进一步的,计算行为动作概率behavior包括:
其中zb表征为[zb 1,zb 2,…zb r…,zb k],T表示转置。
进一步的,智能体行为动作,基于所述空行为动作决策所述单智能体执行所述行为动作的空间位置。
本发明的上述技术方案具有如下有益的技术效果:
(1)笛卡尔乘积形式的策略网络参数空间复杂度为O(n*m),本发明在级联多智能体模式下,实现了参数空间从O(n*m)减少到了O(n+m),大大减少了策略空间的参数维度,减少了大量无用的参数空间,同时加快了收敛速度。
(2)本发明分别针对每一个独立的动作设计决策模块,在此模块下通过全连接模式计算每一个独立动作的概率分布函数,决策效率更高。
(3)本发明的动作策略适用于大规模动作的决策,能够应用于在多智能体应用领域,如游戏AI面对复杂的多智能体协同博弈问题,每一个时刻实现单智能体从空间动作参数空间、行为动作中参数空间分别选择并决策,既可以使得策略网络快速收敛也可以节约参数空间。
附图说明
图1是Actor-Critic网络结构示意图;
图2为笛卡尔形式的策略网络示意图;
图3为本发明级联形式的策略网络示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
对于N个智能体,其策略参数空间为θ={θ1,...,θN},策略集合为π={π1,...,πN},每一个智能体均有其单独的回报机制,对智能体i来说,其累计回报J(θi)=E[Ri]的梯度为
不论是在单智能体场景还是多智能体场景中,智能体离散型动作是由几个动作通过笛卡尔积的形式复合而成,比如智能体的动作决策包含A1,A2两个复合动作集合,其中|A1|=n,|A2|=m,则智能体的最终动作维度为n×m,在构造策略网络时决策特征维度为1000,如果将A1,A2联合考虑,则动作决策参数大小为1000×n×m,其待训练参数的空间复杂为O(nm),这就增加了策略网络训练难度,另外一方面,采样空间中无效部分太大,影响训练效果。
基于级联形式的动作策略网络采用多head模式进行设计,其技术基础为假设智能体动作a的多变量概率分布为相互独立的即满足
在此假设条件下,在策略网络的决策特征之后,分别针对每一个独立的动作设计决策模块,在此模块下通过全连接模式计算每一个独立动作的概率分布函数。
本发明提供的基于级联模式的动作策略方法,结合图3,包括如下步骤:
S1实时采集多个单位的状态信息向量x∈Rn;状态信息向量根据场景进行设定,x在实数空间R内维度为n。
S2基于神经网络函数计算决策特征y=f(x),y∈Rt,其神经网络函数形式多种多样,如卷积神经网络、全连接神经网络、深度玻尔兹曼机等。
S3根据动作空间属性如空间动作,行为动作等划分动作模块,假设空间动作维度为p×q,行为动作空间维度为k。
可以采用人工神经网络模型根据动作空间属性划分动作模块,对人工神经网络模型进行训练,使其能够准确划分动作。
可以依据行为动作的顺序直接划分动作模块。
可以根据空间动作位置区域划分动作模块。
S4针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率;针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率;
S41针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率,分为两部分:
1)构建空间动作全连接映射网络,即:
zs=Wsy
其中Ws为权重矩阵,zs为全连接映射网络的输出,
Ws∈Rpq×t,zs∈Rpq,zs=[zs 1,zs 2,…zs r…,zs pq]。
2)计算空间动作概率,即;
S42针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率,过程分为两部分:
1)构建行为动作全连接映射网络,即:
zb=Wby
其中Wb为权重矩阵,zb为全连接映射网络的输出Wb∈Rk×t,zb∈Rk,其中zb表征为zb=[zb 1,zb 2,…zb r…,zb k],T表示转置。
2)计算行为动作概率behavior,即:
步骤S4中涉及到的所有策略网络参数,均可以通过智能体与环境的交互进行优化迭代得到。
S5基于所述行为动作概率决策行为动作,基于所述空行为动作决策执行所述行为动作的空间位置。
在多智能体应用领域如游戏AI面对复杂的多智能体协同博弈问题,每一个时刻单智能体需要从复杂的动作空间中进行选择并决策,合理并有效的决策网络是实现复杂决策的关键,可以基于本技术构建基于级联模式的策略网络,既可以使得策略网络快速收敛也可以节约参数空间。
在一个实施例中,针对游戏中的多个单智能体实时采集多个单位的状态信息向量x,单智能体为游戏中不受玩家操纵的游戏角色;基于神经网络函数计算决策特征;根据动作的空间动作顺序划分动作模块,空间动作包括该单智能体能够执行的所有动作;针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率;针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率;基于所述行为动作概率决策每个单智能体行为动作,基于所述空行为动作决策所述单智能体执行所述行为动作的空间位置。
综上所述,本发明提供一种基于级联模式的大规模动作策略方法,包括:实时采集多个单位的状态信息向量;基于神经网络函数计算决策特征;根据动作的空间属性划分动作模块;针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率;针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率;基于所述行为动作概率决策行为动作,基于所述空行为动作决策执行所述行为动作的空间位置。本发明实现了参数空间从O(n*m)减少到了O(n+m),大大减少了策略空间的参数维度,减少了大量无用的参数空间,同时加快了收敛速度。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (8)
1.一种基于级联模式的大规模动作策略方法,其特征在于,包括:
实时采集多个单位的状态信息向量x;
基于神经网络函数计算决策特征y=f(x);
根据空间动作的位置或行为动作的顺序划分动作模块;
针对每个动作模块构建决策特征到空间动作的映射网络,计算空间动作概率;针对每个动作模块构建决策特征到行为动作的映射网络,计算行为动作概率;
基于所述行为动作概率决策行为动作,基于所述行为动作决策执行所述行为动作的空间位置。
2.根据权利要求1所述的基于级联模式的大规模动作策略方法,其特征在于,所述动作为级联模式,概率分布相互独立。
3.根据权利要求1或2所述的基于级联模式的大规模动作策略方法,其特征在于,所述神经网络函数包括卷积神经网络、全连接神经网络或深度玻尔兹曼机。
4.根据权利要求1或2所述的基于级联模式的大规模动作策略方法,其特征在于,所述空间动作维度为p×q,行为动作空间维度为k。
构建决策特征到空间动作的映射网络,包括构建空间动作全连接映射网络:
zs=Wsy
其中Ws为权重矩阵,zs为全连接映射网络的输出,Ws维度为p×q×t,zs维度为p×q,t为时刻。
6.根据权利要求5所述的基于级联模式的大规模动作策略方法,其特征在于,构建决策特征到行为动作的映射网络,包括构建行为动作全连接映射网络:
zb=Wby
其中Wb为权重矩阵,zb为全连接映射网络的输出,Wb∈Rk×t,zb∈Ek。
8.根据权利要求1或2所述的基于级联模式的大规模动作策略方法,其特征在于,所述多个单位为游戏中的多个单智能体;基于所述行为动作概率决策每个单智能体行为动作,基于所述行为动作决策所述单智能体执行所述行为动作的空间位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416754.4A CN111144557A (zh) | 2019-12-31 | 2019-12-31 | 一种基于级联模式的动作策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416754.4A CN111144557A (zh) | 2019-12-31 | 2019-12-31 | 一种基于级联模式的动作策略方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111144557A true CN111144557A (zh) | 2020-05-12 |
Family
ID=70522800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911416754.4A Pending CN111144557A (zh) | 2019-12-31 | 2019-12-31 | 一种基于级联模式的动作策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144557A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6792412B1 (en) * | 1999-02-02 | 2004-09-14 | Alan Sullivan | Neural network system and method for controlling information output based on user feedback |
US20060224535A1 (en) * | 2005-03-08 | 2006-10-05 | Microsoft Corporation | Action selection for reinforcement learning using influence diagrams |
US9311600B1 (en) * | 2012-06-03 | 2016-04-12 | Mark Bishop Ring | Method and system for mapping states and actions of an intelligent agent |
CN108596011A (zh) * | 2017-12-29 | 2018-09-28 | 中国电子科技集团公司信息科学研究院 | 一种基于组合深度网络的人脸属性识别方法和装置 |
CN109546648A (zh) * | 2018-11-23 | 2019-03-29 | 广西大学 | 一种考虑预防策略的大规模电力系统自动发电控制方法 |
CN109726903A (zh) * | 2018-12-19 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 基于注意力机制的分布式多智能体协同决策方法 |
CN109893857A (zh) * | 2019-03-14 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种操作信息预测的方法、模型训练的方法及相关装置 |
CN110278249A (zh) * | 2019-05-30 | 2019-09-24 | 天津神兔未来科技有限公司 | 一种分布式群体智能系统 |
-
2019
- 2019-12-31 CN CN201911416754.4A patent/CN111144557A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6792412B1 (en) * | 1999-02-02 | 2004-09-14 | Alan Sullivan | Neural network system and method for controlling information output based on user feedback |
US20060224535A1 (en) * | 2005-03-08 | 2006-10-05 | Microsoft Corporation | Action selection for reinforcement learning using influence diagrams |
US9311600B1 (en) * | 2012-06-03 | 2016-04-12 | Mark Bishop Ring | Method and system for mapping states and actions of an intelligent agent |
CN108596011A (zh) * | 2017-12-29 | 2018-09-28 | 中国电子科技集团公司信息科学研究院 | 一种基于组合深度网络的人脸属性识别方法和装置 |
CN109546648A (zh) * | 2018-11-23 | 2019-03-29 | 广西大学 | 一种考虑预防策略的大规模电力系统自动发电控制方法 |
CN109726903A (zh) * | 2018-12-19 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 基于注意力机制的分布式多智能体协同决策方法 |
CN109893857A (zh) * | 2019-03-14 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种操作信息预测的方法、模型训练的方法及相关装置 |
CN110278249A (zh) * | 2019-05-30 | 2019-09-24 | 天津神兔未来科技有限公司 | 一种分布式群体智能系统 |
Non-Patent Citations (7)
Title |
---|
HIDEAKI UCHIDA 等: "Combinatorial Optimal Location Design of Charging Stations based on Multi-agent Simulation" * |
MAHDI HEMMATI 等: "Towards a bounded-rationality model of multi-agent social learning in games" * |
彭勇: "作战仿真模型体系分析及其模型设计与实现关键技术研究" * |
杨萍 等: "具有自主决策能力的机动单元智能体研究" * |
林君焕 等: "多智能体环境下的情绪决策模型" * |
郭宪: "基于深度增强学习的智能体行为演进研究综述" * |
陈杰 等: "基于角色分配的多智能体决策算法研究" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Research on path planning of mobile robot based on improved ant colony algorithm | |
CN109635917B (zh) | 一种多智能体合作决策及训练方法 | |
Zhang et al. | Collective behavior coordination with predictive mechanisms | |
Pornsing et al. | Novel self-adaptive particle swarm optimization methods | |
Shi et al. | Lateral transfer learning for multiagent reinforcement learning | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
Shi et al. | A multi-unmanned aerial vehicle dynamic task assignment method based on bionic algorithms | |
CN114815882A (zh) | 一种基于强化学习的无人飞行器自主编队智能控制方法 | |
Khan et al. | Large scale distributed collaborative unlabeled motion planning with graph policy gradients | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
Xiao et al. | A graph neural network based deep reinforcement learning algorithm for multi-agent leader-follower flocking | |
CN114489127A (zh) | 一种面向无人机集群的自组织队形编队方法 | |
Fan et al. | Switching-aware multi-agent deep reinforcement learning for target interception | |
CN113313209A (zh) | 一种高样本效率的多智能体强化学习训练方法 | |
CN111783983A (zh) | 用于实现导航的可迁移的元学习的无监督dqn强化学习 | |
CN115047907B (zh) | 一种基于多智能体ppo算法的空中同构编队指挥方法 | |
CN111144557A (zh) | 一种基于级联模式的动作策略方法 | |
Pan et al. | A Graph-Based Soft Actor Critic Approach in Multi-Agent Reinforcement Learning | |
Marzi et al. | Feudal graph reinforcement learning | |
Zhao et al. | Learning multi-agent communication with policy fingerprints for adaptive traffic signal control | |
Ma et al. | AGRCNet: communicate by attentional graph relations in multi-agent reinforcement learning for traffic signal control | |
Wang et al. | Particle-swarm krill herd algorithm | |
He et al. | BRGR: Multi-agent cooperative reinforcement learning with bidirectional real-time gain representation | |
Zhang et al. | Learning Cooperative Policies with Graph Networks in Distributed Swarm Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |