CN112926729A - 人机对抗智能体策略制定方法 - Google Patents
人机对抗智能体策略制定方法 Download PDFInfo
- Publication number
- CN112926729A CN112926729A CN202110488990.8A CN202110488990A CN112926729A CN 112926729 A CN112926729 A CN 112926729A CN 202110488990 A CN202110488990 A CN 202110488990A CN 112926729 A CN112926729 A CN 112926729A
- Authority
- CN
- China
- Prior art keywords
- agent
- network
- value
- strategy
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000004088 simulation Methods 0.000 claims abstract description 17
- 230000015654 memory Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 239000003795 chemical substances by application Substances 0.000 claims description 231
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 239000000126 substance Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 3
- 210000004369 blood Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 102100033620 Calponin-1 Human genes 0.000 description 1
- 102100033591 Calponin-2 Human genes 0.000 description 1
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 1
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 1
- 241000196171 Hydrodictyon reticulatum Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供通用的人机对抗智能体策略制定方法,包括:获取多智能体博弈仿真环境中各个智能体当前帧的状态信息、当前帧的地图信息;采用全连接神经网络处理各个智能体的状态信息,卷积神经网络处理各个智能体的地图信息,串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的动作,上述网络参数构成了智能体决策的策略网络参数;采用全连接神经网络处理各个智能体的状态信息,卷积神经网络处理各个智能体的地图信息,串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的值估计,上述网络参数构成了智能体值网络参数;应用所述智能体的值估计构成损失函数,采用策略梯度下降算法进行策略网络参数更新。
Description
技术领域
本申请涉及多智能体人机对抗领域,尤其涉及人机对抗智能体策略制定方法。
背景技术
现实场景中的大多数决策问题都需要多个智能体的有效协同进而完成复杂的决策问题。基于此,尽管传统的单智能体深度强化学习技术取得了一系列显著的成绩,但是却难以解决复杂博弈游戏乃至现实复杂决策问题,需要多智能体深度强化算法的支撑。为实现智能体间的有效协同,一般多智能体强化学习算法在设计时需要显式考虑智能体之间的通信、进行智能体之间的信用分配等,进而在各个智能体决策时涌现协同,解决多智能体协同决策问题。
公开号为CN108921298A,公开了一种强化学习多智能体沟通与决策方法,包括:根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策。
公开号为CN112132263A,公开了一种基于强化学习的多智能体自主导航方法,属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。
考虑到现实博弈环境较为复杂,尽管通过设计通信等方式可以一定程度实现多智能体策略的有效制定,但是对于策略的训练却存在较大的计算开销,难以支撑复杂博弈决策问题通过自我博弈数轮的多智能体策略迭代。因此,如何设计简单有效的多智能体算法实现策略的快速训练成为解决复杂博弈问题亟需解决的问题。
发明内容
本发明提供人机对抗智能体策略制定方法,包括:
S1:获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征;
S2:将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络,得到策略网状态特征;将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络,得到策略网地图特征;将所述策略网状态特征、策略网地图特征和智能体的编码特征串接,得到智能体当前帧的策略网总体特征;将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络并输出每个智能体的动作;所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数;
S3:将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络,得到值网络状态特征;将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络,得到值网络地图特征;将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接,得到智能体当前帧的值网络总体特征;将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络并输出智能体的值估计;所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数;
S4:将每个智能体当前帧的状态特征输入权重全连接神经网络,得到映射并归一化得到每个智能体的值估计的权重;
S5:依据所述每个智能体的动作构成的联合动作进行环境推演,获取每个智能体下一帧的状态特征、地图特征、环境回报信息;
S6:重复步骤S1-S5 m次,收集m组训练数据,应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数,采用策略梯度下降算法进行策略网络参数更新,m为训练一次的轨迹数据长度,取值为2b,b取值3-7之间的整数;
S7:重复步骤S1-S6,直至策略网络参数收敛获得策略制定方法。
优选的,提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征,表现形式为数据向量;提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征,表现形式为三维张量;所述环境回报信息为,由多智能体博弈仿真环境反馈的奖赏值;
优选的,所述状态信息包括:智能体的属性值、位置信息;所述地图信息为,记录了以智能体为中心的所在环境的地形信息和视野信息;所述属性值为血量、装甲类型。
优选的,所述编码信息为智能体编码,由0与1组成的独热编码。
优选的,所述策略网卷积神经网络之后连接一层全连接网络;策略网长短时记忆网络之后连接全连接层,在所述全连接层上施加softmax函数,并给出动作值的概率,依据所述动作值的概率进行动作选择。
优选的,所述值网络卷积神经网络之后连接一层全连接网络;值网络长短时记忆网络之后连接全连接层。
优选的,所有智能体具有完全一致的策略网络参数;所有智能体共用一个值网络。
优选的,所述应用所述智能体的值估计构成损失函数的具体形式为:
其中,
Vπ(st):在当前t帧,所有智能体在状态st时的加权值估计;
Vπ(st+1):在t+1帧,所有智能体在状态st+1时的加权值估计;
优选的,所述采用策略梯度下降算法进行策略网络梯度计算的公式为:
其中,
∇ θ :策略网络参数θ的梯度;
优选的,所述权重系数的计算公式为:
其中,
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过所设计的权值共享的多智能体人机对抗策略,进行了连级兵棋水网稻田想定下的红方与蓝方智能体的训练,所学习的红方策略能够战胜目前图灵网上公开的蓝方智能体,所学习的蓝方策略能够战胜目前图灵网上公开的红方智能体。
附图说明
图1为本发明实施例提供的人机对抗智能体策略制定方法框架图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1:
如图1所示本申请实施例提供的人机对抗智能体策略制定方法,包括:
S1:获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征;
提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征,表现形式为数据向量;提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征,表现形式为三维张量;所述环境回报信息为,由多智能体博弈仿真环境反馈的奖赏值;
所述状态信息包括:智能体的属性值(例如血量、装甲类型等)、位置信息;所述地图信息为,记录了以智能体为中心的所在环境的地形信息和视野信息;
S2:将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络,即图1中的DNN1,得到策略网状态特征;将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络,即图1中的CNN1,得到策略网地图特征;将所述策略网状态特征、策略网地图特征和智能体的编码特征串接,得到智能体当前帧的策略网总体特征;所述编码信息为智能体编码,由0与1组成的独热编码;将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络(Long Short-Term Memory),即图1中的LSTM1,并输出每个智能体的动作;所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数;所述策略网卷积神经网络之后连接一层全连接网络;策略网长短时记忆网络之后连接全连接层,在所述全连接层上施加softmax函数,并给出动作值的概率,依据所述动作值的概率进行动作选择;所有智能体具有完全一致的策略网络参数,通过策略网络参数共享,将克服智能体训练中产生懒惰智能体(lazyagent),同时将加快训练过程;
S3:将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络,即图1中的DNN2,得到值网络状态特征;将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络,即图1中的CNN2,得到值网络地图特征;将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接,得到智能体当前帧的值网络总体特征;将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络,即图1中的LSTM2,并输出智能体的值估计;所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数;所述值网络卷积神经网络之后连接一层全连接网络;值网络长短时记忆网络之后连接全连接层;所有智能体共用一个值网络,通过值网络参数共享以及后续值网络更新方式,将促进多智能体协作,同时加快训练过程;
S4:将每个智能体当前帧的状态特征输入权重全连接神经网络,得到映射并归一化得到每个智能体的值估计的权重;
所述权重系数的计算公式为:
其中,
S5:依据所述每个智能体的动作构成的联合动作进行环境推演,获取每个智能体下一帧的状态特征、地图特征、环境回报信息;
S6:重复步骤S1-S5 m次,收集m组训练数据,应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数,采用策略梯度下降算法进行策略网络参数更新,m取值一般为2b,这里b取值7;
所述应用所述智能体的值估计构成损失函数的具体表示为:
其中,
Vπ(st):在当前t帧,所有智能体在状态st时的加权值估计;
Vπ(st+1):在t+1帧,所有智能体在状态st+1时的加权值估计;
所述采用策略梯度下降算法进行策略网络梯度计算的公式为:
其中,
∇ θ :策略网络参数θ的梯度;
S7:重复步骤S1-S6,直至策略网络参数收敛获得策略制定方法。
实施例2
如图1所示,本发明提供了人机对抗智能体策略制定方法,优选实施例为兵棋推演,选用红方三个算子(重型坦克、重型战车、步兵小队)进行多智能体训练,其中每个算子作为一个智能体,蓝方选用内置示例智能体控制,其包括:
步骤S1,获取兵棋推演环境中各个智能体(重型坦克、重型战车、步兵小队)当前帧的状态信息、当前帧的地图信息。
具体地,智能体的状态信息包括该智能体的属性值、位置信息(维度为36维向量),可视范围内蓝方智能体(包括重型坦克、重型战车、步兵小队)的属性值、位置信息,上述信息构成智能体的状态特征,维度为36*4=144。
地图信息为该智能体为中心的周边地形信息(从林地、城镇居民地等)、高程信息(地形高度)、可视范围信息(是否通视)、攻击等级信息(最大攻击等级),上述信息构成智能体的地图特征,以23*13区域大小计算,维度为23*13*4。
步骤S2,采用全连接神经网络,即图1中的DNN1,处理各个智能体的状态特征,卷积神经网络,即图1中的CNN1,处理各个智能体的地图特征,串接上述处理过的两种特征与智能体的编码送入长短时记忆网络,即图1中的LSTM1,并输出智能体的动作信息。
S2-1,对于其中一个智能体,采用三层全连接神经网络(节点数为128,128,128)处理该智能体的状态特征得到具有较高层语义表达的状态特征表达(维度为128)。采用两层卷积神经网络(卷积核大小为5*5*4*8,5*5*8*16)处理地图特征,之后连接一层全连接网络(节点数位128)得到具有较高层语义表达的地图特征表达(维度为128)。
S2-2,对于该智能体按照其初始化排序进行one-hot编码,重型坦克编码为[1, 0,0],重型战车编码为[0, 1, 0],步兵小队编码为[0, 0, 1]。
S2-3,将上述状态特征表达、地图特征表达、智能体编码特征进行串接送入LSTM1网络中得到当前帧该智能体的动作。本实施例中动作包含机动、射击、停止、掩蔽、上车、下车、夺控、空动作,其中机动包含6个方向一个标准六角格的机动,因此动作空间大小为13,基于此LSTM1网络的大小设置为128,LSTM1到动作映射之前加入全连接网络,其节点数位13。通过在全连接层施加softmax函数并基于各个动作值的概率进行动作选择。
S2-4,使用相同的上述策略网络参数重复步骤S2-1到S2-3获得所有智能体(包括重型坦克、重型战车、步兵小队)的动作。
步骤S3,采用全连接神经网络,即图1中的DNN2,处理各个智能体的状态特征,卷积神经网络,即图1中的CNN2,处理各个智能体的地图特征,串接上述处理过的两种特征与智能体的编码送入长短时记忆网络,即图1中的LSTM2,并输出智能体的值估计。
S3-1,对于其中一个智能体,采用三层全连接神经网络(节点数为128,128,128)处理该智能体的状态特征得到具有较高层语义表达的状态特征表达(维度为128)。采用两层卷积神经网络(卷积核大小为5*5*4*8,5*5*8*16)处理地图特征,之后连接一层全连接网络(节点数位128)得到具有较高层语义表达的地图特征表达(维度为128)。
S3-2,对于该智能体按照其初始化排序进行one-hot编码,重型坦克编码为[1, 0,0],重型战车编码为[0, 1, 0],步兵小队编码为[0, 0, 1]。
S3-3,将上述状态特征表达、地图特征表达、智能体编码特征进行串接送入长短时记忆网络中得到该智能体的值估计。LSTM2网络的大小设置为128,LSTM2到动作映射之前加入全连接网络,其节点数位1。
S3-4,使用相同的上述策略网络参数重复步骤S3-1到S3-3获得所有智能体(包括重型坦克、重型战车、步兵小队)的值估计。
所述权重系数的计算公式为:
其中,
步骤S5,依据各个智能体预测的动作构成联合动作,并传入兵棋推演环境中进行一步推演,获取各个智能体下一帧的状态信息、地图信息、环境回报信息;
具体地,将上述联合动作送入兵棋推演环境进行环境的一步推演,得到各个智能体下一帧的状态信息、地图信息以及所有智能体统一的回报值。该回报值采用兵棋体验环境中的面板分差表示,即下一帧红方智能体的总得分与当前帧红方智能体的总得分。
步骤S6,重复步骤S1-S5 128步得到每个智能体的一个长度为128的轨迹数据(当仿真环境结束时重置环境以及LSTM初始值),该数据表示为,整合所有智能体的轨迹数据进行策略网络参数与值网络参数(包括各个智能体值估计权重网络)的更新。
具体地,策略网络梯度计算为:
值网络优化目标为:
该目标优化过程中将采用梯度下降法直接计算。
步骤S7,重复步骤S1-S6直至策略网络参数收敛。
具体地,步骤S1-S5收集数据,步骤S6进行网络训练,当各个智能体策略网络输出的动作概率趋于收敛时,则策略网络收敛。
此时,得到适用于多智能体人机对抗策略制定方法π。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种特征,但这些特征不应限于这些术语。这些术语仅用来将同一类型的特征彼此区分开。例如,在不脱离本发明范围的情况下,第一特征也可以被称为第二特征,类似地,第二特征也可以被称为第一特征。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.人机对抗智能体策略制定方法,其特征在于,包括:
S1:获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征;
S2:将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络,得到策略网状态特征;将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络,得到策略网地图特征;将所述策略网状态特征、策略网地图特征和智能体的编码特征串接,得到智能体当前帧的策略网总体特征;将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络并输出每个智能体的动作;所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数;
S3:将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络,得到值网络状态特征;将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络,得到值网络地图特征;将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接,得到智能体当前帧的值网络总体特征;将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络并输出智能体的值估计;所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数;
S4:将每个智能体当前帧的状态特征输入权重全连接神经网络,得到映射并归一化得到每个智能体的值估计的权重;
S5:依据所述每个智能体的动作构成的联合动作进行环境推演,获取每个智能体下一帧的状态特征、地图特征、环境回报信息;
S6:重复步骤S1-S5 m次,收集m组训练数据,应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数,采用策略梯度下降算法进行策略网络参数更新,m为训练一次的轨迹数据长度,取值为2b,b取值3-7之间的整数;
S7:重复步骤S1-S6,直至策略网络参数收敛获得策略制定方法。
3.根据权利要求2所述的人机对抗智能体策略制定方法,其特征在于,所述状态信息包括:智能体的属性值、位置信息;所述地图信息为,记录了以智能体为中心的所在环境的地形信息和视野信息;所述属性值为血量、装甲类型。
4.根据权利要求2所述的人机对抗智能体策略制定方法,其特征在于,所述编码信息为智能体编码,由0与1组成的独热编码。
5.根据权利要求1所述的人机对抗智能体策略制定方法,其特征在于,所述策略网卷积神经网络之后连接一层全连接网络;策略网长短时记忆网络之后连接全连接层,在所述全连接层上施加softmax函数,并给出动作值的概率,依据所述动作值的概率进行动作选择。
6.根据权利要求5所述的人机对抗智能体策略制定方法,其特征在于,所述值网络卷积神经网络之后连接一层全连接网络;值网络长短时记忆网络之后连接全连接层。
7.根据权利要求6所述的人机对抗智能体策略制定方法,其特征在于,所有智能体具有完全一致的策略网络参数;所有智能体共用一个值网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110488990.8A CN112926729B (zh) | 2021-05-06 | 2021-05-06 | 人机对抗智能体策略制定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110488990.8A CN112926729B (zh) | 2021-05-06 | 2021-05-06 | 人机对抗智能体策略制定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926729A true CN112926729A (zh) | 2021-06-08 |
CN112926729B CN112926729B (zh) | 2021-08-03 |
Family
ID=76174804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110488990.8A Active CN112926729B (zh) | 2021-05-06 | 2021-05-06 | 人机对抗智能体策略制定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926729B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165603A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN108427284A (zh) * | 2018-04-09 | 2018-08-21 | 中国石油大学(华东) | 一类串联结构多智能体系统协调一致性控制方法 |
CN108523768A (zh) * | 2018-03-12 | 2018-09-14 | 苏州大学 | 基于自适应策略优化的家庭清洁机器人控制系统 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN111160361A (zh) * | 2019-11-18 | 2020-05-15 | 中国科学院自动化研究所 | 一种图像分类方法、装置以及计算机可读介质 |
CN111191934A (zh) * | 2019-12-31 | 2020-05-22 | 北京理工大学 | 一种基于强化学习策略的多目标云工作流调度方法 |
US20200279160A1 (en) * | 2019-03-01 | 2020-09-03 | Stats Llc | System and Method for Multi-task Learning |
CN111832501A (zh) * | 2020-07-20 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112215350A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112580722A (zh) * | 2020-12-20 | 2021-03-30 | 大连理工大学人工智能大连研究院 | 一种基于条件对抗自动编码机的广义零样本图像识别方法 |
CN112633519A (zh) * | 2021-03-11 | 2021-04-09 | 中国科学院自动化研究所 | 人机对抗行动预测方法、装置、电子设备和存储介质 |
-
2021
- 2021-05-06 CN CN202110488990.8A patent/CN112926729B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165603A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN108523768A (zh) * | 2018-03-12 | 2018-09-14 | 苏州大学 | 基于自适应策略优化的家庭清洁机器人控制系统 |
CN108427284A (zh) * | 2018-04-09 | 2018-08-21 | 中国石油大学(华东) | 一类串联结构多智能体系统协调一致性控制方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
US20200279160A1 (en) * | 2019-03-01 | 2020-09-03 | Stats Llc | System and Method for Multi-task Learning |
CN111160361A (zh) * | 2019-11-18 | 2020-05-15 | 中国科学院自动化研究所 | 一种图像分类方法、装置以及计算机可读介质 |
CN111191934A (zh) * | 2019-12-31 | 2020-05-22 | 北京理工大学 | 一种基于强化学习策略的多目标云工作流调度方法 |
CN111832501A (zh) * | 2020-07-20 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112215350A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的智能体控制方法及装置 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112580722A (zh) * | 2020-12-20 | 2021-03-30 | 大连理工大学人工智能大连研究院 | 一种基于条件对抗自动编码机的广义零样本图像识别方法 |
CN112633519A (zh) * | 2021-03-11 | 2021-04-09 | 中国科学院自动化研究所 | 人机对抗行动预测方法、装置、电子设备和存储介质 |
Non-Patent Citations (7)
Title |
---|
JIANKAI ZUO ET AL: "A Multi-agent Cluster Cooperative Confrontation Method Based on Swarm Intelligence Optimization", 《2021 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA, ARTIFICIAL INTELLIGENCE AND INTERNET OF THINGS ENGINEERING (ICBAIE)》 * |
XIANGYU LIU ET AL: "Attentive Relational State Representation in Decentralized Multiagent Reinforcement Learning", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
刘为凯: "复杂多智能体网络的协调控制及优化研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
许江涛: "基于深度强化学习的视频游戏模拟算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
谭浪: "强化学习在多智能体对抗中的应用研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
郭宪等: "仿生机器人运动步态控制:强化学习方法综述", 《智能系统学报》 * |
黄凯奇等: "人机对抗智能技术", 《中国科学:信息科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926729B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN111240356B (zh) | 一种基于深度强化学习的无人机集群会合方法 | |
CN108427985A (zh) | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及系统 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN114489144B (zh) | 无人机自主机动决策方法、装置及无人机 | |
CN114444201A (zh) | 基于贝叶斯网络的对地攻击无人机自主能力评估方法 | |
CN115933717A (zh) | 基于深度强化学习的无人机智能空战机动决策训练系统及方法 | |
CN107045803A (zh) | 基于滚动规划策略的航海交通管制方法 | |
CN112926729B (zh) | 人机对抗智能体策略制定方法 | |
Afifi et al. | Deep policy-gradient based path planning and reinforcement cooperative Q-learning behavior of multi-vehicle systems | |
Tripathi et al. | A nature inspired hybrid optimisation algorithm for dynamic environment with real parameter encoding | |
CN116562332A (zh) | 一种人机共融环境下的机器人社交性运动规划方法 | |
CN116596343A (zh) | 一种基于深度强化学习的智能兵棋推演决策方法 | |
CN113283574B (zh) | 群体对抗中智能体控制方法、装置、电子设备及存储介质 | |
CN115186378A (zh) | 一种空战模拟环境中的战术控制距离实时解算方法 | |
Zhang et al. | Intelligent battlefield situation comprehension method based on deep learning in wargame | |
CN114611669B (zh) | 一种基于双经验池ddpg网络的兵棋推演智能决策方法 | |
CN112001583B (zh) | 一种策略确定方法、中控设备及存储介质 | |
Tran et al. | TACDSS: adaptation using a hybrid neuro-fuzzy system | |
CN115826627A (zh) | 一种编队指令的确定方法、系统、设备及存储介质 | |
CN115951707A (zh) | 无人机集群任务规划方法、装置、存储介质和设备 | |
CN117933622A (zh) | 一种基于分层强化学习的无人机动态任务分配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |