CN112926729A - 人机对抗智能体策略制定方法 - Google Patents

人机对抗智能体策略制定方法 Download PDF

Info

Publication number
CN112926729A
CN112926729A CN202110488990.8A CN202110488990A CN112926729A CN 112926729 A CN112926729 A CN 112926729A CN 202110488990 A CN202110488990 A CN 202110488990A CN 112926729 A CN112926729 A CN 112926729A
Authority
CN
China
Prior art keywords
agent
network
value
strategy
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110488990.8A
Other languages
English (en)
Other versions
CN112926729B (zh
Inventor
尹奇跃
黄凯奇
赵美静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110488990.8A priority Critical patent/CN112926729B/zh
Publication of CN112926729A publication Critical patent/CN112926729A/zh
Application granted granted Critical
Publication of CN112926729B publication Critical patent/CN112926729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供通用的人机对抗智能体策略制定方法,包括:获取多智能体博弈仿真环境中各个智能体当前帧的状态信息、当前帧的地图信息;采用全连接神经网络处理各个智能体的状态信息,卷积神经网络处理各个智能体的地图信息,串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的动作,上述网络参数构成了智能体决策的策略网络参数;采用全连接神经网络处理各个智能体的状态信息,卷积神经网络处理各个智能体的地图信息,串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的值估计,上述网络参数构成了智能体值网络参数;应用所述智能体的值估计构成损失函数,采用策略梯度下降算法进行策略网络参数更新。

Description

人机对抗智能体策略制定方法
技术领域
本申请涉及多智能体人机对抗领域,尤其涉及人机对抗智能体策略制定方法。
背景技术
现实场景中的大多数决策问题都需要多个智能体的有效协同进而完成复杂的决策问题。基于此,尽管传统的单智能体深度强化学习技术取得了一系列显著的成绩,但是却难以解决复杂博弈游戏乃至现实复杂决策问题,需要多智能体深度强化算法的支撑。为实现智能体间的有效协同,一般多智能体强化学习算法在设计时需要显式考虑智能体之间的通信、进行智能体之间的信用分配等,进而在各个智能体决策时涌现协同,解决多智能体协同决策问题。
公开号为CN108921298A,公开了一种强化学习多智能体沟通与决策方法,包括:根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策。
公开号为CN112132263A,公开了一种基于强化学习的多智能体自主导航方法,属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。
考虑到现实博弈环境较为复杂,尽管通过设计通信等方式可以一定程度实现多智能体策略的有效制定,但是对于策略的训练却存在较大的计算开销,难以支撑复杂博弈决策问题通过自我博弈数轮的多智能体策略迭代。因此,如何设计简单有效的多智能体算法实现策略的快速训练成为解决复杂博弈问题亟需解决的问题。
发明内容
本发明提供人机对抗智能体策略制定方法,包括:
S1:获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征;
S2:将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络,得到策略网状态特征;将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络,得到策略网地图特征;将所述策略网状态特征、策略网地图特征和智能体的编码特征串接,得到智能体当前帧的策略网总体特征;将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络并输出每个智能体的动作;所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数;
S3:将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络,得到值网络状态特征;将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络,得到值网络地图特征;将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接,得到智能体当前帧的值网络总体特征;将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络并输出智能体的值估计;所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数;
S4:将每个智能体当前帧的状态特征输入权重全连接神经网络,得到映射并归一化得到每个智能体的值估计的权重;
S5:依据所述每个智能体的动作构成的联合动作进行环境推演,获取每个智能体下一帧的状态特征、地图特征、环境回报信息;
S6:重复步骤S1-S5 m次,收集m组训练数据,应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数,采用策略梯度下降算法进行策略网络参数更新,m为训练一次的轨迹数据长度,取值为2b,b取值3-7之间的整数;
S7:重复步骤S1-S6,直至策略网络参数收敛获得策略制定方法。
优选的,提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征,表现形式为数据向量;提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征,表现形式为三维张量;所述环境回报信息为,由多智能体博弈仿真环境反馈的奖赏值;
所述训练数据的基本形式为
Figure 719202DEST_PATH_IMAGE001
,其中
Figure 986235DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
表示智能体i当前t帧与下一帧状态特征、地图特征和编码信息的串接,
Figure 919556DEST_PATH_IMAGE004
表示智能体i当前帧动作,rt为在当前t帧,多智能体博弈仿真环境反馈的奖赏值。
优选的,所述状态信息包括:智能体的属性值、位置信息;所述地图信息为,记录了以智能体为中心的所在环境的地形信息和视野信息;所述属性值为血量、装甲类型。
优选的,所述编码信息为智能体编码,由0与1组成的独热编码。
优选的,所述策略网卷积神经网络之后连接一层全连接网络;策略网长短时记忆网络之后连接全连接层,在所述全连接层上施加softmax函数,并给出动作值的概率,依据所述动作值的概率进行动作选择。
优选的,所述值网络卷积神经网络之后连接一层全连接网络;值网络长短时记忆网络之后连接全连接层。
优选的,所有智能体具有完全一致的策略网络参数;所有智能体共用一个值网络。
优选的,所述应用所述智能体的值估计构成损失函数的具体形式为:
Figure DEST_PATH_IMAGE005
其中,
Vπ(st):在当前t帧,所有智能体在状态st时的加权值估计;
Vπ(st+1):在t+1帧,所有智能体在状态st+1时的加权值估计;
Figure 306544DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 299908DEST_PATH_IMAGE008
:智能体i在状态
Figure DEST_PATH_IMAGE009
下的值估计;
Figure 788658DEST_PATH_IMAGE010
:智能体i在状态
Figure DEST_PATH_IMAGE011
下的值估计;
Figure 260091DEST_PATH_IMAGE012
:智能体i在当前t帧的权重系数;
Figure DEST_PATH_IMAGE013
:智能体i在当前t+1帧的权重系数。
优选的,所述采用策略梯度下降算法进行策略网络梯度计算的公式为:
Figure 783476DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
:多智能体博弈仿真环境反馈的奖赏值的期望
Figure 947741DEST_PATH_IMAGE016
的梯度,
Figure DEST_PATH_IMAGE017
Figure 658208DEST_PATH_IMAGE018
对数值对参数θ的梯度;
θ :策略网络参数θ的梯度;
Figure DEST_PATH_IMAGE019
:softmax函数给出动作值的概率。
优选的,所述权重系数的计算公式为:
Figure 933331DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
:将智能体i当前t帧的状态特征输入权重全连接神经网络,得到的映射。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过所设计的权值共享的多智能体人机对抗策略,进行了连级兵棋水网稻田想定下的红方与蓝方智能体的训练,所学习的红方策略能够战胜目前图灵网上公开的蓝方智能体,所学习的蓝方策略能够战胜目前图灵网上公开的红方智能体。
附图说明
图1为本发明实施例提供的人机对抗智能体策略制定方法框架图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1:
如图1所示本申请实施例提供的人机对抗智能体策略制定方法,包括:
S1:获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征;
提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征,表现形式为数据向量;提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征,表现形式为三维张量;所述环境回报信息为,由多智能体博弈仿真环境反馈的奖赏值;
所述训练数据的基本形式为
Figure 311223DEST_PATH_IMAGE022
,其中
Figure 646390DEST_PATH_IMAGE002
Figure 359000DEST_PATH_IMAGE003
表示智能体i当前t帧与下一帧状态特征、地图特征和编码信息的串接,
Figure 437814DEST_PATH_IMAGE004
表示智能体i当前帧动作,rt为在当前t帧,多智能体博弈仿真环境反馈的奖赏值;
所述状态信息包括:智能体的属性值(例如血量、装甲类型等)、位置信息;所述地图信息为,记录了以智能体为中心的所在环境的地形信息和视野信息;
S2:将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络,即图1中的DNN1,得到策略网状态特征;将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络,即图1中的CNN1,得到策略网地图特征;将所述策略网状态特征、策略网地图特征和智能体的编码特征串接,得到智能体当前帧的策略网总体特征;所述编码信息为智能体编码,由0与1组成的独热编码;将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络(Long Short-Term Memory),即图1中的LSTM1,并输出每个智能体的动作;所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数;所述策略网卷积神经网络之后连接一层全连接网络;策略网长短时记忆网络之后连接全连接层,在所述全连接层上施加softmax函数,并给出动作值的概率,依据所述动作值的概率进行动作选择;所有智能体具有完全一致的策略网络参数,通过策略网络参数共享,将克服智能体训练中产生懒惰智能体(lazyagent),同时将加快训练过程;
S3:将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络,即图1中的DNN2,得到值网络状态特征;将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络,即图1中的CNN2,得到值网络地图特征;将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接,得到智能体当前帧的值网络总体特征;将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络,即图1中的LSTM2,并输出智能体的值估计;所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数;所述值网络卷积神经网络之后连接一层全连接网络;值网络长短时记忆网络之后连接全连接层;所有智能体共用一个值网络,通过值网络参数共享以及后续值网络更新方式,将促进多智能体协作,同时加快训练过程;
S4:将每个智能体当前帧的状态特征输入权重全连接神经网络,得到映射并归一化得到每个智能体的值估计的权重;
所述权重系数的计算公式为:
Figure 935791DEST_PATH_IMAGE023
其中,
Figure 176280DEST_PATH_IMAGE021
:将智能体i当前t帧的状态特征输入权重全连接神经网络,得到的映射;
S5:依据所述每个智能体的动作构成的联合动作进行环境推演,获取每个智能体下一帧的状态特征、地图特征、环境回报信息;
S6:重复步骤S1-S5 m次,收集m组训练数据,应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数,采用策略梯度下降算法进行策略网络参数更新,m取值一般为2b,这里b取值7;
所述应用所述智能体的值估计构成损失函数的具体表示为:
Figure 392498DEST_PATH_IMAGE024
其中,
Vπ(st):在当前t帧,所有智能体在状态st时的加权值估计;
Vπ(st+1):在t+1帧,所有智能体在状态st+1时的加权值估计;
Figure 9424DEST_PATH_IMAGE025
Figure 361908DEST_PATH_IMAGE026
Figure 38877DEST_PATH_IMAGE027
:智能体i在状态
Figure 476811DEST_PATH_IMAGE028
下的值估计;
Figure 631849DEST_PATH_IMAGE029
:智能体i在状态
Figure 104419DEST_PATH_IMAGE030
下的值估计;
Figure 686710DEST_PATH_IMAGE031
:智能体i在当前t帧的权重系数;
Figure 611940DEST_PATH_IMAGE032
:智能体i在当前t+1帧的权重系数;
所述采用策略梯度下降算法进行策略网络梯度计算的公式为:
Figure 836248DEST_PATH_IMAGE014
其中,
Figure 897745DEST_PATH_IMAGE033
:多智能体博弈仿真环境反馈的奖赏值的期望
Figure 182096DEST_PATH_IMAGE016
的梯度,
Figure 329044DEST_PATH_IMAGE017
Figure 91463DEST_PATH_IMAGE018
对数值对参数θ的梯度;
θ :策略网络参数θ的梯度;
Figure 273046DEST_PATH_IMAGE019
:softmax函数给出动作值的概率;
S7:重复步骤S1-S6,直至策略网络参数收敛获得策略制定方法。
实施例2
如图1所示,本发明提供了人机对抗智能体策略制定方法,优选实施例为兵棋推演,选用红方三个算子(重型坦克、重型战车、步兵小队)进行多智能体训练,其中每个算子作为一个智能体,蓝方选用内置示例智能体控制,其包括:
步骤S1,获取兵棋推演环境中各个智能体(重型坦克、重型战车、步兵小队)当前帧的状态信息、当前帧的地图信息。
具体地,智能体的状态信息包括该智能体的属性值、位置信息(维度为36维向量),可视范围内蓝方智能体(包括重型坦克、重型战车、步兵小队)的属性值、位置信息,上述信息构成智能体的状态特征,维度为36*4=144。
地图信息为该智能体为中心的周边地形信息(从林地、城镇居民地等)、高程信息(地形高度)、可视范围信息(是否通视)、攻击等级信息(最大攻击等级),上述信息构成智能体的地图特征,以23*13区域大小计算,维度为23*13*4。
步骤S2,采用全连接神经网络,即图1中的DNN1,处理各个智能体的状态特征,卷积神经网络,即图1中的CNN1,处理各个智能体的地图特征,串接上述处理过的两种特征与智能体的编码送入长短时记忆网络,即图1中的LSTM1,并输出智能体的动作信息。
S2-1,对于其中一个智能体,采用三层全连接神经网络(节点数为128,128,128)处理该智能体的状态特征得到具有较高层语义表达的状态特征表达(维度为128)。采用两层卷积神经网络(卷积核大小为5*5*4*8,5*5*8*16)处理地图特征,之后连接一层全连接网络(节点数位128)得到具有较高层语义表达的地图特征表达(维度为128)。
S2-2,对于该智能体按照其初始化排序进行one-hot编码,重型坦克编码为[1, 0,0],重型战车编码为[0, 1, 0],步兵小队编码为[0, 0, 1]。
S2-3,将上述状态特征表达、地图特征表达、智能体编码特征进行串接送入LSTM1网络中得到当前帧该智能体的动作。本实施例中动作包含机动、射击、停止、掩蔽、上车、下车、夺控、空动作,其中机动包含6个方向一个标准六角格的机动,因此动作空间大小为13,基于此LSTM1网络的大小设置为128,LSTM1到动作映射之前加入全连接网络,其节点数位13。通过在全连接层施加softmax函数并基于各个动作值的概率进行动作选择。
S2-4,使用相同的上述策略网络参数重复步骤S2-1到S2-3获得所有智能体(包括重型坦克、重型战车、步兵小队)的动作。
步骤S3,采用全连接神经网络,即图1中的DNN2,处理各个智能体的状态特征,卷积神经网络,即图1中的CNN2,处理各个智能体的地图特征,串接上述处理过的两种特征与智能体的编码送入长短时记忆网络,即图1中的LSTM2,并输出智能体的值估计。
S3-1,对于其中一个智能体,采用三层全连接神经网络(节点数为128,128,128)处理该智能体的状态特征得到具有较高层语义表达的状态特征表达(维度为128)。采用两层卷积神经网络(卷积核大小为5*5*4*8,5*5*8*16)处理地图特征,之后连接一层全连接网络(节点数位128)得到具有较高层语义表达的地图特征表达(维度为128)。
S3-2,对于该智能体按照其初始化排序进行one-hot编码,重型坦克编码为[1, 0,0],重型战车编码为[0, 1, 0],步兵小队编码为[0, 0, 1]。
S3-3,将上述状态特征表达、地图特征表达、智能体编码特征进行串接送入长短时记忆网络中得到该智能体的值估计。LSTM2网络的大小设置为128,LSTM2到动作映射之前加入全连接网络,其节点数位1。
S3-4,使用相同的上述策略网络参数重复步骤S3-1到S3-3获得所有智能体(包括重型坦克、重型战车、步兵小队)的值估计。
步骤S4,对各个智能体的状态特征(144维度)通过两层全连接网络(节点数目为32,1)映射并归一化得到各个智能体的值估计的权重,即
Figure 711986DEST_PATH_IMAGE031
所述权重系数的计算公式为:
Figure 611809DEST_PATH_IMAGE034
其中,
Figure 912341DEST_PATH_IMAGE021
:将智能体i当前t帧的状态特征输入权重全连接神经网络,得到的映射。
步骤S5,依据各个智能体预测的动作构成联合动作,并传入兵棋推演环境中进行一步推演,获取各个智能体下一帧的状态信息、地图信息、环境回报信息;
具体地,将上述联合动作送入兵棋推演环境进行环境的一步推演,得到各个智能体下一帧的状态信息、地图信息以及所有智能体统一的回报值。该回报值采用兵棋体验环境中的面板分差表示,即下一帧红方智能体的总得分与当前帧红方智能体的总得分。
步骤S6,重复步骤S1-S5 128步得到每个智能体的一个长度为128的轨迹数据(当仿真环境结束时重置环境以及LSTM初始值),该数据表示为
Figure 948430DEST_PATH_IMAGE035
,整合所有智能体的轨迹数据进行策略网络参数与值网络参数(包括各个智能体值估计权重网络)的更新。
具体地,策略网络梯度计算为:
Figure 309004DEST_PATH_IMAGE014
值网络优化目标为:
Figure 696123DEST_PATH_IMAGE036
Figure 800345DEST_PATH_IMAGE037
Figure 690941DEST_PATH_IMAGE026
该目标优化过程中将采用梯度下降法直接计算。
步骤S7,重复步骤S1-S6直至策略网络参数收敛。
具体地,步骤S1-S5收集数据,步骤S6进行网络训练,当各个智能体策略网络输出的动作概率趋于收敛时,则策略网络收敛。
此时,得到适用于多智能体人机对抗策略制定方法π。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种特征,但这些特征不应限于这些术语。这些术语仅用来将同一类型的特征彼此区分开。例如,在不脱离本发明范围的情况下,第一特征也可以被称为第二特征,类似地,第二特征也可以被称为第一特征。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.人机对抗智能体策略制定方法,其特征在于,包括:
S1:获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征;
S2:将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络,得到策略网状态特征;将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络,得到策略网地图特征;将所述策略网状态特征、策略网地图特征和智能体的编码特征串接,得到智能体当前帧的策略网总体特征;将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络并输出每个智能体的动作;所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数;
S3:将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络,得到值网络状态特征;将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络,得到值网络地图特征;将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接,得到智能体当前帧的值网络总体特征;将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络并输出智能体的值估计;所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数;
S4:将每个智能体当前帧的状态特征输入权重全连接神经网络,得到映射并归一化得到每个智能体的值估计的权重;
S5:依据所述每个智能体的动作构成的联合动作进行环境推演,获取每个智能体下一帧的状态特征、地图特征、环境回报信息;
S6:重复步骤S1-S5 m次,收集m组训练数据,应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数,采用策略梯度下降算法进行策略网络参数更新,m为训练一次的轨迹数据长度,取值为2b,b取值3-7之间的整数;
S7:重复步骤S1-S6,直至策略网络参数收敛获得策略制定方法。
2.根据权利要求1所述的人机对抗智能体策略制定方法,其特征在于,提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征,表现形式为数据向量;提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征,表现形式为三维张量;所述环境回报信息为,由多智能体博弈仿真环境反馈的奖赏值;
所述训练数据的基本形式为
Figure 281261DEST_PATH_IMAGE001
,其中
Figure 983637DEST_PATH_IMAGE002
Figure 79769DEST_PATH_IMAGE003
表示智能体i当前t帧与下一帧状态特征、地图特征和编码信息的串接,
Figure 791373DEST_PATH_IMAGE004
表示智能体i当前帧动作,rt为在当前t帧,多智能体博弈仿真环境反馈的奖赏值。
3.根据权利要求2所述的人机对抗智能体策略制定方法,其特征在于,所述状态信息包括:智能体的属性值、位置信息;所述地图信息为,记录了以智能体为中心的所在环境的地形信息和视野信息;所述属性值为血量、装甲类型。
4.根据权利要求2所述的人机对抗智能体策略制定方法,其特征在于,所述编码信息为智能体编码,由0与1组成的独热编码。
5.根据权利要求1所述的人机对抗智能体策略制定方法,其特征在于,所述策略网卷积神经网络之后连接一层全连接网络;策略网长短时记忆网络之后连接全连接层,在所述全连接层上施加softmax函数,并给出动作值的概率,依据所述动作值的概率进行动作选择。
6.根据权利要求5所述的人机对抗智能体策略制定方法,其特征在于,所述值网络卷积神经网络之后连接一层全连接网络;值网络长短时记忆网络之后连接全连接层。
7.根据权利要求6所述的人机对抗智能体策略制定方法,其特征在于,所有智能体具有完全一致的策略网络参数;所有智能体共用一个值网络。
8.根据权利要求7所述的人机对抗智能体策略制定方法,其特征在于,所述应用所述智能体的值估计构成损失函数的具体形式为:
Figure 390982DEST_PATH_IMAGE005
其中,
Vπ(st):在当前t帧,所有智能体在状态st时的加权值估计;
Vπ(st+1):在t+1帧,所有智能体在状态st+1时的加权值估计;
Figure 529839DEST_PATH_IMAGE006
Figure 847688DEST_PATH_IMAGE007
Figure 97404DEST_PATH_IMAGE008
:智能体i在状态
Figure 817098DEST_PATH_IMAGE009
下的值估计;
Figure 126857DEST_PATH_IMAGE010
:智能体i在状态
Figure 197581DEST_PATH_IMAGE011
下的值估计;
Figure 234676DEST_PATH_IMAGE012
:智能体i在当前t帧的权重系数;
Figure 74456DEST_PATH_IMAGE013
:智能体i在当前t+1帧的权重系数。
9.根据权利要求8所述的人机对抗智能体策略制定方法,其特征在于,所述采用策略梯度下降算法进行策略网络梯度计算的公式为:
Figure 289537DEST_PATH_IMAGE014
其中,
Figure 581978DEST_PATH_IMAGE015
:多智能体博弈仿真环境反馈的奖赏值的期望
Figure 439075DEST_PATH_IMAGE016
的梯度,
Figure 867783DEST_PATH_IMAGE017
Figure 519344DEST_PATH_IMAGE018
对数值对参数θ的梯度;
θ :策略网络参数θ的梯度;
Figure 299081DEST_PATH_IMAGE019
:softmax函数给出动作值的概率。
10.根据权利要求9所述的人机对抗智能体策略制定方法,其特征在于,所述权重系数的计算公式为:
Figure 428711DEST_PATH_IMAGE020
其中,
Figure 977504DEST_PATH_IMAGE021
:将智能体i当前t帧的状态特征输入权重全连接神经网络,得到的映射。
CN202110488990.8A 2021-05-06 2021-05-06 人机对抗智能体策略制定方法 Active CN112926729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488990.8A CN112926729B (zh) 2021-05-06 2021-05-06 人机对抗智能体策略制定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488990.8A CN112926729B (zh) 2021-05-06 2021-05-06 人机对抗智能体策略制定方法

Publications (2)

Publication Number Publication Date
CN112926729A true CN112926729A (zh) 2021-06-08
CN112926729B CN112926729B (zh) 2021-08-03

Family

ID=76174804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488990.8A Active CN112926729B (zh) 2021-05-06 2021-05-06 人机对抗智能体策略制定方法

Country Status (1)

Country Link
CN (1) CN112926729B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165603A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN108427284A (zh) * 2018-04-09 2018-08-21 中国石油大学(华东) 一类串联结构多智能体系统协调一致性控制方法
CN108523768A (zh) * 2018-03-12 2018-09-14 苏州大学 基于自适应策略优化的家庭清洁机器人控制系统
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN111160361A (zh) * 2019-11-18 2020-05-15 中国科学院自动化研究所 一种图像分类方法、装置以及计算机可读介质
CN111191934A (zh) * 2019-12-31 2020-05-22 北京理工大学 一种基于强化学习策略的多目标云工作流调度方法
US20200279160A1 (en) * 2019-03-01 2020-09-03 Stats Llc System and Method for Multi-task Learning
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112580722A (zh) * 2020-12-20 2021-03-30 大连理工大学人工智能大连研究院 一种基于条件对抗自动编码机的广义零样本图像识别方法
CN112633519A (zh) * 2021-03-11 2021-04-09 中国科学院自动化研究所 人机对抗行动预测方法、装置、电子设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165603A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN108523768A (zh) * 2018-03-12 2018-09-14 苏州大学 基于自适应策略优化的家庭清洁机器人控制系统
CN108427284A (zh) * 2018-04-09 2018-08-21 中国石油大学(华东) 一类串联结构多智能体系统协调一致性控制方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
US20200279160A1 (en) * 2019-03-01 2020-09-03 Stats Llc System and Method for Multi-task Learning
CN111160361A (zh) * 2019-11-18 2020-05-15 中国科学院自动化研究所 一种图像分类方法、装置以及计算机可读介质
CN111191934A (zh) * 2019-12-31 2020-05-22 北京理工大学 一种基于强化学习策略的多目标云工作流调度方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112580722A (zh) * 2020-12-20 2021-03-30 大连理工大学人工智能大连研究院 一种基于条件对抗自动编码机的广义零样本图像识别方法
CN112633519A (zh) * 2021-03-11 2021-04-09 中国科学院自动化研究所 人机对抗行动预测方法、装置、电子设备和存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JIANKAI ZUO ET AL: "A Multi-agent Cluster Cooperative Confrontation Method Based on Swarm Intelligence Optimization", 《2021 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA, ARTIFICIAL INTELLIGENCE AND INTERNET OF THINGS ENGINEERING (ICBAIE)》 *
XIANGYU LIU ET AL: "Attentive Relational State Representation in Decentralized Multiagent Reinforcement Learning", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
刘为凯: "复杂多智能体网络的协调控制及优化研究", 《中国博士学位论文全文数据库 基础科学辑》 *
许江涛: "基于深度强化学习的视频游戏模拟算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
谭浪: "强化学习在多智能体对抗中的应用研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
郭宪等: "仿生机器人运动步态控制:强化学习方法综述", 《智能系统学报》 *
黄凯奇等: "人机对抗智能技术", 《中国科学:信息科学》 *

Also Published As

Publication number Publication date
CN112926729B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN108427985A (zh) 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN114489144B (zh) 无人机自主机动决策方法、装置及无人机
CN114444201A (zh) 基于贝叶斯网络的对地攻击无人机自主能力评估方法
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
CN107045803A (zh) 基于滚动规划策略的航海交通管制方法
CN112926729B (zh) 人机对抗智能体策略制定方法
Afifi et al. Deep policy-gradient based path planning and reinforcement cooperative Q-learning behavior of multi-vehicle systems
Tripathi et al. A nature inspired hybrid optimisation algorithm for dynamic environment with real parameter encoding
CN116562332A (zh) 一种人机共融环境下的机器人社交性运动规划方法
CN116596343A (zh) 一种基于深度强化学习的智能兵棋推演决策方法
CN113283574B (zh) 群体对抗中智能体控制方法、装置、电子设备及存储介质
CN115186378A (zh) 一种空战模拟环境中的战术控制距离实时解算方法
Zhang et al. Intelligent battlefield situation comprehension method based on deep learning in wargame
CN114611669B (zh) 一种基于双经验池ddpg网络的兵棋推演智能决策方法
CN112001583B (zh) 一种策略确定方法、中控设备及存储介质
Tran et al. TACDSS: adaptation using a hybrid neuro-fuzzy system
CN115826627A (zh) 一种编队指令的确定方法、系统、设备及存储介质
CN115951707A (zh) 无人机集群任务规划方法、装置、存储介质和设备
CN117933622A (zh) 一种基于分层强化学习的无人机动态任务分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant