CN110428057A - 一种基于多智能体深度强化学习算法的智能博弈系统 - Google Patents

一种基于多智能体深度强化学习算法的智能博弈系统 Download PDF

Info

Publication number
CN110428057A
CN110428057A CN201910474339.8A CN201910474339A CN110428057A CN 110428057 A CN110428057 A CN 110428057A CN 201910474339 A CN201910474339 A CN 201910474339A CN 110428057 A CN110428057 A CN 110428057A
Authority
CN
China
Prior art keywords
game
intelligent
model
interference
multiple agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910474339.8A
Other languages
English (en)
Inventor
程茹茹
高阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd
Nanjing University
Original Assignee
JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd, Nanjing University filed Critical JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd
Publication of CN110428057A publication Critical patent/CN110428057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一个基于多智能体深度强化学习的智能博弈系统,利用多智能体深度强化学习算法构建决策对象软件模型及智能决策技术,软件可以表征智能博弈的特点,能够进行博弈、有胜负,并可以展示智能博弈的过程。

Description

一种基于多智能体深度强化学习算法的智能博弈系统
技术领域
本发明涉及一种基于多智能体深度强化学习算法的智能博弈系统。
背景技术
强化学习是近年来机器学习和智能控制领域的主要方法之一。也就是说强化学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过强化学习,一个智能体应该知道在什么状态下应该采取什么行为。强化学习是从环境状态到动作的映射的学习,我们把这个映射称为策略。
早期的强化学习算法主要关注于状态和动作都是离散且有限的问题,可以使用表格来记录这些概率。但在很多实际问题中,有些任务的状态和动作的数量非常多。为了有效地解决这些问题,可以一个复杂的函数(比如深度神经网络)来使得智能体可以感知更复杂的环境状态以及建立更复杂的策略,提高强化学习算法的能力,并提高泛化能力。深度强化学习是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决策略和值函数的建模问题,然后使用误差反向传播算法来优化目标函数。深度强化学习在一定程度上具备解决复杂问题的通用智能,并在很多任务上都取得了很大的成功。
针对空频域的智能博弈问题,环境的规模较大,包括状态空间、动作空间以及需要控制的智能体数量巨大,直接利用传统的方法解决显然是不合理的。因此我们利用多种多智能体强化学习算法对策略进行学习,并利用相应的简化算法去对环境进行简化,同时将博弈论中的博弈约简的概念引入,简化当前问题的复杂度,基于以上技术的基础上构建空频领域的仿真智能博弈软件,软件可以表征智能博弈的特点,能够进行博弈、有胜负,并可以展示智能博弈的过程。
发明内容
发明目的:本发明提供可一种基于多智能体深度强化学习算法的智能博弈系统,以解决空频领域的大规模智能博弈问题,并展示智能博弈的过程。
技术方案:本发明的智能博弈软件包括两个部分,即可视化智能博弈平台构建技术和多智能体深度强化学习算法建模。
基于多智能体深度强化学习算法的智能博弈系统,所述的软件构建方法包括:定义博弈环境中的状态空间、动作空间和奖赏函数;根据博弈环境的定义,设计可配置环境并且可进行人机交互的可视化的博弈平台;根据博弈环境的定义对状态空间和动作空间进行数据预处理,得到基础的算法输入数据;基于深度学习和多智能体技术建立可进行大规模博弈的策略模型;根据预处理好的状态、动作数据以及奖赏函数对多智能体深度强化学习算法模型进行训练,得到训练好的博弈策略模型;在可视化博弈平台,加载训练好的博弈策略模型,利用多智能体深度强化学习算法进行智能决策。基于所述的多智能体深度强化学习的博弈策略模型可针对对手的策略生成相应的智能博弈策略,策略效果较好,交互的实时性强,很好的解决了大规模场景的博弈问题,具有很好的实际应用价值。
附图说明
图1是本发明的总体结构图。
图2是本发明的对弈信息配置界面图。
图3是本发明的可视化对弈过程展示图。
图4是本发明的多智能体强化学习算法结构图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
图1为本申请实施例提供的基于多智能体深度强化学习算法的智能博弈系统的总体结构图,包括对弈信息配置模块、对弈展示模块、对弈交互模块、策略生成模块以及数据存储模块,各个程序及模块功能如下:
对弈信息配置模块:根据用户输入的配置数据,初始化各个程序变量,并且将输出关键参数例如行动方式、作战对象、地图规模、作战单元数量、作战单元位置、作战单元通信和干扰频段等。判断这些标识位的信息是否在当前状态下合乎预定规则,如果满足预先规则,立即更新作战单元位置、通信和干扰频段等重要状态信息。
对弈展示模块:对弈信息配置信息来显示初始化的界面信息,包括地图、作战单元的位置显示,还有敌我双方正常通信和干扰通信的单元数量等关键信息,并根据交互状态实时断更新界面显示,为了更好的展示对弈过程,干扰单元的干扰区域用阴影区域进行表示,可以清晰的展示对弈过程中对弈双方的状态。
策略生成模块:输入当前对弈信息,策略模块采用多智能体强化学习算法计算输出对弈策略。
数据存储模块:在该模块主要存储博弈场景配置信息和多智能体算法模型。当我们初始化对弈场景之后直接将参数配置信息存储到数据库中;对于训练好的强化学习算法模型直接存储在项目文件中,在使用的时候直接进行加载。
图2是本发明的可视化智能博弈平台的对弈信息配置界面图,图3是本发明的可可视化智能博弈平台的对弈过程展示图,
(1)对弈信息配置
根据用户输入的配置数据,初始化各个程序变量,并且将输出关键参数例如行动方式、博弈对象、地图规模、博弈单元数量、博弈单元位置、博弈单元通信和干扰频段等。
(2)可视化对弈过程展示
在机器自对弈模块和人机对弈模块中,红蓝双方进行交互操作,每个来回的交互均可实时的展示在交互界面上。红蓝双方的对弈单元分别使用不同颜色和类型的图标进行标识,红方和蓝方干扰兵的干扰区域分别用红色和蓝色阴影进行表示,而对于红蓝双方干扰单元的干扰区域重叠部分,使用绿色阴影区域进行表示以示区分,并且在右侧统计红蓝双方的战况,实时展示双方对弈情况。
(3)人机交互
在人机交互模式下,人通过鼠标点击棋盘上的对弈单元进行移动。主要思想是通过两次点击操作,将对弈单元从当前位置,移动到目标位置处。具体操作流程如下:首先,点击需要进行移动的对弈单元;然后,点击目标移动位置处的空网格;最后,程序判断人当前的操作是否满足移动准则,如果符合则进行移动,否则,此次操作视为无效。
图4是本发明的多智能体强化学习算法结构图,所述的建模方法包括:
(1)环境的定义,首先对强化学习中的环境进行定义,包括状态空间、动作空间、奖赏函数的定义,
状态表示:每一个Agent的状态只取决于其周围固定大小区域内的Agent的位置等信息,在本方案中我设置的区域大小是9*9,即每一个Agent的视野是9*9的区域,通道数总共有4个,即每个状态为9*9*4。具体每一通道所代表的含义如下:
以通信兵为例,通道1主要用来表示当前我方通信兵的位置信息,我方通信兵的位置用1表示。
通道2主要用来表示对方干扰兵所处的位置,对方干扰兵所处的位置用-1表示。
通道3主要用来表示对方干扰兵的干扰区域,被干扰的区域用1表示。
通道4主要用来表示我方士兵在全局中所处的位置,主要方法为将全局的战场进行放缩,最终当前控制的士兵的视野区域所处的位置用1表示。
动作空间:
即可以移动的方向,包括上、下、左、右、不变
奖赏函数:在奖赏函数的设置中,我们针对通信兵和干扰兵的不同特性,分别设计了一种和方案。
通信兵:我们为通信兵设置了小目标,即距离最近的干扰兵的距离大于7,我们就认为该士兵成功到达了安全区域,即给与一个非常大的奖励,100。当碰到墙壁时或者其他的士兵(即想要到达的位置已经有士兵存在)那么对应的奖励为-0.5。其余的时刻的奖励值为执行相关动作后本方通信数与成功干扰对方通信数的变化值。
干扰兵:同样我们也为干扰兵设置了一个小目标,即成功干扰到对方的通信兵我们就认为该士兵完成了小目标,同样给予一个非常大的奖励,100。当碰到墙壁时或者其他的士兵(即想要到达的位置已经有士兵存在)那么对应的奖励为-0.5.其余的时刻的奖励值为执行相关动作后本方通信数与成功干扰对方通信数的变化值。
基于全局控制的频段选择:
当某一Agent移动到相应的位置后,如果是通信兵,我们会计算此时是否被干扰,如果没有被干扰那么我们将会保持频段不变,即保持尽可能的与自己的队友一致,如果被干扰,那么我们将会计算每个频段所对应的Agent距离当前Agent的距离,挑选出距离最远的Agent所对应的频段作为我们当前的选择。如果是干扰兵,我们会计算当前在地理范围内是否能够干扰对方通信兵,如果可以则将其频段控制为可干扰通信兵的频段,如果不能干扰则保持频段不变。
(2)算法介绍
第一步:初始化状态动作价值网络Q(s,a)
第二步:在本方所有的Agent中进行循环,依次选择
第三步:根据选择出的Agent,确定该Agent的视野,进而确定其对应的状态
第四步:将该状态输入至Q网络中,获取所有动作对应的Q值
第五步:在环境中对该Agent执行最大Q值所对应的动作,并获取所对应的reward
第六步:通过该reward使用TD-ERROR更新Q网络
第七步:通过全局控制的频段选择方法对频段进行选择
第八步:执行下一个Agent一直到该回合结束
(3)模型设计
网络的输入即之前定义的状态,是一个3维的张量,中间的卷积层我们定义了3层,卷积核的大小为3*3,卷积核的数量为64个,最终的全连接层的单元数为256,接最终的输出,即输入状态对应的所有动作的Q值。在本网络中的损失函数使用的是均方误差MSE,可以类比于回归任务。优化器用的是Adam。

Claims (4)

1.一种基于多智能体深度强化学习算法的智能博弈系统,其特征在于,所述算法建模方法和可视化平台构建技术包括:定义博弈环境中的状态空间、动作空间和奖赏函数;根据博弈环境的定义,设计可配置环境并且可进行人机交互的可视化的博弈平台;根据博弈环境的定义对状态空间和动作空间进行数据预处理,得到基础的算法输入数据;基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型;根据预处理好的状态、动作数据以及奖赏函数对多智能体深度强化学习算法模型进行训练,得到训练好的博弈策略模型;在可视化博弈平台,加载训练好的博弈策略模型,利用多智能体深度强化学习算法进行智能决策。
2.如权利要求1所述的方法,其特征在于,所述状态空间分层表示,包括本方通信兵的位置信息、对方干扰并的位置、对方干扰兵的干扰区域、本方通讯单元和干扰单元在全局中所处的位置。
3.如权利要求1所述的方法,其特征在于,所述基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型,包括:通讯模型和干扰模型,其中,通信兵主要的任务是通过选择相应的频段与自己的同伴进行通信,同时躲避对方的干扰兵,避免受到其干扰,而干扰兵的主要目的是去追捕对方的通信兵,在达到可攻击的地理范围之后通过选择相应的频段去干扰对方的通信兵,针对于这两种士兵的不同性质,目的也不同。
4.如权利要求1所述的方法,其特征在于,所述在可视化博弈平台,加载训练好的博弈策略模型,利用多智能体深度强化学习算法进行智能决策,其中,可视化智能决策平台可以表征智能博弈的特点,能够进行博弈、有胜负,并可以展示智能博弈的过程。
CN201910474339.8A 2019-05-06 2019-05-31 一种基于多智能体深度强化学习算法的智能博弈系统 Pending CN110428057A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910374700 2019-05-06
CN201910374700X 2019-05-06

Publications (1)

Publication Number Publication Date
CN110428057A true CN110428057A (zh) 2019-11-08

Family

ID=68408455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910474339.8A Pending CN110428057A (zh) 2019-05-06 2019-05-31 一种基于多智能体深度强化学习算法的智能博弈系统

Country Status (1)

Country Link
CN (1) CN110428057A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488992A (zh) * 2020-03-03 2020-08-04 中国电子科技集团公司第五十二研究所 一种基于人工智能的模拟器对手加强装置
CN111632387A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于星际争霸ii的指挥控制系统
CN111639756A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于博弈约简的多智能体强化学习方法
CN112069662A (zh) * 2020-08-20 2020-12-11 北京仿真中心 一种基于人机混合增强的复杂产品自主构建方法和模块
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN113139024A (zh) * 2021-05-10 2021-07-20 杭州电子科技大学 面向maddpg多智能体强化学习模型的可视分析方法
CN113379054A (zh) * 2021-05-28 2021-09-10 中国科学院自动化研究所 开放式智能博弈生态平台
CN113377099A (zh) * 2021-03-31 2021-09-10 南开大学 一种基于深度强化学习的机器人追逃博弈方法
CN113633994A (zh) * 2021-07-16 2021-11-12 中国科学院自动化研究所 人机智能博弈系统
CN113705828A (zh) * 2021-08-01 2021-11-26 南京大学 一种基于集群影响度的战场博弈策略强化学习训练方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090174142A1 (en) * 2008-01-09 2009-07-09 Sullivan Richard J Methods and apparatus for educational spelling games
US20140179442A1 (en) * 2012-12-21 2014-06-26 Cbs Interactive Inc. Generic framework for reality based game universe
US20160292568A1 (en) * 2015-04-06 2016-10-06 Google Inc. Selecting reinforcement learning actions using goals and observations
CN106776758A (zh) * 2016-11-23 2017-05-31 电子科技大学中山学院 一种用于桥牌计算机博弈的叫牌数据库构建方法
US20170364829A1 (en) * 2016-06-17 2017-12-21 Graham Fyffe System and methods for intrinsic reward reinforcement learning
CN108108822A (zh) * 2018-01-16 2018-06-01 中国科学技术大学 并行训练的异策略深度强化学习方法
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109636699A (zh) * 2018-11-06 2019-04-16 中国电子科技集团公司第五十二研究所 一种基于深度强化学习的无监督智能作战推演系统
CN109621422A (zh) * 2018-11-26 2019-04-16 腾讯科技(深圳)有限公司 电子棋牌决策模型训练方法及装置、策略生成方法及装置
CN109740283A (zh) * 2019-01-17 2019-05-10 清华大学 自主多智能体对抗仿真方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090174142A1 (en) * 2008-01-09 2009-07-09 Sullivan Richard J Methods and apparatus for educational spelling games
US20140179442A1 (en) * 2012-12-21 2014-06-26 Cbs Interactive Inc. Generic framework for reality based game universe
US20160292568A1 (en) * 2015-04-06 2016-10-06 Google Inc. Selecting reinforcement learning actions using goals and observations
US20170364829A1 (en) * 2016-06-17 2017-12-21 Graham Fyffe System and methods for intrinsic reward reinforcement learning
CN106776758A (zh) * 2016-11-23 2017-05-31 电子科技大学中山学院 一种用于桥牌计算机博弈的叫牌数据库构建方法
CN108108822A (zh) * 2018-01-16 2018-06-01 中国科学技术大学 并行训练的异策略深度强化学习方法
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109636699A (zh) * 2018-11-06 2019-04-16 中国电子科技集团公司第五十二研究所 一种基于深度强化学习的无监督智能作战推演系统
CN109621422A (zh) * 2018-11-26 2019-04-16 腾讯科技(深圳)有限公司 电子棋牌决策模型训练方法及装置、策略生成方法及装置
CN109740283A (zh) * 2019-01-17 2019-05-10 清华大学 自主多智能体对抗仿真方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LEONFG 等: "多智能体对抗仿真环境MaCA完全入门指南", 《HTTPS://GITHUB.COM/CETC-TFAI/MACA/BLOB/MASTER/DOC/TUTORIAL.MD》 *
刘静 等: "支持强化学习多智能体的网电博弈仿真平台", 《指挥与控制学报》 *
张忠秋 等: "半自主多机器人竞技对抗决策系统研究", 《南京航空航天大学学报》 *
杨鸿杰 等: "基于强化学习的智能干扰算法研究", 《电子测量技术》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488992A (zh) * 2020-03-03 2020-08-04 中国电子科技集团公司第五十二研究所 一种基于人工智能的模拟器对手加强装置
CN111632387A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于星际争霸ii的指挥控制系统
CN111639756A (zh) * 2020-06-12 2020-09-08 南京大学 一种基于博弈约简的多智能体强化学习方法
CN112069662A (zh) * 2020-08-20 2020-12-11 北京仿真中心 一种基于人机混合增强的复杂产品自主构建方法和模块
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN112131786B (zh) * 2020-09-14 2024-05-31 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN113377099A (zh) * 2021-03-31 2021-09-10 南开大学 一种基于深度强化学习的机器人追逃博弈方法
CN113139024B (zh) * 2021-05-10 2022-07-08 杭州电子科技大学 面向maddpg多智能体强化学习模型的可视分析方法
CN113139024A (zh) * 2021-05-10 2021-07-20 杭州电子科技大学 面向maddpg多智能体强化学习模型的可视分析方法
CN113379054A (zh) * 2021-05-28 2021-09-10 中国科学院自动化研究所 开放式智能博弈生态平台
CN113379054B (zh) * 2021-05-28 2022-09-27 中国科学院自动化研究所 开放式智能博弈生态平台
CN113633994A (zh) * 2021-07-16 2021-11-12 中国科学院自动化研究所 人机智能博弈系统
CN113705828A (zh) * 2021-08-01 2021-11-26 南京大学 一种基于集群影响度的战场博弈策略强化学习训练方法
CN113705828B (zh) * 2021-08-01 2024-03-19 南京大学 一种基于集群影响度的战场博弈策略强化学习训练方法

Similar Documents

Publication Publication Date Title
CN110428057A (zh) 一种基于多智能体深度强化学习算法的智能博弈系统
CN111249735B (zh) 控制对象的路径规划方法、装置、处理器及电子装置
CN108463273A (zh) 基于游戏者的移动历史来进行非游戏者角色的路径寻找的游戏系统等
CN110163238B (zh) 一种信息预测的方法、模型训练的方法以及服务器
CN110327624B (zh) 一种基于课程强化学习的游戏跟随方法和系统
CN112221149B (zh) 一种基于深度强化学习的炮兵连智能作战演练系统
CN110109653B (zh) 一种陆战兵棋智能引擎及其运行方法
CN113222106A (zh) 一种基于分布式强化学习的智能兵棋推演方法
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
CN114344905B (zh) 虚拟对象的团队交互处理方法、装置、设备、介质及程序
WO2023024762A1 (zh) 人工智能对象控制方法、装置、设备及存储介质
CN113209612A (zh) 虚拟场景中的建筑处理方法、装置、电子设备及存储介质
CN116956007A (zh) 人工智能模型的预训练方法、装置、设备及存储介质
Liu et al. Learning communication for cooperation in dynamic agent-number environment
Niël et al. Hierarchical reinforcement learning for playing a dynamic dungeon crawler game
CN116360483A (zh) 基于局部观测信息的多无人机协同攻防对抗方法及系统
CN111265871A (zh) 虚拟对象的控制方法及装置、设备、存储介质
CN114404976B (zh) 决策模型的训练方法、装置、计算机设备及存储介质
CN116306204A (zh) 融入先验知识的智能指挥决策模型、系统及方法
AU2007242931A1 (en) An artificial intelligence system and method
Wender et al. Combining case-based reasoning and reinforcement learning for tactical unit selection in real-time strategy game AI
Abd El-Sattar A novel interactive computer-based game framework: From design to implementation
Shi et al. Design and implementation of a general chess game system client based on electron framework
Yang A networked multi-agent combat model: Emergence explained
CN114357882B (zh) 一种基于离散空间的对抗性群集体系的阵型模拟优化系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108

RJ01 Rejection of invention patent application after publication