CN110428057A

CN110428057A - 一种基于多智能体深度强化学习算法的智能博弈系统

Info

Publication number: CN110428057A
Application number: CN201910474339.8A
Authority: CN
Inventors: 程茹茹; 高阳
Original assignee: JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd; Nanjing University
Current assignee: JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd; Nanjing University
Priority date: 2019-05-06
Filing date: 2019-05-31
Publication date: 2019-11-08

Abstract

本发明公开了一个基于多智能体深度强化学习的智能博弈系统，利用多智能体深度强化学习算法构建决策对象软件模型及智能决策技术，软件可以表征智能博弈的特点，能够进行博弈、有胜负，并可以展示智能博弈的过程。

Description

一种基于多智能体深度强化学习算法的智能博弈系统

技术领域

本发明涉及一种基于多智能体深度强化学习算法的智能博弈系统。

背景技术

强化学习是近年来机器学习和智能控制领域的主要方法之一。也就是说强化学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。通过强化学习，一个智能体应该知道在什么状态下应该采取什么行为。强化学习是从环境状态到动作的映射的学习，我们把这个映射称为策略。

早期的强化学习算法主要关注于状态和动作都是离散且有限的问题，可以使用表格来记录这些概率。但在很多实际问题中，有些任务的状态和动作的数量非常多。为了有效地解决这些问题，可以一个复杂的函数(比如深度神经网络)来使得智能体可以感知更复杂的环境状态以及建立更复杂的策略，提高强化学习算法的能力，并提高泛化能力。深度强化学习是将强化学习和深度学习结合在一起，用强化学习来定义问题和优化目标，用深度学习来解决策略和值函数的建模问题，然后使用误差反向传播算法来优化目标函数。深度强化学习在一定程度上具备解决复杂问题的通用智能，并在很多任务上都取得了很大的成功。

针对空频域的智能博弈问题，环境的规模较大，包括状态空间、动作空间以及需要控制的智能体数量巨大，直接利用传统的方法解决显然是不合理的。因此我们利用多种多智能体强化学习算法对策略进行学习，并利用相应的简化算法去对环境进行简化，同时将博弈论中的博弈约简的概念引入，简化当前问题的复杂度，基于以上技术的基础上构建空频领域的仿真智能博弈软件，软件可以表征智能博弈的特点，能够进行博弈、有胜负，并可以展示智能博弈的过程。

发明内容

发明目的：本发明提供可一种基于多智能体深度强化学习算法的智能博弈系统，以解决空频领域的大规模智能博弈问题，并展示智能博弈的过程。

技术方案：本发明的智能博弈软件包括两个部分，即可视化智能博弈平台构建技术和多智能体深度强化学习算法建模。

基于多智能体深度强化学习算法的智能博弈系统，所述的软件构建方法包括：定义博弈环境中的状态空间、动作空间和奖赏函数；根据博弈环境的定义，设计可配置环境并且可进行人机交互的可视化的博弈平台；根据博弈环境的定义对状态空间和动作空间进行数据预处理，得到基础的算法输入数据；基于深度学习和多智能体技术建立可进行大规模博弈的策略模型；根据预处理好的状态、动作数据以及奖赏函数对多智能体深度强化学习算法模型进行训练，得到训练好的博弈策略模型；在可视化博弈平台，加载训练好的博弈策略模型，利用多智能体深度强化学习算法进行智能决策。基于所述的多智能体深度强化学习的博弈策略模型可针对对手的策略生成相应的智能博弈策略，策略效果较好，交互的实时性强，很好的解决了大规模场景的博弈问题，具有很好的实际应用价值。

附图说明

图1是本发明的总体结构图。

图2是本发明的对弈信息配置界面图。

图3是本发明的可视化对弈过程展示图。

图4是本发明的多智能体强化学习算法结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

图1为本申请实施例提供的基于多智能体深度强化学习算法的智能博弈系统的总体结构图，包括对弈信息配置模块、对弈展示模块、对弈交互模块、策略生成模块以及数据存储模块，各个程序及模块功能如下：

对弈信息配置模块：根据用户输入的配置数据，初始化各个程序变量，并且将输出关键参数例如行动方式、作战对象、地图规模、作战单元数量、作战单元位置、作战单元通信和干扰频段等。判断这些标识位的信息是否在当前状态下合乎预定规则，如果满足预先规则，立即更新作战单元位置、通信和干扰频段等重要状态信息。

对弈展示模块：对弈信息配置信息来显示初始化的界面信息，包括地图、作战单元的位置显示，还有敌我双方正常通信和干扰通信的单元数量等关键信息，并根据交互状态实时断更新界面显示，为了更好的展示对弈过程，干扰单元的干扰区域用阴影区域进行表示，可以清晰的展示对弈过程中对弈双方的状态。

策略生成模块：输入当前对弈信息，策略模块采用多智能体强化学习算法计算输出对弈策略。

数据存储模块：在该模块主要存储博弈场景配置信息和多智能体算法模型。当我们初始化对弈场景之后直接将参数配置信息存储到数据库中；对于训练好的强化学习算法模型直接存储在项目文件中，在使用的时候直接进行加载。

图2是本发明的可视化智能博弈平台的对弈信息配置界面图，图3是本发明的可可视化智能博弈平台的对弈过程展示图，

(1)对弈信息配置

根据用户输入的配置数据，初始化各个程序变量，并且将输出关键参数例如行动方式、博弈对象、地图规模、博弈单元数量、博弈单元位置、博弈单元通信和干扰频段等。

(2)可视化对弈过程展示

在机器自对弈模块和人机对弈模块中，红蓝双方进行交互操作，每个来回的交互均可实时的展示在交互界面上。红蓝双方的对弈单元分别使用不同颜色和类型的图标进行标识，红方和蓝方干扰兵的干扰区域分别用红色和蓝色阴影进行表示，而对于红蓝双方干扰单元的干扰区域重叠部分，使用绿色阴影区域进行表示以示区分，并且在右侧统计红蓝双方的战况，实时展示双方对弈情况。

(3)人机交互

在人机交互模式下，人通过鼠标点击棋盘上的对弈单元进行移动。主要思想是通过两次点击操作，将对弈单元从当前位置，移动到目标位置处。具体操作流程如下：首先，点击需要进行移动的对弈单元；然后，点击目标移动位置处的空网格；最后，程序判断人当前的操作是否满足移动准则，如果符合则进行移动，否则，此次操作视为无效。

图4是本发明的多智能体强化学习算法结构图，所述的建模方法包括：

(1)环境的定义，首先对强化学习中的环境进行定义，包括状态空间、动作空间、奖赏函数的定义，

状态表示：每一个Agent的状态只取决于其周围固定大小区域内的Agent的位置等信息，在本方案中我设置的区域大小是9*9，即每一个Agent的视野是9*9的区域，通道数总共有4个，即每个状态为9*9*4。具体每一通道所代表的含义如下：

以通信兵为例，通道1主要用来表示当前我方通信兵的位置信息，我方通信兵的位置用1表示。

通道2主要用来表示对方干扰兵所处的位置，对方干扰兵所处的位置用-1表示。

通道3主要用来表示对方干扰兵的干扰区域，被干扰的区域用1表示。

通道4主要用来表示我方士兵在全局中所处的位置，主要方法为将全局的战场进行放缩，最终当前控制的士兵的视野区域所处的位置用1表示。

动作空间：

即可以移动的方向，包括上、下、左、右、不变

奖赏函数：在奖赏函数的设置中，我们针对通信兵和干扰兵的不同特性，分别设计了一种和方案。

通信兵：我们为通信兵设置了小目标，即距离最近的干扰兵的距离大于7，我们就认为该士兵成功到达了安全区域，即给与一个非常大的奖励，100。当碰到墙壁时或者其他的士兵(即想要到达的位置已经有士兵存在)那么对应的奖励为-0.5。其余的时刻的奖励值为执行相关动作后本方通信数与成功干扰对方通信数的变化值。

干扰兵：同样我们也为干扰兵设置了一个小目标，即成功干扰到对方的通信兵我们就认为该士兵完成了小目标，同样给予一个非常大的奖励，100。当碰到墙壁时或者其他的士兵(即想要到达的位置已经有士兵存在)那么对应的奖励为-0.5.其余的时刻的奖励值为执行相关动作后本方通信数与成功干扰对方通信数的变化值。

基于全局控制的频段选择：

当某一Agent移动到相应的位置后，如果是通信兵，我们会计算此时是否被干扰，如果没有被干扰那么我们将会保持频段不变，即保持尽可能的与自己的队友一致，如果被干扰，那么我们将会计算每个频段所对应的Agent距离当前Agent的距离，挑选出距离最远的Agent所对应的频段作为我们当前的选择。如果是干扰兵，我们会计算当前在地理范围内是否能够干扰对方通信兵，如果可以则将其频段控制为可干扰通信兵的频段，如果不能干扰则保持频段不变。

(2)算法介绍

第一步：初始化状态动作价值网络Q(s,a)

第二步：在本方所有的Agent中进行循环，依次选择

第三步：根据选择出的Agent，确定该Agent的视野，进而确定其对应的状态

第四步：将该状态输入至Q网络中，获取所有动作对应的Q值

第五步：在环境中对该Agent执行最大Q值所对应的动作，并获取所对应的reward

第六步：通过该reward使用TD-ERROR更新Q网络

第七步：通过全局控制的频段选择方法对频段进行选择

第八步：执行下一个Agent一直到该回合结束

(3)模型设计

网络的输入即之前定义的状态，是一个3维的张量，中间的卷积层我们定义了3层，卷积核的大小为3*3，卷积核的数量为64个，最终的全连接层的单元数为256，接最终的输出，即输入状态对应的所有动作的Q值。在本网络中的损失函数使用的是均方误差MSE，可以类比于回归任务。优化器用的是Adam。

Claims

1.一种基于多智能体深度强化学习算法的智能博弈系统，其特征在于，所述算法建模方法和可视化平台构建技术包括：定义博弈环境中的状态空间、动作空间和奖赏函数；根据博弈环境的定义，设计可配置环境并且可进行人机交互的可视化的博弈平台；根据博弈环境的定义对状态空间和动作空间进行数据预处理，得到基础的算法输入数据；基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型；根据预处理好的状态、动作数据以及奖赏函数对多智能体深度强化学习算法模型进行训练，得到训练好的博弈策略模型；在可视化博弈平台，加载训练好的博弈策略模型，利用多智能体深度强化学习算法进行智能决策。

2.如权利要求1所述的方法，其特征在于，所述状态空间分层表示，包括本方通信兵的位置信息、对方干扰并的位置、对方干扰兵的干扰区域、本方通讯单元和干扰单元在全局中所处的位置。

3.如权利要求1所述的方法，其特征在于，所述基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型，包括：通讯模型和干扰模型，其中，通信兵主要的任务是通过选择相应的频段与自己的同伴进行通信，同时躲避对方的干扰兵，避免受到其干扰，而干扰兵的主要目的是去追捕对方的通信兵，在达到可攻击的地理范围之后通过选择相应的频段去干扰对方的通信兵，针对于这两种士兵的不同性质，目的也不同。

4.如权利要求1所述的方法，其特征在于，所述在可视化博弈平台，加载训练好的博弈策略模型，利用多智能体深度强化学习算法进行智能决策，其中，可视化智能决策平台可以表征智能博弈的特点，能够进行博弈、有胜负，并可以展示智能博弈的过程。