CN108764453B

CN108764453B - 面向多智能体同步博弈的建模方法及动作预测系统

Info

Publication number: CN108764453B
Application number: CN201810586046.4A
Authority: CN
Inventors: 王子磊; 陈鹏; 李厚强
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2021-10-01
Anticipated expiration: 2038-06-08
Also published as: CN108764453A

Abstract

本发明提供了面向多智能体同步博弈的建模方法及动作预测系统，所述建模方法包括：获取同步博弈问题的状态集与动作集；根据所述同步博弈问题的特性，设计博弈特征与特征编码方法；根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图；基于深度神经网络建立多尺度特征融合的同步博弈策略模型；根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型，在提升同步博弈策略模型博弈能力的同时，更使其具备较强的实时性。基于所述同步博弈策略模型实现的动作预测系统，准确度高、实时性强，具有很好的实际应用价值。

Description

面向多智能体同步博弈的建模方法及动作预测系统

技术领域

本发明涉及机器博弈领域，更具体的说，涉及面向多智能体同步博弈的建模方法及动作预测系统。

背景技术

机器博弈研究如何让计算机模拟人类进行游戏对抗，是人工智能领域极具挑战性的研究方向之一。其中，以实时策略游戏为代表的同步博弈问题(参与者同时行动)成为人工智能领域研究的热点。

多智能体同步博弈策略的任务是让计算机准确地给出己方所有参与单位的最佳动作。目前主流的解决思路是搜索方法与多智能体强化学习。搜索方法通过状态聚类、动作聚类构建搜索树，在线地计算局部最优解；多智能体强化学习通过大量环境交互，离线地学习状态集到动作集的映射关系。但是，多智能体同步博弈问题的状态空间、动作空间较为复杂，其规模往往随智能体数目增加而呈指数性增长，随智能体数目增加，搜索树在有限时间内难以充分扩展，无法有效求解，而多智能体强化学习的速度受限，各个智能体单独决策也难以满足实时性要求。

因此，目前需要一种切实有效的多智能体同步博弈的建模方案，在提升策略模型博弈能力的同时，具备良好的实时性。

发明内容

有鉴于此，本发明提供了一种面向多智能体同步博弈的建模方法及动作预测系统，以解决现有的建模方案不能在提升策略模型博弈能力的同时，具备良好的实时性的技术问题。

为实现上述目的，本发明提供如下技术方案：

一种面向多智能体同步博弈的建模方法，所述建模方法包括：

获取同步博弈问题的状态集与动作集；

根据所述同步博弈问题的特性，设计博弈特征与特征编码方法；

根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图；

基于深度神经网络建立多尺度特征融合的同步博弈策略模型；

根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型。

优选的，所述状态集包括空间分布相关状态与空间分布不相关状态；其中，

所述空间分布相关状态为，与策略决策相关的智能体局部特性；

所述空间分布不相关状态为，与策略决策相关的智能体全局特性。

优选的，所述根据所述同步博弈问题的特性，设计博弈特征与特征编码方法包括：

将所述空间分布相关状态划分为攻击特性、防御特性、生命特性、机动特性与类型特性；

将所述空间分布不相关状态划分为资源特征、科技特性与智能体共用特性；

设计连续值特征编码与离散值特征编码，其中，所述连续值特征编码用于将连续值归一化，所述离散值特征编码用于将离散值进行one-hot编码。

优选的，所述根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图包括：

根据多智能体交战区域尺寸，选取基础特征图尺寸与动作决策图尺寸，建立多智能体实际位置与像素位置的一一映射关系；

根据所述博弈特征与特征编码方法，对所述状态集进行特征提取与特征编码，生成基础特征图与动作决策图；

针对生成的基础特征图与动作决策图，进行数据增强处理与随机打乱处理，得到处理后的基础特征图与动作决策图。

优选的，所述基于深度神经网络建立多尺度特征融合的同步博弈策略模型包括：

建立特征细化模块与多尺度特征融合预测模块；

所述特征细化模块，用于利用多层卷积层对基础特征图进行特征细化；

所述多尺度特征融合预测模块，用于利用连接层与卷积层融合所述特征细化模块中五种尺度的特征图。

优选的，所述多层卷积层包括：十层标准卷积层、三层空洞卷积层与三层池化层；其中，所述空洞卷积层为，在标准卷积层的卷积核中注入空洞后得到的卷积层。

优选的，在所述五种尺度中的各尺度内，利用深度神经网络中的带孔空间金字塔池化模块，融合不同感受野的特征。

优选的，所述根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型包括：

将所述同步博弈策略模型的训练过程分为六个阶段；

其中，所述六个阶段中第一阶段至第五阶段分别用于训练五种尺度的同步博弈策略模型；第六阶段用于对整个同步博弈策略模型进行微调；第二阶段至第六阶段中任一阶段的训练均是基于前一阶段的训练结果来进行的。

优选的，所述根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型还包括：

根据预测动作决策图与真实动作决策图之间的交叉熵，确定所述同步博弈策略模型的损失函数。

一种面向多智能体同步博弈的动作预测系统，所述动作预测系统包括：

状态信息采集单元，用于采集多智能体交战区域的状态信息；

状态信息处理单元，用于对所述多智能体交战区域的状态信息进行数据预处理，得到基础特征图；

博弈策略处理单元，用于利用同步博弈策略模型，预测与所述基础特征图相匹配的动作决策图；

博弈动作确定单元，用于根据所述动作决策图，以及各个智能体对应的像素值，确定预测动作；

其中，所述同步博弈策略模型为，利用前述所述的面向多智能体同步博弈的建模方法，得到的同步博弈策略模型。

从上述的技术方案可以看出，本发明提供的面向多智能体同步博弈的建模方法，获取同步博弈问题的状态集与动作集，根据所述同步博弈问题的特性，设计博弈特征与特征编码方法，并根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图，实现原始状态到基础特征图的转换，使其适配同步博弈策略模型的输入，提升了先验知识对策略学习的引导作用；并且，基于深度神经网络来建立多尺度特征融合的同步博弈策略模型，充分利用了多尺度信息的融合，可直接给出己方所有智能体的预测动作，在提升同步博弈策略模型博弈能力的同时，更使其具备较强的实时性。因此，基于所述同步博弈策略模型实现的动作预测系统，其准确度高、实时性强，具有很好的实际应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的面向多智能体同步博弈的建模方法的流程图；

图2为本申请实施例提供的博弈数据预处理过程的流程图；

图3为本申请实施例提供的面向多智能体同步博弈的动作预测系统的结构示意图；

图4为本申请实施例提供的同步博弈策略模型建模过程的示意图；

图5为本申请实施例提供的同步博弈策略模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

多智能体同步博弈策略，作为实时策略游戏中的重要内容，在军事、经济等多个领域具有良好的应用前景，在给定状态下准确地给出己方所有参与单位的最佳动作是整个决策问题的关键。在军事推演中，依据战场态势信息及时调整己方参战单位的进攻防御及军事物资的调度，可以防止贻误战机并降低损耗；在网络安全中，依据网络系统安全状态及时调整相关设备的防御策略，可以实现对恶意攻击的主动防御。

请参阅图1，图1为本申请实施例提供的面向多智能体同步博弈的建模方法的流程图。

如图1所示，所述建模方法包括：

S101：获取同步博弈问题的状态集与动作集。

在建模准备阶段，需要首先整理出同步博弈问题的状态集与动作集，其中，所述状态集可包括：空间分布相关状态与空间分布不相关状态。

所述空间分布相关状态是指，与策略决策相关的智能体局部特性，其中，各个智能体之间存在差异。

所述空间分布不相关状态为，与策略决策相关的智能体全局特性，其中，各个智能体之间不存在差异。

所述同步博弈问题可以具体是指多智能体同步博弈的目标场景。

S102：根据所述同步博弈问题的特性，设计博弈特征与特征编码方法；

针对所述空间分布相关状态，可以将其划分为攻击特性、防御特性、生命特性、机动特性与类型特性这五类。

其中，连续量，可以从基数、序数、比率、组合这四方面展开博弈特征设计。基数，即实际值；序数，即实际值在所有此类值中的次序；比率，即实际值与最大值的比率；组合，即将存在相关性的特性相组合。离散量，可以统计所有可能值。

然后，设计连续值特征编码与离散值特征编码，其中，所述连续值特征编码用于将连续值归一化，所述离散值特征编码用于将离散值进行one-hot编码，最后根据位置特性对基础特征图对应像素点进行赋值。其中，one-hot可称为独热码，也可称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

针对所述空间分布不相关状态，可以将其划分为资源特征、科技特性与智能体共用特性这三类。其中，博弈特征设计、特征编码设计与空间分布相关状态基本一致，不同点在于基础特征图赋值时是对整个特征图进行赋值，表示作用于所有智能体。

S103：根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图。

所述数据预处理可以包括特征提取、特征编码、数据增强、随机打乱等方式，目的在于使得到的基础特征图与动作决策图能够适配于同步博弈策略模型的输入输出。

S104：基于深度神经网络建立多尺度特征融合的同步博弈策略模型。

所述深度神经网络可以是深度卷积神经网络。

S105：根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型。

将所述基础特征图作为同步博弈策略模型的输入，通过迭代优化进行同步博弈策略模型的逐层训练，以生成训练好的同步博弈策略模型。

本实施例提供的面向多智能体同步博弈的建模方法，获取同步博弈问题的状态集与动作集，根据所述同步博弈问题的特性，设计博弈特征与特征编码方法，并根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图，实现原始状态到基础特征图的转换，使其适配同步博弈策略模型的输入，提升了先验知识对策略学习的引导作用；并且，基于深度神经网络来建立多尺度特征融合的同步博弈策略模型，充分利用了多尺度信息的融合，可直接给出己方所有智能体的预测动作，在提升同步博弈策略模型博弈能力的同时，更使其具备较强的实时性。

请参阅图2，图2为本申请实施例提供的博弈数据预处理过程的流程图。

博弈数据预处理过程，用于将状态集中的原始状态转换为能够适配于同步博弈策略模型输入的基础特征图，将动作集中的原始动作转换为能够适配于同步博弈策略模型输出的动作决策图。所述状态集与所述动作集之间具有映射关系。

如图2所示，所述博弈数据预处理过程包括：

S201：根据多智能体交战区域尺寸，选取基础特征图尺寸与动作决策图尺寸，建立多智能体实际位置与像素位置的一一映射关系。

其中，基础特征图与动作决策图的缩放比率可视实际应用场景而定。

S202：根据所述博弈特征与特征编码方法，对所述状态集进行特征提取与特征编码，生成基础特征图与动作决策图。

根据所述博弈特征与特征编码方法，对所述状态集中的状态进行特征提取与特征编码，生成基础特征图，并结合动作集生成相应的动作决策图。所述基础特征图与所述动作决策图相对应。

若某一像素点对应的实际位置存在智能体，则该像素点的像素值由智能体的动作类别而定，否则，将该像素点归为背景类。

S203：针对生成的基础特征图与动作决策图，进行数据增强处理与随机打乱处理，得到处理后的基础特征图与动作决策图。

所述数据增强处理是指，对基础特征图与动作决策图进行旋转、镜像等操作，以实现训练数据的增强。其中，所述基础特征图与动作决策图即为同步博弈策略模型的训练数据。

所述随机打乱处理是指，随机打乱训练数据，消除相邻样本的相关性，防止过拟合。

此外，还可以对训练数据进行数据格式转换，使其能够适配于用户所选择的深度学习框架。

本实施例提供的博弈数据预处理过程，将状态集中的原始状态转换为能够适配于同步博弈策略模型输入的基础特征图，将动作集中的原始动作转换为能够适配于同步博弈策略模型输出的动作决策图，并使每个像素点对应一个智能体或背景，实际像素值对应一种动作类型，并对生成的基础特征图与动作决策图进行数据增强、随机打乱等处理，从而得到能够很好适配于同步博弈策略模型的训练数据。

本申请实施例针对所述基于深度神经网络建立多尺度特征融合的同步博弈策略模型的步骤，还提供了以下具体实现方式。

具体地，所述基于深度神经网络建立多尺度特征融合的同步博弈策略模型可包括：

建立特征细化模块与多尺度特征融合预测模块，使同步博弈策略模型包括所述特征细化模块与多尺度特征融合预测模块这两个核心模块。

所述特征细化模块，用于利用多层卷积层对基础特征图进行特征细化。所述多层卷积层包括：十层标准卷积层、三层空洞卷积层与三层池化层；其中，所述空洞卷积层为，在标准卷积层的卷积核中注入空洞后得到的卷积层。

在标准卷积层的卷积核中注入空洞，能够增加卷积核处理数据时各值的间距，空洞卷积层相较于标准卷积层，可以在不增加网络参数的情况下扩大感受野的大小。

所述多尺度特征融合预测模块，用于利用连接层与卷积层融合所述特征细化模块中五种尺度的特征图。在所述五种尺度中的各尺度内，利用深度神经网络中的带孔空间金字塔池化模块(ASPP，Atrous Spatial Pyramid Pooling)，融合不同感受野的特征。其中，可根据池化层与空洞卷积层的位置来确定所述五种尺度的对应位置，

所述带孔空间金字塔池化模块，针对特征细化模块的中间层特征图，分五路分别通过标准卷积层、三种不同类型的空洞卷积层与池化层，输出接入同一连接层，从而实现不同感受野上的特征融合。

本实施例提供的基于深度神经网络建立多尺度特征融合的同步博弈策略模型的具体实现方式，充分利用了多尺度信息的融合，并在各个尺度内采用带孔空间金字塔池化结构融合多感受野的特征，从而有效提升了同步博弈策略模型的性能。

本申请实施例针对所述根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型的过程，提供了以下具体实现方式。

具体地，所述根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型可包括：

将所述同步博弈策略模型的训练过程分为六个阶段；

所述六个阶段中第一阶段至第五阶段分别用于训练五种尺度的同步博弈策略模型；第六阶段用于对整个同步博弈策略模型进行微调，得到训练好的同步博弈策略模型。其中，第二阶段至第六阶段中任一阶段的训练均是基于前一阶段的训练结果来进行的。

在训练过程中，还可以根据预测动作决策图与真实动作决策图之间的交叉熵，来确定所述同步博弈策略模型的损失函数，具体定义如下：

公式(1)中，Θ表示同步博弈策略模型学习到的网络参数，N是训练样本总像素数目，Q(X_k)表示第k个像素对应单位(智能体)的真实类别，F(X_k；Θ)为网络预测的类别。由于背景占很大比重，损失计算时忽略背景像素的影响，优化方法可选取随机梯度下降法，在每一次优化迭代中更新网络的模型参数。

本实施例提供的根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型的具体实施方式，将同步博弈策略模型的训练过程分为六个阶段，通过第一阶段至第五阶段来训练五种尺度的同步博弈策略模型，并通过第六阶段来对整个同步博弈策略模型进行微调，其中，第二阶段至第六阶段中任一阶段的训练均是基于前一阶段的训练结果来进行的，使得训练好的同步博弈策略模型，充分利用了多尺度信息的融合，逐步实现了特征细化模块、多尺度特征融合模块的联合训练。

基于前述实施例提供的同步博弈策略模型，本申请实施例还提供了相应的面向多智能体同步博弈的动作预测系统。

请参阅图3，图3为本申请实施例提供的面向多智能体同步博弈的动作预测系统的结构示意图。

如图3所示，所述动作预测系统包括：

状态信息采集单元100，用于采集多智能体交战区域的状态信息。

状态信息处理单元200，用于对所述多智能体交战区域的状态信息进行数据预处理，得到基础特征图。

博弈策略处理单元300，用于利用同步博弈策略模型，预测与所述基础特征图相匹配的动作决策图。

博弈动作确定单元400，用于根据所述动作决策图，以及各个智能体对应的像素值，确定预测动作。

所述各个智能体对应的像素值表示，各个智能体对应的真实动作类别。

其中，所述同步博弈策略模型为，利用前述实施例中的面向多智能体同步博弈的建模方法，得到的同步博弈策略模型。

本实施例提供的面向多智能体同步博弈的动作预测系统，基于本发明训练好的同步博弈策略模型，针对多智能体交战区域的状态，进行多智能体的动作预测，具有较高的准确性高及较强的实时性。

一示例中，所述动作预测系统，也可以应用于在建模过程中，利用测试样本，对训练好的同步博弈策略模型进行测试，并根据测试结果进一步优化同步博弈策略模型的性能。相应的，同步博弈策略模型建模过程可如图4所示。

在图4中，面向多智能体同步博弈的建模过程可分为准备阶段、训练阶段与测试阶段。

所述准备阶段依次包括：整理状态集及动作集、博弈特征设计及特征编码设计与博弈数据预处理。

所述训练阶段依次包括：建立多尺度融合的同步博弈策略模型与策略模型逐层训练。

所述测试阶段包括：状态采集、特征提取及特征编码、同步博弈策略模型预测与获取动作决策图。

其中，测试阶段中“同步博弈策略模型预测”所采用的同步博弈策略模型，是通过训练阶段“策略模型逐层训练”得到的同步博弈策略模型。

本申请实施例以电脑游戏“星际争霸”的遭遇战场景为例，来介绍本发明的面向多智能体同步博弈的建模方法。其中，选取具有代表性的星际争霸遭遇战仿真环境SparCraft，将当前最佳的POE(Portfolio online evolution)搜索算法接入仿真环境，敌我双方同时依据POE算法做出决策，直至结束。与此同时，保存中间状态，生成数据集。POE算法的具体内容可参考“《Portfolio Online Evolution in StarCraft》，Proceedings ofAAAI Conference on Artificial Intelligence and Interactive DigitalEntertainment,2016”一文。

本实施例中，所述面向多智能体同步博弈的建模方法可包括：

1)获取同步博弈问题的状态集与动作集

空间分布相关状态的状态集，主要包括参战单位的基本属性，共计16维，分别是体型、单位类型、护甲、生命、护盾、对地攻击力、对地攻击类型、对地攻击冷却时间、对地攻击范围、对空攻击力、对空攻击类型、对空攻击冷却时间、对空攻击范围、移动速度、水平坐标、垂直坐标。其中，体型分为小型(small)、中型(middle)、大型(large)三种；单位类型分为陆地单位、空中单位两种；攻击类型分普通攻击(normal)、爆炸攻击(explosive)、震荡攻击(concussive)三种；不同攻击类型的攻击对不同体型的单位的伤害比率存在差异，如下表1所示。

表1伤害比率表

空间分布不相关状态的状态集，主要包括影响参战单位基本属性的科技等级(upgrade)，如：空中单位护盾等级、空中单位武器等级、陆地单位护盾等级、陆地单位武器等级等，对应基本属性随科技等级提升而增加。因此，对于SparCraft仿真环境这一示例，空间分布不相关的状态集也可以融合到空间分布相关的状态集中，特别的，在本实施例中，主要整理空间分布相关的状态集。

关于动作集，SparCraft这一博弈情境主要考虑物理攻击。按动作类型不同，物理攻击可分为移动动作与攻击动作两种。移动动作要求指定己方参战单位与目的地位置，攻击动作要求指定己方参战单位与被攻击单位，故可执行动作数量与双方单位数量呈指数增长关系。

本实施例借鉴POE搜索算法，采用静态规则(Script)合并移动动作、攻击动作，共计7种动作，如表2所示，主要区别是攻击间隙采取的移动动作。

表2静态规则表

2)博弈特征设计及特征编码方法设计

本实施例中，博弈特征设计主要围绕空间分布相关状态的状态集展开。

首先，将状态集分为攻击特性、防御特征、生命特性、机动特性、类型特性五类。攻击特性包含攻击力、攻击类型、攻击冷却时间与攻击范围；防御特征包含体型与护甲；生命特性包含生命与护盾；机动特性包含移动速度；类型特性只包含类型。

然后，进行各个特性的特征设计、特征编码方法设计，连续量包括攻击力、攻击冷却时间、攻击范围、护甲、生命、护盾、移动速度，从基数、序数、比率、组合四方面展开特征设计，连续量特征提取结果经归一化可生成特征图，离散量包括攻击类型、体型、类型，经one-hot编码生成特征图，详细博弈特征设计如表3所示，敌我双方各对应32通道图，共计64通道特征图。

表3博弈特征表

3)博弈数据预处理

卷积神经网络模型对训练数据格式存在要求，要求适配网络模型的输入输出，另外，卷积神经网络模型训练的参数较多，需要基于大量的训练数据才能训练好一个卷积神经网络模型。在网络模型实际训练之前，要求对已有数据进行数据预处理。具体地，首先选取基础特征图尺寸与动作决策图尺寸，经统计512×512(像素)基本可覆盖SparCraft环境中的所有参战单位，故将尺寸设定为512×512(像素)；然后，对所有参战单位进行聚类，聚类中心点对应基础特征图与动作决策图的中心点，对覆盖的参战单位进行特征提取与特征编码生成基础特征图，与此同时生成动作决策图；接着，对基础特征图与动作决策图进行旋转、镜像等操作，实现训练数据增强；最后，打乱所有的训练数据，消除相邻样本的相关性，并进行数据格式转换，以适配所选的深度学习框架。

4)建立多尺度特征融合的同步博弈策略模型

如图5所示，本发明的多尺度特征融合的同步博弈策略模型包括特征细化模块、多尺度特征融合预测模块。

特征细化模块采用的是全卷积网络，包括十层标准卷积层、三层最大池化层、三层空洞卷积层。对于标准卷积层，卷积核大小一律为3×3，各层通道数目从64开始，每经过一层最大池化层，通道数目增加2倍；对于最大池化层，分别位于第二层卷积层、第四层卷积层、第七层卷积层及第十层卷积层之后，核大小一律为2×2，步长为2；对于空洞卷积层，位于第十层卷积层之后，核大小设定为3×3，孔大小设定为2。另外，对于每层的卷积输出，采用线性修正单元ReLU作为激活函数，为网络加入非线性映射建模能力。

多尺度特征融合预测模块采用带孔空间金字塔池化模块，针对五个尺度的中间层特征图，分五路分别通过标准卷积层、三种不同类型的空洞卷积层、最大池化层，其中，标准卷积层的卷积核大小为1×1，通道数为16；三个空洞卷积层的卷积核大小一律为3×3，通道数一律为16，孔大小分别为6、12、18；最大池化层的核大小为2×2，步长为2，其输出接1×1卷积核大小的标准卷积层及上采样层，以恢复至原分辨率，通道数为16。将五路输出相连接，总通道数为16×5＝80。进一步地，将五个尺度对应输出相连接，多尺度特征融合模块最终输出的总通道数为80×5＝400。图5中，Upsample表示上采样，Pooling表示池化。

将多尺度特征融合模块的输出接入一层标准卷积层，卷积核大小为1×1，通道数目为8，对应7种动作类型、背景，其输出为网络模型最终输出，即7种动作类型、背景的概率分布。

5)同步博弈策略模型的逐层训练

训练时，采用预测的动作决策图和真实动作决策图之间的交叉熵作为损失函数，由于背景占很大比重，损失计算时忽略背景影响，具体的定义参见前述公式(1)。

在本实施例中，公式(1)中的训练样本总像素数目N等于512×512(像素)。

图5给出了同步博弈策略模型的总体结构，确定了交叉熵作为优化目标之后，将同步博弈策略模型的训练过程分为六个阶段，前五个阶段单独训练五种尺度的策略模型，依次将对应中间层特征图接入一路新的带孔空间金字塔池化模块，其输出接入一层常规卷积层，卷积核大小为1×1，通道数目为8，实现特征细化模块的逐层训练，另外，第二阶段至第五阶段的训练过程是在前一阶段的训练结果的基础上进行的，最终实现整个特征细化模块的预训练；第六阶段减小特征细化模块的学习率，接入多尺度特征融合模块，对整个策略模型进行端到端地微调，实现特征细化模块、多尺度特征融合模块的的联合训练。

本发明利用深度神经网络的非线性建模能力进行博弈策略学习，通过将多智能体当作一个整体，引入空间分布特性，学习从原始状态到多智能体动作决策图的映射关系，实现了同步博弈问题中的多智能体决策，在提升策略模型博弈能力的同时，具备良好的实时性，且具有很好的实际应用价值。

最后，还需要说明的是，在本文中，诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式来实现。基于这样的理解，本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种面向多智能体同步博弈的建模方法，其特征在于，所述建模方法包括：

获取同步博弈问题的状态集与动作集；所述状态集包括空间分布相关状态与空间分布不相关状态；其中，所述空间分布相关状态为，与策略决策相关的智能体局部特性；所述空间分布不相关状态为，与策略决策相关的智能体全局特性；

根据所述同步博弈问题的特性，设计博弈特征与特征编码方法；所述根据所述同步博弈问题的特性，设计博弈特征与特征编码方法，包括：将所述空间分布相关状态划分为攻击特性、防御特性、生命特性、机动特性与类型特性；将所述空间分布不相关状态划分为资源特征、科技特性与智能体共用特性；设计连续值特征编码与离散值特征编码，其中，所述连续值特征编码用于将连续值归一化，所述离散值特征编码用于将离散值进行one-hot编码；

根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图；所述根据所述博弈特征与特征编码方法，对所述状态集与动作集进行数据预处理，得到基础特征图与动作决策图包括：根据多智能体交战区域尺寸，选取基础特征图尺寸与动作决策图尺寸，建立多智能体实际位置与像素位置的一一映射关系；根据所述博弈特征与特征编码方法，对所述状态集进行特征提取与特征编码，生成基础特征图与动作决策图；针对生成的基础特征图与动作决策图，进行数据增强处理与随机打乱处理，得到处理后的基础特征图与动作决策图；

2.如权利要求1所述的方法，其特征在于，所述基于深度神经网络建立多尺度特征融合的同步博弈策略模型包括：

建立特征细化模块与多尺度特征融合预测模块；

3.如权利要求2所述的方法，其特征在于，所述多层卷积层包括：十层标准卷积层、三层空洞卷积层与三层池化层；其中，所述空洞卷积层为，在标准卷积层的卷积核中注入空洞后得到的卷积层。

4.如权利要求2所述的方法，其特征在于，在所述五种尺度中的各尺度内，利用深度神经网络中的带孔空间金字塔池化模块，融合不同感受野的特征。

5.如权利要求1所述的方法，其特征在于，所述根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型包括：

将所述同步博弈策略模型的训练过程分为六个阶段；

6.如权利要求5所述的方法，其特征在于，所述根据所述基础特征图与动作决策图，对所述同步博弈策略模型进行逐层训练，得到训练好的同步博弈策略模型还包括：

7.一种面向多智能体同步博弈的动作预测系统，其特征在于，所述动作预测系统包括：

其中，所述同步博弈策略模型为，利用如权利要求1～6中任一项所述的面向多智能体同步博弈的建模方法，得到的同步博弈策略模型。