CN111144557A

CN111144557A - 一种基于级联模式的动作策略方法

Info

Publication number: CN111144557A
Application number: CN201911416754.4A
Authority: CN
Inventors: 李明强; 唐思琦; 陈思; 高放; 黄彬城
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本发明涉及一种基于级联模式的大规模动作策略方法，包括：实时采集多个单位的状态信息向量；基于神经网络函数计算决策特征；根据动作的空间属性划分动作模块；针对每个动作模块构建决策特征到空间动作的映射网络，计算空间动作概率；针对每个动作模块构建决策特征到行为动作的映射网络，计算行为动作概率；基于所述行为动作概率决策行为动作，基于所述空行为动作决策执行所述行为动作的空间位置。本发明实现了参数空间从O(n*m)减少到了O(n+m)，大大减少了策略空间的参数维度，减少了大量无用的参数空间，同时加快了收敛速度。

Description

一种基于级联模式的动作策略方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于级联模式的动作策略方法。

背景技术

多智能体系统由一群有自主性的，可互相交互的实体组成，它们共享一个相同的环境，通过感知器感知环境并通过执行器采取行动。根据系统中智能体的结构不同可以分为同构多智能体系统和异构多智能体系统，异构多智能体系统个体间模型不统一，使得个体感知环境的方式或者决策空间存在一定的差异。多智能体博弈具有实时对抗、群体协作、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点，是当前人工智能领域极具挑战的难题。同时，该领域研究成果在社会管理、智能交通、经济、军事等领域有广阔的应用前景。对于当前状态或动态变化既无完美信息又无完整信息可用的复杂动态环境，给人工智能研究带来显著挑战。

在多智能体系统中，智能体通过与环境进行交互获取当前决策下的奖励，智能体基于奖励改善策略并获得最优策略的方法为多智能体强化学习算法。深度强化学习是将深度学习与强化学习相结合的一种全新算法，实现了从感知到动作的端到端的学习。输入图像、文本、音频、视频等，通过DRL构建的深度神经网络的处理，可以实现直接输出动作，无须手工干预。

在单体强化学习中，需要存储状态值函数或动作-状态值函数。在多体强化学习中，状态空间变大，联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长，因此多智能体系统维度非常大，计算复杂。在一般的强化学习策略网络中，网络训练的参数与动作空间的维度成正比，因此对于大规模复杂形式的动作输出问题，笛卡尔联结形式的策略网络架构往往带来参数维度灾难，策略网络的训练的难度大大增加。

发明内容

针对多智能体系统维度复杂，决策复杂的技术问题，本发明提供一种基于级联模式的动作策略方法，大大减少了策略空间的参数维度，减少了大量无用的参数空间，同时加快了收敛速度。

为达到上述目的，本发明提供了一种基于级联模式的大规模动作策略方法，包括：

实时采集多个单位的状态信息向量x；

基于神经网络函数计算决策特征y＝f(x)；

根据空间动作的位置或行为动作的顺序划分动作模块；

针对每个动作模块构建决策特征到空间动作的映射网络，计算空间动作概率；针对每个动作模块构建决策特征到行为动作的映射网络，计算行为动作概率；

基于所述行为动作概率决策行为动作，基于所述空行为动作决策执行所述行为动作的空间位置。

进一步的，所述动作为级联模式，概率分布相互独立。

进一步的，所述神经网络函数包括卷积神经网络、全连接神经网络或深度玻尔兹曼机。

进一步的，所述空间动作维度为p×q，行为动作空间维度为k，构建决策特征到空间动作的映射网络，包括构建空间动作全连接映射网络：

z^s＝W^sy

其中W^s为权重矩阵，z^s为全连接映射网络的输出，W^s∈R^pq×t,z^s∈R^pq。

进一步的，计算空间动作概率Space包括：

其中z^s表征为[z^s ₁,z^s ₂,…z^s _r…,z^s _pq]，T表示转置。

进一步的，构建决策特征到行为动作的映射网络，包括构建行为动作全连接映射网络：

z^b＝W^by

其中W^b为权重矩阵，z^b为全连接映射网络的输出W^b∈R^k×t,z^b∈R^k。

进一步的，计算行为动作概率behavior包括：

其中z^b表征为[z^b ₁,z^b ₂,…z^b _r…,z^b _k]，T表示转置。

进一步的，智能体行为动作，基于所述空行为动作决策所述单智能体执行所述行为动作的空间位置。

本发明的上述技术方案具有如下有益的技术效果：

(1)笛卡尔乘积形式的策略网络参数空间复杂度为O(n*m)，本发明在级联多智能体模式下，实现了参数空间从O(n*m)减少到了O(n+m)，大大减少了策略空间的参数维度，减少了大量无用的参数空间，同时加快了收敛速度。

(2)本发明分别针对每一个独立的动作设计决策模块，在此模块下通过全连接模式计算每一个独立动作的概率分布函数，决策效率更高。

(3)本发明的动作策略适用于大规模动作的决策，能够应用于在多智能体应用领域，如游戏AI面对复杂的多智能体协同博弈问题，每一个时刻实现单智能体从空间动作参数空间、行为动作中参数空间分别选择并决策，既可以使得策略网络快速收敛也可以节约参数空间。

附图说明

图1是Actor-Critic网络结构示意图；

图2为笛卡尔形式的策略网络示意图；

图3为本发明级联形式的策略网络示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

对于N个智能体，其策略参数空间为θ＝{θ₁,...,θ_N}，策略集合为π＝{π₁,...,π_N}，每一个智能体均有其单独的回报机制，对智能体i来说，其累计回报J(θ_i)＝E[R_i]的梯度为

其中

为智能体i的中心化动作值函数，其输入包括所有智能体的动作以及相关状态信息，图1所示的是经典的行为-评论家(Actor-Critic)网络架构中的策略函数，其一般形式可以概括为图2的形式。

不论是在单智能体场景还是多智能体场景中，智能体离散型动作是由几个动作通过笛卡尔积的形式复合而成，比如智能体的动作决策包含A1,A2两个复合动作集合，其中|A₁|＝n,|A₂|＝m,则智能体的最终动作维度为n×m,在构造策略网络时决策特征维度为1000，如果将A1,A2联合考虑，则动作决策参数大小为1000×n×m，其待训练参数的空间复杂为O(nm)，这就增加了策略网络训练难度，另外一方面，采样空间中无效部分太大，影响训练效果。

基于级联形式的动作策略网络采用多head模式进行设计，其技术基础为假设智能体动作a的多变量概率分布为相互独立的即满足

在此假设条件下，在策略网络的决策特征之后，分别针对每一个独立的动作设计决策模块，在此模块下通过全连接模式计算每一个独立动作的概率分布函数。

本发明提供的基于级联模式的动作策略方法，结合图3，包括如下步骤：

S1实时采集多个单位的状态信息向量x∈Rⁿ；状态信息向量根据场景进行设定，x在实数空间R内维度为n。

S2基于神经网络函数计算决策特征y＝f(x),y∈R^t，其神经网络函数形式多种多样，如卷积神经网络、全连接神经网络、深度玻尔兹曼机等。

S3根据动作空间属性如空间动作，行为动作等划分动作模块，假设空间动作维度为p×q，行为动作空间维度为k。

可以采用人工神经网络模型根据动作空间属性划分动作模块，对人工神经网络模型进行训练，使其能够准确划分动作。

可以依据行为动作的顺序直接划分动作模块。

可以根据空间动作位置区域划分动作模块。

S4针对每个动作模块构建决策特征到空间动作的映射网络，计算空间动作概率；针对每个动作模块构建决策特征到行为动作的映射网络，计算行为动作概率；

S41针对每个动作模块构建决策特征到空间动作的映射网络，计算空间动作概率，分为两部分：

1)构建空间动作全连接映射网络，即：

z^s＝W^sy

其中W^s为权重矩阵，z^s为全连接映射网络的输出，

W^s∈R^pq×t,z^s∈R^pq，z^s＝[z^s ₁,z^s ₂,…z^s _r…,z^s _pq]。

2)计算空间动作概率，即；

S42针对每个动作模块构建决策特征到行为动作的映射网络，计算行为动作概率，过程分为两部分：

1)构建行为动作全连接映射网络，即：

z^b＝W^by

其中W^b为权重矩阵，z^b为全连接映射网络的输出W^b∈R^k×t,z^b∈R^k，其中z^b表征为z^b＝[z^b ₁,z^b ₂,…z^b _r…,z^b _k]，T表示转置。

2)计算行为动作概率behavior，即：

步骤S4中涉及到的所有策略网络参数，均可以通过智能体与环境的交互进行优化迭代得到。

S5基于所述行为动作概率决策行为动作，基于所述空行为动作决策执行所述行为动作的空间位置。

在多智能体应用领域如游戏AI面对复杂的多智能体协同博弈问题，每一个时刻单智能体需要从复杂的动作空间中进行选择并决策，合理并有效的决策网络是实现复杂决策的关键，可以基于本技术构建基于级联模式的策略网络，既可以使得策略网络快速收敛也可以节约参数空间。

在一个实施例中，针对游戏中的多个单智能体实时采集多个单位的状态信息向量x，单智能体为游戏中不受玩家操纵的游戏角色；基于神经网络函数计算决策特征；根据动作的空间动作顺序划分动作模块，空间动作包括该单智能体能够执行的所有动作；针对每个动作模块构建决策特征到空间动作的映射网络，计算空间动作概率；针对每个动作模块构建决策特征到行为动作的映射网络，计算行为动作概率；基于所述行为动作概率决策每个单智能体行为动作，基于所述空行为动作决策所述单智能体执行所述行为动作的空间位置。

综上所述，本发明提供一种基于级联模式的大规模动作策略方法，包括：实时采集多个单位的状态信息向量；基于神经网络函数计算决策特征；根据动作的空间属性划分动作模块；针对每个动作模块构建决策特征到空间动作的映射网络，计算空间动作概率；针对每个动作模块构建决策特征到行为动作的映射网络，计算行为动作概率；基于所述行为动作概率决策行为动作，基于所述空行为动作决策执行所述行为动作的空间位置。本发明实现了参数空间从O(n*m)减少到了O(n+m)，大大减少了策略空间的参数维度，减少了大量无用的参数空间，同时加快了收敛速度。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于级联模式的大规模动作策略方法，其特征在于，包括：

实时采集多个单位的状态信息向量x；

基于神经网络函数计算决策特征y＝f(x)；

根据空间动作的位置或行为动作的顺序划分动作模块；

基于所述行为动作概率决策行为动作，基于所述行为动作决策执行所述行为动作的空间位置。

2.根据权利要求1所述的基于级联模式的大规模动作策略方法，其特征在于，所述动作为级联模式，概率分布相互独立。

3.根据权利要求1或2所述的基于级联模式的大规模动作策略方法，其特征在于，所述神经网络函数包括卷积神经网络、全连接神经网络或深度玻尔兹曼机。

4.根据权利要求1或2所述的基于级联模式的大规模动作策略方法，其特征在于，所述空间动作维度为p×q，行为动作空间维度为k。

构建决策特征到空间动作的映射网络，包括构建空间动作全连接映射网络：

z^s＝W^sy

其中W^s为权重矩阵，z^s为全连接映射网络的输出，W^s维度为p×q×t,z^s维度为p×q，t为时刻。

5.根据权利要求4所述的基于级联模式的大规模动作策略方法，其特征在于，计算空间动作概率Space包括：

其中z^s表征为[z^s ₁,z^s ₂,...z^s _r...,z^s _pq]，T表示转置。

6.根据权利要求5所述的基于级联模式的大规模动作策略方法，其特征在于，构建决策特征到行为动作的映射网络，包括构建行为动作全连接映射网络：

z^b＝W^by

其中W^b为权重矩阵，z^b为全连接映射网络的输出，W^b∈R^k×t,z^b∈E^k。

7.根据权利要求6所述的基于级联模式的大规模动作策略方法，其特征在于，计算行为动作概率behavior包括：

其中z^b表征为[z^b ₁,z^b ₂,...z^b _r...,z^b _k]，T表示转置。

8.根据权利要求1或2所述的基于级联模式的大规模动作策略方法，其特征在于，所述多个单位为游戏中的多个单智能体；基于所述行为动作概率决策每个单智能体行为动作，基于所述行为动作决策所述单智能体执行所述行为动作的空间位置。