CN114021737B

CN114021737B - 一种基于博弈的强化学习方法、系统、终端及存储介质

Info

Publication number: CN114021737B
Application number: CN202111302570.2A
Authority: CN
Inventors: 席宝; 刘佳冀; 陈思; 高放; 王昭; 龙玉婧
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-08-22
Anticipated expiration: 2041-11-04
Also published as: CN114021737A

Abstract

本发明提供种基于博弈的强化学习方法、系统、终端及存储介质，包括：根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；在满足收敛条件的情况下，输出训练的强化学习模型。本发明顶层采用基于博弈规则的行为树在不同子任务之间切换，能够有效降低复杂任务的学习难度，提高学习效率；底层采用基于多智能体的强化学习方法训练与环境交互的模型，可以有效地描述局部环境特征，具有较高的可扩展性和环境适应性。

Description

一种基于博弈的强化学习方法、系统、终端及存储介质

技术领域

本发明属于数据处理技术领域，具体涉及一种基于博弈的强化学习方法、系统、终端及存储介质。

背景技术

强化学习(Reinforcement Learning,RL)是机器学习的范式和方法论之一，在强化学习领域，将学习的主体抽象为智能体，智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标。

近年来，强化学习在棋类博弈、游戏对抗以及资源管理等方面取得了突出的进展。针对多智能体对抗博弈问题，传统的强化学习方法，随着智能体数量增加，导致的状态空间和动作空间呈指数级增长，存在维度灾难问题、智能体的加入和退出导致的可扩展性问题、以及从零开始学习导致的训练效率低的问题等，目前这些问题是强化学习在多智能体对抗博弈问题上。

发明内容

针对现有技术的上述不足，本发明提供一种基于博弈的强化学习方法、系统、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种基于博弈的强化学习方法，包括：

根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；

确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；

将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；

在满足收敛条件的情况下，输出训练的强化学习模型。

进一步的，所述确定每个子任务对应的状态空间、动作空间和奖励函数，包括：

确定每个所述子任务对应的全局环境图层和局部环境图层，其中，所述全局环境图层为所述状态空间在全局视角下的环境特征图层，所述局部环境图层为所述状态空间在智能体视角下的环境特征图层。

进一步的，所述确定每个所述子任务对应的全局环境图层和局部环境图层，包括：

获取第一智能体的局部环境图层中的多项环境特征；

将第一智能体的视角角度划分为多个方向块，并确定每个所述方向块对应的态势，所述态势为所述多项环境特征中一项环境特征的总和；

将所述总和放缩到预设范围。

进一步的，所述构建强化学习模型，包括：

根据所述全局环境图层和局部环境图层，构建强化学习模型，所述强化学习模型用于输出智能体的动作和/或状态值，所述全局环境图层通过多层神经网络与局部环境图层的一端进行向量连接，所述局部环境图层的另一端与多层神经网络进行向量连接，所述神经网络包括全连接层、注意力层和循环神经网络层。

进一步的，所述环境特征包括第二智能体的数量、距离和威胁程度。

进一步的，所述全局环境图层中包括环境地形、环境迷雾、博弈双方信息。

第二方面，本发明提供一种基于博弈的强化学习系统，包括：

规则输入单元，配置用于根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；

模型构建单元，配置用于确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；

混合训练单元，配置用于将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；

模型输出单元，配置用于在满足收敛条件的情况下，输出训练的强化学习模型。

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，

本发明提供的一种基于博弈的强化学习方法、系统、终端及存储介质，顶层采用基于博弈规则的行为树在不同子任务之间切换，能够有效降低复杂任务的学习难度，提高学习效率；底层采用基于多智能体的强化学习方法训练与环境交互的模型，可以有效地描述局部环境特征，具有较高的可扩展性和环境适应性。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明另一个实施例的方法的示意性流程图。

图3是本发明一个实施例的子任务划分方法的示意图。

图4是本发明一个实施例的模型层面构建的示意图。

图5是本发明一个实施例的环境特征描述的示意图。

图6是本发明一个实施例的多个环境特征描述的示意图。

图7为本发明实施例提供的一种系统的结构示意图。

图8为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种基于博弈的强化学习系统。

如图1所示，该方法包括：

步骤110，根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；

步骤120，确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；

步骤130，将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；

步骤140，在满足收敛条件的情况下，输出训练的强化学习模型。

可选地，作为本发明一个实施例，所述确定每个子任务对应的状态空间、动作空间和奖励函数，包括：

可选地，作为本发明一个实施例，所述确定每个所述子任务对应的全局环境图层和局部环境图层，包括：

获取第一智能体的局部环境图层中的多项环境特征；

将所述总和放缩到预设范围。

可选地，作为本发明一个实施例，所述构建强化学习模型，包括：

可选地，作为本发明一个实施例，所述环境特征包括第二智能体的数量、距离和威胁程度。

可选地，作为本发明一个实施例，所述全局环境图层中包括环境地形、环境迷雾、博弈双方信息。

为了便于对本发明的理解，下面以本发明一种基于博弈的强化学习方法的原理，结合实施例中对抗双方博弈场景应用本方法的过程，对本发明提供的一种基于博弈的强化学习方法做进一步的描述。

具体的，所述一种基于博弈的强化学习方法包括：

S110、根据输入的博弈规则，基于行为树将学习任务分解为一组子任务

如图3所示，将专家的经验知识作为博弈规则进行输入，能够降低学习任务的难度，提高训练效率；根据博弈规则将学习任务分解为多个子任务，并构建行为树，行为树是一种决策控制技术，行为树具有树状特性，通过不同类型的节点实现决策过程。

S120、确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型。

状态空间中包括环境信息图层，环境信息图层用于描述智能体的环境特征信息，从而实现环境信息的丰富性，例如在一些多智能体对抗博弈方法中，可以将对抗博弈场景特征图作为环境信息图层。

在一种实现方式中，环境信息图层包括：每个所述子任务对应的全局环境图层和局部环境图层，其中，所述全局环境图层为全局视角下的环境特征图层，所述局部环境图层为智能体视角下的环境特征图层。

示例的，全局环境图层为包括环境地形、环境迷雾、博弈双方信息等信息的特征图层，局部环境图层为包括敌我双方的数量、距离、速度、威胁程度等信息的特征图层。

在一种实现方式中，如图4所示，根据所述全局环境图层和局部环境图层，构建强化学习模型，所述强化学习模型用于输出智能体的动作和/或状态值，所述全局环境图层通过多层神经网络与局部环境图层的一端进行向量连接，所述局部环境图层的另一端与多层神经网络进行向量连接，所述神经网络包括全连接层、注意力层和循环神经网络层。

动作空间是智能体能够选取的动作集合，动作空间与智能体的类型、结构、搭载设备等有关。奖励函数为智能体在训练过程中提供数字反馈，用于辅助策略的训练。奖励函数的定义与具体的任务目标有关。根据任务目标定义奖励函数属于现有技术，因此不做详细介绍。

S130、将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；

各子任务分别训练对应的模型，将同一组子任务的强化学习模型的参数进行共享，通过参数共享的方式实现混合训练，使用全局信息图层中的环境特征信息，实现中心式训练。故本实施例对模型进行训练采用集中训练、分布式执行的架构，具体可以为训练时，每个智能体的模型根据各自的局部环境图层做决策，执行时，实现分布式执行。

S140、在满足训练终止条件的情况下，输出训练的强化学习模型。训练终止条件通常为认为设定的训练迭代次数。

如图2所示，本实施例提供一种描述局部环境状态的方法，本方法可以用于描述上述实施例中局部环境图层的环境特征。具体方法如下。

S210、获取第一智能体的局部环境图层中的多项环境特征。

在本实施例中，环境特征可以为第二智能体的数量、距离和威胁程度等，第一智能体可以为我方单位，第二智能体可以为多个敌方单位，则环境特征可以为敌方数量、敌方距我方的距离和敌方对我方的威胁程度。

S220、将第一智能体的视角角度划分为多个方向块，并确定每个所述方向块对应的态势，所述态势为所述多项环境特征中一项环境特征的总和。

示例地，如图5所示，以我方单位为中心，我方单位由多种敌方单位，将360°的视角角度划分为：b1至b8八个方向块，则态势为敌方数量的总和，例如b1的态势为基于b1方向的多种敌方单位在数量上的总和。如图6所示，为基于b1方向的敌方数量态势和敌方威胁程度态势。

S230、对于所述环境特征，可将其各维度累计值放缩到预设范围，比如0～1。

如图6示，该系统200包括：

规则输入单元210，配置用于根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；

模型构建单元220，配置用于确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；

混合训练单元230，配置用于将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；

模型输出单元240，配置用于在满足收敛条件的情况下，输出训练的强化学习模型。

图7为本发明实施例提供的一种终端300的结构示意图，该终端300可以用于执行本发明实施例提供的一种基于博弈的强化学习方法。

其中，该终端300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

因此，本发明顶层采用基于博弈规则的行为树在不同子任务之间切换，能够有效降低复杂任务的学习难度，提高学习效率；底层采用基于多智能体的强化学习方法训练与环境交互的模型，可以有效地描述局部环境特征，具有较高的可扩展性和环境适应性，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于博弈的强化学习方法，其特征在于，包括：

在满足收敛条件的情况下，输出训练的强化学习模型；

所述确定每个子任务对应的状态空间、动作空间和奖励函数，包括：

确定每个所述子任务对应的全局环境图层和局部环境图层，其中，所述全局环境图层为所述状态空间在全局视角下的环境特征图层，所述局部环境图层为所述状态空间在智能体视角下的环境特征图层；

所述确定每个所述子任务对应的全局环境图层和局部环境图层，包括：

获取第一智能体的局部环境图层中的多项环境特征；

将所述总和放缩到预设范围；

所述构建强化学习模型，包括：

根据所述全局环境图层和局部环境图层，构建强化学习模型，所述强化学习模型用于输出智能体的动作和/或状态值，所述全局环境图层通过多层神经网络与局部环境图层的一端进行向量连接，所述局部环境图层的另一端与多层神经网络进行向量连接，所述神经网络包括全连接层、注意力层和循环神经网络层；

所述环境特征包括第二智能体的数量、距离和威胁程度，第一智能体为我方单位，第二智能体为多个敌方单位。

2.根据权利要求1所述的方法，其特征在于，所述全局环境图层中包括环境地形、环境迷雾、博弈双方信息。

3.一种基于博弈的强化学习系统，其特征在于，包括：

模型输出单元，配置用于在满足收敛条件的情况下，输出训练的强化学习模型；

所述模型构建单元，还配置用于：

确定每个所述子任务对应的全局环境图层和局部环境图层，具体为：获取第一智能体的局部环境图层中的多项环境特征；将第一智能体的视角角度划分为多个方向块，并确定每个所述方向块对应的态势，所述态势为所述多项环境特征中一项环境特征的总和；将所述总和放缩到预设范围，其中，所述全局环境图层为所述状态空间在全局视角下的环境特征图层，所述局部环境图层为所述状态空间在智能体视角下的环境特征图层；

所述模型构建单元，还配置用于：

4.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1或2所述的方法。

5.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1或2所述的方法。