CN113396428B

CN113396428B - 多智能体应用的学习系统、计算机程序产品和方法

Info

Publication number: CN113396428B
Application number: CN202080012630.4A
Authority: CN
Inventors: D·科斯拉; S·索莱曼
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2019-03-05
Filing date: 2020-02-17
Publication date: 2024-05-07
Anticipated expiration: 2040-02-17
Also published as: US20200285995A1; WO2020180480A1; CN113396428A; EP3935575A1

Abstract

本公开涉及多智能体应用的学习系统、计算机程序产品和方法。描述了一种多智能体应用的学习系统。在操作中，该系统初始化多个学习智能体。所述学习智能体包括战术智能体和战略智能体两者。战略智能体从环境中进行观测并选择一个或更多个战术智能体来生成动作，所述动作用于控制平台的执行器或在环境中的模拟运动以完成任务。另选地，战术智能体生成与学习到的低级行为相对应的动作，以控制平台的执行器或在环境中的模拟运动以完成任务。

Description

多智能体应用的学习系统、计算机程序产品和方法

相关申请的交叉引用

本申请要求于2019年3月5日提交的美国临时申请No.62/814,133的权益，并且是该美国临时申请No.62/814,133的非临时专利申请，该美国临时申请No.62/814,133的全部内容通过引用并入本文。

技术领域

本发明涉及一种多智能体学习系统，并且更具体地，涉及一种实现多智能体应用的可扩展且可推广(generalizable)的机器学习范型(paradigm)的学习系统。

背景技术

强化学习(RL)系统被用于各种应用中来从过去的决策或场景中学习，以便增强新的决策制定行动。大多数工作都是针对单智能体场景，这在真实世界场景中是不切实际的。一些研究人员试图通过查看多智能体交互来解决这一缺陷。例如，Jederberg等人的研究是针对基于群体(population)的学习(参见并入的文献参考列表，参考文献1)。具体来说，Jederberg等人表明，智能体可以仅使用像素和赛点(game point)作为输入，在流行的3D多人第一人称视频游戏Quake IIIArena Capture the Flag中实现人类级别的学习。尽管这项研究证明了增强的学习能力，但该处理仅限于某些已知场景中的简单输入。

K.Frans等人描述了一种使用分层结构策略的不同方法，从而通过使用共享原语来提高未见(unseen)任务的样本效率(参见参考文献2)。虽然K.Frans等人的研究能够处理未见任务，但这项研究有两个主要限制。首先，它没有提供任何机制来促进低级行为的多样化集合的发展。一种高性能的行为可能会比所有其他行为更频繁地被选中。这会造成恶性循环，在该恶性循环中，其他行为不会被使用，并且由于缺乏训练而越来越落后。其次，这项研究没有纳入课程学习的系统方法。这降低了在具有挑战性的环境中出现任何有用的低级行为的可能性，在该具有挑战性的环境中，标准强化学习方法可能需要很长时间才能通过随机探索找到好的解决方案。

因此，持续需要一种学习系统，该学习系统将课程学习(curriculum learning)用于各种困难的、不确定的和随机的场景，以改进关于所产生的低级动作的学习和决策制定。

发明内容

本公开提供了一种多智能体应用的学习系统。一方面，该系统包括存储器和一个或更多个处理器。所述存储器是非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得在执行指令时，一个或更多个处理器执行若干操作，例如初始化多个学习智能体，所述学习智能体包括战术智能体和战略智能体两者；使一个或更多个战略智能体从环境中进行观测，并且选择一个或更多个战术智能体来产生动作，所述动作用于控制平台的执行器或所述环境中的模拟运动以完成任务；以及使一个或战术智能体产生与学习到的低级行为相对应的所述动作，以控制所述平台的执行器或所述环境中的模拟运动以完成任务。

在另一方面，该系统执行以下操作：训练所述学习智能体，以使由所述环境返回的奖励函数最大化；在训练期间维持每个学习智能体的适应度水平，其中，所述适应度水平表示由所述学习智能体从训练的每个回合获得的净奖励的平均值；以及选择一个或更多个学习智能体进行附加训练，所述附加训练是基于所述一个或更多个学习智能体相对于所述学习智能体的集体适应度的适应度的。

在又一方面，该系统包括以下操作：通过执行从以下各项组成的组中选择的一个或更多个操作来使所述多个学习智能体中的一者或更多者适应以执行新域中的新任务：重新训练高级战略网络以产生最优行为，其中，最优值是基于使从所述新域中的回合获得的奖励信号最大化的；重新训练一个或更多个低级行为网络，以在所述新域中产生最优行为；或者添加并训练新行为，并且重新训练所述高级战略网络，以基于使来自所述新域的奖励信号最大化来选择这些新行为。

在另一方面，在初始状态空间中训练每个学习智能体，所述初始状态空间是在训练回合开始时能够存在于模拟环境中的所有可能条件的集合。

在又一方面，所述初始状态空间是在所述学习智能体中的至少两者具有预定阈值内的适应度水平之后顺序扩展的。

另一方面，在训练期间获得正奖励的难度增加。

此外，如果在预定数量的回合中没有做出改进，则终止对学习智能体的训练。例如，改进是通过每回合净奖励的指数移动平均值的增加来测量的。

在另一方面，不同的学习智能体是利用不同的超参数(例如，学习率、网络层数或每层网络节点数)来初始化和训练的

在又一方面，所述低级行为包括从以下各项组成的组中选择的行为：追赶对手；躲避对手；以及躲避敌方射弹(例如，导弹)。

在另一方面，所述学习智能体将函数用于强化学习，所述函数是基于由正在用强化学习训练的战略智能体选择的动作概率分布与群体中所有其他战略智能体的所有概率分布的平均值之间的Kullback-Leibler散度的。

最后，本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令可以由具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。

附图说明

该专利或申请文件包含至少一幅彩色处理的附图。具有彩色附图的本专利或专利申请出版物的副本将由专利局根据请求以及必要费用的支付来提供。

根据本发明的各个方面的以下详细描述，结合参考以下附图，本发明的目的、特征和优点将显而易见，在附图中：

图1是描绘根据本发明的各种实施方式的系统的部件的框图；

图2是实施本发明的一方面的计算机程序产品的图示；

图3是根据本发明的各种实施方式的系统概述；

图4是例示根据本发明的各种实施方式的课程学习的结果的图；

图5是例示根据本发明的各种实施方式的PCL中的动态群体训练的流程图；

图6是描绘根据本发明的各种实施方式的使用训练方法测试结果的图；

图7A是描绘根据本发明的各种实施方式的具有两个群体的分层学习的流程图；

图7B是图7A中所描绘的处理的示例伪代码，其中存在两个智能体群体；

图7C是图7A中所描绘的处理的简化版本的示例伪代码，其中只有一个高级智能体；

图8是描绘根据本发明的各种实施方式的行为适应学习的流程图；以及

图9是描绘根据各种实施方式的设备的控制的框图。

具体实施方式

本发明涉及多智能体学习系统，并且更具体地，涉及实现多智能体应用的可扩展且可推广的机器学习范型的学习系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。对于本领域技术人员而言，各种修改以及在不同应用中的多种用途将显而易见，并且本文限定的一般原理可以被应用于广泛的方面。因此，本发明并非旨在限于所呈现的方面，而是与符合本文所公开的原理和新颖特征的最广范围相一致。

在下面的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻理解。然而，对本领域技术人员而言将显而易见的是，本发明可以在不必限于这些具体细节的情况下来实践。在其他情况下，公知结构和设备以框图形式示出，而非详细示出，以避免模糊本发明。

请读者关注与本说明书同时提交并且与本说明书一起开放以供公众查阅的所有文件和文档，并且所有这些文件和文档的内容通过引用并入本文。除非另有明确说明，否则本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的另选特征来代替。因此，除非另有明确说明，否则所公开的各个特征仅是一系列的等同或相似特征中的一个示例。

在详细描述本发明之前，首先提供参考文献列表。接下来，提供本发明各个主要方面的描述。随后，介绍为读者提供了对本发明的一般理解。最后，提供本发明各个实施方式的具体细节，以使得能够理解具体方面。

(1)并入的参考文献列表

贯穿本申请引用且并入以下参考文献。为清楚和方便起见，本文中为读者列出这些参考文献作为集中式资源。以下参考文献通过引用并入于此，如同在本文中充分阐述一样。这些参考文献通过参照如下对应参考文献而在本申请中加以引用：

1.Jederberg et.al.,“Human-level performance in first-personmultiplayer games with population-based deep reinforcement learning.”Arxiv,2018.

2.K.Frans et.al.,“Meta Learning Shared Hierarchies.”Arxiv,2017.

(2)主要方面

本发明的各种实施方式包括三个“主要”方面。第一个主要方面是多智能体应用的学习系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是利用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光学存储设备(例如，光盘(CD)或数字通用盘(DVD))或磁存储设备(例如，软盘或磁带)之类的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其他非限制性示例包括：硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下面进行更详细描述。

图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，所述指令使计算机系统100进行特定动作并展现特定行为，如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪速存储器等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其他电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传送至处理器100。根据一个方面，输入设备112是字母数字输入设备(诸如键盘)，其可以包括字母数字键和/或功能键。另选地，输入设备112可以是除字母数字输入设备之外的其他输入设备。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面，光标控制设备114是利用诸如鼠标器、轨迹球、轨迹板、光学跟踪设备或触摸屏的设备来实现的。尽管前述如此，但在一方面，诸如响应于使用与输入设备112相关联的特殊键和键序列命令，光标控制设备114经由来自输入设备112的输入而被引导和/或启用。在另选方面，光标控制设备114被配置成通过话音命令管理或引导。

在一方面，计算机系统100还可以包括一个或更多个可选计算机可用数据存储设备，诸如与地址/数据总线102联接的存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁盘驱动器或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储设备。依据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括：阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器，或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其他显示设备。

本文所呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制示例并不严格限于作为计算机系统。例如，一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其他计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如，在该计算环境中，任务由通过通信网络链接的远程处理设备执行，或者诸如，在该计算环境中，各种程序模块位于包括存储器-存储设备的本地和远程计算机存储介质中。

图2中描绘了具体实施本发明的计算机程序产品(即，存储设备)的示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而，如先前提到的，该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。

(3)介绍

本公开描述了一种在多智能体应用中生成自主行为的学习系统，诸如具有任意数量的友方单位(M)和敌方单位(N)的M对N空对空交战。该系统扩展了强化学习中的现有技术，并且使其更加稳健、可扩展且可推广。关键创新包括：(1)基于群体的课程学习(PCL)通过随机的临时自我对战以及不断发展的、通过按顺序玩复杂的迷你游戏而具有不同技能的敌手群体来实现稳健性，(2)分层时间学习(HTL)经由分层架构实现可扩展性，在该分层架构中，高级行为(例如，与敌方交战)是从低级动作(例如，速度控制)中学习到的，并且被重新用于组合式决策制定，从而管理搜索空间的复杂性并减少对行为选择的决策制定，以及(3)行为适应学习(BAL)通过重新使用先前学习到的行为并仅学习所需的少量新行为，使经训练的模型(例如，空中交战)快速适应新问题(例如，VIP护送)来实现可推广性。这些创新在稳健性、可扩展性和可推广性方面提供了改进的性能。综上所述，这些新的学习技术允许系统能够在各种环境中针对大量可能的对手战略来开发有效的战略和战术。

本领域技术人员可以理解，该系统可以应用于具有多个交互智能体的各种应用，所述应用包括自主载具(诸如提供空对空作战能力的自主飞行器)、模拟(诸如目的在于确定空中交战场景或其他场景的可能结果的模拟对手和模拟行为)、战场管理等。所述应用的其他非限制性示例包括诸如体育和网络安全之类的多智能体应用。以下提供具体细节。

(4)各种实施方式的具体细节

该系统针对多智能体问题和应用生成战略和战术。该系统基于若干新颖的创新，所述创新显著扩展了强化学习中的现有技术。如图3所示，所描述的系统与环境(例如，高保真多智能体模拟器300)交互若干回合(episode)，并且每次在强化学习范型302中调整策略网络和值网络，以便改进有效性度量(强化学习中的奖励函数)。奖励函数几乎总是在每个回合结束时包括一个获胜的正分量或一个失败的负分量。奖励函数还可能包括贯穿整个回合的附加信号，以鼓励特定行为，例如针对浪费资产(例如，导弹)的负奖励或针对摧毁每个敌方单位的正奖励。该系统包括三个主要创新，如图3所描绘的，并且详述如下。

传统的强化学习方法可用于通过重复播放完全相同的场景来生成点解(point-solution)。然而，策略的稳健性很重要——以使它们能够被推广到不同的场景。因此，本文描述的系统包括改进最先进的强化学习系统的关键创新。关键创新包括：(1)基于群体的课程学习(PCL)304通过随机的临时自我对战以及不断发展的、通过按顺序玩复杂的迷你游戏而具有不同技能的敌手群体来实现稳健性，(2)分层时间学习(HTL)306经由分层架构实现可扩展性，在该分层架构中，高级行为(例如，与敌方交战)是从低级动作(例如，速度控制)中学习到的，并且被重新用于组合式决策制定，从而管理搜索空间的复杂性并减少对行为选择的决策制定，以及(3)行为适应学习(BAL)308通过重新使用先前学习到的行为并仅学习所需的少量新行为，使经训练的模型(例如，空中交战)快速适应新问题(例如，VIP护送)来实现可推广性。

(4.1)模块1：基于群体的课程学习(PCL：Population-based CurriculumLearning)

PCL404模块是基于群体的训练协议，在该协议中，针对对手群体来训练各个智能体(或学习者)。在Jederberg等人的研究中，所有智能体都是使用遗传算法进化而来的，遗传算法可以得到具有一组有限(narrow)技能的合适智能体(参见参考文献1)。然而，在本公开提供的独特方法(第一方面)中，群体中的各个智能体通过课程学习进行训练，并且状态空间在智能体已经在较小空间中学习了良好行为之后被顺序扩展，从而创建具有不同技能的合适智能体池并鼓励稳健的对抗性学习。例如，智能体可能首先在这样的环境中被训练，在该环境中，对手总是在正在学习执行空中交战机动的智能体的正前方开始。一旦智能体已经学会了从这个始终如一的起始位置机动到位进行攻击，可能的对手方位(bearings)的范围(在每一回合的开始时随机确定)可能会顺序扩展到首先10度、然后到20度、并且最终一路达360度。为了确定何时进行这些扩展性步骤，可以通过从固定数量的过去回合中获得特定平均净奖励来定义“良好行为”。另选地，可以简单地提供预先确定的时间表，在该时间表中，将各个扩展之间的回合数量预计成在每个步骤之前为发展良好行为提供足够的时间。

智能体被定义成能够选择低级动作或高级动作(例如，分别为低级战术智能体和高级战略智能体)的子系统——在本发明的优选实施方式中使用深度神经网络。群体中的各个智能体都通过通常称为策略梯度强化学习的方法进行训练。课程学习也被采用，如下一段中所述。

初始状态空间被定义成在回合开始时环境中可能存在的所有可能条件的集合。如果在每一回合开始时环境都处于相同状态(例如，所有飞行器都被放置在固定位置)，则该初始状态空间的大小要尽可能小。如果在开始时环境处于许多不同的(随机)配置(例如，对手被随机放置在10km半径内的任何位置)，则初始状态空间大。课程学习被定义成随着训练的进行这个初始状态空间的顺序扩展。作为示例：在一对一的空中交战场景中(其中飞行器作为智能体)，对手可能被放置在距离友方飞行器5km的固定距离处。在系统已经被训练了100,000回合之后，这个距离可以在[4km，6km]内随机变化。在各个100,000回合的后续集合之后，随机范围可以以相同的方式增加，直至达到操作中可能遇到的全范围[0km，10km]。

如图4所示，一对一(1v1)初步研究证明了具有课程学习战略的稳健学习。具体地，图4示出了在训练的5个阶段得分持续增加，在训练期间，“视野”(敌人的相对方位)从10度增加到50度。

PCL404模块采用大量具有可变数量的智能体、能力、行为和超参数的临时游戏(模拟空对空交战)，以实现在不同场景中以及针对广泛范围的对手战略的稳健学习。随机初始化过程确保每个临时游戏都是唯一的。例如：一场比赛可能由两个对手直接在一架友方飞行器前面组成，而另一场比赛可能由两个对手直接在一架友方飞行器后面组成。还可以改变能力，例如武器射程、传感器角度等，使经学习的模型更加稳健。群体中的不同智能体可能会被赋予不同的超参数，例如学习率。

在第二方面并且如图5所示，以这样一种方式训练一组智能体，即在整个群体中维持统一的适应度水平。维持该约束的期望方法是创建适应度矩阵500，适应度矩阵500比较任何两个智能体(例如，学习者2和学习者4)的相对适应度。该适应度矩阵是方形的，行数和列数均等于群体中的智能体数量。适应度矩阵的各个条目都包含获胜次数减去失败次数，该值是根据由行索引的玩家相对于由列索引的玩家测量的评估运行次数(在我们的实验中大约为1000到10000)而计算得出的。例如，第2行第4列中的适应度条目表示在学习者2与学习者4之间玩的一系列回合中学习者2的获胜次数减去学习者2的失败次数。在对称零和游戏的情况下，两个玩家以相同的可能起始条件分布开始，如果一个玩家失败，则另一个玩家获胜，矩阵是反对称的(矩阵等于其转置的负数)。这意味着为了提高计算效率，可以假设对角线条目为零，并且可以通过对另一半取反来计算剩余条目的一半。例如，学习者4相对于学习者2的适应度只是学习者2相对于学习者4的适应度的负值。适应度水平稍低的智能体被更密集地训练，这样他们就不会落后组中其余的智能体太多。在这方面，具有低于其他智能体的适应度水平的智能体被进一步训练，以将多个智能体的集体适应度维持在预定阈值内。

该动态群体502允许系统开发用于探索可能的行为策略空间的更稳健的战略。每个智能体(或学习者)经历模拟/训练504处理。当训练504每个学习者时，应用损失函数项以防止学习者采用与群体中其他学习者的战略相似的战略。这可以表现为新学习者的动作概率与一个或更多个其他学习者的动作概率之间的Kullback-Leibler散度。

如图5所描绘的处理已被实践并被实施用于实验。例如，图6示出了使用一组12个智能体(即学习者)测试该训练方法的结果。在训练的早期阶段，每个智能体的适应度保持接近0，因为这个特定的适应度矩阵使用零和适应度函数。最终，一些智能体达到平稳状态(plateau)600，并且该处理停止训练这些智能体以专注于继续提高适应度的更有前途的智能体。这可以在智能体在一定数量的回合中表现出很少改进或没有改进之后完成。作为非限制性示例，在结果为图6的实验中，如果在50,000回合之后没有取得任何改进，则终止训练。在这种情况下，智能体将被冻结在其当前学习状态，并且此后仅用作训练其他智能体的对手。因为如此，其他智能体602的适应度得分开始增加，从而导致图6所示的上升趋势。

(4.2)模块2：分层时间学习(HTL)

多智能体游戏的搜索空间非常大。例如，具有四个控制动作(速度、航向、高度、开火或不开火的五个选择，1000个时间步长)的典型四对四(4v4)交战的博弈树大小是1011500。为了解决这个问题，本文描述的系统采用分层强化学习，以将这些复杂问题分割成更易于管理的行为(子任务)、学习有效地执行所述行为、并学习应该执行所述行为以完成原始任务的顺序。对于相同的4v4问题并假设10个高级行为，每个行为持续100个时间步长，这种方法的博弈树大小明显更小，为1040。

在HTL 306的第一方面，高级任务由分析师基于已知战术来人工指定。完成这些任务中的每一者的低级动作是独立学习的(例如，使用1v1强化学习)。另选地，可以将低级动作提供为预先编程而非经学习的脚本行为，例如追逐对手、发射和支持导弹或躲避来袭导弹。这些任务可能包括简单的行为(例如，飞行到指定地点)，或者更复杂的行为(例如，在作战中与对手交战)。

然后，HTL 306方法使用强化学习来学习高级任务的最优顺序以实现目标(例如，成功的战斗管理)。高级任务的最优顺序由单个高级智能体确定，该单个高级智能体通过使用策略梯度强化学习训练的神经网络进行观测并选择任务。例如：高级智能体可能会在如此做有利的情况下学习选择“与对手交战”任务，而在更具防御性的动作方案在游戏得分最大化方面最有效的情况下，它可能会学习选择不同的高级任务，例如“躲避”。为了进一步理解，图7C提供了具有单个高级智能体的简化版本的示例伪代码。

在HTL 306的第二方面，在单个学习网络内对高级任务和低级任务以及策略进行端到端训练。为了提高收敛速率和处理部分可观测性(partial observability)，HTL 306模块将使用所有状态变量(输入)和循环神经网络(RNN)的时间历史作为强化学习的策略模块和值模块的一部分。先前已经证明，即使在完全可观测性的情况下，添加RNN也有助于提高一对一学习的训练收敛性和速度。例如，在值网络之后添加的RNN将第一批训练中的智能体的获胜率从69％提高到80％。

在第三方面并且如图7A所示，通过使用战略智能体700和战术智能体702的单独的群体将分层学习与基于群体的训练相结合。战略智能体700通过从群体中选择战术智能体704来决定高级战略，而战术智能体702产生实际的低级动作706。图7A例示了这种基于分层群体的架构，其中实际上有两个单独的智能体群体700和702。如图7A所示，第一竞争专业化KL奖励701被引入战略智能体700。第一竞争专业化KL奖励701被计算成由正在用强化学习训练的战略者选择的动作概率分布与和群体中所有其他战略者的所有概率分布的平均值之间的Kullback-Leibler散度。这个损失项被添加到强化学习损失函数中。此后，第二竞争专业化KL奖励703(类似于701，但是基于战术智能体群体来计算)和多环境训练705被引入战术智能体702，战术智能体702产生低级动作706。

为了进一步理解，图7B提供了如图7A所示的处理的伪代码，其中有两个群体。应当理解，本发明并不旨在限于使用两个智能体群体，而是可以使用更多或更少的智能体群体，例如图7C中所示。

(4.3)模块3：行为适应学习(BAL)

BAL 308模块的目标是使先前训练的人工智能(AI)模型适应新问题。例如，并如图8所示，空对空交战战略800可能需要适用于具有新地面威胁实体804的重要人物(VIP)护送管理场景802。若干先前学习到的行为806对于两个问题(例如，交战威胁、飞行到位置、作战空中巡逻(CAP))是相同的，但需要针对新问题(例如，干扰地面威胁)学习新行为808。分层学习方法非常适合通过训练新的高级目标和少量新行为、同时将先前学习到的行为用于类似的任务集合来应对这一挑战。具有足够此类行为储备的智能体将更能够适应场景或目标的可变性。一方面，来自一个问题域的经训练系统与策略网络和值网络的权重一起使用，该策略网络和值网络使用来自第二个问题域的奖励信号来调整，以优化该域的学习。然后添加第二个问题域所需的新行为，然后重新训练网络以优化该域的增量奖励。这个处理可以迭代多次，直到达到收敛。

例如，可以首先针对100,000回合的空对空交战来训练能够进行两种低级行为的分层智能体。在这一点上，它将学习空对空交战的高级战略以及可能对空对空交战和其他可能类型的军事场景有用的两种低级行为。假设一种低级行为可能包括追逐对手，而另一种低级行为可能包括躲避。高级战略可以包括：如果起始位置有利，则选择追逐行为；否则就选择躲避行为。接下来，如果需要针对VIP护送问题的自主解决方案，则可以在这个新场景中对定义高级战略的策略网络和/或值网络重新训练10,000回合，而表示低级追逐和躲避行为的网络被冻结，因为追逐和躲避行为仍然可能有用。接下来，可以通过提供表示第三种行为的新初始化的策略网络和值网络以及允许战略网络选择第三种行为的附加输出神经元来添加第三种行为。然后，新网络和新输出神经元两者都可以被再训练10,000回合而其余的模型权重被冻结或被联合训练。可以应用类似重新训练过程的若干次迭代，直到智能体能够在新环境中表现良好。

这种方法具有两个主要优点。首先，预训练的智能体很可能可以适应新的场景，该新的场景的训练回合比从头开始训练智能体所需的训练回合更少。由于某些低级行为可以被重新使用，因此迁移学习问题比从头开始训练智能体的问题更简单。其次，这种适应方法可能允许智能体学习有效战略，以用于按其他方式会过于复杂而无法解决的场景。智能体可以使用简单的场景来学习简单的行为，然后其可以用于在更困难的场景中引导学习，在所述更困难的场景中，非适应智能体只会从每个回合中接收负奖励，并且永远无法开始学习。

(4.4)设备的控制

如图9所示，一个或更多个处理器104可用于基于低级动作选择来控制设备900(例如，自主载具、马达、机器、无人机、摄像头等)。在一些实施方式中，设备900是可以被控制以基于动作选择来引起移动或以其他方式发起物理动作的智能体或学习智能体。这种类别的实施方式中的主要应用是用于无人驾驶作战空中载具的自主控制，这些空中载具可以以使其完成任务目标的可能性最大化的方式进行机动，例如防御友方飞行器或打击敌方目标。可以在执行器级别或自动驾驶仪级别来控制飞行器的运动，并且还将会生成针对其他武器射击等的控制信号。

更具体地并且在一个示例中，图8中所示的实施方式可用于设备900内。对左转、右转、增加高度、增加速度、发射武器K、交战干扰器的命令将在设备900内被发布到无人驾驶UAV(该无人驾驶UAV也作为设备900的一部分)。该命令可以被无线发送到UAV。战略智能体和战术智能体可以是设备900中对象的实例化，同时是控制UAV执行器的命令。

例如，用户可以使用本发明来针对未在原始任务训练集合中的特定机器来分配或重新分配UAV的群集(多个)任务。假设先前学习了N个行为(低级)，而现在新的任务类型还需要第(N+1)个新行为。假设UAV在起飞前的任务开始时或在任务操作期间无线添加时加载了新的所需的第(N+1)个任务行为。上面的4.3节描述了如何训练并使神经网络适应来实现这一点；训练新的低级行为和高级战略选择器两者。假设网络按上述重新训练；然后，系统能够在每个时间步长处选择(N+1)个行为中的任何一者，以根据学习到的低级行为神经网络来执行其动作。此处的一切都和以前完全一样，只是有一个附加行为及其动作执行。

最后，虽然已经根据若干实施方式对本发明进行了描述，但本领域普通技术人员将容易地认识到，本发明可以在其他环境中具有其他应用。应注意，可以有许多实施方式和实现。此外，所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外，“用于……的装置”的任何叙述旨在引发要素和权利要求的装置加功能的解读，而未特别使用“用于……的装置”叙述的任何要素不应被解读为装置加功能要素，即使权利要求以其他方式包括了“装置”一词。此外，虽然已经按特定顺序叙述了特定方法步骤，但这些方法步骤可以按任何期望的顺序进行并且落入本发明的范围内。

Claims

1.一种多智能体应用的学习系统，所述系统包括：

存储器和一个或更多个处理器，所述存储器是非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得在执行所述指令时，所述一个或更多个处理器执行以下操作：

初始化多个学习智能体，所述学习智能体包括战术智能体和战略智能体两者；

使多个战略智能体从环境中进行观测，并且选择多个战术智能体来各自产生动作，所述动作用于控制平台的执行器或所述环境中的模拟运动以完成任务；以及

使所述多个战术智能体产生与学习到的低级行为相对应的所述动作，以控制所述平台的执行器或所述环境中的模拟运动以完成任务，

其中，所述学习系统还包括以下操作：

训练所述学习智能体，以使由所述环境返回的奖励函数最大化；

在训练期间维持每个学习智能体的适应度水平，其中，所述适应度水平表示由所述学习智能体从训练的每个回合获得的净奖励的平均值；以及

选择一个或更多个学习智能体进行附加训练，所述附加训练是基于所述一个或更多个学习智能体相对于所述学习智能体的集体适应度的适应度的。

2.根据权利要求1所述的学习系统，所述学习系统还包括以下操作：通过执行从以下各项组成的组中选择的一个或更多个操作来使所述多个学习智能体中的一者或更多者适应执行新域中的新任务：

重新训练高级战略网络以产生最优行为，其中，最优值是基于使从所述新域中的回合获得的奖励信号最大化的；

重新训练一个或更多个低级行为网络，以在所述新域中产生最优行为；或者

添加并训练新行为，并且重新训练所述高级战略网络，以基于使来自所述新域的奖励信号最大化来选择这些新行为。

3.根据权利要求1所述的学习系统，其中，在初始状态空间中训练每个学习智能体，所述初始状态空间是在训练回合开始时能够存在于模拟环境中的所有可能条件的集合。

4.根据权利要求3所述的学习系统，其中，所述初始状态空间是在所述学习智能体中的至少两者具有预定阈值内的适应度水平之后顺序扩展的。

5.根据权利要求1所述的学习系统，其中，在训练期间获得正奖励的难度增加。

6.根据权利要求1所述的学习系统，其中，如果在预定数量的回合中没有做出改进，则终止对学习智能体的训练。

7.根据权利要求1所述的学习系统，其中，不同的学习智能体是利用不同的超参数来初始化和训练的。

8.根据权利要求1所述的学习系统，其中，所述低级行为包括从以下各项组成的组中选择的行为：追赶对手；躲避对手；以及躲避敌方射弹。

9.根据权利要求1所述的学习系统，其中，所述学习智能体将函数用于强化学习，所述函数是基于由正在用强化学习训练的战略智能体选择的动作概率分布与群体中所有其他战略智能体的所有概率分布的平均值之间的Kullback-Leibler散度的。

10.一种多智能体应用的计算机程序产品，所述计算机程序产品包括：

非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得在一个或更多个处理器执行所述指令时，所述一个或更多个处理器执行以下操作：

其中，所述计算机程序产品还包括使所述一个或更多个处理器执行以下操作的指令：

11.根据权利要求10所述的计算机程序产品，所述计算机程序产品还包括使所述一个或更多个处理器执行以下操作的指令：通过执行从以下各项组成的组中选择的一个或更多个操作来使所述多个学习智能体中的一者或更多者适应执行新域中的新任务：

12.根据权利要求10所述的计算机程序产品，其中，在初始状态空间中训练每个学习智能体，所述初始状态空间是在训练回合开始时能够存在于模拟环境中的所有可能条件的集合。

13.根据权利要求12所述的计算机程序产品，其中，所述初始状态空间是在所述学习智能体中的至少两者具有预定阈值内的适应度水平之后顺序扩展的。

14.根据权利要求10所述的计算机程序产品，其中，在训练期间获得正奖励的难度增加。

15.根据权利要求10所述的计算机程序产品，其中，如果在预定数量的回合中没有做出改进，则终止对学习智能体的训练。

16.根据权利要求10所述的计算机程序产品，其中，不同的学习智能体是利用不同的超参数来初始化和训练的。

17.根据权利要求10所述的计算机程序产品，其中，所述低级行为包括从以下各项组成的组中选择的行为：追赶对手；躲避对手；以及躲避敌方射弹。

18.根据权利要求10所述的计算机程序产品，其中，所述学习智能体将函数用于强化学习，所述函数是基于由正在用强化学习训练的战略智能体选择的动作概率分布与群体中所有其他战略智能体的所有概率分布的平均值之间的Kullback-Leibler散度的。

19.一种多智能体应用的计算机实现的方法，所述方法包括以下动作：

使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令，使得在执行时，所述一个或更多个处理器执行以下操作：

其中，所述方法还包括以下操作：

20.根据权利要求19所述的方法，所述方法还包括以下操作：通过执行从以下各项组成的组中选择的一个或更多个操作来使所述多个学习智能体中的一者或更多者适应执行新域中的新任务：

21.根据权利要求19所述的方法，其中，在初始状态空间中训练每个学习智能体，所述初始状态空间是在训练回合开始时能够存在于模拟环境中的所有可能条件的集合。

22.根据权利要求21所述的方法，其中，所述初始状态空间是在所述学习智能体中的至少两者具有预定阈值内的适应度水平之后顺序扩展的。

23.根据权利要求19所述的方法，其中，在训练期间获得正奖励的难度增加。

24.根据权利要求19所述的方法，其中，如果在预定数量的回合中没有做出改进，则终止对学习智能体的训练。

25.根据权利要求19所述的方法，其中，不同的学习智能体是利用不同的超参数来初始化和训练的。

26.根据权利要求19所述的方法，其中，所述低级行为包括从以下各项组成的组中选择的行为：追赶对手；躲避对手；以及躲避敌方射弹。

27.根据权利要求19所述的方法，其中，所述学习智能体将函数用于强化学习，所述函数是基于由正在用强化学习训练的战略智能体选择的动作概率分布与群体中所有其他战略智能体的所有概率分布的平均值之间的Kullback-Leibler散度的。