CN110782000B

CN110782000B - 通过具有对抗强化学习的动作成形来进行模仿学习

Info

Publication number: CN110782000B
Application number: CN201910679383.2A
Authority: CN
Inventors: T-H·帕姆; G·德马吉斯特里斯; D·J·R·阿格拉万特; 立花隆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-07-30
Filing date: 2019-07-26
Publication date: 2023-11-24
Anticipated expiration: 2039-07-26
Also published as: CN110782000A; US20200034706A1; US11537872B2

Abstract

本公开涉及通过具有对抗强化学习的动作成形来进行模仿学习。提供了一种用于获得多个坏的演示的计算机实现的方法、计算机程序产品和计算机处理系统。所述方法包括由处理器设备读取拥护者环境。所述方法还包括由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理。所述方法还包括由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集所述多个坏的演示。

Description

通过具有对抗强化学习的动作成形来进行模仿学习

技术领域

本发明总体上涉及机器学习，更具体地说，涉及通过具有对抗强化学习的动作成形来进行模仿学习。

背景技术

监督学习(SL)支持通过专家演示进行的快速策略培训。然而，SL通常需要大量的数据来实现泛化。

强化学习(RL)可以通过高级任务表示来训练控制策略。然而，尽管随机探索对发现新策略很重要，但它可能过于耗时。

由于演示有好有坏，有可能会学习SL对动作空间的限制，以便在RL期间加速探索。然而，纯手工平衡地收集好的和坏的例子可能是困难的。相反，收集大部分都是好的演示(例如，完整的成功路径(trajectory))而不附带坏的例子可能更容易。因此，需要一种方法来轻松收集大部分坏的演示。

发明内容

根据本发明的一个方面，提供了一种用于获得多个坏的演示的计算机实现的方法。该方法包括由处理器设备读取拥护者环境。该方法还包括由处理器设备通过使用拥护者环境进行强化学习来训练使任务失败的多个对抗代理。该方法还包括由处理器设备通过在拥护者环境上扮演经训练的对抗代理来收集多个坏的演示。

根据本发明的另一个方面，提供了一种用于获得多个坏的演示的计算机程序产品。该计算机程序产品包括具有程序指令的非暂时性计算机可读存储介质。程序指令可由计算机执行，以使计算机执行一种方法。该方法包括由处理器设备读取拥护者环境。该方法还包括由处理器设备通过使用拥护者环境进行强化学习来训练使任务失败的多个对抗代理。该方法还包括由处理器设备通过在拥护者环境上扮演经训练的对抗代理来收集多个坏的演示。

根据本发明的又一方面，提供了一种用于获得多个坏的演示的计算机处理系统。该计算机处理系统包括用于存储程序代码的存储器。该计算机处理系统还包括处理器设备，其可操作地耦合到存储器，用于运行程序代码来读取拥护者环境。处理器设备还运行程序代码，以通过使用拥护者环境进行强化学习来训练使任务失败的多个对抗代理。处理器设备还运行程序代码，以通过在拥护者环境上扮演经训练的对抗代理来收集多个坏的演示。

根据下面结合附图阅读的说明性实施例的详细描述，这些和其他特征和优点将变得显而易见。

附图说明

以下描述将参考以下附图提供优选实施例的细节，其中：

图1是示出根据本发明实施例的本发明可以应用到的示例性处理系统的框图；

图2是示出根据本发明的实施例的通过具有对抗性强化学习的动作成形进行模仿学习的示例性方法的流程图；

图3是示出根据本发明实施例的本发明可以应用到的示例性环境的框图；

图4-5是示出根据本发明的实施例的通过具有对抗强化学习的动作成形进行模仿学习的示例性方法的流程图；

图6是示出了根据本发明实施例的通过具有对抗强化学习的动作成形进行模仿学习的示例性系统的高级框图；

图7是示出根据本发明实施例的具有一个或多个云计算节点的说明性云计算环境的框图，云消费者使用的本地计算设备与云计算节点进行通信；和

图8是示出根据本发明实施例的由云计算环境提供的一组功能抽象层的框图。

具体实施方式

本发明涉及通过具有对抗强化学习的动作成形来进行模仿学习。

在一个实施例中，本发明提供了一种机制，用于使用好的和坏的演示/例子来动态地训练神经网络代理，以基于否定(对抗)强化学习来学习状态相关的动作约束或动作成形机制。

在一个实施例中，本发明提供了一种机制来在仅给出好的例子情况下使用对抗策略学习动作空间约束。为此，对抗策略被训练为对好的例子所访问的状态执行坏的动作。聚合的对抗策略被用来生成坏的演示。动作空间约束是从好的人类演示和对抗动作预测学习到的，以指导对困难任务的强化学习。这使得强化学习能够在其他困难的环境中进行，在这些环境中，自主探索是不够的。

如这里所使用的，术语“约束”指的是为了使动作被认为对于给定任务是有效的，动作必须满足的条件。这种约束可以被表述为满足布尔函数，该布尔函数可以涉及不等式、等式或它们的组合。因此，例如，对于机器人应用，约束可以包括和/或以其他方式涉及，但不限于，在向目标行驶时避免碰撞，将功耗保持在选定水平内，和/或满足其他性能或安全度量。对于高级驾驶员辅助系统(ADAS)，约束可以包括和/或以其他方式涉及，但不限于，在向目标行驶时避免碰撞，遵循选定的路线，遵守本地速度限制和其他交通规则。在给出本发明的教导的同时保持本发明的精神的情况下，如本领域普通技术人员容易理解的，前面的约束仅仅是说明性的，并且取决于应用。

因此，本发明的一个或多个实施例有利地提供以下内容。给定拥护者环境构建对抗环境/>

-使用源自的回报结构的回报结构(例如，与单个拥护者回报相反)。

-将每一轮学习(episode)重置为专家演示访问的状态。

对于每种对抗环境训练对抗代理/>其：

-采用不同的策略(例如，不同的随机种子)来最大化中的预期返回值。

-通过对专家状态使用聚合策略来预测动作，并选择导致不可恢复状态的动作，生成坏的演示。

图1是示出根据本发明实施例的本发明可以应用到的示例性处理系统100的框图。处理系统100包括一组处理单元(CPU)101、一组GPU 102、一组存储设备103、一组通信设备104和一组外围设备105。CPU 101可以是单核或多核CPU。GPU102可以是单核或多核GPU。一个或多个存储设备103可以包括高速缓存、随机存取存储器、只读存储器和其他存储器(闪存、光存储器、磁存储器等)。通信设备104可以包括无线和/或有线通信设备(例如，网络(例如WIFI等)适配器等)。外围设备105可以包括显示设备、用户输入设备、打印机等。处理系统100的元件通过一条或多条总线或网络(由附图标记110共同表示)连接。当然，处理系统100也可以包括本领域技术人员容易想到的其他元件(未示出)，以及省略某些元件。例如，如本领域普通技术人员容易理解的，根据处理系统100的具体实现，处理系统100中可以包括各种其他输入设备和/或输出设备。例如，可以使用各种类型的无线和/或有线输入和/或输出设备。此外，如本领域普通技术人员容易理解的，在各种配置中，还可以利用附加处理器、控制器、存储器等。此外，在另一个实施例中，可以使用云配置(例如，参见图7-8)。考虑到这里提供的本发明的教导，本领域普通技术人员容易想到处理系统100的这些和其他变化。

此外，还应当理解，下面关于与本发明相关的各种元件和步骤描述的各种附图可以全部或部分地由系统100的一个或多个元件来实现。

图2是示出了根据本发明实施例的通过具有对抗性强化学习的动作成形进行模仿学习的示例性方法200的流程图。图2的方法200可以被认为是图4的方法400的更一般的表示。

在框205，提供环境使得执行x_t＝π(s_t)会产生回报r_t和新状态s_t+1。

目标：学习策略π⁺，其最大化γ-贴现的预期返回值η(π⁺)＝τ＝(s₀,x₀,r₀，…)状态-动作-回报路径通过遵循/>中的x_t＝π⁺(s_t)获得。

在框210，假设n⁺状态-动作好的演示可用和/或以其他方式获得这些演示。好的演示是由专家(拥护者)为解决任务而产生的状态-动作对。坏的演示是由使任务失败的代理(对抗者)产生的状态-动作对。

在框215，使用RL来训练使任务失败的多个对抗代理。

-给定拥护者环境定义/>对抗环境/>例如：

-每个都使用与/>相同的状态和动作转换函数(即，相同的动态模型)。

-每个都使用源自/>的回报结构的回报结构。

-在大多数情况下，对抗回报可以作为单个拥护者回报的否定来导出。

-的每一轮学习都通过将环境重置为/>中的专家访问的状态来开始。

-对于每个我们在/>的/>实例(例如，不同的种子)上训练对抗代理

-总之，我们因此获得了个对抗代理

在框220，通过在上扮演(部署)n^π个经训练的对抗者来收集n^-个坏的演示对抗动作是通过从/>中的专家状态开始扮演对抗者收集的。坏的演示是由专家状态和导致不可恢复状态的对抗动作构建的。

在框225，使用n⁺个好的和n^-个坏的演示来学习依赖于状态的动作约束。用学习到的约束作为探索指导，通过强化学习来训练拥护者π⁺。

图3是示出根据本发明实施例的本发明可以应用到的示例性环境300的框图。

环境300包括具有如下连续动作的二维(2D)迷宫310：

-目标：将代理(x_a,y_a)移到目标(x_t,y_t)而不触碰墙壁或离开环境边界[-1,1]×[-1,1]

-维度n^s＝4的状态：代理位置，目标相对位置

s＝(x_a,y_a,x_t-x_a,y_t-y_a)

-维度n^x＝2的动作：代理位置增量(Δx_a,Δy_a)

x＝(Δx_a,Δy_a)

关于数据收集，以下内容适用：

-带有垂直阴影的圆圈：代理301。

-带水平阴影的圆圈：目标302。

-带斜线阴影的圆圈：动作范围303。

-实线：好的动作。

图4-5是示出了根据本发明实施例的用于通过具有对抗强化学习的动作成形进行模仿学习的示例性方法400的流程图。图6是示出了根据本发明实施例的用于通过具有对抗强化学习的动作成形进行模仿学习的示例性系统600的高级框图。为了说明，方法400是相对于环境300和系统600来描述的。然而，如本领域普通技术人员容易理解的，给定这里提供的本发明的教导，也可以使用其他环境，同时仍保持本发明的精神。

参见图3-6，在框405，设置回报。在一个实施例中，回报可以如下设置：

-回报：

-距离回报

-如果代理触及目标，奖金r_target＝100。

-如果代理触及墙壁，处罚r_wall＝-200。

-如果代理退出边界，处罚r_exit＝-200

在框410，设置一轮学习停止标准。例如，如果代理到达目标，触摸墙壁，退出边界或在T＝100步之后，停止该一轮学习。

在框415，执行动作空间成形610。

在一个实施例中，框415可以包括训练神经网络来预测g_j(x)≤0,j∈[1,nⁱⁿ]形式的nⁱⁿ个约束。在一个实施例中，g_i是由/>参数化的实值函数，/>在一个实施例中，框415可以包括通过监督学习来训练/>使得好的演示满足所有约束，而坏的演示违反至少一个约束，如下所示：

-和

-

在一个实施例中，动作空间成形可以包括以下内容。

-学习形式Gx-h≤0的约束，G的大小为nⁱⁿ×n^x，h的大小为nⁱⁿ(例如nⁱⁿ＝2)。

-违规保证金M^-(s,x)＝max(0,Gx-h)，满意保证金M⁺(s,x)＝max(0,h-Gx)，如果则δ(x)＝1，否则为0。

-神经网络损耗

在框420，执行受约束强化学习620。为此目的：

-给定状态s_t，预测621x_t＝π⁺(s_t)和

-通过数值优化622，计算使得/>

-在环境623上执行以获得回报r_t和新状态s_t+1。

-通过使用状态-动作-回报路径进行强化学习624，来训练π⁺。

在框425，收集好的专家演示630。

例如，从随机代理和目标位置开始收集n^traj个好的路径，(例如，n^traj＝500，通过人工演示)。n^traj的值500是为了说明，因此也可以使用其他值。因此，在一个实施例中，从拥护者环境631和未知的专家拥护者632获得好的专家演示/>630。

在框430，创建和/或以其他方式提供对抗环境640。为此，收集坏的动作，作为导致不可恢复状态的动作。这种坏的动作可能包括但不限于，与墙壁碰撞、离开世界等等。

在一个实施例中，对抗环境640被创建为具有与相同的状态和动作空间，但是分开相反的回报。因此，可以适用以下内容：

-如果发生碰撞，回报/>否则为0

-如果代理退出，回报/>否则为0

关于框430，每一轮学习都通过将环境640重置为专家演示访问的状态来开始。

在框435，训练对抗代理650。在一个实施例中，对于每个对抗环境在不同随机种子上训练/>个代理650。当然，根据实现方式，可以训练其他数量的代理650。这里，代理650是随机神经网络策略/>在一个实施例中，可以使用信任区域策略优化(TRPO)算法来用来自/>的状态-动作-回报序列(s_t,x_t,r_t)_t＝0,…,T更新神经网络。当然，也可以使用其他技术/算法，同时仍保持本发明的精神。

在框440，收集对抗演示660。对于/>630中的每一种状态s，扮演所有对抗代理650。如果对抗动作/>导致不可恢复的状态，则将/>插入到/>660中。应当理解，对抗强化学习670的一般过程是指构建对抗环境640和使用强化学习680来训练对抗代理650以产生对抗演示660的组合过程。

在框445，执行对抗数据增强(反向路径)。例如，在一个实施例中，如果导致s_t+1，那么将(s_t+1,-x_t)加到/>

在框450，使用在一个或多个坏的演示上训练的神经网络和/或训练的拥护者π⁺和/或训练的对抗性代理来控制对象。对象可以是例如但不限于硬件对象。硬件对象可以是但不限于计算机、工作场所机器、机器人、车辆(例如小汽车等)，等等。动作可以被执行以例如使机器人执行操作(例如制造另一个物体)、控制工作场所机器以减轻对其用户的潜在伤害，等等。在一个实施例中，根据本发明，与动作不受限制的情况相比，动作受限制提供了更好的结果。例如，在到达目标的情况下，受限动作会导致比动作的相应非受限版本更快地到达目标(例如，通过避免具有额外不必要步骤的路径以到达目标位置和/或目标对象)。在计算机的情况下，动作可以是绕过可能不会改善由计算机提供的结果的计算机操作，以便通过避免浪费否则将通过执行被绕过的操作消耗的资源来改善计算机的操作。考虑到这里提供的本发明的教导，本领域普通技术人员容易想到这些和其他动作，同时保持本发明的精神。

现在将根据本发明的实施例给出关于本发明可以应用到的一些示例性应用的描述。

例如，本发明可以用于机器人应用、音乐推荐系统、工厂管理、垃圾燃烧、高级驾驶员辅助系统(ADAS)等。

进一步关于机器人应用，本发明可用于优化平衡、优化迷宫求解等。

进一步关于音乐推荐系统，本发明可以用于最小化用户跳过歌曲，最大化可用和/或播放的“歌曲种类”等等。

进一步关于工厂管理，本发明可用于将生产质量保持在一定水平以上，最小化能源成本，最大化工人幸福感等等。

进一步关于垃圾燃烧，本发明可用于将温度保持在一定水平，最小化垃圾分离工作等等。

进一步关于高级驾驶员辅助系统(ADAS)，本发明可用于避免碰撞、控制车辆系统(例如，为了到达目标目的地和/或避免碰撞)。可以控制的车辆功能包括但不限于加速、制动、转向等。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图7，其中显示了示例性的云计算环境750。如图所示，云计算环境750包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点710，本地计算设备例如可以是个人数字助理(PDA)或移动电话754A，台式电脑754B、笔记本电脑754C和/或汽车计算机系统754N。云计算节点710之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点710进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境750提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图7显示的各类计算设备754A-N仅仅是示意性的，云计算节点710以及云计算环境750可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图8，其中显示了云计算环境750(图7)提供的一组功能抽象层。首先应当理解，图8所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图8所示，提供下列层和对应功能：

硬件和软件层860包括硬件和软件组件。硬件组件的例子包括：主机861；基于RISC(精简指令集计算机)体系结构的服务器862；服务器863；刀片服务器864；存储设备865；网络和网络组件866。软件组件的例子包括：网络应用服务器软件867以及数据库软件868。

虚拟层870提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器871、虚拟存储872、虚拟网络873(包括虚拟私有网络)、虚拟应用和操作系统874，以及虚拟客户端875。

在一个示例中，管理层880可以提供下述功能：资源供应功能881：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能882：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能883：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能884：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能885：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层890提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航891；软件开发及生命周期管理892；虚拟教室的教学提供893；数据分析处理894；交易处理895；以及通过用对抗者强化学习进行行为成形的模仿学习896。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

说明书中对本发明的“一个实施例”或“实施例”及其其他变型的引用意味着结合该实施例描述的特定特征、结构、特性等包括在本发明的至少一个实施例中。因此，在整个说明书的不同地方出现的短语“在一个实施例中”或“在实施例中”以及任何其他变化不一定都指同一实施例。

应当理解，下列“/”、“和/或”以及“...中的至少一个”中的任何一个的使用，例如在“A/B”、“A和/或B”和“A和B中的至少一个”的情况下，旨在仅包括选择第一列出的选项(A)，或者仅包括选择第二列出的选项(B)，或者选择两个选项(A和B)。作为另一个示例，在“A、B和/或C”和“A、B和C中的至少一个”的情况下，这种措辞旨在包括仅选择第一列出的选项(A)，或者仅选择第二列出的选项(B)，或者仅选择第三列出的选项(C)，或者仅选择第一和第二列出的选项(A和B)，或者仅选择第一和第三列出的选项(A和C)，或者仅选择第二和第三列出的选项(B和C)，或者选择所有三个选项(A和B和C)。对于所列出的许多项目，如本领域和相关领域的普通技术人员显而易见的，这可以扩展。

已经描述了系统和方法的优选实施例(旨在说明而非限制)，应当注意，本领域技术人员可以根据上述教导进行修改和变化。因此，应当理解，在所附权利要求所概述的本发明的范围内，可以对所公开的特定实施例进行改变。已经以专利法所要求的细节和特殊性描述了本发明的各个方面，在所附权利要求中阐述了专利证书所要求保护和期望保护的内容。

Claims

1.一种用于高级驾驶员辅助系统(ADAS)的计算机实现的方法，包括：

由处理器设备读取拥护者环境；

由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理以生成经训练的对抗代理；

由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集多个坏的演示；和

使用所述多个坏的演示和多个好的演示来学习依赖于状态的动作约束，其中所述动作约束包括以下中的一者或多者：在向目标行驶时避免碰撞、遵循选定的路线、或者遵守本地速度限制和其他交通规则；

至少使用所述经训练的对抗代理来控制车辆系统，

其中训练所述多个对抗代理包括：

使用所述拥护者环境重置多个对抗环境；和

在所述多个对抗环境中的每一个的多个实例上训练所述多个对抗代理。

2.根据权利要求1所述的计算机实现的方法，其中重置所述多个对抗环境包括将所述多个对抗环境重置为拥护者演示中的受访专家状态。

3.根据权利要求1所述的计算机实现的方法，其中所述拥护者环境包括状态和动作转换函数以及回报结构信息，并且其中，重置所述多个对抗环境包括对于所述多个对抗环境中的每一个，使用(i)与所述拥护者环境的所述状态和动作转换函数相同的一个状态和动作转换函数，(ii)源自所述拥护者环境的回报结构的回报结构，以及(iii)使用所述拥护者环境的受访状态作为初始状态。

4.根据权利要求3所述的计算机实现的方法，其中，从所述拥护者环境的回报结构导出的回报结构包括拥护者回报的否定。

5.根据权利要求1所述的计算机实现的方法，其中，在所述拥护者环境上扮演所述经训练的对抗代理包括从拥护者演示中的专家状态和导致不可恢复状态的对抗动作来构建所述多个坏的演示。

6.根据权利要求1所述的计算机实现的方法，还包括通过使用所述依赖于状态的动作约束用于探索指导，通过强化学习来训练拥护者策略。

7.根据权利要求1所述的计算机实现的方法，其中，每个所述经训练的对抗代理是各自的随机神经网络策略。

8.根据权利要求1所述的计算机实现的方法，其中，所述多个对抗代理被训练成使用对应于不同策略的不同随机种子，在从所述拥护者环境构建的至少一个对抗环境中最大化预期返回值。

9.一种用于高级驾驶员辅助系统(ADAS)的计算机可读存储介质，所述计算机可读存储介质具有包含在其中的程序指令，所述程序指令能够由计算机执行以使所述计算机执行根据权利要求1至8中任一项所述的方法。

10.一种用于高级驾驶员辅助系统(ADAS)的计算机处理系统，包括：

用于存储程序代码的存储器；和

处理器设备，其可操作地耦合到所述存储器，用于运行所述程序代码以执行根据权利要求1至8中任一项所述的方法的步骤。