CN110637308A

CN110637308A - 用于虚拟化环境中的自学习代理的预训练系统

Info

Publication number: CN110637308A
Application number: CN201880030755.2A
Authority: CN
Inventors: V.黄; 胡文丰; T.莱; M.夫拉乔-康齐拉基
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2017-05-10
Filing date: 2018-05-07
Publication date: 2019-12-31
Also published as: US11586911B2; EP3635637A1; US20200065673A1; WO2018206504A1

Abstract

提供一种用于基于生成式对抗网络（GAN）的强化学习的预训练设备和方法。GAN包括生成器和判别器。所述方法包括：从真实环境接收训练数据，其中所述训练数据包括对应于第一状态‑奖励对和第一状态‑动作对的数据切片；使用所述训练数据来训练所述GAN；训练关系网络以在强化学习上下文中提取所述第一状态‑动作对与所述第一状态‑奖励对的潜在关系；促使通过训练数据训练的所述生成器生成第一合成数据；在所述关系网络中处理所述第一合成数据的一部分以生成结果数据切片；将所述第一合成数据的所述第二状态‑动作对部分与来自所述关系网络的所述第二状态‑奖励对合并以生成第二合成数据，从而更新用于与所述真实环境的交互的策略。

Description

用于虚拟化环境中的自学习代理的预训练系统

技术领域

本公开涉及用于自学习系统的方法和设备，并且特别涉及用于虚拟化环境中的自学习代理的预训练系统。

背景技术

在云中（例如跨诸如因特网的通信网络）部署虚拟功能允许动态资源配置，诸如指派的CPU、RAM和网络带宽。虚拟化还使能动态增加和移除实例、对整个系统进行快照、在分离的网络切片上测试不同的配置等。一般地，虚拟化给出在控制和优化所部署的网络功能方面的灵活性。

使用诸如深度强化学习的人工智能（AI）技术的自学习系统通常要求许多训练迭代。特别地，深度强化学习在其可以达到合理性能之前要求大量数据。在此学习期间的性能常常非常差。通常，这些算法/代理仅在模拟期间在数百万步非常差的性能之后学习良好的控制策略。这种情况在存在完全准确的模拟器时可能是可接受的。然而，许多真实世界问题并不伴随此类理想的模拟器而发生，从而使代理在对其决策和动作具有真实结果的真实域中学习。换句话说，当算法/代理正学习时，几百万个差的决策在真实生活情况中或在被应用于真实环境时是不可接受的。这种情况需要代理在真实环境中从开始学习便具有良好的在线性能，这是困难的任务。在物理系统中，数据收集的速度是有限的。因此，训练可能相当耗时。

用于解决差初始性能的一种提议的方法是通过从真实环境中收集的数据来预训练代理以加速训练。例如，通过来自真实环境的示范数据来预训练代理，使得在真实系统上运行代理之前，代理从示范数据中尽可能多地学习。然而，收集大量的示范数据以便执行预训练仍然是不可行的。而且，这种方法对决策制定中看不见的状态-动作增加了额外的不确定性余量。因此，这种方法不能准确地捕获环境的特性。

发明内容

一些实施例有利地提供了用于在虚拟化环境中预训练自学习代理的方法和系统。

提供了一种用于强化学习的预训练系统。所述系统基于生成式对抗网络（GAN），但使用状态-动作对关系来增强用于强化学习的数据的准确度，从而创建修改或增强的GAN。一旦网络被训练，本文所描述的系统还可以生成无限制或大量的现实数据。

根据第一方面，提出一种用于基于生成式对抗网络（GAN）的强化学习的方法，其中所述GAN包括生成器和判别器。所述方法由预训练设备来执行，并且包括从真实环境接收训练数据，所述训练数据包括对应于第一状态-奖励对和第一状态-动作对的数据切片；使用所述训练数据来训练所述生成器和判别器；训练关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系；促使通过训练数据训练的所述生成器生成第一合成数据；在所述关系网络中处理所述第一合成数据的一部分以生成结果数据切片，第一合成数据的所述部分对应于第二状态-动作对，所述结果数据切片对应于第二状态-奖励对，所述第二状态-动作对具有与所述第二状态-奖励对的预定义关系；将所述第一合成数据的所述第二状态-动作对部分与来自所述关系网络的所述第二状态-奖励对合并以生成第二合成数据，所述第二合成数据维持所述第二状态-动作对和所述第二状态-奖励对之间的所述预定义关系。

所述关系网络还可以是深度神经网络（DNN）。

所述方法进一步包括使用于与所述真实环境的交互的策略基于所述第二合成数据而被更新。

所述方法进一步包括使用所述第一合成数据与所述第二合成数据之间的差异来训练所述生成器。

所述方法进一步包括使使用所述第一合成数据和所述第二合成数据所训练的所述生成器生成第三合成数据。

所述方法进一步包括使用于与所述真实环境的交互的策略基于所述第三合成数据而被更新。

所述方法进一步包括通过多个随机权重值来初始化所述GAN；以及通过另外的多个随机权重值来初始化所述关系网络。

所述方法进一步包括使用所述第二合成数据来训练所述生成器和判别器直到所述GAN收敛或超时为止。

所述方法进一步包括训练生成器和判别器将所述第二合成数据视为来自所述真实环境的训练数据。

根据第二方面，提出一种用于基于生成式对抗网络（GAN）的强化学习的预训练设备，其中所述GAN包括生成器和判别器。所述设备包括处理电路，所述处理电路被配置成：从真实环境接收训练数据，所述训练数据包括对应于第一状态-奖励对和第一状态-动作对的数据切片；使用所述训练数据来训练所述生成器和判别器；训练关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系；使通过所述训练数据训练的所述生成器生成第一合成数据；在所述关系网络中处理所述第一合成数据的一部分以生成结果数据切片，第一合成数据的所述部分对应于第二状态-动作对，来自所述关系网络的所述结果数据切片对应于第二状态-奖励对，所述第二状态-动作对具有与所述第二状态-奖励对的预定义关系；将所述第一合成数据的所述第二状态-动作对部分与来自所述关系网络的所述第二状态-奖励对合并以生成第二合成数据，所述第二合成数据维持所述第二状态-动作对和所述第二状态-奖励对之间的所述预定义关系。

所述关系网络还可以是深度神经网络（DNN）。

所述设备可进一步包括被配置成使用于与所述真实环境的交互的策略基于所述第二合成数据而被更新的处理电路。

根据第三方面，提出一种用于基于生成式对抗网络（GAN）的强化学习的预训练设备，其中所述GAN包括生成器和判别器。所述设备包括：用于从真实环境接收训练数据的部件或第一模块，所述训练数据包括对应于第一状态-奖励对和第一状态-动作对的数据切片；用于使用所述训练数据来训练所述生成器和判别器的部件或第二模块；用于训练关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系的部件或第三模块；用于使通过训练数据训练的所述生成器生成第一合成数据的部件或第四模块；用于在所述关系网络中处理所述第一合成数据的一部分以生成结果数据切片的部件或第五模块，第一合成数据的所述部分对应于第二状态-动作对，所述结果数据切片对应于第二状态-奖励对，所述第二状态-动作对具有与所述第二状态-奖励对的预定义关系；用于将所述第一合成数据的所述第二状态-动作对部分与来自所述关系网络的所述第二状态-奖励对合并以生成第二合成数据的部件或第六模块，所述第二合成数据维持所述第二状态-动作对和所述第二状态-奖励对之间的所述预定义关系。

根据第四方面，提出一种基于生成式对抗网络（GAN）的计算机程序强化学习，其中所述GAN包括生成器和判别器。所述计算机程序包括计算机程序代码，所述计算机程序代码当在预训练设备上运行时使所述预训练设备执行上面的方法。

根据第五方面，提出一种计算机程序产品。所述计算机程序产品包括计算机程序以及计算机可读存储部件，所述计算机程序被存储在所述计算机可读存储部件上。

附图说明

当结合附图考虑时，通过参考下面的具体实施方式，将更容易理解对当前实施例及其伴随的优点和特征的更完整理解，在附图中：

图1是根据本公开原理的用于在虚拟化环境中对自学习进行预训练的示例系统的框图；

图2是根据本公开原理的在使用增强GAN（EGAN）结构的系统中执行的一个示例预训练过程的功能图；

图3A是根据本公开原理的在系统中执行的另一示例预训练过程的功能图；

图3B是根据本公开原理的在系统中执行的另一示例预训练过程的功能图；

图4是根据本公开原理的预训练代码的示例预训练过程的流程图；

图5是根据本公开原理的预训练代码的预训练过程的另一实施例；

图6是比较各种代理的曲线图，其中针对奖励的滚动平均值来对调整的累积样本数量进行绘图；

图7是根据本公开原理的比较两个代理的另一曲线图，曾使用GAN来预训练所述两个代理中的一个；

图8A是根据本公开原理的比较两个代理的另一曲线图，曾使用EGAN来预训练所述两个代理中的一个；

图8B是根据本公开原理的比较各种代理的另一曲线图，曾使用EGAN来预训练所述各种代理中的一个；

图8C是根据本公开原理的比较各种代理的另一曲线图，曾使用EGAN来预训练所述各种代理中的一个；以及

图9是根据本公开原理的设备的另一实施例的框图。

具体实施方式

在详细描述示例性实施例之前，注意到，所述实施例主要驻留在与用于虚拟化环境中的自学习代理的预训练系统相关的设备组件和处理步骤的组合中。因此，在适当的情况下，在附图中通过常规符号表示了组件，仅示出与理解实施例有关的那些特定细节，以免通过对具有本文的描述的益处的本领域普通技术人员易于明白的细节而使本公开难以理解。

如本文所使用的，诸如“第一”、“第二”、“顶部”和“底部”、以及诸如此类的关系术语可以仅用于将一个实体或元件与另一实体或元件区分开，而不一定要求或暗示此类实体或元件之间的任何物理或逻辑关系或顺序。本文所使用的术语仅用于描述特定实施例的目的，并不旨在限制本文所描述的概念。如本文所使用的，单数形式“一（a、an）”和“所述”旨在还包括复数形式，除非上下文另有明显指示。将进一步理解的是，当在本文中使用时，术语“包括（comprises、comprising）”、和/或“包含（includes、including）”指定所陈述的特征、整数、步骤、操作、元件、和/或组件的存在，但是不排除一个或多个其它特征、整数、步骤、操作、元件、组件、和/或其群组的存在或添加。

除非另有定义，否则本文中使用的所有术语（包括技术和科学术语）具有与由本公开所属领域的普通技术人员通常理解的含义相同的含义。将进一步理解的是，本文中使用的术语应被解释为具有与其在本说明书的上下文和相关领域中的含义一致的含义，并且将不以理想化或过度正式的意义来解释，除非在本文中确切地那样定义。

在本文所描述的实施例中，连接术语“与……进行通信”和诸如此类可以用于指示电气或数据通信，其例如可以通过物理接触、感应、电磁辐射、发无线电信号通知、发红外信号通知或发光信号通知来实现。本领域普通技术人员将领会的是，多个组件可以进行互操作，并且实现电气和数据通信的修改和变化是可能的。

在本公开的一个或多个实施例中，提供了用于强化学习的预训练系统。预训练系统基于修改的生成式对抗网络（GAN）。一般地，未修改的GAN是对抗过程，其同时训练两个模型：捕获数据分布的生成式模型G（生成器）；以及估计样本来自训练数据而不是生成器的概率的判别式模型D（判别器）。生成器可被认为类似于试图生产虚假货币并在没有检测的情况下使用它的一群伪造者，而判别式模型类似于试图检测伪造货币的警察。GAN中对抗过程的目标是驱动生成器和判别器两者改进其方法，直到伪造品与真的商品不可区分为止，即直到训练数据或真实数据与合成数据或由生成器所生成的数据不可区分为止。换句话说，理想地，判别器学习捕获生成器学习模仿的真实数据的区别特征，并且过程进行迭代直到真实数据和合成数据不可区分为止。然而，在实践中，GAN以有效训练具挑战性而众所周知。生成器和判别器的相对模型容量需要被仔细平衡，以便使生成器有效学习。进一步地，GAN缺乏明确且可计算的收敛准则。例如，GAN依赖于高维数据，其中每个维度具有特定的分布，但是这种高维数据缺乏其自身之间的关系，因而缺乏用于强迫由GAN所生成的数据的关系或收敛准则。

本公开修改了GAN以创建修改或增强的GAN来生成用于对强化学习进行预训练的数据，即合成数据。特别地，修改的GAN基于上面描述的GAN，但是使用状态-动作对关系来增强用于强化学习的数据的准确度，即，创建并维持对之间的预定义关系。而且，一旦网络被训练，修改的GAN有利地能够生成大量的现实数据。因此，在预训练过程中实现修改的GAN有利地为快速自学习系统提供预训练、用于学习代理的准确数据、大量现实数据、以及数据集合的多模态属性的捕获。

现在参考附图，其中相同的附图标记指相同的元件，图1中示出的是根据本公开原理的用于在虚拟化环境中对自学习进行预训练的示例性系统（一般称为系统“10”）的框图。系统10包括使用一个或多个通信协议经由一个或多个通信网络、路径和/或链路与一个或多个环境14进行通信的一个或多个预训练设备12a-12n。在一个或多个实施例中，环境14包括生成一个或多个样本或数据的一个或多个真实环境。

一个或多个设备12a-12n在本文中被称为“设备12”。在一些实施例中，设备12可以是计算机、服务器、具有分布式组件和功能的基于云的计算系统、在计算装置上运行的虚拟化计算环境等。换句话说，设备12不限于单个物理硬件盒。设备12包括用于与环境14和系统10中的其它元件/实体进行通信的通信干扰16。在一个或多个实施例中，通信接口16通过传送器电路和/或接收器电路来替换或包括传送器电路和/或接收器电路。

设备12包括处理电路18。处理电路18包括处理器20和存储器22。除了传统的处理器和存储器外，处理电路18还可以包括用于处理和/或控制的集成电路，例如，一个或多个处理器和/或处理器核和/或FPGA（现场可编程门阵列）和/或ASIC（专用集成电路）。处理器20可以配置成访问存储器22（例如，向其写入和/或从其读取），其可以包括任何种类的易失性和/或非易失性存储器，例如，高速缓存和/或缓冲存储器和/或RAM（随机存取存储器）和/或ROM（只读存储器）和/或光存储器和/或EPROM（可擦除可编程只读存储器）。此类存储器22可以配置成存储由处理器20可执行的代码和/或其它数据，例如环境生成的数据、与通信有关的数据（例如节点的配置和/或地址数据等）。

处理电路18可以配置成控制本文所描述的任何方法和/或过程，和/或使此类方法、信令和/或过程例如由设备12所执行。处理器20对应于用于执行本文所描述的设备12功能的一个或多个处理器20。设备12包括存储器22，其配置成存储数据、编程软件代码和/或本文描述的其它信息。在一个或多个实施例中，存储器22配置成存储预训练代码24。例如，预训练代码24包括指令，所述指令在由处理器20执行时使处理器20执行本文所描述的功能，诸如相对于图4和5所描述的功能。

图2是根据本公开原理的在使用增强GAN（EGAN）29结构的系统10中执行的一个示例预训练过程的功能图。特别地，图2示出包括GAN 28和增强器40的EGAN 29的功能架构。在图2中，“Z”表示输入到生成器中的随机变量。在一个或多个实施例中，Z是多维白噪声项。通过遵循人类的策略或仅遵循用于覆盖更广泛数据空间的随机策略以从环境14收集诸如训练数据的数据。GAN（即修改的GAN或EGAN）生成不能被判别器区分的现实数据集合。GAN可以用于一般数据集合。在一个或多个实施例中，从强化学习环境收集数据。数据包括状态、动作、奖励。数据的属性提供各种优点，因为针对每个环境，状态和{奖励，动作}对之间存在固定的关系。生成的数据受此关系所约束。在一个或多个实施例中，增加了深度神经网络（DNN）以学习此关系并强迫由GAN所生成的数据遵循此关系。换句话说，一些实施例将在没有增加的DNN的情况下实现GAN，而在其它实施例中，GAN和DNN被实现（DNN+GAN）。如本文所描述那样来训练的GAN是增强或修改的GAN。

相对于图2，训练数据D₁（s，a，s’，r）被提供到GAN 28和增强器40以用于训练。在一个或多个实施例中，训练数据D₁（s，a，s’，r）是真实数据。在一个或多个实施例中，增强器包括诸如DNN 34（未示出）的关系网络，其用于学习每个环境的状态和{奖励，动作}对之间的固定关系以及强制由EGAN 29所生成的数据遵循此关系。生成器30生成D₂（s，a，s’，r），并为增强器40提供数据切片S₁（s，a）。在一个或多个实施例中，数据D₂（s，a，s’，r）的批是第一合成数据。增强器40生成数据切片S₂（s’，r）并将其反馈到生成器30。生成器30合并S₁（s，a）和S₂（s’，r）以形成数据D₃（s，a，s’，r）的批，即第二合成数据。然后，生成器30生成数据D₄（s，a，s’，r）的批，并经由重放缓冲器38向RL代理36传递此数据，以用于使用数据D₄（s，a，s’，r）（即预训练数据）的批来修改策略和/或值函数。在一个或多个实施例中，使用数据D₃（s，a，s’，r）的批来更新网络的值或策略（S127）。在一个或多个实施例中，第二合成数据D₃（s，a，s’，r）可以被视为来自真实环境的训练数据。在一个或多个实施例中，系统被配置成通过多个随机权重值来初始化GAN，并通过另外的多个随机权重值来初始化关系网络。

下面在“算法1”中提供用于图2中示出的过程的算法。

换句话说，本公开有利地通过合成数据而不是大量真实数据来预训练RL代理36。进一步地，用于预训练的合成数据/样本是比由修改的GAN或EGAN所产生的样本更高质量的样本（部分是由于维持的S₁（s，a）和S₂（s’，r）之间的固定/预定义关系）。

图3A是根据本公开原理的在系统10中执行的另一示例预训练过程的功能图。特别地，图3A示出了系统10功能架构。系统10通过遵循人类的策略或仅遵循用于覆盖更广泛数据空间的随机策略以从环境收集数据。GAN（即修改的GAN或EGAN）生成不能被判别器区分的现实数据集合。GAN可以用于一般数据集合。在一个或多个实施例中，从强化学习环境收集数据。数据包括状态、动作、奖励。数据的属性提供各种优点，因为针对每个环境，状态和{奖励，动作}对之间存在固定的关系。生成的数据受此关系所约束。在一个或多个实施例中，增加了深度神经网络（DNN）以学习此关系并强迫由GAN所生成的数据遵循此关系。换句话说，一些实施例将在没有增加的DNN的情况下实现GAN，而在其它实施例中，GAN和DNN被实现（DNN+GAN）。如本文所描述那样来训练的GAN是增强或修改的GAN。

系统10包括GAN 28，GAN 28包括生成器30和判别器32。系统10包括DNN 34，即，关系网络。EGAN 29包括DNN 34和GAN 28。从环境14接收训练数据D₁（s，a，s’，r）的批（框S100）。例如，在一个或多个实施例中，从真实环境14中的真实经验中取得四件套（quadruplet）数据D₁（s，a，s’，r）的批。在一个或多个实施例中，输入的批（即，训练数据）被分段成小批。在一个或多个实施例中，D₁（s，a，s’，r）是来自环境14的随机样本。通过数据D₁（s，a，s’，r）的小批对DNN 34执行监督学习（框S102）。

来自环境14的训练数据D₁（s，a，s’，r）被输入到GAN 28中以用于训练（框S104）。例如，在一个或多个实施例中，GAN 28的训练包括通过数据D₁（s，a，s’，r）的小批来训练生成器30和判别器32。经由生成器30来生成数据D₂（s，a，s’，r）（即，合成数据）的批，其中曾通过D₁（s，a，s’，r）来训练生成器30（框S106）。批数据D₂的数据切片S₁（s，a）被输入到DNN 34中（框S108）。DNN 34输出数据切片S₂（s’，r）的批（框S110）。

S₁（s，a）和S₂（s’，r）被合并以形成D₃（s，a，s’，r）（即，合成数据）的批（框S112）。数据D₃（s，a，s’，r）的批被输入到GAN 28中作为用于训练会话的真实数据（框S114）。在一个或多个实施例中，重复框S106至S114中的一个或多个，直到GAN 28收敛和/或超时为止。在一个或多个实施例中，框S106至S114是用于提供用于训练GAN 28的合成数据（即，非真实数据）的增强过程的一部分。在一个或多个实施例中，如图3B中示出的，数据D₃（s，a，s’，r）的批用于更新网络的值或策略（S115）。

在其它实施例中，GAN 28的生成器30（曾通过数据D₃（s，a，s’，r）所训练）然后生成数据D₄（s，a，s’，r）（即，合成数据）的批（框S116）。使用数据D₄（s，a，s’，r）的批来更新代理36的一个或多个策略和/或值函数（框S118）。在一个或多个实施例中，代理36是强化学习（RL）代理。在一个实施例中，RL代理36使用预训练数据来实现和/或修改策略和/或值函数。在一个或多个实施例中，第二合成数据D₃（s，a，s’，r）可被视为来自真实环境的训练数据。在一个或多个实施例中，系统被配置成通过多个随机权重值来初始化GAN，并通过另外的多个随机权重值来初始化关系网络。

换句话说，本公开有利地通过合成数据而不是大量真实数据来预训练RL代理36。进一步地，用于预训练的合成数据/样本是比由修改的GAN所产生的样本更高质量的样本（部分由于维持的S₁（s，a）和S₂（s’，r）之间的固定/预定义关系）。

下面在“算法2”中提供了用于图3A中示出的过程的算法。

算法2：通过DNN+GAN的基于模型的强化学习

/*初始化*/

通过随机权重来初始化深度神经网络DNN

通过随机权重来初始化生成式对抗网GAN

/*数据输入*/

从真实经验取得四件套D1（s，a，s’，r）的批

如果需要的话，将输入的批分段成小匹配

/*DNN训练*/

通过D1（s，a，s’，r）的小批对DNN执行监督学习

/*GAN训练*/

遵循生成式对抗网的训练（Goodfellow等人，2014）以通过D1（s，a，s’，r）的小批来训练生成器G和判别器D

/*DNN+GAN循环*/

重复

经由生成器G生成D2（s，a，s’，r）的批

将批D2的片S1（s，a）作为输入放到DNN中

从DNN得到S2（s’，r）的批作为输出

合并S1（s，a）和S2（s’，r）以形成D3（s，a，s’，r）的批

将D3（s，a，s’，r）作为真实数据馈送到GAN中以用于训练会话

直到GAN收敛或超时为止

/*数据生成*/

GAN的生成器部分生成数据D4（s，a，s’，r）的批

所述批被用于更新值网络或策略

当来自真实环境的更多样本/数据变得可用时，可以更新预训练过程。

图4是根据本公开原理的预训练代码24的示例预训练过程的流程图。特别地，设备12被配置用于基于GAN 28的强化学习，GAN 28包括生成器30和判别器32。处理电路18被配置成从真实环境接收训练数据（框S118）。例如，在一个或多个实施例中，处理电路18从真实环境接收一个或多个样本或训练数据。在一个或多个实施例中，训练数据包括状态（s）、动作（a）、为选择动作（a）而转变到的状态（s’）、和对于选择动作（a）的奖励（r），使得训练数据被写为D（s，a，s’，r），例如D₁（s，a，s’，r）。在一个或多个实施例中，训练数据包括对应于第一状态-奖励对和第一状态-动作对的数据切片。

处理电路18被配置成使用训练数据来训练生成器30和判别器32（框S120）。在一个或多个实施例中，通过训练数据（例如D₁（s，a，s’，r））的小批或部分来训练生成器30和判别器32。在一个或多个实施例中，“小批”和“批”是指数据的一个或多个样本或图像，其中批包括多个小批。处理电路18被配置成训练关系网络以在强化学习上下文中提取第一状态-动作对与第一状态-奖励对的潜在关系（框S121）。处理电路18被配置成使通过训练数据所训练的生成器30生成第一合成数据（框S122）。在一个或多个实施例中，通过数据D₁（s，a，s’，r）的小批所训练的生成器30生成数据D₂（s，a，s’，r）的批。

处理电路18被配置成在关系网络中处理第一合成数据（即D2）的一部分，以生成结果数据切片（框S124）。在一个或多个实施例中，第一合成数据的所述部分对应于第二状态-动作对（s，a），结果切片对应于第二状态-奖励对（s’，r），其中第二状态-动作对（s，a）具有与第二状态-奖励对（s’，r）的预定义关系。在一个或多个实施例中，关系网络是深度神经网络34（DNN 34），使得批D₂的切片S1（s，a）被输入到DNN 34中以生成输出。在一个或多个实施例中，输出是来自DNN 34的S2（s’，r）的批。

处理电路18被配置成将第一合成数据的第二状态-动作对部分与来自关系网络的第二状态-奖励对合并以生成第二合成数据（即D3）（框S126）。例如，在一个或多个实施例中，切片S₁（s，a）与S₂（s’，r）被合并以形成D₃（s，a，s’，r）的批。在一个或多个实施例中，第二合成数据维持第二状态-动作对（s，a）和第二状态-奖励对（s’，r）之间的预定义关系。在一个或多个实施例中，数据D₃（s，a，s’，r）的批被用来更新网络的值或策略（S127）。在另一实施例中，处理电路18被配置成使用第一合成数据和第二合成数据之间的差异来训练生成器30（框S128）。例如，在一个或多个实施例中，D₃（s，a，s’，r）作为来自环境14的真实数据而被输入到GAN 28中以用于训练会话，直到GAN 28收敛或超时为止。在一个或多个实施例中，曾使用D₃（s，a，s’，r）所训练的GAN 28的生成器30部分生成数据D₄（s，a，s’，r）的批（S129）。在一个或多个实施例中，数据D₄（s，a，s’，r）的批被用来更新网络的值或策略（S131）。在一个或多个实施例中，系统被配置成通过多个随机权重值来初始化GAN，并通过另外的多个随机权重值来初始化关系网络。

图5是根据本公开原理的预训练代码24的预训练过程的另一实施例。在一些实施例中，处理电路18被配置成通过人类专家（即在人类监督下）或经由随机策略来运行或执行RL代理36（框S130）。处理电路18被配置成从外部环境14收集样本并记录动作，如本文所描述的（框S132）。处理电路18被配置成训练增强的GAN 28，如本文所描述的（框S134）。处理电路18被配置成生成用于经验重放的合成数据，如本文所描述的（框S136）。处理电路18被配置成预训练RL代理36，如本文所描述的（框S138）。处理电路18被配置成在真实环境14中训练RL代理36（框S140）。

图6是比较各种代理的曲线图，其中针对奖励的滚动平均值来对调整的累积样本数量进行绘图。如本文所使用的，“PG”是策略梯度，“No-init”代表没有预训练，并且“Pre-init”代表没有预训练。“PG No-init”是没有预训练或GAN的基准性能，“PG Pre-init GAN”是具有预训练和GAN的性能，“PG Pre-init WGAN”是具有预训练和WassersteinGAN的性能，“PG Pre-init DNN+GAN”是使用增强的GAN的本公开的一个或多个实施例的性能，以及“PGPre-init DNN+WGAN”是具有预训练和DNN+WassersteinGAN的性能，“PG Pre-init DNN+WGAN”当与其它代理相比时不提供良好的结果。

更好表现的代理将是通过较少调整的累积样本数量而提供较高滚动平均值奖励的代理。如图6中示出的，给定相同数量的调整的累积样本数量，使用所描述方法来训练的RL代理36（其中，即“PG Pre-init DNN+GAN”）在与其它代理比较时提供最高的滚动平均值奖励。WGAN是指与本文所描述的GAN 28不同类型或配置的GAN。

图7是比较两个RL代理的另一曲线图，所述两个RL代理中的一个是曾使用本文所描述的GAN 28来预训练的RL代理36，即“PG Pre-init GAN”。如图7中示出的，本文描述的布置训练RL代理36，使得RL代理36相比其它布置能够在若干样本之后提供更好的性能。图8A是比较两个RL代理的另一曲线图，所述两个RL代理中的一个是曾使用本文所描述的GAN 28来预训练的RL代理36，即“PG Pre-init DNN+GAN”。特别地，本文所描述的方法曾为了极平衡而通过控制系统来测试。图8A中的结果示出通过本文所描述的预训练系统10的明确的样本效率。即使考虑用于预训练的样本，本文描述的具有预训练的系统（即系统10）使用大约少30％的样本来达到与其它系统相同的奖励级别。如图8A中示出的，本文相对于系统10所描述的布置训练RL代理36，使得RL代理36在若干样本之后能够提供更好的性能，并且甚至提供比图7中示出的“PG Pre-init GAN”更好的性能。

图8B是用于比较基于Q学习算法的EGAN性能的简图，所述Q学习算法与图8中使用的策略梯度算法不同。“EGAN预训练”在样本效率方面胜过“GAN预训练”、“预训练”和“无预训练”，并且在最终性能方面击败“Dyna-Q”，“Dyna-Q”是基于模型的RL算法。

图8C是关于不同环境“MountainCar”的实验结果，并且“EGAN预训练”方法也实现了最好的最终性能。

图9是根据本公开原理的设备12的另一实施例的框图。设备12包括被配置成执行如上面相对于预训练代码24所描述的预训练过程的各种模块/部件，所述预训练代码24如相对于图4-5所描述的。例如，在一个或多个实施例中，设备12包括被配置成从真实环境接收训练数据的接收模块42。在一个实施例中，训练数据包括对应于第一状态-奖励对和第一状态-动作对的数据切片。进一步地，设备12包括被配置成使用训练数据来训练生成器和判别器的训练数据训练模块44。训练数据训练模块44还被配置成训练关系网络以在强化学习上下文中提取第一状态-动作对与第一状态-奖励对的潜在关系。设备12包括被配置成使通过训练数据所训练的生成器生成第一合成数据的生成模块46。设备12包括被配置成在关系网络中处理第一合成数据的一部分以生成结果数据切片的处理模块48。第一合成数据的所述部分对应于第二状态-动作对。来自关系网络的结果数据切片对应于第二状态-奖励对。第二状态-动作对具有与第二状态-奖励对的预定义关系。设备12包括合并模块50，所述合并模块50被配置成将第一合成数据的第二状态-动作对部分与来自关系网络的第二状态-奖励对合并以生成第二合成数据。第二合成数据维持第二状态-动作对和第二状态-奖励对之间的预定义关系。设备12包括被配置成使用第一合成数据和第二合成数据之间的差异来训练生成器的合成数据训练模块52。

如由本领域技术人员将领会的，本文所描述的概念可被体现为方法、数据处理系统、和/或计算机程序产品。相应地，本文所描述的概念可以采取完全硬件实施例、完全软件实施例或组合软件和硬件方面的实施例（它们在本文中一般都被称为“电路”或“模块”）的形式。此外，本公开可以采取有形计算机可用存储介质上的计算机程序产品的形式，其具有被体现在介质中的、可由计算机所执行的计算机程序代码。可以利用任何适合的有形计算机可读介质，包括硬盘、CD-ROM、电子存储装置、光存储装置、或磁存储装置。

本文参考方法、系统和计算机程序产品的流程图图示和/或框图描述了一些实施例。将理解的是，流程图图示和/或框图中的每个框以及流程图图示和/或框图中的框的组合可以通过计算机程序指令来实现。这些计算机程序指令可被提供给通用计算机（从而来创建专用计算机）、专用计算机、或其它可编程数据处理设备的处理器以生产机器，使得经由计算机或其它可编程数据处理设备的处理器所执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的部件。

这些计算机程序指令还可被存储在计算机可读存储器或存储介质中，所述计算机可读存储器或存储介质可以引导计算机或其它可编程数据处理设备以特别方式起作用，使得存储在计算机可读存储器中的指令生产包括实现流程图和/或框图的一个或多个框中指定的功能/动作的指令部件的制品。

计算机程序指令也可被加载到计算机或其它可编程数据处理设备上，以使一系列操作步骤在计算机或其它可编程设备上被执行，从而产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的步骤。

要理解的是，框中注释的功能/动作可以不采用操作图示中注释的顺序而发生。例如，连续示出的两个框实际上可以被大体上同时执行，或者所述框有时可以采用相反的顺序来执行（取决于所涉及的功能性/动作）。尽管一些简图包括通信路径上的箭头（用于示出通信的主要方向），但要理解的是，通信可以在与所描绘的箭头相反的方向上发生。

用于实行本文描述的概念的操作的计算机程序代码可以采用面向对象的编程语言（诸如Java®或C ++）来编写。然而，用于实行本公开的操作的计算机程序代码也可以采用常规的过程编程语言（诸如“C”编程语言）来编写。程序代码可以完全在用户的计算机上、部分在用户的计算机上（作为独立的软件包）、部分在用户的计算机上且部分在远程计算机上、或完全在远程计算机上执行。在后一情形中，远程计算机可以通过局域网（LAN）或广域网（WAN）而被连接到用户的计算机，或者可以对外部计算机进行连接（例如，通过因特网使用因特网服务提供商）。

结合上面的描述和附图，本文已公开了许多不同的实施例。将理解的是，字面上描述和说明这些实施例中的每一个组合和子组合将是过度重复和混淆的。因此，所有实施例可以采用任何方式和/或组合来组合，并且本说明书（包括附图）应当被解释为构成本文描述的实施例以及制造和使用它们的方式和过程的所有组合和子组合的完整书面描述，并应当支持针对任何此类组合或子组合的权利要求。

本领域技术人员将领会的是，本文描述的实施例不限于本文上面已特别示出和描述的内容。此外，除非上面提到过相反内容，否则应注意到，所有附图未按比例绘制。根据上面的教导，各种修改和变化是可能的。

下面是进一步说明所公开的主题的各种方面的某些枚举的实施例。

实施例1. 一种用于基于生成式对抗网络（GAN）的强化学习的预训练设备，所述GAN包括生成器和判别器，所述设备包括：

处理电路，所述处理电路被配置成：

从真实环境接收训练数据，所述训练数据包括对应于第一状态-奖励对和第一状态-动作对的数据切片；

使用所述训练数据来训练所述生成器和判别器；

训练关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系；

使通过训练数据训练的所述生成器生成第一合成数据；

在所述关系网络中处理所述第一合成数据的一部分以生成结果数据切片，第一合成数据的所述部分对应于第二状态-动作对，来自所述关系网络的所述结果数据切片对应于第二状态-奖励对，所述第二状态-动作对具有与所述第二状态-奖励对的预定义关系；

将所述第一合成数据的所述第二状态-动作对部分与来自所述关系网络的所述第二状态-奖励对合并以生成第二合成数据，所述第二合成数据维持所述第二状态-动作对和所述第二状态-奖励对之间的所述预定义关系；以及

使用所述第一合成数据与所述第二合成数据之间的差异来训练所述生成器。

实施例2. 如实施例1所述的设备，其中所述关系网络是深度神经网络（DNN）。

实施例3. 如实施例1所述的设备，其中所述处理电路进一步被配置成使使用所述第一合成数据和所述第二合成数据所训练的所述生成器生成第三合成数据。

实施例4. 如实施例3所述的设备，其中所述处理电路进一步被配置成使用于与所述真实环境的交互的策略基于所述第三合成数据而被更新。

实施例5. 如实施例1所述的设备，其中所述处理电路被配置成：

通过多个随机权重值来初始化所述GAN；以及

通过另外的多个随机权重值来初始化所述关系网络。

实施例6. 如实施例1所述的设备，其中使用所述第二合成数据来训练所述生成器和判别器直到所述GAN收敛和超时之一为止。

实施例7. 如实施例1所述的设备，其中所述生成器和判别器的所述训练包括将所述第二合成数据视为来自所述真实环境的训练数据。

实施例8. 一种用于预训练设备的方法，所述预训练设备用于基于生成式对抗网络（GAN）的强化学习，所述GAN包括生成器和判别器，所述方法包括：

使用所述训练数据来训练所述生成器和判别器；

促使通过训练数据训练的所述生成器生成第一合成数据；

在所述关系网络中处理所述第一合成数据的一部分以生成结果数据切片，第一合成数据的所述部分对应于第二状态-动作对，所述结果数据切片对应于第二状态-奖励对，所述第二状态-动作对具有与所述第二状态-奖励对的预定义关系；

实施例9. 如实施例8所述的方法，其中所述关系网络是深度神经网络（DNN）。

实施例10. 如实施例8所述的方法，其中处理电路进一步被配置成使使用所述第一合成数据和所述第二合成数据所训练的所述生成器生成第三合成数据。

实施例11. 如实施例14所述的方法，进一步包括使用于与所述真实环境的交互的策略基于所述第三合成数据而被更新。

实施例12. 如实施例8所述的方法，进一步包括：

通过多个随机权重值来初始化所述GAN；以及

通过另外的多个随机权重值来初始化所述关系网络。

实施例13. 如实施例8所述的方法，其中使用所述第二合成数据来训练所述生成器和判别器直到所述GAN收敛和超时之一为止。

实施例14. 如实施例8所述的方法，其中所述生成器和判别器的所述训练包括将所述第二合成数据视为来自所述真实环境的训练数据。

Claims

1.一种用于基于生成式对抗网络（GAN）（28）的强化学习的预训练设备（12），所述GAN（28）包括生成器（30）和判别器（32），所述设备（12）包括：

处理电路（18），所述处理电路（18）被配置成：

从真实环境（14）接收训练数据（D₁（s，a，s’，r）），所述训练数据（D₁（s，a，s’，r））包括对应于第一状态-奖励对和第一状态-动作对的数据切片；

使用所述训练数据D₁（s，a，s’，r）来训练所述生成器（30）和判别器（32）；

使通过所述训练数据（D₁（s，a，s’，r））训练的所述生成器（30）生成第一合成数据（D₂（s，a，s’，r））；

在所述关系网络中处理所述第一合成数据（D₂（s，a，s’，r））的一部分以生成结果数据切片，第一合成（D₂（s，a，s’，r））数据的所述部分对应于第二状态-动作对（（s，a）），来自所述关系网络的所述结果数据切片对应于第二状态-奖励对（（s’，r）），所述第二状态-动作对（（s，a））具有与所述第二状态-奖励对（（s’，r））的预定义关系；

将所述第一合成数据（D₂（s，a，s’，r））的所述第二状态-动作对（（s，a））部分与来自所述关系网络的所述第二状态-奖励对（（s’，r））合并以生成第二合成数据（D₃（s，a，s’，r）），所述第二合成数据（D₃（s，a，s’，r））维持所述第二状态-动作对（（s，a））和所述第二状态-奖励对（（s’，r））之间的所述预定义关系。

2.如权利要求1所述的设备（12），其中所述关系网络是深度神经网络（DNN）（34）。

3.如权利要求1所述的设备（12），其中所述处理电路（18）进一步被配置成使用于与所述真实环境（14）的交互的策略基于所述第二合成数据（D₃（s，a，s’，r））而被更新。

4.如权利要求1所述的设备（12），其中所述处理电路（18）进一步被配置成使用所述第一合成数据（D₂（s，a，s’，r））与所述第二合成数据（D₃（s，a，s’，r））之间的差异来训练所述生成器（30）。

5.如权利要求1所述的设备（12），其中所述处理电路（18）进一步被配置成使使用所述第一合成数据（D₂（s，a，s’，r））和所述第二合成数据（D₃（s，a，s’，r））所训练的所述生成器（30）生成第三合成数据（D₄（s，a，s’，r））。

6.如权利要求5所述的设备（12），其中所述处理电路（18）进一步被配置成使用于与所述真实环境（14）的交互的策略基于所述第三合成数据（D₄（s，a，s’，r））而被更新。

7.如权利要求1所述的设备（12），其中所述处理电路（18）被配置成：

通过多个随机权重值来初始化所述GAN（28）；以及

通过另外的多个随机权重值来初始化所述关系网络。

8.如权利要求1所述的设备（12），其中使用所述第二合成数据（D₃（s，a，s’，r））来训练所述生成器（30）和判别器（32）直到所述GAN（28）收敛和超时之一为止。

9.如权利要求1所述的设备（12），其中所述生成器（30）和判别器（32）的所述训练包括将所述第二合成数据（D₃（s，a，s’，r））视为来自所述真实环境的训练数据。

10.一种用于预训练设备（12）的方法（1），所述预训练设备（12）用于基于生成式对抗网络（GAN）（28）的强化学习，所述GAN（28）包括生成器（30）和判别器（32），所述方法（1）包括：

从真实环境（14）接收（S118）训练数据（D₁（s，a，s’，r）），所述训练数据（D₁（s，a，s’，r））包括对应于第一状态-奖励对和第一状态-动作对的数据切片；

使用所述训练数据（D₁（s，a，s’，r））来训练（S120）所述生成器（30）和判别器（32）；

训练（S121）关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系；

促使（S122）通过训练数据（D₁（s，a，s’，r））训练的所述生成器（30）生成第一合成数据（D₂（s，a，s’，r））；

在所述关系网络中处理（S124）所述第一合成数据（D₂（s，a，s’，r））的一部分以生成结果数据切片，第一合成数据（D₂（s，a，s’，r））的所述部分对应于第二状态-动作对（（s，a）），所述结果数据切片对应于第二状态-奖励对（（s’，r）），所述第二状态-动作对（（s，a））具有与所述第二状态-奖励对（（s’，r））的预定义关系；

将所述第一合成数据（D₂（s，a，s’，r））的所述第二状态-动作对（（s，a））部分与来自所述关系网络的所述第二状态-奖励对（（s’，r））合并（S126）以生成第二合成数据（D₃（s，a，s’，r）），所述第二合成数据（D₃（s，a，s’，r））维持所述第二状态-动作对（（s，a））和所述第二状态-奖励对（（s’，r））之间的所述预定义关系。

11.如权利要求10所述的方法（1），其中所述关系网络是深度神经网络（DNN）。

12.如权利要求10所述的方法（1），进一步包括使（S127）用于与所述真实环境的交互的策略基于所述第二合成数据（D₃（s，a，s’，r））而被更新。

13.如权利要求10所述的方法（1），进一步包括使用所述第一合成数据（D₂（s，a，s’，r））与所述第二合成数据（D₃（s，a，s’，r））之间的差异来训练（S128）所述生成器（30）。

14.如权利要求10所述的方法（1），进一步包括使（S129）使用所述第一合成数据（D₂（s，a，s’，r））和所述第二合成数据（D₃（s，a，s’，r））所训练的所述生成器（30）生成第三合成数据（D₄（s，a，s’，r））。

15.如权利要求14所述的方法（1），进一步包括使（S131）用于与所述真实环境的交互的策略基于所述第三合成数据（D₄（s，a，s’，r））而被更新。

16.如权利要求10所述的方法（1），进一步包括：

通过多个随机权重值来初始化所述GAN（28）；以及

通过另外的多个随机权重值来初始化所述关系网络。

17.如权利要求10所述的方法（1），其中使用所述第二合成数据（D₃（s，a，s’，r））来训练所述生成器（30）和判别器（32）直到所述GAN（28）收敛和超时之一为止。

18.如权利要求10所述的方法（1），其中所述生成器（30）和判别器（32）的所述训练包括将所述第二合成数据（D₃（s，a，s’，r））视为来自所述真实环境（14）的训练数据。

19.一种用于基于生成式对抗网络（GAN）（28）的强化学习的预训练设备（12），所述GAN（28）包括生成器（30）和判别器（32），所述预训练设备（12）包括：

用于从真实环境（14）接收训练数据（D₁（s，a，s’，r））的部件，所述训练数据（D₁（s，a，s’，r））包括对应于第一状态-奖励对和第一状态-动作对的数据切片；

用于使用所述训练数据（D₁（s，a，s’，r））来训练所述生成器（30）和判别器（32）的部件；

用于训练关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系的部件；

用于使通过训练数据（D₁（s，a，s’，r））训练的所述生成器（30）生成第一合成数据（D₂（s，a，s’，r））的部件；

用于在所述关系网络中处理所述第一合成数据（D₂（s，a，s’，r））的一部分以生成结果数据切片的部件，第一合成数据（D₂（s，a，s’，r））的所述部分对应于第二状态-动作对（（s，a）），所述结果数据切片对应于第二状态-奖励对（（s’，r）），所述第二状态-动作对（（s，a））具有与所述第二状态-奖励对（（s’，r））的预定义关系；

用于将所述第一合成数据（D₂（s，a，s’，r））的所述第二状态-动作对（（s，a））部分与来自所述关系网络的所述第二状态-奖励对（（s’，r））合并以生成第二合成数据（D₃（s，a，s’，r））的部件，所述第二合成数据（D₃（s，a，s’，r））维持所述第二状态-动作对（（s，a））和所述第二状态-奖励对（（s’，r））之间的所述预定义关系。

20.一种用于基于生成式对抗网络（GAN）（28）的强化学习的预训练设备（12），所述GAN（28）包括生成器（30）和判别器（32），所述预训练设备（12）包括：

第一模块（42），所述第一模块（42）用于从真实环境接收训练数据（D₁（s，a，s’，r）），所述训练数据（D₁（s，a，s’，r））包括对应于第一状态-奖励对和第一状态-动作对的数据切片；

第二模块（44），所述第二模块（44）用于使用所述训练数据（D₁（s，a，s’，r））来训练所述生成器（30）和判别器（32），以及训练关系网络以在强化学习上下文中提取所述第一状态-动作对与所述第一状态-奖励对的潜在关系；

第四模块（46），所述第四模块（46）用于使通过训练数据（D₁（s，a，s’，r））训练的所述生成器（30）生成第一合成数据（D₂（s，a，s’，r））；

第五模块（48），所述第五模块（48）用于在所述关系网络中处理所述第一合成数据（D₂（s，a，s’，r））的一部分以生成结果数据切片，第一合成数据（D₂（s，a，s’，r））的所述部分对应于第二状态-动作对（（s，a）），所述结果数据切片对应于第二状态-奖励对（（s’，r）），所述第二状态-动作对（（s，a））具有与所述第二状态-奖励对（（s’，r））的预定义关系；

第六模块（50），所述第六模块（50）用于将所述第一合成数据（D₂（s，a，s’，r））的所述第二状态-动作对（（s，a））部分与来自所述关系网络的所述第二状态-奖励对（（s’，r））合并以生成第二合成数据（D₃（s，a，s’，r）），所述第二合成数据（D₃（s，a，s’，r））维持所述第二状态-动作对（（s，a））和所述第二状态-奖励对（（s’，r））之间的所述预定义关系。

21.一种用于基于生成式对抗网络（GAN）（28）的强化学习的计算机程序，所述GAN（28）包括生成器（30）和判别器（32），所述计算机程序包括计算机程序代码，所述计算机程序代码当在预训练设备（12）上运行时使所述预训练设备（12）执行如权利要求10-18中任一项所述的方法（1）。

22.一种计算机程序产品，包括如权利要求10-18中任一项所述的计算机程序以及计算机可读存储部件，所述计算机程序被存储在所述计算机可读存储部件上。