CN109155005A - 使用伪计数的增强学习 - Google Patents

使用伪计数的增强学习 Download PDF

Info

Publication number
CN109155005A
CN109155005A CN201780031296.5A CN201780031296A CN109155005A CN 109155005 A CN109155005 A CN 109155005A CN 201780031296 A CN201780031296 A CN 201780031296A CN 109155005 A CN109155005 A CN 109155005A
Authority
CN
China
Prior art keywords
observed value
return
movement
value
agency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780031296.5A
Other languages
English (en)
Inventor
M.金德伦-贝勒马尔
R.穆诺斯
S.斯里拉姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yin Hui Technology Co Ltd
Google LLC
Original Assignee
Yin Hui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yin Hui Technology Co Ltd filed Critical Yin Hui Technology Co Ltd
Publication of CN109155005A publication Critical patent/CN109155005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供用于训练用来选择与环境交互的代理要执行的动作的神经网络的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。这些方法的一种包括获得数据,该数据标识(i)表征该环境的第一状态的第一观察值,(ii)响应于该第一观察值由该代理执行的动作,以及(iii)由于该代理响应于该第一观察值执行该动作而接收的实际回报;确定该第一观察值的伪计数;根据该第一观察值的伪计数确定探索回报红利,该探索回报红利激励该代理探索环境;根据该实际回报和探索回报红利产生组合回报;并且利用该组合回报来调整神经网络的参数的当前值。

Description

使用伪计数的增强学习
相关申请的交叉引用
本申请是非临时性的并且要求于2016年5月20日提交的美国临时专利申请No.62/339,778的优先权,通过引用以其全部内容结合在此。
背景技术
本说明书涉及增强学习。
在增强学习系统中,代理是通过执行动作与环境进行交互的,这些动作是增强学习系统响应于接收到表征环境的当前状态的观察值而选择的。
一些增强学习系统响应于接收到给定的观察值根据神经网络的输出来选择代理将要执行的动作。
神经网络是机器学习模型,对于接收的输入,这些模型使用非线性单元的一个或多个层来预测输出。一些神经网络是除输出层以外还包括一个或多个隐藏层的深度神经网络。在这种网络中,每个隐藏层的输出被用作下一个层(即,下一个隐藏层或输出层)的输入。该网络的每个层根据各自参数集的当前值从接收的输入产生输出。
发明内容
本说明书描述在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统响应于接收的观察值能够如何调整用来选择与环境交互的代理所执行的动作的神经网络的参数。
根据第一方面,提供一种训练神经网络的方法,该神经网络用于选择与环境交互的代理所执行的动作。该方法包获得数据,这些数据标识(i)表征该环境的第一状态的第一观察值,(ii)响应于该第一观察值由该代理执行的动作,以及(iii)由于该代理响应于该第一观察值执行该动作而接收的实际回报(reward)。该方法进一步包括确定该第一观察值的伪计数,根据第一观察值的伪计数确定激励该代理探索环境的探索回报红利(rewardbonus),根据该实际回报和探索回报红利产生组合回报,并且利用组合回报来调整神经网络的参数的当前值。
在一种实施方式中,该伪计数是响应于该第一观察值而采取动作的效果的确定性的估计度量。
在一种实施方式中,调整该参数的当前值包括在执行增强学习技术的迭代中使用该组合回报替代实际回报。
在一种实施方式中,该增强学习技术是具有混合蒙特卡洛返回(a mixed inMonte Carlo return)的双DQN技术。
在一种实施方式中,该增强学习技术是演员-评判家(actor-critic)技术。
在一种实施方式中,产生该组合回报包括求该实际回报和探索回报红利的总和。
在一种实施方式中,该探索回报红利RB满足:
其中x是第一观察值,是第一观察值的伪计数,a和b是常数,而β是参数扫描所选择的参数。
在一种实施方式中,该第一观察值的伪计数的形式为:
其中ρn(x)是该第一观察值的顺序(sequential)密度模型的值,而ρ′n(x)是该第一观察值的重新编码概率。
在一种实施方式中,该重新编码概率是在观察到该第一观察值的新出现之后的顺序密度模型的值。
在一种实施方式中,该顺序密度模型是像素级密度模型。
根据第二方面,提供一种系统,该系统包括一个或多个计算机和存储指令的一个或多个存储装置,在由该一个或多个计算机执行所述指令时,该指令可操作以使得该一个或多个计算机执行根据第一方面的方法的操作。
根据第三方面,提供一种计算机存储介质,编码有指令,当由一个或多个计算机执行所述指令时,该指令使得该一个或多个计算机执行根据该第一方面的方法的操作。
在本说明书中描述的主题可以在特定的实施方式中实施,从而实现以下优点的一个或多个。该增强学习系统可以在动作空间中有效地选择由代理所要执行的动作从而完成任务,即,通过利用被使用伪计数方法训练的神经网络。该动作空间可以是代理可与之交互的真实世界环境。具体来说,该系统组合红利回报(与从顺序密度模型导出的伪计数成反比)和实际回报(由代理执行动作而产生)以产生组合回报。然后该系统使用组合回报来训练神经网络以便选择由代理要执行的动作。由于以这种方式进行训练,神经网络可以激励代理更为彻底地探索环境(例如,鼓励代理探索尚未经常观察的观察值),从而在需要更少数量的训练迭代的同时改善探索结果。通过利用伪计数训练神经网络,该系统可以减少为代理选择动作以探索环境所需的计算时间和资源。
该方法的优点是诸如机器人或自动驾驶或半自动驾驶车辆这样的代理可以改善其与真实世界环境的交互。它可以通过环境的观查来实现例如特定任务的完成或导航的改善。
本说明书的主题的一个或多个实施例的细节在以下附图和描述中给出。本主题的其他特征、方面和优点将从描述、附图和权利要求书中变得明显。
附图说明
图1展示了一种示例增强学习系统。
图2是训练用于选择与环境交互的代理所执行的动作的神经网络的示例过程的流程图。
图3是用于产生组合回报的示例过程的流程图。
不同附图中的类似参考号和命名表示类似的元素。
具体实施方式
本说明书总体上描述了一种通过利用神经网络选择与环境交互的增强学习代理要执行的动作的增强学习系统。为了与环境进行交互,所述代理接收表征环境的当前状态的数据,并响应于接收的数据来执行动作空间(即离散动作空间或连续动作空间)中的动作。表征环境状态的数据在本说明书中将称之为观察值。
在一些实施方式中,环境可以是现实世界环境,并且代理是与该现实世界环境交互的机械代理。例如,代理可以是与环境交互以完成特定任务的机器人。又如,代理可以是通过环境进行导航的自动驾驶或半自动驾驶的车辆。在这些情况中,观察值可以是机械代理与环境进行交互时它的一个或多个传感器,例如摄像机、LIDAR传感器、温度传感器等捕获的数据。
在其他实施方式中,环境是仿真环境,并且代理被实施为与仿真环境交互的一个或多个计算机。例如,仿真环境可以是视频游戏,而代理可以是玩该视频游戏的仿真用户。
图1展示了一种示例增强学习系统100。增强学习系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例,其中实现以下描述的系统、组件和技术。
增强学习系统100选择与环境104交互的增强学习代理102要执行的动作。也就是说,增强学习系统100接收观察值,每个观察值表征环境104的相应状态,并且响应于每个观察值,从动作空间中选择增强学习代理102要执行的动作,然后指示或以其他方式使得代理102执行所选动作。代理102执行所选动作后,环境104转换到一个新状态,并且系统100接收表征环境104的下一个状态的另一个观察值和回报。回报可以是作为代理102执行所选动作的结果由系统100或代理102从环境104接收的数值。也就是说,系统100接收的回报通常依赖于代理102执行所选动作而导致的状态转换结果而变化。例如,与转换到更远离于完成代理102正执行的任务的状态相比,转换到更接近于完成代理102正执行的任务的状态可以使系统100接收到更高回报。
特别地,为了选择动作,增强学习系统100包括神经网络110。一般而言,神经网络110是被配置为接收观察值并处理该观察值以产生输出的神经网络,该输出定义了响应于该观察值所述代理应当执行的动作。
在一些实施方式中,神经网络110是接收观察值和动作并输出概率的神经网络,该概率表示此动作是使代理完成任务的机会最大化的动作的概率。
在一些实施方式中,神经网络110是接收观察值并产生输出的神经网络,该输出定义了可能的动作上的概率分布,每个动作的概率是该动作是使代理完成任务的机会最大化的动作的概率。
在一些其他实施方式中,神经网络110是被配置为接收观察值和响应于该观察值由代理执行的动作(即,观察值-动作对)的神经网络,并且为观察值-动作对生成Q值,该Q值表示从代理响应于观察值-动作对中的该观察值而执行该动作所产生的估计返回。神经网络110可以例如通过为观察值-动作对重复地生成Q值来重复地执行该过程。然后系统100可以使用生成的Q值来确定代理响应于给定观察值将执行的动作。
为了允许代理102有效地与环境交互,增强学习系统100通过利用计数系统120产生的组合回报来训练神经网络110确定神经网络110的参数的训练值。特别地,在训练过程中,计数系统120保留系统100之前接收的观察值序列。
在代理102响应于给定观察值而执行动作并且由于代理执行了该动作使得代理100接收了实际回报后,计数系统接收标识给定观察值、动作和实际回报的数据。基于该数据,计数系统120利用顺序密度模型来确定给定观察值的伪计数。然后计数系统120根据所确定的给定观察值的伪计数确定探索回报红利,该探索回报红利激励代理来探索环境。接着,计数系统120根据实际回报和探索回报红利确定组合回报。
然后增强学习系统100使用组合回报来训练神经网络110。以下参考图2更为详细地描述对神经网络110的训练。以下参考图3更为详细地描述对给定观察值的伪计数、探索回报红利和组合回报的确定。
图2是训练神经网络的一个示例过程的流程图,该神经网络用于选择与环境交互的代理要执行的动作。为方便起见,将过程200描述为由一个或多个位置中的一个或多个计算机的系统来执行。例如,根据本说明书适当规划的增强学习系统(如图1的增强学习系统100)可以执行过程200。
该系统获得数据,这些数据标识(i)表征环境的第一状态的第一观察值,(ii)由代理响应于该第一观察值而执行的第一动作,以及(iii)由于代理响应于第一观察值执行了动作而导致接收的实际回报(步骤202)。一般而言,实际回报是数值,该数值依赖于环境响应于代理执行第一动作而如何变化。在一些实施方式中,例如在利用异策略(off-policy)算法训练神经网络的实施方式中,系统可以从存储从代理与环境交互产生的经验元组(即,观察值-动作-回报元组)的存储器中获得数据。在其他实施方式中,例如在利用同策略(on-policy)算法训练神经网络的实施方式中,获得的数据是由于代理与环境的最近交互而已经产生的。
接着,系统根据实际回报和探索回报红利确定对应于第一观察值的组合回报(步骤204)。探索回报红利可以用于激励代理来探索环境。例如,探索回报红利可以用于鼓励代理通过接收之前未被观察的新观察值来探索环境的新部分。以下参考图3详细描述确定探索回报红利。
系统然后利用组合回报来调整神经网络的参数的当前值(步骤206)。一般而言,系统调整神经网络的参数的当前值,使得这样神经网络选择使组合回报的期望总和最大化的动作。也就是说,系统可以调整神经网络的参数的当前值,以便神经网络选择的动作(i)使得环境转换到更接近于完成任务的状态,这使得系统接收到更高的实际回报,和/或动作(ii)鼓励代理探索不经常观察的或之前从未观察的观察值,以便最大化接收的探索回报红利。
调整参数的当前值包括在执行增强学习技术的迭代中使用组合回报替代实际回报。系统可以使用任意适合的增强学习技术,即,适合于训练神经网络的增强学习技术,所述神经网络产生该神经网络被配置生成的各种输出。例如,在一些实施方式中,增强学习技术是具有混合蒙特卡洛返回的双DQN技术。在一些其他实施方式中,增强学习技术是一种演员器(actor)-评判家(critic)技术。在这些增强学习技术的一些中,系统还获取执行该技术的迭代所需的另外的信息(例如,代理执行第一动作之后接收的下一个观察值),并且利用第一观察值、第一动作、组合回报、另外的信息来执行增强学习技术。
图3是用于产生组合回报的一个示例过程的流程图。为方便起见,将过程300描述为由一个或多个位置中的一个或多个计算机的系统来执行。例如,根据本说明书适当规划的增强学习系统(如图1的增强学习系统100)可以执行过程300。
该系统确定第一观察值的伪计数(步骤302)。伪计数是系统对于响应于第一观察值采取动作的效果将是什么有多确定的估计度量。具体而言,第一观察值的伪计数是经验计数函数,该函数依赖于神经网络训练过程中第一观察值的出现次数。第一观察值x的伪计数可以确定为如下形式:
其中ρn(x)是第一观察值的顺序密度模型的值,而ρ′n(x)是第一观察值x的重新编码概率。
顺序密度模型表示第一观察值x出现如下给定的n个先前观察值X1,…,Xn的可能性:
ρn(x):=ρ(x;x1:n)=Prρ(Xn+1=x|X1…Xn=x1:n),
其中Prρ(Xn+1=x|X1…Xn=x1:n)是条件概率,它表示假定n个先前观察值X1,…,Xn已经被接收的情况下,第n+1个观察值Xn+1与第一个观察值x相同的可能性。
顺序密度模型可以是例如像素级密度模型。在关于机器学习的第31届国际会议的论文集(Proceedings of the 31st International Conference on Machine Learning)1458-1466页中,Bellemare,M.,Veness,J.,and Talvitie,E.(2014)的“跳跃上下文树切换(Skip context tree switching)”中更为详细描述了像素级密度模型。
重新编码概率是在观察到第一观察值的新出现之后的第一观察值x的顺序密度模型的值。
ρ′n(x):=ρ(x;x1:nx).
重新编码概率可以被确定为如下形式:
ρ′n(x)=Prρ(Xn+2=x|X1...Xn=x1:n,Xn+1=x).
其中Prρ(Xn+2=x|X1…Xn=x1:n,Xn+1=x)是条件概率,它表示假定在n+1个先前观察值x1:n和x都已经出现的情况下,新的观察值,例如第n+1个观察值Xn+1(其与上文提及的第一观察值相同)之后的第n+2个观察值Xn+2与第一个观察值x相同的可能性。
然后系统根据第一观察值x的伪计数确定探索回报红利,该探索回报红利激励代理探索环境(步骤302)。一般而言,探索回报红利与伪计数成反比。这意味着当伪计数越大,即,第一观察值x已经更频繁地出现了,对应于第一观察值的探索回报红利越小,反之亦然。在一些实施方式中,探索回报红利RB可以被确定为如下形式:
其中x是第一观察值,第一观察值的伪计数,a和b是常数,而β是参数扫描所选择的一个参数。两个常数a和b通常是正常数。
然后,系统根据实际回报和探索回报红利产生对应于第一观察值的组合回报(步骤304)。例如,系统通过求实际回报和探索回报红利的总和来产生组合回报。
对于被配置执行特定操作或动作的一个或多个计算机的系统,意味着该系统已经在其上安装了软件、固件、硬件或它们的组合,这些软件、固件、硬件在操作过程中使得系统执行这些操作或动作。对于被配置执行特定操作或动作的一个或多个计算机程序,意味着该一个或多个程序包括指令,当由数据处理设备执行时,这些指令使得设备执行这些操作或动作。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在实际实现的计算机软件或固件、在计算机硬件(包括本说明书中披露的结构以及它们的等同结构)或在它们中一个或多个的组合形式中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序,即在实际的永久性程序载体上编码的计算机程序指令的一个或多个模块,这些模块由数据处理设备来执行,或者控制数据处理设备的运行。可替代地,或除此之外,可以将程序指令编码在人工生成的传播信号上,例如,机器生成的电、光或电磁的信号,该信号被生成用于编码信息,以便传输给适合的接收器设备由数据处理装置来执行。计算机存储介质可以是机器可读的存储装置、机器可读的存储基底、随机的或串行的存取存储器装置、或它们中一种或两种的组合。然而,计算机存储介质并不是传播的信号。
术语“数据处理设备”包括用于处理数据的所有种类的设备、装置以及机器,包括例如可编程处理器、计算机、或多处理器或计算机。设备可以包括专用的逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件以外,设备还可以包括正在讨论的为计算机程序创建执行环境的代码,例如由处理器固件、协议栈、数据库管理系统、操作系统、或它们中一个或多个的组合所组成的代码。
计算机程序(也被称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本、或代码)可以采用任意形式的编程语言来编写,包括编译的或解释的语言,或声明式的或过程式的语言,并且它可以采用任意形式配置,包括作为独立的程序或作为模块、组件、子程序、或适合于在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如存储在标记语言文档中的一个或多个脚本)的文件的一部分中,存储在专用于正在讨论的程序的一个单一文件中,或存储在多个协调文件(例如存储一个或多个模块、子程序、或代码的多个部分的文件)中。计算机程序可以被配置在一个计算机或多个计算机上执行,这些计算机位于一个站点或分布在多个站点之间并通过通信网络相互连接。
如本说明书中所使用的,“引擎”或“软件引擎”是指软件实现的输入/输入系统,该系统提供不同于输入的输出。引擎可以是功能编码的功能块,例如库、平台、软件开发包(SDK)、或对象。每个引擎都可以在包括一个或多个处理器和计算机可读介质的任意适合类型的计算装置上实现,例如服务器、移动电话、平板电器脑、笔记本电脑、音乐播放器、电子书阅读器、膝上或桌上电脑、PDA、智能电话、或其他固定的或可移动的装置。另外,可以在相同的计算装置上或在不同的计算装置上实现引擎中的两个或多个。
本说明书中描述的过程和逻辑流程可以通过一个或多个可编程计算机来执行,这些可编程计算机执行一个或多个计算机程序以便通过操作数据和产生输出来实现功能。过程和逻辑流程还可以通过设备来执行,该设备还可以实施为专用逻辑电路,例如PFGA(现场可编程门阵列)或ASIC(专用集成电路)。例如,过程和逻辑流程可以通过设备来执行,该设备还可以实施为图形处理单元(GPU)。
适于执行计算机程序的计算机例如可以基于通用的或专用的微处理器或两者、或任意类型的中央处理单元。一般而言,中央处理单元将从只读存储器或随机存取存储器或两者中接收指令和数据。计算机的必备元件是实施或执行指令的中央处理单元以及存储指令和数据的一个或多个存储装置。一般而言,计算机还将包括用于存储数据的一个或多个大容量存储器,例如磁盘、磁光盘或光盘,或计算机可操作地联接至它们以便从它们接收数据或向它们传输数据或两者均有。然而,计算机不必具有这些装置。而且,计算机可以嵌入在另一种装置中,例如可移动电话、个人数字助理(PDA)、可移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器、或便携式存储装置(例如通用串行总线(USB)闪存盘),这里仅举几例。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储装置,包括例如半导体存储装置(例如EPROM、EEPROM、以及闪存装置);磁盘,例如内置硬盘或可换式磁盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以通过专用逻辑电路来补充或整合在其中。
为了提供与用户的交互,在本说明书中所描述的主题的实施例可以在计算机上实施,该计算机具有向用户呈现信息的显示器装置(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及通过其用户可以向计算机提供输入的键盘和定点装置(例如,鼠标或轨迹球)。还可以使用其他种类的装置来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式(包括声音、语音或触觉输入)接收来自用户的输入。另外,计算机可以通过向用户使用的装置发送文档并从其接收文档与用户进行交互;例如,响应于从网页浏览器接收的请求,向用户客户端装置上的网页浏览器发送网页。
本说明书中所描述的主题的实施例可以在计算系统中实施,该计算系统包括后端组件(例如,作为数据服务器)或包括中间件组件(例如,应用服务器)、或包括前端组件(例如,具有图形用户接口或Web浏览器的客户端计算机,用户可以通过其与本说明书中所描述的主题的实施例进行交互)、或这种后端组件、中间组件、或前端组件的任何组合。系统的组件可以通过数字数据通信(例如,通信网络)的任何形式或介质来进行互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且一般通过通信网络交互。客户端与服务器的关系借助于在各自计算机上运行并且对彼此具有客户端-服务器关系的计算机程序产生。
尽管本说明书包含很多具体的实施细节,但这些实施细节不应当被解释为对任意发明或可以声明内容的范围的限制,而应解释为可以针对于特定发明的特定实施例的特征的解释。本说明书中所描述的单独实施例环境中的某些特征还可以结合单一实施例来实施。相反地,在单一实施例环境中描述的各种特征还可以分别在多个实施例中或在任意适合的子组合中实现。而且,尽管这些特征在上文可以描述为在某些组合中发生作用并且甚至最初就如此声明,但在一些情况中来自声明的组合中的一个或多个特征可以从组合中剥离,并且声明的组合可以针对于子组合或子组合的变化形式。
同样,尽管在附图中以特定的顺序描述了操作,但这不应当理解为要求这些操作以所示的特定顺序或以相继顺序来执行,或者执行所有图示的操作,以便实现所希望的结果。在某些情况中,多任务和并行处理可能是有利的。而且,上述实施例中的各个系统模块和组件的分离不应当被理解成在所有实施例中都要求这种分离,并且应理解的是,所描述的程序组件和系统通常可以一起整合在单个软件产品中或封装进多个软件产品中。
本主题的特定实施例已经进行了描述。其他实施例在以下权利要求书的范围内。例如,权利要求中叙述的动作可以采用不同的顺序执行并且仍获得所希望的结果。例如,在附图中描绘的过程不一定需要所示的特定顺序或相继顺序来实现所希望的结果。在一个或多个实施方式中,多任务和并行处理可能是有利的。

Claims (12)

1.一种训练用于选择与环境交互的代理要执行的动作的神经网络的方法,该方法包括:
获得数据,该数据标识(i)表征该环境的第一状态的第一观察值,(ii)响应于该第一观察值由该代理执行的动作,以及(iii)由于该代理响应于该第一观察值执行该动作而接收的实际回报;
确定该第一观察值的伪计数;
根据该第一观察值的伪计数确定探索回报红利,该探索回报红利激励该代理探索该环境;
根据该实际回报和探索回报红利产生组合回报;并且
利用该组合回报来调整神经网络的参数的当前值。
2.如权利要求1所述的方法,其中该伪计数是响应于该第一观察值而采取动作的效果的确定性的估计度量。
3.如权利要求1或2中的任意一个所述的方法,其中调整该参数的当前值包括:
在执行增强学习技术的迭代中使用该组合回报替代实际回报。
4.如权利要求3所述的方法,其中该增强学习技术是具有混合蒙特卡洛返回的双DQN技术。
5.如权利要求3所述的方法,其中该增强学习技术是演员-评判家技术。
6.如权利要求1-5中任意一个所述的方法,其中产生该组合回报包括求该实际回报和探索回报红利的总和。
7.如权利要求1-6中任意一个所述的方法,其中该探索回报红利RB满足:
其中x是第一观察值,是第一观察值的伪计数,a和b是常数,而β是参数扫描所选择的参数。
8.如权利要求1-6中任意一个所述的方法,其中该第一观察值的伪计数的形式为:
其中ρn(x)是该第一观察值的顺序密度模型的值,而ρ′n(x)是该第一观察值的重新编码概率。
9.如权利要求8所述的方法,其中该重新编码概率是在观察到该第一观察值的新出现之后的顺序密度模型的值。
10.如权利要求8或9中任意一个所述的方法,其中该顺序密度模型是像素级密度模型。
11.一种系统,该系统包括一个或多个计算机和存储指令的一个或多个存储装置,当由该一个或多个计算机执行所述指令时,该指令可操作以使得该一个或多个计算机执行权利要求1-10中任意一个的相应方法的操作。
12.一种计算机存储介质,编码有指令,当由一个或多个计算机执行所述指令时,所述指令使得该一个或多个计算机执行权利要求1-10中任意一个的相应方法的操作。
CN201780031296.5A 2016-05-20 2017-05-18 使用伪计数的增强学习 Pending CN109155005A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662339778P 2016-05-20 2016-05-20
US62/339,778 2016-05-20
PCT/US2017/033218 WO2017201220A1 (en) 2016-05-20 2017-05-18 Reinforcement learning using pseudo-counts

Publications (1)

Publication Number Publication Date
CN109155005A true CN109155005A (zh) 2019-01-04

Family

ID=58779356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780031296.5A Pending CN109155005A (zh) 2016-05-20 2017-05-18 使用伪计数的增强学习

Country Status (5)

Country Link
US (1) US11727264B2 (zh)
EP (1) EP3459018B1 (zh)
JP (1) JP6667674B2 (zh)
CN (1) CN109155005A (zh)
WO (1) WO2017201220A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486584A (zh) * 2019-08-23 2021-03-12 中国科学院深圳先进技术研究院 一种利用强化学习进行大数据平台调参的方法和系统
CN113396428A (zh) * 2019-03-05 2021-09-14 赫尔实验室有限公司 多智能体应用的稳健、可扩展且可推广的机器学习范型
CN113795852A (zh) * 2019-05-09 2021-12-14 微软技术许可有限责任公司 训练代理的行为

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
WO2020074741A1 (en) * 2018-10-12 2020-04-16 Deepmind Technologies Limited Controlling agents over long time scales using temporal value transport
JP7336856B2 (ja) * 2019-03-01 2023-09-01 株式会社Preferred Networks 情報処理装置、方法及びプログラム
CN111898727B (zh) * 2019-05-06 2024-07-19 清华大学 基于短时访问机制的强化学习方法、装置及存储介质
US11699062B2 (en) * 2019-09-06 2023-07-11 Honda Motor Co., Ltd. System and method for implementing reward based strategies for promoting exploration
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN112883947B (zh) * 2021-04-29 2021-07-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9186793B1 (en) * 2012-08-31 2015-11-17 Brain Corporation Apparatus and methods for controlling attention of a robot
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113396428A (zh) * 2019-03-05 2021-09-14 赫尔实验室有限公司 多智能体应用的稳健、可扩展且可推广的机器学习范型
CN113396428B (zh) * 2019-03-05 2024-05-07 赫尔实验室有限公司 多智能体应用的学习系统、计算机程序产品和方法
CN113795852A (zh) * 2019-05-09 2021-12-14 微软技术许可有限责任公司 训练代理的行为
CN112486584A (zh) * 2019-08-23 2021-03-12 中国科学院深圳先进技术研究院 一种利用强化学习进行大数据平台调参的方法和系统

Also Published As

Publication number Publication date
JP6667674B2 (ja) 2020-03-18
US11727264B2 (en) 2023-08-15
EP3459018B1 (en) 2021-10-20
EP3459018A1 (en) 2019-03-27
US20200327405A1 (en) 2020-10-15
WO2017201220A1 (en) 2017-11-23
JP2019517074A (ja) 2019-06-20

Similar Documents

Publication Publication Date Title
CN109155005A (zh) 使用伪计数的增强学习
CN108027897B (zh) 利用深度强化学习的连续控制
CN110520871A (zh) 训练机器学习模型
JP6591672B2 (ja) デュエリングディープニューラルネットワーク
CN110366734A (zh) 优化神经网络架构
CN108701251A (zh) 使用优势估计强化学习
CN108605053A (zh) 优化为未来动作缓存的用户界面数据
CN110114784A (zh) 递归神经网络
CN109313722A (zh) 存储器高效的基于时间的反向传播
CN110383298A (zh) 用于连续控制任务的数据高效强化学习
CN110235149A (zh) 神经情节控制
CN108701252A (zh) 使用优先化经验存储器训练神经网络
CN109155003A (zh) 生成神经网络
CN108475505A (zh) 使用部分条件从输入序列生成目标序列
JP2018526733A (ja) 強化学習ニューラルネットワークのトレーニング
CN110168574A (zh) 中间强化学习目标的无监督的检测
CN111931067A (zh) 兴趣点推荐方法、装置、设备和介质
CN108475345A (zh) 生成较大神经网络
JP2022533265A (ja) 完全アテンション型コンピュータビジョン
CN106462803A (zh) 增强具有外部存储器的神经网络
CN109858615A (zh) 具有记忆的低通递归神经网络系统
WO2019060730A1 (en) DETERMINING CONTROL POLICIES FOR ROBOTS WITH STRUCTURED EXPLORATION TOLERANT TO NOISE
CN109155004A (zh) 用于强化学习代理的无模型控制
CN108122029A (zh) 一种相机特效的推荐方法及装置
CN103885767A (zh) 用于地理区域相关网站的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination