CN110088775B - 使用加强学习的环境预测 - Google Patents

使用加强学习的环境预测 Download PDF

Info

Publication number
CN110088775B
CN110088775B CN201780078702.3A CN201780078702A CN110088775B CN 110088775 B CN110088775 B CN 110088775B CN 201780078702 A CN201780078702 A CN 201780078702A CN 110088775 B CN110088775 B CN 110088775B
Authority
CN
China
Prior art keywords
neural network
state representation
internal time
environment
time step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780078702.3A
Other languages
English (en)
Other versions
CN110088775A (zh
Inventor
D.西尔弗
T.肖尔
M.黑塞尔
H.P.范哈塞尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeepMind Technologies Ltd
Original Assignee
DeepMind Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeepMind Technologies Ltd filed Critical DeepMind Technologies Ltd
Priority to CN202311473332.7A priority Critical patent/CN117521725A/zh
Publication of CN110088775A publication Critical patent/CN110088775A/zh
Application granted granted Critical
Publication of CN110088775B publication Critical patent/CN110088775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Abstract

本公开提供了方法、系统和装置,其包括在计算机存储介质上编码的计算机程序,所述计算机程序用于预测与环境有关的结果。在一个方面,一种系统包括状态表示神经网络,被配置为接收表征与代理交互的环境的状态的观察,并处理该观察以生成环境状态的内部状态表示;预测神经网络,被配置为接收当前环境状态的当前内部状态表示,并处理当前内部状态表示以生成环境的后续状态的预测后续状态表示和用于后续状态的预测回报;和值预测神经网络,被配置为接收当前环境状态的当前内部状态表示,并处理当前内部状态表示以生成值预测。

Description

使用加强学习的环境预测
技术领域
本说明书涉及使用机器学习模型的预测。
背景技术
机器学习模型接收输入并基于所接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并基于接收的输入和模型的参数值生成输出。
一些机器学习模型是深度模型,所述深度模型采用多层模型来生成针对接收的输入的输出。例如,深度神经网络是深度机器学习模型,所述深度机器学习模型包括输出层和一个或多个隐藏层,其中每个隐藏层将非线性变换应用于接收的输入以生成输出。
发明内容
本说明书描述了在一个或多个位置中的一个或多个计算机上被实现为计算机程序的系统,所述系统通过一系列内部计划步骤生成值预测来确定从处于初始状态的环境得到的总回报(aggregate reward)的估计。
根据第一方面,提供了一种系统,包括:状态表示神经网络,其被配置为:接收表征(character)与代理交互的环境的状态的一个或多个观察,和处理所述一个或多个观察以生成当前环境状态的内部状态表示;预测神经网络,被配置为针对多个内部时间步骤中的每一个:接收用于内部时间步骤的内部状态表示;和处理用于内部时间步骤的内部状态表示以生成:用于下一内部时间步骤的内部状态表示,以及用于下一内部时间步骤的预测回报;值预测神经网络,被配置为针对多个内部时间步骤中的每一个:接收用于内部时间步骤的内部状态表示,和处理用于内部时间步骤的内部状态表示以生成值预测,该值预测是从下一内部时间步骤开始的对未来累积折扣回报的估计;和预测子系统,其被配置为:接收表征环境的状态的一个或多个观察;提供所述一个或多个观察作为状态表示神经网络的输入,以生成当前环境状态的内部状态表示;针对多个内部时间步骤中的每一个:使用预测神经网络和值预测神经网络,并从用于内部时间步骤的内部状态表示生成:用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、和值预测;和根据预测回报和用于内部时间步骤的值预测来确定总回报。
在相关方面,提供了由一个或多个计算机实现的系统,该系统包括:状态表示神经网络,其被配置为:接收表征与代理交互的环境的状态的观察,和处理所述观察以生成环境状态的内部状态表示;预测神经网络,被配置为:接收当前环境状态的当前内部状态表示;和处理当前内部状态表示以生成:环境的后续状态的预测后续状态表示、以及用于后续状态的预测回报;以及值预测神经网络,其被配置为:接收当前环境状态的当前内部状态表示,和处理当前内部状态表示以生成值预测,该值预测是从当前环境状态开始的对未来累积折扣回报的估计。
在相关方面的优选实施方式中,该系统包括预测子系统,该预测子系统被配置为:接收表征环境的初始状态的初始观察;提供初始观察作为状态表示神经网络的输入,以生成环境状态的初始内部状态表示;针对多个内部时间步骤中的每一个:使用预测神经网络和值预测神经网络并且根据当前状态表示,生成预测后续状态表示、预测回报和值预测;以及根据用于所述时间步骤的预测回报和值预测来确定总回报。
因此,如本文所述,系统可以将环境模型与计划模型集成。这在这里被称为预测系统;在一些实施方式中,预测系统采用如上所述的预测子系统。预测子系统还可以被配置为提供总回报作为对从处于当前状态的环境得到的回报的估计。内部时间步骤可以被视为计划步骤。未来累积折扣回报可以包括对用于多个未来时间步骤的未来回报的估计,因此它可以是累积的。回报可以通过给予回报权重并在更晚时间步骤比在更早时间步骤对回报加权更少来打折。
在一些实施方式中,预测神经网络还被配置为生成用于下一内部时间步骤的预测折扣因子,并且预测子系统被配置为在确定总回报时使用用于内部时间步骤的预测折扣因子。可以通过折扣因子的乘积对未来回报加权来将回报打折,其中每个折扣因子在0和1之间,每个连续时间步骤一个折扣因子。预测子系统可用于预测折扣因子。如下所述,总回报可以由累加器确定。
在一些实施方式中,该系统还包括:λ(lambda)神经网络,其被配置为针对内部时间步骤中的每一个,处理用于当前内部时间步骤的内部状态表示,以生成用于下一内部时间的λ因子。并且预测子系统被配置为在确定总回报时确定用于内部时间步骤的返回(return)因子,并使用λ因子来确定用于返回因子的权重。返回因子可以包括用于内部计划时间步骤的预测返回。这可以根据预测回报、预测折扣因子和值预测的组合来确定;可以针对k个未来内部时间(即,计划步骤)中的每一个来确定。
在一些实施方式中,状态表示神经网络是递归神经网络。
在一些实施方式中,状态表示神经网络是前馈神经网络。
在一些实施方式中,预测神经网络是递归神经网络。
在一些实施方式中,预测神经网络是前馈神经网络,其在多个时间步骤中的每一个具有不同的参数值。
根据第二方面,提供了一种方法,包括由预测子系统执行的相应操作。
根据第三方面,提供了一种训练该系统的方法,包括:确定损失梯度(gradient),所述损失梯度是基于总回报的和对从处于当前状态的环境得到的回报的估计;并且后向传播损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。
根据第四方面,提供了一种用于训练该系统的方法,包括:确定一致性损失梯度,该一致性损失梯度基于由预测子系统针对内部时间步骤确定的返回因子的一致性;并且后向传播一致性损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。
可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。本说明书中描述的预测系统联合学习环境的模型(即系统的状态表示神经网络和预测神经网络)和计划模型(即,值预测神经网络,并且在使用时,λ神经网络网络),其中计划模型生成估计累积回报的值函数。传统系统分别学习环境的模型和计划模型,因此在传统系统中,该模型与计划任务不完全匹配。相反,对于本说明书中描述的预测系统,环境模型和计划模型是联合学习的,因此系统能够生成有助于比传统系统更准确地估计与环境的当前状态相关联的结果的值函数。
此外,与传统系统不同,本说明书中描述的预测系统可以部分地通过无监督学习方法(即基于表征其中与环境的当前状态相关联的结果是未知的环境的状态的观察)来训练。因此,由于辅助无监督训练,本说明书中描述的系统生成值函数,所述值函数有助于比传统系统更准确地估计与环境的当前状态相关联的结果。此外,如本说明书中所述,训练预测系统所需的标记(labelled)训练数据少于训练传统系统所需的标记训练数据,因为与传统系统不同,预测系统能够通过辅助无监督训练进行训练。
此外,本说明书中描述的预测系统基于取决于系统的内部状态表示和内部动态的适应性数量的计划步骤来生成输出。特别地,在一些情况下,预测系统可以基于比计划步骤的总可能数量更少的计划步骤来生成输出,并且因此比在所有情况下基于利用每个计划步骤来生成输出的传统系统消耗更少的计算资源(例如,使用更少的计算能力和计算时间)。
在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得清楚。
附图说明
图1示出了示例性预测系统。
图2是用于确定总回报输出的示例过程的流程图。
图3是用于训练预测系统的示例过程的流程图。
各附图中相同的附图标记和名称表示相同的元件。
具体实施方式
图1示出了示例性预测系统100。预测系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中在所述计算机程序中实现了下面描述的系统、组件和技术。
系统100估计由与环境106交互的代理102执行的动作104的效果。
在一些实施方式中,环境106是模拟环境,并且代理102被实现为与模拟环境交互的一个或多个计算机程序。例如,模拟环境可以是视频游戏,并且代理102可以是玩视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如驾驶模拟或飞行模拟,并且代理102是在运动模拟中航行的模拟车辆。
在一些其他实施方式中,环境106是真实世界环境,并且代理102是与真实世界环境交互的机械代理。例如,代理102可以是与环境交互以完成特定任务的机器人。作为另一示例,代理102可以是在环境106中航行的自主或半自主车辆。
系统100输出总回报110作为对与代理102交互的环境106的当前状态相关联的结果128的估计。系统100通过累积在多个内部时间步骤(在本说明书中称为计划步骤)上的预测回报116、预测折扣因子118、和值预测来生成总回报110。
结果128能够编码与代理102交互的环境106的任何事件或方面。例如,结果128可以包括二进制值,其指示在环境中航行的代理是否从环境106的当前状态开始到达环境中的特定位置。作为另一示例,结果128可以包括值,所述值指示基于在环境106中航行的代理102从环境106的当前状态开始完成某些任务(例如,到达环境106中的某些位置)的、由代理102接收的累积回报。
一旦经过训练,系统100就可以用于例如选择要由代理102执行的动作104。例如,如果结果128包括评定代理102与环境106的交互成功的值,例如,表示代理从环境的当前状态开始完成任务所花费的时间量的值,然后可以选择代理102的动作104作为由系统100预测的、用来优化对应于该值的结果128的分量的动作。
系统100包括预测神经网络120,针对每个计划步骤,预测神经网络120被配置为处理输入以生成以下作为输出:(i)用于下一计划步骤,即当前计划步骤之后的计划步骤,的内部状态表示114,(ii)用于下一计划步骤的预测回报116,以及(iii)用于下一计划步骤的预测折扣因子118。针对第一计划步骤,预测神经网络120接收由状态表示神经网络122生成的内部状态表示114作为输入,并且针对后续计划步骤,预测神经网络120接收由预测神经网络120在先前计划步骤生成的内部状态表示114作为输入。预测回报116、预测折扣因子118和结果128可以是标量、矢量或矩阵,并且通常都具有相同的维度。通常,预测折扣因子118的条目都是0和1之间的值。内部状态表示114、预测回报116和预测折扣因子118是系统使用的抽象表示,用于便利对与环境106的当前状态相关联的结果128的预测。
状态表示神经网络122被配置为接收环境106的一个或多个观察108的序列作为输入,并且根据状态表示神经网络参数的集合的值处理所述观察以生成用于第一计划步骤的内部状态表示114作为输出。通常,内部状态表示114的维度可以与环境106的一个或多个观察108的维度不同。
在一些实施方式中,观察108可以由代理102的传感器生成或从代理102的传感器导出。例如,观察108可以是由代理102的相机捕获的图像。作为另一示例,观察108可以从由代理102的激光传感器捕获的数据导出。作为另一示例,观察108可以是由代理102的高光谱传感器捕获的高光谱图像。
系统100包括值预测神经网络124,值预测神经网络124被配置为,针对每个计划步骤,处理用于该计划步骤的内部状态表示114以生成用于下一计划步骤的值预测。用于计划步骤的值预测是对从下一计划步骤开始的未来累积折扣回报的估计,即,值预测可以是对以下总和的估计而不是直接计算:
vk=rk+1k+1rk+2k+1γk+2rk+3+…
其中vk是在计划步骤k的值预测,ri是在计划步骤i的预测回报116,并且γi是在计划步骤i的预测因子118。
累积回报110由累加器112生成,并且是对与环境106的当前状态相关联的结果128的估计。总回报110可以是标量、矢量或矩阵,并且具有与结果128相同的维度。在一些实施方式中,累加器112通过在本说明书中称为k步预测的过程来生成总回报110,其中k是1和K之间的整数,并且K是计划步骤的总数。在这些实施方式中,累加器112通过组合用于前k个计划步骤中的每一个的预测回报116和预测折扣因子118以及第k个计划步骤的值预测来生成总回报110,以确定在本说明书中被称为k步返回的输出。针对k步预测,总回报110通常被确定为对应于最终计划步骤K的k步预测。在一些实施方式中,累加器112通过在本说明书中称为λ加权预测的过程生成总回报110。在这些实施方式中,系统100包括λ神经网络126,其被配置为针对计划步骤中的每一个处理内部状态表示114以生成用于计划步骤的λ因子,其中λ因子可以是标量、矢量或矩阵。在一些情况下,λ因子的条目都是0和1之间的值。在这些实施方式中,累加器112通过确定用于每个计划步骤k的k步返回、并且根据由λ因子定义的权重来组合它们以确定在本说明书中被称为λ加权返回的输出,来生成总回报110。参考图2进一步描述确定总回报输出。
系统100由训练引擎130基于包括观察108和对应结果128的训练数据的集合来训练。具体地,训练引擎130后向传播基于损失函数确定的梯度(例如按随机梯度下降),以联合优化值预测神经网络124、状态表示神经网络122、预测神经网络120和λ加权预测实施方式中的λ神经网络126的参数的集合的值。训练系统100涉及监督训练,并且在某些情况下,涉及辅助无监督训练。
在系统100的监督训练中,损失函数取决于对应于作为输入提供并由系统100处理的观察108的结果128。例如,在k步预测实施方式中,监督损失函数可以测量在结果128和由累加器112生成的k步返回之间的差异。作为另一示例,在λ加权预测实施方式中,监督损失函数可以测量在结果128和由累加器生成的λ加权返回之间的差异。
在系统100的无监督训练中,损失函数不取决于对应于作为输入提供并由系统100处理的观察108的结果128。例如,在λ加权预测实施方式中,无监督损失函数可以是一致性损失函数,其测量每个k步返回和λ加权返回之间的差异。在这种情况下,无监督训练联合调整系统100的神经网络的参数的值以减小各个k步返回与λ加权返回之间的差异,使得k步返回自我一致,并由此增加系统100的鲁棒性。参考图3进一步描述训练引擎130对系统100的训练。
本说明书中提到的例如矩阵和矢量的数据结构,例如系统100的神经网络的任何一个的输出,可以以允许以说明书中描述的方式使用数据结构的任何格式表示(例如被描述为矩阵的神经网络的输出可以表示为矩阵的条目的矢量)。
图2是用于确定总回报输出的示例过程200的流程图。为方便起见,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书适当编程的预测系统,例如图1的预测系统100,能够执行过程200。
系统接收与代理交互的环境的一个或多个观察(步骤202)。
在一些实施方式中,环境是模拟环境,并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如,模拟环境可以是视频游戏,并且代理可以是玩视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如驾驶模拟或飞行模拟,并且代理是在运动模拟中航行的模拟车辆。
在一些其他实施方式中,环境是真实世界环境,并且代理是与真实世界环境交互的机械代理。例如,代理可以是与环境交互以完成特定任务的机器人。作为另一示例,代理可以是在环境中航行的自主或半自主车辆。
在一些实施方式中,观察可以由代理的传感器生成或从代理的传感器导出。例如,观察可以是由代理的相机捕获的图像。作为另一示例,观察可以从从由代理的激光传感器捕获的数据导出。作为另一示例,观察可以是由代理的高光谱传感器捕获的高光谱图像。
状态表示神经网络接收环境的一个或多个观察作为输入,并根据状态表示神经网络参数的集合的值来处理所述输入,以生成用于第一计划步骤的内部状态表示作为输出(步骤204)。
在一些实施方式中,状态表示神经网络是递归神经网络,并且状态表示神经网络的输出是在顺序地处理每个观察之后的递归神经网络的输出。在一些其他实施方式中,状态表示神经网络是前馈神经网络,并且状态表示神经网络的输出是前馈神经网络的最后一层的输出。在状态表示神经网络是前馈神经网络的实施方式中,系统可以在将一个或多个观察作为输入提供给状态表示神经网络122之前连接(concatenate)所述一个或多个观察。
针对每个计划步骤,预测神经网络处理输入以生成如下作为输出:(i)用于下一计划步骤的内部状态表示,(ii)用于下一计划步骤的预测回报,以及(iii)用于下一计划步骤的预测折扣因子(步骤206)。针对第一计划步骤,预测神经网络接收由状态表示神经网络生成的内部状态表示作为输入,并且针对后续计划步骤,预测神经网络接收由预测神经网络在先前计划步骤处生成的内部状态表示作为输入。预测回报和预测折扣因子可以是标量、矢量或矩阵,并且通常具有与结果相同的维度。通常,折扣因子的条目都是0到1之间的值。用于计划步骤的内部状态表示是由系统用来便利结果的预测的环境的抽象表示。
在一些实施方式中,预测神经网络是递归神经网络。在一些其他实施方式中,针对预测神经网络是前馈神经网络,其具有与计划步骤中的每一个相对应的不同参数值。在一些实施方式中,预测神经网络包括S形非线性层,以使折扣因子的条目的值位于0到1的范围内。
针对每个计划步骤,值预测神经网络处理输入以生成用于下一计划步骤的值预测(步骤208)。针对第一计划步骤,值预测神经网络接收由状态表示神经网络生成的内部状态表示作为输入,并且针对后续计划步骤,值预测神经网络接收由预测神经网络在先前计划步骤生成的内部状态表示作为输入。用于计划步骤的值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计。
在一些实施方式中,值预测神经网络与预测神经网络共享参数值,即,值预测神经网络接收作为处理内部状态表示的结果而生成的预测神经网络的中间输出作为输入。预测神经网络的中间输出指的是预测神经网络的一个或多个隐藏层的一个或多个单元的激活。
在累加器通过λ加权预测确定总回报的实施方式中,λ神经网络处理输入以生成用于下一计划步骤的λ因子(步骤209)。针对第一计划步骤,λ神经网络接收由状态表示神经网络生成的内部状态表示作为输入,并且针对后续计划步骤,λ神经网络接收由预测神经网络在先前计划步骤生成的内部状态表示作为输入。λ因子可以是标量、矢量或矩阵,并且通常具有与结果相同的维度。在一些情况下,λ因子的条目的值在0和1之间。在一些实施方式中,λ神经网络包括S形非线性层,以使λ因子的条目的值位于0到1的范围内。在一些实施方式中,λ神经网络与预测神经网络共享参数值。
系统确定当前计划步骤是否是终点计划步骤(步骤210)。在一些情况下,如果当前计划步骤是预定数量的计划步骤的最后计划步骤,则当前计划步骤可以是终点计划步骤。在λ加权预测实施方式中,如果用于当前计划步骤的λ因子等于零(即,如果λ因子是标量,则λ因子为零,或者如果λ因子是矢量或矩阵,则λ因子的每个条目为零),则当前计划步骤可以是终点计划步骤,如下面将进一步描述的。响应于确定当前计划步骤不是终点计划步骤,系统前进到下一计划步骤,回到步骤206,并重复前面的步骤。响应于确定当前计划步骤是终点计划步骤,累加器确定总回报(步骤212)。
在一些实施方式中,累加器通过k步预测确定总回报,其中k是在1和K之间的整数,其中K是计划步骤的总数。在这些实施方式中,累加器通过组合用于前k个计划步骤中的每一个的预测回报和预测折扣因子以及第k个计划步骤的值预测来生成总回报,以将k步返回确定为输出。具体而言,累加器将k步返回确定为:
gk=r11(r22(…+γk-1(rkkvk)…))
其中gk是k步返回,ri是计划步骤i的回报,γi是计划步骤i的折扣因子,并且vk是计划步骤k的值预测。
在一些其他实施方式中,累加器通过λ加权预测来确定总回报。在这些实施方式中,累加器确定用于每个计划步骤k的k步返回,并根据由λ因子定义的权重将它们组合以确定λ加权返回作为输出。具体而言,累加器可以将λ加权返回确定为:
其中/>
其中gλ是λ加权返回,λk是用于第k个计划步骤的λ因子,wk是权重因子,1是单位矩阵,即对角线为一并且其他地方为零的矩阵,并且gk是k步返回。累加器还可以通过中间步骤gk,λ通过后向累积来确定λ加权返回,其中:
gk,λ=(1-λk)vkk(rk+1k+1gk+1,λ)并且gK,λ=vK
并且λ加权返回gλ被确定为g0,λ
系统可以基于不包括所有K个计划步骤的连续计划步骤的序列来计算λ加权返回gλ。例如,在先前提供的gλ的示例公式中,如果针对计划步骤k,λk=0,则基于前k个计划步骤而不是后续计划步骤的k步返回来确定gλ,因为针对n>k而言权重wn为零。因此,系统基于取决于内部状态表示和系统的学习动态的适应性数量的计划步骤来确定总回报。
图3是用于训练预测系统的示例过程300的流程图。为方便起见,过程300将被描述为由包括位于一个或多个位置的一个或多个计算机的引擎执行。例如,根据本说明书适当编程的训练引擎(例如,图1的训练引擎130)能够执行过程300。
引擎接收与代理交互的环境的一个或多个观察,并且在一些情况下,接收与环境的当前状态相关联的对应结果(步骤302)。
引擎向系统提供观察,并且系统确定作为结果的估计的总回报。参考图2描述用于确定总回报的示例过程。
引擎基于损失函数确定梯度,并后向传播梯度以联合更新系统的神经网络(即值预测神经网络、状态表示神经网络、预测神经网络、以及在λ加权预测实施方式中的λ神经网络)的参数的集合的值。损失函数可以是监督损失函数,即取决于与作为输入被提供并由系统处理的观察相对应的结果的损失函数,可以是无监督损失函数,即不取决于结果的损失函数,或者可以是监督损失项和无监督损失项的组合。
在k步预测实施方式中,可以由下式给出监督损失函数:
其中g是结果。作为另一示例,在λ加权预测实施方式中,用于将梯度后向传播到λ神经网络的监督损失函数可以由下式给出:
而用于将梯度后向传播到值预测神经网络、状态表示神经网络和预测神经网络中的监督损失函数可以由下式给出:
或者可以由下式给出:
在λ加权预测实施方式中,无监督损失函数可以由下式给出:
其中gλ被认为是固定的,并且梯度被后向传播以使每个k步返回gk更类似于gλ,但反之亦然。基于无监督损失函数的后向传播梯度减小了k步返回和λ加权返回之间的差异,使得k步返回自我一致,从而增加系统的鲁棒性。此外,由于无监督损失函数不取决于与作为输入被提供并由系统处理的观察相对应的结果,因此引擎可以通过基于用于其中相应的结果未知的观察的序列的无监督损失函数来后向传播梯度,来训练系统。
针对其中相应的结果已知的训练观察,引擎可以基于组合监督损失项和无监督损失项两者的损失函数,来更新系统的神经网络的参数的集合的值。例如,损失函数可以是监督损失项和无监督损失项的加权线性组合。
本说明书使用与系统和计算机程序组件相关的术语“配置为”。针对要被配置为执行特定操作或动作的一个或多个计算机的系统,意味着已在其上安装了软件、固件、硬件或它们的组合的系统,所述软件、固件、硬件或它们的组合在操作时使系统执行所述操作或动作。针对要被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括当由数据处理装置执行时使该装置执行所述操作或动作的指令。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路中实现,在有形实现的计算机软件或固件中实现,在包括本说明书中公开的结构及其结构等同物的计算机硬件中实现,或者在它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即,在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块,其中所述计算机程序指令用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地,程序指令能够编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以编码信息以便传输到合适的接收器装置以供数据处理装置执行。
术语“数据处理装置”指的是数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。该装置还能够是或者进一步包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还能够包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。
计算机程序(也可以被称为或描述为程序、软件、软件应用、应用程序、模块、软件模块、脚本或代码),可以用任何形式的编程语言编写,所述编程语言包括编译或解释语言、或声明语言或程序语言;它能够以任何形式部署,包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序能够存储在保存其他程序或数据的文件的一部分中,例如,存储在标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一个计算机上执行,或在位于一个站点或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。
在本说明书中,术语“引擎”广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常,引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下,一个或多个计算机将专用于特定的引擎;在其他情况下,可以在相同的一个计算机或多个计算机上安装和运行多个引擎。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行,所述一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路与一个或多个编程计算机的组合来执行。
适合于计算机程序的执行的计算机能够基于通用或专用微处理器或两者,或任何其他种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常,计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据或将数据传递到一个或多个大容量存储设备或者两者兼而有之。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器),仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;和CD ROM盘和DVD-ROM盘。
为了提供与用户的交互,本说明书中描述的主题的实施例能够在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户通过其向计算机提供输入的键盘和指向设备(例如,鼠标或轨迹球)的计算机上实现。其他类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学输入、语音输入或触觉输入。另外,计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求将网页发送到用户设备上的网络浏览器。此外,计算机能够通过向个人设备(例如,运行消息收发应用程序的智能电话)发送文本消息或其他形式的消息、并且反过来从用户接收响应消息,来与用户交互。
用于实现机器学习模型的数据处理装置还能够包括,例如,专用硬件加速器单元,其用于处理机器学习训练或生产的公共和计算密集部分,即推断、工作负载。
能够使用机器学习框架来实现和部署机器学习模型,所述机器学习框架例如TensorFlow框架、Microsoft认知工具包框架、Apache Singa框架或Apache MXNet框架。
本说明书中描述的主题的实施例能够在包括后端组件的计算系统中实现(例如作为数据服务器),或者在包括中间件组件(例如应用服务器)的计算系统中实现,或者在包括前端组件(例如,具有图形用户界面、网络浏览器或应用程序的客户端计算机,其中用户可通过该应用程序与本说明书中描述的主题的实施方式进行交互)的计算机系统中实现,或者在一个或多个这样的后端组件、中间件组件或前端组件的任何组合中实现。系统的组件能够通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如因特网。
计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,HTML页面)发送到用户设备,例如,用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。能够在服务器处从用户设备接收在所述设备处生成的数据,例如,用户交互的结果。
虽然本说明书包含许多具体的实施细节,但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制,而是作为对特定发明的特定实施例所专用的特征的描述。在分开的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。此外,尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护,但是在某些情况下能够从要求保护的组合中切除来自所述组合的一个或多个特征,并且要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然操作在附图中以特定顺序被描绘并且在权利要求中以特定顺序被记载,但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作,或者要执行所有示出的操作,以达到期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都要求这种分离,并且应当理解,所描述的程序组件和系统通常能够一起集成在单个软件产品中或打包成多个软件产品。
已经描述了本主题的特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中记载的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定要求所示的特定顺序或连续顺序来实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。

Claims (12)

1.一种由一个或多个计算机实现的系统,该系统包括:
状态表示神经网络,被配置为:
接收一个或多个观察,其表征正与代理交互的环境的状态,其中代理是与环境交互以完成特定任务的机器人、或者代理是在环境中航行的自主或半自主车辆、或者代理是视频游戏环境中的模拟用户、或者代理是运动模拟环境中航行的模拟车辆,以及
处理所述一个或多个观察以生成当前环境状态的内部状态表示;
预测神经网络,被配置为针对多个内部时间步骤中的每一个:
接收用于内部时间步骤的内部状态表示;和
处理用于内部时间步骤的内部状态表示以生成:
用于下一内部时间步骤的内部状态表示,和
用于下一内部时间步骤的预测回报;
值预测神经网络,被配置为针对所述多个内部时间步骤中的每一个:
接收用于内部时间步骤的内部状态表示,和
处理用于内部时间步骤的内部状态表示以生成值预测,该值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计;和
子系统,被配置为:
接收表征环境的状态的一个或多个观察;
提供所述一个或多个观察作为状态表示神经网络的输入,以生成当前环境状态的内部状态表示;
针对所述多个内部时间步骤中的每一个:
使用预测神经网络和值预测神经网络以及根据用于内部时间步骤的内部状态表示来生成:用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、以及值预测;和
根据用于内部时间步骤的预测回报和值预测来确定总回报。
2.根据权利要求1所述的系统,其中,所述子系统还被配置为:
提供总回报作为对从处于当前状态的环境得到的回报的估计。
3.根据权利要求1所述的系统,其中,所述预测神经网络还被配置为生成用于下一内部时间步骤的预测折扣因子,并且其中,所述子系统被配置为在确定总回报时使用用于内部时间步骤的预测折扣因子。
4.根据权利要求3中所述的系统,其中,所述系统还包括:
λ神经网络,被配置为针对每个内部时间步骤处理用于当前内部时间步骤的内部状态表示以生成用于下一内部时间步骤的λ因子,并且其中,子系统被配置为在确定总回报时确定用于内部时间步骤的k步返回,并使用λ因子来确定用于k步返回的权重,其中k步返回是通过将前k个内部时间步骤中的每一个的预测回报和预测折扣因子与第k内部时间步骤的值预测相结合来确定的。
5.根据权利要求1所述的系统,其中,所述状态表示神经网络包括递归神经网络。
6.根据权利要求1所述的系统,其中,所述状态表示神经网络包括前馈神经网络。
7.根据权利要求1至6中任一项所述的系统,其中,所述预测神经网络包括递归神经网络。
8.根据权利要求1至6中任一项所述的系统,其中,所述预测神经网络包括前馈神经网络,所述前馈神经网络在所述多个时间步骤中的每一个处具有不同的参数值。
9.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行实施根据权利要求1-8中任一项所述的系统的操作的操作。
10.一种计算机实施的方法,包括由权利要求1-8中任一项所述的系统执行的相应操作。
11.一种训练权利要求4-8中任一项的系统的计算机实施的方法,该方法包括以下之一或以下二者:
确定监督损失梯度,所述监督损失梯度取决于总回报和对从处于当前状态的环境得到的结果,和
后向传播损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值;或者
确定一致性损失梯度,所述一致性损失梯度取决于由子系统针对内部时间步骤确定的k步返回的一致性,和
后向传播一致性损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值,
其中反向传播一致性损失梯度减少了总回报和k步返回之间的差。
12.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求11的相应方法的操作。
CN201780078702.3A 2016-11-04 2017-11-04 使用加强学习的环境预测 Active CN110088775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311473332.7A CN117521725A (zh) 2016-11-04 2017-11-04 加强学习系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662418159P 2016-11-04 2016-11-04
US62/418,159 2016-11-04
PCT/IB2017/056902 WO2018083667A1 (en) 2016-11-04 2017-11-04 Reinforcement learning systems

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311473332.7A Division CN117521725A (zh) 2016-11-04 2017-11-04 加强学习系统

Publications (2)

Publication Number Publication Date
CN110088775A CN110088775A (zh) 2019-08-02
CN110088775B true CN110088775B (zh) 2023-11-07

Family

ID=60515745

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780078702.3A Active CN110088775B (zh) 2016-11-04 2017-11-04 使用加强学习的环境预测
CN202311473332.7A Pending CN117521725A (zh) 2016-11-04 2017-11-04 加强学习系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311473332.7A Pending CN117521725A (zh) 2016-11-04 2017-11-04 加强学习系统

Country Status (5)

Country Link
US (2) US10733501B2 (zh)
EP (1) EP3523760B1 (zh)
JP (2) JP6728495B2 (zh)
CN (2) CN110088775B (zh)
WO (1) WO2018083667A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110088775B (zh) * 2016-11-04 2023-11-07 渊慧科技有限公司 使用加强学习的环境预测
US10692244B2 (en) 2017-10-06 2020-06-23 Nvidia Corporation Learning based camera pose estimation from images of an environment
US11735028B2 (en) 2018-06-12 2023-08-22 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US10789511B2 (en) 2018-10-12 2020-09-29 Deepmind Technologies Limited Controlling agents over long time scales using temporal value transport
US11313950B2 (en) 2019-01-15 2022-04-26 Image Sensing Systems, Inc. Machine learning based highway radar vehicle classification across multiple lanes and speeds
US11587552B2 (en) 2019-04-30 2023-02-21 Sutherland Global Services Inc. Real time key conversational metrics prediction and notability
CN114761965A (zh) 2019-09-13 2022-07-15 渊慧科技有限公司 数据驱动的机器人控制
CN114020079B (zh) * 2021-11-03 2022-09-16 北京邮电大学 一种室内空间温度和湿度调控方法及装置
US20230367697A1 (en) * 2022-05-13 2023-11-16 Microsoft Technology Licensing, Llc Cloud architecture for reinforcement learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056213A (zh) * 2015-04-06 2016-10-26 谷歌公司 使用目标和观察来选择强化学习动作

Family Cites Families (248)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004068399A1 (ja) 2003-01-31 2006-05-25 松下電器産業株式会社 予測型行動決定装置および行動決定方法
US20160086222A1 (en) * 2009-01-21 2016-03-24 Truaxis, Inc. Method and system to remind users of targeted offers in similar categories
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8819523B2 (en) * 2011-05-19 2014-08-26 Cambridge Silicon Radio Limited Adaptive controller for a configurable audio coding system
US8793557B2 (en) * 2011-05-19 2014-07-29 Cambrige Silicon Radio Limited Method and apparatus for real-time multidimensional adaptation of an audio coding system
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10803525B1 (en) * 2014-02-19 2020-10-13 Allstate Insurance Company Determining a property of an insurance policy based on the autonomous features of a vehicle
US10558987B2 (en) * 2014-03-12 2020-02-11 Adobe Inc. System identification framework
JP5984147B2 (ja) * 2014-03-27 2016-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及び、プログラム
US10091785B2 (en) * 2014-06-11 2018-10-02 The Board Of Trustees Of The University Of Alabama System and method for managing wireless frequency usage
WO2016106238A1 (en) * 2014-12-24 2016-06-30 Google Inc. Augmenting neural networks to generate additional outputs
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
CA2993551C (en) * 2015-07-24 2022-10-11 Google Llc Continuous control with deep reinforcement learning
US20170061283A1 (en) * 2015-08-26 2017-03-02 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
US10380481B2 (en) * 2015-10-08 2019-08-13 Via Alliance Semiconductor Co., Ltd. Neural network unit that performs concurrent LSTM cell calculations
JP6010204B1 (ja) * 2015-10-26 2016-10-19 ファナック株式会社 パワー素子の予測寿命を学習する機械学習装置及び方法並びに該機械学習装置を備えた寿命予測装置及びモータ駆動装置
CN108701252B (zh) * 2015-11-12 2024-02-02 渊慧科技有限公司 使用优先化经验存储器训练神经网络
KR102172277B1 (ko) * 2015-11-12 2020-10-30 딥마인드 테크놀로지스 리미티드 듀얼 심층 신경 네트워크
US11072067B2 (en) * 2015-11-16 2021-07-27 Kindred Systems Inc. Systems, devices, and methods for distributed artificial neural network computation
US9536191B1 (en) * 2015-11-25 2017-01-03 Osaro, Inc. Reinforcement learning using confidence scores
JP6193961B2 (ja) * 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
WO2017096079A1 (en) * 2015-12-01 2017-06-08 Google Inc. Selecting action slates using reinforcement learning
US10885432B1 (en) * 2015-12-16 2021-01-05 Deepmind Technologies Limited Selecting actions from large discrete action sets using reinforcement learning
CN108431549B (zh) * 2016-01-05 2020-09-04 御眼视觉技术有限公司 具有施加的约束的经训练的系统
US20170213150A1 (en) * 2016-01-25 2017-07-27 Osaro, Inc. Reinforcement learning using a partitioned input state space
JP6339603B2 (ja) * 2016-01-28 2018-06-06 ファナック株式会社 レーザ加工開始条件を学習する機械学習装置、レーザ装置および機械学習方法
JP2017138881A (ja) * 2016-02-05 2017-08-10 ファナック株式会社 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法
JP6669897B2 (ja) * 2016-02-09 2020-03-18 グーグル エルエルシー 優位推定を使用する強化学習
EP3417242B1 (en) * 2016-02-15 2022-12-21 Allstate Insurance Company Real time risk assessment and operational changes with semi-autonomous vehicles
JP6360090B2 (ja) * 2016-03-10 2018-07-18 ファナック株式会社 機械学習装置、レーザ装置および機械学習方法
JP6348137B2 (ja) * 2016-03-24 2018-06-27 ファナック株式会社 工作物の良否を判定する加工機械システム
WO2017192183A1 (en) * 2016-05-04 2017-11-09 Google Llc Augmenting neural networks with external memory using reinforcement learning
EP3459018B1 (en) * 2016-05-20 2021-10-20 Deepmind Technologies Limited Reinforcement learning using pseudo-counts
US11521056B2 (en) * 2016-06-17 2022-12-06 Graham Fyffe System and methods for intrinsic reward reinforcement learning
JP2018004473A (ja) * 2016-07-04 2018-01-11 ファナック株式会社 軸受の予測寿命を学習する機械学習装置、寿命予測装置および機械学習方法
US10839310B2 (en) * 2016-07-15 2020-11-17 Google Llc Selecting content items using reinforcement learning
JP6506219B2 (ja) * 2016-07-21 2019-04-24 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法
WO2018022715A1 (en) * 2016-07-26 2018-02-01 University Of Connecticut Early prediction of an intention of a user's actions
DE202016004628U1 (de) * 2016-07-27 2016-09-23 Google Inc. Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze
US10049301B2 (en) * 2016-08-01 2018-08-14 Siemens Healthcare Gmbh Medical scanner teaches itself to optimize clinical protocols and image acquisition
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
US11188821B1 (en) * 2016-09-15 2021-11-30 X Development Llc Control policies for collective robot learning
JP6514166B2 (ja) * 2016-09-16 2019-05-15 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
CN115343947A (zh) * 2016-09-23 2022-11-15 苹果公司 自主车辆的运动控制决策
US20180100662A1 (en) * 2016-10-11 2018-04-12 Mitsubishi Electric Research Laboratories, Inc. Method for Data-Driven Learning-based Control of HVAC Systems using High-Dimensional Sensory Observations
US9989964B2 (en) * 2016-11-03 2018-06-05 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling vehicle using neural network
EP3696737B1 (en) * 2016-11-03 2022-08-31 Deepmind Technologies Limited Training action selection neural networks
CN110088775B (zh) * 2016-11-04 2023-11-07 渊慧科技有限公司 使用加强学习的环境预测
WO2018085778A1 (en) * 2016-11-04 2018-05-11 Google Llc Unsupervised detection of intermediate reinforcement learning goals
KR102424893B1 (ko) * 2016-11-04 2022-07-25 딥마인드 테크놀로지스 리미티드 보조 작업들을 통한 강화 학습
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
CN110073376A (zh) * 2016-12-14 2019-07-30 索尼公司 信息处理装置和信息处理方法
US20200365015A1 (en) * 2016-12-19 2020-11-19 ThruGreen, LLC Connected and adaptive vehicle traffic management system with digital prioritization
EP3552156B8 (en) * 2017-02-24 2022-08-03 DeepMind Technologies Limited Neural episodic control
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
US10373313B2 (en) * 2017-03-02 2019-08-06 Siemens Healthcare Gmbh Spatially consistent multi-scale anatomical landmark detection in incomplete 3D-CT data
US10542019B2 (en) * 2017-03-09 2020-01-21 International Business Machines Corporation Preventing intersection attacks
US10379538B1 (en) * 2017-03-20 2019-08-13 Zoox, Inc. Trajectory generation using motion primitives
US10345808B2 (en) * 2017-03-30 2019-07-09 Uber Technologies, Inc Systems and methods to control autonomous vehicle motion
CN110832509B (zh) * 2017-04-12 2023-11-03 渊慧科技有限公司 使用神经网络的黑盒优化
WO2018188981A1 (en) * 2017-04-12 2018-10-18 Koninklijke Philips N.V. Drawing conclusions from free form texts with deep reinforcement learning
EP3933713A1 (en) * 2017-04-14 2022-01-05 DeepMind Technologies Limited Distributional reinforcement learning
US10606898B2 (en) * 2017-04-19 2020-03-31 Brown University Interpreting human-robot instructions
EP3596662A1 (en) * 2017-05-19 2020-01-22 Deepmind Technologies Limited Imagination-based agent neural networks
EP3593289A1 (en) * 2017-05-19 2020-01-15 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN117592504A (zh) * 2017-05-26 2024-02-23 渊慧科技有限公司 训练动作选择神经网络的方法
DK3602409T3 (da) * 2017-06-05 2024-01-29 Deepmind Tech Ltd Udvælgelse af handlinger ved hjælp af multimodale inputs
EP3593292A1 (en) * 2017-06-09 2020-01-15 Deepmind Technologies Limited Training action selection neural networks
CN110785268B (zh) * 2017-06-28 2023-04-04 谷歌有限责任公司 用于语义机器人抓取的机器学习方法和装置
US10883844B2 (en) * 2017-07-27 2021-01-05 Waymo Llc Neural networks for vehicle trajectory planning
US11256983B2 (en) * 2017-07-27 2022-02-22 Waymo Llc Neural networks for vehicle trajectory planning
JP6756676B2 (ja) * 2017-07-27 2020-09-16 ファナック株式会社 製造システム
US20200174490A1 (en) * 2017-07-27 2020-06-04 Waymo Llc Neural networks for vehicle trajectory planning
US11112796B2 (en) * 2017-08-08 2021-09-07 Uatc, Llc Object motion prediction and autonomous vehicle control
JP6564432B2 (ja) * 2017-08-29 2019-08-21 ファナック株式会社 機械学習装置、制御システム、制御装置、及び機械学習方法
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
US10739776B2 (en) * 2017-10-12 2020-08-11 Honda Motor Co., Ltd. Autonomous vehicle policy generation
US10701641B2 (en) * 2017-10-13 2020-06-30 Apple Inc. Interference mitigation in ultra-dense wireless networks
EP3688675A1 (en) * 2017-10-27 2020-08-05 DeepMind Technologies Limited Distributional reinforcement learning for continuous control tasks
US20200285940A1 (en) * 2017-10-27 2020-09-10 Deepmind Technologies Limited Machine learning systems with memory based parameter adaptation for learning fast and slower
US11701773B2 (en) * 2017-12-05 2023-07-18 Google Llc Viewpoint invariant visual servoing of robot end effector using recurrent neural network
US10926408B1 (en) * 2018-01-12 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for efficiently learning robotic control policies
US20190244099A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Continual reinforcement learning with a multi-task agent
WO2019149949A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Distributed training using off-policy actor-critic reinforcement learning
US11221413B2 (en) * 2018-03-14 2022-01-11 Uatc, Llc Three-dimensional object detection
US11467590B2 (en) * 2018-04-09 2022-10-11 SafeAI, Inc. Techniques for considering uncertainty in use of artificial intelligence models
JP6740277B2 (ja) * 2018-04-13 2020-08-12 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法
EP3782080A1 (en) * 2018-04-18 2021-02-24 DeepMind Technologies Limited Neural networks for scalable continual learning in domains with sequentially learned tasks
US11263531B2 (en) * 2018-05-18 2022-03-01 Deepmind Technologies Limited Unsupervised control using learned rewards
CN117549293A (zh) * 2018-05-18 2024-02-13 谷歌有限责任公司 数据高效的分层强化学习
US11370423B2 (en) * 2018-06-15 2022-06-28 Uatc, Llc Multi-task machine-learned models for object intention determination in autonomous driving
US11454975B2 (en) * 2018-06-28 2022-09-27 Uatc, Llc Providing actionable uncertainties in autonomous vehicles
US11397089B2 (en) * 2018-07-13 2022-07-26 Uatc, Llc Autonomous vehicle routing with route extension
JP6608010B1 (ja) * 2018-07-25 2019-11-20 積水化学工業株式会社 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法
US11423295B2 (en) * 2018-07-26 2022-08-23 Sap Se Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning
US11537872B2 (en) * 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
US11734575B2 (en) * 2018-07-30 2023-08-22 International Business Machines Corporation Sequential learning of constraints for hierarchical reinforcement learning
EP3605334A1 (en) * 2018-07-31 2020-02-05 Prowler.io Limited Incentive control for multi-agent systems
JP7011239B2 (ja) * 2018-08-17 2022-01-26 横河電機株式会社 装置、方法、プログラム、および、記録媒体
US11833681B2 (en) * 2018-08-24 2023-12-05 Nvidia Corporation Robotic control system
WO2020047657A1 (en) * 2018-09-04 2020-03-12 Kindred Systems Inc. Real-time real-world reinforcement learning systems and methods
WO2020055759A1 (en) * 2018-09-11 2020-03-19 Nvidia Corporation Future object trajectory predictions for autonomous machine applications
US20220067850A1 (en) * 2018-09-12 2022-03-03 Electra Vehicles, Inc. Systems and methods for managing energy storage systems
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
US20200097808A1 (en) * 2018-09-21 2020-03-26 International Business Machines Corporation Pattern Identification in Reinforcement Learning
US10872294B2 (en) * 2018-09-27 2020-12-22 Deepmind Technologies Limited Imitation learning using a generative predecessor neural network
WO2020064994A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Reinforcement learning neural networks grounded in learned visual entities
JP2022501090A (ja) * 2018-09-27 2022-01-06 クアンタム サージカル 自動位置決め手段を備えた医療ロボット
US11568207B2 (en) * 2018-09-27 2023-01-31 Deepmind Technologies Limited Learning observation representations by predicting the future in latent space
EP3788549B1 (en) * 2018-09-27 2023-09-06 DeepMind Technologies Limited Stacked convolutional long short-term memory for model-free reinforcement learning
US10831210B1 (en) * 2018-09-28 2020-11-10 Zoox, Inc. Trajectory generation and optimization using closed-form numerical integration in route-relative coordinates
JP6901450B2 (ja) * 2018-10-02 2021-07-14 ファナック株式会社 機械学習装置、制御装置及び機械学習方法
US20210402598A1 (en) * 2018-10-10 2021-12-30 Sony Corporation Robot control device, robot control method, and robot control program
EP3640873A1 (en) * 2018-10-17 2020-04-22 Tata Consultancy Services Limited System and method for concurrent dynamic optimization of replenishment decision in networked node environment
SG11202104066UA (en) * 2018-10-26 2021-05-28 Dow Global Technologies Llc Deep reinforcement learning for production scheduling
US20210383218A1 (en) * 2018-10-29 2021-12-09 Google Llc Determining control policies by minimizing the impact of delusion
US20200134445A1 (en) * 2018-10-31 2020-04-30 Advanced Micro Devices, Inc. Architecture for deep q learning
US11231717B2 (en) * 2018-11-08 2022-01-25 Baidu Usa Llc Auto-tuning motion planning system for autonomous vehicles
JP6849643B2 (ja) * 2018-11-09 2021-03-24 ファナック株式会社 出力装置、制御装置、及び評価関数と機械学習結果の出力方法
WO2020099672A1 (en) * 2018-11-16 2020-05-22 Deepmind Technologies Limited Controlling agents using amortized q learning
US11048253B2 (en) * 2018-11-21 2021-06-29 Waymo Llc Agent prioritization for autonomous vehicles
JP6970078B2 (ja) * 2018-11-28 2021-11-24 株式会社東芝 ロボット動作計画装置、ロボットシステム、および方法
KR101990326B1 (ko) * 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
US10997729B2 (en) * 2018-11-30 2021-05-04 Baidu Usa Llc Real time object behavior prediction
US11137762B2 (en) * 2018-11-30 2021-10-05 Baidu Usa Llc Real time decision making for autonomous driving vehicles
US11131992B2 (en) * 2018-11-30 2021-09-28 Denso International America, Inc. Multi-level collaborative control system with dual neural network planning for autonomous vehicle control in a noisy environment
WO2020132339A2 (en) * 2018-12-19 2020-06-25 Uatc, Llc Routing autonomous vehicles using temporal data
WO2020152364A1 (en) * 2019-01-24 2020-07-30 Deepmind Technologies Limited Multi-agent reinforcement learning with matchmaking policies
JP2020116869A (ja) * 2019-01-25 2020-08-06 セイコーエプソン株式会社 印刷装置、学習装置、学習方法および学習プログラム
US20200272905A1 (en) * 2019-02-26 2020-08-27 GE Precision Healthcare LLC Artificial neural network compression via iterative hybrid reinforcement learning approach
US10700935B1 (en) * 2019-02-27 2020-06-30 Peritus.AI, Inc. Automatic configuration and operation of complex systems
CA3075156A1 (en) * 2019-03-15 2020-09-15 Mission Control Space Services Inc. Terrain traficability assesment for autonomous or semi-autonomous rover or vehicle
US20200310420A1 (en) * 2019-03-26 2020-10-01 GM Global Technology Operations LLC System and method to train and select a best solution in a dynamical system
US11132608B2 (en) * 2019-04-04 2021-09-28 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
US11312372B2 (en) * 2019-04-16 2022-04-26 Ford Global Technologies, Llc Vehicle path prediction
JP7010877B2 (ja) * 2019-04-25 2022-01-26 ファナック株式会社 機械学習装置、数値制御システム及び機械学習方法
JP2022532853A (ja) * 2019-04-30 2022-07-20 ソウル マシーンズ リミティド シーケンシング及びプランニングのためのシステム
US11701771B2 (en) * 2019-05-15 2023-07-18 Nvidia Corporation Grasp generation using a variational autoencoder
WO2020234476A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Large scale generative neural network model with inference for representation learning using adversial training
WO2020239641A1 (en) * 2019-05-24 2020-12-03 Deepmind Technologies Limited Hierarchical policies for multitask transfer
US11482210B2 (en) * 2019-05-29 2022-10-25 Lg Electronics Inc. Artificial intelligence device capable of controlling other devices based on device information
US11814046B2 (en) * 2019-05-29 2023-11-14 Motional Ad Llc Estimating speed profiles
JP7221423B6 (ja) * 2019-06-10 2023-05-16 ジョビー エアロ,インコーポレイテッド 時間変動音量予測システム
EP3977227A4 (en) * 2019-07-03 2023-01-25 Waymo Llc AGENT PATH PREDICTION USING ANCHOR PATHS
WO2021004437A1 (en) * 2019-07-05 2021-01-14 Huawei Technologies Co., Ltd. Method and system for predictive control of vehicle using digital images
US20220269948A1 (en) * 2019-07-12 2022-08-25 Elektrobit Automotive Gmbh Training of a convolutional neural network
JP7342491B2 (ja) * 2019-07-25 2023-09-12 オムロン株式会社 推論装置、推論方法、及び推論プログラム
US11481420B2 (en) * 2019-08-08 2022-10-25 Nice Ltd. Systems and methods for analyzing computer input to provide next action
US11407409B2 (en) * 2019-08-13 2022-08-09 Zoox, Inc. System and method for trajectory validation
SE1950924A1 (en) * 2019-08-13 2021-02-14 Kaaberg Johard Leonard Improved machine learning for technical systems
US11397434B2 (en) * 2019-08-13 2022-07-26 Zoox, Inc. Consistency validation for vehicle trajectory selection
US11458965B2 (en) * 2019-08-13 2022-10-04 Zoox, Inc. Feasibility validation for vehicle trajectory selection
US11599823B2 (en) * 2019-08-14 2023-03-07 International Business Machines Corporation Quantum reinforcement learning agent
WO2021040958A1 (en) * 2019-08-23 2021-03-04 Carrier Corporation System and method for early event detection using generative and discriminative machine learning models
EP4003664A1 (en) * 2019-08-27 2022-06-01 Google LLC Future prediction, using stochastic adversarial based sampling, for robotic control
US11132403B2 (en) * 2019-09-06 2021-09-28 Digital Asset Capital, Inc. Graph-manipulation based domain-specific execution environment
CN114761965A (zh) * 2019-09-13 2022-07-15 渊慧科技有限公司 数据驱动的机器人控制
EP4003665A1 (en) * 2019-09-15 2022-06-01 Google LLC Determining environment-conditioned action sequences for robotic tasks
CN114521262A (zh) * 2019-09-25 2022-05-20 渊慧科技有限公司 使用因果正确环境模型来控制智能体
JP7335434B2 (ja) * 2019-09-25 2023-08-29 ディープマインド テクノロジーズ リミテッド 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練
US20210089908A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Modulating agent behavior to optimize learning progress
WO2021058583A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
US11650551B2 (en) * 2019-10-04 2023-05-16 Mitsubishi Electric Research Laboratories, Inc. System and method for policy optimization using quasi-Newton trust region method
US11645518B2 (en) * 2019-10-07 2023-05-09 Waymo Llc Multi-agent simulations
EP3812972A1 (en) * 2019-10-25 2021-04-28 Robert Bosch GmbH Method for controlling a robot and robot controller
US11586931B2 (en) * 2019-10-31 2023-02-21 Waymo Llc Training trajectory scoring neural networks to accurately assign scores
US20210133583A1 (en) * 2019-11-05 2021-05-06 Nvidia Corporation Distributed weight update for backpropagation of a neural network
US11912271B2 (en) * 2019-11-07 2024-02-27 Motional Ad Llc Trajectory prediction from precomputed or dynamically generated bank of trajectories
CN112937564B (zh) * 2019-11-27 2022-09-02 魔门塔(苏州)科技有限公司 换道决策模型生成方法和无人车换道决策方法及装置
US11735045B2 (en) * 2019-12-04 2023-08-22 Uatc, Llc Systems and methods for computational resource allocation for autonomous vehicles
US11442459B2 (en) * 2019-12-11 2022-09-13 Uatc, Llc Systems and methods for training predictive models for autonomous devices
US20210192287A1 (en) * 2019-12-18 2021-06-24 Nvidia Corporation Master transform architecture for deep learning
CN111061277B (zh) * 2019-12-31 2022-04-05 歌尔股份有限公司 一种无人车全局路径规划方法和装置
US11332165B2 (en) * 2020-01-27 2022-05-17 Honda Motor Co., Ltd. Human trust calibration for autonomous driving agent of vehicle
US11494649B2 (en) * 2020-01-31 2022-11-08 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning
US20220291666A1 (en) * 2020-02-03 2022-09-15 Strong Force TX Portfolio 2018, LLC Ai solution selection for an automated robotic process
EP4104104A1 (en) * 2020-02-10 2022-12-21 Deeplife Generative digital twin of complex systems
JP7234970B2 (ja) * 2020-02-17 2023-03-08 株式会社デンソー 車両行動生成装置、車両行動生成方法、および車両行動生成プログラム
DE102020202350A1 (de) * 2020-02-24 2021-08-26 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter
US11717960B2 (en) * 2020-02-25 2023-08-08 Intelligrated Headquarters, Llc Anti-sway control for a robotic arm with adaptive grasping
US11759951B2 (en) * 2020-02-28 2023-09-19 Honda Motor Co., Ltd. Systems and methods for incorporating latent states into robotic planning
US11782438B2 (en) * 2020-03-17 2023-10-10 Nissan North America, Inc. Apparatus and method for post-processing a decision-making model of an autonomous vehicle using multivariate data
US20210327578A1 (en) * 2020-04-08 2021-10-21 Babylon Partners Limited System and Method for Medical Triage Through Deep Q-Learning
US20210334654A1 (en) * 2020-04-24 2021-10-28 Mastercard International Incorporated Methods and systems for reducing bias in an artificial intelligence model
WO2021220008A1 (en) * 2020-04-29 2021-11-04 Deep Render Ltd Image compression and decoding, video compression and decoding: methods and systems
WO2021232047A1 (en) * 2020-05-12 2021-11-18 Uber Technologies, Inc. Vehicle routing using third party vehicle capabilities
EP4162338A1 (en) * 2020-06-05 2023-04-12 Gatik AI Inc. Method and system for deterministic trajectory selection based on uncertainty estimation for an autonomous agent
EP4162721A4 (en) * 2020-06-05 2024-03-06 Ericsson Telefon Ab L M MACHINE LEARNING-BASED DYNAMIC SPECTRUM SHARING
US20210390409A1 (en) * 2020-06-12 2021-12-16 Google Llc Training reinforcement learning agents using augmented temporal difference learning
US20210397959A1 (en) * 2020-06-22 2021-12-23 Google Llc Training reinforcement learning agents to learn expert exploration behaviors from demonstrators
US11734624B2 (en) * 2020-07-24 2023-08-22 Genesys Cloud Services, Inc. Method and system for scalable contact center agent scheduling utilizing automated AI modeling and multi-objective optimization
US11835958B2 (en) * 2020-07-28 2023-12-05 Huawei Technologies Co., Ltd. Predictive motion planning system and method
US20220032949A1 (en) * 2020-07-29 2022-02-03 Uber Technologies, Inc. Routing feature flags
DE102020209685B4 (de) * 2020-07-31 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
EP4196876A4 (en) * 2020-08-14 2024-04-10 Lancium Llc PERFORMANCE-CONSCIOUS PLANNING
JP7366860B2 (ja) * 2020-08-17 2023-10-23 株式会社日立製作所 攻撃シナリオシミュレーション装置、攻撃シナリオ生成システム、および攻撃シナリオ生成方法
US11715007B2 (en) * 2020-08-28 2023-08-01 UMNAI Limited Behaviour modeling, verification, and autonomous actions and triggers of ML and AI systems
EP4205034A1 (en) * 2020-10-02 2023-07-05 DeepMind Technologies Limited Training reinforcement learning agents using augmented temporal difference learning
US20220129708A1 (en) * 2020-10-22 2022-04-28 Applied Materials Israel Ltd. Segmenting an image using a neural network
EP4244770A1 (en) * 2020-11-12 2023-09-20 Umnai Limited Architecture for explainable reinforcement learning
US20220152826A1 (en) * 2020-11-13 2022-05-19 Nvidia Corporation Object rearrangement using learned implicit collision functions
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization
US20220188695A1 (en) * 2020-12-16 2022-06-16 Argo AI, LLC Autonomous vehicle system for intelligent on-board selection of data for training a remote machine learning model
US20220197280A1 (en) * 2020-12-22 2022-06-23 Uatc, Llc Systems and Methods for Error Sourcing in Autonomous Vehicle Simulation
US20210133633A1 (en) * 2020-12-22 2021-05-06 Intel Corporation Autonomous machine knowledge transfer
US20220204055A1 (en) * 2020-12-30 2022-06-30 Waymo Llc Optimization of planning trajectories for multiple agents
US20220207337A1 (en) * 2020-12-31 2022-06-30 Deepx Co., Ltd. Method for artificial neural network and neural processing unit
US20220234651A1 (en) * 2021-01-25 2022-07-28 GM Global Technology Operations LLC Methods, systems, and apparatuses for adaptive driver override for path based automated driving assist
CN114912041A (zh) * 2021-01-29 2022-08-16 伊姆西Ip控股有限责任公司 信息处理方法、电子设备和计算机程序产品
US20220261635A1 (en) * 2021-02-12 2022-08-18 DeeMind Technologies Limited Training a policy neural network for controlling an agent using best response policy iteration
US20220269937A1 (en) * 2021-02-24 2022-08-25 Nvidia Corporation Generating frames for neural simulation using one or more neural networks
US20220276657A1 (en) * 2021-03-01 2022-09-01 Samsung Electronics Co., Ltd. Trajectory generation of a robot using a neural network
US11475043B2 (en) * 2021-03-05 2022-10-18 International Business Machines Corporation Machine learning based application of changes in a target database system
US20220284261A1 (en) * 2021-03-05 2022-09-08 The Aerospace Corporation Training-support-based machine learning classification and regression augmentation
US20220300851A1 (en) * 2021-03-18 2022-09-22 Toyota Research Institute, Inc. System and method for training a multi-task model
US20220305649A1 (en) * 2021-03-25 2022-09-29 Naver Corporation Reachable manifold and inverse mapping training for robots
US20220309336A1 (en) * 2021-03-26 2022-09-29 Nvidia Corporation Accessing tensors
US11787055B2 (en) * 2021-03-30 2023-10-17 Honda Research Institute Europe Gmbh Controlling a robot using predictive decision making
US11945441B2 (en) * 2021-03-31 2024-04-02 Nissan North America, Inc. Explainability and interface design for lane-level route planner
US20220318557A1 (en) * 2021-04-06 2022-10-06 Nvidia Corporation Techniques for identification of out-of-distribution input data in neural networks
US20220335624A1 (en) * 2021-04-15 2022-10-20 Waymo Llc Unsupervised training of optical flow estimation neural networks
US11144847B1 (en) * 2021-04-15 2021-10-12 Latent Strategies LLC Reinforcement learning using obfuscated environment models
US11713059B2 (en) * 2021-04-22 2023-08-01 SafeAI, Inc. Autonomous control of heavy equipment and vehicles using task hierarchies
US20220355825A1 (en) * 2021-04-23 2022-11-10 Motional Ad Llc Predicting agent trajectories
US20220366220A1 (en) * 2021-04-29 2022-11-17 Nvidia Corporation Dynamic weight updates for neural networks
US20220366263A1 (en) * 2021-05-06 2022-11-17 Waymo Llc Training distilled machine learning models using a pre-trained feature extractor
US20220373980A1 (en) * 2021-05-06 2022-11-24 Massachusetts Institute Of Technology Dymamic control of a manufacturing process using deep reinforcement learning
US11546665B2 (en) * 2021-05-07 2023-01-03 Hulu, LLC Reinforcement learning for guaranteed delivery of supplemental content
US20220366235A1 (en) * 2021-05-13 2022-11-17 Deepmind Technologies Limited Controlling operation of actor and learner computing units based on a usage rate of a replay memory
CA3160224A1 (en) * 2021-05-21 2022-11-21 Royal Bank Of Canada System and method for conditional marginal distributions at flexible evaluation horizons
US20220398283A1 (en) * 2021-05-25 2022-12-15 Nvidia Corporation Method for fast and better tree search for reinforcement learning
US11941899B2 (en) * 2021-05-26 2024-03-26 Nvidia Corporation Data selection based on uncertainty quantification
US11921506B2 (en) * 2021-05-28 2024-03-05 Nissan North America, Inc. Belief state determination for real-time decision-making
US20220383074A1 (en) * 2021-05-28 2022-12-01 Deepmind Technologies Limited Persistent message passing for graph neural networks
US20230025154A1 (en) * 2021-07-22 2023-01-26 The Boeing Company Dual agent reinforcement learning based system for autonomous operation of aircraft
US20230075473A1 (en) * 2021-09-09 2023-03-09 Mycronic AB Device and method for enabling deriving of corrected digital pattern descriptions
US20230121913A1 (en) * 2021-10-19 2023-04-20 Volvo Car Corporation Intelligent messaging framework for vehicle ecosystem communication
US20230237342A1 (en) * 2022-01-24 2023-07-27 Nvidia Corporation Adaptive lookahead for planning and learning
CN114362175B (zh) * 2022-03-10 2022-06-07 山东大学 基于深度确定性策略梯度算法的风电功率预测方法及系统
US11429845B1 (en) * 2022-03-29 2022-08-30 Intuit Inc. Sparsity handling for machine learning model forecasting
US20230376961A1 (en) * 2022-05-19 2023-11-23 Oracle Financial Services Software Limited Reinforcement learning agent simulation to measure monitoring system strength
US20240070485A1 (en) * 2022-08-16 2024-02-29 Optum, Inc. Reinforcement learning for optimizing cross-channel communications
CN115529278A (zh) * 2022-09-07 2022-12-27 华东师范大学 基于多智能体强化学习的数据中心网络ecn自动调控方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056213A (zh) * 2015-04-06 2016-10-26 谷歌公司 使用目标和观察来选择强化学习动作

Also Published As

Publication number Publication date
CN110088775A (zh) 2019-08-02
US20200327399A1 (en) 2020-10-15
JP6728495B2 (ja) 2020-07-22
EP3523760B1 (en) 2024-01-24
US20190259051A1 (en) 2019-08-22
EP3523760A1 (en) 2019-08-14
JP2020191097A (ja) 2020-11-26
CN117521725A (zh) 2024-02-06
US10733501B2 (en) 2020-08-04
JP2019537136A (ja) 2019-12-19
WO2018083667A1 (en) 2018-05-11
JP6917508B2 (ja) 2021-08-11

Similar Documents

Publication Publication Date Title
CN110088775B (zh) 使用加强学习的环境预测
CN110114783B (zh) 利用辅助任务的强化学习
CN110088774B (zh) 使用强化学习的环境导航
CN110692066B (zh) 使用多模态输入选择动作
CN110326004B (zh) 使用路径一致性学习训练策略神经网络
CN110546653B (zh) 使用管理者和工作者神经网络的用于强化学习的动作选择
US20210201156A1 (en) Sample-efficient reinforcement learning
US11200482B2 (en) Recurrent environment predictors
US20210049467A1 (en) Graph neural networks representing physical systems
US10860895B2 (en) Imagination-based agent neural networks
JP7181415B2 (ja) 観測値の尤度を使用して環境を探索するためのエージェントを制御すること

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant