CN117521725A - 加强学习系统 - Google Patents
加强学习系统 Download PDFInfo
- Publication number
- CN117521725A CN117521725A CN202311473332.7A CN202311473332A CN117521725A CN 117521725 A CN117521725 A CN 117521725A CN 202311473332 A CN202311473332 A CN 202311473332A CN 117521725 A CN117521725 A CN 117521725A
- Authority
- CN
- China
- Prior art keywords
- planning
- planning step
- environment
- neural network
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims description 31
- 230000001186 cumulative effect Effects 0.000 claims description 12
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims 3
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 27
- 238000004590 computer program Methods 0.000 abstract description 16
- 230000007613 environmental effect Effects 0.000 abstract description 9
- 239000003795 chemical substances by application Substances 0.000 description 33
- 230000006870 function Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 238000004088 simulation Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 241000009334 Singa Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Feedback Control In General (AREA)
Abstract
本公开提供了方法、系统和装置,其包括在计算机存储介质上编码的计算机程序,所述计算机程序用于预测与环境有关的结果。在一个方面,一种系统包括状态表示神经网络,被配置为接收表征与代理交互的环境的状态的观察,并处理该观察以生成环境状态的内部状态表示;预测神经网络,被配置为接收当前环境状态的当前内部状态表示,并处理当前内部状态表示以生成环境的后续状态的预测后续状态表示和用于后续状态的预测回报;和值预测神经网络,被配置为接收当前环境状态的当前内部状态表示,并处理当前内部状态表示以生成值预测。
Description
本申请是申请日为2017年11月04日、申请号为201780078702.3的发明专利申请的分案申请。
背景技术
本说明书涉及使用机器学习模型的预测。
机器学习模型接收输入并基于所接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并基于接收的输入和模型的参数值生成输出。
一些机器学习模型是深度模型,所述深度模型采用多层模型来生成针对接收的输入的输出。例如,深度神经网络是深度机器学习模型,所述深度机器学习模型包括输出层和一个或多个隐藏层,其中每个隐藏层将非线性变换应用于接收的输入以生成输出。
发明内容
本说明书描述了在一个或多个位置中的一个或多个计算机上被实现为计算机程序的系统,所述系统通过一系列内部计划步骤生成值预测来确定从处于初始状态的环境得到的总回报(aggregate reward)的估计。
根据第一方面,提供了一种系统,包括:状态表示神经网络,其被配置为:接收表征(character)与代理交互的环境的状态的一个或多个观察,和处理所述一个或多个观察以生成当前环境状态的内部状态表示;预测神经网络,被配置为针对多个内部时间步骤中的每一个:接收用于内部时间步骤的内部状态表示;和处理用于内部时间步骤的内部状态表示以生成:用于下一内部时间步骤的内部状态表示,以及用于下一内部时间步骤的预测回报;值预测神经网络,被配置为针对多个内部时间步骤中的每一个:接收用于内部时间步骤的内部状态表示,和处理用于内部时间步骤的内部状态表示以生成值预测,该值预测是从下一内部时间步骤开始的对未来累积折扣回报的估计;和预测子系统,其被配置为:接收表征环境的状态的一个或多个观察;提供所述一个或多个观察作为状态表示神经网络的输入,以生成当前环境状态的内部状态表示;针对多个内部时间步骤中的每一个:使用预测神经网络和值预测神经网络,并从用于内部时间步骤的内部状态表示生成:用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、和值预测;和根据预测回报和用于内部时间步骤的值预测来确定总回报。
在相关方面,提供了由一个或多个计算机实现的系统,该系统包括:状态表示神经网络,其被配置为:接收表征与代理交互的环境的状态的观察,和处理所述观察以生成环境状态的内部状态表示;预测神经网络,被配置为:接收当前环境状态的当前内部状态表示;和处理当前内部状态表示以生成:环境的后续状态的预测后续状态表示、以及用于后续状态的预测回报;以及值预测神经网络,其被配置为:接收当前环境状态的当前内部状态表示,和处理当前内部状态表示以生成值预测,该值预测是从当前环境状态开始的对未来累积折扣回报的估计。
在相关方面的优选实施方式中,该系统包括预测子系统,该预测子系统被配置为:接收表征环境的初始状态的初始观察;提供初始观察作为状态表示神经网络的输入,以生成环境状态的初始内部状态表示;针对多个内部时间步骤中的每一个:使用预测神经网络和值预测神经网络并且根据当前状态表示,生成预测后续状态表示、预测回报和值预测;以及根据用于所述时间步骤的预测回报和值预测来确定总回报。
因此,如本文所述,系统可以将环境模型与计划模型集成。这在这里被称为预测系统;在一些实施方式中,预测系统采用如上所述的预测子系统。预测子系统还可以被配置为提供总回报作为对从处于当前状态的环境得到的回报的估计。内部时间步骤可以被视为计划步骤。未来累积折扣回报可以包括对用于多个未来时间步骤的未来回报的估计,因此它可以是累积的。回报可以通过给予回报权重并在更晚时间步骤比在更早时间步骤对回报加权更少来打折。
在一些实施方式中,预测神经网络还被配置为生成用于下一内部时间步骤的预测折扣因子,并且预测子系统被配置为在确定总回报时使用用于内部时间步骤的预测折扣因子。可以通过折扣因子的乘积对未来回报加权来将回报打折,其中每个折扣因子在0和1之间,每个连续时间步骤一个折扣因子。预测子系统可用于预测折扣因子。如下所述,总回报可以由累加器确定。
在一些实施方式中,该系统还包括:λ(lambda)神经网络,其被配置为针对内部时间步骤中的每一个,处理用于当前内部时间步骤的内部状态表示,以生成用于下一内部时间的λ因子。并且预测子系统被配置为在确定总回报时确定用于内部时间步骤的返回(return)因子,并使用λ因子来确定用于返回因子的权重。返回因子可以包括用于内部计划时间步骤的预测返回。这可以根据预测回报、预测折扣因子和值预测的组合来确定;可以针对k个未来内部时间(即,计划步骤)中的每一个来确定。
在一些实施方式中,状态表示神经网络是递归神经网络。
在一些实施方式中,状态表示神经网络是前馈神经网络。
在一些实施方式中,预测神经网络是递归神经网络。
在一些实施方式中,预测神经网络是前馈神经网络,其在多个时间步骤中的每一个具有不同的参数值。
根据第二方面,提供了一种方法,包括由预测子系统执行的相应操作。
根据第三方面,提供了一种训练该系统的方法,包括:确定损失梯度(gradient),所述损失梯度是基于总回报的和对从处于当前状态的环境得到的回报的估计;并且后向传播损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。
根据第四方面,提供了一种用于训练该系统的方法,包括:确定一致性损失梯度,该一致性损失梯度基于由预测子系统针对内部时间步骤确定的返回因子的一致性;并且后向传播一致性损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。
可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。本说明书中描述的预测系统联合学习环境的模型(即系统的状态表示神经网络和预测神经网络)和计划模型(即,值预测神经网络,并且在使用时,λ神经网络网络),其中计划模型生成估计累积回报的值函数。传统系统分别学习环境的模型和计划模型,因此在传统系统中,该模型与计划任务不完全匹配。相反,对于本说明书中描述的预测系统,环境模型和计划模型是联合学习的,因此系统能够生成有助于比传统系统更准确地估计与环境的当前状态相关联的结果的值函数。
此外,与传统系统不同,本说明书中描述的预测系统可以部分地通过无监督学习方法(即基于表征其中与环境的当前状态相关联的结果是未知的环境的状态的观察)来训练。因此,由于辅助无监督训练,本说明书中描述的系统生成值函数,所述值函数有助于比传统系统更准确地估计与环境的当前状态相关联的结果。此外,如本说明书中所述,训练预测系统所需的标记(labelled)训练数据少于训练传统系统所需的标记训练数据,因为与传统系统不同,预测系统能够通过辅助无监督训练进行训练。
此外,本说明书中描述的预测系统基于取决于系统的内部状态表示和内部动态的适应性数量的计划步骤来生成输出。特别地,在一些情况下,预测系统可以基于比计划步骤的总可能数量更少的计划步骤来生成输出,并且因此比在所有情况下基于利用每个计划步骤来生成输出的传统系统消耗更少的计算资源(例如,使用更少的计算能力和计算时间)。
在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图,本主题的其他特征、方面和优点将变得清楚。
附图说明
图1示出了示例性预测系统。
图2是用于确定总回报输出的示例过程的流程图。
图3是用于训练预测系统的示例过程的流程图。
各附图中相同的附图标记和名称表示相同的元件。
具体实施方式
图1示出了示例性预测系统100。预测系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中在所述计算机程序中实现了下面描述的系统、组件和技术。
系统100估计由与环境106交互的代理102执行的动作104的效果。
在一些实施方式中,环境106是模拟环境,并且代理102被实现为与模拟环境交互的一个或多个计算机程序。例如,模拟环境可以是视频游戏,并且代理102可以是玩视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如驾驶模拟或飞行模拟,并且代理102是在运动模拟中航行的模拟车辆。
在一些其他实施方式中,环境106是真实世界环境,并且代理102是与真实世界环境交互的机械代理。例如,代理102可以是与环境交互以完成特定任务的机器人。作为另一示例,代理102可以是在环境106中航行的自主或半自主车辆。
系统100输出总回报110作为对与代理102交互的环境106的当前状态相关联的结果128的估计。系统100通过累积在多个内部时间步骤(在本说明书中称为计划步骤)上的预测回报116、预测折扣因子118、和值预测来生成总回报110。
结果128能够编码与代理102交互的环境106的任何事件或方面。例如,结果128可以包括二进制值,其指示在环境中航行的代理是否从环境106的当前状态开始到达环境中的特定位置。作为另一示例,结果128可以包括值,所述值指示基于在环境106中航行的代理102从环境106的当前状态开始完成某些任务(例如,到达环境106中的某些位置)的、由代理102接收的累积回报。
一旦经过训练,系统100就可以用于例如选择要由代理102执行的动作104。例如,如果结果128包括评定代理102与环境106的交互成功的值,例如,表示代理从环境的当前状态开始完成任务所花费的时间量的值,然后可以选择代理102的动作104作为由系统100预测的、用来优化对应于该值的结果128的分量的动作。
系统100包括预测神经网络120,针对每个计划步骤,预测神经网络120被配置为处理输入以生成以下作为输出:(i)用于下一计划步骤,即当前计划步骤之后的计划步骤,的内部状态表示114,(ii)用于下一计划步骤的预测回报116,以及(iii)用于下一计划步骤的预测折扣因子118。针对第一计划步骤,预测神经网络120接收由状态表示神经网络122生成的内部状态表示114作为输入,并且针对后续计划步骤,预测神经网络120接收由预测神经网络120在先前计划步骤生成的内部状态表示114作为输入。预测回报116、预测折扣因子118和结果128可以是标量、矢量或矩阵,并且通常都具有相同的维度。通常,预测折扣因子118的条目都是0和1之间的值。内部状态表示114、预测回报116和预测折扣因子118是系统使用的抽象表示,用于便利对与环境106的当前状态相关联的结果128的预测。
状态表示神经网络122被配置为接收环境106的一个或多个观察108的序列作为输入,并且根据状态表示神经网络参数的集合的值处理所述观察以生成用于第一计划步骤的内部状态表示114作为输出。通常,内部状态表示114的维度可以与环境106的一个或多个观察108的维度不同。
在一些实施方式中,观察108可以由代理102的传感器生成或从代理102的传感器导出。例如,观察108可以是由代理102的相机捕获的图像。作为另一示例,观察108可以从由代理102的激光传感器捕获的数据导出。作为另一示例,观察108可以是由代理102的高光谱传感器捕获的高光谱图像。
系统100包括值预测神经网络124,值预测神经网络124被配置为,针对每个计划步骤,处理用于该计划步骤的内部状态表示114以生成用于下一计划步骤的值预测。用于计划步骤的值预测是对从下一计划步骤开始的未来累积折扣回报的估计,即,值预测可以是对以下总和的估计而不是直接计算:
vk=rk+1+γk+1rk+2+γk+1γk+2rk+3+…
其中vk是在计划步骤k的值预测,ri是在计划步骤i的预测回报116,并且γi是在计划步骤i的预测因子118。
累积回报110由累加器112生成,并且是对与环境106的当前状态相关联的结果128的估计。总回报110可以是标量、矢量或矩阵,并且具有与结果128相同的维度。在一些实施方式中,累加器112通过在本说明书中称为k步预测的过程来生成总回报110,其中k是1和K之间的整数,并且K是计划步骤的总数。在这些实施方式中,累加器112通过组合用于前k个计划步骤中的每一个的预测回报116和预测折扣因子118以及第k个计划步骤的值预测来生成总回报110,以确定在本说明书中被称为k步返回的输出。针对k步预测,总回报110通常被确定为对应于最终计划步骤K的k步预测。在一些实施方式中,累加器112通过在本说明书中称为λ加权预测的过程生成总回报110。在这些实施方式中,系统100包括λ神经网络126,其被配置为针对计划步骤中的每一个处理内部状态表示114以生成用于计划步骤的λ因子,其中λ因子可以是标量、矢量或矩阵。在一些情况下,λ因子的条目都是0和1之间的值。在这些实施方式中,累加器112通过确定用于每个计划步骤k的k步返回、并且根据由λ因子定义的权重来组合它们以确定在本说明书中被称为λ加权返回的输出,来生成总回报110。参考图2进一步描述确定总回报输出。
系统100由训练引擎130基于包括观察108和对应结果128的训练数据的集合来训练。具体地,训练引擎130后向传播基于损失函数确定的梯度(例如按随机梯度下降),以联合优化值预测神经网络124、状态表示神经网络122、预测神经网络120和λ加权预测实施方式中的λ神经网络126的参数的集合的值。训练系统100涉及监督训练,并且在某些情况下,涉及辅助无监督训练。
在系统100的监督训练中,损失函数取决于对应于作为输入提供并由系统100处理的观察108的结果128。例如,在k步预测实施方式中,监督损失函数可以测量在结果128和由累加器112生成的k步返回之间的差异。作为另一示例,在λ加权预测实施方式中,监督损失函数可以测量在结果128和由累加器生成的λ加权返回之间的差异。
在系统100的无监督训练中,损失函数不取决于对应于作为输入提供并由系统100处理的观察108的结果128。例如,在λ加权预测实施方式中,无监督损失函数可以是一致性损失函数,其测量每个k步返回和λ加权返回之间的差异。在这种情况下,无监督训练联合调整系统100的神经网络的参数的值以减小各个k步返回与λ加权返回之间的差异,使得k步返回自我一致,并由此增加系统100的鲁棒性。参考图3进一步描述训练引擎130对系统100的训练。
本说明书中提到的例如矩阵和矢量的数据结构,例如系统100的神经网络的任何一个的输出,可以以允许以说明书中描述的方式使用数据结构的任何格式表示(例如被描述为矩阵的神经网络的输出可以表示为矩阵的条目的矢量)。
图2是用于确定总回报输出的示例过程200的流程图。为方便起见,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书适当编程的预测系统,例如图1的预测系统100,能够执行过程200。
系统接收与代理交互的环境的一个或多个观察(步骤202)。
在一些实施方式中,环境是模拟环境,并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如,模拟环境可以是视频游戏,并且代理可以是玩视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如驾驶模拟或飞行模拟,并且代理是在运动模拟中航行的模拟车辆。
在一些其他实施方式中,环境是真实世界环境,并且代理是与真实世界环境交互的机械代理。例如,代理可以是与环境交互以完成特定任务的机器人。作为另一示例,代理可以是在环境中航行的自主或半自主车辆。
在一些实施方式中,观察可以由代理的传感器生成或从代理的传感器导出。例如,观察可以是由代理的相机捕获的图像。作为另一示例,观察可以从从由代理的激光传感器捕获的数据导出。作为另一示例,观察可以是由代理的高光谱传感器捕获的高光谱图像。
状态表示神经网络接收环境的一个或多个观察作为输入,并根据状态表示神经网络参数的集合的值来处理所述输入,以生成用于第一计划步骤的内部状态表示作为输出(步骤204)。
在一些实施方式中,状态表示神经网络是递归神经网络,并且状态表示神经网络的输出是在顺序地处理每个观察之后的递归神经网络的输出。在一些其他实施方式中,状态表示神经网络是前馈神经网络,并且状态表示神经网络的输出是前馈神经网络的最后一层的输出。在状态表示神经网络是前馈神经网络的实施方式中,系统可以在将一个或多个观察作为输入提供给状态表示神经网络122之前连接(concatenate)所述一个或多个观察。
针对每个计划步骤,预测神经网络处理输入以生成如下作为输出:(i)用于下一计划步骤的内部状态表示,(ii)用于下一计划步骤的预测回报,以及(iii)用于下一计划步骤的预测折扣因子(步骤206)。针对第一计划步骤,预测神经网络接收由状态表示神经网络生成的内部状态表示作为输入,并且针对后续计划步骤,预测神经网络接收由预测神经网络在先前计划步骤处生成的内部状态表示作为输入。预测回报和预测折扣因子可以是标量、矢量或矩阵,并且通常具有与结果相同的维度。通常,折扣因子的条目都是0到1之间的值。用于计划步骤的内部状态表示是由系统用来便利结果的预测的环境的抽象表示。
在一些实施方式中,预测神经网络是递归神经网络。在一些其他实施方式中,针对预测神经网络是前馈神经网络,其具有与计划步骤中的每一个相对应的不同参数值。在一些实施方式中,预测神经网络包括S形非线性层,以使折扣因子的条目的值位于0到1的范围内。
针对每个计划步骤,值预测神经网络处理输入以生成用于下一计划步骤的值预测(步骤208)。针对第一计划步骤,值预测神经网络接收由状态表示神经网络生成的内部状态表示作为输入,并且针对后续计划步骤,值预测神经网络接收由预测神经网络在先前计划步骤生成的内部状态表示作为输入。用于计划步骤的值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计。
在一些实施方式中,值预测神经网络与预测神经网络共享参数值,即,值预测神经网络接收作为处理内部状态表示的结果而生成的预测神经网络的中间输出作为输入。预测神经网络的中间输出指的是预测神经网络的一个或多个隐藏层的一个或多个单元的激活。
在累加器通过λ加权预测确定总回报的实施方式中,λ神经网络处理输入以生成用于下一计划步骤的λ因子(步骤209)。针对第一计划步骤,λ神经网络接收由状态表示神经网络生成的内部状态表示作为输入,并且针对后续计划步骤,λ神经网络接收由预测神经网络在先前计划步骤生成的内部状态表示作为输入。λ因子可以是标量、矢量或矩阵,并且通常具有与结果相同的维度。在一些情况下,λ因子的条目的值在0和1之间。在一些实施方式中,λ神经网络包括S形非线性层,以使λ因子的条目的值位于0到1的范围内。在一些实施方式中,λ神经网络与预测神经网络共享参数值。
系统确定当前计划步骤是否是终点计划步骤(步骤210)。在一些情况下,如果当前计划步骤是预定数量的计划步骤的最后计划步骤,则当前计划步骤可以是终点计划步骤。在λ加权预测实施方式中,如果用于当前计划步骤的λ因子等于零(即,如果λ因子是标量,则λ因子为零,或者如果λ因子是矢量或矩阵,则λ因子的每个条目为零),则当前计划步骤可以是终点计划步骤,如下面将进一步描述的。响应于确定当前计划步骤不是终点计划步骤,系统前进到下一计划步骤,回到步骤206,并重复前面的步骤。响应于确定当前计划步骤是终点计划步骤,累加器确定总回报(步骤212)。
在一些实施方式中,累加器通过k步预测确定总回报,其中k是在1和K之间的整数,其中K是计划步骤的总数。在这些实施方式中,累加器通过组合用于前k个计划步骤中的每一个的预测回报和预测折扣因子以及第k个计划步骤的值预测来生成总回报,以将k步返回确定为输出。具体而言,累加器将k步返回确定为:
gk=r1+γ1(r2+γ2(…+γk-1(rk+γkvk)…))
其中gk是k步返回,ri是计划步骤i的回报,γi是计划步骤i的折扣因子,并且vk是计划步骤k的值预测。
在一些其他实施方式中,累加器通过λ加权预测来确定总回报。在这些实施方式中,累加器确定用于每个计划步骤k的k步返回,并根据由λ因子定义的权重将它们组合以确定λ加权返回作为输出。具体而言,累加器可以将λ加权返回确定为:
其中/>
其中gλ是λ加权返回,λk是用于第k个计划步骤的λ因子,wk是权重因子,1是单位矩阵,即对角线为一并且其他地方为零的矩阵,并且gk是k步返回。累加器还可以通过中间步骤gk,λ通过后向累积来确定λ加权返回,其中:
gk,λ=(1-λk)vk+λk(rk+1+γk+1gk+1,λ)并且gK,λ=vK
并且λ加权返回gλ被确定为g0,λ。
系统可以基于不包括所有K个计划步骤的连续计划步骤的序列来计算λ加权返回gλ。例如,在先前提供的gλ的示例公式中,如果针对计划步骤k,λk=0,则基于前k个计划步骤而不是后续计划步骤的k步返回来确定gλ,因为针对n>k而言权重wn为零。因此,系统基于取决于内部状态表示和系统的学习动态的适应性数量的计划步骤来确定总回报。
图3是用于训练预测系统的示例过程300的流程图。为方便起见,过程300将被描述为由包括位于一个或多个位置的一个或多个计算机的引擎执行。例如,根据本说明书适当编程的训练引擎(例如,图1的训练引擎130)能够执行过程300。
引擎接收与代理交互的环境的一个或多个观察,并且在一些情况下,接收与环境的当前状态相关联的对应结果(步骤302)。
引擎向系统提供观察,并且系统确定作为结果的估计的总回报。参考图2描述用于确定总回报的示例过程。
引擎基于损失函数确定梯度,并后向传播梯度以联合更新系统的神经网络(即值预测神经网络、状态表示神经网络、预测神经网络、以及在λ加权预测实施方式中的λ神经网络)的参数的集合的值。损失函数可以是监督损失函数,即取决于与作为输入被提供并由系统处理的观察相对应的结果的损失函数,可以是无监督损失函数,即不取决于结果的损失函数,或者可以是监督损失项和无监督损失项的组合。
在k步预测实施方式中,可以由下式给出监督损失函数:
其中g是结果。作为另一示例,在λ加权预测实施方式中,用于将梯度后向传播到λ神经网络的监督损失函数可以由下式给出:
而用于将梯度后向传播到值预测神经网络、状态表示神经网络和预测神经网络中的监督损失函数可以由下式给出:
或者可以由下式给出:
在λ加权预测实施方式中,无监督损失函数可以由下式给出:
其中gλ被认为是固定的,并且梯度被后向传播以使每个k步返回gk更类似于gλ,但反之亦然。基于无监督损失函数的后向传播梯度减小了k步返回和λ加权返回之间的差异,使得k步返回自我一致,从而增加系统的鲁棒性。此外,由于无监督损失函数不取决于与作为输入被提供并由系统处理的观察相对应的结果,因此引擎可以通过基于用于其中相应的结果未知的观察的序列的无监督损失函数来后向传播梯度,来训练系统。
针对其中相应的结果已知的训练观察,引擎可以基于组合监督损失项和无监督损失项两者的损失函数,来更新系统的神经网络的参数的集合的值。例如,损失函数可以是监督损失项和无监督损失项的加权线性组合。
本说明书使用与系统和计算机程序组件相关的术语“配置为”。针对要被配置为执行特定操作或动作的一个或多个计算机的系统,意味着已在其上安装了软件、固件、硬件或它们的组合的系统,所述软件、固件、硬件或它们的组合在操作时使系统执行所述操作或动作。针对要被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括当由数据处理装置执行时使该装置执行所述操作或动作的指令。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路中实现,在有形实现的计算机软件或固件中实现,在包括本说明书中公开的结构及其结构等同物的计算机硬件中实现,或者在它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即,在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块,其中所述计算机程序指令用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地,程序指令能够编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以编码信息以便传输到合适的接收器装置以供数据处理装置执行。
术语“数据处理装置”指的是数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。该装置还能够是或者进一步包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还能够包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。
计算机程序(也可以被称为或描述为程序、软件、软件应用、应用程序、模块、软件模块、脚本或代码),可以用任何形式的编程语言编写,所述编程语言包括编译或解释语言、或声明语言或程序语言;它能够以任何形式部署,包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序能够存储在保存其他程序或数据的文件的一部分中,例如,存储在标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一个计算机上执行,或在位于一个站点或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。
在本说明书中,术语“引擎”广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常,引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下,一个或多个计算机将专用于特定的引擎;在其他情况下,可以在相同的一个计算机或多个计算机上安装和运行多个引擎。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行,所述一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路与一个或多个编程计算机的组合来执行。
适合于计算机程序的执行的计算机能够基于通用或专用微处理器或两者,或任何其他种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常,计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据或将数据传递到一个或多个大容量存储设备或者两者兼而有之。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器),仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;和CD ROM盘和DVD-ROM盘。
为了提供与用户的交互,本说明书中描述的主题的实施例能够在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户通过其向计算机提供输入的键盘和指向设备(例如,鼠标或轨迹球)的计算机上实现。其他类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学输入、语音输入或触觉输入。另外,计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求将网页发送到用户设备上的网络浏览器。此外,计算机能够通过向个人设备(例如,运行消息收发应用程序的智能电话)发送文本消息或其他形式的消息、并且反过来从用户接收响应消息,来与用户交互。
用于实现机器学习模型的数据处理装置还能够包括,例如,专用硬件加速器单元,其用于处理机器学习训练或生产的公共和计算密集部分,即推断、工作负载。
能够使用机器学习框架来实现和部署机器学习模型,所述机器学习框架例如TensorFlow框架、Microsoft认知工具包框架、Apache Singa框架或Apache MXNet框架。
本说明书中描述的主题的实施例能够在包括后端组件的计算系统中实现(例如作为数据服务器),或者在包括中间件组件(例如应用服务器)的计算系统中实现,或者在包括前端组件(例如,具有图形用户界面、网络浏览器或应用程序的客户端计算机,其中用户可通过该应用程序与本说明书中描述的主题的实施方式进行交互)的计算机系统中实现,或者在一个或多个这样的后端组件、中间件组件或前端组件的任何组合中实现。系统的组件能够通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如因特网。
计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,HTML页面)发送到用户设备,例如,用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。能够在服务器处从用户设备接收在所述设备处生成的数据,例如,用户交互的结果。
虽然本说明书包含许多具体的实施细节,但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制,而是作为对特定发明的特定实施例所专用的特征的描述。在分开的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。此外,尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护,但是在某些情况下能够从要求保护的组合中切除来自所述组合的一个或多个特征,并且要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然操作在附图中以特定顺序被描绘并且在权利要求中以特定顺序被记载,但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作,或者要执行所有示出的操作,以达到期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都要求这种分离,并且应当理解,所描述的程序组件和系统通常能够一起集成在单个软件产品中或打包成多个软件产品。
已经描述了本主题的特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中记载的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定要求所示的特定顺序或连续顺序来实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。
Claims (20)
1.一种由一个或多个数据处理装置执行的方法,用于通过在计划步骤的序列上聚合回报和值预测来估计与与执行任务的代理交互的环境相关联的结果,所述方法包括:
接收一个或多个观察,其表征与代理交互的环境的状态;
使用状态表示神经网络处理所述一个或多个观察,以生成计划步骤的序列的第一计划步骤的内部状态表示;
对于计划步骤的序列中的每个计划步骤,使用预测神经网络处理计划步骤的内部状态表示,以生成:(i)下一计划步骤的内部状态表示,以及(ii)下一计划步骤的预测回报;
对于计划步骤的序列中的一个或多个计划步骤中的每一个,使用值预测神经网络处理计划步骤的内部状态表示,以生成值预测,所述值预测是在计划步骤之后接收的未来累积折扣回报的估计;和
基于计划步骤的预测回报和值预测来确定与环境相关联的结果的估计。
2.根据权利要求1所述的方法,其中,所述代理是与真实世界环境交互的机械代理。
3.根据权利要求1所述的方法,其中,与环境相关联的结果表征代理执行所述任务的效率。
4.根据权利要求1所述的方法,其中,表征与代理交互的环境的状态的每个观察包括环境的相应图像。
5.根据权利要求1所述的方法,其中,对于计划步骤的序列中的每个计划步骤,所述预测神经网络还生成下一计划步骤的预测折扣因子,并且其中,确定与环境相关联的结果的估计还包括:
除了基于所述计划步骤的预测回报和值预测之外,还基于所述计划步骤的预测折扣因子来确定与环境相关联的结果的估计。
6.根据权利要求5所述的方法,其中,确定与环境相关联的结果的估计包括组合:(i)每个计划步骤的预测回报和预测折扣因子,以及(ii)最后计划步骤的值预测。
7.根据权利要求6所述的方法,其中,与环境相关联的结果的估计满足:
gK=r1+γ1(r2+γ2(…+γK-1(rK+γKvK)…))
其中,gK是结果的估计,K是计划步骤的序列中的计划步骤的数量,ri是计划步骤的序列中的计划步骤i的预测回报,γi是计划步骤的序列中的计划步骤i的预测折扣因子,并且vK是最后计划步骤的值预测。
8.根据权利要求5所述的方法,还包括,对于计划步骤的序列中的每个计划步骤,使用λ神经网络处理计划步骤的内部状态表示,以生成下一计划步骤的λ因子,其中,确定与环境相关联的结果的估计包括:
除了基于计划步骤的预测折扣因子、预测回报和值预测之外,还基于计划步骤的λ因子来确定结果的估计。
9.根据权利要求8所述的方法,其中,与环境相关联的结果的估计满足:
其中,gλ是结果的估计,k是计划步骤的序列中的计划步骤的索引,K是计划步骤的序列中最后计划步骤的索引,wk是与计划步骤k相关联的权重因子,所述权重因子基于计划步骤的λ因子确定,并且gk是与计划步骤k相关联的k步返回,所述k步返回基于计划步骤的预测回报、值预测和预测折扣因子确定。
10.根据权利要求9所述的方法,其中,对于每个k∈{1,…,K},与计划步骤k相关联的k步返回gk满足:
gk=r1+γ1(r2+γ2(…+γk-1(rk+γkvk)…))
其中,ri是计划步骤的序列中的计划步骤i的预测回报,γi是计划步骤的序列中的计划步骤i的预测折扣因子,以及vk是计划步骤的序列中的计划步骤k的值预测,
其中,0步返回g0与计划步骤的序列中的所述第一计划步骤的值预测相等。
11.根据权利要求9所述的方法,其中,对于每个k∈{0,…,K},与计划步骤k相关联的权重因子wk满足:
其中,λj是计划步骤j的λ因子。
12.根据权利要求1所述的方法,其中,所述状态表示神经网络包括前馈神经网络。
13.根据权利要求1所述的方法,其中,所述预测神经网络包括递归神经网络。
14.根据权利要求1所述的方法,其中,所述预测神经网络包括前馈神经网络,所述前馈神经网络在每个计划步骤具有不同的参数值。
15.一种系统,包括:
一个或多个计算机;和
一个或多个存储设备,通信耦合到所述一个或多个计算机,其中,所述一个或多个存储设备存储指令,当所述指令由所述一个或多个计算机执行时,所述指令使所述一个或多个计算机执行通过在计划步骤的序列上聚合回报和值预测来估计与与执行任务的代理交互的环境相关联的结果的操作,所述操作包括:
接收表征与代理交互的环境的状态的一个或多个观察;
使用状态表示神经网络处理所述一个或多个观察,以生成计划步骤的序列的第一计划步骤的内部状态表示;
对于计划步骤的序列中的每个计划步骤,使用预测神经网络处理计划步骤的内部状态表示,以生成:(i)下一计划步骤的内部状态表示,以及(ii)下一计划步骤的预测回报;
对于计划步骤的序列中的一个或多个计划步骤中的每一个,使用值预测神经网络处理计划步骤的内部状态表示,以生成值预测,所述值预测是在计划步骤之后接收的未来累积折扣回报的估计;和
基于计划步骤的预测回报和值预测来确定与环境相关联的结果的估计。
16.根据权利要求15所述的系统,其中,所述代理是与真实世界环境交互的机械代理。
17.根据权利要求15所述的系统,其中,与环境相关联的结果表征代理执行所述任务的效率。
18.根据权利要求15所述的系统,其中,表征与代理交互的环境的状态的每个观察包括环境的相应图像。
19.根据权利要求15所述的系统,对于计划步骤的序列中的每个计划步骤,所述预测神经网络还生成下一计划步骤的预测折扣因子,并且其中,确定与环境相关联的结果的估计还包括:
除了基于所述计划步骤的预测回报和值预测之外,还基于所述计划步骤的预测折扣因子来确定与环境相关联的结果的估计。
20.一个或多个存储指令的非暂时性计算机存储介质,当所述指令由一个或多个计算机执行时,所述指令使所述一个或多个计算机执行通过在计划步骤的序列上聚合回报和值预测来估计与与执行任务的代理交互的环境相关联的结果的操作,所述操作包括:
接收表征与代理交互的环境的状态的一个或多个观察;
使用状态表示神经网络处理所述一个或多个观察,以生成计划步骤的序列的第一计划步骤的内部状态表示;
对于计划步骤的序列中的每个计划步骤,使用预测神经网络处理计划步骤的内部状态表示,以生成:(i)下一计划步骤的内部状态表示,以及(ii)下一计划步骤的预测回报;
对于计划步骤的序列中的一个或多个计划步骤中的每一个,使用值预测神经网络处理计划步骤的内部状态表示,以生成值预测,所述值预测是在计划步骤之后接收的未来累积折扣回报的估计;和
基于计划步骤的预测回报和值预测来确定与环境相关联的结果的估计。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662418159P | 2016-11-04 | 2016-11-04 | |
US62/418,159 | 2016-11-04 | ||
CN201780078702.3A CN110088775B (zh) | 2016-11-04 | 2017-11-04 | 使用加强学习的环境预测 |
PCT/IB2017/056902 WO2018083667A1 (en) | 2016-11-04 | 2017-11-04 | Reinforcement learning systems |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780078702.3A Division CN110088775B (zh) | 2016-11-04 | 2017-11-04 | 使用加强学习的环境预测 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117521725A true CN117521725A (zh) | 2024-02-06 |
Family
ID=60515745
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311473332.7A Pending CN117521725A (zh) | 2016-11-04 | 2017-11-04 | 加强学习系统 |
CN201780078702.3A Active CN110088775B (zh) | 2016-11-04 | 2017-11-04 | 使用加强学习的环境预测 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780078702.3A Active CN110088775B (zh) | 2016-11-04 | 2017-11-04 | 使用加强学习的环境预测 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10733501B2 (zh) |
EP (1) | EP3523760B1 (zh) |
JP (2) | JP6728495B2 (zh) |
CN (2) | CN117521725A (zh) |
WO (1) | WO2018083667A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6728495B2 (ja) * | 2016-11-04 | 2020-07-22 | ディープマインド テクノロジーズ リミテッド | 強化学習を用いた環境予測 |
US10692244B2 (en) | 2017-10-06 | 2020-06-23 | Nvidia Corporation | Learning based camera pose estimation from images of an environment |
CA3103470A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
CN112840359B (zh) * | 2018-10-12 | 2024-05-14 | 渊慧科技有限公司 | 通过使用时间值传递在长时间尺度上控制代理 |
US11313950B2 (en) | 2019-01-15 | 2022-04-26 | Image Sensing Systems, Inc. | Machine learning based highway radar vehicle classification across multiple lanes and speeds |
US11587552B2 (en) | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
KR20220054388A (ko) * | 2019-09-13 | 2022-05-02 | 딥마인드 테크놀로지스 리미티드 | 데이터 기반 로봇 제어 |
CN114020079B (zh) * | 2021-11-03 | 2022-09-16 | 北京邮电大学 | 一种室内空间温度和湿度调控方法及装置 |
US20230191605A1 (en) | 2021-12-17 | 2023-06-22 | Nvidia Corporation | Neural networks to generate robotic task demonstrations |
US20230367703A1 (en) * | 2022-05-13 | 2023-11-16 | Microsoft Technology Licensing, Llc | Automated software testing with reinforcement learning |
Family Cites Families (248)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7107107B2 (en) * | 2003-01-31 | 2006-09-12 | Matsushita Electric Industrial Co., Ltd. | Predictive action decision device and action decision method |
US20160086222A1 (en) * | 2009-01-21 | 2016-03-24 | Truaxis, Inc. | Method and system to remind users of targeted offers in similar categories |
US9015093B1 (en) * | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8793557B2 (en) * | 2011-05-19 | 2014-07-29 | Cambrige Silicon Radio Limited | Method and apparatus for real-time multidimensional adaptation of an audio coding system |
US8819523B2 (en) * | 2011-05-19 | 2014-08-26 | Cambridge Silicon Radio Limited | Adaptive controller for a configurable audio coding system |
JP5874292B2 (ja) * | 2011-10-12 | 2016-03-02 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10803525B1 (en) * | 2014-02-19 | 2020-10-13 | Allstate Insurance Company | Determining a property of an insurance policy based on the autonomous features of a vehicle |
US10558987B2 (en) * | 2014-03-12 | 2020-02-11 | Adobe Inc. | System identification framework |
JP5984147B2 (ja) * | 2014-03-27 | 2016-09-06 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、プログラム |
US10091785B2 (en) * | 2014-06-11 | 2018-10-02 | The Board Of Trustees Of The University Of Alabama | System and method for managing wireless frequency usage |
CN106471525A (zh) * | 2014-12-24 | 2017-03-01 | 谷歌公司 | 增强神经网络以生成附加输出 |
US11080587B2 (en) * | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
DK3079106T3 (da) * | 2015-04-06 | 2022-08-01 | Deepmind Tech Ltd | UDVÆLGELSE AF FORSTÆRKNINGSLÆRINGSHANDLINGER VED HJÆLP AF MÅL og OBSERVATIONER |
MX2018000942A (es) * | 2015-07-24 | 2018-08-09 | Deepmind Tech Ltd | Control continuo con aprendizaje de refuerzo profundo. |
US20170061283A1 (en) * | 2015-08-26 | 2017-03-02 | Applied Brain Research Inc. | Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments |
WO2017044842A1 (en) * | 2015-09-11 | 2017-03-16 | Google Inc. | Training reinforcement learning neural networks |
US10380481B2 (en) * | 2015-10-08 | 2019-08-13 | Via Alliance Semiconductor Co., Ltd. | Neural network unit that performs concurrent LSTM cell calculations |
JP6010204B1 (ja) * | 2015-10-26 | 2016-10-19 | ファナック株式会社 | パワー素子の予測寿命を学習する機械学習装置及び方法並びに該機械学習装置を備えた寿命予測装置及びモータ駆動装置 |
KR102172277B1 (ko) * | 2015-11-12 | 2020-10-30 | 딥마인드 테크놀로지스 리미티드 | 듀얼 심층 신경 네트워크 |
EP3360086A1 (en) * | 2015-11-12 | 2018-08-15 | Deepmind Technologies Limited | Training neural networks using a prioritized experience memory |
US11072067B2 (en) * | 2015-11-16 | 2021-07-27 | Kindred Systems Inc. | Systems, devices, and methods for distributed artificial neural network computation |
US9536191B1 (en) * | 2015-11-25 | 2017-01-03 | Osaro, Inc. | Reinforcement learning using confidence scores |
JP6193961B2 (ja) * | 2015-11-30 | 2017-09-06 | ファナック株式会社 | 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置 |
EP3384435B1 (en) * | 2015-12-01 | 2023-07-19 | Deepmind Technologies Limited | Selecting action slates using reinforcement learning |
US10885432B1 (en) * | 2015-12-16 | 2021-01-05 | Deepmind Technologies Limited | Selecting actions from large discrete action sets using reinforcement learning |
CN112051855A (zh) * | 2016-01-05 | 2020-12-08 | 御眼视觉技术有限公司 | 用于主车辆的导航系统、自主车辆及导航自主车辆的方法 |
US20170213150A1 (en) * | 2016-01-25 | 2017-07-27 | Osaro, Inc. | Reinforcement learning using a partitioned input state space |
JP6339603B2 (ja) * | 2016-01-28 | 2018-06-06 | ファナック株式会社 | レーザ加工開始条件を学習する機械学習装置、レーザ装置および機械学習方法 |
JP2017138881A (ja) * | 2016-02-05 | 2017-08-10 | ファナック株式会社 | 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法 |
CN108701251B (zh) * | 2016-02-09 | 2022-08-12 | 谷歌有限责任公司 | 使用优势估计强化学习 |
CA3014660C (en) * | 2016-02-15 | 2021-08-17 | Allstate Insurance Company | Early notification of non-autonomous area |
JP6360090B2 (ja) * | 2016-03-10 | 2018-07-18 | ファナック株式会社 | 機械学習装置、レーザ装置および機械学習方法 |
JP6348137B2 (ja) * | 2016-03-24 | 2018-06-27 | ファナック株式会社 | 工作物の良否を判定する加工機械システム |
US11080594B2 (en) * | 2016-05-04 | 2021-08-03 | Deepmind Technologies Limited | Augmenting neural networks with external memory using reinforcement learning |
CN109155005A (zh) * | 2016-05-20 | 2019-01-04 | 渊慧科技有限公司 | 使用伪计数的增强学习 |
WO2017218699A1 (en) * | 2016-06-17 | 2017-12-21 | Graham Leslie Fyffe | System and methods for intrinsic reward reinforcement learning |
JP2018004473A (ja) * | 2016-07-04 | 2018-01-11 | ファナック株式会社 | 軸受の予測寿命を学習する機械学習装置、寿命予測装置および機械学習方法 |
US10839310B2 (en) * | 2016-07-15 | 2020-11-17 | Google Llc | Selecting content items using reinforcement learning |
JP6506219B2 (ja) * | 2016-07-21 | 2019-04-24 | ファナック株式会社 | モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法 |
WO2018022715A1 (en) * | 2016-07-26 | 2018-02-01 | University Of Connecticut | Early prediction of an intention of a user's actions |
DE202016004628U1 (de) * | 2016-07-27 | 2016-09-23 | Google Inc. | Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze |
US10049301B2 (en) * | 2016-08-01 | 2018-08-14 | Siemens Healthcare Gmbh | Medical scanner teaches itself to optimize clinical protocols and image acquisition |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US11188821B1 (en) * | 2016-09-15 | 2021-11-30 | X Development Llc | Control policies for collective robot learning |
JP6721785B2 (ja) * | 2016-09-15 | 2020-07-15 | グーグル エルエルシー | ロボット操作のための深層強化学習 |
JP6514166B2 (ja) * | 2016-09-16 | 2019-05-15 | ファナック株式会社 | ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法 |
EP3485337B1 (en) * | 2016-09-23 | 2020-10-21 | Apple Inc. | Decision making for autonomous vehicle motion control |
US20180100662A1 (en) * | 2016-10-11 | 2018-04-12 | Mitsubishi Electric Research Laboratories, Inc. | Method for Data-Driven Learning-based Control of HVAC Systems using High-Dimensional Sensory Observations |
US9989964B2 (en) * | 2016-11-03 | 2018-06-05 | Mitsubishi Electric Research Laboratories, Inc. | System and method for controlling vehicle using neural network |
JP6827539B2 (ja) * | 2016-11-03 | 2021-02-10 | ディープマインド テクノロジーズ リミテッド | アクション選択ニューラルネットワークをトレーニングすること |
JP6728495B2 (ja) * | 2016-11-04 | 2020-07-22 | ディープマインド テクノロジーズ リミテッド | 強化学習を用いた環境予測 |
CN110168574B (zh) * | 2016-11-04 | 2023-10-13 | 谷歌有限责任公司 | 中间强化学习目标的无监督的检测 |
JP6926203B2 (ja) * | 2016-11-04 | 2021-08-25 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及系统 |
JP7047770B2 (ja) * | 2016-12-14 | 2022-04-05 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
US10977551B2 (en) * | 2016-12-14 | 2021-04-13 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
US20200365015A1 (en) * | 2016-12-19 | 2020-11-19 | ThruGreen, LLC | Connected and adaptive vehicle traffic management system with digital prioritization |
WO2018154100A1 (en) * | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Neural episodic control |
WO2018156891A1 (en) * | 2017-02-24 | 2018-08-30 | Google Llc | Training policy neural networks using path consistency learning |
US10373313B2 (en) * | 2017-03-02 | 2019-08-06 | Siemens Healthcare Gmbh | Spatially consistent multi-scale anatomical landmark detection in incomplete 3D-CT data |
US10542019B2 (en) * | 2017-03-09 | 2020-01-21 | International Business Machines Corporation | Preventing intersection attacks |
US10379538B1 (en) * | 2017-03-20 | 2019-08-13 | Zoox, Inc. | Trajectory generation using motion primitives |
US10345808B2 (en) * | 2017-03-30 | 2019-07-09 | Uber Technologies, Inc | Systems and methods to control autonomous vehicle motion |
US11670420B2 (en) * | 2017-04-12 | 2023-06-06 | Koninklijke Philips N.V. | Drawing conclusions from free form texts with deep reinforcement learning |
EP3610417A1 (en) * | 2017-04-12 | 2020-02-19 | Deepmind Technologies Limited | Black-box optimization using neural networks |
CN110520868B (zh) * | 2017-04-14 | 2023-06-02 | 渊慧科技有限公司 | 用于分布式强化学习的方法、程序产品和存储介质 |
US10606898B2 (en) * | 2017-04-19 | 2020-03-31 | Brown University | Interpreting human-robot instructions |
WO2018211142A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Imagination-based agent neural networks |
WO2018211139A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Training action selection neural networks using a differentiable credit function |
WO2018215665A1 (en) * | 2017-05-26 | 2018-11-29 | Deepmind Technologies Limited | Training action selection neural networks using look-ahead search |
US11354509B2 (en) * | 2017-06-05 | 2022-06-07 | Deepmind Technologies Limited | Action selection based on environment observations and textual instructions |
CN110574048B (zh) * | 2017-06-09 | 2023-07-07 | 渊慧科技有限公司 | 训练动作选择神经网络 |
US11717959B2 (en) * | 2017-06-28 | 2023-08-08 | Google Llc | Machine learning methods and apparatus for semantic robotic grasping |
JP6756676B2 (ja) * | 2017-07-27 | 2020-09-16 | ファナック株式会社 | 製造システム |
US20200174490A1 (en) * | 2017-07-27 | 2020-06-04 | Waymo Llc | Neural networks for vehicle trajectory planning |
US10883844B2 (en) * | 2017-07-27 | 2021-01-05 | Waymo Llc | Neural networks for vehicle trajectory planning |
US11256983B2 (en) * | 2017-07-27 | 2022-02-22 | Waymo Llc | Neural networks for vehicle trajectory planning |
US11112796B2 (en) * | 2017-08-08 | 2021-09-07 | Uatc, Llc | Object motion prediction and autonomous vehicle control |
JP6564432B2 (ja) * | 2017-08-29 | 2019-08-21 | ファナック株式会社 | 機械学習装置、制御システム、制御装置、及び機械学習方法 |
EP3467717A1 (en) * | 2017-10-04 | 2019-04-10 | Prowler.io Limited | Machine learning system |
US10739776B2 (en) * | 2017-10-12 | 2020-08-11 | Honda Motor Co., Ltd. | Autonomous vehicle policy generation |
US10701641B2 (en) * | 2017-10-13 | 2020-06-30 | Apple Inc. | Interference mitigation in ultra-dense wireless networks |
WO2019081782A1 (en) * | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | AUTOMATIC LEARNING SYSTEMS WITH PARAMETER-BASED PARAMETER ADAPTATION FOR RAPID OR LOWER LEARNING |
EP3688675B1 (en) * | 2017-10-27 | 2024-05-08 | DeepMind Technologies Limited | Distributional reinforcement learning for continuous control tasks |
WO2019113067A2 (en) * | 2017-12-05 | 2019-06-13 | Google Llc | Viewpoint invariant visual servoing of robot end effector using recurrent neural network |
US10926408B1 (en) * | 2018-01-12 | 2021-02-23 | Amazon Technologies, Inc. | Artificial intelligence system for efficiently learning robotic control policies |
WO2019149949A1 (en) * | 2018-02-05 | 2019-08-08 | Deepmind Technologies Limited | Distributed training using off-policy actor-critic reinforcement learning |
US20190244099A1 (en) * | 2018-02-05 | 2019-08-08 | Deepmind Technologies Limited | Continual reinforcement learning with a multi-task agent |
US11221413B2 (en) * | 2018-03-14 | 2022-01-11 | Uatc, Llc | Three-dimensional object detection |
US11467590B2 (en) * | 2018-04-09 | 2022-10-11 | SafeAI, Inc. | Techniques for considering uncertainty in use of artificial intelligence models |
JP6740277B2 (ja) * | 2018-04-13 | 2020-08-12 | ファナック株式会社 | 機械学習装置、制御装置、及び機械学習方法 |
US11263531B2 (en) * | 2018-05-18 | 2022-03-01 | Deepmind Technologies Limited | Unsupervised control using learned rewards |
WO2019222634A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | Data-efficient hierarchical reinforcement learning |
US11370423B2 (en) * | 2018-06-15 | 2022-06-28 | Uatc, Llc | Multi-task machine-learned models for object intention determination in autonomous driving |
US11454975B2 (en) * | 2018-06-28 | 2022-09-27 | Uatc, Llc | Providing actionable uncertainties in autonomous vehicles |
US11397089B2 (en) * | 2018-07-13 | 2022-07-26 | Uatc, Llc | Autonomous vehicle routing with route extension |
JP6608010B1 (ja) * | 2018-07-25 | 2019-11-20 | 積水化学工業株式会社 | 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法 |
US11423295B2 (en) * | 2018-07-26 | 2022-08-23 | Sap Se | Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning |
US11734575B2 (en) * | 2018-07-30 | 2023-08-22 | International Business Machines Corporation | Sequential learning of constraints for hierarchical reinforcement learning |
US11537872B2 (en) * | 2018-07-30 | 2022-12-27 | International Business Machines Corporation | Imitation learning by action shaping with antagonist reinforcement learning |
EP3605334A1 (en) * | 2018-07-31 | 2020-02-05 | Prowler.io Limited | Incentive control for multi-agent systems |
JP7011239B2 (ja) * | 2018-08-17 | 2022-01-26 | 横河電機株式会社 | 装置、方法、プログラム、および、記録媒体 |
US11833681B2 (en) * | 2018-08-24 | 2023-12-05 | Nvidia Corporation | Robotic control system |
US12005578B2 (en) * | 2018-09-04 | 2024-06-11 | Ocado Innovations Limited | Real-time real-world reinforcement learning systems and methods |
EP3850548A1 (en) * | 2018-09-11 | 2021-07-21 | NVIDIA Corporation | Future object trajectory predictions for autonomous machine applications |
WO2020056157A1 (en) * | 2018-09-12 | 2020-03-19 | Electra Vehicles, Inc. | Systems and methods for managing energy storage systems |
US20210325894A1 (en) * | 2018-09-14 | 2021-10-21 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
US20200097808A1 (en) * | 2018-09-21 | 2020-03-26 | International Business Machines Corporation | Pattern Identification in Reinforcement Learning |
US10872294B2 (en) * | 2018-09-27 | 2020-12-22 | Deepmind Technologies Limited | Imitation learning using a generative predecessor neural network |
US11568207B2 (en) * | 2018-09-27 | 2023-01-31 | Deepmind Technologies Limited | Learning observation representations by predicting the future in latent space |
CN112771542B (zh) * | 2018-09-27 | 2024-03-05 | 渊慧科技有限公司 | 以学习的视觉实体为基础的强化学习神经网络 |
KR20210011422A (ko) * | 2018-09-27 | 2021-02-01 | 딥마인드 테크놀로지스 리미티드 | 모델 없는 강화 학습을 위한 스택형 컨볼루션 장단기 메모리 |
WO2020065209A1 (fr) * | 2018-09-27 | 2020-04-02 | Quantum Surgical | Robot médical comportant des moyens de positionnement automatique |
US10831210B1 (en) * | 2018-09-28 | 2020-11-10 | Zoox, Inc. | Trajectory generation and optimization using closed-form numerical integration in route-relative coordinates |
JP6901450B2 (ja) * | 2018-10-02 | 2021-07-14 | ファナック株式会社 | 機械学習装置、制御装置及び機械学習方法 |
US20210402598A1 (en) * | 2018-10-10 | 2021-12-30 | Sony Corporation | Robot control device, robot control method, and robot control program |
EP3640873A1 (en) * | 2018-10-17 | 2020-04-22 | Tata Consultancy Services Limited | System and method for concurrent dynamic optimization of replenishment decision in networked node environment |
SG11202104066UA (en) * | 2018-10-26 | 2021-05-28 | Dow Global Technologies Llc | Deep reinforcement learning for production scheduling |
EP3847583A1 (en) * | 2018-10-29 | 2021-07-14 | Google LLC | Determining control policies by minimizing the impact of delusion |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
US11231717B2 (en) * | 2018-11-08 | 2022-01-25 | Baidu Usa Llc | Auto-tuning motion planning system for autonomous vehicles |
JP6849643B2 (ja) * | 2018-11-09 | 2021-03-24 | ファナック株式会社 | 出力装置、制御装置、及び評価関数と機械学習結果の出力方法 |
WO2020099672A1 (en) * | 2018-11-16 | 2020-05-22 | Deepmind Technologies Limited | Controlling agents using amortized q learning |
US11048253B2 (en) * | 2018-11-21 | 2021-06-29 | Waymo Llc | Agent prioritization for autonomous vehicles |
JP6970078B2 (ja) * | 2018-11-28 | 2021-11-24 | 株式会社東芝 | ロボット動作計画装置、ロボットシステム、および方法 |
KR101990326B1 (ko) * | 2018-11-28 | 2019-06-18 | 한국인터넷진흥원 | 감가율 자동 조정 방식의 강화 학습 방법 |
US11137762B2 (en) * | 2018-11-30 | 2021-10-05 | Baidu Usa Llc | Real time decision making for autonomous driving vehicles |
US10997729B2 (en) * | 2018-11-30 | 2021-05-04 | Baidu Usa Llc | Real time object behavior prediction |
US11131992B2 (en) * | 2018-11-30 | 2021-09-28 | Denso International America, Inc. | Multi-level collaborative control system with dual neural network planning for autonomous vehicle control in a noisy environment |
WO2020132339A2 (en) * | 2018-12-19 | 2020-06-25 | Uatc, Llc | Routing autonomous vehicles using temporal data |
US11627165B2 (en) * | 2019-01-24 | 2023-04-11 | Deepmind Technologies Limited | Multi-agent reinforcement learning with matchmaking policies |
JP2020116869A (ja) * | 2019-01-25 | 2020-08-06 | セイコーエプソン株式会社 | 印刷装置、学習装置、学習方法および学習プログラム |
US20200272905A1 (en) * | 2019-02-26 | 2020-08-27 | GE Precision Healthcare LLC | Artificial neural network compression via iterative hybrid reinforcement learning approach |
US10700935B1 (en) * | 2019-02-27 | 2020-06-30 | Peritus.AI, Inc. | Automatic configuration and operation of complex systems |
CA3075156A1 (en) * | 2019-03-15 | 2020-09-15 | Mission Control Space Services Inc. | Terrain traficability assesment for autonomous or semi-autonomous rover or vehicle |
US20200310420A1 (en) * | 2019-03-26 | 2020-10-01 | GM Global Technology Operations LLC | System and method to train and select a best solution in a dynamical system |
US11132608B2 (en) * | 2019-04-04 | 2021-09-28 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
US11312372B2 (en) * | 2019-04-16 | 2022-04-26 | Ford Global Technologies, Llc | Vehicle path prediction |
JP7010877B2 (ja) * | 2019-04-25 | 2022-01-26 | ファナック株式会社 | 機械学習装置、数値制御システム及び機械学習方法 |
KR20220021470A (ko) * | 2019-04-30 | 2022-02-22 | 소울 머신스 리미티드 | 시퀀싱 및 플래닝을 위한 시스템 |
US11701771B2 (en) * | 2019-05-15 | 2023-07-18 | Nvidia Corporation | Grasp generation using a variational autoencoder |
EP3948681A1 (en) * | 2019-05-23 | 2022-02-09 | DeepMind Technologies Limited | Large scale generative neural network model with inference for representation learning using adversial training |
WO2020239641A1 (en) * | 2019-05-24 | 2020-12-03 | Deepmind Technologies Limited | Hierarchical policies for multitask transfer |
US11814046B2 (en) * | 2019-05-29 | 2023-11-14 | Motional Ad Llc | Estimating speed profiles |
US11482210B2 (en) * | 2019-05-29 | 2022-10-25 | Lg Electronics Inc. | Artificial intelligence device capable of controlling other devices based on device information |
EP4224115A1 (en) * | 2019-06-10 | 2023-08-09 | Joby Aero, Inc. | Time varying loudness prediction system |
CN114080634B (zh) * | 2019-07-03 | 2024-04-26 | 伟摩有限责任公司 | 使用锚定轨迹的代理轨迹预测 |
US11934191B2 (en) * | 2019-07-05 | 2024-03-19 | Huawei Technologies Co., Ltd. | Method and system for predictive control of vehicle using digital images |
WO2021008798A1 (en) * | 2019-07-12 | 2021-01-21 | Elektrobit Automotive Gmbh | Training of a convolutional neural network |
JP7342491B2 (ja) * | 2019-07-25 | 2023-09-12 | オムロン株式会社 | 推論装置、推論方法、及び推論プログラム |
US11481420B2 (en) * | 2019-08-08 | 2022-10-25 | Nice Ltd. | Systems and methods for analyzing computer input to provide next action |
US11458965B2 (en) * | 2019-08-13 | 2022-10-04 | Zoox, Inc. | Feasibility validation for vehicle trajectory selection |
SE1950924A1 (en) * | 2019-08-13 | 2021-02-14 | Kaaberg Johard Leonard | Improved machine learning for technical systems |
US11397434B2 (en) * | 2019-08-13 | 2022-07-26 | Zoox, Inc. | Consistency validation for vehicle trajectory selection |
US11407409B2 (en) * | 2019-08-13 | 2022-08-09 | Zoox, Inc. | System and method for trajectory validation |
US11599823B2 (en) * | 2019-08-14 | 2023-03-07 | International Business Machines Corporation | Quantum reinforcement learning agent |
US20220297304A1 (en) * | 2019-08-23 | 2022-09-22 | Carrier Corporation | System and method for early event detection using generative and discriminative machine learning models |
WO2021040699A1 (en) * | 2019-08-27 | 2021-03-04 | Google Llc | Future prediction, using stochastic adversarial based sampling, for robotic control |
US11132403B2 (en) * | 2019-09-06 | 2021-09-28 | Digital Asset Capital, Inc. | Graph-manipulation based domain-specific execution environment |
KR20220054388A (ko) * | 2019-09-13 | 2022-05-02 | 딥마인드 테크놀로지스 리미티드 | 데이터 기반 로봇 제어 |
EP4003665A1 (en) * | 2019-09-15 | 2022-06-01 | Google LLC | Determining environment-conditioned action sequences for robotic tasks |
WO2021058588A1 (en) * | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Training action selection neural networks using hindsight modelling |
US20210089908A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Modulating agent behavior to optimize learning progress |
WO2021058583A1 (en) * | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Training action selection neural networks using q-learning combined with look ahead search |
US20220366246A1 (en) * | 2019-09-25 | 2022-11-17 | Deepmind Technologies Limited | Controlling agents using causally correct environment models |
US11650551B2 (en) * | 2019-10-04 | 2023-05-16 | Mitsubishi Electric Research Laboratories, Inc. | System and method for policy optimization using quasi-Newton trust region method |
US11645518B2 (en) * | 2019-10-07 | 2023-05-09 | Waymo Llc | Multi-agent simulations |
EP3812972A1 (en) * | 2019-10-25 | 2021-04-28 | Robert Bosch GmbH | Method for controlling a robot and robot controller |
US11586931B2 (en) * | 2019-10-31 | 2023-02-21 | Waymo Llc | Training trajectory scoring neural networks to accurately assign scores |
US20210133583A1 (en) * | 2019-11-05 | 2021-05-06 | Nvidia Corporation | Distributed weight update for backpropagation of a neural network |
US11912271B2 (en) * | 2019-11-07 | 2024-02-27 | Motional Ad Llc | Trajectory prediction from precomputed or dynamically generated bank of trajectories |
CN112937564B (zh) * | 2019-11-27 | 2022-09-02 | 魔门塔(苏州)科技有限公司 | 换道决策模型生成方法和无人车换道决策方法及装置 |
US11735045B2 (en) * | 2019-12-04 | 2023-08-22 | Uatc, Llc | Systems and methods for computational resource allocation for autonomous vehicles |
US11442459B2 (en) * | 2019-12-11 | 2022-09-13 | Uatc, Llc | Systems and methods for training predictive models for autonomous devices |
US20210192287A1 (en) * | 2019-12-18 | 2021-06-24 | Nvidia Corporation | Master transform architecture for deep learning |
CN111061277B (zh) * | 2019-12-31 | 2022-04-05 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
US11332165B2 (en) * | 2020-01-27 | 2022-05-17 | Honda Motor Co., Ltd. | Human trust calibration for autonomous driving agent of vehicle |
US11494649B2 (en) * | 2020-01-31 | 2022-11-08 | At&T Intellectual Property I, L.P. | Radio access network control with deep reinforcement learning |
US11982993B2 (en) * | 2020-02-03 | 2024-05-14 | Strong Force TX Portfolio 2018, LLC | AI solution selection for an automated robotic process |
EP4104104A1 (en) * | 2020-02-10 | 2022-12-21 | Deeplife | Generative digital twin of complex systems |
JP7234970B2 (ja) * | 2020-02-17 | 2023-03-08 | 株式会社デンソー | 車両行動生成装置、車両行動生成方法、および車両行動生成プログラム |
DE102020202350A1 (de) * | 2020-02-24 | 2021-08-26 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter |
US11717960B2 (en) * | 2020-02-25 | 2023-08-08 | Intelligrated Headquarters, Llc | Anti-sway control for a robotic arm with adaptive grasping |
US11759951B2 (en) * | 2020-02-28 | 2023-09-19 | Honda Motor Co., Ltd. | Systems and methods for incorporating latent states into robotic planning |
US11782438B2 (en) * | 2020-03-17 | 2023-10-10 | Nissan North America, Inc. | Apparatus and method for post-processing a decision-making model of an autonomous vehicle using multivariate data |
US20210327578A1 (en) * | 2020-04-08 | 2021-10-21 | Babylon Partners Limited | System and Method for Medical Triage Through Deep Q-Learning |
US20210334654A1 (en) * | 2020-04-24 | 2021-10-28 | Mastercard International Incorporated | Methods and systems for reducing bias in an artificial intelligence model |
EP4144087A1 (en) * | 2020-04-29 | 2023-03-08 | Deep Render Ltd | Image compression and decoding, video compression and decoding: methods and systems |
WO2021232047A1 (en) * | 2020-05-12 | 2021-11-18 | Uber Technologies, Inc. | Vehicle routing using third party vehicle capabilities |
EP4162721A4 (en) * | 2020-06-05 | 2024-03-06 | Ericsson Telefon Ab L M | MACHINE LEARNING-BASED DYNAMIC SPECTRUM SHARING |
CA3180999A1 (en) * | 2020-06-05 | 2021-12-09 | Gatik Ai Inc. | Method and system for deterministic trajectory selection based on uncertainty estimation for an autonomous agent |
US20210390409A1 (en) * | 2020-06-12 | 2021-12-16 | Google Llc | Training reinforcement learning agents using augmented temporal difference learning |
US20210397959A1 (en) * | 2020-06-22 | 2021-12-23 | Google Llc | Training reinforcement learning agents to learn expert exploration behaviors from demonstrators |
CN116368505A (zh) * | 2020-07-24 | 2023-06-30 | 吉尼赛斯云服务第二控股有限公司 | 用于利用自动ai建模和多目标优化的可扩展联络中心座席安排的方法和系统 |
US11835958B2 (en) * | 2020-07-28 | 2023-12-05 | Huawei Technologies Co., Ltd. | Predictive motion planning system and method |
US20220032949A1 (en) * | 2020-07-29 | 2022-02-03 | Uber Technologies, Inc. | Routing feature flags |
DE102020209685B4 (de) * | 2020-07-31 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung |
EP4196876A4 (en) * | 2020-08-14 | 2024-04-10 | Lancium Llc | PERFORMANCE-CONSCIOUS PLANNING |
JP7366860B2 (ja) * | 2020-08-17 | 2023-10-23 | 株式会社日立製作所 | 攻撃シナリオシミュレーション装置、攻撃シナリオ生成システム、および攻撃シナリオ生成方法 |
WO2022043512A1 (en) * | 2020-08-28 | 2022-03-03 | UMNAI Limited | Behavior modeling, verification, and autonomous actions and triggers of ml and ai systems |
CN116324818A (zh) * | 2020-10-02 | 2023-06-23 | 渊慧科技有限公司 | 使用增强时间差异学习训练强化学习智能体 |
US20220129708A1 (en) * | 2020-10-22 | 2022-04-28 | Applied Materials Israel Ltd. | Segmenting an image using a neural network |
WO2022101452A1 (en) * | 2020-11-12 | 2022-05-19 | UMNAI Limited | Architecture for explainable reinforcement learning |
US20220152826A1 (en) * | 2020-11-13 | 2022-05-19 | Nvidia Corporation | Object rearrangement using learned implicit collision functions |
US20220164657A1 (en) * | 2020-11-25 | 2022-05-26 | Chevron U.S.A. Inc. | Deep reinforcement learning for field development planning optimization |
US20220188695A1 (en) * | 2020-12-16 | 2022-06-16 | Argo AI, LLC | Autonomous vehicle system for intelligent on-board selection of data for training a remote machine learning model |
US20220197280A1 (en) * | 2020-12-22 | 2022-06-23 | Uatc, Llc | Systems and Methods for Error Sourcing in Autonomous Vehicle Simulation |
US20210133633A1 (en) * | 2020-12-22 | 2021-05-06 | Intel Corporation | Autonomous machine knowledge transfer |
US20220204055A1 (en) * | 2020-12-30 | 2022-06-30 | Waymo Llc | Optimization of planning trajectories for multiple agents |
US20220207337A1 (en) * | 2020-12-31 | 2022-06-30 | Deepx Co., Ltd. | Method for artificial neural network and neural processing unit |
US20220234651A1 (en) * | 2021-01-25 | 2022-07-28 | GM Global Technology Operations LLC | Methods, systems, and apparatuses for adaptive driver override for path based automated driving assist |
US20220261635A1 (en) * | 2021-02-12 | 2022-08-18 | DeeMind Technologies Limited | Training a policy neural network for controlling an agent using best response policy iteration |
US11967239B2 (en) * | 2021-02-23 | 2024-04-23 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for order dispatching and vehicle repositioning |
US20220269937A1 (en) * | 2021-02-24 | 2022-08-25 | Nvidia Corporation | Generating frames for neural simulation using one or more neural networks |
US20220276657A1 (en) * | 2021-03-01 | 2022-09-01 | Samsung Electronics Co., Ltd. | Trajectory generation of a robot using a neural network |
US11475043B2 (en) * | 2021-03-05 | 2022-10-18 | International Business Machines Corporation | Machine learning based application of changes in a target database system |
US20220284261A1 (en) * | 2021-03-05 | 2022-09-08 | The Aerospace Corporation | Training-support-based machine learning classification and regression augmentation |
US20220300851A1 (en) * | 2021-03-18 | 2022-09-22 | Toyota Research Institute, Inc. | System and method for training a multi-task model |
US20220305649A1 (en) * | 2021-03-25 | 2022-09-29 | Naver Corporation | Reachable manifold and inverse mapping training for robots |
US20220309336A1 (en) * | 2021-03-26 | 2022-09-29 | Nvidia Corporation | Accessing tensors |
US11787055B2 (en) * | 2021-03-30 | 2023-10-17 | Honda Research Institute Europe Gmbh | Controlling a robot using predictive decision making |
US11945441B2 (en) * | 2021-03-31 | 2024-04-02 | Nissan North America, Inc. | Explainability and interface design for lane-level route planner |
US11978258B2 (en) * | 2021-04-06 | 2024-05-07 | Nvidia Corporation | Techniques for identification of out-of-distribution input data in neural networks |
US20220335624A1 (en) * | 2021-04-15 | 2022-10-20 | Waymo Llc | Unsupervised training of optical flow estimation neural networks |
US11144847B1 (en) * | 2021-04-15 | 2021-10-12 | Latent Strategies LLC | Reinforcement learning using obfuscated environment models |
US11713059B2 (en) * | 2021-04-22 | 2023-08-01 | SafeAI, Inc. | Autonomous control of heavy equipment and vehicles using task hierarchies |
EP4326587A1 (en) * | 2021-04-23 | 2024-02-28 | Motional AD LLC | Predicting agent trajectories |
US20220366220A1 (en) * | 2021-04-29 | 2022-11-17 | Nvidia Corporation | Dynamic weight updates for neural networks |
US20220373980A1 (en) * | 2021-05-06 | 2022-11-24 | Massachusetts Institute Of Technology | Dymamic control of a manufacturing process using deep reinforcement learning |
US20220366263A1 (en) * | 2021-05-06 | 2022-11-17 | Waymo Llc | Training distilled machine learning models using a pre-trained feature extractor |
US11546665B2 (en) * | 2021-05-07 | 2023-01-03 | Hulu, LLC | Reinforcement learning for guaranteed delivery of supplemental content |
US20220366235A1 (en) * | 2021-05-13 | 2022-11-17 | Deepmind Technologies Limited | Controlling operation of actor and learner computing units based on a usage rate of a replay memory |
US20220383075A1 (en) * | 2021-05-21 | 2022-12-01 | Royal Bank Of Canada | System and method for conditional marginal distributions at flexible evaluation horizons |
US20220398283A1 (en) * | 2021-05-25 | 2022-12-15 | Nvidia Corporation | Method for fast and better tree search for reinforcement learning |
US11941899B2 (en) * | 2021-05-26 | 2024-03-26 | Nvidia Corporation | Data selection based on uncertainty quantification |
US20220383074A1 (en) * | 2021-05-28 | 2022-12-01 | Deepmind Technologies Limited | Persistent message passing for graph neural networks |
US11921506B2 (en) * | 2021-05-28 | 2024-03-05 | Nissan North America, Inc. | Belief state determination for real-time decision-making |
US20230025154A1 (en) * | 2021-07-22 | 2023-01-26 | The Boeing Company | Dual agent reinforcement learning based system for autonomous operation of aircraft |
US20230075473A1 (en) * | 2021-09-09 | 2023-03-09 | Mycronic AB | Device and method for enabling deriving of corrected digital pattern descriptions |
US20230121913A1 (en) * | 2021-10-19 | 2023-04-20 | Volvo Car Corporation | Intelligent messaging framework for vehicle ecosystem communication |
US20230237342A1 (en) * | 2022-01-24 | 2023-07-27 | Nvidia Corporation | Adaptive lookahead for planning and learning |
CN114362175B (zh) * | 2022-03-10 | 2022-06-07 | 山东大学 | 基于深度确定性策略梯度算法的风电功率预测方法及系统 |
US11429845B1 (en) * | 2022-03-29 | 2022-08-30 | Intuit Inc. | Sparsity handling for machine learning model forecasting |
US20230376961A1 (en) * | 2022-05-19 | 2023-11-23 | Oracle Financial Services Software Limited | Reinforcement learning agent simulation to measure monitoring system strength |
US20240070485A1 (en) * | 2022-08-16 | 2024-02-29 | Optum, Inc. | Reinforcement learning for optimizing cross-channel communications |
CN115529278A (zh) * | 2022-09-07 | 2022-12-27 | 华东师范大学 | 基于多智能体强化学习的数据中心网络ecn自动调控方法 |
-
2017
- 2017-11-04 JP JP2019523612A patent/JP6728495B2/ja active Active
- 2017-11-04 CN CN202311473332.7A patent/CN117521725A/zh active Pending
- 2017-11-04 CN CN201780078702.3A patent/CN110088775B/zh active Active
- 2017-11-04 WO PCT/IB2017/056902 patent/WO2018083667A1/en unknown
- 2017-11-04 EP EP17807934.9A patent/EP3523760B1/en active Active
-
2019
- 2019-05-03 US US16/403,314 patent/US10733501B2/en active Active
-
2020
- 2020-06-25 US US16/911,992 patent/US20200327399A1/en active Pending
- 2020-06-29 JP JP2020111559A patent/JP6917508B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2018083667A1 (en) | 2018-05-11 |
JP2020191097A (ja) | 2020-11-26 |
CN110088775A (zh) | 2019-08-02 |
US10733501B2 (en) | 2020-08-04 |
JP6728495B2 (ja) | 2020-07-22 |
US20200327399A1 (en) | 2020-10-15 |
EP3523760B1 (en) | 2024-01-24 |
EP3523760A1 (en) | 2019-08-14 |
CN110088775B (zh) | 2023-11-07 |
US20190259051A1 (en) | 2019-08-22 |
JP6917508B2 (ja) | 2021-08-11 |
JP2019537136A (ja) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110088775B (zh) | 使用加强学习的环境预测 | |
CN110114783B (zh) | 利用辅助任务的强化学习 | |
CN110692066B (zh) | 使用多模态输入选择动作 | |
CN110088774B (zh) | 使用强化学习的环境导航 | |
CN110326004B (zh) | 使用路径一致性学习训练策略神经网络 | |
CN110235148B (zh) | 训练动作选择神经网络 | |
US20210201156A1 (en) | Sample-efficient reinforcement learning | |
US11200482B2 (en) | Recurrent environment predictors | |
CN110546653B (zh) | 使用管理者和工作者神经网络的用于强化学习的动作选择 | |
US20210049467A1 (en) | Graph neural networks representing physical systems | |
US10860895B2 (en) | Imagination-based agent neural networks | |
WO2019151984A1 (en) | Dynamic placement of computation sub-graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |