CN110023965A - 用于选择由机器人智能体执行的动作的神经网络 - Google Patents
用于选择由机器人智能体执行的动作的神经网络 Download PDFInfo
- Publication number
- CN110023965A CN110023965A CN201780074261.XA CN201780074261A CN110023965A CN 110023965 A CN110023965 A CN 110023965A CN 201780074261 A CN201780074261 A CN 201780074261A CN 110023965 A CN110023965 A CN 110023965A
- Authority
- CN
- China
- Prior art keywords
- dnn
- layer
- training
- output
- robotic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 225
- 210000005036 nerve Anatomy 0.000 claims abstract description 38
- 230000003993 interaction Effects 0.000 claims abstract description 24
- 238000012512 characterization method Methods 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 39
- 238000005516 engineering process Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 230000001537 neural effect Effects 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 description 18
- 230000002787 reinforcement Effects 0.000 description 16
- 238000004590 computer program Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000272 proprioceptive effect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009023 proprioceptive sensation Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
- Image Analysis (AREA)
Abstract
一种系统包括由一个或多个计算机实现的神经网络系统。神经网络系统被配置为接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察,并处理所述观察以生成限定由所述机器人智能体响应于所述观察而执行的动作的策略输出。神经网络系统包括:(i)深度神经网络(DNN)的序列,其中DNN的序列包括模拟训练的DNN,所述模拟训练的DNN已经在所述机器人智能体的模拟版本与所述现实世界环境的模拟版本的交互上被训练以执行所述机器人任务的模拟版本,以及(ii)第一机器人训练的DNN,其被配置为接收观察并处理观察以生成策略输出。
Description
相关申请的交叉引用
本申请要求2016年10月10日提交的美国临时申请序列号62/406,363的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分,并且通过引用结合在本申请的公开内容中。
技术领域
本说明书涉及选择由强化学习智能体执行的动作。
背景技术
强化学习智能体通过接收表征环境的当前状态的观察并且作为响应执行动作来与环境交互。
一些强化学习系统使用神经网络来选择由智能体响应于接收任何给定观察而执行的动作。
神经网络是机器学习模型,其使用一个或多个非线性单元层来预测接收的输入的输出。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即下一隐藏层或输出层)的输入。网络的每个层根据相应一组参数的当前值从接收的输入生成输出。
发明内容
本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统。
通常,一个创新方面可以体现在包括由一个或多个计算机实现的神经网络系统的系统中。神经网络系统被配置为接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察,并处理所述观察以生成限定由所述机器人智能体响应于所述观察而执行的动作的策略输出。神经网络系统包括深度神经网络(DNN)的序列。DNN的序列包括模拟训练的DNN,所述模拟训练的DNN已经在所述机器人智能体的模拟版本与所述现实世界环境的模拟版本的交互上被训练以执行机器人任务的模拟版本。所述模拟训练的DNN包括第一多个索引层,并且所述模拟训练的DNN被配置为接收所述观察并通过所述第一多个索引层中的每个层处理所述观察,以生成所述第一多个索引层中的每个层的相应层输出。DNN的序列还包括第一机器人训练的DNN。其可以已经在机器人智能体与现实世界环境的交互上被训练以执行机器人任务。所述第一机器人训练的DNN包括第二多个索引层。所述第一机器人训练的DNN被配置为接收所述观察并通过所述第二多个索引层中的每个层处理所述观察以生成所述策略输出,并且所述第二多个索引层中的层的一个或多个均被配置为接收下列作为输入:(i)由所述第一机器人训练的DNN的前一层生成的层输出,以及(ii)由所述模拟训练的DNN的前一层生成的层输出,其中,前一层是其索引比所述层的索引小1的层。
可以实现本说明书中描述的主题的特定实施例,以实现以下优点中的一个或多个。深度强化学习算法太慢而无法实现现实世界机器人上的性能,但可以在模拟环境中进行演示。通过使用本说明书中描述的神经网络系统来弥合现实差距并将学习的策略从模拟转移到现实世界,可以使用比现有方法更少的计算资源更快速地有效确定机器人智能体的动作选择策略。也就是说,本说明书中描述的神经网络系统允许使用深度强化学习来实现现实机器人上的快速策略学习。
在一些实施方式中,借助于模拟训练的DNN被配置为具有足够的容量和深度以从头开始学习任务以及一个或多个机器人训练的DNN具有更小的容量,可以实现不同任务的最大转移和更快的学习。模拟训练的DNN和机器人训练的DNN的容量和结构不需要相同,因此允许解决不同的任务,包括不同的输入模态。另外,在训练之后,训练的神经网络系统在被用于选择动作时可以具有较小的计算足迹,即,使用较少的处理资源和较少的存储器,同时仍然有效地选择由机器人智能体执行的动作。此外,虽然现有方法不能适应变化的网络形态或新的输入模态,但是通过使用渐进网络,本说明书中描述的神经网络系统在转移到新任务时提供了添加新容量(包括新输入连接)的灵活性。这对于弥合现实差距也是有利的,以适应模拟和现实传感器之间的不同输入。
在一些实施方式中,第一机器人训练的DNN具有比模拟训练的DNN小的容量。可以计算神经网络的容量。其广泛地涉及神经网络的参数的数量,因此第一机器人训练的DNN可以具有比模拟训练的DNN数量少的参数,诸如权重。根据经验发现,这不会妨碍,而是可以激励学习,同时减少计算负荷。以类似的方式,第一机器人训练的DNN可以具有比模拟训练的DNN窄的架构,例如在对应层中具有更少节点。
在一些实施方式中,第一机器人训练的DNN和模拟训练的DNN的层可以均包括相应的递归神经网络层。这有助于基于观察的历史生成策略输出。
策略输出可以限定离散或连续策略。例如,输出可以提供在表示要执行的动作的连续动作空间中的值,或者可以存在表示离散动作空间中的每个可能动作的动作概率的一个值。例如,前者可以采用DDPG DNN,后者可以采用A3C DNN(其缩写参见下文)。在后一种情况下,DNN的输出层可以包括柔性最大值(softmax)层以提供策略,并且通常包括相关值函数的线性输出。也可以采用其他框架-例如,策略可以隐含在来自Deep Q网络(DQN)的输出中,例如作为值和优势函数输出。因此,可选地,动作子系统可以基于策略输出选择要由机器人智能体执行的动作。这可以使机器人智能体执行所选择的动作。如果机器人智能体具有要控制的多个自由度,则可以存在多个策略输出。
该系统可以包括第二机器人训练的DNN,其以与先前描述的方式类似的方式横向联接到第一机器人训练的DNN和模拟训练的DNN。该第二机器人训练的DNN可以接收也表征环境的当前状态的不同数据(对于观察),连同或可能代替观察。可以训练第二机器人训练的DNN以对第一机器人训练的DNN执行不同的任务,或者其可以被训练以执行相同的任务,在这种情况下,第二机器人训练的DNN可以限定要执行的动作。进一步的DNN可以以类似的方式链接。
训练系统的方法可以包括确定DNN的序列中的一个或多个DNN的参数的训练值。因此,如果已经训练了模拟训练的DNN,则可以在现实世界环境中训练机器人训练的DNN,从而使它们能够使用通过模拟训练的DNN学习的特征。可以固定训练模拟的DNN的参数的训练值以避免忘记基于模拟的训练。可以使用现实世界环境的模拟版本来训练模拟训练的DNN。
机器人训练的DNN的训练可以涉及:接收下列作为输入:(i)由第一机器人训练的DNN的输出层之前的层生成的层输出,以及(ii)由模拟训练的DNN的输出层之前的层生成的层输出;将第一组参数应用于由第一机器人训练的DNN的输出层之前的层生成的层输出;并且将第二组参数应用于由模拟训练的DNN的输出层之前的层生成的层输出。该方法可以进一步包括将第二组参数的值初始化以匹配模拟训练的DNN的输出层的参数的训练值,并且可选地将第一组参数的值初始化为零。例如,该方法可以将到来自先前DNN列的最后层的DNN列的输出层的连接的一些或所有权重初始化为先前DNN列的输出权重,并且可选地将列内DNN列的输出层的一些或所有权重初始化为零。这有助于探索,特别是通过增加现实世界奖励的机会来弥补现实世界中的奖励如此稀疏以至于强化学习不成功的风险。
使用该系统的方法可以包括接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察;使用神经网络系统处理观察;以及响应于使用策略输出的观察选择机器人智能体要执行的动作。
在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例强化学习系统。
图2示出了神经网络系统的示例架构。
图3是用于训练神经网络系统的示例过程的流程图。
图4是用于选择由智能体响应于观察而执行的动作的示例过程的流程图。
各附图中相同的附图标记和名称指示相同的元件。
具体实施方式
本说明书总体描述强化学习系统,其选择由与现实世界环境交互的强化学习智能体执行的动作。为了与现实世界环境交互,智能体接收表征现实世界环境的当前状态的数据并且响应于接收的数据执行来自动作空间(例如,离散动作空间或连续动作空间)的动作。表征现实世界环境的状态的数据在本说明书中将被称为观察。
在一些实施方式中,机器人智能体可以是与现实世界环境交互以完成特定任务的机器人。在其他实施方式中,机器人智能体可以是导航通过现实世界环境的自主或半自主车辆。在这些实施方式中,动作可以是用于控制机器人或自主车辆的可能的控制输入的空间中的点。
在一些情况下,观察使用表征环境的状态的低维特征向量来表征环境的状态。在这些情况下,低维特征向量的不同维度的值可以具有变化的范围。
在一些其他情况下,观察使用来自表征环境的状态的一个或多个图像(例如,当智能体与现实世界环境交互时智能体的传感器捕获的图像)的高维像素输入来表征环境的状态。
图1示出了示例强化学习系统100。强化学习系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例,在强化学习系统100中实现下面描述的系统、组件和技术。
强化学习系统100选择由与现实世界环境104交互的强化学习智能体102执行的动作以完成任务。也就是说,强化学习系统100接收观察,其中每个观察表征环境104的相应状态,并且响应于每个观察,选择由智能体102响应观察执行的动作。
具体地,强化学习系统100使用神经网络系统106和动作子系统108选择动作。
神经网络系统106被配置为接收观察112,该观察112表征由智能体102与之交互以执行任务的现实世界环境104的当前状态。例如,智能体102是执行机器人任务(诸如到达任务或传送器(运动跟踪)任务)的机器人智能体。
为了弥合现实差距并将学习的策略从模拟转移到现实世界,神经网络系统106包括深度神经网络(DNN)的序列,其包括模拟训练的DNN和一个或多个机器人训练的DNN。模拟训练的DNN被配置为具有足够的容量和深度以从头开始学习任务,并且一个或多个机器人训练的DNN被配置为具有更小的容量以实现不同任务的最大转移和更快地学习。模拟训练的DNN和机器人训练的DNN的容量和结构不需要相同,因此允许解决不同的任务,包括不同的输入模态。DNN序列中的每个DNN包括多个索引层和输出层。下面参考图2更详细地描述神经网络系统106的架构。
神经网络系统106被配置为使用DNN序列来处理观察112以生成策略输出110。通常,策略输出110限定可以由智能体102响应于观察112执行以完成任务的一组可能动作的概率分布。例如,在一些实施方式中,智能体102具有多个自由度,其包括一个或多个关节和一个或多个致动器(例如,具有多个关节和手指的机器人臂)。在这些实施方式中,策略输出110限定响应于观察控制智能体102的不同自由度的可能动作的概率分布,所述可能动作例如控制智能体102的每个自由度的位置改变的动作。
在一些实施方式中,神经网络系统106被配置为使用DNN序列来处理观察112以生成第二策略输出,该第二策略输出限定可以由智能体102执行以完成第二不同的任务的一组可能动作的概率分布。
为了允许智能体102有效地与现实世界环境104交互,强化学习系统100训练神经网络系统106以确定神经网络系统106的参数的训练值。具体地,系统100在智能体的模拟版本与现实世界环境的模拟版本的交互上训练模拟训练的DNN以执行任务,以确定模拟训练的DNN的参数的训练值。系统100然后在智能体与现实世界环境的交互上训练机器人训练的DNN以执行任务,以确定机器人训练的DNN的参数的训练值,同时保持模拟训练的DNN的参数的训练值固定。在训练期间,基于模拟训练的DNN的输出层的参数的训练值来初始化机器人训练的DNN的输出层的参数值,以改善探索和加速学习。下面参考图3更详细地描述用于训练神经网络系统106的示例过程。
在神经网络系统106生成策略输出110之后,动作子系统108被配置为从神经网络系统106接收策略输出110并且基于策略输出110选择由智能体102执行的动作114。具体地,动作子系统108可以通过从由策略输出110限定的概率分布中采样动作114来选择动作114,例如选择最可能的动作。然后,动作子系统108使智能体执行所选择的动作114。
图2示出了图1的神经网络系统106的示例架构。
神经网络系统106包括深度神经网络(DNN)的序列。
DNN的序列包括模拟训练的深度神经网络(DNN)222,其已经在机器人智能体的模拟版本与现实世界环境的模拟版本的交互上被训练,以执行第一机器人任务的模拟版本。
通常,模拟训练的DNN 222包括以堆叠的方式布置在彼此之上的多个神经网络层。模拟训练的DNN 222可以是前馈神经网络或递归神经网络。模拟训练的DNN 222可以包括一个或多个卷积神经网络层,其后是完全连接层或长短期记忆(LSTM)神经网络层。
如图2所示,模拟训练的DNN 222包括多个第一索引层,例如层h1 (1)(204)和层h2 (1)(206),以及输出层208。模拟训练的DNN 222被配置为接收输入202,其包括表征现实世界环境的当前状态的观察。例如,观察包括视觉数据,诸如描绘现实世界环境的当前状态的一个或多个RGB图像。然后,模拟训练的DNN 222被配置为通过每个第一索引层处理观察,以生成每个层的相应的层输出。然后将每层的相应的层输出作为输入提供给下一层。
DNN的序列还包括第一机器人训练的DNN 224。第一机器人训练的DNN 224可以是前馈或递归神经网络。第一机器人训练的DNN 224可以包括一个或多个卷积神经网络层,其后是完全连接神经网络层或LSTM神经网络层。
在许多情况下,第一机器人训练的DNN 224和模拟训练的DNN 222不需要具有相同的容量或结构,并且这在模拟到现实情况中可能是有利的。模拟训练的DNN 222可以被设计为具有足够的容量和深度以从头开始学习机器人任务,但是机器人训练的DNN 224可以具有最小容量,以激励快速学习并限制总参数增长。因此,在一些情况下,模拟训练的DNN 222是标准大小的网络,而第一机器人训练的DNN 224是容量减少的网络以加速训练。这意味着第一机器人训练的DNN 224具有比模拟训练的DNN 222少得多的参数。例如,当模拟训练的DNN 222和第一机器人训练的DNN 224两者都是前馈神经网络时,模拟训练的DNN 222可以具有数十万个参数,例如,大约600,000个参数,而第一机器人训练的DNN 224可能仅具有数万个参数,例如大约40,000个参数。在另一示例中,当模拟训练的DNN 222和第一机器人训练的DNN 224都是递归神经网络时,模拟训练的DNN 222可以具有大约300,000个参数,而第一机器人训练的DNN 224可能具有大约40,000个参数。
在一些情况下,模拟训练的DNN 222具有宽架构,第一机器人训练的DNN 224具有窄架构。例如,对于多个第二索引层中的一个或多个层中的每个层,具有相同索引的多个第一索引层中的对应层是相同类型但规格大于多个第二索引层中的层的神经网络层。例如,多个第一索引层中的对应层具有比多个第二索引层中的层多得多的节点。
如图2所示,第一机器人训练的DNN 224包括多个第二索引层,例如,层h1 (2)(210)和层h2 (2)(212),以及输出层214。
第一机器人训练的DNN 224被配置为接收输入202,所述输入202包括表征现实世界环境的当前状态的观察(例如,RGB图像)。通常,第一机器人训练的DNN 224被配置为通过多个第二索引层中的每一个共同地处理输入202,以生成策略输出228,其限定由机器人智能体执行以执行第一机器人任务的动作。策略输出限定智能体的多个自由度中的每一个的位置的相应的改变。自由度包括智能体的一个或多个关节以及智能体的一个或多个致动器。
具体地,多个第二索引层中的第一层(例如,层h1 (2)(210))被配置为接收输入202并处理输入202以生成第一层输出。
为了传递从智能体的模拟版本的交互中学习的特征以用于选择由智能体执行的动作,在多个第二索引层中的第一层210之后的一个或多个层均被配置为接收下列作为输入:(i)由第一机器人训练的DNN 224的前一层生成的层输出,以及(ii)由模拟训练的DNN222的前一层生成的层输出。前一层是其索引比层的索引小1的层。例如,层h2 (2)(212)被配置为接收由第一机器人训练的DNN 224的层h1 (2)(210)生成的层输出和由层h1 (1)(204)生成的层输出作为输入。该系统可以被配置为将第一组参数(权重)应用于由第一机器人训练的DNN的前一层生成的层输出,并将第二组参数(权重)应用于由模拟训练的DNN的前一层生成的层输出。可选地,序列的DNN“列”之间的连接可以包括诸如MLP(多层感知)的神经网络,以使一个DNN的层输出适应下一DNN的层输入,例如进行缩放和/或降维。在连接到输出层时可能不需要这样的适应。
在一些情况下,多个第一索引层和多个第二索引层均包括相应的递归神经网络层。在这些情况下,多个第二索引层中的递归神经网络层被配置为接收下列作为输入:(i)多个第一索引层中的递归神经网络层之前的层的层输出,(ii)多个第一索引层中的递归神经网络层的内部状态,以及(iii)多个第二索引层中的递归神经网络层之前的层的层输出。例如,假设多个第一索引层的层206和多个第二索引层的层212是递归神经网络层,则层212被配置为接收下列作为输入:层204的层输出、层206的内部状态和层210的层输出。
具体地,输出层214被配置为接收下列作为输入:(i)由第一机器人训练的DNN 224的输出层之前的层生成的层输出,例如,由层h2 (2)(212)生成的层输出,以及(ii)由模拟训练的DNN 222的输出层之前的层生成的层输出,例如,由层h2 (1)(206)生成的层输出。输出层214被配置为将第一组参数应用于由第一机器人训练的DNN 224的输出层之前的层生成的层输出,并将第二组参数应用于由模拟训练的DNN 222的输出层之前层生成的层输出,以生成策略输出228。在使用强化学习技术在机器人智能体与现实世界环境的交互上训练第一机器人训练的DNN 224之后,确定第一组参数和第二组参数。下面参考图3更详细地描述训练第一机器人训练的DNN 224。
可选地,神经网络系统106可以包括第二机器人训练的DNN 226,其已经在机器人智能体与现实世界环境的交互上被训练以执行与第一机器人任务不同的第二机器人任务。第二机器人训练的DNN 226包括多个第三索引层(例如,层h1 (3)(216)和层h2 (3)(218)),以及输出层220。第二机器人训练的DNN被配置为接收表征当前状态的附加数据作为输入连同输入202中包括的观察(例如,RGB图像)。例如,附加数据是包括机器人智能体的本体感受特征的本体感受数据,例如机器人智能体的关节和致动器中的每一个的关节角度和速度。
通过将所述附加数据作为输入,第二机器人训练的DNN允许神经网络系统106在转移到新任务时具有添加新容量(包括新输入模态)的灵活性。这优于现有方法,因为现有方法不能适应变化的网络形态或新的输入模态。这对于弥合现实差距也是有利的,以适应模拟和现实传感器之间的不同输入。
在一个变型中,第二机器人训练的DNN可以仅接收附加数据而不接收观察,并且可以经由到第一机器人训练的DNN和/或模拟训练的DNN的横向连接隐式地接收观察。
多个第三索引层中的第一层(例如,层h1 (3)(216))被配置为处理接收的输入202和附加数据以生成层输出。在第二机器人训练的DNN 226中的第一层216之后的一个或多个层均被配置为接收下列作为输入:(i)由第一机器人训练的DNN 224的前一层生成的层输出,(ii)由模拟训练的DNN 222的前一层生成的层输出,以及(iii)由第二机器人训练的DNN226的前一层生成的层输出。例如,第二机器人训练的DNN 226的层h2 (3)(218)被配置为接收下列作为输入:由第一机器人训练的DNN 224的层h1 (2)(210)生成的层输出,由模拟训练的DNN的层h1 (1)(204)生成的层输出222,以及由第二机器人训练的DNN 226的层h1 (3)(216)生成的层输出。
第一层216之后的一个或多个层均被配置为处理相应的输入以生成相应的层输出。然后将层输出作为输入提供给下一层,或者如果当前层之后没有层(即,当前层是输出层220),则将层输出提供为第二策略输出230。第二策略输出230限定由机器人智能体执行以执行第二机器人任务的动作。
图3是用于训练神经网络系统(例如,图1的神经网络系统106)的示例过程300的流程图。为方便起见,过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书适当地被编程的强化学习系统(例如,图1的强化学习系统100),可以执行过程300。
系统首先在模拟版本的机器人智能体的模拟版本与现实世界环境的模拟版本的交互上训练神经网络系统的模拟训练的DNN以执行机器人任务(即,现实世界任务),以确定模拟训练的DNN的参数的训练值(步骤302)。机器人智能体的模拟版本是虚拟3D模型,其具有与现实世界机器人智能体类似的外观并且能够模拟现实世界机器人智能体的运动。现实世界环境的模拟版本是虚拟3D环境,其渲染现实世界环境和现实世界的环境中的对象。在训练期间,机器人智能体的模拟版本被编程为移动或与模拟环境中的虚拟对象交互,以便完成现实世界任务的模拟版本。系统可以模拟训练输入数据。例如,如果现实世界环境中的输入数据包括由相机捕获的观察,则由能够渲染可能的观察的组件提供模拟的输入数据。
为了允许神经网络系统有效地适应现实世界任务、现实世界环境和机器人智能体的变化,系统可以将方差引入到模拟训练的DNN的训练中。具体地,现实世界的机器人智能体可能例如由于制造不一致性而不同。另外,任务的不同实例可能不同,例如,因为被移动的对象可能具有略微不同的规格,并且现实世界智能体可能由于制造缺陷而具有用于执行所选动作的不同能力。因此,系统可以在与现实世界任务不完全相同的模拟任务上训练模拟训练的DNN,以允许模拟训练的DNN一般化到可能在现实世界中发生的不可预测的情况。
该系统可以以各种方式将方差引入到模拟训练的DNN的训练中。例如,系统可以在系统选择动作之前将随机噪声应用于正由智能体执行的动作。作为另一示例,系统可以在模拟任务的实例之间改变环境的模拟版本中的对象的规格。
该系统可以使用第一强化学习技术来训练模拟训练的DNN。例如,系统可以使用异步优势Actor-Critic(A3C)框架来训练模拟训练的DNN。在Volodymyr Mnih、Adrià Puigdomènech Badia、Mehdi Mirza、Alex Graves、Timothy P.Lillicrap、TimHarley、DavidSilver和Koray Kavukcuoglu的Asynchronous methods for deep reinforcementlearning(在2016年的机器学习国际会议(ICML))中详细描述了使用A3C框架的训练方法。作为另一示例,系统可以使用策略梯度Actor-Critic算法(例如深度确定性策略梯度(DDPG)算法)来训练模拟训练的DNN。在Timothy P.Lillicrap、Jonathan J.Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、DaanWierstra的Continuous control with Deep Reinforcement Learning(可在https://arxiv.org/abs/1509.02971获得)中详细描述了使用DDPG算法的训练方法。
与现实机器人相比,模拟训练由于快速渲染、多线程学习算法以及无人参与而不断训练的能力而得到加速。使用模拟,系统可以高效地探索各种训练参数。例如,系统可以探索学习率和熵成本,其在对数尺度上随机均匀地采样。
然后,系统在机器人智能体与现实世界环境的交互上训练第一机器人训练的DNN以执行第一机器人任务,以确定第一机器人训练的DNN的参数的训练值(步骤304)。通常,系统首先将第一机器人训练的DNN的参数值初始化为预定或随机生成的初始值。
在现实世界训练中,存在系统接收作为机器人智能体执行动作的结果的奖励可能是如此稀疏或不存在以至于收敛率小或者不会发生收敛的风险。因此,为了在现实域中的探索期间最大化奖励的可能性,系统初始化第一机器人训练的DNN,使得机器人智能体的初始策略将与模拟训练的DNN相同。使用图2的示例神经网络系统106,当实例化第一机器人训练的DNN 224的参数时,输出层214具有来自模拟训练的DNN的层212和层206的输入连接。与随机地被初始化的第一机器人训练的DNN的其他参数不同,输出层214将应用于层212的层输出的第一参数的值被初始化为零,并且输出层214将应用于层206的层输出的第二参数的值被初始化为匹配模拟训练的DNN的输出层的参数的训练值。
在初始化第一机器人训练的DNN的参数值之后,系统在智能体与现实世界环境的交互上训练第一机器人训练的DNN以执行机器人任务,以确定第一机器人训练的DNN的参数的训练值,同时保持模拟训练的DNN的参数的训练值固定。除了表征现实世界环境的状态的观察之外,第一机器人训练的DNN可以在附加输入上被训练。附加输入可以是本体感受数据,包括机器人智能体的本体感受特征。本体感受特征可以包括机器人智能体的关节和致动器中的每一个的关节的角度和速度。
系统可以使用第二强化学习技术来在智能体的交互上训练第一机器人训练的DNN。例如,系统可以使用异步优势Actor-Critic(A3C)框架、策略梯度Actor-Critic算法(诸如深度确定性策略梯度(DDPG)算法)或其他强化学习技术来训练第一机器人训练的DNN。第二强化学习技术可以与第一强化学习技术相同或者与第一强化学习技术不同。
然后,系统在机器人智能体与现实世界环境的交互上训练第二机器人训练的DNN以执行第二不同的机器人任务,以确定第二机器人训练的DNN的参数的训练值(步骤306)。该系统在第二不同的机器人任务上训练第二机器人训练的DNN,以扩展整个系统的能力。
系统首先将第二机器人训练的DNN的参数值初始化为随机生成的初始值。
系统使用第三强化学习技术来训练第二机器人训练的DNN,该第三强化学习技术使用到模拟训练的DNN和第一机器人训练的DNN两者的横向神经连接。第三强化学习技术可以是例如使用异步优势Actor-Critic(A3C)框架、策略梯度Actor-Critic算法(例如深度确定性策略梯度(DDPG)算法)或其他强化学习技术的技术。以这种方式进行训练,第二机器人训练的DNN可以利用针对第一机器人任务学习的特征或表示,其编码在模拟训练的DNN或第一机器人训练的DNN中,以提高第二机器人任务的学习速度。例如,第一机器人任务可以是去取静止对象,而第二任务可以是去取动态移动对象。
在一些实施方式中,除了表征现实世界环境的状态的观察之外,还可以在附加输入上训练第二机器人训练的DNN。附加输入可以是本体感受数据,包括机器人智能体的本体感受特征。本体感受特征可以包括机器人智能体关节和致动器中的每一个的关节的角度和速度。在一些实施方式中,在训练期间,第二机器人训练的DNN可以仅接收附加数据而不接收观察,并且可以经由到第一机器人训练的DNN和/或模拟训练的DNN的横向连接隐式地接收观察。
图4是用于选择由智能体响应于观察而执行的动作的示例过程400的流程图。为方便起见,过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书适当地被编程的强化学习系统(例如,图1的强化学习系统100),可以执行过程400。
系统接收表征智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察(步骤402)。该观察使用来自表征环境的当前状态的一个或多个图像的高维像素输入来表征环境的当前状态,所述一个或多个图像例如在智能体与现实世界环境交互时由智能体的传感器捕获的图像。
然后,系统使用神经网络系统处理观察以生成策略输出(步骤404)。系统根据神经网络系统的参数的训练值处理观察。通常,策略输出限定可以由智能体响应观察而执行的一组可能动作的概率分布。例如,在一些实施方式中,智能体具有多个自由度,其包括一个或多个关节和一个或多个致动器(例如,具有多个关节和手指的机器人臂)。在这些实施方式中,策略输出限定响应于观察控制智能体的不同自由度的可能动作的概率分布,可能的动作例如控制智能体的每个自由度的位置改变的动作。例如,在机器人臂的情况下,动作可以包括用于手臂和手指关节的速度命令。
系统使用策略输出选择由智能体响应于观察执行的动作(步骤406)。具体地,系统通过从由策略输出限定的概率分布中采样动作来选择动作。
然后,系统使智能体执行动作(步骤408)。
本说明书使用与系统和计算机程序组件有关的术语“被配置”。对于被配置为执行特定操作或动作的一个或多个计算机的系统意味着系统已在其上安装有软件、固件、硬件或它们的组合,其在操作时使系统执行操作或动作。对于被配置为执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理装置运行时使装置执行操作或动作的指令。
本说明书中描述的主题和功能操作的实施例可以用数字电子电路、用有形地具体实现的计算机软件或固件、用计算机硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例可以作为一个或多个计算机程序(即,在有形非暂时性存储介质上编码以供由数据处理装置执行或者用于控制数据处理装置的操作的计算机程序指令的一个或多个模块)被实现。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备或它们中的一个或多个的组合。可替选地或此外,程序指令可被编码在人工生成的传播信号上,所述传播信号例如为机器生成的电、光或电磁信号,该信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。
术语“数据处理装置”指数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器,作为示例包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或还可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。该装置除了包括硬件之外还可以可选地包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(其也可以被称为或者描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言或者声明或过程语言)编写,并且它可以被以任何形式部署,包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。程序可以但未必对应于文件系统中的文件。可以在保持其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如,存储一个或多个模块、子程序或代码部分的文件)中存储程序。可以将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并通过数据通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以是通过一个或多个可编程计算机运行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能来执行的。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个经编程计算机的组合执行。
适合于运行计算机程序的计算机可以基于通用微处理器或专用微处理器或两者,或任何其它种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合在其中。通常,计算机也将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据或者向所述大容量存储设备传送数据,或者兼而有之。然而,计算机未必具有此类设备。此外,计算机可被嵌入在另一设备中,所述另一设备例如为移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器)等等。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括半导体存储器设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。
为了提供与用户的交互,可以在计算机上实现本说明书中描述的主题的实施例,所述计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以用来向该计算机提供输入的键盘和指向设备,例如,鼠标或轨迹球。其它种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声、语音或触觉输入。此外,计算机可以通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的设备上的web浏览器发送web页面。此外,计算机可以通过向个人设备(例如,运行消息收发应用的智能电话)发送文本消息或其他形式的消息并且转而从用户接收响应消息来与用户交互。
用于实现机器学习模型的数据处理装置还可以包括,例如,专用硬件加速器单元,用于处理机器学习训练或生产的公共和计算密集部分,即推断、工作负载。
可以使用机器学习框架来实现和部署机器学习模型,例如TensorFlow框架、Microsoft认知工具包框架、Apache Singa框架或Apache MXNet框架。
本说明书中描述的主题的实施例可以被实现在计算系统中,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面、web浏览器或app的客户端计算机),或者包括一个或多个此类后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如,因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。一些实施例中,服务器将数据(例如,HTML页面)发送到用户设备,例如,用于向与作为客户端的设备交互的用户显示数据和从用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据,例如,用户交互的结果。
虽然本说明书包含许多具体实现细节,但是这些不应该被解释为对任何发明的范围或可能要求保护的范围构成限制,而是相反作为可以特定于特定发明的特定实施例的特征的描述。也可以在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地,也可以在多个实施例中单独地或者按照任何适合的子组合实现在单个实施例的上下文中描述的各种特征。此外,尽管特征可能已经在上面被描述为按照某些组合起作用并且甚至最初如此要求保护,然而来自要求保护的组合的一个或多个特征可以在一些情况下被从该组合中除去,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然在附图中按照特定次序描绘了操作并且在权利要求中按照特定次序记载了操作,但是这不应该被理解为要求按照所示特定次序或按照顺序次序执行此类操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,上述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离,并且应该理解的是,所描述的程序组件和系统通常可以被一起集成在单个软件产品中或者包装到多个软件产品中。
已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如,权利要求中记载的动作可以被以不同的次序执行并仍然实现所希望的结果。作为一个示例,附图中描绘的过程不一定要求所示特定次序或顺序次序来实现所希望的结果。在某些情况下,多任务处理和并行处理可能是有利的。
Claims (28)
1.一种系统,包括:
由一个或多个计算机实现的神经网络系统,
其中,所述神经网络系统被配置为接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察,并处理所述观察以生成限定由所述机器人智能体响应于所述观察而执行的动作的策略输出,
其中,所述神经网络系统包括深度神经网络DNN的序列,以及
其中,所述DNN的序列包括:
模拟训练的DNN,所述模拟训练的DNN已经在所述机器人智能体的模拟版本与所述现实世界环境的模拟版本的交互上被训练以执行所述机器人任务的模拟版本,其中:
所述模拟训练的DNN包括第一多个索引层,以及
所述模拟训练的DNN被配置为接收所述观察并通过所述第一多个索引层中的每个层处理所述观察,以生成所述第一多个索引层中的每个层的相应层输出;以及
第一机器人训练的DNN,其中:
所述第一机器人训练的DNN包括第二多个索引层,
所述第一机器人训练的DNN被配置为接收所述观察并通过所述第二多个索引层中的每个层处理所述观察以生成所述策略输出,以及
所述第二多个索引层中的层的一个或多个均被配置为接收下列作为输入:(i)由所述第一机器人训练的DNN的前一层生成的层输出,以及(ii)由所述模拟训练的DNN的前一层生成的层输出,其中,前一层是其索引比所述层的索引小1的层。
2.根据权利要求1所述的系统,其中,所述第一机器人训练的DNN已经在所述机器人智能体与所述现实世界环境的交互上被训练以执行所述机器人任务。
3.根据权利要求1或2中任一项所述的系统,其中,所述第一机器人训练的DNN具有比所述模拟训练的DNN小的容量。
4.根据权利要求3所述的系统,其中,所述第一机器人训练的DNN具有窄架构,并且所述模拟训练的DNN具有宽架构。
5.根据权利要求1-4中任一项所述的系统,其中,对于所述第二多个索引层中的一个或多个层中的每一个,具有相同索引的所述多个第一索引层中的对应层是相同类型但规格大于所述多个第二索引层中的层的神经网络层。
6.根据权利要求1-5中任一项所述的系统,其中,所述第一多个索引层和所述第二多个索引层均包括相应的递归神经网络层。
7.根据权利要求6所述的系统,其中,所述第二多个索引层中的递归神经网络层被配置为接收下列作为输入:(i)所述第一多个索引层中的递归神经网络层之前的层的层输出,(ii)所述第一多个索引层中的递归神经网络层的内部状态,以及(iii)所述第二多个索引层中的递归神经网络层之前的层的层输出。
8.根据权利要求1-7中任一项所述的系统,其中,所述第二多个索引层中被配置为接收下列作为输入:(i)由所述第一机器人训练的DNN的前一层生成的层输出,以及(ii)由所述模拟训练的DNN的前一层生成的层输出的层中的一个或多个中的每一个还被配置为:
将相应的第一组参数应用于由所述第一机器人训练的DNN的前一层生成的层输出;以及
将相应的第二组参数应用于由所述模拟训练的DNN的前一层生成的层输出。
9.根据权利要求1-8中任一项所述的系统,其中,所述策略输出限定所述机器人智能体的多个自由度中的每一个的位置的相应的改变。
10.根据权利要求1-9中任一项所述的系统,其中,所述多个自由度包括所述机器人智能体的一个或多个关节以及所述机器人智能体的一个或多个致动器。
11.根据权利要求1-10中任一项所述的系统,还包括:
动作子系统,所述动作子系统被配置为:
基于所述策略输出选择由所述机器人智能体执行的动作;以及
使所述机器人智能体执行所选择的动作。
12.根据权利要求1-10中任一项所述的系统,其中,所述DNN的序列还包括:
第二机器人训练的DNN,其中:
所述第二机器人训练的DNN包括第三多个索引层,以及
所述第三多个索引层中的层的一个或多个均被配置为接收下列作为输入:(i)由所述第一机器人训练的DNN的前一层生成的层输出,(ii)由所述模拟训练的DNN的前一层生成的层输出,以及(iii)由所述第二机器人训练的DNN的前一层生成的层输出。
13.根据权利要求12所述的系统,其中:
所述第二机器人训练的DNN被配置为接收表征所述当前状态的不同数据连同观察;以及
所述第二机器人训练的DNN被配置为通过所述第三多个索引层处理所述不同数据以生成第二策略输出,所述第二策略输出限定由所述机器人智能体执行第二不同的机器人任务执行的动作。
14.根据权利要求13所述的系统,其中,所述观察是视觉数据,并且所述不同数据是本体感受数据。
15.一种训练根据权利要求1-14中任一项所述的神经网络系统以确定所述DNN的序列中的一个或多个的参数的训练值的方法,所述方法包括:
在所述机器人智能体与所述现实世界环境的交互上训练所述第一机器人训练的DNN以执行所述机器人任务,以确定所述第一机器人训练的DNN的参数的训练值,同时保持所述模拟训练的DNN的参数的训练值固定。
16.根据权利要求15所述的方法,
其中,所述第一机器人训练的DNN的输出层被配置为:
接收下列作为输入:(i)由所述第一机器人训练的DNN的输出层之前的层生成的层输出,以及(ii)由所述模拟训练的DNN的输出层之前的层生成的层输出;
将第一组参数应用于由所述第一机器人训练的DNN的输出层之前的层生成的层输出;以及
将第二组参数应用于由所述模拟训练的DNN的输出层之前的层生成的层输出,以及
其中,所述方法还包括:
将所述第二组参数的值初始化为匹配所述模拟训练的DNN的输出层的参数的训练值。
17.根据权利要求16所述的方法,还包括:
将所述第一组参数的值初始化为零。
18.根据权利要求16或17中任一项所述的方法,还包括:
将除输出层之外的所述第一机器人训练的DNN的层的参数值初始化为随机值。
19.根据权利要求15-18中任一项所述的方法,还包括:
在所述机器人智能体的模拟版本与所述现实世界环境的模拟版本的交互上训练所述模拟训练的DNN以执行所述机器人任务的模拟版本,以确定所述模拟训练的DNN的参数的训练值。
20.根据权利要求19所述的方法,其中,训练所述模拟训练的DNN包括使用第一强化学习技术在所述机器人智能体的模拟版本的交互上训练所述模拟训练的DNN。
21.根据权利要求20所述的方法,其中,训练所述第一机器人训练的DNN包括使用第二强化学习技术在所述机器人智能体的交互上训练所述第一机器人训练的DNN。
22.根据权利要求21所述的方法,其中,所述第一强化学习技术与所述第二强化学习技术相同。
23.根据权利要求21所述的方法,其中,所述第一强化学习技术与所述第二强化学习技术不同。
24.一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机运行时使所述一个或多个计算机执行根据权利要求15-23中任一项所述的相应方法的操作。
25.一种或多种存储指令的计算机存储介质,所述指令在由一个或多个计算机运行时使所述一个或多个计算机执行根据权利要求15-23中任一项所述的相应方法的操作。
26.一种方法,包括:
接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察;
使用根据权利要求1-14中任一项所述的神经网络系统处理所述观察,以生成策略输出;以及
使用所述策略输出选择由所述机器人智能体响应于所述观察而执行的动作。
27.根据权利要求26所述的方法,还包括:
使所述机器人智能体执行所述动作。
28.一种或多种存储指令的计算机存储介质,所述指令在由一个或多个计算机运行时使所述一个或多个计算机实现根据权利要求1-14中任一项所述的相应的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310773649.6A CN116992917A (zh) | 2016-10-10 | 2017-10-10 | 用于选择动作的系统和方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662406363P | 2016-10-10 | 2016-10-10 | |
US62/406,363 | 2016-10-10 | ||
PCT/US2017/055894 WO2018071392A1 (en) | 2016-10-10 | 2017-10-10 | Neural networks for selecting actions to be performed by a robotic agent |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310773649.6A Division CN116992917A (zh) | 2016-10-10 | 2017-10-10 | 用于选择动作的系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110023965A true CN110023965A (zh) | 2019-07-16 |
CN110023965B CN110023965B (zh) | 2023-07-11 |
Family
ID=60164852
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310773649.6A Pending CN116992917A (zh) | 2016-10-10 | 2017-10-10 | 用于选择动作的系统和方法 |
CN201780074261.XA Active CN110023965B (zh) | 2016-10-10 | 2017-10-10 | 用于选择动作的神经网络的系统、方法和存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310773649.6A Pending CN116992917A (zh) | 2016-10-10 | 2017-10-10 | 用于选择动作的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10632618B2 (zh) |
EP (1) | EP3523758B1 (zh) |
JP (1) | JP6875513B2 (zh) |
CN (2) | CN116992917A (zh) |
DE (1) | DE202017106132U1 (zh) |
WO (1) | WO2018071392A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255059A (zh) * | 2018-01-19 | 2018-07-06 | 南京大学 | 一种基于模拟器训练的机器人控制方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN111459278A (zh) * | 2020-04-01 | 2020-07-28 | 中国科学院空天信息创新研究院 | 基于触觉阵列的机器人抓取状态判别方法 |
CN112629542A (zh) * | 2020-12-31 | 2021-04-09 | 山东师范大学 | 基于ddpg和lstm的无地图机器人路径导航方法及系统 |
US20210107144A1 (en) * | 2018-07-04 | 2021-04-15 | Preferred Networks, Inc. | Learning method, learning apparatus, and learning system |
CN114514524A (zh) * | 2019-10-07 | 2022-05-17 | 伟摩有限责任公司 | 多智能体模拟 |
WO2023070274A1 (en) * | 2021-10-25 | 2023-05-04 | Robert Bosch Gmbh | A method and an apparatus for continual learning |
CN116739054A (zh) * | 2023-06-19 | 2023-09-12 | 南京航空航天大学 | 一种基于fpga的a3c深度强化学习算法加速器 |
CN116887956A (zh) * | 2020-12-31 | 2023-10-13 | 谷歌有限责任公司 | 真实机器人的模拟驱动机器人控制 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3459017B1 (en) * | 2016-05-20 | 2023-11-01 | Deepmind Technologies Limited | Progressive neural networks |
US10800040B1 (en) | 2017-12-14 | 2020-10-13 | Amazon Technologies, Inc. | Simulation-real world feedback loop for learning robotic control policies |
US10926408B1 (en) | 2018-01-12 | 2021-02-23 | Amazon Technologies, Inc. | Artificial intelligence system for efficiently learning robotic control policies |
JP6911798B2 (ja) * | 2018-03-15 | 2021-07-28 | オムロン株式会社 | ロボットの動作制御装置 |
US11074829B2 (en) * | 2018-04-12 | 2021-07-27 | Baidu Usa Llc | Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game |
EP3782080A1 (en) * | 2018-04-18 | 2021-02-24 | DeepMind Technologies Limited | Neural networks for scalable continual learning in domains with sequentially learned tasks |
AU2019284379A1 (en) | 2018-06-12 | 2021-01-28 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
US10824146B2 (en) | 2018-06-29 | 2020-11-03 | Ford Global Technologies, Llc | Handling rider service at autonomous vehicles |
JP7060546B2 (ja) * | 2018-07-10 | 2022-04-26 | ファナック株式会社 | 歯当たり位置調整量推定装置、機械学習装置、ロボットシステム及び歯当たり位置調整量推定システム |
US11407104B2 (en) | 2018-07-10 | 2022-08-09 | Fanuc Corporation | Tooth contact position adjustment amount estimation device, machine learning device, and robot system |
CN109063823B (zh) * | 2018-07-24 | 2022-06-07 | 北京工业大学 | 一种智能体探索3d迷宫的批a3c强化学习方法 |
US11256958B1 (en) | 2018-08-10 | 2022-02-22 | Apple Inc. | Training with simulated images |
US10703370B2 (en) | 2018-08-24 | 2020-07-07 | Ford Global Technologies, Llc | Vehicle action control |
US10860927B2 (en) * | 2018-09-27 | 2020-12-08 | Deepmind Technologies Limited | Stacked convolutional long short-term memory for model-free reinforcement learning |
WO2020098962A1 (en) * | 2018-11-13 | 2020-05-22 | Abb Schweiz Ag | A method and a system for applying machine learning to an application |
US11313950B2 (en) | 2019-01-15 | 2022-04-26 | Image Sensing Systems, Inc. | Machine learning based highway radar vehicle classification across multiple lanes and speeds |
JP7225813B2 (ja) * | 2019-01-16 | 2023-02-21 | 日本電信電話株式会社 | エージェント結合装置、方法、及びプログラム |
CN109800864B (zh) * | 2019-01-18 | 2023-05-30 | 中山大学 | 一种基于图像输入的机器人主动学习方法 |
CN111476257A (zh) * | 2019-01-24 | 2020-07-31 | 富士通株式会社 | 信息处理方法和信息处理装置 |
CN109696830B (zh) * | 2019-01-31 | 2021-12-03 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
WO2020172322A1 (en) * | 2019-02-19 | 2020-08-27 | Google Llc | Controlling agents using latent plans |
KR102267316B1 (ko) * | 2019-03-05 | 2021-06-21 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
CN113826051A (zh) * | 2019-03-18 | 2021-12-21 | 西门子股份公司 | 生成实体系统零件之间的交互的数字孪生 |
US11524401B1 (en) | 2019-03-28 | 2022-12-13 | Apple Inc. | Learning skills from video demonstrations |
US11587552B2 (en) | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
US11345030B2 (en) * | 2019-05-28 | 2022-05-31 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
DE102019209616A1 (de) * | 2019-07-01 | 2021-01-07 | Kuka Deutschland Gmbh | Durchführen einer vorgegebenen Aufgabe mithilfe wenigstens eines Roboters |
US20220339787A1 (en) * | 2019-07-01 | 2022-10-27 | Kuka Deutschland Gmbh | Carrying out an application using at least one robot |
CN110659796B (zh) * | 2019-08-08 | 2022-07-08 | 北京理工大学 | 一种可充电群车智能中的数据采集方法 |
WO2021048145A1 (en) | 2019-09-11 | 2021-03-18 | Robert Bosch Gmbh | Physical environment interaction with an equivariant policy |
DE102019128655B4 (de) | 2019-10-23 | 2021-11-25 | Technische Universität Ilmenau | Verfahren zur Bereitstellung einer rechnergestützten Steuerung für ein technisches System |
EP4019202A4 (en) * | 2019-10-24 | 2023-08-09 | Naver Corporation | METHOD AND SYSTEM FOR OPTIMIZING AUTONOMOUS DRIVING BASED ON REINFORCEMENT LEARNING AS A FUNCTION OF USER PREFERENCES |
CN110764415B (zh) * | 2019-10-31 | 2022-04-15 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
US11454978B2 (en) * | 2019-11-07 | 2022-09-27 | Naver Corporation | Systems and methods for improving generalization in visual navigation |
CN110866588B (zh) * | 2019-11-08 | 2023-05-02 | 中国科学院软件研究所 | 一种实现智能虚拟数字动物的可学习能力模型个性化的训练学习方法与系统 |
US20240118667A1 (en) * | 2019-11-15 | 2024-04-11 | Google Llc | Mitigating reality gap through training a simulation-to-real model using a vision-based robot task model |
CN111309880B (zh) * | 2020-01-21 | 2023-11-10 | 清华大学 | 多智能体行动策略学习方法、装置、介质和计算设备 |
CN111580385A (zh) * | 2020-05-11 | 2020-08-25 | 深圳阿米嘎嘎科技有限公司 | 基于深度强化学习的机器人行走控制方法、系统及介质 |
JP7448683B2 (ja) * | 2020-06-05 | 2024-03-12 | ディープマインド テクノロジーズ リミテッド | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション |
US11999066B2 (en) | 2020-08-04 | 2024-06-04 | Artificial, Inc. | Robotics calibration in a lab environment |
WO2022028926A1 (en) * | 2020-08-07 | 2022-02-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Offline simulation-to-reality transfer for reinforcement learning |
US11897134B2 (en) * | 2020-08-12 | 2024-02-13 | General Electric Company | Configuring a simulator for robotic machine learning |
US11654566B2 (en) | 2020-08-12 | 2023-05-23 | General Electric Company | Robotic activity decomposition |
US11645476B2 (en) | 2020-09-29 | 2023-05-09 | International Business Machines Corporation | Generating symbolic domain models from multimodal data |
US12112112B2 (en) * | 2020-11-12 | 2024-10-08 | Samsung Electronics Co., Ltd. | Method for co-design of hardware and neural network architectures using coarse-to-fine search, two-phased block distillation and neural hardware predictor |
US12056584B2 (en) | 2020-11-16 | 2024-08-06 | International Business Machines Corporation | Online machine learning with immediate rewards when real rewards are delayed |
US11858514B2 (en) | 2021-03-30 | 2024-01-02 | Zoox, Inc. | Top-down scene discrimination |
US11921492B2 (en) * | 2021-03-30 | 2024-03-05 | Mitsubishi Electric Research Laboratories, Inc. | Transfer between tasks in different domains |
US11810225B2 (en) * | 2021-03-30 | 2023-11-07 | Zoox, Inc. | Top-down scene generation |
US20230109398A1 (en) * | 2021-10-06 | 2023-04-06 | Giant.Ai, Inc. | Expedited robot teach-through initialization from previously trained system |
CN114660947B (zh) * | 2022-05-19 | 2022-07-29 | 季华实验室 | 机器人步态自主学习方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN103279039A (zh) * | 2013-05-17 | 2013-09-04 | 安徽工业大学 | 一种机器人神经网络式计算力矩控制器训练平台及训练方法 |
US20140257803A1 (en) * | 2013-03-06 | 2014-09-11 | Microsoft Corporation | Conservatively adapting a deep neural network in a recognition system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197821A (ja) * | 1991-11-11 | 1993-08-06 | Omron Corp | 階層型ニューラルネットの最適化方法及び装置 |
JP2011143523A (ja) * | 2010-01-18 | 2011-07-28 | Toyota Central R&D Labs Inc | 多関節拮抗制御マニピュレータ |
US8793205B1 (en) * | 2012-09-20 | 2014-07-29 | Brain Corporation | Robotic learning and evolution apparatus |
US10835146B2 (en) * | 2014-12-12 | 2020-11-17 | The Research Foundation For The State University Of New York | Autonomous brain-machine interface |
-
2017
- 2017-10-10 DE DE202017106132.9U patent/DE202017106132U1/de active Active
- 2017-10-10 EP EP17788409.5A patent/EP3523758B1/en active Active
- 2017-10-10 CN CN202310773649.6A patent/CN116992917A/zh active Pending
- 2017-10-10 WO PCT/US2017/055894 patent/WO2018071392A1/en active Application Filing
- 2017-10-10 CN CN201780074261.XA patent/CN110023965B/zh active Active
- 2017-10-10 JP JP2019519210A patent/JP6875513B2/ja active Active
-
2019
- 2019-04-10 US US16/380,125 patent/US10632618B2/en active Active
-
2020
- 2020-03-25 US US16/829,237 patent/US11534911B2/en active Active
-
2022
- 2022-07-25 US US17/872,528 patent/US20220355472A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
US20140257803A1 (en) * | 2013-03-06 | 2014-09-11 | Microsoft Corporation | Conservatively adapting a deep neural network in a recognition system |
CN103279039A (zh) * | 2013-05-17 | 2013-09-04 | 安徽工业大学 | 一种机器人神经网络式计算力矩控制器训练平台及训练方法 |
Non-Patent Citations (2)
Title |
---|
ANDREI A. RUSU等: ""Progressive Neural Networks"", 《ARXIV》 * |
HADSELL等: ""Progressive Nets for Simulation to Robot Transfer"", 《RSS 2016 WORKSHOP ON LIMITS AND POTENTIALS OF DEEP LEARNING IN ROBOTICS》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255059A (zh) * | 2018-01-19 | 2018-07-06 | 南京大学 | 一种基于模拟器训练的机器人控制方法 |
CN108255059B (zh) * | 2018-01-19 | 2021-03-19 | 南京大学 | 一种基于模拟器训练的机器人控制方法 |
US20210107144A1 (en) * | 2018-07-04 | 2021-04-15 | Preferred Networks, Inc. | Learning method, learning apparatus, and learning system |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110333739B (zh) * | 2019-08-21 | 2020-07-31 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN114514524A (zh) * | 2019-10-07 | 2022-05-17 | 伟摩有限责任公司 | 多智能体模拟 |
CN111459278A (zh) * | 2020-04-01 | 2020-07-28 | 中国科学院空天信息创新研究院 | 基于触觉阵列的机器人抓取状态判别方法 |
CN112629542A (zh) * | 2020-12-31 | 2021-04-09 | 山东师范大学 | 基于ddpg和lstm的无地图机器人路径导航方法及系统 |
CN116887956A (zh) * | 2020-12-31 | 2023-10-13 | 谷歌有限责任公司 | 真实机器人的模拟驱动机器人控制 |
WO2023070274A1 (en) * | 2021-10-25 | 2023-05-04 | Robert Bosch Gmbh | A method and an apparatus for continual learning |
CN116739054A (zh) * | 2023-06-19 | 2023-09-12 | 南京航空航天大学 | 一种基于fpga的a3c深度强化学习算法加速器 |
Also Published As
Publication number | Publication date |
---|---|
EP3523758A1 (en) | 2019-08-14 |
JP2019530105A (ja) | 2019-10-17 |
WO2018071392A1 (en) | 2018-04-19 |
US20190232489A1 (en) | 2019-08-01 |
CN110023965B (zh) | 2023-07-11 |
US20200223063A1 (en) | 2020-07-16 |
EP3523758B1 (en) | 2024-10-02 |
JP6875513B2 (ja) | 2021-05-26 |
US20220355472A1 (en) | 2022-11-10 |
DE202017106132U1 (de) | 2017-11-13 |
US10632618B2 (en) | 2020-04-28 |
CN116992917A (zh) | 2023-11-03 |
US11534911B2 (en) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110023965A (zh) | 用于选择由机器人智能体执行的动作的神经网络 | |
JP6901633B2 (ja) | カプセルニューラルネットワーク | |
US10766136B1 (en) | Artificial intelligence system for modeling and evaluating robotic success at task performance | |
US10766137B1 (en) | Artificial intelligence system for modeling and evaluating robotic success at task performance | |
KR102140672B1 (ko) | 트레이닝 증강 학습 신경 네트워크 | |
US12067491B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
EP3559865B1 (en) | Data-efficient reinforcement learning for continuous control tasks | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
CN109726813A (zh) | 任务的强化和模仿学习 | |
JP7264376B2 (ja) | 汎用学習済モデルの生成方法 | |
CN108885717A (zh) | 异步深度强化学习 | |
CN110088774A (zh) | 使用强化学习的环境导航 | |
JP2020521205A (ja) | タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム | |
CN110692066A (zh) | 使用多模态输入选择动作 | |
CN108027897A (zh) | 利用深度强化学习的连续控制 | |
US20200104709A1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
US10860895B2 (en) | Imagination-based agent neural networks | |
CN110088775A (zh) | 加强学习系统 | |
CN114424208A (zh) | 门控注意力神经网络 | |
CN110447041A (zh) | 噪声神经网络层 | |
CN110114784A (zh) | 递归神经网络 | |
JP2023513529A (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
Fischer et al. | SIM2VR: Towards Automated Biomechanical Testing in VR | |
WO2023192017A1 (en) | System and method for computational simulation and augmented/virtual reality in a construction environment | |
Ahmadi et al. | Towards Robustness to Fluctuated Perceptual Patterns by a Deterministic Predictive Coding Model in a Task of Imitative Synchronization with Human Movement Patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |