CN108027897A - 利用深度强化学习的连续控制 - Google Patents
利用深度强化学习的连续控制 Download PDFInfo
- Publication number
- CN108027897A CN108027897A CN201680043561.7A CN201680043561A CN108027897A CN 108027897 A CN108027897 A CN 108027897A CN 201680043561 A CN201680043561 A CN 201680043561A CN 108027897 A CN108027897 A CN 108027897A
- Authority
- CN
- China
- Prior art keywords
- neutral net
- action
- training
- parameter
- currency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 claims abstract description 194
- 230000007935 neutral effect Effects 0.000 claims abstract description 157
- 238000012549 training Methods 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 51
- 210000005036 nerve Anatomy 0.000 claims abstract description 20
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 17
- 238000012512 characterization method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 16
- 241000208340 Araliaceae Species 0.000 claims description 7
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 7
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 7
- 235000008434 ginseng Nutrition 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 abstract description 16
- 230000013016 learning Effects 0.000 description 40
- 230000002787 reinforcement Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 239000002609 medium Substances 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 210000004218 nerve net Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000005653 Brownian motion process Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000005537 brownian motion Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
用于训练动作器神经网络的方法、系统、和装置,包括编码在计算机存储介质上的计算机程序,所述动作器神经网络用于选择待由与环境交互的代理执行的动作。所述方法中的一个方法包括:获得小批经验元组;以及更新所述动作器神经网络的参数的当前值,包括:对于所述小批中的每个经验元组:使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以确定所述经验元组的神经网络输出,并且确定所述经验元组的目标神经网络输出;使用在所述目标神经网络输出与所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值;以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。
Description
背景技术
本说明书涉及选择待由强化学习代理执行的动作。
强化学习代理通过接收表征环境的当前状态的观测值(observation)并且作为响应执行动作来与环境交互。一些强化学习代理使用神经网络来选择响应于接收到任何给定观测值而要执行的动作。
神经网络是采用一个或者多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层的输入,即下一隐藏层或者输出层的输入。网络的每个层根据相应参数集合的当前值来从接收到的输入生成输出。
发明内容
本说明书描述了与强化学习有关的技术。
大体上,一个创新方面可以体现为一种用于训练动作器神经网络的方法,该动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与环境交互,其中,动作器神经网络根据动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,该方法包括:从重演(replay)存储器获得小批经验元组,每个经验元组包括表征环境的训练状态的训练观测值、来自代理响应于接收到训练观测值而执行的连续动作空间的训练动作、由代理接收的执行训练动作的训练奖励、和表征环境的下一训练状态的下一训练观测值;以及使用小批经验元组来更新动作器神经网络的参数的当前值,包括:对于小批中的每个经验元组:使用评价器神经网络来处理经验元组中的训练观测值和训练动作以根据评价器神经网络的参数的当前值来确定经验元组的神经网络输出;以及根据经验元组中的训练奖励和经验元组中的下一训练观测值来确定经验元组的目标神经网络输出;使用在目标神经网络输出与小批中的经验元组的神经网络输出之间的误差来更新评价器神经网络的参数的当前值;以及使用评价器神经网络来更新动作器神经网络的参数的当前值。
确定经验元组的目标神经网络输出可以包括:使用目标动作器神经网络处理下一训练观测值以根据目标动作器神经网络的参数的当前值来确定经验元组的预测的下一动作,其中,目标动作器神经网络与动作器神经网络完全相同,但是目标动作器神经网络的参数的当前值与动作器神经网络的参数的当前值不同;使用目标评价器神经网络处理经验元组的下一训练观测值和预测的下一动作以根据目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出,其中,目标评价器神经网络与评价器神经网络完全相同,但是目标评价器神经网络的参数的当前值与评价器神经网络的参数的当前值不同;以及根据经验元组的训练奖励和预测的下一神经网络输出来确定经验元组的目标神经网络输出。该方法可以进一步包括:使用动作器神经网络的参数的所更新的值来更新目标动作器神经网络的参数的当前值;以及使用评价器神经网络的参数的所更新的值来更新目标评价器神经网络的参数的当前值。可以将目标动作器神经网络和目标评价器神经网络的参数的当前值被约束为在动作器神经网络的训练期间缓慢地改变。
评价器神经网络、动作器神经网络、或者两者可以包括一个或者多个批标准化神经网络层。由代理接收的观测值可以通过使用表征环境的状态的低维特征向量来表征环境的状态。低维特征向量的不同维度的值可以具有不同的范围。由代理接收的观测值可以使用来自表征环境的状态的一个或者多个图像的高维像素输入来表征环境的状态。
该方法可以进一步包括:独立于使用小批经验元组来更新动作器神经网络的参数的当前值:生成新经验元组,包括:接收新训练观测值;使用动作器神经网络来处理新训练观测值以根据动作器神经网络的参数的当前值来选择待由代理执行的新训练动作;响应于代理执行新训练动作而接收新训练奖励;接收新下一训练观测值;以及生成包括新训练观测值、新训练动作、新训练奖励、和新下一训练观测值的新经验元组;以及将新经验元组添加至重演存储器中。使用动作器神经网络来处理新训练观测值以新训练动作可以包括:使用动作器神经网络来处理新训练观测值以生成初始新训练动作;从噪声过程进行采样以获得噪声因子;以及以噪声因子调整初始新动作来生成新训练动作。
该方法可以进一步包括:输出被布置为选择待由代理执行的动作的动作器神经网络。
可以在特定实施例中实施本说明书中所描述的主题以实现以下优点中的一个或者多个。强化学习系统可以有效地并且直接地学习高维连续动作空间中的代理的有效动作选择策略,即通过如本说明书中描述的那样训练动作器神经网络。具体地,通过如本说明书中描述的那样训练动作器神经网络,强化学习系统甚至可以针对要求精密控制动作的任务以及在动作空间难以进行离散化时有效地学习有效的动作选择策略并且然后有效地进行探索。此外,强化学习系统可以通过作为低维观测值的观测值和作为高维像素输入的观测值两者来学习有效策略。本主题可以提供对强化学习系统的改进训练以提供改进的强化学习系统,该改进的强化学习系统可以例如能够针对先前已经具有挑战性的任务学习动作选择策略。
要了解,可以按照任何便利的形式来实现每个方面。例如,可以通过适当的计算机程序来实现方面和实施方式,该计算机程序可以携载在可以是有形载体介质(例如,盘)或者无形载体介质(例如,通信信号)的适当载体介质上。还可以通过使用合适的装置来实现方面,该合适的装置可以是运行计算机程序的可编程计算机的形式。在附图和下面的描述中阐述了本说明书的主题的一个或者多个实施例的细节。本主题的其它特征、方面、和优点将通过描述、附图、以及权利要求书而变得显而易见。
附图说明
图1示出了示例强化学习系统。
图2是将经验元组添加至重演存储器的示例过程的流程图。
图3是确定对动作器神经网络的参数的当前值的更新的示例过程的流程图。
图4是确定经验元组的目标神经网络输出的示例过程的流程图。
各附图中的类似附图标记和名称指示类似的元素。
具体实施方式
本说明书大体上描述了一种强化学习系统,该强化学习系统选择待由与环境交互的强化学习代理执行的动作。为了与环境交互,该代理接收表征环境的当前状态的数据,并且响应于接收到的数据执行连续动作空间中的动作。本说明书中将表征环境的状态的数据称为观测值。
在一些实施方式中,环境是模拟环境,并且代理被实现为与该模拟环境交互的一个或者多个计算机程序。例如,模拟环境可以是视频游戏,并且代理可以是玩该视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如,驾驶模拟或者飞行模拟,并且代理是在该运动模拟环境中导航的模拟载具。在这些实施方式中,动作可以是控制模拟用户或者模拟载具的可能控制输入空间中的点。
在一些其它实施方式中,环境是真实世界环境,并且代理是与真实世界环境交互的机械代理。例如,代理可以是与环境交互以完成特定任务的机器人。作为另一示例,代理可以是在环境中导航的自主或者半自主载具。在这些实施方式中,动作可以是控制机器人或者自主载具的可能控制输入空间中的点。
在一些情况下,观测值通过使用表征环境的状态的低维特征向量来表征环境的状态。在这些情况下,低维特征向量的不同维度的值可以具有不同的范围。
在一些其它情况下,观测值通过使用来自表征环境的状态的一个或者多个图像——例如,模拟环境的图像或者由机械代理的传感器在机械代理与真实世界环境交互时捕获到的图像——的高维像素输入来表征环境的状态。
图1示出了示例强化学习系统100。该强化学习系统100是在实现下面描述的系统、组件、和技术的一个或者多个位置中的一个或者多个计算机上实现为计算机程序的系统的示例。
强化学习系统100选择待由与环境104交互的强化学习代理102执行的动作。即,强化学习系统100接收观测值,其中每个观测值表征环境104的相应状态,并且响应于每个观测值,从响应于该观测值而待由强化学习代理102执行的连续动作空间中选择动作。
具体地,强化学习系统100通过使用动作器神经网络110来选择动作。动作器神经网络110是被配置为接收观测值并且处理该观测值以将该观测值映射至下一动作——即映射至限定了响应于该观测值而应当由代理执行的动作的连续动作空间中的点——的神经网络。
为了允许代理102有效地与环境104交互,强化学习系统100训练动作器神经网络110来确定动作器神经网络110的参数的训练值。
一旦已经训练了动作器神经网络110,强化学习系统100就可以有效地使用动作器神经网络110来选择待由代理104执行的动作。具体地,当接收到观测值时,强化学习系统100可以通过使用动作器神经网络110来处理观测值以根据动作器神经网络110的参数的训练值来将观测值映射至新动作,并且然后引导代理102响应于观测值而执行新动作,即通过向代理102发送使得代理执行新动作的指令。
为了协助训练动作器神经网络110,强化学习系统100维持包括重演存储器130、评价器神经网络140、目标动作器神经网络150、和目标评价器神经网络160的训练组件120。
重演存储器130存储由于代理102与环境104的交互而生成的经验元组以用于训练动作器神经网络110。
具体地,重演存储器中的每个经验元组包括表征环境的训练状态的训练观测值、由代理102响应于训练观测值而执行的动作、由系统100响应于代理102执行动作而接收到的训练奖励、以及表征环境的下一状态——即在代理执行动作之后环境所转换到的状态——的下一观测值。
强化学习系统100在动作器神经网络110的训练期间从代理102与环境104的交互生成经验元组。下面参照图2更详细地描述在训练期间生成经验元组的示例过程。
评价器神经网络140是被配置为接收动作和观测值作为输入并且处理动作和观测值以生成神经网络输出的神经网络。如下面将更详细地描述的,在训练期间,强化学习系统100调整评价器神经网络140的参数的值,并且在更新动作器神经网络110的参数的值时使用评价器神经网络140。
在一些实施方式中,评价器神经网络140、动作器神经网络110、或者两者包括一个或者多个批标准化层以使训练期间的协变量移位(covariate shift)最小化。在Ioffe,Sergey,and Szegedy,Christian.Batch normalization:Accelerating deep networktraining by reducing internal covariate shift.arXiv preprint arXiv:1502.03167,2015中更详细地描述了批标准化层。
目标动作器神经网络150是与动作器神经网络110相同——即具有与动作器神经网络110相同的神经网络架构,但是具有可能与动作器神经网络110的参数值不同的参数值的神经网络。
同样,目标评价器神经网络160是与评价器神经网络140相同但是具有可能与评价器神经网络140不同的参数值的神经网络。
为了使用训练组件120来训练神经网络,强化学习系统100重复地从重演存储器130中选择小批的经验元组。每小批经验元组包括预定数目的经验元组。预定数目的经验元组可以是随机选择的经验元组。
对于给定所选小批中的每个经验元组,强化学习系统100使用评价器神经网络140、目标动作器神经网络150、和目标评价器神经网络160来确定动作器神经网络110的参数的当前值和评价器神经网络150的参数的当前值的更新,并且然后通过使用该更新来调整动作器神经网络110的参数的当前值和评价器神经网络150的参数的当前值。下面将参照图3更详细地描述生成这些更新并且调整评价器神经网络140和动作器神经网络110的参数的当前值。
在训练期间,强化学习系统100还周期性地更新目标评价器神经网络160的参数的值和目标动作器神经网络150的参数的值,从而使得所述值分别缓慢地追踪评价器神经网络140的参数的值和动作器神经网络110的参数的值的变化。
一旦小批的经验元组已经被用于训练,强化学习系统100就可以从重演存储器120中去除该小批中的经验元组。
通常,在训练期间,强化学习系统100生成经验元组,并且独立于对重演存储器120中的经验元组进行采样和调整动作器神经网络110的参数——即与对重演存储器120中的经验元组进行采样和调整动作器神经网络110的参数异步,将生成的元组添加至重演存储器120。
图2是将经验元组添加至重演存储器的示例过程200的流程图。为了方便起见,将过程200描述为由位于一个或者多个位置的一个或者多个计算机的系统执行。例如,根据本说明书适当编程的强化学习系统——例如图1的强化学习系统100——可以执行过程200。
系统接收表征环境的当前状态的当前观测值(步骤202)。
系统使用动作器神经网络根据该动作器神经网络的参数的当前值来处理观测值(步骤204)。如上所述,动作器神经网络被配置为根据参数的当前值来将当前观测值映射至下一动作,即,连续动作空间中的点。
系统通过使用该下一动作来选择待由代理执行的动作(步骤206)。
在一些实施方式中,系统选择下一动作以作为待由代理执行的动作。
在一些其它实施方式中,为了鼓励在训练期间探索动作空间,系统从噪声过程进行采样以获得噪声因子,并且然后以该噪声因子调整下一动作以生成待由代理执行的动作。
可以选择用于获得噪声因子的噪声过程以适应环境。例如,对于某些环境,噪声过程可以是生成在时间上相关的探索的奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck)过程。在George E.Uhlenbeck and Leonard S.Ornstein.“On the theory of the Brownianmotion”.In:Physical review 36.5(1930),p.823中更详细地描述了奥恩斯坦-乌伦贝克过程。
系统接收奖励和下一观测值(步骤206)。该下一观测值表征环境的下一状态,即,环境由于代理执行选择的动作所转换到的状态,并且奖励是系统由于代理执行选择的动作而从环境接收到的数值。
系统生成包括当前观测值、选择的动作、奖励、和下一观测值的经验元组,并且将生成的经验元组存储在重演存储器中以用于训练动作器神经网络(步骤208)。
图3是确定对动作器神经网络的参数的当前值的更新的示例过程300的流程图。为了方便起见,将过程300描述为由位于一个或者多个位置的一个或者多个计算机的系统执行。例如,根据本说明书适当编程的强化学习系统——例如图1的强化学习系统100——可以执行过程300。
系统接收经验元组(步骤302)。该经验元组是系统从重演存储器中采样的小批的经验元组中的其中一个经验元组。
经验元组包括表征环境的训练状态的训练观测值、来自由代理响应于接收到训练观测值而执行的连续动作空间的训练动作、由代理接收的执行训练动作的训练奖励、和表征环境的下一训练状态的下一训练观测值。
系统通过使用评价器神经网络来处理经验元组中的训练观测值和选择的动作以根据评价器神经网络的参数的当前值来确定经验元组的神经网络输出(步骤304)。
系统通过经验元组中的训练奖励和经验元组中的下一训练观测值来确定经验元组的目标神经网络输出(步骤306)。通常,系统通过使用目标动作器神经网络和目标评价器神经网络来确定目标神经网络输出。下面参照图4来更详细地描述确定目标神经网络输出。
系统通过使用在经验元组的目标神经网络输出与由评价器神经网络针对经验元组生成的神经网络输出之间的误差来确定评价器神经网络的参数的当前值的更新(步骤308)。即,系统可以通过使用常规的机器学习训练技术——例如通过利用反向传播执行梯度下降的迭代——来确定对参数的当前值的减少误差的更新。从通过对图4的描述将清楚的,通过按照这种方式来更新参数的当前值,系统训练评价器神经网络以生成神经网络输出,其表示将作为代理响应于给定观测值而执行给定动作的响应所接收的时间折扣的总未来奖励。
系统通过使用评价器神经网络来确定动作器神经网络的参数的当前值的更新(步骤310)。
具体地,为了确定更新,系统根据参数的当前值通过使用动作器神经网络来处理元组中的训练观测值以生成该训练观测值的下一动作。
然后,系统确定动作器神经网络的当前值的参数更新,该参数更新依赖于(i)关于针对训练观测值采取的下一动作——下一动作输入对并且根据评价器神经网络的参数的当前值的评价器神经网络的梯度和(ii)关于针对训练观测值采取的动作器神经网络的参数并且根据动作器神经网络的参数的当前值的动作器神经网络的梯度,即,是该两个梯度的乘积或者其不同的组合。系统可以通过相应网络反向传播相应梯度来确定梯度(i)和梯度(ii)。
通常,系统针对给定小批中的每个经验元组执行过程300以对于每个元组确定评价器神经网络的参数的更新和动作器神经网络的参数的更新。一旦已经确定了小批中的每个元组的更新,系统就通过使用小批中的元组的更新来更新动作器神经网络的参数的当前值和评价器神经网络的参数的当前值。例如,对于每个网络,系统可以将每个更新添加至网络的参数的当前值以更新这些值。
一旦已经确定了动作器神经网络和评价器神经网络的参数的更新值,系统就更新目标评价器神经网络参数和目标动作器神经网络参数的当前值,从而使得这些值缓慢地追踪评价器神经网络的参数的值和动作器神经网络的参数的值的变化。具体地,系统在训练期间将目标评价器神经网络参数和目标动作器神经网络参数的值约束为缓慢变化以提高训练过程的稳定性。
例如,目标网络中的一个目标网络的更新值可以是在对应的动作器或者评价器网络的更新值与目标网络的当前值之间的线性内插,其中在该内插中对目标网络的当前值进行更重的加权。
通过对多个不同小批经验元组重复执行过程300,系统可以训练动作器神经网络以确定动作器神经网络的参数的训练值并且允许动作器神经网络有效地被用于选择待由与环境交互的代理执行的动作。
图4是确定经验元组的目标神经网络输出的示例过程400的流程图。为了方便起见,将过程400描述为由位于一个或者多个位置的一个或者多个计算机的系统执行。例如,根据本说明书适当编程的强化学习系统——例如图1的强化学习系统100——可以执行过程400。
系统根据目标动作器神经网络的参数的当前值通过使用目标动作器神经网络来处理经验元组中的下一训练观测值以生成预测的下一动作(步骤402)。如上所述,目标动作器神经网络与动作器神经网络完全相同,但是具有可能不同的参数值。
系统根据目标评价器神经网络的参数的当前值通过使用目标评价器神经网络来处理下一训练观测值和预测的下一动作以生成预测的下一神经网络输出(步骤404)。如上所述,目标评价器神经网络与评价器神经网络完全相同,但是具有可能不同的参数值。
系统通过经验元组的训练奖励和预测的神经网络输出来确定经验元组的目标神经网络。具体地,系统将预测的神经网络输出乘以预定时间折扣因子,并且然后将所得到的乘积和训练奖励相加以生成经验元组的目标神经网络输出。
对于要被配置为执行特定操作或者动作的一个或者多个计算机的系统意味着已经在系统上安装了在操作中使得系统执行操作或者动作的软件、固件、硬件、或者它们的组合。对于要被配置为执行特定操作或者动作的一个或者多个计算机程序意味着该一个或者多个程序包括指令,该指令在由数据处理装置执行时使得该装置执行操作或者动作。
可以在数字电子电路系统中、有形实施的计算机软件或者固件中、计算机硬件中——包括本说明书所公开的结构及其结构等效物、或者它们中的一个或者多个的组合中实现本说明书中描述的主题的实施例和功能操作。可以将本说明书中描述的主题的实施例实现为一个或者多个计算机程序,即,编码在有形非暂时性程序载体上以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。替选地或者另外,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电、光、或者电磁信号,生成该信号是为了对信息进行编码以供传输至合适的接收器装置以用于数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或者串行存取存储器设备、或者它们中的一个或者多个的组合。
术语“数据处理装置”指代数据处理硬件并且囊括了用于处理数据的所有种类的装置、设备、和机器,包括:例如,可编程处理器、计算机、或者多个处理器或者计算机。该装置还可以是或者进一步包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外,该装置可以可选地包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或者多个的组合的代码。
可以用任何形式的编程语言——包括编译语言或者解释语言、或者声明式语言或者过程式语言——来编写计算机程序(其也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本、或者代码),并且可以按照任何形式——包括作为独立式程序或者作为模块、组件、子例程、或者适合用于计算环境的其它单元——来部署计算机程序。计算机程序可以但并非必须与文件系统中的文件相对应。可以将程序存储在保持其它程序或者数据——例如存储在标记语言文档中的一个或者多个脚本——的文件的一部分中,或者存储在专用于所探讨中的程序的单个文件中,或者存储在多个协作文件——例如存储一个或者多个模块、子程序、或者代码部分的文件——中。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或者跨多个站点分布并且通过通信网络互相连接的多个计算机上执行。
可以通过一个或者多个可编程计算机来执行本说明书中描述的过程和逻辑流程,该一个或者多个可编程计算机执行一个或者多个计算机程序以通过操作输入数据并且生成输出来执行功能。还可以通过专用逻辑电路系统——例如,FPGA(现场可编程门阵列))或者ASIC(专用集成电路)——来执行过程和逻辑流程,并且装置还可以被实现为该专用逻辑电路系统。
适合执行计算机程序的计算机包括例如可以基于通用或者专用微处理器或者两者或者任何其它种类的中央处理单元。一般而言,中央处理单元将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是:用于实施或者执行指令的中央处理单元、和用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机还将包括用于存储数据的一个或者多个海量存储设备——例如磁盘、磁光盘、或者光盘,或者计算机可以操作地耦合以接收来自该海量存储设备的数据或者将数据传输至该海量存储设备或者进行两者。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器、或者便携式存储设备——例如通用串行总线(USB)闪存驱动,仅举数例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括:例如,半导体存储器设备,例如EPROM、EEPROM、和闪速存储器设备;磁盘,例如内部硬盘或者可移动盘;磁光盘;CD-ROM盘和DVD-ROM盘。处理器和存储器可以由专用逻辑电路系统补充或者可以并入该专用逻辑电路系统中。
为了提供与用户的交互,可以在计算机上实现本说明书中描述的主题的实施例,该计算机具有:用于向用户显示信息的显示设备,例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器;以及键盘和指示设备,例如,鼠标或者轨迹球,用户可以通过该键盘和该指示设备来将输入提供给计算机。其它种类的设备还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如,视觉反馈、听觉反馈或者触觉反馈;并且可以用任何形式——包括声输入、语音输入或者触觉输入——来接收来自用户的输入。另外,计算机可以通过将文档发送至用户所使用的设备并且接收来自该设备的文档来与用户交互;例如,通过响应于从web浏览器接收的请求而将网页发送至在用户的用户设备上的web浏览器。
可以将本说明书中描述的主题的实施例实现在包括后台组件的计算系统——例如作为数据服务器、者包括中间件组件的计算系统——例如应用服务器、或者包括前端组件的计算系统——例如具有用户可以通过其与本发明中所描述的主题的实施方式交互的关系图形用户界面或者web浏览器的用户计算机、或者一个或者多个这样的后台组件、中间件组件或者前端组件的任何组合。可以通过任何形式或者介质的数字数据通信——例如通信网络——来将系统的组件相互连接。通信网络的示例包括:局域网(“LAN”)和广域网(“WAN”),例如,互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
虽然本说明书包含了许多具体实施方式细节,但是不应当将这些细节视为对任何发明或者可能被要求的内容的范围的限制,而是作为可以对特定发明所特有的特定实施例的特征的描述。在本说明书中在分开第实施例的场境(context)下描述的某些特征还可以组合地实现在单个实施例中。相反,在单个实施例的背景中描述的各种特征也可以分开地或者按照任何合适的子组合实现在多个实施例中。此外,虽然上文可能将特征描述为以某些组合来起作用并且最初甚至如此要求保护,但是在一些情况下,可以从组合中删除来自所要求保护的组合的一个或者多个特征。并且所要求保护的组合可以涉及子组合或者子组合的变化。
同样,虽然在附图中按照特定顺序示出了操作,但是不应当将其理解为需要按照所述的特定顺序或者按照相继的顺序来执行这样的操作,或者需要执行所有图示的操作以实现期望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,不应当将在上述实施例中的各个系统模块和组件的分离理解为在所有实施例中需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。
已经描述了本主题的特定实施例。其它实施例在所附权利要求书的范围内。例如,可以按照不同的顺序来执行权利要求书中阐述的动作,并且仍然实现期望的结果。作为一个示例,在附图中描绘的过程不一定需要所示的特定顺序或者相继顺序以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
Claims (14)
1.一种用于训练动作器神经网络的方法,所述动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互,其中,所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,所述方法包括:
从重演存储器获得小批经验元组,每个经验元组包括表征所述环境的训练状态的训练观测值、来自所述代理响应于接收到所述训练观测值而执行的所述连续动作空间的训练动作、由所述代理接收的执行所述训练动作的训练奖励、和表征所述环境的下一训练状态的下一训练观测值;以及
使用所述小批经验元组来更新所述动作器神经网络的参数的当前值,包括:
对于所述小批中的每个经验元组:
使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以根据所述评价器神经网络的参数的当前值来确定所述经验元组的神经网络输出,以及
根据所述经验元组中的所述训练奖励和所述经验元组中的所述下一训练观测值来确定所述经验元组的目标神经网络输出,
使用在所述目标神经网络输出与所述小批中的所述经验元组的所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值;以及
使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。
2.根据权利要求1所述的方法,其中,确定所述经验元组的目标神经网络输出包括:
使用目标动作器神经网络处理所述下一训练观测值以根据所述目标动作器神经网络的参数的当前值来确定所述经验元组的预测的下一动作,其中,所述目标动作器神经网络与所述动作器神经网络完全相同,但是所述目标动作器神经网络的参数的当前值与所述动作器神经网络的参数的当前值不同;
使用目标评价器神经网络处理所述经验元组的所述下一训练观测值和所述预测的下一动作以根据所述目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出,其中,所述目标评价器神经网络与所述评价器神经网络完全相同,但是所述目标评价器神经网络的参数的当前值与所述评价器神经网络的参数的当前值不同;以及
根据所述经验元组的所述训练奖励和所述预测的下一神经网络输出来确定所述经验元组的所述目标神经网络输出。
3.根据权利要求2所述的方法,进一步包括:
使用所述动作器神经网络的参数的所更新的值来更新所述目标动作器神经网络的参数的当前值;以及
使用所述评价器神经网络的参数的所更新的值来更新所述目标评价器神经网络的参数的当前值。
4.根据权利要求3所述的方法,其中,所述目标动作器神经网络和所述目标评价器神经网络的参数的当前值被约束为在所述动作器神经网络的所述训练期间缓慢地改变。
5.根据权利要求1至4中的任一项所述的方法,其中,所述评价器神经网络、所述动作器神经网络、或者两者包括一个或者多个批标准化神经网络层。
6.根据权利要求1至5中的任一项所述的方法,其中,由所述代理接收的所述观测值使用表征所述环境的状态的低维特征向量来表征所述环境的所述状态。
7.根据权利要求6所述的方法,其中,所述低维特征向量的不同维度的值具有不同的范围。
8.根据权利要求1至5中的任一项所述的方法,其中,由所述代理接收的所述观测值使用来自表征所述环境的状态的一个或者多个图像的高维像素输入来表征所述环境的所述状态。
9.根据权利要求1至8中的任一项所述的方法,进一步包括:
独立于使用所述小批经验元组来更新所述动作器神经网络的参数的当前值:
生成新经验元组,包括:
接收新训练观测值,
使用所述动作器神经网络来处理所述新训练观测值以根据所述动作器神经网络的参数的当前值来选择待由所述代理执行的新训练动作,
响应于所述代理执行所述新训练动作而接收新训练奖励,
接收新下一训练观测值,以及
生成包括所述新训练观测值、所述新训练动作、所述新训练奖励、和所述新下一训练观测值的新经验元组;以及
将所述新经验元组添加至所述重演存储器中。
10.根据权利要求9所述的方法,其中,使用所述动作器神经网络来处理所述新训练观测值以选择新训练动作包括:
使用所述动作器神经网络来处理所述新训练观测值以生成初始新训练动作;
从噪声过程进行采样以获得噪声因子;以及
以所述噪声因子调整所述初始新动作来生成所述新训练动作。
11.根据权利要求1至10中的任一项所述的方法,其中,使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值包括:
对于所述小批中的每个经验元组:
使用所述动作器神经网络根据所述动作器神经网络的参数的当前值来处理所述经验元组中的所述训练观测值以生成针对所述训练观测值的下一动作;以及
基于(i)关于针对所述训练观测值采取的下一动作——下一动作输入对并且根据所述评价器神经网络的参数的当前值的所述评价器神经网络的梯度和(ii)关于针对所述训练观测值采取的所述动作器神经网络的参数并且根据所述动作器神经网络的参数的当前值的所述动作器神经网络的梯度,来确定所述动作器神经网络的参数更新。
12.一种包括一个或者多个计算机和存储指令的一个或者多个存储设备的系统,所述指令在由所述一个或者多个计算机执行时能够操作以使得所述一个或者多个计算机根据权利要求1至11中的任一项所述的方法执行操作。
13.一种包括存储在其上的指令的计算机可读存储介质,所述指令能够由处理设备执行,并且在这样的执行时使得所述处理设备根据如权利要求1至11中的任一项所述的方法执行操作。
14.一种动作器神经网络,所述动作器神经网络由一个或者多个计算机实现并且被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互,其中,所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作,其中,所述动作器神经网络是根据权利要求1至11中的任一项所述的方法来训练的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210278695.4A CN114757333A (zh) | 2015-07-24 | 2016-07-22 | 利用深度强化学习的连续控制 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562196854P | 2015-07-24 | 2015-07-24 | |
US62/196,854 | 2015-07-24 | ||
PCT/US2016/043716 WO2017019555A1 (en) | 2015-07-24 | 2016-07-22 | Continuous control with deep reinforcement learning |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210278695.4A Division CN114757333A (zh) | 2015-07-24 | 2016-07-22 | 利用深度强化学习的连续控制 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108027897A true CN108027897A (zh) | 2018-05-11 |
CN108027897B CN108027897B (zh) | 2022-04-12 |
Family
ID=56555869
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210278695.4A Pending CN114757333A (zh) | 2015-07-24 | 2016-07-22 | 利用深度强化学习的连续控制 |
CN201680043561.7A Active CN108027897B (zh) | 2015-07-24 | 2016-07-22 | 利用深度强化学习的连续控制 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210278695.4A Pending CN114757333A (zh) | 2015-07-24 | 2016-07-22 | 利用深度强化学习的连续控制 |
Country Status (13)
Country | Link |
---|---|
US (2) | US10776692B2 (zh) |
EP (1) | EP3326114A1 (zh) |
JP (1) | JP6664480B2 (zh) |
KR (1) | KR102165126B1 (zh) |
CN (2) | CN114757333A (zh) |
AU (1) | AU2016297852C1 (zh) |
CA (1) | CA2993551C (zh) |
DE (1) | DE112016003350T5 (zh) |
GB (1) | GB2559491A (zh) |
IL (1) | IL257103B (zh) |
MX (1) | MX2018000942A (zh) |
RU (1) | RU2686030C1 (zh) |
WO (1) | WO2017019555A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598332A (zh) * | 2018-11-14 | 2019-04-09 | 北京市商汤科技开发有限公司 | 神经网络生成方法及装置、电子设备和存储介质 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110533189A (zh) * | 2018-05-25 | 2019-12-03 | 罗伯特·博世有限公司 | 机器学习系统 |
CN110609474A (zh) * | 2019-09-09 | 2019-12-24 | 创新奇智(南京)科技有限公司 | 一种基于强化学习的数据中心能效优化方法 |
CN110888401A (zh) * | 2018-09-11 | 2020-03-17 | 北京京东金融科技控股有限公司 | 火力发电机组燃烧控制优化方法、装置及可读存储介质 |
CN111105029A (zh) * | 2018-10-29 | 2020-05-05 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN111226235A (zh) * | 2018-01-17 | 2020-06-02 | 华为技术有限公司 | 生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法 |
CN112272831A (zh) * | 2018-05-18 | 2021-01-26 | 渊慧科技有限公司 | 包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习系统 |
CN112313043A (zh) * | 2018-06-15 | 2021-02-02 | 谷歌有限责任公司 | 自我监督的机器人对象交互 |
CN112534435A (zh) * | 2018-06-18 | 2021-03-19 | 西门子股份公司 | 生成复杂设备的结构参数的系统、计算机辅助的方法和计算机程序产品 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN112840359A (zh) * | 2018-10-12 | 2021-05-25 | 渊慧科技有限公司 | 通过使用时间值传递在长时间尺度上控制代理 |
CN112911647A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种基于深度强化学习的计算卸载和资源分配方法 |
CN113039495A (zh) * | 2018-12-13 | 2021-06-25 | 安德里茨公司 | 工业厂房控制器 |
CN113099729A (zh) * | 2018-10-26 | 2021-07-09 | 陶氏环球技术有限责任公司 | 生产调度的深度强化学习 |
CN113269315A (zh) * | 2021-06-29 | 2021-08-17 | 安徽寒武纪信息科技有限公司 | 利用深度强化学习执行任务的设备、方法及可读存储介质 |
CN113966596A (zh) * | 2019-06-11 | 2022-01-21 | 瑞典爱立信有限公司 | 用于数据流量路由的方法和设备 |
CN114051444A (zh) * | 2019-07-01 | 2022-02-15 | 库卡德国有限公司 | 借助于至少一个机器人执行应用 |
CN114051444B (zh) * | 2019-07-01 | 2024-04-26 | 库卡德国有限公司 | 借助于至少一个机器人执行应用 |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885432B1 (en) | 2015-12-16 | 2021-01-05 | Deepmind Technologies Limited | Selecting actions from large discrete action sets using reinforcement learning |
US11188821B1 (en) * | 2016-09-15 | 2021-11-30 | X Development Llc | Control policies for collective robot learning |
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习系统 |
US20180204108A1 (en) * | 2017-01-18 | 2018-07-19 | Microsoft Technology Licensing, Llc | Automated activity-time training |
EP3559865A1 (en) | 2017-01-31 | 2019-10-30 | Deepmind Technologies Limited | Data-efficient reinforcement learning for continuous control tasks |
US11440184B2 (en) * | 2017-02-09 | 2022-09-13 | Mitsubishi Electric Corporation | Position control device and position control method |
US11173613B2 (en) * | 2017-02-09 | 2021-11-16 | Mitsubishi Electric Corporation | Position control device and position control method |
US11010948B2 (en) * | 2017-02-09 | 2021-05-18 | Google Llc | Agent navigation using visual inputs |
WO2018156891A1 (en) * | 2017-02-24 | 2018-08-30 | Google Llc | Training policy neural networks using path consistency learning |
WO2018153807A1 (en) | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Action selection for reinforcement learning using neural networks |
US11308391B2 (en) * | 2017-03-06 | 2022-04-19 | Baidu Usa Llc | Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles |
US20180271015A1 (en) * | 2017-03-21 | 2018-09-27 | Blue River Technology Inc. | Combine Harvester Including Machine Feedback Control |
KR102399535B1 (ko) * | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
CN117313789A (zh) * | 2017-04-12 | 2023-12-29 | 渊慧科技有限公司 | 使用神经网络的黑盒优化 |
CN110326008A (zh) * | 2017-04-26 | 2019-10-11 | 谷歌有限责任公司 | 将机器学习集成到控制系统中 |
EP3602419B1 (en) * | 2017-04-28 | 2023-09-20 | Google LLC | Neural network optimizer search |
KR102391452B1 (ko) * | 2017-06-02 | 2022-04-27 | 에스케이텔레콤 주식회사 | 신경망에 복수의 태스크를 순차 학습시키는 방법 |
CN110651279B (zh) * | 2017-06-28 | 2023-11-07 | 渊慧科技有限公司 | 利用学徒来训练动作选择神经网络 |
CN109204308B (zh) * | 2017-07-03 | 2020-04-07 | 上海汽车集团股份有限公司 | 车道保持算法的确定方法、车道保持的控制方法及系统 |
US10235881B2 (en) * | 2017-07-28 | 2019-03-19 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation capability configuration for a vehicle |
US11182676B2 (en) | 2017-08-04 | 2021-11-23 | International Business Machines Corporation | Cooperative neural network deep reinforcement learning with partial input assistance |
US10678241B2 (en) * | 2017-09-06 | 2020-06-09 | GM Global Technology Operations LLC | Unsupervised learning agents for autonomous driving applications |
US10254759B1 (en) * | 2017-09-14 | 2019-04-09 | Waymo Llc | Interactive autonomous vehicle agent |
EP3616129A1 (en) * | 2017-09-20 | 2020-03-04 | Google LLC | Optimizing policy controllers for robotic agents using image embeddings |
EP3480741A1 (en) * | 2017-10-27 | 2019-05-08 | DeepMind Technologies Limited | Reinforcement and imitation learning for a task |
CN107861061B (zh) * | 2017-10-27 | 2019-11-01 | 安徽大学 | 一种数据驱动的感应电机参数在线辨识方法 |
CN109726811A (zh) * | 2017-10-27 | 2019-05-07 | 谷歌有限责任公司 | 使用优先级队列训练神经网络 |
CN109726808B (zh) * | 2017-10-27 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 神经网络训练方法和装置、存储介质及电子装置 |
US11568236B2 (en) | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
WO2019149949A1 (en) * | 2018-02-05 | 2019-08-08 | Deepmind Technologies Limited | Distributed training using off-policy actor-critic reinforcement learning |
US11106211B2 (en) * | 2018-04-02 | 2021-08-31 | Sony Group Corporation | Vision-based sample-efficient reinforcement learning framework for autonomous driving |
CN108921284B (zh) * | 2018-06-15 | 2020-11-17 | 山东大学 | 基于深度学习的人际交互肢体语言自动生成方法及系统 |
US10747224B2 (en) * | 2018-06-19 | 2020-08-18 | Toyota Research Institute, Inc. | Debugging an autonomous driving machine learning model |
KR102103644B1 (ko) * | 2018-06-19 | 2020-04-23 | 한국과학기술원 | 연속 행동 공간 제어를 위한 적응형 다중-배치 경험 리플레이 기법 |
CN109240280B (zh) * | 2018-07-05 | 2021-09-07 | 上海交通大学 | 基于强化学习的锚泊辅助动力定位系统控制方法 |
FR3084867B1 (fr) | 2018-08-07 | 2021-01-15 | Psa Automobiles Sa | Procede d’assistance pour qu’un vehicule a conduite automatisee suive une trajectoire, par apprentissage par renforcement de type acteur critique a seuil |
US10733510B2 (en) | 2018-08-24 | 2020-08-04 | Ford Global Technologies, Llc | Vehicle adaptive learning |
JP7048455B2 (ja) * | 2018-08-30 | 2022-04-05 | 本田技研工業株式会社 | 学習装置、シミュレーションシステム、学習方法、およびプログラム |
CN109271629B (zh) * | 2018-09-07 | 2023-07-14 | 中山大学 | 基于强化学习的生成式文本摘要方法 |
CN109212476B (zh) * | 2018-09-18 | 2023-03-14 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
US11676008B2 (en) * | 2018-09-27 | 2023-06-13 | Google Llc | Parameter-efficient multi-task and transfer learning |
DE102018220865B4 (de) * | 2018-12-03 | 2020-11-05 | Psa Automobiles Sa | Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, Computerprogrammprodukt sowie Kraftfahrzeug |
US11204761B2 (en) | 2018-12-03 | 2021-12-21 | International Business Machines Corporation | Data center including cognitive agents and related methods |
US11295236B2 (en) * | 2018-12-10 | 2022-04-05 | International Business Machines Corporation | Machine learning in heterogeneous processing systems |
KR102209917B1 (ko) * | 2018-12-31 | 2021-01-29 | 아주대학교산학협력단 | 심층 강화 학습을 위한 데이터 처리 장치 및 방법 |
CN113196308A (zh) * | 2019-01-14 | 2021-07-30 | 赫尔实验室有限公司 | 基于求解的内省来增强强化学习智能体的训练以对机器人和自主载具进行控制和规划 |
KR102309682B1 (ko) * | 2019-01-22 | 2021-10-07 | (주)티비스톰 | 강화학습을 통해 진화하는 ai 개체를 제공하는 방법 및 플랫폼 |
US11636347B2 (en) * | 2019-01-23 | 2023-04-25 | Deepmind Technologies Limited | Action selection using interaction history graphs |
CN110798842B (zh) * | 2019-01-31 | 2022-06-28 | 湖北工业大学 | 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法 |
JP2020135011A (ja) | 2019-02-13 | 2020-08-31 | キオクシア株式会社 | 情報処理装置及び方法 |
DE102019104966A1 (de) * | 2019-02-27 | 2020-08-27 | Bayerische Motoren Werke Aktiengesellschaft | Selbstlernende Steuervorrichtung und Verfahren für selbstlernende Steuervorrichtung |
US11410023B2 (en) | 2019-03-01 | 2022-08-09 | International Business Machines Corporation | Lexicographic deep reinforcement learning using state constraints and conditional policies |
KR102267316B1 (ko) * | 2019-03-05 | 2021-06-21 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
US11216001B2 (en) | 2019-03-20 | 2022-01-04 | Honda Motor Co., Ltd. | System and method for outputting vehicle dynamic controls using deep neural networks |
WO2020190460A1 (en) * | 2019-03-20 | 2020-09-24 | Sony Corporation | Reinforcement learning through a double actor critic algorithm |
JP7106486B2 (ja) * | 2019-04-22 | 2022-07-26 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
US11410558B2 (en) | 2019-05-21 | 2022-08-09 | International Business Machines Corporation | Traffic control with reinforcement learning |
DE102019117839A1 (de) * | 2019-07-02 | 2021-01-07 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren, Vorrichtung, Computerprogramm und Computerprogrammprodukt zur Datenverarbeitung in einem Fahrzeug und Fahrzeug |
DE102019209725B4 (de) | 2019-07-03 | 2023-10-26 | Zf Friedrichshafen Ag | Verfahren zum Anpassen von Mitteln einer Steuereinrichtung |
KR20210012730A (ko) | 2019-07-26 | 2021-02-03 | 삼성전자주식회사 | 인공지능 모델의 학습 방법 및 전자 장치 |
CN110456644B (zh) * | 2019-08-13 | 2022-12-06 | 北京地平线机器人技术研发有限公司 | 确定自动化设备的执行动作信息的方法、装置及电子设备 |
WO2021044576A1 (ja) | 2019-09-05 | 2021-03-11 | 三菱電機株式会社 | 推論装置、機器制御システム及び学習装置 |
CN112688974A (zh) * | 2019-10-17 | 2021-04-20 | 伊姆西Ip控股有限责任公司 | 用于管理备份系统的方法、装置和计算机程序产品 |
US11500337B2 (en) * | 2019-11-04 | 2022-11-15 | Honeywell International Inc. | Method and system for directly tuning PID parameters using a simplified actor-critic approach to reinforcement learning |
CN111062632B (zh) * | 2019-12-24 | 2023-04-18 | 国网黑龙江省电力有限公司 | 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法 |
CN111242443B (zh) * | 2020-01-06 | 2023-04-18 | 国网黑龙江省电力有限公司 | 基于深度强化学习的能源互联网中虚拟电厂经济调度方法 |
CN111582441B (zh) * | 2020-04-16 | 2021-07-30 | 清华大学 | 共享循环神经网络的高效值函数迭代强化学习方法 |
CN111882030B (zh) * | 2020-06-29 | 2023-12-05 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
US20220036186A1 (en) * | 2020-07-30 | 2022-02-03 | Waymo Llc | Accelerated deep reinforcement learning of agent control policies |
CN111898770B (zh) * | 2020-09-29 | 2021-01-15 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
US20220101064A1 (en) * | 2020-09-29 | 2022-03-31 | Sony Corporation | Task prioritized experience replay algorithm for reinforcement learning |
WO2022069747A1 (en) * | 2020-10-02 | 2022-04-07 | Deepmind Technologies Limited | Training reinforcement learning agents using augmented temporal difference learning |
WO2022131433A1 (ko) * | 2020-12-14 | 2022-06-23 | 한국과학기술원 | 샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법 |
RU2755339C1 (ru) * | 2020-12-16 | 2021-09-15 | Федеральное государственное бюджетное образовательное учреждение высшего образования "Кубанский государственный технологический университет" (ФГБОУ ВО "КубГТУ") | Модифицированный интеллектуальный контроллер с адаптивным критиком |
CN113222106A (zh) * | 2021-02-10 | 2021-08-06 | 西北工业大学 | 一种基于分布式强化学习的智能兵棋推演方法 |
DE102021107458A1 (de) | 2021-03-25 | 2022-09-29 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Steuervorrichtung und Verfahren |
EP4315162A1 (en) | 2021-04-01 | 2024-02-07 | Bayer Aktiengesellschaft | Reinforced attention |
CN113104050B (zh) * | 2021-04-07 | 2022-04-12 | 天津理工大学 | 一种基于深度强化学习的无人驾驶端到端决策方法 |
WO2023075631A1 (ru) | 2021-10-29 | 2023-05-04 | Ооо (Общество С Ограниченной Ответственностью) "Арлойд Аутомейшн" | Система управления устройствами отопления, вентиляции и кондиционирования воздуха |
CN114722998B (zh) * | 2022-03-09 | 2024-02-02 | 三峡大学 | 一种基于cnn-ppo的兵棋推演智能体构建方法 |
CN116611194B (zh) * | 2023-07-17 | 2023-09-29 | 合肥工业大学 | 基于深度强化学习的线路重合调度策略模型、方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479576A (en) * | 1992-01-30 | 1995-12-26 | Ricoh Company, Ltd. | Neural network learning system inferring an input-output relationship from a set of given input and output samples |
US6917925B2 (en) * | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
US20130262353A1 (en) * | 2012-03-30 | 2013-10-03 | Board Of Regents, The University Of Texas System | Optimal online adaptive controller |
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6085178A (en) | 1997-03-21 | 2000-07-04 | International Business Machines Corporation | Apparatus and method for communicating between an intelligent agent and client computer process using disguised messages |
US7805388B2 (en) * | 1998-05-01 | 2010-09-28 | Health Discovery Corporation | Method for feature selection in a support vector machine using feature ranking |
US7970718B2 (en) * | 2001-05-18 | 2011-06-28 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
US7837543B2 (en) * | 2004-04-30 | 2010-11-23 | Microsoft Corporation | Reward-driven adaptive agents for video games |
US20060050953A1 (en) * | 2004-06-18 | 2006-03-09 | Farmer Michael E | Pattern recognition method and apparatus for feature selection and object classification |
JP5330138B2 (ja) | 2008-11-04 | 2013-10-30 | 本田技研工業株式会社 | 強化学習システム |
US9015093B1 (en) * | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8943008B2 (en) | 2011-09-21 | 2015-01-27 | Brain Corporation | Apparatus and methods for reinforcement learning in artificial neural networks |
JP5879899B2 (ja) | 2011-10-12 | 2016-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
RU2542901C1 (ru) * | 2014-03-11 | 2015-02-27 | Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Способ управления компьютерной сетью |
-
2016
- 2016-07-22 RU RU2018106248A patent/RU2686030C1/ru active
- 2016-07-22 KR KR1020187005435A patent/KR102165126B1/ko active IP Right Grant
- 2016-07-22 CA CA2993551A patent/CA2993551C/en active Active
- 2016-07-22 CN CN202210278695.4A patent/CN114757333A/zh active Pending
- 2016-07-22 MX MX2018000942A patent/MX2018000942A/es unknown
- 2016-07-22 GB GB1802748.2A patent/GB2559491A/en not_active Withdrawn
- 2016-07-22 DE DE112016003350.8T patent/DE112016003350T5/de active Pending
- 2016-07-22 EP EP16745383.6A patent/EP3326114A1/en active Pending
- 2016-07-22 US US15/217,758 patent/US10776692B2/en active Active
- 2016-07-22 AU AU2016297852A patent/AU2016297852C1/en active Active
- 2016-07-22 JP JP2018523386A patent/JP6664480B2/ja active Active
- 2016-07-22 CN CN201680043561.7A patent/CN108027897B/zh active Active
- 2016-07-22 WO PCT/US2016/043716 patent/WO2017019555A1/en active Application Filing
-
2018
- 2018-01-23 IL IL257103A patent/IL257103B/en unknown
-
2020
- 2020-09-14 US US17/019,927 patent/US11803750B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479576A (en) * | 1992-01-30 | 1995-12-26 | Ricoh Company, Ltd. | Neural network learning system inferring an input-output relationship from a set of given input and output samples |
US6917925B2 (en) * | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
US20130262353A1 (en) * | 2012-03-30 | 2013-10-03 | Board Of Regents, The University Of Texas System | Optimal online adaptive controller |
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
Non-Patent Citations (2)
Title |
---|
DAVID SILVER 等: "Deterministic Policy Gradient Algorithms", 《DEEPMIND TECHNOLOGIES》 * |
张文志 等: "自适应模糊RBF神经网络的多智能体机器人强化学习", 《计算机工程与应用》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111226235A (zh) * | 2018-01-17 | 2020-06-02 | 华为技术有限公司 | 生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法 |
CN111226235B (zh) * | 2018-01-17 | 2024-04-09 | 华为技术有限公司 | 神经网络的生成方法、训练方法和使用方法 |
CN112272831A (zh) * | 2018-05-18 | 2021-01-26 | 渊慧科技有限公司 | 包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习系统 |
CN110533189A (zh) * | 2018-05-25 | 2019-12-03 | 罗伯特·博世有限公司 | 机器学习系统 |
CN110533189B (zh) * | 2018-05-25 | 2024-04-26 | 罗伯特·博世有限公司 | 机器学习系统 |
CN112313043A (zh) * | 2018-06-15 | 2021-02-02 | 谷歌有限责任公司 | 自我监督的机器人对象交互 |
CN112313043B (zh) * | 2018-06-15 | 2024-04-02 | 谷歌有限责任公司 | 自我监督的机器人对象交互 |
CN112534435A (zh) * | 2018-06-18 | 2021-03-19 | 西门子股份公司 | 生成复杂设备的结构参数的系统、计算机辅助的方法和计算机程序产品 |
CN110888401A (zh) * | 2018-09-11 | 2020-03-17 | 北京京东金融科技控股有限公司 | 火力发电机组燃烧控制优化方法、装置及可读存储介质 |
CN112840359A (zh) * | 2018-10-12 | 2021-05-25 | 渊慧科技有限公司 | 通过使用时间值传递在长时间尺度上控制代理 |
CN113099729A (zh) * | 2018-10-26 | 2021-07-09 | 陶氏环球技术有限责任公司 | 生产调度的深度强化学习 |
CN111105029A (zh) * | 2018-10-29 | 2020-05-05 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN111105029B (zh) * | 2018-10-29 | 2024-04-16 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN109598332A (zh) * | 2018-11-14 | 2019-04-09 | 北京市商汤科技开发有限公司 | 神经网络生成方法及装置、电子设备和存储介质 |
CN113039495A (zh) * | 2018-12-13 | 2021-06-25 | 安德里茨公司 | 工业厂房控制器 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN113966596B (zh) * | 2019-06-11 | 2024-03-01 | 瑞典爱立信有限公司 | 用于数据流量路由的方法和设备 |
CN113966596A (zh) * | 2019-06-11 | 2022-01-21 | 瑞典爱立信有限公司 | 用于数据流量路由的方法和设备 |
CN114051444A (zh) * | 2019-07-01 | 2022-02-15 | 库卡德国有限公司 | 借助于至少一个机器人执行应用 |
CN114051444B (zh) * | 2019-07-01 | 2024-04-26 | 库卡德国有限公司 | 借助于至少一个机器人执行应用 |
CN110609474A (zh) * | 2019-09-09 | 2019-12-24 | 创新奇智(南京)科技有限公司 | 一种基于强化学习的数据中心能效优化方法 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN112911647A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种基于深度强化学习的计算卸载和资源分配方法 |
CN113269315B (zh) * | 2021-06-29 | 2024-04-02 | 安徽寒武纪信息科技有限公司 | 利用深度强化学习执行任务的设备、方法及可读存储介质 |
CN113269315A (zh) * | 2021-06-29 | 2021-08-17 | 安徽寒武纪信息科技有限公司 | 利用深度强化学习执行任务的设备、方法及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20170024643A1 (en) | 2017-01-26 |
IL257103A (en) | 2018-03-29 |
DE112016003350T5 (de) | 2018-04-05 |
AU2016297852B2 (en) | 2019-08-22 |
MX2018000942A (es) | 2018-08-09 |
CA2993551C (en) | 2022-10-11 |
JP6664480B2 (ja) | 2020-03-13 |
AU2016297852C1 (en) | 2019-12-05 |
AU2016297852A1 (en) | 2018-02-08 |
CA2993551A1 (en) | 2017-02-02 |
EP3326114A1 (en) | 2018-05-30 |
US20200410351A1 (en) | 2020-12-31 |
BR112018001520A2 (pt) | 2019-05-07 |
WO2017019555A1 (en) | 2017-02-02 |
KR20180034553A (ko) | 2018-04-04 |
GB2559491A (en) | 2018-08-08 |
CN108027897B (zh) | 2022-04-12 |
RU2686030C1 (ru) | 2019-04-23 |
GB201802748D0 (en) | 2018-04-04 |
US11803750B2 (en) | 2023-10-31 |
JP2018525759A (ja) | 2018-09-06 |
CN114757333A (zh) | 2022-07-15 |
IL257103B (en) | 2021-09-30 |
KR102165126B1 (ko) | 2020-10-13 |
US10776692B2 (en) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108027897A (zh) | 利用深度强化学习的连续控制 | |
US11783182B2 (en) | Asynchronous deep reinforcement learning | |
KR102140672B1 (ko) | 트레이닝 증강 학습 신경 네트워크 | |
KR102191444B1 (ko) | 우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝 | |
CN110582784B (zh) | 使用先行搜索来训练动作选择神经网络 | |
CN106056213B (zh) | 使用目标和观察来选择强化学习动作 | |
EP3254239B1 (en) | Distributed training of reinforcement learning systems | |
US11907837B1 (en) | Selecting actions from large discrete action sets using reinforcement learning | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
CN110023965A (zh) | 用于选择由机器人智能体执行的动作的神经网络 | |
CN110114783A (zh) | 利用辅助任务的强化学习 | |
CN110383298A (zh) | 用于连续控制任务的数据高效强化学习 | |
US10860895B2 (en) | Imagination-based agent neural networks | |
CN107690663A (zh) | 白化神经网络层 | |
CN110114784A (zh) | 递归神经网络 | |
CN109726811A (zh) | 使用优先级队列训练神经网络 | |
CN110447041A (zh) | 噪声神经网络层 | |
CN109858615A (zh) | 具有记忆的低通递归神经网络系统 | |
Intayoad et al. | Reinforcement learning for online learning recommendation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |