CN105637540A - 用于强化学习的方法和设备 - Google Patents

用于强化学习的方法和设备 Download PDF

Info

Publication number
CN105637540A
CN105637540A CN201480055621.8A CN201480055621A CN105637540A CN 105637540 A CN105637540 A CN 105637540A CN 201480055621 A CN201480055621 A CN 201480055621A CN 105637540 A CN105637540 A CN 105637540A
Authority
CN
China
Prior art keywords
action
data
state
value
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480055621.8A
Other languages
English (en)
Other versions
CN105637540B (zh
Inventor
沃洛季米尔·姆尼赫
科拉伊·卡武克曲奥卢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeepMind Technologies Ltd
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202110797787.9A priority Critical patent/CN113705771A/zh
Publication of CN105637540A publication Critical patent/CN105637540A/zh
Application granted granted Critical
Publication of CN105637540B publication Critical patent/CN105637540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

我们描述一种强化学习的方法,其用于具有多个状态和从一个状态移动到下一个状态的动作的主题系统。训练数据通过以一系列动作在系统上操作而生成,且用于训练第二神经网络。用于训练第二神经网络的目标值从第一神经网络得出,该第一神经网络通过每隔一段时间复制第二神经网络的权重而生成。

Description

用于强化学习的方法和设备
相关申请的交叉参考
本申请基于并主张2013年10月8日提交的美国临时申请No.61/888,247的优先权,通过引用将其全部内容合并于此。
技术领域
本发明涉及用于强化学习的改进技术,尤其是Q学习,并涉及数据处理器和处理器控制代码。
背景技术
一般而言,强化学习与监督学习的不同在于,不出现正确的输入输出对,而是机器(软件代理)学习在某些环境中采取动作,将某些形式的奖励最大化或者将成本最小化。采取动作将环境/系统从一个状态移动到另一个状态,并且在Q学习的特定情况下,计算状态动作组合的质量,这描述可用于确定动作的期望效用的动作值函数。在“Q-learning”(Machinelearning,vol8,pages279-292,1992,Watkins,ChristopherJCHandDayan,Peter,并且例如在WikipediaTM上方便地总结)中描述了Q学习算法。
尽管如此,学习直接根据高维度传感输入,诸如视觉和语言,来控制软件代理是强化学习(RL)的一个长期挑战。在这些领域中操作的大多数成功的RL应用依赖与线性政策函数组合的手工制作特征,并且这种系统的性能严重依赖特征表示的质量。另一方面,学习传感数据的表示已经成为深度学习方法的焦点,大多数深度学习方法依赖应用于深度卷积神经网络的大监督训练集合。
可能使用神经网络的强化学习的最广为人知的成功是TD-Gammon(“TemporaldifferencelearningandTD-Gammon”,CommunicationsoftheACM,vol38(3),pages58-68,Tesauro,Gerald)。这是一个西洋双陆棋游戏程序,它通过强化学习和自我游戏来学习,并达到超人类的游戏水平。但是这种方法采用人体工程学特征以及无关于动作的状态值函数(总得分),而不是动作值函数。此外它不接受视觉输入。
追随TD-Gammon的早期尝试不太成功,这种方法对于国际象棋、围棋和跳棋不太有效。这导致一个广泛的信念,即TD-Gammon是一个特例,并且神经网络只能在西洋双陆棋中近似值函数,原因是由于掷骰子的随机性,所以它很平滑。
此外,已经表明,将无模型强化学习算法诸如Q-learning与非线性函数逼近器诸如神经网络组合会导致Q网络发散。因此,后来的工作集中在具有较好收敛保证的线性函数逼近器。除了关于发散的问题之外,通过强化学习提供的训练信号是否足以训练大型神经网络也不清楚。因此,虽然有卷积神经网络的很多成功应用得益于使用大型标记训练示例集合(监督学习),但是通过RL提供的奖励信号经常延迟、稀少且有噪声。
尽管如此,在“NeuralfittedQiteration--firstexperienceswithadataefficientneuralreinforcementlearningmethod”(MachineLearning:ECML2005,Springer2005,pages317-328,Riedmiller,Martin)中已经尝试使用多层感知器来逼近Q值函数。所述技术基于存储并重新使用转移经验的原理,但是有一些显著的实际缺点:一般而言,基于存储的经验来训练神经网络,但是当用新的三元数组(初始状态-动作-结果状态)更新经验时,将先前的神经网络丢弃,并且在已更新的经验上训练全新的神经网络。这是因为,无监督训练会容易地导致发散行为。但是结果是,每次更新存在与数据集合的大小成比例的可计算成本,这使得将这种方法推广到大型数据集合不切实际。相同的方法已经应用于通过自动编码器预处理的视觉输入,但是这遭遇基本上相同的问题(“DeepAuto-EncoderNeuralNetworksinReinforcementLearning”,SaschaLangeandMartinRiedmiller)。
因此,需要一种用于强化学习的改进技术,特别是在采用神经网络时。
发明内容
根据本发明,因此提供一种强化学习的方法,所述方法包括:输入与主题系统有关的训练数据,所述主题系统具有多个状态,并且对于每个状态,所述主题系统具有从所述状态中的一个移动到下一个所述状态的动作集合;其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成,并且包括起始状态数据、动作数据以及下一个状态数据,其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;以及利用所述训练数据以及从第一神经网络得出的用于第二神经网络的目标值,训练第二神经网络;所述方法进一步包括:根据所述第二神经网络生成或更新所述第一神经网络。
一般而言,在本发明该方案的实施例中,维持两个神经网络来避免否则在估计动作值参数时会出现的发散,特别是,否则将基于它自己的预测而被更新的神经网络的情况下。在实施例中,第一神经网络生成目标动作值参数,诸如目标Q值,而第二神经网络基于第一神经网络生成的目标而被更新。通过这种方式,目标保持基本上静态,但是每隔一段时间就根据第二神经网络重新生成或更新第一神经网络,例如通过将第二神经网络学习的权重集合中的一些或全部权重复制到第一神经网络。实际上,在实施例中,维持相同神经网络的两个实例,第一实例用于生成用于更新第二实例的目标值,不时更新第一实例,以匹配第二实例。潜在地,在本地连接的网络中,可以在不同的时间将网络的不同部分更新,但是这不太可取。在一个实施例中,在规定数目的动作(例如每104个步骤)之后将第一神经网络更新。
采用这种方法帮助推广到很大的数据集合,因为训练第二神经网络时涉及的计算减少——在实施例中每次迭代例如采用随机梯度更新以低(恒定)计算成本,将这种第二神经网络有效地连续更新。这样进而促进使用很大数量的训练数据,并且特别是使用用于状态数据的传感数据,诸如图像数据或声音数据(波形)。本技术的实施例可以直接对视觉图像和/或声音进行训练,并且因此可以从该输入到输出动作“端到端”应用强化学习。这样能够实现可能与区分动作值直接相关的特征的学习,而不是所谓的必须尝试通过手动来识别它们。其他优点在于,因为有大数量的低级别数据可用,所以神经网络的前端可以实施通过无监督的强化学习技术来训练的(深度)卷积神经网络。通过这种方式,系统本身可以学习区分传感输入的与能够执行的可用动作相关的特征。
上述系统的实施例的其他优点在于,它们可以在线操作,没有先前方法的问题——在执行每个连续动作时可以更新第二神经网络,并且每个连续状态上的数据被捕捉。
在实施例中,第二神经网络被供以用于每个连续动作的第一起始状态的表示,并且被用于提供用于从该起始状态可用的动作集合中的每个动作的已学习的动作值参数,在实施例中为Q值。然后该方法选择要执行的动作并输出用于控制主题系统的对应的动作数据。这进而被用于生成经验数据,该经验数据被存储并提供给第一神经网络,以生成用于训练第二神经网络的目标值。这种类型的方法的优点在于本身生成经验,程序(或数据处理器)通过该经验进行学习:实际上每个神经网络提供被其他神经网络使用的输出。但是这并非必要,并且用于通过第一神经网络处理的经验数据在原理上可以从一些其他源得出,例如通过观察其他实体、机器或人类与主题系统的交互。
该方法选择的动作对应于来自第二神经网络的最佳已学习的动作值参数。一般而言,这是用于已经学习将(期望的)奖励最大化的网络的最大动作值参数,或者是用于已经学习将(期望的)成本最小化的网络的最小动作值参数。在一些优选实施例中,不是第二神经网络接收限定起始状态和动作的数据,而是训练神经网络为所限定的起始状态并行提供输出集合,每个输出提供用于对应的可用动作的估计的动作值参数。通过有效地并行处理动作,这样实际上加速了操作,允许耦接到神经网络的输出的后续选择器模块(或者是代码/软件,或者是硬件)选择最大/最小输出值,具有该值的节点限定要采取的对应的动作。
如上所述,在本方法的优选实施例中,经验数据仓库记录用于采取的动作的一些或全部的经验数据。对于每个动作,经验数据包括限定起始状态、采取的动作以及系统的后续状态的数据。在实施例中,存储只与最后N个动作有关的经验数据,以降低存储器要求。但是附加性或替代性地,可以以一些其他方式选择动作的子集用于存储,例如只每隔一段时间存储动作,或者随机存储动作,或者基于或者同时确定或者在一些后来的阶段确定的某些显著性度量,例如基于测量的和/或期望的奖励/成本,来存储动作。
在实施例中,经验数据包括从当前状态移动到后续状态时与动作的奖励(或成本)有关的奖励(或成本)数据。可以例如通过输入限定通过动作收集/引起的奖励或成本的数据来从系统测量奖励/成本。但是附加性或替代性地,可通过系统的参数或者要解决的工程问题来限定奖励/成本。因此应当认识到,存储奖励/成本并非必要,因为特别是在后一种情况下,可通过状态来限定或者与状态相关联:例如,对于所谓的回避控制任务、目标实现任务、或者状态空间位置调节任务(诸如杆平衡任务),可通过状态空间的目标区域来限定奖励/成本。
在实施例中,结合用于训练第二神经网络的第一神经网络来使用经验数据。更具体而言,根据存储的经验数据对包括第一、起始状态、动作、以及下一个状态的转移采样。这用于根据第一神经网络(在实施例中,它在先制造第二神经网络的副本)生成目标动作值参数(Q值),用于训练第二神经网络。因此将由于动作所致的下一个状态输入第一神经网络,并识别最大(或最小)动作值参数(Q值),所述最大(或最小)动作值参数通过0和1之间的折扣因子选择性地被折扣,并添加从起始状态移动到下一个状态时的奖励(或者减去成本),以生成用于给出动作的起始状态的目标动作值参数。一般而言,通过用于步骤/状态j+1,Qj+1的最佳Q加上奖励(或减去成本)来确定用于步骤/状态j,Qj的目标。通过认识到在状态j+1已经接收到奖励,因此其不再被期望,并且在Qj+1不会出现,因此它被加回去以生成目标Qj,可以理解这一点。在一些优选实施方式中,在存储用于转移的数据时,将奖励(或成本)记录在经验数据仓库中,但是在其他实施方式中,例如通过问题的定义或者上述的系统来限定它。
对根据第一神经网络生成的目标与从第二神经网络输出的步骤j的动作值参数之间的模量差训练第二神经网络,通过(随机)梯度下降来调节第二神经网络的权重。选择性地,为了更快的收敛,可以基于所计算的调节的历史来改变调节权重的步骤的大小,例如利用RMS-Prop程序(如下所述)。因此在实施例中,通过递增地更新其权重而不是通过以每个新观察将网络复位来训练第二神经网络。本领域技术人员应当理解,可以以每个动作执行一次更新,或者更慢;选择性地,可以采用来自经验数据仓库的微小批量(minibatch)来计算用于更新权重的梯度。
可以根据经验数据仓库随机选择用于训练第二神经网络的转移,和/或基于它期望的显著性,例如基于关联奖励或成本的值,来选择该转移。
在一些优选实施例中,系统的状态包括随着时间对系统的观察的序列,所述时间是系统的历史。当系统的未观察的内部状态取决于动作和观察的序列时(情况经常是这样),这特别有用。可将对于主题系统的感测条件的进一步观察,例如新捕捉的图像,用于更新包括这种观察的序列的系统状态。
在实施例中,通过图像数据,更具体而言图像的序列,来限定状态。表示状态的图像数据可以是彩色的,也可以是黑白的;选择性地,可以将其预处理,以减少图像中像素的数目,并因此降低处理要求。在状态包括图像帧的序列的情况下,并非一系列帧中的每个帧都需要被采用,并且例如可以选择每第n个帧。
附加性或替代性地,状态可包括声音数据,更具体而言是音频波形,同样可以选择性地预处理。更一般而言,可通过来自一个或多个传感器的传感信息、或者通过从计算机网络或者在计算机网络上捕捉的数据、或者通过一般的真实世界数据、以及潜在地通过表示可以被软件代理的动作影响的任何真实或虚拟系统的数据来限定状态。
优选地,第一神经网络和第二神经网络是深度神经网络且包括前端部分(接收状态数据的输入部分),该前端部分本地连接或稀少连接,例如以实施卷积神经网络。通过这种方式,网络的前端可以有效提供滤波器的分层集合,每个滤波器处理来自用于状态数据的输入的本地区域的信息,学习识别本地结构。这对于处理图像数据、音频数据、以及真实世界得到的数据特别有利,因为这种数据趋于表现相关本地结构。这种方法允许网络的内部层、隐藏层在前端按照分层的方式表现用于多个特征的特征地图。但是在一些优选实施例中,神经网络至少在输出层完全连接。
上述技术可以在软件中实施,例如作为在数字信号处理器(DSP)上运行或者跨越多个处理器例如GPU(图形处理单元)并行运行或者在通用计算机系统上运行的代码。替代性地,上述技术可以在硬件中实施,例如作为电子电路,所谓在ASIC(专用集成电路)上;或者可以采用硬件与软件的组合。
因此在相关方案中,本发明提供一种被配置为执行强化学习的处理器,所述系统包括:输入,用于接收来自系统的训练数据,所述系统具有多个状态,并且对于每个状态,所述系统具有从所述状态中的一个移动到下一个所述状态的动作集合;其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成,并且包括起始状态数据、动作数据以及下一个状态数据,其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;其中所述动作响应于用于在每个状态下可用的所述动作集合中的每个动作的动作值参数而被选择;利用来自第二神经网络的已学习的动作值参数选择所述动作;以及训练模块,用于利用所述训练数据以及从第一神经网络得出的目标值,训练第二神经网络;以及神经网络生成模块,用于根据所述第二神经网络生成或更新所述第一神经网络。
选择性地,可将上述优选特征的一些或全部合并在这种数据处理器中。
在相关方案中,本发明提供一种Q学习的方法,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以在状态之间移动所述系统,其中第一神经网络用于生成用于目标的Q值,以训练用于选择所述动作的第二神经网络。
如上所述,在一些优选实施例中,每隔一段时间利用所述第二神经网络将所述第一神经网络刷新,使得第一神经网络的权重为准静态,在刷新时只每隔一段时间更新。同样如上所述,在优选实施例中,存储与系统交互的经验的记录。经验可包括状态、动作、新状态和奖励/成本。在实施例中,第二神经网络学习离政策(off-policy),也就是说学习政策涉及搜寻存储的经验,以生成用于训练第二神经网络的目标,并且其按照与在与系统交互时用于选择动作的行为政策不同的方式进行。在实施例中,用于目标的Q值包括动作值函数的值,该动作值函数逼近包括限定或推定的下一个动作的动作的策略的期望成本或者回报。
在相关方案中,本发明还提供一种被配置为执行Q学习的数据处理器,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以在状态之间移动所述系统,所述数据处理器包括耦接到存储处理器控制代码的工作存储器以及非易失性程序存储器的处理器,其中所述处理器控制代码被配置为控制所述处理器:利用第一神经网络来生成用于目标的Q值;利用所述目标来训练第二神经网络;以及利用所述第二神经网络来选择动作以控制所述系统。
如上所述的数据处理器例如可以合并在被配置为自动学习控制任务的控制系统中。
本发明还提供处理器控制代码和/或数据(例如学习权重)以实施本发明的实施例,特别是在物理(非暂时性)数据载体上,诸如磁盘、编程存储器,例如在非易失性存储器(诸如闪存)上或者在固件中。实施本发明的实施例的代码和/或数据可包括以传统编程语言(解释或编译)的源代码、对象代码或可执行代码,诸如C,或者用于硬件描述语言的代码。
在其他方案中,本发明提供一种通过强化学习训练的电子控制器,以控制具有多个状态的系统,并且对于每个状态,所述系统具有从所述状态中的一个移动到下一个所述状态的动作集合;所述电子控制器包括:输入,用于接收来自所述系统的状态数据;神经网络,具有耦接到所述输入的输入神经元集合、多个神经元的隐藏层、以及至少一个输出神经元,其中所述神经网络被训练为对于所述动作集合中的每个动作提供动作质量值,所述动作质量值限定从相应动作开始以移动到下一个状态的动作的策略的期望成本或奖励;动作选择器,被配置为响应于用于所述动作的所述动作质量值,从所述动作集合选择动作;以及输出,用于输出限定用于控制所述系统的所述选择的动作的数据。
在一些优选实施例中,神经网络具有多个输出神经元,每个输出神经元被配置为提供用于相应动作的动作质量值。然后可将它们耦接到动作选择器,从而可以基本上并行地提供用于选择例如具有最大质量值或最小质量值的动作的动作质量值。
在其他相关方案中,本发明提供一种在控制系统中学习的方法,对于主题系统的一系列状态,所述方法包括:输入与主题系统的当前状态有关的当前状态数据;将所述当前状态数据的版本提供给神经网络;利用所述神经网络确定用于动作值函数集合的值,潜在动作集合中的一个或每个;响应于所述动作值函数的所述值,选择所述动作;将用于所述选择的动作的动作数据输出到所述主题系统,使得所述主题系统从所述当前状态转移为后续状态;输入与所述主题系统的所述后续状态有关的后续状态数据以及与由于从所述当前状态到所述后续状态的所述转移所致的奖励或成本有关的奖励数据;将经验数据存储在所述经验存储器中,所述经验数据表示所述当前状态、所述后续状态、所述选择的动作、以及所述奖励或成本;根据所述存储的经验数据,确定用于所述神经网络的目标动作值函数输出;以及利用所述目标动作值函数输出更新所述神经网络的权重,其中所述更新包括递增地修改先前确定的所述神经网络的权重集合;所述方法进一步包括:存储所述神经网络的权重集合,以产生所述神经网络的两个版本,一个版本针对另一个版本时移,其中用于选择所述动作的所述动作值函数集合的所述值的所述确定利用所述神经网络版本的后一个版本被执行,以及其中所述目标动作值函数的所述确定利用所述神经网络版本的较早版本被执行。
这里在一般含义上使用对奖励数据的参考,包括限定正奖励或负奖励或成本的数据。
在其他相关方案中,本发明提供一种控制系统,所述系统包括:数据输入,用于接收传感器数据;数据输出,用于提供动作控制数据;以及深度神经网络,具有输入层和输出层,所述输入层耦接到所述数据输入;以及动作选择器,耦接到所述深度神经网络的所述输出层;其中所述深度神经网络的所述输入层在一个或多个维度中限定传感器数据字段,其中所述深度神经网络的所述输出层限定用于与所述控制系统进行控制的多个可能动作中的每个动作相关联的动作值函数的值;以及动作选择器,耦接到所述深度神经网络的所述输出层以及所述数据输出,以响应于所述动作值函数选择所述动作,并将对应的动作控制数据提供给所述数据输出。
附图说明
下面参照附图,仅通过示例进一步描述本发明的这些和其他方案,在附图中:
图1示出来自用于训练根据本发明的实施例的强化学习数据处理器玩游戏的计算机游戏集合的截屏,从左至右所示为乒乓球(Pong)、打砖块(Breakout)、太空入侵者(SpaceInvaders)、海底救人(Seaquest)和波束导弹(BeamRider)(商标);
图2示出根据本发明的实施例有经验重演的深度Q学习程序的流程图;
图3a和图3b示出根据本发明的实施例的Q学习深度神经网络的替代性示例配置;
图4图示出在图2的程序的实施例中使用的神经网络的结构;
图5a和图5b分别示出根据本发明的实施例的强化学习处理器的方框图以及根据本发明的实施例被编程为实施基于深度神经网络的Q学习程序的计算机系统的示例;
图6a至图6d示出每个游戏片段的奖励,分别示出对于BreakoutTM和SeaquestTM,每个片段的平均奖励以及可以从起始状态集合获得的平均预测值;以及
图7a和图7b分别示出来自SeaquestTM的三个截屏的序列以及用于游戏玩法的对应30帧片段的预测值函数,其中A、B和C分别对应于图7a的左、中和右截屏。
具体实施方式
下面描述将强化学习算法与深度神经网络连接的技术,使得能够利用随机梯度更新,将数据直接从原始RGB像素图像有效地注入算法。为此描述一种通过有经验再现存储器的Q学习算法的在线实施方式,其使得能够用随机梯度更新来训练神经网络。(在此“深度神经网络”用于表示有多于一个隐藏层的神经网络。)
为了说明来自Arcade学习环境“Thearcadelearningenvironment:Anevaluationplatformforgeneralagents”,arXivpreprintarXiv:1207.4708,2012的方法AtariTM2600视频游戏的能力,将Bellemare、MarcG和Naddaf、Yavar和Veness、Joel和Bowling、Michael用作试验台。这些游戏为强化学习提供了有趣的挑战,因为它们被设计为挑战人类并具有高维视觉输入空间。所述软件代理直接从原始像素输入学习玩AtariTM游戏,并且不使用任何手工设计特征或人类游戏的示例。本文所述基于神经网络的方法实现的能力水平在全部7个被测游戏上与新手人类玩家可比较或者更好,并且在其中3个游戏上超过老手人类玩家。
强化学习框架
我们考虑这样的任务,其中代理与环境E(在这种情况下是Atari仿真器)以动作、观察和奖励的序列交互。在每个时间步骤,代理从合法游戏动作A={1,...,K}中选择动作at。动作被传递给仿真器并修改其内部状态和游戏得分。通常E可以是随机的。代理不观察仿真器的内部状态;作为替代,它观察来自仿真器的图像xt∈Rd,该图像是表示当前屏幕的原始像素值的矢量。此外,它接收表示游戏得分的变化的奖励rt。注意,通常游戏得分可以取决于动作和观察的全部在先序列;仅在经过千万个时间步骤之后才可接收关于动作的反馈。
因为代理只观察当前屏幕的图像,所以部分地观察到任务,并且很多仿真器状态在感知上被混淆,即,不可能仅根据当前屏幕xt就完全理解当前情况。因此,我们考虑动作和观察的序列st=x1,a1,x2,...,at-1,xt,并学习取决于这些序列的游戏策略。假定仿真器中所有序列在有限数目的时间步骤中终止。这种形式化产生大而有限的马尔可夫决策过程(MDP),其中每个序列是不同的状态。结果,通过将完整序列st用作时间t的状态表示,我们可将强化学习方法应用于MDP。
代理的目的是通过以最大化未来奖励的方式选择动作,与仿真器交互。我们假定通过每个时间步骤一个因子γ(其中0≤γ≤1)将未来奖励折扣,并将时间t时的未来折扣回报限定为其中T是游戏终止的时间步骤。在看到某些序列s然后采取某些动作a之后,我们将最佳动作值函数Q*(s,a)限定为可通过以下任何策略实现的最大期望回报,Q*(s,a)=maxπE[Rt|st=s,at=a,π],其中π是将序列映射到动作的政策(或者相对于动作的分布)。
这些最佳动作值函数服从称为Bellman方程的重要恒等式。这是基于以下直觉:如果对于所有可能的动作a′都知道下一个时间步骤处序列s′的最佳值Q*(s′,a′),那么最佳策略就是选择将r+γQ*(s′,a′)的期望值最大化的动作a′,
在本文包含的某些方程中,符号“□”由于用于产生方程的方程生成器生成的假象(artifact)而出现。该符号应当出现并且被理解为表示
很多强化学习算法后面的基本理念是通过将Bellman方程用作迭代更新,Qi+1(s,a)=E[r+γmaxa′Qi(s′,a′)|s,a],来估计动作值函数。这种值迭代算法收敛到最佳动作值函数,当i→∞时Qi→Q*。实际上,该基本方法完全不实用,因为动作值函数是对于每个序列单独估计的,没有任何一般化。作为替代,可以使用函数逼近器来估计动作值函数,Q(s,a;θ)≈Q*(s,a)。通常这是线性函数逼近器,但是也可以是非线性函数逼近器,诸如神经网络。我们将具有权重θ的神经网络函数逼近器称为Q网络。通过将在每次迭代i处改变的损失函数L(θi)的序列最小化,可以训练Q网络,
其中是迭代i的目标,并且ρ(s,a)是相对于序列s和动作a的概率分布,我们称为行为分布。在优化损失函数L(θi)时,将来自之前迭代θi-1的参数保持固定。注意,目标取决于网络权重;这是与用于监督学习的目标大不相同的,用于监督学习的目标在学习开始之前保持固定。将损失函数对权重微分,我们得到以下梯度:
不是计算以上梯度中的全部期望,通过随机梯度下降将损失函数最优化通常在计算上是有效的。如果在每个时间步骤之后将权重更新,并分别通过来自行为分布ρ和仿真器E的单个样本来代替这些期望,则获得Q学习算法。
该算法是无模型的:它直接利用来自仿真器E的样本解决强化学习任务,不需要明确地构造E的估计。此外,它是离政策(off-policy):它学习“贪婪”(即,最佳值偏好)策略a=maxaQ(s,a;θ),同时遵循保证状态空间的充分探测的行为分布。实际上,经常通过遵循概率为1-ε的贪婪策略的ε贪婪策略来选择行为分布,并选择概率为ε的随机动作。
示例任务
在某些环境中,较少数目的输入就完全描述了环境的状态,并且有感兴趣的单个任务,因此可以手工构造为任务定制的特征。与之不同,用于测试我们所述技术的实施例的Atari仿真器是部分可观察的,在60Hz下提供210×160RGB的视频输入,并且因为有很多种任务要考虑,所以难以手工制作通用特征。
AtariTM游戏被设计为挑战人类玩家,并且AtariTM2600表示对强化学习的主要挑战。尽管如此,我们描述能够很好地玩多种AtariTM2600电视游戏的强化学习算法。学习任务被设计为反映人类可能面临的设置,如果出现新型AtariTM游戏:软件代理没有被提供有关该游戏的任何先前知识,它不知道仿真器的内部状态,并且只能通过观察像素视频输入以及通过在每个帧选择多达18个动作中的一个(3×3操纵杆位置,可以选择是否按下“开火”按钮),与仿真器交互。
Arcade学习环境(ALE)(同上)是使得强化学习代理能够与AtariTM2600游戏机的仿真器交互的平台。它包含很多通过奖励函数(在每个帧通常对应于得分的改变)来装备的原始AtariTM2600电视游戏。图1示出用于测试本发明实施例的5个游戏的示例截屏,示为乒乓球(Pong)10、打砖块(Breakout)12、太空入侵者(SpaceInvaders)14、海底救人(Seaquest)15和波束导弹(BeamRider)18(商标)。
深度强化学习
图2图示出根据本发明实施例,用于使用深度神经网络来估计Q值的强化学习的程序。
该程序通过从受控系统输入状态数据开始(S200)。对于AtariTM游戏仿真器的测试系统,这包括来自游戏的图像帧的序列。如下所述,在该测试环境中采用跳帧,并且对捕捉的图像下采样,以减少要处理的数据数量。我们所述方法的其中一个优点是,该程序能够接受图像像素数据作为输入,而不是依靠受控系统的手工构造表示。
该程序采用第一和第二神经网络(神经网络0和1),每个网络最后通过程序的实施方式来训练,以为每个动作或者每个可定义输入状态提供动作值参数,尤其是Q值。因此在步骤S202,该程序采用第二神经网络(神经网络1)以为输入状态提供Q值集合,在该状态下一个Q值用于一个可能的动作(Q1值)。该程序选择最大Q值(最大期望奖励),但是也采用探测策略,在实施例中是ε贪婪策略(选择时间的随机动作ε)。但是本领域技术人员应当理解,可以替代性地采用很多种探测策略,例如基于所谓的Gibbs或Boltzmann分布的软-最大值策略;或者可以采用ε贪婪探测的变型,其中ε随时间减少。
然后该程序再次输入状态(图像序列)数据并存储经验数据(S204)。所存储的经验数据包括前后状态、采取的动作以及赢取的奖励。在步骤S206,该程序或者随机地或者根据优先策略从存储的经验数据导出转移,并将结尾转移的“后”状态提供给第一神经网络(神经网络0)。采用第一神经网络以通过提供每个动作的Q值(Q0值)来确定用于该结尾状态的最大Q值(步骤S208),从而能够选择最大值。然后在步骤S210,该程序将折扣因子γ应用于来自步骤S208的最大Q值,并将来自该转移的奖励添加到这个结尾状态,以提供目标Q值(在下面的算法中是yj)。在所述实施例中将奖励与经验数据一起存储(对于测试系统而言,通过来自仿真器的数值输出来限定奖励),但是也能够以某些其他方式来提供,例如作为控制问题的定义的一部分(所谓通过限定要处于其中或者要避免的状态空间的目标区域)。添加奖励后面的逻辑被示出在步骤S210的右边,从神经网络0输出的Q值考虑已经被该阶段接收的奖励,并且因此到那时候为止不再期望它。
目标Q值(yj)用于训练第二神经网络(神经网络1),以更新Q1值。为了方便起见,可以利用随机梯度下降来实施训练,例如利用反向传播法,选择性地采用可调节或适应性的学习速率来随着时间减少步骤大小(即,用于调节权重的步骤大小)。选择性地,如同本领域技术人员所理解的,在微小批量(minibatch)方法中,可通过从存储的经验数据导出的多个转移来累积梯度。本领域技术人员应当认识到,不是对于其自身输出所训练的神经网络,而是将第一神经网络的输出用于训练第二神经网络。
然后该程序从步骤S212循环回到步骤S202,以选择进一步动作。在实施例中,经验数据存储的大小有限,并且因此,随着存储新的经验数据,可以例如利用FIFO(先入先出)策略丢弃旧的经验数据。在限定数目的训练步骤之后,例如每102、103或104步骤,将来自第二受训神经网络的权重复制到第一神经网络(S214),使得实际上用于Q1值的神经网络变为用于Q0值的神经网络,并且第二神经网络的训练继续进行。训练程序可以无限地继续,或者在其他方法中,例如在预定数目的训练步骤之后和/或基于诸如用于状态的限定集合的平均预测状态值函数的训练度量而终止训练。
如上所述,该程序在线操作或者准在线操作(如果采用微小批量训练就是后者)。但是本领域技术人员应当理解,在替代性实施例中,该程序可以在一个阶段累积存储的经验数据,并且然后在第二阶段利用存储的经验数据训练第二神经网络。
下面示出通过经验重演用于深度Q学习的示例算法。为了提高算法的稳定性,我们将用于生成目标yj的网络从受训的网络解耦。更准确而言,在每L个参数更新之后制造受训的Q网络的副本,并且该副本用于对下L个训练更新生成目标yj。该程序提高了训练算法的稳定性,因为用于生成目标的网络只是每L个更新改变,这防止了反馈回路出现,其中预测无法控制地生长。
在某些优选实施例中,将算法修改为对于微小批量的存储的转移累积梯度:
在上述示例算法中,该程序对于M个游戏片段运行,其中每个片段从游戏开始运行到表明“游戏结束”的点或者运行到(软件代理)玩家失去生命的点。片段中帧的总数目表示为T;神经网络具有参数(权重)θ,θ可通过随机数来初始化。应当理解,在其他实施方式中可以限定其他形式的“片段”,或者可以连续运行程序。在所示示例中,该算法对于系统在玩游戏时捕捉的所有帧运行。
可以记起通过图像帧的序列,或者更一般地,通过可以包括图像数据、和/或声音数据、和/或一般的传感器数据的输入数据、和/或其他输入数据的被捕捉集合的序列,来限定游戏/系统的状态。在上述算法中,用表示限定输入状态的经过预处理的序列数据,其中i标记状态。在测试环境下,限定通过选择每第K个帧获得的4个84×84灰度图像的群组。
在上述示例中,算法学习离政策——也就是说,被选择为训练第二神经网络的动作不同于通过用于玩游戏的第一神经网络所指示的动作——也就是说,程序的实施例根据不同的政策学习和玩。
在原理上,程序的实施例可以在不将第二神经网络选择的动作的结果存储在经验数据仓库的情况下操作:所存储的经验可以从某些其他源得出,例如通过观察与系统交互的某些其他实体,诸如观察玩相关游戏的人。所要求的全部就是能够观察多个转移,每个转移包括初始状态、动作和最终状态,以及可选地奖励(或成本)。然后,所存储的经验仍然可用于更新第一神经网络,该第一神经网络进而生成用于训练第二神经网络的目标。实际上,存储第二神经网络选择的动作的经验是方便的,使得第一神经网络能够在后来根据这些导出,从而提供独立系统,但是这并非必要。
在上述算法中,我们在每个时间步骤存储代理的经验,在数据集合中的et=(st,at,rt,st+1),将多个片段聚集在重演存储器中。在算法的内部回路中,将Q学习更新或者微小批量更新应用于经验的样本其从存储样本池中随机导出。在进行经验重演之后,代理根据ε贪婪政策选择并执行动作(其中0≤ε≤1并且可以随时间变化)。因为将任意长度的历史用作神经网络的输入可能是困难的,所以作为替代,Q函数作用于通过函数产生的固定长度表示的历史。
我们所述算法的方法具有若干优点。没有相互作用,经验的每个步骤可能在多个权重更新中使用,这允许更大的数据效率。其次,由于样本之间的强相关,直接从连续样本学习是无效率的,但是将样本随机化打破了这些相关并且因此减少了更新的方差。第三,在学习在政策(on-policy)时,当前参数确定参数对其训练的下一个数据样本。例如,如果最大化动作是向左移动,则通过来自左手侧的样本来支配训练样本;如果之后最大化动作切换到右边,择训练分布也切换。容易看到,不需要的反馈回路会怎样出现,并且参数会在不良的局部最小值中卡住,甚至灾难性地发散。与之不同,在我们所述的技术中,行为分布针对它的多个先前状态平均,平滑了学习并帮助避免参数中的振荡或发散。在通过经验重演学习时,倾向离政策,因为当前参数不同于用于生成样本的参数,其激发了Q学习的选择。
在某些实施例中,算法仅将最后N个经验元组存储在重演存储器中,并且在进行更新时从D中随机地统一采样。但是,这种方法是受限的,因为存储器缓存不区分重要的转移,并且由于有限的存储器大小N,将最近转移覆写。类似地,统一采样向重演存储器中的所有转移给予相同的重要性。因此在其他实施例中,可以采用更复杂的采样策略,例如强调程序可以从其学习最多的转移。这可以按照与优先扫除(PrioritizedSweeping)相类似的方式来实施,“PrioritizedSweeping:ReinforcementLearningwithLessDataandLessRealTime”,MachineLearning,vol13,pages103-130,1993,AndrewMoore,ChrisAtkeson。
虽然上述强化学习框架使用完整序列s=s1,a1,...,st,at作为状态表示,但是在实践中这是有挑战性的,通常要求递归神经网络体系结构,该递归神经网络体系结构可以对千万个时间步骤反向传播错误。因此作为替代,本技术的实施例使用帧的短历史,例如4个帧,作为预处理步骤。
如上所述,在实施例中,算法的训练回路对微小批量的转移进行采样,并且对给定的对象进行微小批量梯度下降更新。变型使用RMSProp算法,“Lecture6.5-rmsprop:Dividethegradientbyarunningaverageofitsrecentmagnitude”,COURSERA:NeuralNetworksforMachineLearning,2012,Tieleman,TandHinton,G,其对于每个权重适应性地确定学习速率。这样导致对于某些问题的更快训练。
实施例还使用帧跳跃技术:代理看到并选择每第k个帧而不是每个帧上的动作,并且在跳过的帧上重复其最后动作。跳过的帧的数目与构成状态表示的帧的数目相同是巧合:情况不需要是这样。因为对于一个步骤向前运行仿真器与让代理选择动作相比要求少得多的计算,所以在不显著增加运行时间的情况下,该技术允许代理玩大约k倍次的游戏。
预处理和模型体系结构
直接通过作为具有128调色板的210×160的像素图像的原始AtariTM帧工作可能在计算上要求较高,因此使用基本预处理步骤来减少输入维度:通过先将它们的RGB表示转换为灰度表示,并且然后将其下采样为110×84图像,来预处理原始帧。通过修剪粗略捕捉游戏区域的图像的84×84区域,获得最终输入表示。最终修剪阶段只是为了方便而进行,因为使用了期望方形输入的2D卷积的GPU(图形处理单元)实施方式。为了实验,来自算法的函数将此预处理应用于历史的最后4个帧,并堆放它们,以产生Q函数的输入。
有若干可能方式利用神经网络将Q参数化。因为Q将历史动作对映射到它们Q值的标量估计,所以使用已经被用作神经网络的输入的历史和动作两者是一个选择,在图3a中示意性地为神经网络150a示出。但是,这种类型的体系结构的缺点在于,要求单独的前向传递来计算每个动作的Q值,导致随动作数目线性缩放的成本。因此作为替代,优选实施例采用一种体系结构,其中有用于每个可能动作的独立输出单元,并且只有状态表示是神经网络的输入。输出对应于用于输入状态的个别动作的预测Q值,在图3b中示意性地为神经网络150b示出。这种类型的体系结构的一个优点是,仅用通过网络的单个前向传递在给定状态下对于所有可能动作计算Q值的能力。
图4所示的用于训练全部7个AtariTM游戏的体系结构如下:神经网络的输入包括通过产生的84×84×4图像。第一隐藏层将具有步幅4的16个8×8滤波器与输入图像卷积,并应用整流器非线性。第二隐藏层将具有步幅2的32个4×4滤波器卷积,也跟随有整流器非线性。最末隐藏层是完全连接的并包括256个整流器单元。输出层是对于每个有效动作有单个输出的完全连接的线性层。对于所考虑的游戏而言,有效动作的数目在4和18之间变化。我们将通过所述方法训练的卷积网络称为深度Q网络(DQN)。
因此参照图4,其示出上述神经网络150的实施例,其中输入帧的集合152提供输入到通过与第一隐藏层156的连接形成的卷积滤波器的第一集合154的输入。第一隐藏层156包含特征地图集合,每个滤波器一个地图。卷积滤波器的第二集合158提供与第二隐藏层160的连接,该第二隐藏层160包括另一个特征地图集合,每个滤波器158一个地图。神经网络150的输出阶段实际上包括多层感知器,该多层感知器有连接到下面的层160中的全部特征地图的输入隐藏单元集合162,并且具有输出单元集合164,每个可用动作一个输出单元(在示例性游戏中,在4和18个动作之间)。在所示示例中,对输入帧的集合(84×84)(×4)操作的4×16个8×8像素滤波器(核心)的第一集合生成用于每个4个帧的集合的16个20×20特征地图的集合,并且对其操作的16×32个4×4像素滤波器的第二集合生成用于每个帧的32个9×9特征地图。图4的神经网络结构对应于图3b所示的布置,其中在神经网络的输入处出现的状态数据152在输出单元164上生成Q值输出的集合,每个动作一个输出。
图5a示出被配置为实施如上所述基于神经网络的强化学习程序的数据处理器100的示意性方框图。处理器与一些系统102交互,提供控制系统的动作并观察来自系统的图像、声音或其他数据。在实施例中,还有从来自系统的成本或奖励数据到处理器的输入,并且对于游戏是“游戏结束”信号。观察数据通过模块104预处理,并且然后通过神经网络150处理,如上所述。这样提供动作值参数(Q值)集合,作为用于所观察的输入状态的输出。动作选择器106选择有最大Q值的动作并将其提供给系统102以及经验数据仓库108。经验数据仓库108存储观察状态数据,例如图像序列数据、选择的动作、以及来自系统102的奖励数据。
在学习阶段期间,模块110从经验数据仓库108对转移采样,并基于来自神经网络0的目标,具有在模块110中存储的权重的神经网络1的较早副本,调节神经网络150(神经网络1)的权重。因此在实施例中,通过神经网络1选择的动作提供神经网络0由其导出的存储经验数据,以提供用于训练神经网络1的目标。
图5b示出被编程为实施与图5b中所示功能相对应的功能的通用计算机系统100。因此系统包括深度Q学习机122,该深度Q学习机122包含处理器、工作存储器、以及非易失性程序存储器124。除了别的以外,程序存储器存储神经网络代码、动作选择代码、经验存储代码、目标Q生成代码以及权重更新代码。参数存储器126存储神经网络的权重以及经验数据。可以在物理承载介质诸如磁盘128上提供代码124。
实验结果
使用相同的网络结构、学习算法以及跨越全部7种游戏的超参数设置对7种流行的AtariTM游戏——BeamRider、Breakout、Enduro、Pong、Q*bert、Seaquest、SpaceInvaders进行实验。但是,因为得分的标度随着游戏的不同变化很大,所以将全部正奖励固定为1,并且将全部负奖励固定为-1,留下0奖励不变。通过这种方式修剪奖励限制了误差导数的标度,并使得跨越多种游戏使用相同的学习速率更加容易。同时,它可以影响代理的性能,因为不能在不同量级的奖励之间区分。
在这些实验中,以大小32的微小批量使用RMSProp算法。在训练期间的行为政策是ε贪婪,ε对于前面100万个帧从1到0.1线性退火(anneal),并且之后固定在0.1。我们对总共1000万个帧进行训练,并使用100万个最近帧的重演存储器。此外,使用简单的跳帧技术:代理看到并选择每第k个帧而不是每个帧上的动作,并且在跳过的帧上重复其最后动作。因为在一个步骤中向前运行仿真器与让代理选择动作相比要求少得多的计算,所以在不显著增加运行时间的情况下,该技术允许代理再玩大约k次游戏。在测试实施方式中,对于所有游戏使用k=4,除了SpaceInvadersTM之外,在SpaceInvadersTM中,因为激光闪动的周期,所以这样使得它们不可见;使用k=3避免了这个问题,并且这个改变是任何游戏之间在超参数值中的唯一不同。
在监督学习中,通过针对训练和有效集合评估性能,在训练期间我们可以容易地跟踪模型的性能。但是在强化学习中,在训练期间准确评估代理的进展可能是挑战性的。所使用的评估度量是代理在训练期间周期性地计算的对于多个游戏平均的片段或游戏中收集的总奖励。但是,平均总奖励度量趋于有很多噪声,因为对政策权重的小改变会导致政策所访问的状态分布中的大改变。
参照图6,图6a和图6c分别示出在训练期间BreakoutTM和SeaquestTM上每个片段的平均奖励。通过运行ε贪婪政策来计算统计数据,对于10000个步骤,ε=0.05。图6b和图6d分别示出BreakoutTM和SeaquestTM中状态集合的平均最大预测动作值。在图6中曲线图的X轴示出训练时期;一个时期对应于50000个微小批量权重更新,大约是30分钟的训练时间。
图6a和图6b示出在对游戏Seaquest和Breakout训练期间平均总奖励怎样演变。两个平均奖励曲线图都有很多噪声,给人的印象是,学习算法没有取得稳定的进展。另一个更稳定的度量是政策的估计动作值函数Q,该动作值函数Q提供可以通过遵循其政策,代理能够从任何给定状态获得多少折扣奖励的估计。在训练开始之前通过运行随机政策来收集状态的固定集合,并且为这些状态跟踪最大预测Q的平均值(对于可能的动作,取得用于每个状态的最大值)。图6b和图6d示出相比于通过代理获得的平均总奖励,平均预测Q更平滑地增加,并且在其他5个游戏上绘出相同的度量产生类似的平滑曲线。除了在训练期间看到对预测Q的相对平滑改善之外,在任何一个实验中都看不到发散问题。这表明,尽管缺少任何理论上的收敛保证,但是该方法能够按照稳定的方式,利用强化学习信号和随机梯度下降来训练大型神经网络。
图7示出游戏SeaquestTM上学习值函数的形象化。图7a示出在屏幕702的左方敌人出现之后预测值跳跃(点A)。然后代理向敌人发射鱼雷,并且当鱼雷即将击中敌人时预测值达到峰值(点B;屏幕704)。最后,在敌人消失以后该值下落到接近它的原始值(点C;屏幕706)。图7说明,该方法的实施例能够学习对于事件相当复杂的序列,值函数怎样演化。任何时候新的潜艇出现,该值都增加,反映的事实是,代理有收集更多点的机会。一旦击中敌人的潜艇,该值就下降,因为收集到潜在奖励。
在测试期间,对于全部7种游戏,我们已经描述的程序大幅超过与之相比的所有其他机器学习方法,尽管几乎不包含关于输入形式的在先知识。该程序能够使用原始像素作为输入,并且在不调节体系结构或者程序的超参数的情况下进行测试,并且展示了它在此背景下掌握困难的控制政策的能力。
此外针对老手人类玩家测试了程序的性能,并且如下表1(给出平均总奖励的数字)所示,对于大多数游戏获得相比老手人类玩家更好的表现。在上面性能差于老手人类玩家性能的游戏更加有挑战性,因为它们要求网络找到持续长时间规模的策略。
B.Rider Breakout Enduro Pong Q*bert Seaquest S.Invaders
Human 7456 31 368 -3 18900 28010 3690
DQN Best 5184 225 661 21 4500 1740 1075
表1
我们已经描述了将强化学习程序应用于使用图像数据输入的控制任务——例如对于卡片游戏的情况可以使用游戏中手的图像作为输入。但是本领域技术人员应当理解,如上所述,可以附加性或者替代性地采用其他类型的输入数据。此外,仅通过示例的方式描述了控制游戏的任务,并且应当理解,可将本发明的实施例应用于任何形式的控制任务。虽然描述了有离散动作的示例,但是附加性或者替代性地,控制任务可包含准连续性动作,诸如通过用二进制数表示的连续赋值的变量限定的动作。
我们描述的仅通过示例的方式给出的技术的其他应用,包括:机器人控制(诸如两足或四足行走或跑动、航行、抓取、和其他控制技巧);交通工具控制(自主交通工具控制、转向控制、航空交通工具控制,诸如直升机或飞机控制、自主移动机器人控制);机器控制;有线或无线通信系统的控制;实验室或工业装备的控制;真实或虚拟资源的控制(诸如存储器管理、目录管理等等);药物发现(其中受控动作是所谓药物的定义或DNA序列以及通过用药的活体的状态限定状态);向系统的应用,其中通过文字(文本和/或音频和/或图像)限定系统的状态或来自系统的输出,诸如采用自然语言的系统;向交易系统诸如股市的应用(虽然采取的动作对这种系统几乎没有影响,但是很小的影响就足以获得有用的总奖励);以及其他。
本领域技术人员肯定能够想到很多其他有效的替代。应当理解,本发明不限于所述实施例并包含落入所附权利要求精神和范围的对于本领域技术人员显而易见的修改。

Claims (35)

1.一种强化学习的方法,所述方法包括:
输入与主题系统有关的训练数据,所述主题系统具有多个状态,并且对于每个状态,所述主题系统具有从所述状态中的一个移动到下一个所述状态的动作集合;
其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成,并且包括起始状态数据、动作数据以及下一个状态数据,所述起始状态数据、动作数据以及下一个状态数据对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;以及
利用所述训练数据以及从第一神经网络得出的用于第二神经网络的目标值,训练第二神经网络;
所述方法进一步包括:
根据所述第二神经网络生成或更新所述第一神经网络。
2.根据权利要求1所述的方法,进一步包括:利用来自所述第二神经网络的已学习的动作值参数来选择所述动作,其中所述动作响应于为在所述系统的状态下可用的动作集合中的每个动作确定的动作值参数而被选择。
3.根据权利要求2所述的方法,其中,所述训练数据包括从所述选择的动作得出的经验数据,所述方法进一步包括:通过与限定所述动作的相应的所述起始状态和下一个状态的数据相关联地存储限定由所述第二神经网络选择的所述动作的数据,生成所述经验数据。
4.根据权利要求3所述的方法,进一步包括:通过向所述第一神经网络提供限定所述动作和所述下一个状态的所述数据,生成所述目标值,以及利用所述目标值和限定所述起始状态的所述数据,训练所述第二神经网络。
5.根据权利要求2所述的方法,进一步包括:
输入限定所述系统的状态的状态数据;
将所述系统的所述状态的表示提供给所述第二神经网络;
为在所述状态下可用的所述动作集合中的每个动作从所述第二神经网络检索已学习的所述动作值参数;以及
从所述第二神经网络选择要执行的动作,所述动作具有最大或最小的所述已学习的动作值参数。
6.根据权利要求5所述的方法,进一步包括:存储来自所述系统的经验数据,其中所述经验数据通过以利用所述第二神经网络选择的所述动作在所述系统上操作而被生成,并且其中所述训练数据包括所述存储的经验数据。
7.根据权利要求6所述的方法,进一步包括:
从所述经验数据选择用于所述多个动作中的一个的起始状态数据、动作数据以及下一个状态数据;
将来自所述下一个状态数据的所述下一个状态的表示提供给所述第一神经网络;
根据所述第一神经网络确定用于所述下一个状态的最大或最小的已学习的动作值参数;
根据用于所述下一个状态的所述最大或最小的已学习的动作值参数,确定用于训练所述第二神经网络的目标值。
8.根据权利要求7所述的方法,其中,所述训练所述第二神经网络包括:将来自所述起始状态数据的所述起始状态的表示提供给所述第二神经网络,以及调节所述神经网络的权重,以使用于通过所述动作数据限定的动作的已学习的动作值参数更接近于所述目标值。
9.根据权利要求7所述的方法,其中,所述经验数据还包括限定由于采取的所述动作所致的所述系统的奖励值或成本值的奖励数据,并且其中所述确定所述目标值包括分别通过所述奖励值或所述成本值调节用于所述下一个状态的所述最大或最小的已学习的动作值参数。
10.根据权利要求1所述的方法,其中,所述系统的状态包括随着时间对所述系统的观察的序列,所述时间表示所述系统的历史。
11.根据权利要求2所述的方法,其中,所述训练所述第二神经网络与所述选择所述动作交替,并且包括递增地更新用于选择所述动作的所述第二神经网络的权重集合。
12.根据权利要求1所述的方法,其中,根据所述第二神经网络的所述第一神经网络的所述生成或更新在重复利用所述第二神经网络所述动作的所述选择以及所述第二神经网络的所述训练之后每隔一段时间被执行。
13.根据权利要求12所述的方法,其中,根据所述第二神经网络的所述第一神经网络的所述生成或更新包括:将所述第二神经网络的权重集合复制到所述第一神经网络。
15.根据权利要求1所述的方法,其中,所述状态通过图像数据来限定。
16.根据权利要求1所述的方法,其中,所述第一神经网络和第二神经网络包括有卷积神经网络输入阶段的深度神经网络。
17.一种非暂时性数据载体,承载实施权利要求1的方法的处理器控制代码。
18.一种Q学习的方法,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以在状态之间移动所述系统,其中第一神经网络用于生成用于目标的Q值,以用来训练用于选择所述动作的第二神经网络。
19.根据权利要求18所述的方法,其中,每隔一段时间所述第一神经网络根据所述第二神经网络被刷新。
20.根据权利要求19所述的方法,其中,所述第一神经网络的权重是准静态的,在所述刷新之间的间隔期间保持基本上不变。
21.根据权利要求18所述的方法,进一步包括:存储所述选择的动作和状态的记录,并利用所述记录来生成用于所述目标的所述Q值。
22.根据权利要求18所述的方法,其中,所述第一神经网络和第二神经网络是包括本地连接或稀少连接的前端神经网络部分的深度神经网络。
23.根据权利要求18所述的方法,其中,所述Q值包括动作值函数的值,所述动作值函数逼近包括限定的下一个动作的动作的策略的期望成本或回报。
24.一种非暂时性数据载体,承载实施权利要求18的方法的处理器控制代码。
25.一种被配置为执行强化学习的处理器,所述系统包括:
输入,所述输入用于接收来自系统的训练数据,所述系统具有多个状态,并且对于每个状态,所述系统具有从所述状态中的一个移动到下一个所述状态的动作集合;
其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成,并且包括起始状态数据、动作数据以及下一个状态数据,所述起始状态数据、动作数据以及下一个状态数据对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;
其中所述动作响应于用于在每个状态下可用的所述动作集合中的每个动作的动作值参数而被选择;
利用来自第二神经网络的已学习的动作值参数选择所述动作;以及
训练模块,所述训练模块用于利用所述训练数据以及从第一神经网络得出的目标值,训练第二神经网络;以及
神经网络生成模块,所述神经网络生成模块用于根据所述第二神经网络生成或更新所述第一神经网络。
26.根据权利要求25所述的数据处理器,进一步包括动作选择模块,所述动作选择模块用于响应于用于在所述系统的状态下可用的所述动作集合中的每个动作的动作值参数来选择所述动作,其中所述动作值参数由所述第二神经网络提供。
27.根据权利要求25所述的数据处理器,其中,所述神经网络生成模块被配置为将所述第二神经网络的权重集合复制到所述第一神经网络。
28.一种被配置为执行Q学习的数据处理器,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以在状态之间移动所述系统,所述数据处理器包括耦接到存储处理器控制代码的工作存储器以及非易失性程序存储器的处理器,其中所述处理器控制代码被配置为控制所述处理器:
利用第一神经网络来生成用于目标的Q值;
利用所述目标来训练第二神经网络;以及
利用所述第二神经网络来选择动作以控制所述系统。
29.一种通过强化学习训练的电子控制器,以控制具有多个状态的系统,并且对于每个状态,所述系统具有从所述状态中的一个移动到下一个所述状态的动作集合;所述电子控制器包括:
输入,所述输入用于接收来自所述系统的状态数据;
神经网络,所述神经网络具有耦接到所述输入的输入神经元集合、多个神经元的隐藏层、以及至少一个输出神经元,其中所述神经网络被训练为对于所述动作集合中的每个动作提供动作质量值,所述动作质量值限定从相应动作开始以移动到下一个状态的动作的策略的期望成本或奖励;
动作选择器,所述动作选择器被配置为响应于用于所述动作的所述动作质量值,从所述动作集合选择动作;以及
输出,所述输出用于输出限定用于控制所述系统的所述选择的动作的数据。
30.根据权利要求29所述的电子控制器,其中,所述神经网络的输入部分包括卷积神经网络。
31.根据权利要求29所述的电子控制器,其中,所述神经网络具有多个输出神经元,每个输出神经元被配置为提供用于所述可用动作集合中的动作的相应所述动作质量值。
32.根据权利要求31所述的电子控制器,其中,所述输出神经元分别耦接到所述动作选择器,以与所述动作选择器并行提供所述动作质量值。
33.一种在控制系统中学习的方法,对于主题系统的一系列状态,所述方法包括:
输入与主题系统的当前状态有关的当前状态数据;
将所述当前状态数据的版本提供给神经网络;
利用所述神经网络确定用于动作值函数集合的值,潜在动作集合中的一个或每个;
响应于所述动作值函数的所述值,选择所述动作;
将用于所述选择的动作的动作数据输出到所述主题系统,使得所述主题系统从所述当前状态转移为后续状态;
输入与所述主题系统的所述后续状态有关的后续状态数据以及与由于从所述当前状态到所述后续状态的所述转移所致的奖励或成本有关的奖励数据;
将经验数据存储在所述经验存储器中,所述经验数据表示所述当前状态、所述后续状态、所述选择的动作、以及所述奖励或成本;
根据所述存储的经验数据,确定用于所述神经网络的目标动作值函数输出;以及
利用所述目标动作值函数输出来更新所述神经网络的权重,其中所述更新包括递增地修改先前确定的所述神经网络的权重集合;
所述方法进一步包括:
存储所述神经网络的权重集合,以产生所述神经网络的两个版本,一个版本针对另一个版本时移,
其中用于选择所述动作的所述动作值函数集合的所述值的所述确定利用所述神经网络版本的后一个版本被执行,以及
其中所述目标动作值函数的所述确定利用所述神经网络版本的较早版本被进行。
34.根据权利要求33所述的方法,其中,所述状态数据包括数字化图像或波形数据。
35.根据权利要求33所述的方法,其中,所述目标动作值函数输出通过从所述经验存储器读取识别第一状态、动作、后续状态、以及奖励或成本值的数据而被确定;所述方法进一步包括:
利用所述神经网络,确定用于通过所述神经网络为所述后续状态推荐的动作的动作值函数的值;以及
根据用于通过所述神经网络为所述后续状态推荐的所述动作的所述动作值函数的所述值与所述奖励或成本值的组合,确定所述目标动作值函数输出。
36.一种控制系统,所述系统包括:
数据输入,所述数据输入用于接收传感器数据;
数据输出,所述数据输出用于提供动作控制数据;以及
深度神经网络,所述深度神经网络具有输入层和输出层,所述输入层耦接到所述数据输入;以及
动作选择器,所述动作选择器耦接到所述深度神经网络的所述输出层;
其中所述深度神经网络的所述输入层在一个或多个维度中限定传感器数据字段,
其中所述深度神经网络的所述输出层限定用于与所述控制系统进行控制的多个可能动作中的每个动作相关联的动作值函数的值;以及
动作选择器,所述动作选择器耦接到所述深度神经网络的所述输出层以及所述数据输出,以响应于所述动作值函数选择所述动作,并将对应的动作控制数据提供给所述数据输出。
CN201480055621.8A 2013-10-08 2014-10-07 用于强化学习的方法和设备 Active CN105637540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110797787.9A CN113705771A (zh) 2013-10-08 2014-10-07 用于强化学习的方法和设备

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361888247P 2013-10-08 2013-10-08
US61/888,247 2013-10-08
US14/097,862 US9679258B2 (en) 2013-10-08 2013-12-05 Methods and apparatus for reinforcement learning
US14/097,862 2013-12-05
PCT/US2014/059511 WO2015054264A1 (en) 2013-10-08 2014-10-07 Methods and apparatus for reinforcement learning

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110797787.9A Division CN113705771A (zh) 2013-10-08 2014-10-07 用于强化学习的方法和设备

Publications (2)

Publication Number Publication Date
CN105637540A true CN105637540A (zh) 2016-06-01
CN105637540B CN105637540B (zh) 2021-08-03

Family

ID=52777801

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110797787.9A Pending CN113705771A (zh) 2013-10-08 2014-10-07 用于强化学习的方法和设备
CN201480055621.8A Active CN105637540B (zh) 2013-10-08 2014-10-07 用于强化学习的方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110797787.9A Pending CN113705771A (zh) 2013-10-08 2014-10-07 用于强化学习的方法和设备

Country Status (4)

Country Link
US (3) US9679258B2 (zh)
EP (2) EP3055813B1 (zh)
CN (2) CN113705771A (zh)
WO (1) WO2015054264A1 (zh)

Cited By (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN106709449A (zh) * 2016-12-22 2017-05-24 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及系统
CN106874874A (zh) * 2017-02-16 2017-06-20 南方科技大学 一种运动状态的识别方法及装置
CN107391637A (zh) * 2017-07-10 2017-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 针对具备地理社交信息的群组推荐方法
CN107423813A (zh) * 2017-07-31 2017-12-01 南京晓庄学院 一种基于深度学习技术的状态空间分解和子目标创建方法
WO2018010434A1 (zh) * 2016-07-13 2018-01-18 华为技术有限公司 一种图像分类方法及装置
CN107680657A (zh) * 2016-08-01 2018-02-09 西门子保健有限责任公司 医学扫描仪自学优化临床协议和图像采集
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法
CN108108822A (zh) * 2018-01-16 2018-06-01 中国科学技术大学 并行训练的异策略深度强化学习方法
CN108229678A (zh) * 2017-10-24 2018-06-29 深圳市商汤科技有限公司 网络训练方法、操作控制方法、装置、存储介质和设备
CN108211362A (zh) * 2017-12-26 2018-06-29 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN108242046A (zh) * 2016-12-27 2018-07-03 阿里巴巴集团控股有限公司 图片处理方法及相关设备
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108563971A (zh) * 2018-04-26 2018-09-21 广西大学 基于深度q网络的rfid多阅读器防碰撞算法
CN108985920A (zh) * 2018-06-22 2018-12-11 阿里巴巴集团控股有限公司 套现识别方法和装置
CN109212975A (zh) * 2018-11-13 2019-01-15 北方工业大学 一种具有发育机制的感知行动认知学习方法
CN109242099A (zh) * 2018-08-07 2019-01-18 中国科学院深圳先进技术研究院 强化学习网络的训练方法、装置、训练设备及存储介质
CN109316748A (zh) * 2018-08-17 2019-02-12 深圳市金泽智联信息技术有限公司 一种游戏数值的设计方法、装置及终端设备
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
CN109352648A (zh) * 2018-10-12 2019-02-19 北京地平线机器人技术研发有限公司 机械机构的控制方法、装置和电子设备
CN109471963A (zh) * 2018-09-13 2019-03-15 广州丰石科技有限公司 一种基于深度强化学习的推荐算法
CN109636432A (zh) * 2018-09-28 2019-04-16 阿里巴巴集团控股有限公司 计算机执行的项目选择方法和装置
CN109621431A (zh) * 2018-11-30 2019-04-16 网易(杭州)网络有限公司 一种游戏动作的处理方法和装置
CN109710915A (zh) * 2017-10-26 2019-05-03 华为技术有限公司 复述语句生成方法及装置
CN109726813A (zh) * 2017-10-27 2019-05-07 渊慧科技有限公司 任务的强化和模仿学习
CN109726808A (zh) * 2017-10-27 2019-05-07 腾讯科技(深圳)有限公司 神经网络训练方法和装置、存储介质及电子装置
CN109726811A (zh) * 2017-10-27 2019-05-07 谷歌有限责任公司 使用优先级队列训练神经网络
CN109731338A (zh) * 2019-03-01 2019-05-10 网易(杭州)网络有限公司 游戏中的人工智能训练方法及装置、存储介质及电子装置
CN109778941A (zh) * 2019-03-25 2019-05-21 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109847366A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 用于游戏的数据处理方法和装置
CN109858430A (zh) * 2019-01-28 2019-06-07 杭州电子科技大学 一种基于强化学习优化的多人姿态检测方法
CN109906132A (zh) * 2016-09-15 2019-06-18 谷歌有限责任公司 机器人操纵的深度强化学习
CN109923560A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 使用变分信息瓶颈来训练神经网络
CN109952582A (zh) * 2018-09-29 2019-06-28 区链通网络有限公司 一种强化学习模型的训练方法、节点、系统及存储介质
WO2019149949A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Distributed training using off-policy actor-critic reinforcement learning
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN110235148A (zh) * 2016-11-03 2019-09-13 渊慧科技有限公司 训练动作选择神经网络
CN110326004A (zh) * 2017-02-24 2019-10-11 谷歌有限责任公司 使用路径一致性学习训练策略神经网络
CN110314379A (zh) * 2018-03-29 2019-10-11 腾讯科技(深圳)有限公司 动作输出深度训练模型的学习方法及相关设备
CN110447041A (zh) * 2017-05-20 2019-11-12 渊慧科技有限公司 噪声神经网络层
CN110476172A (zh) * 2017-07-21 2019-11-19 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN110516389A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 行为控制策略的学习方法、装置、设备及存储介质
CN110520871A (zh) * 2017-02-24 2019-11-29 渊慧科技有限公司 训练机器学习模型
CN110574048A (zh) * 2017-06-09 2019-12-13 渊慧科技有限公司 训练动作选择神经网络
CN110598504A (zh) * 2018-06-12 2019-12-20 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质
CN110622174A (zh) * 2017-05-19 2019-12-27 渊慧科技有限公司 基于想象的智能体神经网络
CN110651279A (zh) * 2017-06-28 2020-01-03 渊慧科技有限公司 利用学徒来训练动作选择神经网络
CN110732137A (zh) * 2018-07-19 2020-01-31 国际商业机器公司 对深度学习网络的注意力的持续控制
WO2020029095A1 (zh) * 2018-08-07 2020-02-13 中国科学院深圳先进技术研究院 强化学习网络的训练方法、装置、训练设备及存储介质
CN110888798A (zh) * 2019-10-14 2020-03-17 西安理工大学 一种基于图卷积神经网络对软件缺陷预测方法
CN110998585A (zh) * 2017-06-22 2020-04-10 株式会社半导体能源研究所 布局设计系统及布局设计方法
CN111033535A (zh) * 2018-06-05 2020-04-17 北京嘀嘀无限科技发展有限公司 用于乘车订单调度的系统和方法
CN111026272A (zh) * 2019-12-09 2020-04-17 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111046338A (zh) * 2018-10-11 2020-04-21 国际商业机器公司 使用复值矢量自回归的多步提前预测
CN111111200A (zh) * 2019-12-23 2020-05-08 北京像素软件科技股份有限公司 战斗策略生成方法及装置
CN111316295A (zh) * 2017-10-27 2020-06-19 渊慧科技有限公司 使用分布式优先化回放的强化学习
CN111368930A (zh) * 2020-03-09 2020-07-03 成都理工大学 基于多类谱图融合与分级学习的雷达人体姿态识别方法及系统
CN111433689A (zh) * 2017-11-01 2020-07-17 卡里尔斯公司 用于目标系统的控制系统的生成
CN111492382A (zh) * 2017-11-20 2020-08-04 皇家飞利浦有限公司 训练第一神经网络模型和第二神经网络模型
CN111542836A (zh) * 2017-10-04 2020-08-14 华为技术有限公司 一种使用神经网络为对象选择动作的方法
CN111587578A (zh) * 2017-12-05 2020-08-25 三星电子株式会社 显示装置和音频输出方法
CN111602148A (zh) * 2018-02-02 2020-08-28 谷歌有限责任公司 正则化神经网络架构搜索
CN111753855A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及介质
CN111746728A (zh) * 2020-06-17 2020-10-09 重庆大学 一种基于强化学习的新型水上清洁机器人及控制方法
CN111859099A (zh) * 2019-12-05 2020-10-30 马上消费金融股份有限公司 基于强化学习的推荐方法、装置、终端以及存储介质
CN111971691A (zh) * 2018-04-12 2020-11-20 渊慧科技有限公司 表示物理系统的图神经网络
CN112106073A (zh) * 2018-05-09 2020-12-18 渊慧科技有限公司 使用网格代码执行导航任务
CN112154461A (zh) * 2018-05-18 2020-12-29 渊慧科技有限公司 用于多代理环境中的行为预测和强化学习的图神经网络系统
CN112204580A (zh) * 2018-03-27 2021-01-08 诺基亚通信公司 使用深度q网络促进资源配对的方法和装置
CN112292693A (zh) * 2018-05-18 2021-01-29 渊慧科技有限公司 强化学习系统训练返回函数的元梯度更新
CN112313044A (zh) * 2018-06-15 2021-02-02 谷歌有限责任公司 用于机器人操纵的深度强化学习
CN112334914A (zh) * 2018-09-27 2021-02-05 渊慧科技有限公司 使用生成式前导神经网络的模仿学习
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112699990A (zh) * 2019-10-22 2021-04-23 杭州海康威视数字技术股份有限公司 神经网络模型训练方法、装置及电子设备
CN112703682A (zh) * 2018-09-13 2021-04-23 诺基亚通信公司 用于使用机器学习来设计波束网格的装置和方法
CN112840359A (zh) * 2018-10-12 2021-05-25 渊慧科技有限公司 通过使用时间值传递在长时间尺度上控制代理
WO2021102679A1 (en) * 2019-11-26 2021-06-03 Baidu.Com Times Technology (Beijing) Co., Ltd. Rank selection in tensor decomposition based on reinforcement learning for deep neural networks
CN113189879A (zh) * 2021-05-10 2021-07-30 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备
CN113392968A (zh) * 2020-03-13 2021-09-14 辉达公司 针对神经网络的迭代式小样本精细化的微训练
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN114009380A (zh) * 2021-10-25 2022-02-08 湖北清江鲟鱼谷特种渔业有限公司 一种基于神经网络模型的鲟鱼孵化方法及系统
CN114386599A (zh) * 2022-01-11 2022-04-22 北京百度网讯科技有限公司 训练轨迹预测模型和轨迹规划的方法和装置
US11636427B2 (en) 2018-05-25 2023-04-25 Beijing Jingdong Qianshi Technology Co., Ltd. Method and apparatus for carrying shelf
US12008467B2 (en) 2019-07-01 2024-06-11 Baidu Usa Llc Asymmetric quantization for compression and for acceleration of inference for neural networks
US12033068B2 (en) 2018-06-22 2024-07-09 Advanced New Technologies Co., Ltd. Method and device for cash advance recognition

Families Citing this family (234)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120207620A1 (en) 2007-07-12 2012-08-16 Odyne Systems, LLC. Hybrid vehicle drive system and method and idle reduction system and method
US8978798B2 (en) 2007-10-12 2015-03-17 Odyne Systems, Llc Hybrid vehicle drive system and method and idle reduction system and method
US8408341B2 (en) 2007-07-12 2013-04-02 Odyne Systems, Llc Hybrid vehicle drive system and method and idle reduction system and method
US11225240B2 (en) * 2011-12-02 2022-01-18 Power Technology Holdings, Llc Hybrid vehicle drive system and method for fuel reduction during idle
US9537706B2 (en) 2012-08-20 2017-01-03 Plentyoffish Media Ulc Apparatus, method and article to facilitate matching of clients in a networked environment
US11568008B2 (en) 2013-03-13 2023-01-31 Plentyoffish Media Ulc Apparatus, method and article to identify discrepancies between clients and in response prompt clients in a networked environment
US9672289B1 (en) 2013-07-23 2017-06-06 Plentyoffish Media Ulc Apparatus, method and article to facilitate matching of clients in a networked environment
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9401148B2 (en) 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US10558935B2 (en) 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US9858534B2 (en) 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US9953271B2 (en) * 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
US10152676B1 (en) * 2013-11-22 2018-12-11 Amazon Technologies, Inc. Distributed training of models using stochastic gradient descent
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
US9870465B1 (en) 2013-12-04 2018-01-16 Plentyoffish Media Ulc Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment
US10540607B1 (en) 2013-12-10 2020-01-21 Plentyoffish Media Ulc Apparatus, method and article to effect electronic message reply rate matching in a network environment
EP3848828A1 (en) * 2014-01-07 2021-07-14 Stephen L. Thaler Device and method for the autonomous bootstrapping of unified sentience
JP6132288B2 (ja) * 2014-03-14 2017-05-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、選択装置、生成方法、選択方法、及び、プログラム
JP6103540B2 (ja) * 2014-03-14 2017-03-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、情報処理方法、及び、プログラム
US10387795B1 (en) * 2014-04-02 2019-08-20 Plentyoffish Media Inc. Systems and methods for training and employing a machine learning system in providing service level upgrade offers
CN113255885A (zh) * 2014-04-11 2021-08-13 谷歌有限责任公司 使卷积神经网络的训练并行化
WO2015192246A1 (en) * 2014-06-19 2015-12-23 Bitlit Media Inc Method and system for identifying books on a bookshelf
US10275719B2 (en) 2015-01-29 2019-04-30 Qualcomm Incorporated Hyper-parameter selection for deep convolutional networks
US10445641B2 (en) 2015-02-06 2019-10-15 Deepmind Technologies Limited Distributed training of reinforcement learning systems
WO2016145516A1 (en) 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
EP3079106B1 (en) * 2015-04-06 2022-06-08 DeepMind Technologies Limited Selecting reinforcement learning actions using goals and observations
CN104780113B (zh) * 2015-04-29 2017-11-14 北京智芯原动科技有限公司 一种适用于大数据分发的Q‑learning拥塞控制方法
US10769531B2 (en) 2015-06-05 2020-09-08 Cisco Technology, Inc. Methods and systems for counting people
CN108027885B (zh) 2015-06-05 2022-07-01 渊慧科技有限公司 空间变换器模块
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US10452971B2 (en) * 2015-06-29 2019-10-22 Microsoft Technology Licensing, Llc Deep neural network partitioning on servers
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN106358308A (zh) * 2015-07-14 2017-01-25 北京化工大学 一种超密集网络中的强化学习的资源分配方法
TWI543616B (zh) * 2015-07-21 2016-07-21 原相科技股份有限公司 在數位域降低影像感測器之固定圖案雜訊的方法與裝置
MX2018000942A (es) * 2015-07-24 2018-08-09 Deepmind Tech Ltd Control continuo con aprendizaje de refuerzo profundo.
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
US20170061283A1 (en) * 2015-08-26 2017-03-02 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
KR102140672B1 (ko) * 2015-09-11 2020-08-03 구글 엘엘씨 트레이닝 증강 학습 신경 네트워크
EP3360083B1 (en) * 2015-11-12 2023-10-25 DeepMind Technologies Limited Dueling deep neural networks
US10936946B2 (en) 2015-11-12 2021-03-02 Deepmind Technologies Limited Asynchronous deep reinforcement learning
EP3360086A1 (en) 2015-11-12 2018-08-15 Deepmind Technologies Limited Training neural networks using a prioritized experience memory
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US9536191B1 (en) * 2015-11-25 2017-01-03 Osaro, Inc. Reinforcement learning using confidence scores
FR3044438A1 (fr) * 2015-11-27 2017-06-02 Thales Sa Systeme et procede d'aide a la decision
WO2017095948A1 (en) * 2015-11-30 2017-06-08 Pilot Ai Labs, Inc. Improved general object detection using neural networks
CN108604314B (zh) * 2015-12-01 2022-08-19 渊慧科技有限公司 使用强化学习选择动作名单
US11170293B2 (en) * 2015-12-30 2021-11-09 Microsoft Technology Licensing, Llc Multi-model controller
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN107506828B (zh) * 2016-01-20 2020-11-03 中科寒武纪科技股份有限公司 用于稀疏连接的人工神经网络计算装置和方法
US10013653B2 (en) * 2016-01-26 2018-07-03 Università della Svizzera italiana System and a method for learning features on geometric domains
US10210430B2 (en) * 2016-01-26 2019-02-19 Fabula Ai Limited System and a method for learning features on geometric domains
US10366451B2 (en) 2016-01-27 2019-07-30 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
US9760690B1 (en) * 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
US10909450B2 (en) * 2016-03-29 2021-02-02 Microsoft Technology Licensing, Llc Multiple-action computational model training and operation
KR102161902B1 (ko) * 2016-03-31 2020-10-05 후지쯔 가부시끼가이샤 신경망 모델에 대한 훈련 방법, 장치 및 전자 장치
WO2017177128A1 (en) * 2016-04-08 2017-10-12 The Trustees Of Columbia University In The City Of New York Systems and methods for deep reinforcement learning using a brain-artificial intelligence interface
CN105955921B (zh) * 2016-04-18 2019-03-26 苏州大学 基于自动发现抽象动作的机器人分层强化学习初始化方法
CN107315569B (zh) * 2016-04-27 2021-06-18 中科寒武纪科技股份有限公司 一种用于执行RMSprop梯度下降算法的装置及方法
CN111310904B (zh) * 2016-04-29 2024-03-08 中科寒武纪科技股份有限公司 一种用于执行卷积神经网络训练的装置和方法
US10338931B2 (en) 2016-04-29 2019-07-02 International Business Machines Corporation Approximate synchronization for parallel deep learning
US11210585B1 (en) * 2016-05-20 2021-12-28 Deepmind Technologies Limited Selecting reinforcement learning actions using a low-level controller
EP3459018B1 (en) * 2016-05-20 2021-10-20 Deepmind Technologies Limited Reinforcement learning using pseudo-counts
US11521056B2 (en) * 2016-06-17 2022-12-06 Graham Fyffe System and methods for intrinsic reward reinforcement learning
CN106204597B (zh) * 2016-07-13 2019-01-11 西北工业大学 一种基于自步式弱监督学习的视频物体分割方法
US10839310B2 (en) 2016-07-15 2020-11-17 Google Llc Selecting content items using reinforcement learning
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
JP6517762B2 (ja) * 2016-08-23 2019-05-22 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム
US10255910B2 (en) * 2016-09-16 2019-04-09 Apptek, Inc. Centered, left- and right-shifted deep neural networks and their combinations
US11341539B2 (en) * 2016-10-17 2022-05-24 Nice Ltd. Offer selection using sequential selection operations
EP3535702B1 (en) * 2016-11-04 2024-05-01 Google LLC Unsupervised detection of intermediate reinforcement learning goals
US10671908B2 (en) 2016-11-23 2020-06-02 Microsoft Technology Licensing, Llc Differential recurrent neural network
US11475310B1 (en) * 2016-11-29 2022-10-18 Perceive Corporation Training network to minimize worst-case error
WO2018098797A1 (zh) * 2016-12-02 2018-06-07 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
US11429854B2 (en) * 2016-12-04 2022-08-30 Technion Research & Development Foundation Limited Method and device for a computerized mechanical device
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10891534B2 (en) 2017-01-11 2021-01-12 International Business Machines Corporation Neural network reinforcement learning
DE112017006530T5 (de) * 2017-01-24 2019-09-26 Ford Global Technologies, Llc Rückmeldung für ein autonomes fahrzeug
KR101932835B1 (ko) * 2017-02-01 2019-03-20 성균관대학교산학협력단 행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체
JP6817456B2 (ja) * 2017-02-24 2021-01-20 ディープマインド テクノロジーズ リミテッド ニューラルエピソード制御
CN109154948B (zh) 2017-03-01 2023-04-25 微软技术许可有限责任公司 用于提供内容的方法和装置
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
EP3379463A1 (en) * 2017-03-24 2018-09-26 Crowdbanker A/S Training of a learning-capable system
US10559215B2 (en) 2017-04-26 2020-02-11 International Business Machines Corporation Education reward system and method
US11417235B2 (en) * 2017-05-25 2022-08-16 Baidu Usa Llc Listen, interact, and talk: learning to speak via interaction
US10713816B2 (en) * 2017-07-14 2020-07-14 Microsoft Technology Licensing, Llc Fully convolutional color constancy with confidence weighted pooling
CN107403049B (zh) * 2017-07-31 2019-03-19 山东师范大学 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统
US10781910B2 (en) 2017-08-03 2020-09-22 Power Technology Holdings Llc PTO lubrication system for hybrid vehicles
US11182676B2 (en) 2017-08-04 2021-11-23 International Business Machines Corporation Cooperative neural network deep reinforcement learning with partial input assistance
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN108229647A (zh) 2017-08-18 2018-06-29 北京市商汤科技开发有限公司 神经网络结构的生成方法和装置、电子设备、存储介质
US10881463B2 (en) * 2017-08-30 2021-01-05 International Business Machines Corporation Optimizing patient treatment recommendations using reinforcement learning combined with recurrent neural network patient state simulation
WO2019050908A1 (en) * 2017-09-08 2019-03-14 Didi Research America, Llc SYSTEM AND METHOD FOR DISTRIBUTING TRAVEL ORDER
US10762424B2 (en) 2017-09-11 2020-09-01 Sas Institute Inc. Methods and systems for reinforcement learning
US10223601B1 (en) 2017-10-12 2019-03-05 Denso International America, Inc. Synthetic traffic object generator
US10866588B2 (en) 2017-10-16 2020-12-15 Toyota Research Institute, Inc. System and method for leveraging end-to-end driving models for improving driving task modules
CN107911299B (zh) * 2017-10-24 2020-12-29 浙江工商大学 一种基于深度q学习的路由规划方法
US11604941B1 (en) * 2017-10-27 2023-03-14 Deepmind Technologies Limited Training action-selection neural networks from demonstrations using multiple losses
US11429890B2 (en) 2017-10-30 2022-08-30 Bank Of America Corporation Dynamic pattern recognition and data reconciliation
DE102017219441A1 (de) * 2017-10-30 2019-05-02 Robert Bosch Gmbh Verfahren zum Trainieren eines zentralen Künstlichen-Intelligenz-Moduls
CN107948083B (zh) * 2017-11-07 2021-03-30 浙江工商大学 一种基于增强学习的sdn数据中心拥塞控制方法
EP3486675B1 (en) * 2017-11-21 2020-02-19 Siemens Healthcare GmbH Automatic failure detection in medical devices
US11409576B2 (en) 2017-12-29 2022-08-09 Entefy Inc. Dynamic distribution of a workload processing pipeline on a computing infrastructure
US11328210B2 (en) 2017-12-29 2022-05-10 Micron Technology, Inc. Self-learning in distributed architecture for enhancing artificial neural network
EP3738353A1 (en) * 2018-01-12 2020-11-18 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for roaming between wireless communications networks
US11688160B2 (en) * 2018-01-17 2023-06-27 Huawei Technologies Co., Ltd. Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
US11568236B2 (en) 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement
US20190244062A1 (en) * 2018-02-04 2019-08-08 KaiKuTek Inc. Gesture recognition method, gesture recognition system, and performing device therefore
US11106211B2 (en) 2018-04-02 2021-08-31 Sony Group Corporation Vision-based sample-efficient reinforcement learning framework for autonomous driving
US20190311042A1 (en) * 2018-04-04 2019-10-10 Didi Research America, Llc Intelligent incentive distribution
CN108537379B (zh) * 2018-04-04 2021-11-16 北京科东电力控制系统有限责任公司 自适应变权重组合负荷预测方法及装置
EP3775821A1 (en) 2018-04-11 2021-02-17 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US11074829B2 (en) 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN110390845A (zh) * 2018-04-18 2019-10-29 北京京东尚科信息技术有限公司 虚拟环境下机器人训练方法及装置、存储介质及计算机系统
US10522038B2 (en) 2018-04-19 2019-12-31 Micron Technology, Inc. Systems and methods for automatically warning nearby vehicles of potential hazards
US11614978B2 (en) * 2018-04-24 2023-03-28 EMC IP Holding Company LLC Deep reinforcement learning for workflow optimization using provenance-based simulation
US11480971B2 (en) * 2018-05-01 2022-10-25 Honda Motor Co., Ltd. Systems and methods for generating instructions for navigating intersections with autonomous vehicles
CN112424797B (zh) * 2018-05-17 2024-07-12 弗劳恩霍夫应用研究促进协会 神经网络的分布式学习和/或其参数化更新的传输的概念
CN108671546A (zh) * 2018-05-23 2018-10-19 腾讯科技(深圳)有限公司 目标操作的确定方法和装置、存储介质及电子装置
CN108830370B (zh) * 2018-05-24 2020-11-10 东北大学 基于增强学习型菌群觅食算法的特征选择方法
US20210125039A1 (en) * 2018-06-11 2021-04-29 Nec Solution Innovators, Ltd. Action learning device, action learning method, action learning system, program, and storage medium
US11397888B2 (en) 2018-06-14 2022-07-26 Accenture Global Solutions Limited Virtual agent with a dialogue management system and method of training a dialogue management system
US10679613B2 (en) 2018-06-14 2020-06-09 Accenture Global Solutions Limited Spoken language understanding system and method using recurrent neural networks
CN112313043B (zh) * 2018-06-15 2024-04-02 谷歌有限责任公司 自我监督的机器人对象交互
US11403521B2 (en) 2018-06-22 2022-08-02 Insilico Medicine Ip Limited Mutual information adversarial autoencoder
US10951875B2 (en) 2018-07-03 2021-03-16 Raxium, Inc. Display processing circuitry
CN109063823B (zh) * 2018-07-24 2022-06-07 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
US10733510B2 (en) 2018-08-24 2020-08-04 Ford Global Technologies, Llc Vehicle adaptive learning
US10963313B2 (en) * 2018-08-27 2021-03-30 Vmware, Inc. Automated reinforcement-learning-based application manager that learns and improves a reward function
US11080623B2 (en) * 2018-08-27 2021-08-03 Vmware, Inc. Automated reinforcement-learning-based application manager that uses action tags and metric tags
US10970649B2 (en) * 2018-08-27 2021-04-06 Vmware, Inc. Automated reinforcement-learning-based application manager that uses local agents
US11396804B2 (en) * 2018-08-30 2022-07-26 Landmark Graphics Corporation Automated rate of penetration optimization for drilling
US11263550B2 (en) * 2018-09-09 2022-03-01 International Business Machines Corporation Audit machine learning models against bias
CN110888401B (zh) * 2018-09-11 2022-09-06 京东科技控股股份有限公司 火力发电机组燃烧控制优化方法、装置及可读存储介质
WO2020069048A1 (en) * 2018-09-25 2020-04-02 Archuleta Michelle Reinforcement learning approach to modify sentence reading grade level
CN109334713B (zh) * 2018-10-17 2020-08-04 重庆交通大学 一种铁路自动闭塞信号机布置的方法
US20200122039A1 (en) * 2018-10-22 2020-04-23 Unity IPR ApS Method and system for a behavior generator using deep learning and an auto planner
KR20200062887A (ko) * 2018-11-27 2020-06-04 한국전자통신연구원 강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법
JP2020095586A (ja) * 2018-12-14 2020-06-18 富士通株式会社 強化学習方法、および強化学習プログラム
US11120303B2 (en) * 2018-12-17 2021-09-14 King Fahd University Of Petroleum And Minerals Enhanced deep reinforcement learning deep q-network models
CN109407676B (zh) * 2018-12-20 2019-08-02 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的机器人避障方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
US11928556B2 (en) * 2018-12-29 2024-03-12 International Business Machines Corporation Removing unnecessary history from reinforcement learning state
KR102209917B1 (ko) * 2018-12-31 2021-01-29 아주대학교산학협력단 심층 강화 학습을 위한 데이터 처리 장치 및 방법
US11281971B2 (en) * 2019-01-30 2022-03-22 James David Busch Devices, systems, and methods that observe and classify real-world activity relating to an observed object, and track and disseminate state relating the observed object
US11373466B2 (en) 2019-01-31 2022-06-28 Micron Technology, Inc. Data recorders of autonomous vehicles
US11410475B2 (en) 2019-01-31 2022-08-09 Micron Technology, Inc. Autonomous vehicle data recorders
CN109977998B (zh) * 2019-02-14 2022-05-03 网易(杭州)网络有限公司 信息处理方法及装置、存储介质和电子装置
CN109902820B (zh) * 2019-02-20 2023-04-07 腾讯科技(深圳)有限公司 Ai模型训练方法、装置、存储介质及设备
US11393341B2 (en) * 2019-02-26 2022-07-19 Beijing Didi Infinity Technology And Development Co., Ltd. Joint order dispatching and fleet management for online ride-sharing platforms
EP3938717A4 (en) 2019-03-15 2022-12-21 3M Innovative Properties Company CONTROL OF A MANUFACTURING PROCESS USING CAUSED MODELS
CN110069064B (zh) * 2019-03-19 2021-01-29 驭势科技(北京)有限公司 一种自动驾驶系统升级的方法、自动驾驶系统及车载设备
CN113574547B (zh) * 2019-03-20 2024-01-19 索尼集团公司 通过双演员评论家算法进行强化学习
KR102096301B1 (ko) * 2019-04-03 2020-04-02 (주)뤼이드 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램
US11095528B2 (en) 2019-05-09 2021-08-17 International Business Machines Corporation Identity network onboarding based on confidence scores
JP7145813B2 (ja) * 2019-05-20 2022-10-03 ヤフー株式会社 学習装置、学習方法及び学習プログラム
US11410558B2 (en) 2019-05-21 2022-08-09 International Business Machines Corporation Traffic control with reinforcement learning
US11526729B2 (en) 2019-05-22 2022-12-13 International Business Machines Corporation Discovering higher-level actions from expert's action demonstration
US11106738B2 (en) 2019-05-22 2021-08-31 International Business Machines Corporation Real-time tree search with pessimistic survivability trees
US11150670B2 (en) 2019-05-28 2021-10-19 The Boeing Company Autonomous behavior generation for aircraft
US11488024B1 (en) * 2019-05-29 2022-11-01 Ball Aerospace & Technologies Corp. Methods and systems for implementing deep reinforcement module networks for autonomous systems control
CN110125939B (zh) * 2019-06-03 2020-10-20 湖南工学院 一种机器人虚拟可视化控制的方法
EP3977783B1 (en) 2019-06-03 2023-07-26 Nokia Solutions and Networks Oy Uplink power control using deep q-learning
WO2020256738A1 (en) 2019-06-21 2020-12-24 Schlumberger Technology Corporation Field development planning based on deep reinforcement learning
US11983609B2 (en) * 2019-07-10 2024-05-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation
DE102019210372A1 (de) * 2019-07-12 2021-01-14 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zum Erstellen einer Strategie für einen Roboter
KR20210012730A (ko) 2019-07-26 2021-02-03 삼성전자주식회사 인공지능 모델의 학습 방법 및 전자 장치
US11720792B2 (en) * 2019-07-31 2023-08-08 Royal Bank Of Canada Devices and methods for reinforcement learning visualization using immersive environments
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11392796B2 (en) 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
EP3786736A1 (en) 2019-08-28 2021-03-03 Bystronic Laser AG Control for a laser cutting head movement in a cutting process
US11571809B1 (en) * 2019-09-15 2023-02-07 X Development Llc Robotic control using value distributions
US20210086089A1 (en) * 2019-09-25 2021-03-25 Nvidia Corporation Player analysis using one or more neural networks
EP4014161A1 (en) * 2019-09-25 2022-06-22 DeepMind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
JP7231049B2 (ja) * 2019-09-30 2023-03-01 日本電気株式会社 システム、方法及び制御装置
US11922316B2 (en) * 2019-10-15 2024-03-05 Lg Electronics Inc. Training a neural network using periodic sampling over model weights
CN110837858B (zh) * 2019-11-01 2023-08-04 腾讯科技(深圳)有限公司 网络模型训练方法、装置、计算机设备及存储介质
US20210133376A1 (en) * 2019-11-04 2021-05-06 Global Energy Interconnection Research Institute Co. Ltd Systems and methods of parameter calibration for dynamic models of electric power systems
US11366599B2 (en) 2019-11-11 2022-06-21 Samsung Electronics Co., Ltd. Storage device and operating method thereof
KR102173579B1 (ko) * 2019-12-02 2020-11-03 한국기술교육대학교 산학협력단 연합강화학습을 통한 다중 디바이스 제어 시스템 및 그 방법
TWI700649B (zh) * 2019-12-12 2020-08-01 中華電信股份有限公司 基於深度強化學習之無線通訊網路波束選擇方法
CN111047917B (zh) * 2019-12-18 2021-01-15 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN111142522B (zh) * 2019-12-25 2023-06-09 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111240344B (zh) * 2020-02-11 2023-04-07 哈尔滨工程大学 基于强化学习技术的自主水下机器人无模型控制方法
KR102498066B1 (ko) * 2020-02-20 2023-02-10 한국과학기술원 딥러닝 강화학습 가속기
US11128498B2 (en) 2020-02-25 2021-09-21 Nokia Solutions And Networks Oy Communication-channel tracking aided by reinforcement learning
CN111476020B (zh) * 2020-03-09 2023-07-25 天津科技大学 一种基于元强化学习的文本生成方法
CN111460650B (zh) * 2020-03-31 2022-11-01 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
US10853563B1 (en) * 2020-04-22 2020-12-01 Moveworks, Inc. Method and system for configuring form filling application to minimize form filling effort
CN111600851B (zh) * 2020-04-27 2022-03-08 浙江工业大学 面向深度强化学习模型的特征过滤防御方法
EP3920103A1 (en) * 2020-06-05 2021-12-08 Robert Bosch GmbH Device and method for planning an operation of a technical system
EP4162339A4 (en) 2020-06-05 2024-06-26 Gatik AI Inc. METHOD AND SYSTEM FOR DATA-DRIVEN AND MODULAR DECISION-MAKING AND TRAJECTORY GENERATION OF AN AUTONOMOUS AGENT
JP2023528077A (ja) 2020-06-05 2023-07-03 ガティック エーアイ インコーポレイテッド 自律エージェントのコンテキスト認識型意思決定を行うための方法およびシステム
JP2023528078A (ja) 2020-06-05 2023-07-03 ガティック エーアイ インコーポレイテッド 自律エージェントの不確実性推定に基づく決定論的軌道選択のための方法およびシステム
DE112021000286T5 (de) * 2020-06-10 2022-11-03 Nvidia Corporation Verhaltensmodellierung unter verwendung von client-gehosteten neuronalen netzen
US20210397940A1 (en) * 2020-06-10 2021-12-23 Nvidia Corporation Behavior modeling using client-hosted neural networks
US20210406689A1 (en) * 2020-06-29 2021-12-30 International Business Machines Corporation Random Action Replay for Reinforcement Learning
CN111783250A (zh) * 2020-07-03 2020-10-16 上海航天控制技术研究所 柔性机器人末端抵达控制方法、电子设备和存储介质
US11461162B2 (en) 2020-07-06 2022-10-04 Ringcentral, Inc. Maze-driven self-diagnostics using reinforcement learning
US20220187084A1 (en) * 2020-07-10 2022-06-16 Beijing Didi Infinity Technology And Development Co., Ltd. Vehicle repositioning on mobility-on-demand platforms
US20220035640A1 (en) * 2020-07-28 2022-02-03 Electronic Arts Inc. Trainable agent for traversing user interface
DE102020209685B4 (de) 2020-07-31 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
CN112101729B (zh) * 2020-08-18 2023-07-21 华南理工大学 一种基于深度双q学习的移动边缘计算系统能源分配方法
US20220101064A1 (en) * 2020-09-29 2022-03-31 Sony Corporation Task prioritized experience replay algorithm for reinforcement learning
CN112532615B (zh) * 2020-11-26 2022-07-26 深圳供电局有限公司 一种智能电网蠕虫检测方法
US20220208373A1 (en) * 2020-12-31 2022-06-30 International Business Machines Corporation Inquiry recommendation for medical diagnosis
CN112717415B (zh) * 2021-01-22 2022-08-16 上海交通大学 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN112765892B (zh) * 2021-01-27 2023-09-26 东北大学 一种异构车联网中的智能切换判决方法
US11883746B2 (en) * 2021-02-23 2024-01-30 Electronic Arts Inc. Adversarial reinforcement learning for procedural content generation and improved generalization
CN113050565B (zh) * 2021-03-12 2022-05-20 北京航空航天大学杭州创新研究院 闸门控制方法和装置、电子设备及存储介质
KR102523056B1 (ko) * 2021-03-17 2023-04-17 고려대학교 산학협력단 멀티에이전트 강화학습을 활용한 드론 택시 시스템 및 이를 이용한 드론 택시 운용 방법
CN113095481B (zh) * 2021-04-03 2024-02-02 西北工业大学 一种基于并行自我博弈的空战机动方法
WO2022224036A2 (en) * 2021-04-20 2022-10-27 Shvartzman Yosef Computer-based system for interacting with a baby and methods of use thereof
CN113190542B (zh) * 2021-05-19 2023-02-24 西安图迹信息科技有限公司 一种电网用大数据清洗去噪方法、系统和计算机存储介质
KR102591226B1 (ko) 2021-05-26 2023-10-19 엔에이치엔클라우드 주식회사 딥러닝 기반 바둑 게임 서비스의 긴 축 방지 방법 및 그 장치
CN113395207B (zh) * 2021-06-15 2022-12-23 北京工业大学 一种sdn架构下基于深度强化学习的路由优化架构及方法
CN113393495B (zh) * 2021-06-21 2022-02-01 暨南大学 基于强化学习的高空抛物轨迹识别方法
CN113420806B (zh) * 2021-06-21 2023-02-03 西安电子科技大学 一种人脸检测质量评分方法及系统
US20230061206A1 (en) * 2021-08-25 2023-03-02 Royal Bank Of Canada Systems and methods for reinforcement learning with local state and reward data
CN113938415B (zh) * 2021-09-09 2022-08-02 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN113919217B (zh) * 2021-10-08 2024-05-17 南开大学 自抗扰控制器自适应参数整定方法及装置
CN113962268A (zh) * 2021-10-27 2022-01-21 合肥工业大学 一种基于网络架构搜索的人体运动意图识别方法
CN113992595B (zh) * 2021-11-15 2023-06-09 浙江工商大学 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法
CN113834200A (zh) * 2021-11-26 2021-12-24 深圳市愚公科技有限公司 基于强化学习模型的空气净化器调节方法及空气净化器
US20230182005A1 (en) * 2021-12-13 2023-06-15 Board Of Regents, The University Of Texas System Controlling multicomputer interaction with deep learning and artificial intelligence
WO2023133449A1 (en) * 2022-01-05 2023-07-13 Ohio State Innovation Foundation Automated systems for diagnosis and monitoring of stroke and related methods
CN114378791B (zh) * 2022-01-13 2023-09-01 中国科学技术大学 一种机器人任务执行方法、装置、设备及可读存储介质
CN114722998B (zh) * 2022-03-09 2024-02-02 三峡大学 一种基于cnn-ppo的兵棋推演智能体构建方法
WO2023212808A1 (en) * 2022-05-06 2023-11-09 Ai Redefined Inc. Systems and methods for managing interaction records between ai agents and human evaluators
CN115021325B (zh) * 2022-06-22 2024-03-29 合肥工业大学 基于ddpg算法的光伏逆变器多目标优化方法
AT526259A1 (de) 2022-06-23 2024-01-15 Avl List Gmbh Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells
CN117982899A (zh) * 2024-04-07 2024-05-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机、存储介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047224B1 (en) * 1998-09-23 2006-05-16 Siemens Aktiengesellschaft Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5197114A (en) * 1990-08-03 1993-03-23 E. I. Du Pont De Nemours & Co., Inc. Computer neural network regulatory process control system and method
US6665651B2 (en) * 2001-07-18 2003-12-16 Colorado State University Research Foundation Control system and technique employing reinforcement learning having stability and learning phases
US7831531B1 (en) * 2006-06-22 2010-11-09 Google Inc. Approximate hashing functions for finding similar content
US7892080B1 (en) * 2006-10-24 2011-02-22 Fredrik Andreas Dahl System and method for conducting a game including a computer-controlled player
DE102007001025B4 (de) * 2007-01-02 2008-11-20 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007042440B3 (de) * 2007-09-06 2009-01-29 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102010011221B4 (de) * 2010-03-12 2013-11-14 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
US9043254B2 (en) * 2010-04-12 2015-05-26 Siemens Aktiengesellschaft Method for computer-aided closed-loop and/or open-loop control of a technical system
US20130176146A1 (en) * 2010-06-15 2013-07-11 The Provost, Fellows And Scholars Of The College Of The Holy & Undivided Trinity Of Queen Elizabeth Decentralised Autonomic System and Method for Use in an Urban Traffic Control Environment
EP2585975B1 (en) * 2010-06-28 2018-03-21 Precitec GmbH & Co. KG A method for classifying a multitude of images recorded by a camera observing a processing area and laser material processing head using the same
US9818297B2 (en) * 2011-12-16 2017-11-14 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
DE102012206651A1 (de) * 2012-04-23 2013-10-24 Siemens Aktiengesellschaft Verfahren zur Regelung einer Turbine
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047224B1 (en) * 1998-09-23 2006-05-16 Siemens Aktiengesellschaft Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GABEL T,ET AL.: "Improved neural fitted Q iteration applied to a novel computer gaming and learning benchmark", <IEEE SYMPOSIUM ON ADAPTIVE DYNAMIC PROGRAMMING & REINFORCEMENT LEARNING> *
LANGE S,ET AL.: "Autonomous reinforcement learning on raw visual input data in a real world application", 《INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
LIN L J.: "Reinforcement learning for robots using neural networks", 《DISSERTATION》 *
M.F.STOLLENGA: "Using Guided Autoencoders on Face Recognition", 《UNIVERSITY OF GRONINGEN》 *
汪笑宇等: "图像控制策略的强化学习", 《福建电脑》 *
钟宇平等: "基于神经网络及强化学习的智能控制系统", 《西南大学学报(自然科学版)》 *

Cited By (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
WO2018010434A1 (zh) * 2016-07-13 2018-01-18 华为技术有限公司 一种图像分类方法及装置
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN106295637B (zh) * 2016-07-29 2019-05-03 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN107680657A (zh) * 2016-08-01 2018-02-09 西门子保健有限责任公司 医学扫描仪自学优化临床协议和图像采集
CN107680657B (zh) * 2016-08-01 2021-10-12 西门子保健有限责任公司 医学扫描仪自学优化临床协议和图像采集
US11897133B2 (en) 2016-09-15 2024-02-13 Google Llc Deep reinforcement learning for robotic manipulation
US11400587B2 (en) 2016-09-15 2022-08-02 Google Llc Deep reinforcement learning for robotic manipulation
CN109906132A (zh) * 2016-09-15 2019-06-18 谷歌有限责任公司 机器人操纵的深度强化学习
CN109906132B (zh) * 2016-09-15 2022-08-09 谷歌有限责任公司 机器人操纵的深度强化学习
CN110235148A (zh) * 2016-11-03 2019-09-13 渊慧科技有限公司 训练动作选择神经网络
CN110235148B (zh) * 2016-11-03 2024-03-19 渊慧科技有限公司 训练动作选择神经网络
US11681924B2 (en) 2016-11-04 2023-06-20 Google Llc Training neural networks using a variational information bottleneck
CN109923560A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 使用变分信息瓶颈来训练神经网络
CN110114783B (zh) * 2016-11-04 2023-07-18 渊慧科技有限公司 利用辅助任务的强化学习
US11842281B2 (en) 2016-11-04 2023-12-12 Deepmind Technologies Limited Reinforcement learning with auxiliary tasks
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN106709449B (zh) * 2016-12-22 2020-04-21 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及系统
CN106709449A (zh) * 2016-12-22 2017-05-24 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及系统
CN108242046B (zh) * 2016-12-27 2022-02-18 阿里巴巴集团控股有限公司 图片处理方法及相关设备
CN108242046A (zh) * 2016-12-27 2018-07-03 阿里巴巴集团控股有限公司 图片处理方法及相关设备
CN106874874A (zh) * 2017-02-16 2017-06-20 南方科技大学 一种运动状态的识别方法及装置
CN110520871A (zh) * 2017-02-24 2019-11-29 渊慧科技有限公司 训练机器学习模型
CN110520871B (zh) * 2017-02-24 2023-11-07 渊慧科技有限公司 使用学习进度测量训练机器学习模型
CN110326004A (zh) * 2017-02-24 2019-10-11 谷歌有限责任公司 使用路径一致性学习训练策略神经网络
CN110326004B (zh) * 2017-02-24 2023-06-30 谷歌有限责任公司 使用路径一致性学习训练策略神经网络
CN110622174A (zh) * 2017-05-19 2019-12-27 渊慧科技有限公司 基于想象的智能体神经网络
US11977983B2 (en) 2017-05-20 2024-05-07 Deepmind Technologies Limited Noisy neural network layers with noise parameters
CN110447041B (zh) * 2017-05-20 2023-05-30 渊慧科技有限公司 噪声神经网络层
CN110447041A (zh) * 2017-05-20 2019-11-12 渊慧科技有限公司 噪声神经网络层
CN110574048B (zh) * 2017-06-09 2023-07-07 渊慧科技有限公司 训练动作选择神经网络
CN110574048A (zh) * 2017-06-09 2019-12-13 渊慧科技有限公司 训练动作选择神经网络
CN110998585A (zh) * 2017-06-22 2020-04-10 株式会社半导体能源研究所 布局设计系统及布局设计方法
CN110998585B (zh) * 2017-06-22 2024-07-16 株式会社半导体能源研究所 布局设计系统及布局设计方法
CN110651279B (zh) * 2017-06-28 2023-11-07 渊慧科技有限公司 利用学徒来训练动作选择神经网络
CN110651279A (zh) * 2017-06-28 2020-01-03 渊慧科技有限公司 利用学徒来训练动作选择神经网络
CN107391637A (zh) * 2017-07-10 2017-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 针对具备地理社交信息的群组推荐方法
CN110476172A (zh) * 2017-07-21 2019-11-19 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN110476172B (zh) * 2017-07-21 2024-01-30 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN107423813A (zh) * 2017-07-31 2017-12-01 南京晓庄学院 一种基于深度学习技术的状态空间分解和子目标创建方法
CN111542836A (zh) * 2017-10-04 2020-08-14 华为技术有限公司 一种使用神经网络为对象选择动作的方法
CN111542836B (zh) * 2017-10-04 2024-05-17 华为技术有限公司 一种使用神经网络为对象选择动作的方法
CN108229678A (zh) * 2017-10-24 2018-06-29 深圳市商汤科技有限公司 网络训练方法、操作控制方法、装置、存储介质和设备
US11586814B2 (en) 2017-10-26 2023-02-21 Huawei Technologies Co., Ltd. Paraphrase sentence generation method and apparatus
CN109710915A (zh) * 2017-10-26 2019-05-03 华为技术有限公司 复述语句生成方法及装置
US11797839B2 (en) 2017-10-27 2023-10-24 Google Llc Training neural networks using priority queues
CN111316295A (zh) * 2017-10-27 2020-06-19 渊慧科技有限公司 使用分布式优先化回放的强化学习
US11625604B2 (en) 2017-10-27 2023-04-11 Deepmind Technologies Limited Reinforcement learning using distributed prioritized replay
CN109726813A (zh) * 2017-10-27 2019-05-07 渊慧科技有限公司 任务的强化和模仿学习
CN109726808A (zh) * 2017-10-27 2019-05-07 腾讯科技(深圳)有限公司 神经网络训练方法和装置、存储介质及电子装置
CN109726811A (zh) * 2017-10-27 2019-05-07 谷歌有限责任公司 使用优先级队列训练神经网络
CN109726808B (zh) * 2017-10-27 2022-12-09 腾讯科技(深圳)有限公司 神经网络训练方法和装置、存储介质及电子装置
CN111316295B (zh) * 2017-10-27 2023-09-22 渊慧科技有限公司 使用分布式优先化回放的强化学习
CN111433689A (zh) * 2017-11-01 2020-07-17 卡里尔斯公司 用于目标系统的控制系统的生成
CN111492382B (zh) * 2017-11-20 2024-05-07 皇家飞利浦有限公司 训练第一神经网络模型和第二神经网络模型
CN111492382A (zh) * 2017-11-20 2020-08-04 皇家飞利浦有限公司 训练第一神经网络模型和第二神经网络模型
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法
CN111587578B (zh) * 2017-12-05 2023-09-29 三星电子株式会社 显示装置和音频输出方法
CN111587578A (zh) * 2017-12-05 2020-08-25 三星电子株式会社 显示装置和音频输出方法
CN108211362B (zh) * 2017-12-26 2020-10-09 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN108211362A (zh) * 2017-12-26 2018-06-29 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN108108822A (zh) * 2018-01-16 2018-06-01 中国科学技术大学 并行训练的异策略深度强化学习方法
CN108108822B (zh) * 2018-01-16 2020-06-26 中国科学技术大学 并行训练的异策略深度强化学习方法
CN108288094B (zh) * 2018-01-31 2021-06-29 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN111602148A (zh) * 2018-02-02 2020-08-28 谷歌有限责任公司 正则化神经网络架构搜索
CN111602148B (zh) * 2018-02-02 2024-04-02 谷歌有限责任公司 正则化神经网络架构搜索
US11868894B2 (en) 2018-02-05 2024-01-09 Deepmind Technologies Limited Distributed training using actor-critic reinforcement learning with off-policy correction factors
EP3698291A1 (en) * 2018-02-05 2020-08-26 DeepMind Technologies Limited Distributed training using off-policy actor-critic reinforcement learning
WO2019149949A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Distributed training using off-policy actor-critic reinforcement learning
US11593646B2 (en) 2018-02-05 2023-02-28 Deepmind Technologies Limited Distributed training using actor-critic reinforcement learning with off-policy correction factors
CN111417964B (zh) * 2018-02-05 2024-04-19 渊慧科技有限公司 异策略行动者-评价者强化学习方法和系统
CN111417964A (zh) * 2018-02-05 2020-07-14 渊慧科技有限公司 使用异策略行动者-评价者强化学习进行分布式训练
CN112204580B (zh) * 2018-03-27 2024-04-12 诺基亚通信公司 使用深度q网络促进资源配对的方法和装置
CN112204580A (zh) * 2018-03-27 2021-01-08 诺基亚通信公司 使用深度q网络促进资源配对的方法和装置
CN110314379A (zh) * 2018-03-29 2019-10-11 腾讯科技(深圳)有限公司 动作输出深度训练模型的学习方法及相关设备
CN111971691A (zh) * 2018-04-12 2020-11-20 渊慧科技有限公司 表示物理系统的图神经网络
CN108563971A (zh) * 2018-04-26 2018-09-21 广西大学 基于深度q网络的rfid多阅读器防碰撞算法
CN112106073A (zh) * 2018-05-09 2020-12-18 渊慧科技有限公司 使用网格代码执行导航任务
CN112154461A (zh) * 2018-05-18 2020-12-29 渊慧科技有限公司 用于多代理环境中的行为预测和强化学习的图神经网络系统
CN112292693A (zh) * 2018-05-18 2021-01-29 渊慧科技有限公司 强化学习系统训练返回函数的元梯度更新
US11636427B2 (en) 2018-05-25 2023-04-25 Beijing Jingdong Qianshi Technology Co., Ltd. Method and apparatus for carrying shelf
CN111033535A (zh) * 2018-06-05 2020-04-17 北京嘀嘀无限科技发展有限公司 用于乘车订单调度的系统和方法
CN111033535B (zh) * 2018-06-05 2024-03-26 北京嘀嘀无限科技发展有限公司 用于乘车订单调度的系统和方法
CN110598504A (zh) * 2018-06-12 2019-12-20 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质
CN112313044A (zh) * 2018-06-15 2021-02-02 谷歌有限责任公司 用于机器人操纵的深度强化学习
CN108985920A (zh) * 2018-06-22 2018-12-11 阿里巴巴集团控股有限公司 套现识别方法和装置
US12033068B2 (en) 2018-06-22 2024-07-09 Advanced New Technologies Co., Ltd. Method and device for cash advance recognition
CN110732137A (zh) * 2018-07-19 2020-01-31 国际商业机器公司 对深度学习网络的注意力的持续控制
WO2020029095A1 (zh) * 2018-08-07 2020-02-13 中国科学院深圳先进技术研究院 强化学习网络的训练方法、装置、训练设备及存储介质
CN109242099B (zh) * 2018-08-07 2020-11-10 中国科学院深圳先进技术研究院 强化学习网络的训练方法、装置、训练设备及存储介质
CN109242099A (zh) * 2018-08-07 2019-01-18 中国科学院深圳先进技术研究院 强化学习网络的训练方法、装置、训练设备及存储介质
CN109316748A (zh) * 2018-08-17 2019-02-12 深圳市金泽智联信息技术有限公司 一种游戏数值的设计方法、装置及终端设备
CN112703682A (zh) * 2018-09-13 2021-04-23 诺基亚通信公司 用于使用机器学习来设计波束网格的装置和方法
CN109471963A (zh) * 2018-09-13 2019-03-15 广州丰石科技有限公司 一种基于深度强化学习的推荐算法
CN112334914A (zh) * 2018-09-27 2021-02-05 渊慧科技有限公司 使用生成式前导神经网络的模仿学习
CN109636432A (zh) * 2018-09-28 2019-04-16 阿里巴巴集团控股有限公司 计算机执行的项目选择方法和装置
CN109636432B (zh) * 2018-09-28 2023-05-30 创新先进技术有限公司 计算机执行的项目选择方法和装置
CN109952582B (zh) * 2018-09-29 2023-07-14 区链通网络有限公司 一种强化学习模型的训练方法、节点、系统及存储介质
CN109952582A (zh) * 2018-09-29 2019-06-28 区链通网络有限公司 一种强化学习模型的训练方法、节点、系统及存储介质
CN111046338B (zh) * 2018-10-11 2024-04-19 国际商业机器公司 使用复值矢量自回归的多步提前预测
CN111046338A (zh) * 2018-10-11 2020-04-21 国际商业机器公司 使用复值矢量自回归的多步提前预测
CN112840359A (zh) * 2018-10-12 2021-05-25 渊慧科技有限公司 通过使用时间值传递在长时间尺度上控制代理
CN109352648A (zh) * 2018-10-12 2019-02-19 北京地平线机器人技术研发有限公司 机械机构的控制方法、装置和电子设备
CN112840359B (zh) * 2018-10-12 2024-05-14 渊慧科技有限公司 通过使用时间值传递在长时间尺度上控制代理
CN109212975A (zh) * 2018-11-13 2019-01-15 北方工业大学 一种具有发育机制的感知行动认知学习方法
CN109621431B (zh) * 2018-11-30 2022-06-14 网易(杭州)网络有限公司 一种游戏动作的处理方法和装置
CN109621431A (zh) * 2018-11-30 2019-04-16 网易(杭州)网络有限公司 一种游戏动作的处理方法和装置
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109858430A (zh) * 2019-01-28 2019-06-07 杭州电子科技大学 一种基于强化学习优化的多人姿态检测方法
CN109847366A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 用于游戏的数据处理方法和装置
CN109731338B (zh) * 2019-03-01 2022-06-21 网易(杭州)网络有限公司 游戏中的人工智能训练方法及装置、存储介质及电子装置
CN109731338A (zh) * 2019-03-01 2019-05-10 网易(杭州)网络有限公司 游戏中的人工智能训练方法及装置、存储介质及电子装置
CN109778941A (zh) * 2019-03-25 2019-05-21 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
CN109778941B (zh) * 2019-03-25 2021-05-07 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
US12008467B2 (en) 2019-07-01 2024-06-11 Baidu Usa Llc Asymmetric quantization for compression and for acceleration of inference for neural networks
CN110516389A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 行为控制策略的学习方法、装置、设备及存储介质
CN110516389B (zh) * 2019-08-29 2021-04-13 腾讯科技(深圳)有限公司 行为控制策略的学习方法、装置、设备及存储介质
CN110888798B (zh) * 2019-10-14 2022-11-04 西安理工大学 一种基于图卷积神经网络对软件缺陷预测方法
CN110888798A (zh) * 2019-10-14 2020-03-17 西安理工大学 一种基于图卷积神经网络对软件缺陷预测方法
CN112699990B (zh) * 2019-10-22 2024-06-07 杭州海康威视数字技术股份有限公司 神经网络模型训练方法、装置及电子设备
CN112699990A (zh) * 2019-10-22 2021-04-23 杭州海康威视数字技术股份有限公司 神经网络模型训练方法、装置及电子设备
WO2021102679A1 (en) * 2019-11-26 2021-06-03 Baidu.Com Times Technology (Beijing) Co., Ltd. Rank selection in tensor decomposition based on reinforcement learning for deep neural networks
CN111859099A (zh) * 2019-12-05 2020-10-30 马上消费金融股份有限公司 基于强化学习的推荐方法、装置、终端以及存储介质
CN111859099B (zh) * 2019-12-05 2021-08-31 马上消费金融股份有限公司 基于强化学习的推荐方法、装置、终端以及存储介质
CN111026272B (zh) * 2019-12-09 2023-10-31 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111026272A (zh) * 2019-12-09 2020-04-17 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111111200A (zh) * 2019-12-23 2020-05-08 北京像素软件科技股份有限公司 战斗策略生成方法及装置
CN111111200B (zh) * 2019-12-23 2023-11-14 北京像素软件科技股份有限公司 战斗策略生成方法及装置
CN111368930B (zh) * 2020-03-09 2022-11-04 成都理工大学 基于多类谱图融合与分级学习的雷达人体姿态识别方法及系统
CN111368930A (zh) * 2020-03-09 2020-07-03 成都理工大学 基于多类谱图融合与分级学习的雷达人体姿态识别方法及系统
CN113392968A (zh) * 2020-03-13 2021-09-14 辉达公司 针对神经网络的迭代式小样本精细化的微训练
CN111746728A (zh) * 2020-06-17 2020-10-09 重庆大学 一种基于强化学习的新型水上清洁机器人及控制方法
CN111753855A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及介质
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN113189879B (zh) * 2021-05-10 2022-07-15 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备
CN113189879A (zh) * 2021-05-10 2021-07-30 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113420326A (zh) * 2021-06-08 2021-09-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN114009380A (zh) * 2021-10-25 2022-02-08 湖北清江鲟鱼谷特种渔业有限公司 一种基于神经网络模型的鲟鱼孵化方法及系统
CN114386599B (zh) * 2022-01-11 2023-01-31 北京百度网讯科技有限公司 训练轨迹预测模型和轨迹规划的方法和装置
CN114386599A (zh) * 2022-01-11 2022-04-22 北京百度网讯科技有限公司 训练轨迹预测模型和轨迹规划的方法和装置

Also Published As

Publication number Publication date
EP3055813B1 (en) 2020-05-06
EP3055813A1 (en) 2016-08-17
EP3761234A1 (en) 2021-01-06
US11049008B2 (en) 2021-06-29
CN113705771A (zh) 2021-11-26
US20210374538A1 (en) 2021-12-02
CN105637540B (zh) 2021-08-03
US20150100530A1 (en) 2015-04-09
US9679258B2 (en) 2017-06-13
WO2015054264A1 (en) 2015-04-16
US20170278018A1 (en) 2017-09-28

Similar Documents

Publication Publication Date Title
CN105637540A (zh) 用于强化学习的方法和设备
US11291917B2 (en) Artificial intelligence (AI) model training using cloud gaming network
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
Kaplanis et al. Continual reinforcement learning with complex synapses
JP7159458B2 (ja) 仮想環境における仮想対象のスケジューリング方法、装置、デバイス及びコンピュータプログラム
CN112232478B (zh) 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112329948B (zh) 一种多智能体策略预测方法及装置
CN109847366B (zh) 用于游戏的数据处理方法和装置
CN110383298A (zh) 用于连续控制任务的数据高效强化学习
CN112742028B (zh) 一种对抗博弈的编队决策方法、系统、介质及设备
Knegt et al. Opponent modelling in the game of Tron using reinforcement learning
Emigh et al. Reinforcement learning in video games using nearest neighbor interpolation and metric learning
CN113962390A (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
Ouessai et al. Online Adversarial Planning in μRTS: A Survey
CN113139644B (zh) 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
Andersson How does the performance of NEAT compare to Reinforcement Learning?
Guo Deep learning and reward design for reinforcement learning
CN115175750A (zh) 基于ai的游戏应用程序内容生成
Larsson Evaluation of pretraining methods for deep reinforcement learning
Gomez et al. Measuring and optimizing behavioral complexity for evolutionary reinforcement learning
CN113144605B (zh) 一种用户行为模拟方法、装置、电子设备及存储介质
Shou Learning to plan in large domains with deep neural networks
KR20100128181A (ko) 온라인 게임 시스템의 캐릭터 인공지능 서버 네트워크 구성

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20200302

Address after: England Atsushi

Applicant after: DEEPMIND TECHNOLOGIES Ltd.

Address before: California, USA

Applicant before: GOOGLE Inc.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant