CN108830376B - 针对时间敏感的环境的多价值网络深度强化学习方法 - Google Patents

针对时间敏感的环境的多价值网络深度强化学习方法 Download PDF

Info

Publication number
CN108830376B
CN108830376B CN201810616798.0A CN201810616798A CN108830376B CN 108830376 B CN108830376 B CN 108830376B CN 201810616798 A CN201810616798 A CN 201810616798A CN 108830376 B CN108830376 B CN 108830376B
Authority
CN
China
Prior art keywords
value
neural network
style
network model
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810616798.0A
Other languages
English (en)
Other versions
CN108830376A (zh
Inventor
孙广中
孙昊
秦宇泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810616798.0A priority Critical patent/CN108830376B/zh
Publication of CN108830376A publication Critical patent/CN108830376A/zh
Application granted granted Critical
Publication of CN108830376B publication Critical patent/CN108830376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0463Neocognitrons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种针对时间敏感的环境的多价值网络深度强化学习方法,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值。

Description

针对时间敏感的环境的多价值网络深度强化学习方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种针对时间敏感的环境的多价值网络深度强化学习方法。
背景技术
深度强化学习在许多方面都有着应用,比如机器人控制,游戏博弈等等。在一些场景下,深度强化学习程序需要对输入进行迅速反应,给出当前状态下需要采取的操作。以即时策略类游戏为例,当程序观测到环境后,需要在尽可能短的时间内做出决策,对游戏中的单位采取操作。
强化学习中主要为环境,智能体(agent)以及他们之间的交互。智能体进行感知,学习和决策。和智能体交互的所有其他的事物统称为环境。强化学习主要目标就是通过智能体和环境的过往交互过程学习出合适的策略。环境的状态用s表示。智能体采取策略f,在状态s下选取动作a作用于环境,策略f为状态s到动作a的映射,动作a表示为状态集合S中一个元素当前状态s到状态集合S中一个元素下一状态s’的映射。
环境和智能体交互过程为环境的状态s,智能体采取动作a作用于环境,环境在动作a作用下发生变化T,同时智能体也会得到一个奖赏值r。智能体与环境交互过程如图1所示,其过程如下:第一步:在时刻t下,环境状态为si。si为强化学习中智能体的输入,其中i表示环境的第i次输入智能体,用以标记序列顺序。第二步:智能体得到输入si后在ti+Δti时间输出动作ai,动作ai作用于环境。第三步:环境在t’=ti+t间隔时刻,将奖励值ri(ti+Δti)输入智能体。同时,环境将当前状态si+1输入智能体。强化学习主要通过最大化长期奖赏学习出策略。
一般情况下,需要声明值函数V(s)和状态-动作值函数Q(s,a)。值函数V(s)只是和状态s相关的函数,用来表示状态s下的价值,函数值为一个标量值。状态-动作值函数Q(s,a)表示在状态s下采取动作a的价值。值函数V(s)是状态-动作值函数Q(s,a)在所有动作a下的期望值,V(s)=Ea[Q(s,a)]。但是,实际情况下,一般这两个函数值都无法解析表达出来。在学习过程中,一般都是通过以往的数据近似表示出Q函数,然后在状态s下选取一个动作a使得Q函数的值达到最大。
深度强化学习在是强化学习中采用深度神经网络进行计算。深度Q网络(DQN,DeepQ Network)是深度强化学习中非常重要的方法。该方法是利用视觉图像信息作为输入,输出需要采取动作。它的核心的思想就是采用深度神经网络输出Q值,来代替传统方法的Q值表。
在目前已有的工作中,奖赏一般都是与前后状态相关。在以往V.Mnih等人的工作中,奖赏在好的状态下设为1,坏的状态下设为-1,在没有变化的状态设为0。按照这样简明直观的方式设计出的奖赏在其文中的环境中可以得到非常好的效果,但是在时间敏感的环境中,需要对奖赏添加包含时间的项,然而这样的方式由于没有考虑到时间的显式关联,因此无法适用于时间敏感的环境中。
发明内容
本发明的目的是提供一种针对时间敏感的环境的多价值网络深度强化学习方法,考虑了环境会随时间自动变化,可以根据状态调节给出响应的时间。
本发明的目的是通过以下技术方案实现的:
一种针对时间敏感的环境的多价值网络深度强化学习方法,包括:
感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;
决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;
学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。
由上述本发明提供的技术方案可以看出,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值,从而提升学习效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为背景技术提供的强化学习中智能体与环境交互的示意图;
图2为本发明实施例提供的一种针对时间敏感的环境的多价值网络深度强化学习方法的流程图;
图3为本发明实施例提供的多价值网络深度强化学习方法框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了解决面对环境发生随时间变化情况下,强化学习可以根据环境状态调节给出响应的时间并且调整使用的价值网络,本发明实施例提供一种针对时间敏感的环境的多价值网络深度强化学习方法,该方法考虑了环境会随时间自动变化,智能体获得的奖赏r是关于时间的函数r(t)。如图1所示,其主要包括:
感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;
决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;
学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。
本发明实施例中,所述感知过程、决策过程、学习过程分别由智能体中的感知器、决策机、学习器来实现;下面针对智能体内的三个部分做详细的介绍。
一、感知器。
感知器对环境输入进行处理,将处理之后的信息交个其余组件处理。在发明实施例中,感知器不会对输入数据进行计算,主要将各类别输入数据分别输入到各个组件。
在ti时刻,环境输入当前的状态si和环境在前一轮动作下的奖赏值ri-1(ti-1+Δti-1)。若ti为初始时刻,则环境只有输入状态,没有奖赏值。ti、ti-1为相邻两轮的开始时刻,Δti-1为前一轮所耗费的时间。
感知器将环境状态si输入决策机,将环境状态si和前一轮动作下的奖赏值ri-1(ti-1+Δti-1)输入学习器。
二、决策机。
所述决策机包括:模型选择单元、当前值网络组以及输出单元。
1、模型选择单元(输入单元)。
所述模型选择单元存储有本轮选择的神经网络模型的编号nn_stylei-1,该编号由输出单元在上一轮决策后传入,如果是首轮使用,则使用预设的神经网络模型(例如,可以默认为第一个神经网络模型,nn_style0=1)。
所述模型选择单元将感知器传入的状态输入神经网络模型组中对应编号的神经网络模型。
2、当前值网络组。
所述当前值网络组中包含了多个值网络。每一个值网络都是一个神经网络模型。每一神经网络模型的输入为当前环境状态,输出为一系列的Q值。
本发明实施例中,不同神经网络模型可以是不同的类型的,比如说可以使用CNN或者RNN。不同神经网络模型也可以是不同的结构的,比如说采用不同的神经网络层数。利用不同神经网络模型执行时间不同,得到对应的奖赏,用强化学习的方法学习出下一轮需要采取的神经网络模型。即,通过选择不同的a和nn_style(神经网络模型的编号)得到奖赏r,再由奖赏r来调整神经网络模型的参数,使神经网络模型更倾向于选择获得高奖赏r的对应a和nn_style。
每一个神经网络模型的输入均为环境状态。神经网络模型输出均为Q(a,nn_style)。由于模型选择单元的作用,在前一轮已选定第nn_stylei-1个神经网络模型进行运算和输出。
3、输出单元。
所述输出单元接收一系列的Q值,并选出使Q值最大的动作及对应的下一轮神经网络模型的序号,其中的动作由智能体执行,而下一轮神经网络模型的序号将输出到模型选择单元,使Q值最大的动作及对应的下一轮神经网络模型的序号将输出到学习器;如果第i轮使用第nn_stylei-1个神经网络模型进行计算,其计算耗时记为
Figure BDA0001694781890000051
则执行动作的时刻约等于当前时刻加计算耗时
Figure BDA0001694781890000052
一般来说,从当前时刻时刻ti感知器接收环境状态,到ti+Δti时刻决策机将动作a输出到环境,智能体总共消耗了Δti的时间。对于Δti
Figure BDA0001694781890000053
Figure BDA0001694781890000054
Δt感知、Δt模型选择单元、Δt输出单元对应与感知器、模型选择单元、输出单元所耗费的时间;通常
Figure BDA0001694781890000055
时间占有Δti绝大部分的时间,因此,为了计算的方便可以忽略Δt感知、Δt模型选择单元、Δt输出单元,即令
Figure BDA0001694781890000056
对于不同的神经网络模型,计算时间的长度不相同。
奖赏值与采取动作的时间(也即神经网络模型的计算耗时)相关。如果采用不同的神经网络模型计算,那么就会有不同的奖赏
Figure BDA0001694781890000057
通过强化学习的方法,我们可以用模型自动选择出下一时刻需要采取的神经网络模型,来达到获得最大的奖赏。
三、学习器
所述学习器包括:记忆回放单元、目标值网络以及DQN误差函数更新单元。学习器将之前的历史数据进行保留,从数据中训练出合适的模型,并将决策机中的模型进行更新。
1、记忆回放单元(样本池)。
所述记忆回放单元,接收环境反馈的当前环境状态与上一轮动作下的奖赏值,以及决策机传入的使Q值最大的动作及对应的下一轮神经网络模型的序号;然后,将接收到的数据进行整合,构成一系列的样本ei=(nn_stylei-1,si,ai,ri(t),nn_stylei,si+1);每个样本ei由6个元素构成。nn_stylei-1表示第i轮决策机的模型选择单元存储的神经网络模型的编号。si表示第i轮感知器获得的状态。ai、nn_stylei是第i轮中使Q值最大的(a,nn_style)对中的a,nn_style。ri(t),si+1是第i+1轮感知器分别获得的第i轮的奖赏值和第i+1轮的环境状态。最后,根据nn_stylei-1来筛选样本,在nn_stylei-1相同的样本中随机选取一定数量的样本;这样一批样本构成集合ε={em|nn_stylem-1均为nn_stylei-1}。将这些样本的sm+1输出到目标值网络;将rm(t)输出给DQN误差函数更新单元,将sm,am,nn_stylem输出到决策机,再将决策机输出的Q值输出到DQN误差函数更新单元。
2、目标值网络
所述目标值网络与决策机中的当前值网络组结构相同,目标值网络的内容是每间隔N步,由决策机中的神经网络模型拷贝而构成;N为自定义的参数。
所述目标值网络按照下式计算目标值Ym,并传输给DQN误差函数更新单元:
Figure BDA0001694781890000061
其中,rm(t),sm+1均来自于样本em,Q*为目标值网络,θ*为Q*网络的参数,a*,nn_style*为Q*网络的输出组合,γ为折扣因子。
3、DQN误差函数更新单元。
所述DQN误差函数更新单元,使用采用最小化均方目标值Ym和决策机输出的Q值的误差函数Lm
Lm=E[(Ym-Q(sm,am,nn_stylem|θ))2];
其中,sm,am,nn_stylem均来自于样本em,Q为当前值网络,θ为Q网络的参数,E表示期望。
对于第nn_stylem-1个神经网络模型,网络模型更新计算方式如下所示:
Figure BDA0001694781890000062
其中,
Figure BDA0001694781890000063
为梯度算子,
Figure BDA0001694781890000064
表示误差函数Lm对网络参数θ的梯度。DQN误差函数更新单元按照上面的公式更新决策机中的神经网络模型。其中当前的Q值由决策机传入,智能体每进行一步,DQN误差函数都会更新决策机中对应的神经网络模型。
上述多价值网络深度强化学习方法框架图可以参见图3。
本发明实施例上述方案,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值,从而提升学习效率。
为了便于理解,下面结合一个具体的示例来进行说明。
本示例中以一个环境随时间变化的例子以演示本方法的使用。
一、环境介绍
在一个M*M的网格中,格点分为两类。一类为可以访问(道路),另一类不可以访问(围墙)。可以访问的格点分为三种:一种是希望尽可能去访问且尽早进行访问(奖励点),一种是希望不去访问(陷阱),一类种无关的格点(普通道路)。
智能体初始在网格中某一点,需要在截止时间前到达终点。这里设置在截止时间前到达奖赏为100,未到达为-10000。
智能体在网格中只能向上下左右的四个格点移动。智能体在每一个时间间隔中只能移动一步,目前设置时间间隔长度为1秒。在这个环境中,智能体移动到一个格点上时,会获得到达该格点的奖赏。在奖励点格点p(x,y),其坐标为(x,y),获得奖赏数值
Figure BDA0001694781890000071
其中r(x,y)和T(x,y)为该奖励点格点的参数,r(x,y)为10至20随机分布的一个采样,T(x,y)为0.5至1随机分布的一个采样。在陷阱格点,奖赏数值r=-100。在普通道路格点,奖赏数值r=0。
二、模型中环境与智能体交互
0)、在最初始的时刻t(t=0)时,智能体感受到环境的状态s1(t=0)。
1)、将该状态s1输入神经网络模型组中的预设的神经网络模型。注意到这是第一次观测,则采用神经网络模型组中的第一个神经网络模型。
2)、在时刻
Figure BDA0001694781890000072
神经网络模型已经输出Q(a,nn_style)。注意此时nn_style0的数值为1,表示初始情况下采取第一种神经网络模型。选取一对(a1,nn_style1),使得Q(a,nn_style)数值最大。在此时刻执行对应动作,记为动作a1。下一时刻采取的神经网络模型记为nn_style1
3)、智能体得到奖赏r1
Figure BDA0001694781890000073
4)、在下一时刻t=1,智能体对环境进行观测,得到状态s2(t=1)。
5)、将状态s2(t=1)输入神经网络模型中上一轮输出(a1,nn_style1)中对应的第nn_style1个神经网络模型。
假设,在当前情况下考虑使用三个卷积神经网络模型。他们的输入均为环境状态,输出均为Q(a,nn_style)。第一个卷积神经网络模型包含一个卷积层,两个全连接输出层。第二个卷积神经网络模型包含两个卷积层,两个全连接输出层。第三个卷积神经网络模型包含三个卷积层,两个全连接输出层。这三个卷积神经网络模型由于网络层数不同,计算时间也会不同。本发明实施例中用强化学习通过不同的计算下的奖赏,来调整选择不同的神经网络。
6)、在时刻
Figure BDA0001694781890000081
第nn_style1个神经网络会输出Q(a,nn_style)。选取一对(a2,nn_style2),使得Q(a,nn_style)数值最大。在此时刻执行对应动作,记为动作a2。下一时刻采取的神经网络模型记为nn_style2
7)、智能体一直进行这样的处理,直到智能体到达终点或者时间截止。
三、神经网络模型更新
1)、样本回放。
维护一个样本池,里面含有每一次运行的样本ei=(nn_stylei-1,si,ai,ri,nn_stylei,si+1)。在第i轮中在更新当前策略中第nn_stylei-1个神经网络中,使用一小批样本ε={em|nn_stylem-1均为nn_stylei-1}。
2)、目标值网络。
由于需要评估这些神经网络模型,类似于深度Q网络,组建目标值模型,记为Q*。该模型由神经网络模型每隔N个时间间隔进行复制得到,这里N采取数值为10。
3)、神经网络模型更新
由DQN误差函数单元更新当前值网络中对应的神经网络的参数。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,包括:
感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;
决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;
学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新;
所述决策过程由智能体中的决策机实现;所述决策机包括:模型选择单元、当前值网络组以及输出单元;
所述模型选择单元存储有本轮选择的神经网络模型的编号,该编号由输出单元在上一轮决策后传入,如果是首轮使用,则使用预设的神经网络模型;
所述当前值网络组组中包含了多个值网络,每一个值网络都是一个神经网络模型,每一神经网络模型的输入为当前环境状态,输出为一系列的Q值;
所述输出单元接收一系列的Q值,并选出使Q值最大的动作及对应的下一轮神经网络模型的序号,其中的动作由智能体执行,而下一轮神经网络模型的序号将输出到模型选择单元,使Q值最大的动作及对应的下一轮神经网络模型的序号将输出到学习器;如果第i轮使用第nn_stylei-1个神经网络模型进行计算,其计算耗时记为
Figure FDA0003235753630000011
则执行动作的时刻约等于当前时刻加计算耗时
Figure FDA0003235753630000012
2.根据权利要求1所述的一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,所述感知过程、学习过程分别由智能体中的感知器、学习器来实现。
3.根据权利要求1或2所述的一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,所述学习器包括:记忆回放单元、目标值网络以及DQN误差函数更新单元;
所述记忆回放单元,接收环境反馈的当前环境状态与上一轮动作下的奖赏值,以及决策机传入的使Q值最大的动作及对应的下一轮神经网络模型的序号;然后,将接收到的数据进行整合,构成一系列的样本输出到目标值网络;将输出给输出到决策机,再将决策机输出的ei=(nn_stylei-1,si,ai,ri(t),nn_stylei,si+1);其中,nn_stylei-1表示第i轮决策机的模型选择单元存储的神经网络模型的编号;si表示第i轮感知器获得的状态;ai、nn_stylei是第i轮中使Q值最大的(a,nn_style)对中的a,nn_style;ri(t),si+1是第i+1轮感知器分别获得的第i轮的奖赏值和第i+1轮的环境状态;根据nn_stylei-1来筛选样本,在nn_stylei-1相同的样本中随机选取一定数量的样本;这样一批样本构成集合E={em|nn_stylem-1均为nn_stylei-1};将这些样本的sm+1输出到目标值网络;将rm(t)输出给DQN误差函数更新单元,将sm,am,nn_stylem输出到决策机,再将决策机输出的Q值输出到DQN误差函数更新单元;所述目标值网络与决策机中的当前值网络组结构相同,目标值网络的内容是每间隔N步,由决策机中的神经网络模型拷贝而构成;
所述目标值网络按照下式计算计算目标值Ym,并传输给DQN误差函数更新单元:
Figure FDA0003235753630000021
其中,rm(t),sm+1均来自于样本em,Q*为目标值网络,θ*为Q*网络的参数,a*,nn_style*为Q*网络的输出组合,γ为折扣因子;
所述DQN误差函数更新单元,使用采用最小化均方目标值Ym和决策机输出的Q值的误差函数Lm
Lm=E[(Ym-Q(sm,am,nn_stylem|θ))2];
其中,sm,am,nn_stylem均来自于样本em,Q为当前值网络,θ为Q网络的参数,E表示期望;
对于第nn_stylem-1nn_style个神经网络模型,网络模型更新计算方式如下所示:
Figure FDA0003235753630000022
其中,
Figure FDA0003235753630000023
为梯度算子,
Figure FDA0003235753630000024
表示误差函数Lm对网络参数θ的梯度。
CN201810616798.0A 2018-06-13 2018-06-13 针对时间敏感的环境的多价值网络深度强化学习方法 Active CN108830376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810616798.0A CN108830376B (zh) 2018-06-13 2018-06-13 针对时间敏感的环境的多价值网络深度强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810616798.0A CN108830376B (zh) 2018-06-13 2018-06-13 针对时间敏感的环境的多价值网络深度强化学习方法

Publications (2)

Publication Number Publication Date
CN108830376A CN108830376A (zh) 2018-11-16
CN108830376B true CN108830376B (zh) 2021-12-14

Family

ID=64142160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810616798.0A Active CN108830376B (zh) 2018-06-13 2018-06-13 针对时间敏感的环境的多价值网络深度强化学习方法

Country Status (1)

Country Link
CN (1) CN108830376B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164150B (zh) * 2019-06-10 2020-07-24 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN112731804A (zh) * 2019-10-29 2021-04-30 北京京东乾石科技有限公司 一种实现路径跟随的方法和装置
CN112101556B (zh) * 2020-08-25 2021-08-10 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN113589695B (zh) * 2021-08-02 2023-11-10 郑州大学 基于记忆序列回放机制的机器人行为决策方法及设备
CN114422453B (zh) * 2021-11-30 2023-10-24 北京交通大学 一种在线规划时间敏感流的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102505591A (zh) * 2011-10-15 2012-06-20 天津市市政工程设计研究院 一种施工作业区上游过渡区长度确定方法
JP6150964B1 (ja) * 2016-10-03 2017-06-21 三菱電機株式会社 ネットワーク構築装置及びネットワーク構築方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107729925A (zh) * 2017-09-26 2018-02-23 中国科学技术大学 对程序竞赛型源代码按照解题方法做自动分类与评分的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9847974B2 (en) * 2016-04-28 2017-12-19 Xerox Corporation Image document processing in a client-server system including privacy-preserving text recognition
AU2016203619A1 (en) * 2016-05-31 2017-12-14 Canon Kabushiki Kaisha Layer-based operations scheduling to optimise memory for CNN applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102505591A (zh) * 2011-10-15 2012-06-20 天津市市政工程设计研究院 一种施工作业区上游过渡区长度确定方法
JP6150964B1 (ja) * 2016-10-03 2017-06-21 三菱電機株式会社 ネットワーク構築装置及びネットワーク構築方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107729925A (zh) * 2017-09-26 2018-02-23 中国科学技术大学 对程序竞赛型源代码按照解题方法做自动分类与评分的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep CNN for micromotion recognition of space targets;Xueru Bai;《2016 CIE International Conference on Radar (RADAR)》;20161230;第1-5页 *
深度强化学习综述;刘全;《计算机学报》;20180131;第1-27页 *

Also Published As

Publication number Publication date
CN108830376A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108830376B (zh) 针对时间敏感的环境的多价值网络深度强化学习方法
Shakya et al. Reinforcement learning algorithms: A brief survey
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
US7062333B2 (en) Optimal solution search device, device for controlling controlled object by optimizing algorithm, and optimal solution search program
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN113077052A (zh) 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN114723065A (zh) 基于双层深度强化学习模型的最优策略获取方法及装置
Bouktif et al. Deep reinforcement learning for traffic signal control with consistent state and reward design approach
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
Kash et al. Combining No-regret and Q-learning
CN105867427B (zh) 一种面向动态环境的机器人寻径在线控制方法
Hu et al. Incremental learning framework for autonomous robots based on q-learning and the adaptive kernel linear model
CN115906673B (zh) 作战实体行为模型一体化建模方法及系统
CN115587615A (zh) 一种感知行动回路决策的内在奖励生成方法
Tuyls et al. Multiagent learning
Peterson et al. Towards automatic shaping in robot navigation
EP3614314A1 (en) Method and apparatus for generating chemical structure using neural network
Hu Monte Carlo Methods
CN116560239B (zh) 一种多智能体强化学习方法、装置及介质
JP7046267B2 (ja) 状態制御装置、学習装置、状態制御方法、学習方法及びプログラム
Elliott et al. Using supervised training signals of observable state dynamics to speed-up and improve reinforcement learning
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability
Xue et al. Optimizing Exploration-Exploitation Trade-off in Continuous Action Spaces via Q-ensemble
CN117478538A (zh) 一种基于深度强化学习的物联网设备探测与控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant