CN108830376B

CN108830376B - 针对时间敏感的环境的多价值网络深度强化学习方法

Info

Publication number: CN108830376B
Application number: CN201810616798.0A
Authority: CN
Inventors: 孙广中; 孙昊; 秦宇泽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2021-12-14
Anticipated expiration: 2038-06-13
Also published as: CN108830376A

Abstract

本发明公开了一种针对时间敏感的环境的多价值网络深度强化学习方法，多价值网络输出对应状态下的动作和下一次采取的网络类型，由于不同的网络类型有着不同的计算时间，通过调整下一次的网络类型来改变下一次的响应时间，响应时间影响着环境对智能体的奖赏值。在本方法中，由于可以动态地选择多个模型中的一个，从而使得智能体获得一个较好的奖赏值。

Description

针对时间敏感的环境的多价值网络深度强化学习方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种针对时间敏感的环境的多价值网络深度强化学习方法。

背景技术

深度强化学习在许多方面都有着应用，比如机器人控制，游戏博弈等等。在一些场景下，深度强化学习程序需要对输入进行迅速反应，给出当前状态下需要采取的操作。以即时策略类游戏为例，当程序观测到环境后，需要在尽可能短的时间内做出决策，对游戏中的单位采取操作。

强化学习中主要为环境，智能体(agent)以及他们之间的交互。智能体进行感知，学习和决策。和智能体交互的所有其他的事物统称为环境。强化学习主要目标就是通过智能体和环境的过往交互过程学习出合适的策略。环境的状态用s表示。智能体采取策略f，在状态s下选取动作a作用于环境，策略f为状态s到动作a的映射，动作a表示为状态集合S中一个元素当前状态s到状态集合S中一个元素下一状态s’的映射。

环境和智能体交互过程为环境的状态s，智能体采取动作a作用于环境，环境在动作a作用下发生变化T，同时智能体也会得到一个奖赏值r。智能体与环境交互过程如图1所示，其过程如下：第一步：在时刻t下，环境状态为s_i。s_i为强化学习中智能体的输入，其中i表示环境的第i次输入智能体，用以标记序列顺序。第二步：智能体得到输入s_i后在t_i+Δt_i时间输出动作a_i，动作a_i作用于环境。第三步：环境在t’＝t_i+t_间隔时刻，将奖励值r_i(t_i+Δt_i)输入智能体。同时，环境将当前状态s_i+1输入智能体。强化学习主要通过最大化长期奖赏学习出策略。

一般情况下，需要声明值函数V(s)和状态-动作值函数Q(s，a)。值函数V(s)只是和状态s相关的函数，用来表示状态s下的价值，函数值为一个标量值。状态-动作值函数Q(s，a)表示在状态s下采取动作a的价值。值函数V(s)是状态-动作值函数Q(s，a)在所有动作a下的期望值，V(s)＝E_a[Q(s，a)]。但是，实际情况下，一般这两个函数值都无法解析表达出来。在学习过程中，一般都是通过以往的数据近似表示出Q函数，然后在状态s下选取一个动作a使得Q函数的值达到最大。

深度强化学习在是强化学习中采用深度神经网络进行计算。深度Q网络(DQN，DeepQ Network)是深度强化学习中非常重要的方法。该方法是利用视觉图像信息作为输入，输出需要采取动作。它的核心的思想就是采用深度神经网络输出Q值，来代替传统方法的Q值表。

在目前已有的工作中，奖赏一般都是与前后状态相关。在以往V.Mnih等人的工作中，奖赏在好的状态下设为1，坏的状态下设为-1，在没有变化的状态设为0。按照这样简明直观的方式设计出的奖赏在其文中的环境中可以得到非常好的效果，但是在时间敏感的环境中，需要对奖赏添加包含时间的项，然而这样的方式由于没有考虑到时间的显式关联，因此无法适用于时间敏感的环境中。

发明内容

本发明的目的是提供一种针对时间敏感的环境的多价值网络深度强化学习方法，考虑了环境会随时间自动变化，可以根据状态调节给出响应的时间。

本发明的目的是通过以下技术方案实现的：

一种针对时间敏感的环境的多价值网络深度强化学习方法，包括：

感知过程：接收当前时刻下，环境反馈的当前环境状态以及上一轮动作下的奖赏值；

决策过程：根据当前环境状态，使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值：Q(a，nn_style)，其中，Q值也即当前环境状态下采取某个动作的价值，a表示一个动作，nn_style对应于下一轮神经网络模型的序号，从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号；其中，不同神经网络模型计算一系列Q值所耗费的时间各不相同；

学习过程：利用目标值网络，来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值，此时的目标值网络与计算Q值的神经网络模型具有相同结构；再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。

由上述本发明提供的技术方案可以看出，多价值网络输出对应状态下的动作和下一次采取的网络类型，由于不同的网络类型有着不同的计算时间，通过调整下一次的网络类型来改变下一次的响应时间，响应时间影响着环境对智能体的奖赏值。在本方法中，由于可以动态地选择多个模型中的一个，从而使得智能体获得一个较好的奖赏值，从而提升学习效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为背景技术提供的强化学习中智能体与环境交互的示意图；

图2为本发明实施例提供的一种针对时间敏感的环境的多价值网络深度强化学习方法的流程图；

图3为本发明实施例提供的多价值网络深度强化学习方法框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了解决面对环境发生随时间变化情况下，强化学习可以根据环境状态调节给出响应的时间并且调整使用的价值网络，本发明实施例提供一种针对时间敏感的环境的多价值网络深度强化学习方法，该方法考虑了环境会随时间自动变化，智能体获得的奖赏r是关于时间的函数r(t)。如图1所示，其主要包括：

本发明实施例中，所述感知过程、决策过程、学习过程分别由智能体中的感知器、决策机、学习器来实现；下面针对智能体内的三个部分做详细的介绍。

一、感知器。

感知器对环境输入进行处理，将处理之后的信息交个其余组件处理。在发明实施例中，感知器不会对输入数据进行计算，主要将各类别输入数据分别输入到各个组件。

在t_i时刻，环境输入当前的状态s_i和环境在前一轮动作下的奖赏值r_i-1(t_i-1+Δt_i-1)。若t_i为初始时刻，则环境只有输入状态，没有奖赏值。t_i、t_i-1为相邻两轮的开始时刻，Δt_i-1为前一轮所耗费的时间。

感知器将环境状态s_i输入决策机，将环境状态s_i和前一轮动作下的奖赏值r_i-1(t_i-1+Δt_i-1)输入学习器。

二、决策机。

所述决策机包括：模型选择单元、当前值网络组以及输出单元。

1、模型选择单元(输入单元)。

所述模型选择单元存储有本轮选择的神经网络模型的编号nn_style_i-1，该编号由输出单元在上一轮决策后传入，如果是首轮使用，则使用预设的神经网络模型(例如，可以默认为第一个神经网络模型，nn_style₀＝1)。

所述模型选择单元将感知器传入的状态输入神经网络模型组中对应编号的神经网络模型。

2、当前值网络组。

所述当前值网络组中包含了多个值网络。每一个值网络都是一个神经网络模型。每一神经网络模型的输入为当前环境状态，输出为一系列的Q值。

本发明实施例中，不同神经网络模型可以是不同的类型的，比如说可以使用CNN或者RNN。不同神经网络模型也可以是不同的结构的，比如说采用不同的神经网络层数。利用不同神经网络模型执行时间不同，得到对应的奖赏，用强化学习的方法学习出下一轮需要采取的神经网络模型。即，通过选择不同的a和nn_style(神经网络模型的编号)得到奖赏r，再由奖赏r来调整神经网络模型的参数，使神经网络模型更倾向于选择获得高奖赏r的对应a和nn_style。

每一个神经网络模型的输入均为环境状态。神经网络模型输出均为Q(a，nn_style)。由于模型选择单元的作用，在前一轮已选定第nn_style_i-1个神经网络模型进行运算和输出。

3、输出单元。

所述输出单元接收一系列的Q值，并选出使Q值最大的动作及对应的下一轮神经网络模型的序号，其中的动作由智能体执行，而下一轮神经网络模型的序号将输出到模型选择单元，使Q值最大的动作及对应的下一轮神经网络模型的序号将输出到学习器；如果第i轮使用第nn_style_i-1个神经网络模型进行计算，其计算耗时记为

则执行动作的时刻约等于当前时刻加计算耗时

一般来说，从当前时刻时刻t_i感知器接收环境状态，到t_i+Δt_i时刻决策机将动作a输出到环境，智能体总共消耗了Δt_i的时间。对于Δt_i有

Δt_感知、Δt_{模型选择单元}、Δt_输出单元对应与感知器、模型选择单元、输出单元所耗费的时间；通常

时间占有Δt_i绝大部分的时间，因此，为了计算的方便可以忽略Δt_感知、Δt_{模型选择单元}、Δt_输出单元，即令

对于不同的神经网络模型，计算时间的长度不相同。

奖赏值与采取动作的时间(也即神经网络模型的计算耗时)相关。如果采用不同的神经网络模型计算，那么就会有不同的奖赏

通过强化学习的方法，我们可以用模型自动选择出下一时刻需要采取的神经网络模型，来达到获得最大的奖赏。

三、学习器

所述学习器包括：记忆回放单元、目标值网络以及DQN误差函数更新单元。学习器将之前的历史数据进行保留，从数据中训练出合适的模型，并将决策机中的模型进行更新。

1、记忆回放单元(样本池)。

所述记忆回放单元，接收环境反馈的当前环境状态与上一轮动作下的奖赏值，以及决策机传入的使Q值最大的动作及对应的下一轮神经网络模型的序号；然后，将接收到的数据进行整合，构成一系列的样本e_i＝(nn_style_i-1,s_i,a_i,r_i(t),nn_style_i,s_i+1)；每个样本e_i由6个元素构成。nn_style_i-1表示第i轮决策机的模型选择单元存储的神经网络模型的编号。s_i表示第i轮感知器获得的状态。a_i、nn_style_i是第i轮中使Q值最大的(a，nn_style)对中的a，nn_style。r_i(t),s_i+1是第i+1轮感知器分别获得的第i轮的奖赏值和第i+1轮的环境状态。最后，根据nn_style_i-1来筛选样本，在nn_style_i-1相同的样本中随机选取一定数量的样本；这样一批样本构成集合ε＝{e_m|nn_style_m-1均为nn_style_i-1}。将这些样本的s_m+1输出到目标值网络；将r_m(t)输出给DQN误差函数更新单元，将s_m,a_m,nn_style_m输出到决策机，再将决策机输出的Q值输出到DQN误差函数更新单元。

2、目标值网络

所述目标值网络与决策机中的当前值网络组结构相同，目标值网络的内容是每间隔N步，由决策机中的神经网络模型拷贝而构成；N为自定义的参数。

所述目标值网络按照下式计算目标值Y_m，并传输给DQN误差函数更新单元：

其中，r_m(t),s_m+1均来自于样本e_m，Q^*为目标值网络，θ^*为Q^*网络的参数，a^*,nn_style^*为Q^*网络的输出组合，γ为折扣因子。

3、DQN误差函数更新单元。

所述DQN误差函数更新单元，使用采用最小化均方目标值Y_m和决策机输出的Q值的误差函数L_m：

L_m＝E[(Y_m-Q(s_m，a_m，nn_style_m|θ))²]；

其中，s_m,a_m,nn_style_m均来自于样本e_m，Q为当前值网络，θ为Q网络的参数，E表示期望。

对于第nn_style_m-1个神经网络模型，网络模型更新计算方式如下所示：

其中，

为梯度算子，

表示误差函数L_m对网络参数θ的梯度。DQN误差函数更新单元按照上面的公式更新决策机中的神经网络模型。其中当前的Q值由决策机传入，智能体每进行一步，DQN误差函数都会更新决策机中对应的神经网络模型。

上述多价值网络深度强化学习方法框架图可以参见图3。

本发明实施例上述方案，多价值网络输出对应状态下的动作和下一次采取的网络类型，由于不同的网络类型有着不同的计算时间，通过调整下一次的网络类型来改变下一次的响应时间，响应时间影响着环境对智能体的奖赏值。在本方法中，由于可以动态地选择多个模型中的一个，从而使得智能体获得一个较好的奖赏值，从而提升学习效率。

为了便于理解，下面结合一个具体的示例来进行说明。

本示例中以一个环境随时间变化的例子以演示本方法的使用。

一、环境介绍

在一个M*M的网格中，格点分为两类。一类为可以访问(道路)，另一类不可以访问(围墙)。可以访问的格点分为三种：一种是希望尽可能去访问且尽早进行访问(奖励点)，一种是希望不去访问(陷阱)，一类种无关的格点(普通道路)。

智能体初始在网格中某一点，需要在截止时间前到达终点。这里设置在截止时间前到达奖赏为100，未到达为-10000。

智能体在网格中只能向上下左右的四个格点移动。智能体在每一个时间间隔中只能移动一步，目前设置时间间隔长度为1秒。在这个环境中，智能体移动到一个格点上时，会获得到达该格点的奖赏。在奖励点格点p_(x,y)，其坐标为(x,y)，获得奖赏数值

其中r_(x,y)和T_(x,y)为该奖励点格点的参数，r_(x,y)为10至20随机分布的一个采样，T_(x,y)为0.5至1随机分布的一个采样。在陷阱格点，奖赏数值r＝-100。在普通道路格点，奖赏数值r＝0。

二、模型中环境与智能体交互

0)、在最初始的时刻t(t＝0)时，智能体感受到环境的状态s₁(t＝0)。

1)、将该状态s₁输入神经网络模型组中的预设的神经网络模型。注意到这是第一次观测，则采用神经网络模型组中的第一个神经网络模型。

2)、在时刻

神经网络模型已经输出Q(a,nn_style)。注意此时nn_style₀的数值为1，表示初始情况下采取第一种神经网络模型。选取一对(a₁,nn_style₁)，使得Q(a,nn_style)数值最大。在此时刻执行对应动作，记为动作a₁。下一时刻采取的神经网络模型记为nn_style₁。

3)、智能体得到奖赏r₁

4)、在下一时刻t＝1，智能体对环境进行观测，得到状态s₂(t＝1)。

5)、将状态s₂(t＝1)输入神经网络模型中上一轮输出(a₁,nn_style₁)中对应的第nn_style₁个神经网络模型。

假设，在当前情况下考虑使用三个卷积神经网络模型。他们的输入均为环境状态，输出均为Q(a,nn_style)。第一个卷积神经网络模型包含一个卷积层，两个全连接输出层。第二个卷积神经网络模型包含两个卷积层，两个全连接输出层。第三个卷积神经网络模型包含三个卷积层，两个全连接输出层。这三个卷积神经网络模型由于网络层数不同，计算时间也会不同。本发明实施例中用强化学习通过不同的计算下的奖赏，来调整选择不同的神经网络。

6)、在时刻

第nn_style₁个神经网络会输出Q(a,nn_style)。选取一对(a₂,nn_style₂)，使得Q(a,nn_style)数值最大。在此时刻执行对应动作，记为动作a₂。下一时刻采取的神经网络模型记为nn_style₂。

7)、智能体一直进行这样的处理，直到智能体到达终点或者时间截止。

三、神经网络模型更新

1)、样本回放。

维护一个样本池，里面含有每一次运行的样本ei＝(nn_style_i-1,s_i,a_i,r_i,nn_style_i,s_i+1)。在第i轮中在更新当前策略中第nn_style_i-1个神经网络中，使用一小批样本ε＝{e_m|nn_style_m-1均为nn_style_i-1}。

2)、目标值网络。

由于需要评估这些神经网络模型，类似于深度Q网络，组建目标值模型，记为Q*。该模型由神经网络模型每隔N个时间间隔进行复制得到，这里N采取数值为10。

3)、神经网络模型更新

由DQN误差函数单元更新当前值网络中对应的神经网络的参数。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，包括：

学习过程：利用目标值网络，来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值，此时的目标值网络与计算Q值的神经网络模型具有相同结构；再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新；

所述决策过程由智能体中的决策机实现；所述决策机包括：模型选择单元、当前值网络组以及输出单元；

所述模型选择单元存储有本轮选择的神经网络模型的编号，该编号由输出单元在上一轮决策后传入，如果是首轮使用，则使用预设的神经网络模型；

所述当前值网络组组中包含了多个值网络，每一个值网络都是一个神经网络模型，每一神经网络模型的输入为当前环境状态，输出为一系列的Q值；

则执行动作的时刻约等于当前时刻加计算耗时

2.根据权利要求1所述的一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，所述感知过程、学习过程分别由智能体中的感知器、学习器来实现。

3.根据权利要求1或2所述的一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，所述学习器包括：记忆回放单元、目标值网络以及DQN误差函数更新单元；

所述记忆回放单元，接收环境反馈的当前环境状态与上一轮动作下的奖赏值，以及决策机传入的使Q值最大的动作及对应的下一轮神经网络模型的序号；然后，将接收到的数据进行整合，构成一系列的样本输出到目标值网络；将输出给输出到决策机，再将决策机输出的e_i＝(nn_style_i-1，s_i，a_i，r_i(t)，nn_style_i，s_i+1)；其中，nn_style_i-1表示第i轮决策机的模型选择单元存储的神经网络模型的编号；s_i表示第i轮感知器获得的状态；a_i、nn_style_i是第i轮中使Q值最大的(a，nn_style)对中的a，nn_style；r_i(t)，s_i+1是第i+1轮感知器分别获得的第i轮的奖赏值和第i+1轮的环境状态；根据nn_style_i-1来筛选样本，在nn_style_i-1相同的样本中随机选取一定数量的样本；这样一批样本构成集合E＝{e_m|nn_style_m-1均为nn_style_i-1}；将这些样本的s_m+1输出到目标值网络；将r_m(t)输出给DQN误差函数更新单元，将s_m，a_m，nn_style_m输出到决策机，再将决策机输出的Q值输出到DQN误差函数更新单元；所述目标值网络与决策机中的当前值网络组结构相同，目标值网络的内容是每间隔N步，由决策机中的神经网络模型拷贝而构成；

所述目标值网络按照下式计算计算目标值Y_m，并传输给DQN误差函数更新单元：

其中，r_m(t)，s_m+1均来自于样本e_m，Q^*为目标值网络，θ^*为Q^*网络的参数，a^*，nn_style^*为Q^*网络的输出组合，γ为折扣因子；

L_m＝E[(Y_m-Q(s_m，a_m，nn_style_m|θ))²]；

其中，s_m，a_m，nn_style_m均来自于样本e_m，Q为当前值网络，θ为Q网络的参数，E表示期望；

对于第nn_style_m-1nn_style个神经网络模型，网络模型更新计算方式如下所示：

其中，

为梯度算子，

表示误差函数L_m对网络参数θ的梯度。