CN107832836A

CN107832836A - 无模型深度增强学习探索方法及装置

Info

Publication number: CN107832836A
Application number: CN201711205687.2A
Authority: CN
Inventors: 季向阳; 张子函; 张宏昌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-03-23
Anticipated expiration: 2037-11-27
Also published as: CN107832836B

Abstract

本公开涉及一种无模型深度增强学习探索方法及装置，所述方法包括：根据样本获取特征值；将所述特征值输入深度强化学习模型进行处理，得到动作价值；将所述特征值输入计数模型得到动作计数值；根据所述动作价值和所述动作计数值确定决策动作。通过选择不同执行次数的动作，在深度强化学习的探索过程中，更加全面的得到各动作的环境回报值，进而提高探索效率。

Description

无模型深度增强学习探索方法及装置

技术领域

本公开涉及机器学习技术领域，尤其涉及一种无模型深度增强学习探索方法及装置。

背景技术

深度增强学习，Deep Reinforcement Learning是将深度学习与增强学习结合起来，从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说，就是和人类一样，输入感知信息比如视觉，然后通过深度神经网络，直接输出动作，中间没有hand-crafted人为工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。增强学习是解决序贯决策问题的一个方法。近年来，深度增强学习利用神经网络作为算法的估计子，在基于图像输入的任务中取得了一定的成果。在进行动作决策时，智能代理需要根据历史经验决定执行某个动作，因此，利用神经网络进行深度增强学习问题的核心是如何压缩量级较大的历史样本，以及在神经网络的训练过程中，如何得出更加符合实际应用场景的训练结果。

发明内容

有鉴于此，本公开提出了一种无模型深度增强学习探索方法及装置，用以解决深度增强学习探索方法如何获取更加符合实际应用场景的训练结果的问题。

根据本公开的一方面，提供了一种无模型深度增强学习探索方法，所述方法包括：

根据样本获取特征值；

将所述特征值输入深度强化学习模型进行处理，得到动作价值；

将所述特征值输入计数模型得到动作计数值；

根据所述动作价值和所述动作计数值确定决策动作。

在一种可能的实现方式中，所述方法还包括：

执行所述决策动作；

获取环境返回的回报值；

根据所述回报值和所述决策动作，确定误差值；

根据所述误差值，利用反向传播算法，调整所述深度强化学习模型、所述计数模型的参数。

在一种可能的实现方式中，所述方法还包括：将所述特征值输入辅助决策模型进行处理，得到辅助动作价值；

根据所述动作价值和所述动作计数值确定决策动作，还包括：根据所述动作价值、所述动作计数值和所述辅助动作价值，确定决策动作。

在一种可能的实现方式中，将所述特征值输入辅助决策模型进行处理，得到辅助动作价值，包括：

所述辅助决策模型根据所述特征值和随机回报值，确定辅助动作价值。

在一种可能的实现方式中，

根据样本获取特征值，包括：

利用多个卷积核对所述样本进行卷积处理，得到多个卷积特征；

将得到的多个卷积特征进行拼接，获取所述特征值。

在一种可能的实现方式中，所述样本包括：环境的第一状态和动作，所述第一状态包括所述动作执行前的状态；

将所述特征值输入计数模型得到动作计数值，包括：

计数模型根据输入的特征值，提取所述样本的第一状态和动作；

将所述样本的第一状态和动作进行对应，确定状态动作对；

在状态动作对集合中查找确定出的状态动作对，并更新确定出的状态动作对的访问估计次数，所述状态动作对集合包括多个状态动作对，以及各状态动作对的访问估计次数组成的集合；

将更新后的状态动作对集合，确定为动作计数值。

在一种可能的实现方式中，根据所述动作价值和所述动作计数值确定决策动作，包括：

根据所述动作计数值中的访问估计次数确定动作价值的调整值，其中，访问估计次数越多，所确定出的调整值越小；

根据所述动作调整值和所述动作价值，确定决策动作。

根据本公开的另一方面，提供了一种无模型深度增强学习探索装置，包括：

特征值获取模块，用于根据样本获取特征值；

深度强化学习模块，用于将所述特征值输入深度强化学习模型进行处理，得到动作价值；

计数模块，用于将所述特征值输入计数模型得到动作计数值；

决策动作确定模块，用于根据所述动作价值和所述动作计数值确定决策动作。

在一种可能的实现方式中，所述装置还包括：

动作执行模块，用于执行所述决策动作；

回报值获取模块，用于获取环境返回的回报值；

误差值确定模块，用于根据所述回报值和所述决策动作，确定误差值；

参数调整模块，用于根据所述误差值，利用反向传播算法，调整所述深度强化学习模型、所述计数模型和所述辅助决策模型的参数。

在一种可能的实现方式中，所述装置还包括：

辅助决策模块，用于将所述特征值输入辅助决策模型进行处理，得到辅助动作价值；

所述决策动作确定模块，还包括：

辅助决策子模块，用于根据所述动作价值、所述动作计数值和所述辅助动作价值，确定决策动作。

在一种可能的实现方式中，所述辅助决策模块，包括：

辅助动作价值子模块，用于根据所述特征值和随机回报值，确定辅助动作价值。

在一种可能的实现方式中，所述特征值获取模块，包括：

卷积处理子模块，用于利用多个卷积核对所述样本进行卷积处理，得到多个卷积特征；

特征值获取子模块，用于将得到的多个卷积特征进行拼接，获取所述特征值。

所述计数模型模块，包括：

状态动作提取子模块，用于根据输入的特征值，提取所述样本的第一状态和动作；

状态动作对确定子模块，用于将所述样本的第一状态和动作进行对应，确定状态动作对；

访问次数估计子模块，用于在状态动作对集合中查找确定出的状态动作对，并更新确定出的状态动作对的访问估计次数，所述状态动作对集合包括多个状态动作对，以及各状态动作对的访问估计次数组成的集合；

动作计数值确定子模块，用于将更新后的状态动作对集合，确定为动作计数值。

在一种可能的实现方式中，所述决策动作确定模块，包括：

调整值确定子模块，用于根据所述动作计数值中的访问估计次数确定动作价值的调整值，其中，访问估计次数越多，所确定出的调整值越小；

决策动作确定子模块，用于根据所述动作调整值和所述动作价值，确定决策动作。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述无模型深度增强学习探索方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述无模型深度增强学习探索方法。

本公开通过计数模型记录各状态下各个动作的执行次数，并在确定决策动作的过程中，优选执行次数少的动作。通过选择不同执行次数的动作，在深度强化学习的探索过程中，更加全面的得到执行各个动作在当前情况下的探索收益，进而提高探索效率。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图2示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图3示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图4示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图5示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图6示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图7示出根据本公开一实施例的无模型深度增强学习探索方法的流程图；

图8示出根据本公开一实施例的基于神经网络的动作识别方法中提取样本特征值的流程图；

图9示出根据本公开一实施例的无模型深度增强学习探索装置的框图；

图10示出根据本公开一实施例的无模型深度增强学习探索装置的框图；

图11示出根据本公开一实施例的无模型深度增强学习探索装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

在人工智能领域，一般用Agent(智能代理)来表示一个具备行为能力的物体，比如机器人，无人车，人等等。增强学习考虑的问题就是Agent和环境environment之间交互的任务。比如一个机械臂要拿起一个手机，那么机械臂周围的物体包括手机就是环境，机械臂通过外部的比如摄像头来感知环境，然后机械臂需要输出动作来实现拿起手机这个任务。另外，在极品飞车游戏中，游戏者只看到屏幕，这就是环境，然后输出动作(键盘操作)来控制车的运动，其中包含了一系列的动作action，观察Observation，以及回报值Reward。所谓的Reward就是Agent执行了动作与环境进行交互后，环境会发生变化，变化的好与坏就用Reward来表示。如上面的例子。如果机械臂离手机变近了，那么Reward就应该是正的，如果玩赛车游戏，赛车越来越偏离跑道，那么Reward就是负的。其次，使用Observation观察一词而不是环境，是因为Agent不一定能得到环境的所有信息，比如机械臂上的摄像头就只能得到某个特定角度的画面。因此，只能用Observation来表示Agent获取的感知信息。DQN(DeepQ-network，深度强化增强学习网络)通常用于解决通过识别图像来确定最终的决策动作。DQN网络包括Q网络和目标神经网络，通过训练Q网络，更新目标神经网络，最终根据Q值确定最终的决策动作。在决策动作的确定过程中，按照局部回报值的比例，随机选取下一步的动作的方法，称为探索方法，而直接选取Q值最高的动作的方法，称为利用方法。

图1示出根据本公开一实施例的基于神经网络的动作识别方法的流程图，如图1所示的方法，包括如下步骤：

步骤S10，根据样本获取特征值。

在一种可能的实现方式中，在DQN网络的训练过程中，首先将需要进行处理样本，例如游戏的图像，进行预处理，例如进行灰度化和降采样，然后将预处理后的游戏图像输入图像处理模型进行特征的提取，包括采用卷积神经网络作为图像处理模型。图8示出根据本公开一实施例的基于神经网络的动作识别方法中提取样本特征值的流程图，如图8所示，将经过预处理的连续的四帧游戏图像P1、P2、P3、P4输入卷积神经网络模型进行特征提取后，得到特征值。

举例而言，同样以赛车游戏为例，将赛车的游戏画面进行预处理后，输入卷积神经网络提取特征值。其中，每个时刻的游侠画面为一个状态，赛车的操作动作为决策动作。

步骤S20，将所述特征值输入深度强化学习模型进行处理，得到动作价值。

在一种可能的实现方式中，将所述特征值输入DQN网络，DQN网络提取特征值中的状态，输出动作价值(Q值)。Q值为某个状态下的动作的价值，是一个关于状态和动作的函数，包括每个动作的Q值。

举例而言，深度强化学习模型将特征值进行处理后，得到最终的赛车操作动作的价值，例如，根据特征值中的游戏图像的状态1，确定出在状态1下，向左上方上操作赛车的动作1、以及向右上方操作赛车的动作2的价值最高(不偏离赛道，且行驶方向正确，会导致比赛中领先)；向左下操作赛车的动作3、以及向右下操作赛车的动作4的价值次之(不偏离赛道，但行驶方向相反，会导致比赛落后)；向左操作赛车的动作5，以及向右操作赛车的动作6的动作价值最低(偏离赛道，导致比赛失利)。

步骤S30，将所述特征值输入计数模型得到动作计数值。

在一种可能的实现方式中，计数模型提取并记录特征值中的状态和动作，获取到在训练过程中，在各个状态下的各个动作的执行次数。

举例而言，根据计数模型的记录，在状态1下，动作1的执行次数为A，动作2的执行次数为B，动作3的执行次数为C，动作4的执行次数为D，动作5的执行次数为E，动作6的执行次数为F，且A>B>C>D>E>F。

步骤S40，根据所述动作价值和所述动作计数值确定决策动作。

在一种可能的实现方式中，为满足不同的需求，将动作价值的高低和动作计数值的大小进行不同的组合，确定出不同的决策动作，包括选择动作价值高、动作计数值小的动作为决策动作，包括选择动作价值低、动作技术值大的动作作为决策动作，还包括为动作价值和动作计数值分别设置不同的阈值范围，优选在同时在阈值范围内的动作为决策动作，本公开对此不作限定。

举例而言，在上述的赛车游戏中，根据动作价值，优选动作1和动作2，根据动作计数值，优选动作2。最终确定动作2为最终的决策动作。

在本实施例中，通过计数模型记录各状态下各个动作的执行次数，并在确定决策动作的过程中，优选执行次数少的动作。通过选择不同执行次数的动作，在深度强化学习的探索过程中，更加全面的得到执行各个动作在当前情况下的探索收益，进而提高探索效率。

图2示出根据本公开一实施例的无模型深度增强学习探索方法的流程图，如图2所示，在上述实施例的基础上，所述方法还包括：

步骤S50，执行所述决策动作。

步骤S60，获取环境返回的回报值。

在一种可能的实现方式中，执行所述决策动作后，环境的状态会有所变化，同时环境会给出决策动作的回报值。

举例而言，在赛车游戏中，决策动作为向右上方操作赛车的动作2，在执行了动作2后，游戏给出了正回报值：为游戏者加分。

在一种可能的实现方式中，执行决策动作后，环境给出的回报值也可以为负回报。

步骤S70，根据所述回报值和所述决策动作，确定误差值。

在一种可能的实现方式中，根据环境给出的回报值，得到决策动作的实际动作价值，将决策动作的实际动作价值和决策动作的动作价值进行比较厚，可以确定误差值。

举例而言，在上述赛车游戏中，决策动作为动作2，计算出的动作2的动作价值为A，执行动作2后，环境的回报值为Z，则A与Z之间的差值，为误差值。

步骤S80，根据所述误差值，利用反向传播算法，调整所述深度强化学习模型、所述计数模型的参数。

在一种可能的实现方式中，根据确定出来的误差值，利用反向传播算法，调整深度强化学习模型和计数模型的参数。利用调整后的深度强化学习模型和计数模型，进行下一次无模型深度增强学习探索的迭代计算。

在本实施例中，通过执行决策动作，获取到环境的回报值后，计算误差值后，利用误差值调整深度强化学习模型、和计数模型的参数，并将调整后的深度强化学习模型和计数模型，进行下一次无模型深度增强学习探索的迭代计算。根据环境给出的回报值，调整深度强化学习模型和计数模型的参数，为下一次的迭代计算提供更加准确的参数，从而使得深度强化学习的探索过程更加的符合实际的运行环境。

图3示出根据本公开一实施例的无模型深度增强学习探索方法的流程图，如图3所示的方法，在上述实施例的基础上，还包括如下步骤：

步骤S50，将所述特征值输入辅助决策模型进行处理，得到辅助动作价值。

则步骤40，根据所述动作价值和所述动作计数值确定决策动作，还包括：步骤41，根据所述动作价值、所述动作计数值和所述辅助动作价值，确定决策动作。

在一种可能的实现方式中，为更好的说明辅助决策模型，将上述示例中的深度强化学习模型和计数模型总称为主网络。辅助决策模型的结构与主网络相同，但辅助决策模型中的各项参数与主网络不同，为保证动作价值的稳定性，通过辅助决策模型可以提供一个与主网络不同的辅助动作价值。在辅助决策模型中提供一个固定的环境回报值，从而保证动作价值能收敛至一个常数。在本实施例中，计算辅助动作价值和动作价值之间的差值，并将计算得到的差值计入决策动作的确定过程中。

举例而言，在上述赛车游戏中，根据辅助决策模型给出的回报值，得到各动作的辅助动作价值，例如动作1的辅助动作价值为A’、动作2的辅助动作价值为B’等。将各动作的动作价值、辅助动作价值和动作计数值进行综合计算，得到最终的决策动作。

在本实施例中，为保证动作价值的收敛性，引入辅助决策模型，通过辅助决策模型获取到辅助动作价值，计算辅助动作价值和动作价值之间的差值，并将计算得到的差值计入决策动作的确定过程，驱动深度增强学习的探索过程，并使探索过程更加收敛。

图4示出根据本公开一实施例的无模型深度增强学习探索方法的流程图，如图4所示，在上述实施例的基础上，步骤S50包括：

步骤S51，所述辅助决策模型根据所述特征值和随机回报值，确定辅助动作价值。

在一种可能的实现方式中，在辅助决策模型中，为各状态下的各动作设置随机回报值，而不是获取环境返回的回报值，辅助决策模型根据随机回报值，以及在样本中提取的特征值，确定各状态下各动作的辅助动作价值，其中，随机回报的期望是预设的固定值，其分布有多种选择。

在本实施例中，通过为辅助决策网络设定随机的回报值，得到完全不同的误差值

图5示出根据本公开一实施例的无模型深度增强学习探索方法的流程图，如图5所示的方法，在上述实施例的基础上，步骤S10，包括如下步骤：

步骤S11，利用多个卷积核对所述样本进行卷积处理，得到多个卷积特征。

步骤S12，将得到的多个卷积特征进行拼接，获取所述特征值。

在一种可能的实现方式中，利用卷积神经网络对样本进行卷积处理时，设置多个卷积核，得到多个卷积特征。在将多个卷积特征进行拼接后，获取特征值，从而实现状态空间的压缩。

在本实施例中，利用多个卷积核对样本进行卷积处理后，得到卷积特征，将卷积特征进行拼接后，得到特征值，在最大程度保留样本特征的前提下，进行状态空间的压缩，在保证探索结果的准确率的前提下，提高了探索过程的计算效率。

图6示出根据本公开一实施例的无模型深度增强学习探索方法的流程图，如图6所示的方法中，所述样本包括：环境的第一状态和动作，所述第一状态包括所述动作执行前的状态。

在一种可能的实现方式中，样本包括第一状态、第二状态、动作、回报值，其中，动作为执行的决策动作，第一状态为动作执行前的状态，第二状态为动作执行后的状态，回报值为动作执行后环境给出的回报值。

在上述实施例的基础上，步骤S30包括：

步骤S31，计数模型根据输入的特征值，提取所述样本的第一状态和动作。

步骤S32，将所述样本的第一状态和动作进行对应，确定状态动作对。

步骤S33，在状态动作对集合中查找确定出的状态动作对，并更新确定出的状态动作对的访问估计次数，所述状态动作对集合包括多个状态动作对，以及各状态动作对的访问估计次数组成的集合。

步骤S34，将更新后的状态动作对集合，确定为动作计数值。

在一种可能的实现方式中，计数模型中包括各状态下各动作组成的状态动作对，以及各状态动作对的访问估计次数，且状态动作对中的状态，为状态动作对中的动作执行前的状态。根据样本中的第一状态和动作，更新计数模型中相应的状态动作对的访问估计次数。计数模型给出的动作计数值，为各状态下各动作的访问估计次数的集合。

举例而言，在上述赛车游戏中，有多个状态，例如状态1、状态2、状态3等等，每个状态下包括多个动作，例如动作1、动作2、动作3等。则计数模型中，记录有状态1-动作1、状态1-动作2、状态1-动作3、状态2-动作1、状态2-动作2、状态2-动作3、状态3-动作1、状态3-动作2、状态3-动作3等多个状态动作对，且记录有每个状态动作对的访问估计次数。根据样本中的特征值，确定状态动作对为状态1-动作2，则更新状态1-动作2这个状态动作对的访问估计次数。

在本实施例中，通过在样本特征中的第一状态和动作，更新计数模型中状态动作对的访问估计次数，并将更新后的状态动作对集合，确定为动作计数值。在深度增强学习探索中，通过状态动作对的访问估计次数，可根据动作已经执行过的次数确定决策动作，可以提高探索效率。

图7示出根据本公开一实施例的无模型深度增强学习探索方法的流程图，如图7所示，在上述实施例的基础上，步骤S40包括：

步骤S41，根据所述动作计数值中的访问估计次数确定动作价值的调整值，其中，访问估计次数越多，所确定出的调整值越小。

步骤S42，根据所述动作调整值和所述动作价值，确定决策动作。

在一种可能的实现方式中，根据计数模型中状态动作对的访问估计次数的多少，确定动作调整值的大小，包括将各状态动作对的访问估计次数进行排序后，优选访问估计次数少的动作，同时优选动作价值高的动作为决策动作，还包括利用调整值函数确定各状态动作对的访问次数对应的调整值，其中，估计访问次数越多，调整值函数给出的调整值越小。

将动作价值中各动作的动作价值，分别与各动作相应的调整值进行运算后，确定决策动作。

在本实施例中，通过状态动作对的访问估计次数，在决策动作的确定过程中，优先选择访问估计次数少的动作，可以提高探索效率。

图9示出根据本公开一实施例的无模型深度增强学习探索装置的框图，如图9所示，本实施例提供的装置包括：

特征值获取模块41，用于根据样本获取特征值。

深度强化学习模块42，用于将所述特征值输入深度强化学习模型进行处理，得到动作价值。

计数模块43，用于将所述特征值输入计数模型得到动作计数值。

决策动作确定模块44，用于根据所述动作价值和所述动作计数值确定决策动作。

图10示出根据本公开一实施例的无模型深度增强学习探索装置的框图，如图10所示，在如图9所示的实施例的基础上，还包括：

动作执行模块45，用于执行所述决策动作。

回报值获取模块46，用于获取环境返回的回报值。

误差值确定模块47，用于根据所述回报值和所述决策动作，确定误差值。

参数调整模块48，用于根据所述误差值，利用反向传播算法，调整所述深度强化学习模型、所述计数模型和所述辅助决策模型的参数。

在一种可能的实现方式中，所示装置还包括：

辅助决策模块49，用于将所述特征值输入辅助决策模型进行处理，得到辅助动作价值。

所述决策动作确定模块44，还包括：

辅助决策子模块443，用于根据所述动作价值、所述动作计数值和所述辅助动作价值，确定决策动作。

在一种可能的实现方式中，所述辅助决策模块49，包括：

辅助动作价值子模块491，用于根据所述特征值和随机回报值，确定辅助动作价值。

在一种可能的实现方式中，所述特征值获取模块41，包括：

卷积处理子模块411，用于利用多个卷积核对所述样本进行卷积处理，得到多个卷积特征；

特征值获取子模块412，用于将得到的多个卷积特征进行拼接，获取所述特征值。

所述计数模型模块43，包括：

状态动作提取子模块431，用于根据输入的特征值，提取所述样本的第一状态和动作；

状态动作对确定子模块432，用于将所述样本的第一状态和动作进行对应，确定状态动作对；

访问次数估计子模块433，用于在状态动作对集合中查找确定出的状态动作对，并更新确定出的状态动作对的访问估计次数，所述状态动作对集合包括多个状态动作对，以及各状态动作对的访问估计次数组成的集合；

动作计数值确定子模块434，用于将更新后的状态动作对集合，确定为动作计数值。

在一种可能的实现方式中，所述决策动作确定模块44，包括：

调整值确定子模块441，用于根据所述动作计数值中的访问估计次数确定动作价值的调整值，其中，访问估计次数越多，所确定出的调整值越小；

决策动作确定子模块442，用于根据所述动作调整值和所述动作价值，确定决策动作。

图11是根据一示例性实施例示出的一种用于无模型深度增强学习探索装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由装置800的处理器820执行以完成上述方法。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种无模型深度增强学习探索方法，其特征在于，所述方法包括：

根据样本获取特征值；

将所述特征值输入计数模型得到动作计数值；

根据所述动作价值和所述动作计数值确定决策动作。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

执行所述决策动作；

获取环境返回的回报值；

根据所述回报值和所述决策动作，确定误差值；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：将所述特征值输入辅助决策模型进行处理，得到辅助动作价值；

4.根据权利要求3所述的方法，其特征在于，将所述特征值输入辅助决策模型进行处理，得到辅助动作价值，包括：

5.根据权利要求1所述的方法，其特征在于，根据样本获取特征值，包括：

将得到的多个卷积特征进行拼接，获取所述特征值。

6.根据权利要求1所述的方法，其特征在于，所述样本包括：环境的第一状态和动作，所述第一状态包括所述动作执行前的状态；

将所述特征值输入计数模型得到动作计数值，包括：

将所述样本的第一状态和动作进行对应，确定状态动作对；

将更新后的状态动作对集合，确定为动作计数值。

7.根据权利要求6所述的方法，其特征在于，根据所述动作价值和所述动作计数值确定决策动作，包括：

根据所述动作调整值和所述动作价值，确定决策动作。

8.一种无模型深度增强学习探索装置，其特征在于，包括：

特征值获取模块，用于根据样本获取特征值；

9.根据权利要求8所述的装置，其特征在于，还包括：

动作执行模块，用于执行所述决策动作；

回报值获取模块，用于获取环境返回的回报值；

10.根据权利要求9所述的装置，其特征在于，还包括：

所述决策动作确定模块，还包括：

11.根据权利要求10所述的装置，其特征在于，所述辅助决策模块，包括：

12.根据权利要求8所述的装置，其特征在于，所述特征值获取模块，包括：

13.根据权利要求8所述的装置，其特征在于，所述样本包括：环境的第一状态和动作，所述第一状态包括所述动作执行前的状态；

所述计数模型模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述决策动作确定模块，包括：

15.一种无模型深度增强学习探索装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行时实现权利要求1至7中任意一项所述的方法。

16.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。