CN106779072A

CN106779072A - 一种基于自举dqn的增强学习深度搜索方法

Info

Publication number: CN106779072A
Application number: CN201611207986.5A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-05-31

Abstract

本发明提出了一种基于自举DQN的增强学习深度搜索方法，主要内容包括自举Deep Q Network(DQN)、深度搜索和环境背景；其中自举Deep Q Network包括自举样本和自举DQN，深度搜索包括深度搜索测试和自举DQN驱动深度搜索，环境背景包括生成在线自举DQN和自举DQN驱动。自举DQN是一种结合了深度学习与深度探索的实用强化学习算法，证明了自举可以对深度神经网络产生有效的不确定性估计，也可扩展到大规模的并行系统，在多个时间步骤上对信息进行排序，保证样本的多样性；在复杂的环境中自举DQN作为有效的增强学习中的一种算法，并行处理大量数据，计算成本低，学习效率高，性能表现优异。

Description

一种基于自举DQN的增强学习深度搜索方法

技术领域

本发明涉及深度学习领域，尤其是涉及了一种基于自举DQN的增强学习深度搜索方法。

背景技术

增强学习是机器学习方法中的一种，完成从环境状态到动作映射学习，根据最大的反馈值选择最优的策略，搜索策略选择最优的动作，引起状态的变化得到延迟反馈值，评估函数，迭代循环，直到满足学习条件即终止学习。有效的深度搜索对于增强学习(RL)是一个重大的挑战，常用的算法如抖动算法等都需要大量的数据，然而在现实中很难获得如此大量的数据，正因无法收集到正确的对应学习的数据，使得学习效率低且计算成本高。

发明内容

为解决上述问题，本发明提供一种基于自举DQN的增强学习深度搜索方法，其主要内容包括自举Deep Q Network(DQN)、深度搜索和环境背景；其中自举Deep Q Network包括自举样本和自举DQN，深度搜索包括深度搜索测试和自举DQN驱动深度搜索，环境背景包括生成在线自举DQN和自举DQN驱动。

其中自举样本，自举原则是近似人口分布的样本分布最常见的形式，自举用来作为输入数据集D和输入估计从自举分布中生成样本，基数的数据集相当于D通过更换均匀采样，自举样本估计采用该网络由一个含K个“头”的独立分支的共享的框架组成，每一个“头”只在其自举子样本数据训练，代表一个单一的自举样本共享网络学习所有数据的联合特征，提供显着的计算优势，在“头”之间的多样性成本低；这种类型的自举可以在单一向前/向后传递有效地训练，我们训练一个完全连接的2层神经网络，每层有50线性单元(ReLU)，样本数据中50个自举样品，作为标准，我们用随机参数值初始化这些网络，获得模型中重要的初始多样性。

其中自举DQN，对于一个策略π，我们定义一个在状态s的动作值a，

其中γ∈(0,1)是一个贴现因素，平衡即时与未来的反馈值r_t；表明初始状态s，初始动作是a，之后策略π选择动作，最优值为：

Q^*(s，a)：＝max_πQ^π(s，a) (2)

扩展到更大的网络，学习Q值函数的参数估计Q(s,a；θ)，使用神经网络来估计这个值；Q-学习从状态s、动作值a、反馈值r_t进行更新，新状态s_t+1通过下式确定：

其中α是标量学习率，是目标值r_t+γmax_aQ(s_t+1，a；θ^-)，θ^-是目标网络参数，固定为θ^-＝θ_t；

Q-学习的更新提高DQN稳定性，首先，采用从经验缓冲的采样转换的算法学习，而不是完全在线学习；其次，该算法使用参数θ^-的目标网络，该参数从学习网络θ^-←θ_t复制，每τ的时间步更新之间保持固定；双DQN修改目标有助于进行下一步：

自举DQN通过自举修改DQN近似分布的Q值，在每一集的开始，自举DQN样品从近似后验单值函数，然后个体根据策略使样品在这段时间最优；我们有效地实现了这个算法，建立K∈N自举估计Q值函数的并联；重要的是，这些函数“头”的每一个Q_k(s,a；θ)对自己的目标网络Q_k(s,a；θ^-)进行培训，每个Q₁,…,Q_k提供时间延长估计值的不确定性通过TD估计；为了跟踪哪些数据属于哪个自举“头”我们存储的标志w₁,…,w_k∈{0,1}，说明这“头”参与哪些数据；我们选择k＝{1,…,K}的引导样本作为近似随机。

其中深度搜索，不确定性估计允许个体直接搜索其潜在的信息状态和行动；这个选择定向的搜索，定向搜索无法保证效率，搜索一定要保证深度；深度搜索意味着在多个时间步长上进行的搜索，增强学习(RL)需要在几个时间步骤设置，有效的实体需要考虑多个时间步长之后的反馈值，即有效的搜索需要考虑既不立即反馈，也不立即获得信息；为了说明这种区别，考虑一个简单的确定链{s_-3,…,s₊₃}从状态s₀开始，确定性行动“左”和“右”，所有状态都有零反馈，除了最左边的状态s_-3，已知反馈值∈>0，最右边的s₃状态未知；为了从s₀三步内达到奖励反馈状态或获取信息状态；实体必须计划在几个时间步长一致的策略。

其中深度搜索测试，为了突出深度搜索的必要性，进行深度搜索测试，环境可以通过长度N>3的链来描述，代理重置为初始状态s₂之后活动的每一段持续N+9步，考虑两个特征映射：

在{0,1}^N中，获得的结果φ_therm在所有DQN变种中更好的泛化，当它已经成功地完成了一百集最佳反馈值为10，该算法已经成功地学习了最佳的政策，对于每个链的长度，我们跑了2000个学习算法跨越三个步长。

其中自举DQN驱动深度搜索，自举DQN直接采用样本值函数，所以不需要进一步的规划步骤，该算法和PRLSVL类似，但采用了神经网络代替线性值函数，自举代替高斯采样；线性设置的分析表明，这种非线性的方法可以很好地工作，只要分布{Q¹,…,Q^K}保持随机性；自举DQN依赖网络的权值随机初始化获得优先诱导的多样性，初始的多样性足够维持不同的归纳和新的以及看不见的大而深的神经网络状态，通过使用人工先验数据维持多样性；

自举DQN不需要任何单一网络Q^K在每一步初始化选择“正确”的政策，只需要用多样化的方式概括网络到行动，网络使它的状态达到为止；只要一个“头”K的则自举TD可以返回这个信号s＝1，通过目标网络带动深度搜索。

其中学习环境，通过50个游戏学习环境评价算法，事实上，许多游戏是结构化的，自举DQN达到峰值性能大致和DQN相似，改进的深度搜索近似人类的方式，通过学习显著提高累积反馈，遵循网络架构和基准的设置，网络结构和DQN的卷积结构相同，除了我们在卷积层之后分裂10个独立的自举“头”。

8.基于权利要求书7所述的生成在线自举DQN，其特征在于，生成在线自举DQN样本计算有效的方式，为了保持计算成本与DQN有可比性，我们专注于两个关键问题：需要多少自举“头”，我们应该如何通过梯度的共享网络；对不同“头”K，更多“头”数导致更快的学习，当K值增加到10之后数量继续增加，学习效率的增加不太明显，我们选择K＝10；共享的网络体系结构允许我们通过反向传播训练这个组合网络，K网络“头”有效共享卷积网络增加了这部分的网络学习率，在一些游戏中，这会导致早熟和次优收敛，最终选用最好的梯度1/K的正常化，但这也导致早期学习较慢。

其中自举DQN驱动，自举DQN驱动在一些游戏中进行有效搜索，对于相同数量的游戏体验，自举DQN的性能表现一般优于DQN的∈-贪婪算法搜索，在游戏中DQN表现良好，自举DQN通常表现的更好。

进一步地，自举DQN比DQN学得快，自举DQN提高了大部分游戏的最后得分，然而，有效的搜索真正的好处意味着自举DQN比DQN通过学习累积的反馈按数量级要好的多。

附图说明

图1是本发明一种基于自举DQN的增强学习深度搜索方法的系统框架图。

图2是本发明一种基于自举DQN的增强学习深度搜索方法的神经网络中产生自举样本方法流程图。

图3是本发明一种基于自举DQN的增强学习深度搜索方法的几种算法的前瞻规划树示意图。

图4是本发明一种基于自举DQN的增强学习深度搜索方法的需要深入探索的可扩展环境示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于自举DQN的增强学习深度搜索方法的系统框架图。主要包括自举Deep Q Network(DQN)、深度搜索和环境背景；其中自举Deep Q Network包括自举样本和自举DQN，深度搜索包括深度搜索测试和自举DQN驱动深度搜索，环境背景包括生成在线自举DQN和自举DQN驱动。

其中生成在线自举DQN，生成在线自举DQN样本计算有效的方式，为了保持计算成本与DQN有可比性，我们专注于两个关键问题：需要多少自举“头”，我们应该如何通过梯度的共享网络；对不同“头”的K，更多“头”数导致更快的学习，当K值增加到10之后数量继续增加，学习效率的增加不太明显，我们选择K＝10；共享的网络体系结构允许我们通过反向传播训练这个组合网络，K网络“头”有效共享卷积网络增加了这部分的网络学习率，在一些游戏中，这会导致早熟和次优收敛，最终选用最好的梯度1/K的正常化，但这也导致早期学习较慢。

图2是本发明一种基于自举DQN的增强学习深度搜索方法的神经网络中产生自举样本方法流程图。对于一个策略π，我们定义一个在状态s的动作值a，

Q^*(s，a)：＝max_πQπ(s，a) (2)

图3是本发明一种基于自举DQN的增强学习深度搜索方法的几种算法的前瞻规划树示意图。描述了在实验MDP中几种算法前瞻规划树，(a)、(b)、(c)和(d)分别表示四种不同的算法，动作“左”是灰色，动作“右”是黑色。反馈状态描绘为灰色，信息状态为黑色。虚线表明实体可以预先计划是反馈值或信息。不像Bandit算法，RL可以计划将来的反馈值。只有RL和深度搜索结合可以计划学习。深度搜索，不确定性估计允许个体直接搜索其潜在的信息状态和行动；这个选择定向的搜索，定向搜索无法保证效率，搜索一定要保证深度；深度搜索意味着在多个时间步长上进行的搜索，增强学习(RL)需要在几个时间步骤设置，有效的实体需要考虑多个时间步长之后的反馈值，即有效的搜索需要考虑既不立即反馈，也不立即获得信息；为了说明这种区别，考虑一个简单的确定链{s_-3,…,s₊₃}从状态s₀开始，确定性行动“左”和“右”，所有状态都有零反馈，除了最左边的状态s_-3，已知反馈值∈>0，最右边的s₃状态未知；为了从s₀三步内达到奖励反馈状态或获取信息状态；实体必须计划在几个时间步长一致的策略。

图4是本发明一种基于自举DQN的增强学习深度搜索方法的需要深入探索的可扩展环境示意图。为了突出深度搜索的必要性，进行深度搜索测试，环境可以通过长度N>3的链来描述，代理重置为初始状态s₂之后活动的每一段持续N+9步，考虑两个特征映射：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于自举DQN的增强学习深度搜索方法，其特征在于，主要包括自举Deep QNetwork(DQN)、深度搜索和环境背景；其中自举Deep Q Network包括自举样本和自举DQN，深度搜索包括深度搜索测试和自举DQN驱动深度搜索，环境背景包括生成在线自举DQN和自举DQN驱动。

2.基于权利要求书1所述的自举样本，其特征在于，自举原则是近似人口分布的样本分布最常见的形式，自举用来作为输入数据集D和输入估计从自举分布中生成样本，基数的数据集相当于D通过更换均匀采样，自举样本估计采用该网络由一个含K个“头”的独立分支的共享的框架组成，每一个“头”只在其自举子样本数据训练，代表一个单一的自举样本共享网络学习所有数据的联合特征，提供显着的计算优势，在“头”之间的多样性成本低；这种类型的自举可以在单一向前/向后传递有效地训练，我们训练一个完全连接的2层神经网络，每层有50线性单元(ReLU)，样本数据中50个自举样品，作为标准，我们用随机参数值初始化这些网络，获得模型中重要的初始多样性。

3.基于权利要求书1所述的自举DQN，其特征在于，对于一个策略π，我们定义一个在状态s的动作值a，

Q^*(s，a)：＝max_πQ^π(s，a) (2)

θ_{t + 1} &LeftArrow; θ_{t} + α (y_{t}^{Q} - Q (s_{t}, a_{t}; θ_{t})) {&dtri;}_{θ} Q (s_{t}, a_{t}; θ_{t}) - - - (3)

y_{t}^{Q} &LeftArrow; r_{t} + γ \max_{a} Q (s_{t + 1}, \arg \max_{a} Q (s_{t + 1}, a; θ_{t}); θ^{-})) - - - (4)

4.基于权利要求书1所述的深度搜索，其特征在于，不确定性估计允许个体直接搜索其潜在的信息状态和行动；这个选择定向的搜索，定向搜索无法保证效率，搜索一定要保证深度；深度搜索意味着在多个时间步长上进行的搜索，增强学习(RL)需要在几个时间步骤设置，有效的实体需要考虑多个时间步长之后的反馈值，即有效的搜索需要考虑既不立即反馈，也不立即获得信息；为了说明这种区别，考虑一个简单的确定链{s_-3,…,s₊₃}从状态s₀开始，确定性行动“左”和“右”，所有状态都有零反馈，除了最左边的状态s_-3，已知反馈值∈>0，最右边的s₃状态未知；为了从s₀三步内达到奖励反馈状态或获取信息状态；实体必须计划在几个时间步长一致的策略。

5.基于权利要求书1所述的深度搜索测试，其特征在于，为了突出深度搜索的必要性，进行深度搜索测试，环境可以通过长度N>3的链来描述，代理重置为初始状态s₂之后活动的每一段持续N+9步，考虑两个特征映射：

6.基于权利要求书1所述的自举DQN驱动深度搜索，其特征在于，自举DQN直接采用样本值函数，所以不需要进一步的规划步骤，该算法和PRLSVL类似，但采用了神经网络代替线性值函数，自举代替高斯采样；线性设置的分析表明，这种非线性的方法可以很好地工作，只要分布{Q¹,…,Q^K}保持随机性；自举DQN依赖网络的权值随机初始化获得优先诱导的多样性，初始的多样性足够维持不同的归纳和新的以及看不见的大而深的神经网络状态，通过使用人工先验数据维持多样性；

7.基于权利要求书1所述的学习环境，其特征在于，通过50个游戏学习环境评价算法，事实上，许多游戏是结构化的，自举DQN达到峰值性能大致和DQN相似，改进的深度搜索近似人类的方式，通过学习显著提高累积反馈，遵循网络架构和基准的设置，网络结构和DQN的卷积结构相同，除了我们在卷积层之后分裂10个独立的自举“头”。

8.基于权利要求书1所述的生成在线自举DQN，其特征在于，生成在线自举DQN样本计算有效的方式，为了保持计算成本与DQN有可比性，我们专注于两个关键问题：需要多少自举“头”，我们应该如何通过梯度的共享网络；对不同“头”K，更多“头”数导致更快的学习，当K值增加到10之后数量继续增加，学习效率的增加不太明显，我们选择K＝10；共享的网络体系结构允许我们通过反向传播训练这个组合网络，K网络“头”有效共享卷积网络增加了这部分的网络学习率，在一些游戏中，这会导致早熟和次优收敛，最终选用最好的梯度1/K的正常化，但这也导致早期学习较慢。

9.基于权利要求书1所述的自举DQN驱动，其特征在于，自举DQN驱动在一些游戏中进行有效搜索，对于相同数量的游戏体验，自举DQN的性能表现一般优于DQN的∈-贪婪算法搜索，在游戏中DQN表现良好，自举DQN通常表现的更好。

10.基于权利要求书9所述的性能表现，其特征在于，自举DQN比DQN学得快，自举DQN提高了大部分游戏的最后得分，然而，有效的搜索真正的好处意味着自举DQN比DQN通过学习累积的反馈按数量级要好的多。