CN106779072A - 一种基于自举dqn的增强学习深度搜索方法 - Google Patents
一种基于自举dqn的增强学习深度搜索方法 Download PDFInfo
- Publication number
- CN106779072A CN106779072A CN201611207986.5A CN201611207986A CN106779072A CN 106779072 A CN106779072 A CN 106779072A CN 201611207986 A CN201611207986 A CN 201611207986A CN 106779072 A CN106779072 A CN 106779072A
- Authority
- CN
- China
- Prior art keywords
- bootstrapping
- dqn
- network
- search
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于自举DQN的增强学习深度搜索方法,主要内容包括自举Deep Q Network(DQN)、深度搜索和环境背景;其中自举Deep Q Network包括自举样本和自举DQN,深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自举DQN驱动。自举DQN是一种结合了深度学习与深度探索的实用强化学习算法,证明了自举可以对深度神经网络产生有效的不确定性估计,也可扩展到大规模的并行系统,在多个时间步骤上对信息进行排序,保证样本的多样性;在复杂的环境中自举DQN作为有效的增强学习中的一种算法,并行处理大量数据,计算成本低,学习效率高,性能表现优异。
Description
技术领域
本发明涉及深度学习领域,尤其是涉及了一种基于自举DQN的增强学习深度搜索方法。
背景技术
增强学习是机器学习方法中的一种,完成从环境状态到动作映射学习,根据最大的反馈值选择最优的策略,搜索策略选择最优的动作,引起状态的变化得到延迟反馈值,评估函数,迭代循环,直到满足学习条件即终止学习。有效的深度搜索对于增强学习(RL)是一个重大的挑战,常用的算法如抖动算法等都需要大量的数据,然而在现实中很难获得如此大量的数据,正因无法收集到正确的对应学习的数据,使得学习效率低且计算成本高。
本发明提出了一种基于自举DQN的增强学习深度搜索方法,主要内容包括自举Deep Q Network(DQN)、深度搜索和环境背景;其中自举Deep Q Network包括自举样本和自举DQN,深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自举DQN驱动。自举DQN是一种结合了深度学习与深度探索的实用强化学习算法,证明了自举可以对深度神经网络产生有效的不确定性估计,也可扩展到大规模的并行系统,在多个时间步骤上对信息进行排序,保证样本的多样性;在复杂的环境中自举DQN作为有效的增强学习中的一种算法,并行处理大量数据,计算成本低,学习效率高,性能表现优异。
发明内容
为解决上述问题,本发明提供一种基于自举DQN的增强学习深度搜索方法,其主要内容包括自举Deep Q Network(DQN)、深度搜索和环境背景;其中自举Deep Q Network包括自举样本和自举DQN,深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自举DQN驱动。
其中自举样本,自举原则是近似人口分布的样本分布最常见的形式,自举用来作为输入数据集D和输入估计从自举分布中生成样本,基数的数据集相当于D通过更换均匀采样,自举样本估计采用该网络由一个含K个“头”的独立分支的共享的框架组成,每一个“头”只在其自举子样本数据训练,代表一个单一的自举样本共享网络学习所有数据的联合特征,提供显着的计算优势,在“头”之间的多样性成本低;这种类型的自举可以在单一向前/向后传递有效地训练,我们训练一个完全连接的2层神经网络,每层有50线性单元(ReLU),样本数据中50个自举样品,作为标准,我们用随机参数值初始化这些网络,获得模型中重要的初始多样性。
其中自举DQN,对于一个策略π,我们定义一个在状态s的动作值a,
其中γ∈(0,1)是一个贴现因素,平衡即时与未来的反馈值rt;表明初始状态s,初始动作是a,之后策略π选择动作,最优值为:
Q*(s,a):=maxπQπ(s,a) (2)
扩展到更大的网络,学习Q值函数的参数估计Q(s,a;θ),使用神经网络来估计这个值;Q-学习从状态s、动作值a、反馈值rt进行更新,新状态st+1通过下式确定:
其中α是标量学习率,是目标值rt+γmaxaQ(st+1,a;θ-),θ-是目标网络参数,固定为θ-=θt;
Q-学习的更新提高DQN稳定性,首先,采用从经验缓冲的采样转换的算法学习,而不是完全在线学习;其次,该算法使用参数θ-的目标网络,该参数从学习网络θ-←θt复制,每τ的时间步更新之间保持固定;双DQN修改目标有助于进行下一步:
自举DQN通过自举修改DQN近似分布的Q值,在每一集的开始,自举DQN样品从近似后验单值函数,然后个体根据策略使样品在这段时间最优;我们有效地实现了这个算法,建立K∈N自举估计Q值函数的并联;重要的是,这些函数“头”的每一个Qk(s,a;θ)对自己的目标网络Qk(s,a;θ-)进行培训,每个Q1,…,Qk提供时间延长估计值的不确定性通过TD估计;为了跟踪哪些数据属于哪个自举“头”我们存储的标志w1,…,wk∈{0,1},说明这“头”参与哪些数据;我们选择k={1,…,K}的引导样本作为近似随机。
其中深度搜索,不确定性估计允许个体直接搜索其潜在的信息状态和行动;这个选择定向的搜索,定向搜索无法保证效率,搜索一定要保证深度;深度搜索意味着在多个时间步长上进行的搜索,增强学习(RL)需要在几个时间步骤设置,有效的实体需要考虑多个时间步长之后的反馈值,即有效的搜索需要考虑既不立即反馈,也不立即获得信息;为了说明这种区别,考虑一个简单的确定链{s-3,…,s+3}从状态s0开始,确定性行动“左”和“右”,所有状态都有零反馈,除了最左边的状态s-3,已知反馈值∈>0,最右边的s3状态未知;为了从s0三步内达到奖励反馈状态或获取信息状态;实体必须计划在几个时间步长一致的策略。
其中深度搜索测试,为了突出深度搜索的必要性,进行深度搜索测试,环境可以通过长度N>3的链来描述,代理重置为初始状态s2之后活动的每一段持续N+9步,考虑两个特征映射:
在{0,1}N中,获得的结果φtherm在所有DQN变种中更好的泛化,当它已经成功地完成了一百集最佳反馈值为10,该算法已经成功地学习了最佳的政策,对于每个链的长度,我们跑了2000个学习算法跨越三个步长。
其中自举DQN驱动深度搜索,自举DQN直接采用样本值函数,所以不需要进一步的规划步骤,该算法和PRLSVL类似,但采用了神经网络代替线性值函数,自举代替高斯采样;线性设置的分析表明,这种非线性的方法可以很好地工作,只要分布{Q1,…,QK}保持随机性;自举DQN依赖网络的权值随机初始化获得优先诱导的多样性,初始的多样性足够维持不同的归纳和新的以及看不见的大而深的神经网络状态,通过使用人工先验数据维持多样性;
自举DQN不需要任何单一网络QK在每一步初始化选择“正确”的政策,只需要用多样化的方式概括网络到行动,网络使它的状态达到为止;只要一个“头”K的 则自举TD可以返回这个信号s=1,通过目标网络带动深度搜索。
其中学习环境,通过50个游戏学习环境评价算法,事实上,许多游戏是结构化的,自举DQN达到峰值性能大致和DQN相似,改进的深度搜索近似人类的方式,通过学习显著提高累积反馈,遵循网络架构和基准的设置,网络结构和DQN的卷积结构相同,除了我们在卷积层之后分裂10个独立的自举“头”。
8.基于权利要求书7所述的生成在线自举DQN,其特征在于,生成在线自举DQN样本计算有效的方式,为了保持计算成本与DQN有可比性,我们专注于两个关键问题:需要多少自举“头”,我们应该如何通过梯度的共享网络;对不同“头”K,更多“头”数导致更快的学习,当K值增加到10之后数量继续增加,学习效率的增加不太明显,我们选择K=10;共享的网络体系结构允许我们通过反向传播训练这个组合网络,K网络“头”有效共享卷积网络增加了这部分的网络学习率,在一些游戏中,这会导致早熟和次优收敛,最终选用最好的梯度1/K的正常化,但这也导致早期学习较慢。
其中自举DQN驱动,自举DQN驱动在一些游戏中进行有效搜索,对于相同数量的游戏体验,自举DQN的性能表现一般优于DQN的∈-贪婪算法搜索,在游戏中DQN表现良好,自举DQN通常表现的更好。
进一步地,自举DQN比DQN学得快,自举DQN提高了大部分游戏的最后得分,然而,有效的搜索真正的好处意味着自举DQN比DQN通过学习累积的反馈按数量级要好的多。
附图说明
图1是本发明一种基于自举DQN的增强学习深度搜索方法的系统框架图。
图2是本发明一种基于自举DQN的增强学习深度搜索方法的神经网络中产生自举样本方法流程图。
图3是本发明一种基于自举DQN的增强学习深度搜索方法的几种算法的前瞻规划树示意图。
图4是本发明一种基于自举DQN的增强学习深度搜索方法的需要深入探索的可扩展环境示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于自举DQN的增强学习深度搜索方法的系统框架图。主要包括自举Deep Q Network(DQN)、深度搜索和环境背景;其中自举Deep Q Network包括自举样本和自举DQN,深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自举DQN驱动。
其中自举样本,自举原则是近似人口分布的样本分布最常见的形式,自举用来作为输入数据集D和输入估计从自举分布中生成样本,基数的数据集相当于D通过更换均匀采样,自举样本估计采用该网络由一个含K个“头”的独立分支的共享的框架组成,每一个“头”只在其自举子样本数据训练,代表一个单一的自举样本共享网络学习所有数据的联合特征,提供显着的计算优势,在“头”之间的多样性成本低;这种类型的自举可以在单一向前/向后传递有效地训练,我们训练一个完全连接的2层神经网络,每层有50线性单元(ReLU),样本数据中50个自举样品,作为标准,我们用随机参数值初始化这些网络,获得模型中重要的初始多样性。
其中自举DQN驱动深度搜索,自举DQN直接采用样本值函数,所以不需要进一步的规划步骤,该算法和PRLSVL类似,但采用了神经网络代替线性值函数,自举代替高斯采样;线性设置的分析表明,这种非线性的方法可以很好地工作,只要分布{Q1,…,QK}保持随机性;自举DQN依赖网络的权值随机初始化获得优先诱导的多样性,初始的多样性足够维持不同的归纳和新的以及看不见的大而深的神经网络状态,通过使用人工先验数据维持多样性;
自举DQN不需要任何单一网络QK在每一步初始化选择“正确”的政策,只需要用多样化的方式概括网络到行动,网络使它的状态达到为止;只要一个“头”K的 则自举TD可以返回这个信号s=1,通过目标网络带动深度搜索。
其中学习环境,通过50个游戏学习环境评价算法,事实上,许多游戏是结构化的,自举DQN达到峰值性能大致和DQN相似,改进的深度搜索近似人类的方式,通过学习显著提高累积反馈,遵循网络架构和基准的设置,网络结构和DQN的卷积结构相同,除了我们在卷积层之后分裂10个独立的自举“头”。
其中生成在线自举DQN,生成在线自举DQN样本计算有效的方式,为了保持计算成本与DQN有可比性,我们专注于两个关键问题:需要多少自举“头”,我们应该如何通过梯度的共享网络;对不同“头”的K,更多“头”数导致更快的学习,当K值增加到10之后数量继续增加,学习效率的增加不太明显,我们选择K=10;共享的网络体系结构允许我们通过反向传播训练这个组合网络,K网络“头”有效共享卷积网络增加了这部分的网络学习率,在一些游戏中,这会导致早熟和次优收敛,最终选用最好的梯度1/K的正常化,但这也导致早期学习较慢。
其中自举DQN驱动,自举DQN驱动在一些游戏中进行有效搜索,对于相同数量的游戏体验,自举DQN的性能表现一般优于DQN的∈-贪婪算法搜索,在游戏中DQN表现良好,自举DQN通常表现的更好。
进一步地,自举DQN比DQN学得快,自举DQN提高了大部分游戏的最后得分,然而,有效的搜索真正的好处意味着自举DQN比DQN通过学习累积的反馈按数量级要好的多。
图2是本发明一种基于自举DQN的增强学习深度搜索方法的神经网络中产生自举样本方法流程图。对于一个策略π,我们定义一个在状态s的动作值a,
其中γ∈(0,1)是一个贴现因素,平衡即时与未来的反馈值rt;表明初始状态s,初始动作是a,之后策略π选择动作,最优值为:
Q*(s,a):=maxπQπ(s,a) (2)
扩展到更大的网络,学习Q值函数的参数估计Q(s,a;θ),使用神经网络来估计这个值;Q-学习从状态s、动作值a、反馈值rt进行更新,新状态st+1通过下式确定:
其中α是标量学习率,是目标值rt+γmaxaQ(st+1,a;θ-),θ-是目标网络参数,固定为θ-=θt;
Q-学习的更新提高DQN稳定性,首先,采用从经验缓冲的采样转换的算法学习,而不是完全在线学习;其次,该算法使用参数θ-的目标网络,该参数从学习网络θ-←θt复制,每τ的时间步更新之间保持固定;双DQN修改目标有助于进行下一步:
自举DQN通过自举修改DQN近似分布的Q值,在每一集的开始,自举DQN样品从近似后验单值函数,然后个体根据策略使样品在这段时间最优;我们有效地实现了这个算法,建立K∈N自举估计Q值函数的并联;重要的是,这些函数“头”的每一个Qk(s,a;θ)对自己的目标网络Qk(s,a;θ-)进行培训,每个Q1,…,Qk提供时间延长估计值的不确定性通过TD估计;为了跟踪哪些数据属于哪个自举“头”我们存储的标志w1,…,wk∈{0,1},说明这“头”参与哪些数据;我们选择k={1,…,K}的引导样本作为近似随机。
图3是本发明一种基于自举DQN的增强学习深度搜索方法的几种算法的前瞻规划树示意图。描述了在实验MDP中几种算法前瞻规划树,(a)、(b)、(c)和(d)分别表示四种不同的算法,动作“左”是灰色,动作“右”是黑色。反馈状态描绘为灰色,信息状态为黑色。虚线表明实体可以预先计划是反馈值或信息。不像Bandit算法,RL可以计划将来的反馈值。只有RL和深度搜索结合可以计划学习。深度搜索,不确定性估计允许个体直接搜索其潜在的信息状态和行动;这个选择定向的搜索,定向搜索无法保证效率,搜索一定要保证深度;深度搜索意味着在多个时间步长上进行的搜索,增强学习(RL)需要在几个时间步骤设置,有效的实体需要考虑多个时间步长之后的反馈值,即有效的搜索需要考虑既不立即反馈,也不立即获得信息;为了说明这种区别,考虑一个简单的确定链{s-3,…,s+3}从状态s0开始,确定性行动“左”和“右”,所有状态都有零反馈,除了最左边的状态s-3,已知反馈值∈>0,最右边的s3状态未知;为了从s0三步内达到奖励反馈状态或获取信息状态;实体必须计划在几个时间步长一致的策略。
图4是本发明一种基于自举DQN的增强学习深度搜索方法的需要深入探索的可扩展环境示意图。为了突出深度搜索的必要性,进行深度搜索测试,环境可以通过长度N>3的链来描述,代理重置为初始状态s2之后活动的每一段持续N+9步,考虑两个特征映射:
在{0,1}N中,获得的结果φtherm在所有DQN变种中更好的泛化,当它已经成功地完成了一百集最佳反馈值为10,该算法已经成功地学习了最佳的政策,对于每个链的长度,我们跑了2000个学习算法跨越三个步长。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于自举DQN的增强学习深度搜索方法,其特征在于,主要包括自举Deep QNetwork(DQN)、深度搜索和环境背景;其中自举Deep Q Network包括自举样本和自举DQN,深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自举DQN驱动。
2.基于权利要求书1所述的自举样本,其特征在于,自举原则是近似人口分布的样本分布最常见的形式,自举用来作为输入数据集D和输入估计从自举分布中生成样本,基数的数据集相当于D通过更换均匀采样,自举样本估计采用该网络由一个含K个“头”的独立分支的共享的框架组成,每一个“头”只在其自举子样本数据训练,代表一个单一的自举样本共享网络学习所有数据的联合特征,提供显着的计算优势,在“头”之间的多样性成本低;这种类型的自举可以在单一向前/向后传递有效地训练,我们训练一个完全连接的2层神经网络,每层有50线性单元(ReLU),样本数据中50个自举样品,作为标准,我们用随机参数值初始化这些网络,获得模型中重要的初始多样性。
3.基于权利要求书1所述的自举DQN,其特征在于,对于一个策略π,我们定义一个在状态s的动作值a,
其中γ∈(0,1)是一个贴现因素,平衡即时与未来的反馈值rt;表明初始状态s,初始动作是a,之后策略π选择动作,最优值为:
Q*(s,a):=maxπQπ(s,a) (2)
扩展到更大的网络,学习Q值函数的参数估计Q(s,a;θ),使用神经网络来估计这个值;Q-学习从状态s、动作值a、反馈值rt进行更新,新状态st+1通过下式确定:
其中α是标量学习率,是目标值rt+γmaxaQ(st+1,a;θ-),θ-是目标网络参数,固定为θ-=θt;
Q-学习的更新提高DQN稳定性,首先,采用从经验缓冲的采样转换的算法学习,而不是完全在线学习;其次,该算法使用参数θ-的目标网络,该参数从学习网络θ-←θt复制,每τ的时间步更新之间保持固定;双DQN修改目标有助于进行下一步:
自举DQN通过自举修改DQN近似分布的Q值,在每一集的开始,自举DQN样品从近似后验单值函数,然后个体根据策略使样品在这段时间最优;我们有效地实现了这个算法,建立K∈N自举估计Q值函数的并联;重要的是,这些函数“头”的每一个Qk(s,a;θ)对自己的目标网络Qk(s,a;θ-)进行培训,每个Q1,…,Qk提供时间延长估计值的不确定性通过TD估计;为了跟踪哪些数据属于哪个自举“头”我们存储的标志w1,…,wk∈{0,1},说明这“头”参与哪些数据;我们选择k={1,…,K}的引导样本作为近似随机。
4.基于权利要求书1所述的深度搜索,其特征在于,不确定性估计允许个体直接搜索其潜在的信息状态和行动;这个选择定向的搜索,定向搜索无法保证效率,搜索一定要保证深度;深度搜索意味着在多个时间步长上进行的搜索,增强学习(RL)需要在几个时间步骤设置,有效的实体需要考虑多个时间步长之后的反馈值,即有效的搜索需要考虑既不立即反馈,也不立即获得信息;为了说明这种区别,考虑一个简单的确定链{s-3,…,s+3}从状态s0开始,确定性行动“左”和“右”,所有状态都有零反馈,除了最左边的状态s-3,已知反馈值∈>0,最右边的s3状态未知;为了从s0三步内达到奖励反馈状态或获取信息状态;实体必须计划在几个时间步长一致的策略。
5.基于权利要求书1所述的深度搜索测试,其特征在于,为了突出深度搜索的必要性,进行深度搜索测试,环境可以通过长度N>3的链来描述,代理重置为初始状态s2之后活动的每一段持续N+9步,考虑两个特征映射:
在{0,1}N中,获得的结果φtherm在所有DQN变种中更好的泛化,当它已经成功地完成了一百集最佳反馈值为10,该算法已经成功地学习了最佳的政策,对于每个链的长度,我们跑了2000个学习算法跨越三个步长。
6.基于权利要求书1所述的自举DQN驱动深度搜索,其特征在于,自举DQN直接采用样本值函数,所以不需要进一步的规划步骤,该算法和PRLSVL类似,但采用了神经网络代替线性值函数,自举代替高斯采样;线性设置的分析表明,这种非线性的方法可以很好地工作,只要分布{Q1,…,QK}保持随机性;自举DQN依赖网络的权值随机初始化获得优先诱导的多样性,初始的多样性足够维持不同的归纳和新的以及看不见的大而深的神经网络状态,通过使用人工先验数据维持多样性;
自举DQN不需要任何单一网络QK在每一步初始化选择“正确”的政策,只需要用多样化的方式概括网络到行动,网络使它的状态达到为止;只要一个“头”K的 则自举TD可以返回这个信号s=1,通过目标网络带动深度搜索。
7.基于权利要求书1所述的学习环境,其特征在于,通过50个游戏学习环境评价算法,事实上,许多游戏是结构化的,自举DQN达到峰值性能大致和DQN相似,改进的深度搜索近似人类的方式,通过学习显著提高累积反馈,遵循网络架构和基准的设置,网络结构和DQN的卷积结构相同,除了我们在卷积层之后分裂10个独立的自举“头”。
8.基于权利要求书1所述的生成在线自举DQN,其特征在于,生成在线自举DQN样本计算有效的方式,为了保持计算成本与DQN有可比性,我们专注于两个关键问题:需要多少自举“头”,我们应该如何通过梯度的共享网络;对不同“头”K,更多“头”数导致更快的学习,当K值增加到10之后数量继续增加,学习效率的增加不太明显,我们选择K=10;共享的网络体系结构允许我们通过反向传播训练这个组合网络,K网络“头”有效共享卷积网络增加了这部分的网络学习率,在一些游戏中,这会导致早熟和次优收敛,最终选用最好的梯度1/K的正常化,但这也导致早期学习较慢。
9.基于权利要求书1所述的自举DQN驱动,其特征在于,自举DQN驱动在一些游戏中进行有效搜索,对于相同数量的游戏体验,自举DQN的性能表现一般优于DQN的∈-贪婪算法搜索,在游戏中DQN表现良好,自举DQN通常表现的更好。
10.基于权利要求书9所述的性能表现,其特征在于,自举DQN比DQN学得快,自举DQN提高了大部分游戏的最后得分,然而,有效的搜索真正的好处意味着自举DQN比DQN通过学习累积的反馈按数量级要好的多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611207986.5A CN106779072A (zh) | 2016-12-23 | 2016-12-23 | 一种基于自举dqn的增强学习深度搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611207986.5A CN106779072A (zh) | 2016-12-23 | 2016-12-23 | 一种基于自举dqn的增强学习深度搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106779072A true CN106779072A (zh) | 2017-05-31 |
Family
ID=58920267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611207986.5A Pending CN106779072A (zh) | 2016-12-23 | 2016-12-23 | 一种基于自举dqn的增强学习深度搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779072A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463881A (zh) * | 2017-07-07 | 2017-12-12 | 中山大学 | 一种基于深度增强学习的人物图像搜索方法 |
CN108051999A (zh) * | 2017-10-31 | 2018-05-18 | 中国科学技术大学 | 基于深度强化学习的加速器束流轨道控制方法及系统 |
CN108108822A (zh) * | 2018-01-16 | 2018-06-01 | 中国科学技术大学 | 并行训练的异策略深度强化学习方法 |
CN108282587A (zh) * | 2018-01-19 | 2018-07-13 | 重庆邮电大学 | 基于状态跟踪与策略导向下的移动客服对话管理方法 |
CN108363478A (zh) * | 2018-01-09 | 2018-08-03 | 北京大学 | 针对可穿戴设备深度学习应用模型分载系统及方法 |
CN108900419A (zh) * | 2018-08-17 | 2018-11-27 | 北京邮电大学 | Sdn架构下基于深度强化学习的路由决策方法及装置 |
CN109284812A (zh) * | 2018-09-19 | 2019-01-29 | 哈尔滨理工大学 | 一种基于改进dqn的视频游戏模拟方法 |
CN110046746A (zh) * | 2019-03-18 | 2019-07-23 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于强化学习的网络舆情装置的调度方法 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110717600A (zh) * | 2019-09-30 | 2020-01-21 | 京东城市(北京)数字科技有限公司 | 样本池构建方法和装置、以及算法训练方法和装置 |
CN112631216A (zh) * | 2020-12-11 | 2021-04-09 | 江苏晶度半导体科技有限公司 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
CN113467235A (zh) * | 2021-06-10 | 2021-10-01 | 清华大学 | 双足机器人步态控制方法、控制装置 |
CN115545188A (zh) * | 2022-10-24 | 2022-12-30 | 上海人工智能创新中心 | 基于不确定性估计的多任务离线数据共享方法及系统 |
CN115659054A (zh) * | 2022-12-14 | 2023-01-31 | 优友互动(北京)科技有限公司 | 基于强化学习的游戏关卡推荐方法和装置 |
US11640516B2 (en) | 2020-06-03 | 2023-05-02 | International Business Machines Corporation | Deep evolved strategies with reinforcement |
-
2016
- 2016-12-23 CN CN201611207986.5A patent/CN106779072A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463881A (zh) * | 2017-07-07 | 2017-12-12 | 中山大学 | 一种基于深度增强学习的人物图像搜索方法 |
CN108051999A (zh) * | 2017-10-31 | 2018-05-18 | 中国科学技术大学 | 基于深度强化学习的加速器束流轨道控制方法及系统 |
CN108363478A (zh) * | 2018-01-09 | 2018-08-03 | 北京大学 | 针对可穿戴设备深度学习应用模型分载系统及方法 |
CN108108822A (zh) * | 2018-01-16 | 2018-06-01 | 中国科学技术大学 | 并行训练的异策略深度强化学习方法 |
CN108108822B (zh) * | 2018-01-16 | 2020-06-26 | 中国科学技术大学 | 并行训练的异策略深度强化学习方法 |
CN108282587A (zh) * | 2018-01-19 | 2018-07-13 | 重庆邮电大学 | 基于状态跟踪与策略导向下的移动客服对话管理方法 |
CN108282587B (zh) * | 2018-01-19 | 2020-05-26 | 重庆邮电大学 | 基于状态跟踪与策略导向下的移动客服对话管理方法 |
CN108900419B (zh) * | 2018-08-17 | 2020-04-17 | 北京邮电大学 | Sdn架构下基于深度强化学习的路由决策方法及装置 |
CN108900419A (zh) * | 2018-08-17 | 2018-11-27 | 北京邮电大学 | Sdn架构下基于深度强化学习的路由决策方法及装置 |
CN109284812B (zh) * | 2018-09-19 | 2021-11-30 | 哈尔滨理工大学 | 一种基于改进dqn的视频游戏模拟方法 |
CN109284812A (zh) * | 2018-09-19 | 2019-01-29 | 哈尔滨理工大学 | 一种基于改进dqn的视频游戏模拟方法 |
CN110046746A (zh) * | 2019-03-18 | 2019-07-23 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于强化学习的网络舆情装置的调度方法 |
CN110046746B (zh) * | 2019-03-18 | 2021-09-10 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于强化学习的网络舆情装置的调度方法 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110717600A (zh) * | 2019-09-30 | 2020-01-21 | 京东城市(北京)数字科技有限公司 | 样本池构建方法和装置、以及算法训练方法和装置 |
CN110717600B (zh) * | 2019-09-30 | 2021-01-26 | 京东城市(北京)数字科技有限公司 | 样本池构建方法和装置、以及算法训练方法和装置 |
US11640516B2 (en) | 2020-06-03 | 2023-05-02 | International Business Machines Corporation | Deep evolved strategies with reinforcement |
CN112631216A (zh) * | 2020-12-11 | 2021-04-09 | 江苏晶度半导体科技有限公司 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
CN113467235A (zh) * | 2021-06-10 | 2021-10-01 | 清华大学 | 双足机器人步态控制方法、控制装置 |
CN113467235B (zh) * | 2021-06-10 | 2022-09-02 | 清华大学 | 双足机器人步态控制方法、控制装置 |
CN115545188A (zh) * | 2022-10-24 | 2022-12-30 | 上海人工智能创新中心 | 基于不确定性估计的多任务离线数据共享方法及系统 |
CN115659054A (zh) * | 2022-12-14 | 2023-01-31 | 优友互动(北京)科技有限公司 | 基于强化学习的游戏关卡推荐方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106779072A (zh) | 一种基于自举dqn的增强学习深度搜索方法 | |
Wang et al. | Tac-simur: Tactic-based simulative visual analytics of table tennis | |
Newman | Complex systems: A survey | |
Sterman et al. | Path dependence, competition, and succession in the dynamics of scientific revolution | |
Nelson et al. | Comparison of a random search algorithm and mixed integer programming for solving area-based forest plans | |
Wilensky | Modeling nature’s emergent patterns with multi-agent languages | |
Itami | Simulating spatial dynamics: cellular automata theory | |
Hagmann et al. | Enhancing the adaptive capacity of the resource users in natural resource management | |
JP5403727B2 (ja) | 教材選択システムの方法とプログラム | |
Kardan et al. | A new personalized learning path generation method: Aco-map | |
Szadkowski | Towards an orthodox Marxian reading of subsumption (s) of academic labour under capital | |
Ali et al. | A modified cultural algorithm with a balanced performance for the differential evolution frameworks | |
Andersen et al. | The dreaming variational autoencoder for reinforcement learning environments | |
Singh et al. | Study of variation in TSP using genetic algorithm and its operator comparison | |
Mason et al. | Identifying and modeling dynamic preference evolution in multipurpose water resources systems | |
Brose | Improving nature conservancy strategies by ecological network theory | |
Squazzoni et al. | 20 Complexity-friendly policy modelling | |
Mysore et al. | Reward-guided curriculum for robust reinforcement learning | |
Drake | Decision-making in the classroom: A microeconomic analysis | |
Tanna | Decision support system for admission in engineering colleges based on entrance exam marks | |
Ghasemi et al. | The Relationship between application of information, communication technology and organizational effectiveness in physical education departments of universities of Tehran | |
Gruetzemacher et al. | Alternative Techniques for Mapping Paths to HLAI | |
Bommanapally et al. | Navigation hints in serious games | |
Pena et al. | Development of structural analysis virtual modules for iPad application | |
MATEI | Organizational culture and creativity’s perspectives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |