CN105740644B - 一种基于模型学习的清洁机器人最优目标路径规划方法 - Google Patents
一种基于模型学习的清洁机器人最优目标路径规划方法 Download PDFInfo
- Publication number
- CN105740644B CN105740644B CN201610171859.8A CN201610171859A CN105740644B CN 105740644 B CN105740644 B CN 105740644B CN 201610171859 A CN201610171859 A CN 201610171859A CN 105740644 B CN105740644 B CN 105740644B
- Authority
- CN
- China
- Prior art keywords
- state
- action
- transferred
- model
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004140 cleaning Methods 0.000 title abstract 3
- 230000009471 action Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 21
- 230000033001 locomotion Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract 2
- 238000000691 measurement method Methods 0.000 abstract 2
- 238000004088 simulation Methods 0.000 abstract 2
- 230000007613 environmental effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于模型学习的清洁机器人最优目标路径规划方法,针对目前市场中清洁机器人效率不高的问题,在Dyna‑H算法的基础上,提出一种基于自模拟度量和R‑MAX的Dyna算法,该路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna‑H算法为基础,使用R‑MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna‑H中的欧式距离度量方法,从而提高模型的学习效率。本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。
Description
技术领域
本发明涉及一种涉及机器学习中的强化学习方法,具体涉及一种基于模型学习的清洁机器人最优目标路径规划方法。
背景技术
强化学习(Reinforcement Learning,RL)是一种学习环境状态到动作映射的机器学习方法。Agent选择动作作用于环境,改变环境的状态,迁移到新的环境状态,并得到环境的反馈信号。这个反馈信号通常称为奖赏或强化信号,Agent利用它通过一定的算法强化自己已经学习到的经验,它的目标是最大化累计期望奖赏。
传统的强化学习方法利用Agent与环境交互得到的信息进行学习,不断更新值函数使之趋近最优解,例如动态规划(Dynamic Programming,DP),蒙特卡洛(Monte Carlo,MC),和时间差分(Temporal Difference,TD)。这些方法是强化学习的基本方法,许多算法都由它们衍生而来。
模型学习方法的出现使强化学习的算法效率提高了一个台阶,它在近年来已成为强化学习中的一个研究热点。
模型学习的最初思想(Dyna-Q算法)是将采集到的历史样本保存下来,在随后的更新步骤中,除了更新当前时间步的样本外,还从历史样本中抽取一些样本进行更新。这样,样本的利用率得到增加,提高了值函数收敛的效率。在这样的思想下之后进一步演化为对模型的构建,即利用当前得到的样本构建一个环境的模型。在对真实环境的不断探索中,构建的模型会越来越精确和完整,这个模型就可以代替真实环境被充分地利用,节省与真实环境交互的开销。
那么,模型学习的效率就取决于模型构建的速度,模型构建得越快,算法从模型中得到的信息就越有价值。显然,交互获得的样本广度直接影响到模型构建的速度。Dyna-H使用了一种启发式的规划方法,通过预测做出动作后到达的下一个状态与终点之间的欧式距离,来使Agent尽量远离终点,这样就可以使Agent在一个情节中尽可能多地探索环境,避免过早到达终点。
然而,Dyna-H算法是有局限性的。在有障碍物的情况下,两点间的欧式距离并不能很好的反映它们之间的真实距离。可能由于一墙之隔,位于墙一侧的Agent可能需要绕一个大弯才能到达墙另一侧的终点,而欧式距离则显示它们离得很近。另外,Dyna-H保留了Dyna-Q中取历史样本的方法,而没有去为环境建立真正的模型。基于此,算法的性能还可以进一步提高。
在模型学习的方法中,R-MAX是一种高效探索的方法,它的核心思想是假设所有未知的状态-动作所获得的奖赏为最大奖赏Rmax,并转移到终止状态。这样,当选择值最大的动作时,就会选择这个未知动作,从而隐式地达到了探索的目的。当状态-动作对被访问到m次时,则标记该状态-动作对为已知,将来不再探索。这样,所有状态-动作对都能被快速均匀地探索,从而学习到较为精确的模型。
针对Dyna-H中计算状态间距离的局限性,本发明采用更为精确的自模拟度量的方法。首先介绍自模拟关系:若两个状态满足自模拟关系,则它们拥有相同的最优值函数和最优动作。Ferns等人在在自模拟关系的基础之上,利用Kantorovich距离衡量两个概率分布之间的距离,提出了一种可用于衡量两个状态之间远近关系的自模拟度量方法(Bisimulation Metric)。相比于欧式距离,自模拟度量引入了奖赏函数,状态转移函数等要素,能更精确地表示状态之间的距离。
发明内容
本发明目的是:提供一种基于模型学习的清洁机器人最优目标路径规划方法,通过将自模拟度量和R-MAX相结合来改进搜索方式,提高模型学习的效率,从而最终提高值函数的搜索效率,效率的提高使得机器人能够快速地建立环境模型,从而优先选择垃圾最多的地点,并计算出达到该地点的最优路径。
本发明的技术方案是:一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置;
步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);
步骤5)使用ε-Greedy策略选择动作,转入步骤(6);
步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;
步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;
步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);
步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);
步骤10)执行值迭代算法;
步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
作为优选的技术方案,步骤3)中所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数。
作为优选的技术方案,步骤4)中所述距离最大的动作其中,d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态,xg为终结状态。
作为优选的技术方案,步骤8)中计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)的具体步骤如下:
设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u,x′)←C(x,u,x′)/C(x,u);
否则R(x,u)←Rmax,f(x,u,x′)←1;
其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和。
本发明基于模型学习的清洁机器人最优目标路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna-H算法为基础,使用R-MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna-H中的欧式距离度量方法,这两种方法的结合不仅使机器人对环境的探索更完全,而且避免了在早期的探索中过早到达终点使情节结束,从而提高模型的学习效率,另外在有模型的情况下,使用动态规划算法更新值函数,以得到更精确的解,本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。
本发明的优点是:
1.本发明对多样的环境(包括垃圾堆地点固定或随机的情况)有较强的适用性,在模型学习的效率上有很大提高,对机器人探索环境的速度和精度有显著改善,从而能够准确地优先处理垃圾最多的地点。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明实施例中的布局示意图;
图2为本发明的系统工作流程图。
具体实施方式
实施例:
参见图1所示,其黑边为墙,机器人不能到达;两个R点为垃圾较少的地点,达到目标时的奖赏为0;G点为垃圾较多的地点,达到目标时的奖赏为50;到达其余格子奖赏为-1。
参照图2所示,该实施例基于模型学习的清洁机器人最优目标路径规划方法,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置为地图最左上方的格子;
步骤3)判断当前的探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数,若探索完全度η达到阈值I,转入步骤4),否则转入步骤(5);
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作转入步骤(6),其中d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态,xg为终结状态;
步骤5)使用ε-Greedy策略选择动作,转入步骤(6);
步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;
步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点,并观察奖赏r和下一个状态x′;
步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u),设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u,x′)←C(x,u,x′)/C(x,u);
否则R(x,u)←Rmax,f(x,u,x′)←1,其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和;
步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);
步骤10)执行值迭代算法;
步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (3)
1.一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置;
步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数;
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);
步骤5)使用ε-Greedy策略选择动作,转入步骤(6);
步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;
步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;
步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);
步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);
步骤10)执行值迭代算法;
步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
2.根据权利要求1所述的基于模型学习的清洁机器人最优目标路径规划方法,其特征在于:
步骤4)中所述距离最大的动作其中,d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态,xg为终结状态。
3.根据权利要求1所述的基于模型学习的清洁机器人最优目标路径规划方法,其特征在于:
步骤8)中计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)的具体步骤如下:
设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u),f(x,u,x′)←C(x,u,x′)/C(x,u);
否则R(x,u)←Rmax,f(x,u,x′)←1;
其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610171859.8A CN105740644B (zh) | 2016-03-24 | 2016-03-24 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
PCT/CN2016/080332 WO2017161632A1 (zh) | 2016-03-24 | 2016-04-27 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610171859.8A CN105740644B (zh) | 2016-03-24 | 2016-03-24 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740644A CN105740644A (zh) | 2016-07-06 |
CN105740644B true CN105740644B (zh) | 2018-04-13 |
Family
ID=56251985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610171859.8A Active CN105740644B (zh) | 2016-03-24 | 2016-03-24 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105740644B (zh) |
WO (1) | WO2017161632A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106843220B (zh) * | 2017-02-27 | 2019-10-18 | 同济大学 | 一种多Agent围捕-觅食行为控制方法 |
CN107179077B (zh) * | 2017-05-15 | 2020-06-09 | 北京航空航天大学 | 一种基于elm-lrf的自适应视觉导航方法 |
CN107065881B (zh) * | 2017-05-17 | 2019-11-08 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN108415254B (zh) * | 2018-03-12 | 2020-12-11 | 苏州大学 | 基于深度q网络的废品回收机器人控制方法 |
CN108572654A (zh) * | 2018-04-25 | 2018-09-25 | 哈尔滨工程大学 | 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法 |
CN108762249B (zh) * | 2018-04-26 | 2019-11-08 | 常熟理工学院 | 基于近似模型多步优化的清洁机器人最优路径规划方法 |
CN108549232B (zh) * | 2018-05-08 | 2019-11-08 | 常熟理工学院 | 一种基于近似模型规划的室内空气自适应控制方法 |
CN109241552B (zh) * | 2018-07-12 | 2022-04-05 | 哈尔滨工程大学 | 一种基于多约束目标的水下机器人运动规划方法 |
CN109635913A (zh) * | 2018-12-16 | 2019-04-16 | 北京工业大学 | 基于自适应贪婪的q学习算法足球系统仿真方法 |
CN109991981A (zh) * | 2019-04-04 | 2019-07-09 | 尚科宁家(中国)科技有限公司 | 一种扫地机器人回充方法 |
CN110083165B (zh) * | 2019-05-21 | 2022-03-08 | 大连大学 | 一种机器人在复杂狭窄环境下路径规划方法 |
CN110348418B (zh) * | 2019-07-17 | 2022-03-11 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、智能移动设备和存储介质 |
KR102283314B1 (ko) * | 2020-07-01 | 2021-07-28 | 윤수정 | 이동형 항바이러스 로봇 및 그 제어방법 |
CN111896006B (zh) * | 2020-08-11 | 2022-10-04 | 燕山大学 | 一种基于强化学习和启发式搜索的路径规划方法及系统 |
CN112297012B (zh) * | 2020-10-30 | 2022-05-31 | 上海交通大学 | 一种基于自适应模型的机器人强化学习方法 |
CN112507520A (zh) * | 2020-11-12 | 2021-03-16 | 深圳慧拓无限科技有限公司 | 一种基于强化学习的路径规划方法及装置 |
CN113534797B (zh) * | 2021-07-07 | 2024-06-28 | 江苏科技大学 | 一种水上漂浮垃圾识别与采集路径自动规划系统的处理方法 |
CN114879660B (zh) * | 2022-04-14 | 2023-08-15 | 海南大学 | 一种基于目标驱动的机器人环境感知方法 |
CN115229808B (zh) * | 2022-05-25 | 2024-10-18 | 盐池县中赢创能新能源有限公司 | 一种光伏电站清扫机器人及控制方法 |
CN115542912B (zh) * | 2022-09-29 | 2024-06-07 | 福州大学 | 一种基于改进Q-learning算法的移动机器人路径规划方法 |
CN116020813A (zh) * | 2022-12-19 | 2023-04-28 | 深圳市睿格晟设备有限公司 | 一种基于深度学习的智能清理方法及终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241836A (ja) * | 2002-02-19 | 2003-08-29 | Keio Gijuku | 自走移動体の制御方法および装置 |
JP4425170B2 (ja) * | 2005-03-31 | 2010-03-03 | セコム株式会社 | 移動ロボット及び移動ロボットによる監視システム |
CN101714000B (zh) * | 2009-09-30 | 2012-07-04 | 刘瑜 | 一种自动吸尘器的路径规划方法 |
CN102866706B (zh) * | 2012-09-13 | 2015-03-25 | 深圳市银星智能科技股份有限公司 | 一种采用智能手机导航的清扫机器人及其导航清扫方法 |
CN105320133A (zh) * | 2015-10-26 | 2016-02-10 | 广东雷洋智能科技股份有限公司 | 一种应用于扫地机器人的改进势场栅格法 |
-
2016
- 2016-03-24 CN CN201610171859.8A patent/CN105740644B/zh active Active
- 2016-04-27 WO PCT/CN2016/080332 patent/WO2017161632A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
Non-Patent Citations (2)
Title |
---|
"基于强化学习的移动机器人路径规划研究";许亚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131115(第11期);正文35-37页 * |
"基于高斯过程回归的强化学习算法研究";庄超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20141015(第10期);正文第28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105740644A (zh) | 2016-07-06 |
WO2017161632A1 (zh) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740644B (zh) | 一种基于模型学习的清洁机器人最优目标路径规划方法 | |
Zhu et al. | Online minimax Q network learning for two-player zero-sum Markov games | |
CN108680155B (zh) | 基于部分感知马氏决策过程的机器人最优路径规划方法 | |
CN110321666A (zh) | 基于先验知识与dqn算法的多机器人路径规划方法 | |
CN105911992A (zh) | 一种移动机器人的自动规划路径方法及移动机器人 | |
Tungadio et al. | Power system state estimation solution using modified models of PSO algorithm: Comparative study | |
CN110389591A (zh) | 一种基于dbq算法的路径规划方法 | |
Bai et al. | Adversarial examples construction towards white-box q table variation in dqn pathfinding training | |
Dhahri et al. | Hierarchical multi-dimensional differential evolution for the design of beta basis function neural network | |
CN111416797A (zh) | 改进天牛群算法优化正则化极限学习机的入侵检测方法 | |
Wang et al. | Scene mover: Automatic move planning for scene arrangement by deep reinforcement learning | |
CN103984996B (zh) | 水华机理时变模型的禁忌搜索及遗传算法优化预测方法 | |
Taghizadeh et al. | A novel graphical approach to automatic abstraction in reinforcement learning | |
Zhao et al. | A fast robot path planning algorithm based on bidirectional associative learning | |
CN103885867A (zh) | 一种模拟电路性能的在线评价方法 | |
Moradi | Multi-objective mobile robot path planning problem through learnable evolution model | |
Pathak et al. | Traveling salesman problem using bee colony with SPV | |
CN104657901A (zh) | 一种基于随机游走的标签传播社区发现方法 | |
Gao et al. | An adaptive framework to select the coordinate systems for evolutionary algorithms | |
CN104156462B (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
Jiang et al. | ATSA: An Adaptive Tree Seed Algorithm based on double-layer framework with tree migration and seed intelligent generation | |
CN104778495A (zh) | 基于粒子群算法的贝叶斯网络优化方法 | |
Chmait et al. | Measuring universal intelligence in agent-based systems using the anytime intelligence test | |
Meysami et al. | An efficient indoor large map global path planning for robot navigation | |
CN114819151A (zh) | 基于改进代理辅助混洗蛙跳算法的生化路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220908 Address after: Room 313-314, Building 2, Yangcheng Lake International Science and Technology Pioneer Park, No. 116, Chengyang Road, Chengyang Street, Economic and Technological Development Zone, Xiangcheng District, Suzhou City, Jiangsu Province, 215000 Patentee after: Haibo (Suzhou) robot technology Co.,Ltd. Address before: 215000 199 Ren Yan Road, Suzhou Industrial Park, Jiangsu Patentee before: SOOCHOW University |
|
TR01 | Transfer of patent right |