CN105740644A - 一种基于模型学习的清洁机器人最优目标路径规划方法 - Google Patents

一种基于模型学习的清洁机器人最优目标路径规划方法 Download PDF

Info

Publication number
CN105740644A
CN105740644A CN201610171859.8A CN201610171859A CN105740644A CN 105740644 A CN105740644 A CN 105740644A CN 201610171859 A CN201610171859 A CN 201610171859A CN 105740644 A CN105740644 A CN 105740644A
Authority
CN
China
Prior art keywords
state
action
model
model learning
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610171859.8A
Other languages
English (en)
Other versions
CN105740644B (zh
Inventor
刘全
周谊成
朱斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haibo Suzhou Robot Technology Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610171859.8A priority Critical patent/CN105740644B/zh
Priority to PCT/CN2016/080332 priority patent/WO2017161632A1/zh
Publication of CN105740644A publication Critical patent/CN105740644A/zh
Application granted granted Critical
Publication of CN105740644B publication Critical patent/CN105740644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于模型学习的清洁机器人最优目标路径规划方法,针对目前市场中清洁机器人效率不高的问题,在Dyna?H算法的基础上,提出一种基于自模拟度量和R?MAX的Dyna算法,该路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna?H算法为基础,使用R?MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna?H中的欧式距离度量方法,从而提高模型的学习效率。本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。

Description

一种基于模型学习的清洁机器人最优目标路径规划方法
技术领域
本发明涉及一种涉及机器学习中的强化学习方法,具体涉及一种基于模型学习的清洁机器人最优目标路径规划方法。
背景技术
强化学习(Reinforcement Learning,RL)是一种学习环境状态到动作映射的机器学习方法。Agent选择动作作用于环境,改变环境的状态,迁移到新的环境状态,并得到环境的反馈信号。这个反馈信号通常称为奖赏或强化信号,Agent利用它通过一定的算法强化自己已经学习到的经验,它的目标是最大化累计期望奖赏。
传统的强化学习方法利用Agent与环境交互得到的信息进行学习,不断更新值函数使之趋近最优解,例如动态规划(Dynamic Programming,DP),蒙特卡洛(Monte Carlo,MC),和时间差分(Temporal Difference,TD)。这些方法是强化学习的基本方法,许多算法都由它们衍生而来。
模型学习方法的出现使强化学习的算法效率提高了一个台阶,它在近年来已成为强化学习中的一个研究热点。
模型学习的最初思想(Dyna-Q算法)是将采集到的历史样本保存下来,在随后的更新步骤中,除了更新当前时间步的样本外,还从历史样本中抽取一些样本进行更新。这样,样本的利用率得到增加,提高了值函数收敛的效率。在这样的思想下之后进一步演化为对模型的构建,即利用当前得到的样本构建一个环境的模型。在对真实环境的不断探索中,构建的模型会越来越精确和完整,这个模型就可以代替真实环境被充分地利用,节省与真实环境交互的开销。
那么,模型学习的效率就取决于模型构建的速度,模型构建得越快,算法从模型中得到的信息就越有价值。显然,交互获得的样本广度直接影响到模型构建的速度。Dyna-H使用了一种启发式的规划方法,通过预测做出动作后到达的下一个状态与终点之间的欧式距离,来使Agent尽量远离终点,这样就可以使Agent在一个情节中尽可能多地探索环境,避免过早到达终点。
然而,Dyna-H算法是有局限性的。在有障碍物的情况下,两点间的欧式距离并不能很好的反映它们之间的真实距离。可能由于一墙之隔,位于墙一侧的Agent可能需要绕一个大弯才能到达墙另一侧的终点,而欧式距离则显示它们离得很近。另外,Dyna-H保留了Dyna-Q中取历史样本的方法,而没有去为环境建立真正的模型。基于此,算法的性能还可以进一步提高。
在模型学习的方法中,R-MAX是一种高效探索的方法,它的核心思想是假设所有未知的状态-动作所获得的奖赏为最大奖赏Rmax,并转移到终止状态。这样,当选择值最大的动作时,就会选择这个未知动作,从而隐式地达到了探索的目的。当状态-动作对被访问到m次时,则标记该状态-动作对为已知,将来不再探索。这样,所有状态-动作对都能被快速均匀地探索,从而学习到较为精确的模型。
针对Dyna-H中计算状态间距离的局限性,本发明采用更为精确的自模拟度量的方法。首先介绍自模拟关系:若两个状态满足自模拟关系,则它们拥有相同的最优值函数和最优动作。Ferns等人在在自模拟关系的基础之上,利用Kantorovich距离衡量两个概率分布之间的距离,提出了一种可用于衡量两个状态之间远近关系的自模拟度量方法(Bisimulation Metric)。相比于欧式距离,自模拟度量引入了奖赏函数,状态转移函数等要素,能更精确地表示状态之间的距离。
发明内容
本发明目的是:提供一种基于模型学习的清洁机器人最优目标路径规划方法,通过将自模拟度量和R-MAX相结合来改进搜索方式,提高模型学习的效率,从而最终提高值函数的搜索效率,效率的提高使得机器人能够快速地建立环境模型,从而优先选择垃圾最多的地点,并计算出达到该地点的最优路径。
本发明的技术方案是:一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置;
步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);
步骤5)使用ε-Greedy策略选择动作,转入步骤(6);
步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;
步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;
步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);
步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);
步骤10)执行值迭代算法;
步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
作为优选的技术方案,步骤3)中所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数。
作为优选的技术方案,步骤4)中所述距离最大的动作其中,d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态,xg为终结状态。
作为优选的技术方案,步骤8)中计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)的具体步骤如下:
设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u,x′)←C(x,u,x′)/C(x,u);
否则R(x,u)←Rmax,f(x,u,x′)←1;
其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和。
本发明基于模型学习的清洁机器人最优目标路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna-H算法为基础,使用R-MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna-H中的欧式距离度量方法,这两种方法的结合不仅使机器人对环境的探索更完全,而且避免了在早期的探索中过早到达终点使情节结束,从而提高模型的学习效率,另外在有模型的情况下,使用动态规划算法更新值函数,以得到更精确的解,本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。
本发明的优点是:
1.本发明对多样的环境(包括垃圾堆地点固定或随机的情况)有较强的适用性,在模型学习的效率上有很大提高,对机器人探索环境的速度和精度有显著改善,从而能够准确地优先处理垃圾最多的地点。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明实施例中的布局示意图;
图2为本发明的系统工作流程图。
具体实施方式
实施例:
参见图1所示,其黑边为墙,机器人不能到达;两个R点为垃圾较少的地点,达到目标时的奖赏为0;G点为垃圾较多的地点,达到目标时的奖赏为50;到达其余格子奖赏为-1。
参照图2所示,该实施例基于模型学习的清洁机器人最优目标路径规划方法,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置为地图最左上方的格子;
步骤3)判断当前的探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数,若探索完全度η达到阈值I,转入步骤4),否则转入步骤(5);
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作转入步骤(6),其中d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态,xg为终结状态;
步骤5)使用ε-Greedy策略选择动作,转入步骤(6);
步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;
步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点,并观察奖赏r和下一个状态x′;
步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u),设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u,x′)←C(x,u,x′)/C(x,u);
否则R(x,u)←Rmax,f(x,u,x′)←1,其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和;
步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);
步骤10)执行值迭代算法;
步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (4)

1.一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置;
步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);
步骤5)使用ε-Greedy策略选择动作,转入步骤(6);
步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;
步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;
步骤8)通过R-MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);
步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);
步骤10)执行值迭代算法;
步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
2.根据权利要求1所述的基于模型学习的清洁机器人最优目标路径规划方法,其特征在于:
步骤3)中所述探索完全度其中C(x,u)为状态动作对(x,u)被访问的次数,|X|为状态空间大小,|U|为动作空间大小,m为状态被标记为已知前需要被访问的次数。
3.根据权利要求1所述的基于模型学习的清洁机器人最优目标路径规划方法,其特征在于:
步骤4)中所述距离最大的动作其中,d(x,x′)为状态x与x′之间的自模拟度量,Model(x,u)为从构建的模型中得到下一个状态,xg为终结状态。
4.根据权利要求1所述的基于模型学习的清洁机器人最优目标路径规划方法,其特征在于:
步骤8)中计算状态转移函数f(x,u,x′)和奖赏函数R(x,u)的具体步骤如下:
设置C(x,u,x′)增加1,C(x,u)增加1,RSUM(x,u)增加r;
如果C(x,u)≥m,则R(x,u)←RSUM(x,u)/C(x,u),对所有x′∈C(x,u,·),f(x,u,x′)←C(x,u,x′)/C(x,u);
否则R(x,u)←Rmax,f(x,u,x′)←1;
其中C(x,u,x′)为在状态x下执行动作u后转移到状态x′的次数,RSUM(x,u)为访问状态动作对x、u得到的所有奖赏之和。
CN201610171859.8A 2016-03-24 2016-03-24 一种基于模型学习的清洁机器人最优目标路径规划方法 Active CN105740644B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610171859.8A CN105740644B (zh) 2016-03-24 2016-03-24 一种基于模型学习的清洁机器人最优目标路径规划方法
PCT/CN2016/080332 WO2017161632A1 (zh) 2016-03-24 2016-04-27 一种基于模型学习的清洁机器人最优目标路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610171859.8A CN105740644B (zh) 2016-03-24 2016-03-24 一种基于模型学习的清洁机器人最优目标路径规划方法

Publications (2)

Publication Number Publication Date
CN105740644A true CN105740644A (zh) 2016-07-06
CN105740644B CN105740644B (zh) 2018-04-13

Family

ID=56251985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610171859.8A Active CN105740644B (zh) 2016-03-24 2016-03-24 一种基于模型学习的清洁机器人最优目标路径规划方法

Country Status (2)

Country Link
CN (1) CN105740644B (zh)
WO (1) WO2017161632A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843220A (zh) * 2017-02-27 2017-06-13 同济大学 一种多Agent围捕‑觅食行为控制方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN108415254A (zh) * 2018-03-12 2018-08-17 苏州大学 基于深度q网络的废品回收机器人控制方法及其装置
CN108549232A (zh) * 2018-05-08 2018-09-18 常熟理工学院 一种基于近似模型规划的室内空气自适应控制方法
CN108572654A (zh) * 2018-04-25 2018-09-25 哈尔滨工程大学 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
WO2021008207A1 (zh) * 2019-07-17 2021-01-21 上海商汤智能科技有限公司 目标跟踪方法及装置、智能移动设备和存储介质
CN112297012A (zh) * 2020-10-30 2021-02-02 上海交通大学 一种基于自适应模型的机器人强化学习方法
CN113534797A (zh) * 2021-07-07 2021-10-22 江苏科技大学 一种水上漂浮垃圾识别与采集路径自动规划系统的处理方法
CN114174945A (zh) * 2020-07-01 2022-03-11 视觉半导体股份有限公司 移动型抗病毒机器人及其控制方法
CN115229808A (zh) * 2022-05-25 2022-10-25 盐池县中赢创能新能源有限公司 一种光伏电站清扫机器人及控制方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241552B (zh) * 2018-07-12 2022-04-05 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN109635913A (zh) * 2018-12-16 2019-04-16 北京工业大学 基于自适应贪婪的q学习算法足球系统仿真方法
CN109991981A (zh) * 2019-04-04 2019-07-09 尚科宁家(中国)科技有限公司 一种扫地机器人回充方法
CN110083165B (zh) * 2019-05-21 2022-03-08 大连大学 一种机器人在复杂狭窄环境下路径规划方法
CN111896006B (zh) * 2020-08-11 2022-10-04 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN112507520A (zh) * 2020-11-12 2021-03-16 深圳慧拓无限科技有限公司 一种基于强化学习的路径规划方法及装置
CN114879660B (zh) * 2022-04-14 2023-08-15 海南大学 一种基于目标驱动的机器人环境感知方法
CN115542912B (zh) * 2022-09-29 2024-06-07 福州大学 一种基于改进Q-learning算法的移动机器人路径规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241836A (ja) * 2002-02-19 2003-08-29 Keio Gijuku 自走移動体の制御方法および装置
JP4425170B2 (ja) * 2005-03-31 2010-03-03 セコム株式会社 移動ロボット及び移動ロボットによる監視システム
CN101714000B (zh) * 2009-09-30 2012-07-04 刘瑜 一种自动吸尘器的路径规划方法
CN102866706B (zh) * 2012-09-13 2015-03-25 深圳市银星智能科技股份有限公司 一种采用智能手机导航的清扫机器人及其导航清扫方法
CN105320133A (zh) * 2015-10-26 2016-02-10 广东雷洋智能科技股份有限公司 一种应用于扫地机器人的改进势场栅格法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庄超: ""基于高斯过程回归的强化学习算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
许亚: ""基于强化学习的移动机器人路径规划研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843220A (zh) * 2017-02-27 2017-06-13 同济大学 一种多Agent围捕‑觅食行为控制方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN107065881B (zh) * 2017-05-17 2019-11-08 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN108415254A (zh) * 2018-03-12 2018-08-17 苏州大学 基于深度q网络的废品回收机器人控制方法及其装置
CN108415254B (zh) * 2018-03-12 2020-12-11 苏州大学 基于深度q网络的废品回收机器人控制方法
CN108572654A (zh) * 2018-04-25 2018-09-25 哈尔滨工程大学 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108549232A (zh) * 2018-05-08 2018-09-18 常熟理工学院 一种基于近似模型规划的室内空气自适应控制方法
WO2021008207A1 (zh) * 2019-07-17 2021-01-21 上海商汤智能科技有限公司 目标跟踪方法及装置、智能移动设备和存储介质
CN114174945A (zh) * 2020-07-01 2022-03-11 视觉半导体股份有限公司 移动型抗病毒机器人及其控制方法
CN112297012A (zh) * 2020-10-30 2021-02-02 上海交通大学 一种基于自适应模型的机器人强化学习方法
CN112297012B (zh) * 2020-10-30 2022-05-31 上海交通大学 一种基于自适应模型的机器人强化学习方法
CN113534797A (zh) * 2021-07-07 2021-10-22 江苏科技大学 一种水上漂浮垃圾识别与采集路径自动规划系统的处理方法
CN115229808A (zh) * 2022-05-25 2022-10-25 盐池县中赢创能新能源有限公司 一种光伏电站清扫机器人及控制方法

Also Published As

Publication number Publication date
WO2017161632A1 (zh) 2017-09-28
CN105740644B (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN105740644A (zh) 一种基于模型学习的清洁机器人最优目标路径规划方法
CN106949893B (zh) 一种三维避障的室内机器人导航方法和系统
CN109711529B (zh) 一种基于值迭代网络的跨领域联邦学习模型及方法
Liu et al. A PSO-based timing-driven Octilinear Steiner tree algorithm for VLSI routing considering bend reduction
Lima et al. A cellular automata ant memory model of foraging in a swarm of robots
CN105955254B (zh) 一种适用于机器人路径搜索的改进的a*算法
WO2019148645A1 (zh) 基于部分感知马氏决策过程的机器人最优路径规划方法
KR101912233B1 (ko) 물체의 위치를 결정하기 위한 시스템 및 방법
CN110321666A (zh) 基于先验知识与dqn算法的多机器人路径规划方法
Hosseinabadi et al. GELS-GA: hybrid metaheuristic algorithm for solving multiple travelling salesman problem
CN107944559A (zh) 一种实体关系自动识别方法及系统
CN107402381A (zh) 一种迭代自适应的多机动目标跟踪方法
CN110389591A (zh) 一种基于dbq算法的路径规划方法
CN110174118A (zh) 基于强化学习的机器人多目标搜索路径规划方法和装置
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN109697512A (zh) 基于贝叶斯网络的个人数据分析方法及计算机存储介质
CN107305125A (zh) 一种地图构建方法及终端
Taghizadeh et al. A novel graphical approach to automatic abstraction in reinforcement learning
CN106204719B (zh) 基于二维邻域检索的三维场景中海量模型实时调度方法
CN112365708A (zh) 基于多图卷积网络的景区交通量预测模型建立和预测方法
CN108106624A (zh) 一种多人预约调度路径规划方法及相关装置
Zhao et al. A fast robot path planning algorithm based on bidirectional associative learning
CN104657901B (zh) 一种基于随机游走的标签传播社区发现方法
Tee et al. A framework for tool cognition in robots without prior tool learning or observation
Pathak et al. Traveling salesman problem using bee colony with SPV

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220908

Address after: Room 313-314, Building 2, Yangcheng Lake International Science and Technology Pioneer Park, No. 116, Chengyang Road, Chengyang Street, Economic and Technological Development Zone, Xiangcheng District, Suzhou City, Jiangsu Province, 215000

Patentee after: Haibo (Suzhou) robot technology Co.,Ltd.

Address before: 215000 199 Ren Yan Road, Suzhou Industrial Park, Jiangsu

Patentee before: SOOCHOW University