CN109085751A - 一种基于多粒度强化学习的六足机器人导航方法 - Google Patents
一种基于多粒度强化学习的六足机器人导航方法 Download PDFInfo
- Publication number
- CN109085751A CN109085751A CN201811077945.8A CN201811077945A CN109085751A CN 109085751 A CN109085751 A CN 109085751A CN 201811077945 A CN201811077945 A CN 201811077945A CN 109085751 A CN109085751 A CN 109085751A
- Authority
- CN
- China
- Prior art keywords
- state
- environment
- granularity
- state action
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000238631 Hexapoda Species 0.000 title claims abstract description 31
- 230000013016 learning Effects 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 48
- 230000005012 migration Effects 0.000 claims abstract description 13
- 238000013508 migration Methods 0.000 claims abstract description 13
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000007788 roughening Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于多粒度强化学习的六足机器人导航方法,步骤包括:由机器人对环境进行初次学习,得到细粒度条件的环境信息,再利用Q学习算法得到状态动作表;使用多粒度强化学习算法将原来的细粒度的状态动作表转化为粗粒度的状态动作表;使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,再进行Q学习获得新环境下的状态动作集合;利用新环境下的状态动作集合对六足机器人进行实时导航控制。该六足机器人导航方法通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作,并以此为基础,提高对变化环境的适应性;利用多粒度迁移学习机制,提高在环境变化的情况下的导航效率。
Description
技术领域
本发明涉及一种六足机器人导航方法,尤其是一种基于多粒度强化学习的六足机器人导航方法。
背景技术
多足机器人其腿部具有多个自由度使运动的灵活性大大增强,因此具有更强的地形适应能力。与轮式、履带式移动机器人相比,多足机器人在地形不规则和崎岖不平等非结构性环境下的运输任务执行,跨越障碍有着明显的优势,在军事侦察、矿山开采、核能工业、星球探测、消防及营救、建筑业等领域有着广阔的应用前景。因此可以将多足机器人应用到写字楼配送中,但是写字楼地形环境由于人为因素存在可变性,因此有必要设计出一种基于多粒度强化学习的六足机器人导航方法,能够在环境变化的情况下依然能够进行实时环境导航。
发明内容
本发明的目的在于:提供一种基于多粒度强化学习的六足机器人导航方法,能够在环境变化的情况下依然能够进行实时环境导航。
为了实现上述发明目的,本发明提供了一种基于多粒度强化学习的六足机器人导航方法,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q 学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
进一步地,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1) 表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ为折扣因子,为学习率;
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
进一步地,步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
进一步地,步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
本发明的有益效果在于:通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作,并以此为基础,提高对变化环境的适应性;利用多粒度迁移学习机制,提高在环境变化的情况下的导航效率。
附图说明
图1为本发明的方法流程图。
具体实施方式
如图1所示,本发明公开的基于多粒度强化学习的六足机器人导航方法,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q 学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
在Q学习过程中,先利用Q学习学习出最优策略,在Matlab中进行仿真时,为了保证Q 学习算法收敛,采用ε-greedy策略作为动作选择策略,在继承已学知识的基础上,还具有一定的探索能力。
其中,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1) 表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ为折扣因子,为学习率;
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。多粒度迁移学习的制定,是为了提高环境细微变化情况下的迁移效果,尤其是在关键点发生变化的情况下。
强化学习控制中的迁移机制是通过多粒度迁移的方法学习出来的,而并非依赖于专家经验或者大量传统强化学习的实验结果;六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过六足机器人视觉对环境信息进行采集,六足机器人在一个时间点可能会处于多个不同的状态,将所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。
本发明采用强化学习控制和多粒度迁移学习相结合的方法,可以有效的解决强化学习控制中计算量巨大这一问题。把六足机器人的导航信息转化为一个有限的状态集合,继而把六足机器人的导航过程看成一个马尔科夫决策过程,然后通过强化学习的方法,学习出六足机器人在相应状态所要采取的最优动作,并且在环境发生变化的情况下具有高效的路径选择策略。
Claims (4)
1.一种基于多粒度强化学习的六足机器人导航方法,其特征在于,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
2.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ为折扣因子,为学习率;
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
3.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值,Q(i,j,a)为粗粒度下的Q值。
4.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值,Q(i,j,a)为粗粒度下的Q值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811077945.8A CN109085751B (zh) | 2018-09-16 | 2018-09-16 | 一种基于多粒度强化学习的六足机器人导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811077945.8A CN109085751B (zh) | 2018-09-16 | 2018-09-16 | 一种基于多粒度强化学习的六足机器人导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109085751A true CN109085751A (zh) | 2018-12-25 |
CN109085751B CN109085751B (zh) | 2021-03-12 |
Family
ID=64841552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811077945.8A Active CN109085751B (zh) | 2018-09-16 | 2018-09-16 | 一种基于多粒度强化学习的六足机器人导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109085751B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021248825A1 (en) * | 2020-06-12 | 2021-12-16 | Huawei Technologies Co., Ltd. | Systems and methods for learning reusable options to transfer knowledge between tasks |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521205A (zh) * | 2011-11-23 | 2012-06-27 | 河海大学常州校区 | 基于多Agent强化学习的机器人联合搜索系统 |
CN103256939A (zh) * | 2013-04-15 | 2013-08-21 | 李德毅 | 智能车辆利用变粒度路权雷达图进行信息融合的方法 |
CN104913782A (zh) * | 2015-06-19 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种基于采集与定位的室内外联合导航方法与系统 |
CN105005794A (zh) * | 2015-07-21 | 2015-10-28 | 太原理工大学 | 融合多粒度上下文信息的图像像素语义标注方法 |
CN106092121A (zh) * | 2016-05-27 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | 车辆导航方法和装置 |
CN107036594A (zh) * | 2017-05-07 | 2017-08-11 | 郑州大学 | 智能电站巡检智能体的定位与多粒度环境感知技术 |
WO2017158058A1 (en) * | 2016-03-15 | 2017-09-21 | Imra Europe Sas | Method for classification of unique/rare cases by reinforcement learning in neural networks |
CN107562053A (zh) * | 2017-08-30 | 2018-01-09 | 南京大学 | 一种基于模糊q学习的六足机器人避障方法 |
US20180074493A1 (en) * | 2016-09-13 | 2018-03-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and device for producing vehicle operational data based on deep learning techniques |
-
2018
- 2018-09-16 CN CN201811077945.8A patent/CN109085751B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521205A (zh) * | 2011-11-23 | 2012-06-27 | 河海大学常州校区 | 基于多Agent强化学习的机器人联合搜索系统 |
CN103256939A (zh) * | 2013-04-15 | 2013-08-21 | 李德毅 | 智能车辆利用变粒度路权雷达图进行信息融合的方法 |
CN104913782A (zh) * | 2015-06-19 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种基于采集与定位的室内外联合导航方法与系统 |
CN105005794A (zh) * | 2015-07-21 | 2015-10-28 | 太原理工大学 | 融合多粒度上下文信息的图像像素语义标注方法 |
WO2017158058A1 (en) * | 2016-03-15 | 2017-09-21 | Imra Europe Sas | Method for classification of unique/rare cases by reinforcement learning in neural networks |
CN106092121A (zh) * | 2016-05-27 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | 车辆导航方法和装置 |
US20180074493A1 (en) * | 2016-09-13 | 2018-03-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and device for producing vehicle operational data based on deep learning techniques |
CN107036594A (zh) * | 2017-05-07 | 2017-08-11 | 郑州大学 | 智能电站巡检智能体的定位与多粒度环境感知技术 |
CN107562053A (zh) * | 2017-08-30 | 2018-01-09 | 南京大学 | 一种基于模糊q学习的六足机器人避障方法 |
Non-Patent Citations (1)
Title |
---|
CHEN CHUNLIN 等: "Hybrid MDP based integrated hierarchical Q-learning", 《SCIENCE CHINA》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021248825A1 (en) * | 2020-06-12 | 2021-12-16 | Huawei Technologies Co., Ltd. | Systems and methods for learning reusable options to transfer knowledge between tasks |
US11511413B2 (en) | 2020-06-12 | 2022-11-29 | Huawei Technologies Co. Ltd. | Systems and methods for learning reusable options to transfer knowledge between tasks |
Also Published As
Publication number | Publication date |
---|---|
CN109085751B (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Survey on computational-intelligence-based UAV path planning | |
Wang et al. | A multilayer path planner for a USV under complex marine environments | |
US20190009408A1 (en) | Apparatus and methods for programming and training of robotic devices | |
Zhu et al. | Task assignment and path planning of a multi-AUV system based on a Glasius bio-inspired self-organising map algorithm | |
Tuncer et al. | Dynamic path planning of mobile robots with improved genetic algorithm | |
CN109116854A (zh) | 一种基于强化学习的多组机器人协作控制方法及控制系统 | |
CN114859911B (zh) | 一种基于drl的四足机器人路径规划方法 | |
US20150306761A1 (en) | Trainable convolutional network apparatus and methods for operating a robotic vehicle | |
CN107818333A (zh) | 基于深度信念网络的机器人避障行为学习和目标搜索方法 | |
CN108279692A (zh) | 一种基于lstm-rnn的uuv动态规划方法 | |
CN106096729A (zh) | 一种面向大规模环境中复杂任务的深度策略学习方法 | |
Zhang et al. | AUV-assisted subsea exploration method in 6G enabled deep ocean based on a cooperative pac-men mechanism | |
CN110135249A (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
Cai et al. | A combined hierarchical reinforcement learning based approach for multi-robot cooperative target searching in complex unknown environments | |
CN109085833A (zh) | 一种巡逻机器人及存储介质 | |
Su et al. | Robot path planning based on random coding particle swarm optimization | |
Li et al. | An improved differential evolution based artificial fish swarm algorithm and its application to AGV path planning problems | |
Ito et al. | Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions | |
CN109088452B (zh) | 机器人充电方法及机器人 | |
CN109085751A (zh) | 一种基于多粒度强化学习的六足机器人导航方法 | |
Lu et al. | Autonomous mobile robot navigation in uncertain dynamic environments based on deep reinforcement learning | |
Ma et al. | Collaborative planning algorithm for incomplete navigation graphs | |
Ou et al. | Hybrid path planning based on adaptive visibility graph initialization and edge computing for mobile robots | |
Shen et al. | Transfer value iteration networks | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |