CN109085751A - 一种基于多粒度强化学习的六足机器人导航方法 - Google Patents

一种基于多粒度强化学习的六足机器人导航方法 Download PDF

Info

Publication number
CN109085751A
CN109085751A CN201811077945.8A CN201811077945A CN109085751A CN 109085751 A CN109085751 A CN 109085751A CN 201811077945 A CN201811077945 A CN 201811077945A CN 109085751 A CN109085751 A CN 109085751A
Authority
CN
China
Prior art keywords
state
environment
granularity
state action
under
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811077945.8A
Other languages
English (en)
Other versions
CN109085751B (zh
Inventor
陈春林
王岚
王子辉
任其成
唐开强
朱长青
辛博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201811077945.8A priority Critical patent/CN109085751B/zh
Publication of CN109085751A publication Critical patent/CN109085751A/zh
Application granted granted Critical
Publication of CN109085751B publication Critical patent/CN109085751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于多粒度强化学习的六足机器人导航方法,步骤包括:由机器人对环境进行初次学习,得到细粒度条件的环境信息,再利用Q学习算法得到状态动作表;使用多粒度强化学习算法将原来的细粒度的状态动作表转化为粗粒度的状态动作表;使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,再进行Q学习获得新环境下的状态动作集合;利用新环境下的状态动作集合对六足机器人进行实时导航控制。该六足机器人导航方法通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作,并以此为基础,提高对变化环境的适应性;利用多粒度迁移学习机制,提高在环境变化的情况下的导航效率。

Description

一种基于多粒度强化学习的六足机器人导航方法
技术领域
本发明涉及一种六足机器人导航方法,尤其是一种基于多粒度强化学习的六足机器人导航方法。
背景技术
多足机器人其腿部具有多个自由度使运动的灵活性大大增强,因此具有更强的地形适应能力。与轮式、履带式移动机器人相比,多足机器人在地形不规则和崎岖不平等非结构性环境下的运输任务执行,跨越障碍有着明显的优势,在军事侦察、矿山开采、核能工业、星球探测、消防及营救、建筑业等领域有着广阔的应用前景。因此可以将多足机器人应用到写字楼配送中,但是写字楼地形环境由于人为因素存在可变性,因此有必要设计出一种基于多粒度强化学习的六足机器人导航方法,能够在环境变化的情况下依然能够进行实时环境导航。
发明内容
本发明的目的在于:提供一种基于多粒度强化学习的六足机器人导航方法,能够在环境变化的情况下依然能够进行实时环境导航。
为了实现上述发明目的,本发明提供了一种基于多粒度强化学习的六足机器人导航方法,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q 学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
进一步地,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1) 表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ为折扣因子,为学习率;
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
进一步地,步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
进一步地,步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
本发明的有益效果在于:通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作,并以此为基础,提高对变化环境的适应性;利用多粒度迁移学习机制,提高在环境变化的情况下的导航效率。
附图说明
图1为本发明的方法流程图。
具体实施方式
如图1所示,本发明公开的基于多粒度强化学习的六足机器人导航方法,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q 学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
在Q学习过程中,先利用Q学习学习出最优策略,在Matlab中进行仿真时,为了保证Q 学习算法收敛,采用ε-greedy策略作为动作选择策略,在继承已学知识的基础上,还具有一定的探索能力。
其中,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1) 表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ为折扣因子,为学习率;
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。多粒度迁移学习的制定,是为了提高环境细微变化情况下的迁移效果,尤其是在关键点发生变化的情况下。
强化学习控制中的迁移机制是通过多粒度迁移的方法学习出来的,而并非依赖于专家经验或者大量传统强化学习的实验结果;六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过六足机器人视觉对环境信息进行采集,六足机器人在一个时间点可能会处于多个不同的状态,将所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。
本发明采用强化学习控制和多粒度迁移学习相结合的方法,可以有效的解决强化学习控制中计算量巨大这一问题。把六足机器人的导航信息转化为一个有限的状态集合,继而把六足机器人的导航过程看成一个马尔科夫决策过程,然后通过强化学习的方法,学习出六足机器人在相应状态所要采取的最优动作,并且在环境发生变化的情况下具有高效的路径选择策略。

Claims (4)

1.一种基于多粒度强化学习的六足机器人导航方法,其特征在于,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
2.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ为折扣因子,为学习率;
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
3.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值,Q(i,j,a)为粗粒度下的Q值。
4.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值,Q(i,j,a)为粗粒度下的Q值。
CN201811077945.8A 2018-09-16 2018-09-16 一种基于多粒度强化学习的六足机器人导航方法 Active CN109085751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811077945.8A CN109085751B (zh) 2018-09-16 2018-09-16 一种基于多粒度强化学习的六足机器人导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811077945.8A CN109085751B (zh) 2018-09-16 2018-09-16 一种基于多粒度强化学习的六足机器人导航方法

Publications (2)

Publication Number Publication Date
CN109085751A true CN109085751A (zh) 2018-12-25
CN109085751B CN109085751B (zh) 2021-03-12

Family

ID=64841552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811077945.8A Active CN109085751B (zh) 2018-09-16 2018-09-16 一种基于多粒度强化学习的六足机器人导航方法

Country Status (1)

Country Link
CN (1) CN109085751B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021248825A1 (en) * 2020-06-12 2021-12-16 Huawei Technologies Co., Ltd. Systems and methods for learning reusable options to transfer knowledge between tasks

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN103256939A (zh) * 2013-04-15 2013-08-21 李德毅 智能车辆利用变粒度路权雷达图进行信息融合的方法
CN104913782A (zh) * 2015-06-19 2015-09-16 中国人民解放军国防科学技术大学 一种基于采集与定位的室内外联合导航方法与系统
CN105005794A (zh) * 2015-07-21 2015-10-28 太原理工大学 融合多粒度上下文信息的图像像素语义标注方法
CN106092121A (zh) * 2016-05-27 2016-11-09 百度在线网络技术(北京)有限公司 车辆导航方法和装置
CN107036594A (zh) * 2017-05-07 2017-08-11 郑州大学 智能电站巡检智能体的定位与多粒度环境感知技术
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
US20180074493A1 (en) * 2016-09-13 2018-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Method and device for producing vehicle operational data based on deep learning techniques

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN103256939A (zh) * 2013-04-15 2013-08-21 李德毅 智能车辆利用变粒度路权雷达图进行信息融合的方法
CN104913782A (zh) * 2015-06-19 2015-09-16 中国人民解放军国防科学技术大学 一种基于采集与定位的室内外联合导航方法与系统
CN105005794A (zh) * 2015-07-21 2015-10-28 太原理工大学 融合多粒度上下文信息的图像像素语义标注方法
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
CN106092121A (zh) * 2016-05-27 2016-11-09 百度在线网络技术(北京)有限公司 车辆导航方法和装置
US20180074493A1 (en) * 2016-09-13 2018-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Method and device for producing vehicle operational data based on deep learning techniques
CN107036594A (zh) * 2017-05-07 2017-08-11 郑州大学 智能电站巡检智能体的定位与多粒度环境感知技术
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN CHUNLIN 等: "Hybrid MDP based integrated hierarchical Q-learning", 《SCIENCE CHINA》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021248825A1 (en) * 2020-06-12 2021-12-16 Huawei Technologies Co., Ltd. Systems and methods for learning reusable options to transfer knowledge between tasks
US11511413B2 (en) 2020-06-12 2022-11-29 Huawei Technologies Co. Ltd. Systems and methods for learning reusable options to transfer knowledge between tasks

Also Published As

Publication number Publication date
CN109085751B (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
Zhao et al. Survey on computational-intelligence-based UAV path planning
Wang et al. A multilayer path planner for a USV under complex marine environments
US20190009408A1 (en) Apparatus and methods for programming and training of robotic devices
Zhu et al. Task assignment and path planning of a multi-AUV system based on a Glasius bio-inspired self-organising map algorithm
Tuncer et al. Dynamic path planning of mobile robots with improved genetic algorithm
CN109116854A (zh) 一种基于强化学习的多组机器人协作控制方法及控制系统
US20150306761A1 (en) Trainable convolutional network apparatus and methods for operating a robotic vehicle
CN107818333A (zh) 基于深度信念网络的机器人避障行为学习和目标搜索方法
CN108279692A (zh) 一种基于lstm-rnn的uuv动态规划方法
Zhang et al. AUV-assisted subsea exploration method in 6G enabled deep ocean based on a cooperative pac-men mechanism
CN110135249A (zh) 基于时间注意力机制和lstm的人体行为识别方法
Cai et al. A combined hierarchical reinforcement learning based approach for multi-robot cooperative target searching in complex unknown environments
CN109085833A (zh) 一种巡逻机器人及存储介质
Su et al. Robot path planning based on random coding particle swarm optimization
Li et al. An improved differential evolution based artificial fish swarm algorithm and its application to AGV path planning problems
Ito et al. Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions
CN109088452B (zh) 机器人充电方法及机器人
CN109085751A (zh) 一种基于多粒度强化学习的六足机器人导航方法
Lu et al. Autonomous mobile robot navigation in uncertain dynamic environments based on deep reinforcement learning
Ma et al. Collaborative planning algorithm for incomplete navigation graphs
Ou et al. Hybrid path planning based on adaptive visibility graph initialization and edge computing for mobile robots
Shen et al. Transfer value iteration networks
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN111611869A (zh) 一种基于串行深度神经网络的端到端单目视觉避障方法
Li et al. Vision-based obstacle avoidance algorithm for mobile robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant