CN109085751B - 一种基于多粒度强化学习的六足机器人导航方法 - Google Patents
一种基于多粒度强化学习的六足机器人导航方法 Download PDFInfo
- Publication number
- CN109085751B CN109085751B CN201811077945.8A CN201811077945A CN109085751B CN 109085751 B CN109085751 B CN 109085751B CN 201811077945 A CN201811077945 A CN 201811077945A CN 109085751 B CN109085751 B CN 109085751B
- Authority
- CN
- China
- Prior art keywords
- granularity
- state
- environment
- fine
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/0088—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于多粒度强化学习的六足机器人导航方法,步骤包括:由机器人对环境进行初次学习,得到细粒度条件的环境信息,再利用Q学习算法得到状态动作表;使用多粒度强化学习算法将原来的细粒度的状态动作表转化为粗粒度的状态动作表;使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,再进行Q学习获得新环境下的状态动作集合;利用新环境下的状态动作集合对六足机器人进行实时导航控制。该六足机器人导航方法通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作,并以此为基础,提高对变化环境的适应性;利用多粒度迁移学习机制,提高在环境变化的情况下的导航效率。
Description
技术领域
本发明涉及一种六足机器人导航方法,尤其是一种基于多粒度强化学习的六足机器人导航方法。
背景技术
多足机器人其腿部具有多个自由度使运动的灵活性大大增强,因此具有更强的地形适应能力。与轮式、履带式移动机器人相比,多足机器人在地形不规则和崎岖不平等非结构性环境下的运输任务执行,跨越障碍有着明显的优势,在军事侦察、矿山开采、核能工业、星球探测、消防及营救、建筑业等领域有着广阔的应用前景。因此可以将多足机器人应用到写字楼配送中,但是写字楼地形环境由于人为因素存在可变性,因此有必要设计出一种基于多粒度强化学习的六足机器人导航方法,能够在环境变化的情况下依然能够进行实时环境导航。
发明内容
本发明的目的在于:提供一种基于多粒度强化学习的六足机器人导航方法,能够在环境变化的情况下依然能够进行实时环境导航。
为了实现上述发明目的,本发明提供了一种基于多粒度强化学习的六足机器人导航方法,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q 学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
进一步地,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmax Q*(st+1,a′t+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a′t+1) 表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
进一步地,步骤2中,将原来的细粒度的状态动作表转化为粗粒度的状态动作表的具体算法为:
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
进一步地,步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
本发明的有益效果在于:通过强化学习算法学习出变化环境中六足机器人在相应状态的最佳动作,并以此为基础,提高对变化环境的适应性;利用多粒度迁移学习机制,提高在环境变化的情况下的导航效率。
附图说明
图1为本发明的方法流程图 。
具体实施方式
如图1所示,本发明公开的基于多粒度强化学习的六足机器人导航方法,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q 学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
在Q学习过程中,先利用Q学习学习出最优策略,在Matlab中进行仿真时,为了保证Q 学习算法收敛,采用ε-greedy策略作为动作选择策略,在继承已学知识的基础上,还具有一定的探索能力。
其中,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a′t+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a′t+1) 表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
式(4)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。
步骤3中,多粒度迁移学习算法为:
式(5)中,m为细粒度环境下的精度,n为粗粒度环境下的精度,此处精度的定义为像素的开平方,(i,j)为每个状态点的坐标,a为所允许采取的动作,Qsa为细粒度下的Q值, Q(i,j,a)为粗粒度下的Q值。多粒度迁移学习的制定,是为了提高环境细微变化情况下的迁移效果,尤其是在关键点发生变化的情况下。
强化学习控制中的迁移机制是通过多粒度迁移的方法学习出来的,而并非依赖于专家经验或者大量传统强化学习的实验结果;六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过六足机器人视觉对环境信息进行采集,六足机器人在一个时间点可能会处于多个不同的状态,将所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。
本发明采用强化学习控制和多粒度迁移学习相结合的方法,可以有效的解决强化学习控制中计算量巨大这一问题。把六足机器人的导航信息转化为一个有限的状态集合,继而把六足机器人的导航过程看成一个马尔科夫决策过程,然后通过强化学习的方法,学习出六足机器人在相应状态所要采取的最优动作,并且在环境发生变化的情况下具有高效的路径选择策略。
Claims (4)
1.一种基于多粒度强化学习的六足机器人导航方法,其特征在于,包括如下步骤:
步骤1,由机器人对环境进行初次学习,得到详细的细粒度条件的环境信息,再结合Q学习算法得到状态动作表;
步骤2,当所处环境存在变化时,使用多粒度强化学习算法对所处新环境进行粗化,在粗化环境下,将原来的细粒度的状态动作表转化为粗粒度的状态动作表;
步骤3,使用多粒度迁移学习算法以及粗化后的状态动作表,对细粒度下的新环境进行重新学习和建图,将转化得到的粗粒度的状态动作表迁移到无损失的细粒度新环境下,作为细粒度强化的初始条件,再进行Q学习获得新环境下的状态动作集合;
步骤4,利用新环境下的状态动作集合对六足机器人进行实时导航控制。
2.根据权利要求1所述的基于多粒度强化学习的六足机器人导航方法,其特征在于,步骤1中,得到状态动作表的具体步骤为:
步骤1.1,在Matlab中建立六足机器人导航模型和所处环境模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a′t+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a′t+1)表示机器人下一个状态采取某个动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的Q学习单步算法为:
步骤1.4,根据构建的六足机器人导航模型以及所处环境模型,并利用建立的Q学习单步算法获得学习好的状态动作值函数,再由状态动作值函数获得状态集合以及下一步所要采取的动作,从而由状态集合以及状态集合中各个状态下所对应的下一步所要采取的动作构成状态动作表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811077945.8A CN109085751B (zh) | 2018-09-16 | 2018-09-16 | 一种基于多粒度强化学习的六足机器人导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811077945.8A CN109085751B (zh) | 2018-09-16 | 2018-09-16 | 一种基于多粒度强化学习的六足机器人导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109085751A CN109085751A (zh) | 2018-12-25 |
CN109085751B true CN109085751B (zh) | 2021-03-12 |
Family
ID=64841552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811077945.8A Active CN109085751B (zh) | 2018-09-16 | 2018-09-16 | 一种基于多粒度强化学习的六足机器人导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109085751B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11511413B2 (en) | 2020-06-12 | 2022-11-29 | Huawei Technologies Co. Ltd. | Systems and methods for learning reusable options to transfer knowledge between tasks |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521205B (zh) * | 2011-11-23 | 2014-12-10 | 河海大学常州校区 | 基于多Agent强化学习的机器人联合搜索方法 |
CN103256939B (zh) * | 2013-04-15 | 2015-09-23 | 李德毅 | 智能车辆利用变粒度路权雷达图进行信息融合的方法 |
CN104913782B (zh) * | 2015-06-19 | 2018-04-06 | 中国人民解放军国防科学技术大学 | 一种基于采集与定位的室内外联合导航方法与系统 |
CN105005794B (zh) * | 2015-07-21 | 2018-06-05 | 太原理工大学 | 融合多粒度上下文信息的图像像素语义标注方法 |
WO2017158058A1 (en) * | 2016-03-15 | 2017-09-21 | Imra Europe Sas | Method for classification of unique/rare cases by reinforcement learning in neural networks |
CN106092121B (zh) * | 2016-05-27 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 车辆导航方法和装置 |
US10139823B2 (en) * | 2016-09-13 | 2018-11-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and device for producing vehicle operational data based on deep learning techniques |
CN107036594A (zh) * | 2017-05-07 | 2017-08-11 | 郑州大学 | 智能电站巡检智能体的定位与多粒度环境感知技术 |
CN107562053A (zh) * | 2017-08-30 | 2018-01-09 | 南京大学 | 一种基于模糊q学习的六足机器人避障方法 |
-
2018
- 2018-09-16 CN CN201811077945.8A patent/CN109085751B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109085751A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109116854B (zh) | 一种基于强化学习的多组机器人协作控制方法及控制系统 | |
CN102402712B (zh) | 基于神经网络的机器人强化学习初始化方法 | |
US10962976B1 (en) | Motion control method and system for biomimetic robotic fish based on adversarial structured control | |
CN106705975A (zh) | 一种基于万有引力搜索的水面无人艇航路规划方法 | |
CN117077727B (zh) | 基于时空注意力机制和神经常微分方程的轨迹预测方法 | |
Su et al. | Robot path planning based on random coding particle swarm optimization | |
CN109085751B (zh) | 一种基于多粒度强化学习的六足机器人导航方法 | |
CN114037050B (zh) | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 | |
Zhao et al. | A fast robot path planning algorithm based on bidirectional associative learning | |
CN105976029B (zh) | 一种布谷鸟行为rna-ga的桥式吊车神经网络建模方法 | |
CN113110101B (zh) | 一种生产线移动机器人聚集式回收入库仿真方法及系统 | |
CN114077258A (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
Li | A hierarchical autonomous driving framework combining reinforcement learning and imitation learning | |
Huang et al. | Learning graph dynamics with external contact for deformable linear objects shape control | |
CN114721273B (zh) | 一种固定时间收敛零化神经网络的多智能体编队控制方法 | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
Zuo et al. | Fast nonlinear model predictive control parallel design using QPSO and its applications on trajectory tracking of autonomous vehicles | |
CN109358618B (zh) | 一种移动机器人的路径规划方法 | |
Bian et al. | Identification of non-linear dynamic model of UUV based on ESN neural network | |
Tian et al. | The application of path planning algorithm based on deep reinforcement learning for mobile robots | |
CN113011081A (zh) | 一种基于元学习的无人机导航方法 | |
Ren et al. | A multi-objective optimization model of robot path planning under different scenarios | |
Chen et al. | Artificial immune algorithm applied to short-term prediction for mobile object location | |
Yang et al. | Exploiting redundancy to implement multiobjective behavior | |
Li et al. | A quadtree based neural network approach to real-time path planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |