CN104317297A - 一种未知环境下机器人避障方法 - Google Patents

一种未知环境下机器人避障方法 Download PDF

Info

Publication number
CN104317297A
CN104317297A CN201410595228.XA CN201410595228A CN104317297A CN 104317297 A CN104317297 A CN 104317297A CN 201410595228 A CN201410595228 A CN 201410595228A CN 104317297 A CN104317297 A CN 104317297A
Authority
CN
China
Prior art keywords
robot
obstacle avoidance
circumstances
learning
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410595228.XA
Other languages
English (en)
Inventor
刘欢
王健
王庆辉
李金凤
郭烁
张琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang University of Chemical Technology
Original Assignee
Shenyang University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang University of Chemical Technology filed Critical Shenyang University of Chemical Technology
Priority to CN201410595228.XA priority Critical patent/CN104317297A/zh
Publication of CN104317297A publication Critical patent/CN104317297A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

一种未知环境下机器人避障方法,涉及一种机器人控制方法,包括Q学习避障算法、仿真程序流程两部分,Q学习避障算法采用BP神经网络实现Q学习算法,该网络共分为输入层、隐含层和输出层,分别有N、H和M个单元。Q值用前向传播发产生;网络的误差信号,根据公式:

Description

一种未知环境下机器人避障方法
技术领域
    本发明涉及一种机器人控制方法,特别是涉及一种未知环境下机器人避障方法。
背景技术
随着社会信息技术的发展,工业、农业、国防等各个领域越来越需要高性能的自动化系统,机器人技术得到了深入的研究和发展,研究重点已经转向在复杂、未知、不可预测环境中独立工作的自主式智能机器人。Q学习,这个词是指该机器人通过实验,观察和推断,更新知识的能力。该机器人只有通过不断的学习,以提高自身的适应能力,并最终可以学习到未知的环境中行为战略。近年来,机器人具有自学习能力已成为新的研究热点,在这种情况下,采用强化学习的方法实现自主机器人的行为选择控制。通过仿真验证了所设计基于强化学习的机器人避障算法的可行性。
发明内容
本发明的目的在于提供一种未知环境下机器人避障方法,该方法构建了仿真实验平台,模拟了移动机器人在未知环境下自主地、安全地从起始点到达目标点的过程。通过仿真实验验证了Q学习实现机器人在未知环境下的行为选择控制是可行的、有效的,并验证机器人在未知环境下具有良好的越障性能。
本发明的目的是通过以下技术方案实现的:
一种未知环境下机器人避障方法,所述方法包括Q学习避障算法、仿真程序流程两部分,Q学习避障算法采用BP神经网络实现Q学习算法,该网络共分为输入层、隐含层和输出层,分别有N、H和M个单元。Q值用前向传播发产生;网络的误差信号                                                ,根据公式:确定;然后根据梯度下降的思想,得到应用BP神经网络实现Q学习时的权值调整规律;仿真程序流程包括仿真需求分析、仿真说明、程序过程。
所述的一种未知环境下机器人避障方法,所述仿真需求分析包括对该环境采用二维建模、对机器人目标点和出发点的位置进行设置、进行相对应的二维图像运动仿真。
所述的一种未知环境下机器人避障方法,所述仿真说明包括建立坐标系、环境建模、障碍物表示。
所述的一种未知环境下机器人避障方法,所述程序过程包括机器人程序模块设,包括主程序框架模块设计、数据处理模块设计和移动机器人仿真模块设计。
所述的一种未知环境下机器人避障方法,所述主程序框架模块,通过构建应用程序的人机交互界面,然后再构成整个应用程序的主框架,通过对应用程序模块进行有机连接,对用户事件实现响应,及内部结构化参数设计的传递。 
所述的一种未知环境下机器人避障方法,所述数据处理模块通过对主程序框架所传递环境参数的设定,直接对移动机器人运动的环境认知模式进行判断,并且输出相应的参数。
所述的一种未知环境下机器人避障方法,所述机器人仿真模块由数据处理模块给定位置参数,再通过matlab软件进行仿真分析,绘出移动机器人的运动轨迹。
本发明的优点与效果是:
1.本发明构建了仿真实验平台,模拟了移动机器人在未知环境下自主地、安全地从起始点到达目标点的过程。通过仿真实验验证了Q学习实现机器人在未知环境下的行为选择控制是可行的、有效的,并验证机器人在未知环境下具有良好的越障性能。
2.本发明仿真实验平台,模拟了移动机器人在未知环境下自主地、安全地从起始点到达目标点的过程。
3.本发明通过仿真实验验证了Q学习实现机器人在未知环境下的行为选择控制是可行的、有效的,并验证机器人在未知环境下具有良好的越障性能。
附图说明
图1 BP神经网络实现Q学习示意图;
图2机器人开始学习的情况轨迹示意图;
图3 机器人学习不久后的情况轨迹示意图;
图4 机器人学习后期的情况轨迹示意图。
具体实施方式
下面结合附图所示实施例,对本发明作进一步详述。
本发明介绍了机器人Q学习避障算法的实现方法,并构建了仿真实验平台,模拟了移动机器人在未知环境下自主地、安全地从起始点到达目标点的过程。通过仿真实验验证了Q学习实现机器人在未知环境下的行为选择控制是可行的、有效的,并验证机器人在未知环境下具有良好的越障性能。 
随着社会信息技术的发展,工业、农业、国防等各个领域越来越需要高性能的自动化系统,机器人技术得到了深入的研究和发展,研究重点已经转向在复杂、未知、不可预测环境中独立工作的自主式智能机器人。Q学习,这个词是指该机器人通过实验,观察和推断,更新知识的能力。该机器人只有通过不断的学习,以提高自身的适应能力,并最终可以学习到未知的环境中行为战略。近年来,机器人具有自学习能力已成为新的研究热点,在这种情况下,采用强化学习的方法实现自主机器人的行为选择控制。通过仿真验证了所设计基于强化学习的机器人避障算法的可行性。
实施例:
1.Q学习避障算法:
采用BP神经网络实现Q学习算法,BP神经网络实现Q学习的过程见图1,采用BP神经网络的方法来实现Q学习。该网络共分为以下三层:输入层、隐含层和输出层,分别有N、H和M个单元。Q值用前向传播发产生。网络的误差信号,根据公式:
                                  
        确定。然后根据梯度下降的思想,得到应用BP神经网络实现Q学习时的权值调整规律。下面讨论梯度的计算方法。对输出层与隐含层的权值的梯度为:
                               
式中:-输出层的输入值   -隐含单元的输出
故:
                                           
式中:-输出层神经元的激励函数
同理对隐含层与输入层的权值的梯度为:
                                  
式中:-隐含层单元的输入,即:,g()为隐含层神经元的激励函数故
                                                    
2.仿真程序的流程:
1)仿真需求分析:
(1)首先,通过操作者对该环境采用二维建模的方法,依据操作者的需求对相关联的障碍物的形状、位置、数量、尺寸和其他参数进行设置。
(2)操作者可以根据自身的需要对机器人目标点和出发点的位置进行设置。
(3)根据操作者对目标的设置,进行相对应的二维图像运动仿真。
2)仿真说明:
(1)坐标系:在本文的仿真中用到了机器人坐标系、大地坐标系、屏幕坐标系。其中机器人坐标系、大地坐标系用于获取环境信息和机器人状态信息,而屏幕坐标系用于仿真显示。
(2)环境建模:环境建模的目的是描述机器人所在的环境。它包括仿真区域的长、宽、边界以及障碍物的大小、位置、形状等,其结果一方面显示在屏幕上,同时又可供规划用。仿真中要求环境建模模块能对机器人所在区域及障碍物信息进行有效的描述,并能提供友好的人机接口,使环境建模能容易进行。
(3)障碍物表示:机器人工作空间的障碍物形状包括规则和不规则的。为充分描述障碍物的形状,本文定义了矩形、圆形、扇形、多边行。并设计了基于顶点的表示方法,建立了障碍物的数据结构。在仿真中,障碍物是用鼠标直接在屏幕上通过拖动来构造的,障碍物信息则由程序自动记录。
3)程序过程:
移动机器人通过自己学习自主的到达目标点的运动仿真。根据移动机器人程序模块化的设计要求,可以将设计分成三个模块设计,包括主程序框架模块设计、数据处理模块设计和移动机器人仿真模块设计。
(1)主程序框架模块。通过构建应用程序的人机交互界面,然后再构成整个应用程序的主框架,通过对应用程序模块进行有机连接,对用户事件实现响应,及内部结构化参数设计的传递。 
(2)数据处理模块。对机器人在移动过程中,产生了大量而复杂的计算,进行预处理,包括逻辑运算符,数字转换的处理。本模块通过对主程序框架所传递环境参数的设定,直接对移动机器人运动的环境认知模式进行判断,并且输出相应的参数。本软件的核心部分是数据处理模块。
(3)移动机器人仿真模块。由数据处理模块给定位置参数,再通过matlab软件进行仿真分析,便可以绘出移动机器人的运动轨迹。
结果分析:
机器人在这个环境下刚刚开始学习的情况见图2机器人开始学习的情况。由图2可见,在学习初期机器人频繁地与障碍物碰撞,失败的情况较多。这说明机器人随机选择行为,正确的策略还没学习好。
机器人在这个环境下经过一段时间学习之后的运动轨迹见图3,机器人学习不久后的情况。由图3可以看出机器人已较少与障碍物碰撞了,说明机器人在学习过程中,随机选择行为的策略逐渐消失,机器人已经逐渐掌握了正确的策略。
图2、3、4为机器人在同一环境下,即障碍物分布、始终点都相同,也就是环境没有改变学习控制策略。
机器人在这个环境下经过充分学习后的运动轨迹见图4,机器人学习后期的情况。由图4可知,经过充分学习,机器人避碰行为、绕障碍物行走行为、奔向目标行为的输入状态空间到输出状态空间之间已建立起正确的映射关系,机器人已经完全掌握了行为策略。此时机器人完全按照自身的策略选择行为,随机选择行为几乎不起作用。
从仿真实验中可以得知,利用强化学习实现机器人行为学习是行之有效的。在上述的实验里,在没有赋予机器人行为规则选择的情况下,机器人不是根据这些规则,作出判断。而是自主地通过学习,来学会这些规则。因此,在各种不确定性,复杂的环境中使用这种机器人进行强化学习,可以顺利完成任务。
Q学习算法是强化学习的一种重要算法,而强化学习是现今一种非常重要的机器人学习方法,强化学习已经成为了现如今机器人系统实现控制的主流学习方法。通过仿真验证了采用Q学习实现机器人在未知环境下的行为选择控制是可行的、有效的,并具有良好的越障性能。

Claims (7)

1.一种未知环境下机器人避障方法,其特征在于,所述方法包括Q学习避障算法、仿真程序流程两部分,Q学习避障算法采用BP神经网络实现Q学习算法,该网络共分为输入层、隐含层和输出层,分别有N、H和M个单元;Q值用前向传播发产生;网络的误差信号                                                ,根据公式:确定;然后根据梯度下降的思想,得到应用BP神经网络实现Q学习时的权值调整规律;仿真程序流程包括仿真需求分析、仿真说明、程序过程。
2.根据权利要求1所述的一种未知环境下机器人避障方法,其特征在于,所述仿真需求分析包括对该环境采用二维建模、对机器人目标点和出发点的位置进行设置、进行相对应的二维图像运动仿真。
3.根据权利要求1所述的一种未知环境下机器人避障方法,其特征在于,所述仿真说明包括建立坐标系、环境建模、障碍物表示。
4.根据权利要求1所述的一种未知环境下机器人避障方法,其特征在于,所述程序过程包括机器人程序模块设,包括主程序框架模块设计、数据处理模块设计和移动机器人仿真模块设计。
5.根据权利要求4所述的一种未知环境下机器人避障方法,其特征在于,所述主程序框架模块,通过构建应用程序的人机交互界面,然后再构成整个应用程序的主框架,通过对应用程序模块进行有机连接,对用户事件实现响应,及内部结构化参数设计的传递。
6.根据权利要求4所述的一种未知环境下机器人避障方法,其特征在于,所述数据处理模块通过对主程序框架所传递环境参数的设定,直接对移动机器人运动的环境认知模式进行判断,并且输出相应的参数。
7.根据权利要求4所述的一种未知环境下机器人避障方法,其特征在于,所述机器人仿真模块由数据处理模块给定位置参数,再通过matlab软件进行仿真分析,绘出移动机器人的运动轨迹。
CN201410595228.XA 2014-10-30 2014-10-30 一种未知环境下机器人避障方法 Pending CN104317297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410595228.XA CN104317297A (zh) 2014-10-30 2014-10-30 一种未知环境下机器人避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410595228.XA CN104317297A (zh) 2014-10-30 2014-10-30 一种未知环境下机器人避障方法

Publications (1)

Publication Number Publication Date
CN104317297A true CN104317297A (zh) 2015-01-28

Family

ID=52372539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410595228.XA Pending CN104317297A (zh) 2014-10-30 2014-10-30 一种未知环境下机器人避障方法

Country Status (1)

Country Link
CN (1) CN104317297A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104914867A (zh) * 2015-06-12 2015-09-16 吉林大学 一种模糊神经网络的六足机器人自主导航闭环控制器
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN107255969A (zh) * 2017-06-28 2017-10-17 重庆柚瓣家科技有限公司 养老机器人用监管系统
CN107329445A (zh) * 2017-06-28 2017-11-07 重庆柚瓣家科技有限公司 机器人行为准则智能监管的方法
CN107367929A (zh) * 2017-07-19 2017-11-21 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN109164812A (zh) * 2018-10-23 2019-01-08 西南交通大学 一种未知环境下移动机器人多行为融合酶数值膜控制方法
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
WO2019047646A1 (zh) * 2017-09-05 2019-03-14 百度在线网络技术(北京)有限公司 车辆避障方法和装置
CN110345948A (zh) * 2019-08-16 2019-10-18 重庆邮智机器人研究院有限公司 基于神经网络与q学习算法结合的动态避障方法
CN111587408A (zh) * 2018-01-12 2020-08-25 华为技术有限公司 机器人导航和对象跟踪

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441736A (zh) * 2007-11-21 2009-05-27 新乡市起重机厂有限公司 汽车起重机机器人路径规划方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441736A (zh) * 2007-11-21 2009-05-27 新乡市起重机厂有限公司 汽车起重机机器人路径规划方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
乔俊飞等: "基于神经网络的强化学习在避障中的应用", 《清华大学学报(自然科学版)》 *
刘晓敏等: "基于Q学习算法的移动机器人避障控制策略", 《科学时代》 *
刘欢等: "未知环境下机器人避障设计研究", 《机械设计与制造》 *
盛维涛等: "基于神经网络的Q学习在Khepera Ⅱ机器人避障中的应用", 《世界科技研究与发展》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN104932267B (zh) * 2015-06-04 2017-10-03 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN104914867B (zh) * 2015-06-12 2018-02-16 吉林大学 一种模糊神经网络的六足机器人自主导航闭环控制器
CN104914867A (zh) * 2015-06-12 2015-09-16 吉林大学 一种模糊神经网络的六足机器人自主导航闭环控制器
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
CN107329445A (zh) * 2017-06-28 2017-11-07 重庆柚瓣家科技有限公司 机器人行为准则智能监管的方法
CN107255969A (zh) * 2017-06-28 2017-10-17 重庆柚瓣家科技有限公司 养老机器人用监管系统
CN107255969B (zh) * 2017-06-28 2019-10-18 重庆柚瓣家科技有限公司 养老机器人用监管系统
CN107367929A (zh) * 2017-07-19 2017-11-21 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN107367929B (zh) * 2017-07-19 2021-05-04 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
WO2019047646A1 (zh) * 2017-09-05 2019-03-14 百度在线网络技术(北京)有限公司 车辆避障方法和装置
CN111587408B (zh) * 2018-01-12 2022-07-12 华为技术有限公司 机器人导航和对象跟踪
CN111587408A (zh) * 2018-01-12 2020-08-25 华为技术有限公司 机器人导航和对象跟踪
CN109164812A (zh) * 2018-10-23 2019-01-08 西南交通大学 一种未知环境下移动机器人多行为融合酶数值膜控制方法
CN110345948A (zh) * 2019-08-16 2019-10-18 重庆邮智机器人研究院有限公司 基于神经网络与q学习算法结合的动态避障方法

Similar Documents

Publication Publication Date Title
CN104317297A (zh) 一种未知环境下机器人避障方法
Yao et al. Path planning method with improved artificial potential field—a reinforcement learning perspective
LU101606B1 (en) Path planning method and system based on combination of safety evacuation signs and reinforcement learning
CN111417964B (zh) 异策略行动者-评价者强化学习方法和系统
CN101188025B (zh) 一种高效实时的群体动画系统
Jain et al. MVO-based path planning scheme with coordination of UAVs in 3-D environment
Khuswendi et al. Uav path planning using potential field and modified receding horizon a* 3d algorithm
CN105182973A (zh) 多机器人追捕者围捕单移动目标的自适应围捕装置与方法
CN103679264A (zh) 基于人工鱼群算法的人群疏散路径规划方法
CN110447041A (zh) 噪声神经网络层
Wang et al. Research on dynamic path planning of wheeled robot based on deep reinforcement learning on the slope ground
Zhu et al. Deep reinforcement learning for real-time assembly planning in robot-based prefabricated construction
CN102073758A (zh) 基于图灵机模型的增强现实装配环境系统建模方法
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
Jiang et al. Pedestrian flow optimization to reduce the risk of crowd disasters through human–robot interaction
CN109740192B (zh) 基于阿诺德情绪模型的人群疏散仿真方法及系统
Kwiatkowski et al. Understanding reinforcement learned crowds
Chao et al. Brain inspired path planning algorithms for drones
Liu et al. Velocity-based dynamic crowd simulation by data-driven optimization
CN116562332B (zh) 一种人机共融环境下的机器人社交性运动规划方法
CN117518907A (zh) 智能体的控制方法、装置、设备及存储介质
CN114964247B (zh) 基于高阶图卷积神经网络的人群感知导航方法及系统
CN109117571B (zh) 一种用于无人机集群的互联协作运动自动控制方法
Espelosin et al. Path planning approach based on flock dynamics of moving particles
Wang et al. AGI in metaverse for smart cities and societies: A cyber physical social approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150128

WD01 Invention patent application deemed withdrawn after publication