CN111596668B - 基于逆向强化学习的移动机器人拟人化路径规划方法 - Google Patents

基于逆向强化学习的移动机器人拟人化路径规划方法 Download PDF

Info

Publication number
CN111596668B
CN111596668B CN202010556856.2A CN202010556856A CN111596668B CN 111596668 B CN111596668 B CN 111596668B CN 202010556856 A CN202010556856 A CN 202010556856A CN 111596668 B CN111596668 B CN 111596668B
Authority
CN
China
Prior art keywords
path
map
robot
point
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010556856.2A
Other languages
English (en)
Other versions
CN111596668A (zh
Inventor
迟文政
丁智宇
陈国栋
孙立宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202010556856.2A priority Critical patent/CN111596668B/zh
Publication of CN111596668A publication Critical patent/CN111596668A/zh
Application granted granted Critical
Publication of CN111596668B publication Critical patent/CN111596668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Abstract

本发明涉及一种基于逆向强化学习的移动机器人拟人化路径规划方法,包括:创建运动规划场景,作为地图,根据机器人在所述地图上的信息采集数据集;规定一个训练轮回的场景数,所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同;计算当前场景的代价地图;在所述代价地图中机器人自主重复规划多次路径,计算规划路径的特征和以及所述数据集中示范路径的特征和;判断示范路径与规划路径是否同伦,根据同伦结果结合两条路径的长度判断是否引入惩罚函数增加规划路径的特征和。本发明有利于形成更为安全可靠、自然舒适的路径。

Description

基于逆向强化学习的移动机器人拟人化路径规划方法
技术领域
本发明涉及人工智能技术的技术领域,尤其是指一种基于逆向强化学习的移动机器人拟人化路径规划方法。
背景技术
人工智能技术的突破给移动型服务机器人研究带来了巨大的机遇,目前,引导机器人、扫地机器人、导购机器人、货物搬运机器人等移动型服务机器人已经成功应用到了机场、超市、博物馆、家庭等多种环境。移动型机器人路径规划是指在无人干预的条件下,在给定的初始和目标点之间找到一条无碰撞且满足规定的各种约束的路径。相比于工业机器人,人机共融环境下的移动机器人工作环境更加复杂,如何在复杂的动态人机共存环境中高效快速地找到拟人化的最优运动轨迹是移动机器人要研究的重要问题之一。
然而,目前的大多数路径规划算法仅仅将周围行人看作动态障碍物,使得机器人缺乏社会意识,忽视行人的感受,无法像人一样和其他行人交互,容易打断人们的交谈。因此如何在路径规划过程中引入行人运动规则是拟人化路径规划算法要研究的重要问题,通过专家示范路径学习行人运动规则是解决这一问题的有效手段。通过结合逆向强化学习与路径规划器(path planner),实现行人运动特征的提取,进一步指导机器人路径规划。
当前,主要的路径规划算法可以大致分为以下五类:基于前向搜索的路径规划算法、基于势场的路径规划算法、基于人工智能的路径规划算法、基于机器学习的路径规划算法和基于随机采样的运动规划算法。其中,基于随机采样的路径规划算法避免了对状态空间的建模,极大地减少了规划时间和内存成本,更适用于解决动态环境的路径规划问题。因此逆向强化学习结合基于采样的路径规划算法能够更好地将行人的社会规范与路径规划算法有机结合,准确高效地应用于动态人机共融环境中。
对于较为简单以及部分的复杂场景,逆向强化学习能够训练出一组收敛的权重指导RRTS规划出与示范路径较为相符的路径。如图1a所示两个行人在相互接近,示范路径和通过学习之后规划出的路径都能够避开行人,不打断行人之间的社交活动。
然而,随着场景中行人数量的增多、行人间运动情况更为复杂时,通过大规模场景数量训练得到的权重规划出的路径会打断行人的行走和行人之间的社交活动,无法适用于部分复杂场景。如图1b所示,行人1在向行人2前进的过程中,会被机器人规划出的路径所阻碍,打断两人接近,而示范路径虽然较长,但是能够确保行人的行动不被干扰。相比而言,如图1b所示,规划路径的表现较为僵硬,缺乏社会意识,忽视行人的感受,无法像人一样和其他行人交互,容易打断人们的交谈,干扰行人原有的运动轨迹,行人往往需要对机器人的运动进行妥协,缺乏自然舒适的交互体验。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中易干扰行人正常行走与活动,导致形成的轨迹路径不安全及舒适的问题,从而提供一种形成的轨迹路径安全及舒适的基于逆向强化学习的移动机器人拟人化路径规划方法。
为解决上述技术问题,本发明的一种基于逆向强化学习的移动机器人拟人化路径规划方法,包括如下步骤:步骤S1:创建运动规划场景,作为地图,根据机器人在所述地图上的信息采集数据集;步骤S2:规定一个训练轮回的场景数,所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同;步骤S3:计算当前场景的代价地图;步骤S4:在所述代价地图中机器人自主重复规划多次路径,计算规划路径的特征和以及所述数据集中示范路径的特征和;步骤S5:判断示范路径与规划路径是否同伦,若同伦,进入步骤S7,若否,则继续判断示范路径是否比规划路径长,若是,进入步骤S6,若否,进入步骤S7;步骤S6:引入惩罚函数增加规划路径的特征和;步骤S7:计算规划路径的平均特征和;步骤S8:判断是否训练完一个轮回,若是,计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和,进入步骤S9;若否,计算下一个场景的代价地图,返回步骤S4;步骤S9:计算梯度,根据梯度下降算法更新特征权重,判断各个特征的权重是否收敛,若是,终止训练过程,返回逆向强化学习最终学习到的特征权重,若否,计算下一个场景的代价地图,返回步骤S4。
在本发明的一个实施例中,所述场景包括静态地图和行人位置、机器人的出发点以及目标点、行人运动方向。
在本发明的一个实施例中,根据机器人在所述地图上的信息采集数据集的方法为:在所述地图中设定机器人的起点和终点坐标,将终点坐标标注在地图上;控制机器人从起点运行到终点,并记录机器人在运行过程中的数据。
在本发明的一个实施例中,所述数据包括传感器采集的环境信息、行人的坐标与方向、机器人的初始位置、目标点的坐标。
在本发明的一个实施例中,所述传感器为激光雷达。
在本发明的一个实施例中,所述数据集还包括验证集。
在本发明的一个实施例中,所述代价地图的计算方法为:计算地图中每一个点的各个特征对应的特征值,包括该点到目标点距离、该点到最近障碍物的距离、该点在行人模型的位置对应的高斯模型代价值,遍历地图,计算得到特征代价地图。
在本发明的一个实施例中,机器人自主重复规划多次路径的方法为:每个场景重复用RRT*算法产生多条规划路径。
在本发明的一个实施例中,所述惩罚函数为:
Figure BDA0002544619470000031
ldemo、lmakeplan分别表示示范路径和规划路径的长度。
在本发明的一个实施例中,终止训练过程,返回逆向强化学习最终学习到的特征权重后,根据获得的特征权重进行路径规划,验证机器人在人机共融环境中的导航效果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的基于逆向强化学习的移动机器人拟人化路径规划方法,在逆向强化学习的梯度计算中引入了惩罚函数对特征和之差进行惩罚,使训练得到的权重能够正确地综合衡量路径长度、行人舒适度模型、到最近障碍物的距离,减少由于原本有所偏置的权重产生干扰行人正常行走与活动的轨迹,形成更为安全可靠、自然舒适的路径。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1a是两条路径关于行人同伦的示意图;
图1b是两条路径关于行人不同伦的示意图;
图2是本发明基于逆向强化学习的移动机器人拟人化路径规划方法流程图;
图3a是静态环境地图示意图;
图3b是添加行人、起点(机器人所在的位置)、终点之后的训练用图;
图4是本发明数据集的采集示意图;
图5是人机共融环境模型的示意图;
图6a是导入逆向强化学习的原始数据集的示意图;
图6b是代价地图的示意图;
图7是非同伦检测原理示意图;
图8a是引入惩罚函数前的特征权重的收敛情况;
图8b是引入惩罚函数后的特征权重的收敛情况;
图9是引入惩罚函数改进后的通过逆向强化学习生成的路径。
具体实施方式
如图2所示,本实施例提供一种基于逆向强化学习的移动机器人拟人化路径规划方法,包括如下步骤:步骤S1:创建运动规划场景,作为地图,根据机器人在所述地图上的信息采集数据集;步骤S2:规定一个训练轮回的场景数,所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同;步骤S3:计算当前场景的代价地图;步骤S4:在所述代价地图中机器人自主重复规划多次路径,计算规划路径的特征和以及所述数据集中示范路径的特征和;步骤S5:判断示范路径与规划路径是否同伦,若同伦,进入步骤S7,若否,则继续判断示范路径是否比规划路径长,若是,进入步骤S6,若否,进入步骤S7;步骤S6:引入惩罚函数增加规划路径的特征和;步骤S7:计算规划路径的平均特征和;步骤S8:判断是否训练完一个轮回,若是,计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和,进入步骤S9;若否,计算下一个场景的代价地图,返回步骤S4;步骤S9:计算梯度,根据梯度下降算法更新特征权重,判断各个特征的权重是否收敛,若是,终止训练过程,返回逆向强化学习最终学习到的特征权重,若否,计算下一个场景的代价地图,返回步骤S4。
本实施例所述基于逆向强化学习的移动机器人拟人化路径规划方法,所述步骤S1中,创建运动规划场景,作为地图,根据机器人在所述地图上的信息采集数据集,从而有利于为机器人提供训练场景和对比路径;所述步骤S2中,规定一个训练轮回的场景数,所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同,从而有利于减小权重的更新频率,并且使得确定的下降方向更准,引起的训练震荡更小;所述步骤S3中,计算当前场景的代价地图,从而有利于机器人自主规划路径,进行评判;所述步骤S4中,在所述代价地图中机器人自主重复规划多次路径,计算规划路径的特征和以及所述数据集中示范路径的特征和,从而有利于计算梯度;所述步骤S5中,判断示范路径与规划路径是否同伦,若同伦,进入步骤S7,若否,则继续判断示范路径是否比规划路径长,若是,进入步骤S6,若否,进入步骤S7,从而有利于保证规划路径符合拟人化;所述步骤S6中,引入惩罚函数增加规划路径的特征和,从而有利于使训练得到的权重能够正确地综合衡量路径长度、行人舒适度模型、到最近障碍物的距离;所述步骤S7中,计算规划路径的平均特征和,从而有利于计算梯度;所述步骤S8中,判断是否训练完一个轮回,若是,计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和,进入步骤S9;若否,计算下一个场景的代价地图,返回步骤S4;所述步骤S9中,计算梯度,根据梯度下降算法更新特征权重,判断各个特征的权重是否收敛,若是,终止训练过程,返回逆向强化学习最终学习到的特征权重,若否,计算下一个场景的代价地图,返回步骤S4,本发明减少了由于原本有所偏置的权重产生干扰行人正常行走与活动的轨迹,因此有利于形成更为安全可靠、自然舒适的路径。
所述步骤S1中,所述场景包括静态地图和行人位置、机器人的出发点以及目标点、行人运动方向。如图3a所示,所述静态地图中包括障碍物。通过线下方式完成训练场景的设计,对于同一幅静态地图来说,通过更改行人的位置即可完成相似场景的训练地图的绘制,提高训练场景设计的效率和静态地图的可复用性。
所述地图采用二维静态障碍物栅格地图,具体地,在机器人操作系统(RobotOperating System,简称ROS)下,通过发布话题在地图中加入行人的坐标和行走方向并在rviz里可视化行人在环境中的位置,如图3b所示。
根据机器人在所述地图上的信息采集数据集的方法为:在所述地图中设定机器人的起点和终点坐标,将终点坐标标注在地图上,有利于实现终点坐标可视化;控制机器人从起点运行到终点,并记录机器人在运行过程中的数据。具体地,志愿者通过遥控手柄就可以控制机器人。
所述数据包括传感器采集的环境信息、示范路径、行人的坐标与方向、机器人的初始位置、目标点的坐标。所述传感器为激光雷达。在本实施例中,上述数据信息通过ROS的rosbag指令来记录,并在之后的训练过程中通过话题的形式发布出来。
所述数据集还包括验证集,用于根据得到的权重进行路径规划,验证机器人在人机共融环境中的导航效果。
如图4所示,使用遥控手柄控制仿真环境中的机器人走出一条示范路径,为了缩小数据集的大小,用简单的圆柱体和箭头表示行人和愚运动方向方向,通过ROS(RobotOperating System,机器人操作系统)的rosbag功能记录起点、终点、示范路径、行人坐标和方向、障碍物等相关信息形成bag文件一数据集。其中传感器的数据通过数据转换(LaserScan->PointCloud2)以备兼容训练场景的环境描述格式,机器人的当前位置合并成一条有序的含时间序列的示范路径,将场景数目扩充至25(如15组训练集,10组验证集),至此完成数据集的采集。
所述步骤S3中,所述代价地图的计算方法为:计算地图中每一个点的各个特征对应的特征值,包括该点到目标点距离、该点到最近障碍物的距离、该点在行人模型的位置对应的高斯模型代价值,遍历地图,计算得到特征代价地图。
如图5所示,f1表示点到目标点的距离,f2表示点到最近障碍物的距离,f3-5分别表示点关于行人的前、后、右三个方向的高斯模型的代价值。以点xk为例,f1(xk)=||xk,xgoal||,
Figure BDA0002544619470000071
Figure BDA0002544619470000072
Figure BDA0002544619470000073
Figure BDA0002544619470000074
相比于以最短路径到达目标点,蜿蜒平滑的虚线路径更能够准确地避开行人,与行人自然舒适地进行交互。
如图6a所示,基于训练集的话题,计算障碍物膨胀层、行人周围三个方向的高斯模型、点到目标的距离,配合这三大模块对应的五组特征于特征权重计算得到代价地图,如图6b所示。
下面详细说明代价地图的具体计算方法:
以地图中的某个点为例:点到目标点距离f1、点到最近障碍物的距离f2、点在行人模型的位置对应的高斯模型代价值(模型前面f3、模型后面f4、模型右面f5),构成了一组某个点的特征值向量f=[f1,f2,f3,f4,f5]T
点xk各个特征对应的特征值的计算方法分别为:
f1(xk)=||xk,xgoal||
Figure BDA0002544619470000081
Figure BDA0002544619470000082
Figure BDA0002544619470000083
Figure BDA0002544619470000084
其中,γ表示正则化参数,a1,a2表示函数的调节参数,djk表示节点到第j个行人的距离,αjk表示节点与第j个行人的角度,||.||表示两点间的欧氏距离。
以单个点xk的成本函数为例:
Figure BDA0002544619470000085
遍历地图,计算得到特征代价地图。f表示节点的特征值,w表示特征值对应的权重。
机器人自主重复规划多次路径的方法为:每个场景重复用RRT*算法产生多条规划路径。
所述RRT*算法中路径ζ的成本函数为:
Figure BDA0002544619470000086
f(ζ)=[f(ζ)1,f(ζ)2,f(ζ)3,f(ζ)4,f(ζ)5]T
Figure BDA0002544619470000087
路径ζ一共有N个节点,xi表示第i个节点,||xi+1-xi||表示第i与i+1个节点之间的欧氏距离,f(ζ)表示规划路径的特征和(路径ζ所有节点的各个特征值之和),f(ζ)j表示路径ζ所有节点的第j个特征的特征值之和,fj(xi)表示路径中第i个节点的第j个特征的特征值。
所述步骤S4中,计算当前场景i的规划路径和所述数据集中示范路径的特征和fRRT*_i_j(j=1,...,r)、fdemo_i。其中,每个场景重复用RRT*算法产生r条规划路径,j表示该场景的第j条规划路径。
所述步骤S5中,两条路径同伦是指一条路径能够平滑地变为另外一条路径,且变形的过程中不遇到任何障碍物。如果示范路径和规划路径相对于行人在同一侧,那么称这两条路径关于行人同伦,如图1a;否则,不同伦,如图1b。一般地,规划路径与示范路径同伦时,规划路径较能符合本申请的预期,训练效果较好。相反,当规划路径与示范路径不同伦时,认为规划路径缺乏拟人性。
如图7所示,为了以示区分,节点稀疏的路径是示范路径,节点稠密的路径是规划路径,若某个节点对之间的线段穿过行人的部分区域,则证明两条路径非同伦,如果此时示范路径的长度大于规划路径,那么引入惩罚函数。否则,直接执行步骤S7。具体的判定两条路径是否同伦的方法如下:
为了加快检测速率,从起始点开始,以各自的路径总结点数为基数,按相同比例在示范路径和自主规划路径上各选取检测点,组成节点对,连接检测点对形成节点对线段,通过节点对线段判断示范路径与规划路径之间是否有行人。示范路径上第k个节点的坐标表示为:(xk_demo,yk_demo),规划路径上第k个节点的坐标表示为(xk_makeplan,yk_makeplan),其计算方式为:
Figure BDA0002544619470000091
Figure BDA0002544619470000092
Figure BDA0002544619470000093
Figure BDA0002544619470000094
其中demo、makeplan分别表示存储示范路径与规划路径有序节点的容器。
节点对组成的线段斜率(1)
Figure BDA0002544619470000095
根据计算的斜率以及节点对求出线段(若斜率不存在,每隔RRT*的最小扩展步长沿着节点对取点),以RRT*的节点最小扩展距离为步长遍历线段,判断线段上是否存在某个点出现在行人附近的区域,判断方法如下:
ishomotopy=max(dist(i,pj))>rj
其中,dist表示线段上的第i个节点到第j个行人的距离,rj表示第j个行人的区域半径。若上式成立,则两条路径非同伦,否则,两条路径同伦。
所述步骤S6中,所述惩罚函数为:
Figure BDA0002544619470000101
ldemo、lmakeplan分别表示示范路径和规划路径的长度。
具体地,通过惩罚函数项P(w)可以增加原来的规划路径的行人对应的特征和。具体计算方式如下:
fRRT*_i_j=fRRT*_i_j+cP(w)
Figure BDA0002544619470000102
c=(c1,c2,c3,c4,c5)
其中,两条路径同伦时,nohomotopy=0,否则nohomotopy=1,ldemo、lmakeplan分别表示示范路径和规划路径的长度,ci是对规划路径的特征和fi的惩罚力度,根据不同的训练效果设定。
所述步骤S7中,计算规划路径的平均特征和的方法为:
Figure BDA0002544619470000103
所述步骤S8中,计算所述训练轮回场景数中所有规划路径的平均特征和的方法为:计算一个轮回S个场景的规划路径的平均特征和
Figure BDA0002544619470000104
计算所述训练轮回场景数中所有示范路径的平均特征和的方法为:计算一个轮回S个场景的示范路径的平均特征和
Figure BDA0002544619470000111
所述步骤S9中,计算梯度的公式为:
Figure BDA0002544619470000112
梯度下降更新权重
Figure BDA0002544619470000113
Figure BDA0002544619470000114
其中,λ是调节因子,
Figure BDA0002544619470000115
是递增的稳定参数,
Figure BDA0002544619470000116
表示特征fi的梯度,wi表示特征fi的权重。
另外,返回逆向强化学习最终学习到的特征权重最终交由实际场景的机器人进行RRT*算法规划路径。
如图8a和图8b所示,训练到后期,常规逆向强化学习和引入惩罚函数的逆向强化学习都能使权重收敛,且特征和之差也趋于稳定。值得注意的是,后者关于行人的特征权重较高于前者,也因此弥补了常规的逆向强化学习方法在部分复杂场景中的不足。如图9所示,基于惩罚函数的逆向强化学习能够配合RRT*算法产生充分尊重行人心理舒适感的路径,给予行人间正常交流与活动充分便利。
本实施例中,所述步骤S2至所述步骤S9形成一个逆向学习框架,在施具体应用时,将采集的数据集输入至所述逆向学习框架中,就可以输出结果,得到最终学习到的特征权重。
终止训练过程,返回逆向强化学习最终学习到的特征权重后,根据获得的特征权重进行路径规划,验证机器人在人机共融环境中的导航效果。其中人机共融环境来源于所述数据集中的验证集。在验证集中验证步骤S9返回的权重的效果。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于,包括如下步骤:
步骤S1:创建运动规划场景,作为地图,根据机器人在所述地图上的信息采集数据集,根据机器人在所述地图上的信息采集数据集的方法为:在所述地图中设定机器人的起点和终点坐标,将终点坐标标注在地图上;控制机器人从起点运行到终点,并记录机器人在运行过程中的数据;
步骤S2:规定一个训练轮回的场景数,所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同;
步骤S3:计算当前场景的代价地图,所述代价地图的计算方法为:计算地图中每一个点的各个特征对应的特征值,包括该点到目标点距离、该点到最近障碍物的距离、该点在行人模型的位置对应的高斯模型代价值,遍历地图,计算得到特征代价地图,点到目标点距离f1、点到最近障碍物的距离f2、点在行人模型的位置对应的高斯模型代价值,模型前面f3、模型后面f4、模型右面f5,构成了一组某个点的特征值向量f=[f1,f2,f3,f4,f5]T,点xk各个特征对应的特征值的计算方法分别为:f1(xk)=||xk,xgoal||、
Figure FDA0003352920980000011
Figure FDA0003352920980000012
其中,Y表示正则化参数,a1,a2表示函数的调节参数,djk表示节点到第j个行人的距离,αjk表示节点与第j个行人的角度,||·||表示两点间的欧氏距离,对单个点xk的成本函数
Figure FDA0003352920980000013
遍历地图,计算得到特征代价地图,f表示节点的特征值,w表示特征值对应的权重;
步骤S4:在所述代价地图中机器人自主重复规划多次路径,计算规划路径的特征和以及所述数据集中示范路径的特征和;
步骤S5:判断示范路径与规划路径是否同伦,若同伦,进入步骤S7,若否,则继续判断示范路径是否比规划路径长,若是,进入步骤S6,若否,进入步骤S7;
步骤S6:引入惩罚函数增加规划路径的特征和;
步骤S7:计算规划路径的平均特征和;
步骤S8:判断是否训练完一个轮回,若是,计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和,进入步骤S9;若否,计算下一个场景的代价地图,返回步骤S4;
步骤S9:计算梯度,根据梯度下降算法更新特征权重,判断各个特征的权重是否收敛,若是,终止训练过程,返回逆向强化学习最终学习到的特征权重,若否,计算下一个场景的代价地图,返回步骤S4。
2.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:所述场景包括静态地图和行人位置、机器人的出发点以及目标点、行人运动方向。
3.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:所述数据包括传感器采集的环境信息、行人的坐标与方向、机器人的初始位置、目标点的坐标。
4.根据权利要求3所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:所述传感器为激光雷达。
5.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:所述数据集还包括验证集。
6.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:机器人自主重复规划多次路径的方法为:每个场景重复用RRT*算法产生多条规划路径。
7.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:所述惩罚函数为:
Figure FDA0003352920980000031
ldemo、lmakeplan分别表示示范路径和规划路径的长度。
8.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法,其特征在于:终止训练过程,返回逆向强化学习最终学习到的特征权重后,根据获得的特征权重进行路径规划,验证机器人在人机共融环境中的导航效果。
CN202010556856.2A 2020-06-17 2020-06-17 基于逆向强化学习的移动机器人拟人化路径规划方法 Active CN111596668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010556856.2A CN111596668B (zh) 2020-06-17 2020-06-17 基于逆向强化学习的移动机器人拟人化路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010556856.2A CN111596668B (zh) 2020-06-17 2020-06-17 基于逆向强化学习的移动机器人拟人化路径规划方法

Publications (2)

Publication Number Publication Date
CN111596668A CN111596668A (zh) 2020-08-28
CN111596668B true CN111596668B (zh) 2021-12-21

Family

ID=72186197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010556856.2A Active CN111596668B (zh) 2020-06-17 2020-06-17 基于逆向强化学习的移动机器人拟人化路径规划方法

Country Status (1)

Country Link
CN (1) CN111596668B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113359717B (zh) * 2021-05-26 2022-07-26 浙江工业大学 一种基于深度强化学习的移动机器人导航避障方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733038A (zh) * 2017-04-18 2018-11-02 深圳市丰巨泰科电子有限公司 机器人局部动态路径规划方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002303531A (ja) * 2001-04-05 2002-10-18 Naohiro Ishii 経路探索方法及びプログラム
CN106681331A (zh) * 2017-02-24 2017-05-17 王红军 一种基于测地线理论的栅格路径规划方法
CN108255182B (zh) * 2018-01-30 2021-05-11 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
WO2020001395A1 (zh) * 2018-06-29 2020-01-02 大连民族大学 道路行人分类方法及二维世界坐标系的俯视行人风险量化方法
CN110955242B (zh) * 2019-11-22 2023-04-14 深圳市优必选科技股份有限公司 机器人导航方法、系统、机器人及存储介质
CN111267110B (zh) * 2020-03-26 2021-07-16 大连理工大学 基于障碍尺寸同伦策略的机器人轨迹规划最优控制方法
CN111397598B (zh) * 2020-04-16 2022-02-01 苏州大学 人机共融环境中移动型机器人路径规划采样方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733038A (zh) * 2017-04-18 2018-11-02 深圳市丰巨泰科电子有限公司 机器人局部动态路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Fast 3D Map Building Method for Indoor Robots Based on Point-line Features Extraction;Pengfei Wang;《2017 2nd International Conference on Advanced Robotics and》;20171231;全文 *
基于行人轨迹预测的全向移动机器人路径规划;刘召;《计算机仿真》;20180131;第35卷(第1期);全文 *

Also Published As

Publication number Publication date
CN111596668A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN110285813B (zh) 一种室内移动机器人人机共融导航装置及方法
CN110928295B (zh) 一种融合人工势场与对数蚁群算法的机器人路径规划方法
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN112859859B (zh) 一种基于三维障碍物体素对象映射的动态栅格地图更新方法
CN112677995B (zh) 一种车辆轨迹规划方法、装置、存储介质及设备
CN112378408A (zh) 一种实现轮式移动机器人实时避障的路径规划方法
WO2018176596A1 (zh) 基于权重改进粒子群算法的无人自行车路径规划方法
CN106873599A (zh) 基于蚁群算法和极坐标变换的无人自行车路径规划方法
CN109491389A (zh) 一种具有速度约束的机器人轨迹跟踪方法
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
CN113311828A (zh) 一种无人车局部路径规划方法、装置、设备及存储介质
CN111596668B (zh) 基于逆向强化学习的移动机器人拟人化路径规划方法
CN113515131B (zh) 基于条件变分自动编码器的移动机器人避障方法及系统
Xue et al. Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment
Sundarraj et al. Route Planning for an Autonomous Robotic Vehicle Employing a Weight-Controlled Particle Swarm-Optimized Dijkstra Algorithm
Zhao et al. A study of the global topological map construction algorithm based on grid map representation for multirobot
CN115826586B (zh) 一种融合全局算法和局部算法的路径规划方法及系统
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置
CN113885567B (zh) 一种基于冲突搜索的多无人机的协同路径规划方法
Wu et al. An adaptive conversion speed Q-learning algorithm for search and rescue UAV path planning in unknown environments
Wang et al. Cooperative Motion Planning for Persistent 3D Visual Coverage With Multiple Quadrotor UAVs
CN113741480A (zh) 一种基于动态障碍物提取与代价地图相结合的避障方法
CN113959446A (zh) 一种基于神经网络的机器人自主物流运输导航方法
Lu et al. Autonomous mobile robot navigation in uncertain dynamic environments based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant