CN115542921A - 多机器人的自主路径规划方法 - Google Patents

多机器人的自主路径规划方法 Download PDF

Info

Publication number
CN115542921A
CN115542921A CN202211335156.6A CN202211335156A CN115542921A CN 115542921 A CN115542921 A CN 115542921A CN 202211335156 A CN202211335156 A CN 202211335156A CN 115542921 A CN115542921 A CN 115542921A
Authority
CN
China
Prior art keywords
robot
reinforcement learning
learning model
training
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211335156.6A
Other languages
English (en)
Inventor
吴其超
林睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202211335156.6A priority Critical patent/CN115542921A/zh
Publication of CN115542921A publication Critical patent/CN115542921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0234Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
    • G05D1/0236Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)

Abstract

本公开提供一种多机器人的自主路径规划方法,其包括:S1、初始化每个机器人的初始位姿和目标点的位姿;S2、将每个机器人的初始位置的集合s传入改进的深度强化学习模型中;S3、根据每个机器人的初始位置的集合s选择每个机器人的将要执行的动作集合a;S4、执行动作a得到下一时刻的位姿集合s’以及得到的奖励集合r;S5、将(s,a,r,s')存入经验池,获得训练用样本;S6、选择训练用样本中的至少部分样本对改进的深度强化学习模型进行训练,计算损失函数;S7、重复执行S1至S6;当改进的深度强化学习模型的奖励值趋于收敛时,获得训练后的改进的深度强化学习模型;S8、使用训练后的改进的深度强化学习模型,获得机器人的运动指令。

Description

多机器人的自主路径规划方法
技术领域
本公开涉及一种多机器人的自主路径规划方法,属于机器人智能控制和深度强化学习领域。
背景技术
现有技术中,从传统的A*,D*,人工蚁群算法(APF),基于采样的RRT,以及改进的RRT*,这些应用于一个机器人的路径规划方法已经日趋成熟。
随着多机器人协作的场景越来越多,路径规划方法也要不断更新并被应用于多机器人协助的场景,但是,现有技术中的这些一个机器人的路径规划方法已经不能够用于多机器人的路径规划。
考虑到不同类型的机器人和环境、静态或动态障碍物以及多个机器人对路径规划的影响因素,找到一条平滑度最高的最短路径以避免与其他机器人和障碍物发生碰撞仍然是一个具有挑战性的问题,多机器人路径规划相比单机器人由于机器人的数量增加,求解的维度也是呈指数倍的增加,这无疑也需要一种新的路径规划方法。
随着深度强化学习的方法近些年来的逐渐兴起,也有多智能体强化学习算法的提出,如DQN,IQL,DDPG,MAPPO等算法,但是这些算法主要应用在游戏领域,游戏或者这些仿真环境中对智能体的设置比较理想化,其运动模式比较简单,不是很符合实际的多机器人路径规划设定,不能直接应用中在多机器人的路径规划之中。
因此,亟需一种多机器人的自主路径规划方法,以解决上述技术问题。
发明内容
为了解决上述技术问题之一,本公开提供了一种多机器人的自主路径规划方法。
根据本公开的一个方面,提供了一种多机器人的自主路径规划方法,其包括:
S1、初始化每个机器人的初始位姿和目标点的位姿;
S2、将每个机器人的初始位置的集合s传入改进的深度强化学习模型中;
S3、根据每个机器人的初始位置的集合s选择每个机器人的将要执行的动作集合a;
S4、执行动作a得到下一时刻的位姿集合s’以及得到的奖励集合r;
S5、将(s,a,r,s')存入经验池,获得训练用样本;
S6、选择训练用样本中的至少部分样本对改进的深度强化学习模型进行训练,计算损失函数;
S7、重复执行S1至S6;当改进的深度强化学习模型的奖励值趋于收敛时,获得训练后的改进的深度强化学习模型;
S8、给所有机器人设置起始点和目标点,将机器人的位姿信息和终点信息,以及障碍物的信息穿入至训练后的改进的深度强化学习模型,获得机器人的运动指令。
根据本公开的至少一个实施方式的多机器人的自主路径规划方法,S3中,设置每个机器人运动控制由角速度ωi和线速度vi表示,单个机器人的动作集合为:ai=(vii);设定线速度和角速度的限制为:vi∈(0,2);ωi∈(-1.5,1.5);
整个多机器人系统将要执行的动作集合为:a=(a1,a2,…,am);
随机生成一个0到1之间的随机数,如果该随机数小于预先设置的探索因子ε,则随机从动作空间A=(v,ω)选取一个动作合集作为待执行动作;否则,选取Q值最大的动作为待执行动作。
根据本公开的至少一个实施方式的多机器人的自主路径规划方法,在训练过程中,探索因子ε会随着训练轮数的增加而逐渐减小。
根据本公开的至少一个实施方式的多机器人的自主路径规划方法,S4中,单个机器人的奖励为:ri=rn+rp+rt;其中,
rn是机器人的负向奖励,其包括rrobot_collision和robs_conllision;其中,rrobot_collision为机器人碰撞到其他机器人时的负向奖励:
Figure BDA0003914439220000031
robs_conllision为机器人碰撞到障碍物时的负向奖励;robs_conllision=-100;
则,
Figure BDA0003914439220000032
rp为机器人的正向奖励,其中,
Figure BDA0003914439220000033
其中,rdis_reward为机器人的起始点和目标点的距离奖励,
Figure BDA0003914439220000034
rr为机器人对其轨迹进行优化的奖励,rt=rtime,rtime为机器人一个回合内的走过时间的奖励。
根据本公开的至少一个实施方式的多机器人的自主路径规划方法,S5中,经验池包括MRDDP-RRT*算法中每个机器人与环境交互的得到的数据D1以及用RRT*进行预训练部分得到的数据D2,采用动态混合采样算法,以平衡训练阶段的样本数据D1和预训练阶段的RRT*样本数据D2。
根据本公开的至少一个实施方式的多机器人的自主路径规划方法,S6中,使用贝尔曼方程计算行为值函数:
Figure BDA0003914439220000035
并通过下式迭代求解最优策略:
Figure BDA0003914439220000036
Critic网络中,采用DQN中的TD error方式通过Q值对参数θQ进行更新,Actor网络中,采用确定性策略,通过μ对参数θμ进行更新。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的多机器人的自主路径规划方法的结构示意图。
图2是根据本公开的一个实施方式的多机器人的运动学模型图。
图3是根据本公开的一个实施方式的机器人碰撞区域显示图。
图4是根据本公开的一个实施方式的改进的深度强化学习模型的示意图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是根据本公开的一个实施方式的多机器人的自主路径规划方法的结构示意图。
如图1所示,本公开的一种多机器人的自主路径规划方法,其包括:S1、初始化每个机器人的初始位姿和目标点的位姿;S2、将每个机器人的初始位置的集合s传入改进的深度强化学习模型中;S3、根据每个机器人的初始位置的集合s选择每个机器人的将要执行的动作集合a;S4、执行动作a得到下一时刻的位姿集合s’以及得到的奖励集合r;S5、将(s,a,r,s')存入经验池,获得训练用样本;S6、选择训练用样本中的至少部分样本对改进的深度强化学习模型进行训练,计算损失函数;S7、重复执行S1至S6;当改进的深度强化学习模型的奖励值趋于收敛时,获得训练后的改进的深度强化学习模型;S8、给所有机器人设置起始点和目标点,将机器人的位姿信息和终点信息,以及障碍物的信息穿入至训练后的改进的深度强化学习模型,获得机器人的运动指令。
以下将对上述步骤S1至S8进行详细说明。
具体地,S1中,首先定义多机器人的运动模型:定义ri为第i个机器人的半径;定义rig为目标的半径;定义rok为障碍物的半径。
只要第i个机器人和障碍物k之间的距离小于D′o=ri+rok,或者第i个机器人和第j个机器人之间的距离小于Do=ri+rj,就会发生碰撞。
当第i个机器人达到目标位置时,Dig变得小于ri+rig.
假设单个机器人能够感知到一个半径为ri的圆形区域,当物体进入这个区域时,机器人都会感知到它的位置信息。
对机器人进行建模,令Pi=[xiyi]T表示第i个机器人的位置,νi表示其线速度,ψi表示航向角,即机器人的角度分别为速度矢量和目标线矢量。ψi被限制在(-π,π)内,ωi定义为第i个机器人的角速度。单个机器人运动模型可以表示为:
Figure BDA0003914439220000061
机器人在动态复杂场景中作业,通过激光传感器和UWB定位传感器实时感知周围环境信息,并实现准确的全局定位。并获得每个机器人已知起始点坐标集合S和目标点集合G。
S2中,在多机器人的状态设定中,第i个机器人的起始点坐标集合Si=(Ss,Os),其包括单个机器人自身的状态Ss和观测到障碍物信息Os
机器人本身的状态Ss=[xs,ys],是机器人在全局坐标系下相对于终点的绝对位姿坐标。
本公开中,Os=[xother,yother,vcurrent,wcurrent,vexpect,wexpect],其中xother,yother为当前机器人相对于其他机器人的绝对位姿,vcurrent,wcurrent为机器人当前的线速度和角速度,vexpect,wexpect为机器人当前位置到终点位置不考虑障碍物的期望线速度和角速度,其观测的范围就相当于现实机器人中的雷达范围。
然后将这些信息传入改进的深度强化学习模型中。
S3中,设置每个机器人运动控制由角速度ωi和线速度vi表示,单个机器人的动作集合为:ai=(vii);设定线速度和角速度的限制为:vi∈(0,2);ωi∈(-1.5,1.5);
整个多机器人系统将要执行的动作集合为:a=(a1,a2,…,am)。
本发明中,随机生成一个0到1之间的随机数,如果该随机数小于预先设置的探索因子ε,则随机从动作空间A=(v,ω)选取一个动作合集作为待执行动作;否则,选取Q值最大的动作为待执行动作。
优选地,在训练过程中,探索因子ε会随着训练轮数的增加而逐渐减小。
因为在训练次数较小时,整体策略质量较差,所以需要机器人进行更多的探索来获取奖励,改进策略。随着训练次数的增加,策略逐渐向好的方向更新,过多的探索会让策略难以收敛,所以让探索因子逐渐减小,这样会让整体的收敛性变得更好。
S4中,单个机器人的奖励为:ri=rn+rp+rt;其中,rn是机器人的负向奖励,这表示机器人最不能去做的行为,其包括rrobot_collision和robs_conllision;其中,rrobot_collision为机器人碰撞到其他机器人或者障碍物时的负向奖励,也就是说,当机器人碰撞到其他的机器人或者障碍物时,会给出一个较大的负向奖励。
由于两个机器人在快要碰撞前并没有意识到即将要碰撞,然后进行减速就已经避免不了碰撞,所以将每个机器人的半径进行膨胀,分为3个区域,即安全区,虚拟碰撞区和真实碰撞区,如图2所示,当机器人靠近到其他机器人或者障碍物就会受到一定的惩罚,具体设置如下:
Figure BDA0003914439220000071
Distance为两个机器人之间的距离,R为机器人的虚拟半径,r为机器人实际半径,λc为碰撞距离奖励折扣系数。
robs_conllision为机器人碰撞到障碍物时的负向奖励;robs_conllision=-100;
则,
Figure BDA0003914439220000072
rp为机器的正向奖励,其引导着机器人有着更好的导向型向着各自的目标点出发,其中,
Figure BDA0003914439220000073
其中,rdis_reward为机器人的起始点和目标点的距离奖励。
其中,
Figure BDA0003914439220000081
为机器人与目标点的启发式距离函数。Xgoal,Xstart,Ygoal,Ystart分别代表了起始点和目标的坐标。
λi为每个机器人的归一化奖励系数,这保证了每个机器人到达终点的奖励权重都是相等的,从而保证每个机器人到达目的策略权重是一致的。
rarrive_reward为机器人到达终点的奖励,该设定使机器人能够很精确的到达相应终点。
rr为机器人对其轨迹进行优化的奖励,对于轨迹优化rt=rtime,rtime为机器人一个回合内的走过时间的奖励,time_step为机器一个回合内走过的时间,以保证机器人规划的路径时间是相对于短的,保证了轨迹最优。
rr=rtime=time_step*0.01;
神经网络通过执行每个机器人的动作集合a然后通过上方的奖励函数计算其获得的奖励r,以及和环境交互后获得下一时刻的机器人位姿集合s'。
S5中,经验池包括改进的深度强化学习模型中每个机器人与环境交互的得到的数据D1以及用RRT*进行预训练部分得到的数据D2,采用动态混合采样算法,以平衡训练阶段的样本数据D1和预训练阶段的RRT*样本数据D2。
由此,在训练阶段开始时产生高质量的样本,使Actor和Critic能够快速收敛到良好的状态。
训练阶段的样本数据D1确保了对未知空间的不断探索,从而能够去探索一些复杂环境的情况,预训练阶段样本数据D2保证了机器人能够快速的到达终点,保证算法的收敛到一个更好的状态。最后,采用延迟动态混合采样的算法对经验池中两种数据进行采样以保证整个策略的稳定性。
RRT*算法的主要特征是能快速的找出初始路径,之后随着采样点的增加,不断地进行优化直到找到目标点或者达到设定的最大循环次数。RRT*算法是渐进优化的,也就是随着迭代次数的增加,得出的路径是越来越优化的。但是,如果单独使用RRT*算法,运算时间长是一个巨大的挑战。
基于此,本公开中,通过RRT*算法所获得的路径被放入一个集合,并被保存到样本数据D2中。
改进的深度强化学习模型中引入了一个RRT*预训练经验数据,在对改进的深度强化学习模型进行训练时,使用RRT*预训练经验数据样本的概率为p,使用训练阶段的样本数据概率为1-p,其中p为从一个较大的初始值逐渐减少动态混合采样。较大的初始p确保在开始阶段尽可能尽快到达目的地,随着训练的进行p不断变小,从而达到能够尽可能的达到不断探索的目的,找到一个近似最优解的路径。
其中p=η·p,η为折扣系数,也就是说,通过折扣系数η对概率p进行不断更新。
在一定步数间隔k后,从经验回放池D中取出M组批量的样本,设其中一条为(sj,aj,rj,s′j),计算Q值,并通过最小化损失函数更新Q网络,其损失函数为,γ为折扣因子:角标j表示第j个样本。
yi j=ri j+γQ′(s′j,a′1,…,a′N);
本公开中,改进的深度强化学习模型为MRDDP-RRT*(深度确定性的策略梯度算法)对DQN进行改进后的模型,提高了Actor-Critic的稳定性和收敛性。
此时,改进的深度强化学习模型由Actor和Critic两个部分构成,Actor是由3个全连接的64层GRU网络构成,输入为每个机器人的state,输出是动作的概率,使用Tanh做为激活函数,使其概率分布在(-1,1)之间。Critic也是由3个全连接的64层GRU网络构成,输入为每个机器人的state和其所选择的action,输出的是Q值。
本公开中,当对改进的深度强化学习模型进行训练时,需要对改进的深度强化学习模型的参数进行更新。
具体地,使用贝尔曼方程计算行为值函数:此公式是计算在采用确定性策略μ下选择动作的奖励期望值,本发明中采用DQN的结构使用Q网络来拟合Q函数:
Figure BDA0003914439220000091
Critic网络中,采用DQN中的TD error方式通过Q值对参数θQ进行更新,其损失函数为最小化均方差,其中N为该回合的总步数,yi为Q值的损失函数:
Figure BDA0003914439220000101
Actor网络中,采用确定性策略,通过μ策略对参数θμ进行更新在PG的基础上采取了确定性策略,根据行为直接通过函数μ确定了一个动作,即μ是一个最优行为策略。Q(s,a∣θQ)表示使用μ策略在s状态选选取动作所获取的回报期望值,又因为是在连续空间内所以期望可用积分来求,则可以使用下式来表示策略μ的好坏。
Figure BDA0003914439220000102
目标网络Q′和μ′采用滑动平均方式进行更新,τ为折扣的系数:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
训练时改进的深度强化学习模型的参数设置如下
Figure BDA0003914439220000103
重复执行上述步骤;当改进的深度强化学习模型的奖励值趋于收敛时,获得训练后的改进的深度强化学习模型。
具体地,经过N个回合的训练,使得模型的奖励值趋于收敛,机器人的路径规划效果能够达到一个稳定的效果,可以保存训练好的模型。
将训练好的模型应用部署在于多机器人路径规划当中。给所有机器人设置好起始点和目标点,将机器人的位姿信息和终点信息以及障碍物的信息传入到神经网络当中,训练好的模型会根据所传入的信息,分别给每个机器人发送运动指令,机器人一边执行指令一边不断反馈给模型相应的速度、加速度、位姿、障碍物、以及相对于终点的位姿信息,训练好的模型会根据所传入的信息做出下一时刻每个机器人的动作判断,直到最后一个机器人到达目的,然后结束整个过程。
本公开中通过MRDDP-RRT*(深度确定性的策略梯度算法)对DQN模型进行改进,并使得改进后的深度强化学习模型能够解决连续动作控制的问题,提高了Actor-Critic的稳定性和收敛性。
尤其是,随着机器人数量或者场景复杂度增加时,多机器人路径规划的难度会大大增加,尤其是在拥挤或者复杂的场景中,本公开的多机器人的自主路径规划方法能够以最高的成功率、平均速度和最短的行程时间以及相对于比较优的路径,解决机器人的路径规划问题,
由此,本公开的多机器人的自主路径规划方法中,采用的是集中式训练,分布式执行(CTDE)的框架,训练时采用集中式学习训练Critic与Actor,使用时Actor只用知道局部信息就能运行,Critic需要其他智能体的策略信息。训练的前期采用RRT*算法进行预训练,拿到多个机器人在不同起始点到达终点的规划路径的样本数据,然后基于改进的启发式(Heuristics)的该方法可以使多机器人在训练过程中保持试错,学习不碰撞且快速到达目的地的策略,并对其归一化处理使得网络更快的收敛。
尤其是,在本发明中加入了时间惩罚,使其轨迹更加平滑,更加贴近真实机器人的运动。多机器人运动的动作中包含了机器人运动的线速度,角速度,以保证路径规划的策略达到了最优。而且重新定义了观测函数,观测函数中加入本身机器人的位姿和其他机器人的位姿,以及每个机器人雷达的数据,使得机器人的策略达到更优。
因此,本公开能够为多机器人系统训练一个有效的群体避障和导航策略,使得多机器人在复杂的环境和动态变化的障碍物环境中都能有着较高的效率和很好的轨迹。满足了移动机器人复杂动态场景作业时的自主导航功能需求,安全有序性好且实时性较高,能够推广应用于不同复杂动态场景中多机器人路径规划的问题。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (6)

1.一种多机器人的自主路径规划方法,其特征在于,包括:
S1、初始化每个机器人的初始位姿和目标点的位姿;
S2、将每个机器人的初始位置的集合s传入改进的深度强化学习模型中;
S3、根据每个机器人的初始位置的集合s选择每个机器人的将要执行的动作集合a;
S4、执行动作a得到下一时刻的位姿集合s’以及得到的奖励集合r;
S5、将(s,a,r,s')存入经验池,获得训练用样本;
S6、选择训练用样本中的至少部分样本对改进的深度强化学习模型进行训练,计算损失函数;
S7、重复执行S1至S6;当改进的深度强化学习模型的奖励值趋于收敛时,获得训练后的改进的深度强化学习模型;
S8、给所有机器人设置起始点和目标点,将机器人的位姿信息和终点信息,以及障碍物的信息穿入至训练后的改进的深度强化学习模型,获得机器人的运动指令。
2.如权利要求1所述的多机器人的自主路径规划方法,其特征在于,S3中,设置每个机器人运动控制由角速度ωi和线速度vi表示,单个机器人的动作集合为:ai=(vii);设定线速度和角速度的限制为:vi∈(0,2);ωi∈(-1.5,1.5);
整个多机器人系统将要执行的动作集合为:a=(a1,a2,…,am);
随机生成一个0到1之间的随机数,如果该随机数小于预先设置的探索因子ε,则随机从动作空间A=(v,ω)选取一个动作合集作为待执行动作;否则,选取Q值最大的动作为待执行动作。
3.如权利要求2所述的多机器人的自主路径规划方法,其特征在于,在训练过程中,探索因子ε会随着训练轮数的增加而逐渐减小。
4.如权利要求2所述的多机器人的自主路径规划方法,其特征在于,S4中,单个机器人的奖励为:ri=rn+rp+rt;其中,
rn是机器人的负向奖励,其包括rrobot_collision和robs_conllision;其中,rrobot_collision为机器人碰撞到其他机器人时的负向奖励:
Figure FDA0003914439210000021
robs_conllision为机器人碰撞到障碍物时的负向奖励;robs_conllision=-100;
则,
Figure FDA0003914439210000022
rp为机器人的正向奖励,其中,
Figure FDA0003914439210000023
其中,rdis_reward为机器人的起始点和目标点的距离奖励,
Figure FDA0003914439210000024
rr为机器人对其轨迹进行优化的奖励,rt=rtime,rtime为机器人一个回合内的走过时间的奖励。
5.如权利要求1所述的多机器人的自主路径规划方法,其特征在于,S5中,经验池包括MRDDP-RRT*算法中每个机器人与环境交互的得到的数据D1以及用RRT*进行预训练部分得到的数据D2,采用动态混合采样算法,以平衡训练阶段的样本数据D1和预训练阶段的RRT*样本数据D2。
6.如权利要求1所述的多机器人的自主路径规划方法,其特征在于,S6中,使用贝尔曼方程计算行为值函数:
Figure FDA0003914439210000025
并通过下式迭代求解最优策略:
Figure FDA0003914439210000026
Critic网络中,采用DQN中的TD error方式通过Q值对参数θQ进行更新,Actor网络中,采用确定性策略,通过μ对参数θμ进行更新。
CN202211335156.6A 2022-10-28 2022-10-28 多机器人的自主路径规划方法 Pending CN115542921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211335156.6A CN115542921A (zh) 2022-10-28 2022-10-28 多机器人的自主路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211335156.6A CN115542921A (zh) 2022-10-28 2022-10-28 多机器人的自主路径规划方法

Publications (1)

Publication Number Publication Date
CN115542921A true CN115542921A (zh) 2022-12-30

Family

ID=84717684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211335156.6A Pending CN115542921A (zh) 2022-10-28 2022-10-28 多机器人的自主路径规划方法

Country Status (1)

Country Link
CN (1) CN115542921A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116674594A (zh) * 2023-07-28 2023-09-01 广汽埃安新能源汽车股份有限公司 一种基于路径规划的纵向控制方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116674594A (zh) * 2023-07-28 2023-09-01 广汽埃安新能源汽车股份有限公司 一种基于路径规划的纵向控制方法及装置
CN116674594B (zh) * 2023-07-28 2023-10-27 广汽埃安新能源汽车股份有限公司 一种基于路径规划的纵向控制方法及装置

Similar Documents

Publication Publication Date Title
Zhu et al. Deep reinforcement learning based mobile robot navigation: A review
CN110333739B (zh) 一种基于强化学习的auv行为规划及动作控制方法
CN113156980B (zh) 一种基于深度强化学习的塔式起重机路径规划方法及系统
Li et al. A behavior-based mobile robot navigation method with deep reinforcement learning
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
Jin et al. Efficient multi-agent cooperative navigation in unknown environments with interlaced deep reinforcement learning
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN115542921A (zh) 多机器人的自主路径规划方法
CN114396949A (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
Tutuko et al. Route optimization of non-holonomic leader-follower control using dynamic particle swarm optimization
CN117387635B (zh) 一种基于深度强化学习和pid控制器的无人机导航方法
Shi et al. Enhanced spatial attention graph for motion planning in crowded, partially observable environments
Hamad et al. Path Planning of Mobile Robot Based on Modification of Vector Field Histogram using Neuro-Fuzzy Algorithm.
Lee et al. Autonomous lane keeping based on approximate Q-learning
Yang et al. An online interactive approach for crowd navigation of quadrupedal robots
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Duo et al. A deep reinforcement learning based mapless navigation algorithm using continuous actions
Maoudj et al. Q-learning-based navigation for mobile robots in continuous and dynamic environments
Wang et al. Autonomous obstacle avoidance algorithm of UAVs for automatic terrain following application
Garrote et al. Improving Local Motion Planning with a Reinforcement Learning Approach
Honda et al. When to replan? an adaptive replanning strategy for autonomous navigation using deep reinforcement learning
Das et al. Improved real time A*-fuzzy controller for improving multi-robot navigation and its performance analysis
Qiu et al. Sub-optimal policy aided multi-agent reinforcement learning for flocking control
Pan et al. D3QHF: A Hybrid Double-deck Heuristic Reinforcement Learning Approach for UAV Path Planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination