CN112665592A - 一种基于多智能体的时空路径规划方法 - Google Patents
一种基于多智能体的时空路径规划方法 Download PDFInfo
- Publication number
- CN112665592A CN112665592A CN202011492816.2A CN202011492816A CN112665592A CN 112665592 A CN112665592 A CN 112665592A CN 202011492816 A CN202011492816 A CN 202011492816A CN 112665592 A CN112665592 A CN 112665592A
- Authority
- CN
- China
- Prior art keywords
- robot
- path
- dimensional
- time
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种基于多智能体的时空路径规划方法;该方法包括通过规避环境中的静态障碍物,规划机器人的二维行走路径;由行走时刻结合二维行走路径构建机器人的三维时空路径;通过路径调整算法调整机器人的行走速度,规避与动态障碍物的碰撞;本发明使用,构建机器人的二维行走路径,可以不考虑复杂变化的外界环境的影响,能够快速准确的获得机器人的二维行走路径,通过构建的三维时空路径,能够直观的判断出机器人是否发生碰撞,便于机器人的快速调整,通过路径调整算法能够实时根据三维时空路径的变化调整机器人的行走速度,进行规避动态障碍物,能够极大的提高路径规划的效率。
Description
技术领域
本发明涉及机器人路径规划技术领域,尤其涉及一种基于多智能体的时空路径规划方法。
背景技术
智能体是在某一环境下,能够持续自主的发挥作用,如扫地机器人、物流运输机器人等,对这些智能体进行路径规划,是一个复杂的计算过程,即需要规避环境中的静态障碍物,又需要规避环境中随时出现的动态障碍物。现有技术中在对静态障碍物和动态障碍物进行规避时,受变化的复杂外界环境的影响无法快速的构建机器人的路径。不能直观的判断出机器人是否发生碰撞,不便于机器人调整避障。并且在进行路径规划时,同时考虑规避静态障碍物和动态障碍物,路径规划的效率较低。
发明内容
本发明主要解决的技术问题是提供一种基于多智能体的时空路径规划方法,解决受变化的复杂外界环境的影响无法快速的构建机器人的路径,不能直观判断是否发生碰撞,路径规划效率较低的问题。
为解决上述技术问题,本发明采用的一个技术方案是提供一种基于多智能体的时空路径规划方法,包括步骤:
构建二维行走路径,设定机器人的起点和终点,规划机器人从起点到终点的二维行走路径;构建三维时空路径,随机设定机器人的行走速度,确定在二维行走路径的行走时刻,由行走时刻结合二维行走路径构建机器人的三维时空路径;基于三维时空路径避障,使用上述步骤构建动态障碍物的三维时空路径,若机器人的三维时空路径与动态障碍物的三维时空路径相交具有交点,则机器人与动态障碍物发生碰撞,交点即为碰撞点,设定机器人到达碰撞点前的一段时间为安全时间,在安全时间前通过路径调整算法调整机器人的行走速度,规避与动态障碍物的碰撞。
优选的,构建二维行走路径步骤中,机器人设置有多个,同时对多个机器人并行规划二维行走路径。
优选的,构建二维行走路径步骤中,构建机器人从起点到终点的二维行走路径为:
式中,ai表示机器人Ri的二维行走路径,i为正整数,表示多个机器人中的任一机器人,表示机器人Ri的起点坐标,表示机器人Ri的终点坐标,v为大于1的正整数,表示ai二维行走路径中坐标点的总个数,表示机器人Ri的起点坐标与终点坐标之间的任一点p的坐标,p∈(1,v)。
优选的,构建三维时空路径步骤中,随机设定机器人Ri的行走速度;确定机器人Ri的行走时刻,行走时刻与二维行走路径中坐标点的总个数对应,由行走时刻和二维行走路径的坐标点构成三维时空坐标,即:
式中,ai′表示机器人Ri的三维时空坐标,表示机器人Ri的三维起点坐标,表示机器人Ri的三维终点坐标,表示机器人Ri的三维起点坐标与三维终点坐标之间的任一点p的三维时空坐标,表示ai′三维时空坐标的行走时刻。
优选的,构建三维时空路径步骤中,由三维时空坐标ai′构建机器人的三维时空路径为:
式中,a″i表示机器人Ri的三维时空路径,表示机器人Ri三维时空路径的起点之后第二点三维时空坐标,(x(i,1),y(i,1),t(i,1))表示机器人Ri三维时空路径的起点到第二点之间任一点三维时空坐标,表示机器人Ri三维时空路径的p-1点的三维时空坐标,(x(i,p-1),y(i,p-1),t(i,p-1))表示机器人Ri三维时空路径的p点到p-1点之间任一点的三维时空坐标,表示机器人Ri三维时空路径的终点之前v-1点的三维时空坐标,(x(i,v-1),y(i,v-1),t(i,v-1))表示机器人Ri三维时空路径的终点到v-1点之间任一点的三维时空坐标。
优选的,构建三维时空路径步骤中,由行走时刻和二维行走路径的坐标轴构建三维时空坐标轴,三维时空坐标轴的横向坐标轴对应为二维行走路径的二维坐标轴的横向坐标轴,三维时空坐标轴的纵向坐标轴对应二维行走路径坐标轴的纵向坐标轴,三维时空坐标轴的竖向坐标轴为行走时刻,三维时空路径对应标识在三维时空坐标轴内,进而在三维时空坐标轴内显示碰撞点。
优选的,基于三维时空路径避障步骤中,由机器人的三维时空路径计算机器人之间的距离,
与机器人Ri的横向坐标x(i,p-1)对应的纵向坐标y(i,p-1)为:
式中,x(j,f-1)表示机器人Rj三维时空路径的f点到f-1点之间任一点的横向坐标,Rj表示多个机器人中不同与Ri的另一机器人,表示机器人Rj三维时空路径的f点的横向坐标,f为正整数,表示机器人Rj的二维行走路径中的任一坐标点;表示机器人Rj三维时空路径的f-1点的横向坐标,表示机器人Rj在f点的行走时刻,表示机器人Rj在f-1点的行走时刻。
与机器人Rj的横向坐标x(j,f-1)对应的纵向坐标y(j,f-1)为:
式中,y(j,f-1)表示机器人Rj三维时空路径的f点到f-1点之间任一点的纵向坐标,Rj表示多个机器人中区别与Ri的另一机器人,表示机器人Rj三维时空路径的f点的纵向坐标,f为正整数,表示机器人Rj的二维行走路径中的任一坐标点;表示机器人Rj三维时空路径的f-1点的纵向坐标,表示机器人Rj在f点的行走时刻,表示机器人Rj在f-1点的行走时刻。
可得机器人Ri和机器人Rj之间的距离D(i,j)为:
由机器人Ri和机器人Rj之间的距离判断该机器人之间是否发生碰撞;若D(i,j)>2r+d,机器人Ri和机器人Rj不发生碰撞;若D(i,j)<2r+d,机器人Ri和机器人Rj发生碰撞;式中,r表示机器人Ri和机器人Rj的半径,d表示安全距离。
优选的,基于三维时空路径避障步骤中,设定机器人的观测范围,动态障碍物进入到机器人的观测范围内,机器人通过路径调整算法调整行走速度,规避动态障碍物。
优选的,基于三维时空路径避障步骤中,获取机器人的观测值和环境状态值,根据观测值通过路径调整算法输出动作值,根据动作值调整机器人的行走速度,并获得该行走速度的奖励值,由观测值、环境状态值、动作值和奖励值输入到路径调整算法进行优化行走速度。
优选的,基于三维时空路径避障步骤中,奖励值包括有距离差奖励值,目标距离奖励值,障碍数奖励值,碰撞奖励值以及到达目的地奖励值。
本发明的有益效果是:本发明首先构建机器人的二维行走路径,可以不考虑变化的复杂外界环境的影响,能够快速准确的获得机器人的二维行走路径,通过构建的三维时空路径,能够直观的判断出机器人是否发生碰撞,便于机器人的快速调整,通过路径调整算法能够实时根据三维时空路径的变化调整机器人的行走速度,进行规避动态障碍物,从而通过不同的方法分别规避静态障碍物和动态障碍物,能够极大的提高路径规划的效率。在规避静态障碍物得到的二维行走路径的基础上构建三维时空路径,再基于三维时空路径规避动态障碍物,规避静态障碍物和动态障碍物之间具有紧密的联系。
附图说明
图1是根据本发明基于多智能体的时空路径规划方法一实施例的流程图;
图2是根据本发明基于多智能体的时空路径规划方法一实施例的三维时空路径示意图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限值本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1显示了本发明基于多智能体的时空路径规划方法的实施例,包括:
步骤S1:构建二维行走路径,设定机器人的起点和终点,规划机器人从起点到终点的二维行走路径。
步骤S2:构建三维时空路径,随机设定机器人的行走速度,确定在二维行走路径的行走时刻,由行走时刻结合二维行走路径构建机器人的三维时空路径。
步骤S3:基于三维时空路径避障,使用上述步骤构建动态障碍物的三维时空路径,若机器人的三维时空路径与动态障碍物的三维时空路径相交具有交点,则机器人与动态障碍物发生碰撞,交点即为碰撞点,设定机器人到达碰撞点前的一段时间为安全时间,在安全时间前通过路径调整算法调整机器人的行走速度,规避与动态障碍物的碰撞。
本发明在构建机器人的二维行走路径中,可以不考虑复杂变化的外界环境的影响,能够快速准确的获得机器人的二维行走路径,通过构建的三维时空路径,能够直观的判断出机器人是否发生碰撞,便于机器人的快速调整,通过路径调整算法能够实时根据三维时空路径的变化调整机器人的行走速度,进行规避动态障碍物,从而通过不同的方法分别规避静态障碍物和动态障碍物,能够极大的提高路径规划的效率。在规避静态障碍物得到的二维行走路径的基础上构建三维时空路径,再基于三维时空路径规避动态障碍物,规避静态障碍物和动态障碍物之间具有紧密的联系。
进一步的,构建二维行走路径步骤中,机器人设置有多个,同时对多个机器人并行规划二维行走路径。
s个机器人同时进行并行规划路径,即s个机器人中,每个机器人独立使用进行路径规划,即包括有s个线程的路径规划,并行进行规划不同机器人的二维行走路径。能够有效的节省计算时间,提高二维行走路径规划效率。
对于多个机器人的二维行走路径,根据计算机的硬件配置,例如计算机是8核的计算机,每个机器人开启一个进程,每个机器人实现并行的路径规划,在每个机器人内部开启多个线程,实现每个机器人并行路径规划计算。并行路径规划计算可以有效的利用多个CPU,节省计算时间,并行计算可以使CPU和各种硬件并行使用,从而也节省了计算时间。
进一步的,机器人的数量为s,可以表示为:
R1,...,Ri,...,Rs,
将二维行走路径在二维坐标轴中表示,在二维行走路径的二维坐标轴中,上述机器人对应的起点分别表示为:
(x11,y11),...,(xi1,yi1),...,(xs1,ys1)。
对s个机器人并行构建机器人从起点到终点的二维行走路径为:
式中,a1,...,ai,...,as分别表示机器人R1,...,Ri,...,Rs的二维行走路径,s表示机器人的总个数,i表示机器人中的任一机器人,i∈(1,s), 分别表示机器人R1,...,Ri,...,Rs的起点坐标, 分别表示机器人R1,...,Ri,...,Rs的终点坐标,u,...,v,...,w分别表示a1,...,ai,...,as二维行走路径中坐标点的总个数, 分别表示机器人R1,...,Ri,...,Rs的起点坐标与终点坐标之间的任一坐标,o∈(1,u),p∈(1,v),q∈(1,w)。
优选的,随机设定机器人R1,...,Ri,...,Rs的行走速度;确定机器人R1,...,Ri,...,Rs的行走时刻,行走时刻与二维行走路径中坐标点的总个数对应,由行走时刻和二维行走路径的坐标点构成三维时空坐标,即:
式中,a1′,...,ai′,...,as′分别表示机器人R1,...,Ri,...,Rs的三维时空坐标,s表示机器人的总个数,i表示机器人中的任一机器人,i∈(1,s),分别表示机器人R1,...,Ri,...,Rs的三维起点坐标,分别表示机器人R1,...,Ri,...,Rs的三维终点坐标,u,...,v,...,w分别表示a1′,...,ai′,...,as′三维时空坐标中坐标点的总个数,分别表示机器人R1,...,Ri,...,Rs的三维起点坐标与三维终点坐标之间的任一三维中间坐标,o∈(1,u),p∈(1,v),q∈(1,w);三维时空坐标中的分别表示a1′,...,ai′,...,as′三维时空坐标中的行走时刻。
进一步的,由三维时空坐标a1′,...,ai′,...,as′构建机器人的三维时空路径为:
式中,a″1,...,a″i,...,a″s,分别表示R1,...,Ri,...,Rs机器人的三维时空路径,分别表示R1,...,Ri,...,Rs机器人三维时空路径的起点的横向坐标、纵向坐标和行走时刻, 分别表示R1,...,Ri,...,Rs机器人三维时空路径的起点之后第二点的横向坐标、纵向坐标和行走时刻,x(1,1),...,x(i,1),...,x(s,1)、y(1,1),...,y(i,1),...,y(s,1)、t(1,1),...,t(i,1),...,t(s,1)分别表示R1,...,Ri,...,Rs三维时空路径的起点到第二点之间任一点的横向坐标、纵向坐标和行走时刻,分别表示R1,...,Ri,...,Rs机器人三维时空路径的任一点的横向坐标、纵向坐标和行走时刻, 分别表示R1,...,Ri,...,Rs三维时空路径的对应的任一点之前一点的横向坐标、纵向坐标和行走时刻,x(1,o-1),...,x(i,p-1),...,x(s,q-1)、y(1,o-1),...,y(i,p-1),...,y(s,q-1)、t(1,o-1),...,t(i,p-1),...,t(s,q-1)分别表示R1,...,Ri,...,Rs三维时空路径的对应的任一点到该点之前一点之间任一点的横向坐标、纵向坐标和行走时刻,分别表示R1,...,Ri,...,Rs机器人三维时空路径的终点的横向坐标、纵向坐标和行走时刻,分别表示R1,...,Ri,...,Rs机器人三维时空路径的终点之前一点的横向坐标、纵向坐标和行走时刻,x(1,u-1),...,x(i,v-1),...,x(s,w-1)、y(1,u-1),...,y(i,p-1),...,y(s,w-1)、t(1,u-1),...,t(i,v-1),...,t(s,w-1)分别表示R1,...,Ri,...,Rs机器人三维时空路径的终点之前一点到终点之间任一点的横向坐标、纵向坐标和行走时刻。
进一步的,当检测任一机器人是否发生碰撞时,其他所有机器人均作为动态障碍物。
以机器人R1和机器人R2为例,当检测机器人R1是否发生碰撞时,将机器人R2作为动态障碍物,当检测机器人R2是否发生碰撞时,将机器人R1作为动态障碍物。
进一步的,由机器人的三维时空路径计算机器人之间的距离。
与所述机器人Ri的横向坐标x(i,p-1)对应的纵向坐标y(i,p-1)为:
式中,x(j,f-1)表示所述机器人Rj三维时空路径的f点到f-1点之间任一点的横向坐标,Rj表示多个所述机器人中不同与所述机器人Ri的另一机器人,表示所述机器人Rj三维时空路径的f点的横向坐标,f为正整数,表示所述机器人Rj的二维行走路径中的任一坐标点;表示所述机器人Rj三维时空路径的f-1点的横向坐标,表示所述机器人Rj在f点的行走时刻,表示所述机器人Rj在f-1点的行走时刻;与所述机器人Rj的横向坐标x(j,f-1)对应的纵向坐标y(j,f-1)为:
式中,y(j,f-1)表示所述机器人Rj三维时空路径的f点到f-1点之间任一点的纵向坐标,Rj表示多个所述机器人中区别与所述机器人Ri的另一机器人,表示所述机器人Rj三维时空路径的f点的纵向坐标,f为正整数,表示所述机器人Rj的二维行走路径中的任一坐标点;表示所述机器人Rj三维时空路径的f-1点的纵向坐标,表示所述机器人Rj在f点的行走时刻,表示所述机器人Rj在f-1点的行走时刻;可得所述机器人Ri和所述机器人Rj之间的距离D(i,j)为:
由所述机器人Ri和所述机器人Rj之间的距离判断该所述机器人之间是否发生碰撞;若D(i,j)>2r+d,所述机器人Ri和所述机器人Rj不发生碰撞;若D(i,j)<2r+d,所述机器人Ri和所述机器人Rj发生碰撞;式中,r表示所述机器人Ri和所述机器人Rj的半径,d表示安全距离。
优选的,以机器人R1和机器人R2为例,
机器人R1的横向坐标为:
机器人R1的纵向坐标为:
机器人R2的横向坐标为:
机器人R2的纵向坐标为:
由此可知,机器人R1和机器人R2之间的实际距离D(1,2)即为:
当D(1,2)>2r+d时,r为机器人的半径,d为安全距离。表明机器人R1和机器人R2不发生碰撞。
当D(1,2)<2r+d时,表明机器人R1和机器人R2发生碰撞。
同理,使用同样的方法可以检测其他机器人之间是否发生碰撞。
进一步的,预设更新时间点,在更新时间点时更新三维时空路径,由最新一次更新的三维时空路径检测是否发生碰撞。
优选的,更新时间点预设为1秒,即每隔1秒更新三维时空路径,根据更新的三维时空路径检测是否发生碰撞。
进一步的,由行走时刻和二维行走路径的坐标轴构建三维时空坐标轴,三维时空坐标轴的横向坐标轴对应为二维行走路径的二维坐标轴的横向坐标轴,三维时空坐标轴的纵向坐标轴对应二维行走路径坐标轴的纵向坐标轴,三维时空坐标轴的竖向坐标轴为行走时刻轴。
优选的,结合图2所示,图中的X方向为三维时空坐标轴的横向坐标轴,图中的Y方向为三维时空坐标轴的纵向坐标轴,图中的T方向为三维时空坐标轴的竖向坐标轴,即行走时刻。
进一步的,当机器人发生碰撞时,在三维时空坐标轴中显示出来,在三维时空坐标轴中,不同的机器人具有不同的三维时空路径,一机器人的三维时空路径与另一机器人的三维时空路径相交的交点即为该机器人与另一机器人的碰撞点。
以4个机器人,每个机器人均有5个三维时空坐标为例,如图2中所示,图2中的点分别表示不同机器人的不同的三维时空坐标,在次不在累述。机器人R1的三维时空路径与机器人R2的三维时空路径,机器人R4的三维时空路径均有一个交点。机器人R1的三维时空路径与机器人R2的三维时空路径的交点为碰撞点记为P12,机器人R1的三维时空路径与机器人R4的三维时空路径的交点为碰撞点记为P14。机器人R1以速度v1行进,机器人R2以速度v2行进时,在碰撞点P12时,机器人R1与机器人R2碰撞。由图2可以清楚的获知:与机器人R1碰撞的机器人有机器人R2和机器人R4,与机器人R2碰撞的机器人还有机器人R3,与机器人R3碰撞的机器人还有机器人R4。机器人R2与机器人R3的碰撞点记为P23,机器人R3与机器人R4的碰撞点记为P34。由此即可直观的观测到机器人之间的碰撞点。
当检测到机器人将要发生碰撞时,在碰撞点之前的安全时间前通过路径调整算法调整机器人的行走速度。
优选的,安全时间为2秒,即在碰撞点的前2秒时,通过路径调整算法调整机器人的行走速度,使该机器人变道避免碰撞。
进一步的,设定机器人的观测范围,当动态障碍物进入到该机器人的观测范围内,机器人通过路径调整算法调整行走速度,规避动态障碍物。
优选的,设定机器人的观测范围为以2r+2d为半径的圆,r为机器人的半径,d为安全距离。
进一步的,在避障时,获取机器人的观测值和环境状态值,根据观测值通过路径调整算法输出动作值,根据动作值调整机器人的行走速度,并获得该行走速度的奖励值,由观测值、环境状态值、动作值和奖励值输入到路径调整算法进行优化行走速度。
优选的,观测值ot为:
进一步的,设定环境状态值,环境状态值为所有机器人的观测值。
优选的,环境状态值St表示为:
进一步的,动作值包括标准值、加速度值和角速度值。
优选的,动作值at为:
优选的,标准值的取值为:0或1。
优选的,角速度值的取值范围为:-1.5rand/s~1.5rand/s。
优选的,加速度值的取值范围为:-5m/s2~5m/s2。
进一步的,奖励值包括有距离差奖励值、目标距离奖励值、障碍数奖励值、碰撞奖励值、到达目的地奖励值。
进一步的,根据三维时空路径可知任一行走时刻的机器人与动态障碍物之间的距离,获取该行走时刻机器人与动态障碍物的之间的距离,作为当前距离,获取该行走时刻的下一行走时刻机器人与动态障碍物的之间的距离,作为下一距离,当前距离与下一距离的差值为距离差,预设距离差的距离差门限值,由距离差门限值确定距离差奖励值。
进一步的,距离差大于零时,距离差的值大于或等于距离差门限值的上限值时,距离差奖励值为距离差门限值的上限值;距离差的值大于距离差门限值的下限值时小于距离差门限值的上限值时,距离差奖励值为距离差;距离差的值小于或等于距离差门限值的下限值时,距离差奖励值为距离差门限值的下限值。
距离差奖励值可以表示为:
式中,Rvj表示距离差奖励值,表示机器人Ri和机器人Rj在t行走时刻之间的距离,i和j均包含在上文中的机器人数量s内。表示表示机器人Ri和机器人Rj在t+1行走时刻之间的距离;表示机器人Ri和机器人Rj的距离差,H表示距离差门限值的上限值,h表示距离差门限值的下限值,距离差门限值为[h,H]。
进一步的,距离差小于零时,距离差的值大于或等于负的距离差门限值的下限值时,距离差奖励值为负的距离差门限值的下限值;距离差的值大于负的距离差门限值的上限值小于负的距离差门限值的下限值时,距离差奖励值为距离差;距离差的值小于或等于负的距离差门限值的上限值时,距离差奖励值为负的距离差门限值的上限值。
距离差奖励值可以表示为:
式中,Rvj表示距离差奖励值,表示机器人Ri和机器人Rj在t行走时刻之间的距离,i和j均包含在上文中的机器人数量s内。表示表示机器人Ri和机器人Rj在t+1行走时刻之间的距离;表示机器人Ri和机器人Rj的距离差,H表示距离差门限值的上限值,h表示距离差门限值的下限值,距离差门限值为[h,H]。
进一步的,根据三维时空路径可知任一行走时刻的机器人与目标点之间的距离,获取该行走时刻机器人与目标点之间的距离,作为目标距离,获取该行走时刻的下一行走时刻机器人与目标点的距离,作为目标下一距离,目标距离与目标下一距离的差值为目标距离差,预设目标距离差的目标门限值,由目标门限值确定目标距离奖励值。
进一步的,目标距离差大于零时,目标距离差的值大于或等于目标门限值的上限值时,目标距离奖励值为目标门限值的上限值;目标距离差的值大于目标门限值的下限值时小于目标门限值的上限值时,目标距离奖励值为目标距离差;目标距离差的值小于或等于目标门限值的下限值时,目标距离奖励值为目标门限值的下限值。
目标距离奖励值可以表示为:
式中,Rvm表示目标距离奖励值,表示机器人Ri和目标点e在t行走时刻之间的距离,表示表示机器人i和目标点e在t+1行走时刻之间的距离;表示机器人Ri和目标点e的目标距离差,L表示目标门限值的上限值,l表示目标门限值的下限值,目标门限值为[l,L]。
进一步的,目标距离差小于零时,目标距离差的值大于或等于负的目标门限值的下限值时,目标距离奖励值为负的目标门限值的下限值;目标距离差的值大于负的目标门限值的上限值小于负的目标门限值的下限值时,目标距离奖励值为目标距离差;目标距离差的值小于或等于负的目标门限值的上限值时,目标距离奖励值为负的目标门限值的上限值。
目标距离奖励值可以表示为:
式中,Rvm表示目标距离奖励值,表示机器人Ri和目标点e在t行走时刻之间的距离,表示表示机器人Ri和目标点e在t+1行走时刻之间的距离;表示机器人i和目标点e的目标距离差,L表示目标门限值的上限值,l表示目标门限值的下限值,目标门限值为[l,L]。
进一步的,障碍数奖励值为障碍数增减值的倍数。
优选的,障碍物增减值的倍数为10倍。
障碍数奖励值可以表示为:
Rvz=Rvz'+u*10
式中:Rvz表示障碍数奖励值,u表示表示在第i个机器的可观测范围内减少或增减的障碍数,即障碍数增减值,表示在t行走时刻第i个机器人可观测范围内的机器人数,表示在t+1行走时刻第i个机器人可观测范围内的机器人数。
进一步的,碰撞奖励值为预设的碰撞数值。
优选的,预设碰撞数值为100。
碰撞奖励值可以表示为:
Rvp=-100
式中:Rvp为碰撞奖励值。
进一步的,到达目的地奖励值为预设目的地数值。
优选的,预设目的地数值为100。
到达目的地奖励值可以表示为:
Rvd=100
式中:Rvd为到达目的地奖励值。
进一步的,奖励值为距离差奖励值、目标距离奖励值、障碍数奖励值、碰撞奖励值、到达目的地奖励值中的一个或多个的累加。
结合上述内容,奖励值Rvt可以表示为:
Rvt=Rvj+Rvm+Rvz+Rvp+Rvd。
将观测值、环境状态值、动作值以及奖励值输入到路径调整算法中,通过路径调整算法调整行走速度。
进一步的,路径调整算法包括有DDPG算法、MADDPG算法,优选MADDPG算法。
进一步的,路径调整算法包括有策略网络和评估网络,策略网络包括有策略评价网络和策略目标网络,评估网络包括有评估评价网络和评估目标网络。
进一步的,将机器人的观测值输入到路径调整算法中,输出机器人的行走速度,即当前行走时刻当前状态的所执行的动作值。机器人执行完动作后,环境的状态发生变化,获得下一行走时刻的环境状态值,和下一行走时刻的观测值,同时根据路径调整算法的奖励机制获得奖励值。将环境的环境状态值、动作值、奖励值和下一行走时刻的环境状态值存储在经验池中,路径调整算法根据环境的状态值、动作值、奖励值和下一行走时刻的环境状态值更新路径调整算法。
优选的,由上述可知,观测值为ot,动作值为at,环境状态值为st,奖励值为Rvt。
将观测值ot输入到策略评价网络,由策略评价网络输出执行动作at,将执行动作at输入到机器人,获取奖励值Rvt,
将{st,at,Rvt,st+1}添加到经验池中。st,at输入到评估评价网络中,输出当前的Q值。
机器人执行动作at后获得下一行走时刻的环境状态值st+1,同时可获得机器人下一行走时刻的观测值ot+1,ot+1输入到策略目标网络中输出at+1。st+1,at+1输入到评估目标网络中,输出Q'。
利用评估评价网络输出的Q值,在路径调整算法中,进行对策略评价网络进行策略梯度更新。评价网络更新后每隔一定的步数将更新的参数值复制给策略目标网络使策略目标网络更新。
利用评估评价网络输出的Q值和评估目标网络输出的Q'值,计算路径调整算法中的loss函数。使用loss函数更新评估评价网络。评估评价网络更新后每隔一定的步数评估目标网络将更新的参数值复制给评估目标网络使评估目标网络更新。
从而通过更新后的路径调整算法进行调整机器人的行走速度,从而规避动态障碍物。
由此可见,本发明公开了一种基于多智能体的时空路径规划方法。该方法通过规划机器人的二维行走路径,避开静态障碍物,赋予机器人行走速度,获取机器人的行走时刻,由行走时刻和二维行走路径构建机器人的三维时空路径,由三维时空路径直观的判断机器人是否发生碰撞,检测到发生碰撞后,设定安全时间,在安全时间前通过路径调整算法调整机器人的行走速度,从而规避动态障碍物。本发明具有路径规划速度快,碰撞点便于观察,避障路径规划效率高的优点。
以上仅为本发明的实施例,并非因此限值本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于多智能体的时空路径规划方法,其特征在于,包括步骤:
构建二维行走路径,设定机器人的起点和终点,规划所述机器人从起点到终点的二维行走路径;
构建三维时空路径,随机设定所述机器人的行走速度,确定在所述二维行走路径的行走时刻,由所述行走时刻结合所述二维行走路径构建所述机器人的三维时空路径;
基于三维时空路径避障,使用上述步骤构建动态障碍物的三维时空路径,若所述机器人的三维时空路径与所述动态障碍物的三维时空路径相交具有交点,则所述机器人与所述动态障碍物发生碰撞,所述交点即为碰撞点,设定所述机器人到达所述碰撞点前的一段时间为安全时间,在所述安全时间前通过路径调整算法调整所述机器人的行走速度,规避与所述动态障碍物的碰撞。
2.根据权利要求1所述的基于多智能体的时空路径规划方法,其特征在于,构建二维行走路径步骤中,所述机器人设置有多个,同时对多个所述机器人并行规划所述二维行走路径。
5.根据权利要求4所述的基于多智能体的时空路径规划方法,其特征在于,构建三维时空路径步骤中,由所述三维时空坐标a′i构建所述机器人的三维时空路径为:
6.根据权利要求5所述的基于多智能体的时空路径规划方法,其特征在于,构建三维时空路径步骤中,由所述行走时刻和二维行走路径的坐标轴构建三维时空坐标轴,所述三维时空坐标轴的横向坐标轴对应为所述二维行走路径的二维坐标轴的横向坐标轴,所述三维时空坐标轴的纵向坐标轴对应所述二维行走路径坐标轴的纵向坐标轴,所述三维时空坐标轴的竖向坐标轴为所述行走时刻,所述三维时空路径对应标识在所述三维时空坐标轴内,进而在所述三维时空坐标轴内显示所述碰撞点。
7.根据权利要求5所述的基于多智能体的时空路径规划方法,其特征在于,基于三维时空路径避障步骤中,由所述机器人的三维时空路径计算所述机器人之间的距离,
与所述机器人Ri的横向坐标x(i,p-1)对应的纵向坐标y(i,p-1)为:
式中,x(j,f-1)表示所述机器人Rj三维时空路径的f点到f-1点之间任一点的横向坐标,Rj表示多个所述机器人中不同与所述机器人Ri的另一机器人,表示所述机器人Rj三维时空路径的f点的横向坐标,f为正整数,表示所述机器人Rj的二维行走路径中的任一坐标点;表示所述机器人Rj三维时空路径的f-1点的横向坐标,表示所述机器人Rj在f点的行走时刻,表示所述机器人Rj在f-1点的行走时刻;
与所述机器人Rj的横向坐标x(j,f-1)对应的纵向坐标y(j,f-1)为:
式中,y(j,f-1)表示所述机器人Rj三维时空路径的f点到f-1点之间任一点的纵向坐标,Rj表示多个所述机器人中区别与所述机器人Ri的另一机器人,表示所述机器人Rj三维时空路径的f点的纵向坐标,f为正整数,表示所述机器人Rj的二维行走路径中的任一坐标点;表示所述机器人Rj三维时空路径的f-1点的纵向坐标,表示所述机器人Rj在f点的行走时刻,表示所述机器人Rj在f-1点的行走时刻;
可得所述机器人Ri和所述机器人Rj之间的距离D(i,j)为:
由所述机器人Ri和所述机器人Rj之间的距离判断该所述机器人之间是否发生碰撞;
若D(i,j)>2r+d,所述机器人Ri和所述机器人Rj不发生碰撞;
若D(i,j)<2r+d,所述机器人Ri和所述机器人Rj发生碰撞;
式中,r表示所述机器人Ri和所述机器人Rj的半径,d表示安全距离。
8.根据权利要求7所述的基于多智能体的时空路径规划方法,其特征在于,基于三维时空路径避障步骤中,设定所述机器人的观测范围,所述动态障碍物进入到所述机器人的所述观测范围内,所述机器人通过所述路径调整算法调整所述行走速度,规避所述动态障碍物。
9.根据权利要求8所述的基于多智能体的时空路径规划方法,其特征在于,基于三维时空路径避障步骤中,获取所述机器人的观测值和环境状态值,根据所述观测值通过所述路径调整算法输出动作值,根据所述动作值调整所述机器人的所述行走速度,并获得该所述行走速度的奖励值,由所述观测值、环境状态值、动作值和奖励值输入到所述路径调整算法进行优化所述行走速度。
10.根据权利要求9所述的基于多智能体的时空路径规划方法,其特征在于,基于三维时空路径避障步骤中,所述奖励值包括有距离差奖励值,目标距离奖励值,障碍数奖励值,碰撞奖励值以及到达目的地奖励值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011492816.2A CN112665592B (zh) | 2020-12-16 | 2020-12-16 | 一种基于多智能体的时空路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011492816.2A CN112665592B (zh) | 2020-12-16 | 2020-12-16 | 一种基于多智能体的时空路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112665592A true CN112665592A (zh) | 2021-04-16 |
CN112665592B CN112665592B (zh) | 2023-10-20 |
Family
ID=75404594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011492816.2A Active CN112665592B (zh) | 2020-12-16 | 2020-12-16 | 一种基于多智能体的时空路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112665592B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113359859A (zh) * | 2021-07-16 | 2021-09-07 | 广东电网有限责任公司 | 一种组合导航避障方法、系统、终端设备及存储介质 |
WO2022268113A1 (zh) * | 2021-06-25 | 2022-12-29 | 深圳市海柔创新科技有限公司 | 障碍物躲避方法、装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030214911A1 (en) * | 2002-05-16 | 2003-11-20 | Miki Fukunari | Data based node penalties |
JP2010063001A (ja) * | 2008-09-05 | 2010-03-18 | Mitsubishi Electric Corp | 人物追跡装置および人物追跡プログラム |
CN102697508A (zh) * | 2012-04-23 | 2012-10-03 | 中国人民解放军国防科学技术大学 | 采用单目视觉的三维重建来进行步态识别的方法 |
KR101769786B1 (ko) * | 2016-02-17 | 2017-08-21 | 한국전자통신연구원 | 전방 시뮬레이션 기반 최적 주행 속도 예측 시스템 및 방법 |
CN108106623A (zh) * | 2017-09-08 | 2018-06-01 | 同济大学 | 一种基于流场的无人车路径规划方法 |
CN108445750A (zh) * | 2017-02-16 | 2018-08-24 | 法拉第未来公司 | 用于车辆运动规划的方法和系统 |
CN108762264A (zh) * | 2018-05-22 | 2018-11-06 | 重庆邮电大学 | 基于人工势场与滚动窗口的机器人的动态避障方法 |
US20190004524A1 (en) * | 2016-08-31 | 2019-01-03 | Faraday&Future Inc. | System and method for planning a vehicle path |
CN109960261A (zh) * | 2019-03-22 | 2019-07-02 | 北京理工大学 | 一种基于碰撞检测的动态障碍物避让方法 |
US20200062262A1 (en) * | 2018-08-24 | 2020-02-27 | Ford Global Technologies, Llc | Vehicle action control |
CN110969287A (zh) * | 2019-11-07 | 2020-04-07 | 郑州大学 | 一种舰载机导引路径规划方法 |
CN111367283A (zh) * | 2020-03-11 | 2020-07-03 | 郴州职业技术学院 | 一种基于障碍物构型重构的无人车避障方法及系统 |
CN111928867A (zh) * | 2020-08-20 | 2020-11-13 | 上海西井信息科技有限公司 | 基于时间扩展的路径规划方法、系统、设备及存储介质 |
-
2020
- 2020-12-16 CN CN202011492816.2A patent/CN112665592B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030214911A1 (en) * | 2002-05-16 | 2003-11-20 | Miki Fukunari | Data based node penalties |
JP2010063001A (ja) * | 2008-09-05 | 2010-03-18 | Mitsubishi Electric Corp | 人物追跡装置および人物追跡プログラム |
CN102697508A (zh) * | 2012-04-23 | 2012-10-03 | 中国人民解放军国防科学技术大学 | 采用单目视觉的三维重建来进行步态识别的方法 |
KR101769786B1 (ko) * | 2016-02-17 | 2017-08-21 | 한국전자통신연구원 | 전방 시뮬레이션 기반 최적 주행 속도 예측 시스템 및 방법 |
US20190004524A1 (en) * | 2016-08-31 | 2019-01-03 | Faraday&Future Inc. | System and method for planning a vehicle path |
CN108445750A (zh) * | 2017-02-16 | 2018-08-24 | 法拉第未来公司 | 用于车辆运动规划的方法和系统 |
CN108106623A (zh) * | 2017-09-08 | 2018-06-01 | 同济大学 | 一种基于流场的无人车路径规划方法 |
CN108762264A (zh) * | 2018-05-22 | 2018-11-06 | 重庆邮电大学 | 基于人工势场与滚动窗口的机器人的动态避障方法 |
US20200062262A1 (en) * | 2018-08-24 | 2020-02-27 | Ford Global Technologies, Llc | Vehicle action control |
CN109960261A (zh) * | 2019-03-22 | 2019-07-02 | 北京理工大学 | 一种基于碰撞检测的动态障碍物避让方法 |
CN110969287A (zh) * | 2019-11-07 | 2020-04-07 | 郑州大学 | 一种舰载机导引路径规划方法 |
CN111367283A (zh) * | 2020-03-11 | 2020-07-03 | 郴州职业技术学院 | 一种基于障碍物构型重构的无人车避障方法及系统 |
CN111928867A (zh) * | 2020-08-20 | 2020-11-13 | 上海西井信息科技有限公司 | 基于时间扩展的路径规划方法、系统、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
SUNGHA KIM; CHISUNG PARK; HYUN LEE; JANGMYUNG LEE: "Trajectory planning of autonomous robot using advanced fuzzy controller", THE 2010 IEEE INTERNATIONAL CONFERENCE ON INFORMATION AND AUTOMATION * |
宋宇,王志明: "基于改进SARSA(λ)移动机器人路径规划", 长春工业大学学报, vol. 40, no. 1 * |
谢园园;朱庆保;: "动态环境下基于蚁群算法的机器人路径规划", 南京师范大学学报(工程技术版), vol. 6, no. 03 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022268113A1 (zh) * | 2021-06-25 | 2022-12-29 | 深圳市海柔创新科技有限公司 | 障碍物躲避方法、装置、电子设备和存储介质 |
CN113359859A (zh) * | 2021-07-16 | 2021-09-07 | 广东电网有限责任公司 | 一种组合导航避障方法、系统、终端设备及存储介质 |
CN113359859B (zh) * | 2021-07-16 | 2023-09-08 | 广东电网有限责任公司 | 一种组合导航避障方法、系统、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112665592B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
Bouton et al. | Belief state planning for autonomously navigating urban intersections | |
CN109976340B (zh) | 一种基于深度增强学习的人机协同动态避障方法及系统 | |
US20210103286A1 (en) | Systems and methods for adaptive path planning | |
JP5262986B2 (ja) | 走行経路生成装置、走行経路生成方法、及び運転操作支援装置 | |
US20170168485A1 (en) | System and Method for Controlling Autonomous Vehicles | |
Florence et al. | Nanomap: Fast, uncertainty-aware proximity queries with lazy search over local 3d data | |
Zhao et al. | Dynamic motion planning for autonomous vehicle in unknown environments | |
Naveed et al. | Trajectory planning for autonomous vehicles using hierarchical reinforcement learning | |
CN112665592A (zh) | 一种基于多智能体的时空路径规划方法 | |
WO2022062349A1 (zh) | 车辆控制方法、设备、存储介质和电子装置 | |
CN113805597B (zh) | 基于粒子群算法的障碍物自我保护人工势场法局部路径规划方法 | |
CN110174118A (zh) | 基于强化学习的机器人多目标搜索路径规划方法和装置 | |
CN113359859B (zh) | 一种组合导航避障方法、系统、终端设备及存储介质 | |
Zhu et al. | A hierarchical deep reinforcement learning framework with high efficiency and generalization for fast and safe navigation | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
Gupta et al. | Intention-aware navigation in crowds with extended-space pomdp planning | |
CN116551703B (zh) | 一种复杂环境下基于机器学习的运动规划方法 | |
US20230162539A1 (en) | Driving decision-making method and apparatus and chip | |
Yuan et al. | A Q-learning approach based on human reasoning for navigation in a dynamic environment | |
CN115542921A (zh) | 多机器人的自主路径规划方法 | |
CN113189985B (zh) | 基于自适应粒子与信念填充的部分可观察驾驶规划方法 | |
He et al. | Fast a* anchor point based path planning for narrow space parking | |
Wang et al. | Learning to navigate for mobile robot with continual reinforcement learning | |
Liang et al. | Improved artificial potential field for unknown narrow environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |