CN114706384A

CN114706384A - 一种连通性保持的多机导航方法、系统及介质

Info

Publication number: CN114706384A
Application number: CN202210236855.9A
Authority: CN
Inventors: 李铭豪; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-05

Abstract

本发明公开了一种连通性保持的多机导航方法、系统及介质，方法包括：根据强化学习框架确定导航策略元素；导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号；根据导航策略元素，构建导航策略学习模型；获取专家策略数据，结合模仿学习对导航策略学习模型进行策略去最小化处理；根据策略去最小化处理的结果，完成策略优化。本发明针对未知复杂的导航环境，提出以原始距离测量的环境感知数据作为输入的多机导航策略。通过强化学习方法，机器人在训练过程中自主学习导航多机的策略，并在连通性约束下避免个体机器人脱离队伍，可广泛应用于移动机器人技术领域。

Description

一种连通性保持的多机导航方法、系统及介质

技术领域

本发明涉及移动机器人技术领域，尤其是一种连通性保持的多机导航方法、系统及介质。

背景技术

针对多智能体的全局连通性保持问题，现有的方法主要基于几类方法实现：基于人工势场的方法，基于梯度的方法以及基于强化学习的方法。基于人工势场的方法在障碍物的区域设计虚拟的斥力，在目标点处设计虚拟的引力来实现避障的效果。对于连通性约束，这类方法假设智能体之间关于距离的势能函数，根据势能函数的梯度方向来引导智能体维持全局连通性。基于梯度的方法也同样采用能量函数的概念，利用能量函数的梯度来指导智能体保持连通性的对应行为。不同于人工势场的是，这类方法应用于通用的任务，假设存在已有的控制器满足相应的任务(如避障)。基于强化学习的方法近年来有受到少量的研究关注，例如Lin,Juntong,et al."Connectivity guaranteed multi-robotnavigation via deep reinforcement learning."Conference on RobotLearning.PMLR,2020这个工作就考虑了在强化学习的框架下利用约束优化的方法来实现机器人之间的距离约束，但其考虑的是局部连通性不变，在面对复杂的障碍物场景时灵活性不足。

现有的多机连通性保持技术通常考虑完美感知的假设，即环境感知数据和队伍中机器人的位置以及速度测量是精确不存在误差的；环境中的障碍物也通常作先验假设，圆形或者简单的凸多边形有利于对算法的分析。这些假设一定程度上阻碍了技术去解决未知多变的复杂环境，例如基于势场法的技术在障碍物分布密集且形状不规则的情形表现较差，容易受困。

发明内容

有鉴于此，本发明实施例提供一种连通性保持的多机导航方法、系统及介质，能够有效应对各种不同的实际环境，同时实现导航过程中维护编队的连通性。

第一方面，本发明实施例提供了一种连通性保持的多机导航方法，包括：

根据强化学习框架确定导航策略元素；所述导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号；

根据所述导航策略元素，构建导航策略学习模型；

获取专家策略数据，结合模仿学习对所述导航策略学习模型进行策略去最小化处理；

根据所述策略去最小化处理的结果，完成策略优化。

可选地，所述方法还包括：

根据卷积层和全连接层，结合激活函数构造策略神经网络；

根据所述策略神经网络，进行策略的参数化处理。

可选地，所述根据所述导航策略元素，构建导航策略学习模型，包括：

根据所述观测数据、所述共享策略数据和所述速度控制信号，构建传输架构；

根据所述奖励信号，确定第一目标函数；

根据所述全局连通性信号，对所述第一目标函数进行约束处理；

根据所述传输架构、所述约束处理后的第一目标函数，构建导航策略学习模型。

可选地，所述根据所述观测数据、所述共享策略数据和所述速度控制信号，构建传输架构，包括：

获取所述观测数据作为模型输入；

根据所述模型输入，结合所述共享策略数据确定所述速度控制信号；

根据所述速度控制信号作为模型输出，完成所述传输架构的构建；

所述传输架构的表达式为：

a^i,t＝π_θ(o^i,t)

其中，i表示第i个机器人；t表示第t个时刻；o^i,t表示观测数据，为策略输入；π_θ表示共享策略数据，θ表示策略参数；a^i,t表示速度控制信号，为策略输出。

可选地，所述根据所述奖励信号，确定第一目标函数，包括：

根据所述奖励信号，预设奖励函数，所述奖励函数的表达式为：

其中，r^i,t表示奖励信号；

表示前进目标点或到达目标区域的奖励；

表示碰撞的惩罚；

根据所述奖励函数，结合期望累加和确定第一目标函数，所述第一目标函数的表达式为：

其中，J(θ)表示第一目标函数；γ∈[0,1]表示第一折扣因子；γ^t表示γ的次幂；T表示轨迹长度；E表示求期望的算子；θ表示策略参数，为优化变量。

可选地，所述根据所述全局连通性信号，对所述第一目标函数进行约束处理，包括：

根据所述全局连通性信号，结合示性函数确定连通性损失函数，所述连通性损失函数的表达式为：

c^t＝I(λ₂(G)<0)

其中，c^t表示全局连通性信号；I(·)表示示性函数；G表示集群机器人的位置构图；λ₂(G)表示G对应的拉普拉斯矩阵的第二小特征值；

根据所述连通性损失函数，对所述第一目标函数进行约束处理，所述约束处理后的第一目标函数的表达式为：

其中，J_c(θ)表示约束后的第一目标函数；

表示第二折扣因子；x^t表示全局连通性信号。

可选地，所述获取专家策略数据，结合模仿学习对所述导航策略学习模型进行策略去最小化处理，包括：

根据所述专家策略，结合模仿学习确定最小化损失项；

根据所述最小化损失项，确定第二目标函数。

第二方面，本发明实施例提供了一种连通性保持的多机导航系统，包括：

第一模块，用于根据强化学习框架确定导航策略元素；所述导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号；

第二模块，用于根据所述导航策略元素，构建导航策略学习模型；

第三模块，用于获取专家策略数据，结合模仿学习对所述导航策略学习模型进行策略去最小化处理；

第四模块，用于根据所述策略去最小化处理的结果，完成策略优化。

第三方面，本发明实施例的提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

第四方面，本发明实施例的提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明实施例首先根据强化学习框架确定导航策略元素；所述导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号；随后根据所述导航策略元素，构建导航策略学习模型；之后获取专家策略数据，结合模仿学习对所述导航策略学习模型进行策略去最小化处理；最终根据所述策略去最小化处理的结果，完成策略优化。本发明针对未知复杂的导航环境，提出直接以原始环境的观测数据构建策略学习模型，并利用强化学习方法，机器人可以依靠观测数据进行自主学习，完成策略优化，同时在全局连通性信号的约束下避免个体机器人脱离队伍。由于在策略训练过程中并没有对环境作先验假设(障碍物形状，大小，分布，数量等)，学习得到的导航策略能够很好地应对不同的实际环境。同时，还能在导航过程中维护编队的连通性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的连通性保持的多机导航方法的流程示意图；

图2为本发明实施例提供的马尔科夫决策过程模型结构示意图；

图3为本发明实施例提供的策略神经网络结构示意图；

图4为本发明实施例提供的部分策略训练仿真场景示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

图1所示为本发明实施例提供的连通性保持的多机导航方法的流程图，方法包括：

根据强化学习框架确定导航策略元素；导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号；

根据导航策略元素，构建导航策略学习模型；

获取专家策略数据，结合模仿学习对导航策略学习模型进行策略去最小化处理；

根据策略去最小化处理的结果，完成策略优化。

在一些实施例中，方法还包括：

根据卷积层和全连接层，结合激活函数构造策略神经网络；

根据策略神经网络，进行策略的参数化处理。

在一些实施例中，根据导航策略元素，构建导航策略学习模型，包括：

根据观测数据、共享策略数据和速度控制信号，构建传输架构；

根据奖励信号，确定第一目标函数；

根据全局连通性信号，对第一目标函数进行约束处理；

根据传输架构、约束处理后的第一目标函数，构建导航策略学习模型。

在一些实施例中，根据观测数据、共享策略数据和速度控制信号，构建传输架构，包括：

获取观测数据作为模型输入；

根据模型输入，结合所述共享策略数据确定所述速度控制信号；

根据速度控制信号作为模型输出，完成传输架构的构建；

传输架构的表达式为：

a^i,r＝π_θ(o^i,t)

在一些实施例中，根据所述奖励信号，确定第一目标函数，包括：

其中，r^i,t表示奖励信号；

表示前进目标点或到达目标区域的奖励；

表示碰撞的惩罚；

在一些实施例中，根据全局连通性信号，对第一目标函数进行约束处理，包括：

根据全局连通性信号，结合示性函数确定连通性损失函数，连通性损失函数的表达式为：

c^t＝I(λ₂(G)<0)

根据连通性损失函数，对第一目标函数进行约束处理，约束处理后的第一目标函数的表达式为：

其中，J_c(θ)表示约束后的第一目标函数；

表示第二折扣因子；c^t表示全局连通性信号。

在一些实施例中，获取专家策略数据，结合模仿学习对所述导航策略学习模型进行策略去最小化处理，包括：

根据所述专家策略，结合模仿学习确定最小化损失项；

根据所述最小化损失项，确定第二目标函数。

具体地，参照图2，在一些具体的实施例中，本发明利用强化学习来实现多机器人的连通性保持下的导航，首先定义马尔科夫决策过程(Markov Decision Process)模型，即强化学习所依赖的数学模型，定义了马尔科夫决策过程后，利用强化学习算法对问题进行求解，即策略优化过程，最终得到近似的最优策略。实现本发明上述方法实施例具体包括：

1.强化学习框架下的多机导航问题定义

整个方法考虑利用强化学习框架来训练分布式的导航策略。考虑一组同构的移动机器人，在每个时刻t，每个机器人i基于自身的观测数据o^i,t(t表示第t个时刻，i表示第i个机器人)，通过共享的策略π_θ计算自身需要的速度控制a^i,t(t表示第t个时刻，i表示第i个机器人)，所有机器人同步执行速度控制并分别得到奖励信号r^i,t(t表示第t个时刻，i表示第i个机器人)和全局的连通性信号c^t(t表示第t个时刻)。事实上，定义了上述元素，便给出了马尔科夫决策决策过程(Markov Decision Process)模型。定义了马尔科夫决策过程后，利用强化学习算法对策略进行优化更新，策略优化过程中会利用所有机器人收集得到的状态转移轨迹{o^i,t,a^i,t,r^i,t,c^t}，并结合专家策略π_E来提升优化的速度。

需要说明的是，对于观测数据，定义

表示2D激光雷达的测量数据(360°的90个均匀取样点)，

表示自身速度，

表示目标点相对位置，

表示集群其他机器人的相对位置，其中p^1,t表示第1个机器人在时刻的位置，其余同理，N表示集群机器人的总数。

观测数据做为策略的输入，而输出是机器人需要的速度控制，即

a^i,t＝π_θ(o^i,t)

其中，θ为策略对应的参数。对于策略输出，定义A^i,t＝[v_x,v_y]为笛卡尔坐标系下的期望速度。为了满足机器人的最大速度限制，需要对a^i,t进行相应的缩放。

对于奖励信号，根据任务的要求进行设计。整个集群需要进行协同导航到指定的目标区域，目标区域以圆的中心点和半径给定。设计如下的奖励函数来实现该任务：

其中，

表示机器人往目标点前进或集群到达目标区域的奖励：如果集群进入目标区域，则奖励为r_goal，否则奖励为w_g(||p^i,t-1-||-||p^i,t-g||)，其中w_g>0；

表示机器人发生碰撞时给予的惩罚：如果机器人与环境中的障碍物p_obs或其他机器人

j≠i发生碰撞，则

否则

根据实验设置相应的超参数为r_coll＝-100,r_goal＝100,w_g＝10。给定奖励函数，对于每个机器人，其强化学习的目标函数为最大化累加奖励和的期望：

其中，γ∈[0,1]为折扣因子，γ^t表示γ的t次幂，T表示轨迹长度，E表示求期望的算子，θ表示策略的参数，即优化变量。

在强化学习框架下，引入了连通性约束项c^t。要保证全局连通性，已有的理论证明了集群的机器人位置所构成的图G对应的拉普拉斯矩阵的第二小特征值(记为λ₂(G))应为非负值。因此利用示性函数I(·)来表示连通性损失信号：

c^t＝I(λ₂(G)<0)

其中，I(·)＝1当括号中的条件满足，否则I(·)＝0。

强化学习中的约束通常构造成累加奖励和的形式：

其中，γ_c∈[0,1]为对应的折扣因子，

表示γ_c的t次幂，T表示轨迹长度，E表示求期望的算子，θ表示策略的参数，即优化变量。当设置γ_c≈1，能够约束整个轨迹违反约束的次数。

由此，强化学习问题转化为如下约束优化问题：

θ^*＝argmaxJ(θ)

s.t.J_c(θ)≤d

其中，argmax表示求目标函数最大化时对应变量的算子，θ^*表示优化问题的最优解，s.t.表示优化问题的约束条件，d表示约束条件给定的最大值。

2.强化学习问题求解(策略优化)

至此，将多机导航任务定义为上述求解最优策略的约束优化问题，只要利用Constrained Policy Optimization(CPO)等强化学习方法便可进行策略优化，从而求得优化问题的近似解。在实际求解过程中，由于约束的引入，整个问题也变成一个多目标优化问题，这给原本探索效率不高的强化学习方法带来了更大的求解困难。为了解决这样的问题，考虑了利用专家策略来提升策略探索的效率，使整个优化问题变得可解。具体地，对于一个单机导航问题能够得到一个较好的单机导航策略。利用这样的策略π_E来引导多机策略的学习，即通过模仿学习来帮助策略的探索。形式化地说，希望策略去最小化与专家的差异，即最小化如下损失项：

其中，

表示专家策略的观测输入，其各元素o^i,t与中对应元素含义相同，T表示轨迹长度，N表示集群机器人总数，‖·‖表示求2范数的算子。引入上述的模仿专家策略的损失项，能得到新的目标函数：

其中，λ_E>0为超参数。

参照图3，对于的策略π_θ参数化，构造策略神经网络：

Conv1D表示一维的卷积层，FC表示全连接层，Tanh表示双曲正切函数(激活函数)。

由于强化学习方法目前的样本利用率低，需要收集大量的状态转移数据才能训练出好的策略，直接在真实机器人上进行训练容易造成硬件的损耗且时间开销巨大；由于强化学习的试错机制，在策略训练过程中容易引发意想不到的安全问题，因此大部分情况都考虑在仿真环境中进行策略的训练。

参照图4，通过构建了相应的仿真场景，为了让策略能应对不同的未知场景，仿真中对障碍物的设置进行一定程度的随机化，矩阵虚线连接的各个圆圈表示移动机器人，矩阵虚线表示机器人之间的连通性情况，圆圈虚线表示目标区域，其余灰块表示障碍物。在仿真环境中进行策略训练，所有机器人收集的数据用于更新同一个策略网络，从而提高策略训练的效率。

具体地，在实际实验中进行超参数测试，验证得到了如表1所示的可行的超参数设置，需要说明的是，所述数据仅用于解释本发明实施例的可行性，不能看作对本发明的限制。

表1

超参数	描述	值
			γ	目标函数的折扣因子	0.99
γ<sub>c</sub>	约束的折扣因子	0.999
			λ<sub>E</sub>	目标函数中模仿项的系数	0.1
d	约束的阈值	0.1

本发明实施例提供了连通性保持的多机导航系统，包括：

第一模块，用于根据强化学习框架确定导航策略元素；导航策略元素包括观测数据、共享策略数据、速度控制信号、奖励信号和全局连通性信号；

第二模块，用于根据导航策略元素，构建导航策略学习模型；

第三模块，用于获取专家策略数据，结合模仿学习对导航策略学习模型进行策略去最小化处理；

第四模块，用于根据策略去最小化处理的结果，完成策略优化。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例提供了一种电子设备，包括处理器以及存储器；

存储器用于存储程序；

处理器执行程序实现上述的连通性保持的多机导航方法。

本发明方法实施例的内容均适用于本电子设备实施例，本电子设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

综上所述，本发明针对未知复杂的导航环境，提出以原始距离测量的环境感知数据作为输入的多机导航策略。利用强化学习方法，机器人在训练过程中自主学习导航多机的策略，并在连通性约束下避免个体机器人脱离队伍。由于在策略训练过程中并没有对环境作先验假设(障碍物形状，大小，分布，数量等)，学习得到的导航策略能够很好地应对不同的实际环境。同时，由于策略考虑了队伍其他机器人的位置观测，在较好的定位和通信条件下，能够进行分布式的多机控制，在导航过程中维护编队的连通性。相比于过于基于势场法和梯度法的一些避障方法，本发明技术在保持连通性的前提下面对未知的障碍物场景有更好的表现。相比于过去的对连通性控制器的研究工作，本发明技术少有地考虑了结合感知的情况，并在实际实验中验证了本技术的可行性。并且，本发明提出了在策略学习过程中引入约束来实现连通性保持的目的，同时引入专家策略后既能节省训练时间，也能在保证策略的最终导航效果同时不违反约束。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理系统和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理系统或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的系统中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、系统或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、系统或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、系统或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、系统或设备或结合这些指令执行系统、系统或设备而使用的系统。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子系统)，便携式计算机盘盒(磁系统)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤系统，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。