CN114167865A

CN114167865A - 一种基于对抗生成网络与蚁群算法的机器人路径规划方法

Info

Publication number: CN114167865A
Application number: CN202111456479.6A
Authority: CN
Inventors: 唐卓; 王啸; 曹嵘晖; 纪军刚; 尹旦; 宋柏森; 朱纯霞; 赵环
Original assignee: Hunan University; Shenzhen Zhengtong Electronics Co Ltd
Current assignee: Hunan University; Shenzhen Zhengtong Electronics Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-11
Anticipated expiration: 2041-12-02
Also published as: CN114167865B

Abstract

本发明公开了一种基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，包括：获取当前环境中的环境数据，并将环境数据转换为环境矩阵G_map，获取机器人的起始目标点和结束目标点，并将生成的环境矩阵G_map转换为领接矩阵M_map；将机器人起始目标点坐标和结束目标点坐标与环境矩阵G_map输入训练好的对抗生成网络GAN中，以得到在环境矩阵G_map中存在最优路径的可行区域，根据环境矩阵G_map中存在最优路径的可行区域对蚁群算法的地图初始信息素进行更新，根据更新后地图初始信息素并使用改进的蚁群算法获取机器人的最优规划路径。本发明能够解决现有蚁群算法存在的初始搜索的盲目性与收敛速度慢的技术问题。

Description

一种基于对抗生成网络与蚁群算法的机器人路径规划方法

技术领域

本发明属于智能优化技术领域，更具体地，涉及一种基于对抗生成网络优化蚁群算法的机器人路径规划方法。

背景技术

机器人路径规划是指在优化距离、时间或能量等性能准则的同时，寻找一条从起始状态到目标状态的最佳无碰撞路径。

现有的机器人路径规划方法主要包括蚁群算法、快速扩展随机数(Rapidly-exploring Random Trees，简称RRT)算法、以及A*算法。其中，蚁群算法是一种基于状态转移概率和信息素更新机制的模拟蚁群觅食过程的智能算法，其作为仿生算法，具有分布计算、信息正反馈和启发式搜索的特征，属于进化算法中的一种启发式全局优化算法，相较于传统的路径规划算法，在求解性能上，蚁群算法具有很强的鲁棒性和搜索较好解的能力，将蚁群算法应用在机器人路径规划问题中，形成基于蚁群算法的多智能体强化学习路径规划方法，将有效提升路径规划问题的求解效率与精度；RRT算法具体是通过抽样来在已知的地图上建立无向图，进而通过搜索方法寻找相对最优的路径；A*算法具体是是一种静态路网中求解最短路径最有效的直接搜索方法，也是许多其他问题的常用启发式算法。

然而，上述现有的机器人路径规划方法均存在一些不可忽略的技术问题：第一、上述第一种路径规划方法蚁群算法是典型的概率算法，算法中的参数设定通常由实验方法确定，导致方法的优化性能与人的经验密切相关，很难使算法性能最优化。尽管随着模型迭代次数的增加，蚁群算法总能寻找到一条最优解，但是传统蚁群算法采用初始信息素均匀分布策略，因此能见度(即两点间欧氏距离的倒数)是蚁群在初期状态转换过程中的唯一根据，各节点的搜索概率差异较小，使得蚁群的初始搜索范围为全局搜索。因此，在面对机器人路径规划的实际应用时，蚁群在初始搜索时不可避免地要花时间搜索“可行性低的节点”，导致初始搜索的盲目性与收敛速度慢等问题；第二、上述第二种路径规划方法RRT算法，虽然只要路径存在，且规划的时间足够长，就一定能确保找到一条路径解，但如果规划器的参数设置不合理(如搜索次数限制太少、采样点过少等)，就可能找不到解；第三、上述第三种路径规划方法A*算法的空间增长是指数级别的并且其作为一种直接搜索方法，不对地图进行任何预处理，导致算法效率存在瓶颈

发明内容

针对现有技术的以上缺陷或改进需求，本发明公开了一种基于对抗生成网络优化蚁群算法的机器人路径规划方法，其目的在于，解决现有蚁群算法存在的初始搜索的盲目性与收敛速度慢的技术问题，以及现有RRT算法与A*算法存在的不对地图进行预处理直接搜索导致的效率瓶颈的技术问题，以及现有蚁群算法存在的可能陷入局部最优的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，包括以下步骤：

(1)获取当前环境中的环境数据，并将环境数据转换为环境矩阵G_map，获取机器人的起始目标点和结束目标点，并将生成的环境矩阵G_map转换为领接矩阵M_map；

(2)将步骤(1)得到的机器人起始目标点坐标和结束目标点坐标与环境矩阵G_map输入训练好的对抗生成网络GAN中，以得到在环境矩阵G_map中存在最优路径的可行区域；

(3)根据步骤(2)得到的环境矩阵G_map中存在最优路径的可行区域对蚁群算法的地图初始信息素进行更新，根据更新后地图初始信息素并使用改进的蚁群算法获取机器人的最优规划路径。

优选地，步骤(1)具体包括以下子步骤：

(1-1)探测环境地图中的障碍物，并对该环境地图进行栅格化，以得到栅格化后的环境地图；

(1-2)针对步骤(1-1)得到的栅格化后的环境地图，获取每个障碍节点(存在障碍物的节点)和可行节点(不存在障碍物的节点)的坐标，所有障碍节点的坐标、可行节点的坐标、以及机器人的起始目标点坐标和结束目标点坐标一起，构成新的环境地图；

(1-3)对步骤(1-2)得到的环境地图中的可行节点与障碍节点分别进行标记，以生成环境矩阵G_map，其包括N个元素，其中N为自然数；

(1-4)根据步骤(1-3)得到环境矩阵G_map中各个节点之间的通行代价将该环境矩阵G_map转化为领接矩阵M_map。

优选地，步骤(1-4)中领接矩阵M_map为N×N的矩阵，该邻接矩阵中的第i行第j列元素表示节点i到节点j的通行代价，两两节点间相邻或者构成对角，则表示可以通行，其对应的代价分别设定为1和

不可通行的代价记为0，其中i和j都∈[1，N]。

优选地，步骤(2)中的对抗生成网络是通过以下步骤训练得到的：

(2-1)获取训练对抗生成网络所需要的数据集，并将该数据集划分为训练集和测试集；

(2-2)初始化对抗生成网络的参数，以得到初始化后的对抗生成网络；

(2-3)将步骤(2-1)获取的训练集输入到步骤(2-2)初始化后的对抗生成网络中，以得到对抗生成网络的损失函数值Loss_G；

(2-4)重复迭代上述步骤(2-3)，直到对抗生成网络的损失函数值Loss_G最小为止，从而得到训练好的对抗生成网络模型。

优选地，步骤(2-1)具体为，通过在真实应用场景中随机选取多组机器人的起始目标点和结束目标点，构建环境地图，采用与步骤(1)相同的方式得到相应的起始目标点坐标和结束目标点坐标、环境矩阵G_map与领接矩阵M_map，在该环境矩阵上多次运行快速扩展随机树算法以得到路径，将多次运行算法得到的所有路径进行堆叠，以得到路径选择区域，将带有路径选择区域的所有环境地图按照1：1的比例划分为训练集和测试集，即随机划分50％作为训练集，剩余的50％作为测试集；

优选地，步骤(2-2)中，权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值，偏置参数的初始值设为0，初始学习率lr＝0.0003，采用阶梯性的学习策略，步长stepsize＝200，权重gamma＝0.1，即每200轮(epoch)将学习率乘以0.1。

优选地，步骤(2-3)中的损失函数等于：

Loss_G＝α₁logD_map(G(z,m,p),m)+α₂logD_point(G(z,m,p),p)

其中，α₁与α₂为动态交叉系数，设定k为超参数，α₁与α₂的计算方式如下式：

两个鉴别器D_map与D_point的损失函数分别为：

其中u表示训练集中通过RRT算法得到的真实路径选择区域，m表示训练集中的环境矩阵G_map，p表示训练集中机器人的起始目标点和结束目标点，z表示训练集中的样本噪声，G(z,m,p)表示对抗生成网络的输入为z、m与p时所生成的图像。

优选地，步骤(3)包括以下子步骤：

(3-1)根据步骤(1)中的机器人起始目标点和结束目标点与环境矩阵G_map和领接矩阵M_map，初始化蚁群算法的地图矩阵G_map，蚁群的种群数量K＝60，蚂蚁当前编号k＝1，最大迭代次数t_max＝400，第t轮迭代的地图信息素矩阵τ(t)，并初始化蚂蚁当前位置s_k与K个蚂蚁的历史位置矩阵L^1～K为空，s_k表示第k只蚂蚁当前在环境矩阵G_map中的位置，历史位置矩阵L^k表示第k只蚂蚁在环境矩阵G_map中的历史轨迹，其中k∈[1，蚁群的种群数量K]，t∈[0，t_max]；

(3-2)根据步骤(2)得到的环境矩阵G_map中存在最优路径的可行区域对蚁群算法的地图初始信息素进行优化，以得到优化后的地图初始信息素作为当前地图信息素矩阵；

(3-3)将第k只蚂蚁置于机器人起始目标点，以得到第k只蚂蚁的当前位置s_k，清空第k只蚂蚁的历史位置矩阵L^k，并将第k只蚂蚁的当前位置s_k添加到历史位置矩阵L^k；

(3-4)采用轮盘赌法的状态转移机制对步骤(3-3)得到的第k只蚂蚁的当前位置s_k进行更新，以得到更新后的第k只蚂蚁当前位置s_k，并将更新后的s_k添加到历史位置矩阵L^k；

其中，轮盘赌法的状态转移机制的状态转移概率如下式：

为第k只蚂蚁从环境矩阵G_map中的节点i移动到j的转移概率，

为环境矩阵G_map中的节点i和j间蚂蚁的能见度，d_ij为环境矩阵G_map中的节点i和j间的欧式距离，τ_ij(t)为t时刻两点间的信息素浓度，allowed_k为第k只蚂蚁尚未访问的邻居节点集合，α表示信息素启发因子，β表示能见度启发因子；

(3-5)判断第k只蚂蚁是否达到结束目标点或陷入死胡同，若未到达机器人结束目标点且未陷入死胡同则返回步骤(3-4)；若陷入死胡同则在第k只蚂蚁的历史位置矩阵L^k中删除第k只蚂蚁当前位置s_k，将当前位置s_k退回到历史位置矩阵L^k中上一步的位置，并将当前的死胡同节点的状态转移概率

置0后转至步骤(3-5)；若已达到机器人结束目标点则进入步骤(3-6)。

(3-6)判断蚂蚁当前编号k是否到达蚁群的种群数量K，若是则进入步骤(3-7)，否则设置k＝k+1，并返回步骤(3-3)；。

(3-7)根据环境矩阵G_map和领接矩阵M_map计算K个蚂蚁的历史位置矩阵L^1～K中的路径长度，选择路径长度最小的蚂蚁历史位置矩阵L^bs作为第t代蚁群寻优的最优路径。

(3-8)根据步骤(3-7)确定的第t代蚁群寻优的最优路径，采用改进的蚁群信息素更新公式对当前地图信息素矩阵τ(t)进行更新，以得到更新后的地图信息素矩阵τ(t+1)作为当前地图信息素矩阵。

(3-9)判断当前迭代次数t是否到达最大迭代次数t_max，若为到达则设置迭代次数t＝t+1，设置蚂蚁当前编号k＝1。并返回步骤(3-3)，否则至步骤(3-10)。

(3-10)依据步骤(3-7)得到的每一代蚁群寻优的最优路径，选择选择路径长度最小的路径作为全局最优解，输出机器人的路径规划的全局最优解。

优选地，步骤(3-2)是按照如下式所示：

其中G_GAN表示步骤(2)得到的环境矩阵G_map中存在最优路径的可行区域，τ_ij(0)表示从环境矩阵G_map中的节点i与j之间的地图初始信息素，即第0代的地图信息素，λ表示初始信息素增强系数，其取值范围是1到2。

优选地，步骤(3-8)中蚁群信息素更新公式如下：

τ_ij(t+1)＝(1-ρ)τ_ij(t)+Δτ_ij

其中，

为环境矩阵G_map中的节点i与j之间邻居节点集中障碍物的占比率，e(t)＝1/exp(ωt-1)为自适应增强因子，ω为[0,1]的可选系数，ρ表示挥发系数，

表示最优路径信息素增量。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明由于采用了步骤(2)，其预先生成地图中存在最优路径的可行区域，提高蚁群初期搜索方向的导向性，因此能够解决现有蚁群算法存在的初始搜索的盲目性与收敛速度慢的技术问题；

2、本发明由于采用了步骤(2)与步骤(3)，选择蚁群算法作为机器人路径规划的基础算法，利用训练好的对抗生成网络模型来生成一个存在最优路径的可行区域指导蚁群初期搜索方向，有效提升路径规划问题的求解效率与精度，因此能够解决现有RRT算法与A*算法存在的不对地图进行预处理直接搜索导致的效率瓶颈的技术问题；

3、本发明由于采用了步骤(3-8)，其在蚁群算法的信息素更新过程中增加可随环境变化自适应调整的衰减因子，提高蚁群搜索的随机性，并引入随机状态转移参数，避免陷入局部最优，因此能够解决现有蚁群算法存在的可能陷入局部最优的技术问题。

附图说明

图1是本发明基于对抗生成网络优化蚁群算法的机器人路径规划方法的流程图；

图2是本发明使用的的对抗生成网络的模型结构图；

图3是本发明基于对抗生成网络优化蚁群算法的机器人路径规划方法的细化流程图；

图4是本发明环境地图的示意图；

图5是本发明方法的步骤(1-3)处理后生成的环境矩阵G_map的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，采用一种基于对抗生成网络(GAN)的算法，利用训练好的对抗生成网络模型来生成一个存在最优路径的可行区域，该区域可产生非均匀的采样分布，指导基于蚁群算法的路径规划在更有效地探索状态空间内进行搜索。将环境图像与起始和结束目标点作为对抗生成网络的输入，网络拟合输出路径规划过程中可能存在的可行或最优路径的区域图。增强该区域内各点的初始信息素浓度，提高蚁群初期搜索方向的导向性，在环境中增加可随环境变化自适应调整的衰减因子，提高蚁群搜索的随机性，并引入随机状态转移参数，避免陷入局部最优，实现局部最优与全局最优之间的平衡，这将有效改进传统蚁群算法初始搜索的盲目性，提高算法的收敛速度。

如图1和图3所示，本发明提供了一种基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，包括以下步骤：

进一步地，步骤(1)具体包括以下子步骤：

(1-3)对步骤(1-2)得到的环境地图中(如图5所示)的可行节点(在图5中为白色)与障碍节点(在图5中为灰色)分别进行标记，以生成环境矩阵G_map，其包括N个元素(其中N为自然数)；

具体而言，本步骤是将可行节点标记为0，将障碍节点标记为1。

图4的环境地图，经过本步骤(1-3)的处理后，生成如图5所示的环境矩阵G_map。

具体而言，本步骤中环境矩阵G_map中有N个元素，则领接矩阵M_map为N×N的矩阵，该邻接矩阵中的第i行第j列元素表示节点i到节点j(其中i和j都∈[1，N])的通行代价，两两节点间相邻或者构成对角，则表示可以通行，其对应的代价分别设定为1和

不可通行的代价记为0。

(2)将步骤(1)得到的机器人起始目标点坐标和结束目标点坐标与环境矩阵G_map输入训练好的对抗生成网络(GenerativeAdversarialNetworks，简称GAN)中(如图2所示)，以得到在环境矩阵G_map中存在最优路径的可行区域；

进一步地，步骤(2)中的对抗生成网络是通过以下步骤训练得到的：

具体而言，本步骤通过在真实应用场景中随机选取多组机器人的起始目标点和结束目标点，构建环境地图(例如，在真实应用场景下，采集500组具备不同障碍节点的地图环境，每种环境选取20组机器人的起始目标点和结束目标点)，采用与上述步骤(1)相同的方式得到相应的起始目标点坐标和结束目标点坐标、环境矩阵G_map与领接矩阵M_map，在该环境矩阵上多次运行快速扩展随机树算法(Rapidly-exploring Random Trees，简称RRT)以得到路径，将多次运行算法得到的所有路径进行堆叠，以得到路径选择区域，将带有路径选择区域的所有环境地图(500×20组)按照1：1的比例划分为训练集和测试集，即随机划分50％作为训练集，剩余的50％作为测试集，重复划分10次，以减少随机误差。

具体而言，权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值，偏置参数的初始值设为0，初始学习率lr＝0.0003，采用阶梯性的学习策略，步长stepsize＝200，权重gamma＝0.1，即每200轮(epoch)将学习率乘以0.1；

为了增加对抗生成网络定位起始点与目标点的能力，采用两个鉴别器D_map与D_point鉴别器分别判断网络输出的可行区域与环境地图和初始与结束状态的匹配程度。

针对两种鉴别器D_map与D_point，将对抗生成网络的条件变量拆分为y_map与y_point即输入为m(环境矩阵G_map)与p(机器人的起始目标点和结束目标点)，生成的图像可以表示为G(z,m,p)。分别定义两个鉴别器的损失函数如下式：

其中u表示训练集中通过RRT算法得到的真实路径选择区域，m表示训练集中的环境矩阵G_map，p表示训练集中机器人的起始目标点和结束目标点，z表示训练集中的样本噪声。

对于生成器G，定义其损失函数如下式：

Loss_G＝α₁logD_map(G(z,m,p),m)+α₂logD_point(G(z,m,p),p)

其中，由于起始状态和目标状态占用图像中的小像素，生成器G可能会忽略它们的语义信息。为了提高生成器G对起始状态和目标状态的关注，设计了动态交叉系数α₁与α₂，赋予其较大的损失权重。设定超参数k(其取值为k＝3)，α₁与α₂的计算方式如下式：

(2-4)重复迭代上述步骤(2-3)，直到对抗生成网络的损失函数值Loss_G最小为止，从而得到训练好的对抗生成网络模型；

本步骤执行完毕后，最终训练出在给定机器人的起始目标点和结束目标点和环境地图所生成的环境矩阵G_map的条件下，能够生成非均匀采样的可行区域的对抗生成网络模型。

(3)根据步骤(2)得到的环境矩阵G_map中存在最优路径的可行区域对蚁群算法的地图初始信息素进行更新，根据更新后地图初始信息素并使用改进的蚁群算法(其中将步骤(1)中的机器人起始目标点和结束目标点与环境矩阵G_map和领接矩阵M_map作为蚁群算法的输入)获取机器人的最优规划路径。

进一步地，步骤(3)包括以下子步骤：

(3-1)根据步骤(1)中的机器人起始目标点和结束目标点与环境矩阵G_map和领接矩阵M_map，初始化蚁群算法的地图矩阵G_map，蚁群的种群数量K＝60，蚂蚁当前编号k＝1(表示第1只蚂蚁)，最大迭代次数t_max＝400，第t轮迭代的地图信息素矩阵τ(t)(其中t∈[0，t_max])，并初始化蚂蚁当前位置s_k与K个蚂蚁的历史位置矩阵L^1～K为空，s_k表示第k只蚂蚁当前在环境矩阵G_map中的位置，历史位置矩阵L^k表示第k只蚂蚁在环境矩阵G_map中的历史轨迹，其中k∈[1，蚁群的种群数量K]，；

具体而言，本步骤是如下式所示：

其中G_GAN表示步骤(2)得到的环境矩阵G_map中存在最优路径的可行区域，τ_ij(0)表示从环境矩阵G_map中的节点i与j之间的地图初始信息素(即第0代的地图信息素)，λ表示初始信息素增强系数，其取值范围是1到2，优选为1.5。

其中，轮盘赌法的状态转移机制的状态转移概率如下式：

为第k只蚂蚁从环境矩阵G_map中的节点i移动到j的转移概率，

为环境矩阵G_map中的节点i和j间蚂蚁的能见度，d_ij为环境矩阵G_map中的节点i和j间的欧式距离，τ_ij(t)为t时刻两点间的信息素浓度，allowed_k为第k只蚂蚁尚未访问的邻居节点集合，α表示信息素启发因子，其取值为2，β表示能见度启发因子，其取值为7。

考虑到机器人需避开障碍物完成行径动作，采用一种随障碍物数量自适应的衰减因子，作为路段信息素增量的权重系数，改进的蚁群信息素更新公式如下：

τ_ij(t+1)＝(1-ρ)τ_ij(t)+Δτ_ij

其中，

为环境矩阵G_map中的节点i与j之间邻居节点集中障碍物的占比率，e(t)＝1/exp(ωt-1)为自适应增强因子，ω为[0,1]的可选系数，其取值为0.1，ρ表示挥发系数，其取值为0.6，

表示最优路径信息素增量。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，步骤(1)具体包括以下子步骤：

(1-2)针对步骤(1-1)得到的栅格化后的环境地图，获取每个障碍节点和可行节点的坐标，所有障碍节点的坐标、可行节点的坐标、以及机器人的起始目标点坐标和结束目标点坐标一起，构成新的环境地图；

3.根据权利要求1或2所述的基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，步骤(1-4)中领接矩阵M_map为N×N的矩阵，该邻接矩阵中的第i行第j列元素表示节点i到节点j的通行代价，两两节点间相邻或者构成对角，则表示可以通行，其对应的代价分别设定为1和

不可通行的代价记为0，其中i和j都∈[1，N]。

4.根据权利要求1至3中任意一项所述的基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，步骤(2)中的对抗生成网络是通过以下步骤训练得到的：

5.根据权利要求4所述的基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，步骤(2-1)具体为，通过在真实应用场景中随机选取多组机器人的起始目标点和结束目标点，构建环境地图，采用与步骤(1)相同的方式得到相应的起始目标点坐标和结束目标点坐标、环境矩阵G_map与领接矩阵M_map，在该环境矩阵上多次运行快速扩展随机树算法以得到路径，将多次运行算法得到的所有路径进行堆叠，以得到路径选择区域，将带有路径选择区域的所有环境地图按照1：1的比例划分为训练集和测试集，即随机划分50％作为训练集，剩余的50％作为测试集；

6.根据权利要求4所述的基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，步骤(2-2)中，权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值，偏置参数的初始值设为0，初始学习率lr＝0.0003，采用阶梯性的学习策略，步长stepsize＝200，权重gamma＝0.1，即每200轮将学习率乘以0.1。

7.根据权利要求4所述的基于对抗生成网络优化蚁群算法启发式搜索的机器人路径规划方法，其特征在于，步骤(2-3)中的损失函数等于：

Loss_G＝α₁logD_map(G(z,m,p),m)+α₂logD_point(G(z,m,p),p)