CN116011691A

CN116011691A - 一种针对最优路径规划的分布式反馈混联注意力网络模型

Info

Publication number: CN116011691A
Application number: CN202211719273.2A
Authority: CN
Inventors: 马松; 张一凡; 孙涛; 孙希明; 林鹏; 刘波
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-25

Abstract

本发明属于多智能体系统路径规划技术领域，具体涉及一种针对最优路径规划的分布式反馈混联注意力网络模型。本发明提供了一种基于分布式结构的带有反馈混联注意力的生成对抗神经网络模型，并获得了更好的路径规划效果。本发明通过上卷积将聚合后的图像特征恢复到原图像水平，同时将高维图像和低维图像进行融合，从而可以完成对图像的多维度特征提取，最终得到预测路径图像。之后将预测路径图和真实路径图输入到判别器进行迭代学习，使得生成的路径预测图更加贴近真实路径图。所以该模型能够精确地生成路径预测图。

Description

一种针对最优路径规划的分布式反馈混联注意力网络模型

技术领域

本发明属于多智能体系统路径规划技术领域，具体涉及一种针对最优路径规划的分布式反馈混联注意力网络模型。

背景技术

路径规划技术在自主机器人、无人机群和无人舰队等多智能体系统中占有重要地位，它的优劣直接决定了多智能体任务的成功率和完成度。路径规划问题的目标是为多智能体生成一条从初始状态到目标状态的无碰撞最优路径。传统的路径规划方法主要是基于图网络法和启发式算法，它们经常会出现路径局部最优的问题，并且在高维空间环境下，算法计算量庞大，不仅占用了内存空间，也无法保证生成一条最优路径。解决该问题的有效方法是针对环境图，提出一种随机搜索树算法，从而引导多智能体以安全的路线向目标点运动。在完成物品运输、空中巡航和海上侦察等任务时，多智能体可以精准地避开障碍物并且运动轨迹更加合理，提高了工作效率的同时避免了不必要的资源损耗。

目前，对多智能体进行路径规划的方法有以下几种：

1)基于随机搜索树算法的路径规划方法。

该方法是在环境图中确定一个起始点，以该点为根节点，对地图进行随机采样，将新的采样点和最近的节点相连，若两节点间的连线没有经过障碍物，则认定新的采样点为有效节点，加入到随机树内；若经过障碍物，则认定新的采样点为无效节点，继续下一次采样。直到目标点进入到随机树的一定范围内，停止搜索，连接目标点和最终的采样点，生成一条由起始点到终止点的可行路径。该方法在全局地图上进行随机采样，具有概率完备性，并且搜索效率高，能保证生成一条从起始点到终点的可行路径，但是该路径不一定为最优路径，并且在障碍物之间的空隙较小的情况下，无法产生连续可行路径，所以该算法路径规划效果欠佳。

2)基于改进的随机搜索树算法的路径规划方法。

该方法是以环境图中的初始点为根节点，在环境图中进行随机采样，若新采样点和最近节点的连线没有经过障碍物，则添加新的采样点到搜索树内，若经过障碍物，则新的采样点无效，进行下一次采样。每次采样过后重新对随机树布线，使得新的采样点到初始点的连线总距离最短，从而达到整体路径最优的效果。该方法能生成一条由起始点到终点的最优路径，但是该方法的搜索路径为全局地图，采样点过多，每次迭代后需要重新布线，导致最终收敛到最优路径的速度缓慢。

综合以上论述，本发明设计的基于分布式结构的带有反馈混联注意力机制的生成对抗神经网络模型可以高效地完成多智能体的路径规划任务。本专利由中国博士后科学基金(2022TQ0179)和国家重点研发计划(2022YFF0610900)资助。

发明内容

本发明针对随机搜索树算法和改进的随机搜索树算法在多智能体路径规划中所带来的局限性问题，提供了一种基于分布式结构的带有反馈混联注意力的生成对抗神经网络模型，并获得了更好的路径规划效果。由于路径规划的好坏直接决定了多智能体的任务完成度，传统的随机搜索树算法和改进的随机搜索树算法通过对环境图进行全局搜索生成一条由起始点到终点的可行路径，具有概率完备性但欠聚焦性，因此如何在环境图中预测路径区域进行重点采样一直是一个具有挑战性的难题。

本发明的技术方案：

一种针对最优路径规划的分布式反馈混联注意力网络模型，步骤如下：

步骤1：生成真实路径图像

(1.1)准备环境图

环境图是由黑白两种颜色构成的灰度图，如图1所示，静态障碍物由黑色表示，可运动区域由白色表示，图中两点分别代表运动的起始点和终止点。

(1.2)选择改进的随机搜索树算法生成真实路径

改进的随机搜索树算法的输入为环境图，将图中的起始点作为搜索树的根节点，在环境图上进行随机采样，新的采样点为X_rand，在搜索树中找寻距离X_rand最近的点，记为X_near，连接X_rand和X_near，X_near指向X_rand的方向为搜索树生长的方向，选取一个步长Step作为随机树生长的距离，若X_near与X_rand之间的距离小于Step，则X_rand即为下一个新的节点X_new，若X_rand与X_near之间的距离大于Step，则从X_near沿树生长的方向计算一个Step距离，得到新的节点X_new。之后判断X_near到X_new的连线是否穿过障碍物，如果穿过代表该路径无效，放弃节点X_new；如果没有穿过代表该路径有效，则将X_new加入到搜索树中。以X_new为中心，在一定半径范围内找寻与X_new相邻节点X_nearest，计算起始点到X_nearest的路径距离与X_nearest到X_new的路径距离之和，选取路径距离最小的节点X_min作为新的父节点代替原有的采样点X_near，并且为X_min的相邻节点重新布线，使得所有节点到起始点的距离总和最小。当终止点进入到搜索树节点的一定范围内，连接终止点和末端节点，所有起点到终点的路径集合为真实路径集。

步骤2：构建反馈混联注意力机制模型

反馈混联注意力机制模型网络结构图如图2(a)所示，可以分为混联注意力网络和循环反馈网络。

(2.1)混联注意力网络

混联注意力网络主体由通道注意力机制、空间注意力机制和位置注意力机制三部分组成，空间注意力和位置注意力机制并联再与通道注意力机制串联，空间注意力模块利用特征的空间关系得到特征间的相关性，位置注意模块将范围更广的上下文信息编码为局部特征，从而增强其表示能力，两者在通道维度上进行拼接达到互补的效果，通道注意力模块聚合所有特征信息，根据通道的重要性分配相应的比例，可以更好地对图像信息进行表达。

(2.1.1)通道注意力机制

我们首先通过使用自适应平均池化和自适应最大池化操作聚合特征图的空间信息，生成两个不同的空间图像文描述方式:F_avg和F_max，分别表示自适应平均池化特征和自适应最大池化特征，将其经过共享网络生成通道映射F_CA。共享网络由多层感知机(MLP)和激活隐层组成，隐藏激活参数大小为(b*c/r)*1*1，可以减少参数开销，整个网络结构如图2(b)所示，图像分辨率参数变化可以表示为(b,c,h,w)—(b,c,1,1)—(b,c/r,1,1)—(b,c/r,1,1)—(b,c,1,1)—(b,c,1,1)。其中b代表单位批量中样本数量，c代表图像通道数，h代表图像高度，w代表图像宽度，r代表压缩通道维度的超参数。

多层感知机(MLP)每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，本次选择一个二层感知机，中间加入ReLu激活函数，给神经元中添加非线性元素，增加网络的可使用性：

MLP＝W1(W0(x))(1)

其中MLP代表多层感知机，MLP中的权值W0，W1是共享的，ReLu激活函数前面的是W0，后面是W1。

整个通道注意力机制的计算过程如下：

F_avg＝Adaptive AvgPool(x)(2)

F_max＝Adaptive MaxPool(x)(3)

F_CA＝σ(MLP(F_avg)+MLP(F_max))(4)

其中F_avg代表自适应平均池化特征，F_max代表自适应最大池化特征，σ是sigmoid激活函数，AdaptiveAvgPool为自适应平均池化，AdaptiveMaxPool为自适应最大池化，F_CA代表经过通道注意力机制后的特征信息。

(2.1.2)空间注意力机制

我们利用空间关系生成空间注意力图，沿通道轴方向进行平均池化和最大值池化操作，将通道上的所有信息聚集到一个平面，得到F_avg和F_max，二者在通道维度上进行合并，可以有效地突出重点信息区域，经过一个7*7的卷积网络得到空间映射F_SA，整个网络结构如图2(c)所示。图像分辨率参数变化可以表示为(b,c,h,w)—(b,1,h,w)—(b,2,h,w)—(b,2,h,w)—(b,1,h,w)。其中b代表单位批量中图像样本数量，c代表图像通道数，h代表图像高度，w代表图像宽度。

F_avg＝AvgPool(x)(5)

F_max＝MaxPool(x)(6)

F_SA＝σ(Conv_7*7[F_avg:F_max])(7)

其中F_avg代表平均池化特征，F_max代表最大池化特征，AvgPool代表平均值池化函数，MaxPool代表最大值池化函数，Conv_7*7为7*7的卷积函数，σ为激活函数，F_SA代表经过空间注意力机制之后的特征信息。

(2.1.3)位置注意力机制

通过位置注意力机制将范围更广的图像信息编码为局部特征，获得图像不同位置间的相关性，从而增强对图像特征的表达能力，整个网络结构如图2(d)所示。

给定一个特征输入A∈R^C*H*W，将其通过卷积核为1*1的卷积层得到三个特征映射查询Q，键值K和值V：

其中

是可训练的投影矩阵，A为初始特征输入。

卷积之后{Q,K}∈R^C*H*W，将其重塑为R^C*N，其中N＝H*W是像素数，在Q的转置和K之间进行矩阵乘法运算，经过softmax层得到空间注意力图：

其中s_ji表示第i个位置对第j个位置的影响，两者特征越相似表示他们之间有更大相关性，exp为矩阵乘法操作，∑为求和符号，将从i到N的特征相似度进行求和，Q_i和K_j为不同位置下的查询值和键值。

值V∈R^C*H*W，将其重塑为R^C*N，N＝H*W是像素数，将V与S的转置进行矩阵乘法得到空间注意力的特征图，结果重塑为R^C*H*W，最后将位置注意力特征图与原始特征相加，保留了原始图像特征的同时，将位置特征融入其中，使图像特征具有聚合性和一致性。位置注意力的计算过程如下：

其中F_PA为图像位置特征，∑为求和符号，s_ji表示第i个位置对第j个位置的影响，V_i为不同位置的值，A为初始特征输入。

(2.2)循环反馈网络

如图2(a)的整体网络结构所示，首先将初始特征(x)经过卷积核为1*1的卷积网络(Conv2)，另一部分经过卷积核为1*1的卷积网络(Conv3)、卷积核为3*3的卷积网络(Conv4)和卷积核为1*1的卷积网络(Conv5)，二者求和为第一次提取特征的结果

之后开始进行循环反馈过程，将t＝0时刻得到的结果

正反馈到输入位置，此时经通过下面Conv3、Conv4和Conv5的卷积网络，所有时刻的循环反馈过程表示如下：

其中F表示卷积运算，下标表示卷积模块名称，上标表示第t次时刻下的卷积，x表示输出特征输入。

整个循环反馈过程如图所示，初始特征通过并联的位置注意力机制和空间注意力机制，将结果拼接后输入通道注意力机制，同时初始特征输入循环反馈网络，将最后一次反馈的输出与Conv1之后的结果相加，整个流程如下：

其中F_PSCAF表示反馈混联注意力模块的输出结果，F_Conv1表示经过卷积模块Conv1的输出，F_CA表示经过通道注意力模块的输出，F_PA表示经过位置注意力模块的输出，F_SA经过空间注意力模块的输出，

经过t次反馈卷积之后的输出。

步骤3：生成对抗网络

(3.1)分布式结构的生成器网络

生成器网络基于U-net的网络架构，该网络分为编码器和解码器两部分。编码器主体由分布式结构的卷积和反馈混联注意力模块构成，如图3(a)所示。该图中所有深色方框代表卷积核为4*4,步长为2，填补为1的卷积网络，首先环境图经过卷积运算完成特征预处理，每个虚线方块代表分布式结构下的独立个体，特征模块将经过反馈混联注意力模块的结果与自身进行求和，独立个体完成自身运算过程后，继续下一次特征提取操作。解码器主体由上卷积神经网络构成，图像特征经过卷积操作完成多次聚合后，先将高层特征图与底层特征图进行特征拼接，之后对其进行上卷积操作，二者交替进行。特征拼接保证上下文信息得到最大程度上的保留，使得生成的路径预测图更加精确，上卷积神经网络用于还原图像尺寸，最终完成对路径区域的预测。生成器的损失定义为生成映射和目标映射的sigmoid交叉熵损失函数，生成器部分损失可以表达为：

CE(g,t)＝-[t*ln(M)+(1-g)*ln(1-M)](13)

其中g,t代表两组输入，M表示经过sigmoid函数的结果，CE为两组输入的交叉熵损失函数。

为了提升抗干扰性和减少模糊性，在生成器的损失函数中加入L1 loss(平均绝对误差)，最终生成器函数为：

其中o为输入的环境图，G(o)表示生成器根据输入生成的路径预测图，

代表生成的L1损失函数，λ为L1 loss的权重系数，CE为两组输入的交叉熵损失函数。

(3.2)判别器

判别器网络如图3(b)所示，其中包括两组输入，一组为环境图和真实路径图像，判别器网络应将其判别为真，另一对为全局环境图和基于分布式结构的带有反馈混联注意力机制的神经网络预测路径图，判别器网络应将其判别为假。初始输入为两组图像各自拼接而成的特征图，分别对每组进行编码操作，该过程主要由卷积、归一化和激活函数组成。鉴别器用来区域真实路径图和预测路径图，所以将损失函数定义为实际损失和生成损失之和：

L_D＝CE(G(o)，0)+CE(y，1)(15)

其中y为真实路径图，o为输入的环境图，G(o)表示生成器根据输入生成的路径预测图，CE为两组输入的交叉熵损失函数。

步骤4：对输入的环境图进行路径预测

首先根据输入的环境图，通过步骤1的随机搜索树算法获得真实路径图，然后把环境图输入到基于分布式结构的带有反馈混联注意力机制的生成器生成路径预测图，通过不断迭代学习，最终得到针对初始环境图的路径预测图。

本发明的有益效果：

基于分布式结构的反馈混联注意力生成对抗网络模型对环境图进行了充分地特征提取，得到预测的路径集合，从而快速地为多智能体规划出一条最优路径。首先将环境图输入到生成器网络，经过卷积神经网络完成对图像特征的初步提取。之后将处理过的图像经过分布式结构的反馈混联注意力机制，位置注意力机制通过计算查询向量和键向量的相关性获得注意力权重，然后使用该权重与值向量加权计算获得特征图，实现图像不同位置上的信息融合和特征提取。空间注意力机制通过沿通道轴方向上进行最大值池化和平均值池化的操作，将通道维度上的信息聚合到一个空间平面，加强了对障碍物自身和障碍物间相对位置的重点关注。将经过位置注意力机制和空间注意力机制处理后的图像特征沿通道方向上进行聚合，由通道注意力机制赋予不同通道相应的特征权重，实现了对图像特征信息的充分融合。同时将输入的特征图经过并联的卷积神经网络，完成在不同卷积核下的特征提取，在不同的时间步内，对卷积结果进行相应次数的循环反馈，每次循环反馈过程中加入初始图像特征，充分考虑了原始特征的同时对图像特征的提取更加深入，最终将循环反馈特征提取结果与混联注意力的特征结果进行求和，增强了神经网络对图像的特征提取能力。通过上卷积将聚合后的图像特征恢复到原图像水平，同时将高维图像和低维图像进行融合，从而可以完成对图像的多维度特征提取，最终得到预测路径图像。之后将预测路径图和真实路径图输入到判别器进行迭代学习，使得生成的路径预测图更加贴近真实路径图。所以该模型能够精确地生成路径预测图。

附图说明

图1是环境图。

图2是反馈混联注意力网络结构图及其子部分网络结构图，其中图2(a)是反馈混联注意力的网络结构图，图2(b)是通道注意力的网络结构图，图2(c)是空间注意力的网络构图，图2(d)是位置注意力机制的网络结构图。

图3是生成对抗网络的结构图，其中图3(a)是生成器的网络结构图，图3(b)是判别器的网络结构图。

图4是实际路径图和不同反馈次数下的路径预测图的对比，其中图4(a)实际路径图，图4(b)是混联一次反馈注意力机制下的路径预测图，图4(c)是混联二次反馈注意力机制下的路径预测图，图4(d)是混联四次反馈注意力机制下的路径预测图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明使用的是灰度图像，黑色代表障碍物，白色代表可运动区域，训练集和测试集为同一组图像集，训练集为按照一定顺序排列的图像序列，测试集为随机打乱的图像序列。该图像集中包含2000张图片，第1列为环境图(map)，第2列为任务图(task)，第3列为实际路径区域图(roi)，图像数据来源于https://github.com/akanametov/pathgan/ releases/download/2.0/dataset.zip，部分图像测试序列具体如下：

表1图像测试序列表

map	task	roi
			map_84.png	task_99.png	task_99_roi.png
map_11.png	task_18.png	task_18_roi.png
			map_13.png	task_61.png	task_61_roi.png
map_6.png	task_20.png	task_20_roi.png
			map_43.png	task_92.png	task_92_roi.png
map_41.png	task_73.png	task_73_roi.png
			map_28.png	task_59.png	task_59_roi.png
map_74.png	task_2.png	task_2_roi.png
			map_82.png	task_8.png	task_8_roi.png
map_56.png	task_36.png	task_36_roi.png
			map_77.png	task_98.png	task_98_roi.png
map_21.png	task_81.png	task_81_roi.png
			map_88.png	task_37.png	task_37_roi.png
map_57.png	task_11.png	task_11_roi.png
			map_27.png	task_9.png	task_9_roi.png
map_64.png	task_3.png	task_3_roi.png
			map_57.png	task_60.png	task_60_roi.png
map_3.png	task_92.png	task_92_roi.png
			map_48.png	task_51.png	task_51_roi.png

路径预测的评价指标为与实际路径图的相似程度和规划从初始点到终点的一条可行路径的完成度。

实施例：

步骤1：对于训练集和测试集，首先选取环境图作为初始全局环境，将其输入到改进的随机搜索树算法完成真实路径区域图的生成，真实路径图作为之后预测结果的评判标准，训练集和测试集中包括环境图、任务图和真实路径区域图。

步骤2：构建基于分布式结构的带有反馈混联注意力机制的深度学习模型，深度学习模型主体为生成对抗网络，由生成器和判别器组成。生成器自身为U-net架构的自编码器，编码器部分主要由卷积和反馈混联注意力机制组成，每个特征单元以分布式结构排列，特征单元完成各自的卷积过程和反馈混联注意力过程，并将二者求和向下传递，整个编码器过程由三个分布式模块组成，网络结构可以表示为：[Conv:Conv]—Conv—(Conv+PSCAF—Conv)—(Conv+PSCAF—Conv)—(Conv+PSCAF—Conv)—Conv，图像通道参数的变化可以表示为：3—[16:16]—32—(64-64)—(128-128)—(256-256)—512，在编码器部分完成对图像特征的提取。解码器部分主要由上卷积组成，并且将高层特征图与低层特征图进行拼接，最后生成路径区域的预测图，网络结构可以表示为：Up Conv—Concat—Up Conv—Concat—Up Conv—Concat—Up Conv—Concat—Conv，图像通道参数的变化可以表示为：512—256—[256:256]—128—[128:128]—64—[64:64]—3。判别器为全卷积神经网络，真实路径图、环境图和路径预测图的通道参数为3，将真实路径图和环境图与路径预测图和环境图分别在通道维度上进行拼接，两组拼接好的图像分别输入到判别器网络进行学习，图像通道参数的变化可以表示为：[3:3]—64—128—256—512—512—512。(其中“：”代表图像分辨率在通道维度上进行拼接，Conv代表卷积网络，PSCAF代表反馈混联注意力网络，UpConv代表上卷积网络，Concat代表拼接操作)

步骤3：利用步骤1所构建的训练样本集，训练生成对抗神经网络模型，训练目标函数如式(16)所示，训练主要为判别器D和生成器G的迭代训练：

首先进行判别器D训练，从训练图像集X_train中选取epoch个样本，输入到判别器D中，将判别结果利用式(15)的判别器损失为函数计算判别器的损失Loss_D；同样地，从训练图像集中选取等量样本，输入到生成器G中，将生成的路径预测图利用式(14)生成器损失函数计算损失Loss_G，将Loss_D和Loss_G求和，求和结果通过Adam函数进行判别器的梯度更新。

接着进行生成器G训练，重新从训练图像集X_train中选取epoch个样本图像X_real，输入到生成器G中获得预测路径图像X_fake，将样本图像标记为1，代表是真实路径图像，将预测路径图像标记为0，代表生成路径图像，将二者输入至判别器进行判断，利用式(14)生成器损失函数计算损失loss，之后将loss传给生成器通过Adam函数进行生成器的梯度更新。

G^*＝argmin_Gmax_D(E_o,y[logD(o,y)]+E_o,z[log(1-D(o,G(o,z)))]) (16)

其中y为真实路径图，z为输入噪声，式(1)中，D(o,y)表示y属于1的概率，而D(o,G(o,z))表示G(o,z)属于0的概率，min_G即让生成器的值尽量小，max_D即让判别器的值尽量大。

之后不断重复判别器和生成器的训练过程，通过不断迭代更新判别器参数，使得判别器能精准地分辨出真实路径图和生成路径图；通过不断更新生成器参数，生成器生成的路径图更加贴近真实路径图，使得生成路径图被判别器鉴定为真实路径图的概率不断提升。经过多次训练迭代之后，完成生成对抗神经网络模型的训练过程。

步骤4：利用步骤3中训练好的生成对抗神经网络中的生成器G，在环境图的条件输入下生成一组路径预测图，改进的随机搜索树算法将以路径预测图为基础进行非均匀采样，最终产生最优路径。

实施结果

根据基于分布式结构的带有反馈混联注意力机制的模型在四个环境图下的预测结果，将其与其他方法进行对比，同时将自身在不同反馈次数下的结果进行对比，结果如下：

1)从图4中可以看出，针对图1中的环境图，使用基于分布式结构的反馈混联注意力神经网络预测出来的路径图，和实际路径图非常接近，体现了该模型优秀的预测性。

2)从图4中可以看出，根据不同的环境图，选择不同的反馈次数，路径预测效果有所不同，但能保证有一种模型的预测结果贴近真实路径图，体现了该模型优秀的普适性。根据地图要求的不同，可以选择不同的反馈次数，从而达到更好地预测效果。

因此，这样的结果符合基于分布式结构的带有反馈混联注意力机制的生成对抗神经网络模型的本质特性。同时也证明了基于分布式结构的反馈混联注意力机制的生成对抗神经网络模型对不同环境图下的真实路径区域具有更精准的预测能力。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例仅用以说明本发明的技术方案，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明原理和宗旨情况下，在本发明的范围内可以对以上述实施例进行修改和替换。

Claims

1.一种针对最优路径规划的分布式反馈混联注意力网络模型，其特征在于，步骤如下：

步骤1：生成真实路径图像

(1.1)准备环境图

环境图是由黑白两种颜色构成的灰度图，静态障碍物由黑色表示，可运动区域由白色表示，图中两点分别代表运动的起始点和终止点；

(1.2)选择改进的随机搜索树算法生成真实路径

改进的随机搜索树算法的输入为环境图，将图中的起始点作为搜索树的根节点，在环境图上进行随机采样，新的采样点为X_rand，在搜索树中找寻距离X_rand最近的点，记为X_near，连接X_rand和X_near，X_near指向X_rand的方向为搜索树生长的方向，选取一个步长Step作为随机树生长的距离，若X_near与X_rand之间的距离小于Step，则X_rand即为下一个新的节点X_new，若X_rand与X_near之间的距离大于Step，则从X_near沿树生长的方向计算一个Step距离，得到新的节点X_new；之后判断X_near到X_new的连线是否穿过障碍物，如果穿过代表该路径无效，放弃节点X_new；如果没有穿过代表该路径有效，则将X_new加入到搜索树中；以X_new为中心，在一定半径范围内找寻与X_new相邻节点X_nearest，计算起始点到X_nearest的路径距离与X_nearest到X_new的路径距离之和，选取路径距离最小的节点X_min作为新的父节点代替原有的采样点X_near，并且为X_min的相邻节点重新布线，使得所有节点到起始点的距离总和最小；当终止点进入到搜索树节点的一定范围内，连接终止点和末端节点，所有起点到终点的路径集合为真实路径集；

步骤2：构建反馈混联注意力机制模型

(2.1)混联注意力网络

混联注意力网络主体由通道注意力机制、空间注意力机制和位置注意力机制三部分组成，空间注意力和位置注意力机制并联再与通道注意力机制串联，空间注意力模块利用特征的空间关系得到特征间的相关性，位置注意模块将范围更广的上下文信息编码为局部特征，从而增强其表示能力；

(2.2)循环反馈网络

首先将初始特征(x)经过卷积核为1*1的卷积网络(Conv2)，另一部分经过卷积核为1*1的卷积网络(Conv3)、卷积核为3*3的卷积网络(Conv4)和卷积核为1*1的卷积网络(Conv5)，二者求和为第一次提取特征的结果

之后开始进行循环反馈过程，将t＝0时刻得到的结果

其中F表示卷积运算，下标表示卷积模块名称，上标表示第t次时刻下的卷积，x表示输出特征输入；

经过t次反馈卷积之后的输出；步骤3：生成对抗网络

(3.1)分布式结构的生成器网络

生成器网络基于U-net的网络架构，该网络分为编码器和解码器两部分；编码器主体由分布式结构的卷积和反馈混联注意力模块构成；生成器的损失定义为生成映射和目标映射的sigmoid交叉熵损失函数，生成器部分损失表达为：

CE(g,t)＝-[t*ln(M)+(1-g)*ln(1-M)](13)

其中g,t代表两组输入，M表示经过sigmoid函数的结果，CE为两组输入的交叉熵损失函数；

(3.2)判别器

判别器网络包括两组输入，一组为环境图和真实路径图像，判别器网络应将其判别为真，另一对为全局环境图和基于分布式结构的带有反馈混联注意力机制的神经网络预测路径图，判别器网络应将其判别为假；

步骤4：对输入的环境图进行路径预测

2.如权利要求1所述的一种针对最优路径规划的分布式反馈混联注意力网络模型，其特征在于，所述的步骤(2.1)混联注意力网络，具体操作如下：

(2.1.1)通道注意力机制

首先通过使用自适应平均池化和自适应最大池化操作聚合特征图的空间信息，生成两个不同的空间图像文描述方式:F_avg和F_max，分别表示自适应平均池化特征和自适应最大池化特征，将其经过共享网络生成通道映射F_CA；共享网络由多层感知机(MLP)和激活隐层组成，隐藏激活参数大小为(b*c/r)*1*1，图像分辨率参数变化表示为(b,c,h,w)—(b,c,1,1)—(b,c/r,1,1)—(b,c/r,1,1)—(b,c,1,1)—(b,c,1,1)；其中b代表单位批量中样本数量，c代表图像通道数，h代表图像高度，w代表图像宽度，r代表压缩通道维度的超参数；

多层感知机(MLP)每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合；

(2.1.2)空间注意力机制

利用空间关系生成空间注意力图，沿通道轴方向进行平均池化和最大值池化操作，将通道上的所有信息聚集到一个平面，得到F_avg和F_max，二者在通道维度上进行合并，有效地突出重点信息区域，经过一个7*7的卷积网络得到空间映射F_SA；图像分辨率参数变化表示为(b,c,h,w)—(b,1,h,w)—(b,2,h,w)—(b,2,h,w)—(b,1,h,w)；其中b代表单位批量中图像样本数量，c代表图像通道数，h代表图像高度，w代表图像宽度；

F_avg＝AvgPool(x)(5)

F_max＝MaxPool(x)(6)

F_SA＝σ(Conv_7*7[F_avg:F_max])(7)

其中F_avg代表平均池化特征，F_max代表最大池化特征，AvgPool代表平均值池化函数，MaxPool代表最大值池化函数，Conv_7*7为7*7的卷积函数，σ为激活函数，F_SA代表经过空间注意力机制之后的特征信息；

(2.1.3)位置注意力机制

通过位置注意力机制将范围更广的图像信息编码为局部特征，获得图像不同位置间的相关性；

其中

是可训练的投影矩阵，A为初始特征输入；

其中s_ji表示第i个位置对第j个位置的影响，两者特征越相似表示他们之间有更大相关性，exp为矩阵乘法操作，∑为求和符号，将从i到N的特征相似度进行求和，Q_i和K_j为不同位置下的查询值和键值；

值V∈R^C*H*W，将其重塑为R^C*N，N＝H*W是像素数，将V与S的转置进行矩阵乘法得到空间注意力的特征图，结果重塑为R^C*H*W，最后将位置注意力特征图与原始特征相加，保留了原始图像特征的同时，将位置特征融入其中，使图像特征具有聚合性和一致性；位置注意力的计算过程如下：

3.如权利要求2所述的一种针对最优路径规划的分布式反馈混联注意力网络模型，其特征在于，所述的多层感知机(MLP)每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，本次选择一个二层感知机，中间加入ReLu激活函数，给神经元中添加非线性元素，增加网络的可使用性：

MLP＝W1(W0(x))(1)

其中MLP代表多层感知机，MLP中的权值W0，W1是共享的，ReLu激活函数前面的是W0，后面是W1；

整个通道注意力机制的计算过程如下：

F_avg＝AdaptiveAvgPool(x)(2)

F_max＝AdaptiveMaxPool(x)(3)

F_CA＝σ(MLP(F_avg)+MLP(F_max))(4)

4.如权利要求1或2或3所述的一种针对最优路径规划的分布式反馈混联注意力网络模型，其特征在于，所述的步骤(3.1)分布式结构的生成器网络，为了提升抗干扰性和减少模糊性，在生成器的损失函数中加入L1 loss，最终生成器函数为：

5.如权利要求1或2或3所述的一种针对最优路径规划的分布式反馈混联注意力网络模型，其特征在于，所述的步骤(3.2)判别器网络具体为：

初始输入为两组图像各自拼接而成的特征图，分别对每组进行编码操作，该过程主要由卷积、归一化和激活函数组成；鉴别器用来区域真实路径图和预测路径图，所以将损失函数定义为实际损失和生成损失之和：

L_D＝CE(G(o)，0)+CE(y，1)(15)

6.如权利要求4所述的一种针对最优路径规划的分布式反馈混联注意力网络模型，其特征在于，所述的步骤(3.2)判别器网络具体为：

L_D＝CE(G(o)，0)+CE(y，1)(15)