CN113281993A

CN113281993A - 一种贪心k-均值自组织神经网络多机器人路径规划方法

Info

Publication number: CN113281993A
Application number: CN202110509976.1A
Authority: CN
Inventors: 赵清杰; 种领; 张长春; 方凯仁; 陈涌泉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-20
Anticipated expiration: 2041-05-11
Also published as: CN113281993B

Abstract

本发明涉及一种贪心K‑均值自组织神经网络多机器人路径规划方法，属于人工智能和机器人系统控制技术领域。本方法将任务分配问题和路径规划问题结合考虑，采用两阶段求解方式，在第一阶段完成机器人任务分配，在第二阶段，根据第一阶段任务分配结果进行路径规划。通过在K‑均值迭代过程中，使用贪心算法来预估各机器人执行任务所需的路径代价，通过路径代价指导调节因子大小，通过调节因子来调整聚类过程中的任务分配结果，改善了K‑均值聚类算法自组织神经网络算法的机器人负载不均衡的问题，为各机器人高效规划负载均衡的任务执行路径方案，具有通用性和鲁棒性强的优点。

Description

一种贪心K-均值自组织神经网络多机器人路径规划方法

技术领域

本发明涉及一种机器人路径规划方法，具体涉及一种贪心K-均值自组织神经网络多机器人路径规划方法，属于人工智能和机器人系统控制技术领域。

背景技术

20世纪以来，工业机器人逐步进入普及期，在全球范围内以惊人的速度增长，并以速度快、精度高、系统集成化和智能化为目标快速更新迭代。

多自主机器人的路径规划研究始终是机器人领域内的重要问题之一。移动机器人系统路径规划的核心目标是，对于系统内的每个机器人都会有特定的离散起始位置、任务点位置及终点位置，能够为每个机器人规划出从起点位置出发，其中经历完成各项任务后，最终到达终点位置的路径。

目前，针对多机器人系统的路径规划研究大多聚焦在路径代价最优化研究上。多机器人系统通常包含任务分配、路径规划两大过程，现有的研究往往将两者割裂，时常造成任务分配不合理、不均衡。事实上，任务分配和路径规划相互依赖，任务分配的结果是影响路径规划质量和效率的关键问题。

SOM(Self-Organizing Map)自组织神经网络是一种无监督学习模型，主要由输入层和竞争层组成，其竞争学习机制和神经元拓扑结构使得相邻神经元最后倾向于有相似权重。自组织神经网络具有保持顺序映射的特点，训练后输出层保持拓扑结构不变，这样的拓扑保持使得输出神经元的空间位置对应于输入空间的特定域或特征，可用于单机器人路径规划。

基本的自组织神经网络在求解单机器人路径规划的问题时，能够实现以较小的计算代价解决大规模的问题，相比于传统的群体智能算法，自组织神经网络实现了计算复杂度大幅度降低而解的质量下降较小。但是，自组织神经网络不能直接求解多机器人系统路径规划问题，导致应用存在局限。

发明内容

本发明的目的是为了解决现有的自组织神经网络无法解决多机器人路径规划的技术问题，同时，针对多机器人路径规划过程中任务分配和路径规划严重割裂时常造成任务分配不合理、不均衡，路径规划时不考虑多机器人系统中各机器人的负载是否均衡，最终导致多机器人系统整体运行效率低下的技术问题，创造性地提出一种贪心K-均值自组织神经网络多机器人路径规划方法，通过改进自组织神经网络，使其能够用于解决多机器人路径规划问题。

本方法的创新性在于：将任务分配问题和路径规划问题结合起来考虑，针对多机器人路径规划问题，采用两阶段求解方式，在第一阶段完成机器人任务分配，在第二阶段，根据第一阶段任务分配结果进行路径规划。同时，首次提出了贪心K-均值自组织神经网络路径规划算法，能够有效解决多机器人的负载不均衡问题。通过在K-均值迭代过程中，使用贪心算法来预估各机器人执行任务所需的路径代价，通过路径代价指导调节因子大小，通过调节因子来调整聚类过程中的任务分配结果，最终改善了K-均值聚类算法自组织神经网络算法的机器人负载不均衡的问题，为各机器人高效规划负载均衡的任务执行路径方案，具有通用性和鲁棒性强的优点。

本发明是通过下述技术方案实现的。

一种贪心K-均值自组织神经网络多机器人路径规划方法，包括两个阶段：

第一阶段，通过贪心K-均值聚类算法将机器人系统中的任务进行分类，并使用贪心算法预估当前迭代周期内各分类的路径长度，从而指导K-均值的聚类结果进行调整。迭代完成后，将聚类结果分配给多机器人系统执行。

第二阶段，使用并行的多SOM网络对系统内各机器人所需执行的任务进行路径规划。

具体地，本发明方法包括以下步骤：

步骤1：使用贪心K-均值聚类算法，求解系统内各机器人所需执行的任务，进行机器人任务分配。

由于K-均值聚类算法本质上是一种聚类算法，其核心目标是使得聚类完成后的类内相似度小、类间相似度尽可能大。虽然与多机器人系统路径规划的第一阶段任务分配求解有一定适应性，但不同之处在于，多机器人系统的任务分配核心点是将多个目标任务点分为k组后给k个机器人去执行，并要求各机器人所承担的任务基本持平，从而实现各机器人的负载均衡。然而，传统的K-均值聚类算法在聚类过程中，并未考虑各机器人的负载均衡问题，由于K-均值算法的聚类特性，通常会导致任务分配结果出现任务密集区的机器人需要执行任务较多而不间断地在工作，而任务稀疏区域的机器人完成任务后会空闲，该问题会导致多机器人系统完成总任务所需的时间过长，从而导致系统的整体运行效率低。

通常，解决多机器人负载不均衡的问题，最直观的解决方案是将负载大的机器人多出的任务分配给负载较小的机器人，从而平衡各机器人之间的负载。本方法的优化目标是最小化多机器人中最大的路径代价maxspan，因此，各机器人的负载由各自的路径代价评估。

为了解决这种不均衡问题，本发明在任务分配阶段，采用一种改进的贪心K-均值算法，通过在K-均值迭代过程中，引入贪心算法计算当前迭代结果中各聚类结果的路径代价，并根据路径代价评估各类别任务中的负载情况，同时引入调节因子调整每次迭代的分配结果，调节因子根据贪心算法估计的路径长度，将负载较大的类别负载减小，将负载较小的类别负载类别扩大，从而改善K-均值聚类算法自组织神经网络算法的机器人负载不均衡的问题，实现多机器人系统的任务负载均衡。

贪心算法是指在求解某些问题时，暂不考虑全局情况，在当前状态下，总是做出在当前看来最好的选择。贪心算法的特点是，虽然无法保证解为最佳，但适合解决最大或最小解的问题。由于在贪心K-均值迭代过程中，对路径代价的预估仅是用来指导调节因子调整大小，对路径代价的精度要求并不高，同时贪心算法的运算复杂度远低于其他路径求解算法，因此，使用贪心算法来指导K-均值的迭代十分有效。

步骤1所述贪心K-均值算法的实现过程，包括以下步骤：

步骤1.1：开始迭代，确定聚类数量k、最大迭代次数Greedykmeans_max_iter、偏置倍数δ，初始化k个聚类中心c＝{c₁,c₂,…,c_k}。

步骤1.2：计算所有任务点G＝{g₁,g₂,…,g_n}分别到k个聚类中心的欧式距离：

其中，d_ij表示任务点g_i到聚类中心c_j的欧式距离，(x_i,y_i)为任务点g_i的位置坐标，(x_j,y_j)为聚类中心c_j的位置坐标，j∈{1,2,…k}。

步骤1.3：将任务点G＝{g₁,g₂,…,g_n}分配到距其最近的聚类中心的类别，分类结果为C_j＝{g₁,g₂,…,g_l}，其中j∈{1,2,…k}，l表示各类别的任务数，l∈[1,n]。

步骤1.4：对每个类别，计算其所有点C_j＝{g₁,g₂,…,g_l}的均值，作为新的聚类中心c＝{c₁,c₂,…,c_k}。

其中，

表示新聚类中心c_k的位置坐标。

步骤1.5：对每个类别，使用贪心算法计算其路径代价D＝{D₁,D₂,…,D_k}。

步骤1.6：在每次迭代过程中，使用放大和缩小调节因子，分别调整最大和最小聚类空间，其中，缩小调节因子narrow_iter和放大调节因子enlarge_iter根据当轮迭代的最大和平均路径代价求得：

其中，iter表示当前迭代次数，D_max表示当前迭代轮数中最大的路径代价值，D_min表示当前迭代轮数中最大的路径代价值，D_ave表示各机器人的平均路径代价值，δ表示偏置倍数。

步骤1.7：每次迭代过程中，使用调节因子将最大和最小聚类空间的任务目标生成虚拟任务位置，将路径代价最大的聚类空间C_max＝{g₁,g₂,…,g_l}中对各任务目标点g_l进行生成：

其中，

分别表示最大的聚类空间的聚类中心的X和Y坐标。

同理，对路径代价最小聚类空间min{D_i}的各任务目标点进行生成：

步骤1.8：判断iter是否达到最大迭代次数。若未达到，则根据生成的虚拟任务目标位置回到步骤1.2进行下一轮迭代，否则结束迭代，并根据最终的聚类结果索引到真实任务目标位置，输出最终任务分配结果。

表1展示了贪心算法决策聚类空间动态调整的详细过程，首先确定机器人数量k，即聚类数量，最大迭代次数Greedykmeans_max_iter，以及缩放倍数δ。接下来使用贪心算法计算每轮迭代的分类结果中各机器人所需执行任务的路径代价，然后在最大聚类空间中，通过各机器人的平均路径代价与其路径代价差值来确定缩小调节因子narrow_iter大小。同理，扩大调节因子enlarge_iter也由平均路径代价指导确定，同时缩放倍数δ的大小会影响最终的调整结果。最后，通过多轮迭代，缩小调节因子和扩大调节因子分别对最大和最小类别中的任务点进行调节后，将使得各个机器人的任务负载向平均负载移动，从而解决了K-均值存在的任务分配不均衡问题，使得多机器人系统整体的运行效率提高。

表1贪心算法决策聚类空间动态调整过程

步骤2：根据步骤1的任务分配结果，使用并行的SOM自组织神经网络规划各机器人的路径。

具体地，包括以下步骤：

步骤2.1：将所有连接权值用[0,1]之间的随机数初始化。

步骤2.2：当一个随机任务g_i被输入到SOM网络中时，输出神经元将竞争成为获胜者。其中，获胜神经元的标准为：

I＝min{d_ij}，I∈Ω (8)

其中，d_ij为第i个任务g_i位置与第j个输出神经元R_j之间的欧式距离；g_i＝(x_i,y_i)表示输入神经网络的第i个目标任务的位置；R_j＝(w_jx,w_jy)表示第j个输出神经元的权值矩阵，w_jx、w_jy分别表示第j个输出神经元第i个目标任务X轴、Y轴的连接权值；Ω为所有输出神经元的集合；获胜神经元I是所有输出神经元之中距离g_i最近的输出神经元。

步骤2.3：当一轮迭代确定出一个获胜神经元I后，需确定其获胜领域和更新获胜邻域的神经元权值。邻域函数决定了获胜神经元对齐邻域神经元的影响，随着邻域神经元距离获胜神经元的位置越远，则获胜神经元对齐影响越小。邻域函数G_j,I(x)(t)表示如下：

σ(t)＝σ₀(1-α)^t (10)其中，I(x)表示获胜神经元；d_j表示输出层第n个输出神经元获胜神经元R_j之间的欧式距离；e为自然常数；σ(t)用来调整邻域大小；σ₀为初始获胜邻域，表示本次训练的迭代次数；α为邻域衰减速率，其范围优选0到1之间；t表示当前迭代轮数。

步骤2.4：当找到获胜神经元并更新其邻域神经元后，将其朝向任务位置点移动。

具体更新策略为：

w_j(t+1)＝w_j(t)+η(t)×G_j,I(x)×(g_i-R_j) (11)

η(t)＝η₀(1-β)^t (12)其中，w_j(t)为第t轮的神经元权值矩阵，η(t)为学习率，η₀为初始学习率，β为学习率衰减速度，学习率会直接影响输出神经元向输入任务位置移动的速度。

步骤2.5：当不满足终止条件时，返回步骤2.2，直至η(t)≤η_min。当满足终止条件后，将路径坐标和获胜神经元关联。各机器人的最终路线为从任意点进行遍历，按照获胜神经元在圆环中出现的顺序进行排序。

表2描述了并行SOM路径规划的具体实现过程。

表2并行SOM路径规划过程

有益效果

本发明方法，与现有技术相比，具有以下优点：

1.目前大多路径规划算法研究集中多机器人的路径规划算法上，但并未考虑多机器人系统中各机器人的负载是否均衡，本发明可以有效解决多机器人的负载不均衡问题，通过在K-均值迭代过程中，使用贪心算法来预估各机器人执行任务所需的路径代价，路径代价指导调节因子大小，调节因子来调整聚类过程中的任务分配结果，最终改善了K-均值聚类算法自组织神经网络算法的机器人负载不均衡的问题。

2.本发明方法，在第一阶段使用贪心K-均值算法确定了各机器人需要执行的任务后，在第二阶段使用自组织神经网络为各机器人进行路径规划，为减少算法的运行时间，为各机器人进行路径规划时，使用多自组织神经网络进行并行路径规划，能够满足在具有大量任务和机器人时，为各机器人快速规划各自路径，具有很高的运算效率。

3.本发明方法具有很好的扩展性，既可以用在二维路径的规划上，同样也适用于三维坐标的规划，同时适用于各类多机器人系统任务先验时的路径规划，具有很强的扩展性和鲁棒性，很好地满足了工程应用需求。

附图说明

图1是贪心K-均值自组织神经网络算法整体流程；

图2是kroA100数据集原始任务数据；

图3是kroA100基本K-均值聚类结果；

图4是基本K-均值SOM规划后各机器人路径代价对比；

图5是kroA100虚拟城市生成结果；

图6是K-均值自组织神经网络路径；

图7是贪心K-均值自组织神经网络路径；

图8是基本K-均值SOM和贪心K-均值SOM各机器人路径代价对比。

具体实施方式

下面结合附图和实施例对本发明方法做进一步详细说明。

实施例

如图1所示，一种贪心K-均值自组织神经网络多机器人路径规划方法。

以标准的旅行商TSPLIB数据集krA100为例，图2是kroA100数据集原始任务数据，设定机器人数量为5台，使用贪心K-均值自组织神经网络算法进行多机器人路径规划的求解。

步骤1：使用贪心K-均值算法，获得各机器人所需执行的任务

步骤1.1：开始迭代，确定聚类数量k，最大迭代次数Greedykmeans_max_iter，偏置倍数δ，初始化k个聚类中心c＝{c₁,c₂,…,c_k}。

步骤1.2：计算所有任务点G＝{g₁,g₂,…,g_n}分别到k个聚类中心的欧式距离。

其中，d_ij表示任务点g_i到聚类中心c_j的欧式距离，(x_i,y_i)表示任务点g_i的位置坐标。(x_j,y_j)表示聚类中心c_j的位置坐标，其中j∈{1,2,…k}。

步骤1.3：将任务点G＝{g₁,g₂,…,g_n}分配到距离其最近聚类中心的类别，分类结果为C_j＝{g₁,g₂,…,g_l}，其中j∈{1,2,…k}，l表示各类别的任务数且l∈[1,n]。

步骤1.4：对每个类别，计算其所有点C_j＝{g₁,g₂,…,g_l}的均值作为新的聚类中心c＝{c₁,c₂,…,c_k}。

其中，

表示新聚类中心c_k的位置坐标。

步骤1.5：对每个类别，使用贪心算法计算其路径代价D＝{D₁,D₂,…,D_k}

步骤1.6：在每次迭代过程中，使用放大和缩小调节因子分别调整最大和最小聚类空间，其中，缩小调节因子narrow_iter和放大调节因子enlarge_iter根据当轮迭代的最大和平均路径代价求得。

其中，iter是指当前迭代次数，D_max是指当前迭代论述中最大的路径代价值，D_min是指当前迭代论述中最大的路径代价值，D_ave是指各机器人平均路径代价值，δ是指偏置倍数。

步骤1.7：在每次迭代过程中，使用调节因子将最大和最小聚类空间的任务目标生成虚拟任务位置，将路径代价最大的聚类空间C_max＝{g₁,g₂,…,g_l}中，对各任务目标点g_l进行生成。

同理，对路径代价最小聚类空间min{D_i}的各任务目标点进行生成。

步骤1.8：判断iter是否达到最大迭代次数，未达到则根据生成的虚拟任务目标位置回到第1.2步进行下一轮迭代，否则结束迭代，根据最终的聚类结果索引到真实任务目标位置，输出最终任务分配结果。

使用贪心K-均值算法求解各机器人所需执行的任务结果如表3所示：

表3使用贪心K-均值算法求解各机器人所需执行的任务结果

由此可见，放大调节因子narrow_iter和缩小调节因子enlarge_iter在贪心K-均值迭代过程中能够解决基本K-均值任务不均衡的问题，核心原理在于调节因子在每次迭代时，会对当前迭代轮次的最大和最小聚类空间中的任务目标生成虚拟任务目标，这样的虚拟任务目标呈现出最大聚类空间的任务目标变得稀疏，最小聚类空间的任务目标紧密。最后迭代完成后，根据虚拟任务目标位置聚类的结果索引到真实任务目标位置，从而实现任务的均衡分配。在每次贪心K-均值迭代时，缩小调节因子narrow_iter和放大调节因子enlarge_iter分别对当前迭代轮次的聚类空间集合中的任务坐标进行调整，最大聚类空间的虚拟任务坐标位置由缩小调节因子narrow_iter生成，生成的虚拟任务坐标位置呈现出远离其聚类中心，靠近其他聚类中心的效果。在下次迭代聚类时，该虚拟任务点由于距离的变化，可能会被分给其他类别。同样，对当前轮次迭代的最小聚类空间，使用放大调节因子enlarge_iter生成最小空间的虚拟任务目标，这些虚拟任务目标呈现出靠近其聚类中心，远离其他聚类中心的效果，在下次迭代聚类时，其他类别的任务目标可能会被新加入到该类别中。由于narrow_iter和enlarge_iter由当前聚类空间的预估贪心路径代价和多机器人的平均路径代价及任务偏置倍数δ指导计算，经过多次迭代后，各机器人的任务路径代价会趋于均衡，从而实现了多机器人系统最大代价maxspan的最小化目标。

图3是kroA100基本K-均值聚类结果，图4是基本K-均值SOM规划后各机器人路径代价，可以很明显地观察到任务不均衡的问题。图5展示了TSPLIB数据集krA100贪心K-均值虚拟城市的生成结果，深色散点代表真实的任务位置，浅色散点代表生成的虚拟任务位置。

具体地，包括以下步骤：

步骤2.1：将所有连接权值都用[0,1]之间的随机数初始化。

步骤2.2：当一个随机任务g_i被输入到SOM网络中时，输出神经元将竞争成为获胜者，获胜神经元的标准为：

I＝min{d_ij}，I∈Ω (20)

其中，d_ij为第i个任务g_i位置与第j个输出神经元R_j之间的欧式距离。g_i＝(x_i,y_i)代表输入神经网络的第i个目标任务的位置，R_j＝(w_jx,w_jy)表示第j个输出神经元的权值。Ω是所有输出神经元的集合，获胜神经元I是所有输出神经元中距离g_i最近的输出神经元。

步骤2.3：当一轮迭代确定出一个获胜神经元I后，则需要确定其获胜领域以及更新获胜邻域的神经元权值，邻域函数决定了获胜神经元对齐邻域神经元的影响，随着邻域神经元距离获胜神经元的位置越远，则获胜神经元对齐影响越小，邻域函数如下：

σ(t)＝σ₀(1-α)^t (22)其中，d_j表示输出层第n个输出神经元获胜神经元R_j之间的欧式距离，σ(t)用来调整邻域的大小，其中，σ₀为初始获胜邻域，表示本次训练的迭代次数，α为邻域衰减速率，其范围通常在0到1之间。

步骤2.4：找到获胜神经元和更新其邻域神经元之后，要将其朝任务位置点移动，具体的更新策略为：

w_j(t+1)＝w_j(t)+η(t)×G_j,I(x)×(g_i-R_j) (2.7)

η(t)＝η₀(1-β)^t (2.8)其中，η(t)为学习率，η₀初始学习率，β为学习率衰减速度，学习率会直接影响输出神经元向输入任务位置移动的速度。

步骤2.5：当不满足终止条件时，回到步骤2.2，直到η(t)≤η_min。满足终止条件后，将路径坐标和获胜神经元关联起来，各机器人的最终旅行路线为从任意点进行遍历，按照获胜神经元在圆环中出现的顺序进行排序。

使用贪心K-均值自组织神经网络算法在TSPLIB数据集krA100进行了测试，图6和图7为当机器人数量为5台，分别使用K均值自组织神经网络和贪心K-均值自组织神经网络的路径规划结果，图8为两种方法各机器人的路径代价曲线图，可以贪心K-均值SOM的路径规划结果最大代价maxspan＝5141，而K-均值SOM的路径规划为maxspan＝6178，可以发现贪心K-均值SOM很好地改善了上述所提的机器人负载不均衡的问题。

使用并行SOM为各机器人的规划路径结果如表4所示：

表4使用并行SOM为各机器人的规划路径结果

Claims

1.一种贪心K-均值自组织神经网络多机器人路径规划方法，其特征在于，包括以下步骤：

步骤1：使用贪心K-均值聚类算法，求解系统内各机器人所需执行的任务，进行机器人任务分配；

步骤1.1：开始迭代，确定聚类数量k、最大迭代次数Greedykmeans_max_iter、偏置倍数δ，初始化k个聚类中心c＝{c₁,c₂,…,c_k}；

其中，d_ij表示任务点g_i到聚类中心c_j的欧式距离，(x_i,y_i)为任务点g_i的位置坐标，(x_j,y_j)为聚类中心c_j的位置坐标，j∈{1,2,…k}；

步骤1.3：将任务点G＝{g₁,g₂,…,g_n}分配到距其最近的聚类中心的类别，分类结果为C_j＝{g₁,g₂,…,g_l}，其中j∈{1,2,…k}，l表示各类别的任务数，l∈[1,n]；

步骤1.4：对每个类别，计算其所有点C_j＝{g₁,g₂,…,g_l}的均值，作为新的聚类中心c＝{c₁,c₂,…,c_k}；

其中，

表示新聚类中心c_k的位置坐标；

步骤1.5：对每个类别，使用贪心算法计算其路径代价D＝{D₁,D₂,…,D_k}；

其中，iter表示当前迭代次数，D_max表示当前迭代轮数中最大的路径代价值，D_min表示当前迭代轮数中最大的路径代价值，D_ave表示各机器人的平均路径代价值，δ表示偏置倍数；

其中，

分别表示最大的聚类空间的聚类中心的X坐标和Y坐标；

步骤1.8：判断iter是否达到最大迭代次数；若未达到，则根据生成的虚拟任务目标位置回到步骤1.2进行下一轮迭代，否则结束迭代，并根据最终的聚类结果索引到真实任务目标位置，输出最终任务分配结果；

步骤2：根据步骤1的任务分配结果，使用并行的SOM自组织神经网络规划各机器人的路径，包括以下步骤：

步骤2.1：将所有连接权值用[0,1]之间的随机数初始化；

步骤2.2：当一个随机任务g_i被输入到SOM网络中时，输出神经元将竞争成为获胜者；其中，获胜神经元的标准为：

I＝min{d_ij}，I∈Ω (8)

其中，d_ij为第i个任务g_i位置与第j个输出神经元R_j之间的欧式距离；g_i＝(x_i,y_i)表示输入神经网络的第i个目标任务的位置；R_j＝(w_jx,w_jy)表示第j个输出神经元的权值矩阵，w_jx、w_jy分别表示第j个输出神经元第i个目标任务X轴、Y轴的连接权值；Ω为所有输出神经元的集合；获胜神经元I是所有输出神经元之中距离g_i最近的输出神经元；

步骤2.3：当一轮迭代确定出一个获胜神经元I后，需确定其获胜领域和更新获胜邻域的神经元权值；邻域函数G_j,I(x)(t)表示如下：

σ(t)＝σ₀(1-α)^t (10)

其中，I(x)表示获胜神经元；d_j表示输出层第n个输出神经元获胜神经元R_j之间的欧式距离；e为自然常数；σ(t)用来调整邻域大小；σ₀为初始获胜邻域，表示本次训练的迭代次数；α为邻域衰减速率；t表示当前迭代轮数；

步骤2.4：当找到获胜神经元并更新其邻域神经元后，将其朝向任务位置点移动，更新策略为：

w_j(t+1)＝w_j(t)+η(t)×G_j,I(x)×(g_i-R_j) (11)

η(t)＝η₀(1-β)^t (12)

其中，w_j(t)为第t轮的神经元权值矩阵，η(t)为学习率，η₀为初始学习率，β为学习率衰减速度，学习率会直接影响输出神经元向输入任务位置移动的速度。

步骤2.5：当不满足终止条件时，返回步骤2.2，直至η(t)≤η_min；当满足终止条件后，将路径坐标和获胜神经元关联，各机器人的最终路线为从任意点进行遍历，按照获胜神经元在圆环中出现的顺序进行排序。

2.如权利要求1所述的一种贪心K-均值自组织神经网络多机器人路径规划方法，其特征在于，步骤2.3中，邻域衰减速率α的取值范围为0到1之间。