CN117522078A

CN117522078A - 无人系统集群环境耦合下的可迁移任务规划方法及系统

Info

Publication number: CN117522078A
Application number: CN202311777719.1A
Authority: CN
Inventors: 辛立明; 徐君宝; 谢少荣; 周鑫; 姚蔚然; 彭进霖; 戴华东
Original assignee: Harbin Institute of Technology; University of Shanghai for Science and Technology
Current assignee: Harbin Institute of Technology; University of Shanghai for Science and Technology
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-02-06

Abstract

本发明公开一种无人系统集群环境耦合下的可迁移任务规划方法及系统，涉及无人系统集群控制技术领域，该方法包括获取无人系统集群环境信息，利用贪心策略进行任务分配，得到当前迭代次数对应的任务分配结果集，将任务分配结果表示为图结构，获取所述图结构的特征矩阵、关系邻接矩阵及其对应的真实奖励值，预训练可微池化图神经网络模型。当发生环境耦合时，迁移所述预训练模型到变化后的环境中，进行微调训练，通过微调好的可微池化图神经网络模型预测环境耦合下最佳任务规划结果，以小代价提高任务规划效率。本发明适用于无人系统、任务、障碍物的数量和/或位置发生变化的环境耦合下，无人集群任务规划的迁移问题。

Description

无人系统集群环境耦合下的可迁移任务规划方法及系统

技术领域

本发明涉及无人系统集群控制技术领域，特别是涉及一种无人系统集群环境耦合下的可迁移任务规划方法及系统。

背景技术

近年来，随着城市化的发展和国际形势的变化，城市战争日益频繁。随着自主技术的发展，无人系统集群技术在城市任务中发挥着越来越重要的作用。无人系统集群具有成本低、灵活性高、规模大等优点，可以完成许多复杂的任务。然而，在城市战争中，战争情形不断地改变着城市环境，带来了很强的环境耦合问题。环境耦合是指当环境发生变化时，无人系统集群原有的任务分配结果受到影响，导致精度和效率低于预期。例如，当障碍物被毁坏、任务点位置改变、战场被设定了危险的轰炸区等，原先的任务规划结果将不再适用。这一问题给无人系统集群的搜索、救援和军事行动带来了挑战。

无人系统倾向于以集群形式执行任务。任务规划是实现无人系统集群高性能的顶层技术，主要包括任务分配问题和路径规划问题。任务分配问题要求无人系统集群在高逻辑层次产生任务分配和任务调度计划，路径规划问题要求无人系统集群在低物理层次搜索满足运动学约束的运动轨迹。遗憾的是，传统的任务分配算法都没有考虑到环境耦合对无人系统集群任务分配的影响。由于无人系统集群任务分配的结果很大程度上取决于任务环境，为避免其影响，绝大多数算法需要在新环境下重新运行计算，这导致低泛化和低效率。

深度学习近期在人工智能领域取得巨大成功，它也被应用于无人系统集群相关的研究中。深度学习已经在欧几里得数据中取得了很大的成功。然而，数据在越来越多的现实问题中并没有一个规律的排列和顺序。它们不能抽象为欧几里得结构数据，因此不能被传统的深度学习模型处理。图神经网络作为一种特殊的深度神经网络，主要用于处理不规则的图结构数据，可以用于处理非欧几里得结构的数据。目前，图神经网络主要应用于自然语言处理、图像分类、生物化学等领域。对于无人系统集群的任务分配问题，可以将无人系统和任务看作节点。它们之间的分配连接关系可以看作是边。图神经网络也可以应用于无人系统集群的任务分配问题。对于更深层的信息特征，可微池化图神经网络模型可以更好地进行处理。可微池化图神经网络模型的输入需要针对目标问题设计特殊的特征向量，这对算法的有效性有很大影响，因此设计特征向量也是一个具有挑战性的工作。针对环境耦合问题的特点，目前还没有人将考虑环境耦合问题下的可微池化图神经网络模型应用于无人系统集群的可迁移任务规划。

发明内容

本发明的目的是提供一种无人系统集群环境耦合下的可迁移任务规划方法及系统，可通过可微池化图神经网络预测最佳任务规划结果，提高了规划效率，并且在发生环境耦合问题时，通过迁移和微调使可微池化图神经网络模型适应特定的环境，即以训练好的可微池化图神经网络模型作为基础模型(可微池化图神经网络模型)，继续进行训练，可以较少的成本获得良好的任务规划效果。

为实现上述目的，本发明提供了如下方案：

本发明提供一种无人系统集群环境耦合下的可迁移任务规划方法，包括：

S1：获取无人系统集群环境信息；所述环境信息包括无人系统集群环境下无人系统、任务、障碍物的数量和位置；

S2：根据所述无人系统的数量、所述任务的数量和当前迭代次数，利用贪心策略进行任务分配，得到当前迭代次数对应的任务分配结果集；所述任务分配结果集包括若干任务分配结果；所述任务分配结果为至少一个所述任务被分配给无人系统的分配结果；所述分配对象包括无人系统和任务；所述标注类别为无人系统或任务；

S3：对于所述任务分配结果集中的每一所述任务分配结果，获取所述任务分配结果对应的图结构；所述图结构的节点对应分配对象；获取所述图结构的特征矩阵、关系邻接矩阵及所述图结构对应的真实奖励值；所述图结构为利用递归图语法表示的任务分配结果图；所述特征矩阵包括路径规划参数、所有障碍物的位置和范围、每一分配对象的位置坐标、初始角度和标注类别；所述关系邻接矩阵包括每一无人系统和每一任务的分配关系；所述真实奖励值表征所述任务分配结果对应的任务规划路径长度；

S4：以所述任务分配结果对应的图结构的特征矩阵和关系邻接矩阵为输入，以所述图结构对应的真实奖励值为标签对可微池化图神经网络模型进行训练；

S5：判断是否满足迭代停止条件，若是，则停止迭代，得到训练好的可微池化图神经网络模型；根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果；若否，则将下一迭代次数作为当前迭代次数，返回S2，直至满足迭代停止条件；

S6：判断是否发生环境耦合问题，若是，则将训练好的可微池化图神经网络模型作为所述可微池化图神经网络模型，迁移所述训练好的可微池化图神经网络模型到发生环境耦合问题后的环境中，并返回S1，进行微调训练；若否，完成任务规划；所述环境耦合问题为所述无人系统集群环境下无人系统、任务、障碍物的数量和/或位置发生变化，原任务规划结果失效；所述微调训练是指迁移模型后在新环境下的适应过程。

可选的，所述图结构对应的真实奖励值的获取方法如下：

利用广度优先算法和Dubins轨迹方法根据所述图结构中所有所述无人系统的位置坐标、所有所述任务的位置坐标和所述无人系统与所述任务的分配关系进行路径规划，得到所述图结构对应的任务规划路径长度；

根据所述任务规划路径长度计算得到所述任务分配结果对应的真实奖励值。

可选的，所述真实奖励值的计算方式如下。

其中，R^T表示真实奖励值；f₁和f₂表示计算因子，l表示任务规划路径长度。

可选的，S4具体包括。

将所述任务分配结果对应的图结构的特征矩阵和关系邻接矩阵输入可微池化图神经网络模型中，得到所述图结构对应的预测奖励值；

根据所述预测奖励值和所述图结构对应的真实奖励值计算损失函数值；根据所述损失函数值，对可微池化图神经网络模型进行训练。

可选的，所述损失函数值为均方损失函数值。

可选的，根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果，具体包括：

将值最大的真实奖励值对应的图结构的任务分配结果确定为最佳任务规划结果。

本发明还提供了一种无人系统集群环境耦合下的可迁移任务规划系统，包括：

环境信息获取模块，用于获取无人系统集群环境信息；所述环境信息包括无人系统集群环境下无人系统、任务、障碍物的数量和位置；

任务分配模块，用于根据所述无人系统的数量、所述任务的数量和当前迭代次数，利用贪心策略进行任务分配，得到当前迭代次数对应的任务分配结果集；所述任务分配结果集包括若干任务分配结果；所述任务分配结果为至少一个所述任务被分配给无人系统的分配结果；所述分配对象包括无人系统和任务；所述标注类别为无人系统或任务；

训练数据获取模块，用于对于所述任务分配结果集中的每一所述任务分配结果，获取所述任务分配结果对应的图结构；所述图结构的节点对应分配对象；获取所述图结构的特征矩阵、关系邻接矩阵及所述图结构对应的真实奖励值；所述图结构为利用递归图语法表示的任务分配结果图；所述特征矩阵包括路径规划参数、所有障碍物的位置和范围、每一分配对象的位置坐标、初始角度和标注类别；所述关系邻接矩阵包括每一无人系统和每一任务的分配关系；所述真实奖励值表征所述任务分配结果对应的任务规划路径长度；

训练模块，用于以所述任务分配结果对应的图结构的特征矩阵和关系邻接矩阵为输入，以所述图结构对应的真实奖励值为标签对可微池化图神经网络模型进行训练；

迭代模块，用于判断是否满足迭代停止条件，若是，则停止迭代，得到训练好的可微池化图神经网络模型；根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果；若否，则将下一迭代次数作为当前迭代次数，返回“任务分配模块”，直至满足迭代停止条件；

环境耦合模块，用于判断是否发生环境耦合问题，若是，则将训练好的可微池化图神经网络模型作为所述可微池化图神经网络模型，迁移所述训练好的可微池化图神经网络模型到发生环境耦合问题后的环境中，并返回“环境信息获取模块”，进行微调训练；若否，完成任务规划；所述环境耦合问题为所述无人系统集群环境下无人系统、任务、障碍物的数量和/或位置发生变化，原任务规划结果失效；所述微调训练是指迁移模型后在新环境下的适应过程。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种无人系统集群环境耦合下的可迁移任务规划方法及系统，首先获取无人系统集群环境下无人系统、任务、障碍物的数量和位置，利用贪心策略进行任务分配，得到当前迭代次数对应的任务分配结果图集，对于任务分配结果图集中的每一任务分配结果图，获取任务分配结果对应的图结构；获取图结构的特征矩阵、关系邻接矩阵及图结构对应的真实奖励值，以任务分配结果对应的图结构的特征矩阵和关系邻接矩阵为输入，以图结构对应的真实奖励值为标签对可微池化图神经网络模型进行训练，得到训练好的可微池化图神经网络模型。当发生环境耦合问题将训练好的可微池化图神经网络模型作为可微池化图神经网络模型，进行微调训练。本发明通过可微池化图神经网络预测最佳任务规划结果，提高了规划效率，并且在发生环境耦合问题时，微调以使可微池化图神经网络模型适应特定的环境，即以训练好的可微池化图神经网络模型作为基础模型(可微池化图神经网络模型)，重新进行训练，可以较少的成本获得良好的任务规划效果。本发明为环境耦合下算法的有效迁移设计特殊的特征矩阵，有效迁移是指可微池化图神经网络模型应用于变化后环境的泛化性。本发明适用于无人系统、任务、障碍物的数量和/或位置发生变化的环境耦合下，无人集群任务规划的迁移问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的无人系统集群环境耦合下的可迁移任务规划方法流程示意图；

图2为本发明实施例1提供的可微池化图神经网络模型训练整体流程示意图；

图3为本发明实施例1提供的无人机、任务、障碍物的初始信息；

图4为本发明实施例1提供的特征向量的设计形式；

图5为本发明实施例1提供的障碍物特征的设计过程；

图6为本发明实施例1提供的递归图语法规则和生成的任务分配序列；

图7为本发明实施例1提供的原始环境的最优任务规划结果图；

图8为本发明实施例1提供的发生环境耦合后的环境信息示意图；

图9为本发明实施例1提供的发生环境耦合后的任务规划结果图；

图10为本发明实施例2提供的无人系统集群环境耦合下的可迁移任务规划系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种无人系统集群环境耦合下的可迁移任务规划方法及系统，通过可微池化图神经网络预测最佳任务规划结果，提高了规划效率，并且在发生环境耦合问题时，微调以使可微池化图神经网络模型适应特定的环境，即以训练好的可微池化图神经网络模型作为基础模型(可微池化图神经网络模型)，重新进行训练，可以较少的成本获得良好的任务规划效果。本发明使用微调以使可微池化图神经网络模型适应特定的环境。然后，模型的参数可以转移到类似的环境中。因此，可以以较少的成本获得良好的效果。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1和图2所示，本实施例提供了一种无人系统集群环境耦合下的可迁移任务规划方法，包括：

S1：获取无人系统集群环境信息；所述环境信息包括无人系统集群环境下无人系统、任务、障碍物的数量和位置。

S2：根据所述无人系统的数量、所述任务的数量和当前迭代次数，利用贪心策略进行任务分配，得到当前迭代次数对应的任务分配结果集；所述任务分配结果集包括若干任务分配结果；所述任务分配结果为至少一个所述任务被分配给无人系统的分配结果；所述分配对象包括无人系统和任务；所述标注类别为无人系统或任务。

S3：对于所述任务分配结果集中的每一所述任务分配结果，获取所述任务分配结果对应的图结构；所述图结构的节点对应分配对象；获取所述图结构的特征矩阵、关系邻接矩阵及所述图结构对应的真实奖励值；所述图结构为利用递归图语法表示的任务分配结果图；所述特征矩阵包括路径规划参数、所有障碍物的位置和范围、每一分配对象的位置坐标、初始角度和标注类别；所述关系邻接矩阵包括每一无人系统和每一任务的分配关系；所述真实奖励值表征所述任务分配结果对应的任务规划路径长度。

S4：以所述任务分配结果对应的图结构的特征矩阵和关系邻接矩阵为输入，以所述图结构对应的真实奖励值为标签对可微池化图神经网络模型进行训练。

S5：判断是否满足迭代停止条件，若是，则停止迭代，得到训练好的可微池化图神经网络模型；根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果；若否，则将下一迭代次数作为当前迭代次数，返回S2，直至满足迭代停止条件。

本实施例应用于无人系统集群，可具体分为以下步骤：

一、根据无人机集群环境特点，为无人系统(本实施例中无人系统为无人机)、目标任务、场景障碍物变化带来的环境耦合问题设计专门的特征向量，优化可微池化图神经网络模型对于此问题的求解能力。

初始化无人机、任务、障碍物，构建初始的图，设计的无人机集群环境下无人机、任务、障碍物初始信息如图3所示，图中u代表无人机，u1、u2、u3分别代表不同的无人机，t代表任务，t1、t2...t10分别代表不同的任务，以坐标代表无人机和任务位置(坐标系为以左下角为原点的坐标轴，例如)，黑色柱体表示障碍物的阻碍范围(图3中3个黑色柱体表示有3个障碍物)。

特殊地，本实施例为环境耦合问题设计特征向量，特征向量主要包括无人机、任务和障碍物的特征，无人机和任务的特征考虑数量和位置变化对任务分配的影响，障碍物的特征考虑其阻碍范围对任务分配的影响，特征向量的设计形式如图4所示，一架无人机或一个任务的特征向量定义为x＝(M_x,P_x,G_x,O_x)，M_x表示分配对象(无人机或任务)的坐标和初始角度，其中，(x，y)为无人机或任务的位置坐标，/>为无人机或任务的初始角度，初始角度可以根据用户意愿设置。P_x为表示路径规划中存在的一些固定参数其中，/>为路径关键点(路径关键点是在此路径上的障碍物的外扩点，外扩点为障碍物向外延伸设定距离后的障碍物在路径规划区域内的顶点，如图3所示，障碍物有3个，路径关键点有6个)的x坐标的平均值，/>为路径关键点的y坐标的平均值，/>为路径关键点的初始角度平均值，n为路径关键点的个数，l为Dubin曲线优化过后本次路径规划的路径长度(用于计算真实奖励值)，θ₁为本次Dubins路径的顺时针转角度(弧度制)，θ₂为本次Dubins路径的逆时针转角度，r为Dubins转弯半径。G_x表示标注类别的one-hot编码，无人机和任务的编码结果不同：例如，若分配对象为无人机，则其one-hot编码为“010”，若分配对象为任务，则其one-hot编码为“001”。O_x是障碍物的阻碍范围的池化表示，在本实施例中，O_x是一个12维的向量，也可以根据具体环境大小设置为其他维度的向量。O_x＝(γ₁,γ₂,γ₃,γ₄,γ₅,γ₆,γ₇,γ₈,γ₉,γ₁₀,γ₁₁,γ₁₂)。图5展示了障碍物特征的形成过程，首先将原始障碍物信息图转化为17×13大小的0-1矩阵，即用1表示障碍物阻碍范围，其他区域用0表示，然后将0-1矩阵平均池化，得到池化矩阵，再将池化矩阵拉直为一维向量矩阵，则γ₁到γ₁₂分别为(0.40，0.40，0，0.16，0.16，0，0.40，0.40，0，0.40，0.40，0)。

二、利用递归图语法将无人机集群的任务分配过程及结果用不规则的图结构表示，从中可以获取可微池化图神经网络模型的图输入，从而转化此类问题至可微池化图神经网络模型的可求解目标。

S2具体包括：

在递归图语法生成一个任务分配结果的过程中，根据当前迭代次数，使用贪心策略计算得到概率∈_n来决定当前任务分配图中下一个任务是随机分配或由图神经网络进行预测分配，最后得到一个完成的任务分配结果图，图中节点和边的属性蕴含着任务分配结果图信息。还会得到多个中间的任务分配结果图，中间的任务分配结果图为至少一个任务被分配给无人系统的任务分配结果，最后得到的一个完成的任务分配结果图为所有任务均被随机分配给无人系统的任务分配结果。上述过程由递归图语法生成，语法规则和生成的任务分配过程如图6所示。概率∈_n的计算公式如下：

其中，是预设迭代次数，n是当前第n次迭代次数，∈_start、∈_end是分别是贪心策略的开始概率和结束概率。本实施例中，设置∈_start＝1,∈_end＝0.1,/>本实施例在每次判断每一任务是随机分配或由图神经网络进行预测分配时，均会生成一设定概率值，此设定概率值的取值范围为0～1。当计算得到当前迭代次数对应的概率∈_n时，将∈_n与设定概率值进行比较，若∈_n大于设定概率值，则将该任务随机分配给任一无人机，在确定任务分配结果图的关系邻接矩阵时，该任务与所匹配的无人机对应的矩阵元素为“1”，表示该任务分配于此无人机；若不大于，则该任务由图神经网络预测分配。因此贪心概率在随迭代次数的增加不断减少后，越来越多的任务将由图神经网络预测分配(因为随着迭代次数的增加图神经网络被训练得越来越好)，而不再是随机乱分。在确定任务分配结果图的关系邻接矩阵时，未被分配的任务对应的所有元素均为“0”。

第三，通过图输入与奖励值的映射关系对网络模型的训练可以预测出优秀的任务分配结果，当遇到环境耦合问题时，通过参数迁移可以继承先前训练的参数再微调以适应变化后的环境，无需重新训练网络，具有适应性和高效率。

对于每一所述任务分配结果，利用递归图语法对所述任务分配结果进行表示，得到所述任务分配结果对应的图结构，图结构的图节点对应分配对象，为无人系统或任务；所述任务分配结果图的边表示所述边连接的两个图节点对应的分配对象之间的分配关系。

从最后的任务分配结果对应的图结构中得到可微池化图神经网络模型的图输入I＝(A,X)，A是表示无人系统和执行任务关系的关系邻接矩阵，其中关系邻接矩阵A中的行代表无人系统，列代表任务，若第m个无人系统与第n个任务匹配，即第m个无人系统执行第n个任务，则关系邻接矩阵A中的第mn个元素(第m行第n列元素)的值为“1”，若第m个无人系统与第n个任务不匹配，则关系邻接矩阵A中的第mn个元素(第m行第n列元素)的值为“0”；是由无人系统的特征向量和任务的特征向量组成的特征矩阵，M、N分别是无人系统和任务的数量，则M+N为无人系统和任务的总数量。

所述图结构对应的真实奖励值的获取方法如下：

利用广度优先算法和Dubins轨迹方法根据所述图结构中所有所述无人系统的位置坐标、所有所述任务的位置坐标和所述无人系统与所述任务的分配关系进行路径规划，得到所述图结构对应的任务规划路径长度；根据所述任务规划路径长度计算得到所述任务分配结果对应的真实奖励值。

具体地：广度优先算法根据所有所述无人系统的位置坐标、所有所述任务的位置坐标、所有所述障碍物位置坐标和所有所述无人系统与所述任务的分配关系，对所在地图进行路径搜索，得到最短路径。具体表现为，借助队列的数据结构，例如从某个无人机出发，定义其为起点，顺序遍历该节点在地图上的所有未被访问的邻接点，然后对邻接点中的每一个节点重复起点的遍历方法。在遍历过程中，如果遍历到了终点，即该无人机被分配的下一个任务位置，则记录此条路径。直到访问完地图上所有点，得到多条到达终点的路径。所述任务规划路径长度为所有到达终点路径中最短路径所对应的长度。广度优先算法得到的最短路径是折线路径，Dubins曲线根据所述最短路径节点优化折线路径，得到满足运动学约束的最短路径。具体表现为，将折线路径看作由直线段和圆弧段组成的路径，求出每段直线段的起点和终点，产生此直线段的所有路径节点，求出圆弧段的圆中心，产生此圆弧段的所有路径节点。其中，所述真实奖励值的计算方式如下。

其中，R^T表示真实奖励值(标签)；f₁和f₂表示计算因子，l表示任务规划路径长度(所有无人机执行分配到的所有任务的路径规划的总长度)。

S4具体包括。

将I与对应的真实奖励值标签R^T打包放入训练集，训练集为如下形式I₁，I₂...表示任务分配结果集中的任务分配结果，/> 为I₁，I₂...对应的真实奖励值标签。设置训练集的大小为5000，超出则替换历史数据，设置f₁＝100,f₂＝-0.05。

从训练集中根据设定的训练轮次依次抓取小批次数据进行可微池化图神经网络模型的训练，由可微池化图神经网络模型预测输入I的奖励值R，R与R^T通过均方损失函数计算出本轮训练的损失L，通过Adam优化器更新参数完成一轮训练。设定每次迭代训练轮次为25，每次训练从训练集中抓取大小为32的批次数据。

如果已经达到了预设的迭代轮次500，转到此次训练结束，保存模型参数。否则，转到当前迭代次数加1，返回步骤S2。此次得到的最佳任务规划结果如图7所示，其在第18次迭代得到。

根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果，具体包括：

具体地，因为在每一次迭代会产生很多任务分配结果图，但是计算真实奖励值的只有本次迭代所有任务分配完毕的最终任务分配结果对应的图结构，只有那个是完整分配了所有任务的，中间的过程性任务分配结果对应的图结构以最终任务分配结果对应的图结构的真实奖励值作为标签参与训练。即：一次迭代产生的任务分配结果图集：{I₁,I₂,I₃,…,I_d}，I_d为分配完整的最终任务分配图。I₁->I_d是一条任务过程分配链。i_d的真实标签为则此次迭代补充进入数据集的内容为/>因此，本实施例只在所有最终任务分配结果对应的图结构对应的真实奖励值中确定最佳任务规划结果。

如果发生环境耦合问题，环境耦合问题即对原任务规划产生影响，产生的影响为无人系统集群环境下无人系统、任务、障碍物的数量和/或位置发生变化。

首先确定所变化的环境信息，本实施例中所变化的环境信息如图8所示，其中斜杠区域是被划定的轰炸区，规定在轰炸区内禁止通行，因此t5和t7任务点将无法执行。此时将已经训练好的模型参数迁移到新的模型上，即将训练好的可微池化图神经网络模型作为所述可微池化图神经网络模型，转到步骤S1，对训练好的可微池化图神经网络模型进行微调训练，得到发生环境耦合后的任务规划结果并保存，完成任务规划，最终的任务规划图如图9所示，在参数迁移后第一次迭代就得到该结果(最佳任务规划结果)。而不进行迁移重新训练网络则在第14次迭代得到结果(最佳任务规划结果)，相比现有技术，本实施例采用微调更高效且适应性强。

实施例2：

为了执行上述实施例1对应的方法，以实现相应的功能和技术效果，下面提供一种无人系统集群环境耦合下的可迁移任务规划系统，如图10所示，无人系统集群环境耦合下的可迁移任务规划系统包括：

环境信息获取模块T1，用于获取无人系统集群环境信息；所述环境信息包括无人系统集群环境下无人系统、任务、障碍物的数量和位置。

任务分配模块T2，用于根据所述无人系统的数量、所述任务的数量和当前迭代次数，利用贪心策略进行任务分配，得到当前迭代次数对应的任务分配结果集；所述任务分配结果集包括若干任务分配结果；所述任务分配结果为至少一个所述任务被分配给无人系统的分配结果；所述分配对象包括无人系统和任务；所述标注类别为无人系统或任务。

训练数据获取模块T3，用于对于所述任务分配结果集中的每一所述任务分配结果，获取所述任务分配结果对应的图结构；所述图结构的节点对应分配对象；获取所述图结构的特征矩阵、关系邻接矩阵及所述图结构对应的真实奖励值；所述图结构为利用递归图语法表示的任务分配结果图；所述特征矩阵包括路径规划参数、所有障碍物的位置和范围、每一分配对象的位置坐标、初始角度和标注类别；所述关系邻接矩阵包括每一无人系统和每一任务的分配关系；所述真实奖励值表征所述任务分配结果对应的任务规划路径长度。

训练模块T4，用于以所述任务分配结果对应的图结构的特征矩阵和关系邻接矩阵为输入，以所述图结构对应的真实奖励值为标签对可微池化图神经网络模型进行训练。

迭代模块T5，用于判断是否满足迭代停止条件，若是，则停止迭代，得到训练好的可微池化图神经网络模型；根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果；若否，则将下一迭代次数作为当前迭代次数，返回“任务分配模块”，直至满足迭代停止条件。

环境耦合模块T6，用于判断是否发生环境耦合问题，若是，则将训练好的可微池化图神经网络模型作为所述可微池化图神经网络模型，迁移所述训练好的可微池化图神经网络模型到发生环境耦合问题后的环境中，并返回“环境信息获取模块”，进行微调训练；若否，完成任务规划；所述环境耦合问题为所述无人系统集群环境下无人系统、任务、障碍物的数量和/或位置发生变化，原任务规划结果失效；所述微调训练是指迁移模型后在新环境下的适应过程。

本发明具有以下有益效果：

1)本发明提出了一种基于可微池化图神经网络的无人系统集群环境耦合下的可迁移任务规划方法。使用递归图语法能够将无人系统集群的任务分配过程抽象成一个不规则的图结构，使得无人系统集群的任务规划成为可微池化图神经网络模型的求解目标。无向无环图结构的表示形式也使得无人系统集群的任务分配过程和结果清晰易懂。

2)传统的任务规划算法没有很好地考虑到环境耦合问题，导致算法适应性差、效率低下。本发明可以实现任务规划算法的高效迁移，有效解决了环境耦合问题。

3)本发明针对环境耦合问题的特点设计了一种专门的特征向量(图的特征矩阵)，以更好地解决环境耦合问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种无人系统集群环境耦合下的可迁移任务规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种无人系统集群环境耦合下的可迁移任务规划方法，其特征在于，所述图结构对应的真实奖励值的获取方法如下：

3.根据权利要求2所述的一种无人系统集群环境耦合下的可迁移任务规划方法，其特征在于，所述真实奖励值的计算方式如下：

4.根据权利要求1所述的一种无人系统集群环境耦合下的可迁移任务规划方法，其特征在于，S4具体包括：

5.根据权利要求4所述的一种无人系统集群环境耦合下的可迁移任务规划方法，其特征在于，所述损失函数值为均方损失函数值。

6.根据权利要求1所述的一种无人系统集群环境耦合下的可迁移任务规划方法，其特征在于，根据所有所述任务分配结果的图结构对应的真实奖励值确定最佳任务规划结果，具体包括：

7.一种无人系统集群环境耦合下的可迁移任务规划系统，其特征在于，所述系统包括：