CN113240174B

CN113240174B - 基于动态偏好匹配的多月基装备协作任务规划方法

Info

Publication number: CN113240174B
Application number: CN202110512493.7A
Authority: CN
Inventors: 徐瑞; 赵宇庭; 李朝玉; 朱圣英; 梁子璇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-08-16
Anticipated expiration: 2041-05-11
Also published as: CN113240174A

Abstract

本发明涉及一种基于动态偏好匹配的多月基装备协作任务规划方法，属于航空航天技术领域。本发明首先获取任务场景信息，包括任务集合、装备集合，以及每个任务和装备的详细信息。为任务和装备建立抽象模型，将多装备任务规划问题建立为任务和装备的双边匹配模型，然后采用改进的延迟接受算法(盖尔‑夏普利算法)生成多任务在多装备中的规划方案。基于动态偏好匹配的多月基装备协作任务规划方法能够快速生成多任务在多装备中的规划方案，满足各装备内部的时间约束，提高多装备协作任务的安全性及价值收益。

Description

基于动态偏好匹配的多月基装备协作任务规划方法

技术领域

本发明涉及一种基于动态偏好匹配的多月基装备协作任务规划方法，属于航空航天技术领域。

背景技术

在我国既定的“绕、落、回”探月工程即将完成之际，为了更加深入地开展月球科学研究，勘查可利用地月球资源，国家已经启动无人月球科研站地论证工作，拟在世界上首次实施无人月球科研站建设的重大任务。无人月球科研站是由多个协同工作的着陆器、巡视器、功能舱、特种机器人、能源站等月基装备组成的智能集群系统。月球基地的建设是一个大规模复杂工程，依赖多种装备合作完成环境感知、基地构建等任务，月基装备多机作业任务众多、约束复杂，需要通过规划技术进行装备间分配任务，实现安全高效的多探测器多任务协同作业。因此，多机协同任务规划是多月基装备协同作业需要解决的重要问题。

多月基装备协同作业任务规划属于多航天器任务规划问题，可借鉴已有的多航天器任务规划方法。多航天器任务规划问题采用的方法有遗传算法等元启发式算法，以及基于招投标机制的规划算法等。元启发式算法的建模过程较为复杂，以遗传算法为例，需要将航天器选择任务的规划方案抽象成基因、染色体、个体和种群等模型，对航天器执行任务会受到的时间、资源等多种约束的描述能力不强。同时，元启发式算法的时间复杂度和空间复杂度高，面对大量的航天器或者任务，会导致计算时间长，程序运行占用存储空间大的问题。元启发式算法还存在一定的随机性，会降低航天器的可控性和可靠性。基于招投标机制的规划算法的建模过程较为简单直观，但招投标算法没有回溯机制，有可能导致本来有解的问题无法找到解，或者只能找到次优解。

发明内容

针对多月基装备协同作业任务规划问题，本发明提供一种基于动态偏好匹配的多月基装备协作任务规划方法。该方法为多月基装备协同作业任务规划问题建立模型，将实际问题抽象为数学模型，便于利用优化方法解决问题。研究任务规划方法，生成多个月球装备的任务规划方案，优化多机协同作业的任务完成率和总体收益。在任务规划方法中，检查装备内部时间约束，生成满足时间约束的任务规划方案，保证任务执行的安全性。

本发明的目的是通过下述技术方案实现的：

本发明公开的基于动态偏好匹配的多月基装备协作任务规划方法，首先获取任务场景信息，包括任务集合、装备集合，以及每个任务和装备的详细信息。为任务和装备建立抽象模型，将多装备任务规划问题建立为任务和装备的双边匹配模型，然后采用改进的延迟接受算法(盖尔-夏普利算法)生成多任务在多装备中的规划方案。基于动态偏好匹配的多月基装备协作任务规划方法能够快速生成多任务在多装备中的规划方案，满足各装备内部的时间约束，提高多装备协作任务的安全性及价值收益。

基于动态偏好匹配的多月基装备协作任务规划方法，包括如下步骤：

步骤一、获取场景信息，包括装备集合和任务集合。

装备集合表示为S＝{s₁,s₂,…,s_n},每个装备表示为s_i＝(i,d,A)，装备参数包括装备编号i、相邻动作间最短间隔时长d、装备完成各任务的可用动作集合A。任务集合表示为T＝{t₁,t₂,…,t_n},每个任务表示为t_j＝(j,p,l,B)，任务参数包括任务编号j、任务优先级p、该任务最短执行时长l、各装备可完成该任务的可用动作集合B。任务优先级越高，p的数值越大；A_t的初始集合为空集，需要从各装备处获得该任务的可用动作。

步骤二、为步骤一中获取的装备集合及任务集合建立抽象模型，将多装备多任务规划问题抽象为双边匹配问题。

双边匹配理论最早出现在经济学领域中，用于研究市场中双方的相互匹配问题，如婚姻市场男女匹配、招聘市场中求职者与公司的匹配。多装备多任务规划问题可抽象为任务和装备的一对多双边匹配问题，每个任务只能匹配一个装备，一个装备可匹配多个任务，装备可匹配的任务量取决于装备的内部时间约束。装备与任务的双边匹配的目标是为每个任务匹配一个装备，如果只能完成部分任务，那么先完成优先级高的任务。

可用动作是装备和任务相互匹配的纽带，任务通过可用动作确定可与其匹配的装备集合，装备也通过可用动作确定可与其匹配的任务集合。每个装备根据自身的机动能力、能源参数等，预测自身的动作集合A，动作集合中的每一个动作a＝{t,s,[t_s,t_e]}表示装备s能够完成任务t，具有可执行时间范围[t_s,t_e]，t_s是最早开始时刻，t_e是最晚结束时刻。集合A_s中每个动作的任务参数t形成一个集合，表示装备s能够匹配的任务集合，允许A_s是空集，说明装备s无法与任何一个任务匹配。

任务的可用动作集合初始为空，从各装备的可用动作集合中提取动作构成各任务的可用动作集合。将各装备的动作集合A_i(i∈S)中所有符合t＝j的动作a加入到任务j的动作集合B_j(j∈T)中。任务j通过B_j确定能够与之匹配的装备集合，B_j为空说明任务没有能够匹配的装备。

步骤三、在步骤二中建立的双边匹配问题模型的基础上，改进延迟接受双边匹配算法，在延迟接受算法中采用适合装备任务规划问题的偏好排序方法，并加入装备动作时间线上的时间约束处理，生成满足时间约束的多任务规划方案。

步骤3.1：采用适合装备任务规划问题的动态偏好排序方法。

在经典一对多双边匹配问题模型中个体将能够与之匹配的对象集合按照一定的偏好排序，且排序是在规划前确定的，在匹配算法中不再改变。但在装备与任务的匹配问题中，更适合采用动态偏好顺序。

装备偏好任务优先级高的动作，当两个动作的任务优先级相同时选择可替代度低的动作。所述动作的可替代度等于该动作完成的任务的剩余可用动作数加一。

为了让任务更高效地找到可匹配的装备，任务对装备的偏好排序采用基于装备历史工作时长的动态偏好排序方法，任务在每一轮匹配中优先选择装备历史工作时长短的动作，若历史工作时长相同，则开始时刻早的动作优先，若动作开始时刻也相同，则装备编号小的优先。

步骤3.2：任务方发起一轮匹配。首先基于当前的匹配状态更新任务剩余可用动作的装备的历史工作时长，然后每个任务在当前的剩余可用动作集合中按步骤3.1中的偏好排序方法选择最偏好的一个动作，将选中的动作发送给相应的装备，并将此动作从任务的可用动作集合中删除。

步骤3.3：各装备接收到从任务方发送的动作，并将动作加入到装备的动作时间线中。一个装备可能接收到多个任务发送的动作，也可能接收不到动作。

步骤3.4：每个装备更新时间线上所有动作的可替代度。可替代度等于该动作完成的任务的剩余可用动作数加一，即对于动作a＝{t,s,[t_s,t_e]}，a的可替代度p＝|B_t|+1。

步骤3.5：每个装备对动作时间线上的所有动作检查时间约束。

装备中需考虑以下时间约束：相邻动作间时长至少为d；每个动作的起止时间在[t_s,t_e]之间；每个动作的不短于其完成任务最少需要的时间r。

步骤3.5.1：判断动作时间线上的动作是否满足时间约束；

采用基于时间跨度的动作顺序方法确定所有动作的前后顺序：当有两个动作a1和a2，a1的开始时刻为s1，结束时刻为e1，a2的开始时刻为s2，结束时刻为e2，如果e2-s1≥e1-s2则a1为前序动作a2为后序动作，如果e1-s2>e2-s1则a2为前序动作a1为后序动作；所述排序能够保证两个动作形成的可调整的时间跨度最大，在时间约束下最有可能保留两个动作；基于时间跨度原则，将所有动作排序。

步骤3.5.2：从第一个动作开始检查两个相邻动作间的时间间隔是否大于d，即s2-e1≥d是否成立；若此不等式不成立则将两个动作加入到时间约束待查动作集合Tc中；

对Tc中的动作构建简单时间约束网络，采用最短路径算法判断网络的一致性；若网络一致，说明能够通过调整动作的开始结束时刻满足各项时间约束；若网络不一致说明只能舍弃某些动作以满足约束；

所述舍弃方法为：按步骤3.1中装备对任务的偏好排序方法对Tc中所有动作排序；尝试删除装备最不偏好的动作，若能使时间约束网络满足约束则删除此动作，若不能满足约束则保留这个动作，尝试下一个动作，即装备次不偏好的动作，直到删除某个动作后时间约束网络达到一致状态，说明此时动作间时间关系满足所有时间约束；记录此轮规划中舍弃的动作，被舍弃的动作对应的任务没有成功匹配到装备，需要在下一轮规划继续匹配；

重复步骤3.5.2，直至最后一个动作，得到所有装备的满足时间约束的当前规划方案；

步骤3.6：得到所有装备的满足时间约束的当前规划方案后，判断此时是否能够结束规划；

规划结束的标准为每个任务都被成功匹配，或部分没有成功匹配的任务已经没有能够尝试的可用动作。满足规划结束标准就结束规划，若不满足规划结束标准则返回步骤3.2继续规划。

还包括步骤四：基于动态偏好匹配的多月基装备协作任务规划方法将多装备多任务规划问题建模为考虑时间约束的双边匹配问题，采用改进的延迟接受算法，能够提高多装备多任务规划的价值收益。在延迟接受算法中加入装备动作时间线的时间约束检查功能，使任务规划方案满足装备内部的时间约束，保证装备任务执行的安全性。

所述价值收益包括：多任务的完成率，以多装备合作清理月面障碍物任务为例，任务完成率即装备清理的障碍数占总障碍数的比例；多任务总优先级，任务优先级代表任务的价值，在不同任务背景下评价任务价值的标准不同，如任务的紧急程度、执行任务能够获取的科学数据的重要程度都可作为任务优先级的判断标准。

有益效果：

1、本发明公开的基于动态偏好匹配的多月基装备协作任务规划方法，基于多装备信息和多任务信息，建立双边匹配问题模型。由于延迟接受算法适用于两组不同对象的相互匹配问题，采用改进的延迟接受算法能够更适用于多装备任务规划问题，高效搜索高价值收益的多任务规划方案，不仅保证多个任务的整体完成率，且提高了任务的工程价值收益。

2、本发明公开的基于动态偏好匹配的多月基装备协作任务规划方法，在延迟接受算法的基础上，加入时间约束检查，使任务规划方案满足装备内部动作间的时间约束，即动作在可行时段内发生、动作持续时长大于任务最短完成时长、相邻动作间的间隔大于最短准备时长，保证装备执行任务的有效性和安全性。

3、本发明公开的基于动态偏好匹配的多月基装备协作任务规划方法，双边匹配方法选用延迟接受算法(盖尔-夏普利算法)，延迟接受算法允许装备在匹配算法中反悔已选择的任务，能够通过反悔操作协调多个装备间的任务分配，保证任务完成率。将此算法的静态偏好排序改进为动态偏好排序方法，进一步提高规划效率和多任务总体收益。

附图说明

图1是是本发明公开的基于动态偏好匹配的多月基装备协作任务规划方法流程图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对发明内容做进一步说明。

为了验证方法的可行性，以三个月球装备合作清理十个月面障碍物的问题为例，采用本发明的方法确定三个装备协同作业的规划方案，实现满足装备时间约束的最优任务分配。

如图1所示，本实施例公开的基于动态偏好匹配的多月基装备协作任务规划方法，包括如下步骤：

步骤一、获取场景信息，包括装备集合和任务集合。

装备集合表示为S＝{s₁,s₂,…,s_n},每个装备表示为s_i＝(i,d,A)，装备参数包括装备编号i、相邻动作间最短间隔时长d、装备完成各任务的可用动作集合A；任务集合表示为T＝{t₁,t₂,…,t_n},每个任务表示为t_j＝(j,p,l,B)，任务参数包括任务编号j、任务优先级p、该任务最短执行时长l、各装备可完成该任务的可用动作集合B；任务优先级越高，p的数值越大；A_t的初始集合为空集，需要从各装备处获得该任务的可用动作；

三个装备的编号分别为0，1，2，相邻动作间最短间隔时长为60秒。十个月面障碍视作十个任务，任务编号为从0到9，任务优先级分别为{10,9,8,7,6,5,4,3,2,1}，任务最短执行时长为300秒。

步骤二、为步骤一中获取的装备集合及任务集合建立抽象模型，将多装备多任务规划问题描述为双边匹配问题。

可用动作是装备和任务相互匹配的纽带，任务通过可用动作确定可与其匹配的装备集合，装备也通过可用动作确定可与其匹配的任务集合。每个装备根据自身的机动能力和能源参数等，预测自身的动作集合A，动作集合中的每一个动作a＝{t,s,[t_s,t_e]}表示装备s能够完成任务t，具有可执行时间范围[t_s,t_e]，t_s是最早开始时刻，t_e是最晚结束时刻。集合A_s中每个动作的任务参数t形成一个集合，表示装备s能够匹配的任务集合，允许A_s是空集，说明装备s无法与任何一个任务匹配。

步骤三、在步骤二中建立的双边匹配问题的基础上，改进延迟接受双边匹配算法，在延迟接受算法中采用适合装备任务规划问题的偏好排序方法，并加入装备动作时间线上的时间约束处理，生成满足时间约束的多任务规划方案。

表1装备对各任务的可用动作

步骤3.1：采用适合装备任务规划问题的动态偏好排序方法；

在规划过程中采用动态偏好排序方法对动作进行排序；

装备偏好任务优先级高的动作，当两个动作的任务优先级相同时选择可替代性度低的动作；所述动作的可替代度等于该动作完成的任务的剩余可用动作数加一；

为了让任务更高效地找到可匹配的装备，任务对装备的偏好排序采用基于装备历史工作时长的动态偏好排序方法，任务在每一轮匹配中优先选择装备历史工作时长短的动作，若历史工作时长相同，则开始时刻早的动作优先，若动作开始时刻也相同，则装备编号小的优先；

步骤3.2：任务方发起一轮匹配。首先基于当前的匹配状态更新任务剩余可用动作的装备的历史工作时长，然后每个任务在当前的剩余可用动作集合中按步骤3.1中的偏好排序方法选择最偏好的一个动作，将选中的动作发送给相应的装备，并将此动作从任务的可用动作集合中删除。在本问题的第一轮匹配中，任务0选择装备0，任务1选择装备0，任务2选择装备1，任务3选择装备2，任务4选择装备2，任务5选择装备0，任务6选择装备2，任务7选择装备2，任务8选择装备1，任务9选择装备0。

表2第一轮规划中各任务选择的动作

步骤3.4：每个装备更新时间线上所有动作的可替代度。可替代度等于该动作完成的任务的剩余可用动作数加一，即对于动作a＝{t,s,[t_s,t_e]}，a的可替代度p＝|B_t|+1。第一轮规划中任务2的可替代度为1，因为其只有一个可选动作，其余任务可替代度为2。

步骤3.5.1：判断动作时间线上的动作是否满足时间约束。

对第一轮规划中的装备0，四个动作按时间跨度原则排序为：[10,400]，[100,500]，[400,800]，[300,1100]。可见此序列中的动作并不是按照动作开始时刻排列的，而是按照时间跨度原则排列的。

重复步骤3.5.2，直至最后一个动作，得到所有装备的满足时间约束的当前规划方案。

在第一轮规划中，任务1、任务4和任务7没有成功匹配，其他任务成功匹配。则第二轮规划中，还要对任务1和任务7进行匹配，任务1和任务7选择装备1进行匹配，任务4和装备0进行匹配。

步骤3.6：每个装备都完成时间约束处理后，判断此时是否能够结束规划。

规划结束的标准为每个任务都被成功匹配，或部分没有成功匹配的任务已经没有能够尝试的可用动作。满足规划结束标准就结束规划，若不满足规划结束标准则返回步骤3.2继续规划。在两轮规划后，得到规划结果如表3，每个任务都被成功分配到装备，且同一装备的动作间没有不可协调的时间约束冲突。

表3各装备规划结果

以上所述的具体描述，对发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于动态偏好匹配的多月基装备协作任务规划方法，其特征在于：包括如下步骤：

步骤一、获取场景信息，包括装备集合和任务集合；

步骤二、为步骤一中获取的装备集合及任务集合建立抽象模型，将多装备多任务规划问题抽象为双边匹配问题；

多装备多任务规划问题可抽象为任务和装备的一对多双边匹配问题，每个任务只能匹配一个装备，一个装备可匹配多个任务，装备可匹配的任务量取决于装备的内部时间约束；装备与任务的双边匹配的目标是为每个任务匹配一个装备，如果只能完成部分任务，那么先完成优先级高的任务；

可用动作是装备和任务相互匹配的纽带，任务通过可用动作确定可与其匹配的装备集合，装备也通过可用动作确定可与其匹配的任务集合；每个装备根据自身的机动能力和能源参数等，预测自身的动作集合A，动作集合中的每一个动作a＝{t,s,[t_s,t_e]}表示装备s能够完成任务t，具有可执行时间范围[t_s,t_e]，t_s是最早开始时刻，t_e是最晚结束时刻；集合A_s中每个动作的任务参数t形成一个集合，表示装备s能够匹配的任务集合，允许A_s是空集，说明装备s无法与任何一个任务匹配；

任务的可用动作集合初始为空，从各装备的可用动作集合中提取动作构成各任务的可用动作集合；将各装备的动作集合A_i(i∈S)中所有符合t＝j的动作a加入到任务j的动作集合B_j(j∈T)中；任务j通过B_j确定能够与之匹配的装备集合，B_j为空说明任务没有能够匹配的装备；

步骤三、在步骤二中建立的双边匹配问题的基础上，改进延迟接受双边匹配算法，在延迟接受双边匹配算法中采用适合装备任务规划问题的偏好排序方法，并加入装备动作时间线上的时间约束处理，生成满足时间约束的多任务规划方案；

所述改进延迟接受接受双边匹配算法，包括如下步骤：

步骤3.1：采用适合装备任务规划问题的动态偏好排序方法；

在规划过程中采用动态偏好排序方法对动作进行排序；

装备偏好任务优先级高的动作，当两个动作的任务优先级相同时选择可替代度低的动作；所述动作的可替代度等于该动作完成的任务的剩余可用动作数加一；

步骤3.2：任务方发起一轮匹配；首先基于当前的匹配状态更新任务剩余可用动作的装备的历史工作时长，然后每个任务在当前的剩余可用动作集合中按步骤3.1中的偏好排序方法选择最偏好的一个动作，将选中的动作发送给相应的装备，并将此动作从任务的可用动作集合中删除；

步骤3.3：各装备接收到从任务方发送的动作，并将动作加入到装备的动作时间线中；一个装备可能接收到多个任务发送的动作，也可能接收不到动作；

步骤3.4：每个装备更新时间线上所有动作的可替代度；动作的可替代度等于该动作完成的任务的剩余可用动作数加一，即对于动作a＝{t,s,[t_s,t_e]}，a的可替代度p＝|B_t|+1；

步骤3.5：每个装备对动作时间线上的所有动作检查时间约束；

装备中需考虑以下时间约束：相邻动作间最短间隔时长为d；每个动作的起止时间在[t_s,t_e]之间；每个动作不短于其完成任务最少需要的时间r；

步骤3.5.1：判断动作时间线上的动作是否满足时间约束；

采用基于时间跨度的动作顺序方法确定所有动作的前后顺序：当有两个动作a1和a2，a1的开始时刻为s1，结束时刻为e1，a2的开始时刻为s2，结束时刻为e2，如果e2-s1≥e1-s2则a1为前序动作a2为后序动作，如果e1-s2>e2-s1则a2为前序动作a1为后序动作；所述排序能够保证两个动作形成的可调整的时间跨度最大，在时间约束下最有可能保留两个动作；基于时间跨度原则，将所有动作排序；

规划结束的标准为每个任务都被成功匹配，或部分没有成功匹配的任务已经没有能够尝试的可用动作；满足规划结束标准就结束规划，若不满足规划结束标准则返回步骤3.2继续规划；

步骤四：基于动态偏好匹配的多月基装备协作任务规划方法将多装备多任务规划问题建模为考虑时间约束的双边匹配问题，采用改进的延迟接受算法，能够提高多装备多任务规划的价值收益；在延迟接受算法中加入装备动作时间线的时间约束检查功能，使任务规划方案满足装备内部的时间约束，保证装备任务执行的安全性。