CN110134146A

CN110134146A - 一种不确定环境下的分布式多无人机任务分配方法

Info

Publication number: CN110134146A
Application number: CN201910513324.8A
Authority: CN
Inventors: 符小卫; 王辉; 潘静; 高晓光
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-08-16
Anticipated expiration: 2039-06-14
Also published as: CN110134146B

Abstract

本发明提供了一种不确定环境下的分布式多无人机任务分配方法，首先建立协同任务分配模型，各无人机进行自己的任务束更新、构建，然后无人机编队进行一致性协商，实现不确定参数下最大化整体收益的目标。本发明利用一致性束算法CBBA，在分布式的架构下求解任务环境存在不确定参数时多无人机的时敏任务协同分配问题，利用高斯过程回归模型来捕捉不确定参数对任务分配收益的影响来参与分配过程从而保证任务分配结果的实际执行效果，利用主动学习和流形学习方法来提高算法的计算效率。

Description

一种不确定环境下的分布式多无人机任务分配方法

技术领域

本发明涉及一种多无人机任务分配方法。

背景技术

当前，随着无人机技术的提高，多无人机能通过协同、协作组成集群编队来完成单无人机无法完成或难以完成的工作。因此，多无人机系统的研究受到广泛关注。多无人机任务分配是多无人机协同任务规划的关键技术之一，其目标是根据任务区域和目标的先验情报信息，在考虑具体约束条件的前提下，以任务的总体效能最优或次优为目标，合理地将具体行动任务分配给无人机编队中的成员。随着无人机性能的不断提高和任务环境干扰因素的增加，任务分配过程中常常存在部分先验数据具有不确定性的现象，因此，不确定环境下的多无人机任务分配研究成为研究热点。

针对不确定环境下的多无人机任务分配问题，相关领域学者在主流的任务分配算法基础上考虑了分配参数的不确定性。陈侠将不确定性指标表示为区间不确定性信息，然后给出了基于随机概率的多属性方案排序(Stochastic Multi-criteria AcceptabilityAnalysis,SMAA)方法的求解思路。Ponda提出了鲁棒任务分配算法，具体操作是基于期望值法、最坏情形法、风险约束法将已知分布信息的不确定参数耦合进任务分配过程，并在一致性束算法CBBA(Consensus-Based Bundle Algorithm,CBBA)框架内进行了求解。但是现有的方法需要的计算量过大，如何在不降低鲁棒任务分配算法的执行效能的情况下提高算法的计算效率是本领域技术人员需要解决的技术问题。

发明内容

为了克服现有技术的不足，本发明提供一种不确定环境下的分布式多无人机任务分配方法，利用一致性束算法CBBA，在分布式的架构下求解任务环境存在不确定参数时多无人机的时敏任务协同分配问题，利用高斯过程回归模型(Gaussian ProcessRegression,GPR)来捕捉不确定参数对任务分配收益的影响来参与分配过程从而保证任务分配结果的实际执行效果，利用主动学习和流形学习方法来提高算法的计算效率。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1，对于由N_a个无人机组成的无人机编队，所有无人机均是同一类型；任务执行区域内有N_t个目标，无人机编队要对每个目标执行时敏任务，每个时敏任务的执行时间为t_j，j＝1,2...,N_t，其时间窗约束为ET_j≤t_j≤LT_j，其中，ET_j为任务j的最早允许开始执行时间，LT_j为任务j的最晚允许开始执行时间；

无人机i对目标j执行任务的收益其中，V_j为目标j的价值，λ为指数折扣收益模型的递减因子，α为距离代价的惩罚因子，L_ij为无人机i与目标j的欧式距离；

每个任务的执行时长t_j-dur＝g_j(θ)，其中，任务环境的不确定参数θ服从分布概率密度函数p(θ)，函数关系g_j在仿真时由历史数据或模型仿真获得；

协同分配模型目的是求解决策矩阵x，x_ij＝1表示分配无人机i对目标j执行任务，x∈χ,

每个无人机最多能够执行L_i个任务，每个无人机维护以下数据信息结构：

(1)任务束集(Bundle):其中b_in是竞拍到的目标，表示无人机i竞拍得到的第n个任务的序号；

(2)任务时序集(Path):任务时序P_i为无人机i的任务束B_i的任务执行顺序，即无人机i执行任务的顺序为

(3)执行时间集(Time):τ_in∈R₊表示无人机i根据任务时序集P_i到达任务区执行任务p_in的执行时间；

(4)赢家集(Winning Uavs):其中元素z_in表示无人机i与其所有邻接无人机通过信息交互所获得的关于任务j的赢家信息，即当前时刻无人机z_in对任务j出价最高成为赢家；若当前尚未有无人机竞拍到任务j，则z_i＝φ；

(5)赢家出价集(Winning Bids):其中元素y_in∈R₊，用来表示当前时刻各无人机对任务j竞拍时的最大出价值，若当前尚未有无人机竞拍到任务j则y_in＝0；

(6)时间戳集(Time Stamps):时间戳为其中元素s_in∈R₊，用来表示无人机i与其邻接无人机之间的最近一次信息交互时间；

(7)分配时间标记:[T_ip,t_ip]，T_ip为通信的时间标记，无人机之间采用同步通信机制，每次协商阶段无人机i同通信网络中的其他所有无人机进行完通信，T_ip自增；t_ip为无人机i进行任务束构建阶段的时间标记，无人机i任务束构建完有新任务加入时，t_ip自增；

步骤2，已知无人机i和目标j的位置矢量、目标j任务T_j的价值和时间窗，构造信息结构B_i,P_i,τ_i的步骤如下：

Step2.1，从j＝1循环迭代到j＝N_t，若执行Step2.2到Step2.6，否则j自增；

Step2.2，对于任务时序集P_i的每一个位置k＝1到k＝LP_i，检测加入新任务T_j的可能性，若满足可能性转入Step2.3，LP_i为无人机i的任务时序集里已经出价的任务个数；

Step2.3，求T_j插在P_i的位置k竞拍出价的边际收益c_ij-P_ik：

Step2.3.1，根据已知不确定参数θ[θ₁,θ₂]的参数空间及分布概率密度函数p(θ)，产生N个样本形成样本集，每个样本包含θ[θ₁,θ₂]和对应的f(θ)形成的有序对(θ,f(θ))；其中，f(θ)为θ的具体取值下加入新任务T_j并插在P_i的位置k的优化任务束总收益；

样本集分为训练集S和未采样样本集U，训练集S样本的f(θ)已通过计算获得，未采样样本集U的f(θ)未知；

随机选取s个样本转入Step2.3.2计算f(θ)，构造初始训练集；

Step2.3.2，求需要采样的样本θ_k对应的优化收益f(θ_k)：

(1)对于任务时序集中的每个任务T_l∈P_i，任务T_l的执行时长已知；

(2)计算P_i对应的优化执行时间

(3)求

Step2.3.3，利用MPGR方法初步筛选U，产生稀疏子集Ls：

(1)利用K近邻法从U构造一个图G，每个θ_k是一个节点，每个节点选取离自己欧式距离最近的k个节点形成边；

(2)n＝1，计算图G中每个节点的度其中，W_pq为节点p与邻居节点q的连接边权值，其中，x_p,x_q是节点p,q的位置矢量，t是一个可调参数，η是所有节点的最邻近距离的平均值；

(3)选出度指标最高的节点p^*加入Ls，并从图G剔除及p^*的连接边；

(4)若n＝N_Ls，N_Ls为期望生成的Ls的规模，转入Step2.3.4；否则n自增，转入Step2.3.3的(2)；

Step2.3.4，通过训练集S训练高斯过程模型GPR为J_θ＝J(θ)，其中，J为输入不确定参数θ和输出收益J_θ之间的映射关系，高斯过程表示为J(θ)＝GP(m(θ),k(θ,θ'))，其中，均值m(θ)＝E_θ[J(θ)]，协方差k(θ,θ')＝E_θ[(J(θ)-m(θ))(J(θ')-m(θ'))]；

Step2.3.5，从Ls中同时选取Ns个样本加入训练集：

(1)对于每个样本θ_*∈U，转入(2)进行GPR预测；

(2)求预测收益分其中，均值μ(θ_*)和方差∑(θ_*)的计算如下：

μ(θ_*)＝k(θ_*,θ_S)K^-1J(θ_S)

K＝k(θ_S,θ_S)

其中，α和Λ为高斯训练过程的超参数；

(3)选取最高评价值的Ns个样本加入训练集S，并从U中剔除

(4)若训练集规模已经达到要求，则转入Step2.3.6，否则转入Step2.3.2；

Step2.3.6，计算期望收益分：

(1)对于每个样本θ_k∈S∪U，利用式(2-10)预测θ_k相应的任务收益；

(2)概率归一化

(3)计算期望收益分

其中，J_Pold为无人机i增加该任务前任务束的总收益。

Step2.4，从c_ij-P_ik中选出边际收益最大的插入位置P_iG作为该任务插入到P_i中的最优时序，k＝1～LP_i；若c_ij-P_ik大于赢家出价集y_ij，存储c_ij-P_iG和P_iG到无人机i的出价集和插入时序集代表出价过程，否则任务束构建过程结束；

Step2.5，从C_i中选择边际收益最大的任务作为新加任务，更新无人机i的信息结构：

Step2.6，若无人机的任务束已经溢出，则任务束构建过程结束，更新分配时间标记t_ip；

步骤3，无人机i进行收敛判断，若T_ip-t_ip≥N_u，N_u为通信网络直径，则无人机i的分配信息已经保持N_u通信循环不变，若所有无人机的分配信息已经保持不变，则编队达到分配结果一致状态，算法结束；

步骤4，各无人机之间进行同步通信，共享z_i,y_i并更新分配时间标记T_ip，若无人机i接收到邻接无人机l分配的信息后，对目标j的任务T_j，信息更新行动规则如下：

(1)更新：把y_lj赋值给y_ij，把z_lj赋值给z_ij；

(2)重置：y_ij置为0，z_ij置为空；

(3)离开：y_ij、z_ij保持不变；

步骤5，各无人机经过一致性协商-竞标过程后，无人机i更新B_i,P_i，对于任务T_l∈B_i，若则从任务束中剔除该任务T_l及B_i中位于该任务后加入的任务；

步骤6，优化目标函数

本发明的有益效果是：解决了时敏任务执行时长不确定的情况下，多无人机的任务分配问题。本发明基于分布式CBBA框架，并利用高斯过程回归模型、主动学习和流形学习方法来快速地求出期望收益得分的近似值，从而在规划阶段捕捉任务执行时长的不确定性对时序性任务的执行时间产生的影响，得到的任务分配结果在实际执行时具有很高的成功率并能获得较高的任务收益。

附图说明

图1是本发明所采用方法中每个无人机进行任务分配的流程示意图。

图2是本发明中采用CBBA方法进行不确定执行时长下任务分配的分配结果-任务路径图。

图3是采用基本CBBA方法进行实施例中相同环境的分配结果-任务路径图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明的步骤如下：

步骤1：不确定参数下多无人机时敏任务的协同分配模型

无人机编队由N_a个无人机组成，所有无人机均是同一类型。任务执行区域内有N_t个目标，无人机编队要对每个目标执行时敏任务，每个时敏任务的执行时间为t_j(j＝1,2...,N_t)，其时间窗约束如下：

ET_j≤t_j≤LT_j (1-1)

其中，ET_j为任务j的最早允许开始执行时间，LT_j为任务j的最晚允许开始执行时间。时敏任务的执行必须要满足时间窗约束，即在时间窗内执行会取得收益，在时间窗之外执行则会被认为执行失败没有收益。

无人机i(i＝1,2...,N_a)对目标j(j＝1,2...,N_t)执行任务的收益c_ij定义如下：

其中，V_j为目标j的价值，λ为指数折扣收益模型的递减因子(取值范围为[0,1])，α为距离代价的惩罚因子(取值范围为[0,1])，L_ij为无人机i与目标j的欧式距离。

每个任务不会瞬间被执行，具有执行时长，执行时长会受环境影响。则执行时长与环境的数学关系可简单抽象为函数关系，每个任务的执行时长t_j-dur由任务环境的不确定参数θ决定，函数关系如下：

t_j-dur＝g_j(θ) (1-3)

其中，任务环境的不确定参数θ服从分布概率密度函数p(θ)，函数关系g_j在仿真时可由历史经验数据或模型仿真获得。

协同分配模型目的是求解决策矩阵x(0-1变量集合)，x_ij＝1表示分配无人机i对目标j执行任务，定义如下：

每个无人机由于性能和携带载荷的限制能够执行的任务个数有限，即每个无人机最多能够执行L_i个任务，每个无人机维护以下数据信息结构：

(1)任务束集(Bundle):其中b_in是竞拍到的目标，表示无人机i竞拍得到的第n个任务的序号。

(3)执行时间集(Time):τ_in∈R₊表示无人机i根据任务时序集P_i到达任务区执行任务p_in的执行时间。

(4)赢家集(Winning Uavs):其中元素z_in表示无人机i与其所有邻接无人机通过信息交互所获得的关于任务j的赢家信息，即当前时刻无人机z_in对任务j出价最高成为赢家。若当前尚未有无人机竞拍到任务j，则z_i＝φ。

(5)赢家出价集(Winning Bids):其中元素y_in∈R₊，用来表示当前时刻各无人机对任务j竞拍时的最大出价值，若当前尚未有无人机竞拍到任务j，则y_in＝0。

(6)时间戳集(Time Stamps):时间戳为其中元素s_in∈R₊，用来表示无人机i与其邻接无人机之间的最近一次信息交互时间。

步骤2：任务束构建

已知无人机i(i＝1,2...,N_a)和目标j(j＝1,2...,N_t)的位置矢量、目标j任务T_j的价值和时间窗，可按照Step2.1到Step2.4来构造信息结构B_i,P_i,τ_i：

Step2.1：从j＝1循环迭代到j＝N_t，若执行Step2.2到Step2.6，否则j自增；

Step2.2：对于任务时序集P_i的每一个位置k＝1到k＝LP_i(LP_i为无人机i的任务时序集里已经出价的任务个数)，检测加入新任务T_j的可能性，若满足可能性转入Step2.3；

Step2.3：求T_j插在P_i的位置k竞拍出价的边际收益c_ij-P_ik：

Step2.3.1:根据已知不确定参数θ[θ₁,θ₂]的参数空间及分布概率密度函数p(θ)，产生N个样本形成样本集，每个样本包含θ[θ₁,θ₂]和对应的f(θ)形成的有序对(θ,f(θ))。

其中，f(θ)为θ的具体取值下加入新任务T_j并插在P_i的位置k的优化任务束总收益。

样本集分为训练集S和未采样样本集U(样本池)，训练集S样本的f(θ)已通过计算获得，未采样样本集U的f(θ)未知。

随机选取s个样本转入Step2.3.2计算f(θ)，构造初始训练集；

Step2.3.2:求需要采样的样本θ_k对应的优化收益f(θ_k)：

(4)对于任务时序集中的每个任务T_l∈P_i，任务T_l的执行时长可由步骤1计算出；

(5)计算P_i对应的优化执行时间τ_i ^*：

(6)求f(θ_k):

Step2.3.3:利用MPGR方法初步筛选U，产生稀疏子集Ls：

(2)n＝1，计算图G中每个节点的度d(p)：

其中，W_pq为节点p与邻居节点q的连接边权值，计算如下：

其中，x_p,x_q是节点p,q的位置矢量，t是一个可调参数，η是所有节点的最邻近距离的平均值。

(3)选出度指标最高的节点p^*加入Ls，并从图G剔除p^*及p^*的连接边：

Step2.3.4:通过训练集S训练高斯过程模型GPR：

J_θ＝J(θ) (2-6)

其中，J为输入不确定参数θ和输出收益J_θ之间的映射关系，高斯过程可表示如下：

J(θ)＝GP(m(θ),k(θ,θ')) (2-7)

其中，均值m(θ)和协方差k(θ,θ')的计算如下：

m(θ)＝E_θ[J(θ)] (2-8)

k(θ,θ')＝E_θ[(J(θ)-m(θ))(J(θ')-m(θ'))] (2-9)

Step2.3.5:从Ls中同时选取Ns个样本加入训练集：

(5)对于每个样本θ_*∈U，转入(2)进行GPR预测；

(6)求预测收益分

其中，均值μ(θ_*)和方差∑(θ_*)的计算如下：

μ(θ_*)＝k(θ_*,θ_S)K^-1J(θ_S) (2-11)

K＝k(θ_S,θ_S) (2-12)

其中，α和Λ为高斯训练过程的超参数。

(7)选取最高评价值的Ns个样本加入训练集S，并从U中剔除：

(8)若训练集规模已经达到要求，则转入Step2.3.6，否则转入2.3.2。

Step2.3.6:计算期望收益分：

(2)概率归一化：

(7)计算期望收益分：

其中，为无人机i增加该任务前任务束的总收益。

Step2.4：从c_ij-P_ik(k＝1to LP_i)中选出边际收益最大的插入位置P_iG作为该任务插入到P_i中的最优时序。若c_ij-P_ik大于赢家出价集y_ij，存储c_ij-P_iG和P_iG到无人机i的出价集和插入时序集代表出价过程，否则任务束构建过程结束；

Step2.5：从C_i中选择边际收益最大的任务作为新加任务，更新无人机i的信息结构：

Step2.6：若无人机的任务束已经溢出，则任务束构建过程结束，更新分配时间标记t_ip；

步骤3：收敛判断

无人机i进行收敛判断，若T_ip-t_ip≥N_u，N_u为通信网络直径，则无人机i的分配信息已经保持N_u通信循环不变，若所有无人机的分配信息已经保持不变，则编队达到分配结果一致状态，算法结束；

步骤4：一致性协商

各无人机之间进行同步通信，共享z_i,y_i并更新分配时间标记T_ip，若无人机i接收到邻接无人机l分配的信息后，对目标j的任务T_j，信息更新行动规则如下：

(1)更新：把y_lj赋值给y_ij，把z_lj赋值给z_ij；

(2)重置：y_ij置为0，z_ij置为空；

(3)离开：y_ij、z_ij保持不变；

无人机相互通信时，信息更新行动规则的选择遵照Ponda的博士论文"RobustDistributed Planning Strategies for Autonomous Multi-Agent Teams"。

步骤5：任务束更新

各无人机经过一致性协商-竞标过程后，无人机i需要更新B_i,P_i：

对于任务T_l∈B_i，若则需要从任务束中剔除该任务T_l及B_i中位于该任务后加入的任务；

步骤6：目标优化函数

协同任务分配的目标是一个数学优化的问题，优化的目标函数如下：

在分布式架构中进行任务分配算法的求解有着计算效率高、鲁棒性好的优点。通过步骤1建立协同任务分配模型，各无人机进行自己的任务束更新、构建，然后无人机编队进行一致性协商，即循环地进行步骤2、步骤3、步骤4和步骤5，从而能够实现不确定参数下最大化整体收益的目标。优化得到的决策矩阵x即任务分配结果，每个无人机维护的任务束集即其需要执行的任务，每个无人机维护的任务时序集即其需要执行任务的时序。

仿真环境为：Intel 2.8GHz，16GB内存的PC机，Windows10操作系统，Matlab2018a平台。

本发明考虑的是二维地图模型，高度已知，坐标系为平面坐标系。我方5架无人机需要对所处任务区的10个目标执行救援任务，无人机及目标的位置信息、每个任务的时间窗已知，任务区的大小为200m×200m，任务区的环境参数θ[θ₁,θ₂]为二维参数。已知环境参数θ的分布规律，θ的分布概率密度为二维高斯分布N(0,0,10,10,0.5)，θ₁和θ₂的范围都为[-10,10]。无人机之间的通信网络为全联通，即任意两个无人机之间都能直接通信。无人机信息和任务的信息想定设置如表1、表2，任务的执行时长t_j-dur的分布区间为[5s,35s]。

表1无人机信息设置

无人机编号	位置-x坐标(m)	位置-y坐标(m)	速度(m/s)
				1	85.0525	77.9491	40
2	118.0923	120.9481	40
				3	155.9565	160.6404	40
4	165.9341	130.5056	40
				5	49.9302	176.8730	40

表2任务信息设置

任务编号	位置-x坐标(m)	位置-y坐标(m)	价值	时间窗
					1	32.4941	128.3280	100	[52.5267，67.5267]
2	87.2405	60.3000	100	[49.4403，64.4403]
					3	82.0714	174.4128	100	[26.4259，41.4259]
4	163.6574	189.7652	100	[71.4393，86.4393]
					5	36.9334	139.6231	100	[68.4607，83.4607]
6	96.7491	132.4938	100	[19.0188，34.0188]
					7	140.8701	142.9773	100	[54.3866，69.3866]
8	62.8865	72.7097	100	[90.9289，105.9289]
					9	131.5797	159.6733	100	[48.5313，63.5313]
10	63.4772	120.4895	100	[71.5786，86.5786]

步骤1：不确定参数下多无人机时敏任务的协同分配模型

无人机编队由N_a＝5个无人机组成，所有无人机均是同一类型。任务执行区域内有N_t＝10个目标，无人机编队要对每个目标执行时敏任务，每个时敏任务的执行时间为t_j(j＝1,2...,N_t)，其时间窗约束如下：

ET_j≤t_j≤LT_j (1-1)

其中，ET_j为目标j任务的最早允许开始执行时间，LT_j为目标j任务的最晚允许开始执行时间。本实例中，时间窗的设置如表2所示。时敏任务的执行必须要满足时间窗约束，即在时间窗内执行会取得收益，在时间窗之外执行则会被认为执行失败没有收益。

其中，V_j为目标j的价值，λ为指数折扣收益模型的递减因子(取值范围为[0,1])，α为距离代价的惩罚因子(取值范围为[0,1])，L_ij为无人机i与目标j的欧式距离。本实例中取λ＝0.1,α＝1，欧式距离的计算则利用表1和表2提供的位置信息。

t_j-dur＝g_j(θ) (1-3)

本实例中，设定不确定参数θ对各任务执行时长的影响是相同的，函数关系简单抽象为：

步骤2：任务束构建

Step2.3：求T_j插在P_i的位置k竞拍出价的边际收益c_ij-P_ik：

随机选取s个样本转入Step2.3.2计算f(θ)，构造初始训练集；

Step2.3.2:求需要采样的样本θ_k对应的优化收益f(θ_k)：

(8)对于任务时序集中的每个任务T_l∈P_i，任务T_l的执行时长可由式(1-2)计算出；

(9)计算P_i对应的优化执行时间τ_i ^*：

(10)求f(θ_k):

Step2.3.3:利用MPGR方法初步筛选U，产生稀疏子集Ls：

(2)n＝1，计算图G中每个节点的度d(p)：

其中，W_pq为节点p与邻居节点q的连接边权值，计算如下：

Step2.3.4:通过训练集S训练高斯过程模型GPR：

J_θ＝J(θ) (2-6)

J(θ)＝GP(m(θ),k(θ,θ')) (2-7)

其中，均值m(θ)和协方差k(θ,θ')的计算如下：

m(θ)＝E_θ[J(θ)] (2-8)

k(θ,θ')＝E_θ[(J(θ)-m(θ))(J(θ')-m(θ'))] (2-9)

Step2.3.5:从Ls中同时选取Ns个样本加入训练集：

(9)对于每个样本θ_*∈U，转入(2)进行GPR预测；

(10)求预测收益分

其中，均值μ(θ*)和方差∑(θ_*)的计算如下：

μ(θ_*)＝k(θ_*,θ_S)K^-1J(θ_S) (2-11)

K＝k(θ_S,θ_S) (2-12)

其中，α和Λ为高斯训练过程的超参数。

(11)选取最高评价值的Ns个样本加入训练集S，并从U中剔除：

(12)若训练集规模已经达到要求，则转入Step2.3.6，否则转入2.3.2。

Step2.3.6:计算期望收益分：

(2)概率归一化：

(11)计算期望收益分：

其中，为无人机i增加该任务前任务束的总收益。

步骤3：收敛判断

步骤4：一致性协商

(1)更新：把y_lj赋值给y_ij，把z_lj赋值给z_ij；

(2)重置：y_ij置为0，z_ij置为空；

(3)离开：y_ij、z_ij保持不变；

步骤5：任务束更新

步骤6：目标优化函数

图2是本发明实例的任务分配结果，5个无人机通过进行任务分配过程得到了一致的任务分配结果。A代表无人机，T代表任务。

A1→T2→T8；A2→T6→T10；A3→T7；A4→T9；A5→T3→T5

图3是采用基本CBBA方法的任务分配结果，其中的任务执行时长采用任务时长的均值计算。

对比图2和图3，可以看出2号无人机由于考虑了任务的不确定执行时长采用期望值的收益计算方法没有竞标到9号任务，由4号无人机去执行9号任务。这是因为，6号任务执行时长的延长可能会导致后继的9号任务的执行时间延迟，甚至延迟到9号任务的时间窗以外，造成执行失败。图3过程得到的任务总收益分为585.3，图2过程得到的任务总收益分为540.5。虽然分配得到的总任务收益分降低了，但实际执行过程中由于本实例耦合了不确定参数对任务收益分数的影响并将其加入到任务分配过程，得到的任务分配结果相比图3过程实际执行时具有更高的执行效率。

本实施实例中所采用的任务分配方法共调动步骤2.3来计算收益分959次，如果使用文献"Robust Distributed Planning Strategies for Autonomous Multi-AgentTeams"的蒙特卡洛抽样方法，每次需要进行10000次抽样来得到高精度的期望收益得分，而本发明每次仅需近似少量数目的抽样就能获得与蒙特卡洛方法同样精度的期望收益。虽然训练学习会带来时间代价的上升，但通过主动学习与流形学习的结合，在迭代的过程每次选择多个样本构造较优的训练集，可在保证近似精度不降低的前提下快速进行不确定参数整个空间的收益得分预测。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种不确定环境下的分布式多无人机任务分配方法，其特征在于包括下述步骤：

Step2.3，求T_j插在P_i的位置k竞拍出价的边际收益c_ij-P_ik：

随机选取s个样本转入Step2.3.2计算f(θ)，构造初始训练集；

Step2.3.2，求需要采样的样本θ_k对应的优化收益f(θ_k)：

(2)计算P_i对应的优化执行时间

(3)求

Step2.3.3，利用MPGR方法初步筛选U，产生稀疏子集Ls：

Step2.3.5，从Ls中同时选取Ns个样本加入训练集：

(1)对于每个样本θ_*∈U，转入(2)进行GPR预测；

μ(θ_*)＝k(θ_*,θ_S)K^-1J(θ_S)

K＝k(θ_S,θ_S)

其中，α和Λ为高斯训练过程的超参数；

(3)选取最高评价值的Ns个样本加入训练集S，并从U中剔除

Step2.3.6，计算期望收益分：

(2)概率归一化

(3)计算期望收益分其中，为无人机i增加该任务前任务束的总收益。

(1)更新：把y_lj赋值给y_ij，把z_lj赋值给z_ij；

(2)重置：y_ij置为0，z_ij置为空；

(3)离开：y_ij、z_ij保持不变；

步骤6，优化目标函数