CN111736461B

CN111736461B - 基于q学习的无人机任务协同分配方法

Info

Publication number: CN111736461B
Application number: CN202010612864.4A
Authority: CN
Inventors: 方敏; 陈烨; 刘玉阳; 刘冀川; 赵研; 郑光勇; 柳始良
Original assignee: Xidian University; CETC 54 Research Institute
Current assignee: Xidian University; CETC 54 Research Institute
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-05-04
Anticipated expiration: 2040-06-30
Also published as: CN111736461A

Abstract

本发明提出了一种基于Q学习的无人机任务协同分配方法，实现步骤为：初始化参数；根据无人机及任务的位置信息获取每个无人机的邻居无人机集合；确定敏感无人机和间接无人机；然后每个敏感无人机执行任务并向其邻居无人机发送通信包；根据通信包获取每个间接无人机的Q表；再初始化Q学习参数；间接无人机进行Q学习，最后获取无人机任务协同分配结果。本发明在无人机的Q学习过程中充分考虑了全局信息和局部信息，实现了对无人机自身Q表的优化，在保证所有任务均得到其所需执行量基础上有效提高了任务分配的收敛速度。

Description

基于Q学习的无人机任务协同分配方法

技术领域

本发明属于无人机任务分配技术领域，涉及一种无人机任务协同分配方法，具体涉及一种基于Q学习的无人机任务协同分配方法，可用于无人机探测任务分配。

背景技术

由于无人机成本低、安全度高的特点，无人机任务协同分配在民用中广泛应用于环境检测和地理测绘等场景。无人机任务协同分配问题可以描述为场景中多个无人机去执行多个任务，每个任务需要无人机提供相应执行量且该执行量随无人机至任务的距离而衰减，目的是寻找一种有效合理的分配方案将任务分配给不同的无人机，使所有任务均得到其所需执行量。无人机任务协同分配的难点是随无人机数量的增长，问题规模成指数型增长，寻找最优结果困难。无人机任务协同分配主要基于启发式算法进行求解，典型算法为遗传算法、蚁群算法、粒子群算法等。

相对于其他启发式算法，粒子群算法具有更好的全局收敛性，例如申请公布号为CN108876086A，名称为“一种基于粒子群算法的无人机任务分配方法”的专利申请，利用粒子群算法解决无人机任务分配问题。该方法首先设置微粒种群规模、惯性权值、最大允许迭代次数，然后针对每个微粒生成随机的初始无人机和任务的配对，并计算出目标评价函数，接着找出个体及群体的最优值，更新各个粒子，再根据粒子群优化算法，更新遍历全部粒子，保留最优微粒。该方法采用整形线性规划方法构造最优函数，并利用粒子群算法寻找最优解，具有全局收敛能力，所有任务均能得到其所需执行量。该方法的缺点在于，过分寻求全局最优结果，容易陷入局部最优收敛，导致任务分配的收敛速度较慢。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于Q学习的无人机任务协同分配方法，旨在保证所有任务均得到其所需执行量基础上提高任务分配的收敛速度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)初始化参数：

初始化大小为X·Y·Z的空间场景中待执行任务集合为T＝{t₁,t₂,...,t_i,...,t_m}，能执行T中任务的无人机集合为At＝{at₁,at₂,...,at_j,...,at_n}，任务所需执行量集合E＝{e₁,e₂,...,e_i,...,e_m}，其中，t_i表示第i个任务，m表示任务总数，m＞0，at_j表示第j个无人机，n表示无人机总数，n＞0，e_i表示任务t_i需要的总执行量；

(2)获取每个无人机at_j的邻居无人机集合：

通过空间场景中每个无人机at_j的位置坐标，计算at_j与其他n-1个无人机at_w的距离ds_jw，并将at_w中ds_jw小于预设的通信距离阈值max_pass的无人机作为at_j的邻居，得到at_j的邻居无人机子集合

则At的邻居无人机集合为NEI＝{Ne¹,...,Ne^j,...,Neⁿ}，其中，w∈n，w≠j，max_pass＞0，

表示at_j的第h个邻居，j_num为at_j的邻居数量；

(3)确定敏感无人机和间接无人机：

(3a)通过空间场景中每个无人机at_j与每个任务t_i的位置坐标，计算at_j与t_i间的距离bs_ji，得到距离集合BIS＝{Bs¹,...,Bs^j,...,Bsⁿ}，其中，Bs^j表示at_j与m个任务的距离子集合，Bs^j＝{bs_j1,...,bs_ji,...,bs_jm}，bis_ji＞0；

(3b)将At中Bs^j小于预设的距离阈值L的n^**个无人机作为敏感无人机

其余n-n^**个无人机作为间接无人机

则每个敏感无人机at_by与m个任务的距离子集合为Bs^by，每个间接无人机at_cx与m个任务的距离子集合为Bs^cx，其中，L＞0，at_by表示第y个敏感无人机，n^**表示敏感无人机的数量，at_cx表示第x个间接无人机，n^*表示间接无人机的数量，n^*＝n-n^**；

(4)每个敏感无人机at_by向其邻居无人机发送通信包：

(4a)每个敏感无人机at_by选择其与m个任务的距离子集合Bs^by中数值最小的任务

作为当前执行任务，并计算at_by经过Bs^by衰减后具有的对

施加执行量

再将

更新为

将

更新为

其中，

表示T中第

个任务；

(4b)将

作为通信包任务pa_by、当前时间作为通信包发送时间time_by，并将pa_by和time_by构成at_by的通信包pack_by发送至Ne^by中的邻居无人机；

(5)获取每个间接无人机at_cx的Q表：

(5a)at_cx计算经过其与m个任务的距离子集合Bs^cx衰减后能对T中每个任务t_i施加的执行量

得到at_cx的执行量子集合

则At的执行量集合

(5b)at_cx判断是否接收到通信包，若是，选择最新发送时间time_bst对应的通信包pack_bst，令at_cx的当前执行任务

并更新e_r为

否则，令

其中，

表示T中第r个任务；

(5c)at_cx计算对每个任务t_i的累计执行量

得到at_cx对T的累计执行量集合

则C对T的累计执行量集合为

其中：

(5d)初始化大小为(m+1)×m的

表，并给

表中每个元素赋值，得到at_cx的Q表

其中，

表示

中第ca行第cb列元素；

(6)初始化Q学习参数：

初始化迭代次数k，最大迭代次数K，K≥100，学习率α_k，折扣率γ_k，探索判别值ε_k，1＞α_k＞0，1＞γ_k＞0，1＞ε_k＞0，并令k＝1；

(7)获取无人机任务协同分配结果：

(7a)每个间接无人机at_cx选择最新发送时间time_bst对应的通信包pack_bst，得到与pa_bst对应的任务标号ρ，并更新

为

再通过

计算at_cx对每个任务t_s的转移概率

得到at_cx对应m个任务的概率子集合

则C的转移概率集合为

其中：

1＞δ＞0，1＞β＞0，M＞0；

(7b)将随机产生cn^*个0到1之间的小数ε_cx←random(0,1)组成的小数集合

作为C中每个at_cx的探索值，并判断

是否成立，若是，执行步骤(7c)，否则，执行步骤(7d)；

(7c)根据at_cx对每个任务t_s的转移概率

随机选取T中一个任务作为at_cx的待执行的任务

其中

表示T中第ne个任务；

(7d)根据at_cx对每个任务t_s的转移概率

计算at_cx对每个任务t_s的转移值

得到at_cx对应m个任务的转移值子集合

则C的转移值集合为

并将

中最大转移值对应的任务作为at_cx待执行的任务

其中：

η＞0，

表示T中第ne个任务；

(7e)将At中执行t_i的无人机构成集合

并通过FA^k以及Ex^cx中与

对应的

计算at_cx的回报值

其中，

表示执行t_i的所有无人机的集合，

表示At中第z个执行t_i的无人机，vgⁱ表示执行t_i的无人机数量，

表示立即回报值，

表示延时回报值，Max＞0；

(7f)通过

对应的

将e_ne更新为

将

更新为

通过

对应的

将e_r更新为

并判断

是否成立，若是，at_cx不与Nei^cx中的无人机通信，否则，将

作为通信包任务pa_cx，将当前时间作为通信包发送时间time_cx，并将pa_cx和time_cx构成at_cx的通信包pack_cx发送至Ne^cx中的邻居无人机；

(7g)每个at_cx利用Q学习公式，通过

和

计算执行任务

后

表，并通过

将

更新为

(7h)判断k＝K是否成立，若是，将与

相同的at_ω组合成执行每个任务t_i的无人机集合

则执行T的无人机集合TC＝{TN₁,...,TN_i,...,TN_m}，否则，令k＝k+1，计算学习率α_k、折扣率γ_k和探索判别值ε_k，并执行步骤(7a)，其中，

表示第ζ个执行t_i的无人机，La_i表示执行t_i的无人机数量，α_k和γ_k的计算公式分别为：

本发明与现有技术相比，具有如下优点：

本发明在获取无人机任务协同分配结果时，通过计算无人机对每个任务的转移概率获取无人机对每个任务转移值，并将转移值最优任务作为执行的任务，然后获取执行任务后的回报值，再将所得回报值用于无人机的Q学习，以实现对无人机自身Q表的优化，充分考虑了全局信息和局部信息，避免了陷入局部最优的情况，与现有技术相比，在保证全局优化能力的基础上，有效提高了任务协同分配的收敛速度。

附图说明

图1本发明实现流程图。

图2本发明与现有技术收敛时间的仿真对比图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)初始化参数：

初始化大小为X·Y·Z的空间场景中待执行任务集合为T＝{t₁,t₂,...,t_i,...,t_m}，能执行T中任务的无人机集合为At＝{at₁,at₂,...,at_j,...,at_n}，每个任务需要无人机提供相应执行量，任务所需执行量集合E＝{e₁,e₂,...,e_i,...,e_m}，其中，t_i表示第i个任务，m表示任务总数，m＞0，at_j表示第j个无人机，n表示无人机总数，n＞0，e_i表示任务t_i需要的总执行量，本实施例中，X＝800米，Y＝800米，Z＝800米，m＝10，n＝1000；

步骤2)获取每个无人机at_j的邻居无人机集合：

则At的邻居无人机集合为NEI＝{Ne¹,...,Ne^j,...,Neⁿ}，其中：

表示at_j在空间场景中的三维坐标，

表示at_w在空间场景中的三维坐标，

w∈n，w≠j，max_pass＞0，

表示at_j的第h个邻居，j_num为at_j的邻居数量，本实施例中，max_pass＝50米；

步骤3)确定敏感无人机和间接无人机：

(3a)通过空间场景中每个无人机at_j与每个任务t_i的位置坐标，计算at_j与t_i间的距离bs_ji，得到距离集合BIS＝{Bs¹,...,Bs^j,...,Bsⁿ}，其中：

表示t_i在空间中的三维坐标，

Bs^j表示at_j与m个任务的距离子集合，Bs^j＝{bs_j1,...,bs_ji,...,bs_jm}，bis_ji＞0；

其余n-n^**个无人机作为间接无人机

则每个敏感无人机at_by与m个任务的距离子集合为Bs^by，每个间接无人机at_cx与m个任务的距离子集合为Bs^cx，其中，L＞0，at_by表示第y个敏感无人机，n^**表示敏感无人机的数量，at_cx表示第x个间接无人机，n^*表示间接无人机的数量，n^*＝n-n^**，at_by的邻居无人机集合为Ne^by，at_cx的邻居智能体集合为Ne^cx，本实施例中，L＝80米；

步骤4)每个敏感无人机at_by向其邻居无人机发送通信包：

作为当前执行任务，并计算at_by经过Bs^by衰减后具有的对

施加执行量

再将

更新为

将

更新为

其中：

ab为At中无人机的执行量，1＞τ＞0，

表示T中第

个任务；

(4b)将

步骤5)获取每个间接无人机at_cx的

表，at_cx接收其邻居无人机集合中的敏感无人机发送的通信包，并将通信包中所含信息用于初始化at_cx的

表，从而实现at_cx与其Ne^cx集合中敏感无人机的局部协同，避免方法陷入局部最优，提高收敛速度：

得到at_cx的执行量子集合

则At的执行量

并更新e_r为

否则，令

其中，

表示T中第r个任务，；

(5c)at_cx计算对每个任务t_i的累计执行量

得到at_cx对T的累计执行量集合

则C对T的累计执行量集合为

其中：

(5d)初始化大小为(m+1)×m的

表，并给

表中每个元素赋值，得到at_cx的Q表

其中，

表示

中第ca行第cb列元素；

步骤6)初始化Q学习参数：

初始化迭代次数k，最大迭代次数K，K≥100，学习率α_k，折扣率γ_k，探索判别值ε_k，1＞α_k＞0，1＞γ_k＞0，1＞ε_k＞0，并令k＝1，本实施例中，K＝1000，α_k＝0.999，γ_k＝0.1，ε_k＝1；

步骤7)获取无人机任务协同分配结果：

为

再通过

计算at_cx对每个任务t_s的转移概率

得到at_cx对应m个任务的概率子集合

则C的转移概率集合为

at_cx接收其邻居无人机发送的通信包，并将通信包中所含信息用于更新at_cx对各任务的累计执行量，实现at_cx与其Ne^cx中无人机的局部协同，同时将at_cx对各任务的累计执行量及距离代价作为全局信息，用于计算at_cx对每个任务的转移概率，使转移概率在at_cx选取新任务时产生诱导或抑制效果，从而保证方法全局优化能力并避免方法陷入局部最优，提高收敛速度，其中：

1＞δ＞0，1＞β＞0，M＞0，本实施例中，δ＝0.5，β＝0.5，M＝1；

作为C中每个at_cx的探索值，并判断

是否成立，若是，执行步骤(7c)，否则，执行步骤(7d)；

(7c)根据at_cx对每个任务t_s的转移概率

随机选取T中一个任务作为at_cx的待执行的任务

用转移概率集合

指导at_cx随机选择任务，使at_cx利用全局信息进行探索，从而保证方法全局优化能力，提高收敛速度，其中

表示T中第ne个任务；

(7d)根据at_cx对每个任务t_s的转移概率

计算at_cx对每个任务t_s的转移值

得到at_cx对应m个任务的转移值子集合

则C的转移值集合为

并将

中最大转移值对应的任务作为at_cx待执行的任务

at_cx利用转移概率

及自身

表计算对任务t_s转移值

使转移值综合评价

中的全局信息和

中的局部信息，并根据转移值选择最优任务执行，从而保证方法全局优化能力并避免陷入局部最优，提高收敛速度，其中：

η＞0，

表示T中第ne个任务，本实施例中，η＝0.5；

(7e)将At中执行t_i的无人机构成集合

并通过FA^k以及Ex^cx中与

对应的

计算at_cx的回报值

其中，

表示执行t_i的所有无人机的集合，

表示立即回报值，

表示延时回报值，Max＞0，立即回报值取决于无人机选择新任务后新旧任务执行量的改变，反映at_cx选择新任务的局部收益，延时回报值取决于全部任务的执行情况，反映at_cx选择新任务的全局收益，两者共同构成回报值，从而使回报值包含全局信息和局部信息，本实施例中，Max＝1；

(7f)通过

对应的

将e_ne更新为

将

更新为

通过

对应的

将e_r更新为

实现at_cx执行任务

并判断

是否成立，若是，at_cx不与Nei^cx中的无人机通信，否则，将

(7g)每个间接无人机at_cx利用Q学习公式，通过

和

计算执行任务

后

表，并通过

将

更新为

at_cx通过自身

表及所获取的回报值计算

回报值中的延时回报值使

拥有全局信息，同时结合本身

和即时回报值的局部信息，实现对

表优化，从而保证方法的全局优化能力，并避免陷入局部最优，提高收敛速度，其中：

(7h)判断k＝K是否成立，若是，将与

相同的at_ω组合成执行每个任务t_i的无人机集合

则执行T的无人机集合TC＝{TN₁,...,TN_i,...,TN_m}，否则，令k＝k+1，计算学习率α_k、折扣率γ_k和探索判别值ε_k，并执行步骤(7a)，令学习率随k值增大而减小，并令折扣率随任务所需执行量的减小而增大，使每个间接无人机at_cx计算

表时更多地考虑自身

表中的局部信息，从而增强方法在k值变大后的局部优化能力，提高收敛速度，其中，

表示第ζ个执行t_i的无人机，La_i表示执行t_i的无人机数量，α_k、γ_k和ε_k的计算公式分别为：

ε_k＝ε_k-1·V

1＞μ＞0，1＞λ＞0，1＞V＞0，本实施例中，μ＝0.998，λ＝0.8，V＝0.998。

下面结合仿真实验，对本发明的技术效果作进一步的说明。

1.仿真条件和内容：

实验运行的环境：操作系统为Microsoft windows 10，编程仿真语言为matlab。实验使用了五个不同的场景，每个场景除任务和无人机分布位置不同外其余均相同，收敛时间为50次独立试验后求均值结果。

对本发明与现有的一种基于粒子群算法的无人机任务分配方法的收敛时间进行对比仿真，其结果如图2所示。

2.仿真结果分析：

参照图2，图2对比了本发明与现有技术的平均收敛时间，横坐标为五个不同场景，纵坐标为无人机任务协同分配达到收敛的平均时间，在五个不同场景下，本发明的平均收敛时间分别为220.4382s、145.5698s、248.282s、125.9832s、175.6162s，现有技术的平均收敛时间为491.28s、580.15s、413.48s、526s、535.53s。本发明使用Q学习方法，综合考虑局部和全局信息，在保证全局优化的基础上避免陷入局部最优，起到加速作用。本发明在收敛速度上具有绝对优势，相对于现有技术提速一倍以上。实验结果表明，本发明可以有效提升无人机任务分配的收敛速度。