CN111680934B

CN111680934B - 基于群体熵和q学习的无人机任务分配方法

Info

Publication number: CN111680934B
Application number: CN202010614975.9A
Authority: CN
Inventors: 方敏; 陈烨; 罗杰豪; 荆锐; 杨昊; 侯志杰; 丁献硕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-04-07
Anticipated expiration: 2040-06-30
Also published as: CN111680934A

Abstract

本发明提出了一种基于群体熵和Q学习的无人机任务分配方法，实现步骤为：初始化参数；根据无人机和任务的位置信息获取每个无人机的邻居无人机集合；确定敏感无人机和非敏感无人机；初始化细胞自动机自演化算法参数；获取演化结果，并采用群体熵去衡量每一轮演化的结果；从中选取最优的群体熵信息并根据该信息初始化Q学习中每个无人机的Q表；然后初始化Q学习参数无人机进行Q学习，最后获取无人机任务分配结果。本发明采用群体熵作先验值的方法加速Q学习收敛，并在Q学习过程中充分考虑了全局信息和局部信息，提高算法的学习效率，在保证无人机任务分配结果可靠性的基础上，提升无人机任务分配的收敛速度。

Description

基于群体熵和Q学习的无人机任务分配方法

技术领域

本发明属于无人机任务分配技术领域，涉及一种无人机任务分配方法，特别涉及一种基于群体熵和Q学习的无人机任务分配方法，可用于无人机探测任务分配。

背景技术

由于无人机价格低，体积小，油耗低，机动性强的特点，无人机任务分配常被应用于环境检测和地理测绘等场景。无人机任务分配问题可以描述为场景中多个无人机去执行多个任务，每个任务需要无人机提供相应执行量且该执行量随无人机至任务的距离而衰减，目的是寻找一种有效合理的分配方案将任务分配给不同的无人机，使所有任务均得到其所需执行量。无人机任务分配的难点是随无人机数量的增长，问题规模成指数型增长，寻找最优结果困难。无人机任务分配主要基于启发式算法进行求解，典型算法为遗传算法、蚁群算法、粒子群算法等。

相比于其他算法，粒子群算法具有更好的全局收敛性，例如申请公布号为CN108876086A，名称为“一种基于粒子群算法的无人机任务分配方法”的专利申请，利用粒子群算法解决无人机任务分配问题。该方法首先设置微粒种群规模、惯性权值、最大允许迭代次数，然后针对每个微粒生成随机的初始无人机和任务的配对，并计算出目标评价函数，接着找出个体及群体的最优值，更新各个粒子，再根据粒子群优化算法，更新遍历全部粒子，保留最优微粒。该方法采用整形线性规划方法构造最优函数，并利用粒子群算法寻找最优解，具有全局收敛能力，所有任务均能得到其所需执行量。该方法的缺点在于，过分寻求全局最优结果，容易陷入局部最优收敛，导致任务分配的收敛速度较慢。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于群体熵和Q学习的无人机任务分配方法，旨在保证所有任务均得到其所需执行量基础上提高任务分配的收敛速度。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)初始化参数：

初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta＝{ta₁,ta₂,...,ta_i,...ta_m}，无人机集合为A＝{a₁,a₂,...,a_j,...,a_n}，第j个无人机a_j的状态C_j＝{c_1,j,c_2,j,...,c_i,j,...c_m,j}，其中，ta_i表示第i个任务，m表示任务的总数，m≥2，n表示无人机的总数，n≥1，c_i,j表示a_j对第i个任务的状态，c_i,j＝0表示不执行，c_i,j＝1表示执行；

(2)确定每个无人机a_j的邻居：

通过A中各无人机的在空间区域内的位置坐标，计算每个无人机a_j与其他n-1个无人机a_w的距离ds_j,w，并将a_w中ds_j,w小于预设的通信距离L的无人机作为a_j的邻居，得到a_j的邻居无人机集合

则A的邻居无人机集合为

NEI＝{Ne¹,Ne²,...,Ne^j,...,Neⁿ}，

其中，

表示a_j的第h个邻居，j_num为a_j的邻居数量；

(3)确定敏感无人机和非敏感无人机：

(3a)计算A中每个无人机a_j与Ta中每个待执行任务ta_i之间的距离d_i,j，得到距离集合DD＝{D₁,D₂,...,D_j,...,D_n}，其中D_j表示无人机a_j与Ta中每个待执行任务之间的距离集合，D_j＝{d_1,j,d_2,j,...,d_i,j,...,d_m,j}；

(3b)将A中D_j小于预设通信距离L的n^*个无人机组成敏感无人机集合

将其余n-n^*个无人机组成非敏感无人机集合

其中，a_by表示第y个敏感无人机，a_cx表示第x个非敏感无人机，n^**表示非敏感无人机的数量，n^**＝n-n^*；

(4)每个敏感无人机a_by选择任务并执行：

每个敏感无人机a_by选择与Ta中每个待执行任务之间的距离集合D_by中数值最小的任务

作为当前任务并执行；

(5)初始化细胞自动机自演化算法参数：

初始化执行次数t，最大执行次数为T，T≥5，最优群体熵EB，第t次执行中a_cx对所有任务的状态集C_x(t)＝{c_1,x(t),c_2,x(t),...,c_i,x(t),...c_m,x(t)}，其中c_i,x(t)表示第t次执行中a_cx对ta_i的状态，并令t＝1，c_i,x(t)＝0，EB＝1000；

(6)获取离散信息熵表LS：

(6a)计算无人机集合A的群体熵值group_entropy：

其中E_j(x)表示a_j的离散信息熵，p(x_ij)表示a_j执行ta_i的概率；

(6b)判断EB≥group_entropy是否成立，若是，令EB＝group_entropy，并用离散信息熵表LS记录p(x_ij)，否则EB不变；

(6c)判断t＝T是否成立，若是，得到离散信息熵表LS，否则，令t＝t+1并计算a_cx对ta_i的状态c_i,x(t)，然后执行步骤(6a)，其中c_i,x(t)的计算公式为：

where

其中，λ₁＝1表示a_cx的邻居中存在执行ta_i的敏感无人机，λ₁＝0表示a_cx的邻居中不存在执行ta_i的敏感无人机，λ₂＝1表示a_cx的邻居中执行ta_i的无人机数量大于门限值Num，λ₂＝0表示a_cx的邻居中执行ta_i的无人机数量小于等于门限值Num；

(7)利用离散信息熵表LS初始化每个无人机a_j的AQ_j表：

初始化大小为(m+1)×(m)的AQ_j表，并给AQ_j表中每个元素赋值：

其中，b和c分别表示AQ_j表中第b行第c列，p(x_cj)为离散信息熵表LS记录的值；

(8)获取无人机任务分配结果：

(8a)初始化迭代次数为k，最大迭代次数为K，K≥100，Q学习的学习率为α_k，探索判别值为ε_k，折扣率为γ_k，阈值常数为ε₀，收益最大值为RE，并令k＝1，a_j执行一次任务的执行量为

无人机a_j执行Ta中各任务的累计执行量集合E_j＝{E_1,j,E_2,j,...,E_i,j,...,E_m,j}，Ta中各任务需要的执行量集合E＝{e₁,e₂,...,e_i,...,e_m}，其中1＞α＞0，1＞ε＞0，1＞γ＞0，1＞ε₀＞0，RE≥100，E_i,j表示a_j对ta_i的累计执行量，E_i,j＝0，e_i表示ta_i需要的执行量，e_i＞0；

(8b)计算a_j对每个任务ta_s的转移概率

得到a_j对Ta的转移概率子集合

则A的转移概率集合为

其中：

其中δ，β，M为预设的调节因子；

(8c)将随机产生n个0到1之间的小数

组成的小数集合

作为A中每个a_j的探索值，并判断

是否成立，若是，执行步骤(8d)，否则，执行步骤(8e)；

(8d)a_j依据执行Ta中任务的概率

随机选择Ta中的ta_s执行，得到更新后的a_j的累计执行量E_s,j，并执行步骤(8f)，其中E_s,j更新公式为：

(8e)a_j依据累计执行量集合E_j和AQ_j表选择Ta中第π(r)个任务执行，得到更新后的a_j的累计执行量E_π(r),j，并执行步骤(8f)，其中π(r)的计算和E_π(r),j的更新公式分别为：

(8f)计算由无人机a_j从执行任务ta_r转到执行当前任务ta_z引起的回报值R_j(r,z)：

(8g)利用AQ表的更新公式，并通过回报值R_j(r,s)对AQ_j表进行更新，得到更新后的AQ_j表；

(8h)判断k＝K是否成立，若是，得到无人机任务分配结果：RE＝{Re₁,Re₂,...Re_i,...Re_m}，否则，令k＝k+1，对学习率α_k、折扣率γ_k、探索判别值ε_k进行更新，然后执行步骤(8b)，其中Re_i表示执行第i个任务的无人机集合，

p为执行第i个任务的无人机总数，α_k和γ_k的更新公式分别为：

η、λ为预设的调节因子。

本发明与现有技术相比，具有如下优点：

本发明在获取无人机任务分配结果时，采用细胞自动机自演化算法获取演化过程中最优群体熵信息，并通过最优群体熵信息对Q学习中每个无人机的Q表进行初始化，从而使无人机在Q学习迭代过程中有更高概率选取到最优的动作进行执行，然后计算无人机对每个任务的转移概率获取无人机对每个任务转移值，并将转移值最优任务作为执行的任务，获取执行任务后的回报值，再将所得回报值用于无人机的Q学习，以实现对无人机自身Q表的优化，充分考虑了全局信息和局部信息，避免了陷入局部优化的情况，与现有技术相比，在保证全局优化能力的基础上，有效提高了任务协同分配的收敛速度。

附图说明

图1本发明实现流程图。

图2本发明与现有技术收敛时间的仿真对比图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步的详细描述。

参照图1，本发明包括如下步骤：

步骤1)初始化无人机任务分配参数：

初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta＝{ta₁,ta₂,...,ta_i,...ta_m}，无人机集合为A＝{a₁,a₂,...,a_j,...,a_n}，第j个无人机a_j的状态C_j＝{c_1,j,c_2,j,...,c_i,j,...c_m,j}，其中，ta_i表示第i个任务，m表示任务的总数，m≥2，n表示无人机的总数，n≥1，c_i,j表示a_j对第i个任务的状态，c_i,j＝0表示不执行，c_i,j＝1表示执行，在任务分配前所有无人机都不执行任务，本实施例中，X＝800米，Y＝800米，Z＝800米，m＝10，n＝1000；

步骤2)确定每个无人机a_j的邻居，邻居指在无人机通信距离内的所有无人机，当无人机的状态发生变化，邻居的状态也很可能会随之发生变化；

通过A中各无人机的位置坐标，计算每个无人机a_j与其他n-1个无人机a_w的距离ds_j,w，并将a_w中ds_j,w小于预设的通信距离L的无人机作为无人机a_j的邻居，得到a_j的邻居无人机集合

则A的邻居无人机集合为

NEI＝{Ne¹,Ne²,...,Ne^j,...,Neⁿ}

其中ds_j,w计算公式为：

(x_j,y_j,z_j)表示无人机a_j在空间区域内的三维坐标,

表示a_j的第h个邻居，j_num为a_j的邻居数量，在本实施例中，通信距离L＝50米；

步骤3)确定敏感无人机和非敏感无人机，敏感无人机指最接近待执行任务的且直接选择任务进行执行的无人机，非敏感无人机指距离待执行任务较远的需要在细胞自动机算法中进行任务迭代分配的无人机：

(3a)通过A中各无人机a_j的位置坐标(x_j,y_j,z_j)和Ta中各任务ta_i的位置坐标(xt_i,yt_i,zt_i)，计算A中每个无人机a_j与Ta中每个待执行任务ta_i之间的距离d_i,j，得到距离集合DD＝{D₁,D₂,...,D_j,...,D_n}，其中，d_i,j的计算公式为：

D_j表示无人机a_j与Ta中每个待执行任务之间的距离集合，D_j＝{d_1,j,d_2,j,...,d_i,j,...,d_m,j}；

(3b)将A中D_j小于预设通信距离L的n*个无人机组成敏感无人机集合

将其余n-n^*个无人机组成非敏感无人机集合

步骤4)由于敏感无人机的执行量会随着距离进行衰减，每个敏感无人机a_by选择距离其最近的任务执行，确保敏感无人机执行效果是最优的：

每个敏感无人机a_by选择其与Ta中每个待执行任务之间的距离集合D_by中数值最小的任务

作为当前任务进行执行，此时a_by对

的状态

其中

表示Ta中的第

个任务；

步骤5)初始化细胞自动机自演化算法参数：

初始化执行次数t，最大执行次数为T，T≥5，最优群体熵值EB，第t次执行中第x个非敏感无人机对所有任务的状态集C_x(t)＝{c_1,x(t),c_2,x(t),...,c_i,x(t),...c_m,x(t)}，其中c_i,x(t)表示第t次执行中a_cx对ta_i的状态，并令t＝1，c_i,x(t)＝c_i,x，EB＝1000；

步骤6)通过细胞自动机自演化算法对任务进行预分配并用群体熵评估每轮预分配的结果，以获取关于最优任务预分配结果的离散信息熵表LS：

(6a)计算无人机集合A的群体熵值group_entropy：

其中E_j(x)表示a_j的离散信息熵，p(x_ij)表示a_j执行ta_i的概率，概率由两部分组成，左式表示a_j邻域内执行任务的无人机数量占所有邻域内n个无人机的比例，右式则表示邻域内与ta_i最近的距离与d_i,j的比值，群体熵衡量了场景区域内n个无人机的执行任务的确定性程度，始终为正值，首次比较群体熵时，直接取初始值为最大值，即可以直接保留第一次的结果；

(6c)判断t＝T是否成立，若是，得到离散信息熵表LS，否则，令t＝t+1，并计算a_cx对ta_i的状态c_i,x(t)，然后执行步骤(6a)，其中c_i,x(t)的计算公式为：

where

其中，λ₁＝1表示a_cx的邻居中存在执行ta_i的敏感无人机，λ₁＝0表示a_cx的邻居中不存在执行ta_i的敏感无人机，λ₂＝1表示a_cx的邻居中执行ta_i的无人机数量大于门限值Num，λ₂＝0表示a_cx的邻居中执行ta_i的无人机数量小于等于门限值Num，该门限值表示平面区域中无人机的密度，密度越大，门限值越大；

步骤7)利用离散信息熵表LS初始化每个无人机a_j的AQ_j表，每个a_j维护自己的AQ_j表,其初始值包含了关于全局信息的群体熵信息，保证了方法全局优化能力并避免陷入局部最优，提高收敛速度：

初始化大小为(m+1)×(m)的AQ_j表，并给AQ_j表中每个元素赋值：

其中，b和c分别表示AQ_j表中第b行第c列，p(x_cj)为离散信息熵表LS记录的值，当1≤b≤m且1≤c≤m时，AQ_j(b,c)表示a_j执行任务ta_b转移执行任务ta_c的概率值，当b＝m+1且1≤c≤m时，AQ_j(b,c)表示无人机a_j从不执行任务到执行任务ta_c的概率值，p(x_cj)为离散信息熵表LS记录的值；

步骤8)通过Q学习算法获取无人机任务分配结果：

(8a)初始化迭代次数为k，最大迭代次数为K，K≥100，Q学习的学习率为α_k，探索率为ε_k，折扣率为γ_k，收益最大值为RE，a_j执行一次任务提供的执行量为

a_j执行各任务的累计执行量集合E_j＝{E_1,j,E_2,j,...,E_i,j,...,E_m,j}，任务所需执行量集合E＝{e₁,e₂,...,e_i,...,e_m}，并令k＝1，其中1＞α＞0，1＞ε＞0，1＞γ＞0，1＞ε₀＞0，RE≥100，E_i,j表示a_j对ta_i的累计执行量，E_i,j＝0，e_i表示ta_i需要的执行量，e_i＞0，在本实施例中，K＝1000，α_k＝0.999，γ_k＝0.1，ε_k＝1，RE＝100；

(8b)计算a_j对每个任务ta_s的转移概率

得到a_j对Ta的转移概率子集合

则A的转移概率集合为

其中：

其中δ，β，M为预设的调节因子，该式表示了a_j从执行任务ta_r向任务ta_s转移时，执行量与代价分别所占整体比重的乘积，即当执行量积累量越大其转移的概率越高，距离代价越小，转移的概率越高，在本实施例中，δ＝0.8，β＝0.2，M＝10；

(8c)将随机产生n个0到1之间的小数

组成的小数集合

作为A中每个a_j的探索值，并判断

是否成立，若是，执行步骤(8d)，否则，执行步骤(8e)；

(8d)a_j依据执行Ta中任务的概率

随机选择Ta中的ta_s作为当前任务并执行，得到更新后的a_j的累计执行量E_s,j，并执行步骤(8f)，其中E_s,j更新公式为：

τ为预设常数，1＞τ＞0，d_s,j表示a_j到任务ta_s的距离；

(8e)a_j依据累计执行量集合E_j和AQ_j表选择Ta中第π(r)个任务作为当前任务并执行，得到更新后的a_j的累计执行量E_π(r),j，并执行步骤(8f)，其中π(r)的计算和E_π(r),j的更新公式分别为：

d_π(r),j表示a_j到任务ta_π(r)的距离；

其中，R_j(r,z)表示用无人机a_j从执行任务ta_r转向执行ta_z后，执行量差值乘积的倒数，若二者相等，说明此次转移无收益，若执行量差值均变小，则回报越大，若一个变为0，则减少一个分母，增大回报量，当均变为0时，说明该转移动作收益最大，取收益最大值RE，回报值R(r,z)不仅考虑到了当前动作产生的局部收益，还考虑到了所有任务执行的全局收益；

(8g)利用AQ表的更新公式，通过(8f)中得到的回报值R(r,z)更新a_j本次学习后的AQ_j表，得到更新后的AQ_j表，由于回报值R(r,z)同时包含全局信息与局部信息，保证了方法的全局优化能力，并避免陷入局部最优，其中AQ_j表更新公式为：

其中，J(z)表示无人机a_i执行任务ta_z时下可选的目标任务集合，该目标任务集合可以表示为a_j的邻居所执行的任务集合；

(8h)判断k＝K是否成立，若是，得到无人机任务分配结果：

RE＝{Re₁,Re₂,...Re_i,...Re_m}，否则，令k＝k+1，对学习率α_k、折扣率γ_k、探索判别值ε_k进行更新，然后执行步骤(8b)，其中Re_i表示执行第i个任务的无人机集合，

p为执行第i个任务的无人机总数，α_k、γ_k和ε_k的计算公式分别为：

ε_k＝ε_k-1·C

η、λ和C为预设的调节因子，本实施例中，μ＝0.998，λ＝0.8，C＝0.998。

下面结合仿真实验，对本发明的技术效果作进一步的说明。

1.仿真条件和内容：

实验运行的环境：操作系统为Microsoft windows 10，编程仿真语言为matlab。实验使用了五个不同的场景，每个场景除任务和无人机分布位置不同外其余均相同，收敛时间为50次独立试验后求均值结果。

对本发明与现有的一种基于粒子群算法的无人机任务分配方法的收敛时间进行对比仿真，其结果如图2所示。

2.仿真结果分析：

参照图2，图2对比了本发明与一种基于粒子群算法的无人机任务分配方法的平均收敛时间，横坐标为五个不同场景，纵坐标为全部任务达到收敛的平均时间，在第一个场景中，本发明的平均收敛时间为107.6625秒，一种基于粒子群算法的无人机任务分配方法的平均收敛时间为491.28秒，在第二个场景中，本发明的平均收敛时间为89.575秒，一种基于粒子群算法的无人机任务分配方法的平均收敛时间为580.15秒，在第三个场景中，本发明的平均收敛时间为92.3953秒，一种基于粒子群算法的无人机任务分配方法的平均收敛时间为413.48秒，在第四个场景中，本发明的平均收敛时间为94.6563秒，一种基于粒子群算法的无人机任务分配方法的平均收敛时间为526秒，在第五个场景中，本发明的平均收敛时间为96.1531秒，一种基于粒子群算法的无人机任务分配方法的平均收敛时间为535.53秒，根据上述对比，可以看到本发明在收敛速度上具有绝对优势，相比于一种基于粒子群算法的无人机任务分配方法，本发明收敛速度提高了两倍以上。实验结果表明，本发明可以有效提升无人机任务分配的收敛速度。