CN111680934B - 基于群体熵和q学习的无人机任务分配方法 - Google Patents

基于群体熵和q学习的无人机任务分配方法 Download PDF

Info

Publication number
CN111680934B
CN111680934B CN202010614975.9A CN202010614975A CN111680934B CN 111680934 B CN111680934 B CN 111680934B CN 202010614975 A CN202010614975 A CN 202010614975A CN 111680934 B CN111680934 B CN 111680934B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
task
execution
denotes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010614975.9A
Other languages
English (en)
Other versions
CN111680934A (zh
Inventor
方敏
陈烨
罗杰豪
荆锐
杨昊
侯志杰
丁献硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010614975.9A priority Critical patent/CN111680934B/zh
Publication of CN111680934A publication Critical patent/CN111680934A/zh
Application granted granted Critical
Publication of CN111680934B publication Critical patent/CN111680934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出了一种基于群体熵和Q学习的无人机任务分配方法,实现步骤为:初始化参数;根据无人机和任务的位置信息获取每个无人机的邻居无人机集合;确定敏感无人机和非敏感无人机;初始化细胞自动机自演化算法参数;获取演化结果,并采用群体熵去衡量每一轮演化的结果;从中选取最优的群体熵信息并根据该信息初始化Q学习中每个无人机的Q表;然后初始化Q学习参数无人机进行Q学习,最后获取无人机任务分配结果。本发明采用群体熵作先验值的方法加速Q学习收敛,并在Q学习过程中充分考虑了全局信息和局部信息,提高算法的学习效率,在保证无人机任务分配结果可靠性的基础上,提升无人机任务分配的收敛速度。

Description

基于群体熵和Q学习的无人机任务分配方法
技术领域
本发明属于无人机任务分配技术领域,涉及一种无人机任务分配方法,特别涉及一种基于群体熵和Q学习的无人机任务分配方法,可用于无人机探测任务分配。
背景技术
由于无人机价格低,体积小,油耗低,机动性强的特点,无人机任务分配常被应用于环境检测和地理测绘等场景。无人机任务分配问题可以描述为场景中多个无人机去执行多个任务,每个任务需要无人机提供相应执行量且该执行量随无人机至任务的距离而衰减,目的是寻找一种有效合理的分配方案将任务分配给不同的无人机,使所有任务均得到其所需执行量。无人机任务分配的难点是随无人机数量的增长,问题规模成指数型增长,寻找最优结果困难。无人机任务分配主要基于启发式算法进行求解,典型算法为遗传算法、蚁群算法、粒子群算法等。
相比于其他算法,粒子群算法具有更好的全局收敛性,例如申请公布号为CN108876086A,名称为“一种基于粒子群算法的无人机任务分配方法”的专利申请,利用粒子群算法解决无人机任务分配问题。该方法首先设置微粒种群规模、惯性权值、最大允许迭代次数,然后针对每个微粒生成随机的初始无人机和任务的配对,并计算出目标评价函数,接着找出个体及群体的最优值,更新各个粒子,再根据粒子群优化算法,更新遍历全部粒子,保留最优微粒。该方法采用整形线性规划方法构造最优函数,并利用粒子群算法寻找最优解,具有全局收敛能力,所有任务均能得到其所需执行量。该方法的缺点在于,过分寻求全局最优结果,容易陷入局部最优收敛,导致任务分配的收敛速度较慢。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于群体熵和Q学习的无人机任务分配方法,旨在保证所有任务均得到其所需执行量基础上提高任务分配的收敛速度。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)初始化参数:
初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta={ta1,ta2,...,tai,...tam},无人机集合为A={a1,a2,...,aj,...,an},第j个无人机aj的状态Cj={c1,j,c2,j,...,ci,j,...cm,j},其中,tai表示第i个任务,m表示任务的总数,m≥2,n表示无人机的总数,n≥1,ci,j表示aj对第i个任务的状态,ci,j=0表示不执行,ci,j=1表示执行;
(2)确定每个无人机aj的邻居:
通过A中各无人机的在空间区域内的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,并将aw中dsj,w小于预设的通信距离L的无人机作为aj的邻居,得到aj的邻居无人机集合
Figure BDA0002563430580000021
则A的邻居无人机集合为
NEI={Ne1,Ne2,...,Nej,...,Nen},
其中,
Figure BDA0002563430580000022
表示aj的第h个邻居,j_num为aj的邻居数量;
(3)确定敏感无人机和非敏感无人机:
(3a)计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,得到距离集合DD={D1,D2,...,Dj,...,Dn},其中Dj表示无人机aj与Ta中每个待执行任务之间的距离集合,Dj={d1,j,d2,j,...,di,j,...,dm,j};
(3b)将A中Dj小于预设通信距离L的n*个无人机组成敏感无人机集合
Figure BDA0002563430580000023
将其余n-n*个无人机组成非敏感无人机集合
Figure BDA0002563430580000024
其中,aby表示第y个敏感无人机,acx表示第x个非敏感无人机,n**表示非敏感无人机的数量,n**=n-n*
(4)每个敏感无人机aby选择任务并执行:
每个敏感无人机aby选择与Ta中每个待执行任务之间的距离集合Dby中数值最小的任务
Figure BDA0002563430580000034
作为当前任务并执行;
(5)初始化细胞自动机自演化算法参数:
初始化执行次数t,最大执行次数为T,T≥5,最优群体熵EB,第t次执行中acx对所有任务的状态集Cx(t)={c1,x(t),c2,x(t),...,ci,x(t),...cm,x(t)},其中ci,x(t)表示第t次执行中acx对tai的状态,并令t=1,ci,x(t)=0,EB=1000;
(6)获取离散信息熵表LS:
(6a)计算无人机集合A的群体熵值group_entropy:
Figure BDA0002563430580000031
Figure BDA0002563430580000032
Figure BDA0002563430580000033
其中Ej(x)表示aj的离散信息熵,p(xij)表示aj执行tai的概率;
(6b)判断EB≥group_entropy是否成立,若是,令EB=group_entropy,并用离散信息熵表LS记录p(xij),否则EB不变;
(6c)判断t=T是否成立,若是,得到离散信息熵表LS,否则,令t=t+1并计算acx对tai的状态ci,x(t),然后执行步骤(6a),其中ci,x(t)的计算公式为:
Figure BDA0002563430580000041
where
Figure BDA0002563430580000042
Figure BDA0002563430580000043
Figure BDA0002563430580000044
其中,λ1=1表示acx的邻居中存在执行tai的敏感无人机,λ1=0表示acx的邻居中不存在执行tai的敏感无人机,λ2=1表示acx的邻居中执行tai的无人机数量大于门限值Num,λ2=0表示acx的邻居中执行tai的无人机数量小于等于门限值Num;
(7)利用离散信息熵表LS初始化每个无人机aj的AQj表:
初始化大小为(m+1)×(m)的AQj表,并给AQj表中每个元素赋值:
Figure BDA0002563430580000045
其中,b和c分别表示AQj表中第b行第c列,p(xcj)为离散信息熵表LS记录的值;
(8)获取无人机任务分配结果:
(8a)初始化迭代次数为k,最大迭代次数为K,K≥100,Q学习的学习率为αk,探索判别值为εk,折扣率为γk,阈值常数为ε0,收益最大值为RE,并令k=1,aj执行一次任务的执行量为
Figure BDA0002563430580000046
无人机aj执行Ta中各任务的累计执行量集合Ej={E1,j,E2,j,...,Ei,j,...,Em,j},Ta中各任务需要的执行量集合E={e1,e2,...,ei,...,em},其中1>α>0,1>ε>0,1>γ>0,1>ε0>0,RE≥100,Ei,j表示aj对tai的累计执行量,Ei,j=0,ei表示tai需要的执行量,ei>0;
(8b)计算aj对每个任务tas的转移概率
Figure BDA0002563430580000051
得到aj对Ta的转移概率子集合
Figure BDA0002563430580000052
则A的转移概率集合为
Figure BDA0002563430580000053
其中:
Figure BDA0002563430580000054
其中δ,β,M为预设的调节因子;
(8c)将随机产生n个0到1之间的小数
Figure BDA0002563430580000055
组成的小数集合
Figure BDA0002563430580000056
作为A中每个aj的探索值,并判断
Figure BDA0002563430580000057
是否成立,若是,执行步骤(8d),否则,执行步骤(8e);
(8d)aj依据执行Ta中任务的概率
Figure BDA0002563430580000058
随机选择Ta中的tas执行,得到更新后的aj的累计执行量Es,j,并执行步骤(8f),其中Es,j更新公式为:
Figure BDA0002563430580000059
(8e)aj依据累计执行量集合Ej和AQj表选择Ta中第π(r)个任务执行,得到更新后的aj的累计执行量Eπ(r),j,并执行步骤(8f),其中π(r)的计算和Eπ(r),j的更新公式分别为:
Figure BDA00025634305800000510
Figure BDA00025634305800000511
(8f)计算由无人机aj从执行任务tar转到执行当前任务taz引起的回报值Rj(r,z):
Figure BDA0002563430580000061
(8g)利用AQ表的更新公式,并通过回报值Rj(r,s)对AQj表进行更新,得到更新后的AQj表;
(8h)判断k=K是否成立,若是,得到无人机任务分配结果:RE={Re1,Re2,...Rei,...Rem},否则,令k=k+1,对学习率αk、折扣率γk、探索判别值εk进行更新,然后执行步骤(8b),其中Rei表示执行第i个任务的无人机集合,
Figure BDA0002563430580000062
p为执行第i个任务的无人机总数,αk和γk的更新公式分别为:
Figure BDA0002563430580000063
Figure BDA0002563430580000064
η、λ为预设的调节因子。
本发明与现有技术相比,具有如下优点:
本发明在获取无人机任务分配结果时,采用细胞自动机自演化算法获取演化过程中最优群体熵信息,并通过最优群体熵信息对Q学习中每个无人机的Q表进行初始化,从而使无人机在Q学习迭代过程中有更高概率选取到最优的动作进行执行,然后计算无人机对每个任务的转移概率获取无人机对每个任务转移值,并将转移值最优任务作为执行的任务,获取执行任务后的回报值,再将所得回报值用于无人机的Q学习,以实现对无人机自身Q表的优化,充分考虑了全局信息和局部信息,避免了陷入局部优化的情况,与现有技术相比,在保证全局优化能力的基础上,有效提高了任务协同分配的收敛速度。
附图说明
图1本发明实现流程图。
图2本发明与现有技术收敛时间的仿真对比图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步的详细描述。
参照图1,本发明包括如下步骤:
步骤1)初始化无人机任务分配参数:
初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta={ta1,ta2,...,tai,...tam},无人机集合为A={a1,a2,...,aj,...,an},第j个无人机aj的状态Cj={c1,j,c2,j,...,ci,j,...cm,j},其中,tai表示第i个任务,m表示任务的总数,m≥2,n表示无人机的总数,n≥1,ci,j表示aj对第i个任务的状态,ci,j=0表示不执行,ci,j=1表示执行,在任务分配前所有无人机都不执行任务,本实施例中,X=800米,Y=800米,Z=800米,m=10,n=1000;
步骤2)确定每个无人机aj的邻居,邻居指在无人机通信距离内的所有无人机,当无人机的状态发生变化,邻居的状态也很可能会随之发生变化;
通过A中各无人机的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,并将aw中dsj,w小于预设的通信距离L的无人机作为无人机aj的邻居,得到aj的邻居无人机集合
Figure BDA0002563430580000071
则A的邻居无人机集合为
NEI={Ne1,Ne2,...,Nej,...,Nen}
其中dsj,w计算公式为:
Figure BDA0002563430580000081
(xj,yj,zj)表示无人机aj在空间区域内的三维坐标,
Figure BDA0002563430580000082
表示aj的第h个邻居,j_num为aj的邻居数量,在本实施例中,通信距离L=50米;
步骤3)确定敏感无人机和非敏感无人机,敏感无人机指最接近待执行任务的且直接选择任务进行执行的无人机,非敏感无人机指距离待执行任务较远的需要在细胞自动机算法中进行任务迭代分配的无人机:
(3a)通过A中各无人机aj的位置坐标(xj,yj,zj)和Ta中各任务tai的位置坐标(xti,yti,zti),计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,得到距离集合DD={D1,D2,...,Dj,...,Dn},其中,di,j的计算公式为:
Figure BDA0002563430580000083
Dj表示无人机aj与Ta中每个待执行任务之间的距离集合,Dj={d1,j,d2,j,...,di,j,...,dm,j};
(3b)将A中Dj小于预设通信距离L的n*个无人机组成敏感无人机集合
Figure BDA0002563430580000084
将其余n-n*个无人机组成非敏感无人机集合
Figure BDA0002563430580000085
其中,aby表示第y个敏感无人机,acx表示第x个非敏感无人机,n**表示非敏感无人机的数量,n**=n-n*
步骤4)由于敏感无人机的执行量会随着距离进行衰减,每个敏感无人机aby选择距离其最近的任务执行,确保敏感无人机执行效果是最优的:
每个敏感无人机aby选择其与Ta中每个待执行任务之间的距离集合Dby中数值最小的任务
Figure BDA0002563430580000086
作为当前任务进行执行,此时aby
Figure BDA0002563430580000087
的状态
Figure BDA0002563430580000088
其中
Figure BDA0002563430580000089
表示Ta中的第
Figure BDA00025634305800000810
个任务;
步骤5)初始化细胞自动机自演化算法参数:
初始化执行次数t,最大执行次数为T,T≥5,最优群体熵值EB,第t次执行中第x个非敏感无人机对所有任务的状态集Cx(t)={c1,x(t),c2,x(t),...,ci,x(t),...cm,x(t)},其中ci,x(t)表示第t次执行中acx对tai的状态,并令t=1,ci,x(t)=ci,x,EB=1000;
步骤6)通过细胞自动机自演化算法对任务进行预分配并用群体熵评估每轮预分配的结果,以获取关于最优任务预分配结果的离散信息熵表LS:
(6a)计算无人机集合A的群体熵值group_entropy:
Figure BDA0002563430580000091
Figure BDA0002563430580000092
Figure BDA0002563430580000093
其中Ej(x)表示aj的离散信息熵,p(xij)表示aj执行tai的概率,概率由两部分组成,左式表示aj邻域内执行任务的无人机数量占所有邻域内n个无人机的比例,右式则表示邻域内与tai最近的距离与di,j的比值,群体熵衡量了场景区域内n个无人机的执行任务的确定性程度,始终为正值,首次比较群体熵时,直接取初始值为最大值,即可以直接保留第一次的结果;
(6b)判断EB≥group_entropy是否成立,若是,令EB=group_entropy,并用离散信息熵表LS记录p(xij),否则EB不变;
(6c)判断t=T是否成立,若是,得到离散信息熵表LS,否则,令t=t+1,并计算acx对tai的状态ci,x(t),然后执行步骤(6a),其中ci,x(t)的计算公式为:
Figure BDA0002563430580000101
where
Figure BDA0002563430580000102
Figure BDA0002563430580000103
Figure BDA0002563430580000104
其中,λ1=1表示acx的邻居中存在执行tai的敏感无人机,λ1=0表示acx的邻居中不存在执行tai的敏感无人机,λ2=1表示acx的邻居中执行tai的无人机数量大于门限值Num,λ2=0表示acx的邻居中执行tai的无人机数量小于等于门限值Num,该门限值表示平面区域中无人机的密度,密度越大,门限值越大;
步骤7)利用离散信息熵表LS初始化每个无人机aj的AQj表,每个aj维护自己的AQj表,其初始值包含了关于全局信息的群体熵信息,保证了方法全局优化能力并避免陷入局部最优,提高收敛速度:
初始化大小为(m+1)×(m)的AQj表,并给AQj表中每个元素赋值:
Figure BDA0002563430580000105
其中,b和c分别表示AQj表中第b行第c列,p(xcj)为离散信息熵表LS记录的值,当1≤b≤m且1≤c≤m时,AQj(b,c)表示aj执行任务tab转移执行任务tac的概率值,当b=m+1且1≤c≤m时,AQj(b,c)表示无人机aj从不执行任务到执行任务tac的概率值,p(xcj)为离散信息熵表LS记录的值;
步骤8)通过Q学习算法获取无人机任务分配结果:
(8a)初始化迭代次数为k,最大迭代次数为K,K≥100,Q学习的学习率为αk,探索率为εk,折扣率为γk,收益最大值为RE,aj执行一次任务提供的执行量为
Figure BDA0002563430580000118
aj执行各任务的累计执行量集合Ej={E1,j,E2,j,...,Ei,j,...,Em,j},任务所需执行量集合E={e1,e2,...,ei,...,em},并令k=1,其中1>α>0,1>ε>0,1>γ>0,1>ε0>0,RE≥100,Ei,j表示aj对tai的累计执行量,Ei,j=0,ei表示tai需要的执行量,ei>0,在本实施例中,K=1000,αk=0.999,γk=0.1,εk=1,RE=100;
(8b)计算aj对每个任务tas的转移概率
Figure BDA0002563430580000111
得到aj对Ta的转移概率子集合
Figure BDA0002563430580000112
则A的转移概率集合为
Figure BDA0002563430580000113
其中:
Figure BDA0002563430580000114
其中δ,β,M为预设的调节因子,该式表示了aj从执行任务tar向任务tas转移时,执行量与代价分别所占整体比重的乘积,即当执行量积累量越大其转移的概率越高,距离代价越小,转移的概率越高,在本实施例中,δ=0.8,β=0.2,M=10;
(8c)将随机产生n个0到1之间的小数
Figure BDA0002563430580000115
组成的小数集合
Figure BDA0002563430580000116
作为A中每个aj的探索值,并判断
Figure BDA0002563430580000117
是否成立,若是,执行步骤(8d),否则,执行步骤(8e);
(8d)aj依据执行Ta中任务的概率
Figure BDA0002563430580000119
随机选择Ta中的tas作为当前任务并执行,得到更新后的aj的累计执行量Es,j,并执行步骤(8f),其中Es,j更新公式为:
Figure BDA0002563430580000121
Figure BDA0002563430580000122
τ为预设常数,1>τ>0,ds,j表示aj到任务tas的距离;
(8e)aj依据累计执行量集合Ej和AQj表选择Ta中第π(r)个任务作为当前任务并执行,得到更新后的aj的累计执行量Eπ(r),j,并执行步骤(8f),其中π(r)的计算和Eπ(r),j的更新公式分别为:
Figure BDA0002563430580000123
Figure BDA0002563430580000124
Figure BDA0002563430580000125
dπ(r),j表示aj到任务taπ(r)的距离;
(8f)计算由无人机aj从执行任务tar转到执行当前任务taz引起的回报值Rj(r,z):
Figure BDA0002563430580000126
其中,Rj(r,z)表示用无人机aj从执行任务tar转向执行taz后,执行量差值乘积的倒数,若二者相等,说明此次转移无收益,若执行量差值均变小,则回报越大,若一个变为0,则减少一个分母,增大回报量,当均变为0时,说明该转移动作收益最大,取收益最大值RE,回报值R(r,z)不仅考虑到了当前动作产生的局部收益,还考虑到了所有任务执行的全局收益;
(8g)利用AQ表的更新公式,通过(8f)中得到的回报值R(r,z)更新aj本次学习后的AQj表,得到更新后的AQj表,由于回报值R(r,z)同时包含全局信息与局部信息,保证了方法的全局优化能力,并避免陷入局部最优,其中AQj表更新公式为:
Figure BDA0002563430580000131
其中,J(z)表示无人机ai执行任务taz时下可选的目标任务集合,该目标任务集合可以表示为aj的邻居所执行的任务集合;
(8h)判断k=K是否成立,若是,得到无人机任务分配结果:
RE={Re1,Re2,...Rei,...Rem},否则,令k=k+1,对学习率αk、折扣率γk、探索判别值εk进行更新,然后执行步骤(8b),其中Rei表示执行第i个任务的无人机集合,
Figure BDA0002563430580000132
p为执行第i个任务的无人机总数,αk、γk和εk的计算公式分别为:
Figure BDA0002563430580000133
Figure BDA0002563430580000134
εk=εk-1·C
η、λ和C为预设的调节因子,本实施例中,μ=0.998,λ=0.8,C=0.998。
下面结合仿真实验,对本发明的技术效果作进一步的说明。
1.仿真条件和内容:
实验运行的环境:操作系统为Microsoft windows 10,编程仿真语言为matlab。实验使用了五个不同的场景,每个场景除任务和无人机分布位置不同外其余均相同,收敛时间为50次独立试验后求均值结果。
对本发明与现有的一种基于粒子群算法的无人机任务分配方法的收敛时间进行对比仿真,其结果如图2所示。
2.仿真结果分析:
参照图2,图2对比了本发明与一种基于粒子群算法的无人机任务分配方法的平均收敛时间,横坐标为五个不同场景,纵坐标为全部任务达到收敛的平均时间,在第一个场景中,本发明的平均收敛时间为107.6625秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为491.28秒,在第二个场景中,本发明的平均收敛时间为89.575秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为580.15秒,在第三个场景中,本发明的平均收敛时间为92.3953秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为413.48秒,在第四个场景中,本发明的平均收敛时间为94.6563秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为526秒,在第五个场景中,本发明的平均收敛时间为96.1531秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为535.53秒,根据上述对比,可以看到本发明在收敛速度上具有绝对优势,相比于一种基于粒子群算法的无人机任务分配方法,本发明收敛速度提高了两倍以上。实验结果表明,本发明可以有效提升无人机任务分配的收敛速度。

Claims (5)

1.一种基于群体熵和Q学习的无人机任务分配方法,其特征在于,包括以下步骤:
(1)初始化参数:
初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta={ta1,ta2,...,tai,...tam},无人机集合为A={a1,a2,...,aj,...,an},第j个无人机aj的状态Cj={c1,j,c2,j,...,ci,j,...cm,j},其中,tai表示第i个任务,m表示任务的总数,m≥2,n表示无人机的总数,n≥1,ci,j表示aj对第i个任务的状态,ci,j=0表示不执行,ci,j=1表示执行;
(2)确定每个无人机aj的邻居:
通过A中各无人机的在空间区域内的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,并将aw中dsj,w小于预设的通信距离L的无人机作为aj的邻居,得到aj的邻居无人机集合
Figure FDA0002563430570000011
则A的邻居无人机集合为
NEI={Ne1,Ne2,...,Nej,...,Nen},
其中,
Figure FDA0002563430570000012
表示aj的第h个邻居,j_num为aj的邻居数量;
(3)确定敏感无人机和非敏感无人机:
(3a)计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,得到距离集合DD={D1,D2,...,Dj,...,Dn},其中Dj表示无人机aj与Ta中每个待执行任务之间的距离集合,Dj={d1,j,d2,j,...,di,j,...,dm,j};
(3b)将A中Dj小于预设通信距离L的n*个无人机组成敏感无人机集合
Figure FDA0002563430570000013
将其余n-n*个无人机组成非敏感无人机集合
Figure FDA0002563430570000014
其中,aby表示第y个敏感无人机,acx表示第x个非敏感无人机,n**表示非敏感无人机的数量,n**=n-n*
(4)每个敏感无人机aby选择任务并执行:
每个敏感无人机aby选择与Ta中每个待执行任务之间的距离集合Dby中数值最小的任务
Figure FDA0002563430570000021
作为当前任务并执行;
(5)初始化细胞自动机自演化算法参数:
初始化执行次数t,最大执行次数为T,T≥5,最优群体熵EB,第t次执行中acx对所有任务的状态集Cx(t)={c1,x(t),c2,x(t),...,ci,x(t),...cm,x(t)},其中ci,x(t)表示第t次执行中acx对tai的状态,并令t=1,ci,x(t)=0,EB=1000;
(6)获取离散信息熵表LS:
(6a)计算无人机集合A的群体熵值group_entropy:
group_entropy=E1 2(x)+E2 2(x)+...+Ej 2(x)+...+En 2(x)
Figure FDA0002563430570000022
Figure FDA0002563430570000023
其中Ej(x)表示aj的离散信息熵,p(xij)表示aj执行tai的概率;
(6b)判断EB≥group_entropy是否成立,若是,令EB=group_entropy,并用离散信息熵表LS记录p(xij),否则EB不变;
(6c)判断t=T是否成立,若是,得到离散信息熵表LS,否则,令t=t+1,并计算acx对tai的状态ci,x(t),然后执行步骤(6a),其中ci,x(t)的计算公式为:
Figure FDA0002563430570000024
where
Figure FDA0002563430570000025
Figure FDA0002563430570000026
Figure FDA0002563430570000031
其中,λ1=1表示acx的邻居中存在执行tai的敏感无人机,λ1=0表示acx的邻居中不存在执行tai的敏感无人机,λ2=1表示acx的邻居中执行tai的无人机数量大于门限值Num,λ2=0表示acx的邻居中执行tai的无人机数量小于等于门限值Num;
(7)利用离散信息熵表LS初始化每个无人机aj的AQj表:
初始化大小为(m+1)×(m)的AQj表,并给AQj表中每个元素赋值:
Figure FDA0002563430570000032
其中,b和c分别表示AQj表中第b行第c列,p(xcj)为离散信息熵表LS记录的值;
(8)获取无人机任务分配结果:
(8a)初始化迭代次数为k,最大迭代次数为K,K≥100,Q学习的学习率为αk,探索判别值为εk,折扣率为γk,阈值常数为ε0,收益最大值为RE,并令k=1,aj执行一次任务的执行量为
Figure FDA0002563430570000033
无人机aj执行Ta中各任务的累计执行量集合Ej={E1,j,E2,j,...,Ei,j,...,Em,j},Ta中各任务需要的执行量集合E={e1,e2,...,ei,...,em},其中1>α>0,1>ε>0,1>γ>0,1>ε0>0,RE≥100,Ei,j表示aj对tai的累计执行量,Ei,j=0,ei表示tai需要的执行量,ei>0;
(8b)计算aj对每个任务tas的转移概率
Figure FDA0002563430570000034
得到aj对Ta的转移概率子集合
Figure FDA0002563430570000035
则A的转移概率集合为
Figure FDA0002563430570000036
其中:
Figure FDA0002563430570000041
其中δ,β,M为预设的调节因子;
(8c)将随机产生n个0到1之间的小数
Figure FDA0002563430570000042
组成的小数集合
Figure FDA0002563430570000043
作为A中每个aj的探索值,并判断
Figure FDA0002563430570000044
是否成立,若是,执行步骤(8d),否则,执行步骤(8e);
(8d)aj依据执行Ta中任务的概率
Figure FDA0002563430570000045
随机选择Ta中的tas执行,得到更新后的aj的累计执行量Es,j,并执行步骤(8f),其中Es,j更新公式为:
Figure FDA0002563430570000046
Figure FDA0002563430570000047
τ为预设常数,1>τ>0;
(8e)aj依据累计执行量集合Ej和AQj表选择Ta中第π(r)个任务执行,得到更新后的aj的累计执行量Eπ(r),j,并执行步骤(8f),其中π(r)的计算和Eπ(r),j的更新公式分别为:
Figure FDA0002563430570000048
Figure FDA0002563430570000049
Figure FDA00025634305700000410
(8f)计算由无人机aj从执行任务tar转到执行当前任务taz引起的回报值Rj(r,z):
Figure FDA0002563430570000051
(8g)aj利用AQj表的更新公式,并通过回报值Rj(r,s)对AQj表进行更新,得到更新后的AQj表;
(8h)判断k=K是否成立,若是,得到无人机任务分配结果:RE={Re1,Re2,...Rei,...Rem},否则,令k=k+1,对学习率αk、折扣率γk、探索判别值εk进行更新,然后执行步骤(8b),其中Rei表示执行第i个任务的无人机集合,
Figure FDA0002563430570000052
p为执行第i个任务的无人机总数,αk和γk的更新公式分别为:
Figure FDA0002563430570000053
Figure FDA0002563430570000054
η、λ为预设的调节因子。
2.根据权利要求1中所述的基于群体熵和Q学习的无人机任务分配方法,其特征在于,步骤(2)中所述的通过A中各无人机的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,计算公式为:
Figure FDA0002563430570000055
其中,(xj,yj,zj)分别表示无人机aj在空间区域内的三维坐标。
3.根据权利要求1中所述的基于群体熵和Q学习的无人机任务分配方法,其特征在于,步骤(3a)中所述的计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,计算公式为:
Figure FDA0002563430570000061
其中,(xj,yj,zj)分别表示无人机aj在空间区域内的三维坐标,(xti,yti,zti)表示任务tai在空间区域内的三维坐标。
4.根据权利要求1所述的基于群体熵和Q学习的无人机任务分配方法,其特征在于,步骤(8g)中所述的AQj表的更新公式为:
Figure FDA0002563430570000062
其中,J(z)表示无人机ai执行任务taz时下可选的目标任务集合。
5.根据权利要求1所述的基于群体熵和Q学习的无人机任务分配方法,其特征在于,步骤(8h)中所述的探索判别值εk的更新公式为:
εk=εk-1·C
其中,C为一个在0和1之间的预设常数。
CN202010614975.9A 2020-06-30 2020-06-30 基于群体熵和q学习的无人机任务分配方法 Active CN111680934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614975.9A CN111680934B (zh) 2020-06-30 2020-06-30 基于群体熵和q学习的无人机任务分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614975.9A CN111680934B (zh) 2020-06-30 2020-06-30 基于群体熵和q学习的无人机任务分配方法

Publications (2)

Publication Number Publication Date
CN111680934A CN111680934A (zh) 2020-09-18
CN111680934B true CN111680934B (zh) 2023-04-07

Family

ID=72456923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614975.9A Active CN111680934B (zh) 2020-06-30 2020-06-30 基于群体熵和q学习的无人机任务分配方法

Country Status (1)

Country Link
CN (1) CN111680934B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211138A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Multitask neural network systems
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211138A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Multitask neural network systems
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Robotic Navigation using Entropy-Based Exploration;Muhammad Usama etc.;《2019 19th International Conference on Control, Automation and Systems (ICCAS)》;IEEE;20200130;全文 *
基于 Q 学习的 RoboCup 多智能体决策优化;周戎;《中国优秀硕士学位论文期刊网 基础科学辑》;20190215;全文 *
基于多智能体粒子群的协同空战目标决策研究;付跃文等;《系统仿真学报》;20180913(第11期);全文 *

Also Published As

Publication number Publication date
CN111680934A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Amiri et al. Missing data imputation using fuzzy-rough methods
Tan et al. Solving multiobjective vehicle routing problem with stochastic demand via evolutionary computation
Bae et al. Non-probability sampling network for stochastic human trajectory prediction
CN114167898B (zh) 一种无人机收集数据的全局路径规划方法及系统
De Asis et al. Fixed-horizon temporal difference methods for stable reinforcement learning
CN110675912B (zh) 一种基于结构预测的基因调控网络构建方法
Sledge et al. Balancing exploration and exploitation in reinforcement learning using a value of information criterion
US11605026B2 (en) Methods and systems for support policy learning
CN109523011B (zh) 一种面向多无人机协同探测的多传感器自适应管理方法
Verma et al. Censored semi-bandits: A framework for resource allocation with censored feedback
Dou et al. Top-down indoor localization with Wi-fi fingerprints using deep Q-network
Maity et al. An intelligent hybrid algorithm for 4-dimensional TSP
Al Moubayed et al. D 2 MOPSO: multi-objective particle swarm optimizer based on decomposition and dominance
Ma et al. Improving uncertainty calibration of deep neural networks via truth discovery and geometric optimization
Lee et al. Deep graph attention model
CN111680934B (zh) 基于群体熵和q学习的无人机任务分配方法
Iklassov et al. Reinforcement learning approach to stochastic vehicle routing problem with correlated demands
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN111736461B (zh) 基于q学习的无人机任务协同分配方法
CN117273125A (zh) 基于强化学习的多模型在线自适应择优技术驱动的进化算法
Kim et al. Batch sequential minimum energy design with design-region adaptation
WO2022165602A1 (en) Method, system and computer readable medium for probabilistic spatiotemporal forecasting
Liu et al. Graph Diffusion Policy Optimization
Oliveira et al. A History-based Framework for Online Continuous Action Ensembles in Deep Reinforcement Learning.
Satake et al. Predictive Traffic Engineering Incorporatingreal-World Information Inspired by the Cognitiveprocess of the Human Brain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant