CN111736461B - 基于q学习的无人机任务协同分配方法 - Google Patents

基于q学习的无人机任务协同分配方法 Download PDF

Info

Publication number
CN111736461B
CN111736461B CN202010612864.4A CN202010612864A CN111736461B CN 111736461 B CN111736461 B CN 111736461B CN 202010612864 A CN202010612864 A CN 202010612864A CN 111736461 B CN111736461 B CN 111736461B
Authority
CN
China
Prior art keywords
unmanned aerial
task
aerial vehicle
execution
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010612864.4A
Other languages
English (en)
Other versions
CN111736461A (zh
Inventor
方敏
陈烨
刘玉阳
刘冀川
赵研
郑光勇
柳始良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
CETC 54 Research Institute
Original Assignee
Xidian University
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, CETC 54 Research Institute filed Critical Xidian University
Priority to CN202010612864.4A priority Critical patent/CN111736461B/zh
Publication of CN111736461A publication Critical patent/CN111736461A/zh
Application granted granted Critical
Publication of CN111736461B publication Critical patent/CN111736461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明提出了一种基于Q学习的无人机任务协同分配方法,实现步骤为:初始化参数;根据无人机及任务的位置信息获取每个无人机的邻居无人机集合;确定敏感无人机和间接无人机;然后每个敏感无人机执行任务并向其邻居无人机发送通信包;根据通信包获取每个间接无人机的Q表;再初始化Q学习参数;间接无人机进行Q学习,最后获取无人机任务协同分配结果。本发明在无人机的Q学习过程中充分考虑了全局信息和局部信息,实现了对无人机自身Q表的优化,在保证所有任务均得到其所需执行量基础上有效提高了任务分配的收敛速度。

Description

基于Q学习的无人机任务协同分配方法
技术领域
本发明属于无人机任务分配技术领域,涉及一种无人机任务协同分配方法,具体涉及一种基于Q学习的无人机任务协同分配方法,可用于无人机探测任务分配。
背景技术
由于无人机成本低、安全度高的特点,无人机任务协同分配在民用中广泛应用于环境检测和地理测绘等场景。无人机任务协同分配问题可以描述为场景中多个无人机去执行多个任务,每个任务需要无人机提供相应执行量且该执行量随无人机至任务的距离而衰减,目的是寻找一种有效合理的分配方案将任务分配给不同的无人机,使所有任务均得到其所需执行量。无人机任务协同分配的难点是随无人机数量的增长,问题规模成指数型增长,寻找最优结果困难。无人机任务协同分配主要基于启发式算法进行求解,典型算法为遗传算法、蚁群算法、粒子群算法等。
相对于其他启发式算法,粒子群算法具有更好的全局收敛性,例如申请公布号为CN108876086A,名称为“一种基于粒子群算法的无人机任务分配方法”的专利申请,利用粒子群算法解决无人机任务分配问题。该方法首先设置微粒种群规模、惯性权值、最大允许迭代次数,然后针对每个微粒生成随机的初始无人机和任务的配对,并计算出目标评价函数,接着找出个体及群体的最优值,更新各个粒子,再根据粒子群优化算法,更新遍历全部粒子,保留最优微粒。该方法采用整形线性规划方法构造最优函数,并利用粒子群算法寻找最优解,具有全局收敛能力,所有任务均能得到其所需执行量。该方法的缺点在于,过分寻求全局最优结果,容易陷入局部最优收敛,导致任务分配的收敛速度较慢。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于Q学习的无人机任务协同分配方法,旨在保证所有任务均得到其所需执行量基础上提高任务分配的收敛速度。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)初始化参数:
初始化大小为X·Y·Z的空间场景中待执行任务集合为T={t1,t2,...,ti,...,tm},能执行T中任务的无人机集合为At={at1,at2,...,atj,...,atn},任务所需执行量集合E={e1,e2,...,ei,...,em},其中,ti表示第i个任务,m表示任务总数,m>0,atj表示第j个无人机,n表示无人机总数,n>0,ei表示任务ti需要的总执行量;
(2)获取每个无人机atj的邻居无人机集合:
通过空间场景中每个无人机atj的位置坐标,计算atj与其他n-1个无人机atw的距离dsjw,并将atw中dsjw小于预设的通信距离阈值max_pass的无人机作为atj的邻居,得到atj的邻居无人机子集合
Figure GDA0002971366730000021
则At的邻居无人机集合为NEI={Ne1,...,Nej,...,Nen},其中,w∈n,w≠j,max_pass>0,
Figure GDA0002971366730000022
表示atj的第h个邻居,j_num为atj的邻居数量;
(3)确定敏感无人机和间接无人机:
(3a)通过空间场景中每个无人机atj与每个任务ti的位置坐标,计算atj与ti间的距离bsji,得到距离集合BIS={Bs1,...,Bsj,...,Bsn},其中,Bsj表示atj与m个任务的距离子集合,Bsj={bsj1,...,bsji,...,bsjm},bisji>0;
(3b)将At中Bsj小于预设的距离阈值L的n**个无人机作为敏感无人机
Figure GDA0002971366730000023
其余n-n**个无人机作为间接无人机
Figure GDA0002971366730000024
则每个敏感无人机atby与m个任务的距离子集合为Bsby,每个间接无人机atcx与m个任务的距离子集合为Bscx,其中,L>0,atby表示第y个敏感无人机,n**表示敏感无人机的数量,atcx表示第x个间接无人机,n*表示间接无人机的数量,n*=n-n**
(4)每个敏感无人机atby向其邻居无人机发送通信包:
(4a)每个敏感无人机atby选择其与m个任务的距离子集合Bsby中数值最小的任务
Figure GDA0002971366730000031
作为当前执行任务,并计算atby经过Bsby衰减后具有的对
Figure GDA0002971366730000032
施加执行量
Figure GDA0002971366730000033
再将
Figure GDA0002971366730000034
更新为
Figure GDA0002971366730000035
Figure GDA0002971366730000036
更新为
Figure GDA0002971366730000037
其中,
Figure GDA0002971366730000038
表示T中第
Figure GDA0002971366730000039
个任务;
(4b)将
Figure GDA00029713667300000310
作为通信包任务paby、当前时间作为通信包发送时间timeby,并将paby和timeby构成atby的通信包packby发送至Neby中的邻居无人机;
(5)获取每个间接无人机atcx的Q表:
(5a)atcx计算经过其与m个任务的距离子集合Bscx衰减后能对T中每个任务ti施加的执行量
Figure GDA00029713667300000311
得到atcx的执行量子集合
Figure GDA00029713667300000312
则At的执行量集合
Figure GDA00029713667300000313
(5b)atcx判断是否接收到通信包,若是,选择最新发送时间timebst对应的通信包packbst,令atcx的当前执行任务
Figure GDA00029713667300000314
并更新er
Figure GDA00029713667300000315
否则,令
Figure GDA00029713667300000316
其中,
Figure GDA00029713667300000317
表示T中第r个任务;
(5c)atcx计算对每个任务ti的累计执行量
Figure GDA00029713667300000318
得到atcx对T的累计执行量集合
Figure GDA00029713667300000319
则C对T的累计执行量集合为
Figure GDA00029713667300000320
其中:
Figure GDA00029713667300000321
(5d)初始化大小为(m+1)×m的
Figure GDA00029713667300000322
表,并给
Figure GDA00029713667300000323
表中每个元素赋值,得到atcx的Q表
Figure GDA00029713667300000324
Figure GDA00029713667300000325
其中,
Figure GDA0002971366730000041
表示
Figure GDA0002971366730000042
中第ca行第cb列元素;
(6)初始化Q学习参数:
初始化迭代次数k,最大迭代次数K,K≥100,学习率αk,折扣率γk,探索判别值εk,1>αk>0,1>γk>0,1>εk>0,并令k=1;
(7)获取无人机任务协同分配结果:
(7a)每个间接无人机atcx选择最新发送时间timebst对应的通信包packbst,得到与pabst对应的任务标号ρ,并更新
Figure GDA0002971366730000043
Figure GDA0002971366730000044
再通过
Figure GDA0002971366730000045
计算atcx对每个任务ts的转移概率
Figure GDA0002971366730000046
得到atcx对应m个任务的概率子集合
Figure GDA0002971366730000047
则C的转移概率集合为
Figure GDA0002971366730000048
其中:
Figure GDA0002971366730000049
1>δ>0,1>β>0,M>0;
(7b)将随机产生cn*个0到1之间的小数εcx←random(0,1)组成的小数集合
Figure GDA00029713667300000410
作为C中每个atcx的探索值,并判断
Figure GDA00029713667300000411
是否成立,若是,执行步骤(7c),否则,执行步骤(7d);
(7c)根据atcx对每个任务ts的转移概率
Figure GDA00029713667300000412
随机选取T中一个任务作为atcx的待执行的任务
Figure GDA00029713667300000413
其中
Figure GDA00029713667300000414
表示T中第ne个任务;
(7d)根据atcx对每个任务ts的转移概率
Figure GDA0002971366730000051
计算atcx对每个任务ts的转移值
Figure GDA0002971366730000052
得到atcx对应m个任务的转移值子集合
Figure GDA0002971366730000053
则C的转移值集合为
Figure GDA0002971366730000054
并将
Figure GDA0002971366730000055
中最大转移值对应的任务作为atcx待执行的任务
Figure GDA0002971366730000056
其中:
Figure GDA0002971366730000057
η>0,
Figure GDA0002971366730000058
表示T中第ne个任务;
(7e)将At中执行ti的无人机构成集合
Figure GDA0002971366730000059
并通过FAk以及Excx中与
Figure GDA00029713667300000510
对应的
Figure GDA00029713667300000511
计算atcx的回报值
Figure GDA00029713667300000512
Figure GDA00029713667300000513
Figure GDA00029713667300000514
Figure GDA00029713667300000515
其中,
Figure GDA00029713667300000516
表示执行ti的所有无人机的集合,
Figure GDA00029713667300000517
Figure GDA00029713667300000518
表示At中第z个执行ti的无人机,vgi表示执行ti的无人机数量,
Figure GDA0002971366730000061
表示立即回报值,
Figure GDA0002971366730000062
表示延时回报值,Max>0;
(7f)通过
Figure GDA0002971366730000063
对应的
Figure GDA0002971366730000064
将ene更新为
Figure GDA0002971366730000065
Figure GDA0002971366730000066
更新为
Figure GDA0002971366730000067
通过
Figure GDA0002971366730000068
对应的
Figure GDA0002971366730000069
将er更新为
Figure GDA00029713667300000610
并判断
Figure GDA00029713667300000611
是否成立,若是,atcx不与Neicx中的无人机通信,否则,将
Figure GDA00029713667300000612
作为通信包任务pacx,将当前时间作为通信包发送时间timecx,并将pacx和timecx构成atcx的通信包packcx发送至Necx中的邻居无人机;
(7g)每个atcx利用Q学习公式,通过
Figure GDA00029713667300000613
Figure GDA00029713667300000614
计算执行任务
Figure GDA00029713667300000615
Figure GDA00029713667300000616
表,并通过
Figure GDA00029713667300000617
Figure GDA00029713667300000618
更新为
Figure GDA00029713667300000619
(7h)判断k=K是否成立,若是,将与
Figure GDA00029713667300000620
相同的atω组合成执行每个任务ti的无人机集合
Figure GDA00029713667300000621
则执行T的无人机集合TC={TN1,...,TNi,...,TNm},否则,令k=k+1,计算学习率αk、折扣率γk和探索判别值εk,并执行步骤(7a),其中,
Figure GDA00029713667300000622
表示第ζ个执行ti的无人机,Lai表示执行ti的无人机数量,αk和γk的计算公式分别为:
Figure GDA00029713667300000623
Figure GDA00029713667300000624
Figure GDA00029713667300000625
本发明与现有技术相比,具有如下优点:
本发明在获取无人机任务协同分配结果时,通过计算无人机对每个任务的转移概率获取无人机对每个任务转移值,并将转移值最优任务作为执行的任务,然后获取执行任务后的回报值,再将所得回报值用于无人机的Q学习,以实现对无人机自身Q表的优化,充分考虑了全局信息和局部信息,避免了陷入局部最优的情况,与现有技术相比,在保证全局优化能力的基础上,有效提高了任务协同分配的收敛速度。
附图说明
图1本发明实现流程图。
图2本发明与现有技术收敛时间的仿真对比图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)初始化参数:
初始化大小为X·Y·Z的空间场景中待执行任务集合为T={t1,t2,...,ti,...,tm},能执行T中任务的无人机集合为At={at1,at2,...,atj,...,atn},每个任务需要无人机提供相应执行量,任务所需执行量集合E={e1,e2,...,ei,...,em},其中,ti表示第i个任务,m表示任务总数,m>0,atj表示第j个无人机,n表示无人机总数,n>0,ei表示任务ti需要的总执行量,本实施例中,X=800米,Y=800米,Z=800米,m=10,n=1000;
步骤2)获取每个无人机atj的邻居无人机集合:
通过空间场景中每个无人机atj的位置坐标,计算atj与其他n-1个无人机atw的距离dsjw,并将atw中dsjw小于预设的通信距离阈值max_pass的无人机作为atj的邻居,得到atj的邻居无人机子集合
Figure GDA0002971366730000071
则At的邻居无人机集合为NEI={Ne1,...,Nej,...,Nen},其中:
Figure GDA0002971366730000072
Figure GDA0002971366730000073
表示atj在空间场景中的三维坐标,
Figure GDA0002971366730000074
表示atw在空间场景中的三维坐标,
Figure GDA0002971366730000075
w∈n,w≠j,max_pass>0,
Figure GDA0002971366730000076
表示atj的第h个邻居,j_num为atj的邻居数量,本实施例中,max_pass=50米;
步骤3)确定敏感无人机和间接无人机:
(3a)通过空间场景中每个无人机atj与每个任务ti的位置坐标,计算atj与ti间的距离bsji,得到距离集合BIS={Bs1,...,Bsj,...,Bsn},其中:
Figure GDA0002971366730000081
Figure GDA0002971366730000082
表示ti在空间中的三维坐标,
Figure GDA0002971366730000083
Bsj表示atj与m个任务的距离子集合,Bsj={bsj1,...,bsji,...,bsjm},bisji>0;
(3b)将At中Bsj小于预设的距离阈值L的n**个无人机作为敏感无人机
Figure GDA0002971366730000084
其余n-n**个无人机作为间接无人机
Figure GDA0002971366730000085
则每个敏感无人机atby与m个任务的距离子集合为Bsby,每个间接无人机atcx与m个任务的距离子集合为Bscx,其中,L>0,atby表示第y个敏感无人机,n**表示敏感无人机的数量,atcx表示第x个间接无人机,n*表示间接无人机的数量,n*=n-n**,atby的邻居无人机集合为Neby,atcx的邻居智能体集合为Necx,本实施例中,L=80米;
步骤4)每个敏感无人机atby向其邻居无人机发送通信包:
(4a)每个敏感无人机atby选择其与m个任务的距离子集合Bsby中数值最小的任务
Figure GDA0002971366730000086
作为当前执行任务,并计算atby经过Bsby衰减后具有的对
Figure GDA0002971366730000087
施加执行量
Figure GDA0002971366730000088
再将
Figure GDA0002971366730000089
更新为
Figure GDA00029713667300000810
Figure GDA00029713667300000811
更新为
Figure GDA00029713667300000812
其中:
Figure GDA00029713667300000813
ab为At中无人机的执行量,1>τ>0,
Figure GDA00029713667300000814
表示T中第
Figure GDA00029713667300000815
个任务;
(4b)将
Figure GDA00029713667300000816
作为通信包任务paby、当前时间作为通信包发送时间timeby,并将paby和timeby构成atby的通信包packby发送至Neby中的邻居无人机;
步骤5)获取每个间接无人机atcx
Figure GDA00029713667300000817
表,atcx接收其邻居无人机集合中的敏感无人机发送的通信包,并将通信包中所含信息用于初始化atcx
Figure GDA00029713667300000818
表,从而实现atcx与其Necx集合中敏感无人机的局部协同,避免方法陷入局部最优,提高收敛速度:
(5a)atcx计算经过其与m个任务的距离子集合Bscx衰减后能对T中每个任务ti施加的执行量
Figure GDA0002971366730000091
得到atcx的执行量子集合
Figure GDA0002971366730000092
则At的执行量
Figure GDA0002971366730000093
(5b)atcx判断是否接收到通信包,若是,选择最新发送时间timebst对应的通信包packbst,令atcx的当前执行任务
Figure GDA0002971366730000094
并更新er
Figure GDA0002971366730000095
否则,令
Figure GDA0002971366730000096
其中,
Figure GDA0002971366730000097
表示T中第r个任务,;
(5c)atcx计算对每个任务ti的累计执行量
Figure GDA0002971366730000098
得到atcx对T的累计执行量集合
Figure GDA0002971366730000099
则C对T的累计执行量集合为
Figure GDA00029713667300000910
其中:
Figure GDA00029713667300000911
(5d)初始化大小为(m+1)×m的
Figure GDA00029713667300000912
表,并给
Figure GDA00029713667300000913
表中每个元素赋值,得到atcx的Q表
Figure GDA00029713667300000914
Figure GDA00029713667300000915
其中,
Figure GDA00029713667300000916
表示
Figure GDA00029713667300000917
中第ca行第cb列元素;
步骤6)初始化Q学习参数:
初始化迭代次数k,最大迭代次数K,K≥100,学习率αk,折扣率γk,探索判别值εk,1>αk>0,1>γk>0,1>εk>0,并令k=1,本实施例中,K=1000,αk=0.999,γk=0.1,εk=1;
步骤7)获取无人机任务协同分配结果:
(7a)每个间接无人机atcx选择最新发送时间timebst对应的通信包packbst,得到与pabst对应的任务标号ρ,并更新
Figure GDA0002971366730000101
Figure GDA0002971366730000102
再通过
Figure GDA0002971366730000103
计算atcx对每个任务ts的转移概率
Figure GDA0002971366730000104
得到atcx对应m个任务的概率子集合
Figure GDA0002971366730000105
则C的转移概率集合为
Figure GDA0002971366730000106
atcx接收其邻居无人机发送的通信包,并将通信包中所含信息用于更新atcx对各任务的累计执行量,实现atcx与其Necx中无人机的局部协同,同时将atcx对各任务的累计执行量及距离代价作为全局信息,用于计算atcx对每个任务的转移概率,使转移概率在atcx选取新任务时产生诱导或抑制效果,从而保证方法全局优化能力并避免方法陷入局部最优,提高收敛速度,其中:
Figure GDA0002971366730000107
1>δ>0,1>β>0,M>0,本实施例中,δ=0.5,β=0.5,M=1;
(7b)将随机产生cn*个0到1之间的小数εcx←random(0,1)组成的小数集合
Figure GDA0002971366730000108
作为C中每个atcx的探索值,并判断
Figure GDA0002971366730000109
是否成立,若是,执行步骤(7c),否则,执行步骤(7d);
(7c)根据atcx对每个任务ts的转移概率
Figure GDA00029713667300001010
随机选取T中一个任务作为atcx的待执行的任务
Figure GDA00029713667300001011
用转移概率集合
Figure GDA00029713667300001012
指导atcx随机选择任务,使atcx利用全局信息进行探索,从而保证方法全局优化能力,提高收敛速度,其中
Figure GDA00029713667300001013
表示T中第ne个任务;
(7d)根据atcx对每个任务ts的转移概率
Figure GDA0002971366730000111
计算atcx对每个任务ts的转移值
Figure GDA0002971366730000112
得到atcx对应m个任务的转移值子集合
Figure GDA0002971366730000113
则C的转移值集合为
Figure GDA0002971366730000114
并将
Figure GDA0002971366730000115
中最大转移值对应的任务作为atcx待执行的任务
Figure GDA0002971366730000116
atcx利用转移概率
Figure GDA0002971366730000117
及自身
Figure GDA0002971366730000118
表计算对任务ts转移值
Figure GDA0002971366730000119
使转移值综合评价
Figure GDA00029713667300001110
中的全局信息和
Figure GDA00029713667300001111
中的局部信息,并根据转移值选择最优任务执行,从而保证方法全局优化能力并避免陷入局部最优,提高收敛速度,其中:
Figure GDA00029713667300001112
η>0,
Figure GDA00029713667300001113
表示T中第ne个任务,本实施例中,η=0.5;
(7e)将At中执行ti的无人机构成集合
Figure GDA00029713667300001114
并通过FAk以及Excx中与
Figure GDA00029713667300001115
对应的
Figure GDA00029713667300001116
计算atcx的回报值
Figure GDA00029713667300001117
Figure GDA00029713667300001118
Figure GDA00029713667300001119
Figure GDA0002971366730000121
其中,
Figure GDA0002971366730000122
表示执行ti的所有无人机的集合,
Figure GDA0002971366730000123
Figure GDA0002971366730000124
表示At中第z个执行ti的无人机,vgi表示执行ti的无人机数量,
Figure GDA0002971366730000125
表示立即回报值,
Figure GDA0002971366730000126
表示延时回报值,Max>0,立即回报值取决于无人机选择新任务后新旧任务执行量的改变,反映atcx选择新任务的局部收益,延时回报值取决于全部任务的执行情况,反映atcx选择新任务的全局收益,两者共同构成回报值,从而使回报值包含全局信息和局部信息,本实施例中,Max=1;
(7f)通过
Figure GDA0002971366730000127
对应的
Figure GDA0002971366730000128
将ene更新为
Figure GDA0002971366730000129
Figure GDA00029713667300001210
更新为
Figure GDA00029713667300001211
通过
Figure GDA00029713667300001212
对应的
Figure GDA00029713667300001213
将er更新为
Figure GDA00029713667300001214
实现atcx执行任务
Figure GDA00029713667300001215
并判断
Figure GDA00029713667300001216
是否成立,若是,atcx不与Neicx中的无人机通信,否则,将
Figure GDA00029713667300001217
作为通信包任务pacx,将当前时间作为通信包发送时间timecx,并将pacx和timecx构成atcx的通信包packcx发送至Necx中的邻居无人机;
(7g)每个间接无人机atcx利用Q学习公式,通过
Figure GDA00029713667300001218
Figure GDA00029713667300001219
计算执行任务
Figure GDA00029713667300001220
Figure GDA00029713667300001221
表,并通过
Figure GDA00029713667300001222
Figure GDA00029713667300001223
更新为
Figure GDA00029713667300001224
atcx通过自身
Figure GDA00029713667300001225
表及所获取的回报值计算
Figure GDA00029713667300001226
回报值中的延时回报值使
Figure GDA00029713667300001227
拥有全局信息,同时结合本身
Figure GDA00029713667300001228
和即时回报值的局部信息,实现对
Figure GDA00029713667300001229
表优化,从而保证方法的全局优化能力,并避免陷入局部最优,提高收敛速度,其中:
Figure GDA00029713667300001230
(7h)判断k=K是否成立,若是,将与
Figure GDA00029713667300001231
相同的atω组合成执行每个任务ti的无人机集合
Figure GDA00029713667300001232
则执行T的无人机集合TC={TN1,...,TNi,...,TNm},否则,令k=k+1,计算学习率αk、折扣率γk和探索判别值εk,并执行步骤(7a),令学习率随k值增大而减小,并令折扣率随任务所需执行量的减小而增大,使每个间接无人机atcx计算
Figure GDA0002971366730000131
表时更多地考虑自身
Figure GDA0002971366730000132
表中的局部信息,从而增强方法在k值变大后的局部优化能力,提高收敛速度,其中,
Figure GDA0002971366730000133
表示第ζ个执行ti的无人机,Lai表示执行ti的无人机数量,αk、γk和εk的计算公式分别为:
Figure GDA0002971366730000134
Figure GDA0002971366730000135
εk=εk-1·V
Figure GDA0002971366730000136
1>μ>0,1>λ>0,1>V>0,本实施例中,μ=0.998,λ=0.8,V=0.998。
下面结合仿真实验,对本发明的技术效果作进一步的说明。
1.仿真条件和内容:
实验运行的环境:操作系统为Microsoft windows 10,编程仿真语言为matlab。实验使用了五个不同的场景,每个场景除任务和无人机分布位置不同外其余均相同,收敛时间为50次独立试验后求均值结果。
对本发明与现有的一种基于粒子群算法的无人机任务分配方法的收敛时间进行对比仿真,其结果如图2所示。
2.仿真结果分析:
参照图2,图2对比了本发明与现有技术的平均收敛时间,横坐标为五个不同场景,纵坐标为无人机任务协同分配达到收敛的平均时间,在五个不同场景下,本发明的平均收敛时间分别为220.4382s、145.5698s、248.282s、125.9832s、175.6162s,现有技术的平均收敛时间为491.28s、580.15s、413.48s、526s、535.53s。本发明使用Q学习方法,综合考虑局部和全局信息,在保证全局优化的基础上避免陷入局部最优,起到加速作用。本发明在收敛速度上具有绝对优势,相对于现有技术提速一倍以上。实验结果表明,本发明可以有效提升无人机任务分配的收敛速度。

Claims (6)

1.一种基于Q学习的无人机任务协同分配方法,其特征在于,包括如下步骤:
(1)初始化参数:
初始化大小为X·Y·Z的空间场景中待执行任务集合为T={t1,t2,...,ti,...,tm},能执行T中任务的无人机集合为At={at1,at2,...,atj,...,atn},任务所需执行量集合E={e1,e2,...,ei,...,em},其中,ti表示第i个任务,m表示任务总数,m>0,atj表示第j个无人机,n表示无人机总数,n>0,ei表示任务ti需要的总执行量;
(2)获取每个无人机atj的邻居无人机集合:
通过空间场景中每个无人机atj的位置坐标,计算atj与其他n-1个无人机atw的距离dsjw,并将atw中dsjw小于预设的通信距离阈值max_pass的无人机作为atj的邻居,得到atj的邻居无人机子集合
Figure FDA0002971366720000011
则At的邻居无人机集合为NEI={Ne1,...,Nej,...,Nen},其中,w∈n,w≠j,max_pass>0,
Figure FDA0002971366720000012
表示atj的第h个邻居,j_num为atj的邻居数量;
(3)确定敏感无人机和间接无人机:
(3a)通过空间场景中每个无人机atj与每个任务ti的位置坐标,计算atj与ti间的距离bsji,得到距离集合BIS={Bs1,...,Bsj,...,Bsn},其中,Bsj表示atj与m个任务的距离子集合,Bsj={bsj1,...,bsji,...,bsjm},bisji>0;
(3b)将At中Bsj小于预设的距离阈值L的n**个无人机作为敏感无人机
Figure FDA0002971366720000013
其余n-n**个无人机作为间接无人机
Figure FDA0002971366720000014
则每个敏感无人机atby与m个任务的距离子集合为Bsby,每个间接无人机atcx与m个任务的距离子集合为Bscx,其中,L>0,atby表示第y个敏感无人机,n**表示敏感无人机的数量,atcx表示第x个间接无人机,n*表示间接无人机的数量,n*=n-n**
(4)每个敏感无人机atby向其邻居无人机发送通信包:
(4a)每个敏感无人机atby选择其与m个任务的距离子集合Bsby中数值最小的任务
Figure FDA0002971366720000021
作为当前执行任务,并计算atby经过Bsby衰减后具有的对
Figure FDA0002971366720000022
施加执行量
Figure FDA0002971366720000023
再将
Figure FDA0002971366720000024
更新为
Figure FDA0002971366720000025
Figure FDA0002971366720000026
更新为
Figure FDA0002971366720000027
其中,
Figure FDA0002971366720000028
表示T中第
Figure FDA0002971366720000029
个任务;
(4b)将
Figure FDA00029713667200000210
作为通信包任务paby、当前时间作为通信包发送时间timeby,并将paby和timeby构成atby的通信包packby发送至Neby中的邻居无人机;
(5)获取每个间接无人机atcx的Q表:
(5a)atcx计算经过其与m个任务的距离子集合Bscx衰减后能对T中每个任务ti施加的执行量
Figure FDA00029713667200000211
得到atcx的执行量子集合
Figure FDA00029713667200000212
则At的执行量集合
Figure FDA00029713667200000213
(5b)atcx判断是否接收到通信包,若是,选择最新发送时间timebst对应的通信包packbst,令atcx的当前执行任务
Figure FDA00029713667200000214
并更新er
Figure FDA00029713667200000215
否则,令
Figure FDA00029713667200000216
其中,
Figure FDA00029713667200000217
表示T中第r个任务;
(5c)atcx计算对每个任务ti的累计执行量
Figure FDA00029713667200000218
得到atcx对T的累计执行量集合
Figure FDA00029713667200000219
则C对T的累计执行量集合为
Figure FDA00029713667200000220
其中:
Figure FDA00029713667200000221
(5d)初始化大小为(m+1)×m的
Figure FDA00029713667200000222
表,并给
Figure FDA00029713667200000223
表中每个元素赋值,得到atcx的Q表
Figure FDA00029713667200000224
Figure FDA00029713667200000225
其中,
Figure FDA00029713667200000226
表示
Figure FDA00029713667200000227
中第ca行第cb列元素;
(6)初始化Q学习参数:
初始化迭代次数k,最大迭代次数K,K≥100,学习率αk,折扣率γk,探索判别值εk,1>αk>0,1>γk>0,1>εk>0,并令k=1;
(7)获取无人机任务协同分配结果:
(7a)每个间接无人机atcx选择最新发送时间timebst对应的通信包packbst,得到与pabst对应的任务标号ρ,并更新
Figure FDA0002971366720000031
Figure FDA0002971366720000032
再通过
Figure FDA0002971366720000033
计算atcx对每个任务ts的转移概率
Figure FDA0002971366720000034
得到atcx对应m个任务的概率子集合
Figure FDA0002971366720000035
则C的转移概率集合为
Figure FDA0002971366720000036
其中:
Figure FDA0002971366720000037
1>δ>0,1>β>0,M>0;
(7b)将随机产生cn*个0到1之间的小数εcx←random(0,1)组成的小数集合
Figure FDA0002971366720000038
作为C中每个atcx的探索值,并判断
Figure FDA0002971366720000039
是否成立,若是,执行步骤(7c),否则,执行步骤(7d);
(7c)根据atcx对每个任务ts的转移概率
Figure FDA00029713667200000310
随机选取T中一个任务作为atcx的待执行的任务
Figure FDA00029713667200000311
其中
Figure FDA00029713667200000312
表示T中第ne个任务;
(7d)根据atcx对每个任务ts的转移概率
Figure FDA00029713667200000313
计算atcx对每个任务ts的转移值
Figure FDA00029713667200000314
得到atcx对应m个任务的转移值子集合
Figure FDA0002971366720000041
则C的转移值集合为
Figure FDA0002971366720000042
并将
Figure FDA0002971366720000043
中最大转移值对应的任务作为atcx待执行的任务
Figure FDA0002971366720000044
其中:
Figure FDA0002971366720000045
η>0,
Figure FDA0002971366720000046
表示T中第ne个任务;
(7e)将At中执行ti的无人机构成集合
Figure FDA0002971366720000047
并通过FAk以及Excx中与
Figure FDA0002971366720000048
对应的
Figure FDA0002971366720000049
计算atcx的回报值
Figure FDA00029713667200000410
Figure FDA00029713667200000411
Figure FDA00029713667200000412
Figure FDA00029713667200000413
其中,
Figure FDA00029713667200000414
表示执行ti的所有无人机的集合,
Figure FDA00029713667200000415
Figure FDA00029713667200000416
表示At中第z个执行ti的无人机,vgi表示执行ti的无人机数量,
Figure FDA00029713667200000417
表示立即回报值,
Figure FDA00029713667200000418
表示延时回报值,Max>0;
(7f)通过
Figure FDA0002971366720000051
对应的
Figure FDA0002971366720000052
将ene更新为
Figure FDA0002971366720000053
Figure FDA0002971366720000054
更新为
Figure FDA0002971366720000055
通过
Figure FDA0002971366720000056
对应的
Figure FDA0002971366720000057
将er更新为
Figure FDA0002971366720000058
并判断
Figure FDA0002971366720000059
是否成立,若是,atcx不与Neicx中的无人机通信,否则,将
Figure FDA00029713667200000510
作为通信包任务pacx,将当前时间作为通信包发送时间timecx,并将pacx和timecx构成atcx的通信包packcx发送至Necx中的邻居无人机;
(7g)每个atcx利用Q学习公式,通过
Figure FDA00029713667200000511
Figure FDA00029713667200000512
计算执行任务
Figure FDA00029713667200000513
Figure FDA00029713667200000514
表,并通过
Figure FDA00029713667200000515
Figure FDA00029713667200000516
更新为
Figure FDA00029713667200000517
(7h)判断k=K是否成立,若是,将与
Figure FDA00029713667200000518
相同的atω组合成执行每个任务ti的无人机集合
Figure FDA00029713667200000519
则执行T的无人机集合TC={TN1,...,TNi,...,TNm},否则,令k=k+1,计算学习率αk、折扣率γk和探索判别值εk,并执行步骤(7a),其中,
Figure FDA00029713667200000520
表示第ζ个执行ti的无人机,Lai表示执行ti的无人机数量,αk和γk的计算公式分别为:
Figure FDA00029713667200000521
Figure FDA00029713667200000522
Figure FDA00029713667200000523
2.根据权利要求1所述的基于Q学习的无人机任务协同分配方法,其特征在于,步骤(2)中所述通过空间场景中每个无人机atj的位置坐标,计算atj与其他n-1个无人机atw的距离dsjw,计算公式为:
Figure FDA00029713667200000524
其中,
Figure FDA00029713667200000525
表示atj在空间中的三维坐标,
Figure FDA00029713667200000526
表示atw在空间中的三维坐标,
Figure FDA00029713667200000527
3.根据权利要求1所述的基于Q学习的无人机任务协同分配方法,其特征在于,步骤(3)中所述通过空间场景中每个无人机atj与每个任务ti的位置坐标计算atj与ti距离bsji的计算公式为:
Figure FDA0002971366720000061
其中,
Figure FDA0002971366720000062
表示ti在空间中的三维坐标,
Figure FDA0002971366720000063
4.根据权利要求1所述的基于Q学习的无人机任务协同分配方法,其特征在于,步骤(4a)中所述atby经过Bsby衰减后具有的对
Figure FDA0002971366720000064
施加执行量
Figure FDA0002971366720000065
的计算公式为:
Figure FDA0002971366720000066
其中,ab为At中无人机的执行量,1>τ>0。
5.根据权利要求1所述的基于Q学习的无人机任务协同分配方法,其特征在于,步骤(7g)中所述
Figure FDA0002971366720000067
表的计算公式为:
Figure FDA0002971366720000068
6.根据权利要求1所述的基于Q学习的无人机任务协同分配方法,其特征在于,步骤(7h)中所述探索判别值εk的计算公式为:
εk=εk-1·V
其中,1>V>0。
CN202010612864.4A 2020-06-30 2020-06-30 基于q学习的无人机任务协同分配方法 Active CN111736461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010612864.4A CN111736461B (zh) 2020-06-30 2020-06-30 基于q学习的无人机任务协同分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010612864.4A CN111736461B (zh) 2020-06-30 2020-06-30 基于q学习的无人机任务协同分配方法

Publications (2)

Publication Number Publication Date
CN111736461A CN111736461A (zh) 2020-10-02
CN111736461B true CN111736461B (zh) 2021-05-04

Family

ID=72653743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010612864.4A Active CN111736461B (zh) 2020-06-30 2020-06-30 基于q学习的无人机任务协同分配方法

Country Status (1)

Country Link
CN (1) CN111736461B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116027673B (zh) * 2023-03-29 2023-06-06 中国电子科技集团公司第二十九研究所 一种基于模糊神经网络的装备控制自主决策方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136081A (zh) * 2007-09-13 2008-03-05 北京航空航天大学 基于蚁群智能的无人作战飞机多机协同任务分配方法
CN104684040A (zh) * 2015-03-09 2015-06-03 西安电子科技大学 基于模糊推理的q学习车载网建立路由路径的方法
CN105069530A (zh) * 2015-08-13 2015-11-18 肇庆学院 一种基于多目标优化的多机器人任务分配方法
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
CN109474960A (zh) * 2018-11-14 2019-03-15 南京邮电大学 一种基于q学习的双连接流量分配方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN110662238A (zh) * 2019-10-24 2020-01-07 南京大学 一种针对边缘网络下突发请求的强化学习调度方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701251B (zh) * 2016-02-09 2022-08-12 谷歌有限责任公司 使用优势估计强化学习
US11593659B2 (en) * 2018-03-30 2023-02-28 Visa International Service Association Method, system, and computer program product for implementing reinforcement learning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136081A (zh) * 2007-09-13 2008-03-05 北京航空航天大学 基于蚁群智能的无人作战飞机多机协同任务分配方法
CN104684040A (zh) * 2015-03-09 2015-06-03 西安电子科技大学 基于模糊推理的q学习车载网建立路由路径的方法
CN105069530A (zh) * 2015-08-13 2015-11-18 肇庆学院 一种基于多目标优化的多机器人任务分配方法
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
CN109474960A (zh) * 2018-11-14 2019-03-15 南京邮电大学 一种基于q学习的双连接流量分配方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN110662238A (zh) * 2019-10-24 2020-01-07 南京大学 一种针对边缘网络下突发请求的强化学习调度方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A task scheduling algorithm based on Q-learning and shared value function for WSNs;ZhenchunWei,等;《Computer Networks》;20171024;第126卷;第141-149页 *
Q-learning based Routing Scheduling For a Multi-Task Autonomous Agent;Omar Bouhamed等;《2019 IEEE 62nd International Midwest Symposium on Circuits and Systems (MWSCAS)》;20190807;第634-637页 *
基于状态回溯代价分析的启发式Q学习;方敏,等;《模式识别与人工智能》;20130915;第26卷(第09期);第838-844页 *
多无人机系统的协同目标分配和航迹规划方法研究;赵明;《中国博士学位论文全文数据库 工程科技II辑》;20170215(第02(2017)期);第C031-57页 *

Also Published As

Publication number Publication date
CN111736461A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN110134146B (zh) 一种不确定环境下的分布式多无人机任务分配方法
CN112925350B (zh) 一种多无人机分布式协同目标搜索方法
WO2018095065A1 (zh) 分配数据对象的方法、装置及电子设备
Chen et al. Efficiency and fairness oriented dynamic task offloading in internet of vehicles
CN110717300B (zh) 面向电力物联实时在线监测业务的边缘计算任务分配方法
CN111770454B (zh) 移动群智感知中位置隐私保护与平台任务分配的博弈方法
CN109146349B (zh) 订单分配方法及装置
CN111736461B (zh) 基于q学习的无人机任务协同分配方法
CN108415760B (zh) 一种基于移动机会网络的群智计算在线任务分配方法
CN112926827B (zh) 一种基于性能影响算法的多无人机任务重分配方法
CN114167898B (zh) 一种无人机收集数据的全局路径规划方法及系统
Verma et al. Censored semi-bandits: A framework for resource allocation with censored feedback
CN111313957A (zh) 基于分类多目标优化的混合卫星通信系统资源分配方法
CN116263681A (zh) 移动边缘计算任务卸载方法、装置、设备及存储介质
CN112256413A (zh) 基于物联网的边缘计算任务的调度方法和装置
CN116915869A (zh) 基于云边协同的时延敏感型智能服务快速响应方法
CN116089083A (zh) 一种多目标数据中心资源调度方法
CN111680934A (zh) 基于群体熵和q学习的无人机任务分配方法
CN111125848A (zh) 一种危险品运输网络应急救援资源分配方法
CN103164747B (zh) 一种战场抢修资源重组优化决策方法
Wu et al. Consensus based distributive task allocation for multi-AUV in searching and detecting
CN115907051A (zh) 任务分配的方法、装置、设备、存储介质及程序产品
Petrenko et al. Method and algorithm for task allocation in a heterogeneous group of UAVs in a clustered field of targets
CN111813525A (zh) 一种异构系统工作流调度方法
CN110188925A (zh) 一种时域连续型空间众包任务分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant