CN111680934B - 基于群体熵和q学习的无人机任务分配方法 - Google Patents
基于群体熵和q学习的无人机任务分配方法 Download PDFInfo
- Publication number
- CN111680934B CN111680934B CN202010614975.9A CN202010614975A CN111680934B CN 111680934 B CN111680934 B CN 111680934B CN 202010614975 A CN202010614975 A CN 202010614975A CN 111680934 B CN111680934 B CN 111680934B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- task
- execution
- denotes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提出了一种基于群体熵和Q学习的无人机任务分配方法,实现步骤为:初始化参数;根据无人机和任务的位置信息获取每个无人机的邻居无人机集合;确定敏感无人机和非敏感无人机;初始化细胞自动机自演化算法参数;获取演化结果,并采用群体熵去衡量每一轮演化的结果;从中选取最优的群体熵信息并根据该信息初始化Q学习中每个无人机的Q表;然后初始化Q学习参数无人机进行Q学习,最后获取无人机任务分配结果。本发明采用群体熵作先验值的方法加速Q学习收敛,并在Q学习过程中充分考虑了全局信息和局部信息,提高算法的学习效率,在保证无人机任务分配结果可靠性的基础上,提升无人机任务分配的收敛速度。
Description
技术领域
本发明属于无人机任务分配技术领域,涉及一种无人机任务分配方法,特别涉及一种基于群体熵和Q学习的无人机任务分配方法,可用于无人机探测任务分配。
背景技术
由于无人机价格低,体积小,油耗低,机动性强的特点,无人机任务分配常被应用于环境检测和地理测绘等场景。无人机任务分配问题可以描述为场景中多个无人机去执行多个任务,每个任务需要无人机提供相应执行量且该执行量随无人机至任务的距离而衰减,目的是寻找一种有效合理的分配方案将任务分配给不同的无人机,使所有任务均得到其所需执行量。无人机任务分配的难点是随无人机数量的增长,问题规模成指数型增长,寻找最优结果困难。无人机任务分配主要基于启发式算法进行求解,典型算法为遗传算法、蚁群算法、粒子群算法等。
相比于其他算法,粒子群算法具有更好的全局收敛性,例如申请公布号为CN108876086A,名称为“一种基于粒子群算法的无人机任务分配方法”的专利申请,利用粒子群算法解决无人机任务分配问题。该方法首先设置微粒种群规模、惯性权值、最大允许迭代次数,然后针对每个微粒生成随机的初始无人机和任务的配对,并计算出目标评价函数,接着找出个体及群体的最优值,更新各个粒子,再根据粒子群优化算法,更新遍历全部粒子,保留最优微粒。该方法采用整形线性规划方法构造最优函数,并利用粒子群算法寻找最优解,具有全局收敛能力,所有任务均能得到其所需执行量。该方法的缺点在于,过分寻求全局最优结果,容易陷入局部最优收敛,导致任务分配的收敛速度较慢。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于群体熵和Q学习的无人机任务分配方法,旨在保证所有任务均得到其所需执行量基础上提高任务分配的收敛速度。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)初始化参数:
初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta={ta1,ta2,...,tai,...tam},无人机集合为A={a1,a2,...,aj,...,an},第j个无人机aj的状态Cj={c1,j,c2,j,...,ci,j,...cm,j},其中,tai表示第i个任务,m表示任务的总数,m≥2,n表示无人机的总数,n≥1,ci,j表示aj对第i个任务的状态,ci,j=0表示不执行,ci,j=1表示执行;
(2)确定每个无人机aj的邻居:
通过A中各无人机的在空间区域内的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,并将aw中dsj,w小于预设的通信距离L的无人机作为aj的邻居,得到aj的邻居无人机集合则A的邻居无人机集合为
NEI={Ne1,Ne2,...,Nej,...,Nen},
(3)确定敏感无人机和非敏感无人机:
(3a)计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,得到距离集合DD={D1,D2,...,Dj,...,Dn},其中Dj表示无人机aj与Ta中每个待执行任务之间的距离集合,Dj={d1,j,d2,j,...,di,j,...,dm,j};
(3b)将A中Dj小于预设通信距离L的n*个无人机组成敏感无人机集合
(4)每个敏感无人机aby选择任务并执行:
(5)初始化细胞自动机自演化算法参数:
初始化执行次数t,最大执行次数为T,T≥5,最优群体熵EB,第t次执行中acx对所有任务的状态集Cx(t)={c1,x(t),c2,x(t),...,ci,x(t),...cm,x(t)},其中ci,x(t)表示第t次执行中acx对tai的状态,并令t=1,ci,x(t)=0,EB=1000;
(6)获取离散信息熵表LS:
(6a)计算无人机集合A的群体熵值group_entropy:
其中Ej(x)表示aj的离散信息熵,p(xij)表示aj执行tai的概率;
(6b)判断EB≥group_entropy是否成立,若是,令EB=group_entropy,并用离散信息熵表LS记录p(xij),否则EB不变;
(6c)判断t=T是否成立,若是,得到离散信息熵表LS,否则,令t=t+1并计算acx对tai的状态ci,x(t),然后执行步骤(6a),其中ci,x(t)的计算公式为:
where
其中,λ1=1表示acx的邻居中存在执行tai的敏感无人机,λ1=0表示acx的邻居中不存在执行tai的敏感无人机,λ2=1表示acx的邻居中执行tai的无人机数量大于门限值Num,λ2=0表示acx的邻居中执行tai的无人机数量小于等于门限值Num;
(7)利用离散信息熵表LS初始化每个无人机aj的AQj表:
初始化大小为(m+1)×(m)的AQj表,并给AQj表中每个元素赋值:
其中,b和c分别表示AQj表中第b行第c列,p(xcj)为离散信息熵表LS记录的值;
(8)获取无人机任务分配结果:
(8a)初始化迭代次数为k,最大迭代次数为K,K≥100,Q学习的学习率为αk,探索判别值为εk,折扣率为γk,阈值常数为ε0,收益最大值为RE,并令k=1,aj执行一次任务的执行量为无人机aj执行Ta中各任务的累计执行量集合Ej={E1,j,E2,j,...,Ei,j,...,Em,j},Ta中各任务需要的执行量集合E={e1,e2,...,ei,...,em},其中1>α>0,1>ε>0,1>γ>0,1>ε0>0,RE≥100,Ei,j表示aj对tai的累计执行量,Ei,j=0,ei表示tai需要的执行量,ei>0;
其中δ,β,M为预设的调节因子;
(8e)aj依据累计执行量集合Ej和AQj表选择Ta中第π(r)个任务执行,得到更新后的aj的累计执行量Eπ(r),j,并执行步骤(8f),其中π(r)的计算和Eπ(r),j的更新公式分别为:
(8f)计算由无人机aj从执行任务tar转到执行当前任务taz引起的回报值Rj(r,z):
(8g)利用AQ表的更新公式,并通过回报值Rj(r,s)对AQj表进行更新,得到更新后的AQj表;
(8h)判断k=K是否成立,若是,得到无人机任务分配结果:RE={Re1,Re2,...Rei,...Rem},否则,令k=k+1,对学习率αk、折扣率γk、探索判别值εk进行更新,然后执行步骤(8b),其中Rei表示执行第i个任务的无人机集合,p为执行第i个任务的无人机总数,αk和γk的更新公式分别为:
η、λ为预设的调节因子。
本发明与现有技术相比,具有如下优点:
本发明在获取无人机任务分配结果时,采用细胞自动机自演化算法获取演化过程中最优群体熵信息,并通过最优群体熵信息对Q学习中每个无人机的Q表进行初始化,从而使无人机在Q学习迭代过程中有更高概率选取到最优的动作进行执行,然后计算无人机对每个任务的转移概率获取无人机对每个任务转移值,并将转移值最优任务作为执行的任务,获取执行任务后的回报值,再将所得回报值用于无人机的Q学习,以实现对无人机自身Q表的优化,充分考虑了全局信息和局部信息,避免了陷入局部优化的情况,与现有技术相比,在保证全局优化能力的基础上,有效提高了任务协同分配的收敛速度。
附图说明
图1本发明实现流程图。
图2本发明与现有技术收敛时间的仿真对比图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步的详细描述。
参照图1,本发明包括如下步骤:
步骤1)初始化无人机任务分配参数:
初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta={ta1,ta2,...,tai,...tam},无人机集合为A={a1,a2,...,aj,...,an},第j个无人机aj的状态Cj={c1,j,c2,j,...,ci,j,...cm,j},其中,tai表示第i个任务,m表示任务的总数,m≥2,n表示无人机的总数,n≥1,ci,j表示aj对第i个任务的状态,ci,j=0表示不执行,ci,j=1表示执行,在任务分配前所有无人机都不执行任务,本实施例中,X=800米,Y=800米,Z=800米,m=10,n=1000;
步骤2)确定每个无人机aj的邻居,邻居指在无人机通信距离内的所有无人机,当无人机的状态发生变化,邻居的状态也很可能会随之发生变化;
通过A中各无人机的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,并将aw中dsj,w小于预设的通信距离L的无人机作为无人机aj的邻居,得到aj的邻居无人机集合则A的邻居无人机集合为
NEI={Ne1,Ne2,...,Nej,...,Nen}
其中dsj,w计算公式为:
步骤3)确定敏感无人机和非敏感无人机,敏感无人机指最接近待执行任务的且直接选择任务进行执行的无人机,非敏感无人机指距离待执行任务较远的需要在细胞自动机算法中进行任务迭代分配的无人机:
(3a)通过A中各无人机aj的位置坐标(xj,yj,zj)和Ta中各任务tai的位置坐标(xti,yti,zti),计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,得到距离集合DD={D1,D2,...,Dj,...,Dn},其中,di,j的计算公式为:
Dj表示无人机aj与Ta中每个待执行任务之间的距离集合,Dj={d1,j,d2,j,...,di,j,...,dm,j};
(3b)将A中Dj小于预设通信距离L的n*个无人机组成敏感无人机集合将其余n-n*个无人机组成非敏感无人机集合其中,aby表示第y个敏感无人机,acx表示第x个非敏感无人机,n**表示非敏感无人机的数量,n**=n-n*;
步骤4)由于敏感无人机的执行量会随着距离进行衰减,每个敏感无人机aby选择距离其最近的任务执行,确保敏感无人机执行效果是最优的:
步骤5)初始化细胞自动机自演化算法参数:
初始化执行次数t,最大执行次数为T,T≥5,最优群体熵值EB,第t次执行中第x个非敏感无人机对所有任务的状态集Cx(t)={c1,x(t),c2,x(t),...,ci,x(t),...cm,x(t)},其中ci,x(t)表示第t次执行中acx对tai的状态,并令t=1,ci,x(t)=ci,x,EB=1000;
步骤6)通过细胞自动机自演化算法对任务进行预分配并用群体熵评估每轮预分配的结果,以获取关于最优任务预分配结果的离散信息熵表LS:
(6a)计算无人机集合A的群体熵值group_entropy:
其中Ej(x)表示aj的离散信息熵,p(xij)表示aj执行tai的概率,概率由两部分组成,左式表示aj邻域内执行任务的无人机数量占所有邻域内n个无人机的比例,右式则表示邻域内与tai最近的距离与di,j的比值,群体熵衡量了场景区域内n个无人机的执行任务的确定性程度,始终为正值,首次比较群体熵时,直接取初始值为最大值,即可以直接保留第一次的结果;
(6b)判断EB≥group_entropy是否成立,若是,令EB=group_entropy,并用离散信息熵表LS记录p(xij),否则EB不变;
(6c)判断t=T是否成立,若是,得到离散信息熵表LS,否则,令t=t+1,并计算acx对tai的状态ci,x(t),然后执行步骤(6a),其中ci,x(t)的计算公式为:
where
其中,λ1=1表示acx的邻居中存在执行tai的敏感无人机,λ1=0表示acx的邻居中不存在执行tai的敏感无人机,λ2=1表示acx的邻居中执行tai的无人机数量大于门限值Num,λ2=0表示acx的邻居中执行tai的无人机数量小于等于门限值Num,该门限值表示平面区域中无人机的密度,密度越大,门限值越大;
步骤7)利用离散信息熵表LS初始化每个无人机aj的AQj表,每个aj维护自己的AQj表,其初始值包含了关于全局信息的群体熵信息,保证了方法全局优化能力并避免陷入局部最优,提高收敛速度:
初始化大小为(m+1)×(m)的AQj表,并给AQj表中每个元素赋值:
其中,b和c分别表示AQj表中第b行第c列,p(xcj)为离散信息熵表LS记录的值,当1≤b≤m且1≤c≤m时,AQj(b,c)表示aj执行任务tab转移执行任务tac的概率值,当b=m+1且1≤c≤m时,AQj(b,c)表示无人机aj从不执行任务到执行任务tac的概率值,p(xcj)为离散信息熵表LS记录的值;
步骤8)通过Q学习算法获取无人机任务分配结果:
(8a)初始化迭代次数为k,最大迭代次数为K,K≥100,Q学习的学习率为αk,探索率为εk,折扣率为γk,收益最大值为RE,aj执行一次任务提供的执行量为aj执行各任务的累计执行量集合Ej={E1,j,E2,j,...,Ei,j,...,Em,j},任务所需执行量集合E={e1,e2,...,ei,...,em},并令k=1,其中1>α>0,1>ε>0,1>γ>0,1>ε0>0,RE≥100,Ei,j表示aj对tai的累计执行量,Ei,j=0,ei表示tai需要的执行量,ei>0,在本实施例中,K=1000,αk=0.999,γk=0.1,εk=1,RE=100;
其中δ,β,M为预设的调节因子,该式表示了aj从执行任务tar向任务tas转移时,执行量与代价分别所占整体比重的乘积,即当执行量积累量越大其转移的概率越高,距离代价越小,转移的概率越高,在本实施例中,δ=0.8,β=0.2,M=10;
τ为预设常数,1>τ>0,ds,j表示aj到任务tas的距离;
(8e)aj依据累计执行量集合Ej和AQj表选择Ta中第π(r)个任务作为当前任务并执行,得到更新后的aj的累计执行量Eπ(r),j,并执行步骤(8f),其中π(r)的计算和Eπ(r),j的更新公式分别为:
dπ(r),j表示aj到任务taπ(r)的距离;
(8f)计算由无人机aj从执行任务tar转到执行当前任务taz引起的回报值Rj(r,z):
其中,Rj(r,z)表示用无人机aj从执行任务tar转向执行taz后,执行量差值乘积的倒数,若二者相等,说明此次转移无收益,若执行量差值均变小,则回报越大,若一个变为0,则减少一个分母,增大回报量,当均变为0时,说明该转移动作收益最大,取收益最大值RE,回报值R(r,z)不仅考虑到了当前动作产生的局部收益,还考虑到了所有任务执行的全局收益;
(8g)利用AQ表的更新公式,通过(8f)中得到的回报值R(r,z)更新aj本次学习后的AQj表,得到更新后的AQj表,由于回报值R(r,z)同时包含全局信息与局部信息,保证了方法的全局优化能力,并避免陷入局部最优,其中AQj表更新公式为:
其中,J(z)表示无人机ai执行任务taz时下可选的目标任务集合,该目标任务集合可以表示为aj的邻居所执行的任务集合;
(8h)判断k=K是否成立,若是,得到无人机任务分配结果:
RE={Re1,Re2,...Rei,...Rem},否则,令k=k+1,对学习率αk、折扣率γk、探索判别值εk进行更新,然后执行步骤(8b),其中Rei表示执行第i个任务的无人机集合,p为执行第i个任务的无人机总数,αk、γk和εk的计算公式分别为:
εk=εk-1·C
η、λ和C为预设的调节因子,本实施例中,μ=0.998,λ=0.8,C=0.998。
下面结合仿真实验,对本发明的技术效果作进一步的说明。
1.仿真条件和内容:
实验运行的环境:操作系统为Microsoft windows 10,编程仿真语言为matlab。实验使用了五个不同的场景,每个场景除任务和无人机分布位置不同外其余均相同,收敛时间为50次独立试验后求均值结果。
对本发明与现有的一种基于粒子群算法的无人机任务分配方法的收敛时间进行对比仿真,其结果如图2所示。
2.仿真结果分析:
参照图2,图2对比了本发明与一种基于粒子群算法的无人机任务分配方法的平均收敛时间,横坐标为五个不同场景,纵坐标为全部任务达到收敛的平均时间,在第一个场景中,本发明的平均收敛时间为107.6625秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为491.28秒,在第二个场景中,本发明的平均收敛时间为89.575秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为580.15秒,在第三个场景中,本发明的平均收敛时间为92.3953秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为413.48秒,在第四个场景中,本发明的平均收敛时间为94.6563秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为526秒,在第五个场景中,本发明的平均收敛时间为96.1531秒,一种基于粒子群算法的无人机任务分配方法的平均收敛时间为535.53秒,根据上述对比,可以看到本发明在收敛速度上具有绝对优势,相比于一种基于粒子群算法的无人机任务分配方法,本发明收敛速度提高了两倍以上。实验结果表明,本发明可以有效提升无人机任务分配的收敛速度。
Claims (5)
1.一种基于群体熵和Q学习的无人机任务分配方法,其特征在于,包括以下步骤:
(1)初始化参数:
初始化大小为X×Y×Z的空间区域内的待执行任务集合为Ta={ta1,ta2,...,tai,...tam},无人机集合为A={a1,a2,...,aj,...,an},第j个无人机aj的状态Cj={c1,j,c2,j,...,ci,j,...cm,j},其中,tai表示第i个任务,m表示任务的总数,m≥2,n表示无人机的总数,n≥1,ci,j表示aj对第i个任务的状态,ci,j=0表示不执行,ci,j=1表示执行;
(2)确定每个无人机aj的邻居:
通过A中各无人机的在空间区域内的位置坐标,计算每个无人机aj与其他n-1个无人机aw的距离dsj,w,并将aw中dsj,w小于预设的通信距离L的无人机作为aj的邻居,得到aj的邻居无人机集合则A的邻居无人机集合为
NEI={Ne1,Ne2,...,Nej,...,Nen},
(3)确定敏感无人机和非敏感无人机:
(3a)计算A中每个无人机aj与Ta中每个待执行任务tai之间的距离di,j,得到距离集合DD={D1,D2,...,Dj,...,Dn},其中Dj表示无人机aj与Ta中每个待执行任务之间的距离集合,Dj={d1,j,d2,j,...,di,j,...,dm,j};
(3b)将A中Dj小于预设通信距离L的n*个无人机组成敏感无人机集合将其余n-n*个无人机组成非敏感无人机集合其中,aby表示第y个敏感无人机,acx表示第x个非敏感无人机,n**表示非敏感无人机的数量,n**=n-n*;
(4)每个敏感无人机aby选择任务并执行:
(5)初始化细胞自动机自演化算法参数:
初始化执行次数t,最大执行次数为T,T≥5,最优群体熵EB,第t次执行中acx对所有任务的状态集Cx(t)={c1,x(t),c2,x(t),...,ci,x(t),...cm,x(t)},其中ci,x(t)表示第t次执行中acx对tai的状态,并令t=1,ci,x(t)=0,EB=1000;
(6)获取离散信息熵表LS:
(6a)计算无人机集合A的群体熵值group_entropy:
group_entropy=E1 2(x)+E2 2(x)+...+Ej 2(x)+...+En 2(x)
其中Ej(x)表示aj的离散信息熵,p(xij)表示aj执行tai的概率;
(6b)判断EB≥group_entropy是否成立,若是,令EB=group_entropy,并用离散信息熵表LS记录p(xij),否则EB不变;
(6c)判断t=T是否成立,若是,得到离散信息熵表LS,否则,令t=t+1,并计算acx对tai的状态ci,x(t),然后执行步骤(6a),其中ci,x(t)的计算公式为:
where
其中,λ1=1表示acx的邻居中存在执行tai的敏感无人机,λ1=0表示acx的邻居中不存在执行tai的敏感无人机,λ2=1表示acx的邻居中执行tai的无人机数量大于门限值Num,λ2=0表示acx的邻居中执行tai的无人机数量小于等于门限值Num;
(7)利用离散信息熵表LS初始化每个无人机aj的AQj表:
初始化大小为(m+1)×(m)的AQj表,并给AQj表中每个元素赋值:
其中,b和c分别表示AQj表中第b行第c列,p(xcj)为离散信息熵表LS记录的值;
(8)获取无人机任务分配结果:
(8a)初始化迭代次数为k,最大迭代次数为K,K≥100,Q学习的学习率为αk,探索判别值为εk,折扣率为γk,阈值常数为ε0,收益最大值为RE,并令k=1,aj执行一次任务的执行量为无人机aj执行Ta中各任务的累计执行量集合Ej={E1,j,E2,j,...,Ei,j,...,Em,j},Ta中各任务需要的执行量集合E={e1,e2,...,ei,...,em},其中1>α>0,1>ε>0,1>γ>0,1>ε0>0,RE≥100,Ei,j表示aj对tai的累计执行量,Ei,j=0,ei表示tai需要的执行量,ei>0;
其中δ,β,M为预设的调节因子;
τ为预设常数,1>τ>0;
(8e)aj依据累计执行量集合Ej和AQj表选择Ta中第π(r)个任务执行,得到更新后的aj的累计执行量Eπ(r),j,并执行步骤(8f),其中π(r)的计算和Eπ(r),j的更新公式分别为:
(8f)计算由无人机aj从执行任务tar转到执行当前任务taz引起的回报值Rj(r,z):
(8g)aj利用AQj表的更新公式,并通过回报值Rj(r,s)对AQj表进行更新,得到更新后的AQj表;
(8h)判断k=K是否成立,若是,得到无人机任务分配结果:RE={Re1,Re2,...Rei,...Rem},否则,令k=k+1,对学习率αk、折扣率γk、探索判别值εk进行更新,然后执行步骤(8b),其中Rei表示执行第i个任务的无人机集合,p为执行第i个任务的无人机总数,αk和γk的更新公式分别为:
η、λ为预设的调节因子。
5.根据权利要求1所述的基于群体熵和Q学习的无人机任务分配方法,其特征在于,步骤(8h)中所述的探索判别值εk的更新公式为:
εk=εk-1·C
其中,C为一个在0和1之间的预设常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614975.9A CN111680934B (zh) | 2020-06-30 | 2020-06-30 | 基于群体熵和q学习的无人机任务分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614975.9A CN111680934B (zh) | 2020-06-30 | 2020-06-30 | 基于群体熵和q学习的无人机任务分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680934A CN111680934A (zh) | 2020-09-18 |
CN111680934B true CN111680934B (zh) | 2023-04-07 |
Family
ID=72456923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010614975.9A Active CN111680934B (zh) | 2020-06-30 | 2020-06-30 | 基于群体熵和q学习的无人机任务分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680934B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018211138A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Multitask neural network systems |
CN110196605A (zh) * | 2019-04-26 | 2019-09-03 | 大连海事大学 | 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法 |
-
2020
- 2020-06-30 CN CN202010614975.9A patent/CN111680934B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018211138A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Multitask neural network systems |
CN110196605A (zh) * | 2019-04-26 | 2019-09-03 | 大连海事大学 | 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法 |
Non-Patent Citations (3)
Title |
---|
Robotic Navigation using Entropy-Based Exploration;Muhammad Usama etc.;《2019 19th International Conference on Control, Automation and Systems (ICCAS)》;IEEE;20200130;全文 * |
基于 Q 学习的 RoboCup 多智能体决策优化;周戎;《中国优秀硕士学位论文期刊网 基础科学辑》;20190215;全文 * |
基于多智能体粒子群的协同空战目标决策研究;付跃文等;《系统仿真学报》;20180913(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111680934A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amiri et al. | Missing data imputation using fuzzy-rough methods | |
Tan et al. | Solving multiobjective vehicle routing problem with stochastic demand via evolutionary computation | |
Bae et al. | Non-probability sampling network for stochastic human trajectory prediction | |
CN114167898B (zh) | 一种无人机收集数据的全局路径规划方法及系统 | |
De Asis et al. | Fixed-horizon temporal difference methods for stable reinforcement learning | |
CN110675912B (zh) | 一种基于结构预测的基因调控网络构建方法 | |
Sledge et al. | Balancing exploration and exploitation in reinforcement learning using a value of information criterion | |
US11605026B2 (en) | Methods and systems for support policy learning | |
CN109523011B (zh) | 一种面向多无人机协同探测的多传感器自适应管理方法 | |
Verma et al. | Censored semi-bandits: A framework for resource allocation with censored feedback | |
Dou et al. | Top-down indoor localization with Wi-fi fingerprints using deep Q-network | |
Maity et al. | An intelligent hybrid algorithm for 4-dimensional TSP | |
Al Moubayed et al. | D 2 MOPSO: multi-objective particle swarm optimizer based on decomposition and dominance | |
Ma et al. | Improving uncertainty calibration of deep neural networks via truth discovery and geometric optimization | |
Lee et al. | Deep graph attention model | |
CN111680934B (zh) | 基于群体熵和q学习的无人机任务分配方法 | |
Iklassov et al. | Reinforcement learning approach to stochastic vehicle routing problem with correlated demands | |
CN110275895B (zh) | 一种缺失交通数据的填充设备、装置及方法 | |
CN111736461B (zh) | 基于q学习的无人机任务协同分配方法 | |
CN117273125A (zh) | 基于强化学习的多模型在线自适应择优技术驱动的进化算法 | |
Kim et al. | Batch sequential minimum energy design with design-region adaptation | |
WO2022165602A1 (en) | Method, system and computer readable medium for probabilistic spatiotemporal forecasting | |
Liu et al. | Graph Diffusion Policy Optimization | |
Oliveira et al. | A History-based Framework for Online Continuous Action Ensembles in Deep Reinforcement Learning. | |
Satake et al. | Predictive Traffic Engineering Incorporatingreal-World Information Inspired by the Cognitiveprocess of the Human Brain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |