CN111915142B - 一种基于深度强化学习的无人机辅助资源分配方法 - Google Patents

一种基于深度强化学习的无人机辅助资源分配方法 Download PDF

Info

Publication number
CN111915142B
CN111915142B CN202010644395.4A CN202010644395A CN111915142B CN 111915142 B CN111915142 B CN 111915142B CN 202010644395 A CN202010644395 A CN 202010644395A CN 111915142 B CN111915142 B CN 111915142B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
base station
network
small base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010644395.4A
Other languages
English (en)
Other versions
CN111915142A (zh
Inventor
蒋丽
郑�镐
陈彬
薛龙男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010644395.4A priority Critical patent/CN111915142B/zh
Publication of CN111915142A publication Critical patent/CN111915142A/zh
Application granted granted Critical
Publication of CN111915142B publication Critical patent/CN111915142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;S2:获取智能设备产生的计算任务信息并整合成系统状态St;S3:输入系统状态St对神经网络进行训练,得到系统动作At;S4:根据系统动作At计算得到相应的总开销Ctotal;S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。本发明提供一种基于深度强化学习的无人机辅助资源分配方法,解决了目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的问题。

Description

一种基于深度强化学习的无人机辅助资源分配方法
技术领域
本发明涉及资源分配优化技术领域,更具体的,涉及一种基于深度强化学习的无人机辅助资源分配方法。
背景技术
工业是物联网应用的重要领域,具有环境感知能力的各类智能设备、基于泛在技术的计算模式、移动通信等不断融入到工业生产的各个环节,可大幅提高制造效率,改善产品质量,降低产品成本和资源消耗,加速传统工业向智能化转变。
无线智能设备网络已广泛应用于野外或者工业等诸多领域,在这些场景下的智能设备由于外形因素小、生产成本约束严格,在电池电量方面往往受到限制。依靠传统的能源供应,更换电池的频率将会很高,限制了无线智能设备网络的部署。无线功率传输(WPT)技术可以为低功耗的物联网无线网络提供具有成本效益低的能源供应,利用WPT的无线智能设备的电池可以在空气中持续充电,不需要更换电池,能够降低电池更换频率和维持网络寿命。
同时,智能设备还会在计算能力方面受到限制,但是又由于智能设备经常会以一定的频率产生一些计算任务需要处理,如果不及时进行处理,将会导致任务被丢弃,造成不可挽回的后果。通过移动边缘计算(MEC)将智能设备产生的计算密集型任务转移到附近的边缘服务器,从而减少计算延迟和能耗,增强低功耗网络(如无线智能设备)的数据处理能力,延长整个网络的寿命并且提高网络的服务质量。
但是,目前针对工业物联网智能设备的资源分配优化程度不够高,导致计算任务时间延迟和能量消耗都比较高。现有技术中,如一种基于能量收集技术的联合计算卸载方法及装置,公开号为CN109829332A,仅针对计算卸载进行资源分配优化,只提高了计算性能,而没有结合无线充电进行优化。
发明内容
本发明为克服目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的技术缺陷,提供一种基于深度强化学习的无人机辅助资源分配方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At
S4:根据系统动作At计算得到相应的总开销Ctotal
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
优选的,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
优选的,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
优选的,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
优选的,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
第i个智能设备卸载计算的执行时间为:
第i个智能设备本地计算的能量消耗为:
第i个智能设备卸载计算的能量消耗为:
第i个智能设备从小基站获取的能量为:
则第i个智能设备本地计算的成本为:
第i个智能设备卸载计算的成本为:
第i个智能设备从小基站获取的能量成本为:
因此,总开销为:
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率/>hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
优选的,总开销最小化需满足以下约束条件:
s.t.C1:
C2:
C3:
C4:
C5:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
优选的,神经网络包括动作网络和评论网络。
优选的,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励值即最小化总开销;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
其中,Ri={di,lii}是智能设备产生的简要计算任务信息,是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
优选的,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
优选的,在步骤S5.4中,
动作网络的损失函数为:
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St',At')-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于深度强化学习的无人机辅助资源分配方法,利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒,加快网络的收敛过程,使优化更高效;并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上,能够有效地减少总开销成本,提高无线网络的服务质量。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明中无人机辅助工业物联网计算卸载的应用场景图;
图3为本发明中深度强化学习方法框架示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At
S4:根据系统动作At计算得到相应的总开销Ctotal
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
在实施过程中,利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒,加快网络的收敛过程,使优化更高效;并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上,能够有效地减少总开销成本,提高无线网络的服务质量。
更具体的,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
更具体的,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
在实施过程中,根据系统动作进行资源分配,不同的系统动作产生不同的成本开销。
更具体的,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
在实施过程中,由于小基站的计算和存储能力有限,所以在智能设备发生任务请求后,小基站既可以将计算任务在本地进行处理,也可以卸载到无人机进行处理。
更具体的,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
第i个智能设备卸载计算的执行时间为:
第i个智能设备本地计算的能量消耗为:
第i个智能设备卸载计算的能量消耗为:
第i个智能设备从小基站获取的能量为:
则第i个智能设备本地计算的成本为:
第i个智能设备卸载计算的成本为:
第i个智能设备从小基站获取的能量成本为:
因此,总开销为:
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率/>hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
在实施过程中,如图2所示,一个区域被划成不同的子区域,每个小区域覆盖一定数量的无线智能设备和一个小基站。小基站的任务就是负责为地面智能设备提供无线充电服务和计算服务。一组飞行的无人机可以作为一个临时的小基站,也可以提供计算服务。由于地面小基站的计算能力有限,任务繁忙的时候可以求助于无人机。所以计算任务既可以在本地小基站进行也可以将计算资源卸载到无人机上进行处理。智能设备是能量需求方,小基站和无人机是彼此不相关的第三方运营商。假设每个无人机每次只服务一个小区域,而每个小区域可以使用多个无人机。由于无人机是在不停的服务,为了有效缓解网络拥塞,部署的无人机必须具备足够的车载电源以满足下行通信需求。
更具体的,总开销最小化需满足以下约束条件:
s.t.C1:
C2:
C3:
C4:
C5:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
更具体的,神经网络包括动作网络和评论网络。
更具体的,如图3所示,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励值即最小化总开销;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
其中,Ri={di,lii}是智能设备产生的简要计算任务信息,是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
更具体的,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
更具体的,在步骤S5.4中,
动作网络的损失函数为:
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St',At')-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
在实施过程中,用所选样本的平均交叉熵损失来表示动作网络的损失函数;通过优化这两个损失函数来更新两个网络的参数,学习到最优策略,从而完成训练过程,根据最后的系统动作进行无线充电和计算卸载,优化资源分配。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,包括以
下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态
其中,t表示决策时隙;
S3:输入系统状态对神经网络进行训练,得到系统动作/>
S4:根据系统动作 计算得到相应的总开销/>
S5:根据总开销训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配;
系统动作包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策;
智能设备的二进制卸载决策采用二进制卸载变量表示;
其中,表示选择在本地执行计算任务,/>则表示选择将计算任务整体卸载到无人机上进行处理;
神经网络包括动作网络和评论网络;
在步骤S4中,
设第个智能设备本地计算的执行时间为:
个智能设备卸载计算的执行时间为:
个智能设备本地计算的能量消耗为:
个智能设备卸载计算的能量消耗为:
个智能设备从小基站获取的能量为:
则第个智能设备本地计算的成本为:
个智能设备卸载计算的成本为:
个智能设备从小基站获取的能量成本为:
因此,总开销为:
其中,是小基站分配给智能设备/>的计算资源,/>表示智能设备的计算任务数据量大小、/>表示执行计算任务所需要的计算资源数,智能设备/>的数据上传速率为/>,B为无线信道带宽,/>是智能设备/>的传输功率,/>是分配给智能设备/>的无线信道增益,/>是噪声功率;智能设备/>上传数据到无人机的上传速率/>,/>是智能设备与无人机之间的信道增益,/>是无人机分配给智能设备的计算资源,/>是小基站的能耗密度,是向无人机购买的计算资源的成本,/>是单位周期价格,/>是无人机的计算资源总数;表示能量收集的效率,/>,/>表示的是小基站的传输功率,/>是小基站为智能设备充电服务的时间,/>表示小基站与某一个智能设备之间的信道增益,/>为单位能耗价格;
S5.1:根据总开销得到系统动作/>在决策时隙t 的奖励值/>,同时获得下一个系统状态/>并将 />存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励
即最小化总开销;
其中,对于任何给定的,通过把策略 π 定义为一个映射 π 得到/> ;对于任何/>,通过定义一个映射/> 得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
其中,是智能设备产生的简要计算任务信息,/>是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数和评论网络中的参数/>,得到使总开销最小化的系统动作;
总开销最小化需满足以下约束条件:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸
载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的 延迟都要满足设备的最大容忍延迟时间,表示任务的最大截止时间;C3表示 单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的
资源综合不会超过它们自身的计算资源限制,表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,/>表示智能设备电池的最大容量,/>是每个智能设备的剩余电量。
2.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
3.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤 S5.4 中,
将从记忆内存中选择优化动作网络的样本表示为:
将从记忆内存中选择优化评论网络的样本表示为:
其中,代表样本索引。
4.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤 S5.4 中,
动作网络的损失函数为:
评论网络的损失函数为:
其中,表示动作网络输入/>所产生的输出,γ是折扣因子。
CN202010644395.4A 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法 Active CN111915142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010644395.4A CN111915142B (zh) 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644395.4A CN111915142B (zh) 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法

Publications (2)

Publication Number Publication Date
CN111915142A CN111915142A (zh) 2020-11-10
CN111915142B true CN111915142B (zh) 2024-04-12

Family

ID=73227487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644395.4A Active CN111915142B (zh) 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法

Country Status (1)

Country Link
CN (1) CN111915142B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112512063B (zh) * 2020-11-25 2022-04-29 福州大学 基于射频能量收集的无人机协助边缘计算的资源分配方法
CN112637806B (zh) * 2020-12-15 2022-07-05 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN112668912B (zh) * 2020-12-31 2024-06-14 中软数科(海南)信息科技有限公司 人工神经网络的训练方法、动态计算切分调度方法、存储介质及系统
CN112929849B (zh) * 2021-01-27 2022-03-01 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN114675975B (zh) * 2022-05-24 2022-09-30 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110495196A (zh) * 2019-06-21 2019-11-22 小米通讯技术有限公司 能力参数处理方法及装置、通信设备及存储介质
CN110602633A (zh) * 2019-08-02 2019-12-20 广东工业大学 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10440096B2 (en) * 2016-12-28 2019-10-08 Intel IP Corporation Application computation offloading for mobile edge computing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN110495196A (zh) * 2019-06-21 2019-11-22 小米通讯技术有限公司 能力参数处理方法及装置、通信设备及存储介质
CN110602633A (zh) * 2019-08-02 2019-12-20 广东工业大学 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动边缘计算任务卸载和基站关联协同决策问题研究;于博文 等;计算机研究与发展;第55卷(第3期);第537-550页 *

Also Published As

Publication number Publication date
CN111915142A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111915142B (zh) 一种基于深度强化学习的无人机辅助资源分配方法
CN109413615B (zh) 车联网中基于mec的能量感知卸载的能量延迟折衷
CN111240701B (zh) 一种端-边-云协同计算的任务卸载优化方法
CN111132191B (zh) 移动边缘计算服务器联合任务卸载、缓存及资源分配方法
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN112104502B (zh) 时敏多任务边缘计算与缓存协作卸载策略方法
CN111372314A (zh) 基于移动边缘计算场景下的任务卸载方法及任务卸载装置
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN111158902A (zh) 一种移动边缘分布式机器学习系统和方法
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
CN114650228B (zh) 一种异构网络中基于计算卸载的联邦学习调度方法
CN115659803A (zh) 一种无人机孪生网络映射误差情况下计算任务智能卸载方法
CN113286317A (zh) 一种基于无线供能边缘网络的任务调度方法
CN115037751A (zh) 一种无人机辅助的异构车联网任务迁移与资源分配方法
CN116916386A (zh) 一种考虑用户竞争和负载的大模型辅助边缘任务卸载方法
Zhou et al. Multi-server federated edge learning for low power consumption wireless resource allocation based on user QoE
CN116113025A (zh) 一种无人机协能通信网络中轨迹设计和功率分配方法
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
Chen et al. Augmented deep reinforcement learning for online energy minimization of wireless powered mobile edge computing
CN114363803A (zh) 一种移动边缘计算网络节能的多任务分配方法及系统
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN113821346A (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN112969157B (zh) 一种无人机网络负载均衡方法
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Jiang Li

Inventor after: Zheng Gao

Inventor after: Chen Bin

Inventor after: Xue Longnan

Inventor before: Zheng Gao

Inventor before: Jiang Li

Inventor before: Chen Bin

Inventor before: Xue Longnan

GR01 Patent grant
GR01 Patent grant