CN111915142A - 一种基于深度强化学习的无人机辅助资源分配方法 - Google Patents

一种基于深度强化学习的无人机辅助资源分配方法 Download PDF

Info

Publication number
CN111915142A
CN111915142A CN202010644395.4A CN202010644395A CN111915142A CN 111915142 A CN111915142 A CN 111915142A CN 202010644395 A CN202010644395 A CN 202010644395A CN 111915142 A CN111915142 A CN 111915142A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
total
intelligent device
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010644395.4A
Other languages
English (en)
Other versions
CN111915142B (zh
Inventor
郑�镐
蒋丽
陈彬
薛龙男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010644395.4A priority Critical patent/CN111915142B/zh
Publication of CN111915142A publication Critical patent/CN111915142A/zh
Application granted granted Critical
Publication of CN111915142B publication Critical patent/CN111915142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;S2:获取智能设备产生的计算任务信息并整合成系统状态St;S3:输入系统状态St对神经网络进行训练,得到系统动作At;S4:根据系统动作At计算得到相应的总开销Ctotal;S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。本发明提供一种基于深度强化学习的无人机辅助资源分配方法,解决了目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的问题。

Description

一种基于深度强化学习的无人机辅助资源分配方法
技术领域
本发明涉及资源分配优化技术领域,更具体的,涉及一种基于深度强化学习的无人机辅助资源分配方法。
背景技术
工业是物联网应用的重要领域,具有环境感知能力的各类智能设备、基于泛在技术的计算模式、移动通信等不断融入到工业生产的各个环节,可大幅提高制造效率,改善产品质量,降低产品成本和资源消耗,加速传统工业向智能化转变。
无线智能设备网络已广泛应用于野外或者工业等诸多领域,在这些场景下的智能设备由于外形因素小、生产成本约束严格,在电池电量方面往往受到限制。依靠传统的能源供应,更换电池的频率将会很高,限制了无线智能设备网络的部署。无线功率传输(WPT)技术可以为低功耗的物联网无线网络提供具有成本效益低的能源供应,利用WPT的无线智能设备的电池可以在空气中持续充电,不需要更换电池,能够降低电池更换频率和维持网络寿命。
同时,智能设备还会在计算能力方面受到限制,但是又由于智能设备经常会以一定的频率产生一些计算任务需要处理,如果不及时进行处理,将会导致任务被丢弃,造成不可挽回的后果。通过移动边缘计算(MEC)将智能设备产生的计算密集型任务转移到附近的边缘服务器,从而减少计算延迟和能耗,增强低功耗网络(如无线智能设备)的数据处理能力,延长整个网络的寿命并且提高网络的服务质量。
但是,目前针对工业物联网智能设备的资源分配优化程度不够高,导致计算任务时间延迟和能量消耗都比较高。现有技术中,如一种基于能量收集技术的联合计算卸载方法及装置,公开号为CN109829332A,仅针对计算卸载进行资源分配优化,只提高了计算性能,而没有结合无线充电进行优化。
发明内容
本发明为克服目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的技术缺陷,提供一种基于深度强化学习的无人机辅助资源分配方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At
S4:根据系统动作At计算得到相应的总开销Ctotal
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
优选的,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
优选的,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
优选的,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
优选的,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
Figure BDA0002572606110000021
第i个智能设备卸载计算的执行时间为:
Figure BDA0002572606110000022
第i个智能设备本地计算的能量消耗为:
Figure BDA0002572606110000023
第i个智能设备卸载计算的能量消耗为:
Figure BDA0002572606110000024
第i个智能设备从小基站获取的能量为:
Figure BDA0002572606110000031
则第i个智能设备本地计算的成本为:
Figure BDA0002572606110000032
第i个智能设备卸载计算的成本为:
Figure BDA0002572606110000033
第i个智能设备从小基站获取的能量成本为:
Figure BDA0002572606110000034
因此,总开销为:
Figure BDA0002572606110000035
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为
Figure BDA0002572606110000036
B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率
Figure BDA0002572606110000037
hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
优选的,总开销最小化需满足以下约束条件:
Figure BDA0002572606110000041
s.t.C1:
Figure BDA0002572606110000042
C2:
Figure BDA0002572606110000043
C3:
Figure BDA0002572606110000044
C4:
Figure BDA0002572606110000045
C5:
Figure BDA0002572606110000046
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
优选的,神经网络包括动作网络和评论网络。
优选的,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励值
Figure BDA0002572606110000047
即最小化总开销;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
Figure BDA0002572606110000048
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
其中,Ri={di,lii}是智能设备产生的简要计算任务信息,
Figure BDA0002572606110000051
是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
优选的,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
优选的,在步骤S5.4中,
动作网络的损失函数为:
Figure BDA0002572606110000052
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St',At')-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于深度强化学习的无人机辅助资源分配方法,利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒,加快网络的收敛过程,使优化更高效;并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上,能够有效地减少总开销成本,提高无线网络的服务质量。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明中无人机辅助工业物联网计算卸载的应用场景图;
图3为本发明中深度强化学习方法框架示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At
S4:根据系统动作At计算得到相应的总开销Ctotal
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
在实施过程中,利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒,加快网络的收敛过程,使优化更高效;并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上,能够有效地减少总开销成本,提高无线网络的服务质量。
更具体的,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
更具体的,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
在实施过程中,根据系统动作进行资源分配,不同的系统动作产生不同的成本开销。
更具体的,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
在实施过程中,由于小基站的计算和存储能力有限,所以在智能设备发生任务请求后,小基站既可以将计算任务在本地进行处理,也可以卸载到无人机进行处理。
更具体的,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
Figure BDA0002572606110000071
第i个智能设备卸载计算的执行时间为:
Figure BDA0002572606110000072
第i个智能设备本地计算的能量消耗为:
Figure BDA0002572606110000073
第i个智能设备卸载计算的能量消耗为:
Figure BDA0002572606110000074
第i个智能设备从小基站获取的能量为:
Figure BDA0002572606110000075
则第i个智能设备本地计算的成本为:
Figure BDA0002572606110000076
第i个智能设备卸载计算的成本为:
Figure BDA0002572606110000077
第i个智能设备从小基站获取的能量成本为:
Figure BDA0002572606110000078
因此,总开销为:
Figure BDA0002572606110000079
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为
Figure BDA0002572606110000081
B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率
Figure BDA0002572606110000082
hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
在实施过程中,如图2所示,一个区域被划成不同的子区域,每个小区域覆盖一定数量的无线智能设备和一个小基站。小基站的任务就是负责为地面智能设备提供无线充电服务和计算服务。一组飞行的无人机可以作为一个临时的小基站,也可以提供计算服务。由于地面小基站的计算能力有限,任务繁忙的时候可以求助于无人机。所以计算任务既可以在本地小基站进行也可以将计算资源卸载到无人机上进行处理。智能设备是能量需求方,小基站和无人机是彼此不相关的第三方运营商。假设每个无人机每次只服务一个小区域,而每个小区域可以使用多个无人机。由于无人机是在不停的服务,为了有效缓解网络拥塞,部署的无人机必须具备足够的车载电源以满足下行通信需求。
更具体的,总开销最小化需满足以下约束条件:
Figure BDA0002572606110000083
s.t.C1:
Figure BDA0002572606110000084
C2:
Figure BDA0002572606110000085
C3:
Figure BDA0002572606110000086
C4:
Figure BDA0002572606110000087
C5:
Figure BDA0002572606110000088
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
更具体的,神经网络包括动作网络和评论网络。
更具体的,如图3所示,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励值
Figure BDA0002572606110000091
即最小化总开销;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
Figure BDA0002572606110000092
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
其中,Ri={di,lii}是智能设备产生的简要计算任务信息,
Figure BDA0002572606110000093
是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
更具体的,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
更具体的,在步骤S5.4中,
动作网络的损失函数为:
Figure BDA0002572606110000101
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St',At')-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
在实施过程中,用所选样本的平均交叉熵损失来表示动作网络的损失函数;通过优化这两个损失函数来更新两个网络的参数,学习到最优策略,从而完成训练过程,根据最后的系统动作进行无线充电和计算卸载,优化资源分配。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At
S4:根据系统动作At计算得到相应的总开销Ctotal
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
2.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
3.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
4.根据权利要求3所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
5.根据权利要求4所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
Figure FDA0002572606100000011
第i个智能设备卸载计算的执行时间为:
Figure FDA0002572606100000012
第i个智能设备本地计算的能量消耗为:
Figure FDA0002572606100000021
第i个智能设备卸载计算的能量消耗为:
Figure FDA0002572606100000022
第i个智能设备从小基站获取的能量为:
Figure FDA0002572606100000023
则第i个智能设备本地计算的成本为:
Figure FDA0002572606100000024
第i个智能设备卸载计算的成本为:
Figure FDA0002572606100000025
第i个智能设备从小基站获取的能量成本为:
Figure FDA0002572606100000026
因此,总开销为:
Figure FDA0002572606100000027
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为
Figure FDA0002572606100000028
B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率
Figure FDA0002572606100000029
hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
6.根据权利要求5所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,总开销最小化需满足以下约束条件:
Figure FDA0002572606100000031
s.t.C1:
Figure FDA0002572606100000032
C2:
Figure FDA0002572606100000033
C3:
Figure FDA0002572606100000034
C4:
Figure FDA0002572606100000035
C5:
Figure FDA0002572606100000036
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
7.根据权利要求6所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,神经网络包括动作网络和评论网络。
8.根据权利要求7所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励值
Figure FDA0002572606100000037
即最小化总开销;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
Figure FDA0002572606100000041
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
其中,Ri={di,lii}是智能设备产生的简要计算任务信息,
Figure FDA0002572606100000042
是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
9.根据权利要求8所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
10.根据权利要求8所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S5.4中,
动作网络的损失函数为:
Figure FDA0002572606100000043
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(S′t,A′t)-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
CN202010644395.4A 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法 Active CN111915142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010644395.4A CN111915142B (zh) 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644395.4A CN111915142B (zh) 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法

Publications (2)

Publication Number Publication Date
CN111915142A true CN111915142A (zh) 2020-11-10
CN111915142B CN111915142B (zh) 2024-04-12

Family

ID=73227487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644395.4A Active CN111915142B (zh) 2020-07-07 2020-07-07 一种基于深度强化学习的无人机辅助资源分配方法

Country Status (1)

Country Link
CN (1) CN111915142B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112512063A (zh) * 2020-11-25 2021-03-16 福州大学 基于射频能量收集的无人机协助边缘计算的资源分配方法
CN112637806A (zh) * 2020-12-15 2021-04-09 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN112668912A (zh) * 2020-12-31 2021-04-16 广东中科能睿信息科技有限公司 人工神经网络的训练方法、动态计算切分调度方法、存储介质及系统
CN112929849A (zh) * 2021-01-27 2021-06-08 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180183855A1 (en) * 2016-12-28 2018-06-28 Intel Corporation Application computation offloading for mobile edge computing
CN110495196A (zh) * 2019-06-21 2019-11-22 小米通讯技术有限公司 能力参数处理方法及装置、通信设备及存储介质
CN110602633A (zh) * 2019-08-02 2019-12-20 广东工业大学 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180183855A1 (en) * 2016-12-28 2018-06-28 Intel Corporation Application computation offloading for mobile edge computing
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN110495196A (zh) * 2019-06-21 2019-11-22 小米通讯技术有限公司 能力参数处理方法及装置、通信设备及存储介质
CN110602633A (zh) * 2019-08-02 2019-12-20 广东工业大学 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于博文 等: "移动边缘计算任务卸载和基站关联协同决策问题研究", 计算机研究与发展, vol. 55, no. 3, pages 537 - 550 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112512063A (zh) * 2020-11-25 2021-03-16 福州大学 基于射频能量收集的无人机协助边缘计算的资源分配方法
CN112637806A (zh) * 2020-12-15 2021-04-09 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN112637806B (zh) * 2020-12-15 2022-07-05 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN112668912A (zh) * 2020-12-31 2021-04-16 广东中科能睿信息科技有限公司 人工神经网络的训练方法、动态计算切分调度方法、存储介质及系统
CN112929849A (zh) * 2021-01-27 2021-06-08 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN112929849B (zh) * 2021-01-27 2022-03-01 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备

Also Published As

Publication number Publication date
CN111915142B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN111915142A (zh) 一种基于深度强化学习的无人机辅助资源分配方法
Peng et al. Deep reinforcement learning based resource management for multi-access edge computing in vehicular networks
CN109413615B (zh) 车联网中基于mec的能量感知卸载的能量延迟折衷
CN111372314A (zh) 基于移动边缘计算场景下的任务卸载方法及任务卸载装置
CN112995913A (zh) 一种无人机轨迹、用户关联和资源分配联合优化方法
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN113905347B (zh) 一种空地一体化电力物联网云边端协同方法
CN113395654A (zh) 一种边缘计算系统的多无人机任务卸载和资源分配的方法
CN113939034A (zh) 一种立体异构电力物联网云边端协同资源分配方法
CN110968426A (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN114650228B (zh) 一种异构网络中基于计算卸载的联邦学习调度方法
Yang et al. Learning based channel allocation and task offloading in temporary UAV-assisted vehicular edge computing networks
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
CN114521002A (zh) 一种云边端合作的边缘计算方法
Yu et al. UAV-assisted cooperative offloading energy efficiency system for mobile edge computing
Sohn et al. Distributed scheduling using belief propagation for internet-of-things (IoT) networks
Shi et al. Energy-efficient UAV-enabled computation offloading for industrial internet of things: a deep reinforcement learning approach
CN112579290A (zh) 一种基于无人机的地面终端设备的计算任务迁移方法
CN112969157B (zh) 一种无人机网络负载均衡方法
CN115967430A (zh) 一种基于深度强化学习的成本最优空地网络任务卸载方法
CN115955711A (zh) 一种面向能效最优的空地6g网络资源分配方法
CN114745386B (zh) 一种多用户边缘智能场景下的神经网络分割及卸载方法
CN116113025A (zh) 一种无人机协能通信网络中轨迹设计和功率分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Jiang Li

Inventor after: Zheng Gao

Inventor after: Chen Bin

Inventor after: Xue Longnan

Inventor before: Zheng Gao

Inventor before: Jiang Li

Inventor before: Chen Bin

Inventor before: Xue Longnan

GR01 Patent grant
GR01 Patent grant