CN111915142A - 一种基于深度强化学习的无人机辅助资源分配方法 - Google Patents
一种基于深度强化学习的无人机辅助资源分配方法 Download PDFInfo
- Publication number
- CN111915142A CN111915142A CN202010644395.4A CN202010644395A CN111915142A CN 111915142 A CN111915142 A CN 111915142A CN 202010644395 A CN202010644395 A CN 202010644395A CN 111915142 A CN111915142 A CN 111915142A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- total
- intelligent device
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 238000013468 resource allocation Methods 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000005265 energy consumption Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;S2:获取智能设备产生的计算任务信息并整合成系统状态St;S3:输入系统状态St对神经网络进行训练,得到系统动作At;S4:根据系统动作At计算得到相应的总开销Ctotal;S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。本发明提供一种基于深度强化学习的无人机辅助资源分配方法,解决了目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的问题。
Description
技术领域
本发明涉及资源分配优化技术领域,更具体的,涉及一种基于深度强化学习的无人机辅助资源分配方法。
背景技术
工业是物联网应用的重要领域,具有环境感知能力的各类智能设备、基于泛在技术的计算模式、移动通信等不断融入到工业生产的各个环节,可大幅提高制造效率,改善产品质量,降低产品成本和资源消耗,加速传统工业向智能化转变。
无线智能设备网络已广泛应用于野外或者工业等诸多领域,在这些场景下的智能设备由于外形因素小、生产成本约束严格,在电池电量方面往往受到限制。依靠传统的能源供应,更换电池的频率将会很高,限制了无线智能设备网络的部署。无线功率传输(WPT)技术可以为低功耗的物联网无线网络提供具有成本效益低的能源供应,利用WPT的无线智能设备的电池可以在空气中持续充电,不需要更换电池,能够降低电池更换频率和维持网络寿命。
同时,智能设备还会在计算能力方面受到限制,但是又由于智能设备经常会以一定的频率产生一些计算任务需要处理,如果不及时进行处理,将会导致任务被丢弃,造成不可挽回的后果。通过移动边缘计算(MEC)将智能设备产生的计算密集型任务转移到附近的边缘服务器,从而减少计算延迟和能耗,增强低功耗网络(如无线智能设备)的数据处理能力,延长整个网络的寿命并且提高网络的服务质量。
但是,目前针对工业物联网智能设备的资源分配优化程度不够高,导致计算任务时间延迟和能量消耗都比较高。现有技术中,如一种基于能量收集技术的联合计算卸载方法及装置,公开号为CN109829332A,仅针对计算卸载进行资源分配优化,只提高了计算性能,而没有结合无线充电进行优化。
发明内容
本发明为克服目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的技术缺陷,提供一种基于深度强化学习的无人机辅助资源分配方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St;
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At;
S4:根据系统动作At计算得到相应的总开销Ctotal;
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
优选的,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
优选的,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
优选的,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
优选的,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
第i个智能设备卸载计算的执行时间为:
第i个智能设备本地计算的能量消耗为:
第i个智能设备卸载计算的能量消耗为:
第i个智能设备从小基站获取的能量为:
则第i个智能设备本地计算的成本为:
第i个智能设备卸载计算的成本为:
第i个智能设备从小基站获取的能量成本为:
因此,总开销为:
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
优选的,总开销最小化需满足以下约束条件:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
优选的,神经网络包括动作网络和评论网络。
优选的,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
优选的,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
优选的,在步骤S5.4中,
动作网络的损失函数为:
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St',At')-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于深度强化学习的无人机辅助资源分配方法,利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒,加快网络的收敛过程,使优化更高效;并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上,能够有效地减少总开销成本,提高无线网络的服务质量。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明中无人机辅助工业物联网计算卸载的应用场景图;
图3为本发明中深度强化学习方法框架示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St;
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At;
S4:根据系统动作At计算得到相应的总开销Ctotal;
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
在实施过程中,利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒,加快网络的收敛过程,使优化更高效;并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上,能够有效地减少总开销成本,提高无线网络的服务质量。
更具体的,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
更具体的,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
在实施过程中,根据系统动作进行资源分配,不同的系统动作产生不同的成本开销。
更具体的,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
在实施过程中,由于小基站的计算和存储能力有限,所以在智能设备发生任务请求后,小基站既可以将计算任务在本地进行处理,也可以卸载到无人机进行处理。
更具体的,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
第i个智能设备卸载计算的执行时间为:
第i个智能设备本地计算的能量消耗为:
第i个智能设备卸载计算的能量消耗为:
第i个智能设备从小基站获取的能量为:
则第i个智能设备本地计算的成本为:
第i个智能设备卸载计算的成本为:
第i个智能设备从小基站获取的能量成本为:
因此,总开销为:
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
在实施过程中,如图2所示,一个区域被划成不同的子区域,每个小区域覆盖一定数量的无线智能设备和一个小基站。小基站的任务就是负责为地面智能设备提供无线充电服务和计算服务。一组飞行的无人机可以作为一个临时的小基站,也可以提供计算服务。由于地面小基站的计算能力有限,任务繁忙的时候可以求助于无人机。所以计算任务既可以在本地小基站进行也可以将计算资源卸载到无人机上进行处理。智能设备是能量需求方,小基站和无人机是彼此不相关的第三方运营商。假设每个无人机每次只服务一个小区域,而每个小区域可以使用多个无人机。由于无人机是在不停的服务,为了有效缓解网络拥塞,部署的无人机必须具备足够的车载电源以满足下行通信需求。
更具体的,总开销最小化需满足以下约束条件:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
更具体的,神经网络包括动作网络和评论网络。
更具体的,如图3所示,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
更具体的,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
更具体的,在步骤S5.4中,
动作网络的损失函数为:
评论网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St',At')-Q(St,At))2
其中,u(St)表示动作网络输入St所产生的输出,γ是折扣因子。
在实施过程中,用所选样本的平均交叉熵损失来表示动作网络的损失函数;通过优化这两个损失函数来更新两个网络的参数,学习到最优策略,从而完成训练过程,根据最后的系统动作进行无线充电和计算卸载,优化资源分配。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,包括以下步骤:
S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态St;
其中,t表示决策时隙;
S3:输入系统状态St对神经网络进行训练,得到系统动作At;
S4:根据系统动作At计算得到相应的总开销Ctotal;
S5:根据总开销Ctotal训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
2.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
3.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,系统动作At包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。
4.根据权利要求3所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,智能设备的二进制卸载决策采用二进制卸载变量αi∈(0,1)表示;其中,αi=0表示选择在本地执行计算任务,αi=1则表示选择将计算任务整体卸载到无人机上进行处理。
5.根据权利要求4所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S4中,
设第i个智能设备本地计算的执行时间为:
第i个智能设备卸载计算的执行时间为:
第i个智能设备本地计算的能量消耗为:
第i个智能设备卸载计算的能量消耗为:
第i个智能设备从小基站获取的能量为:
则第i个智能设备本地计算的成本为:
第i个智能设备卸载计算的成本为:
第i个智能设备从小基站获取的能量成本为:
因此,总开销为:
其中,fbs,i是小基站分配给智能设备i的计算资源,di表示智能设备的计算任务数据量大小、li表示执行计算任务所需要的计算资源数,智能设备i的数据上传速率为B为无线信道带宽,pi是智能设备i的传输功率,hi是分配给智能设备i的无线信道增益,N0是噪声功率;智能设备i上传数据到无人机的上传速率hi,u是智能设备与无人机之间的信道增益,fi是无人机分配给智能设备的计算资源,ρ是小基站的能耗密度,liζ是向无人机购买的计算资源的成本,ζ是单位周期价格,F是无人机的计算资源总数;η表示能量收集的效率(0<η<1),Pbs表示的是小基站的传输功率,Ti是小基站为智能设备充电服务的时间,hi,bs表示小基站与某一个智能设备之间的信道增益,λ为单位能耗价格。
6.根据权利要求5所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,总开销最小化需满足以下约束条件:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间,τi表示任务的最大截止时间;C3表示单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制,FBS表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量,Eed表示智能设备电池的最大容量,ei(t)是每个智能设备的剩余电量。
7.根据权利要求6所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,神经网络包括动作网络和评论网络。
8.根据权利要求7所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S5中,具体包括以下步骤:
S5.1:根据总开销Ctotal得到系统动作At在决策时隙t的奖励值Rt=-Ctotal,同时获得下一个系统状态St+1并将(St,At,Rt,St+1)存放在深度强化学习模型的记忆内存中;
其中,对于任何给定的St,通过把策略π定义为一个映射π得到At;对于任何At,通过定义一个映射Q(St,A)得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
At∈{αi,Ti,fbs,i,fi}
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θu和评论网络中的参数θQ,得到使总开销最小化的系统动作。
9.根据权利要求8所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤S5.4中,
将从记忆内存中选择优化动作网络的样本表示为:
Ω={(St,At)|t∈Γ};
将从记忆内存中选择优化评论网络的样本表示为:
ΩΓ={(St,At,Rt,St+1)|t∈Γ};
其中,Γ代表样本索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644395.4A CN111915142B (zh) | 2020-07-07 | 2020-07-07 | 一种基于深度强化学习的无人机辅助资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644395.4A CN111915142B (zh) | 2020-07-07 | 2020-07-07 | 一种基于深度强化学习的无人机辅助资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111915142A true CN111915142A (zh) | 2020-11-10 |
CN111915142B CN111915142B (zh) | 2024-04-12 |
Family
ID=73227487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010644395.4A Active CN111915142B (zh) | 2020-07-07 | 2020-07-07 | 一种基于深度强化学习的无人机辅助资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111915142B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112512063A (zh) * | 2020-11-25 | 2021-03-16 | 福州大学 | 基于射频能量收集的无人机协助边缘计算的资源分配方法 |
CN112637806A (zh) * | 2020-12-15 | 2021-04-09 | 合肥工业大学 | 基于深度强化学习的变电站监测系统及其资源调度方法 |
CN112668912A (zh) * | 2020-12-31 | 2021-04-16 | 广东中科能睿信息科技有限公司 | 人工神经网络的训练方法、动态计算切分调度方法、存储介质及系统 |
CN112929849A (zh) * | 2021-01-27 | 2021-06-08 | 南京航空航天大学 | 一种基于强化学习的可靠车载边缘计算卸载方法 |
CN114675975A (zh) * | 2022-05-24 | 2022-06-28 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180183855A1 (en) * | 2016-12-28 | 2018-06-28 | Intel Corporation | Application computation offloading for mobile edge computing |
CN110495196A (zh) * | 2019-06-21 | 2019-11-22 | 小米通讯技术有限公司 | 能力参数处理方法及装置、通信设备及存储介质 |
CN110602633A (zh) * | 2019-08-02 | 2019-12-20 | 广东工业大学 | 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法 |
CN110798842A (zh) * | 2019-01-31 | 2020-02-14 | 湖北工业大学 | 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法 |
-
2020
- 2020-07-07 CN CN202010644395.4A patent/CN111915142B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180183855A1 (en) * | 2016-12-28 | 2018-06-28 | Intel Corporation | Application computation offloading for mobile edge computing |
CN110798842A (zh) * | 2019-01-31 | 2020-02-14 | 湖北工业大学 | 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法 |
CN110495196A (zh) * | 2019-06-21 | 2019-11-22 | 小米通讯技术有限公司 | 能力参数处理方法及装置、通信设备及存储介质 |
CN110602633A (zh) * | 2019-08-02 | 2019-12-20 | 广东工业大学 | 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法 |
Non-Patent Citations (1)
Title |
---|
于博文 等: "移动边缘计算任务卸载和基站关联协同决策问题研究", 计算机研究与发展, vol. 55, no. 3, pages 537 - 550 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112512063A (zh) * | 2020-11-25 | 2021-03-16 | 福州大学 | 基于射频能量收集的无人机协助边缘计算的资源分配方法 |
CN112637806A (zh) * | 2020-12-15 | 2021-04-09 | 合肥工业大学 | 基于深度强化学习的变电站监测系统及其资源调度方法 |
CN112637806B (zh) * | 2020-12-15 | 2022-07-05 | 合肥工业大学 | 基于深度强化学习的变电站监测系统及其资源调度方法 |
CN112668912A (zh) * | 2020-12-31 | 2021-04-16 | 广东中科能睿信息科技有限公司 | 人工神经网络的训练方法、动态计算切分调度方法、存储介质及系统 |
CN112929849A (zh) * | 2021-01-27 | 2021-06-08 | 南京航空航天大学 | 一种基于强化学习的可靠车载边缘计算卸载方法 |
CN112929849B (zh) * | 2021-01-27 | 2022-03-01 | 南京航空航天大学 | 一种基于强化学习的可靠车载边缘计算卸载方法 |
CN114675975A (zh) * | 2022-05-24 | 2022-06-28 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111915142B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111915142A (zh) | 一种基于深度强化学习的无人机辅助资源分配方法 | |
Peng et al. | Deep reinforcement learning based resource management for multi-access edge computing in vehicular networks | |
CN109413615B (zh) | 车联网中基于mec的能量感知卸载的能量延迟折衷 | |
CN111372314A (zh) | 基于移动边缘计算场景下的任务卸载方法及任务卸载装置 | |
CN112995913A (zh) | 一种无人机轨迹、用户关联和资源分配联合优化方法 | |
CN113032904B (zh) | 模型构建方法、任务分配方法、装置、设备及介质 | |
CN113905347B (zh) | 一种空地一体化电力物联网云边端协同方法 | |
CN113395654A (zh) | 一种边缘计算系统的多无人机任务卸载和资源分配的方法 | |
CN113939034A (zh) | 一种立体异构电力物联网云边端协同资源分配方法 | |
CN110968426A (zh) | 一种基于在线学习的边云协同k均值聚类的模型优化方法 | |
CN114650228B (zh) | 一种异构网络中基于计算卸载的联邦学习调度方法 | |
Yang et al. | Learning based channel allocation and task offloading in temporary UAV-assisted vehicular edge computing networks | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN113747450B (zh) | 一种移动网络中业务部署方法、装置及电子设备 | |
CN113645273B (zh) | 基于业务优先级的车联网任务卸载方法 | |
CN114521002A (zh) | 一种云边端合作的边缘计算方法 | |
Yu et al. | UAV-assisted cooperative offloading energy efficiency system for mobile edge computing | |
Sohn et al. | Distributed scheduling using belief propagation for internet-of-things (IoT) networks | |
Shi et al. | Energy-efficient UAV-enabled computation offloading for industrial internet of things: a deep reinforcement learning approach | |
CN112579290A (zh) | 一种基于无人机的地面终端设备的计算任务迁移方法 | |
CN112969157B (zh) | 一种无人机网络负载均衡方法 | |
CN115967430A (zh) | 一种基于深度强化学习的成本最优空地网络任务卸载方法 | |
CN115955711A (zh) | 一种面向能效最优的空地6g网络资源分配方法 | |
CN114745386B (zh) | 一种多用户边缘智能场景下的神经网络分割及卸载方法 | |
CN116113025A (zh) | 一种无人机协能通信网络中轨迹设计和功率分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Jiang Li Inventor after: Zheng Gao Inventor after: Chen Bin Inventor after: Xue Longnan Inventor before: Zheng Gao Inventor before: Jiang Li Inventor before: Chen Bin Inventor before: Xue Longnan |
|
GR01 | Patent grant | ||
GR01 | Patent grant |