CN111915142B

CN111915142B - 一种基于深度强化学习的无人机辅助资源分配方法

Info

Publication number: CN111915142B
Application number: CN202010644395.4A
Authority: CN
Inventors: 蒋丽; 郑�镐; 陈彬; 薛龙男
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2024-04-12
Anticipated expiration: 2040-07-07
Also published as: CN111915142A

Abstract

本发明提供一种基于深度强化学习的无人机辅助资源分配方法，包括以下步骤：S1：构建深度强化学习模型，得到神经网络，并初始化神经网络参数；S2：获取智能设备产生的计算任务信息并整合成系统状态S_t；S3：输入系统状态S_t对神经网络进行训练，得到系统动作A_t；S4：根据系统动作A_t计算得到相应的总开销C_total；S5：根据总开销C_total训练神经网络，得到使总开销最小化的系统动作；S6：完成神经网络的训练，按照得到的使总开销最小化的系统动作进行资源分配。本发明提供一种基于深度强化学习的无人机辅助资源分配方法，解决了目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的问题。

Description

一种基于深度强化学习的无人机辅助资源分配方法

技术领域

本发明涉及资源分配优化技术领域，更具体的，涉及一种基于深度强化学习的无人机辅助资源分配方法。

背景技术

工业是物联网应用的重要领域，具有环境感知能力的各类智能设备、基于泛在技术的计算模式、移动通信等不断融入到工业生产的各个环节，可大幅提高制造效率，改善产品质量，降低产品成本和资源消耗，加速传统工业向智能化转变。

无线智能设备网络已广泛应用于野外或者工业等诸多领域，在这些场景下的智能设备由于外形因素小、生产成本约束严格，在电池电量方面往往受到限制。依靠传统的能源供应，更换电池的频率将会很高，限制了无线智能设备网络的部署。无线功率传输(WPT)技术可以为低功耗的物联网无线网络提供具有成本效益低的能源供应，利用WPT的无线智能设备的电池可以在空气中持续充电，不需要更换电池，能够降低电池更换频率和维持网络寿命。

同时，智能设备还会在计算能力方面受到限制，但是又由于智能设备经常会以一定的频率产生一些计算任务需要处理，如果不及时进行处理，将会导致任务被丢弃，造成不可挽回的后果。通过移动边缘计算(MEC)将智能设备产生的计算密集型任务转移到附近的边缘服务器，从而减少计算延迟和能耗，增强低功耗网络(如无线智能设备)的数据处理能力，延长整个网络的寿命并且提高网络的服务质量。

但是，目前针对工业物联网智能设备的资源分配优化程度不够高，导致计算任务时间延迟和能量消耗都比较高。现有技术中，如一种基于能量收集技术的联合计算卸载方法及装置，公开号为CN109829332A，仅针对计算卸载进行资源分配优化，只提高了计算性能，而没有结合无线充电进行优化。

发明内容

本发明为克服目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的技术缺陷，提供一种基于深度强化学习的无人机辅助资源分配方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于深度强化学习的无人机辅助资源分配方法，包括以下步骤：

S1：构建深度强化学习模型，得到神经网络，并初始化神经网络参数；

S2：获取智能设备产生的计算任务信息并整合成系统状态S_t；

其中，t表示决策时隙；

S3：输入系统状态S_t对神经网络进行训练，得到系统动作A_t；

S4：根据系统动作A_t计算得到相应的总开销C_total；

S5：根据总开销C_total训练神经网络，得到使总开销最小化的系统动作；

S6：完成神经网络的训练，按照得到的使总开销最小化的系统动作进行资源分配。

优选的，初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。

优选的，系统动作A_t包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。

优选的，智能设备的二进制卸载决策采用二进制卸载变量α_i∈(0,1)表示；其中，α_i＝0表示选择在本地执行计算任务，α_i＝1则表示选择将计算任务整体卸载到无人机上进行处理。

优选的，在步骤S4中，

设第i个智能设备本地计算的执行时间为：

第i个智能设备卸载计算的执行时间为：

第i个智能设备本地计算的能量消耗为：

第i个智能设备卸载计算的能量消耗为：

第i个智能设备从小基站获取的能量为：

则第i个智能设备本地计算的成本为：

第i个智能设备卸载计算的成本为：

第i个智能设备从小基站获取的能量成本为：

因此，总开销为：

其中，f_bs,i是小基站分配给智能设备i的计算资源，d_i表示智能设备的计算任务数据量大小、l_i表示执行计算任务所需要的计算资源数，智能设备i的数据上传速率为B为无线信道带宽，p_i是智能设备i的传输功率，h_i是分配给智能设备i的无线信道增益，N₀是噪声功率；智能设备i上传数据到无人机的上传速率/>h_i,u是智能设备与无人机之间的信道增益，f_i是无人机分配给智能设备的计算资源，ρ是小基站的能耗密度，l_iζ是向无人机购买的计算资源的成本，ζ是单位周期价格，F是无人机的计算资源总数；η表示能量收集的效率(0<η<1)，P_bs表示的是小基站的传输功率，T_i是小基站为智能设备充电服务的时间，h_i，bs表示小基站与某一个智能设备之间的信道增益，λ为单位能耗价格。

优选的，总开销最小化需满足以下约束条件：

s.t.C1:

C2:

C3:

C4:

C5:

上面约束中，C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理；C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间，τ_i表示任务的最大截止时间；C3表示单个无人机和小基站计算资源有限的情况下，无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制，F_BS表示小基站的计算资源总数；C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制；C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量，E_ed表示智能设备电池的最大容量，e_i(t)是每个智能设备的剩余电量。

优选的，神经网络包括动作网络和评论网络。

优选的，在步骤S5中，具体包括以下步骤：

S5.1：根据总开销C_total得到系统动作A_t在决策时隙t的奖励值R_t＝-C_total，同时获得下一个系统状态S_t+1并将(S_t,A_t,R_t,S_t+1)存放在深度强化学习模型的记忆内存中；

S5.2：计算全部时隙下获得的最大总奖励值即最小化总开销；

其中，对于任何给定的S_t，通过把策略π定义为一个映射π得到A_t；对于任何A_t，通过定义一个映射Q(S_t,A)得到奖励值R；

S5.3：将系统状态空间定义为：

将系统动作空间定义为：

A_t∈{α_i,T_i,f_bs,i,f_i}

其中，R_i＝{d_i,l_i,τ_i}是智能设备产生的简要计算任务信息，是无人机的剩余资计算资源；

S5.4：从记忆内存中选择样本，向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数θ^u和评论网络中的参数θ^Q，得到使总开销最小化的系统动作。

优选的，在步骤S5.4中，

将从记忆内存中选择优化动作网络的样本表示为：

Ω＝{(S_t，A_t)|t∈Γ}；

将从记忆内存中选择优化评论网络的样本表示为：

Ω_Γ＝{(S_t,A_t,R_t,S_t+1)|t∈Γ}；

其中，Γ代表样本索引。

优选的，在步骤S5.4中，

动作网络的损失函数为：

评论网络的损失函数为：

L(θ^Q)＝E_Γ(R_t+γmaxQ(S_t',A_t')-Q(S_t,A_t))²

其中，u(S_t)表示动作网络输入S_t所产生的输出，γ是折扣因子。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种基于深度强化学习的无人机辅助资源分配方法，利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒，加快网络的收敛过程，使优化更高效；并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上，能够有效地减少总开销成本，提高无线网络的服务质量。

附图说明

图1为本发明的技术方案实施步骤流程图；

图2为本发明中无人机辅助工业物联网计算卸载的应用场景图；

图3为本发明中深度强化学习方法框架示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于深度强化学习的无人机辅助资源分配方法，包括以下步骤：

其中，t表示决策时隙；

S4：根据系统动作A_t计算得到相应的总开销C_total；

在实施过程中，利用深度强化学习方法有效克服传统的深度强化学习方法状态行为空间的维度诅咒，加快网络的收敛过程，使优化更高效；并且得到最优的资源分配策略应用到无线充电和计算卸载的资源分配上，能够有效地减少总开销成本，提高无线网络的服务质量。

更具体的，初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。

更具体的，系统动作A_t包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策。

在实施过程中，根据系统动作进行资源分配，不同的系统动作产生不同的成本开销。

更具体的，智能设备的二进制卸载决策采用二进制卸载变量α_i∈(0,1)表示；其中，α_i＝0表示选择在本地执行计算任务，α_i＝1则表示选择将计算任务整体卸载到无人机上进行处理。

在实施过程中，由于小基站的计算和存储能力有限，所以在智能设备发生任务请求后，小基站既可以将计算任务在本地进行处理，也可以卸载到无人机进行处理。

更具体的，在步骤S4中，

设第i个智能设备本地计算的执行时间为：

第i个智能设备卸载计算的执行时间为：

第i个智能设备本地计算的能量消耗为：

第i个智能设备卸载计算的能量消耗为：

第i个智能设备从小基站获取的能量为：

则第i个智能设备本地计算的成本为：

第i个智能设备卸载计算的成本为：

第i个智能设备从小基站获取的能量成本为：

因此，总开销为：

在实施过程中，如图2所示，一个区域被划成不同的子区域，每个小区域覆盖一定数量的无线智能设备和一个小基站。小基站的任务就是负责为地面智能设备提供无线充电服务和计算服务。一组飞行的无人机可以作为一个临时的小基站，也可以提供计算服务。由于地面小基站的计算能力有限，任务繁忙的时候可以求助于无人机。所以计算任务既可以在本地小基站进行也可以将计算资源卸载到无人机上进行处理。智能设备是能量需求方，小基站和无人机是彼此不相关的第三方运营商。假设每个无人机每次只服务一个小区域，而每个小区域可以使用多个无人机。由于无人机是在不停的服务，为了有效缓解网络拥塞，部署的无人机必须具备足够的车载电源以满足下行通信需求。

更具体的，总开销最小化需满足以下约束条件：

s.t.C1:

C2:

C3:

C4:

C5:

更具体的，神经网络包括动作网络和评论网络。

更具体的，如图3所示，在步骤S5中，具体包括以下步骤：

S5.2：计算全部时隙下获得的最大总奖励值即最小化总开销；

S5.3：将系统状态空间定义为：

将系统动作空间定义为：

A_t∈{α_i,T_i,f_bs,i,f_i}

更具体的，在步骤S5.4中，

将从记忆内存中选择优化动作网络的样本表示为：

Ω＝{(S_t，A_t)|t∈Γ}；

将从记忆内存中选择优化评论网络的样本表示为：

Ω_Γ＝{(S_t,A_t,R_t,S_t+1)|t∈Γ}；

其中，Γ代表样本索引。

更具体的，在步骤S5.4中，

动作网络的损失函数为：

评论网络的损失函数为：

L(θ^Q)＝E_Γ(R_t+γmaxQ(S_t',A_t')-Q(S_t,A_t))²

在实施过程中，用所选样本的平均交叉熵损失来表示动作网络的损失函数；通过优化这两个损失函数来更新两个网络的参数，学习到最优策略，从而完成训练过程，根据最后的系统动作进行无线充电和计算卸载，优化资源分配。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，包括以

下步骤：

S2：获取智能设备产生的计算任务信息并整合成系统状态；

其中，t表示决策时隙；

S3：输入系统状态对神经网络进行训练，得到系统动作/>；

S4：根据系统动作计算得到相应的总开销/>；

S5：根据总开销训练神经网络，得到使总开销最小化的系统动作；

S6：完成神经网络的训练，按照得到的使总开销最小化的系统动作进行资源分配；

系统动作包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策；

智能设备的二进制卸载决策采用二进制卸载变量表示；

其中，表示选择在本地执行计算任务，/>则表示选择将计算任务整体卸载到无人机上进行处理；

神经网络包括动作网络和评论网络；

在步骤S4中，

设第个智能设备本地计算的执行时间为：

第个智能设备卸载计算的执行时间为：

第个智能设备本地计算的能量消耗为：

第个智能设备卸载计算的能量消耗为：

第个智能设备从小基站获取的能量为：

则第个智能设备本地计算的成本为：

第个智能设备卸载计算的成本为：

第个智能设备从小基站获取的能量成本为：

因此，总开销为：

其中，是小基站分配给智能设备/>的计算资源，/>表示智能设备的计算任务数据量大小、/>表示执行计算任务所需要的计算资源数，智能设备/>的数据上传速率为/>，B为无线信道带宽，/>是智能设备/>的传输功率，/>是分配给智能设备/>的无线信道增益，/>是噪声功率；智能设备/>上传数据到无人机的上传速率/>，/>是智能设备与无人机之间的信道增益，/>是无人机分配给智能设备的计算资源，/>是小基站的能耗密度，是向无人机购买的计算资源的成本，/>是单位周期价格，/>是无人机的计算资源总数；表示能量收集的效率，/>，/>表示的是小基站的传输功率，/>是小基站为智能设备充电服务的时间，/>表示小基站与某一个智能设备之间的信道增益，/>为单位能耗价格；

S5.1：根据总开销得到系统动作/>在决策时隙t 的奖励值/>，同时获得下一个系统状态/>并将 />存放在深度强化学习模型的记忆内存中；

S5.2：计算全部时隙下获得的最大总奖励

即最小化总开销；

其中，对于任何给定的，通过把策略 π 定义为一个映射 π 得到/> ；对于任何/>，通过定义一个映射/> 得到奖励值R；

S5.3：将系统状态空间定义为：

将系统动作空间定义为：

其中，是智能设备产生的简要计算任务信息，/>是无人机的剩余资计算资源；

S5.4：从记忆内存中选择样本，向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数和评论网络中的参数/>，得到使总开销最小化的系统动作；

总开销最小化需满足以下约束条件：

上面约束中，C1表示每个智能设备只能选择在小基站进行本地计算或者卸

载到无人机进行处理；C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间，表示任务的最大截止时间；C3表示单个无人机和小基站计算资源有限的情况下，无人机和小基站给智能设备提供的

资源综合不会超过它们自身的计算资源限制，表示小基站的计算资源总数；C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制；C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量，/>表示智能设备电池的最大容量，/>是每个智能设备的剩余电量。

2.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。

3.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，在步骤 S5.4 中，

将从记忆内存中选择优化动作网络的样本表示为：

；

将从记忆内存中选择优化评论网络的样本表示为：

；

其中，代表样本索引。

4.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，在步骤 S5.4 中，

动作网络的损失函数为：

评论网络的损失函数为：

其中，表示动作网络输入/>所产生的输出，γ是折扣因子。