CN114884949B

CN114884949B - 基于maddpg算法的低轨卫星物联网任务卸载方法

Info

Publication number: CN114884949B
Application number: CN202210492079.9A
Authority: CN
Inventors: 柴蓉; 蒋汶航; 桂康安; 陈前斌
Original assignee: Shenzhen Hongyue Information Technology Co ltd
Current assignee: Shenzhen Hongyue Information Technology Co ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2024-03-26
Anticipated expiration: 2042-05-07
Also published as: CN114884949A

Abstract

本发明涉及一种基于MADDPG算法的低轨卫星物联网任务卸载方法，属于无线通信领域。该方法包括：S1：建模系统模型；S2：建模物联网设备任务模型；S3：建模任务卸载模型；S4：建模任务队列模型；S5：建模任务成本模型；S6：建模系统效用模型；S7：建模系统效用优化限制条件；S8：建模马尔可夫决策过程；S9：基于MADDPG算法确定任务卸载及功率分配策略。本发明通过引入MADDPG算法对低轨卫星物联网设计任务卸载及功率分配策略，实现系统效用最大化。

Description

基于MADDPG算法的低轨卫星物联网任务卸载方法

技术领域

本发明属于无线通信领域，涉及基于MADDPG算法的低轨卫星物联网任务卸载方法。

背景技术

随着物联网业务需求的快速增加，各类计算密集型任务对物联网设备的存储和计算能力提出了严峻挑战。在传统的地面物联网中，物联网设备可以采用移动边缘技术将任务卸载到与其相关联的蜂窝基站进行处理，但是在山地、荒漠或海洋等特殊环境中，由于地形原因难以架设基站，物联网设备无法接入蜂窝网络。而低轨卫星物联网具有覆盖范围广、系统容量大以及抗损毁的优势，通过卫星通信可以将地面物联网设备的计算任务卸载至低轨卫星，缓解地面物联网设备计算密集型任务处理压力。如何综合考虑物联网设备任务卸载需求及卫星网络特性设计低轨卫星物联网任务卸载策略已成为重要研究课题。

目前已有文献研究低轨物联网任务卸载问题，如有研究基于任务传输及执行时延或能耗优化设计任务卸载方案，但现有研究较少考虑任务随机到达场景的任务卸载问题。此外，现有研究未综合考虑任务执行收益及成本，导致所设计任务卸载策略性能受限。

发明内容

有鉴于此，本发明的目的在于提供一种基于MADDPG算法的低轨卫星物联网任务卸载方法。

为达到上述目的，本发明提供如下技术方案：

基于MADDPG算法的低轨卫星物联网任务卸载方法，该方法包括以下步骤：

S1：建模系统模型；

S2：建模物联网设备任务模型；

S3：建模任务卸载模型；

S4：建模任务队列模型；

S5：建模任务成本模型；

S6：建模系统效用模型；

S7：建模系统效用优化限制条件；

S8：建模马尔可夫决策过程；

S9：基于MADDPG算法确定任务卸载及功率分配策略。

可选的，所述S1中，建立系统模型具体为：网络中有M个卫星，定义S_m表示第m个卫星，S_m部署有移动边缘计算MEC服务器，服务器缓存区大小为计算能力为/>网络中有N个物联网设备，定义D_n表示第n个物联网设备，设备的任务缓存区大小为/>计算能力为D_n采用正交频分多址模式将任务卸载至卫星的MEC服务器，令B_m表示S_m的可用带宽，关联S_m的物联网设备可获得的带宽为/>其中K表示单个卫星所能关联的最大用户数量；系统时间划分为T个时隙，每个时隙长度为τ。

可选的，所述S2中，建立物联网设备任务模型具体为：每个时隙D_n至多产生一个计算任务；令o_n,j表示D_n在时隙j产生的任务，建模o_n,j为其中w_n,j表示任务权值，I_n,j表示o_n,j所携带的数据量大小，数据量I_n,j与完成任务所需的计算资源量θ_n,j之间的关系满足θ_n,j＝ξI_n,j，其中ξ为常数；/>表示任务最大容忍时延。

可选的，所述S3中，建模任务卸载模型具体为：定义任务卸载变量x_n,m,i,j∈{0,1}，若D_n在时隙i将时隙j到达的任务卸载到S_m，则x_n,m,i,j＝1，否则x_n,m,i,j＝0，1≤m≤M；令x_n,0,i,j表示任务本地执行变量，x_n,0,i,j＝1表示D_n在时隙i本地执行时隙j到达的任务，否则x_n,0,i,j＝0；定义任务拆分变量η_n,m,i,j∈[0,1]表示D_n在时隙i将时隙j到达的任务卸载至S_m时，所卸载任务量占原数据量的比例，1≤m≤M；令η_n,0,i,j∈[0,1]表示D_n在时隙i本地执行时隙j到达任务的数据量比例。

可选的，所述S4中，建模任务队列模型具体为：物联网设备和卫星均设置任务缓冲队列，物联网设备将各时隙到达的任务缓存在任务队列中，在相应的任务调度时隙将任务传输至卫星执行或进行本地执行；定义表示D_n在时隙i的任务队列长度，队列更新公式建模为：

定义表示S_m在时隙i的任务队列长度，队列更新公式建模为：

其中，y_n,m,i,j∈{0,1}为星上任务执行变量，若y_n,m,i,j＝1表示S_m在时隙i开始执行时隙j到达的D_n的任务，否则y_n,m,i,j＝0。

可选的，所述S5中，建模任务执行成本模型具体为：C_n,j表示执行任务o_n,j对应的任务成本函数，建模为：

C_n,j＝αT_n,j+βE_n,j，

其中α，β是常数，T_n,j及E_n,j分别表示执行任务o_n,j所需时延及能耗，建模T_n,j为其中/>表示任务o_n,j在本地执行前的排队时延，/>表示任务o_n,j本地执行时延，表示为：

表示任务o_n,j卸载至卫星执行前的本地排队时延，/>表示D_n将任务o_n,j卸载至卫星所需总时延，包括任务传输、星上排队及执行时延，具体为：

其中表示D_n将任务o_n,j卸载至S_m所需传输时延，建模为：

其中R_n,m,i,j表示时隙i，D_n与S_m之间的星地链路传输速率，建模为：

其中σ²是噪声功率，是D_n的最大传输功率，z_n,m,i,j∈[0,1]表示D_n在时隙i传输任务o_n,j至S_m时的功率分配比例，h_n,m,i是时隙i，D_n与S_m之间信道增益，表示为其中/>和/>分别是D_n的发射天线增益和S_m的接收天线增益，L_pt表示星地链路的雨衰，L_n,m,i表示D_n在时隙i传输任务至S_m的链路自由空间损耗，表示为：/>其中c表示光速，d_n,m,i表示D_n在时隙i与S_m之间的距离；f₀表示载波频率；/>表示任务o_n,j在S_m缓存队列中的排队时延；/>表示S_m在时隙i开始执行任务o_n,j所需执行时延，表示为：

E_n,j建模为其中/>表示本地执行任务o_n,j的能耗，表示为：

其中表示D_n的能耗系数；/>表示D_n传输任务o_n,j至卫星所需传输能耗，表示为：

表示卫星执行任务o_n,j所需能耗，表示为：

其中，表示S_m的能耗系数。

可选的，所述S6中，建模系统效用模型具体为：

其中U_n,j表示系统执行任务o_n,j获得的效用，建模为：

U_n,j＝δ_n,j(w_n,j-γC_n,j)

其中γ为权值，δ_n,j表示任务收益变量，若则δ_n,j＝1，否则，δ_n,j＝0，也即：/>

可选的，所述S7中，建模系统效用优化限制条件具体为：

建模任务卸载变量约束条件为：若x_n,m,i,j＝1，满足1≤m≤M，则/>其中/>为任务o_n,j传输速率阈值；若x_n,0,i,j＝1，则：

建模任务拆分变量约束条件为：0≤η_n,m,i,j≤1；若则/>当m＞0时，/>当m＝0时，/>

建模功率分配变量约束条件为：0≤z_n,m,i,j≤1；

建模星上任务调度约束条件为：若/>则/>若/>则：

可选的，所述S8中，建模马尔可夫决策过程具体为：将优化问题转化为马尔可夫决策过程，该过程包含状态空间、动作空间以及奖励三部分，具体如下：

建模D_n在时隙i的状态空间其中/>表示D_n在时隙i任务队列长度，h_n,i＝{h_n,1,i,h_n,2,i,…,h_n,M,i}为D_n与卫星之间的信道增益集合，为队列中的任务需求集合，/>为卫星的任务队列长度，则系统在时隙i联合状态空间表示为/>

建模D_n在时隙i的动作空间其中x_n,i＝{x_n,0,i,…,x_n,M,i}表示D_n任务卸载策略集合，x_n,m,i＝{x_n,m,i,1,…x_n,m,i,i}；y_n,i＝{y_n,1,i…y_n,M,i}表示卫星执行D_n的任务调度策略的集合，y_n,m,i＝{y_n,m,i,1…y_n,m,i,i}；z_n,i＝{z_n,1,i,…,z_n,M,i}表示传输功率分配策略集合，z_n,m,i＝{z_n,m,i,1…z_n,m,i,i}；η_n,i＝{η_n,0,i…η_n,M,i}表示任务拆分策略集合，η_n,m,i＝{η_n,m,i,1…η_n,m,i,i}；系统在时隙i联合动作空间表示为/>

建模系统在时隙i获得的奖励为

可选的，所述S9中，采用MADDPG算法确定任务卸载策略和功率分配策略具体为：将N个物联网设备视为N个智能体，每个智能体包括四个神经网络，分别为演员网络、评论家网络、目标演员网络、目标评论家网络；对于D_n，D_n的演员网络表示为其中，θ_n是D_n的演员网络的参数；D_n的评论家网络表示为/>其中/>为所有物联网设备的联合状态观测值集合，ω_n为评论家网络的参数；D_n的目标演员网络表示为/>θ′_n为目标演员网络的参数；D_n的目标评论家网络表示为/>ω′_n为目标评论家网络的参数；D_n从初始状态到终止状态的期望回报写为：/>其中，p^μ是状态的分布，γ∈[0,1]是折扣因子；建模策略梯度计算公式用于演员网络的更新，对θ_n求梯度，得到：

其中，表示经验回放池，将转移样本/>存放在其中，在更新演员网络参数时进行采样更新；/>表示所有物联网设备在状态/>采取动作A到达的新状态/>的观测值集合；建模损失函数用于评论家网络的更新：

其中，y_n是目标网络的估计值，表示如下：

在每个回合，D_n的目标演员网络参数θ′_n更新公式为：θ′_n←εθ_n+(1-ε)θ′_n；D_n的目标评论家网络参数ω′_n更新公式为：ω′_n←εω_n+(1-ε)ω′_n；给定系统初始状态，运行MADDPG算法，迭代更新演员网络和评论家网络参数，直至算法收敛，训练完成的演员网络可确定低轨卫星物联网任务卸载及功率分配策略。

本发明的有益效果在于：本发明综合考虑地面物联网设备任务的特性、地面物联网设备与低轨卫星的关联选择及任务调度及卸载的资源限制，同时引入深度强化学习中的MADDPG算法确定最优任务卸载及功率分配策略，有效实现了卫星系统的效用最大化，提升了系统的性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为低轨卫星物联网任务卸载场景示意图；

图2为基于MADDPG算法的低轨卫星物联网任务卸载方法流程图；

图3为MADDPG算法示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

S1：建模系统模型；

S2：建模物联网设备任务模型；

S3：建模任务卸载模型；

S4：建模任务队列模型；

S5：建模任务成本模型；

S6：建模系统效用模型；

S7：建模系统效用优化限制条件；

S8：建模马尔可夫决策过程；

S9：基于MADDPG算法确定任务卸载及功率分配策略。

定义表示S_m在时隙i的任务队列长度，队列更新公式建模为：

C_n,j＝αT_n,j+βE_n,j，

其中表示D_n将任务o_n,j卸载至S_m所需传输时延，建模为：

其中σ²是噪声功率，是D_n的最大传输功率，z_n,m,i,j∈[0,1]表示D_n在时隙i传输任务o_n,j至S_m时的功率分配比例，h_n,m,i是时隙i，D_n与S_m之间信道增益，表示为其中/>和/>分别是D_n的发射天线增益和S_m的接收天线增益，L_pt表示星地链路的雨衰，L_n,m,i表示D_n在时隙i传输任务至S_m的链路自由空间损耗，表示为：其中c表示光速，d_n,m,i表示D_n在时隙i与S_m之间的距离；f₀表示载波频率；/>表示任务o_n,j在S_m缓存队列中的排队时延；/>表示S_m在时隙i开始执行任务o_n,j所需执行时延，表示为：

E_n,j建模为其中/>表示本地执行任务o_n,j的能耗，表示为：

表示卫星执行任务o_n,j所需能耗，表示为：

其中，表示S_m的能耗系数。

可选的，所述S6中，建模系统效用模型具体为：

其中U_n,j表示系统执行任务o_n,j获得的效用，建模为：

U_n,j＝δ_n,j(w_n,j-γC_n,j)

可选的，所述S7中，建模系统效用优化限制条件具体为：

建模任务卸载变量约束条件为：

若x_n,m,i,j＝1，满足1≤m≤M，则/>其中/>为任务o_n,j传输速率阈值；若x_n,0,i,j＝1，则：

建模功率分配变量约束条件为：0≤z_n,m,i,j≤1；

建模星上任务调度约束条件为：若/>则/>若/>则：

建模系统在时隙i获得的奖励为

可选的，所述S9中，采用MADDPG算法确定任务卸载策略和功率分配策略具体为：将N个物联网设备视为N个智能体，每个智能体包括四个神经网络，分别为演员网络、评论家网络、目标演员网络、目标评论家网络；对于D_n，D_n的演员网络表示为其中，θ_n是D_n的演员网络的参数；D_n的评论家网络表示为/>其中/>为所有物联网设备的联合状态观测值集合，ω_n为评论家网络的参数；D_n的目标演员网络表示为θ′_n为目标演员网络的参数；D_n的目标评论家网络表示为/>ω′_n为目标评论家网络的参数；D_n从初始状态到终止状态的期望回报写为：/>其中，p^μ是状态的分布，γ∈[0,1]是折扣因子；建模策略梯度计算公式用于演员网络的更新，对θ_n求梯度，得到：

其中，表示经验回放池，将转移样本/>存放在其中，在更新演员网络参数时进行采样更新；/>表示所有物联网设备在状态/>采取动作/>到达的新状态/>的观测值集合；建模损失函数用于评论家网络的更新：

其中，y_n是目标网络的估计值，表示如下：

图1为低轨卫星物联网任务卸载场景示意图，本发明提供了一种基于MADDPG算法的低轨卫星物联网任务卸载方法。由多个地面物联网设备和多颗低轨卫星组成的通信系统，考虑地面物联网设备的任务特性、设备及卫星可用计算资源对任务传输和处理性能的影响。在本发明中，地面物联网设备能够关联不同的低轨卫星，将任务卸载至卫星，降低系统执行任务的成本，从而提高系统效用。

图2为本发明基于MADDPG算法的低轨卫星物联网任务卸载方法流程图，具体包括以下步骤：

1、建模系统模型；

2、建模物联网设备任务模型；

3、建模任务卸载模型；

4、建模任务队列模型；

5、建模任务成本模型；

6、建模系统效用模型；

7、建模系统效用优化限制条件；

8、建模马尔可夫决策过程；

9、基于MADDPG算法确定任务卸载及功率分配策略；

图3为本发明MADDPG算法示意图，在MADDPG算法中采样和执行是分别进行的，而对智能体的训练学习是统一进行的。本发明中将多个地面物联网设备视为多个智能体，首先每个设备收集转移样本存入经验回放池中；然后每个设备的演员网络根据当前的状态动作对分别更新演员网络参数，每个设备的评论家网络考虑所有演员网络生成的数据，分别更新评论家网络参数；重复上述步骤直至算法收敛。训练完成的演员网络可确定低轨卫星物联网任务卸载及功率分配策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于MADDPG算法的低轨卫星物联网任务卸载方法，其特征在于：该方法包括以下步骤：

S1：建模系统模型；

S2：建模物联网设备任务模型；

S3：建模任务卸载模型；

S4：建模任务队列模型；

S5：建模任务成本模型；

S6：建模系统效用模型；

S7：建模系统效用优化限制条件；

S8：建模马尔可夫决策过程；

S9：基于MADDPG算法确定任务卸载及功率分配策略；

所述S1中，建立系统模型具体为：网络中有M个卫星，定义S_m表示第m个卫星，S_m部署有移动边缘计算MEC服务器，服务器缓存区大小为计算能力为/>网络中有N个物联网设备，定义D_n表示第n个物联网设备，设备的任务缓存区大小为/>计算能力为/>D_n采用正交频分多址模式将任务卸载至卫星的MEC服务器，令B_m表示S_m的可用带宽，关联S_m的物联网设备可获得的带宽为/>其中K表示单个卫星所能关联的最大用户数量；系统时间划分为T个时隙，每个时隙长度为τ；

所述S2中，建立物联网设备任务模型具体为：每个时隙D_n至多产生一个计算任务；令o_n,j表示D_n在时隙j产生的任务，建模o_n,j为其中w_n,j表示任务权值，I_n,j表示o_n,j所携带的数据量大小，数据量I_n,j与完成任务所需的计算资源量θ_n,j之间的关系满足θ_n,j＝ξI_n,j，其中ξ为常数；/>表示任务最大容忍时延；

所述S3中，建模任务卸载模型具体为：定义任务卸载变量x_n,m,i,j∈{0,1}，若D_n在时隙i将时隙j到达的任务卸载到S_m，则x_n,m,i,j＝1，否则x_n,m,i,j＝0，1≤m≤M；令x_n,0,i,j表示任务本地执行变量，x_n,0,i,j＝1表示D_n在时隙i本地执行时隙j到达的任务，否则x_n,0,i,j＝0；定义任务拆分变量η_n,m,i,j∈[0,1]表示D_n在时隙i将时隙j到达的任务卸载至S_m时，所卸载任务量占原数据量的比例，1≤m≤M；令η_n,0,i,j∈[0,1]表示D_n在时隙i本地执行时隙j到达任务的数据量比例；

所述S4中，建模任务队列模型具体为：物联网设备和卫星均设置任务缓冲队列，物联网设备将各时隙到达的任务缓存在任务队列中，在相应的任务调度时隙将任务传输至卫星执行或进行本地执行；定义表示D_n在时隙i的任务队列长度，队列更新公式建模为：

定义表示S_m在时隙i的任务队列长度，队列更新公式建模为：

其中，y_n,m,i,j∈{0,1}为星上任务执行变量，若y_n,m,i,j＝1表示S_m在时隙i开始执行时隙j到达的D_n的任务，否则y_n,m,i,j＝0；

所述S5中，建模任务执行成本模型具体为：C_n,j表示执行任务o_n,j对应的任务成本函数，建模为：

C_n,j＝αT_n,j+βE_n,j，

其中表示D_n将任务o_n,j卸载至S_m所需传输时延，建模为：

其中σ²是噪声功率，是D_n的最大传输功率，z_n,m,i,j∈[0,1]表示D_n在时隙i传输任务o_n,j至S_m时的功率分配比例，h_n,m,i是时隙i，D_n与S_m之间信道增益，表示为/>其中/>和/>分别是D_n的发射天线增益和S_m的接收天线增益，L_pt表示星地链路的雨衰，L_n,m,i表示D_n在时隙i传输任务至S_m的链路自由空间损耗，表示为：/>其中c表示光速，d_n,m,i表示D_n在时隙i与S_m之间的距离；f₀表示载波频率；/>表示任务o_n,j在S_m缓存队列中的排队时延；/>表示S_m在时隙i开始执行任务o_n,j所需执行时延，表示为：

E_n,j建模为其中/>表示本地执行任务o_n,j的能耗，表示为：

表示卫星执行任务o_n,j所需能耗，表示为：

其中，表示S_m的能耗系数；

所述S6中，建模系统效用模型具体为：

其中U_n,j表示系统执行任务o_n,j获得的效用，建模为：

U_n,j＝δ_n,j(w_n,j-γC_n,j)

其中γ为权值，δ_n,j表示任务收益变量，若则δ_n,j＝1，否则，δ_n,j＝0，也即：

所述S7中，建模系统效用优化限制条件具体为：

建模任务卸载变量约束条件为：

建模功率分配变量约束条件为：0≤z_n,m,i,j≤1；

建模星上任务调度约束条件为：若/>则/>若/>则：

所述S8中，建模马尔可夫决策过程具体为：将优化问题转化为马尔可夫决策过程，该过程包含状态空间、动作空间以及奖励三部分，具体如下：

建模系统在时隙i获得的奖励为

所述S9中，采用MADDPG算法确定任务卸载策略和功率分配策略具体为：将N个物联网设备视为N个智能体，每个智能体包括四个神经网络，分别为演员网络、评论家网络、目标演员网络、目标评论家网络；对于D_n，D_n的演员网络表示为其中，θ_n是D_n的演员网络的参数；D_n的评论家网络表示为/>其中/>为所有物联网设备的联合状态观测值集合，ω_n为评论家网络的参数；D_n的目标演员网络表示为/>θ′_n为目标演员网络的参数；D_n的目标评论家网络表示为/>ω′_n为目标评论家网络的参数；D_n从初始状态到终止状态的期望回报写为：/>其中，p^μ是状态的分布，γ∈[0,1]是折扣因子；建模策略梯度计算公式用于演员网络的更新，对θ_n求梯度，得到：

其中，y_n是目标网络的估计值，表示如下：

在每个回合，D_n的目标演员网络参数θ′_n更新公式为：θ′_n←εθ_n+(1-ε)θ′_n；D_n的目标评论家网络参数ω′_n更新公式为：ω′_n←εω_n+(1-ε)ω′_n；给定系统初始状态，运行MADDPG算法，迭代更新演员网络和评论家网络参数，直至算法收敛，利用训练完成的演员网络确定低轨卫星物联网任务卸载及功率分配策略。