CN113543176B

CN113543176B - 基于智能反射面辅助的移动边缘计算系统的卸载决策方法

Info

Publication number: CN113543176B
Application number: CN202110771230.8A
Authority: CN
Inventors: 张徐珲; 申妍燕; 臧威麟; 王书强
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-06-27
Anticipated expiration: 2041-07-08
Also published as: CN113543176A

Abstract

本发明公开了一种基于智能反射面辅助的移动边缘计算系统的卸载决策方法。卸载决策方法包括：构建待优化通信系统的目标函数；将目标函数对应的优化问题划分为第一优化问题和第二优化问题，第一优化问题包括优化智能反射面装置的反射系数矩阵和移动用户设备的检测向量，第二优化问题包括优化混合基站和移动用户设备之间的时隙分配与任务量分配；交替进行第一优化问题和第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解第一优化问题，采用深度强化学习方法求解第二优化问题。该方法首次将结合了传统优化方法与深度强化学习方法，用于解决智能反射面辅助边缘计算系统的任务卸载分配问题中。

Description

基于智能反射面辅助的移动边缘计算系统的卸载决策方法

技术领域

本发明属于移动边缘计算技术领域，具体地讲，涉及一种基于智能反射面辅助的移动边缘计算系统的卸载决策方法、卸载决策装置、计算机可读存储介质、计算机设备。

背景技术

近年来，随着5G技术的飞速发展以及智能移动设备的迅速普及，对于一些计算密集型任务，比如在线实时游戏、虚拟现实、增强现实技术等的需求也在同步呈现爆发式增长的趋势。很多物联网设备，例如智能手环、道路监控节点、共享单车联网模组等，由于受限于算力不足、电池能量储备不够充裕等因素限制，无法保障这些任务的成功执行。

移动边缘计算(Mobile Edge Computing,MEC)被视作是非常具有潜力的技术，通过将物联网设备上到达的任务数据卸载到边缘服务器来进行处理的方式，可以有效为这些性能受限的物联网设备提供相对充足的算力、能量解决任务的计算需求。通常这些边缘服务器部署在基站附近，并通过可靠方式与基站链接，为基站辐射范围内的移动设备提供服务。与云计算相比，边缘计算的部署通常是去中心化，部署在网络的边缘，因而在通信时延、能量效率以及可靠性上得到了更好的权衡。

受益于近年可编程元材料的发展，智能反射面(Intelligent ReflectingSurface,IRS)得到了飞速的发展。IRS可以实现无线通信网络性能的显著提高。它是由IRS控制器、设备平台和许多低成本的无源散射元件组成的通信系统。通过集成在IRS平台表面的散射元件，IRS可以动态调整无线信道的增益。通过电路内部的控制器，每个散射元件能够独立反射电磁波，并附加幅移和(或)相移。在IRS的帮助下，通信系统可以获得两种不同类型的增益：虚拟阵列增益与反射波束赋形增益。具体来说，虚拟阵列增益是通过直射和反射信道的结合实现。此外，反射波束赋形增益通过动态调整散射元件的幅移和(或)相移来实现。因此，结合IRS的无线通信网络可以实现信道容量的大幅度增加，具有很好的扩展性、极低的功耗和大规模部署的灵活性。

结合边缘计算系统与智能反射面系统的新式通信系统是一个非常前沿的方向，具有非常广泛的应用前景，但是目前业内对这一方面的研究成果还较少。针对信道时变和用户计算任务不确定条件下的卸载分配问题，将优化算法和深度强化学习相结合进行进行算法设计，能够有效发挥优化算法和深度强化学习算法的优势，提升系统的整体性能。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是：如何提供一种适于智能反射面与移动边缘计算结合场景的卸载决策方法。

(二)本发明所采用的技术方案

一种适于智能反射面与移动边缘计算结合场景的卸载决策方法，所述卸载决策方法包括：

构建待优化通信系统的目标函数，其中所述待优化通信系统包括带有边缘服务器的混合基站、智能反射面装置和若干移动用户设备；

将所述目标函数对应的优化问题划分为第一优化问题和第二优化问题，所述第一优化问题包括优化智能反射面装置的反射系数矩阵和移动用户设备的检测向量，所述第二优化问题包括优化混合基站和移动用户设备之间的时隙分配与任务量分配；

交替进行所述第一优化问题和所述第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解所述第一优化问题，采用深度强化学习方法求解所述第二优化问题。

优选地，所述构建待优化通信系统的目标函数的方法包括：

计算移动用户设备k对应的混合基站的接收信号

其中，h_d,k、h_r,k、G分别表示移动用户设备k至混合基站、移动用户设备k至智能反射面装置以及智能反射面装置至混合基站的等价基带信道，p_o,k是移动用户设备k的发射功率，s_k表示移动用户设备k卸载的任务数据，n是零均值的高斯噪声向量，Θ表示智能反射面装置的反射系数矩阵，其满足/>

其中a＝[a₁，a₂，…，a_N]^T表示幅值系数向量，θ＝[θ₁，θ₂，…θ_N]^T表示相移系数向量，移动用户设备用K＝{1,...,K}表示；

计算所述移动用户设备k到基站的信息传输速率，该速率为从移动用户k到基站直传链路上的速率和移动用户k经智能反射面反射到达基站的链路上的速率之和，即r_o,k＝Blog₂(1+γ_o,k)，其中，B表示用于信息传输的带宽，γ_o,k表示根据基站接收信号y_k计算得到的信噪比，m_k表示针对当前任务数据s_k的信号检测向量，σ²表示噪声功率，

计算移动用户设备k通过卸载在混合基站计算的任务量l_o,k＝r_o,kt_o,k，t_o,k表示卸载计算时隙；

计算移动用户设备k进行本地计算的任务量l_l,k＝r_l,kt_l,k，r_l,k表示移动用户设备k本地的计算数据率，t_l,k表示本地计算时隙；

构建子时隙分配t_k、工作量分配l_k以及智能反射面装置的反射系数矩阵Θ调整为优化目标的目标函数：

其中，Γ_k是任务失败的惩罚项，当用户的总任务量L_k能够完成时，Γ_k＝1；而当用户k在这个时隙的任务无法按时完成时，Γ_k＝0，t_k＝{t_o,k、t_l,k、t_h,k}，且t_o,k、t_l,k、t_h,k分别代表用户k的卸载计算时隙、本地计算时隙和能量收集时隙，e_k代表卸载能耗与本地运算能耗的总和，e_k的值与卸载计算时隙、本地计算时隙相关。

优选地，所述目标函数对应的优化问题为：

且满足约束条件：t_h,k+t_o,k≤1,t_l,k≤1,l_o,k+l_l,k≥L_k,0≤θ_n＜2π,p_kt_o,k+e_l,k≤E_k+e_h,k，

其中，其中，E_k代表用户设备k在时刻tk开始之前的剩余可用能量，p_k代表用户设备k的卸载计算功率，e_l,k代表用户设备k进行本地运算的能耗，e_h,k代表户设备k收集到的能量，T表示总的时隙个数，且满足T＝EK，其中E为在一轮计算周期内单个用户的遍历次数，用_E＝{1,...,E}表示。

优选地，将所述目标函数对应的优化问题划分为第一优化问题和第二优化问题的方法为：

将所述目标函数对应的优化问题展开为：

其中，常数κ表示计算的能量效率，f_k表示移动用户设备k每秒的CPU周期；

在优化反射系数矩阵和检测向量时，将时隙分配与任务量分配固定，即得到第一优化问题：

且满足约束条件：0≤θ_n＜2π；

在优化时隙分配与任务量分配时，将反射系数矩阵和检测向量固定，即得到第二优化问题。

且满足约束条件：t_h,k+t_o,k≤1,t_l,k≤1,l_o,k+l_l,k≥L_k,p_kt_o,k+e_l,k≤E_k+e_h,k。

优选地，采用块交替迭代下降方法求解所述第一优化问题时，固定反射系数矩阵Θ_k，信号检测向量m_k可以通过最大合并比算法得到，固定信号检测向量m_k的时候，反射系数矩阵Θ_k可以通过不等式取等得到，分别为：

优选地，交替进行所述第一优化问题和所述第二优化问题的求解包括多轮迭代过程，每轮迭代过程包括优化智能反射面装置的转移过程T-IRS{S^T-IRS,Result^T-IRS,P^T-IRS}和优化卸载分配的转移过程T-DDPG{S^T-DDPG,A^T-DDPG,P^T-DDPG,R^T-DDPG}，S^T-IRS和S^T-DDPG表示状态，Result^T-IRS表示第一优化问题的优化解，A^T-DDPG表示子时隙分配t_k与工作量分配l_k的取值，P^T-IRS和P^T-DDPG表示转移概率，R^T-DDPG表示奖励，深度强化学习方法采用DDPG网络，在每周期内，自时隙1至T，t表示当前进行时隙，进行如下过程，具体为：

根据状态s^T-DDPG(t)，通过评论家函数以及动作噪声过程扰动得到动作a^T-DDPG(t)；

将优化解result^T-IRS(t)以及动作a^T-DDPG(t)分别在智能反射面装置以及移动用户设备上进行执行；

执行动作a^T-DDPG(t)，观察得到奖励值r^T-DDPG(t)；

得到下一时刻的信道状态信息且导出T-IRS状态s^T-IRS(t+1)，并计算得到优化解的结果result^T-IRS(t+1)；

根据s^T-IRS(t+1)以及result^T-IRS(t+1)得到T-DDPG状态s^T-DDPG(t+1)；

完成元组的收集(s^T-DDPG(t),a^T-DDPG(t),r^T-DDPG(t),s^T-DDPG(t+1))，将其存入记忆模组中，若元组中模块个数超过了容量最大限度，则删除最早加入记忆模组中的元组；

当记忆模组中的元组个数满足要求后，抽取一小批满足设定个数的元组，对DDPG网络进行训练更新，完成一轮迭代。

优选地，当满足迭代停止条件时，DDPG网络输出子时隙分配和工作量分配的最佳值，此时计算到的反射系数矩阵和用户检测向量的解即为优化解，最佳值和优化解共同构成待优化通信系统的最佳决策方案。

本申请还公开了一种适于智能反射面与移动边缘计算结合场景的卸载决策装置，所述卸载决策装置包括：

目标函数构建单元，用于构建待优化通信系统的目标函数，其中所述待优化通信系统包括带有边缘服务器的混合基站、智能反射面装置和若干移动用户设备；

优化问题划分单元，用于将所述目标函数对应的优化问题划分为第一优化问题和第二优化问题，所述第一优化问题包括优化智能反射面装置的反射系数矩阵和移动用户设备的检测向量，所述第二优化问题包括优化混合基站和移动用户设备之间的时隙分配与任务量分配；

迭代求解单元，用于交替进行所述第一优化问题和所述第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解所述第一优化问题，采用深度强化学习方法求解所述第二优化问题。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有适于智能反射面与移动边缘计算结合场景的卸载决策程序，所述适于智能反射面与移动边缘计算结合场景的卸载决策程序被处理器执行时实现上述的适于智能反射面与移动边缘计算结合场景的卸载决策方法。

本申请还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的适于智能反射面与移动边缘计算结合场景的卸载决策程序，所述适于智能反射面与移动边缘计算结合场景的卸载决策程序被处理器执行时实现上述的适于智能反射面与移动边缘计算结合场景的卸载决策方法。

(三)有益效果

本发明公开了一种适于智能反射面与移动边缘计算结合场景的卸载决策方法，具有如下技术效果：

首次将结合了传统优化方法与人工智能的核心技术的深度强化学习方法作为优化算法，用于解决智能反射面辅助边缘计算系统的任务卸载分配问题中，既利用传统优化方法得到了反射系数矩阵的最优解析解，有利于算法的快速收敛，同时又利于发挥深度强化学习在面对环境的不确定性时能够进行连续动作分配的优势，有利于根据环境选择最佳的卸载决策。

附图说明

图1为本发明的实施例一的适于智能反射面与移动边缘计算结合场景的卸载决策方法的流程图；

图2为本发明的实施例一的待优化通信系统的示意图；

图3为本发明的实施例一的时隙分割示意图；

图4为本发明的实施例一的深度强化学习训练流程图；

图5为本发明的实施例二的适于智能反射面与移动边缘计算结合场景的卸载决策装置的示意图；

图6为本发明的实施例四的计算机设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：本申请构建了一种智能反射面与移动边缘计算相结合的新型通信系统，在该通信系统的场景下，提出了对应的卸载分配方法，将整个通信系统的目标函数划分为两个子问题，分别是智能反射面装置的反射系数矩阵和移动用户设备的检测向量的优化问题，以及混合基站和移动用户设备之间的时隙分配与任务量分配的优化问题，采用块交替迭代下降方法和深度强化学习方法对两个子问题交替进行优化，得到最佳决策方案。通过两种优化方法的结合，一方面采用传统的算法块交替迭代下降方法可以得到反射系数矩阵的解析解，能够保证算法快速收敛，另一方面采用深度强化学习方法能够针对用户设备需要计算的任务量具有不确定性以及信道状态的时变性，实现连续动作决策的控制，从而实现整个通信系统的最佳性能。

具体来说，如图1所示，适于智能反射面与移动边缘计算结合场景的卸载决策方法包括如下步骤：

步骤S10：构建待优化通信系统的目标函数，其中所述待优化通信系统包括带有边缘服务器的混合基站、智能反射面装置和若干移动用户设备；

步骤S20：将所述目标函数对应的优化问题划分为第一优化问题和第二优化问题，所述第一优化问题包括优化智能反射面装置的反射系数矩阵和移动用户设备的检测向量，所述第二优化问题包括优化混合基站和移动用户设备之间的时隙分配与任务量分配；

步骤S30：交替进行所述第一优化问题和所述第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解所述第一优化问题，采用深度强化学习方法求解所述第二优化问题。

具体地，如图2所示，待优化通信系统包含一个带有边缘服务器的混合基站HAP，一套智能反射面装置IRS以及K个参数相同的移动用户设备，移动用户设备用К＝{1,...,K}表示。HAP拥有M根天线，并且通过光纤管道与边缘服务器相连接，因此可以忽略HAP与边缘服务器之间的通信时延。受限于算力与能量储备，移动设备无法单独有效处理计算密集型任务，因此，它们可以将待处理任务进行分割，并卸载一部分交由边缘服务器处理。IRS上装载了N个反射元素，可以通过动态调整每个元素的幅移与相移来获得更好的信道环境，以强化移动设备与HAP之间的通信传输。

进一步地，这个通信系统采用了时分复用(time-division-multiple-access,TDMA)的通信模式。如图3所示，每一个计算周期被均分为K的时隙，每个用户分配一个对应序号的时隙t_k以进行能量收集和任务处理。其中，子时隙t_h,k表示用户k从HAP发射的RF信号中进行能量收集的持续时长；t_o,k表示移动用户设备k将部分或全部计算任务卸载到HAP的传输时长，经由移动用户设备k与HAP的直射信道以及反射面辅助的反射信道；t_l,k表示移动用户设备对部分或全部计算任务进行通过自身的运算单元进行本地计算的运算时长。为了简便运算，在后面的实验中，假设一个时隙的时长t_k为单位1。因此，各子时隙满足：t_h,k+t_o,k≤1,t_l,k≤1。移动用户设备k在这个计算周期到达的任务量记为L_k比特。

进一步地，移动用户设备与HAP之间的通信经过两种链路，分别是移动用户设备与HAP的直射链路以及经智能反射面辅助的反射链路。分别用符号h_d,k、h_r,k、G表示移动用户设备k至HAP、移动用户设备k至IRS，以及IRS至HAP的等价基带信道，并假设这些信道是准静态并经过完美的信道估计获得的。因此，在每一次计算周期前，HAP可以获得信道状态信息(h_d,k、h_r,k、G)。此外，用符号Θ表示IRS的反射系数矩阵，其满足

其中a＝[a₁，a₂，...，a_N]^T表示幅值系数向量，θ＝[θ₁，θ₂，…θ_N]^T表示相移系数向量。那么，对于移动用户设备k的卸载任务信号，混合基站HAP的接收信号为：

其中，p_o,k是移动用户设备k的发射功率，s_k表示移动用户设备k卸载的任务数据，n是零均值的高斯噪声向量。

移动用户设备K的发射信号，在混合基站HAP上的信噪比可以表示为：

m_k表示针对当前任务数据s_k的信号检测向量，σ²表示噪声功率。计算移动用户设备k的信息传输速率可以表示为：

r_o,k＝Blog₂(1+γ_o,k) (3)

B表示用于信息传输的带宽，移动用户设备k通过卸载在混合基站计算的任务量l_o,k＝r_o,kt_o,k，t_o,k表示卸载计算时隙；为了维持能量收集模块以及射频电路模块的运行，用户k需要一个额外的功率p_c,k保持电路运行。因此，卸载计算的总功率为p_k＝p_o,k+p_c,k。

进一步地，移动用户设备k可以在本地并行处理任务数据，假设移动用户设备k的运算单元算力为f_k个CPU周期每秒，

为处理一比特数据所需的CPU运算周期。据此，移动用户设备k本地的计算数据率可表示为/>

移动用户设备k进行本地计算的任务量为l_l,k＝r_l,kt_l,k，t_l,k表示本地计算时隙。此外，单位CPU运算周期的功耗为/>

其中常数κ表示计算的能量效率。因此，用户k的本地计算的总能量消耗可以表示为/>

进一步地，在时隙t_k的开始，用户k到达的任务工作量load_k取自一个范围区间[W_l,W_U]，且满足load_k＝FS(s_kP)。其中，FS(·)表示预定义的选择函数，s_k＝s_k-1P表示用户的任务状态向量，P是预定义的马尔科夫转移矩阵。在一个工作时隙t_k内，用户k的总能耗包括卸载能耗和本地运算能耗两个部分，总能耗可以表示为e_k＝p_kt_o,k+e_l,k。用户的卸载模块包含了能量收集模块，在工作时隙内可以收集的能量用e_h,k表示。

那么，在下一个周期分配给用户k的时隙t_k+K的初始时刻，移动用户设备k的可用总能量为：

E_k+K＝min(E_max,max(E_k+e_h,k-e_k,0)) (4)

其中，E_max表示移动用户设备k可储备的最大能量。

为了最大化所有用户设备的能量效率，本实施例一定义了一个以用户k的子时隙分配、工作量分配以及IRS反射系数矩阵调整为优化目标的用户利用率函数，即目标函数，表示为：

所述目标函数对应的优化问题为：

且满足约束条件：t_h,k+t_o,k≤1,t_l,k≤1,l_o,k+l_l,k≥L_k,0≤θ_n＜2π,p_kt_o,k+e_l,k≤E_k+e_h,k。

其中，L_k代表总任务量，E_k代表用户设备k在时刻tk开始之前的剩余可用能量，p_k代表用户设备k的卸载计算功率，e_l,k代表用户设备k进行本地运算的能耗，e_h,k代表户设备k收集到的能量，T表示总的时隙个数，且满足T＝EK，其中E为在一轮计算周期内单个用户的遍历次数，用_E＝{1,...,E}表示。

进一步地，上述的优化问题展开为：

由于信道的时变特性，以及任务量到达情况的不确定性，导致该优化问题是个高耦合的非凸问题，很难求解。为设计有效的求解方法，将优化问题划分为第一优化问题和第二优化问题，在优化反射系数矩阵和检测向量时，将时隙分配与任务量分配固定，即得到第一优化问题：

且满足约束条件：0≤θ_n＜2π，

在优化时隙分配与任务量分配时，将反射系数矩阵和检测向量固定，即得到第二优化问题：

采用块交替迭代下降方法(BCD算法)求解所述第一优化问题时，固定反射系数矩阵Θ_k，检测向量m_k可以通过最大合并比算法得到，固定检测向量m_k的时候，反射系数矩阵Θ_k可以通过不等式取等得到，分别为：

对于子时隙分配t_k与工作量分配l_k的卸载决策优化，采用改进的深度强化算法模型，基于深度强化学习的特性，根据环境参数的变化自适应调整卸载决策以获得更好的奖励值。该模型中的深度强化学习部分在深度确定性梯度策略(deep deterministic policygradient，DDPG)算法的基础上进行改进。通过与深度神经网络结合，深度强化学习天生拥有处理高维高耦合的非凸优化问题的强大能力。DDPG是一种先进的深度强化学习算法，能够实现连续动作决策的控制。DDPG结合了深度Q网络和确定性策略梯度两者的优点，使用策略网络作为演员家函数(actor function)将一个给定状态映射到一个确定的动作；而评论家函数(critic function)则使用Q-网络来评估状态的Q值(Q-value)。

在对IRS的反射系数矩阵Θ_k进行优化求解时，本实施例一提出了BCD算法，其主要原因是IRS的反射系数矩阵Θ_k的特性决定了其并不适合通过深度学习算法进行优化。主要原因有：由于采用了深度神经网络去估计演员家与评论家函数，这是一种非线性函数，无法得到最优的解析解。此外，随着IRS元素个数的增长，动作空间将会同步增长，并不利于算法的稳定收敛和对于策略的有效获取。而通过传统的BCD优化算法可以得到IRS的反射系数矩阵Θ_k的解析解，能够保证算法快速收敛。

进一步，本实施例一提出的卸载决策方法，将求解Θ_k的BCD方法引入DDPG模型中，可以在求出Θ_k的解后，再决定卸载的连续动作分配。在卸载决策方法中，有两种状态转移过程相互迭代运行，分别是：优化IRS的转移过程T-IRS，由元组{S^T-IRS,A^T-IRS,P^T-IRS}组成，S^T ^-IRS表示T-IRS的状态：信道状态信息；Result^T-IRS表示第一优化问题的优化解，即Θ_k、m_k的取值；P^T-IRS表示转移到下一关系的概率。优化卸载分配的转移过程T-DDPG，这是一个马尔科夫转移过程，由元组{S^T-DDPG,A^T-DDPG,P^T-DDPG,R^T-DDPG}组成，S^T-DDPG表示T-DDPG的状态：任务量、用户能量、信道状态信息、Θ_k、m_k；A^T-DDPG表示算法采取的动作，即子时隙分配t_k与工作量分配l_k的取值；P^T-DDPG表示转移到下一关系的概率，R^T-DDPG表示当前动作的奖励值r_k，满足：

图4示出了块交替迭代下降方法与深度强化学习交替优化的流程图，具体如下：

初始化阶段：初始化系统参数，包括初始任务到达量、初始用户能量储备、信道状态信息、用户发射功率、噪声功率、BCD算法迭代参数、BCD算法精确度、卸载决策方法计算周期、每计算周期时隙数。初始化神经网络参数，包括演员家函数和评论家函数，学习率分别采用0.001与0.002，折扣因子为0.9，软更新速率为0.01，两套函数的神经网络隐藏层均为两层，应用ReLU函数作为隐藏层激活函数，应用Sigmoid函数作为输出层激活函数，应用Adam算法作为优化算法，动作噪声方差为2。创建一个有限容量的重放记忆模块(replaymemory)，并初始化为空，储存每一次迭代完成的T-DDPG元组，并为算法梯度学习使用。

进一步地，自计算周期1至M，在每一轮反射系数矩阵Θ的计算以及卸载决策分配过程中，首先进行每个周期的初始化，初始化噪声过程，根据初始化信道条件，得到T-IRS的初始状态s^T-IRS(1)，并根据式(9)与式(10)，计算得到初始结果result^T-IRS(1)，根据s^T-IRS(1)以及result^T-IRS(1)得到T-DDPG状态s^T-DDPG(1)，完成初始化。

在每周期内，自时隙1至T，进行如下过程，t表示当前进行时隙：

将优化解的结果result^T-IRS(t)以及动作a^T-DDPG(t)分别在IRS以及移动用户设备上进行执行；

执行动作a^T-DDPG(t)，观察得到奖励值r^T-DDPG(t)；

得到下一时刻的信道状态信息并导出T-IRS状态s^T-IRS(t+1)，并计算得到优化解的结果result^T-IRS(t+1)；

根据s^T-IRS(t+1)以及result^T-IRS(t+1)得到T-DDPG状态s^T-DDPG(t+1)；

经过多轮迭代之后，DDPG网络输出的最佳动作即为子时隙分配t_k与工作量分配l_k的最佳值，此时计算到的反射系数矩阵和用户检测向量的解即为优化解，最佳值和优化解共同构成待优化通信系统的最佳决策方案。

进一步地，通过仿真实验，以评估本实施例一提出的方法的性能。在仿真实验中，HAP的天线数量设置为M＝4，HAP的发射功率设置为50mW，能量转换效率系数为0.6，IRS的元素个数根据不同的实验场景取自区间[10,40]，HAP与IRS的距离为300m，IRS与用户设备之间的距离根据不同用户的当前位置取自区间[20,40]m，用户与HAP以及IRS与HAP之间的信道为非视距信道，而用户与IRS之间的信道为视距信道，每时隙初用户到达的任务量数据包大小取自区间[25,50]Kbits，噪声功率为-87dBm，系统带宽为200kHz，计算周期(episode)为500时隙(t)，计算周期个数为200个。在仿真实验中，任务失败量表示在每一个计算周期内总失败个数。

本实施例一的卸载决策方法与以下几种现有的卸载策略进行比较分析，分别是：

贪婪选择(Greedy)算法：移动用户设备只选择在当前时刻会得到最佳奖励值的卸载决策并执行。

随机选择(Random)算法：移动用户设备随机选择卸载分配并执行。

深度双Q网络(Double DQN,DDQN)算法：DDQN算法是一种深度强化学习算法，可以在离散动作空间范围内进行策略选择。移动用户设备可以在当前时刻，以一定规则选择给定有限的离散动作空间中可以带来最佳Q值回报的动作并且执行。

针对本实施例一所提的卸载决策方法以及以上几种卸载方法，在IRS反射元素个数为N＝20的条件下，进行了100000次迭代运行，确保算法收敛后，以比较结果由表1所示。表1具体展示了三个指标，分别是平均收敛奖励值、平均收敛失败数、平均收敛吞吐量(Kbits)，并精确到小数点后两位。

表1

相较于现有几种策略，在这三种指标下，实施例一方法可以实现最好的收敛性能，任务失败数最低，获得的奖励值和平均吞吐量值最大。而DDQN算法由于是在有限的离散动作空间中根据策略选择动作，难以找到能够产生最佳预估Q值的动作。

本实施例一针对不同的通信场景，也进行了性能分析，分别是：

IRS反射系数随机化模式(Randomphase)：IRS的反射系数矩阵Θ_k的元素采用随机幅值的方式给定。

无IRS辅助通信模式(Without IRS)：在这种通信模式下，仅考虑用户与HAP之间的通信卸载，没有IRS参与优化卸载通信。

单卸载通信模式(Only offloading)：在这个模式下，用户设备将任务数据包完全卸载到HAP进行辅助运算，本机的计算单元不再进行任务的处理。

单本地运算模式(Only local)：在这个模式下，用户设备完全靠本身的算力进行运算，不再将任务数据包卸载到HAP进行辅助运算。

针对本实施例一的卸载决策方法以及以上几种通信模式，在IRS反射元素为N＝20的条件下，进行了100000次迭代运行，确保算法收敛后，比较结果由表2所示。表2具体展示了两个指标，分别是平均收敛失败数、平均收敛吞吐量(Kbits)，并精确到小数点后两位。由于奖励值主要衡量算法选取策略的有效性，因此在各个通信模式下不再比较奖励值。

表2

首先分析IRS辅助的性能增益，在实施例一、随机相位以及无IRS辅助三种模式中，实施例一实现了最好的性能。同时，由于IRS的介入，用户设备与HAP之间的通信速率得到了极大提高，无IRS辅助模式综合性能最弱。而实施例一方法能针对不同的信道条件动态调整IRS的反射系数矩阵Θ_k，从而实现比随机相位模式更好的通信性能，因而获得更好的系统性能。单一考虑卸载和单一考虑本地运算两种通信模式也与实施例一方法进行对比分析，由于实施例一方法的算法特性，可以自适应地根据能量、信道、未来的估计等角度综合决定最优的卸载分配，因而实施例一方法实现的系统性能均比单一考虑卸载计算和单一考虑本地计算要更好。单一考虑本地运算模式的系统性能在三者间最差，这是因为用户设备往往能量与算力都受限。尽管HAP拥有相对充足的算力，但受限于用户设备需要付出的高昂射频电路支出，因此由于能量限制，单一卸载模式的系统性能也显著弱于实施例一的方法。

进一步地，如图5所示，本实施例二还公开了一种适于智能反射面与移动边缘计算结合场景的卸载决策装置，所述卸载决策装置包括目标函数构建单元100、优化问题划分单元200、迭代求解单元300。目标函数构建单元100用于构建待优化通信系统的目标函数，其中所述待优化通信系统包括带有边缘服务器的混合基站、智能反射面装置和若干移动用户设备；优化问题划分单元200用于将所述目标函数对应的优化问题划分为第一优化问题和第二优化问题，所述第一优化问题包括优化智能反射面装置的反射系数矩阵和移动用户设备的检测向量，所述第二优化问题包括优化混合基站和移动用户设备之间的时隙分配与任务量分配；迭代求解单元300用于交替进行所述第一优化问题和所述第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解所述第一优化问题，采用深度强化学习方法求解所述第二优化问题。其中，目标函数构建单元100、优化问题划分单元200、迭代求解单元300的具体工作过程可参照实施例一的相关描述，在此不进行赘述。

本实施例三还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有适于智能反射面与移动边缘计算结合场景的卸载决策程序，所述适于智能反射面与移动边缘计算结合场景的卸载决策程序被处理器执行时实现实施例一的适于智能反射面与移动边缘计算结合场景的卸载决策方法。

本申请的另一实施例还公开了一种计算机设备，在硬件层面，如图6所示，该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有适于智能反射面与移动边缘计算结合场景的卸载决策程序，所述适于智能反射面与移动边缘计算结合场景的卸载决策程序被处理器执行时实现上述的适于智能反射面与移动边缘计算结合场景的卸载决策方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种适于智能反射面与移动边缘计算结合场景的卸载决策方法，其特征在于，所述卸载决策方法包括：

交替进行所述第一优化问题和所述第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解所述第一优化问题，采用深度强化学习方法求解所述第二优化问题；

交替进行所述第一优化问题和所述第二优化问题的求解包括多轮迭代过程，每轮迭代过程包括优化智能反射面装置的转移过程T-IRS{S^T-IRS,Result^T-IRS,P^T-IRS}和优化卸载分配的转移过程T-DDPG{S^T-DDPG,A^T-DDPG,P^T-DDPG,R^T-DDPG}，S^T-IRS和S^T-DDPG表示状态，Result^T-IRS表示Θ_k、m_k的取值，A^T-DDPG表示子时隙分配t_k与工作量分配

的取值，P^T-IRS和P^T-DDPG表示转移概率，R^T-DDPG表示奖励，深度强化学习方法采用DDPG网络，在每周期内，自时隙1至T，t表示当前进行时隙，进行如下过程，具体为：

将计算结果result^T-IRS以及动作a^T-DDPG(t)分别在智能反射面装置以及移动用户设备上进行执行；

执行动作a^T-DDPG(t)，观察得到奖励值r^T-DDPG(t)；

得到下一时刻的信道状态信息且导出T-IRS状态s^T-IRS(t+1)，并计算得到结果result^T ^-IRS(t+1)；

根据s^T-IRS(t+1)以及result^T-IRS(t+1)得到T-DDPG状态s^T-DDPG(t+1)；

当记忆模组中的元组个数满足要求后，抽取一小批满足设定个数的元组，对DDPG网络进行训练更新，完成一轮迭代；

当迭代轮数达到设定值时，满足迭代停止条件，DDPG网络输出子时隙分配和工作量分配的最佳值，此时计算到的反射系数矩阵和用户检测向量的解即为优化解，最佳值和优化解共同构成待优化通信系统的最佳决策方案。

2.根据权利要求1所述的卸载决策方法，其特征在于，所述构建待优化通信系统的目标函数的方法包括：

计算移动用户设备k对应的混合基站的接收信号

其中a＝[a₁，a₂，...，a_N]^T表示幅值系数向量，θ＝[θ₁，θ₂，…，θ_N]^T表示相移系数向量，移动用户设备用/>

表示；

计算所述移动用户设备k的信息传输速率：r_o,k＝Blog₂(1+γ_o,k)，其中，B表示用于信息传输的带宽，γ_o,k表示根据接收信号y_k计算得到的信噪比，m_k表示针对当前任务数据s_k的信号检测向量，σ²表示噪声功率，

计算移动用户设备k通过卸载在混合基站计算的任务量

t_o,k表示卸载计算时隙；

计算移动用户设备k进行本地计算的任务量

r_l,k表示移动用户设备k本地的计算数据率，t_l,k表示本地计算时隙；

构建子时隙分配t_k、工作量分配

以及智能反射面装置的反射系数矩阵Θ调整为优化目标的目标函数：

3.根据权利要求2所述的卸载决策方法，其特征在于，所述目标函数对应的优化问题为：

且满足约束条件：t_h,k+t_o,k≤1,t_l,k≤1,

0≤θ_n＜2π,p_kt_o,k+e_l,k≤E_k+e_h,k，

其中，E_k代表用户设备k在时刻tk开始之前的剩余可用能量，p_k代表用户设备k的卸载计算功率，e_l,k代表用户设备k进行本地运算的能耗，e_h,k代表户设备k收集到的能量，T表示总的时隙个数，且满足T＝EK，其中E为在一轮计算周期内单个用户的遍历次数，用ε＝{1,...,E}表示。

4.根据权利要求3所述的卸载决策方法，其特征在于，将所述目标函数对应的优化问题划分为第一优化问题和第二优化问题的方法为：

将所述目标函数对应的优化问题展开为：

在优化反射系数矩阵和信号检测向量时，将时隙分配与任务量分配固定，即得到第一优化问题：

且满足约束条件：0≤θ_n＜2π；

在优化时隙分配与任务量分配时，将反射系数矩阵和信号检测向量固定，即得到第二优化问题：

且满足约束条件：t_h,k+t_o,k≤1,t_l,k≤1,

p_kt_o,k+e_l,k≤E_k+e_h,k。

5.根据权利要求4所述的卸载决策方法，其特征在于，采用块交替迭代下降方法求解所述第一优化问题时，固定反射系数矩阵Θ_k，检测向量m_k可以通过最大合并比算法得到，固定检测向量m_k的时候，反射系数矩阵Θ_k可以通过不等式取等得到，分别为：

6.一种适于智能反射面与移动边缘计算结合场景的卸载决策装置，其特征在于，所述卸载决策装置包括：

迭代求解单元，用于交替进行所述第一优化问题和所述第二优化问题的求解，直至满足停止条件，获得最佳决策方案，其中，采用块交替迭代下降方法求解所述第一优化问题，采用深度强化学习方法求解所述第二优化问题；

执行动作a^T-DDPG(t)，观察得到奖励值r^T-DDPG(t)；

根据s^T-IRS(t+1)以及result^T-IRS(t+1)得到T-DDPG状态s^T-DDPG(t+1)；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有适于智能反射面与移动边缘计算结合场景的卸载决策程序，所述适于智能反射面与移动边缘计算结合场景的卸载决策程序被处理器执行时实现权利要求1至5任一项所述的适于智能反射面与移动边缘计算结合场景的卸载决策方法。

8.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的适于智能反射面与移动边缘计算结合场景的卸载决策程序，所述适于智能反射面与移动边缘计算结合场景的卸载决策程序被处理器执行时实现权利要求1至5任一项所述的适于智能反射面与移动边缘计算结合场景的卸载决策方法。