CN117156492A

CN117156492A - 一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法

Info

Publication number: CN117156492A
Application number: CN202311136704.7A
Authority: CN
Inventors: 张海霞; 刘倩倩; 袁东风; 周晓天
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-01

Abstract

本发明涉及一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，包括：第一步、边缘服务器收集终端用户的任务和信道信息以及计算自身相关卸载比例和服务缓存增益的统计信息：第二步、边缘服务器训练一个基于改进的深度强化学习算法的双时间尺度的多维资源联合分配决策：第三步、边缘服务器部署训练好的决策模型，即作为一个智能体根据第一步收集的状态信息，分别做出的大时间尺度的服务缓存决策和小时间尺度的认为卸载比例、通信和计算资源分配决策。本发明能够适应不同的时间尺度和环境的动态变化，能有效解决双时间尺度的多维资源联合分配问题，同时也实现了系统的服务缓存成和终端用户的任务处理时延的有效降低。

Description

一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法。

背景技术

5G、人工智能(AI)以及物联网技术快速发展是终端积累的大量数据得以高效利用，以此催生了许多新兴的智能化的应用，例如，AI-导向的远程监控与预警，设备的预测性维护等。智能化的应用的实践成为推动工业智能化转型的关键。但智能化应用对计算能力和处理时延的要求非常高，是资源受限的终端设备无法承载的。

为支持计算密集且时延敏感的智能化应用，多接入边缘计算(MEC)、边缘服务缓存以及任务卸载技术应用而生，且受到国内外学术界和工业界的广泛关注。通过在靠近终端侧的边缘设备(Access Point AP)中装配具有存储，通信和计算能力的服务器，MEC一方面可以将处理智能任务的AI模型和数据库缓存网络边缘，使得MEC具有处理终端任务的能力；另一方面，MEC能够针对不同的智能任务进行计算和通信资源的分配，实现智能任务的高效调度，从而减低终端任务的处理时延和能耗。

然而，由于终端的智能任务种类多且任务的处理涉及到了多维资源的同时调度，即只有当边缘服务器具有任务相应的服务缓存模型，即相关任务处理的AI模型和数据库等且边缘服务器的计算资源充足且边缘服务器与终端的通信状态良好时，终端的计算任务才能卸载到边缘服务器处理。不合理的任务调度和资源分配方案，极易导致终端数据或者缓存数据在网络中频繁的交互，造成网络拥塞甚至网络瘫痪，从而导致终端任务的处理时延变长。为了应对以上挑战，联合优化服务缓存、计算卸载、通信和计算的资源分配的方案成为国内外学术界和工业界的研究热点与重点。

现有的MEC中多维资源的联合优化方案，大多将服务缓存的配置与MEC通信和计算资源的调度放在同一个时间尺度进行调度，忽略了服务缓存是一个在大时间尺度上操作才具有意义的优变量；此外,服务缓存决策由动态变化的卸载决策直接决定，单纯的按照统计信息优化服务缓存配置或者分开独立优化缓存、通信和计算不仅会造成服务缓存的浪费更会导致MEC资源闲置且终端任务无法完成的窘境。

基于上述分析可以得知，亟需在充分利用边缘服务器存储、通信和计算功能的基础上，联合服务缓存、计算卸载、通信与计算分配等多域资源调度以降低系统的缓存成本和任务的处理时延。

发明内容

针对现有技术的不足，本发明提供了一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法。本发明通过设计合理的深度强化学习框架，使边缘服务器对双时间尺度的多维资源合理调度，可以降低系统的服务缓存成本和任务的处理时延。

本发明的技术方案为：

一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，包括：

第一步、边缘服务器(ES)收集终端用户(TD)的任务和信道信息以及计算自身相关卸载比例和服务缓存增益的统计信息：具体包括：所有终端用户和边缘服务器之间的信道状态信息；所有终端用户当前时刻任务类型信息；边缘服务器当前时刻的服务缓存配置信息；边缘服务器处累计处理的各个任务的卸载比例；边缘服务器累计的不同服务缓存获得的时延增益；

第二步、边缘服务器训练一个基于改进的深度强化学习算法(集中评论家双演员深度确定性策略梯度算法)的双时间尺度的多维资源联合分配决策：

第三步、边缘服务器部署训练好的决策模型，即作为一个智能体根据第一步收集的状态信息，分别做出的大时间尺度的服务缓存决策和小时间尺度的认为卸载比例、通信和计算资源分配决策。

根据本发明优选的，建立适用于MEC网络中双时间尺度的联合服务缓存、通信与计算资源分配的优化问题；

目标函数如式(I)：

C1：

C2：

C3：

C4：

C5：

C6：

C7：

C8：

约束条件包括C1、C2、C3、C4、C5、C6、C7、C8；

其中：终端用户(TD)集合为任务文件集合为每个任务都对应一个服务模型，/>表示任务f对应服务模型的大小；假设采用双时间尺度离散时间模型，包含了/>大时间尺度时隙且每个大时隙包含了/>小时隙；边缘服务器的存储容量为C，/>分别表示边缘服务器的服务缓存决策、边缘服务器为终端用户分配卸载比例、计算资源和通信带宽决策；

优化变量为：分别为大时间尺度的缓存变量和小时间尺度的卸载比例变量、计算和通信分配变量；

优化目标为：最小化长期的任务处理时延和缓存成本的加权和，其具体表达式如式(II)：

其中，α∈{0，1}是平衡终端任务处理时延T_n，i，t和服务缓存切换成本Cost(i)的平衡因子，η为消除缓存成本量纲影响的权重因子，为任务在边缘服务器处的通信和计算时延，/>为任务卸载到云服务器(CS)的处理时延，/>为一个指示函数，当x代表的条件为真时，函数的取值为1，否则为0，/>为服务模型下载的时延，用以表示缓存切换成本；

约束条件为：C1表示只有当边缘服务器存储了相应的服务模型且为其分配了计算资源，才能处理TDX卸载的计算任务；C2表示边缘服务器的存储容量限制，即边缘服务器缓存服务模型之和不超过C；C3表示边缘服务器计算容量限制；C4表示边缘服务器带宽资源的限制；C5-C8表示优化变量的取值和时间尺度限制。

根据本发明优选的，第三步中，边缘服务器部署已训练完成的双演员网络即Dual-Actor网络，根据动态的任务请求实时做出大时间尺度的服务缓存决策和小时间尺度的任务卸载比例，计算和通信资源分配决策。

根据本发明优选的，第一步中，优化问题转换，建立马尔可夫决策模型，确定状态空间、动作空间和回报函数，其中，状态空间即为边缘服务器观察到的终端的任务和通信状态信息以及自身的缓存和计算状态信息，确定动作空间为任务在云和边缘服务器处理的分割卸载比例，边缘服务器计算和通信资源分配决策以及边缘服务器服务缓存模型选择，并将优化问题的目标函数：长期缓存成本和任务处理时延的加权和确定回报函数；具体包括：

所述状态空间包括所有终端用户和边缘服务器之间的信道状态信息，所有终端用户当前时刻任务类型信息，边缘服务器处累计处理的各个任务的卸载比例，边缘服务器当前时刻的服务缓存配置信息，边缘服务器累计的不同服务缓存获得的时延增益；

所述动作空间a(t)＝{c(i)，d(t)，f(t)，b(t)}，包括边缘服务器大时间尺度的服务缓存配置和小时间尺度的卸载比例、通信和计算资源分配决策；

所述回报函数为目标的负数以及违反约束条件的惩罚，当边缘服务器在状态空间s(t)时，采取动作a(t)，就获得一个立即回报其中/>为超出边缘服务器存储空间的惩罚。

根据本发明优选的，一个基于改进的深度强化学习算法(集中评论家双演员深度确定性策略梯度算法)的双时间尺度的多维资源联合分配模型为一个适合解决双时间尺度马尔可夫决策问题的DDPG模型，集中评论双演员深度确定性梯度算法(Centralized-critic-Dual-actor-DDPG)，包括一个集中的Critic网络(Centralized-Critic)和两个独立的Actor网络(Dual-Actor网络)，其中，集中的Critic网络用于集中评价独立的Actor网络输出不同时间尺度的决策；独立的Actor网络包括小时间尺度Actor网络和大时间尺度Actor网络；

集中的Critic网络包括两个神经网络，分别为目标网络和在线的估计网络，目标网络和估计网络都包括两层全连接神经网络和3个隐藏层，全连接神经网络包括输入层和输出层，利用Tanh作为激活函数；目标网络和估计网络通过相互迭代更新稳定训练过程；集中的Critic网络用于对独立的Actor网络在当前状态下输出的联合动作做出评价以指导其下一步的决策；

小时间尺度Actor网络和大时间尺度Actor网络均包括两个结构完全相同的神经网络，分别为目标网络和在线的估计网络，目标网络和估计网络都包括两层全连接神经网络和3个隐藏层，全连接神经网络包括输入层和输出层，利用Tanh作为激活函数；独立的Actor网络根据当前的状态，做出决策动作；其中，大时间尺度Actor网络做出服务缓存决策，小时间尺度网络做出卸载比例和计算以及通信资源分配决策。

根据本发明优选的，通过边缘服务器训练双时间尺度的多维资源联合分配模型，包括：

首先，将DDPG模型训练和推理均放在边缘服务器处执行，即边缘服务器作为智能体先在线训练，即智能体观测状态信息；然后，根据状态信息做出联合动作(双时间尺度的多维资源分配决策)，在环境中执行联合动作，获得当前的回报函数，转移到下个状态；随后，智能体将状态信息、联合动作、回报函数作为当前步的一组经验信息存储到记忆池中；最后，开始训练智能体的集中的Critic网络和两个独立的Actor网络；包括：

训练两个独立的Actor网络，包括：智能体将观察到的环境状态信息，输出到Actor网络中，在每个大时隙的开始，大时间尺度Actor网络根绝当前的状态输出服务缓存决策，在每个小时隙的开始，小时间尺度Actor网络根据当前的状态输出卸载比例，云服务器的通信和计算资源分配决策；通过在记忆池中选取一部分经验，根据大时间尺度Actor网络和小时间尺度Actor网络自身输出的确定性策略梯度和从集中的Critic网络传来的集中状态-动作函数值分别更新网络参数，大时间尺度Actor网络和小时间尺度Actor网络共享一个集中状态-动作函数，小时间尺度Actor网络是实时更新的，大时间尺度Actor网络只在大时隙的开始更新；

训练智能体的集中的Critic网络，包括：集中的Critic网络对大时间尺度Actor网络和小时间尺度Actor网络在当前状态下输出的动作做出评价，即输出集中状态-动作Q函数值，指导大时间尺度Actor网络和小时间尺度Actor网络下一步决策；集中的Critic网络通过抽取部分经验，利用最小化损失函数的形式更新其网络参数；

训练完成后，智能体分布执行训练好的DDPG模型，根据边缘服务器当前观测到的状态信息，以最大化长期的回报函数为目标，得到双时间尺度的多维资源分配决策。

1)智能体的Dual-Actor网络根据观测状态，做出相应的动作决策；

大时间尺度Actor网络的动作为a_large(i)＝{c(i)}，其中，c(i)表示边缘服务器的服务缓存决策；

小时间尺度Actor网络的动作为a_small(t)＝[d(t)，f(t)，b(t)}，其中，d(t)为所有终端用户的任务卸载比例，f(t)为边缘服务器计算资源分配决策，b(t)为边缘服务器的带宽资源分配决策；

将大时间尺度Actor网络和小时间尺度Actor网络的决策定义为两个独立的Actor网络输出的联合动作a＝{a_small(t)，a_large(i)}$；

Dual-Actor网络根据观测到的状态信息输出相应动作，即a_large(i)＝μ_la(s_i|θ^la)+η^l，a_small(t)＝μ_sa(s_t|θ^sa)+η^s，其中，θ^la，θ^sa分别是大时间尺度Actor网络、小时间尺度Actor网络的参数，η^l，η^s分别为动作的探索噪声；

2)智能体执行该联合动作a＝{a_small(t)，a_large(i)}$，并获得一个及时的回报函数，转移到下一个状态，并且将当前的状态、联合动作、回报函数、下一个状态当作一组经验，e_i，t＝{s_t，{a_small(t)，a_large(i)}，r_t，s_t+1}，存储到记忆池中；

3)智能体的集中的Critic网络根据状态和Dual-Actor网络输出的联合动作，输出一个集中的评价函数用以指导大时间尺度Actor网络和小时间尺度Actor网络输出下一步的动作决策；其中，r_t为执行动作后获得的瞬时回报函数，θ^c为集中的Critic网络的参数，γ为折扣因子，表示当前动作对未来决策的影响程度；

4)重复步骤1)、2)、3)直到记忆池中存储的经验数量大于设定用于训练的经验数量最小阈值之后，开始从记忆池中抽取部分经验，训练一个集中的Critic网络和两个独立的Actor网络；

5)Dual-Actor网络利用策略梯度下降算法更新其网络参数，其中，大时间尺度Actor网络和小时间尺度Actor网络同时训练，利用自身动作的策略梯度和从集中的Critic网络传来的集中的状态-动作Q函数的梯度，分别更新其网络参数θ^la，θ^sa：

集中的Critic网络通过最小化损失函数的形式更新其网络参数θ^c，集中的Critic网络的损失函数，定义为目标网络对联合动作状态输出的Q值减去估计网络对其输出的Q值，

6)重复步骤1)、2)、3)、4)、5)，利用上述实时更新的估计网络的参数值，θ^la，θ^sa，θ^c，来延迟更新Dual-Actor网络和集中的Critic网络的目标网络的参数值θ^la′，θ^sa′，θ^c′：θ^la′←ζθ^la+(1-ζ)θ^la′，θ^sa′←ζθ^sa+(1-ζ)θ^sa′，θ^c′←ζθ^c+(1-ζ)θ^c′，其中，ζ为软更新因子，表示延迟更新的频率，达到设定的次数后，即可返回训练好的在线Dual-Actor网络；

7)完成训练后，将训练好的Dual-Actor网络部署在边缘服务器，在每个大时间尺度时隙的开始，边缘服务器根据状态做出长期的服务缓存决策；在每个小时间尺度时隙的开始，边缘服务器根据状态做出瞬时的任务卸载比例，计算和通信资源的分配决策。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于深度强化学习的联合服务缓存、通信和计算的双时间尺度资源分配方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于深度强化学习的联合服务缓存、通信和计算的双时间尺度资源分配方法中的步骤。

本发明的有益效果为：

本发明通过设计一个双时间尺度的多维资源分配方案，实现了对处于不同时间尺度的服务缓存、卸载比例、边缘服务器的计算和通信资源联合调度。从系统的角度看，既可以有效的减少系统的缓存切换成本也可以降低终端用户的任务处理时延。

本发明通过提出一个改进的深度强化学习算法，集中评论家双演员DDPG算法，有效解决了双时间尺度多维资源联合优化问题，所提算法通过集中评论家网络在所有决策之间建立了全局联系，具有了集中训练的优势，同时双演员网络实现了不同时间尺度决策的灵活配置，也具有了分布式执行的优点。

附图说明

图1是本发明所提联合服务缓存，通信和计算的双时间尺度资源分配优化方法流程图；

图2是本发明所提DDPG模型的网络框架图；

图3是本发明设定的双时间尺度离散时间模型的示意图；

图4是本发明方法与DDPG方法的收敛性能对比示意图；

图5是本发明方法在不同时间尺度下与DDPG方法的效用函数对比示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明做进一步说明，但不限于此。

实施例1

一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，用以降低系统的服务缓存成本和任务的处理时延，如图1所示，包括：

边缘服务器用于为终端用户处理任务；边缘服务器的通信资源用于终端用户任务输入数据的上传和任务结果的下发，边缘服务器的计算和存储资源用于计算任务高效处理；边缘服务器还是多维资源调度的决策者，通过获取状态信息、训练决策模型实现多维资源的在线管理；

云服务器存储有处理所有终端任务所需的服务缓存模型，且具有强大的计算能力，处理边缘服务器无法处理的计算任务和下发服务缓存模型到边缘服务器；

终端用户为不具有处理能力的底层物联网设备，只能收集感知的数据(任务的输入数据)上传到边缘服务器处理或云服务器处理。

实施例2

根据实施例1所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其区别在于：

优选的场景包括一个云服务器、一个边缘服务器和多个终端用户且用户产生的任务任意可分，建立适用于MEC网络中双时间尺度的联合服务缓存、通信与计算资源分配的优化问题；

目标函数如式(I)：

C1：

C2：

C3：

C4：

C5：

C6：

C7：

C8：

约束条件包括C1、C2、C3、C4、C5、C6、C7、C8；

其中：终端用户(TD)集合为任务文件集合为每个任务都对应一个服务模型，/>表示任务f对应服务模型的大小；假设采用双时间尺度离散时间模型，如图3所示，包含了/>大时间尺度时隙且每个大时隙包含了/>小时隙；边缘服务器的存储容量为C，分别表示边缘服务器的服务缓存决策、边缘服务器为终端用户分配卸载比例、计算资源和通信带宽决策；

其中，α∈{0，1}是平衡终端任务处理时延T_n，i，t和服务缓存切换成本Cost(i)的平衡因子，η为消除缓存成本量纲影响的权重因子，为任务在边缘服务器处的通信和计算时延，/>为终端用户到边缘服务器的上行链路的传输速率，p_n为终端用户的发射功率，/>为终端用户-边缘服务器链路的信道增益，包括了小尺度的瑞利衰落和大尺度的路径损耗；为任务卸载到云服务器(CS)的处理时延，/>为一个指示函数，当x代表的条件为真时，函数的取值为1，否则为0，/>为服务模型下载的时延，用以表示缓存切换成本；

第三步中，边缘服务器部署已训练完成的双演员网络即Dual-Actor网络，根据动态的任务请求实时做出大时间尺度的服务缓存决策和小时间尺度的任务卸载比例，计算和通信资源分配决策。

第一步中，优化问题转换，建立马尔可夫决策模型，本发明优化问题是一个长期的动态的多维优化问题且是一个典型的NP问题，很难使用传统的优化方法求解。为此将其转化成马尔可夫决策模型，使用智能的深度强化学习算法求解。将优化问题转化成马尔可夫决策模型需确定状态空间、动作空间和回报函数，其中，状态空间即为边缘服务器观察到的终端的任务和通信状态信息以及自身的缓存和计算状态信息，确定动作空间为任务在云和边缘服务器处理的分割卸载比例，边缘服务器计算和通信资源分配决策以及边缘服务器服务缓存模型选择，并将优化问题的目标函数：长期缓存成本和任务处理时延的加权和确定回报函数；具体包括：

状态空间包括所有终端用户和边缘服务器之间的信道状态信息，所有终端用户当前时刻任务类型信息，边缘服务器处累计处理的各个任务的卸载比例，边缘服务器当前时刻的服务缓存配置信息，边缘服务器累计的不同服务缓存获得的时延增益；

动作空间a(t)＝{c(i)，d(t)，f(t)，b(t)}，包括边缘服务器大时间尺度的服务缓存配置和小时间尺度的卸载比例、通信和计算资源分配决策；

回报函数为目标的负数以及违反约束条件的惩罚，当边缘服务器在状态空间s(t)时，采取动作a(t)，就获得一个立即回报其中/>为超出边缘服务器存储空间的惩罚。

深度强化学习网络设计，由于传统的深度强化学习算法如DDPG，只具有一个Actor网络不能同时输出具有不同维度的动作决策，此外如若采用两个基于DDPG的智能体分别解决不同时间尺度的优化问题，由于没有一个集中的指导，容易造成局部最优解，为使传统的DDPG算法能够求解双时间尺度的决策优化问题，本发明通过改进传统的DDPG网络框架；一个基于改进的深度强化学习算法(集中评论家双演员深度确定性策略梯度算法)的双时间尺度的多维资源联合分配模型为一个适合解决双时间尺度马尔可夫决策问题的DDPG模型，集中评论双演员深度确定性梯度算法(Centralized-critic-Dual-actor-DDPG)，如图2所示，包括一个集中的Critic网络(Centralized-Critic)和两个独立的Actor网络(Dual-Actor网络)，其中，集中的Critic网络用于集中评价独立的Actor网络输出不同时间尺度的决策；独立的Actor网络包括小时间尺度Actor网络和大时间尺度Actor网络；

集中的Critic网络包括两个神经网络，分别为目标网络和在线的估计网络，两者具有相同的网络结构，目标网络和估计网络都包括两层全连接神经网络和3个隐藏层，全连接神经网络包括输入层和输出层，利用Tanh作为激活函数；目标网络和估计网络通过相互迭代更新稳定训练过程；集中的Critic网络用于对独立的Actor网络在当前状态下输出的联合动作做出评价以指导其下一步的决策；

通过边缘服务器训练双时间尺度的多维资源联合分配模型，包括：

集中评论家双演员深度确定性梯度算法训练，首先，将DDPG模型训练和推理均放在边缘服务器处执行，即边缘服务器作为智能体先在线训练，即智能体观测状态信息；然后，根据状态信息做出联合动作(双时间尺度的多维资源分配决策)，在环境中执行联合动作，获得当前的回报函数，转移到下个状态；随后，智能体将状态信息、联合动作、回报函数作为当前步的一组经验信息存储到记忆池中；在积累一定经验之后，最后，开始训练智能体的集中的Critic网络和两个独立的Actor网络；包括：

Dual-Actor网络根据观测到的状态信息输出相应动作，即a_large(i)＝μ_la(s_i|θ^la)+η^l，a_small(t)＝μ_sa(s_t|θ^sa)+η^s，其中，θ^la，θ^sa分别是大时间尺度Actor网络、小时间尺度Actor网络的参数，η^l，η^a分别为动作的探索噪声；其随着训练步数增加而变少，用以提高Actor网络学习更好动作策略的探索能力。

集中的Critic网络通过最小化损失函数的形式更新其网络参数θ^c，需指出，Dual-Actor网络和集中Critic网络都采用了双神经网络结构，即具有两个结构完全一样的目标网络和估计网络来稳定其训练过程。集中的Critic网络的损失函数，定义为目标网络对联合动作状态输出的Q值减去估计网络对其输出的Q值，

6)重复步骤1)、2)、3)、4)、5)，利用上述实时更新的估计网络的参数值，θ^la，θ^sa，θ^c，来延迟更新Dual-Actor网络和集中的Critic网络的目标网络的参数值θ^la′，θ^aa′，θ^c′：θ^la′←ζθ^la+(1-ζ)θ^la′，θ^sa′←ζθ^sa+(1-ζ)θ^sa′，θ^c′←ζθ^c+(1-ζ)θ^c′，其中，ζ为软更新因子，表示延迟更新的频率，达到设定的次数后，即可返回训练好的在线Dual-Actor网络；

对本发明对提出的一种基于集中评论家双演员网络DDPG算法的双时间尺度多维资源分配方法的收敛和系统性能进行测试和评估，并与传统算法进行比较，具体结果如下：

图4为本发明所提方法与DDPG算法在训练阶段的及累计回报函数随着训练回合变化的示意图。可以看到当训练回合数增加后，两个算法都能达到相对稳定的收敛状态，但所提改进算法比DDPG效果更好、收敛速度更快且更加稳定。

图5为本发明所提方法与DDPG算法的加权时延和缓存成本函数随缓存时间尺度变化的示意图。可以看到当缓存尺度小，即缓存切换的频率快时，所提方法比DDPG算法系统的性能好很多。因为所提算法具有集中训练的优势，能够做出相辅相成的缓存和资源分配决策。当缓存的尺度变大，两个算法的性能都开始下降且达到的性能逐渐趋同，是因为此时缓存对卸载和资源分配的影响变小。

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1或2任一项所述的一种基于深度强化学习的联合服务缓存、通信和计算的双时间尺度资源分配方法中的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1或2任一项所述的一种基于深度强化学习的联合服务缓存、通信和计算的双时间尺度资源分配方法中的步骤。

Claims

1.一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，包括：

第一步、边缘服务器收集终端用户的任务和信道信息以及计算自身相关卸载比例和服务缓存增益的统计信息：具体包括：所有终端用户和边缘服务器之间的信道状态信息；所有终端用户当前时刻任务类型信息；边缘服务器当前时刻的服务缓存配置信息；边缘服务器处累计处理的各个任务的卸载比例；边缘服务器累计的不同服务缓存获得的时延增益；

第二步、边缘服务器训练一个基于改进的深度强化学习算法的双时间尺度的多维资源联合分配决策：

2.根据权利要求1所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，建立适用于MEC网络中双时间尺度的联合服务缓存、通信与计算资源分配的优化问题；

目标函数如式(I)：

C1：

C2：

C3：

C4：

C5：

C6：

C7：

C8：

约束条件包括C1、C2、C3、C4、C5、C6、C7、C8；

其中：终端用户集合为任务文件集合为/>每个任务都对应一个服务模型，/>表示任务f对应服务模型的大小；假设采用双时间尺度离散时间模型，包含了/>大时间尺度时隙且每个大时隙包含了/>小时隙；边缘服务器的存储容量为C,/>分别表示边缘服务器的服务缓存决策、边缘服务器为终端用户分配卸载比例、计算资源和通信带宽决策；

其中，α∈{0，1}是平衡终端任务处理时延T_n，i，t和服务缓存切换成本Cost(i)的平衡因子，η为消除缓存成本量纲影响的权重因子，为任务在边缘服务器处的通信和计算时延，/>为任务卸载到云服务器的处理时延，/>为一个指示函数，当x代表的条件为真时，函数的取值为1，否则为0，为服务模型下载的时延，用以表示缓存切换成本；

3.根据权利要求1所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，第三步中，边缘服务器部署已训练完成的双演员网络即Dual-Actor网络，根据动态的任务请求实时做出大时间尺度的服务缓存决策和小时间尺度的任务卸载比例，计算和通信资源分配决策。

4.根据权利要求1所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，第一步中，优化问题转换，建立马尔可夫决策模型，确定状态空间、动作空间和回报函数，其中，状态空间即为边缘服务器观察到的终端的任务和通信状态信息以及自身的缓存和计算状态信息，确定动作空间为任务在云和边缘服务器处理的分割卸载比例，边缘服务器计算和通信资源分配决策以及边缘服务器服务缓存模型选择，并将优化问题的目标函数：长期缓存成本和任务处理时延的加权和确定回报函数；具体包括：

5.根据权利要求1所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，一个基于改进的深度强化学习算法的双时间尺度的多维资源联合分配模型为一个适合解决双时间尺度马尔可夫决策问题的DDPG模型，包括一个集中的Critic网络和两个独立的Actor网络，其中，集中的Critic网络用于集中评价独立的Actor网络输出不同时间尺度的决策；独立的Actor网络包括小时间尺度Actor网络和大时间尺度Actor网络；

6.根据权利要求1所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，通过边缘服务器训练双时间尺度的多维资源联合分配模型，包括：

首先，将DDPG模型训练和推理均放在边缘服务器处执行，即边缘服务器作为智能体先在线训练，即智能体观测状态信息；然后，根据状态信息做出联合动作，在环境中执行联合动作，获得当前的回报函数，转移到下个状态；随后，智能体将状态信息、联合动作、回报函数作为当前步的一组经验信息存储到记忆池中；最后，开始训练智能体的集中的Critic网络和两个独立的Actor网络；包括：

7.根据权利要求1-6任一项所述的一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法，其特征在于，通过边缘服务器训练双时间尺度的多维资源联合分配模型，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种基于深度强化学习的联合服务缓存、通信和计算的双时间尺度资源分配方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的一种基于深度强化学习的联合服务缓存、通信和计算的双时间尺度资源分配方法中的步骤。