CN113747507B

CN113747507B - 一种面向5g超密集网络的计算资源管理方法及装置

Info

Publication number: CN113747507B
Application number: CN202110937706.0A
Authority: CN
Inventors: 陈昕; 郭东超; 马卓; 刘智勇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-01-09
Anticipated expiration: 2041-08-16
Also published as: CN113747507A

Abstract

本申请提供一种面向5G超密集网络的计算资源管理方法及装置，方法包括：获取当前时隙的系统状态；系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；将系统状态输入至深度强化学习模型中，得到系统动作；系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源。有效解决了在多服务器密集部署的超密集网络环境下的资源管理问题，最小化任务处理时延，进一步提高了用户的体验质量。

Description

一种面向5G超密集网络的计算资源管理方法及装置

技术领域

本申请涉及边缘计算资源分配领域，具体涉及一种面向5G超密集网络的计算资源管理方法及装置。

背景技术

在智能设备和第五代移动通信技术5G(fifith-generation)快速发展的推动下，工业物联网、无人驾驶和智慧消防等各种复杂的服务与新兴业务不断涌现。在愈加复杂的网络场景中，用户设备会不断地产生不同类型的任务，导致大量数据流量。所产生的任务数据需要得到及时、可靠和高效的处理。一般来说，用户设备的计算能力与电池容量等资源是非常有限的。为解决用户设备资源受限的问题，可将任务卸载到边缘服务器以高效执行。在更高计算能力需求的促使下，边缘服务器的部署方式与5G超密集网络的结合更为紧密，集中式的边缘服务器部署正朝分布式部署的方向演进。对于各种计算密集型应用程序来说，将部分任务卸载到网络边缘，可以有效地降低延迟，提升用户体验。

目前，在结合移动边缘计算的5G超密集网络中，由于各种设备的致密性和系统资源的多样性，使得网络环境变得更加复杂。然而，传统的边缘服务器资源分配方案只考虑当前边缘服务器的计算能力，当其剩余的计算资源无法支持当前的任务计算时，所造成的任务边缘计算时延将无法满足用户的需求。

发明内容

由于现有方法存在上述问题，本申请实施例提供一种面向5G超密集网络的计算资源管理方法及装置。

具体的，本申请实施例提供了以下技术方案：

第一方面，本申请实施例提供了一种面向5G超密集网络的计算资源管理方法，包括：

获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；

将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；

其中，所述深度强化学习模型的训练过程如下：

步骤1，针对当前时隙的系统状态，包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量，根据当前深度神经网络参数决策出系统动作，并计算得到当前状态的即时奖励，以及下一时隙边缘服务器剩余计算资源总量；

步骤2，将当前时隙的系统状态、做出的动作决策、即时奖励和下一时隙的系统状态存储到经验回放池中；所述下一时隙的系统状态包括所有用户设备的计算任务数据量和下一时隙边缘服务器剩余计算资源总量；

步骤3，随机从经验回放池中抽取一小批数据输入到深度神经网络中进行训练，更新深度神经网络参数，修正做出的动作决策；

步骤4，当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练。

可选的，所述即时奖励为所有用户设备完成计算任务的平均时延，所完成计算任务的平均时延根据下面第一公式计算得到：

其中，r(t)为完成计算任务的平均时延，为任务在用户u本地的计算时延，为用户u卸载的任务量传输至边缘服务器n的传输时延，/>为边缘服务器n处理用户u的卸载任务的边缘计算时延。

可选的，根据下面第二公式计算任务在用户本地的计算时延，所述第二公式为：

其中，a_u,n(t)为用户u的卸载决策，即用户u卸载到边缘服务器计算的任务量大小，S_u,n(t)为用户u在t时隙生成的计算任务数据量，为计算单位比特任务所需的CPU周期数，为边缘服务器n服务的第u个用户单位时间的CPU周期数。

可选的，根据下面第三公式计算任务在用户本地卸载后传输至边缘服务器的传输时延，所述第三公式为：

其中，a_u,n(t)为用户u的卸载决策，r_u,n(t)为用户的上行传输速率。

可选的，根据下面第四公式计算任务的边缘计算时延，所述第四公式为：

其中，a_u,n(t)为用户u的卸载决策，f_u,n(t)为边缘服务器根据系统当前时隙所剩余的计算资源总量，为用户设备分配的计算资源。

可选的，根据下面第五公式计算执行当前所述系统动作后系统所剩余的计算资源总量，所述第五公式为：

其中，f(t+1)为下一时隙开始时系统所剩余的计算资源总量，f^re(t)为当前时隙内完成计算任务所释放的计算资源，f_u,n(t)为边缘服务器根据系统当前时隙所剩余的计算资源总量，为用户设备分配的计算资源，f(t)为当前时隙开始时系统所剩余的计算资源总量。

第二方面，本申请实施例提供了一种面向5G超密集网络的计算资源管理装置，包括：

获取模块，用于获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；

处理模块，用于将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述任务卸载策略用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；

其中，所述深度强化学习模型的训练过程如下：

针对当前时隙的系统状态，包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量，根据当前深度神经网络参数决策出系统动作，并计算得到当前状态的即时奖励，以及下一时隙边缘服务器剩余计算资源总量；

将当前时隙的系统状态、做出的动作决策、即时奖励和下一时隙的系统状态存储到经验回放池中；所述下一时隙的系统状态包括所有用户设备的计算任务数据量和下一时隙边缘服务器剩余计算资源总量；

随机从经验回放池中抽取一小批数据输入到深度神经网络中进行训练，更新深度神经网络参数，修正做出的动作决策；

当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练。

第三方面，本申请实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述面向5G超密集网络的计算资源管理方法的步骤。

第四方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述面向5G超密集网络的计算资源管理方法的步骤。

第五方面，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述面向5G超密集网络的计算资源管理方法的步骤。

由上面技术方案可知，本申请实施例根据当前边缘服务器剩余计算资源总量以及用户设备的计算任务量，制定边缘服务器协同进行任务计算的最优决策，有效解决了在多服务器密集部署的超密集网络环境下的资源管理问题，最小化任务处理时延，进一步提高了用户的体验质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本申请实施例提供的面向5G超密集网络的计算资源管理方法的步骤流程图；

图2是本申请实施例提供的面向5G超密集网络系统的示意图；

图3是本申请实施例提供的面向5G超密集网络的计算资源管理装置的结构示意图；

图4是本申请实施例的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本申请实施例提供的面向5G超密集网络的计算资源管理方法的步骤流程图，图2是本申请实施例提供的面向5G超密集网络系统的示意图。下面结合图1和图2对本申请实施例提供的面向5G超密集网络的计算资源管理方法进行详细解释和说明。

如图1所示，本申请实施例提供的面向5G超密集网络的计算资源管理方法，包括：

步骤101：获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；

在本步骤中，需要说明的是，本申请实施例提供的面向边缘计算的5G超密集网络系统如图2所示，包括：由多台边缘服务器组成的协同计算边缘云，以及多个用户处于边缘云服务范围内提供计算密集型任务。首先获取当前时隙5G超密集网络系统状态，包括但不限于信道增益、计算任务数据量和当前边缘服务器剩余计算资源总量。可以理解的是，相比于现有技术获取单一边缘服务器的计算资源，本申请基于多边缘服务器协同进行任务计算方式，获取的当前边缘服务器剩余计算资源总量为每个边缘服务器的计算能力之和。

步骤102：将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；

其中，所述深度强化学习模型的训练过程如下：

在本步骤中，需要说明的是，将步骤101获取的当前时隙的系统状态输入至训练好的深度强化模型中，即可到相应的系统动作，其包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略/>其中，卸载决策/>用于确定用户卸载到边缘服务器的任务数据量大小，边缘服务器协作的计算资源分配策略/>表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为用户设备分配计算资源。由此可见，本申请实施例通过考虑当前全部的边缘服务器计算资源，以时延最小化为目标制定任务卸载策略和计算资源分配决策，从而实现整个网络的计算资源管理。相比于传统的边缘服务器资源分配方案只考虑当前边缘服务器的计算能力，能够更好地满足用户需求，提高用户的体验质量。

在本步骤中，对深度强化学习模型进行训练的具体过程为：将当前时隙的系统状态、与系统状态对应的系统动作、执行系统动作所获得的即时奖励值和执行当前系统动作后下一时隙的系统状态作为经验样本存放入回放经验池中。其中，执行系统动作所获得的即时奖励值即为任务的平均完成时间，包括用户本地计算时延、任务卸载的传输时延和边缘服务器计算时延。随机抽取所述回放经验池中的经验样本，将所述经验样本输入至深度强化学习模型中，进行神经网络训练，更新神经网络参数，修正所做出的资源管理决策。当计算所有时隙下的任务平均完成时延也即平均奖励值完成收敛时，模型训练结束。

基于上述实施例的内容，在本实施例中，所述即时奖励为所有用户设备完成计算任务的平均时延，所完成计算任务的平均时延根据下面第一公式计算得到：

基于上述实施例的内容，在本实施例中，根据下面第二公式计算任务在用户本地的计算时延，所述第二公式为：

基于上述实施例的内容，在本实施例中，根据下面第三公式计算任务在用户本地卸载后传输至边缘服务器的传输时延，所述第三公式为：

基于上述实施例的内容，在本实施例中，根据下面第四公式计算任务的边缘计算时延，所述第四公式为：

基于上述实施例的内容，在本实施例中，根据下面第五公式计算执行当前所述系统动作后系统所剩余的计算资源总量，所述第五公式为：

下面通过具体实施例进行说明：

实施例一：

在本实施例中，需要说明的是，本申请实施例提供的面向边缘计算的5G超密集网路系统是一个多基站多用户多边缘服务器的5G超密集网络系统。系统中，每个基站都配备了一台边缘服务器，基站和边缘服务器的集合都可表示为由基站和边缘服务器n服务的用户设备(UE)集合可表示为/>每个UE每个时隙生成一个可拆分的计算密集型任务，其中一部分任务可在设备本地进行计算，剩余的部分可卸载到边缘服务器执行，任务处理的时间可以超过时隙的间隔长度τ。任务的数据量为S_u,n(t)，单位为bit，计算单位bit任务所需的CPU周期数为/>由基站和边缘服务器n服务的第u个UE单位时间的CPU周期数为/>边缘服务器n单位时间的CPU周期数为/>用户可行策略集为/> 中包含所有任务卸载的可能策略，由基站和边缘服务器n服务UE的策略集可表示为/>其中a_u,n(t)表示由基站和边缘服务器n服务的第u个UE卸载的数据量。边缘服务器的可行策略集为/> 中包含所有计算资源分配的可能策略，第n个边缘服务器的策略集可表示为/>其中f_u,n(t)表示第n个边缘服务器为所服务的第u个UE分配的计算资源。

在本实施例中，假设用户做出的卸载策略为a_u,n(t)，则在任务在本地计算的数据量为S_u,n(t)-a_u,n(t)。任务的本地时延为

为保证本地设备任务不产生积压，限制本地计算的时延不超过时隙间隔时间，即

在本实施例中，假设用户做出的卸载策略为a_u,n(t)。在任务传输过程中，时隙t，用户的上行传输速率为r_u,n(t)，则任务的传输时延为：

在本实施例中，系统中的多个边缘服务器协同进行任务的计算，系统中的计算资源总量为每个边缘服务器计算能力之和。每个小基站之间的连接方式为光纤传输，带宽较高，因此基站间的通信时延可以忽略。传输任务的边缘计算时延可以超过时隙间隔时间，任务在执行期间会占用计算资源，在进行边缘服务器决策时，边缘服务器根据系统当前时隙所剩余的计算资源总量，为UE分配计算资源f_u,n(t)，则任务的边缘计算时延为：

任务计算完成后，会释放所占用的计算资源，若当前时隙内完成任务所释放的计算资源为f^re(t)，则系统中下一时隙开始时所剩余计算资源总量为：

在本实施例中，每个任务的总完成时间为本地计算时延、任务传输时延和边缘计算时延之和，同时为当前时隙的即时奖励值，即

则所有时隙下所有任务平均完成时延为：

在本实施例中，针对当前时隙5G超密集网络系统包括信道增益、任务量和当前边缘服务器剩余计算资源总量等状态空间，根据当前深度神经网络参数进行任务卸载和计算资源分配的资源管理决策，基于上述公式得到当前状态下的即时奖励，并计算出下一时隙剩余计算资源总量。将当前系统状态、做出的决策、即时奖励和下一时隙的系统状态存储到回放经验池中。随机从回放经验池中抽取一小批数据输入到深度神经网络中进行训练，更新深度神经网络参数，修正所做出的资源管理决策。当计算得到的任务平均完成时间收敛时，得到每个时隙的资源管理方案，并按照所述每个时隙的资源管理方案进行资源管理。

基于相同的发明构思，本发明另一实施例提供了一种面向5G超密集网络的计算资源管理装置，如图3所示，所述装置包括：

获取模块1，用于获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；

处理模块2，用于将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述任务卸载策略用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；

其中，所述深度强化学习模型的训练过程如下：

在本实施例中，需要说明的是，本申请实施例提供的面向边缘计算的5G超密集网络系统如图2所示，包括：由多台边缘服务器组成的协同计算边缘云，以及多个用户处于边缘云服务范围内提供计算密集型任务。首先获取当前时隙5G超密集网络系统状态，包括但不限于信道增益、计算任务数据量和当前边缘服务器剩余计算资源总量。可以理解的是，相比于现有技术获取单一边缘服务器的计算资源，本申请基于多边缘服务器协同进行任务计算方式，获取的当前边缘服务器剩余计算资源总量为每个边缘服务器的计算能力之和。

在本实施例中，需要说明的是，将获取的当前时隙的系统状态输入至训练好的深度强化模型中，即可到相应的系统动作，其包括用户设备的任务卸载策略和边缘服务器协作的计算资源分配策略/>其中，，任务卸载策略/>用于确定用户卸载到边缘服务器的任务数据量大小，边缘服务器协作的计算资源分配策略/>表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为用户设备分配计算资源。由此可见，本申请实施例通过考虑当前全部的边缘服务器计算资源，以时延最小化为目标制定任务卸载策略和计算资源分配决策，从而实现整个网络的计算资源管理。相比于传统的边缘服务器资源分配方案只考虑当前边缘服务器的计算能力，能够更好地满足用户需求，提高用户的体验质量。

在本实施例中，对深度强化学习模型进行训练的具体过程为：将当前时隙的系统状态、与系统状态对应的系统动作、执行系统动作所获得的即时奖励值和执行当前系统动作后下一时隙的系统状态作为经验样本存放入回放经验池中。其中，执行系统动作所获得的即时奖励值即为任务的平均完成时延，包括用户本地计算时延、任务卸载的传输时延和边缘服务器计算时延。随机抽取所述回放经验池中的经验样本，将所述经验样本输入至深度强化学习模型中，进行神经网络训练，更新神经网络参数，修正所做出的资源管理决策。当计算所有时隙下的任务平均完成时延也即平均奖励值完成收敛时，模型训练结束。

由上面技术方案可知，本申请实施例根据当前边缘服务器剩余计算资源总量以及用户设备的计算任务量，制定边缘服务器协同进行任务计算的最优决策，有效解决了在多服务器密集部署的超密集网络环境下的资源管理问题，最大化降低了任务处理时延，进一步提高了用户的体验质量。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行面向5G超密集网络的计算资源管理方法，该方法包括：获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙的系统状态，包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量，根据当前深度神经网络参数决策出系统动作，并计算得到当前状态的即时奖励，以及下一时隙边缘服务器剩余计算资源总量；步骤2，将当前时隙的系统状态、做出的动作决策、即时奖励和下一时隙的系统状态存储到经验回放池中；所述下一时隙的系统状态包括所有用户设备的计算任务数据量和下一时隙边缘服务器剩余计算资源总量；步骤3，随机从经验回放池中抽取一小批数据输入到深度神经网络中进行训练，更新深度神经网络参数，修正做出的动作决策；步骤4，当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的面向5G超密集网络的计算资源管理方法，该方法包括：获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙的系统状态，包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量，根据当前深度神经网络参数决策出系统动作，并计算得到当前状态的即时奖励，以及下一时隙边缘服务器剩余计算资源总量；步骤2，将当前时隙的系统状态、做出的动作决策、即时奖励和下一时隙的系统状态存储到经验回放池中；所述下一时隙的系统状态包括所有用户设备的计算任务数据量和下一时隙边缘服务器剩余计算资源总量；步骤3，随机从经验回放池中抽取一小批数据输入到深度神经网络中进行训练，更新深度神经网络参数，修正做出的动作决策；步骤4，当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的面向5G超密集网络的计算资源管理方法，该方法包括：获取当前时隙的系统状态；所述系统状态包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量；将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙的系统状态，包括所有用户设备的计算任务数据量和当前边缘服务器剩余计算资源总量，根据当前深度神经网络参数决策出系统动作，并计算得到当前状态的即时奖励，以及下一时隙边缘服务器剩余计算资源总量；步骤2，将当前时隙的系统状态、做出的动作决策、即时奖励和下一时隙的系统状态存储到经验回放池中；所述下一时隙的系统状态包括所有用户设备的计算任务数据量和下一时隙边缘服务器剩余计算资源总量；步骤3，随机从经验回放池中抽取一小批数据输入到深度神经网络中进行训练，更新深度神经网络参数，修正做出的动作决策；步骤4，当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向5G超密集网络的计算资源管理方法，其特征在于，包括：

将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作以所有用户设备完成计算任务的平均时延最小为目标，包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述卸载决策用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；

其中，所述深度强化学习模型的训练过程如下：

步骤4，当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练；

其中，所述即时奖励为所有用户设备完成计算任务的平均时延，所完成计算任务的平均时延根据下面第一公式计算得到：

其中，r(t)为完成计算任务的平均时延，为任务在用户u本地的计算时延，/>为用户u卸载的任务量传输至边缘服务器n的传输时延，/>为边缘服务器n处理用户u的卸载任务的边缘计算时延；

根据下面第二公式计算任务在用户本地的计算时延，所述第二公式为：

其中，a_u,n(t)为用户u的卸载决策，即用户u卸载到边缘服务器计算的任务量大小，S_u,n(t)为用户u在t时隙生成的计算任务数据量，为计算单位比特任务所需的CPU周期数，/>为边缘服务器n服务的第u个用户单位时间的CPU周期数。

2.根据权利要求1所述的面向5G超密集网络的计算资源管理方法，其特征在于，根据下面第三公式计算任务在用户本地卸载后传输至边缘服务器的传输时延，所述第三公式为：

3.根据权利要求1所述的面向5G超密集网络的计算资源管理方法，其特征在于，根据下面第四公式计算任务的边缘计算时延，所述第四公式为：

4.根据权利要求1所述的面向5G超密集网络的计算资源管理方法，其特征在于，根据下面第五公式计算执行当前所述系统动作后系统所剩余的计算资源总量，所述第五公式为：

5.一种面向5G超密集网络的计算资源管理装置，其特征在于，包括：

处理模块，用于将所述系统状态输入至深度强化学习模型中，得到系统动作；所述系统动作以所有用户设备完成计算任务的平均时延最小为目标，包括用户设备的卸载决策和边缘服务器协作的计算资源分配策略；其中，所述任务卸载策略用于确定用户卸载到边缘服务器的任务数据量大小，所述边缘服务器协作的计算资源分配策略表示边缘服务器根据系统当前时隙所剩余的计算资源总量，为其服务的用户设备分配的计算资源；

其中，所述深度强化学习模型的训练过程如下：

当计算得到的即时奖励完成收敛时，得到每个时隙的资源管理方案，结束模型训练；

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述面向5G超密集网络的计算资源管理方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述面向5G超密集网络的计算资源管理方法的步骤。