CN113840334A

CN113840334A - 一种网络资源协同方法和装置

Info

Publication number: CN113840334A
Application number: CN202110962030.0A
Authority: CN
Inventors: 聂东旭; 李景要; 任洪亮; 李军站
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-24

Abstract

本发明公开了一种网络资源协同方法和装置，方法包括：以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值；在当前状态下随机选取当前动作，并基于当前动作来确定下一状态；比较当前状态与下一状态，并基于当前状态与下一状态的关系来确定当前奖励；基于下一状态与下一动作来确定下一Q值，并基于当前奖励和下一Q值来更新当前Q值；重复执行上述步骤直到满足结束条件，并基于当前Q值确定行为策略以控制网络资源。本发明能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销。

Description

一种网络资源协同方法和装置

技术领域

本发明涉及资源分配领域，更具体地，特别是指一种网络资源协同方法和装置。

背景技术

边缘计算价值正推动计算模型从集中式转向更加分布式的边缘计算，边缘计算正在快速兴起，到2022年随着数字业务的发展，75％的企业都将会把数据存放在云中心。近年来随着5G时代到来，网络游戏，短视频，实时翻译等计算密集型和延迟敏感的移动应用和传感器设备大量增长，由于移动终端以及IoT设备性能受到限制，所以需要把计算资源转移到云计算中心弥补移动终端的不足。由于移动终端和云服务器距离不同，不仅导致了通信成本也带来了不同程度的延迟，给实时应用带来影响。

MEC(移动边缘计算)是在移动边缘领域提供信息支持与服务，而MCC通过密集部署计算服务器来实现。MEC可以改善MCC(移动云计算)环境下的服务质量(QoS)比如低延迟和低能耗。MCC和MEC是互补协同关系。MEC靠近执行单元，更是云端数据采集和处理的初级单元，可以更好的支持云端应用。

理论上讲由于移动边缘网络的随机性和动态性，通过动态选择执行任务，合理的分配策略能有效降低时延和系统代价。例如马尔可夫决策算法过程通过分析每个任务的时延和设备能耗，提出在计算时间约束的情况下降低代价的策略。蚁群优化算法资源分配算法首先计算可用的质量然后利用蚁群算法得到最优解。自适应移动路径感知的用户分配算法也可以利用边缘节点和路网的数据确定边缘节点的状态进行预期感知。但这些方法都是启发式算法对任务进行调度求解，而启发式算法不能满足MEC场景下的实时性要求。

针对现有技术中难以实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种网络资源协同方法和装置，能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销。

基于上述目的，本发明实施例的第一方面提供了一种网络资源协同方法，包括执行以下步骤：

以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值；

在当前状态下随机选取当前动作，并基于当前动作来确定下一状态；

比较当前状态与下一状态，并基于当前状态与下一状态的关系来确定当前奖励；

基于下一状态与下一动作来确定下一Q值，并基于当前奖励和下一Q值来更新当前Q值；

重复执行上述步骤直到满足结束条件，并基于当前Q值确定行为策略以控制网络资源。

在一些实施方式中，基于当前状态与下一状态的关系来确定当前奖励包括：响应于下一状态超过当前状态而将当前奖励确定为正向奖励，响应于下一状态不足当前状态而将当前奖励确定为反向奖励，响应于下一状态持平当前状态而将当前奖励确定为中性奖励。

在一些实施方式中，基于当前奖励和下一Q值来更新当前Q值包括：基于遗忘参数将下一Q值加权叠加到当前奖励以获得中间值，并进一步基于学习参数将中间值和当前Q值归一化来更新当前Q值。

在一些实施方式中，结束条件包括：重复执行次数达到迭代阈值、或当前Q值收敛。

在一些实施方式中，行为策略基于在当前状态下的多个后续状态、折扣因子、和期望回报而确定，其中折扣因子与当前奖励的权重呈正相关性。

本发明实施例的第二方面提供了一种网络资源协同装置，包括：

处理器；

控制器，存储有处理器可运行的程序代码，处理器在运行程序代码时执行以下步骤：

本发明具有以下有益技术效果：本发明实施例提供的网络资源协同方法和装置，通过以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值；在当前状态下随机选取当前动作，并基于当前动作来确定下一状态；比较当前状态与下一状态，并基于当前状态与下一状态的关系来确定当前奖励；基于下一状态与下一动作来确定下一Q值，并基于当前奖励和下一Q值来更新当前Q值；重复执行上述步骤直到满足结束条件，并基于当前Q值确定行为策略以控制网络资源的技术方案，能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的网络资源协同方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销的网络资源协同方法的一个实施例。图1示出的是本发明提供的网络资源协同方法的流程示意图。

所述的网络资源协同方法，如图1所示，包括执行以下步骤：

步骤S101，以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值；

步骤S103，在当前状态下随机选取当前动作，并基于当前动作来确定下一状态；

步骤S105，比较当前状态与下一状态，并基于当前状态与下一状态的关系来确定当前奖励；

步骤S107，基于下一状态与下一动作来确定下一Q值，并基于当前奖励和下一Q值来更新当前Q值；

步骤S109，重复执行上述步骤直到满足结束条件，并基于当前Q值确定行为策略以控制网络资源。

面向数字化转型的边缘计算仅仅依靠现有的云端服务是远远不够的，需要实现端、边、云之间能够紧密结合相互协作。因此针对边缘计算场景下资源协同问题提出了基于强化学习的动态资源协同算法。该算法通过负载均衡和任务调度来降低MEC系统延迟以及总功耗，强化学习通过与环境不断交换，能够自主学习并在不同状态下采取最有解，获得最大化奖励。因此RL(强化学习)被广泛认为是一种解决复杂环境下决策问题的有效方法。本发明将从中心服务器、边缘节点，终端设备的动态状态来解决任务分配，并考虑到MEC和MCC的特点，提出基于强化学习的SARSA的5G边缘网络资源协同算法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

下面根据具体实施例来进一步阐述本发明的具体实施方式。

本发明优化目标是降低延迟并降低总功耗。将MEC系统的资源协同策略看作一个以降低MEC系统加权总代价为优化目标的随机优化问题，并采用强化学习方法求解最优代价算法。强化学习不同于有监督学习和无监督学习，强化学习强调何如基于现有环境而采取动作，从而改变自己状态并获得最大化的预期奖励。

本发明采用基于强化学习的SARSA算法求解优化问题。SARSA是一个on-policy(目标策略＝行为策略)的强化学习算法，其核心为Q-value表。表的列和行分别为强化学习状态集S的每个状态和动作集A的各个动作。记录每个状态所对应的各个动作的效用值，即在某一时刻的s的状态，采取动作a能够获得奖励的期望。SARSA算法决策过程文本采用贪心策略的方法求解问题，因此定义选择未来t时刻行为a的奖励为r_t。当MEC系统在t时刻状态s下的策略采取行动时记为v_π(s)：

v_π(s)＝E_π[U_t∣S_t＝s](U_t＝r_t+1+γr_t+2+…+γ^T-t-1r_t)

其中γ是一个折扣因子且0<γ<1，S_t当前状态，r_t为在时刻t采取行动action时的奖励，E_π是期望回报，而π是行为a的策略函数。

强化学习的训练目标是最大化其(未来)总奖励，为提高MEC的5G边缘网络资源协同提出基于强化学习的SARSA算法如下：

输入：终端数量N，任务的大小和个数

输出：协同分配算法

1.初始化网络的上传下载带宽和处理器能力

2.初始化迭代次数，设迭代次数L

3.for I<L；do

4.随机选择动作

5.按照公式计算当前状态

6.If St<St+1；then

7.set r_t＝1

8.else if St>St+1；then

9.set r_t＝-1

10.else

11.set r_t＝0

12.end if

13.获得奖励和下一阶段的状态

14.设置当前状态(S_t,a_t,r_t,S_t+1).

15.计算Q-value值

Q*(s,a)＝(1-α)q(s,a)+α(Rt+1+γq(st+1,at+1))

16.更新value

17.结束循环

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

在一个具体实施环境中，有20个终端设备，每个设备有5个任务，终端的处理时间设置为3.5s*10-7s/bit，相应功耗设置为3.7*10-6j/bit,边缘服务器cpu频率为1*109r/s,首发功耗为2.1*10-6j/bit。假设所有任务大小均在10～35mb之间。算法训练参数包括循环次数L，折算因子γ，行为a的贪心策略π，折扣因子γ的取值范围为0≤γ<1，γ＝0表示重视即时奖励，γ趋于1表示重视将来奖励。γ参数决定迭代时间的远近对奖励的影响程度，即牺牲当前收益来换取长远最大利益的决策。

此次实施过程中设置γ＝0.5，贪心策略函数π标识每个状态拓展新动作的概率，π较大可以快速收敛，但是容易陷入局部最优解，通常取值0.1。算法通过多次循环不断更新Q表得到最优的任务分配算法。但是循环次数过多会导致邻域计算量过大从而影响算法性能。经实验验证50次迭代以后收敛速度变慢，总代价提升趋势平稳，因此这里设置循环次数L设置为100。

为验证本算法的有效性，实施例采用基于强化学习的SARSA算法对MEC资源协同做出决策，随着迭代次数的增加，可卸载的任务数量增加也在动态的增加。实施结果表明，本算法合理划分了迭代次数，折算因子，通过构建基于强化学习的SARSA算法，产生近似最优解。与基准算法对比，SARSA算法能有效降低系统开销。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

从上述实施例可以看出，本发明实施例提供的网络资源协同方法，通过以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值；在当前状态下随机选取当前动作，并基于当前动作来确定下一状态；比较当前状态与下一状态，并基于当前状态与下一状态的关系来确定当前奖励；基于下一状态与下一动作来确定下一Q值，并基于当前奖励和下一Q值来更新当前Q值；重复执行上述步骤直到满足结束条件，并基于当前Q值确定行为策略以控制网络资源的技术方案，能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销。

需要特别指出的是，上述网络资源协同方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于网络资源协同方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销的网络资源协同装置的一个实施例。装置包括：

处理器；

本发明例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如装置等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

从上述实施例可以看出，本发明实施例提供的网络资源协同装置，通过以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值；在当前状态下随机选取当前动作，并基于当前动作来确定下一状态；比较当前状态与下一状态，并基于当前状态与下一状态的关系来确定当前奖励；基于下一状态与下一动作来确定下一Q值，并基于当前奖励和下一Q值来更新当前Q值；重复执行上述步骤直到满足结束条件，并基于当前Q值确定行为策略以控制网络资源的技术方案，能够实时性地解决资源协同问题以降低服务器存储计算时延和功耗开销。

需要特别指出的是，上述装置的实施例采用了所述网络资源协同方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述网络资源协同方法的其他实施例中。当然，由于所述网络资源协同方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

本发明实施例还可以包括相应的计算机设备。计算机设备包括存储器、至少一个处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述任意一种方法。

其中，存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述网络资源协同方法对应的程序指令/模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行装置的各种功能应用以及数据处理，即实现上述方法实施例的网络资源协同方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种网络资源协同方法，其特征在于，包括执行以下步骤：

在当前状态下随机选取当前动作，并基于所述当前动作来确定下一状态；

比较所述当前状态与所述下一状态，并基于所述当前状态与所述下一状态的关系来确定当前奖励；

基于所述下一状态与下一动作来确定下一Q值，并基于所述当前奖励和所述下一Q值来更新所述当前Q值；

重复执行上述步骤直到满足结束条件，并基于所述当前Q值确定行为策略以控制网络资源。

2.根据权利要求1所述的方法，其特征在于，基于所述当前状态与所述下一状态的关系来确定当前奖励包括：响应于所述下一状态超过所述当前状态而将所述当前奖励确定为正向奖励，响应于所述下一状态不足所述当前状态而将所述当前奖励确定为反向奖励，响应于所述下一状态持平所述当前状态而将所述当前奖励确定为中性奖励。

3.根据权利要求1所述的方法，其特征在于，基于所述当前奖励和所述下一Q值来更新所述当前Q值包括：基于遗忘参数将所述下一Q值加权叠加到所述当前奖励以获得中间值，并进一步基于学习参数将所述中间值和所述当前Q值归一化来更新所述当前Q值。

4.根据权利要求1所述的方法，其特征在于，所述结束条件包括：重复执行次数达到迭代阈值、或所述当前Q值收敛。

5.根据权利要求1所述的方法，其特征在于，所述行为策略基于在所述当前状态下的多个后续状态、折扣因子、和期望回报而确定，其中所述折扣因子与所述当前奖励的权重呈正相关性。

6.一种网络资源协同装置，其特征在于，包括：

处理器；

控制器，存储有所述处理器可运行的程序代码，所述处理器在运行所述程序代码时执行以下步骤：

7.根据权利要求6所述的装置，其特征在于，基于所述当前状态与所述下一状态的关系来确定当前奖励包括：响应于所述下一状态超过所述当前状态而将所述当前奖励确定为正向奖励，响应于所述下一状态不足所述当前状态而将所述当前奖励确定为反向奖励，响应于所述下一状态持平所述当前状态而将所述当前奖励确定为中性奖励。

8.根据权利要求6所述的装置，其特征在于，基于所述当前奖励和所述下一Q值来更新所述当前Q值包括：基于遗忘参数将所述下一Q值加权叠加到所述当前奖励以获得中间值，并进一步基于学习参数将所述中间值和所述当前Q值归一化来更新所述当前Q值。

9.根据权利要求6所述的装置，其特征在于，所述结束条件包括：重复执行次数达到迭代阈值、或所述当前Q值收敛。

10.根据权利要求6所述的装置，其特征在于，所述行为策略基于在所述当前状态下的多个后续状态、折扣因子、和期望回报而确定，其中所述折扣因子与所述当前奖励的权重呈正相关性。