CN114567560A

CN114567560A - 基于生成对抗模仿学习的边缘节点动态资源分配方法

Info

Publication number: CN114567560A
Application number: CN202210067473.8A
Authority: CN
Inventors: 缪巍巍; 张明轩; 曾锃; 全思平; 杨君中; 王兴龙; 张瑞; 张震; 滕昌志; 李世豪; 毕思博; 张利; 孙琦; 赵然
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd; Taizhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd; Taizhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-31
Anticipated expiration: 2042-01-20
Also published as: CN114567560B

Abstract

本发明公开一种基于生成对抗模仿学习的边缘节点动态资源分配方法，包括：获取边缘节点上的边缘环境信息，根据边缘环境信息，利用预先训练的资源分配策略模型得到资源分配策略；根据资源分配策略向请求服务的各用户节点分配应用服务资源；资源分配策略模型基于预训练的用户请求策略模型利用Q‑learning强化学习算法训练得到；用户请求策略模型为基于历史真实边缘环境信息利用生成对抗训练得到。本发明无需通过与大量真实边缘环境交互便可实现资源分配策略模型的策略优化，从而在实际边缘节点资源分配时能够获得更贴合实际用户需求的资源分配策略，提升边缘节点应用为用户提供服务的效率，优化用户服务体验。

Description

基于生成对抗模仿学习的边缘节点动态资源分配方法

技术领域

本发明涉及边缘节点应用服务资源分配技术领域，特别是一种基于生成对抗模仿学习的边缘节点动态资源分配方法。

背景技术

边缘节点的动态资源分配是根据外部环境、日期、时间、季节、最近边缘负载情况等等因素来动态的预测边缘节点未来的负载情况，并根据负载预测结果对不同资源进行分配等管理，例如可以提前对未来应用请求更多服务分配更多资源，从而提升用户服务质量。但目前大多数的方法还是通过人工经验来进行负载预测并进行资源管理，常见的策略包括：在高峰时刻将更多资源分配给不同的应用，在低谷时刻将服务集中，减少电力消耗等等。

由于边缘负载复杂而且频繁的变化，需要综合考虑多种因素进行负载预测，人工的进行资源分配不仅依赖于长年的经验积累，还有可能对一些关键的因素产生遗漏，并且非常消耗人力。

近来也有部分研究通过引入机器学习来进行资源分配，通过监督学习时间序列预测等方法对边缘负载进行预测，然后进行资源分配。

监督学习可以考虑到复杂的外部因素，但是监督学习依赖于模型准确的假设，在真实应用中，由于环境的变化，可能导致模型出现较大的偏差；其次，当资源分配之后，用户的请求也可能会发生变化，因此需要针对的进行考虑。

强化学习是通过智能体与环境不断交互试错，提升智能体自身的决策水平，使智能体在环境中逐渐学得最优控制策略，自动完成决策任务。然而，强化学习的学习过程需要智能体与环境进行大量交互试错，在资源分配过程中，如果直接进行不同分配方案的试错，可能对用户体验造成非常大的损失。

发明内容

本发明的目的是提供一种基于生成对抗模仿学习的边缘节点动态资源分配方法，可实现对用户服务资源请求的模拟，从而无需通过与真实边缘环境交互即可实现对资源分配策略模型的优化，能够提升边缘节点应用为用户提供服务的效率，优化用户服务体验。本发明采用的技术方案如下。

一方面，本发明提供一种边缘节点动态资源分配方法，包括：

获取边缘节点上的边缘环境信息，所述边缘环境信息包括用户节点的服务资源请求信息；

将所述边缘环境信息输入预先训练的资源分配策略模型，得到资源分配策略模型输出的资源分配方案；

根据所述资源分配方案向请求服务资源的各用户节点分配应用服务资源；

其中，所述资源分配策略模型的训练包括Q-learning强化学习训练，强化学习训练过程中，边缘节点的资源分配策略为智能体，用户节点的服务资源请求为环境，用户节点在每一轮迭代中的服务资源请求通过预训练的用户请求策略模型生成；

所述用户请求策略模型的训练包括生成对抗训练，生成对抗训练过程中，用户请求策略模型作为生成器网咯，与预构建的判别器网络进行生成对抗训练，用户请求策略模型的输入为用户节点状态信息，判别器网络的输入为用户请求策略模型生成的模拟用户服务资源请求信息以及历史真实用户请求信息。

通过基于历史真实用户请求案例的生成对抗训练，用户请求策略模型可实现对真实用户的模仿，从而生成不同边缘环境下的用户服务资源请求，进而在资源分配策略模型的强化学习训练中作为环境能够实现环境状态的可靠转换。

可选的，所述服务资源请求信息包括服务资源请求类型以及所请求的负载量信息；

所述边缘环境信息还包括用户节点的状态信息，边缘节点的服务信息、边缘参数、负载量信息以及资源分配信息。

本发明中，用户资源请求信息用时刻对应的用户状态和用户资源请求方案组成的轨迹来描述。

可选的，所述资源分配策略模型和用户请求策略模型的训练还包括模仿学习预训练，包括：

构建虚拟边缘环境模拟器，所述虚拟边缘环境模拟器包括资源分配神经网络和用户请求神经网络；

将历史真实边缘环境信息作为虚拟边缘环境模拟器的输入数据，对资源分配神经网络和用户请求神经网络进行模仿学习训练：利用所述资源分配神经网络学习历史真实边缘环境信息中的资源分配策略，利用所述用户请求神经网络学习历史真实缘环境信息中的用户请求策略；

将训练得到的资源分配神经网络作为强化学习训练前的资源分配策略模型，将训练得到的用户请求神经网络作为生成对抗训练前的用户请求策略模型。

可选的，所述用户请求模型的生成对抗训练包括：

对应用户请求策略模型构建判别器；

由用户请求策略模型生成模拟用户服务资源请求信息；

利用历史真实边缘环境信息中的历史真实用户服务资源请求信息和所述模拟用户服务资源请求信息训练判别器网络，计算判别损失和生成损失，根据判别损失和生成损失分别优化判别器网络和用户请求策略模型的网络参数；

交替进行用户请求策略模型与判别器网络的生成对抗训练，直至判别器无法区分用户请求策略模型生成的模拟用户服务资源请求信息以及历史真实用户请求信息。

可选的，在强化学习训练时，每一轮迭代中，所述用户请求策略模型根据当前时刻当前用户节点状态、任务以及边缘节点提供的服务资源，确定下一轮次向边缘节点请求的服务资源请求类型及服务负载量，输出为用户服务资源请求信息。

边缘节点根据当前边缘环境S按照当前资源分配策略π确定的资源分配方案即强化学习中的动作A，不同的动作A可反馈对应的奖赏R，通过累计长期奖赏可进行资源分配策略π的更新，即实现资源分配策略模型的优化。资源分配策略模型进行强化学习训练时可以设定时段内用户服务质量最优为目标函数。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如第一方面所述的边缘节点动态资源分配方法。

第三方面，本发明提供一种边缘节点负载预测及资源分配方法，包括：

获取边缘节点上的实时边缘环境信息，所述边缘环境信息包括用户节点的状态和任务信息，边缘节点向用户节点分配的服务资源状态信息；

将所述实时边缘环境信息输入预先训练的用户请求策略模型，得到用户请求策略模型输出的各用户节点的用户服务资源请求预测结果；

利用所述用户服务资源请求预测结果更新所述实时边缘环境信息，得到边缘环境信息预测结果；

将所述边缘环境信息预测结果输入预先训练的资源分配策略模型，得到资源分配策略模型输出的资源分配方案；

根据所述资源分配方案向各用户节点分配应用服务资源；

上述边缘节点负载预测及资源分配方法能够实现对边缘节点的负载预测，及相应资源分配方案的生成，为边缘节点部署调整提供指导。

可选的，所述用户请求模型的生成对抗训练包括：

对应用户请求策略模型构建判别器；

由用户请求策略模型生成模拟用户服务资源请求信息；

利用历史真实边缘节点信息中的历史真实用户服务资源请求信息和所述模拟用户服务资源请求信息训练判别器网络，计算判别损失和生成损失，根据判别损失和生成损失分别优化判别器网络和用户请求策略模型的网络参数；

有益效果

本发明可用于边缘节点上进行智能动态的资源分配，通过结合模仿学习、生成对抗训练和强化学习算法，能够对用户的资源请求策略进行有效的模仿，从而在强化学习训练中能够得到优化效果更好的边缘节点资源分配策略模型，继而能够以更优的资源分配策略进行实际应用时的边缘节点服务资源分配，提升边缘节点应用为用户提供服务的效率，优化用户服务体验优化用户服务质量。

附图说明

图1所示为本发明中边缘节点动态资源分配方法的一种实施例流程示意图；

图2所示为本发明中边缘节点负载预测及资源分配方法的一种实施例流程示意图。

具体实施方式

以下结合附图和具体实施例进一步描述。

传统的资源分配策略优化，通常通过神经网络学习历史真实资源分配案例来实现，但是，在边缘环境，不同的用户可能会根据自身的需要请求不同的负载的服务，因此用户服务资源请求策略和边缘节点的资源分配策略也是互相影响的，若不考虑用户特征对边缘节点资源分配方案的影响，则很难训练得到较为可靠的资源分配策略模型。

本发明的技术构思为，首先通过模仿学习刻画用户特征，训练用户请求策略模型，然后将用户资源请求作为强化学习中的环境，边缘节点作为寻求较优资源分配方案的智能体，进行边缘节点资源分配模型的强化学习训练，得到优化后可用于实际资源分配应用的资源分配策略模型。

通过用户特征的模仿学习，强化学习训练过程无需智能体与真实环境进行交互，简化了训练过程，节约了硬件资源，且能够保证环境状态切换的准确性，可确保训练所得资源分配策略模型的可靠性。

实施例1

本实施例介绍一种边缘节点动态资源分配方法，参考图1所示，包括：

本实施例具体涉及以下内容。

一、虚拟边缘环境模拟器的构建

虚拟边缘环境模拟器包括资源分配神经网络和用户请求神经网络。资源分配神经网络按照资源分配策略确定如何去产生资源分配方案，例如当用户节点将任务卸载到边缘节点之后，资源分配策略需要决定为该用户节点分配的CPU核、内存大小以及IO的优先级，部署在哪个服务器上等。用户请求神经网络按照用户资源请求策略根据当前的服务质量决定如何去申请资源或发起请求，例如用户在执行具体任务的时候（比如进行电网入侵检测），需要根据当前的环境（比如是否危险时段）决定处理负载的频率，进而根据任务的需求向边缘服务器申请资源，指定自己需要的CPU轮次，内存使用量等。

对虚拟边缘环境模拟器进行模仿学习预训练：将历史真实边缘环境信息作为虚拟边缘环境模拟器的输入数据，对资源分配神经网络和用户请求神经网络进行模仿学习训练：利用所述资源分配神经网络学习历史真实边缘环境信息中的资源分配策略，利用所述用户请求神经网络学习历史真实缘环境信息中的用户请求策略。历史真实边缘环境信息包括了负载信息、服务部署、资源分配、边缘CPU频率、边缘内存、服务优先级、用户的CPU需求等特征信息。

二、用户请求策略模型的生成对抗训练

对应用户请求策略模型构建判别器；

由用户请求策略模型生成模拟用户服务资源请求信息；

利用历史真实边缘环境信息中的历史真实用户服务资源请求信息和上述模拟用户服务资源请求信息训练判别器网络，计算判别损失和生成损失，根据判别损失和生成损失分别优化判别器网络和用户请求策略模型的网络参数；

本实施例对用户请求策略模型的生成对抗训练具体过程采用经典生成对抗训练技术。

经生成对抗训练的用户请求策略模型可实现对用户特征的模仿，在特定条件下生成对应的能够贴合实际的用户服务资源请求。

三、边缘节点资源分配策略模型的强化学习训练

资源分配策略的目的是根据当前边缘环境，通过动态调整不同服务的资源分配，以此来最大化长期收益；当我们通过模仿学习和生成对抗训练固定了用户请求策略模型后，就可以通过强化学习使边缘节点资源分配模型在动态用户请求构成的边缘环境下进行探索，尝试找到最优的的资源分配策略。

首先，可定义资源分配策略模型优化的目标函数为一段时间内用户服务质量最优。

然后针对目标函数，使用强化学习算法在资源分配策略模型的参数空间进行搜索，从而优化目标函数，具体搜索算法如下：

随机初始化神经网络的参数或者选择模仿学习预训练后的资源分配策略模型网络参数；

将边缘节点的资源分配策略作为智能体，用户节点的服务资源请求作为强化学习时环境，用户节点在每一轮迭代中的服务资源请求通过预训练的用户请求策略模型生成，具体即根据当前时刻当前用户节点状态、任务以及边缘节点提供的服务资源，确定下一轮次向边缘节点请求的服务资源请求类型及服务负载量，输出为用户服务资源请求信息。

边缘节点根据当前边缘环境S按照当前资源分配策略π确定的资源分配方案即强化学习中的动作A，不同的动作A可反馈对应的奖赏R，通过累计长期奖赏可进行资源分配策略π的更新，即实现资源分配策略模型的优化。

实施例2

本实施例介绍一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如实施例1所述的边缘节点动态资源分配方法。

实施例3

与实施例1基于相同的发明够，本实施例介绍一种边缘节点负载预测及资源分配方法，如图2所示包括：

根据所述资源分配方案向各用户节点分配应用服务资源。

与实施例1同样的，本实施例中，资源分配策略模型的训练包括Q-learning强化学习训练，强化学习训练过程中，边缘节点的资源分配策略为智能体，用户节点的服务资源请求为环境，用户节点在每一轮迭代中的服务资源请求通过预训练的用户请求策略模型生成；

用户请求策略模型以及资源分配策略模型的具体训练过程皆可参考实施例1中的相关内容。

综上实施例，本发明能够对用户的资源请求策略进行有效的模仿，从而在强化学习训练中能够得到优化效果更好的边缘节点资源分配策略模型，继而能够以更优的资源分配策略进行实际应用时的边缘节点服务资源分配，提升边缘节点应用为用户提供服务的效率，优化用户服务体验优化用户服务质量。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种边缘节点动态资源分配方法，其特征是，包括：

2.根据权利要求1所述的方法，其特征是，所述服务资源请求信息包括服务资源请求类型以及所请求的负载量信息；

所述边缘环境信息还包括用户节点的状态信息，边缘节点的服务状态信息、边缘参数、负载量信息以及资源分配信息。

3.根据权利要求1所述的方法，其特征是，所述资源分配策略模型和用户请求策略模型的训练还包括模仿学习预训练，包括：

4.根据权利要求3所述的方法，其特征是，所述用户请求模型的生成对抗训练包括：

对应用户请求策略模型构建判别器；

由用户请求策略模型生成模拟用户服务资源请求信息；

5.根据权利要求4所述的方法，其特征是，在强化学习训练中，所述用户请求策略模型根据当前时刻当前用户节点状态、任务以及边缘节点提供的服务资源，确定下一轮次向边缘节点请求的服务资源请求类型及服务负载量，输出为用户服务资源请求信息。

6.根据权利要求4所述的方法，其特征是，对所述资源分配策略模型进行强化学习训练时以设定时段内用户服务质量最优为目标函数。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-6中任一所述的边缘节点动态资源分配方法。

8.一种边缘节点负载预测及资源分配方法，其特征是，包括：

根据所述资源分配方案向各用户节点分配应用服务资源；

9.根据权利要求8所述的方法，其特征是，所述资源分配策略模型和用户请求策略模型的训练还包括模仿学习预训练，包括：

10.根据权利要求8或9所述的方法，其特征是，所述用户请求模型的生成对抗训练包括：

对应用户请求策略模型构建判别器；

由用户请求策略模型生成模拟用户服务资源请求信息；