CN111835827A

CN111835827A - 物联网边缘计算任务卸载方法及系统

Info

Publication number: CN111835827A
Application number: CN202010531172.7A
Authority: CN
Inventors: 徐思雅; 胡博; 赵景宏; 郭少勇; 尚立; 杨超; 苑经纬; 金垒; 亢松
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-27
Anticipated expiration: 2040-06-11
Also published as: CN111835827B

Abstract

本发明实施例提供物联网边缘计算任务卸载方法及系统。该方法包括：获取物联网边缘计算网络的场景模型；基于深度强化学习PPO算法，设计任务卸载策略，定义环境状态向量和行为向量；根据环境状态变量和行为向量设定预设任务请求规定，基于预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。本发明实施例通过在物联网场景下引入边缘计算技术和深度强化学习技术，利用深度强化学习中的PPO算法逐步学习，完善其神经网络模型，应用更优的边缘计算任务卸载策略，在保证复杂度不高的情况下，可以灵活地降低网络时延。

Description

物联网边缘计算任务卸载方法及系统

技术领域

本发明涉及网络资源分配技术领域，尤其涉及物联网边缘计算任务卸载方法及系统。

背景技术

云计算作为一种网络的重要计算应用模式，快速推动互联网的发展，高速且可靠的空中接口使得远端的云数据中心可以对应用设备进行计算服务。然而，云数据中心与边缘设备之间较长的数据传输链路导致了移动互联网应用的长响应时延，无法满足现如今大部分时延敏感性互联网应用的需求，由此产生了边缘计算技术。边缘计算技术具有低时延、低带宽成本、高安全性、高弹性等特点，这些特点使得边缘计算的应用场景十分广泛，目前常被应用到智能穿戴设备、视频流分析、语言语音处理、物联网无线传感器、增强现实技术等多种场景。边缘计算通过部署多个边缘服务器，将数据中心的部分计算、存储能力下放到网络的边缘侧，从而大幅缩短数据的传输链路长度，减小网络的传递时延。

传统物联网场景主要是将设备、环境以及人在生产生活时所产生的数据采集统计到远端的云数据中心，随后利用云服务器的软件系统以及强大的计算能力对数据进行筛选、分析或者预测，从而获得场景的状况，移动物联网在此基础上更增加了设备以及环境在位置上变化的考量。然而，随着物联网范畴的不断扩张，涉及的场景越来越广阔，设备性能不断变化，且部分设备具有了很强的计算能力，使得网络结构更加复杂化，同时急速膨胀的连网终端设备数量带来了更多高智能计算的需求。在云计算应用模式中云功能的分散使得网络使用效率低下，且如果在这种情况下将云端的计算服务下放到边缘侧将导致网络连接的复杂与混乱，而现如今通过云融合技术形成云间的网络协同，并通过边缘计算技术提高网络效率，从而满足移动物联网的需求。

现有技术中针对上述问题，提出了一些解决方案：

方案一：移动边缘计算服务器的资源分配方法包括：根据用户的计算任务需求和缓存任务需求判断本地基站服务器是否满足用户的计算任务需求和缓存任务需求，如果满足，则所述本地基站服务器为用户提供服务；否则，则所述本地基站服务器向所属核心移动边缘计算服务器发出资源调用请求；判断所述核心移动边缘计算服务器是否满足用户的计算任务需求和缓存任务需求，如果满足，则所述核心移动边缘计算服务器为用户提供服务；否则，利用所属云端服务器为用户提供服务。

方案二：涉及方法包含以下步骤：A：建立移动边缘计算网络模型、本地计算模型、边缘云计算模型、用户的效用函数和云服务商效用函数；B：根据步骤A中建立的模型和函数,将保证用户利益前提下的云服务商利润最大化问题转化为合约设计问题P1的目标函数；C：对于步骤B中的合约设计问题P1的目标函数进行求解,得到针对用户类型的基于合约设计的移动边缘计算任务卸载的最优合约,即用户类型的合约CPU循环周期数、合约存储量和合约价格

方案三：根据每个物联网终端的任务卸载速率,获取每个物联网终端的最大卸载时间槽和单位价值；将每个物联网终端按照所述单位价值进行降序排列,得到降序排列后的物联网终端,并根据所述最大卸载时间槽和所述单位价值,通过中断指标获取中断终端；根据所述中断终端的排序位置,获取降序排列后的每个物联网终端的卸载时间,以对降序排列后的物联网终端进行任务调度。

而上述几个方案也存在如下几个缺陷：

方案一：通过为边缘服务器划定协作区间，并在区间内设置核心移动边缘计算服务器，核心服务器用于在区域内其他边缘服务器无法满足用户需求时向该服务器提供计算资源，若核心服务器剩余计算资源不足，则向云服务器发送申请。该方案的缺陷在于只考虑了区间内的计算资源调度，且这种调度总是单向的，仅由云服务器向核心边缘服务器或由核心边缘服务器向区间内其他服务器，不够灵活。

方案二：将移动边缘计算模型划分为用户侧和网络侧，结合时延与能耗共同衡量系统计开销，形成效用函数从而使得将云服务商利润最大化转换为合约设计问题，能够很好地保证用户与云服务商的利润。然而该方案由于合约的复杂度较高，所以可能面临效率较低的问题，并且方案的考量主要关注于双方的利润，所以部分用户端可能延迟较高，而且会较长时间计算任务无法被处理，其灵活性较低。

方案三：通过根据每个物联网终端的任务卸载速率获取每个物联网终端的任务卸载速率获取其最大卸载时间和单位价值，并将其进行降序排列后通过终端指标获取中断终端，并进一步进行任务调度。虽然本发明能够降低物联网终端的能耗和移动边缘计算你的任务卸载复杂度，从而提高任务卸载的效率，但边缘网络中的终端数量对其影响较大，当网络较为繁忙时该分配策略可能无法及时应对突然增加的计算任务。

发明内容

本发明实施例提供物联网边缘计算任务卸载方法及系统，用以解决现有技术中存在的问题。

第一方面，本发明实施例提供物联网边缘计算任务卸载方法，包括：

获取物联网边缘计算网络的场景模型；

基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量；

根据所述环境状态变量和所述行为向量设定预设任务请求规定，基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。

进一步地，所述获取物联网边缘计算网络的场景模型，具体包括：

将所述物联网边缘计算网络划分为远端云中心层、边缘层和边缘设备层；

所述边缘层包括边缘服务器，所述边缘服务器包括基站型边缘服务器和接入型边缘服务器；

所述边缘设备层包括智能移动设备、传感设备、智能生产设备和智能车辆。

进一步地，所述获取物联网边缘计算网络的场景模型，还包括：

将网络时延定义为计算时延、传递时延、传输时延和排队时延；

所述计算时延基于计算任务的计算量大小和边缘服务器的计算性能指标所获得；

所述传递时延基于发送方与接收方之间的地理距离和发送方与接收方之间的网络传递速度所获得；

所述传输时延基于被传输数据大小和网络节点的网络传输速度所获得；

所述排队时延基于边缘服务器的总计算容量、计算速度和当前任务到达边缘服务器之前的任务计算量所获得。

进一步地，所述基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量，具体包括：

初始化网络策略参数，将更新的网络策略参数输入环境并进行交互，从所述环境中收集状态信息数据和行动信息数据，计算当前奖励值，并对目标函数进行更新；

针对所述深度强化学习PPO算法的Actor-Critic模式，定义所述环境状态向量包括服务器向量、智能车辆向量和终端向量，所述行为向量包括智能车辆向量行为向量和智能终端行为向量。

进一步地，所述目标函数包括将KL散度加入至PPO模型的似然函数中所获得，所述KL散度表示若干网络策略参数之间的差距，并由预设适应性限制条件所限制。

进一步地，所述根据所述环境状态变量和所述行为向量设定预设任务请求规定，具体包括：

所述边缘服务器在同一时间内只能接收处理一项当前计算任务请求；

若所述智能车辆的任务计算量小于所述智能车辆的计算容量时，由所述智能车辆处理所述当前计算任务请求，若所述智能车辆无自身计算任务时只能接收一个终端设备的任务请求；

所述终端设备在所述当前计算任务请求被接收后产生新的计算任务请求。

进一步地，所述基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求，具体包括：

若物联网边缘计算网络的环境中存在未处理的计算任务，判断所述边缘服务器接收处理的当前计算任务请求数量；

若所述边缘服务器在同一时间内接收处理一项当前计算任务请求，计算并记录所述当前计算任务请求的时延，并更新所述边缘服务器的状态信息；

若所述智能车辆的任务计算量小于所述智能车辆的计算容量时，更新所述智能车辆的状态信息，若所述智能车辆需卸载计算任务，则向任一所述边缘服务器发出任务请求；

若所述终端设备在所述当前计算任务请求被接收后，更新所述终端设备的状态信息，向可卸载的智能车辆或边缘服务器发出任务请求；

输入所述环境状态向量，利用网络策略产生所述行为向量并在所述环境中执行；

从所述环境中收集环境状态信息数据和行为信息数据，计算当前奖励值，更新目标函数，并对所述环境状态向量和所述行为向量之间的KL散度进行约束。

第二方面，本发明实施例提供物联网边缘计算任务卸载系统，包括：

获取模块，用于获取物联网边缘计算网络的场景模型；

设计模块，用于基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量；

处理模块，用于根据所述环境状态变量和所述行为向量设定预设任务请求规定，基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述物联网边缘计算任务卸载方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述物联网边缘计算任务卸载方法的步骤。

本发明实施例提供的物联网边缘计算任务卸载方法，通过在物联网场景下引入边缘计算技术和深度强化学习技术，利用深度强化学习中的PPO算法逐步学习，完善其神经网络模型，应用更优的边缘计算任务卸载策略，在保证复杂度不高的情况下，可以灵活地降低网络时延。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的物联网边缘计算任务卸载方法流程图；

图2为本发明实施例提出的物联网场景网络层次图；

图3为本发明实施例提出的物联网场景网络示意图；

图4为本发明实施例提出的PG方法交互示意图；

图5为本发明实施例提出的物联网边缘计算任务卸载系统结构图；

图6为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例是通过在物联网场景的边缘计算任务卸载中引入深度强化学习的方法，优化边缘网络的任务卸载策略从而实现网络时延最小化。基于物联网的场景模式，将边缘计算网络进行层次划分，建立了三层边缘计算网络模型，由于本发明实施例的目的优化任务调度策略以降低网络的整体时延，所以重点关注于下面两层，将深度强化学习引入在这两层之间，神经网络可以通过反复训练根据实时地网络状态信息决策出最合适的任务卸载策略，对此提出一个可以利用在此边缘计算场景中的深度强化学习算法。

图1为本发明实施例提出的物联网边缘计算任务卸载方法流程图，如图1所示，包括：

S1，获取物联网边缘计算网络的场景模型；

S2，基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量；

S3，根据所述环境状态变量和所述行为向量设定预设任务请求规定，基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。

具体地，为实现本发明实施例所提出的针对物联网场景的边缘计算任务卸载策略，首先将构建获取到物联网边缘计算网络的场景模型，包含网络的多层次结构以及各层次中的对象特征及分类，然后引入基于深度强化学习的PPO(Proximal PolicyOptimization，近端策略优化)算法，即为优化目标建立网络时延模型，最后将该PPO算法引入至物联网场景中，在一定的任务约束条件下，得到基于PPO算法的计算任务卸载请求算法。

本发明实施例通过在物联网场景下引入边缘计算技术和深度强化学习技术，在保证复杂度不高的情况下，可以灵活地降低网络时延。

基于上述实施例，所述获取物联网边缘计算网络的场景模型，具体包括：

具体地，在传统的云计算模式中，通常采用烟囱式网络层次结构，在物联网中由终端侧的移动数据终端设备及传感器采集数据，通过网络将数据传递给具有相应处理功能的远端云服务器来进行处理，而后再根据数据的具体处理方法及要求决定后续操作，如返还、转发或存储数结果。然而，这种网络架构带来了一些问题，其中最关键的两个问题可以归结为：首先，各类云服务器功能相对独立，而如今的应用面临多样化的问题，所以导致了云服务器功能分散，使得网络各种资源的使用效率过低；此外，从数据终端到云端的数据传输链路过长，这就导致了较高的响应时延，且在物联网场景中数据终端设备的移动性较强，高响应时延使得返还的结果难以准确的找到相应的数据终端设备。对于第一个问题，现如今已采用云融合技术通过云服务器之间的共享协同形成一个功能平台，从而提高了云服务器的利用效率；而第二个问题可以采用边缘计算技术，通过在网络边缘侧放置一定数量的边缘服务器，将云服务器的部分计算与存储能力下放到网络的边缘侧，以此来减小数据传输链路的长度，而且可将部分具有较强计算能力的终端暂时当做边缘服务器使用，通过这些操作能使处理计算任务的服务器更加靠近终端设备，使得服务器可以在终端高速移动的情况下尽可能地确定其位置并将处理结果返还。移动物联网场景中边缘计算网络层次结构如图2所示。

如图2所示，通常将边缘计算网络划分为三层，即远端云中心层、边缘层以及边缘设备层。远端的云中心层通过云融合技术，将各种云功能以虚拟化的方式融合在一起，从而形成功能池以提升资源利用效率。在此网络层次结构中，边缘设备将自己无法解决的计算任务提交至边缘服务器，而边缘服务器则会处理收到的任务并将结果进行返还，若超出边缘服务器的处理能力上限，则会将计算任务卸载到更高层的边缘服务器或通过互联网上传到云服务器中处理。边缘服务器与终端设备之间为一对一的对应关系，即一个边缘服务器在某一时刻只处理一项计算任务，所以如何对边缘网络中的计算资源进行合理的分配，也就是如何决定边缘服务器在各时刻所处理的计算任务从而使网络时延达到最小化十分关键。由于本发明关注于边缘服务器以及边缘设备之间的任务卸载关系，所以主要考虑边缘计算网络中的下两层。

本发明实施例以物联网为应用场景，主要从计算任务量、移动性、计算请求频率以及是否具有足够的计算处理能力四种特性对终端设备进行考量，将终端设备的特点进行归纳后大致划分为四类：1)智能移动设备，该类设备任务计算量相对较小，具有移动性，但其移动性的大小会随机变化；2)传感设备，该设备数量较多且计算任务量低，计算任务产生频繁，但移动性较低；3)智能生产设备，该设备通常密集分布于几处，计算任务量高，几乎没有移动性；4)智能车辆，移动性高并且计算任务量大，但其与前三类设备不同，智能车辆通常具有较高的计算处理能力，在有些情况下除了能够解决自己产生的计算任务外，还能处理部分其他设备的计算任务，所以该设备介于边缘层与设备层之间。基于边缘计算的移动物联网场景示意图如图3所示。

如图3所示，上述的四类边缘设备分布于场景中，同时本发明将边缘服务器分为两种：1)基站型边缘服务器，该服务器数量较少，具有较高的计算处理能力，能够快速地解决计算任务并返还结果，主要处理前三类设备所产生的计算任务。由于两类边缘服务器的特点不同，故其对于不同的设备所产生的计算任务有着不同的优先级排序；2)接入型边缘服务器，该类服务器数量较多且分布广泛，与边缘设备距离近，主要处理智能车辆所产生的计算任务，次要处理其他三类设备的计算任务。

基于上述任一实施例，所述获取物联网边缘计算网络的场景模型，还包括：

具体地，在计算机网络中将网络时延t定义为由计算时延t_com、传递时延t_pro、传输时延t_tran和排队时延t_lin组成，如下面公式所示：

t＝t_tran+t_pro+t_com+t_lin

其中任务卸载决策对于传输时延的影响较小，而主要影响到的是传递时延、排队时延以及计算时延。

计算时延可以定义为一项计算任务从开始执行到完成执行所消耗的时间，所以计算时延与边缘服务器的计算能力以及计算任务的计算量相关。计算时延的计算公式为：

式中，F为该计算任务的计算量大小，vcom为边缘服务器的计算性能指标，即任务处理速度。

传输时延是指网络节点在发送数据时使数据块从节点进入到传输网络所需的时间，即一个网络节点从开始发送数据帧到数据帧发送完毕所需要的全部时间。传输时延主要由数据大小以及传输速度有关。传输时延的计算公式为：

其中，W表示被传输的数据大小，而v_tran则是该节点的网络传输速度。

对于传递时延，本发明实施例分为两类，即服务器与终端之间的信息传递所产生的时延以及服务器之间的信息传递所产生的时延。

当一个终端(或边缘服务器)开始传递数据及任务请求到某一边缘服务器时，开始计算它的传递时延，直到任务请求到达服务器后传递结束，传递时延与任务请求的数据量大小以及求所需计算容量无关，只与发送端与接收端之间的地理距离以及它们之间的网络传递速度有关。

传递时延的公式为：

其中，d示发送方与接收方之间的地理距离，v_pro表示这两者之间的网络传递速度，由此得出传递时延的大小。

对于排队时延，由于边缘服务器的计算处理能力有限，所以部分计算任务无法在到达服务器的同时就获得计算资源开始被处理，故而会被转存至缓存器中，等待有足够的计算资源分配给它。排队时延通常受到服务器的总计算容量、计算速度、在该任务之前到达服务器的任务计算量等因素的影响，无法通过公式准确的将其计算出来，需要依据实际的情况对服务器中任务执行序列进行简单的模拟，从而推测出某一任务排队时延的大小。

本发明实施例通过在物联网场景下的边缘计算网络设计分层架构，并建立其中的各个网络对象模型，包括服务器模型以及边缘设备模型，通过引入边缘计算技术解决云计算中长传输距离导致的高网络延迟，并形成边缘计算任务卸载问题。

基于上述任一实施例，所述基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量，具体包括：

其中，所述目标函数包括将KL散度加入至PPO模型的似然函数中所获得，所述KL散度表示若干网络策略参数之间的差距，并由预设适应性限制条件所限制。

具体地，本发明实施例应用深度强化学习模型，深度强化学习通过将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的知识数据进行控制，从而使得机器的解决方法更贴近人的思维方式。常见的深度强化学习包括深度Q网络(Deep QNetwork,DQN)、AC(Actor-Critic)法以及由该方法衍生的A3C(Asynchronous AdvantageActor Critic)方法。DQN是深度学习应用到强化学习中初步成功结果，是Google DeepMind于2013年提出的第一个深度强化学习方法，并在2015年进一步完善。DQN算法面向相对简单的离散输出，即输出的动作仅有少数有限的个数，在这种情况下DQN算法在Actor-Critic框架下仅使用Critic评判模型而没有使用Actor行动模块，其作为第一个深度增强学习算法，仅使用价值网络，训练效率较低，需要大量的时间训练，并且只能面向低维的离散控制问题，通用性有限。A3C算法是2015年DeepMind提出的相比DQN更好更通用的一个深度增强学习算法，完全使用了Actor-Critic框架，并引入了异步训练的思想，在提升性能的同时也大大加快了训练速度，然而在面向网络情况变化较快的场景中A3C算法由于数据更新速度的问题导致优化结果稍差。

此外，在2014年David Silver提出DPG(Deterministic Policy Gradient)算法，而后结合深度学习网络形成DDPG算法，该算法基于之前所讲到的Actor-Critic方法，在动作输出方面采用一个网络来拟合策略函数，可以应对连续动作的输出及大的动作空间。该算法中的Policy Gradient指的是强化学习中经常采用过的策略梯度(PG，PolicyGradient)方法，这种PG算法归类于策略优化算法中，而不是以迭代为基础的动态规划算法，它不通过误差反向传播，它通过观测信息选出一个行为直接进行反向传播，当然出人意料的是他并没有误差，而是利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样。在此基础上，为了使得PG方法更加有效率，OpenAI提出了近端策略优化(Proximal PolicyOptimization，PPO)算法。

首先是PG方法，强化学习算法通常采用Actor-Critic架构，在PG方法中Actor相当于代理(Agent)，Actor对于一个特定的任务都有其对应的一个策略π，策略π由深度学习的神经网络来表示，参数表示为θ。方法从某一状态出发，直到任务结束称为一个完整的eposide，在这个eposide中，每一步都能获得一个由设计者设定的奖励R，故此整个eposide中环境与Actor不断交替，由环境将状态信息传递给Actor，Actor做出动作反映给环境，环境再将改变后的状态再次传递给Actor，周而复始，最终完成整个eposide并得到整体奖励，该过程的示意图如图4所示。

由于每个动作在不同状态下导致的结果是不同的，所以整个过程是多样的，将整个过程序列称为τ，得到τ的概率公式为：

进而得出所有序列奖励的期望，计算公式为：

本算法的目标是通过调整Actor中的策略π，使得奖励的期望达到最大，所以采用策略梯度的方法，利用梯度提升的方法改变策略π从而更新网络参数θ，梯度的求解公式如下：

如上所示，利用对数函数求导的特点转化，然后用N次采样的平均值来近似获得期望，最终得到策略梯度方法：首先采集数据，而后基于前面得到的梯度策略公式更新参数，然后再根据更新后的策略采集数据，不断循环训练，交互示意图如图4所示。

而正由于PG方法存在一个很大的缺点，就是其参数更新速度过慢，不管是普通的PG算法还是DPPG算法中，每更新一次参数都要重新进行采样，被训练的agent与和环境进行交互的agent是同一个，这就是典型强化学习方法中的on-policy策略；而另一种off-Policy策略中，被训练的agent与和环境进行交互的agent不同，即用与环境交互的agent来训练另一个agent。所以为了提升PG方法的训练速度，让采样到的数据可以重复使用，将on-policy方法转换为off-policy方法，即使训练数据通过另一个Actor，其对应的网络参数为θ’，其求导过程如下所示：

这需要p(x)和q(x)的分布，此时，奖励期望值的梯度为：

将梯度公式进一步带入，可以得到：

最终得到似然函数为：

最终，为了得到PPO算法，将KL散度加入到PPO模型的似然函数，得到：

在实际中，会动态改变对θ和θ'分布差异的惩罚，如果KL散度值太大，我们增加这一部分惩罚，如果小到一定值，就减小这一部分的惩罚，基于此，得到PPO算法的部分简要流程：

初始化：网络策略参数θ⁰

for k<K do

将参数θ^k输入环境并进行及交互；

从环境中收集状态、行动信息数据{st,at}并计算此时的奖励值

计算θ以更新JPPO(θ)；

end for

本算法中目标函数的更新公式为：

其中KL(θ,θ^k)表示策略θ与θ^k之间的差距，其适应性限制条件为：

在得到适用的深度强化学习PPO算法之后，在之前建立的物联网边缘计算场景模型的基础上设计任务卸载策略，针对PPO算法的Actor-Critic模式，定义状态S与行为A向量。本发明将环境状态向量定义为S＝(P,V,U)，其中P代表服务器，表示为向量P＝(tyi,ci,ri,xi,yi)，分别表示服务器i的类型(包括接入型服务器以及基站型服务器)、计算容量、剩余任务计算时间、地理坐标；V代表智能车辆，表示为向量V＝(fj,wj,cj,mj,rj,lj,dj,vj,xj,yj)，分别表示智能汽车j的当前计算需求量、数据量、计算容量、是否上传任务、剩余任务计算时间、移动方向、移动速度以及当前地理坐标；U代表终端，表示为向量U＝(tyn,fn,wj,ln,dn,vn,xn,yn)，分别表示终端n的类型(包括智能移动设备、智能传感设备以及智能生产设备)、当前计算需求量、数据量、等待轮数、移动方向、移动速度以及当前地理坐标。本发明将行为向量定义为A＝(Av,Au)，分别表示智能车辆、智能终端的行为向量，智能车辆的行为向量为Av＝(e_j,a_j)，e_j表示智能车辆_j当前任务请求的对象类型，默认为0表示不进行任务卸载，1表示服务器，2表示智能车辆，a_j表示对象的序号；智能终端的行为向量为Au＝(e_n,a_n)，e_n表示智能终端n当前任务请求的对象类型，默认为0表示不进行任务卸载，1表示服务器，2表示智能车辆，a_n表示对象的序号。

基于上述任一实施例，所述根据所述环境状态变量和所述行为向量设定预设任务请求规定，具体包括：

具体地，在上述实施例基础上，规定边缘服务器在同一时间内最多接收处理一项计算任务请求；当智能车辆的任务计算量小于其计算容量时将自己处理，当且仅当无自身计算任务时可接收最多来自一个终端的任务请求；终端设备只会在当前计算任务被接收后才会产生一个新的计算任务。

基于上述规定，基于PPO的物联网任务卸载算法如下：

初始化：利用参数θ初始化网络

do

for k<K do

for i<I do

计算并记录其所处理任务的时延；

更新服务器i的状态信息；

end for

for j<J do

更新车辆j的状态信息；

若需卸载任务则向一服务器发出任务请求；

end for

for n<N do

更新终端n的状态信息；

向可卸载的车辆或服务器发出任务请求；

end for

输入状态利用策略π_θ产生行为向量A并在环境中执行；

end for

从环境中收集状态、行动信息数据{st,at}并计算此时的奖励值

π_old←π_new；

计算KL(st,at)，更新JPPO(θ)；

if KL(st,at)>KLmax then

减小β；

else if KL(st,at)<KLmin then

增大β；

end if

while(环境中存在未处理的计算任务)

本发明实施例根据场景模型特点选择合适的深度强化学习算法，并将算法进行适当修改以适应移动边缘物联网场景中的网元关系，进而优化任务卸载策略，降低网络整体时延。

图5为本发明实施例提出的物联网边缘计算任务卸载系统结构图，如图5所示，包括：获取模块51、设计模块52和处理模块53；其中：

获取模块51用于获取物联网边缘计算网络的场景模型；设计模块52用于基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量；处理模块53用于根据所述环境状态变量和所述行为向量设定预设任务请求规定，基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。

本发明实施例提供的系统用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器830中的逻辑指令，以执行如下方法：获取物联网边缘计算网络的场景模型；基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量；根据所述环境状态变量和所述行为向量设定预设任务请求规定，基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取物联网边缘计算网络的场景模型；基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量；根据所述环境状态变量和所述行为向量设定预设任务请求规定，基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.物联网边缘计算任务卸载方法，其特征在于，包括：

获取物联网边缘计算网络的场景模型；

2.根据权利要求1所述的物联网边缘计算任务卸载方法，其特征在于，所述获取物联网边缘计算网络的场景模型，具体包括：

3.根据权利要求2所述的物联网边缘计算任务卸载方法，其特征在于，所述获取物联网边缘计算网络的场景模型，还包括：

4.根据权利要求1所述的物联网边缘计算任务卸载方法，其特征在于，所述基于深度强化学习PPO算法，在所述场景模型中设计任务卸载策略，定义环境状态向量和行为向量，具体包括：

5.根据权利要求4所述的物联网边缘计算任务卸载方法，其特征在于，所述目标函数包括将KL散度加入至PPO模型的似然函数中所获得，所述KL散度表示若干网络策略参数之间的差距，并由预设适应性限制条件所限制。

6.根据权利要求2所述的物联网边缘计算任务卸载方法，其特征在于，所述根据所述环境状态变量和所述行为向量设定预设任务请求规定，具体包括：

7.根据权利要求6所述的物联网边缘计算任务卸载方法，其特征在于，所述基于所述预设任务请求规定完成所述场景模型中若干网元的计算任务卸载请求，具体包括：

8.物联网边缘计算任务卸载系统，其特征在于，包括：

获取模块，用于获取物联网边缘计算网络的场景模型；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述物联网边缘计算任务卸载方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述物联网边缘计算任务卸载方法的步骤。