CN112433843B

CN112433843B - 一种基于深度强化学习的计算分流优化方法

Info

Publication number: CN112433843B
Application number: CN202011133101.8A
Authority: CN
Inventors: 陈柏平; 胡春静; 赵中原; 高慧慧; 骆雪婷
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-07-08
Anticipated expiration: 2040-10-21
Also published as: CN112433843A

Abstract

本发明提供一种基于深度强化学习的计算分流优化方法，所述方法包括以下步骤：步骤1，用户端进行计算分流前，用户端向雾节点发送自身状态信息，自身状态信息包括信道增益、任务大小、CPU处理频率；步骤2，雾节点集中接收系统中的用户状态信息，并将这些信息输入神经网络，输出系统的计算分流决策和资源分配方案；步骤3，雾节点反馈计算分流决策和资源分配方案给系统中的用户等；本发明的优越效果在于利用深度强化学习的自主学习能力和决策能力来完成系统计算分流决策的制定，解决传统方法因算法复杂度过高而无法应用于实时场景的问题。

Description

一种基于深度强化学习的计算分流优化方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于深度强化学习的计算分流优化方法。

技术背景

当今时代，人工智能领域的长足发展使得各种人工智能应用如雨后春笋般不断出现。诸如人脸识别、自动驾驶、语音识别等相关应用层出不穷。这些任务普遍存在计算任务量大、计算时延要求严格的特点，而要达到这些计算任务要求，就需要大量的计算资源来支撑。但是对于一般的终端设备来说，它所拥有的计算资源是有限的，根本不足以同时支撑大量智能任务对计算资源的需求，这种对计算资源的需求也是限制提升智能应用用户体验的一个关键点。

为了解决终端设备计算资源不足的问题，学界和工业界提出计算分流的优化方案。根据该方案的设计，当本地计算资源不足时，将计算任务分流到远程计算中心进行处理，再将处理结果反馈回本地。通过这种远程协助的方式，从而满足计算任务对计算资源的需求。

基于雾无线接入网络的计算分流网络架构是一种具有良好前景的网络架构，该架构中，系统由用户、雾节点和云节点三层结构组成。而对于系统中用户的计算任务来说，都存在三种处理方案：将计算任务留在本地处理、将计算任务分流到雾节点进行处理、将计算任务分流到云节点进行处理。由于系统中的计算任务的性能要求是不同的，如有些对时延敏感、有些任务则数据量很大。因此，如何快速为系统中的计算任务制定合理的分流决策方案，实现最大化的满足各个不同的任务对计算资源和处理时延的要求且最优化系统资源配置，则是提高用户体验和系统效率的关键点所在。

在实际应用场景中实现用户计算任务的高效分流，至少需要解决两个方面的问题。其一，快速为系统中的计算任务做出合理的分流决策；其二，基于第一步做出的分流决策方案，对系统中的资源进行合理的分配。然而，系统中用户计算分流决策方案的优化是一个整型规划问题，并且非线性非凸。该类问题的算法复杂度随用户数呈指数增长，这极大地增加了实时应用场景中计算分流问题的优化难度。

在现有专利公开的专利文献中，例如专利申请号为201810342371.6公开了一种基于半监督学习的移动边缘计算分流决策方法，包括以下步骤：1)在一个由多个用户组成，并且每个用户都有多个独立的任务的移动通信系统中，计算出在给出分流决策下系统中所有的能量损耗；2)计算总的时间损耗考虑为所有时间消耗的总和；3)所有用户的分流决策将通过他们的发送数据DOnm和接收数据DInm的大小决定，半监督学习的作用则是将它们作为半监督学习中神经网络的输入，然后生成一个能使整个系统的能量损耗总和最小的分流决策。该发明仍然未能解决分流决策方案，对系统中的资源进行合理的分配。

发明内容

基于现有技术中存在的缺陷或不足之处，本发明提出一种基于深度强化学习的计算分流优化方法。

本发明所述方法具体步骤如下：

步骤1，用户端进行计算分流前，用户端向雾节点发送自身状态信息，自身状态信息包括信道增益、任务大小、CPU处理频率；

步骤2，雾节点集中接收系统中的用户状态信息，并将这些信息输入神经网络，输出系统的计算分流决策和资源分配方案；

步骤3，雾节点反馈计算分流决策和资源分配方案给系统中的用户；

步骤4，雾节点通过反向传播的方式更新神经网络参数；

步骤5，用户端根据步骤3中雾节点反馈的计算分流决策，分别将计算任务留在本地执行、分流到雾节点执行、分流到云端执行；

步骤6，云节点与雾节点分别处理接收到的计算任务，并将处理结果通过回程链路和无线链路反馈给用户。

进一步的，步骤1所述用户端向雾节点发送自身状态信息为：在一个有雾节点和云节点组成的计算分流系统中，存在着K个用户，分别用U₁,...,U_K表示，在用户开始进行任务分流前，用户会将包括用户与雾节点之间的信道增益h_k(t)、计算任务的大小L_k以及用户自身的cpu处理速率w_k在内的信息将通过无线信道传输到雾节点端。

进一步的，步骤2所述雾节点接收用户信息，并通过神经网络得到系统的计算分流决策及资源分配解，包括如下步骤：

步骤2.1，用户端的信息将通过平坦衰落信道向雾节点发送自身状态相关的信息r_k(t)，雾节点接收到用户信息可表示为下式(1)：

y_k(t)＝h_k(t)r_k(t)+n₀ ……(1),

上式(1)中，h_k(t)表示用户U_k与雾节点之间的平台信道衰落，n₀表示加性高斯白噪声；

步骤2.2，雾节点接收到用户状态信息之后，将雾节点与各个用户之间的信道增益向量 h_k(t)输入深度神经网络NET(h；θ,b)，然后从深度神经网络的输出端得到系统最优的计算分流决策和资源分配方案；其中雾节点将用户的信道状态向量h(t)＝{h₁(t),...,h_K(t)}输入神经网络NET(h；θ,b)后，首先会通过神经网络DNN1，神经网络DNN1的输出即为系统的最优计算分流解

最优计算分流解表示如下式(2)：

鉴于神经网络的输出值为[0,1]之间的连续值，需要通过一个映射模块将连续值映射到{0,1}二值域内，映射模块首先随机生成M⁰个可行解，表示为f₁,f₂,...,f_M0，且f_i＝(f_i ¹,f_i ²,...,f_i ^K)，再计算这M⁰个可行解与DNN1的输出之间的相似度，取相似度最大的前M个解作为系统最优计算分流决策解的备选解：

相似度函数定义为下式(3)：

上式(3)中，f_i表示第i个可行的计算分流决策解，

表示DNN1输出的计算分流决策解；

步骤2.3，将得到的可行解

与用户的信道状态向量 h(t)＝{h₁(t),...,h_K(t)}一起输入神经网络DNN2，进行系统的资源分配，DNN2的输出可表示如下式(4)：

上式(4)中，

表示在分流决策为

的条件下，系统的最优资源分配方案；

步骤2.4，在得到DNN2的输出之后，同样需要经过一个映射模块，将得到的解重构成可行解域内的解，并取其中最佳的一个解作为系统的计算分流决策与资源分配解，定义如下式(5)：

上式(5)中，x^*(t)表示最终确定的最优分流决策解，r^*(t)表示系统的最优资源分配方案。

进一步的，步骤3所述雾节点反馈计算分流决策及资源分配解为：雾节点会将计算分流优化算法求解得到的计算分配策略以及资源分配方案通过无线链路反馈给系统中的各个用户。

进一步的，步骤4所述雾节点通过反向传播的方式更新神经网络参数，具体步骤如下：

步骤4.1，雾节点得到系统的最优分流决策和资源分配方案(x^*(t),r^*(t))之后，将数据 (h(t),x^*(t))保存到memery进行学习并更新神经网络中的权重和偏差(θ,b)，神经网络更新的原则为使神经网络的输出结果与预期最优解的均方误差最小，深度神经网络DNN参数更新如下式(6)所示：

上式(6)中，φ表示从神经网络memery中随机取出的一组数据

其中

则均方误差函数F(θ,b；φ)定义如下：

上式(7)中，|*|表示取出的数据集的基数，

表示输入第i组数据时神经网络的输出。

进一步的，步骤5所述用户根据雾节点反馈的计算分流决策进行计算任务的分流，包括如下步骤：

步骤5.1，对于雾节点反馈的分流决策，如分流决策x_k(t)＝[1,0,0]，则用户U_k将计算任务留在本地处理，如果分流决策x_k(t)＝[0,1,0]，则用户U_k将计算任务分流到雾节点进行处理，如果分流决策x_k(t)＝[0,0,1]，则用户U_k将计算任务分流到云节点进行处理；

步骤5.2，当用户要将计算任务分流到雾节点时，通过与雾节点之间的无线链路进行数据传输，而当用户需要将计算任务分流到云节点时，首先要通过无线链路将任务传输到雾节点，然后再通过雾节点与云节点之间的回程链路传输到云节点，传输过程表示如下式(8)：

y_k＝T_kα_bh+σ ……(8),

上式(8)中，T_k表示计算任务，α_bh表示回程链路衰减，σ表示回程链路的噪声。

进一步的，步骤6所述计算任务在各个节点被处理，并最近反馈到用户端，具体步骤如下：

步骤6.1，当计算任务在本地处理时，任务处理的模型表示为下式(9)：

上式(9)中，

表示任务处理的时延，μ_k表示用户k每处理1比特数据需要的CPU时钟数，w_k表示用户k的CPU时钟数，L_k表示任务T_k总的比特数；

步骤6.2，当任务到达雾节点时，雾节点服务器会为计算任务分配计算资源并开始处理，任务处理模型表示为下式(10)：

上式(10)中，

表示任务处理耗费的时间，μ_F,k表示雾节点每处理1比特数据需要的CPU时钟数，w_F,k表示雾节点分配给任务T_k的CPU时钟数，L_k表示任务T_k总的比特数；

步骤6.3，当任务到达云节点时，云节点服务器会为计算任务分配计算资源并开始处理，任务处理模型表示如下式(11)：

上式(11)中，

表示任务处理耗费的时间，μ_C,k表示云节点每处理1比特数据需要的CPU时钟数，w_C,k表示云节点分配给任务T_k的CPU时钟数，L_k表示任务T_k总的比特数。

本发明所述方法与现有技术相比较，具有以下优越的技术效果：

1，本发明所述方法，利用深度强化学习的自主学习能力和决策能力来完成系统计算分流决策的制定，解决了传统方法因算法复杂度过高而无法应用于实时场景的问题。

2，本发明所述方法，结合云节点和雾节点各自的优势，能够同时满足系统中用户对计算资源和处理时延的要求。

3，本发明所述方法，采用了一种取次优解的方式，通过取M个可行解中相对最优解，加快了整体神经网络的收敛速度，提供了系统的执行效率。

附图说明

图1是本发明所述方法流程示意图。

图2是本发明所述方法的两个深度神经网络的训练效果测试结果图。

图3是本发明所述方法的整体决策与资源分配执行时间与系统中用户数的关系曲线图。

图4是本发明所述方法的整体的能量消耗与系统中用户数的关系曲线图。

具体实施方式

现结合说明书附图1～4详细描述本发明所述方法的具体实施例。

如图1所示，本发明所述方法包括以下步骤：

步骤1，用户端进行计算分流前，用户端向雾节点发送自身状态信息，包括信道增益、任务大小、CPU处理频率；

步骤4，雾节点通过反向传播的方式更新神经网络参数；

进一步的，步骤1中所述用户端向雾节点发送自身状态信息为：在一个有雾节点和云节点组成的计算分流系统中，存在着K个用户，分别用U₁,...,U_K表示。在用户开始进行任务分流前，用户会将包括用户与雾节点之间的信道增益h_k(t)、计算任务的大小L_k以及用户自身的cpu处理速率w_k在内的信息将通过无线信道传输到雾节点端。

y_k(t)＝h_k(t)r_k(t)+n₀ ……(1),

最优计算分流解表示如下式(2)：

相似度函数定义为下式(3)：

上式(3)中，f_i表示第i个可行的计算分流决策解，

表示DNN1输出的计算分流决策解；

步骤2.3，将得到的可行解

与用户的信道状态向量 h(t)＝{h₁(t),...,h_K(t)}一起输入神经网络DNN2，进行系统的资源分配，DNN2的输出表示为下式(4)：

上式(4)中，

表示在分流决策为

的条件下，系统的最优资源分配方案；

进一步的，步骤3所述雾节点反馈计算分流决策及资源分配解为：雾节点会将计算分流优化算法求解得到的计算分配策略及资源分配方案通过无线链路反馈给系统中的各个用户；

步骤4.1，雾节点得到系统的最优分流决策和资源分配方案(x^*(t),r^*(t))之后，将该数据 (h(t),x^*(t))保存到memery进行学习并更新神经网络中的权重和偏差(θ,b)，神经网络更新的原则为使神经网络的输出结果与预期最优解的均方误差最小，深度神经网络DNN参数更新如下式(6)所示：

上式(6)中，φ表示从神经网络memery中随机取出的一组数据

其中

则均方误差函数F(θ,b；φ)定义如下：

上式(7)中，|*|表示取出的数据集的基数，

表示输入第i组数据时神经网络的输出。

步骤5.2，当用户要将计算任务分流到雾节点时，通过与雾节点之间的无线链路进行数据传输，而当用户需要将计算任务分流到云节点时，首先通过无线链路将任务传输到雾节点，然后再通过雾节点与云节点之间的回程链路传输到云节点，传输过程表示如下式(8)：

y_k＝T_kα_bh+σ ……(8),

进一步的，步骤6中所述计算任务在各个节点被处理，并最近反馈到用户端，具体步骤如下：

上式(9)中，

步骤6.2，当任务到达雾节点时，雾节点服务器为计算任务分配计算资源并开始处理，任务处理模型表示如下式(10)：

上式(10)中，

上式(11)中，

如图2所示，根据得到的仿真结果图，以DNN1网络为例来进行说明，在使用训练数据集和使用验证数据集两个不同的数据集时，输出结果非常接近，表明该网络已得到了良好的训练。

如图3所示，所述方法的执行时间随着用户数的增加而提升，但是这种提升基本上为一种线性增长的关系。此外，当系统中用户数在10个以内时，本发明所述方法的执行时间仅为 10-2s级，这表明所述方法的执行效率高，完全能够应用于实时应用场景中。

如图4所示，从仿真结果曲线图中反应的关系可以看出，随着用户数的增长，系统的整体功耗基本呈线性增长的趋势，且当系统中的用户数为10个以内时，系统的整体功耗维持在 0.02J以内，整体维持在一个较低的水准。

综上表明，本发明所述方法在执行时间和能耗方面与系统中的用户数皆为线性相关的关系，且两个参数的具体数值也维持在一个较优的水平，表明本发明所述方法是切实可行的，并且具有良好的优化效果。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种基于深度强化学习的计算分流优化方法，其特征在于，包括以下步骤：

步骤2，雾节点集中接收系统中的用户状态信息，并将这些信息输入神经网络，输出系统的计算分流决策和资源分配方案：

y_k(t)＝h_k(t)r_k(t)+n₀……(1),

步骤2.2，雾节点接收到用户状态信息之后，将雾节点与各个用户之间的信道增益向量h_k(t)输入深度神经网络NET(h；θ,b)，然后从深度神经网络的输出端得到系统最优的计算分流决策和资源分配方案；其中雾节点将用户的信道状态向量h(t)＝{h₁(t),...,h_K(t)}输入神经网络NET(h；θ,b)后，首先通过神经网络DNN1，神经网络DNN1的输出即为系统的最优计算分流解

最优计算分流解表示如下式(2)：

鉴于神经网络的输出值为[0,1]之间的连续值，需要通过一个映射模块将连续值映射到{0,1}二值域内，映射模块首先随机生成M⁰个可行解，表示为

且

再计算这M⁰个可行解与DNN1的输出之间的相似度，取相似度最大的前M个解作为系统最优计算分流决策解的备选解：

相似度函数定义为下式(3)：

上式(3)中，f_i表示第i个计算分流决策解，

表示DNN1输出的计算分流决策解；

步骤2.3，将得到的可行解

与用户的信道状态向量h(t)＝{h₁(t),...,h_K(t)}一起输入神经网络DNN2，进行系统的资源分配，DNN2的输出表示如下式(4)：

上式(4)中，

表示在分流决策为

的条件下，系统的最优资源分配方案；

上式(5)中，x^*(t)表示最终确定的最优分流决策解，r^*(t)表示系统的最优资源分配方案；

步骤4，雾节点通过反向传播的方式更新神经网络参数；

2.按照权利要求1所述基于深度强化学习的计算分流优化方法，其特征在于，步骤1所述用户端向雾节点发送自身状态信息为：在一个有雾节点和云节点组成的计算分流系统中，存在着K个用户，分别用U₁,...,U_K表示，在用户开始进行任务分流前，用户将包括用户与雾节点之间的信道增益h_k(t)、计算任务的大小L_k，以及用户自身的cpu处理速率w_k在内的信息将通过无线信道传输到雾节点端。

3.按照权利要求1所述基于深度强化学习的计算分流优化方法，其特征在于，步骤3所述雾节点反馈计算分流决策及资源分配解为：

雾节点会将计算分流优化算法求解得到的计算分配策略以及资源分配方案通过无线链路反馈给系统中的各个用户。

4.按照权利要求1所述基于深度强化学习的计算分流优化方法，其特征在于，步骤4所述雾节点通过反向传播的方式更新神经网络参数，具体步骤如下：

步骤4.1，雾节点得到系统的最优分流决策和资源分配方案(x^*(t),r^*(t))之后，将该数据(h(t),x^*(t))保存到memery进行学习并更新神经网络中的权重和偏差(θ,b)，神经网络DNN参数更新如下式(6)所示：