CN113543156B

CN113543156B - 基于多智能体深度强化学习的工业无线网络资源分配方法

Info

Publication number: CN113543156B
Application number: CN202110733227.7A
Authority: CN
Inventors: 于海斌; 刘晓宇; 许驰; 夏长清; 金曦; 曾鹏
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-05-06
Anticipated expiration: 2041-06-24
Also published as: CN113543156A

Abstract

本发明涉及工业无线网络技术，具体地说，是一种基于多智能体深度强化学习的工业无线网络资源分配方法，包括以下步骤：建立端边协同的工业无线网络；确立工业无线网络端边资源分配的优化问题；建立马尔科夫决策模型；采用多智能体深度强化学习方法，构建资源分配神经网络模型；离线训练神经网络模型，直至奖励收敛到稳定值；基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务。本发明能够实时、高能效地对工业无线网络进行端边协同的资源分配，在满足有限能量、计算资源约束下，最小化系统开销。

Description

基于多智能体深度强化学习的工业无线网络资源分配方法

技术领域

本发明涉及有限能量、计算资源约束下的资源分配，属于工业无线网络技术领域，具体说是一种基于多智能体深度强化学习的工业无线网络资源分配方法。

背景技术

随着工业4.0的发展，大量的分布式工业终端通过工业无线网络互联互通，产生了海量的计算密集、时延敏感的工业任务。然而，工业终端本地的能量与计算资源是有限的，难以满足工业任务的服务质量要求。

部署在网络边缘侧的边缘计算服务器能够就近为工业终端提供计算资源支持，但是工业终端的大规模并发卸载，会造成边缘计算服务器满载和无线链路拥塞问题，增加额外的时延、能耗。将工业终端的能量、计算资源与边缘服务器的计算资源联合分配，建立端边协同的工业无线网络资源分配是一种有效解决途径。

然而传统的资源分配算法一般是基于已知的系统模型的，对于大规模机器间通信的工业场景，工业终端数量和数据是时变的，难以获得准确的系统模型，而且会造成算法的状态空间爆炸。深度强化学习，能够利用深度学习估计系统模型，结合强化学习求解资源分配，有效地解决了系统模型建模难和状态空间爆炸问题。

但是，目前常用的深度强化学习算法都是从单智能体角度出发的，即一个具有全局系统信息的智能体建模系统模型，求解资源分配策略。然而，工业终端是移动的，能量、计算资源的数量是时变的，单智能体难以跟踪系统信息的动态变化，同时，单智能体收集全局系统信息会增加时延、能耗。从多智能体角度出发，每个工业终端观测局部系统信息，通过彼此间的合作建模系统模型，求解资源分配策略，有效地解决了单智能体深度强化学习方法的缺陷。

发明内容

为实现上述发明目的，本发明提供基于多智能体深度强化学习的工业无线网络资源分配方法。针对工业无线网络中能量、计算资源有限的工业终端难以支持计算密集、时延敏感工业任务本地实时高效处理问题，考虑工业无线网络的动态时变特征所造成的传统方法建模难和算法状态空间爆炸的难点，特别是当大规模工业终端请求工业任务处理时，在有限能量、计算资源约束下，基于多智能体深度强化学习算法，实时、高效地对工业无线网络内多个工业终端进行资源分配，最小化系统开销。

本发明为实现上述目的所采用的技术方案是：

基于多智能体深度强化学习的工业无线网络资源分配方法，包括以下步骤：

1)建立端边协同的工业无线网络；

2)基于端边协同的工业无线网络，确立工业无线网络端边资源分配的优化问题；

3)根据优化问题，建立马尔科夫决策模型；

4)采用多智能体深度强化学习构建资源分配神经网络模型；

5)利用马尔科夫决策模型，对资源分配神经网络模型进行离线训练，直至奖励收敛到稳定值；

6)基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务。

所述端边协同的工业无线网络，包括：N台工业基站和M个工业终端；

所述工业基站，具有边缘计算能力，以为工业终端提供计算资源，用于调度网络覆盖范围内的工业终端，以及工业终端与工业基站间通信；

所述工业终端，用于实时产生不同类型工业任务，通过无线信道与工业基站通信。

所述工业无线网络端边资源分配的优化问题为：

s.t.

C1:0≤p_m≤P,

其中，

表示系统开销；T_m表示工业终端m的时延；E_m表示工业终端m的能耗；ω表示时延权重，(1-ω)表示能耗权重；

表示工业基站集合，

表示工业终端集合,

C1为工业终端m的能量约束，p_m表示工业终端m的发射功率，P表示最大发射功率；

C2为计算资源约束，

表示工业基站n分配给工业终端m的计算资源、F_n表示工业基站n的最大计算资源，卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源；

C3为计算资源约束，卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源；

C4为计算决策约束，

表示工业终端m的计算决策，工业终端m仅能选择本地处理工业任务，即

或者卸载工业任务至工业基站n，即

C5为计算决策约束，若工业终端m卸载工业任务，其仅能卸载至工业基站集合

中的一台工业基站。

所述马尔科夫决策模型，是状态向量之间通过执行不同动作向量，实现长期累积奖励最优化的过程，使用转移概率描述为：

其中，从任意状态向量转移至另一状态向量的转移概率为f_m，f_m(t)^*表示在时隙t状态向量间的最优转移概率，

为系统长期累积奖励，γ表示折扣比例，τ表示时隙；r_m(t)＝ωr_m,d(t)+(1-ω)r_m,e(t)；

所述马尔科夫决策模型，包括状态向量、动作向量、奖励向量，其中：

所述状态向量为工业终端m在时隙t的状态，表示为

其中

表示工业终端m在时隙t开始时的计算决策，d_m(t)表示工业终端m在时隙t产生的工业任务的数据量大小，c_m(t)表示工业终端m在时隙t产生的工业任务的所需计算资源，

表示工业终端m在时隙t时与全部N台工业基站的距离；

所述动作向量为工业终端m在时隙t的动作，表示为a_m(t)＝{a_m,o(t),a_m,p(t)}，其中a_m,o(t)表示工业终端m在时隙t结束时的计算决策，a_m,p(t)表示工业终端m在时隙t结束时的发射功率；

所述奖励向量为工业终端m在时隙t的获得的奖励，表示为r_m(t)＝{r_m,d(t),r_m,e(t)}，其中r_m,d(t)表示工业终端m在时隙t的时延奖励，r_m,e(t)表示工业终端m在时隙t的能耗奖励。

所述步骤4)具体为：

每个所述工业终端均为一个智能体，由一个actor结构和一个critic结构组成；

所述actor结构由一个actor-eval深度神经网络和一个actor-target深度神经网络组成：所述actor-eval深度神经网络和actor-target深度神经网络模型参数集合为

其中，

表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数，

表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数，

表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数，θ_π表示actor-eval深度神经网络超参，

表示actor-target深度神经网络超参；

所述critic结构由一个critic-eval深度神经网络和一个critic-target深度神经网络组成：所述critic-eval深度神经网络和critic-target深度神经网络模型参数集合为

其中，

表示critic-eval深度神经网络和critic-target深度神经网络输入层神经元个数，

表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数，

表示critic-eval深度神经网络和critic-target深度神经网络输出层神经元个数，θ_Q表示critic-eval深度神经网络超参，

表示critic-target深度神经网络超参。

所述步骤5)包括以下步骤：

5.1)将工业终端m的当前时隙的状态向量s_m与下一时隙的状态向量s'_m输入actor结构，输出动作向量a_m和a'_m，获得奖励r_m和r_m'；

5.2)对每个工业终端循环执行步骤5.1)，存储每个时隙的<s_m(t),a_m(t),r_m(t)>作为经验池经验，获得K条经验，根据经验的权重不同，分别存入两个经验池，K为常数；

5.3)将全部工业终端当前时隙的状态向量

当前时隙的动作向量

与下一时隙的状态向量

下一时隙的动作向量

输入工业终端m的critic结构，分别输出值函数

5.4)根据强化学习的贝尔曼更新公式

利用随机梯度下降方法更新actor-eval深度神经网络超参θ_π和critic-eval深度神经网络超参θ_Q；

5.5)利用

更新actor-target深度神经网络超参

利用

更新actor-eval深度神经网络超参

其中λ为更新因子，λ∈[0,1]；

5.6)执行优先级权重经验回放，重复迭代步骤5.1)-5.5)直至奖励收敛到稳定值，获得训练完成的多智能体深度强化学习模型。

所述步骤5.1)中，采用贪婪算法动态改变动作向量输出概率，具体为：

使用

贪婪方法选择输出动作向量，其中a^r(t)表示随机选择的动作向量，a^v(t)表示选择获得奖励最大的动作向量；

所述ε＝(1-δ)^Uε₀表示选择概率，其中，ε₀表示初始选择概率，δ表示衰减速度，U表示训练次数。

所述步骤5.2)中，设置两个经验池，分别存储不同权重的经验，随着神经网络模型训练次数变化，动态改变不同经验池中抽取经验的概率，具体为：

由于不同的经验对深度神经网络收敛贡献不同，把每条经验的下降梯度

作为经验的权重；

对任意K条经验的权重取平均值，即

权重高于权重平均值的经验，即

为高权重经验，权重低于权重平均值的经验，即

为低权重经验；

设置A、B两个经验池，A池存储高权值经验，B池存储低权值经验；训练初始阶段，A、B经验池随机采样经验的概率是相等的，随着训练次数增加，A经验池采样概率逐渐增加，B经验池采样概率逐渐减少；采样概率为

其中，0≤g_x≤1表示A、B经验池的采样概率，g₀表示A、B经验池的初始采样概率，

表示A、B经验池的采样概率衰减值，U表示训练次数。

所述步骤5.4)中，actor-eval深度神经网络梯度为

critic-eval深度神经网络梯度为

其中

表示actor-eval深度神经网络的下降梯度，

表示critic-eval深度神经网络的下降梯度，γ表示折扣比例，

表示数学期望，π表示actor-eval深度神经网络的当前策略。

所述步骤6)包括以下步骤：

6.1)将工业终端m当前时隙t的状态向量s_m(t)作为离线训练完成的第m个智能体的actor结构的输入，得到输出动作向量a_m(t)；

6.2)根据得到的输出动作向量a_m(t)，工业终端m根据a_m(t)中的计算决策、发射功率分配计算和能量资源，处理工业任务；

6.3)对工业无线网络内全部M个工业终端执行步骤6.1)-6.2)，得到M个工业终端的资源分配结果，根据资源分配结果处理工业任务。

本发明具有以下有益效果及优点：

1、本发明针对工业无线网络中工业终端产生的计算密集、时延敏感工业任务的服务质量需求，建立工业无线网络端边协同资源分配，使用基于多智能体深度强化学习的资源分配算法解决了工业无线网络动态时变特征造成的传统方法建模难和算法状态空间爆炸的问题，保证了能量、计算资源的合理分配，以及工业任务的实时高效处理。

2、本发明具有较强的通用性和实用性，能够自适应地处理工业无线动态时变特征，能够有效地实现有限能量、计算资源约束下的工业无线网络的资源分配，提高系统安全性和稳定性。

附图说明

图1是本发明方法流程图；

图2是端边协同的工业无线网络模型图；

图3是actor-eval和actor-target深度神经网络结构图；

图4是critic-eval和critic-target深度神经网络结构图；

图5是多智能体深度强化学习训练流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

本发明涉及工业无线网络技术，包括以下步骤：建立端边协同的工业无线网络；确立工业无线网络端边资源分配的优化问题；建立马尔科夫决策模型；采用多智能体深度强化学习方法，构建资源分配神经网络模型；离线训练神经网络模型，直至奖励收敛到稳定值；基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务。本发明针对工业无线网络中工业终端产生的计算密集、时延敏感工业任务的服务质量需求，建立端边协同的工业无线网络模型，发明了基于多智能体深度强化学习的资源分配算法。该方法充分考虑工业无线网络动态时变特征所造成的传统方法建模难和算法状态空间爆炸的问题，能够在满足有限能量、计算资源约束下，合理分配能量、计算资源，保证工业任务的实时高效处理。

本发明主要包括以下实现过程，如图1：

1)建立端边协同的工业无线网络；

2)确立工业无线网络端边资源分配的优化问题；

3)建立马尔科夫决策模型；

4)采用多智能体深度强化学习构建资源分配神经网络模型；

5)离线训练神经网络模型，直至奖励收敛到稳定值；

该实施例是按照如图1所示的流程实施的，具体步骤如下：

1、建立端边协同的工业无线网络模型，如图2，包括：N台工业基站，以及M个工业终端；其中，工业基站用于调度网络覆盖范围内工业终端，以及工业终端与工业基站间通信；工业基站具有边缘计算能力，可为工业终端提供计算资源；工业终端，实时产生不同类型工业任务，通过无线信道与工业基站通信；工业终端的计算资源和能量均受限。

2、确立工业无线网络端边资源分配的优化问题：

s.t.

C1:0≤p_m≤P,

其中，

表示工业基站集合，

表示工业终端集合,

C1为工业终端m的能量约束，p_m表示工业终端m的发射功率，P表示最大发射功率；C2为计算资源约束，

表示工业基站n分配给工业终端m的计算资源、F_n表示工业基站n的最大计算资源，卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源；C3为计算资源约束，卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源；C4为计算决策约束，

或者卸载工业任务至工业基站n，即

中的一台工业基站。

3、建立马尔科夫决策模型，其中状态向量、动作向量、奖励向量及转移概率的具体含义为：

(1)工业终端m在时隙t的状态向量为

其中

表示工业终端m在时隙t开始时的计算决策，

表示本地处理工业任务，

表示卸载工业任务至工业基站n；d_m(t)表示工业终端m在时隙t产生的工业任务的数据量大小；c_m(t)表示工业终端m在时隙t产生的工业任务的所需计算资源；

表示工业终端m在时隙t时与所有工业基站的距离；

(2)工业终端m在时隙t的动作向量为a_m(t)＝{a_m,o(t),a_m,p(t)}，其中a_m,o(t)，a_m,o(t)∈{0,1,..,n,..,N}表示工业终端m在时隙t结束时的计算决策，a_m,o(t)＝0表示本地处理工业任务，a_m,o(t)＝n表示卸载工业任务至工业基站n；a_m,p(t)，a_m,p(t)∈{0,1,..,p,..,P}表示工业终端m在时隙t结束时的发射功率，a_m,p(t)＝0表示本机处理工业任务，a_m,p(t)＝p表示以发射功率p卸载工业任务；

(3)工业终端m在时隙t的奖励向量为r_m(t)＝{r_m,d(t),r_m,e(t)}，其中r_m,d(t)表示工业终端m在时隙t的时延奖励，

表示本地处理总时延，

表示卸载至工业基站n处理的总时延；r_m,e(t)表示工业终端m在时隙t的能耗奖励，

表示本地处理总能耗，

表示卸载至工业基站n处理的总能耗；

(4)在时隙t，状态向量间以概率f_m(t)实现转移，通过最大化长期累积奖励实现转移概率的最优化，即

其中，f_m(t)^*表示最优转移概率，

为系统长期累积奖励，γ表示折扣比例，τ表示时隙；r_m(t)＝ωr_m,d(t)+(1-ω)r_m,e(t)同时考虑了时延和能量的系统开销。

4、采用多智能体深度强化学习构建资源分配神经网络模型，如图3、图4所示：

(1)每个工业终端为一个智能体，由一个actor结构和一个critic结构组成；

(2)初始化actor-eval深度神经网络和actor-target深度神经网络模型参数，

其中，

表示actor-target深度神经网络超参；

(3)初始化critic-eval深度神经网络和critic-target深度神经网络模型参数，

其中，

表示critic-target深度神经网络超参。

5、离线训练神经网络模型，直至奖励收敛到稳定值，如图5所示，具体步骤如下：

(1)将工业终端m时隙t的状态向量s_m(t)输入actor-eval深度神经网络输出动作向量a_m(t)，获得奖励r_m(t)，转移到下一状态向量s_m(t+1)；

采用贪婪算法动态改变动作向量输出概率，具体为：

使用

所述ε＝(1-δ)^Uε₀表示选择概率，其中ε₀表示初始选择概率，δ表示衰减速度，_U表示训练次数。

(2)将工业终端m时隙t+1的状态向量s_m(t+1)输入actor-target深度神经网络输出动作向量a_m(t+1)，获得奖励r_m(t+1)；

(3)将每个时隙的<s_m(t),a_m(t),r_m(t)>作为经验，对每个工业终端循环执行步骤(1)-(2)，获得K条经验，根据经验的权重不同，分别存入两个经验池；

(4)将全部工业终端在时隙t的状态向量S和动作向量A输入critic-eval深度神经网络获得值函数Q_m(S,A)；将全部工业终端在时隙t+1的状态向量S'和动作向量A'输入critic-target深度神经网络，获得值函数Q_m(S',A')；

(5)根据强化学习的贝尔曼更新公式

利用随机梯度下降方法更新actor-eval深度神经网络超参θ_π和critic-eval深度神经网络超参θ_Q。其中，actor-eval深度神经网络梯度为

critic-eval深度神经网络梯度为

其中

表示actor-eval深度神经网络的下降梯度，

表示critic-eval深度神经网络的下降梯度，γ表示折扣比例，

表示数学期望，π表示actor-eval深度神经网络的当前策略；

(6)利用

和

更新actor-target深度神经网络超参

与actor-eval深度神经网络超参

其中λ为更新因子，λ∈[0,1]。

(7)执行优先级权重经验回放，重复迭代(1)-(6)直至奖励收敛到稳定值，得到训练完成的多智能体深度强化学习模型；

所述优先级权重经验回放具体为，设置两个经验池，分别存储不同权重的经验。随着神经网络模型训练次数变化，动态改变不同经验池中抽取经验的概率，具体为：

考虑不同的经验对深度神经网络收敛贡献不同，把每条经验的下降梯度

作为经验的权重；

对任意K条经验的权重取平均值，即

权重高于权重平均值的经验，即

为高权重经验，权重低于权重平均值的经验，即

为低权重经验；

其中0≤g_x≤1表示A、B经验池的采样概率，g₀表示A、B经验池的初始采样概率，

表示A、B经验池的采样概率衰减值。。

6、基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务，包括以下步骤：

(1)将工业终端m当前时隙t的状态向量s_m(t)作为离线训练完成的第m个智能体的actor结构的输入，得到输出动作向量a_m(t)；

(2)根据得到的输出动作向量，工业终端m根据a_m(t)中的计算决策、发射功率分配计算和能量资源，处理工业任务；

(3)对工业无线网络内全部M个工业终端执行步骤(1)-(2)，得到M个工业终端的资源分配结果，根据资源分配结果处理工业任务。

Claims

1.基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，包括以下步骤：

1)建立端边协同的工业无线网络；

3)根据优化问题，建立马尔科夫决策模型；

4)采用多智能体深度强化学习构建资源分配神经网络模型；

6)基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务；所述工业无线网络端边资源分配的优化问题为：

s.t.

C1:0≤p_m≤P,

C2:

C3:

C4:

C5:

其中，

表示工业基站集合，

表示工业终端集合,

C2为计算资源约束，

C4为计算决策约束，

或者卸载工业任务至工业基站n，即

中的一台工业基站。

2.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述端边协同的工业无线网络，包括：N台工业基站和M个工业终端；

3.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述马尔科夫决策模型，是状态向量之间通过执行不同动作向量，实现长期累积奖励最优化的过程，使用转移概率描述为：

所述状态向量为工业终端m在时隙t的状态，表示为

其中

表示工业终端m在时隙t时与全部N台工业基站的距离；

4.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤4)具体为：

每个工业终端均为一个智能体，由一个actor结构和一个critic结构组成；

其中，

表示actor-target深度神经网络超参；

其中，

表示critic-target深度神经网络超参。

5.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5)包括以下步骤：

5.1)将工业终端m的当前时隙的状态向量s_m与下一时隙的状态向量s'_m输入actor结构，输出动作向量a_m和a'_m，获得奖励r_m和r'_m；

5.3)将全部工业终端当前时隙的状态向量

当前时隙的动作向量

与下一时隙的状态向量

下一时隙的动作向量

输入工业终端m的critic结构，分别输出值函数

5.4)根据强化学习的贝尔曼更新公式

γ表示折扣比例，利用随机梯度下降方法更新actor-eval深度神经网络超参θ_π和critic-eval深度神经网络超参θ_Q；

5.5)利用

更新actor-target深度神经网络超参

利用

更新actor-eval深度神经网络超参

其中λ为更新因子，λ∈[0,1]；

6.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5.1)中，采用贪婪算法动态改变动作向量输出概率，具体为：

使用

7.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5.2)中，设置两个经验池，分别存储不同权重的经验，随着神经网络模型训练次数变化，动态改变不同经验池中抽取经验的概率，具体为：

由于不同的经验对深度神经网络收敛贡献不同，把每条经验的下降梯度▽_θπ作为经验的权重；

对任意K条经验的权重取平均值，即

权重高于权重平均值的经验，即

为高权重经验，权重低于权重平均值的经验，即

为低权重经验；

表示A、B经验池的采样概率衰减值，U表示训练次数。

8.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5.4)中，actor-eval深度神经网络梯度为

critic-eval深度神经网络梯度为

其中

表示actor-eval深度神经网络的下降梯度，

表示critic-eval深度神经网络的下降梯度，γ表示折扣比例，

表示数学期望，π表示actor-eval深度神经网络的当前策略。

9.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤6)包括以下步骤：