CN116233895B

CN116233895B - 基于强化学习的5g配网节点通信优化方法、设备及介质

Info

Publication number: CN116233895B
Application number: CN202310490208.5A
Authority: CN
Inventors: 孙伟; 王文浩; 吴应华; 刘鑫; 杜露露; 石倩倩; 周亚; 李奇越; 李帷韬
Original assignee: Hefei University of Technology; State Grid Anhui Electric Power Co Ltd; Chuzhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Current assignee: Hefei University of Technology; State Grid Anhui Electric Power Co Ltd; Chuzhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-07-18
Anticipated expiration: 2043-05-04
Also published as: CN116233895A

Abstract

本发明公开了一种基于强化学习的配网5G通信节点优化方法、设备及介质，该方法包括：1、从5G配网中获取节点的位置以及发射功率；2、建立5G配网强化学习模型，其中，强化学习模型由策略体和执行体组成；3、利用演员—评论家AC算法训练5G配网强化学习模型。本发明能保证信息高利用率和无线通信的实时性需求，并能找出5G配网节点最优的发射功率，从而能确保配网可以安全高效的运行。

Description

基于强化学习的5G配网节点通信优化方法、设备及介质

技术领域

本发明属于通信领域，具体的说是一种基于强化学习的5G配网节点通信优化方法、设备及介质。

背景技术

配网节点数据传输延是一个重要的性能指标。当配网节点数据传输延时高于配网无线通信需求时，会导致配网工作站会无法实时获取电力设备信息，最终可能导致电力系统无法稳定运行。在配网中的复杂电磁环境中，无线通信容易受到干扰。这种干扰可能会导致通信延时的随机波动。当节点发射功率较高时，节点的电磁波信号会传播得更远，减少中继节点个数，降低数据传输延时；但是会覆盖范围更多的传感器节点，影响信道的利用率。节点采用较小的发射功率时又会增加中继节点个数，极大增加自身的端到端延时，无法满足配网无线通信的实时性需求。目前大部分的配网节点通信优化的方案仍然沿用传统思路，无法保证信息高利用率和无线通信的实时性需求。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于强化学习的5G配网节点通信优化方法、设备及介质，以期在满足5G配网节点通信前提下，得到最优的5G配网节点的发射功率，以保证信息高利用率和无线通信实时性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于强化学习的5G配网节点通信优化方法的特点在于，包括以下步骤：

步骤1、从5G配网中获取J个节点的位置以及发射功率；

步骤2、从5G配网中J个节点中选择一个节点作为策略体，其余J-1个节点分别作为

J-1个执行体，并与计算模块一起构成5G配网强化学习模型；

其中，所述计算模块由奖励模块和延时模块组成，所述奖励模块用于计算奖励R；所述延时模块用于计算延时T和网络拓扑NG；

所述策略体的输入层接收所述奖励R和J-1个执行体的发射功率集合D={d ₁,d ₂,…,d _i,…,d _J-1}并进行处理后，由所述策略体的输出层输出损失Loss，其中，d _i表示第i个执行体的发射功率，i=1,2,…,J-1；

J-1个执行体是由结构相同的神经元网络组成，任意一个神经元网络是由选择网络net ₁和更新网络net ₂组成；

第i个执行体的神经元网络中的选择网络net _1,i接收第i个执行体的发射功率d _i，并通过SoftMax函数的处理后，得到第i个执行体选择的动作集合A _i及其概率集合π(A _i)，从而根据概率集合π(A _i)从动作集合A _i中随机选择一个动作a _i输出；

所述第i个执行体的神经元网络中的更新网络net _2,i的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s _i、动作a _i，并依次通过更新网络net _2,i的隐藏层和输出层的处理后，得到隐藏层的参数集合θ ^h _2,i及其参数梯度集合f(θ ^h _2,i)、输出层的参数集合θ ^o _2,i及其参数梯度集合f(θ ^o _2,i)；

步骤3、利用演员—评论家AC算法训练所述5G配网强化学习模型，并不断迭代更新所述5G配网中J-1个执行体的发射功率集合，直到迭代到最大迭代回合数m _max为止，从而得到J-1个执行体的全局最小发射功率集合D ^min。

本发明所述的基于强化学习的5G配网节点通信优化方法的特点也在于，所述步骤3包括：

步骤3.1、定义当前回合数为m，并初始化m=1；

步骤3.2、定义当前第m回合下当前训练的次数为t，并初始化t=1；

定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D ^m,t={d ₁ ^m,t,d ₂ ^m,t,…,d _i ^m,t,…,d _J-1 ^m,t}，其中，d _i ^m,t表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率，当t=1时，令d _i ^m,t的取值为5G配网中获取的第i个节点的发射功率；

步骤3.3、所述第i个执行体的选择网络net _1,i接收第i个执行体的发射功率d _i ^m,t，通过SoftMax函数处理后，得到第i个执行体在当前第m回合下第t次训练选择的动作集合A _i ^m,t及其概率集合π(A _i ^m,t)，从而根据概率集合π(A _i ^m,t)从动作集合A _i ^m,t中随机选择一个动作a _i ^m,t输出，以改变5G配网中第i个执行体的发射功率d _i ^m,t并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d _i ^m,t+1，其中，a _i ^m,t是当前第m回合下第t次训练第i个执行体的动作；

步骤3.4、所述延时模块根据J-1个执行体的位置集合和发射功率集合D ^m,t判断5G配网的网络拓扑是否连通，若连通，则计算当前第m回合下第t次训练的延时T ^m,t和奖励R ^m,t，并保存当前第m回合下第t次训练的网络拓扑NG ^m,t；若不连通，t+1赋值给t后，返回执行步骤3.3；

步骤3.5、所述策略体的输入层接收J-1个执行体的位置集合和奖励R ^m,t，并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss ^m,t后输出；

步骤3.6、所述第i个执行体的更新网络net _2,i接收当前第m回合下第t次训练第i个执行体的发射功率d _i ^m,t、损失Loss ^m,t、动作a _i ^m,t和网络拓扑NG ^m,t，并依次通过更新网络net _2,i的隐藏层和输出层的处理后，得到当前第m回合下第t次训练隐藏层的参数集合θ ^m,t,h _2,i及其参数梯度集合f(θ ^m,t,h _2,i)、输出层的参数集合θ ^m,t,o _2,i及其参数梯度集合f(θ ^m,t,o _2,i)，并利用f(θ ^m,t,h _2,i)更新θ ^m,t,h _2,i，得到当前第m回合下第t+1次训练隐藏层的参数集合θ ^m,t+1,h _2,i，利用f(θ ^m,t,o _2,i)更新θ ^m,t,o _2,i，得到当前第m回合下第t+1次训练输出层的参数集合θ ^m,t+1,o _2,i；

步骤3.7、将t+1赋值给t后，判断t>t _max是否成立，若成立，则结束当前第m回合训练，得到当前第m回合下最小发射功率集合D ^m,min，并将D ^m,min存储在局部最优发射功率集合D ^all,min中后，执行步骤3.8，否则，返回执行步骤3.3顺序执行；其中，t _max是每回合最大迭代次数；

步骤3.8、将m+1赋值给m后，判断m>m _max是否成立，若成立，则结束所有训练，从局部最优发射功率集合D ^all,min中选取全局最小发射功率集合D ^min；否则，返回执行步骤3.2顺序执行。

所述步骤3.4中是利用式(1)和式(2)分别计算NG ^m,t和R ^m,t：

(1)

(2)

式(1)和式(2)中，NG ^m,t[i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通；当NG ^m,t[i,x]=0时，表示第i个执行体与第x个执行体之间不连通，且第i个执行体与第x个执行体之间不共享参数梯度集合；当NG ^m,t[i,x]=1时，表示第i个执行体与第x个执行体之间连通，且第i个执行体与第x个执行体之间共享参数梯度集合；s _x表示第x个执行体的位置。

所述步骤3.6中是利用式(3)和式(4)更新第i个执行体的更新网络net _2,i的隐藏层参数集合θ ^m,t,h _2,i和输出层参数集合θ ^m,t,o _2,i，并相应得到当前第m回合下第t+1次训练第i个执行体的隐藏层参数集合θ ^m,t+1,h _2,i和输出层参数集合θ ^m,t+1,o _2,i；

(3)

(4)

式(3)和式(4)中，α是学习率，θ ^m,t,h _2,k是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合，θ ^m,t,o _2,k是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述基于强化学习的5G配网节点通信优化方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述基于强化学习的5G配网节点通信优化方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明利用强化学习与环境不断交互不断学习的优势，并且考虑到配网数量多、分布广的特点，在5G配网保护系统环境下，通过一定数量的配网节点，构成一个稳定的拓扑结构，不断改变各个节点的发射功率，从而找到最优的配网节点的发射功率，确保了信息高利用率和低延时的无线通信实时性；

2、本发明利用5G通信技术为配网保护业务提供了低延时、高可靠的信息通道，从而解决了传统配网保护选择性较弱，故障定位不够精确，切除故障用时较长，配网线路无法实现故障切除后的自愈的问题。

附图说明

图1为本发明一种基于强化学习的5G配网节点通信优化方法的流程图。

具体实施方式

本实施例中，如图1所示，一种基于强化学习的5G配网节点通信优化方法，包括以下步骤：

步骤1、从5G配网中获取J个节点的位置以及发射功率；从真实的5G配网中获取各个节点的位置以及发射功率，用这些真实的数据作为配网节点的初始化数据；

J-1个执行体，并与计算模块一起构成5G配网强化学习模型；作为策略体的节点的发射功率得足够大，确保它能接收到其他所有节点传递过来的信息，并且在训练的过程中，策略体的发射功率不发生改变；

其中，计算模块由奖励模块和延时模块组成，奖励模块用于计算奖励R；延时模块用于计算延时T和网络拓扑NG；

策略体的输入层接收奖励R和J-1个执行体的发射功率集合D={d ₁,d ₂,…,d _i,…,d _J-1}并进行处理后，由策略体的输出层输出损失Loss，其中，d _i表示第i个执行体的发射功率，i=1,2,…,J-1；

J-1个执行体是由结构相同的神经元网络组成，任意一个神经元网络是由选择网络net ₁和更新网络net ₂组成；选择网络结构一样的神经元网络，为了更好的观察在相同神经元网络结构下，不同位置和发射功率对配网节点通信造成的影响。

第i个执行体的神经元网络中的选择网络net _1,i接收第i个执行体的发射功率d _i，并通过SoftMax函数的处理后，得到第i个执行体选择的动作集合A _i及其概率集合π(A _i)，从而根据概率集合π(A _i)从动作集合A _i中随机选择一个动作a _i输出，令θ _1,i是第i个执行体的选择网络net _1,i的参数集合；

第i个执行体的神经元网络中的更新网络net _2,i的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s _i、动作a _i，并依次通过更新网络net _2,i的隐藏层和输出层的处理后，得到隐藏层的参数集合θ ^h _2,i及其参数梯度集合f(θ ^h _2,i)、输出层的参数集合θ ^o _2,i及其参数梯度集合f(θ ^o _2,i)；在每回合第一次训练时，每个执行体根据自身的参数梯度集合，通过梯度下降法，对自身的参数集合进行更新，得到下一次训练时的参数集合。

步骤3、利用演员—评论家算法训练5G配网强化学习模型，并不断迭代更新5G配网中J-1个执行体的发射功率集合，直到迭代到最大迭代回合数m _max为止，从而得到J-1个执行体的全局最小发射功率集合D ^min。

步骤3.1、定义当前回合数为m，并初始化m=1；

步骤3.3、第i个执行体的选择网络net _1,i接收第i个执行体的发射功率d _i ^m,t，通过SoftMax函数处理后，得到第i个执行体在当前第m回合下第t次训练选择的动作集合A _i ^m,t及其概率集合π(A _i ^m,t)，从而根据概率集合π(A _i ^m,t)从动作集合A _i ^m,t中随机选择一个动作a _i ^m,t输出，以改变5G配网中第i个执行体的发射功率d _i ^m,t并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d _i ^m,t+1，令θ _1,i ^m,t是当前第m回合下第t次训练第i个执行体的选择网络net _1,i的参数集合，a _i ^m,t是当前第m回合下第t次训练第i个执行体的动作。

步骤3.4、延时模块根据J-1个执行体的位置集合和发射功率集合D ^m,t判断5G配网的网络拓扑是否连通，若连通，利用式(1)和式(2)计算当前第m回合下第t次训练的延时T ^m,t和奖励R ^m,t，并保存当前第m回合下第t次训练的网络拓扑NG ^m,t；若不连通，t+1赋值给t后，返回执行步骤3.3；

(1)

(2)

式(1)和式(2)中，NG ^m,t[i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通；当NG ^m,t[i,x]=0时，表示第i个执行体与第x个执行体之间不连通，且第i个执行体与第x个执行体之间不共享参数梯度集合；当NG ^m,t[i,x]=1时，表示第i个执行体与第x个执行体之间连通，且第i个执行体与第x个执行体之间共享参数梯度集合；s _x表示第x个执行体的位置；当节点失效时，网络拓扑就会产生动态变化，加大了端到端延时的不确定性，在配网节点能够形成一个网络拓扑和通信的基础上，计算此时的奖励，奖励越大，节点通信延时越小，满足配网无线通信的实时性需求。

步骤3.5、策略体的输入层接收J-1个执行体的位置集合和奖励R ^m,t，并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss ^m,t后输出。

步骤3.6、第i个执行体的更新网络net _2,i接收当前第m回合下第t次训练第i个执行体的发射功率d _i ^m,t、损失Loss ^m,t、动作a _i ^m,t和网络拓扑NG ^m,t，并依次通过更新网络net _2,i的隐藏层和输出层的处理后，得到当前第m回合下第t次训练隐藏层的参数集合θ ^m,t,h _2,i及其参数梯度集合f(θ ^m,t,h _2,i)、输出层的参数集合θ ^m,t,o _2,i及其参数梯度集合f(θ ^m,t,o _2,i)，并利用式(3)更新θ ^m,t,h _2,i，得到当前第m回合下第t+1次训练隐藏层的参数集合θ ^m,t+1,h _2,i，利用式(4)更新θ ^m,t,o _2,i，得到当前第m回合下第t+1次训练输出层的参数集合θ ^m,t+1,o _2,i；

(3)

(4)

式(3)和式(4)中，α是学习率，θ ^m,t,h _2,k是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合，θ ^m,t,o _2,k是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。配网节点之间有选择的共享梯度信息，不仅能确保信息的高利用率，也能满足无线通信的实时性需求，快速找到配网节点的最优的发射功率。学习率过大会造成网络不能收敛，在最优值附近徘徊，不能找到配网节点最优的发射功率；学习率过小会造成网络收敛非常缓慢，增大找到配网节点最优的发射功率的时间；因此，需要不断调整学习率，确保配网节点的发射功率时最优的。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行基于强化学习的5G配网节点通信优化方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行基于强化学习的5G配网节点通信优化方法的步骤。

Claims

1.一种基于强化学习的5G配网节点通信优化方法，其特征在于，包括以下步骤：

步骤1、从5G配网中获取J个节点的位置以及发射功率；

J-1个执行体，并与计算模块一起构成5G配网强化学习模型；

所述策略体的输入层接收所述奖励R和J-1个执行体的发射功率集合D={d ₁, d ₂ ,…,d _i,…, d _J-1}并进行处理后，由所述策略体的输出层输出损失Loss，其中，d _i表示第i个执行体的发射功率，i=1,2,…,J-1；

2.根据权利要求1所述的基于强化学习的5G配网节点通信优化方法，其特征在于，所述步骤3包括：

步骤3.1、定义当前回合数为m，并初始化m=1；

定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D ^m,t={d ₁ ^m,t,d ₂ ^m,t,…, d _i ^m,t,…, d _J-1 ^m,t }，其中，d _i ^m,t表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率，当t=1时，令d _i ^m,t的取值为5G配网中获取的第i个节点的发射功率；

3.根据权利要求2所述的基于强化学习的5G配网节点通信优化方法，其特征在于，所述步骤3.4中是利用式(1)和式(2)分别计算NG ^m,t和R ^m,t：

(1)

(2)

4.根据权利要求2所述的基于强化学习的5G配网节点通信优化方法，其特征在于，所述步骤3.6中是利用式(3)和式(4)更新第i个执行体的更新网络net _2,i的隐藏层参数集合θ ^m,t,h _2,i和输出层参数集合θ ^m,t,o _2,i，并相应得到当前第m回合下第t+1次训练第i个执行体的隐藏层参数集合θ ^m,t+1,h _2,i和输出层参数集合θ ^m,t+1,o _2,i；

(3)

(4)

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述基于强化学习的5G配网节点通信优化方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述基于强化学习的5G配网节点通信优化方法的步骤。