CN116233895B - 基于强化学习的5g配网节点通信优化方法、设备及介质 - Google Patents

基于强化学习的5g配网节点通信优化方法、设备及介质 Download PDF

Info

Publication number
CN116233895B
CN116233895B CN202310490208.5A CN202310490208A CN116233895B CN 116233895 B CN116233895 B CN 116233895B CN 202310490208 A CN202310490208 A CN 202310490208A CN 116233895 B CN116233895 B CN 116233895B
Authority
CN
China
Prior art keywords
training
distribution network
individual
current
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310490208.5A
Other languages
English (en)
Other versions
CN116233895A (zh
Inventor
孙伟
王文浩
吴应华
刘鑫
杜露露
石倩倩
周亚
李奇越
李帷韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
State Grid Anhui Electric Power Co Ltd
Chuzhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Original Assignee
Hefei University of Technology
State Grid Anhui Electric Power Co Ltd
Chuzhou Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, State Grid Anhui Electric Power Co Ltd, Chuzhou Power Supply Co of State Grid Anhui Electric Power Co Ltd filed Critical Hefei University of Technology
Priority to CN202310490208.5A priority Critical patent/CN116233895B/zh
Publication of CN116233895A publication Critical patent/CN116233895A/zh
Application granted granted Critical
Publication of CN116233895B publication Critical patent/CN116233895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的配网5G通信节点优化方法、设备及介质,该方法包括:1、从5G配网中获取节点的位置以及发射功率;2、建立5G配网强化学习模型,其中,强化学习模型由策略体和执行体组成;3、利用演员—评论家AC算法训练5G配网强化学习模型。本发明能保证信息高利用率和无线通信的实时性需求,并能找出5G配网节点最优的发射功率,从而能确保配网可以安全高效的运行。

Description

基于强化学习的5G配网节点通信优化方法、设备及介质
技术领域
本发明属于通信领域,具体的说是一种基于强化学习的5G配网节点通信优化方法、设备及介质。
背景技术
配网节点数据传输延是一个重要的性能指标。当配网节点数据传输延时高于配网无线通信需求时,会导致配网工作站会无法实时获取电力设备信息,最终可能导致电力系统无法稳定运行。在配网中的复杂电磁环境中,无线通信容易受到干扰。这种干扰可能会导致通信延时的随机波动。当节点发射功率较高时,节点的电磁波信号会传播得更远,减少中继节点个数,降低数据传输延时;但是会覆盖范围更多的传感器节点,影响信道的利用率。节点采用较小的发射功率时又会增加中继节点个数,极大增加自身的端到端延时,无法满足配网无线通信的实时性需求。目前大部分的配网节点通信优化的方案仍然沿用传统思路,无法保证信息高利用率和无线通信的实时性需求。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于强化学习的5G配网节点通信优化方法、设备及介质,以期在满足5G配网节点通信前提下,得到最优的5G配网节点的发射功率,以保证信息高利用率和无线通信实时性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于强化学习的5G配网节点通信优化方法的特点在于,包括以下步骤:
步骤1、从5G配网中获取J个节点的位置以及发射功率;
步骤2、从5G配网中J个节点中选择一个节点作为策略体,其余J-1个节点分别作为
J-1个执行体,并与计算模块一起构成5G配网强化学习模型;
其中,所述计算模块由奖励模块和延时模块组成,所述奖励模块用于计算奖励R;所述延时模块用于计算延时T和网络拓扑NG
所述策略体的输入层接收所述奖励RJ-1个执行体的发射功率集合D={d 1,d 2,…,d i ,…,d J-1}并进行处理后,由所述策略体的输出层输出损失Loss,其中,d i 表示第i个执行体的发射功率,i=1,2,…,J-1;
J-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络net 1和更新网络net 2组成;
i个执行体的神经元网络中的选择网络net 1,i 接收第i个执行体的发射功率d i ,并通过SoftMax函数的处理后,得到第i个执行体选择的动作集合A i 及其概率集合π(A i ),从而根据概率集合π(A i )从动作集合A i 中随机选择一个动作a i 输出;
所述第i个执行体的神经元网络中的更新网络net 2,i 的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s i 、动作a i ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到隐藏层的参数集合θ h 2,i 及其参数梯度集合f(θ h 2,i )、输出层的参数集合θ o 2,i 及其参数梯度集合f(θ o 2,i );
步骤3、利用演员—评论家AC算法训练所述5G配网强化学习模型,并不断迭代更新所述5G配网中J-1个执行体的发射功率集合,直到迭代到最大迭代回合数m max 为止,从而得到J-1个执行体的全局最小发射功率集合D min
本发明所述的基于强化学习的5G配网节点通信优化方法的特点也在于,所述步骤3包括:
步骤3.1、定义当前回合数为m,并初始化m=1;
步骤3.2、定义当前第m回合下当前训练的次数为t,并初始化t=1;
定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D m,t ={d 1 m,t ,d 2 m,t ,…,d i m,t ,…,d J-1 m,t },其中,d i m,t 表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率,当t=1时,令d i m,t 的取值为5G配网中获取的第i个节点的发射功率;
步骤3.3、所述第i个执行体的选择网络net 1,i 接收第i个执行体的发射功率d i m,t ,通过SoftMax函数处理后,得到第i个执行体在当前第m回合下第t次训练选择的动作集合A i m,t 及其概率集合π(A i m,t ),从而根据概率集合π(A i m,t )从动作集合A i m,t 中随机选择一个动作a i m,t 输出,以改变5G配网中第i个执行体的发射功率d i m,t 并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d i m,t+1,其中,a i m,t 是当前第m回合下第t次训练第i个执行体的动作;
步骤3.4、所述延时模块根据J-1个执行体的位置集合和发射功率集合D m,t 判断5G配网的网络拓扑是否连通,若连通,则计算当前第m回合下第t次训练的延时T m,t 和奖励R m,t ,并保存当前第m回合下第t次训练的网络拓扑NG m,t ;若不连通,t+1赋值给t后,返回执行步骤3.3;
步骤3.5、所述策略体的输入层接收J-1个执行体的位置集合和奖励R m,t ,并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss m,t 后输出;
步骤3.6、所述第i个执行体的更新网络net 2,i 接收当前第m回合下第t次训练第i个执行体的发射功率d i m,t 、损失Loss m,t 、动作a i m,t 和网络拓扑NG m,t ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到当前第m回合下第t次训练隐藏层的参数集合θ m,t,h 2,i 及其参数梯度集合f(θ m,t,h 2,i )、输出层的参数集合θ m,t,o 2,i 及其参数梯度集合f(θ m,t,o 2,i ),并利用f(θ m,t,h 2,i )更新θ m,t,h 2,i ,得到当前第m回合下第t+1次训练隐藏层的参数集合θ m,t+1,h 2,i ,利用f(θ m,t,o 2,i )更新θ m,t,o 2,i ,得到当前第m回合下第t+1次训练输出层的参数集合θ m,t+1,o 2,i
步骤3.7、将t+1赋值给t后,判断t>t max 是否成立,若成立,则结束当前第m回合训练,得到当前第m回合下最小发射功率集合D m,min ,并将D m,min 存储在局部最优发射功率集合D all,min 中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,t max 是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>m max 是否成立,若成立,则结束所有训练,从局部最优发射功率集合D all,min 中选取全局最小发射功率集合D min ;否则,返回执行步骤3.2顺序执行。
所述步骤3.4中是利用式(1)和式(2)分别计算NG m,t R m,t
(1)
(2)
式(1)和式(2)中,NG m,t [i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通;当NG m,t [i,x]=0时,表示第i个执行体与第x个执行体之间不连通,且第i个执行体与第x个执行体之间不共享参数梯度集合;当NG m,t [i,x]=1时,表示第i个执行体与第x个执行体之间连通,且第i个执行体与第x个执行体之间共享参数梯度集合;s x 表示第x个执行体的位置。
所述步骤3.6中是利用式(3)和式(4)更新第i个执行体的更新网络net 2,i 的隐藏层参数集合θ m,t,h 2,i 和输出层参数集合θ m,t,o 2,i ,并相应得到当前第m回合下第t+1次训练第i个执行体的隐藏层参数集合θ m,t+1,h 2,i 和输出层参数集合θ m,t+1,o 2,i
(3)
(4)
式(3)和式(4)中,α是学习率,θ m,t,h 2,k 是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合,θ m,t,o 2,k 是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述基于强化学习的5G配网节点通信优化方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述基于强化学习的5G配网节点通信优化方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明利用强化学习与环境不断交互不断学习的优势,并且考虑到配网数量多、分布广的特点,在5G配网保护系统环境下,通过一定数量的配网节点,构成一个稳定的拓扑结构,不断改变各个节点的发射功率,从而找到最优的配网节点的发射功率,确保了信息高利用率和低延时的无线通信实时性;
2、本发明利用5G通信技术为配网保护业务提供了低延时、高可靠的信息通道,从而解决了传统配网保护选择性较弱,故障定位不够精确,切除故障用时较长,配网线路无法实现故障切除后的自愈的问题。
附图说明
图1为本发明一种基于强化学习的5G配网节点通信优化方法的流程图。
具体实施方式
本实施例中,如图1所示,一种基于强化学习的5G配网节点通信优化方法,包括以下步骤:
步骤1、从5G配网中获取J个节点的位置以及发射功率;从真实的5G配网中获取各个节点的位置以及发射功率,用这些真实的数据作为配网节点的初始化数据;
步骤2、从5G配网中J个节点中选择一个节点作为策略体,其余J-1个节点分别作为
J-1个执行体,并与计算模块一起构成5G配网强化学习模型;作为策略体的节点的发射功率得足够大,确保它能接收到其他所有节点传递过来的信息,并且在训练的过程中,策略体的发射功率不发生改变;
其中,计算模块由奖励模块和延时模块组成,奖励模块用于计算奖励R;延时模块用于计算延时T和网络拓扑NG
策略体的输入层接收奖励RJ-1个执行体的发射功率集合D={d 1,d 2,…,d i ,…,d J-1}并进行处理后,由策略体的输出层输出损失Loss,其中,d i 表示第i个执行体的发射功率,i=1,2,…,J-1;
J-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络net 1和更新网络net 2组成;选择网络结构一样的神经元网络,为了更好的观察在相同神经元网络结构下,不同位置和发射功率对配网节点通信造成的影响。
i个执行体的神经元网络中的选择网络net 1,i 接收第i个执行体的发射功率d i ,并通过SoftMax函数的处理后,得到第i个执行体选择的动作集合A i 及其概率集合π(A i ),从而根据概率集合π(A i )从动作集合A i 中随机选择一个动作a i 输出,令θ 1,i 是第i个执行体的选择网络net 1,i 的参数集合;
i个执行体的神经元网络中的更新网络net 2,i 的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s i 、动作a i ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到隐藏层的参数集合θ h 2,i 及其参数梯度集合f(θ h 2,i )、输出层的参数集合θ o 2,i 及其参数梯度集合f(θ o 2,i );在每回合第一次训练时,每个执行体根据自身的参数梯度集合,通过梯度下降法,对自身的参数集合进行更新,得到下一次训练时的参数集合。
步骤3、利用演员—评论家算法训练5G配网强化学习模型,并不断迭代更新5G配网中J-1个执行体的发射功率集合,直到迭代到最大迭代回合数m max 为止,从而得到J-1个执行体的全局最小发射功率集合D min
步骤3.1、定义当前回合数为m,并初始化m=1;
步骤3.2、定义当前第m回合下当前训练的次数为t,并初始化t=1;
定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D m,t ={d 1 m,t ,d 2 m,t ,…,d i m,t ,…,d J-1 m,t },其中,d i m,t 表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率,当t=1时,令d i m,t 的取值为5G配网中获取的第i个节点的发射功率;
步骤3.3、第i个执行体的选择网络net 1,i 接收第i个执行体的发射功率d i m,t ,通过SoftMax函数处理后,得到第i个执行体在当前第m回合下第t次训练选择的动作集合A i m,t 及其概率集合π(A i m,t ),从而根据概率集合π(A i m,t )从动作集合A i m,t 中随机选择一个动作a i m,t 输出,以改变5G配网中第i个执行体的发射功率d i m,t 并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d i m,t+1,令θ 1,i m,t 是当前第m回合下第t次训练第i个执行体的选择网络net 1,i 的参数集合,a i m,t 是当前第m回合下第t次训练第i个执行体的动作。
步骤3.4、延时模块根据J-1个执行体的位置集合和发射功率集合D m,t 判断5G配网的网络拓扑是否连通,若连通,利用式(1)和式(2)计算当前第m回合下第t次训练的延时T m,t 和奖励R m,t ,并保存当前第m回合下第t次训练的网络拓扑NG m,t ;若不连通,t+1赋值给t后,返回执行步骤3.3;
(1)
(2)
式(1)和式(2)中,NG m,t [i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通;当NG m,t [i,x]=0时,表示第i个执行体与第x个执行体之间不连通,且第i个执行体与第x个执行体之间不共享参数梯度集合;当NG m,t [i,x]=1时,表示第i个执行体与第x个执行体之间连通,且第i个执行体与第x个执行体之间共享参数梯度集合;s x 表示第x个执行体的位置;当节点失效时,网络拓扑就会产生动态变化,加大了端到端延时的不确定性,在配网节点能够形成一个网络拓扑和通信的基础上,计算此时的奖励,奖励越大,节点通信 延时越小,满足配网无线通信的实时性需求。
步骤3.5、策略体的输入层接收J-1个执行体的位置集合和奖励R m,t ,并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss m,t 后输出。
步骤3.6、第i个执行体的更新网络net 2,i 接收当前第m回合下第t次训练第i个执行体的发射功率d i m,t 、损失Loss m,t 、动作a i m,t 和网络拓扑NG m,t ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到当前第m回合下第t次训练隐藏层的参数集合θ m,t,h 2,i 及其参数梯度集合f(θ m,t,h 2,i )、输出层的参数集合θ m,t,o 2,i 及其参数梯度集合f(θ m,t,o 2,i ),并利用式(3)更新θ m,t,h 2,i ,得到当前第m回合下第t+1次训练隐藏层的参数集合θ m,t+1,h 2,i ,利用式(4)更新θ m,t,o 2,i ,得到当前第m回合下第t+1次训练输出层的参数集合θ m,t+1,o 2,i
(3)
(4)
式(3)和式(4)中,α是学习率,θ m,t,h 2,k 是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合,θ m,t,o 2,k 是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。配网节点之间有选择的共享梯度信息,不仅能确保信息的高利用率,也能满足无线通信的实时性需求,快速找到配网节点的最优的发射功率。学习率过大会造成网络不能收敛,在最优值附近徘徊,不能找到配网节点最优的发射功率;学习率过小会造成网络收敛非常缓慢,增大找到配网节点最优的发射功率的时间;因此,需要不断调整学习率,确保配网节点的发射功率时最优的。
步骤3.7、将t+1赋值给t后,判断t>t max 是否成立,若成立,则结束当前第m回合训练,得到当前第m回合下最小发射功率集合D m,min ,并将D m,min 存储在局部最优发射功率集合D all,min 中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,t max 是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>m max 是否成立,若成立,则结束所有训练,从局部最优发射功率集合D all,min 中选取全局最小发射功率集合D min ;否则,返回执行步骤3.2顺序执行。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行基于强化学习的5G配网节点通信优化方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行基于强化学习的5G配网节点通信优化方法的步骤。

Claims (6)

1.一种基于强化学习的5G配网节点通信优化方法,其特征在于,包括以下步骤:
步骤1、从5G配网中获取J个节点的位置以及发射功率;
步骤2、从5G配网中J个节点中选择一个节点作为策略体,其余J-1个节点分别作为
J-1个执行体,并与计算模块一起构成5G配网强化学习模型;
其中,所述计算模块由奖励模块和延时模块组成,所述奖励模块用于计算奖励R;所述延时模块用于计算延时T和网络拓扑NG
所述策略体的输入层接收所述奖励RJ-1个执行体的发射功率集合D={d 1, d 2 ,…,d i ,…, d J-1}并进行处理后,由所述策略体的输出层输出损失Loss,其中,d i 表示第i个执行体的发射功率,i=1,2,…,J-1;
J-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络net 1和更新网络net 2组成;
i个执行体的神经元网络中的选择网络net 1,i 接收第i个执行体的发射功率d i ,并通过SoftMax函数的处理后,得到第i个执行体选择的动作集合A i 及其概率集合π(A i ),从而根据概率集合π(A i )从动作集合A i 中随机选择一个动作a i 输出;
所述第i个执行体的神经元网络中的更新网络net 2,i 的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s i 、动作a i ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到隐藏层的参数集合θ h 2,i 及其参数梯度集合f(θ h 2,i )、输出层的参数集合θ o 2,i 及其参数梯度集合f(θ o 2,i );
步骤3、利用演员—评论家AC算法训练所述5G配网强化学习模型,并不断迭代更新所述5G配网中J-1个执行体的发射功率集合,直到迭代到最大迭代回合数m max 为止,从而得到J-1个执行体的全局最小发射功率集合D min
2.根据权利要求1所述的基于强化学习的5G配网节点通信优化方法,其特征在于,所述步骤3包括:
步骤3.1、定义当前回合数为m,并初始化m=1;
步骤3.2、定义当前第m回合下当前训练的次数为t,并初始化t=1;
定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D m,t ={d 1 m,t ,d 2 m,t ,…, d i m,t ,…, d J-1 m,t },其中,d i m,t 表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率,当t=1时,令d i m,t 的取值为5G配网中获取的第i个节点的发射功率;
步骤3.3、所述第i个执行体的选择网络net 1,i 接收第i个执行体的发射功率d i m,t ,通过SoftMax函数处理后,得到第i个执行体在当前第m回合下第t次训练选择的动作集合A i m,t 及其概率集合π(A i m,t ),从而根据概率集合π(A i m,t )从动作集合A i m,t 中随机选择一个动作a i m,t 输出,以改变5G配网中第i个执行体的发射功率d i m,t 并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d i m,t+1,其中,a i m,t 是当前第m回合下第t次训练第i个执行体的动作;
步骤3.4、所述延时模块根据J-1个执行体的位置集合和发射功率集合D m,t 判断5G配网的网络拓扑是否连通,若连通,则计算当前第m回合下第t次训练的延时T m,t 和奖励R m,t ,并保存当前第m回合下第t次训练的网络拓扑NG m,t ;若不连通,t+1赋值给t后,返回执行步骤3.3;
步骤3.5、所述策略体的输入层接收J-1个执行体的位置集合和奖励R m,t ,并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss m,t 后输出;
步骤3.6、所述第i个执行体的更新网络net 2,i 接收当前第m回合下第t次训练第i个执行体的发射功率d i m,t 、损失Loss m,t 、动作a i m,t 和网络拓扑NG m,t ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到当前第m回合下第t次训练隐藏层的参数集合θ m,t,h 2,i 及其参数梯度集合f(θ m,t,h 2,i )、输出层的参数集合θ m,t,o 2,i 及其参数梯度集合f(θ m,t,o 2,i ),并利用f(θ m,t,h 2,i )更新θ m,t,h 2,i ,得到当前第m回合下第t+1次训练隐藏层的参数集合θ m,t+1,h 2,i ,利用f(θ m,t,o 2,i )更新θ m,t,o 2,i ,得到当前第m回合下第t+1次训练输出层的参数集合θ m,t+1,o 2,i
步骤3.7、将t+1赋值给t后,判断t>t max 是否成立,若成立,则结束当前第m回合训练,得到当前第m回合下最小发射功率集合D m,min ,并将D m,min 存储在局部最优发射功率集合D all,min 中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,t max 是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>m max 是否成立,若成立,则结束所有训练,从局部最优发射功率集合D all,min 中选取全局最小发射功率集合D min ;否则,返回执行步骤3.2顺序执行。
3.根据权利要求2所述的基于强化学习的5G配网节点通信优化方法,其特征在于,所述步骤3.4中是利用式(1)和式(2)分别计算NG m,t R m,t
(1)
(2)
式(1)和式(2)中,NG m,t [i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通;当NG m,t [i,x]=0时,表示第i个执行体与第x个执行体之间不连通,且第i个执行体与第x个执行体之间不共享参数梯度集合;当NG m,t [i,x]=1时,表示第i个执行体与第x个执行体之间连通,且第i个执行体与第x个执行体之间共享参数梯度集合;s x 表示第x个执行体的位置。
4.根据权利要求2所述的基于强化学习的5G配网节点通信优化方法,其特征在于,所述步骤3.6中是利用式(3)和式(4)更新第i个执行体的更新网络net 2,i 的隐藏层参数集合θ m,t,h 2,i 和输出层参数集合θ m,t,o 2,i ,并相应得到当前第m回合下第t+1次训练第i个执行体的隐藏层参数集合θ m,t+1,h 2,i 和输出层参数集合θ m,t+1,o 2,i
(3)
(4)
式(3)和式(4)中,α是学习率,θ m,t,h 2,k 是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合,θ m,t,o 2,k 是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。
5.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-4中任一所述基于强化学习的5G配网节点通信优化方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一所述基于强化学习的5G配网节点通信优化方法的步骤。
CN202310490208.5A 2023-05-04 2023-05-04 基于强化学习的5g配网节点通信优化方法、设备及介质 Active CN116233895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310490208.5A CN116233895B (zh) 2023-05-04 2023-05-04 基于强化学习的5g配网节点通信优化方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310490208.5A CN116233895B (zh) 2023-05-04 2023-05-04 基于强化学习的5g配网节点通信优化方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116233895A CN116233895A (zh) 2023-06-06
CN116233895B true CN116233895B (zh) 2023-07-18

Family

ID=86585815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310490208.5A Active CN116233895B (zh) 2023-05-04 2023-05-04 基于强化学习的5g配网节点通信优化方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116233895B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625322A (zh) * 2012-02-27 2012-08-01 北京邮电大学 多制式智能可配的无线网络优化的实现方法
CN111277437A (zh) * 2020-01-17 2020-06-12 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113784410A (zh) * 2021-09-24 2021-12-10 吉林大学 基于强化学习td3算法的异构无线网络垂直切换方法
CN114710792A (zh) * 2022-03-30 2022-07-05 合肥工业大学 基于强化学习的5g配网分布式保护装置的优化布置方法
CN115002809A (zh) * 2022-06-30 2022-09-02 深圳蓝奥声科技有限公司 无线场景感知方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633315B2 (en) * 2012-04-27 2017-04-25 Excalibur Ip, Llc Method and system for distributed machine learning
CN111628855B (zh) * 2020-05-09 2021-06-15 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625322A (zh) * 2012-02-27 2012-08-01 北京邮电大学 多制式智能可配的无线网络优化的实现方法
CN111277437A (zh) * 2020-01-17 2020-06-12 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113784410A (zh) * 2021-09-24 2021-12-10 吉林大学 基于强化学习td3算法的异构无线网络垂直切换方法
CN114710792A (zh) * 2022-03-30 2022-07-05 合肥工业大学 基于强化学习的5g配网分布式保护装置的优化布置方法
CN115002809A (zh) * 2022-06-30 2022-09-02 深圳蓝奥声科技有限公司 无线场景感知方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于强化学习的M2M通信上行链路节能优化算法;李奇越;周娜娜;柳传嘉;王建平;孙伟;;合肥工业大学学报(自然科学版)(第07期);全文 *
基于深度强化学习的无线网络资源分配算法;李孜恒;孟超;;通信技术(第08期);全文 *

Also Published As

Publication number Publication date
CN116233895A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Chen et al. iRAF: A deep reinforcement learning approach for collaborative mobile edge computing IoT networks
Li et al. NOMA-enabled cooperative computation offloading for blockchain-empowered Internet of Things: A learning approach
CN109639760B (zh) 一种基于深度强化学习的d2d网络中的缓存策略方法
CN110113190A (zh) 一种移动边缘计算场景中卸载时延优化方法
US20220217792A1 (en) Industrial 5g dynamic multi-priority multi-access method based on deep reinforcement learning
WO2021036414A1 (zh) 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN113052334A (zh) 一种联邦学习实现方法、系统、终端设备及可读存储介质
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN113467952A (zh) 一种分布式联邦学习协同计算方法及系统
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN114650227B (zh) 一种分层联邦学习场景下的网络拓扑构建方法及系统
Xu et al. Collaborative multi-agent reinforcement learning of caching optimization in small-cell networks
Evmorfos et al. Reinforcement learning for motion policies in mobile relaying networks
CN116233895B (zh) 基于强化学习的5g配网节点通信优化方法、设备及介质
Zou et al. Multi-agent reinforcement learning enabled link scheduling for next generation internet of things
CN115442812B (zh) 一种基于深度强化学习的物联网频谱分配优化方法及系统
CN112929900A (zh) 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN115150335B (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN115361734A (zh) 基于信息时效性的功率和irs相移联合优化方法及装置
CN113472421A (zh) 低轨网联卫星星间波束指向拉格朗日插值方法
Wang et al. Deep transfer reinforcement learning for resource allocation in hybrid multiple access systems
Zhao et al. Collaborate Q-learning aided load balance in satellites communications
Chen et al. Scalable Multi-Agent Reinforcement Learning-Based Distributed Channel Access
CN116137628A (zh) 中继节点选择方法、装置、设备及计算机可读存储介质
CN117715054A (zh) 基于深度强化学习的多体协作式卫星接入与抗干扰方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant