CN116233895B - 基于强化学习的5g配网节点通信优化方法、设备及介质 - Google Patents
基于强化学习的5g配网节点通信优化方法、设备及介质 Download PDFInfo
- Publication number
- CN116233895B CN116233895B CN202310490208.5A CN202310490208A CN116233895B CN 116233895 B CN116233895 B CN 116233895B CN 202310490208 A CN202310490208 A CN 202310490208A CN 116233895 B CN116233895 B CN 116233895B
- Authority
- CN
- China
- Prior art keywords
- training
- distribution network
- individual
- current
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于强化学习的配网5G通信节点优化方法、设备及介质,该方法包括:1、从5G配网中获取节点的位置以及发射功率;2、建立5G配网强化学习模型,其中,强化学习模型由策略体和执行体组成;3、利用演员—评论家AC算法训练5G配网强化学习模型。本发明能保证信息高利用率和无线通信的实时性需求,并能找出5G配网节点最优的发射功率,从而能确保配网可以安全高效的运行。
Description
技术领域
本发明属于通信领域,具体的说是一种基于强化学习的5G配网节点通信优化方法、设备及介质。
背景技术
配网节点数据传输延是一个重要的性能指标。当配网节点数据传输延时高于配网无线通信需求时,会导致配网工作站会无法实时获取电力设备信息,最终可能导致电力系统无法稳定运行。在配网中的复杂电磁环境中,无线通信容易受到干扰。这种干扰可能会导致通信延时的随机波动。当节点发射功率较高时,节点的电磁波信号会传播得更远,减少中继节点个数,降低数据传输延时;但是会覆盖范围更多的传感器节点,影响信道的利用率。节点采用较小的发射功率时又会增加中继节点个数,极大增加自身的端到端延时,无法满足配网无线通信的实时性需求。目前大部分的配网节点通信优化的方案仍然沿用传统思路,无法保证信息高利用率和无线通信的实时性需求。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于强化学习的5G配网节点通信优化方法、设备及介质,以期在满足5G配网节点通信前提下,得到最优的5G配网节点的发射功率,以保证信息高利用率和无线通信实时性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于强化学习的5G配网节点通信优化方法的特点在于,包括以下步骤:
步骤1、从5G配网中获取J个节点的位置以及发射功率;
步骤2、从5G配网中J个节点中选择一个节点作为策略体,其余J-1个节点分别作为
J-1个执行体,并与计算模块一起构成5G配网强化学习模型;
其中,所述计算模块由奖励模块和延时模块组成,所述奖励模块用于计算奖励R;所述延时模块用于计算延时T和网络拓扑NG;
所述策略体的输入层接收所述奖励R和J-1个执行体的发射功率集合D={d 1,d 2,…,d i ,…,d J-1}并进行处理后,由所述策略体的输出层输出损失Loss,其中,d i 表示第i个执行体的发射功率,i=1,2,…,J-1;
J-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络net 1和更新网络net 2组成;
第i个执行体的神经元网络中的选择网络net 1,i 接收第i个执行体的发射功率d i ,并通过SoftMax函数的处理后,得到第i个执行体选择的动作集合A i 及其概率集合π(A i ),从而根据概率集合π(A i )从动作集合A i 中随机选择一个动作a i 输出;
所述第i个执行体的神经元网络中的更新网络net 2,i 的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s i 、动作a i ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到隐藏层的参数集合θ h 2,i 及其参数梯度集合f(θ h 2,i )、输出层的参数集合θ o 2,i 及其参数梯度集合f(θ o 2,i );
步骤3、利用演员—评论家AC算法训练所述5G配网强化学习模型,并不断迭代更新所述5G配网中J-1个执行体的发射功率集合,直到迭代到最大迭代回合数m max 为止,从而得到J-1个执行体的全局最小发射功率集合D min 。
本发明所述的基于强化学习的5G配网节点通信优化方法的特点也在于,所述步骤3包括:
步骤3.1、定义当前回合数为m,并初始化m=1;
步骤3.2、定义当前第m回合下当前训练的次数为t,并初始化t=1;
定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D m,t ={d 1 m,t ,d 2 m,t ,…,d i m,t ,…,d J-1 m,t },其中,d i m,t 表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率,当t=1时,令d i m,t 的取值为5G配网中获取的第i个节点的发射功率;
步骤3.3、所述第i个执行体的选择网络net 1,i 接收第i个执行体的发射功率d i m,t ,通过SoftMax函数处理后,得到第i个执行体在当前第m回合下第t次训练选择的动作集合A i m,t 及其概率集合π(A i m,t ),从而根据概率集合π(A i m,t )从动作集合A i m,t 中随机选择一个动作a i m,t 输出,以改变5G配网中第i个执行体的发射功率d i m,t 并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d i m,t+1,其中,a i m,t 是当前第m回合下第t次训练第i个执行体的动作;
步骤3.4、所述延时模块根据J-1个执行体的位置集合和发射功率集合D m,t 判断5G配网的网络拓扑是否连通,若连通,则计算当前第m回合下第t次训练的延时T m,t 和奖励R m,t ,并保存当前第m回合下第t次训练的网络拓扑NG m,t ;若不连通,t+1赋值给t后,返回执行步骤3.3;
步骤3.5、所述策略体的输入层接收J-1个执行体的位置集合和奖励R m,t ,并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss m,t 后输出;
步骤3.6、所述第i个执行体的更新网络net 2,i 接收当前第m回合下第t次训练第i个执行体的发射功率d i m,t 、损失Loss m,t 、动作a i m,t 和网络拓扑NG m,t ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到当前第m回合下第t次训练隐藏层的参数集合θ m,t,h 2,i 及其参数梯度集合f(θ m,t,h 2,i )、输出层的参数集合θ m,t,o 2,i 及其参数梯度集合f(θ m,t,o 2,i ),并利用f(θ m,t,h 2,i )更新θ m,t,h 2,i ,得到当前第m回合下第t+1次训练隐藏层的参数集合θ m,t+1,h 2,i ,利用f(θ m,t,o 2,i )更新θ m,t,o 2,i ,得到当前第m回合下第t+1次训练输出层的参数集合θ m,t+1,o 2,i ;
步骤3.7、将t+1赋值给t后,判断t>t max 是否成立,若成立,则结束当前第m回合训练,得到当前第m回合下最小发射功率集合D m,min ,并将D m,min 存储在局部最优发射功率集合D all,min 中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,t max 是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>m max 是否成立,若成立,则结束所有训练,从局部最优发射功率集合D all,min 中选取全局最小发射功率集合D min ;否则,返回执行步骤3.2顺序执行。
所述步骤3.4中是利用式(1)和式(2)分别计算NG m,t 和R m,t :
(1)
(2)
式(1)和式(2)中,NG m,t [i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通;当NG m,t [i,x]=0时,表示第i个执行体与第x个执行体之间不连通,且第i个执行体与第x个执行体之间不共享参数梯度集合;当NG m,t [i,x]=1时,表示第i个执行体与第x个执行体之间连通,且第i个执行体与第x个执行体之间共享参数梯度集合;s x 表示第x个执行体的位置。
所述步骤3.6中是利用式(3)和式(4)更新第i个执行体的更新网络net 2,i 的隐藏层参数集合θ m,t,h 2,i 和输出层参数集合θ m,t,o 2,i ,并相应得到当前第m回合下第t+1次训练第i个执行体的隐藏层参数集合θ m,t+1,h 2,i 和输出层参数集合θ m,t+1,o 2,i ;
(3)
(4)
式(3)和式(4)中,α是学习率,θ m,t,h 2,k 是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合,θ m,t,o 2,k 是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述基于强化学习的5G配网节点通信优化方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述基于强化学习的5G配网节点通信优化方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明利用强化学习与环境不断交互不断学习的优势,并且考虑到配网数量多、分布广的特点,在5G配网保护系统环境下,通过一定数量的配网节点,构成一个稳定的拓扑结构,不断改变各个节点的发射功率,从而找到最优的配网节点的发射功率,确保了信息高利用率和低延时的无线通信实时性;
2、本发明利用5G通信技术为配网保护业务提供了低延时、高可靠的信息通道,从而解决了传统配网保护选择性较弱,故障定位不够精确,切除故障用时较长,配网线路无法实现故障切除后的自愈的问题。
附图说明
图1为本发明一种基于强化学习的5G配网节点通信优化方法的流程图。
具体实施方式
本实施例中,如图1所示,一种基于强化学习的5G配网节点通信优化方法,包括以下步骤:
步骤1、从5G配网中获取J个节点的位置以及发射功率;从真实的5G配网中获取各个节点的位置以及发射功率,用这些真实的数据作为配网节点的初始化数据;
步骤2、从5G配网中J个节点中选择一个节点作为策略体,其余J-1个节点分别作为
J-1个执行体,并与计算模块一起构成5G配网强化学习模型;作为策略体的节点的发射功率得足够大,确保它能接收到其他所有节点传递过来的信息,并且在训练的过程中,策略体的发射功率不发生改变;
其中,计算模块由奖励模块和延时模块组成,奖励模块用于计算奖励R;延时模块用于计算延时T和网络拓扑NG;
策略体的输入层接收奖励R和J-1个执行体的发射功率集合D={d 1,d 2,…,d i ,…,d J-1}并进行处理后,由策略体的输出层输出损失Loss,其中,d i 表示第i个执行体的发射功率,i=1,2,…,J-1;
J-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络net 1和更新网络net 2组成;选择网络结构一样的神经元网络,为了更好的观察在相同神经元网络结构下,不同位置和发射功率对配网节点通信造成的影响。
第i个执行体的神经元网络中的选择网络net 1,i 接收第i个执行体的发射功率d i ,并通过SoftMax函数的处理后,得到第i个执行体选择的动作集合A i 及其概率集合π(A i ),从而根据概率集合π(A i )从动作集合A i 中随机选择一个动作a i 输出,令θ 1,i 是第i个执行体的选择网络net 1,i 的参数集合;
第i个执行体的神经元网络中的更新网络net 2,i 的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s i 、动作a i ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到隐藏层的参数集合θ h 2,i 及其参数梯度集合f(θ h 2,i )、输出层的参数集合θ o 2,i 及其参数梯度集合f(θ o 2,i );在每回合第一次训练时,每个执行体根据自身的参数梯度集合,通过梯度下降法,对自身的参数集合进行更新,得到下一次训练时的参数集合。
步骤3、利用演员—评论家算法训练5G配网强化学习模型,并不断迭代更新5G配网中J-1个执行体的发射功率集合,直到迭代到最大迭代回合数m max 为止,从而得到J-1个执行体的全局最小发射功率集合D min 。
步骤3.1、定义当前回合数为m,并初始化m=1;
步骤3.2、定义当前第m回合下当前训练的次数为t,并初始化t=1;
定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D m,t ={d 1 m,t ,d 2 m,t ,…,d i m,t ,…,d J-1 m,t },其中,d i m,t 表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率,当t=1时,令d i m,t 的取值为5G配网中获取的第i个节点的发射功率;
步骤3.3、第i个执行体的选择网络net 1,i 接收第i个执行体的发射功率d i m,t ,通过SoftMax函数处理后,得到第i个执行体在当前第m回合下第t次训练选择的动作集合A i m,t 及其概率集合π(A i m,t ),从而根据概率集合π(A i m,t )从动作集合A i m,t 中随机选择一个动作a i m,t 输出,以改变5G配网中第i个执行体的发射功率d i m,t 并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d i m,t+1,令θ 1,i m,t 是当前第m回合下第t次训练第i个执行体的选择网络net 1,i 的参数集合,a i m,t 是当前第m回合下第t次训练第i个执行体的动作。
步骤3.4、延时模块根据J-1个执行体的位置集合和发射功率集合D m,t 判断5G配网的网络拓扑是否连通,若连通,利用式(1)和式(2)计算当前第m回合下第t次训练的延时T m,t 和奖励R m,t ,并保存当前第m回合下第t次训练的网络拓扑NG m,t ;若不连通,t+1赋值给t后,返回执行步骤3.3;
(1)
(2)
式(1)和式(2)中,NG m,t [i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通;当NG m,t [i,x]=0时,表示第i个执行体与第x个执行体之间不连通,且第i个执行体与第x个执行体之间不共享参数梯度集合;当NG m,t [i,x]=1时,表示第i个执行体与第x个执行体之间连通,且第i个执行体与第x个执行体之间共享参数梯度集合;s x 表示第x个执行体的位置;当节点失效时,网络拓扑就会产生动态变化,加大了端到端延时的不确定性,在配网节点能够形成一个网络拓扑和通信的基础上,计算此时的奖励,奖励越大,节点通信 延时越小,满足配网无线通信的实时性需求。
步骤3.5、策略体的输入层接收J-1个执行体的位置集合和奖励R m,t ,并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss m,t 后输出。
步骤3.6、第i个执行体的更新网络net 2,i 接收当前第m回合下第t次训练第i个执行体的发射功率d i m,t 、损失Loss m,t 、动作a i m,t 和网络拓扑NG m,t ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到当前第m回合下第t次训练隐藏层的参数集合θ m,t,h 2,i 及其参数梯度集合f(θ m,t,h 2,i )、输出层的参数集合θ m,t,o 2,i 及其参数梯度集合f(θ m,t,o 2,i ),并利用式(3)更新θ m,t,h 2,i ,得到当前第m回合下第t+1次训练隐藏层的参数集合θ m,t+1,h 2,i ,利用式(4)更新θ m,t,o 2,i ,得到当前第m回合下第t+1次训练输出层的参数集合θ m,t+1,o 2,i ;
(3)
(4)
式(3)和式(4)中,α是学习率,θ m,t,h 2,k 是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合,θ m,t,o 2,k 是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。配网节点之间有选择的共享梯度信息,不仅能确保信息的高利用率,也能满足无线通信的实时性需求,快速找到配网节点的最优的发射功率。学习率过大会造成网络不能收敛,在最优值附近徘徊,不能找到配网节点最优的发射功率;学习率过小会造成网络收敛非常缓慢,增大找到配网节点最优的发射功率的时间;因此,需要不断调整学习率,确保配网节点的发射功率时最优的。
步骤3.7、将t+1赋值给t后,判断t>t max 是否成立,若成立,则结束当前第m回合训练,得到当前第m回合下最小发射功率集合D m,min ,并将D m,min 存储在局部最优发射功率集合D all,min 中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,t max 是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>m max 是否成立,若成立,则结束所有训练,从局部最优发射功率集合D all,min 中选取全局最小发射功率集合D min ;否则,返回执行步骤3.2顺序执行。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行基于强化学习的5G配网节点通信优化方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行基于强化学习的5G配网节点通信优化方法的步骤。
Claims (6)
1.一种基于强化学习的5G配网节点通信优化方法,其特征在于,包括以下步骤:
步骤1、从5G配网中获取J个节点的位置以及发射功率;
步骤2、从5G配网中J个节点中选择一个节点作为策略体,其余J-1个节点分别作为
J-1个执行体,并与计算模块一起构成5G配网强化学习模型;
其中,所述计算模块由奖励模块和延时模块组成,所述奖励模块用于计算奖励R;所述延时模块用于计算延时T和网络拓扑NG;
所述策略体的输入层接收所述奖励R和J-1个执行体的发射功率集合D={d 1, d 2 ,…,d i ,…, d J-1}并进行处理后,由所述策略体的输出层输出损失Loss,其中,d i 表示第i个执行体的发射功率,i=1,2,…,J-1;
J-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络net 1和更新网络net 2组成;
第i个执行体的神经元网络中的选择网络net 1,i 接收第i个执行体的发射功率d i ,并通过SoftMax函数的处理后,得到第i个执行体选择的动作集合A i 及其概率集合π(A i ),从而根据概率集合π(A i )从动作集合A i 中随机选择一个动作a i 输出;
所述第i个执行体的神经元网络中的更新网络net 2,i 的输入层接收损失Loss、网络拓扑NG和第i个执行体的位置s i 、动作a i ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到隐藏层的参数集合θ h 2,i 及其参数梯度集合f(θ h 2,i )、输出层的参数集合θ o 2,i 及其参数梯度集合f(θ o 2,i );
步骤3、利用演员—评论家AC算法训练所述5G配网强化学习模型,并不断迭代更新所述5G配网中J-1个执行体的发射功率集合,直到迭代到最大迭代回合数m max 为止,从而得到J-1个执行体的全局最小发射功率集合D min 。
2.根据权利要求1所述的基于强化学习的5G配网节点通信优化方法,其特征在于,所述步骤3包括:
步骤3.1、定义当前回合数为m,并初始化m=1;
步骤3.2、定义当前第m回合下当前训练的次数为t,并初始化t=1;
定义当前第m回合下第t次训练的5G配网中J-1个执行体的发射功率集合为D m,t ={d 1 m,t ,d 2 m,t ,…, d i m,t ,…, d J-1 m,t },其中,d i m,t 表示当前第m回合下第t次训练的5G配网中第i个执行体的发射功率,当t=1时,令d i m,t 的取值为5G配网中获取的第i个节点的发射功率;
步骤3.3、所述第i个执行体的选择网络net 1,i 接收第i个执行体的发射功率d i m,t ,通过SoftMax函数处理后,得到第i个执行体在当前第m回合下第t次训练选择的动作集合A i m,t 及其概率集合π(A i m,t ),从而根据概率集合π(A i m,t )从动作集合A i m,t 中随机选择一个动作a i m,t 输出,以改变5G配网中第i个执行体的发射功率d i m,t 并得到当前第m回合下第t+1次训练的第i个执行体的发射功率d i m,t+1,其中,a i m,t 是当前第m回合下第t次训练第i个执行体的动作;
步骤3.4、所述延时模块根据J-1个执行体的位置集合和发射功率集合D m,t 判断5G配网的网络拓扑是否连通,若连通,则计算当前第m回合下第t次训练的延时T m,t 和奖励R m,t ,并保存当前第m回合下第t次训练的网络拓扑NG m,t ;若不连通,t+1赋值给t后,返回执行步骤3.3;
步骤3.5、所述策略体的输入层接收J-1个执行体的位置集合和奖励R m,t ,并在输出层中通过Adam优化器计算当前第m回合下第t次训练的损失Loss m,t 后输出;
步骤3.6、所述第i个执行体的更新网络net 2,i 接收当前第m回合下第t次训练第i个执行体的发射功率d i m,t 、损失Loss m,t 、动作a i m,t 和网络拓扑NG m,t ,并依次通过更新网络net 2,i 的隐藏层和输出层的处理后,得到当前第m回合下第t次训练隐藏层的参数集合θ m,t,h 2,i 及其参数梯度集合f(θ m,t,h 2,i )、输出层的参数集合θ m,t,o 2,i 及其参数梯度集合f(θ m,t,o 2,i ),并利用f(θ m,t,h 2,i )更新θ m,t,h 2,i ,得到当前第m回合下第t+1次训练隐藏层的参数集合θ m,t+1,h 2,i ,利用f(θ m,t,o 2,i )更新θ m,t,o 2,i ,得到当前第m回合下第t+1次训练输出层的参数集合θ m,t+1,o 2,i ;
步骤3.7、将t+1赋值给t后,判断t>t max 是否成立,若成立,则结束当前第m回合训练,得到当前第m回合下最小发射功率集合D m,min ,并将D m,min 存储在局部最优发射功率集合D all,min 中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,t max 是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>m max 是否成立,若成立,则结束所有训练,从局部最优发射功率集合D all,min 中选取全局最小发射功率集合D min ;否则,返回执行步骤3.2顺序执行。
3.根据权利要求2所述的基于强化学习的5G配网节点通信优化方法,其特征在于,所述步骤3.4中是利用式(1)和式(2)分别计算NG m,t 和R m,t :
(1)
(2)
式(1)和式(2)中,NG m,t [i,x]表示当前第m回合下第t次训练第i个执行体与第x个执行体之间是否连通;当NG m,t [i,x]=0时,表示第i个执行体与第x个执行体之间不连通,且第i个执行体与第x个执行体之间不共享参数梯度集合;当NG m,t [i,x]=1时,表示第i个执行体与第x个执行体之间连通,且第i个执行体与第x个执行体之间共享参数梯度集合;s x 表示第x个执行体的位置。
4.根据权利要求2所述的基于强化学习的5G配网节点通信优化方法,其特征在于,所述步骤3.6中是利用式(3)和式(4)更新第i个执行体的更新网络net 2,i 的隐藏层参数集合θ m,t,h 2,i 和输出层参数集合θ m,t,o 2,i ,并相应得到当前第m回合下第t+1次训练第i个执行体的隐藏层参数集合θ m,t+1,h 2,i 和输出层参数集合θ m,t+1,o 2,i ;
(3)
(4)
式(3)和式(4)中,α是学习率,θ m,t,h 2,k 是当前第m回合下第t次训练第k个执行体的隐藏层参数梯度集合,θ m,t,o 2,k 是当前第m回合下第t次训练第k个执行体的输出层参数梯度集合。
5.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-4中任一所述基于强化学习的5G配网节点通信优化方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一所述基于强化学习的5G配网节点通信优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310490208.5A CN116233895B (zh) | 2023-05-04 | 2023-05-04 | 基于强化学习的5g配网节点通信优化方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310490208.5A CN116233895B (zh) | 2023-05-04 | 2023-05-04 | 基于强化学习的5g配网节点通信优化方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116233895A CN116233895A (zh) | 2023-06-06 |
CN116233895B true CN116233895B (zh) | 2023-07-18 |
Family
ID=86585815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310490208.5A Active CN116233895B (zh) | 2023-05-04 | 2023-05-04 | 基于强化学习的5g配网节点通信优化方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116233895B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625322A (zh) * | 2012-02-27 | 2012-08-01 | 北京邮电大学 | 多制式智能可配的无线网络优化的实现方法 |
CN111277437A (zh) * | 2020-01-17 | 2020-06-12 | 全球能源互联网研究院有限公司 | 一种智能电网的网络切片资源分配方法 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN113784410A (zh) * | 2021-09-24 | 2021-12-10 | 吉林大学 | 基于强化学习td3算法的异构无线网络垂直切换方法 |
CN114710792A (zh) * | 2022-03-30 | 2022-07-05 | 合肥工业大学 | 基于强化学习的5g配网分布式保护装置的优化布置方法 |
CN115002809A (zh) * | 2022-06-30 | 2022-09-02 | 深圳蓝奥声科技有限公司 | 无线场景感知方法、装置及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633315B2 (en) * | 2012-04-27 | 2017-04-25 | Excalibur Ip, Llc | Method and system for distributed machine learning |
CN111628855B (zh) * | 2020-05-09 | 2021-06-15 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
-
2023
- 2023-05-04 CN CN202310490208.5A patent/CN116233895B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625322A (zh) * | 2012-02-27 | 2012-08-01 | 北京邮电大学 | 多制式智能可配的无线网络优化的实现方法 |
CN111277437A (zh) * | 2020-01-17 | 2020-06-12 | 全球能源互联网研究院有限公司 | 一种智能电网的网络切片资源分配方法 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN113784410A (zh) * | 2021-09-24 | 2021-12-10 | 吉林大学 | 基于强化学习td3算法的异构无线网络垂直切换方法 |
CN114710792A (zh) * | 2022-03-30 | 2022-07-05 | 合肥工业大学 | 基于强化学习的5g配网分布式保护装置的优化布置方法 |
CN115002809A (zh) * | 2022-06-30 | 2022-09-02 | 深圳蓝奥声科技有限公司 | 无线场景感知方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
基于强化学习的M2M通信上行链路节能优化算法;李奇越;周娜娜;柳传嘉;王建平;孙伟;;合肥工业大学学报(自然科学版)(第07期);全文 * |
基于深度强化学习的无线网络资源分配算法;李孜恒;孟超;;通信技术(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116233895A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | iRAF: A deep reinforcement learning approach for collaborative mobile edge computing IoT networks | |
Li et al. | NOMA-enabled cooperative computation offloading for blockchain-empowered Internet of Things: A learning approach | |
CN113467952B (zh) | 一种分布式联邦学习协同计算方法及系统 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN111858009A (zh) | 基于迁移和强化学习的移动边缘计算系统任务调度方法 | |
WO2021036414A1 (zh) | 一种低轨移动卫星星座下星地下行链路同频干扰预测方法 | |
US12035380B2 (en) | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning | |
CN110336620A (zh) | 一种基于mac层公平接入的ql-uacw退避方法 | |
CN114650227A (zh) | 一种分层联邦学习场景下的网络拓扑构建方法及系统 | |
Xu et al. | Collaborative multi-agent reinforcement learning of caching optimization in small-cell networks | |
CN114090108B (zh) | 算力任务执行方法、装置、电子设备及存储介质 | |
Nguyen et al. | Short-packet communications in multi-hop WPINs: Performance analysis and deep learning design | |
CN116233895B (zh) | 基于强化学习的5g配网节点通信优化方法、设备及介质 | |
CN115442812B (zh) | 一种基于深度强化学习的物联网频谱分配优化方法及系统 | |
CN114828049B (zh) | 一种基于多智能体强化学习的无线网络拓扑优化控制方法 | |
CN116981090A (zh) | 多基站下基于改进d3qn的d2d通信资源分配方法 | |
CN115150335B (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN116887205A (zh) | 一种面向物联网协同智能的无线联邦分割学习算法 | |
Wang et al. | Deep transfer reinforcement learning for resource allocation in hybrid multiple access systems | |
CN116506918A (zh) | 一种基于缓存区预测的中继选择方法 | |
CN115499440A (zh) | 基于经验共享深度强化学习的无服务器边缘任务卸载方法 | |
Gong et al. | Task Offloading Strategy Based on TD3 Algorithm in Cloud-Edge Collaborative MEC | |
CN114786201B (zh) | 一种无线网络通信延迟和信道效率动态协同优化方法 | |
CN117640417B (zh) | 基于gcn-ddpg的超密集物联网资源分配方法及系统 | |
Jiang et al. | Distance-aware Multi-Agent Reinforcement Learning for Task Offloading in MEC Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |