CN114598655A - 基于强化学习的移动性负载均衡方法 - Google Patents
基于强化学习的移动性负载均衡方法 Download PDFInfo
- Publication number
- CN114598655A CN114598655A CN202210235344.5A CN202210235344A CN114598655A CN 114598655 A CN114598655 A CN 114598655A CN 202210235344 A CN202210235344 A CN 202210235344A CN 114598655 A CN114598655 A CN 114598655A
- Authority
- CN
- China
- Prior art keywords
- network
- base station
- value
- size
- cio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002787 reinforcement Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000012423 maintenance Methods 0.000 claims abstract description 3
- 230000009471 action Effects 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 57
- 238000009826 distribution Methods 0.000 claims description 23
- 210000004027 cell Anatomy 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明是一种基于强化学习的移动性负载均衡方法,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题建模成马尔科夫决策过程,然后使用无模型的深度强化学习方法即柔性动作‑评价方法对最佳移动性参数调整进行求解,通过操作维护管理系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数,改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。
Description
技术领域
本发明属于无线通信中的负载均衡领域,具体涉及基于强化学习的移动性负载均衡方法。
背景技术
移动性负载均衡(Mobility Load Balance,MLB)根据网络中各基站负载状态实时调整移动性参数—个体小区偏移(Cell Individual Offset,CIO),从而将重载基站中部分用户切换到轻载基站,实现各基站之间负载均衡。强化学习可以通过智能体和环境进行互动来学习最优策略,因此可用于解决移动性参数的调整问题。现有的基于强化学习的移动性负载均衡方法对状态空间定义不全面,优化目标的设计只侧重负载均衡性,且采用的强化学习方法不适合在高维度动作空间使用。本发明基于强化学习的移动性负载均衡方法在状态空间中增加基站的边缘用户信息,采用适合高维度动作空间的强化学习进行训练,优化目标是改善网络负载不均衡性,降低网络负载,提高网络接入新用户能力。
发明内容
技术问题:本发明的目的是提供一种基于强化学习的移动性负载均衡方法,能够在改善网络负载均衡性的同时降低网络负载,从而提高网络接入新用户能力。
技术方案:本发明基于强化学习的移动性负载均衡方法,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题抽象为马尔科夫决策过程(Markov DecisionProcess,MDP),然后使用无模型的深度强化学习方法—柔性动作-评价(Soft Actor-Critic,SAC)方法对最佳移动性参数调整进行求解。通过操作维护管理(OperationAdministration and Maintenance,OAM)系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数。本发明能够改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。
移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,可以表示为<S,A,P,R>。其中S是状态空间(State Space),用于描述网络环境的状态集合,A是动作空间(Action Space),表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数(RewardFunction),用来表示环境对所选移动性参数的反馈。其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:
1.状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质。本发明中选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率(Reference Signal Receiving Power,RSRP)最小差值的统计度量(具体使用何种统计度量值可由运营商根据实际情况自行确定)。记t时刻M个基站负载分别为ρ1(t),ρ2(t),…,ρM(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为DisRSRP,1(t),DisRSRP,2(t),…,DisRSRP,M(t)。t时刻网络状态为:
s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T.(1)
2.动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡。该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIOi,j。t时刻动作为:
其中为了满足任意精度的控制需求,CIOi,j定义为[CIOmin,CIOmax]范围内的连续变量,这种动作空间称为连续空间,CIOmin是CIOi,j可以取的最小值,CIOmax是CIOi,j可以取的最大值,这些值由运营商根据实际情况自行确定。并且为了防止乒乓切换,需要满足CIOi,j=-CIOj,i。
3.奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略。本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项-1。记t+1时刻,M个基站剩余容量分别为1-ρ1(t+1),1-ρ2(t+1),…,1-ρM(t+1),则奖励函数表示为:
当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k→0时,奖励函数为各个基站剩余容量的几何平均合成,当k=-1时,奖励函数为各个基站剩余容量的调和平均合成。不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,具体k值可由运营商根据实际情况自行确定。
本发明的技术方案包括如下步骤:
第一步:收集网络信息,初始化参数。本步骤包括如下流程:
(1.1)收集网络信息。网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIOmin、移动性参数CIO最大值CIOmax,以及奖励函数的k值,这些值可由运营商根据实际情况自行确定;
(1.2)初始化强化学习参数。初始化强化学习参数包括学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数n、熵正则化系数α、多元平均插值因子λ、每轮互动次数steps_per_episode、开始使用策略网络输出动作的步长start_steps、开始更新网络权值系数的步长update_after、更新频数update_every、批量大小batch_size、经验回放池大小replay_size、两个Q函数(Q Function)权值系数θ1、θ2和梯度下降更新步长τQ,1、τQ,2、策略网络πφ(a|s)(PolicyNetwork)的权值系数φ和梯度下降更新步长τπ,这些值可由运营商根据实际情况自行确定;
第二步:进行SAC训练学习最优移动性参数的选取策略。本步骤包括如下流程:
(2.1)用t表示当前训练步数,令目标网络权值系数为θtarg,1(t)=θ1(t),θtarg,2(t)=θ2(t),θtarg,1(t)、θtarg,2(t)分别表示2个目标Q网络的权值系数。初始化t=1;
(2.2)收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量,获得状态s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T;
(2.3)如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络πφ(a|s)选择当前动作a(t),由于动作空间设定为连续空间,则本发明中策略网络采用随机性策略网络,即此策略网络πφ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络,∑πφ(·|s)=1,其中·表示动作空间所有元素,通常采用高斯分布来描述,故设置策略网络输出层输出高斯分布的均值和标准差,t时刻策略网络πφ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布,即a(t)~πφ(t)(·|s(t)),依据概率分布πφ(t)(·|s(t))随机采样生成当前动作a(t),概率大的动作被选取的可能性更大;
(2.4)将网络中各基站的移动性参数CIO依据进行修改,如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIOi,j,以此类比修改所有基站对应的个体小区偏移,使得满足切换条件的用户发生切换,进行负载均衡;
(2.5)收集网络中切换后M个基站负载状态ρ1(t+1),ρ2(t+1),…,ρM(t+1),计算奖励
收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为DisRSRP,1(t+1),DisRSRP,2(t+1),…,DisRSRP,M(t+1),更新下一时刻状态为:s(t+1)=[ρ1(t+1),ρ2(t+1),...,ρM(t+1),DisRSRP,1(t+1),DisRSRP,2(t+1),...,DisRSRP,M(t+1)]T;
(2.6)将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中;
(2.7)如果t≥update_after且t%update_every=0,其中%表示取模值,在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样,得到批量大小为batch_size个的样本,样本集合记为B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)},针对样本集合B中每一个样本计算Q函数的目标值,Q函数是输入为状态s和动作a、输出为一个单值的神经网络,该单值用于评价状态为s时动作为a的性能好坏,评价是否准确会影响智能体学习,因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数,目标值公式为:
其中rj和s'j为样本集合B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)}中对应第j个样本取值,即(sj,aj,rj,s'j)∈B,j∈{1,...,batch_size},是一个服从策略网络输出的动作概率分布πφ(t)(·|s'j)的动作采样值,γ是折扣因子,一般取值在[0,1),α为熵正则化系数,具体取值由运营商根据实际情况自行确定。接着利用计算的目标值分别对两个Q函数权值系数θ1(t),θ2(t)使用梯度下降法进行更新,更新如下:
其中|B|表示求样本集合B的大小,此处|B|=batch_size,τQ,1、τQ,2分别为两个Q函数的梯度下降更新步长。SAC方法在策略网络更新步骤中,将策略网络πφ(a|s)朝着与更新后Q函数的指数分布的期望KL散度(Kullback-LeiblerDivergence)最小的方向更新,KL散度越小意味着两者差异越小,以保证新策略优于旧策略,通过不断迭代找到最优策略。期望KL散度公式如下所示:
其中α是熵正则化系数,是重参数化策略后的采样值,即其中tanh()是双曲正切函数,μφ(sj)是均值,σφ(sj)是标准差,ε是噪声,从标准正态分布中随机采样得到,⊙表示哈达玛积(Hadamard积),即对应位置相乘,由于动作空间是多维因此采用哈达玛积表示,接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t),更新如下:
其中τπ是策略网络πφ(a|s)的梯度下降更新步长。接着更新目标网络权值系数θtarg,1(t)、θtarg,2(t)如下:
θtarg,1(t+1)=λθtarg,1(t)+(1-λ)θ1(t+1),
θtarg,2(t+1)=λθtarg,2(t)+(1-λ)θ2(t+1). (9)
其中λ是多元平均插值因子,一般取值在[0,1),并且接近于1,具体取值由运营商根据实际情况自行确定。
(2.8)如果t%steps_per_episode=0,计算此轮训练的累计奖励为
(2.9)令t=t+1;
(2.10)重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值;
(2.11)退出迭代,获得最优策略网络πφ(a|s);
(2.12)根据最优策略网络πφ(a|s)能够在任意负载状态下给出最佳移动性参数修改值,使得网络中负载均衡性得到改善,降低网络负载,提高网络接入新用户能力。
有益效果:本发明基于强化学习的移动性负载均衡方法,能够在无先验知识的情况下,通过OAM系统与网络环境的互动,不断学习最佳移动性参数的调整,提高网络自优化能力。相比于现有的移动性负载均衡方法,本发明中的方法将基站边缘用户服务基站和邻基站RSRP最小差值的统计度量作为网络环境的描述组成之一,使用适合解决高纬度动作空间的强化学习算法进行求解,并且同时考虑网络负载均衡和网络空闲资源,能够在改善网络负载均衡性的同时降低网络负载,从而提高网络接入新用户能力。
附图说明
图1是基于强化学习的移动性负载均衡方法流程图。
具体实施方式
为了详细的说明本发明所述的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。
移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,可以表示为<S,A,P,R>。其中S是状态空间(State Space),用于描述网络环境的状态集合,A是动作空间(Action Space),表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数(Reward Function),用来表示环境对所选移动性参数的反馈。其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:
1.状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质。本发明中选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率(Reference Signal Receiving Power,RSRP)最小差值的统计度量(本例中选择算术平均值)。记t时刻M个基站负载分别为ρ1(t),ρ2(t),…,ρM(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为t时刻网络状态为:
2.动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡。该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIOi,j。t时刻动作为:
其中为了满足任意精度的控制需求,CIOi,j定义为[CIOmin,CIOmax]范围内的连续变量,这种动作空间称为连续空间,CIOmin是CIOi,j可以取的最小值,CIOmax是CIOi,j可以取的最大值,本例中选择CIOmin=-3,CIOmax=3,这些值由运营商根据实际情况自行确定。并且为了防止乒乓切换,需要满足CIOi,j=-CIOj,i。
3.奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略。本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项-1。记t+1时刻,M个基站剩余容量分别为1-ρ1(t+1),1-ρ2(t+1),…,1-ρM(t+1),则奖励函数表示为:
当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k→0时,奖励函数为各个基站剩余容量的几何平均合成,当k=-1时,奖励函数为各个基站剩余容量的调和平均合成。不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,本例中选择k=0.5,具体k值可由运营商根据实际情况自行确定。
如图1所示,包括如下步骤:
第一步:收集网络信息,初始化参数。本步骤包括如下流程:
(1.1)收集网络信息。网络信息包括参与负载均衡基站集合(本例中为7个基站)、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式(本例中为算术平均值)、移动性参数CIO最小值CIOmin=-3、移动性参数CIO最大值CIOmax=3,以及奖励函数的k=0.5,这些值可由运营商根据实际情况自行确定;
(1.2)初始化强化学习参数。初始化强化学习参数包括学习速率lr=0.001、折扣因子γ=0.99、神经网络层数h=2、每层神经元个数n=256、熵正则化系数α=0.002、多元平均插值因子λ=0.995、每轮互动次数steps_per_episode=100、开始使用策略网络输出动作的步长start_steps=400、开始更新网络权值系数的步长update_after=200、更新频数update_every=10、批量大小batch_size=64、经验回放池大小replay_size=1000000、两个Q函数(Q Function)权值系数θ1、θ2(本例使用kaiming均匀分布初始化)和梯度下降更新步长τQ,1=1、τQ,2=1、策略网络πφ(a|s)(PolicyNetwork)的权值系数φ(本例使用kaiming均匀分布初始化)和梯度下降更新步长τπ=1,这些值可由运营商根据实际情况自行确定;
第二步:进行SAC训练学习最优移动性参数的选取策略。本步骤包括如下流程:
(2.1)用t表示当前训练步数,令目标网络权值系数为θtarg,1(t)=θ1(t),θtarg,2(t)=θ2(t),θtarg,1(t)、θtarg,2(t)分别表示2个目标Q网络的权值系数。初始化t=1;
(2.3)如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络πφ(a|s)选择当前动作a(t),由于动作空间设定为连续空间,则本发明中策略网络采用随机性策略网络,即此策略网络πφ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络,∑πφ(·|s)=1,其中·表示动作空间所有元素,通常采用高斯分布来描述,故设置策略网络输出层输出高斯分布的均值和标准差,t时刻策略网络πφ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布,即a(t)~πφ(t)(·|s(t)),依据概率分布πφ(t)(·|s(t))随机采样生成当前动作a(t),概率大的动作被选取的可能性更大;
(2.4)将网络中各基站的移动性参数CIO依据进行修改,如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIOi,j,以此类比修改所有基站对应的个体小区偏移,使得满足切换条件的用户发生切换,进行负载均衡;
(2.5)收集网络中切换后M个基站负载状态ρ1(t+1),ρ2(t+1),…,ρM(t+1),计算奖励
(2.6)将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中;
(2.7)如果t≥update_after且t%update_every=0,其中%表示取模值,在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样,得到批量大小为batch_size个的样本,样本集合记为B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)},针对样本集合B中每一个样本计算Q函数的目标值,Q函数Qθi(s,a)是输入为状态s和动作a、输出为一个单值的神经网络,该单值用于评价状态为s时动作为a的性能好坏,评价是否准确会影响智能体学习,因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数,目标值公式为:
其中rj和s'j为样本集合B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)}中对应第j个样本取值,即(sj,aj,rj,s'j)∈B,j∈{1,...,batch_size},是一个服从策略网络输出的动作概率分布πφ(t)(·|s'j)的动作采样值,γ是折扣因子,一般取值在[0,1),本例中γ=0.99,α为熵正则化系数,本例中α=0.002(具体取值由运营商根据实际情况自行确定)。接着利用计算的目标值分别对两个Q函数权值系数θ1(t),θ2(t)使用梯度下降法进行更新,更新如下:
其中|B|表示求样本集合B的大小,此处|B|=batch_size=64,τQ,1、τQ,2分别为两个Q函数的梯度下降更新步长,本例中τQ,1=1、τQ,2=1。SAC方法在策略网络更新步骤中,将策略网络πφ(a|s)朝着与更新后Q函数的指数分布的期望KL散度(Kullback-Leibler Divergence)最小的方向更新,KL散度越小意味着两者差异越小,以保证新策略优于旧策略,通过不断迭代找到最优策略。期望KL散度公式如下所示:
其中α是熵正则化系数,本例中α=0.002,是重参数化策略后的采样值,即其中tanh()是双曲正切函数,μφ(sj)是均值,σφ(sj)是标准差,ε是噪声,从标准正态分布中随机采样得到,⊙表示哈达玛积(Hadamard积),即对应位置相乘,由于动作空间是多维因此采用哈达玛积表示,接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t),更新如下:
其中τπ是策略网络πφ(a|s)的梯度下降更新步长,本例中τπ=1。接着更新目标网络权值系数θtarg,1(t)、θtarg,2(t)如下:
θtarg,1(t+1)=λθtarg,1(t)+(1-λ)θ1(t+1),
θtarg,2(t+1)=λθtarg,2(t)+(1-λ)θ2(t+1). (9)
其中λ是多元平均插值因子,一般取值在[0,1),并且接近于1,本例中λ=0.995,具体取值由运营商根据实际情况自行确定。
(2.9)令t=t+1;
(2.10)重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值;
(2.11)退出迭代,获得最优策略网络πφ(a|s);
(2.12)根据最优策略网络πφ(a|s)能够在任意负载状态下给出最佳移动性参数修改值,使得网络中负载均衡性得到改善,降低网络负载,提高网络接入新用户能力。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种基于强化学习的移动性负载均衡方法,其特征在于,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题建模成马尔科夫决策过程,然后使用无模型的深度强化学习方法即柔性动作-评价方法对最佳移动性参数调整进行求解,通过操作维护管理系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数,改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。
2.根据权利要求1所述的基于强化学习的移动性负载均衡方法,其特征在于,所述移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,表示为<S,A,P,R>;其中S是状态空间,用于描述网络环境的状态集合,A是动作空间,表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数,用来表示环境对所选移动性参数的反馈;其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:
状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质;选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量,具体使用何种统计度量值可由运营商根据实际情况自行确定;记t时刻M个基站负载分别为ρ1(t),ρ2(t),…,ρM(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为DisRSRP,1(t),,DisRSRP,2(t),,…,DisRSRP,M(t),t时刻网络状态为:
s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T., (1)
动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡;该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIOi,j,t时刻动作为:
其中为了满足任意精度的控制需求,CIOi,j定义为[CIOmin,CIOmax]范围内的连续变量,这种动作空间称为连续空间,CIOmin是CIOi,j可以取的最小值,CIOmax是CIOi,j可以取的最大值,这些值由运营商根据实际情况自行确定,并且为了防止乒乓切换,需要满足CIOi,j=-CIOj,i;
奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略;本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项-1,记t+1时刻,M个基站剩余容量分别为1-ρ1(t+1),1-ρ2(t+1),…,1-ρM(t+1),则奖励函数表示为:
当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k→0时,奖励函数为各个基站剩余容量的几何平均合成,当k=-1时,奖励函数为各个基站剩余容量的调和平均合成;不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,具体k值可由运营商根据实际情况自行确定。
3.根据权利要求1所述的基于强化学习的移动性负载均衡方法,其特征在于,所述方法包括如下步骤:
第一步:收集网络信息,初始化参数;
第二步:进行SAC训练学习最优移动性参数的选取策略。
4.根据权利要求3所述的基于强化学习的移动性负载均衡方法,其特征在于,第一步所述收集网络信息,初始化参数包括如下流程:
步骤1.3,收集网络信息:网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIOmin、移动性参数CIO最大值CIOmax,以及奖励函数的k值,这些值可由运营商根据实际情况自行确定;
5.根据权利要求3所述的基于强化学习的移动性负载均衡方法,其特征在于,第二步所述进行SAC训练学习最优移动性参数的选取策略包括如下流程:
步骤2.1,用t表示当前训练步数,令目标网络权值系数为θtarg,1(t)=θ1(t),θtarg,2(t)=θ2(t),θtarg,1(t)、θtarg,2(t)分别表示2个目标Q网络的权值系数;初始化t=1;
步骤2.2,收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量,获得状态s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T;
步骤2.3,如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络πφ(a|s)选择当前动作a(t),由于动作空间设定为连续空间,则策略网络采用随机性策略网络,即此策略网络πφ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络,∑πφ(·|s)=1,其中·表示动作空间所有元素,通常采用高斯分布来描述,故设置策略网络输出层输出高斯分布的均值和标准差,t时刻策略网络πφ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布,即a(t)~πφ(t)(·|s(t)),依据概率分布πφ(t)(·|s(t))随机采样生成当前动作a(t),概率大的动作被选取的可能性更大;
步骤2.4,将网络中各基站的移动性参数CIO依据进行修改,如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIOi,j,以此类比修改所有基站对应的个体小区偏移,使得满足切换条件的用户发生切换,进行负载均衡;
步骤2.5,收集网络中切换后M个基站负载状态ρ1(t+1),ρ2(t+1),…,ρM(t+1),计算奖励
收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为DisRSRP,1(t+1),,DisRSRP,2(t+1),,…,DisRSRP,M(t+1),更新下一时刻状态为:s(t+1)=[ρ1(t+1),ρ2(t+1),...,ρM(t+1),DisRSRP,1(t+1),DisRSRP,2(t+1),...,DisRSRP,M(t+1)]T;
步骤2.6,将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中;
步骤2.7,如果t≥update_after且t%update_every=0,其中%表示取模值,在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样,得到批量大小为batch_size个的样本,样本集合记为B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)},针对样本集合B中每一个样本计算Q函数的目标值,Q函数是输入为状态s和动作a、输出为一个单值的神经网络,该单值用于评价状态为s时动作为a的性能好坏,评价是否准确会影响智能体学习,因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数,目标值公式为:,
其中rj和s′j为样本集合
B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)}中对应第j个样本取值,即(sj,aj,rj,s'j)∈B,j∈{1,...,batch_size},是一个服从策略网络输出的动作概率分布πφ(t)(·|s'j)的动作采样值,γ是折扣因子,一般取值在[0,1),α为熵正则化系数,具体取值由运营商根据实际情况自行确定;接着利用计算的目标值分别对两个Q函数权值系数θ1(t)、θ2(t)使用梯度下降法进行更新,更新如下:
其中|B|表示求样本集合B的大小,此处|B|=batch_size,τQ,1、τQ,2分别为两个Q函数的梯度下降更新步长;SAC方法在策略网络更新步骤中,将策略网络πφ(a|s)朝着与更新后Q函数的指数分布的期望KL散度最小的方向更新,KL散度越小意味着两者差异越小,以保证新策略优于旧策略,通过不断迭代找到最优策略;期望KL散度公式如下所示:
其中α是熵正则化系数,是重参数化策略后的采样值,即其中tanh()是双曲正切函数,μφ(sj)是均值,σφ(sj)是标准差,ε是噪声,从标准正态分布中随机采样得到,⊙表示哈达玛积,即对应位置相乘,由于动作空间是多维因此采用哈达玛积表示,接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t),更新如下:
其中τπ是策略网络πφ(a|s)的梯度下降更新步长,接着更新目标网络权值系数θtarg,1(t),θtarg,2(t)如下:
θtarg,1(t+1)=λθtarg,1(t)+(1-λ)θ1(t+1),
θtarg,2(t+1)=λθtarg,2(t)+(1-λ)θ2(t+1). (9)
其中λ是多元平均插值因子,一般取值在[0,1),并且接近于1,具体取值由运营商根据实际情况自行确定;
步骤2.9,令t=t+1;
步骤2.10,重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值;
步骤2.11,退出迭代,获得最优策略网络πφ(a|s);
步骤2.12,根据最优策略网络πφ(a|s)能够在任意负载状态下给出最佳移动性参数修改值,使得网络中负载均衡性得到改善,降低网络负载,提高网络接入新用户能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210235344.5A CN114598655B (zh) | 2022-03-10 | 2022-03-10 | 基于强化学习的移动性负载均衡方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210235344.5A CN114598655B (zh) | 2022-03-10 | 2022-03-10 | 基于强化学习的移动性负载均衡方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114598655A true CN114598655A (zh) | 2022-06-07 |
CN114598655B CN114598655B (zh) | 2024-02-02 |
Family
ID=81817419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210235344.5A Active CN114598655B (zh) | 2022-03-10 | 2022-03-10 | 基于强化学习的移动性负载均衡方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114598655B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658572A (zh) * | 2017-01-05 | 2017-05-10 | 重庆邮电大学 | 一种基于负载感知的密集网络负载均衡方法 |
CN113365312A (zh) * | 2021-06-22 | 2021-09-07 | 东南大学 | 强化学习和监督学习相结合的移动负载均衡方法 |
-
2022
- 2022-03-10 CN CN202210235344.5A patent/CN114598655B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658572A (zh) * | 2017-01-05 | 2017-05-10 | 重庆邮电大学 | 一种基于负载感知的密集网络负载均衡方法 |
CN113365312A (zh) * | 2021-06-22 | 2021-09-07 | 东南大学 | 强化学习和监督学习相结合的移动负载均衡方法 |
Non-Patent Citations (2)
Title |
---|
YONGQIANG GAO等: "Load Balancing Aware Task Offloading in Mobile Edge Computing", 《IEEE》 * |
潘志文;尤肖虎;: "自组织无线网络中的移动负载均衡技术", 中兴通讯技术, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN116946162B (zh) * | 2023-09-19 | 2023-12-15 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114598655B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112118601B (zh) | 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法 | |
CN112367353B (zh) | 基于多智能体强化学习的移动边缘计算卸载方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN112367109B (zh) | 空地网络中由数字孪生驱动的联邦学习的激励方法 | |
CN111050330B (zh) | 移动网络自优化方法、系统、终端及计算机可读存储介质 | |
CN111093203B (zh) | 一种基于环境感知的服务功能链低成本智能部署方法 | |
Kaur et al. | Energy-efficient resource allocation in cognitive radio networks under cooperative multi-agent model-free reinforcement learning schemes | |
CN113573324A (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
CN113365312B (zh) | 强化学习和监督学习相结合的移动负载均衡方法 | |
CN112367683B (zh) | 基于改进深度q学习的网络选择方法 | |
CN114390057B (zh) | Mec环境下基于强化学习的多接口自适应数据卸载方法 | |
Fragkos et al. | Artificial intelligence enabled distributed edge computing for Internet of Things applications | |
CN114124955B (zh) | 一种基于多智能体博弈的计算卸载方法 | |
CN114598655A (zh) | 基于强化学习的移动性负载均衡方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
Xu et al. | Deep reinforcement learning based mobility load balancing under multiple behavior policies | |
CN113918829A (zh) | 一种雾计算网络中基于联邦学习的内容缓存和推荐方法 | |
CN114051252B (zh) | 无线接入网中多用户智能发射功率控制方法 | |
Rao et al. | Network selection in heterogeneous environment: A step toward always best connected and served | |
Modi et al. | QoS driven channel selection algorithm for opportunistic spectrum access | |
Iturria-Rivera et al. | Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi | |
Dai et al. | Contextual multi-armed bandit for cache-aware decoupled multiple association in UDNs: A deep learning approach | |
US20230047986A1 (en) | System and method for communication load balancing in unseen traffic scenarios | |
CN110224861A (zh) | 基于学习的自适应动态异构网络选择策略的实现方法 | |
US20240104365A1 (en) | Node, and method performed thereby, for predicting a behavior of users of a communications network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |