CN114598655A - 基于强化学习的移动性负载均衡方法 - Google Patents

基于强化学习的移动性负载均衡方法 Download PDF

Info

Publication number
CN114598655A
CN114598655A CN202210235344.5A CN202210235344A CN114598655A CN 114598655 A CN114598655 A CN 114598655A CN 202210235344 A CN202210235344 A CN 202210235344A CN 114598655 A CN114598655 A CN 114598655A
Authority
CN
China
Prior art keywords
network
base station
value
size
cio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210235344.5A
Other languages
English (en)
Other versions
CN114598655B (zh
Inventor
潘志文
李紫誉
刘楠
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Network Communication and Security Zijinshan Laboratory
Original Assignee
Southeast University
Network Communication and Security Zijinshan Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Network Communication and Security Zijinshan Laboratory filed Critical Southeast University
Priority to CN202210235344.5A priority Critical patent/CN114598655B/zh
Publication of CN114598655A publication Critical patent/CN114598655A/zh
Application granted granted Critical
Publication of CN114598655B publication Critical patent/CN114598655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明是一种基于强化学习的移动性负载均衡方法,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题建模成马尔科夫决策过程,然后使用无模型的深度强化学习方法即柔性动作‑评价方法对最佳移动性参数调整进行求解,通过操作维护管理系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数,改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。

Description

基于强化学习的移动性负载均衡方法
技术领域
本发明属于无线通信中的负载均衡领域,具体涉及基于强化学习的移动性负载均衡方法。
背景技术
移动性负载均衡(Mobility Load Balance,MLB)根据网络中各基站负载状态实时调整移动性参数—个体小区偏移(Cell Individual Offset,CIO),从而将重载基站中部分用户切换到轻载基站,实现各基站之间负载均衡。强化学习可以通过智能体和环境进行互动来学习最优策略,因此可用于解决移动性参数的调整问题。现有的基于强化学习的移动性负载均衡方法对状态空间定义不全面,优化目标的设计只侧重负载均衡性,且采用的强化学习方法不适合在高维度动作空间使用。本发明基于强化学习的移动性负载均衡方法在状态空间中增加基站的边缘用户信息,采用适合高维度动作空间的强化学习进行训练,优化目标是改善网络负载不均衡性,降低网络负载,提高网络接入新用户能力。
发明内容
技术问题:本发明的目的是提供一种基于强化学习的移动性负载均衡方法,能够在改善网络负载均衡性的同时降低网络负载,从而提高网络接入新用户能力。
技术方案:本发明基于强化学习的移动性负载均衡方法,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题抽象为马尔科夫决策过程(Markov DecisionProcess,MDP),然后使用无模型的深度强化学习方法—柔性动作-评价(Soft Actor-Critic,SAC)方法对最佳移动性参数调整进行求解。通过操作维护管理(OperationAdministration and Maintenance,OAM)系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数。本发明能够改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。
移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,可以表示为<S,A,P,R>。其中S是状态空间(State Space),用于描述网络环境的状态集合,A是动作空间(Action Space),表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数(RewardFunction),用来表示环境对所选移动性参数的反馈。其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:
1.状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质。本发明中选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率(Reference Signal Receiving Power,RSRP)最小差值的统计度量(具体使用何种统计度量值可由运营商根据实际情况自行确定)。记t时刻M个基站负载分别为ρ1(t),ρ2(t),…,ρM(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为DisRSRP,1(t),DisRSRP,2(t),…,DisRSRP,M(t)。t时刻网络状态为:
s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T.(1)
2.动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡。该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIOi,j。t时刻动作为:
Figure BDA0003540105740000021
其中
Figure BDA0003540105740000022
为了满足任意精度的控制需求,CIOi,j定义为[CIOmin,CIOmax]范围内的连续变量,这种动作空间称为连续空间,CIOmin是CIOi,j可以取的最小值,CIOmax是CIOi,j可以取的最大值,这些值由运营商根据实际情况自行确定。并且为了防止乒乓切换,需要满足CIOi,j=-CIOj,i
3.奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略。本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项-1。记t+1时刻,M个基站剩余容量分别为1-ρ1(t+1),1-ρ2(t+1),…,1-ρM(t+1),则奖励函数表示为:
Figure BDA0003540105740000023
当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k→0时,奖励函数为各个基站剩余容量的几何平均合成,当k=-1时,奖励函数为各个基站剩余容量的调和平均合成。不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,具体k值可由运营商根据实际情况自行确定。
本发明的技术方案包括如下步骤:
第一步:收集网络信息,初始化参数。本步骤包括如下流程:
(1.1)收集网络信息。网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIOmin、移动性参数CIO最大值CIOmax,以及奖励函数的k值,这些值可由运营商根据实际情况自行确定;
(1.2)初始化强化学习参数。初始化强化学习参数包括学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数n、熵正则化系数α、多元平均插值因子λ、每轮互动次数steps_per_episode、开始使用策略网络输出动作的步长start_steps、开始更新网络权值系数的步长update_after、更新频数update_every、批量大小batch_size、经验回放池大小replay_size、两个Q函数(Q Function)
Figure BDA0003540105740000031
权值系数θ1、θ2和梯度下降更新步长τQ,1、τQ,2、策略网络πφ(a|s)(PolicyNetwork)的权值系数φ和梯度下降更新步长τπ,这些值可由运营商根据实际情况自行确定;
第二步:进行SAC训练学习最优移动性参数的选取策略。本步骤包括如下流程:
(2.1)用t表示当前训练步数,令目标网络权值系数为θtarg,1(t)=θ1(t),θtarg,2(t)=θ2(t),θtarg,1(t)、θtarg,2(t)分别表示2个目标Q网络的权值系数。初始化t=1;
(2.2)收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量,获得状态s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T
(2.3)如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络πφ(a|s)选择当前动作a(t),由于动作空间设定为连续空间,则本发明中策略网络采用随机性策略网络,即此策略网络πφ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络,∑πφ(·|s)=1,其中·表示动作空间所有元素,通常采用高斯分布来描述,故设置策略网络输出层输出高斯分布的均值和标准差,t时刻策略网络πφ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布,即a(t)~πφ(t)(·|s(t)),依据概率分布πφ(t)(·|s(t))随机采样生成当前动作a(t),概率大的动作被选取的可能性更大;
(2.4)将网络中各基站的移动性参数CIO依据
Figure BDA0003540105740000041
进行修改,如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIOi,j,以此类比修改所有基站对应的个体小区偏移,使得满足切换条件的用户发生切换,进行负载均衡;
(2.5)收集网络中切换后M个基站负载状态ρ1(t+1),ρ2(t+1),…,ρM(t+1),计算奖励
Figure BDA0003540105740000042
收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为DisRSRP,1(t+1),DisRSRP,2(t+1),…,DisRSRP,M(t+1),更新下一时刻状态为:s(t+1)=[ρ1(t+1),ρ2(t+1),...,ρM(t+1),DisRSRP,1(t+1),DisRSRP,2(t+1),...,DisRSRP,M(t+1)]T
(2.6)将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中;
(2.7)如果t≥update_after且t%update_every=0,其中%表示取模值,在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样,得到批量大小为batch_size个的样本,样本集合记为B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)},针对样本集合B中每一个样本计算Q函数的目标值,Q函数
Figure BDA0003540105740000043
是输入为状态s和动作a、输出为一个单值的神经网络,该单值用于评价状态为s时动作为a的性能好坏,评价是否准确会影响智能体学习,因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数,目标值公式为:
Figure BDA0003540105740000051
其中rj和s'j为样本集合B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)}中对应第j个样本取值,即(sj,aj,rj,s'j)∈B,j∈{1,...,batch_size},
Figure BDA0003540105740000052
是一个服从策略网络输出的动作概率分布πφ(t)(·|s'j)的动作采样值,γ是折扣因子,一般取值在[0,1),α为熵正则化系数,具体取值由运营商根据实际情况自行确定。接着利用计算的目标值分别对两个Q函数权值系数θ1(t),θ2(t)使用梯度下降法进行更新,更新如下:
Figure BDA0003540105740000053
Figure BDA0003540105740000054
Figure BDA0003540105740000055
Figure BDA0003540105740000056
其中|B|表示求样本集合B的大小,此处|B|=batch_size,τQ,1、τQ,2分别为两个Q函数
Figure BDA0003540105740000057
的梯度下降更新步长。SAC方法在策略网络更新步骤中,将策略网络πφ(a|s)朝着与更新后Q函数
Figure BDA0003540105740000058
的指数分布的期望KL散度(Kullback-LeiblerDivergence)最小的方向更新,KL散度越小意味着两者差异越小,以保证新策略优于旧策略,通过不断迭代找到最优策略。期望KL散度公式如下所示:
Figure BDA0003540105740000059
其中α是熵正则化系数,
Figure BDA00035401057400000510
是重参数化策略后的采样值,即
Figure BDA00035401057400000511
其中tanh()是双曲正切函数,μφ(sj)是均值,σφ(sj)是标准差,ε是噪声,从标准正态分布中随机采样得到,⊙表示哈达玛积(Hadamard积),即对应位置相乘,由于动作空间是多维因此采用哈达玛积表示,接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t),更新如下:
Figure BDA0003540105740000061
Figure BDA0003540105740000062
其中τπ是策略网络πφ(a|s)的梯度下降更新步长。接着更新目标网络权值系数θtarg,1(t)、θtarg,2(t)如下:
θtarg,1(t+1)=λθtarg,1(t)+(1-λ)θ1(t+1),
θtarg,2(t+1)=λθtarg,2(t)+(1-λ)θ2(t+1). (9)
其中λ是多元平均插值因子,一般取值在[0,1),并且接近于1,具体取值由运营商根据实际情况自行确定。
(2.8)如果t%steps_per_episode=0,计算此轮训练的累计奖励为
Figure BDA0003540105740000063
初始化环境,开启新一轮训练;
(2.9)令t=t+1;
(2.10)重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值;
(2.11)退出迭代,获得最优策略网络πφ(a|s);
(2.12)根据最优策略网络πφ(a|s)能够在任意负载状态下给出最佳移动性参数修改值,使得网络中负载均衡性得到改善,降低网络负载,提高网络接入新用户能力。
有益效果:本发明基于强化学习的移动性负载均衡方法,能够在无先验知识的情况下,通过OAM系统与网络环境的互动,不断学习最佳移动性参数的调整,提高网络自优化能力。相比于现有的移动性负载均衡方法,本发明中的方法将基站边缘用户服务基站和邻基站RSRP最小差值的统计度量作为网络环境的描述组成之一,使用适合解决高纬度动作空间的强化学习算法进行求解,并且同时考虑网络负载均衡和网络空闲资源,能够在改善网络负载均衡性的同时降低网络负载,从而提高网络接入新用户能力。
附图说明
图1是基于强化学习的移动性负载均衡方法流程图。
具体实施方式
为了详细的说明本发明所述的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。
移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,可以表示为<S,A,P,R>。其中S是状态空间(State Space),用于描述网络环境的状态集合,A是动作空间(Action Space),表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数(Reward Function),用来表示环境对所选移动性参数的反馈。其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:
1.状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质。本发明中选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率(Reference Signal Receiving Power,RSRP)最小差值的统计度量(本例中选择算术平均值)。记t时刻M个基站负载分别为ρ1(t),ρ2(t),…,ρM(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为
Figure BDA0003540105740000071
t时刻网络状态为:
Figure BDA0003540105740000072
2.动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡。该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIOi,j。t时刻动作为:
Figure BDA0003540105740000073
其中
Figure BDA0003540105740000074
为了满足任意精度的控制需求,CIOi,j定义为[CIOmin,CIOmax]范围内的连续变量,这种动作空间称为连续空间,CIOmin是CIOi,j可以取的最小值,CIOmax是CIOi,j可以取的最大值,本例中选择CIOmin=-3,CIOmax=3,这些值由运营商根据实际情况自行确定。并且为了防止乒乓切换,需要满足CIOi,j=-CIOj,i
3.奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略。本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项-1。记t+1时刻,M个基站剩余容量分别为1-ρ1(t+1),1-ρ2(t+1),…,1-ρM(t+1),则奖励函数表示为:
Figure BDA0003540105740000081
当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k→0时,奖励函数为各个基站剩余容量的几何平均合成,当k=-1时,奖励函数为各个基站剩余容量的调和平均合成。不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,本例中选择k=0.5,具体k值可由运营商根据实际情况自行确定。
如图1所示,包括如下步骤:
第一步:收集网络信息,初始化参数。本步骤包括如下流程:
(1.1)收集网络信息。网络信息包括参与负载均衡基站集合(本例中为7个基站)、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式(本例中为算术平均值)、移动性参数CIO最小值CIOmin=-3、移动性参数CIO最大值CIOmax=3,以及奖励函数的k=0.5,这些值可由运营商根据实际情况自行确定;
(1.2)初始化强化学习参数。初始化强化学习参数包括学习速率lr=0.001、折扣因子γ=0.99、神经网络层数h=2、每层神经元个数n=256、熵正则化系数α=0.002、多元平均插值因子λ=0.995、每轮互动次数steps_per_episode=100、开始使用策略网络输出动作的步长start_steps=400、开始更新网络权值系数的步长update_after=200、更新频数update_every=10、批量大小batch_size=64、经验回放池大小replay_size=1000000、两个Q函数(Q Function)
Figure BDA0003540105740000091
权值系数θ1、θ2(本例使用kaiming均匀分布初始化)和梯度下降更新步长τQ,1=1、τQ,2=1、策略网络πφ(a|s)(PolicyNetwork)的权值系数φ(本例使用kaiming均匀分布初始化)和梯度下降更新步长τπ=1,这些值可由运营商根据实际情况自行确定;
第二步:进行SAC训练学习最优移动性参数的选取策略。本步骤包括如下流程:
(2.1)用t表示当前训练步数,令目标网络权值系数为θtarg,1(t)=θ1(t),θtarg,2(t)=θ2(t),θtarg,1(t)、θtarg,2(t)分别表示2个目标Q网络的权值系数。初始化t=1;
(2.2)收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量,获得状态
Figure BDA0003540105740000092
(2.3)如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络πφ(a|s)选择当前动作a(t),由于动作空间设定为连续空间,则本发明中策略网络采用随机性策略网络,即此策略网络πφ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络,∑πφ(·|s)=1,其中·表示动作空间所有元素,通常采用高斯分布来描述,故设置策略网络输出层输出高斯分布的均值和标准差,t时刻策略网络πφ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布,即a(t)~πφ(t)(·|s(t)),依据概率分布πφ(t)(·|s(t))随机采样生成当前动作a(t),概率大的动作被选取的可能性更大;
(2.4)将网络中各基站的移动性参数CIO依据
Figure BDA0003540105740000093
进行修改,如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIOi,j,以此类比修改所有基站对应的个体小区偏移,使得满足切换条件的用户发生切换,进行负载均衡;
(2.5)收集网络中切换后M个基站负载状态ρ1(t+1),ρ2(t+1),…,ρM(t+1),计算奖励
Figure BDA0003540105740000101
本例中k=0.5,收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为
Figure BDA0003540105740000102
更新下一时刻状态为:
Figure BDA0003540105740000103
(2.6)将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中;
(2.7)如果t≥update_after且t%update_every=0,其中%表示取模值,在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样,得到批量大小为batch_size个的样本,样本集合记为B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)},针对样本集合B中每一个样本计算Q函数的目标值,Q函数Qθi(s,a)是输入为状态s和动作a、输出为一个单值的神经网络,该单值用于评价状态为s时动作为a的性能好坏,评价是否准确会影响智能体学习,因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数,目标值公式为:
Figure BDA0003540105740000104
其中rj和s'j为样本集合B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)}中对应第j个样本取值,即(sj,aj,rj,s'j)∈B,j∈{1,...,batch_size},
Figure BDA0003540105740000105
是一个服从策略网络输出的动作概率分布πφ(t)(·|s'j)的动作采样值,γ是折扣因子,一般取值在[0,1),本例中γ=0.99,α为熵正则化系数,本例中α=0.002(具体取值由运营商根据实际情况自行确定)。接着利用计算的目标值分别对两个Q函数权值系数θ1(t),θ2(t)使用梯度下降法进行更新,更新如下:
Figure BDA0003540105740000111
Figure BDA0003540105740000112
Figure BDA0003540105740000113
Figure BDA0003540105740000114
其中|B|表示求样本集合B的大小,此处|B|=batch_size=64,τQ,1、τQ,2分别为两个Q函数
Figure BDA0003540105740000115
的梯度下降更新步长,本例中τQ,1=1、τQ,2=1。SAC方法在策略网络更新步骤中,将策略网络πφ(a|s)朝着与更新后Q函数
Figure BDA0003540105740000116
的指数分布的期望KL散度(Kullback-Leibler Divergence)最小的方向更新,KL散度越小意味着两者差异越小,以保证新策略优于旧策略,通过不断迭代找到最优策略。期望KL散度公式如下所示:
Figure BDA0003540105740000117
其中α是熵正则化系数,本例中α=0.002,
Figure BDA0003540105740000118
是重参数化策略后的采样值,即
Figure BDA0003540105740000119
其中tanh()是双曲正切函数,μφ(sj)是均值,σφ(sj)是标准差,ε是噪声,从标准正态分布中随机采样得到,⊙表示哈达玛积(Hadamard积),即对应位置相乘,由于动作空间是多维因此采用哈达玛积表示,接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t),更新如下:
Figure BDA00035401057400001110
Figure BDA00035401057400001111
其中τπ是策略网络πφ(a|s)的梯度下降更新步长,本例中τπ=1。接着更新目标网络权值系数θtarg,1(t)、θtarg,2(t)如下:
θtarg,1(t+1)=λθtarg,1(t)+(1-λ)θ1(t+1),
θtarg,2(t+1)=λθtarg,2(t)+(1-λ)θ2(t+1). (9)
其中λ是多元平均插值因子,一般取值在[0,1),并且接近于1,本例中λ=0.995,具体取值由运营商根据实际情况自行确定。
(2.8)如果t%steps_per_episode=0,计算此轮训练的累计奖励为
Figure BDA0003540105740000121
初始化环境,开启新一轮训练;
(2.9)令t=t+1;
(2.10)重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值;
(2.11)退出迭代,获得最优策略网络πφ(a|s);
(2.12)根据最优策略网络πφ(a|s)能够在任意负载状态下给出最佳移动性参数修改值,使得网络中负载均衡性得到改善,降低网络负载,提高网络接入新用户能力。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于强化学习的移动性负载均衡方法,其特征在于,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题建模成马尔科夫决策过程,然后使用无模型的深度强化学习方法即柔性动作-评价方法对最佳移动性参数调整进行求解,通过操作维护管理系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数,改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。
2.根据权利要求1所述的基于强化学习的移动性负载均衡方法,其特征在于,所述移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,表示为<S,A,P,R>;其中S是状态空间,用于描述网络环境的状态集合,A是动作空间,表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数,用来表示环境对所选移动性参数的反馈;其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:
状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质;选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量,具体使用何种统计度量值可由运营商根据实际情况自行确定;记t时刻M个基站负载分别为ρ1(t),ρ2(t),…,ρM(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为DisRSRP,1(t),,DisRSRP,2(t),,…,DisRSRP,M(t),t时刻网络状态为:
s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T., (1)
动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡;该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIOi,j,t时刻动作为:
Figure FDA0003540105730000011
其中
Figure FDA0003540105730000012
为了满足任意精度的控制需求,CIOi,j定义为[CIOmin,CIOmax]范围内的连续变量,这种动作空间称为连续空间,CIOmin是CIOi,j可以取的最小值,CIOmax是CIOi,j可以取的最大值,这些值由运营商根据实际情况自行确定,并且为了防止乒乓切换,需要满足CIOi,j=-CIOj,i
奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略;本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项-1,记t+1时刻,M个基站剩余容量分别为1-ρ1(t+1),1-ρ2(t+1),…,1-ρM(t+1),则奖励函数表示为:
Figure FDA0003540105730000021
当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k→0时,奖励函数为各个基站剩余容量的几何平均合成,当k=-1时,奖励函数为各个基站剩余容量的调和平均合成;不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,具体k值可由运营商根据实际情况自行确定。
3.根据权利要求1所述的基于强化学习的移动性负载均衡方法,其特征在于,所述方法包括如下步骤:
第一步:收集网络信息,初始化参数;
第二步:进行SAC训练学习最优移动性参数的选取策略。
4.根据权利要求3所述的基于强化学习的移动性负载均衡方法,其特征在于,第一步所述收集网络信息,初始化参数包括如下流程:
步骤1.3,收集网络信息:网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIOmin、移动性参数CIO最大值CIOmax,以及奖励函数的k值,这些值可由运营商根据实际情况自行确定;
步骤1.4,初始化强化学习参数:初始化强化学习参数包括学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数n、熵正则化系数α、多元平均插值因子λ、每轮互动次数steps_per_episode、开始使用策略网络输出动作的步长start_steps、开始更新网络权值系数的步长update_after、更新频数update_every、批量大小batch_size、经验回放池大小replay_size、两个Q函数
Figure FDA0003540105730000031
权值系数θ1、θ2和梯度下降更新步长τQ,1、τQ,2、策略网络πφ(a|s)的权值系数φ和梯度下降更新步长τπ,这些值可由运营商根据实际情况自行确定。
5.根据权利要求3所述的基于强化学习的移动性负载均衡方法,其特征在于,第二步所述进行SAC训练学习最优移动性参数的选取策略包括如下流程:
步骤2.1,用t表示当前训练步数,令目标网络权值系数为θtarg,1(t)=θ1(t),θtarg,2(t)=θ2(t),θtarg,1(t)、θtarg,2(t)分别表示2个目标Q网络的权值系数;初始化t=1;
步骤2.2,收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量,获得状态s(t)=[ρ1(t),ρ2(t),...,ρM(t),DisRSRP,1(t),DisRSRP,2(t),...,DisRSRP,M(t)]T
步骤2.3,如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络πφ(a|s)选择当前动作a(t),由于动作空间设定为连续空间,则策略网络采用随机性策略网络,即此策略网络πφ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络,∑πφ(·|s)=1,其中·表示动作空间所有元素,通常采用高斯分布来描述,故设置策略网络输出层输出高斯分布的均值和标准差,t时刻策略网络πφ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布,即a(t)~πφ(t)(·|s(t)),依据概率分布πφ(t)(·|s(t))随机采样生成当前动作a(t),概率大的动作被选取的可能性更大;
步骤2.4,将网络中各基站的移动性参数CIO依据
Figure FDA0003540105730000032
进行修改,如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIOi,j,以此类比修改所有基站对应的个体小区偏移,使得满足切换条件的用户发生切换,进行负载均衡;
步骤2.5,收集网络中切换后M个基站负载状态ρ1(t+1),ρ2(t+1),…,ρM(t+1),计算奖励
Figure FDA0003540105730000041
收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为DisRSRP,1(t+1),,DisRSRP,2(t+1),,…,DisRSRP,M(t+1),更新下一时刻状态为:s(t+1)=[ρ1(t+1),ρ2(t+1),...,ρM(t+1),DisRSRP,1(t+1),DisRSRP,2(t+1),...,DisRSRP,M(t+1)]T
步骤2.6,将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中;
步骤2.7,如果t≥update_after且t%update_every=0,其中%表示取模值,在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样,得到批量大小为batch_size个的样本,样本集合记为B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)},针对样本集合B中每一个样本计算Q函数的目标值,Q函数
Figure FDA0003540105730000042
是输入为状态s和动作a、输出为一个单值的神经网络,该单值用于评价状态为s时动作为a的性能好坏,评价是否准确会影响智能体学习,因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数,目标值公式为:,
Figure FDA0003540105730000043
其中rj和s′j为样本集合
B={(s1,a1,r1,s'1),...,(sj,aj,rj,s'j),...,(sbatch_size,abatch_size,rbatch_size,s'batch_size)}中对应第j个样本取值,即(sj,aj,rj,s'j)∈B,j∈{1,...,batch_size},
Figure FDA0003540105730000044
是一个服从策略网络输出的动作概率分布πφ(t)(·|s'j)的动作采样值,γ是折扣因子,一般取值在[0,1),α为熵正则化系数,具体取值由运营商根据实际情况自行确定;接着利用计算的目标值分别对两个Q函数权值系数θ1(t)、θ2(t)使用梯度下降法进行更新,更新如下:
Figure FDA0003540105730000045
Figure FDA0003540105730000051
其中|B|表示求样本集合B的大小,此处|B|=batch_size,τQ,1、τQ,2分别为两个Q函数
Figure FDA0003540105730000052
的梯度下降更新步长;SAC方法在策略网络更新步骤中,将策略网络πφ(a|s)朝着与更新后Q函数
Figure FDA0003540105730000053
的指数分布的期望KL散度最小的方向更新,KL散度越小意味着两者差异越小,以保证新策略优于旧策略,通过不断迭代找到最优策略;期望KL散度公式如下所示:
Figure FDA0003540105730000054
其中α是熵正则化系数,
Figure FDA0003540105730000055
是重参数化策略后的采样值,即
Figure FDA0003540105730000056
其中tanh()是双曲正切函数,μφ(sj)是均值,σφ(sj)是标准差,ε是噪声,从标准正态分布中随机采样得到,⊙表示哈达玛积,即对应位置相乘,由于动作空间是多维因此采用哈达玛积表示,接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t),更新如下:
Figure FDA0003540105730000057
Figure FDA0003540105730000058
其中τπ是策略网络πφ(a|s)的梯度下降更新步长,接着更新目标网络权值系数θtarg,1(t),θtarg,2(t)如下:
θtarg,1(t+1)=λθtarg,1(t)+(1-λ)θ1(t+1),
θtarg,2(t+1)=λθtarg,2(t)+(1-λ)θ2(t+1). (9)
其中λ是多元平均插值因子,一般取值在[0,1),并且接近于1,具体取值由运营商根据实际情况自行确定;
步骤2.8,如果t%steps_per_episode=0,计算此轮训练的累计奖励为
Figure FDA0003540105730000059
初始化环境,开启新一轮训练;
步骤2.9,令t=t+1;
步骤2.10,重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值;
步骤2.11,退出迭代,获得最优策略网络πφ(a|s);
步骤2.12,根据最优策略网络πφ(a|s)能够在任意负载状态下给出最佳移动性参数修改值,使得网络中负载均衡性得到改善,降低网络负载,提高网络接入新用户能力。
CN202210235344.5A 2022-03-10 2022-03-10 基于强化学习的移动性负载均衡方法 Active CN114598655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210235344.5A CN114598655B (zh) 2022-03-10 2022-03-10 基于强化学习的移动性负载均衡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210235344.5A CN114598655B (zh) 2022-03-10 2022-03-10 基于强化学习的移动性负载均衡方法

Publications (2)

Publication Number Publication Date
CN114598655A true CN114598655A (zh) 2022-06-07
CN114598655B CN114598655B (zh) 2024-02-02

Family

ID=81817419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210235344.5A Active CN114598655B (zh) 2022-03-10 2022-03-10 基于强化学习的移动性负载均衡方法

Country Status (1)

Country Link
CN (1) CN114598655B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106658572A (zh) * 2017-01-05 2017-05-10 重庆邮电大学 一种基于负载感知的密集网络负载均衡方法
CN113365312A (zh) * 2021-06-22 2021-09-07 东南大学 强化学习和监督学习相结合的移动负载均衡方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106658572A (zh) * 2017-01-05 2017-05-10 重庆邮电大学 一种基于负载感知的密集网络负载均衡方法
CN113365312A (zh) * 2021-06-22 2021-09-07 东南大学 强化学习和监督学习相结合的移动负载均衡方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGQIANG GAO等: "Load Balancing Aware Task Offloading in Mobile Edge Computing", 《IEEE》 *
潘志文;尤肖虎;: "自组织无线网络中的移动负载均衡技术", 中兴通讯技术, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Also Published As

Publication number Publication date
CN114598655B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN112118601B (zh) 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN112367109B (zh) 空地网络中由数字孪生驱动的联邦学习的激励方法
CN111050330B (zh) 移动网络自优化方法、系统、终端及计算机可读存储介质
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
Kaur et al. Energy-efficient resource allocation in cognitive radio networks under cooperative multi-agent model-free reinforcement learning schemes
CN113573324A (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN113365312B (zh) 强化学习和监督学习相结合的移动负载均衡方法
CN112367683B (zh) 基于改进深度q学习的网络选择方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
Fragkos et al. Artificial intelligence enabled distributed edge computing for Internet of Things applications
CN114124955B (zh) 一种基于多智能体博弈的计算卸载方法
CN114598655A (zh) 基于强化学习的移动性负载均衡方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
Xu et al. Deep reinforcement learning based mobility load balancing under multiple behavior policies
CN113918829A (zh) 一种雾计算网络中基于联邦学习的内容缓存和推荐方法
CN114051252B (zh) 无线接入网中多用户智能发射功率控制方法
Rao et al. Network selection in heterogeneous environment: A step toward always best connected and served
Modi et al. QoS driven channel selection algorithm for opportunistic spectrum access
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
Dai et al. Contextual multi-armed bandit for cache-aware decoupled multiple association in UDNs: A deep learning approach
US20230047986A1 (en) System and method for communication load balancing in unseen traffic scenarios
CN110224861A (zh) 基于学习的自适应动态异构网络选择策略的实现方法
US20240104365A1 (en) Node, and method performed thereby, for predicting a behavior of users of a communications network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant