CN114598655A

CN114598655A - 基于强化学习的移动性负载均衡方法

Info

Publication number: CN114598655A
Application number: CN202210235344.5A
Authority: CN
Inventors: 潘志文; 李紫誉; 刘楠; 尤肖虎
Original assignee: Southeast University; Network Communication and Security Zijinshan Laboratory
Current assignee: Southeast University; Network Communication and Security Zijinshan Laboratory
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-07
Anticipated expiration: 2042-03-10
Also published as: CN114598655B

Abstract

本发明是一种基于强化学习的移动性负载均衡方法，首先基于各基站剩余负载构建优化目标，再将移动性负载均衡问题建模成马尔科夫决策过程，然后使用无模型的深度强化学习方法即柔性动作‑评价方法对最佳移动性参数调整进行求解，通过操作维护管理系统网管层与网络环境的交互，不断训练强化学习策略网络，得到每一个网络负载状态下的最优移动性参数，改善网络中负载不均衡性，降低网络负载，提高网络接入新用户能力。

Description

基于强化学习的移动性负载均衡方法

技术领域

本发明属于无线通信中的负载均衡领域，具体涉及基于强化学习的移动性负载均衡方法。

背景技术

移动性负载均衡(Mobility Load Balance,MLB)根据网络中各基站负载状态实时调整移动性参数—个体小区偏移(Cell Individual Offset,CIO)，从而将重载基站中部分用户切换到轻载基站，实现各基站之间负载均衡。强化学习可以通过智能体和环境进行互动来学习最优策略，因此可用于解决移动性参数的调整问题。现有的基于强化学习的移动性负载均衡方法对状态空间定义不全面，优化目标的设计只侧重负载均衡性，且采用的强化学习方法不适合在高维度动作空间使用。本发明基于强化学习的移动性负载均衡方法在状态空间中增加基站的边缘用户信息，采用适合高维度动作空间的强化学习进行训练，优化目标是改善网络负载不均衡性，降低网络负载，提高网络接入新用户能力。

发明内容

技术问题：本发明的目的是提供一种基于强化学习的移动性负载均衡方法，能够在改善网络负载均衡性的同时降低网络负载，从而提高网络接入新用户能力。

技术方案：本发明基于强化学习的移动性负载均衡方法，首先基于各基站剩余负载构建优化目标，再将移动性负载均衡问题抽象为马尔科夫决策过程(Markov DecisionProcess,MDP)，然后使用无模型的深度强化学习方法—柔性动作-评价(Soft Actor-Critic,SAC)方法对最佳移动性参数调整进行求解。通过操作维护管理(OperationAdministration and Maintenance,OAM)系统网管层与网络环境的交互，不断训练强化学习策略网络，得到每一个网络负载状态下的最优移动性参数。本发明能够改善网络中负载不均衡性，降低网络负载，提高网络接入新用户能力。

移动性负载均衡问题建模成马尔科夫决策过程，模型包括四个要素，可以表示为<S,A,P,R>。其中S是状态空间(State Space)，用于描述网络环境的状态集合，A是动作空间(Action Space)，表示实现负载均衡的移动性参数集合，P表示状态转移概率，R是奖励函数(RewardFunction)，用来表示环境对所选移动性参数的反馈。其中状态空间S、动作空间A和奖励函数R三要素具体定义如下：

1.状态空间：状态是对网络环境的描述，在执行动作后发生变化，并且具有马尔可夫性质。本发明中选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率(Reference Signal Receiving Power,RSRP)最小差值的统计度量(具体使用何种统计度量值可由运营商根据实际情况自行确定)。记t时刻M个基站负载分别为ρ₁(t),ρ₂(t),…,ρ_M(t)，对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为Dis_RSRP,1(t),Dis_RSRP,2(t),…,Dis_RSRP,M(t)。t时刻网络状态为：

s(t)＝[ρ₁(t),ρ₂(t),...,ρ_M(t),Dis_RSRP,1(t),Dis_RSRP,2(t),...,Dis_RSRP,M(t)]^T.(1)

2.动作空间：在移动性负载均衡问题中，移动性参数对应马尔可夫决策过程中动作，由OAM系统告知基站，基站进行相应修改，从而实现用户切换，完成负载均衡。该移动性参数即为个体小区偏移CIO，如基站i相对基站j的个体小区偏移记为CIO_i,j。t时刻动作为：

其中

为了满足任意精度的控制需求，CIO_i,j定义为[CIO_min,CIO_max]范围内的连续变量，这种动作空间称为连续空间，CIO_min是CIO_i,j可以取的最小值，CIO_max是CIO_i,j可以取的最大值，这些值由运营商根据实际情况自行确定。并且为了防止乒乓切换，需要满足CIO_i,j＝-CIO_j,i。

3.奖励函数：奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响，强化学习通过不断训练来学习使得累计奖励最大化的最优策略。本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力，因此奖励函数定义为各个基站剩余负载的幂函数合成，并且为了避免切换操作导致邻基站超载，引入惩罚项-1。记t+1时刻，M个基站剩余容量分别为1-ρ₁(t+1),1-ρ₂(t+1),…,1-ρ_M(t+1)，则奖励函数表示为：

当k＝2时，奖励函数为各个基站剩余容量的平方平均合成，当k＝1时，奖励函数为各个基站剩余容量的算术平均合成，当k→0时，奖励函数为各个基站剩余容量的几何平均合成，当k＝-1时，奖励函数为各个基站剩余容量的调和平均合成。不同合成方式对群体效用和均衡效用有不同的重要性分配，可以根据对网络中均衡性要求的高低选择不同的k值，具体k值可由运营商根据实际情况自行确定。

本发明的技术方案包括如下步骤：

第一步：收集网络信息，初始化参数。本步骤包括如下流程：

(1.1)收集网络信息。网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIO_min、移动性参数CIO最大值CIO_max，以及奖励函数的k值，这些值可由运营商根据实际情况自行确定；

(1.2)初始化强化学习参数。初始化强化学习参数包括学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数n、熵正则化系数α、多元平均插值因子λ、每轮互动次数steps_per_episode、开始使用策略网络输出动作的步长start_steps、开始更新网络权值系数的步长update_after、更新频数update_every、批量大小batch_size、经验回放池大小replay_size、两个Q函数(Q Function)

权值系数θ₁、θ₂和梯度下降更新步长τ_Q,1、τ_Q,2、策略网络π_φ(a|s)(PolicyNetwork)的权值系数φ和梯度下降更新步长τ_π，这些值可由运营商根据实际情况自行确定；

第二步：进行SAC训练学习最优移动性参数的选取策略。本步骤包括如下流程：

(2.1)用t表示当前训练步数，令目标网络权值系数为θ_targ,1(t)＝θ₁(t)，θ_targ,2(t)＝θ₂(t)，θ_targ,1(t)、θ_targ,2(t)分别表示2个目标Q网络的权值系数。初始化t＝1；

(2.2)收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量，获得状态s(t)＝[ρ₁(t),ρ₂(t),...,ρ_M(t),Dis_RSRP,1(t),Dis_RSRP,2(t),...,Dis_RSRP,M(t)]^T；

(2.3)如果t＜start_steps，在动作空间随机采样生成当前动作a(t)；如果t≥start_steps，意味着开始使用策略网络生成当前动作，依据策略网络π_φ(a|s)选择当前动作a(t)，由于动作空间设定为连续空间，则本发明中策略网络采用随机性策略网络，即此策略网络π_φ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络，∑π_φ(·|s)＝1，其中·表示动作空间所有元素，通常采用高斯分布来描述，故设置策略网络输出层输出高斯分布的均值和标准差，t时刻策略网络π_φ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布，即a(t)～π_φ(t)(·|s(t))，依据概率分布π_φ(t)(·|s(t))随机采样生成当前动作a(t)，概率大的动作被选取的可能性更大；

(2.4)将网络中各基站的移动性参数CIO依据

进行修改，如基站i相对基站j的个体小区偏移修改为当前动作a(t)中的CIO_i,j，以此类比修改所有基站对应的个体小区偏移，使得满足切换条件的用户发生切换，进行负载均衡；

(2.5)收集网络中切换后M个基站负载状态ρ₁(t+1),ρ₂(t+1),…,ρ_M(t+1)，计算奖励

收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为Dis_RSRP,1(t+1),Dis_RSRP,2(t+1),…,Dis_RSRP,M(t+1)，更新下一时刻状态为：s(t+1)＝[ρ₁(t+1),ρ₂(t+1),...,ρ_M(t+1),Dis_RSRP,1(t+1),Dis_RSRP,2(t+1),...,Dis_RSRP,M(t+1)]^T；

(2.6)将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中；

(2.7)如果t≥update_after且t％update_every＝0，其中％表示取模值，在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样，得到批量大小为batch_size个的样本，样本集合记为B＝{(s₁,a₁,r₁,s'₁),...,(s_j,a_j,r_j,s'_j),...,(s_{batch_size},a_{batch_size},r_{batch_size},s'_{batch_size})}，针对样本集合B中每一个样本计算Q函数的目标值，Q函数

是输入为状态s和动作a、输出为一个单值的神经网络，该单值用于评价状态为s时动作为a的性能好坏，评价是否准确会影响智能体学习，因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数，目标值公式为：

其中r_j和s'_j为样本集合B＝{(s₁,a₁,r₁,s'₁),...,(s_j,a_j,r_j,s'_j),...,(s_{batch_size},a_{batch_size},r_{batch_size},s'_{batch_size})}中对应第j个样本取值，即(s_j,a_j,r_j,s'_j)∈B,j∈{1,...,batch_size}，

是一个服从策略网络输出的动作概率分布π_φ(t)(·|s'_j)的动作采样值，γ是折扣因子，一般取值在[0,1)，α为熵正则化系数，具体取值由运营商根据实际情况自行确定。接着利用计算的目标值分别对两个Q函数权值系数θ₁(t),θ₂(t)使用梯度下降法进行更新，更新如下：

其中|B|表示求样本集合B的大小，此处|B|＝batch_size，τ_Q,1、τ_Q,2分别为两个Q函数

的梯度下降更新步长。SAC方法在策略网络更新步骤中，将策略网络π_φ(a|s)朝着与更新后Q函数

的指数分布的期望KL散度(Kullback-LeiblerDivergence)最小的方向更新，KL散度越小意味着两者差异越小，以保证新策略优于旧策略，通过不断迭代找到最优策略。期望KL散度公式如下所示：

其中α是熵正则化系数，

是重参数化策略后的采样值，即

其中tanh()是双曲正切函数，μ_φ(s_j)是均值，σ_φ(s_j)是标准差，ε是噪声，从标准正态分布中随机采样得到，⊙表示哈达玛积(Hadamard积)，即对应位置相乘，由于动作空间是多维因此采用哈达玛积表示，接着依据公式(7)使用梯度下降法更新策略网络权重系数φ(t)，更新如下：

其中τ_π是策略网络π_φ(a|s)的梯度下降更新步长。接着更新目标网络权值系数θ_targ,1(t)、θ_targ,2(t)如下：

θ_targ,1(t+1)＝λθ_targ,1(t)+(1-λ)θ₁(t+1),

θ_targ,2(t+1)＝λθ_targ,2(t)+(1-λ)θ₂(t+1). (9)

其中λ是多元平均插值因子，一般取值在[0,1)，并且接近于1，具体取值由运营商根据实际情况自行确定。

(2.8)如果t％steps_per_episode＝0，计算此轮训练的累计奖励为

初始化环境，开启新一轮训练；

(2.9)令t＝t+1；

(2.10)重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值；

(2.11)退出迭代，获得最优策略网络π_φ(a|s)；

(2.12)根据最优策略网络π_φ(a|s)能够在任意负载状态下给出最佳移动性参数修改值，使得网络中负载均衡性得到改善，降低网络负载，提高网络接入新用户能力。

有益效果：本发明基于强化学习的移动性负载均衡方法，能够在无先验知识的情况下，通过OAM系统与网络环境的互动，不断学习最佳移动性参数的调整，提高网络自优化能力。相比于现有的移动性负载均衡方法，本发明中的方法将基站边缘用户服务基站和邻基站RSRP最小差值的统计度量作为网络环境的描述组成之一，使用适合解决高纬度动作空间的强化学习算法进行求解，并且同时考虑网络负载均衡和网络空闲资源，能够在改善网络负载均衡性的同时降低网络负载，从而提高网络接入新用户能力。

附图说明

图1是基于强化学习的移动性负载均衡方法流程图。

具体实施方式

为了详细的说明本发明所述的技术方案，下面结合说明书附图及具体实施例做进一步的阐述。

移动性负载均衡问题建模成马尔科夫决策过程，模型包括四个要素，可以表示为<S,A,P,R>。其中S是状态空间(State Space)，用于描述网络环境的状态集合，A是动作空间(Action Space)，表示实现负载均衡的移动性参数集合，P表示状态转移概率，R是奖励函数(Reward Function)，用来表示环境对所选移动性参数的反馈。其中状态空间S、动作空间A和奖励函数R三要素具体定义如下：

1.状态空间：状态是对网络环境的描述，在执行动作后发生变化，并且具有马尔可夫性质。本发明中选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率(Reference Signal Receiving Power,RSRP)最小差值的统计度量(本例中选择算术平均值)。记t时刻M个基站负载分别为ρ₁(t),ρ₂(t),…,ρ_M(t)，对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为

t时刻网络状态为：

其中

为了满足任意精度的控制需求，CIO_i,j定义为[CIO_min,CIO_max]范围内的连续变量，这种动作空间称为连续空间，CIO_min是CIO_i,j可以取的最小值，CIO_max是CIO_i,j可以取的最大值，本例中选择CIO_min＝-3，CIO_max＝3，这些值由运营商根据实际情况自行确定。并且为了防止乒乓切换，需要满足CIO_i,j＝-CIO_j,i。

当k＝2时，奖励函数为各个基站剩余容量的平方平均合成，当k＝1时，奖励函数为各个基站剩余容量的算术平均合成，当k→0时，奖励函数为各个基站剩余容量的几何平均合成，当k＝-1时，奖励函数为各个基站剩余容量的调和平均合成。不同合成方式对群体效用和均衡效用有不同的重要性分配，可以根据对网络中均衡性要求的高低选择不同的k值，本例中选择k＝0.5，具体k值可由运营商根据实际情况自行确定。

如图1所示，包括如下步骤：

(1.1)收集网络信息。网络信息包括参与负载均衡基站集合(本例中为7个基站)、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式(本例中为算术平均值)、移动性参数CIO最小值CIO_min＝-3、移动性参数CIO最大值CIO_max＝3，以及奖励函数的k＝0.5，这些值可由运营商根据实际情况自行确定；

(1.2)初始化强化学习参数。初始化强化学习参数包括学习速率lr＝0.001、折扣因子γ＝0.99、神经网络层数h＝2、每层神经元个数n＝256、熵正则化系数α＝0.002、多元平均插值因子λ＝0.995、每轮互动次数steps_per_episode＝100、开始使用策略网络输出动作的步长start_steps＝400、开始更新网络权值系数的步长update_after＝200、更新频数update_every＝10、批量大小batch_size＝64、经验回放池大小replay_size＝1000000、两个Q函数(Q Function)

权值系数θ₁、θ₂(本例使用kaiming均匀分布初始化)和梯度下降更新步长τ_Q,1＝1、τ_Q,2＝1、策略网络π_φ(a|s)(PolicyNetwork)的权值系数φ(本例使用kaiming均匀分布初始化)和梯度下降更新步长τ_π＝1，这些值可由运营商根据实际情况自行确定；

(2.2)收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量，获得状态

(2.4)将网络中各基站的移动性参数CIO依据

本例中k＝0.5，收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为

更新下一时刻状态为：

(2.6)将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中；

(2.7)如果t≥update_after且t％update_every＝0，其中％表示取模值，在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样，得到批量大小为batch_size个的样本，样本集合记为B＝{(s₁,a₁,r₁,s'₁),...,(s_j,a_j,r_j,s'_j),...,(s_{batch_size},a_{batch_size},r_{batch_size},s'_{batch_size})}，针对样本集合B中每一个样本计算Q函数的目标值，Q函数Q_θi(s,a)是输入为状态s和动作a、输出为一个单值的神经网络，该单值用于评价状态为s时动作为a的性能好坏，评价是否准确会影响智能体学习，因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数，目标值公式为：

是一个服从策略网络输出的动作概率分布π_φ(t)(·|s'_j)的动作采样值，γ是折扣因子，一般取值在[0,1)，本例中γ＝0.99，α为熵正则化系数，本例中α＝0.002(具体取值由运营商根据实际情况自行确定)。接着利用计算的目标值分别对两个Q函数权值系数θ₁(t),θ₂(t)使用梯度下降法进行更新，更新如下：

其中|B|表示求样本集合B的大小，此处|B|＝batch_size＝64，τ_Q,1、τ_Q,2分别为两个Q函数

的梯度下降更新步长，本例中τ_Q,1＝1、τ_Q,2＝1。SAC方法在策略网络更新步骤中，将策略网络π_φ(a|s)朝着与更新后Q函数

的指数分布的期望KL散度(Kullback-Leibler Divergence)最小的方向更新，KL散度越小意味着两者差异越小，以保证新策略优于旧策略，通过不断迭代找到最优策略。期望KL散度公式如下所示：

其中α是熵正则化系数，本例中α＝0.002，

是重参数化策略后的采样值，即

其中τ_π是策略网络π_φ(a|s)的梯度下降更新步长，本例中τ_π＝1。接着更新目标网络权值系数θ_targ,1(t)、θ_targ,2(t)如下：

θ_targ,1(t+1)＝λθ_targ,1(t)+(1-λ)θ₁(t+1),

θ_targ,2(t+1)＝λθ_targ,2(t)+(1-λ)θ₂(t+1). (9)

其中λ是多元平均插值因子，一般取值在[0,1)，并且接近于1，本例中λ＝0.995，具体取值由运营商根据实际情况自行确定。

(2.8)如果t％steps_per_episode＝0，计算此轮训练的累计奖励为

初始化环境，开启新一轮训练；

(2.9)令t＝t+1；

(2.10)重复步骤(2.2)-(2.9)直到每轮累计奖励值收敛到最大值；

(2.11)退出迭代，获得最优策略网络π_φ(a|s)；

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于强化学习的移动性负载均衡方法，其特征在于，首先基于各基站剩余负载构建优化目标，再将移动性负载均衡问题建模成马尔科夫决策过程，然后使用无模型的深度强化学习方法即柔性动作-评价方法对最佳移动性参数调整进行求解，通过操作维护管理系统网管层与网络环境的交互，不断训练强化学习策略网络，得到每一个网络负载状态下的最优移动性参数，改善网络中负载不均衡性，降低网络负载，提高网络接入新用户能力。

2.根据权利要求1所述的基于强化学习的移动性负载均衡方法，其特征在于，所述移动性负载均衡问题建模成马尔科夫决策过程，模型包括四个要素，表示为<S,A,P,R>；其中S是状态空间，用于描述网络环境的状态集合，A是动作空间，表示实现负载均衡的移动性参数集合，P表示状态转移概率，R是奖励函数，用来表示环境对所选移动性参数的反馈；其中状态空间S、动作空间A和奖励函数R三要素具体定义如下：

状态空间：状态是对网络环境的描述，在执行动作后发生变化，并且具有马尔可夫性质；选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量，具体使用何种统计度量值可由运营商根据实际情况自行确定；记t时刻M个基站负载分别为ρ₁(t),ρ₂(t),…,ρ_M(t)，对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为Dis_RSRP,1(t),,Dis_RSRP,2(t),,…,Dis_RSRP,M(t)，t时刻网络状态为：

s(t)＝[ρ₁(t),ρ₂(t),...,ρ_M(t),Dis_RSRP,1(t),Dis_RSRP,2(t),...,Dis_RSRP,M(t)]^T., (1)

动作空间：在移动性负载均衡问题中，移动性参数对应马尔可夫决策过程中动作，由OAM系统告知基站，基站进行相应修改，从而实现用户切换，完成负载均衡；该移动性参数即为个体小区偏移CIO，如基站i相对基站j的个体小区偏移记为CIO_i,j，t时刻动作为：

其中

为了满足任意精度的控制需求，CIO_i,j定义为[CIO_min,CIO_max]范围内的连续变量，这种动作空间称为连续空间，CIO_min是CIO_i,j可以取的最小值，CIO_max是CIO_i,j可以取的最大值，这些值由运营商根据实际情况自行确定，并且为了防止乒乓切换，需要满足CIO_i,j＝-CIO_j,i；

奖励函数：奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响，强化学习通过不断训练来学习使得累计奖励最大化的最优策略；本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力，因此奖励函数定义为各个基站剩余负载的幂函数合成，并且为了避免切换操作导致邻基站超载，引入惩罚项-1，记t+1时刻，M个基站剩余容量分别为1-ρ₁(t+1),1-ρ₂(t+1),…,1-ρ_M(t+1)，则奖励函数表示为：

当k＝2时，奖励函数为各个基站剩余容量的平方平均合成，当k＝1时，奖励函数为各个基站剩余容量的算术平均合成，当k→0时，奖励函数为各个基站剩余容量的几何平均合成，当k＝-1时，奖励函数为各个基站剩余容量的调和平均合成；不同合成方式对群体效用和均衡效用有不同的重要性分配，可以根据对网络中均衡性要求的高低选择不同的k值，具体k值可由运营商根据实际情况自行确定。

3.根据权利要求1所述的基于强化学习的移动性负载均衡方法，其特征在于，所述方法包括如下步骤：

第一步：收集网络信息，初始化参数；

第二步：进行SAC训练学习最优移动性参数的选取策略。

4.根据权利要求3所述的基于强化学习的移动性负载均衡方法，其特征在于，第一步所述收集网络信息，初始化参数包括如下流程：

步骤1.3，收集网络信息：网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIO_min、移动性参数CIO最大值CIO_max，以及奖励函数的k值，这些值可由运营商根据实际情况自行确定；

步骤1.4，初始化强化学习参数：初始化强化学习参数包括学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数n、熵正则化系数α、多元平均插值因子λ、每轮互动次数steps_per_episode、开始使用策略网络输出动作的步长start_steps、开始更新网络权值系数的步长update_after、更新频数update_every、批量大小batch_size、经验回放池大小replay_size、两个Q函数

权值系数θ₁、θ₂和梯度下降更新步长τ_Q,1、τ_Q,2、策略网络π_φ(a|s)的权值系数φ和梯度下降更新步长τ_π，这些值可由运营商根据实际情况自行确定。

5.根据权利要求3所述的基于强化学习的移动性负载均衡方法，其特征在于，第二步所述进行SAC训练学习最优移动性参数的选取策略包括如下流程：

步骤2.1，用t表示当前训练步数，令目标网络权值系数为θ_targ,1(t)＝θ₁(t)，θ_targ,2(t)＝θ₂(t)，θ_targ,1(t)、θ_targ,2(t)分别表示2个目标Q网络的权值系数；初始化t＝1；

步骤2.2，收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量，获得状态s(t)＝[ρ₁(t),ρ₂(t),...,ρ_M(t),Dis_RSRP,1(t),Dis_RSRP,2(t),...,Dis_RSRP,M(t)]^T；

步骤2.3，如果t＜start_steps，在动作空间随机采样生成当前动作a(t)；如果t≥start_steps，意味着开始使用策略网络生成当前动作，依据策略网络π_φ(a|s)选择当前动作a(t)，由于动作空间设定为连续空间，则策略网络采用随机性策略网络，即此策略网络π_φ(a|s)是输入为状态s、输出为连续空间上动作a的概率的神经网络，∑π_φ(·|s)＝1，其中·表示动作空间所有元素，通常采用高斯分布来描述，故设置策略网络输出层输出高斯分布的均值和标准差，t时刻策略网络π_φ(a|s)的输出是状态为s(t)时动作a(t)的高斯分布，即a(t)～π_φ(t)(·|s(t))，依据概率分布π_φ(t)(·|s(t))随机采样生成当前动作a(t)，概率大的动作被选取的可能性更大；

步骤2.4，将网络中各基站的移动性参数CIO依据

步骤2.5，收集网络中切换后M个基站负载状态ρ₁(t+1),ρ₂(t+1),…,ρ_M(t+1)，计算奖励

收集切换后各基站边缘用户的服务基站和邻基站RSRP最小差值的统计度量为Dis_RSRP,1(t+1),,Dis_RSRP,2(t+1),,…,Dis_RSRP,M(t+1)，更新下一时刻状态为：s(t+1)＝[ρ₁(t+1),ρ₂(t+1),...,ρ_M(t+1),Dis_RSRP,1(t+1),Dis_RSRP,2(t+1),...,Dis_RSRP,M(t+1)]^T；

步骤2.6，将当前样本(s(t),a(t),r(t),s(t+1))存入经验回放池中；

步骤2.7，如果t≥update_after且t％update_every＝0，其中％表示取模值，在经验回放池中对(s(t),a(t),r(t),s(t+1))进行随机采样，得到批量大小为batch_size个的样本，样本集合记为B＝{(s₁,a₁,r₁,s'₁),...,(s_j,a_j,r_j,s'_j),...,(s_{batch_size},a_{batch_size},r_{batch_size},s'_{batch_size})}，针对样本集合B中每一个样本计算Q函数的目标值，Q函数

是输入为状态s和动作a、输出为一个单值的神经网络，该单值用于评价状态为s时动作为a的性能好坏，评价是否准确会影响智能体学习，因此需要通过最小化当前Q函数与Q函数目标值的差值来修正Q函数，目标值公式为：,

其中r_j和s′_j为样本集合

B＝{(s₁,a₁,r₁,s'₁),...,(s_j,a_j,r_j,s'_j),...,(s_{batch_size},a_{batch_size},r_{batch_size},s'_{batch_size})}中对应第j个样本取值，即(s_j,a_j,r_j,s'_j)∈B,j∈{1,...,batch_size}，