CN114885388A

CN114885388A - 联合rss预测的多业务类型自适应切换判决方法

Info

Publication number: CN114885388A
Application number: CN202210465918.8A
Authority: CN
Inventors: 张驰; 覃少华; 陈思国; 吴博文
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-09
Anticipated expiration: 2042-04-29
Also published as: CN114885388B

Abstract

本发明公开了一种联合RSS预测的多业务类型自适应切换判决方法，包括如下步骤：步骤1：初始化筛选阈值；步骤2：扫描周围网络，步骤2.1：构建候选网络；步骤3：MD获取候选网络状态信息；步骤4：MD检测业务类型

步骤5：初始化业务类型权重信息W_b；步骤6：MD检测用户偏好信息

步骤7：上传收集信息；步骤8：更新权重信息，数据归一化处理；步骤9：计算，确定最优目标网络；步骤10：执行切换；步骤11：保存信息；步骤12：预测；步骤13：计算筛选机制中筛选阈值RSS_th；步骤14：更新筛选阈值；步骤15：重复迭代，直到结束。这种方法能够在UD‑HWN中使MD自适应的实现目标网络的选择和切换，通过对未来时刻MD与最优目标BS之间RSS的预测，能够降低MD与BS的信令交互，从而降低MD的能量消耗和增加网络可用带宽，降低目标网络选择的计算量，提升切换效率，实现自适应切换。

Description

联合RSS预测的多业务类型自适应切换判决方法

技术领域

本发明涉及无线网络领域中超密集异构无线网络中网络切换技术，具体是一种联合RSS预测的多业务类型自适应切换判决方法。

背景技术

随着智能移动设备的普及和应用，大量移动设备的接入和智能应用程序的出现对网络性能提出了新的要求。超密集异构无线网络(Ultra-dense Heterogeneous WirelessNetworks，简称UD-HWN)是一种包含多种无线接入技术的复杂异构网络。不同的无线接入技术(4G、5G和Wi-Fi)能够为不同的业务需求提供服务，例如：当用户观看高清视频或者体验VR/AR应用时需要高带宽和低延迟，5G网络接入技术可以满足其需求；当用户语音通话或者接收短信服务时对带宽要求并没有那么高，使用4G网络即可。所以，UD-HWN能够满足不同移动终端在不同通信场景中的不同业务需求。在UD-HWN中由于MD的大量接入和移动，会造成移动设备(Mobile device，简称MD)与基站(Base Station，简称BS)之间产生频繁的网络切换问题，不同制式无线接入网络的覆盖范围对终端设备移动性的支持能力各不相同，用户在移动过程中会经历同一种网络制式间的网络切换(水平切换)以及跨不同网络制式间的网络切换(垂直切换)，从而确保移动设备与基站及之间的通信的连续性。而频繁的网络切换会导致网络中有大量的信令传播、数据包的丢失和网络的延迟以及MD的能量消耗，还可能会产生“乒乓效应”，造成网络的吞吐量下降和不好的用户体验质量(Quality ofExperience，简称QoE)。为了避免MD与BS之间频繁的切换造成资源浪费和用户QoE下降的问题，近些年，许多研究人员对网络切换算法展开较深入的研究，根据切换判决方法的不同，现有网络切换算法可以分成四大类：(1)基于单属性值的网络切换方法；(2)基于多属性值的网络切换方法；(3)基于模糊逻辑的网络切换方法；(4)基于机器学习的网络切换方法。

基于单属性值的切换判决算法主要运用在早期的异构网络中，该算法以单一属性值作为网络切换的判决条件，其中最常见的是根据用户的接收信号强度值(ReceivedSignal Strength，简称RSS)作为参考标准来制定用户的垂直切换策略。其主要原理是根据用户终端接收到的目标BS的信号强度高于当前BS的信号强度，即执行切换操作。该方法容易受一些其他因素(比如用户的移动和无线网络传输过程中衰落等)的影响，从而导致在网络切换过程中产生“乒乓效应”。

然而，无线网络状态和移动用户空间位置的动态变化会导致更多影响网络切换管理策略性能的因素。目前的网络切换管理中已经不仅仅依靠单一的判决因素，现有的很多网络切换管理策略都考虑了可感知的网络状态的变化并据此做出调整，既避免了网络切换过于频繁而导致的乒乓效应，也避免了网络切换的灵敏度过于迟钝。当移动设备产生多种业务类型的任务时，多属性网络切换管理方法能够更合理的判断并确定最优目标网络。所以，提出了基于多属性决策的网络切换管理。

基于多属性值的切换判决算法考虑了多种可感知的网络属性(比如，带宽，时延等)作为切换判决属性，通过构造加权函数选择最优目标网络进行网络切换。该类算法主要包括基于简单加权和算法(Simple Additive Weighting，简称SAW)，灰色关联分析算法(Grey Relation Analysis，简称GRA)、逼近理想解排序算法(Technique For OrderPreference By Similarity To Ideal Solution，简称TOPSIS)和层次分析法(AnalyticHierarchy Process，简称AHP)。简单加权和算法在网络切换中的应用具体如下：首先通过获取网络属性参数值，然后构建矩阵，由于获取到的网络属性值数据类型和单位不统一，如果这些数据不进行处理直接进行计算会造成计算数值很大，为了使计算过程变得简单需要对矩阵数值进行归一化处理，最后根据处理后的属性值乘以其对应权重向量，根据计算出的数值大小作为切换判决依据。针对异构无线网络环境，MAALOUL等人(MAALOUL S,AFIF M,TABBANE S.Vertical Handover Decision Policy Based on the End User's PerceivedQuality of Service[M].2013:493-8.)为了减少切换延迟提高用户感知的QoS，提出了一种改进的简单加权和切换判决算法(E-SAW)。通过对每种属性设定网络属性阈值，减少候选网络的数量，从而实现在计算目标网络阶段减少不必要的计算量，降低了不必要的处理延迟。但是基于SAW算法存在一个问题，其假设各切换判决属性是互相不受影响，因此在多属性决策问题中使用SAW算法选择目标网络可能会存在一定的片面性而导致效率不高，因为多个属性间存在一定的联系，不是相互独立的。层次分析法(Analytic HierarchyProcess，简称AHP)是一种采用定性和定量相结合的分析方法。基于AHP算法在网络切换中的应用具体如下：首先构造出层次结构模型，通常分为：方案层、准则层和目标层，其中目标层为选择切换网络，准则层分为业务层和属性层，业务层包括视频类业务，音频类业务，交互类业务等，属性层主要考虑切换判决属性，比如接收信号强度(RSS)，延迟，能耗，丢包率等。方案层为备选的切换网络。然后根据业务类型对准则层中的每个判决属性的重要性进行比较，通过客观判断结果构造出准则层的每种业务类型中判决属性的判断矩阵，根据判断矩阵计算出特征向量、特征根和权重值，最后通过一致性检验分析判断其有效性。通过AHP方法可以计算网络切换中每个判决属性的权重值。Liu等(Liu Shengmei,Pan Su,MiZhengkun,et al.A simple additive weighting vertical Handoff algorithm basedon SINR and AHP for heterogeneous wireless networks[C]//2010 InternationalConference on Intelligent Computation Technology and Automation.Changsha,China:IEEE Press,2011:347-350.)在异构无线网络中，提出了一种AHP与SAW相结合的垂直切换算法，其中使用AHP计算不同业务属性权重，然后使用SAW方法计算目标函数得出目标网络，该算法综合考虑了WLAN和WCDMA中的信号干扰噪声比(Signal to Interferenceplus Noise Ratio，简称SINR)、用户所需带宽、用户业务成本和可用带宽等判决属性，考虑了四种业务类型：会话类、流媒体类、交互类和背景类，采用AHP确定判决属性的权重向量。根据业务类型对切换判决属性的要求不同，考虑多属性QoS的切换决策，最后通过SAW计算判决值，根据计算出的结果大小作为候选网络切换优先级排序结果。基于AHP算法虽然具有系统性的分析和简洁实用以及所需定量数据信息较少等优点，但是也有缺点，当属性参数过多(超过9个)时,标度工作量太大，比较两个指标间的重要程度时会有一定难度，易引起判断混乱，使得权重值不容易确定。

以上基于传统的网络切换算法具有一定的缺点，随着MD数量的增加，产生的数据量也随之增加，这样会造成计算量增加，从而导致计算时延增加，所以网络切换时延也会增加，造成了不好的用户服务体验。随着人工智能的迅速发展，通过使用大规模数据对算法中神经网络模型的训练不断优化其参数，使机器学习算法具有自主学习能力，而且神经网络采用并行分布处理方法，使得快速进行大量运算成为可能，当MD有新的网络切换请求时，神经网络可以快速准确地计算出目标切换网络；另外，通过神经网络可以通过训练学习自适应未知的动态系统，结合异构网络中MD产生的业务类型、移动速度和网络资源等是实时动态变化的，所以机器学习算法被应用到网络切换中。

等(

Ali et

Celal.Artificial neural network based vertical handoff algorithm forreducing handoff latency.Wireless personal communications,2013,vol.71,no 4,p.2399-2415.)针对五种不同的应用和五种不同的无线技术(Wi-Fi、GSM、GPRS、UMTS和WiMAX)，提出了一种基于人工神经网络的切换决策算法，以降低异构网络中智能设备的切换延迟。算法中采用三层神经网络(NN)模型，考虑开销成本、数据速率和RSS三种切换判决属性。将这三种网络参数作为输入，通过对神经网络参数进行训练后，神经网络可以自适应选择最优的目标网络。与SAW和其他一些基于人工智能的算法进行比较，该方法在切换延迟和选择最优网络方面优于大多数传统的切换决策方法。马等人(马彬,李尚儒,谢显中.异构无线网络中基于人工神经网络的自适应垂直切换算法[J].电子与信息学报,2019,41(05):1210-6.)提出一种基于人工神经网络的自适应垂直切换算法，首先根据MD获取到的RSS_i与预处理模块中设定的阈值RSS_th进行比较，若RSS_i≥RSS_th+HY，(HY表示迟滞)，则加入候选网络集，然后再根据不同业务类型对网络属性(RSS、带宽、时延、抖动、丢包率)的要求不同进行自适应选择和归一化处理，最后把处理后的网络属性值输入到神经网络中对网络参数(权重w和偏执b)进行训练，根据训练出的判决值大小选择最佳的目标网络。但是基于神经网络进行训练的算法在系统运行初期需要一段时间对神经网络参数进行训练，这可能会造成网络切换初期的切换次数达不到迅速降低的效果，而且不同的机器学习算法其训练过程中收敛效果也不同，这就需要根据应用场景来选择比较合适的机器学习算法进行网络切换。

发明内容

本发明的目的是针对UD-HWN中网络切换频繁及能量消耗问题，考虑到不同业务类型对网络性能要求不同，提出一种联合RSS预测的多业务类型自适应切换判决方法。这种方法能够在UD-HWN中使MD自适应的实现目标网络的选择和切换，通过对未来时刻MD与最优目标BS之间RSS的预测，能够降低MD与BS的信令交互，从而降低MD的能量消耗和增加网络可用带宽，降低目标网络选择的计算量，提升切换效率，实现自适应切换。

实现本发明目的的技术方案是：

联合RSS预测的多业务类型自适应切换判决方法，包括如下步骤：

步骤1：初始化筛选阈值，设定候选网络初始筛选阈值RSS_th为-120dBm；

步骤2：MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSS_i值；

步骤2.1：如果RSS_i<RSS_th，则忽略此网络；否则把该网络加入候选网络集

步骤3：移动设备MD获取候选网络状态信息表示为

其中，MD的编号表示为

集合s_u(t)中表示切换判决属性，

表示MD u在t时隙与候选网络v的信号接收强度值，

表示MD u在t时隙与候选网络v的网络带宽，

表示MD u在t时隙与候选网络v的网络延迟，

表示MD u在t时隙与候选网络v的网络抖动，

表示MD u在t时隙与候选网络v的网络负载，

代表MD u在t时隙与候选网络v的网络开销，

表示MD u在t时隙与候选网络v的能量消耗；

步骤4：MD检测业务类型

其中，

表示MD u在t时隙的业务类型。五种典型业务类型分别为：会话类、交互类、流类、M2M类和后台类，表示为

其中b∈{1,2,3,4,5}，β₁代表会话类，β₂代表交互类，β₃代表流类，β₄代表M2M类，β₅代表后台类；

步骤5：初始化业务类型权重信息，根据业务类型使用层次分析法AHP，通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤，计算其对应的网络状态权重信息W_b；

步骤6：MD检测用户偏好信息

使用

表示用户偏好集合，其中

χ₁代表网络费用C，χ₂代表网络时延D，χ₃代表终端能耗E；

步骤7：MD把收集到的网络状态信息s_u(t)，业务类型

和用户偏好信息

上传至当前BS；

步骤8：当前BS首先根据用户偏好信息

使用用户偏好公式(1)更新业务类型对应的网络状态权重信息，其中，a_ij为判断矩阵中的值；

步骤9：目标网络选择过程：首先把目标网络选择问题建模为马尔科夫决策过程，然后对网络状态s_u(t)信息使用公式(2)进行归一化处理，把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算，求最大状态价值argmax_π[V_π(s)]所对应的策略π^*，把策略π^*对应的网络作为目标切换网络；

步骤10：相同类型的网络执行水平切换，否则执行垂直切换；

步骤11：依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息；

步骤12：根据MD的历史位置、目标切换网络的ID和对应的RSS信息，利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值；

步骤13：计算筛选机制中筛选阈值RSS_th，其方法是：根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSS_th进行累加求平均值；

步骤14：更新筛选阈值RSS_th，用步骤13得到的平均值作为筛选阈值RSS_th的更新值，以防止预测的RSS与真实值之间有差距而错过最优目标网络；

步骤15：重复迭代，直到结束。

与现有的研究相比，本技术方案具有如下特点：

1、传统的网络切换方法是基于MD与BS之间的RSS值是否满足A3事件来进行切换，这种切换方法由于MD的移动和网络的波动很容易产生“乒乓效应”，在UD-HWN中这种切换判决方法是不现实的。所以，本技术方案中为了降低MD与网络的切换次数，根据每种业务类型对网络的性能要求不同，比如，会话类业务属于实时性业务的一种，其需要保证数据的快速传输和连续性，所以对网络时延和抖动比较敏感。交互类业务也是实时性业务，其要保证数据内容透明传输以及完整的信息内容，要求有很低的误码率和丢包率。综合考虑多种业务类型和多种网络属性作为切换判决属性，根据多种切换判决属性共同约束MD与网络之间的切换，以此降低MD与网络之间不必要的网络切换。

2、为了提高网络吞吐量和降低MD的能量消耗，本技术方案中首先提出一个联合RSS门限阈值机制对候选网络进行筛选，先设定一个初始阈值RSS_th，MD通过检测把符合条件的网络加入候选网络列表，考虑到在UD-HWN中会有多种业务类型，不同的业务类型对网络性能的要求不同，比如，非实时性业务类型(视频流)对带宽要求比较高，但是对RSS相对要求不需要那么高，所以初始筛选阈值RSS_th设置为-120dBm，因为小于-120dBm所有业务几乎无法呼起。筛选机制能够降低候选网络规模，从而降低后续目标网络选择算法中计算复杂度，增加MD对最优目标网络的选择的概率。另外，在UD-HWN中MD与BS之间可能会有大量的信令交互，大量的信令交互会占用部分网络资源，造成可用网络资源减少和MD的能量消耗升高，从而降低用户的QoS和QoE。为了降低不必要的网络参数信令交互，提高网络吞吐量，降低MD能量消耗以及服务时延，本技术方案通过采用深度学习中的门控循环单元(GRU)模型，根据MD与BS的RSS的历史信息及MD对应的位置信息，预测未来时隙MD可能最优RSS，更新优化RSS门限阈值。

3、针对UD-HWN中动态时变的网络资源和性能对网络切换的影响，本技术方案提出了基于强化学习A3C的切换判决算法(RSS Asynchronous Advantage Actor-CriticHandover，RA3CHO)。首先通过层次分析法(AHP)计算不同业务对应的属性权重值，再基于用户偏好对属性权重值进行再优化；然后，把网络的切换过程建模为马尔科夫决策过程(MDP)模型，结合深度强化学习A3C算法，把业务类型和候选网络性能参数作为输入使用Critic神经网络计算出各候选网络的状态价值大小，并选择状态价值最大的网络作为目标切换网络，如果当前接入网络和目标切换网络的类型相同，则MD执行水平切换，否则执行垂直切换，实现自适应切换决策。

本技术方案能在实际生活中得到应用。

这种方法使UD-HWN中的MD自适应的实现目标网络的选择和切换，能够降低MD与BS的信令交互，提升网络吞吐量，降低MD的能量消耗，降低目标网络选择的时间复杂度，提升切换效率和准确性，实现自适应切换。

附图说明

图1实施例中系统应用场景模型图；

图2实施例中目标网络切换流程图；

图3实施例中Worker线程与环境进行交互训练过程示意图；

图4实施例中GRU网络单元结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

本例考虑一个覆盖长度为L、宽度为W的超密集异构网络环境为系统应用场景，其示意图如图1所示。系统由1个4G宏基站(MBS)、M个5G微基站(SBS)、N个WLAN-AP和U个MD构成。其中，SBS和WLAN分布在MBS的覆盖范围下，SBS的集合可以表示为

WLAN-AP的集合可以表示为

MD的集合可以表示为

候选网络集合V＝{1,2,…,v,…,V}。4G MBS的传输半径为R_4G，每个5G SBS的传输半径为R_5G，每个WLAN-AP的传输半径为R_W。M个5G SBS和N个WLAN-AP随机部署在该区域，相邻BS有交叉实现区域全覆盖。每个MD在某一时刻是移动或静止状态，本系统规定MD的移动速度为3m/s。每个MD处于多个网络覆盖的状态。

本例主要考虑五种典型业务类型分别为：会话类、交互类、流类、M2M类和后台类，表示为

用户u在t时隙的业务类型可以表示为

通过分析可知，每种业务类型的特点各不相同，其对网络性能的要求也不同。本例考虑七种影响网络切换的判决属性，其分别为：接收信号强度RSS、带宽B、延迟D、网络抖动J、丢包率L、网络费用C和终端能耗E。

本例以网络中的一个服务周期T为例。

步骤3：移动设备MD获取候选网络状态信息表示为

其中，MD的编号表示为

集合s_u(t)中表示切换判决属性，

表示MD u在t时隙与候选网络v的信号接收强度值，

表示MD u在t时隙与候选网络v的网络带宽，

表示MD u在t时隙与候选网络v的网络延迟，

表示MD u在t时隙与候选网络v的网络抖动，

表示MD u在t时隙与候选网络v的网络负载，

代表MD u在t时隙与候选网络v的网络开销，

表示MD u在t时隙与候选网络v的能量消耗；

步骤4：MD检测业务类型

其中，

步骤6：MD检测用户偏好信息

使用

表示用户偏好集合，其中

步骤7：MD把收集到的网络状态信息s_u(t)，业务类型

和用户偏好信息

上传至当前BS；

步骤8：当前BS首先根据用户偏好信息

目标网络选择具体过程表示为：

1)将UD-HWN中的目标网络选择问题建模为马尔科夫决策过程(Markov DecisionProcess,简称MDP)，可通过四元组<S,A,P,R>来表示，其中S表示有限的网络状态空间，A表示有限的网络选择动作空间，P表示在网络状态s下选择动作a后使网络状态转移到s^′的概率，R代表执行动作A的奖励值；

2)构造状态空间：假设每个MD u有

个候选网络，其中

本例考虑了7种切换判决属性：接收信号强度RSS、带宽B、延迟D、网络抖动J、丢包率L、网络费用C和终端能耗E，则网络状态空间可以表示为：S＝{S₁,S₂,…,S_u,…,S_U}，其中MD u的网络状态S_u表示为：

其中×表示笛卡尔积，网络状态空间由每一个MD u的候选网络集合和切换判决属性作笛卡尔积构成，为了避免维度灾难现象需要降低状态空间的维数，把每个MD u的切换判决属性在其取值范围内离散化，即：

其中t表示决策时刻，即做出决策并选择动作的时间点，其表示为：T＝{1,2,…,t,…,T}。

表示MD u在t时隙与候选网络v的RSS，同理

表示的含义以此类推；

然后把MD上传的网络状态s_u(t)信息使用公式(2)进行归一化处理，其中r_ij表示归一化后的值，b_ij表示候选网络中某一个判决属性的值，min_ib_ij表示该判决属性中最小的值，max_ib_ij表示该判决属性中最大的值；

3)构造动作空间：系统中的动作是指智能体(agent)在候选网络列表中进行网络切换的动作，即A_t＝{a₁(t),…,a_u(t),…,a_U(t)}，其中

表示agent在t时隙选择候选网络v的概率；

4)构造奖励函数：奖励函数是指agent在候选网络列表中执行网络切换策略π的累积奖励，系统在t时隙采取策略π进行目标网络选择的奖励函数可表示为公式(3)所示，其中W_b为业务类型b的判决属性权重向量，

为用户u在t时隙与候选网络v经过归一化处理之后得到的判决属性值的向量表示，v∈[1,V]，R_t为即时奖励；

5)构造状态价值函数：状态价值函数V_π(s)，表示在s状态下采取动作策略π所获得的累积奖励的总和，具体表示如公式(4)所示，其中γ∈[0,1]为折扣因子，表示未来奖励在当前决策中的重要程度；

6)构造动作价值函数：动作价值函数Q_π(s,a)，表示在s状态下采取策略π中动作a所获得的累积奖励总和，具体表示如公式(5)所示：

由此可知，V_π(s)与Q_π(s,a)之间的关系可以表示为：

强化学习的目标是最大化累积折扣奖励，即找到最优策略序列π^*使上述状态值函数的值最大，可以表示为：

7)A3C网络的具体训练过程：

A3C算法中每个Worker线程与环境进行交互训练的过程如图3所示，每个Worker线程和UD-HWN环境交互获得t时隙内业务类型、用户偏好信息和网络属性值数据后，Actor神经网络在训练过程中根据Critic神经网络计算出的累积奖励值来进行正向或反向调整动作选择的概率，Critic神经网络根据应用环境输出的奖励值来调整自己的参数。每个Worker线程计算自己神经网络损失函数的梯度，每隔一段时间，n个Worker线程会独立的使用累积的梯度分别更新公共部分的神经网络模型参数，这些线程里的模型采用异步强化学习方法使Worker线程更好的和环境交互，拿到相关性较低的数据帮助模型更快收敛，进而指导后面的环境交互；

①Actor神经网络训练和参数更新规则：

Actor网络是一种基于策略的神经网络，其目标是找到一种最优策略来提升系统性能，为了找到最优策略必须对神经网络进行训练更新参数。策略梯度定义一个优化目标函数J(π)，表示策略π得到折扣奖励值，用来衡量策略的好坏；

J(π)＝E[V_π(S₀)] (8)，其中S₀为初始状态；

Actor网络在输出层使用了softmax函数，所以状态S_t输出的每个动作都有相应的概率，agent根据网络输出的概率分布选择动作。Actor网络的策略函数定义为：

a＝π(S_t|θ) (9)，

Actor网络的参数更新过程是根据Critic网络提供状态价值函数的估计值，然后用这个估计值代替真实的状态价值形成策略梯度，再用这个梯度来更新Actor网络参数θ。关于参数θ的梯度可以表示为：

其中

是优势函数，

优势函数的含义是在状态S_t下，动作A_t相对于动作平均值的优势，其中Q_π(S_t,A_t)＝R_t+1+γV_π(S_t+1)；

Actor网络的本地策略参数梯度更新：

其中α是Actor网络的学习率，H(π(S_t,θ))为策略π的熵项，用于拓展策略探索空间，c为熵系数；

②Critic神经网络训练和参数更新规则：

Critic网络是一种基于价值的神经网络，其作用是用来评估Actor网络做出的策略好坏，目的是估计UD-HWN环境状态S_t对应的累积奖励值，Critic网络根据UD-HWN环境对Actor网络的动作奖励值来调整自己的参数，使用时序差分(Temporal Difference,简称TD)的梯度下降法来训练和更新网络参数，Critic网络将S_t和S_t+1作为输入，根据当前奖励R_t+1和估计值

与

计算时序差分误差(TD-Error)，公式(12)所示，使用均方差损失函数作为Critic网络参数

的梯度迭代更新，公式(15)所示：

通过最小化损失函数训练Critic网络参数

损失函数的梯度表达式为：

Critic网络参数

梯度更新表示为：

其中ξ是学习率；，

最后每个Worker线程会更新全局神经网络模型参数：θ＝θ-αdθ,

步骤10：自适应切换过程：相同类型的网络执行水平切换，否则执行垂直切换；

基于深度强化学习的多属性自适应切换判决算法过程：

输入：候选网络列表中业务类型

及其权重向量W_b，用户偏好

和网络状态(归一化处理后)

初始学习率α和ξ，熵系数c，折扣因子γ，Critic网络预训练回合数K₁，联合训练回合数K₂；

输出：最优目标网络v的ID编号

和

系统中移动性管理模块可以根据MD的历史RSS信息作为输入，预测下一时隙MD与目标BS的RSS值，其中历史RSS信息表示为RSS_u为文本描述数据，需要先把其转化为计算机能处理的数值向量再作为输入信息。本例使用word2vec模型对历史RSS信息进行处理，使用word2vec中的CBOW模型获取历史RSS信息的词向量，首先将历史RSS信息中的目标基站编号、MD的位置标签信息、与目标BS之间的RSS值、停留时间以及用户偏好信息转换为one-hot向量，然后把其作为CBOW模型的输入，通过模型训练得到词向量，词向量化后MD u的历史RSS信息表示为：

GRU网络模型单元结构如图4所示，每个记忆块包括更新门和重置门，图中x_t表示当前的输入信息，h_t-1表示上一个网络单元传递下来的隐状态(包含了之前网络单元的相关信息，即称为历史信息)，h_t表示当前网络单元的输出和传递给下一网络单元的隐状态，z_t和r_t分别表示更新门和重置门，更新门作用用于控制当前时隙状态h_t需要从上一时隙状态h_t-1中保留多少信息，更新门的值越大说明上一时隙状态h_t-1信息被带入的越多。重置门负责控制上一时隙状态h_t-1信息被写入到当前的候选状态

上，重置门的值越小，上一时隙状态h_t-1的信息被写入的越少，更新门z_t和重置门r_t的计算公式可以表示为：

z_t＝σ(W_zx_t+U_zh_t-1+b_z) (16)，

r_t＝σ(W_rx_t+U_rh_t-1+b_r) (17)，

σ表示激活函数sigmoid，z_t,r_t∈[0,1]，W_*,U_*为相应的权重矩阵，b_*为可变偏差，*∈{z,r}；

GRU网络中候选状态

可以定义为：

其中

表示向量元素相乘；

GRU网络的状态更新方式表示为：

GRU训练算法是反向传播(Back Propagation,BP)算法，主要包括以下三个步骤：

1)计算网络单元中每个神经元向前的输出值，GRU中输出值包括z_t,r_t,

和h_t；

2)计算网络单元中每个神经元向后的误差项的值；

3)根据相应的误差项计算每个权重的梯度；

具体过程如基于GRU的RSS预测及筛选阈值更新算法所示：

输入：MD历史RSS信息：

其中

时间步长k，学习率η

输出：候选网络更新筛选阈值RSS′_th

步骤15：重复迭代，直到周期T结束。