CN110225535B

CN110225535B - 基于深度确定性策略梯度的异构无线网络垂直切换方法

Info

Publication number: CN110225535B
Application number: CN201910479646.5A
Authority: CN
Inventors: 钱志鸿; 孙佳妮; 王雪; 冯一诺; 李京杭; 毕晶
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2021-07-20
Anticipated expiration: 2039-06-04
Also published as: CN110225535A

Abstract

本发明公开了基于深度确定性策略梯度的异构无线网络垂直切换方法，涉及通信技术领域，解决了异构无线网络环境中具有不同业务类型的用户终端在不同网络间频繁切换的问题，其技术方案要点是：采用层次分析法计算网络状态参数的权重，用于构造奖励函数；策略网络基于当前的网络状态做出切换决策，而后会得到一个奖励，根据奖励去更新评价网络，再沿着评价网络建议的方向去更新策略网络；该算法不仅基于当前的网络状态，而且考虑了潜在的未来网络状态以保证用户的QOS要求。具有能够为不同业务类型的用户选取最优的接入网络，并且能够有效地减少平均切换次数和切换失败概率，同时降低新呼叫用户阻塞率，提高了系统的资源利用率的效果。

Description

基于深度确定性策略梯度的异构无线网络垂直切换方法

技术领域

本发明涉及通信技术领域，更具体的说是涉及基于深度确定性策略梯度的异构无线网络垂直切换方法。

背景技术

为了满足日益增长的移动终端数量和爆炸式增长的网络流量，5G网络应运而生，提出了高带宽、低时延等要求，但是单一的网络很难满足用户日益多样化的服务需求，所以要求新一代的网络能够将已有的异构网络进行融合。下一代无线系统将集成多种无线接入技术，如4G、5G、WLAN、WIMAX、蓝牙等。

垂直切换是指，在异构无线网络区域，为了满足终端的不同业务需求、提供无缝移动性和会话连续性，具有多个接口的多模终端可以在业务传输期间改变其连接，在不同网络间进行切换的过程。目前，已经提出了多种不同的垂直切换算法，主要可以分为以下五类：1)基于RSS以及其变体的垂直切换算法。比如基于RSS的阈值算法、基于RSS的滞后算法、基于RSS的自适应滞后算法和基于RSS的预测算法等。2)基于多属性决策的垂直切换算法。此类算法将异构无线网络垂直切换问题建模为一个多属性决策问题。利用层次分析法或者熵值法确定网络不同参数的权重，再利用SAW、TOPSIS或GRA等算法对备选网络进行排序，从而选出切换的最优目标网络。3)基于模糊逻辑和神经网络的垂直切换算法。基于模糊逻辑的垂直切换算法将模糊逻辑引入到垂直切换过程中，将网络参数进行模糊化处理，并按照制定的模糊规则进行切换判；基于神经网络的垂直切换算法将网络的参数以及用户的偏好等作为神经网络的输入，神经网络的输出作为用户的切换策略；也可以将模糊逻辑和神经网络结合起来进行切换判决。4)基于强化学习的垂直切换算法。例如MDP、Q-learning等算法。基于MDP的垂直切换算法将异构无线网络垂直切换问题建模为马尔科夫决策问题，利用层次分析法确定影响垂直切换因素的权重，并构造每个连接的奖励函数，通过最大化总每次连接的期望回报来确定最优的切换策略；基于Q-learning的垂直切换算法，移动终端可以根据自身的在线学习特征，通过与环境的持续交互，获得最优的切换策略。5)基于博弈论的垂直切换算法。此类算法将垂直切换过程建模为一个合作博弈模型，用户和网络是博弈的参与者，基于纳什均衡或者囚徒困境原理，通过制定奖励合作、遏制对抗的机制达到博弈的动态平衡。

然而，在复杂的异构无线网络环境下，如何随时随地为用户提供多样化的服务、保障用户的服务质量是一个热点问题。因此，如何设计一种能使终端在现实世界中学习如何适应复杂的异构网络环境，做出最优切换决策，同时能够有效地减少切换失败概率和平均切换次数，降低新呼叫用户阻塞率，提高系统资源利用率的异构无线网络垂直切换方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了基于深度确定性策略梯度的异构无线网络垂直切换方法，此方法在不同的异构网环境之间具有泛化能力和通用性。能够使终端在现实世界中学习如何适应复杂的异构网络环境，做出最优切换决策，同时能够有效地减少切换失败概率和平均切换次数，降低新呼叫用户阻塞率，提高系统资源利用率。

为了实现上述目的，本发明采用如下技术方案：基于深度确定性策略梯度的异构无线网络垂直切换方法，包括以下步骤：

S1：采用层次分析法计算网络状态参数的权重，并根据所述权重构造奖励函数；

S2：采用误差反向传播的BP神经网络构建用于近似状态动作值函数的评价网络和用于近似策略函数的策略网络，并初始化网络参数，同时初始化一个存储空间R；所述评价网络包括状态估计网络和状态现实网络，策略网络包括动作估计网络和动作现实网络；

S3：所述动作估计网络根据当前所述网络状态参数做出切换决策，而后，通过所述奖励函数求得一个奖励值，同时得到网络的下一个状态，并将所述策略网络中做出的切换决策数据存储到所述存储空间R中；

S4：采用随机梯度下降法训练所述状态估计网络；

S5：采用随机梯度上升法训练所述动作估计网络；

S6：根据所述状态估计网络的训练结果更新状态现实网络，以及根据所述动作估计网络的训练结果更新动作现实网络；

S7：进行L次循环迭代，每次循环迭代从初始时刻开始，得到初始化网络状态，直至终止时刻；在每个决策时刻进行S3-S6的操作步骤，训练更新网络参数；

S8：根据训练好的策略网络确定最优切换策略。

优选的，在步骤S1中，所述计算网络状态参数的权重的具体步骤为：

所述网络状态参数包括可用带宽(B)、时延(D)、误码率(E)和时延抖动(J)；

将决策方案分为三个层次：目标层、准则层、方案层；首先，根据不同状态参数在切换判决中的重要程度分别构造实时业务和非实时业务的判断矩阵H＝(h_ij)_4×4，h_ij的值通过1-9标度法确定，体现参数i相比较于参数j的重要程度，由参数两两进行比较获得；其中，h_ijh_ji＝1，且h_ii＝1(i,j＝1,2,3,4)；

接着，将H＝(h_ij)_4×4的每一列归一化，得到矩阵W＝(w_ij)_4×4；其中，

然后将g_i归一化获得参数的主观权重值ω＝[ω₁,ω₂,ω₃,ω₄]^T，其中，

最后，对判断矩阵H进行一致性检验，计算一致性比例CR:

其中，λ_max为判断矩阵的最大特征值，RI表示平均一致性指标，可通过查表得到，n为网络参数的数量(n＝4)；当CR＜0.1时，认为判决矩阵的一致性是可以接受的，否则需要重新构造判决矩阵。

优选的，在步骤S1中，所述构造奖励函数的具体步骤为：

奖励函数表示为：r(s,a)＝ω_Br_B(s,a)+ω_Dr_D(s,a)+ω_Er_E(s,a)+ω_Jr_J(s,a)；其中，ω为网络参数的权重因子，(0≤ω≤1)；r_B(s,a)、r_D(s,a)、r_E(s,a)、r_J(s,a)分别为可用带宽、时延、误码率、时延抖动的奖励函数；

当参数为效益型参数，即参数值越大越好，如可用带宽(B)，则可用带宽奖励函数为：

其中，L_B和U_B分别为连接所需网络的最小和最大带宽，B_a为在状态s下采取动作a后目标候选网络所能提供的可用带宽值；

当参数为成本型参数时，即参数值越小越好，如误码率(E)、时延(D)、时延抖动(J)，则相应参数的奖励函数为；

其中，L_m和U_m分别为连接时对于参数m(m＝D、E、L)的最小和最大需求，m_a为在状态s下采取动作a后目标候选网络所能提供的参数m的值。

优选的，在步骤S2中，所述构建评价网络和策略网络的具体步骤为：

所述状态估计网络、状态现实网络、动作估计网络、动作现实网络等神经网络均由一个输入层、两个隐藏层和一个输出层四层构成；

其中，状态估计网络和状态现实网络的网络参数分别用ω和ω^-表示；动作估计网络和动作现实网络的网络参数分别用θ和θ^-表示；评价网络中的状态估计网络通过BP神经网络近似Q函数得到Q值：Q(s,a；ω)；策略网络中的动作估计网络通过BP神经网络进行网络状态到切换动作的映射得到切换策略：π(s；θ)；状态现实网络和动作现实网络获取Q(s,a；ω^-)和π(s；θ-)实现参数的收敛。

优选的，在步骤S3中，将切换决策数据存储到空间R中，用于重复学习以及神经网络的训练，其具体步骤为：

在由多个无线网络组成的区域中，移动终端在每一个决策时刻都必须做出切换决定，在每一个决策时期，用户终端只能选择一个网络；设定，决策时间间隔为τ，决策时间序列为T＝{t₀,t₁,t₂,…,t_i,…,t_N}，t_N为连接终止的时间；

切换决策数据为一个元组(s_i,a_i,r_i,s_i+1)，s_i为t＝t_i时刻网络的状态，假设在异构无线网络区域内有M个候选网络，记为N＝{1,2,...,M}，则s_i表示为：

s_i＝[B₁,D₁,E₁,J₁,B₂,D₂,E₂,J₂,...,B_M,D_M,E_M,J_M,n,k]；

其中，D_i为候选网络i的时延，B_i为候选网络i的可用带宽，E_i为候选网络i的误码率，J_i为候选网络i的时延抖动；n为在当前状态终端用户所连接的网络，n∈{0,1,2,...,M}；仅在连接开始时，即t＝t₀时刻，n值为0，表示此时尚未连接到任一无线网络；k为到达业务的业务类型，k∈{0,1}，k值为0表示到达终端的业务为实时业务，k值为1表示到达终端的业务为非实时业务；

在状态s_i下选择一个切换动作a_i并执行；其中，a_i＝π(s_i；θ)+n_i，π(s_i；θ)为策略网络中的动作估计网络输出的确定性切换策略，n_i是一个扰动，即将切换动作决策从一个确定性过程变成了一个随机过程，则所有可选择的切换动作集合A可定义为：a_i∈A＝{1,2，…，M}；执行该动作后，得到相应的奖励r_i和网络的下一个状态s_i+1，将这个过程形成的元组(s_i,a_i,r_i,s_i+1)存储到空间R中。

优选的，在步骤S4中，所述训练状态估计网络的具体步骤为：

在每次训练神经网络时，以随机采样方式从存储空间R中抽取部分切换样本作为状态估计网络和动作估计网络的训练数据；

采用常规的均方差模型构造损失函数，并通过反向传播使用梯度下降法一步步迭代求解损失函数的最小化极值，更新状态估计网络；损失函数为：

其中，Q(s_i,a_i；ω)为估计值，即为状态估计网络的输出，状态估计网络的输入为s_i和a_i；Y_i为样本真实值，视为标签，定义为：

Y_i＝r_i+γQ(s_i+1,π(s_i+1；θ^-)；ω^-)；

其中，γ(0≤γ≤1)为折扣因子，表示对之后得到的奖励的重视程度；动作现实网络的输入为s_i+1，输出为确定性策略a＝π(s_i+1；θ^-)；状态现实网络的输入为s_i+1和a＝π(s_i+1；θ^-)，输出为状态动作对的Q值：Q(s_i+1,π(s_i+1；θ^-)；ω^-)。

优选的，在步骤S5中，所述训练动作估计网络的具体步骤为：

所述状态估计网络更新结束后，对所述动作估计网络进行更新；在进行动作估计网络的更新时，采取策略梯度的方式，即：

在得到策略梯度以后，采用梯度上升法，朝着使得值函数增大的方向更新动作估计网络的参数θ，通过状态估计网络获取状态动作对的Q值，即状态估计网络的输入是s_i和a＝π(s_i；θ)，输出为Q(s_i,π(s_i；θ)；ω)；其中，a＝π(s_i；θ)为动作估计网络在状态s_i下输出的确定性切换策略。

优选的，在步骤S6中，更新状态现实网络和动作现实网络的具体步骤为：

状态现实网络、动作现实网络、状态估计网络和动作估计网络的参数均每一步更新；状态现实网络和动作现实网络的参数与状态估计网络和动作估计网络的参数相比，其更新幅度较小，其更新方式为：

ω^-←αω+(1-α)ω^-，θ^-←αθ+(1-α)θ^-；

其中，α为学习率。

优选的，在步骤S7中，S4-S6的操作步骤在存储空间R中存储的切换样本数据达到一定的预定数量后开始进行。

综上所述，本发明具有以下有益效果：误差反向传播的神经网络，是前向神经网络的一种，可以实现任何复杂的映射，具有很强的自适应性；采用层次分析法确定网络状态参数的权重，用于构造奖励函数；采用BP神经网络构建评价网络和策略网络，策略网络用于近似策略函数，评价网络用于近似状态动作值函数；策略网络基于当前的网络状态做出切换决策，而后会得到一个奖励，根据奖励可以去更新评价网络，再沿着评价网络建议的方向去更新策略网络，直到网络训练到最佳，即可根据策略网络的输出为终端用户选取最优的切换网络；能够使终端在现实世界中学习如何适应复杂的异构网络环境，做出最优切换决策，同时能够有效地减少切换失败概率和平均切换次数，降低新呼叫用户阻塞率，提高系统资源利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例中的流程图；

图2为本发明实施例中确定参数权重的层次结构图；

图3为本发明实施例中的系统模型图。

图4为本发明实施例中的BP神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图1-4，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：基于深度确定性策略梯度的异构无线网络垂直切换方法，如图1所示，包括以下步骤：

S1：采用层次分析法计算网络状态参数的权重，并根据权重构造奖励函数。

S2：采用误差反向传播的BP神经网络构建用于近似状态动作值函数的评价网络和用于近似策略函数的策略网络，并初始化网络参数，同时初始化一个存储空间R；评价网络包括状态估计网络和状态现实网络，策略网络包括动作估计网络和动作现实网络。

S3：动作估计网络根据当前网络状态参数做出切换决策，而后，通过奖励函数求得一个奖励值，同时得到网络的下一个状态，并将策略网络中做出的切换决策数据存储到存储空间R中。

S4：采用随机梯度下降法训练状态估计网络。

S5：采用随机梯度上升法训练动作估计网络。

S6：根据状态估计网络的训练结果更新状态现实网络，以及根据动作估计网络的训练结果更新动作现实网络。

S7：进行L次循环迭代，每次循环迭代从初始时刻开始，得到初始化网络状态，直至终止时刻；在每个决策时刻进行S3-S6的操作步骤，训练更新网络参数。

S8：根据训练好的策略网络确定最优切换策略。

需要了解的是：层次分析法是一种多属性决策算法，决策者可根据自身的经验、偏好等对各属性权重进行排序，能反映出决策者对各个属性的重视程度。

如图2所示，在步骤S1中，利用层次分析法分别计算实时业务和非实时业务的网络参数权重值，并基于得到的权重值构造奖励函数，步骤S1具体包括：

利用层次分析法确定网络参数的主观权重。选取影响垂直切换的四个网络参数：可用带宽、时延、误码率和时延抖动。其中，根据问题总目标将决策方案分为三个层次：目标层(切换判决)、准则层(网络参数)、方案层(备选网络)。

首先，根据不同状态参数在切换判决中的重要程度分别构造实时业务和非实时业务的判断矩阵H＝(h_ij)_4×4，h_ij的值通过1-9标度法确定，体现了参数i相比较于参数j的重要程度，由参数两两进行比较获得。其中，h_ijh_ji＝1，且h_ii＝1(i,j＝1,2,3,4)。h_ij的取值如表1所示；

表1

在相同到绝对强每两个等级之间可依次使用2，4，6，8将其量化。即取1,2,3,…,9或它们的倒数。

构造实时业务的判断矩阵H＝(h_ij)_4×4如表2所示；

表2

构造非实时业务的判断矩阵H＝(h_ij)_4×4如表3所示；

表3

其次，将H＝(h_ij)_4×4的每一列归一化，得到矩阵W＝(w_ij)_4×4，其中

将g_i归一化可获得参数的主观权重值ω＝[ω₁,ω₂,ω₃,ω₄]^T，其中，

最后，由于判断矩阵带有一定的主观性，需要对判断矩阵H进行一致性检验，计算一致性比例CR:

其中λ_max为判断矩阵的最大特征值，RI表示平均一致性指标，可通过查表4得到。当CR＜0.1时，认为判决矩阵的一致性是可以接受的，否则需要重新构造判决矩阵。

表4

n	1	2	3	4	5	6	7	8	9
										RI	0	0	0.52	0.89	1.12	1.26	1.36	1.41	1.46

在步骤S1中，基于网络状态参数的权重值构造奖励函数，奖励函数可以表示为：

r(s,a)＝ω_Br_B(s,a)+ω_Dr_D(s,a)+ω_Er_E(s,a)+ω_Jr_J(s,a)

其中，ω是网络参数的权重因子(0≤ω≤1)。r_B(s,a)、r_D(s,a)、r_E(s,a)、r_J(s,a)分别代表可用带宽、时延、误码率、时延抖动的奖励函数。

(1)当参数是效益型参数，即参数值越大越好，如可用带宽(B)，则可用带宽奖励函数为：

实时业务和非实时业务对各网络参数要求不同，故设置不同业务类型对各个网络参数的最小和最大需求，其中L_B和U_B分别代表连接所需的最小和最大带宽，B_a代表在状态s下采取动作a后目标候选网络所能提供的可用带宽值。

(2)当参数是成本型参数时，即参数值越小越好，如误码率(E)、时延(D)、时延抖动(J)，则相应参数的奖励函数为：

其中L_m和U_m分别代表连接时对于参数m(m＝D、E、L)的最小和最大需求，m_a代表在状态s下采取动作a后目标候选网络所能提供的参数m的值。

需要了解的是：基于深度确定性策略梯度的垂直切换方法是一种深度强化学习方法，移动终端可以根据自身的在线学习特征，通过与环境进行持续交互训练神经网络，并通过训练好的神经网络获得最优的切换策略。

如图3所示，在步骤S2-S8中确定最优切换策略，设定异构无线网络环境中存在三个备选网络，分别是：LTE、WLAN、UMTS，也可以扩展到更多网络共存的异构网络环境。在异构网络区域中随机产生100个移动终端，其运动方向每隔一段时间随机改变。终端随机产生实时业务和非实时业务，实时业务和非实时业务的到达均服从泊松分布，服务时间服从负指数分布。

此处设定存在三个备选网络，即M＝3，则移动终端网络的网络状态为：s_i＝[B₁,D₁,E₁,J₁,B₂,D₂,E₂,J₂,B₃,D₃,E₃,J₃,n,k]；所有可选择的切换动作集合A可定义为：a_i∈A＝{1,2,3}。

如图4所示，采用BP神经网络构建评价网络和策略网络，本实施例中的神经网络均由四层组成：一个输入层，两个隐含层和一个输出层。评价网络和策略网络的区别在于输入层神经元的个数不同。评价网络的输入是网络状态s_i＝[B₁,D₁,E₁,J₁,B₂,D₂,E₂,J₂,B₃,D₃,E₃,J₃,n,k]和a_i，因此输入神经元个数为15，记为4M+3；策略网络的输入是s_i＝[B₁,D₁,E₁,J₁,B₂,D₂,E₂,J₂,B₃,D₃,E₃,J₃,n,k]，因此输入神经元个数为14,记为4M+2。

其中，状态估计网络和状态现实网络的神经网络结构一样，初始权重也一样，用ω^-表示状态现实网络比状态估计网络的权重参数更新的要慢一些。动作估计网络和动作现实网络的神经网络结构一样，初始权重也一样，用θ^-表示状态现实网络比状态估计网络的权重参数更新的要慢一些。

移动终端与环境进行持续交互：在初始状态下，将策略网络输出的确定性策略转化为随机过程选择动作a_i，执行此动作后，会得到相应的奖励r_i和网络的下一个状态s_i+1，接着进入下一个step，不断循环，直到连接终止时刻。再进入下一个episode，不断循环。将这个过程形成的若干元组(s_i,a_i,r_i,s_i+1)存储到存储空间R中。

神经网络的训练：当空间R中存储的样本数量满足神经网络训练对于数据量的需求，则在每一个step完成步骤S3后，以随机采样方式从空间R中抽取小批量的切换样本，作为状态估计网络和动作估计网络的训练数据，接着进行步骤S4-S6。用(s_i,a_i,r_i,s_i+1)表示小批量元组样本中的单个样本数据。具体方法如下：

(1)采用随机梯度下降法训练状态估计网络

训练状态估计神经网络是一个最优化问题，最优化一个损失函数，即样本标签与网络的偏差，目标是让损失函数最小。使用最常见的均方差模型构造损失函数，通过反向传播使用梯度下降法一步步迭代求解损失函数的最小化极值，更新状态估计网络。损失函数为：

其中，Q(s_i,a_i；ω)为估计值，即为状态估计网络的输出，状态估计网络的输入为s_i和a_i；Y_i为样本真实值，可以看作标签，定义为：

Y_i＝r_i+γQ(s_i+1,π(s_i+1；θ^-)；ω^-)

其中，γ(0≤γ≤1)为折扣因子，表示对之后得到的奖励的重视程度。计算Y_i需要使用状态现实网络和动作现实网络，这样做是为了使状态估计网络参数的学习过程更加稳定，易于收敛。动作现实网络的输入为s_i+1，输出为确定性策略a＝π(s_i+1；θ^-)；状态现实网络的输入为s_i+1和a＝π(s_i+1；θ^-)，输出即为状态动作对的Q值:Q(s_i+1,π(s_i+1；θ^-)；ω^-)。

(2)采用随机梯度上升法训练动作估计网络

在进行动作估计网络的更新时，采取策略梯度的方式，即：

由于采取的是最大化期望奖励的方式，因此得到策略梯度以后，采用梯度上升法，朝着使得值函数增大的方向去更新动作估计网络的参数θ，需要通过状态估计网络获取状态动作对的Q值，即状态估计网络的输入是s_i和a＝π(s_i；θ)，输出为Q(s_i,π(s_i；θ)；ω)。其中，a＝π(s_i；θ)为动作估计网络在状态s_i下输出的确定性切换策略。

(3)采用软更新方法更新状态现实网络和动作现实网络

相比于状态估计网络和动作估计网络，状态现实网络和动作现实网络的参数同样也是每一步都会更新，但更新的幅度非常小，更新方式为：

ω^-←αω+(1-α)ω^-

θ^-←αθ+(1-α)θ^-

其中，α为学习率，一般取值为0.001。这种参数更新方式可以大大提高学习的稳定性。

在进行L轮循环迭代，每次循环迭代进行N个step后，会得到一个训练到最佳的网络，通过训练好的策略网络输出确定性切换策略，为终端用户选取最优的切换网络。

在策略网络没有训练到最佳之前，要兼顾探索和利用，利用是指选择动作估计网络输出的确定性策略作为切换动作，而探索的目的是探索潜在的更优策略，因此在动作估计网络输出的确定性策略上加一个扰动n_i，即a_i＝π(s_i；θ)+n_i，将动作决策从一个确定性过程变为一个随机过程。当网络训练到最佳时，在探索和利用中应该是完全倾向于利用的，即直接采用动作估计网络来输出切换策略。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于深度确定性策略梯度的异构无线网络垂直切换方法，其特征在于，包括以下步骤：

S1：采用层次分析法计算网络状态参数的权重，并根据所述权重构造奖励函数；所述计算网络状态参数的权重的具体步骤为：

将决策方案分为三个层次：目标层、准则层、方案层；首先，根据不同状态参数在切换判决中的重要程度分别构造实时业务和非实时业务的判断矩阵H＝(h_ij)_4×4，h_ij的值通过1-9标度法确定，体现参数i相比较于参数j的重要程度，由参数两两进行比较获得；其中，h_ijh_ji＝1，且h_ii＝1(i，j＝1，2，3，4)；

然后将g_i归一化获得参数的主观权重值ω＝[ω₁，ω₂，ω₃，ω₄]^T，其中，

最后，对判断矩阵H进行一致性检验，计算一致性比例CR:

其中，λ_max为判断矩阵的最大特征值，RI表示平均一致性指标，可通过查表得到，n为网络参数的数量(n＝4)；当CR＜0.1时，认为判决矩阵的一致性是可以接受的，否则需要重新构造判决矩阵；

所述构造奖励函数的具体步骤为：

奖励函数表示为：r(s，a)＝ω_Br_B(s，a)+ω_Dr_D(s，a)+ω_Er_E(s，a)+ω_Jr_J(s，a)；其中，ω为网络参数的权重因子，(0≤ω≤1)；r_B(s，a)、r_D(s，a)、r_E(s，a)、r_J(s，a)分别为可用带宽、时延、误码率、时延抖动的奖励函数；

当参数为效益型参数，即参数值越大越好，包括可用带宽(B)，则可用带宽奖励函数为：

当参数为成本型参数时，即参数值越小越好，包括误码率(E)、时延(D)、时延抖动(J)，则相应参数的奖励函数为；

其中，L_m和U_m分别为连接时对于参数m(m＝D、E、L)的最小和最大需求，m_a为在状态s下采取动作a后目标候选网络所能提供的参数m的值；

所述构建评价网络和策略网络的具体步骤为：

所述状态估计网络、状态现实网络、动作估计网络、动作现实网络均由一个输入层、两个隐藏层和一个输出层四层构成；

其中，状态估计网络和状态现实网络的网络参数分别用ω和ω^-表示；动作估计网络和动作现实网络的网络参数分别用θ和θ^-表示；评价网络中的状态估计网络通过BP神经网络近似Q函数得到Q值：Q(s，a；ω)；策略网络中的动作估计网络通过BP神经网络进行网络状态到切换动作的映射得到切换策略：π(s；θ)；状态现实网络和动作现实网络获取Q(s，a；ω^-)和π(s；θ^-)实现参数的收敛；

将切换决策数据存储到空间R中，用于重复学习以及神经网络的训练，其具体步骤为：

在由多个无线网络组成的区域中，移动终端在每一个决策时刻都必须做出切换决定，在每一个决策时期，用户终端只能选择一个网络；设定，决策时间间隔为τ，决策时间序列为T＝{t₀，t₁，t₂，...，t_i，...，t_N}，t_N为连接终止的时间；

切换决策数据为一个元组(s_i，a_i，r_i，s_i+1)，s_i为t＝t_i时刻网络的状态，假设在异构无线网络区域内有M个候选网络，记为N＝{1，2，...，M}，则s_i表示为：

s_i＝[B₁，D₁，E₁，J₁，B₂，D₂，E₂，J₂，...，B_M，D_M，E_M，J_M，n，k]；

其中，D_i为候选网络i的时延，B_i为候选网络i的可用带宽，E_i为候选网络i的误码率，J_i为候选网络i的时延抖动；n为在当前状态终端用户所连接的网络，n∈{0，1，2，...，M}；仅在连接开始时，即t＝t₀时刻，n值为0，表示此时尚未连接到任一无线网络；k为到达业务的业务类型，k∈{0，1}，k值为0表示到达终端的业务为实时业务，k值为1表示到达终端的业务为非实时业务；

在状态s_i下选择一个切换动作a_i并执行；其中，a_i＝π(s_i；θ)+n_i，π(s_i；θ)为策略网络中的动作估计网络输出的确定性切换策略，n_i是一个扰动，即将切换动作决策从一个确定性过程变成了一个随机过程，则所有可选择的切换动作集合A可定义为：a_i∈A＝{1，2，...，M}；执行该动作后，得到相应的奖励r_i和网络的下一个状态s_i+1，将这个过程形成的元组(s_i，a_i，r_i，s_i+1)存储到空间R中；

S4：采用随机梯度下降法训练所述状态估计网络；所述训练状态估计网络的具体步骤为：

其中，Q(s_i，a_i；ω)为估计值，即为状态估计网络的输出，状态估计网络的输入为s_i和a_i；Y_i为样本真实值，视为标签，定义为：

Y_i＝r_i+γQ(s_i+1，π(s_i+1；θ^-)；ω^-)；

其中，γ(0≤γ≤1)为折扣因子，表示对之后得到的奖励的重视程度；动作现实网络的输入为s_i+1，输出为确定性策略a＝π(s_i+1；θ^-)；状态现实网络的输入为s_i+1和a＝π(s_i+1；θ^-)，输出为状态动作对的Q值：Q(s_i+1，π(s_i+1；θ^-)；ω^-)；

S5：采用随机梯度上升法训练所述动作估计网络；所述训练动作估计网络的具体步骤为：

在得到策略梯度以后，采用梯度上升法，朝着使得值函数增大的方向更新动作估计网络的参数θ，通过状态估计网络获取状态动作对的Q值，即状态估计网络的输入是s_i和a＝π(s_i；θ)，输出为Q(s_i，π(s_i；θ)；ω)；其中，a＝π(s_i；θ)为动作估计网络在状态s_i下输出的确定性切换策略；

S6：根据所述状态估计网络的训练结果更新状态现实网络，以及根据所述动作估计网络的训练结果更新动作现实网络；更新状态现实网络和动作现实网络的具体步骤为：

ω^-←αω+(1-α)ω^-，θ^-←αθ+(1-α)θ^-；

其中，α为学习率；

S8：根据训练好的策略网络确定最优切换策略。

2.根据权利要求1所述的基于深度确定性策略梯度的异构无线网络垂直切换方法，其特征在于，在步骤S7中，S4-S6的操作步骤在存储空间R中存储的切换样本数据达到预定数量后开始进行。