CN113784410A

CN113784410A - 基于强化学习td3算法的异构无线网络垂直切换方法

Info

Publication number: CN113784410A
Application number: CN202111120444.5A
Authority: CN
Inventors: 杨晓萍; 刘水; 王雪; 丛玉良; 钱志鸿; 谢明桐; 张菁
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-10
Anticipated expiration: 2041-09-24
Also published as: CN113784410B

Abstract

本发明专利公开了基于强化学习TD3算法的异构无线网络垂直切换方法，具体涉及通讯技术领域。包括如下步骤：采用熵权法计算网络状态参数的权重，构造奖励函数；初始化策略网络以及两个估计网络，对上述网络对应的目标网络初始化，并初始化经验池；演员当前网络根据网络状态参数做出切换决策，求得奖励值；采用梯度下降法训练评论家当前网络，采用梯度上升法训练演员当前网络，更新演员目标网络参数和评论家目标网络参数；在每个决策时刻进行S4‑S5的操作步骤，训练更新网络参数；根据训练好的策略网络来确定最优的切换策略。采用本发明技术方案解决了深度强化学习汇总网络参数状态动作值过高估计的问题，可用于快速选出最优切换决策。

Description

基于强化学习TD3算法的异构无线网络垂直切换方法

技术领域

本发明涉及通讯技术领域，特别涉及基于强化学习TD3算法的异构无线网络垂直切换方法。

背景技术

在过去的几年里，伴随着社会经济的迅猛发展、科学技术的不断突破，人们对高水平、高质量的信息通信提出了更多的需求，为了符合广大用户的用户体验，第五代移动通信系统(5G)应运而生，在实现“万物互联”的目标下，高带宽、低时延的通信需求被放在提升的首位。与此同时，单一的网络不再符合广大用户日益多样化的业务需求，为满足通信业务发展的需要，以及支持用户更高的业务需求，异构网络之间的融合成为新一代网络发展的必然趋势。

截止到目前为止，已经出现了很多异构无线网络关于垂直切换方面的研究，同时也提出了许多不同的垂直切换算法，垂直切换算法主要可以分为以下五种：1、基于绝对RSS的垂直切换算法；2、基于模糊逻辑和神经网络的垂直切换算法；3、基于代价函数的垂直切换算法；4、基于多属性决策的垂直切换算法；5、基于强化学习的垂直切换算法。

基于强化学习的垂直切换算法是把异构无线网络垂直切换问题转化成马尔科夫斯基决策问题，使用熵权法来确定进行垂直切换时的权重大小，并通过网络切换的具体情况来构造奖励函数，其中智能体可以与环境进行交互，并且可以通过环境的控制来获得最大奖励值来优化动作，进而获取到最优切换策略。

双延迟深度确定性策略梯度算法(TD3)是一种离线的用于连续动作空间基于演员评论家模式的深度强化学习算法。系统状态通过策略网络(演员网络)对输入的动作做出相应的决策，估计网络(评论家网络)对输入的状态动作进行相应的决策，不断对这个过程进行迭代。TD3算法中在估计网络的部分采用了两个评论家网络，目的是防止像深度强化学习DDPG算法中评论家网络出现的过高估计动作状态值的问题，做法是在状态动作输出时采用其较小的值，从而降低过估计问题，获取动作最优决策。

发明内容

本发明意在提供基于强化学习TD3算法的异构无线网络垂直切换方法，通过智能体与环境的进行交互，使移动终端学习怎样去处理较为复杂的异构网络环境，对应做出最优的切换策略，同时能够有效地减少切换次数，提高系统资源利用率。

为了达到上述目的，本发明的技术方案如下：基于强化学习TD3算法的异构无线网络垂直切换方法，包括如下步骤：

S1、采用熵权法计算网络状态参数的权重，并根据所述权重构造奖励函数；

S2、初始化TD3算法中的策略网络以及两个估计网络，再对所述策略网络和两个估计网络对应的目标网络进行初始化，同时初始化一个经验池；

S3、所述策略网络包括演员当前网络和演员目标网络，所述估计网络包括评论家当前网络和评论家目标网络；

S4、所述演员当前网络根据所述网络状态参数做出切换决策，然后，通过所述奖励函数求得一个奖励值，同时得到演员当前网络的下一个状态，并将所述策略网络中做出的切换决策数据存储到所述经验池中；

S5、采用梯度下降法训练评论家当前网络，更新评论家当前网络参数后，采用梯度上升法训练演员当前网络，更新演员当前网络参数后，使用软更新方式，更新演员目标网络参数和评论家目标网络参数；

S6、进行L次循环迭代，每次循环迭代从初始时刻开始，得到初始化网络状态，直到循环结束；在每个决策时刻进行S4-S5的操作步骤，训练更新网络参数；

S7、根据训练好的策略网络来确定最优的切换策略。

优选的，步骤S1中，所述熵权法计算网络状态参数权重的具体步骤为：

所述网络状态参数包括：可用带宽(B)、时延(D)、误码率(E)和时延抖动(J)；

根据不同的网络状态参数在切换判决中所占的比重构造实时业务和非实时业务的决策矩阵Z：

Z＝(z_ij)_4×4，z_ij为第i个备选网络的第j个网络参数的值，

将矩阵Z标准化得到矩阵H：

H＝(h_ij)_4×4，其中

将矩阵H进行归一化得到矩阵P：

P＝(p_ij)_4×4，其中

对于第j个网络参数而言，计算信息熵得到矩阵E：

其中j＝1,2,3,4，k＝(lnn)^-1，信息效用值d_j＝1-e_j，将d_j进行归一化，得到每个网络参数的客观权重β_j：

其中j＝1,2,3,4。

优选的，步骤S1中，所述奖励函数的构造步骤为：

奖励函数表示为：R(s,a)＝β^BR^B(s,a)+β^DR^D(s,a)+β^ER^E(s,a)+β^JR^J(s,a)；其中，β为网络参数的权重因子并与客观权重β_j保持一致，并且(0≤β≤1)；R^B(s,a)为可用宽带的奖励函数、R^D(s,a)为时延的奖励函数、R^E(s,a)为误码率的奖励函数、R^J(s,a)为时延抖动的奖励函数。

优选的，步骤S2-S3中，所述策略网络和估计网络的组建步骤为：

所述演员当前网络、演员目标网络、评论家当前网络、评价目标网络均由输入层、隐藏层和输出层构成；

所述策略当前网络和策略目标网络的网络参数分别用θ和θ’表示；评论家当前网络和评论家目标网络的网络参数分别用w₁,w₂和w’₁,w’₂表示；

所述策略网络中的演员当前网络通过梯度上升法更新当前网络，在神经网络作用下进行网络状态到切换动作的映射得到切换策略：π(s；θ)；估计网络中的评论家当前网络，通过神经网络近似Q函数得到Q值：Q(s,a；w)；演员目标网络和评论家目标网络在延时学习作用下，通过软更新的方式，获取π(s；θ’)和Q(s,a；w’)。

优选的，步骤S4的将所述策略网络中做出的决策数据存储到经验池中，其具体步骤为：

假设在异构无线网络区域内有k个备选网络，记为N＝{1,2,....k}，s_i(t)表示备选网络i在时刻t的状态，在每个决策时刻，移动终端只能接入到一个备选网络，切换决策数据为(s_i,a_i,r_i,s’_i)，s_i代表此时的网络状态，s_i表示为：

s_i＝[B¹,D¹,E¹,J¹,B²,D²,E²,J²,...,B^k,D^k,E^k,J^k,n,m]，

其中，B^k为备选网络k的可用带宽，D^k为备选网络k的时延，E^k为备选网络k的误码率，J^k为备选网络k的时延抖动，m为业务类型，m＝0时表示实时业务，m＝1时表示为非实时业务，n为在当前移动终端用户连接的网络，其中n∈{0,1,2,...,k}；

在策略网络中的演员当前网络作用下，状态s_i选择一个切换动作a_i并执行，进而输出确定性切换策略，其中，a_i＝π_φ1,2(s_i,θ)+σ_i，π_φ1,2(s_i,θ)为切换策略，σ_i为一个扰动，将切换动作决策从一个确定性过程变成一个随机过程；执行动作a_i后，通过神经网络得到网络的下一个状态s’_i和对应的奖励r_i，将数据样本(s_i,a_i,r_i,s’_i)存储到经验池中。

优选的，步骤S5中，所述评论家当前网络的训练步骤为：

以随机采样方式从经验池B中抽取部分切换样本，在每次训练神经网络时，作为状态评论家当前网络和演员当前网络的训练数据，使用均方差模型构造损失函数，通过梯度下降法迭代求解损失函数的最小化极值，更新评论家当前网络；损失函数为：

Loss＝N^-1∑_i(y-Q(s_i,a_i；w))²，

其中，Q(s_i,a_i；w)为估计值，即为评论家当前网络输出，y为样本真实值，N为训练时的取样次数，定义为：

使用贝尔曼方程算出两个动作估值，并取其最小值；γ(0≤γ≤1)为折扣因子，表示对之后得到的奖励的重视程度，公式中的s_i为演员目标网络的输入，a’_i＝π(s’_i；θ’)；s’和a_i为评论家目标网络的输入值，评论家目标网络的输出值s’和a_i对应的Q值：Q(s’_i,a_i；w’)。

优选的，步骤S5中，所述演员当前网络的训练步骤为：

在评论家当前网络更新后，使用梯度上升法，对演员当前网络进行更新，即：

评论家当前网络输入的是s_i和a＝π(s_i；θ),目标状态动作的输出为

其中，输出值为

中较小的值；

评论家目标网络的参数使用软更新的方式，其公式为:

w’←αw+(1-α)w’，

演员目标网络的参数使用软更新的方式，其公式为:

θ’←αθ+(1-α)θ’；

其中，α为学习率。

与现有技术相比，本方案的有益效果：

本方案采用熵权法来确定网络状态参数的权重，利用权重来构建奖励函数；与现有的深度强化学习算法相比，TD3算法使用两个评论家目标网络估计网络参数状态动作值，并选择其中较小的网络状态参数状态动作值进行参数训练，解决了深度强化学习汇总网络参数状态动作值过高估计的缺点，从而选择出最优切换决策，降低时延，提高系统的资源利用率。

附图说明

图1是本发明基于强化学习TD3算法的异构无线网络垂直切换方法的流程图；

图2是本发明基于强化学习TD3算法的异构无线网络垂直切换方法的系统模型图。

具体实施方式

下面通过具体实施方式对本发明作进一步详细的说明：

实施例

如附图1所示，基于强化学习TD3算法的异构无线网络垂直切换方法，包括如下步骤：

S1、采用熵权法计算网络状态参数的权重，并根据权重构造奖励函数。

S2、初始化TD3算法中的策略网络以及两个估计网络，再对所述策略网络和两个估计网络对应的目标网络进行初始化，同时初始化一个经验池B。

S3、策略网络包括演员当前网络和演员目标网络，估计网络包括评论家当前网络和评论家目标网络；

S4、演员当前网络根据网络状态参数做出切换决策，然后，通过奖励函数求得一个奖励值，同时得到演员当前网络的下一个状态，并将策略网络中做出的切换决策数据存储到经验池B中。

S5、采用梯度下降法训练评论家当前网络，更新评论家当前网络参数后，采用梯度上升法训练演员当前网络，更新演员当前网络参数后，使用软更新方式，更新演员目标网络参数和评论家目标网络参数。

S6、进行L次循环迭代，每次循环迭代从初始时刻开始，得到初始化网络状态，直到循环结束；在每个决策时刻进行S4-S5的操作步骤，训练更新网络参数。

S7、根据训练好的策略网络来确定最优的切换策略。

需要了解的是：熵权法是一种多属性决策算法，同时也是一种客观赋权法，它根据指标的变异程度，观察其所反映的信息量的多少，计算出与之相对应的权重值，进而反映出对各个属性的重视程度。

在步骤S1中，利用熵权法分别计算实时业务和非实时业务的网络参数权重值，并依据得到的权重值构造奖励函数。步骤S1具体包括：

利用熵权法确定网络参数的客观权重，选取影响垂直切换的四个网络参数：可用带宽、时延、误码率和时延抖动。

Z＝(z_ij)_4×4，z_ij为第i个备选网络的第j个网络参数的值，

接着将矩阵Z标准化得到矩阵H：

H＝(h_ij)_4×4，其中

将矩阵H进行归一化得到矩阵P：

P＝(p_ij)_4×4，其中

对于第j个网络参数而言，计算信息熵得到矩阵E：

其中j＝1,2,3,4。

在步骤S1中，基于网络状态参数的权重值构造奖励函数可以表示为：

奖励函数表示为：R(s,a)＝β^BR^B(s,a)+β^DR^D(s,a)+β^ER^E(s,a)+β^JR^J(s,a)；

其中，β为网络参数的权重因子并与客观权重β_j保持一致，并且(0≤β≤1)；R^B(s,a)为可用宽带的奖励函数、R^D(s,a)为时延的奖励函数、R^E(s,a)为误码率的奖励函数、R^J(s,a)为时延抖动的奖励函数。

需要了解的是：基于强化学习TD3算法的异构无线网络垂直切换方法，通过智能体与环境的进行交互训练神经网络，使移动终端学习怎样去处理较为复杂的异构网络环境，并通过训练好的神经网络做出最优的切换策略。

如附图2所示，在步骤S2-S7中确定最优切换策略，假设异构无线网络环境中存在三种备选网络，分别是UMTS、LTE、WLAN。在异构网络区域内随机产生200个移动终端，其运动方向每隔一段时间随机发生变化。终端随机产生实时业务和非实时业务，实时业务和非实时业务的到达均服从泊松分布，服务时间服从负指数分布。

此处设定存在三个备选网络，即k＝3，则移动终端网络的网络状态s_i表示为：

s_i＝[B¹,D¹,E¹,J¹,B²,D²,E²,J²,B³,D³,E³,J³,n,m]

此时，开始构建TD3网络，TD3网络包括一个演员当前网络、一个演员目标网络、两个评论家当前网络和两个评论家目标网络。

初始化TD3网络参数，循环迭代L次，经验池B，折扣因子γ，软更新因子α，两个评论家当前网络参数w₁、w₂，两个评论家目标网络参数w’₁、w’₂，演员当前网络参数θ，演员目标网络参数θ’，评论家目标网络比评论家当前网络的权重参数更新的要慢一些，同时，演员目标网络比演员当前网络的权重参数更新的要慢一些。

移动终端与环境进行交互：在初始状态下，将策略网络输出的确定性策略转化为随机动作a_i，输入此动作后，得到对应的奖励r_i和网络的下一个状态s’_i，紧接着开始L轮循环迭代，在此过程中产生的数据存储到经验池B中。当存储在经验池B中的样本数量达到数据量的需求时，以随机采样方式从经验池B中抽取部分切换样本，在每次训练神经网络时，作为状态评论家当前网络和演员当前网络的训练数据。使用均方差模型构造损失函数，通过梯度下降法迭代求解损失函数的最小化极值，更新评论家当前网络；损失函数为：

Loss＝N^-1∑_i(y-Q(s_i,a_i；w))²，

其中，输出值为

中较小的值。

评论家目标网络的参数使用软更新的方式，其公式为:

w’←αw+(1-α)w’，

演员目标网络的参数使用软更新的方式，其公式为:

θ’←αθ+(1-α)θ’；

其中，α为学习率，一般取值为0.001。

在进行L轮循环迭代后，会得到一个训练到最佳状态的网络，通过训练好的策略网络输出确定性切换策略，为移动终端用户选择出最优的切换网络。

以上的仅是本发明的实施例，方案中公知的具体结构和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于强化学习TD3算法的异构无线网络垂直切换方法，其特征在于：包括如下步骤：

S7、根据训练好的策略网络来确定最优的切换策略。

2.根据权利要求1所述的基于强化学习TD3算法的异构无线网络垂直切换方法，其特征在于：步骤S1中，所述熵权法计算网络状态参数权重的具体步骤为：

Z＝(z_ij)_4×4，z_ij为第i个备选网络的第j个网络参数的值，

将矩阵Z标准化得到矩阵H：

H＝(h_ij)_4×4，其中

将矩阵H进行归一化得到矩阵P：

P＝(p_ij)_4×4，其中

对于第j个网络参数而言，计算信息熵得到矩阵E：

其中j＝1,2,3,4。

3.根据权利要求2所述的基于强化学习TD3算法的异构无线网络垂直切换方法，其特征在于：步骤S1中，所述奖励函数的构造步骤为：

4.根据权利要求2所述的基于强化学习TD3算法的异构无线网络垂直切换方法，其特征在于：步骤S2-S3中，所述策略网络和估计网络的组建步骤为：

所述策略当前网络和策略目标网络的网络参数分别用θ和θ'表示；所述评论家当前网络和评论家目标网络的网络参数分别用w₁,w₂和w'₁,w'₂表示；

所述策略网络中的演员当前网络通过梯度上升法更新当前网络，在神经网络作用下进行网络状态到切换动作的映射得到切换策略：π(s；θ)；估计网络中的评论家当前网络，通过神经网络近似Q函数得到Q值：Q(s,a；w)；演员目标网络和评论家目标网络在延时学习作用下，通过软更新的方式，获取π(s；θ')和Q(s,a；w')。

5.根据权利要求4所述的基于强化学习TD3算法的异构无线网络垂直切换方法，其特征在于：步骤S4的将所述策略网络中做出的决策数据存储到经验池中，其具体步骤为：

假设在异构无线网络区域内有k个备选网络，记为N＝{1,2,....k}，s_i(t)表示备选网络i在时刻t的状态，在每个决策时刻，移动终端只能接入到一个备选网络，切换决策数据为(s_i,a_i,r_i,s'_i)，s_i代表此时的网络状态，s_i表示为：