CN110225535B - 基于深度确定性策略梯度的异构无线网络垂直切换方法 - Google Patents
基于深度确定性策略梯度的异构无线网络垂直切换方法 Download PDFInfo
- Publication number
- CN110225535B CN110225535B CN201910479646.5A CN201910479646A CN110225535B CN 110225535 B CN110225535 B CN 110225535B CN 201910479646 A CN201910479646 A CN 201910479646A CN 110225535 B CN110225535 B CN 110225535B
- Authority
- CN
- China
- Prior art keywords
- network
- state
- action
- parameter
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000008901 benefit Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 84
- 230000006870 function Effects 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005309 stochastic process Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- XOOUIPVCVHRTMJ-UHFFFAOYSA-L zinc stearate Chemical compound [Zn+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O XOOUIPVCVHRTMJ-UHFFFAOYSA-L 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W36/00—Hand-off or reselection arrangements
- H04W36/0005—Control or signalling for completing the hand-off
- H04W36/0055—Transmission or use of information for re-establishing the radio link
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了基于深度确定性策略梯度的异构无线网络垂直切换方法,涉及通信技术领域,解决了异构无线网络环境中具有不同业务类型的用户终端在不同网络间频繁切换的问题,其技术方案要点是:采用层次分析法计算网络状态参数的权重,用于构造奖励函数;策略网络基于当前的网络状态做出切换决策,而后会得到一个奖励,根据奖励去更新评价网络,再沿着评价网络建议的方向去更新策略网络;该算法不仅基于当前的网络状态,而且考虑了潜在的未来网络状态以保证用户的QOS要求。具有能够为不同业务类型的用户选取最优的接入网络,并且能够有效地减少平均切换次数和切换失败概率,同时降低新呼叫用户阻塞率,提高了系统的资源利用率的效果。
Description
技术领域
本发明涉及通信技术领域,更具体的说是涉及基于深度确定性策略梯度的异构无线网络垂直切换方法。
背景技术
为了满足日益增长的移动终端数量和爆炸式增长的网络流量,5G网络应运而生,提出了高带宽、低时延等要求,但是单一的网络很难满足用户日益多样化的服务需求,所以要求新一代的网络能够将已有的异构网络进行融合。下一代无线系统将集成多种无线接入技术,如4G、5G、WLAN、WIMAX、蓝牙等。
垂直切换是指,在异构无线网络区域,为了满足终端的不同业务需求、提供无缝移动性和会话连续性,具有多个接口的多模终端可以在业务传输期间改变其连接,在不同网络间进行切换的过程。目前,已经提出了多种不同的垂直切换算法,主要可以分为以下五类:1)基于RSS以及其变体的垂直切换算法。比如基于RSS的阈值算法、基于RSS的滞后算法、基于RSS的自适应滞后算法和基于RSS的预测算法等。2)基于多属性决策的垂直切换算法。此类算法将异构无线网络垂直切换问题建模为一个多属性决策问题。利用层次分析法或者熵值法确定网络不同参数的权重,再利用SAW、TOPSIS或GRA等算法对备选网络进行排序,从而选出切换的最优目标网络。3)基于模糊逻辑和神经网络的垂直切换算法。基于模糊逻辑的垂直切换算法将模糊逻辑引入到垂直切换过程中,将网络参数进行模糊化处理,并按照制定的模糊规则进行切换判;基于神经网络的垂直切换算法将网络的参数以及用户的偏好等作为神经网络的输入,神经网络的输出作为用户的切换策略;也可以将模糊逻辑和神经网络结合起来进行切换判决。4)基于强化学习的垂直切换算法。例如MDP、Q-learning等算法。基于MDP的垂直切换算法将异构无线网络垂直切换问题建模为马尔科夫决策问题,利用层次分析法确定影响垂直切换因素的权重,并构造每个连接的奖励函数,通过最大化总每次连接的期望回报来确定最优的切换策略;基于Q-learning的垂直切换算法,移动终端可以根据自身的在线学习特征,通过与环境的持续交互,获得最优的切换策略。5)基于博弈论的垂直切换算法。此类算法将垂直切换过程建模为一个合作博弈模型,用户和网络是博弈的参与者,基于纳什均衡或者囚徒困境原理,通过制定奖励合作、遏制对抗的机制达到博弈的动态平衡。
然而,在复杂的异构无线网络环境下,如何随时随地为用户提供多样化的服务、保障用户的服务质量是一个热点问题。因此,如何设计一种能使终端在现实世界中学习如何适应复杂的异构网络环境,做出最优切换决策,同时能够有效地减少切换失败概率和平均切换次数,降低新呼叫用户阻塞率,提高系统资源利用率的异构无线网络垂直切换方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了基于深度确定性策略梯度的异构无线网络垂直切换方法,此方法在不同的异构网环境之间具有泛化能力和通用性。能够使终端在现实世界中学习如何适应复杂的异构网络环境,做出最优切换决策,同时能够有效地减少切换失败概率和平均切换次数,降低新呼叫用户阻塞率,提高系统资源利用率。
为了实现上述目的,本发明采用如下技术方案:基于深度确定性策略梯度的异构无线网络垂直切换方法,包括以下步骤:
S1:采用层次分析法计算网络状态参数的权重,并根据所述权重构造奖励函数;
S2:采用误差反向传播的BP神经网络构建用于近似状态动作值函数的评价网络和用于近似策略函数的策略网络,并初始化网络参数,同时初始化一个存储空间R;所述评价网络包括状态估计网络和状态现实网络,策略网络包括动作估计网络和动作现实网络;
S3:所述动作估计网络根据当前所述网络状态参数做出切换决策,而后,通过所述奖励函数求得一个奖励值,同时得到网络的下一个状态,并将所述策略网络中做出的切换决策数据存储到所述存储空间R中;
S4:采用随机梯度下降法训练所述状态估计网络;
S5:采用随机梯度上升法训练所述动作估计网络;
S6:根据所述状态估计网络的训练结果更新状态现实网络,以及根据所述动作估计网络的训练结果更新动作现实网络;
S7:进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻;在每个决策时刻进行S3-S6的操作步骤,训练更新网络参数;
S8:根据训练好的策略网络确定最优切换策略。
优选的,在步骤S1中,所述计算网络状态参数的权重的具体步骤为:
所述网络状态参数包括可用带宽(B)、时延(D)、误码率(E)和时延抖动(J);
将决策方案分为三个层次:目标层、准则层、方案层;首先,根据不同状态参数在切换判决中的重要程度分别构造实时业务和非实时业务的判断矩阵H=(hij)4×4,hij的值通过1-9标度法确定,体现参数i相比较于参数j的重要程度,由参数两两进行比较获得;其中,hijhji=1,且hii=1(i,j=1,2,3,4);
最后,对判断矩阵H进行一致性检验,计算一致性比例CR:其中,λmax为判断矩阵的最大特征值,RI表示平均一致性指标,可通过查表得到,n为网络参数的数量(n=4);当CR<0.1时,认为判决矩阵的一致性是可以接受的,否则需要重新构造判决矩阵。
优选的,在步骤S1中,所述构造奖励函数的具体步骤为:
奖励函数表示为:r(s,a)=ωBrB(s,a)+ωDrD(s,a)+ωErE(s,a)+ωJrJ(s,a);其中,ω为网络参数的权重因子,(0≤ω≤1);rB(s,a)、rD(s,a)、rE(s,a)、rJ(s,a)分别为可用带宽、时延、误码率、时延抖动的奖励函数;
当参数为效益型参数,即参数值越大越好,如可用带宽(B),则可用带宽奖励函数为:
其中,LB和UB分别为连接所需网络的最小和最大带宽,Ba为在状态s下采取动作a后目标候选网络所能提供的可用带宽值;
当参数为成本型参数时,即参数值越小越好,如误码率(E)、时延(D)、时延抖动(J),则相应参数的奖励函数为;
其中,Lm和Um分别为连接时对于参数m(m=D、E、L)的最小和最大需求,ma为在状态s下采取动作a后目标候选网络所能提供的参数m的值。
优选的,在步骤S2中,所述构建评价网络和策略网络的具体步骤为:
所述状态估计网络、状态现实网络、动作估计网络、动作现实网络等神经网络均由一个输入层、两个隐藏层和一个输出层四层构成;
其中,状态估计网络和状态现实网络的网络参数分别用ω和ω-表示;动作估计网络和动作现实网络的网络参数分别用θ和θ-表示;评价网络中的状态估计网络通过BP神经网络近似Q函数得到Q值:Q(s,a;ω);策略网络中的动作估计网络通过BP神经网络进行网络状态到切换动作的映射得到切换策略:π(s;θ);状态现实网络和动作现实网络获取Q(s,a;ω-)和π(s;θ-)实现参数的收敛。
优选的,在步骤S3中,将切换决策数据存储到空间R中,用于重复学习以及神经网络的训练,其具体步骤为:
在由多个无线网络组成的区域中,移动终端在每一个决策时刻都必须做出切换决定,在每一个决策时期,用户终端只能选择一个网络;设定,决策时间间隔为τ,决策时间序列为T={t0,t1,t2,…,ti,…,tN},tN为连接终止的时间;
切换决策数据为一个元组(si,ai,ri,si+1),si为t=ti时刻网络的状态,假设在异构无线网络区域内有M个候选网络,记为N={1,2,...,M},则si表示为:
si=[B1,D1,E1,J1,B2,D2,E2,J2,...,BM,DM,EM,JM,n,k];
其中,Di为候选网络i的时延,Bi为候选网络i的可用带宽,Ei为候选网络i的误码率,Ji为候选网络i的时延抖动;n为在当前状态终端用户所连接的网络,n∈{0,1,2,...,M};仅在连接开始时,即t=t0时刻,n值为0,表示此时尚未连接到任一无线网络;k为到达业务的业务类型,k∈{0,1},k值为0表示到达终端的业务为实时业务,k值为1表示到达终端的业务为非实时业务;
在状态si下选择一个切换动作ai并执行;其中,ai=π(si;θ)+ni,π(si;θ)为策略网络中的动作估计网络输出的确定性切换策略,ni是一个扰动,即将切换动作决策从一个确定性过程变成了一个随机过程,则所有可选择的切换动作集合A可定义为:ai∈A={1,2,…,M};执行该动作后,得到相应的奖励ri和网络的下一个状态si+1,将这个过程形成的元组(si,ai,ri,si+1)存储到空间R中。
优选的,在步骤S4中,所述训练状态估计网络的具体步骤为:
在每次训练神经网络时,以随机采样方式从存储空间R中抽取部分切换样本作为状态估计网络和动作估计网络的训练数据;
采用常规的均方差模型构造损失函数,并通过反向传播使用梯度下降法一步步迭代求解损失函数的最小化极值,更新状态估计网络;损失函数为:
其中,Q(si,ai;ω)为估计值,即为状态估计网络的输出,状态估计网络的输入为si和ai;Yi为样本真实值,视为标签,定义为:
Yi=ri+γQ(si+1,π(si+1;θ-);ω-);
其中,γ(0≤γ≤1)为折扣因子,表示对之后得到的奖励的重视程度;动作现实网络的输入为si+1,输出为确定性策略a=π(si+1;θ-);状态现实网络的输入为si+1和a=π(si+1;θ-),输出为状态动作对的Q值:Q(si+1,π(si+1;θ-);ω-)。
优选的,在步骤S5中,所述训练动作估计网络的具体步骤为:
所述状态估计网络更新结束后,对所述动作估计网络进行更新;在进行动作估计网络的更新时,采取策略梯度的方式,即:
在得到策略梯度以后,采用梯度上升法,朝着使得值函数增大的方向更新动作估计网络的参数θ,通过状态估计网络获取状态动作对的Q值,即状态估计网络的输入是si和a=π(si;θ),输出为Q(si,π(si;θ);ω);其中,a=π(si;θ)为动作估计网络在状态si下输出的确定性切换策略。
优选的,在步骤S6中,更新状态现实网络和动作现实网络的具体步骤为:
状态现实网络、动作现实网络、状态估计网络和动作估计网络的参数均每一步更新;状态现实网络和动作现实网络的参数与状态估计网络和动作估计网络的参数相比,其更新幅度较小,其更新方式为:
ω-←αω+(1-α)ω-,θ-←αθ+(1-α)θ-;
其中,α为学习率。
优选的,在步骤S7中,S4-S6的操作步骤在存储空间R中存储的切换样本数据达到一定的预定数量后开始进行。
综上所述,本发明具有以下有益效果:误差反向传播的神经网络,是前向神经网络的一种,可以实现任何复杂的映射,具有很强的自适应性;采用层次分析法确定网络状态参数的权重,用于构造奖励函数;采用BP神经网络构建评价网络和策略网络,策略网络用于近似策略函数,评价网络用于近似状态动作值函数;策略网络基于当前的网络状态做出切换决策,而后会得到一个奖励,根据奖励可以去更新评价网络,再沿着评价网络建议的方向去更新策略网络,直到网络训练到最佳,即可根据策略网络的输出为终端用户选取最优的切换网络;能够使终端在现实世界中学习如何适应复杂的异构网络环境,做出最优切换决策,同时能够有效地减少切换失败概率和平均切换次数,降低新呼叫用户阻塞率,提高系统资源利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中的流程图;
图2为本发明实施例中确定参数权重的层次结构图;
图3为本发明实施例中的系统模型图。
图4为本发明实施例中的BP神经网络结构图。
具体实施方式
下面将结合本发明实施例中的附图1-4,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:基于深度确定性策略梯度的异构无线网络垂直切换方法,如图1所示,包括以下步骤:
S1:采用层次分析法计算网络状态参数的权重,并根据权重构造奖励函数。
S2:采用误差反向传播的BP神经网络构建用于近似状态动作值函数的评价网络和用于近似策略函数的策略网络,并初始化网络参数,同时初始化一个存储空间R;评价网络包括状态估计网络和状态现实网络,策略网络包括动作估计网络和动作现实网络。
S3:动作估计网络根据当前网络状态参数做出切换决策,而后,通过奖励函数求得一个奖励值,同时得到网络的下一个状态,并将策略网络中做出的切换决策数据存储到存储空间R中。
S4:采用随机梯度下降法训练状态估计网络。
S5:采用随机梯度上升法训练动作估计网络。
S6:根据状态估计网络的训练结果更新状态现实网络,以及根据动作估计网络的训练结果更新动作现实网络。
S7:进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻;在每个决策时刻进行S3-S6的操作步骤,训练更新网络参数。
S8:根据训练好的策略网络确定最优切换策略。
需要了解的是:层次分析法是一种多属性决策算法,决策者可根据自身的经验、偏好等对各属性权重进行排序,能反映出决策者对各个属性的重视程度。
如图2所示,在步骤S1中,利用层次分析法分别计算实时业务和非实时业务的网络参数权重值,并基于得到的权重值构造奖励函数,步骤S1具体包括:
利用层次分析法确定网络参数的主观权重。选取影响垂直切换的四个网络参数:可用带宽、时延、误码率和时延抖动。其中,根据问题总目标将决策方案分为三个层次:目标层(切换判决)、准则层(网络参数)、方案层(备选网络)。
首先,根据不同状态参数在切换判决中的重要程度分别构造实时业务和非实时业务的判断矩阵H=(hij)4×4,hij的值通过1-9标度法确定,体现了参数i相比较于参数j的重要程度,由参数两两进行比较获得。其中,hijhji=1,且hii=1(i,j=1,2,3,4)。hij的取值如表1所示;
表1
在相同到绝对强每两个等级之间可依次使用2,4,6,8将其量化。即取1,2,3,…,9或它们的倒数。
构造实时业务的判断矩阵H=(hij)4×4如表2所示;
表2
构造非实时业务的判断矩阵H=(hij)4×4如表3所示;
表3
最后,由于判断矩阵带有一定的主观性,需要对判断矩阵H进行一致性检验,计算一致性比例CR:其中λmax为判断矩阵的最大特征值,RI表示平均一致性指标,可通过查表4得到。当CR<0.1时,认为判决矩阵的一致性是可以接受的,否则需要重新构造判决矩阵。
表4
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
RI | 0 | 0 | 0.52 | 0.89 | 1.12 | 1.26 | 1.36 | 1.41 | 1.46 |
在步骤S1中,基于网络状态参数的权重值构造奖励函数,奖励函数可以表示为:
r(s,a)=ωBrB(s,a)+ωDrD(s,a)+ωErE(s,a)+ωJrJ(s,a)
其中,ω是网络参数的权重因子(0≤ω≤1)。rB(s,a)、rD(s,a)、rE(s,a)、rJ(s,a)分别代表可用带宽、时延、误码率、时延抖动的奖励函数。
(1)当参数是效益型参数,即参数值越大越好,如可用带宽(B),则可用带宽奖励函数为:
实时业务和非实时业务对各网络参数要求不同,故设置不同业务类型对各个网络参数的最小和最大需求,其中LB和UB分别代表连接所需的最小和最大带宽,Ba代表在状态s下采取动作a后目标候选网络所能提供的可用带宽值。
(2)当参数是成本型参数时,即参数值越小越好,如误码率(E)、时延(D)、时延抖动(J),则相应参数的奖励函数为:
其中Lm和Um分别代表连接时对于参数m(m=D、E、L)的最小和最大需求,ma代表在状态s下采取动作a后目标候选网络所能提供的参数m的值。
需要了解的是:基于深度确定性策略梯度的垂直切换方法是一种深度强化学习方法,移动终端可以根据自身的在线学习特征,通过与环境进行持续交互训练神经网络,并通过训练好的神经网络获得最优的切换策略。
如图3所示,在步骤S2-S8中确定最优切换策略,设定异构无线网络环境中存在三个备选网络,分别是:LTE、WLAN、UMTS,也可以扩展到更多网络共存的异构网络环境。在异构网络区域中随机产生100个移动终端,其运动方向每隔一段时间随机改变。终端随机产生实时业务和非实时业务,实时业务和非实时业务的到达均服从泊松分布,服务时间服从负指数分布。
此处设定存在三个备选网络,即M=3,则移动终端网络的网络状态为:si=[B1,D1,E1,J1,B2,D2,E2,J2,B3,D3,E3,J3,n,k];所有可选择的切换动作集合A可定义为:ai∈A={1,2,3}。
如图4所示,采用BP神经网络构建评价网络和策略网络,本实施例中的神经网络均由四层组成:一个输入层,两个隐含层和一个输出层。评价网络和策略网络的区别在于输入层神经元的个数不同。评价网络的输入是网络状态si=[B1,D1,E1,J1,B2,D2,E2,J2,B3,D3,E3,J3,n,k]和ai,因此输入神经元个数为15,记为4M+3;策略网络的输入是si=[B1,D1,E1,J1,B2,D2,E2,J2,B3,D3,E3,J3,n,k],因此输入神经元个数为14,记为4M+2。
其中,状态估计网络和状态现实网络的神经网络结构一样,初始权重也一样,用ω-表示状态现实网络比状态估计网络的权重参数更新的要慢一些。动作估计网络和动作现实网络的神经网络结构一样,初始权重也一样,用θ-表示状态现实网络比状态估计网络的权重参数更新的要慢一些。
移动终端与环境进行持续交互:在初始状态下,将策略网络输出的确定性策略转化为随机过程选择动作ai,执行此动作后,会得到相应的奖励ri和网络的下一个状态si+1,接着进入下一个step,不断循环,直到连接终止时刻。再进入下一个episode,不断循环。将这个过程形成的若干元组(si,ai,ri,si+1)存储到存储空间R中。
神经网络的训练:当空间R中存储的样本数量满足神经网络训练对于数据量的需求,则在每一个step完成步骤S3后,以随机采样方式从空间R中抽取小批量的切换样本,作为状态估计网络和动作估计网络的训练数据,接着进行步骤S4-S6。用(si,ai,ri,si+1)表示小批量元组样本中的单个样本数据。具体方法如下:
(1)采用随机梯度下降法训练状态估计网络
训练状态估计神经网络是一个最优化问题,最优化一个损失函数,即样本标签与网络的偏差,目标是让损失函数最小。使用最常见的均方差模型构造损失函数,通过反向传播使用梯度下降法一步步迭代求解损失函数的最小化极值,更新状态估计网络。损失函数为:
其中,Q(si,ai;ω)为估计值,即为状态估计网络的输出,状态估计网络的输入为si和ai;Yi为样本真实值,可以看作标签,定义为:
Yi=ri+γQ(si+1,π(si+1;θ-);ω-)
其中,γ(0≤γ≤1)为折扣因子,表示对之后得到的奖励的重视程度。计算Yi需要使用状态现实网络和动作现实网络,这样做是为了使状态估计网络参数的学习过程更加稳定,易于收敛。动作现实网络的输入为si+1,输出为确定性策略a=π(si+1;θ-);状态现实网络的输入为si+1和a=π(si+1;θ-),输出即为状态动作对的Q值:Q(si+1,π(si+1;θ-);ω-)。
(2)采用随机梯度上升法训练动作估计网络
在进行动作估计网络的更新时,采取策略梯度的方式,即:
由于采取的是最大化期望奖励的方式,因此得到策略梯度以后,采用梯度上升法,朝着使得值函数增大的方向去更新动作估计网络的参数θ,需要通过状态估计网络获取状态动作对的Q值,即状态估计网络的输入是si和a=π(si;θ),输出为Q(si,π(si;θ);ω)。其中,a=π(si;θ)为动作估计网络在状态si下输出的确定性切换策略。
(3)采用软更新方法更新状态现实网络和动作现实网络
相比于状态估计网络和动作估计网络,状态现实网络和动作现实网络的参数同样也是每一步都会更新,但更新的幅度非常小,更新方式为:
ω-←αω+(1-α)ω-
θ-←αθ+(1-α)θ-
其中,α为学习率,一般取值为0.001。这种参数更新方式可以大大提高学习的稳定性。
在进行L轮循环迭代,每次循环迭代进行N个step后,会得到一个训练到最佳的网络,通过训练好的策略网络输出确定性切换策略,为终端用户选取最优的切换网络。
在策略网络没有训练到最佳之前,要兼顾探索和利用,利用是指选择动作估计网络输出的确定性策略作为切换动作,而探索的目的是探索潜在的更优策略,因此在动作估计网络输出的确定性策略上加一个扰动ni,即ai=π(si;θ)+ni,将动作决策从一个确定性过程变为一个随机过程。当网络训练到最佳时,在探索和利用中应该是完全倾向于利用的,即直接采用动作估计网络来输出切换策略。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (2)
1.基于深度确定性策略梯度的异构无线网络垂直切换方法,其特征在于,包括以下步骤:
S1:采用层次分析法计算网络状态参数的权重,并根据所述权重构造奖励函数;所述计算网络状态参数的权重的具体步骤为:
所述网络状态参数包括可用带宽(B)、时延(D)、误码率(E)和时延抖动(J);
将决策方案分为三个层次:目标层、准则层、方案层;首先,根据不同状态参数在切换判决中的重要程度分别构造实时业务和非实时业务的判断矩阵H=(hij)4×4,hij的值通过1-9标度法确定,体现参数i相比较于参数j的重要程度,由参数两两进行比较获得;其中,hijhji=1,且hii=1(i,j=1,2,3,4);
最后,对判断矩阵H进行一致性检验,计算一致性比例CR:其中,λmax为判断矩阵的最大特征值,RI表示平均一致性指标,可通过查表得到,n为网络参数的数量(n=4);当CR<0.1时,认为判决矩阵的一致性是可以接受的,否则需要重新构造判决矩阵;
所述构造奖励函数的具体步骤为:
奖励函数表示为:r(s,a)=ωBrB(s,a)+ωDrD(s,a)+ωErE(s,a)+ωJrJ(s,a);其中,ω为网络参数的权重因子,(0≤ω≤1);rB(s,a)、rD(s,a)、rE(s,a)、rJ(s,a)分别为可用带宽、时延、误码率、时延抖动的奖励函数;
当参数为效益型参数,即参数值越大越好,包括可用带宽(B),则可用带宽奖励函数为:
其中,LB和UB分别为连接所需网络的最小和最大带宽,Ba为在状态s下采取动作a后目标候选网络所能提供的可用带宽值;
当参数为成本型参数时,即参数值越小越好,包括误码率(E)、时延(D)、时延抖动(J),则相应参数的奖励函数为;
其中,Lm和Um分别为连接时对于参数m(m=D、E、L)的最小和最大需求,ma为在状态s下采取动作a后目标候选网络所能提供的参数m的值;
S2:采用误差反向传播的BP神经网络构建用于近似状态动作值函数的评价网络和用于近似策略函数的策略网络,并初始化网络参数,同时初始化一个存储空间R;所述评价网络包括状态估计网络和状态现实网络,策略网络包括动作估计网络和动作现实网络;
所述构建评价网络和策略网络的具体步骤为:
所述状态估计网络、状态现实网络、动作估计网络、动作现实网络均由一个输入层、两个隐藏层和一个输出层四层构成;
其中,状态估计网络和状态现实网络的网络参数分别用ω和ω-表示;动作估计网络和动作现实网络的网络参数分别用θ和θ-表示;评价网络中的状态估计网络通过BP神经网络近似Q函数得到Q值:Q(s,a;ω);策略网络中的动作估计网络通过BP神经网络进行网络状态到切换动作的映射得到切换策略:π(s;θ);状态现实网络和动作现实网络获取Q(s,a;ω-)和π(s;θ-)实现参数的收敛;
S3:所述动作估计网络根据当前所述网络状态参数做出切换决策,而后,通过所述奖励函数求得一个奖励值,同时得到网络的下一个状态,并将所述策略网络中做出的切换决策数据存储到所述存储空间R中;
将切换决策数据存储到空间R中,用于重复学习以及神经网络的训练,其具体步骤为:
在由多个无线网络组成的区域中,移动终端在每一个决策时刻都必须做出切换决定,在每一个决策时期,用户终端只能选择一个网络;设定,决策时间间隔为τ,决策时间序列为T={t0,t1,t2,...,ti,...,tN},tN为连接终止的时间;
切换决策数据为一个元组(si,ai,ri,si+1),si为t=ti时刻网络的状态,假设在异构无线网络区域内有M个候选网络,记为N={1,2,...,M},则si表示为:
si=[B1,D1,E1,J1,B2,D2,E2,J2,...,BM,DM,EM,JM,n,k];
其中,Di为候选网络i的时延,Bi为候选网络i的可用带宽,Ei为候选网络i的误码率,Ji为候选网络i的时延抖动;n为在当前状态终端用户所连接的网络,n∈{0,1,2,...,M};仅在连接开始时,即t=t0时刻,n值为0,表示此时尚未连接到任一无线网络;k为到达业务的业务类型,k∈{0,1},k值为0表示到达终端的业务为实时业务,k值为1表示到达终端的业务为非实时业务;
在状态si下选择一个切换动作ai并执行;其中,ai=π(si;θ)+ni,π(si;θ)为策略网络中的动作估计网络输出的确定性切换策略,ni是一个扰动,即将切换动作决策从一个确定性过程变成了一个随机过程,则所有可选择的切换动作集合A可定义为:ai∈A={1,2,...,M};执行该动作后,得到相应的奖励ri和网络的下一个状态si+1,将这个过程形成的元组(si,ai,ri,si+1)存储到空间R中;
S4:采用随机梯度下降法训练所述状态估计网络;所述训练状态估计网络的具体步骤为:
在每次训练神经网络时,以随机采样方式从存储空间R中抽取部分切换样本作为状态估计网络和动作估计网络的训练数据;
采用常规的均方差模型构造损失函数,并通过反向传播使用梯度下降法一步步迭代求解损失函数的最小化极值,更新状态估计网络;损失函数为:
其中,Q(si,ai;ω)为估计值,即为状态估计网络的输出,状态估计网络的输入为si和ai;Yi为样本真实值,视为标签,定义为:
Yi=ri+γQ(si+1,π(si+1;θ-);ω-);
其中,γ(0≤γ≤1)为折扣因子,表示对之后得到的奖励的重视程度;动作现实网络的输入为si+1,输出为确定性策略a=π(si+1;θ-);状态现实网络的输入为si+1和a=π(si+1;θ-),输出为状态动作对的Q值:Q(si+1,π(si+1;θ-);ω-);
S5:采用随机梯度上升法训练所述动作估计网络;所述训练动作估计网络的具体步骤为:
所述状态估计网络更新结束后,对所述动作估计网络进行更新;在进行动作估计网络的更新时,采取策略梯度的方式,即:
在得到策略梯度以后,采用梯度上升法,朝着使得值函数增大的方向更新动作估计网络的参数θ,通过状态估计网络获取状态动作对的Q值,即状态估计网络的输入是si和a=π(si;θ),输出为Q(si,π(si;θ);ω);其中,a=π(si;θ)为动作估计网络在状态si下输出的确定性切换策略;
S6:根据所述状态估计网络的训练结果更新状态现实网络,以及根据所述动作估计网络的训练结果更新动作现实网络;更新状态现实网络和动作现实网络的具体步骤为:
状态现实网络、动作现实网络、状态估计网络和动作估计网络的参数均每一步更新;状态现实网络和动作现实网络的参数与状态估计网络和动作估计网络的参数相比,其更新幅度较小,其更新方式为:
ω-←αω+(1-α)ω-,θ-←αθ+(1-α)θ-;
其中,α为学习率;
S7:进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻;在每个决策时刻进行S3-S6的操作步骤,训练更新网络参数;
S8:根据训练好的策略网络确定最优切换策略。
2.根据权利要求1所述的基于深度确定性策略梯度的异构无线网络垂直切换方法,其特征在于,在步骤S7中,S4-S6的操作步骤在存储空间R中存储的切换样本数据达到预定数量后开始进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910479646.5A CN110225535B (zh) | 2019-06-04 | 2019-06-04 | 基于深度确定性策略梯度的异构无线网络垂直切换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910479646.5A CN110225535B (zh) | 2019-06-04 | 2019-06-04 | 基于深度确定性策略梯度的异构无线网络垂直切换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110225535A CN110225535A (zh) | 2019-09-10 |
CN110225535B true CN110225535B (zh) | 2021-07-20 |
Family
ID=67819543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910479646.5A Expired - Fee Related CN110225535B (zh) | 2019-06-04 | 2019-06-04 | 基于深度确定性策略梯度的异构无线网络垂直切换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110225535B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110545568B (zh) * | 2019-10-15 | 2021-09-14 | 中国联合网络通信集团有限公司 | 异构网络切换方法、切换装置、控制设备及存储介质 |
CN110809306B (zh) * | 2019-11-04 | 2021-03-16 | 电子科技大学 | 一种基于深度强化学习的终端接入选择方法 |
KR20210063911A (ko) * | 2019-11-25 | 2021-06-02 | 삼성전자주식회사 | 무선 통신 시스템에서 핸드오버를 수행하기 위한 장치 및 방법 |
CN111083767B (zh) * | 2019-12-23 | 2021-07-27 | 哈尔滨工业大学 | 一种基于深度强化学习的异构网络选择方法 |
CN111191399B (zh) * | 2019-12-24 | 2021-11-05 | 北京航空航天大学 | 机器鱼的控制方法、装置、设备及存储介质 |
CN111245008B (zh) * | 2020-01-14 | 2021-07-16 | 香港中文大学(深圳) | 一种风场协同控制方法及装置 |
CN111314934B (zh) * | 2020-02-14 | 2021-08-10 | 西北工业大学 | 一种统一最优判决的网络协同探测方法 |
CN112564118B (zh) * | 2020-11-23 | 2022-03-18 | 广西大学 | 一种分布式可拓展量子深宽度学习的实时电压控制方法 |
CN112672402B (zh) * | 2020-12-10 | 2022-05-03 | 重庆邮电大学 | 超密集异构无线网络中基于网络推荐的接入选择方法 |
CN112788688B (zh) * | 2021-01-11 | 2022-05-06 | 中南大学 | 异构网络间的垂直切换方法、装置、设备及存储介质 |
CN113516794B (zh) * | 2021-03-01 | 2023-03-17 | 广东工业大学 | 一种基于层次分析法的多因素融合签到方法 |
CN113163426B (zh) * | 2021-04-25 | 2023-04-07 | 东南大学 | 高密度ap分布场景gcn-ddpg无线局域网络参数调优方法和系统 |
CN113573284B (zh) * | 2021-06-21 | 2023-05-12 | 吉林大学 | 大规模机器类通信基于机器学习的随机接入退避方法 |
CN113613301B (zh) * | 2021-08-04 | 2022-05-13 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN113784410B (zh) * | 2021-09-24 | 2022-09-23 | 吉林大学 | 基于强化学习td3算法的异构无线网络垂直切换方法 |
CN114698012B (zh) * | 2022-01-20 | 2024-05-28 | 吉林大学 | 一种多模智能终端的网络垂直切换方法 |
CN114449536B (zh) * | 2022-01-27 | 2023-05-23 | 重庆邮电大学 | 一种基于深度强化学习的5g超密集网络多用户接入选择方法 |
CN118316941B (zh) * | 2024-06-07 | 2024-08-16 | 特艺(中国)科技有限公司 | 一种基于fttr网关的数据智能分割方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2040501A1 (en) * | 2007-08-16 | 2009-03-25 | Samsung Electronics Co., Ltd | Apparatus and method for handover between heterogeneous systems |
WO2010050758A2 (en) * | 2008-10-31 | 2010-05-06 | Samsung Electronics Co., Ltd. | Data forwarding method and system for vertical handover |
WO2011134286A1 (zh) * | 2010-04-29 | 2011-11-03 | 中兴通讯股份有限公司 | 在异构网络中切换的管理方法和装置 |
EP2530910A1 (en) * | 2011-05-31 | 2012-12-05 | Samsung SDS Co. Ltd. | Apparatus and method for controlling data transmission/reception path between server and mobile terminal in heterogeneous network environment |
CN102984760A (zh) * | 2012-11-22 | 2013-03-20 | 北京邮电大学 | 一种异构无线网络间垂直切换的判决方法 |
CN104519539A (zh) * | 2013-09-29 | 2015-04-15 | 中国移动通信集团广东有限公司 | 一种在异构网络中实现垂直切换的方法和基站 |
CN105873112A (zh) * | 2016-06-15 | 2016-08-17 | 重庆邮电大学 | 一种异构网络中多模终端垂直切换方法 |
CN108235390A (zh) * | 2017-12-01 | 2018-06-29 | 吉林大学 | 一种异构无线网络中基于贝叶斯决策的垂直切换方法 |
US10187841B1 (en) * | 2017-09-29 | 2019-01-22 | Wipro Limited | Method and system for switching data-paths in heterogeneous wireless communication networks |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109219071B (zh) * | 2018-11-05 | 2021-09-10 | 重庆邮电大学 | 异构无线网络中基于业务分级的垂直切换方法 |
CN109548102A (zh) * | 2019-01-08 | 2019-03-29 | 重庆邮电大学 | 一种基于认知无线电自适应扫描周期的网络垂直切换方法 |
-
2019
- 2019-06-04 CN CN201910479646.5A patent/CN110225535B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2040501A1 (en) * | 2007-08-16 | 2009-03-25 | Samsung Electronics Co., Ltd | Apparatus and method for handover between heterogeneous systems |
WO2010050758A2 (en) * | 2008-10-31 | 2010-05-06 | Samsung Electronics Co., Ltd. | Data forwarding method and system for vertical handover |
WO2011134286A1 (zh) * | 2010-04-29 | 2011-11-03 | 中兴通讯股份有限公司 | 在异构网络中切换的管理方法和装置 |
EP2530910A1 (en) * | 2011-05-31 | 2012-12-05 | Samsung SDS Co. Ltd. | Apparatus and method for controlling data transmission/reception path between server and mobile terminal in heterogeneous network environment |
CN102984760A (zh) * | 2012-11-22 | 2013-03-20 | 北京邮电大学 | 一种异构无线网络间垂直切换的判决方法 |
CN104519539A (zh) * | 2013-09-29 | 2015-04-15 | 中国移动通信集团广东有限公司 | 一种在异构网络中实现垂直切换的方法和基站 |
CN105873112A (zh) * | 2016-06-15 | 2016-08-17 | 重庆邮电大学 | 一种异构网络中多模终端垂直切换方法 |
US10187841B1 (en) * | 2017-09-29 | 2019-01-22 | Wipro Limited | Method and system for switching data-paths in heterogeneous wireless communication networks |
CN108235390A (zh) * | 2017-12-01 | 2018-06-29 | 吉林大学 | 一种异构无线网络中基于贝叶斯决策的垂直切换方法 |
Non-Patent Citations (4)
Title |
---|
《Vertical Handover Decision Based on RBF Approach for Ubiquitous Wireless Networks》;Sunisa Kunarak;《2016 International Conference on Platform Technology and Service》;20160421;全文 * |
《多模智能终端在异构无线网络中的垂直切换技术研究》;杨剑波;《中国博士学位论文全文数据库信息科技辑》;20140115;全文 * |
《异构网中垂直切换算法的研究》;周晶;《中国优秀硕士学位论文全文数据库信息科技辑》;20130615;全文 * |
Atiq Ahmed,Leila Merghem Boulahia,Dominique Gaïti.《Enabling Vertical Handover Decisions in Heterogeneous Wireless Networks: A State-of-the-Art and A Classification》.《IEEE Communications Surveys & Tutorials ( Volume: 16, Issue: 2, Second Quarter 2014)》.2013, * |
Also Published As
Publication number | Publication date |
---|---|
CN110225535A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110225535B (zh) | 基于深度确定性策略梯度的异构无线网络垂直切换方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
Wei et al. | Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning | |
CN112134916B (zh) | 一种基于深度强化学习的云边协同计算迁移方法 | |
CN111866954B (zh) | 一种基于联邦学习的用户选择和资源分配方法 | |
CN113784410B (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN108235390B (zh) | 一种异构无线网络中基于贝叶斯决策的垂直切换方法 | |
CN111367657B (zh) | 一种基于深度强化学习的计算资源协同合作方法 | |
CN107690176B (zh) | 一种基于q学习算法的网络选择方法 | |
CN103108382A (zh) | 一种基于网络层次分析法的异构网络多属性决策方法 | |
CN112672402B (zh) | 超密集异构无线网络中基于网络推荐的接入选择方法 | |
CN113992560B (zh) | 一种活跃度感知的社交车辆分簇方法、装置及计算机设备 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
Barnes et al. | Performance of a hidden Markov channel occupancy model for cognitive radio | |
Wu et al. | Delay-aware edge-terminal collaboration in green internet of vehicles: A multiagent soft actor-critic approach | |
CN114885388A (zh) | 联合rss预测的多业务类型自适应切换判决方法 | |
Rao et al. | Network selection in heterogeneous environment: A step toward always best connected and served | |
Chen et al. | Enhanced hybrid hierarchical federated edge learning over heterogeneous networks | |
Wang et al. | A novel network selection approach in 5G heterogeneous networks using Q-learning | |
CN117354934A (zh) | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 | |
CN114449536B (zh) | 一种基于深度强化学习的5g超密集网络多用户接入选择方法 | |
Li et al. | Handoff control and resource allocation for ran slicing in iot based on dtn: An improved algorithm based on actor–critic framework | |
Quan et al. | Dynamic service selection based on user feedback in the IoT environment | |
CN113890653A (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
CN115361303B (zh) | 一种基于动态飞行蚁群算法的Web服务组合优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210720 |