CN114885388A - 联合rss预测的多业务类型自适应切换判决方法 - Google Patents
联合rss预测的多业务类型自适应切换判决方法 Download PDFInfo
- Publication number
- CN114885388A CN114885388A CN202210465918.8A CN202210465918A CN114885388A CN 114885388 A CN114885388 A CN 114885388A CN 202210465918 A CN202210465918 A CN 202210465918A CN 114885388 A CN114885388 A CN 114885388A
- Authority
- CN
- China
- Prior art keywords
- network
- rss
- information
- time slot
- switching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012216 screening Methods 0.000 claims abstract description 29
- 238000005265 energy consumption Methods 0.000 claims abstract description 17
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000011664 signaling Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 20
- 230000009471 action Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W36/00—Hand-off or reselection arrangements
- H04W36/0005—Control or signalling for completing the hand-off
- H04W36/0083—Determination of parameters used for hand-off, e.g. generation or modification of neighbour cell lists
- H04W36/0085—Hand-off measurements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W36/00—Hand-off or reselection arrangements
- H04W36/14—Reselecting a network or an air interface
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/16—Discovering, processing access restriction or access information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/18—Selecting a network or a communication service
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种联合RSS预测的多业务类型自适应切换判决方法,包括如下步骤:步骤1:初始化筛选阈值;步骤2:扫描周围网络,步骤2.1:构建候选网络;步骤3:MD获取候选网络状态信息;步骤4:MD检测业务类型步骤5:初始化业务类型权重信息Wb;步骤6:MD检测用户偏好信息步骤7:上传收集信息;步骤8:更新权重信息,数据归一化处理;步骤9:计算,确定最优目标网络;步骤10:执行切换;步骤11:保存信息;步骤12:预测;步骤13:计算筛选机制中筛选阈值RSSth;步骤14:更新筛选阈值;步骤15:重复迭代,直到结束。这种方法能够在UD‑HWN中使MD自适应的实现目标网络的选择和切换,通过对未来时刻MD与最优目标BS之间RSS的预测,能够降低MD与BS的信令交互,从而降低MD的能量消耗和增加网络可用带宽,降低目标网络选择的计算量,提升切换效率,实现自适应切换。
Description
技术领域
本发明涉及无线网络领域中超密集异构无线网络中网络切换技术,具体是一种联合RSS预测的多业务类型自适应切换判决方法。
背景技术
随着智能移动设备的普及和应用,大量移动设备的接入和智能应用程序的出现对网络性能提出了新的要求。超密集异构无线网络(Ultra-dense Heterogeneous WirelessNetworks,简称UD-HWN)是一种包含多种无线接入技术的复杂异构网络。不同的无线接入技术(4G、5G和Wi-Fi)能够为不同的业务需求提供服务,例如:当用户观看高清视频或者体验VR/AR应用时需要高带宽和低延迟,5G网络接入技术可以满足其需求;当用户语音通话或者接收短信服务时对带宽要求并没有那么高,使用4G网络即可。所以,UD-HWN能够满足不同移动终端在不同通信场景中的不同业务需求。在UD-HWN中由于MD的大量接入和移动,会造成移动设备(Mobile device,简称MD)与基站(Base Station,简称BS)之间产生频繁的网络切换问题,不同制式无线接入网络的覆盖范围对终端设备移动性的支持能力各不相同,用户在移动过程中会经历同一种网络制式间的网络切换(水平切换)以及跨不同网络制式间的网络切换(垂直切换),从而确保移动设备与基站及之间的通信的连续性。而频繁的网络切换会导致网络中有大量的信令传播、数据包的丢失和网络的延迟以及MD的能量消耗,还可能会产生“乒乓效应”,造成网络的吞吐量下降和不好的用户体验质量(Quality ofExperience,简称QoE)。为了避免MD与BS之间频繁的切换造成资源浪费和用户QoE下降的问题,近些年,许多研究人员对网络切换算法展开较深入的研究,根据切换判决方法的不同,现有网络切换算法可以分成四大类:(1)基于单属性值的网络切换方法;(2)基于多属性值的网络切换方法;(3)基于模糊逻辑的网络切换方法;(4)基于机器学习的网络切换方法。
基于单属性值的切换判决算法主要运用在早期的异构网络中,该算法以单一属性值作为网络切换的判决条件,其中最常见的是根据用户的接收信号强度值(ReceivedSignal Strength,简称RSS)作为参考标准来制定用户的垂直切换策略。其主要原理是根据用户终端接收到的目标BS的信号强度高于当前BS的信号强度,即执行切换操作。该方法容易受一些其他因素(比如用户的移动和无线网络传输过程中衰落等)的影响,从而导致在网络切换过程中产生“乒乓效应”。
然而,无线网络状态和移动用户空间位置的动态变化会导致更多影响网络切换管理策略性能的因素。目前的网络切换管理中已经不仅仅依靠单一的判决因素,现有的很多网络切换管理策略都考虑了可感知的网络状态的变化并据此做出调整,既避免了网络切换过于频繁而导致的乒乓效应,也避免了网络切换的灵敏度过于迟钝。当移动设备产生多种业务类型的任务时,多属性网络切换管理方法能够更合理的判断并确定最优目标网络。所以,提出了基于多属性决策的网络切换管理。
基于多属性值的切换判决算法考虑了多种可感知的网络属性(比如,带宽,时延等)作为切换判决属性,通过构造加权函数选择最优目标网络进行网络切换。该类算法主要包括基于简单加权和算法(Simple Additive Weighting,简称SAW),灰色关联分析算法(Grey Relation Analysis,简称GRA)、逼近理想解排序算法(Technique For OrderPreference By Similarity To Ideal Solution,简称TOPSIS)和层次分析法(AnalyticHierarchy Process,简称AHP)。简单加权和算法在网络切换中的应用具体如下:首先通过获取网络属性参数值,然后构建矩阵,由于获取到的网络属性值数据类型和单位不统一,如果这些数据不进行处理直接进行计算会造成计算数值很大,为了使计算过程变得简单需要对矩阵数值进行归一化处理,最后根据处理后的属性值乘以其对应权重向量,根据计算出的数值大小作为切换判决依据。针对异构无线网络环境,MAALOUL等人(MAALOUL S,AFIF M,TABBANE S.Vertical Handover Decision Policy Based on the End User's PerceivedQuality of Service[M].2013:493-8.)为了减少切换延迟提高用户感知的QoS,提出了一种改进的简单加权和切换判决算法(E-SAW)。通过对每种属性设定网络属性阈值,减少候选网络的数量,从而实现在计算目标网络阶段减少不必要的计算量,降低了不必要的处理延迟。但是基于SAW算法存在一个问题,其假设各切换判决属性是互相不受影响,因此在多属性决策问题中使用SAW算法选择目标网络可能会存在一定的片面性而导致效率不高,因为多个属性间存在一定的联系,不是相互独立的。层次分析法(Analytic HierarchyProcess,简称AHP)是一种采用定性和定量相结合的分析方法。基于AHP算法在网络切换中的应用具体如下:首先构造出层次结构模型,通常分为:方案层、准则层和目标层,其中目标层为选择切换网络,准则层分为业务层和属性层,业务层包括视频类业务,音频类业务,交互类业务等,属性层主要考虑切换判决属性,比如接收信号强度(RSS),延迟,能耗,丢包率等。方案层为备选的切换网络。然后根据业务类型对准则层中的每个判决属性的重要性进行比较,通过客观判断结果构造出准则层的每种业务类型中判决属性的判断矩阵,根据判断矩阵计算出特征向量、特征根和权重值,最后通过一致性检验分析判断其有效性。通过AHP方法可以计算网络切换中每个判决属性的权重值。Liu等(Liu Shengmei,Pan Su,MiZhengkun,et al.A simple additive weighting vertical Handoff algorithm basedon SINR and AHP for heterogeneous wireless networks[C]//2010 InternationalConference on Intelligent Computation Technology and Automation.Changsha,China:IEEE Press,2011:347-350.)在异构无线网络中,提出了一种AHP与SAW相结合的垂直切换算法,其中使用AHP计算不同业务属性权重,然后使用SAW方法计算目标函数得出目标网络,该算法综合考虑了WLAN和WCDMA中的信号干扰噪声比(Signal to Interferenceplus Noise Ratio,简称SINR)、用户所需带宽、用户业务成本和可用带宽等判决属性,考虑了四种业务类型:会话类、流媒体类、交互类和背景类,采用AHP确定判决属性的权重向量。根据业务类型对切换判决属性的要求不同,考虑多属性QoS的切换决策,最后通过SAW计算判决值,根据计算出的结果大小作为候选网络切换优先级排序结果。基于AHP算法虽然具有系统性的分析和简洁实用以及所需定量数据信息较少等优点,但是也有缺点,当属性参数过多(超过9个)时,标度工作量太大,比较两个指标间的重要程度时会有一定难度,易引起判断混乱,使得权重值不容易确定。
以上基于传统的网络切换算法具有一定的缺点,随着MD数量的增加,产生的数据量也随之增加,这样会造成计算量增加,从而导致计算时延增加,所以网络切换时延也会增加,造成了不好的用户服务体验。随着人工智能的迅速发展,通过使用大规模数据对算法中神经网络模型的训练不断优化其参数,使机器学习算法具有自主学习能力,而且神经网络采用并行分布处理方法,使得快速进行大量运算成为可能,当MD有新的网络切换请求时,神经网络可以快速准确地计算出目标切换网络;另外,通过神经网络可以通过训练学习自适应未知的动态系统,结合异构网络中MD产生的业务类型、移动速度和网络资源等是实时动态变化的,所以机器学习算法被应用到网络切换中。等(Ali etCelal.Artificial neural network based vertical handoff algorithm forreducing handoff latency.Wireless personal communications,2013,vol.71,no 4,p.2399-2415.)针对五种不同的应用和五种不同的无线技术(Wi-Fi、GSM、GPRS、UMTS和WiMAX),提出了一种基于人工神经网络的切换决策算法,以降低异构网络中智能设备的切换延迟。算法中采用三层神经网络(NN)模型,考虑开销成本、数据速率和RSS三种切换判决属性。将这三种网络参数作为输入,通过对神经网络参数进行训练后,神经网络可以自适应选择最优的目标网络。与SAW和其他一些基于人工智能的算法进行比较,该方法在切换延迟和选择最优网络方面优于大多数传统的切换决策方法。马等人(马彬,李尚儒,谢显中.异构无线网络中基于人工神经网络的自适应垂直切换算法[J].电子与信息学报,2019,41(05):1210-6.)提出一种基于人工神经网络的自适应垂直切换算法,首先根据MD获取到的RSSi与预处理模块中设定的阈值RSSth进行比较,若RSSi≥RSSth+HY,(HY表示迟滞),则加入候选网络集,然后再根据不同业务类型对网络属性(RSS、带宽、时延、抖动、丢包率)的要求不同进行自适应选择和归一化处理,最后把处理后的网络属性值输入到神经网络中对网络参数(权重w和偏执b)进行训练,根据训练出的判决值大小选择最佳的目标网络。但是基于神经网络进行训练的算法在系统运行初期需要一段时间对神经网络参数进行训练,这可能会造成网络切换初期的切换次数达不到迅速降低的效果,而且不同的机器学习算法其训练过程中收敛效果也不同,这就需要根据应用场景来选择比较合适的机器学习算法进行网络切换。
发明内容
本发明的目的是针对UD-HWN中网络切换频繁及能量消耗问题,考虑到不同业务类型对网络性能要求不同,提出一种联合RSS预测的多业务类型自适应切换判决方法。这种方法能够在UD-HWN中使MD自适应的实现目标网络的选择和切换,通过对未来时刻MD与最优目标BS之间RSS的预测,能够降低MD与BS的信令交互,从而降低MD的能量消耗和增加网络可用带宽,降低目标网络选择的计算量,提升切换效率,实现自适应切换。
实现本发明目的的技术方案是:
联合RSS预测的多业务类型自适应切换判决方法,包括如下步骤:
步骤1:初始化筛选阈值,设定候选网络初始筛选阈值RSSth为-120dBm;
步骤2:MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSSi值;
其中,MD的编号表示为集合su(t)中表示切换判决属性,表示MD u在t时隙与候选网络v的信号接收强度值,表示MD u在t时隙与候选网络v的网络带宽,表示MD u在t时隙与候选网络v的网络延迟,表示MD u在t时隙与候选网络v的网络抖动,表示MD u在t时隙与候选网络v的网络负载,代表MD u在t时隙与候选网络v的网络开销,表示MD u在t时隙与候选网络v的能量消耗;
步骤4:MD检测业务类型其中,表示MD u在t时隙的业务类型。五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为其中b∈{1,2,3,4,5},β1代表会话类,β2代表交互类,β3代表流类,β4代表M2M类,β5代表后台类;
步骤5:初始化业务类型权重信息,根据业务类型使用层次分析法AHP,通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤,计算其对应的网络状态权重信息Wb;
步骤9:目标网络选择过程:首先把目标网络选择问题建模为马尔科夫决策过程,然后对网络状态su(t)信息使用公式(2)进行归一化处理,把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算,求最大状态价值argmaxπ[Vπ(s)]所对应的策略π*,把策略π*对应的网络作为目标切换网络;
步骤10:相同类型的网络执行水平切换,否则执行垂直切换;
步骤11:依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息;
步骤12:根据MD的历史位置、目标切换网络的ID和对应的RSS信息,利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值;
步骤13:计算筛选机制中筛选阈值RSSth,其方法是:根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSSth进行累加求平均值;
步骤14:更新筛选阈值RSSth,用步骤13得到的平均值作为筛选阈值RSSth的更新值,以防止预测的RSS与真实值之间有差距而错过最优目标网络;
步骤15:重复迭代,直到结束。
与现有的研究相比,本技术方案具有如下特点:
1、传统的网络切换方法是基于MD与BS之间的RSS值是否满足A3事件来进行切换,这种切换方法由于MD的移动和网络的波动很容易产生“乒乓效应”,在UD-HWN中这种切换判决方法是不现实的。所以,本技术方案中为了降低MD与网络的切换次数,根据每种业务类型对网络的性能要求不同,比如,会话类业务属于实时性业务的一种,其需要保证数据的快速传输和连续性,所以对网络时延和抖动比较敏感。交互类业务也是实时性业务,其要保证数据内容透明传输以及完整的信息内容,要求有很低的误码率和丢包率。综合考虑多种业务类型和多种网络属性作为切换判决属性,根据多种切换判决属性共同约束MD与网络之间的切换,以此降低MD与网络之间不必要的网络切换。
2、为了提高网络吞吐量和降低MD的能量消耗,本技术方案中首先提出一个联合RSS门限阈值机制对候选网络进行筛选,先设定一个初始阈值RSSth,MD通过检测把符合条件的网络加入候选网络列表,考虑到在UD-HWN中会有多种业务类型,不同的业务类型对网络性能的要求不同,比如,非实时性业务类型(视频流)对带宽要求比较高,但是对RSS相对要求不需要那么高,所以初始筛选阈值RSSth设置为-120dBm,因为小于-120dBm所有业务几乎无法呼起。筛选机制能够降低候选网络规模,从而降低后续目标网络选择算法中计算复杂度,增加MD对最优目标网络的选择的概率。另外,在UD-HWN中MD与BS之间可能会有大量的信令交互,大量的信令交互会占用部分网络资源,造成可用网络资源减少和MD的能量消耗升高,从而降低用户的QoS和QoE。为了降低不必要的网络参数信令交互,提高网络吞吐量,降低MD能量消耗以及服务时延,本技术方案通过采用深度学习中的门控循环单元(GRU)模型,根据MD与BS的RSS的历史信息及MD对应的位置信息,预测未来时隙MD可能最优RSS,更新优化RSS门限阈值。
3、针对UD-HWN中动态时变的网络资源和性能对网络切换的影响,本技术方案提出了基于强化学习A3C的切换判决算法(RSS Asynchronous Advantage Actor-CriticHandover,RA3CHO)。首先通过层次分析法(AHP)计算不同业务对应的属性权重值,再基于用户偏好对属性权重值进行再优化;然后,把网络的切换过程建模为马尔科夫决策过程(MDP)模型,结合深度强化学习A3C算法,把业务类型和候选网络性能参数作为输入使用Critic神经网络计算出各候选网络的状态价值大小,并选择状态价值最大的网络作为目标切换网络,如果当前接入网络和目标切换网络的类型相同,则MD执行水平切换,否则执行垂直切换,实现自适应切换决策。
本技术方案能在实际生活中得到应用。
这种方法使UD-HWN中的MD自适应的实现目标网络的选择和切换,能够降低MD与BS的信令交互,提升网络吞吐量,降低MD的能量消耗,降低目标网络选择的时间复杂度,提升切换效率和准确性,实现自适应切换。
附图说明
图1实施例中系统应用场景模型图;
图2实施例中目标网络切换流程图;
图3实施例中Worker线程与环境进行交互训练过程示意图;
图4实施例中GRU网络单元结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
本例考虑一个覆盖长度为L、宽度为W的超密集异构网络环境为系统应用场景,其示意图如图1所示。系统由1个4G宏基站(MBS)、M个5G微基站(SBS)、N个WLAN-AP和U个MD构成。其中,SBS和WLAN分布在MBS的覆盖范围下,SBS的集合可以表示为WLAN-AP的集合可以表示为MD的集合可以表示为候选网络集合V={1,2,…,v,…,V}。4G MBS的传输半径为R4G,每个5G SBS的传输半径为R5G,每个WLAN-AP的传输半径为RW。M个5G SBS和N个WLAN-AP随机部署在该区域,相邻BS有交叉实现区域全覆盖。每个MD在某一时刻是移动或静止状态,本系统规定MD的移动速度为3m/s。每个MD处于多个网络覆盖的状态。
本例主要考虑五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为用户u在t时隙的业务类型可以表示为通过分析可知,每种业务类型的特点各不相同,其对网络性能的要求也不同。本例考虑七种影响网络切换的判决属性,其分别为:接收信号强度RSS、带宽B、延迟D、网络抖动J、丢包率L、网络费用C和终端能耗E。
本例以网络中的一个服务周期T为例。
联合RSS预测的多业务类型自适应切换判决方法,包括如下步骤:
步骤1:初始化筛选阈值,设定候选网络初始筛选阈值RSSth为-120dBm;
步骤2:MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSSi值;
步骤3:移动设备MD获取候选网络状态信息表示为 其中,MD的编号表示为集合su(t)中表示切换判决属性,表示MD u在t时隙与候选网络v的信号接收强度值,表示MD u在t时隙与候选网络v的网络带宽,表示MD u在t时隙与候选网络v的网络延迟,表示MD u在t时隙与候选网络v的网络抖动,表示MD u在t时隙与候选网络v的网络负载,代表MD u在t时隙与候选网络v的网络开销,表示MD u在t时隙与候选网络v的能量消耗;
步骤4:MD检测业务类型其中,表示MD u在t时隙的业务类型。五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为其中b∈{1,2,3,4,5},β1代表会话类,β2代表交互类,β3代表流类,β4代表M2M类,β5代表后台类;
步骤5:初始化业务类型权重信息,根据业务类型使用层次分析法AHP,通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤,计算其对应的网络状态权重信息Wb;
步骤9:目标网络选择过程:首先把目标网络选择问题建模为马尔科夫决策过程,然后对网络状态su(t)信息使用公式(2)进行归一化处理,把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算,求最大状态价值argmaxπ[Vπ(s)]所对应的策略π*,把策略π*对应的网络作为目标切换网络;
目标网络选择具体过程表示为:
1)将UD-HWN中的目标网络选择问题建模为马尔科夫决策过程(Markov DecisionProcess,简称MDP),可通过四元组<S,A,P,R>来表示,其中S表示有限的网络状态空间,A表示有限的网络选择动作空间,P表示在网络状态s下选择动作a后使网络状态转移到s′的概率,R代表执行动作A的奖励值;
2)构造状态空间:假设每个MD u有个候选网络,其中本例考虑了7种切换判决属性:接收信号强度RSS、带宽B、延迟D、网络抖动J、丢包率L、网络费用C和终端能耗E,则网络状态空间可以表示为:S={S1,S2,…,Su,…,SU},其中MD u的网络状态Su表示为:
其中×表示笛卡尔积,网络状态空间由每一个MD u的候选网络集合和切换判决属性作笛卡尔积构成,为了避免维度灾难现象需要降低状态空间的维数,把每个MD u的切换判决属性在其取值范围内离散化,即:
然后把MD上传的网络状态su(t)信息使用公式(2)进行归一化处理,其中rij表示归一化后的值,bij表示候选网络中某一个判决属性的值,minibij表示该判决属性中最小的值,maxibij表示该判决属性中最大的值;
4)构造奖励函数:奖励函数是指agent在候选网络列表中执行网络切换策略π的累积奖励,系统在t时隙采取策略π进行目标网络选择的奖励函数可表示为公式(3)所示,其中Wb为业务类型b的判决属性权重向量,为用户u在t时隙与候选网络v经过归一化处理之后得到的判决属性值的向量表示,v∈[1,V],Rt为即时奖励;
5)构造状态价值函数:状态价值函数Vπ(s),表示在s状态下采取动作策略π所获得的累积奖励的总和,具体表示如公式(4)所示,其中γ∈[0,1]为折扣因子,表示未来奖励在当前决策中的重要程度;
6)构造动作价值函数:动作价值函数Qπ(s,a),表示在s状态下采取策略π中动作a所获得的累积奖励总和,具体表示如公式(5)所示:
由此可知,Vπ(s)与Qπ(s,a)之间的关系可以表示为:
强化学习的目标是最大化累积折扣奖励,即找到最优策略序列π*使上述状态值函数的值最大,可以表示为:
7)A3C网络的具体训练过程:
A3C算法中每个Worker线程与环境进行交互训练的过程如图3所示,每个Worker线程和UD-HWN环境交互获得t时隙内业务类型、用户偏好信息和网络属性值数据后,Actor神经网络在训练过程中根据Critic神经网络计算出的累积奖励值来进行正向或反向调整动作选择的概率,Critic神经网络根据应用环境输出的奖励值来调整自己的参数。每个Worker线程计算自己神经网络损失函数的梯度,每隔一段时间,n个Worker线程会独立的使用累积的梯度分别更新公共部分的神经网络模型参数,这些线程里的模型采用异步强化学习方法使Worker线程更好的和环境交互,拿到相关性较低的数据帮助模型更快收敛,进而指导后面的环境交互;
①Actor神经网络训练和参数更新规则:
Actor网络是一种基于策略的神经网络,其目标是找到一种最优策略来提升系统性能,为了找到最优策略必须对神经网络进行训练更新参数。策略梯度定义一个优化目标函数J(π),表示策略π得到折扣奖励值,用来衡量策略的好坏;
J(π)=E[Vπ(S0)] (8),其中S0为初始状态;
Actor网络在输出层使用了softmax函数,所以状态St输出的每个动作都有相应的概率,agent根据网络输出的概率分布选择动作。Actor网络的策略函数定义为:
a=π(St|θ) (9),
Actor网络的参数更新过程是根据Critic网络提供状态价值函数的估计值,然后用这个估计值代替真实的状态价值形成策略梯度,再用这个梯度来更新Actor网络参数θ。关于参数θ的梯度可以表示为:
Actor网络的本地策略参数梯度更新:
其中α是Actor网络的学习率,H(π(St,θ))为策略π的熵项,用于拓展策略探索空间,c为熵系数;
②Critic神经网络训练和参数更新规则:
Critic网络是一种基于价值的神经网络,其作用是用来评估Actor网络做出的策略好坏,目的是估计UD-HWN环境状态St对应的累积奖励值,Critic网络根据UD-HWN环境对Actor网络的动作奖励值来调整自己的参数,使用时序差分(Temporal Difference,简称TD)的梯度下降法来训练和更新网络参数,Critic网络将St和St+1作为输入,根据当前奖励Rt+1和估计值与计算时序差分误差(TD-Error),公式(12)所示,使用均方差损失函数作为Critic网络参数的梯度迭代更新,公式(15)所示:
其中ξ是学习率;,
步骤10:自适应切换过程:相同类型的网络执行水平切换,否则执行垂直切换;
基于深度强化学习的多属性自适应切换判决算法过程:
步骤11:依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息;
步骤12:根据MD的历史位置、目标切换网络的ID和对应的RSS信息,利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值;
系统中移动性管理模块可以根据MD的历史RSS信息作为输入,预测下一时隙MD与目标BS的RSS值,其中历史RSS信息表示为RSSu为文本描述数据,需要先把其转化为计算机能处理的数值向量再作为输入信息。本例使用word2vec模型对历史RSS信息进行处理,使用word2vec中的CBOW模型获取历史RSS信息的词向量,首先将历史RSS信息中的目标基站编号、MD的位置标签信息、与目标BS之间的RSS值、停留时间以及用户偏好信息转换为one-hot向量,然后把其作为CBOW模型的输入,通过模型训练得到词向量,词向量化后MD u的历史RSS信息表示为:
GRU网络模型单元结构如图4所示,每个记忆块包括更新门和重置门,图中xt表示当前的输入信息,ht-1表示上一个网络单元传递下来的隐状态(包含了之前网络单元的相关信息,即称为历史信息),ht表示当前网络单元的输出和传递给下一网络单元的隐状态,zt和rt分别表示更新门和重置门,更新门作用用于控制当前时隙状态ht需要从上一时隙状态ht-1中保留多少信息,更新门的值越大说明上一时隙状态ht-1信息被带入的越多。重置门负责控制上一时隙状态ht-1信息被写入到当前的候选状态上,重置门的值越小,上一时隙状态ht-1的信息被写入的越少,更新门zt和重置门rt的计算公式可以表示为:
zt=σ(Wzxt+Uzht-1+bz) (16),
rt=σ(Wrxt+Urht-1+br) (17),
σ表示激活函数sigmoid,zt,rt∈[0,1],W*,U*为相应的权重矩阵,b*为可变偏差,*∈{z,r};
GRU网络的状态更新方式表示为:
GRU训练算法是反向传播(Back Propagation,BP)算法,主要包括以下三个步骤:
2)计算网络单元中每个神经元向后的误差项的值;
3)根据相应的误差项计算每个权重的梯度;
步骤13:计算筛选机制中筛选阈值RSSth,其方法是:根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSSth进行累加求平均值;
步骤14:更新筛选阈值RSSth,用步骤13得到的平均值作为筛选阈值RSSth的更新值,以防止预测的RSS与真实值之间有差距而错过最优目标网络;
具体过程如基于GRU的RSS预测及筛选阈值更新算法所示:
输出:候选网络更新筛选阈值RSS′th
步骤15:重复迭代,直到周期T结束。
Claims (1)
1.联合RSS预测的多业务类型自适应切换判决方法,其特征在于,在超密集异构网络场景下实现自适应切换,包括如下步骤:
步骤1:初始化筛选阈值,设定候选网络初始筛选阈值RSSth为-120dBm;
步骤2:MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSSi值;
步骤3:移动设备MD获取候选网络状态信息表示为 其中,MD的编号表示为集合su(t)中表示切换判决属性,表示MDu在t时隙与候选网络v的信号接收强度值,表示MD u在t时隙与候选网络v的网络带宽,表示MD u在t时隙与候选网络v的网络延迟,表示MD u在t时隙与候选网络v的网络抖动,表示MD u在t时隙与候选网络v的网络负载,代表MD u在t时隙与候选网络v的网络开销,表示MD u在t时隙与候选网络v的能量消耗;
步骤4:MD检测业务类型其中,表示MD u在t时隙的业务类型。五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为其中b∈{1,2,3,4,5},β1代表会话类,β2代表交互类,β3代表流类,β4代表M2M类,β5代表后台类;
步骤5:初始化业务类型权重信息,根据业务类型使用层次分析法AHP,通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤,计算其对应的网络状态权重信息Wb;
步骤9:目标网络选择过程:首先把目标网络选择问题建模为马尔科夫决策过程,然后对网络状态su(t)信息使用公式(2)进行归一化处理,把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算,求最大状态价值argmaxπ[Vπ(s)]所对应的策略π*,把策略π*对应的网络作为目标切换网络;
步骤10:相同类型的网络执行水平切换,否则执行垂直切换;
步骤11:依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息;
步骤12:根据MD的历史位置、目标切换网络的ID和对应的RSS信息,利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值;
步骤13:计算筛选机制中筛选阈值RSSth,其方法是:根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSSth进行累加求平均值;
步骤14:更新筛选阈值RSSth,用步骤13得到的平均值作为筛选阈值RSSth的更新值,以防止预测的RSS与真实值之间有差距而错过最优目标网络;
步骤15:重复迭代,直到结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210465918.8A CN114885388B (zh) | 2022-04-29 | 2022-04-29 | 联合rss预测的多业务类型自适应切换判决方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210465918.8A CN114885388B (zh) | 2022-04-29 | 2022-04-29 | 联合rss预测的多业务类型自适应切换判决方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114885388A true CN114885388A (zh) | 2022-08-09 |
CN114885388B CN114885388B (zh) | 2024-01-19 |
Family
ID=82673482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210465918.8A Active CN114885388B (zh) | 2022-04-29 | 2022-04-29 | 联合rss预测的多业务类型自适应切换判决方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114885388B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115996357A (zh) * | 2023-03-23 | 2023-04-21 | 南昌龙旗智能科技有限公司 | 虚拟位置处理方法及虚拟设备 |
CN116866253A (zh) * | 2023-09-04 | 2023-10-10 | 中科浩成(北京)科技产业发展有限公司 | 一种基于边缘计算的网络链路远程切换系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016024809A1 (en) * | 2014-08-13 | 2016-02-18 | Samsung Electronics Co., Ltd. | Ambient network sensing and handoff for device optimization in heterogeneous networks |
CN105979553A (zh) * | 2016-05-25 | 2016-09-28 | 重庆邮电大学 | 一种基于模糊逻辑和topsis算法的分层网络切换决策方法 |
CN107071841A (zh) * | 2017-03-02 | 2017-08-18 | 重庆邮电大学 | 异构网络中基于动态权重优化的垂直切换方法 |
-
2022
- 2022-04-29 CN CN202210465918.8A patent/CN114885388B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016024809A1 (en) * | 2014-08-13 | 2016-02-18 | Samsung Electronics Co., Ltd. | Ambient network sensing and handoff for device optimization in heterogeneous networks |
CN105979553A (zh) * | 2016-05-25 | 2016-09-28 | 重庆邮电大学 | 一种基于模糊逻辑和topsis算法的分层网络切换决策方法 |
CN107071841A (zh) * | 2017-03-02 | 2017-08-18 | 重庆邮电大学 | 异构网络中基于动态权重优化的垂直切换方法 |
Non-Patent Citations (1)
Title |
---|
马彬等: "异构无线网络中基于人工神经网络的自适应垂直切换算法", 《电子与信息学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115996357A (zh) * | 2023-03-23 | 2023-04-21 | 南昌龙旗智能科技有限公司 | 虚拟位置处理方法及虚拟设备 |
CN115996357B (zh) * | 2023-03-23 | 2023-10-31 | 南昌龙旗智能科技有限公司 | 虚拟位置处理方法及虚拟设备 |
CN116866253A (zh) * | 2023-09-04 | 2023-10-10 | 中科浩成(北京)科技产业发展有限公司 | 一种基于边缘计算的网络链路远程切换系统 |
CN116866253B (zh) * | 2023-09-04 | 2023-12-01 | 中科浩成(北京)科技产业发展有限公司 | 一种基于边缘计算的网络链路远程切换系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114885388B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A deep learning method based on an attention mechanism for wireless network traffic prediction | |
Jiang | Cellular traffic prediction with machine learning: A survey | |
Chen et al. | Machine learning for wireless networks with artificial intelligence: A tutorial on neural networks | |
CN110225535B (zh) | 基于深度确定性策略梯度的异构无线网络垂直切换方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN109447275B (zh) | Udn中基于机器学习的切换方法 | |
CN113778648B (zh) | 分层边缘计算环境中基于深度强化学习的任务调度方法 | |
CN114885388B (zh) | 联合rss预测的多业务类型自适应切换判决方法 | |
Zhang et al. | Toward edge-assisted video content intelligent caching with long short-term memory learning | |
Zhang et al. | Deep learning for wireless coded caching with unknown and time-variant content popularity | |
AU2020104133A4 (en) | Expected conditional clustered regressive deep multilayer precepted neural learning for iot based cellular network traffic prediction with big data | |
Zineb et al. | QoE-based vertical handover decision management for cognitive networks using ANN | |
CN111491312A (zh) | 无线资源预测分配、获取、训练神经网络的方法及设备 | |
CN112672402B (zh) | 超密集异构无线网络中基于网络推荐的接入选择方法 | |
US20240039788A1 (en) | Deep reinforcement learning for adaptive network slicing in 5g for intelligent vehicular systems and smart cities | |
Zabihi et al. | Reinforcement learning methods for computation offloading: a systematic review | |
Kaleem et al. | A fuzzy preprocessing module for optimizing the access network selection in wireless networks | |
Zheng et al. | Learning based task offloading in digital twin empowered internet of vehicles | |
Liu et al. | Hastening stream offloading of inference via multi-exit dnns in mobile edge computing | |
Wu et al. | Dynamic handoff policy for RAN slicing by exploiting deep reinforcement learning | |
CN113676357B (zh) | 面向电力物联网中边缘数据处理的决策方法及其应用 | |
Cui et al. | Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network | |
Zhao et al. | Reinforced-lstm trajectory prediction-driven dynamic service migration: A case study | |
Song et al. | Dram: A drl-based resource allocation scheme for mar in mec | |
Chen et al. | Traffic Prediction-Assisted Federated Deep Reinforcement Learning for Service Migration in Digital Twins-Enabled MEC Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |