CN114885388A - 联合rss预测的多业务类型自适应切换判决方法 - Google Patents

联合rss预测的多业务类型自适应切换判决方法 Download PDF

Info

Publication number
CN114885388A
CN114885388A CN202210465918.8A CN202210465918A CN114885388A CN 114885388 A CN114885388 A CN 114885388A CN 202210465918 A CN202210465918 A CN 202210465918A CN 114885388 A CN114885388 A CN 114885388A
Authority
CN
China
Prior art keywords
network
rss
information
time slot
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210465918.8A
Other languages
English (en)
Other versions
CN114885388B (zh
Inventor
张驰
覃少华
陈思国
吴博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202210465918.8A priority Critical patent/CN114885388B/zh
Publication of CN114885388A publication Critical patent/CN114885388A/zh
Application granted granted Critical
Publication of CN114885388B publication Critical patent/CN114885388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/0005Control or signalling for completing the hand-off
    • H04W36/0083Determination of parameters used for hand-off, e.g. generation or modification of neighbour cell lists
    • H04W36/0085Hand-off measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/14Reselecting a network or an air interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/16Discovering, processing access restriction or access information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种联合RSS预测的多业务类型自适应切换判决方法,包括如下步骤:步骤1:初始化筛选阈值;步骤2:扫描周围网络,步骤2.1:构建候选网络;步骤3:MD获取候选网络状态信息;步骤4:MD检测业务类型
Figure DDA0003624101040000011
步骤5:初始化业务类型权重信息Wb;步骤6:MD检测用户偏好信息
Figure DDA0003624101040000012
步骤7:上传收集信息;步骤8:更新权重信息,数据归一化处理;步骤9:计算,确定最优目标网络;步骤10:执行切换;步骤11:保存信息;步骤12:预测;步骤13:计算筛选机制中筛选阈值RSSth;步骤14:更新筛选阈值;步骤15:重复迭代,直到结束。这种方法能够在UD‑HWN中使MD自适应的实现目标网络的选择和切换,通过对未来时刻MD与最优目标BS之间RSS的预测,能够降低MD与BS的信令交互,从而降低MD的能量消耗和增加网络可用带宽,降低目标网络选择的计算量,提升切换效率,实现自适应切换。

Description

联合RSS预测的多业务类型自适应切换判决方法
技术领域
本发明涉及无线网络领域中超密集异构无线网络中网络切换技术,具体是一种联合RSS预测的多业务类型自适应切换判决方法。
背景技术
随着智能移动设备的普及和应用,大量移动设备的接入和智能应用程序的出现对网络性能提出了新的要求。超密集异构无线网络(Ultra-dense Heterogeneous WirelessNetworks,简称UD-HWN)是一种包含多种无线接入技术的复杂异构网络。不同的无线接入技术(4G、5G和Wi-Fi)能够为不同的业务需求提供服务,例如:当用户观看高清视频或者体验VR/AR应用时需要高带宽和低延迟,5G网络接入技术可以满足其需求;当用户语音通话或者接收短信服务时对带宽要求并没有那么高,使用4G网络即可。所以,UD-HWN能够满足不同移动终端在不同通信场景中的不同业务需求。在UD-HWN中由于MD的大量接入和移动,会造成移动设备(Mobile device,简称MD)与基站(Base Station,简称BS)之间产生频繁的网络切换问题,不同制式无线接入网络的覆盖范围对终端设备移动性的支持能力各不相同,用户在移动过程中会经历同一种网络制式间的网络切换(水平切换)以及跨不同网络制式间的网络切换(垂直切换),从而确保移动设备与基站及之间的通信的连续性。而频繁的网络切换会导致网络中有大量的信令传播、数据包的丢失和网络的延迟以及MD的能量消耗,还可能会产生“乒乓效应”,造成网络的吞吐量下降和不好的用户体验质量(Quality ofExperience,简称QoE)。为了避免MD与BS之间频繁的切换造成资源浪费和用户QoE下降的问题,近些年,许多研究人员对网络切换算法展开较深入的研究,根据切换判决方法的不同,现有网络切换算法可以分成四大类:(1)基于单属性值的网络切换方法;(2)基于多属性值的网络切换方法;(3)基于模糊逻辑的网络切换方法;(4)基于机器学习的网络切换方法。
基于单属性值的切换判决算法主要运用在早期的异构网络中,该算法以单一属性值作为网络切换的判决条件,其中最常见的是根据用户的接收信号强度值(ReceivedSignal Strength,简称RSS)作为参考标准来制定用户的垂直切换策略。其主要原理是根据用户终端接收到的目标BS的信号强度高于当前BS的信号强度,即执行切换操作。该方法容易受一些其他因素(比如用户的移动和无线网络传输过程中衰落等)的影响,从而导致在网络切换过程中产生“乒乓效应”。
然而,无线网络状态和移动用户空间位置的动态变化会导致更多影响网络切换管理策略性能的因素。目前的网络切换管理中已经不仅仅依靠单一的判决因素,现有的很多网络切换管理策略都考虑了可感知的网络状态的变化并据此做出调整,既避免了网络切换过于频繁而导致的乒乓效应,也避免了网络切换的灵敏度过于迟钝。当移动设备产生多种业务类型的任务时,多属性网络切换管理方法能够更合理的判断并确定最优目标网络。所以,提出了基于多属性决策的网络切换管理。
基于多属性值的切换判决算法考虑了多种可感知的网络属性(比如,带宽,时延等)作为切换判决属性,通过构造加权函数选择最优目标网络进行网络切换。该类算法主要包括基于简单加权和算法(Simple Additive Weighting,简称SAW),灰色关联分析算法(Grey Relation Analysis,简称GRA)、逼近理想解排序算法(Technique For OrderPreference By Similarity To Ideal Solution,简称TOPSIS)和层次分析法(AnalyticHierarchy Process,简称AHP)。简单加权和算法在网络切换中的应用具体如下:首先通过获取网络属性参数值,然后构建矩阵,由于获取到的网络属性值数据类型和单位不统一,如果这些数据不进行处理直接进行计算会造成计算数值很大,为了使计算过程变得简单需要对矩阵数值进行归一化处理,最后根据处理后的属性值乘以其对应权重向量,根据计算出的数值大小作为切换判决依据。针对异构无线网络环境,MAALOUL等人(MAALOUL S,AFIF M,TABBANE S.Vertical Handover Decision Policy Based on the End User's PerceivedQuality of Service[M].2013:493-8.)为了减少切换延迟提高用户感知的QoS,提出了一种改进的简单加权和切换判决算法(E-SAW)。通过对每种属性设定网络属性阈值,减少候选网络的数量,从而实现在计算目标网络阶段减少不必要的计算量,降低了不必要的处理延迟。但是基于SAW算法存在一个问题,其假设各切换判决属性是互相不受影响,因此在多属性决策问题中使用SAW算法选择目标网络可能会存在一定的片面性而导致效率不高,因为多个属性间存在一定的联系,不是相互独立的。层次分析法(Analytic HierarchyProcess,简称AHP)是一种采用定性和定量相结合的分析方法。基于AHP算法在网络切换中的应用具体如下:首先构造出层次结构模型,通常分为:方案层、准则层和目标层,其中目标层为选择切换网络,准则层分为业务层和属性层,业务层包括视频类业务,音频类业务,交互类业务等,属性层主要考虑切换判决属性,比如接收信号强度(RSS),延迟,能耗,丢包率等。方案层为备选的切换网络。然后根据业务类型对准则层中的每个判决属性的重要性进行比较,通过客观判断结果构造出准则层的每种业务类型中判决属性的判断矩阵,根据判断矩阵计算出特征向量、特征根和权重值,最后通过一致性检验分析判断其有效性。通过AHP方法可以计算网络切换中每个判决属性的权重值。Liu等(Liu Shengmei,Pan Su,MiZhengkun,et al.A simple additive weighting vertical Handoff algorithm basedon SINR and AHP for heterogeneous wireless networks[C]//2010 InternationalConference on Intelligent Computation Technology and Automation.Changsha,China:IEEE Press,2011:347-350.)在异构无线网络中,提出了一种AHP与SAW相结合的垂直切换算法,其中使用AHP计算不同业务属性权重,然后使用SAW方法计算目标函数得出目标网络,该算法综合考虑了WLAN和WCDMA中的信号干扰噪声比(Signal to Interferenceplus Noise Ratio,简称SINR)、用户所需带宽、用户业务成本和可用带宽等判决属性,考虑了四种业务类型:会话类、流媒体类、交互类和背景类,采用AHP确定判决属性的权重向量。根据业务类型对切换判决属性的要求不同,考虑多属性QoS的切换决策,最后通过SAW计算判决值,根据计算出的结果大小作为候选网络切换优先级排序结果。基于AHP算法虽然具有系统性的分析和简洁实用以及所需定量数据信息较少等优点,但是也有缺点,当属性参数过多(超过9个)时,标度工作量太大,比较两个指标间的重要程度时会有一定难度,易引起判断混乱,使得权重值不容易确定。
以上基于传统的网络切换算法具有一定的缺点,随着MD数量的增加,产生的数据量也随之增加,这样会造成计算量增加,从而导致计算时延增加,所以网络切换时延也会增加,造成了不好的用户服务体验。随着人工智能的迅速发展,通过使用大规模数据对算法中神经网络模型的训练不断优化其参数,使机器学习算法具有自主学习能力,而且神经网络采用并行分布处理方法,使得快速进行大量运算成为可能,当MD有新的网络切换请求时,神经网络可以快速准确地计算出目标切换网络;另外,通过神经网络可以通过训练学习自适应未知的动态系统,结合异构网络中MD产生的业务类型、移动速度和网络资源等是实时动态变化的,所以机器学习算法被应用到网络切换中。
Figure BDA0003624101020000041
等(
Figure BDA0003624101020000042
Ali et
Figure BDA0003624101020000043
Celal.Artificial neural network based vertical handoff algorithm forreducing handoff latency.Wireless personal communications,2013,vol.71,no 4,p.2399-2415.)针对五种不同的应用和五种不同的无线技术(Wi-Fi、GSM、GPRS、UMTS和WiMAX),提出了一种基于人工神经网络的切换决策算法,以降低异构网络中智能设备的切换延迟。算法中采用三层神经网络(NN)模型,考虑开销成本、数据速率和RSS三种切换判决属性。将这三种网络参数作为输入,通过对神经网络参数进行训练后,神经网络可以自适应选择最优的目标网络。与SAW和其他一些基于人工智能的算法进行比较,该方法在切换延迟和选择最优网络方面优于大多数传统的切换决策方法。马等人(马彬,李尚儒,谢显中.异构无线网络中基于人工神经网络的自适应垂直切换算法[J].电子与信息学报,2019,41(05):1210-6.)提出一种基于人工神经网络的自适应垂直切换算法,首先根据MD获取到的RSSi与预处理模块中设定的阈值RSSth进行比较,若RSSi≥RSSth+HY,(HY表示迟滞),则加入候选网络集,然后再根据不同业务类型对网络属性(RSS、带宽、时延、抖动、丢包率)的要求不同进行自适应选择和归一化处理,最后把处理后的网络属性值输入到神经网络中对网络参数(权重w和偏执b)进行训练,根据训练出的判决值大小选择最佳的目标网络。但是基于神经网络进行训练的算法在系统运行初期需要一段时间对神经网络参数进行训练,这可能会造成网络切换初期的切换次数达不到迅速降低的效果,而且不同的机器学习算法其训练过程中收敛效果也不同,这就需要根据应用场景来选择比较合适的机器学习算法进行网络切换。
发明内容
本发明的目的是针对UD-HWN中网络切换频繁及能量消耗问题,考虑到不同业务类型对网络性能要求不同,提出一种联合RSS预测的多业务类型自适应切换判决方法。这种方法能够在UD-HWN中使MD自适应的实现目标网络的选择和切换,通过对未来时刻MD与最优目标BS之间RSS的预测,能够降低MD与BS的信令交互,从而降低MD的能量消耗和增加网络可用带宽,降低目标网络选择的计算量,提升切换效率,实现自适应切换。
实现本发明目的的技术方案是:
联合RSS预测的多业务类型自适应切换判决方法,包括如下步骤:
步骤1:初始化筛选阈值,设定候选网络初始筛选阈值RSSth为-120dBm;
步骤2:MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSSi值;
步骤2.1:如果RSSi<RSSth,则忽略此网络;否则把该网络加入候选网络集
Figure BDA00036241010200000520
步骤3:移动设备MD获取候选网络状态信息表示为
Figure BDA0003624101020000051
Figure BDA0003624101020000052
其中,MD的编号表示为
Figure BDA00036241010200000519
集合su(t)中表示切换判决属性,
Figure BDA0003624101020000053
表示MD u在t时隙与候选网络v的信号接收强度值,
Figure BDA0003624101020000054
表示MD u在t时隙与候选网络v的网络带宽,
Figure BDA0003624101020000055
表示MD u在t时隙与候选网络v的网络延迟,
Figure BDA0003624101020000056
表示MD u在t时隙与候选网络v的网络抖动,
Figure BDA0003624101020000057
表示MD u在t时隙与候选网络v的网络负载,
Figure BDA0003624101020000058
代表MD u在t时隙与候选网络v的网络开销,
Figure BDA0003624101020000059
表示MD u在t时隙与候选网络v的能量消耗;
步骤4:MD检测业务类型
Figure BDA00036241010200000510
其中,
Figure BDA00036241010200000511
表示MD u在t时隙的业务类型。五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为
Figure BDA00036241010200000518
其中b∈{1,2,3,4,5},β1代表会话类,β2代表交互类,β3代表流类,β4代表M2M类,β5代表后台类;
步骤5:初始化业务类型权重信息,根据业务类型使用层次分析法AHP,通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤,计算其对应的网络状态权重信息Wb
步骤6:MD检测用户偏好信息
Figure BDA00036241010200000512
使用
Figure BDA00036241010200000513
表示用户偏好集合,其中
Figure BDA00036241010200000514
χ1代表网络费用C,χ2代表网络时延D,χ3代表终端能耗E;
步骤7:MD把收集到的网络状态信息su(t),业务类型
Figure BDA00036241010200000515
和用户偏好信息
Figure BDA00036241010200000516
上传至当前BS;
步骤8:当前BS首先根据用户偏好信息
Figure BDA00036241010200000517
使用用户偏好公式(1)更新业务类型对应的网络状态权重信息,其中,aij为判断矩阵中的值;
Figure BDA0003624101020000061
Figure BDA0003624101020000062
步骤9:目标网络选择过程:首先把目标网络选择问题建模为马尔科夫决策过程,然后对网络状态su(t)信息使用公式(2)进行归一化处理,把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算,求最大状态价值argmaxπ[Vπ(s)]所对应的策略π*,把策略π*对应的网络作为目标切换网络;
步骤10:相同类型的网络执行水平切换,否则执行垂直切换;
步骤11:依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息;
步骤12:根据MD的历史位置、目标切换网络的ID和对应的RSS信息,利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值;
步骤13:计算筛选机制中筛选阈值RSSth,其方法是:根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSSth进行累加求平均值;
步骤14:更新筛选阈值RSSth,用步骤13得到的平均值作为筛选阈值RSSth的更新值,以防止预测的RSS与真实值之间有差距而错过最优目标网络;
步骤15:重复迭代,直到结束。
与现有的研究相比,本技术方案具有如下特点:
1、传统的网络切换方法是基于MD与BS之间的RSS值是否满足A3事件来进行切换,这种切换方法由于MD的移动和网络的波动很容易产生“乒乓效应”,在UD-HWN中这种切换判决方法是不现实的。所以,本技术方案中为了降低MD与网络的切换次数,根据每种业务类型对网络的性能要求不同,比如,会话类业务属于实时性业务的一种,其需要保证数据的快速传输和连续性,所以对网络时延和抖动比较敏感。交互类业务也是实时性业务,其要保证数据内容透明传输以及完整的信息内容,要求有很低的误码率和丢包率。综合考虑多种业务类型和多种网络属性作为切换判决属性,根据多种切换判决属性共同约束MD与网络之间的切换,以此降低MD与网络之间不必要的网络切换。
2、为了提高网络吞吐量和降低MD的能量消耗,本技术方案中首先提出一个联合RSS门限阈值机制对候选网络进行筛选,先设定一个初始阈值RSSth,MD通过检测把符合条件的网络加入候选网络列表,考虑到在UD-HWN中会有多种业务类型,不同的业务类型对网络性能的要求不同,比如,非实时性业务类型(视频流)对带宽要求比较高,但是对RSS相对要求不需要那么高,所以初始筛选阈值RSSth设置为-120dBm,因为小于-120dBm所有业务几乎无法呼起。筛选机制能够降低候选网络规模,从而降低后续目标网络选择算法中计算复杂度,增加MD对最优目标网络的选择的概率。另外,在UD-HWN中MD与BS之间可能会有大量的信令交互,大量的信令交互会占用部分网络资源,造成可用网络资源减少和MD的能量消耗升高,从而降低用户的QoS和QoE。为了降低不必要的网络参数信令交互,提高网络吞吐量,降低MD能量消耗以及服务时延,本技术方案通过采用深度学习中的门控循环单元(GRU)模型,根据MD与BS的RSS的历史信息及MD对应的位置信息,预测未来时隙MD可能最优RSS,更新优化RSS门限阈值。
3、针对UD-HWN中动态时变的网络资源和性能对网络切换的影响,本技术方案提出了基于强化学习A3C的切换判决算法(RSS Asynchronous Advantage Actor-CriticHandover,RA3CHO)。首先通过层次分析法(AHP)计算不同业务对应的属性权重值,再基于用户偏好对属性权重值进行再优化;然后,把网络的切换过程建模为马尔科夫决策过程(MDP)模型,结合深度强化学习A3C算法,把业务类型和候选网络性能参数作为输入使用Critic神经网络计算出各候选网络的状态价值大小,并选择状态价值最大的网络作为目标切换网络,如果当前接入网络和目标切换网络的类型相同,则MD执行水平切换,否则执行垂直切换,实现自适应切换决策。
本技术方案能在实际生活中得到应用。
这种方法使UD-HWN中的MD自适应的实现目标网络的选择和切换,能够降低MD与BS的信令交互,提升网络吞吐量,降低MD的能量消耗,降低目标网络选择的时间复杂度,提升切换效率和准确性,实现自适应切换。
附图说明
图1实施例中系统应用场景模型图;
图2实施例中目标网络切换流程图;
图3实施例中Worker线程与环境进行交互训练过程示意图;
图4实施例中GRU网络单元结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
本例考虑一个覆盖长度为L、宽度为W的超密集异构网络环境为系统应用场景,其示意图如图1所示。系统由1个4G宏基站(MBS)、M个5G微基站(SBS)、N个WLAN-AP和U个MD构成。其中,SBS和WLAN分布在MBS的覆盖范围下,SBS的集合可以表示为
Figure BDA0003624101020000081
WLAN-AP的集合可以表示为
Figure BDA0003624101020000082
MD的集合可以表示为
Figure BDA0003624101020000083
候选网络集合V={1,2,…,v,…,V}。4G MBS的传输半径为R4G,每个5G SBS的传输半径为R5G,每个WLAN-AP的传输半径为RW。M个5G SBS和N个WLAN-AP随机部署在该区域,相邻BS有交叉实现区域全覆盖。每个MD在某一时刻是移动或静止状态,本系统规定MD的移动速度为3m/s。每个MD处于多个网络覆盖的状态。
本例主要考虑五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为
Figure BDA0003624101020000089
用户u在t时隙的业务类型可以表示为
Figure BDA0003624101020000084
通过分析可知,每种业务类型的特点各不相同,其对网络性能的要求也不同。本例考虑七种影响网络切换的判决属性,其分别为:接收信号强度RSS、带宽B、延迟D、网络抖动J、丢包率L、网络费用C和终端能耗E。
本例以网络中的一个服务周期T为例。
联合RSS预测的多业务类型自适应切换判决方法,包括如下步骤:
步骤1:初始化筛选阈值,设定候选网络初始筛选阈值RSSth为-120dBm;
步骤2:MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSSi值;
步骤2.1:如果RSSi<RSSth,则忽略此网络;否则把该网络加入候选网络集
Figure BDA0003624101020000085
步骤3:移动设备MD获取候选网络状态信息表示为
Figure BDA0003624101020000086
Figure BDA0003624101020000087
其中,MD的编号表示为
Figure BDA0003624101020000088
集合su(t)中表示切换判决属性,
Figure BDA0003624101020000091
表示MD u在t时隙与候选网络v的信号接收强度值,
Figure BDA0003624101020000092
表示MD u在t时隙与候选网络v的网络带宽,
Figure BDA0003624101020000093
表示MD u在t时隙与候选网络v的网络延迟,
Figure BDA0003624101020000094
表示MD u在t时隙与候选网络v的网络抖动,
Figure BDA0003624101020000095
表示MD u在t时隙与候选网络v的网络负载,
Figure BDA0003624101020000096
代表MD u在t时隙与候选网络v的网络开销,
Figure BDA0003624101020000097
表示MD u在t时隙与候选网络v的能量消耗;
步骤4:MD检测业务类型
Figure BDA0003624101020000098
其中,
Figure BDA0003624101020000099
表示MD u在t时隙的业务类型。五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为
Figure BDA00036241010200000910
其中b∈{1,2,3,4,5},β1代表会话类,β2代表交互类,β3代表流类,β4代表M2M类,β5代表后台类;
步骤5:初始化业务类型权重信息,根据业务类型使用层次分析法AHP,通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤,计算其对应的网络状态权重信息Wb
步骤6:MD检测用户偏好信息
Figure BDA00036241010200000911
使用
Figure BDA00036241010200000912
表示用户偏好集合,其中
Figure BDA00036241010200000913
χ1代表网络费用C,χ2代表网络时延D,χ3代表终端能耗E;
步骤7:MD把收集到的网络状态信息su(t),业务类型
Figure BDA00036241010200000914
和用户偏好信息
Figure BDA00036241010200000915
上传至当前BS;
步骤8:当前BS首先根据用户偏好信息
Figure BDA00036241010200000916
使用用户偏好公式(1)更新业务类型对应的网络状态权重信息,其中,aij为判断矩阵中的值;
Figure BDA00036241010200000917
步骤9:目标网络选择过程:首先把目标网络选择问题建模为马尔科夫决策过程,然后对网络状态su(t)信息使用公式(2)进行归一化处理,把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算,求最大状态价值argmaxπ[Vπ(s)]所对应的策略π*,把策略π*对应的网络作为目标切换网络;
目标网络选择具体过程表示为:
1)将UD-HWN中的目标网络选择问题建模为马尔科夫决策过程(Markov DecisionProcess,简称MDP),可通过四元组<S,A,P,R>来表示,其中S表示有限的网络状态空间,A表示有限的网络选择动作空间,P表示在网络状态s下选择动作a后使网络状态转移到s的概率,R代表执行动作A的奖励值;
2)构造状态空间:假设每个MD u有
Figure BDA0003624101020000101
个候选网络,其中
Figure BDA0003624101020000102
本例考虑了7种切换判决属性:接收信号强度RSS、带宽B、延迟D、网络抖动J、丢包率L、网络费用C和终端能耗E,则网络状态空间可以表示为:S={S1,S2,…,Su,…,SU},其中MD u的网络状态Su表示为:
Figure BDA0003624101020000103
其中×表示笛卡尔积,网络状态空间由每一个MD u的候选网络集合和切换判决属性作笛卡尔积构成,为了避免维度灾难现象需要降低状态空间的维数,把每个MD u的切换判决属性在其取值范围内离散化,即:
Figure BDA0003624101020000104
Figure BDA0003624101020000105
Figure BDA0003624101020000106
Figure BDA0003624101020000107
Figure BDA0003624101020000108
Figure BDA0003624101020000109
Figure BDA00036241010200001010
其中t表示决策时刻,即做出决策并选择动作的时间点,其表示为:T={1,2,…,t,…,T}。
Figure BDA00036241010200001011
表示MD u在t时隙与候选网络v的RSS,同理
Figure BDA00036241010200001012
Figure BDA00036241010200001013
表示的含义以此类推;
然后把MD上传的网络状态su(t)信息使用公式(2)进行归一化处理,其中rij表示归一化后的值,bij表示候选网络中某一个判决属性的值,minibij表示该判决属性中最小的值,maxibij表示该判决属性中最大的值;
Figure BDA0003624101020000111
3)构造动作空间:系统中的动作是指智能体(agent)在候选网络列表中进行网络切换的动作,即At={a1(t),…,au(t),…,aU(t)},其中
Figure BDA0003624101020000112
表示agent在t时隙选择候选网络v的概率;
4)构造奖励函数:奖励函数是指agent在候选网络列表中执行网络切换策略π的累积奖励,系统在t时隙采取策略π进行目标网络选择的奖励函数可表示为公式(3)所示,其中Wb为业务类型b的判决属性权重向量,
Figure BDA0003624101020000113
为用户u在t时隙与候选网络v经过归一化处理之后得到的判决属性值的向量表示,v∈[1,V],Rt为即时奖励;
Figure BDA0003624101020000114
5)构造状态价值函数:状态价值函数Vπ(s),表示在s状态下采取动作策略π所获得的累积奖励的总和,具体表示如公式(4)所示,其中γ∈[0,1]为折扣因子,表示未来奖励在当前决策中的重要程度;
Figure BDA0003624101020000115
6)构造动作价值函数:动作价值函数Qπ(s,a),表示在s状态下采取策略π中动作a所获得的累积奖励总和,具体表示如公式(5)所示:
Figure BDA0003624101020000116
由此可知,Vπ(s)与Qπ(s,a)之间的关系可以表示为:
Figure BDA0003624101020000117
强化学习的目标是最大化累积折扣奖励,即找到最优策略序列π*使上述状态值函数的值最大,可以表示为:
Figure BDA0003624101020000121
7)A3C网络的具体训练过程:
A3C算法中每个Worker线程与环境进行交互训练的过程如图3所示,每个Worker线程和UD-HWN环境交互获得t时隙内业务类型、用户偏好信息和网络属性值数据后,Actor神经网络在训练过程中根据Critic神经网络计算出的累积奖励值来进行正向或反向调整动作选择的概率,Critic神经网络根据应用环境输出的奖励值来调整自己的参数。每个Worker线程计算自己神经网络损失函数的梯度,每隔一段时间,n个Worker线程会独立的使用累积的梯度分别更新公共部分的神经网络模型参数,这些线程里的模型采用异步强化学习方法使Worker线程更好的和环境交互,拿到相关性较低的数据帮助模型更快收敛,进而指导后面的环境交互;
①Actor神经网络训练和参数更新规则:
Actor网络是一种基于策略的神经网络,其目标是找到一种最优策略来提升系统性能,为了找到最优策略必须对神经网络进行训练更新参数。策略梯度定义一个优化目标函数J(π),表示策略π得到折扣奖励值,用来衡量策略的好坏;
J(π)=E[Vπ(S0)] (8),其中S0为初始状态;
Actor网络在输出层使用了softmax函数,所以状态St输出的每个动作都有相应的概率,agent根据网络输出的概率分布选择动作。Actor网络的策略函数定义为:
a=π(St|θ) (9),
Actor网络的参数更新过程是根据Critic网络提供状态价值函数的估计值,然后用这个估计值代替真实的状态价值形成策略梯度,再用这个梯度来更新Actor网络参数θ。关于参数θ的梯度可以表示为:
Figure BDA0003624101020000122
其中
Figure BDA0003624101020000123
是优势函数,
Figure BDA0003624101020000124
优势函数的含义是在状态St下,动作At相对于动作平均值的优势,其中Qπ(St,At)=Rt+1+γVπ(St+1);
Actor网络的本地策略参数梯度更新:
Figure BDA0003624101020000131
其中α是Actor网络的学习率,H(π(St,θ))为策略π的熵项,用于拓展策略探索空间,c为熵系数;
②Critic神经网络训练和参数更新规则:
Critic网络是一种基于价值的神经网络,其作用是用来评估Actor网络做出的策略好坏,目的是估计UD-HWN环境状态St对应的累积奖励值,Critic网络根据UD-HWN环境对Actor网络的动作奖励值来调整自己的参数,使用时序差分(Temporal Difference,简称TD)的梯度下降法来训练和更新网络参数,Critic网络将St和St+1作为输入,根据当前奖励Rt+1和估计值
Figure BDA0003624101020000132
Figure BDA0003624101020000133
计算时序差分误差(TD-Error),公式(12)所示,使用均方差损失函数作为Critic网络参数
Figure BDA00036241010200001312
的梯度迭代更新,公式(15)所示:
Figure BDA0003624101020000134
Figure BDA0003624101020000135
通过最小化损失函数训练Critic网络参数
Figure BDA0003624101020000136
损失函数的梯度表达式为:
Figure BDA0003624101020000137
Critic网络参数
Figure BDA0003624101020000138
梯度更新表示为:
Figure BDA0003624101020000139
其中ξ是学习率;,
最后每个Worker线程会更新全局神经网络模型参数:θ=θ-αdθ,
Figure BDA00036241010200001310
Figure BDA00036241010200001311
步骤10:自适应切换过程:相同类型的网络执行水平切换,否则执行垂直切换;
基于深度强化学习的多属性自适应切换判决算法过程:
输入:候选网络列表中业务类型
Figure BDA0003624101020000141
及其权重向量Wb,用户偏好
Figure BDA0003624101020000142
和网络状态(归一化处理后)
Figure BDA0003624101020000143
初始学习率α和ξ,熵系数c,折扣因子γ,Critic网络预训练回合数K1,联合训练回合数K2
输出:最优目标网络v的ID编号
Figure BDA0003624101020000144
Figure BDA0003624101020000145
Figure BDA0003624101020000146
Figure BDA0003624101020000151
步骤11:依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息;
步骤12:根据MD的历史位置、目标切换网络的ID和对应的RSS信息,利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值;
系统中移动性管理模块可以根据MD的历史RSS信息作为输入,预测下一时隙MD与目标BS的RSS值,其中历史RSS信息表示为RSSu为文本描述数据,需要先把其转化为计算机能处理的数值向量再作为输入信息。本例使用word2vec模型对历史RSS信息进行处理,使用word2vec中的CBOW模型获取历史RSS信息的词向量,首先将历史RSS信息中的目标基站编号、MD的位置标签信息、与目标BS之间的RSS值、停留时间以及用户偏好信息转换为one-hot向量,然后把其作为CBOW模型的输入,通过模型训练得到词向量,词向量化后MD u的历史RSS信息表示为:
Figure BDA0003624101020000152
GRU网络模型单元结构如图4所示,每个记忆块包括更新门和重置门,图中xt表示当前的输入信息,ht-1表示上一个网络单元传递下来的隐状态(包含了之前网络单元的相关信息,即称为历史信息),ht表示当前网络单元的输出和传递给下一网络单元的隐状态,zt和rt分别表示更新门和重置门,更新门作用用于控制当前时隙状态ht需要从上一时隙状态ht-1中保留多少信息,更新门的值越大说明上一时隙状态ht-1信息被带入的越多。重置门负责控制上一时隙状态ht-1信息被写入到当前的候选状态
Figure BDA0003624101020000161
上,重置门的值越小,上一时隙状态ht-1的信息被写入的越少,更新门zt和重置门rt的计算公式可以表示为:
zt=σ(Wzxt+Uzht-1+bz) (16),
rt=σ(Wrxt+Urht-1+br) (17),
σ表示激活函数sigmoid,zt,rt∈[0,1],W*,U*为相应的权重矩阵,b*为可变偏差,*∈{z,r};
GRU网络中候选状态
Figure BDA0003624101020000162
可以定义为:
Figure BDA0003624101020000163
其中
Figure BDA0003624101020000164
表示向量元素相乘;
GRU网络的状态更新方式表示为:
Figure BDA0003624101020000165
GRU训练算法是反向传播(Back Propagation,BP)算法,主要包括以下三个步骤:
1)计算网络单元中每个神经元向前的输出值,GRU中输出值包括zt,rt,
Figure BDA0003624101020000166
和ht
2)计算网络单元中每个神经元向后的误差项的值;
3)根据相应的误差项计算每个权重的梯度;
步骤13:计算筛选机制中筛选阈值RSSth,其方法是:根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSSth进行累加求平均值;
步骤14:更新筛选阈值RSSth,用步骤13得到的平均值作为筛选阈值RSSth的更新值,以防止预测的RSS与真实值之间有差距而错过最优目标网络;
具体过程如基于GRU的RSS预测及筛选阈值更新算法所示:
输入:MD历史RSS信息:
Figure BDA0003624101020000167
其中
Figure BDA0003624101020000168
时间步长k,学习率η
输出:候选网络更新筛选阈值RSS′th
Figure BDA0003624101020000169
Figure BDA0003624101020000171
步骤15:重复迭代,直到周期T结束。

Claims (1)

1.联合RSS预测的多业务类型自适应切换判决方法,其特征在于,在超密集异构网络场景下实现自适应切换,包括如下步骤:
步骤1:初始化筛选阈值,设定候选网络初始筛选阈值RSSth为-120dBm;
步骤2:MD扫描获取当前时隙所在区域内所有网络的ID及其对应的RSSi值;
步骤2.1:如果RSSi<RSSth,则忽略此网络;否则把该网络加入候选网络集
Figure FDA00036241010100000120
步骤3:移动设备MD获取候选网络状态信息表示为
Figure FDA0003624101010000011
Figure FDA0003624101010000012
其中,MD的编号表示为
Figure FDA0003624101010000013
集合su(t)中表示切换判决属性,
Figure FDA0003624101010000014
表示MDu在t时隙与候选网络v的信号接收强度值,
Figure FDA0003624101010000015
表示MD u在t时隙与候选网络v的网络带宽,
Figure FDA0003624101010000016
表示MD u在t时隙与候选网络v的网络延迟,
Figure FDA0003624101010000017
表示MD u在t时隙与候选网络v的网络抖动,
Figure FDA0003624101010000018
表示MD u在t时隙与候选网络v的网络负载,
Figure FDA0003624101010000019
代表MD u在t时隙与候选网络v的网络开销,
Figure FDA00036241010100000110
表示MD u在t时隙与候选网络v的能量消耗;
步骤4:MD检测业务类型
Figure FDA00036241010100000111
其中,
Figure FDA00036241010100000112
表示MD u在t时隙的业务类型。五种典型业务类型分别为:会话类、交互类、流类、M2M类和后台类,表示为
Figure FDA00036241010100000113
其中b∈{1,2,3,4,5},β1代表会话类,β2代表交互类,β3代表流类,β4代表M2M类,β5代表后台类;
步骤5:初始化业务类型权重信息,根据业务类型使用层次分析法AHP,通过建立层次结构模型、构造判断矩阵、计算权重值和一致性检验步骤,计算其对应的网络状态权重信息Wb
步骤6:MD检测用户偏好信息
Figure FDA00036241010100000114
使用
Figure FDA00036241010100000115
表示用户偏好集合,其中
Figure FDA00036241010100000116
χ1代表网络费用C,χ2代表网络时延D,χ3代表终端能耗E;
步骤7:MD把收集到的网络状态信息su(t),业务类型
Figure FDA00036241010100000117
和用户偏好信息
Figure FDA00036241010100000118
上传至当前BS;
步骤8:当前BS首先根据用户偏好信息
Figure FDA00036241010100000119
使用用户偏好公式(1)更新业务类型对应的网络状态权重信息,其中,aij为判断矩阵中的值;
Figure FDA0003624101010000021
Figure FDA0003624101010000022
步骤9:目标网络选择过程:首先把目标网络选择问题建模为马尔科夫决策过程,然后对网络状态su(t)信息使用公式(2)进行归一化处理,把归一化后的数据输入深度强化学习A3C算法神经网络中进行计算,求最大状态价值argmaxπ[Vπ(s)]所对应的策略π*,把策略π*对应的网络作为目标切换网络;
步骤10:相同类型的网络执行水平切换,否则执行垂直切换;
步骤11:依次保存MD其位置信息、目标切换网络的ID和对应的RSS信息;
步骤12:根据MD的历史位置、目标切换网络的ID和对应的RSS信息,利用深度学习GRU算法预测下一时隙MD与目标网络之间的RSS值;
步骤13:计算筛选机制中筛选阈值RSSth,其方法是:根据对MD u下一时隙RSS的预测值与当前筛选机制中筛选阈值RSSth进行累加求平均值;
步骤14:更新筛选阈值RSSth,用步骤13得到的平均值作为筛选阈值RSSth的更新值,以防止预测的RSS与真实值之间有差距而错过最优目标网络;
步骤15:重复迭代,直到结束。
CN202210465918.8A 2022-04-29 2022-04-29 联合rss预测的多业务类型自适应切换判决方法 Active CN114885388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210465918.8A CN114885388B (zh) 2022-04-29 2022-04-29 联合rss预测的多业务类型自适应切换判决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210465918.8A CN114885388B (zh) 2022-04-29 2022-04-29 联合rss预测的多业务类型自适应切换判决方法

Publications (2)

Publication Number Publication Date
CN114885388A true CN114885388A (zh) 2022-08-09
CN114885388B CN114885388B (zh) 2024-01-19

Family

ID=82673482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210465918.8A Active CN114885388B (zh) 2022-04-29 2022-04-29 联合rss预测的多业务类型自适应切换判决方法

Country Status (1)

Country Link
CN (1) CN114885388B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115996357A (zh) * 2023-03-23 2023-04-21 南昌龙旗智能科技有限公司 虚拟位置处理方法及虚拟设备
CN116866253A (zh) * 2023-09-04 2023-10-10 中科浩成(北京)科技产业发展有限公司 一种基于边缘计算的网络链路远程切换系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016024809A1 (en) * 2014-08-13 2016-02-18 Samsung Electronics Co., Ltd. Ambient network sensing and handoff for device optimization in heterogeneous networks
CN105979553A (zh) * 2016-05-25 2016-09-28 重庆邮电大学 一种基于模糊逻辑和topsis算法的分层网络切换决策方法
CN107071841A (zh) * 2017-03-02 2017-08-18 重庆邮电大学 异构网络中基于动态权重优化的垂直切换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016024809A1 (en) * 2014-08-13 2016-02-18 Samsung Electronics Co., Ltd. Ambient network sensing and handoff for device optimization in heterogeneous networks
CN105979553A (zh) * 2016-05-25 2016-09-28 重庆邮电大学 一种基于模糊逻辑和topsis算法的分层网络切换决策方法
CN107071841A (zh) * 2017-03-02 2017-08-18 重庆邮电大学 异构网络中基于动态权重优化的垂直切换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马彬等: "异构无线网络中基于人工神经网络的自适应垂直切换算法", 《电子与信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115996357A (zh) * 2023-03-23 2023-04-21 南昌龙旗智能科技有限公司 虚拟位置处理方法及虚拟设备
CN115996357B (zh) * 2023-03-23 2023-10-31 南昌龙旗智能科技有限公司 虚拟位置处理方法及虚拟设备
CN116866253A (zh) * 2023-09-04 2023-10-10 中科浩成(北京)科技产业发展有限公司 一种基于边缘计算的网络链路远程切换系统
CN116866253B (zh) * 2023-09-04 2023-12-01 中科浩成(北京)科技产业发展有限公司 一种基于边缘计算的网络链路远程切换系统

Also Published As

Publication number Publication date
CN114885388B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
Li et al. A deep learning method based on an attention mechanism for wireless network traffic prediction
Jiang Cellular traffic prediction with machine learning: A survey
Chen et al. Machine learning for wireless networks with artificial intelligence: A tutorial on neural networks
CN110225535B (zh) 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109447275B (zh) Udn中基于机器学习的切换方法
CN113778648B (zh) 分层边缘计算环境中基于深度强化学习的任务调度方法
CN114885388B (zh) 联合rss预测的多业务类型自适应切换判决方法
Zhang et al. Toward edge-assisted video content intelligent caching with long short-term memory learning
Zhang et al. Deep learning for wireless coded caching with unknown and time-variant content popularity
AU2020104133A4 (en) Expected conditional clustered regressive deep multilayer precepted neural learning for iot based cellular network traffic prediction with big data
Zineb et al. QoE-based vertical handover decision management for cognitive networks using ANN
CN111491312A (zh) 无线资源预测分配、获取、训练神经网络的方法及设备
CN112672402B (zh) 超密集异构无线网络中基于网络推荐的接入选择方法
US20240039788A1 (en) Deep reinforcement learning for adaptive network slicing in 5g for intelligent vehicular systems and smart cities
Zabihi et al. Reinforcement learning methods for computation offloading: a systematic review
Kaleem et al. A fuzzy preprocessing module for optimizing the access network selection in wireless networks
Zheng et al. Learning based task offloading in digital twin empowered internet of vehicles
Liu et al. Hastening stream offloading of inference via multi-exit dnns in mobile edge computing
Wu et al. Dynamic handoff policy for RAN slicing by exploiting deep reinforcement learning
CN113676357B (zh) 面向电力物联网中边缘数据处理的决策方法及其应用
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
Zhao et al. Reinforced-lstm trajectory prediction-driven dynamic service migration: A case study
Song et al. Dram: A drl-based resource allocation scheme for mar in mec
Chen et al. Traffic Prediction-Assisted Federated Deep Reinforcement Learning for Service Migration in Digital Twins-Enabled MEC Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant