CN110958654A - 基于强化学习的lte-r切换参数选择方法 - Google Patents

基于强化学习的lte-r切换参数选择方法 Download PDF

Info

Publication number
CN110958654A
CN110958654A CN201910990519.1A CN201910990519A CN110958654A CN 110958654 A CN110958654 A CN 110958654A CN 201910990519 A CN201910990519 A CN 201910990519A CN 110958654 A CN110958654 A CN 110958654A
Authority
CN
China
Prior art keywords
switching
value
lte
handover
parameter selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910990519.1A
Other languages
English (en)
Other versions
CN110958654B (zh
Inventor
吴澄
盛洁
汪一鸣
蔡兴强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910990519.1A priority Critical patent/CN110958654B/zh
Publication of CN110958654A publication Critical patent/CN110958654A/zh
Application granted granted Critical
Publication of CN110958654B publication Critical patent/CN110958654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/0005Control or signalling for completing the hand-off
    • H04W36/0083Determination of parameters used for hand-off, e.g. generation or modification of neighbour cell lists
    • H04W36/00837Determination of triggering parameters for hand-off
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/0005Control or signalling for completing the hand-off
    • H04W36/0083Determination of parameters used for hand-off, e.g. generation or modification of neighbour cell lists
    • H04W36/0085Hand-off measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/08Reselecting an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/24Reselection being triggered by specific parameters
    • H04W36/30Reselection being triggered by specific parameters by measured or perceived connection quality data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/24Reselection being triggered by specific parameters
    • H04W36/32Reselection being triggered by specific parameters by location or mobility data, e.g. speed data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/42Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for mass transport vehicles, e.g. buses, trains or aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的LTE‑R切换参数选择方法。当列车在相邻两个基站之间进行越区切换时,本发明依据不同事件下的切换算法,构建对应的状态集合S和动作集合A,通过获取历史不同速度、不同参数下的切换成功率作为经验值,利用强化学习的方法对经验值进行学习,选择合理的切换算法和切换参数,以达到最优切换性能,提高LTE‑R系统的切换成功率和平均吞吐量。本发明克服了现有切换机制中切换参数一旦设定就保持不变,从而影响切换参数准确性的不足,能够在列车速度发生改变时实现动态更新切换参数,具有自适应性,保证LTE‑R系统具有最优的切换性能。

Description

基于强化学习的LTE-R切换参数选择方法
技术领域
本发明涉及认知无线电与智能交通技术领域,尤其涉及一种基于LTE-R系统的切换算法中的切换机制和切换算法以及机器学习。
背景技术
目前,GSM-R(Global System for Mobile Communications – Railway)铁路无线通信系统技术标准已经在我国铁路无线通信中取得了成熟的应用。但随着列车无线通信需求的提高,也对铁路无线通信技术提出更高要求。基于LTE技术标准的LTE-R铁路通信技术标准是下一代无线铁路通信的首选。LTE-R通信技术具有服务能力更高,技术更加成熟,安全性能更强等优势。
目前,我国高铁列车运行速度已经可以达到350km/h,列车中的用户由于快速移动带来的多普勒效应对越区切换时的测量和判决将会产生很大影响。由于LTE-R标准遵从LTE技术标准,因此,当用户移动速度过快时,LTE-R技术的切换性能将明显下降。另外,由于LTE-R技术标准中的基站拓扑架设结构不同于目前的商用基站拓扑结构,其覆盖范围和重叠区域等因素,将会造成乒乓效应,过早、过晚切换等问题。因此,合理设置LTE-R系统中的切换条件对提高越区切换的性能具有重要意义。
在LTE-R技术标准中,用户的越区切换主要分为四个步骤:测量、上报、判决和执行。其中,用户测量RSRP(参考信号接收功率)和RSRQ(参考信号接收质量)等参数上报给当前服务基站,服务基站根据这些参数判决是否达到切换条件,若满足切换条件,则通知相邻服务基站和用户进行切换。
在LTE-R 系统中,基站在进行切换时,主要采用基于A2A4事件和A3事件的切换算法。当前服务小区RSRP低于一定阈值(Threshold)时,触发A2事件,当相邻服务小区RSRP高于当前服务小区一定偏置值(Offset)时,触发A4事件。当A2A4事件同时满足时,满足切换条件;当相邻服务小区RSRQ持续高于当前服务小区一段时间(TTT)且高于一定裕度(Hysteresis)值时,触发A3事件并开启切换。在两种切换算法中,由于切换参数的取值都是固定不变的,当环境及用户移动速度等因素发生改变时,切换参数不能适应外部环境的改变,会对切换性能造成很大影响。
在现有的LTE-R系统中,所采用的切换算法中的四个参数设置的值均是由经验值所取得,并且一旦设定就不能根据外部因素变化而改变,当用户速度改变时,切换性能仍然会受到很大影响。
在本发明作出之前,针对不同切换算法下的参数取值问题,提出了一种自适应的参数选择方案,该方案主要与用户移动速度,基站覆盖范围,以及列车与基站之间的距离等因素相关,通过公式计算法,将用户移动速度、基站覆盖范围、列车与基站间的距离进行组合,得到切换参数(参见文献:Li J , Tian L , Zhou Y , et al. An adaptive handovertrigger scheme for wireless communications on high speed rail[C]//Communications (ICC), 2012 IEEE International Conference on. IEEE, 2012.)。但是,采用这种自适应的切换参数选择方案,只考虑了影响用户切换的一些关键因素,并没有完整考虑所有影响切换的条件,具有局限性,存在得到的切换参数准确性不够等问题。
发明内容
本发明针对现有LTE-R系统中切换参数选择方法存在的不足,提供一种能有效提高LTE-R系统的切换成功率以及平均吞吐量等性能,达到优化切换性能目的的LTE-R切换参数选择方法。
实现本发明目的的技术方案是提供一种基于强化学习的LTE-R切换参数选择方法,包括以下步骤:
(1)依据LTE-R结构,建立基站的拓扑架构;
(2)依据不同事件下的切换算法,构建对应的状态集合S和动作集合A,所述状态集合S和动作集合A的结构相同,集合的元素包括LTE-R结构中切换参数的阈值、偏置值、切换触发时间和裕度;
(3)分别构建切换成功率的集合R和值函数Q,所述R、Q的维度与集合S和集合A的维度相同,对R和Q进行全零值的初始化;
(4)以步骤(2)构建的状态集合S和动作集合A为切换参数选择依据,在步骤(1)构建的基站中进行切换参数选择试验,得到在所有状态S下选择不同参数A的切换成功率的集合R的全部值;
(5)利用强化学习中的算法,以切换成功率的集合R为回报值函数R,输入集合S,A,R进行运算处理,更新所对应值函数Q的值,以找到R中最大值为目标进行学习,当找到回报值函数R的最大值时,学习结束;
(6)输出学习结束后的值函数Q,以值函数Q集合中的最大值所对应的切换参数为在当前环境下学习得到的切换参数;
(7)将步骤(6)得到的切换参数应用到LTE-R系统的切换算法中。
所述的不同事件下的切换算法包括:当采用基于A2A4事件的切换算法时,对应的切换参数选择方法为:将阈值和偏置值进行组合;当采用基于A3事件的切换算法时,对应的切换参数选择方法为:将切换触发时间和切换裕度进行组合;当采用基于A2A4和A3事件的切换算法时,对应的切换参数选择方法为:分别将阈值和偏置值、切换触发时间和裕度进行组合。
所述阈值按RSRP的物理值范围1~33取值;所述偏置值按RSRQ的报告值范围1~33取值;所述切换裕度按RSRQ的物理值范围1~15dbm取值;所述切换触发时间按3GPP标准定义的16个有效触发事件值0ms, 40ms, 64ms, 80ms, 100ms, 128ms, 160ms, 256ms, 320ms,480ms, 512ms, 640ms, 1024ms, 1280ms, 2560ms, 5120ms取值。
对值函数Q对应的切换参数进行可视化处理,包括二维或三维图像、彩色或灰度图像。
本发明原理是:在以基站的功率、相邻基站之间的距离、上下行链路的带宽、频段号及载频、资源分配方式和测量报告周期为参数的LTE-R架构基础上,根据不同参数状态下的历史切换成功率作为经验值,在 LTE-R的架构基础上还考虑了包括轨旁设备和移动用户等实际应用中需要加入的用户,利用强化学习的方法,得到一个可视化的值函数图,根据该值函数为切换参数的选择提供一种依据。依据本发明提供的方法,可以提高LTE-R系统的切换成功率以及平均吞吐量等性能;同时还可根据环境的改变而动态的提供不同的切换参数,以达到切换性能的优化。
本发明强化学习中的状态集合S的选择是以不同事件下的切换算法对不同切换参数组合得到的,其大小可人为定义,集合S范围越大,最后得到的最优参数的取值就越准确。
本发明提出一种基于历史切换成功率作为经验值,采用强化学习的方式生成在不同速度下的切换态势图,为切换参数的选择提供依据。通过强化学习的方式,可以动态的对历史经验值进行学习,当外部环境改变时,能对参数选择进行动态更新,具有自适应性。同时,采用强化学习的方式对切换参数进行选择,利用历史切换成功率作为经验值,可以不受外界因素对切换性能的影响和限制,具有普适性。
与现有技术相比,本发明所达到的有益效果如下:
1.本发明利用在不同参数状态下的切换成功率作为历史经验值,通过强化学习的方式对其进行处理,得到能反映切换态势的值函数图,据此选择得到的切换参数可明显提高LTE-R的切换性能。
2.本发明由于采用了强化学习对历史经验值进行学习的方式,可以弥补目前自适应设置参数时考虑影响切换因素不全面以及选择的参数不够准确的问题;同时,强化学习动态学习的特点可以根据环境不同的改变而动态的选择最优参数,具有自适应性。
3.本发明提供的LTE-R系统参数切换选择方法针对历史经验值进行学习,科学可靠,并且采用了可视化的方法,具有简单,直观的特点,便于对切换参数的选择。
附图说明
图1是LTE-R网络中用户在经过相邻基站进行切换时的示意图;
图2是本发明提供的的一种基于强化学习的LTE-R切换参数选择方法的流程框图;
图3是在速度为60km/h时利用本发明实施例提供的强化学习算法得到的Q值的图;
图4是采用本发明实施例提供的强化学习算法,在用户移动速度不同时得到的Q值图的对比图;图中a, b, c, d, e, f, g, h, i各图分别对应的是用户移动速度为60km/h、120km/h、160km/h、200km/h、250km/h、300km/h、350km/h、400km/h、450km/h时得到的Q值图的对比图;
图5是依据得到的Q值图得到的不同速度下最优参数与参数不变情况时的切换成功率对比图(原图为彩色显示);
图6是依据得到的Q值图找到不同速度下最优参数与参数不变情况时的平均吞吐量对比图(原图为彩色显示)。
具体实施方式
以下结合附图和实施例对本发明技术方案作进一步的详细说明。
实施例1
参见附图1,它是LTE-R网络中用户在经过相邻基站进行切换时的示意图。用户在A,B两个基站之间进行越区切换时,中间的竖线是列车越区切换时先断开A基站再接入B基站的切换分界线。在LTE-R系统中,其带宽由资源块的数量决定。
参见附图2,它是本发明提供的的一种基于强化学习的LTE-R切换参数选择方法的流程框图;在本实施例中具体包括如下步骤:
1. 建立基站的拓扑架构。
依据LTE-R结构,以基站的功率、相邻基站之间的距离、上下行链路的带宽、频段号及载频、资源分配方式和测量报告周期为参数,建立基站的拓扑架构。本实施例利用NS-3网络模拟器仿真LTE-R系统并构建基站拓扑架构:其提供的最大带宽为20Mhz(100个资源快);上下行链路频段号分别为38050和38000;资源块的分配方式为轮询方式;用户数量为50个用户;信道衰落模型使用Friss衰落模型;为了保证基站之间有足够的覆盖范围,又不至于导致用户的乒乓切换,基站之间距离设置为1600米,发射功率46dB,基站的架构按照铁路的走向呈链式拓扑结构;用户随着列车一起快速移动,当满足相应切换算法中的切换条件时,触发切换。
由于在用户进行切换的时间过程中,速度的变化很小,可近似认为用户在进行切换时速度是不变的。在本实施例中,UE的移动速度取七个典型的等级,分别为60km/h,120km/h, 160/h, 200/h, 250km/h, 300km/h, 350km/h, 400km/h, 450km/h, 对应铁路中普速列车、快速列车、特快/直达列车、动车组、高铁以及未来列车的速度等级,观察不同速度下切换参数的选择。
由于转移概率未知,因此,采用强化学习中的经典算法Q-Learning算法对历史经验值进行学习,由于Q-Learning算法具有收敛性,在经过有限次数的迭代后,最终得到的Q值函数将趋于稳定。
2.对Q-Learning算法中状态集合S和动作集合A作定义。
定义Q-Learning算法中的状态集合S:UE在某个速度下的 切换参数组合作为状态集S ,根据不同参数的取值范围合理选择66组参数,参数选择标准如下:
当采用基于A2A4事件的切换算法时,UE通过测量RSRQ的值进行切换判决。其中切换参数为RSRQ的阈值Threshold和偏置值Offset。其中,RSRQ的物理取值范围为-19.5~-3,其与UE测量的RSRQ的报告值存在如下关系:
Figure RE-DEST_PATH_IMAGE002
(1)
因此,RSRQ的测量报告值取值范围为0~33,对RSRQ的阈值Threshold取值范围也为0~33。考虑到
Figure RE-DEST_PATH_IMAGE004
(2)
当阈值(测量报告值)为31时,Offset的取值范围为:
Figure RE-DEST_PATH_IMAGE006
(3)
当阈值(测量报告值)为27时,Offset的取值范围为:
Figure RE-DEST_PATH_IMAGE008
(4)
……
当阈值(测量报告值)为3时,Offset的取值范围为:
Figure RE-DEST_PATH_IMAGE010
(5)
因此,Offset按照Threshold的取值合理1,5,9,13,17,21,25,29共八个参数,并与Threshold的值进行全排列(当Threshhold取值越大时,Offset可选取值也越少),得到36组切换参数作为
Figure RE-RE-DEST_PATH_IMAGE011
(i=1~36),当采用基于A3事件的切换算法时,UE通过测量RSRP的值进行切换判决。切换参数为切换触发时间TTT和切换裕度H。其中,TTT选择3GPP标准中推荐的128ms, 256ms, 512ms三个参数;裕度H的值与RSRP取值范围有关,3GPP推荐裕度H的取值范围不超过10,因此H取值为:1dbm~10dbm(间隔为1dbm)。对TTT和H的取值全排列,得到另外30组切换参数作为
Figure RE-262782DEST_PATH_IMAGE011
(i=37~66),表1是本实施例提供的切换参数组合与对应编号的具体对应关系。
表1
集合编号 参数组合
1 A2A4,Threshold=31, Offset=1
2 A2A4,Threshold=27, Offset=1
3 A2A4,Threshold=27, Offset=5
4 A2A4,Threshold=23, Offset=1
5 A2A4,Threshold=23, Offset=5
6 A2A4,Threshold=23, Offset=9
7 A2A4,Threshold=19, Offset=1
8 A2A4,Threshold=19, Offset=5
9 A2A4,Threshold=19, Offset=9
10 A2A4,Threshold=19, Offset=13
11 A2A4,Threshold=15, Offset=1
12 A2A4,Threshold=15, Offset=5
13 A2A4,Threshold=15, Offset=9
14 A2A4,Threshold=15, Offset=13
15 A2A4,Threshold=15, Offset=17
16 A2A4,Threshold=11, Offset=1
17 A2A4,Threshold=11, Offset=5
18 A2A4,Threshold=11, Offset=9
19 A2A4,Threshold=11, Offset=13
20 A2A4,Threshold=11, Offset=17
21 A2A4,Threshold=11, Offset=21
22 A2A4,Threshold=7, Offset=1
23 A2A4,Threshold=7, Offset=5
24 A2A4,Threshold=7, Offset=9
25 A2A4,Threshold=7, Offset=13
26 A2A4,Threshold=7, Offset=17
27 A2A4,Threshold=7, Offset=21
28 A2A4,Threshold=7, Offset=25
29 A2A4,Threshold=3, Offset=1
30 A2A4,Threshold=3, Offset=5
31 A2A4,Threshold=3, Offset=9
32 A2A4,Threshold=3, Offset=13
33 A2A4,Threshold=3, Offset=17
34 A2A4,Threshold=3, Offset=21
35 A2A4,Threshold=3, Offset=25
36 A2A4,Threshold=3, Offset=29
37 A3,TTT=128ms, H=1dbm
38 A3,TTT=128ms, H=2dbm
39 A3,TTT=128ms, H=3dbm
40 A3,TTT=128ms, H=4dbm
41 A3,TTT=128ms, H=5dbm
42 A3,TTT=128ms, H=6dbm
43 A3,TTT=128ms, H=7dbm
44 A3,TTT=128ms, H=8dbm
45 A3,TTT=128ms, H=9dbm
46 A3,TTT=128ms, H=10dbm
47 A3,TTT=256ms, H=1dbm
48 A3,TTT=256ms, H=2dbm
49 A3,TTT=256ms, H=3dbm
50 A3,TTT=256ms, H=4dbm
51 A3,TTT=256ms, H=5dbm
51 A3,TTT=256ms, H=6dbm
53 A3,TTT=256ms, H=7dbm
54 A3,TTT=256ms, H=8dbm
55 A3,TTT=256ms, H=9dbm
56 A3,TTT=256ms, H=10dbm
57 A3,TTT=512ms, H=1dbm
58 A3,TTT=512ms, H=2dbm
59 A3,TTT=512ms, H=3dbm
60 A3,TTT=512ms, H=4dbm
61 A3,TTT=512ms, H=5dbm
62 A3,TTT=512ms, H=6dbm
63 A3,TTT=512ms, H=7dbm
64 A3,TTT=512ms, H=8dbm
65 A3,TTT=512ms, H=9dbm
66 A3,TTT=512ms, H=10dbm
将UE在当前速度下选择何种参数进行切换集合作为动作集A;动作
Figure DEST_PATH_IMAGE007
的选择与
Figure 503991DEST_PATH_IMAGE008
一致。值得注意的是:状态集合
Figure 676347DEST_PATH_IMAGE008
的取值与动作集合
Figure 80652DEST_PATH_IMAGE007
的取值越多,最终得到的最后得到的最优参数的取值就越准确。
3. 利用Q-Learning强化学习的方式生成在不同速度下的切换态势图,为切换参数的选择提供依据。
初始化切换成功率集合R和Q-Learning算法中的值函数Q,以切换成功率的集合R作为Q-Learning算法中的回报值函数R。
利用NS-3仿真程序进行仿真,得到在所有状态
Figure 287642DEST_PATH_IMAGE008
下选择不同参数
Figure 135513DEST_PATH_IMAGE007
进行切换的切换成功率,得到切换成功率集合R的全部值。表2是本实施例提供的在NS-3中仿真范数的设置。
表2
Bandwidth(Mhz) 20Mhz(100RB)
Frequency Band UL:38050 DL:38000
Number Of UEs 50
Number Of eNbs 3
HandoverEvent A2A4 Event, A3 Event
Distance Between eBbs(m) 1600
Power Of eNbs(dbm) 46
Packet MAC Scheduler Round Robin
Path Loss FriisPropagationLossModel
Fading Model FriisSpectrumPropagationLossModel
RRC Model Ideal RRC model
Simulation time(s): 100
TTT(ms) 128,256,512
Hysester(dbm) 1,2,3,4,5,6,7,8,9,10
Threshold -4,-6,-8,-10,-12,-14,-16,-18
Offset 1,5,9,13,17,21,25,29
UE mobility speed(km/h) 60,120,160,200,250,300,350,400,450
对Q-Learning算法进行程序编写。
本实施例利用C++程序对该算法进行编写,输入状态集合S,动作集合A,回报值函数R,当找到值函数R最大值时,学习结束,并输出值函数Q。
伪代码流程如下所示:
Initialize Q(s,a) arbitrarily
Repeat (for each episode):
Initialize
Figure DEST_PATH_IMAGE009
(i=1)
Repeat (for each step of
Figure 795164DEST_PATH_IMAGE009
):
Choose
Figure 753893DEST_PATH_IMAGE010
(j=1~66) from
Figure 549811DEST_PATH_IMAGE009
using policy derived from Q (e.g, ε-greedy)
Take action
Figure 568582DEST_PATH_IMAGE010
, observe R
Q(
Figure 715530DEST_PATH_IMAGE009
,
Figure 743529DEST_PATH_IMAGE010
) = Q(
Figure 908800DEST_PATH_IMAGE009
,
Figure 832893DEST_PATH_IMAGE010
)+ α[R + ϒ
Figure DEST_PATH_IMAGE011
Q(
Figure 935978DEST_PATH_IMAGE012
,
Figure DEST_PATH_IMAGE013
) – Q(
Figure 236510DEST_PATH_IMAGE009
,
Figure 7020DEST_PATH_IMAGE010
)]
Figure 367594DEST_PATH_IMAGE009
=
Figure 738401DEST_PATH_IMAGE012
Util R(
Figure 842623DEST_PATH_IMAGE014
) is max
α和ϒ的值分别为0.2和0.8(由经验值所确定)。
将值函数Q(s,a)用matlab程序作图可以得到一副颜色深浅不一的图像。根据这幅切换态势图及其对应的二维参数Q(s,a),可以为列车在某个速度下选择出具有最优性能的切换参数,从而改善系统的切换性能。
利用Q-Learning算法得到的Q值图如图3和图4所示。
参见附图3,是在速度为60km/h时利用本发明实施例提供的强化学习算法得到的Q值的图;图3可以看出,当UE的速度为60km/h时,在利用Q-Learning算法得到的Q值函数图中,在大多数的切换参数种类下选择j=20和j=26的参数动作能得到较高的Q值,在图中反映为颜色的深浅。依据这副图,当列车在速度为60km/h时进行切换时可以选择颜色较深处所对应切换事件下的切换参数进行切换,以获得更优的切换性能。也就是说,UE在越区切换时,利用Q-Learning算法不断的选择切换参数的取值,最终能找到一个最优的动作取值,为优化越区切换参数提供一种依据。
参见附图4,是采用本发明实施例提供的强化学习算法,在用户移动速度不同时得到的Q值图的对比图;图中a, b, c, d, e, f, g, h, i各图分别对应的是用户移动速度为60km/h、120km/h、160km/h、200km/h、250km/h、300km/h、350km/h、400km/h、450km/h时得到的Q值图的对比图;图4可以看出,随着UE移动速度的增加,在不同速度下利用Q-Learning算法得到的切换态势图中至少会有一个参数种类,UE在绝大多数状态下选择此参数进行切换时能有最大Q值,验证了此方法在速度发生改变时也具有通用性。另外,从图中可以看出,随着UE移动速度的增加,切换态势图中的Q值的大小会有所下降,并且可选参数种类也有所减少,这是因为随着UE移动速度的增加,LTE-R系统的整体切换性能也会下降,导致切换成功率降低。
根据得到的Q值图,可以为切换参数的选择提供一个依据。依据图3和图4选择出来有最大Q值对应的
Figure 467640DEST_PATH_IMAGE010
所对应的切换参数如表3所示。
表3是本实施例提供的在不同速度下得到的最优切换参数组合。
表3
速度(km/h) 选择的切换算法及参数
60 A2A4,Threshold=11, Offset=17
120 A3,TTT=512ms, H=6dbm
160 A3,TTT=128ms, H=3dbm
200 A3,TTT=512ms, H=5dbm
250 A3,TTT=256ms, H=8dbm
300 A3,TTT=128ms, H=3dbm
350 A3,TTT=256ms, H=2dbm
400 A3,TTT=128ms, H=9dbm
450 A2A4,Threshold=3, Offset=5
参见附图5,是依据得到的Q值图得到的不同速度下最优参数与参数不变情况时的切换成功率对比图(原图为彩色显示);由图5看出,当切换用户的数量一定时,随着LTE网络中用户移动速度的增加,采用固定的切换参数值时切换成功率会将会明显下降;利用Q-Learning算法优化后的切换参数虽然不能保证切换成功率一直保持为100%,但在速度相同的状态下,其总体切换成功率优于切换参数固定时的切换成功率,并且随着用户移动速度的增加,其切换成功率下降的趋势更为平缓。当采用Q-Learning算法得到的切换参数仿真后的切换性能明显优于固定值的切换成功率。
参见附图6,是依据得到的Q值图找到不同速度下最优参数与参数不变情况时的平均吞吐量对比图(原图为彩色显示);由图6可以看出,当采用Q-Learning优化后的切换参数进行切换时,LTE-R系统的系统平均吞吐量也有明显提高。
基于Q-Learning算法的切换态势图可以为LTE-R系统中不同速度下切换参数的选择提供依据,用户在进行越区切换时,可以采用该方法得到一个Q值表,通过找到此Q表中最大Q值对应的切换参数可以LTE-R系统的整体性能。同时,还由于Q-L earning算法具有自我更新的能力,当外界环境变化导致切换成功率变化时,采用Q-Learning算法仍能找到最优切换参数所在的位置,具有一定的自适应性。

Claims (5)

1.一种基于强化学习的LTE-R切换参数选择方法,其特征在于包括以下步骤:
(1)依据LTE-R结构,建立基站的拓扑架构;
(2)依据不同事件下的切换算法,构建对应的状态集合S和动作集合A,所述状态集合S和动作集合A的结构相同,集合的元素包括LTE-R结构中切换参数的阈值、偏置值、切换触发时间和裕度;
(3)分别构建切换成功率的集合R和值函数Q,所述R、Q的维度与集合S和集合A的维度相同,对R和Q进行全零值的初始化;
(4)以步骤(2)构建的状态集合S和动作集合A为切换参数选择依据,在步骤(1)构建的基站中进行切换参数选择试验,得到在所有状态S下选择不同参数A的切换成功率的集合R的全部值;
(5)利用强化学习中的算法,以切换成功率的集合R为回报值函数R,输入集合S,A,R进行运算处理,更新所对应值函数Q的值,以找到R中最大值为目标进行学习,当找到回报值函数R的最大值时,学习结束;
(6)输出学习结束后的值函数Q,以值函数Q集合中的最大值所对应的切换参数为在当前环境下学习得到的切换参数;
(7)将步骤(6)得到的切换参数应用到LTE-R系统的切换算法中。
2.根据权利要求1所述的一种基于强化学习的LTE-R切换参数选择方法,其特征在于:所述的不同事件下的切换算法包括:当采用基于A2A4事件的切换算法时,对应的切换参数选择方法为:将阈值和偏置值进行组合;当采用基于A3事件的切换算法时,对应的切换参数选择方法为:将切换触发时间和切换裕度进行组合;当采用基于A2A4和A3事件的切换算法时,对应的切换参数选择方法为:分别将阈值和偏置值、切换触发时间和裕度进行组合。
3.根据权利要求1所述的一种基于强化学习的LTE-R切换参数选择方法,其特征在于:所述阈值按RSRP的物理值范围1~33取值;所述偏置值按RSRQ的报告值范围1~33取值;所述切换裕度按RSRQ的物理值范围1~15dbm取值;所述切换触发时间按3GPP标准定义的16个有效触发事件值0ms, 40ms, 64ms, 80ms, 100ms, 128ms, 160ms, 256ms, 320ms, 480ms,512ms, 640ms, 1024ms, 1280ms, 2560ms, 5120ms取值。
4.根据权利要求1所述的一种基于强化学习的LTE-R切换参数选择方法,其特征在于:对值函数Q对应的切换参数进行可视化处理。
5.根据权利要求4所述的一种基于强化学习的LTE-R切换参数选择方法,其特征在于:所述的可视化处理包括二维或三维图像、彩色或灰度图像。
CN201910990519.1A 2019-10-17 2019-10-17 基于强化学习的lte-r切换参数选择方法 Active CN110958654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990519.1A CN110958654B (zh) 2019-10-17 2019-10-17 基于强化学习的lte-r切换参数选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990519.1A CN110958654B (zh) 2019-10-17 2019-10-17 基于强化学习的lte-r切换参数选择方法

Publications (2)

Publication Number Publication Date
CN110958654A true CN110958654A (zh) 2020-04-03
CN110958654B CN110958654B (zh) 2021-08-27

Family

ID=69976396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990519.1A Active CN110958654B (zh) 2019-10-17 2019-10-17 基于强化学习的lte-r切换参数选择方法

Country Status (1)

Country Link
CN (1) CN110958654B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526527A (zh) * 2020-04-17 2020-08-11 东南大学 一种无线通信中性能切换与用户服务质量联合优化方法
CN115190546A (zh) * 2021-04-01 2022-10-14 中铁二院工程集团有限责任公司 基于神经网络预测的lte-m系统越区切换方法
CN115483959A (zh) * 2022-08-23 2022-12-16 爱浦路网络技术(南京)有限公司 低轨卫星星座的选择方法、系统、装置和存储介质
CN115915314A (zh) * 2022-11-04 2023-04-04 苏州大学 一种高铁移动通信网络越区切换参数自适应方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104955116A (zh) * 2015-05-28 2015-09-30 重庆邮电大学 密集网络自优化切换方法
CN108834186A (zh) * 2018-06-01 2018-11-16 徐州工业职业技术学院 一种高铁环境下lte-r快速切换算法
CN108882377A (zh) * 2018-06-08 2018-11-23 苏州大学 基于认知的lte-r中资源分配方法
CN109451523A (zh) * 2018-11-23 2019-03-08 南京邮电大学 基于流量识别技术和q学习的快速切换方法
CN109474960A (zh) * 2018-11-14 2019-03-15 南京邮电大学 一种基于q学习的双连接流量分配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104955116A (zh) * 2015-05-28 2015-09-30 重庆邮电大学 密集网络自优化切换方法
CN108834186A (zh) * 2018-06-01 2018-11-16 徐州工业职业技术学院 一种高铁环境下lte-r快速切换算法
CN108882377A (zh) * 2018-06-08 2018-11-23 苏州大学 基于认知的lte-r中资源分配方法
CN109474960A (zh) * 2018-11-14 2019-03-15 南京邮电大学 一种基于q学习的双连接流量分配方法
CN109451523A (zh) * 2018-11-23 2019-03-08 南京邮电大学 基于流量识别技术和q学习的快速切换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNE-HO BANG等: "A Bayesian Regression Based LTE-R Handover Decision Algorithm for High-Speed Railway Systems", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
XINGQIANG CAI等: "A Parameter Optimization Method for LTE-R Handover Based on Reinforcement Learning", 《2020 INTERNATIONAL WIRELESS COMMUNICATIONS AND MOBILE COMPUTING (IWCMC)》 *
刘伟: "LTE系统高速场景下切换机制优化研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526527A (zh) * 2020-04-17 2020-08-11 东南大学 一种无线通信中性能切换与用户服务质量联合优化方法
CN115190546A (zh) * 2021-04-01 2022-10-14 中铁二院工程集团有限责任公司 基于神经网络预测的lte-m系统越区切换方法
CN115483959A (zh) * 2022-08-23 2022-12-16 爱浦路网络技术(南京)有限公司 低轨卫星星座的选择方法、系统、装置和存储介质
CN115483959B (zh) * 2022-08-23 2023-08-29 爱浦路网络技术(南京)有限公司 低轨卫星星座的选择方法、系统、装置和存储介质
CN115915314A (zh) * 2022-11-04 2023-04-04 苏州大学 一种高铁移动通信网络越区切换参数自适应方法及装置
CN115915314B (zh) * 2022-11-04 2024-02-09 苏州大学 一种高动态移动通信网络越区切换参数自适应方法及装置

Also Published As

Publication number Publication date
CN110958654B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN110958654B (zh) 基于强化学习的lte-r切换参数选择方法
Ishii et al. A novel architecture for LTE-B: C-plane/U-plane split and phantom cell concept
US20180227824A1 (en) Method of Heterogeneous Network Mobility
Tesema et al. Mobility modeling and performance evaluation of multi-connectivity in 5G intra-frequency networks
Shayea et al. Individualistic dynamic handover parameter self-optimization algorithm for 5G networks based on automatic weight function
US20090081955A1 (en) Method for reducing interference in a cellular radio communication network, corresponding interference coordinator and base station
US20130178213A1 (en) Handover method, dedicated network user equipment, access network device, and system
Azari et al. Machine learning assisted handover and resource management for cellular connected drones
Weber et al. Self-organizing adaptive clustering for cooperative multipoint transmission
CN107135055A (zh) 测量方法,csi‑rs资源共享方法和装置
WO2020200120A1 (zh) 一种测量方法、设备及装置
US9426675B2 (en) System and method for adaptation in a wireless communications system
CN105517107B (zh) 基于小区间协作的异构网服务小区选择方法及装置
Tesema et al. Evaluation of adaptive active set management for multi-connectivity in intra-frequency 5G networks
WO2021196965A1 (zh) 一种测量间隙的配置方法及装置
Su et al. A self-optimizing mobility management scheme based on cell ID information in high velocity environment
Necker et al. A graph-based scheme for distributed interference coordination in cellular OFDMA networks
Rodriguez et al. Network optimisation in 5G networks: A radio environment map approach
CN106937336A (zh) 一种小区切换的方法和基站
Li et al. Machine learning based handover performance improvement for LTE-R
Luan et al. Handover parameter optimization of LTE system in variational velocity environment
Gures et al. Fuzzy logic-based load balancing algorithm in heterogeneous networks
CN105744534B (zh) 一种基于频率迁移的fdd-lte异频组网方法
Liu et al. Autonomous mobility management for 5G ultra-dense hetnets via reinforcement learning with tile coding function approximation
Chae et al. A novel handover scheme in moving vehicular femtocell networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant