CN110958654A

CN110958654A - 基于强化学习的lte-r切换参数选择方法

Info

Publication number: CN110958654A
Application number: CN201910990519.1A
Authority: CN
Inventors: 吴澄; 盛洁; 汪一鸣; 蔡兴强
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-04-03
Anticipated expiration: 2039-10-17
Also published as: CN110958654B

Abstract

本发明公开了一种基于强化学习的LTE‑R切换参数选择方法。当列车在相邻两个基站之间进行越区切换时，本发明依据不同事件下的切换算法，构建对应的状态集合S和动作集合A，通过获取历史不同速度、不同参数下的切换成功率作为经验值，利用强化学习的方法对经验值进行学习，选择合理的切换算法和切换参数，以达到最优切换性能，提高LTE‑R系统的切换成功率和平均吞吐量。本发明克服了现有切换机制中切换参数一旦设定就保持不变，从而影响切换参数准确性的不足，能够在列车速度发生改变时实现动态更新切换参数，具有自适应性，保证LTE‑R系统具有最优的切换性能。

Description

基于强化学习的LTE-R切换参数选择方法

技术领域

本发明涉及认知无线电与智能交通技术领域，尤其涉及一种基于LTE-R系统的切换算法中的切换机制和切换算法以及机器学习。

背景技术

目前，GSM-R(Global System for Mobile Communications – Railway)铁路无线通信系统技术标准已经在我国铁路无线通信中取得了成熟的应用。但随着列车无线通信需求的提高，也对铁路无线通信技术提出更高要求。基于LTE技术标准的LTE-R铁路通信技术标准是下一代无线铁路通信的首选。LTE-R通信技术具有服务能力更高，技术更加成熟，安全性能更强等优势。

目前，我国高铁列车运行速度已经可以达到350km/h，列车中的用户由于快速移动带来的多普勒效应对越区切换时的测量和判决将会产生很大影响。由于LTE-R标准遵从LTE技术标准，因此，当用户移动速度过快时，LTE-R技术的切换性能将明显下降。另外，由于LTE-R技术标准中的基站拓扑架设结构不同于目前的商用基站拓扑结构，其覆盖范围和重叠区域等因素，将会造成乒乓效应，过早、过晚切换等问题。因此，合理设置LTE-R系统中的切换条件对提高越区切换的性能具有重要意义。

在LTE-R技术标准中，用户的越区切换主要分为四个步骤：测量、上报、判决和执行。其中，用户测量RSRP(参考信号接收功率)和RSRQ(参考信号接收质量)等参数上报给当前服务基站，服务基站根据这些参数判决是否达到切换条件，若满足切换条件，则通知相邻服务基站和用户进行切换。

在LTE-R 系统中，基站在进行切换时，主要采用基于A2A4事件和A3事件的切换算法。当前服务小区RSRP低于一定阈值(Threshold)时，触发A2事件，当相邻服务小区RSRP高于当前服务小区一定偏置值(Offset)时，触发A4事件。当A2A4事件同时满足时，满足切换条件；当相邻服务小区RSRQ持续高于当前服务小区一段时间(TTT)且高于一定裕度(Hysteresis)值时，触发A3事件并开启切换。在两种切换算法中，由于切换参数的取值都是固定不变的，当环境及用户移动速度等因素发生改变时，切换参数不能适应外部环境的改变，会对切换性能造成很大影响。

在现有的LTE-R系统中，所采用的切换算法中的四个参数设置的值均是由经验值所取得，并且一旦设定就不能根据外部因素变化而改变，当用户速度改变时，切换性能仍然会受到很大影响。

在本发明作出之前，针对不同切换算法下的参数取值问题，提出了一种自适应的参数选择方案，该方案主要与用户移动速度，基站覆盖范围，以及列车与基站之间的距离等因素相关，通过公式计算法，将用户移动速度、基站覆盖范围、列车与基站间的距离进行组合，得到切换参数（参见文献：Li J , Tian L , Zhou Y , et al. An adaptive handovertrigger scheme for wireless communications on high speed rail[C]//Communications (ICC), 2012 IEEE International Conference on. IEEE, 2012.）。但是，采用这种自适应的切换参数选择方案，只考虑了影响用户切换的一些关键因素，并没有完整考虑所有影响切换的条件，具有局限性，存在得到的切换参数准确性不够等问题。

发明内容

本发明针对现有LTE-R系统中切换参数选择方法存在的不足，提供一种能有效提高LTE-R系统的切换成功率以及平均吞吐量等性能，达到优化切换性能目的的LTE-R切换参数选择方法。

实现本发明目的的技术方案是提供一种基于强化学习的LTE-R切换参数选择方法，包括以下步骤：

（1）依据LTE-R结构，建立基站的拓扑架构；

（2）依据不同事件下的切换算法，构建对应的状态集合S和动作集合A，所述状态集合S和动作集合A的结构相同，集合的元素包括LTE-R结构中切换参数的阈值、偏置值、切换触发时间和裕度；

（3）分别构建切换成功率的集合R和值函数Q，所述R、Q的维度与集合S和集合A的维度相同，对R和Q进行全零值的初始化；

（4）以步骤（2）构建的状态集合S和动作集合A为切换参数选择依据，在步骤（1）构建的基站中进行切换参数选择试验，得到在所有状态S下选择不同参数A的切换成功率的集合R的全部值；

（5）利用强化学习中的算法，以切换成功率的集合R为回报值函数R，输入集合S，A，R进行运算处理，更新所对应值函数Q的值，以找到R中最大值为目标进行学习，当找到回报值函数R的最大值时，学习结束；

（6）输出学习结束后的值函数Q，以值函数Q集合中的最大值所对应的切换参数为在当前环境下学习得到的切换参数；

（7）将步骤（6）得到的切换参数应用到LTE-R系统的切换算法中。

所述的不同事件下的切换算法包括：当采用基于A2A4事件的切换算法时，对应的切换参数选择方法为：将阈值和偏置值进行组合；当采用基于A3事件的切换算法时，对应的切换参数选择方法为：将切换触发时间和切换裕度进行组合；当采用基于A2A4和A3事件的切换算法时，对应的切换参数选择方法为：分别将阈值和偏置值、切换触发时间和裕度进行组合。

所述阈值按RSRP的物理值范围1~33取值；所述偏置值按RSRQ的报告值范围1~33取值；所述切换裕度按RSRQ的物理值范围1~15dbm取值；所述切换触发时间按3GPP标准定义的16个有效触发事件值0ms, 40ms, 64ms, 80ms, 100ms, 128ms, 160ms, 256ms, 320ms,480ms, 512ms, 640ms, 1024ms, 1280ms, 2560ms, 5120ms取值。

对值函数Q对应的切换参数进行可视化处理，包括二维或三维图像、彩色或灰度图像。

本发明原理是：在以基站的功率、相邻基站之间的距离、上下行链路的带宽、频段号及载频、资源分配方式和测量报告周期为参数的LTE-R架构基础上，根据不同参数状态下的历史切换成功率作为经验值，在 LTE-R的架构基础上还考虑了包括轨旁设备和移动用户等实际应用中需要加入的用户，利用强化学习的方法，得到一个可视化的值函数图，根据该值函数为切换参数的选择提供一种依据。依据本发明提供的方法，可以提高LTE-R系统的切换成功率以及平均吞吐量等性能；同时还可根据环境的改变而动态的提供不同的切换参数，以达到切换性能的优化。

本发明强化学习中的状态集合S的选择是以不同事件下的切换算法对不同切换参数组合得到的，其大小可人为定义，集合S范围越大，最后得到的最优参数的取值就越准确。

本发明提出一种基于历史切换成功率作为经验值，采用强化学习的方式生成在不同速度下的切换态势图，为切换参数的选择提供依据。通过强化学习的方式，可以动态的对历史经验值进行学习，当外部环境改变时，能对参数选择进行动态更新，具有自适应性。同时，采用强化学习的方式对切换参数进行选择，利用历史切换成功率作为经验值，可以不受外界因素对切换性能的影响和限制，具有普适性。

与现有技术相比，本发明所达到的有益效果如下：

1.本发明利用在不同参数状态下的切换成功率作为历史经验值，通过强化学习的方式对其进行处理，得到能反映切换态势的值函数图，据此选择得到的切换参数可明显提高LTE-R的切换性能。

2.本发明由于采用了强化学习对历史经验值进行学习的方式，可以弥补目前自适应设置参数时考虑影响切换因素不全面以及选择的参数不够准确的问题；同时，强化学习动态学习的特点可以根据环境不同的改变而动态的选择最优参数，具有自适应性。

3.本发明提供的LTE-R系统参数切换选择方法针对历史经验值进行学习，科学可靠，并且采用了可视化的方法，具有简单，直观的特点，便于对切换参数的选择。

附图说明

图1是LTE-R网络中用户在经过相邻基站进行切换时的示意图；

图2是本发明提供的的一种基于强化学习的LTE-R切换参数选择方法的流程框图；

图3是在速度为60km/h时利用本发明实施例提供的强化学习算法得到的Q值的图；

图4是采用本发明实施例提供的强化学习算法，在用户移动速度不同时得到的Q值图的对比图；图中a, b, c, d, e, f, g, h, i各图分别对应的是用户移动速度为60km/h、120km/h、160km/h、200km/h、250km/h、300km/h、350km/h、400km/h、450km/h时得到的Q值图的对比图；

图5是依据得到的Q值图得到的不同速度下最优参数与参数不变情况时的切换成功率对比图(原图为彩色显示)；

图6是依据得到的Q值图找到不同速度下最优参数与参数不变情况时的平均吞吐量对比图(原图为彩色显示)。

具体实施方式

以下结合附图和实施例对本发明技术方案作进一步的详细说明。

实施例1

参见附图1，它是LTE-R网络中用户在经过相邻基站进行切换时的示意图。用户在A，B两个基站之间进行越区切换时，中间的竖线是列车越区切换时先断开A基站再接入B基站的切换分界线。在LTE-R系统中，其带宽由资源块的数量决定。

参见附图2，它是本发明提供的的一种基于强化学习的LTE-R切换参数选择方法的流程框图；在本实施例中具体包括如下步骤：

1. 建立基站的拓扑架构。

依据LTE-R结构，以基站的功率、相邻基站之间的距离、上下行链路的带宽、频段号及载频、资源分配方式和测量报告周期为参数，建立基站的拓扑架构。本实施例利用NS-3网络模拟器仿真LTE-R系统并构建基站拓扑架构：其提供的最大带宽为20Mhz(100个资源快)；上下行链路频段号分别为38050和38000；资源块的分配方式为轮询方式；用户数量为50个用户；信道衰落模型使用Friss衰落模型；为了保证基站之间有足够的覆盖范围，又不至于导致用户的乒乓切换，基站之间距离设置为1600米，发射功率46dB，基站的架构按照铁路的走向呈链式拓扑结构；用户随着列车一起快速移动，当满足相应切换算法中的切换条件时，触发切换。

由于在用户进行切换的时间过程中，速度的变化很小，可近似认为用户在进行切换时速度是不变的。在本实施例中，UE的移动速度取七个典型的等级，分别为60km/h,120km/h, 160/h, 200/h, 250km/h, 300km/h, 350km/h, 400km/h, 450km/h, 对应铁路中普速列车、快速列车、特快/直达列车、动车组、高铁以及未来列车的速度等级，观察不同速度下切换参数的选择。

由于转移概率未知，因此，采用强化学习中的经典算法Q-Learning算法对历史经验值进行学习，由于Q-Learning算法具有收敛性，在经过有限次数的迭代后，最终得到的Q值函数将趋于稳定。

2.对Q-Learning算法中状态集合S和动作集合A作定义。

定义Q-Learning算法中的状态集合S：UE在某个速度下的切换参数组合作为状态集S ,根据不同参数的取值范围合理选择66组参数，参数选择标准如下：

当采用基于A2A4事件的切换算法时，UE通过测量RSRQ的值进行切换判决。其中切换参数为RSRQ的阈值Threshold和偏置值Offset。其中，RSRQ的物理取值范围为-19.5~-3，其与UE测量的RSRQ的报告值存在如下关系：

(1)

因此，RSRQ的测量报告值取值范围为0~33，对RSRQ的阈值Threshold取值范围也为0~33。考虑到

(2)

当阈值(测量报告值)为31时，Offset的取值范围为：

(3)

当阈值(测量报告值)为27时，Offset的取值范围为：

(4)

……

当阈值(测量报告值)为3时，Offset的取值范围为：

(5)

因此，Offset按照Threshold的取值合理1,5,9,13,17,21,25,29共八个参数，并与Threshold的值进行全排列(当Threshhold取值越大时，Offset可选取值也越少)，得到36组切换参数作为

(i=1~36)，当采用基于A3事件的切换算法时，UE通过测量RSRP的值进行切换判决。切换参数为切换触发时间TTT和切换裕度H。其中，TTT选择3GPP标准中推荐的128ms, 256ms, 512ms三个参数；裕度H的值与RSRP取值范围有关，3GPP推荐裕度H的取值范围不超过10，因此H取值为：1dbm~10dbm(间隔为1dbm)。对TTT和H的取值全排列，得到另外30组切换参数作为

(i=37~66)，表1是本实施例提供的切换参数组合与对应编号的具体对应关系。

表1

集合编号	参数组合
		1	A2A4，Threshold=31, Offset=1
2	A2A4，Threshold=27, Offset=1
		3	A2A4，Threshold=27, Offset=5
4	A2A4，Threshold=23, Offset=1
		5	A2A4，Threshold=23, Offset=5
6	A2A4，Threshold=23, Offset=9
		7	A2A4，Threshold=19, Offset=1
8	A2A4，Threshold=19, Offset=5
		9	A2A4，Threshold=19, Offset=9
10	A2A4，Threshold=19, Offset=13
		11	A2A4，Threshold=15, Offset=1
12	A2A4，Threshold=15, Offset=5
		13	A2A4，Threshold=15, Offset=9
14	A2A4，Threshold=15, Offset=13
		15	A2A4，Threshold=15, Offset=17
16	A2A4，Threshold=11, Offset=1
		17	A2A4，Threshold=11, Offset=5
18	A2A4，Threshold=11, Offset=9
		19	A2A4，Threshold=11, Offset=13
20	A2A4，Threshold=11, Offset=17
		21	A2A4，Threshold=11, Offset=21
22	A2A4，Threshold=7, Offset=1
		23	A2A4，Threshold=7, Offset=5
24	A2A4，Threshold=7, Offset=9
		25	A2A4，Threshold=7, Offset=13
26	A2A4，Threshold=7, Offset=17
		27	A2A4，Threshold=7, Offset=21
28	A2A4，Threshold=7, Offset=25
		29	A2A4，Threshold=3, Offset=1
30	A2A4，Threshold=3, Offset=5
		31	A2A4，Threshold=3, Offset=9
32	A2A4，Threshold=3, Offset=13
		33	A2A4，Threshold=3, Offset=17
34	A2A4，Threshold=3, Offset=21
		35	A2A4，Threshold=3, Offset=25
36	A2A4，Threshold=3, Offset=29
		37	A3，TTT=128ms, H=1dbm
38	A3，TTT=128ms, H=2dbm
		39	A3，TTT=128ms, H=3dbm
40	A3，TTT=128ms, H=4dbm
		41	A3，TTT=128ms, H=5dbm
42	A3，TTT=128ms, H=6dbm
		43	A3，TTT=128ms, H=7dbm
44	A3，TTT=128ms, H=8dbm
		45	A3，TTT=128ms, H=9dbm
46	A3，TTT=128ms, H=10dbm
		47	A3，TTT=256ms, H=1dbm
48	A3，TTT=256ms, H=2dbm
		49	A3，TTT=256ms, H=3dbm
50	A3，TTT=256ms, H=4dbm
		51	A3，TTT=256ms, H=5dbm
51	A3，TTT=256ms, H=6dbm
		53	A3，TTT=256ms, H=7dbm
54	A3，TTT=256ms, H=8dbm
		55	A3，TTT=256ms, H=9dbm
56	A3，TTT=256ms, H=10dbm
		57	A3，TTT=512ms, H=1dbm
58	A3，TTT=512ms, H=2dbm
		59	A3，TTT=512ms, H=3dbm
60	A3，TTT=512ms, H=4dbm
		61	A3，TTT=512ms, H=5dbm
62	A3，TTT=512ms, H=6dbm
		63	A3，TTT=512ms, H=7dbm
64	A3，TTT=512ms, H=8dbm
		65	A3，TTT=512ms, H=9dbm
66	A3，TTT=512ms, H=10dbm

将UE在当前速度下选择何种参数进行切换集合作为动作集A；动作

的选择与

一致。值得注意的是：状态集合

的取值与动作集合

的取值越多，最终得到的最后得到的最优参数的取值就越准确。

3. 利用Q-Learning强化学习的方式生成在不同速度下的切换态势图，为切换参数的选择提供依据。

初始化切换成功率集合R和Q-Learning算法中的值函数Q，以切换成功率的集合R作为Q-Learning算法中的回报值函数R。

利用NS-3仿真程序进行仿真，得到在所有状态

下选择不同参数

进行切换的切换成功率，得到切换成功率集合R的全部值。表2是本实施例提供的在NS-3中仿真范数的设置。

表2

Bandwidth(Mhz)	20Mhz(100RB)
		Frequency Band	UL:38050 DL:38000
Number Of UEs	50
		Number Of eNbs	3
HandoverEvent	A2A4 Event, A3 Event
		Distance Between eBbs(m)	1600
Power Of eNbs(dbm)	46
		Packet MAC Scheduler	Round Robin
Path Loss	FriisPropagationLossModel
		Fading Model	FriisSpectrumPropagationLossModel
RRC Model	Ideal RRC model
		Simulation time(s):	100
TTT(ms)	128,256,512
		Hysester(dbm)	1,2,3,4,5,6,7,8,9,10
Threshold	-4,-6,-8,-10,-12,-14,-16,-18
		Offset	1,5,9,13,17,21,25,29
UE mobility speed(km/h)	60,120,160,200,250,300,350,400,450

对Q-Learning算法进行程序编写。

本实施例利用C++程序对该算法进行编写，输入状态集合S，动作集合A，回报值函数R，当找到值函数R最大值时，学习结束，并输出值函数Q。

伪代码流程如下所示:

Initialize Q(s,a) arbitrarily

Repeat (for each episode):

Initialize

(i=1)

Repeat (for each step of

):

Choose

(j=1~66) from

using policy derived from Q (e.g, ε-greedy)

Take action

, observe R

Q(

,

) = Q(

,

)+ α[R + ϒ

Q(

,

) – Q(

,

)]

=

Util R(

) is max

α和ϒ的值分别为0.2和0.8(由经验值所确定)。

将值函数Q(s,a)用matlab程序作图可以得到一副颜色深浅不一的图像。根据这幅切换态势图及其对应的二维参数Q(s,a)，可以为列车在某个速度下选择出具有最优性能的切换参数，从而改善系统的切换性能。

利用Q-Learning算法得到的Q值图如图3和图4所示。

参见附图3，是在速度为60km/h时利用本发明实施例提供的强化学习算法得到的Q值的图；图3可以看出，当UE的速度为60km/h时，在利用Q-Learning算法得到的Q值函数图中，在大多数的切换参数种类下选择j=20和j=26的参数动作能得到较高的Q值，在图中反映为颜色的深浅。依据这副图，当列车在速度为60km/h时进行切换时可以选择颜色较深处所对应切换事件下的切换参数进行切换，以获得更优的切换性能。也就是说，UE在越区切换时，利用Q-Learning算法不断的选择切换参数的取值，最终能找到一个最优的动作取值，为优化越区切换参数提供一种依据。

参见附图4，是采用本发明实施例提供的强化学习算法，在用户移动速度不同时得到的Q值图的对比图；图中a, b, c, d, e, f, g, h, i各图分别对应的是用户移动速度为60km/h、120km/h、160km/h、200km/h、250km/h、300km/h、350km/h、400km/h、450km/h时得到的Q值图的对比图；图4可以看出，随着UE移动速度的增加，在不同速度下利用Q-Learning算法得到的切换态势图中至少会有一个参数种类，UE在绝大多数状态下选择此参数进行切换时能有最大Q值，验证了此方法在速度发生改变时也具有通用性。另外，从图中可以看出，随着UE移动速度的增加，切换态势图中的Q值的大小会有所下降，并且可选参数种类也有所减少，这是因为随着UE移动速度的增加，LTE-R系统的整体切换性能也会下降，导致切换成功率降低。

根据得到的Q值图，可以为切换参数的选择提供一个依据。依据图3和图4选择出来有最大Q值对应的

所对应的切换参数如表3所示。

表3是本实施例提供的在不同速度下得到的最优切换参数组合。

表3

速度(km/h)	选择的切换算法及参数
		60	A2A4，Threshold=11, Offset=17
120	A3，TTT=512ms, H=6dbm
		160	A3，TTT=128ms, H=3dbm
200	A3，TTT=512ms, H=5dbm
		250	A3，TTT=256ms, H=8dbm
300	A3，TTT=128ms, H=3dbm
		350	A3，TTT=256ms, H=2dbm
400	A3，TTT=128ms, H=9dbm
		450	A2A4，Threshold=3, Offset=5

参见附图5，是依据得到的Q值图得到的不同速度下最优参数与参数不变情况时的切换成功率对比图(原图为彩色显示)；由图5看出，当切换用户的数量一定时，随着LTE网络中用户移动速度的增加，采用固定的切换参数值时切换成功率会将会明显下降；利用Q-Learning算法优化后的切换参数虽然不能保证切换成功率一直保持为100%，但在速度相同的状态下，其总体切换成功率优于切换参数固定时的切换成功率，并且随着用户移动速度的增加，其切换成功率下降的趋势更为平缓。当采用Q-Learning算法得到的切换参数仿真后的切换性能明显优于固定值的切换成功率。

参见附图6，是依据得到的Q值图找到不同速度下最优参数与参数不变情况时的平均吞吐量对比图(原图为彩色显示)；由图6可以看出，当采用Q-Learning优化后的切换参数进行切换时，LTE-R系统的系统平均吞吐量也有明显提高。

基于Q-Learning算法的切换态势图可以为LTE-R系统中不同速度下切换参数的选择提供依据，用户在进行越区切换时，可以采用该方法得到一个Q值表，通过找到此Q表中最大Q值对应的切换参数可以LTE-R系统的整体性能。同时，还由于Q-L earning算法具有自我更新的能力，当外界环境变化导致切换成功率变化时，采用Q-Learning算法仍能找到最优切换参数所在的位置，具有一定的自适应性。

Claims

1.一种基于强化学习的LTE-R切换参数选择方法，其特征在于包括以下步骤：

（1）依据LTE-R结构，建立基站的拓扑架构；

2.根据权利要求1所述的一种基于强化学习的LTE-R切换参数选择方法，其特征在于：所述的不同事件下的切换算法包括：当采用基于A2A4事件的切换算法时，对应的切换参数选择方法为：将阈值和偏置值进行组合；当采用基于A3事件的切换算法时，对应的切换参数选择方法为：将切换触发时间和切换裕度进行组合；当采用基于A2A4和A3事件的切换算法时，对应的切换参数选择方法为：分别将阈值和偏置值、切换触发时间和裕度进行组合。

3.根据权利要求1所述的一种基于强化学习的LTE-R切换参数选择方法，其特征在于：所述阈值按RSRP的物理值范围1~33取值；所述偏置值按RSRQ的报告值范围1~33取值；所述切换裕度按RSRQ的物理值范围1~15dbm取值；所述切换触发时间按3GPP标准定义的16个有效触发事件值0ms, 40ms, 64ms, 80ms, 100ms, 128ms, 160ms, 256ms, 320ms, 480ms,512ms, 640ms, 1024ms, 1280ms, 2560ms, 5120ms取值。

4.根据权利要求1所述的一种基于强化学习的LTE-R切换参数选择方法，其特征在于：对值函数Q对应的切换参数进行可视化处理。

5.根据权利要求4所述的一种基于强化学习的LTE-R切换参数选择方法，其特征在于：所述的可视化处理包括二维或三维图像、彩色或灰度图像。