CN113038387A

CN113038387A - 低轨卫星网络中基于q学习的切换判决方法

Info

Publication number: CN113038387A
Application number: CN202110267062.9A
Authority: CN
Inventors: 李云; 刘梦梦; 吴广富
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Hongyue Information Technology Co ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-25
Anticipated expiration: 2041-03-12
Also published as: CN113038387B

Abstract

本发明属于移动通信技术领域，涉及一种低轨卫星网络中基于Q学习的切换判决方法；所述判决方法包括采用高斯马尔科夫模型和卫星的星历信息预测出用户终端可能的切换路径，并确定所述用户终端所对应的候选卫星；基于候选卫星的接收信号强度、服务时间、信道利用率以及中继开销制定出用户终端关联不同候选卫星的收益函数；计算出用户终端在当前状态下选择不同决策动作所获得的收益奖赏值；根据所述收益奖赏值，用户终端采用Q学习算法计算出对应的Q值；用户终端根据Q值表对进行切换判决，使得用户终端关联到对应卫星；本发明不仅极大地降低了用户终端的切换失败率，而且有效地均衡了网络负载。

Description

低轨卫星网络中基于Q学习的切换判决方法

技术领域

本发明属于移动通信技术领域，涉及一种低轨卫星网络中基于Q学习的切换判决方法。

背景技术

由于基站部署困难等问题的限制，地面蜂窝网络不能提供偏远山区、海洋、高原等地区的移动业务。卫星通信通过多颗卫星进行联合组网形成卫星星座，具有覆盖范围广、不受地域和空域限制的特点引起人们的关注。卫星通信网络与地面移动通信网络的融合将成为移动通信的重要发展方向。其中低轨卫星系统因具有低时延、路径损耗小以及覆盖面积广等特点而受到人们的广泛关注，然而由于卫星相对地面的高速移动以及用户终端的移动性，单颗低轨卫星对地面终端的覆盖时间有限，用户终端在进行通信时需要进行频繁地切换。常见的卫星切换包括星间切换和波束切换。波束切换主要涉及到卫星的信道分配问题，常用的信道分配包括排队切换、信道预留等技术，相关研究已经很成熟。本发明内容主要针对星间切换中的星地链路切换。

目前，星间切换中都是基于仰角、服务时间、空闲信道数、接收信号强度这些因素进行单属性或多属性决策，都是基于当前时刻下做出的最优切换判决；但是这些切换策略都没有考虑终端的运动特性对切换过程的影响，且当前时刻的最优选择在用户的整个通信时长内未必是最优；此外，并未将卫星拓扑结构对切换过程造成的影响考虑在内，导致了用户切换失败率和新呼叫阻塞率较高。

发明内容

基于现有技术存在的问题，本发明的目的在于提供一种低轨卫星网络中基于Q-learning的切换判决方法。该算法首先考虑用户终端的移动性，运用高斯马尔可夫模型和卫星的星历信息预测出用户终端可能的切换路径。然后考虑候选卫星的接收信号强度、服务时间、信道利用率以及中继开销四个切换因子制定用户终端关联不同卫星的收益函数。最后用户终端根据Q值表来进行切换判决，使得用户终端关联到合适的卫星。

本发明提供如下解决方案以解决上述技术问题：

一种低轨卫星网络中基于Q学习的切换判决方法，所述方法包括以下步骤：

S1、采用高斯马尔科夫模型和卫星的星历信息预测出用户终端可能的切换路径，并确定所述用户终端所对应的候选卫星；

S2、基于候选卫星的接收信号强度、服务时间、信道利用率以及中继开销四个切换因子，制定出用户终端关联不同候选卫星的收益函数；

S3、计算出用户终端在当前状态下选择不同决策动作所获得的收益奖赏值；

S4、根据所述收益奖赏值，用户终端采用Q学习算法计算出对应的Q值；

S5、用户终端根据Q值表对进行切换判决，使得用户终端关联到对应卫星。

本发明的有益效果：

本发明考虑用户终端的移动性，首先运用高斯马尔可夫模型对终端轨迹进行预测，然后结合卫星的星历信息，可获得在终端的整个通信时长内可能的切换路径；其次，考虑候选卫星集中候选卫星的接收信号强度、服务时间、信道利用率以及中继开销四个切换因子，通过层次分析法确定不用因子的权重，设置终端关联不同卫星的收益函数，运用Q学习(Q-learning)算法进行切换判决，得到在终端的通信时长内最优的切换路径。本发明不仅极大地降低了用户终端的切换失败率，而且有效地均衡了网络负载。

附图说明

图1是本发明实施例中低轨卫星网络中基于Q学习的切换判决方法流程图；

图2是本发明实施例中的低轨卫星网络中的切换场景；

图3是本发明实施例中卫星的覆盖时间图；

图4是本发明实施例中预测到的终端可能的切换路径；

图5是本发明实施例中所采用的中继开销图；

图6是本发明实施例的切换失败率；

图7是本发明实施例的新呼叫阻塞率。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中的一种低轨卫星网络中基于Q学习的切换判决方法流程图，如图1所示，所述方法包括：

由于低轨卫星和终端的移动特性，单颗卫星对地面提供服务的时间有限，终端需要不断地接入切换到新的卫星中去保证持续的通信过程。假设用户终端的通信时长t满足均值为T的指数分布，则其概率密度函数可表示为：

终端的运动模式可通过终端的运动速度和方向描述，因此在终端的通信时长t内，采用高斯马尔科夫模型对其行为模式进行建模：

其中，v_i、d_i分别表示i时刻用户终端的运动速度和方向；v_i-1、d_i-1分别表示i-1时刻用户终端的运动速度和方向；k∈(0,1)是一个随机性参数，可对速度和方向进行调整；

分别表示某段时间内用户终端速度和方向的平均值；{δ_i-1}、{γ_i-1}是两个服从均值为零，方差为1的不相关高斯过程；用户终端在i时刻的坐标为(x_i,y_i)，在i-1时刻的坐标为(x_i-1,y_i-1)，两者之间的关系表示为：

x_i＝x_i-1+v_i-1tcosd_i-1

y_i＝y_i-1+v_i-1tsind_i-1

根据上述分析可得到预测到的终端的运动轨迹，如图2中实线所示。

由于低轨卫星运行的角速度较大，卫星对地面的覆盖是有限的，具体覆盖情况如图3所示。不同卫星之间覆盖时间有重叠表示用户终端可在两颗卫星之间进行切换，如图3中，处于卫星1服务下的用户终端进行切换时可选择切换到卫星2或卫星3。

由于低轨卫星的运动具备周期性的特点，因此结合卫星的星历信息和预测到的终端轨迹，可以得到在用户终端的通信时长内可提供服务的候选卫星。同时图3中各卫星对地面终端的覆盖情况可通过一个有向图表示，如图4所示。本方法的目的是将用户终端建模为智能体，运用Q-learning算法找到在用户终端的通信时长内的最优的切换判决集，最大化用户终端的服务体验。

S2、基于候选卫星的接收信号强度、服务时间、信道利用率以及中继开销四个切换因子，制定出用户终端关联不同候选卫星的收益决策；

为了将状态空间定义为有限的，本发明将卫星的特性映射为量化之后的值，具体可描述为S(t)＝{{s₁,t₁,u₁,d₁},{s₂,t₂,u₂,d₂},...,{s_k,t_k,u_k,d_k}}，其中，s_i表示接收信号强度值；t_i表示服务时间；u_i表示信道利用率；d_i表示中继开销，i∈{1,2,...,k}，k表示状态个数。

在卫星的切换决策中，智能体的动作表示用户可关联的候选卫星，动作集合可表示为a(t)∈{1,2,...,k}，k表示用户终端可关联的候选卫星编号。本方法研究的是用户切换卫星的决策问题，进而提高用户的切换成功率，以及均衡卫星网络负载。因此把用户从当前服务卫星采取动作a切换到另一个卫星时，用户的体验质量定义为用户采取某个动作获得的奖赏值。

为了保证用户终端的服务体验和卫星网络负载均衡。因此，本发明考虑采用卫星的接收信号强度、服务时间、卫星负载状态以及中继开销四个切换因子来进行切换卫星的决策，具体如下。

A.接收信号强度

卫星信号在传输的过程中会经历各种损耗，包括自由空间传播损耗、大气损耗、云层损耗、降雨损耗等。无线电波从天线发射后在自由空间中传播，无线电波携带的能量会扩散到地球表面。卫星离地球越远，信号在传输工程中的损耗越大，信号强度越低。其中，自由空间传播损耗是传输过程中的主要损耗。自由空间传播损耗L_F可定义为：

若以分贝为单位，则

其中频率的单位为MHz,距离的单位为km。

用L_a表示大气、降雨等产生的信号损耗，则信号在传输过程中的总损耗L_p可以表示为：

L_p＝L_F+L_a

基于上述分析，用户终端的接收信号强度可以表示为：

S＝P_T+G_T+G_R-L_P

其中，P_T是卫星的传输功率，G_T是发射机增益，G_R是接收机增益，L_p是传输损耗，P_N是噪声功率。

B.卫星服务时间

卫星的服务时间影响用户终端切换次数，在用户终端的通信过程中，服务时间越长的卫星，用户终端的切换次数越低。因此卫星的服务时间被选为切换因子。将卫星的服务时间定义为卫星对地面终端的可视时间，用t_s表示卫星可视的开始时刻，t_e表示卫星可视的最后时刻，则卫星的可视时间为(t_s,t_e)。卫星i的服务时间表示为

卫星j的服务时间为

当

用户终端可从卫星i切换到卫星j；若

表示两个卫星之间没有重叠覆盖的时间段，处于卫星j服务的用户终端不能切换到卫星i。

C.卫星负载状态

卫星的负载状态描述了卫星的空闲信道数，卫星空闲信道数越多，表明卫星处于轻负载状态，能够给用户终端带来更好的服务体验；卫星空闲信道数越少，表明该卫星更容易发生拥塞。本方法考虑采用信道利用率来衡量卫星的负载状态。N_total是卫星的全部信道数，N是卫星的空闲信道数，U是卫星信道信用率，可表示为：

N≤N_total

空闲信道数较多的卫星的信道利用率较低，这表示该卫星可接纳更多的用户终端，用户终端的切换成功率更高；信道利用率较高的卫星表明其空闲信道数较少，选择该卫星进行切换时可能造成切换失败或者网络拥塞。

D.中继开销

如图5所示，在用户终端关联卫星的过程中，为了提高用户终端的切换成功率，用户终端会倾向于选择负载较轻的候选卫星进行切换，但这有可能增加用户终端的切换时延，因此将切换代价作为切换决策的一个因子。

如图6所示，由于终端和卫星的移动，处于S₁覆盖下的终端在下一时刻的候选卫星集为{S₂，S₃}，其中S₂与上一时刻的服务卫星S₁处于同一轨道，S₃是其它轨道上的可覆盖终端的卫星。将终端和卫星i之间的切换代价t_i定义为：

t_o是卫星到终端的传输时延，t_s表示同一轨道平面上的卫星之间的链路时延，t_d是不同轨道平面上的卫星之间的链路时延。

因此，本方法考虑采用卫星的接收信号强度、服务时间、卫星负载状态以及终极开销四个切换因子来进行切换卫星的决策。

R(s,a)＝w₁N(u_i)+w₂N(t_i)+w₃N(s_i)+w₄N(d_i)

其中，R(s,a)表示在状态s下选择决策动作a的收益奖赏；N(u_i)表示信道利用率的归一化函数，w₁表示信道利用率的权重；N(t_i)表示服务时间的归一化函数；w₂表示服务时间的权重；N(s_i)表示接收信号强度值的归一化函数；w₃表示接收信号强度值的权重；N(d_i)表示中继开销的归一化函数；w₄表示中继开销的权重。

按照上述公式R(s,a)＝w₁N(u_i)+w₂N(t_i)+w₃N(s_i)+w₄N(d_i),可以求得用户终端在当前状态选择不同候选卫星的收益奖赏值。

卫星的信道利用率U越高，表示卫星的可用资源越少，用户选择该卫星进行切换时更容易造成网络拥塞，故信道利用率的归一化函数定义为：

本文假设在上一时刻卫星的截止时刻用户切换到候选卫星中，则该候选卫星可为用户提供通信的时长为

故服务时间的归一化函数为：

t_max是卫星的最长服务时间，

γ_max为终端到星下点的弧长对应的最大地心角，

w是在地心地固坐标系中卫星相对于终端运动的角速度，w_s是地心惯性坐标系(ECI)中卫星运功的角速度，等价于其星下点在ECI下的角速度，w_e是ECI下地球自转的角速度，w_t是ECI下终端运动的角速度，i₀是卫星轨道的倾角，β终端运动方向与卫星运动方向的夹角。

接收信号强度越大的候选卫星，表示切换到该卫星后，该卫星能提供给用户更好的服务质量，将接收信号强度值的函数定义为：

s_i≤s_max

s_max是某一时刻候选卫星集中接收信号强度的最大值。

中继开销主要指的是用户的切换时延，为了提高用户的服务体验，切换过程中的时延要尽可能的低，因此将中继开销的函数定义为：

d_i≤d_max

切换因子的权重可通过层次分析法(AHP，analytic hierarchy process)来确定。该方法主要包含以下步骤：

步骤1：构造判断矩阵，构造判断矩阵采用的方法是一致矩阵法，即将切换因子两两相互比较，来提高准确度。

在所有切换因子中，空闲信道数决定切换能否成功，用户难以接受通信的被迫中断，故认为空闲信道数是影响用户服务体检(QoE)的最重要因素；服务时间影响切换次数，故将其作为第二重要的切换因子；接收信号强度影响用户的通信质量，将其作为第三重要的因子；中继开销主要影响了用户的时延，将其作为第四重要的切换因子。

判断矩阵的标度方法如表1所示：

表1判断矩阵的标度方法

根据上述对切换因子的重要性分析，可以构造出判断矩阵A：

步骤2：各因子的权重计算。与判断矩阵最大特征根λ_max对应的特征向量AW＝λ_maxW，经过归一化处理之后的向量即为权重向量W。W＝[0.5694,0.2546,0.1100,0.0600]^T，

即w₁＝0.5694,w₂＝0.2546,w₃＝0.1100,w₄＝0.0660。

经过上述分析，可将用户选择切换卫星的奖赏函数可用下式表示：

R(s,a)＝0.5694N(u_i)+0.2546N(t_i)+0.11N(s_i)+0.0660N(d_i)。

在另一些实施例中，本发明还可以采用基于信息熵冗余度的方式来计算这四个切换因子的权重，具体可以包括：

根据这四个切换因子的重要性标度确定出判断矩阵；

对初始判断矩阵进行归一化处理；

计算出每个切换因子的信息熵，表示为

IE_j表示第j个切换因子的信息熵；p_ij表示第j个切换因子下做出切换到第i个候选卫星的概率；I表示候选卫星总数。

按照所述信息熵所对应的冗余度RE_j＝1-LE_j确定每个切换因子的具体权重；

具体的权重公式表示为：

本实施例考虑多个切换因子来解决卫星的切换问题，可有效减少不必要的切换次数以及无线链路失败率；本发明通过信息熵冗余度的方式获取各个切换因子的权重，使得赋权结果更具合理性。

基于上述分析，可得到基于Q-learning的切换判决方法如表2所示：

这里状态集合S＝{{s₁,t₁,u₁,d₁},{s₂,t₂,u₂,d₂},...,{s_k,t_k,u_k,d_k}}，其中，s_i表示接收信号强度值；t_i表示服务时间；u_i表示信道利用率；d_i表示中继开销，i∈{1,2,3,...,k}，k表示状态个数；动作集合a(t)∈{1,2,...,k}。

在本发明实施例中，可以根据奖赏值R和Q值更新公式，可以计算出不同状态下采取不同动作获得的Q值，这些Q值构成的是一个Q值表，有几个状态就是几阶矩阵，用户终端按照Q值表进行具体的判决，从而让对应的用户终端关联到卫星。

仿真：

假设终端的速度为60m/s,通话时长为25min。用户终端的学习率α＝1，折扣率γ＝0.8。其余仿真参数如表2所示。

表2仿真参数

图6比较了本发明所提算法与最大仰角策略的切换失败率进行对比。由图可知，随着用户终端数量的增加，两种算法的切换失败率均增加，但本发明所提算法的切换失败率仍然低于最大仰角策略，这是因为基于最大仰角策略选择切换卫星时，用户终端仅考虑候选卫星的仰角，而忽略了候选卫星的负载情况，因此用户终端的切换失败率较高；本发明所提的基于q-learning的切换算法，考虑候选卫星的多个属性，找出通信过程中最佳的切换路径，有效地降低了用户终端的切换失败率。

图7比较了本发明所提算法与最大仰角策略的新呼叫阻塞率。由图可知，随着新呼叫用户终端数量的增加，两种算法的阻塞率均增加，但本发明所提算法的新呼叫阻塞率仍然低于最大仰角策略，这是因为本发明所提算法考虑了候选卫星的多个属性，综合判断候选卫星的特性，然后利用q-learning进行最优决策，可有效地降低新呼叫阻塞率。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，所述方法包括以下步骤：

S5、用户终端根据Q值表进行切换判决，使得用户终端关联到对应卫星。

2.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，确定所述用户终端所对应的候选卫星包括采用高斯马尔科夫模型对用户终端的运动速度和运动方向进行建模，预测出用户终端的运动轨迹：确定出所述运动轨迹下有重叠覆盖时间的卫星；在卫星的星历信息约束下，得到处于用户终端的通信时长内可提供服务的候选卫星。

3.根据权利要求2所述的一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，所述采用高斯马尔科夫模型对用户终端的运动速度和运动方向进行建模包括：

4.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，所述用户终端关联不同候选卫星的收益决策表示为：

R(s,a)＝w₁N(u_i)+w₂N(t_i)+w₃N(s_i)+w₄N(d_i)

其中，R(s,a)表示在状态s下选择决策动作a获得的收益奖赏；N(u_i)表示信道利用率的归一化函数，w₁表示信道利用率的权重；N(t_i)表示服务时间的归一化函数；w₂表示服务时间的权重；N(s_i)表示接收信号强度值的归一化函数；w₃表示接收信号强度值的权重；N(d_i)表示中继开销的归一化函数；w₄表示中继开销的权重。

5.根据权利要求4所述的一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，各个权重通过层次分析法进行求解，具体包括对各个切换因子进行重要性分析，采用一致矩阵法构建出判断矩阵；计算出所述判断矩阵的最大特征根对应的特征向量，将所述特征向量进行归一化处理，将归一化后的向量作为权重向量，即各个切换因子的权重值所对应的向量。

6.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，所述Q学习算法计算出对应的Q值的计算公式表示为：

其中，Q_t+1(s,a)表示t+1时刻用户终端在当前状态s下采用决策动作a获得的Q值；α表示学习率；γ表示折扣率；Q_t(s,a)表示t时刻用户终端在当前状态s下采用决策动作a获得的Q值；R(s,a)表示在当前状态s下选择决策动作a后智能体获得的即时奖励值；

表示智能体通过训练累积的经验中获知的最大收益。

7.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法，其特征在于，所述用户终端根据Q值表进行切换判决包括判断下一状态是否为终止状态，若为终止状态，则输出对应的用户终端在当前状态s下采用决策动作a的Q值，否则继续更新用户终端在不同状态下的Q值，根据该Q值让用户终端关联到对应卫星。