CN113613301B

CN113613301B - 一种基于dqn的空天地一体化网络智能切换方法

Info

Publication number: CN113613301B
Application number: CN202110892845.6A
Authority: CN
Inventors: 肖振宇; 杨峻一; 崔欢喜; 田沐鑫
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2022-05-13
Anticipated expiration: 2041-08-04
Also published as: CN113613301A

Abstract

本发明公开了一种基于DQN的空天地一体化网络智能切换方法，属于移动性管理技术领域。所述方法包括构建以卫星与地面站为基础的天地一体化场景，对空天地一体化网络进行切换时的五个状态因素进行建模；包括：接收信号强度RSS、可用比特率ABR、相对速度、传输时延Delay和网络开销；然后，将五个状态因素的建模向量，输入DQN进行经验学习，经过选择动作和经验回放，利用均方误差反向更新Q网络参数；最后，将用户测量的当前实时状态通过卡尔曼滤波修正估计，输入到更新了参数的Q网络中，输出Q值，利用贪婪法进行切换决策，即在所得到的Q值中选择最大动作所对应的基站进行连接。本发明减少了切换率和切换信令开销，提升回报效用。

Description

一种基于DQN的空天地一体化网络智能切换方法

技术领域

本发明属于网络移动性管理技术领域，具体是一种基于DQN(Deep Q-Network)的空天地一体化网络智能切换方法。

背景技术

当前地基系统中，5G网络对于海洋、极地、高山以及自然灾害频发等地区很难做到有效覆盖；因此，覆盖范围更广、布局更灵活的天基和空基系统作为地基系统的补充得到了广泛的关注，在未来，空天地一体化融合组网将成为重要趋势。

在空天地一体化网络中，三种网络可以充分体现出各自的优势，摆脱环境地形等因素的束缚，实现全天候的不间断的服务。然而在空天地一体化网络也会出现资源分配不平衡以及拓扑结构不稳定等问题，并且用户/卫星的高速移动，会发生频繁的切换。因此有效的移动性管理方案是重要的研究方向之一。在移动性管理技术研究中，最重要的是切换策略；有效的切换策略，可以降低切换次数以及时延和网络开销，从而保证用户的服务质量。

在已有的研究中，最重要的切换触发条件是接收信号强度RSS，围绕RSS的切换方法有：基于最大RSS的切换方法、RSS单一门限的切换方法(RSS-T)或RSS磁滞门限的切换方法(RSS-H)等，尽管上述方法可以有效降低切换的乒乓效应，但是单一的参考因素很难适应所有的通信场景，因此考虑多种网络属性的多属性切换决策应运而生；但是多属性切换决策只针对当前时刻，而且该问题一般是NP-hard问题，难以求解。

因此强化学习的方法被用于克服上述问题；强化学习方法通过获取经验回报进行训练，来满足长远的利益。经典Q学习已经在研究中应用到了切换策略，但是由于Q学习只能处理离散变量问题以及状态集偏小的问题；对连续变量问题，虽然可以进行量化，但量化的数值本身就带有误差，同时状态集如果过大，Q学习将要维护一张维度巨大的Q表，开销巨大。

发明内容

针对上述问题，本发明利用深度强化学习提出一种基于DQN的空天地一体化网络智能切换方法，在天地一体化网络场景下，通过考虑多种影响因素，利用深度强化学习DQN进行经验回报训练，降低切换率和切换信令开销，提升回报效用。

所述的基于DQN的空天地一体化网络智能切换方法，具体步骤如下：

步骤一、针对空天地一体化网络进行切换时，对五个状态因素进行建模；

五个状态因素包括：接收信号强度(RSS)、可用比特率(ABR)、相对速度、传输时延(Delay)和网络开销。

1、接收信号强度(RSS)

对于地面链路(ATC)，RSS的公式：

rss_ATC＝P_ATC-10ηlgd+Z_ATC

其中P_ATC代表平均接收功率，Z_ATC代表阴影衰落分量，η代表路径衰落常数，-10ηlgd则代表了功率随距离的衰减程度。

对于星地链路(MSS)，RSS的公式：

rss_MSS＝P_MSS+Z_MSS

P_MSS是平均接收功率，为常数；Z_MSS是衰落分量；

2、可用比特率(ABR)

对地面基站而言，用户的可用比特率与接收信号强度呈正相关关系，对卫星而言，用户的可用比特率为常数；

公式为：

b_u是用户的可用比特率，b_k,u是用户能从第k个地面基站分到的带宽，B是卫星分配给用户的固定带宽，μ₁,μ₂是相关系数。

3、相对速度

相对速度是指移动的用户相对于基站的速度；表达式为

v_xd是相对速度，v_x,v_y是用户在地面二维平面内在x，y两个垂直方向的分量，

是用户运动方向和基站与用户连线的夹角，ζ,κ是符号参数。

对于地面基站，位置描述相对容易且固定，对于卫星来讲，以卫星中心在地面上的投影作为卫星的位置。

4、传输时延(Delay)

由于无线链路的差异性，地面链路的传输时延相对较低；而星地链路，尤其是地面同步卫星(GEO)传输时延相对较大，且可用传输时延与可用比特率呈负相关，可用比特率越高，传输时延越小，反之越大，同时如果低于最小连接阈值，会增加额外的时延。

d是传输时延，为简单起见，d_G,d_S为可设定常数。

5、网络开销

不同的链路网络开销也不同，地面网络开销比卫星网络开销小。

c_u是网络开销，为简单起见，c_G,c_S为可设定常数。

步骤二、将五个状态因素的建模向量，输入DQN进行经验学习和储存，再经过经验回放，利用DQN算法更新Q网络参数；

具体更新过程为：

步骤201、初始化Q网络参数；

网络参数包括状态集S，动作集A，折扣因子γ，探索率σ，学习率α，迭代步长T，时间步长N，Q网络结构，回放集维度N_r，训练集维度m(m＜N_r)，神经网络权重w；

步骤202、初始化回放集为空，进程索引episode＝1和时间索引t＝1；

步骤203、随机输入状态集S中的初始状态向量φ(s)，并将状态向量归一化为0～1之间的值；

步骤204、利用ε贪婪法从动作集A中选择动作a并执行动作，将当前状态变为下一状态φ(s')；

ε贪婪法具体为：

首先，Q网络计算动作集A中每一个动作对应的Q值；

然后，用户每次准备选择动作时，先产生一个0～1之间的随机数，这个随机数与预先设定的ε门限进行比较，随机数小于门限则选择Q值最大的动作，否则在所有动作中随机选择一个动作。

步骤205、针对选择的动作a，结合五个状态因素的建模向量获得该动作a的奖励R；

奖励函数R₁的表达式为：

R₁(s,a)＝[ω_rssF_rss(rss^a)+ω_bF_b(b^a)+ω_dF_d(d^a)+ω_vF_v(v^a)+ω_cF_c(c^a)]·u(rss^a-rss_min)

其中F_i(·)代表每种状态因素的效用函数，ω_i代表每种状态因素的权重，并且∑ω_i＝1，rss_min代表网络保持连接的最小RSS阈值，u(·)代表单位阶跃函数。

可知，当下一时刻动作与当前连接状态不一致时，即进行切换，奖励函数会给予更低的奖励值，反之下一时刻动作与当前连接一致时，即保持当前连接，奖励函数会给予更高的奖励值。

其中，接收功率RSS的效用函数为：

F_rss(rss^a)＝λ₁·rss·u(rss-rss_min)

λ₁代表归一化参数，把F_rss限制在0～1之间。

可用比特率的效用函数为：

其中b_min代表最小可用比特率，λ₂代表归一化参数，把F_b限制在0～1之间；D(b)代表编码器失真函数。

传输时延(Delay)的效用函数为：

F_d(d^a)＝λ₃·(d_max-d)·u(d_max-d)

其中d_max代表网络中最大时延，λ₃代表归一化参数，把F_d限制在0～1之间。

相对速度的效用函数为：

其中λ₄,λ₅代表归一化参数，当相对速度v小于门限值v_T时，即用户处于相对低速的情况，更倾向于连接地面站，但同时也有一定的概率去连接卫星，ρ＜1；当速度v大于门限值v_T时，即用户处于相对高速的情况，用户更倾向于连接卫星，而并不倾向于连接地面站。

网络开销的效用函数按如下形式定义。

最后，设置五个状态因素的权重，采用层次分析法，重要程度表参见如下表1：

表1

步骤206、把动作a对应的{φ(s),a,R,φ(s')}存入回放集，并更新φ(s')→φ(s)；

步骤207、判断mod(t,N_r)＝0是否成立，如果是，进入步骤208，否则回到步骤204；

步骤208、从回放集中随机选择m个样本{φ(s_j),a_j,R_j,φ(s'_j),j＝1,2,...,m}，并逐一计算目标Q值；

计算公式为：

q_j←R_j+γmaxQ(φ(s'_j),a_j,w)

其中q_j为目标Q值，R_j为奖励函数值，Q()为神经网络在输入状态s'的输出Q值向量；

步骤209、利用均方误差反向更新Q网络参数：

步骤210、判断t＝N是否成立，如果是，进入步骤211；否则，将时间索引t＝t+1，回到步骤204；

步骤211、继续判断episode＝T是否成立，如果是，结束全部进程，否则episode＝episode+1，获取新的初始状态，回到步骤204。

步骤三、将用户测量的当前实时状态通过卡尔曼滤波修正估计，输入到更新了Q网络参数的Q网络中，输出Q值，利用贪婪法进行切换决策，即在所得到的Q值中选择最大动作所对应的基站进行连接。

本发明的有点在于：

1)、一种基于DQN的空天地一体化网络智能切换方法，保留了多属性切换决策的优势，继承了Q学习方法经验学习的优势。

2)、一种基于DQN的空天地一体化网络智能切换方法，改进Q学习中二维Q表为神经网络，对于连续的状态变量无需量化，提高训练与决策的精确度。

3)、一种基于DQN的空天地一体化网络智能切换方法，用神经网络来代替二维Q表，可以有效应对状态空间过大的情况，避免占用过大的储存空间。

附图说明

图1是本发明一种基于DQN的空天地一体化网络智能切换方法的原理图；

图2是本发明一种基于DQN的空天地一体化网络智能切换方法的流程图；

图3是本发明实施例构建的可适用的天地一体化网络仿真场景图；

图4是本发明实施例中平均切换率随十条路径的测试结果图；

图5是本发明实施例中平均回报效用随十条路径的测试结果图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本发明公开了一种基于深度强化学习DQN的切换方法，如图1所示，首先，对空天地一体化网络进行切换时的五个状态因素进行建模；包括：接收信号强度(RSS)、可用比特率(ABR)、相对速度、传输时延(Delay)和网络开销。然后，将五个状态因素的建模向量，输入DQN进行经验学习，经过选择动作和经验回放，利用均方误差反向更新Q网络参数；最后，将用户测量的当前实时状态通过卡尔曼滤波修正估计，输入到更新了参数的Q网络中，输出Q值，利用贪婪法进行切换决策，即在所得到的Q值中选择最大动作所对应的基站进行连接。

本发明包括建立以卫星与地面站为基础的天地一体化网络通信场景，利用马尔可夫两状态模型，建立卫星到地面用户的下行通信系统的信道模型；在单连接的模式下，地面用户按泊松分布的规律进行接入与挂断；利用深度强化学习DQN方法进行经验训练，神经网络的输入为状态集，考虑接受信号强度(Received Signal Strength，RSS)、可用比特率(Available Bit Rate，ABR)、传输时延、相对速度和网络开销等切换影响因素；设计奖励函数；输出为对应状态个各动作的Q值；最终利用训练好的Q网络在实际场景中进行切换决策，以长远利益为基础，考虑多种切换影响因素，同时利用DQN方法训练将长远规划和利益加入考量，减少切换率和切换信令开销，提升回报效用；出了给定任意路径情况下的切换决策方案，是一种基于强化学习DQN的多属性决策移动性管理技术。

本方法首先将所考虑的因素进行抽象化，得到状态向量；所述的基于DQN的空天地一体化网络智能切换方法，如图2所示，具体步骤如下：

五个状态包括：接收信号强度(RSS)、可用比特率(ABR)、相对速度、传输时延(Delay)和网络开销，这五个也是切换所要考虑的因素。

1、接收信号强度(RSS)

对于天地一体化网络，针对不同的链路，RSS的模型也不同。

对于地面链路(ATC)，RSS的公式：

rss_ATC＝P_ATC-10ηlgd+Z_ATC

在地面链路中，可以认为P_ATC和Z_ATC是常数，RSS只与距离有关。在通过测量得到用户的位置和速度之后，利用卡尔曼滤波算法进行校正估计，卡尔曼滤波算法如下：

其中x∈Rⁿ,z∈R^m,x是要估计的值，z是测量值；A∈R^n×n代表上一状态到当前状态的转换矩阵；u∈R¹代表控制输入值，一般可以忽略；B∈R^n×1；H∈R^m×n代表当前状态到测量值的转移矩阵；Q∈R^n×n代表过程噪声协方差矩阵；R∈R^m×n R∈R^m×n表示测量噪声协方差矩阵；P_k和P_k代表误差协方差矩阵；K_k代表卡尔曼增益。

对于星地链路(MSS)，RSS的公式：

rss_MSS＝P_MSS+Z_MSS

P_MSS是平均接收功率，为常数；Z_MSS是衰落分量；

RSS只受衰落分量的影响，其信道模型可以描述为一个马尔可夫两状态模型，即信道状态不断地在理想状态和非理想状态之间进行切换。

理想状态是指用户与卫星的通信链路没有遮蔽或轻阴影遮蔽，其信道可以用Loo模型描述，理想状态下的信号幅度的概率密度函数：

其中g₀代表平均散射多径功率，μ_s代表1nz的平均值，d₀代表1nz的方差。

Loo模型的信道特性由一个瑞利分布随机过程和一个对数正态分布随机过程叠加构成。瑞利分布随机过程可以通过两个互不相关的色高斯随机过程实现。对数正态分布随机过程可以通过一个色高斯随机过程实现。

色高斯随机过程的实现有两种最常用的方法，即滤波器法和正弦波叠加法，由于滤波器法的设计实现较为困难，因此采用正弦波叠加法，基于正弦波叠加法的色高斯随机过程公式：

对于瑞利分布随机过程，两个色高斯随机过程互不相关，则两列正弦波的频率不能有相同的，因此一般选定正弦波的数量为N₂＝N₁+1，而θ_i的值则是0～2π之间的均匀分布，频率f和系数c由下式决定：

其中σ₀是色高斯随机过程的标准差。

瑞利分布随机过程的最终实现式为：

对于对数正态分布随机过程，需要一个色高斯随机过程，对数正态分布随机过程的最终实现式为：

其中σ_s,μ_s分别为色高斯随机过程的标准差和均值。

因此，理想状态的随机过程实现由瑞利分布随机过程叠加对数正态分布随机过程，即

非理想状态是指用户与卫星通信链路受到严重的阴影遮挡，其信道可以用Corazza模型来进行描述，非理想状态下的信号幅度的概率密度函数：

其中

代表平均散射多径功率，ρ,m₁,σ₁分别代表直射分量的幅度值、均值和标准差。

Corazza模型的信道特性可以由一个莱斯分布随机过程和一个对数正态分布随机过程进行叠加构成。莱斯分布随机过程可以通过两个互不相关的色高斯随机过程来实现。对数正态分布随机过程可以通过一个色高斯随机过程来实现。

对于莱斯分布随机过程，其实现方法与瑞利分布随机过程十分类似，只是相差了一个参数χ而已，莱斯分布的最终实现式为：

对数正太随机过程与之前介绍的完全一致，因此非理想状态随机过程实现由莱斯分布随机过程乘以对数正态分布随机过程，即

在理想状态和非理想状态建模完成后，下面就是马尔可夫两状态模型的建模。马尔可夫过程中最能体现其特性的是状态概率矩阵和状态转移矩阵，状态概率矩阵由状态的出现概率组成，状态转移矩阵由转移概率组成，即p_ij＝p(t_n+1＝j|t_n＝i)表示从第n时刻的i状态转移到第n+1时刻的j状态的概率，由于只有理想状态和非理想状态两种状态，因此状态转移矩阵只有两阶，即

其中P_dd,P_nn代表了保持当前理想状态和非理想状态的概率，P_dn,P_nd代表了两状态之间发生转移的概率。

将马尔可夫两状态模型的切换划分为两个模块，理想状态决策模块、非理想状态决策模块，根据前一状态来选择理想状态模块和非理想状态模块，再通过所选模块的转移概率作为门限，决定是否进行状态转移。

当前一状态为理想状态时，选择理想状态决策模块，然后选择理想状态的转移概率p_dn作为门限，即在0～1之间产生一个随机数与门限进行比较，如果小于等于门限值，则状态转移到非理想状态，如果大于门限值，则保持当前理想状态。当前一状态为非理想状态时同理。

因此星地链路的信道模型就可以利用建立好的马尔可夫两状态模型来描述。

2、可用比特率(ABR)

对于可用比特率，是衡量网络质量的重要因素，无论是语音、视频还是数据传输服务，可用比特率越高，用户所得到的服务质量就越高，反之可用比特率越低，用户可能遇到缓冲、卡顿甚至连接失败的情况，服务质量严重下降。

每个网络都有其所能提供的带宽，假设用户的接入多址技术都采用频分多址(FDMA)，连接到网络中的每个用户均分所在网络的可用带宽，用户的接入和离开服从泊松分布，连接时间服从负指数分布，同时地面基站的可用比特率与接收功率RSS进行相关处理，呈正相关关系，卫星的可用比特率为常数。

3、相对速度

相对速度是指移动的用户相对于基站的速度；即用户的绝对速度在用户与基站连线上的速度分量，而且如果是靠近则相对速度取正，远离则取负，用相对速度因子ζ来表示。由于绝对速度可以分解为两个正交分量v_x,v_y，可以把绝对速度向用户基站连线方向的投影转化为两个正交分量向用户基站连线上的投影。

为了确定两个投影是叠加还是相减，还需要进一步的判断，由于基站的位置和用户自己当前位置是可以获取的，因此用基站位置的x，y坐标分别减去用户位置的x，y坐标并取其符号，与相应方向上的速度分量符号进行比较，如果两个方向上符号有一个不一致，则取符号相减，如果两个方向上有零或两个符号一致，则取符号相加。用公式表示如下：

其中(x_bs,y_bs)代表基站的位置，(x_t,y_t)代表用户的位置，mid代表符号提取函数，κ是加减决策因子。

再利用基站和用户的位置求出用户与基站连线的方向角度：

其中abs代表取模值函数。

因此相对速度是指移动的用户相对于基站的速度，最终相对数的表达式为：

4、传输时延(Delay)

由于无线链路的差异性，地面链路的传输时延相对较低，而星地链路，尤其是地面同步卫星(GEO)传输时延相对较大，且可用传输时延与可用比特率呈负相关，可用比特率越高，传输时延越小，反之越大，同时如果低于最小连接阈值，会增加额外的时延。

d是传输时延，为简单起见，d_G,d_S为可设定常数。

5、网络开销

网络开销也是重要的影响因素之一，因为不可能不计成本的追求高质量的服务，需要在高质量服务和成本之际做权衡。不同的链路同样网络开销也不同，地面网络开销一般比较低，对于卫星通信来讲，由于发展时间较短，而且维护卫星的成本一般较高，网络开销更大。

c_u是网络开销，为简单起见，c_G,c_S为可设定常数。

DQN经验学习是通过建模状态向量的输入和储存，再经过经验回放，更新Q网络参数的过程。具体更新过程为：

步骤201、初始化Q网络参数。

参包括数：状态集S，动作集A，折扣因子γ，探索率σ，学习率α，迭代步长T，时间步长N，Q网络结构，回放集维度N_r，训练集维度m(m＜N_r)，神经网络权重w；

ε贪婪法具体为：

首先，Q网络计算动作集A中每一个动作对应的Q值；

然后，用户在训练中每次准备选择动作时，先产生一个0～1之间的随机数，这个随机数与预先设定的ε门限进行比较，随机数小于门限则选择Q值最大的动作，否则在所有动作中随机选择一个动作。

奖励函数是整个DQN算法的核心，也是综合考量五种影响因素的环节之后，切换执行的好坏极大程度取决于奖励函数的设计。

基于用户的体验质量QoS来建立R₁函数，其中包括了五种影响因素，表达式为：

可知，奖励函数的表达由R₁函数和切换重要性参数ψ组成，为了尽可能降低切换次数，当下一时刻动作与当前连接状态不一致时，即进行切换，奖励函数会给予更低的奖励值，反之下一时刻动作与当前连接一致时，即保持当前连接，奖励函数会给予更高的奖励值。

其中令ψ∈(0.5,1]，t时刻的奖励函数表示如下：

其中U(·)代表二值函数，如果满足括号内的条件，则函数值为1，否则函数值为零。

接下来就是定义每种因素的效用函数，首先是接收功率RSS的效用函数，由于接收功率RSS越强，服务质量越高，因此高的RSS对应高的效用函数值，则接收功率RSS的效用函数为：

F_rss(rss^a)＝λ₁·rss·u(rss-rss_min)

λ₁代表归一化参数，把F_rss限制在0～1之间，u(·)代表单位阶跃函数。。

对于可用比特率的效用函数，由于可用比特率越高，传输速率越快，服务质量越高，因此高的可用比特率对应高的效用函数值，可用比特率的效用函数为：

其中b_min代表最小可用比特率，λ₂代表归一化参数，把F_b限制在0～1之间；D(b)代表编码器失真函数，其表达式为：

其中参数

为其参数。

对于传输时延的效用函数，由于传输时延越小，用户体验质量越高，因此低的传输时延对应高的效用函数值，假定传输时延仅与网络类型有关，与位置无关，同一种网络的传输时延是固定的，因此传输时延(Delay)的效用函数为：

F_d(d^a)＝λ₃·(d_max-d)·u(d_max-d)

对于相对速度的效用函数，当用户以较高速度靠近基站移动时，用户得到的服务质量倾向于提升，反之，当用户以较高速度远离基站移动时，用户得到的服务质量倾向于下降，与此同时，如果速度太快，会出现短时间内跨越多个地面站小区，如果连接地面站基站则会导致短时间内频繁的切换，因此需要设定一个门限，当速度超过该门限时，用户更倾向于连接卫星，因此参考文献[15]相对速度的效用函数为：

其中λ₄,λ₅代表归一化参数，从相对速度的奖励函数可以分析得到，当相对速度v小于门限值v_T时，即用户处于相对低速的情况，地面站和卫星的奖励值与相对速度的绝对值和方向有关，方向为靠近基站，绝对值越大，奖励值越高，相反方向为远离基站，绝对值越小，奖励值越低，ρ＜1，因此总体上低速情况下更倾向于连接地面站，但同时也有一定的概率去连接卫星；当速度v大于门限值v_T时，即用户处于相对高速的情况，此时地面站的奖励值为0，而卫星的奖励值为1，也就是相对高速情况下，用户更倾向于连接卫星，而并不倾向于连接地面站。

对于网络开销的效用函数，通常，地面站的网络开销要远小于卫星的网络开销，因此，网络开销的效用函数按如下形式定义：

五种影响因素的效用函数给出后，接下来需要设定对应的权重，权重的设定采用了层次分析法，五种属性各自有自己的重要程度，重要程度表参见如下表1：

表2

计算公式为：

q_j←R_j+γmaxQ(φ(s'_j),a_j,w)

步骤209、利用均方误差反向更新Q网络参数：

用户进入到经过训练的指定区域或路线中，通过测量当前状态并利用卡尔曼滤波修正估计，然后将状态向量输入到更新了参数的Q网络，得到Q网络的输出Q值，利用贪婪法进行切换决策，即在所得到的Q值中选择最大动作所对应的基站进行连接。

本发明中的神经网络，是为了改进Q学习缺点而引进的，并没有对类型作出要求，不论是RNN、CNN或者最基本的BP神经网络都可以，对于神经网络的输入输出需作出严格规定，神经网络的输入是状态向量。在本发明中，由于每个网络需要有五个参量，则对于N个网络的系统，输入状态维度为5N，输出为每个动作的Q值，即每个网络的Q值，输出维度为N，对于神经网络的隐藏层有明确的规定，至少需要一个隐藏层，但可以建立多个隐藏层，这取决于问题的复杂程度，计算越复杂隐藏层就需要的越多。

由于接收功率RSS在所有的切换策略中都是决策依据，而且接收功率的强弱很大程度上影响网络的质量，因此RSS是第一重要的因素；紧接着可用比特率ABR是第二重要的因素，因为它决定了可以接收的数据服务的速率；第三重要的影响因素是相对速度，在用户移动过程中，一定的预判性是很关键的，向基站靠近的未来服务质量一定比向基站远离的未来服务质量更好；第四重要的是网络开销，因为成本还是需要进行考虑的，而且不同类型的网络服务，网络开销相差还是挺大的；最后是传输时延，除非用户在进行一些对流畅度要求很高的网络应用，否则传输时延的略长略短并非十分重要，而且在本发明的假设中，传输时延的建模复杂度略微简单，因此重要程度也不是很高。

通过以上的重要程度分析，写出重要程度偏好矩阵E：

求出矩阵E的最大特征值λ_max＝5.2375和其对应的权向量：

则每种影响因素的权重为：

因此权重向量为Ω＝(0.5128，0.2615，0.0333，0.1289，0.0634)^T，即ω_rss＝0.5128，ω_b＝0.2615，ω_d＝0.0333，ω_v＝0.1289，ω_c＝0.0634。

实施例：

本发明基于深度强化学习DQN的切换方法，降低了切换率和切换信令开销，提高了平均回报效用。如图3所示的仿真场景，由一个GEO卫星和三个地面站组成的星地融合网络，仿真参数设置如下：GEO卫星波束范围为1500km，地面站小区覆盖半径为2km，GEO波束完全覆盖三个地面站，三个地面站有重叠覆盖，星地链路为马尔可夫两状态模型，卫星仰角20度，决策间隔1s，步长为1s，用户速度在1～50m/s之间变化，设定16.67m/s(约为60km/h)为速度门限。

如图4和图5所示是当速度为v＝15m/s，最大时延600ms，最小可用比特率0.7Mbps，磁滞门限设为5dBm，单一门限设为-5dBm时的十条路径随机测试结果，综合考量，可以看出本发明所提出的方法有效的降低了切换率，切换开销和切换率呈正相关关系，因此同样减少了切换开销，而且提高了平均回报效用。

Claims

1.一种基于DQN的空天地一体化网络智能切换方法，其特征在于，具体步骤如下：

首先，针对空天地一体化网络进行切换时的五个状态因素进行建模；

所述的五个状态因素包括：接收信号强度RSS、可用比特率ABR、相对速度、传输时延Delay和网络开销；

所述的接收信号强度RSS建模过程如下：

对于地面链路ATC，RSS的公式：

rss_ATC＝P_ATC-10ηlgd+Z_ATC

其中P_ATC代表平均接收功率，Z_ATC代表阴影衰落分量，η代表路径衰落常数，-10ηlgd则代表了功率随距离的衰减程度；

对于星地链路MSS的信道模型利用马尔可夫两状态模型来描述，RSS的公式：

rss_MSS＝P_MSS+Z_MSS

P_MSS是平均接收功率，为常数；Z_MSS是衰落分量；

所述的可用比特率ABR建模过程如下：

建模公式为：

b_u是用户的可用比特率，b_k,u是用户能从第k个地面基站分到的带宽，B是卫星分配给用户的固定带宽，μ₁,μ₂是相关系数；

所述的相对速度是指移动的用户相对于基站的速度；建模表达式为

是用户运动方向和基站与用户连线的夹角，ζ,κ是符号参数；

对于地面基站，位置描述相对容易且固定，对于卫星来讲，以卫星中心在地面上的投影作为卫星的位置；

所述的传输时延Delay建模公式为：

d是传输时延，为简单起见，d_G,d_S为可设定常数；

所述的网络开销建模中，不同的链路网络开销也不同，地面网络开销比卫星网络开销小；建模公式为：

c_u是网络开销，为简单起见，c_G,c_S为可设定常数；

然后，将五个状态因素的建模向量，输入DQN进行经验学习和储存，再经过经验回放，利用DQN算法更新Q网络参数；

具体更新过程为：

步骤201、初始化Q网络参数；

网络参数包括状态集S，动作集A，折扣因子γ，探索率σ，学习率α，迭代步长T，时间步长N，Q网络结构，回放集维度N_r，训练集维度m，m＜N_r，神经网络权重w；

步骤205、针对选择的动作a，结合五个状态因素的建模向量获得该动作a的奖励R₁；

奖励函数R₁的表达式为：

其中F_rss(rss^a)为接收信号强度RSS的效用函数：

F_rss(rss^a)＝λ₁·rss·u(rss-rss_min)

λ₁代表归一化参数，把F_rss限制在0～1之间；

F_b(b^a)为可用比特率的效用函数：

其中b_min代表最小可用比特率，λ₂代表归一化参数，把F_b限制在0～1之间；D(b)代表编码器失真函数；

F_d(d^a)为传输时延Delay的效用函数：

F_d(d^a)＝λ₃·(d_max-d)·u(d_max-d)

其中d_max代表网络中最大时延，λ₃代表归一化参数，把F_d限制在0～1之间；

F_v(v^a)为相对速度的效用函数：

其中λ₄,λ₅代表归一化参数，当相对速度v小于门限值v_T时，用户处于相对低速，连接地面站或连接卫星，直射分量的幅度值ρ小于1；当速度v大于门限值v_T时，即用户处于相对高速的情况，用户连接卫星；

F_c(c^a)为网络开销的效用函数，按如下形式定义：

ω_i代表每种状态因素的权重，并且∑ω_i＝1，rss_min代表网络保持连接的最小RSS阈值，u(·)代表单位阶跃函数；

可知，当下一时刻动作与当前连接状态不一致时，即进行切换，奖励函数会给予更低的奖励值，反之下一时刻动作与当前连接一致时，即保持当前连接，奖励函数会给予更高的奖励值；

步骤206、把动作a对应的{φ(s),a,R₁,φ(s')}存入回放集，并更新φ(s')→φ(s)；

步骤208、从回放集中随机选择m个样本{φ(s_j),a_j,R_j,φ(s'_j),j＝1,2,…,m}，并逐一计算目标Q值；

计算公式为：

q_j←R_j+γmaxQ(φ(s'_j),a_j,w)

步骤209、利用均方误差反向更新Q网络参数：

步骤211、继续判断episode＝T是否成立，如果是，结束全部进程，否则episode＝episode+1，获取新的初始状态，回到步骤204；

最后，针对用户测量的当前实时状态，利用卡尔曼滤波修正估计后，输入到更新了Q网络参数的Q网络中，输出Q值；利用贪婪法进行切换决策，即在所得到的Q值中选择最大动作所对应的基站进行连接。

2.如权利要求1所述的一种基于DQN的空天地一体化网络智能切换方法，其特征在于，所述的ε贪婪法具体为：

首先，Q网络计算动作集A中每一个动作对应的Q值；

3.如权利要求1所述的一种基于DQN的空天地一体化网络智能切换方法，其特征在于，所述的五个状态因素的权重，采用层次分析法设定。