CN114679757A

CN114679757A - 一种超高速低真空管道飞行器越区切换方法及装置

Info

Publication number: CN114679757A
Application number: CN202011570514.2A
Authority: CN
Inventors: 毛凯; 张艳清; 金成日; 彭映晗; 武光城; 董航; 沈霄彬; 张国华; 李萍
Original assignee: Casic Feihang Technology Research Institute of Casia Haiying Mechanical and Electronic Research Institute
Current assignee: Casic Feihang Technology Research Institute of Casia Haiying Mechanical and Electronic Research Institute
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2022-06-28
Anticipated expiration: 2040-12-26
Also published as: CN114679757B

Abstract

本发明提供了一种超高速低真空管道飞行器越区切换方法及装置，方法包括：获取判决输入；判决输入包括：移动端的第一初始状态以及固定端的第二初始状态；基于强化学习模型，确定在判决输入下的动作选择并执行所述动作选择；动作选择包括：执行越区切换以及不执行越区切换；获取评价动作选择的奖励函数，并将奖励函数反馈至强化学习模型中以对强化学习模型进行迭代，所述奖励函数为下一次执行越区切换所需时间的效用函数。通过上述越区切换的方法，基于强化学习模型，通过判决输入的多种初始状态对越区切换进行预判，并根据动作选择的执行情况反馈不同的奖励函数并对强化学习模型进行迭代，达到与环境交互不断“试错”，以此学习到最优的判决策略。

Description

一种超高速低真空管道飞行器越区切换方法及装置

技术领域

本发明涉及超高速飞行器领域，具体涉及一种超高速低真空管道飞行器越区切换方法及装置。

背景技术

超高速低真空管道飞行器利用“低真空管道+磁悬浮”技术能够让行驶速度达到1000km/h，其中无线通信系统负责飞行器与地面之间的双向数据实时传输，飞行器的超高速移动使得车地无线通信系统为了保持不中断通讯，就需要进行越区切换。

单个无线电基站(Radio Base Station,RBS)的部署范围为1km，因此穿过单个无线电小区的最短时间为3.6s，表示此速度下每3.6s必须经历一次越区切换，越区切换频率极高。因此良好的越区切换性能对越区切换算法提出了更高的响应性要求。

目前，针对越区切换主要采用“硬切换”方法，而这种方式存在两个主要的弊端，一方面需要大量信令交互，占用时间长，远远无法满足越区切换的快速响应要求；另一方面仅采用接收信号强度信息作为判决指标，未对其它环境信息进行充分利用，一旦接收器发生故障导致无法正确解析信号强度，就对越区切换时机产生误判，导致越区切换性能指标恶化。

发明内容

鉴于上述越区切换方法响应慢且判决指标可靠性差的问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种超高速低真空管道飞行器越区切换方法及装置。

依据本发明的一个方面，提供一种超高速低真空管道飞行器越区切换方法，包括：

获取判决输入；所述判决输入包括：移动端的第一初始状态以及固定端的第二初始状态；

基于强化学习模型，确定在所述判决输入下的动作选择并执行所述动作选择；所述动作选择包括：执行越区切换以及不执行越区切换；

获取评价所述动作选择的奖励函数，并将所述奖励函数反馈至所述强化学习模型中以对所述强化学习模型进行迭代，所述奖励函数为下一次执行越区切换所需时间的效用函数，所述迭代包括：更新奖励信号并学习判决策略。

优选的，所述方法还包括：

当所述强化学习模型的迭代次数达到第一阈值时，基于学习到的所述判决策略生成初始判决策略；

将所述初始判决策略反馈至所述强化学习模型中。

优选的，获取判决输入具体包括：

获取移动端当前的位置信息和速度信息；

对所述位置信息和速度信息分别进行离散化处理以生成第一初始状态；

获取服务固定端的接收信号强度信息，并对所述接收信号强度信息进行离散化处理以生成第二初始状态；所述服务固定端为当前与所述移动端已建立连接的固定端；

根据第一初始状态以及第二初始状态生成判决输入。

优选的，确定动作选择前，所述方法还包括：

生成位于[0,1]区间内的随机数ρ；

判断所述随机数ρ与探索程度ε的大小；

当所述随机数ρ大于探索程度ε，则执行当前判决输入下的最优动作选择；

当所述随机数ρ小于探索程度ε，则随机执行所述动作选择。

优选的，执行所述动作选择具体包括：

当确定所述动作选择为执行越区切换，则向目标固定端发送资源预留指令以通知所述目标固定端预留信道资源；所述目标固定端为待接入的固定端；

向所述目标固定端发送连接请求，以连接预留的所述信道资源。

优选的，当确定所述动作选择为不执行越区切换，但当必须要执行所述越区切换时，所述方法还包括：

向目标固定端发送连接请求，并由所述目标固定端根据所述连接请求判断是否向移动端提供信道资源以执行越区切换。

优选的，对所述强化学习模型进行迭代具体包括：

获取判决策略并对所述判决策略进行优化以实现最优策略，所述判决策略为从所述判决输入到所述动作选择的映射，所述最优策略为一对所述判决输入和动作选择对的积累回报值最大；

根据积累回报值获取积累奖励信号的期望值。

依据本发明的另一个方面，提供一种超高速低真空管道飞行器越区切换装置，包括：

第一获取单元，用于获取判决输入；所述判决输入包括：移动端的第一初始状态以及固定端的第二初始状态；

动作选择单元，用于基于强化学习模型，确定在所述判决输入下的动作选择并执行所述动作选择；所述动作选择包括：执行越区切换以及不执行越区切换；

第一学习单元，用于获取评价所述动作选择的奖励函数，并将所述奖励函数反馈至所述强化学习模型中以对所述强化学习模型进行迭代，所述奖励函数为下一次执行越区切换所需时间的效用函数，所述迭代包括：更新奖励信号并学习判决策略。

依据本发明的另一个方面，提供一种超高速低真空管道飞行器越区切换系统，包括：

移动端、固定端以及控制单元，所述固定端还包括：服务固定端以及目标固定端；

所述控制单元用于执行如上任意一项所述的越区切换方法。

依据本发明的另一个方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的一种超高速低真空管道飞行器越区切换方法。

通过上述超高速低真空管道飞行器越区切换的方法及装置，基于强化学习模型，通过判决输入的多种初始状态对越区切换进行预判，并根据动作选择的执行情况反馈不同的奖励函数并对强化学习模型进行迭代，达到与环境交互不断“试错”，以此学习到最优的判决策略。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种超高速低真空管道飞行器越区切换方法的流程图；

图2为本发明另一实施例中一种超高速低真空管道飞行器越区切换方法的流程图；

图3为本发明另一实施例所提供的一种超高速低真空管道飞行器越区切换方法的信令交互流程图；

图4为本发明实施例中一种超高速低真空管道飞行器越区切换装置的结构示意图；

图5为本发明实施例中越区切换强化学习模型的映射；

图6为本发明实施例中计算机设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例概述

本发明实施例确立了一种超高速低真空管道飞行器运行场景下基于强化学习的越区切换方法。首先智能体将可采集到的飞行器的位置、行驶速度及基站接受信号强度等信息作为判决输入的状态变量，使用强化学习模型对越区切换问题在控制单元提前进行判决，并根据每轮执行越区切换的时间作为奖励信号不断修改强化学习模型直至获得最优切换的最优判决策略，本发明实施例同时也提出了该越区切换方法的信令交互流程。

需要注意的是，上述实施例概述仅是为了便于理解本申请的精神和原理而示出，本申请的实施例不限于此。相反，本申请的实施例可以应用于可能适用的任何场景。例如，工业、生活等任何环境中的涉及高速运动的可移动设备，例如车辆、船舶、航空器等。

示例性应用

具体的，本发明实施例提供一种超高速低真空管道飞行器越区切换方法，如图1所示，所述方法包括：

步骤100，获取判决输入；所述判决输入包括：移动端的第一初始状态以及固定端的第二初始状态。

在本发明实施例中，移动端为进行高速移动的一方，具体可以为超高速磁悬浮列车、高速列车等，固定端为与移动端实现数据传输的一方，例如无线电基站，越区切换就是随着移动端的移动，通信连接从当前已建立连接的服务固定端切换至与目标固定端连接的过程，也就是不同固定端之间的切换。

具体的，智能体(Agent)负责与环境交互、进行动作选择以及不断离线学习判决策略。其中，环境交互过程就包括接收判决输入，判决输入是判断是否需要进行越区切换的基本条件和起点，所述判决输入其实就是初始状态的输入。在本发明实施例中，初始状态(State,s)不仅与移动端的第一初始状态有关，也与固定端的第二初始状态密切相关，因此在步骤100中既需要获取移动端的第一初始状态，也需要获取固定端的第二初始状态，通过综合考虑移动端的第一初始状态以及固定端的第二初始状态，能够对越区切换实行更细致的划分，从而更精准的对越区切换进行判决，有利于建立丰富具体的强化学习模型并根据不同的初始状态寻找到精准的越区切换的时机。

步骤200，基于强化学习模型，确定在所述判决输入下的动作选择并执行所述动作选择；所述动作选择包括：执行越区切换以及不执行越区切换。

其中，动作选择设置为强化学习模型中的动作(Action,a)，动作选择就是智能体根据判决输入所做判决结果，即根据当前移动端的第一初始状态以及固定端的第二初始状态来选择下一时刻是否需要进行越区切换。具体的，在确定动作选择时，需要从至少两个所述动作选择中确定其中一个，即至少两个动作选择在执行过程中是互斥的。例如，根据当前的判决输入确定动作选择为执行越区切换(1)，或者根据当前的判决输入确定动作选择为不执行越区切换(0)，其中，执行越区切换(1)与不执行越区切换(0)是互斥的，不可能同时实现。因此，在本发明具体的实施例中动作选择可以表示为：

A＝{0，1}

较佳的，判决所获得的动作选择是执行越区切换(1)还是不执行越区切换(0)是需要根据不同的初始状态决定的，即第一初始状态或第二初始状态任意一方的变化均有可能改变动作选择的最终判决结果。

步骤300，获取评价所述动作选择的奖励函数，并将所述奖励函数反馈至所述强化学习模型中以对所述强化学习模型进行迭代，所述奖励函数为下一次执行越区切换所需时间的效用函数，所述迭代包括：更新奖励信号并学习判决策略。其中，特别是在强化学习初期，动作选择的过程并没有太多可供参考的标准时，奖励函数(Reward,r)是建立强化学习模型重要的步骤之一，奖励函数作为评价强化学习模型中当前的动作选择好坏的标准，可以及时向强化学习模型提供导向并不断迭代，以用于指导之后的动作选择，同时学习判决策略的次数越多获取奖励信号越高。此模型下，奖励函数设计为：每一次动作选择后，下一次越区切换所需时间的效用函数。具体的，无论执行何种动作选择(0或1)，均会计算下一次越区切换所需的时间的效用函数U(D_a)，即执行下一次越区切换所需的时间的效用值。其中，奖励函数r(s，a)定义为：

r(s，a)＝U(D_a)

已知飞行器下一次执行越区切换时间D_a，以及能够忍受的最大限值D_max为50ms，因此效用函数U(D_a)定义为：

其中，效用函数表示越区切换所需的时间越小、效用值越大，其中μ表示归一化参数，用于将效用函数U(D_a)的取值范围限定在[0,1]区间内。因此，从效用函数的公式可推知，当前的动作选择的执行效果越好，效用值越大，则奖励值越大，从而进一步正向强化了该模型；当前的动作选择的执行效果越差，效用值越小，奖励值越小，从而反向更正了该模型。

通过上述越区切换的方法，基于强化学习模型，通过判决输入的多种初始状态对越区切换进行预判，并根据动作选择的执行情况反馈不同的奖励函数并对强化学习模型进行迭代，达到与环境交互不断“试错”，以此学习到最优的判决策略。

较佳的，本发明实施例所述的一种超高速低真空管道飞行器越区切换方法还包括：

当所述强化学习模型的迭代次数达到第一阈值时，基于学习到的所述判决策略生成初始判决策略。具体而言，当达到一定迭代次数后，在本实施例中以第一阈值作为迭代次数的分界。即迭代次数达到第一阈值时，基于之前所有的迭代过程所学习到的判决策略，生成初始判决策略。理论上，该第一阈值越大，所获得初始判决策略越准确。但是基于状态空间和动作空间的大小，本发明实施例中将迭代次数设置为10000次。其中，状态空间即能获取的最大判决输入的个数，动作空间即可选择的动作选择的个数。在其他实施例中，也可以根据实际环境设置为其他数值，并不以本发明实施例为限。

将所述初始判决策略反馈至所述强化学习模型中。其中，强化学习模型中包含了反馈的初始判决策略后，相当于在一定判决结果的基础上进行更深入的学习，这样可以更准确的指导动作选择，不会再有更多的试错，最终所获得的奖励函数也越大。

上述实施例所述的一种超高速低真空管道飞行器越区切换方法，较佳的，如图2所示，获取判决输入具体包括：

步骤101，获取移动端当前的位置信息P_t和速度信息V_t；其中，移动端的自身位置(Position,P)以及速度(Velocity,V)可以通过移动端自身所具体的定位测速装置获得，在运行过程中周期性地采集位置信息以及速度信息，并通过无线通信系统将定位测速装置采集的位置信息以及速度信息上报给智能体。较佳的，根据飞行器的运行速度，周期性采集位置信息以及速度信息，采样周期根据需求而定，在本发明实施例中将采样周期设置为2s，即每2s采集一次位置信息以及速度信息。

步骤102，对所述位置信息和速度信息分别进行离散化处理以生成第一初始状态。具体的，对于位置信息P_t，由移动端自身所具体的定位测速装置采集获得后，根据状态空间有限的要求，需要对位置信息进行离散化处理以符合强化学习模型的要求。在本发明实施例中，已知单个无线电基站的覆盖范围为1km，飞行器在1000km/h时速下通过单个无线电基站所覆盖的小区的最短时间为3.6s，完成越区切换的最大容忍时间为50ms，根据上述倍数关系，对位置信息在单个小区1km的覆盖范围内，按照20m精度进行均匀离散化能够保证需求，因此位置信息共有50个量化等级。

对于速度信息V_t，由移动端自身所具体的定位测速装置采集获得后，根据状态空间有限的要求，同样需要对速度信息进行离散化以符合强化学习模型的要求。已知超高速低真空管道飞行器的速度为[0,1000]km/h，可以对速度按照不同等级进行离散化，量化区间及等级如表1所示。例如，量化等级5所对应的速度区间为(700,1000]km/h，其相对的速度等级为超高速。

表1速度量化区间

速度(km/h)	[0,100]	(100,300]	(300,500]	(500,700]	(700,1000]
						速度等级	低速	中低速	中速	高速	超高速
量化等级	1	2	3	4	5

步骤103，获取服务固定端的接收信号强度信息，并对所述接收信号强度信息进行离散化处理以生成第二初始状态；所述服务固定端RBS₁为当前与所述移动端已建立连接的固定端，例如可以是与超高速列车当前已建立通信连接的无线电基站；本发明实施例中，第二初始状态就是无线电基站的接收信号强度(Receive Signal Strength,RSS)。较佳的，所述采样周期与采集位置信息以及速度信息的周期一致，在本发明实施例中均以2s作为采样周期。

对于接收信号强度RSS_t，由服务固定端RBS₁获得，即已建立无线连接的无线电基站获得。根据状态空间有限的要求，同样需要对其进行离散化以符合强化学习模型的要求。已知信道条件最优且飞行器距离已建立无线连接的无线电基站最近时，可得到的接收信号强度约为-85dBm，而无线电基站能够进行覆盖的最远处接收信号强度约为-110dBm，因此接收信号强度区间为[-110,-85]dBm。根据运动轨迹可知，接收信号强度随着飞行器的超高速移动在RBS覆盖范围内的变化是非线性的，距离RBS越近、接收信号强度变化越剧烈，可以根据上述规则对接收信号强度进行离散化，量化区间及等级如表2所示。其中，接收信号强度RSS_t位于[-110,-100]之间时，其量化等级为1级，随着接收信号强度的增强，量化等级也越来越高，当接收信号强度RSS_t位于(-87,-85]之间时，其量化等级也为最高级5级。

表2接收信号强度量化区间

信号强度(dBm)	[-110,-100]	(-100,-95]	(-95,-90]	(-90,-87]	(-87,-85]
						量化等级	1	2	3	4	5

步骤104，根据第一初始状态以及第二初始状态生成判决输入。具体的，对于当前采样时刻t_n，可以获取离散化后的判决输入，即第一初始状态与第二初始状态的集合S为：

S＝{P_t，V_t，RSS_t}，t＝t_n

根据上述离散化后的判决输入，可得到强化学习模型中状态空间的大小，即第一初始状态与第二初始状态的集合S＝{50×5×5}，表示此模型下有1250个判决输入。

本发明实施例所述的一种超高速低真空管道飞行器越区切换方法，较佳的，确定动作选择前，所述方法还包括：

生成位于[0,1]区间内的随机数ρ；

判断所述随机数ρ与探索程度ε的大小；

当所述随机数ρ大于探索程度ε，则执行当前判决输入下的动作选择；

当所述随机数ρ小于探索程度ε，则随机执行所述动作选择。

具体的实施例中，为了保持探索与利用的平衡，采用ε-greedy策略进行动作选择，该策略表示在每次进行动作选择前生成一个位于[0,1]区间内的随机数ρ，当随机数ρ小于探索程度ε时，随机选择动作，即从所有动作选择中随机选择一个来执行。当随机数ρ大于探索程度ε时，可以利用当前的最优判决策略进行动作选择，即基于现有的强化学习模型，选择根据当前判决输入下所获得的动作选择以实现探索与利用的平衡，使得智能体Agent既能利用当前已经学习到的最优策略，又尽可能去探索更多的动作。较佳的，由于此模型中的动作空间较小，探索的程度不用太深，ε范围可以在(0,0.3]之间进行选择，具体的，本发明实施例中将探索程度ε设置为0.2。因此，动作选择的模型α_t为：

这样，当每次采样完成后，将移动端的位置信息P_t、速度信息V_t、服务固定端的接收信号强度等信息上报至智能体，作为强化学习模型开始每次进行动作选择的触发事件。上述初始状态参数按照既定规则进行离散化后写入强化学习模型中，将离散化后的初始状态参数作为判决输入，根据ε-greedy策略选择当前时刻是否需要执行越区切换，并将状态-动作对更新到数据表格中。

本发明实施例所述的一种超高速低真空管道飞行器越区切换方法，较佳的，执行所述动作选择具体包括：

具体的，不同的动作选择结果会导致不同的越区切换流程。由于在本发明实施例中只包含两种动作选择，即执行越区切换和不执行越区切换，因此对不同的动作选择分别进行不同的动作选择以执行越区切换或者暂不执行越区切换。

在本发明实施例中，如果动作选择为执行越区切换(1)，则智能体向目标固定端RBS₂发送资源预留指令，所述资源预留指令用于通知目标固定端RBS₂为接下来要进行通信连接的移动端预留信道资源，以便目标固定端RBS₂提前准备预留信道资源。随后，向所述目标固定端RBS₂发送连接请求，当目标固定端RBS₂接收到所述连接请求后，直接对该连接请求进行快速响应并快速实现越区切换，因此，本发明实施例中，在执行越区切换时直接通过该预留信道资源进行通信连接，实现快速响应。

本发明实施例所述的一种超高速低真空管道飞行器越区切换方法，较佳的，当确定所述动作选择为不执行越区切换(0)时，所述智能体不会向目标固定端发送资源预留指令，因此目标固定端也不会预留信道资源，后续需要执行所述越区切换时，所述方法类似于现有技术。具体的，在这种情况下，所述方法还包括：向目标固定端发送连接请求，并由所述目标固定端根据所述连接请求判断是否向移动端提供信道资源以执行越区切换。

具体实施例中，如果动作选择为不执行越区切换(0)，则智能体不向目标固定端RBS₂发送任何指令。后续当需要执行越区切换时，例如，当移动端到达小区的重叠覆盖区段或外界发送执行越区切换的指令时，此时必须执行越区切换流程，因此智能体直接向目标固定端RBS₂发送连接请求，RBS₂对当前资源使用情况进行分析，即判断当前该目标固定端RBS₂所占用的无线信道资源，再判断是否向移动端提供信道资源，而上述过程会大大增加越区切换的执行时间。具体的，如果判断后无线信道资源处于饱和状态，则不再提供信道资源。所述移动端周期性的发送接入请求，直至接入目标固定端RBS₂。

本发明实施例所述的一种超高速低真空管道飞行器越区切换方法，较佳的，对所述强化学习模型进行迭代具体包括：

获取判决策略并对所述判决策略进行优化以实现最优策略，所述判决策略为所述判决输入到动作选择的映射，即π：S→A，所述最优策略为积累回报值最大。具体而言，学习判决策略就是需要不断优化判决策略使其达到最优，在最优策略下，智能体在任一时刻和任一状态下都能获得最大的累积奖励信号，即积累回报值最大。由于期望值是长期积累的过程，其目的是为了保证对判决策略训练的次数更多，并使得积累奖励信号的期望值最大时所训练的模型最准确。

根据累积回报值获取积累奖励信号的期望值，可以通过不断迭代去学习最优策略，获得每个状态下的最大累积奖励信号。具体而言，智能体从某个状态开始长期的累积奖励信号的期望值V^π(s)通过状态值函数表示为：

其中，γ是折扣系数，R为每个状态-动作对下的回报值，用来减少未来奖励信号对当前动作的影响，本发明将折扣系数设置为0.9。同时为了保证模型训练地更加准确，对于每一次奖励信号进行期望值计算，随着迭代次数的增加，训练整个模型的目的是使得奖励信号的期望值最大。

整个强化学习模型的最终目标是使得智能体在任一时刻和任一状态下都能获得最大的长期累积奖励信号。

本发明另一实施例所提供的一种超高速低真空管道飞行器越区切换方法的信令交互流程，如图3所示，其中需要移动端(即超高速低真空管道飞行器)、服务基站(即已建立连接的服务基站)、目标基站(即下一个接入的服务基站)和控制单元配合执行整个越区切换流程，每一时刻执行的具体内容如下：

(1)T1时刻：信息采样，移动端通过服务基站将位置信息、速度信息、信号信息(接收信号强度)上报给控制单元；

(2)T2时刻：控制单元开始执行基于强化学习的切换判决，首先对上报的位置信息、速度信息、信号信息进行离散化处理，然后根据ε-greedy策略进行动作选择，如果选择动作(1)则向目标基站发送资源预留指令，以便目标基站预留资源；如果选择动作(0)则不发送任何指令；

(3)T3时刻：移动端到达小区的重叠覆盖区段，产生切换需求，移动端向目标基站发送连接请求，由目标基站进行资源分配并向移动端发送确认连接的信息，以便快速响应连接请求并提供信道资源；同时，当前服务基站释放通信连接；

(4)T4时刻：移动端和目标基站建立新的通信连接，双方进行数据传输，至此越区切换完成；

(5)T5时刻：目标基站进行信息采集，将此次完成越区切换的时间(从收到连接请求到开始传输数据)上报给控制单元，控制单元根据越区切换时间计算本次动作的奖励函数，并更新模型及强化学习判决策略。

本发明实施例还提供一种超高速低真空管道飞行器越区切换装置，如图4所示，包括：

第一获取单元401，用于获取判决输入；所述判决输入包括：移动端的第一初始状态以及固定端的第二初始状态；

动作选择单元402，用于基于强化学习模型，确定在所述判决输入下的动作选择并执行所述动作选择；所述动作选择包括：执行越区切换以及不执行越区切换；

第一学习单元403，用于获取评价所述动作选择的奖励函数，并将所述奖励函数反馈至所述强化学习模型中以对所述强化学习模型进行迭代，所述奖励函数为下一次执行越区切换所需时间的效用函数，所述迭代包括：更新奖励信号并学习判决策略。

本发明实施例提供一种超高速低真空管道飞行器越区切换系统，包括：

所述控制单元用于执行如上任意一项实施例所述的越区切换方法。

具体的，如图5所示，为越区切换强化学习模型的映射，上述系统的工作过程依据图5所示的映射实现。其中，移动端501提供位置信息以及速度信息至控制单元503，同时服务固定端5021提供接收信号强度至控制单元503，所述控制单元503对上述信息进行离散化处理后以进行切换判决，进而确定动作选择，当动作选择为执行越区切换(1)时，向目标固定端5022分别发送资源预留指令以及连接请求，以便进行越区切换。随后向控制单元反馈奖励函数，并将所述奖励函数反馈至所述强化学习模型中以对所述强化学习模型进行迭代，例如更新数据以及更新模型。

本发明一实施例中，如图6所示，还提供一种计算机设备，计算机设备602可以包括一个或多个处理器604，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备602还可以包括任何存储器606，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器606可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留，存储器606上存储有可在处理器604上运行的计算机程序，处理器604执行计算机程序时实现前述任一实施例所述的超高速低真空管道飞行器越区切换方法。进一步地，任何存储器可以表示计算机设备602的固定或可移除部件。在一种情况下，当处理器604执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备602可以执行相关联指令的任一操作。计算机设备602还包括用于与任何存储器交互的一个或多个驱动机构608，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备602还可以包括输入/输出模块610(I/O)，其用于接收各种输入(经由输入设备612)和用于提供各种输出(经由输出设备614))。一个具体输出机构可以包括呈现设备616和相关联的图形用户接口(GUI)618。在其他实施例中，还可以不包括输入/输出模块610(I/O)、输入设备612以及输出设备614，仅作为网络中的一台计算机设备。计算机设备602还可以包括一个或多个网络接口620，其用于经由一个或多个通信链路622与其他设备交换数据。一个或多个通信总线624将上文所描述的部件耦合在一起。

通信链路622可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路622可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现上述任一项实施例所述的一种超高速低真空管道飞行器越区切换方法。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行上述任一实例所述的一种超高速低真空管道飞行器越区切换方法。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

还应理解，在本发明实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种超高速低真空管道飞行器越区切换方法，其特征在于，包括：

2.根据权利要求1所述的一种超高速低真空管道飞行器越区切换方法，其特征在于，还包括：

将所述初始判决策略反馈至所述强化学习模型中。

3.根据权利要求1所述的一种超高速低真空管道飞行器越区切换方法，其特征在于，获取判决输入具体包括：

获取移动端当前的位置信息和速度信息；

根据第一初始状态以及第二初始状态生成判决输入。

4.根据权利要求1所述的一种超高速低真空管道飞行器越区切换方法，其特征在于，确定动作选择前，所述方法还包括：

生成位于[0,1]区间内的随机数ρ；

判断所述随机数ρ与探索程度ε的大小；

当所述随机数ρ小于探索程度ε，则随机执行所述动作选择。

5.根据权利要求1所述的一种超高速低真空管道飞行器越区切换方法，其特征在于，执行所述动作选择具体包括：

6.根据权利要求1所述的一种超高速低真空管道飞行器越区切换方法，其特征在于，当确定所述动作选择为不执行越区切换，但当需要执行所述越区切换时，所述方法还包括：

7.根据权利要求1所述的一种超高速低真空管道飞行器越区切换方法，其特征在于，对所述强化学习模型进行迭代具体包括：

根据积累回报值获取积累奖励信号的期望值。

8.一种超高速低真空管道飞行器越区切换装置，其特征在于，包括：

9.一种超高速低真空管道飞行器越区切换系统，其特征在于，包括：

所述控制单元用于执行如权利要求1至7任意一项所述的越区切换方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的一种超高速低真空管道飞行器越区切换方法。