CN109068350B

CN109068350B - 一种无线异构网络的终端自主选网系统及方法

Info

Publication number: CN109068350B
Application number: CN201810929722.3A
Authority: CN
Inventors: 杨春刚; 王玲霞; 王昕伟; 李建东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2021-09-28
Anticipated expiration: 2038-08-15
Also published as: CN109068350A

Abstract

本发明属于无线通信技术领域，公开了一种无线异构网络的终端自主选网系统及方法，终端利用ANDSF检测并获取服务节点信息，组成终端的服务节点列表；终端利用导频信号测量和载波侦听获取服务节点列表中各节点的RMI；终端触发特征学习器，将测量的各节点RMI输入到特征学习器，输出为各节点链路质量的评估值；终端利用802.11u标准和ANDSF获取服务节点列表中各节点的负载信息；终端触发策略学习器，将获得的各节点链路质量评估值和负载信息输入到策略学习器，输出为终端选择接入节点；终端记录选择的节点，更新和记录选网收益。本发明克服了采用服务器辅助或网络辅助造成额外信令开销和延时的不足。

Description

一种无线异构网络的终端自主选网系统及方法

技术领域

本发明属于无线通信技术领域，尤其涉及一种无线异构网络的终端自主选网系统及方法。

背景技术

目前，业内常用的现有技术是这样的：随着通信技术的不断发展，无线网络异构特征日益显现，第五代移动通信网络异构共存且融合的特性愈加明显。无线异构网络的目标是使异构RAT充分发挥各自优势且互补长短，从而让用户随时随地利用现有的具有异构特征的网络进行高质量的无线通信，达到最佳的用户体验。然而，不同RAT技术的接入方式、通信能力、业务支撑等方面均有差异。因此，如何选择最优的网络接入，是目前相关工程和科研领域的热点问题之一。目前的网络选择通常是基于信号强度、RTT、卡顿等因素的方法，依据人为经验调整各参量的权重值和门限值，以期望实现更优的网络切换。然而，人为经验的设定是固定且局限的，无法满足不同场景不同用户的不同需求。造成部分用户体验差。当用户接收到的来自服务节点的信号强度相近时，由于信道时变性，来自不同服务节点的信号强度可能时高时低，从而造成用户在不同服务节点的频繁切换，造成切换时延长且浪费网络资源。同时，基于信号强度进行网络选择存在固有的不准确性，这是因为信号强度不足以表征真实的链路质量，链路质量取决于包括信号强度在内的多个RMI，如信干噪比(Signalto Interference plus Noise Ratio,SINR)、参考信号接收功率(Reference SignalReceiving Power，RSRP)、参考信号接收质量(Reference Signal Receiving Quality，RSRQ)、接收信号强度指示(Received Signal Strength Indicator，RSSI)、往返时延(Round-Trip Time，RTT)、误比特率(Bit Error Rate,BER)等。此外，由于无法具体测量待切换网络的网络情况，只能通过参考信号之类的广播信息进行测量，造成用户体验差，切换后效果不可预知。因此，如何突破人为经验的局限性，吸收不同用户的习惯和经验，实现针对特定场景、特定用户、特定需求的个性化选网是拟解决的问题之一。此外，如何精准评估链路质量和保障切换效果以提升用户体验也是拟解决的问题之一。随着智能化浪潮的发展及各大产业规模的稳步增长，智能化被认为是当前无线通信低迷和徘徊不前的爆发点、拐点和超级引擎，也是第五代移动通信网络的关键的特征之一。而终端智能是智能化发展的先驱载体，是下一代移动终端的商业先机。由于数据隐私、延时性和可靠性的驱动，将智能处理能力从云端下放到终端已成为一大趋势。在2017年后期，麒麟970作为全球第一款集成NPU神经网络单元的移动芯片问世，意味着在终端运行智能任务很快会成为可能，苹果发布了iPhone X和A11芯片，华为Mate 10作为国产手机的智能担当问世，三星、谷歌、高通、联发科等陆续发布了智能终端方案，均表示2019年正式向市场推出5G商用智能终端。目前，各终端厂商极力推进和落实终端智能，谁最快开发出领先的智能终端，谁就可能获得下一代移动终端的商业先机。因此，终端不再完全依赖网络、实现从被动到主动地自主智能选网是迫在眉睫的拟解决问题之一。现有技术一公开一种面向异构网络环境的多模终端智能选择方法。该方法的具体步骤是：首先，终端在进行业务时，采集所述业务的相关网络参数，并向服务器发送业务请求和网络参数，同时监听服务器回发的网络选择结果。其次，服务器接收到业务请求后，对网络参数进行解析，分析出最优网络，并将网络选择结果反馈给终端。最后，终端接收到网络选择结果后，接入网络执行业务。该方法存在的不足之处是：首先，该方法不适合提供高度实时的通信服务，这是因为该方法的实现思路是服务器辅助终端的网络选择，分析和决策均在服务器端进行，因此，从终端到服务器端，再从服务器端返回终端的过程会存在明显的延时的情况。其次，该方法本质不是完全的终端智能，这是因为该方法中终端的作用仅是实现更快更丰富地数据采集，而数据处理和决策等均在服务器端完成。现有技术二公开一种5G超密集蜂窝网络中基于模糊逻辑的多RAT选择/切换的方法。该方法的具体步骤是：第一步，特定触发事件触发RAT选择。第二步，终端通过本地ANDSF收集候选节点的负载信息。第三步，终端测量候选节点的接收信号强度并更新其移动行为信息。第四步，终端根据RAT选择算法评估可用RAT的合适度，选择第一RAT执行接入控制或切换过程，如果切换成功，结束本次网络选择，否则，选择候选列表中的第二RAT，以此类推，直至切换成功。该方法存在的不足之处是：该方法存在的节点好效果差的现象会造成用户体验差。这是因为该方法中未考虑5G超密集蜂窝场景具有的终端并发接入对性能影响的特点，终端获取的负载信息是该终端接入前节点的负载，某终端结合节点负载和信号强度选择某个节点后，若与该终端在同一时刻同时接入该节点的还有其它多个终端，则会造成接入前该终端判断该节点可以提供好的服务，而接入后由于节点瞬间拥塞造成该终端的用户体验差。

综上所述，现有技术存在的问题是：

(1)现有技术一不适合提供高度实时的通信服务，且本质没有实现完全的终端智能。该方法中智能终端的功能与现有普通终端的功能一样，仅停留在数据收集方面，而数据处理和决策等均在服务器端完成，因此没有实现完全的终端智能。进一步的，由于分析和决策均在服务器端进行，从终端到服务器端，再从服务器端返回终端的过程会存在明显的延时情况，导致该方法不适用于对时延有要求的通信服务。

(2)现有技术二存在的节点好效果差的现象会造成用户体验差。该方法中未考虑5G超密集蜂窝场景具有的终端并发接入对性能影响的特点，终端获取的负载信息是该终端接入前节点的负载，某终端结合节点负载和信号强度选择某个节点后，若与该终端在同一时刻同时接入该节点的还有其它多个终端，则会造成接入前该终端判断该节点可以提供好的服务，而接入后由于节点瞬间拥塞造成该终端的用户体验差。

解决上述技术问题的难度和意义：

(1)如何结合终端自身的能力，考虑将智能处理和分析功能从云端下放到终端，实现终端自学习、自处理、自决策的完全终端智能，是难点之一。解决该难点对终端的发展、网络的演进、以及智能化的推动具有重要意义。

(2)如何结合5G超密集蜂窝场景的特点，降低多个终端并发性接入同一节点的概率，是难点之一。解决该难点使所提方法更嵌合5G超密集蜂窝场景且在5G超密集蜂窝网络中发挥更优性能具有重要意义。

发明内容

针对现有技术存在的问题，本发明提供了一种无线异构网络的终端自主选网系统及方法。

本发明是这样实现的，一种无线异构网络的终端自主选网方法，所述无线异构网络的终端自主选网方法包括：终端利用ANDSF检测并获取服务节点信息，组成终端的服务节点列表；终端利用导频信号测量和载波侦听获取服务节点列表中各节点的RMI；终端触发特征学习器，将测量的各节点邻近节点的接收参数RMI输入到特征学习器，输出为各节点链路质量的评估值；终端利用802.11u标准和ANDSF获取服务节点列表中各节点的负载信息；终端触发策略学习器，将获得的各节点链路质量评估值和负载信息输入到策略学习器，输出为终端选择接入的节点；终端记录选择的节点，更新和记录选网收益。

进一步，所述终端的服务节点列表通过ANDSF获取列表如下：

List_i(t)＝[1,2,...,j,...N]；

其中，List_i(t)表示第i个终端在t时刻的服务节点列表，j表示第j个节点。

进一步，所述终端获取相关RMI的方式包括：通过导频信号测量LTE节点的相关RMI，通过载波侦听获取WIFI节点的相关RMI，具体RMI如下：

RMI_i(t)＝{x₁,x₂,...,x_d,...,x_D}；

其中，RMI_i(t)表示第i个终端在t时刻由D维特征空间组成的元组，D表示RMI的种类个数，x_d表示D维特征空间中的第d维特征向量，

由第i个终端List_i(t)中的不同节点的同一特征组成，

和

分别表示第i个终端测量的第k个节点和第j个节点的RSRP值。

进一步，所述终端触发特征学习器包括定期触发或业务触发，定期触发即终端以大于80ms的间隔触发网络选择流程，业务触发即用户主动发起业务时触发网络选择流程。

进一步，所述输出的链路质量评估值为：

其中，

表示第i个终端在t时刻评估List_i(t)中所有节点的链路质量列表，f_i表示第i个终端的特征学习器。

进一步，所述特征学习器f_i由机器学习中有监督学习算法实现，第i个终端搜集和存储历史

和RMI_i数据，利用有监督学习算法线下生成特征学习器f_i，线上直接使用生成的特征学习器f_i输出链路质量评估列表。

进一步，所述终端获取节点负载的方式包括：通过802.11u标准和ANDSF获取节点负载，负载列表如下：

其中，

表示第i个终端在t时刻获得List_i(t)中所有节点的负载列表，n_j表示第j个节点的负载。

进一步，所述终端触发策略学习器是指当特征学习器有输出时则触发策略学习器，即特征学习器输出链路质量列表，该列表触发策略学习器并作为策略学习器的输入；

所述终端选择接入的节点如下：

其中，a_i(t)表示第i个终端在t时刻选择接入的节点，f_i′表示第i个终端的策略学习器；

所述策略学习器由博弈论结合机器学习中强化学习算法实现，通过博弈论将多智能体网络选择问题建模成一个非合作博弈，再结合强化学习算法如Q学习及其衍生方法等，生成策略学习器，具备线上学习线上使用的特点，用于快速生成最优选网策略；第i个终端的策略学习器f_i′是通过线上与网络环境的不断交互进行学习，学习不同网络环境下对应的最优选网策略；

所述终端更新和记录选网收益是指终端根据执行网络接入后获得的接入节点反馈的吞吐量值更新和记录选网收益。

本发明的另一目的在于提供一种实现所述无线异构网络的终端自主选网方法的无线异构网络的终端自主选网系统，所述无线异构网络的终端自主选网系统包括：

特征学习层，包括特征学习器，特征学习器由机器学习中有监督学习算法实现；用于学习和挖掘网络参数间隐含的复杂非线性关系；

博弈建模层，包括建模分析器，建模分析器基于博弈论实现；用于建模和分析多智能体网络选择问题；

策略学习层，包括策略学习器，策略学习器由机器学习中强化学习算法实现；用于快速生成最优选网策略。

本发明的另一目的在于提供一种应用所述无线异构网络的终端自主选网方法的移动通信系统。

综上所述，本发明的优点及积极效果为：本发明基于机器学习和博弈论，精准评估了链路质量，有效避免了并发性冲突，保障了切换效果和增益，降低了终端频繁切换次数及切换时延、提高了用户吞吐量和资源利用率，针对不同终端的个性化服务改善了用户服务质量。本发明旨在解决第五代移动通信系统下多RAT异构共存、选网复杂等问题。

本发明采用特征学习、博弈建模和策略学习的选网架构，实现线下线上相结合的终端智能自主选网方法，克服现有技术未考虑通信实时性和机器学习耗时性的矛盾，使得本发明可实现精准快速高效地网络选择。本发明采用多参数联合挖掘的方式，结合机器学习方法深层学习网络参数间非线性且复杂的关系，进而精准评估链路质量，克服了现有技术中仅依据信号强度进行选网和网络参数间关系刻画不准确的不足，使得本发明有效提升选网策略的准确性，降低切换时延和频繁切换次数。

本发明采用802.11中DCF机制的思想，通过二进制指数回退策略降低了多个终端并发性接入某一节点的概率，克服了现有技术中未考虑并发性接入造成好节点差效果的不足，使得本发明在保证复杂性可管理的情况下，实现最优的选网方案。本发明采用博弈论建模和分析多RAT异构网络中终端选网问题，以保证在线策略学习的收敛性且指导在线策略学习快速收敛于最优，克服了现有技术中收敛性无法保证、收敛速度慢和切换效果无法保证的不足，使得本发明理论可指导、均衡可分析、结果可解释。

本发明根据终端获得的RSRP、SINR、RSRQ、RSRI、负载等信息，实现终端自主选网，克服了现有技术中采用服务器辅助或网络辅助造成额外信令开销和延时的不足，使得本发明最大化发挥终端的主动性，有效实现自学习、自决策和自优化的完全终端智能。

附图说明

图1是本发明实施例提供的无线异构网络的终端自主选网系统结构示意图；

图中：1、特征学习层；2、博弈建模层；3、策略学习层。

图2是本发明实施例提供的无线异构网络的终端自主选网方法流程图。

图3是本发明实施例提供的无线异构网络的终端自主选网方法实现流程图。

图4是本发明实施例提供的基于LTE-WIFI异构网络场景示意图。

图5是本发明实施例提供的触发策略学习器步骤的算法图。

图6是本发明实施例提供的终端选网策略仿真图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明根据终端通过测量侦听或交互获取的邻近节点的接收参数(ReceivedMetrics Indictor，RMI)和负载等，基于机器学习和博弈论，实现终端自主选网方法，有效降低了终端频繁切换次数及切换时延、提高了用户吞吐量和资源利用率，针对不同终端的个性化服务改善了用户服务质量。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的无线异构网络的终端自主选网系统包括有三层结构，由左至右分别是特征学习层1、博弈建模层2以及策略学习层3，在这种架构下，终端基于博弈论和机器学习可实现智能化个性化网络选择。

特征学习层1主要包括特征学习器，特征学习器由机器学习中有监督学习算法实现，如决策树及其衍生方法等，具备线下学习线上使用的特点，用于学习和挖掘网络参数间隐含的复杂非线性关系，如学习信道状态、业务状态、干扰状态、移动状态等。

博弈建模层2，主要包括建模分析器，建模分析器基于博弈论实现，用于建模和分析多智能体网络选择问题。

策略学习层3，主要包括策略学习器，策略学习器由机器学习中强化学习算法实现，如Q学习及其衍生方法等，具备线上学习线上使用的特点，用于快速生成最优选网策略。

特征学习器用于辅助策略学习器实现更精准的决策，如特征学习器精准挖掘网络态势。建模分析器用于指导策略学习器实现更快速的决策，如博弈指导收敛均衡。策略学习器基于特征学习器和建模分析器提供的信息，精准快速地生成最优选网策略。所提线上线下结合博弈论的架构是模型化的学习架构，具备以下优势：克服现有技术中通过海量数据解决问题面临无法标准化和产品化的挑战，以及克服现有技术中未考虑通信实时性和机器学习耗时性的挑战。

如图2所示，本发明实施例提供的无线异构网络的终端自主选网方法包括以下步骤：

S101：终端检测可提供服务的节点：终端利用ANDSF检测并获取服务节点信息，包括LTE节点、WIFI节点、WiMAX节点等，组成终端的服务节点列表；

S102：终端获取相关RMI：终端利用导频信号测量和载波侦听获取服务节点列表中各节点的RMI，包括RSRP、RSRQ、RSSI、SINR等参数；

S103：终端触发特征学习器：终端触发特征学习器，将测量的各节点RMI输入到特征学习器，输出为各节点链路质量的评估值；

S104：终端获取相关负载信息：终端利用802.11u标准和ANDSF获取服务节点列表中各节点的负载信息；

S105：终端触发策略学习器：终端触发策略学习器，将获得的各节点链路质量评估值和负载信息输入到策略学习器，输出为终端选择接入的节点；

S106：终端更新和记录选网收益：终端记录选择的节点，更新和记录选网收益。

下面结合附图对本发明的应用原理作进一步的描述。

如图3所示，本发明实施例提供的无线异构网络的终端自主选网方法具体包括以下步骤：

本发明的应用场景为多RAT异构网络，实施例基于LTE-WIFI异构网络场景说明。LTE-WIFI异构网络的场景示意图参照图4。图4包含4个节点和4个用户，节点包含2个LTE节点和2个WIFI节点，用户随机分布在节点周围。图中的虚线表示终端可接收来自该节点的信号。例如，终端0可接收来自节点0、节点1和节点2的信号，即[节点0、节点1、节点2]是终端0的服务节点列表，终端0从该服务节点列表中选择最优的节点。相似地，[节点1、节点2、节点3]是终端1的服务节点列表，终端1从该服务节点中选择最优的节点。终端2和终端3与其对应的节点的情形类似。需要说明的是本发明不局限于当前示意图中的LTE-WIFI网络场景、节点数量以及终端数量。

步骤一，终端检测可提供服务的节点。

ANDSF被用于获得可提供服务的节点列表，ANDSF是由3GPP组织提出的一个选网策略单元，部署在蜂窝网的核心网中，通过S14接口与终端通信。ANDSF可以为终端提供可用节点；列表信息，包括LTE节点、WIFI节点、WIMAX节点等。终端与ANDSF通过push(推)或pull(拉)的方式通信。终端的服务节点列表表示如下：

List_i(t)＝[1,2,...,j,...N]；

步骤二，终端获取相关RMI。

终端通过导频信号测量LTE节点的相关RMI信息，通过载波侦听获取WIFI节点的相关RMI，RMI包括RSRP、RSRQ、RSSI、SINR等参数，表示如下：

RMI_i(t)＝{x₁,x₂,...,x_d,...,x_D}；

由第i个终端List_i(t)中的不同节点的同一特征组成，例如，

和

可以分别表示第i个终端测量的第k个节点和第j个节点的RSRP值。

步骤三，终端触发特征学习器。

终端触发特征学习器的方式包括定期触发或业务触发，定期触发即终端以大于80ms的间隔触发网络选择流程，业务触发即当用户主动发起业务时触发网络选择流程。当触发特征学习器后，将测量的RMI_i输入到特征学习器，输出为各节点链路质量的评估值，表示如下：

其中，

表示第i个终端在t时刻评估List_i(t)中所有节点的链路质量列表，f_i表示第i个终端的特征学习器。特征学习器f_i由机器学习中有监督学习算法实现，如决策树及其衍生方法等，具备线下学习线上使用的特点，用于学习和挖掘网络参数间隐含的复杂非线性关系，如学习信道状态、业务状态、干扰状态、移动状态等。其中，第i个终端搜集和存储历史

步骤四，终端获取相关负载信息。

802.11u标准和ANDSF被用于获取节点负载信息。WIFI Alliance(WIFI联盟)基于802.11u提出了Hotspot 2.0标准(即认证控制点技术Passpoint)，允许终端利用SIM卡或其它证书自动完成认证直接上网。Hotspot 2.0提供了向终端告知如节点负载、漫游等信息的通信方式，而且不需要终端和节点发生联系。ANDSF和Hotspots 2.0的协作和结合，充分发挥了二者的互补性，允许终端在不同RAT间无缝通信。终端获取负载信息如下：

其中，

步骤五，终端触发策略学习器。

终端触发策略学习器是指当特征学习器有输出时则触发策略学习器，策略学习器由博弈论结合机器学习中强化学习算法实现，通过博弈论将多智能体网络选择问题建模成一个非合作博弈，再结合强化学习算法如Q学习及其衍生方法等，进而生成策略学习器，具备线上学习线上使用的特点，用于快速生成最优选网策略。将

和

输入到策略学习器，输出为终端选择接入的节点如下：

其中，a_i(t)表示第i个终端在t时刻选择接入的节点，f_i′表示第i个终端的策略学习器，第i个终端的策略学习器f_i′是通过线上与网络环境的不断交互进行学习，学习不同网络环境下对应的最优选网策略。

如图5所示，以Q学习为例，本发明具体实施过程如下：

第一步，t＝0时，第i个终端初始化选网收益表Q_i为空，初始化并发次数m_i＝0，t≠0时，第i个终端获取记录的选网收益表Q_i，获取记录的并发次数m_i，记录当前状态

其中，Q_i是行为s_i列为a_i的二维矩阵，在线上学习和使用的过程中，第i个终端不断记录和更新选网收益表Q_i和并发次数m_i。

第二步，判断并发性接入概率是否满足如下条件：

其中，并发性接入概率

基于802.11中DCF机制的二进制指数回退策略设计，p∈(0,1)，m_i表示第i个终端的并发次数，由第i个终端观察并记录，

表示任意产生的随机数。若满足上述条件，执行第3步，否则，记录a_i(t)＝a_i(t-1)，记录节点反馈的立即回报R_i(t)，更新并记录状态

第三步，通过ε贪婪算法选择选网策略a_i(t)，ε贪婪算法如下：

其中，ε∈(0,1)表示探索率，

表示第i个终端在状态s_i(t)下选取List_i(t)中具有最大Q_i的选网策略，P(List_i(t))表示在List_i(t)中的概率分布。

第四步，第i个终端执行选网策略a_i(t)后，获取节点反馈的立即回报R_i(t)，更新状态s_i′(t)。其中，R_i(t)为第i个终端在t时刻执行a_i(t)后从节点中获得的吞吐量值。

第五步，判断是否存在并发，其中判断并发的方法是计算用户执行a_i(t)之前该节点的负载和执行a_i(t)之后该节点的负载的差值，若差值小于等于1，即没有并发，执行第七步，否则，存在并发，执行第六步。

第六步，并发次数m_i＝m_i+1。

第七步，并发次数m_i＝0。

第八步，判断立即回报R_i(t)是否大于R_i(t-1)，若是，执行第九步，否则，记录R_i(t)＝0，记录状态s_i′(t)。其中，R_i(t-1)为第i个终端在t-1时刻执行a_i(t-1)后从节点获得的吞吐量值，a_i(t-1)为第i个终端在t-1时刻执行的选网策略。

第九步，判断a_i(t)的节点类型与a_i(t-1)的节点类型是否一致，若是，则执行第十步，否则，执行第十一步。其中，节点类型包括LTE型和WIFI型。

第十步，记录R_i(t)＝R_i(t)，记录状态s_i′(t)，执行步骤六。

第十一步，判断立即回报R_i(t)是否大于上一次接入同类型节点获得的回报H_i，若是，记录R_i(t)＝R_i(t)，记录H_i＝R_i(t)，记录状态s_i′(t)，否则，记录R_i(t)＝0，记录状态s_i′(t)。其中，H_i为第i个终端的本地记录值，只有当第i个终端在t时刻获得的立即回报R_i(t)大于上一次接入同类型节点获得的回报H_i时才执行切换，该策略是利用博弈论分析网络选择问题收敛性时得到的必要条件，用来指导收敛均衡。

步骤六，终端更新和记录选网收益表Q_i。

终端记录选择接入的节点，记录和更新选网收益表Q_i，选网收益计算公式如下：

其中，α∈(0,1)表示学习速率，γ∈(0,1)表示折扣因子，a_i′(t)表示在状态s_i′(t)下的最优选网策略，

表示第i个终端从s_i(t)进入s_i′(t)后的所有可能策略中可获得最大选网收益的策略，表示未来回报。

如图6所示，对本发明的效果作进一步说明。仿真环境见表1。

表1仿真环境

基于表1的仿真参数得到终端选网策略仿真结果如图6所示。横轴是仿真时间，纵轴是终端服务节点列表，包含节点0、节点1、节点2、节点3，其中，0和2代表LTE节点，1和3代表WIFI节点。从图中可以看出，在仿真初期，算法未收敛，终端不断探索不同状态和不同节点，因此，接入不同节点的次数相差不大。随着仿真时间的增加，终端不断学习最优策略，算法逐渐收敛，因此，接入最优节点的次数逐渐增加并趋近于稳定，接入其它节点的次数逐渐减少并趋近于零。在仿真后期，终端可以长期稳定接入最优节点。但由于探索和利用的存在，用户会以0.1的概率探索其它节点，以避免塌陷局部最优，若其它节点仍然提供较差的服务，用户会重新快速收敛到最优节点。以终端0为例说明，在0-350ms之内，算法还未收敛，终端0接入4个节点的次数是相差无几的，350-1500ms之内，算法逐渐收敛，可以看出终端0接入节点1、节点2、节点3的次数减少，接入节点0的次数逐渐增多。在1500ms以后，算法稳定收敛，终端0接入节点1、节点2、节点3的次数几乎为零，且长期稳定接入节点0。从图中可以看出终端0会偶尔接入其他节点，这是因为探索和利用的存在，若其它节点仍然提供较差的服务，终端0会重新快速收敛到最优节点0。该分析方法对终端1、终端2和终端3同样适用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。