CN108882377A

CN108882377A - 基于认知的lte-r中资源分配方法

Info

Publication number: CN108882377A
Application number: CN201810588568.8A
Authority: CN
Inventors: 吴澄; 盛洁; 汪鸣; 汪一鸣; 尹之杰; 尤扬
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-23
Anticipated expiration: 2038-06-08
Also published as: CN108882377B

Abstract

本发明涉及一种基于认知的LTE‑R中的资源分配算法，包括：步骤1，针对LTE‑R中吞吐量和资源块切换次数的双目标优化问题，本发明给出了一种新型的多用途状态动作集；步骤2，针对第二个探索与利用的平衡问题，本发明给出了探索方法，在与贪婪决策的方法比较的过程中，平衡探索与利用的认知基站性能更好,证明了在LTE‑R认知无线网络中对环境探索的必要性；步骤3，介绍了一个本发明实施的具体的应用场景，发现本发明算法中两个取值分别对不同优化目标的影响有各自的偏重，找出一组合适的值，使得系统的性能相比其他的取值更为优异。另外，应用场景还证明了本发明在应用到LTE‑R环境的基站中进行频谱管理的有效性。

Description

基于认知的LTE-R中资源分配方法

技术领域

本发明涉及LTE-R，特别是涉及基于认知的LTE-R中资源分配方法。

背景技术

高速铁路环境对移动通信系统提出了极高的要求，既需要保证原来高速列车运行过程中，调度信息与列车控制信息的传输，又需要为列车提供在线运行监控、在线维修检测、在线视频回传以及为旅客提供优质通信服务等。传统的GSM-R频率带宽有限，且在高速过程中不可避免的发生切换混乱、接通率低及通信中断等问题。LTE-R作为GSM-R的演进目标，由于具有传输速率高、系统容量大、网络结构平滑等诸多优点，已成为当前铁路通信系统的研究热点。然而，随着无线通信业务的不断拓展和增长，频谱资源的匮乏已成为现阶段面临的一个严峻问题，因此，有效的频谱管理对提升频谱利用率有至关重要的作用。

在频谱管理模型中，研究的一个重点是资源块分配。针对这一问题，研究普遍选取吞吐率或系统传输成功率作为一种系统性能的评判标准。但在授权用户频发的认知无线网络中，非授权用户需要进行频谱切换以避免干扰其通信，但频繁的频谱切换不仅降低自身的吞吐率，还会造成许多其他的开销，所以资源块切换次数也应是服务质量的重要评判标准。

增强学习是解决频谱感知、接入和共享问题的一种有效途径。强化学习的基本模型为其中代表环境状态空间，代表智能体的动作空间，T:s*a→s'代表当前状态下，采取动作之后得到的下一状态，R:s*a*s'→r代表在当前状态s下执行动作转移到状态s'时获得的立即回报值r。

在认知无线网络环境的资源块分配过程中应用增强学习已被证明可以提高非授权用户的成功传输率。但在具体建立增强学习模型的过程中，有两个关键问题。一是如何定义环境状态和智能体动作。复杂的状态动作集会导致计算量庞大甚至维数灾难。二是智能体如何在探索环境和开采知识之间获得平衡，选择生成问题最优解的最佳度量标准。该问题在机器学习领域已被深入研究，但在认知无线电领域中仍值得探讨。

发明内容

基于此，有必要针对上述技术问题，提供一种基于认知的LTE-R中资源分配方法，同时解决两个下述技术问题，第一个问题是在授权用户频发的环境中，如何避免过多的频谱切换对系统性能造成的危害，并提升系统的吞吐量；第二个问题是在应用强化学习到认知无线网络的过程中，如何解决探索以及利用的平衡问题。

一种基于认知的LTE-R中资源分配方法，包括：

在一个认知时隙时长Tr开始时，非授权用户向认知基站发起切换请求；

所述认知基站在收到所述切换请求后对所有资源块的性能进行信息采集；

所述认知基站在采集完信息后对资源块上授权用户的行为进行感知，执行决策阶段，判断所述非授权用户所在的当前资源块上主用户是否占用；如果占用，则进行第一步决策，即根据Q值表判断是否进行资源块切换，否则所述授权用户继续留在当前资源块；如果所述第一步决策判断要进行资源块切换，则进行第二步决策，即依据学习结果选取最优的资源块进行切换，否则所述授权用户继续留在当前资源块；

所述认知基站执行实施阶段，将决策结果反馈给认知用户；

所述认知用户从当前资源块切换至最优资源块上，并等待下一认知时隙时长到来。

上述基于认知的LTE-R中资源分配方法，可以同时解决两个以下技术问题，第一个问题是在授权用户频发的环境中，如何避免过多的频谱切换对系统性能造成的危害，并提升系统的吞吐量；第二个问题是在应用强化学习到认知无线网络的过程中，如何解决探索以及利用的平衡问题。

附图说明

图1是示出根据本发明的实施方式的认知的高速铁路移动通信(LTE-R)模型的示例图。

图2是示出根据本发明的实施方式的认知基站与非授权用户通信的一个认知时隙时长分配结构的三种不同情况。

图3是示出根据本发明的实施方式的认知基站与认知用户通信方式的操作的流程图。

图4是示出根据本发明的实施方式的授权用户状态转移的示例的图。

图5是示出根据本发明的实施方式的改进的强化学习算法的Q值状态示意图。

图6是示出根据本发明的实施方式的探索的操作的流程图。

图7(a)、(b)是示出根据本发明的实施方式的分别给定吞吐量及资源块切换次数的随变化情况的仿真曲线图。

图8(a)、(b)是示出根据本发明的实施方式的和取值分别对非授权用户吞吐量影响及资源块切换次数影响的仿真图。

图9(a)、(b)是示出根据本发明的实施方式的吞吐量以及资源块切换次数分别随时间变化的不同算法比较的仿真曲线图。

图10(a)、(b)是示出实施不同频谱管理方法后的系统吞吐量以及系统切频次数的仿真图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种基于认知的LTE-R中资源分配方法，包括：

所述认知基站执行实施阶段，将决策结果反馈给认知用户；

在另外的一个实施例中，步骤“所述认知基站在采集完信息后对资源块上授权用户的行为进行感知，执行决策阶段，判断所述非授权用户所在的当前资源块上主用户是否占用；如果占用，则进行第一步决策，即根据Q值表判断是否进行资源块切换，否则所述授权用户继续留在当前资源块；如果所述第一步决策判断要进行资源块切换，则进行第二步决策，即依据学习结果选取最优的资源块进行切换，否则所述授权用户继续留在当前资源块；”具体包括：

采用连续时间马尔科夫模型描述所述授权用户对资源块占用的情况，其到达或离开授权频谱资源后经过一段指数分布的时间后状态转移：

其中，T_busy代表授权用户转移到占用状态后经过的时间，T_busy代表其转移到空闲状态后经过的时间，均服从指数分布；λ_busy,λ_idle是指数分布参数；

将所述认知基站视作智能体，其覆盖范围视作所处的环境；状态空间S由基站正在提供服务的资源块组成：

在当前资源块上考虑第一步决策，即是否需要切换资源块提供服务；对于所述认知基站，在t时刻的观测状态为s_t：

所述认知基站在给定时间t时刻的状态下，定义其动作,有：

将switch表示为k₁，代表所述认知基站切换服务资源块，在该认知时隙时长内完成状态转移之后，等待后续认知时隙时长开始后，重新感知资源块的状态；将stay表示为k₂，代表所述认知基站无论授权用户状态如何，均在原资源块提供服务有：

定义立即回报值R，R的选取是根据所述认知基站的决策对非授权用户服务质量的影响来决定的；

计算累计回报值，所述认知基站使用Q表来累计每组状态动作组合的回报值，累计回报值的方法基于下式：

其中，s_t是基站在t时刻的服务资源块，s_t+1是转移之后的资源块，a_t代表基站采取的动，α是学习速率，r_t是立即回报值，γ，0≤γ≤1是折现因子，是未来的回报值对现在的影响程度；

根据计算得到的累计回报值做出决策，在决策过程中，智能体依据的是其所维护Q表当中的Q(s_t,a_t)，即累计回报值，智能体根据这些值来做出决策π：

Q_π(s_t，a_t)＝E_π{R_t|s_t＝RB_i，a_t＝k_t}＝E_π(∑_tγr_t|s_t＝RB_i，a_t＝k_t}

其中，E_π是在任意时刻t智能体在所处资源块RB_i上选择动作k_t可获得的立即回报值r_t。

在另外的一个实施例中，步骤“定义立即回报值R，R的选取是根据所述认知基站的决策对非授权用户服务质量的影响来决定的；”具体包括：

当所述认知基站感知到服务资源块RB_X上授权用户活跃，选择动作k₂保持在RB_X上服务，下一状态仍是RB_X，此认知时隙时长无法进行数据传输，则给予-1的惩罚值；

当所述认知基站在本时隙内没有感知到服务资源块RB_X上有授权用户活跃，则进行传输数据，状态转移后仍是RB_X；将给予当前状态RB_X下选择k₂一个+1的奖励值；

当基站在感知到服务资源块上RB_X授权用户活跃，选择动作k1，进入第二步决策后更换至资源块RB_Y提供服务，认知基站的状态转移至下一资源块RB_Y；此时所述认知基站与所述非授权用户在资源块RB_Y上重新建立连接并等待下一个时隙的开始，感知RB_Y授权用户状态；如果活跃，记作一次失败的切换，则给予-2的惩罚值；如果可以传输数据，则记作一次成功的切换，给予+1的奖励回报值。

在另外的一个实施例中，步骤“所述认知基站在采集完信息后对资源块上授权用户的行为进行感知，执行决策阶段，判断所述非授权用户所在的当前资源块上主用户是否占用；如果占用，则进行第一步决策，即根据Q值表判断是否进行资源块切换，否则所述授权用户继续留在当前资源块；如果所述第一步决策判断要进行资源块切换，则进行第二步决策，即依据学习结果选取最优的资源块进行切换，否则所述授权用户继续留在当前资源块；”中依据学习结果的方法具体如下：

对于第一步决策，即所述认知基站当前状态s_t下进行是否离开当前资源块；做出第一步决策π₁依据：

其中，ξ是一个在0-1之间服从均匀分布的随机变量，在每次决策之前随机选取，ε₁，0≤ε₁≤1是恒定的探索参数；

对于第二步决策，当认知基站选择离开当前资源块，则需选择切换目标；做出第二步决策π₂依据的是：

其中，是认知基站在所有资源块上选择k₂的累计回报值，η是一个在0-1之间服从均匀分布的随机变量，在决策之前随机选取，ε₂，0≤ε₂≤1是恒定探索参数，是包含当前资源块的所有资源块的集合。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

下面介绍本发明的一个具体应用场景：

在本发明中，授权用户与主用户是同一概念，非授权用户与认知用户是同一概念。在本发明书中，用户具有意指无线通信中的终端的宽泛概念。

在本发明中，广泛布置无线通信系统以提供各种通信服务，例如语音、视频等。无线通信系统包括用户设备和基站，或演进Node-B(eNB)。在本发明中，用户设备即为授权用户和非授权用户，基站即为认知基站。

在认知无线网络中，认知基站需要进行频谱管理来提升非授权用户的服务质量。基站在寻找频谱空洞分配给非授权用户的过程中，需要做出最好的选择，但极可能是局部最优解，从而造成非授权用户频繁的频谱切换和吞吐率的下降。针对此问题，本发明提出在LTE-R中基于两步决策与∈-greedy探索的集中式强化学习资源块分配算法。通过设计新型状态动作集，认知基站进行资源块分配的两步决策，并应用∈-greedy探索模式，解决认知基站在强化学习过程中探索环境和利用经验进行决策的平衡问题，防止决策的局部最优，提升频谱管理的性能。

图1是示出根据本发明的实施方式的认知的高速铁路移动通信模型的示例的图。

本发明实施的周期为一个认知时隙时长T_r。在一个T_r内，认知基站需在T_sensing时间内感知该资源块上是否有授权用户的存在。之后根据授权用户的占用情况，在剩余时间T_r-T_sensing内做出与非授权用户数据传输、命令其退避等待或者与其在另一个资源块上重新建立连接的动作。

图3是示出基于本发明实施方式的认知基站与认知用户通信方式的操作的流程图，具体步骤包括：

步骤1:在一个认知时隙时长T_r开始时，非授权用户向认知基站发起切换请求。

步骤2:认知基站在收到请求后对所有资源块的性能进行信息采集。其中，认知基站收集资源块的性能信息，具体地，包括用户设备的移动性，用户的服务质量(QoS)需求，路径损耗参数，延时以及相邻资源块带来的干扰等。

步骤3:认知基站在采集完信息后对资源块上授权用户的行为进行感知，执行决策阶段，判断非授权用户所在的当前资源块上主用户是否占用。

步骤4:如果占用，则进行本发明算法的第一步决策，即根据Q值表判断是否进行资源块切换，否则该授权用户继续留在当前资源块。

步骤5:如果第一步决策判断要进行资源块切换，则进行本发明算法的第二步决策，即依据学习结果选取最优的资源块进行切换，否则该授权用户继续留在当前资源块。

步骤6:认知基站执行实施阶段，将本发明算法决策结果反馈给认知用户，认知用户从当前资源块切换至最优资源块上，并等待下一认知时隙时长到来。

本发明采用连续时间马尔科夫模型描述授权用户对资源块占用的情况，其到达或离开授权频谱资源后经过一段指数分布的时间后状态转移：

其中，T_busy代表授权用户转移到占用状态(busy)后经过的时间，T_busy代表其转移到空闲状态(idle)后经过的时间，均服从指数分布。λ_busy,λ_idle是指数分布参数。授权用户依概率p,q进行状态转移的过程如图4所示：

图4是示出根据本发明的实施方式的授权用户状态转移的示例的图；

下面对本发明决策阶段即步骤3～5进行详细介绍。

本发明以最大化非授权用户吞吐率以及最小化频谱切换次数两个目标进行建模，其中，定义状态和动作是关键之一。本发明给出了一种基于强化学习的新型多用途状态动作集，具体步骤包括：

步骤1:将认知基站视作智能体，其覆盖范围视作所处的环境。状态空间S由基站正在提供服务的资源块组成：

步骤2:在当前资源块上考虑第一步决策，即是否需要切换资源块提供服务。对于基站，在t时刻的观测状态为s_t：

基站在给定时间t时刻的状态下，定义其动作,有：

步骤3:将switch表示为k₁，代表基站切换服务资源块，在该认知时隙时长内完成状态转移之后，等待后续认知时隙时长开始后，重新感知资源块的状态。将stay表示为k₂，代表认知基站无论授权用户状态如何，均在原资源块提供服务。有：

步骤4:定义立即回报值R，R的选取是根据基站的决策对非授权用户服务质量的影响来决定的。立即回报值的给予如下所示：

(1)当基站感知到服务资源块RB_x上授权用户活跃，选择动作k₂保持在RB_x上服务，下一状态仍是RB_x，此认知时隙时长无法进行数据传输，则给予-1的惩罚值。

(2)当基站在本时隙内没有感知到服务资源块RB_x上有授权用户活跃，则进行传输数据，状态转移后仍是RB_x。将给予当前状态RB_x下选择k₂一个+1的奖励值。

(3)当基站在感知到服务资源块RB_x上授权用户活跃，选择动作k₁，进入第二步决策后更换至资源块RB_y提供服务，认知基站的状态转移至下一资源块RB_y。此时认知基站与非授权用户在资源块RB_y上重新建立连接并等待下一个时隙的开始，感知RB_y授权用户状态。如果活跃，记作一次失败的切换，则给予-2的惩罚值。如果可以传输数据，则记作一次成功的切换，给予+1的奖励回报值。设定-2的惩罚回报值是因为认知基站在切换资源块之后，仍无法继续传输，将浪费两个认知时隙时长的传输时间。

步骤5:累计回报值。认知基站使用Q表来累计每组状态动作组合的回报值，累计回报值的方法基于下式：

其中，s_t是基站在t时刻的服务资源块，s_t+1是转移之后的资源块。a_t代表基站采取的动作。α是学习速率。r_t是立即回报值。γ，0≤γ≤1是折现因子，是未来的回报值对现在的影响程度。

步骤6:根据累计回报值做出决策。在决策过程中，智能体依据的是其所维护Q表当中的Q(s_t,a_t)，即累计回报值。智能体根据这些值来做出决策π：

Q_π(s_t，a_t)＝E_π{R_t|s_t＝RB_i,a_t＝k_t}＝E_π{∑_tγr_t|s_t＝RB_i,a_t＝k_t}

其中，E_π是在任意时刻t智能体在所处资源块RB_i上选择动作k_t可获得的立即回报值r_t。智能体决策所期望的是全局奖励最大化。所以后续动作也应对目前的决策产生影响。由折现因子γ控制的目前决策对未来奖励的依赖程度也应列入考虑。

本发明中的所有累计回报值均以矩阵的形式记录在认知基站之中。第一步决策比较当前资源块上离开或是留下的累计回报值。第二步决策比较切换至资源块上的累计回报值。当然，如果第一步决策判断要在当前资源块上离开，在第二步决策比较中当前资源块仍是最优，则不切换。这样Q表就得以充分利用。

图5是示出根据本发明的实施方式的改进的强化学习算法的Q值状态示意图；

本发明采用ε-greedy平衡上述强化学习的探索和利用。本发明采用ε-greedy的有益效果在于：在未知无线环境中，认知基站选择的动作是否最优是不确定的。选择一个局部最优资源块而非全局最优资源块提供服务，可能会在授权用户突发时，引起非授权用户不必要的滞留或是频谱切换。使用ε-greedy可以保证认知基站探索环境的同时也保证决策的质量。

步骤1:对于第一步决策，即认知基站当前状态s_t下进行是否离开当前资源块。为防止滞留在局部最优资源块，做出第一步决策π₁依据：

其中，ξ是一个在0-1之间服从均匀分布的随机变量，在每次决策之前随机选取。ε₁，0≤ε₁≤1是恒定的探索参数。

步骤2:对于第二步决策，当认知基站选择离开当前资源块，则需选择切换目标；此时应以一定的概率去随机选择资源块以避免贪婪地选择局部最优。做出第二步决策π₂依据的是：

其中，是认知基站在所有资源块上选择k₂的累计回报值，η是一个在0-1之间服从均匀分布的随机变量，在决策之前随机选取，ε₂，0≤ε₂≤1是恒定探索参数。是包含当前资源块的所有资源块的集合。当认知基站服务资源块上没有授权用户出现时，Q(s,k₂)会一直增加。其大小可以作为资源块优劣的考量。

图6是示出根据本发明的实施方式的ε-greedy探索的操作的流程图。

仿真实验平台选择通信网络离散事件模拟器NS-3。场景是在1个认知基站覆盖范围内，有10个相同带宽的授权资源块，10个授权资源块由10个服从连续时间马尔科夫过程的授权用户分别占用，范围内存在1个一直有数据待发送的非授权用户。认知基站负责利用空闲的授权资源块与非授权用户通信。仿真时间为2000秒。服务质量指标设置为吞吐率和资源块切换次数。仿真参数见表1。

表1仿真参数(Table1：Simulation parameters)

验证加入ε-greedy探索的必要性：

具体地，先将参数ε₁分别设置为0.1,0.3,0.6和1，观察并比较在不同的ε₁下，非授权用户服务质量随ε₂的变化情况。结果如图7(a)和图7(b)所示。

图7是示出根据本发明的实施方式的分别给定ε₁吞吐量及资源块切换次数的随ε₂变化情况的仿真曲线图。图7(a)给定ε₁吞吐量随ε₂变化情况，图7(b)给定ε₁资源块切换次数随ε₂变化情况。

当ε₁＝1时，是否切换资源块依据贪婪方式选择。此时，可以单独观测参数ε₂对系统性能的影响。首先，从图7(a)和图7(b)中ε₁＝1的曲线可知，吞吐率的峰值出现在ε₂＝0.75时，值为7.63Mbps。资源块切换最小次数出现在ε₂＝0.5时，平均值为11.9次。均优于ε₂＝1时的系统性能(7.48Mbps,23.6次)。相同的，观察ε₁＝0.1,0.3,0.6时的系统性能曲线，最高吞吐率和最低资源块切换次数均没有出现在ε₂＝1时。其次，从图7(a)中可知，ε₁＝0.6这条曲线明显高于其他曲线，而ε₁＝0.1,0.3这两条曲线却普遍低于ε₁＝1。而在图7(b)中，也反映了相同的情况。当ε₁＝0.6时，资源块切换次数普遍低于其他三条曲线。出现上述情况的原因是贪婪决策可能会导致无法找到全局最优资源块，引起非授权用户不必要的停留。并且不恰当的探索参数选择，会导致认知基站决策过于偏向随机或者是贪婪，影响系统的性能。所以，选取合适的探索参数，可以使得全局最优资源块更早被发现。结果表明，在有效的探索下，系统的性能会明显优于贪婪决策，而不恰当的探索会降低系统性能。

选取最佳的ε取值组合：

从图7中可以得知，虽然全局吞吐率最高值出现在ε₁＝0.6,ε₂＝0.7时，为8.13Mbps，且ε₁＝0.6的取值普遍优于其他取值，但依然存在性能劣于其他取值的区间。所以寻找能使系统性能最佳化的参数组合至关重要。因此设置ε₁和ε₂的取值从0-1，间隔为0.05以测试服务质量。系统吞吐率和资源块切换次数随ε₁和ε₂取值的变化情况如图8(a)，(b)所示。为了能突出较好的取值组合，将结果绘制成热力图，以便观察最佳性能出现的位置。

图8是示出根据本发明的实施方式的ε₁和ε₂取值分别对非授权用户吞吐量影响及资源块切换次数影响的仿真图。图8(a)ε₁和ε₂取值对非授权用户吞吐量影响，图8(b)ε₁和ε₂取值对非授权用户资源块切换次数影响。

图8(a)红色区域是吞吐率出现峰值的位置，位于ε₁＝0.6,ε₂＝0.75时，吞吐率的较高的区域集中在峰值周围，探索参数相对这一取值增加或减小后，吞吐率均产生下降。图8(b)中的分布的黑色暗区域是资源块切换次数低的区域，集中在ε₂取值为0.5-0.8左右，离开此区域后，切换次数明显上升，说明ε₂取值对其影响有偏重。图8(a)中的吞吐率峰值区域小于图9(b)中切换次数低值区域是因为认知基站在过度随机或贪婪的情况下，被迫滞留在局部最优资源块，无法获得高吞吐量。

综合图(7)与图(8)，选取ε₁＝0.6,ε₂＝0.75来训练认知基站，以获得最佳的系统性能。

与其他两种频谱管理策略进行性能比较：

根据步骤2所得出最佳ε₁和ε₂取值的组合，对认知基站频谱资源分配进行时长为4000秒的仿真，结果与基于复杂状态动作集的Q学习算法和无状态Q学习算法进行比较。基于复杂状态动作集的Q学习算法，是将智能体环境状态设置为所处资源块，但动作却细化到切换至具体的资源块。此种方式可以较为精确的规划资源块切换路径，却构造了一个平方级的复杂Q值矩阵，有待探索的区域非常庞大，且并未提及对状态动作集合的探索问题。无状态Q学习算法，其智能体可采取的动作为切换资源块和切换功率等级，这里仅考虑资源块切换。将两步决策ε-greedy强化学习方法命名为DERL，而无状态Q学习算法称作DRL，基于复杂状态动作集的Q学习算法称为TRL。比较结果如图9(a)和图9(b)所示。

图9是示出根据本发明的实施方式的吞吐量以及资源块切换次数分别随时间变化的不同算法比较的仿真曲线图。图9(a)吞吐量随时间变化的不同算法比较，图9(b)资源块切换次数随时间变化的不同算法比较。

从图9(a)可以看出，所比较的三种方法DERL、DRL、TRL的吞吐量变化过程均可分为两个阶段。第一阶段是学习阶段，采用不同算法的基站，呈现出不同程度的振荡。而在仿真时间达到1500秒左右，进入第二阶段，此阶段性能指标趋向于稳定，由于DERL的方法在第一个阶段进行了较好的探索。所以非授权用户的传输被分配到全局最佳资源块，吞吐率在经过学习阶段之后有明显的上升。而DRL和TRL算法进行贪婪决策，导致对频谱资源环境探索的不完全，认知基站在局部最优资源块上过早的停留。这样的决策方式，可以较快的使非授权用户获得较高的吞吐率，但由于局部最优资源块的授权用户出现更为频繁，导致传输失败的可能性变大，吞吐率在第二阶段出现下降。所以，本发明的DERL算法可以使非授权用户获得优于其余两种算法更好的吞吐率。

从图9(b)可以较为明显的看出，TRL算法的非授权用户资源块切换次数受庞大的状态动作集影响，增加的非常快。因为没有资源块切换保护的TRL算法会选择立即离开当前资源块。而且TRL算法准备离开一条资源块之后，会有9个资源块可以选择，但在每个不同状态均会面临9个不同的动作。此时，探索的不完备就会导致无法找到全局最优，只能继续试错。DRL算法使用了简易动作集之后，优化了过多的状态动作对的问题。但贪婪的决策过程使得DRL无法稳定的选取全局最优资源块。在资源块切换保护机制下，DRL可能会造成不必要的传输堵塞。所以DRL虽获得了比本发明算法DERL更低的资源块切换次数，但没有获得更高的吞吐率。

因此，针对较为复杂的认知无线网络环境，构造状态动作集的数量级和决策方式非常关键。而本发明中探索方式和较为简单的状态动作集，使非授权用户获得了更好的服务质量。

图10是示出实施不同频谱管理方法后的系统吞吐量以及系统切频次数的仿真图。图10(a)使用不同频谱管理方法的系统吞吐量，图10(b)使用不同频谱管理方法的系统切频次数。

图10(a)和图10(b)显示了在仿真时间为2000秒的时间内，本发明算法与DRL，TRL，以及两种基础方法的性能比较。两种基础方法的第一步决策分为总是选择切换的称为AS，和以一定概率pr选择切换，否则退避等待的PS。第二步决策时随机选择资源块接入称为OP，轮询选择资源块接入称为RR。其中，概率切换的参数pr经过测试，本发明选取的是可以使非授权用户获得最佳服务质量的概率pr＝0.8。

从图10(a)和图10(b)中看出，在认知基站选定最佳探索参数组合之后，通信的吞吐率以及频谱切换次数均优于其他的方法，吞吐率达到了8.63Mpbs，资源块切换次数为12次。无状态Q学习模型测试所得结果为7.83Mbps，16次。由于无状态Q学习仅设置智能体可采取的动作，而不设置状态，使得Q矩阵得到极大的简化。但缺点是在学习时受到惩罚将使其马上采取行动。虽然寻找全局最佳资源块的速度较快，但在最佳资源块收敛时，一旦与授权用户通信发生冲突，则会立即切换至其他资源块。而在复杂的状态动作集构建的强化学习模型下，测试结果为6.59Mbps，26次。面对本发明中设置的较为复杂的授权用户模型，TRL性能大幅下降。因为当资源块数量增加从5增至10个时，其Q矩阵则由25个状态动作组合扩展为100个。完备的探索100个状态动作组合直至收敛需要很长的时间。所以呈平方级增长的复杂状态动作集不适合应用在复杂的认知无线网络环境中。还选取了在认知无线电频谱分配中的两个传统方法与本发明算法进行比较。在与授权用户发生冲突时立即切换并且以轮询方式接入资源块的AS+RR频谱管理方法吞吐率要略高于概率切换和随机接入方式。对以pr＝0.8进行概率切换之后随机选择资源块接入的PS+OP频谱管理方法进行测试后发现，即使在第一步决策时以概率切换方式做出对频繁切换资源块的避免，但该方法资源块切换次数仍高于AS+RR方法的组合，这也反映出选择目标资源块(第二步决策)对资源块切换次数的偏重影响。

上述应用场景证明了本发明在应用到LTE-R环境的基站中进行频谱管理的有效性。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于认知的LTE-R中资源分配方法，其特征在于，包括：

在一个所述认知时隙时长Tr开始时，非授权用户向认知基站发起切换请求；

所述认知基站执行实施阶段，将决策结果反馈给认知用户；

2.根据权利要求1所述的基于认知的LTE-R中资源分配方法，其特征在于，步骤“所述认知基站在采集完信息后对资源块上授权用户的行为进行感知，执行决策阶段，判断所述非授权用户所在的当前资源块上主用户是否占用；如果占用，则进行第一步决策，即根据Q值表判断是否进行资源块切换，否则所述授权用户继续留在当前资源块；如果所述第一步决策判断要进行资源块切换，则进行第二步决策，即依据学习结果选取最优的资源块进行切换，否则所述授权用户继续留在当前资源块；”具体包括：

所述认知基站在给定时间t时刻的状态下，定义其动作,有：

Q_π(s_t，a_t)＝E_π{R_t|s_t＝RB_i，a_t＝k_t}＝E_π{∑_tγr_t|s_t＝RB_i，a_t＝k_t}

3.根据权利要求1所述的基于认知的LTE-R中资源分配方法，其特征在于，

步骤“定义立即回报值R，R的选取是根据所述认知基站的决策对非授权用户服务质量的影响来决定的；”具体包括：

当基站在感知到服务资源块上RB_X授权用户活跃，选择动作k₁，进入第二步决策后更换至资源块RB_Y提供服务，认知基站的状态转移至下一资源块RB_Y；此时所述认知基站与所述非授权用户在资源块RB_Y上重新建立连接并等待下一个时隙的开始，感知RB_Y授权用户状态；如果活跃，记作一次失败的切换，则给予-2的惩罚值；如果可以传输数据，则记作一次成功的切换，给予+1的奖励回报值。

4.根据权利要求1所述的基于认知的LTE-R中资源分配方法，其特征在于，

步骤“所述认知基站在采集完信息后对资源块上授权用户的行为进行感知，执行决策阶段，判断所述非授权用户所在的当前资源块上主用户是否占用；如果占用，则进行第一步决策，即根据Q值表判断是否进行资源块切换，否则所述授权用户继续留在当前资源块；如果所述第一步决策判断要进行资源块切换，则进行第二步决策，即依据学习结果选取最优的资源块进行切换，否则所述授权用户继续留在当前资源块；”中依据学习结果的方法具体如下：

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到4任一项所述的方法。