CN111711931B

CN111711931B - 一种快速收敛的最优信道选择方法

Info

Publication number: CN111711931B
Application number: CN202010534314.5A
Authority: CN
Inventors: 陈春梅; 杨世恩; 蒋和松
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-12-07
Anticipated expiration: 2040-06-11
Also published as: CN111711931A

Abstract

本发明公开了一种快速收敛的最优信道选择方法，涉及认知无线电技术领域，包括以下步骤：首先建立基于G‑E马尔可夫信道的状态转移模型，根据该模型得到每个时隙下的信道状态；然后将最优信道的选择问题定义为机器学习中的MAB问题，将每个信道视为MAB中的一个臂，根据每个臂的收益回报值的不同，统计出当前最优信道。在接下来的迭代学习过程中，创新地加入了基于状态统计的信道置信因子以及E‑E平衡系数，由此计算出最大置信上界g′去更新各个臂的收益回报；循环往复，直到收敛到最优信道，本发明能够解决多个感知信道共存时系统的快速收敛和精确信道选择问题。

Description

一种快速收敛的最优信道选择方法

技术领域

本发明涉及认知无线电技术领域，具体为一种快速收敛的最优信道选择方法。

背景技术

随着无线通信业务的快速发展，无线传感网络得到了广泛应用，如智能家居、智慧城市、环境监测等领域。无线传感网络由大量的微传感器节点组成，其间使用开放频段进行通信，如ISM(Industrial Scientific Medical)频段。然而，随着开放设备不断增加，网络严重拥塞，通信的可靠性难以得到保障，从而严重影响无线传感网络的持续发展，在多个认知无线信道共存的情况下，准确快速地收敛到最优信道是认知无线传感器网络(CognitiveRadio Sensor Network,CRSN)面临的一个挑战，传统的无线信道选择方法可以实现最优信道选择问题。但由于计算量大、时间积累大，其收敛速度达不到要求。

发明内容

本发明的目的在于克服现有技术的不足，提供一种快速收敛的最优信道选择方法。

本发明的目的是通过以下技术方案来实现的：

一种快速收敛的最优信道选择方法，包括以下步骤；

S1，建立基于G-E马尔可夫信道的状态转移模型，为每个信道的每个时隙生成G-E信道状态，将每个信道定义为一个臂，

S2，对每个臂访问一次，获得每个臂的初始奖励值；

S3，选择当前最优臂并计算其平均收益；

S4，采用基于状态统计信息而构建的新的g’去更新最佳臂的置信上界；

S5，重复步骤S2，S3与S4，直到收敛到最优信道。

优选的，所述步骤S1中的G-E马尔可夫信道的状态有两种，忙用0表示和闲用1表示，有限状态空间可以定义为S＝{0,1}。

优选的，所述状态转移模型中的授权信道状态转移概率矩阵以及状态分布表示为：

其中，λ0和λ1是信道信念值的边界，信道是正相关，即λ0≤λ1，基于G-E马尔可夫特性，系统的下一个状态可基于当前状态由转移概率计算得出。

优选的，所述步骤S2中的最优臂的平均收益通过以下公式计算：设在n个时隙之后，选择了第i个信道T_i(n)次。那么初始奖励值的平均值可以表示为：

其中，χ_i(t)是时隙t处选择信道i获得的实际回报。

优选的，所述

当信道状态为忙时，传输将失败，则系统回报为R_c＜0的惩罚，当信道状态为空闲时，传输将成功，并给予R_r＞0的奖励回报。

优选的，所述步骤S4包括以下子步骤：

S4.1，根据初始奖励值的平均值计算公式，通过UCB1策略可得期望的置信上界UCB_i(n)：

式中，u_i(n)为利用因子，

为探索因子；

S4.2，将探索因子重新表示，新探索因子为：

其中，

表示与信道i的方差相关的偏差因子，反映信道i的一系列瞬时增益的波动，动态调整次优解的探索间隔，降低探索成本。表达式是：

式中，

为信道i的瞬时增益方差，瞬时增益平均值减去信道i的实际经验增益平均值的平方，即：

得到UCB-V求解方程，其置信上界g_i(n)为：

S4.3，通过UCB-V，下一个要选择的最优信道将由当前g_i(n)的值确定，基于Bellman方程，即可以得到最优信道i^*

S4.4，新探索因子ξ_i(n)与信道质量相关，信道i的信道质量的置信因子被定义为：

式中，G_i(n)是信道质量的置信因子，它表示信道i的利用贡献，信道状态集内期望置信因子的理想最大值定义为G_max＝max_i∈N(G_i(n))＝1。那么，每个信道i的质量间隙定义为：

ΔG_i(n)＝G_max-G_i(n)

G_i越大，ΔG_i越小，信道质量越好；

S4.5，定义两个系数α和β，得到一个新的改进方程：

g′_i(n)＝u_i(n)+α*ξ_i(n)+β*G_i(n)

其中，α和β分别是探索因子和信道质量置信度的权重系数，如果α和β中的一个或两个都增加，则g′_i将增加，这意味着系统更加信任当前信道i，并且它被选中的可能性更大，相反，如果α和β减少，系统将探索其它更多的信道以期望获得更好的结果，因此，选择最佳信道的公式可以重写为：

本发明的有益效果是：

本发明提出了一种在没有足够先验知识的情况下，有效进行CRSN信道选择的优化方法。它在传统MAB模型的基础上增加了信道质量置信因子，实现了基于改进UCB的最优信道选择方法，通过机器学习和信道质量估计，本方法能够快速收敛到最优信道，其时间复杂度远低于其它算法，本方法解决了多个感知信道共存时系统的快速收敛和精确信道选择问题。

附图说明

图1为本发明的CRSN示意图；

图2为本发明的信道状态转移模型示意图；

图3为本发明信道质量信息与机会式访问示例图示意图；

图4为本发明的收敛速度比较示意图；

图5为本发明MAB-CQ的学习模型示意图；

图6为本发明两种场景下的信道选择示意图；

图7为本发明的另一个角度的两种场景的信道选择示意图；

图8为本发明实际平均奖励的波动示意图；

图9为本发明实际平均遗憾的波动示意图；

图10为本发明累积奖励和累积遗憾比较示意图；

图11为本发明的收敛速度比较示意图；

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

随着无线通信业务的快速发展，无线传感网络得到了广泛应用，随着开放设备不断增加，网络严重拥塞，通信的可靠性难以得到保障，从而严重影响无线传感网络的持续发展。传统的无线信道选择方法可以实现最优信道选择问题。但由于计算量大、时间积累大，其收敛速度达不到要求。

本发明考虑了一个具有多个PU和多个SU的CRSN模型。假设工作场景如下。多个PU仅代表CRSN中的多个授权信道，数据传输仅发生在SU之间。在这些SU中，有一个目标SU和一些具有多个传感器节点的源SU。目标SU负责收集源SU的传感信息。每个源SU完成自身的传感器数据采集，并通过机会式访问授权信道将其发送到目标SU。如果源SU不能在一跳内直接到达目标SU，则需要中继。此时，网络中可能包括多个SU传输对。假设每一个传输对可以在有效范围内至少访问一个信道。那么，该传感网络可定义为如图1所示。在图1中，SU-D是目标SU，而其它是源SU。一个PU代表一个授权信道。实线圆表示SU的半径为r_c的传输范围，虚线圆表示半径为r_s感知范围。也就是说，只有当一个SU位于另一个SU的传输范围内时，SU传输对才能相互链接并进行可靠通信。此外，传输对还必须在同一时隙选择共同感知信道。这里，共同感知信道是指传输对交叉区域内的授权信道。例如，SU-D和SUj是传输对，它们可以选择交叉区域中的公共信道PU2、PU3、PUi或PUn，而不是外部PU1和PUi+1。当然，当多个共同感知信道共存时，SU也将面临对最佳共同感知信道的选择问题。相反，如果传输对没有可用的共同感知信道，则将采用中继SU。例如，SU3将向SU-D发送数据，如果PU3、PUi等不可用，SUj将作为中继，此时换为在SU3和SUj之间寻找共同感知信道。另外，由于SU的可用信道是基于感知范围的，所以定义r_c≤r_s。由于每个SU可能会误用PU占用的信道，因此不允许与其感知范围之外的其它SU通信。在本发明中还假设一个时隙的长度足以传输一个数据包。

假设有N个信道，每个信道相互独立。信道由Gilbert-Elliott-Markov链建模，即状态有两种：忙(用0表示)和闲(用1表示)，那么有限状态空间可以定义为S＝{0,1}，其转移模型如图2所示。网络定义只有当信道空闲时，方可允许SU占用。根据表1的参数定义，授权信道状态转移概率矩阵以及状态分布可以表示为(1)和(2)：

本发明假设λ0和λ1是信道信念值的边界，信道是正相关的，即λ0≤λ1。

表1主要参数定义

基于Gilbert-Elliott-Markov特性，系统的下一个状态可基于当前状态由转移概率计算得出，尽管CRSN中可能存在多个可用的授权信道，但信道质量可能随着环境的变化而变化。为了使传输性能最大化，我们希望在每个时隙中选择最佳信道。理论上，一种有效的方法可以逐步逼近这种理想状态，实际却难以实现。因此，本发明根据大量的统计信息来选择一段时间内相对最优的信道，其示例如图3所示。

在图3中，有N个可用授权信道，SU将在一个时间段内有机会访问其中至少一个信道。在每个时间轴上，都有许多矩形，一个矩形代表一个时间段。矩形中不同的填充物表示不同的信道状态。在选择策略的支持下，系统总是在每个时间段中选择最佳的传输信道。例如，在第一时间段，SU选择“高质量空闲状态”Ch3。在第二时间段，SU选择“高质量空闲状态”Ch2。在第3和第5个时间段，SU总是选择Ch3。因此很明显，从有限的可视时间轴和信道来看，Ch3具有最多的选择次数。这是因为Ch3在“空闲状态”中拥有最多的时间段，并保持“高质量”，它有最多的被选择的机会。因此它被认为是最优信道。

为了量化信道状态对系统回报的影响，假设当信道状态为忙时，传输将失败，则系统回报为R_c＜0的惩罚。当信道状态为空闲时，传输将成功，并给予R_r＞0的奖励回报。据此，瞬时实际回报定义为：

式中，χ_i(t)是时隙t处选择信道i获得的实际回报。

由于选择每个信道所获得的回报是不可预知的，在这种情况下，通常选用机器学习方法以获得统计信息，从而作出最优决策。为此，本节将SU选择最优信道的过程定义为MAB模型。基于经典的MAB理论，创新地将每个信道定义为臂，SU便是玩家。机器学习的目标是在有限的时间内找到最优的臂，使总的回报最大化。

在MAB模型中，每选择一只臂玩家便可获得一些回报收益。假设在n个时隙之后，SU选择了第i个信道T_i(n)次。那么预期收益的平均值可以表示为：

通过经典的UCB1策略，并加以严格推导以解决E-E平衡问题，基于此，可得到期望的置信上界：

式中，u_i(n)为利用因子，

为探索因子。探索因子用于探索其它次优臂。随着信道i选择次数的增加，探索因子减小，平均收益将增大。当信道i被选择足够多的次数时，分子与分母的比值趋小，期望的平均增益主要由u_i(n)决定。可以看出，较少的探索可能导致局部最优；更多的探索可能会增加运算成本，并阻碍算法的性能。因此，本发明试图通过调整探索因子的表示来更好地解决这一问题。为了更精细地调整边界，可将探索因子可重新表示为：

其中，

表示与信道i的方差相关的偏差因子，它可以反映信道i的一系列瞬时增益的波动，动态调整次优解的探索间隔，降低探索成本。表达式是：

式中，δ_i ²(n)为信道i的瞬时增益方差，瞬时增益平均值(信道i每次瞬时增益平方和除以所选总次数)减去信道i的实际经验增益平均值的平方，即：

基于作者前期的基础研究，得到一种改进的求解方法称为UCB-V，其置信上界g_i(n)为：

通过UCB-V，下一个要选择的最优信道将由当前g_i(n)的值确定。基于Bellman方程，即可以得到最优信道i^*

为了检验改进前后的性能影响，比较了UCB1和UCB-V的收敛速度。在相同条件下(第5章场景1)，两种方法分别从20个信道中选择自己的最优信道。从图4可以看出，他们都选择了5号最佳信道，但是UCB-V的选择比UCB1的选择斜率上升得更快。这意味着UCB-V比UCB1收敛得更快。可见新的探索因子ξ_i(n)优化了探索范围，提高了探索速度。

从上述UCB-V策略可以看出，探索时间是可以优化的。在本节中，为了进一步优化探索范围，考虑了与信道质量相关的新探索因子。很容易知道，如果信道状态总是空闲的，即s_i(k)＝1,

那么可以近似地认为信道i的质量是很好的。因此，基于信道状态，信道i的信道质量的置信因子被定义为：

ΔG_i(n)＝G_max-G_i(n) (12)

根据图3中的分析，G_i越大，ΔG_i越小，信道质量越好，即应该选择该信道。

为了进一步平衡探索程度和信道质量置信度，分别定义了两个系数α和β，由此得到一个新的改进方程：

g′_i(n)＝u_i(n)+α*ξ_i(n)+β*G_i(n) (13)

在(13)中，α和β分别是探索因子和信道质量置信度的权重系数。如果α和β中的一个或两个都增加，则g′_i将增加，这意味着系统更加信任当前信道i，并且它被选中的可能性更大。相反，如果α和β减少，系统将探索其它更多的信道以期望获得更好的结果。因此，选择最佳信道的公式(10)可以重写为：

在MAB机器学习领域，评价其性能指标还有一个参数即“遗憾值”。学习策略的目的应该是尽量减少“遗憾值”。它的具体定义是：在n个时隙后，最佳理想期望回报与实际回报之间的差值，即：

其中，χ_opt是最好的预期回报，χ_t是所选信道在时隙t处的即时回报，可能因所选信道的不同而不同。遗憾值越高，信道选择优化算法越不成功。所以遗憾值应该尽可能的低。

基于以上分析，本发明提出了一种新的信道选择优化算法MAB-CQ。该算法的机器学习原理如下：首先，基于马尔可夫链为每个信道的每个时隙生成G-E信道状态，然后开始对所有信道进行一次访问，得到一些初始值，如奖励、选择次数等。然后循环执行“计算-选择-更新-计算”。每次循环后，MAB-CQ策略用最大置信上限g′更新一次当前臂的奖励。经过多次循环学习，该策略最终收敛到最优信道。学习模型如图5所示，在图5中，通过“每个臂访问一次”获得每个臂的初始奖励值。“环境”表示信道状态和状态转移概率，它将作用于信道回报和置信上界的计算。“动作”将在当前时间内选择一个最优臂并计算其奖励以更新初始奖励。然后，算法进入一个迭代周期来搜索更好的臂。可以看到，该策略不仅仅局限于目前的最优臂，而是通过循环学习探索更多的手臂，以期望找到全局最优。

为了分析本方法的时间性能，比较了六种学习算法的时间复杂度。这六种算法都是为了研究最优信道选择问题，它们是Q-learning、RCA、RQoS-UCB、UCB、ε-Greedy和本发明的方法MAB-CQ。这里的比较是基于对应文献中六种算法的伪码描述，其结果汇总在表2中。其中执行频度是问题规模上的函数f(*)，其中*表示问题规模的符号。也就是说，它是运算次数的总和，或者是算法中每个核心语句执行的总次数。时间复杂度是一个与f(*)相关的O函数，它意味着取一个关于f(*)中问题规模的最大幂的表达式。它可以表示为T(*)＝O(f(*))，从算法3可以得到执行频率约为f(KN)＝K(2N+3)+N，时间复杂度为T(KN)＝O(f(KN))＝O(NK)。这里，K和N分别是时隙和信道的数目。参数D定义为迭代次数，通常是与时隙K具有相同数量级的大常数。从表2中的“时间复杂度”来看，Q-learning、RCA、RQoS-UCB和MAB-CQ的值是相同的，即O(KN)。但从表2中的“执行频度”来看，策略MAB-CQ执行得更少。当D＞＞N时，UCB和ε-Greedy策略执行缓慢，而策略MAB-CQ在六种策略中具有最佳的“执行频度”。从数值分析可以看出，本发明的策略MAB-CQ在时间性能上具有明显优势。

表2算法复杂度

本发明完成了许多不同的场景下的性能测试。为了便于分析，本发明从这些实验中选择了两个有代表性的场景来阐述实验结果，实验主要参数见表3，此外，λ0和λ1是随机生成的数组，其值如表4所示。

表3主要仿真参数

在表4中，关于信道状态转移概率矩阵的元素是基于第3节计算的。每个信道的选择次数基于第4部分计算的。

表4场景参数

在表4两种不同的场景中，分别统计了20个信道的选择次数。在场景1中，我们可以看到第5信道的选择次数最多，为3988728次。在场景2中，我们可以看到第11信道的选择次数最多，为3988933次。它们远远超过其它19个信道的选择次数。因此，算法MAB-CQ在场景1下选择的最佳信道是5，而在场景2下选择的最佳信道是11。

接下来，本发明验证了在这两种不同场景下MAB-CQ的收敛性能，图6给出了随着时隙的增加所选择信道占有百分比的变化曲线。在某一时隙，曲线水平位置越高，选择相应臂的次数越多；否则选择臂的次数越少。从图6可以看出，大约在103个时隙之前，20个臂的选择百分比没有太大差别。这是因为所有的臂都还处在机器学习阶段，而此时，它们的可信度都比较低。然而几乎从103个时隙开始，两个场景下的最优信道逐渐凸显。从表4中还可以看到第5个信道是场景1中的最佳信道，而第11个信道是场景2中的最佳信道。结果表明，表4和图6中对应的最优臂是相同的。

为了进一步验证MAB-CQ的正确性，从另一个角度对场景1和场景2进行了最优信道选择实验。结果如图7所示。不难看出，经过大约104个时隙后，MAB-CQ最终分别收敛到第5信道和第11信道。正如我们所希望的，这个结论与表4和图6一致。

根据以上实验，可知本发明算法可在105个时隙以内收敛。为了便于分析和显示，每隔500个时隙采样一次，105个时隙可分成200个样本。为了验证MAB-CQ的稳定性，在每500个时隙中计算统计数据，包括奖励和遗憾的统计平均值。实验结果如图8和图9所示。

图8分别示出了场景1和场景2中实际平均回报的波动情况。此处定义20个信道中的最大瞬时奖励为理想奖励，即最大的瞬时回报为χ_opt＝2。从图8可以看出，每个采样点的平均奖励是不一样的。这是因为这些信道的状态是可变的，且它们的转换概率不同。不过这些波动的幅度较小，而且随着时间的推移，波动幅度还在继续缩小。比较场景1和场景2，场景2的平均回报趋势很快接近理想回报，说明场景2的统计回报也优于场景1。

图9是分别在场景1和场景2中的实际平均遗憾的统计情况。在理想回报条件下，理想后悔值应为零。但从图9可以看出，曲线有一些波动，原因与图8相似。如果奖励增加，后悔就会减少，反之亦然。

在本发明中，多次改变信道参数并重复实验，所选结果仍然遵循相应的最优臂。从图6到图9，MAB-CQ可以在不同的场景中找到最优臂。综上所述，MAB-CQ具有良好的准确性、可靠性和鲁棒性。

最后，为了验证MAB-CQ的优越性，我们对UCB1、ε-Greedy和UCB-Tuned进行了对比实验，结果如图10至图11所示。场景1中的累积奖励和累积遗憾如图10所示。我们仍然把每500个时隙分成一个统计阶段。从图10的上分支来看，最早收敛到最优累积回报的是本发明的策略MAB-CQ。这是因为在MAB-CQ中，瞬时增益方差被用于最优信道选择，这将使它更快找到好的信道，从而获得更高的累积回报。此外，在MAB-CQ中还引入了信道质量的置信度，因此收敛更快，获得的回报更高。从图10的下分支来看，四个策略的累积遗憾在Y轴上的取值顺序与图10的上分支相反，这是因为奖励和遗憾是相互制约的。

在本段中，比较了ε-Greedy、UCB1、UCB1-Tuned和MAB-CQ之间的执行速度。从图11可以看出，各个算法的收敛率达到100％所需的时间是完全不同的。首先，UCB1可能需要很长时间才能确定。其次，ε-Greedy和UCB1-Tuned比UCB1快。最好的是MAB-CQ，其收敛速度最快。可见，MAB-CQ能够提供比其它策略更高的执行效率，并且在收敛率方面具有明显的优势。

综上，本发明将信道选择问题映射到改进的多臂赌博机(Multi Armed Bandit,MAB)模型中，通过置信上界函数(Upper Confidence Band,UCB)创新地提出了基于信道置信度的学习回报方程。大量的实验结果表明，MAB-CQ在10^5个时隙内可以收敛到近100％，同等条件下比传统的机器学习算法提高了两个数量级。同时，MAB-CQ在累积回报、执行效率等方面具有明显的优势。

以上所述仅是本发明的优选实施方式，应当理解所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。