CN111711931B - 一种快速收敛的最优信道选择方法 - Google Patents

一种快速收敛的最优信道选择方法 Download PDF

Info

Publication number
CN111711931B
CN111711931B CN202010534314.5A CN202010534314A CN111711931B CN 111711931 B CN111711931 B CN 111711931B CN 202010534314 A CN202010534314 A CN 202010534314A CN 111711931 B CN111711931 B CN 111711931B
Authority
CN
China
Prior art keywords
channel
optimal
arm
state
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010534314.5A
Other languages
English (en)
Other versions
CN111711931A (zh
Inventor
陈春梅
杨世恩
蒋和松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202010534314.5A priority Critical patent/CN111711931B/zh
Publication of CN111711931A publication Critical patent/CN111711931A/zh
Application granted granted Critical
Publication of CN111711931B publication Critical patent/CN111711931B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/0202Channel estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0289Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种快速收敛的最优信道选择方法,涉及认知无线电技术领域,包括以下步骤:首先建立基于G‑E马尔可夫信道的状态转移模型,根据该模型得到每个时隙下的信道状态;然后将最优信道的选择问题定义为机器学习中的MAB问题,将每个信道视为MAB中的一个臂,根据每个臂的收益回报值的不同,统计出当前最优信道。在接下来的迭代学习过程中,创新地加入了基于状态统计的信道置信因子以及E‑E平衡系数,由此计算出最大置信上界g′去更新各个臂的收益回报;循环往复,直到收敛到最优信道,本发明能够解决多个感知信道共存时系统的快速收敛和精确信道选择问题。

Description

一种快速收敛的最优信道选择方法
技术领域
本发明涉及认知无线电技术领域,具体为一种快速收敛的最优信道选择方法。
背景技术
随着无线通信业务的快速发展,无线传感网络得到了广泛应用,如智能家居、智慧城市、环境监测等领域。无线传感网络由大量的微传感器节点组成,其间使用开放频段进行通信,如ISM(Industrial Scientific Medical)频段。然而,随着开放设备不断增加,网络严重拥塞,通信的可靠性难以得到保障,从而严重影响无线传感网络的持续发展,在多个认知无线信道共存的情况下,准确快速地收敛到最优信道是认知无线传感器网络(CognitiveRadio Sensor Network,CRSN)面临的一个挑战,传统的无线信道选择方法可以实现最优信道选择问题。但由于计算量大、时间积累大,其收敛速度达不到要求。
发明内容
本发明的目的在于克服现有技术的不足,提供一种快速收敛的最优信道选择方法。
本发明的目的是通过以下技术方案来实现的:
一种快速收敛的最优信道选择方法,包括以下步骤;
S1,建立基于G-E马尔可夫信道的状态转移模型,为每个信道的每个时隙生成G-E信道状态,将每个信道定义为一个臂,
S2,对每个臂访问一次,获得每个臂的初始奖励值;
S3,选择当前最优臂并计算其平均收益;
S4,采用基于状态统计信息而构建的新的g’去更新最佳臂的置信上界;
S5,重复步骤S2,S3与S4,直到收敛到最优信道。
优选的,所述步骤S1中的G-E马尔可夫信道的状态有两种,忙用0表示和闲用1表示,有限状态空间可以定义为S={0,1}。
优选的,所述状态转移模型中的授权信道状态转移概率矩阵以及状态分布表示为:
Figure BDA0002535724510000011
Figure BDA0002535724510000012
其中,λ0和λ1是信道信念值的边界,信道是正相关,即λ0≤λ1,基于G-E马尔可夫特性,系统的下一个状态可基于当前状态由转移概率计算得出。
优选的,所述步骤S2中的最优臂的平均收益通过以下公式计算:设在n个时隙之后,选择了第i个信道Ti(n)次。那么初始奖励值的平均值可以表示为:
Figure BDA0002535724510000021
其中,χi(t)是时隙t处选择信道i获得的实际回报。
优选的,所述
Figure BDA0002535724510000022
当信道状态为忙时,传输将失败,则系统回报为Rc<0的惩罚,当信道状态为空闲时,传输将成功,并给予Rr>0的奖励回报。
优选的,所述步骤S4包括以下子步骤:
S4.1,根据初始奖励值的平均值计算公式,通过UCB1策略可得期望的置信上界UCBi(n):
Figure BDA0002535724510000023
式中,ui(n)为利用因子,
Figure BDA0002535724510000024
为探索因子;
S4.2,将探索因子重新表示,新探索因子为:
Figure BDA0002535724510000025
其中,
Figure BDA00025357245100000210
表示与信道i的方差相关的偏差因子,反映信道i的一系列瞬时增益的波动,动态调整次优解的探索间隔,降低探索成本。表达式是:
Figure BDA0002535724510000026
式中,
Figure BDA0002535724510000027
为信道i的瞬时增益方差,瞬时增益平均值减去信道i的实际经验增益平均值的平方,即:
Figure BDA0002535724510000028
得到UCB-V求解方程,其置信上界gi(n)为:
Figure BDA0002535724510000029
Figure BDA0002535724510000031
S4.3,通过UCB-V,下一个要选择的最优信道将由当前gi(n)的值确定,基于Bellman方程,即可以得到最优信道i*
Figure BDA0002535724510000032
S4.4,新探索因子ξi(n)与信道质量相关,信道i的信道质量的置信因子被定义为:
Figure BDA0002535724510000033
式中,Gi(n)是信道质量的置信因子,它表示信道i的利用贡献,信道状态集内期望置信因子的理想最大值定义为Gmax=maxi∈N(Gi(n))=1。那么,每个信道i的质量间隙定义为:
ΔGi(n)=Gmax-Gi(n)
Gi越大,ΔGi越小,信道质量越好;
S4.5,定义两个系数α和β,得到一个新的改进方程:
g′i(n)=ui(n)+α*ξi(n)+β*Gi(n)
其中,α和β分别是探索因子和信道质量置信度的权重系数,如果α和β中的一个或两个都增加,则g′i将增加,这意味着系统更加信任当前信道i,并且它被选中的可能性更大,相反,如果α和β减少,系统将探索其它更多的信道以期望获得更好的结果,因此,选择最佳信道的公式可以重写为:
Figure BDA0002535724510000034
本发明的有益效果是:
本发明提出了一种在没有足够先验知识的情况下,有效进行CRSN信道选择的优化方法。它在传统MAB模型的基础上增加了信道质量置信因子,实现了基于改进UCB的最优信道选择方法,通过机器学习和信道质量估计,本方法能够快速收敛到最优信道,其时间复杂度远低于其它算法,本方法解决了多个感知信道共存时系统的快速收敛和精确信道选择问题。
附图说明
图1为本发明的CRSN示意图;
图2为本发明的信道状态转移模型示意图;
图3为本发明信道质量信息与机会式访问示例图示意图;
图4为本发明的收敛速度比较示意图;
图5为本发明MAB-CQ的学习模型示意图;
图6为本发明两种场景下的信道选择示意图;
图7为本发明的另一个角度的两种场景的信道选择示意图;
图8为本发明实际平均奖励的波动示意图;
图9为本发明实际平均遗憾的波动示意图;
图10为本发明累积奖励和累积遗憾比较示意图;
图11为本发明的收敛速度比较示意图;
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
随着无线通信业务的快速发展,无线传感网络得到了广泛应用,随着开放设备不断增加,网络严重拥塞,通信的可靠性难以得到保障,从而严重影响无线传感网络的持续发展。传统的无线信道选择方法可以实现最优信道选择问题。但由于计算量大、时间积累大,其收敛速度达不到要求。
本发明考虑了一个具有多个PU和多个SU的CRSN模型。假设工作场景如下。多个PU仅代表CRSN中的多个授权信道,数据传输仅发生在SU之间。在这些SU中,有一个目标SU和一些具有多个传感器节点的源SU。目标SU负责收集源SU的传感信息。每个源SU完成自身的传感器数据采集,并通过机会式访问授权信道将其发送到目标SU。如果源SU不能在一跳内直接到达目标SU,则需要中继。此时,网络中可能包括多个SU传输对。假设每一个传输对可以在有效范围内至少访问一个信道。那么,该传感网络可定义为如图1所示。在图1中,SU-D是目标SU,而其它是源SU。一个PU代表一个授权信道。实线圆表示SU的半径为rc的传输范围,虚线圆表示半径为rs感知范围。也就是说,只有当一个SU位于另一个SU的传输范围内时,SU传输对才能相互链接并进行可靠通信。此外,传输对还必须在同一时隙选择共同感知信道。这里,共同感知信道是指传输对交叉区域内的授权信道。例如,SU-D和SUj是传输对,它们可以选择交叉区域中的公共信道PU2、PU3、PUi或PUn,而不是外部PU1和PUi+1。当然,当多个共同感知信道共存时,SU也将面临对最佳共同感知信道的选择问题。相反,如果传输对没有可用的共同感知信道,则将采用中继SU。例如,SU3将向SU-D发送数据,如果PU3、PUi等不可用,SUj将作为中继,此时换为在SU3和SUj之间寻找共同感知信道。另外,由于SU的可用信道是基于感知范围的,所以定义rc≤rs。由于每个SU可能会误用PU占用的信道,因此不允许与其感知范围之外的其它SU通信。在本发明中还假设一个时隙的长度足以传输一个数据包。
假设有N个信道,每个信道相互独立。信道由Gilbert-Elliott-Markov链建模,即状态有两种:忙(用0表示)和闲(用1表示),那么有限状态空间可以定义为S={0,1},其转移模型如图2所示。网络定义只有当信道空闲时,方可允许SU占用。根据表1的参数定义,授权信道状态转移概率矩阵以及状态分布可以表示为(1)和(2):
Figure BDA0002535724510000051
Figure BDA0002535724510000052
本发明假设λ0和λ1是信道信念值的边界,信道是正相关的,即λ0≤λ1。
表1主要参数定义
Figure BDA0002535724510000053
基于Gilbert-Elliott-Markov特性,系统的下一个状态可基于当前状态由转移概率计算得出,尽管CRSN中可能存在多个可用的授权信道,但信道质量可能随着环境的变化而变化。为了使传输性能最大化,我们希望在每个时隙中选择最佳信道。理论上,一种有效的方法可以逐步逼近这种理想状态,实际却难以实现。因此,本发明根据大量的统计信息来选择一段时间内相对最优的信道,其示例如图3所示。
在图3中,有N个可用授权信道,SU将在一个时间段内有机会访问其中至少一个信道。在每个时间轴上,都有许多矩形,一个矩形代表一个时间段。矩形中不同的填充物表示不同的信道状态。在选择策略的支持下,系统总是在每个时间段中选择最佳的传输信道。例如,在第一时间段,SU选择“高质量空闲状态”Ch3。在第二时间段,SU选择“高质量空闲状态”Ch2。在第3和第5个时间段,SU总是选择Ch3。因此很明显,从有限的可视时间轴和信道来看,Ch3具有最多的选择次数。这是因为Ch3在“空闲状态”中拥有最多的时间段,并保持“高质量”,它有最多的被选择的机会。因此它被认为是最优信道。
为了量化信道状态对系统回报的影响,假设当信道状态为忙时,传输将失败,则系统回报为Rc<0的惩罚。当信道状态为空闲时,传输将成功,并给予Rr>0的奖励回报。据此,瞬时实际回报定义为:
Figure BDA0002535724510000061
式中,χi(t)是时隙t处选择信道i获得的实际回报。
由于选择每个信道所获得的回报是不可预知的,在这种情况下,通常选用机器学习方法以获得统计信息,从而作出最优决策。为此,本节将SU选择最优信道的过程定义为MAB模型。基于经典的MAB理论,创新地将每个信道定义为臂,SU便是玩家。机器学习的目标是在有限的时间内找到最优的臂,使总的回报最大化。
在MAB模型中,每选择一只臂玩家便可获得一些回报收益。假设在n个时隙之后,SU选择了第i个信道Ti(n)次。那么预期收益的平均值可以表示为:
Figure BDA0002535724510000062
通过经典的UCB1策略,并加以严格推导以解决E-E平衡问题,基于此,可得到期望的置信上界:
Figure BDA0002535724510000063
式中,ui(n)为利用因子,
Figure BDA0002535724510000064
为探索因子。探索因子用于探索其它次优臂。随着信道i选择次数的增加,探索因子减小,平均收益将增大。当信道i被选择足够多的次数时,分子与分母的比值趋小,期望的平均增益主要由ui(n)决定。可以看出,较少的探索可能导致局部最优;更多的探索可能会增加运算成本,并阻碍算法的性能。因此,本发明试图通过调整探索因子的表示来更好地解决这一问题。为了更精细地调整边界,可将探索因子可重新表示为:
Figure BDA0002535724510000065
其中,
Figure BDA0002535724510000067
表示与信道i的方差相关的偏差因子,它可以反映信道i的一系列瞬时增益的波动,动态调整次优解的探索间隔,降低探索成本。表达式是:
Figure BDA0002535724510000066
式中,δi 2(n)为信道i的瞬时增益方差,瞬时增益平均值(信道i每次瞬时增益平方和除以所选总次数)减去信道i的实际经验增益平均值的平方,即:
Figure BDA0002535724510000071
基于作者前期的基础研究,得到一种改进的求解方法称为UCB-V,其置信上界gi(n)为:
Figure BDA0002535724510000072
通过UCB-V,下一个要选择的最优信道将由当前gi(n)的值确定。基于Bellman方程,即可以得到最优信道i*
Figure BDA0002535724510000073
为了检验改进前后的性能影响,比较了UCB1和UCB-V的收敛速度。在相同条件下(第5章场景1),两种方法分别从20个信道中选择自己的最优信道。从图4可以看出,他们都选择了5号最佳信道,但是UCB-V的选择比UCB1的选择斜率上升得更快。这意味着UCB-V比UCB1收敛得更快。可见新的探索因子ξi(n)优化了探索范围,提高了探索速度。
从上述UCB-V策略可以看出,探索时间是可以优化的。在本节中,为了进一步优化探索范围,考虑了与信道质量相关的新探索因子。很容易知道,如果信道状态总是空闲的,即si(k)=1,
Figure BDA0002535724510000075
那么可以近似地认为信道i的质量是很好的。因此,基于信道状态,信道i的信道质量的置信因子被定义为:
Figure BDA0002535724510000074
式中,Gi(n)是信道质量的置信因子,它表示信道i的利用贡献,信道状态集内期望置信因子的理想最大值定义为Gmax=maxi∈N(Gi(n))=1。那么,每个信道i的质量间隙定义为:
ΔGi(n)=Gmax-Gi(n) (12)
根据图3中的分析,Gi越大,ΔGi越小,信道质量越好,即应该选择该信道。
为了进一步平衡探索程度和信道质量置信度,分别定义了两个系数α和β,由此得到一个新的改进方程:
g′i(n)=ui(n)+α*ξi(n)+β*Gi(n) (13)
在(13)中,α和β分别是探索因子和信道质量置信度的权重系数。如果α和β中的一个或两个都增加,则g′i将增加,这意味着系统更加信任当前信道i,并且它被选中的可能性更大。相反,如果α和β减少,系统将探索其它更多的信道以期望获得更好的结果。因此,选择最佳信道的公式(10)可以重写为:
Figure BDA0002535724510000081
在MAB机器学习领域,评价其性能指标还有一个参数即“遗憾值”。学习策略的目的应该是尽量减少“遗憾值”。它的具体定义是:在n个时隙后,最佳理想期望回报与实际回报之间的差值,即:
Figure BDA0002535724510000082
其中,χopt是最好的预期回报,χt是所选信道在时隙t处的即时回报,可能因所选信道的不同而不同。遗憾值越高,信道选择优化算法越不成功。所以遗憾值应该尽可能的低。
基于以上分析,本发明提出了一种新的信道选择优化算法MAB-CQ。该算法的机器学习原理如下:首先,基于马尔可夫链为每个信道的每个时隙生成G-E信道状态,然后开始对所有信道进行一次访问,得到一些初始值,如奖励、选择次数等。然后循环执行“计算-选择-更新-计算”。每次循环后,MAB-CQ策略用最大置信上限g′更新一次当前臂的奖励。经过多次循环学习,该策略最终收敛到最优信道。学习模型如图5所示,在图5中,通过“每个臂访问一次”获得每个臂的初始奖励值。“环境”表示信道状态和状态转移概率,它将作用于信道回报和置信上界的计算。“动作”将在当前时间内选择一个最优臂并计算其奖励以更新初始奖励。然后,算法进入一个迭代周期来搜索更好的臂。可以看到,该策略不仅仅局限于目前的最优臂,而是通过循环学习探索更多的手臂,以期望找到全局最优。
为了分析本方法的时间性能,比较了六种学习算法的时间复杂度。这六种算法都是为了研究最优信道选择问题,它们是Q-learning、RCA、RQoS-UCB、UCB、ε-Greedy和本发明的方法MAB-CQ。这里的比较是基于对应文献中六种算法的伪码描述,其结果汇总在表2中。其中执行频度是问题规模上的函数f(*),其中*表示问题规模的符号。也就是说,它是运算次数的总和,或者是算法中每个核心语句执行的总次数。时间复杂度是一个与f(*)相关的O函数,它意味着取一个关于f(*)中问题规模的最大幂的表达式。它可以表示为T(*)=O(f(*)),从算法3可以得到执行频率约为f(KN)=K(2N+3)+N,时间复杂度为T(KN)=O(f(KN))=O(NK)。这里,K和N分别是时隙和信道的数目。参数D定义为迭代次数,通常是与时隙K具有相同数量级的大常数。从表2中的“时间复杂度”来看,Q-learning、RCA、RQoS-UCB和MAB-CQ的值是相同的,即O(KN)。但从表2中的“执行频度”来看,策略MAB-CQ执行得更少。当D>>N时,UCB和ε-Greedy策略执行缓慢,而策略MAB-CQ在六种策略中具有最佳的“执行频度”。从数值分析可以看出,本发明的策略MAB-CQ在时间性能上具有明显优势。
表2算法复杂度
Figure BDA0002535724510000091
本发明完成了许多不同的场景下的性能测试。为了便于分析,本发明从这些实验中选择了两个有代表性的场景来阐述实验结果,实验主要参数见表3,此外,λ0和λ1是随机生成的数组,其值如表4所示。
表3主要仿真参数
Figure BDA0002535724510000092
在表4中,关于信道状态转移概率矩阵的元素是基于第3节计算的。每个信道的选择次数基于第4部分计算的。
表4场景参数
Figure BDA0002535724510000101
在表4两种不同的场景中,分别统计了20个信道的选择次数。在场景1中,我们可以看到第5信道的选择次数最多,为3988728次。在场景2中,我们可以看到第11信道的选择次数最多,为3988933次。它们远远超过其它19个信道的选择次数。因此,算法MAB-CQ在场景1下选择的最佳信道是5,而在场景2下选择的最佳信道是11。
接下来,本发明验证了在这两种不同场景下MAB-CQ的收敛性能,图6给出了随着时隙的增加所选择信道占有百分比的变化曲线。在某一时隙,曲线水平位置越高,选择相应臂的次数越多;否则选择臂的次数越少。从图6可以看出,大约在103个时隙之前,20个臂的选择百分比没有太大差别。这是因为所有的臂都还处在机器学习阶段,而此时,它们的可信度都比较低。然而几乎从103个时隙开始,两个场景下的最优信道逐渐凸显。从表4中还可以看到第5个信道是场景1中的最佳信道,而第11个信道是场景2中的最佳信道。结果表明,表4和图6中对应的最优臂是相同的。
为了进一步验证MAB-CQ的正确性,从另一个角度对场景1和场景2进行了最优信道选择实验。结果如图7所示。不难看出,经过大约104个时隙后,MAB-CQ最终分别收敛到第5信道和第11信道。正如我们所希望的,这个结论与表4和图6一致。
根据以上实验,可知本发明算法可在105个时隙以内收敛。为了便于分析和显示,每隔500个时隙采样一次,105个时隙可分成200个样本。为了验证MAB-CQ的稳定性,在每500个时隙中计算统计数据,包括奖励和遗憾的统计平均值。实验结果如图8和图9所示。
图8分别示出了场景1和场景2中实际平均回报的波动情况。此处定义20个信道中的最大瞬时奖励为理想奖励,即最大的瞬时回报为χopt=2。从图8可以看出,每个采样点的平均奖励是不一样的。这是因为这些信道的状态是可变的,且它们的转换概率不同。不过这些波动的幅度较小,而且随着时间的推移,波动幅度还在继续缩小。比较场景1和场景2,场景2的平均回报趋势很快接近理想回报,说明场景2的统计回报也优于场景1。
图9是分别在场景1和场景2中的实际平均遗憾的统计情况。在理想回报条件下,理想后悔值应为零。但从图9可以看出,曲线有一些波动,原因与图8相似。如果奖励增加,后悔就会减少,反之亦然。
在本发明中,多次改变信道参数并重复实验,所选结果仍然遵循相应的最优臂。从图6到图9,MAB-CQ可以在不同的场景中找到最优臂。综上所述,MAB-CQ具有良好的准确性、可靠性和鲁棒性。
最后,为了验证MAB-CQ的优越性,我们对UCB1、ε-Greedy和UCB-Tuned进行了对比实验,结果如图10至图11所示。场景1中的累积奖励和累积遗憾如图10所示。我们仍然把每500个时隙分成一个统计阶段。从图10的上分支来看,最早收敛到最优累积回报的是本发明的策略MAB-CQ。这是因为在MAB-CQ中,瞬时增益方差被用于最优信道选择,这将使它更快找到好的信道,从而获得更高的累积回报。此外,在MAB-CQ中还引入了信道质量的置信度,因此收敛更快,获得的回报更高。从图10的下分支来看,四个策略的累积遗憾在Y轴上的取值顺序与图10的上分支相反,这是因为奖励和遗憾是相互制约的。
在本段中,比较了ε-Greedy、UCB1、UCB1-Tuned和MAB-CQ之间的执行速度。从图11可以看出,各个算法的收敛率达到100%所需的时间是完全不同的。首先,UCB1可能需要很长时间才能确定。其次,ε-Greedy和UCB1-Tuned比UCB1快。最好的是MAB-CQ,其收敛速度最快。可见,MAB-CQ能够提供比其它策略更高的执行效率,并且在收敛率方面具有明显的优势。
综上,本发明将信道选择问题映射到改进的多臂赌博机(Multi Armed Bandit,MAB)模型中,通过置信上界函数(Upper Confidence Band,UCB)创新地提出了基于信道置信度的学习回报方程。大量的实验结果表明,MAB-CQ在10^5个时隙内可以收敛到近100%,同等条件下比传统的机器学习算法提高了两个数量级。同时,MAB-CQ在累积回报、执行效率等方面具有明显的优势。
以上所述仅是本发明的优选实施方式,应当理解所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种快速收敛的最优信道选择方法,其特征在于,包括以下步骤;
S1,建立基于G-E马尔可夫信道的状态转移模型,为每个信道的每个时隙生成G-E信道状态,将每个信道定义为一个臂;
S2,对每个臂访问一次,获得每个臂的初始奖励值;
S3,选择当前最优臂并计算其平均收益;
S4,采用基于状态统计信息而构建的新的
Figure 798923DEST_PATH_IMAGE001
去更新最优臂的置信上界,具体包括以下子步骤:
S4.1,根据初始奖励值的平均值计算公式,通过UCB1策略可得期望的置信上界
Figure 863831DEST_PATH_IMAGE002
Figure 715113DEST_PATH_IMAGE003
式中,
Figure 708739DEST_PATH_IMAGE004
为利用因子,
Figure 12681DEST_PATH_IMAGE005
为探索因子;
S4.2,将探索因子重新表示,新探索因子为:
Figure 350121DEST_PATH_IMAGE006
其中,
Figure 85603DEST_PATH_IMAGE007
表示与信道i的方差相关的偏差因子,反映信道i的一系列瞬时增益的波动,动态调整次优解的探索间隔,降低探索成本,表达式是:
Figure 810982DEST_PATH_IMAGE008
式中,
Figure 602221DEST_PATH_IMAGE009
为信道i的瞬时增益方差,瞬时增益平均值减去信道i的实际经验增益平均值的平方,即:
Figure 244817DEST_PATH_IMAGE010
得到UCB-V求解方程,其置信上界
Figure 805111DEST_PATH_IMAGE011
为:
Figure 373496DEST_PATH_IMAGE012
S4.3,通过UCB-V,下一个要选择的最优信道将由当前
Figure 681724DEST_PATH_IMAGE013
的值确定,基于Bellman方程,即可以得到最优信道
Figure 360967DEST_PATH_IMAGE014
Figure 510189DEST_PATH_IMAGE015
S4.4,新探索因子
Figure 983895DEST_PATH_IMAGE016
与信道质量相关,信道
Figure 484147DEST_PATH_IMAGE017
的信道质量的置信因子被定义为:
Figure 701502DEST_PATH_IMAGE018
式中,
Figure 206695DEST_PATH_IMAGE019
是信道质量的置信因子,它表示信道i的利用贡献,信道状态集内期望置信因子的理想最大值定义为
Figure 116882DEST_PATH_IMAGE020
,每个信道i的质量间隙定义为:
Figure 838850DEST_PATH_IMAGE021
Figure 594316DEST_PATH_IMAGE022
越大,
Figure 452551DEST_PATH_IMAGE023
越小,信道质量越好;
S4.5,定义两个系数
Figure 533640DEST_PATH_IMAGE024
Figure 241439DEST_PATH_IMAGE025
,得到一个新的改进方程:
Figure 331755DEST_PATH_IMAGE026
其中,
Figure 575654DEST_PATH_IMAGE024
Figure 827644DEST_PATH_IMAGE025
分别是探索因子和信道质量置信度的权重系数,如果
Figure 556828DEST_PATH_IMAGE024
Figure 995375DEST_PATH_IMAGE025
中的一个或两个都增加,则
Figure 811890DEST_PATH_IMAGE027
将增加,这意味着系统更加信任当前信道i,并且它被选中的可能性更大,相反,如果
Figure 61213DEST_PATH_IMAGE024
Figure 510649DEST_PATH_IMAGE025
减少,系统将探索其它更多的信道以期望获得更好的结果,因此,选择最佳信道的公式可以重写为:
Figure 677188DEST_PATH_IMAGE028
S5,重复步骤S2,S3与S4,直到收敛到最优信道。
2.根据权利要求1所述的一种快速收敛的最优信道选择方法,其特征在于,所述步骤S1中的G-E马尔可夫信道的状态有两种,忙用0表示和闲用1表示,有限状态空间定义为S={0,1}。
3.根据权利要求2所述的一种快速收敛的最优信道选择方法,其特征在于,所述状态转移模型中的授权信道状态转移概率矩阵以及状态分布表示为:
Figure 131565DEST_PATH_IMAGE029
其中,λ0和λ1是信道信念值的边界,信道是正相关,即λ0≤λ1,基于G-E马尔可夫特性,系统的下一个状态可基于当前状态由转移概率计算得出。
4.根据权利要求3所述的一种快速收敛的最优信道选择方法,其特征在于,所述步骤S2中的最优臂的平均收益通过以下公式计算:设在n个时隙之后,选择了第i个信道
Figure 990937DEST_PATH_IMAGE030
次,那么初始奖励值的平均值可以表示为:
Figure 662089DEST_PATH_IMAGE031
其中,
Figure 429057DEST_PATH_IMAGE032
是时隙t处选择信道i获得的实际的初始奖励值。
5.根据权利要求4所述的一种快速收敛的最优信道选择方法,其特征在于,所述
Figure 24028DEST_PATH_IMAGE033
当信道状态为忙时,传输将失败,则系统回报为
Figure 788722DEST_PATH_IMAGE034
的惩罚,当信道状态为空闲时,传输将成功,并给予
Figure 681591DEST_PATH_IMAGE035
的初始奖励值。
CN202010534314.5A 2020-06-11 2020-06-11 一种快速收敛的最优信道选择方法 Expired - Fee Related CN111711931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534314.5A CN111711931B (zh) 2020-06-11 2020-06-11 一种快速收敛的最优信道选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534314.5A CN111711931B (zh) 2020-06-11 2020-06-11 一种快速收敛的最优信道选择方法

Publications (2)

Publication Number Publication Date
CN111711931A CN111711931A (zh) 2020-09-25
CN111711931B true CN111711931B (zh) 2021-12-07

Family

ID=72540645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534314.5A Expired - Fee Related CN111711931B (zh) 2020-06-11 2020-06-11 一种快速收敛的最优信道选择方法

Country Status (1)

Country Link
CN (1) CN111711931B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256739B (zh) * 2020-11-12 2022-11-18 同济大学 一种基于多臂赌博机的动态流大数据中数据项筛选方法
CN114629804A (zh) * 2022-04-19 2022-06-14 华北电力大学 一种适配毫秒级源网荷切负荷的5g切片编排方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089273A (zh) * 2018-09-26 2018-12-25 西南科技大学 一种Ad-Hoc网络中基于状态转换概率的中继选择方法
CN109947545A (zh) * 2019-03-11 2019-06-28 重庆邮电大学 一种基于用户移动性的任务卸载及迁移的决策方法
CN110519020A (zh) * 2019-08-13 2019-11-29 中国科学院计算技术研究所 无人系统网络智能跨层数据传输方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3088794B1 (fr) * 2018-11-15 2020-12-25 Commissariat Energie Atomique Methode de selection dynamique de ressources de communication dans un reseau cellulaire de type heterogene

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089273A (zh) * 2018-09-26 2018-12-25 西南科技大学 一种Ad-Hoc网络中基于状态转换概率的中继选择方法
CN109947545A (zh) * 2019-03-11 2019-06-28 重庆邮电大学 一种基于用户移动性的任务卸载及迁移的决策方法
CN110519020A (zh) * 2019-08-13 2019-11-29 中国科学院计算技术研究所 无人系统网络智能跨层数据传输方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Intelligent Adaptive Data Transmission Strategy for CRNs;chen chunmei;《International Conference on Communication Technology》;20191019;全文 *

Also Published As

Publication number Publication date
CN111711931A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
Elgendy et al. Joint computation offloading and task caching for multi-user and multi-task MEC systems: reinforcement learning-based algorithms
He et al. QoE-driven content-centric caching with deep reinforcement learning in edge-enabled IoT
CN111953758B (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN111711931B (zh) 一种快速收敛的最优信道选择方法
CN109151864B (zh) 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法
US7346401B2 (en) Systems and methods for providing constrained optimization using adaptive regulatory control
Zheng et al. Deep reinforcement learning-based workload scheduling for edge computing
US20090112780A1 (en) Discovering optimal system configurations using decentralized probability based active sampling
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
Xiao et al. Repeated games with intervention: Theory and applications in communications
CN115633380B (zh) 一种考虑动态拓扑的多边缘服务缓存调度方法和系统
CN107889195B (zh) 一种区分业务的自学习异构无线网络接入选择方法
Bianchi et al. A fully-distributed proximal-point algorithm for Nash equilibrium seeking with linear convergence rate
CN110996365B (zh) 一种基于多目标优化模型的异构网络垂直切换算法及系统
Chen et al. An online approach for dnn model caching and processor allocation in edge computing
CN115514769B (zh) 卫星弹性互联网资源调度方法、系统、计算机设备及介质
Gao et al. Soft actor-critic learning-based joint computing, pushing, and caching framework in mec networks
Yun et al. Remote estimation for dynamic iot sources under sublinear communication costs
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
Bartolini et al. Self-∗ through self-learning: Overload control for distributed web systems
CN111935781B (zh) 数据分享网络的控制方法、网络系统及相关装置
CN114598655A (zh) 基于强化学习的移动性负载均衡方法
Tayeh et al. Fault tolerant data transmission reduction method for wireless sensor networks
CN108833138B (zh) 一种错误累积敏感的增量式动态社区发现方法及系统
CN114745389B (zh) 移动边缘计算系统的计算卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211207