一种基于混沌Q-学习算法的竞争窗口大小智能选择方法
技术领域:
本发明属于通信技术领域,更为具体地讲,涉及一种基于混沌Q-学习算法的竞争窗口大小智能选择方法。
背景技术:
近十几年,移动通信技术高速发展,已逐步成为人们工作和生活当中不可替代的一部分,为人们带来了极大的便利。随着用户业务种类和需求的井喷式增长,未来无线移动通信系统在技术、安全和服务等方面会出现新的挑战。为了使用户获得更好的服务体验,需要对通信系统的传输速率、分组时延以及通信容量等指标提出更高的要求。目前,业内主要提出了两种解决方案来满足高速增长的通信业务需求。第一种方案是在免授权频段上升级物理层和数据链路层技术。第二种方案是将蜂窝网技术搬移到免授权频段上工作。由于授权频谱资源不可再生,当前的免授权频段极其匮乏且频谱利用率已接近临界值,因此第一种方案无法从根本上解决问题,人们更加倾向于第二种方案作为长远解决方案。
如果将LTE技术直接应用在免授权频段上,这势必对免授权频段上现有的技术(如:WiFi网络)造成干扰进而降低系统的性能。目前,许多无线通信技术工作在免授权频段上,其中以低成本和高数据率的WiFi技术为主要技术。因此,关键问题是设计一个共存机制使得LTE与WiFi网络在免授权频段上和谐共存,既要让LTE网络获得足够的频谱满足通信需求,也要避免过度干扰到WiFi 网络及其用户。
当前,工业界和学术界为了使LTE与WiFi网络在免授权频段上和谐相处提出了各种共存机制,例如:动态频谱选择(Dynamic Frequency Selection,DFS)、几乎空白子帧(Almost Blank Subframe,ABS)、载波监听自适应传输(Carrier Sensing AdaptiveTransmission,CSAT)、传输功率控制(Transmit Power Control, TPC)、免授权频段长期演进(LTE-Unlicensed,LTE-U)、“先听后说”(Listen before talk,LBT)等技术。其中,在2014年6月法国的Sophia Antipolis会议中,3GPP 提出的基于LBT机制的授权辅助接入(Licensed Assisted Access,LAA)方案寻求作为全球长远解决方案。该方案一个重要特征就是LTE接入免授权频谱前需要对信道情况进行评估,即LBT机制的空闲信道评估(ClearChannel Assessment, CCA)过程。因而这种机制需要对LTE协议栈进行修改以及设备商的支持。目前3GPP、ESTI等电信组织也正在积极对LBT共存机制制定相关标准。
作为LTE与WiFi网络在免授权频段上和谐相处的全球解决方案,3GPP、 ESTI等电信组织以及工业界和学术界提供了大量的LAA机制评估材料。通过研究发现,LAA机制的竞争窗口值对共存网络的性能影响很大。考虑到竞争窗口值对共存系统的影响,一个高效的退避机制将能够提高信道的频谱利用率,从而使用户获得较好的服务质量(Quality ofService,Qos)。
目前,先进的智能技术有望在未来的通信系统中发挥至关重要的作用。考虑到现有的退避机制(如二进制指数退避机制等)缺乏动态学习/训练的过程,且不能根据实时的网络环境灵活调整系统参数,这在一定程度上制约了共存网络的性能。
因此,设计一个高效智能的退避机制,通信系统将能够针对共存网络的实时环境同步生成一个合理的竞争窗口大小,这有助于提升免授权频段频谱效率。
发明内容
有鉴于此,本发明的目的在于提供一种基于混沌Q-学习算法的竞争窗口大小智能选择方法。基于所提出的混沌Q-学习算法,LAA小基站可以基于当前的环境根据历史经验智能地选择最优竞争窗口大小,最终实现高吞吐量和高公平性的目标,能够提高共存系统的频谱利用率,从而提升用户体验。该方法具有简洁高效的特点,与此同时,具备一定的可移植性。
为了达到上述目的,本发明提供如下技术方案:
一种基于混沌Q-学习算法的竞争窗口大小智能选择实现方法,该方法包括以下步骤:
S1:设置智能体(LAA小基站)的动作集合:A∈[wmin,wmax];
S2:初始化Q(s,a)、Γ、η、wmin、wmax、α、γ、ψ、
S3:设置吞吐量和公平性阈值;
S4:设置智能体状态集合,即S={s1,s2,s3,s4,s5,s6};
S5:智能体以概率(1-ε)选择最大Q值所对应的动作,而以概率ε根据混沌序列选择某个动作;
S6:在执行所选择的动作之后,智能体从环境中获取该动作所对应的奖励值,并更新动作Q值函数,然后进入到下一个状态;
S7:重复步骤S5-S6,直至s到达目标状态(高吞吐量和高公平性);
S8:重复步骤S3-S7,直至动作Q值函数达到稳定状态,即任意的 |Qt-Qt+1|≤θ。
进一步,在步骤S1中,LAA小基站的动作集合表示为LAA机制的竞争窗口大小。根据有限动作集合的马尔科夫过程定义任意t时刻LAA小基站动作为A∈[wmin,wmax]。
进一步,在步骤S2中,初始化Q(s,a)为零矩阵,并预定义各参数阈值。
进一步,在步骤S3中,预定义吞吐量和公平性阈值,其表达式定义为:
其中Γ、η和n是预定义的阈值。
进一步,在步骤S4中,LAA小基站的状态集合表示为系统吞吐量和公平性的组合,即st={Rt,Ft},Rt表示t时刻系统在免授权频段上所获得的总吞吐量,即LAA和WiFi用户吞吐量之和其中是在每个决策时刻t的WiFi网络吞吐量。目前WiFi网络与LAA基站并没有直接联系的渠道,为了能够利用智能技术优化共存性能,考虑到IEEE和3GPP正在就免授权频谱的利用开展合作,我们假定每个WiFi接入点在每个决策时刻都会向周边的LAA 基站广播它自己的吞吐量和接入的设备数。因而,LAA基站总是能获取WiFi的即时信息。是每个决策时刻t的LAA网络吞吐量。Ft表示平均意义上的公平性函数,其表达式定义为:
其中Rt(s,l)(Rt(s,w))表示LAA(WiFi)用户吞吐量,nl表示LAA小基站用户的数量,nw表示WiFi的用户数。根据预定义的吞吐量和公平性阈值,我们将LAA小基站的状态集合分成六种状态:低吞吐量低公平性低吞吐量低公平性低吞吐量高公平性、高吞吐量低公平性高吞吐量低公平性高吞吐量高公平性,即
其中和(且)分别表示吞吐量和公平性的阈值。
进一步,在步骤S5中,由于LAA小基站的目标是获取较高的奖励值,因此,在每个状态下,将会选择具有最高Q值的动作。但是在学习的初始阶段,最高Q值的动作导致了LAA小基站总是沿着相同的路径而不可能探索到其他更好的值,从而容易陷入局部最优。为了平衡动作选择过程中的探索与利用,通常采用ε-贪婪策略。
ε-贪婪选择策略是一种最简单的多臂老虎机算法(Multiarmed BanditAlgorithms,MBA)。基于ε-贪婪策略的LAA小基站在平衡探索和利用的过程中以概率ε进行随机选择,而以概率1-ε选择最大效用值动作。具体表达式定义为:
然而,该策略可能会导致收敛速度变慢,因为LAA小基站只有在遍历所有动作后才能获得稳定的Q矩阵。为了解决该问题,将具有遍历性、规律性和随机性特征的混沌运动作为动作选取的优化策略引入到Q-学习框架中。
混沌系统中有三种常见的映射系统:Logistic映射、Chebyshev映射和 Henon映射,对于Logistic映射其方程定义为:
zk+1=μzk(1-zk)
其中0≤μ≤4称为控制参数,当μ∈[3.5699456…,4]时,logistic映射工作于混沌态。k表示迭代次数,z称为混沌变量,混沌域为(0,1)。
我们设计了一种ε-混沌贪婪选择策略。在Q-学习框架下,LAA小基站每次在平衡探索和利用的过程中根据该策略以概率1-ε选择最大效用值动作,同时以概率ε进行混沌动作选择。具体表达式如下所示:
进一步,在步骤S6中,LAA小基站执行选择的动作后将从环境中获取一个奖励值,奖励值函数定义为:
其中ψ表示权重因子且0<ψ<1,表示共存系统吞吐量最低要求阈值, Ft o表示共存系统公平性函数的最小要求阈值。
LAA小基站在从环境中获取奖励值后,需要对Q矩阵进行更新,其更新公式定义为:
式中α表示学习速率且0<α<1,Υ表示折扣因子且0≤Υ<1。学习速率和折扣因子协同调节Q矩阵的更新,进而影响Q算法的学习性能。
进一步,在步骤S7中,LAA小基站重复执行S5-S6,直至达到目标状态(即高吞吐量和高公平性)。
进一步,在步骤S8中,LAA小基站重复执行S3-S7,直至动作Q值函数达到稳定状态,即任意的|Qt-Qt+1|≤θ。
本发明的有益效果在于:一种基于混沌Q-学习算法的竞争窗口大小智能选择方案,LAA小基站可以基于实时环境根据历史经验智能地选择最优竞争窗口大小,最终实现高吞吐量和高公平性的目标,提高共存系统的频谱利用率,从而提升用户体验。
附图说明
图1为本发明实施例所述的Q-学习算法模型图;
图2为本发明实施例所述的LTE与WiFi共存的网络模型图;
图3为本发明实施例所述的一种基于混沌Q-学习算法的竞争窗口大小智能选择方法的流程示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对LTE与WiFi在免授权频段(5GHz)上基于LBT机制共存问题,提出一种基于混沌Q-学习算法的竞争窗口大小智能选择方法。与传统的退避算法相比,本发明中基于混沌Q-学习算法能够对LAA竞争窗口大小进行智能选择,换言之,LAA小基站可以根据实时网络环境灵活地选择一个合理的竞争窗口大小,其过程如图1所示。首先在某个状态下,LAA小基站根据ε-混沌贪婪选择策略选择某个动作并执行该动作;然后观察环境并获取对应的奖励值,根据相应公式更新Q矩阵并基于当前Q矩阵确定下一个状态的动作;最后重复上述步骤直至达到目标状态。
我们考虑共存场景中存在多个LAA小型基站和多个WiFi接入点(AP),网络模型如图2所示。虽然LAA小基站可以在多个免授权频段上运行,但是我们主要关注LAA的共存性能,因此,所考虑的场景可以简化为更简单的共存场景,在特定的一个未许可信道上存在多个LAA小基站和一个WiFi AP。假设在所考虑的共存场景中存在nl个LAA小基站和一个具有nw个用户的WiFi AP,其中WiFi用户的网络接入遵循IEEE 802.11标准。
Q-学习算法是一种确定最优决策策略的增强学习应用算法。在Q-学习算法迭代过程中,将状态集合定义为S,若决策时间为t,则st∈S,表示在t时刻 LAA小基站的状态为st。同时,将LAA小基站可能执行的有限动作集合定义为A,at∈A表示在t时刻LAA小基站的动作。奖励函数r(st,at)表示LAA小基站基于所处的状态st执行动作at后从环境中获得的奖励值,然后从状态st转移到 st+1,在下一个决策时间t+1对Qt函数进行更新。
在共存网络中,LAA小基站用户在免授权频段上与WiFi用户和谐共存。基于Q-学习算法工作原理,LAA小基站的动作集合表示为LAA机制的竞争窗口大小。根据有限动作集合的马尔科夫过程定义任意t时刻LAA小基站动作集合为A∈[wmin,wmax]。
预定义共存系统的吞吐量和公平性阈值,其表达式如下所示:
其中Γ、η和n分别是预定义的阈值。
进一步,状态集合的表达式定义为:
st={Rt,Ft}
其中Rt表示t时刻系统在免授权频段上所获得的总吞吐量,即LAA和 WiFi用户吞吐量之和(Rt=Rt(s,l)+Rt(s,w))。Ft表示平均意义上的公平性函数,其表达式定义为:
其中Rt(s,l)(Rt(s,w))表示LAA(Wi-Fi)用户吞吐量,Ft的值越接近于1表明系统越公平。
根据预定义和(且)的阈值,将LAA小基站的状态集合分成六种状态:低吞吐量低公平性低吞吐量低公平性低吞吐量高公平性、高吞吐量低公平性高吞吐量低公平性高吞吐量高公平性。因此状态集合S的元素表示如下:
LAA小基站的目标是获取较高的奖励值,因此,在每个状态下,将会选择具有最高Q值的动作。但是在学习的初始阶段,由于状态-动作对的经验比较少,Q值不能准确地表示正确的强化值,进而最高Q值的动作导致了LAA小基站总是沿着相同的路径而不可能探索到其它更好的值,最终容易陷入局部最优。因此,为了平衡动作选择过程中的探索与利用,通常采用ε-贪婪策略。
ε-贪婪选择策略是一种最简单的多臂老虎机算法(Multiarmed BanditAlgorithms,MBA)。基于ε-贪婪策略的LAA小基站在平衡探索和利用的过程中以概率ε进行随机选择,而以概率1-ε选择最大效用值动作。具体表达式定义为:
然而,该策略可能会导致LAA小基站收敛速度变慢,因为智能体只有在遍历所有动作后才能获得稳定的Q矩阵。为了解决该问题,将具有遍历性、规律性和随机性特征的混沌运动作为动作选取的优化策略引入到Q-学习框架。
混沌系统中Logistic映射方程定义为:
zk+1=μzk(1-zk)
其中0≤μ≤4称为控制参数,当μ∈[3.5699456…,4]时,logistic映射工作于混沌态。k表示迭代次数,z称为混沌变量,混沌域为(0,1)。
我们设计了一种ε-混沌贪婪选择策略。在Q-学习框架下,LAA小基站每次在平衡探索和利用的过程中根据该策略以概率1-ε选择最大效用值动作,同时以概率ε进行混沌动作选择。具体表达式定义为:
LAA小基站基于ε-混沌贪婪选择策略选择某个动作后执行该动作,然后从环境中获取一个奖励值,奖励值函数表达式定义为:
其中ψ表示权重因子且0<ψ<1,表示共存系统吞吐量最低要求阈值, Ft o表示共存系统公平性函数的最小要求阈值。从奖励值函数表达式中可以看出 rt是有界函数,根据瓦特金斯(Watkins)收敛条件可知该Q-学习过程具有收敛性。考虑到整个网络的吞吐量性能和网络公平性因素,奖励值函数在系统吞吐量高于最低吞吐量阈值的条件下使得公平性函数值尽可能的接近1。
LAA小基站在从环境中获取奖励值后,需要对Q矩阵进行更新,其更新公式定义为:
式中α表示学习速率且0<α<1,Υ表示折扣因子且0≤Υ<1。学习速率和折扣因子协同调节Q矩阵的更新,进而影响Q算法的学习性能。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。