CN108809456B

CN108809456B - 一种基于改进强化学习的集中式认知无线电频谱分配方法

Info

Publication number: CN108809456B
Application number: CN201810726743.5A
Authority: CN
Inventors: 马永涛; 朱芮
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2020-09-18
Anticipated expiration: 2038-07-04
Also published as: CN108809456A

Abstract

本发明涉及一种基于改进强化学习的集中式认知无线电频谱分配方法，包括：收集不同的认知用户感知数据，得到认知环境的状态信息；分析信道状态模型和调制方式对传输功率和误码率的影响；设定误码率门限标准约束为强化学习算法的奖励函数，当选择的动作适应于当前状态时给予激励正值，否则给予惩罚负值，构建强化学习算法模型；利用改进强化学习算法动态地分配频谱资源，即在执行算法时需要结合案例历史信息和自适应的贪心算子。

Description

一种基于改进强化学习的集中式认知无线电频谱分配方法

技术领域

本发明属于认知无线电频谱分配领域，涉及利用结合案例的改进强化学习算法来解决系统信道和调制方式的自适应决策方法。

背景技术

随着认知无线通信技术的飞速发展，为了更好的解决有限频谱的高效利用，结合新兴的智能学习算法于认知无线电当中称为研究热点。能够通过对认知环境的合理分析和推理，从频率、时间、空间等方面，根据不同的认知通信需求，提高某一方面的性能或者综合多个目标提高频谱效率。

频谱分配策略根据不同的划分方法可以分为多种，比如静态和动态频谱分配策略，集中式和分布式频谱分配策略，合作式和竞争式频谱分配策略等。其中按照网络结构分类的集中和分布是策略的区别在于是否由中心控制器来管理和协调认知用户对空闲频谱的使用。在集中式管理系统中，首先需要中心对认知用户感知结果的一个信息收集和处理，然后根据认知用户的需求分配频谱和认知参数。分布式频谱分配策略，则不需要中心控制器，依靠认知本地感知信息和与协作交互信息确定空闲频谱状态，进而进行频谱共享策略。

智能学习一般分为在线学习和离线学习两种方法，离线是基于大量的案例数据挖掘，从而获得一定的经验和知识，用来指导无线电系统的未来决策，例如基于案例推理和规则推理算法；而在线学习主要是通过与无线电环境的交互，获取环境信息，依靠自身来进行学习，通常用于认知无线电系统的初始工作状态，例如隐马尔可夫模型和强化学习算法。强化学习作为一种模式自由的智能算法，利用试错和反馈学习到最优行为选择策略，是一种在线学习方式，能够满足认知通信决策上实时性需求。将基于案例推理和强化学习结合在一起，在得到环境信息后能够借助案例库匹配历史信息，为强化学习的策略选择提供一定的参考标准，加快学习效率。

发明内容

本发明在于提供一种结合案例的改进强化学习算法，来优化集中式认知无线电系统的频谱分配。本发明的技术方案如下：

一种基于改进强化学习的集中式认知无线电频谱分配方法，包括下列步骤：

1)中心控制器收集不同的认知用户感知数据，得到认知环境的状态信息，设有M个信道，设定信道状态s为s_i∈S＝{(s₁,s₂,…,s_C)}，i代表当前帧，S为状态空间，信道状态有C＝2^M种，信道不可用时s_c记为0，信道可用时则不同的状态对应不同的信噪比值，并据此给出信道状态转移概率的表达形式；

2)分析信道状态模型和调制方式对传输功率和误码率的影响，设定动作信息为a_i∈A＝{(a_m,a_d)|m∈{1,2,…,M},d∈{0,1,2,…,D}}，A表示动作空间，a_m表示选择的信道，a_d表示选择的调制模式，D表示调制阶数；假设每次只选择一个信道进行数据传输，在给定信道状态和调制方式下，给出为达到目标误码率所需要的最小传输功率要求；

3)结合步骤1和步骤2中的数据，设定误码率门限标准约束为强化学习算法的奖励函数R(s_i,a_i)，当选择的动作适应于当前状态时给予激励正值，否则给予惩罚负值，构建强化学习算法模型{s,a,R}；

4)中心控制器利用改进强化学习算法动态地分配频谱资源，即在执行算法时需要结合案例历史信息和自适应的贪心算子，包括：

(1)初始化模型的系列参数，包括γ折损因子，α学习因子，最大迭代次数；

(2)根据状态信息，查看案例中是否存在相似的历史状态信息，做出初步的环境判断，若存在，则以相似度的程度按案例经验对信道和调制方式做出选择；若不存在，则以交互次数的自然对数的倒数为自适应的贪心算子，对信道和调制方式进行贪心算法选择；

(3)计算奖励函数，根据状态动作值函数评估动作选择的性能，直到满足算法停止条件，生成不同状态下对应不同动作的S-A值表供策略选择。

附图说明

图1本发明集中式认知系统场景图

图2本发明采用的改进强化学习算法流程图

具体实施方式

1、信道状态建模

以帧T_f作为时间单位构建系统模型，在每帧内，信道的状态不发生，信道状态的转移发生在两个状态之间，因此将信道状态转移模型化为马尔可夫链。假设信噪比(SNR)服从瑞利分布，其概率密度表达为

ρ＞0，其中

表示SNR平均值。设定不同信道状态的SNR阈值为ρ_snr＝{ρ₁,ρ₂,…,ρ_S-1},S表示信道状态的个数，信道状态概率分布函数为

进而推理出信道状态转移概率表示：

P_S(s_n,s_n+1)＝N(ρ_n+1)T_f/P_S(s_n),n∈{1,2,…,N-2}其中

f_d是多普勒频移，N表示跳转的次数。例如有M个信道，那多信道的状态转移概率为

p_s,m(s_i,s_i+！)表示第m个信道的状态从s_i转移到s_i+1的概率。

2、传输方式分析

为了提高传输效率，中心控制器利用自适应调制方法来调整传输功率和速率。用d∈{0,1,2,…,D}表示选择的传输模式，D表示最大调制阶数。d取值0表示不传输，取值为1表示BPSK方式传输，取值>1的则对应表示为2^d-QAM方式传输。当给定传输速率、功率和信道状态，借助相关相位检测可以估计出误码率的约束条件。

if d＞1,p_BER(s_i,d)≤0.2exp(-1.6ρ_iP(s_i,d)/P_noise(2^d-1))

式中p_BER(s_i,d)表示在s_i误码率，P(s_i,d)表示了在给定信道状态和调制方式下，为了达到目标误码率所需要的最小传输功率要求。P_noise表示噪声功率。

3、强化学习建模

强化学习模型主要由状态信息、动作信息和瞬时奖励{S,a,R}组成。假设有M个信道，其中状态参数s设定为信道状态s_i∈S＝{(s₁,s₂,…,s_C)}，i代表当前帧，S为状态空间，信道状态有C＝2^M种。若信道不可用s_c记为0值，信道可用则不同的状态对应不同的SNR值。动作a设定为a_i∈A＝{(a_m,a_d)|m∈{1,2,…,M},d∈{1,2,…,D}}，A表示动作空间，a_m表示选择的信道，a_d表示选择的调制模式。结合步骤1中的多信道转移概率情况，给出

其中Eb为单位比特能量，N0为噪声功率谱密度，其比值与调制阶数和频带利用率成正比。

误码率门限标准为奖励函数的反馈设定，取

其中th_BER为设定的误码率阈值，当选择的动作适应于当前状态时给予激励值，否则给予惩罚值。通过强化学习的Q值函数更新算法步骤，Q_i+1(s_i,a_i)＝(1-α)·Q_t(s_i,a_i)+α(R(s_i,a_i)+γ·V_i(S_i+1))，式中α表示学习速率，其中

表示在当前状态下选择使得Q(s,a)值函数最大作为其状态值函数值。

4、改进强化学习算法

当认知中心对当前的环境有历史认知信息时，可以借助之前存储的S-A表格，以概率的形式借助历史信息，对强化学习的策略选择进行指导。如下所示

其中π(s,a)表示在当前状态s下选择动作a的策略，Q_H表示历史的状态动作信息表，p_h为历史认知环境与当前认知环境的匹配概率，η为指定的匹配概率阈值。当无历史信息时，则根据以下的改进贪心思想策略选择动作。

其中ε为贪心均衡参数。

本发明对固定参数的贪心算法进行改进，令ε＝1/ln(N+1)以交互次数的自然对数的倒数为均衡参数ε，来增强算法的学习灵活性。在算法的初始阶段交互次数小，对环境信息没有足够的了解，对当前的状态需要更多地探索不同动作会带来的结果，充实不同状态下动作选择的Q值，此时设定的均衡参数较大，符合以大概率来探索可能的解的需求。在算法的后续阶段，当收集到部分环境信息后，对不同状态下的动作选择有了初步的掌握，此时设定的均衡参数逐渐变小趋于0.1，能保证以较大的概率充分利用已获得的历史经验的同时，以较小的概率对环境状态的随机动作选择做出探索。

Claims

1.一种基于改进强化学习的集中式认知无线电频谱分配方法，包括下列步骤：