CN101466111B

CN101466111B - 基于政策规划约束q学习的动态频谱接入方法

Info

Publication number: CN101466111B
Application number: CN2009100291167A
Authority: CN
Inventors: 王金龙; 吴启晖; 刘琼俐; 丁茜; 张玉明
Original assignee: COMMUNICATION ENGINEERING COLLEGE SCIENCE & ENGINEEIRNG UNIV PLA
Current assignee: COMMUNICATION ENGINEERING COLLEGE SCIENCE & ENGINEEIRNG UNIV PLA
Priority date: 2009-01-13
Filing date: 2009-01-13
Publication date: 2010-11-17
Anticipated expiration: 2029-01-13
Also published as: CN101466111A

Abstract

本发明提供了一种基于政策规划约束Q学习的动态频谱接入方法，认知用户对频谱状态空间进行划分，选出合理和合法的状态空间；对上述状态空间进行分等级模块化；每个等级模块，完成Q学习前的Q表初始化工作；每个模块单独的进行Q学习算法，根据学习规则结合动作选择算法，综合考虑所有学习模块进行决策，得出认知用户最终要采取的动作；判断选择接入的频谱是否和授权用户冲突，若发生冲突则计算冲突概率，否则进入下步；判断环境政策规划知识库是否发生改变，若变，更新环境政策规划知识库，并调整学习的Q值；重复上述部分步骤，直到学习收敛。本发明能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度。

Description

基于政策规划约束Q学习的动态频谱接入方法

技术领域

本发明涉及一种认知无线电领域，具体说是一种动态频谱接入方法。

背景技术

认知无线电(cognitive radio，简称CR)是一种新的提高频谱利用率的技术，它可以将一些区域中暂时没有被授权用户(licensed users，简称LU)使用的频段借给未授权用户(也称作认知用户cognitive user，简称CU)使用来提高频谱利用率。认知无线电是一个智能的无线通信系统，它能够通过对无线电环境的学习，相应地动态调整其传输参数。

近年来，认知无线电动态频谱接入技术成为一个热门的问题，受到广泛的关注。研究人员针对动态频谱接入在频谱利用率、冲突概率、频谱利用公平性等方面进行了大量研究，但这些算法均未涉及频谱接入的自主性问题，这一点对于认知无线电所要面对的复杂系统来说是很重要的。考虑到业务需求在空间和时间上的动态变化及其不规则性，一个设计好的不具备学习能力的动态频谱接入算法一般对环境有很多要求、很难具有普适性。为实现对频谱资源的分布式自主接入以减少人力参与，需要网络和用户具有能根据实际运行情况不断修正其接入策略的自主学习能力。具备不需人为干预的熟练的决策能力的认知无线电是目前研究的主要技术基础，未来频谱接入应当是自主的、动态的、自适应的。

学习能力是认知无线电一个重要的特征，学习是人类获取知识的主要形式，是基本的认知活动，是经验与知识的积累过程，也是人类具有智能、提高智能水平的基本途径。用户具有智能，在无人干预的情况下，自主接入未知的环境、自主完成通信任务已经成为通信技术发展和在各领域广泛应用的迫切需求。使agent(智能用户)能从环境中学习，即自动获取知识、积累经验、不断更新和扩展知识，具有自学习、自适应能力将会成为一个研究的热点。

强化学习是一种具有自学习能力的“试错”的在线学习技术，学习者通过与环境不断交互获得学习经验，进而逐步改进其动作策略。强化学习以其灵活性和自适应性，广泛应用于机器人和自动控制领域，并被引入无线蜂窝网络的动态信道分配以及传感器网络中的可重配置问题中。强化学习由于不需环境任何信息就可以进行，已被证明能充分利用与环境交互中所得到的信息，能动态适应环境变化。将强化学习算法引入到动态频谱接入中，不需对环境建立复杂的数学模型就可以实现认知引擎对频谱的选择以达到避免干扰授权用户的目标，是一种不错的选择。

由于强化学习是一种无监督的机器学习技术，能够利用不确定的环境奖赏发现最优的动作序列，实现动态环境下的在线学习，因此被广泛用于agent的智能决策，取得了显著的成果。但在对认知无线网络和其应用环境进行建模时出现了一些问题，首先，随着网络中用户(agent)数量的增多，每个用户的状态空间呈指数增加，即便是最简单的问题的学习也变得异常困难；其次，认知无线网络本身的复杂性和环境的快变特性也使得传统的Q学习在学习速度上不能胜任；最后，Q学习算法必须通过反复实验的方法来学习，算法效率不高，而且在未知环境中的盲目学习会冒一定的风险。

发明内容

本发明的目的就是为了解决上述问题，提出一种能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度的基于政策规划约束算法的动态频谱接入方法。

本发明是采用以下技术方案实现的：

一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，首先认知用户在政策规划约束下，利用感知到的环境信息和专家经验，用模糊综合决策方法得到Q学习的先验知识，接着包括下列步骤：

步骤1，认知用户感知环境状态，并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分，选出合理和合法的状态空间，剔除政策规划不允许认知用户使用的状态空间；

步骤2，根据政策规划的指导，依据环境先验知识对步骤1得出的合理和合法的状态空间的进行分等级模块化；

步骤3，对每个等级模块，依据Q学习的先验知识，使用模糊综合决策，完成Q学习前的Q表初始化工作，并将得出的Q值存入Q值表征模块；

步骤4，初始化其他工作参数，每个模块开始单独的进行Q学习算法，根据学习规则结合动作选择算法，综合考虑所有学习模块进行决策，得出认知用户最终要采取的动作，选择频谱进行接入；

步骤5，判断选择接入的频谱是否和授权用户冲突，根据判断设置回报值，若发生冲突则计算冲突概率，否则进入步骤6；

步骤6，判断环境的政策、规划和数据是否发生改变，如果发生改变，更新环境政策规划知识库，并根据政策、规划和数据的改变调整学习的Q值；

步骤7，重复步骤4～6，直到学习收敛。

其中，先验知识可以是已知的优化算法，也可以是学习系统以前的学习经验，存储在知识库中，可以随着学习过程更新。

所述步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下：

1)、设定因素集U＝(u₁，u₂，…，u_n)和决策集V＝(v₁，v₂，…，v_m)，n表示所有影响决策的因素个数，m表示决策集中所有决策的个数，因素集是影响决策的各个因素的集合，设计时应包括所有主要因素，决策集是决策者可能做出的所有决策的集合；

2)、设计单因素决断f：U→F(v)，建立从U到V的模糊映射，构造模糊评价矩阵R_f，如下式所示，R_f可由模糊矩阵M_m×n表示，R_f的元素r_ij是指因素u_i对于决策v_j的评价，i，j是R_f矩阵中元素下标，i可以为{1，2，…，n}，j可以为{1，2，…，m}，模糊评价矩阵参照专家经验设定，可设计成常数矩阵或函数矩阵；

3)、设定因素权重集W＝(w₁，w₂，…，w_n)，权重集W反映各个因素影响决策的程度，可由决策者根据经验直接给出，也可用某种隶属度方法求得；

4)、根据因素集U、决策集V和模糊评价矩阵R_f，通过权重集W，进行模糊运算，得到综合决断B＝W⊙R_f，决断向量B的元素，反映了各个决策按照全体目标综合衡量的优越程度，以向量B为依据便可按照最大隶属度的原则选出最优方案或者排列各个方案的优先次序，作为采取不同决策的一个参考；

5)、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识，对Q值进行初始化，可计算各等级模块下所有Q值，

Q*(s，a)＝argmax∑_iQ(s，a)

其中，i为等级模块的数目，Q*(s，a)表示i个等级模块下a动作的总体回报估计的最大值。

知识库中政策规划的表达和更新可以通过“基于软件”的方式实现：使用策略元语言，将频谱政策规划编码为机器可读的形式，然后通过智能媒体或互联网等途径将其写入认知无线节点，系统便可运行，这一过程类似于计算机载入一个新的配置文件。

步骤4中，动作选择算法采用greedy算法或ε-greedy或Boltzmann方法或模拟退火方法。

所述步骤4中Q学习的实现步骤如下：

1)、初始化：初始化Q值已由其他几个模块完成，只需设定折现因子γ和初始学习率α₀，以及动作选择算法中的初始探索概率ε₀；

2)、状态构建：由状态感知模块感知频谱环境，根据感知到的授权用户占用频谱的情况和认知用户自身占用的情况构建s_i；

3)、Q值获取：根据构建的状态s_i和可以采取的动作，从Q值表征模块获取Q值；

4)、动作选择和执行：动作选择模块根据每一个Q(s_i，a)，采用动作选择算法，从可选动作中选择一个a并执行；

5)、获取回报：回报值的设定可以根据需要设定和获得，甚至可以简单设定当认知用户选择占用的频率与授权用户冲突时r＝-5，不冲突时r＝1；

6)、Q值更新：动作执行后，新的状态s′及其所有的Q值q(s_i′，a′)就能够由步骤2)、3)得到；结合记录的动作a以及相应的即时回报，缓存的Q_t(s，a)由下式更新为Q_t+1(s，a)。

Q_{t + 1} (s, a) = (1 - α_{t}) Q_{t} (s, a) + α_{t} (r_{t} + γ \max_{a^{'}} Q_{t} (s^{'}, a^{'}))

其中Q_t+1(s_t，a_t)表示更新后的Q值，每次只更新一个值，也就是(s_t，a_t)对应的Q值，(s_t，a_t)表示在t时刻的状态和动作的组合；Q_t(s_t，a_t)表示在更新前，也就是t时刻能查到的(s_t，a_t)对应的Q值，Q_t(s_t+1，a)表示在Q值更新前，新的状态和所有可能动作(用a表示)组合对应的Q值，α_t表示t时刻的学习速率，r_t表示t时刻的奖赏值。Q(s，a)表示一个矩阵，其中s代表所有可能的状态值，a表示所有可能的动作值，而对应所有的(s，a)组合都有一个Q值，这些Q值就组成了Q(s，a)矩阵。

7)、参数更新，每轮迭代结束时，学习率α以及探索概率ε都需要更新。

包含政策规划和数据的知识库的作用贯穿整个过程，包括对可接入区域的选择、学习模块的划分、提供模糊决策中要用到的知识，知识库可以根据环境的改变而实时更新，数据部分也可以由学习的知识进行更新。

本发明针对基于Q学习的动态频谱接入方法在认知无线电快变环境中学习盲目、效率低、收敛速度慢的缺点，在政策规划约束下，充分利用先验知识和学习过程中的经验知识，引入模糊决策的全新Q学习算法来实现动态频谱接入。结合人类经验、专家知识、模糊决策理论、机器学习等相关理论，克服了智能体学习的盲目性、提高了学习效率、加快了收敛速度。

附图说明

图1是基于PRQL算法的动态频谱接入示意框图。

图2是PRQL算法模块化示意框图。

图3是基于PRQL算法的动态频谱接入流程示意图。

图4是PRQL算法和经典QL算法收敛性能对比曲线图。

图5是两种算法动态适应频谱政策改变的性能对比曲线图。

具体实施方式

如图1所示，agent根据政策规划指导在状态空间选出能进行学习的状态空间并针对不同状态空间分等级模块化，根据专家知识以及先验知识来初始化Q表；根据初始化的Q表获得的其他参数进行Q学习，获得干扰概率最小的动态频谱接入方案。本发明就是考虑政策规划约束，实现认知无线电动态频谱接入，其具体实现步骤如下：

1、agent感知环境状态，并在包含政策规划和数据的知识库的指导下对状态空间进行划分，剔除政策规划不允许认知用户使用的部分频谱，只对政策规划允许的部分频谱空间进行感知和学习使用；

2、根据频谱政策规划的指导，根据环境先验知识对状态空间的进行分等级模块化学习，对频谱使用频率较低、用户密度较小、机会较多的部分进行高等级重点感知和学习，使得每个模块需要学习的空间减小，减小复杂度；

3、对每个模块，依据先验知识，使用模糊综合决策，完成Q学习前的Q初始化工作；

4、初始化其他工作参数，开始进行Q学习算法，根据学习规则作出决策，选择频谱进行接入；

5、判断环境的政策规划等是否发生改变，如果发生改变，更新环境政策规划知识库，并将根据政策规划的改变调整学习的Q值。

6、重复步骤4～5，计算干扰概率，直到学习收敛。

步骤1中先对环境状态空间按照政策规划指导进行划分，选出合理和合法的感知和学习空间。比如有一段频谱，其中一部分按照政策规划的规定是分给军事通信用的，不允许认知用户使用，这样这一段频谱就不用浪费时间和资源去感知和学习，就是可以去掉的部分；

步骤2中PRQL算法模块化实现如图2所示，PRQL算法对认知无线网络中每个agent的学习空间进行分等级模块化划分，将复杂的任务进行分解以减小状态空间的规模，提高学习效率，具体步骤如下：

1、对合理感知空间根据先验知识和环境信息进行分块。可根据频谱使用密度、授权用户类型、对干扰敏感程度等等，区分不同感知学习等级。对适合认知用户接入，机会较多的区域重点感知和学习；对机会一般，但还是可能接入的区域可适当减少感知学习的精力；对机会很少，或者有特殊要求的区域可在没必要的情况下尽量不去感知和学习。当然还可以分得更细，充分考虑其它因素进行模块划分。

2、agent内部按等级分模块进行感知和学习。每个模块需要学习的空间减小了，学习效率和收敛速度都会加快。

3、在每个模块中，agent按照传统的Q学习算法单独的进行学习，感知状态空间并获得回报。每个模块拥有自己的Q表，其更新方法与其他学习模块无关。决策模块按下式来决定agent最终要采取的动作。

\arg \max Σ_{j = 1}^{3} Q_{j} (s_{i}, a)

这里Q_j代表第j个模块的Q函数，a代表agent的动作。

步骤3中先验知识可以是已知的优化算法，也可以是学习系统以前的学习经验，存储在知识库中，可以随着时间更新。没有先验知识的学习系统(也就是没有先验知识用来对Q表初始化)，尽管给Q表随机赋初值，经过agent长时间的探索学习也能取得好的学习结果，但这将会大大影响学习算法的效率和收敛的速度。将先验知识和学习中获得的经验融入Q学习算法，对Q表进行初始化，能减少学习所花费的时间。

模糊综合决策模块实现将影响决策的因素与Q值初始化对应。模糊综合决策综合考虑多因素的影响对问题做出的综合决断，模糊综合决策充分考虑到专家经验及相关因素对决策的重要程度，步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下：

1、设定因素集U＝(u₁，u₂，…，u_n)和决策集V＝(v₁，v₂，…，v_m)。n表示所有影响决策的因素个数，m表示决策集中所有决策的个数，因素集是影响决策的各个因素的集合，设计时应包括所有主要因素，决策集是决策者可能做出的所有决策的集合；

2、设计单因素决断f：U→F(v)，建立从U到V的模糊映射，构造模糊评价矩阵R_f，如下式所示，R_f可由模糊矩阵M_m×n表示，R_f的元素r_ij是指因素u_i对于决策v_j的评价，i，j是R_f矩阵中元素下标，i可以为{1，2，…，n}，j可以为{1，2，…，m}。模糊评价矩阵参照专家经验设定，可设计成常数矩阵或函数矩阵；

3、设定因素权重集W＝(w₁，w₂，…，w_n)。权重集W反映各个因素影响决策的程度，可由决策者根据经验直接给出，也可用某种隶属度方法求得；

4、根据因素集U、决策集V和模糊评价矩阵R_f，通过权重集W，进行模糊运算，得到综合决断B＝W⊙R_f。决断向量B的元素，反映了各个决策按照全体目标综合衡量的优越程度。以向量B为依据便可按照最大隶属度的原则选出最优方案或者排列各个方案的优先次序，作为采取不同决策的一个参考。

5、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识，对Q值进行初始化。

其中利用“归一”方法对Q值进行初始化的过程主要有：

a)调整状态s_i下(此处s_i表示所有可能的状态的集合)的模糊综合决断结果B_i，Bi可由上面得出，对应每个状态有一个Bi值，得到向量B′_i＝(b′_i1，b′_i2，…，b′_im)，且满足下式。Q学习时，选用Boltzmann动作选择策略，以概率P(a_j)来随机的选择动作a_j，在模糊综合决策中参照概率向量B′_i的元素b′_ij选择动作a_j，由此可得到b′_ij＝P(a_j)。

B_{i}^{'} = (\frac{b_{i 1}}{Σ_{j = 1}^{m} b_{ij}}, \frac{b_{i 2}}{Σ_{j = 1}^{m} b_{ij}}, \cdot \cdot \cdot, \frac{b_{im}}{Σ_{j = 1}^{m} b_{ij}})

b)假设在状态s_i下的所有的Q值可用向量(Q_i1，Q_i2，…，Q_im)表示，可得到下式。

\frac{b_{ij}^{'}}{b_{il}^{'}} = \frac{e^{Q_{ij} / T}}{e^{Q_{il} / T}} &DoubleRightArrow; Q_{ij} - Q_{il} = T \ln (b_{ij}^{'} / b_{il}^{'})

考虑到先验知识对决策的影响程度设定得到下式，其中：k为常数系数，k越大表示先验知识对决策的影响越大；

Q_i1＝k×max(r(s_i，a_j))，(j＝1，2，L，m)

c)由上面两式可计算状态s_i下所有Q值，Q*(s，a)＝argmax∑_iQ(s，a)，其中，i为等级模块的数目，Q*(s，a)表示i个等级模块下a动作的总体回报估计的最大值。

按照上面几个步骤在政策规划的指导下对状态空间进行划分，模块化，并将先验知识体现在Q表的初始值以后，每个模块就开始单独的Q学习，然后按照上式综合考虑所有学习模块进行决策，选择动作执行，以实现决策的最优化。

步骤4中Q学习的实现步骤如下：

1、初始化。初始化Q值已由其他几个模块完成，只需设定折现因子γ和初始学习率α₀，以及动作选择算法中的初始探索概率ε₀。

2、状态构建。由状态感知模块感知频谱环境，根据感知到的授权用户占用频谱的情况和自身占用的情况构建s。

3、Q值获取。根据构建的状态和在政策规划约束下可以采取的动作，从Q值表征模块获取Q值。

4、动作选择和执行。动作选择模块根据每一个Q_t(s_t，a)，采用动作选择策略(比如ε-greedy等)算法，从可选动作中选择一个a并执行。

5、获取回报。回报值的设定可以根据需要设定和获得。甚至可以简单设定当认知用户选择占用的频率与授权用户占用的频率冲突时r＝-5，不冲突时r＝1。

6、Q值更新。动作执行后，新的状态s′及其所有的Q值q(s_i′，a′)就能够由步骤2和3得到。结合记录的动作a以及相应的即时回报，缓存的Q_t(s，a)由下式更新为Q_t+1(s，a)。

Q_{t + 1} (s_{t}, a_{t}) = (1 - α_{t}) Q_{t} (s_{t}, a_{t}) + α_{t} (r_{t} + γ \max_{a^{'}} Q_{t} (s_{t + 1}, a))

7、参数更新。每轮迭代结束时，学习率α以及探索概率ε都需要更新。

包含政策、规划和数据的知识库的作用贯穿整个过程，包括对可接入区域的选择、学习模块的划分、提供模糊决策中要用到的知识等。知识库可以根据环境的改变而实时更新，数据部分也可以由学习的知识进行更新。

图3例示了基于PRQL算法的动态频谱接入方法流程图，具体步骤如下：

1、agent感知环境状态，并在包含政策规划和数据的知识库的指导下对状态空间进行划分，重点对政策规划允许、频谱使用频率较低、用户密度较小、机会较多的部分进行重点感知和学习使用；

2、初始化。在政策规划约束下，依据先验知识，使用模糊综合决策，完成Q学习前的Q初始化。同时设定折现因子γ和初始学习率α₀，以及动作选择算法中的初始探索概率ε₀。

3、状态构建。由状态感知模块感知频谱环境，根据感知到的授权用户占用频谱的情况和自身占用的情况构建每个模块的状态s。

4、Q值获取。根据构建的状态和在政策规划约束下可以采取的动作，从Q值表征模块获取Q值。

5、动作选择和执行。动作选择模块根据每一个Q_t(s_t，a))，采用动作选择策略(比如ε-greedy等)算法，从可选动作中选择一个a并执行。

6、获取回报。判断选择接入的频谱是否和授权用户冲突，根据判断值设置回报函数，并计算冲突概率。

7、Q值更新。动作执行后，新的状态s′及其所有的Q值q_t(s_t+1，a)就能够由步骤3和4得到。结合记录的动作a以及相应的即时回报，缓存的Q_t(s，a)由更新为Q_t+1(s，a)。

8、参数更新。每轮迭代结束时，学习率α以及探索概率ε都需要更新，可设置它们以负指数规律随着学习的过程逐渐减小为0，以满足Q学习的收敛性要求。

为了便于对本发明的基于PRQL算法的动态频谱接入方法以及基于经典Q学习算法的动态频谱接入方法进行比较，图4和图5给出了基于PRQL算法的动态频谱接入和基于经典Q学习算法的动态频谱接入的收敛性能和适应政策规划变化的对比曲线。

动作选择策略选用Boltzmann动作选择策略，在学习的初始阶段，T取较高的值，学习过程中逐渐降低T值，以保证以前的较好的学习效果。T的形式如：T＝μ*t^(-1/ω)，随着学习次数t的增加，T的曲线从μ逐渐趋于0，并取μ＝4，ω＝2。在得到每个状态-动作对的概率以后，再利用轮盘赌算法选择动作。学习率α＝1/n，n表示状态-动作对(s，a)出现的次数，折扣系数γ＝0.75。图4和图5表明：

本发明的基于PRQL算法的动态频谱接入方法明显优于基于经典Q学习算法的动态频谱接入方法。图4是仿真图，由于引入了模糊决策，利用先验知识对Q只进行了初始化，所以在初始阶段就表现出了较好的效果，有较小的冲突概率。同时，PRQL算法由于加入了政策规划的指导，以及先验知识的支持，能够减少不必要的学习，增强学习的合理性，相比经典的QL算法，学习收敛速度明显加快，能更好的适应快变环境的要求，比经典QL学习算法能更好的满足认知无线电的要求。

图5时仿真图，可知由于有政策约束，所以PRQL算法能够及时调整感知学习的状态空间，使认知用户的接入从新达到收敛状态，而且由于状态空间数目的减小，使得收敛速度比之前更快。而对于经典QL算法，由于并不知情，所以还是会对所有空间进行感知和学习，需要较长时间才会收敛。

Claims

1.一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，首先认知用户在政策规划约束下，利用感知到的环境信息和专家经验，用模糊综合决策方法得到Q学习的先验知识，接着包括下列步骤：

步骤2，根据政策规划的指导，依据环境先验知识对步骤1得出的合理和合法的状态空间进行分等级模块化；

步骤7，重复步骤4～6，直到学习收敛。

2.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，先验知识是已知的优化算法，或是学习系统以前的学习经验，存储在知识库中，可以随着学习过程更新。

3.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，所述步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下：

2)、设计单因素决断f：U→F(v)，建立从U到V的模糊映射，构造模糊评价矩阵R_f，如下式所示，R_f可由模糊矩阵M_m×n表示，R_f的元素r_ij是指因素u_i对于决策v_j的评价，i，j是R_f矩阵中元素下标，i为{1，2，…，n}，j为{1，2，…，m}，模糊评价矩阵参照专家经验设定，设计成常数矩阵或函数矩阵；

R_{f} = (\begin{matrix} r_{11} & . & . & . & r_{1 m} \\ . & . & . \\ . & . & . \\ . & . & . \\ r_{n 1} & . & . & . & r_{nm} \end{matrix})

3)、设定因素权重集W＝(w₁，w₂，…，w_n)，权重集W反映各个因素影响决策的程度，由决策者根据经验直接给出，或用某种隶属度方法求得；

5)、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识，对Q值进行初始化，计算各等级模块下所有Q值，

Q*(s，a)＝arg max∑_iQ(s，a)

4.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，知识库中政策规划的表达和更新通过“基于软件”的方式实现：使用策略元语言，将频谱政策规划编码为机器可读的形式，然后通过智能媒体或互联网等途径将其写入认知无线节点，系统便可运行，这一过程类似于计算机载入一个新的配置文件。

5.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，步骤4中，动作选择算法采用greedy算法或ε-greedy或Boltzmann方法或模拟退火方法。

6.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，所述步骤4中Q学习的实现步骤如下：

5)、获取回报：回报值的设定根据需要设定和获得，或简单设定当认知用户选择占用的频率与授权用户冲突时r＝-5，不冲突时r＝1；

6)、Q值更新：动作执行后，新的状态s′及其所有的Q值q(s_i′，a′)就能够由步骤2)和步骤3)得到；结合记录的动作a以及相应的即时回报，缓存的Q_t(s，a)由下式更新为Q_t+1(s，a)；

Q_{t + 1} (s, a) = (1 - α_{t}) Q_{t} (s, a) + α_{t} (r_{t} + γ \max_{a^{'}} Q_{t} (s^{'}, a^{'}))

其中Q_t+1(s_t，a_t)表示更新后的Q值，每次只更新一个值，也就是(s_t，a_t)对应的Q值，(s_t，a_t)表示在t时刻的状态和动作的组合；Q_t(s_t，a_t)表示在更新前，也就是t时刻能查到的(s_t，a_t)对应的Q值，Q_t(s_t+1，a)表示在Q值更新前，新的状态和所有可能动作组合对应的Q值，α_t表示t时刻的学习速率，r_t表示t时刻的奖赏值，Q(s，a)表示一个矩阵，其中s代表所有可能的状态值，a表示所有可能的动作值，而对应所有的(s，a)组合都有一个Q值，这些Q值就组成了Q(s，a)矩阵；

7.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法，其特征在于，包含政策规划和数据的知识库的作用贯穿整个过程，包括对可接入区域的选择、学习模块的划分、提供模糊决策中要用到的知识，知识库根据环境的改变而实时更新，数据部分由学习的知识进行更新。