CN101466111B - 基于政策规划约束q学习的动态频谱接入方法 - Google Patents
基于政策规划约束q学习的动态频谱接入方法 Download PDFInfo
- Publication number
- CN101466111B CN101466111B CN2009100291167A CN200910029116A CN101466111B CN 101466111 B CN101466111 B CN 101466111B CN 2009100291167 A CN2009100291167 A CN 2009100291167A CN 200910029116 A CN200910029116 A CN 200910029116A CN 101466111 B CN101466111 B CN 101466111B
- Authority
- CN
- China
- Prior art keywords
- decision
- value
- study
- learning
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于政策规划约束Q学习的动态频谱接入方法,认知用户对频谱状态空间进行划分,选出合理和合法的状态空间;对上述状态空间进行分等级模块化;每个等级模块,完成Q学习前的Q表初始化工作;每个模块单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作;判断选择接入的频谱是否和授权用户冲突,若发生冲突则计算冲突概率,否则进入下步;判断环境政策规划知识库是否发生改变,若变,更新环境政策规划知识库,并调整学习的Q值;重复上述部分步骤,直到学习收敛。本发明能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度。
Description
技术领域
本发明涉及一种认知无线电领域,具体说是一种动态频谱接入方法。
背景技术
认知无线电(cognitive radio,简称CR)是一种新的提高频谱利用率的技术,它可以将一些区域中暂时没有被授权用户(licensed users,简称LU)使用的频段借给未授权用户(也称作认知用户cognitive user,简称CU)使用来提高频谱利用率。认知无线电是一个智能的无线通信系统,它能够通过对无线电环境的学习,相应地动态调整其传输参数。
近年来,认知无线电动态频谱接入技术成为一个热门的问题,受到广泛的关注。研究人员针对动态频谱接入在频谱利用率、冲突概率、频谱利用公平性等方面进行了大量研究,但这些算法均未涉及频谱接入的自主性问题,这一点对于认知无线电所要面对的复杂系统来说是很重要的。考虑到业务需求在空间和时间上的动态变化及其不规则性,一个设计好的不具备学习能力的动态频谱接入算法一般对环境有很多要求、很难具有普适性。为实现对频谱资源的分布式自主接入以减少人力参与,需要网络和用户具有能根据实际运行情况不断修正其接入策略的自主学习能力。具备不需人为干预的熟练的决策能力的认知无线电是目前研究的主要技术基础,未来频谱接入应当是自主的、动态的、自适应的。
学习能力是认知无线电一个重要的特征,学习是人类获取知识的主要形式,是基本的认知活动,是经验与知识的积累过程,也是人类具有智能、提高智能水平的基本途径。用户具有智能,在无人干预的情况下,自主接入未知的环境、自主完成通信任务已经成为通信技术发展和在各领域广泛应用的迫切需求。使agent(智能用户)能从环境中学习,即自动获取知识、积累经验、不断更新和扩展知识,具有自学习、自适应能力将会成为一个研究的热点。
强化学习是一种具有自学习能力的“试错”的在线学习技术,学习者通过与环境不断交互获得学习经验,进而逐步改进其动作策略。强化学习以其灵活性和自适应性,广泛应用于机器人和自动控制领域,并被引入无线蜂窝网络的动态信道分配以及传感器网络中的可重配置问题中。强化学习由于不需环境任何信息就可以进行,已被证明能充分利用与环境交互中所得到的信息,能动态适应环境变化。将强化学习算法引入到动态频谱接入中,不需对环境建立复杂的数学模型就可以实现认知引擎对频谱的选择以达到避免干扰授权用户的目标,是一种不错的选择。
由于强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的动作序列,实现动态环境下的在线学习,因此被广泛用于agent的智能决策,取得了显著的成果。但在对认知无线网络和其应用环境进行建模时出现了一些问题,首先,随着网络中用户(agent)数量的增多,每个用户的状态空间呈指数增加,即便是最简单的问题的学习也变得异常困难;其次,认知无线网络本身的复杂性和环境的快变特性也使得传统的Q学习在学习速度上不能胜任;最后,Q学习算法必须通过反复实验的方法来学习,算法效率不高,而且在未知环境中的盲目学习会冒一定的风险。
发明内容
本发明的目的就是为了解决上述问题,提出一种能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度的基于政策规划约束算法的动态频谱接入方法。
本发明是采用以下技术方案实现的:
一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,首先认知用户在政策规划约束下,利用感知到的环境信息和专家经验,用模糊综合决策方法得到Q学习的先验知识,接着包括下列步骤:
步骤1,认知用户感知环境状态,并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分,选出合理和合法的状态空间,剔除政策规划不允许认知用户使用的状态空间;
步骤2,根据政策规划的指导,依据环境先验知识对步骤1得出的合理和合法的状态空间的进行分等级模块化;
步骤3,对每个等级模块,依据Q学习的先验知识,使用模糊综合决策,完成Q学习前的Q表初始化工作,并将得出的Q值存入Q值表征模块;
步骤4,初始化其他工作参数,每个模块开始单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作,选择频谱进行接入;
步骤5,判断选择接入的频谱是否和授权用户冲突,根据判断设置回报值,若发生冲突则计算冲突概率,否则进入步骤6;
步骤6,判断环境的政策、规划和数据是否发生改变,如果发生改变,更新环境政策规划知识库,并根据政策、规划和数据的改变调整学习的Q值;
步骤7,重复步骤4~6,直到学习收敛。
其中,先验知识可以是已知的优化算法,也可以是学习系统以前的学习经验,存储在知识库中,可以随着学习过程更新。
所述步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下:
1)、设定因素集U=(u1,u2,…,un)和决策集V=(v1,v2,…,vm),n表示所有影响决策的因素个数,m表示决策集中所有决策的个数,因素集是影响决策的各个因素的集合,设计时应包括所有主要因素,决策集是决策者可能做出的所有决策的集合;
2)、设计单因素决断f:U→F(v),建立从U到V的模糊映射,构造模糊评价矩阵Rf,如下式所示,Rf可由模糊矩阵Mm×n表示,Rf的元素rij是指因素ui对于决策vj的评价,i,j是Rf矩阵中元素下标,i可以为{1,2,…,n},j可以为{1,2,…,m},模糊评价矩阵参照专家经验设定,可设计成常数矩阵或函数矩阵;
3)、设定因素权重集W=(w1,w2,…,wn),权重集W反映各个因素影响决策的程度,可由决策者根据经验直接给出,也可用某种隶属度方法求得;
4)、根据因素集U、决策集V和模糊评价矩阵Rf,通过权重集W,进行模糊运算,得到综合决断B=W⊙Rf,决断向量B的元素,反映了各个决策按照全体目标综合衡量的优越程度,以向量B为依据便可按照最大隶属度的原则选出最优方案或者排列各个方案的优先次序,作为采取不同决策的一个参考;
5)、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识,对Q值进行初始化,可计算各等级模块下所有Q值,
Q*(s,a)=argmax∑iQ(s,a)
其中,i为等级模块的数目,Q*(s,a)表示i个等级模块下a动作的总体回报估计的最大值。
知识库中政策规划的表达和更新可以通过“基于软件”的方式实现:使用策略元语言,将频谱政策规划编码为机器可读的形式,然后通过智能媒体或互联网等途径将其写入认知无线节点,系统便可运行,这一过程类似于计算机载入一个新的配置文件。
步骤4中,动作选择算法采用greedy算法或ε-greedy或Boltzmann方法或模拟退火方法。
所述步骤4中Q学习的实现步骤如下:
1)、初始化:初始化Q值已由其他几个模块完成,只需设定折现因子γ和初始学习率α0,以及动作选择算法中的初始探索概率ε0;
2)、状态构建:由状态感知模块感知频谱环境,根据感知到的授权用户占用频谱的情况和认知用户自身占用的情况构建si;
3)、Q值获取:根据构建的状态si和可以采取的动作,从Q值表征模块获取Q值;
4)、动作选择和执行:动作选择模块根据每一个Q(si,a),采用动作选择算法,从可选动作中选择一个a并执行;
5)、获取回报:回报值的设定可以根据需要设定和获得,甚至可以简单设定当认知用户选择占用的频率与授权用户冲突时r=-5,不冲突时r=1;
6)、Q值更新:动作执行后,新的状态s′及其所有的Q值q(si′,a′)就能够由步骤2)、3)得到;结合记录的动作a以及相应的即时回报,缓存的Qt(s,a)由下式更新为Qt+1(s,a)。
其中Qt+1(st,at)表示更新后的Q值,每次只更新一个值,也就是(st,at)对应的Q值,(st,at)表示在t时刻的状态和动作的组合;Qt(st,at)表示在更新前,也就是t时刻能查到的(st,at)对应的Q值,Qt(st+1,a)表示在Q值更新前,新的状态和所有可能动作(用a表示)组合对应的Q值,αt表示t时刻的学习速率,rt表示t时刻的奖赏值。Q(s,a)表示一个矩阵,其中s代表所有可能的状态值,a表示所有可能的动作值,而对应所有的(s,a)组合都有一个Q值,这些Q值就组成了Q(s,a)矩阵。
7)、参数更新,每轮迭代结束时,学习率α以及探索概率ε都需要更新。
包含政策规划和数据的知识库的作用贯穿整个过程,包括对可接入区域的选择、学习模块的划分、提供模糊决策中要用到的知识,知识库可以根据环境的改变而实时更新,数据部分也可以由学习的知识进行更新。
本发明针对基于Q学习的动态频谱接入方法在认知无线电快变环境中学习盲目、效率低、收敛速度慢的缺点,在政策规划约束下,充分利用先验知识和学习过程中的经验知识,引入模糊决策的全新Q学习算法来实现动态频谱接入。结合人类经验、专家知识、模糊决策理论、机器学习等相关理论,克服了智能体学习的盲目性、提高了学习效率、加快了收敛速度。
附图说明
图1是基于PRQL算法的动态频谱接入示意框图。
图2是PRQL算法模块化示意框图。
图3是基于PRQL算法的动态频谱接入流程示意图。
图4是PRQL算法和经典QL算法收敛性能对比曲线图。
图5是两种算法动态适应频谱政策改变的性能对比曲线图。
具体实施方式
如图1所示,agent根据政策规划指导在状态空间选出能进行学习的状态空间并针对不同状态空间分等级模块化,根据专家知识以及先验知识来初始化Q表;根据初始化的Q表获得的其他参数进行Q学习,获得干扰概率最小的动态频谱接入方案。本发明就是考虑政策规划约束,实现认知无线电动态频谱接入,其具体实现步骤如下:
1、agent感知环境状态,并在包含政策规划和数据的知识库的指导下对状态空间进行划分,剔除政策规划不允许认知用户使用的部分频谱,只对政策规划允许的部分频谱空间进行感知和学习使用;
2、根据频谱政策规划的指导,根据环境先验知识对状态空间的进行分等级模块化学习,对频谱使用频率较低、用户密度较小、机会较多的部分进行高等级重点感知和学习,使得每个模块需要学习的空间减小,减小复杂度;
3、对每个模块,依据先验知识,使用模糊综合决策,完成Q学习前的Q初始化工作;
4、初始化其他工作参数,开始进行Q学习算法,根据学习规则作出决策,选择频谱进行接入;
5、判断环境的政策规划等是否发生改变,如果发生改变,更新环境政策规划知识库,并将根据政策规划的改变调整学习的Q值。
6、重复步骤4~5,计算干扰概率,直到学习收敛。
步骤1中先对环境状态空间按照政策规划指导进行划分,选出合理和合法的感知和学习空间。比如有一段频谱,其中一部分按照政策规划的规定是分给军事通信用的,不允许认知用户使用,这样这一段频谱就不用浪费时间和资源去感知和学习,就是可以去掉的部分;
步骤2中PRQL算法模块化实现如图2所示,PRQL算法对认知无线网络中每个agent的学习空间进行分等级模块化划分,将复杂的任务进行分解以减小状态空间的规模,提高学习效率,具体步骤如下:
1、对合理感知空间根据先验知识和环境信息进行分块。可根据频谱使用密度、授权用户类型、对干扰敏感程度等等,区分不同感知学习等级。对适合认知用户接入,机会较多的区域重点感知和学习;对机会一般,但还是可能接入的区域可适当减少感知学习的精力;对机会很少,或者有特殊要求的区域可在没必要的情况下尽量不去感知和学习。当然还可以分得更细,充分考虑其它因素进行模块划分。
2、agent内部按等级分模块进行感知和学习。每个模块需要学习的空间减小了,学习效率和收敛速度都会加快。
3、在每个模块中,agent按照传统的Q学习算法单独的进行学习,感知状态空间并获得回报。每个模块拥有自己的Q表,其更新方法与其他学习模块无关。决策模块按下式来决定agent最终要采取的动作。
这里Qj代表第j个模块的Q函数,a代表agent的动作。
步骤3中先验知识可以是已知的优化算法,也可以是学习系统以前的学习经验,存储在知识库中,可以随着时间更新。没有先验知识的学习系统(也就是没有先验知识用来对Q表初始化),尽管给Q表随机赋初值,经过agent长时间的探索学习也能取得好的学习结果,但这将会大大影响学习算法的效率和收敛的速度。将先验知识和学习中获得的经验融入Q学习算法,对Q表进行初始化,能减少学习所花费的时间。
模糊综合决策模块实现将影响决策的因素与Q值初始化对应。模糊综合决策综合考虑多因素的影响对问题做出的综合决断,模糊综合决策充分考虑到专家经验及相关因素对决策的重要程度,步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下:
1、设定因素集U=(u1,u2,…,un)和决策集V=(v1,v2,…,vm)。n表示所有影响决策的因素个数,m表示决策集中所有决策的个数,因素集是影响决策的各个因素的集合,设计时应包括所有主要因素,决策集是决策者可能做出的所有决策的集合;
2、设计单因素决断f:U→F(v),建立从U到V的模糊映射,构造模糊评价矩阵Rf,如下式所示,Rf可由模糊矩阵Mm×n表示,Rf的元素rij是指因素ui对于决策vj的评价,i,j是Rf矩阵中元素下标,i可以为{1,2,…,n},j可以为{1,2,…,m}。模糊评价矩阵参照专家经验设定,可设计成常数矩阵或函数矩阵;
3、设定因素权重集W=(w1,w2,…,wn)。权重集W反映各个因素影响决策的程度,可由决策者根据经验直接给出,也可用某种隶属度方法求得;
4、根据因素集U、决策集V和模糊评价矩阵Rf,通过权重集W,进行模糊运算,得到综合决断B=W⊙Rf。决断向量B的元素,反映了各个决策按照全体目标综合衡量的优越程度。以向量B为依据便可按照最大隶属度的原则选出最优方案或者排列各个方案的优先次序,作为采取不同决策的一个参考。
5、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识,对Q值进行初始化。
其中利用“归一”方法对Q值进行初始化的过程主要有:
a)调整状态si下(此处si表示所有可能的状态的集合)的模糊综合决断结果Bi,Bi可由上面得出,对应每个状态有一个Bi值,得到向量B′i=(b′i1,b′i2,…,b′im),且满足下式。Q学习时,选用Boltzmann动作选择策略,以概率P(aj)来随机的选择动作aj,在模糊综合决策中参照概率向量B′i的元素b′ij选择动作aj,由此可得到b′ij=P(aj)。
b)假设在状态si下的所有的Q值可用向量(Qi1,Qi2,…,Qim)表示,可得到下式。
考虑到先验知识对决策的影响程度设定得到下式,其中:k为常数系数,k越大表示先验知识对决策的影响越大;
Qi1=k×max(r(si,aj)),(j=1,2,L,m)
c)由上面两式可计算状态si下所有Q值,Q*(s,a)=argmax∑iQ(s,a),其中,i为等级模块的数目,Q*(s,a)表示i个等级模块下a动作的总体回报估计的最大值。
按照上面几个步骤在政策规划的指导下对状态空间进行划分,模块化,并将先验知识体现在Q表的初始值以后,每个模块就开始单独的Q学习,然后按照上式综合考虑所有学习模块进行决策,选择动作执行,以实现决策的最优化。
步骤4中Q学习的实现步骤如下:
1、初始化。初始化Q值已由其他几个模块完成,只需设定折现因子γ和初始学习率α0,以及动作选择算法中的初始探索概率ε0。
2、状态构建。由状态感知模块感知频谱环境,根据感知到的授权用户占用频谱的情况和自身占用的情况构建s。
3、Q值获取。根据构建的状态和在政策规划约束下可以采取的动作,从Q值表征模块获取Q值。
4、动作选择和执行。动作选择模块根据每一个Qt(st,a),采用动作选择策略(比如ε-greedy等)算法,从可选动作中选择一个a并执行。
5、获取回报。回报值的设定可以根据需要设定和获得。甚至可以简单设定当认知用户选择占用的频率与授权用户占用的频率冲突时r=-5,不冲突时r=1。
6、Q值更新。动作执行后,新的状态s′及其所有的Q值q(si′,a′)就能够由步骤2和3得到。结合记录的动作a以及相应的即时回报,缓存的Qt(s,a)由下式更新为Qt+1(s,a)。
其中Qt+1(st,at)表示更新后的Q值,每次只更新一个值,也就是(st,at)对应的Q值,(st,at)表示在t时刻的状态和动作的组合;Qt(st,at)表示在更新前,也就是t时刻能查到的(st,at)对应的Q值,Qt(st+1,a)表示在Q值更新前,新的状态和所有可能动作(用a表示)组合对应的Q值,αt表示t时刻的学习速率,rt表示t时刻的奖赏值。Q(s,a)表示一个矩阵,其中s代表所有可能的状态值,a表示所有可能的动作值,而对应所有的(s,a)组合都有一个Q值,这些Q值就组成了Q(s,a)矩阵。
7、参数更新。每轮迭代结束时,学习率α以及探索概率ε都需要更新。
包含政策、规划和数据的知识库的作用贯穿整个过程,包括对可接入区域的选择、学习模块的划分、提供模糊决策中要用到的知识等。知识库可以根据环境的改变而实时更新,数据部分也可以由学习的知识进行更新。
图3例示了基于PRQL算法的动态频谱接入方法流程图,具体步骤如下:
1、agent感知环境状态,并在包含政策规划和数据的知识库的指导下对状态空间进行划分,重点对政策规划允许、频谱使用频率较低、用户密度较小、机会较多的部分进行重点感知和学习使用;
2、初始化。在政策规划约束下,依据先验知识,使用模糊综合决策,完成Q学习前的Q初始化。同时设定折现因子γ和初始学习率α0,以及动作选择算法中的初始探索概率ε0。
3、状态构建。由状态感知模块感知频谱环境,根据感知到的授权用户占用频谱的情况和自身占用的情况构建每个模块的状态s。
4、Q值获取。根据构建的状态和在政策规划约束下可以采取的动作,从Q值表征模块获取Q值。
5、动作选择和执行。动作选择模块根据每一个Qt(st,a)),采用动作选择策略(比如ε-greedy等)算法,从可选动作中选择一个a并执行。
6、获取回报。判断选择接入的频谱是否和授权用户冲突,根据判断值设置回报函数,并计算冲突概率。
7、Q值更新。动作执行后,新的状态s′及其所有的Q值qt(st+1,a)就能够由步骤3和4得到。结合记录的动作a以及相应的即时回报,缓存的Qt(s,a)由更新为Qt+1(s,a)。
8、参数更新。每轮迭代结束时,学习率α以及探索概率ε都需要更新,可设置它们以负指数规律随着学习的过程逐渐减小为0,以满足Q学习的收敛性要求。
为了便于对本发明的基于PRQL算法的动态频谱接入方法以及基于经典Q学习算法的动态频谱接入方法进行比较,图4和图5给出了基于PRQL算法的动态频谱接入和基于经典Q学习算法的动态频谱接入的收敛性能和适应政策规划变化的对比曲线。
动作选择策略选用Boltzmann动作选择策略,在学习的初始阶段,T取较高的值,学习过程中逐渐降低T值,以保证以前的较好的学习效果。T的形式如:T=μ*t(-1/ω),随着学习次数t的增加,T的曲线从μ逐渐趋于0,并取μ=4,ω=2。在得到每个状态-动作对的概率以后,再利用轮盘赌算法选择动作。学习率α=1/n,n表示状态-动作对(s,a)出现的次数,折扣系数γ=0.75。图4和图5表明:
本发明的基于PRQL算法的动态频谱接入方法明显优于基于经典Q学习算法的动态频谱接入方法。图4是仿真图,由于引入了模糊决策,利用先验知识对Q只进行了初始化,所以在初始阶段就表现出了较好的效果,有较小的冲突概率。同时,PRQL算法由于加入了政策规划的指导,以及先验知识的支持,能够减少不必要的学习,增强学习的合理性,相比经典的QL算法,学习收敛速度明显加快,能更好的适应快变环境的要求,比经典QL学习算法能更好的满足认知无线电的要求。
图5时仿真图,可知由于有政策约束,所以PRQL算法能够及时调整感知学习的状态空间,使认知用户的接入从新达到收敛状态,而且由于状态空间数目的减小,使得收敛速度比之前更快。而对于经典QL算法,由于并不知情,所以还是会对所有空间进行感知和学习,需要较长时间才会收敛。
Claims (7)
1.一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,首先认知用户在政策规划约束下,利用感知到的环境信息和专家经验,用模糊综合决策方法得到Q学习的先验知识,接着包括下列步骤:
步骤1,认知用户感知环境状态,并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分,选出合理和合法的状态空间,剔除政策规划不允许认知用户使用的状态空间;
步骤2,根据政策规划的指导,依据环境先验知识对步骤1得出的合理和合法的状态空间进行分等级模块化;
步骤3,对每个等级模块,依据Q学习的先验知识,使用模糊综合决策,完成Q学习前的Q表初始化工作,并将得出的Q值存入Q值表征模块;
步骤4,初始化其他工作参数,每个模块开始单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作,选择频谱进行接入;
步骤5,判断选择接入的频谱是否和授权用户冲突,根据判断设置回报值,若发生冲突则计算冲突概率,否则进入步骤6;
步骤6,判断环境的政策、规划和数据是否发生改变,如果发生改变,更新环境政策规划知识库,并根据政策、规划和数据的改变调整学习的Q值;
步骤7,重复步骤4~6,直到学习收敛。
2.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,先验知识是已知的优化算法,或是学习系统以前的学习经验,存储在知识库中,可以随着学习过程更新。
3.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,所述步骤3中使用模糊综合决策实现Q值初始化的具体步骤如下:
1)、设定因素集U=(u1,u2,…,un)和决策集V=(v1,v2,…,vm),n表示所有影响决策的因素个数,m表示决策集中所有决策的个数,因素集是影响决策的各个因素的集合,设计时应包括所有主要因素,决策集是决策者可能做出的所有决策的集合;
2)、设计单因素决断f:U→F(v),建立从U到V的模糊映射,构造模糊评价矩阵Rf,如下式所示,Rf可由模糊矩阵Mm×n表示,Rf的元素rij是指因素ui对于决策vj的评价,i,j是Rf矩阵中元素下标,i为{1,2,…,n},j为{1,2,…,m},模糊评价矩阵参照专家经验设定,设计成常数矩阵或函数矩阵;
3)、设定因素权重集W=(w1,w2,…,wn),权重集W反映各个因素影响决策的程度,由决策者根据经验直接给出,或用某种隶属度方法求得;
4)、根据因素集U、决策集V和模糊评价矩阵Rf,通过权重集W,进行模糊运算,得到综合决断B=W⊙Rf,决断向量B的元素,反映了各个决策按照全体目标综合衡量的优越程度,以向量B为依据便可按照最大隶属度的原则选出最优方案或者排列各个方案的优先次序,作为采取不同决策的一个参考;
5)、利用“归一”方法将模糊综合决策的结论转化为Q学习的先验知识,对Q值进行初始化,计算各等级模块下所有Q值,
Q*(s,a)=arg max∑iQ(s,a)
其中,i为等级模块的数目,Q*(s,a)表示i个等级模块下a动作的总体回报估计的最大值。
4.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,知识库中政策规划的表达和更新通过“基于软件”的方式实现:使用策略元语言,将频谱政策规划编码为机器可读的形式,然后通过智能媒体或互联网等途径将其写入认知无线节点,系统便可运行,这一过程类似于计算机载入一个新的配置文件。
5.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,步骤4中,动作选择算法采用greedy算法或ε-greedy或Boltzmann方法或模拟退火方法。
6.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,所述步骤4中Q学习的实现步骤如下:
1)、初始化:初始化Q值已由其他几个模块完成,只需设定折现因子γ和初始学习率α0,以及动作选择算法中的初始探索概率ε0;
2)、状态构建:由状态感知模块感知频谱环境,根据感知到的授权用户占用频谱的情况和认知用户自身占用的情况构建si;
3)、Q值获取:根据构建的状态si和可以采取的动作,从Q值表征模块获取Q值;
4)、动作选择和执行:动作选择模块根据每一个Q(si,a),采用动作选择算法,从可选动作中选择一个a并执行;
5)、获取回报:回报值的设定根据需要设定和获得,或简单设定当认知用户选择占用的频率与授权用户冲突时r=-5,不冲突时r=1;
6)、Q值更新:动作执行后,新的状态s′及其所有的Q值q(si′,a′)就能够由步骤2)和步骤3)得到;结合记录的动作a以及相应的即时回报,缓存的Qt(s,a)由下式更新为Qt+1(s,a);
其中Qt+1(st,at)表示更新后的Q值,每次只更新一个值,也就是(st,at)对应的Q值,(st,at)表示在t时刻的状态和动作的组合;Qt(st,at)表示在更新前,也就是t时刻能查到的(st,at)对应的Q值,Qt(st+1,a)表示在Q值更新前,新的状态和所有可能动作组合对应的Q值,αt表示t时刻的学习速率,rt表示t时刻的奖赏值,Q(s,a)表示一个矩阵,其中s代表所有可能的状态值,a表示所有可能的动作值,而对应所有的(s,a)组合都有一个Q值,这些Q值就组成了Q(s,a)矩阵;
7)、参数更新,每轮迭代结束时,学习率α以及探索概率ε都需要更新。
7.根据权利要求1所述的一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,包含政策规划和数据的知识库的作用贯穿整个过程,包括对可接入区域的选择、学习模块的划分、提供模糊决策中要用到的知识,知识库根据环境的改变而实时更新,数据部分由学习的知识进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100291167A CN101466111B (zh) | 2009-01-13 | 2009-01-13 | 基于政策规划约束q学习的动态频谱接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100291167A CN101466111B (zh) | 2009-01-13 | 2009-01-13 | 基于政策规划约束q学习的动态频谱接入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101466111A CN101466111A (zh) | 2009-06-24 |
CN101466111B true CN101466111B (zh) | 2010-11-17 |
Family
ID=40806411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100291167A Expired - Fee Related CN101466111B (zh) | 2009-01-13 | 2009-01-13 | 基于政策规划约束q学习的动态频谱接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101466111B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012151732A1 (zh) * | 2011-05-06 | 2012-11-15 | 中国人民解放军理工大学 | 基于状态转移概率估计的感知时隙长度优化方法 |
CN102256262B (zh) * | 2011-07-14 | 2013-09-25 | 南京邮电大学 | 基于分布式独立学习的多用户动态频谱接入方法 |
CN102332957A (zh) * | 2011-09-23 | 2012-01-25 | 南昌大学 | 一种动态异构网络环境下的电波传播多维特征认知方法 |
CN102448070B (zh) * | 2012-01-11 | 2014-04-16 | 中国人民解放军理工大学 | 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 |
CN102547725B (zh) * | 2012-01-13 | 2015-11-11 | 中国科学技术大学苏州研究院 | 基于认知无线电的网络侧终端概率接入控制方法 |
CN103179675B (zh) * | 2013-01-08 | 2016-05-04 | 中国人民解放军理工大学通信工程学院 | 基于ε-贪婪的在线序贯感知与机会接入方法 |
CN103152805B (zh) * | 2013-04-01 | 2016-01-20 | 中国人民解放军理工大学通信工程学院 | 基于随机网络模型的认知无线网络功率控制方法 |
CN103324807B (zh) * | 2013-07-04 | 2016-03-23 | 重庆大学 | 基于多Agent行为模型的音乐灯光表演方案设计系统的设计方法 |
AU2016297852C1 (en) * | 2015-07-24 | 2019-12-05 | Deepmind Technologies Limited | Continuous control with deep reinforcement learning |
CN105391490B (zh) * | 2015-10-20 | 2019-02-05 | 中国人民解放军理工大学 | 一种基于认知的卫星通信网络选择算法 |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
WO2018098797A1 (zh) * | 2016-12-02 | 2018-06-07 | 华为技术有限公司 | Q学习中调整状态空间边界的方法和装置 |
CN107426772B (zh) * | 2017-07-04 | 2020-01-03 | 北京邮电大学 | 一种基于q学习的动态竞争窗口调整方法、装置及设备 |
CN108021028B (zh) * | 2017-12-22 | 2019-04-09 | 重庆邮电大学 | 一种基于相关冗余变换与增强学习的多维度协同控制方法 |
CN108347744B (zh) * | 2018-01-19 | 2020-08-28 | 厦门大学 | 一种设备接入方法、装置及接入控制设备 |
CN108449151B (zh) * | 2018-05-02 | 2020-11-17 | 河海大学常州校区 | 一种基于机器学习的认知无线电网络中频谱接入方法 |
CN108809452B (zh) * | 2018-05-02 | 2021-04-06 | 河海大学常州校区 | 动态频谱接入系统中最佳感知信道选择方法 |
CN108882377B (zh) * | 2018-06-08 | 2023-01-17 | 苏州大学 | 基于认知的lte-r中资源分配方法 |
CN109333531B (zh) * | 2018-10-09 | 2021-01-26 | 深圳前海达闼云端智能科技有限公司 | 用于规划移动设备速度的方法及装置 |
CN109586820A (zh) * | 2018-12-28 | 2019-04-05 | 中国人民解放军陆军工程大学 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
CN109861773B (zh) * | 2019-03-01 | 2021-05-07 | 军事科学院系统工程研究院网络信息研究所 | 一种基于在线学习的多用户多信道网络动态频谱接入方法 |
CN110262218A (zh) * | 2019-05-20 | 2019-09-20 | 北京航空航天大学 | 机器鱼的控制方法、装置、设备及存储介质 |
CN110288275B (zh) * | 2019-07-25 | 2023-09-12 | 东南大学 | 一种提升综合能源系统韧性的方法 |
CN111211831A (zh) * | 2020-01-13 | 2020-05-29 | 东方红卫星移动通信有限公司 | 一种多波束低轨卫星智能动态信道资源分配方法 |
CN111262638B (zh) * | 2020-01-17 | 2021-09-24 | 合肥工业大学 | 基于高效样本学习的动态频谱接入方法 |
CN111654342B (zh) * | 2020-06-03 | 2021-02-12 | 中国人民解放军国防科技大学 | 基于有先验知识强化学习的动态频谱接入方法 |
CN111832823A (zh) * | 2020-07-10 | 2020-10-27 | 上海交通大学 | 基于统计假设检验的学习自动机实现系统及方法 |
CN112862295B (zh) * | 2021-02-02 | 2022-06-24 | 上海市城市建设设计研究总院(集团)有限公司 | 基于q学习的路桥隧养护自主决策方法 |
CN113255765B (zh) * | 2021-05-25 | 2024-03-19 | 南京航空航天大学 | 一种基于大脑机理的认知学习方法 |
CN114980156B (zh) * | 2022-04-08 | 2024-04-19 | 重庆邮电大学 | 一种无蜂窝毫米波大规模mimo系统的ap开关切换方法 |
-
2009
- 2009-01-13 CN CN2009100291167A patent/CN101466111B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101466111A (zh) | 2009-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101466111B (zh) | 基于政策规划约束q学习的动态频谱接入方法 | |
Wang et al. | A knowledge-guided multi-objective fruit fly optimization algorithm for the multi-skill resource constrained project scheduling problem | |
CN106600059A (zh) | 基于改进rbf神经网络的智能电网短期负荷预测方法 | |
CN101842754B (zh) | 用于以计算机辅助方式探索技术系统的状态的方法 | |
Papageorgiou et al. | Application of fuzzy cognitive maps to water demand prediction | |
CN108809456B (zh) | 一种基于改进强化学习的集中式认知无线电频谱分配方法 | |
EP3502978A1 (en) | Meta-learning system | |
CN111008685A (zh) | 基于生产者依概率反向再生机制的改进人工生态系统优化算法 | |
Ducange et al. | Multi-objective evolutionary fuzzy systems | |
Vafashoar et al. | Reinforcement learning in learning automata and cellular learning automata via multiple reinforcement signals | |
CN114615744A (zh) | 一种知识迁移强化学习网络切片通感算资源协同优化方法 | |
CN115730635A (zh) | 一种电动汽车负荷预测方法 | |
Singh et al. | A neighborhood search based cat swarm optimization algorithm for clustering problems | |
CN116842354A (zh) | 基于量子人工水母搜索机制的特征选择方法 | |
Kim et al. | Knowledge extraction and representation using quantum mechanics and intelligent models | |
Yu et al. | Solution set augmentation for knee identification in multiobjective decision analysis | |
Cordón et al. | A multiobjective genetic learning process for joint feature selection and granularity and contexts learning in fuzzy rule-based classification systems | |
Li et al. | A multi-objective bi-level task planning strategy for UUV target visitation in ocean environment | |
CN115563527B (zh) | 一种基于状态分类与指派的多Agent深度强化学习系统及方法 | |
CN110378464A (zh) | 人工智能平台的配置参数的管理方法和装置 | |
CN113191487B (zh) | 基于分布式ppo算法的自适应连续功率控制方法 | |
Zhang et al. | Fuzzy bilevel programming: multi-objective and multi-follower with shared variables | |
Jha et al. | An energy efficient weighted clustering algorithm in heterogeneous wireless sensor networks | |
CN112383965B (zh) | 基于drqn和多传感器模型的认知无线电功率分配方法 | |
Hou et al. | A comparison of approaches with different constraint handling techniques for energy-efficient building form optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101117 Termination date: 20130113 |