CN109787696B - 基于案例推理与合作q学习的认知无线电资源分配方法 - Google Patents

基于案例推理与合作q学习的认知无线电资源分配方法 Download PDF

Info

Publication number
CN109787696B
CN109787696B CN201811511217.3A CN201811511217A CN109787696B CN 109787696 B CN109787696 B CN 109787696B CN 201811511217 A CN201811511217 A CN 201811511217A CN 109787696 B CN109787696 B CN 109787696B
Authority
CN
China
Prior art keywords
value
case
learning
cognitive
cooperative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811511217.3A
Other languages
English (en)
Other versions
CN109787696A (zh
Inventor
徐琳
赵知劲
楼巧巧
占锦敏
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201811511217.3A priority Critical patent/CN109787696B/zh
Publication of CN109787696A publication Critical patent/CN109787696A/zh
Application granted granted Critical
Publication of CN109787696B publication Critical patent/CN109787696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于案例推理与合作Q学习的认知无线电资源分配方法。本发明结合了案例推理技术、合作算法与Q学习算法,实现信道和功率的联合分配。首先确定奖赏函数,对若干个随机资源分配案例利用传统Q学习算法进行学习,构建案例库以存储案例的特征值、Q值和效用值;然后通过匹配检索出与当前案例最相似案例,提取其Q值并归一化后作为新案例的初始Q值;接着根据奖赏值大小,采用合作算法融合Q值,通过借鉴其他用户的经验来进行学习。本发明针对传统Q学习收敛速度慢的问题,引入案例推理技术来加快算法的初始寻优速度,同时通过用户间合作加快整体的学习效率。

Description

基于案例推理与合作Q学习的认知无线电资源分配方法
技术领域
本发明属于认知无线电领域,具体涉及一种基于案例推理与合作 Q学习的认知无线电资源分配算法。
背景技术
针对传统频谱管理方案存在的频谱利用率低的问题,已提出了一种认知无线电技术。认知无线电允许认知用户在不干扰主用户通信的前提下,动态地接入空闲信道,因而能有效地提高频谱利用率。动态资源分配是认知无线电的一种关键技术,是通过信道、功率和调制方式等传输参数的优化来提高系统性能。
强化学习通过奖惩原则来优化决策,是一种人工智能算法。Q学习是一种使用最广泛的强化学习算法,已经成功应用于认知无线电网络的动态资源分配。认知无线电领域中,常用的Q学习分为单Agent Q学习和多Agent Q学习。多Agent Q学习算法又包括多Agent Q独立学习和多Agent Q合作学习,其算法通常将Q值初始化为0或较小的随机数,这将会影响算法的寻优效率。而相较于多Agent Q合作学习,多Agent Q独立学习算法的性能也较差。
案例推理也是一种人工智能技术,通过与历史案例的匹配,借鉴历史案例的经验来指导新问题的解决。现有的案例推理与Q学习结合算法的研究大多是单独考虑信道或功率的分配,在信道和功率联合分配中的应用未见报道。因此,本发明提出基于案例推理与合作Q 学习的认知无线电资源分配算法。
发明内容
本发明是针对传统Q学习算法中存在的收敛速度慢的问题,提供一种基于案例推理与合作Q学习算法,实现分布式认知无线电网络的信道和功率分配。
本发明采用的算法具体包括以下步骤:
步骤1、随机初始化若干案例,给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I,利用传统Q学习算法进行学习,构建成案例库;
步骤2、当前新案例和案例库中历史案例进行匹配,检索出最相似案例的Q值,对该Q值归一化后作为迭代的初始Q值;
步骤3、认知用户感知当前状态st,根据动作策略选择动作at,执行后得到奖赏值rt和下一状态st+1
步骤4、比较当前时刻所有认知用户的奖赏值总和
Figure RE-GDA0001990751290000021
和前一次迭代时刻的总奖赏值
Figure RE-GDA0001990751290000022
的大小,若
Figure RE-GDA0001990751290000023
则各Agent进行独立学习;若
Figure RE-GDA0001990751290000024
则Agent间进行合作学习;
步骤5、根据不同的学习方式进行Q值更新,并更新温度参数
Figure RE-GDA0001990751290000025
Figure RE-GDA0001990751290000026
步骤6、重复步骤3~5,直到达到总迭代次数。
步骤1具体包括如下内容:
案例库构建:随机初始化若干案例Ck,进行传统的Q学习,得到最终状态-动作函数Q值和认知系统的能量效率;将每个案例的环境因子保存为特征向量Vk,可表示为:
Figure RE-GDA0001990751290000027
其中,n表示案例的特征个数;将最终Q值保存为解决方案Yk,将认知系统的能量效率保存为案例效用值Ek,从而构建成案例库。
步骤2具体如下:
假设新案例的特征向量为
Figure RE-GDA0001990751290000028
采用欧式距离作为衡量案例间的相似度函数,新案例与历史案例Ck的相似函数值为:
Figure RE-GDA0001990751290000031
其中,ξl为第l个特征的权值,∑
Figure RE-GDA0001990751290000038
ξl=1;从而可得匹配案例
Figure RE-GDA0001990751290000032
其中,
Figure RE-GDA0001990751290000039
为案例库中历史案例总个数。
步骤3具体如下:
4-1.动作选择策略:利用Boltzmann机制计算动作的选择概率
Figure RE-GDA0001990751290000033
然后采用轮盘赌算法进行动作的选择;其中, T为温度参数,当T较大时指数较小,则得到的各动作概率大致相同;随着T值的减少,则概率P的取值对Q值的依赖增大,即Q值大的动作概率相对越大;
4-2.奖赏函数:资源分配算法旨在保证主用户正常通信的前提下,追求认知系统能量效率的最大化;因此,系统中若有用户的通信产生冲突,奖赏值为“-3”;若认知用户的信干噪比SINRi小于阈值,则奖赏值为“0”,其中,
Figure RE-GDA0001990751290000034
n0为高斯白噪声功率;pi为认知用户选择的功率;hji(m)为在信道m上,认知用户j到认知用户i的信道增益;
Figure RE-GDA0001990751290000035
为主用户功率;gki(m)为在信道 m上,主用户k到认知用户i的信道增益;若认知用户能正常通信,则奖赏值为“能量效率Φi”,
Figure RE-GDA0001990751290000036
W为信道带宽。
步骤4和步骤5具体如下:
合作Q学习算法考虑多Agent系统的整体收益,若
Figure RE-GDA0001990751290000037
则Agent间进行合作学习,即将自身Q值与其他具有更大奖赏值的 Agent Q值的加权和作为当前学习的Q更新值,其计算式如下所示,
Figure RE-GDA0001990751290000041
其中,ωij为折扣权值,表明其他Agent的经验对当前Agent学习的影响程度,其计算式如下所示,
Figure RE-GDA0001990751290000042
其中,δ为较接近1的常数,rj为Agentj当前时刻的奖赏值。
本发明与现有技术相比,有以下明显优点:
(1)利用案例推理技术通过匹配历史案例,得到最相似案例的 Q值来初始化新问题的Q值,使得合作Q学习在迭代初期就靠近最优解,加快寻优的速度。
(2)针对多Agent独立Q学习不能实现信息共享的缺点,引入合作算法,Agent通过融合表现更好的Agent的Q值来借鉴学习经验,以加快自身的学习。
附图说明
图1为本发明流程框图。
具体实施方式
如图1所示,一种基于案例推理与合作Q学习的认知无线电资源分配方法,具体步骤如下:
步骤1、随机初始化若干案例,给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I,利用传统Q学习算法进行学习,构建成案例库。
具体如下:
案例库构建:随机初始化若干案例Ck,进行传统的Q学习迭代,得到最终状态-动作函数Q值和认知系统的能量效率。将每个案例的环境因子保存为特征向量Vk,可表示为:
Figure RE-GDA0001990751290000051
其中,n表示案例的特征个数。将最终Q值保存为解决方案,将认知系统的能量效率保存为案例效用值,从而构建成案例库。
步骤2、当前新案例和案例库中历史案例进行匹配,检索出最相似案例的Q值,对其归一化后作为迭代的初始Q值。
具体如下:
假设新案例的特征向量为
Figure RE-GDA0001990751290000052
采用欧式距离作为衡量案例间的相似度函数,新案例与历史案例Ck的相似函数值为:
Figure RE-GDA0001990751290000053
其中,ξl为第l个特征的权值,∑
Figure RE-GDA0001990751290000056
ξl=1。从而可得匹配案例
Figure RE-GDA0001990751290000054
步骤3、认知用户感知当前状态st,根据动作策略选择动作at,执行后得到奖赏值rt和下一状态st+1
具体如下:
3-1.动作选择策略:利用Boltzmann机制计算动作的选择概率
Figure RE-GDA0001990751290000055
然后采用轮盘赌算法进行动作的选择。其中, T为温度参数,当T较大时,所有动作被选择的概率大致相同;随着 T值的减少,Q值较大的动作被选择的概率越大。
3-2.奖赏函数:资源分配算法旨在保证主用户正常通信的前提下,追求分布式认知网络系统能量效率的最大化。因此,系统中若有用户的通信产生冲突,奖赏值为“-3”;若认知用户的信干噪比SINRi小于阈值,则奖赏值为“0”,其中,
Figure RE-GDA0001990751290000061
n0为高斯白噪声功率;pi为认知用户选择的功率;hji(m)为在信道m 上,认知用户j到认知用户i的信道增益;
Figure RE-GDA0001990751290000062
为主用户功率;gki(m)为在信道m上,主用户k到认知用户i的信道增益;若认知用户能正常通信,则奖赏值为能量效率
Figure RE-GDA0001990751290000063
W为信道带宽。
步骤4、比较当前时刻所有认知用户的奖赏值总和
Figure RE-GDA0001990751290000064
和前一次迭代时刻的总奖赏值
Figure RE-GDA0001990751290000065
的大小,若
Figure RE-GDA0001990751290000066
则各Agent进行独立学习;若
Figure RE-GDA0001990751290000067
则Agent间进行合作学习;
步骤5、根据不同的学习方式进行Q值更新,并更新温度参数
Figure RE-GDA0001990751290000068
Figure RE-GDA0001990751290000069
具体如下:
合作Q学习算法考虑多Agent系统的整体收益,若
Figure RE-GDA00019907512900000610
则Agent间进行合作学习,即将自身Q值与其他具有更大奖赏值的 Agent Q值的加权和作为当前学习的Q更新值,其计算式如下所示,
Figure RE-GDA00019907512900000611
其中,ωij为折扣权值,表明其他Agent的经验对当前Agent学习的影响程度,其计算式如下所示,
Figure RE-GDA00019907512900000612
其中,δ为较接近1的常数,rj为Agentj当前时刻的奖赏值。
步骤6、重复步骤3~5,直到达到总迭代次数。
至此,整个基于案例推理与合作Q学习的认知无线电资源分配算法到此结束,其流程如图所示。

Claims (3)

1.基于案例推理与合作Q学习的认知无线电资源分配方法,其特征在于该方法的具体内容为:
步骤1、随机初始化若干案例,给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I,利用传统Q学习算法进行学习,构建成案例库;
步骤2、当前新案例和案例库中历史案例进行匹配,检索出最相似案例的Q值,对该Q值归一化后作为迭代的初始Q值;
步骤3、认知用户感知当前状态st,根据动作策略选择动作at,执行后得到奖赏值rt和下一状态st+1
步骤4、比较当前时刻所有认知用户的奖赏值总和
Figure FDA0002909576430000011
和前一次迭代时刻的总奖赏值
Figure FDA0002909576430000012
的大小,若
Figure FDA0002909576430000013
则各Agent进行独立学习;若
Figure FDA0002909576430000014
则Agent间进行合作学习;
步骤5、根据不同的学习方式进行Q值更新,并更新温度参数
Figure FDA0002909576430000015
步骤6、重复步骤3~5,直到达到总迭代次数;
步骤1具体包括如下内容:
案例库构建:随机初始化若干案例Ck,进行传统的Q学习,得到最终状态-动作函数Q值和认知系统的能量效率;将每个案例的环境因子保存为特征向量Vk,可表示为:
Figure FDA0002909576430000016
其中,n表示案例的特征个数;将最终Q值保存为解决方案Yk,将认知系统的能量效率保存为案例效用值Ek,从而构建成案例库;
步骤2具体如下:
假设新案例的特征向量为
Figure FDA0002909576430000017
采用欧式距离作为衡量案例间的相似度函数,新案例与历史案例Ck的相似函数值为:
Figure FDA0002909576430000021
其中,ξl为第l个特征的权值,∑ξl=1;从而可得匹配案例
Figure FDA0002909576430000022
其中,L为案例库中历史案例总个数。
2.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法,其特征在于步骤3具体如下:
4-1.动作选择策略:利用Boltzmann机制计算动作的选择概率
Figure FDA0002909576430000023
然后采用轮盘赌算法进行动作的选择;其中,T为温度参数,当T较大时指数较小,则得到的各动作概率大致相同;随着T值的减少,则概率P的取值对Q值的依赖增大,即Q值大的动作概率相对越大;
4-2.奖赏函数:资源分配算法旨在保证主用户正常通信的前提下,追求认知系统能量效率的最大化;因此,系统中若有用户的通信产生冲突,奖赏值为“-3”;若认知用户的信干噪比SINRi小于阈值,则奖赏值为“0”,其中,
Figure FDA0002909576430000024
n0为高斯白噪声功率;pi为认知用户选择的功率;hji(m)为在信道m上,认知用户j到认知用户i的信道增益;
Figure FDA0002909576430000025
为主用户功率;gki(m)为在信道m上,主用户k到认知用户i的信道增益;若认知用户能正常通信,则奖赏值为“能量效率Φi”,
Figure FDA0002909576430000026
W为信道带宽。
3.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法,其特征在于步骤4和步骤5具体如下:
合作Q学习算法考虑多Agent系统的整体收益,若
Figure FDA0002909576430000031
则Agent间进行合作学习,即将自身Q值与其他具有更大奖赏值的Agent Q值的加权和作为当前学习的Q更新值,其计算式如下所示,
Figure FDA0002909576430000032
其中,ωij为折扣权值,表明其他Agent的经验对当前Agent学习的影响程度,其计算式如下所示,
Figure FDA0002909576430000033
其中,δ为较接近1的常数,rj为Agentj当前时刻的奖赏值。
CN201811511217.3A 2018-12-11 2018-12-11 基于案例推理与合作q学习的认知无线电资源分配方法 Active CN109787696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811511217.3A CN109787696B (zh) 2018-12-11 2018-12-11 基于案例推理与合作q学习的认知无线电资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811511217.3A CN109787696B (zh) 2018-12-11 2018-12-11 基于案例推理与合作q学习的认知无线电资源分配方法

Publications (2)

Publication Number Publication Date
CN109787696A CN109787696A (zh) 2019-05-21
CN109787696B true CN109787696B (zh) 2021-05-11

Family

ID=66496124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811511217.3A Active CN109787696B (zh) 2018-12-11 2018-12-11 基于案例推理与合作q学习的认知无线电资源分配方法

Country Status (1)

Country Link
CN (1) CN109787696B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211831A (zh) * 2020-01-13 2020-05-29 东方红卫星移动通信有限公司 一种多波束低轨卫星智能动态信道资源分配方法
CN112543038B (zh) * 2020-11-02 2022-03-11 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN113067645B (zh) * 2021-03-29 2022-02-11 浙江大学 一种规则与案例结合的低复杂度水声通信功率设定方法
CN115173922B (zh) * 2022-06-30 2024-03-15 深圳泓越信息科技有限公司 基于cmaddqn网络的多波束卫星通信系统资源分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220751A (zh) * 2013-05-08 2013-07-24 哈尔滨工业大学 基于q学习资源分配策略的异构网络准入控制方法
CN108112082A (zh) * 2017-12-18 2018-06-01 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN108833040A (zh) * 2018-06-22 2018-11-16 电子科技大学 基于强化学习的智能频谱协同感知方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220751A (zh) * 2013-05-08 2013-07-24 哈尔滨工业大学 基于q学习资源分配策略的异构网络准入控制方法
CN108112082A (zh) * 2017-12-18 2018-06-01 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN108833040A (zh) * 2018-06-22 2018-11-16 电子科技大学 基于强化学习的智能频谱协同感知方法

Also Published As

Publication number Publication date
CN109787696A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109787696B (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN112380008B (zh) 一种面向移动边缘计算应用的多用户细粒度任务卸载调度方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
Zhang et al. Energy-efficient resource allocation in uplink NOMA systems with deep reinforcement learning
CN108712748B (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
El Morabit et al. Spectrum allocation using genetic algorithm in cognitive radio networks
CN108809456B (zh) 一种基于改进强化学习的集中式认知无线电频谱分配方法
CN110780938B (zh) 一种移动云环境下基于差分进化的计算任务卸载方法
CN113596785B (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN111565380B (zh) 车联网中基于noma-mec混合卸载方法
Jiang et al. Q-learning based task offloading and resource allocation scheme for internet of vehicles
CN111262638A (zh) 基于高效样本学习的动态频谱接入方法
Zhang et al. A deep reinforcement learning approach for online computation offloading in mobile edge computing
Zhu et al. Learn and pick right nodes to offload
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
Naderializadeh Wireless link scheduling via graph representation learning: A comparative study of different supervision levels
CN113590211A (zh) 基于pso-de算法的计算卸载方法
Yang et al. Multi-objective deep reinforcement learning for mobile edge computing
CN109561129B (zh) 一种基于光纤-无线网络的协同计算卸载方法
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
CN114938543A (zh) 一种基于深度强化学习的蜂窝异构网络资源分配方法
CN112910716B (zh) 一种基于分布式dnn的移动雾计算损耗联合优化系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant