CN108809456B - 一种基于改进强化学习的集中式认知无线电频谱分配方法 - Google Patents

一种基于改进强化学习的集中式认知无线电频谱分配方法 Download PDF

Info

Publication number
CN108809456B
CN108809456B CN201810726743.5A CN201810726743A CN108809456B CN 108809456 B CN108809456 B CN 108809456B CN 201810726743 A CN201810726743 A CN 201810726743A CN 108809456 B CN108809456 B CN 108809456B
Authority
CN
China
Prior art keywords
channel
reinforcement learning
state
algorithm
cognitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810726743.5A
Other languages
English (en)
Other versions
CN108809456A (zh
Inventor
马永涛
朱芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810726743.5A priority Critical patent/CN108809456B/zh
Publication of CN108809456A publication Critical patent/CN108809456A/zh
Application granted granted Critical
Publication of CN108809456B publication Critical patent/CN108809456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于改进强化学习的集中式认知无线电频谱分配方法,包括:收集不同的认知用户感知数据,得到认知环境的状态信息;分析信道状态模型和调制方式对传输功率和误码率的影响;设定误码率门限标准约束为强化学习算法的奖励函数,当选择的动作适应于当前状态时给予激励正值,否则给予惩罚负值,构建强化学习算法模型;利用改进强化学习算法动态地分配频谱资源,即在执行算法时需要结合案例历史信息和自适应的贪心算子。

Description

一种基于改进强化学习的集中式认知无线电频谱分配方法
技术领域
本发明属于认知无线电频谱分配领域,涉及利用结合案例的改进强化学习算法来解决系统信道和调制方式的自适应决策方法。
背景技术
随着认知无线通信技术的飞速发展,为了更好的解决有限频谱的高效利用,结合新兴的智能学习算法于认知无线电当中称为研究热点。能够通过对认知环境的合理分析和推理,从频率、时间、空间等方面,根据不同的认知通信需求,提高某一方面的性能或者综合多个目标提高频谱效率。
频谱分配策略根据不同的划分方法可以分为多种,比如静态和动态频谱分配策略,集中式和分布式频谱分配策略,合作式和竞争式频谱分配策略等。其中按照网络结构分类的集中和分布是策略的区别在于是否由中心控制器来管理和协调认知用户对空闲频谱的使用。在集中式管理系统中,首先需要中心对认知用户感知结果的一个信息收集和处理,然后根据认知用户的需求分配频谱和认知参数。分布式频谱分配策略,则不需要中心控制器,依靠认知本地感知信息和与协作交互信息确定空闲频谱状态,进而进行频谱共享策略。
智能学习一般分为在线学习和离线学习两种方法,离线是基于大量的案例数据挖掘,从而获得一定的经验和知识,用来指导无线电系统的未来决策,例如基于案例推理和规则推理算法;而在线学习主要是通过与无线电环境的交互,获取环境信息,依靠自身来进行学习,通常用于认知无线电系统的初始工作状态,例如隐马尔可夫模型和强化学习算法。强化学习作为一种模式自由的智能算法,利用试错和反馈学习到最优行为选择策略,是一种在线学习方式,能够满足认知通信决策上实时性需求。将基于案例推理和强化学习结合在一起,在得到环境信息后能够借助案例库匹配历史信息,为强化学习的策略选择提供一定的参考标准,加快学习效率。
发明内容
本发明在于提供一种结合案例的改进强化学习算法,来优化集中式认知无线电系统的频谱分配。本发明的技术方案如下:
一种基于改进强化学习的集中式认知无线电频谱分配方法,包括下列步骤:
1)中心控制器收集不同的认知用户感知数据,得到认知环境的状态信息,设有M个信道,设定信道状态s为si∈S={(s1,s2,…,sC)},i代表当前帧,S为状态空间,信道状态有C=2^M种,信道不可用时sc记为0,信道可用时则不同的状态对应不同的信噪比值,并据此给出信道状态转移概率的表达形式;
2)分析信道状态模型和调制方式对传输功率和误码率的影响,设定动作信息为ai∈A={(am,ad)|m∈{1,2,…,M},d∈{0,1,2,…,D}},A表示动作空间,am表示选择的信道,ad表示选择的调制模式,D表示调制阶数;假设每次只选择一个信道进行数据传输,在给定信道状态和调制方式下,给出为达到目标误码率所需要的最小传输功率要求;
3)结合步骤1和步骤2中的数据,设定误码率门限标准约束为强化学习算法的奖励函数R(si,ai),当选择的动作适应于当前状态时给予激励正值,否则给予惩罚负值,构建强化学习算法模型{s,a,R};
4)中心控制器利用改进强化学习算法动态地分配频谱资源,即在执行算法时需要结合案例历史信息和自适应的贪心算子,包括:
(1)初始化模型的系列参数,包括γ折损因子,α学习因子,最大迭代次数;
(2)根据状态信息,查看案例中是否存在相似的历史状态信息,做出初步的环境判断,若存在,则以相似度的程度按案例经验对信道和调制方式做出选择;若不存在,则以交互次数的自然对数的倒数为自适应的贪心算子,对信道和调制方式进行贪心算法选择;
(3)计算奖励函数,根据状态动作值函数评估动作选择的性能,直到满足算法停止条件,生成不同状态下对应不同动作的S-A值表供策略选择。
附图说明
图1本发明集中式认知系统场景图
图2本发明采用的改进强化学习算法流程图
具体实施方式
1、信道状态建模
以帧Tf作为时间单位构建系统模型,在每帧内,信道的状态不发生,信道状态的转移发生在两个状态之间,因此将信道状态转移模型化为马尔可夫链。假设信噪比(SNR)服从瑞利分布,其概率密度表达为
Figure BDA0001719949630000021
ρ>0,其中
Figure BDA0001719949630000022
表示SNR平均值。设定不同信道状态的SNR阈值为ρsnr={ρ12,…,ρS-1},S表示信道状态的个数,信道状态概率分布函数为
Figure BDA0001719949630000023
进而推理出信道状态转移概率表示:
PS(sn,sn+1)=N(ρn+1)Tf/PS(sn),n∈{1,2,…,N-2}其中
Figure BDA0001719949630000024
fd是多普勒频移,N表示跳转的次数。例如有M个信道,那多信道的状态转移概率为
Figure BDA0001719949630000025
ps,m(si,si+!)表示第m个信道的状态从si转移到si+1的概率。
2、传输方式分析
为了提高传输效率,中心控制器利用自适应调制方法来调整传输功率和速率。用d∈{0,1,2,…,D}表示选择的传输模式,D表示最大调制阶数。d取值0表示不传输,取值为1表示BPSK方式传输,取值>1的则对应表示为2d-QAM方式传输。当给定传输速率、功率和信道状态,借助相关相位检测可以估计出误码率的约束条件。
Figure BDA0001719949630000031
if d>1,pBER(si,d)≤0.2exp(-1.6ρiP(si,d)/Pnoise(2d-1))
式中pBER(si,d)表示在si误码率,P(si,d)表示了在给定信道状态和调制方式下,为了达到目标误码率所需要的最小传输功率要求。Pnoise表示噪声功率。
3、强化学习建模
强化学习模型主要由状态信息、动作信息和瞬时奖励{S,a,R}组成。假设有M个信道,其中状态参数s设定为信道状态si∈S={(s1,s2,…,sC)},i代表当前帧,S为状态空间,信道状态有C=2^M种。若信道不可用sc记为0值,信道可用则不同的状态对应不同的SNR值。动作a设定为ai∈A={(am,ad)|m∈{1,2,…,M},d∈{1,2,…,D}},A表示动作空间,am表示选择的信道,ad表示选择的调制模式。结合步骤1中的多信道转移概率情况,给出
Figure BDA0001719949630000032
其中Eb为单位比特能量,N0为噪声功率谱密度,其比值与调制阶数和频带利用率成正比。
误码率门限标准为奖励函数的反馈设定,取
Figure BDA0001719949630000033
其中thBER为设定的误码率阈值,当选择的动作适应于当前状态时给予激励值,否则给予惩罚值。通过强化学习的Q值函数更新算法步骤,Qi+1(si,ai)=(1-α)·Qt(si,ai)+α(R(si,ai)+γ·Vi(Si+1)),式中α表示学习速率,其中
Figure BDA0001719949630000034
表示在当前状态下选择使得Q(s,a)值函数最大作为其状态值函数值。
4、改进强化学习算法
当认知中心对当前的环境有历史认知信息时,可以借助之前存储的S-A表格,以概率的形式借助历史信息,对强化学习的策略选择进行指导。如下所示
Figure BDA0001719949630000035
其中π(s,a)表示在当前状态s下选择动作a的策略,QH表示历史的状态动作信息表,ph为历史认知环境与当前认知环境的匹配概率,η为指定的匹配概率阈值。当无历史信息时,则根据以下的改进贪心思想策略选择动作。
Figure BDA0001719949630000041
其中ε为贪心均衡参数。
本发明对固定参数的贪心算法进行改进,令ε=1/ln(N+1)以交互次数的自然对数的倒数为均衡参数ε,来增强算法的学习灵活性。在算法的初始阶段交互次数小,对环境信息没有足够的了解,对当前的状态需要更多地探索不同动作会带来的结果,充实不同状态下动作选择的Q值,此时设定的均衡参数较大,符合以大概率来探索可能的解的需求。在算法的后续阶段,当收集到部分环境信息后,对不同状态下的动作选择有了初步的掌握,此时设定的均衡参数逐渐变小趋于0.1,能保证以较大的概率充分利用已获得的历史经验的同时,以较小的概率对环境状态的随机动作选择做出探索。

Claims (1)

1.一种基于改进强化学习的集中式认知无线电频谱分配方法,包括下列步骤:
1)中心控制器收集不同的认知用户感知数据,得到认知环境的状态信息,设有M个信道,设定信道状态s为si∈S={(s1,s2,…,sC)},i代表当前帧,S为状态空间,信道状态有C=2^M种,信道不可用时sc记为0,信道可用时则不同的状态对应不同的信噪比值,并据此给出信道状态转移概率的表达形式;
2)分析信道状态模型和调制方式对传输功率和误码率的影响,设定动作信息为ai∈A={(am,ad)|m∈{1,2,…,M},d∈{0,1,2,…,D}},A表示动作空间,am表示选择的信道,ad表示选择的调制模式,D表示调制阶数;假设每次只选择一个信道进行数据传输,在给定信道状态和调制方式下,给出为达到目标误码率所需要的最小传输功率要求;
3)结合步骤1和步骤2中的数据,设定误码率门限标准约束为强化学习算法的奖励函数R(si,ai),当选择的动作适应于当前状态时给予激励正值,否则给予惩罚负值,构建强化学习算法模型{s,a,R};
4)中心控制器利用改进强化学习算法动态地分配频谱资源,即在执行算法时需要结合案例历史信息和自适应的贪心算子,包括:
(1)初始化模型的系列参数,包括γ折损因子,α学习因子,最大迭代次数;
(2)根据状态信息,查看案例中是否存在相似的历史状态信息,做出初步的环境判断,若存在,则以相似度的程度按案例经验对信道和调制方式做出选择;若不存在,则以交互次数的自然对数的倒数为自适应的贪心算子,对信道和调制方式进行贪心算法选择;
(3)计算奖励函数,根据状态动作值函数评估动作选择的性能,直到满足算法停止条件,生成不同状态下对应不同动作的S-A值表供策略选择。
CN201810726743.5A 2018-07-04 2018-07-04 一种基于改进强化学习的集中式认知无线电频谱分配方法 Active CN108809456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810726743.5A CN108809456B (zh) 2018-07-04 2018-07-04 一种基于改进强化学习的集中式认知无线电频谱分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810726743.5A CN108809456B (zh) 2018-07-04 2018-07-04 一种基于改进强化学习的集中式认知无线电频谱分配方法

Publications (2)

Publication Number Publication Date
CN108809456A CN108809456A (zh) 2018-11-13
CN108809456B true CN108809456B (zh) 2020-09-18

Family

ID=64074587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810726743.5A Active CN108809456B (zh) 2018-07-04 2018-07-04 一种基于改进强化学习的集中式认知无线电频谱分配方法

Country Status (1)

Country Link
CN (1) CN108809456B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519013B (zh) * 2019-08-30 2022-02-01 西安科技大学 一种基于强化学习的水声通信自适应调制方法
CN112367132B (zh) * 2020-10-27 2021-12-24 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112512121A (zh) * 2020-12-10 2021-03-16 齐鲁工业大学 基于强化学习算法的无线电频谱动态分配方法及装置
CN112672359B (zh) * 2020-12-18 2022-06-21 哈尔滨工业大学 基于双向长短时记忆网络的动态频谱接入方法
CN113255765B (zh) * 2021-05-25 2024-03-19 南京航空航天大学 一种基于大脑机理的认知学习方法
CN113613332B (zh) * 2021-07-14 2023-06-09 广东工业大学 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604511A (zh) * 2004-11-11 2005-04-06 上海交通大学 多天线-正交频分复用通信系统自适应功率分配的方法
US6895248B1 (en) * 1998-06-02 2005-05-17 The Board Of Trustees Of The Leland Stanford Junior University Dynamic resource allocation and media access control for a wireless ATM network
CN101018084A (zh) * 2007-03-08 2007-08-15 北京邮电大学 服务质量保证的多用户mimo-ofdm系统的资源分配方法
CN103228048A (zh) * 2013-05-22 2013-07-31 东南大学 一种基于偏移单载波调制的上行多用户频域资源分配方法
CN103297974A (zh) * 2012-02-27 2013-09-11 中兴通讯股份有限公司 一种基于信道管理的动态频谱分配方法及装置
CN103634846A (zh) * 2012-08-29 2014-03-12 上海交通大学 在多信道多跳无线网络中用贪心算法分配信道资源的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6895248B1 (en) * 1998-06-02 2005-05-17 The Board Of Trustees Of The Leland Stanford Junior University Dynamic resource allocation and media access control for a wireless ATM network
CN1604511A (zh) * 2004-11-11 2005-04-06 上海交通大学 多天线-正交频分复用通信系统自适应功率分配的方法
CN101018084A (zh) * 2007-03-08 2007-08-15 北京邮电大学 服务质量保证的多用户mimo-ofdm系统的资源分配方法
CN103297974A (zh) * 2012-02-27 2013-09-11 中兴通讯股份有限公司 一种基于信道管理的动态频谱分配方法及装置
CN103634846A (zh) * 2012-08-29 2014-03-12 上海交通大学 在多信道多跳无线网络中用贪心算法分配信道资源的方法
CN103228048A (zh) * 2013-05-22 2013-07-31 东南大学 一种基于偏移单载波调制的上行多用户频域资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
认知无线电中基于比例公平的资源分配方案;周刘纪;《计算机工程与应用》;20151231;第I136-136页 *
认知无线电系统中联合频谱分配算法研究;谢玉鹏;《中国博士学位论文全文数据库 信息科技辑》;20170215;第81-88页 *

Also Published As

Publication number Publication date
CN108809456A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108809456B (zh) 一种基于改进强化学习的集中式认知无线电频谱分配方法
Zhang et al. Energy-efficient resource allocation in uplink NOMA systems with deep reinforcement learning
CN101466111B (zh) 基于政策规划约束q学习的动态频谱接入方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN108712748B (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN103916355B (zh) 一种认知ofdm网络中子载波的分配方法
CN109787696B (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
CN113886095A (zh) 一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法
Ren et al. DDPG based computation offloading and resource allocation for MEC systems with energy harvesting
CN113239632A (zh) 无线性能预测方法及装置、电子设备和存储介质
CN113438315A (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN114828095A (zh) 一种基于任务卸载的高效数据感知分层联邦学习方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN113613332A (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN116362522B (zh) 基于多点分布模型的数字能源氮气站数据处理方法及系统
Wang et al. Resource allocation in multi-cell NOMA systems with multi-agent deep reinforcement learning
Song et al. Federated dynamic spectrum access through multi-agent deep reinforcement learning
Kaytaz et al. Distributed deep reinforcement learning with wideband sensing for dynamic spectrum access
CN116016380A (zh) 时敏业务异构网络资源调配方法、系统、设备及介质
CN114173421B (zh) 基于深度强化学习的LoRa逻辑信道及功率分配方法
Eskandari et al. Smart Interference Management xApp using Deep Reinforcement Learning
Yang et al. MADRL Based Uplink Joint Resource Block Allocation and Power Control in Multi-Cell Systems
CN115276858A (zh) 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN113890653A (zh) 面向多用户利益的多智能体强化学习功率分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant