CN113225794A - 一种基于深度强化学习的全双工认知通信功率控制方法 - Google Patents

一种基于深度强化学习的全双工认知通信功率控制方法 Download PDF

Info

Publication number
CN113225794A
CN113225794A CN202110473425.4A CN202110473425A CN113225794A CN 113225794 A CN113225794 A CN 113225794A CN 202110473425 A CN202110473425 A CN 202110473425A CN 113225794 A CN113225794 A CN 113225794A
Authority
CN
China
Prior art keywords
transmitter
secondary user
full
power control
receiver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110473425.4A
Other languages
English (en)
Other versions
CN113225794B (zh
Inventor
卜智勇
鲁敏
周斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Micro Information Technology Research Institute Co Ltd
Original Assignee
Chengdu Zhongke Micro Information Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongke Micro Information Technology Research Institute Co Ltd filed Critical Chengdu Zhongke Micro Information Technology Research Institute Co Ltd
Priority to CN202110473425.4A priority Critical patent/CN113225794B/zh
Publication of CN113225794A publication Critical patent/CN113225794A/zh
Application granted granted Critical
Publication of CN113225794B publication Critical patent/CN113225794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • H04W52/14Separate analysis of uplink or downlink
    • H04W52/143Downlink power control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/265TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the quality of service QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于深度强化学习的全双工认知通信功率控制方法,包括:步骤1,建立全双工认知通信系统;步骤2,初始化所述全双工认知通信系统的系统参数;步骤3,基于发射机的某发射功率,计算接收机相应的信干噪比;步骤4,初始化发射机的发射功率以及动作集合,构建次用户发射机功率控制的马尔可夫决策模型;步骤5,基于次用户发射机功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机的功率控制策略;步骤6,进行次用户发射机的功率控制。本发明能够实现根据无线电环境调整发射功率,满足通信系统中所有用户服务质量要求,并且计算量及参数量较少,适合在硬件设备上部署。

Description

一种基于深度强化学习的全双工认知通信功率控制方法
技术领域
本发明涉及机器学习以及无线通信技术领域,具体而言,涉及一种基于深度强化学习的全双工认知通信功率控制方法。
背景技术
随着第五代(5G)移动通信和物联网(IoT)技术的迅速发展,海量的设备链接和各种新兴业务不断涌入,无线频谱资源变得愈加紧缺。传统的频谱分配方法导致频谱资源无法充分使用,难以满足未来一段时间内无线通信的需求。日益增长的频谱需求以及有限的频谱资源之间的矛盾必将成为限制未来无线通信技术发展的重要因素之一。认知无线电技术和全双工技术均被认为是提高频谱资源利用效率的关键技术。
全双工(即同时同频全双工)技术的特点是用户可以在同一时间以相同的频率进行信号的接收和发送,该技术近年来备受关注,逐渐成为当前信息领域的研究热点和重要发展方向。全双工无线通信面临的主要技术难点是“自干扰问题”,现有的基于天线域、射频域以及数字域的自干扰消除技术已经比较成熟,可将自干扰信号强度有效衰减70~120dB,从而保证了这一技术在实际通信系统中的有效应用。
认识无线电技术的基本思想是当授权用户(主用户,PU)不使用该频段或非授权用户(次用户,SU)对主用户的干扰低于一定阈值时,非授权用户可以使用该频段,进而提高频谱使用效率。功率控制技术是认知无线电网络中实现主、次用户共享频谱资源的关键技术之一。传统的功率控制算法主要分为两种:静态功率控制算法和动态功率控制算法。
静态功率控制算法需要知道通信系统的准确的数学模型并假设系统的参数精确已知,通过优化具有一系列约束条件的能够描述通信系统性能的目标函数来求解最优的功率。即将无线电网络功率控制描述为一个约束优化问题,通过求解一个或多个优化目标来获得各次用户最优的发射功率。针对不同网络功率控制需求,功率分配优化的目标在各个网络中也有所不同,常见的优化目标有:最大化认知无线电网络能量有效性以及最大化次用户的传输效率。这些方案均假设通信系统的信道状态是理想已知的,由于实际中无线信道的复杂性和时变性,这一假设是十分不合理的。考虑到通信系统参数的不确定性,采用鲁棒性优化理论的功率控制算法将参数的随机特性假设为一个不确定性集合并通过Bayesian等方法进行最优功率的求解。在认知无线电网络中,各用户的离开和加入都是随机的,通信系统时变性较高的特点使得这一基于概率统计模型的功率分配方案不能很好地满足系统的性能要求。
动态功率控制算法考虑到了通信系统的时变特性,如测量误差以及延迟反馈,主要包括分布式受限的功率控制算法(DCPC)和基于效用的功率控制算法(UBPC)。DCPC算法基于信干噪比以及接收端信干噪比的要求,迭代调整发射机功率以满足全部用户的服务质量(QoS)要求。UBPC算法则是基于“软”信噪比(SIR),所谓“软”信噪比,指的是当用户感知到网络流量拥塞时,用户将自动减少其目标SIR。然而认知无线电网络信道变化迅速,这使得动态功率控制算法参数调整存在滞后效应,难以满足认知无线电网络功率控制算法所要求的适应性和灵活性。
深度强化学习技术是机器学习的一个分支,其目的是在复杂的动态环境中寻找最优决策,深度强化学习通过一个智能体不断地探索周围的环境,每做一个决策,都会得到一个相应的奖励值,如果智能体当前选择的策略是正确的,则得到一个正反馈信号,否则得到一个负反馈信号,利用深度神经网络(DNN)对历史数据进行分析并学习环境变化规律,最终根据学习到的规律得到最优的控制策略。由于信道的时变等原因,无线通信网络的功率控制问题实际上是一个在动态环境中的最优决策问题,这与深度强化学习技术的设计的目标相吻合。深度强化学习技术强大的学习与决策能力可以对认知无线电网络进行智能管理,使其在复杂的通信环境中能够精准地匹配用户需求,最终提升网络的实际承载能力和用户通信体验。文献(X.Li,J.Fang,W.Cheng,H.Duan,Z.Chen and H.Li,“Intelligent PowerControl for Spectrum Sharing in Cognitive Radios:A Deep ReinforcementLearning Approach,”IEEE Access,vol.6,pp.25463-25473,2018.)提出的半双工模式下基于深度强化学习的认知无线电网络次用户发射机功率控制算法采用了一个deep neuralnetwork(DNN)网络作为Q网络,该网络包括3个全连接层,分别具有256,256,512个神经元,这使得该算法的每秒钟浮点数运算量(FLOPs)以及参数量十分庞大,算法实际的硬件部署实现较为困难。
鉴于以上问题,有必要设计一种适合在硬件设备上部署的基于深度强化学习的次用户发射机功率控制方法。
发明内容
本发明旨在提供一种基于深度强化学习的全双工认知通信功率控制方法,以解决上述技术问题。
本发明提供的一种基于深度强化学习的全双工认知通信功率控制方法,包括如下步骤:
步骤1,建立全双工认知通信系统;所述全双工认知通信系统包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2
步骤2,初始化所述全双工认知通信系统的系统参数;
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。
进一步的,步骤1中所述全双工认知通信系统中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。
进一步的,步骤2中所述初始化所述全双工认知通信系统的系统参数包括初始化所述全双工认知通信系统中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn
发射功率共有k档,发射功率集合为PT,PT={p1,p2,......,pk},其中p1<p2<......<pk
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2
进一步的,步骤3中所述基于发射机发射的某功率信号计算接收机相应的信干噪比的方法包括:
主用户接收机RX1的信干噪比SINR1为:
Figure BDA0003046241790000051
次用户接收机RX2的信干噪比SINR2为:
Figure BDA0003046241790000052
其中,P1为主用户发射机TX1的发射功率,P2为次用户发射机TX2的发射功率。
进一步的,步骤4中所述构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT
(2)得到主用户发射机TX1的观测功率信号
Figure BDA0003046241790000061
并通过功率信号抽样将观测功率信号离散化,得到系统状态离散化表示:
Figure BDA0003046241790000062
K表示系统状态数量;
(3)定义系统奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0。
进一步的,步骤5中所述目标函数定义为:
Figure BDA0003046241790000063
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1]。
进一步的,步骤5中所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练。
进一步的,步骤5-4中所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ) (4)
其中,L(θ)表示损失函数的值,Qtarget(s,a;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[]表示期望运算。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明基于深度强化学习的全双工认知通信功率控制方法可应用于各种下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多全双工认知通信系统中次用户发射机的功率控制,实现根据无线电环境调整发射功率,满足通信系统中所有用户服务质量要求。并且计算量及参数量较少,适合在硬件设备上部署。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于深度强化学习的全双工认知通信功率控制方法的流程图。
图2为本发明实施例建立的全双工认知通信系统示意图。
图3为本发明实施例的DQN算法训练流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例提出一种基于深度强化学习的全双工认知通信功率控制方法,包括如下步骤:
步骤1,建立全双工认知通信系统;
本实施例中,所述全双工认知通信系统下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多无线网络的抽象模型,特指下行链路模式下由一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2组成的多用户通信系统,如图2所示。其中,所述全双工认知通信系统中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收,即工作在全双工模式;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,如DCPC算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。
步骤2,初始化所述全双工认知通信系统的系统参数;
所述所述初始化所述全双工认知通信系统的系统参数包括初始化所述全双工认知通信系统中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn
发射功率共有k档,发射功率集合为PT,PT={p1,p2,......,pk},其中p1<p2<......<pk
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
针对主用户发射机TX1的发射功率P1,次用户发射机TX2的发射功率P2,主用户接收机RX1的信干噪比SINR1为:
Figure BDA0003046241790000101
次用户接收机RX2的信干噪比SINR2为:
Figure BDA0003046241790000102
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;马尔可夫决策模型主要组成部分包含状态集合、动作集合、奖励函数以及不同状态下的转移概率。对于马尔可夫决策模型而言,其下一状态取决于当前状态下所采取的动作。而马尔可夫决策模型就是要找到一种最优的策略,基于此策略决策者可以通过执行特定的动作而获得最大化的累计奖励。本发明的决策者是次用户发射机,其主要负责动作的执行,即根据指示信息进行功率值的调整,该指示信息是基于通信系统的状态产生的,与每个接收机接收到信号以后的信干噪比有关。由此,构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT
(2)得到主用户发射机TX1的观测功率信号
Figure BDA0003046241790000111
并通过功率信号抽样将观测功率信号离散化,得到系统状态离散化表示:
Figure BDA0003046241790000112
K表示系统状态数量;
(3)定义系统奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0。
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
所述目标函数定义为:
Figure BDA0003046241790000113
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1]。
如图3所示,所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;因为在训练过程中需要很多的经验数据,当经验数据累积到一定条目以后,从数据容器ME中随机抽取小批量数据并且传入网络CNN1进行训练;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ)] (4)
其中,L(θ)表示损失函数的值,Qtarget(s,a;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[ ]表示期望运算。
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练。
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。
本发明基于深度强化学习的全双工认知通信功率控制方法可应用于各种下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多全双工认知通信系统中次用户发射机的功率控制,实现根据无线电环境调整发射功率,满足通信系统中所有用户服务质量要求。并且计算量及参数量较少,适合在硬件设备上部署。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度强化学习的全双工认知通信功率控制方法,其特征在于,包括如下步骤:
步骤1,建立全双工认知通信系统;所述全双工认知通信系统包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2
步骤2,初始化所述全双工认知通信系统的系统参数;
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。
2.根据权利要求1所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤1中所述全双工认知通信系统中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。
3.根据权利要求2所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤2中所述初始化所述全双工认知通信系统的系统参数包括初始化所述全双工认知通信系统中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn
发射功率共有k档,发射功率集合为PT,,PT={p1,p2,......,pk},其中p1<p2<......<pk
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2
4.根据权利要求3所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤3中所述基于发射机发射的某功率信号计算接收机相应的信干噪比的方法包括:
主用户接收机RX1的信干噪比SINR1为:
Figure FDA0003046241780000031
次用户接收机RX2的信干噪比SINR2为:
Figure FDA0003046241780000032
其中,P1为主用户发射机TX1的发射功率,P2为次用户发射机TX2的发射功率。
5.根据权利要求4所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤4中所述构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT
(2)得到主用户发射机TX1的观测功率信号
Figure FDA0003046241780000033
并通过功率信号抽样将观测功率信号离散化,得到系统状态离散化表示:
Figure FDA0003046241780000034
K表示系统状态数量;
(3)定义系统奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0。
6.根据权利要求5所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤5中所述目标函数定义为:
Figure FDA0003046241780000041
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1]。
7.根据权利要求6所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤5中所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练。
8.根据权利要求7所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤5-4中所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ)] (4)
其中,L(θ)表示损失函数的值,Qtarget(s,α;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[]表示期望运算。
CN202110473425.4A 2021-04-29 2021-04-29 一种基于深度强化学习的全双工认知通信功率控制方法 Active CN113225794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110473425.4A CN113225794B (zh) 2021-04-29 2021-04-29 一种基于深度强化学习的全双工认知通信功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110473425.4A CN113225794B (zh) 2021-04-29 2021-04-29 一种基于深度强化学习的全双工认知通信功率控制方法

Publications (2)

Publication Number Publication Date
CN113225794A true CN113225794A (zh) 2021-08-06
CN113225794B CN113225794B (zh) 2022-09-27

Family

ID=77089979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110473425.4A Active CN113225794B (zh) 2021-04-29 2021-04-29 一种基于深度强化学习的全双工认知通信功率控制方法

Country Status (1)

Country Link
CN (1) CN113225794B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN116321390A (zh) * 2023-05-23 2023-06-23 北京星河亮点技术股份有限公司 功率控制方法、装置和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170223709A1 (en) * 2016-01-28 2017-08-03 Electronics And Telecommications Research Institute Method and apparatus for transmitting signal in full-duplex based mobile communication system
CN109962728A (zh) * 2019-03-28 2019-07-02 北京邮电大学 一种基于深度增强学习的多节点联合功率控制方法
CN110784882A (zh) * 2019-10-28 2020-02-11 南京邮电大学 一种基于强化学习的能量采集d2d通信资源分配方法
CN111800217A (zh) * 2020-07-30 2020-10-20 遵义医科大学 非理想信道状态下全双工认知多输入多输出中继协作方法
US20200374807A1 (en) * 2018-03-09 2020-11-26 Huawei Technologies Co., Ltd. Power control method and device
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170223709A1 (en) * 2016-01-28 2017-08-03 Electronics And Telecommications Research Institute Method and apparatus for transmitting signal in full-duplex based mobile communication system
US20200374807A1 (en) * 2018-03-09 2020-11-26 Huawei Technologies Co., Ltd. Power control method and device
CN109962728A (zh) * 2019-03-28 2019-07-02 北京邮电大学 一种基于深度增强学习的多节点联合功率控制方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN110784882A (zh) * 2019-10-28 2020-02-11 南京邮电大学 一种基于强化学习的能量采集d2d通信资源分配方法
CN111800217A (zh) * 2020-07-30 2020-10-20 遵义医科大学 非理想信道状态下全双工认知多输入多输出中继协作方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NORTEL NETWORKS: "R1-99460 "Power Control on Multi-code Channels for the UTRA/FDD Uplink"", 《3GPP TSG_RAN\WG1_RL1》 *
周明月等: "协作中继认知无线电中功率分配算法", 《吉林大学学报(理学版)》 *
唐伦等: "接入与回传一体化小基站的接入控制与资源分配联合优化算法", 《电子与信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114126021B (zh) * 2021-11-26 2024-04-09 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN116321390A (zh) * 2023-05-23 2023-06-23 北京星河亮点技术股份有限公司 功率控制方法、装置和设备

Also Published As

Publication number Publication date
CN113225794B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
CN108112082B (zh) 一种基于无状态q学习的无线网络分布式自主资源分配方法
Zhang et al. Deep reinforcement learning for multi-agent power control in heterogeneous networks
US10080200B2 (en) Intelligent deployment cascade control device based on an FDD-OFDMA indoor small cell in multi-user and interference environments
CN111586646B (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
CN110267274B (zh) 一种根据用户间社会信誉度选择传感用户的频谱共享方法
CN111446992B (zh) 无线供电大规模mimo网络中的最大化最小能效资源分配方法
Bi et al. Deep reinforcement learning based power allocation for D2D network
CN112788764A (zh) 针对noma超密集网络任务卸载和资源分配方法及系统
CN115766089A (zh) 一种能量采集认知物联网络抗干扰最优传输方法
CN111787543A (zh) 一种基于改进灰狼优化算法的5g通信系统资源分配方法
CN114302497A (zh) 一种应用于非授权毫米波段异构网络共存的调度方法
CN113038567B (zh) 多中继通信中的抗干扰系统的抗干扰方法
CN113747396A (zh) 一种基于ris的社会感知v2x网络联合资源优化方法
Adeogun et al. Distributed channel allocation for mobile 6g subnetworks via multi-agent deep q-learning
Lall et al. Multi-agent reinfocement learning for stochastic power management in cognitive radio network
CN108650705B (zh) 一种能量利用率最大化的异构无线网络鲁棒功率控制方法
CN113453197B (zh) 一种联合移动预测和动态功率的用户配对方法
Chen et al. A categorized resource sharing mechanism for device-to-device communications in cellular networks
CN113747386A (zh) 认知无线电网络频谱共享中的智能功率控制方法
CN114423070A (zh) 一种基于d2d的异构无线网络功率分配方法及系统
Du et al. Joint time and power control of energy harvesting CRN based on PPO
CN105577591A (zh) 一种异构网中基于全双工通信的跨层串行干扰删除方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant