CN112383922A - 一种基于优先经验重放的深度强化学习频谱共享方法 - Google Patents

一种基于优先经验重放的深度强化学习频谱共享方法 Download PDF

Info

Publication number
CN112383922A
CN112383922A CN201910607372.3A CN201910607372A CN112383922A CN 112383922 A CN112383922 A CN 112383922A CN 201910607372 A CN201910607372 A CN 201910607372A CN 112383922 A CN112383922 A CN 112383922A
Authority
CN
China
Prior art keywords
user
spectrum
spectrum sharing
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910607372.3A
Other languages
English (en)
Other versions
CN112383922B (zh
Inventor
刘福来
张丹丹
杜瑞燕
张艾怡
高帆
徐嘉良
胡忠意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN201910607372.3A priority Critical patent/CN112383922B/zh
Publication of CN112383922A publication Critical patent/CN112383922A/zh
Application granted granted Critical
Publication of CN112383922B publication Critical patent/CN112383922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/265TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the quality of service QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/28TPC being performed according to specific parameters using user profile, e.g. mobile speed, priority or network state, e.g. standby, idle or non transmission
    • H04W52/281TPC being performed according to specific parameters using user profile, e.g. mobile speed, priority or network state, e.g. standby, idle or non transmission taking into account user or data type priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/56Allocation or scheduling criteria for wireless resources based on priority criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于优先经验重放的深度强化学习频谱共享方法,所述方法包括以下几个步骤:构建频谱共享模型;在频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程(MDP),训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息;根据所获取的认知用户功率传输学习价值信息判断频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱,达到了可用频谱资源的高效利用。本发明在频谱网络状态动态变化、环境条件未知等因素下实现可用频谱资源的高效利用。

Description

一种基于优先经验重放的深度强化学习频谱共享方法
技术领域
本发明涉及无线电通信领域,具体而言,涉及一种基于优先经验重放的深度强化学习频谱共享方法。
背景技术
随着移动数据通信的飞速发展,无线频谱资源需求正在急剧增长,在现有频谱授权机制下,频谱资源日益紧张且频谱利用率低。为了提高频谱利用率,现有研究能够在时间、频率以及空域上检测频谱资源占用状态,然后利用频谱资源多维复用技术、自适应编码调制技术、分集技术以及超宽带和扩频通信等传输技术,以降低频谱和带宽限制对无线通信发展的束缚。这些技术方案对无线电频谱的使用方面,虽然在一定程度上提高了系统传输容量和频谱利用率,但是传输容量和频谱资源不足问题依然突出。
无线电频谱的使用是一个动态变化的过程,要求频谱分配和管理模式具有相应的灵活性和适应性。认知无线电网络是5G时代的核心网络结构,目前常采用认知无线电相关技术解决频谱资源管理模式不足导致的频谱利用率较低等问题。频谱共享作为认知无线电关键技术之一,是指在不改变现有的固定频谱分配框架下,认知终端通过调整系统工作参数,实现可用频谱资源高效利用的技术方案,已成为当今大数据时代解决频谱供需矛盾的热门话题。然而,随着无线宽带业务的迅猛发展以及海量频谱数据的增加,传统的频谱共享技术已经不再适用于当前5G大数据时代。因此,有必要提出新型的频谱共享技术,为认知无线电频谱资源的高效利用提供有力保障。
现有的无线业务产生海量的频谱数据,频谱数据的广度和深度不断扩增,带来了复杂的频谱大数据;而且,在基于频谱大数据进行频谱共享的过程中,由于存在频谱网络状态动态变化、环境条件未知等因素,导致需要先验样本进行训练的离线学习算法不再适用频谱共享决策过程。强化学习采用“学习—决策—执行”的方法,结合含有多层的神经网络并在神经网络每一层中对数据进行抽象化来学习并获取数据表达方式的深度学习,在频谱共享决策问题上有很大的优势。例如:根据信道的实时使用情况认知用户智能的调整发射端传输功率,选择最优频谱数据的网络,提高频谱的利用率。
申请号为“201810391479.4”的专利文件公开了“基于深度学习的多载波认知NOMA资源分配”,该方法提出一个优化NOMA系统频谱效率和能量效率的用户配对及资源分配策略,设计了基于消息传递的全连接神经网络并提出了最优的深度学习算法,实现了大规模NOMA 用户公平且灵活地进行高质量、高速率、低功耗的数据传输。申请号为“201710717867.2”的专利文件公开了“一种基于契约理论的协作频谱共享动态激励机制设计方法”,该方法通过将无线协作频谱共享网络映射成劳动力市场,将基于市场驱动的契约模型引入到协作频谱共享机制中,建立了主用户模型和次级用户模型,实现了对无线频谱资源的高效利用。上述频谱共享方法,虽然从深度学习和契约理论等方面实现频谱共享,提高了频谱利用率,但是未考虑在当前频谱大数据的无线业务下,频谱网络状态动态变化、环境条件未知等因素对频谱共享灵活性和适应性的要求。
发明内容
本发明针对基于频谱大数据进行频谱共享时存在的频谱网络状态动态变化、环境条件未知等因素,提出一种具优先经验重放的深度Q网络方法,实现认知用户对主用户频谱的共享。该方法与传统的深度强化学习频谱共享方法相比,在“学习—决策—执行”模式的训练中使用基于优先级的采样方式替代均匀采样,区分不同转移样本之间的重要性差异,提高了有价值样本的采样概率,避免有价值的样本被覆盖或者重复利用,从而加快频谱共享最优策略学习。实验表明:本发明提出的基于优先经验重放的深度强化学习频谱共享方法具有更高的成功率和更快的收敛性。
本发明的目的在于提供一种基于优先经验重放的深度强化学习频谱共享方法,满足在当前频谱大数据无线业务下,频谱网络状态动态变化、环境条件未知等因素对频谱共享灵活性和适应性的要求。
为解决上述技术问题,本发明采用如下的技术方案:一种基于优先经验重放的深度强化学习频谱共享方法,包括以下步骤:
S1,构建频谱共享模型;
S2,在S1频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程(MDP),训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息;
S3,根据S2所获取的认知用户功率传输学习价值信息做出频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱,达到可用频谱资源的高效利用。
优选的,步骤S1中,构建频谱共享模型。
进一步优选的,步骤S1包括以下步骤:
在该模型中,频谱共享模型包括主用户和认知用户,它们以非协作的方式工作。主用户根据自身的功率控制策略更新发射功率,认知用户采用基于优先经验重放的深度强化学习机制更新发射功率来共享主用户的频谱。
信干噪比SINR是度量主用户和认知用户的服务质量QoS;第i个接收机的SINRi为:
Figure RE-GDA0002214477870000031
其中,hij表示发射端i到接收端j的信道增益,pi是第i个发射端的传输功率,Ni表示第i个接收端噪声功率。
假设主用户接收端和认知用户接收端成功接收传输数据必须满足一个最小的SINR,即: SINRi≥μi,i=1,2。主用户功率控制策略算法为:
Figure RE-GDA0002214477870000032
其中,Ppu(t)表示在第t个时间帧主用户的传输功率,SINR1(t)表示在第t个时间帧主用户接收端测得的信干噪比,
Figure RE-GDA0002214477870000033
表示一个离散化操作,目的是将一组连续的值映射到一组离散的值上,即
Figure RE-GDA0002214477870000034
其中
Figure RE-GDA0002214477870000035
Figure RE-GDA0002214477870000036
优选的,步骤S2中,在S1频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息。
进一步优选的,步骤S2包括以下步骤:
S21,经验池初始化容量为D,神经网络初始化;设定经验池为一个满二叉树,叶子节点可储存D个状态动作对;初始化Q网络的权重参数为θ,目标网络
Figure RE-GDA0002214477870000037
的权重参数为θ-=θ;
S22,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,建立状态空间S(t),动作空间A定义以及即时奖赏
Figure RE-GDA0002214477870000038
计算模型;
S23,积累具有样本优先级的经验池,其特征在于,具体步骤如下:
1)初始化状态空间S(1)。根据当前输入状态S(1),通过Q网络得到全部动作,利用ε贪心算法选取动作,具体是以ε的概率从动作空间A选择一个动作a(t),否则以1-ε的概率选取最大Q值的动作
Figure RE-GDA0002214477870000039
其中t表示时间;
2)根据步骤S1中主用户的功率更新策略更新主用户的传输功率,执行动作a(t),得到即时奖励
Figure RE-GDA00022144778700000310
和t+1时刻的状态S(t+1);
3)将t+1时刻的状态S(t+1)作为当前输入状态,重复步骤1)和2),将计算得到的状态动作对 e(t)@{S(t),a(t),r(t),S(t+1)}和最大优先级dt=maxi<tdi存到满二叉树构成的经验池中,满二叉树中只有叶子节点储存状态动作对;
4)重复步骤3)直到经验池的D空间被储存满,经验池的满二叉树储存满后每执行一次步骤 3)便跳转执行一次步骤S24;
S24,训练频谱共享模型下深度强化学习神经网络,其特征在于,具体步骤如下:
1)从满二叉树中采样小批量O的e(t),每个样本被采样的概率基于j:
Figure RE-GDA0002214477870000041
采样样本储存在一个(m,n)的二维矩阵,其中,m为样本容量大小,n为每个样本储存的信息数量,满足n=2*s+a+1,s为状态的维度,a为动作的维度,1为存储奖励信息的预留空间;
2)对步骤1)中的小批量样本O计算每个e(t)采样样本j:
Figure RE-GDA0002214477870000042
3)对步骤1)中的小批量样本O计算每个e(t)样本重要性采样权重ω,采样权重主要是为了纠正网络训练过拟合问题,即:wj=(NgD(j))/maxiwi,其中β表示纠正程度;
4)计算1)所有样本的时序误差
Figure RE-GDA00022144778700000410
并更新满二叉树中所有节点的优先级dj←|δj|;
5)使用均方差损失函数
Figure RE-GDA0002214477870000044
通过神经网络的Adam梯度反向传播来更新Q网络的所有参数θ;
6)如果t是更新步长C的整数倍,更新目标网络
Figure RE-GDA0002214477870000045
参数θ-=θ;
7)如果S(t+1)是终止状态,当前训练完成,否则转到步骤S23。
通过本发明的上述方法,训练基于认知用户样本优先经验重放的深度强化学习模型,实现频谱大数据下频谱共享过程。首先,初始化认知用户的传输功率,得到状态S(1);然后选择动作
Figure RE-GDA0002214477870000046
得到S(t+1),即在t+1时刻认知用户通过优先经验重放的深度强化学习模型智能更新传输功率,在不影响主用户的通信质量下共享主用户的频谱,其中θ*为已训练神经网络的权重参数。
所述基于优先经验重放的深度强化学习频谱共享方法中,控制动作直接取决于系统的状态。将选择传感器节点的接收功率作为状态空间,即:
Figure RE-GDA0002214477870000047
其中N为频谱共享模型中传感器节点的数量。传感器节点是为了辅助认知用户学习有效的功率控制策略而在频谱共享模型中设置的,它可以测量在无线电环境中不同位置的接收信号强度,该信号强度由主用户和认知用户的传输功率控制,且只有认知用户可以访问。
Figure RE-GDA0002214477870000048
表示t时刻传感器节点n的接收功率,满足
Figure RE-GDA0002214477870000049
其中Ppu(t)和Psu(t)分别表示主用户和认知用户的传输功率,wn(t)表示具有方差的零均值高斯随机变量,gpn和(gsn)表示主用户(知用户) 端与传感器节点n之间传输的路径损耗,满足gpn=(λ4πdpn)2,gsn=(λ4πdsn)2,其中λ表示信号波长,dpn(dsn)表示主用户(认知用户)发射端与传感器节点n的距离。
所述基于优先经验重放的深度强化学习频谱共享方法,如何在不干扰主用户通信下选择 认知用户的传输功率满足主用户和认知用户各自的通信需求是实现频谱共享问题的核心。因 此,选取认知用户的传输功率作为控制动作,即A(t)=Psu(t),其中
Figure RE-GDA0002905778970000051
认知用户通过在每个时刻t收集的传感器节点接收信号强度智能学习并调节自身传输功率,使 得主用户和认知用户能够在满足QoS需求下成功的传输数据。
所述基于优先经验重放的深度强化学习频谱共享方法,认知用户总是试图通过在每个时间步骤t采取最佳行动(传输功率)最大化可以获得的奖励。选取常数C作为即时奖励,假设当主用户接收端和认知用户接收端成功接受数据的同时都能够满足一个最小信干噪比要求可获得的奖励C,即时奖励函数为:
Figure RE-GDA0002214477870000052
其中
Figure RE-GDA0002214477870000053
指t时刻在状态s下采取动作a到状态s’的即时奖励。
与现有技术相比,本发明提供了一种频谱大数据下基于优先经验重放的深度强化学习频谱共享方法,在频谱网络状态动态变化、环境条件未知等因素下实现可用频谱资源的高效利用。本发明将频谱共享问题建模为强化学习中智能体与环境交互的MDP.利用MDP中的状态、行为和奖励描述频谱共享问题,并将强化学习和深度神经网络结合智能提取认知用户传输功率的学习价值特征,实现认知用户对自身传输功率智能更新,以便共享主用户频谱。本发明与传统深度强化学习频谱共享方法相比,每t时刻经验回放机制在线地储存和使用智能体与环境交互得到历史样本时,经验回放机制使用优先级采样方式替代等概率均匀采样方式,对深度强化学习频谱共享模型进行训练。该经验回放机制不仅能够消除转移样本之间的时间相关性,而且能够区分出不同转移样本之间的重要性差异,避免了由于样本池D的存储量有限,某些有价值样本还未被充分利用就已经被舍弃等问题,提高了有价值样本的采样概率,从而加快了认知用户功率传输最优策略的学习。
发明人经过大量研究表明:本发明提供的一种基于优先经验重放的深度强化学习频谱共享方法,与传统的深度强化学习频谱共享方法相比,具有更高的成功率和更快的收敛性,能成功地在不干扰主用户通信质量下认知用户智能的更新自身传输功率共享主用户的频谱,实现了主用户和认知用户在满足信道通信质量情况下传输各自的数据,提高了通信需求。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1是本发明实施例的方法流程示意框图;
图2是本发明实施例中使用的认知无线电的频谱共享模型图;
图3是本发明实施例的评价网络结构图;
图4是本发明实例中的损失函数图;
图5是本发明实例中的成功率图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
参看图1-图5,本发明实施例提供了一种基于优先经验重放的深度强化学习频谱共享方法,所述方法的步骤如下:
S1,构建频谱共享模型(如图2所示),该模型包括主用户和认知用户。在该模型中,主用户和认知用户以非协作的方式工作,主用户根据自身的功率控制策略更新发射功率,而功率控制策略取决于环境状态,因此认知用户在当前时刻的发射功率选择将影响主用户的在下一时刻发射功率的更新。认知用户采用基于优先经验重放的深度强化学习机制更新发射功率来共享主用户的频谱,为了辅助认知用户学习有效的功率控制策略,在无线环境频谱共享模型中设置传感器节点,它可以测量在无线电环境中不同位置的接收信号强度,该信号强度由主用户和认知用户的传输功率控制,且只有认知用户可以访问接收信号强度。
S2,在S1频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息。具体包括以下步骤;
S21,经验池初始化容量为D,神经网络初始化;设定经验池为一个满二叉树,叶子节点可储存D个状态动作对;初始化Q网络的权重参数为θ,目标网络
Figure RE-GDA0002214477870000061
的权重参数为θ-=θ;
S22,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,建立状态空间S(t),动作空间A定义以及即时奖赏
Figure RE-GDA0002214477870000062
计算模型;
S23,积累具有样本优先级的经验池,其特征在于,具体步骤如下:
1)初始化状态空间S(1)。根据当前输入状态S(1),通过Q网络得到全部动作,利用ε贪心算法选取动作,具体是以ε的概率从动作空间A选择一个动作a(t),否则以1-ε的概率选取最大Q值的动作
Figure RE-GDA0002214477870000071
其中t表示时间;
2)根据步骤S1中主用户的功率更新策略更新主用户的传输功率,在执行动作a(t)后,得到即时奖励
Figure RE-GDA0002214477870000072
和t+1时刻的状态S(t+1);
3)将t+1时刻的状态S(t+1)作为当前输入状态,重复步骤1)和2),将计算得到的状态动作对 e(t)@{S(t),a(t),r(t),S(t+1)}和最大优先级dt=maxi<tdi存到满二叉树构成的经验池中,满二叉树中只有叶子节点储存状态动作对;
4)重复步骤3)直到经验池的D空间被储存满,经验池的满二叉树储存满后每执行一次步骤 3)便跳转执行一次步骤S24;
S24,训练频谱共享模型下深度强化学习神经网络,其特征在于,具体步骤如下:
1)从满二叉树中采样小批量O的e(t),每个样本被采样的概率基于j:
Figure RE-GDA0002214477870000073
采样样本储存在一个(m,n)的二维矩阵,其中,m为样本容量大小,n为每个样本储存的信息数量,满足n=2*s+a+1,s为状态的维度,a为动作的维度,1为存储奖励信息的预留空间;
2)对步骤1)中的小批量样本O计算每个e(t)采样样本j:
Figure RE-GDA0002214477870000074
3)对步骤1)中的小批量样本O计算每个e(t)样本重要性采样权重ω,采样权重主要是为了纠正网络训练过拟合问题,即:wj=(NgD(j))/maxiwi,其中β表示纠正程度;
4)计算1)所有样本的时序误差
Figure RE-GDA0002214477870000078
并更新满二叉树中所有节点的优先级dj←|δj|;
5)使用均方差损失函数
Figure RE-GDA0002214477870000076
通过神经网络的Adam梯度反向传播来更新Q网络的所有参数θ;
6)如果t是更新步长C的整数倍,更新目标网络
Figure RE-GDA0002214477870000077
参数θ-=θ;
7)如果S(t+1)是终止状态,当前训练完成,否则转到步骤S23。
S3,根据S2所获取的认知用户功率传输学习价值信息判断频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱,具体包括:通过S2方法,训练好基于优先经验重放的深度强化学习模型可实现认知无线电中频谱共享,首先初始化认知用户的传输功率,得到状态S(1);然后选择动作
Figure RE-GDA0002214477870000081
其中θ*为训练好的神经网络的权重参数,得到S(t+1),即在下一时刻t+1的认知用户在不影响主用户的通信质量下共享主用户的频谱,实现可用频谱的高效利用。
为了验证本发明的效果,发明人还进行了以下仿真实验:
仿真条件:频谱共享模型中,设置从主用户/认知用户到主用户/认知用户的信道增益
Figure RE-GDA0002214477870000082
设置传感器节点数为10;设置主用户接收端和认知用户接收端成功传输数据满足的一个最小SINR分别为μ1=1.2,μ1=0.7;附图5中的损失函数为
Figure RE-GDA0002214477870000083
其中
Figure RE-GDA0002214477870000084
图4是损失函数随着迭代次数变化曲线图,仿真环境设置:迭代次数K为3000,经验池容量D为400,小批量抽样数Q为128,在训练的k次迭代之后,认知用户可以使用训练过的网络智能的调节自身传输功率来共享主用户的频谱。从图5可以看出,随着迭代次数的不断增加,损失函数逐渐递减,在迭代450次时,损失函数逐渐收敛,损失函数是预测该算法模型好坏的衡量标准,这表明本发明提出的一种基于优先经验重放的深度强化学习频谱共享方法,有较好的收敛性和稳健性。图5是成功率随着迭代次数变化曲线图,是该算法性能评估指标,成功率为成功试验的次数与独立运行的总次数之比,本发明设置在20个时间框架内移动到目标状态(主用户接收端和认知用户接收端成功接受通信数据的同时都能够满足一个最小信干噪比要求),则认为试验成功。从图5中可以看出,随着迭代次数的不断增加,成功率逐渐递增,在迭代450次时,成功率达到百分之九十多,与损失函数的收敛一致。这表明本发明提出的一种基于优先经验重放的深度强化学习频谱共享方法,有较高的成功率。且本发明该方法能成功的使在不干扰主用户通信下选择认知用户的传输功率,使主用户和认知用户在满足信道通信质量的情况下传输各自的数据,提高了通信需求。
为了验证本发明的效果,发明人进行了大量的仿真实验,均证明本发明方法的效果更优于现有技术(一种基于优先级重放的深度强化学习频谱共享,与传统的深度强化学习频谱共享相比,它使得认知用户能够在与主用户进行一系列交互后智能地更新传输功率以共享主用户的频谱,该算法具有较高的成功率和较快的收敛性),以上实验例仅仅是从众多的仿真实验中随意选出的一个,用于证明本发明的技术效果,其并不作为对本发明技术方案的限定。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述方法包括如下步骤:
S1,构建频谱共享模型;
S2,在步骤S1中的频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息;
S3,根据步骤S2中所获取的认知用户功率传输学习价值信息,判断频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱。
2.根据权利要求1所述的基于优先体验重放的深度强化学习频谱共享方法,其特征在于,步骤S1中,频谱共享模型包括主用户和认知用户,它们以非协作的方式工作;主用户根据自身的功率控制策略更新发射功率,认知用户采用基于优先经验重放的深度强化学习机制更新发射功率来共享主用户的频谱;采用信干噪比SINR度量主用户和认知用户的服务质量QoS;第i个接收机的SINRi为:
Figure FDA0002121171590000011
其中,hij表示发射端i到接收端j的信道增益,pi是第i个发射端的传输功率,Ni表示第i个接收端噪声功率;假设主用户接收端和认知用户接收端成功接收传输功率必须满足一个最小SINR,即:SINRi≥μi,i=1,2;主用户功率控制策略算法为:
Figure FDA0002121171590000012
其中,Ppu(t)表示在第t个时间帧主用户的传输功率,SINR1(t)表示在第t个时间帧主用户接收端测得的信干噪比,
Figure FDA0002121171590000013
表示一个离散化操作,目的是将一组连续的值映射到一组离散的值上,即
Figure FDA0002121171590000014
其中
Figure FDA0002121171590000015
Figure FDA0002121171590000016
3.根据权利要求1所述的基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述步骤S2中,所述基于优先经验重放的深度强化学习模型的训练过程如下:
S21,初始化经验池容量为D,神经网络初始化;设定经验池为一个满二叉树,叶子节点可储存D个状态动作对;初始化Q网络的权重参数为θ,目标网络
Figure FDA0002121171590000017
的权重参数为θ-=θ;
S22,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程,建立状态空间S(t),定义动作空间A以及即时奖赏
Figure FDA0002121171590000018
计算模型;
S23,积累具有优先级的经验池,具体步骤如下:
S231、初始化状态空间S(1);根据当前输入状态S(1),通过Q网络得到全部动作,利用ε贪心算法选取动作,具体是以ε的概率从动作空间A选择一个动作a(t),否则以1-ε的概率选取最大Q值的动作
Figure FDA0002121171590000021
其中t表示时间;
S232、根据步骤S1中主用户的功率更新策略更新主用户的传输功率,在执行动作a(t)后,得到即时奖励
Figure FDA0002121171590000022
和t+1时刻的状态S(t+1);
S233、将t+1时刻的状态S(t+1)作为当前输入状态,重复步骤S231和S232,将计算得到的状态动作对
Figure FDA0002121171590000023
和最大优先级dt=maxi<tdi存到满二叉树构成的经验池中,满二叉树中只有叶子节点储存状态动作对;
S234、重复步骤S233直到经验池的D空间被储存满,经验池的满二叉树储存满后每执行一次步骤S233便跳转执行一次步骤S24;
S24,训练频谱共享模型下深度强化学习神经网络,具体步骤如下:
S241、从满二叉树中采样小批量O的e(t),每个样本被采样的概率基于
Figure FDA0002121171590000024
采样样本储存在一个(m,n)的二维矩阵,其中,m为样本容量大小,n为每个样本储存的信息数量,满足n=2*s+a+1,s为状态的维度,a为动作的维度,1为存储奖励信息的预留空间;
S242、对步骤S241中的小批量样本O计算每个e(t)采样样本
Figure FDA0002121171590000025
S243、对步骤S241中的小批量样本O计算每个e(t)样本重要性采样权重ω,采样权重主要是为了纠正网络训练过拟合问题,即:wj=(N·D(j))/maxiwi,其中β表示纠正程度;
S244、计算步骤S241中所有样本的时序误差
Figure FDA0002121171590000026
并更新满二叉树中所有节点的优先级dj←|δj|;
S245、使用均方差损失函数
Figure FDA0002121171590000027
通过神经网络的Adam梯度反向传播来更新Q网络的所有参数θ;
S246、如果t是更新步长C的整数倍,更新目标网络
Figure FDA0002121171590000028
参数θ-=θ;
S247、如果S(t+1)是终止状态,当前训练完成,否则转到步骤S23。
4.根据权利要求1所述的基于优先经验重放的深度强化学习频谱共享方法,其特征在于,步骤3中包括,利用训练好的基于优先经验重放的深度强化学习模型在频谱大数据中实现频谱共享,具体包括以下几个步骤:
S31,初始化认知用户的传输功率,得到状态S(1);
S32,选择动作
Figure FDA0002121171590000031
得到S(t+1),即在t+1时刻认知用户通过优先经验重放的深度强化学习模型智能更新传输功率,在不影响主用户的通信质量下共享主用户的频谱,其中θ*为已训练神经网络的权重参数。
5.根据权利要求3所述的基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述步骤S22中,建立状态空间S(t)具体过程如下:
选择传感器节点的接收功率作为状态空间,即:
Figure FDA0002121171590000032
其中N为频谱共享模型中传感器节点的数量;所述传感器节点用于辅助认知用户学习有效的功率控制策略而在频谱共享模型中而设置,所述传感器节点可用于测量在无线电环境中不同位置的接收信号强度,该信号强度由主用户和认知用户的传输功率控制,且只有认知用户可以访问;
Figure FDA0002121171590000033
表示t时刻传感器节点n的接收功率,满足
Figure FDA0002121171590000034
其中Ppu(t)和Psu(t)分别表示主用户和认知用户的传输功率,wn(t)表示具有方差的零均值高斯随机变量,gpn和(gsn)表示主用户(知用户)端与传感器节点n之间传输的路径损耗,满足gpn=(λ/4πdpn)2,gsn=(λ/4πdsn)2,其中λ表示信号波长,dpn(dsn)表示主用户(认知用户)发射端与传感器节点n的距离。
6.根据权利要求3所述的基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述步骤S22中,建立动作空间A过程如下:
选取认知用户的传输功率作为控制动作,即A(t)=Psu(t),其中
Figure FDA0002121171590000035
认知用户通过在每个时刻t收集的传感器节点接收信号强度智能学习并调节自身传输功率,使得主用户和次用户能够在满足QoS需求下成功的传输数据。
7.根据权利要求3所述的基于优先经验重放的深度强化学习频谱共享方法,其特征在于,所述步骤S22中,建立即时奖赏
Figure FDA0002121171590000036
计算模型的过程如下:
选取常数C作为即时奖励,当主用户接收端和认知用户接收端成功传输数据的同时都能够满足一个最小信干噪比要求时可获得奖励C,即时奖励函数为:
Figure FDA0002121171590000037
其中
Figure FDA0002121171590000038
指t时刻在状态s下采取动作a到状态s’的即时奖励。
CN201910607372.3A 2019-07-07 2019-07-07 一种基于优先经验重放的深度强化学习频谱共享方法 Active CN112383922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910607372.3A CN112383922B (zh) 2019-07-07 2019-07-07 一种基于优先经验重放的深度强化学习频谱共享方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910607372.3A CN112383922B (zh) 2019-07-07 2019-07-07 一种基于优先经验重放的深度强化学习频谱共享方法

Publications (2)

Publication Number Publication Date
CN112383922A true CN112383922A (zh) 2021-02-19
CN112383922B CN112383922B (zh) 2022-09-30

Family

ID=74585982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910607372.3A Active CN112383922B (zh) 2019-07-07 2019-07-07 一种基于优先经验重放的深度强化学习频谱共享方法

Country Status (1)

Country Link
CN (1) CN112383922B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038616A (zh) * 2021-03-16 2021-06-25 电子科技大学 一种基于联邦学习的频谱资源管理分配方法
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113259944A (zh) * 2021-05-11 2021-08-13 广东工业大学 一种基于深度强化学习的ris辅助频谱共享方法
CN113395757A (zh) * 2021-06-10 2021-09-14 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113795050A (zh) * 2021-08-20 2021-12-14 广东工业大学 一种基于Sum tree采样的深度双Q网络动态功率控制方法
CN113923794A (zh) * 2021-11-12 2022-01-11 中国人民解放军国防科技大学 基于多智能体强化学习的分布式动态频谱接入方法
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114826453A (zh) * 2022-04-13 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种非连续大带宽转发器频谱监测方法
CN115209508A (zh) * 2021-04-13 2022-10-18 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN115276858A (zh) * 2022-07-11 2022-11-01 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN116744311A (zh) * 2023-05-24 2023-09-12 中国人民解放军国防科技大学 基于per-ddqn的用户组频谱接入方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038616A (zh) * 2021-03-16 2021-06-25 电子科技大学 一种基于联邦学习的频谱资源管理分配方法
CN115209508B (zh) * 2021-04-13 2023-09-19 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN115209508A (zh) * 2021-04-13 2022-10-18 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113225794B (zh) * 2021-04-29 2022-09-27 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113259944B (zh) * 2021-05-11 2022-05-10 广东工业大学 一种基于深度强化学习的ris辅助频谱共享方法
CN113259944A (zh) * 2021-05-11 2021-08-13 广东工业大学 一种基于深度强化学习的ris辅助频谱共享方法
CN113395757A (zh) * 2021-06-10 2021-09-14 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113395757B (zh) * 2021-06-10 2023-06-30 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113795050A (zh) * 2021-08-20 2021-12-14 广东工业大学 一种基于Sum tree采样的深度双Q网络动态功率控制方法
CN113923794A (zh) * 2021-11-12 2022-01-11 中国人民解放军国防科技大学 基于多智能体强化学习的分布式动态频谱接入方法
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114126021B (zh) * 2021-11-26 2024-04-09 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114826453A (zh) * 2022-04-13 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种非连续大带宽转发器频谱监测方法
CN114826453B (zh) * 2022-04-13 2023-01-17 中国人民解放军军事科学院国防科技创新研究院 一种非连续大带宽转发器频谱监测方法
CN115276858B (zh) * 2022-07-11 2024-01-23 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN115276858A (zh) * 2022-07-11 2022-11-01 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN116744311A (zh) * 2023-05-24 2023-09-12 中国人民解放军国防科技大学 基于per-ddqn的用户组频谱接入方法
CN116744311B (zh) * 2023-05-24 2024-03-22 中国人民解放军国防科技大学 基于per-ddqn的用户组频谱接入方法

Also Published As

Publication number Publication date
CN112383922B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN112383922B (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN111666149B (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
Liu et al. Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
Yuan et al. Meta-reinforcement learning based resource allocation for dynamic V2X communications
Zhang et al. Deep reinforcement learning for multi-agent power control in heterogeneous networks
CN108075975B (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
Xu et al. Deep reinforcement learning based mobility load balancing under multiple behavior policies
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
CN114885340B (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
Lei et al. Joint beam training and data transmission control for mmWave delay-sensitive communications: A parallel reinforcement learning approach
CN112738849B (zh) 应用于多跳环境反向散射无线网络的负载均衡调控方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Chen et al. iPAS: A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system
Nguyen et al. Utility optimization for blockchain empowered edge computing with deep reinforcement learning
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
Chen et al. Power allocation based on deep reinforcement learning in HetNets with varying user activity
CN113747386A (zh) 认知无线电网络频谱共享中的智能功率控制方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
Lei A study of wireless communications with reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant