CN113747447A - 基于先验知识的双动作强化学习频谱接入方法和系统 - Google Patents

基于先验知识的双动作强化学习频谱接入方法和系统 Download PDF

Info

Publication number
CN113747447A
CN113747447A CN202111042843.4A CN202111042843A CN113747447A CN 113747447 A CN113747447 A CN 113747447A CN 202111042843 A CN202111042843 A CN 202111042843A CN 113747447 A CN113747447 A CN 113747447A
Authority
CN
China
Prior art keywords
action
dimension
value
channel
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111042843.4A
Other languages
English (en)
Other versions
CN113747447B (zh
Inventor
张建照
姚富强
曾令辉
柳永祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111042843.4A priority Critical patent/CN113747447B/zh
Publication of CN113747447A publication Critical patent/CN113747447A/zh
Priority to US17/903,183 priority patent/US20230397012A1/en
Application granted granted Critical
Publication of CN113747447B publication Critical patent/CN113747447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于先验知识的双动作强化学习频谱接入方法和系统,属于电磁频谱技术领域。所述方法对先验知识进行评价筛选,初始化Q表,确认当前状态;进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。所述系统用于实现所提出的方法。本发明的方法具有较好的性能,能够提高频谱接入的效率。

Description

基于先验知识的双动作强化学习频谱接入方法和系统
技术领域
本发明属于通信技术领域,具体涉及一种基于先验知识的双动作强化学习频谱接入方法和系统。
背景技术
6G需要满足未来超链接、高密度、数据驱动、智能化的社会发展需求,电子健康、自动驾驶等应用需要更高速率、更健壮通信能力。为此,需要更多的频谱资源和更高效的频谱利用技术,对于前者,THz技术正在快速发展,对于后者,需要基于机器学习、人工智能等技术,开发更高效的频谱共享利用方式。其中,最大的挑战之一是如何在超高密度用户和快速变化的电磁环境中,为用户提供可靠的通信服务。超高密度用户意味着频谱资源十分紧张,对高优先级用户的干扰和相同优先级用户的互扰将成为影响频谱利用和用户性能的关键因素。
复杂电磁环境下高效频谱接入问题一直是移动通信领域研究热点。强化学习作为解决频谱管理问题的有效方法,也需要面临冷启动问题,这限制了利用强化学习的方法进行频谱接入的效率,也与实际场景中用户具备环境先验知识的实际不符,使得用户不能快速的适应电磁环境。
发明内容
技术问题:本发明提供一种能够提高频谱接入效率的基于先验知识的双动作强化学习频谱接入方法和系统。
技术方案:一方面,本发明提供一种基于先验知识的双动作强化学习抗干扰频谱接入方法,包括:
对先验知识进行评价筛选,初始化Q表,确认当前状态;
进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。
进一步地,所述按维度依次进行动作选择的方法为:
设置两个维度参数x、y,所述参数x、y为[0,1]的随机数;
当x<ε时,依随机概率选择其中一维度的动作,否则,求Q表在该维度上的均值,依最大值选择该维度的动作,其中ε为常数;
当y<ε时,依随机概率选择另一维度的动作,否则,依最大值选择该维度的动作。
进一步地,所述结合偏向信息更新Q表的方法包括:
获取奖励值;
确定下一时刻状态值;
更新Q表;
利用偏向信息对Q表进行调整。
进一步地,所述利用偏向信息对Q表进行调整的方法为:
以奖励值作为偏向信息,当奖励值小于零时,如果Q(s,a1,a2)>0,则使Q(s,a1,a2)=const1×Q(s,a1,a2);否则,使Q(s,a1,a2)=(1/const1)×Q(s,a1,a2),其中,const1为常数,a1、a2分别为两个维度的动作。
当奖励值小于统计平均奖励值
Figure BDA0003250036400000023
的情况下,如果Q(s,a1,a2)>0,则使Q(s,a1,a2)=const2×Q(s,a1,a2);否则,使Q(s,a1,a2)=(1/const2)×Q(s,a1,a2),其中,const2为常数。
进一步地,所述获取奖励值的方法为:采用信道容量与效用函数的比值作为奖励,公式如下:
Figure BDA0003250036400000021
其中,c为信道容量,u为克斯卡效用函数,W为信道带宽,k1为常数,Th为干扰阈值,u1为平衡奖励值数量级的系数,u2为时长引导系数。
进一步地,更新Q值得方法为:
Figure BDA0003250036400000022
其中,α为学习率,γ为衰减因子,s与s′分别表示当前时刻的状态与下一状态,a表示下一状态下最优动作集合,包括a1和a2
进一步地,所述对先验知识进行评价筛选的方法为:
根据皮尔逊相关系数定义先验知识的准确度,并选择准确度高的信息作为先验信息。
进一步地,任一时刻的状态包括:每个信道前两个时隙的差值以及均值。
另一方面,提供一种基于先验知识的双动作强化学习抗干扰频谱接入系统,利所述的方法进行频谱接入,其特征在于,包括:
先验信息评价及状态确认单元,用于对先验知识进行评价筛选,初始化Q表,确认当前状态;
学习单元,用于进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。
本发明与现有技术相比,具有以下优点:通过构建先验知识准确度模型,利用先验知识初始化Q表来引导智能体,以加速算法收敛过程并提升算法性能。针对先验知识准确度不同对智能体学习的影响,本发明考虑将奖励值作为偏向信息,通过激励智能体选择高奖励值动作以及减小错误动作对系统造成的影响,以避免不准确先验知识对智能体带来的负面导向。同时,通过仿真实验,也验证了本发明在显著减小获得高期望奖励所需的探索次数的同时,能够同时提升最终的学习性能并有效利用不同准确度的先验知识,提高收益,从而提高频谱接入的效率。
附图说明
图1为本发明的实施例中时隙帧结构的示意图;
图2为本发明的实施例中基于先验知识的双动作强化学习抗干扰频谱接入方法的流程图;
图3为四种方案的平均吞吐量的仿真图;
图4为四种方案的有效接入时长的仿真图;
图5为不同先验准确度的情况下利用本发明的方法的平均吞吐量的仿真图;
图6为不同先验准确度的情况下利用本发明的方法的平均吞吐量的仿真图。
具体实施方式
假定当前网络中有M个信道,1个认知用户,1个干扰机。认知用户具有频谱感知、自主学习与决策能力。在本发明的实施例中的模型,考虑具有固定传输时间Tf的帧结构,每一帧包含状态获取、动作决策、信道切换、信息传输以及确认五个阶段,如图1所示。
在状态获取阶段,智能体根据收集到的部分历史信息,确认当前状态,所需时间为Ts。认知用户基于当前状态,进行动作决策,决策时间为Ta。智能体根据决策进行信道的切换,完成信息的传输,并根据确认帧获取环境给予的奖励值,所需时间分别为Tc、Ttr和TACK
每一次基于动作决策的信息传输,都会获得相应的吞吐量。吞吐量受当前时刻发射功率与干扰功率的影响。本发明的实施例中,旨在满足通信最低质量的前提下充分利用频谱资源,所以在本发明的一个实施例中,信干噪比(SINR)的目标μtar为1。假设信道的干扰阈值为Th,若干扰功率超过阈值,增大发射功率以抵抗干扰的途径会导致发射端代价损失过大,所以将发射功率固定为Th以减小损失。因此,一次传输的吞吐量Tp可以表示为:
Figure BDA0003250036400000041
式(1)中,b为本次传输的时隙长度,ci,i∈b为各个时隙的信道容量,定义如下:
c=W·log2(1+SINR) (2)
Figure BDA0003250036400000042
式(2)中,W为信道带宽;式(3)中,Pj为干扰功率,σ2为噪声功率。
在上述模型下,结合图2,在本发明的实施例中,基于先验知识的双动作强化学习频谱接入方法包括:
S100:对先验知识进行评价筛选,初始化Q表,确认当前状态;
由于先验知识存在不准确的可能性,当先验知识不准确时,会阻碍智能体的迭代。因此,在本发明的实施例中,考虑了先验知识的准确性的问题。针对先验知识准确性的问题,本发明的实施例中提出基于皮尔逊相关系数的衡量方法。利用皮尔逊积矩相关系数,衡量两个变量之间的线性相关性,定义如下:
Figure BDA0003250036400000043
其中,μX和μY分别为变量X和Y的均值,σX和σY分别为X和Y的标准差。ρX,Y的绝对值大小与变量之间的相关性成正比,皮尔逊相关系数的关联程度如表(1)所示:
表1皮尔逊相关系数评价标准
Figure BDA0003250036400000044
Figure BDA0003250036400000051
在本发明的实施例中,因为考虑了双动作,所以Q表维度为三维,且不同状态之间无法衡量相关性,所以定义先验知识相似度ρ如下:
Figure BDA0003250036400000052
其中,X和Y为待对比的不同矩阵,QX(i)和QY(i)为状态i下的二维Q矩阵Q(a1,a2),其中,a1和a2分别为两个维度的动作。
在本发明的实施例中,通过啥上述方法对先验知识的相似度进行分析,在频谱接入时,选择相似度最高的先验知识。
Q学习(又称为强化学习)能够通过与环境的交互在线更新自身的策略,从而针对环境寻得最优策略。在本发明的实施例中,可以信道状态可以建模为环境,将认知用户建模为智能体,在Q表中,存储有状态以及动作信息,在利用强化学习进行频谱接入时,需要考虑一个参数就是状态,在本发明的实施例中,定义如下状态空间:
定义ci=Pj,t-1-Pj,t-2i∈M为第i个信道前两个时隙的差值,
Figure BDA0003250036400000053
i∈M为第i个信道前两个时隙的均值。在t时刻下,状态空间定义为每个信道的t-1时刻以及t-2时刻的差值与均值,即:
Figure BDA0003250036400000054
也就是说,在本发明的实施例中,任一时刻的状态包括每个信道的前两个时隙的差值和均值。考虑到状态空间过大,且差值与均值只体现趋势,并无实际含义。因此,本发明的实施例中可以采用量化的方法将状态值量化到S个以缩小状态空间,提升方法性能。
S200:进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。在Q学习的过程中,实现频谱的接入。
在本发明的实施例中,对于图1中的帧结构,如果任何时隙都先检测再接入,虽然能够有效避免认知用户受到干扰机的干扰,但是却占用系统很大的资源。理想情况下,在接入信道时,直接传输多个时隙帧,并在干扰机干扰当前信道之前停止传输。所以,智能体不仅应该对接入的信道进行选择,接入多少时隙也需要进行决策。因此在本发明的实施例中,设计了双动作方案,将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数。先针对其中一维动作进行选择,将其他维度动作通过求均值合并到当前维度,当前维度动作决策完毕后,再进行后续维度动作选择。
具体的方法为:设置两个维度参数x,y,所述参数为[0,1]的随机数;
当x<ε时,依随机概率选择其中一个维度的动作,否则,求Q表在该动作维度上的均值,依最大值选择该维度的动作;
当y<ε时,依随机概率选择另一维度的动作,否则,依最大值选择该维度的动作。在本发明的实施例中,可以给出如下的伪代码:
Figure BDA0003250036400000061
其中,ε是一个[0,1]的常数,a1和a2分别表示两个维度的动作,例如可以将a1定义为智能体选择的信道,a2定义为接入信道的时隙数。在后续的说明中,均将a1定义为智能体选择的信道,a2定义为接入信道的时隙数。
传统的强化学习过程都是针对当前状态下选择特定的动作,若将多个动作映射到单个动作输出,则会导致动作空间过大,难以遍历到最优解。而本发明的实施例中提出双动作方式,将双动作分解输出,以提升效率,从而在频谱接入的过程中,具有更高的效率。
当动作选择完成后,进行频谱接入。
然后,结合偏向信息更新Q表。在本发明的实施例中,更新Q表可以按照如下方式进行:
S310:获取奖励值。
为激励智能体选择受干扰程度低的信道,并在干扰阈值之下尽可能接入较长时间,提高频谱利用率,减小信道切换次数,因此在本发明的实施例中,利用克斯卡效用函数设计奖励函数。克斯卡效用函数如公式(7)所示:
u=k1·p+k2·(μtar-μ)2 (7)
其中k1和k2为常数,p为发射功率,μtar为目标信干噪比,μ为实际信干噪比。克斯卡效用函数旨在使智能体在满足目标信干噪比的情况下最小化发射功率,减小对频谱环境的污染,从而节约系统资源。本发明为激励智能体选择干扰程度低的信道,奖励函数设计为信道容量与效用函数的比值,如公式(8)所示:
Figure BDA0003250036400000071
其中,R为奖励值,c为信道容量,u为克斯卡效用函数,W为信道带宽,k1为常数,Th为干扰阈值。
Figure BDA0003250036400000072
为设计固定损失数,以给予智能体在阈值之上接入的惩罚。u1为平衡奖励值数量级的系数,以平衡奖励值并给予智能体漏检情况更大的惩罚;u2为时长引导系数,以激励智能体采用接入时长较长动作,减小切换次数。综上所述,认知用户在决策当中应综合考虑信道质量,选择最高奖励值动作进行信道选择与接入。
S320:观察下一时刻状态。下一时刻的状态也就是当前时刻状态与上一时刻状态的差值和均值。
S330:更新Q表。
智能体通过获取状态、决策动作、获得奖励值以进行策略的迭代,目标是找到一个最优策略π,使得当前策略下Qπ(s,a1,a2)值最大。Q值更新公式如(9)所示:
Figure BDA0003250036400000081
其中,0<α<1为学习率,表示当前学习到的Q值占自身的比重,α值越大表明智能体对学到的Q值越看重;0<γ<1为衰减因子,表示智能体对未来奖励的重视程度,γ值越大表明智能体对未来奖励越重视;s与s'分别表示当前状态与下一状态,a表示下一状态下最优动作,包括a1和a2
S340:利用偏向信息对Q表进行调整。
强化学习方法当中,探索与利用的权衡问题是一个基本问题。为了能够提高探索效率,本发明的实施例中,提出基于偏向信息指导的强化学习方法。由于偏向信息的表示各不相同,在本发明的实施例中,采用奖励值作为偏向信息。
在强化学习的迭代过程中,不同的动作决策会导致不同的奖励值。如果智能体探索不足,很容易导致算法陷入局部最优解。本文考虑统计平均奖励值
Figure BDA0003250036400000084
设置const1和const2两个常数,若当前奖励值为负或者低于平均奖励,则给予当前Q值不同的惩罚,使得算法能够避免错误动作以及次优动作,探索全局最优解。
具体的,利用偏向信息对Q表进行调整的方法为:
以奖励值作为偏向信息,当奖励值小于零时,如果Q(s,a1,a2)>0,则使Q(s,a1,a2)=const1×Q(s,a1,a2);否则,使Q(s,a1,a2)=(1/const1)×Q(s,a1,a2),其中,const1为常数;
当奖励值小于统计平均奖励值
Figure BDA0003250036400000083
的情况下,如果Q(s,a1,a2)>0,则使Q(s,a1,a2)=const2×Q(s,a1,a2);否则,使Q(s,a1,a2)=(1/const2)×Q(s,a1,a2),其中,const2为常数。在本发明的实施例中,给出一个可以实现相应功能的伪代码:
Figure BDA0003250036400000082
Figure BDA0003250036400000091
为了验证本发明的实施例中所提供的方法相对于现有技术具有较好的效果,对实施例中的方法进行仿真验证,
设置如下:假定当前网络中信道数量M=5,存在一个认知用户,一个干扰机。干扰机干扰样式为扫频干扰,每个信道的干扰功率是随时间呈正弦型变化的,即Pj,i=Asin(ωt+φi)i∈M,其中A=10dBm为幅值,ω为角频率,φi为各个信道的相位。加性高斯白噪声功率为1dBm,干扰阈值Th设置为4dBm。为防止状态空间过大,本文将状态值当中的差值c与均值m均进行量化,将状态空间缩小至S=40个,以提升算法性能。Q学习中参数设置为:学习率α=0.2,折扣因子γ=0.4。ε设置为随时隙均匀下降的值,以平衡强化学习当中探索与利用问题。奖励值函数中,平衡数量级的常数值u1取值为
Figure BDA0003250036400000092
时长引导系数u2取值为
Figure BDA0003250036400000093
其中
Figure BDA0003250036400000094
为当前时刻统计的平均接入时长。在偏向信息当中,常数const1和const2分别设置为0.6和0.9。在帧时隙结构中,假设每个时隙帧长度为50ms,状态确认所需时间为3ms,决策时间为3ms,信道切换时间为5ms,确认帧时长为1ms。
采用蒙特卡洛方法仿真500次,取算术平均值;每次仿真30000时隙。
可以考虑从两个角度来对所提出的方法进行评价,分别为平均吞吐量、有效接入时长,其中,平均吞吐量
Figure BDA0003250036400000095
为在智能体本次接入时间内吞吐量的平均值,表示为:
Figure BDA0003250036400000096
其中,Tp为本次传输吞吐量,如公式(1)所示。
有效接入时长tvalid为智能体本次未被干扰的接入时长,表示为:
tvalid=a2-tjam (11)
其中,tjam为被干扰的时隙长度。
通过对比说明本发明的方法的有益效果。对比如下:
(1)先验知识+双动作+偏向信息,即本发明实施例中的方法,
(2)先验知识+单动作+偏向信息,传统强化学习方法中加入偏向信息,Q表为二维;
(3)无先验知识+双动作,无先验信息的传统强化学习方法,并利用本发明实施例中的双动作方式,Q表为三维;
(4)无先验知识+单动作,无先验信息的传统强化学习方法,Q表为二维。
图3给出了四种方案平均吞吐量的对比情况。可以看出,方案(3)在前期拥有更高的探索率,但多动作的探索并没有换来收敛时较高的吞吐量。对比于方案(3),方案(2)的过程能够以较小的探索率,获得较为理想的吞吐量。本发明的方法(方案(1))能够在10000次迭代左右达到收敛。相比于方案(3),本发明的方法能够提升约66%的收敛速度,并且相较于其他三种方案,平均吞吐量分别能够提升约3.0%、2.16%以及1.09%。
图4给出了四种方案有效接入时长的对比情况。更长的有效接入时长意味着对当前频谱的充分利用,减小了信道的切换次数。在充分的探索过后,无先验知识的方案仅仅达到了有先验知识的方案的初始水平。方案(2)的收敛最快,但学习的效果并没有很大的提升。本发明的方法能够在有效提升时长的同时,在15000次迭代左右达到收敛,相比于对比算法分别提升约25.88%、19.80%以及7.48%。
通过仿真结果中单动作输出算法与双动作输出算法之间的对比得出,本发明提出的方法能够使得动作空间较大的情况得到改善。相比于无先验知识的情况,基于先验知识或偏向信息的强化学习算法能够以较低的探索率进行学习;同时,本发明的方法能够以较快的收敛速度获得良好的性能。
考虑到先验知识准确度对强化学习算法的影响,本文针对不同程度的先验知识进行仿真以验证算法性能。为体现方法有效性,仿真中将先验准确度为94.77%的先验知识设置为参考先验,不进行学习迭代。
同时,仿真中还对先验知识的准确度对方法性能的影响,图5给出了不同先验准确度的情况下利用本发明的方法的平均吞吐量的对比情况。可以看到先验知识不准确的情况下,前期的性能并不理想,但随着迭代,不同先验准确度的情况都能够收敛到与参考先验相当的水平。在相同先验知识准确度的情况下,偏向信息学习算法与本发明的方法的初期性能相当,随着迭代,本发明的方案的提升要高于方案(2),在15000次迭代左右超过参考先验。
图6给出了不同先验准确度的情况下利用本发明的方法的有效接入时长的对比情况。通过迭代,不同先验准确度的智能体都能够达到较高的接入时长。在相同先验知识准确度的情况下,本发明的方法能够迅速超过方案(2),在10000次迭代左右超过参考先验。意味着本发明的方法能够更充分的利用频谱,减小切换损失。
通过对不同程度的先验知识进行仿真得出,本发明所提出的方法能够有效利用先验知识,同时能够排除不利甚至是错误动作,从而有效提升算法性能。
通过构建先验知识准确度模型,利用先验知识初始化Q表来引导智能体,以加速算法收敛过程并提升算法性能。针对先验知识准确度不同对智能体学习的影响,本发明考虑将奖励值作为偏向信息,通过激励智能体选择高奖励值动作以及减小错误动作对系统造成的影响,以避免不准确先验知识对智能体带来的负面导向。仿真表明,提出的方法在显著减小获得高期望奖励所需的探索次数的同时,能够同时提升最终的学习性能并有效利用不同准确度的先验知识,提高收益,从而提高频谱接入的效率。
此外,本发明还提供一种基于先验知识的双动作强化学习频谱接入系统,用于实现本发明实施例中所提出的方法,该系统包括先验信息评价及状态确认单元,用于对先验知识进行评价筛选,初始化Q表,确认当前状态;学习单元,用于进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。利用所提出的系统,使得本发明实施例中的方法得以实施,从而实现频谱的高效接入。

Claims (9)

1.一种基于先验知识的双动作强化学习频谱接入方法,其特征在于,包括:
对先验知识进行评价筛选,初始化Q表,确认当前状态;
进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。
2.根据权利要求1所述的方法,其特征在于,所述按维度依次进行动作选择的方法为:
设置两个维度参数x、y,所述参数x、y为[0,1]的随机数;
当x<ε时,依随机概率选择其中一维度的动作,否则,求Q表在该维度上的均值,依最大值选择该维度的动作,其中ε为常数;
当y<ε时,依随机概率选择另一维度的动作,否则,依最大值选择该维度的动作。
3.根据权利要求1所述的方法,其特征在于,所述结合偏向信息更新Q表的方法包括:
获取奖励值;
确定下一时刻状态值;
更新Q表;
利用偏向信息对Q表进行调整。
4.根据权利要求3所述的方法,其特征在于,所述利用偏向信息对Q表进行调整的方法为:
以奖励值作为偏向信息,当奖励值小于零时,如果Q(s,a1,a2)>0,则使Q(s,a1,a2)=const1×Q(s,a1,a2);否则,使Q(s,a1,a2)=(1/const1)×Q(s,a1,a2),其中,const1为常数,a1、a2分别为两个维度的动作;
当奖励值小于统计平均奖励值
Figure FDA0003250036390000011
的情况下,如果Q(s,a1,a2)>0,则使Q(s,a1,a2)=const2×Q(s,a1,a2);否则,使Q(s,a1,a2)=(1/const2)×Q(s,a1,a2),其中,const2为常数。
5.根据权利要求4所述的方法,其特征在于,所述获取奖励值的方法为:采用信道容量与效用函数的比值作为奖励,公式如下:
Figure FDA0003250036390000021
其中,c为信道容量,u为克斯卡效用函数,W为信道带宽,k1为常数,Th为干扰阈值,u1为平衡奖励值数量级的系数,u2为时长引导系数。
6.根据权利要求5所述的方法,其特征在于,更新Q值得方法为:
Figure FDA0003250036390000022
其中,α为学习率,γ为衰减因子,s与s′分别表示当前时刻的状态与下一状态,a表示下一状态下最优动作集合,包括a1和a2
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对先验知识进行评价筛选的方法为:
根据皮尔逊相关系数定义先验知识的准确度,并选择准确度高的信息作为先验信息。
8.根据权利要求7所述的方法,其特征在于,任一时刻的状态包括:每个信道前两个时隙的差值以及均值。
9.一种基于先验知识的双动作强化学习频谱接入系统,利用权利要求1-8任一项所述的方法进行频谱接入,其特征在于,包括:
先验信息评价及状态确认单元,用于对先验知识进行评价筛选,初始化Q表,确认当前状态;
学习单元,用于进行Q学习,首先将动作空间分解为二维,其中一维动作定义为智能体选择的信道,另一维动作定义为接入信道的时隙数,按维度依次进行动作选择;然后根据动作选择结果,进行频谱接入;最后结合偏向信息更新Q表,所述偏向信息为奖励值。
CN202111042843.4A 2021-09-07 2021-09-07 基于先验知识的双动作强化学习频谱接入方法和系统 Active CN113747447B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111042843.4A CN113747447B (zh) 2021-09-07 2021-09-07 基于先验知识的双动作强化学习频谱接入方法和系统
US17/903,183 US20230397012A1 (en) 2021-09-07 2022-09-06 Spectrum access method and system using prior knowledge-based double-action reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111042843.4A CN113747447B (zh) 2021-09-07 2021-09-07 基于先验知识的双动作强化学习频谱接入方法和系统

Publications (2)

Publication Number Publication Date
CN113747447A true CN113747447A (zh) 2021-12-03
CN113747447B CN113747447B (zh) 2024-06-25

Family

ID=78736412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111042843.4A Active CN113747447B (zh) 2021-09-07 2021-09-07 基于先验知识的双动作强化学习频谱接入方法和系统

Country Status (2)

Country Link
US (1) US20230397012A1 (zh)
CN (1) CN113747447B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117500015A (zh) * 2023-11-02 2024-02-02 中国人民解放军国防科技大学 一种基于q学习的无线自组网抗干扰路由智能决策方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN112367131A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于强化学习的跳跃式频谱感知方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN112367131A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于强化学习的跳跃式频谱感知方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张亚洲: "基于dl dmi n g 的动态频谱接入算法研究", 中国硕士期刊全文库 *
张凯;李鸥;杨白薇;: "基于Q-learning的机会频谱接入信道选择算法", 计算机应用研究, no. 05, 15 May 2013 (2013-05-15) *
林芬;石川;罗杰文;史忠植;: "基于偏向信息学习的双层强化学习算法", 计算机研究与发展, no. 09, 15 September 2008 (2008-09-15) *
王飞;王昊;卞耀明;司徒国海;: "深度学习在计算成像中的应用", 光学学报, no. 01 *
陈 勇,张 余,张建照,蒋慧娟: "无线电干扰设备频谱特征仿真模型库系统设计", 太赫兹科学与电子信息学报 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117500015A (zh) * 2023-11-02 2024-02-02 中国人民解放军国防科技大学 一种基于q学习的无线自组网抗干扰路由智能决策方法

Also Published As

Publication number Publication date
US20230397012A1 (en) 2023-12-07
CN113747447B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
CN108712748B (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN109302262A (zh) 一种基于深度确定梯度强化学习的通信抗干扰方法
Liu et al. Pattern-aware intelligent anti-jamming communication: A sequential deep reinforcement learning approach
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
Han et al. Joint resource allocation in underwater acoustic communication networks: A game-based hierarchical adversarial multiplayer multiarmed bandit algorithm
CN113747447A (zh) 基于先验知识的双动作强化学习频谱接入方法和系统
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
CN115276858B (zh) 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
CN114449536B (zh) 一种基于深度强化学习的5g超密集网络多用户接入选择方法
Zappone et al. Complexity-aware ANN-based energy efficiency maximization
CN114423046A (zh) 一种协同通信干扰决策方法
CN114298166A (zh) 一种基于无线通信网络的频谱可用性预测方法和系统
CN112672426A (zh) 一种基于在线学习的抗干扰频点分配方法
Zhou et al. Deep reinforcement learning with experience sharing for power control
CN112383965B (zh) 基于drqn和多传感器模型的认知无线电功率分配方法
Quadri A Channel Ranking And Selection Scheme Based On Channel Occupancy And SNR For Cognitive Radio Systems
Benmeziane et al. Pareto rank-preserving supernetwork for hardware-aware neural architecture search
CN115913343B (zh) 卫星通信功率资源在线分配方法、装置、设备及存储介质
Jia et al. Soft actor-critic based power control algorithm for anti-jamming in D2D communication
Iizuka Statistical Coalition Formation for Cooperative Spectrum Sensing Based on the Multi-Armed Bandit Problem
Rao et al. Joint optimization of jamming link and power control in communication countermeasures: A multiagent deep reinforcement learning approach
CN117528538A (zh) 一种应对不完全信道信息的模糊学习抗干扰方法和系统
CN115988658A (zh) 一种知识驱动的抗干扰频谱接入方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant