CN110225525B - 一种基于认知无线电网络的频谱共享方法、装置及设备 - Google Patents

一种基于认知无线电网络的频谱共享方法、装置及设备 Download PDF

Info

Publication number
CN110225525B
CN110225525B CN201910492208.2A CN201910492208A CN110225525B CN 110225525 B CN110225525 B CN 110225525B CN 201910492208 A CN201910492208 A CN 201910492208A CN 110225525 B CN110225525 B CN 110225525B
Authority
CN
China
Prior art keywords
network
sensing
sensing node
spectrum sharing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910492208.2A
Other languages
English (en)
Other versions
CN110225525A (zh
Inventor
李雪扬
王永华
万频
邵瑞宇
邓宇宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910492208.2A priority Critical patent/CN110225525B/zh
Publication of CN110225525A publication Critical patent/CN110225525A/zh
Application granted granted Critical
Publication of CN110225525B publication Critical patent/CN110225525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于认知无线电网络的频谱共享方法,基于次用户发送控制器,在传统研究传感节点间的物理关系网路的基础上,结合物理关系网络和通信数据建立得到更贴合传感节点间信息传送与干扰联系的各传感节点间的社会关系网络,能够更好的辅助次用户完成频谱共享,提高频谱共享效率,结合该社会关系网络和接收到的各传感节点感知的环境信息训练Q学习网络探索最优发射功率的能力,建立Q学习模型,应用Q学习模型确定传输功率并以该传输功率进行信息传输,实现高效的发送功率控制。本发明还公开了一种基于认知无线电网络的频谱共享装置、设备及计算机可读存储介质,具有上述有益效果。

Description

一种基于认知无线电网络的频谱共享方法、装置及设备
技术领域
本发明涉及认知无线电技术领域和频谱分配技术领域,特别是涉及一种基于认知无线电网络的频谱共享方法、装置、设备及计算机可读存储介质。
背景技术
认知无线电技术(CR)提出用智能的方式提升频谱的利用率,可以根据用户需求计算无线资源分配情况和确定设备之间的通信方式,给用户提供最满足其通信需求的无线资源与服务。多个具有CR功能的设备组成的网络称为认知无线网络(CRN)。认知无线网络的关键在于运用相关技术对有限的频谱资源进行合理的分配,使次用户(SU)能够在不影响主用户(PU,也称授权用户)的通信服务质量(QoS)的情况下与主用户共享频谱资源。
在使用认知无线电技术完成频谱共享的研究中对次用户发送功率的控制是关键问题之一,有效地控制发送功率可以调节次用户的数据传输范围、减少对主用户及其他次用户造成的干扰,还可以减少由于次用户发送功率的不合理造成的接收端能量消耗。但对于功率分配及控制一般都需要获得大量的环境信息,从当前的频谱使用情况来看,由于信道状态普遍是实时动态变化的,监测环境状态需要花费大量的资源。根据约束条件最小化次用户的发送功率的控制方法虽然能保证频谱共享时主用户的通信服务质量,但对于次用户的接收方会造成不必要的能量损耗。
为了降低次用户用于监测环境所耗费的资源,目前研究者们提出一种使用传感节点感知认知网络的环境信息,辅助次用户学习主用户功率调节的方式来完成与主用户的频谱共享。传感节点即共享频谱的主用户和次用户所在范围内的若干不需要与主用户共享频谱的其他次用户的节点,在认知网络结构下主用户根据自定义的功率调整策略传输信息,次用户则需要根据传感节点提供的环境信息完成最优发送功率的选择。由于各个传感节点之间存在一定的信息传送与干扰的联系,目前的优化方法从传感节点间的物理状态角度出发,确定各传感节点间的联系状况,进而对用户间频谱共享加以辅助,减少对最优策略的探索步数。然而,随着认知无线网络结构的复杂化,现有的频谱共享效率不尽如人意。
如何提高认知无线网络中的频谱共享效率,适应认知无线网络的复杂结构,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种基于认知无线电网络的频谱共享方法、装置、设备及计算机可读存储介质,用于提高认知无线网络中的频谱共享效率,适应认知无线网络的复杂结构。
为解决上述技术问题,本发明提供一种基于认知无线电网络的频谱共享方法,基于次用户发送控制器,包括:
接收各传感节点感知的环境信息;
基于各所述传感节点间的物理关系网络和通信数据建立各所述传感节点间的社会关系网络,并基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型;
应用所述Q学习模型确定传输功率;
以所述传输功率进行信息传输。
可选的,所述基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型,具体包括:
基于所述环境信息和所述社会关系网络建立状态空间,以预设的次用户的发送功率空间范围为动作集合,对主用户的信息传输结果和次用户的信息传输结果建立奖励机制,以所述主用户和所述次用户均传输信息成功为目标确定最优控制策略;
以所述状态空间、所述动作集合、所述奖励机制和所述最优控制策略建立所述Q学习模型。
可选的,
具体通过以下公式计算得到所述状态空间中的状态量:
Pi(k)=Φi(p)+S(a)+Y(a)
其中,Pi(k)为第i个传感节点(i=1,2,…,n)在第k个时间点下接收到的功率,且Pi(k)为所述状态空间s(k)={P1(k),P2(k),...,Pn(k)}中的状态量,Φi(p)为理想状态下所述第i个传感节点检测到的环境信息,S(a)为各所述传感节点的社会效用之和,Y(a)为各所述传感节点对感知环境产生的干扰之和;
Φi(p)具体通过以下公式计算得到:
Φi(p)=ppg1i+psg2i
其中,pp为所述第i个传感节点检测到的所述主用户的发射功率,g1i为相对所述第i个传感节点的所述主用户的传输损失,ps为所述第i个传感节点检测到的所述次用户的发射功率,g2i为相对所述第i个传感节点的所述次用户的传输损失;
S(a)具体通过以下公式计算得到:
Figure BDA0002087408100000031
(i≠j且j=1,2,…,n)
其中,si(a)为所述第i个传感节点的社会效用,ωij为所述第i个传感节点和传感节点j之间的社会关系指数,qi为所述第i个传感节点的发射功率,gij为所述第i个传感节点与所述传感节点j之间的传输损失;
Y(a)具体通过以下公式计算得到:
Figure BDA0002087408100000032
其中,γi为所述第i个传感节点对所述感知环境产生的干扰。
可选的,所述奖励机制具体通过以下公式表示:
Figure BDA0002087408100000033
其中,r(k)为在第k个时间点的奖励,r、-r、0均为奖励值,SINR1(k+1)为在第k+1个时间点所述主用户的信噪比,δ1为预设的第一阈值,SINR2(k+1)在第k+1个时间点所述次用户的信噪比,δ2为预设的第二阈值。
可选的,所述Q学习模型的动作值函数为:
Figure BDA0002087408100000034
其中,Q(s,a)为所述动作值函数,r(s,a)为在s状态下执行动作a后的奖励值,γ为折扣因子且γ∈[0,1],s′为执行所述动作a后的下一个状态。
可选的,所述基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,具体为:
应用小批量梯度下降法更新所述Q学习网络的权重。
可选的,还包括:
将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值;
当所述经验池D中存储的待选样本值达到预设数目后,在所述经验池D中随机抽取预设批次的样本训练所述Q学习网络。
为解决上述技术问题,本发明还提供一种基于认知无线电网络的频谱共享装置,包括:
接收单元,用于接收各传感节点感知的环境信息;
建模单元,用于基于各所述传感节点间的物理关系网络和通信数据建立各所述传感节点间的社会关系网络,并基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型;
计算单元,用于应用所述Q学习模型确定传输功率;
传输单元,用于以所述传输功率进行信息传输。
为解决上述技术问题,本发明还提供一种基于认知无线电网络的频谱共享设备,包括:
存储器,用于存储指令,所述指令包括上述任意一项所述基于认知无线电网络的频谱共享方法的步骤;
处理器,用于执行所述指令。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述基于认知无线电网络的频谱共享方法的步骤。
本发明所提供的基于认知无线电网络的频谱共享方法,基于次用户发送控制器,在传统研究传感节点间的物理关系网路的基础上,结合物理关系网络和通信数据建立各传感节点间的社会关系网络,并结合该社会关系网络和接收到的各传感节点感知的环境信息训练Q学习网络探索最优发射功率的能力,建立Q学习模型,应用Q学习模型确定传输功率并以该传输功率进行信息传输,实现发送功率控制。由于新型通信技术带来的网络社交平台的兴起,传统的物理关系网络已经不能很好的描述传感节点间的关系,而基于传统的物理关系网络和传感节点间的通信数据,得到更贴合传感节点间信息传送与干扰联系的社会关系网络,能够更好的辅助次用户完成频谱共享,提高频谱共享效率。本发明还提供一种基于认知无线电网络的频谱共享装置、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的频谱共享模型图;
图2为本发明实施例提供的一种基于认知无线电网络的频谱共享方法的流程图;
图3为本发明实施例提供的一种传感节点间的物理关系网络示意图;
图4为本发明实施例提供的一种传感节点间的社会关系网络示意图;
图5为本发明实施例提供的一种Q学习网络的学习过程示意图;
图6(a)为一种本发明实施例提供的Q学习模型与传统Q学习模型的成功率对比示意图;
图6(b)为一种本发明实施例提供的Q学习模型与传统Q学习模型的探索步数对比示意图;
图6(c)为一种本发明实施例提供的Q学习模型与传统Q学习模型的奖励值对比示意图;
图7为本发明实施例提供的一种基于认知无线电网络的频谱共享装置的结构示意图;
图8为本发明实施例提供的一种基于认知无线电网络的频谱共享设备的结构示意图。
具体实施方式
本发明的核心是提供一种基于认知无线电网络的频谱共享方法、装置、设备及计算机可读存储介质,用于提高认知无线网络中的频谱共享效率,适应认知无线网络的复杂结构。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的频谱共享模型图;图2为本发明实施例提供的一种基于认知无线电网络的频谱共享方法的流程图;图3为本发明实施例提供的一种传感节点间的物理关系网络示意图;图4为本发明实施例提供的一种传感节点间的社会关系网络示意图。
频谱共享模型中的认知网络由主用户、次用户及节点用户组成。如图1所示,主用户由主发送方T1与主接收方R1构成,次用户由次发送方T2与次接收方R2组成,本申请中对主用户和次用户统称为共享用户,选择共享用户所在范围内若干不需要与主用户共享频谱的其他次用户作为传感节点,也称节点用户(Sensing Node Users),用于检测主发送方T1的功率信号。在该认知网络结构下主发送方T1根据自定义的功率调整策略发送数据,次发送方T2作为智能体(agent)使用深度Q网络(DQN)完成最优发送功率的选择。
如图2所示,基于次用户发送控制器,本发明实施例提供的基于认知无线电网络的频谱共享方法包括:
S201:接收各传感节点感知的环境信息。
S202:基于各传感节点间的物理关系网络和通信数据建立各传感节点间的社会关系网络,并基于环境信息和社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型。
在训练Q学习网络探索最优发射功率的能力时,可以以主用户和次用户均传输信息成功为训练目标,也可以以最大化吞吐量、最大化能量效率等作为训练目标。不论是基于物理关系网络还是基于社会关系网络进行频谱共享控制的优化,其在Q学习网络中所起到的作用均为辅助构建状态空间。传感节点间的关系基本决定了传感节点之间的干扰等影响,而传感节点之间的干扰将影响传感节点感知并传送给次发送方的环境信息。因此次发送方通过传感节点辅助感知到的环境信息进行功率调节时,如果能知道传感节点间的关系,就能够获知传感节点对感知环境产生的干扰情况,进而得到实际的环境信息,实现更好的频谱共享,降低次接收方的能量损耗。
由于传感节点是与共享用户一样具有收发功能的智能设备,因此所选的若干传感节点间存在一定的物理联系,如信息传送或彼此间干扰等,设有一组传感节点N={a1,a2,...,an}用于检测感知环境的环境信息,以n=7为例,图3中的连线表示两个传感节点之间存在物理关系。但是随着社交网络平台等新兴通信方式的产生,仅以物理关系不足以描述传感节点之间的通信关系,而根据各传感节点间的物理关系网络和各传感节点间的通信数据建立的社会关系网络能够更好的描述传感节点之间的通信关系。各传感节点之间的社会关系网络如图4所示。
这里可以设置一个网络构建程序,采集各传感节点之间通过通信公司以及网络平台进行通信的通信数据,可以以统计通信频率的方式,结合传感节点间的物理关系网络,判断传感节点两两之间是否存在社会关系以及社会关系的亲密程度。需要说明的是,在两个传感节点之间不存在物理关系的情况下,这两个节点间可能存在社会关系,如图3和图4中所示的传感节点2和传感节点5。
设传感节点N={a1,a2,...,an}之间的社会关系网络为gs={N,εs},传感节点间的连线
Figure BDA0002087408100000071
其中,
Figure BDA0002087408100000072
表示第i个传感节点ai和第j个传感节点aj之间具有一定的社会关系。
因为传感节点与共享用户的信息传输功能性质相同,传感节点将感知到的环境信息发送给次用户的同时对感知环境也产生了干扰。传感节点ai对感知环境产生的干扰为:γi=qigij,其中,qi为传感节点ai的发送功率;gij为传感节点ai与传感节点aj之间的传输损失,gij=(μ/4πd)2,其中,μ为信号波长,d为传感节点ai与传感节点ajj之间的距离。定义传感节点所受到的干扰对传感节点的个人效用产生了负作用,则传感节点ai的个人效用函数为:
Figure BDA0002087408100000073
在传感节点所具有的社会关系网络gs={N,εs}下由个人效用进一步构建传感节点ai的社会效用函数如下:
Figure BDA0002087408100000074
其中,ωij为传感节点ai和传感节点aj之间的社会关系指数,ωij∈[0,1),两传感节点的用户间的社会关系越亲密,ωij越大。
在学习功率控制策略的过程中,Q学习模型的输入状态随传感节点间的社会关系变化,因此在开始建立Q学习模型前建立传感节点间的社会关系网络决定Q学习网络的状态空间,有利于加快探索最优发射功率所需的时间。
S203:应用Q学习模型确定传输功率。
S204:以该传输功率进行信息传输。
本发明实施例提供的基于认知无线电网络的频谱共享方法,基于次用户发送控制器,在传统研究传感节点间的物理关系网路的基础上,结合物理关系网络和通信数据建立各传感节点间的社会关系网络,并结合该社会关系网络和接收到的各传感节点感知的环境信息训练Q学习网络探索最优发射功率的能力,建立Q学习模型,应用Q学习模型确定传输功率并以该传输功率进行信息传输,实现发送功率控制。由于新型通信技术带来的网络社交平台的兴起,传统的物理关系网络已经不能很好的描述传感节点间的关系,而基于传统的物理关系网络和传感节点间的通信数据,得到更贴合传感节点间信息传送与干扰联系的社会关系网络,能够更好的辅助次用户完成频谱共享,提高频谱共享效率。
图5为本发明实施例提供的一种Q学习网络的学习过程示意图。
在上述实施例中提到,可以以主用户和次用户都传输信息成功为Q学习网络的训练目标。在此基础上,步骤S202中基于环境信息和社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型,具体包括:
基于环境信息和社会关系网络建立状态空间,以预设的次用户的发送功率空间范围为动作集合,对主用户的信息传输结果和次用户的信息传输结果建立奖励机制,以主用户和次用户均传输信息成功为目标确定最优控制策略;
以状态空间、动作集合、奖励机制和所述最优控制策略建立Q学习模型。
在具体实施中,可以以信噪比作为传输信息成功与否的判断依据,信噪比值SINRi通过以下公式表示:
Figure BDA0002087408100000081
其中,hii为发送方Ti到接收方Ri的信道增益,
Figure BDA0002087408100000082
为主用户的传输功率,hij为发送方Ti到接收方Rj的信道增益,
Figure BDA0002087408100000083
为次用户的传输功率,w为接收的噪声功率。
设定信噪比值SINRi的阈值δi,则当SINRi≥δi表示传输信息成功。
定义主用户可调整的发送功率空间范围为
Figure BDA0002087408100000091
主用户为满足服务质量,基于自定义的功率控制策略如下:
Figure BDA0002087408100000092
Figure BDA0002087408100000093
其中,
Figure BDA0002087408100000094
该策略下主用户在每个时间点k采用逐步更新的方式控制发送功率,当SINR1(k)≤δ1
Figure BDA0002087408100000095
时为保证服务质量增加发送功率,当SINR1(k)≥δ1
Figure BDA0002087408100000096
时为节省能源消耗而减小发送功率,其他情况保持原本的发送功率。
Figure BDA0002087408100000097
为k时间点下传输信息时对k+1时间点时SINRi的预测,记为:
Figure BDA0002087408100000098
根据次用户所在环境选择n个非共享用户所在节点作为传感节点以获取环境信息,由于每个传感节点都会对感知环境产生不同程度的干扰且传感节点间的社会效用是相互联系的,故对于每一个传感节点来说受到的干扰与得到的社会效用都是相对于整个感知环境的。因此,传感节点ai在第k个时间点下接收到的功率Pi(k)具体通过以下公式计算:
Pi(k)=Φi(p)+S(a)+Y(a) (7)
其中,Pi(k)为传感节点ai(i=1,2,…,n)在第k个时间点下接收到的功率,且Pi(k)为状态空间s(k)={P1(k),P2(k),...,Pn(k)}中的状态量,Φi(p)为理想状态下传感节点ai检测到的环境信息,S(a)为各传感节点的社会效用之和,Y(a)为各传感节点对感知环境产生的干扰之和;
Φi(p)具体通过以下公式计算得到:
Φi(p)=ppg1i+psg2i (8)
其中,pp为传感节点ai检测到的主用户的发射功率,g1i为相对传感节点ai的主用户的传输损失,ps为传感节点ai检测到的次用户的发射功率,g2i为相对传感节点ai的次用户的传输损失;
S(a)具体通过以下公式计算得到:
Figure BDA0002087408100000101
其中,si(a)为传感节点ai的社会效用,ωij为传感节点ai和传感节点j之间的社会关系指数,qi为传感节点ai的发射功率,gij为传感节点ai与传感节点j之间的传输损失;
Y(a)具体通过以下公式计算得到:
Figure BDA0002087408100000102
其中,γi为传感节点ai对感知环境产生的干扰。
由于环境信息是随时间不断变化的,观测到的状态空间S是大规模连续的值,因此在训练Q学习网络时,用传感节点接收到的环境信息(即传感节点接收到的功率)作为状态量,将第k个时间点的状态空间记为S(k)={P1(k),P2(k),...,Pn(k)},在状态S下,次用户从集合
Figure BDA0002087408100000106
中选择一个发送功率进行信息的传输,因此定义动作空间为
Figure BDA0002087408100000105
Q学习网络中的奖励机制具体通过以下公式表示:
Figure BDA0002087408100000103
其中,r(k)为在第k个时间点的奖励,r、-r、0均为奖励值,SINR1(k+1)为在第k+1个时间点主用户的信噪比,δ1为预设的第一阈值,SINR2(k+1)在第k+1个时间点次用户的信噪比,δ2为预设的第二阈值。
具体学习过程如图5所示,基于传感节点的社会关系网络和传感节点感知到的环境信息确定次发送方T2的状态空间(State)和奖励(Reward),次发送方T2的动作(Action)作用于主用户,对主用户的信息传输结果产生影响。在学习过程中,假设主用户每次传输结束后均向监测器发送传输结果,次用户通过访问监测器获悉主用户是否传输信息成功。
从而,Q学习模型的动作值函数为:
Figure BDA0002087408100000104
其中,Q(s,a)为动作值函数,r(s,a)为在s状态下执行动作a后的奖励值,γ为折扣因子且γ∈[0,1],s′为执行动作a后的下一个状态。
一般情况下,假设目标状态为s′,次用户可根据目标状态调节传输功率,但由于数据传输的不连续性,目标状态可能丢失,即次用户没有及时读取传感节点发送的环境信息,此时需要次用户根据学习到的策略进行传输。
在上述实施例的基础上,在训练Q学习网络时,可以应用小批量梯度下降法更新Q学习网络的权重。损失函数通过如下公式计算:
Figure BDA0002087408100000111
其中,L(θ)为损失函数,Q(k)为根据动作值函数的公式(12)计算得到的目标值,
Figure BDA0002087408100000112
为神经网络逼近的估算值。
同时,为打破状态之间的相关性,可以引入经验池机制。因此,基于认知无线电网络的频谱共享方法还可以包括:
将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值;
当经验池D中存储的待选样本值达到预设数目后,在经验池D中随机抽取预设批次的样本训练Q学习网络。
图6(a)为一种本发明实施例提供的Q学习模型与传统Q学习模型的成功率对比示意图;图6(b)为一种本发明实施例提供的Q学习模型与传统Q学习模型的探索步数对比示意图;图6(c)为一种本发明实施例提供的Q学习模型与传统Q学习模型的奖励值对比示意图。
基于同样的样本数据进行Q学习模型的训练与测试,测试结果如图6(a)、6(b)和6(c)所示,可以看到,在使用深度Q学习网络(DQN)实现主用户与次用户的频谱共享时,传统意义的感知环境下传感节点间相互产生干扰,导致检测到的环境信息噪声过大。
如图6(a)所示,在传统的基于传感节点间的物理关系网络建立的Q学习模型(DQNwithout social relation)下,随着训练迭代次数(Iteration)的增加,传输信息的平均成功率(Average Success Rate)仅在0.8上下浮动且波动较大,而应用本发明实施例提供的基于传感节点间的社会关系网络建立的Q学习模型(DQN with social relation),由于亲密的社会关系可以抵消大部分干扰信息,使传输信息的平均成功率逐渐收敛并提升至1。
如图6(b)所示,本发明实施例提供的Q学习模型在3.5步内即可完成从尝试发送信息至发送成功的过程,而经过一定的训练迭代后,探索步数保持在2步左右。可以看到,虽然在开始训练时,本发明实施例提供的Q学习模型相较于传统Q学习模型的探索步数更多,但是趋于稳定所需的迭代次数更少,因此训练速度更快,有效提高了频谱共享的效率,保证了信息在短时间内发送成功。
如图6(c)所示,本发明实施例提供的Q学习模型相较于传统Q学习模型,次用户获得的平均奖励值(Average Reward)也相对更高。
上文详述了基于认知无线电网络的频谱共享方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的基于认知无线电网络的频谱共享装置。
图7为本发明实施例提供的一种基于认知无线电网络的频谱共享装置的结构示意图。
如图7所示,本发明实施例提供的基于认知无线电网络的频谱共享装置,包括:
接收单元701,用于接收各传感节点感知的环境信息;
建模单元702,用于基于各传感节点间的物理关系网络和通信数据建立各传感节点间的社会关系网络,并基于环境信息和社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型;
计算单元703,用于应用Q学习模型确定传输功率;
传输单元704,用于以该传输功率进行信息传输。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图8为本发明实施例提供的一种基于认知无线电网络的频谱共享设备的结构示意图。
如图8所示,本发明实施例提供的基于认知无线电网络的频谱共享设备包括:
存储器801,用于存储指令,所述指令包括上述任意一项实施例所述基于认知无线电网络的频谱共享设备方法的步骤;
处理器802,用于执行所述指令。
本实施例提供的基于认知无线电网络的频谱共享设备,由于可以通过处理器调用存储器存储的计算机程序,实现如上述任一实施例提供的基于认知无线电网络的频谱共享设备方法的步骤,所以本分析装置具有同上述基于认知无线电网络的频谱共享设备方法同样的实际效果。
为了更好地理解本方案,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一实施例提到的基于认知无线电网络的频谱共享设备方法的步骤。
本实施例提供的计算机可读存储介质,由于可以通过处理器调用计算机可读存储介质存储的计算机程序,实现如上述任一实施例提供的基于认知无线电网络的频谱共享设备方法的步骤,所以本计算机可读存储介质具有同上述基于认知无线电网络的频谱共享设备方法同样的实际效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置、设备及计算机可读存储介质,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种基于认知无线电网络的频谱共享设备方法、装置、设备及计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种基于认知无线电网络的频谱共享方法,其特征在于,基于次用户发送控制器,包括:
接收各传感节点感知的环境信息;
基于各所述传感节点间的物理关系网络和通信数据建立各所述传感节点间的社会关系网络,并基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型;
应用所述Q学习模型确定传输功率;
以所述传输功率进行信息传输;
其中,所述基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型,具体包括:
基于所述环境信息和所述社会关系网络建立状态空间,以预设的次用户的发送功率空间范围为动作集合,对主用户的信息传输结果和次用户的信息传输结果建立奖励机制,以所述主用户和所述次用户均传输信息成功为目标确定最优控制策略;
以所述状态空间、所述动作集合、所述奖励机制和所述最优控制策略建立所述Q学习模型;
具体通过以下公式计算得到所述状态空间中的状态量:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
为第i个传感节点(
Figure DEST_PATH_IMAGE006
)在第k个时间点下接收到的功率,且
Figure DEST_PATH_IMAGE008
为所述状态空间
Figure DEST_PATH_IMAGE010
中的状态量,
Figure DEST_PATH_IMAGE012
为理想状态下所述第i个传感节点检测到的环境信息,
Figure DEST_PATH_IMAGE014
为各所述传感节点的社会效用之和,
Figure DEST_PATH_IMAGE016
为各所述传感节点对感知环境产生的干扰之和;
Figure 5775DEST_PATH_IMAGE012
具体通过以下公式计算得到:
Figure DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE020
为所述第i个传感节点检测到的所述主用户的发射功率,
Figure DEST_PATH_IMAGE022
为相对所述第i个传感节点的所述主用户的传输损失,
Figure DEST_PATH_IMAGE024
为所述第i个传感节点检测到的所述次用户的发射功率,
Figure DEST_PATH_IMAGE026
为相对所述第i个传感节点的所述次用户的传输损失;
Figure DEST_PATH_IMAGE027
具体通过以下公式计算得到:
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
j=1,2,…,n
其中,
Figure DEST_PATH_IMAGE033
为所述第i个传感节点的社会效用,
Figure DEST_PATH_IMAGE035
为所述第i个传感节点和传感节点j之间的社会关系指数,
Figure DEST_PATH_IMAGE037
为所述第i个传感节点的发射功率,
Figure DEST_PATH_IMAGE039
为所述第i个传感节点与所述传感节点j之间的传输损失;
Figure DEST_PATH_IMAGE040
具体通过以下公式计算得到:
Figure DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE044
为所述第i个传感节点对所述感知环境产生的干扰。
2.根据权利要求1所述的频谱共享方法,其特征在于,所述奖励机制具体通过以下公式表示:
Figure DEST_PATH_IMAGE046
其中,
Figure DEST_PATH_IMAGE048
为在第k个时间点的奖励,r、-r、0均为奖励值,
Figure DEST_PATH_IMAGE050
为在第k+1个时间点所述主用户的信噪比,
Figure DEST_PATH_IMAGE052
为预设的第一阈值,
Figure DEST_PATH_IMAGE054
在第k+1个时间点所述次用户的信噪比,
Figure DEST_PATH_IMAGE056
为预设的第二阈值。
3.根据权利要求1所述的频谱共享方法,其特征在于,所述Q学习模型的动作值函数为:
Figure DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE060
为所述动作值函数,
Figure DEST_PATH_IMAGE062
为在s状态下执行动作a后的奖励值,
Figure DEST_PATH_IMAGE064
为折扣因子且
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE068
为执行所述动作a后的下一个状态。
4.根据权利要求3所述的频谱共享方法,其特征在于,所述基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,具体为:
应用小批量梯度下降法更新所述Q学习网络的权重。
5.根据权利要求3所述的频谱共享方法,其特征在于,还包括:
将每一次迭代后的信息
Figure DEST_PATH_IMAGE070
存入经验池D作为待选样本值;
当所述经验池D中存储的待选样本值达到预设数目后,在所述经验池D中随机抽取预设批次的样本训练所述Q学习网络。
6.一种基于认知无线电网络的频谱共享装置,其特征在于,包括:
接收单元,用于接收各传感节点感知的环境信息;
建模单元,用于基于各所述传感节点间的物理关系网络和通信数据建立各所述传感节点间的社会关系网络,并基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型;
计算单元,用于应用所述Q学习模型确定传输功率;
传输单元,用于以所述传输功率进行信息传输;
其中,所述基于所述环境信息和所述社会关系网络训练Q学习网络探索最优发射功率的能力,建立Q学习模型,具体包括:
基于所述环境信息和所述社会关系网络建立状态空间,以预设的次用户的发送功率空间范围为动作集合,对主用户的信息传输结果和次用户的信息传输结果建立奖励机制,以所述主用户和所述次用户均传输信息成功为目标确定最优控制策略;
以所述状态空间、所述动作集合、所述奖励机制和所述最优控制策略建立所述Q学习模型;
具体通过以下公式计算得到所述状态空间中的状态量:
Figure DEST_PATH_IMAGE071
其中,
Figure DEST_PATH_IMAGE072
为第i个传感节点(
Figure 464742DEST_PATH_IMAGE006
)在第k个时间点下接收到的功率,且
Figure 391110DEST_PATH_IMAGE008
为所述状态空间
Figure 471061DEST_PATH_IMAGE010
中的状态量,
Figure 559103DEST_PATH_IMAGE012
为理想状态下所述第i个传感节点检测到的环境信息,
Figure 357295DEST_PATH_IMAGE014
为各所述传感节点的社会效用之和,
Figure 821774DEST_PATH_IMAGE040
为各所述传感节点对感知环境产生的干扰之和;
Figure 756232DEST_PATH_IMAGE012
具体通过以下公式计算得到:
Figure DEST_PATH_IMAGE073
其中,
Figure 546333DEST_PATH_IMAGE020
为所述第i个传感节点检测到的所述主用户的发射功率,
Figure 330356DEST_PATH_IMAGE022
为相对所述第i个传感节点的所述主用户的传输损失,
Figure DEST_PATH_IMAGE074
为所述第i个传感节点检测到的所述次用户的发射功率,
Figure DEST_PATH_IMAGE075
为相对所述第i个传感节点的所述次用户的传输损失;
Figure 129685DEST_PATH_IMAGE014
具体通过以下公式计算得到:
Figure 918650DEST_PATH_IMAGE029
Figure 879652DEST_PATH_IMAGE031
j=1,2,…,n
其中,
Figure 386857DEST_PATH_IMAGE033
为所述第i个传感节点的社会效用,
Figure 193139DEST_PATH_IMAGE035
为所述第i个传感节点和传感节点j之间的社会关系指数,
Figure 102189DEST_PATH_IMAGE037
为所述第i个传感节点的发射功率,
Figure 702935DEST_PATH_IMAGE039
为所述第i个传感节点与所述传感节点j之间的传输损失;
Figure 963015DEST_PATH_IMAGE040
具体通过以下公式计算得到:
Figure 808873DEST_PATH_IMAGE042
其中,
Figure 572430DEST_PATH_IMAGE044
为所述第i个传感节点对所述感知环境产生的干扰。
7.一种基于认知无线电网络的频谱共享设备,其特征在于,包括:
存储器,用于存储指令,所述指令包括权利要求1至5任意一项所述基于认知无线电网络的频谱共享方法的步骤;
处理器,用于执行所述指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述基于认知无线电网络的频谱共享方法的步骤。
CN201910492208.2A 2019-06-06 2019-06-06 一种基于认知无线电网络的频谱共享方法、装置及设备 Active CN110225525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910492208.2A CN110225525B (zh) 2019-06-06 2019-06-06 一种基于认知无线电网络的频谱共享方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910492208.2A CN110225525B (zh) 2019-06-06 2019-06-06 一种基于认知无线电网络的频谱共享方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110225525A CN110225525A (zh) 2019-09-10
CN110225525B true CN110225525B (zh) 2022-06-24

Family

ID=67815999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910492208.2A Active CN110225525B (zh) 2019-06-06 2019-06-06 一种基于认知无线电网络的频谱共享方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110225525B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287088A1 (en) * 2020-03-11 2021-09-16 Htc Corporation Reinforcement learning system and training method
CN111866810B (zh) * 2020-07-30 2022-06-24 广东工业大学 一种车联网频谱分配方法及设备
CN112383965B (zh) * 2020-11-02 2023-04-07 哈尔滨工业大学 基于drqn和多传感器模型的认知无线电功率分配方法
CN112672359B (zh) * 2020-12-18 2022-06-21 哈尔滨工业大学 基于双向长短时记忆网络的动态频谱接入方法
CN115209508B (zh) * 2021-04-13 2023-09-19 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN113259944B (zh) * 2021-05-11 2022-05-10 广东工业大学 一种基于深度强化学习的ris辅助频谱共享方法
CN113420495B (zh) * 2021-05-31 2023-02-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102244869A (zh) * 2010-05-14 2011-11-16 华为技术有限公司 主用户网络频谱管理与共享的方法及系统
CN103002455A (zh) * 2012-10-12 2013-03-27 陈宏滨 一种基于社交网络和博弈论的认知无线电频谱共享模型
CN108833040A (zh) * 2018-06-22 2018-11-16 电子科技大学 基于强化学习的智能频谱协同感知方法
CN108901003A (zh) * 2018-07-11 2018-11-27 重庆邮电大学 一种d2d协作网络场景下基于社会关系的功率分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7881726B2 (en) * 2007-07-31 2011-02-01 Motorola, Inc. Method and apparatus for spectrum sharing between an incumbent communications system and a cognitive radio system
US20180091981A1 (en) * 2016-09-23 2018-03-29 Board Of Trustees Of The University Of Arkansas Smart vehicular hybrid network systems and applications of same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102244869A (zh) * 2010-05-14 2011-11-16 华为技术有限公司 主用户网络频谱管理与共享的方法及系统
CN103002455A (zh) * 2012-10-12 2013-03-27 陈宏滨 一种基于社交网络和博弈论的认知无线电频谱共享模型
CN108833040A (zh) * 2018-06-22 2018-11-16 电子科技大学 基于强化学习的智能频谱协同感知方法
CN108901003A (zh) * 2018-07-11 2018-11-27 重庆邮电大学 一种d2d协作网络场景下基于社会关系的功率分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Imitation-Based Social Spectrum Sharing;X.Chen 等;《in IEEE Transactions on Mobile Computing》;20140812;全文 *
基于社交网络的认知无线电频谱共享模型;陈宏滨 等;《计算机应用研究》;20110815;第28卷(第8期);全文 *
认知无线电网络中分布式频谱接入机制的研究;唐永川;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150115;全文 *
认知无线电网络的干扰信道学习算法;石峰 等;《科技通报》;20150615;全文 *

Also Published As

Publication number Publication date
CN110225525A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110225525B (zh) 一种基于认知无线电网络的频谱共享方法、装置及设备
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
CN110267274B (zh) 一种根据用户间社会信誉度选择传感用户的频谱共享方法
CN109788489A (zh) 一种基站规划方法及装置
CN113011603A (zh) 模型参数更新方法、装置、设备、存储介质及程序产品
CN107105453B (zh) 基于层次分析法和进化博弈理论的异构网络选择接入方法
Chen et al. A game-theoretic model for medium access control
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
Cao et al. Cognitive radio networks with heterogeneous users: How to procure and price the spectrum?
CN103327504B (zh) 一种认知无线电网络中频谱感知间隔的决策方法
CN114727316B (zh) 一种基于深度确定性策略的物联网传输方法以及装置
CN113795050B (zh) 一种基于Sum Tree采样的深度双Q网络动态功率控制方法
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
CN110635833B (zh) 一种基于深度学习的功率分配方法及分配装置
CN117615419A (zh) 基于任务调度与资源分配的分布式数据卸载方法
CN115729707A (zh) 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质
CN108631895B (zh) 一种基于贝叶斯博弈的频谱感知次用户激励方法
Do et al. Deep reinforcement learning based dynamic spectrum competition in green cognitive virtualized networks
CN113747386A (zh) 认知无线电网络频谱共享中的智能功率控制方法
Zhou et al. Neural network joint capacity-power control strategy based on NSGAII-BP for interference suppression in LEO satellite uplinks
Ramamoorthy et al. Human cognition aware qoe for noma pricing: A prospect-theoretic augmentation to non-orthogonal wireless multiple access
Wang et al. Network association for cognitive communication and radar co-systems: A POMDP formulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant