CN110267274B - 一种根据用户间社会信誉度选择传感用户的频谱共享方法 - Google Patents

一种根据用户间社会信誉度选择传感用户的频谱共享方法 Download PDF

Info

Publication number
CN110267274B
CN110267274B CN201910385983.8A CN201910385983A CN110267274B CN 110267274 B CN110267274 B CN 110267274B CN 201910385983 A CN201910385983 A CN 201910385983A CN 110267274 B CN110267274 B CN 110267274B
Authority
CN
China
Prior art keywords
user
users
node
power
sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910385983.8A
Other languages
English (en)
Other versions
CN110267274A (zh
Inventor
李雪扬
王永华
万频
邵瑞宇
邓宇宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910385983.8A priority Critical patent/CN110267274B/zh
Publication of CN110267274A publication Critical patent/CN110267274A/zh
Application granted granted Critical
Publication of CN110267274B publication Critical patent/CN110267274B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线电领域,更具体的,涉及一种根据用户间社会信誉度选择传感用户的频谱共享方法,本方法通过构建基于用户间社会信誉度的频谱共享模型的认知网络将用户间的物理关系与社会关系相结合,构建社会关系网对用户间的频谱共享加以辅助,提高频谱共享效率,减小接收方功率损耗。并使用深度强化学习处理复杂认知环境下大量的用户信息,使用户能够快速处理获得的信息,完成最优控制决策,实现智能的频谱共享。

Description

一种根据用户间社会信誉度选择传感用户的频谱共享方法
技术领域
本发明涉及无线电领域,更具体地,涉及一种根据用户间社会信誉度选择传感用户的频谱共享方法。
背景技术
认知无线电技术(CR)提出用智能的方式提升频谱的利用率,无线个人移动设备和高度智能的无线网络环境,可以根据用户需求计算无线资源和设备之间的通信方式,包括用户提供最满足其通信需求无线资源与服务。多个具有CR功能的设备组成的网络称为认知无线网络(CRN)。认知无线网络(CRN)的关键在于运用相关技术对有限的频谱资源进行合理的分配,使次用户(SU)能够在不影响主用户(PU)的通信服务质量(QoS)的情况下与授权用户共享频谱资源。
在使用认知无线电技术完成频谱共享的研究中对次用户(SU)发送功率的控制是关键问题之一,有效地控制发送功率可以调节次用户(SU)的数据传输范围、减少对主用户(PU)及其他次用户(SU)造成的干扰,还可以减少由于次用户(SU)发送功率的不合理造成的接收端能量消耗。但对于功率分配及控制一般都需要获得大量的环境信息,从当前的频谱使用情况来看,信道状态普遍是实时动态变化的,监测环境状态需要花费大量的资源。根据约束条件最小化次用户(SU)的发送功率的控制方法虽然能保证频谱共享时主用户(PU)的通信服务质量,但对于次用户(SU)的接收方会造成不必要的能量损耗。
发明内容
为了解决现有技术中在发送信息传输的过程中造成不必要的能量损耗的不足,本发明涉及一种根据用户间社会信誉度选择传感用户的频谱共享方法。
为解决上述技术问题,本发明的技术方案如下:
一种根据用户间社会信誉度选择传感用户的频谱共享方法,包括以下步骤:
步骤S1:构建基于用户间社会信誉度的频谱共享模型的认知网络,所述的认知网络由主用户、次用户及传感系统组成,主用户由主发送方T1与主接收方R1构成,次用户由次发送方T2与次接收方R2组成,将主用户和次用户统称为共享用户SDU,传感系统中的传感节点由共享用户所在范围内若干不需要与主用户共享频谱的其他次用户组成,将其称为节点用户NU;
步骤S2:判断认知网络环境下其他非共享用户分别与主、次用户间的社会信誉度;在开始频谱共享之前对节点用户分别赋予一个社会信誉度Cin∈[0,1),i=1,2;n=1,2,…,n,其中i表示主用户或次用户,n表示n个传感节点用户,Cin越大表示共享用户对该节点用户的信任度越高,此时的节点用户检测到的环境信息失真度越小;
步骤S3:根据主、次用户间的社会信誉度选定传感节点用户,建立共享用户与节点用户间的社会信誉度关系图,确定出各个节点的信誉度值,共享用户根据各个节点的信誉度值选择作为传感节点的节点用户;
步骤S4:次用户实时向被选择作为传感节点的节点用户查询其感知到的主用户发送功率的值;并选定合适的发送功率;次用户按照选定的功率接入主用户频段开始信息的发送,并调整自身发送功率;
步骤S5:使用深度强化学习网络多次迭代,对次用户进行训练;
步骤S6:训练结束,测试次用户,使得次用户能在主用户的频段上快速调整自身发送功率完成信息发送。
优选的,在步骤S4中次用户根据自身信噪比阈值δ2及主用户信噪比阈值δ1选定合适的发送功率。
优选的,步骤S4的具体步骤如下:
共享用户QoS分别根据信噪比值(SINR)判断,设定SINR阈值δi,T1、T2的功率高于δi时发送成功:
Figure BDA0002054854720000021
SINRi≥δi (3)
其中,
Figure BDA0002054854720000022
分别为主用户与次用户的传输功率,hij是发送方Ti到接收方Rj的信道增益,w为接收的噪声功率,定义主用户可调整的发送功率空间范围为
Figure BDA0002054854720000023
主用户为满足QoS有自定义的功率控制策略:
Figure BDA0002054854720000024
Figure BDA0002054854720000025
该策略下主用户在每个时间点k采用逐步更新的方式控制发送功率,当SINR1(k)≤δ1
Figure BDA0002054854720000031
时为保证QoS增加发送功率;当SINR1(k)≥δ1
Figure BDA0002054854720000032
为节省能源消耗而减小发送功率;其他情况保持原来功率;
Figure BDA0002054854720000033
为k时间点下发送信息时对k+1时SINR的预测,记为:
Figure BDA0002054854720000034
根据用户所在环境选择n个用户作为传感节点以获取RS信息,定义Pn(k)为传感节点n在第k个时间点下接受到的功率:
Pn(k)=Φn(p)+γ(a) (8)
其中Φn(p)为理想状态下传感节点检测到的环境信息,pp(k),ps(k)分别作为主用户与次用户的发射功率:
φn(p)=ppg1n+psg2n (9)
节点用户n对感知环境产生的干扰表示为:γn=qngnm,其中qn是节点用户n的发送功率,gnm是传输损失gnm=(μ/4πd)2,μ表示信号波长,d为两节点用户间的距离;
Figure BDA0002054854720000035
由于环境信息信息是随时间不断变化的,因此观测到的状态空间S是大规模连续的值,因此在使用深度强化学习网络完成频谱共享时,用传感节点接收到的环境状态信息作为次用户的状态量,将k时刻下状态空间记作s(k)={P1(k),P2(k),…,Pn(k)},在状态S下,次用户从集合
Figure BDA0002054854720000036
中选择一个发送功率进行数据的传输;定义动作空间为
Figure BDA0002054854720000037
定义主、次用户都成功发送数据时获得奖励r,否则奖励为-r;
Figure BDA0002054854720000038
主用户每次传输结束后向监测器发送传输结果信息,次用户通过访问监测器查询主用户是否传输成功。
优选的,步骤S5的具体步骤如下:
使用深度强化学习网络完成多个次用户信道选择的动态频谱接入,将循环网络的记忆功能与深度强化学习网络的控制决策能力结合对动态频谱接入策略进行研究;功率控制方面,使用迁移学习减少迭代次数并在深度强化网络下调节功率以实现“服务质量QoS”与“经验质量QoE”的优化,使用卷积神经网络以频谱图谱为输入,提取信道状态信息后使用Q函数选择最优发射频率达到抗干扰的频谱分配;
假设目标状态为s′,次用户可根据目标状态调节传输功率,但由于数据传输的不连续性,目标状态可能丢失,此时需要次用户根据学习到的策略进行传输;在学习功率控制策略的过程中,深度Q网络DQN的输入状态随用户间的社会关系变化,因此在开始训练前需构建用户间社会关系图决定状态量。
优选的,在训练数据时采用小批量梯度下降的方式更新权重,为打破状态之间的相关性引入经验池机制,将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值,当存储到一定数量时从D中随机抽取规定批次的样本训练网络,计算损失函数(13),
Figure BDA0002054854720000041
其中,Q(K)是根据(13)计算出的Q函数的目标值,
Figure BDA0002054854720000042
为神经网络逼近的估计值,N为迭代次数,θ为神经网络权重。
与现有技术相比,本发明技术方案的有益效果是:
本发明将用户间的物理关系与社会关系相结合,构建社会关系网对用户间的频谱共享加以辅助,提高频谱共享效率,减小接收方功率损耗。并且使用深度强化学习处理复杂认知环境下大量的用户信息,使用户能够快速处理获得的信息,完成最优控制决策,实现智能的频谱共享。
附图说明
图1为本发明的流程图。
图2为基于用户间社会信誉度的频谱共享模型的认知网络的结构图。
图3为共享用户与节点用户间社会关系图。
图4为深度强化学习的过程图。
图5为共享用户与节点用户间不同信誉度对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1~图4所示,一种根据用户间社会信誉度选择传感用户的频谱共享方法,包括以下步骤:
步骤S1:如图2所示,构建基于用户间社会信誉度的频谱共享模型的认知网络,所述的认知网络由主用户、次用户及传感系统组成,主用户由主发送方T1与主接收方R1构成,次用户由次发送方T2与次接收方R2组成,将主用户和次用户统称为共享用户SDU,传感系统中的传感节点由共享用户所在范围内若干不需要与主用户共享频谱的其他次用户组成,将其称为节点用户NU;
步骤S2:判断认知网络环境下其他非共享用户分别与主、次用户间的社会信誉度;如图3所示,在开始频谱共享之前对节点用户分别赋予一个社会信誉度Cin∈[0,1),i=1,2,n=1,2,…,n,其中Cin越大表示共享用户对该节点用户的信任度越高,此时的节点用户检测到的环境信息失真度越小;
步骤S3:根据主、次用户间的社会信誉度选定传感节点用户,建立共享用户与节点用户间的社会信誉度关系图,确定出各个节点的信誉度值,共享用户根据各个节点的信誉度值选择作为传感节点的节点用户;
步骤S4:次用户实时向被选择作为传感节点的节点用户查询其感知到的主用户发送功率的值;并选定合适的发送功率;次用户按照选定的功率接入主用户频段开始信息的发送,并调整自身发送功率;
步骤S5:使用深度强化学习网络多次迭代,对次用户进行训练,如图4所示;
步骤S6:训练结束,测试次用户,使得次用户能在主用户的频段上快速调整自身发送功率完成信息发送。
作为一个优选的实施例,在步骤S4中次用户根据自身信噪比阈值δ2及主用户信噪比阈值δ1选定合适的发送功率。
作为一个优选的实施例,步骤S4的具体步骤如下:
共享用户QoS分别根据信噪比值(SINR)判断,设定SINR阈值δi,T1、T2的功率高于δi时发送成功:
Figure BDA0002054854720000061
SINRi≥δi (3)
其中,
Figure BDA0002054854720000062
分别为主用户与次用户的传输功率,hij是发送方Ti到接收方Rj的信道增益,w为接收的噪声功率,定义主用户可调整的发送功率空间范围为
Figure BDA0002054854720000063
主用户为满足QoS有自定义的功率控制策略:
Figure BDA0002054854720000064
Figure BDA0002054854720000065
该策略下主用户在每个时间点k采用逐步更新的方式控制发送功率,当SINR1(k)≤δ1
Figure BDA0002054854720000066
时为保证QoS增加发送功率;当SINR1(k)≥δ1
Figure BDA0002054854720000067
为节省能源消耗而减小发送功率;其他情况保持原来功率;
Figure BDA0002054854720000068
为k时间点下发送信息时对k+1时SINR的预测,记为:
Figure BDA0002054854720000069
根据用户所在环境选择n个用户作为传感节点以获取RS信息,定义Pn(k)为传感节点n在第k个时间点下接受到的功率:
Pn(k)=Φn(p)+γ(a) (8)
其中Φn(p)为理想状态下传感节点检测到的环境信息,pp(k),ps(k)分别作为主用户与次用户的发射功率:
φn(p)=ppg1n+psg2n (9)
节点用户n对感知环境产生的干扰表示为:γn=qngnm,其中qn是节点用户n的发送功率,gnm是传输损失gnm=(μ/4πd)2,μ表示信号波长,d为两节点用户间的距离;
Figure BDA00020548547200000610
由于环境信息信息是随时间不断变化的,因此观测到的状态空间S是大规模连续的值,因此在使用深度强化学习网络完成频谱共享时,用传感节点接收到的环境状态信息作为次用户的状态量,将k时刻下状态空间记作s(k)={P1(k),P2(k),…,Pn(k)},在状态S下,次用户从集合
Figure BDA00020548547200000611
中选择一个发送功率进行数据的传输;定义动作空间为
Figure BDA00020548547200000612
定义主、次用户都成功发送数据时获得奖励r,否则奖励为-r;
Figure BDA0002054854720000071
主用户每次传输结束后向监测器发送传输结果信息,次用户通过访问监测器查询主用户是否传输成功。
作为一个优选的实施例,步骤S5的具体步骤如下:
使用深度强化学习网络完成多个次用户信道选择的动态频谱接入,将循环网络的记忆功能与深度强化学习网络的控制决策能力结合对动态频谱接入策略进行研究;功率控制方面,使用迁移学习减少迭代次数并在深度强化网络下调节功率以实现“服务质量QoS”与“经验质量QoE”的优化,使用卷积神经网络以频谱图谱为输入,提取信道状态信息后使用Q函数选择最优发射频率达到抗干扰的频谱分配;
假设目标状态为s′,次用户可根据目标状态调节传输功率,但由于数据传输的不连续性,目标状态可能丢失,此时需要次用户根据学习到的策略进行传输;在学习功率控制策略的过程中,深度Q网络DQN的输入状态随用户间的社会关系变化,因此在开始训练前需构建用户间社会关系图决定状态量。
作为一个优选的实施例,在训练数据时采用小批量梯度下降的方式更新权重,为打破状态之间的相关性引入经验池机制,将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值,当存储到一定数量时从D中随机抽取规定批次的样本训练网络,计算损失函数(13),
Figure BDA0002054854720000072
其中,Q(K)是根据(13)计算出的Q函数的目标值,
Figure BDA0002054854720000073
为神经网络逼近的估计值,N为迭代次数,θ为神经网络权重。
实施例2
如图5所示,本实施例中,在研究社会信誉度对频谱共享成功率的影响时选择3组共享用户与节点用户间的信誉度均值进行50000次迭代实验。实验结果表明:当主共享用户与传感节点用户间信誉度均值较高即C1=0.9 C2=0.8,此时次用户学习成功率仅在20000步左右就收敛至1且基本保持稳定,随着共享用户与节点用户间的社会信誉度值的下降,学习成功率收敛逐渐变得不稳定,当信誉度值下降至C1=0.6 C2=0.4时,成功率虽然最终仍能达到1但收敛速度下降且收敛后仍有振荡,当关系值低至C1=0.2 C2=0.4时,成功率在仅在0.8~1间振荡。由实验结果可得,共享用户对节点用户的信誉的值越高,节点用户检测信息的失真度越小,此时次用户共享频谱的成功率高且收敛速度快。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种根据用户间社会信誉度选择传感用户的频谱共享方法,其特征在于,包括以下步骤:
步骤S1:构建基于用户间社会信誉度的频谱共享模型的认知网络,所述的认知网络由主用户、次用户及传感系统组成,主用户由主发送方T1与主接收方R1构成,次用户由次发送方T2与次接收方R2组成,将主用户和次用户统称为共享用户SDU,传感系统中的传感节点由共享用户所在范围内若干不需要与主用户共享频谱的其他次用户组成,将其称为节点用户NU;
步骤S2:判断认知网络环境下其他非共享用户分别与主、次用户间的社会信誉度;在开始频谱共享之前对节点用户分别赋予一个社会信誉度Cin∈[0,1),i=1,2;n=1,2,…,n,其中i表示主用户或次用户,n表示n个传感节点用户,Cin越大表示共享用户对该节点用户的信任度越高,此时的节点用户检测到的环境信息失真度越小;
步骤S3:根据主、次用户间的社会信誉度选定传感节点用户,建立共享用户与节点用户间的社会信誉度关系图,确定出各个节点的信誉度值,共享用户根据各个节点的信誉度值选择作为传感节点的节点用户;
步骤S4:次用户实时向被选择作为传感节点的节点用户查询其感知到的主用户发送功率的值;并选定合适的发送功率;次用户按照选定的功率接入主用户频段开始信息的发送,并调整自身发送功率;
步骤S5:使用深度强化学习网络多次迭代,对次用户进行训练;
步骤S6:训练结束,测试次用户,使得次用户能在主用户的频段上快速调整自身发送功率完成信息发送;
步骤S4的具体步骤如下:
共享用户QoS分别根据信噪比值判断,设定信噪比值阈值δi,T1、T2的功率高于δi时发送成功:
Figure FDA0003857895540000011
SINRi≥δi (3)
其中,
Figure FDA0003857895540000012
分别为主用户与次用户的传输功率,hij是发送方Ti到接收方Rj的信道增益,w为接收的噪声功率,定义主用户可调整的发送功率空间范围为
Figure FDA0003857895540000021
主用户为满足QoS有自定义的功率控制策略:
Figure FDA0003857895540000022
Figure FDA0003857895540000023
该策略下主用户在每个时间点k采用逐步更新的方式控制发送功率,当SINR1(k)≤δ1
Figure FDA0003857895540000024
时为保证QoS增加发送功率;当SINR1(k)≥δ1
Figure FDA0003857895540000025
为节省能源消耗而减小发送功率;其他情况保持原来功率;
Figure FDA0003857895540000026
为k时间点下发送信息时对k+1时SINR的预测,记为:
Figure FDA0003857895540000027
根据用户所在环境选择n个用户作为传感节点以获取RS信息,定义Pn(k)为传感节点n在第k个时间点下接受到的功率:
Pn(k)=Φn(p)+Υ(a) (8)
其中Φn(p)为理想状态下传感节点检测到的环境信息,pp(k),ps(k)分别作为主用户与次用户的发射功率:
φn(p)=ppg1n+psg2n (9)
节点用户n对感知环境产生的干扰表示为:γn=qngnm,其中qn是节点用户n的发送功率,gnm是传输损失gnm=(μ/4πd)2,μ表示信号波长,d为两节点用户间的距离;
Figure FDA0003857895540000028
由于环境信息是随时间不断变化的,因此观测到的状态空间S是大规模连续的值,因此在使用深度强化学习DRL完成频谱共享时,用传感节点接收到的环境状态信息作为次用户的状态量,将k时刻下状态空间记作s(k)={P1(k),P2(k),…,Pn(k)},在状态S下,次用户从集合
Figure FDA0003857895540000029
中选择一个发送功率进行数据的传输;定义动作空间为
Figure FDA00038578955400000210
定义主、次用户都成功发送数据时获得奖励r,否则奖励为-r;
Figure FDA00038578955400000211
主用户每次传输结束后向监测器发送传输结果信息,次用户通过访问监测器查询主用户是否传输成功。
2.根据权利要求1所述的一种根据用户间社会信誉度选择传感用户的频谱共享方法,其特征在于,在步骤S4中次用户根据自身信噪比阈值δ2及主用户信噪比阈值δ1选定合适的发送功率。
3.根据权利要求2所述的一种根据用户间社会信誉度选择传感用户的频谱共享方法,其特征在于,步骤S5的具体步骤如下:
使用深度强化学习网络完成多个次用户信道选择的动态频谱接入,将循环网络的记忆功能与深度强化学习网络的控制决策能力结合对动态频谱接入策略进行研究;功率控制方面,使用迁移学习减少迭代次数并在深度强化网络下调节功率以实现服务质量QoS与经验质量QoE的优化,使用卷积神经网络以频谱图谱为输入,提取信道状态信息后使用Q函数选择最优发射频率达到抗干扰的频谱分配;
假设目标状态为s′,次用户可根据目标状态调节传输功率,但由于数据传输的不连续性,目标状态可能丢失,此时需要次用户根据学习到的策略进行传输;在学习功率控制策略的过程中,深度Q网络DQN的输入状态随用户间的社会关系变化,因此在开始训练前需构建用户间社会关系图决定状态量。
4.根据权利要求3所述的一种根据用户间社会信誉度选择传感用户的频谱共享方法,其特征在于,在训练数据时采用小批量梯度下降的方式更新权重,为打破状态之间的相关性引入经验池机制,将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值,当存储到一定数量时从D中随机抽取规定批次的样本训练网络,计算损失函数,
Figure FDA0003857895540000031
其中,Q(K)是根据损失函数计算出的Q函数的目标值,
Figure FDA0003857895540000032
为神经网络逼近的估计值,N为迭代次数,θ为神经网络权重。
CN201910385983.8A 2019-05-09 2019-05-09 一种根据用户间社会信誉度选择传感用户的频谱共享方法 Expired - Fee Related CN110267274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910385983.8A CN110267274B (zh) 2019-05-09 2019-05-09 一种根据用户间社会信誉度选择传感用户的频谱共享方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910385983.8A CN110267274B (zh) 2019-05-09 2019-05-09 一种根据用户间社会信誉度选择传感用户的频谱共享方法

Publications (2)

Publication Number Publication Date
CN110267274A CN110267274A (zh) 2019-09-20
CN110267274B true CN110267274B (zh) 2022-12-16

Family

ID=67914571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910385983.8A Expired - Fee Related CN110267274B (zh) 2019-05-09 2019-05-09 一种根据用户间社会信誉度选择传感用户的频谱共享方法

Country Status (1)

Country Link
CN (1) CN110267274B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111614420B (zh) * 2020-04-29 2022-06-03 西安理工大学 一种基于供需平衡的车联网认知频谱分配方法
CN115720707A (zh) * 2020-06-29 2023-02-28 诺基亚技术有限公司 在通信系统中训练
CN111866954B (zh) * 2020-07-21 2022-03-29 重庆邮电大学 一种基于联邦学习的用户选择和资源分配方法
CN115209508B (zh) * 2021-04-13 2023-09-19 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN113747386A (zh) * 2021-08-16 2021-12-03 四川九洲空管科技有限责任公司 认知无线电网络频谱共享中的智能功率控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2375802A1 (en) * 2006-01-11 2011-10-12 QUALCOMM Incorporated Choosing parameters in a Peer-to-Peer communications systems
CN102368854A (zh) * 2011-10-31 2012-03-07 哈尔滨工程大学 一种基于反馈控制信息的认知无线电网络频谱共享方法
CN103002455A (zh) * 2012-10-12 2013-03-27 陈宏滨 一种基于社交网络和博弈论的认知无线电频谱共享模型
CN103139893A (zh) * 2007-04-26 2013-06-05 霖那控股私人有限公司 基于频谱感测边信息的认知无线电系统的功率控制
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7869400B2 (en) * 2006-10-16 2011-01-11 Stmicroelectronics, Inc. Method of inter-system coexistence and spectrum sharing for dynamic spectrum access networks-on-demand spectrum contention

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2375802A1 (en) * 2006-01-11 2011-10-12 QUALCOMM Incorporated Choosing parameters in a Peer-to-Peer communications systems
CN103139893A (zh) * 2007-04-26 2013-06-05 霖那控股私人有限公司 基于频谱感测边信息的认知无线电系统的功率控制
CN102368854A (zh) * 2011-10-31 2012-03-07 哈尔滨工程大学 一种基于反馈控制信息的认知无线电网络频谱共享方法
CN103002455A (zh) * 2012-10-12 2013-03-27 陈宏滨 一种基于社交网络和博弈论的认知无线电频谱共享模型
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Xu Chen等."Imitation-Based Social Spectrum Sharing".《IEEE Transactions on Mobile Computing ( Volume: 14, Issue: 6, June 1 2015)》.2014,全文. *
万频."随机共振在信号检测中的研究与应用".《中国优秀博士学位论文全文数据库 信息科技辑I136-7》.2012,全文. *

Also Published As

Publication number Publication date
CN110267274A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110267274B (zh) 一种根据用户间社会信誉度选择传感用户的频谱共享方法
Zhang et al. Energy-efficient mode selection and resource allocation for D2D-enabled heterogeneous networks: A deep reinforcement learning approach
Li et al. Multi-agent deep reinforcement learning based spectrum allocation for D2D underlay communications
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
Zhang et al. V2X offloading and resource allocation in SDN-assisted MEC-based vehicular networks
Budhiraja et al. Deep-reinforcement-learning-based proportional fair scheduling control scheme for underlay D2D communication
CN112995951B (zh) 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
Ji et al. Power optimization in device-to-device communications: A deep reinforcement learning approach with dynamic reward
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
Zhao et al. Deep reinforcement learning aided intelligent access control in energy harvesting based WLAN
Huang et al. Q-learning-based spectrum access for multimedia transmission over cognitive radio networks
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
Bi et al. Deep reinforcement learning based power allocation for D2D network
CN111740794B (zh) 一种多用户能量收集认知无线电系统
CN117615419A (zh) 基于任务调度与资源分配的分布式数据卸载方法
Tran et al. Multi-agent DRL approach for energy-efficient resource allocation in URLLC-enabled grant-free NOMA systems
Chang et al. Reinforcement learning-based joint cooperation clustering and content caching in cell-free massive MIMO networks
Liu et al. Deep reinforcement learning-based MEC offloading and resource allocation in uplink NOMA heterogeneous network
Yao et al. Cooperative task offloading and service caching for digital twin edge networks: A graph attention multi-agent reinforcement learning approach
CN113438723B (zh) 一种高额奖励惩罚的竞争深度q网络功率控制方法
Gao et al. Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users
Gou et al. A deep MARL-based power-management strategy for improving the fair reuse of UWSNs
Qian et al. Secrecy capacity maximization for uav aided noma communication networks
Rezaei et al. Energy and spectrum efficient cell switch-off with channel and power allocation in ultra-dense networks: A deep reinforcement learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221216