CN110267274B

CN110267274B - 一种根据用户间社会信誉度选择传感用户的频谱共享方法

Info

Publication number: CN110267274B
Application number: CN201910385983.8A
Authority: CN
Inventors: 李雪扬; 王永华; 万频; 邵瑞宇; 邓宇宸
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-12-16
Anticipated expiration: 2039-05-09
Also published as: CN110267274A

Abstract

本发明涉及无线电领域，更具体的，涉及一种根据用户间社会信誉度选择传感用户的频谱共享方法，本方法通过构建基于用户间社会信誉度的频谱共享模型的认知网络将用户间的物理关系与社会关系相结合，构建社会关系网对用户间的频谱共享加以辅助，提高频谱共享效率，减小接收方功率损耗。并使用深度强化学习处理复杂认知环境下大量的用户信息，使用户能够快速处理获得的信息，完成最优控制决策，实现智能的频谱共享。

Description

一种根据用户间社会信誉度选择传感用户的频谱共享方法

技术领域

本发明涉及无线电领域，更具体地，涉及一种根据用户间社会信誉度选择传感用户的频谱共享方法。

背景技术

认知无线电技术(CR)提出用智能的方式提升频谱的利用率，无线个人移动设备和高度智能的无线网络环境，可以根据用户需求计算无线资源和设备之间的通信方式，包括用户提供最满足其通信需求无线资源与服务。多个具有CR功能的设备组成的网络称为认知无线网络(CRN)。认知无线网络(CRN)的关键在于运用相关技术对有限的频谱资源进行合理的分配，使次用户(SU)能够在不影响主用户(PU)的通信服务质量(QoS)的情况下与授权用户共享频谱资源。

在使用认知无线电技术完成频谱共享的研究中对次用户(SU)发送功率的控制是关键问题之一，有效地控制发送功率可以调节次用户(SU)的数据传输范围、减少对主用户(PU)及其他次用户(SU)造成的干扰，还可以减少由于次用户(SU)发送功率的不合理造成的接收端能量消耗。但对于功率分配及控制一般都需要获得大量的环境信息，从当前的频谱使用情况来看，信道状态普遍是实时动态变化的，监测环境状态需要花费大量的资源。根据约束条件最小化次用户(SU)的发送功率的控制方法虽然能保证频谱共享时主用户(PU)的通信服务质量，但对于次用户(SU)的接收方会造成不必要的能量损耗。

发明内容

为了解决现有技术中在发送信息传输的过程中造成不必要的能量损耗的不足，本发明涉及一种根据用户间社会信誉度选择传感用户的频谱共享方法。

为解决上述技术问题，本发明的技术方案如下：

一种根据用户间社会信誉度选择传感用户的频谱共享方法，包括以下步骤：

步骤S1：构建基于用户间社会信誉度的频谱共享模型的认知网络，所述的认知网络由主用户、次用户及传感系统组成，主用户由主发送方T1与主接收方R1构成，次用户由次发送方T2与次接收方R2组成，将主用户和次用户统称为共享用户SDU，传感系统中的传感节点由共享用户所在范围内若干不需要与主用户共享频谱的其他次用户组成，将其称为节点用户NU；

步骤S2：判断认知网络环境下其他非共享用户分别与主、次用户间的社会信誉度；在开始频谱共享之前对节点用户分别赋予一个社会信誉度C_in∈[0,1),i＝1,2；n＝1,2,…,n，其中i表示主用户或次用户，n表示n个传感节点用户，C_in越大表示共享用户对该节点用户的信任度越高，此时的节点用户检测到的环境信息失真度越小；

步骤S3：根据主、次用户间的社会信誉度选定传感节点用户，建立共享用户与节点用户间的社会信誉度关系图，确定出各个节点的信誉度值，共享用户根据各个节点的信誉度值选择作为传感节点的节点用户；

步骤S4：次用户实时向被选择作为传感节点的节点用户查询其感知到的主用户发送功率的值；并选定合适的发送功率；次用户按照选定的功率接入主用户频段开始信息的发送，并调整自身发送功率；

步骤S5：使用深度强化学习网络多次迭代，对次用户进行训练；

步骤S6：训练结束，测试次用户，使得次用户能在主用户的频段上快速调整自身发送功率完成信息发送。

优选的，在步骤S4中次用户根据自身信噪比阈值δ₂及主用户信噪比阈值δ₁选定合适的发送功率。

优选的，步骤S4的具体步骤如下：

共享用户QoS分别根据信噪比值(SINR)判断，设定SINR阈值δ_i，T1、T2的功率高于δ_i时发送成功：

SINR_i≥δ_i (3)

其中,

分别为主用户与次用户的传输功率，h_ij是发送方T_i到接收方R_j的信道增益，w为接收的噪声功率，定义主用户可调整的发送功率空间范围为

主用户为满足QoS有自定义的功率控制策略：

该策略下主用户在每个时间点k采用逐步更新的方式控制发送功率，当SINR₁(k)≤δ₁且

时为保证QoS增加发送功率；当SINR₁(k)≥δ₁且

为节省能源消耗而减小发送功率；其他情况保持原来功率；

为k时间点下发送信息时对k+1时SINR的预测，记为：

根据用户所在环境选择n个用户作为传感节点以获取RS信息，定义P_n(k)为传感节点n在第k个时间点下接受到的功率：

P_n(k)＝Φ_n(p)+γ(a) (8)

其中Φ_n(p)为理想状态下传感节点检测到的环境信息，p^p(k)，p^s(k)分别作为主用户与次用户的发射功率：

φ_n(p)＝p^pg_1n+p^sg_2n (9)

节点用户n对感知环境产生的干扰表示为:γ_n＝q_ng_nm，其中q_n是节点用户n的发送功率，g_nm是传输损失g_nm＝(μ/4πd)²，μ表示信号波长，d为两节点用户间的距离；

由于环境信息信息是随时间不断变化的，因此观测到的状态空间S是大规模连续的值，因此在使用深度强化学习网络完成频谱共享时，用传感节点接收到的环境状态信息作为次用户的状态量，将k时刻下状态空间记作s(k)＝{P₁(k),P₂(k),…,P_n(k)},在状态S下，次用户从集合

中选择一个发送功率进行数据的传输；定义动作空间为

定义主、次用户都成功发送数据时获得奖励r，否则奖励为-r；

主用户每次传输结束后向监测器发送传输结果信息，次用户通过访问监测器查询主用户是否传输成功。

优选的，步骤S5的具体步骤如下：

使用深度强化学习网络完成多个次用户信道选择的动态频谱接入，将循环网络的记忆功能与深度强化学习网络的控制决策能力结合对动态频谱接入策略进行研究；功率控制方面，使用迁移学习减少迭代次数并在深度强化网络下调节功率以实现“服务质量QoS”与“经验质量QoE”的优化，使用卷积神经网络以频谱图谱为输入，提取信道状态信息后使用Q函数选择最优发射频率达到抗干扰的频谱分配；

假设目标状态为s′，次用户可根据目标状态调节传输功率，但由于数据传输的不连续性，目标状态可能丢失，此时需要次用户根据学习到的策略进行传输；在学习功率控制策略的过程中，深度Q网络DQN的输入状态随用户间的社会关系变化，因此在开始训练前需构建用户间社会关系图决定状态量。

优选的，在训练数据时采用小批量梯度下降的方式更新权重，为打破状态之间的相关性引入经验池机制，将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值，当存储到一定数量时从D中随机抽取规定批次的样本训练网络，计算损失函数(13)，

其中，Q(K)是根据(13)计算出的Q函数的目标值，

为神经网络逼近的估计值,N为迭代次数，θ为神经网络权重。

与现有技术相比，本发明技术方案的有益效果是：

本发明将用户间的物理关系与社会关系相结合，构建社会关系网对用户间的频谱共享加以辅助，提高频谱共享效率，减小接收方功率损耗。并且使用深度强化学习处理复杂认知环境下大量的用户信息，使用户能够快速处理获得的信息，完成最优控制决策，实现智能的频谱共享。

附图说明

图1为本发明的流程图。

图2为基于用户间社会信誉度的频谱共享模型的认知网络的结构图。

图3为共享用户与节点用户间社会关系图。

图4为深度强化学习的过程图。

图5为共享用户与节点用户间不同信誉度对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1～图4所示，一种根据用户间社会信誉度选择传感用户的频谱共享方法，包括以下步骤：

步骤S1：如图2所示，构建基于用户间社会信誉度的频谱共享模型的认知网络，所述的认知网络由主用户、次用户及传感系统组成，主用户由主发送方T1与主接收方R1构成，次用户由次发送方T2与次接收方R2组成，将主用户和次用户统称为共享用户SDU，传感系统中的传感节点由共享用户所在范围内若干不需要与主用户共享频谱的其他次用户组成，将其称为节点用户NU；

步骤S2：判断认知网络环境下其他非共享用户分别与主、次用户间的社会信誉度；如图3所示，在开始频谱共享之前对节点用户分别赋予一个社会信誉度C_in∈[0,1),i＝1,2,n＝1,2,…,n，其中C_in越大表示共享用户对该节点用户的信任度越高，此时的节点用户检测到的环境信息失真度越小；

步骤S5：使用深度强化学习网络多次迭代，对次用户进行训练，如图4所示；

作为一个优选的实施例，在步骤S4中次用户根据自身信噪比阈值δ₂及主用户信噪比阈值δ₁选定合适的发送功率。

作为一个优选的实施例，步骤S4的具体步骤如下：

SINR_i≥δ_i (3)

其中,

主用户为满足QoS有自定义的功率控制策略：

时为保证QoS增加发送功率；当SINR₁(k)≥δ₁且

为节省能源消耗而减小发送功率；其他情况保持原来功率；

为k时间点下发送信息时对k+1时SINR的预测，记为：

P_n(k)＝Φ_n(p)+γ(a) (8)

φ_n(p)＝p^pg_1n+p^sg_2n (9)

中选择一个发送功率进行数据的传输；定义动作空间为

作为一个优选的实施例，步骤S5的具体步骤如下：

作为一个优选的实施例，在训练数据时采用小批量梯度下降的方式更新权重，为打破状态之间的相关性引入经验池机制，将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值，当存储到一定数量时从D中随机抽取规定批次的样本训练网络，计算损失函数(13)，

其中，Q(K)是根据(13)计算出的Q函数的目标值，

为神经网络逼近的估计值,N为迭代次数，θ为神经网络权重。

实施例2

如图5所示，本实施例中，在研究社会信誉度对频谱共享成功率的影响时选择3组共享用户与节点用户间的信誉度均值进行50000次迭代实验。实验结果表明：当主共享用户与传感节点用户间信誉度均值较高即C₁＝0.9 C₂＝0.8，此时次用户学习成功率仅在20000步左右就收敛至1且基本保持稳定，随着共享用户与节点用户间的社会信誉度值的下降，学习成功率收敛逐渐变得不稳定，当信誉度值下降至C₁＝0.6 C₂＝0.4时，成功率虽然最终仍能达到1但收敛速度下降且收敛后仍有振荡，当关系值低至C₁＝0.2 C₂＝0.4时，成功率在仅在0.8～1间振荡。由实验结果可得，共享用户对节点用户的信誉的值越高，节点用户检测信息的失真度越小，此时次用户共享频谱的成功率高且收敛速度快。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种根据用户间社会信誉度选择传感用户的频谱共享方法，其特征在于，包括以下步骤：

步骤S6：训练结束，测试次用户，使得次用户能在主用户的频段上快速调整自身发送功率完成信息发送；

步骤S4的具体步骤如下：

共享用户QoS分别根据信噪比值判断，设定信噪比值阈值δ_i，T1、T2的功率高于δ_i时发送成功：

SINR_i≥δ_i (3)

其中,

主用户为满足QoS有自定义的功率控制策略：

时为保证QoS增加发送功率；当SINR₁(k)≥δ₁且

为节省能源消耗而减小发送功率；其他情况保持原来功率；

为k时间点下发送信息时对k+1时SINR的预测，记为：

P_n(k)＝Φ_n(p)+Υ(a) (8)

φ_n(p)＝p^pg_1n+p^sg_2n (9)

由于环境信息是随时间不断变化的，因此观测到的状态空间S是大规模连续的值，因此在使用深度强化学习DRL完成频谱共享时，用传感节点接收到的环境状态信息作为次用户的状态量，将k时刻下状态空间记作s(k)＝{P₁(k),P₂(k),…,P_n(k)},在状态S下，次用户从集合

中选择一个发送功率进行数据的传输；定义动作空间为

2.根据权利要求1所述的一种根据用户间社会信誉度选择传感用户的频谱共享方法，其特征在于，在步骤S4中次用户根据自身信噪比阈值δ₂及主用户信噪比阈值δ₁选定合适的发送功率。

3.根据权利要求2所述的一种根据用户间社会信誉度选择传感用户的频谱共享方法，其特征在于，步骤S5的具体步骤如下：

使用深度强化学习网络完成多个次用户信道选择的动态频谱接入，将循环网络的记忆功能与深度强化学习网络的控制决策能力结合对动态频谱接入策略进行研究；功率控制方面，使用迁移学习减少迭代次数并在深度强化网络下调节功率以实现服务质量QoS与经验质量QoE的优化，使用卷积神经网络以频谱图谱为输入，提取信道状态信息后使用Q函数选择最优发射频率达到抗干扰的频谱分配；

4.根据权利要求3所述的一种根据用户间社会信誉度选择传感用户的频谱共享方法，其特征在于，在训练数据时采用小批量梯度下降的方式更新权重，为打破状态之间的相关性引入经验池机制，将每一次迭代后的信息<s,a,r,s′>存入经验池D作为待选样本值，当存储到一定数量时从D中随机抽取规定批次的样本训练网络，计算损失函数，

其中，Q(K)是根据损失函数计算出的Q函数的目标值，

为神经网络逼近的估计值,N为迭代次数，θ为神经网络权重。