CN113395757B

CN113395757B - 基于改进回报函数的深度强化学习认知网络功率控制方法

Info

Publication number: CN113395757B
Application number: CN202110647638.4A
Authority: CN
Inventors: 汤春瑞; 张维思; 张音捷; 李一兵; 郝向宁; 栾磊; 张驰; 贺平
Original assignee: Air Force Communication Sergeant School Of Pla
Current assignee: Air Force Communication Sergeant School Of Pla
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-06-30
Anticipated expiration: 2041-06-10
Also published as: CN113395757A

Abstract

一种基于改进回报函数的深度强化学习认知网络功率控制方法，属于认知无线电技术领域，为了解决增加频谱的利用率的问题，要点是建立两个相同结构的神经网络；次用户通过辅助传感节点与环境互动进行学习，并基于改进后的回报函数取得细致反馈，最终获得序列样本，而后将序列样本存储至记忆库中；记忆库的存储达到额度时，对记忆库中样本进行均匀抽样，表现神经网络目标为最小化表现网络输出与目标网络输出的平方差，次用户进行新的互动之后，最新的序列样本会取代最旧的序列样本；每经过一定次数迭代，将表现网络参数赋予目标网络；完成所有迭代循环后获得完整神经网络模型，效果是次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。

Description

基于改进回报函数的深度强化学习认知网络功率控制方法

技术领域

本发明属于认知无线电技术领域，具体涉及基于改进回报函数的深度强化学习认知网络功率控制。

背景技术

随着5G技术和物联网技术的快速发展，新技术对于频谱资源的需求量急速增多。而现行静态分割，独占式的频谱管理规则过于限制频谱接入机会，严重阻碍了无线通信网络的部署和运行。因此，如何提高频谱资源的利用率成为目前研究重点。认知无线电于1999由John Mitola提出，通过频谱复用的方式，在保证主用户正常使用频段的前提下，次用户动态地使用频谱，提高频谱资源的利用率。

在主次用户频谱复用下，由于主用户发射功率并非一成不变，极有可能随着时间环境进行调整以满足自己的通信需求，因此次用户需要在未知主用户功率策略的前提下，短时间内调整自己的发射功率来同时保证主用户与自己的顺利传输。深度强化学习可以在未知主用户功率策略的条件下，通过次用户与环境动态交互，从过往经验中进行学习。然而在深度学习中经常遇到由于回报函数设计不合理而造成的稀疏回报问题，进而导致学习速率慢，学习效果差，最终难以收敛，在认知网络中功率控制体现的是，次用户无法在规定的时间内调整至合适的功率，最终难以实现有效传输，甚至影响主用户的传输。因此针对主次用户复用的功率控制问题设计合理的回报函数也十分重要。

现有技术中，公开号为CN102333362A提出了一种基于分布式价格算法的认知无线电功率控制的方法，但是其需知主用户发射功率，以及次用户在不对主用户造成干扰的最大发射功率等先验信息。公开号CN107947878A提出了一种基于能效和谱效联合优化的认知无线电功率分配的方法，然而其设定主用户所能忍受的最大干扰功率不变，实际环境中随着主用户功率的变化，主用户对干扰的容忍程度也会变化。Li Xingjian等人发表于《IEEEAccess》的“Intelligent Power Control for Spectrum Sharing in CognitiveRadios:ADeep Reinforcement LearningApproach”一文中次用户通过强化学习动态调整发射功率保证双方成功传输，但是其回报函数设计存在不足，容易造成稀疏回报问题。

发明内容

针对功率控制问题，本发明的提出一种基于改进回报函数的深度强化学习认知网络功率控制方法，对回报函数进行合理优化设计，次用户能够在未知主用户功率策略的前提下，通过深度强化学习与环境进行互动进行学习，最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输，最终增加频谱利用率。

本发明的目的是这样实现的：一种基于改进回报函数的深度强化学习认知网络功率控制方法，步骤如下：

步骤1：系统环境与两个神经网络参数初始化，两个神经网络是表现神经网络和目标神经网络；

步骤2：次用户通过辅助传感器获得环境状态，次用户通过辅助传感节点与环境互动进行学习，并根据改进回报函数取得相应回报，从而获得序列样本，并将序列样本存储至记忆库；

步骤3：从记忆库中均匀采样获得序列样本用于训练表现神经网络参数，表现神经网络目标为表现神经网络输出与目标神经网络输出的平方差最小化；

步骤4：每经过若干轮迭代，序列样本达到记忆库存储量，将表现神经网络的参数赋予目标神经网络；

进行下一阶段学习：次用户通过辅助传感节点与环境产生新互动进行学习，根据改进回报函数取得相应回报，从而获得新的序列样本，并将新的序列样本存储至记忆库，最新的序列样本取代最旧的序列样本；

步骤5：循环执行步骤3和步骤4，直至完成所有循环次数后，获得完整神经网络模型。

进一步的，步骤1具体包括：

步骤1.1：神经网络初始化包括两个网络，表现神经网络的参数为θ与目标神经网络的参数为θ^-，目标神经网络与表现神经网络结构相同。

进一步的，目标神经网络与表现神经网络，其网络结构包含三个隐藏层，其中一个网络的神经元数目为100，激活函数为线性整流函数；另一个网络的神经元数目为200，激活函数为双曲正切函数。

进一步的，步骤2具体包括：

步骤2.1：次用户通过辅助传感器来获得环境状态s(k)，

其中

表示第n个辅助传感器接受到的功率；

步骤2.2：次用户与环境互动具体为：次用户在环境状态是s(k)下，通过表现神经网络获得L₂个输出，其中L₂为次用户可选择的功率数目，其为一个有限集合；

次用户以ε_k的概率选择在L₂个输出中值最大的功率作为发射功率，

或者

次用户以(1-ε_k)的概率随机选择发射功率，

设次用户选择的发射功率为a(k)，其中ε_k初始为0，随着时隙数不断增大，在达到时隙数一定后不变；

步骤2.3：根据回报函数获得回报r(k)，并达到下一个状态s(k+1)，回报函数为：

其中SINR₁和SINR₂分别为主用户和次用户的信干噪比，η₁和η₂为传输门限，只有SINR大于传输门限才能进行数据传输；T为单个时隙次用户调整发射功率的最大次数；

其中

a＝10表示双方传输成功时次用户获得正反馈；

b＝-10表示双方传输失败次用户获得负反馈；

c＝0.01表示虽然次用户传输失败，但主用户传输成功，依然给予少量正反馈，相较于传输成功的正反馈，数值较小，用于保护主用户；

d＝-0.01表示虽然次用户传输失败，但是主用户传输失败，给予少量负反馈惩罚，相较于传输失败的负反馈，数值较小，也用于保护主用户；

因为信道传输时间有限，若在规定次数T内次用户未调整至使得双方成功传输功率，也给予负反馈惩罚，其值等于双方传输失败的负反馈。

进一步的，

进一步的，步骤3目标神经网络输出Q_target为：

其中表现神经网络其参数为θ、目标神经网络其参数为θ^-、γ为回报延迟，

表现网络训练的目标函数为：

其中，Q(s(k),a(k)；θ)为表现神经网络输出。

本发明具有的有益效果：本发明中次用户首先基于改进后的回报函数与环境交互获得序列样本。改进后的回报函数使得在主用户功率不断变化的时候，次用户每个发射功率都有细致的正负反馈，以此避免稀疏回报问题。本发明中次用户能够在未知主用户功率策略的前提下，基于深度强化学习通过与环境进行互动进行学习，并且针对功率控制问题对回报函数进行合理优化设计，最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。

附图说明

图1为本发明方法流程图；

图2为本发明提出的改进回报函数和传统回报函数的每五个时隙平均收敛次数的比较，为了使仿真结果更加清晰，图2经过平滑化处理。

图3为本发明提出的改进回报函数和传统回报函数的每五个时隙平均回报的比较。

具体实施方式

下面结合附图和具体实施例对本文作进一步具体说明：

如图1所示，本发明基于改进回报函数的深度强化学习认知网络功率控制，方法流程图包括以下步骤：

步骤1：系统环境与神经网络参数初始化。

步骤1.1：初始化分为环境初始化和神经网络初始化两个部分。其中环境初始化部分包括设置辅助传感器位置，其随机分布于环境内；初始化主次用户发射功率，在各自功率集合P₁和P₂随机选择作为初始发射功率。神经网络初始化包括两个网络，表现神经网络其参数为θ与目标神经网络其参数为θ^-，目标神经网络与表现神经网络结构相同，其中包含三个隐藏层，其神经元个数目和激活函数分别为100，线性整流函数；100，线性整流函数；200，双曲正切。

步骤2：次用户通过辅助传感节点与环境互动进行学习，根据改进回报函数获得相应回报，获得序列样本d(k)＝{s(k),a(k),r(k),s(k+1)},并将序列样本存储至记忆库D。

步骤2.1：次用户通过辅助传感器获得环境状态s(k)。

其中

表示第n个辅助传感器接受到的功率。p₁(k)和p₂(k)分别代表主用户和次用户在第k个时隙的发射功率。w_n(k)表示在第n个辅助感知器在第k个时隙收到的均值为0，方差为/>

高斯白噪声。g_1n和g_2n分别代表第n个辅助传感器到主用户和次用户之间的路径衰落，则路径衰落g_in为

对于公式(2)中，λ为信号波长,d_in为第n个辅助传感器到主用户或次用户的距离。

环境状态s(k)表示为：

步骤2.2：次用户与环境互动具体为：次用户在环境状态是s(k)下，通过表现神经网络获得L₂个输出，其中L₂为次用户可选择的功率数目，其为一个有限集合。次用户以ε_k的概率选择在L₂个输出中值最大的功率作为发射功率，或者以(1-ε_k)的概率随机选择发射功率，设其选择的发射功率为a(k)。

其中ε_k初始为0，随着时隙数不断增大，并且达到一定时隙数后不变。

步骤2.3：根据回报函数获得回报r(k)，并达到下一个状态s(k+1)。其中回报函数为：

其中SINR₁和SINR₂分别为主用户和次用户的信干噪比，η₁和η₂为传输门限，只有SINR大于传输门限才能进行数据传输。T为单个时隙次用户调整发射功率的最大次数。其中a＝10表示双方传输成功时次用户获得正反馈；b＝-10表示双方传输失败次用户获得负反馈；c＝0.01表示虽然次用户传输失败，但主用户传输成功，依然给予少量正反馈，用于保护主用户；d＝-0.01表示虽然次用户传输失败，但是主用户传输失败，给予少量负反馈惩罚，也用于保护主用户；因为信道传输时间有限，若在规定次数T内次用户未调整至使得双方成功传输功率，也给予负反馈惩罚，其值等于传输失败的负反馈。

其中SINR由下式计算获得：

式中p₁,p₂分别表示主次用户的发射功率，h_ij表示主(次)用户到次(主)用户之间的信道增益，N_i表示用户收到的噪声功率。

步骤2.3：由上述步骤获得序列样本d(k)＝{s(k),a(k),r(k),s(k+1)},并将序列样本存储至记忆库D。

步骤3：从记忆库D中均匀采样获得N_batch个样本用于训练表现神经网络参数，表现神经网络目标为表现神经网络输出与目标网络输出的平方差最小化。

步骤4：对于上述步骤，每经过M轮迭代，序列样本达到记忆库D存储量，将表现神经网络的参数赋予目标神经网络，并进行下一阶段的学习。

在下一阶段学习中，通过步骤2.1-2.3，次用户与环境进行新的互动学习之后，最新的序列样本会取代最旧的序列样。即只有序列样本达到记忆库存储量时进入下一阶段开始学习，并且进行新的互动后，会产生新的序列样本，使用最新的序列样本代替最旧的序列样本，保证学习样本的时效性。

其中表现网络训练的目标函数为：

其中Q_target，Q(s(k),a(k)；θ)分别为目标网络输出和表现神经网络输出。目标网络输出可由下式表示：

其中γ为回报延迟，用于控制历史回报对下一步动作的影响；Q(s(k+1),a(k+1)；θ^-)为目标神经网络输出，目标神经网络输出后经过公式(8)计算后作为最后的目标网络输出。

该步骤中，定期更新目标网络参数减少模型本身波动性，使得模型能够更快收敛。

步骤5：完成所有循环次数后，获得完整神经网络模型。

在一种方案中，基于改进回报函数的深度强化学习认知网络功率控制方法的具体参数设置为：

主次用户功率集合分别为P₁＝{4.0,4.5,5.0，...，8.0}和P₂＝{1.0,1.5,2.0，...，6.0}，单位为W；主用户与次用户受到的噪声功率为N₁＝N₂＝0.05W.为了不失一般性，表示主(次)用户到次(主)用户之间的信道增益h_ij设为1.主用户与次用户SINR门限分别为η₁＝1.2和η₂＝0.7。辅助传感器数量为10，其至主次用户的距离服从为米的均匀分布。

表现网络其参数为θ与目标网络其参数为θ^-，目标网络与表现网络结构相同，其中包含三个隐藏层，其神经元个数目和激活函数分别为1100，线性整流函数；100，线性整流函数；200，双曲正切。线性整流函数函数在输入小于0时取0，否则输出原数值。记忆库D的容量为400，进行抽样学习的N_batch＝256。整体时隙循环数为1000，单个时隙内能尝试的最多次数T为35。

从图2改进回报函数和传统回报函数的每五个时隙平均收敛次数的比较中可以看出在迭代500次后，本发明提出的改进回报函数比传统回报函数在单个时隙内达到收敛的步数更少；从图3改进回报函数和传统回报函数的每五个时隙平均回报的比较中可以看出，在迭代500次后，本发明提出的改进回报函数已经收敛，而传统回报函数还存在较大的波动性。

综上，本发明提供的一种基于改进回报函数的深度强化学习认知网络功率控制方法，它涉及认知无线电、智能处理和神经网络三个领域。它解决了现有认知无线电功率控制中次用户次用户传输对主用户造成干扰的问题，并且针对强化学习在功率控制领域的应用提出改进后回报函数，解决了回报稀疏的问题，进而提高学习速率和最后的学习效果，实现了次用户在未知主用户功率策略的前提下，通过智能调整自己的发射功率，最终保证两者都能顺利进行数据传输。本发明包括：建立两个相同结构的神经网络，表现网络和目标网络；次用户与环境互动获得，基于改进后的回报函数取得细致反馈，最终获得序列样本，而后将序列样本存储至记忆库中；记忆库的存储达到额度时，对记忆库中样本进行均匀抽样，次用户进行新的互动之后，最新的序列样本会取代最旧的序列样本；抽样后的样本用于表现神经网络训练，表现神经网络目标为最小化表现网络输出与目标网络输出的平方差；每经过一定次数迭代，将表现网络参数赋予目标网络；完成所有迭代循环后获得完整神经网络模型。本发明有着更广泛的使用范围，次用户能够快速智能调整自身发射功率，减少认知无线电系统中次用户对主用户的干扰，使得双方都能成功进行数据传输。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。