CN112383965B

CN112383965B - 基于drqn和多传感器模型的认知无线电功率分配方法

Info

Publication number: CN112383965B
Application number: CN202011204883.XA
Authority: CN
Inventors: 高玉龙; 原子鸿; 王孝; 陈鹏
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2023-04-07
Anticipated expiration: 2040-11-02
Also published as: CN112383965A

Abstract

基于DRQN和多传感器模型的认知无线电功率分配方法，涉及认知无线电中的频谱共享技术领域。本发明是为了解决现有对认知无线电中频谱的分配和共享所采用的方法没有考虑频谱资源之间异构性的问题。本发明在环境中安置多个传感器，将传感器感知到的环境数据作为DRQN网络的环境状态集，利用深度强化学习中的DRQN网络，结合环境模型中多个传感器传出的信息，根据通信需求为网络中的用户制定功率策略。

Description

基于DRQN和多传感器模型的认知无线电功率分配方法

技术领域

本发明属于认知无线电中的频谱共享技术领域。

背景技术

电磁波是无线通信系统中通信的载体，多数国家采用固定的频谱分配策略对其进行管理和分配，保证不同的无线通信系统之间不会产生干扰。固定的频谱分配策略是将电磁波中适用于无线通信的频谱资源划分为许多不同的频段，然后分别以独占的方式分配给不同用途的通信业务或无线通信系统。获得使用权的用户被称为授权用户，对该频段拥有长期所有权，任何用户不得使用该频谱资源。由于这种静态的频谱分配策略无法应对频谱资源被空闲用户长期占用导致的浪费问题，认知无线电技术应运而生。

在认知无线电中频谱的分配和共享是一项重要技术。所谓共享，就是指网络中的用户可以以主用户加次用户的模式完全平等地享用共同的频谱资源。在共享的过程中，要制定相应的规则保证网络中所有用户的通信不受干扰，并在一定程度上满足各自的通信需求，这就需要网络的管理者寻找一种最优算法，在干扰受限的条件下为用户选择最合适的频段和功率接入信道。

目前资源共享使用的主要技术有基于图论、基于频谱交易、基于智能优化算法的分配方法。但这些方法没有考虑频谱资源之间的异构性，应用场景也比较简单。

发明内容

本发明是为了解决现有对认知无线电中频谱的分配和共享所采用的方法没有考虑频谱资源之间异构性的问题，现提供基于DRQN和多传感器模型的认知无线电功率分配方法。

基于DRQN和多传感器模型的认知无线电功率分配方法，移动网络中设置有N个功率传感器，N为正整数，所述认知无线电功率分配方法包括以下步骤：

步骤一：利用N个功率传感器采集k时刻移动网络中目标信道上的信号功率，将N个功率传感器获得的信号功率构成k时刻环境状态集，并将该环境状态集输入到DRQN网络中，

步骤二：利用贪心策略和奖励函数计算k时刻DRQN网络的动作值和奖励值，

步骤三：利用动作值和奖励值更新DRQN网络的Q函数值和损失函数值，

步骤四：判断更新后的DRQN网络是否完成训练，是则执行步骤五，否则使k＝k+1，然后返回步骤一；

步骤五：利用N个功率传感器采集当前时刻移动网络中目标信道上的信号功率，并将该信号功率作为环境状态向量输入至训练完成的DRQN网络中，

步骤六：选取DRQN网络获得的所有Q函数值中最大值所对应的动作值作为当前时刻的DRQN网络输出，

步骤七：判断移动网络中认知无线电功率分配是否完成，是则结束，否则返回步骤五。

上述步骤一所述k时刻的环境状态集表达式如下：

其中，

为第f个功率传感器在k时刻采集的信号功率，f＝1,2,...,N，

其中，P₁(k)为当前用户的信号功率，P₂(k)g_2f+...+P_i(k)g_if为除当前用户外其它用户的信号总功率，i为用户总数，w_f(k)为目标信道上的噪声功率，g_1f为当前用户到第f个功率传感器的信号增益，

其中，λ为波长，d_1f为第f个功率传感器到当前用户的距离。

上述步骤二所述奖励值表达式如下：

其中，c为正反馈奖励，SINR_i(k+1)为第i个用户的信干噪比，η_i为第i个用户能够正常通信时的最低信噪比，

其中，h_ii为第i个用户在信道上通信的信道增益，h_ji为其他用户和第i个用户产生干扰时的信道增益，p_i和p_j分别为第i个用户和其他用户的通信功率，β为噪声功率。

上述步骤三中根据下式更新Q函数值Q(s,a)：

Q(s,a)＝Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]

其中，r(s,a)为在s环境下执行a动作所获得的奖励，γ为折损函数，α为学习率，maxQ(s′,a′)为k+1时刻环境变为s′、动作选用a′时Q函数值的最大值。

上述步骤三中根据下式更新损失函数值L(θ)：

L(θ)＝E{[r(s,a)+γmaxQ(s′,a′)-Q(s,a,θ)]²}，

其中，θ为DRQN网络的权重，E{}为期望函数。

上述步骤四判断更新后的DRQN网络是否完成训练的方法为：DRQN网络是否收敛，是则完成训练，否则未完成训练；或更新是否到达最大迭代次数，是则完成训练，否则未完成训练。

上述步骤七判断认知无线电功率分配是否完成的方法为：DRQN网络中所有用户是否均被满足，是则认知无线电功率分配完成，否则认知无线电功率分配未完成；或分配否到达最大迭代次数，是则认知无线电功率分配完成，否则认知无线电功率分配未完成。

在上述步骤七之后还包括验证步骤：计算分配成功率和平均步数，当成功率或平均步数不能够满足要求时，返回步骤一。

本发明所述的基于DRQN和多传感器模型的认知无线电功率分配方法，在环境中安置多个传感器，将传感器感知到的环境数据作为DRQN网络(Deep Recurrent Q-LearningNetwork，递归深度Q网络)的环境状态集，利用深度强化学习中的DRQN网络，结合环境模型中多个传感器传出的信息，根据通信需求为网络中的用户制定功率策略，并利用损失函数、成功率、平均步数作为衡量功率分配结果的指标。

仿真结果表明，在多传感器模型下，经过多次迭代，损失函数下降到了个位数字，成功率可以达到99％左右，满足所有用户最低信噪比要求的平均步数稳定在2.5步左右，同随机选择功率的方案相比，具有比较好的表现。

附图说明

图1为多传感器位于移动网络中的模型示意图；

图2为损失函数曲线图；

图3为成功率曲线图；

图4为平均步数曲线图；

图5为基于DRQN和多传感器模型的认知无线电功率分配方法的流程图。

具体实施方式

强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后，环境将会转换到一个新的状态。对于该新的状态，环境会给出奖励信号(正奖励或负奖励)。随后，智能体根据新的状态和环境反馈的奖励，按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。

事实上，强化学习就是人与环境交互的一种模型化表示。在每个时间点t，智能体都会从可选动作集合A中选择一个动作a_t执行。这个动作集合A可以是连续的，也可以是离散的。智能体在环境中的任务目标是获取尽可能多的奖励。在每个时间点，智能体都会根据当前的观察来确定下一步的动作，观察的数据就是智能体所处的状态值。因此，状态和动作之间存在着某种映射的关系，一个状态可以对应一个动作，或者对应不同的状态概率(强化学习中往往使用概率来表示，概率最高的就是最值得执行的动作)。状态与动作的关系其实就是输入与输出的关系，把这种从状态到动作的过程称之为策略，用π来表示。强化学习的最终任务就是找到这样一个最优策略：在这个策略下，智能体知道在任意一个状态下采取怎样的动作能够使任务的累计奖励最大。

本实施方式中的强化学习策略使用马尔科夫决策过程(MDP)来进行数学建模。在这种模型下，假设下一个状态仅取决于当前的状态和当前的动作。既然一个状态对应一个动作或者动作的概率，则在MDP下，有了动作便确定了下一个状态，这就意味着可以用一个确定的值来描述每个状态，并由此来判断这个状态是好的状态还是不好的状态。

显然，状态的好坏其实等价于为未来回报的期望。因此能够使用回报(Result)来描述某个时刻t的状态将具备的回报；使用贝尔曼方程来描述当前状态的好坏。贝尔曼方程表明，当前状态的好坏可以用在这个状态下所获得的回报的期望值来描述，且这个好坏值可以通过迭代来求得。

在大多数情况下使用动作价值函数来描述在某个状态下采取某个动作的好坏。原理和上面的状态价值函数一样，动作价值函数通过计算在某个状态下采用某个动作所能获得奖励的期望值来描述在该状态下采用这个动作的好坏程度。显然，在计算出当前状态下所有动作对应的动作价值函数值Q^π(s,a)后，便可以把那个值最大的动作定义为最优动作：

Q*(s,a)＝maxQ^π(s,a)

此外，为了能够根据实际情况及时地更新Q值，采用Q-learning算法更新：

Q(S_t,A_t)←Q(S_t,A_t)+α(R_t+1+λmax_aQ(S_t+1,a)-Q(S_t,A_t))

如上所示，在强化学习的过程中，智能体便可以根据Q-learning算法原理、结合根据实际情况制定的奖励函数更新Q表。

当环境状态集变得巨大甚至无限时，强化学习便无法通过反复尝试来构造出完整的Q表，换言之，强化学习无法在这种环境下生成一个具体的价值函数。深度强化学习技术应运而生，它是强化学习和深度学习理论结合的产物。深度学习算法使用神经网络来模拟一些不方便使用数学表达式表达的函数。因此，深度神经网络可以通过不断地调参找到在巨大状态集下的价值函数，这就是深度强化学习技术。相对于强化学习中的Q-learning算法，深度强化学习有与之对应的DQN(Deep Q-learning)算法。在DQN中把目标Q值作为标签，使用神经网络来使当前Q值逼近目标Q值。网络的损失函数定义如下：

其中，r+γmax_a′Q(s′,a′,w)便是目标Q值。此时便可以利用反向梯度下降算法来更新网络中的权重参数，直到网络收敛。

DRQN网络是DQN网络的改进，近年来由于在处理POMDP(Partially ObservableMarkov Decision Process，部分观测马尔科夫过程)问题上的优越表现受到学者们的高度关注。DQN在处理POMDP过程时有天然的局限性。以游戏环境举例，DQN网络获取的每一帧图像之间其实都有关联性，但由于DQN网络使用的是全连接神经网络，无法利用这些图像之间的关联信息，因此DQN往往需要使用十分完整的观测信息，以及很大的内存来存储经验数据。换言之，既然用户所处的环境是不完全观测的，那么顺理成章地，就让用户在环境中“多观察几次”，对多次观察的结果之间的联系进行分析，就可以很好地适应这种POMDP过程了。DRQN网络之所以能很好地解决POMDP问题，就是因为其在全连接网络层之前接入了一层LSTM层。由于LSTM层具有记忆功能，可以从相关联的信息中提取到有用的部分，在一定程度上可以有效解决POMDP过程中的不完全观测问题。

本实施方式提出的方法就是利用深度强化学习中的DRQN网络，将动态的网络环境建模为一个多传感器模型，以用户在网络中的信干噪比为基础设置奖励函数，寻找用户最优的功率接入策略，提高用户在网络中通信的质量。本实施方式是基于深度强化学习技术和认知无线电理论实现的，具体如下：

具体实施方式一：参照图1至图5具体说明本实施方式，本实施方式所述的基于DRQN和多传感器模型的认知无线电功率分配方法，采用DRQN+多传感器模型。假设在某个移动网络中存在着N(正整数)个人为放置的功率传感器能够感知到目标信道上的信号功率，同时环境中有I对用户通信链路。这些传感器放置在网络中的不同位置，和网络中所有用户的距离各不相同，因此得到的功率数据也各不相同，环境对于各个传感器来说，具有部分感知的性质，用户需要根据N个传感器得到的部分感知数据作为环境状态，选择自己的动作，由此将环境构建为一个部分感知马尔科夫过程(POMDP过程)。

POMDP过程，就是要从数据中学习到一种策略，在这种策略指导下，用户根据当前的环境状态能够选取收益最大的动作。在这个模型中，智能体要学会在多个传感器结果组成的环境状态中，选择多大的通信功率才能获得最大的收益。定义折损收益为：

其中，γ为折损函数，T′表示时间节点。则根据QoS要求，当前用户需要学习策略π，使得更新策略为：

假设环境中除了智能用户以外，其他用户为非智能用户，它们的功率随时间变化情况满足DCPC(Distributed Constrained Power Control)算法，它们的功率更新策略为：

其中，SINR_o(k)表示用户在k时刻通信的信干噪比，ηo表示用户的最低信噪比门限，D()表示一种离散算法，可以选取

和可选功率集

中差值的绝对值最小的值。

基于DRQN和多传感器模型的认知无线电功率分配方法具体步骤如下：

步骤一：利用N个功率传感器采集k时刻移动网络中目标信道上的信号功率，将N个功率传感器获得的信号功率构成k时刻环境状态集，并将该环境状态集输入到DRQN网络中，所述k时刻的环境状态集表达式如下：

其中，

为第f个功率传感器在k时刻采集的信号功率，f＝1,2,...,N，

其中，λ为波长，d_1f为第f个功率传感器到当前用户的距离。

每个传感器都只能得到信道上所有用户功率的总和，而无法区分信道上当前用户和其他用户各自的通信功率。为了简化，将P₂(k)g_2f+...+P_i(k)g_if表示为P_o(k)g_of，则有：

假设当前用户在目标频段上共有M个功率可以选择，那么智能体的动作状态集便是

步骤二：利用贪心策略和奖励函数计算k时刻DRQN网络的动作值和奖励值，所述奖励值表达式如下：

其中，c为正反馈奖励，SINR_i(k+1)为第i个用户的信干噪比，η_i为第i个用户能够正常通信时的最低信噪比，i为用户总数，

步骤三：利用动作值和奖励值更新DRQN网络的Q函数值和损失函数值，根据下式更新Q函数值Q(s,a)：

Q(s,a)＝Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]

根据下式更新损失函数值L(θ)：

L(θ)＝E{[r(s,a)+γmaxQ(s′,a′)-Q(s,a,θ)]²}，

其中，θ为DRQN网络的权重，E{}为期望函数。

所述判断更新后的DRQN网络是否完成训练的方法为：

DRQN网络是否收敛，是则完成训练，否则未完成训练；

或更新是否到达最大迭代次数，是则完成训练，否则未完成训练。

步骤五：利用N个功率传感器采集当前时刻移动网络中目标信道上的信号功率，并将该信号功率作为环境状态向量输入至训练完成的DRQN网络中。

步骤六：选取DRQN网络获得的所有Q函数值中最大值所对应的动作值作为当前时刻的DRQN网络输出。

所述判断认知无线电功率分配是否完成的方法为：

DRQN网络中所有用户是否均被满足，是则认知无线电功率分配完成，否则认知无线电功率分配未完成；

或分配否到达最大迭代次数，是则认知无线电功率分配完成，否则认知无线电功率分配未完成。

步骤八：计算分配成功率和平均步数，当成功率或平均步数不能够满足要求时，返回步骤一。

实施方式首先使用贪心策略离线训练一定次数后，再进行在线测试，每一次在线测试都需要进行20个片段，每个片段执行50个时间步。在此基础上，定义每一次在线测试的成功率为：20个片段中、成功让所有智能体满足最低信噪比要求的次数和总次数的比值。定义每一次在线测试的平均步数为：假设第w个片段达到所有智能用户都满足最低信噪比要求时执行的时间步为Ni，平均步数就是所有成功的片段时间步的平均值。

如图2所示为损失函数曲线图，仿真使用的传感器数量为10个，通信链路数量为2对，其他用户功率以DCPC模型改变。可以看出，随着迭代次数的增多，损失函数逐渐趋于收敛，说明本实施方式中神经网络的训练是有效的。如图3所示为成功率曲线图，可以看到，随着迭代次数增加到25000次左右，成功率可以维持在95％以上，迭代次数增加到35000次，成功率可以维持在99％左右，效果良好。如图4所示为平均步数曲线图，可以看到随着迭代次数的增加，成功率达到90％以上需要的平均步数维持在2.5步左右，效果显著。