CN110691422B

CN110691422B - 一种基于深度强化学习的多信道智能接入方法

Info

Publication number: CN110691422B
Application number: CN201910946631.5A
Authority: CN
Inventors: 赵楠; 程一强; 刘畅; 裴一扬; 刘聪; 曾春艳; 贺潇; 刘泽华
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-10-06
Filing date: 2019-10-06
Publication date: 2021-07-13
Anticipated expiration: 2039-10-06
Also published as: CN110691422A

Abstract

本发明属于无线通信技术领域，具体涉及一种基于深度强化学习的多信道智能接入方法，旨在将深度强化学习策略引入到多信道接入，以期实现多信道的智能接入。针对现有多信道接入策略较难适应信道环境动态性问题，本发明提出基于深度强化学习的多信道智能接入方法。首先，将多信道智能接入问题建模为离散状态与动作空间的马尔可夫决策过程，提出Q‑learning方法以实现多信道的智能接入。在此基础上，针对Q‑learning状态空间大和收敛慢等特点，通过设计深度神经网络，利用梯度下降法来训练深度神经网络的权值，修正损失函数解决状态‑动作函数过高估计问题，以获得近似最优的多信道智能接入策略。

Description

一种基于深度强化学习的多信道智能接入方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于深度强化学习的多信道智能接入方法。

背景技术

随着无线通信技术的迅速发展，频谱资源的需求越来越高。频谱资源日益匮乏，已成为制约无线通信发展的严峻问题。多信道接入方法因其能够有效地提高频谱资源的利用率，受到研究者的广泛关注。

然而，多信道接入方法往往需要大量网络信息；同时，当信道状态发生变化时，很难有效地实现信道的智能接入。因此，如何实现多信道的智能接入是一个值得研究的问题。近年来，深度强化学习方法因其强大的学习能力，在智能决策、无人驾驶、边缘卸载等领域取得了一些研究进展。

因此，受到深度强化学习的启发，本发明旨在将强化学习策略引入到多信道接入，以期实现多信道的智能接入。在建立多信道接入模型的基础上，将多信道智能接入问题建模为离散状态与动作空间的马尔可夫决策过程。针对Q-learning状态空间大和收敛慢等问题，通过设计深度神经网络，利用梯度下降法来训练深度神经网络的权值，采用经验回放策略降低数据的相关性，修正损失函数解决状态-动作函数过高估计问题，以获得近似最优的多信道智能接入策略。

发明内容

为了克服现有多信道接入策略较难适应信道环境动态性问题，本发明的目的在于提出一种基于深度强化学习的多信道智能接入方法。

为了达到上述目的，本发明所采用的技术方案是：一种基于深度强化学习的多信道智能接入方法，其特征在于，所述方法包括如下步骤：

步骤1，将多信道接入模型描述成马尔可夫决策过程；

步骤2，在此基础上，提出Q-learning方法以实现多信道的智能接入；

步骤3，通过设计深度神经网络，以获得近似最优的多信道智能接入策略；

步骤4，采用经验回放策略，以降低数据的相关性；

步骤5，设计基于深度强化学习多信道智能接入算法。

进一步地，步骤1中，所述将多信道接入模型描述成马尔可夫决策过程包括：

假设用户在从N个信道的选择接入某一信道的过程中，会受到从第1个到第N个信道的周期性外部干扰，同时，考虑到用户当前时刻接入信道所获得的效用仅与当前信道状态有关，与信道之前状态无关，上述多信道接入过程可描述为一个马尔可夫决策过程(S；A；p(s′|s,a)；r；π(a|s))，具体描述如下：

状态空间S：当前时刻各信道状态s的集合，0表示某一信道处于空闲状态，1表示某一信道已被占用，于是，N个信道的状态空间S为2^N；

动作空间A：选择某一信道动作a的集合；

转移概率p(s′|s,a)：在信道状态s情况下，采用某一动作a时，信道状态s转变为下一信道状态s′的概率；

奖励r：用户某一动作a时，信道状态从s转移到下一信道状态s′获得的奖励，如果用户与干扰没有发生碰撞，奖励r＝r+1，否则为r＝r-1；

策略π(a|s)：在信道状态s时，选择某一信道动作a的概率；

这里，定义累积奖励R为所有奖励r的累积，即：

其中，r_n表示在第n个时刻获得的奖励，γ为衰减因子且γ∈[0,1)，衰减因子决定了未来信道奖励和当前时刻奖励的重要性，当衰减因子接近0时，意味着当前时刻获得的奖励权重较多；反之，当衰减因子接近1时，则意味着用户更注重未来时刻获得的奖励。

进一步地，步骤2中，Q-learning方法实现多信道的智能接入过程包括：

作为解决上述马尔可夫决策过程的常用方法，强化学习不断以试错的方式与环境进行交互，通过最大化累积奖励以获得最优策略。本发明将强化学习方法应用于多信道接入，用户通过观察当前时刻各信道占位情况，从历史经验中学习，选择接入下一时刻的最佳信道，避免与干扰产生碰撞，从而实现多信道智能接入。

这里，本发明定义信道状态s处选择信道a得到的期望奖励为状态-动作值函数Q(s,a)：

Q(s,a)＝E[R|s,a]

其中，E表示信道状态s处选择信道a得到的期望。

于是，通过贝尔曼方程得到最优的状态-动作值函数Q^*(s,a)：

同时，状态-动作值函数Q(s,a)更新过程可以表示如下：

Q(s,a)＝(1-δ)Q(s,a)+δQ^-

其中，Q^-＝r+γmax_a′Q(s′,a′)，δ为学习率，它影响状态-动作函数Q(s,a)的更新速度。

进一步地，步骤3中，设计深度神经网络以获得近似最优的多信道智能接入策略的过程包括：

值得注意的是，当N较大时，整个状态空间S非常巨大。如果采用经典的强化学习方法Q-learning，通过查找状态-动作值Q(s,a)表获得最优信道接入策略，将非常困难。因此，本发明提出基于深度强化学习的多信道智能接入方法。

本发明将DNN引入到Q-learning的框架中，以获得近似最优的策略和状态-动作函数Q(s,a)。DNN是一个具有多个处理层的神经网络，每一层都由许多神经元组成，每个神经元都将前一层的输出通过加权线性组合作为下一层的输入。在这里，DNN由Online网络和Target网络组成，Online网络使用带有权重θ的Q函数Q(s,a,θ)，以近似最优状态-动作值函数Q^*(s,a)；Target网络使用带有权重θ^-的Q函数Q(s,a,θ^-)，以提高整个网络的性能。在特定的回合数后，复制Online网络的权重θ以更新Target网络的权重θ^-。利用梯度下降法更新Online网络的权重θ，以获得最小损失函数：

L＝(r+γmax_a'Q(s′,a′,θ-)-Q(s,a,θ))²。

进一步地，步骤4中，经验回放策略具体实现过程包括：

为了降低数据的相关性，本发明采用经验回放策略。在学习过程中，从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>，以训练神经网络。通过不断减少训练样本之间的相关性，以避免最优策略陷入局部最小值。

此外，考虑到上述DNN经常会过高地估计状态-动作函数Q(s,a,θ)，本发明在公式L＝(r+γmax_a'Q(s′,a′,θ^-)-Q(s,a,θ))²的基础上，将权重为θ的Q函数用来选择动作，权重为θ-的Q函数用来评估动作。于是，修正后的损失函数如下：

L＝(y-Q(s,a,θ))²

其中，y＝r+γQ(s′,argmax_a′Q(s′,a′,θ),θ^-)。

进一步地，步骤5中，基于深度强化学习多信道智能接入算法具体实现过程包括：

(1)初始化当前时刻中各信道状态s；

(2)利用ε-贪婪策略来选择信道：以概率ε随机选择下一时刻接入的信道，以概率(1-ε)选择接入满足最优Q(s,a,θ)的信道；

(3)在信道状态s下，选择信道接入动作a，得到奖励r。如果没有与干扰产生碰撞r＝r+1，产生碰撞r＝r-1；

(4)信道状态s转移到下一信道状态s′；

(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中；

(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>；

(7)计算损失函数，借助梯度下降法获得最小损失函数；

(8)间隔一定回合后，将Online网络的权重θ复制给Target网络权重θ^-；

(9)重复第2到第8步骤。

与现有技术相比，本发明的有益效果是：本发明针对多信道状态的动态性，研究了基于深度强化学习的多信道智能接入方法，解决了Q-learning状态空间过大和收敛速度慢等问题，从而获得近似最优的信道接入策略和更快的收敛速度。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明针对现有多信道接入策略较难适应信道环境动态性问题，提出基于深度强化学习的多信道智能接入方法。首先，通过将多信道接入模型描述成马尔可夫决策过程，提出Q-learning方法以实现多信道的智能接入。在此基础上，针对Q-learning状态空间大和收敛慢等特点，通过设计深度神经网络，以获得近似最优的多信道智能接入策略。

A.马尔可夫决策模型

假设用户在从N个信道的选择接入某一信道的过程中，会受到从第1个到第N个信道的周期性外部干扰。同时，考虑到用户当前时刻接入信道所获得的效用仅与当前信道状态有关，与信道之前状态无关，上述多信道接入过程可描述为一个马尔可夫决策过程(S；A；p(s′|s,a)；r；π(a|s))，具体描述如下：

状态空间S：当前时刻各信道状态s的集合。0表示某一信道处于空闲状态，1表示某一信道已被占用。于是，N个信道的状态空间S为2^N。

动作空间A：选择某一信道动作a的集合。

转移概率p(s′|s,a)：在信道状态s情况下，采用某一动作a时，信道状态s转变为下一信道状态s′的概率。

奖励r：用户某一动作a时，信道状态从s转移到下一信道状态s′获得的奖励。如果用户与干扰没有发生碰撞，奖励r＝r+1，否则为r＝r-1。

策略π(a|s)：在信道状态s时，选择某一信道动作a的概率。

这里，本发明定义累积奖励R为所有奖励r的累积，即：

其中，r_n表示在第n个时刻获得的奖励。γ为衰减因子且γ∈[0,1)，衰减因子决定了未来信道奖励和当前时刻奖励的重要性。当衰减因子接近0时，意味着当前时刻获得的奖励权重较多；反之，当衰减因子接近1时，则意味着用户更注重未来时刻获得的奖励。

B.强化学习模型

Q(s,a)＝E[R|s,a]

其中，E表示信道状态s处选择信道a得到的期望。

于是，通过贝尔曼方程得到最优的状态-动作值函数Q^*(s,a)：

同时，状态-动作值函数Q(s,a)更新过程可以表示如下：

Q(s,a)＝(1-δ)Q(s,a)+δQ^-

C.DNN模型

本发明将DNN引入到Q-learning的框架中，以获得近似最优的策略和状态-动作函数Q(s,a)。DNN是一个具有多个处理层的神经网络，每一层都由许多神经元组成，每个神经元都将前一层的输出通过加权线性组合作为下一层的输入。在这里，DNN由Online网络和Target网络组成，Online网络使用带有权重θ的Q函数Q(s,a,θ)，以近似最优状态-动作值函数Q*(s,a)；Target网络使用带有权重θ^-的Q函数Q(s,a,θ^-)，以提高整个网络的性能。在特定的回合数后，复制Online网络的权重θ以更新Target网络的权重θ^-。利用梯度下降法更新Online网络的权重θ，以获得最小损失函数：

L＝(r+γmax_a'Q(s′,a′,θ^-)-Q(s,a,θ))²

D.经验回放策略

L＝(y-Q(s,a,θ))²

其中，y＝r+γQ(s′,argmax_a′Q(s′,a′,θ),θ^-)。

E.基于深度强化学习多信道智能接入算法

(1)初始化当前时刻中各信道状态s；

(4)信道状态s转移到下一信道状态s′；

(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中；

(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>；

(7)计算损失函数，借助梯度下降法获得最小损失函数；

(9)复第2到第8步骤。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的多信道智能接入方法，其特征在于，所述方法包括如下步骤：

步骤1，将多信道接入模型描述成马尔可夫决策过程；

步骤4，采用经验回放策略，以降低数据的相关性；

步骤5，设计基于深度强化学习多信道智能接入算法；

步骤1中，所述将多信道接入模型描述成马尔可夫决策过程包括：

动作空间A：选择某一信道动作a的集合；

策略π(a|s)：在信道状态s时，选择某一信道动作a的概率；

这里，定义累积奖励R为所有奖励r的累积，即：

其中，r_n表示在第n个时刻获得的奖励，γ为衰减因子且γ∈[0,1)，衰减因子决定了未来信道奖励和当前时刻奖励的重要性，当衰减因子接近0时，意味着当前时刻获得的奖励权重较多；反之，当衰减因子接近1时，则意味着用户更注重未来时刻获得的奖励；

步骤2中，Q-learning方法实现多信道的智能接入过程包括：

作为解决马尔可夫决策过程的常用方法，强化学习不断以试错的方式与环境进行交互，通过最大化累积奖励以获得最优策略，将强化学习方法应用于多信道接入，用户通过观察当前时刻各信道占位情况，从历史经验中学习，选择接入下一时刻的最佳信道，避免与干扰产生碰撞，从而实现多信道智能接入；

这里，定义信道状态s处选择信道a得到的期望奖励为状态-动作值函数Q(s,a)：

Q(s,a)＝E[R|s,a]

其中，E表示信道状态s处选择信道a得到的期望；

于是，通过贝尔曼方程得到最优的状态-动作值函数Q^*(s,a)：

同时，状态-动作值函数Q(s,a)更新过程可以表示如下：

Q(s,a)＝(1-δ)Q(s,a)+δQ^-

其中，Q^-＝r+γmax_a′Q(s′,a′)，δ为学习率，它影响状态-动作函数Q(s,a)的更新速度；

步骤3中，设计深度神经网络以获得近似最优的多信道智能接入策略的过程包括：

将DNN引入到Q-learning的框架中，以获得近似最优的策略和状态-动作函数Q(s,a)，DNN是一个具有多个处理层的神经网络，每一层都由许多神经元组成，每个神经元都将前一层的输出通过加权线性组合作为下一层的输入，在这里，DNN由Online网络和Target网络组成，Online网络使用带有权重θ的Q函数Q(s,a,θ)，以近似最优状态-动作值函数Q^*(s,a)；Target网络使用带有权重θ^-的Q函数Q(s,a,θ^-)，以提高整个网络的性能，在特定的回合数后，复制Online网络的权重θ以更新Target网络的权重θ^-，利用梯度下降法更新Online网络的权重θ，以获得最小损失函数：

L＝(r+γmax_a'Q(s′,a′,θ^-)-Q(s,a,θ))²；

步骤4中，经验回放策略具体实现过程包括：

为了降低数据的相关性，采用经验回放策略，在学习过程中，从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>，以训练神经网络，通过不断减少训练样本之间的相关性，以避免最优策略陷入局部最小值；

此外，考虑到上述DNN经常会过高地估计状态-动作函数Q(s,a,θ)，在公式L＝(r+γmax_a'Q(s′,a′,θ^-)-Q(s,a,θ))²的基础上，将权重为θ的Q函数用来选择动作，权重为θ^-的Q函数用来评估动作，于是，修正后的损失函数如下：

L＝(y-Q(s,a,θ))²

其中，y＝r+γQ(s′,argmax_a′Q(s′,a′,θ),θ^-)；

步骤5中，基于深度强化学习多信道智能接入算法具体实现过程包括：

(1)初始化当前时刻中各信道状态s；

(3)在信道状态s下，选择信道接入动作a，得到奖励r，如果没有与干扰产生碰撞r＝r+1，产生碰撞r＝r-1；

(4)信道状态s转移到下一信道状态s′；

(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中；

(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>；

(7)计算损失函数，借助梯度下降法获得最小损失函数；

(9)重复第2到第8步骤。