CN112492686A

CN112492686A - 一种基于深度双q网络的蜂窝网络功率分配方法

Info

Publication number: CN112492686A
Application number: CN202011268978.8A
Authority: CN
Inventors: 王伟; 殷爽爽; 吕明海; 武聪
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-03-12
Anticipated expiration: 2040-11-13
Also published as: CN112492686B

Abstract

本发明公开了一种基于深度双Q网络的蜂窝网络中功率分配算法，算法采用双神经网络结构，有效解决传统强化学习算法无法处理大规模状态‑动作空间的问题，并降低两个神经网络之间的相关性，解决值函数过估计问题。算法使用状态信息作为神经网络的输入，并对状态、动作及奖赏函数根据仿真蜂窝网络情境分别进行设计，其中将上一时刻的干扰信息及速率信息作为当前时刻状态信息的组成部分，使智能体可以更加有效的进行自主学习，经过多次迭代后，得到最优的功率分配策略。该方法可以有效解决蜂窝网络中的功率分配问题，且在不同用户数量及小区数量下均具备良好的泛化性能，可以有效提升功率分配的合理性，同时运行耗时少，大大提高功率分配的效率。

Description

一种基于深度双Q网络的蜂窝网络功率分配方法

技术领域

本发明涉及蜂窝网络功率分配领域，特别是涉及一种干扰多址的多用户蜂窝网络功率分配方法。

背景技术

无线通信技术在过去几十年发展迅速，从1G到目前5G的广泛推出，在满足用户多样化业务需求的同时，其无线数据传输量也呈指数型增长趋势，且随着智能终端设备的大规模普及，网络中的接入终端数也在不断增多，网络中的传输数据量变得更加巨大。目前，密集小蜂窝网络是解决频谱稀缺性问题的有效方案，不过密集部署的基站及规模不断变小的小区，会使得整个通信网络被无线信号所覆盖，网络中的干扰问题变得十分严重，目前，功率分配技术是实现网络有效干扰管理的关键技术，合理的功率分配可以有效缓解网络中的干扰，提升通信体验，因此，开发出一种功率分配技术来提升网络的通信性能是很有必要的。

目前关于蜂窝网络的功率分配已经有了一系列研究，其中研究方法可以分为基于数值模拟方法、深度学习算法及强化学习算法；其中，基于数值模拟的方法属于传统的功率分配算法，具有较好的性能；随着电脑硬件，如GRU的快速发展，基于深度学习的方法可以对大量数据进行处理，已在功率分配领域取得了良好的效果；基于强化学习的方法通过智能体与环境的多次交互进行自主学习，从而获得最优的功率分配策略，具备良好的决策能力，可以处理复杂系统的决策问题，已在功率分配领域得到有效应用。

功率分配问题，包括其较多的变体形式，通常是np困难的，因此很难求出有效解，有很多的研方法是使用分布式或者集中式优化技术来进行功率分配的开发，这种基于数值模拟的方法基本都涉及大量迭代计算，包括隐式的或者显式的，因此此类方法的计算耗时较长，无法满足通信系统的实时处理要求，且此类方法对于实际通信场景的处理并不完善，无法完成有效的功率分配。

继优化算法后，有学者提出了使用深度学习技术来实现功率分配，该方法采用的是监督学习的方式，使用多层神经网络来实现功率分配，相对于传统功率分配算法的多次迭代计算，该方法的运算更为高效，具有较低的复杂度，且对于大量的数据具备优良的分析处理能力，因此可以较好的实现功率分配，不过监督学习的方式需要设置基准算法来进行训练，因此所得到的的方法的性能会受到基准算法的限制，且基准算法得到的也不一定是最优的结果，因此基于深度学习的方法具有一定的局限性。

相较于监督学习，强化学习采取的一种自主学习的策略，智能体在与环境的多次交互中不断学习，逐步学习到一个控制或行为策略，强化学习采取的是一种试错的思想，智能体通过在探索与利用观测到的环境信息中，不断学习并优化策略，最终得到一个最优的行为策略，最经典的强化学习算法为Q学习算法，且已有一些研究使用Q学习算法来完成功率分配，不过传统的Q学习算法只能处理低维度的状态-动作空间，对于高维度问题无能为力，深度强化学习的出现有效的解决了维度灾难问题，通过引入深度学习技术，深度强化学习兼具数据感知能力与决策能力，可以为复杂系统的决策问题提供解决思路，其中最常用的为深度Q网络算法，虽然深度Q网络已经可以实现良好的功率分配，但深度Q网络中动作选择与动作评估均使用同一个神经网络，两个神经网络之间的耦合性较高，因此深度Q网络易存在值函数过估计问题。

发明内容

本文针对上述现有状况，提出了一种基于深度双Q网络的多用户蜂窝网络功率分配算法，采用双神经网络结构，将动作选择与动作评估分别使用不同的神经网络来完成，从而解决值函数过估计问题；对算法中状态、动作及奖赏函数分别进行设计，使智能体可以更加有效获取到环境信息并自主学习；采用集中式的训练方式，经过多次迭代，最终得到一个最优的功率分配策略，通过功率分配来缓解蜂窝网络中的干扰问题，在最大功率的限制下，最大程度提升用户的传输速率，从而提升蜂窝网络的通信性能及用户的通信体验。

为实现上述目的，本文提出的方案是：一种基于深度双Q网络的蜂窝网络功率分配算法，具体步骤如下：

S1：初始化蜂窝网络环境设置；

S2：初始化经验池；

S3：初始化当前Q网络相应权重；

S4：初始化目标Q网络相应权重；

S5：接收初始状态；

S6：智能体根据当前状态，通过ε-greedy策略选择动作；

S7：执行所选择的动作，改变基站的发射功率，得到当前时隙的奖赏值；

S8：智能体到达下一个状态；

S9：存储经验到经验池；

S10：神经网络的训练；

S11：将下一个状态作为当前的状态；

进一步的，步骤S10中，在迭代次数达到100次之后，每一次迭代包括50个时隙，每隔10个时隙进行神经网络的训练，包括从经验池中随机抽取批次量数据输入神经网络中，计算损失函数，损失函数计算公式为：

其中

表示深度双Q网络的目标Q值，Q(s_t,a_t；θ)表示当前Q网络的输出值，通过最小化损失函数更新当前Q网络的参数，在经过m步后更新目标Q网络的参数。

进一步的，步骤S1中蜂窝网络环境的初始化中，设置小区数量及各小区中的用户数量及相关参数设置。

进一步的，步骤S2中初始化经验池，使用双端队列(deque)，在经验数据量达到经验池容量后，可以自动删除队列前端的元素。

进一步的，步骤S5中，初始状态包含四个组成部分，表示为：

其中，

表示智能体当前所接收到的干扰信息，

表示上一时隙，干扰信息对应的智能体可以达到的传输速率，

表示干扰信息对应的智能体所分配到的功率，

表示干扰信息对应的智能体所分配到的功率索引值。

进一步的，

的计算公式为，

其中

表示当前智能体所接收到的干扰信息对应的信道增益集合，D_m表示当前基站的相邻基站集合。

进一步的，

信道增益计算公式为：

其中，

为小尺度衰落，β_m,u为大尺度衰落。

进一步的，

的计算公式为：

其中，

为基站m到其用户u之间的信干噪比，其计算公式为：

其中，分子中

表示在时隙t，基站m到用户u的直接信道增益，分母中

表示在时隙t，在基站m到其他用户u的信号干扰下，基站m到用户u的信道增益，

表示在时隙t，相邻小区中基站m'到用户u的信道增益，

表示基站m到用户u的发射功率，

表示基站m到用户u'的发射功率，

表示基站m'到用户j的发射功率，σ²表示额外的噪声功率。

进一步的，步骤S6中动作的选择，本文算法中动作即功率，设置10种不同的功率值以供选择，其中包含零值，集合表示为：

A＝{0,P_min,...,P_max}

其中，P_min与P_max分别表示最小与最大发射功率。

进一步的，步骤S7中奖赏函数的设计，本文算法中设置当前时隙当前智能体所得速率加和其他智能体所得速率总和的折扣值作为奖赏函数，计算公式为：

本发明由于采用上述技术方法，能够取得如下技术效果：通过采用双神经网络结构，解决值函数过估计问题；同时通过对状态、动作及奖赏函数进行合理的设计，使智能体可以更加有效的学习，最终得到最优的功率分配策略，可以有效提升下行链路的平均传输速率，提高用户的通信体验，并有效缓解蜂窝网络中严重的干扰问题。

附图说明

图1蜂窝网络功率分配算法结构图。

图2深度双Q网络原理图。

图3蜂窝网络环境图。

图4深度双Q网络中神经网络结构图。

具体实施方式

为了使本发明的实施例的目的、技术方案和优点更加清楚，下面结合附图对本发明实施例中的技术方案进行清楚完整的描述。

实施例1：如图1所示为本发明一个实施例的蜂窝网络功率分配算法结构图，本实施例提供一种基于深度双Q网络的蜂窝网络功率分配方法，具体步骤如下：

1)初始化蜂窝网络仿真环境，如图2所示为仿真蜂窝网络图，包含基站及多个用户，图中示例为两个用户；

2)初始化双神经网络的权重参数

3)获得初始化状态，首先计算小尺度衰落与大尺度衰落，进而得到智能体当前时隙的信道增益，使用全0功率作为初始功率，计算得到相应的干扰信息及速率，从而生成初始状态；

4)将初始状态信息输入神经网络中，输出并从动作集合中选择相应的动作，进而得到相应的奖赏函数及下一时隙的状态；如图4所示为神经网络的结构图，两个神经网络的结构相同，包含输入层、隐藏层及输层，输入为当前时隙的状态信息，输出为十种功率值对应的Q值。

5)动作的选取采用ε-greedy策略，以ε的概率随机选取动作，以1-ε的概率选取使得Q值最大的动作，从而使智能体可以更深的探索环境，并且有效的利用环境信息，从而学习及优化策略。

6)存储经验到经验池

7)在迭代次数达到一定次数后，在间隔一定时隙后，从经验池中随机抽取批次数据量输入神经网络中进行训练，计算损失函数值，更新当前Q网络的参数；

8)在间隔固定时隙数后，更新目标Q网络的参数，即将当前Q网络的参数赋值给目标Q网络；

9)将下一时隙的状态值作为当前的状态值，重复步骤五

10)若时隙数达到设定值，重复步骤4，开始下一轮迭代，直到达到总迭代次数；

本发明提出基于深度双Q网络的蜂窝网络功率分配算法，设计并使用状态信息作为神经网络的输入，功率作为可选取的动作，采用双神经网络实现动作选择与动作评估的解耦合，促进智能体更加有效的自主学习并优化行为策略，达到加强蜂窝网络整体功率分配有效性及高效性的效果。

可帮助蜂窝网络中基站实现合理有效的功率分配，对于蜂窝网络中干扰的管理及提高下行链路的数据传输速率具有重大研究意义，同时深度强化学习兼具大量数据的分析能力及复杂环境中的决策能力，因此针对不同场景下的蜂窝网络均具备良好的泛化性能，可高效合理的进行功率分配，在节省时间的同时，也天天提高了蜂窝网络整体的通信性能。

实施例2：本实施例对实施例1中出现小尺度衰落，大尺度衰落、动作集合及神经网络结构进行具体的解释说明。

(1)小尺度衰落，公式为：

其中，

并且

相关系数ρ的计算公式为：ρ＝J₀(2πf_dT_s)J₀(·)代表第一类零阶贝塞尔函数，f_d代表最大多普勒频率，T_s表示相邻时刻的时间间隔，单位为毫秒。

(2)大尺度衰落，公式为：β＝-120.9-37.6log₁₀(d)+10log₁₀(z)

其中，z是一个服从对数正太分布的随机变量，标准差为8dB，d表示的是发射端到接受端的距离，单位为km。

(3)动作集合中包含10个值，其中包含零值，同时在最小发射功率与最大发射功率之间均匀选取九种发射功率，包含最小与最大发射功率，动作空间表示如下：

A＝{0,P_min,...,P_max}

其中，P_min与P_max分别表示最小与最大发射功率。

(4)神经网络结构，两个神经网络结构相同，初始化权重参数相同，网络结构均包含输入层、两层隐藏层及输出层。

神经网络对于大量且高维度的数据具备良好的分析感知能力，使用双神经网络分别完成智能体动作的选择及动作的评估，对两个神经网络尽心解耦合操作，可以降低双神经网络之间的相关性，从而解决值函数过估计的问题，使算法训练更加高效。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，在任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的蜂窝网络功率分配算法，其特征在于使用深度双Q网络实现蜂窝网络的功率分配，其包括如下：使用双神经网络结构来实现智能体的动作选择与动作评估，提升算法的性能；同时对于状态、动作及奖赏函数进行对应设计，加强智能体的自主学习能力，从而提升功率分配的有效性及高效性，可缓解蜂窝网络中严重的干扰问题，提升下行链路的传输速率，使得用户通信体验更佳，蜂窝网络通信性能更优。

2.根据权利要求1所述一种基于深度双Q网络的蜂窝网络功率分配算法，初始化蜂窝网络环境，包括小区数量及各小区内的用户数量及相关参数设置，初始化状态作为神经网络的输入。

3.根据权利要求1所述一种基于深度双Q网络的蜂窝网络功率分配算法，状态包含三个部分，第一个部分是智能体所接收到的干扰信息，第二部分是干扰信息对应智能体所分配的功率，第三部分是干扰信息对应智能体对应的传输速率，状态表示为：

其中，

表示智能体当前所接收到的干扰信息，

表示干扰信息对应的智能体所分配到的功率，

表示干扰信息对应的智能体所分配到的功率索引值。

4.根据权利要求1所述一种基于深度双Q网络的蜂窝网络功率分配算法，设置10种不同的功率值以供选择，其中包含零值，同时在最小发射功率与最大发射功率之间均匀选取九种发射功率，包含最小与最大发射功率，集合表示为：

A＝{0,P_min,...,P_max}

其中，P_min与P_max分别表示最小与最大发射功率，将初始状态信息输入神经网络，输出并根据ε-greedy策略选择相应的动作，即功率值。

5.根据权利要求1所述一种基于深度双Q网络的蜂窝网络功率分配算法，在达到固定迭代次数及固定时隙时，从经验池中随机抽取批次数据量输入神经网络进行训练，计算损失函数的值，更新当前Q网络的参数，在间隔固定时隙数后，更新目标Q网络权重值，将当前Q网络的参数赋值给目标Q网络。

6.根据权利要求1所述一种基于深度双Q网络的蜂窝网络功率分配算法，奖赏函数的设计，是通过设置当前时隙当前智能体所得速率加和其他智能体所得速率总和的折扣值作为奖赏函数，计算公式为：

。

7.根据权利要求1所述一种基于深度双Q网络的蜂窝网络功率分配算法，采用双神经网络结构实现动作的选取及动作的评估，提升网络的性能，所述一种基于深度双Q网络的蜂窝网络功率分配算法，对状态、动作及奖赏函数进行分别设计后，进行神经网络的训练，最终输出并并得到最优的功率分配策略。