CN110493826A

CN110493826A - 一种基于深度强化学习的异构云无线接入网资源分配方法

Info

Publication number: CN110493826A
Application number: CN201910804972.9A
Authority: CN
Inventors: 陈前斌; 管令进; 魏延南; 胡彦娟; 曹睿; 唐伦
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Wanzhida Technology Transfer Center Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-11-22
Anticipated expiration: 2039-08-28
Also published as: CN110493826B

Abstract

本发明涉及一种基于深度强化学习的异构云无线接入网资源分配方法，属于移动通信技术领域。在该方法中，包括：1)以队列稳定为约束，联合拥塞控制、用户关联、子载波分配和功率分配，并建立网络总吞吐量最大化的随机优化模型；2)考虑到调度问题的复杂性，系统的状态空间和动作空间是高维的，DRL算法利用神经网络作为非线性近似函数，高效地解决维度灾难题；3)针对无线网络环境的复杂性和动态多变性，引入迁移学习算法，利用迁移学习的小样本学习特性，使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。本方法能够在最大化整个网络总吞吐量同时，满足业务队列稳定性的要求。在移动通信系统中有很高的应用价值。

Description

一种基于深度强化学习的异构云无线接入网资源分配方法

技术领域

本发明属于移动通信技术领域，涉及一种基于深度强化学习的异构云无线接入网资源分配方法。

背景技术

随着通信技术的高速发展,人类跨入无处不在的移动互联、互通时代。智能终端、无线局域网(WLAN,WIFI)、车联网、移动支付等一系列信息化技术给人们生活带来了更加优质便捷的体验，无线通信技术已经发展成为具有不同的带宽、调制方式和覆盖范围的异构云无线接入网络(heterogeneous cloud wireless access network)。由于传统的静态网络工作模式导致各类网络之间信息独立、资源无法共享以及频谱利用率低等一系列问题，将严重制约移动通信技术的发展，使得网络面临容量压力、深度覆盖盲区等问题，无线网络资源优化已经面临了较以往更加严峻的挑战：传统优化和管理方式效率较低，人员技术能力严重不足，难以满足多往精细优化需求。到了5G时代，随着各种新技术、新平台的应用，可以预见，5G网络下的资源优化复杂度、难度将大大提高，网络资源管理亟需有新的解决方案。无线网络的资源分配应该更加自动化和智能化，以降低各类人工干扰因素。同时面对复杂的网络环境变化及应用需求快速、灵活、高效的响应，在最优化资源分配和编排的基础上，提升网络的服务质量和业务体验。

在另一方面，为了增大无线通信网络的系统容量，提高频谱资源的使用效率和传输效率，异构网络成为应对未来数据流量陡增、满足容量增长需求的关键通信技术之一。在传统的蜂窝异构无线网络中，通过大量重用系统已有频谱资源，提高了频谱资源的利用率，并有针对性地按需部署、就近接入，来满足热点地区对容量的需求。但是如何实现不同小区间的干扰管理，空闲频谱的合理利用是其需要解决的关键技术问题。换句话来说，资源分配问题在该网络下变得更加复杂与灵活，如何很好地控制用户发射功率、根据用户的信道状态合理地分配系统的子载波，以此来增加整个无线网络的系统容量、提高网络的稳定性。

目前，在现有技术中存在以下问题：首先，忽略了用户的队列拥塞控制，因为拥塞控制与无线资源分配是紧密联系的。拥塞控制反映出用户对链路容量的需求，无线资源决定了链路容量的大小，如果不进行拥塞控制会出现数据包丢失等现象，降低了用户的服务体验。其次，无线资源管理仍然采取传统的迭代运算方式进行研究，没有从学习算法的角度考虑，人工参与因素明显，资源优化效率较低，无法面对复杂的网络环境变化及应用需求快速、灵活、高效的响应。最后，训练好的模型在新的网络中无法进行模型的复用，不仅需要从环境获取大量的训练样本，还需要重新开始训练神经网络，耗费大量的训练时间，降低了算法的收敛速度。因此，在异构云无线接入网络中，在保证业务队列稳定的同时，如何智能地分配无线网络资源，从而最大化整个网络总吞吐量是非常值得研究的内容。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的异构云无线接入网资源分配方法，该方法能在最大化网络总吞吐量的同时，满足业务队列稳定性的要求。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习的异构云无线接入网资源分配方法，在该方法中，包括：1)以队列稳定为约束，联合拥塞控制、用户关联、子载波分配和功率分配，并建立网络总吞吐量最大化的随机优化模型；2)考虑到调度问题的复杂性，系统的状态空间和动作空间是高维的，DRL算法利用神经网络作为非线性近似函数，高效地解决维度灾难题；3)针对无线网络环境的复杂性和动态多变性，引入迁移学习算法，利用迁移学习的小样本学习特性，使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。此外，迁移学习通过迁移DRL模型的权重参数，进一步地加快了DRL算法的收敛速度。

进一步，该方法在异构云无线接入网下行链路场景下，利用深度强化学习的方法快速、智能地分配无线资源；所述深度强化学习是指深度Q网络(DQN)将深度学习的感知能力和强化学习的决策能力相结合，使用估值网络来非线性地近似状态-动作值函数，在没有先验知识的条件下，自动地从高维的原始数据中抽取特征，从而解决传统状态-动作表(Q表)导致的存储空间过大的难题。

进一步，所述业务队列的稳定性指当Q(t)满足以下式子，则它是强稳定的：

其中所述Q(t)为各个离散时间的队列长度。

所述拥塞控制是为了避免实际网络场景中，网络的瞬时可达容量常常难于估计，因此瞬时随机业务到达率超出网络瞬时容量的情况不可避免，需要借助拥塞控制以保证业务队列的稳定性；

所述用户关联指在某一时刻t上，一个用户只能关联到一个基站上；

所述子载波分配指在同一个RRH或者HPN上每个子载波只可分给一个用户使用或者闲置；

所述功率分配指基站上用户的总传输功率小于等于用户相连基站的最大发射功率。

进一步，所述深度强化学习用神经网络作为非线性近似函数时，需要对DQN模型的状态集、动作集和奖励函数公式化：

状态集：系统的状态集由平均队列长度、信道状态信息和各个基站的发射功率组成，定义为：s(t)＝{Q_avg(t),CSI(t),p_H(t),p_J(t)}；

其中所述Q_avg(t)为时隙t上的平均队列长度；

所述CSI(t)为时隙t上的信道状态信息；

所述p_H(t)为宏基站HPN的发射功率；

所述p_J(t)为小基站RRH的发射功率。

动作集：根据上述的状态集，系统将进行用户关联、子载波和功率等无线资源的分配，定义相应的动作集为：其中所述u_ij(t)为时隙t上RUE i与小基站RRHj的关联指标；

所述u_m(t)为时隙t上HUEm与宏基站HPN的关联指标；

所述ρ_ijn(t)为时隙t上RRHj将子载波n分配给RUE i；

所述ρ_mn(t)为时隙t上HPN将子载波n分配给HUEm；

所述为RRH用户i的功率分配信息；

所述为HPN用户m的功率分配信息。

奖励函数：在某一特定的状态下，基站采取某一资源分配动作得到的奖励，为了最大化基站的吞吐量，奖励函数定义为：

其中所述的R_kj(t)为RUE用户k的传输速率；

所述的_Rk(t)为HUE用户的传输速率；

所述的U_R为RUE设备的集合；

所述的U_H为HUE的设备集合。

进一步，所述迁移学习指利用事先学习的知识和技能来识别新任务的学习能力，通过将源基站与环境进行交互得到的训练样本和估值网络的权重参数等迁移到目标基站上，利用交叉熵来衡量源基站与目标基站之间的策略模仿损失。将大大缓解目标基站上数据不足导致训练不准确的问题，学习难度也将大幅度降低，所需的训练时间也相应的减少。迁移学习将源基站与环境进行交互得到的经验样本迁移到目标基站上，大大减少了训练时间，同时避免了目标基站由于样本不足导致的过拟合问题。此外，迁移学习还通过重用已经训练好的估值网络权重参数，进一步加速算法的收敛性。对比于标准的DQN以随机的搜寻方法开始学习，使用迁移学习可以使学习过程中的起点更接近于目标基站吞吐量最大化的最终解决方案。

进一步，所述使用估值网络来非线性地近似状态-动作值函数，为了使估值网络的非线性性能达到最优，使用自适应估计(adaptive moment estimation,Adam)算法来更新估值网络的参数w：其中所述α为DQN估值网络的学习率；

所述为一阶矩的偏差修正项；

所述为二阶矩的偏差修正项；

所述ψ为常量，取值为10^-8，防止二阶矩的偏差修正项为0的情况。

进一步，所述利用交叉熵来衡量源基站与目标基站之间的策略模仿损失指源基站和目标基站在某一特定状态下的Q值都可以转化为相应的策略网络，由于源基站和目标基站处于同一个网络中，两者之间的策略模仿损失可以用交叉熵来进行衡量：

其中所述为源基站通过DQN模型得到的策略网络；

所述π_TG(s,a)为目标基站通过DQN得到的目标策略。

通过最小化DQN间的策略模仿损失，目标基站从源基站获得最优的资源分配信息；对目标DQN来说，源基站迁移的策略知识是监督者并指导目的基站快速地具有初始化最优策略的能力，并最终取得最佳的对比于重新开始学习，这种基于迁移的学习方法避免由于随机选取动作导致的错误，从而使目标基站在一开始就做出最明智的选择。

本发明的有益效果在于：本发明提供的方法提出的基于深度强化学习的异构云无线接入网资源分配方法，能够在最大化整个网络总吞吐量同时，满足业务队列稳定性的要求。在移动通信系统中有很高的应用价值。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为异构云无线接入网下行传输场景示意图；

图2为深度强化学习算法分配H-CRAN无线资源示意图；

图3为基站上训练深度强化学习算法示意图；

图4为迁移学习算法示意图；

图5为基于深度强化学习实现队列稳定和资源智能化分配流程图；

图6为基于迁移学习算法的策略知识迁移算法流程图。

具体实施方式

本发明的目的在于提供一种基于深度强化学习的异构云无线接入网资源分配方法，该方法在异构云无线接入网的架构下，联合优化业务队列的拥塞控制，无线网络中用户关联、子载波分配和功率分配，利用深度强化学习的理念定义系统的队列状态信息、信道状态信息和基站的发射功率为DQN模型的状态空间；定义网络的可调度的用户关联信息、子载波分配和功率分配信息为DQN模型的动作空间；定义网络的总吞吐量为DQN模型的奖励函数。通过训练网络中的DQN模型，从而在稳定业务队列的同时，最大化整个网络的总吞吐量。为了让训练的DQN模型可以更好地适应无线网络动态变化的特性，采用迁移学习算法实现DQN模型的小样本学习特性，可以有效地减少DQN模型与环境进行交互的时间，从而加快训练的速度。进一步地，由于DQN模型训练学到的资源分配策略都反映在DQN的权重参数上，当无线网络环境产生巨大的变化时，为了避免重新开始训练DQN模型，迁移学习将之前训练的权重参数进行迁移，从而提高了算法的收敛速度。

所述5G异构云无线接入网络架构(H-CRAN)是指由云无线接入网络(C-RAN)和异构网络组成的无线网络。并进一步描述了物理层模型和接入控制(MAC)层的业务队列动态变化模型。

所述物理层模型指RRHs以一种底层方式部署在HPN相同的覆盖范围内。RRHs和HPN分别通过前传链路和回程链路连接BBU池，定义HPN和RRHs的集合分别为{0,1,2,...,j}，其中0代表HPN，J＝{1,2,...,j}表示RRHs的集合。具有低速率特性的用户设备(HUE设备)通常被HPN服务，由于RRHs在提供高速率方面更加有效的，所以具有高QoS的用户设备(RUE设备)由RRHs来提供服务，用U_H＝{1,2,...,u_h}表示HUE设备的集合，U_R＝{1,2,...,u_r}表示RUE设备的集合。

所述云无线接入网络是基于集中化处理、协作式无线电和实时云计算架构的绿色无线接入网架构。数量众多的低功率RRH互相协作，并在集中式BBU池中实现信号处理。RRH只需执行射频处理以及简单的基带处理，主要的基带信号处理和上层功能都在BBU池中实现。

所述的异构网络指包含一个高功率节点(HPN)和多个远端无线射频单元(RRH)的无线网络。通过协作HPN来缓解RRHs和BBU池之间的前传容量受限难题，H-CRAN充分利用3G和4G等蜂窝网络的宏基站来实现无缝覆盖，同时实现控制和业务平面功能分离。所有的控制信令以及系统广播数据均由HPN发送给用户，突发业务以及即时消息等低速率数据信息也由HPN承载，RRHs主要负责高速率业务。

所述信道状态信息包括了路径损耗，阴影衰落及噪声的影响，对于信道状态信息而言，假设它们在每个时隙内保持固定而在时隙间独立同分布。

由于网络资源是有限的，所述资源分配是指根据信噪比将用户关联到相应的基站上，根据信道状态信息分配子载波，对已分配的子载波进行功率分配。

所述用户关联约束指在某一时刻t上，一个用户只能关联到一个基站上。

所述子载波分配约束指在同一个RRH或者HPN上每个子载波只可分给一个用户使用或者闲置。

所述功率分配约束指基站上用户的总传输功率小于等于用户相连基站的最大发射功率。

所述的异构云无线接入网络中下行链路存在着同频干扰：不同的RRH间以及RRH和HPN间同频用户存在着干扰。假设系统采用连续的速率方案，可以用香农容量公式来传输速率，因此第t时隙RUEi和HUEm在子载波n上的传输速率分别为：

其中所述B为系统的总带宽；

所述N为系统的子载波个数；

所述p_ijn(t)为在第t时隙RRHj在第n个子载波上分配给用户RUEi的功率；

所述g_ijn(t)为在第t时隙从RRHj到RUEi上第n个子载波上的信道增益；

所述p_mn(t)为在第t时隙HPN在第n个子载波上分配给用户HUEm的功率；

所述g_mn(t)为在第t时隙HPN到HUEm上第n个子载波上的信道增益；

所述σ²为高斯信道噪声。

所述业务队列的拥塞控制指H-CRAN为每个用户维持一个单独的缓存队列，随机业务到达量在时隙间服从独立同分布，且用户间相互独立。此外，业务到达量存在峰值，并保证随机业务到达量小于等于业务到达量的峰值。

实际上，网络的瞬时可达容量常常难于估计，因此瞬时随机业务到达率超出网络瞬时容量的情况不可避免，需要借助业务的拥塞控制机制以保证业务队列的稳定性。H-CRAN一方面需要通过业务拥塞控制以接收尽可能多的业务到达量以最大化网络吞吐量，另一方面需要利用有限的无线资源传输尽可能多的队列数据以改善拥塞状况。

在H-CRAN架构下进行用户关联、子载波分配和功率分配时，系统的状态空间和动作空间是非常大的，将采用深度强化学习架构来解决复杂控制问题。

所述深度Q网络指基于当前的状态s(t)∈S，智能体在当前的环境下采取动作a(t)∈A，然后系统转移到一个新的状态s(t+1)∈S，并且得到即时奖励r(s,a)。在DQN模型中，基站在决策时期内根据系统转移概率执行动作之后，系统将转移到新的状态，并且可以通过最小化损失函数来更新估值网络的参数w。为了获得最优策略，需要进一步公式化DQN模型中的状态集、动作集和奖励函数。

所述估值网络指深度Q网络中用来作为非线性近似器的神经网络。

所述状态集指智能体与环境进行交互的过程中可能存在的状态，定义为：

S(t)＝{Q_avg(t),CSI(t),p_H(t),p_J(t)}

其中所述Q_avg(t)为t时刻业务的平均队列长度；

所述CSI(t)为t时刻信道状态信息；

所述p_H(t)为t时刻HPN的发射功率；

所述p_J(t)为t时刻RRH的发射功率。

基于当前的系统状态，为了最大化网络的总吞吐量，必须选择合适的资源分配方案来最大化未来累积奖励。

所述动作集指根据信道状态信息、队列状态信息和基站的发射功率进行用户关联、功率和子载波等无线资源分配动作。动作集用表示。

其中所述u_ij(t)为RRH用户与基站进行关联的信息；

所述u_m(t)为HPN用户与基站进行关联的信息；

所述ρ_ijn(t)为RRH用户上子载波的使用情况；

所述ρ_mn(t)为HPN用户上子载波的使用情况；

所述为RRH用户i的功率分配信息；

所述为HPN用户m的功率分配信息。

所述奖励函数指在一个特定的状态下，基站采取某一资源分配动作得到的奖励。奖励函数表示为：

为缓解非线性网络中值函数出现的不稳定等问题，所述深度Q网络使用两个技术来提高神经网络训练过程的学习性能：

(1)、经验回放池：在每一时刻t上，基站将与环境交互得到的元组e(t)＝(s(t),a(t),r(t),s(t+1))存入经验回放池D(t)＝{e(1),...,e(t)}中，然后从经验池中随机抽取样本来训练深度神经网络的参数，这样可以避免估值网络在连续取样时，训练样本由于相关性太大而导致训练结果难以收敛。

(2)、分离目标网络：DQN的目标网络的参数每隔时间步长δ才进行调整，而不是每次时隙都进行更新。目标网络用于计算训练过程中每个动作带来的损失值，当我们基于不断变化的值来调整估值网络的参数时，预估值的变化很容易失控。引入目标网络后，目标网络值和预估Q值之间产生的损失函数会将不稳定转移至网络自身，为了规避这一风险，目标网络应该被冻结，只对估值网络做周期性的缓慢更新等价于每隔δ时间步长，将估值网络中的参数w赋值给目标网络的参数w^-，这样可以使得训练过程变得更加稳定。

所述损失函数用来衡量估值网络非线性近似的准确程度。

所述使用估值网络来非线性地近似状态-动作值函数，为了使估值网络的非线性函数性能达到最优，使用自适应估计(adaptive moment estimation,Adam)算法来更新估值网络的参数w：

其中所述α为神经网络的学习率；

所述为一阶矩的偏差修正项；

所述为二阶矩的偏差修正项；

所述ψ为常数，防止二阶矩的偏差修正项为0时估值网络参数无法进行更新。

为了实现小样本学习，迁移学习将源基站与环境进行交互得到的经验样本迁移到目标基站上，大大减少了训练时间，同时避免了目标基站由于样本不足导致的过拟合问题。此外，迁移学习还通过重用已经训练好的估值网络权重参数，进一步加速算法的收敛性。对比于标准的DQN以随机的搜寻方法开始学习，使用迁移学习可以使学习过程中的起点更接近于目标基站吞吐量最大化的最终解决方案。

所述利用交叉熵来衡量源基站与目标基站之间的策略模仿损失指源基站和目标基站在某一特定状态下的Q值都可以转化为相应的策略网络，由于源基站和目标基站处于同一个网络中，两者之间的策略模仿损失可以用交叉熵来进行衡量：

通过最小化DQN间的策略模仿损失，目标基站从源基站获得最优的资源分配信息。对目标DQN来说，源基站迁移的策略知识是监督者并指导目的基站快速地具有初始化最优策略的能力，并最终取得最佳的对比于重新开始学习，这种基于迁移的学习方法避免由于随机选取动作导致的错误，从而使目标基站在一开始就做出最明智的选择。

参见图1，图1为本发明的异构云无线接入网下行传输场景示意图。在本发明实例中，考虑H-CRAN下行传输场景，包含一个HPN和多个RRH的异构无线网络，H-CRAN中数量众多的低功率RRH互相协作，并在集中式BBU池中实现信号处理。RRH只需执行射频处理以及简单的基带处理，主要的基带信号处理和上层功能都在BBU池中实现。H-CRAN中的BBU池与HPN通过S1和X2接口连接，相比于传统的C-RAN架构，H-CRAN通过协作HPN来缓解RRHs和BBU池之间的前传容量受限难题。H-CRAN充分利用3G和4G等蜂窝网络的宏基站来实现无缝覆盖，同时实现控制和业务平面功能分离。所有的控制信令以及系统广播数据均由HPN发送给用户，突发业务以及即时消息等低速率数据信息也由HPN承载，RRHs主要负责高速率业务。

参见图2，图2为深度强化学习算法分配H-CRAN无线资源示意图。在本发明实例中，智能资源管理架构主要包括2个部分：智能资源管理器和H-CRAN。首先用户提交各种需要的应用请求，在用户队列处进行排队，基于CSI、QSI和基站发射功率信息，控制器执行它的学习算法，在系统资源受限的条件下来满足用户的应用请求。资源调度算法在智能资源管理器中发挥着非常重要的作用，它可以通过学习获取使网络吞吐量最大的资源调度策略。监控器的任务是收集系统的CSI、QSI、基站发射功率信息和用户的QoS需求来周期性的更新控制器。分配器负责根据控制器的配置参数将应用请求映射到BBU资源池，进行资源的智能化分配。

控制器是智能资源管理架构的关键部分，它需要与监视器和分配器协调工作，进而计算出近似最优资源分配策略。控制器的核心是DRL调度算法和迁移学习，DRL算法将强化学习(reinforcement learning,RL)与深度学习(deep learning,DL)联合起来，在有限迭代过程中，直接从原始应用的需求中找到最优的资源配置方案。如图2所示，控制器根据RL与环境进行交互，利用贪心策略随机选择一个动作，系统转移到一个新的状态，并且得到即时奖励，再通过DL中神经网络的非线性近似特征，利用存储的样本对神经网络的权重参数进行梯度下降更新。迁移学习在DRL算法的基础上，通过迁移DRL算法中强化学习与环境进行交互得到的训练样本，可以实现迁移学习的小样本学习特征，减少DRL的训练时间；在另一方面，由于DRL算法通过非线性近似特性学习到的知识，以权重参数的形式存储在神经网络中。迁移学习通过迁移DRL算法中深度学习的神经网络权重参数，进而提高DRL算法的收敛速度。因此，DRL和迁移学习可以充分合作，以有限的步骤处理原始应用需求，合理地制定资源分配的最优策略。

参见图3，图3为基站上训练深度强化学习算法示意图。在本发明实例中，基站与无线网络环境进行交互过程中，采用ε-greedy策略在探索和开发(exploration andexploitation)之间做权衡，并且选择一个最大的回报。在ε-greedy策略中，基站以概率ε执行探索策略，即在动作集合中随机选取一个动作执行；而以概率1-ε执行开发策略，即通过估值网络选取最优Q函数值的动作执行。用S＝{s₁,s₂,...,s_n}表示状态空间、A＝{a₁,a₂,...,a_m}表示动作空间，基于当前的状态s(t)∈S，智能体在当前的环境下采取动作a(t)∈A，然后系统转移到一个新的状态s(t+1)∈S，并且得到即时奖励r(s,a)。为缓解非线性网络中值函数出现的不稳定等问题，DQN使用以下两个技术来提高训练过程的学习性能：

(1)经验回放池：在每一时刻t上，基站将与环境交互得到的元组e(t)＝(s(t),a(t),r(t),s(t+1))存入经验回放池D(t)＝{e(1),...,e(t)}中，然后从经验池中随机抽取样本来训练深度神经网络的参数，这样可以避免估值网络在连续取样时，训练样本由于相关性太大而导致训练结果难以收敛。

(2)分离目标网络：DQN的目标网络的参数每隔时间步长δ才进行调整，而不是每次时隙都进行更新。目标网络用于计算训练过程中每个动作带来的损失值，当我们基于不断变化的值来调整估值网络的参数时，预估值的变化很容易失控。引入目标网络后，目标网络值和预估Q值之间产生的损失函数会将不稳定转移至网络自身，为了规避这一风险，目标网络应该被冻结，只对估值网络做周期性的缓慢更新等价于每隔δ时间步长，将估值网络中的参数w赋值给目标网络的参数w^-，这样可以使得训练过程变得更加稳定。

参见图4，图4为基站上训练深度强化学习算法示意图。在本发明实例中，迁移学习利用小样本学习特性，使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。迁移学习将源基站与环境进行交互得到的训练样本迁移到目标基站上，大大减少了训练时间，同时避免了目标基站由于样本不足导致的过拟合问题。此外，迁移学习还通过重用已经训练好的估值网络权重参数，进一步加速算法的收敛性。对比于标准的DQN以随机的搜寻方法开始学习，使用迁移学习可以使学习过程中的起点更接近于目标基站吞吐量最大化的最终解决方案。

参见图5，图5为基于深度强化学习实现队列稳定和资源智能化分配流程图，具体步骤如下。

步骤1：初始化经验回放池，随机初始化估值网络和目标网络的权重参数，令episode＝0；

步骤2：随机初始化状态s₀，令t＝0；

步骤3：利用贪心策略选取动作a(t)；

步骤4：将与环境交互得到的元组(s(t),a(t),r(t),s(t+1))存储到经验回放池中；

步骤5：从经验回放池中随机抽取一组训练样本，利用Adam算法来训练DQN中的估值网络；

步骤6：每隔时间步长δ将估值网络的参数w复制给目标网络的参数w'；

步骤7：查询t是否大于等于T，如果大于等于T，进入步骤8；反之，返回步骤3，继续执行3-6；

步骤8：查询episode是否大于等于K，如果大于等于K，进入步骤9；反之，返回步骤2，继续执行2-7；

步骤9：通过对DQN模型中估值网络权重参数的训练，获得最优的权重参数w。

参见图6，图6为基于迁移学习算法的策略知识迁移算法流程图，具体步骤如下：

步骤1：初始化源基站的DQN参数w，策略网络参数T，目标网络的参数w'；

步骤2：根据DQN网络得到输出层对应的Q值函数；

步骤3：根据玻尔兹曼分布，得到源基站Q值函数对应的策略网络π_i；

步骤4：根据玻尔兹曼分布，得到目标基站Q值函数对应的策略网络π_TG；

步骤5：根据步骤4和步骤5得到的结果，从而构建策略模仿损失的交叉熵；

步骤6：判断Q值函数是否满足收敛条件，如果满足，进入步骤7；反之，返回步骤2；

步骤7：目标基站获得DQN网络最优的权重参数w。

本发明的有益之处为：

本发明针对5G异构云无线接入网中移动数据总流量大幅增长，传统的资源优化和管理方式效率较低等问题，公开了一种基于深度强化学习的无线资源分配方法。首先，该方法以队列稳定为约束，联合优化拥塞控制、用户关联、子载波分配和功率分配，并建立网络总吞吐量最大化的随机优化模型。其次，考虑到调度问题的复杂性，系统的状态空间和动作空间是高维的，DRL方法利用神经网络作为非线性近似函数，高效地解决维度灾难题。最后，针对无线网络环境的复杂性和动态多变性，引入迁移学习方法，利用迁移学习的小样本学习特性，使得DRL方法在少量样本的情况下也能获得最优的资源分配策略。此外，迁移学习通过迁移DRL模型的权重参数，进一步地加快了DRL方法的收敛速度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：在该方法中，包括：1)以队列稳定为约束，联合拥塞控制、用户关联、子载波分配和功率分配，并建立网络总吞吐量最大化的随机优化模型；2)考虑到调度问题的复杂性，系统的状态空间和动作空间是高维的，DRL算法利用神经网络作为非线性近似函数，高效地解决维度灾难题；3)针对无线网络环境的复杂性和动态多变性，引入迁移学习算法，利用迁移学习的小样本学习特性，使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。

2.根据权利要求1所述的一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：该方法在异构云无线接入网下行链路场景下，利用深度强化学习的方法快速、智能地分配无线资源；所述深度强化学习是指深度Q网络(DQN)将深度学习的感知能力和强化学习的决策能力相结合，使用估值网络来非线性地近似状态-动作值函数，在没有先验知识的条件下，自动地从高维的原始数据中抽取特征，从而解决传统状态-动作表(Q表)导致的存储空间过大的难题。

3.根据权利要求1所述的一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：所述队列稳定性指当所有的离散时间队列过程Q(t)满足以下式子，则它是强稳定的：

其中所述Q(t)为各个离散时间的队列长度；

4.根据权利要求1所述的一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：所述深度强化学习用神经网络作为非线性近似函数时，需要对DQN模型的状态集、动作集和奖励函数公式化：

其中所述Q_avg(t)为时隙t上的平均队列长度；

所述CSI(t)为时隙t上的信道状态信息；

所述p_H(t)为宏基站HPN的发射功率；

所述p_J(t)为小基站RRH的发射功率；

动作集：根据上述的状态集，系统将进行用户关联、子载波和功率等无线资源的分配，定义相应的动作集为：

其中所述u_ij(t)为时隙t上RUE i与小基站RRHj的关联指标；

所述u_m(t)为时隙t上HUE m与宏基站HPN的关联指标；

所述ρ_ijn(t)为时隙t上RRH j将子载波n分配给RUE i；

所述ρ_mn(t)为时隙t上HPN将子载波n分配给HUE m；

所述为RRH用户i的功率分配信息；

所述为HPN用户m的功率分配信息；

奖励函数：在某一特定的状态下，基站采取某一资源分配动作得到的奖励，奖励函数定义为：

其中所述的R_kj(t)为RUE用户k的传输速率；

所述的_Rk(t)为HUE用户的传输速率；

所述的U_R为RUE设备的集合；

所述的U_H为HUE的设备集合。

5.根据权利要求1所述的一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：所述迁移学习指利用事先学习的知识和技能来识别新任务的学习能力，通过将源基站与环境进行交互得到的训练样本和估值网络的权重参数等迁移到目标基站上，利用交叉熵来衡量源基站与目标基站之间的策略模仿损失。

6.根据权利要求2所述的一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：所述使用估值网络来非线性地近似状态-动作值函数，为了使估值网络的非线性性能达到最优，使用自适应估计(adaptive moment estimation,Adam)算法来更新估值网络的参数w：

其中所述α为DQN估值网络的学习率；

所述为一阶矩的偏差修正项；

所述为二阶矩的偏差修正项；

7.根据权利要求5所述的一种基于深度强化学习的异构云无线接入网资源分配方法，其特征在于：所述利用交叉熵来衡量源基站与目标基站之间的策略模仿损失指源基站和目标基站在某一特定状态下的Q值都可以转化为相应的策略网络，由于源基站和目标基站处于同一个网络中，两者之间的策略模仿损失可以用交叉熵来进行衡量：

其中所述为源基站通过DQN模型得到的策略网络；

所述π_TG(s,a)为目标基站通过DQN得到的目标策略；