CN108718463A

CN108718463A - 一种h-cran下基于多时间尺度协同优化的资源分配方法

Info

Publication number: CN108718463A
Application number: CN201810437109.XA
Authority: CN
Inventors: 朱晓荣; 张晓逸; 汪悦
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2018-10-30
Anticipated expiration: 2038-05-09
Also published as: CN108718463B

Abstract

本发明公开了一种H‑CRAN下基于多时间尺度协同优化的资源分配方法，将资源分配视为大时间尺度—小时间尺度的双层模型：从大时间尺度角度，根据用户移动轨迹等长期平均信息，通过查询和匹配专家系统的先验知识，建立基于专家系统的大时间尺度资源分配模型；从小时间尺度角度，根据信道质量等短期瞬时信息，利用深度强化学习的自学习和自优化特性，建立基于深度强化学习的小时间尺度资源分配模型；从协同优化角度，基于主从博弈的视角，建立以大时间尺度为主、小时间尺度为从的协同优化资源分配模型，实现异构云无线接入网络的资源分配。

Description

一种H-CRAN下基于多时间尺度协同优化的资源分配方法

技术领域

本发明涉及一种H-CRAN下基于多时间尺度协同优化的资源分配方法，属于网络资源分配技术领域。

背景技术

移动互联网不断地在改变人类生活的方方面面，智能终端几乎成为人类生活的必需品，移动端流量以惊人的速度增长，人类对于高速率应用的需求日益提高，如超高清视频、无人驾驶等，于是5G应运而生。相比于4G系统，5G旨在实现峰值速率至少100倍的增长，频谱效率和能源效率至少10倍的增长，覆盖容量至少25倍的增长。为了真正实现上述目标，网络架构是首先需要考虑的问题，网络架构在一定程度上主导着技术的研究和实施，对网络性能起着至关重要的作用。

异构云无线接入网络(Heterogeneous cloud radio access network,H-CRAN)，借鉴异构网络(Heterogeneous network,HetNet)中通过宏基站实现控制和业务分离以及云无线接入网络(Cloud radio access network,C-RAN)中射频拉远头(Remote RadioHead，RRH)高效支撑局部业务的特征，联合HetNet和C-RAN各自优点，充分利用大规模实时云计算处理能力，进一步提升了网络整体性能，成为5G的候选网络架构。但是由于宏基站的引入，宏基站与RRH间的干扰成为限制网络性能提升的主要因素。与此同时，传统的正交多址接入技术中一个正交资源只允许分配一个用户，这也严重限制了网络吞吐量和用户连接数。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种H-CRAN下基于多时间尺度协同优化的资源分配方法，以新型的非正交多址接入技术为基础，综合考虑宏基站与RRH间的干扰，建立异构云无线接入网络下基于多时间尺度协同优化的资源分配模型，实现异构云无线接入网络资源的均衡分配。

为了实现上述目标，本发明采用如下的技术方案：

一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，包括如下步骤：

1)大时间尺度资源分配，用于频点和带宽的均衡分配：大数据处理得到用户移动轨迹Γ和网络流量Φ，得到最优的频点N_f和带宽B；

2)小时间尺度资源分配，用于资源块和发射功率的均衡分配，大数据处理得到信道质量H，利用H计算得到信干噪比γ；

3)结合步骤1)和2)进行协同优化，用于多时间尺度的协同优化；

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤1)的具体步骤为：

步骤11)分析用户移动轨迹Γ、网络流量Φ与频点N_f及带宽B之间的映射关系，并作为先验知识建立专家系统，用于频点N_f及带宽B的分配；

步骤12)测量并记录网络参数，大数据处理得到用户移动轨迹Γ和网络流量Φ；

步骤13)在专家系统中匹配实际的用户移动轨迹Γ和网络流量Φ，得到最相关的先验知识，进而得到频点N_f和带宽B。

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤2)的具体内容为：

大数据处理得到信道质量H，利用H计算得到信干噪比γ，将其作为深度强化学习的状态X_t；

根据Q值表选择状态X_t下最大Q值对应的动作Y_t执行，动作Y_t定义为资源块K和发射功率P的联合分配；

通过神经网络模拟Q值更新公式得到Q_t(X_t,Y_t)；

根据奖赏函数R(X,Y)计算得到状态X_t下执行动作Y_t的奖赏R_t((X_t,Y_t)，同时进入下个状态X_t+1进行新一轮的学习；

每轮学习结束后将＜X_t,Y_t,R_t,X_t+1＞四元组作为一条记录保存在记忆单元中，当记忆单元的记录数达到阈值ξ后，每隔L轮学习从记忆单元中随机抽取A条记录学习得到目标神经网络，A＜ξ，通过最小化原神经网络与目标神经网络的差值来确保神经网络的有效性和可靠性，当Q值表逐渐趋于稳定，即可得到每个状态X下最优的动作Y。

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤2)的具体步骤为：

步骤21)按用户连接的基站类型将用户分为与宏基站相连的用户和与RRH相连的用户，记为HUE和RUE；按业务QoS要求将资源块K分为两个集合，记为Ω1(高QoS要求的RUE专用)和Ω2(低QoS要求的RUE和低QoS要求的HUE共享)，这里选择用户期望的传输速率作为QoS要求的评价指标，期望的传输速率大于2Mbps定义为高QoS要求，反之为低QoS要求；

步骤22)测量并记录网络参数，大数据处理得到信道质量H；

步骤23)计算用户通信过程中的信干噪比γ：

231)计算用户通信过程中的干扰I：RRHr覆盖范围内的RUEn在资源块k上通信受到的干扰表示为其中，N是占用资源块集合Ω1的用户数，记为{1,2,...,N}，q是占用资源块集合Ω2的用户数，记为{N+1,N+2,...,N+q}，是RUE的接入指示因子，表示RRHr覆盖范围内的RUEi接入资源块k，是RRHr为RUEi在资源块k上分配的发射功率，是RRH r覆盖范围内的RUE i在资源块k上通信的信道增益，表示RRHr覆盖范围内占用资源块k的其他RUE对RUEn产生的干扰功率，N₀表示噪声功率；表示RRHr覆盖范围内占用资源块k的其他RUE对RUEn产生的干扰功率，是HUE的接入指示因子，表示宏基站H覆盖范围内的HUEj接入资源块k，是宏基站H为HUEj在资源块k上分配的发射功率，是宏基站H覆盖范围内的HUEj在资源块k上通信的信道增益，表示宏基站H覆盖范围内占用资源块k的HUE对RUEn产生的干扰功率；

宏基站H覆盖范围内的HUE m在资源块k上通信受到的干扰表示为其中，表示宏基站H覆盖范围内占用资源块k的其他HUE对HUE m产生的干扰功率，表示所有RRH覆盖范围内占用资源块k的RUE对HUEm产生的干扰功率；

232)计算用户通信过程中的信干噪比γ：RRHr覆盖范围内的RUEn在资源块k上通信的信干噪比γ表示为宏基站H覆盖范围内的HUE m在资源块k上通信的信干噪比γ表示为

步骤24)根据香农公式计算网络覆盖范围内的通信速率C：

步骤25)计算网络的能源效率EE：

步骤26)建立深度强化学习模型，进行资源块K和发射功率P的均衡分配。

步骤24)根据香农公式计算网络覆盖范围内的通信速率C：

步骤25)计算网络的能源效率EE：

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤24)的具体内容为：

241)计算单个用户的通信速率：

RRHr覆盖范围内RUEn的通信速率表示为：

宏基站H覆盖范围内HUEm的通信速率表示为：

242)计算网络覆盖范围内的通信速率C：

RRHr覆盖范围内所有RUE的通信速率表示为

宏基站H覆盖范围内所有HUE的通信速率表示为

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤25)的具体步骤为：

251)计算网络的功率消耗P：

RRH的功率消耗包含收发机的电路功耗P_ct、前传链路功耗P_f、信令交换功耗P_e和自身发射功耗，表示为宏基站H的功率消耗记为P^H；

252)计算网络的能源效率EE：

H-CRAN包含1个宏基站和R个RRH，其能源效率EE表示为由于R＞＞1，简化为

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤26)的具体步骤为：

261)初始化RUE的状态

262)初始化神经网络的层数、每层包含的神经元个数以及各个神经元间的权重W；状态X_t作为神经网络的输入，状态X_t下执行各动作的Q值作为神经网络的输出；

263)选择状态X_t下最大Q值对应的动作Y_t执行；

264)取能源效率EE作为奖赏函数R(X,Y)，计算得到状态X_t下执行动作Y_t的奖赏R_t(X_t,Y_t)，同时进入下个状态X_t+1；

265)记录＜X_t,Y_t,R_t,X_t+1＞四元组并存入记忆单元，若记忆单元的记录数小于阈值ξ则直接跳转263)继续学习，否则在跳转263)的同时每隔L轮学习从记忆单元中随机抽取A条记录学习得到目标神经网络，以最小化原神经网络与目标神经网络的差值为目标来优化权重W，确保神经网络的有效性和可靠性；

当Q值的变化幅度小于±ζ时，Q值表趋于稳定，得到每个状态X下最优的动作Y。

前述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤3)的具体内容为：

步骤31)进行大时间尺度资源分配，得到频点N_f和带宽B的均衡分配；

步骤32)基于大时间尺度资源分配的带宽B得到可用的资源块数K；

步骤33)进行小时间尺度资源分配，得到资源块K和发射功率P的均衡分配；

步骤34)若可用的资源块全部分配完，但小时间尺度资源分配仍然不能满足网络覆盖范围内所有业务的QoS要求，则跳转步骤31)重新进行大时间尺度资源分配。

本发明所达到的有益效果：本发明以非正交多址接入技术为基础，以资源分配模型研究为主线，以主从博弈和深度强化学习为主要研究工具，结合业务QoS保证，综合考虑长期平均信息和短期瞬时信息等多时间尺度信息，建立异构云无线接入网络下基于多时间尺度协同优化的资源分配模型，实现异构云无线接入网络中的资源分配。

附图说明

图1是大时间尺度资源分配流程框图；

图2是小时间尺度资源分配模型框图；

图3是小时间尺度资源分配流程框图；

图4是多时间尺度协同优化流程框图；

图5是异构云无线接入网络下基于多时间尺度协同优化的资源分配模型框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明涉及的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，包括如下步骤：

1)大时间尺度资源分配，用于频点和带宽的均衡分配：大数据处理得到用户移动轨迹Γ和网络流量Φ，得到最优的频点N_f和带宽B：

2)小时间尺度资源分配，用于资源块和发射功率的均衡分配：大数据处理得到信道质量H，利用H计算得到信干噪比γ，将其作为深度强化学习的状态X_t；

通过神经网络模拟Q值更新公式得到Q_t(X_t,Y_t)；

具体步骤为：

步骤21)按用户连接的基站类型将用户分为与宏基站相连的用户和与RRH相连的用户，记为HUE和RUE；按业务QoS要求将资源块K分为两个集合，记为Ω1和Ω2；

步骤22)测量并记录网络参数，大数据处理得到信道质量H；

步骤23)计算用户通信过程中的信干噪比γ：

231)计算用户通信过程中的干扰I：RRHr覆盖范围内的RUEn在资源块k上通信受到的干扰表示为其中，N是占用资源块集合Ω1的用户数，记为{1,2,...,N}，q是占用资源块集合Ω2的用户数，记为{N+1,N+2,...,N+q}，是RUE的接入指示因子，表示RRH r覆盖范围内的RUEi接入资源块k，是RRH r为RUE i在资源块k上分配的发射功率，是RRH r覆盖范围内的RUE i在资源块k上通信的信道增益，表示RRH r覆盖范围内占用资源块k的其他RUE对RUE n产生的干扰功率，N₀表示噪声功率；表示RRH r覆盖范围内占用资源块k的其他RUE对RUE n产生的干扰功率，是HUE的接入指示因子，表示宏基站H覆盖范围内的HUE j接入资源块k，是宏基站H为HUE j在资源块k上分配的发射功率，是宏基站H覆盖范围内的HUE j在资源块k上通信的信道增益，表示宏基站H覆盖范围内占用资源块k的HUE对RUE n产生的干扰功率；

宏基站H覆盖范围内的HUE m在资源块k上通信受到的干扰表示为其中，表示宏基站H覆盖范围内占用资源块k的其他HUE对HUE m产生的干扰功率，表示所有RRH覆盖范围内占用资源块k的RUE对HUE m产生的干扰功率；

232)计算用户通信过程中的信干噪比γ：RRH r覆盖范围内的RUE n在资源块k上通信的信干噪比γ表示为宏基站H覆盖范围内的HUE m在资源块k上通信的信干噪比γ表示为

步骤24)根据香农公式计算网络覆盖范围内的通信速率C：

241)计算单个用户的通信速率：

RRHr覆盖范围内RUE n的通信速率表示为：

宏基站H覆盖范围内HUE m的通信速率表示为：

242)计算网络覆盖范围内的通信速率C：

RRH r覆盖范围内所有RUE的通信速率表示为

宏基站H覆盖范围内所有HUE的通信速率表示为

步骤25)计算网络的能源效率EE：

251)计算网络的功率消耗P：

252)计算网络的能源效率EE：

步骤26)建立深度强化学习模型，进行资源块K和发射功率P的均衡分配：

261)初始化RUE的状态

263)选择状态X_t下最大Q值对应的动作Y_t执行；

3)结合步骤1)和2)进行协同优化，用于多时间尺度的协同优化：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，包括如下步骤：

3)结合步骤1)和2)进行协同优化，用于多时间尺度的协同优化。

2.根据权利要求1所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤1)的具体步骤为：

3.根据权利要求1所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤2)的具体内容为：

通过神经网络模拟Q值更新公式得到Q_t(X_t,Y_t)；

根据奖赏函数R(X,Y)计算得到状态X_t下执行动作Y_t的奖赏R_t(X_t,Y_t)，同时进入下个状态X_t+1进行新一轮的学习；

4.根据权利要求3所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤2)的具体步骤为：

步骤22)测量并记录网络参数，大数据处理得到信道质量H；

步骤23)计算用户通信过程中的信干噪比γ：

231)计算用户通信过程中的干扰I：RRHr覆盖范围内的RUEn在资源块k上通信受到的干扰表示为其中，N是占用资源块集合Ω1的用户数，记为{1,2,...,N}，q是占用资源块集合Ω2的用户数，记为{N+1,N+2,...,N+q}，是RUE的接入指示因子，表示RRHr覆盖范围内的RUEi接入资源块k，是RRHr为RUEi在资源块k上分配的发射功率，是RRHr覆盖范围内的RUEi在资源块k上通信的信道增益，表示RRHr覆盖范围内占用资源块k的其他RUE对RUEn产生的干扰功率，N₀表示噪声功率；表示RRHr覆盖范围内占用资源块k的其他RUE对RUEn产生的干扰功率，是HUE的接入指示因子，表示宏基站H覆盖范围内的HUEj接入资源块k，是宏基站H为HUEj在资源块k上分配的发射功率，是宏基站H覆盖范围内的HUEj在资源块k上通信的信道增益，表示宏基站H覆盖范围内占用资源块k的HUE对RUEn产生的干扰功率；

宏基站H覆盖范围内的HUEm在资源块k上通信受到的干扰表示为

其中，表示宏基站H覆盖范围内占用资源块k的其他HUE对HUEm产生的干扰功率，表示所有RRH覆盖范围内占用资源块k的RUE对HUEm产生的干扰功率；

232)计算用户通信过程中的信干噪比γ：RRHr覆盖范围内的RUEn在资源块k上通信的信干噪比γ表示为宏基站H覆盖范围内的HUEm在资源块k上通信的信干噪比γ表示为

步骤24)根据香农公式计算网络覆盖范围内的通信速率C：

步骤25)计算网络的能源效率EE：

5.根据权利要求4所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤24)的具体内容为：

241)计算单个用户的通信速率：

RRHr覆盖范围内RUEn的通信速率表示为

宏基站H覆盖范围内HUEm的通信速率表示为

242)计算网络覆盖范围内的通信速率C：

RRHr覆盖范围内所有RUE的通信速率表示为

宏基站H覆盖范围内所有HUE的通信速率表示为

6.根据权利要求5所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤25)的具体步骤为：

251)计算网络的功率消耗P：

252)计算网络的能源效率EE：

H-CRAN包含1个宏基站和R个RRH，其能源效率EE表示为由于R＞＞1，简化为。

7.根据权利要求6所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤26)的具体步骤为：

261)初始化RUE的状态

263)选择状态X_t下最大Q值对应的动作Y_t执行；

265)记录＜X_t,Y_t,R_t,X_t+1＞四元组并存入记忆单元，若记忆单元的记录数小于阈值ξ则直接跳转步骤263)继续学习，否则在跳转步骤263)的同时每隔L轮学习从记忆单元中随机抽取A条记录学习得到目标神经网络，以最小化原神经网络与目标神经网络的差值为目标来优化权重W，确保神经网络的有效性和可靠性；

当Q值的变化幅度小于±ξ时，Q值表趋于稳定，得到每个状态X下最优的动作Y。

8.根据权利要求1所述的一种H-CRAN下基于多时间尺度协同优化的资源分配方法，其特征是，所述步骤3)的具体内容为：