CN111930501B

CN111930501B - 一种面向多小区网络的基于无监督学习的无线资源分配方法

Info

Publication number: CN111930501B
Application number: CN202010719735.5A
Authority: CN
Inventors: 孙明; 王淑梅; 徐耀群; 张妨; 崔弘; 马志晟; 曹伟
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2022-08-26
Anticipated expiration: 2040-07-23
Also published as: CN111930501A

Abstract

本发明公开了一种面向多小区网络的基于无监督学习的无线资源分配方法，属于无线通信技术领域。具体包括以下步骤：构建信道功率控制神经网络和0‑1信道分配神经网络，采用系统容量与能量效率的线性加权和的负期望作为损失函数，首先利用无监督学习对信道功率控制神经网络进行训练，再将训练好的信道功率控制神经网络接入到0‑1信道分配神经网络之后，利用无监督学习对0‑1信道分配神经网络进行训练。本发明通过对信道功率和信道分配的无监督学习，最大化系统容量与能量效率的线性加权和的期望，满足了新一代无线通信网络对高速率、低延时、低功耗和动态化的要求。

Description

一种面向多小区网络的基于无监督学习的无线资源分配方法

技术领域

本发明涉及基于一种面向多小区网络的基于无监督学习的无线资源分配方法，属于无线通信技术领域。

背景技术

随着绿色网络、智慧网络等新概念的提出和5G网络的兴起，新一代无线通信网络日益复杂化、动态化，对高速率、低延时和低功耗提出了越来越高的要求，促使频谱资源优化目标向多样化、综合化发展。

目前传统的蜂窝网络无线资源分配方法包括迭代分布优化、遗传算法、人工蜂群算法、博弈理论、拍卖机制、图着色理论等。这些传统方法均属于计算密集型方法，对于实际通信系统而言，计算量大、延时长，影响通信系统的实时性。另外，这些传统方法主要进行静态优化，难于适应动态变化环境，缺乏反映通信系统重要设计特征的期望约束。因此，对于新一代高密集、大数据、动态化、高速率、低延时和低功耗的蜂窝网络而言，传统的蜂窝网络无线资源分配方法已无法满足新一代无线网络的需求。

深度学习作为机器学习的一个分支，具有多层非线性处理单元，因而具有强大的非线性映射能力，并具有从输入数据中逐层抽取高级特征的能力。深度学习可通过线下学习训练后进行在线推断。深度学习的优点则是经过学习训练的模型不需要在线再训练就可以实现多个目标的推断，并且具有并行计算能力的图形处理单元GPU可使深度学习模型在毫秒级时间内做出推断。

当前深度学习已应用于无线资源分配中，现状分析如下：

(1)将无监督深度学习应用于基于设备到设备收发信道链路的功率控制：在此应用场景中，设备到设备的收发信道链路已预先设定，因此该应用场景不涉及信道链路的选择问题，只涉及信道链路的功率控制问题，因而无法用于解决多小区网络中完全频率复用场景中的无线资源分配问题。

(2)基于深度强化学习的无线资源分配：在强化学习中，一个重要的前提是行为、状态和奖赏需要满足马尔可夫决策过程，若当前行为与下一状态独立将削弱马尔可夫决策过程这一前提，从而降低强化学习的性能；在当前基于深度强化学习的无线资源分配情景中，一般将信道分配或功率控制作为行为，将干扰作为状态，将优化目标作为奖赏，在这样的情景中，只有当信道状态信息固定不变时，信道分配或功率控制(行为)与干扰(状态)才不是独立的，才能满足马尔可夫决策过程的前提并能充分发挥出强化学习的作用；以上分析表明基于深度强化学习的无线资源分配在动态优化上存在一定程度的不足。

(3)基于有监督深度学习的无线资源分配：在基于有监督学习的无线资源分配中，需要借助遗传算法等启发式算法产生大量的标签数据来训练深度学习模型，并且产生标签数据的启发算法的优化性能对有监督深度学习模型的推断性能有直接的影响；而为了改善启发算法的优化性能，一般需要延长启发算法的搜索时间，这无疑增加了获取标签数据的时间耗费。

综上所述，在多小区全频复用上，现有的深度学习方法无法同时满足新一代无线通信网络对高速率、低延时、低功耗和动态化的要求。

发明内容

本发明的目的是提出一种面向多小区网络的基于无监督学习的无线资源分配方法，通过对信道功率和信道分配的无监督学习，最大化系统容量与能量效率的线性加权和的期望，满足新一代无线通信网络对高速率、低延时、低功耗和动态化的要求。

一种面向多小区网络的基于无监督学习的无线资源分配方法，所述无线资源分配方法包括以下步骤：

S100、构建信道功率控制神经网络模型，所述信道功率控制神经网络模型的输入为信道增益和0-1信道分配、输出为优化的信道功率，首先利用无监督学习的方法对信道功率控制神经网络模型进行训练，采用系统容量与能量效率的线性加权和的负期望作为损失函数，以最大化系统容量与能量效率的线性加权和的期望；

S200、构建0-1信道分配神经网络模型，所述0-1信道分配神经网络模型的输入为信道增益、输出为优化的0-1信道分配，然后利用无监督学习的方法对0-1信道分配神经网络模型进行训练，采用系统容量与能量效率的线性加权和的负期望作为损失函数，训练中将信道增益与0-1信道分配网络输出的0-1信道分配同时输入到先前训练好的信道功率控制神经网络，以最大化系统容量与能量效率的线性加权和的期望。

进一步的，在步骤一中，所述信道功率控制神经网络模型包含一个输入预处理层、一个输入层、多个全连接隐层、一个输出层和一个输出约束层，其中，所述一个输入预处理层接收信道增益和0-1信道分配，对信道增益和信道分配信息进行处理后再传至输入层；每个全连接隐层包括一个全连接层、一个批归一化层和一个ReLU激活层，其中，所述输出约束层对输出层的输出进行处理以满足约束，将约束优化转化为无约束优化，不改变输出层的维度。

进一步的，基于所述输入预处理层，数据预处理包括如下步骤：

S111、将形状为(N，M，K)的信道增益张量扁平化，其中，N为多小区网络所共享的正交信道的数量，M为多小区网络所含有的小区个数，K为多小区网络中的用户总数；

S112、将扁平化的信道增益归一化至[0,1]之间；

S113、对维度为N×M×K的0-1信道分配与归一化后的扁平化信道增益作差，将作差结果传至输入层。

进一步的，所述信道功率控制神经网络的输出层的维度大小为N×M，所述信道功率控制神经网络的输出约束层将约束优化转化为无约束优化的方法包括如下步骤：

S121、将输出层输出的信道功率限制在[P_min,P_max]之间，其中P_min为信道传输所要求的最低功率(P_min>0)，P_max为基站的最大传输功率(P_max>N×P_min)；

S122、计算每个小区所分配的N个正交信道的功率之和，若超出基站的功率上限P_max，则首先采用softmax将分配给该小区的N个正交信道的功率归一化至[0,1]之间，再对这N个归一化的功率乘以(P_max－N×P_min)，最后再对每个信道功率加上P_min。

进一步的，在步骤二中，所述0-1信道分配神经网络模型包含一个输入预处理层、一个输入层、多个全连接隐层、一个输出层和一个输出约束层；输入预处理层接收信道增益张量，对信道增益张量进行处理后再传至输入层；每个全连接隐层均包含一个全连接层、一个批归一化层和一个Tanh激活层；输出约束层对输出层的输出进行处理以满足约束，将约束优化转化为无约束优化，不改变输出层的维度。

进一步的，所述0-1信道分配神经网络模型的输入预处理层的数据预处理包括如下步骤：

S211、将形状为(N，M，K)信道增益张量扁平化；

S212、将扁平化的信道增益归一化至[-1,1]之间。

进一步的，所述0-1信道分配神经网络模型的输出层的维度大小为N×M×K；所述0-1信道分配神经网络模型的输出约束层将约束优化转化为无约束优化的方法包括如下步骤：

S221、将所述0-1信道分配神经网络模型的输出层的输出值看作是每个小区的所有用户在每个信道上的适应值，并找到每个小区中在每个信道上具有的最大适应值的用户；

S222、将每个小区中在每个信道上具有最大适应值的用户所对应的输出约束层的输出置1，并将每个小区中的其他用户所对应的输出约束层的输出置0；

S223、将不属于每个小区的用户所对应的输出约束层的输出置0。

本发明的主要优点是：本发明的一种面向多小区网络的基于无监督学习的无线资源分配方法，通过对信道功率和信道分配的无监督学习，最大化系统容量与能量效率的线性加权和的期望，满足了新一代无线通信网络对高速率、低延时、低功耗和动态化的要求。

附图说明

图1是本发明的一种面向多小区网络的基于无监督学习的无线资源分配方法的实施流程图；

图2是本发明中的多小区网络全频复用系统模型；

图3是本发明实施例所设计的信道功率控制神经网络模型；

图4是信道功率控制神经网络模型输出约束层的处理约束步骤的流程；

图5是本发明实施例所设计的0-1信道分配神经网络模型；

图6是0-1信道分配神经网络模型输出约束层的处理约束步骤的流程；

图7是不同方法的能量效率比较曲线；

图8是不同方法的系统容量比较曲线；

图9是不同方法的系统容量与能量效率的线性加权和比较曲线；

图10是人工蜂群的计算时间曲线；

图11是本发明方法的计算时间曲线。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种面向多小区网络的基于无监督学习的无线资源分配方法，采用先无监督学习优化信道功率、后无监督学习优化信道分配的方法，最大化系统容量与能量效率的线性加权和的期望，所述无线资源分配方法包括以下步骤：

S112、将扁平化的信道增益归一化至[0,1]之间；

具体的，采用无监督学习的方法对信道功率控制神经网络进行训练，在训练时采用系统容量与能量效率的线性加权和的负期望作为损失函数，以最大化系统容量与能量效率的线性加权和的期望；所采用的损失函数可以表示为：

其中，R(θ₁)为系统容量，单位为bit/(s·Hz)，可以表示为：

E(θ₁)为系统的能量效率，单位为Mbit/(s·W)，可以表示为：

α、β为系统容量与能量效率的线性权重，满足α+β＝1、α＞0、β＞0；式(2)、(3)中各符号的定义是：

表示基站m将信道n分配给用户k，否则

θ₁为信道功率控制神经网络参数；

表示基站m使用信道n与用户k通信时的功率，可由信道功率控制神经网络的输出与信道分配的对应关系得到；

表示基站m使用信道n与用户k通信时的信道增益，PL_m,k为基站m到用户k的路径损耗，X_α为均值0、标准差α的正态随机变量，

为基站m使用信道n与用户k通信时瑞丽衰落；

表示基站m使用信道n与用户k通信时的带宽；

表示基站m与用户k通信时的噪声；

表示基站m使用信道n与用户k通信时的干扰，可以表示为：

S211、将形状为(N，M，K)信道增益张量扁平化；

S212、将扁平化的信道增益归一化至[-1,1]之间。

具体的，采用无监督学习的方法对0-1信道分配神经网络进行训练，在训练时采用系统容量与能量效率的线性加权和的负期望作为损失函数，以最大化系统容量与能量效率的线性加权和的期望；所采用的损失函数可以表示为：

其中，R(θ₂)为系统容量，单位为bit/(s·Hz)，可以表示为：

E(θ₂)为系统的能量效率，单位为Mbit/(s·W)，可以表示为：

式(6)、(7)中各符号的定义是：θ₂为0-1信道分配神经网络参数；

表示由0-1信道分配神经网络输出的0-1信道分配，

表示基站m将信道n分配给用户k，否则

表示基站m使用信道n与用户k通信时的干扰，可以表示为：

其它符号的含义与式(1)～(3)的符号含义相同。需要注意的是，线性权重α、β的值需与式(1)中线性权重的值保持相同。

下面提供一个具体实施例：

该面向多小区网络的基于无监督学习的无线资源分配方法，实施流程如图1所示。以下结合实施流程、实施例、附图对本专利的实施做详细说明。

图2是多小区网络全频复用系统模型。在实施例中，假定一多小区网络全频复用系统模型有3个相邻的小区，每个小区半径为200m，基站位于小区中央，基站的最大发射功率为38dBm，系统中有10个用户，其中小区A随机分布有3个用户，小区B随机分布有3个用户，小区C随机分布有4个用户，用户与小区的接入关系固定，所有小区共享系统中的信道资源，可用子信道数为4个，子信道带宽为180kHz，载波频率为2GHz，信道噪声为-170dBm/Hz，系统要求每个子信道的最低传输功率为26.99dBm，路径损耗采用对数距离路径损耗模型，参考距离设为100m，路径损耗指数设为3.2，正态随机变量X_α的标准差设为8。

该面向多小区网络的基于无监督学习的无线资源分配方法，详细实施步骤如下：

步骤1、构建信道功率控制神经网络，信道功率控制网络的输入为信道增益和0-1信道分配、输出为优化的信道功率，首先利用无监督学习的方法对信道功率控制神经网络进行训练，采用系统容量与能量效率的线性加权和的负期望作为损失函数，以最大化系统容量与能量效率的线性加权和的期望。

图3是本专利实施例所设计的信道功率控制神经网络模型，该网络模型包含1个输入预处理层、1个输入层、4个全连接隐层、1个输出层以及1个输出约束层；输入预处理层接收信道增益和0-1信道分配，对信道增益和信道分配信息进行处理后再传至输入层；每个全连接隐层包含1个全连接层、1个批归一化层以及1个ReLU激活层；输出约束层对输出层的输出进行处理以满足约束，将约束优化转化为无约束优化，不改变输出层的维度。根据假定的多小区网络全频复用系统模型可知，N＝4、M＝3、K＝10，输入到该网络的信道增益张量的形状为(4，3，10)、输入层神经元的维度为120、输出层神经元的维度为12；4个全连接隐层中全连接层神经元的维度从左到右依次为180、120、80、12。

信道功率控制神经网络模型的输入预处理层的数据预处理步骤为：首先，将形状为(4，3，10)的信道增益张量扁平化为H′；然后，运用以下公式将扁平化的信道增益H′归一化至[0,1]之间：

最后，对维度为N×M×K的0-1信道分配D与归一化后的扁平化信道增益

作差，即

将作差结果

传至输入层。

信道功率控制神经网络模型的输出约束层将约束优化转化为无约束优化，如图4所示，具体步骤为：首先，将输出层输出的信道功率限制在[P_min,P_max]之间，其中P_min为信道传输所要求的最低功率(P_min＝10^2.699/1000)，P_max为基站的最大传输功率(P_max＝10^3.8/1000)；然后，计算每个小区所分配的4个正交信道的功率之和，若超出基站的功率上限P_max，则首先采用softmax将分配给该小区的4个正交信道的功率归一化至[0,1]之间，再对这N个归一化的功率乘以(P_max－4×P_min)，最后再对每个信道功率加上P_min。

采用无监督学习的方法对信道功率控制神经网络进行训练，在训练时采用系统容量与能量效率的线性加权和的负期望作为损失函数，以最大化系统容量与能量效率的线性加权和的期望；所采用的损失函数可以表示为：

其中，α＝0.6、β＝0.4，R(θ₁)为系统容量，单位为bit/(s·Hz)，可以表示为：

E(θ₁)为系统的能量效率，单位为Mbit/(s·W)，可以表示为：

式(10)～(12)中各符号的含义与式(1)～(4)相同。

步骤2、构建0-1信道分配神经网络，0-1信道分配网络的输入为信道增益、输出为优化的0-1信道分配，然后利用无监督学习的方法对0-1信道分配神经网络进行训练，采用系统容量与能量效率的线性加权和的负期望作为损失函数，训练中将0-1信道分配网络的输入——信道增益和0-1信道分配网络的输出——0-1信道分配同时输入到先前训练好的信道功率控制神经网络，以最大化系统容量与能量效率的线性加权和的期望。

图5是本专利实施例所设计的0-1信道分配神经网络模型，该网络模型包含1个输入预处理层、1个输入层、2个全连接隐层、1个输出层以及1个输出约束层；输入预处理层接收信道增益张量，对信道增益张量进行处理后再传至输入层；每个全连接隐层均包含1个全连接层、1个批归一化层以及1个Tanh激活层；输出约束层对输出层的输出进行处理以满足约束，将约束优化转化为无约束优化，不改变输出层的维度。根据假定的多小区网络全频复用系统模型可知，N＝4、M＝3、K＝10，输入到该网络的信道增益张量的形状为(4，3，10)、输入层神经元的维度为120、输出层神经元的维度为120；2个全连接隐层中全连接层神经元的维度从左到右依次为300、120。

0-1信道分配神经网络模型的输入预处理层的数据预处理步骤为：首先，将形状为(N，M，K)的信道增益张量扁平化为H′；然后，运用以下公式将扁平化的信道增益H′归一化至[-1,1]之间：

0-1信道分配神经网络模型的输出约束层将约束优化转化为无约束优化，如图6所示，具体步骤为：首先，将神经网络输出层的输出值看作是每个小区的所有用户在每个信道上的适应值，并找到每个小区中在每个信道上具有的最大适应值的用户；然后，将每个小区中在每个信道上具有最大适应值的用户所对应的输出约束层的输出置1，并将每个小区中的其他用户所对应的输出约束层的输出置0；最后，将不属于每个小区的用户所对应的输出约束层的输出置0。

采用无监督学习的方法对0-1信道分配神经网络进行训练，在训练时采用系统容量与能量效率的线性加权和的负期望作为损失函数，以最大化系统容量与能量效率的线性加权和的期望；所采用的损失函数可以表示为：

其中，α＝0.6、β＝0.4，R(θ₂)为系统容量，单位为bit/(s·Hz)，可以表示为：

E(θ₂)为系统的能量效率，单位为Mbit/(s·W)，可以表示为：

式(14)～(16)中各符号的含义与式(5)～(8)相同。

本专利的资源分配方法先进行线下训练后，再进行线上计算。信道功率控制神经网络和0-1信道分配神经网络训练完成后，就可利用0-1信道分配神经网络和信道功率控制神经网络进行线上计算，计算过程是：先将信道增益信息输入到0-1信道分配神经网络中，再将信道增益和0-1信道分配神经网络输出的0-1信道分配输入到信道功率控制神经网络中，再根据0-1信道分配神经网络输出的0-1信道分配和信道功率控制神经网络输出的信道功率计算系统容量与能量效率的线性加权和。

在线下训练中，信道功率控制神经网络的学习速率设置为0.001，0-1信道分配神经网络的学习速率设置为0.0005。本专利的效果通过与人工蜂群算法对随机产生的1000个信道增益实例进行比较来说明。人工蜂群蜜源数量设置为20，迭代次数设置为20。图7、图8、图9、图10和图11给出了本专利的资源分配方法与人工蜂群算法的资源分配方法在本实施例上的能量效率、系统容量、容量与能量效率的线性加权和、计算时间。图7、图8和图9说明：本专利的资源分配方法能够获得相近于人工蜂群的能量效率，高于人工蜂群14.55％的平均系统容量，以及高于人工蜂群11.98％的平均系统容量与能量效率的线性加权和。图10和图11说明：本专利的计算时间是毫秒级的，远远少于人工蜂群的秒级计算时间；在非批处理计算模式下，本专利的计算时间比人工蜂群的计算时间平均节省了约774倍；在批处理计算模式下，当批处理量设为1000时，本专利的计算时间比人工蜂群的计算时间节省了约144242倍。以上说明：本专利方法优于传统的人工蜂群算法，能够有效地最大化系统容量与能量效率的线性加权和的期望，满足新一代无线通信网络对高速率、低延时、低功耗和动态化的要求。

实验仿真结果表明，本发明提出的方法能够在毫秒级时间内完成在线计算，计算时间与人工蜂群相比平均节省了约774倍，并获得了高于人工蜂群算法14.55％的平均系统容量以及高于人工蜂群11.98％的平均系统容量与能量效率的线性加权和。

上述实施方式只是本专利的一个实例，不构成对本专利的任何限制，例如本专利还可以对含有更多小区的蜂窝网络、用户和信道进行资源分配。

Claims

1.一种面向多小区网络的基于无监督学习的无线资源分配方法，其特征在于：所述无线资源分配方法包括以下步骤：

S200、构建0-1信道分配神经网络模型，所述0-1信道分配神经网络模型的输入为信道增益、输出为优化的0-1信道分配，然后利用无监督学习的方法对0-1信道分配神经网络模型进行训练，采用系统容量与能量效率的线性加权和的负期望作为损失函数，训练中将信道增益与0-1信道分配网络输出的0-1信道分配同时输入到先前训练好的信道功率控制神经网络，以最大化系统容量与能量效率的线性加权和的期望；

在步骤一中，所述信道功率控制神经网络模型包含一个输入预处理层、一个输入层、多个全连接隐层、一个输出层和一个输出约束层，其中，所述一个输入预处理层接收信道增益和0-1信道分配，对信道增益和信道分配信息进行处理后再传至输入层；每个全连接隐层包括一个全连接层、一个批归一化层和一个ReLU激活层，其中，所述输出约束层对输出层的输出进行处理以满足约束，将约束优化转化为无约束优化，不改变输出层的维度；

基于所述输入预处理层，数据预处理包括如下步骤：

S112、将扁平化的信道增益归一化至[0,1]之间；

S113、对维度为N×M×K的0-1信道分配与归一化后的扁平化信道增益作差，将作差结果传至输入层；

所述信道功率控制神经网络的输出层的维度大小为N×M，所述信道功率控制神经网络的输出约束层将约束优化转化为无约束优化的方法包括如下步骤：

S122、计算每个小区所分配的N个正交信道的功率之和，若超出基站的功率上限P_max，则首先采用softmax将分配给该小区的N个正交信道的功率归一化至[0,1]之间，再对这N个归一化的功率乘以(P_max－N×P_min)，最后再对每个信道功率加上P_min；

在步骤二中，所述0-1信道分配神经网络模型包含一个输入预处理层、一个输入层、多个全连接隐层、一个输出层和一个输出约束层；输入预处理层接收信道增益张量，对信道增益张量进行处理后再传至输入层；每个全连接隐层均包含一个全连接层、一个批归一化层和一个Tanh激活层；输出约束层对输出层的输出进行处理以满足约束，将约束优化转化为无约束优化，不改变输出层的维度；

所述0-1信道分配神经网络模型的输入预处理层的数据预处理包括如下步骤：

S211、将形状为(N，M，K)信道增益张量扁平化；

S212、将扁平化的信道增益归一化至[-1,1]之间；

所述0-1信道分配神经网络模型的输出层的维度大小为N×M×K；所述0-1信道分配神经网络模型的输出约束层将约束优化转化为无约束优化的方法包括如下步骤：