CN114760646A

CN114760646A - 一种基于多层聚合上下文mab的链路决策方法

Info

Publication number: CN114760646A
Application number: CN202210405623.1A
Authority: CN
Inventors: 赵乐; 聂振钢; 刘丽哲; 闫磊; 卢继华; 冯立辉; 王卓
Original assignee: Beijing Institute of Technology BIT; CETC 54 Research Institute
Current assignee: Beijing Institute of Technology BIT; CETC 54 Research Institute
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-15

Abstract

本发明属于链路选择及通信数据传输技术领域，涉及一种基于多层聚合上下文MAB的链路决策方法。所述方法包括：S1、收集通信资源块与地面节点的链路信息并进行编码、整合及归一化得到特征向量，构建虚拟通信链路集合；S2、构建链路组合上下文特征向量再聚合得到簇中心及空地节点链路组合簇；通过上下文‑MAB模型估计预期收益，得到空地节点最优链路组合；S3、通过多用户贪心算法模型，为空地节点最优链路组合选择最佳通信参数组合；通过识别最优链路组合所属空地节点链路组合簇减少手臂数，转至S1进行下一轮决策。所述方法使复杂度降低、决策收益提升、学习效率与收敛速度提高。

Description

一种基于多层聚合上下文MAB的链路决策方法

技术领域

本发明属于链路选择及通信数据传输技术领域，涉及一种基于多层聚合上下文MAB的链路决策方法。

背景技术

随着通信技术的不断发展，实践中的通信越来越需要高带宽、低延迟和高可靠性的通信链路，由于已有的4G LTE信号严重拥挤，mmwaves(毫米波，频率30GHz-300GHz)已成为5G网络的选择，更高的频率也意味着更密集的基站。然而在应急场景下，地面基站节点之间的通信却面临着严峻挑战，由于节点周围建筑物、节点的移动及环境带来复杂干扰，通信性能会频繁中断。基于搭载于空中平台的空中基站相较于传统地面基站具有的高移动性、广覆盖范围的特点，可在任务区域中灵活移动，在应急通信领域有广泛应用。

而在实际通信过程中，最大化系统的通信吞吐量与用户QoS，并为地面节点提供弹性服务需要对通信数据卸载进行复杂的联合优化。在优化过程中需要考虑用户QoS、节点移动、节点能耗等众多问题，由于上述问题关联性很低，因此上述优化过程是个NP难问题，通过优化求解得到联合最优解的难度较高，小型数据处理终端难以负荷。多臂老虎机(MAB)理论作为机器学习中强化学习的一种代表性方法，能够简化传统优化方法。MAB理论可将通信数据卸载问题转化为组合分配问题，即空中节点与地面节点的通信链路组合决策，为此，我们提出了一种基于多层聚合上下文MAB的链路决策方法。

发明内容

本发明的目针对传统方法优化方法子问题不耦合导致的NP难问题难以简单求解的缺陷，提出了一种基于多层聚合上下文MAB的链路决策方法，基于空中节点与地面节点的特征构建空地节点链路组合的上下文特征为空地节点分配通信链路，借助多层MAB决策模型实现先分配链路组合，再自适应选择参数组合，并对上下文特征进行特征聚合来降低复杂度，抵消多层MAB决策模型带来的影响。并通过迁移计算将多层MAB决策模型迁移至数据中心，通过数据中心控制节点间通信。最终实现自适应距离变化、通信损耗、节点通信需求及低复杂度、高效的多参数联合优化，提高系统的通信吞吐量。

为了实现上述目的，本发明采取如下技术方案：

所述基于多层聚合上下文MAB的链路决策方法依托的链路决策系统，包括数据中心、空中节点与地面节点；

所述数据中心分别与空中节点与地面节点相连，接收空中节点中通信资源块与地面节点的链路信息；

所述地面节点为N个；空中节点为M个且每个空中节点有C个为空中节点特有的通信资源块；所述通信资源块表示可分配的通信资源，随具体的通信方式变化；

一次通信中，1个地面节点占用该地面节点对应空中节点中的1个通信资源块；M个空中节点与N个地面节点之间的虚拟通信链路集合；

虚拟通信链路集合中链路组合的数量取决于地面节点数量与空中节点资源块的数量；所述链路组合的数量为P(MC，N)；

其中，P(MC，N)为在MC个元素中取N个元素进行排列的数目；

所述虚拟通信链路集合包括所有空中节点与地面节点的链路组合；所述链路组合一端是通信资源块，一端是地面节点；

若虚拟通信链路集合中某链路组合被选定，则该链路组合对两端的空中节点与地面节点会进行信息收发；

所述基于多层聚合上下文MAB的链路决策方法，具体包括如下步骤：

S1、数据中心收集通信资源块与地面节点的链路信息，并对收集的链路信息进行编码、整合及归一化得到通信资源块与地面节点的特征向量，构建虚拟通信链路集合；

所述链路信息，包括空中节点与地面节点的位置、速度、通信资源占用率以及带宽需求；

所述通信资源块与地面节点的特征向量为某个通信资源块或地面节点特有，并对应着相应链路组合的上下文特征向量；

其中，上下文特征向量包含了链路组合的环境与历史信息，对应链路组合两端的空中节点资源块与地面节点；

所述虚拟通信链路集合包括所有空中节点与地面节点的链路组合，且所述链路组合一端是通信资源块，一端是地面节点；

S2、构建第一层MAB决策模型，基于S1得到的通信资源块与地面节点的特征向量构建链路组合上下文特征向量，对链路组合上下文特征向量进行聚合，得到簇中心以及空地节点链路组合簇；

其中，第一层MAB决策模型为上下文-MAB模型；

其中，链路组合上下文特征向量为通信资源块与地面节点的特征向量通过特征权重矩阵映射得到，包含空中节点与地面节点之间的信道状态、发射频率、链路组合两端空地节点的距离以及对应通信资源块与地面节点的交互结果信息；

所述特征权重矩阵为通信资源块与地面节点的特征向量及对应通信资源块与地面节点间的交互结果通过线性回归预训练的结果；

其中，对应通信资源块与地面节点的交互结果为该通信资源块与地面节点的链路组合的真实收益；

S3、基于S2构建的第一层MAB决策模型，遍历S1得到的虚拟通信链路集合中的链路组合，基于链路组合的上下文特征向量估计该链路组合的预期收益并进行排序，得到空地节点最优链路组合；

其中，链路组合的上下文特征向量表示为x_m,c,n；

其中，m为空中节点编号，取值范围m∈M；c为通信资源块编号，取值范围c∈C；n为地面节点编号，取值范围n∈N；

其中，N为地面节点的数量；M为空中节点的数量，C为每个空中节点持有的通信资源块数量，即一个空中节点最多能和C个地面节点建立链路组合；

S3、具体包括如下子步骤：

S31、将虚拟通信链路集合中的链路组合作为MAB中的手臂，计算各链路组合的预期收益；

所述各链路组合的预期收益通过

计算；

其中，

为该链路组合作为MAB手臂的收益系数，为历史收益记录与上下文特征向量线性回归的计算结果；

其中，线性回归为岭回归；

S32、根据S31得到的各个链路组合的预期收益，将S1得到的虚拟通信链路集合中的链路组合按从大到小排序，得到排序后的空地节点链路组合；

S33、选择MC和N中小的作为所需链路组合数；

S34、将S32得到的排序后的空地节点链路组合作为可选链路组合，遍历可选链路组合，并判断待选链路组合可否被选择，更新可选链路组合，直至选出所需链路组合数数目的链路组合，得到空地节点最优链路组合；

所述判断可否被选择具体为：判断以当前待选链路组合对应的空中节点开始的链路组合被选择个数是否小于C，只有小于C，才能继续选择最优链路组合中以该空中节点开始的链路组合，否则跳过当前待选链路组合，并更新可选链路组合；

所述待选链路组合为遍历排序后的空地节点链路组合过程中遍历指针依次指向的链路组合；

所述更新可选链路组合具体为：在可选链路组合中删除以当前链路组合对应的空中节点开始的链路组合；

至此，通过S3，得到了空地节点最优链路组合；

S4、基于S2得到的空地节点链路组合簇构建第二层MAB决策模型，完成对S3得到的空地节点最优链路组合的最佳通信参数组合的选择，并观测最佳通信参数组合应用到最优链路组合的真实收益；

其中，第二层MAB决策模型为多用户贪心算法模型；

S4、具体包括如下子步骤：

S41、构建虚拟链路参数性能表，具体为：为S2得到的空地节点链路组合簇的各个簇中心对应的链路组合遍历所有通信参数组合，观测所有通信参数的组合在各个簇中心对应的链路组合上应用的真实收益，虚拟链路参数性能表索引为簇中心对应链路组合与不同通信参数组合值为其真实收益；

所述真实收益为某链路组合应用了某通信参数组合的链路组合达到的最大吞吐率；若最大吞吐率大于设定最低吞吐率，真实收益为1，否则真实收益为0；

其中，最低吞吐率为地面节点正常工作所需最低数据速率；

所述通信参数组合，表示为：[编码方式，调制方式，接入方式，调制参数]；

所述编码方式为编码或无编码；所述调制方式为单载波、FDM或OFDM，所诉接入方式为OMA或NOMA；

所述调制参数，包括调制频率、幅度及占空比；

所述通信参数组合中编码方式、调制方式和接入方式各取1种；所述通信参数组合中的调制参数包括调制频率、幅度及占空比的值；

S42、遍历S3得到的空地节点最优链路组合，为其中每个链路组合选择最佳通信参数组合，并提取当前空地节点最优链路组合所属空地节点链路组合簇簇中心作为归属簇中心；在S41得到的虚拟链路参数性能表中查找归属簇中心应用不同通信参数组合的真实收益，得到最佳通信参数组合收益排序；

S43、将不同通信参数组合作为手臂，将S42得到的最佳通信参数组合收益排序中真实收益最高的一组参数组合作为第二层MAB决策模型中的exploit手臂，将所有参数组合中与exploit手臂仅有两项不同的参数组合作为第二层MAB决策模型中的explore手臂集；

S44、对exploit手臂与explore手臂集进行探索与利用，选择出该轮次的通信参数组合；

至此，完成了对S3得到的空地节点最优链路组合的最佳通信参数组合的选择；

S45、观测最佳通信参数组合应用到当前最优链路组合的真实收益；

S5、将最优链路组合对应的上下文特征向量及最优链路组合在该轮决策中的真实收益加入历史收益记录，转至S1，进行下一轮决策；

其中，最优链路组合的真实收益为S4中得到的最佳通信参数组合应用到最优链路组合的真实收益；

所述历史收益记录中不保存最佳通信参数组合；

至此，通过所述S1到S5，完成了一种基于多层聚合上下文MAB的链路决策方法。

有益效果

所述的一种基于多层聚合上下文MAB的链路决策方法，与现有联合调度方法相比，具有如下有益效果：

1.所述方法通过MAB决策方法应用端到端决策的优化方式，对比于传统优化方法，不需要准确的信道估计及复杂的反馈机制，明显降低了优化算法复杂度；

2.所述方法将通信数据卸载问题转化为通信链路组合分配决策问题，并在决策过程中动态更新通信链路组合的上下文特征向量，为决策引入历史经验及环境信息，相比于传统MAB方法提升了决策收益；

3.所述方法创造性的将上下文特征向量动态分组，并采用双层MAB决策的方法，先后选择链路组合和参数组合；通过识别对待选上下文所述分组大幅降低待选手臂数量，在减少了双层MAB算法中的决策耗时；

4.所述方法将上下文MAB方法与贪心算法结合，在引入历史经验与算法复杂度之间取得了良好平衡，扩大了搜索空间，提高了学习效率与收敛速度。

附图说明

图1为本发明一种基于多层聚合上下文MAB的链路决策方法的流程图；

图2为空地节点链路决策模型模拟场景示意图；

图3为本发明一种基于多层聚合上下文MAB的链路决策方法平均收益随决策次数的变化折线图。

具体实施方式

下面结合附图和实施例对本发明一种基于多层聚合MAB的空地节点链路决策方法做进一步说明和详细描述。

实施例1

本发明所述一种基于多层聚合上下文MAB的主要流程如图1所示；所述多层聚合上下文MAB方法所用的MAB决策模型第一层为上下文-MAB方法，通过观测链路组合的动态上下文特征，估计链路组合的预期收益，并根据实际收益反馈影响上下文特征，平衡MAB的探索和利用，通过应用上下文信息，相比与其他方法，大大提高了平均收益；第二层为多用户贪心算法模型，通过观测当前链路组合所属空地节点链路组合簇估计不同参数组合应用于当前链路组合的收益；

本发明所述多层聚合上下文MAB模拟场景如图1所示；搭载空中基站的无人机作为空中节点，在场景中可快速机动；地面上随机分布的用户设备(UE)作为地面节点；空中节点与字面节点的状态随时间变化，并实时传送到数据中心；

实施例包括以下步骤：

S1、收集空中节点与地面节点的位置、速度、通信资源占用率、带宽需求信息，归一化上述信息，构建空地节点的特征向量，并初始化虚拟通信链路集合；

其中，虚拟通信链路集合包括所有空中节点与地面节点的链路组合，链路组合一端是空中节点资源块，一端是地面节点，若某链路组合被选定，则该链路组合对两端的空中节点与地面节点会进行信息收发；

其中，虚拟通信链路集合中链路组合的数量取决于地面节点数量与空地节点资源块的数量，具体为：在一次通信中，地面节点占用空中节点的一个通信资源块，设空中节点数量为M，每个空中节点有C个通信资源块，

地面节点数量为N，则虚拟通信链路中链路组合的数量为A_num＝P(MC,N)；其中P(MC,N)为在MC个元素中取N个元素进行排列的数目；

在实施例中设M＝2，C＝8，N＝6，则A_num＝P(16,6)＝5765760；

S2、构建第一层MAB决策模型，基于S1得到的空地节点特征向量初始化并更新虚拟通信链路集合中链路组合的上下文特征向量，对空地虚拟通信链路中链路组合的上下文特征进行聚合，构建空地节点链路组合簇；

其中，第一层MAB为上下文-MAB模型；空地节点链路簇包括空中节点的资源块与以空中节点为中心的地面节点的虚拟通信链路，链路组合上下文特征向量为空地节点特征向量通过特征权重矩阵在上下文特征空间的映射结果，包括空中节点与地面节点之间的信道状态、发射频率、链路两端空地节点的距离以及对应空地节点的交互结果；

对链路组合上下文特征进行聚合的方法可以为K-means++聚类方法；聚类中心个数参考空中节点通信资源块个数设置为16；

S3、构建虚拟链路参数性能表，具体为：将S2得到的空地节点链路组合簇的各个簇中心对应的链路组合应用不同的参数组合，并验证不同参数组合下的通信性能，得到不同参数组合在各个簇中心对应的链路组合上应用的真实收益；

S3、在S2得到的空地节点链路中选择最优链路组合，得到空地节点的最优链路组合；

其中MAB决策模型为上下文-MAB模型，具体选择过程可分为以下几个子步骤：

S31、为所有空中节点m建立链路组合表，表示为Ap，并构建各空中节点的链路组合表，分别表示为Ap_m(m＝1,2,…,M)；

其中链路组合表的索引为空中节点编号m，通信资源块编号c，及地面节点编号n，其中m取值范围为m∈M，c取值范围为c∈C，n的取值范围为n∈N，元素数量为A_num；链路组合表的值为对应通信资源块与地面节点链路组合的上下文特征向量；

S32、将虚拟通信链路集合中的链路组合作为MAB理论的手臂，根据下式计算各个链路组合的预期收益：

其中，x_m,c,n为第m个空中节点的第c个资源块与第n个地面节点的链路组合的上下文特征向量；

为该链路组合作为MAB手臂的线性参数，为历史收益记录与上下文特征向量线性回归的计算结果；

其中，线性回归为岭回归；

S33、根据S33得到的各个链路组合的预期收益，将S3.1得到的各空中节点的空地节点链路组合表重新排序，得到预期收益从大到小的空地节点链路组合表AP'；

S34、计算需选择的链路组合个数，具体为：若MC<N，则需选择的链路组合个数为MC，若MC>N，则需选择的链路组合个数为N，假设最终需要选择的链路组合个数为K，在本实施例中K＝6；

S35、在S33得到的AP'中选择K个链路组合，得到空地节点的最优链路组合；具体为：

指针沿AP'的索引搜索，依次将K个可选链路组合保存为空中节点与地面节点的最优链路组合；

其中，一个空中节点最多能和C个地面节点建立链路组合，因此若第m个空中节点开始的链路组合已被选择了C个，则AP'中其他以第m个空中节点开始的链路组合被放弃，不再作为可选链路组合；

至此，通过S3，得到了空地节点的最优链路组合，选定了空中节点资源块及其对应的预期收益最高的地面节点；

S4、基于S2得到的空地节点链路组合簇与S3得到的虚拟链路参数性能表构建第二层MAB决策模型，为S3得到的空地节点最优链路组合选择最佳通信参数组合；

其中，第二层MAB决策模型为多用户贪心算法模型，通信参数包括：编码方式为编码或无编码；调制方式为单载波、FDM或OFDM；接入方式为OMA或NOMA等通信性能参数；

所述通信参数组合在本实施例中定义为：[编码方式，调制方式，接入方式，[调制参数]]；

其中，前三项编码为二值元素，调制参数包括调制频率、幅度及占空比，分别由两种方案，编码为三个二值元素；

因此，所述通信参数组合长度为6，则通信参数组合数量P_num＝64；

具体决策过程包括如下子步骤：

构建虚拟链路参数性能表，具体为：将S2得到的空地节点链路组合簇的各个簇中心对应的链路组合应用不同的参数组合，并验证不同参数组合下的通信性能，得到不同参数组合在各个簇中心对应的链路组合上应用的真实收益；

S4.1、观测一个最优链路组合所属的空地节点链路组合簇，获取该簇中心对应的链路组合应用不同的参数组合结果；

S4.2、将不同的参数组合作为手臂，将与S3.1得到的当前最优链路组合所属的空地节点链路组合簇中心的链路组合结合性能最佳的一组参数组合作为贪心算法中的exploit手臂，将参数组合中与exploit手臂仅有两项不同的参数组合为explore手臂集；

S4.3、参考贪心算法流程，对exploit手臂与explore手臂集进行探索与利用，选择出该轮次的参数组合；

其中探索explore手臂集的概率为p，利用exploit手臂的概率为1-p；所述p为贪心算法所用参数，设置为0.25；

至此，完成了对当前最优链路组合参数组合的选择，转到S4.1，进行下一个最优链路组合的参数组合决策；

S6、依据观测K个最优链路组合决策的真实收益；具体为：

观测各个链路组合的上下文特征向量，获取空地节点之间的距离、信道信息与通信需求，并据此观测各个链路组合能达到的最大吞吐率。如果最大吞吐率大于空地节点的平均吞吐率，则收益为1，否则为0；

其中平均吞吐率为实际系统观测结果，通过实测获取，本实施例中设置为1.5Mbps；

S7、将K个最优链路组合对应的上下文特征及其真实收益加入历史收益记录，转S1，进行下一轮决策；

根据仿真结果，将本发明所述多层聚合上下文MAB与单层的随机分配、贪心算法、softmax算法、UCB算法及上下文-MAB算法进行对比；

其中所述贪心算法为MAB的经典方法ε-Greedy算法；ε为S4.3中所述p；softmax方法为ε-Greedy算法的变体，其手臂被选中的概率为

其中a表示手臂，A表示手臂数量，

表示第t轮决策中手臂a的平均收益；所述手臂数量为基于S1得到的A_num个元素的虚拟通信链路集合与S4得到的P_num个通信参数集合的乘积，结果为A＝369,008,640；

所述UCB算法为MAB引入置信区间的概念，判断手臂可能达到的最大收益，选择期望收益最高的手臂。相比于ε-Greedy算法和Softmax算法大幅提高了平均收益。UCB算法基于对手臂被选中的次数的统计来执行选择，其表达式为：

其中u为权重系数，T_t,a表示第t轮手臂a被选中的次数，T为总决策数，本实施例设置为1000；

本发明所述多层聚合上下文MAB与随机分配、贪心算法、softmax算法、UCB算法、上下文-MAB算法在如图2所示模拟场景中的平均收益如图3所示；

由图3可知，本发明所述多层聚合上下文MAB在多轮决策中平均收益最高，且收益率稳定所需轮次数目相比于随机分配、贪心算法、softmax算法及UCB算法都有提升；

同时也需注意，本发明所述多层聚合上下文MAB的平均收敛速度落后于于单层的上下文-MAB，主要原因是由于引入了多用户贪心算法的第二层MAB，但由此带来的

本发明所述多层聚合上下文MAB与非聚合MAB方法及以对收益进行梯度下降优化的传统优化方法在Matlab平台上运行时间对比如下表1所示：

表1不同方法单次决策平均耗时对比

根据表1可知，本发明所述多层聚合上下文MAB在算法复杂度上相比于传统方法优势明显，而传统方案不但耗时高，且由于初始状态是随机值，因此其收益水平接近与随机分配，与本发明方法相比劣势明显；

此外，由于本发明素数多层聚合上下文MAB引入了多层MAB，因此在MAB方法中耗时最多，然而其耗时依旧远远小于MAB方法中任意两种方法耗时之和，对比上下文-MAB耗时提升也并不明显；

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于多层聚合上下文MAB的链路决策方法，其特征在于：依托的链路决策系统，包括数据中心、空中节点与地面节点；

其中，P(MC，N)为在MC个元素中取N个元素进行排列的数目；

S3、基于S2构建的第一层MAB决策模型，遍历S1得到的虚拟通信链路集合中的链路组合，基于链路组合的上下文特征向量估计该链路组合的预期收益并进行排序，得到空地节点最优链路组合，具体包括如下子步骤：

S33、选择MC和N中小的作为所需链路组合数；

至此，通过S3，得到了空地节点最优链路组合；

S4、基于S2得到的空地节点链路组合簇构建第二层MAB决策模型，完成对S3得到的空地节点最优链路组合的最佳通信参数组合的选择，并观测最佳通信参数组合应用到最优链路组合的真实收益，具体包括如下子步骤：

其中，最低吞吐率为地面节点正常工作所需最低数据速率；

所述调制参数，包括调制频率、幅度及占空比；

S5、将最优链路组合对应的上下文特征向量及最优链路组合在该轮决策中的真实收益加入历史收益记录，转至S1，进行下一轮决策。

2.根据权利要求1所述的链路决策方法，其特征在于：S1所述链路信息，包括空中节点与地面节点的位置、速度、通信资源占用率以及带宽需求；

S1所述通信资源块与地面节点的特征向量为某个通信资源块或地面节点特有，并对应着相应链路组合的上下文特征向量；所述上下文特征向量包含了链路组合的环境与历史信息，对应链路组合两端的空中节点资源块与地面节点。

3.根据权利要求1所述的链路决策方法，其特征在于：S1所述虚拟通信链路集合包括所有空中节点与地面节点的链路组合，且所述链路组合一端是通信资源块，一端是地面节点。

4.根据权利要求1所述的链路决策方法，其特征在于：S2中，第一层MAB决策模型为上下文-MAB模型；链路组合上下文特征向量为通信资源块与地面节点的特征向量通过特征权重矩阵映射得到，包含空中节点与地面节点之间的信道状态、发射频率、链路组合两端空地节点的距离以及对应通信资源块与地面节点的交互结果信息；所述特征权重矩阵为通信资源块与地面节点的特征向量及对应通信资源块与地面节点间的交互结果通过线性回归预训练的结果；对应通信资源块与地面节点的交互结果为该通信资源块与地面节点的链路组合的真实收益。

5.根据权利要求1所述的链路决策方法，其特征在于：S31所述各链路组合的预期收益通过

计算；其中，

为该链路组合作为MAB手臂的收益系数，为历史收益记录与上下文特征向量线性回归的计算结果；x_m,c,n为上下文特征向量表示；所述线性回归为岭回归。

6.根据权利要求1所述的链路决策方法，其特征在于：S3中，链路组合的上下文特征向量表示为x_m,c,n；

其中，N为地面节点的数量；M为空中节点的数量，C为每个空中节点持有的通信资源块数量，即一个空中节点最多能和C个地面节点建立链路组合。

7.根据权利要求1所述的链路决策方法，其特征在于：S4中，第二层MAB决策模型为多用户贪心算法模型。

8.根据权利要求1所述的链路决策方法，其特征在于：S5中，最优链路组合的真实收益为S4中得到的最佳通信参数组合应用到最优链路组合的真实收益；所述历史收益记录中不保存最佳通信参数组合。