CN109819522A

CN109819522A - 一种平衡能耗与用户服务质量的用户带宽资源分配方法

Info

Publication number: CN109819522A
Application number: CN201910195637.3A
Authority: CN
Inventors: 孙国林; 徐荣
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-05-28
Anticipated expiration: 2039-03-15
Also published as: CN109819522B

Abstract

本发明公开了一种平衡能耗与用户服务质量的用户带宽资源分配方法，采用将锚节点图哈希AGH(Anchor Graph Hashing)与Q‑learning算法相结合方案，首先通过系统能耗与用户服务质量满意度得到奖励值Reward，再通过AGH算法计算得到环境状态值State，最后通过强化学习智能体感知环境状态值State，并将奖励值Reward作为Q‑learning算法中的Q值，以Q值最大为目标来决定每个基站的开与关，进而分配用户带宽资源来满足速率限制与时延限制。本发明采用样本‑动作‑奖励反馈闭环的方式自动地决策基站开关，进而为用户科学地分配带宽资源，具有较高的分配效率和分配准确率。

Description

一种平衡能耗与用户服务质量的用户带宽资源分配方法

技术领域

本发明属于基站能耗管理技术领域，具体涉及一种平衡能耗与用户服务质量的用户带宽资源分配方法的设计。

背景技术

近年来，云无线电接入网络(Cloud Radio Access Network，C-RAN)被认为是未来5G技术中的一个比较前沿的概念，其中所有DSP(Digital Signal Processing，数字信号处理)处理器都被移动到基带处理单元(Building Baseband Unit，BBU)池中，并且远程无线电头端(Remote Radio Head，RRH)将移动用户发送过来的无线电信号通过无线电链路(Radio Links)将其压缩并转发到BBU池中。在这种动态环境中，自动决策方法(如基于人工智能的深度强化学习DRL)越来越受到关注。

强化学习是一种不同于监督学习和无监督学习的在线学习技术，它把学习看作是一个“试探-评价”的过程，首先学习系统称为智能体感知环境状态，采取某一个动作作用于环境，环境接受该动作后状态发生变化，同时给出一个回报奖励或惩罚反馈给强化学习系统，强化学习系统根据强化信号和环境的当前状态再选择下一个动作，选择的原则是使受到奖励的概率增大。

AGH(Anchor Graph Hashing，锚节点图哈希)的基本思想是用数据样本聚类产生的中心节点，即锚节点，与每个数据样本点之间的近邻图去近似数据样本点与样本点之间的近邻图，用近似邻接矩阵代替原来的邻接矩阵，然后通过拉普拉斯特征值分解提取哈希向量。

K-means聚类是一种很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

目前，应用于云无线电接入网络的自动决策方法通常只能采用照拍的方式，采集样本，得到决策，不能获取网络反馈，也无法实现自动的基站开关，这样会造成用户带宽资源分配准确率较低，资源分配效果不理想。

发明内容

本发明的目的是为了解决现有技术中云无线电接入网络的自动决策方法对用户带宽资源分配效果不理想的问题，提出了一种平衡能耗与用户服务质量的用户带宽资源分配方法。

本发明的技术方案为：一种平衡能耗与用户服务质量的用户带宽资源分配方法，包括以下步骤：

S1、对用户与基站进行接纳控制与关联，得到用户与基站的关系矩阵以及奖励值Reward。

S2、根据用户与基站的关系矩阵，采用AGH算法计算得到环境状态值State。

S3、通过强化学习智能体感知环境状态值State，并以奖励值Reward最大为目标来决定每个基站的开与关。

S4、根据每个基站的开关状态重新建立用户与基站的关联，并重新分配用户带宽资源来满足速率限制与时延限制。

进一步地，步骤S1包括以下分步骤：

S1-1、通过用户终端向基站发送连接请求。

S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息，建立用户与基站的关联关系，并通过用户与基站的关联关系得到用户与基站的关系矩阵。

S1-3、通过用户终端向基站发送调度请求。

S1-4、通过基站向用户终端发送资源调度回复信息。

S1-5、通过用户终端向基站发送BSR消息。

S1-6、在基站中根据BSR消息为用户终端做物理资源分配。

S1-7、通过用户终端向强化学习智能体发送服务质量消息。

S1-8、通过基站向强化学习智能体发送基站开关消息。

S1-9、在强化学习智能体中作出动作决策，并将决策消息发送至基站。

S1-10、计算每个基站的能耗E，并将其发送至强化学习智能体。

S1-11、通过用户终端计算每个用户的服务质量满意度S，并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至强化学习智能体。

S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward。

进一步地，步骤S1-7中的服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ，步骤S1-8中的基站开关消息包括基站标识bsId和基站开关信息，步骤S1-9中的决策消息包括基站标识bsId和基站开关信息。

进一步地，步骤S1-10中能耗E的计算公式为：

其中表示基站自身的恒定功耗，ρ表示基站归一化的流量负载，p^*表示和负载相关的功率参数。

步骤S1-11中服务质量满意度S的计算公式为：

其中τ表示时延，τ^max表示用户所能接受的最大时延，η为常数。

步骤S1-12中奖励值Reward的计算公式为：

其中N为活跃的基站数量，且N∝E，ω为大于0的常数，为用户的平均服务质量满意度。

进一步地，步骤S2包括以下分步骤：

S2-1、对用户与基站的关系矩阵进行训练，得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码。

S2-2、根据锚节点集合M和m个锚节点对应的哈希码，采用节点匹配算法或哈希码匹配算法计算得到环境状态值State。

进一步地，步骤S2-1包括以下分步骤：

S2-1-1、对用户与基站的关系矩阵进行向量化，得到多个行向量，并将每个行向量作为一个样本。

S2-1-2、将所有样本组成多维矩阵。

S2-1-3、对多维矩阵进行在线聚类或离线聚类，得到包括m个锚节点的锚节点集合M。

S2-1-4、对m个锚节点进行AGH映射，得到m个锚节点对应的哈希码。

进一步地，步骤S2-1-3中在线聚类的具体方法为：

从多维矩阵中任意选择m个样本作为初始聚类中心，对于剩余的其它样本，则根据它们与初始聚类中心的相似度，分别将它们分配给与其最相似的聚类中心，然后计算每个聚类中所有样本的均值作为新的聚类中心，重复上述过程直到标准测度函数收敛，并且每次有新样本加入时，重新进行聚类。

进一步地，步骤S2-1-3中离线聚类的具体方法为：

从多维矩阵中任意选择m个样本作为初始聚类中心，对于剩余的其它样本，则根据它们与初始聚类中心的相似度，分别将它们分配给与其最相似的聚类中心，然后计算每个聚类中所有样本的均值作为新的聚类中心，重复上述过程直到标准测度函数收敛。

进一步地，步骤S2-2中的节点匹配算法包括以下步骤：

A1、对用户与基站的关系矩阵进行向量化得到行向量，并将该行向量作为一个新样本。

A2、将新样本与锚节点集合M进行最近邻匹配，得到锚节点M_i。

A3、对锚节点M_i进行AGH映射，得到锚节点M_i对应的哈希码，并将其作为环境状态值State发送给强化学习智能体。

进一步地，步骤S2-2中的哈希码匹配算法包括以下步骤：

B1、对用户与基站的关系矩阵进行向量化得到行向量，并将该行向量作为一个新样本。

B2、对新样本进行函数映射，得到新样本的哈希码。

B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配，并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。

本发明的有益效果是：

(1)本发明采用样本-动作-奖励反馈闭环的方式自动地决策基站开关，进而为用户科学地分配带宽资源，具有较高的分配效率和分配准确率。

(2)现有的强化学习算法输入状态空间维度太大，导致计算复杂度很高，收敛时间长，甚至可能导致维数灾难，而在本发明中通过依次对用户与基站的关系矩阵进行向量化、聚类及AGH函数映射，有效减小了输入状态(环境状态值State)的维度。

(3)本发明提出了在线聚类与离线聚类两种聚类方式来得到m个聚类中心，即锚节点，适用范围更加广泛。

(4)本发明提出了节点匹配算法和哈希码匹配算法两种匹配算法让锚节点替代新样本作为输入状态(环境状态值State)输入，能够得到更精确的环境状态值State，并且适用范围更加广泛。

附图说明

图1所示为本发明实施例提供的一种平衡能耗与用户服务质量的用户带宽资源分配方法流程图。

图2所示为本发明实施例提供的接纳控制与关联时序图。

图3所示为本发明实施例提供的训练阶段哈希码生成过程示意图。

图4所示为本发明实施例提供的节点匹配算法过程示意图。

图5所示为本发明实施例提供的哈希码匹配算法过程示意图。

图6所示为本发明实施例一提供的智能体分布在边缘服务器上场景图。

图7所示为本发明实施例二提供的智能体分布在BBU池中场景图。

图8所示为本发明实施例三提供的离线聚类信令图。

图9所示为本发明实施例三提供的在线聚类信令图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种平衡能耗与用户服务质量的用户带宽资源分配方法，如图1所示，包括以下步骤S1～S4：

如图2所示，步骤S1包括以下分步骤S1-1～S1-12：

S1-1、通过用户终端(UE)向基站(RRH/BBU)发送连接请求。

本发明实施例中，采用基带处理单元(BBU)或远程无线电头端(RRH)作为基站。

本发明实施例中，每个用户只能同时关联到一个基站，建立用户与基站的关联关系后，即可得到初始用户与基站的关系矩阵(relational matrix)，它可以表示用户与基站的关联信息、流量的到达率、用户的数据传输率以及用户满意度。

S1-3、通过用户终端向基站发送调度请求。

S1-4、通过基站向用户终端发送资源调度回复信息。

S1-5、通过用户终端向基站发送BSR消息。

S1-6、在基站中根据BSR消息为用户终端做物理资源分配。

S1-7、通过用户终端向强化学习智能体(Reinforcement Learning Agent，RLAgent)发送服务质量消息。

本发明实施例中，服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。

S1-8、通过基站向强化学习智能体发送基站开关消息。

本发明实施例中，基站开关消息包括基站标识bsId和基站开关信息(On、Off)。

本发明实施例中，决策消息包括基站标识bsId和基站开关信息(On、Off)。

S1-10、计算每个基站的能耗E，并将其发送至强化学习智能体，能耗E的计算公式为：

S1-11、通过用户终端计算每个用户的服务质量满意度S，并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至强化学习智能体，服务质量满意度S的计算公式为：

S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward，计算公式为：

步骤S2包括以下分步骤S2-1～S2-2：

如图3所示，步骤S2-1包括以下分步骤S2-1-1～S2-1-4：

S2-1-1、对用户与基站的关系矩阵进行向量化，得到多个行向量，并将每个行向量作为一个样本(节点)。

S2-1-2、将所有样本(节点)组成多维矩阵。

S2-1-3、对多维矩阵进行在线聚类或离线聚类，得到包括m个锚节点(AnchorNode)的锚节点集合M。

S2-1-4、对m个锚节点进行AGH映射，得到m个锚节点对应的哈希码(hash code)，得到的m个哈希码便是输入状态(即环境状态值State)的训练集。

本发明实施例中，提供了在线聚类(Online K-means)和离线聚类(Offline K-means)两种聚类方法。其中在线聚类的具体方法为：

从多维矩阵中任意选择m个样本作为初始聚类中心，对于剩余的其它样本，则根据它们与初始聚类中心的相似度(距离)，分别将它们分配给与其最相似的聚类中心，然后计算每个聚类中所有样本的均值作为新的聚类中心，重复上述过程直到标准测度函数收敛(本发明实施例中采用样本的均方差作为标准测度函数)，并且每次有新样本加入时，重新进行聚类。

离线聚类的具体方法为：

从多维矩阵中任意选择m个样本作为初始聚类中心，对于剩余的其它样本，则根据它们与初始聚类中心的相似度(距离)，分别将它们分配给与其最相似的聚类中心，然后计算每个聚类中所有样本的均值作为新的聚类中心，重复上述过程直到标准测度函数收敛(本发明实施例中采用样本的均方差作为标准测度函数)。

离线聚类是基于已有先验样本来完成聚类，聚类完成后得到的簇将不再受新样本数据影响；而在线聚类的聚类结果受新样本数据影响，每次有新样本都需重新聚类。

如图4所示，节点匹配算法包括以下步骤：

如图5所示，哈希码匹配算法包括以下步骤：

B2、对新样本进行函数映射，得到新样本的哈希码。

本发明实施例中，采用Q-learning算法来决定每个基站的开与关，将奖励值Reward作为Q-learning算法中的Q值，以Q值最大为目标来决定每个基站的开与关(On、Off)，从而得到最大化能耗与用户的平均服务质量满意度来获得解决最优的聚束(beamforming)解决方案。

在用户带宽资源分配中，本发明实施例提出了用户速率限制的资源分配与用户时延限制的资源分配两个子模型，根据不同的运营商来定制合适的带宽资源分配方案，从而最大化速率限制与时延限制的用户满意度。

下面以实施例一和实施例二对不同应用场景下的接纳控制与关联流程做详细介绍。

实施例一：

本发明实施例中，智能体分布在边缘服务器上，具体场景如图6所示，用户与基站建立关联，基站负责物理资源管理，而边缘服务器负责做动作决策与计算奖励值Reward，并更新Q值表(Q table)操作。如图2所示，具体步骤如下：

(1)通过用户终端(UE)向基站发送连接请求。

本发明实施例中，基站位于BBU池中。

(2)通过基站检查该连接请求并向用户终端回复一个确认消息，建立用户与基站的关联关系，并通过用户与基站的关联关系得到用户与基站的关系矩阵。

(3)通过用户终端向基站发送调度请求。

(4)通过基站向用户终端发送资源调度回复信息。

(5)通过用户终端向基站发送BSR消息。

(6)在基站中根据BSR消息为用户终端做物理资源分配。

(7)通过用户终端向边缘服务器上的强化学习智能体发送服务质量消息。

(8)通过BBU池向边缘服务器上的强化学习智能体发送基站开关消息。

(9)在边缘服务器上的强化学习智能体中作出动作决策，并将决策消息发送至BBU池。

(10)计算每个基站的能耗E，并将其发送至边缘服务器上的强化学习智能体。

(11)通过用户终端计算每个用户的服务质量满意度S，并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度S，将平均服务质量满意度S发送至边缘服务器上的强化学习智能体。

(12)在边缘服务器上的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度S计算得到奖励值Reward，并更新Q值表。

实施例二：

本发明实施例中，智能体分布在BBU池中，具体场景如图7所示，用户与基站建立关联后，物理资源管理、动作决策、奖励值Reward的计算与更新Q值表操作都在BBU池中完成。如图2所示，具体步骤如下：

(1)通过用户终端(UE)向BBU池发送连接请求。

本发明实施例中，基站为BBU池中的RRH。

(2)通过BBU池检查该连接请求并向用户终端回复一个确认消息，建立用户与基站的关联关系，并通过用户与基站的关联关系得到用户与基站的关系矩阵。

(3)通过用户终端向BBU池发送调度请求。

(4)通过BBU池向用户终端发送资源调度回复信息。

(5)通过用户终端向BBU池发送BSR消息。

(6)在BBU池中根据BSR消息为用户终端做物理资源分配。

(7)通过用户终端向BBU池中的强化学习智能体发送服务质量消息。

(8)BBU池中的强化学习智能体检查基站开关消息。

本发明实施例中，基站开关消息包括基站标识bsId和基站开关信息(On、Off)。由于强化学习智能体就位于BBU池中，因此并不需要再通过BBU池向强化学习智能体发送基站开关消息，而是由强化学习智能体检查基站开关消息即可。

(9)在BBU池中的强化学习智能体中作出动作决策。

本发明实施例中，决策消息包括基站标识bsId和基站开关信息(On、Off)。由于强化学习智能体就位于BBU池中，因此作出的决策消息不需要再发给BBU池。

(10)通过BBU池中的强化学习智能体计算每个基站的能耗E。

本发明实施例中，由于RRH和强化学习智能体均在BBU池中，因此可在BBU池中通过强化学习智能体直接计算每个RRH的能耗E。

(11)通过用户终端计算每个用户的服务质量满意度S，并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至BBU池中的强化学习智能体。

(12)在BBU池中的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward，并更新Q值表。

下面以实施例三对在线聚类的接纳控制与关联流程做详细介绍。

实施例三：

本发明实施例中，每次有新样本产生时，BBU/智能体都需在线聚类，且智能体分布在BBU池中。如图8所示为现有技术中常用的离线聚类信令流程图，这种聚类方法通常基于先验样本完成聚类，只聚类一次，聚类完成后，当有新样本到来时，不再重新聚类，即聚类完成后得到的簇将不再受新样本数据影响。本发明实施例中，提出在线聚类(Online K-means)，每次有新样本产生时，需重新聚类获取锚节点，信令流程图如图9所示，具体步骤如下：

(1)通过用户终端(UE)向BBU池的RRH发送连接请求。

本发明实施例中，基站为BBU池中的RRH。

(3)通过用户终端向BBU池发送调度请求。

(4)通过BBU池向用户终端发送资源调度回复信息。

(5)通过用户终端向BBU池发送BSR消息。

(6)在BBU池中根据BSR消息为用户终端做物理资源分配。

(7)通过用户终端向BBU池发送服务质量消息。

本发明实施例中，首先需要通过BBU池向用户终端发送状态采集指令，用户终端接收到状态采集指令后，将服务质量消息发送给BBU池中的强化学习智能体。服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。

(8)在BBU池中重新做聚类操作，该聚类便是在线聚类(Online K-means)，聚类完成后，通过BBU池向用户终端发送消息告知终端聚类已完成，并执行动作决策。

(9)通过BBU池将决策消息发送至基站。

(10)通过BBU池中的强化学习智能体计算每个基站的能耗E。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种平衡能耗与用户服务质量的用户带宽资源分配方法，其特征在于，包括以下步骤：

S1、对用户与基站进行接纳控制与关联，得到用户与基站的关系矩阵以及奖励值Reward；

S2、根据用户与基站的关系矩阵，采用AGH算法计算得到环境状态值State；

S3、通过强化学习智能体感知环境状态值State，并以奖励值Reward最大为目标来决定每个基站的开与关；

2.根据权利要求1所述的用户带宽资源分配方法，其特征在于，所述步骤S1包括以下分步骤：

S1-1、通过用户终端向基站发送连接请求；

S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息，建立用户与基站的关联关系，并通过用户与基站的关联关系得到用户与基站的关系矩阵；

S1-3、通过用户终端向基站发送调度请求；

S1-4、通过基站向用户终端发送资源调度回复信息；

S1-5、通过用户终端向基站发送BSR消息；

S1-6、在基站中根据BSR消息为用户终端做物理资源分配；

S1-7、通过用户终端向强化学习智能体发送服务质量消息；

S1-8、通过基站向强化学习智能体发送基站开关消息；

S1-9、在强化学习智能体中作出动作决策，并将决策消息发送至基站；

S1-10、计算每个基站的能耗E，并将其发送至强化学习智能体；

S1-11、通过用户终端计算每个用户的服务质量满意度S，并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至强化学习智能体；

3.根据权利要求2所述的用户带宽资源分配方法，其特征在于，所述步骤S1-7中的服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ，所述步骤S1-8中的基站开关消息包括基站标识bsId和基站开关信息，所述步骤S1-9中的决策消息包括基站标识bsId和基站开关信息。

4.根据权利要求2所述的用户带宽资源分配方法，其特征在于，所述步骤S1-10中能耗E的计算公式为：

其中表示基站自身的恒定功耗，ρ表示基站归一化的流量负载，p^*表示和负载相关的功率参数；

所述步骤S1-11中服务质量满意度S的计算公式为：

其中τ表示时延，τ^max表示用户所能接受的最大时延，η为常数；

所述步骤S1-12中奖励值Reward的计算公式为：

5.根据权利要求1所述的用户带宽资源分配方法，其特征在于，所述步骤S2包括以下分步骤：

S2-1、对用户与基站的关系矩阵进行训练，得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码；

6.根据权利要求5所述的用户带宽资源分配方法，其特征在于，所述步骤S2-1包括以下分步骤：

S2-1-1、对用户与基站的关系矩阵进行向量化，得到多个行向量，并将每个行向量作为一个样本；

S2-1-2、将所有样本组成多维矩阵；

S2-1-3、对多维矩阵进行在线聚类或离线聚类，得到包括m个锚节点的锚节点集合M；

7.根据权利要求6所述的用户带宽资源分配方法，其特征在于，所述步骤S2-1-3中在线聚类的具体方法为：

8.根据权利要求6所述的用户带宽资源分配方法，其特征在于，所述步骤S2-1-3中离线聚类的具体方法为：

9.根据权利要求5所述的用户带宽资源分配方法，其特征在于，所述步骤S2-2中的节点匹配算法包括以下步骤：

A1、对用户与基站的关系矩阵进行向量化得到行向量，并将该行向量作为一个新样本；

A2、将新样本与锚节点集合M进行最近邻匹配，得到锚节点M_i；

10.根据权利要求5所述的用户带宽资源分配方法，其特征在于，所述步骤S2-2中的哈希码匹配算法包括以下步骤：

B1、对用户与基站的关系矩阵进行向量化得到行向量，并将该行向量作为一个新样本；

B2、对新样本进行函数映射，得到新样本的哈希码；