CN109819522A - 一种平衡能耗与用户服务质量的用户带宽资源分配方法 - Google Patents
一种平衡能耗与用户服务质量的用户带宽资源分配方法 Download PDFInfo
- Publication number
- CN109819522A CN109819522A CN201910195637.3A CN201910195637A CN109819522A CN 109819522 A CN109819522 A CN 109819522A CN 201910195637 A CN201910195637 A CN 201910195637A CN 109819522 A CN109819522 A CN 109819522A
- Authority
- CN
- China
- Prior art keywords
- base station
- user
- anchor node
- sent
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005265 energy consumption Methods 0.000 title claims abstract description 28
- 238000013468 resource allocation Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 6
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000011664 signaling Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种平衡能耗与用户服务质量的用户带宽资源分配方法,采用将锚节点图哈希AGH(Anchor Graph Hashing)与Q‑learning算法相结合方案,首先通过系统能耗与用户服务质量满意度得到奖励值Reward,再通过AGH算法计算得到环境状态值State,最后通过强化学习智能体感知环境状态值State,并将奖励值Reward作为Q‑learning算法中的Q值,以Q值最大为目标来决定每个基站的开与关,进而分配用户带宽资源来满足速率限制与时延限制。本发明采用样本‑动作‑奖励反馈闭环的方式自动地决策基站开关,进而为用户科学地分配带宽资源,具有较高的分配效率和分配准确率。
Description
技术领域
本发明属于基站能耗管理技术领域,具体涉及一种平衡能耗与用户服务质量的用户带宽资源分配方法的设计。
背景技术
近年来,云无线电接入网络(Cloud Radio Access Network,C-RAN)被认为是未来5G技术中的一个比较前沿的概念,其中所有DSP(Digital Signal Processing,数字信号处理)处理器都被移动到基带处理单元(Building Baseband Unit,BBU)池中,并且远程无线电头端(Remote Radio Head,RRH)将移动用户发送过来的无线电信号通过无线电链路(Radio Links)将其压缩并转发到BBU池中。在这种动态环境中,自动决策方法(如基于人工智能的深度强化学习DRL)越来越受到关注。
强化学习是一种不同于监督学习和无监督学习的在线学习技术,它把学习看作是一个“试探-评价”的过程,首先学习系统称为智能体感知环境状态,采取某一个动作作用于环境,环境接受该动作后状态发生变化,同时给出一个回报奖励或惩罚反馈给强化学习系统,强化学习系统根据强化信号和环境的当前状态再选择下一个动作,选择的原则是使受到奖励的概率增大。
AGH(Anchor Graph Hashing,锚节点图哈希)的基本思想是用数据样本聚类产生的中心节点,即锚节点,与每个数据样本点之间的近邻图去近似数据样本点与样本点之间的近邻图,用近似邻接矩阵代替原来的邻接矩阵,然后通过拉普拉斯特征值分解提取哈希向量。
K-means聚类是一种很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
目前,应用于云无线电接入网络的自动决策方法通常只能采用照拍的方式,采集样本,得到决策,不能获取网络反馈,也无法实现自动的基站开关,这样会造成用户带宽资源分配准确率较低,资源分配效果不理想。
发明内容
本发明的目的是为了解决现有技术中云无线电接入网络的自动决策方法对用户带宽资源分配效果不理想的问题,提出了一种平衡能耗与用户服务质量的用户带宽资源分配方法。
本发明的技术方案为:一种平衡能耗与用户服务质量的用户带宽资源分配方法,包括以下步骤:
S1、对用户与基站进行接纳控制与关联,得到用户与基站的关系矩阵以及奖励值Reward。
S2、根据用户与基站的关系矩阵,采用AGH算法计算得到环境状态值State。
S3、通过强化学习智能体感知环境状态值State,并以奖励值Reward最大为目标来决定每个基站的开与关。
S4、根据每个基站的开关状态重新建立用户与基站的关联,并重新分配用户带宽资源来满足速率限制与时延限制。
进一步地,步骤S1包括以下分步骤:
S1-1、通过用户终端向基站发送连接请求。
S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
S1-3、通过用户终端向基站发送调度请求。
S1-4、通过基站向用户终端发送资源调度回复信息。
S1-5、通过用户终端向基站发送BSR消息。
S1-6、在基站中根据BSR消息为用户终端做物理资源分配。
S1-7、通过用户终端向强化学习智能体发送服务质量消息。
S1-8、通过基站向强化学习智能体发送基站开关消息。
S1-9、在强化学习智能体中作出动作决策,并将决策消息发送至基站。
S1-10、计算每个基站的能耗E,并将其发送至强化学习智能体。
S1-11、通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至强化学习智能体。
S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward。
进一步地,步骤S1-7中的服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ,步骤S1-8中的基站开关消息包括基站标识bsId和基站开关信息,步骤S1-9中的决策消息包括基站标识bsId和基站开关信息。
进一步地,步骤S1-10中能耗E的计算公式为:
其中表示基站自身的恒定功耗,ρ表示基站归一化的流量负载,p*表示和负载相关的功率参数。
步骤S1-11中服务质量满意度S的计算公式为:
其中τ表示时延,τmax表示用户所能接受的最大时延,η为常数。
步骤S1-12中奖励值Reward的计算公式为:
其中N为活跃的基站数量,且N∝E,ω为大于0的常数,为用户的平均服务质量满意度。
进一步地,步骤S2包括以下分步骤:
S2-1、对用户与基站的关系矩阵进行训练,得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码。
S2-2、根据锚节点集合M和m个锚节点对应的哈希码,采用节点匹配算法或哈希码匹配算法计算得到环境状态值State。
进一步地,步骤S2-1包括以下分步骤:
S2-1-1、对用户与基站的关系矩阵进行向量化,得到多个行向量,并将每个行向量作为一个样本。
S2-1-2、将所有样本组成多维矩阵。
S2-1-3、对多维矩阵进行在线聚类或离线聚类,得到包括m个锚节点的锚节点集合M。
S2-1-4、对m个锚节点进行AGH映射,得到m个锚节点对应的哈希码。
进一步地,步骤S2-1-3中在线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛,并且每次有新样本加入时,重新进行聚类。
进一步地,步骤S2-1-3中离线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛。
进一步地,步骤S2-2中的节点匹配算法包括以下步骤:
A1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
A2、将新样本与锚节点集合M进行最近邻匹配,得到锚节点Mi。
A3、对锚节点Mi进行AGH映射,得到锚节点Mi对应的哈希码,并将其作为环境状态值State发送给强化学习智能体。
进一步地,步骤S2-2中的哈希码匹配算法包括以下步骤:
B1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
B2、对新样本进行函数映射,得到新样本的哈希码。
B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配,并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。
本发明的有益效果是:
(1)本发明采用样本-动作-奖励反馈闭环的方式自动地决策基站开关,进而为用户科学地分配带宽资源,具有较高的分配效率和分配准确率。
(2)现有的强化学习算法输入状态空间维度太大,导致计算复杂度很高,收敛时间长,甚至可能导致维数灾难,而在本发明中通过依次对用户与基站的关系矩阵进行向量化、聚类及AGH函数映射,有效减小了输入状态(环境状态值State)的维度。
(3)本发明提出了在线聚类与离线聚类两种聚类方式来得到m个聚类中心,即锚节点,适用范围更加广泛。
(4)本发明提出了节点匹配算法和哈希码匹配算法两种匹配算法让锚节点替代新样本作为输入状态(环境状态值State)输入,能够得到更精确的环境状态值State,并且适用范围更加广泛。
附图说明
图1所示为本发明实施例提供的一种平衡能耗与用户服务质量的用户带宽资源分配方法流程图。
图2所示为本发明实施例提供的接纳控制与关联时序图。
图3所示为本发明实施例提供的训练阶段哈希码生成过程示意图。
图4所示为本发明实施例提供的节点匹配算法过程示意图。
图5所示为本发明实施例提供的哈希码匹配算法过程示意图。
图6所示为本发明实施例一提供的智能体分布在边缘服务器上场景图。
图7所示为本发明实施例二提供的智能体分布在BBU池中场景图。
图8所示为本发明实施例三提供的离线聚类信令图。
图9所示为本发明实施例三提供的在线聚类信令图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种平衡能耗与用户服务质量的用户带宽资源分配方法,如图1所示,包括以下步骤S1~S4:
S1、对用户与基站进行接纳控制与关联,得到用户与基站的关系矩阵以及奖励值Reward。
如图2所示,步骤S1包括以下分步骤S1-1~S1-12:
S1-1、通过用户终端(UE)向基站(RRH/BBU)发送连接请求。
本发明实施例中,采用基带处理单元(BBU)或远程无线电头端(RRH)作为基站。
S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
本发明实施例中,每个用户只能同时关联到一个基站,建立用户与基站的关联关系后,即可得到初始用户与基站的关系矩阵(relational matrix),它可以表示用户与基站的关联信息、流量的到达率、用户的数据传输率以及用户满意度。
S1-3、通过用户终端向基站发送调度请求。
S1-4、通过基站向用户终端发送资源调度回复信息。
S1-5、通过用户终端向基站发送BSR消息。
S1-6、在基站中根据BSR消息为用户终端做物理资源分配。
S1-7、通过用户终端向强化学习智能体(Reinforcement Learning Agent,RLAgent)发送服务质量消息。
本发明实施例中,服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
S1-8、通过基站向强化学习智能体发送基站开关消息。
本发明实施例中,基站开关消息包括基站标识bsId和基站开关信息(On、Off)。
S1-9、在强化学习智能体中作出动作决策,并将决策消息发送至基站。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。
S1-10、计算每个基站的能耗E,并将其发送至强化学习智能体,能耗E的计算公式为:
其中表示基站自身的恒定功耗,ρ表示基站归一化的流量负载,p*表示和负载相关的功率参数。
S1-11、通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至强化学习智能体,服务质量满意度S的计算公式为:
其中τ表示时延,τmax表示用户所能接受的最大时延,η为常数。
S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward,计算公式为:
其中N为活跃的基站数量,且N∝E,ω为大于0的常数,为用户的平均服务质量满意度。
S2、根据用户与基站的关系矩阵,采用AGH算法计算得到环境状态值State。
步骤S2包括以下分步骤S2-1~S2-2:
S2-1、对用户与基站的关系矩阵进行训练,得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码。
如图3所示,步骤S2-1包括以下分步骤S2-1-1~S2-1-4:
S2-1-1、对用户与基站的关系矩阵进行向量化,得到多个行向量,并将每个行向量作为一个样本(节点)。
S2-1-2、将所有样本(节点)组成多维矩阵。
S2-1-3、对多维矩阵进行在线聚类或离线聚类,得到包括m个锚节点(AnchorNode)的锚节点集合M。
S2-1-4、对m个锚节点进行AGH映射,得到m个锚节点对应的哈希码(hash code),得到的m个哈希码便是输入状态(即环境状态值State)的训练集。
本发明实施例中,提供了在线聚类(Online K-means)和离线聚类(Offline K-means)两种聚类方法。其中在线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛(本发明实施例中采用样本的均方差作为标准测度函数),并且每次有新样本加入时,重新进行聚类。
离线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛(本发明实施例中采用样本的均方差作为标准测度函数)。
离线聚类是基于已有先验样本来完成聚类,聚类完成后得到的簇将不再受新样本数据影响;而在线聚类的聚类结果受新样本数据影响,每次有新样本都需重新聚类。
S2-2、根据锚节点集合M和m个锚节点对应的哈希码,采用节点匹配算法或哈希码匹配算法计算得到环境状态值State。
如图4所示,节点匹配算法包括以下步骤:
A1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
A2、将新样本与锚节点集合M进行最近邻匹配,得到锚节点Mi。
A3、对锚节点Mi进行AGH映射,得到锚节点Mi对应的哈希码,并将其作为环境状态值State发送给强化学习智能体。
如图5所示,哈希码匹配算法包括以下步骤:
B1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
B2、对新样本进行函数映射,得到新样本的哈希码。
B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配,并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。
S3、通过强化学习智能体感知环境状态值State,并以奖励值Reward最大为目标来决定每个基站的开与关。
本发明实施例中,采用Q-learning算法来决定每个基站的开与关,将奖励值Reward作为Q-learning算法中的Q值,以Q值最大为目标来决定每个基站的开与关(On、Off),从而得到最大化能耗与用户的平均服务质量满意度来获得解决最优的聚束(beamforming)解决方案。
S4、根据每个基站的开关状态重新建立用户与基站的关联,并重新分配用户带宽资源来满足速率限制与时延限制。
在用户带宽资源分配中,本发明实施例提出了用户速率限制的资源分配与用户时延限制的资源分配两个子模型,根据不同的运营商来定制合适的带宽资源分配方案,从而最大化速率限制与时延限制的用户满意度。
下面以实施例一和实施例二对不同应用场景下的接纳控制与关联流程做详细介绍。
实施例一:
本发明实施例中,智能体分布在边缘服务器上,具体场景如图6所示,用户与基站建立关联,基站负责物理资源管理,而边缘服务器负责做动作决策与计算奖励值Reward,并更新Q值表(Q table)操作。如图2所示,具体步骤如下:
(1)通过用户终端(UE)向基站发送连接请求。
本发明实施例中,基站位于BBU池中。
(2)通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
(3)通过用户终端向基站发送调度请求。
(4)通过基站向用户终端发送资源调度回复信息。
(5)通过用户终端向基站发送BSR消息。
(6)在基站中根据BSR消息为用户终端做物理资源分配。
(7)通过用户终端向边缘服务器上的强化学习智能体发送服务质量消息。
本发明实施例中,服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
(8)通过BBU池向边缘服务器上的强化学习智能体发送基站开关消息。
本发明实施例中,基站开关消息包括基站标识bsId和基站开关信息(On、Off)。
(9)在边缘服务器上的强化学习智能体中作出动作决策,并将决策消息发送至BBU池。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。
(10)计算每个基站的能耗E,并将其发送至边缘服务器上的强化学习智能体。
(11)通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度S,将平均服务质量满意度S发送至边缘服务器上的强化学习智能体。
(12)在边缘服务器上的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度S计算得到奖励值Reward,并更新Q值表。
实施例二:
本发明实施例中,智能体分布在BBU池中,具体场景如图7所示,用户与基站建立关联后,物理资源管理、动作决策、奖励值Reward的计算与更新Q值表操作都在BBU池中完成。如图2所示,具体步骤如下:
(1)通过用户终端(UE)向BBU池发送连接请求。
本发明实施例中,基站为BBU池中的RRH。
(2)通过BBU池检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
(3)通过用户终端向BBU池发送调度请求。
(4)通过BBU池向用户终端发送资源调度回复信息。
(5)通过用户终端向BBU池发送BSR消息。
(6)在BBU池中根据BSR消息为用户终端做物理资源分配。
(7)通过用户终端向BBU池中的强化学习智能体发送服务质量消息。
本发明实施例中,服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
(8)BBU池中的强化学习智能体检查基站开关消息。
本发明实施例中,基站开关消息包括基站标识bsId和基站开关信息(On、Off)。由于强化学习智能体就位于BBU池中,因此并不需要再通过BBU池向强化学习智能体发送基站开关消息,而是由强化学习智能体检查基站开关消息即可。
(9)在BBU池中的强化学习智能体中作出动作决策。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。由于强化学习智能体就位于BBU池中,因此作出的决策消息不需要再发给BBU池。
(10)通过BBU池中的强化学习智能体计算每个基站的能耗E。
本发明实施例中,由于RRH和强化学习智能体均在BBU池中,因此可在BBU池中通过强化学习智能体直接计算每个RRH的能耗E。
(11)通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至BBU池中的强化学习智能体。
(12)在BBU池中的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward,并更新Q值表。
下面以实施例三对在线聚类的接纳控制与关联流程做详细介绍。
实施例三:
本发明实施例中,每次有新样本产生时,BBU/智能体都需在线聚类,且智能体分布在BBU池中。如图8所示为现有技术中常用的离线聚类信令流程图,这种聚类方法通常基于先验样本完成聚类,只聚类一次,聚类完成后,当有新样本到来时,不再重新聚类,即聚类完成后得到的簇将不再受新样本数据影响。本发明实施例中,提出在线聚类(Online K-means),每次有新样本产生时,需重新聚类获取锚节点,信令流程图如图9所示,具体步骤如下:
(1)通过用户终端(UE)向BBU池的RRH发送连接请求。
本发明实施例中,基站为BBU池中的RRH。
(2)通过BBU池检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
(3)通过用户终端向BBU池发送调度请求。
(4)通过BBU池向用户终端发送资源调度回复信息。
(5)通过用户终端向BBU池发送BSR消息。
(6)在BBU池中根据BSR消息为用户终端做物理资源分配。
(7)通过用户终端向BBU池发送服务质量消息。
本发明实施例中,首先需要通过BBU池向用户终端发送状态采集指令,用户终端接收到状态采集指令后,将服务质量消息发送给BBU池中的强化学习智能体。服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
(8)在BBU池中重新做聚类操作,该聚类便是在线聚类(Online K-means),聚类完成后,通过BBU池向用户终端发送消息告知终端聚类已完成,并执行动作决策。
(9)通过BBU池将决策消息发送至基站。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。
(10)通过BBU池中的强化学习智能体计算每个基站的能耗E。
(11)通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至BBU池中的强化学习智能体。
(12)在BBU池中的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward,并更新Q值表。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种平衡能耗与用户服务质量的用户带宽资源分配方法,其特征在于,包括以下步骤:
S1、对用户与基站进行接纳控制与关联,得到用户与基站的关系矩阵以及奖励值Reward;
S2、根据用户与基站的关系矩阵,采用AGH算法计算得到环境状态值State;
S3、通过强化学习智能体感知环境状态值State,并以奖励值Reward最大为目标来决定每个基站的开与关;
S4、根据每个基站的开关状态重新建立用户与基站的关联,并重新分配用户带宽资源来满足速率限制与时延限制。
2.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S1包括以下分步骤:
S1-1、通过用户终端向基站发送连接请求;
S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵;
S1-3、通过用户终端向基站发送调度请求;
S1-4、通过基站向用户终端发送资源调度回复信息;
S1-5、通过用户终端向基站发送BSR消息;
S1-6、在基站中根据BSR消息为用户终端做物理资源分配;
S1-7、通过用户终端向强化学习智能体发送服务质量消息;
S1-8、通过基站向强化学习智能体发送基站开关消息;
S1-9、在强化学习智能体中作出动作决策,并将决策消息发送至基站;
S1-10、计算每个基站的能耗E,并将其发送至强化学习智能体;
S1-11、通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度将平均服务质量满意度发送至强化学习智能体;
S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度计算得到奖励值Reward。
3.根据权利要求2所述的用户带宽资源分配方法,其特征在于,所述步骤S1-7中的服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ,所述步骤S1-8中的基站开关消息包括基站标识bsId和基站开关信息,所述步骤S1-9中的决策消息包括基站标识bsId和基站开关信息。
4.根据权利要求2所述的用户带宽资源分配方法,其特征在于,所述步骤S1-10中能耗E的计算公式为:
其中表示基站自身的恒定功耗,ρ表示基站归一化的流量负载,p*表示和负载相关的功率参数;
所述步骤S1-11中服务质量满意度S的计算公式为:
其中τ表示时延,τmax表示用户所能接受的最大时延,η为常数;
所述步骤S1-12中奖励值Reward的计算公式为:
其中N为活跃的基站数量,且N∝E,ω为大于0的常数,为用户的平均服务质量满意度。
5.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S2包括以下分步骤:
S2-1、对用户与基站的关系矩阵进行训练,得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码;
S2-2、根据锚节点集合M和m个锚节点对应的哈希码,采用节点匹配算法或哈希码匹配算法计算得到环境状态值State。
6.根据权利要求5所述的用户带宽资源分配方法,其特征在于,所述步骤S2-1包括以下分步骤:
S2-1-1、对用户与基站的关系矩阵进行向量化,得到多个行向量,并将每个行向量作为一个样本;
S2-1-2、将所有样本组成多维矩阵;
S2-1-3、对多维矩阵进行在线聚类或离线聚类,得到包括m个锚节点的锚节点集合M;
S2-1-4、对m个锚节点进行AGH映射,得到m个锚节点对应的哈希码。
7.根据权利要求6所述的用户带宽资源分配方法,其特征在于,所述步骤S2-1-3中在线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛,并且每次有新样本加入时,重新进行聚类。
8.根据权利要求6所述的用户带宽资源分配方法,其特征在于,所述步骤S2-1-3中离线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛。
9.根据权利要求5所述的用户带宽资源分配方法,其特征在于,所述步骤S2-2中的节点匹配算法包括以下步骤:
A1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本;
A2、将新样本与锚节点集合M进行最近邻匹配,得到锚节点Mi;
A3、对锚节点Mi进行AGH映射,得到锚节点Mi对应的哈希码,并将其作为环境状态值State发送给强化学习智能体。
10.根据权利要求5所述的用户带宽资源分配方法,其特征在于,所述步骤S2-2中的哈希码匹配算法包括以下步骤:
B1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本;
B2、对新样本进行函数映射,得到新样本的哈希码;
B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配,并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195637.3A CN109819522B (zh) | 2019-03-15 | 2019-03-15 | 一种平衡能耗与用户服务质量的用户带宽资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195637.3A CN109819522B (zh) | 2019-03-15 | 2019-03-15 | 一种平衡能耗与用户服务质量的用户带宽资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109819522A true CN109819522A (zh) | 2019-05-28 |
CN109819522B CN109819522B (zh) | 2021-08-24 |
Family
ID=66609094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910195637.3A Expired - Fee Related CN109819522B (zh) | 2019-03-15 | 2019-03-15 | 一种平衡能耗与用户服务质量的用户带宽资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109819522B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723527A (zh) * | 2023-08-09 | 2023-09-08 | 香港中文大学(深圳) | 一种基于数字孪生的基站功耗优化方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103987046A (zh) * | 2013-02-07 | 2014-08-13 | 电信科学技术研究院 | 一种无线频谱资源分配方法和设备 |
CN105517120A (zh) * | 2014-09-25 | 2016-04-20 | 中兴通讯股份有限公司 | 小基站开关的控制方法及装置 |
CN106211290A (zh) * | 2016-07-27 | 2016-12-07 | 北京邮电大学 | 一种c‑ran架构下基带处理池的节能方法 |
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
CN108134979A (zh) * | 2017-12-04 | 2018-06-08 | 东南大学 | 基于深度神经网络的小基站开关控制方法 |
CN108668304A (zh) * | 2018-05-18 | 2018-10-16 | 浙江工业大学 | 一种基于深度强化学习的非正交接入下行传输时间优化方法 |
CN108718463A (zh) * | 2018-05-09 | 2018-10-30 | 南京邮电大学 | 一种h-cran下基于多时间尺度协同优化的资源分配方法 |
US20180324106A1 (en) * | 2017-05-08 | 2018-11-08 | Samsung Electronics Co., Ltd. | Dynamic resource allocation method and apparatus in software-defined network |
-
2019
- 2019-03-15 CN CN201910195637.3A patent/CN109819522B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103987046A (zh) * | 2013-02-07 | 2014-08-13 | 电信科学技术研究院 | 一种无线频谱资源分配方法和设备 |
CN105517120A (zh) * | 2014-09-25 | 2016-04-20 | 中兴通讯股份有限公司 | 小基站开关的控制方法及装置 |
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
CN106211290A (zh) * | 2016-07-27 | 2016-12-07 | 北京邮电大学 | 一种c‑ran架构下基带处理池的节能方法 |
US20180324106A1 (en) * | 2017-05-08 | 2018-11-08 | Samsung Electronics Co., Ltd. | Dynamic resource allocation method and apparatus in software-defined network |
CN108134979A (zh) * | 2017-12-04 | 2018-06-08 | 东南大学 | 基于深度神经网络的小基站开关控制方法 |
CN108718463A (zh) * | 2018-05-09 | 2018-10-30 | 南京邮电大学 | 一种h-cran下基于多时间尺度协同优化的资源分配方法 |
CN108668304A (zh) * | 2018-05-18 | 2018-10-16 | 浙江工业大学 | 一种基于深度强化学习的非正交接入下行传输时间优化方法 |
Non-Patent Citations (5)
Title |
---|
EUNSUNG OH等: "Dynamic Base Station Switching-On/Off Strategies", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS,》 * |
余明洲: "基于机器学习的C-RAN的资源调度与分配", 《中国优秀硕士学位论文电子期刊网》 * |
尹之杰等: "基于两步决策与ε-greedy探索的增强学习频谱分配算法", 《数据采集与处理》 * |
陈亚文: "超密集云无线接入网中高能效协作传输技术研究", 《中国优秀硕士学位论文电子期刊网》 * |
黄虎: "基于 ADMM 与 Q-Learning 的无线网络的", 《中国优秀硕士学位论文电子期刊网》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723527A (zh) * | 2023-08-09 | 2023-09-08 | 香港中文大学(深圳) | 一种基于数字孪生的基站功耗优化方法 |
CN116723527B (zh) * | 2023-08-09 | 2023-11-14 | 香港中文大学(深圳) | 一种基于数字孪生的基站功耗优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109819522B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110521234A (zh) | 使用深度学习进行网络自优化的方法和系统 | |
CN111641973B (zh) | 一种雾计算网络中基于雾节点协作的负载均衡方法 | |
CN111045828A (zh) | 基于配电网台区终端的分布式边缘计算方法和相关装置 | |
CN107277840B (zh) | 一种可充电无线传感器网络数据收集方法 | |
Muslim et al. | Reinforcement learning based offloading framework for computation service in the edge cloud and core cloud | |
CN110519776A (zh) | 一种雾计算系统中的均衡聚类和联合资源分配方法 | |
CN108055701A (zh) | 一种资源调度方法及基站 | |
WO2021008675A1 (en) | Dynamic network configuration | |
Sefati et al. | Cluster head selection and routing protocol for wireless sensor networks (WSNs) based on software-defined network (SDN) via game of theory | |
CN109819522A (zh) | 一种平衡能耗与用户服务质量的用户带宽资源分配方法 | |
CN111083724A (zh) | 一种雾计算网络下基于ocwg-topsis的用户关联方法 | |
Kumar et al. | A K-means clustering based message forwarding model for Internet of Things (IoT) | |
CN107506847B (zh) | 能量采集的大规模MIMO系统中基于Stackelberg博弈的定价方法 | |
CN109862591A (zh) | 一种基于Qos空口切片的带宽借用与缓存共享方法 | |
CN116339932A (zh) | 资源调度方法、装置和服务器 | |
CN111542078B (zh) | 一种nfv环境下核心网控制面弹性资源分配方法 | |
CN117539619A (zh) | 基于云边融合的算力调度方法、系统、设备和存储介质 | |
Zhao et al. | Energy-efficient partial offloading in mobile edge computing under a deadline constraint | |
CN116843016A (zh) | 一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质 | |
Solat et al. | A novel group management scheme of clustered federated learning for mobile traffic prediction in mobile edge computing systems | |
CN107911763B (zh) | 一种基于QoS的智能配用电通信网EPON网络规划方法 | |
Han et al. | Opportunistic coded distributed computing: An evolutionary game approach | |
CN114466023A (zh) | 面向大规模边缘计算系统的计算服务动态定价方法及系统 | |
CN113595801A (zh) | 一种基于任务流量和时效性的边缘云网络服务器部署方法 | |
CN105959960B (zh) | 一种基于进化多目标优化匹配的频谱决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210824 |