CN109819522B - 一种平衡能耗与用户服务质量的用户带宽资源分配方法 - Google Patents

一种平衡能耗与用户服务质量的用户带宽资源分配方法 Download PDF

Info

Publication number
CN109819522B
CN109819522B CN201910195637.3A CN201910195637A CN109819522B CN 109819522 B CN109819522 B CN 109819522B CN 201910195637 A CN201910195637 A CN 201910195637A CN 109819522 B CN109819522 B CN 109819522B
Authority
CN
China
Prior art keywords
base station
user
clustering
samples
service quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910195637.3A
Other languages
English (en)
Other versions
CN109819522A (zh
Inventor
孙国林
徐荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910195637.3A priority Critical patent/CN109819522B/zh
Publication of CN109819522A publication Critical patent/CN109819522A/zh
Application granted granted Critical
Publication of CN109819522B publication Critical patent/CN109819522B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种平衡能耗与用户服务质量的用户带宽资源分配方法,采用将锚节点图哈希AGH(Anchor Graph Hashing)与Q‑learning算法相结合方案,首先通过系统能耗与用户服务质量满意度得到奖励值Reward,再通过AGH算法计算得到环境状态值State,最后通过强化学习智能体感知环境状态值State,并将奖励值Reward作为Q‑learning算法中的Q值,以Q值最大为目标来决定每个基站的开与关,进而分配用户带宽资源来满足速率限制与时延限制。本发明采用样本‑动作‑奖励反馈闭环的方式自动地决策基站开关,进而为用户科学地分配带宽资源,具有较高的分配效率和分配准确率。

Description

一种平衡能耗与用户服务质量的用户带宽资源分配方法
技术领域
本发明属于基站能耗管理技术领域,具体涉及一种平衡能耗与用户服务质量的用户带宽资源分配方法的设计。
背景技术
近年来,云无线电接入网络(Cloud Radio Access Network,C-RAN)被认为是未来5G技术中的一个比较前沿的概念,其中所有DSP(Digital Signal Processing,数字信号处理)处理器都被移动到基带处理单元(Building Baseband Unit,BBU)池中,并且远程无线电头端(Remote Radio Head,RRH)将移动用户发送过来的无线电信号通过无线电链路(Radio Links)将其压缩并转发到BBU池中。在这种动态环境中,自动决策方法(如基于人工智能的深度强化学习DRL)越来越受到关注。
强化学习是一种不同于监督学习和无监督学习的在线学习技术,它把学习看作是一个“试探-评价”的过程,首先学习系统称为智能体感知环境状态,采取某一个动作作用于环境,环境接受该动作后状态发生变化,同时给出一个回报奖励或惩罚反馈给强化学习系统,强化学习系统根据强化信号和环境的当前状态再选择下一个动作,选择的原则是使受到奖励的概率增大。
AGH(Anchor Graph Hashing,锚节点图哈希)的基本思想是用数据样本聚类产生的中心节点,即锚节点,与每个数据样本点之间的近邻图去近似数据样本点与样本点之间的近邻图,用近似邻接矩阵代替原来的邻接矩阵,然后通过拉普拉斯特征值分解提取哈希向量。
K-means聚类是一种很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
目前,应用于云无线电接入网络的自动决策方法通常只能采用照拍的方式,采集样本,得到决策,不能获取网络反馈,也无法实现自动的基站开关,这样会造成用户带宽资源分配准确率较低,资源分配效果不理想。
发明内容
本发明的目的是为了解决现有技术中云无线电接入网络的自动决策方法对用户带宽资源分配效果不理想的问题,提出了一种平衡能耗与用户服务质量的用户带宽资源分配方法。
本发明的技术方案为:一种平衡能耗与用户服务质量的用户带宽资源分配方法,包括以下步骤:
S1、对用户与基站进行接纳控制与关联,得到用户与基站的关系矩阵以及奖励值Reward。
S2、根据用户与基站的关系矩阵,采用AGH算法计算得到环境状态值State。
S3、通过强化学习智能体感知环境状态值State,并以奖励值Reward最大为目标来决定每个基站的开与关。
S4、根据每个基站的开关状态重新建立用户与基站的关联,并重新分配用户带宽资源来满足速率限制与时延限制。
进一步地,步骤S1包括以下分步骤:
S1-1、通过用户终端向基站发送连接请求。
S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
S1-3、通过用户终端向基站发送调度请求。
S1-4、通过基站向用户终端发送资源调度回复信息。
S1-5、通过用户终端向基站发送BSR消息。
S1-6、在基站中根据BSR消息为用户终端做物理资源分配。
S1-7、通过用户终端向强化学习智能体发送服务质量消息。
S1-8、通过基站向强化学习智能体发送基站开关消息。
S1-9、在强化学习智能体中作出动作决策,并将决策消息发送至基站。
S1-10、计算每个基站的能耗E,并将其发送至强化学习智能体。
S1-11、通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度
Figure BDA0001995740000000023
将平均服务质量满意度
Figure BDA0001995740000000025
发送至强化学习智能体。
S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度
Figure BDA0001995740000000024
计算得到奖励值Reward。
进一步地,步骤S1-7中的服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ,步骤S1-8中的基站开关消息包括基站标识bsId和基站开关信息,步骤S1-9中的决策消息包括基站标识bsId和基站开关信息。
进一步地,步骤S1-10中能耗E的计算公式为:
Figure BDA0001995740000000021
其中
Figure BDA0001995740000000022
表示基站自身的恒定功耗,ρ表示基站归一化的流量负载,p*表示和负载相关的功率参数。
步骤S1-11中服务质量满意度S的计算公式为:
Figure BDA0001995740000000031
其中τ表示时延,τmax表示用户所能接受的最大时延,η为常数。
步骤S1-12中奖励值Reward的计算公式为:
Figure BDA0001995740000000032
其中N为活跃的基站数量,且N∝E,ω为大于0的常数,
Figure BDA0001995740000000033
为用户的平均服务质量满意度。
进一步地,步骤S2包括以下分步骤:
S2-1、对用户与基站的关系矩阵进行训练,得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码。
S2-2、根据锚节点集合M和m个锚节点对应的哈希码,采用节点匹配算法或哈希码匹配算法计算得到环境状态值State。
进一步地,步骤S2-1包括以下分步骤:
S2-1-1、对用户与基站的关系矩阵进行向量化,得到多个行向量,并将每个行向量作为一个样本。
S2-1-2、将所有样本组成多维矩阵。
S2-1-3、对多维矩阵进行在线聚类或离线聚类,得到包括m个锚节点的锚节点集合M。
S2-1-4、对m个锚节点进行AGH映射,得到m个锚节点对应的哈希码。
进一步地,步骤S2-1-3中在线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛,并且每次有新样本加入时,重新进行聚类。
进一步地,步骤S2-1-3中离线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛。
进一步地,步骤S2-2中的节点匹配算法包括以下步骤:
A1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
A2、将新样本与锚节点集合M进行最近邻匹配,得到锚节点Mi
A3、对锚节点Mi进行AGH映射,得到锚节点Mi对应的哈希码,并将其作为环境状态值State发送给强化学习智能体。
进一步地,步骤S2-2中的哈希码匹配算法包括以下步骤:
B1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
B2、对新样本进行函数映射,得到新样本的哈希码。
B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配,并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。
本发明的有益效果是:
(1)本发明采用样本-动作-奖励反馈闭环的方式自动地决策基站开关,进而为用户科学地分配带宽资源,具有较高的分配效率和分配准确率。
(2)现有的强化学习算法输入状态空间维度太大,导致计算复杂度很高,收敛时间长,甚至可能导致维数灾难,而在本发明中通过依次对用户与基站的关系矩阵进行向量化、聚类及AGH函数映射,有效减小了输入状态(环境状态值State)的维度。
(3)本发明提出了在线聚类与离线聚类两种聚类方式来得到m个聚类中心,即锚节点,适用范围更加广泛。
(4)本发明提出了节点匹配算法和哈希码匹配算法两种匹配算法让锚节点替代新样本作为输入状态(环境状态值State)输入,能够得到更精确的环境状态值State,并且适用范围更加广泛。
附图说明
图1所示为本发明实施例提供的一种平衡能耗与用户服务质量的用户带宽资源分配方法流程图。
图2所示为本发明实施例提供的接纳控制与关联时序图。
图3所示为本发明实施例提供的训练阶段哈希码生成过程示意图。
图4所示为本发明实施例提供的节点匹配算法过程示意图。
图5所示为本发明实施例提供的哈希码匹配算法过程示意图。
图6所示为本发明实施例一提供的智能体分布在边缘服务器上场景图。
图7所示为本发明实施例二提供的智能体分布在BBU池中场景图。
图8所示为本发明实施例三提供的离线聚类信令图。
图9所示为本发明实施例三提供的在线聚类信令图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种平衡能耗与用户服务质量的用户带宽资源分配方法,如图1所示,包括以下步骤S1~S4:
S1、对用户与基站进行接纳控制与关联,得到用户与基站的关系矩阵以及奖励值Reward。
如图2所示,步骤S1包括以下分步骤S1-1~S1-12:
S1-1、通过用户终端(UE)向基站(RRH/BBU)发送连接请求。
本发明实施例中,采用基带处理单元(BBU)或远程无线电头端(RRH)作为基站。
S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
本发明实施例中,每个用户只能同时关联到一个基站,建立用户与基站的关联关系后,即可得到初始用户与基站的关系矩阵(relational matrix),它可以表示用户与基站的关联信息、流量的到达率、用户的数据传输率以及用户满意度。
S1-3、通过用户终端向基站发送调度请求。
S1-4、通过基站向用户终端发送资源调度回复信息。
S1-5、通过用户终端向基站发送BSR消息。
S1-6、在基站中根据BSR消息为用户终端做物理资源分配。
S1-7、通过用户终端向强化学习智能体(Reinforcement Learning Agent,RLAgent)发送服务质量消息。
本发明实施例中,服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
S1-8、通过基站向强化学习智能体发送基站开关消息。
本发明实施例中,基站开关消息包括基站标识bsId和基站开关信息(On、Off)。
S1-9、在强化学习智能体中作出动作决策,并将决策消息发送至基站。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。
S1-10、计算每个基站的能耗E,并将其发送至强化学习智能体,能耗E的计算公式为:
Figure BDA0001995740000000051
其中
Figure BDA0001995740000000061
表示基站自身的恒定功耗,ρ表示基站归一化的流量负载,p*表示和负载相关的功率参数。
S1-11、通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度
Figure BDA0001995740000000062
将平均服务质量满意度
Figure BDA0001995740000000063
发送至强化学习智能体,服务质量满意度S的计算公式为:
Figure BDA0001995740000000064
其中τ表示时延,τmax表示用户所能接受的最大时延,η为常数。
S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度
Figure BDA0001995740000000067
计算得到奖励值Reward,计算公式为:
Figure BDA0001995740000000065
其中N为活跃的基站数量,且N∝E,ω为大于0的常数,
Figure BDA0001995740000000066
为用户的平均服务质量满意度。
S2、根据用户与基站的关系矩阵,采用AGH算法计算得到环境状态值State。
步骤S2包括以下分步骤S2-1~S2-2:
S2-1、对用户与基站的关系矩阵进行训练,得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码。
如图3所示,步骤S2-1包括以下分步骤S2-1-1~S2-1-4:
S2-1-1、对用户与基站的关系矩阵进行向量化,得到多个行向量,并将每个行向量作为一个样本(节点)。
S2-1-2、将所有样本(节点)组成多维矩阵。
S2-1-3、对多维矩阵进行在线聚类或离线聚类,得到包括m个锚节点(AnchorNode)的锚节点集合M。
S2-1-4、对m个锚节点进行AGH映射,得到m个锚节点对应的哈希码(hash code),得到的m个哈希码便是输入状态(即环境状态值State)的训练集。
本发明实施例中,提供了在线聚类(Online K-means)和离线聚类(Offline K-means)两种聚类方法。其中在线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛(本发明实施例中采用样本的均方差作为标准测度函数),并且每次有新样本加入时,重新进行聚类。
离线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛(本发明实施例中采用样本的均方差作为标准测度函数)。
离线聚类是基于已有先验样本来完成聚类,聚类完成后得到的簇将不再受新样本数据影响;而在线聚类的聚类结果受新样本数据影响,每次有新样本都需重新聚类。
S2-2、根据锚节点集合M和m个锚节点对应的哈希码,采用节点匹配算法或哈希码匹配算法计算得到环境状态值State。
如图4所示,节点匹配算法包括以下步骤:
A1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
A2、将新样本与锚节点集合M进行最近邻匹配,得到锚节点Mi
A3、对锚节点Mi进行AGH映射,得到锚节点Mi对应的哈希码,并将其作为环境状态值State发送给强化学习智能体。
如图5所示,哈希码匹配算法包括以下步骤:
B1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本。
B2、对新样本进行函数映射,得到新样本的哈希码。
B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配,并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。
S3、通过强化学习智能体感知环境状态值State,并以奖励值Reward最大为目标来决定每个基站的开与关。
本发明实施例中,采用Q-learning算法来决定每个基站的开与关,将奖励值Reward作为Q-learning算法中的Q值,以Q值最大为目标来决定每个基站的开与关(On、Off),从而得到最大化能耗与用户的平均服务质量满意度来获得解决最优的聚束(beamforming)解决方案。
S4、根据每个基站的开关状态重新建立用户与基站的关联,并重新分配用户带宽资源来满足速率限制与时延限制。
在用户带宽资源分配中,本发明实施例提出了用户速率限制的资源分配与用户时延限制的资源分配两个子模型,根据不同的运营商来定制合适的带宽资源分配方案,从而最大化速率限制与时延限制的用户满意度。
下面以实施例一和实施例二对不同应用场景下的接纳控制与关联流程做详细介绍。
实施例一:
本发明实施例中,智能体分布在边缘服务器上,具体场景如图6所示,用户与基站建立关联,基站负责物理资源管理,而边缘服务器负责做动作决策与计算奖励值Reward,并更新Q值表(Q table)操作。如图2所示,具体步骤如下:
(1)通过用户终端(UE)向基站发送连接请求。
本发明实施例中,基站位于BBU池中。
(2)通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
(3)通过用户终端向基站发送调度请求。
(4)通过基站向用户终端发送资源调度回复信息。
(5)通过用户终端向基站发送BSR消息。
(6)在基站中根据BSR消息为用户终端做物理资源分配。
(7)通过用户终端向边缘服务器上的强化学习智能体发送服务质量消息。
本发明实施例中,服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
(8)通过BBU池向边缘服务器上的强化学习智能体发送基站开关消息。
本发明实施例中,基站开关消息包括基站标识bsId和基站开关信息(On、Off)。
(9)在边缘服务器上的强化学习智能体中作出动作决策,并将决策消息发送至BBU池。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。
(10)计算每个基站的能耗E,并将其发送至边缘服务器上的强化学习智能体。
(11)通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度S,将平均服务质量满意度S发送至边缘服务器上的强化学习智能体。
(12)在边缘服务器上的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度S计算得到奖励值Reward,并更新Q值表。
实施例二:
本发明实施例中,智能体分布在BBU池中,具体场景如图7所示,用户与基站建立关联后,物理资源管理、动作决策、奖励值Reward的计算与更新Q值表操作都在BBU池中完成。如图2所示,具体步骤如下:
(1)通过用户终端(UE)向BBU池发送连接请求。
本发明实施例中,基站为BBU池中的RRH。
(2)通过BBU池检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
(3)通过用户终端向BBU池发送调度请求。
(4)通过BBU池向用户终端发送资源调度回复信息。
(5)通过用户终端向BBU池发送BSR消息。
(6)在BBU池中根据BSR消息为用户终端做物理资源分配。
(7)通过用户终端向BBU池中的强化学习智能体发送服务质量消息。
本发明实施例中,服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
(8)BBU池中的强化学习智能体检查基站开关消息。
本发明实施例中,基站开关消息包括基站标识bsId和基站开关信息(On、Off)。由于强化学习智能体就位于BBU池中,因此并不需要再通过BBU池向强化学习智能体发送基站开关消息,而是由强化学习智能体检查基站开关消息即可。
(9)在BBU池中的强化学习智能体中作出动作决策。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。由于强化学习智能体就位于BBU池中,因此作出的决策消息不需要再发给BBU池。
(10)通过BBU池中的强化学习智能体计算每个基站的能耗E。
本发明实施例中,由于RRH和强化学习智能体均在BBU池中,因此可在BBU池中通过强化学习智能体直接计算每个RRH的能耗E。
(11)通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度
Figure BDA0001995740000000091
将平均服务质量满意度
Figure BDA0001995740000000092
发送至BBU池中的强化学习智能体。
(12)在BBU池中的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度
Figure BDA0001995740000000093
计算得到奖励值Reward,并更新Q值表。
下面以实施例三对在线聚类的接纳控制与关联流程做详细介绍。
实施例三:
本发明实施例中,每次有新样本产生时,BBU/智能体都需在线聚类,且智能体分布在BBU池中。如图8所示为现有技术中常用的离线聚类信令流程图,这种聚类方法通常基于先验样本完成聚类,只聚类一次,聚类完成后,当有新样本到来时,不再重新聚类,即聚类完成后得到的簇将不再受新样本数据影响。本发明实施例中,提出在线聚类(Online K-means),每次有新样本产生时,需重新聚类获取锚节点,信令流程图如图9所示,具体步骤如下:
(1)通过用户终端(UE)向BBU池的RRH发送连接请求。
本发明实施例中,基站为BBU池中的RRH。
(2)通过BBU池检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵。
(3)通过用户终端向BBU池发送调度请求。
(4)通过BBU池向用户终端发送资源调度回复信息。
(5)通过用户终端向BBU池发送BSR消息。
(6)在BBU池中根据BSR消息为用户终端做物理资源分配。
(7)通过用户终端向BBU池发送服务质量消息。
本发明实施例中,首先需要通过BBU池向用户终端发送状态采集指令,用户终端接收到状态采集指令后,将服务质量消息发送给BBU池中的强化学习智能体。服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ。
(8)在BBU池中重新做聚类操作,该聚类便是在线聚类(Online K-means),聚类完成后,通过BBU池向用户终端发送消息告知终端聚类已完成,并执行动作决策。
(9)通过BBU池将决策消息发送至基站。
本发明实施例中,决策消息包括基站标识bsId和基站开关信息(On、Off)。
(10)通过BBU池中的强化学习智能体计算每个基站的能耗E。
(11)通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度
Figure BDA0001995740000000101
将平均服务质量满意度
Figure BDA0001995740000000102
发送至BBU池中的强化学习智能体。
(12)在BBU池中的强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度
Figure BDA0001995740000000103
计算得到奖励值Reward,并更新Q值表。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (7)

1.一种平衡能耗与用户服务质量的用户带宽资源分配方法,其特征在于,包括以下步骤:
S1、对用户与基站进行接纳控制与关联,得到用户与基站的关系矩阵以及奖励值Reward;
S2、根据用户与基站的关系矩阵,采用AGH算法计算得到环境状态值State;
S3、通过强化学习智能体感知环境状态值State,并以奖励值Reward最大为目标来决定每个基站的开与关;
S4、根据每个基站的开关状态重新建立用户与基站的关联,并重新分配用户带宽资源来满足速率限制与时延限制;
所述步骤S1包括以下分步骤:
S1-1、通过用户终端向基站发送连接请求;
S1-2、通过基站检查该连接请求并向用户终端回复一个确认消息,建立用户与基站的关联关系,并通过用户与基站的关联关系得到用户与基站的关系矩阵;
S1-3、通过用户终端向基站发送调度请求;
S1-4、通过基站向用户终端发送资源调度回复信息;
S1-5、通过用户终端向基站发送BSR消息;
S1-6、在基站中根据BSR消息为用户终端做物理资源分配;
S1-7、通过用户终端向强化学习智能体发送服务质量消息;
S1-8、通过基站向强化学习智能体发送基站开关消息;
S1-9、在强化学习智能体中作出动作决策,并将决策消息发送至基站;
S1-10、计算每个基站的能耗E,并将其发送至强化学习智能体;
S1-11、通过用户终端计算每个用户的服务质量满意度S,并根据每个用户的服务质量满意度S计算得到用户的平均服务质量满意度S,将平均服务质量满意度S发送至强化学习智能体;
S1-12、在强化学习智能体中根据每个基站的能耗E以及平均服务质量满意度S计算得到奖励值Reward;
所述步骤S2包括以下分步骤:
S2-1、对用户与基站的关系矩阵进行训练,得到包括m个锚节点的锚节点集合M以及m个锚节点对应的哈希码;
S2-2、根据锚节点集合M和m个锚节点对应的哈希码,采用节点匹配算法或哈希码匹配算法计算得到环境状态值State;
所述步骤S2-1包括以下分步骤:
S2-1-1、对用户与基站的关系矩阵进行向量化,得到多个行向量,并将每个行向量作为一个样本;
S2-1-2、将所有样本组成多维矩阵;
S2-1-3、对多维矩阵进行在线聚类或离线聚类,得到包括m个锚节点的锚节点集合M;
S2-1-4、对m个锚节点进行AGH映射,得到m个锚节点对应的哈希码。
2.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S1-7中的服务质量消息包括基站标识bsId、流量到达速率λ、流量出队速率r和排队时间r/λ,所述步骤S1-8中的基站开关消息包括基站标识bsId和基站开关信息,所述步骤S1-9中的决策消息包括基站标识bsId和基站开关信息。
3.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S1-10中能耗E的计算公式为:
Figure FDA0003145705740000021
其中
Figure FDA0003145705740000022
表示基站自身的恒定功耗,ρ表示基站归一化的流量负载,p*表示和负载相关的功率参数;
所述步骤S1-11中服务质量满意度S的计算公式为:
Figure FDA0003145705740000023
其中τ表示时延,τmax表示用户所能接受的最大时延,η为常数;
所述步骤S1-12中奖励值Reward的计算公式为:
Figure FDA0003145705740000024
其中N为活跃的基站数量,且N∝E,ω为大于0的常数,
Figure FDA0003145705740000025
为用户的平均服务质量满意度。
4.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S2-1-3中在线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛,并且每次有新样本加入时,重新进行聚类。
5.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S2-1-3中离线聚类的具体方法为:
从多维矩阵中任意选择m个样本作为初始聚类中心,对于剩余的其它样本,则根据它们与初始聚类中心的相似度,分别将它们分配给与其最相似的聚类中心,然后计算每个聚类中所有样本的均值作为新的聚类中心,重复上述过程直到标准测度函数收敛。
6.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S2-2中的节点匹配算法包括以下步骤:
A1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本;
A2、将新样本与锚节点集合M进行最近邻匹配,得到锚节点Mi
A3、对锚节点Mi进行AGH映射,得到锚节点Mi对应的哈希码,并将其作为环境状态值State发送给强化学习智能体。
7.根据权利要求1所述的用户带宽资源分配方法,其特征在于,所述步骤S2-2中的哈希码匹配算法包括以下步骤:
B1、对用户与基站的关系矩阵进行向量化得到行向量,并将该行向量作为一个新样本;
B2、对新样本进行函数映射,得到新样本的哈希码;
B3、将新样本的哈希码与m个锚节点对应的哈希码进行匹配,并将匹配得到的哈希码作为环境状态值State发送给强化学习智能体。
CN201910195637.3A 2019-03-15 2019-03-15 一种平衡能耗与用户服务质量的用户带宽资源分配方法 Expired - Fee Related CN109819522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910195637.3A CN109819522B (zh) 2019-03-15 2019-03-15 一种平衡能耗与用户服务质量的用户带宽资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910195637.3A CN109819522B (zh) 2019-03-15 2019-03-15 一种平衡能耗与用户服务质量的用户带宽资源分配方法

Publications (2)

Publication Number Publication Date
CN109819522A CN109819522A (zh) 2019-05-28
CN109819522B true CN109819522B (zh) 2021-08-24

Family

ID=66609094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910195637.3A Expired - Fee Related CN109819522B (zh) 2019-03-15 2019-03-15 一种平衡能耗与用户服务质量的用户带宽资源分配方法

Country Status (1)

Country Link
CN (1) CN109819522B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723527B (zh) * 2023-08-09 2023-11-14 香港中文大学(深圳) 一种基于数字孪生的基站功耗优化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103987046A (zh) * 2013-02-07 2014-08-13 电信科学技术研究院 一种无线频谱资源分配方法和设备
CN105517120A (zh) * 2014-09-25 2016-04-20 中兴通讯股份有限公司 小基站开关的控制方法及装置
CN106211290A (zh) * 2016-07-27 2016-12-07 北京邮电大学 一种c‑ran架构下基带处理池的节能方法
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks
CN108134979A (zh) * 2017-12-04 2018-06-08 东南大学 基于深度神经网络的小基站开关控制方法
CN108668304A (zh) * 2018-05-18 2018-10-16 浙江工业大学 一种基于深度强化学习的非正交接入下行传输时间优化方法
CN108718463A (zh) * 2018-05-09 2018-10-30 南京邮电大学 一种h-cran下基于多时间尺度协同优化的资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102316971B1 (ko) * 2017-05-08 2021-10-25 삼성전자 주식회사 소프트웨어 정의 네트워크에서 동적 자원 할당 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103987046A (zh) * 2013-02-07 2014-08-13 电信科学技术研究院 一种无线频谱资源分配方法和设备
CN105517120A (zh) * 2014-09-25 2016-04-20 中兴通讯股份有限公司 小基站开关的控制方法及装置
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks
CN106211290A (zh) * 2016-07-27 2016-12-07 北京邮电大学 一种c‑ran架构下基带处理池的节能方法
CN108134979A (zh) * 2017-12-04 2018-06-08 东南大学 基于深度神经网络的小基站开关控制方法
CN108718463A (zh) * 2018-05-09 2018-10-30 南京邮电大学 一种h-cran下基于多时间尺度协同优化的资源分配方法
CN108668304A (zh) * 2018-05-18 2018-10-16 浙江工业大学 一种基于深度强化学习的非正交接入下行传输时间优化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Dynamic Base Station Switching-On/Off Strategies;Eunsung Oh等;《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS,》;20130531;全文 *
基于 ADMM 与 Q-Learning 的无线网络的;黄虎;《中国优秀硕士学位论文电子期刊网》;20181015;论文摘要,第三章,第五章 *
基于两步决策与ε-greedy探索的增强学习频谱分配算法;尹之杰等;《数据采集与处理》;20181115(第06期);全文 *
基于机器学习的C-RAN的资源调度与分配;余明洲;《中国优秀硕士学位论文电子期刊网》;20180915;全文 *
超密集云无线接入网中高能效协作传输技术研究;陈亚文;《中国优秀硕士学位论文电子期刊网》;20181115;全文 *

Also Published As

Publication number Publication date
CN109819522A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
Lin et al. TADP: Enabling temporal and distantial priority scheduling for on-demand charging architecture in wireless rechargeable sensor networks
Xia et al. Federated-learning-based client scheduling for low-latency wireless communications
Yoshida et al. MAB-based client selection for federated learning with uncertain resources in mobile networks
EP3742669B1 (en) Machine learning in radio access networks
KR20210108785A (ko) 무선 통신 시스템에서 서비스를 선택하는 방법 및 장치
Nguyen et al. Real-time energy harvesting aided scheduling in UAV-assisted D2D networks relying on deep reinforcement learning
CN111585816A (zh) 一种基于自适应遗传算法的任务卸载决策方法
US11871251B2 (en) Method of association of user equipment in a cellular network according to a transferable association policy
Lee et al. Affinity propagation for energy-efficient BS operations in green cellular networks
Dai et al. A learning algorithm for real-time service in vehicular networks with mobile-edge computing
CN109819522B (zh) 一种平衡能耗与用户服务质量的用户带宽资源分配方法
Liu et al. Hastening stream offloading of inference via multi-exit dnns in mobile edge computing
CN115802398A (zh) 干扰优化方法及装置、存储介质及电子设备
CN106102148B (zh) 一种基站休眠方法及装置
Zou et al. Resource multi-objective mapping algorithm based on virtualized network functions: RMMA
CN116132403A (zh) 算力网络的路由分配方法、装置、电子设备及存储介质
Chaturvedi et al. A Novel method of Improving Spectrum sensing Management system for CR-IoT Networks
Yu et al. Fast automatic link establishment: A new metric and the value of spectrum prediction
Han et al. Opportunistic coded distributed computing: An evolutionary game approach
Wang et al. RSSI-based node selection using neural network parameterised by particle swarm optimisation
Zhang et al. Effective 3C Resource Utilization and Fair Allocation Strategy for Multi-Task Federated Learning
CN117279019B (zh) 频谱效率的预测方法、装置、电子设备及存储介质
Chen et al. RTE: Rapid and Reliable Trust Evaluation for Collaborator Selection and Time-Sensitive Task Handling in Internet of Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210824