CN109982434A - 无线资源调度一体智能化控制系统及方法、无线通信系统 - Google Patents
无线资源调度一体智能化控制系统及方法、无线通信系统 Download PDFInfo
- Publication number
- CN109982434A CN109982434A CN201910177336.8A CN201910177336A CN109982434A CN 109982434 A CN109982434 A CN 109982434A CN 201910177336 A CN201910177336 A CN 201910177336A CN 109982434 A CN109982434 A CN 109982434A
- Authority
- CN
- China
- Prior art keywords
- base station
- user
- resource scheduling
- indicate
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/535—Allocation or scheduling criteria for wireless resources based on resource usage policies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明属于无线通信技术领域,公开了一种无线资源调度一体智能化控制系统及方法、无线通信系统;在每个TTI,基站获取待调度用户列表;基站收集用户无线资源调度相关参数,并构建状态空间;基站根据深度神经网络为所有用户决策资源调度动作;基站利用深度神经网络计算当前状态动作对应的累积奖励;基站执行资源分配动作并获得环境反馈的期望累积奖励;基站在线更新深度神经网络。本发明采用智能化的无线资源调度架构,聚合了用户调度和资源分配模块,提升了实时通信的决策时效性。本发明避免了性能侧重不同的调度规则的选择,克服了现有技术中在不同调度规则间选择和切换造成时延高的不足,使得本发明有效应用时延敏感的实时通信场景。
Description
技术领域
本发明属于无线通信技术领域,尤其涉及一种无线资源调度一体智能化控制系统及方法、无线通信系统。
背景技术
目前,业内常用的现有技术是这样的:第五代移动通信系统提供并支持三种类型的场景,包括增强移动宽带(Enhanced Mobile Broadband,eMBB),超可靠低延迟通信(Ultra-Reliable and Low Latency Communications,URLLC),以及大规模机器通信(Massive Machine Type Communications,mMTC),新兴场景对吞吐量、可靠性、时延等提出了更高的需求。同时,随着智能终端的发展,业务呈现多样性和异构性,如在线阅读,在线游戏,虚拟现实/增强现实等多样业务提出更严格的QoS需求以保障用户体验。因此,如何灵活调度无线资源以保障和提升用户体验,是目前相关工程和科研领域的热点问题之一。每个基站执行无线资源调度的主体是资源调度模块,它的主要功能是为用户分配共享信道的RB以保障用户QoS需求和提升资源利用率。无线资源调度过程主要包括用户调度和资源分配。用户调度根据相关参数,如信道质量信息(Channel Quality Information,CQI)和QoS,确定待调度用户和它们的优先级。目前常用的用户调度规则有最大载干比(Max Channel/Interference,Max C/I),轮询(Round Robin,RR),比例公平(Proportional Fairness,PF),以及增强型比例公平(Enhanced Proportional Fairness,EPF)等。资源分配根据相关参数,如待传输包的大小、用户优先级等,确定分配给用户的RB数量和RB位置。然而,目前的不同资源调度规则无法应对第五代移动通信系统中更多样和复杂的通信需求,这些需求可能体现在时延、吞吐量、可靠性、甚至是它们的结合。现有资源调度规则侧重不同的需求,如Max C/I侧重吞吐量,RR侧重公平性,PF实现吞吐量和公平性的折中,EPF考虑了QoS需求,缺乏灵活性和融合性,无法适应第五代移动通信系统中丰富的网络场景。此外。现有提高灵活性的方法主要是在每个TTI内选择最佳的调度规则,然后执行该规则从而产生最合适的调度策略,但在不同调度规则间切换需要较长时间,造成了高的切换时延且降低了决策时效性。同时,资源调度通常被考虑成高复杂大规模的优化问题,在第五代移动通信系统超密集网络中,由于用户和基站数量的增加,问题建模和求解变得更复杂。因此,如何针对第五代移动通信系统的丰富场景和多样需求,建模资源调度问题,实现灵活高效的无线资源调度是拟解决的问题之一。
传统的性能优化通常侧重于优化单个模块,然而,由于更加复杂和动态的网络,单模块优化思路面临优化模型不精确以及模块之间策略失配等挑战。模块一体化已经成为一种发展趋势,目的是实现全局最优代替子模块最优,从而减少增益损失,提升算法泛化性,提高决策实时性。因此,如何实现模块一体化的无线资源调度是拟解决的问题之一。随着智能化浪潮的发展及各大产业规模的稳步增长,智能化被认为是当前无线通信低迷和徘徊不前的爆发点、拐点和超级引擎,也是第五代移动通信网络的关键的特征之一。因此,如何实现一体智能化无线资源调度是迫在眉睫的拟解决问题之一。现有技术一公开了一种基站、小基站和通信链路资源的调度方法。其中,基站指宏基站,小基站指微基站。该方法的具体步骤是:首先,微基站向宏基站上报负载信息和信道状态信息。其次,宏基站在毫米波频段向微基站发送无线资源占用信息,指示微基站的无线资源被无线回程链路占用的情况。然后,微基站根据信道状态信息和无线资源占用信息,将微基站的无线回程链路所需的无线资源分配给该微基站。最后,微基站将剩余无线资源分配给接入链路,用于传输用户数据。该方法中宏基站根据各个微基站的负载信息动态的调整回程链路资源,提升了网络资源利用率和系统容量。但该方法侧重宏基站到微基站的无线资源分配,没有实现微基站到用户的无线资源分配,即接入链路无线资源的分配情况。而且,该方法仅提供了用于实现无线资源调度的微基站和宏基站的功能模块,但没有提供具体的资源调度数学模型。现有技术二基于频谱衬垫的认知OFDM系统比例公平资源分配方法。该方法采用启发式算法分配无线资源,可提高资源利用率和系统吞吐量。该方法的具体步骤是:第一步,认知基站获取资源分配所需的信道状态信息;第二步,认知基站基于萤火虫方法分配频率和功率资源;第三步,认知基站通过广播方式将资源分配结果通知认知用户。该方法限定比例公平规则分配无线资源,缺乏灵活性和融合性,无法适应和满足第五代移动通信系统中丰富的网络场景以及用户在吞吐量、可靠性、时延等性能的多样化需求。
综上所述,现有技术存在的问题是:
(1)现有技术侧重宏基站到微基站的无线资源分配,没有实现微基站到用户的无线资源分配,即接入链路无线资源的分配情况。而且,现有技术一仅提供了用于实现无线资源调度的微基站和宏基站的功能模块,没有提供具体的资源调度数学模型。
(2)现有技术限定比例公平规则分配无线资源,缺乏灵活性和融合性,无法适应和满足第五代移动通信系统中丰富的网络场景以及用户在吞吐量、可靠性、时延等性能的多样化需求。
解决上述技术问题的难度:如何智能建模第五代移动通信系统超密集网络中的无线资源调度问题,以适应多种类型的场景和丰富异构的业务;如何针对用户的不同的QoS需求,灵活地分配无线资源,以满足用户对吞吐量、可靠性、时延等性能的需求。
解决上述技术问题的意义:解决难点对用户的体验、网络的演进、以及智能化应用于无线通信的推动具有重要意义。解决难点使所提方法在在第五代移动通信系统中发挥更优性能具有重要意义。
发明内容
针对现有技术存在的问题,本发明提供了一种无线资源调度一体智能化控制系统及方法、无线通信系统。
本发明是这样实现的,一种无线资源调度一体智能化控制方法,所述无线资源调度一体智能化控制方法包括:基站获取待调度用户列表;基站收集用户无线资源调度相关参数,并构建状态空间;基站根据深度神经网络为所有用户决策资源调度动作;基站利用深度神经网络计算当前状态动作对应的累积奖励;基站执行资源分配动作并获得环境反馈的期望累积奖励;基站在线更新深度神经网络。
进一步,所述基站获取待调度用户列表如下:
Listj=[1,2,...,i,...Mj];
其中,Listj表示第j个基站服务的用户列表,Mj表示第j个基站服务的用户数量,i表示第i个用户。
进一步,所述基站构建当前环境状态如下:
sj={s1,...,si,...,sMj},
其中,sj表示第j个基站的状态,由Mj个元组组成,si表示第i个用户的状态,其中,表示第i个用户的服务质量QoS需求,xi表示第i个用户的QoS提供,表示第i个用户的环境参量。
进一步,所述基站根据深度神经网络为所有用户决策资源调度动作,其动作空间如下:
aj={a1,...,ai,...,aMj};
其中,aj表示第j个基站的动作空间,由Mj个元素组成,ai表示第i个用户被分配的资源块RB数量。
进一步,基站利用深度神经网络计算当前状态sj动作aj下输出的累积奖励值为Qj,MainNet(sj,aj|θj),其中MainNet是权重参数为θj的深度神经网络,深度神经网络的输入为(sj,aj),输出为第j个基站在状态sj动作aj下计算得到累积奖励值Qj,MainNet(sj,aj|θj)。
进一步,所述基站执行资源分配动作并获得环境反馈的期望累积奖励,输出的期望累积奖励值为:
其中,yj表示第j个基站在状态sj下执行动作aj获得的期望累计奖励值,Rj(sj,aj)表示第j个基站在状态sj下执行动作aj获得的网络反馈的立即奖励值,当第j个基站在状态sj下执行动作aj后,该基站进入新状态sj′,Qj,TargetNet(sj′,aj′|θj)表示第j个基站在状态sj ′和最优动作aj ′下通过权重参数为θj的深度神经网络TargetNet计算得到的未来累计奖励值,γ表示折扣因子。
进一步,所述深度神经网络TargetNet和深度神经网络MainNet具有相同的结构,初始时刻,TargetNet和MainNet具有相同的权重参数θj;MainNet被用于更新权重参数θj,TargetNet被用于估测未来累计奖励值,计算期望累积奖励值;每隔一定周期,MainNet将更新的权重参数赋值给TargetNet。
进一步,所述基站在线更新深度神经网络,更新方法如下:
Lj(θj)=(yj-Qj,MainNet(sj,aj|θj))2;
其中,Lj(θj)是第j个基站用于更新深度神经网络MainNet的损失函数,对θj执行梯度下降从而最小化损失函数。
本发明的另一目的在于提供一种实现所述无线资源调度一体智能化控制方法的无线资源调度一体智能化控制系统,所述无线资源调度一体智能化控制系统采用智能工具,深度强化学习,聚合用户调度和资源分配功能,基于无线资源调度的相关参数,为所有用户同时决策资源分配结果。
本发明的另一目的在于提供一种应用所述无线资源调度一体智能化控制方法的移动通信系统。
综上所述,本发明的优点及积极效果为:本发明实现了联合用户调度和资源分配的智能无线资源调度,推进了智能化在实时通信的发展。本发明基于现有无线资源调度流程,采用深度强化学习方法智能建模超密集网络中的无线资源调度问题,克服了现有技术中无线资源调度问题难建模或模型不准确的不足,使得本发明有效实现自动的无线资源管理。
本发明考虑了用户多样业务和异构QoS需求,优化目标是最大化用户在不同QoS指标的满意度,实现了用户体验的提升。本发明可灵活适应用户在可靠性、吞吐量、时延等性能的变化的需求,克服了现有技术中不同调度规则适用不用需求和不同场景的不足,使得本发明有效提升场景应用的泛化能力。
本发明采用智能化的无线资源调度架构,聚合了用户调度和资源分配模块,提升了实时通信的决策时效性。本发明避免了性能侧重不同的调度规则的选择,克服了现有技术中在不同调度规则间选择和切换造成时延高的不足,使得本发明有效应用时延敏感的实时通信场景。
附图说明
图1是本发明实施例提供的无线资源调度一体智能化控制系统结构示意图。
图2是本发明实施例提供的无线资源调度一体智能化控制方法流程图。
图3是本发明实施例提供的无线资源调度一体智能化控制方法实现流程图。
图4是本发明实施例提供的超密集网络场景示意图。
图5是本发明实施例提供的无线资源调度算法图。
图6是本发明实施例提供的无线资源调度仿真图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的无线资源调度一体智能化控制系统基于深度强化学习联合实现用户调度和资源分配,在这种架构下,基站可实现智能化自动化无线资源管理。
现有无线资源调度系统采用人为逻辑建模的方式,如图1(a)所示,主要包含四个步骤:第一步,基站收集所有待调度用户的无线资源调度相关参数,如CQI,QoS等;第二步,基站依据调度规则,如PF,RR等,确定待调度用户的优先级;第三步,基站确定分配给最高优先级用户的RB数量和RB位置;第四步,基站通过下行物理控制信道通知用户资源分配结果。现有无线资源调度系统一次输出一个用户的资源分配结果。
本发明的无线资源调度一体智能化控制系统采用智能化建模的方式,如图1(b)所示,主要包含三个步骤:第一步,基站收集所有待调度用户的无线资源调度相关参数,如CQI,QoS等;第二步,基站确定分配给所有待调度用户的RB数量和RB位置;第三步,基站通过下行物理控制信道通知用户资源分配结果。无线资源调度一体智能化控制系统的输出是所有用户的资源分配结果。
本发明的无线资源调度一体智能化控制系统基于深度强化学习可建立用户无线资源调度相关参数和无线资源分配结果间的隐含数学关系。为提升用户体验,本发明将立即奖励设计为用户相对于不用QoS指标,如时延、吞吐量等,的用户满意度函数。本发明的目标是针对用户不用QoS需求,通过有效的资源分配最大化用户满意度。所提基于深度强化学习的架构是智能化的学习架构,具备以下优势:克服现有技术中通过选择和切换调度规则面临决策时效性低的挑战,实现用户体验的提升,以及克服现有技术中基于人为逻辑建模面临建模困难或模型不准确的挑战,实现自动智能无线资源管理。
如图2所示,本发明实施例提供的无线资源调度一体智能化控制方法包括以下步骤:
S101:基站获取待调度用户列表:基站将处于活跃态且在媒体访问控制层有包待传输的用户组成待调度用户列表;
S102:基站收集用户无线资源调度相关参数,并构建状态空间:基站获取用户反馈的物理层CQI等信息,获取用户的高层QoS等信息,构建深度强化学习的状态空间;
S103:基站根据深度神经网络为所有用户决策资源调度动作:在当前状态下,基站采用TargetNet深度神经网络在动作空间中选择最优资源调度动作;
S104:基站利用深度神经网络计算当前状态动作对应的累积奖励:在当前状态动作对下,基站采用MainNet深度神经网络计算累积奖励值;
S105:基站执行资源分配动作并获得环境反馈的期望累积奖励:基站执行选择的最优资源调度动作,获得环境反馈的立即奖励,并依据TargetNet深度神经网络获得期望累积奖励值;
S106:基站在线更新深度神经网络:基站基于累积奖励值和期望累积奖励值最小化损失函数,更新MainNet深度神经网络。
下面结合附图对本发明的应用原理作进一步的描述。
如图3所示,本发明实施例提供的无线资源调度一体智能化控制方法具体包括以下步骤:
本发明的应用场景为超密集蜂窝网络,实施例基于超密集小基站(Small BaseStation,SBS)网络场景说明。超密集小基站网络场景示意图参照图4。图4包含多个SBSs和多个用户设备(User Equipment,UE),具有不同QoS需求的UEs随机分布在SBSs周围。在每个TTI,每个SBS为它服务的UEs执行无线资源调度。本实施例考虑的前提是上层控制器为每个小基站分配部分子带,该分配的目标是最小化SBSs间干扰造成的性能损失。基于此前提,本发明可以将SBSs间的干扰当做噪声。为了方便呈现,本发明考虑相邻SBSs使用正交子带,不相邻SBSs可复用子带,如图4所示,具有相同颜色的SBSs意思是子带复用,具有不同颜色的SBSs意思是子带正交。例如,SBS1、SBS2、SBS3、SBS4、SBS5、SBS6、SBS8、SBS9是子带正交,而SBS1和SBS7是子带复用。UE1被SBS1服务,可以接收到来自SBS1的有用信号和来自SBS7的干扰信号。需要说明的是本发明不局限于当前示意图中的超密集小基站网络场景、SBS数量以及UE数量。
步骤一,基站获取待调度用户列表。
基站将处于活跃态且在媒体访问控制层有包待传输的用户组成待调度用户列表,待调度用户列表表示如下:
Listj=[1,2,...,i,...Mj];
其中,Listj表示第j个基站服务的用户列表,Mj表示第j个基站服务的用户数量,i表示第i个用户。
步骤二,基站收集用户无线资源调度相关参数,并构建状态空间。
基站获取用户反馈的物理层CQI等信息,获取用户的高层QoS等信息,状态表示如下:
sj={s1,...,si,...,sMj};
其中,sj表示第j个基站的状态,由Mj个元组组成,si表示第i个用户的状态,表示如下:
其中,表示第i个用户的QoS需求,表示如下:
F={f1,f2,...,fF}表示QoS指标集合,其中QoS指标包括保证比特率(GuaranteeBite Ratio,GBR)、时延等,F表示QoS指标的数量,表示第i个用户对于QoS指标fF的需求。
其中,xi表示第i个用户的QoS提供,表示如下:
xi={xi,f1,xi,f2,...,xi,fF};
F={f1,f2,...,fF}表示QoS指标集合,xi,fF表示基站通过无线资源调度提供给第i个用户在QoS指标fF的性能。QoS提供取决于无线资源调度的效率。
其中,表示第i个用户的环境参量,表示如下:
E={e1,e2,...,eE}表示环境参数的集合,其中环境参数包括CQI、业务到达率等,E表示环境参数的数量,表示第i个用户的环境参数eE的值。
步骤三,基站根据深度神经网络为所有用户决策资源调度动作。
第j个基站的动作空间表示如下:
aj={a1,...,ai,...,aMj};
其中,aj表示第j个基站的动作空间,由Mj个元素组成,ai表示第i个用户被分配的RB数量。在当前状态下,基站采用TargetNet深度神经网络在动作空间中选择最优资源调度动作,表示如下:
其中,aj *表示第j个基站最优资源调度动作,表示第j个基站处于状态sj时,从动作空间中选择使TargetNet深度神经网络输出值最大的动作aj。θj表示TargetNet深度神经网络的权重。
步骤四,基站利用深度神经网络计算当前状态动作对应的累积奖励。
在当前状态sj动作aj对下,基站采用MainNet深度神经网络计算累积奖励值Qj,MainNet(sj,aj|θj),其中,θj表示MainNet深度神经网络的权重。MainNet深度神经网络的输入为(sj,aj),输出为第j个基站在状态sj动作aj下计算得到累积奖励值Qj,MainNet(sj,aj|θj)。
步骤五,基站执行资源分配动作并获得环境反馈的期望累积奖励。
基站在状态sj执行选择的最优资源调度动作aj *,获得环境反馈的立即奖励,表示如下:
其中,Rj(sj,aj)表示第j个基站在状态sj执行选择的最优资源调度动作aj *获得的立即奖励,Mj表示第j个基站服务的用户数量,F表示QoS指标的数量,Si,fff表示第i个用户在QoS指标fff的用户满意度,与QoS需求和QoS提供有关。
基站依据TargetNet深度神经网络获得期望累积奖励值,表示如下:
其中,yj表示第j个基站在状态sj下执行动作aj获得的期望累计奖励值,Rj(sj,aj)表示第j个基站在状态sj下执行动作aj获得的网络反馈的立即奖励值,当第j个基站在状态sj下执行动作aj后,该基站进入新状态sj′,Qj,TargetNet(sj′,aj′|θj)表示第j个基站在状态sj ′和最优动作aj ′下通过权重参数为θj的深度神经网络TargetNet计算得到的未来累计奖励值,γ表示折扣因子。
步骤六,基站在线更新深度神经网络。
基站基于累积奖励值和期望累积奖励值最小化损失函数,损失函数表示如下:
Lj(θj)=(yj-Qj,MainNet(sj,aj|θj))2;
其中,Lj(θj)是第j个基站关于权重θj的损失函数,基站对θj执行梯度下降从而最小化损失函数,以更新MainNet深度神经网络。初始时刻,TargetNet和MainNet具有相同的权重参数θj。MainNet被用于更新权重参数θj,TargetNet被用于估测未来累计奖励值,从而计算期望累积奖励值。每隔一定周期,MainNet将更新的权重参数赋值给TargetNet。
如图5所示,本发明具体实施过程如下:
第一步,初始TTI,第j个基站初始化权重θj,折扣因子γ,赋值周期C,记录当前状态sj。
第二步,通过ε贪婪算法选择资源调度动作aj *,ε贪婪算法如下:
其中,ε∈(0,1)表示探索率,表示第j个基站在状态sj下选取具有最大Qj的资源调度动作,P()表示在动作空间的概率分布。
第三步,通过MainNet深度神经网络计算累积奖励值Qj,MainNet(sj,aj|θj),在当前状态sj动作aj对下,基站采用MainNet深度神经网络计算累积奖励值Qj,MainNet(sj,aj|θj),其中,θj表示MainNet深度神经网络的权重。MainNet深度神经网络的输入为(sj,aj),输出为第j个基站在状态sj动作aj下计算得到累积奖励值Qj,MainNet(sj,aj|θj)。
第四步,第j个基站执行aj *后,获取立即奖励Rj(sj,aj),更新状态sj′。其中,Rj(sj,aj)为第j个基站执行aj *后的用户满意度。
第五步,第j个基站在状态sj下执行动作aj依据TargetNet深度神经网络获得期望累积奖励值,表示如下:
其中,Rj(sj,aj)表示第j个基站在状态sj下执行动作aj获得的网络反馈的立即奖励值,当第j个基站在状态sj下执行动作aj后,该基站进入新状态sj′,Qj,TargetNet(sj′,aj′|θj)表示第j个基站在状态sj′和最优动作aj′下通过权重参数为θj的深度神经网络TargetNet计算得到的未来累计奖励值,γ表示折扣因子。
第六步,计算损失函数Lj(θj)=(yj-Qj,MainNet(sj,aj|θj))2。基站对θj执行梯度下降从而最小化损失函数,以更新MainNet深度神经网络。
第七步,如果TTI=C,将MainNet深度神经网络权重赋值给TargetNet深度神经网络,即Qj,TargetNet=Qj,MainNet。将TTI计数置0。
如图6所示,对本发明的效果作进一步简化说明。仿真环境见表1。
表1仿真环境
本发明实施例考虑用户具有四种不同的业务类型,分别是恒定比特率(ConstantBit Rates,CBR)、可变比特率(Variable Bit Rates,VBR)、视频会话(Conversational Video,CV)、非会话类视频(Non-Conversational Video,NCV)。QoS指标包含两种,分别是GBR和时延。基于表1的仿真参数得到无线资源调度仿真结果如图6所示。横轴是仿真时间,纵轴是用户平均不满意度。为了更好的展现细节和趋势,本发明采用用户不满意度表征无线资源调度性能。从图中可以看出,折扣因子γ对收敛速率有影响,当γ为0.01时,算法在2000ms左右收敛,当γ为0.05时,算法在3000ms左右收敛,当γ为0.2时,算法在6000ms左右收敛。随着γ的增大,算法收敛速度变慢,这是因为无线资源调度属于实时通信,因此更注重立即回报。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种无线资源调度一体智能化控制方法,其特征在于,所述无线资源调度一体智能化控制方法包括:在每个TTI,基站获取待调度用户列表;基站收集用户无线资源调度相关参数,并构建状态空间;基站根据深度神经网络为所有用户决策资源调度动作;基站利用深度神经网络计算当前状态动作对应的累积奖励;基站执行资源分配动作并获得环境反馈的期望累积奖励;基站在线更新深度神经网络。
2.如权利要求1所述的无线资源调度一体智能化控制方法,其特征在于,所述基站获取待调度用户列表如下:
Listj=[1,2,...,i,...Mj];
其中,Listj表示第j个基站服务的用户列表,Mj表示第j个基站服务的用户数量,i表示第i个用户。
3.如权利要求1所述的无线资源调度一体智能化控制方法,其特征在于,所述基站构建当前环境状态如下:
其中,sj表示第j个基站的状态,由Mj个元组组成,si表示第i个用户的状态,其中,表示第i个用户的服务质量QoS需求,xi表示第i个用户的QoS提供,表示第i个用户的环境参量。
4.如权利要求1所述的无线资源调度一体智能化控制方法,其特征在于,所述基站根据深度神经网络为所有用户决策资源调度动作,其动作空间如下:
其中,aj表示第j个基站的动作空间,由Mj个元素组成,ai表示第i个用户被分配的资源块RB数量。
5.如权利要求1所述的无线资源调度一体智能化控制方法,其特征在于,基站利用深度神经网络计算当前状态sj动作aj下输出的累积奖励值为Qj,MainNet(sj,aj|θj),其中MainNet是权重参数为θj的深度神经网络,深度神经网络的输入为(sj,aj),输出为第j个基站在状态sj动作aj下计算得到累积奖励值Qj,MainNet(sj,aj|θj)。
6.如权利要求1所述的无线资源调度一体智能化控制方法,其特征在于,所述基站执行资源分配动作并获得环境反馈的期望累积奖励,输出的期望累积奖励值为:
其中,yj表示第j个基站在状态sj下执行动作aj获得的期望累计奖励值,Rj(sj,aj)表示第j个基站在状态sj下执行动作aj获得的网络反馈的立即奖励值,当第j个基站在状态sj下执行动作aj后,该基站进入新状态sj′,Qj,TargetNet(sj′,aj′|θj)表示第j个基站在状态sj′和最优动作aj′下通过权重参数为θj的深度神经网络TargetNet计算得到的未来累计奖励值,γ表示折扣因子。
7.如权利要求6所述的无线资源调度一体智能化控制方法,其特征在于,所述深度神经网络TargetNet和深度神经网络MainNet具有相同的结构,初始时刻,TargetNet和MainNet具有相同的权重参数θj;MainNet被用于更新权重参数θj,TargetNet被用于估测未来累计奖励值,计算期望累积奖励值;每隔一定周期,MainNet将更新的权重参数赋值给TargetNet。
8.如权利要求1所述的无线资源调度一体智能化控制方法,其特征在于,所述基站在线更新深度神经网络,更新方法如下:
Lj(θj)=(yj-Qj,MainNet(sj,aj|θj))2;
其中,Lj(θj)是第j个基站用于更新深度神经网络MainNet的损失函数,对θj执行梯度下降从而最小化损失函数。
9.一种实现权利要求1所述无线资源调度一体智能化控制方法的无线资源调度一体智能化控制系统,其特征在于,所述无线资源调度一体智能化控制系统采用智能工具,深度强化学习,聚合用户调度和资源分配功能,基于无线资源调度的相关参数,为所有用户同时决策资源分配结果。
10.一种应用权利要求1~8任意一项所述无线资源调度一体智能化控制方法的移动通信系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910177336.8A CN109982434B (zh) | 2019-03-08 | 2019-03-08 | 无线资源调度一体智能化控制系统及方法、无线通信系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910177336.8A CN109982434B (zh) | 2019-03-08 | 2019-03-08 | 无线资源调度一体智能化控制系统及方法、无线通信系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109982434A true CN109982434A (zh) | 2019-07-05 |
CN109982434B CN109982434B (zh) | 2022-04-01 |
Family
ID=67078186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910177336.8A Active CN109982434B (zh) | 2019-03-08 | 2019-03-08 | 无线资源调度一体智能化控制系统及方法、无线通信系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109982434B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392377A (zh) * | 2019-07-19 | 2019-10-29 | 北京信息科技大学 | 一种5g超密集组网资源分配方法及装置 |
CN110996398A (zh) * | 2019-12-16 | 2020-04-10 | 锐捷网络股份有限公司 | 一种无线网络资源调度方法及装置 |
CN111556572A (zh) * | 2020-04-21 | 2020-08-18 | 北京邮电大学 | 一种基于强化学习的频谱资源和计算资源联合分配方法 |
WO2021114968A1 (zh) * | 2019-12-13 | 2021-06-17 | 华为技术有限公司 | 一种调度方法及装置 |
CN113038583A (zh) * | 2021-03-11 | 2021-06-25 | 南京南瑞信息通信科技有限公司 | 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统 |
CN114025384A (zh) * | 2021-10-28 | 2022-02-08 | 宝胜系统集成科技股份有限公司 | 一种适用于智能车库agv通信系统的通信方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007036003A1 (en) * | 2005-09-30 | 2007-04-05 | University Of South Australia | Reinforcement learning for resource allocation in a communications system |
CN103856948A (zh) * | 2014-03-06 | 2014-06-11 | 南京理工大学 | 基于频谱衬垫的认知ofdm系统比例公平资源分配方法 |
US20140213275A1 (en) * | 2013-01-30 | 2014-07-31 | Acer Incorporated | Methods of Performing Radio Resource Management, Network Node, Mobile Device, Base Station, and Wireless Communication System Using the Same Methods |
CN106165469A (zh) * | 2014-02-27 | 2016-11-23 | 华为技术有限公司 | 基站、小基站和通信链路资源的调度方法 |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
GB2553077A (en) * | 2016-04-27 | 2018-02-28 | Toshiba Kk | Radio resource slicing in a radio access network |
CN108521673A (zh) * | 2018-04-09 | 2018-09-11 | 湖北工业大学 | 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 |
CN108737057A (zh) * | 2018-04-27 | 2018-11-02 | 南京邮电大学 | 基于深度学习的多载波认知noma资源分配方法 |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN108990167A (zh) * | 2018-07-11 | 2018-12-11 | 东南大学 | 一种机器学习辅助的大规模mimo下行用户调度方法 |
CN109068350A (zh) * | 2018-08-15 | 2018-12-21 | 西安电子科技大学 | 一种无线异构网络的终端自主选网系统及方法 |
CN109194425A (zh) * | 2018-08-15 | 2019-01-11 | 西安电子科技大学 | 一种基于人工智能端到端信息传输系统及方法 |
-
2019
- 2019-03-08 CN CN201910177336.8A patent/CN109982434B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007036003A1 (en) * | 2005-09-30 | 2007-04-05 | University Of South Australia | Reinforcement learning for resource allocation in a communications system |
US20140213275A1 (en) * | 2013-01-30 | 2014-07-31 | Acer Incorporated | Methods of Performing Radio Resource Management, Network Node, Mobile Device, Base Station, and Wireless Communication System Using the Same Methods |
CN106165469A (zh) * | 2014-02-27 | 2016-11-23 | 华为技术有限公司 | 基站、小基站和通信链路资源的调度方法 |
CN103856948A (zh) * | 2014-03-06 | 2014-06-11 | 南京理工大学 | 基于频谱衬垫的认知ofdm系统比例公平资源分配方法 |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
GB2553077A (en) * | 2016-04-27 | 2018-02-28 | Toshiba Kk | Radio resource slicing in a radio access network |
CN108521673A (zh) * | 2018-04-09 | 2018-09-11 | 湖北工业大学 | 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN108737057A (zh) * | 2018-04-27 | 2018-11-02 | 南京邮电大学 | 基于深度学习的多载波认知noma资源分配方法 |
CN108990167A (zh) * | 2018-07-11 | 2018-12-11 | 东南大学 | 一种机器学习辅助的大规模mimo下行用户调度方法 |
CN109068350A (zh) * | 2018-08-15 | 2018-12-21 | 西安电子科技大学 | 一种无线异构网络的终端自主选网系统及方法 |
CN109194425A (zh) * | 2018-08-15 | 2019-01-11 | 西安电子科技大学 | 一种基于人工智能端到端信息传输系统及方法 |
Non-Patent Citations (6)
Title |
---|
XINWEI WANG等: "Intelligent User-Centric Network Selection:A Model-Driven Reinforcement Learning Framework", 《IEEE ACCESS》 * |
YING-YING LIU: "Dynamic resource allocation using reinforcement learning for LTE-U and WiFi in the unlicensed spectrum", 《2017 NINTH INTERNATIONAL CONFERENCE ON UBIQUITOUS AND FUTURE NETWORKS (ICUFN)》 * |
严牧等: "基于强化学习的无线网络智能接入控制技术", 《中兴通讯技术》 * |
张琪: "超密集网络资源管理关键技术研究", 《中国优秀硕士论文电子期刊网》 * |
徐少毅等: "M2M通信中基于多智能体强化学习的无线资源分配算法", 《北京交通大学学报》 * |
王倩等: "D2D通信中基于Q学习的联合资源分配与功率控制算法", 《南京大学学报(自然科学)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392377A (zh) * | 2019-07-19 | 2019-10-29 | 北京信息科技大学 | 一种5g超密集组网资源分配方法及装置 |
CN110392377B (zh) * | 2019-07-19 | 2022-07-12 | 北京信息科技大学 | 一种5g超密集组网资源分配方法及装置 |
WO2021114968A1 (zh) * | 2019-12-13 | 2021-06-17 | 华为技术有限公司 | 一种调度方法及装置 |
CN112996125A (zh) * | 2019-12-13 | 2021-06-18 | 华为技术有限公司 | 一种调度方法及装置 |
CN112996125B (zh) * | 2019-12-13 | 2023-04-07 | 华为技术有限公司 | 一种调度方法及装置 |
CN110996398A (zh) * | 2019-12-16 | 2020-04-10 | 锐捷网络股份有限公司 | 一种无线网络资源调度方法及装置 |
CN111556572A (zh) * | 2020-04-21 | 2020-08-18 | 北京邮电大学 | 一种基于强化学习的频谱资源和计算资源联合分配方法 |
CN113038583A (zh) * | 2021-03-11 | 2021-06-25 | 南京南瑞信息通信科技有限公司 | 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统 |
CN114025384A (zh) * | 2021-10-28 | 2022-02-08 | 宝胜系统集成科技股份有限公司 | 一种适用于智能车库agv通信系统的通信方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109982434B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109982434A (zh) | 无线资源调度一体智能化控制系统及方法、无线通信系统 | |
Zhang et al. | Dynamic task offloading and resource allocation for mobile-edge computing in dense cloud RAN | |
Mei et al. | Intelligent radio access network slicing for service provisioning in 6G: A hierarchical deep reinforcement learning approach | |
Yuan et al. | Meta-reinforcement learning based resource allocation for dynamic V2X communications | |
Sun et al. | Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning | |
Sun et al. | Resource slicing and customization in RAN with dueling deep Q-network | |
CN112737837B (zh) | 一种高动态网络拓扑下无人机群带宽资源分配方法 | |
CN111953510B (zh) | 一种基于强化学习的智能电网切片无线资源分配方法及系统 | |
Wang et al. | Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC | |
CN104717755A (zh) | 一种蜂窝网络中引入d2d技术的下行频谱资源分配方法 | |
CN107682935A (zh) | 一种基于系统稳定性的无线自回传资源调度方法 | |
CN109819422B (zh) | 一种基于Stackelberg博弈的异构车联网多模通信方法 | |
CN106211183B (zh) | 一种基于业务合作的自组织微蜂窝联盟机会频谱接入方法 | |
CN104770036A (zh) | 用于实现无线系统中最佳效率-Jain公平性的系统和方法 | |
CN107302801A (zh) | 一种5G混合场景下面向QoE的双层匹配博弈方法 | |
Shang et al. | Computation offloading and resource allocation in NOMA–MEC: A deep reinforcement learning approach | |
Liu et al. | SCMA-based multiaccess edge computing in IoT systems: An energy-efficiency and latency tradeoff | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
CN114051252B (zh) | 无线接入网中多用户智能发射功率控制方法 | |
CN101262701A (zh) | 一种基于遗传算法的动态信道分配方法 | |
Huang et al. | A DRL-based automated algorithm selection framework for cross-layer QoS-aware scheduling and antenna allocation in massive MIMO systems | |
Yi et al. | DMADRL: A distributed multi-agent deep reinforcement learning algorithm for cognitive offloading in dynamic MEC networks | |
Wang et al. | Deep reinforcement learning-based optimization for end-to-end network slicing with control-and user-plane separation | |
Cai et al. | Game theory-based device-to-device network access algorithm for heterogeneous networks | |
Haddad et al. | An automated dynamic offset for network selection in heterogeneous networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |