背景技术
随着通信技术的不断发展,未来的5G网络中将会出现多种应用场景,这也意味着不同应用对移动性、安全性、时延和可靠性等方面的要求各不相同。如何在满足多样化的业务需求给现有网络架构带来了巨大的挑战。因此,网络切片(Network Slice,NS)技术应运而生。同时,雾无线接入网(Fog-Radio Access Network,F-RAN)架构利用边缘雾节点的计算、缓存和通信能力分布式地将内容传输给网络切片,不仅减轻了前传链路压力以及BBU池信号处理的负担,还提高了频谱资源的利用率。因此在F-RAN中讨论网络切片资源分配问题非常有必要。
发明人在研究现有技术的过程中发现其存在如下缺点:
现存大多关于网络切片资源分配和内容缓存的研究文献对于网络切片的内容请求、前传链路和无线信道条件等网络状态,大多数文献未考虑到它们的动态性和随机性对资源分配和缓存的影响;未考虑当前时隙的决策会对未来的资源分配和内容缓存策略产生影响,若缓存网络切片常请求的内容,会节省频谱资源,若缓存网络切片不常请求的内容,则会造成缓存资源的浪费,导致没有空间缓存更应该缓存的内容,从而浪费频谱资源,因此频谱资源分配和内容缓存的策略应该建立一个长期优化目标;不能保证每一种类型内容的服务时延,导致网络切片的某些内容请求被丢弃的情况。
因此,利用马尔科夫决策过程模型的特性,将其应用到本发明中,在F-RAN架构中内容服务时延和网络切片SLA约束下建立了最大化长期平均系统效用的约束马尔科夫决策过程模型,提出联合资源分配和内容缓存的方法将网络切片所需内容缓存在边缘雾节点上,以减轻前传链路压力,提高资源利用率。
发明内容
有鉴于此,本发明的目的在于提供一种在F-RAN架构中联合资源分配和内容缓存的方法,保证内容服务时延和网络切片SLA的同时减轻前传链路压力,提高资源利用率。
为达到上述目的,本发明提供如下技术方案:
一种在F-RAN架构中联合资源分配和内容缓存的方法,其特征在于,该方法具体为:在内容服务时延和网络切片SLA约束下以最大化系统长期平均效用为目标进行的联合资源分配和内容缓存决策,在每个离散时隙内,根据当前时刻边缘雾节点的内容请求虚拟队列长度状态、前传链路和无线接入链路传输内容的数据率等信息以及对未来网络状态的估计,在无线资源容量限制和缓存容量限制内为每个网络切片分配合适的无线资源并做出内容缓存策略。
进一步,所述边缘雾节点的内容请求虚拟队列为:能动态地反映不同内容的需求,为网络切片服务的情况以及相应的内容服务时延约束;
满足所述内容服务时延约束为:保证每个边缘雾节点服务网络切片的内容请求的长期平均时延不大于某个时延上限,以此避免网络切片的内容请求无限堆积导致网络切片的某些内容请求被丢弃的情况;其中,所述的长期平均时延为:边缘雾节点的内容请求虚拟队列在长时间上求平均后的队列长度。
进一步,所述网络切片SLA约束为:保证每个网络切片所分配到的长期平均无线资源不小于该网络切片的最小需求;其中,所述的长期平均无线资源为:网络切片所分配到的无线资源在长时间求平均后的无线资源数量。
进一步,所述无线资源容量限制为:保证在每一离散时隙内,分配给网络切片的无线资源之和不超过网络中所拥有的无线资源总量;
所述缓存容量限制为:保证在每一离散时隙内,边缘雾节点缓存内容总量不超过其缓存容量。
进一步,所述边缘雾节点的内容请求虚拟队列更新公式为:
Qnf(t+1)=max{0,Qnf(t)-Dnf(t)+Anf(t)}
其中,Qnf(t+1)为边缘雾节点n上内容f请求在下一时隙开始时的队列长度,Qnf(t)为边缘雾节点n上内容f请求在当前时隙开始时的队列长度,Dnf(t)为边缘雾节点n上内容f请求在当前时隙采取资源分配和内容缓存决策后离开的内容请求数,Anf(t)为边缘雾节点n上内容f请求在当前时隙新到达的网络切片内容请求数,每个网络切片内容请求到达数服从相互独立的泊松过程。
进一步,所述边缘雾节点的内容请求虚拟队列长度状态、所述前传链路和无线接入链路传输内容的数据率在每个离散时隙的变化过程均为马尔科夫链。
进一步,为保证最大化系统长期平均效用问题能够收敛,用折扣因子表示当前资源分配和内容缓存的决策,对未来的报酬产生影响;
为避免对状态转移概率的依赖,引入决策后状态,用于反映外界环境随机变量的统计特征;其中,所述决策后状态与决策前状态之间的关系为当前时隙的决策后状态值函数等于转移到下一时隙开始时的决策前状态值函数求数学平均。
进一步,所述资源分配和内容缓存方法为:在每个离散时隙动态地为网络切片分配无线资源以及调整边缘雾节点内容缓存策略且满足所述无线资源容量限制和内容缓存容量限制,具体步骤为:
1)在每个离散时隙开始时,收集上一时隙各网络切片新到达的内容需求量和当前时隙前传链路和无线接入链路传输内容的数据率信息;
2)更新当前时隙的决策前边缘雾节点的内容请求虚拟队列状态信息;
3)根据贝尔曼方程确定当前时隙最优资源分配和内容缓存的策略,并获得一个瞬时报酬;其中,所述策略π为当系统处于任一状态时,系统对当前状态采取行动,其行动空间需满足所述无线资源容量限制和内容缓存容量限制;所述瞬时报酬为内容缓存带来的收益与租用无线资源的成本之间的差;所述贝尔曼方程为当前时隙的决策前状态值函数等于采取资源分配和内容缓存的策略获得的瞬时报酬值与折扣因子乘以决策后状态值函数之和的最大值。
进一步,采用随机梯度法的方式更新决策后状态值函数,使决策后状态值函数不断逼近真实的决策前状态值函数,具体步骤为:
1)初始化各决策后状态值函数为零;
2)初始化拉格朗日乘子和学习因子;
3)设置初始参考状态,包括所述边缘雾节点的内容请求虚拟队列长度、所述前传链路和无线接入链路传输内容的数据率;
4)在每一次迭代过程,观察并更新网络状态的变化,为了避免决策后状态值函数收敛到局部最优,以概率∈随机选取资源分配和内容缓存的策略,而以1-∈的概率找到使决策后状态值函数最逼近真实的决策前状态值函数的资源分配和内容缓存决策,记录当前最优决策和产生的瞬时报酬;
5)更新决策后状态值函数;
6)根据KKT条件更新拉格朗日乘子;
7)更新学习因子
8)判断是否满足收敛条件:若所述资源分配和内容缓存方案不满足收敛条件,则重复以上迭代步骤,进行下一次迭代;反之满足收敛条件,则得到所述资源分配和内容缓存最优方案。
本发明的有益效果在于:本发明可以在保证内容服务时延和网络切片SLA的同时减轻前传链路压力,提高资源利用率。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
参见图1所示,图1为F-RAN场景图,包含五个部分:BBU池101,用于处理基带信号;前传fronthaul链路102,为有线传输链路,连接BBU与边缘雾节点103;边缘雾节点103为具有计算、缓存和通信能力的边缘网络设备;无线接入链路104,为网络切片中的用户与边缘雾节点103无线连接的通信链路;网络切片105动态到达的内容请求在边缘雾节点103处排队。边缘雾节点103根据为内容建立的虚拟队列长度以及前传链路和无线接入链路传输内容的数据率等信息,综合考虑当前所做的决策可能对未来报酬产生的影响,确定资源分配和内容缓存策略以最大化系统长期平均总效用。若边缘雾节点103缓存某个内容,当网络切片105请求该内容时,则直接将其发送给网络切片;若边缘雾节点103未缓存某个内容,当网络切片105请求该内容时,则需要经过BBU池101进行基带信号处理,再通过fronthaul链路102将内容传输给网络切片105所连接的边缘雾节点103,最后再通过无线接入链路104发送给网络切片105。由于当前时隙的决策会对未来的资源分配和内容缓存策略产生影响,若边缘雾节点103缓存网络切片105常请求的内容,会节省无线资源,若边缘雾节点103缓存网络切片105不常请求的内容,则会造成缓存资源的浪费,导致没有空间缓存更应该缓存的内容,从而浪费无线资源。
参见图2所示,图2为边缘雾节点处网络切片内容请求的虚拟队列图,网络切片内容请求201的到达过程服从泊松分布,然后各内容请求根据网络切片所连接的边缘雾节点分别进入到相对应的内容请求虚拟队列203,各内容请求虚拟队列203的到达率为202,内容请求虚拟队列203的内容请求离开数与当前时隙资源分配和内容缓存策略204有关。若当前时隙边缘雾节点缓存该内容,即α
nf(t)=1,则内容请求离开数D
nf(t)为所有网络切片当前所分配的无线资源数量β
knf(t)与边缘雾节点通过无线链路发送给该网络切片的内容数据率r
knf(t)的乘积之和,即
若当前时隙边缘雾节点未缓存该内容,即α
nf(t)=0,则内容请求离开数D
nf(t)为所有网络切片当前所分配的无线资源数量β
knf(t)与BBU池通过前传链路传送给边缘雾节点再通过无线链路发送给该网络切片的内容数据率
的乘积之和,即
保证内容请求的服务时延即保证网络切片的内容请求不被丢弃,根据little定理,可刻画为保证内容请求虚拟队列203的长期平均长度不大于某个值。
参见图3所示,图3为决策前状态和决策后状态定义图,也体现了两者之间的关系。当前时隙决策前状态301即为边缘雾节点处内容请求虚拟队列长度状态以及当前时隙内前传链路和无线接入链路传输内容的数据率状态;当前时隙内的决策后状态302,为一个暂定的虚拟状态,为在实施资源分配和缓存配置行为304之后而网络切片内容请求到达305之前系统所处的状态,其中边缘雾节点处内容请求虚拟队列长度状态为此时有内容请求离开而新的内容请求未到达的队列长度状态,前传链路和无线接入链路传输内容的数据率在当前时隙内保持不变。决策后状态302描述了需要给每个网络切片分配多少无线资源和边缘雾节点是否缓存网络切片所需内容的情况;下一时隙开始时的决策前状态303,为边缘雾节点处内容请求虚拟队列长度更新之后的状态以及新的前传链路和无线接入链路传输内容的数据率状态,反映了网络切片内容请求到达对网络产生的影响。决策后状态与决策前状态之间的关系为当前时隙的决策后状态302值函数等于转移到下一时隙开始时的决策前状态303值函数求数学平均;决策后状态302的引入避免了解决MDP中贝尔曼方程对状态转移概率的依赖,反映了外界环境随机变量的统计特征;通过随机梯度法在线更新决策后状态302值函数就可以得到资源分配和内容缓存策略。
图4为决策后状态值函数在线更新流程图,步骤如下:
步骤401:初始化所有可能的决策后状态的值函数;
步骤402:初始化拉格朗日乘子和学习因子;
步骤403:初始化时隙t;
步骤404:初始化所有边缘雾节点的内容请求虚拟队列长度;
步骤405:设定参考状态;
步骤406:观察当前时隙各网络切片内容请求到达数以及前传链路和无线接入链路传输内容的数据率等状态信息;
步骤407:综合考虑当前网络状态信息以及所做的决策可能对未来报酬产生的影响,以概率∈随机选取资源分配和内容缓存的策略,而以1-∈的概率找到使决策后状态值函数最逼近真实的决策前状态值函数的资源分配和内容缓存决策,确定最优的资源分配和内容缓存策略以最大化系统长期平均总效用;
步骤408:计算并记录当前时隙采取最优资源分配和内容缓存策略得到的最大系统效用;
步骤409:更新当前时隙决策后状态的值函数;
步骤410:根据当前迭代,判断是否满足收敛条件,若所得到的决策,即资源分配和内容缓存策略能够使系统长期平均效用最大且满足收敛条件,则跳转步骤412;若所得到的决策不满足收敛条件,则跳转步骤411;
步骤411:更新拉格朗日乘子、学习因子、时隙、虚拟队列长度等变量,以进行下一次迭代;
步骤412:输出最优资源分配和内容缓存决策和最大决策后状态值函数。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。