CN116600325B - 移动网络内容缓存与内容迁移方法、装置、介质及设备 - Google Patents

移动网络内容缓存与内容迁移方法、装置、介质及设备 Download PDF

Info

Publication number
CN116600325B
CN116600325B CN202310888045.6A CN202310888045A CN116600325B CN 116600325 B CN116600325 B CN 116600325B CN 202310888045 A CN202310888045 A CN 202310888045A CN 116600325 B CN116600325 B CN 116600325B
Authority
CN
China
Prior art keywords
content
base station
time
migration
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310888045.6A
Other languages
English (en)
Other versions
CN116600325A (zh
Inventor
林鹏
刘艳
张治中
孙兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310888045.6A priority Critical patent/CN116600325B/zh
Publication of CN116600325A publication Critical patent/CN116600325A/zh
Application granted granted Critical
Publication of CN116600325B publication Critical patent/CN116600325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • H04W28/0236Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/20Negotiating bandwidth
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种移动网络内容缓存与内容迁移方法、装置、介质及设备,获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策。优点:使用强化学习算法时,融入了集体强化学习思想,增加了决策智能体的经验交互过程,提升了学习效率。同时,在内容迁移过程中考虑了迁移成本,对基站协作缓存性能与内容迁移成本进行了权衡,实现缓存性能的提升。

Description

移动网络内容缓存与内容迁移方法、装置、介质及设备
技术领域
本发明涉及一种移动网络内容缓存与内容迁移方法、装置、介质及设备,属于移动网络视频流业务与人工智能技术领域。
背景技术
新一代智能移动终端的发展催生了各种基于视频的流媒体业务,如在线视频点播、超高清直播、沉浸式虚拟现实等。各种流媒体业务的繁荣发展给移动网络和互联网网络增加了巨大的流量负担,导致服务延迟大和用户体验质量差。为了缓解网络负载,提供低时延视频服务,边缘网络缓存技术被认为是一种有效的方法。通过在网络边缘(基站)部署缓存服务器,用户终端可以直接从基站的缓存服务器中获取想要的内容,而不需要频繁的主干网内容传输过程。通过边缘缓存技术,能够显著降低内容传输延迟,提升用户体验。
将内容缓存至基站后,基站可以通过协作的方式共享各自存储的内容。当本地基站存储的内容无法满足用户需求时,基站可向相邻基站发出内容请求,经过内容迁移过程,相邻基站存储的内容传输至用户终端,达到满足用户请求的目的。然而,基站之间的内容迁移过程将耗费迁移成本。考虑到移动网络的实际限制和成本问题,边缘网络中的内容缓存和内容迁移仍然存在一些问题。首先,要实现基站之间的内容协作缓存和共享,需要频繁地跨基站内容迁移。频繁的迁移会产生巨大的迁移成本,如使用昂贵的跨基站带宽、产生系统能耗。第二,基站的内容缓存和内容迁移在时空维度上与用户请求偏好紧密耦合。用户偏好的空间/时间动态特征增加了内容缓存和迁移决策的难度。第三,如何以分布式的方式实现快速、准确的缓存和迁移决策仍然是需要解决的问题。
因此,为了进一步发掘边缘缓存技术在移动流媒体业务服务网络中的优势,降低视频传输时延,提升用户流媒体业务体验,设计一种低成本的内容缓存与迁移方法,具有重要的理论和现实意义。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种移动网络内容缓存与内容迁移方法、装置、介质及设备。
为解决上述技术问题,本发明提供一种移动网络内容缓存与内容迁移方法,包括:
获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;
根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;
基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策。
进一步的,所述内容流行度表示为:
式中,P f (t)为t时刻内容f的流行度;
所述无线传输环境的信道衰落参数表示为:
式中,t时刻基站i与终端j之间的信道衰落参数,/>t-1时刻基站i与终端j之间的信道衰落参数,ρ DL,ij 为目标基站i与用户终端j的信道关联因子,σ DL,j 为高斯随机变量,且服从σ DL,j ~CN(0,1);
所述基站存储状态表示为:
式中,为目标基站it时刻的存储状态,/>为目标基站it-1时刻的存储状态,/>t时刻目标基站i对目标内容f的内容缓存决策,/>,/>表明目标基站it时刻将目标内容f进行缓存,反之/>c f 为目标内容f的数据量大小,F为网络中的内容总数量。
进一步的,所述内容传输总时延的计算公式为:
式中,为给定内容缓存决策/>以及内容迁移决策/>的内容传输总时延,/>为目标内容f从目标基站i传输至用户终端j经无线链路传输的时延,/>为目标内容f从邻接基站k传输至目标基站i的传输时延,/>为目标内容f从源服务器经主干网传输至目标基站i的时延;
式中,U为用户终端总量,为目标基站i与用户终端jt时刻的下链路传输速率,P f (t)为内容ft时刻的流行度,c f 为目标内容f的数据量大小;
式中,t时刻邻接基站k与目标基站i之间的数据传输速率,M为邻接基站总数,/>为邻接基站k对目标基站it时刻针对目标内容f的内容迁移决策,/>,/>表示邻接基站k将目标内容f传输至目标基站i,反之/>
式中,为主干网传输速率。
进一步的,所述目标基站i与用户终端jt时刻的下链路传输速率的计算公式为:
式中,t时刻目标基站i对于用户终端j的带宽分配决策,/>B i 为基站i所能提供的总带宽,/>为目标基站i与用户终端jt时刻的下链路信号与噪声比值;
式中,为目标基站i与用户终端j的长期平均下链路信号与噪声比值。
进一步的,所述系统回报函数表示为:
式中,表示系统回报函数,q t 为表示t时刻结束时内容迁移所超出的成本预算值,/>q t-1表示t-1时刻结束时内容迁移所超出的成本预算值,E t-1为时刻t-1的平均内容迁移成本,E avg 为长期迁移成本预算,s i,t 为系统状态,a i,t 为系统动作,φ t 为基于成本的队列惩罚参数,μ为关于时延的惩罚参数;
式中,t时刻目标基站i对目标内容f的内容缓存决策,e if 为基站i获取内容f所付出的成本。
进一步的,所述基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策,包括:
S1,采用强化学习算法基本结构,所述强化学习算法基本结构采用actor-critic模式,初始化actor和critic的神经网络,分别构造参数为θw的动作神经网络π(a|s;θ)和评价神经网络Q(a,s;w),其中,a为系统动作,s为系统状态,θw分别表示神经网络π和神经网络Q的网络模型参数;
S2,根据动作网络π(a|s;θ)获得的结果a i,t ,根据预先确定的约束规则,修正决策变量
S3,执行决策
S4,根据所述系统回报函数,计算动作回报值;
S5,邻接基站决策经验交互,修正系统回报函数U(s i,t ,a i,t ),具体如下:
式中,为修正后的系统回报函数,λ ep 为探索项的权重因子,λ et 为延伸项的权重因子,θ t t时刻的动作网络模型参数,θ t-n t-n时刻的动作网络模型参数,π为动作网络,/>为参与协作的智能体的动作网络,s i,t-n 为基站it-n时刻的状态;
S6,构造元组s i,t+1t+1时刻基站i的系统状态;
S7,更新评价网络Q(a,s;w);
w t+1=w t -∆w
式中,w t+1w t 分别为t时刻和t+1时刻的评价网络模型参数,∆w为参数更新步长;
式中,γ c 为评价网络的学习率,β为更新折扣因子,Q(a,s t+1 ;w t )为t时刻模型参数为w t 且输入为(a t ,s t )的评价网络输出值,为网络Q(a t ,s t ;w t )关于参数w的梯度;
S8,更新动作网络π(a|s;θ);
式中,θ t+1θ t 分别为t时刻和t+1时刻的动作网络模型参数,γ α 为动作网络的学习率,J(π θ )为策略目标函数,用于指导动作网络提升系统回报,为函数J(π θ )关于θ的梯度;
式中,d(s)为状态转移模型;
S9,持续迭代S2至S9,直至达到迭代次数,获取最终优化后的决策变量
一种移动网络内容缓存与内容迁移装置,包括:
获取模块,用于获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;
构建模块,用于根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;
优化模块,用于基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
一种计算机设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
本发明所达到的有益效果:
本发明利用了强化学习方法来感知内容流行度和传输环境的动态变化特性,通过对动态参数的感知,实现内容缓存与内容迁移,以及传输带宽分配的在线实时决策。使用强化学习算法时,融入了集体强化学习思想,增加了决策智能体的经验交互过程,提升了学习效率。同时,在内容迁移过程中考虑了迁移成本,对基站协作缓存性能与内容迁移成本进行了权衡。在迁移成本预算可承受范围内,实现了缓存性能的提升。
附图说明
图1为本发明一种实施例的移动网络内容缓存与迁移系统示意图;
图2为本发明一种实施例的内容迁移成本曲线随时间变化关系示意图;
图3为本发明一种实施例的内容传输时延随基站缓存容量的变化关系示意图;
图4为本发明一种实施例的内容传输时延随迁移成本预算变化关系示意图;
图5为本发明一种实施例的终端平均中断频率随终端密度变化关系示意;
图6为本发明一种实施例的平均中断频率随终端缓冲阈值变化关系示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1,本发明实现移动网络下低成本的内容缓存与内容迁移机制,其实质是考虑动态内容流行度和网络传输状态条件下,内容协作缓存性能和内容迁移成本的权衡问题。如图1所示,考虑一个具有M个基站的移动边缘网络,每个基站具有一定存储容量能够缓存视频内容。相邻基站之间互相连接,且视频内容可以在基站之间迁移实现内容共享。在该场景下,本发明公开了一种移动网络内容缓存与内容迁移方法,包括以下步骤:
步骤1:用户请求模式分析,具体步骤如下:
用户访问视频内容时,存在潜在的访问倾向性,具体体现自内容流行度参数。内容流行度表示一段时间内,视频内容被用户访问的概率。本发明采用Zipf函数对内容流行度进行建模。
步骤1-1:内容流行度解析。内容流行度表征用户对内容的访问倾向性;
内容流行度用Zipf函数建模,内容f的流行度P f 定义如下:
(1);
其中,α为表示内容请求集中程度的倾斜指数,rank(f)为按照请求次数从高至低的排序,F为网络中的内容总数。
步骤1-2:内容流行度动态特性分析;
用户对视频内容的请求偏好是动态变化的,不同时间段用户的请求分布存在差 异,因此内容流行度参数也是随时间变化的。本发明使用固定状态马尔科夫过程构建内容 流行度的变化过程。定义内容的时变流行度为,表示t时刻内容被用户请求的概率。 一定时间内,网络中内容的流行度状态空间定义为:
, (2);
其中,P n 为处于n状态的流行度轮廓,G为流行度状态总数。内容集合中各个内容的流行度参数P f (t),f∈[1,F](整体轮廓)在状态空间中随时间t变化,其中P n 可通过设置步骤1-1中的参数α获得。
步骤1-3:获取内容流行度状态;
基站it时刻获取内容的流行度分布状态,其中内容f的流行度通过如下方式获取:
(3) ;
式中,P f (t)为t时刻内容f的流行度;基于的分布,在中确定时刻内容流 行度的整体状态。
步骤2:数据传输过程带宽分配;
内容从基站传输至用户终端过程中,无线信道条件是动态变化的。为了保证内容传输过程的稳定性,本发明能够根据信道条件状态动态进行带宽分配,以确保用户具有稳定的数据接收过程。具体步骤如下:
步骤2-1:获取无线传输环境的信道衰落参数,具体如下:
(4)
式中,t时刻基站i与终端k之间的信道衰落参数,/>t-1时刻基站i与终端k之间的信道衰落参数,ρ DL,ij 为目标基站i与用户终端j的信道关联因子,σ DL,j 为高斯随机变量,且服从σ DL,j ~CN(0,1)。
步骤2-2:获取基站i与用户jt时刻的下链路信号与噪声比值SNR。信噪比SNR是表征信道状态的重要参数,其随时间t动态变化,具体定义如下:
(5);
式中,为基站i与用户j的长期平均下链路信号与噪声比值SNR。
步骤2-3:获取i与用户jt时刻的下链路传输速率,下链路传输速率/>根据香浓定理计算理论传输速率上限,具体如下:
(6) ;
其中,为/>时刻基站/>对于用户/>的带宽分配决策。
步骤3:基站存储容量分配;
用户请求的内容f从内容服务器经主干网络传输至基站i,此时基站将决定是否缓存内容f。当基站/>的存储器未满时,直接将内容f缓存至本地,当基站/>的存储器已满时,将基于缓存决策/>进行内容替换。这一过程涉及到存储容量更新。
步骤3-1:基站存储状态更新;
定义基站i在t时刻的存储状态为,更新过程如下:
(7);
其中t时刻基站/>对内容f的缓存决策,/>,/>表明基站/>t时刻将内容f进行缓存,反之/>,/>为内容f的数据量大小,/>为基站/>在/>时刻的存储容量状态。
步骤3-2:存储容量约束;
基站i在做出缓存决策时,应该考虑本地存储容量是否达到上限,即在t时刻的存储状态应满足存储容量限制:/>,其中/>为节点最大存储容量。
步骤4:内容迁移成本统计与约束;
基站存储的内容可通过X2接口与相邻基站进行共享,当某本地存储数据无法满足用户请求时,可向邻接基站发出内容迁移请求。内容迁移过程中,将占用边缘网路的带宽,能耗以及运营成本。因此内容迁移过程中需要对迁移成本进行量化,并使内容迁移成本在可承受范围内。
步骤4-1:内容迁移成本量化;
t时刻基站之间的内容迁移成本取决于基站的内容缓存状态,以及内容迁移决策。给定缓存决策和迁移决策/>,内容迁移总成本计算如下:
(8);
其中为基站k对基站it时刻针对内容f的内容迁移决策,/>,且表示基站k将内容f传输至基站/>,反之/>,/>为基站i获取内容f所付出的成本。
步骤4-2:构造长期迁移成本预算约束;
基站之间发生内容迁移将立即产生瞬时迁移成本,由于不同时刻网络的内容迁移需求不同,因此系统的瞬时迁移成本在不同时刻存在差异。在一定时间内,系统要求累积平均迁移成本满足一定的成本预算。即,在满足系统长期累积迁移成本预算的基础上,做出瞬时迁移决策。
在时间段T内,系统平均内容迁移成本满足长期迁移成本预算,表示如下:
(9);
其中为长期迁移成本预算。
步骤4-3:内容缓存与迁移决策修正;
基站k能够将内容f迁移至基站i的前提是其已缓存内容f。同时,为避免基站之间存在冗余内容迁移,在同一时刻,系统只允许一个基站向基站i发送内容。在时刻t,基站i的内容缓存与邻接基站的内容迁移决策服从变量冗余约束条件,具体如下:
(10);
(11)。
步骤5:内容传输时延量化,具体步骤如下:
在具有缓存能力的移动边缘网络中,当用户请求内容f时,其传输时延存在三部分,分别为:传输延时包括基站到用户终端的无线传输时延,基站之间的内容迁移时延,内容源服务器到基站的主干网传输时延/>
步骤5-1:无线传输时延统计;
内容f从基站i经无线链路传输至用户终端j所经历的时延为无线传输时延。基站i同时覆盖多个用户终端,此处统计基站i覆盖范围内的用户的平均无线传输时延。内容f经无线链路传输的时延计算如下:
(12);
其中为步骤2-3所获得的下链路传输速率,U为用户终端数量。
步骤5-2:内容迁移时延统计;
内容f从邻接基站k传输至基站i的传输时延记为迁移时延,迁移频率受内容f的流行度影响,具体计算如下:
(13);
其中为时刻/>邻接基站/>与基站/>之间的数据传输速率。
步骤5-3:主干网传输时延统计;
当本地基站i未缓存内容f,同时相邻基站未作出迁移决策时,内容f将从源服务器经主干网传输至基站i,此时的时延计算为:
(14);
其中为主干网传输速率。
步骤6:视频流业务性能量化;
基于步骤5所量化的各部分传输时延,对视频流业务性能量化。评估视频流业务的性能主要从内容传输时延和视频播放稳定性两方面。本发明对内容传输时延和视频播放终端频率进行量化:
步骤6-1:内容传输总时延统计
当用户终端发出内容f请求时,目标内容可能直接由本地基站i将内容f直接传输至用户终端,也可由邻接基站k通过基站i间接传输给用户终端,取决于相关基站是否缓存了内容f以及是否进行内容迁移。给定内容缓存决策以及迁移决策/>,内容传输总时延/>统计如下:
(15);
其中为迁移时延和回程链路传输时延,具体参见步骤5。
步骤6-2:视频中断频率统计;
单位时间内,用户终端接收到的内容数据量与播放消耗量之差低于一定阈值时,发生视频中断。中断事件取决于终端当前剩余内容数据量与单位时间内可接收数据量是否满足播放量需求。用户终端在时刻t的数据缓冲状态计算如下:
(16);
其中为评价时隙,/>为视频播放数据消耗量。获得/>后,计算/>次数,即为中断频率。
步骤7:马尔科夫决策问题构造;
本发明通过在线决策算法实现内容缓存、内容迁移以及传输带宽分配过程。算法采用强化学习架构,首先,基站根据收集到的数据信息构造马尔科夫过程。马尔科夫过程包含系统状态、系统动作、回报函数三个要素。
步骤7-1:系统状态构造:
基站将系统参数,/>,/>构造为系统状态/>
(17)。
步骤7-2:系统动作构造:
基站将系统变量构造为系统动作/>,
(18)。
步骤7-3:系统回报函数构造:
基站根据观测到的内容流行度轮廓,信道状态以及存储资源状态构造系统回报函数。回报函数表征了系统做出的决策是否朝向有益的方向前进。定义回报函数如下:
(19);
其中, (20)。
步骤8:内容缓存与迁移决策:
基站根据步骤7所构建的系统模型,以最小化系统回报函数为目标,进行内容缓存、内容迁移与带宽分配决策。本发明在传统强化学习算法(actor-critic)基础上设计了集体强化学习算法,主要通过决策智能体的经验交互,实现对系统的回报函数的实时修正,加快算法收敛效率。具体步骤如下:
步骤8-1:构造动作网络和评价网络/>
采用强化学习算法基本结构,算法结构采用actor-critic模式。首先,初始化actor和critic的神经网络,分别构造参数为和/>的动作神经网络/>和评价神经网络/>
步骤8-2:根据动作网络获得的结果/>,根据步骤3-2、步骤4-3约束规则,修正决策变量/>,使其满足资源约束状态;
步骤8-3:执行决策
步骤8-4:根据步骤7-3的回报函数,计算动作回报值
步骤8-5:邻接基站决策经验交互,修正回报函数,具体如下:
(21);
其中式(21)中为“探索项”,起到利用自身智能体以往决策经验的作用,为“延伸项”,该项为基站i与相邻基站的交互过程,能够使智能体i利用其它智能体的决策经验对回报函数进行修正,从而提升学习效率;
步骤8-6:构造元组;/>
步骤8-7:更新评价网络
评价网络需要在决策过程中不断训练,从而达到拟合效果。具体更新过程如下:
(22);
其中,
(23)
步骤8-8:更新动作网络
评价网络需要在决策过程中不断训练,从而达到拟合效果。具体更新过程如下:
(24);
其中, (25);
步骤8-9:返回步骤8-2。
对本发明提出的低成本移动网络内容缓存与迁移算法的整体性能进行比较分析,具体如下:
图2为本发明实施例的内容迁移成本曲线随时间变化关系。图中实线和虚线分别表示内容流行度参数α设置为0.8和0.6时的变化曲线。从图可以看出,在本发明方法下,随着算法的收敛,内容迁移总成本也随之降低。其中可以预测,随着系统持续运行,内容迁移成本将收敛到长期成本预算附近。同时,还可以发现在不同的流行度参数下,本发明方法具有不同的内容迁移代价下降速率。α的值越小,表示用户的内容请求分布越均匀,随之触发基站之间更多的内容迁移。
图3为本发明实施例的内容传输时延随基站缓存容量的变化关系曲线图。内容传递延迟是评价本发明方法有效性的关键指标。从图中可以看出本发明方法与其它方法相比,用户的内容传输时延均随着基站缓存容量增大而降低。本发明方法的性能优于其它方法,说明基于流行度预测的缓存方法能够充分发挥缓存的优势。随机缓存方法和贪婪缓存方法在存储空间利用率方面效率不高,因此传输时延降低不明显。静态优化方法与本发明方法相比,性能接近。其性能差距来源于对动态流行度和无线信道条件的感知能力。本发明方法利用集体强化学习算法,实现对动态用户偏好和传输环境的感知,能够做出更精确的内容缓存、内容迁移和带宽分配决策,因此具有更好的性能。
图4为本发明实施例的内容传输时延随迁移成本预算变化关系曲线图。迁移成本预算越高,说明跨基站之间的内容迁移事件更多,允许更多基站进行内容共享,相当于扩展了边缘网络的存储容量。从图中可以看出,本发明方法与其它三种方法相比表现出更好的传输时延性能。表明本发明方法能够在一定迁移成本约束的基础上,优化内容缓存、内容迁移和带宽分配决策,进一步降低传输时延。
图5为本发明实施例的终端平均中断频率随终端密度变化关系曲线。视频中断频率是衡量用户视频体验质量的重要指标。图中可以看出,不同方法下,用户终端的中断频率随终端密度增加而上升。本发明方法具有动态带宽分配功能,能够根据无线信道条件的变化实时分配更多的带宽给信道条件差的用户,使其具有稳定的传输环境。因此本发明方法在平均中断频率方面表现良好。
图6为本发明实施例的平均中断频率随终端缓冲阈值变化关系曲线。图中可以看出,静态优化方法和本发明方法的中断频率随终端缓冲阈值增加缓慢降低。随机缓存方法和贪婪缓存方法始终保持稳定。这是由于后两者不具备带宽分配能力,因此在无线信道条件较差时,终端发生较多中断事件。通过对比可以得出在本发明方法中,提高缓冲门限阈值对视频中断频率有积极的影响。
实施例2,相应的本发明还提供一种移动网络内容缓存与内容迁移装置,其特征在于,包括:
获取模块,用于获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;
构建模块,用于根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;
优化模块,用于基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策。
实施例3,相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行任一所述方法。
实施例4,相应的本发明还提供一种计算机设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任一所述方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (4)

1.一种移动网络内容缓存与内容迁移方法,其特征在于,包括:
获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;
根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;
基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策;
所述内容流行度表示为:
式中,P f (t)为t时刻内容f的流行度;
所述无线传输环境的信道衰落参数表示为:
式中,t时刻基站i与终端j之间的信道衰落参数,/>t-1时刻基站i与终端j之间的信道衰落参数,ρ DL,ij 为目标基站i与用户终端j的信道关联因子,σ DL,j 为高斯随机变量,且服从σ DL,j ~CN(0,1);
所述基站存储状态表示为:
式中,为目标基站it时刻的存储状态,/>为目标基站it-1时刻的存储状态,t时刻目标基站i对目标内容f的内容缓存决策,/>,/>表明目标基站it时刻将目标内容f进行缓存,反之/>c f 为目标内容f的数据量大小,F为网络中的内容总数量;
所述内容传输总时延的计算公式为:
式中,为给定内容缓存决策/>以及内容迁移决策/>的内容传输总时延,为目标内容f从目标基站i传输至用户终端j经无线链路传输的时延,/>为目标内容f从邻接基站k传输至目标基站i的传输时延,/>为目标内容f从源服务器经主干网传输至目标基站i的时延;
式中, U为用户终端总量,为目标基站i与用户终端jt时刻的下链路传输速率,P f (t)为内容ft时刻的流行度,c f 为目标内容f的数据量大小;
式中,t时刻邻接基站k与目标基站i之间的数据传输速率,M为邻接基站总数,为邻接基站k对目标基站it时刻针对目标内容f的内容迁移决策,/>表示邻接基站k将目标内容f传输至目标基站i,反之/>
式中,为主干网传输速率;
所述目标基站i与用户终端jt时刻的下链路传输速率的计算公式为:
式中,t时刻目标基站i对于用户终端j的带宽分配决策,/>B i 为基站i所能提供的总带宽,/>为目标基站i与用户终端jt时刻的下链路信号与噪声比值;
式中,为目标基站i与用户终端j的长期平均下链路信号与噪声比值;
所述系统回报函数表示为:
式中,表示系统回报函数,q t 为表示t时刻结束时内容迁移所超出的成本预算值,/>q t-1表示t-1时刻结束时内容迁移所超出的成本预算值,E t-1为时刻t-1的平均内容迁移成本,E avg 为长期迁移成本预算,s i,t 为系统状态,a i,t 为系统动作,φ t 为基于成本的队列惩罚参数,μ为关于时延的惩罚参数;
式中,t时刻目标基站i对目标内容f的内容缓存决策,e if 为基站i获取内容f所付出的成本;
所述基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策,包括:
S1,采用强化学习算法基本结构,所述强化学习算法基本结构采用actor-critic模式,初始化actor和critic的神经网络,分别构造参数为θw的动作神经网络π(a|s;θ)和评价神经网络Q(a,s;w),其中,a为系统动作,s为系统状态,θw分别表示神经网络π和神经网络Q的网络模型参数;
S2,根据动作网络π(a|s;θ)获得的结果a i,t ,根据预先确定的约束规则,修正决策变量
S3,执行决策
S4,根据所述系统回报函数,计算动作回报值;
S5,邻接基站决策经验交互,修正系统回报函数U(s i,t , a i,t ),具体如下:
式中,为修正后的系统回报函数,λ ep 为探索项的权重因子,λ et 为延伸项的权重因子,θ t t时刻的动作网络模型参数,θ t-n t-n时刻的动作网络模型参数,π为动作网络,/>为参与协作的智能体的动作网络,s i,t-n 为基站it-n时刻的状态;
S6,构造元组s i,t+1t+1时刻基站i的系统状态;
S7,更新评价网络Q(a,s;w);
w t+1=w t -∆w
式中,w t+1w t 分别为t时刻和t+1时刻的评价网络模型参数,∆w为参数更新步长;
式中,γ c 为评价网络的学习率,β为更新折扣因子,Q(a,s t+1 ;w t )为t时刻模型参数为w t 且输入为(a t ,s t )的评价网络输出值,为网络Q(a t ,s t ;w t )关于参数w的梯度;
S8,更新动作网络π(a|s;θ);
式中,θ t+1θ t 分别为t时刻和t+1时刻的动作网络模型参数,γ α 为动作网络的学习率,J(π θ )为策略目标函数,用于指导动作网络提升系统回报,为函数J(π θ )关于θ的梯度;
式中,d(s)为状态转移模型;
S9,持续迭代S2至S9,直至达到迭代次数,获取最终优化后的决策变量
2.一种移动网络内容缓存与内容迁移装置,其特征在于,包括:
获取模块,用于获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;
构建模块,用于根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;
优化模块,用于基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策;
所述内容流行度表示为:
式中,P f (t)为t时刻内容f的流行度;
所述无线传输环境的信道衰落参数表示为:
式中,t时刻基站i与终端j之间的信道衰落参数,/>t-1时刻基站i与终端j之间的信道衰落参数,ρ DL,ij 为目标基站i与用户终端j的信道关联因子,σ DL,j 为高斯随机变量,且服从σ DL,j ~CN(0,1);
所述基站存储状态表示为:
式中,为目标基站it时刻的存储状态,/>为目标基站it-1时刻的存储状态,t时刻目标基站i对目标内容f的内容缓存决策,/>,/>表明目标基站it时刻将目标内容f进行缓存,反之/>c f 为目标内容f的数据量大小,F为网络中的内容总数量;
所述内容传输总时延的计算公式为:
式中,为给定内容缓存决策/>以及内容迁移决策/>的内容传输总时延,为目标内容f从目标基站i传输至用户终端j经无线链路传输的时延,/>为目标内容f从邻接基站k传输至目标基站i的传输时延,/>为目标内容f从源服务器经主干网传输至目标基站i的时延;
式中, U为用户终端总量,为目标基站i与用户终端jt时刻的下链路传输速率,P f (t)为内容ft时刻的流行度,c f 为目标内容f的数据量大小;
式中,t时刻邻接基站k与目标基站i之间的数据传输速率,M为邻接基站总数,为邻接基站k对目标基站it时刻针对目标内容f的内容迁移决策,/>表示邻接基站k将目标内容f传输至目标基站i,反之/>
式中,为主干网传输速率;
所述目标基站i与用户终端jt时刻的下链路传输速率的计算公式为:
式中,t时刻目标基站i对于用户终端j的带宽分配决策,/>B i 为基站i所能提供的总带宽,/>为目标基站i与用户终端jt时刻的下链路信号与噪声比值;
式中,为目标基站i与用户终端j的长期平均下链路信号与噪声比值;
所述系统回报函数表示为:
式中,表示系统回报函数,q t 为表示t时刻结束时内容迁移所超出的成本预算值,/>q t-1表示t-1时刻结束时内容迁移所超出的成本预算值,E t-1为时刻t-1的平均内容迁移成本,E avg 为长期迁移成本预算,s i,t 为系统状态,a i,t 为系统动作,φ t 为基于成本的队列惩罚参数,μ为关于时延的惩罚参数;
式中,t时刻目标基站i对目标内容f的内容缓存决策,e if 为基站i获取内容f所付出的成本;
所述优化模块,具体用于执行以下步骤:
S1,采用强化学习算法基本结构,所述强化学习算法基本结构采用actor-critic模式,初始化actor和critic的神经网络,分别构造参数为θw的动作神经网络π(a|s;θ)和评价神经网络Q(a,s;w),其中,a为系统动作,s为系统状态,θw分别表示神经网络π和神经网络Q的网络模型参数;
S2,根据动作网络π(a|s;θ)获得的结果a i,t ,根据预先确定的约束规则,修正决策变量
S3,执行决策
S4,根据所述系统回报函数,计算动作回报值;
S5,邻接基站决策经验交互,修正系统回报函数U(s i,t , a i,t ),具体如下:
式中,为修正后的系统回报函数,λ ep 为探索项的权重因子,λ et 为延伸项的权重因子,θ t t时刻的动作网络模型参数,θ t-n t-n时刻的动作网络模型参数,π为动作网络,/>为参与协作的智能体的动作网络,s i,t-n 为基站it-n时刻的状态;
S6,构造元组s i,t+1t+1时刻基站i的系统状态;
S7,更新评价网络Q(a,s;w);
w t+1=w t -∆w
式中,w t+1w t 分别为t时刻和t+1时刻的评价网络模型参数,∆w为参数更新步长;
式中,γ c 为评价网络的学习率,β为更新折扣因子,Q(a,s t+1 ;w t )为t时刻模型参数为w t 且输入为(a t ,s t )的评价网络输出值,为网络Q(a t ,s t ;w t )关于参数w的梯度;
S8,更新动作网络π(a|s;θ);
式中,θ t+1θ t 分别为t时刻和t+1时刻的动作网络模型参数,γ α 为动作网络的学习率,J(π θ )为策略目标函数,用于指导动作网络提升系统回报,为函数J(π θ )关于θ的梯度;
式中,d(s)为状态转移模型;
S9,持续迭代S2至S9,直至达到迭代次数,获取最终优化后的决策变量
3.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行权利要求1所述方法。
4.一种计算机设备,其特征在于,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1所述方法的指令。
CN202310888045.6A 2023-07-19 2023-07-19 移动网络内容缓存与内容迁移方法、装置、介质及设备 Active CN116600325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310888045.6A CN116600325B (zh) 2023-07-19 2023-07-19 移动网络内容缓存与内容迁移方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310888045.6A CN116600325B (zh) 2023-07-19 2023-07-19 移动网络内容缓存与内容迁移方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN116600325A CN116600325A (zh) 2023-08-15
CN116600325B true CN116600325B (zh) 2023-09-22

Family

ID=87606722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310888045.6A Active CN116600325B (zh) 2023-07-19 2023-07-19 移动网络内容缓存与内容迁移方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN116600325B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN113115368A (zh) * 2021-04-02 2021-07-13 南京邮电大学 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN114567895A (zh) * 2022-02-23 2022-05-31 重庆邮电大学 一种mec服务器集群的智能协同策略的实现方法
CN115633033A (zh) * 2022-10-08 2023-01-20 南京邮电大学 融合射频能量采集的协同节能计算迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN113115368A (zh) * 2021-04-02 2021-07-13 南京邮电大学 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN114567895A (zh) * 2022-02-23 2022-05-31 重庆邮电大学 一种mec服务器集群的智能协同策略的实现方法
CN115633033A (zh) * 2022-10-08 2023-01-20 南京邮电大学 融合射频能量采集的协同节能计算迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王亚平.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,正文第3章. *

Also Published As

Publication number Publication date
CN116600325A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Li et al. QoE-driven mobile edge caching placement for adaptive video streaming
Lu et al. Edge QoE: Computation offloading with deep reinforcement learning for Internet of Things
Chen et al. Intelligent resource allocation management for vehicles network: An A3C learning approach
He et al. Qoe-based task offloading with deep reinforcement learning in edge-enabled internet of vehicles
Lin et al. Resource management for pervasive-edge-computing-assisted wireless VR streaming in industrial Internet of Things
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
Maniotis et al. Viewport-Aware Deep Reinforcement Learning Approach for 360$^\circ $ Video Caching
Chen et al. T-gaming: A cost-efficient cloud gaming system at scale
Li et al. Mobility and marginal gain based content caching and placement for cooperative edge-cloud computing
Li et al. Joint edge caching and dynamic service migration in SDN based mobile edge computing
Majidi et al. Hfdrl: An intelligent dynamic cooperate cashing method based on hierarchical federated deep reinforcement learning in edge-enabled iot
Zhou et al. QoE-aware 3D video streaming via deep reinforcement learning in software defined networking enabled mobile edge computing
Yan et al. Distributed edge caching with content recommendation in fog-rans via deep reinforcement learning
Yang et al. Collaborative edge caching and transcoding for 360° video streaming based on deep reinforcement learning
Zhang et al. VC-PPQ: privacy-preserving Q-learning based video caching optimization in mobile edge networks
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Liu et al. Mobility-aware video prefetch caching and replacement strategies in mobile-edge computing networks
Cao et al. Service placement and bandwidth allocation for MEC-enabled mobile cloud gaming
Cao et al. Adaptive provisioning for mobile cloud gaming at edges
Huang et al. Personalized QoE enhancement for adaptive video streaming: A digital twin-assisted scheme
CN116600325B (zh) 移动网络内容缓存与内容迁移方法、装置、介质及设备
Yu et al. Attention-based QoE-aware digital twin empowered edge computing for immersive virtual reality
Gong et al. Slicing-based resource optimization in multi-access edge network using ensemble learning aided DDPG algorithm
Zhu et al. A novel rate control algorithm for low latency video coding base on mobile edge cloud computing
Shi et al. CoLEAP: Cooperative learning-based edge scheme with caching and prefetching for DASH video delivery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant