CN115208952A - 一种智慧协同内容缓存方法 - Google Patents

一种智慧协同内容缓存方法 Download PDF

Info

Publication number
CN115208952A
CN115208952A CN202210853254.2A CN202210853254A CN115208952A CN 115208952 A CN115208952 A CN 115208952A CN 202210853254 A CN202210853254 A CN 202210853254A CN 115208952 A CN115208952 A CN 115208952A
Authority
CN
China
Prior art keywords
content
model
cache
decision process
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210853254.2A
Other languages
English (en)
Other versions
CN115208952B (zh
Inventor
高德云
杨美怡
陈杜
权伟
杨冬
张宏科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202210853254.2A priority Critical patent/CN115208952B/zh
Publication of CN115208952A publication Critical patent/CN115208952A/zh
Application granted granted Critical
Publication of CN115208952B publication Critical patent/CN115208952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种智慧协同内容缓存方法。该方法包括:以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程模型;通过控制器上的智能体对基于深度Q网络的内容缓存算法DQN进行训练,获取训练好的DQN模型;通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得协作马尔可夫决策过程模型的最优解,根据协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容进行在线决策过程,并基于边界增益替换规则更新节点缓存空间中的内容。本发明所提出的一种智慧协同内容缓存方法应用AI技术来驱动网络的内容缓存操作,每个节点在做出自己的缓存决策时都考虑其他节点的缓存决策,可以降低动作空间的大小并提高系统收敛性能。

Description

一种智慧协同内容缓存方法
技术领域
本发明涉及网络缓存技术领域,尤其涉及一种智慧协同内容缓存方法。
背景技术
随着数据的爆炸式增长以及应用的丰富,越来越多的用户倾向于视频流、网页浏览、社交网络和在线游戏,这促使供应商寻求能够提供可接受的QoE的新服务技术。网络缓存技术通过将内容部署在中间节点上来响应用户请求,其被广泛应用到许多应用中,包括内容交付网络(content delivery networks,CDN)、信息中心网络(information-centricnetworks,ICN)和新兴的5G(fifth generation)。从支持缓存的未来网络架构到辅助存储的无线结构,缓存技术不仅有利于网络基础设施(即降低成本),也有利于终端用户(改善服务)。
由于网路中少数热门内容占据大部分数据流量,因此内容流行度分布被认为是引导节点缓存内容的重要指标。大多数现有工作都侧重于主动缓存,即假设内容流行度分布是事先已知的。然而,在实践中,由于时空流量需求的未知性和内容请求的动态波动性,导致时变和复杂的内容流行度。因此,部分工作利用机器学习算法估计内容流行度,然后根据估计的流行度(或估计的请求数)来优化缓存策略。然而,这些方法的有效性在很大程度上取决于预测精度。人工智能(Artificial Intelligence,AI)作为一种新兴的技术,已被证明有望解决无线网络中的内容缓存决策问题,它可以适应环境的动态变化,而无需事先知道其动态。但在多跳网络中,请求节点通过多跳链路与源节点进行连接,则在传输路径上节点之间存在缓存决策冲突。因此,这些无线缓存策略不能直接应用于多跳网络。鉴于节点缓存容量的有限性和内容库资源的海量性,因此,如何充分利用缓存节点有限的存储资源成为当前学者研究的重点。
现有技术中的第一种车联网内容缓存决策优化方法包括:旨在减少请求车辆获取所需内容总时延。此方法可解决车辆的关联问题,并考虑内容预缓存,从而得出最优内容缓存决策。该方法具体包括以下步骤:S1、将内容划分为多个内容块;S2、定义车辆关联,缓存空间大小,以及在未缓存和被缓存情况下的内容传输时延;S3:不考虑预缓存,优化内容缓存决策;S4:在步骤S3基础上,确定需要预缓存的内容种类和大小;S5:根据优化目标,结合缓存内容和预缓存内容,采用动态规划方法优化缓存决策。
上述现有技术中的第一种车联网内容缓存决策优化方法的缺点为:一方面,该方法需要预先知道内容的流行度分布,然而内容流行度是动态不可知的;另一方面,该方法采用动态规划算法,其算法复杂度高,不能很好适应动态的网络环境。
现有技术中的第二种基于深度学习的内容流行度预测及边缘缓存方法包括:由于无线网络中用于预测流行度的信息较少,通过不断训练神经网络,在只有内容请求次数这一特征的情况下,实现内容流行度的成功预测。该方法具体包括以下步骤:S1、随机选取一个内容的流行序列数据作为训练数据,并采用双向长短期记忆神经网络对该数据集进行训练,得到这种内容对应的流行度预测模型。S2、不断遍历内容列别中的所有内容,直到得到设定数目的内容类别以及对应的流行度预测模型,构建基于神经网络的分类器。S3、利用分类器得到每个内容的所属类别,然后由对应训练好的神经网络模型来预测下一时隙的流行度。S5、根据预测结果,每个边缘节点进行缓存更新。
上述现有技术中的第二种基于深度学习的内容流行度预测及边缘缓存方法的缺点包括:该方法需要数据集的支持,并存在训练时间长、预测效果依赖于模型准确性的缺陷。此外,为保障模型的准确性,该方法需要不断地重新离线训练模型,从而造成较大的资源消耗。
发明内容
本发明的实施例提供了一种智慧协同内容缓存方法,以实现有效地使用AI技术来学习和优化缓存策略。
为了实现上述目的,本发明采取了如下技术方案。
一种智慧协同内容缓存方法,包括:
以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程模型;
通过控制器上的智能体对基于深度Q网络的内容缓存算法DQN进行训练,获取训练好的DQN模型;
通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解,根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容进行在线决策过程,并基于边界增益替换规则更新节点缓存空间中的内容。
优选地,所述的以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程模型,包括:
以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程MDP模型,将控制器视为智能体,将缓存网络视为环境,所述MDP模型的关键元素定义如下:
状态:智能体的状态反映了环境,既包括当前节点的缓存状态,也包括各个节点的请求需求情况,将s(t)={x(t),d(t)}定义为全局状态,其中
Figure BDA0003755492360000031
表示请求需求,在时隙t的缓存替换阶段,利用历史观察s(ν)(ν=1,...,t)和相关奖励来学习下一个时隙的最佳缓存操作;
动作:在每个时隙结束时,智能体将从环境中获取输入,并根据其策略选择缓存节点,对于文件fm,联合缓存动作空间定义为
Figure BDA0003755492360000032
则所有离散动作的集合为
Figure BDA0003755492360000033
在时隙t执行动作a(t)后,系统状态变为s(t+1),其状态DR转移概率为Pr(s(t+1)|s(t),a(t));
奖励:奖励被视为智能体执行动作后的反馈,在缓存奖励函数中,相关的xj,m(t)转换为xj,m(t+1)并由0变为1,总奖励
Figure BDA0003755492360000034
其中
Figure BDA0003755492360000035
并且rj,m(t+1)由(2)计算得到;
Figure BDA0003755492360000036
优选地,所述的通过控制器上的智能体对基于深度Q网络的内容缓存算法DQN进行训练,获取训练好的DQN模型,包括:
在基于深度Q网络的内容缓存算法DQN模型的离线训练过程中,控制器从节点收集观察结果并训练DQN模型来管理每个时隙的内容放置,首先初始化DQN模型中DNN的参数,智能体从环境中收集初始状态s(0),将初始状态s(0)输入到主神经网络中以输出每个动作的
Figure BDA0003755492360000037
值,对每个文件fm,m∈{1,...,M},控制器利用∈-greedy策略以概率∈随机选择动作am(t),否则选择估计
Figure BDA0003755492360000041
值最高的动作,当节点的缓存空间不足,将根据边际增益替换j缓存中边际增益最小的文件,根据选择的动作a(t),得到下一个系统状态s(t+1)和奖励ra(t)(t),并将生成的状态转移样本{s(t),a(t),ra(t)(t),s(t+1)}存储到经验池
Figure BDA0003755492360000048
中以供将来训练;
Figure BDA0003755492360000042
中随机采样H个{s(h),a(h),ra(h)(h),s(h+1)}样本(h={1,2,...,H}),然后使用SGD方法最小化损失函数
Figure BDA0003755492360000043
来更新主网络参数θ(h),其中目标
Figure BDA0003755492360000044
Figure BDA0003755492360000045
定期将主网络参数θ(h)赋值给目标网络参数
Figure BDA0003755492360000046
在DQN模型的离线训练过程结束后,获取训练好的DQN模型。
优选地,所述的通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解,根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容进行在线决策过程,并基于边界增益替换规则更新节点缓存空间中的内容,包括:
通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解,根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容执行在线决策过程,使用训练好具有最优参数θ*的主神经网络在当前状态下做出缓存决策,根据边际增益在物理网络中执行Q值最高的动作,以实现当前状态下的最佳内容放置,并将结果记录到经验池
Figure BDA0003755492360000047
中,以进一步更新DQN模型,当节点缓存空间已满时,基于边际成本的内容替换规则,对缓存空间中的内容进行更新操作。
由上述本发明的实施例提供的技术方案可以看出,本发明所提出的一种智慧协同内容缓存方法应用AI技术来驱动网络的内容缓存操作,每个节点在做出自己的缓存决策时都考虑其他节点的缓存决策,可以降低动作空间的大小并提高系统收敛性能。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种智慧协同内容缓存方法的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
为减少网络中冗余流量传输和减轻服务器负载,内容在缓存网络上的最佳放置问题成为一些网络应用程序的研究热点。通过在非高峰时段预取热门内容,缓存节点可以在高峰时段将其提供给用户,有效提升体验质量。本发明实施例提出了一种智慧协同内容缓存方法,该方法考虑到有限的缓存容量、未知的流行度分布以及非固定用户需求,以最小化长期传输成本来优化多跳网络内容缓存。缓存网络中一些节点充当源服务器,而其他节点在缓存为空时始终可以从这些源节点获取请求的内容。该方法将内容缓存过程建模为协作马尔可夫决策过程(Markov decision process,MDP),旨在最大化缓存奖励。为解决该优化问题,本发明提出一种基于深度Q网络的内容缓存(deep Q network-based contentcaching,DQN-CC)算法,通过控制器上的智能体自适应地学习和捕获环境的动态变化,以在线方式获得近似最优解。此外,为更新每个节点的缓存,提出基于边际增益的替换规则,实现内容快速更新并降低算法复杂性。
在本发明中,考虑到有限的缓存容量、未知的流行度分布以及非平稳的用户需求,以最小化长期传输成本为目标,通过优化内容缓存来探索这个问题。将内容缓存过程建模为一个协作马尔可夫决策过程,旨在最大化缓存奖励。为处理这个优化问题,本发明提出一种智能缓存算法DQN-CC,以在线方式获得近似最优解,因此控制器处的智能体能够自适应地学习和跟踪底层动态。此外,为更新每个节点的缓存,使用基于边际增益的替换规则,提供更快的更新并降低算法复杂性。
本发明实施例提出的一种智慧协同内容缓存方法的处理流程如图1所示,包括如下的处理步骤:
步骤S10、以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程模型;
步骤S20、通过控制器上的智能体对基于深度Q网络的内容缓存算法进行训练,通过训练好的基于深度Q网络的内容缓存算法求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解;
步骤S30、根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容进行在线决策过程,并基于边界增益替换规则更新节点缓存空间中的内容。
具体的,上述步骤S10包括:
第一方面,本发明考虑一个通用的多跳网络,表示为有向连接图
Figure BDA0003755492360000061
其中
Figure BDA0003755492360000062
表示大小为N的节点集,
Figure BDA0003755492360000063
表示连接每队节点的链路集合,
Figure BDA0003755492360000064
用户对大小为M的文件库
Figure BDA0003755492360000065
生成随机请求,其中所有文件的大小相同,归一化为1。每个节点i都有一个本地缓存,其容量为cj,cj<M。假设每个文件
Figure BDA0003755492360000066
都存在一个永久存储fm的节点,则将该节点视为fm的源节点,记为
Figure BDA0003755492360000067
对于每个文件都是固定的。时间被划分为一系列由
Figure BDA0003755492360000071
表示的时隙,在这些时隙中周期性地做出内容缓存决策。在时隙t的开始,节点i本地请求不同的文件,这些文件服从独立的泊松过程,其到达率为λi。节点i对内容fm的请求率服从Zipf分布为
Figure BDA0003755492360000072
其中αi是Zipf参数。在时隙t中,节点i请求文件fm的次数记为di,m(t)。这个瞬时需求di,m(t)是一个独立同分布的随机变量,其均值
Figure BDA0003755492360000073
因此,一个时隙内的平均请求次数可以表示为
Figure BDA0003755492360000074
在本发明中,考虑一个更实际的情况,即λi
Figure BDA0003755492360000075
是节点事先不知道的。
定义一个缓存配置矩阵
Figure BDA0003755492360000076
表示节点在时隙t的缓存状态,其中xj(t)={xj,1(t),xj,2(t),...,xj,M(t)}是一个指示变量,即当文件fm在t时隙缓存在节点j时xj,m(t)=1,否则xj,m(t)=0。这个矩阵由t-1时隙制定的缓存决策所决定。在每个时隙的整体向量中存在缓存容量约束:
Figure BDA0003755492360000077
其中cj表示节点j的缓存容量。
根据文件请求,网络通过在G中建立路由来响应它。令pi,m为节点
Figure BDA0003755492360000078
发出的文件请求路由到源节点src(m),m∈{1,...,M}的路径。长度为|pi,m|=K的路径pi,m由序列{l1(pi,m),...,lK-1(pi,m)}组成,其中链路
Figure BDA0003755492360000079
对于每个k∈{1,...,|pi,m|-1},
Figure BDA00037554923600000710
表示链路lk(pi,m)的下游节点。为捕获传输成本(例如,传输时延、能量消耗等),每条链路
Figure BDA00037554923600000711
都被分配一个权重wl,它表示通过该链路传输内容的成本。假设请求消息的成本与响应消息相比可以忽略不计。
每个节点都可以从给定的有限库
Figure BDA00037554923600000712
中请求任何文件。请求节点
Figure BDA00037554923600000713
生成的对文件fm的请求通过G中的固定路径路由到源节点。但是,当请求文件fm已存储在中间节点中时,此过程终止。此时,包含请求文件fm的响应将通过反向路径发送。本发明的目标是利用中间节点的缓存来最小化内容传输成本。
第二方面,本发明从深度强化学习(deep reinforcement learning,DRL)角度来制定协作缓存优化问题,其目的是在节点需求先验未知的情况下,在时间范围T内搜索最小的内容传输成本。详细过程总结如下。
在将问题建模为DRL之前,本发明将缓存奖励定义为与没有缓存相比传输成本的降低。令
Figure BDA0003755492360000081
表示节点集合,其中每个元素的路径都包含j节点,
Figure BDA0003755492360000082
表示j在pi,m中的位置(即
Figure BDA0003755492360000083
)。在时隙t-1结束时,节点j执行缓存操作xj(t)以满足即将到来的请求。此外,在t时隙的信息收集阶段,可以获得
Figure BDA0003755492360000084
和其他节点的缓存状态,因此瞬时奖励rj,m(t)通过计算得到:
Figure BDA0003755492360000085
其中di,m(t)表示节点i在时隙t中请求文件fm的次数,
Figure BDA0003755492360000086
表示路径pi,m中链路lk(pi,m)上分配的权重。变量
Figure BDA0003755492360000087
表示链路
Figure BDA0003755492360000088
的下游节点。
然后,本发明的目标是通过寻求全局内容缓存策略x(t)来最大化长时间范围T内的期望总奖励。优化问题由下式给出:
Figure BDA0003755492360000089
s.t. (1),
Figure BDA00037554923600000810
其中变量θi,m表示一个时隙内节点i请求文件fm的平均次数。
上述优化问题(P0)可以分为T个独立的子优化问题,当内容需求
Figure BDA0003755492360000091
是完全已知时,则这个子问题为NP难问题并可以通过在每个时隙上使用最优化方案来解决。在这里,本发明考虑一个更实际的情况,即θi,m事先不知道,问题(P0)很难使用传统方法快速找到最优解。因此,本发明采用DRL技术,其中智能体通过与环境交互以根据收到的奖励学习每个内容的缓存策略,从而找到(P0)的最佳解决方案。
第三方面,本发明提出一种基于AI的DQN-CC算法,以优化具有动态请求需求的文件放置,其中控制器自适应地做出缓存决策。本发明首先将内容缓存问题建模为MDP,其次设计一种有效的DRL方法来处理MDP。详细过程总结如下。
基于DRL的主要思想,将优化问题(P0)转换为MDP,其中控制器视为智能体,缓存网络视为环境。MDP的每个关键元素定义如下:
状态:智能体的状态反映了环境,既包括当前节点的缓存状态,也包括各个节点的请求需求情况。因此,将s(t)={x(t),d(t)}定义为全局状态,其中
Figure BDA0003755492360000092
表示请求需求。在时隙t的缓存替换阶段,利用历史观察s(ν)(ν=1,...,t)和相关奖励来学习下一个时隙的最佳缓存操作。
动作:在每个时隙结束时,智能体将从环境中获取输入,并根据其策略选择缓存节点。对于文件fm,联合缓存动作空间定义为
Figure BDA0003755492360000093
则所有离散动作的集合为
Figure BDA0003755492360000094
在时隙t执行动作a(t)后,系统状态变为s(t+1),其状态DR转移概率为Pr(s(t+1)|s(t),a(t))。
奖励:奖励被视为智能体执行动作后的反馈。在缓存奖励函数中,相关的xj,m(t)可以转换为xj,m(t+1)并由0变为1,总奖励
Figure BDA0003755492360000095
其中
Figure BDA0003755492360000096
并且rj,m(t+1)由(2)计算得到。
由于不确定的转移概率和维数灾难,对于上述MDP问题,很难推导出最优策略π*(s(t))。在这种情况下,本发明基于过去的经验利用集中式深度Q网络(deep Q network,DQN)学习模型来解决该问题。
DQN-CC由离线训练和在线运行过程组成。在离线训练过程中,控制器从节点收集观察结果并训练DQN模型来管理每个时隙的内容放置。在训练过程结束之后,这个训练好的模型可以在线执行,以实现当前状态下的最佳内容放置。此外,如果DQN模型需要更新,先保存现有模型,并使用新收集的训练数据进行额外训练,以改进模型。当新的DQN模型的训练过程完成后,新DQN模型将会替换旧DQN模型。
为在不满足缓存容量约束时有效地更新缓存,DQN-CC定义节点j对内容fm的边际增益为
Figure BDA0003755492360000101
其中
Figure BDA0003755492360000102
表示在状态s(t)下采取动作am(t)后的预期累积奖励。γ∈[0,1)表示折扣因子。
其中
Figure BDA0003755492360000103
表示节点j不缓存文件fm时最优的Q值。如果节点j没有足够的空间来缓存文件fm,它会根据边际增益自动从其缓存空间中选择合适的文件进行替换。缓存文件的边际收益记录到控制器维护的缓存表中,可以指导各个节点缓存文件。根据边际增益对缓存表中的文件索引进行降序排序,以提高缓存更新效率。详细离线训练过程总结如下:
首先初始化DQN模型中DNN的参数。智能体从环境中收集初始状态s(0)并将其输入到主神经网络中以输出每个动作的
Figure BDA0003755492360000104
值。为实现探索和利用的良好平衡,对每个文件fm,m∈{1,...,M},控制器利用∈-greedy策略以概率∈随机选择动作am(t),否则选择估计
Figure BDA0003755492360000105
值最高的动作。当节点的缓存空间不足,将根据上述的边际增益替换j缓存中边际增益最小的文件。根据选择的动作a(t),得到下一个系统状态s(t+1)和奖励ra(t)(t),并将生成的状态转移样本{s(t),a(t),ra(t)(t),s(t+1)}存储到经验池
Figure BDA0003755492360000115
中以供将来训练。从
Figure BDA0003755492360000116
中随机采样H个{s(h),a(h),ra(h)(h),s(h+1)}样本(h={1,2,...,H}),然后使用SGD方法最小化损失函数
Figure BDA0003755492360000111
来更新主网络参数θ(h),其中目标
Figure BDA0003755492360000112
Figure BDA0003755492360000113
其中ra(h)(h)表示执行动作a(h)后得到的奖励。
此外,定期将主网络参数θ(h)赋值给目标网络参数
Figure BDA0003755492360000114
在完成模型的离线训练后,DQN-CC可以解决多跳网络中的内容放置问题。DQN-CC的在线运行过程包括两个阶段。第一阶段,使用训练好具有最优参数θ*的主神经网络在当前状态下做出缓存决策,并将结果记录到经验池
Figure BDA0003755492360000117
中,以进一步更新DQN模型。在第二阶段,根据边际增益在物理网络中执行Q值最高的动作。
实施例二
图1上半部分显示了DQN-CC的运行过程,包括步骤4-13。步骤4-8旨在获取缓存状态和请求信息,然后将它们作为训练好的DQN模型的输入,以做出最优的缓存决策。接下来,步骤9基于当前状态执行具有最高
Figure BDA0003755492360000118
值的选定动作。执行动作后,步骤10将包括当前状态、动作、相应奖励和下一个状态的结果记录到经验池中,以更新DQN模型。最后,在步骤11-13中,如果内容放置满足缓存容量约束,则控制器使用最佳缓存决策来引导节点缓存内容(在步骤13中)。否则,节点将执行内容更新操作(在步骤12中)。
综上所述,本发明实施例在不需要事先知道内容流行度的基础上,以最小化长期内容传输成本为目标,解决多跳有线网络中最优的内容放置问题。由于动态的网络环境,本发明将这个缓存决策问题建模为MDP。通过考虑节点之间的协作和计算复杂性,提出DQN-CC,通过在网络中使用AI技术来学习和优化缓存策略。此外,当缓存空间已满时,提出基于边际成本的内容替换规则。相比于分布式DRL算法,DQN-CC通过考虑节点间协作达到接近最优的性能,而这是最优化算法在已知节点偏好的情况下可以实现的。
本发明所提出的一种智慧协同内容缓存方法应用AI技术来驱动网络的内容缓存操作。由于在多跳网络中所有节点的缓存行为是相互影响的,则每个节点在做出自己的缓存决策时都需要考虑其他节点的缓存决策。为降低动作空间的大小并提高收敛性能,本发明提出一种智能缓存策略,DQN-CC,以使智能体更有效地学习做出最佳决策,其中引入基于边际增益的替换规则来有效更新每个节点的缓存。本发明不是先预测内容偏好,然后设计一个匹配的缓存策略,而是使用DRL通过考虑节点之间协作来直接学习缓存策略。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种智慧协同内容缓存方法,其特征在于,包括:
以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程模型;
通过控制器上的智能体对基于深度Q网络的内容缓存算法DQN进行训练,获取训练好的DQN模型;
通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解,根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容进行在线决策过程,并基于边界增益替换规则更新节点缓存空间中的内容。
2.根据权利要求1所述的方法,其特征在于,所述的以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程模型,包括:
以最小化传输代价为目标,将多跳网络协作缓存问题建模为协作马尔可夫决策过程MDP模型,将控制器视为智能体,将缓存网络视为环境,所述MDP模型的关键元素定义如下:
状态:智能体的状态反映了环境,既包括当前节点的缓存状态,也包括各个节点的请求需求情况,将s(t)={x(t),d(t)}定义为全局状态,其中
Figure FDA0003755492350000011
表示请求需求,在时隙t的缓存替换阶段,利用历史观察s(ν)(ν=1,...,t)和相关奖励来学习下一个时隙的最佳缓存操作;
动作:在每个时隙结束时,智能体将从环境中获取输入,并根据其策略选择缓存节点,对于文件fm,联合缓存动作空间定义为
Figure FDA0003755492350000012
则所有离散动作的集合为
Figure FDA0003755492350000013
在时隙t执行动作a(t)后,系统状态变为s(t+1),其状态DR转移概率为Pr(s(t+1)|s(t),a(t));
奖励:奖励被视为智能体执行动作后的反馈,在缓存奖励函数中,相关的xj,m(t)转换为xj,m(t+1)并由0变为1,总奖励
Figure FDA0003755492350000014
其中
Figure FDA0003755492350000015
并且rj,m(t+1)由(2)计算得到;
Figure FDA0003755492350000021
3.根据权利要求1所述的方法,其特征在于,所述的通过控制器上的智能体对基于深度Q网络的内容缓存算法DQN进行训练,获取训练好的DQN模型,包括:
在基于深度Q网络的内容缓存算法DQN模型的离线训练过程中,控制器从节点收集观察结果并训练DQN模型来管理每个时隙的内容放置,首先初始化DQN模型中DNN的参数,智能体从环境中收集初始状态s(0),将初始状态s(0)输入到主神经网络中以输出每个动作的
Figure FDA0003755492350000022
值,对每个文件fm,m∈{1,...,M},控制器利用∈-greedy策略以概率∈随机选择动作am(t),否则选择估计
Figure FDA0003755492350000023
值最高的动作,当节点的缓存空间不足,将根据边际增益替换j缓存中边际增益最小的文件,根据选择的动作a(t),得到下一个系统状态s(t+1)和奖励ra(t)(t),并将生成的状态转移样本{s(t),a(t),ra(t)(t),s(t+1)}存储到经验池
Figure FDA0003755492350000024
中以供将来训练;
Figure FDA0003755492350000025
中随机采样H个{s(h),a(h),ra(h)(h),s(h+1)}样本(h={1,2,...,H}),然后使用SGD方法最小化损失函数
Figure FDA0003755492350000026
来更新主网络参数θ(h),其中目标
Figure FDA0003755492350000027
Figure FDA0003755492350000028
定期将主网络参数θ(h)赋值给目标网络参数
Figure FDA0003755492350000029
在DQN模型的离线训练过程结束后,获取训练好的DQN模型。
4.根据权利要求3所述的方法,其特征在于,所述的通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解,根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容进行在线决策过程,并基于边界增益替换规则更新节点缓存空间中的内容,包括:
通过训练好的DQN模型求解所述协作马尔可夫决策过程模型,获得所述协作马尔可夫决策过程模型的最优解,根据所述协作马尔可夫决策过程模型的最优解对节点缓存空间中每个内容执行在线决策过程,使用训练好具有最优参数θ*的主神经网络在当前状态下做出缓存决策,根据边际增益在物理网络中执行Q值最高的动作,以实现当前状态下的最佳内容放置,并将结果记录到经验池
Figure FDA00037554923500000210
中,以进一步更新DQN模型,当节点缓存空间已满时,基于边际成本的内容替换规则,对缓存空间中的内容进行更新操作。
CN202210853254.2A 2022-07-20 2022-07-20 一种智慧协同内容缓存方法 Active CN115208952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210853254.2A CN115208952B (zh) 2022-07-20 2022-07-20 一种智慧协同内容缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210853254.2A CN115208952B (zh) 2022-07-20 2022-07-20 一种智慧协同内容缓存方法

Publications (2)

Publication Number Publication Date
CN115208952A true CN115208952A (zh) 2022-10-18
CN115208952B CN115208952B (zh) 2023-09-26

Family

ID=83581314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210853254.2A Active CN115208952B (zh) 2022-07-20 2022-07-20 一种智慧协同内容缓存方法

Country Status (1)

Country Link
CN (1) CN115208952B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951849A (zh) * 2019-02-25 2019-06-28 重庆邮电大学 一种在f-ran架构中联合资源分配和内容缓存的方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN112565377A (zh) * 2020-11-30 2021-03-26 北京邮电大学 车联网中一种面向用户服务体验的内容分级优化缓存方法
CN113596160A (zh) * 2021-07-30 2021-11-02 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法
CN114143891A (zh) * 2021-11-30 2022-03-04 南京工业大学 移动边缘网络中基于fdql的多维资源协同优化方法
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951849A (zh) * 2019-02-25 2019-06-28 重庆邮电大学 一种在f-ran架构中联合资源分配和内容缓存的方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN112565377A (zh) * 2020-11-30 2021-03-26 北京邮电大学 车联网中一种面向用户服务体验的内容分级优化缓存方法
CN113596160A (zh) * 2021-07-30 2021-11-02 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法
CN114143891A (zh) * 2021-11-30 2022-03-04 南京工业大学 移动边缘网络中基于fdql的多维资源协同优化方法
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KUO GUO 等: "FullSight: A Feasible Intelligent and Collaborative Framework for Service Function Chains Failure Detection", 《IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》, vol. 19, no. 4, XP011933758, DOI: 10.1109/TNSM.2022.3183216 *
冯博昊 等: "智慧协同网络服务内容在传输路径上的缓存分配策略", 《通信学报》, vol. 37, no. 3 *
李丁: "基于学习的移动边缘协作缓存优化研究", 《中国优秀硕士学位论文全文数据库》, vol. 37, no. 3 *
陈正勇;杨崇旭;姚振;杨坚;: "深度学习框架下的移动感知预缓存策略", 小型微型计算机系统, no. 05 *

Also Published As

Publication number Publication date
CN115208952B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Zhong et al. A deep reinforcement learning-based framework for content caching
CN113114756B (zh) 一种移动边缘计算中自适应码率选择的视频缓存更新方法
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN114143346B (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN111885648A (zh) 基于边缘缓存的能量有效的网络内容分发机制构建方法
CN115297170A (zh) 一种基于异步联邦和深度强化学习的协作边缘缓存方法
CN113282786B (zh) 一种基于深度强化学习的全景视频边缘协作缓存替换方法
Malektaji et al. Deep reinforcement learning-based content migration for edge content delivery networks with vehicular nodes
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN116347463A (zh) 云边协同多基站下具有协作缓存功能的短视频放置方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Yu et al. Mobility-aware proactive edge caching for large files in the internet of vehicles
Nasehzadeh et al. A deep reinforcement learning-based caching strategy for internet of things
CN111629218A (zh) 一种vanet中基于时变线性的加速强化学习边缘缓存方法
Somesula et al. Deep reinforcement learning mechanism for deadline-aware cache placement in device-to-device mobile edge networks
CN113946423A (zh) 基于图注意力网络的多任务边缘计算调度优化方法
Tao et al. DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks
CN117675918A (zh) 基于多智能体深度强化学习的边缘区域协作缓存更新方法
CN117459112A (zh) 基于图卷积网络的leo卫星网络中的移动边缘缓存方法及设备
CN115208952A (zh) 一种智慧协同内容缓存方法
Thar et al. Meta-learning-based deep learning model deployment scheme for edge caching
Khanal et al. Proactive content caching at self-driving car using federated learning with edge cloud
CN114786200A (zh) 一种基于协作感知的数据智能缓存方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant