CN114786200A - 一种基于协作感知的数据智能缓存方法 - Google Patents

一种基于协作感知的数据智能缓存方法 Download PDF

Info

Publication number
CN114786200A
CN114786200A CN202210423803.2A CN202210423803A CN114786200A CN 114786200 A CN114786200 A CN 114786200A CN 202210423803 A CN202210423803 A CN 202210423803A CN 114786200 A CN114786200 A CN 114786200A
Authority
CN
China
Prior art keywords
base station
popularity
micro base
cache
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210423803.2A
Other languages
English (en)
Inventor
吴大鹏
徐瑞鑫
张鸿
李职杜
王汝言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210423803.2A priority Critical patent/CN114786200A/zh
Publication of CN114786200A publication Critical patent/CN114786200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于协作感知的数据智能缓存方法,属于无线通信技术领域。该方法首先通过分析历史请求信息与请求的命中状态分别在长短两个时间尺度上更新全局流行度与局部流行度,然后对工业互联网场景中的设备请求文件传输时延进行建模;最后,利用基于Actor‑Critic框架的多智能体强化学习模型对微基站处的缓存状态进行更新,并通过自适应分配带宽资源以最大化速率加权和目标函数。本发明能够显著降低工业互联网中设备获取关键数据文件的时延,提升应用性能。

Description

一种基于协作感知的数据智能缓存方法
技术领域
本发明属于无线通信技术领域,涉及一种基于协作感知的数据智能缓存方法。
背景技术
随着智能制造需求的发展,利用人工智能、边缘计算、云边协同等技术对传统工业生产进行能力加持成为了国际产业界所研究的热点问题。工业互联网(IndustrialInternet)将成为新一代信息通信技术与工业经济深度融合的新型基础设施,承担起对人、物、网络的融合连接。在工业制造场景中,设备具有极高的多样性,仅仅利用传统的蜂窝网络与光纤有线网络难以在整个工业互联网体系中承担智能、全面的连接。无人智能巡检、能源环境检测、远程设备操控、现场智能检测等都对所承载的网络提出了全新的要求。而随着业务的多样化,由工业设备以及传感器所收集的数据信息将上传到云中心(Cloud Center)集中处理,并将处理所得到的数据反馈到各类工业应用中。而大量设备节点获取热门数据将在传输网络中产生大量的冗余数据,而每一次都从云中心获取处理后的数据文件使得降低设备数据获取时延成为困难。而利用边缘缓存(Edge Cache)可以将热门数据缓存在靠近设备的边缘小基站(Small Base Station,SBS)中,当大量设备请求时可以做出快速反应,以降低数据文件的获取时延。但由于SBS的覆盖范围较小,部分处于郊区或干扰较大的设备难以获取服务。宏基站(Macro Base Station,MBS)具备更大的覆盖范围,与SBS协同服务可以使整个工业互联网场景中的智能设备得到全面的覆盖。
由于智能工业场景下的低时延需求,仅仅根据数据文件的历史请求量难以准确的追踪各类内容的热门程度变化,如传统的最近最少使用(Least Recently Used,LRU)、最不常使用(Least Frequently Used,LFU)都是从简单的统计角度对缓存策略确定,在变化迅速的场景下往往难以取得很好的效果。另一方面,结合人工智能的机器学习方案如深度学习(Deep Learning)、强化学习(Reinforcement Learning)等,有助于在大量数据中发掘内容流行程度的变化趋势,这给提高基站处缓存的效率、降低设备获取内容时延带来了更有效的方案。
而在大量现有的研究中,利用单个SBS对历史数据进行分析进行缓存决策,对设备的移动性进行分析,利用长短期缓存对区域内容流行度进行追踪都有一定的研究,但他们都集中在移动内容层面,在不同的区域都有一定的相似特性。另一方面,不同SBS覆盖区域内的内容流行趋势往往不同,但由于同类型工业生产分布往往集中在一起,相邻SBS间可能存在一定的相似性。此外,对于区域的数据请求量大小往往也会影响一个区域的缓存效率,因此如何高效对热门文件进行缓存,并传输给设备仍然是一个悬而未决的问题。
因此,同时考虑区域内容的请求量、并引入不同基站之间的协作进行缓存决策以降低工业互联网场景中的设备获取时延成本仍亟需进一步研究。
发明内容
有鉴于此,本发明的目的在于针对工业互联网场景中工业设备获取应用所需文件数据时延大,传统缓存方法难以保证缓存空间的高效率用问题,提供一种基于协作感知的数据智能缓存方法,考虑了缓存内容在不同时间尺度上的变化特性,并引入Actor-Critic机器学习框架,利用协作缓存架构提升缓存空间的利用效率,以及文件内容的多样性,并自适应工业设备关联基站以降低网络内设备获取文件的整体时延。
为达到上述目的,本发明提供如下技术方案:
一种基于协作感知的数据智能缓存方法,首先通过分析历史请求信息与请求的命中状态分别在长短两个时间尺度上更新全局流行度与局部流行度,然后对工业互联网场景中的设备请求文件传输时延进行建模;最后,利用基于Actor-Critic框架的多智能体强化学习模型对微基站处的缓存状态进行更新,并通过自适应分配带宽资源以最大化速率加权和目标函数。
该方法具体包括以下步骤:
S1:系统冷启动:初始化确定相关文件库信息、工业设备位置与信道情况、缓存系统权重参数、长期缓存更新时隙以及不同位置的缓存文件获取成本;
S2:流行度更新:根据步骤S1信息,在每一个时隙t根据与设置的长期更新时隙以及请求文件的缓存命中情况更新全局流行度
Figure BDA0003607631480000021
与局部流行度
Figure BDA0003607631480000022
S3:文件缓存决策:根据步骤S2获得的流行度相关信息,首先在每个长期缓存更新时隙T,在宏基站处,根据全局流行度更新长期缓存矩阵
Figure BDA0003607631480000023
以保证整体的热门文件至少能在宏基站处得到服务;然后利用基于Actor-Critic框架的多智能体强化学习模型,对微基站处短期缓存矩阵
Figure BDA0003607631480000024
更新,得到当前时刻所有缓存的决策模型;
S4:信息上传收集:收集t时隙各区域请求量
Figure BDA0003607631480000025
以及上一时隙缓存决策信息
Figure BDA0003607631480000026
上传到宏基站处,并经由宏基站处理后反馈给微基站用于下一个时隙的缓存决策;
S5:确定传输资源分配:根据步骤S1得到的工业设备信息与步骤S3得到的缓存状态,结合不同工业设备的传输速率需求进行关联,并将时间传输收益结果上传至云端(Critic),然后反馈给各微基站(Actors)并得到收益反馈(Rewards)用于更新本地模型,当需要修改相关模型参数时可停止,否则将继续更新缓存文件。
进一步,步骤S1具体包括以下步骤:
S11:获取相关的文件库
Figure BDA0003607631480000031
并根据工业设备与微基站的位置关系初始化单位带宽传输等效速率,具体表示为:
Figure BDA0003607631480000032
其中,
Figure BDA0003607631480000033
表示单位带宽传输等效速率;
Figure BDA0003607631480000034
Figure BDA0003607631480000035
表示微基站向设备分配的标准带宽大小,Pk表示微基站k处传输功率,
Figure BDA0003607631480000036
表示t时刻微基站k与设备u的信道增益,N0表示噪声功率谱密度;
S12:对缓存系统中权重参数α∈[0,1]、β∈[0,1]进行设置,其分别代表微基站的局部流行度中,邻居文件流行度对局部流行度的影响占比,以及上一个时隙最新文件请求比例对局部流行度的影响占比;接着设置长期缓存的更新时隙T;此外还需设置不同位置文件获取的时延成本参数λs与λc,其分别表示邻居微基站协作获取文件的时延成本与从云端获取文件的时延成本,具体关系表示为λc>>λs
进一步,步骤S2具体包括以下步骤:
S21:冷启动整个系统,此时不存在历史的文件请求,因此将根据文件库中文件的数目设定平均初始流行度,表达式为:
Figure BDA0003607631480000037
Figure BDA0003607631480000038
其中,
Figure BDA0003607631480000039
分别表示微基站k处与整体网络内容f的初始流行度,F表示内容库总内容数目;
S22:在每个时隙t更新不同尺度下的文件流行度;当前时隙t对应n倍长期缓存更新时隙T时,则更新长期全局流行度,表达式为:
Figure BDA00036076314800000310
其中,
Figure BDA00036076314800000311
Figure BDA00036076314800000312
分别表示t时刻微基站k处与整体网络内容f的实时流行度,K表示微基站的数目;而对应的局部流行度则会在长期时隙更新,以保证不过度偏离整体的流行趋势,表达式为:
Figure BDA00036076314800000313
其中,
Figure BDA0003607631480000041
表示与微基站k相邻的微基站数目,γk表示微基站k的邻居微基站集合,α∈[0,1]表示邻居流行度影响因子;
S23:而在普通时隙,即并非长期缓存更新时隙T的整数倍时,则不再更新长期流行度而仅更新局部流行度,且只与文件命中情况有关;具体更新方式为:
Figure BDA0003607631480000042
其中,
Figure BDA0003607631480000043
Figure BDA0003607631480000044
分别表示上一时隙文件f的请求量与整个区域内的请求量,β表示流行度更新权重影响因子。
进一步,步骤S3具体包括以下步骤:
S31:当处于长期缓存更新时隙时,利用步骤S2获得的流行度相关信息,首先在宏基站处进行缓存文件的更新;首先分析所有文件对应的长期流行度序列,考虑到长期流行度对应整个网络场景下的长期偏好特征,因此选择流行度从大到小对文件进行缓存;针对缓存中已经存储的内容则保持不变,仅将部分流行度较低的文件替换为流行度更高的文件加快替换的速度;
S32:而为了进一步降低工业设备获取所需文件时延,在短期缓存时隙,将更具有区域特性的内容缓存在对应的微基站处,并能够保证追踪到实时的变化特征;首先对优化问题建模如下:
Figure BDA0003607631480000045
Figure BDA0003607631480000046
Figure BDA0003607631480000047
其中,sf表示单个文件的大小,Sk表示微基站k的缓存容量,
Figure BDA0003607631480000048
表示t时刻微基站k处内容f的缓存指示变量,
Figure BDA0003607631480000049
表示工业设备集合,
Figure BDA00036076314800000410
表示微基站集合,
Figure BDA00036076314800000411
表示文件集合,C表示所有微基站的缓存决策矩阵;
Figure BDA00036076314800000412
表示设备实际获取内容的时延,其与关联基站、数据缓存位置有关,在S52中可得;即在每个时隙都选择能最大化整体收益的缓存决策;
S33:所有微基站共同组成一个多智能体强化学习模型,其中每一个微基站都作为一个智能体,其状态转移的过程可以被建模为马尔可夫决策过程,能够获取局部状态值sk(t)、全局信息gk(t)以及奖励函数R(t),其表示如下:
Figure BDA0003607631480000051
Figure BDA0003607631480000052
Figure BDA0003607631480000053
其中,sk(t)包括上一时刻的缓存状态
Figure BDA0003607631480000054
请求量
Figure BDA0003607631480000055
局部流行度
Figure BDA0003607631480000056
以及单个智能体学习率δ;全局信息包括上一时刻全局流行度
Figure BDA0003607631480000057
以及缓存状态
Figure BDA0003607631480000058
最后实际的观测值ok(t)表示为:
ok(t)={sk(t),gk(t)}
此外,对于动作变量ak(t)则只考虑缓存策略,即
Figure BDA0003607631480000059
S34:在单个微基站处,通过利用一个DQN机器学习框架对局部缓存决策进行训练,具体而言,首先定义其动作价值函数Q(o,a)为:
Figure BDA00036076314800000510
其中,vt为折扣因子;则对于每一次更新,都选择最大的动作即
Figure BDA00036076314800000511
然后定义网络参数ω的更新机制为最小二乘均方误差,表达式为:
Figure BDA00036076314800000512
其中,y(t)表示其实际的收益,这将在S5中的传输策略制定后得到;
S35:在每一个智能体都做出决策后,将所有决策上传至云端,进行评价,此过程需要S53中的最终网络收益,利用最小二乘均方误差更新Critic网络的参数
Figure BDA00036076314800000513
进一步,步骤S4具体包括以下步骤:
S41:所有微基站上传上一个时隙各文件的请求量
Figure BDA00036076314800000514
以及上一时隙的短期缓存决策信息
Figure BDA00036076314800000515
到宏基站;
S42:宏基站处对区域请求量进行累加,用于全局流行度计算,并计算每个微基站周围邻居的请求量
Figure BDA00036076314800000516
其中
Figure BDA00036076314800000517
用于在下一个时隙传输给各微基站自身的短期缓存决策。
进一步,步骤S5具体包括以下步骤:
S51:首先分析请求内容的缓存状态,如果微基站缓存有该请求内容则直接进行服务;否则通过邻居基站或宏基站将文件协作传输给关联微基站,此时需要减去邻居基站协作成本;如果都没有该文件,则从云端获取,并减去云端获取内容成本;
S52:根据S11中理论单位带宽速率可得关联速率表,而传输单位文件的时延则表示为
Figure BDA0003607631480000061
其中,
Figure BDA0003607631480000062
则表示在微基站k邻居基站中内容fu的缓存情况,如果都没有则为0,反之为1;每一个工业设备根据计算所得的结果以及自身设备的时延需求选择可接入范围内获得最小文件获取时延的微基站或宏基站进行关联,注意宏基站在实际场景中具有更大的覆盖范围;
S53:每一个微基站将当前时隙服务所获得的单位速率和上传到宏基站集中处理为奖励并反馈到微基站群中调整模型;
S54:如果需要修改模型相关参数则停止运行并结束,否则时隙数t=t+1后从S21循环继续更新缓存策略。
本发明的有益效果在于:本发明通过划分两个不同时隙更新文件流行度,能够在保证整体流行趋势的情况下,尽可能追踪短期热门内容的变化情况,而所采用的协作缓存方案,与传统缓存策略相比,能够更加高效的利用缓存空间,在保证缓存命中率的同时尽可能地增加了内容的多样性,有效解决了工业互联网场景下,工业设备获取处理后的热门内容时延需求难以得到保障的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于协作感知的数据智能缓存方法的网络架构图;
图2为本发明的Actor-Critic机器学习架构逻辑图;
图3为本发明的协作缓存方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明提供一种基于协作感知的数据智能缓存方法,该方法针对工业互联网场景中,大量工业设备收集信息在云服务器进行处理,每个设备都从云中心获取内容将占据大量的链路资源,并导致大量的交付时延,使用常规LRU、LFU的缓存方案并不能高效利用缓存空间的问题,设计一个高效缓存策略有助于提升智能工业应用程序的性能。首先构建宏基站与微基站的传输速率模型;其次,根据历史请求信息,分别更新长期与短期的文件流行度;然后利用一个Actor-Critic机器学习框架结合多智能体强化学习,在微基站处协作放置缓存文件以最小化设备获取文件的时延;最后根据设备获取数据文件的时延情况,自适应关联微基站或宏基站。
该方法具体包含以下步骤:
步骤1:系统冷启动:初始化确定相关文件库信息、工业设备位置与信道情况、缓存系统权重参数、长期缓存更新时隙、不同位置的缓存文件获取成本。具体包括以下步骤:
步骤1.1:获取相关的文件库
Figure BDA0003607631480000077
并根据工业设备与微基站的位置关系初始化单位带宽传输等效速率,具体表示为:
Figure BDA0003607631480000071
其中,
Figure BDA0003607631480000072
Figure BDA0003607631480000073
表示微基站向设备分配的标准带宽大小。
步骤1.2:对缓存系统中权重参数α∈[0,1]、β∈[0,1]进行设置,其分别代表微基站的局部流行度中,邻居文件流行度对局部流行度的影响占比,以及上一个时隙最新文件请求比例对局部流行度的影响占比;接着设置长期缓存的更新时隙T;此外还需设置不同位置文件获取的时延成本参数λs与λc,其分别表示邻居微基站协作获取文件的时延成本与从云端获取文件的时延成本,具体关系表示为λc>>λs
步骤2:流行度更新:根据步骤S1信息,在每一个时隙t根据与设置的长期更新时隙以及请求文件的缓存命中情况更新全局
Figure BDA0003607631480000074
与局部流行度
Figure BDA0003607631480000075
具体包括以下步骤:
步骤2.1:首先冷启动整个系统,此时不存在历史的文件请求,因此将根据文件库中文件的数目设定平均初始流行度为
Figure BDA0003607631480000076
步骤2.2:进而,在每个时隙t更新不同尺度下的文件流行度。当前时隙t对应n倍长期缓存时隙T时,则更新长期全局流行度为
Figure BDA0003607631480000081
其中,K表示微基站的数目。而对应的局部流行度则会在长期时隙更新,以保证不过度偏离整体的流行趋势,具体计算如下
Figure BDA0003607631480000082
其中,
Figure BDA0003607631480000083
表示与微基站k相邻的微基站数目。
步骤2.3:而在普通时隙,即并非长期缓存时隙T的整数倍时,则不再更新长期流行度而仅更新局部流行度,且只与文件命中情况有关。具体更新方式为
Figure BDA0003607631480000084
其中,
Figure BDA0003607631480000085
Figure BDA0003607631480000086
分别表示上一时刻文件f的请求量与整个区域内的请求量。
步骤3:文件缓存决策:根据步骤S2获得的流行度相关信息,首先在每个长期缓存更新时隙T,在宏基站处,根据全局流行度更新长期缓存矩阵
Figure BDA0003607631480000087
以保证整体的热门文件至少能在宏基站处得到服务。进一步利用Actor-Critic框架的多智能体强化学习,对微基站处短期缓存矩阵
Figure BDA0003607631480000088
确定,得到当前时刻所有缓存的决策模型。具体包括以下步骤:
步骤3.1:当处于长期缓存时隙时,利用步骤S2获得的流行度相关信息,首先在宏基站处进行缓存文件的更新。首先分析所有文件对应的长期流行度序列,考虑到长期流行度对应整个网络场景下的长期偏好特征,因此选择流行度从大到小对文件进行缓存。针对缓存中已经存储的内容则保持不变,仅将部分流行度较低的文件替换为流行度更高的文件加快替换的速度。
步骤3.2:而为了进一步降低工业设备获取所需文件时延,在短期缓存时隙,要将更具有区域特性的内容缓存在对应的微基站处,并能够保证追踪到实时的变化特征。首先对优化问题建模如下
Figure BDA0003607631480000089
Figure BDA00036076314800000810
Figure BDA00036076314800000811
其中,sf表示单个文件的大小,Sk表示微基站k的缓存容量,
Figure BDA0003607631480000091
表示设备实际获取内容的时延,其与关联基站、数据缓存位置有关,在步骤5.2中可得。即在每个时隙都选择能最大化整体收益的缓存决策。
步骤3.3:所有微基站共同组成一个多智能体强化学习模型,其中每一个微基站都作为一个智能体,其状态转移的过程可以被建模为马尔可夫决策过程,能够获取局部状态值sk(t)、全局信息gk(t)以及奖励函数,其表示如下
Figure BDA0003607631480000092
Figure BDA0003607631480000093
Figure BDA0003607631480000094
其中,sk(t)包括上一时刻的缓存状态、请求量、局部流行度情况以及单个智能体学习率δ;而全局信息包括上一时刻全局流行度以及缓存状态。最后实际的观测值表示为
ok(t)={sk(t),gk(t)}
此外,对于动作变量则只考虑缓存策略,即
Figure BDA0003607631480000095
步骤3.4:在单个微基站处,通过利用一个DQN机器学习框架对局部缓存决策进行训练,具体而言,首先定义其动作价值函数为
Figure BDA0003607631480000096
其中,vt为折扣因子。则对于每一次更新,都选择最大的动作
Figure BDA0003607631480000097
进一步定义网络参数ω的更新机制为最小二乘均方误差形式如下
Figure BDA0003607631480000098
其中,y(t)表示其实际的收益,这将在S5中的传输策略制定后得到。
步骤3.5:在每一个智能体都做出决策后,将所有决策上传至云端,进行评价,此过程需要S53中的最终网络收益,利用最小二乘均方误差更新Critic网络的参数
Figure BDA0003607631480000099
步骤4:信息上传收集:收集t时刻的各区域请求量
Figure BDA00036076314800000910
以及上一时刻缓存决策信息
Figure BDA00036076314800000911
上传到宏基站处,并经由宏基站处理后反馈给微基站用于下一个时隙的缓存决策。具体包括以下步骤:
步骤4.1:所有微基站上传上一个时隙各文件的请求量
Figure BDA00036076314800000912
以及上一时刻的短期缓存决策信息
Figure BDA0003607631480000101
到宏基站;
步骤4.2:宏基站处对区域请求量进行累加,用于全局流行度计算,并计算每个微基站周围邻居的请求量
Figure BDA0003607631480000102
其中
Figure BDA0003607631480000103
用于在下一个时隙传输给各微基站用于自身的短期缓存决策。
步骤5:确定传输资源分配:根据步骤S1得到的工业设备信息与步骤S3得到的缓存状态,结合不同工业设备的传输速率需求进行关联并将时间传输收益结果上传至云端(Critic),进而反馈给各微基站(Actors)并得到收益反馈(Rewards)用于更新本地模型,当需要修改相关模型参数时可停止,否则将继续更新缓存文件。具体包括以下步骤:
步骤5.1:首先分析请求内容的缓存状态,如果微基站缓存有该内容则直接进行服务;否则通过邻居基站或宏基站将文件协作传输给关联微基站,此时需要减去邻居基站协作成本;如果都没有该文件,则从云端获取,并减去云端获取内容成本;
步骤5.2:进一步根据S11中理论单位带宽速率可得关联速率表,而传输单位文件的时延则进一步表示为
Figure BDA0003607631480000104
其中,
Figure BDA0003607631480000105
则表示在微基站k邻居基站中内容fu的缓存情况,如果都没有则为0,反之为1。每一个工业设备根据计算所得的结果以及自身设备的时延需求选择可接入范围内获得最小文件获取时延的微基站或宏基站进行关联,注意宏基站在实际场景中具有更大的覆盖范围;
步骤5.3:每一个微基站将当前时隙服务所获得的单位速率和上传到宏基站集中处理为奖励并反馈到微基站群中调整模型;
步骤5.4:如果需要修改模型相关参数则停止运行并结束,否则时隙数t=t+1后从S21循环继续更新缓存策略。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于协作感知的数据智能缓存方法,其特征在于,首先通过分析历史请求信息与请求的命中状态分别在长短两个时间尺度上更新全局流行度与局部流行度,然后对工业互联网场景中的设备请求文件传输时延进行建模;最后,利用基于Actor-Critic框架的多智能体强化学习模型对微基站处的缓存状态进行更新,并通过自适应分配带宽资源以最大化速率加权和目标函数。
2.根据权利要求1所述的数据智能缓存方法,其特征在于,该方法具体包括以下步骤:
S1:系统冷启动:初始化确定相关文件库信息、工业设备位置与信道情况、缓存系统权重参数、长期缓存更新时隙以及不同位置的缓存文件获取成本;
S2:流行度更新:根据步骤S1信息,在每一个时隙t根据与设置的长期更新时隙以及请求文件的缓存命中情况更新全局流行度与局部流行度;
S3:文件缓存决策:根据步骤S2获得的流行度相关信息,首先在每个长期缓存更新时隙T,在宏基站处,根据全局流行度更新长期缓存矩阵,以保证整体的热门文件至少能在宏基站处得到服务;然后利用基于Actor-Critic框架的多智能体强化学习模型,对微基站处短期缓存矩阵更新,得到当前时刻所有缓存的决策模型;
S4:信息上传收集:收集t时隙各区域请求量
Figure FDA0003607631470000011
以及上一时隙缓存决策信息
Figure FDA0003607631470000012
上传到宏基站处,并经由宏基站处理后反馈给微基站用于下一个时隙的缓存决策;
S5:确定传输资源分配:根据步骤S1得到的工业设备信息与步骤S3得到的缓存状态,结合不同工业设备的传输速率需求进行关联,并将时间传输收益结果上传至云端,然后反馈给各微基站并得到收益反馈用于更新本地模型,当需要修改相关模型参数时停止,否则将继续更新缓存文件。
3.根据权利要求2所述的数据智能缓存方法,其特征在于,步骤S1具体包括以下步骤:
S11:获取相关的文件库
Figure FDA0003607631470000013
并根据工业设备与微基站的位置关系初始化单位带宽传输等效速率,具体表示为:
Figure FDA0003607631470000014
其中,
Figure FDA0003607631470000015
表示单位带宽传输等效速率;
Figure FDA0003607631470000016
Figure FDA0003607631470000017
表示微基站向设备分配的标准带宽大小,Pk表示微基站k处传输功率,
Figure FDA0003607631470000018
表示t时刻微基站k与设备u的信道增益,N0表示噪声功率谱密度;
S12:对缓存系统中权重参数α∈[0,1]、β∈[0,1]进行设置,其分别代表微基站的局部流行度中,邻居文件流行度对局部流行度的影响占比,以及上一个时隙最新文件请求比例对局部流行度的影响占比;接着设置长期缓存的更新时隙T;并设置不同位置文件获取的时延成本参数λs与λc,其分别表示邻居微基站协作获取文件的时延成本与从云端获取文件的时延成本,具体关系表示为λc>>λs
4.根据权利要求3所述的数据智能缓存方法,其特征在于,步骤S2具体包括以下步骤:
S21:冷启动整个系统,根据文件库中文件的数目设定平均初始流行度,表达式为:
Figure FDA0003607631470000021
Figure FDA0003607631470000022
其中,
Figure FDA0003607631470000023
分别表示微基站k处与整体网络内容f的初始流行度,F表示内容库总内容数目;
S22:在每个时隙t更新不同尺度下的文件流行度;当前时隙t对应n倍长期缓存更新时隙T时,则更新长期全局流行度,表达式为:
Figure FDA0003607631470000024
其中,
Figure FDA0003607631470000025
Figure FDA0003607631470000026
分别表示t时刻微基站k处与整体网络内容f的实时流行度,K表示微基站的数目;而对应的局部流行度则会在长期时隙更新,表达式为:
Figure FDA0003607631470000027
其中,
Figure FDA0003607631470000028
表示与微基站k相邻的微基站数目,Υk表示微基站k的邻居微基站集合,α∈[0,1]表示邻居流行度影响因子;
S23:在普通时隙,即并非长期缓存更新时隙T的整数倍时,则不再更新长期流行度而仅更新局部流行度,且只与文件命中情况有关;具体更新方式为:
Figure FDA0003607631470000029
其中,
Figure FDA00036076314700000210
Figure FDA00036076314700000211
分别表示上一时隙文件f的请求量与整个区域内的请求量,β表示流行度更新权重影响因子。
5.根据权利要求4所述的数据智能缓存方法,其特征在于,步骤S3具体包括以下步骤:
S31:当处于长期缓存更新时隙时,利用步骤S2获得的流行度相关信息,首先在宏基站处进行缓存文件的更新;首先分析所有文件对应的长期流行度序列,选择流行度从大到小对文件进行缓存;针对缓存中已经存储的内容则保持不变,仅将部分流行度较低的文件替换为流行度更高的文件加快替换的速度;
S32:在短期缓存时隙,将更具有区域特性的内容缓存在对应的微基站处,并能够保证追踪到实时的变化特征;首先对优化问题建模如下:
Figure FDA0003607631470000031
Figure FDA0003607631470000032
Figure FDA0003607631470000033
其中,sf表示单个文件的大小,Sk表示微基站k的缓存容量,
Figure FDA0003607631470000034
表示t时刻微基站k处内容f的缓存指示变量,
Figure FDA0003607631470000035
表示工业设备集合,
Figure FDA0003607631470000036
表示微基站集合,
Figure FDA0003607631470000037
表示文件集合,C表示所有微基站的缓存决策矩阵;
Figure FDA0003607631470000038
表示设备实际获取内容的时延;即在每个时隙都选择能最大化整体收益的缓存决策;
S33:所有微基站共同组成一个多智能体强化学习模型,其中每一个微基站都作为一个智能体,其状态转移的过程被建模为马尔可夫决策过程,能够获取局部状态值sk(t)、全局信息gk(t)以及奖励函数R(t),其表示如下:
Figure FDA0003607631470000039
Figure FDA00036076314700000310
Figure FDA00036076314700000311
其中,sk(t)包括上一时刻的缓存状态
Figure FDA00036076314700000312
请求量
Figure FDA00036076314700000313
局部流行度
Figure FDA00036076314700000314
以及单个智能体学习率δ;全局信息包括上一时刻全局流行度
Figure FDA00036076314700000315
以及缓存状态
Figure FDA00036076314700000316
最后实际的观测值ok(t)表示为:
ok(t)={sk(t),gk(t)}
此外,对于动作变量ak(t)则只考虑缓存策略,即
Figure FDA00036076314700000317
S34:在单个微基站处,通过利用一个DQN机器学习框架对局部缓存决策进行训练,具体而言,首先定义其动作价值函数Q(o,a)为:
Figure FDA00036076314700000318
其中,vt为折扣因子;则对于每一次更新,都选择最大的动作即
Figure FDA0003607631470000041
然后定义网络参数ω的更新机制为最小二乘均方误差,表达式为:
Figure FDA0003607631470000042
其中,y(t)表示实际的收益;
S35:在每一个智能体都做出决策后,将所有决策上传至云端,进行评价,利用最小二乘均方误差更新Critic网络的参数
Figure FDA0003607631470000043
6.根据权利要求5所述的数据智能缓存方法,其特征在于,步骤S4具体包括以下步骤:
S41:所有微基站上传上一个时隙各文件的请求量
Figure FDA0003607631470000044
以及上一时隙的短期缓存决策信息
Figure FDA0003607631470000045
到宏基站;
S42:宏基站处对区域请求量进行累加,用于全局流行度计算,并计算每个微基站周围邻居的请求量
Figure FDA0003607631470000046
其中
Figure FDA0003607631470000047
用于在下一个时隙传输给各微基站自身的短期缓存决策。
7.根据权利要求6所述的数据智能缓存方法,其特征在于,步骤S5具体包括以下步骤:
S51:首先分析请求内容的缓存状态,如果微基站缓存有该请求内容则直接进行服务;否则通过邻居基站或宏基站将文件协作传输给关联微基站,此时需要减去邻居基站协作成本;如果都没有该文件,则从云端获取,并减去云端获取内容成本;
S52:根据S11中理论单位带宽速率得关联速率表,传输单位文件的时延则表示为
Figure FDA0003607631470000048
其中,
Figure FDA0003607631470000049
则表示在微基站k邻居基站中内容fu的缓存情况,如果都没有则为0,反之为1;每一个工业设备根据计算所得的结果以及自身设备的时延需求选择可接入范围内获得最小文件获取时延的微基站或宏基站进行关联;
S53:每一个微基站将当前时隙服务所获得的单位速率和上传到宏基站集中处理为奖励并反馈到微基站群中调整模型;
S54:如果需要修改模型相关参数则停止运行并结束,否则时隙数t=t+1后从S21循环继续更新缓存策略。
CN202210423803.2A 2022-04-21 2022-04-21 一种基于协作感知的数据智能缓存方法 Pending CN114786200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210423803.2A CN114786200A (zh) 2022-04-21 2022-04-21 一种基于协作感知的数据智能缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210423803.2A CN114786200A (zh) 2022-04-21 2022-04-21 一种基于协作感知的数据智能缓存方法

Publications (1)

Publication Number Publication Date
CN114786200A true CN114786200A (zh) 2022-07-22

Family

ID=82431026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210423803.2A Pending CN114786200A (zh) 2022-04-21 2022-04-21 一种基于协作感知的数据智能缓存方法

Country Status (1)

Country Link
CN (1) CN114786200A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521584A (zh) * 2023-06-26 2023-08-01 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521584A (zh) * 2023-06-26 2023-08-01 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统
CN116521584B (zh) * 2023-06-26 2023-10-13 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统

Similar Documents

Publication Publication Date Title
CN113114756B (zh) 一种移动边缘计算中自适应码率选择的视频缓存更新方法
Yu et al. Federated learning based proactive content caching in edge computing
Yao et al. Caching in energy harvesting aided Internet of Things: A game-theoretic approach
CN110213627B (zh) 一种基于多小区用户移动性的流媒体缓存分配方法
CN114143891A (zh) 移动边缘网络中基于fdql的多维资源协同优化方法
CN113115368B (zh) 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN114553963B (zh) 移动边缘计算中基于深度神经网络的多边缘节点协作缓存方法
CN112752308B (zh) 一种基于深度强化学习的移动预测无线边缘缓存方法
CN110138836B (zh) 一种基于优化能量效率的线上协作缓存方法
CN111491331B (zh) 一种雾计算网络中基于迁移学习的网络感知自适应缓存方法
CN109982104A (zh) 一种移动边缘计算中移动感知的视频预取与缓存替换决策方法
Feng et al. Content popularity prediction via deep learning in cache-enabled fog radio access networks
CN115065728B (zh) 一种基于多策略强化学习的多目标内容存储方法
CN115714814B (zh) 一种基于多智能体强化学习的边缘缓存替换方法
CN114786200A (zh) 一种基于协作感知的数据智能缓存方法
CN112667406A (zh) 一种云边融合异构网络中任务卸载与数据缓存方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN114629928A (zh) 一种移动边缘计算中社交网络短视频放置方法
Li et al. Edge caching for D2D enabled hierarchical wireless networks with deep reinforcement learning
CN111447506B (zh) 云边环境下基于延迟和成本均衡的流媒体内容放置方法
Zhou et al. Content placement with unknown popularity in fog radio access networks
Lei et al. Partially collaborative edge caching based on federated deep reinforcement learning
Liu et al. Proactive data caching and replacement in the edge computing environment
Raja et al. Popularity based content caching of YouTube data in cellular networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination