CN114786200A

CN114786200A - 一种基于协作感知的数据智能缓存方法

Info

Publication number: CN114786200A
Application number: CN202210423803.2A
Authority: CN
Inventors: 吴大鹏; 徐瑞鑫; 张鸿; 李职杜; 王汝言
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-22

Abstract

本发明涉及一种基于协作感知的数据智能缓存方法，属于无线通信技术领域。该方法首先通过分析历史请求信息与请求的命中状态分别在长短两个时间尺度上更新全局流行度与局部流行度，然后对工业互联网场景中的设备请求文件传输时延进行建模；最后，利用基于Actor‑Critic框架的多智能体强化学习模型对微基站处的缓存状态进行更新，并通过自适应分配带宽资源以最大化速率加权和目标函数。本发明能够显著降低工业互联网中设备获取关键数据文件的时延，提升应用性能。

Description

一种基于协作感知的数据智能缓存方法

技术领域

本发明属于无线通信技术领域，涉及一种基于协作感知的数据智能缓存方法。

背景技术

随着智能制造需求的发展，利用人工智能、边缘计算、云边协同等技术对传统工业生产进行能力加持成为了国际产业界所研究的热点问题。工业互联网(IndustrialInternet)将成为新一代信息通信技术与工业经济深度融合的新型基础设施，承担起对人、物、网络的融合连接。在工业制造场景中，设备具有极高的多样性，仅仅利用传统的蜂窝网络与光纤有线网络难以在整个工业互联网体系中承担智能、全面的连接。无人智能巡检、能源环境检测、远程设备操控、现场智能检测等都对所承载的网络提出了全新的要求。而随着业务的多样化，由工业设备以及传感器所收集的数据信息将上传到云中心(Cloud Center)集中处理，并将处理所得到的数据反馈到各类工业应用中。而大量设备节点获取热门数据将在传输网络中产生大量的冗余数据，而每一次都从云中心获取处理后的数据文件使得降低设备数据获取时延成为困难。而利用边缘缓存(Edge Cache)可以将热门数据缓存在靠近设备的边缘小基站(Small Base Station,SBS)中，当大量设备请求时可以做出快速反应，以降低数据文件的获取时延。但由于SBS的覆盖范围较小，部分处于郊区或干扰较大的设备难以获取服务。宏基站(Macro Base Station,MBS)具备更大的覆盖范围，与SBS协同服务可以使整个工业互联网场景中的智能设备得到全面的覆盖。

由于智能工业场景下的低时延需求，仅仅根据数据文件的历史请求量难以准确的追踪各类内容的热门程度变化，如传统的最近最少使用(Least Recently Used,LRU)、最不常使用(Least Frequently Used,LFU)都是从简单的统计角度对缓存策略确定，在变化迅速的场景下往往难以取得很好的效果。另一方面，结合人工智能的机器学习方案如深度学习(Deep Learning)、强化学习(Reinforcement Learning)等，有助于在大量数据中发掘内容流行程度的变化趋势，这给提高基站处缓存的效率、降低设备获取内容时延带来了更有效的方案。

而在大量现有的研究中，利用单个SBS对历史数据进行分析进行缓存决策，对设备的移动性进行分析，利用长短期缓存对区域内容流行度进行追踪都有一定的研究，但他们都集中在移动内容层面，在不同的区域都有一定的相似特性。另一方面，不同SBS覆盖区域内的内容流行趋势往往不同，但由于同类型工业生产分布往往集中在一起，相邻SBS间可能存在一定的相似性。此外，对于区域的数据请求量大小往往也会影响一个区域的缓存效率，因此如何高效对热门文件进行缓存，并传输给设备仍然是一个悬而未决的问题。

因此，同时考虑区域内容的请求量、并引入不同基站之间的协作进行缓存决策以降低工业互联网场景中的设备获取时延成本仍亟需进一步研究。

发明内容

有鉴于此，本发明的目的在于针对工业互联网场景中工业设备获取应用所需文件数据时延大，传统缓存方法难以保证缓存空间的高效率用问题，提供一种基于协作感知的数据智能缓存方法，考虑了缓存内容在不同时间尺度上的变化特性，并引入Actor-Critic机器学习框架，利用协作缓存架构提升缓存空间的利用效率，以及文件内容的多样性，并自适应工业设备关联基站以降低网络内设备获取文件的整体时延。

为达到上述目的，本发明提供如下技术方案：

一种基于协作感知的数据智能缓存方法，首先通过分析历史请求信息与请求的命中状态分别在长短两个时间尺度上更新全局流行度与局部流行度，然后对工业互联网场景中的设备请求文件传输时延进行建模；最后，利用基于Actor-Critic框架的多智能体强化学习模型对微基站处的缓存状态进行更新，并通过自适应分配带宽资源以最大化速率加权和目标函数。

该方法具体包括以下步骤：

S1：系统冷启动：初始化确定相关文件库信息、工业设备位置与信道情况、缓存系统权重参数、长期缓存更新时隙以及不同位置的缓存文件获取成本；

S2：流行度更新：根据步骤S1信息，在每一个时隙t根据与设置的长期更新时隙以及请求文件的缓存命中情况更新全局流行度

与局部流行度

S3：文件缓存决策：根据步骤S2获得的流行度相关信息，首先在每个长期缓存更新时隙T，在宏基站处，根据全局流行度更新长期缓存矩阵

以保证整体的热门文件至少能在宏基站处得到服务；然后利用基于Actor-Critic框架的多智能体强化学习模型，对微基站处短期缓存矩阵

更新，得到当前时刻所有缓存的决策模型；

S4：信息上传收集：收集t时隙各区域请求量

以及上一时隙缓存决策信息

上传到宏基站处，并经由宏基站处理后反馈给微基站用于下一个时隙的缓存决策；

S5：确定传输资源分配：根据步骤S1得到的工业设备信息与步骤S3得到的缓存状态，结合不同工业设备的传输速率需求进行关联，并将时间传输收益结果上传至云端(Critic)，然后反馈给各微基站(Actors)并得到收益反馈(Rewards)用于更新本地模型，当需要修改相关模型参数时可停止，否则将继续更新缓存文件。

进一步，步骤S1具体包括以下步骤：

S11：获取相关的文件库

并根据工业设备与微基站的位置关系初始化单位带宽传输等效速率，具体表示为：

其中，

表示单位带宽传输等效速率；

表示微基站向设备分配的标准带宽大小，P_k表示微基站k处传输功率，

表示t时刻微基站k与设备u的信道增益，N₀表示噪声功率谱密度；

S12：对缓存系统中权重参数α∈[0,1]、β∈[0,1]进行设置，其分别代表微基站的局部流行度中，邻居文件流行度对局部流行度的影响占比，以及上一个时隙最新文件请求比例对局部流行度的影响占比；接着设置长期缓存的更新时隙T；此外还需设置不同位置文件获取的时延成本参数λ_s与λ_c，其分别表示邻居微基站协作获取文件的时延成本与从云端获取文件的时延成本，具体关系表示为λ_c＞＞λ_s。

进一步，步骤S2具体包括以下步骤：

S21：冷启动整个系统，此时不存在历史的文件请求，因此将根据文件库中文件的数目设定平均初始流行度，表达式为：

其中，

分别表示微基站k处与整体网络内容f的初始流行度，F表示内容库总内容数目；

S22：在每个时隙t更新不同尺度下的文件流行度；当前时隙t对应n倍长期缓存更新时隙T时，则更新长期全局流行度，表达式为：

其中，

与

分别表示t时刻微基站k处与整体网络内容f的实时流行度，K表示微基站的数目；而对应的局部流行度则会在长期时隙更新，以保证不过度偏离整体的流行趋势，表达式为：

其中，

表示与微基站k相邻的微基站数目，γ_k表示微基站k的邻居微基站集合，α∈[0,1]表示邻居流行度影响因子；

S23：而在普通时隙，即并非长期缓存更新时隙T的整数倍时，则不再更新长期流行度而仅更新局部流行度，且只与文件命中情况有关；具体更新方式为：

其中，

与

分别表示上一时隙文件f的请求量与整个区域内的请求量，β表示流行度更新权重影响因子。

进一步，步骤S3具体包括以下步骤：

S31：当处于长期缓存更新时隙时，利用步骤S2获得的流行度相关信息，首先在宏基站处进行缓存文件的更新；首先分析所有文件对应的长期流行度序列，考虑到长期流行度对应整个网络场景下的长期偏好特征，因此选择流行度从大到小对文件进行缓存；针对缓存中已经存储的内容则保持不变，仅将部分流行度较低的文件替换为流行度更高的文件加快替换的速度；

S32：而为了进一步降低工业设备获取所需文件时延，在短期缓存时隙，将更具有区域特性的内容缓存在对应的微基站处，并能够保证追踪到实时的变化特征；首先对优化问题建模如下：

其中，s_f表示单个文件的大小，S_k表示微基站k的缓存容量，

表示t时刻微基站k处内容f的缓存指示变量，

表示工业设备集合，

表示微基站集合，

表示文件集合，C表示所有微基站的缓存决策矩阵；

表示设备实际获取内容的时延，其与关联基站、数据缓存位置有关，在S52中可得；即在每个时隙都选择能最大化整体收益的缓存决策；

S33：所有微基站共同组成一个多智能体强化学习模型，其中每一个微基站都作为一个智能体，其状态转移的过程可以被建模为马尔可夫决策过程，能够获取局部状态值s_k(t)、全局信息g_k(t)以及奖励函数R(t)，其表示如下：

其中，s_k(t)包括上一时刻的缓存状态

请求量

局部流行度

以及单个智能体学习率δ；全局信息包括上一时刻全局流行度

以及缓存状态

最后实际的观测值o_k(t)表示为：

o_k(t)＝{s_k(t),g_k(t)}

此外，对于动作变量a_k(t)则只考虑缓存策略，即

S34：在单个微基站处，通过利用一个DQN机器学习框架对局部缓存决策进行训练，具体而言，首先定义其动作价值函数Q(o,a)为：

其中，v^t为折扣因子；则对于每一次更新，都选择最大的动作即

然后定义网络参数ω的更新机制为最小二乘均方误差，表达式为：

其中，y(t)表示其实际的收益，这将在S5中的传输策略制定后得到；

S35：在每一个智能体都做出决策后，将所有决策上传至云端，进行评价，此过程需要S53中的最终网络收益，利用最小二乘均方误差更新Critic网络的参数

进一步，步骤S4具体包括以下步骤：

S41：所有微基站上传上一个时隙各文件的请求量

以及上一时隙的短期缓存决策信息

到宏基站；

S42：宏基站处对区域请求量进行累加，用于全局流行度计算，并计算每个微基站周围邻居的请求量

其中

用于在下一个时隙传输给各微基站自身的短期缓存决策。

进一步，步骤S5具体包括以下步骤：

S51：首先分析请求内容的缓存状态，如果微基站缓存有该请求内容则直接进行服务；否则通过邻居基站或宏基站将文件协作传输给关联微基站，此时需要减去邻居基站协作成本；如果都没有该文件，则从云端获取，并减去云端获取内容成本；

S52：根据S11中理论单位带宽速率可得关联速率表，而传输单位文件的时延则表示为

其中，

则表示在微基站k邻居基站中内容f_u的缓存情况，如果都没有则为0，反之为1；每一个工业设备根据计算所得的结果以及自身设备的时延需求选择可接入范围内获得最小文件获取时延的微基站或宏基站进行关联，注意宏基站在实际场景中具有更大的覆盖范围；

S53：每一个微基站将当前时隙服务所获得的单位速率和上传到宏基站集中处理为奖励并反馈到微基站群中调整模型；

S54：如果需要修改模型相关参数则停止运行并结束，否则时隙数t＝t+1后从S21循环继续更新缓存策略。

本发明的有益效果在于：本发明通过划分两个不同时隙更新文件流行度，能够在保证整体流行趋势的情况下，尽可能追踪短期热门内容的变化情况，而所采用的协作缓存方案，与传统缓存策略相比，能够更加高效的利用缓存空间，在保证缓存命中率的同时尽可能地增加了内容的多样性，有效解决了工业互联网场景下，工业设备获取处理后的热门内容时延需求难以得到保障的问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于协作感知的数据智能缓存方法的网络架构图；

图2为本发明的Actor-Critic机器学习架构逻辑图；

图3为本发明的协作缓存方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，本发明提供一种基于协作感知的数据智能缓存方法，该方法针对工业互联网场景中，大量工业设备收集信息在云服务器进行处理，每个设备都从云中心获取内容将占据大量的链路资源，并导致大量的交付时延，使用常规LRU、LFU的缓存方案并不能高效利用缓存空间的问题，设计一个高效缓存策略有助于提升智能工业应用程序的性能。首先构建宏基站与微基站的传输速率模型；其次，根据历史请求信息，分别更新长期与短期的文件流行度；然后利用一个Actor-Critic机器学习框架结合多智能体强化学习，在微基站处协作放置缓存文件以最小化设备获取文件的时延；最后根据设备获取数据文件的时延情况，自适应关联微基站或宏基站。

该方法具体包含以下步骤：

步骤1：系统冷启动：初始化确定相关文件库信息、工业设备位置与信道情况、缓存系统权重参数、长期缓存更新时隙、不同位置的缓存文件获取成本。具体包括以下步骤：

步骤1.1：获取相关的文件库

其中，

表示微基站向设备分配的标准带宽大小。

步骤1.2：对缓存系统中权重参数α∈[0,1]、β∈[0,1]进行设置，其分别代表微基站的局部流行度中，邻居文件流行度对局部流行度的影响占比，以及上一个时隙最新文件请求比例对局部流行度的影响占比；接着设置长期缓存的更新时隙T；此外还需设置不同位置文件获取的时延成本参数λ_s与λ_c，其分别表示邻居微基站协作获取文件的时延成本与从云端获取文件的时延成本，具体关系表示为λ_c＞＞λ_s。

步骤2：流行度更新：根据步骤S1信息，在每一个时隙t根据与设置的长期更新时隙以及请求文件的缓存命中情况更新全局

与局部流行度

具体包括以下步骤：

步骤2.1：首先冷启动整个系统，此时不存在历史的文件请求，因此将根据文件库中文件的数目设定平均初始流行度为

步骤2.2：进而，在每个时隙t更新不同尺度下的文件流行度。当前时隙t对应n倍长期缓存时隙T时，则更新长期全局流行度为

其中，K表示微基站的数目。而对应的局部流行度则会在长期时隙更新，以保证不过度偏离整体的流行趋势，具体计算如下

其中，

表示与微基站k相邻的微基站数目。

步骤2.3：而在普通时隙，即并非长期缓存时隙T的整数倍时，则不再更新长期流行度而仅更新局部流行度，且只与文件命中情况有关。具体更新方式为

其中，

与

分别表示上一时刻文件f的请求量与整个区域内的请求量。

步骤3：文件缓存决策：根据步骤S2获得的流行度相关信息，首先在每个长期缓存更新时隙T，在宏基站处，根据全局流行度更新长期缓存矩阵

以保证整体的热门文件至少能在宏基站处得到服务。进一步利用Actor-Critic框架的多智能体强化学习，对微基站处短期缓存矩阵

确定，得到当前时刻所有缓存的决策模型。具体包括以下步骤：

步骤3.1：当处于长期缓存时隙时，利用步骤S2获得的流行度相关信息，首先在宏基站处进行缓存文件的更新。首先分析所有文件对应的长期流行度序列，考虑到长期流行度对应整个网络场景下的长期偏好特征，因此选择流行度从大到小对文件进行缓存。针对缓存中已经存储的内容则保持不变，仅将部分流行度较低的文件替换为流行度更高的文件加快替换的速度。

步骤3.2：而为了进一步降低工业设备获取所需文件时延，在短期缓存时隙，要将更具有区域特性的内容缓存在对应的微基站处，并能够保证追踪到实时的变化特征。首先对优化问题建模如下

其中，s_f表示单个文件的大小，S_k表示微基站k的缓存容量，

表示设备实际获取内容的时延，其与关联基站、数据缓存位置有关，在步骤5.2中可得。即在每个时隙都选择能最大化整体收益的缓存决策。

步骤3.3：所有微基站共同组成一个多智能体强化学习模型，其中每一个微基站都作为一个智能体，其状态转移的过程可以被建模为马尔可夫决策过程，能够获取局部状态值s_k(t)、全局信息g_k(t)以及奖励函数，其表示如下

其中，s_k(t)包括上一时刻的缓存状态、请求量、局部流行度情况以及单个智能体学习率δ；而全局信息包括上一时刻全局流行度以及缓存状态。最后实际的观测值表示为

o_k(t)＝{s_k(t),g_k(t)}

此外，对于动作变量则只考虑缓存策略，即

步骤3.4：在单个微基站处，通过利用一个DQN机器学习框架对局部缓存决策进行训练，具体而言，首先定义其动作价值函数为

其中，v^t为折扣因子。则对于每一次更新，都选择最大的动作

进一步定义网络参数ω的更新机制为最小二乘均方误差形式如下

其中，y(t)表示其实际的收益，这将在S5中的传输策略制定后得到。

步骤3.5：在每一个智能体都做出决策后，将所有决策上传至云端，进行评价，此过程需要S53中的最终网络收益，利用最小二乘均方误差更新Critic网络的参数

步骤4：信息上传收集：收集t时刻的各区域请求量

以及上一时刻缓存决策信息

上传到宏基站处，并经由宏基站处理后反馈给微基站用于下一个时隙的缓存决策。具体包括以下步骤：

步骤4.1：所有微基站上传上一个时隙各文件的请求量

以及上一时刻的短期缓存决策信息

到宏基站；

步骤4.2：宏基站处对区域请求量进行累加，用于全局流行度计算，并计算每个微基站周围邻居的请求量

其中

用于在下一个时隙传输给各微基站用于自身的短期缓存决策。

步骤5：确定传输资源分配：根据步骤S1得到的工业设备信息与步骤S3得到的缓存状态，结合不同工业设备的传输速率需求进行关联并将时间传输收益结果上传至云端(Critic)，进而反馈给各微基站(Actors)并得到收益反馈(Rewards)用于更新本地模型，当需要修改相关模型参数时可停止，否则将继续更新缓存文件。具体包括以下步骤：

步骤5.1：首先分析请求内容的缓存状态，如果微基站缓存有该内容则直接进行服务；否则通过邻居基站或宏基站将文件协作传输给关联微基站，此时需要减去邻居基站协作成本；如果都没有该文件，则从云端获取，并减去云端获取内容成本；

步骤5.2：进一步根据S11中理论单位带宽速率可得关联速率表，而传输单位文件的时延则进一步表示为

其中，

则表示在微基站k邻居基站中内容f_u的缓存情况，如果都没有则为0，反之为1。每一个工业设备根据计算所得的结果以及自身设备的时延需求选择可接入范围内获得最小文件获取时延的微基站或宏基站进行关联，注意宏基站在实际场景中具有更大的覆盖范围；

步骤5.3：每一个微基站将当前时隙服务所获得的单位速率和上传到宏基站集中处理为奖励并反馈到微基站群中调整模型；

步骤5.4：如果需要修改模型相关参数则停止运行并结束，否则时隙数t＝t+1后从S21循环继续更新缓存策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于协作感知的数据智能缓存方法，其特征在于，首先通过分析历史请求信息与请求的命中状态分别在长短两个时间尺度上更新全局流行度与局部流行度，然后对工业互联网场景中的设备请求文件传输时延进行建模；最后，利用基于Actor-Critic框架的多智能体强化学习模型对微基站处的缓存状态进行更新，并通过自适应分配带宽资源以最大化速率加权和目标函数。

2.根据权利要求1所述的数据智能缓存方法，其特征在于，该方法具体包括以下步骤：

S2：流行度更新：根据步骤S1信息，在每一个时隙t根据与设置的长期更新时隙以及请求文件的缓存命中情况更新全局流行度与局部流行度；

S3：文件缓存决策：根据步骤S2获得的流行度相关信息，首先在每个长期缓存更新时隙T，在宏基站处，根据全局流行度更新长期缓存矩阵，以保证整体的热门文件至少能在宏基站处得到服务；然后利用基于Actor-Critic框架的多智能体强化学习模型，对微基站处短期缓存矩阵更新，得到当前时刻所有缓存的决策模型；

S4：信息上传收集：收集t时隙各区域请求量

以及上一时隙缓存决策信息

S5：确定传输资源分配：根据步骤S1得到的工业设备信息与步骤S3得到的缓存状态，结合不同工业设备的传输速率需求进行关联，并将时间传输收益结果上传至云端，然后反馈给各微基站并得到收益反馈用于更新本地模型，当需要修改相关模型参数时停止，否则将继续更新缓存文件。

3.根据权利要求2所述的数据智能缓存方法，其特征在于，步骤S1具体包括以下步骤：

S11：获取相关的文件库

其中，

表示单位带宽传输等效速率；

S12：对缓存系统中权重参数α∈[0,1]、β∈[0,1]进行设置，其分别代表微基站的局部流行度中，邻居文件流行度对局部流行度的影响占比，以及上一个时隙最新文件请求比例对局部流行度的影响占比；接着设置长期缓存的更新时隙T；并设置不同位置文件获取的时延成本参数λ_s与λ_c，其分别表示邻居微基站协作获取文件的时延成本与从云端获取文件的时延成本，具体关系表示为λ_c＞＞λ_s。

4.根据权利要求3所述的数据智能缓存方法，其特征在于，步骤S2具体包括以下步骤：

S21：冷启动整个系统，根据文件库中文件的数目设定平均初始流行度，表达式为：