CN111556511B

CN111556511B - 一种基于智能边缘缓存的部分机会性干扰对齐方法

Info

Publication number: CN111556511B
Application number: CN202010236488.3A
Authority: CN
Inventors: 郑杰; 胡心悦; 梁雨昕; 张泽仑; 高岭; 王海; 杨旭东
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2022-05-17
Anticipated expiration: 2040-03-30
Also published as: CN111556511A

Abstract

一种基于智能边缘缓存的部分机会性干扰对齐方法，在异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐方法，将时变信道建模为有限马尔可夫状态，将边缘缓存内容替换作为最大动态规划，然后，将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题，边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换，最后，实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性，结果表明，所提出的方法可以获得相当高的平均和速率和平均能量效率。

Description

一种基于智能边缘缓存的部分机会性干扰对齐方法

技术领域

本发明属于移动通信异构网络技术领域，涉及异构网络环境下考虑时变信道和时变需求的智能边缘缓存的下行链路部分机会干扰对齐方法，具体涉及一种基于智能边缘缓存的部分机会性干扰对齐方法。

背景技术

随着边缘计算在未来无线物联网网络的应用，边缘缓存被用来提高无线网络的频谱效率、下载时延和能量效率。主动将频繁请求的数据(例如，更新代码或流行内容)放置在边缘高速缓存中，将通过减少用于无线传输的重复内容来减轻回程链路的沉重负载。此外，在基站 (BS)和物联网设备上辅助缓存可以消除干扰，从而提高无线物联网网络的系统容量。有研究表明根据每个小区的自由度(DoF)，具有基站 (BS)缓存的蜂窝网络中的下行链路传输来增加网络容量。

在蜂窝网络中，干扰对齐(IA)是利用基站之间的协作来进行预编码以减轻干扰，已经得到了广泛的研究。在物联网用户数量较多的情况下，采用干扰对齐的多用户复用技术(OIA)可以提高无线网络的传输速率。由于异构网络的宏基站和微基站之间的不同功率，应用部分干扰对齐可以改善异构网络的系统容量。

由于密集终端设备请求的具有较高的时变性，无线容量存在巨大的压力，无线缓存可以认为是解决这一问题的重要途径。对于物联网设备的时变请求，具有有限缓存大小的微基站需要频繁地更新其高速缓存。然而，传统传统缓存策较少考虑时变带来的复杂性。深度强化学习(DRL)被用来准确获得终端请求的动态特征。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，为复杂系统的感知决策问题提供了解决思路，直接从高维原始数据学习控制策略。而深度Q学习(DQN)是深度强化学习的其中一种算法，它要做的就是将卷积神经网络(CNN)和Q-Learning结合起来，实现从感知 (Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。

对联合缓存和干扰对齐进行研究，以获得基于干扰对齐的无线网络的容量。然而，这些工作都认为无线信道是慢衰落和不变的。在考虑时变信道的情况下，提出了使用深度强化学习的高速缓存启用的机会干扰对齐，干扰对齐网络中的基站可以通过边缘缓存来交换信道状态信息(CSI)，以考虑受限的回程，但它没有考虑物联网设备的动态频繁请求或内容热度更新对无线容量的影响。在假设基站不知道内容流行度的情况下，采用深度强化学习算法动态更新基站的缓存，以适应时变的用户请求。最近关于基站中缓存上下文更新的工作只考虑了内容热度的动态特性，但没有考虑缓存辅助干扰对齐的时变信道。

将异构网络中干扰管理与边缘智能结合是一个值得深入探讨的问题，但面临两个方面关键挑战是：1)如何根据终端用户动态请求内容放置边缘缓存；2)同时利用边缘缓存对时变无线信道进行干扰管理。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种基于智能边缘缓存的部分机会性干扰对齐方法，在异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐方法，将时变信道建模为有限马尔可夫状态，将边缘缓存内容替换作为最大动态规划，然后，将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题，边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换，最后，实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性，结果表明，所提出的方法可以获得相当高的平均和速率和平均能量效率。

为了实现上述目的，本发明采用的技术方案是：

一种基于智能边缘缓存的部分机会性干扰对齐方法，该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤：

1)构建一个异构网络系统，该系统由宏基站、微基站以及用户组成，基站周期获得用户的内容动态请求和用户无线信道状态，以及基站下行传输中缓存内容的更新，其中基站的下行传输分为两个阶段：内容缓存放置阶段和内容的分发传输阶段；

2)宏基站和微基站收集用户请求内容信息和用户的信道状态信息；其中收集用户请求的内容用于进行基站内容缓存放置，信道的状态信息主要用于基于部分机会干扰对齐内容的分发传输；

3)基于深度强化学习技术进行系统状态的建模，系统的状态包含两个部分：信道的状态和基站内容缓存的状态；基于深度强化学习方法对用户动态的内容请求和时变的信道状态信息进行建模，其中时变的信道状态信息为马尔科夫链，请求时变的边缘基站缓存更新问题建模为马尔可夫决策过程(MDP)；

基于深度强化学习对时变的信道状态和动态内容要求的执行步骤如下：

步骤一，将信道状态和基站内容请求命中的状态空间设置为： S_t＝{s₁,s₂,...,s_K}，K为基站个数，通过CSI和边缘缓存共同确定时隙t 的系统状态，在时隙t，系统状态可以描述为s(t)＝{|h_i,j(t)|²,c_k(t)}，系统状态分为两部分：一部分为部分机会干扰对齐的信道增益|h_i,j(t)|²，其中

作为马尔可夫随机变量，U_i和V_i物联网用户i 的预编码矩阵，H_i,j表示基站j和用户i之间的信道增益；另一部分为第k个基站的缓存状态c_k(t)∈{0,1}；

步骤二，将K个基站的动作集合设置为D_t＝{d₁,d₂,...,d_K}，当前系统动作为d(t)＝{d₁(t),d₂(t),...,d_K(t)}，d_k(t)表示第k个基站的动作， d_k(t)＝0，表示在时隙t，内容不能放置在第k个基站中，d_k(t)＝1表示它可以放置在第k个基站中；部分机会干扰对齐用户应满足条件

在当前状态s(t)∈S_t下，基站进行动作d(t)∈D_t，然后系统状态以转移概率P_s(t)s(t+1)(d)转换到新的s(t+1)∈S_t，如果执行动作π(x)，则P_s(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率，π(x)指从状态s(t) 到s(t+1)的转移概率最优的动作，该动作是通过马尔可夫决策过程 (MDP)获得；

步骤三，将瞬时奖励表示为R(s(t),d(t),s(t+1))，其平均奖励为 R(x,π(x))，为获得长期奖励，系统行为应该共同考虑眼前的奖励和未来的奖励，为了长期最大化累积奖励，使用以下状态值函数获得S_t的累计折扣奖励：

其中R(s(t),d(t),s(t+1))表示基站动作d(t)在s(t)和s(t+1)状态转移获得的瞬时奖励，0＜η＜1是长期奖励的贴现率，η_t是η在时隙t时的贴现率，强化学习的目标是在无限的T时间上得到一个最优方案 d^*＝π(x)∈S(t)；

步骤四，每个状态的值由当前状态和下一状态两者确保，当前状态s(t)的值是对先前状态V(s)的累积奖励求期望来获得的：

其中E表示期望值；

步骤五，利用Bellman准则得到最优累积期望；

步骤六，使用Q学习获得最优策略π^*，Q函数可以描述如下：

最大Q函数可以表示为：

Q函数可以更新为：

其中0＜ρ＜1表示学习速率，学习速率值越大，整个算法的收敛速度越快，反之亦然；

步骤七，通过最小化损失函数，训练深度Q函数得到目标值，损失函数L(θ)可以表示为

L(θ)＝E[y-Q(s,d,θ)]²，其中y表示期望收到激励，θ为损失函数 L(θ)中训练深度Q函数的一个输入，更新的损失函数模型；

4)通过宏基站确定宏基站和微基站中内容放置状态，并且选择部分用户形成部分机会干扰对齐用户组，确定宏基站集中处理的系统动作d(t)；

5)基于最小内容交付时延，确定所有候选基站的累积瞬时奖励 r(t)，

当在时隙t中执行系统动作d(t)时，宏基站在状态s(t)中获得r(t)，基于最大的累积奖励

在宏基站深度Q网络中得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法，其中μ_t表示终止操作的门限值，即当t 非常大时，μ_t接近于零；

所述的第k个候选基站的系统奖励函数可以表示为：

其中，e(u_f(t))表示用户u请求内容f，即基站在时隙t新缓存的内容，如果用户请求的内容不在微基站缓存中，则微基站应将该内容请求发送给宏基站，即云平台，如果用户的请求在微基站的缓存内，则第k个候选基站可以获得最大传输速率，从而使部分机会干扰对齐的用户能够接入该基站，可以使用e⁺(u_f(t))来奖励微基站的高速缓存命中，并且e^-(u_f(t))表示对具有高速缓存未命中的微基站的惩罚；

6)在部分机会干扰对齐用户组内，利用迭代干扰对齐得到预编码矩阵和译码矩阵，从而对用户所要求的信息进行分发。

本发明的有益效果是：

本发明利用深度强化学习技术，研究了异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐。我们将时变信道建模为有限马尔可夫状态，将边缘缓存内容替换作为最大动态规划。然后，我们将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题。边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换。最后，实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性。结果表明，所提出的方法可以获得相当高的平均和速率和平均能量效率。

附图说明

图1为本发明带边缘缓存的异构网络模型；

图2为本发明异构网络中的部分机会性干扰对齐；

图3为本发明总和速率与信噪比的关系；

图4为本发明能量效率与信噪比的关系；

图5和图 6 为本发明总速率与回程带宽的关系。

具体实施方式

以下结合附图对本发明进一步叙述，但本发明不局限于以下实施例。

在异构网络中，考虑了物联网用户的动态请求和无线变化和移动边缘计算的下行传输，如图1所示。异构网络包括M个天线的宏基站和N个天线的微基站，K个天线的物联网用户只接入一个基站(如宏基站或微基站)。

在每个传输离散时间t∈T，物联网用户i请求一个数字文件F_i， i∈|F|，对于一个大小的文件有W比特。我们假设基站接收物联网用户的请求是时变的。为了满足物联网用户时变的请求，基站需要用物联网请求替换其本地缓存。微基站能够存储ρ特个F比特，其中ρ∈ [0，1]表示高速缓存大小的分数。利用ρ，可以知道相对于整个文件 W，可以在微基站处存储多少内容。云平台具有全部F个文件，f∈F。宏基站和微基站可以分别通过具有固定容量

和

的回程与云平台连接。在本文中，我们假设宏基站配备了云平台，

因此，为了简单起见，我们用C_B代替

由于微基站的功率比宏基站低得多，因此我们在异构网络中建立了部分连接的信道，如图2所示。通过忽略弱干扰，可以用部分连通机会干扰对齐(POIA)来考虑异构网络中基站的上下文分布。物联网用户只能与一个微基站或一个宏基站连接，但不能同时与两者连接。由于宏基站功率大，对与微基站相连的物联网用户造成了很强的干扰。此外，宏用户将来自微基站的干扰处理为强跨层干扰，将其建模为全连通。微基站(例如在智能家居中开发的小型基站)与其他微基站之间的相互干扰很弱。

我们用J₁＝{0,1,...,J₁}和J₂＝{J₁+1,...,J₁+J₂}，J＝J₁+J₂分别表示系统 1(例如上半部分)和系统2(下半部分)中的基站。第i个用户的自由度表示为d_i。为了简化表达式，物联网用户访问基站j，表示为i。因此，我们可以获得为用户i接收的信号

其中，U_i和V_i是物联网用户i的预编码矩阵，H_i,j表示基站j和用户i之间的信道状态，x_i(t)表示基站发送的用户i数据向量。n_i是具有零均值和方差δ²I_N的加性高斯白噪声。

表示基站对于其服务的物联网用户i的发射功率。(1)的第一项是对物联网用户i的期望信号，(1)的第二项是用户i接收的干扰信号。然后，物联网用户i可以用矩阵

解码其期望信号，即，

要在异构网络中实施部分机会干扰对齐，应满足以下条件：

第(3)项表示可以在系统1中缩小的子空间内对齐来自其他发射机对物联网用户的干扰，第(4)项保证可以将来自系统2中物联网用户的其他发射机的干扰对齐到与宏基站相连的干扰子空间，第(5)项保证系统2的物联网用户可以消除宏基站造成的干扰。当V_i，U_i满足公式(3)-(5)时，可以自动建立(6)。

物联网用户在无线信道上的内容分发可以分为两个阶段：替换阶段和传递阶段。

1)替换阶段：我们不需要考虑宏基站，因为宏基站可以访问F文件的所有数据库。在微基站中的内容被现有的高速缓存、物联网用户的请求和部分机会干扰对齐替换。每个文件F_i以未编码的方式完全存储在每个小单元。

2)传递阶段：可以在每个传输间隔t中应用宏基站和微基站的回程和边缘部分机会干扰对齐传输方案，以满足用户的请求F_i(t)和当前信道条件h(t)。

优化问题建模：

使用深度强化学习方法建立了一种智能化的移动边缘计算，用于边缘内容缓存和部分机会干扰对齐。智能边缘缓存辅助部分机会干扰对齐过程可以分为三个主要部分。

1)请求内容和信道状态收集：微基站和宏基站收集用户与基站之间的物联网用户请求内容和信道状态，用于边缘内容缓存和局部机会干扰对齐，包括存储空间、无线信道状态和用户请求；

2)边缘端基于部分机会干扰对齐的动态内容更新：联合利用获得的物联网用户请求内容和信道状态数据，对靠近用户的数据进行内容放置，进而给出部分机会干扰对齐决策；

3)使用部分机会干扰对齐进行请求内容交付：移动边缘计算系统基于部分机会干扰对齐处理物联网用户的请求。深度强化学习方法解决了基于部分机会干扰对齐的内容更新和基于部分机会干扰对齐的请求内容传递问题。

深度强化学习模型：

强化学习通常可以用马尔可夫决策过程(MDP)来求解。我们将状态空间设置为S(t)＝{s₁,s₂,...,s_n}，将操作集设置为D(t)＝{d₁,d₂,...,d_m}。在当前状态s(t)∈S(t)下，基站进行动作d(t)∈D(t)，然后系统状态以转移概率P_s(t)s(t+1)(d)转换到新的s(t+1)∈S(t)，其中如果执行动作π(x)，则 P_s(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率，其中如果执行动作π(x)，则P_s(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率。

我们将瞬时奖励表示为R(s(t),d(t),s(t+1))，其平均奖励为 R(x,π(x))。通常考虑的是长期奖励，因此系统行为应该同时考虑当前奖励和未来奖励。为实现长期累计奖励最大化，使用以下状态值函数获得S(t)的累计折扣奖励：

其中R(s(t),d(t),s(t+1))表示基站动作d(t)在s(t)和s(t+1)状态转移获得的瞬时奖励，0＜η_t＜1是长期奖励的贴现率。强化学习智能体的目标是在无限的T时间上得到一个最优方案d^*＝π(x)∈S(t)。

Q-学习通过动态规划Bellman方程来解决这一问题，这是Q-学习的主要优点。每个状态的值由当前状态和下一状态两者确保。当前状态s(t)的值是通过预期先前状态V(s)的累积奖励来获得的：

其中E表示期望值。利用Bellman准则得到最优累积期望

如果我们不知道R和P，可以使用Q学习来获得最优策略π^*。Q 函数可以描述如下：

最大Q函数可以表示为：

Q函数可以更新为：

其中0＜ρ＜1表示学习速率。学习速率值越大，整个算法的收敛速度越快，反之亦然。由于神经网络存在一定的不稳定性。我们用深度神经网络进行深度Q学习来计算Q函数，这已经被证明是更有优势的。通过最小化损失函数，训练深度Q函数得到目标值。损失函数L(θ) 可以表示为L(θ)＝E[y-Q(s,d,θ)²]，其中θ为损失函数L(θ)中训练深度 Q函数的一个输入参数，更新的损失函数模型；

其中y表示期望收到激励。

采用深度强化学习的边缘缓存：

无线内容高速缓存和分发技术是一种很有前途的技术，其中流行的内容被高速缓存在靠近用户服务器的服务器中。因此，用户可以很容易地从基站获得相同的内容，而不需要从云服务器或其他基站重复传输，从而极大地减少了回程和无线链路的繁重负载。

因此，我们研究了边缘基站缓存内容的场景。内容热度遵循用户内容请求的概率分布。内容热度是用户在异构网络中的兴趣程度。我们用未知分布对他的内容受欢迎程度进行建模。假设内容流行度是时变的，并且所有内容具有相同的大小。对于每个用户的请求，基站中的深度强化学习可以决定是否缓存这些文件。如果文件需要缓存，基站决定哪些本地内容将被更新，哪些内容将被放弃。缓存更新问题可以建模为微基站中的马尔科夫决策过程(MDP)，并且可以通过使用深度强化学习来解决。

基于深度强化学习的部分机会性干扰对齐：

对于具有用户调度的部分机会干扰对齐网络，将用户的信号与干扰加噪声比(SINR)建模为马尔可夫随机变量是不合适的。根据接收的信号与干扰加噪声比和信道状态的关系，我们可以将信道状态|h_i,j|²表示为马尔可夫随机变量。因此，|h_i,j(t)|²可以在没有其分布的情况下建模。我们把|h_i,j|²量子化成L个能级。每个级别对应于马尔可夫信道的一个状态。系统状态由下一子节详细讨论的信道状态信息(CSI)组成。在无线网络中，每个周期都有T个时间间隔。我们将t∈{0,1,2,...,T-1}表示为时隙，信道状态随时隙t的变化而变化。

假设干扰对齐对小于用户请求数。另外，信噪比影响部分机会干扰对齐的性能，利用加入干扰对齐网络的优势，用户具有更好的信道状态。因此，对每个插槽都执行一个操作，该操作由用户决定要使用当前信道状态信息构建机会干扰对齐的用户组。

首先，宏基站可以收集它的用户请求、信道状态和宏的高速缓存状态，并且微基站收集它的用户请求、信道状态和微基站的高速缓存状态，并将这些信息发送给宏基站。然后宏基站将收集的信息组装成系统状态。其次，宏基站将系统状态转发到深度Q网络，然后深度Q 网络在每个当前时隙执行最优动作argmaxQ(s，d)，并发回动作信息。利用该动作信息，宏基站向微基站发送信息，然后宏基站通知微微用户是否激活，并将预编码矢量分派给每个激活的微基站。当执行动作时，系统状态可以改变新状态。通过奖励函数，我们可以获得当前系统状态的动作奖励。

为了通过深度强化学习得到最优解，我们需要确保系统状态、奖励函数和系统动作，这将在下一小节讨论。

边缘缓存和机会干扰对齐解决方案：

1)系统状态：使用信道状态信息和边缘缓存共同确定槽t的系统状态S(t)。在时隙t，系统状态可以描述为，

S(t)＝{|h_i,j(t)|²,c_k(t)}

系统状态分为两部分：部分机会干扰对齐|h_i,j(t)|²的信道状态，其中

作为马尔可夫随机变量，以及基站 c_k(t)∈{0,1}的缓存状态。可能的系统状态数量巨大。本文很难用传统的方法来解决这个问题。因此，深度Q网络能够在高维输入的基础上进行学习，因此适合此系统。

2)系统操作：我们使用宏基站的中央处理。宏基站决定将哪些内容放置到宏基站和微基站中，并且利用部分机会干扰对齐选择活动用户。当前系统动作d(t)可以由下式给出

d(t)＝{d₁(t),d₂(t),...,d_K(t)}，

其中d_j(t)表示第j个用户的动作。例如，d_k(t)＝0表示槽t的f 内容不能放置在j基站中，d_k(t)＝1表示它可以放置在j基站中。在干扰对齐的约束下，部分机会干扰对齐应满足条件

3)奖励函数：为了最小化交付延迟(即最大化总和速率)，第l个候选者的系统奖励数，即优化目标可以表示为

其中，e(u_f)(t)为用户u请求的内容f，该内容f由时隙t的基站收集新缓存的内容，如果用户请求的内容不在微基站缓存中，则微基站应将该内容请求发送给宏基站，即云平台。如果用户的请求在微基站的缓存内，则第k个候选可以获得最大传输速率，从而使部分机会干扰对齐用户能够达到。可以使用e⁺(u_f)(t)来奖励微基站的高速缓存命中，并且e^-(u_f)(t)表示对具有高速缓存未命中的微基站的惩罚。

我们不关心每个时隙t的奖励，我们关注的是所有候选人的即时累积奖励，即

当系统动作d(t)在时隙t中执行时，宏基站在状态s(t)中获得r(t)，在宏基站使用深度Q网络的目的是得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法，累积奖励用下式描述

其中，当t非常大时，μ_t接近于零。换言之，在实践中，μ_t被视为终止程序操作的阈值。

利用迭代干扰对齐得到预编码矩阵和译码矩阵，同时利用无线信道的互易性来减小接收端的总干扰。

性能评估：

在此仿真中，我们通过使用TensorFlow执行深度强化学习对所提出的智能边缘缓存的部分机会干扰对齐进行了性能评估。使用开源的TensorFlow，我们可以为深度Q网络考虑一个普通的Q网络。我们选择ADAM优化器对损失函数进行优化。在计算机配置7-6500UCPU、 8GBRAM、Python2.7和Tensorflow 1.11.0环境下进行了仿真。

对于模拟场景，在异构网络中考虑多用户内容下载和边缘缓存。我们认为城市密集地区的用户密度为250人/km²。用户遵循异构网络覆盖区域均匀分布，宏基站密度为3蜂窝/km²，密集微基站密度为 100微微蜂窝/km²。宏基站和微基站也遵循均匀分布。仿真参数设置在表I中，我们通过平均100个独立实验得到了仿真结果。

表1

将提出的算法与下面三种方法进行比较：

1)所提出的方案未考虑边缘缓存(POIA without edge caching)。在没有动态更新高速缓存的情况下执行与深度强化学习的部分机会性干扰对准。

2)未考虑边缘缓存的机会干扰对齐方案(OIA scheme without edge caching)，其中缓存使用受限的回程容量在异构网络中用信道状态信息交换部分机会干扰对齐。但是它没有考虑时变的请求，并且动态地更新宏基站和微基站高速缓存。

3)基于深度强化学习的动态边缘缓存(Edge caching via DRL)，在假设信道不变的情况下，该方案根据时变的内容请求和基站缓存动态地将内容替换到基站缓存中，但没有考虑机会干扰对齐。

图3显示了当信噪比用10log10(P^k/σ²)dB表示时，网络的平均和速率随不同的平均信噪比而变化。从图3中可以观察到，随着平均信噪比值的增加，所提出的智能边缘缓存的部分机会干扰对齐方案的平均和速率总是大于其他三个方案。这是因为所提出的方案同时考虑了异构网络和时变请求的时不变信道，而对于其他三种方案只考虑了一个方面。无边缘缓存的方案没有利用对宏基站或微基站进行动态内容缓存的优势，降低了回程容量负载，且性能较低。请注意，没有智能边缘缓存的启用缓存的机会干扰对齐方案考虑了机会干扰对齐和缓存，用于针对干扰对齐的信道状态信息交换，并且不利用异构网络的异构性和部分连接性。基于深度强化学习的动态边缘缓存以时变的请求更新热门内容，但是假设信道不变，机会干扰对齐和部分机会干扰对齐方法在无线接入时获得了比其他方法更高的平均和速率。

图4给出了与其他方法相比拟议方案的能量效率。除了通过深度强化学习进行动态边缘缓存以利用相等的功率分配外，其他三种方案都是功率分配。从这个图，我们可以观察到具有功率分配的机会干扰对齐比通过深度强化学习进行动态边缘缓存更好。然而，由于异构网络的完全连通性，支持缓存的机会干扰对齐方案在没有智能边缘缓存的情况下仍然比所提出的方法执行更低的求和率。

图5显示了平均和速率和平均能量系数随回程容量的不同而不同，平均信噪比设置为20dB。从图5可以得到，对比的四种方法网络的平均和速率都随着回程容量的增加而增加。这是因为回程能力对上下文请求有更多的边缘缓存能力，并为干扰对齐提供信道状态信息交换。随着回程容量的增加，基于深度强化学习的动态边缘缓存与启用缓存的机会干扰对齐方案和不含边缘缓存的机会干扰对齐方案相比，具有更好的性能。原因是回程容量对于边缘缓存非常重要。基于深度强化学习的动态边缘缓存只充分利用了缓存。使用的回程容量越大，流行的上下文边缘缓存可以获得更多收益。然后，将平均信噪比设置为10dB，网络的能量效率随回程容量的不同而变化，如图6所示。此外，可以观察到图5和图6的变化趋势相同。

Claims

1.一种基于智能边缘缓存的部分机会性干扰对齐方法，其特征在于，该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤：

1)构建一个异构网络系统，该系统由宏基站、微基站以及用户组成,基站周期获得用户的内容动态请求和用户无线信道状态，以及基站下行传输中缓存内容的更新，其中基站的下行传输分为两个阶段：内容缓存放置阶段和内容的分发传输阶段；

步骤一，将信道状态和基站内容请求命中的状态空间设置为：S_t＝{s₁,s₂,...,s_K}，K为基站个数，通过CSI和边缘缓存共同确定时隙t的系统状态，在时隙t，系统状态可以描述为s(t)＝{|h_i,j(t)|²,c_k(t)}，系统状态分为两部分：一部分为部分机会干扰对齐的信道增益|h_i,j(t)|²，其中

作为马尔可夫随机变量，U_i和V_i物联网用户i的预编码矩阵，H_i,j表示基站j和用户i之间的信道增益；另一部分为第k个基站的缓存状态c_k(t)∈{0,1}；

步骤二，将K个基站的动作集合设置为D_t＝{d₁,d₂,...,d_K}，当前系统动作为d(t)＝{d₁(t),d₂(t),...,d_K(t)}，d_k(t)表示第k个基站的动作，d_k(t)＝0，表示在时隙t，内容不能放置在第k个基站中，d_k(t)＝1表示它可以放置在第k个基站中；部分机会干扰对齐用户应满足条件

在当前状态s(t)∈S_t下，基站进行动作d(t)∈D_t，然后系统状态以转移概率P_s(t)s(t+1)(d)转换到新的s(t+1)∈S_t，如果执行动作π(x)，则P_s(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率，π(x)指从状态s(t)到s(t+1)的转移概率最优的动作方案，该动作是通过马尔可夫决策过程(MDP)获得；

步骤三，将瞬时奖励表示为R(s(t),d(t),s(t+1))，其平均奖励为R(x,π(x))，为获得长期奖励，系统行为应该共同考虑眼前的奖励和未来的奖励，为了长期最大化累积奖励，使用以下状态值函数获得S_t的累计折扣奖励：