CN111556511B - 一种基于智能边缘缓存的部分机会性干扰对齐方法 - Google Patents

一种基于智能边缘缓存的部分机会性干扰对齐方法 Download PDF

Info

Publication number
CN111556511B
CN111556511B CN202010236488.3A CN202010236488A CN111556511B CN 111556511 B CN111556511 B CN 111556511B CN 202010236488 A CN202010236488 A CN 202010236488A CN 111556511 B CN111556511 B CN 111556511B
Authority
CN
China
Prior art keywords
base station
content
state
user
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010236488.3A
Other languages
English (en)
Other versions
CN111556511A (zh
Inventor
郑杰
胡心悦
梁雨昕
张泽仑
高岭
王海
杨旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202010236488.3A priority Critical patent/CN111556511B/zh
Publication of CN111556511A publication Critical patent/CN111556511A/zh
Application granted granted Critical
Publication of CN111556511B publication Critical patent/CN111556511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • H04W28/0236Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于智能边缘缓存的部分机会性干扰对齐方法,在异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐方法,将时变信道建模为有限马尔可夫状态,将边缘缓存内容替换作为最大动态规划,然后,将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题,边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换,最后,实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性,结果表明,所提出的方法可以获得相当高的平均和速率和平均能量效率。

Description

一种基于智能边缘缓存的部分机会性干扰对齐方法
技术领域
本发明属于移动通信异构网络技术领域,涉及异构网络环境下考虑时变信道和时变需求的智能边缘缓存的下行链路部分机会干扰对齐方法,具体涉及一种基于智能边缘缓存的部分机会性干扰对齐方法。
背景技术
随着边缘计算在未来无线物联网网络的应用,边缘缓存被用来提高无线网络的频谱效率、下载时延和能量效率。主动将频繁请求的数据(例如,更新代码或流行内容)放置在边缘高速缓存中,将通过减少用于无线传输的重复内容来减轻回程链路的沉重负载。此外,在基站 (BS)和物联网设备上辅助缓存可以消除干扰,从而提高无线物联网网络的系统容量。有研究表明根据每个小区的自由度(DoF),具有基站 (BS)缓存的蜂窝网络中的下行链路传输来增加网络容量。
在蜂窝网络中,干扰对齐(IA)是利用基站之间的协作来进行预编码以减轻干扰,已经得到了广泛的研究。在物联网用户数量较多的情况下,采用干扰对齐的多用户复用技术(OIA)可以提高无线网络的传输速率。由于异构网络的宏基站和微基站之间的不同功率,应用部分干扰对齐可以改善异构网络的系统容量。
由于密集终端设备请求的具有较高的时变性,无线容量存在巨大的压力,无线缓存可以认为是解决这一问题的重要途径。对于物联网设备的时变请求,具有有限缓存大小的微基站需要频繁地更新其高速缓存。然而,传统传统缓存策较少考虑时变带来的复杂性。深度强化学习(DRL)被用来准确获得终端请求的动态特征。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,为复杂系统的感知决策问题提供了解决思路,直接从高维原始数据学习控制策略。而深度Q学习(DQN)是深度强化学习的其中一种算法,它要做的就是将卷积神经网络(CNN)和Q-Learning结合起来,实现从感知 (Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。
对联合缓存和干扰对齐进行研究,以获得基于干扰对齐的无线网络的容量。然而,这些工作都认为无线信道是慢衰落和不变的。在考虑时变信道的情况下,提出了使用深度强化学习的高速缓存启用的机会干扰对齐,干扰对齐网络中的基站可以通过边缘缓存来交换信道状态信息(CSI),以考虑受限的回程,但它没有考虑物联网设备的动态频繁请求或内容热度更新对无线容量的影响。在假设基站不知道内容流行度的情况下,采用深度强化学习算法动态更新基站的缓存,以适应时变的用户请求。最近关于基站中缓存上下文更新的工作只考虑了内容热度的动态特性,但没有考虑缓存辅助干扰对齐的时变信道。
将异构网络中干扰管理与边缘智能结合是一个值得深入探讨的问题,但面临两个方面关键挑战是:1)如何根据终端用户动态请求内容放置边缘缓存;2)同时利用边缘缓存对时变无线信道进行干扰管理。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于智能边缘缓存的部分机会性干扰对齐方法,在异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐方法,将时变信道建模为有限马尔可夫状态,将边缘缓存内容替换作为最大动态规划,然后,将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题,边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换,最后,实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性,结果表明,所提出的方法可以获得相当高的平均和速率和平均能量效率。
为了实现上述目的,本发明采用的技术方案是:
一种基于智能边缘缓存的部分机会性干扰对齐方法,该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤:
1)构建一个异构网络系统,该系统由宏基站、微基站以及用户组成基站周期获得用户的内容动态请求和用户无线信道状态,以及基站下行传输中缓存内容的更新,其中基站的下行传输分为两个阶段:内容缓存放置阶段和内容的分发传输阶段;
2)宏基站和微基站收集用户请求内容信息和用户的信道状态信息;其中收集用户请求的内容用于进行基站内容缓存放置,信道的状态信息主要用于基于部分机会干扰对齐内容的分发传输;
3)基于深度强化学习技术进行系统状态的建模,系统的状态包含两个部分:信道的状态和基站内容缓存的状态;基于深度强化学习方法对用户动态的内容请求和时变的信道状态信息进行建模,其中时变的信道状态信息为马尔科夫链,请求时变的边缘基站缓存更新问题建模为马尔可夫决策过程(MDP);
基于深度强化学习对时变的信道状态和动态内容要求的执行步骤如下:
步骤一,将信道状态和基站内容请求命中的状态空间设置为: St={s1,s2,...,sK},K为基站个数通过CSI和边缘缓存共同确定时隙t 的系统状态,在时隙t,系统状态可以描述为s(t)={|hi,j(t)|2,ck(t)},系统状态分为两部分:一部分为部分机会干扰对齐的信道增益|hi,j(t)|2,其中
Figure GDA0003577187790000041
作为马尔可夫随机变量,Ui和Vi物联网用户i 的预编码矩阵,Hi,j表示基站j和用户i之间的信道增益;另一部分为第k个基站的缓存状态ck(t)∈{0,1};
步骤二,将K个基站的动作集合设置为Dt={d1,d2,...,dK},当前系统动作为d(t)={d1(t),d2(t),...,dK(t)},dk(t)表示第k个基站的动作, dk(t)=0,表示在时隙t,内容不能放置在第k个基站中,dk(t)=1表示它可以放置在第k个基站中;部分机会干扰对齐用户应满足条件
Figure GDA0003577187790000042
在当前状态s(t)∈St下,基站进行动作d(t)∈Dt,然后系统状态以转移概率Ps(t)s(t+1)(d)转换到新的s(t+1)∈St,如果执行动作π(x),则Ps(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率,π(x)指从状态s(t) 到s(t+1)的转移概率最优的动作,该动作是通过马尔可夫决策过程 (MDP)获得;
步骤三,将瞬时奖励表示为R(s(t),d(t),s(t+1)),其平均奖励为 R(x,π(x)),为获得长期奖励,系统行为应该共同考虑眼前的奖励和未来的奖励,为了长期最大化累积奖励,使用以下状态值函数获得St的累计折扣奖励:
Figure GDA0003577187790000051
其中R(s(t),d(t),s(t+1))表示基站动作d(t)在s(t)和s(t+1)状态转移获得的瞬时奖励,0<η<1是长期奖励的贴现率,ηt是η在时隙t时的贴现率,强化学习的目标是在无限的T时间上得到一个最优方案 d*=π(x)∈S(t);
步骤四,每个状态的值由当前状态和下一状态两者确保,当前状态s(t)的值是对先前状态V(s)的累积奖励求期望来获得的:
Figure GDA0003577187790000052
其中E表示期望值;
步骤五,利用Bellman准则得到最优累积期望;
Figure GDA0003577187790000053
步骤六,使用Q学习获得最优策略π*,Q函数可以描述如下:
Figure GDA0003577187790000054
最大Q函数可以表示为:
Figure GDA0003577187790000055
Q函数可以更新为:
Figure GDA0003577187790000056
其中0<ρ<1表示学习速率,学习速率值越大,整个算法的收敛速度越快,反之亦然;
步骤七,通过最小化损失函数,训练深度Q函数得到目标值,损失函数L(θ)可以表示为
L(θ)=E[y-Q(s,d,θ)]2,其中y表示期望收到激励,θ为损失函数 L(θ)中训练深度Q函数的一个输入,更新的损失函数模型;
4)通过宏基站确定宏基站和微基站中内容放置状态,并且选择部分用户形成部分机会干扰对齐用户组,确定宏基站集中处理的系统动作d(t);
5)基于最小内容交付时延,确定所有候选基站的累积瞬时奖励 r(t),
Figure GDA0003577187790000061
当在时隙t中执行系统动作d(t)时,宏基站在状态s(t)中获得r(t)基于最大的累积奖励
Figure GDA0003577187790000062
在宏基站深度Q网络中得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法,其中μt表示终止操作的门限值,即当t 非常大时,μt接近于零;
所述的第k个候选基站的系统奖励函数可以表示为:
Figure GDA0003577187790000063
其中,e(uf(t))表示用户u请求内容f,即基站在时隙t新缓存的内容如果用户请求的内容不在微基站缓存中,则微基站应将该内容请求发送给宏基站,即云平台如果用户的请求在微基站的缓存内,则第k个候选基站可以获得最大传输速率,从而使部分机会干扰对齐的用户能够接入该基站可以使用e+(uf(t))来奖励微基站的高速缓存命中,并且e-(uf(t))表示对具有高速缓存未命中的微基站的惩罚;
6)在部分机会干扰对齐用户组内,利用迭代干扰对齐得到预编码矩阵和译码矩阵,从而对用户所要求的信息进行分发。
本发明的有益效果是:
本发明利用深度强化学习技术,研究了异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐。我们将时变信道建模为有限马尔可夫状态,将边缘缓存内容替换作为最大动态规划。然后,我们将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题。边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换。最后,实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性。结果表明,所提出的方法可以获得相当高的平均和速率和平均能量效率。
附图说明
图1为本发明带边缘缓存的异构网络模型;
图2为本发明异构网络中的部分机会性干扰对齐;
图3为本发明总和速率与信噪比的关系;
图4为本发明能量效率与信噪比的关系;
图5和图 6 为本发明总速率与回程带宽的关系。
具体实施方式
以下结合附图对本发明进一步叙述,但本发明不局限于以下实施例。
在异构网络中,考虑了物联网用户的动态请求和无线变化和移动边缘计算的下行传输,如图1所示。异构网络包括M个天线的宏基站和N个天线的微基站,K个天线的物联网用户只接入一个基站(如宏基站或微基站)。
在每个传输离散时间t∈T,物联网用户i请求一个数字文件Fi, i∈|F|,对于一个大小的文件有W比特。我们假设基站接收物联网用户的请求是时变的。为了满足物联网用户时变的请求,基站需要用物联网请求替换其本地缓存。微基站能够存储ρ特个F比特,其中ρ∈ [0,1]表示高速缓存大小的分数。利用ρ,可以知道相对于整个文件 W,可以在微基站处存储多少内容。云平台具有全部F个文件,f∈F。宏基站和微基站可以分别通过具有固定容量
Figure GDA0003577187790000081
Figure GDA0003577187790000082
的回程与云平台连接。在本文中,我们假设宏基站配备了云平台,
Figure GDA0003577187790000083
因此,为了简单起见,我们用CB代替
Figure GDA0003577187790000084
由于微基站的功率比宏基站低得多,因此我们在异构网络中建立了部分连接的信道,如图2所示。通过忽略弱干扰,可以用部分连通机会干扰对齐(POIA)来考虑异构网络中基站的上下文分布。物联网用户只能与一个微基站或一个宏基站连接,但不能同时与两者连接。由于宏基站功率大,对与微基站相连的物联网用户造成了很强的干扰。此外,宏用户将来自微基站的干扰处理为强跨层干扰,将其建模为全连通。微基站(例如在智能家居中开发的小型基站)与其他微基站之间的相互干扰很弱。
我们用J1={0,1,...,J1}和J2={J1+1,...,J1+J2},J=J1+J2分别表示系统 1(例如上半部分)和系统2(下半部分)中的基站。第i个用户的自由度表示为di。为了简化表达式,物联网用户访问基站j,表示为i。因此,我们可以获得为用户i接收的信号
Figure GDA0003577187790000091
其中,Ui和Vi是物联网用户i的预编码矩阵,Hi,j表示基站j和用户i之间的信道状态,xi(t)表示基站发送的用户i数据向量。ni是具有零均值和方差δ2IN的加性高斯白噪声。
Figure GDA0003577187790000092
表示基站对于其服务的物联网用户i的发射功率。(1)的第一项是对物联网用户i的期望信号,(1)的第二项是用户i接收的干扰信号。然后,物联网用户i可以用矩阵
Figure GDA0003577187790000093
解码其期望信号,即,
Figure GDA0003577187790000094
要在异构网络中实施部分机会干扰对齐,应满足以下条件:
Figure GDA0003577187790000095
Figure GDA0003577187790000096
Figure GDA0003577187790000097
Figure GDA0003577187790000098
第(3)项表示可以在系统1中缩小的子空间内对齐来自其他发射机对物联网用户的干扰,第(4)项保证可以将来自系统2中物联网用户的其他发射机的干扰对齐到与宏基站相连的干扰子空间,第(5)项保证系统2的物联网用户可以消除宏基站造成的干扰。当Vi,Ui满足公式(3)-(5)时,可以自动建立(6)。
物联网用户在无线信道上的内容分发可以分为两个阶段:替换阶段和传递阶段。
1)替换阶段:我们不需要考虑宏基站,因为宏基站可以访问F文件的所有数据库。在微基站中的内容被现有的高速缓存、物联网用户的请求和部分机会干扰对齐替换。每个文件Fi以未编码的方式完全存储在每个小单元。
2)传递阶段:可以在每个传输间隔t中应用宏基站和微基站的回程和边缘部分机会干扰对齐传输方案,以满足用户的请求Fi(t)和当前信道条件h(t)。
优化问题建模:
使用深度强化学习方法建立了一种智能化的移动边缘计算,用于边缘内容缓存和部分机会干扰对齐。智能边缘缓存辅助部分机会干扰对齐过程可以分为三个主要部分。
1)请求内容和信道状态收集:微基站和宏基站收集用户与基站之间的物联网用户请求内容和信道状态,用于边缘内容缓存和局部机会干扰对齐,包括存储空间、无线信道状态和用户请求;
2)边缘端基于部分机会干扰对齐的动态内容更新:联合利用获得的物联网用户请求内容和信道状态数据,对靠近用户的数据进行内容放置,进而给出部分机会干扰对齐决策;
3)使用部分机会干扰对齐进行请求内容交付:移动边缘计算系统基于部分机会干扰对齐处理物联网用户的请求。深度强化学习方法解决了基于部分机会干扰对齐的内容更新和基于部分机会干扰对齐的请求内容传递问题。
深度强化学习模型:
强化学习通常可以用马尔可夫决策过程(MDP)来求解。我们将状态空间设置为S(t)={s1,s2,...,sn},将操作集设置为D(t)={d1,d2,...,dm}。在当前状态s(t)∈S(t)下,基站进行动作d(t)∈D(t),然后系统状态以转移概率Ps(t)s(t+1)(d)转换到新的s(t+1)∈S(t),其中如果执行动作π(x),则 Ps(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率,其中如果执行动作π(x),则Ps(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率。
我们将瞬时奖励表示为R(s(t),d(t),s(t+1)),其平均奖励为 R(x,π(x))。通常考虑的是长期奖励,因此系统行为应该同时考虑当前奖励和未来奖励。为实现长期累计奖励最大化,使用以下状态值函数获得S(t)的累计折扣奖励:
Figure GDA0003577187790000111
其中R(s(t),d(t),s(t+1))表示基站动作d(t)在s(t)和s(t+1)状态转移获得的瞬时奖励,0<ηt<1是长期奖励的贴现率。强化学习智能体的目标是在无限的T时间上得到一个最优方案d*=π(x)∈S(t)。
Q-学习通过动态规划Bellman方程来解决这一问题,这是Q-学习的主要优点。每个状态的值由当前状态和下一状态两者确保。当前状态s(t)的值是通过预期先前状态V(s)的累积奖励来获得的:
Figure GDA0003577187790000121
其中E表示期望值。利用Bellman准则得到最优累积期望
Figure GDA0003577187790000122
如果我们不知道R和P,可以使用Q学习来获得最优策略π*。Q 函数可以描述如下:
Figure GDA0003577187790000123
最大Q函数可以表示为:
Figure GDA0003577187790000124
Q函数可以更新为:
Figure GDA0003577187790000125
其中0<ρ<1表示学习速率。学习速率值越大,整个算法的收敛速度越快,反之亦然。由于神经网络存在一定的不稳定性。我们用深度神经网络进行深度Q学习来计算Q函数,这已经被证明是更有优势的。通过最小化损失函数,训练深度Q函数得到目标值。损失函数L(θ) 可以表示为L(θ)=E[y-Q(s,d,θ)2],其中θ为损失函数L(θ)中训练深度 Q函数的一个输入参数,更新的损失函数模型;
其中y表示期望收到激励。
采用深度强化学习的边缘缓存:
无线内容高速缓存和分发技术是一种很有前途的技术,其中流行的内容被高速缓存在靠近用户服务器的服务器中。因此,用户可以很容易地从基站获得相同的内容,而不需要从云服务器或其他基站重复传输,从而极大地减少了回程和无线链路的繁重负载。
因此,我们研究了边缘基站缓存内容的场景。内容热度遵循用户内容请求的概率分布。内容热度是用户在异构网络中的兴趣程度。我们用未知分布对他的内容受欢迎程度进行建模。假设内容流行度是时变的,并且所有内容具有相同的大小。对于每个用户的请求,基站中的深度强化学习可以决定是否缓存这些文件。如果文件需要缓存,基站决定哪些本地内容将被更新,哪些内容将被放弃。缓存更新问题可以建模为微基站中的马尔科夫决策过程(MDP),并且可以通过使用深度强化学习来解决。
基于深度强化学习的部分机会性干扰对齐:
对于具有用户调度的部分机会干扰对齐网络,将用户的信号与干扰加噪声比(SINR)建模为马尔可夫随机变量是不合适的。根据接收的信号与干扰加噪声比和信道状态的关系,我们可以将信道状态|hi,j|2表示为马尔可夫随机变量。因此,|hi,j(t)|2可以在没有其分布的情况下建模。我们把|hi,j|2量子化成L个能级。每个级别对应于马尔可夫信道的一个状态。系统状态由下一子节详细讨论的信道状态信息(CSI)组成。在无线网络中,每个周期都有T个时间间隔。我们将t∈{0,1,2,...,T-1}表示为时隙,信道状态随时隙t的变化而变化。
假设干扰对齐对小于用户请求数。另外,信噪比影响部分机会干扰对齐的性能,利用加入干扰对齐网络的优势,用户具有更好的信道状态。因此,对每个插槽都执行一个操作,该操作由用户决定要使用当前信道状态信息构建机会干扰对齐的用户组。
首先,宏基站可以收集它的用户请求、信道状态和宏的高速缓存状态,并且微基站收集它的用户请求、信道状态和微基站的高速缓存状态,并将这些信息发送给宏基站。然后宏基站将收集的信息组装成系统状态。其次,宏基站将系统状态转发到深度Q网络,然后深度Q 网络在每个当前时隙执行最优动作argmaxQ(s,d),并发回动作信息。利用该动作信息,宏基站向微基站发送信息,然后宏基站通知微微用户是否激活,并将预编码矢量分派给每个激活的微基站。当执行动作时,系统状态可以改变新状态。通过奖励函数,我们可以获得当前系统状态的动作奖励。
为了通过深度强化学习得到最优解,我们需要确保系统状态、奖励函数和系统动作,这将在下一小节讨论。
边缘缓存和机会干扰对齐解决方案:
1)系统状态:使用信道状态信息和边缘缓存共同确定槽t的系统状态S(t)。在时隙t,系统状态可以描述为,
S(t)={|hi,j(t)|2,ck(t)}
系统状态分为两部分:部分机会干扰对齐|hi,j(t)|2的信道状态,其中
Figure GDA0003577187790000141
作为马尔可夫随机变量,以及基站 ck(t)∈{0,1}的缓存状态。可能的系统状态数量巨大。本文很难用传统的方法来解决这个问题。因此,深度Q网络能够在高维输入的基础上进行学习,因此适合此系统。
2)系统操作:我们使用宏基站的中央处理。宏基站决定将哪些内容放置到宏基站和微基站中,并且利用部分机会干扰对齐选择活动用户。当前系统动作d(t)可以由下式给出
d(t)={d1(t),d2(t),...,dK(t)},
其中dj(t)表示第j个用户的动作。例如,dk(t)=0表示槽t的f 内容不能放置在j基站中,dk(t)=1表示它可以放置在j基站中。在干扰对齐的约束下,部分机会干扰对齐应满足条件
Figure GDA0003577187790000151
3)奖励函数:为了最小化交付延迟(即最大化总和速率),第l个候选者的系统奖励数,即优化目标可以表示为
Figure GDA0003577187790000152
其中,e(uf)(t)为用户u请求的内容f,该内容f由时隙t的基站收集新缓存的内容,如果用户请求的内容不在微基站缓存中,则微基站应将该内容请求发送给宏基站,即云平台。如果用户的请求在微基站的缓存内,则第k个候选可以获得最大传输速率,从而使部分机会干扰对齐用户能够达到。可以使用e+(uf)(t)来奖励微基站的高速缓存命中,并且e-(uf)(t)表示对具有高速缓存未命中的微基站的惩罚。
我们不关心每个时隙t的奖励,我们关注的是所有候选人的即时累积奖励,即
Figure GDA0003577187790000153
当系统动作d(t)在时隙t中执行时,宏基站在状态s(t)中获得r(t),在宏基站使用深度Q网络的目的是得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法,累积奖励用下式描述
Figure GDA0003577187790000161
其中,当t非常大时,μt接近于零。换言之,在实践中,μt被视为终止程序操作的阈值。
利用迭代干扰对齐得到预编码矩阵和译码矩阵,同时利用无线信道的互易性来减小接收端的总干扰。
性能评估:
在此仿真中,我们通过使用TensorFlow执行深度强化学习对所提出的智能边缘缓存的部分机会干扰对齐进行了性能评估。使用开源的TensorFlow,我们可以为深度Q网络考虑一个普通的Q网络。我们选择ADAM优化器对损失函数进行优化。在计算机配置7-6500UCPU、 8GBRAM、Python2.7和Tensorflow 1.11.0环境下进行了仿真。
对于模拟场景,在异构网络中考虑多用户内容下载和边缘缓存。我们认为城市密集地区的用户密度为250人/km2。用户遵循异构网络覆盖区域均匀分布,宏基站密度为3蜂窝/km2,密集微基站密度为 100微微蜂窝/km2。宏基站和微基站也遵循均匀分布。仿真参数设置在表I中,我们通过平均100个独立实验得到了仿真结果。
表1
Figure GDA0003577187790000162
Figure GDA0003577187790000171
将提出的算法与下面三种方法进行比较:
1)所提出的方案未考虑边缘缓存(POIA without edge caching)。在没有动态更新高速缓存的情况下执行与深度强化学习的部分机会性干扰对准。
2)未考虑边缘缓存的机会干扰对齐方案(OIA scheme without edge caching),其中缓存使用受限的回程容量在异构网络中用信道状态信息交换部分机会干扰对齐。但是它没有考虑时变的请求,并且动态地更新宏基站和微基站高速缓存。
3)基于深度强化学习的动态边缘缓存(Edge caching via DRL),在假设信道不变的情况下,该方案根据时变的内容请求和基站缓存动态地将内容替换到基站缓存中,但没有考虑机会干扰对齐。
图3显示了当信噪比用10log10(Pk2)dB表示时,网络的平均和速率随不同的平均信噪比而变化。从图3中可以观察到,随着平均信噪比值的增加,所提出的智能边缘缓存的部分机会干扰对齐方案的平均和速率总是大于其他三个方案。这是因为所提出的方案同时考虑了异构网络和时变请求的时不变信道,而对于其他三种方案只考虑了一个方面。无边缘缓存的方案没有利用对宏基站或微基站进行动态内容缓存的优势,降低了回程容量负载,且性能较低。请注意,没有智能边缘缓存的启用缓存的机会干扰对齐方案考虑了机会干扰对齐和缓存,用于针对干扰对齐的信道状态信息交换,并且不利用异构网络的异构性和部分连接性。基于深度强化学习的动态边缘缓存以时变的请求更新热门内容,但是假设信道不变,机会干扰对齐和部分机会干扰对齐方法在无线接入时获得了比其他方法更高的平均和速率。
图4给出了与其他方法相比拟议方案的能量效率。除了通过深度强化学习进行动态边缘缓存以利用相等的功率分配外,其他三种方案都是功率分配。从这个图,我们可以观察到具有功率分配的机会干扰对齐比通过深度强化学习进行动态边缘缓存更好。然而,由于异构网络的完全连通性,支持缓存的机会干扰对齐方案在没有智能边缘缓存的情况下仍然比所提出的方法执行更低的求和率。
图5显示了平均和速率和平均能量系数随回程容量的不同而不同,平均信噪比设置为20dB。从图5可以得到,对比的四种方法网络的平均和速率都随着回程容量的增加而增加。这是因为回程能力对上下文请求有更多的边缘缓存能力,并为干扰对齐提供信道状态信息交换。随着回程容量的增加,基于深度强化学习的动态边缘缓存与启用缓存的机会干扰对齐方案和不含边缘缓存的机会干扰对齐方案相比,具有更好的性能。原因是回程容量对于边缘缓存非常重要。基于深度强化学习的动态边缘缓存只充分利用了缓存。使用的回程容量越大,流行的上下文边缘缓存可以获得更多收益。然后,将平均信噪比设置为10dB,网络的能量效率随回程容量的不同而变化,如图6所示。此外,可以观察到图5和图6的变化趋势相同。

Claims (1)

1.一种基于智能边缘缓存的部分机会性干扰对齐方法,其特征在于,该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤:
1)构建一个异构网络系统,该系统由宏基站、微基站以及用户组成,基站周期获得用户的内容动态请求和用户无线信道状态,以及基站下行传输中缓存内容的更新,其中基站的下行传输分为两个阶段:内容缓存放置阶段和内容的分发传输阶段;
2)宏基站和微基站收集用户请求内容信息和用户的信道状态信息;其中收集用户请求的内容用于进行基站内容缓存放置,信道的状态信息主要用于基于部分机会干扰对齐内容的分发传输;
3)基于深度强化学习技术进行系统状态的建模,系统的状态包含两个部分:信道的状态和基站内容缓存的状态;基于深度强化学习方法对用户动态的内容请求和时变的信道状态信息进行建模,其中时变的信道状态信息为马尔科夫链,请求时变的边缘基站缓存更新问题建模为马尔可夫决策过程(MDP);
基于深度强化学习对时变的信道状态和动态内容要求的执行步骤如下:
步骤一,将信道状态和基站内容请求命中的状态空间设置为:St={s1,s2,...,sK},K为基站个数通过CSI和边缘缓存共同确定时隙t的系统状态,在时隙t,系统状态可以描述为s(t)={|hi,j(t)|2,ck(t)},系统状态分为两部分:一部分为部分机会干扰对齐的信道增益|hi,j(t)|2,其中
Figure FDA0003439153790000021
作为马尔可夫随机变量,Ui和Vi物联网用户i的预编码矩阵,Hi,j表示基站j和用户i之间的信道增益;另一部分为第k个基站的缓存状态ck(t)∈{0,1};
步骤二,将K个基站的动作集合设置为Dt={d1,d2,...,dK},当前系统动作为d(t)={d1(t),d2(t),...,dK(t)},dk(t)表示第k个基站的动作,dk(t)=0,表示在时隙t,内容不能放置在第k个基站中,dk(t)=1表示它可以放置在第k个基站中;部分机会干扰对齐用户应满足条件
Figure FDA0003439153790000022
在当前状态s(t)∈St下,基站进行动作d(t)∈Dt,然后系统状态以转移概率Ps(t)s(t+1)(d)转换到新的s(t+1)∈St,如果执行动作π(x),则Ps(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率,π(x)指从状态s(t)到s(t+1)的转移概率最优的动作方案,该动作是通过马尔可夫决策过程(MDP)获得;
步骤三,将瞬时奖励表示为R(s(t),d(t),s(t+1)),其平均奖励为R(x,π(x)),为获得长期奖励,系统行为应该共同考虑眼前的奖励和未来的奖励,为了长期最大化累积奖励,使用以下状态值函数获得St的累计折扣奖励:
Figure FDA0003439153790000023
其中R(s(t),d(t),s(t+1))表示基站动作d(t)在s(t)和s(t+1)状态转移获得的瞬时奖励,0<η<1是长期奖励的贴现率,ηt是η在时隙t时的贴现率,强化学习的目标是在无限的T时间上得到一个最优方案d*=π(x)∈S(t);
步骤四,每个状态的值由当前状态和下一状态两者确保,当前状态s(t)的值是对先前状态V(s)的累积奖励求期望来获得的:
Figure FDA0003439153790000031
其中E表示期望值;
步骤五,利用Bellman准则得到最优累积期望;
Figure FDA0003439153790000032
步骤六,使用Q学习获得最优策略π*,Q函数可以描述如下:
Figure FDA0003439153790000033
最大Q函数可以表示为:
Figure FDA0003439153790000034
Q函数可以更新为:
Figure FDA0003439153790000035
其中0<ρ<1表示学习速率,学习速率值越大,整个算法的收敛速度越快,反之亦然;
步骤七,通过最小化损失函数,训练深度Q函数得到目标值,损失函数L(θ)可以表示为L(θ)=E[y-Q(s,d,θ)]2,其中y表示期望收到激励,θ为损失函数L(θ)中训练深度Q函数的输入,更新的损失函数模型;
4)通过宏基站确定宏基站和微基站中内容放置状态,并且选择部分用户形成部分机会干扰对齐用户组,确定宏基站集中处理的系统动作d(t);
5)基于最小内容交付时延,确定所有候选基站的累积瞬时奖励r(t),
Figure FDA0003439153790000041
当在时隙t中执行系统动作d(t)时,宏基站在状态s(t)中获得r(t)基于最大的累积奖励
Figure FDA0003439153790000042
在宏基站深度Q网络中得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法,其中μt表示终止操作的门限值,即当t非常大时,μt接近于零;
第k个候选基站的系统奖励函数可以表示为:
Figure FDA0003439153790000043
其中,e(uf(t))表示用户u请求内容f,即基站在时隙t新缓存的内容如果用户请求的内容不在微基站缓存中,则微基站应将该内容请求发送给宏基站,即云平台如果用户的请求在微基站的缓存内,则第k个候选基站可以获得最大传输速率,从而使部分机会干扰对齐的用户能够接入该基站可以使用e+(uf(t))来奖励微基站的高速缓存命中,并且e-(uf(t))表示对具有高速缓存未命中的微基站的惩罚;
6)在部分机会干扰对齐用户组内,利用迭代干扰对齐得到预编码矩阵和译码矩阵,从而对用户所要求的信息进行分发。
CN202010236488.3A 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法 Active CN111556511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236488.3A CN111556511B (zh) 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236488.3A CN111556511B (zh) 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法

Publications (2)

Publication Number Publication Date
CN111556511A CN111556511A (zh) 2020-08-18
CN111556511B true CN111556511B (zh) 2022-05-17

Family

ID=72003787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236488.3A Active CN111556511B (zh) 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法

Country Status (1)

Country Link
CN (1) CN111556511B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929900B (zh) * 2021-01-21 2022-08-02 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN115484568A (zh) * 2022-08-12 2022-12-16 北京邮电大学 缓存数据的传输方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060950A (zh) * 2016-05-25 2016-10-26 重庆邮电大学 一种基于机会干扰对齐的蜂窝下行信道中数据传输方法
CN109743092A (zh) * 2018-12-21 2019-05-10 北京邮电大学 一种基于极化-空域信息协同处理的认知异构蜂窝网络干扰对齐方法
CN110225524A (zh) * 2019-05-29 2019-09-10 暨南大学 一种基于5g下行链路数据传输的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013036091A2 (en) * 2011-09-09 2013-03-14 Samsung Electronics Co., Ltd. Method and apparatus for opportunistic user scheduling of two-cell multiple user mimo
US20140294110A1 (en) * 2013-04-01 2014-10-02 Electronics And Telecommunications Research Institute Method and apparatus for opportunistic interference alignment (oia) in multi-user multiple-input multiple-output (mu-mimo) transmission
KR102215381B1 (ko) * 2014-06-24 2021-02-16 한국전자통신연구원 무선랜에서 이종의 간섭정렬 기법에 기초하여 무선 통신을 수행하는 방법 및 장치
KR102102414B1 (ko) * 2015-04-20 2020-04-20 한국전자통신연구원 Wlan 시스템에서의 하향 링크에 대한 간섭 정렬 방법 및 이를 수행하기 위한 액세스 포인트 및 사용자 단말
CN107241799B (zh) * 2016-03-28 2021-05-11 上海交通大学 异构网络中能量有效的资源分配和干扰对齐联合方法
CN109004963B (zh) * 2018-08-06 2020-11-06 安庆师范大学 基于机会干扰对齐的无线通信用户优化调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060950A (zh) * 2016-05-25 2016-10-26 重庆邮电大学 一种基于机会干扰对齐的蜂窝下行信道中数据传输方法
CN109743092A (zh) * 2018-12-21 2019-05-10 北京邮电大学 一种基于极化-空域信息协同处理的认知异构蜂窝网络干扰对齐方法
CN110225524A (zh) * 2019-05-29 2019-09-10 暨南大学 一种基于5g下行链路数据传输的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Deep-Reinforcement-Learning-Based Optimization for Cache-Enabled Opportunistic Interference Alignment Wireless Networks";Ying He;《IEEE Transactions on Vehicular Technology》;20170913;第66卷(第11期);全文 *
"Partial Interference Alignment for Heterogeneous Cellular Networks";Longwei Wang;《IEEE Access》;20180418;第6卷;全文 *

Also Published As

Publication number Publication date
CN111556511A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109639760B (zh) 一种基于深度强化学习的d2d网络中的缓存策略方法
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN111565419B (zh) 一种超密集网络中面向延迟优化的协作式边缘缓存方法
CN113115368B (zh) 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN111556511B (zh) 一种基于智能边缘缓存的部分机会性干扰对齐方法
CN109831808B (zh) 一种基于机器学习的混合供电c-ran的资源分配方法
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
CN114827191B (zh) 一种车路协同系统中融合noma的动态任务卸载方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN111491358A (zh) 基于能量采集的自适应调制和功率控制系统与优化方法
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
Bi et al. Deep reinforcement learning based power allocation for D2D network
CN110312277A (zh) 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN115278708B (zh) 一种面向联邦学习的移动边缘计算资源管理方法
Shang et al. Computation offloading and resource allocation in NOMA–MEC: A deep reinforcement learning approach
CN114040415A (zh) 智能反射面辅助的基于dqn-ddpg的资源分配方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN114615730A (zh) 回程受限密集无线网络面向内容覆盖的功率分配方法
CN115412936A (zh) 一种基于多智能体dqn的irs辅助d2d系统资源分配方法
CN116566466A (zh) 一种面向低轨卫星星座的多目标动态偏好星地协同计算卸载方法
CN114189877B (zh) 一种面向5g基站的复合式能耗优化控制方法
CN113595609B (zh) 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法
CN113301576B (zh) 一种基于改进遗传算法的蜂窝网络资源分配方法
CN115633402A (zh) 一种面向混合业务吞吐量优化的资源调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant