CN111556511A - 一种基于智能边缘缓存的部分机会性干扰对齐方法 - Google Patents

一种基于智能边缘缓存的部分机会性干扰对齐方法 Download PDF

Info

Publication number
CN111556511A
CN111556511A CN202010236488.3A CN202010236488A CN111556511A CN 111556511 A CN111556511 A CN 111556511A CN 202010236488 A CN202010236488 A CN 202010236488A CN 111556511 A CN111556511 A CN 111556511A
Authority
CN
China
Prior art keywords
base station
content
user
state
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010236488.3A
Other languages
English (en)
Other versions
CN111556511B (zh
Inventor
郑杰
胡心悦
梁雨昕
张泽仑
高岭
王海
杨旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202010236488.3A priority Critical patent/CN111556511B/zh
Publication of CN111556511A publication Critical patent/CN111556511A/zh
Application granted granted Critical
Publication of CN111556511B publication Critical patent/CN111556511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • H04W28/0236Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于智能边缘缓存的部分机会性干扰对齐方法,在异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐方法,将时变信道建模为有限马尔可夫状态,将边缘缓存内容替换作为最大动态规划,然后,将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题,边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换,最后,实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性,结果表明,所提出的方法可以获得相当高的平均和速率和平均能量效率。

Description

一种基于智能边缘缓存的部分机会性干扰对齐方法
技术领域
本发明属于移动通信异构网络技术领域,涉及异构网络环境下考虑时变信道和时变需求的智能边缘缓存的下行链路部分机会干扰对齐方法,具体涉及一种基于智能边缘缓存的部分机会性干扰对齐方法。
背景技术
随着边缘计算在未来无线物联网网络的应用,边缘缓存被用来提高无线网络的频谱效率、下载时延和能量效率。主动将频繁请求的数据(例如,更新代码或流行内容)放置在边缘高速缓存中,将通过减少用于无线传输的重复内容来减轻回程链路的沉重负载。此外,在基站 (BS)和物联网设备上辅助缓存可以消除干扰,从而提高无线物联网网络的系统容量。有研究表明根据每个小区的自由度(DoF),具有基站 (BS)缓存的蜂窝网络中的下行链路传输来增加网络容量。
在蜂窝网络中,干扰对齐(IA)是利用基站之间的协作来进行预编码以减轻干扰,已经得到了广泛的研究。在物联网用户数量较多的情况下,采用干扰对齐的多用户复用技术(OIA)可以提高无线网络的传输速率。由于异构网络的宏基站和微基站之间的不同功率,应用部分干扰对齐可以改善异构网络的系统容量。
由于密集终端设备请求的具有较高的时变性,无线容量存在巨大的压力,无线缓存可以认为是解决这一问题的重要途径。对于物联网设备的时变请求,具有有限缓存大小的微基站需要频繁地更新其高速缓存。然而,传统传统缓存策较少考虑时变带来的复杂性。深度强化学习(DRL)被用来准确获得终端请求的动态特征。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,为复杂系统的感知决策问题提供了解决思路,直接从高维原始数据学习控制策略。而深度Q学习(DQN)是深度强化学习的其中一种算法,它要做的就是将卷积神经网络(CNN)和Q-Learning结合起来,实现从感知 (Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。
对联合缓存和干扰对齐进行研究,以获得基于干扰对齐的无线网络的容量。然而,这些工作都认为无线信道是慢衰落和不变的。在考虑时变信道的情况下,提出了使用深度强化学习的高速缓存启用的机会干扰对齐,干扰对齐网络中的基站可以通过边缘缓存来交换信道状态信息(CSI),以考虑受限的回程,但它没有考虑物联网设备的动态频繁请求或内容热度更新对无线容量的影响。在假设基站不知道内容流行度的情况下,采用深度强化学习算法动态更新基站的缓存,以适应时变的用户请求。最近关于基站中缓存上下文更新的工作只考虑了内容热度的动态特性,但没有考虑缓存辅助干扰对齐的时变信道。
将异构网络中干扰管理与边缘智能结合是一个值得深入探讨的问题,但面临两个方面关键挑战是:1)如何根据终端用户动态请求内容放置边缘缓存;2)同时利用边缘缓存对时变无线信道进行干扰管理。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于智能边缘缓存的部分机会性干扰对齐方法,在异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐方法,将时变信道建模为有限马尔可夫状态,将边缘缓存内容替换作为最大动态规划,然后,将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题,边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换,最后,实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性,结果表明,所提出的方法可以获得相当高的平均和速率和平均能量效率。
为了实现上述目的,本发明采用的技术方案是:
一种基于智能边缘缓存的部分机会性干扰对齐方法,该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤:
1)构建一个异构网络系统,该系统由宏基站、微基站以及用户组成,基站周期获得用户的内容动态请求和用户无线信道状态,以及基站下行传输中缓存内容的更新,其中基站的下行传输分为两个阶段:内容缓存放置阶段和内容的分发传输阶段;
2)宏基站和微基站收集用户请求内容信息和用户的信道状态信息;其中收集用户请求的内容用于进行基站内容缓存放置,信道的状态信息主要用于基于部分机会干扰对齐内容的分发传输;
3)基于深度强化学习技术进行系统状态的建模,系统的状态包含两个部分:信道的状态和基站内容缓存的状态;基于深度强化学习方法对用户动态的内容请求和时变的信道状态信息进行建模,其中时变的信道状态信息为马尔科夫链,用户动态的内容请求建模为马尔科夫决策;
基于深度强化学习对时变的信道状态和动态内容要求的执行步骤如下:
步骤一,将信道状态和基站内容请求命中的状态空间设置为: S(t)={s1,s2,...,sn},在时隙t,系统状态可以描述为S(t)={|hi,j(t)|2,ck(t)},系统状态分为两部分:|hi,j(t)|2表示部分机会干扰对齐信道状态, ck(t)∈{0,1}基站内容的缓存状态;
步骤二,将动作集合设置为D(t)={d1,d2,...,dm}, d(t)={d1(t),d2(t),...,dK(t)},dj(t)表示第j个用户的动作,dk(t)=0表示槽 t的f内容不能放置在j基站中,dk(t)=1表示它可以放置在j基站中;部分机会干扰对齐用户应满足条件
Figure BDA0002431163670000041
在当前状态s(t)∈S(t) 下,基站进行动作d(t)∈D(t),然后系统状态以转移概率Ps(t)s(t+1)(d)转换到新的s(t+1)∈S(t),其中如果执行动作π(x),则Ps(t)s(t+1)(π(x))表示从s(t) 到s(t+1)的转移概率;
步骤三,将瞬时奖励表示为r(x(t),d(t)),其平均奖励为R(x,π(x)),长期奖励时,系统行为应该同时考虑当前奖励和未来奖励,为实现长期累计奖励最大化,使用以下状态值函数获得S(t)的累计折扣奖励:
Figure BDA0002431163670000042
其中0<η<1是长期奖励的贴现率,强化学习的目标是在无限的T 时间上得到一个最优方案d*=π(x)∈S(t);
步骤四,每个状态的值由当前状态和下一状态两者确保,当前状态s(t)的值是通过预期先前状态V(s)的累积奖励来获得的:
Figure BDA0002431163670000051
其中E表示期望值;
步骤五,利用Bellman准则得到最优累积期望;
Figure BDA0002431163670000052
步骤六,如果不知道R和P,可以使用Q学习来获得最优策略π*, Q函数可以描述如下:
Figure BDA0002431163670000053
最大Q函数可以表示为:
Figure BDA0002431163670000054
Q函数可以更新为:
Figure BDA0002431163670000055
其中0<ρ<1表示学习速率,学习速率值越大,整个算法的收敛速度越快,反之亦然;
步骤七,通过最小化损失函数,训练深度Q函数得到目标值,损失函数L(θ)可以表示为
L(θ)=E[y-Q(s,d,θ)]2,其中y表示期望收到激励。
4)通过宏基站确定宏基站和微基站中内容放置状态,并且选择部分用户形成部分机会干扰对齐用户组,确定宏基站集中处理的系统动作d(t);
5)基于最小内容交付时延,确定联合传输速率最大和内容预先缓存的的系统奖励r(t),宏基站在状态s(t)执行动作d(t)获得r(t),r(t)表示宏基站所有状态累积奖励
Figure BDA0002431163670000061
基于最大的累积奖励
Figure BDA0002431163670000062
在宏基站深度Q网络得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法,其中μt表示终止操作的门限值,即当t非常大时,μt接近于零;
所述的联合传输速率最大和内容预先缓存的的系统奖励可以表示为:
Figure BDA0002431163670000063
其中,e(uf)(t)为用户u请求的内容f,该内容f由时隙t的基站收集新缓存的内容,如果用户请求的内容不在微基站缓存中,则微基站应将该内容请求发送给宏基站,即云平台。如果用户的请求在微基站的缓存内,则第k个候选可以获得最大传输速率,从而使部分机会干扰对齐用户能够达到。可以使用e+(uf)(t)来奖励微基站的高速缓存命中,并且e-(uf)(t)表示对具有高速缓存未命中的微基站的惩罚;
6)在部分机会干扰对齐用户组内,利用迭代干扰对齐得到预编码矩阵和译码矩阵,从而对用户所要求的信息进行分发。
本发明的有益效果是:
本发明利用深度强化学习技术,研究了异构网络环境下考虑时变信道和时变需求的智能边缘缓存下行链路部分机会干扰对齐。我们将时变信道建模为有限马尔可夫状态,将边缘缓存内容替换作为最大动态规划。然后,我们将异构网络中边缘缓存辅助的部分机会干扰对齐的优化问题转化为一个深度强化学习问题。边缘缓存可用于部机会干扰对齐中的动态上下文更新和信道状态信息的交换。最后,实验结果验证了深度强化学习在异构网络下行传输中智能优化边缓存辅助部分机会干扰对齐的可行性和优越性。结果表明,所提出的方法可以获得相当高的平均和速率和平均能量效率。
附图说明
图1为本发明带边缘缓存的异构网络模型;
图2为本发明异构网络中的部分机会性干扰对齐;
图3为本发明总和速率与信噪比的关系;
图4为本发明能量效率与信噪比的关系;
图5为本发明总速率与回程带宽的关系。
图6为本发明能量效率随回程容量的关系。
具体实施方式
以下结合附图对本发明进一步叙述,但本发明不局限于以下实施例。
在异构网络中,考虑了物联网用户的动态请求和无线变化和移动边缘计算的下行传输,如图1所示。异构网络包括M个天线的宏基站和N个天线的微基站,K个天线的物联网用户只接入一个基站(如宏基站或微基站)。
在每个传输离散时间t∈T,物联网用户i请求一个数字文件Fi,i∈|F|,对于一个大小的文件有W比特。我们假设基站接收物联网用户的请求是时变的。为了满足物联网用户时变的请求,基站需要用物联网请求替换其本地缓存。微基站能够存储ρ特个F比特,其中ρ∈[0,1]表示高速缓存大小的分数。利用ρ,可以知道相对于整个文件W,可以在微基站处存储多少内容。云平台具有全部F个文件, f∈F。宏基站和微基站可以分别通过具有固定容量
Figure BDA0002431163670000081
Figure BDA0002431163670000082
的回程与云平台连接。在本文中,我们假设宏基站配备了云平台,
Figure BDA0002431163670000083
因此,为了简单起见,我们用CB代替
Figure BDA0002431163670000084
由于微基站的功率比宏基站低得多,因此我们在异构网络中建立了部分连接的信道,如图2所示。通过忽略弱干扰,可以用部分连通机会干扰对齐(POIA)来考虑异构网络中基站的上下文分布。物联网用户只能与一个微基站或一个宏基站连接,但不能同时与两者连接。由于宏基站功率大,对与微基站相连的物联网用户造成了很强的干扰。此外,宏用户将来自微基站的干扰处理为强跨层干扰,将其建模为全连通。微基站(例如在智能家居中开发的小型基站)与其他微基站之间的相互干扰很弱。
我们用J1={0,1,...,J1}和J2={J1+1,...,J1+J2},J=J1+J2分别表示系统 1(例如上半部分)和系统2(下半部分)中的基站。第i个用户的自由度表示为di。为了简化表达式,物联网用户访问基站j,表示为i。因此,我们可以获得为用户i接收的信号
Figure BDA0002431163670000085
其中,Ui和Vi是物联网用户i的预编码矩阵,Hi,j表示基站j和用户i之间的信道状态,xi(t)表示基站发送的用户i数据向量。ni是具有零均值和方差δ2IN的加性高斯白噪声。
Figure BDA0002431163670000097
表示基站对于其服务的物联网用户i的发射功率。(1)的第一项是对物联网用户i的期望信号,(1)的第二项是用户i接收的干扰信号。然后,物联网用户i可以用矩阵
Figure BDA0002431163670000091
解码其期望信号,即,
Figure BDA0002431163670000092
要在异构网络中实施部分机会干扰对齐,应满足以下条件:
Figure BDA0002431163670000093
Figure BDA0002431163670000094
Figure BDA0002431163670000095
Figure BDA0002431163670000096
第(3)项表示可以在系统1中缩小的子空间内对齐来自其他发射机对物联网用户的干扰,第(4)项保证可以将来自系统2中物联网用户的其他发射机的干扰对齐到与宏基站相连的干扰子空间,第(5)项保证系统2的物联网用户可以消除宏基站造成的干扰。当Vi,Ui满足公式(3)-(5)时,可以自动建立(6)。
物联网用户在无线信道上的内容分发可以分为两个阶段:替换阶段和传递阶段。
1)替换阶段:我们不需要考虑宏基站,因为宏基站可以访问F文件的所有数据库。在微基站中的内容被现有的高速缓存、物联网用户的请求和部分机会干扰对齐替换。每个文件Fi以未编码的方式完全存储在每个小单元。
2)传递阶段:可以在每个传输间隔t中应用宏基站和微基站的回程和边缘部分机会干扰对齐传输方案,以满足用户的请求Fi(t)和当前信道条件h(t)。
优化问题建模:
使用深度强化学习方法建立了一种智能化的移动边缘计算,用于边缘内容缓存和部分机会干扰对齐。智能边缘缓存辅助部分机会干扰对齐过程可以分为三个主要部分。
1)请求内容和信道状态收集:微基站和宏基站收集用户与基站之间的物联网用户请求内容和信道状态,用于边缘内容缓存和局部机会干扰对齐,包括存储空间、无线信道状态和用户请求;
2)边缘端基于部分机会干扰对齐的动态内容更新:联合利用获得的物联网用户请求内容和信道状态数据,对靠近用户的数据进行内容放置,进而给出部分机会干扰对齐决策;
3)使用部分机会干扰对齐进行请求内容交付:移动边缘计算系统基于部分机会干扰对齐处理物联网用户的请求。深度强化学习方法解决了基于部分机会干扰对齐的内容更新和基于部分机会干扰对齐的请求内容传递问题。
深度强化学习模型:
强化学习通常可以用马尔可夫决策过程(MDP)来求解。我们将状态空间设置为S(t)={s1,s2,...,sn},将操作集设置为D(t)={d1,d2,...,dm}。在当前状态s(t)∈S(t)下,基站进行动作d(t)∈D(t),然后系统状态以转移概率Ps(t)s(t+1)(d)转换到新的s(t+1)∈S(t),其中如果执行动作π(x),则 Ps(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率。
我们将直接奖励表示为r(x(t),d(t)),其平均值描述为R(x,π(x))。通常考虑的是长期奖励,因此系统行为应该同时考虑当前奖励和未来奖励。为实现长期累计奖励最大化,使用以下状态值函数获得S(t)的累计折扣奖励:
Figure BDA0002431163670000111
其中0<ηt<1是长期奖励的贴现率。强化学习智能体的目标是在无限的T时间上得到一个最优方案d*=π(x)∈S(t)。
Q-学习通过动态规划Bellman方程来解决这一问题,这是Q-学习的主要优点。每个状态的值由当前状态和下一状态两者确保。当前状态s(t)的值是通过预期先前状态V(s)的累积奖励来获得的:
Figure BDA0002431163670000112
其中E表示期望值。利用Bellman准则得到最优累积期望
Figure BDA0002431163670000113
如果我们不知道R和P,可以使用Q学习来获得最优策略π*。Q 函数可以描述如下:
Figure BDA0002431163670000114
最大Q函数可以表示为:
Figure BDA0002431163670000121
Q函数可以更新为:
Figure BDA0002431163670000122
其中0<ρ<1表示学习速率。学习速率值越大,整个算法的收敛速度越快,反之亦然。由于神经网络存在一定的不稳定性。我们用深度神经网络进行深度Q学习来计算Q函数,这已经被证明是更有优势的。通过最小化损失函数,训练深度Q函数得到目标值。损失函数L(θ) 可以表示为L(θ)=E[y-Q(s,d,θ)2];
其中y表示期望收到激励。
采用深度强化学习的边缘缓存:
无线内容高速缓存和分发技术是一种很有前途的技术,其中流行的内容被高速缓存在靠近用户服务器的服务器中。因此,用户可以很容易地从基站获得相同的内容,而不需要从云服务器或其他基站重复传输,从而极大地减少了回程和无线链路的繁重负载。
因此,我们研究了边缘基站缓存内容的场景。内容热度遵循用户内容请求的概率分布。内容热度是用户在异构网络中的兴趣程度。我们用未知分布对他的内容受欢迎程度进行建模。假设内容流行度是时变的,并且所有内容具有相同的大小。对于每个用户的请求,基站中的深度强化学习可以决定是否缓存这些文件。如果文件需要缓存,基站决定哪些本地内容将被更新,哪些内容将被放弃。缓存更新问题可以建模为微基站中的马尔科夫决策过程(MDP),并且可以通过使用深度强化学习来解决。
基于深度强化学习的部分机会性干扰对齐:
对于具有用户调度的部分机会干扰对齐网络,将用户的信号与干扰加噪声比(SINR)建模为马尔可夫随机变量是不合适的。根据接收的信号与干扰加噪声比和信道状态的关系,我们可以将信道状态|hi,j|2表示为马尔可夫随机变量。因此,|hi,j(t)|2可以在没有其分布的情况下建模。我们把|hi,j|2量子化成L个能级。每个级别对应于马尔可夫信道的一个状态。系统状态由下一子节详细讨论的信道状态信息(CSI)组成。在无线网络中,每个周期都有T个时间间隔。我们将t∈{0,1,2,...,T-1}表示为时隙,信道状态随时隙t的变化而变化。
假设干扰对齐对小于用户请求数。另外,信噪比影响部分机会干扰对齐的性能,利用加入干扰对齐网络的优势,用户具有更好的信道状态。因此,对每个插槽都执行一个操作,该操作由用户决定要使用当前信道状态信息构建机会干扰对齐的用户组。
首先,宏基站可以收集它的用户请求、信道状态和宏的高速缓存状态,并且微基站收集它的用户请求、信道状态和微基站的高速缓存状态,并将这些信息发送给宏基站。然后宏基站将收集的信息组装成系统状态。其次,宏基站将系统状态转发到深度Q网络,然后深度Q 网络在每个当前时隙执行最优动作argmaxQ(s,d),并发回动作信息。利用该动作信息,宏基站向微基站发送信息,然后宏基站通知微微用户是否激活,并将预编码矢量分派给每个激活的微基站。当执行动作时,系统状态可以改变新状态。通过奖励函数,我们可以获得当前系统状态的动作奖励。
为了通过深度强化学习得到最优解,我们需要确保系统状态、奖励函数和系统动作,这将在下一小节讨论。
边缘缓存和机会干扰对齐解决方案:
1)系统状态:使用信道状态信息和边缘缓存共同确定槽t的系统状态S(t)。在时隙t,系统状态可以描述为,
S(t)={|hi,j(t)|2,ck(t)}
系统状态分为两部分:部分机会干扰对齐|hi,j(t)|2的信道状态,其中
Figure BDA0002431163670000142
作为马尔可夫随机变量,以及基站 ck(t)∈{0,1}的缓存状态。可能的系统状态数量巨大。本文很难用传统的方法来解决这个问题。因此,深度Q网络能够在高维输入的基础上进行学习,因此适合此系统。
2)系统操作:我们使用宏基站的中央处理。宏基站决定将哪些内容放置到宏基站和微基站中,并且利用部分机会干扰对齐选择活动用户。当前系统动作d(t)可以由下式给出
d(t)={d1(t),d2(t),...,dK(t)},
其中dj(t)表示第j个用户的动作。例如,dk(t)=0表示槽t的f 内容不能放置在j基站中,dk(t)=1表示它可以放置在j基站中。在干扰对齐的约束下,部分机会干扰对齐应满足条件
Figure BDA0002431163670000141
3)奖励函数:为了最小化交付延迟(即最大化总和速率),第l个候选者的系统奖励数,即优化目标可以表示为
Figure BDA0002431163670000151
其中,e(uf)(t)为用户u请求的内容f,该内容f由时隙t的基站收集新缓存的内容,如果用户请求的内容不在微基站缓存中,则微基站应将该内容请求发送给宏基站,即云平台。如果用户的请求在微基站的缓存内,则第k个候选可以获得最大传输速率,从而使部分机会干扰对齐用户能够达到。可以使用e+(uf)(t)来奖励微基站的高速缓存命中,并且e-(uf)(t)表示对具有高速缓存未命中的微基站的惩罚。
我们不关心每个时隙t的奖励,我们关注的是所有候选人的即时累积奖励,即
Figure BDA0002431163670000152
当系统动作d(t)在时隙t中执行时,宏基站在状态s(t)中获得r(t),使用深度Q网络的目的是获得最大化内容下载时间T的累积奖励的内容放置和机会干扰对齐,并且累积奖励用下式描述
Figure BDA0002431163670000153
其中,当t非常大时,μt接近于零。换言之,在实践中,μt被视为终止程序操作的阈值。
利用迭代干扰对齐得到预编码矩阵和译码矩阵,同时利用无线信道的互易性来减小接收端的总干扰。
性能评估:
在此仿真中,我们通过使用TensorFlow执行深度强化学习对所提出的智能边缘缓存的部分机会干扰对齐进行了性能评估。使用开源的TensorFlow,我们可以为深度Q网络考虑一个普通的Q网络。我们选择ADAM优化器对损失函数进行优化。在计算机配置7-6500UCPU、 8GBRAM、Python2.7和Tensorflow 1.11.0环境下进行了仿真。
对于模拟场景,在异构网络中考虑多用户内容下载和边缘缓存。我们认为城市密集地区的用户密度为250人/km2。用户遵循异构网络覆盖区域均匀分布,宏基站密度为3蜂窝/km2,密集微基站密度为 100微微蜂窝/km2。宏基站和微基站也遵循均匀分布。仿真参数设置在表I中,我们通过平均100个独立实验得到了仿真结果。
表1
Figure BDA0002431163670000161
Figure BDA0002431163670000171
将提出的算法与下面三种方法进行比较:
1)所提出的方案未考虑边缘缓存(POIA without edge caching)。在没有动态更新高速缓存的情况下执行与深度强化学习的部分机会性干扰对准。
2)未考虑边缘缓存的机会干扰对齐方案(OIA scheme without edge caching),其中缓存使用受限的回程容量在异构网络中用信道状态信息交换部分机会干扰对齐。但是它没有考虑时变的请求,并且动态地更新宏基站和微基站高速缓存。
3)基于深度强化学习的动态边缘缓存(Edge caching via DRL),在假设信道不变的情况下,该方案根据时变的内容请求和基站缓存动态地将内容替换到基站缓存中,但没有考虑机会干扰对齐。
图3显示了当信噪比用10log 10(Pk2)dB表示时,网络的平均和速率随不同的平均信噪比而变化。从图3中可以观察到,随着平均信噪比值的增加,所提出的智能边缘缓存的部分机会干扰对齐方案的平均和速率总是大于其他三个方案。这是因为所提出的方案同时考虑了异构网络和时变请求的时不变信道,而对于其他三种方案只考虑了一个方面。无边缘缓存的方案没有利用对宏基站或微基站进行动态内容缓存的优势,降低了回程容量负载,且性能较低。请注意,没有智能边缘缓存的启用缓存的机会干扰对齐方案考虑了机会干扰对齐和缓存,用于针对干扰对齐的信道状态信息交换,并且不利用异构网络的异构性和部分连接性。基于深度强化学习的动态边缘缓存以时变的请求更新热门内容,但是假设信道不变,机会干扰对齐和部分机会干扰对齐方法在无线接入时获得了比其他方法更高的平均和速率。
图4给出了与其他方法相比拟议方案的能量效率。除了通过深度强化学习进行动态边缘缓存以利用相等的功率分配外,其他三种方案都是功率分配。从这个图,我们可以观察到具有功率分配的机会干扰对齐比通过深度强化学习进行动态边缘缓存更好。然而,由于异构网络的完全连通性,支持缓存的机会干扰对齐方案在没有智能边缘缓存的情况下仍然比所提出的方法执行更低的求和率。
图5显示了平均和速率和平均能量系数随回程容量的不同而不同,平均信噪比设置为20dB。从图5可以得到,对比的四种方法网络的平均和速率都随着回程容量的增加而增加。这是因为回程能力对上下文请求有更多的边缘缓存能力,并为干扰对齐提供信道状态信息交换。随着回程容量的增加,基于深度强化学习的动态边缘缓存与启用缓存的机会干扰对齐方案和不含边缘缓存的机会干扰对齐方案相比,具有更好的性能。原因是回程容量对于边缘缓存非常重要。基于深度强化学习的动态边缘缓存只充分利用了缓存。使用的回程容量越大,流行的上下文边缘缓存可以获得更多收益。然后,将平均信噪比设置为10dB,网络的能量效率随回程容量的不同而变化,如图6所示。此外,可以观察到图5和图6的变化趋势相同。

Claims (1)

1.一种基于智能边缘缓存的部分机会性干扰对齐方法,其特征在于,该基于智能边缘缓存的部分机会性干扰对齐方法包括以下步骤:
1)构建一个异构网络系统,该系统由宏基站、微基站以及用户组成,基站周期获得用户的内容动态请求和用户无线信道状态,以及基站下行传输中缓存内容的更新,其中基站的下行传输分为两个阶段:内容缓存放置阶段和内容的分发传输阶段;
2)宏基站和微基站收集用户请求内容信息和用户的信道状态信息;其中收集用户请求的内容用于进行基站内容缓存放置,信道的状态信息主要用于基于部分机会干扰对齐内容的分发传输;
3)基于深度强化学习技术进行系统状态的建模,系统的状态包含两个部分:信道的状态和基站内容缓存的状态;基于深度强化学习方法对用户动态的内容请求和时变的信道状态信息进行建模,其中时变的信道状态信息为马尔科夫链,用户动态的内容请求建模为马尔科夫决策;
基于深度强化学习对时变的信道状态和动态内容要求的执行步骤如下:
步骤一,将信道状态和基站内容请求命中的状态空间设置为:S(t)={s1,s2,...,sn},在时隙t,系统状态可以描述为S(t)={|hi,j(t)|2,ck(t)},系统状态分为两部分:|hi,j(t)|2表示部分机会干扰对齐信道状态,ck(t)∈{0,1}基站内容的缓存状态;
步骤二,将动作集合设置为D(t)={d1,d2,...,dm},d(t)={d1(t),d2(t),...,dK(t)},dj(t)表示第j个用户的动作,dk(t)=0表示槽t的f内容不能放置在j基站中,dk(t)=1表示它可以放置在j基站中;部分机会干扰对齐用户应满足条件
Figure FDA0002431163660000021
在当前状态s(t)∈S(t)下,基站进行动作d(t)∈D(t),然后系统状态以转移概率Ps(t)s(t+1)(d)转换到新的s(t+1)∈S(t),其中如果执行动作π(x),则Ps(t)s(t+1)(π(x))表示从s(t)到s(t+1)的转移概率;
步骤三,将瞬时奖励表示为r(x(t),d(t)),其平均奖励为R(x,π(x)),长期奖励时,系统行为应该同时考虑当前奖励和未来奖励,为实现长期累计奖励最大化,使用以下状态值函数获得S(t)的累计折扣奖励:
Figure FDA0002431163660000022
其中0<η<1是长期奖励的贴现率,强化学习的目标是在无限的T时间上得到一个最优方案d*=π(x)∈S(t);
步骤四,每个状态的值由当前状态和下一状态两者确保,当前状态s(t)的值是通过预期先前状态V(s)的累积奖励来获得的:
Figure FDA0002431163660000023
其中E表示期望值;
步骤五,利用Bellman准则得到最优累积期望;
Figure FDA0002431163660000024
步骤六,如果不知道R和P,可以使用Q学习来获得最优策略π*,Q函数可以描述如下:
Figure FDA0002431163660000031
最大Q函数可以表示为:
Figure FDA0002431163660000032
Q函数可以更新为:
Figure FDA0002431163660000033
其中0<ρ<1表示学习速率,学习速率值越大,整个算法的收敛速度越快,反之亦然;
步骤七,通过最小化损失函数,训练深度Q函数得到目标值,损失函数L(θ)可以表示为
L(θ)=E[y-Q(s,d,θ)]2,其中y表示期望收到激励。
4)通过宏基站确定宏基站和微基站中内容放置状态,并且选择部分用户形成部分机会干扰对齐用户组,确定宏基站集中处理的系统动作d(t);
5)基于最小内容交付时延,确定联合传输速率最大和内容预先缓存的的系统奖励r(t),宏基站在状态s(t)执行动作d(t)获得r(t),r(t)表示宏基站所有状态累积奖励
Figure FDA0002431163660000034
基于最大的累积奖励
Figure FDA0002431163660000035
在宏基站深度Q网络得到在内容下载时间T内的内容缓存放置策略和部分机会干扰对齐用户分组方法,其中μt表示终止操作的门限值,即当t非常大时,μt接近于零;
所述的联合传输速率最大和内容预先缓存的的系统奖励可以表示为:
Figure FDA0002431163660000041
其中,e(uf)(t)为用户u请求的内容f,该内容f由时隙t的基站收集新缓存的内容,如果用户请求的内容不在微基站缓存中,则微基站应将该内容请求发送给宏基站,即云平台。如果用户的请求在微基站的缓存内,则第k个候选可以获得最大传输速率,从而使部分机会干扰对齐用户能够达到。可以使用e+(uf)(t)来奖励微基站的高速缓存命中,并且e-(uf)(t)表示对具有高速缓存未命中的微基站的惩罚;
6)在部分机会干扰对齐用户组内,利用迭代干扰对齐得到预编码矩阵和译码矩阵,从而对用户所要求的信息进行分发。
CN202010236488.3A 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法 Active CN111556511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236488.3A CN111556511B (zh) 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236488.3A CN111556511B (zh) 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法

Publications (2)

Publication Number Publication Date
CN111556511A true CN111556511A (zh) 2020-08-18
CN111556511B CN111556511B (zh) 2022-05-17

Family

ID=72003787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236488.3A Active CN111556511B (zh) 2020-03-30 2020-03-30 一种基于智能边缘缓存的部分机会性干扰对齐方法

Country Status (1)

Country Link
CN (1) CN111556511B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929900A (zh) * 2021-01-21 2021-06-08 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130336233A1 (en) * 2011-09-09 2013-12-19 Perdue Research Foundation Method and apparatus for opportunistic user scheduling of two-cell multiple user mimo
US20140294110A1 (en) * 2013-04-01 2014-10-02 Electronics And Telecommunications Research Institute Method and apparatus for opportunistic interference alignment (oia) in multi-user multiple-input multiple-output (mu-mimo) transmission
US20150373727A1 (en) * 2014-06-24 2015-12-24 Electronics And Telecommunications Research Institute Method and apparatus for performing wireless communication based on heterogeneous interference alignment (ia) scheme in wireless local area network (wlan)
US20160309456A1 (en) * 2015-04-20 2016-10-20 Electronics And Telecommunications Research Institute Inference alignment (ia) method for downlink in wireless local area network (wlan) system, access point (ap) and user terminal for performing the same
CN106060950A (zh) * 2016-05-25 2016-10-26 重庆邮电大学 一种基于机会干扰对齐的蜂窝下行信道中数据传输方法
CN107241799A (zh) * 2016-03-28 2017-10-10 上海交通大学 异构网络中能量有效的资源分配和干扰对齐联合方法
CN109004963A (zh) * 2018-08-06 2018-12-14 安庆师范大学 基于机会干扰对齐的无线通信用户优化调度方法
CN109743092A (zh) * 2018-12-21 2019-05-10 北京邮电大学 一种基于极化-空域信息协同处理的认知异构蜂窝网络干扰对齐方法
CN110225524A (zh) * 2019-05-29 2019-09-10 暨南大学 一种基于5g下行链路数据传输的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130336233A1 (en) * 2011-09-09 2013-12-19 Perdue Research Foundation Method and apparatus for opportunistic user scheduling of two-cell multiple user mimo
US20140294110A1 (en) * 2013-04-01 2014-10-02 Electronics And Telecommunications Research Institute Method and apparatus for opportunistic interference alignment (oia) in multi-user multiple-input multiple-output (mu-mimo) transmission
US20150373727A1 (en) * 2014-06-24 2015-12-24 Electronics And Telecommunications Research Institute Method and apparatus for performing wireless communication based on heterogeneous interference alignment (ia) scheme in wireless local area network (wlan)
US20160309456A1 (en) * 2015-04-20 2016-10-20 Electronics And Telecommunications Research Institute Inference alignment (ia) method for downlink in wireless local area network (wlan) system, access point (ap) and user terminal for performing the same
CN107241799A (zh) * 2016-03-28 2017-10-10 上海交通大学 异构网络中能量有效的资源分配和干扰对齐联合方法
CN106060950A (zh) * 2016-05-25 2016-10-26 重庆邮电大学 一种基于机会干扰对齐的蜂窝下行信道中数据传输方法
CN109004963A (zh) * 2018-08-06 2018-12-14 安庆师范大学 基于机会干扰对齐的无线通信用户优化调度方法
CN109743092A (zh) * 2018-12-21 2019-05-10 北京邮电大学 一种基于极化-空域信息协同处理的认知异构蜂窝网络干扰对齐方法
CN110225524A (zh) * 2019-05-29 2019-09-10 暨南大学 一种基于5g下行链路数据传输的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LONGWEI WANG: ""Partial Interference Alignment for Heterogeneous Cellular Networks"", 《IEEE ACCESS》 *
YING HE: ""Deep-Reinforcement-Learning-Based Optimization for Cache-Enabled Opportunistic Interference Alignment Wireless Networks"", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
贺颖: ""基于深度强化学习的无线网络多维资源分配技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929900A (zh) * 2021-01-21 2021-06-08 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议

Also Published As

Publication number Publication date
CN111556511B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109639760B (zh) 一种基于深度强化学习的d2d网络中的缓存策略方法
He et al. Optimization of cache-enabled opportunistic interference alignment wireless networks: A big data deep reinforcement learning approach
CN111565419B (zh) 一种超密集网络中面向延迟优化的协作式边缘缓存方法
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
CN113115368B (zh) 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN108093435B (zh) 基于缓存流行内容的蜂窝下行链路网络能效优化系统及方法
CN111556572A (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN115278708B (zh) 一种面向联邦学习的移动边缘计算资源管理方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN110312277A (zh) 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
Bi et al. Deep reinforcement learning based power allocation for D2D network
CN106358300A (zh) 一种微蜂窝网络中的分布式资源分配方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN111556511B (zh) 一种基于智能边缘缓存的部分机会性干扰对齐方法
Shang et al. Computation offloading and resource allocation in NOMA-MEC: A deep reinforcement learning approach
CN114615730A (zh) 回程受限密集无线网络面向内容覆盖的功率分配方法
CN112689296B (zh) 一种异构IoT网络中的边缘计算与缓存方法及系统
CN108601083B (zh) D2d通信中基于非合作博弈的资源管理方法
CN114189877B (zh) 一种面向5g基站的复合式能耗优化控制方法
CN113301576B (zh) 一种基于改进遗传算法的蜂窝网络资源分配方法
CN115633402A (zh) 一种面向混合业务吞吐量优化的资源调度方法
Zheng et al. Smart edge caching-aided partial opportunistic interference alignment in HetNets
CN115412936A (zh) 一种基于多智能体dqn的irs辅助d2d系统资源分配方法
CN113595609A (zh) 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant