CN114389784B - 基于迁移学习的下行miso-ofdma协作传输方法 - Google Patents

基于迁移学习的下行miso-ofdma协作传输方法 Download PDF

Info

Publication number
CN114389784B
CN114389784B CN202210072264.2A CN202210072264A CN114389784B CN 114389784 B CN114389784 B CN 114389784B CN 202210072264 A CN202210072264 A CN 202210072264A CN 114389784 B CN114389784 B CN 114389784B
Authority
CN
China
Prior art keywords
agent
subcarrier
power
allocation module
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210072264.2A
Other languages
English (en)
Other versions
CN114389784A (zh
Inventor
徐友云
孙高翔
王小明
蒋锐
李大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210072264.2A priority Critical patent/CN114389784B/zh
Publication of CN114389784A publication Critical patent/CN114389784A/zh
Application granted granted Critical
Publication of CN114389784B publication Critical patent/CN114389784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0001Arrangements for dividing the transmission path
    • H04L5/0003Two-dimensional division
    • H04L5/0005Time-frequency
    • H04L5/0007Time-frequency the frequencies being orthogonal, e.g. OFDM(A), DMT
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0058Allocation criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明是一种基于迁移学习的下行MISO‑OFDMA协作传输方法,包括步骤1:定义下行MISO‑OFDMA系统的关键参数;步骤2:利用深度Q网络在当前环境下训练当前智能体,为每个智能体构建一个深度Q网络即为多智能体深度Q网络,解决波束协作和资源分配问题;步骤3:以不同方案改变当前环境并提出一种迁移学习框架,所述迁移学习框架在新环境下通过步骤2中训练好的智能体的知识和新智能体的经验来训练新智能体;步骤4:动态调整波束成形协作和资源分配策略,以最大化所有用户的和速率。本发明可以有效地提升系统性能,加快神经网络的收敛速度,使新智能体更快更有效地适应新的网络环境。

Description

基于迁移学习的下行MISO-OFDMA协作传输方法
技术领域
本发明属于无线通信领域,具体的说是涉及一种基于迁移强化学习的下行MISO-OFDMA系统协作传输方法。
背景技术
近年来,由于海量接入和低时延通信需求的不断增长,第五代(5G)技术中的资源分配问题引起了广泛关注。作为无线通信系统的主要接入方式,正交频分多址(OFDMA)将传输带宽划分为一系列正交的、互不重叠的子载波集,在同一时隙内将不同的子载波集分配给不同的用户,实现多址接入。OFDMA技术根据信道增益自适应地分配资源,极大地提高了系统性能。此外,波束成形技术近年来也受到高度重视,因为波束成形技术可以提高下行传输中多天线的性能。波束成形协作可以减轻蜂窝网络下行链路中的同信道干扰,从而有利于通信资源的分配。
目前,已经有大量的工作研究OFDMA系统下的波束协作和资源分配问题。然而,这些工作采用的模型驱动的方法需要准确的信道状态信息(CSI),因此难以建立数学模型。作为一种无模型的方法,深度Q网络(DQN)大大降低了数学建模的难度。它引入了一种试错机制,通过与环境交互来优化输出策略。已经有一些工作利用DQN方法解决了OFDMA系统中的资源分配问题。然而,据我们所知,在现有的文献中还没有对OFDMA系统中基于DQN的波束协作进行研究;另一方面,在无线通信系统中,网络配置可能一直在变化。因此,当网络配置发生变化时,如何在新的网络环境下快速有效地训练新的网络是一个具有挑战性的问题。
近年来,迁移学习作为一种新的学习框架应运而生。迁移学习是指一种学习对另一种学习的影响,或习得的经验对完成其他活动的影响。迁移学习将一个领域(即源域)的知识迁移到另外一个领域(即目标域),使得目标域能够取得更好的学习效果。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。此外,迁移学习被认为是解决经验驱动的网络环境下的重构问题的一种很有前途的技术。具体来说就是,当网络环境发生变化时,迁移学习可以有效地帮助新的智能体在新的网络环境下进行训练。
经对现有技术的文献检索发现,A.R.Utami等人在《2018InternationalSymposium on Electronics and Smart Devices,2018,pp.1-4.(2018年电子与智能设备国际研讨会,2018年,第1-4页)》上发表了题为“Optimization Subcarrier Allocationand Genetic Algorithm for Resource Allocation in MIMO-OFDMA(MIMO-OFDMA中资源分配的优化子载波分配和遗传算法)”一文,该文提出了一种遗传算法来解决MIMO-OFDMA系统中的自适应子载波分配问题。该算法利用奇异值分解(SVD)将MIMO衰落信道变换为等效单输入单输出(SISO)子信道组,确定每个用户的子载波数,然后将子载波分配给每个用户。遗憾的是,该文提出的算法需要准确的信道状态信息(CSI),因此难以建立数学模型;另检索发现,Z.Zhang等人在《IEEE Transactions on Green Communications andNetworking,vol.5,no.4,pp.1892-1905,Dec.2021.(IEEE绿色通信与网络会刊,2021年12月,第5卷,第4期,第1982-1905页)》上发表了题为“Energy-Efficient Secure VideoStreaming in UAV-Enabled Wireless Networks:A Safe-DQN Approach(支持无人机的无线网络中的节能安全视频流:一种安全DQN方法)”一文,该文结合可伸缩视频编码(SVC)的最新发展,研究了旋翼无人机无线网络中高能效的节能安全视频流。该文使用安全深度Q网络(SAFE-DQN),通过联合优化视频级别选择、功率分配和无人机的运行轨迹,最大限度地提高长期能效,即视频质量与功耗的比率。但是,该文没有考虑无线网络环境变化的情况。
发明内容
为了解决上述问题,本发明提供一种迁移学习的下行MISO-OFDMA系统协作传输方法,该方法通过多智能体DQN(MADQN)来解决波束成形协作和资源分配问题,并提出了一种基于MADQN的迁移学习框架,在新环境下通过利用当前环境下训练好的智能体的知识和新智能体的经验来训练新智能体,从而动态调整波束成形协作和资源分配策略,使所有用户的和速率最大化。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于迁移强化学习的下行MISO-OFDMA系统协作传输方法,包括以下步骤:步骤一,定义下行MISO-OFDMA系统的关键参数;步骤二,利用深度Q网络在当前环境下训练当前智能体,为每个智能体构建一个深度Q网络即为多智能体深度Q网络,解决波束协作和资源分配问题,资源分配包括包含功率分配和子载波分配,波束协作和资源分配框架分成波束协作与功率分配模块和子载波分配模块,针对波束协作与功率分配模块,将第n个小区中的基站与分配到子载波k上的用户m之间的链路视为一个智能体,针对子载波分配模块,将每个基站视为一个智能体,将OFDMA系统视为环境,为每个智能体构建的深度Q网络由训练Q网络和目标Q网络组成。步骤三,以不同的方案改变当前环境,并提出了一种基于MADQN的迁移学习框架,该框架在新环境下通过利用步骤二中训练好的智能体的知识和新智能体的经验来训练新智能体,从而动态调整波束成形协作和资源分配策略,以最大化所有用户的和速率。
本发明的进一步改进在于:利用多智能体深度Q网络在当前OFDMA系统下训练当前每个智能体的具体方法如下:
步骤2-1:在时隙t中,OFDMA系统将其状态反馈给每个智能体;
步骤2-2:在所述波束协作与功率分配模块和子载波分配模块中的每个训练Q网络以概率ε分别从每个模块的动作空间中随机选择动作或者以概率1-ε分别由下式(1)和下式(2)选择使训练Q网络的Q函数值最大的动作:
其中,和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体产生的动作,/>和/>分别为环境反馈给波束协作与功率分配模块和子载波分配模块中每个智能体的状态,/>和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体的训练Q网络参数,/>和/>分别为波束协作与功率分配模块和子载波分配模块的动作空间;
步骤2-3:对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围进行设置并根据上述设置将定义为由波束形成器和功率组成的二维坐标:
其中,表示第n个小区中的基站与分配到子载波k上的用户m之间的归一化波束形成器的索引值;
步骤2-4:对子载波分配模块所优化的子载波分配,设置子载波分配矩阵为L=[L1,L2,...,LN],其中基于上述设置,将/>定义为/>
步骤2-5:波束协作与功率分配模块和子载波分配模块中的每个智能体执行选择的动作后,从OFDMA系统中获取返回的实时奖励;
步骤2-6:OFDMA系统相应的在下一个时隙t+1切换到新的状态:波束协作与功率分配模块和子载波分配模块中的智能体通过不断与OFDMA系统交互,从而持续获得实时样本和/>并将实时样本相应地存储在每个模块的经验池中。
本发明的进一步改进在于:步骤3中在新环境下通过迁移学习框架对新智能体训练具体方法为:在训练过程中,当计算波束协作与功率分配模块和子载波分配模块中每个新DQN单元的目标Q值时,同时考虑了从旧智能体中提取的知识和从新智能体中收集的经验,因此,波束协作与功率分配模块和子载波分配模块中的每个新DQN单元的损失函数分别表示为
其中
其中,和Q(·)分别表示旧智能体和新智能体,ψ表示在(0,1]范围内取值并在每个时隙t按照ψ←ψ/(1+Θ)的规律逐渐减小的比例因子,其中Θ是衰减因子。这表明随着时间的推移,波束协作与功率分配模块和子载波分配模块中的每个新智能体将越来越多地利用自己的经验进行训练。
本发明的有益效果是:本发明适用于OFDMA系统,通过使用基于MADQN的迁移学习框架,完成波束成形协作和资源分配,以最大化所有用户的和速率为目标,可以有效地提升系统性能,加快神经网络的收敛速度,使新智能体更快更有效地适应新的网络环境。
附图说明
图1是本发明实施例中的下行MISO-OFDMA系统的示意图。
图2是本发明实施例中的一种基于迁移强化学习的下行MISO-OFDMA系统协作传输方法的流程图。
图3是本发明实施例中的基于MADQN的迁移学习框架的流程图。
图4是本发明实施例中,当降低基站的最大发射功率时,不同算法下所有用户的和速率随训练步数对比示意图。
图5是本发明实施例中,当增大小区半径时,不同算法下所有用户的和速率随训练步数对比示意图。
图6是本发明实施例中,当减小信道相关系数时,不同算法下所有用户的和速率随训练步数对比示意图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。
本发明是一种基于迁移学习的下行MISO-OFDMA协作传输方法,该传输方法包括如下步骤:
步骤一:定义下行MISO-OFDMA系统的关键参数;
在本实施例中,所述下行MISO-OFDMA系统包含N个小区,每个小区中有一个多天线基站和M个单天线用户,分别定义小区集合与第n个小区中的用户集合为α={1,2,...,N}和β={1,2,...,M}(n∈α)。每个小区中有K个子载波,子载波集合定义为γ={1,2,...,K}。定义子载波分配参数为其中/>表明第n个小区中的用户m在时隙t被分配给子载波k。用/>表示第n个小区中的基站与分配到子载波k上的用户m之间的波束形成器。此外,将/>分解为/>其中/>表示第n个小区中的基站传输给分配到子载波k上的用户m的功率,/>表示归一化的波束形成器,其作用为指示发射波束的方向。最后,定义第n个小区中的基站的发射功率其中Pmax为每个基站的最大发射功率。
步骤二:利用多智能体深度Q网络(MADQN)在当前环境下训练当前智能体,解决波束协作和资源分配问题。
将波束协作和资源分配框架分成波束协作与功率分配模块和子载波分配模块。
对于波束协作与功率分配模块,将第n个小区中的基站与分配到子载波k上的用户m之间的链路视为一个智能体。
针对子载波分配模块,将每个基站视为一个智能体。
此外,本发明将OFDMA系统视为环境。
对于波束协作与功率分配模块和子载波分配模块,本发明为每个智能体配备一个由训练Q网络和目标Q网络组成的DQN单元。
在两个模块中,每个智能体的训练过程如下:
步骤2-1:在时隙t中,OFDMA系统将其状态反馈给每个智能体;
步骤2-2:在所述波束协作与功率分配模块和子载波分配模块中的每个训练Q网络以概率ε分别从每个模块的动作空间中随机选择动作或者以概率1-ε分别由下式(1)和下式(2)选择使训练Q网络的Q函数值最大的动作:
其中,和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体产生的动作,/>和/>分别为环境反馈给波束协作与功率分配模块和子载波分配模块中每个智能体的状态,/>和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体的训练Q网络参数,/>和/>分别为波束协作与功率分配模块和子载波分配模块的动作空间。
步骤2-3:对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围设置如下:首先设置一个码本F,该码本由F个L维列向量fc(c∈{0,1,...,F-1})组成,L是每个基站的天线数。在每个时隙,从F个列向量中选取一个列向量作为归一化波束形成器对于第n个小区中的基站传输给分配到子载波k上的用户m的功率/>在0到Pmax之间均匀地设置V个取值。步骤2-3-4:在每个时隙,从V个取值中选取一个作为功率值。基于上述设置,将/>定义为由波束形成器和功率组成的二维坐标:
其中,表示第n个小区中的基站与分配到子载波k上的用户m之间的归一化波束形成器的索引值。
步骤2-4:对子载波分配模块所优化的子载波分配,本发明首先设置子载波分配矩阵为L=[L1,L2,...,LN],其中基于上述设置,将/>定义为
步骤2-5:波束协作与功率分配模块和子载波分配模块中的每个智能体执行选择的动作后,从OFDMA系统中获取返回的实时奖励。由于本发明的目标是最大化所有用户的和速率,因此在本发明中,将波束协作与功率分配模块和子载波分配模块的实时奖励统一定义为下式(4)和下式(5):
其中
其中,表示第n个小区中分配给子载波k的用户m的数据速率,/>为惩罚项。
步骤2-6:最后,OFDMA系统相应的在下一个时隙t+1切换到新的状态:波束协作与功率分配模块和子载波分配模块中的智能体通过不断与OFDMA系统交互,从而持续获得实时样本和/>并将实时样本相应地存储在每个模块的经验池中。
此外,本发明还引入经验回放方法来消除数据相关性,具体为:分别从波束协作与功率分配模块和子载波分配模块的经验池中随机抽取部分样本和/>并假设在时隙t中来自波束协作与功率分配模块和子载波分配模块的采样样本形成元组/>和/>因此,波束协作与功率分配模块和子载波分配模块的每个DQN单元的损失函数分别定义为
其中,和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体的目标Q网络参数,λ为折扣率。
在训练过程中,对于每个智能体的DQN单元,本发明使用RMSProp优化器,通过最小化损失函数(6)和(7)来更新训练Q网络的参数。此外,每隔Ts个时隙,本发明分别复制波束协作与功率分配模块和子载波分配模块的训练Q网络参数和/>来更新波束协作与功率分配模块和子载波分配模块的目标Q网络参数/>和/>
步骤三:以不同方案改变当前环境并提出一种迁移学习框架,所述迁移学习框架在新环境下通过步骤2中训练好的智能体的知识和新智能体的经验来训练新智能体,从而动态调整波束成形协作和资源分配策略,以最大化所有用户的和速率。
首先,本发明用三种不同方法改变当前环境:(1)降低基站的最大发射功率;(2)增大小区半径;(3)减弱信道前后时隙之间的相关性。然后,本发明在新的环境下,使用提出的迁移学习框架训练新智能体。在训练过程中,当计算波束协作与功率分配模块和子载波分配模块中每个新DQN单元的目标Q值时,本发明同时考虑了从旧智能体中提取的知识和从新智能体中收集的经验。因此,波束协作与功率分配模块和子载波分配模块中的每个新DQN单元的损失函数分别表示为
其中
其中,和Q(·)分别表示旧智能体和新智能体,ψ表示在(0,1]范围内取值并在每个时隙t按照ψ←ψ/(1+Θ)的规律逐渐减小的比例因子,其中Θ是衰减因子。这表明随着时间的推移,波束协作与功率分配模块和子载波分配模块中的每个新智能体将越来越多地利用自己的经验进行训练。
在上述实施例步骤下,进行不同场景下的仿真,从而说明本发明的有益效果。仿真结果如图4—图6所示。这里,本发明所提方法用TL-MADQN表示。将本发明所提方法与以下三种算法进行对比:直接将旧智能体应用于新环境(LOAD),在新环境中从头开始训练新智能体(SCR),旧智能体知识和新智能体经验的比例相等(EQUAL)。
如仿真结果图4,其比较了当基站的最大发射功率由38dBm减小至30dBm时,不同算法下所有用户的和速率随训练步数的变化情况。从图4可以看出,本发明所提方法的和速率与EQUAL和LOAD算法相比有显著提升。此外,虽然该方法的求和速度比SCR算法低,但收敛速度与SCR相比显著提升。这说明,总体来看,新智能体经过该方法训练后,能够较好地适应功率资源有限的环境。
如仿真结果图5,其比较了当小区半径由500m增大至1000m时,不同算法下所有用户的和速率随训练步数的变化情况。从图5可以看出,虽然该方法的收敛速度与其他三种算法相比相差不大,但和速率有很大提升,这说明,在基站覆盖范围较大的环境下,该方法极大地提高了系统性能。
如仿真结果图6,其比较了当信道相关系数由0.64减小至0.5时,不同算法下所有用户的和速率随训练步数的变化情况。从图6可以看出,该方法在收敛速度与和速率方面均优于其他三种算法。这说明,该方法能够帮助新智能体更好地适应信道特性随时间快速变化的环境。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (2)

1.一种基于迁移学习的下行MISO-OFDMA协作传输方法,其特征在于:所述传输方法包括如下步骤:
步骤1:定义下行MISO-OFDMA系统的关键参数;
步骤2:利用深度Q网络在当前环境下训练当前智能体,为每个智能体构建一个深度Q网络即为多智能体深度Q网络,解决波束协作和资源分配问题;
步骤3:以不同方案改变当前环境并提出一种迁移学习框架,所述迁移学习框架在新环境下通过步骤2中训练好的智能体的知识和新智能体的经验来训练新智能体;
步骤4:动态调整波束成形协作和资源分配策略,以最大化所有用户的和速率,其中
将步骤2中波束协作和资源分配框架分成波束协作与功率分配模块和子载波分配模块,针对波束协作与功率分配模块,将第n个小区中的基站与分配到子载波k上的用户m之间的链路视为一个智能体,针对子载波分配模块,将每个基站视为一个智能体,将OFDMA系统视为环境,为每个智能体构建的深度Q网络由训练Q网络和目标Q网络组成;
利用多智能体深度Q网络在当前OFDMA系统下训练当前每个智能体的具体方法如下:
步骤2-1:在时隙t中,OFDMA系统将其状态反馈给每个智能体;
步骤2-2:在所述波束协作与功率分配模块和子载波分配模块中的每个训练Q网络以概率ε分别从每个模块的动作空间中随机选择动作或者以概率1-ε分别由下式(1)和下式(2)选择使训练Q网络的Q函数值最大的动作:
其中,和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体产生的动作,/>和/>分别为环境反馈给波束协作与功率分配模块和子载波分配模块中每个智能体的状态,/>和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体的训练Q网络参数,/>和/>分别为波束协作与功率分配模块和子载波分配模块的动作空间;
步骤2-3:对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围进行设置并根据上述设置将定义为由波束形成器和功率组成的二维坐标:
其中,表示第n个小区中的基站与分配到子载波k上的用户m之间的归一化波束形成器的索引值;
步骤2-4:对子载波分配模块所优化的子载波分配,设置子载波分配矩阵为L=[L1,L2,...,LN],其中基于上述设置,将/>定义为/>
步骤2-5:波束协作与功率分配模块和子载波分配模块中的每个智能体执行选择的动作后,从OFDMA系统中获取返回的实时奖励;
步骤2-6:OFDMA系统相应的在下一个时隙t+1切换到新的状态:波束协作与功率分配模块和子载波分配模块中的智能体通过不断与OFDMA系统交互,从而持续获得实时样本和/>并将实时样本相应地存储在每个模块的经验池中;
步骤2-3中,对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围设置如下:
步骤2-3-1:设置一个码本F,该码本由F个L维列向量fc(c∈{0,1,...,F-1})组成,L是每个基站的天线数;
步骤2-3-2:在每个时隙,从F个列向量中选取一个列向量作为归一化波束形成器
步骤2-3-3:对于第n个小区中的基站传输给分配到子载波k上的用户m的功率在0到Pmax之间均匀地设置V个取值;
步骤2-3-4:在每个时隙,从V个取值中选取一个作为功率值;
所述步骤2-5的奖励具体为:
将波束协作与功率分配模块和子载波分配模块的实时奖励统一定义为下式(4)和下式(5):
其中
其中,表示第n个小区中分配给子载波k的用户m的数据速率,/>为惩罚项;
在所述步骤2-6中引入经验回放方法来消除数据相关性,具体为:分别从波束协作与功率分配模块和子载波分配模块的经验池中随机抽取部分样本和/>并假设在时隙t中来自波束协作与功率分配模块和子载波分配模块的采样样本形成元组/>因此,波束协作与功率分配模块和子载波分配模块的每个DQN单元的损失函数分别定义为
其中,和/>分别为波束协作与功率分配模块和子载波分配模块中每个智能体的目标Q网络参数,λ为折扣率;
步骤3中在新环境下通过迁移学习框架对新智能体训练具体方法为:在训练过程中,当计算波束协作与功率分配模块和子载波分配模块中每个新DQN单元的目标Q值时,同时考虑了从旧智能体中提取的知识和从新智能体中收集的经验,因此,波束协作与功率分配模块和子载波分配模块中的每个新DQN单元的损失函数分别表示为
其中
其中,和Q(·)分别表示旧智能体和新智能体,ψ表示在(0,1]范围内取值并在每个时隙t按照ψ←ψ/(1+Θ)的规律逐渐减小的比例因子,其中Θ是衰减因子,
步骤1中,所述下行MISO-OFDMA系统包含N个小区,每个小区中有一个多天线基站和M个单天线用户,系统参数定义具体包括:
步骤1-1:分别定义小区集合与第n个小区中的用户集合为α={1,2,...,N}和β={1,2,...,M},其中n∈α,每个小区中有K个子载波,子载波集合定义为γ={1,2,...,K};
步骤1-2:定义子载波分配参数为其中/>表明第n个小区中的用户m在时隙t被分配给子载波k;
步骤1-3:用表示第n个小区中的基站与分配到子载波k上的用户m之间的波束形成器,将/>分解为/>其中/>表示第n个小区中的基站传输给分配到子载波k上的用户m的功率,/>表示归一化的波束形成器,其作用为指示发射波束的方向;
步骤1-4:定义第n个小区中的基站的发射功率其中Pmax为每个基站的最大发射功率。
2.根据权利要求1所述基于迁移学习的下行MISO-OFDMA协作传输方法,其特征在于:步骤3中改变当前环境的三种方法为:
第一种方法:降低基站的最大发射功率;
第二种方法:增大小区半径;
第三种方法:减弱信道前后时隙之间的相关性。
CN202210072264.2A 2022-01-21 2022-01-21 基于迁移学习的下行miso-ofdma协作传输方法 Active CN114389784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210072264.2A CN114389784B (zh) 2022-01-21 2022-01-21 基于迁移学习的下行miso-ofdma协作传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210072264.2A CN114389784B (zh) 2022-01-21 2022-01-21 基于迁移学习的下行miso-ofdma协作传输方法

Publications (2)

Publication Number Publication Date
CN114389784A CN114389784A (zh) 2022-04-22
CN114389784B true CN114389784B (zh) 2023-07-21

Family

ID=81203018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210072264.2A Active CN114389784B (zh) 2022-01-21 2022-01-21 基于迁移学习的下行miso-ofdma协作传输方法

Country Status (1)

Country Link
CN (1) CN114389784B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100027926A (ko) * 2008-09-02 2010-03-11 엘지전자 주식회사 협력 다이버시티를 위한 자원 할당 방법
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN112601284A (zh) * 2020-12-07 2021-04-02 南京邮电大学 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100027926A (ko) * 2008-09-02 2010-03-11 엘지전자 주식회사 협력 다이버시티를 위한 자원 할당 방법
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN112601284A (zh) * 2020-12-07 2021-04-02 南京邮电大学 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的异构云无线接入网自适应无线资源分配算法;陈前斌等;电子与信息学报(06);全文 *

Also Published As

Publication number Publication date
CN114389784A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109905918B (zh) 一种基于能效的noma蜂窝车联网动态资源调度方法
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
Wang et al. Joint interference alignment and power control for dense networks via deep reinforcement learning
CN108737057A (zh) 基于深度学习的多载波认知noma资源分配方法
CN113596785B (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN109819422B (zh) 一种基于Stackelberg博弈的异构车联网多模通信方法
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN112566261A (zh) 一种基于深度强化学习的上行noma资源分配方法
CN111212438B (zh) 一种无线携能通信技术的资源分配方法
CN114040415A (zh) 智能反射面辅助的基于dqn-ddpg的资源分配方法
CN114423028B (zh) 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法
Zhang et al. Dynamic user-centric clustering for uplink cooperation in multi-cell wireless networks
Ouyang Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN
CN111917444B (zh) 一种适用于毫米波mimo-noma系统的资源分配方法
CN114389784B (zh) 基于迁移学习的下行miso-ofdma协作传输方法
Li et al. Learning-aided resource allocation for pattern division multiple access-based SWIPT systems
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN115767703B (zh) 面向swipt辅助去蜂窝大规模mimo网络的长期功率控制方法
Wang et al. Deep transfer reinforcement learning for beamforming and resource allocation in multi-cell MISO-OFDMA systems
CN108601083B (zh) D2d通信中基于非合作博弈的资源管理方法
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
CN115833886A (zh) 一种无蜂窝大规模mimo系统的功率控制方法
CN115278896A (zh) 一种基于智能天线的mimo全双工功率分配方法
Sun et al. Energy-efficient resource allocation in c-ran with fronthaul rate constraints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant