CN115278896A - 一种基于智能天线的mimo全双工功率分配方法 - Google Patents

一种基于智能天线的mimo全双工功率分配方法 Download PDF

Info

Publication number
CN115278896A
CN115278896A CN202210851953.3A CN202210851953A CN115278896A CN 115278896 A CN115278896 A CN 115278896A CN 202210851953 A CN202210851953 A CN 202210851953A CN 115278896 A CN115278896 A CN 115278896A
Authority
CN
China
Prior art keywords
user
uplink
downlink
users
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210851953.3A
Other languages
English (en)
Inventor
潘坤贝
金圣峣
周斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jihui Mobile Communication Technology Research Institute Co ltd
Original Assignee
Jiangsu Jihui Mobile Communication Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jihui Mobile Communication Technology Research Institute Co ltd filed Critical Jiangsu Jihui Mobile Communication Technology Research Institute Co ltd
Priority to CN202210851953.3A priority Critical patent/CN115278896A/zh
Publication of CN115278896A publication Critical patent/CN115278896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • H04B1/50Circuits using different frequencies for the two directions of communication
    • H04B1/52Hybrid arrangements, i.e. arrangements for transition from single-path two-direction transmission to single-direction transmission on each of two paths or vice versa
    • H04B1/525Hybrid arrangements, i.e. arrangements for transition from single-path two-direction transmission to single-direction transmission on each of two paths or vice versa with means for reducing leakage of transmitter signal into the receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0426Power distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/14Two-way operation using the same type of signal, i.e. duplex
    • H04L5/16Half-duplex systems; Simplex/duplex switching; Transmission of break signals non-automatically inverting the direction of transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • H04W52/14Separate analysis of uplink or downlink
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于智能天线的MIMO全双工功率分配方法,包括建立全双工大规模MIMO网络模型,定义全双工大规模MIMO网络模型中智能天线、用户状态、子载波分配三要素,构建全双工大规模MIMO网络模型的优化后的频谱效率目标函数,建立DDPG模型求解优化后的频谱效率目标函数,优化DDPG模型中的状态和动作,运行DDPG模型输出最优动作和状态,实现MIMO全双工功率分配。本发明采用用户全局唯一标识,实时对用户进行使能、静默管理,避免某些用户在当前时隙造成显著的基站残余自干扰或者用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出有效的系统频谱效率目标函数并求解,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。

Description

一种基于智能天线的MIMO全双工功率分配方法
技术领域
本发明涉及无线通信技术领域,尤其涉及一种基于智能天线的MIMO全双工功率分配方法。
背景技术
近年来随着多媒体互联网、AR(Augmented Reality,增强现实)等技术的快速发展,相应伴随该技术所衍生出的业务也已融入并丰富大众生活。然而传统通信技术已接近香农容量极限,很难再满足人们日新月异的业务需求。因此未来无线通信技术对大通量、高频谱效率的性能指标提出了更高的要求。
全双工技术,即带内同时同频全双工,能在同一时域和频域资源上传输信息,较传统TDD(Time Division Duplex,时分双工)和FDD(Frequency Division Duplex,频分双工)等双工方式可有效提升通信系统自由度,鉴于此该技术被作为6G候选增强型无线空口技术之一,有着十分重要的研究前景。理论上,由香农容量公式的定义可知,全双工技术手段可以使通信系统的自由度在现有条件下获得一倍的性能提升,然而该技术却面临着严重的自干扰问题,这在某种程度上制约着其较高系统自由度的性能优势。所谓自干扰,就是在同时同频条件下,自身发射天线对自身接收天线所造成的干扰,如果不对干扰采取有效措施,当基站发射功率过高时,将会使自身接收信号完全埋没于发射信号当中,不利于基站对用户信号的解码,严重影响用户体验。因此这一现象已成为限制全双工技术发展的瓶颈,如何有效消除自干扰是一个亟待解决的议题。
现有研究主要从被动消除和主动消除两个方面进行自干扰消除。被动消除包括天线物理隔离、方向隔离、吸收屏蔽等。主动消除是基于信号域,包括从数字域或模拟域来估计自干扰信号的副本,并将估计到的信号副本从混合信号中移除。虽然现有自干扰消除技术已经能够达到110dB的消除余量,但仍残余有部分自干扰,尤其对天线数量众多,发射功率较高的情形所造成的影响更不容忽视。目前残余自干扰消除多通过基站侧波束赋形来调整功率,从而对残余自干扰进行调控,并结合当前信道环境确保自由度与残余自干扰比值尽可能大,从而达到较高的频谱效率。但现有研究多针对基站发射/接收天线固定的情形,这在一定程度限制了天线分集增益的提升。
随着m-MIMO(massive multiple-input multiple-output,大规模多进多出)技术深入研究,通过在基站侧布置大规模的天线阵列可以大幅提升系统容量,保证QoS(qualityof service,服务质量)。但是天线数目众多,相应会提升算法复杂度和残余自干扰程度。尤其在小区内有多个用户接入时,基站除受到自身干扰外,还会接收来自用户的干扰,同时用户间也会彼此干扰。这将导致本就存在较强残余自干扰的全双工通信系统面临更加严峻的挑战。
因此,面向大规模MIMO全双工多用户场景需要设计合理的功率分配方案,以保证全双工系统固有的性能优势。
发明内容
发明目的:针对现有技术中的缺陷,本发明公开了一种基于智能天线的MIMO全双工功率分配方法,采用用户全局唯一标识,实时对用户进行使能、静默管理,避免小区内可能出现某些用户在当前时隙造成显著的基站残余自干扰或者小区用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出有效的系统频谱效率目标函数,通过求解目标函数最优化问题,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
一种基于智能天线的MIMO全双工功率分配方法,包括以下步骤:
S1、建立全双工大规模MIMO网络模型;所述全双工大规模MIMO网络模型包括MIMO网络、一个配备有N根天线的基站和Z个可与基站进行通信的用户,基站工作在全双工模式,每个用户配备一根天线,且用户工作在半双工模式;
S2、定义全双工大规模MIMO网络模型中智能天线、用户状态、子载波分配三要素;所述智能天线为基站每根天线智能选择四种工作模式之一,四种工作模式包括用于发送、用于接收、发送和接收并存以及不发送也不接收;所述用户状态定义为采用全局唯一标识为所有上下行用户定义当前时刻状态,构建上行用户集合和下行用户集合;所述子载波分配包括:根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵
Figure BDA0003753473190000021
所述再分配的子载波分配矩阵
Figure BDA0003753473190000022
表示上下行使能用户的子载波分配状况;
S3、构建全双工大规模MIMO网络模型的优化后的频谱效率目标函数;
S4、建立DDPG模型求解优化后的频谱效率目标函数:建立与全双工大规模MIMO网络模型映射的DDPG模型,所述DDPG模型包括智能体、状态、动作和奖励,并设有DDPG网络,DDPG网络包括Actor和Critic两个结构不同的神经网络;
S5、优化DDPG模型中的状态和动作:基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,得到缩减后的动作和状态空间;
S6、运行DDPG模型输出最优动作和状态,实现MIMO全双工功率分配。
有益效果:本发明采用用户全局唯一标识,实时对用户进行使能、静默管理,避免小区内可能出现某些用户在当前时隙造成显著的基站残余自干扰或者小区用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出有效的系统频谱效率目标函数,通过求解目标函数最优化问题,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。同时在此基础上对目标函数中的耦合变量进行理论分析,对变量进行转化,有效缩减了变量个数。最终为实现深度强化学习算法,达成减少算法动作和状态取值个数,缩短算法学习时间,降低算法复杂度的目标,适合在大规模MIMO全双工无线通信系统上部署。
附图说明
图1为本发明的方法流程图;
图2为实施例2中全双工大规模MIMO网络模型示意图;
图3为实施例2中基站传统收发天线和智能收发天线架构示意图;
图4为实施例2中基于深度强化学习算法流程图。
具体实施方式
以下结合附图和实施例对本发明的一种基于智能天线的MIMO全双工功率分配方法做进一步的说明和解释。
本发明提出的一种基于智能天线的MIMO全双工功率分配方法,适用于基站配置有大量天线,并在小区内有多个用户的应用场景。基站每根天线都通过环形器等模拟器件连接,实现上下行分离,因此每根天线可智能选择用于接收、用于发射、接收和发射共存或不接收也不发射的四种工作制式,较传统基站收发天线充分利用天线物理资源,提高了天线的分集增益。基站所配置的众多天线通过天线状态矩阵统一管理,来保证每根天线各自的工作制式。基站下行功率分配通过基站预编码矩阵确定,上行功率由各个上行用户的发射功率决定。同时为避免小区内某些用户在当前时隙造成显著的基站残余自干扰或者小区用户间干扰等异常情形,在当前时隙对此类异常用户进行静默处理,并在下一个时隙解除静默,进行预调用。各个用户业务的使能/静默状态通过用户业务状态矩阵进行维护。最后基于当前时隙的使能用户,设计子载波分配矩阵,对各个使能用户进行子载波分配,目的是合理利用带宽资源,使系统总的频谱效率最大。
本发明主要解决如下技术难题:
实施例1:
如附图1所示,本发明公开了一种基于智能天线的MIMO全双工功率分配方法,包括如下步骤:
S1、建立全双工大规模MIMO网络模型;所述全双工大规模MIMO网络模型包括MIMO网络、一个配备有N根天线的基站和Z个可与基站进行通信的用户,用户可与基站进行通信,也可不进行通信。基站工作在全双工模式,不过基站的任一根天线既可以全双工工作,也可以半双工工作,但对基站来说是具备全双工工作的能力;Z个用户中包括J个上行用户、K个下行用户和O个休眠用户,J+K+O=Z;每个用户配备一根天线,且用户工作在半双工模式,MIMO网络包括M个相互正交的子载波,子载波个数小于用户个数。
S2、定义全双工大规模MIMO网络模型中智能天线、用户状态、子载波分配三要素;
所述智能天线是指基站每根天线通过环形器连接,每根天线智能选择四种工作模式之一,四种工作模式包括用于发送,用于接收,发送和接收并存,以及不发送也不接收;
基站每根天线包括发射/接收天线、环形器、接收机和发射机,发射/接收天线通过环形器分别与接收机和发射机连接,发射机通过自干扰消除与接收机连接;基站每根天线通过环形器连接,实现智能天线并实现上下行分离,因此每根天线都可以智能选择是用于发送/接收,或者发送和接收并存,以及不发送也不接收的工作模式,较传统基站收发天线提高了分集增益,如附图3所示,其中,自干扰消除为现有技术手段,包括被动消除和主动消除,在本发明中不做具体限制。
所述用户状态定义为采用全局唯一标识为所有上下行用户定义当前时刻状态,构建上行用户集合和下行用户集合;上行用户集合和下行用户集合为:
当前时刻上行用户满足
Figure BDA0003753473190000041
下行用户满足
Figure BDA0003753473190000042
α2β-1(t)为当前时刻第β个用户的上行业务标识,α(t)为当前时刻第β个用户的下行业务标识;全局唯一标识A={α1(t),α2(t),...,α2Z(t)},其中,α2Z(t)为第Z个用户在t时刻的业务标识;其中,
Figure BDA0003753473190000051
Figure BDA0003753473190000052
α2β-1(t)=1,表示当前时刻用户β准使能上行业务,α2β-1(t)=0,表示当前时刻用户β不使能上行业务,α2β-1(t)=2,表示当前时刻用户β预调用上行业务,不会被静默;α(t)=1,表示当前时刻用户β准使能下行业务,α(t)=0,表示当前时刻用户β不使能下行业务,α(t)=2,表示当前时刻用户β预调用下行业务,不会被静默;Sicu(t-1)=1或0分别表示前一时刻该用户上行业务静默或未被静默;Sicd(t-1)=1或0分别表示前一时刻该用户下行业务静默或未被静默;Requ(t)=1或0表示当前时刻该用户收到或未收到上行业务需求;Reqd(t)=1或0表示当前时刻该用户收到或未收到下行业务需求。
根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵
Figure BDA0003753473190000053
包括:
根据上行用户集合和下行用户集合定义当前时刻上行用户业务状态矩阵eu和下行用户业务状态矩阵ed;上行用户业务状态矩阵eu和下行用户业务状态矩阵ed确定之后定义再分配子载波分配矩阵
Figure BDA0003753473190000054
定义当前时刻上行用户业务状态矩阵eu和下行用户业务状态矩阵ed
Figure BDA0003753473190000055
Figure BDA0003753473190000056
其中
Figure BDA0003753473190000057
定义为:
Figure BDA0003753473190000058
Figure BDA0003753473190000059
定义为:
Figure BDA00037534731900000510
其中,1≤j≤J,1≤k≤K;
定义子载波分配矩阵
Figure BDA00037534731900000511
Figure BDA00037534731900000512
表示(J+K-S)个上下行使能用户的子载波分配状况,其中
Figure BDA0003753473190000061
Figure BDA0003753473190000062
有两个下标,第一个下标指用户,第二个下标指子载波,1≤z≤Z;
Figure BDA0003753473190000063
Figure BDA0003753473190000064
满足:
Figure BDA0003753473190000065
Figure BDA0003753473190000066
Figure BDA0003753473190000067
子载波集合
Figure BDA0003753473190000068
M为子载波个数;上行用户集合
Figure BDA0003753473190000069
J为上行用户个数;下行用户集合
Figure BDA00037534731900000610
K为下行用户个数;被静默的上下行用户集合
Figure BDA00037534731900000611
S为被静默的上下行用户个数;
S3、构建全双工大规模MIMO网络模型的优化后的频谱效率目标函数:
Figure BDA00037534731900000612
Figure BDA00037534731900000613
Figure BDA00037534731900000614
Figure BDA00037534731900000615
其中,R表示上下行用户总的频谱效率,G为综合矩阵,
Figure BDA00037534731900000616
为天线和用户不匹配的元素置零的综合矩阵,
Figure BDA00037534731900000617
为上行用户业务状态矩阵eu和下行用户业务状态矩阵ed确定后再分配的子载波分配矩阵,xu表示上行用户发送给基站的符号,xd表示基站发送给下行用户的符号,qu和qd是基站天线状态矩阵,分别表示基站用于上行接收和下行发射的天线,wk是第k个下行用户的预编码矩阵,满足wk∈W={w1,w2,...,wK},W为所有下行用户的预编码矩阵,即基站下行预编码矩阵,pj是第j个上行用户的发射功率,满足pj∈P={p1,p2,...,pJ},P为所有上行用户的发射功率。
优化后的频谱效率目标函数存在多个相互耦合的变量,本发明分析变量间的嵌套关系,有效缩减变量个数。
S4、建立DDPG模型求解优化后的频谱效率目标函数:建立与全双工大规模MIMO网络模型映射的DDPG模型,所述DDPG模型包括智能体、状态、动作和奖励,并设有DDPG网络,DDPG网络包括Actor和Critic两个结构不同的神经网络;
所述智能体为全双工大规模MIMO网络模型中的智能天线和上下行用户;
所述状态为:上行用户的信干噪比
Figure BDA0003753473190000071
和下行用户的信干噪比
Figure BDA0003753473190000072
基站天线与第j个上行用户匹配情况
Figure BDA0003753473190000073
和基站天线与第k个下行用户匹配情况
Figure BDA0003753473190000074
及每个上下行用户的子载波分配
Figure BDA0003753473190000075
分别记为状态
Figure BDA0003753473190000076
Figure BDA0003753473190000077
所述动作为:基站下行预编码矩阵W,上行用户发射功率pj∈P,以上动作合记为动作a={W;pj∈P};
所述奖励为:上行用户的频谱效率
Figure BDA0003753473190000078
和下行用户的频谱效率
Figure BDA0003753473190000079
记为
Figure BDA00037534731900000710
Figure BDA00037534731900000711
其中:
Figure BDA00037534731900000712
Figure BDA00037534731900000713
DDPG网络设有Actor和Critic两个结构不同的神经网络,其中各自的神经网络又包含一个与自身结构相同但参数不同的副本网络,自身网络记为target_net,副本网络记为eval_net,Actor和Critic共包含四个神经网络分别记为:critic_target_net:Q′(s1,s2,s3,a|θQ′)、critic_eval_net:Q(s1,s2,s3,a|θG)、actor_target_net:μ′(s1,s2,s3Q′)、actor_eval_net:μ(s1,s2,s3G);
S5、优化DDPG模型中的状态和动作:基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,得到缩减后的动作和状态空间;
动作a中的元素wk和pj分别限制于:
Figure BDA0003753473190000081
pmin≤pj≤pmax,pj∈P
缩减后的动作
Figure BDA0003753473190000082
状态
Figure BDA0003753473190000083
S6、运行DDPG模型输出最优动作和状态,实现MIMO全双工功率分配。
本发明以大规模MIMO全双工系统为输入环境,设计深度强化学习算法,结合智能天线、用户状态、子载波分配三个关键要素,设计合理的系统频谱效率目标函数,目标函数变量包括基站天线状态矩阵、用户业务状态矩阵、基站下行预编码矩阵、用户上行功率集合、子载波分配矩阵。同时对目标函数变量进行转换,有效缩减变量个数,降低深度强化学习算法中动作、状态可选取的个数,有效缩短了算法学习时间。
S61、为critic_eval_net:Q(s1,s2,s3,a|θG)和actor_eval_net:μ(s1,s2,s3μ)中的θG和θμ随机赋初值;
S62、分别把eval网络中的θG和θμ赋值给target网络中的θQ′和θμ′
S63、初始化经验池R,经验池R中存储若干个{st,at,rt};
S64、为动作
Figure BDA0003753473190000084
赋初值,上下行用户采取等功率分配策略;
S65、进行迭代,迭代包括外循环和内循环两层,外循环迭代重置状态,内循环迭代对状态步数进行遍历,直至达到外循环迭代最大次数,输出最优动作
Figure BDA0003753473190000085
Figure BDA0003753473190000086
以及该动作所对应的状态
Figure BDA0003753473190000087
Figure BDA0003753473190000088
实现MIMO全双工功率分配。
步骤S65中外循环和内循环过程包括:
S651、进入外循环迭代,外循环迭代对状态赋当前值,其中初始状态记为s0,下标0代表状态步数,每个状态包括s1,s2,s3
S652、进入内循环迭代,内循环迭代每一次都从actor_eval_net中选择动作at,将动作at代入全双工环境,状态从st迁移至st+1并获得奖励rt,即:
Figure BDA0003753473190000091
Figure BDA0003753473190000092
Figure BDA0003753473190000093
S653、把当前状态st、下一状态st+1以及选择的动作at和获得的奖励rt分别存放于经验池R中;
S654、从经验池R中随机抽取若干组(st,αt,rt,st+1)来训练DDPG网络;
S653、通过eval critic network计算动作αt下的curQ:curQ=Q(s1,s2,s3,a|θG);
S654、根据target actor network输出的动作αt+1,利用target critic network为eval critic network计算targetQ,targetQ的计算公式为:
targetQ=rt+gamma·Q′(s1,s2,s3,μ′(s1,s2,s3μ′)|θQ′)
其中gamma表示折扣因子,gamma∈[0,1];
S655、根据获得的curQ和targetQ,计算损失函数的均方误差的梯度,均方误差的梯度计算公式为:
Loss=mean(diff(targetQ-curQ))
S656、更新curQ中的参数θG
S657、通过梯度的蒙特卡洛估计方法更新Actor的参数θμ;蒙特卡洛估计方法更新Actor的参数θμ的计算公式为:
Figure BDA0003753473190000094
S658、利用参数θG和θμ采用滑动平均的方式分别来更新target critic network和target actor network的参数θQ′和θμ′;其计算公式为:
θQ′←ρθG+(1-ρ)θQ′
θμ′←ρθμ+(1-ρ)θμ′
其中ρ∈(0,1)是超参数;
S659、判断是否达到内循环迭代最大次数,若否,则返回S652;若是,则返回S651;判断是否达到外循环迭代最大次数,若否,则返回S651;若是,则输出最优动作
Figure BDA0003753473190000101
以及该动作所对应的状态
Figure BDA0003753473190000102
Figure BDA0003753473190000103
实现MIMO全双工功率分配。
本发明公开了一种基于智能天线的MIMO全双工功率分配方法,采用用户全局唯一标识,实时对用户进行使能、静默管理,避免小区内可能出现某些用户在当前时刻造成显著的基站残余自干扰或者小区用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出优化后的系统频谱效率目标函数,通过求解目标函数最优化问题,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。同时在此基础上对目标函数中的耦合变量进行理论分析,对变量进行转化,有效缩减了变量个数。最终通过降低算法动作和状态选择空间来降低算法复杂度,同时缩短网络训练时间,从而实现高效的深度强化学习方案,适合在大规模MIMO全双工无线通信系统上部署。
实施例2:
如附图1所示,本发明提出一种基于智能天线的MIMO全双工功率分配方法包括如下步骤:
过程1:建立全双工大规模MIMO网络模型;
如附图2所示,大规模MIMO小区内有一个BS(Base Station,基站),配备有大量N根天线,工作在全双工模式。小区内有Z个用户,按照用户类型分为上行用户、下行用户以及休眠用户,每个用户只配备一根天线,且用户工作在半双工模式。网络系统被分为M个相互正交的子载波,且子载波个数小于用户个数,用户间可以复用子载波。
基站每根天线通过环形器模拟器件连接,实现上下行分离,因此每根天线都可以智能选择是用于发送/接收,或者发送和接收并存,及不发送也不接收的工作模式,较传统基站收发天线提高了分集增益,如附图3所示。
过程2:定义智能天线、用户状态、子载波分配三要素;
假设Z个用户在当前时刻同时包括J个上行用户、K个下行用户和O个休眠用户。考虑到当前可能存在某些下行用户会显著增加基站残余自干扰现象,或者某些上行用户会显著对其他用户造成干扰,此类用户对系统性能的最佳贡献状态反而是自身接收或发送功率为零,即处于静默状态。
考虑到信道在不同时刻的衰落特性和用户的移动特性等,这些因素都会加剧信道的时变特性,因此为照顾信道较快的时变性,通常将时隙分割为较短时间,使其小于时变信道的相干时间,这样在一个时隙内信道增益被认为是一个常数。事实上,对用户来讲常规上下行业务需求通常持续时间以几百毫秒为数量级单位,这对业务时延要求不特别高,吞吐量在一段时间内要求较大的用户来说,上一分割时隙的短暂静默状态对QoS的影响将远低于一段时间内吞吐量不足所带来的负面影响。鉴于此,本发明提出了以业务为驱动的用户状态策略,即下一时隙上下行用户业务状态取决于实时上下行业务需求及前一时隙上下行业务静默等情况,因此在当前时隙对任意上下行用户来讲,存在上下行业务切换或者维持、停用等状态。因此为方便描述当前时隙上下行用户各自状态,为t时刻所在时隙的所有上下行用户定义一个全局唯一标识A={α1(t),α2(t),...,α2Z(t)},其中,α2Z(t)为第Z个用户在t时刻的业务标识;同时为表述简洁,本发明将t和(t-1)时刻所在时隙分别定义为当前时刻和前一时刻。
由于不同类型服务用户对大规模MIMO全双工系统所造成的干扰性质不同,本发明将服务用户统一分为上行用户和下行用户两大类,考虑到上下行用户业务类型的时变特性,本发明以用户业务作为驱动,通过定义全局唯一标识,能够有效实时对用户进行使能、静默管理。
以当前时刻第β个用户为例,上行业务标识记为α2β-1(t),下行业务标识记为α(t),分别表示如下
Figure BDA0003753473190000111
Figure BDA0003753473190000121
其中α2β-1(t)=1,表示当前时刻用户β准使能上行业务,α2β-1(t)=0,表示当前时刻用户β不使能上行业务,α2β-1(t)=2,表示当前时刻用户β预调用上行业务,不会被静默;同理α(t)=1,表示当前时刻用户β准使能下行业务,α(t)=0,表示当前时刻用户β不使能下行业务,α(t)=2,表示当前时刻用户β预调用下行业务,不会被静默。Sicu(t-1)=1或0分别表示前一时刻该用户上行业务静默或未被静默;同理Sicd(t-1)=1或0分别表示前一时刻该用户下行业务静默或未被静默。Requ(t)=1或0表示当前时刻该用户收到或未收到上行业务需求;同理Reqd(t)=1或0表示当前时刻该用户收到或未收到下行业务需求。本发明中,β取值1到Z,若β取值为z,则表示第z个用户,若第z个用户代表上行用户,要满足α2z-1(t)=1,2和α2z(t)=0;若第z个用户代表下行用户,要满足α2z(t)=1,2和α2z-1(t)=0。
综上,当前时刻上行用户满足
Figure BDA0003753473190000122
Figure BDA0003753473190000123
下行用户满足
Figure BDA0003753473190000124
本发明中,唯一标识A决定了当前时刻上行用户和下行用户的集合,分别满足
Figure BDA0003753473190000125
Figure BDA0003753473190000126
Figure BDA0003753473190000127
Figure BDA0003753473190000128
也就是说集合
Figure BDA0003753473190000129
Figure BDA00037534731900001210
在每个时刻并不是确定的,需要满足该约束条件。在本发明后续步骤中,集合
Figure BDA00037534731900001211
Figure BDA00037534731900001212
的选取均在唯一标识A的基础上,因此,本发明采用用户全局唯一标识,实时对用户进行使能、静默管理,避免实际应用场景中,如小区内可能出现某些用户在当前时刻造成显著的基站残余自干扰或者小区用户间干扰等异常情形。
为简化问题描述,本发明暂时先不考虑基站天线工作模式和上下行用户的使能/静默状态,以及用户子载波分配情况。
则基站侧接收到的第j个上行用户的发送信号为:
Figure BDA00037534731900001213
其中
Figure BDA00037534731900001214
表示第j个上行用户到基站的上行信道向量,
Figure BDA00037534731900001215
表示第j个上行用户的发送符号,
Figure BDA0003753473190000131
是指除第j个上行用户之外的其他所有上行用户j′对基站所造成的干扰,
Figure BDA0003753473190000132
是基站经自干扰消除技术后的残余自干扰,HSI是基站的残余自干扰矩阵,
Figure BDA0003753473190000133
表示基站发送给第k个下行用户的符号,
Figure BDA0003753473190000134
是基站侧接收第j个上行用户所产生的高斯白噪声。pj是第j个上行用户的发射功率,满足pj∈P={p1,p2,...,pJ}。wk是第k个下行用户的预编码矩阵,满足wk∈W={w1,w2,...,wK}。
同理,第k个下行用户接收到基站的信号为:
Figure BDA0003753473190000135
其中
Figure BDA0003753473190000136
表示基站到第k个下行用户的下行信道向量,
Figure BDA0003753473190000137
是指除基站发给第k个下行用户之外的其他所有下行用户k′的信号对第k个下行用户的接收所造成的干扰,gk,j表示第j个上行用户到第k个下行用户的信道增益,
Figure BDA0003753473190000138
表示所有上行用户的发射对第k个下行用户的接收所造成的干扰,
Figure BDA0003753473190000139
是第k个下行用户产生的高斯白噪声。
在上述问题模型基础上考虑基站天线工作模式和上下行用户的使能/静默状态的限制因素,因此第j个上行用户的发送信号和第k个下行用户接收到基站的信号分别改写为:
Figure BDA00037534731900001310
Figure BDA00037534731900001311
其中qu和qd是基站天线状态矩阵,分别表示基站用于上行接收和下行发射的天线,满足
Figure BDA00037534731900001312
Figure BDA00037534731900001313
定义如下:
Figure BDA00037534731900001314
Figure BDA00037534731900001315
定义如下:
Figure BDA0003753473190000141
前面已经定义了当前时刻上下行用户集合
Figure BDA0003753473190000142
Figure BDA0003753473190000143
然而事实上这些上下行用户中,除上下行业务标识记为2在当前时刻不会被静默外,其余标识记为1的均可能存在被静默的状况。因此分别定义当前时刻上下行用户业务状态矩阵eu和ed如下:
Figure BDA0003753473190000144
Figure BDA0003753473190000145
其中
Figure BDA0003753473190000146
定义如下:
Figure BDA0003753473190000147
Figure BDA0003753473190000148
定义如下:
Figure BDA0003753473190000149
又已知当前时刻上下行用户的静默状态会影响到下一时刻上下行用户状态,因此需要同时对当前时刻上下行用户的静默状态进行标记,如下:
Figure BDA00037534731900001410
Figure BDA00037534731900001411
同时将当前时刻被静默的上下行用户个数标记为S,该参数和子载波分配相关。
则第j个上行用户的上行信干噪比和第k个下行用户的下行信干噪比分别定义如下:
Figure BDA00037534731900001412
Figure BDA00037534731900001413
其中
Figure BDA00037534731900001414
I是单位矩阵,
Figure BDA00037534731900001415
是基站侧接收第j个上行用户所产生的高斯白噪声方差,
Figure BDA0003753473190000151
是第k个下行用户产生的高斯白噪声方差,有
Figure BDA0003753473190000152
考虑到对使能的上下行用户进行子载波分配,子载波集合
Figure BDA0003753473190000153
定义子载波分配矩阵B=[b1,b2,...,bJ+K-S]T,表示(J+K-S)个上下行使能用户的子载波分配状况,其中bm=[b1,m,b2,m,...,bZ,m],bz,m∈{0,1}定义如下:
Figure BDA0003753473190000154
已知子载波分配矩阵B是在用户业务状态矩阵eu和ed确定的情况下再分配,因此重定义子载波分配矩阵
Figure BDA0003753473190000155
使
Figure BDA0003753473190000156
满足:
Figure BDA0003753473190000157
Figure BDA0003753473190000158
过程3:建立系统频谱效率目标函数优化问题,所述系统即为前文构建的全双工大规模MIMO网络模型。
综上第j个上行用户的上行频谱效率和第k个下行用户的下行频谱效率分别定义如下:
Figure BDA0003753473190000159
Figure BDA00037534731900001510
其中
Figure BDA00037534731900001511
Figure BDA00037534731900001512
Figure BDA0003753473190000161
Figure BDA0003753473190000162
其中Φ和φ分别为上行用户j和下行用户k受到的干扰功率。
则上下行用户总的频谱效率定义为:
Figure BDA0003753473190000163
因此最大化上下行用户总的频谱效率定义如下:
Figure BDA0003753473190000164
看出该最大化问题涉及多个变量的耦合问题,并且是非凸的,常规求解复杂度高。考虑到基站天线用于上行接收与上行用户匹配,同理基站天线用于下行发射则与下行用户匹配,则基站天线状态矩阵和用户业务状态矩阵可通过一个综合矩阵G来描述,如下
Figure BDA0003753473190000165
根据基站天线和用户的匹配原则知,令综合矩阵G中天线和用户不匹配的元素为零,得到矩阵
Figure BDA0003753473190000166
如下
Figure BDA0003753473190000171
Figure BDA0003753473190000172
Figure BDA0003753473190000173
Figure BDA0003753473190000174
因此最大化上下行用户总的频谱效率的目标函数重定义为
Figure BDA0003753473190000175
过程4:建立与全双工大规模MIMO网络映射的DDPG模型
过程3优化问题变量缩减,但该问题仍然在多项式时间内是一个NP-hard问题。本发明以下采用DDPG(Deep Deterministic Policy Gradient,深度强化学习)求解过程3非凸问题。
本发明DDPG模型由智能体、动作、状态和奖励构成。
智能体:全双工基站的天线(即智能天线)和上下行用户;
状态:上下行用户的信干噪比
Figure BDA0003753473190000176
Figure BDA0003753473190000177
基站天线与第j个上行用户匹配情况
Figure BDA0003753473190000178
和基站天线与第k个下行用户匹配情况
Figure BDA0003753473190000179
及每个用户的子载波分配
Figure BDA00037534731900001710
分别记为状态
Figure BDA00037534731900001711
Figure BDA00037534731900001712
st={s1,s2,s3}。
动作:基站下行预编码矩阵W,上行用户发射功率pj∈P,以上动作合记为动作a={W;pj∈P}。
奖励:
上下行用户的频谱效率,定义如下:
Figure BDA0003753473190000181
Figure BDA0003753473190000182
记为
Figure BDA0003753473190000183
本发明DDPG网络由Actor和Critic两个结构不同的神经网络构成,其中各自的神经网络又包含一个与自身结构相同但参数不同的副本网络,自身网络记为target_net,副本网络记为eval_net。因此Actor和Critic共包含四个神经网络分别记为:
critic_target_net:Q′(s1,s2,s3,a|θQ′);
critic_eval_net:Q(s1,s2,s3,a|θG);
actor_target_net:μ′(s1,s2,s3μ′);
actor_eval_net:μ(s1,s2,s3μ);
过程5:优化DDPG算法的动作和状态个数
由于DDPG模型中的Actor表现出前向传播特性,需要输出具体动作值,已知降低可选动作数量,则深度强化学习算法的时间复杂度也就随之降低。
本发明为使上下行用户达到静默状态,通常要使用户的发射/接收功率从零开始搜索,即用户功率为零意味着该用户处于静默状态。然而为满足上下行用户QoS吞吐量最低需求,在实际通信系统中从零开始搜索功率值并无太大意义,这将会引入大量的计算开销。为此本发明设置一个最低功率门限,使发射/接收功率限制于最低和最高门限之间,从而降低了不必要的动作空间。然而引入最低功率门限,相当于默认将全部用户置于工作状态,这和将某些用户置于静默状态相冲突。为解决这一矛盾,本发明通过过程2引入的上下行用户静默标识,确保上下行用户在缩减动作空间的同时,仍然能对上下行用户按需置于静默状态。
假设全双工基站不存在残余自干扰,且各个上下行用户之间不存在用户间干扰。由于上下行用户随机分布于基站周围,不考虑各个用户间的干扰,则从统计上来看每个上下行用户的性能期望应相同,满足:
Figure BDA0003753473190000191
基于公平原则(即基于理想状态下不存在任何干扰,也就是全双工基站不存在残余自干扰,且各个上下行用户之间不存在用户间干扰),令
Figure BDA0003753473190000192
Figure BDA0003753473190000193
求解得到pj=pmin,wk=diag(0,…,0,wmin,0,…0)
由此可知动作a中的元素wk和pj分别限制于:
Figure BDA0003753473190000194
pmin≤pj≤pmax,pj∈P
其中,上限Pmax由基站的硬件条件决定,上限pmax由用户的硬件条件决定;wk是第k个下行用户的预编码矩阵,满足wk∈W={w1,w2,...,wK}。||wk||2用于表示下行用户发射功率,因此本发明设置了上下行功率下限,较之前动作取值范围,在一定程度上得到缩减。同时本发明采用的子载波分配矩阵
Figure BDA0003753473190000197
缩小了原状态个数,使能够分配子载波的用户的个数仅为(J+K-S)。
则缩减后的动作
Figure BDA0003753473190000195
状态
Figure BDA0003753473190000196
综上本发明从动作和状态两个角度提高了算法学习效率。
过程6:执行DDPG算法输出最优动作和状态
DDPG算法流程如图4所示:
步骤1:
为critic_eval_net:Q(s1,s2,s3,a|θG)和actor_eval_net:μ(s1,s2,s3μ)中的θG和θμ随机赋初值,初值的取值范围为[0,1]。
步骤2:
分别把eval网络中的θG和θμ赋值给target网络中的θQ′和θμ′,有
θQ′←θG
θμ′←θμ
步骤3:
初始化经验池R,经验池R中存储若干个{st,at,rt},即当前状态st、选择的动作at和获得的奖励rt,每个状态都包括三个元素,即st={st,1,st,2,st,3},本发明中简写为st={s1,s2,s3}。
步骤4:
为动作
Figure BDA0003753473190000201
赋初值,上下行用户采取等功率分配策略。
步骤5:
进行迭代,迭代包括外循环和内循环两层,外循环迭代重置状态,即步骤6至步骤16,内循环迭代对状态步数进行遍历,即步骤7至步骤16,其中状态步数即为时刻的叠加,即体现在t=t+1上。
步骤6:
外循环迭代对状态s0赋当前值。其中状态s0为初始状态,也就是初始第0步,
步骤7:
内循环迭代每一次都从actor_eval_net中选择动作at,将动作at代入全双工环境,状态从st迁移至st+1并获得奖励rt,有
Figure BDA0003753473190000202
Figure BDA0003753473190000203
Figure BDA0003753473190000204
步骤8:
把当前状态st、下一状态st+1,以及选择的动作at和获得的奖励rt分别存放于经验池R中。
步骤9:
从经验池R中随机抽取若干组(st,at,rt,st+1)来训练DDPG网络。
步骤10:
通过eval critic network计算动作at下的curQ:
curQ=Q(s1,s2,s3,a|θG)
步骤11:
根据target actor network输出的动作αt+1,利用target critic network为evalcritic network计算targetQ,如下:
targetQ=rt+gamma·Q′(s1,s2,s3,μ′(s1,s2,s3μ′)|θQ′)
其中gamma表示折扣因子,gamma∈[0,1]。
步骤12:
根据步骤10和步骤11分别获得的curQ和targetQ,计算损失函数的均方误差的梯度:
Loss=mean(diff(targetQ-curQ))
步骤13:
更新curQ中的参数θG
步骤14:
Actor的参数θμ通过梯度的蒙特卡洛估计来更新,如下
Figure BDA0003753473190000211
步骤15:
利用参数θG和θμ采用滑动平均的方式分别来更新target critic network和target actor network的参数θQ′和θμ′
θQ′←ρθG+(1-ρ)θQ′
θμ′←ρθμ+(1-ρ)θμ′
其中ρ∈(0,1)是超参数。
步骤16:
未达到内循环迭代最大次数,即状态的最大步数tmax;返回步骤7,否则返回步骤6;若达到外循环迭代最大次数则输出最优动作
Figure BDA0003753473190000221
以及该动作所对应的状态
Figure BDA0003753473190000222
Figure BDA0003753473190000223
本发明通过基站全双工智能天线选择及上下行用户静默标识进行功率分配,有效提升小区内上下行用户总的频谱效率。同时在深度强化学习基础上进一步降低动作和状态的选择个数,有效缩短了算法学习时间。因此本发明在满足通信系统用户QoS前提下,降低了计算复杂度,适合在全双工大规模MIMO无线通信系统上部署。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于智能天线的MIMO全双工功率分配方法,其特征在于,包括以下步骤:
S1、建立全双工大规模MIMO网络模型;所述全双工大规模MIMO网络模型包括MIMO网络、一个配备有N根天线的基站和Z个与基站进行通信的用户,基站工作在全双工模式,每个用户配备一根天线,且用户工作在半双工模式;
S2、定义全双工大规模MIMO网络模型中智能天线、用户状态、子载波分配三要素;所述智能天线为基站每根天线智能选择四种工作模式之一,四种工作模式包括用于发送、用于接收、发送和接收并存以及不发送也不接收;所述用户状态定义为采用全局唯一标识为所有上下行用户定义当前时刻状态,构建上行用户集合和下行用户集合;所述子载波分配包括:根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵
Figure FDA0003753473180000015
所述再分配的子载波分配矩阵
Figure FDA0003753473180000011
表示上下行使能用户的子载波分配状况;
S3、构建全双工大规模MIMO网络模型的优化后的频谱效率目标函数;
S4、建立DDPG模型求解优化后的频谱效率目标函数:建立与全双工大规模MIMO网络模型映射的DDPG模型,所述DDPG模型包括智能体、状态、动作和奖励,并设有DDPG网络,DDPG网络包括Actor和Critic两个结构不同的神经网络;
S5、优化DDPG模型中的状态和动作:基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,得到缩减后的动作和状态空间;
S6、运行DDPG模型输出最优动作和状态,实现MIMO全双工功率分配。
2.根据权利要求1所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S2中上行用户集合和下行用户集合为:
当前时刻上行用户满足
Figure FDA0003753473180000012
Figure FDA0003753473180000016
下行用户满足
Figure FDA0003753473180000013
α2β-1(t)为当前时刻第β个用户的上行业务标识,α(t)为当前时刻第β个用户的下行业务标识;全局唯一标识A={α1(t),α2(t),...,α2Z(t)},其中,α2Z(t)为第Z个用户在t时刻的业务标识;其中,
Figure FDA0003753473180000014
Figure FDA0003753473180000021
α2β-1(t)=1,表示当前时刻用户β准使能上行业务,α2β-1(t)=0,表示当前时刻用户β不使能上行业务,α2β-1(t)=2,表示当前时刻用户β预调用上行业务,不会被静默;α(t)=1,表示当前时刻用户β准使能下行业务,α(t)=0,表示当前时刻用户β不使能下行业务,α(t)=2,表示当前时刻用户β预调用下行业务,不会被静默;Sicu(t-1)=1或0分别表示前一时刻该用户上行业务静默或未被静默;Sicd(t-1)=1或0分别表示前一时刻该用户下行业务静默或未被静默;Requ(t)=1或0表示当前时刻该用户收到或未收到上行业务需求;Reqd(t)=1或0表示当前时刻该用户收到或未收到下行业务需求。
3.根据权利要求2所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S2中根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵
Figure FDA0003753473180000022
包括:
根据上行用户集合和下行用户集合定义当前时刻上行用户业务状态矩阵eu和下行用户业务状态矩阵ed;上行用户业务状态矩阵eu和下行用户业务状态矩阵ed确定之后定义再分配的子载波分配矩阵
Figure FDA0003753473180000023
当前时刻上行用户业务状态矩阵eu和下行用户业务状态矩阵ed为:
Figure FDA0003753473180000024
Figure FDA0003753473180000025
其中
Figure FDA0003753473180000026
定义为:
Figure FDA0003753473180000027
Figure FDA0003753473180000028
定义为:
Figure FDA0003753473180000029
其中,1≤j≤J,1≤k≤K;
Figure FDA00037534731800000210
表示(J+K-S)个上下行使能用户的子载波分配状况,Z个用户包括J个上行用户、K个下行用户和O个休眠用户,J+K+O=Z;其中
Figure FDA0003753473180000031
Figure FDA0003753473180000032
Figure FDA0003753473180000033
1≤z≤Z;1≤m≤M;
Figure FDA0003753473180000034
满足:
Figure FDA0003753473180000035
Figure FDA0003753473180000036
Figure FDA0003753473180000037
子载波集合
Figure FDA0003753473180000038
Figure FDA0003753473180000039
M为子载波个数;上行用户集合
Figure FDA00037534731800000310
J为上行用户个数;下行用户集合
Figure FDA00037534731800000311
K为下行用户个数;被静默的上下行用户集合
Figure FDA00037534731800000312
S为被静默的上下行用户个数。
4.根据权利要求2所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S3中优化后的频谱效率目标函数为:
Figure FDA00037534731800000313
Figure FDA00037534731800000314
Figure FDA00037534731800000315
Figure FDA00037534731800000316
其中,R表示上下行用户总的频谱效率,G为综合矩阵,
Figure FDA00037534731800000317
为天线和用户不匹配的元素置零的综合矩阵,
Figure FDA00037534731800000318
为上行用户业务状态矩阵eu和下行用户业务状态矩阵ed确定后再分配的子载波分配矩阵,xu表示上行用户发送给基站的符号,xd表示基站发送给下行用户的符号,qu和qd是基站天线状态矩阵,分别表示基站用于上行接收和下行发射的天线,wk是第k个下行用户的预编码矩阵,满足wk∈W={w1,w2,...,wK},W为所有下行用户的预编码矩阵,即基站下行预编码矩阵,pj是第j个上行用户的发射功率,满足pj∈P={p1,p2,...,pJ},P为所有上行用户的发射功率;Z个用户包括J个上行用户、K个下行用户和O个休眠用户,J+K+O=Z;子载波集合
Figure FDA00037534731800000417
M为子载波个数;上行用户集合
Figure FDA0003753473180000041
J为上行用户个数;下行用户集合
Figure FDA0003753473180000042
Figure FDA0003753473180000043
K为下行用户个数;被静默的上下行用户集合
Figure FDA0003753473180000044
S为被静默的上下行用户个数。
5.根据权利要求4所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S4中,所述智能体为全双工大规模MIMO网络模型中的智能天线和上下行用户;
所述状态为:上行用户的信干噪比
Figure FDA0003753473180000045
和下行用户的信干噪比
Figure FDA0003753473180000046
基站天线与第j个上行用户匹配情况
Figure FDA0003753473180000047
和基站天线与第k个下行用户匹配情况
Figure FDA0003753473180000048
及每个上下行用户的子载波分配
Figure FDA0003753473180000049
分别记为状态
Figure FDA00037534731800000410
Figure FDA00037534731800000411
s={s1,s2,s3};
所述动作为:基站下行预编码矩阵W,上行用户发射功率pj∈P,记为动作a={W;pj∈P};
所述奖励为:上行用户的频谱效率
Figure FDA00037534731800000412
和下行用户的频谱效率
Figure FDA00037534731800000413
其中:
Figure FDA00037534731800000414
Figure FDA00037534731800000415
记为
Figure FDA00037534731800000416
6.根据权利要求5所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S4中DDPG网络设有Actor和Critic两个结构不同的神经网络,其中各自的神经网络又包含一个与自身结构相同但参数不同的副本网络,自身网络记为target_net,副本网络记为eval_net,Actor和Critic共包含四个神经网络分别记为:critic_target_net:Q′(s1,s2,s3,a|θQ′)、critic_eval_net:Q(s1,s2,s3,a|θG)、actor_target_net:μ′(s1,s2,s3Q′)、actor_eval_net:μ(s1,s2,s3G)。
7.根据权利要求4所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S5中基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,计算公式为:
Figure FDA0003753473180000051
Figure FDA0003753473180000052
求解得到pj=pmin,wk=diag(0,…,0,wmin,0,…0);
缩减后的动作
Figure FDA0003753473180000053
状态
Figure FDA0003753473180000054
8.根据权利要求5所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S6包括:
S61、为critic_eval_net:Q(s1,s2,s3,a|θG)和actor_evalnet:μ(s1,s2,s3μ)中的θG和θμ随机赋初值;
S62、分别把eval网络中的θG和θμ赋值给target网络中的θQ′和θμ′
S63、初始化经验池R,经验池R中存储若干个{st,at,rt};
S64、为动作
Figure FDA0003753473180000055
赋初值,上下行用户采取等功率分配策略;
S65、进行迭代,迭代包括外循环和内循环两层,外循环迭代重置状态,内循环迭代对状态步数进行遍历,直至达到外循环迭代最大次数,输出最优动作
Figure FDA0003753473180000056
Figure FDA0003753473180000057
以及该动作所对应的状态
Figure FDA0003753473180000058
Figure FDA0003753473180000059
实现MIMO全双工功率分配。
9.根据权利要求8所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,所述步骤S65中外循环和内循环过程包括:
S651、进入外循环迭代,外循环迭代对状态s0赋当前值;
S652、进入内循环迭代,内循环迭代每一次都从actor_eval_net中选择动作at,将动作at代入全双工环境,状态从st迁移至st+1并获得奖励rt
S653、把当前状态st、下一状态st+1以及选择的动作at和获得的奖励rt分别存放于经验池R中;
S654、从经验池R中随机抽取若干组(st,at,rt,st+1)来训练DDPG网络;
S653、通过eval critic network计算动作at下的curQ:curQ=Q(s1,s2,s3,a|θG);
S654、根据target actor network输出的动作at+1,利用target critic network为eval critic network计算targetQ,targetQ的计算公式为:
targetQ=rt+gamma·Q′(s1,s2,s3,μ′(s1,s2,s3μ′)|θQ′)
其中gamma表示折扣因子,gamma[0,1];
S655、根据获得的curQ和targetQ,计算损失函数的均方误差的梯度,均方误差的梯度计算公式为:
Loss=mean(diff(targetQ-curQ))
S656、更新curQ中的参数θG
S657、通过梯度的蒙特卡洛估计方法更新Actor的参数θμ;蒙特卡洛估计方法更新Actor的参数θμ的计算公式为:
Figure FDA0003753473180000061
S658、利用参数θG和θμ采用滑动平均的方式分别来更新target critic network和target actor network的参数θQ′和θμ′;其计算公式为:
θQ′←ρθG+(1-ρ)θQ′
θμ′←ρθμ+(1-ρ)θμ′
其中ρ∈(0,1)是超参数;
S659、判断是否达到内循环迭代最大次数,若否,则返回S652;若是,则返回S651;判断是否达到外循环迭代最大次数,若否,则返回S651;若是,则输出最优动作
Figure FDA0003753473180000062
以及该动作所对应的状态
Figure FDA0003753473180000063
Figure FDA0003753473180000064
实现MIMO全双工功率分配。
10.根据权利要求9所述的一种基于智能天线的MIMO全双工功率分配方法,其特征在于,步骤S652中状态从st迁移至st+1并获得奖励rt,计算公式包括:
Figure FDA0003753473180000071
Figure FDA0003753473180000072
Figure FDA0003753473180000073
其中,t和(t+1)时刻分别定义为当前时刻和下一时刻。
CN202210851953.3A 2022-07-19 2022-07-19 一种基于智能天线的mimo全双工功率分配方法 Pending CN115278896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210851953.3A CN115278896A (zh) 2022-07-19 2022-07-19 一种基于智能天线的mimo全双工功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210851953.3A CN115278896A (zh) 2022-07-19 2022-07-19 一种基于智能天线的mimo全双工功率分配方法

Publications (1)

Publication Number Publication Date
CN115278896A true CN115278896A (zh) 2022-11-01

Family

ID=83768007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210851953.3A Pending CN115278896A (zh) 2022-07-19 2022-07-19 一种基于智能天线的mimo全双工功率分配方法

Country Status (1)

Country Link
CN (1) CN115278896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116318288A (zh) * 2023-05-23 2023-06-23 江苏集萃移动通信技术研究所有限公司 一种基于智能反射面的mimo全双工功率分配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103974404A (zh) * 2014-05-15 2014-08-06 西安电子科技大学 无线多天线虚拟mimo中基于最大化有效容量功率分配方案
WO2016172651A1 (en) * 2015-04-24 2016-10-27 Skylark Wireless, Llc Technique for full-duplex transmission in many-antenna mu-mimo systems
CN108471621A (zh) * 2018-06-07 2018-08-31 华南理工大学 一种基于电磁波供能的通信方法
CN108880734A (zh) * 2018-04-28 2018-11-23 哈尔滨工程大学 量子回溯搜索优化的CCFD-Massive MIMO系统功率分配方法
CN109890036A (zh) * 2019-01-30 2019-06-14 西北师范大学 一种异构网络的自回程方法
CN113242066A (zh) * 2021-05-10 2021-08-10 东南大学 一种多小区大规模mimo通信智能功率分配方法
CN113271127A (zh) * 2021-05-19 2021-08-17 东南大学 一种基于最优保留遗传算法的分布式全双工大规模mimo系统天线工作模式选择方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103974404A (zh) * 2014-05-15 2014-08-06 西安电子科技大学 无线多天线虚拟mimo中基于最大化有效容量功率分配方案
WO2016172651A1 (en) * 2015-04-24 2016-10-27 Skylark Wireless, Llc Technique for full-duplex transmission in many-antenna mu-mimo systems
CN108880734A (zh) * 2018-04-28 2018-11-23 哈尔滨工程大学 量子回溯搜索优化的CCFD-Massive MIMO系统功率分配方法
CN108471621A (zh) * 2018-06-07 2018-08-31 华南理工大学 一种基于电磁波供能的通信方法
CN109890036A (zh) * 2019-01-30 2019-06-14 西北师范大学 一种异构网络的自回程方法
CN113242066A (zh) * 2021-05-10 2021-08-10 东南大学 一种多小区大规模mimo通信智能功率分配方法
CN113271127A (zh) * 2021-05-19 2021-08-17 东南大学 一种基于最优保留遗传算法的分布式全双工大规模mimo系统天线工作模式选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUNBEI PAN, BIN ZHOU, AND ZHIYONG BU: "Optimal Power Allocation with Multiple Joint Associations in Multi-User MIMO Full-Duplex Systems", IEEE ACCESS, vol. 11, 29 December 2022 (2022-12-29), pages 1 - 18 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116318288A (zh) * 2023-05-23 2023-06-23 江苏集萃移动通信技术研究所有限公司 一种基于智能反射面的mimo全双工功率分配方法
CN116318288B (zh) * 2023-05-23 2023-08-04 江苏集萃移动通信技术研究所有限公司 一种基于智能反射面的mimo全双工功率分配方法

Similar Documents

Publication Publication Date Title
Yang et al. Optimal resource allocation in full-duplex ambient backscatter communication networks for wireless-powered IoT
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN104640220B (zh) 一种基于noma系统的频率和功率分配方法
Pradhan et al. Reconfigurable intelligent surface (RIS)-enhanced two-way OFDM communications
CN112601284B (zh) 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
Liu et al. Reinforcement-learning-based dynamic spectrum access for software-defined cognitive industrial internet of things
CN109039504B (zh) 基于非正交多址接入的认知无线电能效功率分配方法
WO2022262104A1 (zh) 能效公平无蜂窝网络的资源分配及预编码方法与装置
CN103249157B (zh) 不完美csi条件下的基于跨层调度机制的资源分配方法
CN109861728B (zh) 大规模mimo系统的联合多中继选择与时隙资源配置方法
Nguyen et al. Power minimization in MIMO cognitive networks using beamforming games
Liu et al. Resource allocation based on user pairing and subcarrier matching for downlink non-orthogonal multiple access networks
CN110337148B (zh) 基于非正交多址接入的认知无线电能效资源分配方法
CN113596785A (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN105704824A (zh) 一种无线网络的多维资源分配的方法
CN106028456A (zh) 一种5g高密度网络中虚拟小区的功率分配方法
Zhang et al. Dynamic user-centric clustering for uplink cooperation in multi-cell wireless networks
CN110191476B (zh) 一种基于可重构天线阵列的非正交多址接入方法
CN115278896A (zh) 一种基于智能天线的mimo全双工功率分配方法
CN106851726A (zh) 一种基于最低速率约束的跨层资源分配方法
Li et al. Sum-rate maximization for cognitive relay NOMA Systems with channel uncertainty
Qu et al. Power control based multiuser full-duplex MAC protocol for the next generation wireless networks
CN107466097B (zh) 一种非正交多址接入系统的功率分配方法
CN116684883A (zh) 频谱优化方法及装置
Zhang et al. A convolutional neural network based resource management algorithm for NOMA enhanced D2D and cellular hybrid networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination