CN110971279A - 一种毫米波通信系统中智能波束训练方法及预编码系统 - Google Patents

一种毫米波通信系统中智能波束训练方法及预编码系统 Download PDF

Info

Publication number
CN110971279A
CN110971279A CN201911387395.4A CN201911387395A CN110971279A CN 110971279 A CN110971279 A CN 110971279A CN 201911387395 A CN201911387395 A CN 201911387395A CN 110971279 A CN110971279 A CN 110971279A
Authority
CN
China
Prior art keywords
time slot
beam training
state
precoding
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911387395.4A
Other languages
English (en)
Other versions
CN110971279B (zh
Inventor
黄永明
章建军
徐春梅
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Network Communication and Security Zijinshan Laboratory
Original Assignee
Southeast University
Network Communication and Security Zijinshan Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Network Communication and Security Zijinshan Laboratory filed Critical Southeast University
Priority to CN201911387395.4A priority Critical patent/CN110971279B/zh
Publication of CN110971279A publication Critical patent/CN110971279A/zh
Application granted granted Critical
Publication of CN110971279B publication Critical patent/CN110971279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/08Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station
    • H04B7/0837Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station using pre-detection combining
    • H04B7/0842Weighted combining
    • H04B7/086Weighted combining using weights depending on external parameters, e.g. direction of arrival [DOA], predetermined weights or beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种毫米波通信中智能波束训练方法及预编码系统,该智能波束训练方法利用信道的时空相关性,通过感知环境的变化以确定最佳波束所在的码本区间。具体地,本发明利用马尔科夫决策过程(MDP)进行对问题进行建模;基于深度强化学习进行求解,创新性地构造图形化的状态空间以有效利用信道波束空间的结构信息,还提出差分化的动作空间以提高学习效率和收敛速度。本发明设计的智能波束训练方法能够感知环境的变化速率,并自适应地调整波束训练区间,这不仅降低了波束训练开销,同时有效地提高了系统的吞吐量。

Description

一种毫米波通信系统中智能波束训练方法及预编码系统
技术领域
本发明属于无线通信领域,尤其涉及一种毫米波通信系统中智能波束训练方法预编码系统。
背景技术
由于带宽短缺,移动数据需求的爆炸式增长给无线服务提供商克服带来前所未有的挑战。毫米波作为一项关键技术,由于其大带宽特性可以满足高速数据业务的需求,引起了人们的广泛关注。与微波相比,毫米波信号由于波长短导致更严重的路径损耗,但可以通过在接收/发送端安装大规模天线阵列以抵消路径损耗。考虑到射频(RF)链路的功耗和造价成本,毫米波通信系统通常采用混合模数架构,其中RF链路的数量远远少于天线数。在已有的混合预编码设计的工作中,大部分需要利用获得完全的信道状态信息(CSI)。在具有较多天线的毫米波通信系统中,估计信道信息需要大量的开销,CSI很难获取到。尤其是在移动等动态环境下,CSI的获取变得更加困难。
获取信道信息的一般方法是充分利用毫米波信道的稀疏特性,通过波束训练获取等效CSI信息,而不是直接获取CSI。在波束训练阶段,发送端/接收端可以基于码本通过分层搜索、穷搜和自适应的方式确定最优模拟域波束,但是此类方案主要适用于单用户单流传输的场景中。在大规模天线阵列系统使用上述搜索方式会造成极大的波束训练开销。特别是在动态或时变场景中,为获取高速的传输速率要求频繁切换波束,但快速变化的毫米波信道由于相干时间短而无法实现频繁而精确地波束训练,这也为波束训练带来挑战。
发明内容
发明目的:应对快速变化毫米波信道带来的挑战和针对现有技术中存在的问题,本发明旨在提出一种毫米波通信系统中智能波束训练方法预编码系统。基站通过接收用户反馈的等效信道确定最优波束所在的波束区间,基于该区间求解出最优混合预编码,并对预处理后的数据进行传输。该方法能自适应地根据环境状态信息确定动作,缩小波束的训练空间,能有效地降低波束训练开销,同时还可以提高系统的有效传输速率和吞吐量。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种毫米波通信系统中智能波束训练方法,包括如下步骤:
步骤(1):利用MDP过程为毫米波通信系统中的波束训练问题进行建模。
本步骤中,首先介绍毫米波通信系统模型,然后给出利用马尔科夫决策过程(MDP)为波束训练问题的数学建模。
步骤(1.1):毫米波通信系统模型。
在毫米波通信系统中,假设存在一个配备有N根天线和U条射频链路(RF)的基站,U个运动单天线用户,用户构成的集合用
Figure BDA0002343962080000021
表示。毫米波通信系统中全数字预编码实现成本高,所以通常采用混合模拟预编码
Figure BDA0002343962080000022
和数字预编码
Figure BDA0002343962080000023
对信号进行预处理。实际上,模拟预编码A通常基于预先给定的码本
Figure BDA0002343962080000024
进行设计,即模拟预编码A中的每一列都是从码本
Figure BDA0002343962080000025
中选出的码字(波束),其中,fi表示码本中的第i个码字,M表示码本中码字的数量。假设基站与用户u之间的信道矢量为
Figure BDA0002343962080000026
那么在用户u端接收信号表达为:
Figure BDA0002343962080000027
其中,su,sv表示发送给用户u和v的导频符号/数据,vu,vv表示对发送给用户u和v的所用的数字预编码矢量,wu表示在用户u接收到的复高斯噪声。
由于精确的信道矢量
Figure BDA0002343962080000028
的获取极其困难,通常使用波束训练的方式估计等效信道矢量hu,波束训练是指依次在码本不同的码字上发送导频信号得到等效信道矢量。码本
Figure BDA0002343962080000029
可以表示成一个复矩阵
Figure BDA00023439620800000210
则等效信道信息可以表达成:
Figure BDA00023439620800000211
模拟预编码A可以用码本复矩阵F与一个选择矩阵B表示,即A=FB,其中,B是一个M×M对角矩阵,若选择码本中第k码字,则选择矩阵B中的第k个对角元素为1,否则为0。公式(1.1)中的信号表达可以等效为:
Figure BDA00023439620800000212
设噪声wu的能量为σ2,用户u的信干噪比可以表示为:
Figure BDA00023439620800000213
步骤(1.2):利用MDP过程对毫米波通信中的波束训练问题进行数学建模。
根据公式(1.2),等效信道信息的获取要求在整个码本空间进行波束训练,这样将造成大量的训练开销。尤其在快变信道情况下,频繁的波束训练占用大部分时间,使得数据有效传输时间大大较少,系统吞吐量同样将降低。为了降低训练开销,一种有效的方法是减小波束训练的空间。利用MDP进行建模,创新性地构造图形化的状态空间以有效利用信道波束空间的结构信息,还提出差分化的动作空间以提高学习效率和收敛速度,在t时隙的动作、状态、奖励和Q值函数分别定义如下:
动作:确定波束训练区间的整数对(at,bt)=((a1,t,b1,t),(a2,t,b2,t),...,(aU,t,bU,t)),其中,au,t是用户u在t时隙与t-1时隙最优波束索引的差分值,反映环境的平均变化速率;bu,tt时隙所确定波束区间内波束的数量,反映环境变化的方差。那么,波束搜索从原来的整个空间
Figure BDA0002343962080000031
缩小为
Figure BDA0002343962080000032
其中,
Figure BDA0002343962080000033
表示在时隙t所有用户进行波束训练的波束空间,
Figure BDA0002343962080000034
表示用户u在时隙t进行波束训练的波束空间,是
Figure BDA0002343962080000035
的一个子集,若用户u在t-1时隙的最优波束索引为ku,t时隙的动作为(au,t,bu,t),则
Figure BDA0002343962080000036
状态:前c个时隙的历史波束训练结果(即等效信道信息)组成的“图像”,表示为St=[It-c,It-c+1,...,It-1],其中,It=[I1,t,I2,t,...,IU,t]∈RM×U,Iu,t中的第i个元素Iu,t(i)与等效信道矢量的第i个元素hu,t(i)满足:Iu,t(i)=|hu,t(i)|。以系统中存在两个用户为例,图5是状态设计直观表示。这样设计的状态可以更好地感知外界环境变化,从而更有效地挖掘有用的信息。
奖励:当前时隙的平均可达速率即rt=Rt。如图2所示,每个时隙包括决策时间、波束训练时间、混合模拟和数字预编码求解时间、数据传输时间和神经网络更新时间,波束训练的目标是确定最佳模拟波束和数字预编码矩阵以提高系统的传输速率。考虑到数据传输时间占用部分时隙,故采用平均可达速率Rt作为性能指标,平均可达速率定义为:
Figure BDA0002343962080000037
其中,ts、td、tp、tl和tC分别表示一个决策时间、波束训练时间、混合预编码求解的时间、神经网络参数更新时间,以及每个时隙的总时间。
这里,模拟预编码的设计准则是选择使得等效信道矩阵增益最大的码字,即若
Figure BDA0002343962080000041
则选择第ku个码字作为用户u的模拟预编码矢量,进而确定选择矩阵B。数字预编码的设计需要求解以下优化问题:
Figure BDA0002343962080000042
其中(1.6)的第一个式子表示和速率最大化的目标,SINRu由(1.4)定义,第二个式子表示功率约束,即混合预编码的功率不超过基站的最大发射功率P,ft即为t时隙的最优波束和数字预编码矩阵下的可达速率,即上述问题的优化目标。
Q值函数:在当前状态St下执行动作(at,bt)所能取得的折扣累积奖励,用来衡量决策的优劣,Q函数表达式如下:
Figure BDA0002343962080000043
其中,E是取期望操作,γ为折扣因子,rt+k表示在时隙t+k的奖励。
那么,该问题可以描述成找到一个决策使得折扣累积奖励最大化,即根据当前状态,确定波束训练区间
Figure BDA0002343962080000044
使得折扣累积等效传输速率最大。
步骤(2):利用深度强化学习求解步骤(1)中的MDP问题,需要搭建多层神经网络以拟合Q值函数(1.7)。
神经网络具有强大的能力,其本质是一个带参数的非线性函数,能逼近任意一个函数。一个深度神经网络由输入层,多个隐藏层和输出层构成,每一层有多个神经元,连续两个层之间由矩阵参数连接,神经元上有偏置参数和激活函数。为此,本发明使用深度神经网络不断更新参数逼近所Q值函数(1.7),设t时隙的神经网络参数为θt,则该神经网络所表示的非线性函数可以用Q(St,(at,bt)|θt)表示。神经网络的输入是步骤(1)中所涉及的状态和动作对,输出即为衡量在该状态下执行这个动作的Q值。随机初始化连接矩阵参数和偏置参数的值。
步骤(3):利用深度强化学习求解步骤(1)中的MDP问题,需要确定初始状态,即在前c时隙根据
Figure BDA0002343962080000045
求解出所有用户的最优波束。
波束区间的整数对(a,b)是相对上一时隙的最优波束的索引的差分区间,为了确定波束所在区间,还需求解初始化最优波束做参考。初始参考波束的求解过程如下:在前c个时隙对基站整个波束空间进行波束训练,即使用码本
Figure BDA0002343962080000051
中波束依次发送导频信号得到等效信道信息
Figure BDA0002343962080000052
则用户u的最优波束的索引为
Figure BDA0002343962080000053
同理,可以求出其他用户所对应的最佳波束及其索引,从而可以确定初始最优波束,根据步骤(1.2)中定义的状态,经过c个时隙的波束训练后可以得到初始状态Sc=[I0,I1,...,Ic-1]。
步骤(4):深度强化学习是通过不断与环境交互进行学习,在时隙t,根据当前状态为St和当前神经网络参数为θt确定最优波束所在的区间
Figure BDA0002343962080000054
设当前时隙为t,当前状态为St,当前网络参数为θt,那么以1-ε的概率根据(at,bt)=argmaxQ(St,(at,bt)|θt)确定动作整数对,以ε的概率从所有可能的整数对中等概率随机选出,其中0≤ε≤1是贪婪因子。由于at和bt都有M个可能,故有Num=M2个整数对。进一步,根据时隙(t-1)的最优波束索引
Figure BDA0002343962080000055
确定最优波束所在的区间
Figure BDA0002343962080000056
其中,
Figure BDA0002343962080000057
步骤(5):深度强化学习是通过不断与环境交互进行学习,在时隙t,对步骤(4)中所确定的波束区间
Figure BDA0002343962080000058
进行训练确定模拟预编码A和选择矩阵B,求解问题(1.6)可以得到所有用户在时隙t对应的数字预编码vu,t
Figure BDA0002343962080000059
进而得到系统的和速率ft和奖励rt
基站端根据对步骤(4)所确定的波束区间
Figure BDA00023439620800000510
利用导频进行波束训练;用户接收导频信息并反馈等效信道信息
Figure BDA00023439620800000511
基站端接收所有用户反馈的等效信道信息并将其存储至存储单元。选择第ku个码字作为用户u的模拟预编码矢量,
Figure BDA00023439620800000512
进而确定模拟预编码
Figure BDA00023439620800000513
和选择矩阵Bt
为了确定最优数字预编码矩阵vu,t
Figure BDA00023439620800000514
利用优化方法求解问题(1.6)。该问题是一个非凸问题,这里引入2U个辅助变量{pu,qu},问题(1.6)可以近似成如下:
Figure BDA0002343962080000061
利用迭代算法求解上述问题可得到数字预编码vu,t
Figure BDA0002343962080000062
将所求解的At和vu,t
Figure BDA0002343962080000063
带入(1.4)求解每个用户在时隙t的信干噪比SINRu,t
Figure BDA0002343962080000064
进而得到和速率
Figure BDA0002343962080000065
基站以可达传输速率ft进行数据传输,从而根据公式(1.5)可求得率Rt,即强化学习中奖励rt
步骤(6):深度强化学习不断与环境交互进行学习,其神经网络θt的更新是基于样本集
Figure BDA0002343962080000066
利用梯度下降法进行更新。
基站端从存储单元中采样出样本集
Figure BDA0002343962080000067
样本的形式为(s,(a,b),r,s'),表示在状态s下,执行动作(a,b)得到奖励r,然后转移到下一个状态s'。这里需要说明的是,存储单元内除了存历史波束扫描结果外,还存有以(s,(a,b),r,s')为形式的样本。如果存储单元中的样本数大于样本集数
Figure BDA0002343962080000068
则计算相应的损失函数为:
Figure BDA0002343962080000069
其中,yQ=r+γmaxQ(s′,(a′,b′)|θt)是目标Q值,利用梯度下降法,更新神经网络参数:
Figure BDA00023439620800000610
如果存储单元中的样本数小于样本集数
Figure BDA00023439620800000611
则θt+1=θt
步骤(7):基于上述步骤的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励等样本信息,下一个时隙t+1开始。
根据步骤(1)中所定义的状态,此时可以得到下一时隙t+1的状态St+1,将上述步骤中的状态St、动作(at,bt)、奖励rt和下一个状态St+1信息以(St,(at,bt),rt,St+1)的形式存入存储单元,下一个时隙开始,重复步骤(4)—(7)。
本发明还提出一种毫米波通信系统中智能波束训练的预编码系统,该系统包括如下单元:
波束训练模型构建单元,利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
状态初始化单元,确定初始状态,即在前c时隙求解出所有用户的最优波束;
函数拟合单元,搭建神经网络并初始化神经网络参数以拟合所定义的Q值函数;
决策处理单元,在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
参数计算单元,在时隙t,对所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt
网络参数更新单元,根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
时隙循环单元,基于上述单元的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
本发明还提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述毫米波通信系统中智能波束训练方法。
本发明还提出一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述毫米波通信系统中智能波束训练方法。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明的技术方案可以感知环境的变化速率,自适应地调整波束训练的区间,有效地减少了训练开销,提高了有效传输速率。
附图说明
图1为本发明实施例的毫米波智能波束训练算法流程图;
图2为本发明实施例中每个时隙决策、波束训练、混合预编码、数据传输以及神经网络更新时间分配的示意图;
图3为本发明实施例中动态通信环境示意图;
图4为本发明实施例中两种最优波束转移概率模型概率模型;
图5为本发明实施例中的状态示意图;
图6为本发明实施例中所提方法与其他现有方法的最优波束对齐成功率对比图;
图7为本发明实施例中所提方法与其他现有方法的平均可达速率性能曲线对比图;
图8为本发明实施例中在两种最优波束转移概率模型概率模型的性能平均可达速率性能曲线对比图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明所提的智能波束训练算法。
本发明实施例提出的毫米波通信系统中智能波束训练方法、装置及系统,通过不断地与环境交互,感知通信环境变化速率,能够有效地确定下一个时隙最佳波束所在的区间。一般情况下,由于此区间远小于整个码本空间,训练开销将相应的减少,系统的吞吐量将有效提高。此外,该方法不要求获知信道建模相关的先验知识,可以适用于更加复杂的动态场景。
如图1所示,本发明提出了一种毫米波通信系统中智能波束训练方法,包括如下步骤:
步骤(1):利用MDP过程为毫米波通信系统中的波束训练问题进行建模。
本步骤中,首先介绍毫米波通信系统模型,然后给出利用马尔科夫决策过程(MDP)为波束训练问题的数学建模。
步骤(1.1):毫米波通信系统模型。
在毫米波通信系统中,假设存在一个配备有N根天线和U条射频链路(RF)的基站,U个运动单天线用户,用户构成的集合用
Figure BDA0002343962080000081
表示。毫米波通信系统中全数字预编码实现成本高,所以通常采用混合模拟预编码
Figure BDA0002343962080000082
和数字预编码
Figure BDA0002343962080000083
对信号进行预处理。实际上,模拟预编码A通常基于预先给定的码本
Figure BDA0002343962080000084
进行设计,即模拟预编码A中的每一列都是从码本
Figure BDA0002343962080000085
中选出的码字(波束),其中,fi表示码本中的第i个码字,M表示码本中码字的数量。假设基站与用户u之间的信道矢量为
Figure BDA0002343962080000086
那么在用户u端接收信号表达为:
Figure BDA0002343962080000087
其中,su,sv表示发送给用户u和v的导频符号/数据,vu,vv表示对发送给用户u和v的所用的数字预编码矢量,wu表示在用户u接收到的复高斯噪声。
由于精确的信道矢量
Figure BDA0002343962080000091
的获取极其困难,通常使用波束训练的方式估计等效信道矢量hu,波束训练是指依次在码本不同的码字上发送导频信号得到等效信道矢量。码本
Figure BDA0002343962080000092
可以表示成一个复矩阵
Figure BDA0002343962080000093
则等效信道信息可以表达成:
Figure BDA0002343962080000094
模拟预编码A可以用码本复矩阵F与一个选择矩阵B表示,即A=FB,其中,B是一个M×M对角矩阵,若选择码本中第k码字,则选择矩阵B中的第k个对角元素为1,否则为0。公式(1.1)中的信号表达可以等效为:
Figure BDA0002343962080000095
设噪声wu的能量为σ2,用户u的信干噪比可以表示为:
Figure BDA0002343962080000096
步骤(1.2):利用MDP过程对毫米波通信中的波束训练问题进行数学建模。
根据公式(1.2),等效信道信息的获取要求在整个码本空间进行波束训练,这样将造成大量的训练开销。尤其在快变信道情况下,频繁的波束训练占用大部分时间,使得数据有效传输时间大大较少,系统吞吐量同样将降低。为了降低训练开销,一种有效的方法是减小波束训练的空间。利用MDP进行建模,创新性地构造图形化的状态空间以有效利用信道波束空间的结构信息,还提出差分化的动作空间以提高学习效率和收敛速度,在t时隙的动作、状态、奖励和Q值函数分别定义如下:
动作:确定波束训练区间的整数对(at,bt)=((a1,t,b1,t),(a2,t,b2,t),...,(aU,t,bU,t)),其中,au,t是用户u在t时隙与t-1时隙最优波束索引的差分值,反映环境的平均变化速率;bu,t是t时隙所确定波束区间内波束的数量,反映环境变化的方差。那么,波束搜索从原来的整个空间
Figure BDA0002343962080000097
缩小为
Figure BDA0002343962080000098
其中,
Figure BDA0002343962080000099
表示在时隙t所有用户进行波束训练的波束空间,
Figure BDA00023439620800000910
表示用户u在时隙t进行波束训练的波束空间,是
Figure BDA00023439620800000911
的一个子集,若用户u在t-1时隙的最优波束索引为ku,t时隙的动作为(au,t,bu,t),则
Figure BDA00023439620800000912
状态:前c个时隙的历史波束训练结果(即等效信道信息)组成的“图像”,表示为St=[It-c,It-c+1,...,It-1],其中,It=[I1,t,I2,t,...,IU,t]∈RM×U,Iu,t中的第i个元素Iu,t(i)与等效信道矢量的第i个元素hu,t(i)满足:Iu,t(i)=|hu,t(i)|。以系统中存在两个用户为例,图5是状态设计直观表示。这样设计的状态可以更好地感知外界环境变化,从而更有效地挖掘有用的信息。
奖励:当前时隙的平均可达速率即rt=Rt。如图2所示,每个时隙包括决策时间、波束训练时间、混合模拟和数字预编码求解时间、数据传输时间和神经网络更新时间,波束训练的目标是确定最佳模拟波束和数字预编码矩阵以提高系统的传输速率。考虑到数据传输时间占用部分时隙,故采用平均可达速率Rt作为性能指标,平均可达速率定义为:
Figure BDA0002343962080000101
其中,ts、td、tp、tl和tC分别表示一个决策时间、波束训练时间、混合预编码求解的时间、神经网络参数更新时间,以及每个时隙的总时间。
这里,模拟预编码的设计准则是选择使得等效信道矩阵增益最大的码字,即若
Figure BDA0002343962080000102
则选择第ku个码字作为用户u的模拟预编码矢量,进而确定选择矩阵B。数字预编码的设计需要求解以下优化问题:
Figure BDA0002343962080000103
其中(1.6)的第一个式子表示和速率最大化的目标,SINRu由(1.4)定义,第二个式子表示功率约束,即混合预编码的功率不超过基站的最大发射功率P,ft即为t时隙的最优波束和数字预编码矩阵下的可达速率,即上述问题的优化目标。
Q值函数:在当前状态St下执行动作(at,bt)所能取得的折扣累积奖励,用来衡量决策的优劣,Q函数表达式如下:
Figure BDA0002343962080000104
其中,E是取期望操作,γ为折扣因子,rt+k表示在时隙t+k的奖励。
那么,该问题可以描述成找到一个决策使得折扣累积奖励最大化,即根据当前状态,确定波束训练区间
Figure BDA0002343962080000105
使得折扣累积等效传输速率最大。
步骤(2):利用深度强化学习求解步骤(1)中的MDP问题,需要搭建多层神经网络以拟合Q值函数(1.7)。
神经网络具有强大的能力,其本质是一个带参数的非线性函数,能逼近任意一个函数。一个深度神经网络由输入层,多个隐藏层和输出层构成,每一层有多个神经元,连续两个层之间由矩阵参数连接,神经元上有偏置参数和激活函数。为此,本发明使用深度神经网络不断更新参数逼近所Q值函数(1.7),设t时隙的神经网络参数为θt,则该神经网络所表示的非线性函数可以用Q(St,(at,bt)|θt)表示。神经网络的输入是步骤(1)中所涉及的状态和动作对,输出即为衡量在该状态下执行这个动作的Q值。随机初始化连接矩阵参数和偏置参数的值。
步骤(3):利用深度强化学习求解步骤(1)中的MDP问题,需要确定初始状态,即在前c时隙根据
Figure BDA0002343962080000111
求解出所有用户的最优波束。
波束区间的整数对(a,b)是相对上一时隙的最优波束的索引的差分区间,为了确定波束所在区间,还需求解初始化最优波束做参考。初始参考波束的求解过程如下:在前c个时隙对基站整个波束空间进行波束训练,即使用码本
Figure BDA0002343962080000112
中波束依次发送导频信号得到等效信道信息
Figure BDA0002343962080000113
则用户u的最优波束的索引为
Figure BDA0002343962080000114
同理,可以求出其他用户所对应的最佳波束及其索引,从而可以确定初始最优波束,根据步骤(1.2)中定义的状态,经过c个时隙的波束训练后可以得到初始状态Sc=[I0,I1,...,Ic-1]。
步骤(4):深度强化学习是通过不断与环境交互进行学习,在时隙t,根据当前状态为St和当前神经网络参数为θt确定最优波束所在的区间
Figure BDA0002343962080000115
设当前时隙为t,当前状态为St,当前网络参数为θt,那么以1-ε的概率根据(at,bt)=argmaxQ(St,(at,bt)|θt)确定动作整数对,以ε的概率从所有可能的整数对中等概率随机选出,其中0≤ε≤1是贪婪因子。由于at和bt都有M个可能,故有Num=M2个整数对。进一步,根据时隙(t-1)的最优波束索引
Figure BDA0002343962080000116
确定最优波束所在的区间
Figure BDA0002343962080000121
其中,
Figure BDA0002343962080000122
步骤(5):深度强化学习是通过不断与环境交互进行学习,在时隙t,对步骤(4)中所确定的波束区间
Figure BDA0002343962080000123
进行训练确定模拟预编码A和选择矩阵B,求解问题(1.6)可以得到所有用户在时隙t对应的数字预编码vu,t
Figure BDA0002343962080000124
进而得到系统的和速率ft和奖励rt
基站端根据对步骤(4)所确定的波束区间
Figure BDA0002343962080000125
利用导频进行波束训练;用户接收导频信息并反馈等效信道信息
Figure BDA0002343962080000126
基站端接收所有用户反馈的等效信道信息并将其存储至存储单元。选择第ku个码字作为用户u的模拟预编码矢量,
Figure BDA0002343962080000127
进而确定模拟预编码
Figure BDA0002343962080000128
和选择矩阵Bt
为了确定最优数字预编码矩阵vu,t
Figure BDA0002343962080000129
利用优化方法求解问题(1.6)。该问题是一个非凸问题,这里引入2U个辅助变量{pu,qu},问题(1.6)可以近似成如下:
Figure BDA00023439620800001210
利用迭代算法求解上述问题可得到数字预编码vu,t
Figure BDA00023439620800001211
将所求解的At和vu,t
Figure BDA00023439620800001212
带入(1.4)求解每个用户在时隙t的信干噪比SINRu,t
Figure BDA00023439620800001213
进而得到和速率
Figure BDA00023439620800001214
基站以可达传输速率ft进行数据传输,从而根据公式(1.5)可求得率Rt,即强化学习中奖励rt
步骤(6):深度强化学习不断与环境交互进行学习,其神经网络θt的更新是基于样本集
Figure BDA00023439620800001215
利用梯度下降法进行更新。
基站端从存储单元中采样出样本集
Figure BDA00023439620800001216
样本的形式为(s,(a,b),r,s'),表示在状态s下,执行动作(a,b)得到奖励r,然后转移到下一个状态s'。这里需要说明的是,存储单元内除了存历史波束扫描结果外,还存有以(s,(a,b),r,s')为形式的样本。如果存储单元中的样本数大于样本集数
Figure BDA0002343962080000131
则计算相应的损失函数为:
Figure BDA0002343962080000132
其中,yQ=r+γmaxQ(s′,(a′,b′)|θt)是目标Q值,利用梯度下降法,更新神经网络参数:
Figure BDA0002343962080000133
如果存储单元中的样本数小于样本集数
Figure BDA0002343962080000134
则θt+1=θt
步骤(7):基于上述步骤的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励等样本信息,下一个时隙t+1开始。
根据步骤(1)中所定义的状态,此时可以得到下一时隙t+1的状态St+1,将上述步骤中的状态St、动作(at,bt)、奖励rt和下一个状态St+1信息以(St,(at,bt),rt,St+1)的形式存入存储单元,下一个时隙开始,重复步骤(4)—(7)。
本发明还提出一种毫米波通信系统中智能波束训练的预编码系统,该系统包括如下单元:
波束训练模型构建单元,利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
状态初始化单元,确定初始状态,即在前c时隙求解出所有用户的最优波束;
函数拟合单元,搭建神经网络并初始化神经网络参数以拟合所定义的Q值函数;
决策处理单元,在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
参数计算单元,在时隙t,对所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt
网络参数更新单元,根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
时隙循环单元,基于上述单元的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
本发明还提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述毫米波通信系统中智能波束训练方法。
本发明还提出一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述毫米波通信系统中智能波束训练方法。
为了说明所提方法(ESBT)的优势,本实例还给出了穷搜(exhaustive search)算法(ExSeBT)、层次搜索(hierarchical search)算法(HSBT)和基于Oracle的算法-理想化(OABT)的性能曲线。
图6给出了第一种最优波束转移概率模型和码本大小分别为64和128的情况下,所提智能波束训练方法与ExSeBT、HSBT关于波束对准成功率的对比图。在三种算法中,HSBT的性能最差,ExSeBT有最大的波束对准成功率。但使用ExSeBT算法需要扫描整个波束空间,这将产生大量时间消耗,如果环境变化或者信道变化快,该方法将不适用。当SNR或天线数量增加时,ExSeBT与ESBT算法之间的差距变小。
图7给出了第一种最优波束转移概率模型和码本大小分别为64和128的情况下,所提智能波束训练方法与ExSeBT、HSBT和OABT算法关于平均可达速率的对比图。可以看出所提的ESBT在三种种算法中能达到最佳性能,并OABT理想算法的性能。这是因为ESBT可以感知环境的变化,并智能地调整波束区间,从而有效地减少了波束训练的开销,并增加了数据传输时间。随着天线数量的增加,ESBT具有更加明显的优势。
图8给出了在两种最优波束转移概率模型和码本大小分别为64和128的情况下,所提智能波束算法与ExSeBT算法关于平均可达速率的对比图。由于ExSeBT算法不受环境变化的影响,该算法在两个转移概率模型下具有相同的性能。从图中还可以看到更关键的结论,即ESBT在两个转移概率模型下的取得基本一样的平均可达速率。这是因为尽管两种概率模型对应的环境变化不一致,但具有相同的变化率方差,故其对应相同的训练开销。

Claims (10)

1.一种毫米波通信系统中智能波束训练方法,其特征在于,该方法包括如下步骤:
步骤(1)利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
步骤(2)确定初始状态,即在前c时隙求解出所有用户的最优波束;
步骤(3)搭建神经网络并初始化神经网络参数以拟合步骤(1)中所定义的Q值函数;
步骤(4)在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
步骤(5)在时隙t,对步骤(4)中所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt
步骤(6)根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
步骤(7)基于上述步骤的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
2.根据权利要求1所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(1)的方法如下:
步骤(1.1):毫米波通信系统模型
在毫米波通信系统中,假设存在一个配备有N根天线和U条射频链路的基站,U个运动单天线用户,用户构成的集合用
Figure FDA0002343962070000011
表示,采用混合模拟预编码
Figure FDA0002343962070000012
和数字预编码
Figure FDA0002343962070000013
对信号进行预处理,模拟预编码A基于预先给定的码本
Figure FDA0002343962070000014
进行设计,即模拟预编码A中的每一列都是从码本
Figure FDA0002343962070000015
中选出的码字,其中,fi表示码本中的第i个码字,M表示码本中码字的数量,假设基站与用户u之间的信道矢量为
Figure FDA0002343962070000016
在用户u端接收信号表达为:
Figure FDA0002343962070000017
其中,su,sv表示发送给用户u和v的导频符号/数据,vu,vv表示对发送给用户u和v的所用的数字预编码矢量,wu表示在用户u接收到的复高斯噪声;
使用波束训练的方式估计等效信道矢量hu,波束训练是指依次在码本不同的码字上发送导频信号得到等效信道矢量,码本
Figure FDA0002343962070000021
可以表示成一个复矩阵
Figure FDA0002343962070000022
则等效信道信息表达成:
Figure FDA0002343962070000023
模拟预编码A可以用码本复矩阵F与一个选择矩阵B表示,即A=FB,其中,B是一个M×M对角矩阵,若选择码本中第k码字,则选择矩阵B中的第k个对角元素为1,否则为0,公式(1.1)中的信号表达可以等效为:
Figure FDA0002343962070000024
设噪声wu的能量为σ2,用户u的信干噪比可以表示为:
Figure FDA0002343962070000025
步骤(1.2):利用MDP过程对毫米波通信中的波束训练问题进行数学建模
动作:确定波束训练区间的整数对(at,bt)=((a1,t,b1,t),(a2,t,b2,t),...,(aU,t,bU,t)),其中,au,t是用户u在t时隙与t-1时隙最优波束索引的差分值,反映环境的平均变化速率;bu,t是t时隙所确定波束区间内波束的数量,反映环境变化的方差,波束搜索从原来的整个空间
Figure FDA0002343962070000028
缩小为
Figure FDA0002343962070000029
其中,
Figure FDA00023439620700000210
表示在时隙t所有用户进行波束训练的波束空间,
Figure FDA00023439620700000212
表示用户u在时隙t进行波束训练的波束空间,是
Figure FDA00023439620700000211
的一个子集,若用户u在t-1时隙的最优波束索引为ku,t时隙的动作为(au,t,bu,t),则
Figure FDA0002343962070000026
状态:前c个时隙的历史波束训练结果组成的图像,表示为St=[It-c,It-c+1,...,It-1],其中,It=[I1,t,I2,t,...,IU,t]∈RM×U,Iu,t中的第i个元素Iu,t(i)与等效信道矢量的第i个元素hu,t(i)满足:Iu,t(i)=|hu,t(i)|;
奖励:当前时隙的平均可达速率即rt=Rt,平均可达速率定义为:
Figure FDA0002343962070000027
其中,ts、td、tp、tl和tC分别表示一个决策时间、波束训练时间、混合预编码求解的时间、神经网络参数更新时间,以及每个时隙的总时间;
模拟预编码的设计准则是选择使得等效信道矩阵增益最大的码字,即若
Figure FDA0002343962070000031
则选择第ku个码字作为用户u的模拟预编码矢量,进而确定选择矩阵B,数字预编码的设计需要求解以下优化问题:
Figure FDA0002343962070000032
其中,(1.6)的第一个式子表示和速率最大化的目标,SINRu由(1.4)定义,第二个式子表示功率约束,即混合预编码的功率不超过基站的最大发射功率P,ft即为t时隙的最优波束和数字预编码矩阵下的可达速率,即上述问题的优化目标;
Q值函数:在当前状态St下执行动作(at,bt)所能取得的折扣累积奖励,用来衡量决策的优劣,Q函数表达式如下:
Figure FDA0002343962070000033
其中,E是取期望操作,γ为折扣因子,rt+k表示在时隙t+k的奖励,该问题可以描述成找到一个决策使得折扣累积奖励最大化,即根据当前状态,确定波束训练区间
Figure FDA0002343962070000034
使得折扣累积等效传输速率最大。
3.根据权利要求2所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(2)的方法如下:波束区间的整数对(a,b)是相对上一时隙的最优波束的索引的差分区间,初始参考波束的求解过程如下:在前c个时隙对基站整个波束空间进行波束训练,即使用码本
Figure FDA0002343962070000035
中波束依次发送导频信号得到等效信道信息
Figure FDA0002343962070000036
则用户u的最优波束的索引为
Figure FDA0002343962070000037
同理,可以求出其它用户所对应的最佳波束及其索引,从而可以确定初始最优波束,根据步骤(1.2)中定义的状态,经过c个时隙的波束训练后可以得到初始状态Sc=[I0,I1,...,Ic-1]。
4.根据权利要求3所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(3)的方法如下:使用神经网络不断更新参数逼近Q值函数(1.7),设t时隙的神经网络参数为θt,则该神经网络所表示的非线性函数可以用Q(St,(at,bt)|θt)表示,神经网络的输入是步骤(1)中所涉及的状态和动作对,输出即为衡量在该状态下执行这个动作的Q值。
5.根据权利要求4所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(4)的方法如下:设当前时隙为t,当前状态为St,当前网络参数为θt,以1-ε的概率根据(at,bt)=arg maxQ(St,(at,bt)|θt)确定动作整数对,以ε的概率从所有可能的整数对中等概率随机选出,其中0≤ε≤1是贪婪因子,整数对为Num=M2个,根据时隙(t-1)的最优波束索引
Figure FDA0002343962070000041
确定最优波束所在的区间
Figure FDA0002343962070000042
其中,
Figure FDA0002343962070000043
6.根据权利要求5所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(5)的方法如下:
(6.1)基站端根据对步骤(4)所确定的波束区间
Figure FDA0002343962070000044
利用导频进行波束训练;用户接收导频信息并反馈等效信道信息
Figure FDA0002343962070000045
基站端接收所有用户反馈的等效信道信息并将其存储至存储单元,选择第ku个码字作为用户u的模拟预编码矢量,
Figure FDA0002343962070000046
进而确定模拟预编码
Figure FDA0002343962070000047
和选择矩阵Bt
(6.2)利用优化方法求解问题(1.6)以确定最优数字预编码矩阵
Figure FDA0002343962070000048
该问题是一个非凸问题,引入2U个辅助变量{pu,qu},问题(1.6)可以近似成如下:
Figure FDA0002343962070000049
利用迭代算法求解上述问题可得到数字预编码
Figure FDA00023439620700000410
将所求解的At
Figure FDA00023439620700000411
带入(1.4)求解每个用户在时隙t的信干噪比
Figure FDA00023439620700000412
进而得到可达和速率
Figure FDA00023439620700000413
基站以速率ft进行数据传输,从而根据公式(1.5)可求得Rt,即强化学习中奖励rt
7.根据权利要求6所述的一种毫米波通信系统中智能波束训练方法,其特征在于,步骤(6)的方法如下:基站端从存储单元中采样出样本集
Figure FDA0002343962070000055
样本的形式为(s,(a,b),r,s'),表示在状态s下,执行动作(a,b)得到奖励r,然后转移到下一个状态s',存储单元内除了存历史波束扫描结果外,还存有以(s,(a,b),r,s')为形式的样本,如果存储单元中的样本数大于样本集数
Figure FDA0002343962070000051
则计算相应的损失函数为:
Figure FDA0002343962070000052
其中,yQ=r+γmaxQ(s′,(a′,b′)|θt)是目标Q值,利用梯度下降法,更新神经网络参数:
Figure FDA0002343962070000053
如果存储单元中的样本数小于样本集数
Figure FDA0002343962070000054
则θt+1=θt
8.根据权利要求7所述的一种毫米波通信系统中智能波束训练方法,其特征在于,根据步骤(1)中所定义的状态,可以得到下一时隙t+1的状态St+1,将上述步骤中的状态St、动作(at,bt)、奖励rt和下一个状态St+1信息以(St,(at,bt),rt,St+1)的形式存入存储单元,下一个时隙开始,重复步骤(4)—(7)。
9.一种毫米波通信系统中智能波束训练的预编码系统,其特征在于,该系统包括如下单元:
波束训练模型构建单元,利用MDP过程为毫米波通信系统中的波束训练问题进行建模,设计图形化的状态,差分化的动作,有效传输速率奖励,并构建Q值函数;
状态初始化单元,确定初始状态,即在前c时隙求解出所有用户的最优波束;
函数拟合单元,搭建神经网络并初始化神经网络参数以拟合所定义的Q值函数;
决策处理单元,在时隙t,根据当前状态为St和当前神经网络参数为θt确定差分动作以确定最优波束所在的区间;
参数计算单元,在时隙t,对所确定的波束区间进行训练确定模拟预编码At和选择矩阵Bt,求解所有用户在时隙t对应的数字预编码vu,t,进而得到系统的和速率ft和奖励rt
网络参数更新单元,根据深度强化学习,通过不断与环境交互,对神经网络参数进行更新;
时隙循环单元,基于上述单元的交互过程,基站存储时隙t与环境交互所得到状态、动作和奖励样本信息,t=t+1,下一个时隙开始,重复步骤(4)-(7)。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述权利要求1-8任一项的毫米波通信系统中智能波束训练方法。
CN201911387395.4A 2019-12-30 2019-12-30 一种毫米波通信系统中智能波束训练方法及预编码系统 Active CN110971279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911387395.4A CN110971279B (zh) 2019-12-30 2019-12-30 一种毫米波通信系统中智能波束训练方法及预编码系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911387395.4A CN110971279B (zh) 2019-12-30 2019-12-30 一种毫米波通信系统中智能波束训练方法及预编码系统

Publications (2)

Publication Number Publication Date
CN110971279A true CN110971279A (zh) 2020-04-07
CN110971279B CN110971279B (zh) 2021-09-21

Family

ID=70037196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911387395.4A Active CN110971279B (zh) 2019-12-30 2019-12-30 一种毫米波通信系统中智能波束训练方法及预编码系统

Country Status (1)

Country Link
CN (1) CN110971279B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111641955A (zh) * 2020-06-01 2020-09-08 北京邮电大学 智能反射面辅助毫米波通信网络的前摄性波束切换方法
CN111917447A (zh) * 2020-08-12 2020-11-10 电子科技大学 基于波束选择的低频辅助混合预编码设计方法
CN111953395A (zh) * 2020-07-14 2020-11-17 东南大学 毫米波ofdm分布式天线系统的混合预编码方法
CN112866904A (zh) * 2021-01-25 2021-05-28 东南大学 基于波束索引地图的免信道训练大维通信波束对齐方法
CN112888071A (zh) * 2021-01-22 2021-06-01 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN112910524A (zh) * 2021-02-03 2021-06-04 电子科技大学 基于概率模型的毫米波波束跟踪方法
CN112929306A (zh) * 2021-02-08 2021-06-08 西北工业大学 一种基于深度学习信道估计的多播频控阵方法
CN113242068A (zh) * 2021-05-10 2021-08-10 东南大学 一种基于深度强化学习的智能通信波束碰撞避免方法
CN113242071A (zh) * 2021-04-30 2021-08-10 东南大学 基于集成深度学习的协作波束成形方法
CN113285740A (zh) * 2021-05-20 2021-08-20 东南大学 一种基于强化学习的波束训练方法
CN113364505A (zh) * 2021-06-02 2021-09-07 东南大学 一种用于超高速串行接口阵列天线的自适用波束控制fpga实现方法
CN113411110A (zh) * 2021-06-04 2021-09-17 东南大学 一种基于深度强化学习的毫米波通信波束训练方法
CN113422627A (zh) * 2021-05-31 2021-09-21 北京邮电大学 一种基于自适应梯度反向传播的混合预编码方法及装置
CN113437999A (zh) * 2021-06-23 2021-09-24 东南大学 一种抑制毫米波通信系统中波束漂移效应的自适应波束宽度调制算法
CN113783593A (zh) * 2021-07-30 2021-12-10 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统
CN113965233A (zh) * 2021-10-19 2022-01-21 东南大学 一种基于深度学习的多用户宽带毫米波通信资源分配方法及系统
US20220038146A1 (en) * 2020-08-03 2022-02-03 Samsung Electronics Co., Ltd. Method and apparatus for site-specific and dynamic base station beam codebook design
CN114745032A (zh) * 2022-04-06 2022-07-12 东南大学 一种无蜂窝大规模mimo智能分布式波束选择方法
CN114844538A (zh) * 2022-04-29 2022-08-02 东南大学 一种基于宽学习的毫米波mimo用户增量协作波束选择方法
CN115103372A (zh) * 2022-06-17 2022-09-23 东南大学 一种基于深度强化学习的多用户mimo系统用户调度方法
WO2022213856A1 (zh) * 2021-04-06 2022-10-13 索尼集团公司 用于无线通信的电子设备和方法、计算机可读存储介质
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置
WO2023088178A1 (zh) * 2021-11-19 2023-05-25 中兴通讯股份有限公司 波束确定方法、节点和存储介质
WO2023206754A1 (zh) * 2022-04-27 2023-11-02 四川太赫兹通信有限公司 一种波束对准方法、装置、基站及计算机可读存储介质
CN113783593B (zh) * 2021-07-30 2024-05-31 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108574954A (zh) * 2017-03-08 2018-09-25 索尼公司 无线通信系统中的电子设备和方法
US20190191425A1 (en) * 2017-12-15 2019-06-20 Qualcomm Incorporated Methods and apparatuses for dynamic beam pair determination
CN110089054A (zh) * 2019-03-19 2019-08-02 北京小米移动软件有限公司 传输信息的方法、装置、用户设备及基站
CN110417444A (zh) * 2019-07-08 2019-11-05 东南大学 一种基于深度学习的毫米波信道波束训练方法
US10477418B1 (en) * 2018-12-17 2019-11-12 Loon Llc Operation of sectorized communications from aerospace platforms using reinforcement learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108574954A (zh) * 2017-03-08 2018-09-25 索尼公司 无线通信系统中的电子设备和方法
US20190191425A1 (en) * 2017-12-15 2019-06-20 Qualcomm Incorporated Methods and apparatuses for dynamic beam pair determination
US10477418B1 (en) * 2018-12-17 2019-11-12 Loon Llc Operation of sectorized communications from aerospace platforms using reinforcement learning
CN110089054A (zh) * 2019-03-19 2019-08-02 北京小米移动软件有限公司 传输信息的方法、装置、用户设备及基站
CN110417444A (zh) * 2019-07-08 2019-11-05 东南大学 一种基于深度学习的毫米波信道波束训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUNMEI XU 等: "Hybrid Precoding for Broadband Millimeter-Wave Communication Systems With Partial CSI", 《IEEE ACCESS》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111641955A (zh) * 2020-06-01 2020-09-08 北京邮电大学 智能反射面辅助毫米波通信网络的前摄性波束切换方法
CN111953395A (zh) * 2020-07-14 2020-11-17 东南大学 毫米波ofdm分布式天线系统的混合预编码方法
US20220038146A1 (en) * 2020-08-03 2022-02-03 Samsung Electronics Co., Ltd. Method and apparatus for site-specific and dynamic base station beam codebook design
US11923934B2 (en) * 2020-08-03 2024-03-05 Samsung Electronics Co., Ltd. Method and apparatus for site-specific and dynamic base station beam codebook design
CN111917447A (zh) * 2020-08-12 2020-11-10 电子科技大学 基于波束选择的低频辅助混合预编码设计方法
CN112888071A (zh) * 2021-01-22 2021-06-01 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN112866904A (zh) * 2021-01-25 2021-05-28 东南大学 基于波束索引地图的免信道训练大维通信波束对齐方法
CN112910524A (zh) * 2021-02-03 2021-06-04 电子科技大学 基于概率模型的毫米波波束跟踪方法
CN112929306A (zh) * 2021-02-08 2021-06-08 西北工业大学 一种基于深度学习信道估计的多播频控阵方法
CN112929306B (zh) * 2021-02-08 2022-11-11 西北工业大学 一种基于深度学习信道估计的多播频控阵方法
WO2022213856A1 (zh) * 2021-04-06 2022-10-13 索尼集团公司 用于无线通信的电子设备和方法、计算机可读存储介质
CN113242071A (zh) * 2021-04-30 2021-08-10 东南大学 基于集成深度学习的协作波束成形方法
CN113242068A (zh) * 2021-05-10 2021-08-10 东南大学 一种基于深度强化学习的智能通信波束碰撞避免方法
CN113285740A (zh) * 2021-05-20 2021-08-20 东南大学 一种基于强化学习的波束训练方法
CN113285740B (zh) * 2021-05-20 2023-02-14 东南大学 一种基于强化学习的波束训练方法
CN113422627A (zh) * 2021-05-31 2021-09-21 北京邮电大学 一种基于自适应梯度反向传播的混合预编码方法及装置
CN113422627B (zh) * 2021-05-31 2022-07-12 北京邮电大学 一种基于自适应梯度反向传播的混合预编码方法及装置
CN113364505A (zh) * 2021-06-02 2021-09-07 东南大学 一种用于超高速串行接口阵列天线的自适用波束控制fpga实现方法
CN113411110A (zh) * 2021-06-04 2021-09-17 东南大学 一种基于深度强化学习的毫米波通信波束训练方法
CN113437999A (zh) * 2021-06-23 2021-09-24 东南大学 一种抑制毫米波通信系统中波束漂移效应的自适应波束宽度调制算法
CN113783593A (zh) * 2021-07-30 2021-12-10 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统
CN113783593B (zh) * 2021-07-30 2024-05-31 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统
CN113965233B (zh) * 2021-10-19 2022-07-26 东南大学 一种基于深度学习的多用户宽带毫米波通信资源分配方法
CN113965233A (zh) * 2021-10-19 2022-01-21 东南大学 一种基于深度学习的多用户宽带毫米波通信资源分配方法及系统
WO2023088178A1 (zh) * 2021-11-19 2023-05-25 中兴通讯股份有限公司 波束确定方法、节点和存储介质
CN114745032A (zh) * 2022-04-06 2022-07-12 东南大学 一种无蜂窝大规模mimo智能分布式波束选择方法
CN114745032B (zh) * 2022-04-06 2024-02-09 东南大学 一种无蜂窝大规模mimo智能分布式波束选择方法
WO2023206754A1 (zh) * 2022-04-27 2023-11-02 四川太赫兹通信有限公司 一种波束对准方法、装置、基站及计算机可读存储介质
CN114844538A (zh) * 2022-04-29 2022-08-02 东南大学 一种基于宽学习的毫米波mimo用户增量协作波束选择方法
CN115103372A (zh) * 2022-06-17 2022-09-23 东南大学 一种基于深度强化学习的多用户mimo系统用户调度方法
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Also Published As

Publication number Publication date
CN110971279B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN110971279B (zh) 一种毫米波通信系统中智能波束训练方法及预编码系统
CN110099017B (zh) 基于深度神经网络的混合量化系统的信道估计方法
CN111953391A (zh) 智能反射面辅助的多用户mimo上行能效谱效联合优化方法
CN113411110B (zh) 一种基于深度强化学习的毫米波通信波束训练方法
CN111835406B (zh) 适用于多波束卫星通信的能效谱效权衡的鲁棒预编码方法
CN107135024A (zh) 一种低复杂度的混合波束赋形迭代设计方法
Elbir et al. Federated learning for physical layer design
Zhang et al. Intelligent beam training for millimeter-wave communications via deep reinforcement learning
Hu et al. Two-timescale end-to-end learning for channel acquisition and hybrid precoding
Xia et al. Meta-learning based beamforming design for MISO downlink
Yang et al. A learning-aided flexible gradient descent approach to MISO beamforming
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
CN113949607A (zh) 一种智能反射面无小区系统的鲁棒性波束设计方法
CN113824478A (zh) 离散透镜天线阵列辅助的宽带毫米波多用户大规模mimo上行频谱效率优化方法
Balevi et al. Unfolded hybrid beamforming with GAN compressed ultra-low feedback overhead
Gao et al. Resource allocation in IRSs aided MISO-NOMA networks: A machine learning approach
Xie et al. A reinforcement learning approach for an IRS-assisted NOMA network
Tolba et al. A meta learner autoencoder for channel state information feedback in massive MIMO systems
Zhang et al. Adaptive CSI feedback for deep learning-enabled image transmission
Shahabodini et al. Recurrent neural network and federated learning based channel estimation approach in mmWave massive MIMO systems
Jiang et al. Active sensing for two-sided beam alignment using ping-pong pilots
Ravindran et al. Direction of arrival and channel estimation using machine learning for multiple input multiple output system
Neha et al. Efficient channel estimation in mm wave massive MIMO using hybrid beamforming
Njoku et al. BLER performance evaluation of an enhanced channel autoencoder
Hui et al. Low complexity vector quantization algorithm for codebook optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant