CN110708108A - 一种多无人机毫米波网络的波束控制优化方法 - Google Patents

一种多无人机毫米波网络的波束控制优化方法 Download PDF

Info

Publication number
CN110708108A
CN110708108A CN201910724864.0A CN201910724864A CN110708108A CN 110708108 A CN110708108 A CN 110708108A CN 201910724864 A CN201910724864 A CN 201910724864A CN 110708108 A CN110708108 A CN 110708108A
Authority
CN
China
Prior art keywords
elevation
azimuth
antenna
millimeter wave
expressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910724864.0A
Other languages
English (en)
Other versions
CN110708108B (zh
Inventor
李立欣
程倩倩
陈巍
许文俊
董琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Northwest University of Technology
Original Assignee
Northwest University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University of Technology filed Critical Northwest University of Technology
Priority to CN201910724864.0A priority Critical patent/CN110708108B/zh
Publication of CN110708108A publication Critical patent/CN110708108A/zh
Application granted granted Critical
Publication of CN110708108B publication Critical patent/CN110708108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0408Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas using two or more beams, i.e. beam diversity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Variable-Direction Aerials And Aerial Arrays (AREA)

Abstract

本发明公开了一种基于强化学习和平均场博弈的多无人机毫米波网络的波束控制优化方法,解决了在超密集网络中波束难以对准的问题,从而提高系统的总和速率。该一种多无人机毫米波网络的波束控制优化方法,包括以下步骤:步骤一、构建系统模型:系统模型为多无人机多天线毫米波通信系统,用{1,2,…,M}表示,无人机同时共享同一个信道进行下行数据传输;步骤二、建立成本函数:根据波束的偏移程度,列出随机微分方程;然后根据用户受到的干扰,表示出成本函数,并且给出平均场博弈中的HJB和FPK方程;步骤三、使用强化学习的方法获取平均场博弈的均衡解。

Description

一种多无人机毫米波网络的波束控制优化方法
【技术领域】
本发明属于无线通信技术领域,具体涉及一种多无人机毫米波网络的波束控制优化方法。
【背景技术】
随着无线网络通信的快速发展,尤其是流量密集型应用(例如移动边缘缓存和计算),的普及,传统蜂窝频带的可用频谱无法满足日益增长的高传输速率的需求。由于丰富的频谱资源,窄波束宽度和短波长,毫米波(毫米波),通信是未来无线网络满足上述要求的重要领域之一。然而,毫米波的视距(LoS),传播容易受到链路阻塞的影响,这是高度定向毫米波链路上复杂多路径的关键挑战。无人驾驶飞行器(UAV),的无线网络通常与地面用户(GU),进行LoS通信,这与毫米波LoS通信的特征一致,非常适合于毫米波通信。此外,无人机的机动性和高海拔也为无人机和毫米波的组合提供了机会。与固定基站(BS),不同,无人机的移动性导致波束控制是多无人机毫米波网络中最受关注的问题之一。
此外,虽然无人机的移动性和LoS机会促进了毫米波网络的通信效率,但必须考虑有效的波束控制技术来克服链路阻塞。而且,在新兴的5G重要场景中,特别是在超密集毫米波网络中,致密化已经成为一个主要特征。然而,在致密化场景中个体之间的大量干扰导致解决数学模型的巨大计算复杂性。因此,有必要找到一种有效的工具来应对严峻的挑战。
近年来,平均场博弈在通信场景中的应用越来越多地被讨论。作为一种非合作博弈,平均场博弈特别适用于超密集网络,然而,却有着难以求解平均场均衡(MFE),的问题,这是由于传统方法具有高计算复杂度和许多约束。
【发明内容】
本发明的目的是提供一种基于强化学习和平均场博弈的多无人机毫米波网络的波束控制优化方法,以解决在超密集网络中波束难以对准的问题,从而提高系统的总和速率。
本发明采用以下技术方案,一种多无人机毫米波网络的波束控制优化方法,包括以下步骤:
步骤一、构建系统模型:系统模型为多无人机多天线毫米波通信系统,用 {1,2,…,M}表示,无人机同时共享同一个信道进行下行数据传输;
步骤二、建立成本函数:根据波束的偏移程度,列出随机微分方程;然后根据用户受到的干扰,表示出成本函数,并且给出平均场博弈中的HJB和FPK方程;
步骤三、使用强化学习的方法获取平均场博弈的均衡解。
进一步的,系统模型具体为:假设存在M个UAV,其配备有产生N个波束的多个透镜阵列天线,以在特定区域中切断K个用户;每个波束可以与其切断用户K建立定向通信链路,用户根据系统总和率匹配波束;所有无人机和用户在总面积中随机且独立地分布,遵循独立的齐次泊松点过程。
进一步的,步骤2具体为:
2.1将波束角度分解为方位角和仰角,列出随机微分方程;
第k个用户和UAV的第n个天线之间的信道矩阵由下式给出:
其中,
Figure BDA0002158558310000031
表示对于第k个用户的所有路径L从第k个用户到第n个UAV天线的信道系数,
Figure BDA0002158558310000032
是路径l的路径增益,
Figure BDA0002158558310000033
Figure BDA0002158558310000034
分别是角度域的仰角和方位角,an(·)是第n个天线的透镜阵列响应,
Figure BDA0002158558310000035
是第l条路径的延迟; dy和dz分别是沿y轴和z轴的信号波长归一化的物理尺寸,基于透镜的φn仰角和方位角θn分辨率的第m个天线的位置如下给出:
Figure BDA0002158558310000036
Figure BDA0002158558310000037
其中,Φ和Θ表示透镜天线阵列的仰角和方位角覆盖角,nel和naz分别是第n个天线的仰角和方位角指数,表示为:
Figure BDA0002158558310000038
Figure 100002_1
阵列响应表示为:
Figure BDA00021585583100000310
其中,仰角和方位角的值分别为φb和θb,无人机的总发射功率与其有效孔径dzdy成比例,Θ0是从透镜孔径到阵列的常见相移,i是指数集,(i∈N),无人机的第n 个天线与第k个用户之间的毫米波信道矩阵
Figure BDA00021585583100000311
重新定义为:
然后将波束角度变化的随机微分方程描述如下:
Figure BDA00021585583100000313
Figure BDA0002158558310000041
其中,
Figure BDA0002158558310000042
Figure BDA0002158558310000043
分别表示第n个天线和第i个波束在时间t的仰角和方位角的索引偏移,
Figure BDA0002158558310000044
Figure BDA0002158558310000045
是时间t的第i个波束的仰角和方位角,两个随机微分方程的第二项分别代表波束i的仰角和方位角的指数;
2.2构建用户所受到的干扰方程:
第m个UAV覆盖下的第k个用户受到的干扰表示为:
Figure BDA0002158558310000046
其中,
Figure BDA0002158558310000047
Figure BDA0002158558310000048
其中,
Figure RE-GDA0002310059720000049
Figure RE-GDA00023100597200000410
分别表示由相同的UAV和其他UAV在时间t产生的其他波束的干扰,hj′k(t)H和hj″k(t)H代表着干扰信道,F是混合波束形成矩阵;
2.3构建成本函数,表示出HJB和FPK方程:
定义平均场表达式为
Figure BDA00021585583100000411
其中N是所有波束的集合,
Figure BDA00021585583100000412
和S(i)分别是波束i的控制和状态,R是奖励函数,波束i的控制和状态表述如下:
Figure BDA00021585583100000413
奖励函数即成本函数,表述如下:
Figure BDA00021585583100000415
其中,γi,k(t)是第k个用户的信噪比,表示为:
Figure BDA0002158558310000051
FPK方程可以表示为状态转移方程;
首先,状态空间被离散化为:
Figure BDA0002158558310000052
然后,定义状态转移概率Pij(t),其表示用户k在时间t处从波束i到波束j的干扰概率,则状态的演变定义如下:
Figure BDA0002158558310000053
从而,定义HJB方程:
Figure BDA0002158558310000054
其中,vi(t+1)为波束下一时刻获得的值函数。
进一步的,步骤三具体为:
3.1、根据系统模型及步骤二定义系统的代理商、状态、行为、最优策略以及值函数:
a、将多无人机多天线毫米波网络中所有波束的集合定义为代理商;
b、将状态定义为天线n和波束i在时间t时的仰角
Figure BDA0002158558310000055
和方位角
Figure BDA0002158558310000056
的指数偏移的组合;系统状态s t∈s在时间t时是一个向量,则状态空间定义为:
Figure BDA0002158558310000057
c、代理商根据以下行动作出决定:
1)、l={l1,l2,…lL}:波束可选择的路径;
2)、波束仰角的偏离程度;
3)、波束方位角的偏移程度;
定义A表示动作空间,在t时执行的动作at∈A是一个向量,定义为:
Figure BDA0002158558310000062
d、最佳角度控制策略表示为π*,代表最佳波束匹配角度,最佳Q值描述为Q*(s,a):
Figure BDA0002158558310000063
e、值函数定义为在波束选择角度后获得的系统总和速率,在本发明中,也就是MFG中的HJB方程,即:
Figure BDA0002158558310000064
3.2、根据3.1中的定义,更新Q值,表示出最优值函数:
Q值根据以下公式更新:
Figure BDA0002158558310000065
其中,α是学习速率,η是折扣因子,st+1为下一时刻的波束所处的状态,at+1为下一时刻波束采取的行为;
在该发明中最优值函数V*(s),就是表示如下:
Figure BDA0002158558310000066
通过计算最优值函数,即可通过最优函数获得最优策略。
本发明的有益效果是:
1、本发明提出了一种在多无人机多天线毫米波信道中基于平均场博弈框架的波束控制方案,通过联合优化波束的方位角和仰角,获得最佳波束对准策略的最佳毫米波通道。
2、为了解决平均场博弈求解困难的问题,提出了一种基于平均场博弈的分布式Q学习的方法,将离散平均场博弈的均衡解转化为马尔科夫决策的最优解。
3、本发明通过实验验证了所提出方法的有效性,该方法与其他方法相比,可以获得更高的总和速率和更快的收敛速度。
【附图说明】
图1为本发明一种多无人机毫米波网络的波束控制优化方法的系统模型图;
图2为本发明一种多无人机毫米波网络的波束控制优化方法的毫米波信道角度域的分解图;
图3为实施例中基于本发明一种多无人机毫米波网络的波束控制优化方法、集中式Q学习和未强化学习三种算法下系统总和速率的比较图。
【具体实施方式】
下面结合附图和具体实施方式对本发明进行详细说明。
与现有文献不同,为了保证多无人机毫米波网络中超密集波束之间的高效快速波束控制,本发明在多无人机和多天线毫米波网络中研究了波束控制方法。具体地,提出了一种基于平均场博弈框架的新型波束控制算法,其中每个波束调整其最佳角度以获得最佳毫米波信道。
步骤一、构建系统模型:系统模型为多无人机多天线毫米波通信系统,用 {1,2,…,M}表示,无人机同时共享同一个信道进行下行数据传输。
如附图1所示,假设存在M个UAV,其配备有产生N个波束的多个透镜阵列天线,以在特定区域中切断K个用户。在本发明中,每个波束可以与其切断用户 K建立定向通信链路,用户需要根据系统总和率匹配波束。此外,所有无人机和用户在总面积中随机且独立地分布,遵循独立的齐次泊松点过程。
步骤二、建立成本函数:根据波束的偏移程度,列出随机微分方程,然后根据用户受到的干扰,表示出成本函数,并且给出平均场博弈中的HJB和FPK方程。具体如下:
2.1将波束角度分解为方位角和仰角,列出随机微分方程。
无人机和用户之间的毫米波通道主要由LoS路径控制。因此,第k个用户和 UAV的第n个天线之间的信道矩阵由下式给出:
Figure BDA0002158558310000081
其中,
Figure BDA0002158558310000082
表示对于第k个用户的所有路径L从第k个用户到第n个UAV天线的信道系数。
Figure BDA0002158558310000083
是路径l的路径增益。如图2所示,
Figure BDA0002158558310000084
Figure BDA0002158558310000085
分别是角度域的仰角和方位角。此外,an(·)是第n个天线的透镜阵列响应。
Figure BDA0002158558310000086
是第l条路径的延迟。
具体地,波束角度偏转将间接影响通道矩阵H,因此考虑三维(3D),坐标系中的透镜阵列。同时,dy和dz分别是沿y轴和z轴的信号波长归一化的物理尺寸。然后,基于透镜的φn仰角和方位角θn分辨率的第m个天线的位置如下给出,
Figure BDA0002158558310000087
Figure BDA0002158558310000088
其中Φ和Θ表示透镜天线阵列的仰角和方位角覆盖角;nel和naz分别是第n个天线的仰角和方位角指数,可以表示为
Figure BDA0002158558310000089
然后阵列响应可以表示为
Figure BDA0002158558310000091
其中,仰角和方位角的值分别为φb和θb。无人机的总发射功率与其有效孔径dzdy成比例。Θ0是从透镜孔径到阵列的常见相移;i是指数集,(i∈N)。因此,无人机的第n个天线与第k个用户之间的毫米波信道矩阵
Figure BDA0002158558310000092
可以重新定义为
Figure BDA0002158558310000093
当毫米波信道状态变化时,应相应地调整波束转向角,可以将该角度分别为仰角和方位角。为了便于解释,这两个角度的动力学采用共同的波束i.他们的变化的随机微分方程描述如下:
Figure BDA0002158558310000094
其中
Figure BDA0002158558310000096
分别表示第n个天线和第i个波束在时间t的仰角和方位角的索引偏移。同时,
Figure BDA0002158558310000098
Figure BDA0002158558310000099
是时间t的第i个波束的仰角和方位角。显然,两个随机微分方程的第二项分别代表波束i的仰角和方位角的指数。
2.2考虑系统中用户受到的两部分干扰,一个是由相同无人机产生的波束的影响,另一个是来自其他无人机产生的波束的影响,从而表示出用户所受到的干扰方程;
此外,在该模型中,考虑了两个干扰部分,一个是由相同无人机产生的波束的影响,另一个是来自其他无人机产生的波束的影响。因此,由第m个UAV 覆盖的随机选择的第k个用户的其他波束的干扰可以表示为
Figure BDA00021585583100000910
其中,
Figure BDA0002158558310000101
Figure BDA0002158558310000102
其中,
Figure RE-GDA0002310059720000103
Figure RE-GDA0002310059720000104
分别表示由相同的UAV和其他UAV在时间t产生的其他波束的干扰。hj′k(t)H和hj″k(t)H代表着干扰信道。
2.3根据上述描述,构建成本函数,表示出平均场博弈的HJB和FPK方程.
平均场博弈将大规模代理的行为描述为平均场项,它是表征质量分布的统计函数。在本发明中,定义平均场表达式为
Figure BDA0002158558310000105
其中N是所有波束的集合,
Figure BDA0002158558310000106
和S(i)分别是波束i的控制和状态,R是奖励函数。波束i的控制和状态表述如下:
奖励函数表述如下:
Figure BDA0002158558310000109
其中,γi,k(t)是第k个用户的信噪比,可以表示为:
Figure BDA00021585583100001010
在公式(16),中,F是混合波束形成矩阵。
在平均场博弈中,Hamilton-Jacobi-Bellman(HJB),方程和 Fokker-Planck-Kolmogorov(FPK),方程描述了整个系统模型。在本发明中, FPK方程可以表示为状态转移方程。首先,状态空间被离散化为:
Figure BDA0002158558310000111
然后,定义状态转移概率Pij(t),其表示用户k在时间t处从波束i到波束j的干扰概率。因此,状态的演变定义如下:
从而,可以定义HJB方程:
Figure BDA0002158558310000113
步骤三、使用强化学习的方法获取平均场博弈的均衡解。
步骤三的具体实施方式如下:
3.3根据步骤二和系统模型,定义系统的代理商、状态、行为、最优策略以及奖励函数:
代理商(Agent):将多无人机多天线毫米波网络中所有波束的集合定义为代理商。
状态(State):将状态定义为天线n和波束i在时间t时的仰角
Figure RE-GDA0002310059720000118
和方位角
Figure RE-GDA0002310059720000117
的指数偏移的组合。因此,系统状态st∈s在时间t时是一个向量,因此状态空间可定义为公式(17)。
行为(Action):在本发明中,代理商将根据以下行动作出决定:
1),l={l1,l2,…lL}:波束可选择的路径;
2),
Figure BDA0002158558310000116
波束仰角的偏离程度;
3),
Figure BDA0002158558310000117
波束方位角的偏移程度。
定义A表示动作空间,在t时执行的动作at∈A是一个向量,定义为:
Figure BDA0002158558310000118
控制策略(Control):最佳角度控制策略表示为π*,代表最佳波束匹配角度。因此,最佳Q值可描述为Q*(s,a)。
Figure BDA0002158558310000121
值函数(Value Function):值函数定义为在波束选择角度后获得的系统总和速率,在本发明中,也就是MFG中的HJB方程,表示为:
3.2根据3.1的定义,更新Q值,表示出最优值函数:
代理商在获得奖励函数后更新Q值。Q值根据以下公式更新:
Figure BDA0002158558310000123
其中α是学习速率,η是折扣因子。
最优值函数V*(s)表示如下:
通过计算最优值函数,即可通过最优函数获得最优策略。
本发明解决上述优化问题的技术方案如下:
通过求解FPK和HJB方程获得平均场均衡。在平均场博弈中,它通常通过有限差分法和有限元法求解,其将解域划分为差分网格并用有限数量的网格节点替换连续解域。但是,这些方法对初始化很敏感,很难解决均衡问题。此外,HJB方程表示个体与平均场之间的相互作用,其给出了个体时间段的状态演变。在平均场均衡中,平均场的正向演化等同于马尔科夫过程的优化问题,因此这种关系使本发明能够有效地应用强化学习方法。
波束的发射角度影响毫米波信道状态,因此每个波束都期望与用户建立最佳状态信道条件以最大化系统总和速率。然而,在每两个波束之间存在上述干扰,因此可以被建模为非合作博弈。在系统模型中,用户不断跟踪波束,并且在这种重复的相互作用中的波束转移过程可以表示为马尔科夫决策过程。因此,通过重复实验过程,强化学习可用于找到最佳波束角度匹配策略。本发明提出了一种基于强化学习的算法,命名为基于平均场博弈的分布式Q学习(DQ 平均场博弈),它基于预先从大量实验中获得的训练数据初始化Q值,使得波束可以根据当前环境状态更新自己的动作并超过最优值。
在此方法中,将成员、状态、行为、控制策略和奖励定义如下:
代理商(Agent):将多无人机多天线毫米波网络中所有波束的集合定义为代理商。
状态(State):将状态定义为天线n和波束i在时间t时的仰角
Figure RE-GDA0002310059720000131
和方位角
Figure RE-GDA0002310059720000132
的指数偏移的组合。因此,系统状态st∈s在时间t时是一个向量,因此状态空间可定义为公式(17)。
行为(Action):在本发明中,代理商将根据以下行动作出决定:
1),l={l1,l2,…lL}:波束可选择的路径;
2),
Figure BDA0002158558310000133
波束仰角的偏离程度;
3),
Figure BDA0002158558310000134
波束方位角的偏移程度。
定义A表示动作空间,在t时执行的动作at∈A是一个向量,定义为:
Figure BDA0002158558310000135
控制策略(Control):最佳角度控制策略表示为π*,代表最佳波束匹配角度。因此,最佳Q值可描述为Q*(s,a)。
奖励函数(Reward Function):奖励函数定义为在波束选择角度后获得的系统总和速率,即公式(19)。
公式(19),是系统的值函数,当波束选择角度最佳时,奖励函数的值最大,并且波束之间的干扰最小化,从而完成用户与波束之间的匹配。相反,当波束选择的角度偏差较大时,波束之间的相互干涉变大,获得的奖励函数较小,因此波束可以感知到角度不是最佳的。
代理商在获得奖励功能后更新Q值。所提方法将Q表划分为更小的Q表,每个Q表代理。更新Q值的公式如下:
Figure BDA0002158558310000141
其中α是学习速率,η是折扣因子,st+1为下一时刻的波束所处的状态,at+1为下一时刻波束采取的行为。
最优值函数表示如下:
Figure BDA0002158558310000142
实施例:
以下实例中所提供的图示以及模型中的具体参数值的设定主要是为了说明本发明的基本构想以及对本发明做仿真验证,具体的应用环境中,可视实际场景和需求进行适当调整。
本发明考虑了在多无人机多天线毫米波网络中一种下行系统,其中每个无人机都配备了若干透镜阵列天线。在仿真中,无人机配备了64根天线,发射功率为30mW,为64个用户服务。每个波束可以与其切断用户建立定向通信链路,用户需要根据系统总和率匹配波束。所有无人机和用户在总面积中随机且独立地分布,遵循独立的齐次泊松点过程。此外,利用经典的全数字混合预编码方案,得到了F矩阵。
针对上述系统模型,图3给出了本发明一种多无人机毫米波网络的波束控制优化方法、集中式Q学习和未强化学习的传统方法三种算法下系统总和速率的比较。通过该仿真过程比较了不同算法总和速率的收敛性能,同时看出随着信噪比的变化,总和速率也随算法的不同而变化,这与用户的信干噪比密切相关。这里,将本发明一种多无人机毫米波网络的波束控制优化方法与集中式Q 学习和传统的不使用强化学习的算法进行了比较。从图3的结果可以看出,在相同信噪比下,选择本发明一种多无人机毫米波网络的波束控制优化方法,即基于平均场博弈的Q学习方法,可以获得更高的总和速率。此外,通过观察可以发现,使用本发明一种多无人机毫米波网络的波束控制优化方法的强化学习方法可以获得更好的性能,这是因为强化学习可以从过去的经验中学习,并根据环境及时更新行动。

Claims (4)

1.一种多无人机毫米波网络的波束控制优化方法,其特征在于,包括以下步骤:
步骤一、构建系统模型:系统模型为多无人机多天线毫米波通信系统,用{1,2,…,M}表示,无人机同时共享同一个信道进行下行数据传输;
步骤二、建立成本函数:根据波束的偏移程度,列出随机微分方程;然后根据用户受到的干扰,表示出成本函数,并且给出平均场博弈中的HJB和FPK方程;
步骤三、使用强化学习的方法获取平均场博弈的均衡解。
2.如权利要求1所述的一种多无人机毫米波网络的波束控制优化方法,其特征在于,所述系统模型具体为:假设存在M个UAV,其配备有产生N个波束的多个透镜阵列天线,以在特定区域中切断K个用户;每个波束可以与其切断用户K建立定向通信链路,用户根据系统总和率匹配波束;所有无人机和用户在总面积中随机且独立地分布,遵循独立的齐次泊松点过程。
3.如权利要求1或2所述的一种多无人机毫米波网络的波束控制优化方法,其特征在于,所述步骤2具体为:
2.1将波束角度分解为方位角和仰角,列出随机微分方程;
第k个用户和UAV的第n个天线之间的信道矩阵由下式给出:
其中,
Figure RE-FDA0002310059710000012
表示对于第k个用户的所有路径L从第k个用户到第n个UAV天线的信道系数,
Figure RE-FDA0002310059710000013
是路径l的路径增益,
Figure RE-FDA0002310059710000015
分别是角度域的仰角和方位角,an(·)是第n个天线的透镜阵列响应,
Figure RE-FDA0002310059710000016
是第l条路径的延迟;dy和dz分别是沿y轴和z轴的信号波长归一化的物理尺寸,基于透镜的φn仰角和方位角θn分辨率的第m个天线的位置如下给出:
Figure RE-FDA0002310059710000021
Figure RE-FDA0002310059710000022
其中,Φ和Θ表示透镜天线阵列的仰角和方位角覆盖角,nel和naz分别是第n个天线的仰角和方位角指数,表示为:
Figure 1
阵列响应表示为:
Figure RE-FDA0002310059710000025
其中,仰角和方位角的值分别为φb和θb,无人机的总发射功率与其有效孔径dzdy成比例,Θ0是从透镜孔径到阵列的常见相移,i是指数集,(i∈N),无人机的第n个天线与第k个用户之间的毫米波信道矩阵
Figure RE-FDA0002310059710000026
重新定义为:
Figure RE-FDA0002310059710000027
然后将波束角度变化的随机微分方程描述如下:
Figure RE-FDA0002310059710000028
Figure RE-FDA0002310059710000029
其中,
Figure RE-FDA00023100597100000210
Figure RE-FDA00023100597100000211
分别表示第n个天线和第i个波束在时间t的仰角和方位角的索引偏移,
Figure RE-FDA00023100597100000212
是时间t的第i个波束的仰角和方位角,两个随机微分方程的第二项分别代表波束i的仰角和方位角的指数;
2.2构建用户所受到的干扰方程:
第m个UAV覆盖下的第k个用户受到的干扰表示为:
Figure RE-FDA0002310059710000031
其中,
Figure RE-FDA0002310059710000032
Figure RE-FDA0002310059710000033
其中,
Figure RE-FDA0002310059710000035
分别表示由相同的UAV和其他UAV在时间t产生的其他波束的干扰,hj′k(t)H和hj″k(t)H代表着干扰信道,F是混合波束形成矩阵;
2.3构建成本函数,表示出HJB和FPK方程:
定义平均场表达式为{N,S(i),R},其中N是所有波束的集合,
Figure RE-FDA0002310059710000037
和S(i)分别是波束i的控制和状态,R是奖励函数,波束i的控制和状态表述如下:
Figure RE-FDA0002310059710000039
奖励函数即成本函数,表述如下:
其中,γi,k(t)是第k个用户的信噪比,表示为:
Figure RE-FDA00023100597100000311
FPK方程可以表示为状态转移方程;
首先,状态空间被离散化为:
Figure RE-FDA0002310059710000041
然后,定义状态转移概率Pij(t),其表示用户k在时间t处从波束i到波束j的干扰概率,则状态的演变定义如下:
Figure RE-FDA0002310059710000042
从而,定义HJB方程:
Figure RE-FDA0002310059710000043
其中,vi(t+1)为波束下一时刻获得的值函数。
4.如权利要求1或2所述的一种0,多无人机毫米波网络的波束控制优化方法,其特征在于,所述步骤三具体为:
3.1、根据系统模型及步骤二定义系统的代理商、状态、行为、最优策略以及值函数:
a、将多无人机多天线毫米波网络中所有波束的集合定义为代理商;
b、将状态定义为天线n和波束i在时间t时的仰角
Figure RE-FDA0002310059710000044
和方位角
Figure RE-FDA0002310059710000045
的指数偏移的组合;系统状态s t∈s在时间t时是一个向量,则状态空间定义为:
Figure RE-FDA0002310059710000046
c、代理商根据以下行动作出决定:
1)、l={l1,l2,…lL}:波束可选择的路径;
2)、
Figure RE-FDA0002310059710000047
波束仰角的偏离程度;
3)、波束方位角的偏移程度;
定义A表示动作空间,在t时执行的动作at∈A是一个向量,定义为:
Figure RE-FDA0002310059710000049
d、最佳角度控制策略表示为π*,代表最佳波束匹配角度,最佳Q值描述为Q*(s,a):
Figure RE-FDA0002310059710000051
e、值函数定义为在波束选择角度后获得的系统总和速率,在本发明中,也就是MFG中的HJB方程,即:
Figure RE-FDA0002310059710000052
3.2、根据3.1中的定义,更新Q值,表示出最优值函数:
Q值根据以下公式更新:
Figure RE-FDA0002310059710000053
其中,α是学习速率,η是折扣因子,st+1为下一时刻的波束所处的状态,at+1为下一时刻波束采取的行为;
在该发明中最优值函数V*(s),就是表示如下:
Figure RE-FDA0002310059710000054
通过计算最优值函数,即可通过最优函数获得最优策略。
CN201910724864.0A 2019-08-07 2019-08-07 一种多无人机毫米波网络的波束控制优化方法 Active CN110708108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910724864.0A CN110708108B (zh) 2019-08-07 2019-08-07 一种多无人机毫米波网络的波束控制优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910724864.0A CN110708108B (zh) 2019-08-07 2019-08-07 一种多无人机毫米波网络的波束控制优化方法

Publications (2)

Publication Number Publication Date
CN110708108A true CN110708108A (zh) 2020-01-17
CN110708108B CN110708108B (zh) 2021-04-09

Family

ID=69193520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910724864.0A Active CN110708108B (zh) 2019-08-07 2019-08-07 一种多无人机毫米波网络的波束控制优化方法

Country Status (1)

Country Link
CN (1) CN110708108B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556460A (zh) * 2020-04-28 2020-08-18 西安交通大学 非理想毫米波无线供电通信无人机网络的功率分配方法
CN112636804A (zh) * 2020-11-12 2021-04-09 北京航空航天大学 一种基于毫米波阵列的多无人机基站协同传输方法
CN113329416A (zh) * 2021-04-23 2021-08-31 北京邮电大学 无人机载天线阵列的波束对准方法、系统
CN113419561A (zh) * 2021-07-12 2021-09-21 西安电子科技大学 一种分布式空中基站高动态部署方法
CN114599013A (zh) * 2022-01-28 2022-06-07 中国人民解放军东部战区总医院 无人异构平台通信系统和通信方法
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427032A (zh) * 2015-11-09 2016-03-23 河海大学 一种无人机对抗决策评估方法
US20170126309A1 (en) * 2015-10-30 2017-05-04 The Florida International University Board Of Trustees Cooperative clustering for enhancing mu-massive-miso-based uav communication
WO2017205442A2 (en) * 2016-05-24 2017-11-30 The Charles Stark Draper Laboratory, Inc. Optical communications system phase-controlled transmitter and phase-conjugate mirror receiver
CN108419286A (zh) * 2018-01-18 2018-08-17 北京邮电大学 一种面对5g无人机通信联合波束与功率的分配算法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109325690A (zh) * 2018-09-26 2019-02-12 中国人民解放军国防科技大学 面向无人平台指挥控制的策略博弈系统及其应用方法
CN110087234A (zh) * 2019-04-28 2019-08-02 清华大学 一种无人机编队网络安全通信方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170126309A1 (en) * 2015-10-30 2017-05-04 The Florida International University Board Of Trustees Cooperative clustering for enhancing mu-massive-miso-based uav communication
CN105427032A (zh) * 2015-11-09 2016-03-23 河海大学 一种无人机对抗决策评估方法
WO2017205442A2 (en) * 2016-05-24 2017-11-30 The Charles Stark Draper Laboratory, Inc. Optical communications system phase-controlled transmitter and phase-conjugate mirror receiver
CN108419286A (zh) * 2018-01-18 2018-08-17 北京邮电大学 一种面对5g无人机通信联合波束与功率的分配算法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109325690A (zh) * 2018-09-26 2019-02-12 中国人民解放军国防科技大学 面向无人平台指挥控制的策略博弈系统及其应用方法
CN110087234A (zh) * 2019-04-28 2019-08-02 清华大学 一种无人机编队网络安全通信方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556460A (zh) * 2020-04-28 2020-08-18 西安交通大学 非理想毫米波无线供电通信无人机网络的功率分配方法
CN111556460B (zh) * 2020-04-28 2021-07-13 西安交通大学 非理想毫米波无线供电通信无人机网络的功率分配方法
CN112636804A (zh) * 2020-11-12 2021-04-09 北京航空航天大学 一种基于毫米波阵列的多无人机基站协同传输方法
CN112636804B (zh) * 2020-11-12 2022-08-26 北京航空航天大学 一种基于毫米波阵列的多无人机基站协同传输方法
CN113329416A (zh) * 2021-04-23 2021-08-31 北京邮电大学 无人机载天线阵列的波束对准方法、系统
CN113329416B (zh) * 2021-04-23 2022-07-12 北京邮电大学 无人机载天线阵列的波束对准方法、系统
CN113419561A (zh) * 2021-07-12 2021-09-21 西安电子科技大学 一种分布式空中基站高动态部署方法
CN114599013A (zh) * 2022-01-28 2022-06-07 中国人民解放军东部战区总医院 无人异构平台通信系统和通信方法
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Also Published As

Publication number Publication date
CN110708108B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN110708108B (zh) 一种多无人机毫米波网络的波束控制优化方法
Li et al. Millimeter-wave networking in the sky: A machine learning and mean field game approach for joint beamforming and beam-steering
Yang et al. Machine learning for user partitioning and phase shifters design in RIS-aided NOMA networks
Zhang et al. Scalable power control/beamforming in heterogeneous wireless networks with graph neural networks
Faisal et al. Machine learning approaches for reconfigurable intelligent surfaces: A survey
Li et al. Path planning for cellular-connected UAV: A DRL solution with quantum-inspired experience replay
Zhang et al. IRS empowered UAV wireless communication with resource allocation, reflecting design and trajectory optimization
CN110557177A (zh) 毫米波大规模MIMO系统中基于DenseNet的混合预编码方法
Zhao et al. RIS-aided ground-aerial NOMA communications: A distributionally robust DRL approach
CN111245485B (zh) 机载毫米波通信波束赋形与位置部署方法
CN110708129B (zh) 一种无线信道状态信息获取方法
Cheng et al. Beam-steering optimization in multi-UAVs mmWave networks: A mean field game approach
CN114268350A (zh) 智能反射面辅助通信中非理想信道下的鲁棒波束赋形设计方法
Zhu et al. Multi-UAV aided millimeter-wave networks: Positioning, clustering, and beamforming
Chiang et al. Multi-UAV mmWave beam tracking using Q-learning and interference mitigation
Li et al. Radio resource management for cellular-connected uav: A learning approach
CN114584192A (zh) 一种毫米波无人机通信系统抗抖动鲁棒波束成形优化方法
Evmorfos et al. Deep q learning with fourier feature mapping for mobile relay beamforming networks
CN116455439B (zh) 基于二阶角度误差近似的无人机通信鲁棒波束成形方法
Zhong et al. A novel spatial beam training strategy for mmWave UAV communications
Wang et al. Multi-agent double deep Q-Learning for beamforming in mmWave MIMO networks
Arjoune et al. Double deep Q-learning and SAC based hybrid beamforming for 5G and beyond millimeter-wave systems
Ismath et al. Deep contextual bandits for fast initial access in mmWave based user-centric ultra-dense networks
Evmorfos et al. Deep actor-critic for continuous 3D motion control in mobile relay beamforming networks
Zhang et al. Training beam sequence design for mmWave tracking systems with and without environmental knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant