CN111446999A

CN111446999A - 基于多臂强盗的位置辅助波束对准方法及其系统

Info

Publication number: CN111446999A
Application number: CN202010222939.8A
Authority: CN
Inventors: 王鑫琦; 易辉跃; 张武雄; 许晖; 裴俊; 于巧玲
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS; Shanghai Research Center for Wireless Communications
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS; Shanghai Research Center for Wireless Communications
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-24

Abstract

本发明公开了一种基于多臂强盗的位置辅助波束对准方法及其系统。该方法包括如下步骤：获取接收器的位置信息；根据位置信息选择LOS路径的多个LOS波束，形成LOS子集；从剩余的波束中选择多个拥有最大UCB值的NLOS路径的多个NLOS波束，形成NLOS子集；在波束对准期间，根据LOS子集和NLOS子集中的所有路径的信道状态，选择具有最大路径增益的多个波束；在数据传输期间，通过选择的波束并行传输数据流，并获得波束的UCB奖励值；基于UCB奖励值，更新波束的平均回报。本发明增大了波束对准概率，实现了减小计算复杂度、提高频谱效率的目的。

Description

基于多臂强盗的位置辅助波束对准方法及其系统

技术领域

本发明涉及一种波束对准方法，尤其涉及一种用在毫米波通信系统中、基于多臂强盗的位置辅助波束对准方法，同时也涉及相应的波束对准系统，属于毫米波通信技术领域。

背景技术

目前，第五代移动通信网络(5G)已经开始进入商用化阶段。5G所使用的频段包括两个部分：一个是sub-6GHz频段，一个是毫米波频段。其中，毫米波频段不存在严重的互干扰，加上能够提供更大的信号带宽，被普遍认为是5G中最有潜力的技术方向。

在毫米波通信系统中，由于毫米波信道的稀疏性，传播路径通常通过搜索每个路径的波束来估计。在高速移动场景中，毫米波信道快速变化，并且每个传输时间间隔的周期太短，无法为准确的波束对准分配足够的时间。而且，每个传输时间间隔(TTI)的测量次数受到限制，在波束对准过程中选择要测量的路径就变得非常重要。现有的毫米波通信系统采用大型天线阵列，波束宽度很窄，使得信道条件变化很快，波束对准周期长、计算复杂度较高，因此不适用于高速移动场景。

现有技术中的波束对准算法大致可以分为四类：1)通过波束扫描(也称波束搜索)实现波束对准；2)通过估计到达角(AoAs)和离开角(AoDs)估计信道，从而实现波束对准；3)将波束训练的过程看作一个黑盒优化问题求解，从而实现波束对准；4)利用边信息辅助实现波束对准。但是，上述算法各自都存在一定的局限性。例如，波束扫描算法的时间复杂度比较高，搜索效率很低。AoA/AoD信道估计算法、波束训练优化算法和边信息辅助算法的实施过程非常复杂，而且应用范围比较受限。

多臂强盗(multi-armed bandit，简写为MAB)是一种前沿的机器学习算法。它的实质是如何以最佳方式分配资源。一种策略是先探索可用选项，然后把所有剩余资源分配给表现最佳的选项。这个策略叫作A/B测试。另一种策略是给表现最佳的选项逐渐分配更多的资源。这个策略叫作epsilon递减策略。在申请号为201910581217.9的中国专利申请中，公开了一种基于双层多臂强盗统计模型的频谱机会接入方法。该方法包括如下步骤：首先使用双层多臂强盗统计学模型，建模信道感知与接入过程；然后分析次用户运行场景，如果属于单主用户站下的认知网络，则采用同构信道感知接入方法进行频谱机会接入；如果属于多主用户站下的认知网络，则采用异构信道感知接入方法进行频谱机会接入。

发明内容

本发明所解决的首要技术问题在于提供一种基于多臂强盗的位置辅助波束对准方法。

本发明所解决的另一技术问题在于提供一种用于实施上述方法的位置辅助波束对准系统。

为实现上述发明目的，本发明采用下述的技术方案：

根据本发明实施例的第一方面，提供一种基于多臂强盗的位置辅助波束对准方法，包括如下步骤：

步骤1：获取接收器的位置信息；

步骤2：根据所述位置信息选择LOS路径的多个LOS波束，形成LOS子集；

步骤3：从剩余的波束中选择多个拥有最大UCB值的NLOS路径的多个NLOS波束，形成NLOS子集；

步骤4：在波束对准期间，根据所述LOS子集和所述NLOS子集中的所有路径的信道状态，选择具有最大路径增益的多个波束；

步骤5：在数据传输期间，通过在步骤4中选择的所述波束并行传输数据流，并获得所述波束的UCB奖励值；

步骤6：基于所述UCB奖励值，更新所述步骤4中选择的所述波束的平均回报。

其中较优地，在更新各路径的平均回报时，对所述步骤4中选择的所述波束，基于所述步骤4中获得的所述波束的UCB奖励值进行更新；对其他波束，令UCB奖励值为0进行更新。

其中较优地，所述步骤3中，所述最大UCB索引值是基于UCB法的平均回报与置信空间之和。

其中较优地，所述步骤4中，所述最大路径增益是指在波束对准期间，发射器在所述LOS子集和所述NLOS子集中的所有路径发出导频信号，接收器接收到所述导频信号，并计算平均接收导频信号功率，将所述平均接收导频信号功率进行排序，选择最大的特定数量的所述平均接收导频信号功率对应的波束。

其中较优地，所述多个LOS波束是所述LOS路径所在位置的附近的多个波束。

其中较优地，所述多个LOS波束或所述多个NLOS波束的数量，均大于或等于所述步骤5中并行传输数据流的波束的数量。

其中较优地，所述UCB奖励值是每个波束的传输速率或信号功率。

其中较优地，所述步骤3中，最大UCB值N(i)是根据下式计算的：

式中，μ_i是已观测到的所述NLOS子集中的波束i的平均回报值，t为时隙数，n_i为所述NLOS子集中的波束i当前累积被选中的次数，c是预先设定的常数。

根据本发明实施例的第二方面，提供一种基于多臂强盗的位置辅助波束对准系统，包括发射器和接收器，所述发射器和所述接收器均具有线性阵列天线，所述位置辅助波束对准系统执行上述的方法。

与现有技术相比较，本发明创造性地将高速移动场景下的波束对准问题表述为MAB问题，并将MAB问题求解与位置辅助有机相结合，使用位置辅助有效地减少了需要测量的波束对数量，缩短了波束对准时长。同时，利用位置信息直接计算LOS路径子集，避免了现有上置信界算法陷入局部最优而选择次优路径的情况，从而增大了波束对准概率，实现了减小计算复杂度、提高频谱效率的目的。

附图说明

图1为本发明中，第一实施例的系统模型示意图；

图2为本发明中，第一实施例的流程示意图；

图3为本发明中，第二实施例的系统模型示意图；

图4为本发明中，第二实施例的流程示意图；

图5为本发明提供的位置辅助波束对准方法与常规方法在频谱效率上的累积损耗对比图；

图6为本发明提供的位置辅助波束对准方法与常规方法在频谱效率上的CDF对比图；

图7为本发明中，基于极坐标的位置信息示例图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

<第一实施例>

本实施例介绍将本发明提供的位置辅助波束对准方法应用于无线通信的具体场景。

图1显示了用于实施该位置辅助波束对准方法的大规模毫米波MIMO系统。在本发明的一个实施例中，选择均匀线性阵列(Uniform Linear Array，简写为ULA)。其中，作为发射机Tx的基站1(简写为BS)的均匀线性阵列是具有M_t个阵元且具有半波长天线间隔的M_Tt×1维的第一均匀线性阵列；作为接收机Rx的用户设备(简写为UE)的均匀线性阵列是具有M_r个阵元且具有半波长天线间隔的M_rR×1维的第二均匀线性阵列。如图1所示，基站1端具有N_t条射频链路和N_t×M_t根天线组成的第一均匀线性阵列。它们基于正交多址接入技术，同时服务于N_r个用户设备。每个基站可以同时服务的用户设备数受限于其射频链路数，即N_r≤N_t，其中N_r、N_t均为正整数。

基站1将数据矢量N_s(即发送信号，代表N_s×1路数据)通过数字预编码器F_BB处理得到数字预编码矩阵，通过N_t路射频链路1(这里，收发单元TXRU起到射频链路的功能),输入到由N_t×M_t个相移器构成的模拟预编码单元，处理为N_t×M_t矩阵矢量，经N_t×M_t天线阵列发出射频发送信号。基站1中每一路收发单元TXRU₁与M_t个相移器连接，每一个相移器连接一根天线,因此N_t路收发单元TXRU连接N_t×M_t根天线组成的第一的均匀线性阵列。用户设备2中有N_r×M_r根天线组成的第二均匀线性阵列，分别与N_r个相移器连接，再连接到N_r路第二收发单元TXRU₂。每一路第二收发单元TXRU₂与M_r根第二相移器连接。N_r路第二收发单元TXRU均连接到第二数字预编码器W_BB。这是3GPP标准中规定的自适应天线系统AAS的结构，在此不再赘述。

基站1(发射机(Tx))的第一均匀线性阵列可以在用户设备的方位域上生成N_t个波束，用户设备(接收机(Rx))可以在基站的方向上生成N_r个波束。因此，发射机(Tx)具有N_t个天线单元；接收机(Rx)具有N_r个天线单元。定义第i个基站(1≤i≤N_t)发送的波束赋形(beamforming,BF)矢量为

第j个用户设备(1≤j≤N_r)接收到的波束赋形矢量为

则接收信号可以表示为：

其中，

是信道矩阵，发送的导频信号x使得E[|x|²]＝P，其中P是波束对准期间的发射功率；

是高斯噪声矢量。

在毫米波通信系统中，当两个基站之间或者是用户设备与基站之间没有遮挡的时候，所使用的信道为LOS(Line of Sight)信道，使用LOS信道的波束构成当前波束的LOS子集；当发射端与接收器之间有建筑、植物遮挡的时候，除了衰减，信号还有反射、衍射和穿透损耗，所使用的信道为NLOS(Non Line of Sight)信道，使用NLOS信道的波束构成当前波束的NLOS子集。在NLOS信道中，多径效应明显。因为LOS信道衰减少，所以跟NLOS信道相比，LOS信道模型的信号质量更好，吞吐量越大。

前已述及，现有的波束对准算法难以满足高速移动场景下毫米波通信系统的要求。为此，本发明所提供的位置辅助波束对准方法分两步实现快速且有效的波束对准。其中，第一步是利用位置信息直接获得部分训练子集；从余下波束中选出另一部分子集，将两部分子集合并为一个完整的子集；第二步利用所得子集进行导频传输，选择其中最佳的波束用于进一步的数据传输。这样可以减少迭代次数，从而降低算法复杂度，大大减少计算时间。下面对此展开详细具体的说明。

研究表明，毫米波高速移动场景下的波束搜索和波束对准问题可以表示为MAB(multi-armed bandit，多臂老虎机或多臂强盗)问题，以MAB模型来解决。根据强盗(bandit)术语，将一组波束对命名为一个臂(arm)，各组波束对应不同的臂。定义两种强盗信息：第一个是在时隙t(一个时隙对应于一个TTI周期)，臂i被选择到的次数，表示为n_i，第二个是臂i获得的历史奖励的平均值μ_i。将上述两种强盗信息初始化为零。

图1所示的系统模型中波束对数量为N_rN_t，即有N_rN_t个臂(arm)，也就是基站的收发单元数量(N_t)与用户设备的收发单元数量(N_r)之积。基于图1的模型，在每个时隙t∈{1,2,...}中，先从N_rN_t个臂中选择由m₁个LOS臂组成的子集M₁，然后从剩余的(N_rN_t-m₁)个臂中选择拥有最大UCB(the-upper-confidence-bound，上置信界)值的m₂个NLOS臂组成的子集M₂，然后合并NLOS子集M₂与LOS子集M₁，得到训练子集M(M＝M₁+M₂)(M的大小为m′＝m₁+m₂)用于波束对准。利用所得训练子集进行导频信号传输。考虑到毫米波高速移动通信的限制，训练子集M的大小远小于N_rN_t。m₁和m₂均为预设的常数，满足m₁+m₂＞D，D为移动通信系统并行传输所需的波束数量。

在波束对准之后，选择具有D个最大路径增益的D(D＜M)个臂，即最佳的波束(arm)，用于数据传输。每个被选择的波束(arm)i∈{1,...,N_tN_r}在第t个时隙贡献的特定的传输速率，称为奖励x_i(t)。根据接收的信号计算奖励x_i(t)，并且反馈该信息以更新波束搜索的信息。然后返回检测循环，等待下一个波束对准请求。

由于在毫米波通信系统中，MIMO通信的空间散射受限且天线相关性严重，本发明实施例中优选采用几何Saleh-Valenzuela信道模型，可以准确地捕捉到毫米波信道中存在的数学结构。鉴于毫米波信道的稀疏性，本发明实施例中使用具有L个散射体的几何信道模型，其中每个散射体贡献单个传播路径。在该模型下，信道矩阵H可以表示为：

其中，ρ表示取决于载波频率、接收器与发射器之间的距离，以及信道传播环境的平均路径损耗；

l∈{1，2，...，L}是假设为高斯分布的复合路径增益；

是平均功率增益；v_l是第l条路径的多普勒频移。对于每条路径，出发和到达的方位角(AoAs/AoDs)由φ_l和θ_l表示。矢量a_r(θ)和a_t(φ)分别表示接收器和发射器的阵列响应矢量。采用均匀线性阵列(ULA)时，a_r(θ)和a_t(φ)可定义为：

在基站1(发射器)，反复运行本发明提供的位置辅助波束对准方法进行自学习。在每次迭代中，它都会根据a_r(θ)和a_t(φ)(位置信息)推荐波束对。并且，在接收到这些波束对的传输速率测量值后，基站1更新其数据库中记录的学习参数。

考虑到毫米波通信系统在高速移动场景下的限制，可以假设训练子集M值远小于N_rN_t值。将每个选中的臂

贡献的特定的传输速率，称为奖励x_i(t)。根据接收的信号计算奖励x_i(t)，并且反馈该信息以更新波束对准的信息。

下面结合图2详细说明本发明提供的位置辅助波束对准方法。

假设图1的信道H中的每个路径(波束)都为一个臂，共有N_rN_t个臂，N_r为接收器的天线数量；N_t为发射器的天线数量。第i组波束(臂i)的UCB奖励值x_i初始值为0(根据应用场景的实际需要，也可以是其他预设值)，平均回报值μ_i的初始值为0，第i组波束被选择的次数n_i初始值为0。在本实施例中以发射器为基站，接收器为用户设备为例进行说明。

步骤1：发射器端获取接收器的位置信息。

结合图2和图7所示，极坐标中的原点设置在发射器(基站或BS)的中心。每个接收端和发送端的位置都由相对于接收器(用户设备或RX)到原点的距离φ，以及相对于发射器的方向与x轴之间的夹角(即极角)θ来表示。因此接收器的位置被编码为(φ,θ)。

在每个时隙t∈{1,2,...}开始时，发射器(基站1)计算其接收到的用户设备2的位置信息。将位置信息用接收器和发射器的阵列响应矢量a_r(θ)和a_t(φ)表示。

步骤2：根据位置信息选择LOS路径的m₁个波束，形成LOS子集。

通过极坐标给发送器和接收器进行建模，得到收发端的极坐标模型图，如图7所示。对此，可以参阅如下论文：T.Kim and D.J.Love,"Virtual AoA and AoD estimationfor sparse millimeter wave MIMO channels"2015IEEE 16th International Workshopon Signal Processing Advances in Wireless Communications(SPAWC),Stockholm,2015,pp.146-150。

根据每对波束的位置信息，基站1可以定位出：从发射器到接收器(基站1到用户设备2)的LOS路径所在的位置，为N_rN_t个波束中的第j个波束(LOS路径波束)。将第j个波束放入LOS子集M₁。

由于这一步中定位的LOS路径并不一定准确，所以需要将第j个波束位置附近的多个波束作为备选波束，也放入LOS子集M₁。

这样，基站1从N_rN_t个波束中选择m₁(m₁>D)个LOS路径的波束，组成LOS子集M₁：

其中，m为预设常数，m₁＝2m+1。式(4)表示在LOS路径波束(第j个波束)附近对称选择多个波束。根据应用场景的Qos或者其他需求，基于仿真结果来确定m₁的取值。

步骤3：从剩余的(N_rN_t-m₁)个波束中选择m₂个拥有最大UCB索引值的NLOS路径的波束，形成NLOS子集M₂。

针对不在LOS子集M₁内的臂，即在(N_rN_t-m₁)个波束中的臂，按照式5计算各波束的UCB索引值。从这(N_rN_t-m₁)个NLOS波束中，根据UCB索引值N(i)，选择m₂个拥有最大UCB索引值N(i)的波束，组成NLOS子集M₂。根据应用场景的Qos或者其他需求，基于仿真结果来确定m₂的取值。在本实施例中m₂>D，但是只要满足m₁+m₂＞D，并不要求m₁和m₂均大于D。

尽管可以利用历史信息来缩短波束搜索，但是高速移动通信的实际传播环境不是静态的。换句话说，相关臂的预期奖励随时间缓慢变化。因此，总是需要进行探索不同的臂。本发明提供的位置辅助波束对准方法是从剩余的子集中选择部分波束，形成NLOS路径子集，作为候选波束。因为本发明提供的位置辅助波束对准方法搜索了所有可用路径，包括LOS路径和NLOS路径，可以选择最优路径以最大化传输速率。

对于(N_rN_t-m₁)个波束中的臂(波束)i，计算臂i的UCB值N(i)：

式(5)中，μ_i是已观测到的臂i的平均回报值，t为时隙数(也是累积选择的次数)，n_i为臂i当前累积被选中的次数，c是一个常数。c决定了控制探索程度的置信度的宽度。所谓置信度，是UCB算法中定义的参数，是表示对于μ_i的估计的确信程度。可以简单地理解为不确定性的程度，区间越宽，越不确定。每个臂的平均回报μ_i都有个置信区间，随着试验次数增加，回报μ_i的置信区间会变窄(逐渐确定了到底回报是丰厚还是可怜)。如果置信区间很宽(表示被选次数很少，还不确定该臂的回报的大小)，那么该臂会倾向于被多次选择；如果置信区间很窄(被选次数已很多，比较确定该臂的回报的大小)，那么平均回报μ_i大的臂倾向于被多次选择。

在每次选择前，都需要根据已知结果重新估计每个臂的平均回报值μ_i及置信空间

根据式(6)可以选出具有最大UCB索引值N(i)的m₂个波束：

即，对LOS集合M₁之外的臂，计算各臂的UCB索引值,并按照从大到小进行排序，取前m₂个最大的UCB索引值对应的臂(波束)。在选择m₂个臂后，可以获得臂的NLOS集合M₂

合并LOS子集M₁和NLOS子集M₂，得到训练子集(参见式8)。训练子集中包括m₁+m₂个波束。

G_M＝M₁∪M₂ (8)

步骤4：在波束对准期间，根据训练子集中所有路径的信道状态，选择具有最大路径增益的多个路径。

为了测量毫米波信道状态，发射器向接收器广播一系列波束成形的导频信号，接收器根据其接收到的导频信号功率，反馈给发射器。D的取值是根据发射器与接收器之间进行数据流并行传输的需要来确定的。

对于训练子集中的任意臂i，相关路径的信道状态是H信道矩阵的第(q(i),p(i))个元素。因此，发射器(基站端)和接收器使用，第p(i)个发送和第q(j)个接收波束对的波束成形矢量，发射和接收导频信号，以测量臂i的相关路径的信道状态。

接收器接收到的信号为：

发射器发送的导频信号s使得E[|s|²]＝P，其中P是波束对准(BA)期间的发射功率。因此，接收器获得的平均接收导频信号功率是：

式(10)中，N_P是导频序列的长度。

基站1获得来自用户设备2的平均导频信号功率，然后选择出具有最大导频信号功率的D条路径。所选择的D条路径的相关臂k₁,k₂,...,k_D取自G_M；且在G_M中各臂的平均接收导频信号功率排序中，这D个臂的平均接收导频信号功率为最大的D个，即满足：

为了便于以下描述，令

为用于数据传输的路径集。

步骤5：在数据传输期间，通过所选择的D条路径并行传输数据流，获得UCB奖励x_i。

在步骤5中已经选择了D条路径，发射器在数据传输期间，通过所选择的D路径传输并行D条数据流。同时，接收器将测量每条路径上的传输速率。然后，将测量到的传输速率反馈给发射器以计算相关臂的UCB奖励x_i。被选择的臂的奖励x_i被定义为其测量速率的效用。

步骤6：更新所有路径的平均回报μ_i。

接收器从这D个路径接收到信号。接收器将其测量到的这D个路径的信号传输速率反馈给发射器。

发射器将接收到的D条路径的信号传输速率，作为UCB奖励x_i，更新平均回报值μ_i。信号传输速率越大，则UCB奖励值x_i越大。

发射器更新当前各个波束i的强盗信息：

其中，n_i表示为一直到时隙t时第i组波束被选择的次数，第i组获得的历史回报平均值为μ_i，每个臂i∈{1,…,N_tN_r}贡献特定的传输速率，为UCB奖励值x_i。

未被选中的臂，即除这D条路径之外的波束，令UCB奖励值x_i为0，更新平均回报值μ_i。

返回步骤1，进入下一个循环，对所有路径进行判断。

前面介绍基于多臂强盗的位置辅助波束对准方法的具体步骤。可以理解，以上步骤顺序并不构成对本发明的限制。以上实施例中，以传输速率为奖励值x_i是为了适应高速移动的应用场景，也可以接收器接收到的信号功率作为奖励值x_i。换言之，选择什么参数作为奖励值，是可以根据应用场景的需要来变化的，上述实施例中选用传输速率作为奖励值并不构成对本发明的限制。

与现有技术相比较，本发明创造性地将高速移动场景下的波束对准问题表述为MAB问题，并将MAB问题求解与位置辅助有机相结合，使用位置辅助有效地减少了需要测量的波束对数量，缩短了波束对准时长。同时，利用位置信息直接计算LOS路径子集，避免了现有上置信界算法陷入局部最优而选择次优路径的情况，从而增大了波束对准概率，实现减小计算复杂度、提高频谱效率的目的。

<第二实施例>

如图3所示，本发明提供的位置辅助波束对准方法可以应用于车联网。其中，发射器Tx安装在第一车辆上，接收器Rx安装在另一车辆上。发射器包括DAC(数模转换)模块，射频链路，以及线性天线阵列；接收器包括ADC(模数转换)模块、射频链路以及线性天线阵列。

如图4所示，获取车辆位置信息，根据车辆位置信息从所有波束集合中选择对应的视距路径及其相邻路径的集合；计算余下所有路径的UCB，并选择其中UCB最大的多条路径组成非视距路径；测量获得的视距路径以及非视距路径的信道状态，选择信道状态最好的D条路径进行数据传输；反馈所选D条路径的传输速率作为相关臂的奖励并进行更新。

具体步骤如下：

系统初始化：令t＝0,n_i＝0,μ_i＝0，

1.获取车辆位置信息φ和θ。

参考图7，车辆(图中为RX)的极坐标位置信息φ和θ，根据φ和θ从N_tN_r波束集中找出对应的LOS路径及其相邻路径的集合M₁＝{A_j-m,...,A_j-1,A_j,A_j+1,...,A_j+m}，

m为一常数，m₁＝2m+1。

2.选择NLOS路径集合M₂。使用式(5)计算余下所有臂的UCB，并选择其中UCB最大的m₂＝2m+1项；更新M₂以获得式(7)所述NLOS子集M₂。在本实施例中m₁＝m₂。

3.获得集合G_M＝M₁∪M₂，m₁+m₂远小于N_tN_r。

4.测量G_M中全部路径的信道状态信息。

5.发射器使用式(11)选择D条路径进行数据传输。

6.反馈所选D路径的传输速率作为相关臂的奖励。

7.发射器使用式(12)更新bandit信息(强盗信息)。

本实施例中，仿真所用的关键参数如表1所示。

表1仿真关键参数表

基于上述仿真参数，得到的仿真结果如图5和图6所示。图5为本发明提供的位置辅助波束对准方法与常规方法在频谱效率上的累积损耗对比图。从图5上可以看到，本发明提供的位置辅助波束对准方法(PA-UCB法)的累积损耗明显低于常规方法(UCB法和exhaustive法)。图6为频谱效率的CDF对比图，可以看到本发明(简称为PA-UCB法)的频谱效率CDF(累积分布函数)曲线表现优于传统的UCB法和传统波束对准(BA)法。

本发明提供的位置辅助波束对准方法将MAB法与位置辅助有机地相结合，使用位置辅助方法有效地减少了需要测量的波束对数量，从而提高了频谱效率。利用位置信息直接计算LOS路径子集，避免了现有上置信界算法(UCB)陷入局部最优而选择次优路径的情况，从而增大了对准概率，提高了频谱效率。

本发明使用两步位置辅助的UCB算法，减小算法复杂度，大大减少计算时间。基于UCB准则的位置辅助波束搜索与对齐算法是一个两步的波束对准方案。首先从剩余的非LOS路径中选择UCB较高的NLOS路径子集，然后合并NLOS子集与LOS子集，第二步利用所得子集进行导频传输，选择其中最佳的波束用于进一步的数据传输。这样可以减少迭代次数，从而降低了算法的复杂度，减少了计算时间。

上面对本发明所提供的基于多臂强盗的位置辅助波束对准方法及其系统进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于多臂强盗的位置辅助波束对准方法，其特征在于包括如下步骤：

步骤1：获取接收器的位置信息；

步骤5：在数据传输期间，通过在步骤5中选择的所述波束并行传输数据流，并获得所述波束的UCB奖励值；

2.如权利要求1所述的位置辅助波束对准方法，其特征在于：

在更新各路径的平均回报时，对所述步骤4中选择的所述波束，基于所述步骤5中获得的所述波束的UCB奖励值进行更新；对其他波束，令UCB奖励值为0进行更新。

3.如权利要求2所述的位置辅助波束对准方法，其特征在于：

所述步骤3中，所述最大UCB索引值是基于UCB法的平均回报与置信空间之和。

4.如权利要求3所述的位置辅助波束对准方法，其特征在于：

所述步骤4中，所述最大路径增益是指在波束对准期间，发射器在所述LOS子集和所述NLOS子集中的所有路径发出导频信号，接收器接收到所述导频信号，并计算平均接收导频信号功率，将所述平均接收导频信号功率进行排序，选择最大的特定数量的所述平均接收导频信号功率对应的波束。

5.如权利要求4所述的位置辅助波束对准方法，其特征在于：

所述多个LOS波束是所述LOS路径所在位置的附近的多个波束。

6.如权利要求4或5所述的位置辅助波束对准方法，其特征在于：

所述多个LOS波束或所述多个NLOS波束的数量，均大于或等于所述步骤5中并行传输数据流的波束的数量。

7.如权利要求2所述的位置辅助波束对准方法，其特征在于：

所述UCB奖励值是每个波束的传输速率或信号功率。

8.如权利要求1～5中任意一项所述的位置辅助波束对准方法，其特征在于：

所述步骤3中，最大UCB值N(i)是根据下式计算的：

9.一种基于多臂强盗的位置辅助波束对准系统，包括发射器和接收器，所述发射器和所述接收器均具有线性阵列天线，其特征在于：

所述位置辅助波束对准系统执行权利要求1～8中任意一项所述的位置辅助波束对准方法。