CN113285740B

CN113285740B - 一种基于强化学习的波束训练方法

Info

Publication number: CN113285740B
Application number: CN202110548704.2A
Authority: CN
Inventors: 杨绿溪; 张天怡; 徐佩钦; 周京鹏; 俞菲; 徐琴珍
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-02-14
Anticipated expiration: 2041-05-20
Also published as: CN113285740A

Abstract

本发明公开了一种基于强化学习的波束训练方法，包括以下步骤，在初始时隙内，基站搜索整个码本找到最佳波束作为发送波束；初始化强化学习Q值估计网络、目标Q值网络和经验池；在每一个时隙内，通过上一时隙内的波束训练结果得到状态，并输入Q值估计网络，得到动作；在时隙内执行动作，计算奖励值，并根据波束训练结果得到状态；在时隙的剩余时间内传输有效数据，并将交互数据存入经验池；在数据传输的后台训练网络，更新Q值估计网络和目标Q值网络的网络参数。本发明利用强化学习DQN算法进行波束训练，可以自适应地调整待训练的波束集合，从而极大地减小了波束训练的开销，提升了系统的有效可达速率。

Description

一种基于强化学习的波束训练方法

技术领域

本发明属于毫米波波束训练技术领域，尤其涉及一种基于强化学习的波束训练方法。

背景技术

在波束形成技术中，信道状态信息往往起着至关重要的作用。目前提出的大部分波束形成算法通常都依赖于完整的信道状态信息，而这在毫米波通信中是很难获得的。

由于毫米波信道的稀疏性，波束训练成为了一种有效的获取信道状态信息的方法，从而可以实现高增益的波束赋形。通常在波束训练过程中，会按照某种性能指标，比如接收信号强度最大化，来进行穷举搜索或自适应搜索，在发射机和接收机端的候选波束集合中选取最优的波束进行通信。

然而在毫米波大规模天线阵列系统中，基于穷搜和自适应搜索的波束训练算法具有很大的开销。并且，在实际动态场景中，毫米波信道变化非常快，信道相干时间很短，不足以进行频繁精确的波束训练。

为了减小波束训练的开销，可以提取和利用训练历史中的有用信息，以此减小其后训练过程中的波束搜索空间。机器学习的发展促进了这一想法的实现，由此产生了基于机器学习的波束训练算法。现有的基于机器学习的波束训练算法中，有一类是基于监督学习设计的，这需要提前收集大量的训练样本。然而收集训练样本的成本往往很高，在动态变化的复杂环境中甚至是无法完成的。并且当场景变化时就需要重新收集新的样本。另一类是基于多臂老虎机模型的波束训练算法，这是一种轻量级的强化学习方法，提取和利用有效历史信息的能力较为有限。因此，需要更高效的智能算法来更好地从环境中学习并且利用提取的信息。

发明内容

本发明目的在于提供一种基于强化学习的波束训练方法,以解决波束训练的开销大，需要事先收集训练样本，需要动态信道建模的先验知识，不能自适应地调整待训练的波束集合的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于强化学习的波束训练方法，包括以下步骤:

步骤1、在初始时隙内，基站搜索整个码本C找到波束作为发送波束；

步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D；

步骤3、在每一个时隙t内，通过上一时隙t-1内的波束训练结果得到时隙t的状态信息s_t，并将s_t输入Q值估计网络，得到动作价值估计值，选取价值最大的动作a_t；

步骤4、在时隙t内执行动作a_t，计算奖励值r_t，并根据波束训练结果得到下一时隙t+1的状态信息s_t+1；

步骤5、在时隙t的剩余时间内传输有效数据，并将交互数据(s_t,a_t,r_t,s_t+1)存入经验池；

步骤6、在数据传输的后台训练网络，更新Q值估计网络和目标Q值网络的网络参数。

进一步的，步骤1还包括以下步骤：

步骤1.1、通过对波束空间的均匀采样来构建码本：

C＝{f_i＝a(-1+2i/M)|i＝0,1,2,...,M-1}

其中，f_i表示每一个波束，M为码本的大小；a(·)代表天线阵列响应向量；

a(·)的形式为：

其中，N_t为发射天线数量，λ和d分别表示信号的波长和天线单元的间距；

步骤1.2、测量码本中每一个波束对应的接收信号强度，选择接收信号强度最大的波束作为发送波束。

进一步的，步骤2还包括以下步骤：

步骤2.1，构建强化学习Q值估计网络，包括一个输入层、四个全连接层和一个输出层，初始化Q值估计网络的参数θ；

步骤2.2，构建强化学习目标Q值网络，结构与Q值估计网络相同，初始化目标Q值网络的参数θ′＝θ。

进一步的，步骤4还包括以下步骤：

步骤4.1、在时隙t内执行动作a_t；a_t是一个二元组，a_t＝(a_i,b_i)；在时隙t内用于波束训练的波束集合为：

其中，f_c为上一时隙内的最佳波束；

步骤4.2，在时隙t内利用波束集合

中的波束进行波束训练，测量每一个波束对应的接收信号强度，并估计出等效信道向量

其中，h^H为信道向量，f₁,...,f_M代表码本中M个波束；将

中的每个元素取模得到向量I_t，其中：

I_t(i)和

表示向量I_t和

的第i个元素，将连续三个时隙内的I_t进行拼接得到状态s_t+1＝[I_t-2,I_t-1,I_t]；

步骤4.3，计算动作a_t的奖励值r_t＝(1-b_iT₀/T_S)log₂(1+P|h^Hf_k|²)，其中，b_i为时隙t内用于波束训练的波束个数，T₀为传输一个波束需要的时间，T_S为一个时隙的总时长，P为基站的发射功率，f_k为时隙t内的最佳波束。

进一步的，步骤6还包括：

步骤6.1、在经验池D中抽取交互数据，计算损失函数为：

其中，Q(s_t,a_t)代表输入状态信息s_t时，Q值估计网络输出的动作a_t的价值估计值，

代表输入状态信息s_t+1时，目标Q值网络输出的最大的动作价值估计值，γ为衰减因子，r_t为动作a_t的奖励值，利用梯度下降法更新Q值估计网络的参数θ；

步骤6.2、延迟更新目标Q值网络的参数θ′＝θ。

本发明的一种基于强化学习的波束训练方法，具有以下优点：

本发明将波束训练问题建立为一个马尔可夫决策过程，利用强化学习DQN算法进行波束训练，不需要事先收集训练样本，不需要动态信道建模的先验知识，可以适用于各种复杂动态的场景，可以感知环境中的动态变化信息，自适应地调整待训练的波束集合，从而极大地减小了波束训练的开销，提升了系统的有效可达速率。

附图说明

图1为本发明的基于强化学习的波束训练方法的整体流程示意图；

图2为本发明的Q值估计网络和目标Q值网络的结构示意图；

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于强化学习的波束训练方法做进一步详细的描述。

如图1所示，为本发明提出的一种基于强化学习的波束训练方法的整体流程示意图，该方法具体包括以下步骤：

步骤1、在初始时隙内，基站搜索整个码本C找到最佳波束作为发送波束；

具体的，步骤1还包括：

步骤1.1、通过对波束空间的均匀采样来构建码本：

C＝{f_i＝a(-1+2i/M)|i＝0,1,2,...,M-1}

其中，f_i表示每一个波束，M为码本的大小。a(·)代表天线阵列响应向量，对于均匀线阵，a(·)的形式为：

具体的，步骤2还包括：

步骤2.1、构建强化学习Q值估计网络，包括一个输入层、四个全连接层和一个输出层，随机初始化Q值估计网络的参数θ；

步骤2.2、构建强化学习目标Q值网络，结构与Q值估计网络相同，随机初始化目标Q值网络的参数θ′＝θ。

进一步的，参照图2的示意，为本实施例中Q值估计网络和目标Q值网络的结构示意图，状态信息输入Q值估计网络后，依次通过第一个全连接层、整流线性单元激活层、第二个全连接层、整流线性单元激活层、第三个全连接层、整流线性单元激活层和最后一个全连接层，最终输出动作价值估计结果。

步骤4，在时隙t内执行动作a_t，计算奖励值r_t，并根据波束训练结果得到状态s_t+1；

具体的，步骤4还包括：

步骤4.1、在时隙t内执行动作a_t。a_t是一个二元组，a_t＝(a_i,b_i)，于是在时隙t内用于波束训练的波束集合为：

其中，f_c为上一时隙内的最佳波束；

步骤4.2、在时隙t内利用波束集合

其中，h^H为信道向量，f₁,...,f_M代表码本中M个波束。将

中的每个元素取模得到向量I_t，其中：

I_t(i)和

表示向量I_t和

步骤4.3、计算动作a_t的奖励值r_t＝(1-b_iT₀/T_S)log₂(1+P|h^Hf_k|²)，其中，b_i为时隙t内用于波束训练的波束个数，T₀为传输一个波束需要的时间，T_S为一个时隙的总时长，P为基站的发射功率，f_k为时隙t内的最佳波束。

具体的，步骤6还包括：

步骤6.1、在经验池D中随机抽取交互数据，计算损失函数为：

代表输入状态信息s_t+1时，目标Q值网络输出的最大的动作价值估计值，γ为衰减因子，r_t为动作a_t的奖励值。利用梯度下降法更新Q值估计网络的参数θ；

步骤6.2，延迟更新目标Q值网络的参数θ′＝θ。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。