CN113285740B - 一种基于强化学习的波束训练方法 - Google Patents
一种基于强化学习的波束训练方法 Download PDFInfo
- Publication number
- CN113285740B CN113285740B CN202110548704.2A CN202110548704A CN113285740B CN 113285740 B CN113285740 B CN 113285740B CN 202110548704 A CN202110548704 A CN 202110548704A CN 113285740 B CN113285740 B CN 113285740B
- Authority
- CN
- China
- Prior art keywords
- value
- network
- time slot
- reinforcement learning
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0426—Power distribution
- H04B7/043—Power distribution using best eigenmode, e.g. beam forming or beam steering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于强化学习的波束训练方法,包括以下步骤,在初始时隙内,基站搜索整个码本找到最佳波束作为发送波束;初始化强化学习Q值估计网络、目标Q值网络和经验池;在每一个时隙内,通过上一时隙内的波束训练结果得到状态,并输入Q值估计网络,得到动作;在时隙内执行动作,计算奖励值,并根据波束训练结果得到状态;在时隙的剩余时间内传输有效数据,并将交互数据存入经验池;在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。本发明利用强化学习DQN算法进行波束训练,可以自适应地调整待训练的波束集合,从而极大地减小了波束训练的开销,提升了系统的有效可达速率。
Description
技术领域
本发明属于毫米波波束训练技术领域,尤其涉及一种基于强化学习的波束训练方法。
背景技术
在波束形成技术中,信道状态信息往往起着至关重要的作用。目前提出的大部分波束形成算法通常都依赖于完整的信道状态信息,而这在毫米波通信中是很难获得的。
由于毫米波信道的稀疏性,波束训练成为了一种有效的获取信道状态信息的方法,从而可以实现高增益的波束赋形。通常在波束训练过程中,会按照某种性能指标,比如接收信号强度最大化,来进行穷举搜索或自适应搜索,在发射机和接收机端的候选波束集合中选取最优的波束进行通信。
然而在毫米波大规模天线阵列系统中,基于穷搜和自适应搜索的波束训练算法具有很大的开销。并且,在实际动态场景中,毫米波信道变化非常快,信道相干时间很短,不足以进行频繁精确的波束训练。
为了减小波束训练的开销,可以提取和利用训练历史中的有用信息,以此减小其后训练过程中的波束搜索空间。机器学习的发展促进了这一想法的实现,由此产生了基于机器学习的波束训练算法。现有的基于机器学习的波束训练算法中,有一类是基于监督学习设计的,这需要提前收集大量的训练样本。然而收集训练样本的成本往往很高,在动态变化的复杂环境中甚至是无法完成的。并且当场景变化时就需要重新收集新的样本。另一类是基于多臂老虎机模型的波束训练算法,这是一种轻量级的强化学习方法,提取和利用有效历史信息的能力较为有限。因此,需要更高效的智能算法来更好地从环境中学习并且利用提取的信息。
发明内容
本发明目的在于提供一种基于强化学习的波束训练方法,以解决波束训练的开销大,需要事先收集训练样本,需要动态信道建模的先验知识,不能自适应地调整待训练的波束集合的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于强化学习的波束训练方法,包括以下步骤:
步骤1、在初始时隙内,基站搜索整个码本C找到波束作为发送波束;
步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;
步骤4、在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到下一时隙t+1的状态信息st+1;
步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;
步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。
进一步的,步骤1还包括以下步骤:
步骤1.1、通过对波束空间的均匀采样来构建码本:
C={fi=a(-1+2i/M)|i=0,1,2,...,M-1}
其中,fi表示每一个波束,M为码本的大小;a(·)代表天线阵列响应向量;
a(·)的形式为:
其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;
步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束。
进一步的,步骤2还包括以下步骤:
步骤2.1,构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,初始化Q值估计网络的参数θ;
步骤2.2,构建强化学习目标Q值网络,结构与Q值估计网络相同,初始化目标Q值网络的参数θ′=θ。
进一步的,步骤4还包括以下步骤:
步骤4.1、在时隙t内执行动作at;at是一个二元组,at=(ai,bi);在时隙t内用于波束训练的波束集合为:
其中,fc为上一时隙内的最佳波束;
其中,hH为信道向量,f1,...,fM代表码本中M个波束;将中的每个元素取模得到向量It,其中:It(i)和表示向量It和的第i个元素,将连续三个时隙内的It进行拼接得到状态st+1=[It-2,It-1,It];
步骤4.3,计算动作at的奖励值rt=(1-biT0/TS)log2(1+P|hHfk|2),其中,bi为时隙t内用于波束训练的波束个数,T0为传输一个波束需要的时间,TS为一个时隙的总时长,P为基站的发射功率,fk为时隙t内的最佳波束。
进一步的,步骤6还包括:
步骤6.1、在经验池D中抽取交互数据,计算损失函数为:
其中,Q(st,at)代表输入状态信息st时,Q值估计网络输出的动作at的价值估计值,代表输入状态信息st+1时,目标Q值网络输出的最大的动作价值估计值,γ为衰减因子,rt为动作at的奖励值,利用梯度下降法更新Q值估计网络的参数θ;
步骤6.2、延迟更新目标Q值网络的参数θ′=θ。
本发明的一种基于强化学习的波束训练方法,具有以下优点:
本发明将波束训练问题建立为一个马尔可夫决策过程,利用强化学习DQN算法进行波束训练,不需要事先收集训练样本,不需要动态信道建模的先验知识,可以适用于各种复杂动态的场景,可以感知环境中的动态变化信息,自适应地调整待训练的波束集合,从而极大地减小了波束训练的开销,提升了系统的有效可达速率。
附图说明
图1为本发明的基于强化学习的波束训练方法的整体流程示意图;
图2为本发明的Q值估计网络和目标Q值网络的结构示意图;
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于强化学习的波束训练方法做进一步详细的描述。
如图1所示,为本发明提出的一种基于强化学习的波束训练方法的整体流程示意图,该方法具体包括以下步骤:
步骤1、在初始时隙内,基站搜索整个码本C找到最佳波束作为发送波束;
具体的,步骤1还包括:
步骤1.1、通过对波束空间的均匀采样来构建码本:
C={fi=a(-1+2i/M)|i=0,1,2,...,M-1}
其中,fi表示每一个波束,M为码本的大小。a(·)代表天线阵列响应向量,对于均匀线阵,a(·)的形式为:
其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;
步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束。
步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;
具体的,步骤2还包括:
步骤2.1、构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,随机初始化Q值估计网络的参数θ;
步骤2.2、构建强化学习目标Q值网络,结构与Q值估计网络相同,随机初始化目标Q值网络的参数θ′=θ。
进一步的,参照图2的示意,为本实施例中Q值估计网络和目标Q值网络的结构示意图,状态信息输入Q值估计网络后,依次通过第一个全连接层、整流线性单元激活层、第二个全连接层、整流线性单元激活层、第三个全连接层、整流线性单元激活层和最后一个全连接层,最终输出动作价值估计结果。
步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;
步骤4,在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到状态st+1;
具体的,步骤4还包括:
步骤4.1、在时隙t内执行动作at。at是一个二元组,at=(ai,bi),于是在时隙t内用于波束训练的波束集合为:
其中,fc为上一时隙内的最佳波束;
其中,hH为信道向量,f1,...,fM代表码本中M个波束。将中的每个元素取模得到向量It,其中:It(i)和表示向量It和的第i个元素,将连续三个时隙内的It进行拼接得到状态st+1=[It-2,It-1,It];
步骤4.3、计算动作at的奖励值rt=(1-biT0/TS)log2(1+P|hHfk|2),其中,bi为时隙t内用于波束训练的波束个数,T0为传输一个波束需要的时间,TS为一个时隙的总时长,P为基站的发射功率,fk为时隙t内的最佳波束。
步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;
步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。
具体的,步骤6还包括:
步骤6.1、在经验池D中随机抽取交互数据,计算损失函数为:
其中,Q(st,at)代表输入状态信息st时,Q值估计网络输出的动作at的价值估计值,代表输入状态信息st+1时,目标Q值网络输出的最大的动作价值估计值,γ为衰减因子,rt为动作at的奖励值。利用梯度下降法更新Q值估计网络的参数θ;
步骤6.2,延迟更新目标Q值网络的参数θ′=θ。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (1)
1.一种基于强化学习的波束训练方法,其特征在于,包括以下步骤:
步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;
步骤4、在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到下一时隙t+1的状态信息st+1;
步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;
步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数;
所述步骤2还包括以下步骤:初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤2.1,构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,初始化Q值估计网络的参数θ;
步骤2.2,构建强化学习目标Q值网络,结构与Q值估计网络相同,初始化目标Q值网络的参数θ′=θ;
状态信息输入Q值估计网络后,依次通过第一个全连接层、整流线性单元激活层、第二个全连接层、整流线性单元激活层、第三个全连接层、整流线性单元激活层和最后一个全连接层,最终输出动作价值估计结果;
所述步骤1还包括以下步骤:
步骤1.1、通过对波束空间的均匀采样来构建码本:
其中,fi表示每一个波束,M为码本的大小;a(·)代表天线阵列响应向量;
a(·)的形式为:
其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;
步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束;
所述步骤4还包括以下步骤:
步骤4.1、在时隙t内执行动作at;at是一个二元组,at=(ai,bi);在时隙t内用于波束训练的波束集合为:
其中,fc为上一时隙内的最佳波束;
其中,hH为信道向量,f1,...,fM代表码本中M个波束;将中的每个元素取模得到向量It,其中:It(i)和表示向量It和的第i个元素,将连续三个时隙内的It进行拼接得到状态st+1=[It-2,It-1,It];
步骤4.3,计算动作at的奖励值rt=(1-biT0/TS)log2(1+P|hHfk|2),其中,bi为时隙t内用于波束训练的波束个数,T0为传输一个波束需要的时间,TS为一个时隙的总时长,P为基站的发射功率,fk为时隙t内的最佳波束;
所述步骤6还包括:
步骤6.1、在经验池D中抽取交互数据,计算损失函数为:
其中,Q(st,at)代表输入状态信息st时,Q值估计网络输出的动作at的价值估计值,代表输入状态信息st+1时,目标Q值网络输出的最大的动作价值估计值,γ为衰减因子,rt为动作at的奖励值,利用梯度下降法更新Q值估计网络的参数θ;
步骤6.2、延迟更新目标Q值网络的参数θ′=θ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110548704.2A CN113285740B (zh) | 2021-05-20 | 2021-05-20 | 一种基于强化学习的波束训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110548704.2A CN113285740B (zh) | 2021-05-20 | 2021-05-20 | 一种基于强化学习的波束训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113285740A CN113285740A (zh) | 2021-08-20 |
CN113285740B true CN113285740B (zh) | 2023-02-14 |
Family
ID=77280110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110548704.2A Active CN113285740B (zh) | 2021-05-20 | 2021-05-20 | 一种基于强化学习的波束训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113285740B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
CN110336761A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 毫米波大规模mimo系统的波束空间信道估计方法 |
CN110417444A (zh) * | 2019-07-08 | 2019-11-05 | 东南大学 | 一种基于深度学习的毫米波信道波束训练方法 |
CN110971279A (zh) * | 2019-12-30 | 2020-04-07 | 东南大学 | 一种毫米波通信系统中智能波束训练方法及预编码系统 |
WO2020094630A1 (en) * | 2018-11-05 | 2020-05-14 | Nokia Solutions And Networks Oy | One shot multi-user multiple-input multiple-output (mu-mimo) resource pairing using reinforcement learning based deep q network (dqn) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112073106B (zh) * | 2020-08-14 | 2022-04-22 | 清华大学 | 毫米波波束预测方法及装置、电子设备、可读存储介质 |
CN112468568B (zh) * | 2020-11-23 | 2024-04-23 | 南京信息工程大学滨江学院 | 一种移动边缘计算网络的任务中继卸载方法 |
-
2021
- 2021-05-20 CN CN202110548704.2A patent/CN113285740B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
WO2020094630A1 (en) * | 2018-11-05 | 2020-05-14 | Nokia Solutions And Networks Oy | One shot multi-user multiple-input multiple-output (mu-mimo) resource pairing using reinforcement learning based deep q network (dqn) |
CN110417444A (zh) * | 2019-07-08 | 2019-11-05 | 东南大学 | 一种基于深度学习的毫米波信道波束训练方法 |
CN110336761A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 毫米波大规模mimo系统的波束空间信道估计方法 |
CN110971279A (zh) * | 2019-12-30 | 2020-04-07 | 东南大学 | 一种毫米波通信系统中智能波束训练方法及预编码系统 |
Non-Patent Citations (2)
Title |
---|
Ming Feng ; Hao Xu.Multi-Robot Enhanced Intelligent Multi-User Millimeter-Wave MIMO Systems under Uncertain Environment.《 2019 International Conference on Computing, Networking and Communications 》.2019, * |
基于深度学习的毫米波系统波束成形;龙恳;《电讯技术》;20210228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113285740A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN113537514B (zh) | 一种高能效的基于数字孪生的联邦学习框架 | |
CN110336594B (zh) | 一种基于共轭梯度下降法的深度学习信号检测方法 | |
CN110167176B (zh) | 一种基于分布式机器学习的无线网络资源分配方法 | |
CN110769514B (zh) | 一种异构蜂窝网络d2d通信资源分配方法及系统 | |
CN110708129B (zh) | 一种无线信道状态信息获取方法 | |
CN113438002B (zh) | 基于lstm的模拟波束切换方法、装置、设备及介质 | |
CN114884949B (zh) | 基于maddpg算法的低轨卫星物联网任务卸载方法 | |
CN113438315B (zh) | 基于双网络深度强化学习的物联网信息新鲜度优化方法 | |
CN110659684A (zh) | 一种基于卷积神经网络stbc信号识别方法 | |
CN113112028A (zh) | 一种基于标签设计的机器学习时间同步方法 | |
CN116841732A (zh) | 一种基于单比特量化的联邦学习资源优化设计方法 | |
CN113285740B (zh) | 一种基于强化学习的波束训练方法 | |
CN117295090A (zh) | 一种面向无人机通感一体化系统的资源分配方法 | |
CN117176218A (zh) | 基于深度强化学习的ris联合波束赋形方法及通信系统 | |
CN109831264B (zh) | 基于最近邻居回归的时序水声信道质量预测方法和系统 | |
CN117811846B (zh) | 基于分布式系统的网络安全检测方法、系统、设备及介质 | |
CN117336187B (zh) | 一种基于连边间关联的无人机通信网络推断方法 | |
US20230070003A1 (en) | Determining locations of objects in communication systems | |
CN117279019B (zh) | 频谱效率的预测方法、装置、电子设备及存储介质 | |
Zan et al. | A deep reinforcement learning based approach for intelligent reconfigurable surface elements selection | |
CN113904704B (zh) | 一种基于多智能体深度强化学习的波束预测方法 | |
CN113783593B (zh) | 一种基于深度强化学习的波束选择方法和系统 | |
CN116669056A (zh) | 最小化能耗的tdma无线供能边缘计算网络的任务卸载方法 | |
Luo et al. | Distributed Deep Reinforcement Learning for Resource Allocation in Digital Twin Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |