CN115987406A - 一种基于深度强化学习的水声通信链路自适应方法 - Google Patents
一种基于深度强化学习的水声通信链路自适应方法 Download PDFInfo
- Publication number
- CN115987406A CN115987406A CN202211657649.1A CN202211657649A CN115987406A CN 115987406 A CN115987406 A CN 115987406A CN 202211657649 A CN202211657649 A CN 202211657649A CN 115987406 A CN115987406 A CN 115987406A
- Authority
- CN
- China
- Prior art keywords
- channel
- underwater acoustic
- reinforcement learning
- deep reinforcement
- acoustic communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明属于水声通信技术领域,特别涉及一种基于深度强化学习的水声通信链路自适应方法,主要应用于水声通信中自适应调制。所述方法步骤如下:接收节点收到数据,向发射节点反馈相关信号;发射节点获得反馈信息,利用反馈信息作信道分类;使用处理后的信息训练深度强化学习模型;使用已训练好的深度强化学习模型进行自适应调制。本发明设计了一种基于所有调制方式对应的误码率的信道分类方法,将水声通信自适应调制问题转化为马尔可夫决策过程。与现有方法相比,本发明提出的方法改善了水声通信信道状态信息过时的问题,可以更有效地处理快时变的水声信道环境。本发明方法设计合理,适用范围广泛,能够实现高效的自适应调制。
Description
技术领域
本发明属于水声通信技术领域,特别涉及一种基于深度强化学习的水声通信链路自适应方法。
背景技术
作为水下唯一能够进行中远程可靠通信的技术,水声通信一直是水下通信研究的重中之重,实现高效、可靠通信一直是水声通信领域的研究目标。但水声信道复杂的时、空、频变特性使得通过单一调制方式难以实现高信道利用率和长时间节能传输,且现有技术方案中信道状态信息的使用方式在快时变水声通信环境中存在着过时的问题,而使用过时的信息进行通信可能会导致严重的性能下降。因此,有必要研究能够适应水声信道大动态变化的通信方法。
强化学习是机器学习领域里的一个重要分支,被用来处理复杂的决策问题,它包含四个关键概念:智能体、状态、动作、奖励。智能体根据观测到的状态做出动作,并转移到另一种状态,同时对动作进行评估以用于改进策略。经过训练后,智能体可根据状态选择最优动作路线以最大化累积奖励值。而深度强化学习将神经网络处理复杂高维数据特征的能力融入强化学习,通过使用神经网络负责完成环境状态感知,使用强化学习负责完成决策,可以用于处理水声信道复杂多变的问题,进而探索最优调制策略,完成链路自适应。
发明内容
本发明提供了一种快时变信道下水声通信链路自适应方法,通过利用反馈信道状态信息来预测前馈信道状态信息的变化,基于深度强化学习方法跟踪并学习信道状态变化规律,并根据信道状态动态地优化调制方式,以最大化系统的通信效率。
本发明的技术方案如下:
一种基于深度强化学习的水声通信链路自适应方法,步骤如下:
A.接收节点收到数据,向发射节点反馈相关信号:
a接收节点收到传输的数据后计算传输结果。
b接收节点使用固定的发射功率将传输结果和导频发送到发射节点。
B.发射节点获得反馈信息,利用反馈信息作信道分类:
a发射节点从反馈信息中获取传输结果和接收导频。
b发射节点使用接收导频估计误码率。
c使用所有调制方式对应的误码率组成误码率向量,用来表示信道,并对信道分类处理。
C.使用处理后的信息训练深度强化学习模型:
a智能体采集与环境交互的经验:智能体根据当前状态s,从预设的动作空间中选择一个动作a;执行a后观测环境变化以对动作进行评估,计算奖励值R,同时获得下一状态s’。此处所述智能体为发射节点,状态s包含信道、已传输的数据、传输次数等,动作为可选的调制方式。
b将采集到的经验整理成元组信息(s,a,R,s’),并存储到经验回放池中。持续执行上述操作以组成训练集。
c从经验回放池中随机采样一个批次的元组数据,输入到深度神经网络中进行训练。
D.使用已训练好的深度强化学习模型进行链路自适应。
a加载误码率向量池和网络θ。
b对于第n次传输,接收节点利用接收导频和传输结果bn,根据B中所述方法进行信道分类,进而获得当前状态为sn。将sn输入到网络中选择并执行动作a,传输完成后发射节点获得接收节点的反馈信息,用于计算奖励Rn和获得下一状态sn+1,完成一个传输回合
本发明的有益效果:
本发明设计了一种基于所有调制编码方式对应误码率的信道分类方法,基于该信道分类方法,将水声通信链路自适应问题转化为马尔可夫决策过程。与现有方法相比,本发明提出的方法解决了水声通信信道状态信息过时的问题,可以更有效地处理快时变的水声信道环境。
考虑到水声信道状态的转移概率未知且状态-动作对较大的问题,本发明使用了基于深度强化学习的优化方法,结合神经网络和强化学习算法来学习决策信息,完成端到端的实时优化。本发明方法设计合理,适用范围广泛,能够实现高效的链路自适应。
附图说明
图1为系统结构图;
图2为本发明示例的DDQN算法结构示意图;
图3为本发明示例的能量效率收敛曲线;
图4为本发明示例的吞吐率收敛曲线;
图5为本发明示例的信道分类后的信道状态转移概率图;
图6为本发明示例与其他方法的性能对比图。
具体实施方式
下面结合附图以及具体实施示例,对本发明作进一步的描述。应当理解,以下具体实施示例仅用于解释说明本发明的内容,并非对本发明的限制。
以下示例使用了深度强化学习中的DDQN方法,优化目标为保证N次传输的通信速率不低于预设阈值的情况下最大化系统能量效率,DDQN的算法如图2所示,具体实施方式如下:1接收节点收到数据,向发射节点反馈相关信号;
1.1在发射节点,数据经调制编码后由水声信道传输,之后接收节点解调信号,获得成功传输的数据量bn,其中n表示第n次传输,1≤n≤N。
2发射节点获得反馈信息,利用反馈信息作信道分类:
yn=xn*hn+wn#(1)
其中hn为水声信道冲激响应,wn为噪声。
2.2设通信系统有Q种可用的调制编码方式,则基于接收导频yn估计Q种调制编码方式的误码率可表示为e(q,hn),q∈Q,之后根据下式可得到一个Q维的误码率向量e(hn):
e(hn)=[e(1,hn),e(2,hn),…,e(Q,hn),]#(2)
2.3利用上述误码率向量对信道进行分类处理:
2.3.1分类方法介绍:本发明将时变水声信道建模为具有未知转移概率的有限状态马尔可夫链(FSMC),然后在发射节点实现链路自适应。在实际的通信过程中,发射节点不可能获得未来的前馈信道状态信息,但由于信道被建模为FSMC,所以可以利用反馈信道的状态信息来表示之后的前馈信道。而且在快时变信道下,比起用上一时刻的前馈信道来表示当前的前馈信道的方法,本发明在时间维度上是连续的,这表示本发明在信道状态信息上有更小的误差
一般来说,一次传输的质量高低只与信道的误码率性能相关,所以可以用信道在不同调制编码下的误码率来评价信道的质量。本发明使用信道在所有调制下的误码率组成的误码率向量来表示信道,以及对水声信道进行分类:
对于两个信道hi和hj,如果满足式(3)
则可认为hi和hj属于同一类型的信道,否则属于不同类型的信道。其中∈是可认为两个信道属于同一类信道的阈值,其大小会影响分类的数量;γq是每个调制方式的权重;p是p范数。
在1.2中提到的导频的发射功率也会影响e(hn)的大小,例如,如果发射功率过大,e(hn)中所有误码率都接近于0,此时将无法区分e(hi)与e(hj),也就无法进行信道分类。
2.3.2具体分类方法为:首先构建一个误码率向量池,然后将2.2所述e(hn)与误码率向量池中已存储的所有误码率向量作式(3)的判断:如果存在满足式(3)的e(h),选择可使不等号左侧最小的e(h)作为信道的类型;如果所有误码率向量都不满足式(3),则认为当前信道e(hn)为新的信道类型,并将e(hn)存储到误码率向量池。
误码率向量池将在训练过程中被逐渐扩充,直到能够涵盖所有可能出现的信道类型。
3使用处理后的信息训练深度强化学习模型:
本发明实例使用了深度强化学习中的DDQN算法。在DDQN中存在两个神经网络,一个评估网络和一个目标网络,参数分别为θ和θ-,两个网络除参数外完全相同。网络的输入是状态s,输出是每个动作a对应的价值期望Q(s,a;θ)。
定义智能体为发射节点。在第n次传输之前,智能体需要根据环境选择最优调制编码参数:调制阶数Mn、编码速率rn、发射功率Pn等,因此动作a=[Mn,rn,Pn]。
经过2所述的处理,可以获得信道状态en-1,而已传输的数据Bn可通过式(4)计算:
所以可以将状态表示为sn=[en-1,Bn,n]。
在开始训练时,发射节点根据状态sn使用∈贪婪法选择动作。当评估网络选择动作时,状态sn将被输入到当前网络θ中,网络的输出为状态sn下每个动作的价值期望Q(sn,a;θ),此时选择的动作可表示为式(5)
an=argmaxa∈AQ(sn,a;θ)#(5)
其中A为动作集。执行动作an,之后接收节点将根据2所述内容获得下一状态sn+1及计算奖励Rn。
根据本示例的优化目标,奖励函数设置为式(6)、(7),
其中Δ是确保系统满足整体通信速率约束的参数。B*=TNc*是确保满足最小数据率的数据量的下限,T为传输时间。ω1和ω2是正值。
进一步地,在获得下一状态sn+1后,智能体将本次的元组数据(sn,an,Rn,sn+1)保存到经验回放池。然后从经验回放池中随机采样一个批次的元组数据(s,a,R,s′)作为训练数据输入到评估网络θ中,网络的训练标签由式(8)计算得到:
然后使用式(9)计算损失函数:
其中D为批次大小。
最后使用Adam优化器根据L(θ)的大小完成网络参数的优化。
在上述基础上,评估网络θ每经过一定次数的训练,就将网络参数θ复制给目标网络θ-。经过足够次数的训练后,保存误码率向量池和评估网络θ。
4使用已训练好的深度强化学习模型进行链路自适应
4.1加载误码率向量池和评估网络θ。
4.2发射节点利用接收导频和传输结果bn,根据2所述方法进行信道分类,得到en-1。需要注意的是,因为此时网络已训练完成,误码率池已经固定,所以只需选择误码率池中使式(3)左侧最小的e(h),不需要进行判断。
进一步地,根据式(4)获得Bn,则当前状态为sn=[en-1,Bn,n]。将sn输入到网络中获得并执行动作a,传输完成后发射节点获得接收节点的反馈信息,用于计算奖励Rn和获得下一状态sn+1,完成一个传输回合。上述过程中算法会自动选择最优调制编码方式,实现链路自适应。
下面结合仿真实验对本发明的效果作进一步的描述。
1.仿真参数:
本发明的仿真实验使用单载波频域均衡技术进行水声通信;水声信道由Bellhop生成,海洋深度为100m,发射器节点处于海平面下20m处。接收器节点在海平面下的水深变化范围为20m到80m,变化步长为0.375m。发射器和接收器之间的最小和最大水平距离分别为2500m和5000m,步长为78.125m。因此,链路自适应方案共有5120个UWA信道。
其他仿真参数如下表所示
参数 | 数值 | 参数 | 数值 |
调制方式 | BPSK、QPSK、8PSK | p | 1 |
编码速率 | 1/3、1/2、2/3 | ∈ | 0.5 |
反馈链路SNR | 12dB | δ | 0.001 |
N | 15 | Δf | 5KHz |
<![CDATA[ω<sub>1</sub>]]> | 1 | <![CDATA[ω<sub>2</sub>]]> | 5 |
在本仿真实验中,通信数据速率cn计算如式(10)所示:
最小可容忍通信速率设置为c*=6.67kbps,相当于使用2/3卷积码的QPSK调制(不考虑导频对通信速率的影响)。
2.仿真内容:
本发明的仿真实验中,进行了5000回合的训练以观察系统能量效率和吞吐率的收敛性。训练后在不同信道上进行测试,并与其他方法对比了链路自适应的性能增益。
3.仿真结果分析:
图(3)给出了深度强化学习算法的收敛性,可以观察到经过2500回合的训练后能量效率已基本稳定,图(4)为训练阶段通信速率的收敛曲线,可以发现收敛后的吞吐率满足系统约束。图(5)显示了不同方案在不同目标吞吐率下的性能比较:第一个在图中标记为OptimalAMC,其中发送节点对信道变化完全已知,发射机可以选择具有最小发射功率的最优调制方式,可以认为是上界表现;第二种方案为固定调制,针对每一个目标吞吐量,发射机都会从所有可用调制编码方式中选择一个有最高能量效率的调制编码方式;第三种方案为基于Q-learning算法实现的链路自适应。从图(5)中可观察到本发明的基于深度强化学习的链路自适应方法在信道变化未知时的性能接近信道已知时的最佳能效,并且远远优于其他两种方案。
Claims (5)
1.一种基于深度强化学习的水声通信链路自适应方法,其特征在于,包括如下步骤:
A.接收节点收到数据,向发射节点反馈相关信号;
a)接收节点收到传输的数据后计算传输结果;
b)接收节点使用固定的发射功率将传输结果和导频发送到发射节点;
B.发射节点获得反馈信息,利用反馈信息作信道分类;
a)发射节点从反馈信息中获取传输结果和接收导频;
b)发射节点使用接收导频估计误码率;
c)使用所有调制方式对应的误码率组成误码率向量,用来表示信道,并对信道分类处理;
C.使用处理后的信息训练深度强化学习模型;
a)智能体采集与环境交互的经验:智能体根据当前状态s,从预设的动作空间中选择一个动作a;执行a后观测环境变化以对动作进行评估,计算奖励值R,同时获得下一状态s’;此处所述智能体为发射节点,状态s包含信道、已传输的数据、传输次数等,动作为可选的调制方式;
b)将采集到的经验整理成元组信息(s,a,R,s’),并存储到经验回放池中;
持续执行上述操作以组成训练集;
c)从经验回放池中随机采样一个批次的元组数据,输入到深度神经网络中进行训练;
D.使用已训练好的深度强化学习模型进行自适应调制;
a)加载误码率向量池和网络θ;
b)接收节点利用接收导频和传输结果bn,根据B所述方法进行信道分类,
进而获得当前状态为sn;将sn输入到网络中选择并执行动作a,传输完成后发射节点获得接收节点的反馈信息,用于计算奖励Rn和获得下一状态sn+1,完成一个传输回合。
2.根据权力要求1所述的一种基于深度强化学习的水声通信链路自适应方法,其特征在于:所述的步骤A中接收节点收到信号后计算成功接收的数据量,并使用固定的功率向发送节点发送反馈信号,反馈信号包含导频和成功接收的数据量。
3.根据权力要求1或2所述的一种基于深度强化学习的水声通信链路自适应方法,其特征在于:所述的步骤B中发射节点获得反馈导频和成功接收的数据,使用反馈导频来估计所有可用调制方式的误码率e(q,hn),1≤q≤Q,并组成误码率向量e(hn);
e(hn)=[e(1,hn),e92,hn),…,e(Q,hn),]
其中q为第q个调制方式,Q为可用的调制方式个数,hn为反馈信息经过的信道;使用该误码率向量表示信道和进行信道分类,分类方法为:对于两个信道hi和hj,如果满足
则可认为hi和hj属于同一类型的信道,否则属于不同类型的信道;其中∈是可认为两个信道属于同一类信道的阈值,其大小会影响分类的数量;γq是每个调制方式的权重;p是p范数。
4.根据权力要求1或2所述的一种基于深度强化学习的水声通信链路自适应方法,其特征在于:所述的步骤C将水声信道状态转移过程建模为有限状态马尔科夫链,使用了反馈链路的信道来预测下一时刻的前馈信道,使用了深度强化学习方法跟踪并学习信道状态变化。
5.根据权力要求3所述的一种基于深度强化学习的水声通信链路自适应方法,其特征在于:所述的步骤C将水声信道状态转移过程建模为有限状态马尔科夫链,使用了反馈链路的信道来预测下一时刻的前馈信道,使用了深度强化学习方法跟踪并学习信道状态变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211657649.1A CN115987406A (zh) | 2022-12-22 | 2022-12-22 | 一种基于深度强化学习的水声通信链路自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211657649.1A CN115987406A (zh) | 2022-12-22 | 2022-12-22 | 一种基于深度强化学习的水声通信链路自适应方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115987406A true CN115987406A (zh) | 2023-04-18 |
Family
ID=85973407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211657649.1A Pending CN115987406A (zh) | 2022-12-22 | 2022-12-22 | 一种基于深度强化学习的水声通信链路自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115987406A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117295096A (zh) * | 2023-11-24 | 2023-12-26 | 武汉市豪迈电力自动化技术有限责任公司 | 基于5g短共享的智能电表数据传输方法及系统 |
-
2022
- 2022-12-22 CN CN202211657649.1A patent/CN115987406A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117295096A (zh) * | 2023-11-24 | 2023-12-26 | 武汉市豪迈电力自动化技术有限责任公司 | 基于5g短共享的智能电表数据传输方法及系统 |
CN117295096B (zh) * | 2023-11-24 | 2024-02-09 | 武汉市豪迈电力自动化技术有限责任公司 | 基于5g短共享的智能电表数据传输方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Deep power control: Transmit power control scheme based on convolutional neural network | |
CN111491358B (zh) | 基于能量采集的自适应调制和功率控制系统与优化方法 | |
CN111865474B (zh) | 基于边缘计算的无线通信抗干扰决策方法及系统 | |
WO2020246918A1 (en) | Neural network circuit remote electrical tilt antenna infrastructure management based on probability of actions | |
CN105379412A (zh) | 一种控制多个无线接入节点的系统和方法 | |
CN110190909B (zh) | 一种用于光通信的信号均衡方法及装置 | |
KR101979394B1 (ko) | Mimo-ofdm 시스템 기반의 머신 러닝 모델을 이용한 적응적 전송 기법 결정 장치 및 그것을 이용한 적응적 전송 방법 | |
CN115987406A (zh) | 一种基于深度强化学习的水声通信链路自适应方法 | |
Hussien et al. | Towards more reliable deep learning-based link adaptation for WiFi 6 | |
CN113795050B (zh) | 一种基于Sum Tree采样的深度双Q网络动态功率控制方法 | |
CN108809881B (zh) | 一种基于改进的exp3算法水下自适应ofdm通信方法 | |
Huang et al. | Machine learning for underwater acoustic communications | |
Lee et al. | Robust transmit power control with imperfect csi using a deep neural network | |
CN113038612B (zh) | 基于深度学习的认知无线电功率控制方法 | |
Rahmani et al. | Deep reinforcement learning-based sum rate fairness trade-off for cell-free mMIMO | |
WO2022088182A1 (en) | Wireless telecommunications network | |
KR102064301B1 (ko) | Mimo 시스템 기반의 앙상블 기계 학습을 이용한 신호 검출 장치 및 그 방법 | |
CN113890633B (zh) | 一种基于深度神经网络的水声通信体制自适应选取方法 | |
Pellaco et al. | Wireless link adaptation with outdated CSI—A hybrid data-driven and model-based approach | |
Zhang et al. | Deep Deterministic Policy Gradient for End-to-End Communication Systems without Prior Channel Knowledge | |
CN115568025A (zh) | 一种面向边缘学习的多用户调度方法、系统及存储介质 | |
Dong et al. | Adaptive transmission for underwater acoustic communication based on deep reinforcement learning | |
CN115276858A (zh) | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 | |
CN115730676A (zh) | 自适应编码调制方法、装置、电子设备和存储介质 | |
CN113747386A (zh) | 认知无线电网络频谱共享中的智能功率控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |