CN115987406A

CN115987406A - 一种基于深度强化学习的水声通信链路自适应方法

Info

Publication number: CN115987406A
Application number: CN202211657649.1A
Authority: CN
Inventors: 景连友; 董超凡; 殷洪玺
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-18

Abstract

本发明属于水声通信技术领域，特别涉及一种基于深度强化学习的水声通信链路自适应方法，主要应用于水声通信中自适应调制。所述方法步骤如下：接收节点收到数据，向发射节点反馈相关信号；发射节点获得反馈信息，利用反馈信息作信道分类；使用处理后的信息训练深度强化学习模型；使用已训练好的深度强化学习模型进行自适应调制。本发明设计了一种基于所有调制方式对应的误码率的信道分类方法，将水声通信自适应调制问题转化为马尔可夫决策过程。与现有方法相比，本发明提出的方法改善了水声通信信道状态信息过时的问题，可以更有效地处理快时变的水声信道环境。本发明方法设计合理，适用范围广泛，能够实现高效的自适应调制。

Description

一种基于深度强化学习的水声通信链路自适应方法

技术领域

本发明属于水声通信技术领域，特别涉及一种基于深度强化学习的水声通信链路自适应方法。

背景技术

作为水下唯一能够进行中远程可靠通信的技术，水声通信一直是水下通信研究的重中之重，实现高效、可靠通信一直是水声通信领域的研究目标。但水声信道复杂的时、空、频变特性使得通过单一调制方式难以实现高信道利用率和长时间节能传输，且现有技术方案中信道状态信息的使用方式在快时变水声通信环境中存在着过时的问题，而使用过时的信息进行通信可能会导致严重的性能下降。因此，有必要研究能够适应水声信道大动态变化的通信方法。

强化学习是机器学习领域里的一个重要分支，被用来处理复杂的决策问题，它包含四个关键概念：智能体、状态、动作、奖励。智能体根据观测到的状态做出动作，并转移到另一种状态，同时对动作进行评估以用于改进策略。经过训练后，智能体可根据状态选择最优动作路线以最大化累积奖励值。而深度强化学习将神经网络处理复杂高维数据特征的能力融入强化学习，通过使用神经网络负责完成环境状态感知，使用强化学习负责完成决策，可以用于处理水声信道复杂多变的问题，进而探索最优调制策略，完成链路自适应。

发明内容

本发明提供了一种快时变信道下水声通信链路自适应方法，通过利用反馈信道状态信息来预测前馈信道状态信息的变化，基于深度强化学习方法跟踪并学习信道状态变化规律，并根据信道状态动态地优化调制方式，以最大化系统的通信效率。

本发明的技术方案如下：

一种基于深度强化学习的水声通信链路自适应方法，步骤如下：

A.接收节点收到数据，向发射节点反馈相关信号：

a接收节点收到传输的数据后计算传输结果。

b接收节点使用固定的发射功率将传输结果和导频发送到发射节点。

B.发射节点获得反馈信息，利用反馈信息作信道分类：

a发射节点从反馈信息中获取传输结果和接收导频。

b发射节点使用接收导频估计误码率。

c使用所有调制方式对应的误码率组成误码率向量，用来表示信道，并对信道分类处理。

C.使用处理后的信息训练深度强化学习模型：

a智能体采集与环境交互的经验：智能体根据当前状态s，从预设的动作空间中选择一个动作a；执行a后观测环境变化以对动作进行评估，计算奖励值R，同时获得下一状态s’。此处所述智能体为发射节点，状态s包含信道、已传输的数据、传输次数等，动作为可选的调制方式。

b将采集到的经验整理成元组信息(s,a,R,s’)，并存储到经验回放池中。持续执行上述操作以组成训练集。

c从经验回放池中随机采样一个批次的元组数据，输入到深度神经网络中进行训练。

D.使用已训练好的深度强化学习模型进行链路自适应。

a加载误码率向量池和网络θ。

b对于第n次传输，接收节点利用接收导频和传输结果b_n，根据B中所述方法进行信道分类，进而获得当前状态为s_n。将s_n输入到网络中选择并执行动作a，传输完成后发射节点获得接收节点的反馈信息，用于计算奖励R_n和获得下一状态s_n+1，完成一个传输回合

本发明的有益效果：

本发明设计了一种基于所有调制编码方式对应误码率的信道分类方法，基于该信道分类方法，将水声通信链路自适应问题转化为马尔可夫决策过程。与现有方法相比，本发明提出的方法解决了水声通信信道状态信息过时的问题，可以更有效地处理快时变的水声信道环境。

考虑到水声信道状态的转移概率未知且状态-动作对较大的问题，本发明使用了基于深度强化学习的优化方法，结合神经网络和强化学习算法来学习决策信息，完成端到端的实时优化。本发明方法设计合理，适用范围广泛，能够实现高效的链路自适应。

附图说明

图1为系统结构图；

图2为本发明示例的DDQN算法结构示意图；

图3为本发明示例的能量效率收敛曲线；

图4为本发明示例的吞吐率收敛曲线；

图5为本发明示例的信道分类后的信道状态转移概率图；

图6为本发明示例与其他方法的性能对比图。

具体实施方式

下面结合附图以及具体实施示例，对本发明作进一步的描述。应当理解，以下具体实施示例仅用于解释说明本发明的内容，并非对本发明的限制。

以下示例使用了深度强化学习中的DDQN方法，优化目标为保证N次传输的通信速率不低于预设阈值的情况下最大化系统能量效率，DDQN的算法如图2所示，具体实施方式如下：1接收节点收到数据，向发射节点反馈相关信号；

1.1在发射节点，数据经调制编码后由水声信道传输，之后接收节点解调信号，获得成功传输的数据量b_n，其中n表示第n次传输，1≤n≤N。

1.2接收节点使用固定的功率向发送节点发送反馈信号x_n，反馈信号包含导频

和成功接收的数据量b_n(第一次传输只包含导频信号)。注意，这里的导频信号是固定的且对于发射器和接收器已知。

2发射节点获得反馈信息，利用反馈信息作信道分类：

2.1发射节点获得反馈信号y_n，将其分为接收导频

和传输结果b_n两部分。

y_n＝x_n*h_n+w_n#(1)

其中h_n为水声信道冲激响应，w_n为噪声。

2.2设通信系统有Q种可用的调制编码方式，则基于接收导频y_n估计Q种调制编码方式的误码率可表示为e(q,h_n),q∈Q，之后根据下式可得到一个Q维的误码率向量e(h_n)：

e(h_n)＝[e(1,h_n),e(2,h_n),…,e(Q,h_n),]#(2)

2.3利用上述误码率向量对信道进行分类处理：

2.3.1分类方法介绍：本发明将时变水声信道建模为具有未知转移概率的有限状态马尔可夫链(FSMC)，然后在发射节点实现链路自适应。在实际的通信过程中，发射节点不可能获得未来的前馈信道状态信息，但由于信道被建模为FSMC，所以可以利用反馈信道的状态信息来表示之后的前馈信道。而且在快时变信道下，比起用上一时刻的前馈信道来表示当前的前馈信道的方法，本发明在时间维度上是连续的，这表示本发明在信道状态信息上有更小的误差

一般来说，一次传输的质量高低只与信道的误码率性能相关，所以可以用信道在不同调制编码下的误码率来评价信道的质量。本发明使用信道在所有调制下的误码率组成的误码率向量来表示信道，以及对水声信道进行分类：

对于两个信道h_i和h_j，如果满足式(3)

则可认为h_i和h_j属于同一类型的信道，否则属于不同类型的信道。其中∈是可认为两个信道属于同一类信道的阈值，其大小会影响分类的数量；γ_q是每个调制方式的权重；p是p范数。

在1.2中提到的导频的发射功率也会影响e(h_n)的大小，例如，如果发射功率过大，e(h_n)中所有误码率都接近于0，此时将无法区分e(h_i)与e(h_j)，也就无法进行信道分类。

2.3.2具体分类方法为：首先构建一个误码率向量池，然后将2.2所述e(h_n)与误码率向量池中已存储的所有误码率向量作式(3)的判断：如果存在满足式(3)的e(h)，选择可使不等号左侧最小的e(h)作为信道的类型；如果所有误码率向量都不满足式(3)，则认为当前信道e(h_n)为新的信道类型，并将e(h_n)存储到误码率向量池。

误码率向量池将在训练过程中被逐渐扩充，直到能够涵盖所有可能出现的信道类型。

3使用处理后的信息训练深度强化学习模型：

本发明实例使用了深度强化学习中的DDQN算法。在DDQN中存在两个神经网络，一个评估网络和一个目标网络，参数分别为θ和θ^-，两个网络除参数外完全相同。网络的输入是状态s，输出是每个动作a对应的价值期望Q(s,a；θ)。

定义智能体为发射节点。在第n次传输之前，智能体需要根据环境选择最优调制编码参数：调制阶数M_n、编码速率r_n、发射功率P_n等，因此动作a＝[M_n,r_n,P_n]。

经过2所述的处理，可以获得信道状态e_n-1，而已传输的数据B_n可通过式(4)计算：

所以可以将状态表示为s_n＝[e_n-1,B_n,n]。

在开始训练时，发射节点根据状态s_n使用∈贪婪法选择动作。当评估网络选择动作时，状态s_n将被输入到当前网络θ中，网络的输出为状态s_n下每个动作的价值期望Q(s_n,a；θ)，此时选择的动作可表示为式(5)

a_n＝argmax_a∈AQ(s_n,a；θ)#(5)

其中A为动作集。执行动作a_n，之后接收节点将根据2所述内容获得下一状态s_n+1及计算奖励R_n。

根据本示例的优化目标，奖励函数设置为式(6)、(7)，

其中Δ是确保系统满足整体通信速率约束的参数。B^*＝TNc^*是确保满足最小数据率的数据量的下限，T为传输时间。ω₁和ω₂是正值。

进一步地，在获得下一状态s_n+1后，智能体将本次的元组数据(s_n,a_n,R_n,s_n+1)保存到经验回放池。然后从经验回放池中随机采样一个批次的元组数据(s,a,R,s′)作为训练数据输入到评估网络θ中，网络的训练标签由式(8)计算得到：

然后使用式(9)计算损失函数：

其中D为批次大小。

最后使用Adam优化器根据L(θ)的大小完成网络参数的优化。

在上述基础上，评估网络θ每经过一定次数的训练，就将网络参数θ复制给目标网络θ^-。经过足够次数的训练后，保存误码率向量池和评估网络θ。

4使用已训练好的深度强化学习模型进行链路自适应

4.1加载误码率向量池和评估网络θ。

4.2发射节点利用接收导频和传输结果b_n，根据2所述方法进行信道分类，得到e_n-1。需要注意的是，因为此时网络已训练完成，误码率池已经固定，所以只需选择误码率池中使式(3)左侧最小的e(h)，不需要进行判断。

进一步地，根据式(4)获得B_n，则当前状态为s_n＝[e_n-1,B_n,n]。将s_n输入到网络中获得并执行动作a，传输完成后发射节点获得接收节点的反馈信息，用于计算奖励R_n和获得下一状态s_n+1，完成一个传输回合。上述过程中算法会自动选择最优调制编码方式，实现链路自适应。

下面结合仿真实验对本发明的效果作进一步的描述。

1.仿真参数：

本发明的仿真实验使用单载波频域均衡技术进行水声通信；水声信道由Bellhop生成，海洋深度为100m，发射器节点处于海平面下20m处。接收器节点在海平面下的水深变化范围为20m到80m，变化步长为0.375m。发射器和接收器之间的最小和最大水平距离分别为2500m和5000m，步长为78.125m。因此，链路自适应方案共有5120个UWA信道。

其他仿真参数如下表所示

参数	数值	参数	数值
				调制方式	BPSK、QPSK、8PSK	p	1
编码速率	1/3、1/2、2/3	∈	0.5
				反馈链路SNR	12dB	δ	0.001
N	15	Δf	5KHz
				<![CDATA[ω<sub>1</sub>]]>	1	<![CDATA[ω<sub>2</sub>]]>	5

在本仿真实验中，通信数据速率c_n计算如式(10)所示：

最小可容忍通信速率设置为c^*＝6.67kbps，相当于使用2/3卷积码的QPSK调制(不考虑导频对通信速率的影响)。

2.仿真内容：

本发明的仿真实验中，进行了5000回合的训练以观察系统能量效率和吞吐率的收敛性。训练后在不同信道上进行测试，并与其他方法对比了链路自适应的性能增益。

3.仿真结果分析：

图(3)给出了深度强化学习算法的收敛性，可以观察到经过2500回合的训练后能量效率已基本稳定，图(4)为训练阶段通信速率的收敛曲线，可以发现收敛后的吞吐率满足系统约束。图(5)显示了不同方案在不同目标吞吐率下的性能比较：第一个在图中标记为OptimalAMC，其中发送节点对信道变化完全已知，发射机可以选择具有最小发射功率的最优调制方式，可以认为是上界表现；第二种方案为固定调制，针对每一个目标吞吐量，发射机都会从所有可用调制编码方式中选择一个有最高能量效率的调制编码方式；第三种方案为基于Q-learning算法实现的链路自适应。从图(5)中可观察到本发明的基于深度强化学习的链路自适应方法在信道变化未知时的性能接近信道已知时的最佳能效，并且远远优于其他两种方案。

Claims

1.一种基于深度强化学习的水声通信链路自适应方法，其特征在于，包括如下步骤：

A.接收节点收到数据，向发射节点反馈相关信号；

a)接收节点收到传输的数据后计算传输结果；

b)接收节点使用固定的发射功率将传输结果和导频发送到发射节点；

B.发射节点获得反馈信息，利用反馈信息作信道分类；

a)发射节点从反馈信息中获取传输结果和接收导频；

b)发射节点使用接收导频估计误码率；

c)使用所有调制方式对应的误码率组成误码率向量，用来表示信道，并对信道分类处理；

C.使用处理后的信息训练深度强化学习模型；

a)智能体采集与环境交互的经验：智能体根据当前状态s，从预设的动作空间中选择一个动作a；执行a后观测环境变化以对动作进行评估，计算奖励值R，同时获得下一状态s’；此处所述智能体为发射节点，状态s包含信道、已传输的数据、传输次数等，动作为可选的调制方式；

b)将采集到的经验整理成元组信息(s,a,R,s’)，并存储到经验回放池中；

持续执行上述操作以组成训练集；

c)从经验回放池中随机采样一个批次的元组数据，输入到深度神经网络中进行训练；

D.使用已训练好的深度强化学习模型进行自适应调制；

a)加载误码率向量池和网络θ；

b)接收节点利用接收导频和传输结果b_n，根据B所述方法进行信道分类，

进而获得当前状态为s_n；将s_n输入到网络中选择并执行动作a，传输完成后发射节点获得接收节点的反馈信息，用于计算奖励R_n和获得下一状态s_n+1，完成一个传输回合。

2.根据权力要求1所述的一种基于深度强化学习的水声通信链路自适应方法，其特征在于：所述的步骤A中接收节点收到信号后计算成功接收的数据量，并使用固定的功率向发送节点发送反馈信号，反馈信号包含导频和成功接收的数据量。

3.根据权力要求1或2所述的一种基于深度强化学习的水声通信链路自适应方法，其特征在于：所述的步骤B中发射节点获得反馈导频和成功接收的数据，使用反馈导频来估计所有可用调制方式的误码率e(q,h_n),1≤q≤Q，并组成误码率向量e(h_n)；

e(h_n)＝[e(1,h_n),e92,h_n),…,e(Q,h_n),]

其中q为第q个调制方式，Q为可用的调制方式个数，h_n为反馈信息经过的信道；使用该误码率向量表示信道和进行信道分类，分类方法为：对于两个信道h_i和h_j，如果满足

则可认为h_i和h_j属于同一类型的信道，否则属于不同类型的信道；其中∈是可认为两个信道属于同一类信道的阈值，其大小会影响分类的数量；γ_q是每个调制方式的权重；p是p范数。

4.根据权力要求1或2所述的一种基于深度强化学习的水声通信链路自适应方法，其特征在于：所述的步骤C将水声信道状态转移过程建模为有限状态马尔科夫链，使用了反馈链路的信道来预测下一时刻的前馈信道，使用了深度强化学习方法跟踪并学习信道状态变化。

5.根据权力要求3所述的一种基于深度强化学习的水声通信链路自适应方法，其特征在于：所述的步骤C将水声信道状态转移过程建模为有限状态马尔科夫链，使用了反馈链路的信道来预测下一时刻的前馈信道，使用了深度强化学习方法跟踪并学习信道状态变化。