CN116996147A

CN116996147A - 一种基于深度强化学习的水声通信自适应调制方法及装置

Info

Publication number: CN116996147A
Application number: CN202310871201.8A
Authority: CN
Inventors: 李理; 李琛熙; 付一凡; 韩笑
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-11-03

Abstract

本发明公开了一种基于深度强化学习的水声通信自适应调制方法及装置。所述方法包括：利用深度强化学习算法中的评估网络，基于通信系统所处环境的初始信道状态s求得各个动作对应的Q值，根据Q值选择动作a，基于仿真得到误码率，根据强化学习奖励函数计算奖励值r并获取新的信道状态s₁，生成训练数据；进行Q网络训练，使用“预测Q值”和“目标Q值”以及样本数据中的奖励r根据更新公式来计算损失函数并更新评估网络参数；将训练好的Q网络模型应用于通信传输过程中，实现自适应调制模式。本发明将深度学习和强化学习结合起来，能有效降低水声通信中的误码率并提高信号的吞吐量，保证了水声通信时的稳定性和可靠性。

Description

一种基于深度强化学习的水声通信自适应调制方法及装置

技术领域

本发明涉及水声通信技术领域，具体涉及一种基于深度强化学习的水声通信自适应调制方法及装置。

背景技术

由于水声信道复杂多变，固定制式的水声通信技术效果较差。因此，自适应调制技术在水声通信中得到了广泛使用。它的核心思想是在接收端获取信道状态信息并将其反馈给发送端，发送端根据信息进行调整，选择当前信道状态下最合适的通信方式。传统的自适应算法通常根据理论经验值进行阈值划分，但是面对复杂多变的水声信道以及水声通信传播的高延迟导致信息反馈时间过长，难以有效降低水声通信中的误码率及提高信号吞吐量，使其很难用于实际的水声通信中。随着强化学习研究的深入，它也逐渐被应用在一些领域中，特别是强化学习可以作为一种选择策略，被广泛应用于自适应系统中，但是传统的强化学习算法用于水声通信中只能输入低维的信号，否则容易出现“维度爆炸”问题，使通信的可靠性和稳定性不足。

发明内容

本发明的目的是提供一种基于深度强化学习的水声通信自适应调制方法及装置，将深度学习和强化学习结合起来，用深度学习网络代替传统强化学习自适应调制算法中的Q表，能有效降低水声通信中的误码率并提高信号的吞吐量，保证水声通信时的稳定性和可靠性。

为了实现以上发明目的，本发明采用如下技术方案：

第一方面，一种基于深度强化学习的水声通信自适应调制方法，包括以下步骤：

步骤1：生成训练数据，具体步骤为：

(1-1)构建状态空间、动作空间以及奖励函数；构建深度强化学习算法中的评估网络和目标网络；初始化经验池；设置强化学习算法的参数；

(1-2)设定通信系统所处环境的初始信道状态s，s＝[h,SNR]，h为信道响应函数，SNR为信噪比；

(1-3)将状态s输入到评估网络中求得各个动作对应的Q值，根据贪婪策略来选择动作a，即调制模式；

(1-4)根据选择的动作a进行通信仿真，处理后得到误码率，计算奖励值r并且记录信道变化后新的信道状态s₁，判断是否到达终止态；

(1-5)将(1-4)中所得到的(s,a,r,s₁)存入经验池中，若到达终止态，则结束迭代，否则令s₁→s并转到(1-3)继续循环；

步骤2：进行Q网络训练，具体步骤为：

(2-1)用评估网络进行Q值预测：当经验池中样本数大于每次训练所需样本数后，后续每经过n1次迭代进行一次网络训练，从经验池中随机抽取m个样本，Q网络从数据样本中抽取当前状态和动作，进行Q值的预测，得到“预测Q值”。

(2-2)用目标网络进行Q值预测：目标网络从样本数据中获取下一状态，并从该状态下可执行的所有动作中对最佳Q值进行预测，即“目标Q值”。

(2-3)使用“预测Q值”和“目标Q值”以及样本数据中的奖励r根据更新公式来计算损失函数L(θ)，更新评估网络参数θ，每隔n2次迭代令目标网络权重参数θ₁＝θ，经过所有轮次的迭代后形成迭代完成后的Q网络模型；

步骤3：将训练好的Q网络模型应用于通信传输过程中，实现自适应调制模式。

根据第一方面的某些实施方式，构建状态空间、动作空间以及奖励函数包括：以接收端所估计出来的信道响应函数和信噪比构成网络的输入状态向量，由状态向量构成状态空间S，以载波调制方式作为动作空间A，以当环境状态为s时采取动作a所达到的吞吐量奖励R_TP和误码率奖励R_BE构成的分段函数作为为奖励函数R。

吞吐量奖励计算公式为：

误码率奖励计算公式为：

奖励函数R计算公式为：其中BER为误码率，φ为吞吐量，V_t为传输速率。

根据第一方面的某些实施方式，构建的评估网络和目标网络的结构一致，使用的神经网络为前馈神经网络，网络的结构包括一层输入层，三层隐藏层和一层输出层，输入层的神经元数为状态s的维度；三层隐藏层中每层隐藏层的神经元数为10；输出层的神经元数为动作空间A中动作值的数目，网络的输入为信道状态向量，网络的输出为状态s下各个动作对应的Q值。

根据第一方面的某些实施方式，损失函数计算公式为：

L(θ)＝E[(Target Q-Q(s,a；θ))²]

其中，目标Q值计算公式为：

r_i是当前状态下的奖励，γ是指折扣因子。

进一步地，在应用模型之前，利用测试集数据验证模型的性能，包括以下步骤：

(3-1)设定好信号的各项参数，引入已经训练好的Q网络模型，并观察当前时刻的信道状态信息s；

(3-2)根据训练好的Q网络，将观察的信道状态信息s输入到Q网络中，网络输出该状态下所有动作的Q值，再选择Q值最大的动作，即为当前信道状态下的最优调制模式；

(3-3)根据所选择的调制模式，在发送端发送信号，在接收端进行信号处理，并记录该次通信的吞吐量和误码率；

(3-4)重复上述三步操作，直至所预先设定的整个通信传输过程完成。

第二方面，一种基于深度强化学习的水声通信自适应调制装置，包括：

训练数据生成模块，用于生成训练数据，具体包括：

网络构建单元，用于构建状态空间、动作空间以及奖励函数；构建深度强化学习算法中的评估网络和目标网络；初始化经验池；设置强化学习算法的参数；

初始信道状态设定单元，用于设定通信系统所处环境的初始信道状态s；

评估网络执行单元，用于将状态s输入到评估网络中求得各个动作对应的Q值，根据贪婪策略来选择动作a，即调制模式；

信道状态更新单元，用于根据选择的动作a进行通信仿真，处理后得到误码率，计算奖励值r并且记录信道变化后新的信道状态s₁，判断是否到达终止态；

经验池累积单元，用于将信道状态更新单元中所得到的(s,a,r,s₁)存入经验池中，若到达终止态，则结束迭代，否则令s₁→s并转到评估网络执行单元继续循环；

网络模型训练模块，用于进行Q网络训练，具体包括：

评估网络Q值预测单元，用于当经验池中样本数大于每次训练所需样本数后，后续每经过n1次迭代进行一次网络训练，从经验池中随机抽取m个样本，利用Q网络从数据样本中抽取当前状态和动作，进行Q值的预测，得到“预测Q值”。

目标网络Q值预测单元，利用目标网络从样本数据中获取下一状态，并从该状态下可执行的所有动作中对最佳Q值进行预测，即“目标Q值”；

迭代更新单元，使用“预测Q值”和“目标Q值”以及样本数据中的奖励r根据更新公式来计算损失函数L(θ)，更新评估网络参数θ，每隔n2次迭代令目标网络权重参数θ₁＝θ，经过所有轮次的迭代后形成迭代完成后的Q网络模型；

网络模型应用模块，用于将训练好的Q网络模型应用于通信传输过程中，实现自适应调制模式。

进一步地，该装置还包括模型测试模块，具体包括：

信道状态观察单元，用于将设定好的信号的各项参数，引入已经训练好的Q网络模型，并观察当前时刻的信道状态信息s；

Q网络执行单元，用于根据训练好的Q网络，将观察的信道状态信息s输入到Q网络中，网络输出该状态下所有动作的Q值，再选择Q值最大的动作，即为当前信道状态下的最优调制模式；

通信质量记录单元，用于根据所选择的调制模式，在发送端发送信号，在接收端进行信号处理，并记录该次通信的吞吐量和误码率。

本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如第一方面所述的基于深度强化学习的水声通信自适应调制方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于深度强化学习的水声通信自适应调制方法的步骤。

与现有技术相比，本发明的有益效果是：

1、基于深度强化学习的自适应调制方法可以有效地对信道环境进行学习，通过使用深度学习神经Q网络来代替Q表，学习效果更好。传统强化学习算法如Q-learning与SARSA算法都是基于Q表来进行策略学习，当状态维度过高时，Q表不易进行构建。本发明利用深度学习神经Q网络来替换Q表，因此可以提高信道质量度量指标的维度来提升性能，直接将所估计的信道函数输入到网络中进行分析，有助于提高在不同信道环境下的自适应调制方案的构建效率。

2、本发明奖励函数由吞吐量和误码率共同构成，训练出的评估网络最终选择的调制方式会兼顾考虑通信的误码率和吞吐量，保证了水声通信中的稳定性和可靠性。

附图说明

图1为本发明的方法流程图；

图2为生成训练数据的流程图；

图3为网络训练的流程图。

具体实施方式

为了方便本领域技术人员理解，下面结合具体实施例与附图对本发明作进一步的说明。

本次实施中以DQN算法与自适应调制算法相结合为例，如图1所示，一种基于深度强化学习的水声通信自适应调制方法，包括以下步骤：

步骤1：设置Q网络模型并生成训练数据。

参照图2，本发明实施例中训练数据的生成过程包括以下步骤：

(1-1)构建强化学习的状态空间S、动作空间A以及奖励函数R。

根据本发明的实施方式，使用接收端所估计出来的信道响应函数和信噪比构成网络的输入状态向量s，记为s＝[h,SNR]，h为信道响应函数，SNR为信噪比。由状态向量构成状态空间S。通过在初始信道状态中包含信道响应函数，能够更准确合理地进行调制方法的选择。

采用BPSK、QPSK、8PSK以及16QAM四种单载波调制方式作为动作空间A。

奖励函数R定义为在环境状态为s时采取动作a所达到的吞吐量奖励R_TP和误码率奖励R_BE构成的函数值。

吞吐量奖励计算公式为：

误码率奖励计算公式为：

奖励函数R计算公式为：

其中BER为误码率，φ为吞吐量，V_t为传输速率。

根据本发明的强化学习模型，在误码率小于0.1时，误码率奖励和吞吐量奖励同样重要，在误码率大于等于0.1时，奖励为0，即误码率大于等于0.1时，不考虑这种调制方式。通过将误码率、吞吐量作为奖励函数的构造因素，训练出的评估网络最终选择的调制方式会兼顾考虑通信的误码率和吞吐量，保证了水声通信中的稳定性和可靠性。

(1-2)构建深度强化学习算法Q网络中的评估网络和目标网络。

Q网络是指评估网络和目标网络这两个网络构成的一个整体网络。评估网络用来输出实时的Q值，而目标网络则用来计算目标Q值。目标Q值是根据贝尔曼方程计算出来的，它是我们希望评估网络能够逼近的值。在DQN算法中，目标网络的参数每隔一段时间会被评估网络的参数更新，这样可以保证目标Q值在一段时间内保持稳定，有助于提高算法的稳定性。

本发明中，两个网络结构一致，只是参数不同，用的神经网络为前馈神经网络，网络的结构包括一层输入层，三层隐藏层和一层输出层。输入层的神经元数为状态s的维度，本发明所使用的输入层神经元数为41；三层隐藏层中每层隐藏层的神经元数为10；输出层的神经元数为动作空间A中动作值的数目，即为4。网络的输入为信道状态向量，网络的输出为状态s下各个动作对应的Q值。

(1-3)初始化经验池，经验池大小设定为1000，每次从经验池中取得样本数m＝100，每经过10次(即n1＝10)迭代进行一次网络训练，且每经过20次(即n2＝20)迭代同步评估网络和目标网络的网络权重参数；

设置强化学习算法的参数：学习率α＝0.1、折扣因子γ＝0.1、探索率ε＝1。

(1-4)每个episode(迭代)中经历如下步骤：

(a)：设定通信系统所处环境的初始信道状态。

(b)：将状态s输入到评估网络中求得各个动作对应的Q值，根据贪婪策略来选择动作a，即调制模式。

(c)：根据选择的动作a进行通信仿真，处理后得到误码率，从而根据吞吐量计算公式计算奖励值r并且记录信道变化后新的信道状态s₁，判断是否到达终止态。是否到达终止态是由环境来决定的。当智能体与环境交互时，环境会返回一个状态、一个奖励和一个布尔值，表示当前状态是否为终止态。

(d)：将步骤(c)中所得到的(s,a,r,s₁,)存入经验池中，若到达终止态，则结束该episode，否则令s＝s₁并转到步骤(b)继续循环。

步骤2：训练搭建好的Q网络。

参照图3，训练网络的过程包括以下步骤：

(2-1)用评估网络进行Q值预测：当经验池中样本数大于每次训练所需样本数后，后续每经过10次迭代进行一次网络训练，从经验池中随机抽取100个样本，随机抽取是为了避免样本之间存在相关性导致训练效果变差。Q网络从数据样本中抽取当前状态和动作，进行Q值的预测，得到“预测Q值”。

(2-3)使用“预测Q值”和“目标Q值”以及样本数据中的奖励r根据更新公式来计算损失函数L(θ)，更新评估网络参数θ，每隔20次迭代令目标网络权重参数θ₁＝θ。经过所有episode的迭代后形成迭代完成后的Q网络模型。智能体即信号发送端可以通过Q网络来获得最优策略，即调制模式的选择准则。

均方方差损失函数计算公式：L(θ)＝E[(Target Q-Q(s,a；θ))²]

其中，目标Q值计算公式为：

其中r_i指的是当前状态下的奖励，γ是指折扣因子。

本发明实施例中，利用测试数据集来检验所训练好的Q网络模型的效果。在实际应用中，获取信号的参数送入训练好的Q网络模型，自适应地完成调制模式的确定。

(3-1)：设定好信号的各项参数，如发射信号的码率、调制方式等，引入已经训练好的Q网络模型，并观察当前时刻的信道状态信息。

(3-2)：根据训练好的Q网络，将观察的信道状态信息s输入到Q网络中，网络输出该状态下所有动作的Q值，再选择Q值最大的动作，即为当前信道状态下的最优调制模式。

(3-3)：根据所选择的调制模式，在发送端发送信号，在接收端进行信号处理，并记录该次通信的吞吐量和误码率。利用吞吐量和误码率来判断这次通信质量的好坏，吞吐量大意味着通信稳定，误码率低意味着通信可靠。通过比较同一个发射信号在使用本文方法和通过其他方法时最终的接收信号的吞吐量和误码率，来比较不同方法的效果。

(3-4)：重复上述三步操作，直至所预先设定的整个通信传输过程完成。

以上详细描述了本发明的方法实施过程。为了验证所提方法的性能，实施例中通过通信仿真对几种自适应算法进行了比较，结果如表1和表2所示，其中DQN算法为本发明所提出的方法。

表1不同算法下的吞吐量

表2不同算法下的误码率

在二维水下无线传感器网络通信的仿真模拟中，基于DQN的自适应调制算法的吞吐量相较于阈值划分、SARSA和Q-learning算法分别提升了15.70％、3.04％和2.74％。误码率分别提升了17.30％、3.89％和3.62％。

基于和方法实施例相同的技术构思，本发明还提供一种基于深度强化学习的水声通信自适应调制装置，包括：

训练数据生成模块，用于生成训练数据，具体包括：

初始信道状态设定单元，用于设定通信系统所处环境的初始信道状态s，s＝[h,SNR]，h为信道响应函数，SNR为信噪比；

网络模型训练模块，用于进行Q网络训练，具体包括：

在应用网络模型之前，还可以对模型进行测试。因此，装置可以包括模型测试模块，其具体包括：

本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如上所述的基于深度强化学习的水声通信自适应调制方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度强化学习的水声通信自适应调制方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

Claims

1.一种基于深度强化学习的水声通信自适应调制方法，其特征在于，包括以下步骤：

步骤1：生成训练数据，具体步骤为：

步骤2：进行Q网络训练，具体步骤为：

2.根据权利要求1所述的方法，其特征在于，构建状态空间、动作空间以及奖励函数包括：以接收端所估计出来的信道响应函数和信噪比构成网络的输入状态向量，由状态向量构成状态空间S，以载波调制方式作为动作空间A，以当环境状态为s时采取动作a所达到的吞吐量奖励R_TP和误码率奖励R_BE构成的函数值作为奖励函数R。

3.根据权利要求2所述的方法，其特征在于，吞吐量奖励计算公式为：

误码率奖励计算公式为：

奖励函数R计算公式为：

其中BER为误码率，φ为吞吐量，V_t为传输速率。

4.根据权利要求1所述的方法，其特征在于，构建的评估网络和目标网络的结构一致，使用的神经网络为前馈神经网络，网络的结构包括一层输入层，三层隐藏层和一层输出层，输入层的神经元数为状态s的维度；三层隐藏层中每层隐藏层的神经元数为10；输出层的神经元数为动作空间A中动作值的数目，网络的输入为信道状态向量，网络的输出为状态s下各个动作对应的Q值。

5.根据权利要求1所述的方法，其特征在于，损失函数计算公式为：

L(θ)＝E[(Target Q-Q(s,a；θ))²]

其中，目标Q值计算公式为：

r_i是当前状态下的奖励，γ是指折扣因子。

6.根据权利要求1所述的方法，其特征在于，在应用模型之前，利用测试集数据验证模型的性能，包括以下步骤：

7.一种基于深度强化学习的水声通信自适应调制装置，其特征在于，包括：

训练数据生成模块，用于生成训练数据，具体包括：

网络模型训练模块，用于进行Q网络训练，具体包括：

8.根据权利要求7所述的装置，其特征在于，还包括模型测试模块，具体包括：

9.一种计算机设备，其特征在于，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-6中任一项所述的基于深度强化学习的水声通信自适应调制方法的步骤。

10.一种计算机可读存储介质，其他其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于深度强化学习的水声通信自适应调制方法的步骤。