CN110519013A

CN110519013A - 一种基于强化学习的水声通信自适应调制方法

Info

Publication number: CN110519013A
Application number: CN201910813009.7A
Authority: CN
Inventors: 张育芝; 李萍; 王安义; 孙彦景; 王斌; 刘洋
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29
Anticipated expiration: 2039-08-30
Also published as: CN110519013B

Abstract

本发明公开了一种基于强化学习的水声通信自适应调制方法，解决了现有水声自适应通信系统中的反馈信道状态信息过时问题引起的系统性能下降的问题。本发明的方法基于水声自适应调制系统，步骤1、建立并初始化系统Q表；在初始时刻采取动作，计算奖励值；步骤2、下一时刻更新Q表，选择下一动作执行；步骤3、发送端将信号经水声信道发送至接收端；步骤4、接收端接收信号，反馈相关信息到发送端；步骤5、发送端将获取的信息送入强化学习模块，计算并更新奖励值，为下一时刻的更新Q表做好准备；步骤6、重复步骤2—步骤5，直至信号发送结束，最终可得经过强化学习优化自适应调制的系统吞吐量。

Description

一种基于强化学习的水声通信自适应调制方法

【技术领域】

本发明属于水声通信自适应调制技术领域，具体涉及一种基于强化学习的水声通信自适应调制方法。

【背景技术】

由于水下环境时刻发生着变化，水声信道受环境影响显著，因此呈现出复杂多变特性。在水声通信系统中，如果采用固定调制方式，那么在动态变化的水声信道中，当信道状态较差时，固定调制可能误码率很高；而当信道状态较好时，固定调制造成不可忽视的资源浪费。针对此，自适应调制技术能够根据信道状态的好坏，改变调制参数与当前信道状态相匹配，充分利用信道特性以提高通信的可靠性和有效性。

陆上无线电自适应通信的研究和应用比较成熟，而复杂多变水声信道中的自适应调制还面临较大挑战。声波在水中传播的典型传输速度约1500m/s，比无线电的传播速度低5个数量级，导致水声传播时延非常长。在水声自适应调制系统中，收发链路的信道状态信息需要通过水声链路反馈给发送端。由于反馈时延很长且信道是时变的，在接收到信道状态信息时，实际的信道状态往往已经发送变化，面临着信道状态信息传输过时的问题。可见，过长的反馈时延，导致发射端接收到的来自接收端的反馈信息与实际信道状态信息不匹配，根据过时信道状态信息进行的自适应调制决策，无法最优化水声自适应通信系统性能。

美国麻省理工大学M.Stojanovic团队的在水声自适应调制领域的研究工作Adaptive OFDM modulation for underwater acoustic communications:designconsiderations and experimental results提出了一种基于信道预测的自适应方案，其估计的信道状态信息通过海面船载的无线电设备反馈给发送端，并基于反馈信道状态信息进行预测以实现自适应调制。此研究工作中的信道状态信息通过无线电链路反馈，时延很短，而实际中长期布放在海中的通信系统需要通过水声链路进行信息交互，反馈时延往往长达秒级。美国康涅狄格大学S.Zhou团队的研究成果Adaptive modulation and codingfor underwater acoustic OFDM进行自适应调制和编码调整，信道状态信息通过水声链路反馈。基于以上成果可见，对于水声自适应通信系统中的反馈信道状态信息过时问题引起的系统性能下降的研究有待进一步探索。

【发明内容】

本发明的目的是提供一种基于强化学习的水声通信自适应调制方法，以解决现有水声自适应通信系统中的反馈信道状态信息过时问题引起的系统性能下降的问题。

本发明采用以下技术方案：一种基于强化学习的水声通信自适应调制方法，方法基于水声自适应调制系统，系统包含发送端和接收端，发送端包含自适应调制模块和强化学习模块，接收端包括接收解调模块和反馈模块；

具体包括以下步骤：

步骤1、设定水声自适应调制系统的Q表三要素：状态集S、动作集A和奖励集R，建立并初始化水声自适应调制系统Q表；

在初始时刻，采用随机选择策略，从动作集A中选取a作为初始时刻状态s_t下所采取的动作；发送端的自适应调制模块执行动作a，在时变水声信道中发送信号给接收端，接收端的接收解调模块解调信号并通过反馈模块反馈数据包给发送端，发送端根据接收的数据包计算得到状态s_t下动作a的奖励值r_t；

步骤2、下一时刻，系统从状态s_t到达状态s_t+1，根据状态s_t+1、以及奖励值r_t，更新状态s_t中的水声自适应调制系统Q表作为状态s_t+1的Q表，并在状态s_t+1下根据更新后的水声自适应调制系统Q表选择最佳调制方式，即采用贪婪算法来选择下一动作a'执行；

步骤3、发送端使用步骤2中选择的最佳调制方式调制信号，通过自适应调制模块将信号经水声信道发送至接收端；

步骤4、接收端的接收解调模块接收步骤3中经过水声信道传输来的信号，解调获得相关信息，送入反馈模块并以数据包的形式反馈相关信息到发送端；

步骤5、发送端根据接收到的数据包，将获取的信息送入强化学习模块，计算并更新执行动作a'所获得的奖励值r_t+1，更新参数，将s_t+1赋值给s_t，将r_t+1赋值给r_t，为下一时刻的更新Q表做好准备；

步骤6、重复步骤2—步骤5，直至信号发送结束，最终可得经过强化学习优化自适应调制的系统吞吐量。

进一步的，步骤1中：

定义状态集S为每一时刻的信道状态，用实效信噪比衡量，计算公式为

其中，s(t)为发送信号，为估计的信道响应，r(t)为接收信号，不同于接收信噪比的定义，实效信噪比中的噪声不仅包含环境噪声，还包含实际信道状态信息估计过程的误差和系统噪声；

定义动作集A为不同的发送载波调制方式，既可以是单载波也可以是多载波调制；

定义奖励集R为一定信道状态s下执行一定动作a所获得的吞吐量，其中P_t为误码率，M为调制阶数；

建立水声自适应调制系统Q表，某一状态下某一动作对应Q值在自适应调制过程中是动态变化的，初始化水声自适应调制系统Q表，即将Q表中的Q值设置为全零，初始时刻发送端在动作集A中随机选择一种调制方式。

进一步的，步骤2中，更新自适应调制系统Q表的计算公式如下：

ΔQ＝r_t+γQ(s_t+1,a′)-Q(s_t,a)，

Q′(s_t,a)＝Q(s_t,a)+α[ΔQ]，

其中，r_t是在状态s_t所选动作带来的奖励，γ是衰减因子，Q(s_t+1,a′)表示在状态下s_t+1的Q值，Q(s_t,a)表示在状态s_t下的Q值，ΔQ表示所选择动作获得的奖励与状态s_t下所获奖励的差距，Q′(s_t,a)代表更新后的Q值，α表示学习效率。

进一步的，步骤2中用贪婪算法选择调制方式的具体内容为：

选择原则为argmax{Q(s_t+1,a′)}；为避免陷入局部最优，设定贪婪因子e，在概率为1-e的情况下选择选择Q表中对应状态下的最优值为当前动作的策略；概率为e的情况下去探索新的可能作为当前动作的策略。

进一步的，步骤4中，采用低阶高可靠调制方式反馈信息至发送端；在获得实效信噪比和接收误码率信息后即刻反馈；反馈信息以数据包形式发送，数据包包括估计的实效信噪比信息、接收误码率信息及其对应的发送调制方式。

进一步的，步骤5中执行动作所获得的奖励值r_t+1，为信道状态s_t+1下执行动作a′所获得的吞吐量，其中P_t+1为误码率，M为调制阶数。

进一步的，步骤6中经过强化学习优化自适应调制的系统吞吐量为：

本发明的有益效果是：实现的基于强化学习的水声通信自适应调制方法，不需要信道先验知识的学习，不需要预设调制切换门限，不仅克服传统阈值选择方法固定切换门限的不足，而且考虑了时变水声信道下传输长时延带来的信道状态信息过时问题。该方法根据反馈的信道状态信息，即实效信噪比，通过在通信过程中的不断的尝试和探索，利用强学习算法不断学习不同信道状态及信道状态变化下的最佳的动作策略，来自适应地选择最佳调制方式。强化学习的过程中即包含了时延条件对于自适应调制的影响，因此能够更好地匹配调制方式和信道状态，可以有效地改善由于反馈时延导致反馈信息过时造成信道状态信息反馈不准确导致的误码，提高系统吞吐量。

【附图说明】

图1是基于强化学习的水声自适应调制系统应用场景；

图2是基于强化学习的水声自适应调制系统框图；

图3是实现强化学习的算法流程图；

图4是本发明具体实施实例中固定调制方式下吞吐量随信噪比的变化；

图5是本发明具体实施实例中16QAM固定调制下系统性能；

图6是本发明具体实施实例中不考虑时延对系统性能影响时直接反馈下水声自适应调制系统性能；

图7是本发明具体实施实例中采用提出的强化学习水声自适应调制方法系统性能；

图8是本发明具体实施实例中固定调制、直接反馈自适应调制、强化学习自适应调制三种方式下系统的吞吐量对比。

【具体实施方式】

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于强化学习的水声通信自适应调制方法。在没有先验知识的条件下，通过强化学习对水声信道状态变化以及在该状态变化下最佳动作进行了从无到有的学习，得出不同信道状态下的最佳自适应调制策略，达到最小化系统误码率和最大化系统吞吐量的目的。

附图1是基于强化学习的水声自适应调制系统应用场景。发送端在时变水声信道中发送信号给接收端；接收端解调接收信号后，以数据包的形式反馈信息给接收端，接收端根据反馈数据包中包含的信息进行强化学习和自适应调制。在不考虑反馈信息时延特性的水声自适应系统中，直接根据反馈信息阈值进行自适应调制方式选择，而在强化学习水声自适应调制中，发送端对收到的反馈信息，包括信道状态信息及其对应动作下的奖励进行学习，通过不断更新得到最佳动作策略。

附图2为本发明的基于强化学习的水声自适应调制系统框图。水声自适应调制系统发送端包括自适应调制模块和强化学习模块，接收端包括接收解调模块和反馈模块。首先，发送端通过自适应调制模块选择最佳动作即调制方式，调制后的信号在时变水声信道中发送给接收端；然后，经过水声信道传输的信号到达接收端的解调模块，解调得到接收信号以及估计的实效信噪比和误码率信息；然后，接收端的反馈模块将获得信息以数据包的形式经过水声信道反馈给发送端的强化学习模块；最后，发送端根据强化学习结果再选择的最佳动作进行自适应调制。依次循环直到数据发送结束。

参考附图2所示，强化学习的主要流程为：①初始化Q表；②更新Q值；③采用贪婪选择策略选择最佳动作；④执行动作即自适应调制；⑤根据执行动作后的反馈信道状态信息和误码率信息计算奖励；重复②-⑤直到数据全部发送结束。

实施例：

1、在初始时刻，确定Q表三要素：状态集S、动作集A和奖励集R，及其中各数值所代表含义：

定义信道状态集S为每一时刻的信道状态，用实效信噪比来衡量，不同于接收信噪比的定义，SNR＝{E[r(t)²]-E[n(t)²]}/E[n(t)²]；实效信噪比的计算基于对信道的估计式中s(t)为发送信号，为水声接收信号解调模块估计的信道响应，r(t)为接收信号，其噪声不仅包含环境噪声，还包含实际信道状态信息估计过程的误差和系统噪声，能够更准确地衡量自适应系统信噪比。

定义动作集A为不同的发送载波调制方式，既可以是单载波也可以是多载波调制；本实例中为单载波BPSK、4QAM、8QAM和16QAM调制方式。

定义奖励集R为一定信道状态s下执行一定动作a所获得的吞吐量，其中P_t为误码率，M为调制阶数，调制方式BPSK、4QAM、8QAM和16QAM对应的调制阶数为2,4,8,16，对应的调制比特数为1,2,3,4。本实例中反馈数据包中包含的误码率信息P_t和相应调制方式，根据公式计算可得r_t。

初始化水声自适应调制系统Q表，将Q表初值设置为全零。在初始时刻，首先，发送端的自适应调制模块采用随机选择策略，从动作集{BPSK，4QAM，8QAM，16QAM}中选取a作为该时刻状态s_t下采取的动作，并执行动作，即发送调制信号给接收端；然后，接收端的接收解调模块解调信号并获得信道状态信息和接收结果，其中，信道状态信息以实效信噪比ASNR来衡量，接收结果以误码率P来衡量，接着，反馈模块把ASNR、P_t及其对应的动作a以数据包的形式反馈到发送端；最后，发送端根据反馈的数据包中的信息计算得到的s_t状态下a动作的奖励值r_t，为即时吞吐量其中P_t为误码率，M为调制阶数。

2、下一时刻时，系统从状态s_t到达状态s_t+1，根据状态s_t+1，以及状态s_t的奖励值r_t，更新状态s_t中的水声自适应调制系统Q表作为状态s_t+1的Q表。更新依据为：自适应调制系统单步学习的目标是优化系统吞吐量r_t+γQ(s_t+1,a_t+1)，每步都执行使得当前Q值的最大动作，与上一动作所对应的策略无关。根据所得的吞吐量奖励更新Q表，对应的Q值计算公式如下：

ΔQ＝r_t+γQ(s_t+1,a_t+1)-Q(s_t,a_t)

Q′(s_t,a_t)＝Q(s_t,a_t)+α[ΔQ]

其中，r_t是在状态s_t所选动作带来的奖励，γ是衰减因子，Q(s_t+1,a_t+1)表示在状态s_t+1的Q值，Q(s_t,a_t)表示状态s_t下的Q值，ΔQ表示所选择动作获得的奖励与上一状态的差距。Q′代表更新后的Q值，α表示学习效率。在本实例中γ取值0.1，α取值0.9。

然后根据更新后的Q表采用贪婪算法选择动作a'执行，选择最佳调制方式。选择原则为arg max{Q(s_t+1,a′)}；为避免陷入局部最优，本实施实例中定贪婪因子e＝0.1，即在概率为10％的情况下去探索新的可能作为当前动作，概率为90％的情况下选择选择Q表中对应状态下的最优值为当前动作的策略，

3、发送端使用选择的动作即最佳调制方式，从BPSK、4QAM、8QAM、16QAM选择一种调制方式，通过自适应调制模块发送信号到时变水声信道；

4、接收端的接收解调模块接收经过水声信道的信号，解调获得信道状态信息ASNR和接收误码率信息P_t+1，送入反馈模块并以数据包的形式反馈到发送端；为保证反馈信息的准确性，采用低阶高可靠的调制方式，本实例中采用BPSK；为降低反馈时延，在获得实效信噪比和误码率信息后即刻反馈。反馈信息以数据包形式发送，包括估计的实效信噪比信息ASNR、接收误码率信息P_t+1及其对应的发送调制方式a′。

5、发送端根据接收到的数据包，将获取的信息送入强化学习模块，计算并更新执行动作所获得的奖励值r_t+1，为信道状态s_t+1下执行动作a′所获得的吞吐量，其中P_t+1为误码率，M为调制阶数。更新参数，将s_t+1赋值给s_t，将r_t+1赋值给r_t，为下一时刻的更新Q表做好准备；

6、重复步骤2—5，直至信号发送结束。最终可得经过强化学习优化的自适应调制系统吞吐量

下面对不同自适应调制方法的误码率性能进行比较：

仿真实验产生发送信号，通过的信道采用Z.Wang等在美国密歇根湖的实测信道，接收端对应进行解调并计算误码率和吞吐量。

采用基于直接反馈做自适应调制方法作为对比，直接反馈是指接收端接收到当前信道状态信息后，将该时刻的状态信息反馈给发送端。自适应调制策略为根据信道条件选择使系统吞吐量最大的调制方式。图4为BPSK、4QAM、8QAM、16QAM四种调制方式下吞吐量随信噪比的变化趋势，调制方式切换原则为在一定信噪比范围区间内将采用吞吐量最大的调制方式，由图4可见，信噪比在0～3dB范围内，BPSK调制下吞吐量最大；信噪比在4～8dB范围内，4QAM调制下吞吐量最大；信噪比在9～22dB范围内，8QAM调制下吞吐量最大；信噪比在22dB以上时，16QAM调制下吞吐量最大。不同调制方式的信噪比阈值区间如下所示。

附图5为基于固定调制16QAM的水声通信系统误码率。图中横坐标为信号发送次数，左纵坐标为误码率，右纵坐标为信噪比。

附图6为基于反馈时延信道状态信息的水声自适应调制系统误码率。

附图7为基于强化学习的水声通信自适应调制系统误码率。

对比图5和图6可见，通过自适应调制可以降低误码率。这是因为，在固定调制方法下，无论水声信道状态如何都采用16QAM对信号进行调制，这就会导致信道质量差的时候产生严重的误码。对比图6和图7可见，经过强化学习的方法相对于直接反馈，系统吞吐量得到进一步提升。在直接反馈下自适应调制，由于时延的存在，信道状态信息传输滞后，发送端接收到反馈回来的信息与当前的时刻的信道状态信息无法匹配，而系统会根据反馈回来的状态信息进行自适应选择调制方式，就会导致所选调制方式可能并不是最佳策略；而强化学习自适应调制方法通过反馈信息不断学习经过不同状态的信道后系统的吞吐量，每执行一次就更新一次Q表，相当于对每一状态下采取何种调制方式会带来最大系统吞吐量作记录和更新，因此，根据接收端接收到的信道状态，在时对每次的状态信息进行学习，确保每一信道状态下都采取最佳动作策略进行调制，直到算法达到收敛状态或数据发送结束。

经过强化学习的过程即包含了信道状态变化的影响，根据学习和最佳策略而选择的动作，其不存在传输延时带来的状态信息过时问题，因此吞吐量高且误码率低。

实验模拟说明提出的自适应调制方法更加适用于复杂多变的水声信道，通过学习跟踪信道变化，克服直接反馈中信道信息在时变时延信道中过时引起的不准确问题。

附图8反映了三种方式下的吞吐量随着发送次数的累积变化，从图中可以看出，对比吞吐量：经强化学习>直接反馈>16QAM调制，其性能和误码率一致。且强化学习自适应方法吞吐量线性增加，而直接反馈和固定调制方案具有一定波动。

综上，本发明提出一种基于强化学习的水声通信自适应调制方法，该方法通过不断地试错和探索，最终根据信道状态，学习出在每一时刻可采取的最佳动作策略，来自适应的选择调制方式，而不需要提前了解环境，有效的改善信道变化和反馈时延给通信系统带来的不利影响。最大化系统吞吐量，降低系统误码率。该方法适合应用在时变信道的自适应通信传输中。

Claims

1.一种基于强化学习的水声通信自适应调制方法，其特征在于，所述方法基于水声自适应调制系统，所述系统包含发送端和接收端，发送端包含自适应调制模块和强化学习模块，接收端包括接收解调模块和反馈模块；

具体包括以下步骤：

在初始时刻，采用随机选择策略，从动作集A中选取a作为初始时刻状态s_t下所采取的动作；发送端的自适应调制模块执行所述动作a，在时变水声信道中发送信号给接收端，接收端的接收解调模块解调信号并通过反馈模块反馈数据包给发送端，发送端根据接收的数据包计算得到状态s_t下动作a的奖励值r_t；

步骤2、下一时刻，系统从状态s_t到达状态s_t+1，根据所述状态s_t+1、以及奖励值r_t，更新状态s_t中的水声自适应调制系统Q表作为状态s_t+1的Q表，并在状态s_t+1下根据更新后的水声自适应调制系统Q表选择最佳调制方式，即采用贪婪算法来选择下一动作a'执行；

步骤3、发送端使用所述步骤2中选择的最佳调制方式调制信号，通过自适应调制模块将信号经水声信道发送至接收端；

步骤4、接收端的接收解调模块接收所述步骤3中经过水声信道传输来的信号，解调获得相关信息，送入反馈模块并以数据包的形式反馈相关信息到发送端；

2.根据权利要求1所述的一种基于强化学习的水声通信自适应调制方法，其特征在于，所述步骤1中：

定义状态集S为各时刻的信道状态，用实效信噪比衡量，计算公式为

3.根据权利要求1或2所述的一种基于强化学习的水声通信自适应调制方法，其特征在于，所述步骤2中，更新自适应调制系统Q表的计算公式如下：

ΔQ＝r_t+γQ(s_t+1,a′)-Q(s_t,a)，

Q′(s_t,a)＝Q(s_t,a)+α[ΔQ]，

4.根据权利要求3所述的一种基于强化学习的水声通信自适应调制方法，其特征在于，所述步骤2中用贪婪算法选择调制方式的具体内容为：

选择原则为arg max{Q(s_t+1,a′)}；为避免陷入局部最优，设定贪婪因子e，在概率为1-e的情况下选择选择Q表中对应状态下的最优值为当前动作的策略；概率为e的情况下去探索新的可能作为当前动作的策略。

5.根据权利要求1或2所述的一种基于强化学习的水声通信自适应调制方法，其特征在于，所述的步骤4中，采用低阶高可靠调制方式反馈信息至发送端；在获得实效信噪比和接收误码率信息后即刻反馈；反馈信息以数据包形式发送，所述数据包包括估计的实效信噪比信息、接收误码率信息及其对应的发送调制方式。

6.根据权利要求1或2所述的一种基于强化学习的水声通信自适应调制方法，其特征在于，所述的步骤5中执行动作所获得的奖励值r_t+1，为信道状态s_t+1下执行动作a′所获得的吞吐量，其中P_t+1为误码率，M为调制阶数。

7.根据权利要求1或2所述的一种基于强化学习的水声通信自适应调制方法，其特征在于，所述的步骤6中经过强化学习优化自适应调制的系统吞吐量为：