CN111431628B

CN111431628B - 一种提升水声通信链路平均吞吐量的方法

Info

Publication number: CN111431628B
Application number: CN202010279607.3A
Authority: CN
Inventors: 岳蕾; 赖舒悦; 童景文; 付立群
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2021-07-06
Anticipated expiration: 2040-04-10
Also published as: CN111431628A

Abstract

一种提升水声通信链路平均吞吐量的方法,涉及水声通信网络优化。首先，将水声通信网络中的某一单链路看成独立的Agent，以及该链路上所有可能的传输频率和传输速率组合看成arm，将此二维图建立成具有单峰特性的无向图G；接着，将该链路平均吞吐量最大化问题建模成具有随机性质的MAB问题；然后，利用改进的UTS算法对其进行求解，得到该链路上最佳的传输频率和传输速率组合；最后，该链路保持该设置直到下一次更新时刻为止。考虑了具有二维单峰结构的水声通信目标函数，有效利用了水声通信信道的特性，并大大减少了每个时隙探索的arm空间；且运用了随机打破限制操作，不依赖于问题的条件。大大提高了网络平均吞吐量。

Description

一种提升水声通信链路平均吞吐量的方法

技术领域

本发明涉及水声通信网络优化，尤其是涉及基于汤普森采样算法，并利用单峰性质来选择链路最佳传输频率和传输速率的一种提升水声通信链路平均吞吐量的方法。

背景技术

近年来，水声通信技术在环境监测、矿产开发、海洋生态系统调查等领域得到了广泛应用，并越来越受到人们的重视。然而，与无线电波通信相比，水声通信面临着复杂水下环境、传播时延长和频率依赖性衰减等挑战。在已有方法中，水声通信的问题大都可以归结为通过数学建模，优化求解得到最优的传输参数，如速率选择、频率选择、中继配置等问题。然而，水声环境时刻变化，信道模型也随之变化，基于传统的优化方法和线下算法已经无法满足当前需要。因此，水声通信中的关键问题之一是如何在没有信道模型信息的情况下使得网络的实时性能最佳。

针对点对点水声通信网络，本发明拟通过调节各链路上的传输频率和传输速率，来有效提高该链路的平均吞吐量。选择调节传输频率和传输速率的原因是：一方面，在固定传输距离的前提下，存在一个最优传输频率使得该链路的接收信噪比(SNR)最大；另一方面，在固定信噪比的前提下，调节传输速率，会改变信道传输的成功率，从而改变该链路的吞吐量。由此可以看出，在传输中，改变传输频率和传输速率并非两个独立的时间，传输频率和传输速率共同决定传输成功的概率。目前现有技术大多只考虑一个方面，并且多为线下的分析统计方式，依赖于水声信道模型，应用到实际水声信道中缺乏合理性和鲁棒性，存在用时过长和无法实时更新等问题。为解决以上问题，有些文献采用机器学习的方法来为单链路寻找最佳的传输频率和传输速率组合，从而提高网络吞吐量。

多臂老虎机算法MAB是一种序贯决策问题，也是一种最基本的强化学习方法，即在给定一个有限资源集合的情况下，用户Agent需要在最短的时隙内找到最佳的选项，从而使其长期奖励最大化。其特点是Agent在每个时隙都需要进行利用(Exploitation)和探索(Exploration)的权衡。常见的MAB问题可以分成三类：随机性MAB，对抗性MAB和马尔科夫MAB。本发明考虑具有随机性的MAB问题，其中Agent(即水声通信中某一单链路)的目标是寻找最优的arm(即关于传输频率和传输速率的组合)来最大化其自身的奖励。为解决该问题，本发明提出了一种基于汤普森采样算法和文献(S.Paladino,F.trovò,M.Restelli,andN.Gatti,“Unimodal Thompson sampling for graph structured arms,”arXiv preprintarXiv:1611.05724v2,Nov.2016.)的改进算法，即UTS(Unimodal Thompson Sampling)算法。与传统的汤普森采样算法(Yan Liang,“Low-Complexity Semidefinite RelaxationDetector for OFDM Systems in Fast Time-Varying Wireless Channels,”SpringerNew York,2012.)相比，它具有以下特征。第一，改进的UTS算法考虑具有二维单峰特性的水声通信目标函数，并与跟随leader算法相结合，大大减少了每个时隙需要遍历的臂的数目，从而减少运行时间和存储空间。第二，改进的UTS算法加入了随机打破限制(ties brokenarbitrarily)操作，可以保证算法的收敛性、且不受信道初始参数的影响。

发明内容

本发明的目的在于针对现有机器学习方法存在的实现复杂度较高和训练时间长的特点，以及水声通信网络中存在的如何通过调节单链路的传输频率和传输速率来提升该链路平均吞吐量等问题，提供一种提升水声通信链路平均吞吐量的方法。

本发明包括以下步骤：

1)初始化算法参数，并输入算法的先验信息；

2)采用随机打破限制，找到整个图G上具有最大奖励均值的arm，确定leader；

3)遍历leader周边及自身，并计算各自的瞬时成功率；

4)根据步骤3)所得出的瞬时成功率，计算出对应的实时吞吐量，选取具有最大吞吐量的arm，并观察收益；

5)更新被执行arm的各参数值，包括执行次数、传输成功次数和传输失败次数；

6)更新执行的时隙数t，即t＝t+1，若t＜T，则回到步骤3；若t＝T，则结束，并返回该链路最佳的传输频率和传输速率组合；其中，T为总的时隙数。

在步骤1)中，所述初始化算法参数，并输入算法的先验信息的具体方法可为：在环境相对稳定的水声通信中，某一单链路有m个传输频率和n个传输速率可供选择，其中m＞2，n＞2，即一共有m×n个arm，则图G上一共有m×n个点；假设该单链路上的先验信息为所有arms的奖励均值和所有arms被选择的次数，且起始值均为零，即奖励均值起始值

所有arm被选择的次数起始值

假设算法的总时隙数为T。

在步骤2)中，所述确定leader的具体方法可为：通过查看整个图G所有点的奖励均值

找出具有最大均值所对应的arm，作为leader L(t)；所有arms上的均值初始值相等，所以在开始的一段时间内，在整个图G中可以存在多个leader，Agent随机地在leader集合中选取leader。

在步骤3)中，所述遍历leader周边及自己，并计算各自的瞬时成功率的具体方法可为：遍历leader在图G周围距离自身一个单位的arm以及自身，计算它们的瞬时成功率；由于每个arm的瞬时成功率服从贝塔分布，即θ_i,j～Beta(α_i,j+1,β_i,j+1)，其中α_i,j表示执行此arm(第i个传输频率和第j个传输速率对)传输成功的次数，β_i,j表示执行此arm传输失败的次数。

在步骤4)中，所述观察收益的具体方法可为：被执行arm记为

其中，

为被执行arm；r_a是arm a对应的传输速率；选中被执行arm

后，链路将以对应的传输频率或传输速率进行传输，根据实际水声通信信道的状态，可以观察到一个随机反馈的关于该被执行arm的收益，记为

且

在步骤5)中，所述更新被执行arm的各参数值的具体方法可为：在时隙t中arm a的样本平均吞吐量为

为了减少系统储存内存，引入增量实现incrementalimplementation形式，即：

其中，D_a(t)是到时隙t为止执行arm a的次数，且由该式可看出，只需要上一个时隙arm a的样本平均吞吐量

和上一个时隙arm a执行次数D_a(t-1)的储存量，便可以得到当前时隙arm a的样本平均吞吐量；更新

的执行次数，即

根据返回的

的值判断传输成功与否，若

则传输成功，

的传输成功次数

加1；若

则传输失败，

的传输失败次数

加1。

本发明克服现有机器学习方法存在的实现复杂度较高和训练时间长的特点，采用随机性多臂老虎机(multi-armed bandit,MAB)框架来对该网络吞吐量最大化问题进行建模，并与跟随leader(following the leader)算法相结合进而求解得到该链路最佳的传输频率和传输速率组合。

与现有技术相比，本发明的优点在于：

1)本发明考虑了具有二维单峰结构的水声通信目标函数，有效利用了水声通信信道的特性，并大大减少了每个时隙探索的arm空间；

2)本发明运用了随机打破限制操作，使得本方法并不依赖于问题的条件，保证了算法的收敛性；

3)与现有方法相比，本发明大大提高了单跳链路的平均吞吐量。

附图说明

图1为本发明实施例的流程框图。

图2为大规模场景下本发明与现有方法的网络性能比较示意图(当T＝5×10⁴时，在10⁴个独立Monte Carlo试验场景下)。

图3为小规模场景下本发明与现有方法的网络性能比较示意图(当T＝5×10⁴时，在10⁴个独立Monte Carlo试验场景下)。

具体实施方式

以下实施例将结合附图对本发明作进一步详细描述。

本发明提出了一种基于汤普森采样算法来提升水声通信网络单条链路平均吞吐量的方法，其特征在于它的处理过程为：首先，将水声通信网络中的某一单链路看成独立的Agent，以及该链路上所有可能的传输频率和传输速率组合看成arms，将以传输频率和传输速率作为两轴的二维图建立成具有单峰特性的无向图G(undirected graph)。接着，将该链路平均吞吐量最大化问题建模成具有随机性质的MAB问题。然后，利用UTS算法对其进行求解，得到该链路上最佳的传输频率和传输速率组合。最后，该链路保持该设置直到下一次更新时刻为止。

参见图1，本发明实施例包括以下步骤：

步骤一：在环境相对稳定的水声通信中，单条链路有m个传输频率和n个传输速率可供选择，其中m＞2，n＞2，即一共有m×n个arm(臂)，则图G上一共有m×n个点。每个arm所对应的成功传输率是非时变的，瞬时成功率服从参数为该arm传输成功次数和失败次数的贝塔(Beta)分布。假设该链路上的先验信息为所有arms的奖励均值起始均为零和所有arms被选择的次数均为零，即

a＝a_i,j,0＜i≤m,0＜j≤n。记每个时隙选择的arm为

另外，假设算法的总时隙数为T。

步骤二：确定算法的探索并确定leader(领导者)。通过查看整个图G所有点的奖励均值

找出具有最大均值所对应的arm，作为leader L(t)。这一步又称为随机打破限制(ties broken arbitrarily)，对于本发明的设计和遗憾(regret)边界分析至关重要。在开始阶段，由于所有arms上的均值初始值相等，所以也许在整个arm空间中不止一个leader。此时，如果没有随机打破限制操作，本算法将选择所有leader中的第一个索引对应的leader。如果在最优的arm的索引较大时，这可能会导致较差的性能。因此，随机打破限制操作可以使得本算法无论在何种问题条件下都可以有较为平均的性能，而不受最优arm的索引大小的影响。因此，根据随机打破限制操作，在遇到多个leader的情况时，Agent随机地在leader集合中选取leader。

步骤三：遍历leader在图G周围距离自己一个单位的点以及自身，计算它们的瞬时成功率。由于每个arm的瞬时成功率服从贝塔分布，即θ_i,j～Beta(α_i,j+1,β_i,j+1)，其中α_i,j表示执行此arm传输成功的次数，β_i,j表示执行此arm传输失败的次数。运用贝塔分布的好处在于，只需要知道传输成功(success)还是失败(failure)，即在时隙结束时只需要反馈一个信息(由于设定奖励的是0和1，分别对应传输失败和成功)，大大减少了算法执行的复杂度和数值存储空间。虽然只搜索了部分arm，但是由于整个arm空间具有单峰特性，本算法最终总是可以找到最优的arm。

步骤四：根据步骤三所得出的瞬时成功率，计算出对应的实时吞吐量，选取具有最大吞吐量的arm，并观察其收益。记被执行的arm为

即

其中，r_a是arm a对应的传输速率。选中

后，链路将以对应的(传输频率,传输速率)对进行传输。根据实际水声通信信道的状态，可以观察到一个随机反馈的关于该arm的收益，记为

且

若传输成功，则

记为1；反之，若传输失败，则

记为0。

步骤五：更新被执行的

的各参数值。在时隙t中arm a的样本平均吞吐量为

为了减少系统储存内存，引入增量实现incremental implementation形式，即：

其中，D_a(t)是到时隙t为止执行arm a的次数。且由该式可看出，只需要上一个时隙arm a的样本平均吞吐量

和上一个时隙arm a执行次数D_a(t-1)的储存量，便可以得到当前时隙arm a的样本平均吞吐量。更新

的执行次数，即

根据返回的

的值判断传输成功与否。若

则传输成功，

的传输成功次数

加1；若

则传输失败，

的传输失败次数

加1。

步骤六：终止条件。更新算法执行的回合数，即t＝t+1。若t＜T，则算法回到步骤三；若t＝T，则算法结束，并返回该链路最佳的传输频率和传输速率组合。

通过以下仿真来进一步说明本发明方法的可行性和有效性。

假设水声通信网络中有一链路，分别考虑两种规格的场景：小规格场景和大规格场景。小规格场景中，传输频率的选择集合为{4,6,8,10,14}khz；大规格场景中，传输频率的选择集合为{1,2,4,6,8,10,12,14}khz。在两种场景下，传输速率的选择集合都为{0.2,0.4,0.6,0.9,1.2,1.4,1.6,2}kbps。同时，考虑与传输速率对应的成功传输概率为(0.99,0.98,0.96,0.93,0.90,0.10,0.06,0.04)。图2和3分别给出的是大规模场景和小规模场景中，回合数T＝5×10⁴，且在10⁴个独立蒙特卡洛Monte Carlo试验场景下，本发明与现有方法的网络性能比较曲线。从图2和3中可以看出，相比现有方法，本发明方法的网络平均吞吐量有明显的提升。

本发明基于TS算法来提升水声通信网络单链路平均吞吐量，首先，将水声通信网络中的某一单链路看成独立的Agent，以及该链路上所有可能的传输频率和传输速率组合看成arm，将此二维图建立成具有单峰特性的无向图G(undirected graph)；接着，将该链路平均吞吐量最大化问题建模成具有随机性质的MAB问题；然后，利用改进的UTS算法对其进行求解，得到该链路上最佳的传输频率和传输速率组合；最后，该链路保持该设置直到下一次更新时刻为止。本发明考虑了具有二维单峰结构的水声通信目标函数，有效利用了水声通信信道的特性，并大大减少了每个时隙探索的arm空间；且运用了随机打破限制操作，使得本发明并不依赖于问题的条件。另外，与现有方法相比，本发明大大提高了网络平均吞吐量。

Claims

1.一种提升水声通信链路平均吞吐量的方法，其特征在于结合水下环境特性，利用MAB算法同时考虑传输频率和传输速率，提高单链路的平均吞吐量，包括以下步骤：

1)初始化算法参数，并输入算法的先验信息；

3)遍历leader周边及自身，并计算各自的瞬时成功率，具体方法为：遍历leader在图G周围距离自身一个单位的arm以及自身，计算它们的瞬时成功率；每个arm的瞬时成功率服从贝塔分布，即θ_i,j～Beta(α_i,j+1,β_i,j+1)，其中α_i,j表示执行此arm传输成功的次数，β_i,j表示执行此arm传输失败的次数，i,j表示第i个传输频率和第j个传输速率对；

所述更新被执行arm的各参数值的具体方法为：在时隙t中arm a的样本平均吞吐量为

其中，D_a(t)是到时隙t为止执行arm a的次数，且由该式看出，只需要上一个时隙arm a的样本平均吞吐量

和上一个时隙arm a执行次数D_a(t-1)的储存量，得到当前时隙arm a的样本平均吞吐量；更新

的执行次数，即

根据返回的

的值判断传输成功与否，若

则传输成功，

的传输成功次数

加1；若

则传输失败，

的传输失败次数

加1；

6)更新执行的时隙数t，即t＝t+1，若t＜T，则回到步骤3)；若t＝T，则结束，并返回该链路最佳的传输频率和传输速率组合；其中，T为总的时隙数。

2.如权利要求1所述一种提升水声通信链路平均吞吐量的方法，其特征在于在步骤1)中，所述初始化算法参数，并输入算法的先验信息的具体方法为：在环境相对稳定的水声通信中，某一单链路有m个传输频率和n个传输速率供选择，其中m＞2，n＞2，即一共有m×n个arm，则图G上一共有m×n个点；假设该单链路上的先验信息为所有arms的奖励均值和所有arms被选择的次数，且起始值均为零，即奖励均值起始值

所有arm被选择的次数起始值

假设算法的总时隙数为T。

3.如权利要求1所述一种提升水声通信链路平均吞吐量的方法，其特征在于在步骤2)中，所述确定leader的具体方法为：通过查看整个图G所有点的奖励均值

找出具有最大均值所对应的arm，作为leader L(t)；由于所有arms上的均值初始值相等，所以在开始的一段时间内，在整个图G中存在多个leader，Agent随机地在leader集合中选取leader。

4.如权利要求1所述一种提升水声通信链路平均吞吐量的方法，其特征在于在步骤4)中，所述观察收益的具体方法为：被执行arm记为

其中，

为被执行arm；r_a是arm a对应的传输速率；选中被执行arm

后，链路将以对应的传输频率或传输速率进行传输，根据实际水声通信信道的状态，观察到一个随机反馈的关于该被执行arm的收益，记为

且