CN111917529B

CN111917529B - 一种基于改进exp3算法的水声ofdm资源分配方法

Info

Publication number: CN111917529B
Application number: CN202010678462.4A
Authority: CN
Inventors: 李鑫滨; 毛淋; 韩松; 赵海红; 王冰涵
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2021-06-15
Anticipated expiration: 2040-07-15
Also published as: CN111917529A

Abstract

本发明公开了一种基于改进EXP3算法的水声OFDM资源分配方法，包括以下步骤：S1、初始化权值w_(t,m),s＝1；S2、增加策略双向步长扩大搜索空间，更新联合信道选择和功率分配的策略集；S3、实时更新自身学习的“探索与利用指数”；S4、计算各个节点策略概率，选择最大值策略概率；S5、根据所选概率效用回值更新策略所占权重，进行下一次迭代计算；S6、判断迭代时间t是否小于迭代总次数T,若是，返回继续扩大搜素空间，若否，则结束计算，本发明改进EXP3算法，扩大搜索空间，策略更新帮助节点获得最优信道选择和功率分配解，动态参数调节能够提高学习效率，加快收敛速度，且中断概率低，保证水声通信的质量。

Description

一种基于改进EXP3算法的水声OFDM资源分配方法

技术领域

本发明涉及水声通信资源分配领域，特别是涉及一种基于改进EXP3算法的水声OFDM资源分配方法。

背景技术

水声通信网络带宽资源有限，且信道极为复杂，水下环境存在的干扰和高时延性使信道状态信息难以获取。对于水声通信网络的信道选择和功率分配，联合优化的决策选择由于时变而不满足任何分布是求解的关键问题。正交频分复用(OFDM)是一种多载波传输技术，利用OFDM通信方式可以提高频谱的利用率，其较低的传输速度能够对抗水声环境中的多径干扰，传输的灵活性也使得OFDM技术在复杂多变的水下环境有良好的适应性。

目前，机器学习的诸多算法已经在处理决策选择等通信网络优化问题上有了广泛的研究和应用。其中多臂老虎机(MAB)理论被认为是决策选择问题的有效方法。其中UCB和EXP3算法在解决资源分配问题中应用最为广泛。由于UCB算法在解决决策问题时，通过学习用户自身的历史信息迭代求解，实现分布式决策，虽无需节点间的交换，但需满足策略服从固定的分布形式，而复杂多变的水下环境导致信道状态信息具有严重的不确定因素和时变性。相反，EXP3算法在解决信息未知时的对抗性问题有强适用性，用户分析奖励值更新策略的概率对抗时变。但考虑到传统的EXP3算法中，策略集是有限的，通过扩大搜索空间增加策略集，用户搜索到固定策略集以外的真正最优策略。

经对现有文献检索发现，中国专利申请号为CN 105657840 A，名称为“一种水下传感器网络中获得最大通信容量的信道分配方法”，该方法将信道和节点设置传输与控制两类，控制节点接收信道概率后通过匈牙利算法进行分配，以获得最大通信容量。但是由于水下环境的复杂和时变的特性，信道策略的概率向量也并非固定，而策略概率将直接决定分配的结果，如果概率不能对抗水下网络的时变性，则节点接入的信道并不是最优信道，同时会影响通信容量和质量。此外，该方法不能保证每对收发节点分布式选择，寻找全局最优解的复杂过程存在过高的时延性。

发明内容

本发明需要解决的技术问题是提供一种基于改进EXP3算法的水声OFDM资源分配方法，能够更快收敛到最优分配，中断概率低。

为解决上述技术问题，本发明所采用的技术方案是：一种基于改进EXP3算法的水声OFDM资源分配方法，包括以下步骤：

S1、初始化权值w_(t,m),s＝1；

S2、增加策略双向步长扩大搜索空间，更新联合信道选择和功率分配的策略集；

S3、通过计算动态学习参数实时更新自身学习的“探索与利用指数”；

S4、根据权值更新及探索参数计算各个节点策略概率，选择最大值策略概率；

S5、根据所选概率效用回值更新策略所占权重，进行下一次迭代计算；

S6、判断迭代时间t是否小于迭代总次数T,若是，返回继续扩大搜素空间，若否，则结束计算。

本发明技术方案的进一步改进在于：所述步骤S2中增加策略双向步长扩大搜索空间，更新联合信道选择和功率分配的策略集的步骤为：

A1、随机选取策略；

A2、增加双向步长得到两个反向的子策略,计算所述两个反向的子策略效用值，计算公式如下：

选择效用值大的子策略；

其中n_i,m为接收节点(i,m)受到的干扰，

表示发射节点j到接收节点(i,m)间的实际增益，

为接收收节点(i,m)上接收到发射节点j的功率，

为接收收节点(i,m)上接收到发射节点i的功率；

A3、判断步骤A2中效用值大的子策略效用值是否大于步骤A1中随机选取的策略效用值；若是，将效用值大的子策略代替所述随机选取策略，并更新策略集；若否，效用值大的子策略以Pr＝exp(CS_i,m-FS_i,m)的概率代替随机选取策略并更新策略集；其中，CS_i,m-FS_i,m为子策略与随机策略步长差值。

本发明技术方案的进一步改进在于：所述步骤S3中各用户实时更新自身学习的“探索与利用指数”的过程为：

1)计算动态学习参数c₁、c₂：

其中，γ_min为探索与利用指数的最小值，γ_max为探索与利用指数的最大值，T为迭代次数；

2)通过计算动态学习参数更新探索与利用指数：

其中，R_i,m(t)为节点瞬时后悔值，U_max为节点效用最大值，U_mix为节点效用最小值。

本发明技术方案的进一步改进在于：所述步骤S4中计算各个节点策略概率的过程为：

1)根据权值更新及探索参数计算策略概率；

其中，S_i,m为可行策略的个数，γ为当前探索与利用指数，w_(i,m),s(t)为在t时刻策略s所占权重；

2)根据策略的概率{d_(i,m),1(t)，...，d_(i,m),S(t)}选择当前策略s_i,m(t)。

本发明技术方案的进一步改进在于：所述步骤S5中根据所选策略获得回值进行权值更新具体包括：

每次选择策略后通过以下公式进行权值更新：

其中x_(i,m),j表示在迭代时间t，策略j的瞬时回值。

由于采用了上述技术方案，本发明取得的技术进步是：

1.本发明基于改进EXP3算法的水声OFDM资源分配方法，此方法不需要信道统计信息，与传统的水声通信网络资源分配方法相比，该技术具有更强的水下时变对抗性；

2.本发明改进EXP3算法，扩大了搜索空间，策略更新帮助节点获得真正最优信道选择和功率分配解，动态参数调节能够提高学习效率，加快收敛速度，且中断概率低，保证水声通信的质量。

附图说明

图1为本发明基于改进EXP3算法的水声OFDM资源分配方法流程图；

图2为水声OFDM系统的模型图；

图3为本发明在水声OFDM通信环境下与传统EXP3算法中实施例的关于某节点的评价指标仿真对比图。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

EXP3算法是一个没有任何统计假设的经典的对抗性MAB算法，适用于求解信道信息未知情况下的多用户节点水声网络的资源分配问题。但传统的EXP3算法中用户的策略集合是固定的、有限的，用户无法通过搜索固定的策略集合寻找到资源分配问题的最优解。本发明所述改进的EXP3算法能够加速学习算法的收敛速度，不需要确定信道信息，能有效对抗水下环境的时变性，因此提出将改进的EXP3算法应用到水下OFDM网络资源分配。

图2为水声OFDM系统的模型。频谱被划分为K个单位带宽的正交子信道，其集合为κ＝{1，2L，K}，模型中采用多用户的博弈模型，以此来模拟多节点之间的竞争，博弈者(节点)的策略集是对抗MAB的可行分配策略集

其中S_i,m为可行策略的个数，S_i,m为可行策略s的全体集合。

与发射结点i连接的接收节点为(i,m)，其瞬时接收信噪比SINR为：

其中n_i,m为接收节点(i,m)受到的干扰，G_ij,m表示发射节点j到接收节点(i,m)间的实际增益，

为接收收节点(i,m)上接收到发射节点j的功率；

接收节点(i,m)的中断概率为：

其中

为接收节点(i,m)的期望SINR；

对抗性MAB问题的奖励函数是博弈框架中的效用函数：

模型中用于评价节点是否找到最优分配的指标为瞬时后悔值迭代后的累计后悔值，在t时刻，节点(i,m)瞬时后悔值为：

其中，P_(i,m)(t)是节点(i,m)在t时刻的实际选择的策略，P_-(i,m)(t)是除了(i,m)的其他节点在t时刻选择的策略；

t₁时间段内节点(i,m)的累积后悔值为：

图1为本发明基于改进EXP3算法的水声OFDM资源分配方法流程图。如图1所示，一种基于改进EXP3算法的水声OFDM资源分配方法，包括：

步骤S1、初始化权值w_(t,m),s＝1；

步骤S2，通过增加策略双向步长扩大搜索空间，更新联合信道选择和功率分配的策略集：

A1、随机选取策略；

选择效用值大的子策略；

其中n_i,m为接收节点(i,m)受到的干扰，

表示发射节点j到接收节点(i,m)间的实际增益，

为接收收节点(i,m)上接收到发射节点j的功率，

为接收收节点(i,m)上接收到发射节点i的功率；

A3、判断步骤A2中效用值大的子策略效用值是否大于步骤A1中随机选取的策略效用值；若是，将效用值大的子策略代替所述随机选取策略，并更新策略集；若否，效用值大的子策略以Pr＝exp(CS_i,m-FS_i,m)的概率代替随机选取策略并更新策略集；其中，CS_i,m-FS_i,m为子策略与随机策略步长差值；

步骤S3，各用户实时更新自身学习的“探索与利用指数”的过程为：

1)计算动态学习参数c₁、c₂：

2)通过计算动态学习参数更新探索与利用指数：

其中，R_i,m(t)为节点瞬时后悔值，U_max为节点效用最大值，U_mix为节点效用最小值；

步骤S4，节点计算各策略概率，根据策略概率大小进行策略选择的过程为：

1)根据权值更新及探索参数计算所述策略概率；

2)根据策略的概率{d_(i,m),1(t)，...，d_(i,m),S(t)}选择当前策略s_i,m(t)；

步骤S5，根据所选策略获得回值进行权值更新具体包括：

每次选择策略后通过以下公式进行权值更新：

其中x_(i,m),j表示在迭代时间t策略j的瞬时回值；

步骤S6：判断迭代时间t是否小于迭代总次数T,若是，返回继续扩大搜素空间，若否，则结束计算。

图3为本发明方法实施例与现有其他方法使用蒙特卡罗仿真方式进行20000次以上的独立仿真某节点的累计后悔值对比图：

实施例仿真表明现有的基于传统EXP3的分配方法不能收敛到真正最优分配解，对评价指标累计后悔值进行对比，在累计迭代20000次后，本发明累计后悔值约收敛到2000左右，明显低于现有的分配方法的后悔值7000，且能快速收敛到最优分配解。本发明方法实施例与现有EXP3算法应用的中断概率仿真对比，具体数值如下表。由表中方法对比的中断概率值可以看出，使用本发明方法各个节点中断概率均有效降低。