CN111917529B - 一种基于改进exp3算法的水声ofdm资源分配方法 - Google Patents
一种基于改进exp3算法的水声ofdm资源分配方法 Download PDFInfo
- Publication number
- CN111917529B CN111917529B CN202010678462.4A CN202010678462A CN111917529B CN 111917529 B CN111917529 B CN 111917529B CN 202010678462 A CN202010678462 A CN 202010678462A CN 111917529 B CN111917529 B CN 111917529B
- Authority
- CN
- China
- Prior art keywords
- strategy
- updating
- value
- node
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/003—Arrangements for allocating sub-channels of the transmission path
- H04L5/0058—Allocation criteria
- H04L5/0076—Allocation utility-based
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/0001—Arrangements for dividing the transmission path
- H04L5/0003—Two-dimensional division
- H04L5/0005—Time-frequency
- H04L5/0007—Time-frequency the frequencies being orthogonal, e.g. OFDM(A), DMT
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/0001—Arrangements for dividing the transmission path
- H04L5/0014—Three-dimensional division
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B11/00—Transmission systems employing sonic, ultrasonic or infrasonic waves
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种基于改进EXP3算法的水声OFDM资源分配方法,包括以下步骤:S1、初始化权值w(t,m),s=1;S2、增加策略双向步长扩大搜索空间,更新联合信道选择和功率分配的策略集;S3、实时更新自身学习的“探索与利用指数”;S4、计算各个节点策略概率,选择最大值策略概率;S5、根据所选概率效用回值更新策略所占权重,进行下一次迭代计算;S6、判断迭代时间t是否小于迭代总次数T,若是,返回继续扩大搜素空间,若否,则结束计算,本发明改进EXP3算法,扩大搜索空间,策略更新帮助节点获得最优信道选择和功率分配解,动态参数调节能够提高学习效率,加快收敛速度,且中断概率低,保证水声通信的质量。
Description
技术领域
本发明涉及水声通信资源分配领域,特别是涉及一种基于改进EXP3算法的水声OFDM资源分配方法。
背景技术
水声通信网络带宽资源有限,且信道极为复杂,水下环境存在的干扰和高时延性使信道状态信息难以获取。对于水声通信网络的信道选择和功率分配,联合优化的决策选择由于时变而不满足任何分布是求解的关键问题。正交频分复用(OFDM)是一种多载波传输技术,利用OFDM通信方式可以提高频谱的利用率,其较低的传输速度能够对抗水声环境中的多径干扰,传输的灵活性也使得OFDM技术在复杂多变的水下环境有良好的适应性。
目前,机器学习的诸多算法已经在处理决策选择等通信网络优化问题上有了广泛的研究和应用。其中多臂老虎机(MAB)理论被认为是决策选择问题的有效方法。其中UCB和EXP3算法在解决资源分配问题中应用最为广泛。由于UCB算法在解决决策问题时,通过学习用户自身的历史信息迭代求解,实现分布式决策,虽无需节点间的交换,但需满足策略服从固定的分布形式,而复杂多变的水下环境导致信道状态信息具有严重的不确定因素和时变性。相反,EXP3算法在解决信息未知时的对抗性问题有强适用性,用户分析奖励值更新策略的概率对抗时变。但考虑到传统的EXP3算法中,策略集是有限的,通过扩大搜索空间增加策略集,用户搜索到固定策略集以外的真正最优策略。
经对现有文献检索发现,中国专利申请号为CN 105657840 A,名称为“一种水下传感器网络中获得最大通信容量的信道分配方法”,该方法将信道和节点设置传输与控制两类,控制节点接收信道概率后通过匈牙利算法进行分配,以获得最大通信容量。但是由于水下环境的复杂和时变的特性,信道策略的概率向量也并非固定,而策略概率将直接决定分配的结果,如果概率不能对抗水下网络的时变性,则节点接入的信道并不是最优信道,同时会影响通信容量和质量。此外,该方法不能保证每对收发节点分布式选择,寻找全局最优解的复杂过程存在过高的时延性。
发明内容
本发明需要解决的技术问题是提供一种基于改进EXP3算法的水声OFDM资源分配方法,能够更快收敛到最优分配,中断概率低。
为解决上述技术问题,本发明所采用的技术方案是:一种基于改进EXP3算法的水声OFDM资源分配方法,包括以下步骤:
S1、初始化权值w(t,m),s=1;
S2、增加策略双向步长扩大搜索空间,更新联合信道选择和功率分配的策略集;
S3、通过计算动态学习参数实时更新自身学习的“探索与利用指数”;
S4、根据权值更新及探索参数计算各个节点策略概率,选择最大值策略概率;
S5、根据所选概率效用回值更新策略所占权重,进行下一次迭代计算;
S6、判断迭代时间t是否小于迭代总次数T,若是,返回继续扩大搜素空间,若否,则结束计算。
本发明技术方案的进一步改进在于:所述步骤S2中增加策略双向步长扩大搜索空间,更新联合信道选择和功率分配的策略集的步骤为:
A1、随机选取策略;
A2、增加双向步长得到两个反向的子策略,计算所述两个反向的子策略效用值,计算公式如下:
选择效用值大的子策略;
A3、判断步骤A2中效用值大的子策略效用值是否大于步骤A1中随机选取的策略效用值;若是,将效用值大的子策略代替所述随机选取策略,并更新策略集;若否,效用值大的子策略以Pr=exp(CSi,m-FSi,m)的概率代替随机选取策略并更新策略集;其中,CSi,m-FSi,m为子策略与随机策略步长差值。
本发明技术方案的进一步改进在于:所述步骤S3中各用户实时更新自身学习的“探索与利用指数”的过程为:
1)计算动态学习参数c1、c2:
其中,γmin为探索与利用指数的最小值,γmax为探索与利用指数的最大值,T为迭代次数;
2)通过计算动态学习参数更新探索与利用指数:
其中,Ri,m(t)为节点瞬时后悔值,Umax为节点效用最大值,Umix为节点效用最小值。
本发明技术方案的进一步改进在于:所述步骤S4中计算各个节点策略概率的过程为:
1)根据权值更新及探索参数计算策略概率;
其中,Si,m为可行策略的个数,γ为当前探索与利用指数,w(i,m),s(t)为在t时刻策略s所占权重;
2)根据策略的概率{d(i,m),1(t),...,d(i,m),S(t)}选择当前策略si,m(t)。
本发明技术方案的进一步改进在于:所述步骤S5中根据所选策略获得回值进行权值更新具体包括:
每次选择策略后通过以下公式进行权值更新:
其中x(i,m),j表示在迭代时间t,策略j的瞬时回值。
由于采用了上述技术方案,本发明取得的技术进步是:
1.本发明基于改进EXP3算法的水声OFDM资源分配方法,此方法不需要信道统计信息,与传统的水声通信网络资源分配方法相比,该技术具有更强的水下时变对抗性;
2.本发明改进EXP3算法,扩大了搜索空间,策略更新帮助节点获得真正最优信道选择和功率分配解,动态参数调节能够提高学习效率,加快收敛速度,且中断概率低,保证水声通信的质量。
附图说明
图1为本发明基于改进EXP3算法的水声OFDM资源分配方法流程图;
图2为水声OFDM系统的模型图;
图3为本发明在水声OFDM通信环境下与传统EXP3算法中实施例的关于某节点的评价指标仿真对比图。
具体实施方式
下面结合实施例对本发明做进一步详细说明:
EXP3算法是一个没有任何统计假设的经典的对抗性MAB算法,适用于求解信道信息未知情况下的多用户节点水声网络的资源分配问题。但传统的EXP3算法中用户的策略集合是固定的、有限的,用户无法通过搜索固定的策略集合寻找到资源分配问题的最优解。本发明所述改进的EXP3算法能够加速学习算法的收敛速度,不需要确定信道信息,能有效对抗水下环境的时变性,因此提出将改进的EXP3算法应用到水下OFDM网络资源分配。
图2为水声OFDM系统的模型。频谱被划分为K个单位带宽的正交子信道,其集合为κ={1,2L,K},模型中采用多用户的博弈模型,以此来模拟多节点之间的竞争,博弈者(节点)的策略集是对抗MAB的可行分配策略集其中Si,m为可行策略的个数,Si,m为可行策略s的全体集合。
与发射结点i连接的接收节点为(i,m),其瞬时接收信噪比SINR为:
接收节点(i,m)的中断概率为:
对抗性MAB问题的奖励函数是博弈框架中的效用函数:
模型中用于评价节点是否找到最优分配的指标为瞬时后悔值迭代后的累计后悔值,在t时刻,节点(i,m)瞬时后悔值为:
其中,P(i,m)(t)是节点(i,m)在t时刻的实际选择的策略,P-(i,m)(t)是除了(i,m)的其他节点在t时刻选择的策略;
t1时间段内节点(i,m)的累积后悔值为:
图1为本发明基于改进EXP3算法的水声OFDM资源分配方法流程图。如图1所示,一种基于改进EXP3算法的水声OFDM资源分配方法,包括:
步骤S1、初始化权值w(t,m),s=1;
步骤S2,通过增加策略双向步长扩大搜索空间,更新联合信道选择和功率分配的策略集:
A1、随机选取策略;
A2、增加双向步长得到两个反向的子策略,计算所述两个反向的子策略效用值,计算公式如下:
选择效用值大的子策略;
A3、判断步骤A2中效用值大的子策略效用值是否大于步骤A1中随机选取的策略效用值;若是,将效用值大的子策略代替所述随机选取策略,并更新策略集;若否,效用值大的子策略以Pr=exp(CSi,m-FSi,m)的概率代替随机选取策略并更新策略集;其中,CSi,m-FSi,m为子策略与随机策略步长差值;
步骤S3,各用户实时更新自身学习的“探索与利用指数”的过程为:
1)计算动态学习参数c1、c2:
其中,γmin为探索与利用指数的最小值,γmax为探索与利用指数的最大值,T为迭代次数;
2)通过计算动态学习参数更新探索与利用指数:
其中,Ri,m(t)为节点瞬时后悔值,Umax为节点效用最大值,Umix为节点效用最小值;
步骤S4,节点计算各策略概率,根据策略概率大小进行策略选择的过程为:
1)根据权值更新及探索参数计算所述策略概率;
其中,Si,m为可行策略的个数,γ为当前探索与利用指数,w(i,m),s(t)为在t时刻策略s所占权重;
2)根据策略的概率{d(i,m),1(t),...,d(i,m),S(t)}选择当前策略si,m(t);
步骤S5,根据所选策略获得回值进行权值更新具体包括:
每次选择策略后通过以下公式进行权值更新:
其中x(i,m),j表示在迭代时间t策略j的瞬时回值;
步骤S6:判断迭代时间t是否小于迭代总次数T,若是,返回继续扩大搜素空间,若否,则结束计算。
图3为本发明方法实施例与现有其他方法使用蒙特卡罗仿真方式进行20000次以上的独立仿真某节点的累计后悔值对比图:
实施例仿真表明现有的基于传统EXP3的分配方法不能收敛到真正最优分配解,对评价指标累计后悔值进行对比,在累计迭代20000次后,本发明累计后悔值约收敛到2000左右,明显低于现有的分配方法的后悔值7000,且能快速收敛到最优分配解。本发明方法实施例与现有EXP3算法应用的中断概率仿真对比,具体数值如下表。由表中方法对比的中断概率值可以看出,使用本发明方法各个节点中断概率均有效降低。
Claims (3)
1.一种基于改进EXP3算法的水声OFDM资源分配方法,其特征在于:包括以下步骤:
S1、初始化权值w(t,m),s=1;
S2、增加策略双向步长扩大搜索空间,更新联合信道选择和功率分配的策略集;所述步骤S2中增加策略双向步长扩大搜索空间,更新联合信道选择和功率分配的策略集的步骤为:
A1、随机选取策略;
A2、增加双向步长得到两个反向的子策略,计算所述两个反向的子策略效用值,计算公式如下:
选择效用值大的子策略;
A3、判断步骤A2中效用值大的子策略效用值是否大于步骤A1中随机选取的策略效用值;若是,将效用值大的子策略代替所述随机选取策略,并更新策略集;若否,效用值大的子策略以Pr=exp(CSi,m-FSi,m)的概率代替随机选取策略并更新策略集;其中,CSi,m-FSi,m为子策略与随机策略步长差值;
S3、通过计算动态学习参数实时更新自身学习的“探索与利用指数”;所述步骤S3中各用户实时更新自身学习的“探索与利用指数”的过程为:
1)计算动态学习参数c1、c2:
其中,γmin为探索与利用指数的最小值,γmax为探索与利用指数的最大值,T为迭代次数;
2)通过计算动态学习参数更新探索与利用指数:
其中,Ri,m(t)为节点瞬时后悔值,Umax为节点效用最大值,Umix为节点效用最小值;
S4、根据权值更新及探索参数计算各个节点策略概率,选择最大值策略概率;
S5、根据所选概率效用回值更新策略所占权重,进行下一次迭代计算;
S6、判断迭代时间t是否小于迭代总次数T,若是,返回继续扩大搜素空间,若否,则结束计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678462.4A CN111917529B (zh) | 2020-07-15 | 2020-07-15 | 一种基于改进exp3算法的水声ofdm资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678462.4A CN111917529B (zh) | 2020-07-15 | 2020-07-15 | 一种基于改进exp3算法的水声ofdm资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111917529A CN111917529A (zh) | 2020-11-10 |
CN111917529B true CN111917529B (zh) | 2021-06-15 |
Family
ID=73281597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010678462.4A Active CN111917529B (zh) | 2020-07-15 | 2020-07-15 | 一种基于改进exp3算法的水声ofdm资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111917529B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507197B (zh) * | 2020-12-18 | 2024-01-19 | 北京百度网讯科技有限公司 | 模型搜索方法、装置、电子设备、存储介质和程序产品 |
CN113067645B (zh) * | 2021-03-29 | 2022-02-11 | 浙江大学 | 一种规则与案例结合的低复杂度水声通信功率设定方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657840A (zh) * | 2016-01-05 | 2016-06-08 | 天津大学 | 一种水下传感器网络中获得最大通信容量的信道分配方法 |
CN108809881A (zh) * | 2018-05-02 | 2018-11-13 | 燕山大学 | 一种基于改进的exp3算法水下自适应ofdm通信方法 |
CN109460862A (zh) * | 2018-10-22 | 2019-03-12 | 郑州大学 | 基于mab的超启发式算法求解多目标优化问题的方法 |
CN110167204A (zh) * | 2019-05-08 | 2019-08-23 | 燕山大学 | 一种基于ms-bas算法的中继传输策略选择和功率分配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467313B2 (en) * | 2017-03-15 | 2019-11-05 | Oath Inc. | Online user space exploration for recommendation |
-
2020
- 2020-07-15 CN CN202010678462.4A patent/CN111917529B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657840A (zh) * | 2016-01-05 | 2016-06-08 | 天津大学 | 一种水下传感器网络中获得最大通信容量的信道分配方法 |
CN108809881A (zh) * | 2018-05-02 | 2018-11-13 | 燕山大学 | 一种基于改进的exp3算法水下自适应ofdm通信方法 |
CN109460862A (zh) * | 2018-10-22 | 2019-03-12 | 郑州大学 | 基于mab的超启发式算法求解多目标优化问题的方法 |
CN110167204A (zh) * | 2019-05-08 | 2019-08-23 | 燕山大学 | 一种基于ms-bas算法的中继传输策略选择和功率分配方法 |
Non-Patent Citations (6)
Title |
---|
Best Arm Identification for Both Stochastic and Adversarial Multi-armed Bandits;Hantao Zhang;《IEEE》;20190117;全文 * |
EXP3 with Drift Detection for the Switching Bandit Problem;Robin Allesiardo;《IEEE》;20151203;全文 * |
Relay Selection for Underwater Acoustic Sensor Networks: A Multi-User Multi-Armed Bandit Formulation;XINBIN LI;《IEEE》;20180202;全文 * |
基于MAB算法的水声协作通信网络中继选择策略研究;刘佳佳;《中国优秀硕士学位论文全文数据库(电子期刊)》;20190531;全文 * |
基于博弈论的双层Femtocell资源分配算法研究网络;韩松;《中国博士学位论文电子期刊网》;20190531;全文 * |
基于鲁棒Restless Bandits 模型的多水下自主航行器任务分配策略;李鑫滨;《计算机应用》;20191010;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111917529A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111556572B (zh) | 一种基于强化学习的频谱资源和计算资源联合分配方法 | |
CN111866954B (zh) | 一种基于联邦学习的用户选择和资源分配方法 | |
CN107690176B (zh) | 一种基于q学习算法的网络选择方法 | |
CN111917529B (zh) | 一种基于改进exp3算法的水声ofdm资源分配方法 | |
CN107948083B (zh) | 一种基于增强学习的sdn数据中心拥塞控制方法 | |
CN110225535A (zh) | 基于深度确定性策略梯度的异构无线网络垂直切换方法 | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
CN112188503B (zh) | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
Sun et al. | Accelerating convergence of federated learning in MEC with dynamic community | |
CN113784410A (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN114205791A (zh) | 一种基于深度q学习的社交感知d2d协同缓存方法 | |
CN116744311B (zh) | 基于per-ddqn的用户组频谱接入方法 | |
CN113613332B (zh) | 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统 | |
CN103108397B (zh) | 基于粒子群的无线Mesh网快速信道分配方法 | |
CN115811788B (zh) | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 | |
CN109561129B (zh) | 一种基于光纤-无线网络的协同计算卸载方法 | |
CN114125962B (zh) | 一种自适应网络切换方法、系统及存储介质 | |
CN113596901B (zh) | 一种在线学习的并行边缘计算方法 | |
CN110324175A (zh) | 基于边缘缓存的网络节能方法及系统 | |
CN111935824B (zh) | 无线资源分配策略更新方法、装置、设备及存储介质 | |
Li et al. | Dynamic multi-channel access in wireless system with deep reinforcement learning | |
CN114339892B (zh) | 一种基于dqn与联合竞价的两层切片资源分配方法 | |
Gao et al. | Deep reinforcement learning based rendering service placement for cloud gaming in mobile edge computing systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |