CN108712748A - 一种基于强化学习的认知无线电抗干扰智能决策的方法 - Google Patents
一种基于强化学习的认知无线电抗干扰智能决策的方法 Download PDFInfo
- Publication number
- CN108712748A CN108712748A CN201810325152.7A CN201810325152A CN108712748A CN 108712748 A CN108712748 A CN 108712748A CN 201810325152 A CN201810325152 A CN 201810325152A CN 108712748 A CN108712748 A CN 108712748A
- Authority
- CN
- China
- Prior art keywords
- action
- cognitive
- channel
- cognitive user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 85
- 230000013016 learning Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000009471 action Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims abstract description 37
- 230000005540 biological transmission Effects 0.000 claims abstract description 16
- 238000005259 measurement Methods 0.000 claims abstract description 3
- 230000002787 reinforcement Effects 0.000 claims description 28
- 230000003993 interaction Effects 0.000 claims description 7
- 239000004576 sand Substances 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000010754 BS 2869 Class F Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/14—Spectrum sharing arrangements between different networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于强化学习的认知无线电抗干扰智能决策的方法,包括:在多信道认知场景下,认知用户以感知到的信道信息和干扰器发射功率、信道选择信息为状态信息S,自主的选择发射功率和信道选择信息为动作信息a;定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R,作为认知用户动作选择性能衡量标准;在认知决策模型中,状态信息作为已知条件,以认知用户为主体决策动作选择,将效用函数作为强化学习中的瞬时回报函数,构建Q‑learning强化学习模型;得到认知用户优化动作决策。
Description
技术领域
本发明属于智能认知无线电领域,尤其针对认知用户与干扰器之间交互,利用机器学习算法中强化学习算法来实现认知无线电抗干扰决策问题。
背景技术
随着认知无线电通信技术的发展,可用的频谱资源缺乏问题日益严峻,认知用户的数量激增,找到有效的策略对空闲频谱的分配至关重要。认知无线电在技术方面的逐渐成熟,也使得军事通信在现代战争中的作用和地位不断提升,军事通信抗干扰问题日益突出。传统的决策技术一般是在考虑了次用户对授权用户的干扰约束下最优次用户的性能,存在着动态调整策略的不足,必须要发展新的智能化的抗干扰通信技术来应对各种干扰手段。针对干扰问题通信中的解决方法主要为频域的扩频技术和空间域的自适应天线、分集接收技术以及时域的猝发通信技术等,应用较广泛的当属扩频技术和自适应天线技术。扩频抗干扰主要由直接序列扩频和跳频两种方式,本专利仅考虑到认知无线电场中的跳频选择,即通过选择不同的载波来规避地方的干扰。
人工智能以其解决复杂问题的高效性被广泛应用于认知学习。智能学习一般分为在线学习和离线学习两种方法,在线学习主要是通过与无线电环境的交互,获取环境信息,依靠自身来进行学习,通常用于认知无线电系统的初始工作状态,如隐马尔科夫模型和强化学习算法。BkassinyM等人系统的阐述了马尔可夫决策(Markov decisionprocess,MDP)框架,以及强化学习模型可以应用于在马尔可夫状态下的中心策略决策,和非马尔可夫状态下用梯度策略搜索的方法来提高认知系统的性能。本专利用到的强化学习算法是一种模型无关的学习算法,其模型构建于环境与agent的交互,最优行动值估计的更新依赖于各种“假设”的动作,而不是根据学习策略所选择的实际行动,是对状态动作对的值函数进行估计来求得的最优策略。
将强化学习与认知无线电有机的结合起来,面对智能干扰器能产生不同的干扰问题,嵌入强化学习算法的认知引擎能够通过对策略选择的试错和环境反馈信息,动态的调整认知系统的参数和策略选择情况,进而能够在环境信息不充分的条件下,相比于随机的选择策略有效的改善通信质量。
发明内容
本发明提供一种基于强化学习算法的认知无线电抗干扰决策方法,该方法面向认知无线电中认知用户易受到干扰的情况,即认知用户不能获得全部的无线电环境信息且可能存在智能干扰的场景,充分利用强化学习算法的信息依赖度低和自适应改变策略的优势,能够更好的结合到认知用户的信道选择和发射功率分配问题上,提高认知用户的抗干扰性能。采用的技术方案如下:
一种基于强化学习的认知无线电抗干扰智能决策的方法,包括下列步骤:
(1)在多信道认知场景下,认知用户以感知到的信道信息和干扰器发射功率、信道选择信息为状态信息S,自主的选择发射功率和信道选择信息为动作信息a;定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R,作为认知用户动作选择性能衡量标准:
其中,
E(S,a)=pse+c·(1-I(ht s,ht-1 s))
ε表示高斯白噪声功率,ps和hs为认知用户的发射功率和信道增益,pj和hj为干扰器的发射功率和信道增益,is和ij分别表示认知用户和干扰器选择的信道标号,和表示认知用户前后两次选择信道的信道增益,t代表其顺序性,I(·)表示指示函数,用来判断干扰是否与认知用户选择了同一信道,以及认知用户是否在相邻的时间内产生了跳频进而有能量输出;c为跳频能量损耗,e为单位发射功率能量损耗,参数β∈B={0,1}表示授权用户的存在情况
(2)在认知决策模型中,状态信息作为已知条件,以认知用户为主体决策动作选择,将效用函数作为强化学习中的瞬时回报函数,利用三者{S,a,R}构建Q-learning强化学习模型;初始状态动作值函数Q(S,a)为0,随机初始化当前状态信息S=S0,以等概率策略选择初始动作a=a0,并执行该动作;
(3)利用认知用户对信道的实时监测性能观察到下一环境状态St+1,通过遍历该状态下所有可能动作的Q(S,a)值,选择值最大的对应的动作作为下一动作选择策略,记下一动作为at+1;
(4)计算当前状态动作对的效用函数R,对当前的动作决策做出评价,并以强化学习思想更新状态动作值函数Q(S,a),以下一环境状态和动作信息更新为当前的状态和动作信息S=St+1,a=at+1,循环执行上一步骤,动态的给出认知用户优化动作决策,直到本次认知交互阶段结束。
本发明基于强化学习算法,根据认知场景的特点,综合信道选择和发射功率分配问题,定义能效函数为强化学习中的回报函数,评价算法选择动作的性能。算法能有效解决未知干扰类型情况下的发射功率和信道选择问题,最终实验结果表明对比于传统选择策略能有效提高能效性能。
附图说明
图1本发明认知干扰信道场景图
图2本发明结合场景的决策算法流程
具体实施方式
下面结合附图和实施例对本发明进行说明。
1.模型构建
将决策学习问题可以描述成马尔可夫决策过程的基础是,假设学习过程是具有马尔可夫性质的问题,即下一时刻环境状态的转移和接收到的回报函数R只取决于上一时刻的状态S和采取的动作a有关。考虑单认知用户和单个干扰器存在的条件下,对于用户和干扰的信道选择和功率选择问题进行建模。假设认知用户的发射功率等级有E级,干扰器的发射功率等级有F级。考虑对多信道的划分上,将信道按照不同信道增益划分为M个,明确指出某时隙内,无论是认知用户还是干扰器都只能接入一个空闲信道。
2.效用函数设计
在发射功率的选择上,发射功率越大,接收端将会得到更高的信干噪比,但会消耗更多的能量。结合认知用户与干扰器的交互过程中,考虑认知用户为了规避干扰器带来的干扰进行下一时刻跳频策略选择的情况,如下分别给出信干噪比SINR和能量消耗E的定义形式:
E(S,a)=pse+c·(1-I(ht s,ht-1 s))
其中ε表示高斯白噪声功率。ps和hs为认知用户的发射功率和信道增益,pj和hj为干扰器的发射功率和信道增益,is和ij分别表示认知用户和干扰器选择的信道标号,和表示认知用户前后两次选择信道的信道增益,t代表其顺序性。I(·)表示指示函数,用来判断干扰是否与认知用户选择了同一信道,以及认知用户是否在相邻的时间内产生了跳频进而有能量输出。信道的增益集合表示为H,hs/j∈H={h1,···,hM}。设定跳频能量损耗为c,单位发射功率能量损耗为e。将认知用户选择自己的发射功率和占用信道表示动作为a=[ps,is],其中ps∈Ps,is∈Φ,a∈Α(Α:Ps×Φ),Ps={ps1,···,psE}为认知用户的发射功率集合,Φ={1,···,M}为空闲信道标号集合,A为动作集合;智能干扰器同样可以选择自己的发射功率和占用信道来对认知用户的传输造成干扰,记录为d=[pj,ij],其中pj∈Pj,ij∈Φ,d∈Λ(Λ:Pj×Φ),Pj={pj1,···,pjF}为干扰器的发射功率集合,Λ为干扰器的选择集合。考虑到授权用户对信道的占用时,需要进行规避,设置参数β∈B={0,1}表示授权用户的存在情况。S=[β,d]表示认知环境信息,其中β∈B,d∈Λ,S∈Ω(Ω:B×Λ),Ω为状态集合。
如上所示,从均衡的角度出发,将能效函数定义为SINR和E的比值形式,将其作为强化学习模型中的瞬时回报函数,代表不同状态下动作选择的性能评价。通过认知阶段动态的交互,认知用户能得出不同状态下最恰当的动作决策,提高抗干扰能力。
3.结合算法决策
基于马尔可夫模型的强化学习算法用于认知无线电决策中主要由{S,a,R,γ}4个部分构成,分别表示为当前所处于的状态、针对当前状态给出的动作选择、状态动作选择所对应的回报、以及折损参数,γ表示的是随着时间的增加,越往后的时间策略对当前状态造成的影响衰减情况。
本发明研究一种基于时间差的方法,将设计的效用函数作为强化学习算法中的回报函数,采用Q-learning强化学习算法融入场景。算法以Q(S,a)值函数的更新为核心,逐步逼近策略选择最优:
Qt+1(St,at)=(1-α)·Qt(St,at)+α(R(St,at)+γ·Vt(St+1))
式中α表示学习速率,其中表示在当前状态下选择使得Q(S,a)值函数最大作为其状态值函数值。强化学习目的是找到最优的行为策略,即要求每一次的转移都是使得回报最大的。给出策略的选择标准:以该策略对不同的状态下的动作进行选择,在有限次数的算法迭代之后,评价算法性能的Q(S,a)值函数会收敛到较稳定的值。
以认知用户为中心,将认知用户的动作表示为强化学习中的动作a=[ps,is],强化学习中的状态表示为信道状态和干扰器的前一动作组合S=[β,d]。初始时随机假定一个干扰动作,在认知用户与干扰器的交互过程中,认知用户感知当前信道信息并以干扰的前一动作信息为当前状态信息,利用强化学习思想策略地选择自己的通信动作,并结合瞬时无线电环境与认知用户动作计算策略的能效函数表示的回报值R,对Q(S,a)值函数内容更新并开始下一次迭代。当授权用户存在时,认知用户和干扰器都不进行动作选择,记此时的R=0。算法能够面对变化的干扰环境实时给出较好的信道和发射功率选择策略。结合图2给出算法的基本执行步骤:
(1)初始化:
初始化认知系统中一系列的参数和变量来构建认知模型;给定某个初始状态S=S0,默认以均匀概率选取初始状态的动作a=a0,并执行该动作。
(2)执行循环:
判断当前的执行次数是否为本阶段设定的最大循环次数N,是则退出循环结束算法,否则继续执行。在当前的状态S和动作执行a之后,观察下一状态St+1情况,以策略选择下一可能动作at+1。计算以认知用户的发射功率和所选信道的情况设计的能效函数值R,实时地作为当前动作的选择评价。并根据强化学习算法更新状态动作值函数Q(S,a),对不同的状态的动作选择情况更新。将下一状态和动作的选择更新为当前状态和动作S=St+1,a=at+1,开始新一轮的循环操作。
Claims (1)
1.一种基于强化学习的认知无线电抗干扰智能决策的方法,包括下列步骤:
(1)在多信道认知场景下,认知用户以感知到的信道信息和干扰器发射功率、信道选择信息为状态信息S,自主的选择发射功率和信道选择信息为动作信息a;定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R,作为认知用户动作选择性能衡量标准:
其中,
E(S,a)=pse+c·(1-I(ht s,ht-1 s)),
ε表示高斯白噪声功率,ps和hs为认知用户的发射功率和信道增益,pj和hj为干扰器的发射功率和信道增益,is和ij分别表示认知用户和干扰器选择的信道标号,和表示认知用户前后两次选择信道的信道增益,t代表其顺序性,I(·)表示指示函数,用来判断干扰是否与认知用户选择了同一信道,以及认知用户是否在相邻的时间内产生了跳频进而有能量输出;c为跳频能量损耗,e为单位发射功率能量损耗,参数β∈B={0,1}表示授权用户的存在情况
(2)在认知决策模型中,状态信息作为已知条件,以认知用户为主体决策动作选择,将效用函数作为强化学习中的瞬时回报函数,利用三者{S,a,R}构建Q-learning强化学习模型;初始状态动作值函数Q(S,a)为0,随机初始化当前状态信息S=S0,以等概率策略选择初始动作a=a0,并执行该动作;
(3)利用认知用户对信道的实时监测性能观察到下一环境状态St+1,通过遍历该状态下所有可能动作的Q(S,a)值,选择值最大的对应的动作作为下一动作选择策略,记下一动作为at+1;
(4)计算当前状态动作对的效用函数R,对当前的动作决策做出评价,并以强化学习思想更新状态动作值函数Q(S,a),以下一环境状态和动作信息更新为当前的状态和动作信息S=St+1,a=at+1,循环执行上一步骤,动态的给出认知用户优化动作决策,直到本次认知交互阶段结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325152.7A CN108712748B (zh) | 2018-04-12 | 2018-04-12 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325152.7A CN108712748B (zh) | 2018-04-12 | 2018-04-12 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108712748A true CN108712748A (zh) | 2018-10-26 |
CN108712748B CN108712748B (zh) | 2021-04-27 |
Family
ID=63866708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810325152.7A Active CN108712748B (zh) | 2018-04-12 | 2018-04-12 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108712748B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109474980A (zh) * | 2018-12-14 | 2019-03-15 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN109861720A (zh) * | 2019-03-15 | 2019-06-07 | 中国科学院上海高等研究院 | 基于强化学习的wsn抗干扰方法、装置、设备和介质 |
CN110031807A (zh) * | 2019-04-19 | 2019-07-19 | 电子科技大学 | 一种基于无模型强化学习的多阶段灵巧噪声干扰方法 |
CN111314015A (zh) * | 2020-01-07 | 2020-06-19 | 中国人民解放军国防科技大学 | 一种基于强化学习的脉冲干扰决策方法 |
CN112512062A (zh) * | 2020-11-25 | 2021-03-16 | 中国工程物理研究院电子工程研究所 | 一种智能决策模型及一种通信系统智能抗干扰方法 |
CN112867087A (zh) * | 2021-01-20 | 2021-05-28 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
WO2021106508A1 (ja) * | 2019-11-27 | 2021-06-03 | 株式会社京三製作所 | 学習モデル生成方法、推定装置および無線列車制御システム |
CN113131970A (zh) * | 2021-05-19 | 2021-07-16 | 西南交通大学 | 基于强化学习与光载无线技术的高铁电磁干扰规避系统 |
CN114423046A (zh) * | 2021-12-03 | 2022-04-29 | 中国人民解放军空军工程大学 | 一种协同通信干扰决策方法 |
WO2022172849A1 (ja) * | 2021-02-12 | 2022-08-18 | 株式会社京三製作所 | 周波数決定方法及び周波数決定装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102238555A (zh) * | 2011-07-18 | 2011-11-09 | 南京邮电大学 | 认知无线电中基于协作学习的多用户动态频谱接入方法 |
CN106358300A (zh) * | 2015-07-16 | 2017-01-25 | 中国人民解放军理工大学 | 一种微蜂窝网络中的分布式资源分配方法 |
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
-
2018
- 2018-04-12 CN CN201810325152.7A patent/CN108712748B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102238555A (zh) * | 2011-07-18 | 2011-11-09 | 南京邮电大学 | 认知无线电中基于协作学习的多用户动态频谱接入方法 |
CN106358300A (zh) * | 2015-07-16 | 2017-01-25 | 中国人民解放军理工大学 | 一种微蜂窝网络中的分布式资源分配方法 |
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
Non-Patent Citations (1)
Title |
---|
张二青: "认知无线网络中资源管理与分配关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109474980B (zh) * | 2018-12-14 | 2020-04-28 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN109474980A (zh) * | 2018-12-14 | 2019-03-15 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN109861720A (zh) * | 2019-03-15 | 2019-06-07 | 中国科学院上海高等研究院 | 基于强化学习的wsn抗干扰方法、装置、设备和介质 |
CN110031807A (zh) * | 2019-04-19 | 2019-07-19 | 电子科技大学 | 一种基于无模型强化学习的多阶段灵巧噪声干扰方法 |
JP2021087082A (ja) * | 2019-11-27 | 2021-06-03 | 株式会社京三製作所 | 学習モデル生成方法、推定装置および無線列車制御システム |
JP7360309B2 (ja) | 2019-11-27 | 2023-10-12 | 株式会社京三製作所 | 学習モデル生成方法、推定装置および無線列車制御システム |
CN114762375A (zh) * | 2019-11-27 | 2022-07-15 | 株式会社京三制作所 | 学习模型生成方法、估计装置以及无线列车控制系统 |
WO2021106508A1 (ja) * | 2019-11-27 | 2021-06-03 | 株式会社京三製作所 | 学習モデル生成方法、推定装置および無線列車制御システム |
CN111314015A (zh) * | 2020-01-07 | 2020-06-19 | 中国人民解放军国防科技大学 | 一种基于强化学习的脉冲干扰决策方法 |
CN111314015B (zh) * | 2020-01-07 | 2022-08-05 | 中国人民解放军国防科技大学 | 一种基于强化学习的脉冲干扰决策方法 |
CN112512062B (zh) * | 2020-11-25 | 2022-09-06 | 中国工程物理研究院电子工程研究所 | 一种通信系统智能抗干扰方法 |
CN112512062A (zh) * | 2020-11-25 | 2021-03-16 | 中国工程物理研究院电子工程研究所 | 一种智能决策模型及一种通信系统智能抗干扰方法 |
CN112867087A (zh) * | 2021-01-20 | 2021-05-28 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN112867087B (zh) * | 2021-01-20 | 2023-08-04 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
WO2022172849A1 (ja) * | 2021-02-12 | 2022-08-18 | 株式会社京三製作所 | 周波数決定方法及び周波数決定装置 |
CN113131970A (zh) * | 2021-05-19 | 2021-07-16 | 西南交通大学 | 基于强化学习与光载无线技术的高铁电磁干扰规避系统 |
CN114423046A (zh) * | 2021-12-03 | 2022-04-29 | 中国人民解放军空军工程大学 | 一种协同通信干扰决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108712748B (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108712748B (zh) | 一种基于强化学习的认知无线电抗干扰智能决策的方法 | |
CN108616916B (zh) | 一种基于合作抗干扰分层博弈模型的抗干扰学习方法 | |
CN110620611B (zh) | 一种基于geo与leo双层卫星网络的协同频谱感知方法 | |
CN111726217B (zh) | 基于深度强化学习的宽带无线通信自主选频方法及系统 | |
CN109586820A (zh) | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 | |
Liu et al. | A heterogeneous information fusion deep reinforcement learning for intelligent frequency selection of HF communication | |
CN111491358B (zh) | 基于能量采集的自适应调制和功率控制系统与优化方法 | |
CN109787696B (zh) | 基于案例推理与合作q学习的认知无线电资源分配方法 | |
CN115567148A (zh) | 一种基于合作q学习的智能干扰方法 | |
Lu et al. | Dynamic channel access and power control via deep reinforcement learning | |
Akbarzadeh et al. | Dynamic spectrum access under partial observations: A restless bandit approach | |
CN102238709B (zh) | 无线传感器网络的自适应抗干扰方法 | |
CN111741520B (zh) | 一种基于粒子群的认知水声通信系统功率分配方法 | |
CN114126021A (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
CN113420495A (zh) | 主动诱骗式智能抗干扰方法 | |
Panahi et al. | Optimal channel-sensing policy based on fuzzy q-learning process over cognitive radio systems | |
CN116866048A (zh) | 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法 | |
Ali et al. | Deep-Q reinforcement learning for fairness in multiple-access cognitive radio networks | |
Sheng et al. | Sensing-transmission tradeoff for multimedia transmission in cognitive radio networks | |
Chen et al. | Adaptive repetition scheme with machine learning for 3GPP NB-IoT | |
CN113395757B (zh) | 基于改进回报函数的深度强化学习认知网络功率控制方法 | |
CN109639374A (zh) | 一种基于强化学习算法的认知抗干扰通信方法 | |
CN114423046A (zh) | 一种协同通信干扰决策方法 | |
CN114845403A (zh) | 一种竞争双深度q网络智能信道决策方法 | |
CN105007582B (zh) | 基于pomdp的受控无线网络系统动态资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |