CN108712748A

CN108712748A - 一种基于强化学习的认知无线电抗干扰智能决策的方法

Info

Publication number: CN108712748A
Application number: CN201810325152.7A
Authority: CN
Inventors: 马永涛; 朱芮
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-10-26
Anticipated expiration: 2038-04-12
Also published as: CN108712748B

Abstract

本发明涉及一种基于强化学习的认知无线电抗干扰智能决策的方法，包括：在多信道认知场景下，认知用户以感知到的信道信息和干扰器发射功率、信道选择信息为状态信息S，自主的选择发射功率和信道选择信息为动作信息a；定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R，作为认知用户动作选择性能衡量标准；在认知决策模型中，状态信息作为已知条件，以认知用户为主体决策动作选择，将效用函数作为强化学习中的瞬时回报函数，构建Q‑learning强化学习模型；得到认知用户优化动作决策。

Description

一种基于强化学习的认知无线电抗干扰智能决策的方法

技术领域

本发明属于智能认知无线电领域，尤其针对认知用户与干扰器之间交互，利用机器学习算法中强化学习算法来实现认知无线电抗干扰决策问题。

背景技术

随着认知无线电通信技术的发展，可用的频谱资源缺乏问题日益严峻，认知用户的数量激增，找到有效的策略对空闲频谱的分配至关重要。认知无线电在技术方面的逐渐成熟，也使得军事通信在现代战争中的作用和地位不断提升，军事通信抗干扰问题日益突出。传统的决策技术一般是在考虑了次用户对授权用户的干扰约束下最优次用户的性能，存在着动态调整策略的不足，必须要发展新的智能化的抗干扰通信技术来应对各种干扰手段。针对干扰问题通信中的解决方法主要为频域的扩频技术和空间域的自适应天线、分集接收技术以及时域的猝发通信技术等，应用较广泛的当属扩频技术和自适应天线技术。扩频抗干扰主要由直接序列扩频和跳频两种方式，本专利仅考虑到认知无线电场中的跳频选择，即通过选择不同的载波来规避地方的干扰。

人工智能以其解决复杂问题的高效性被广泛应用于认知学习。智能学习一般分为在线学习和离线学习两种方法，在线学习主要是通过与无线电环境的交互，获取环境信息，依靠自身来进行学习，通常用于认知无线电系统的初始工作状态，如隐马尔科夫模型和强化学习算法。BkassinyM等人系统的阐述了马尔可夫决策(Markov decisionprocess,MDP)框架，以及强化学习模型可以应用于在马尔可夫状态下的中心策略决策，和非马尔可夫状态下用梯度策略搜索的方法来提高认知系统的性能。本专利用到的强化学习算法是一种模型无关的学习算法，其模型构建于环境与agent的交互，最优行动值估计的更新依赖于各种“假设”的动作，而不是根据学习策略所选择的实际行动，是对状态动作对的值函数进行估计来求得的最优策略。

将强化学习与认知无线电有机的结合起来，面对智能干扰器能产生不同的干扰问题，嵌入强化学习算法的认知引擎能够通过对策略选择的试错和环境反馈信息，动态的调整认知系统的参数和策略选择情况，进而能够在环境信息不充分的条件下，相比于随机的选择策略有效的改善通信质量。

发明内容

本发明提供一种基于强化学习算法的认知无线电抗干扰决策方法，该方法面向认知无线电中认知用户易受到干扰的情况，即认知用户不能获得全部的无线电环境信息且可能存在智能干扰的场景，充分利用强化学习算法的信息依赖度低和自适应改变策略的优势，能够更好的结合到认知用户的信道选择和发射功率分配问题上，提高认知用户的抗干扰性能。采用的技术方案如下：

一种基于强化学习的认知无线电抗干扰智能决策的方法，包括下列步骤：

(1)在多信道认知场景下，认知用户以感知到的信道信息和干扰器发射功率、信道选择信息为状态信息S，自主的选择发射功率和信道选择信息为动作信息a；定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R，作为认知用户动作选择性能衡量标准：

其中，

E(S,a)＝p_se+c·(1-I(h^t _s,h^t-1 _s))

ε表示高斯白噪声功率，p_s和h_s为认知用户的发射功率和信道增益，p_j和h_j为干扰器的发射功率和信道增益，i_s和i_j分别表示认知用户和干扰器选择的信道标号，和表示认知用户前后两次选择信道的信道增益，t代表其顺序性，I(·)表示指示函数，用来判断干扰是否与认知用户选择了同一信道，以及认知用户是否在相邻的时间内产生了跳频进而有能量输出；c为跳频能量损耗，e为单位发射功率能量损耗，参数β∈B＝{0,1}表示授权用户的存在情况

(2)在认知决策模型中，状态信息作为已知条件，以认知用户为主体决策动作选择，将效用函数作为强化学习中的瞬时回报函数，利用三者{S,a,R}构建Q-learning强化学习模型；初始状态动作值函数Q(S,a)为0，随机初始化当前状态信息S＝S₀，以等概率策略选择初始动作a＝a₀，并执行该动作；

(3)利用认知用户对信道的实时监测性能观察到下一环境状态S_t+1，通过遍历该状态下所有可能动作的Q(S,a)值，选择值最大的对应的动作作为下一动作选择策略，记下一动作为a_t+1；

(4)计算当前状态动作对的效用函数R，对当前的动作决策做出评价，并以强化学习思想更新状态动作值函数Q(S,a)，以下一环境状态和动作信息更新为当前的状态和动作信息S＝S_t+1,a＝a_t+1，循环执行上一步骤，动态的给出认知用户优化动作决策，直到本次认知交互阶段结束。

本发明基于强化学习算法，根据认知场景的特点,综合信道选择和发射功率分配问题，定义能效函数为强化学习中的回报函数，评价算法选择动作的性能。算法能有效解决未知干扰类型情况下的发射功率和信道选择问题，最终实验结果表明对比于传统选择策略能有效提高能效性能。

附图说明

图1本发明认知干扰信道场景图

图2本发明结合场景的决策算法流程

具体实施方式

下面结合附图和实施例对本发明进行说明。

1.模型构建

将决策学习问题可以描述成马尔可夫决策过程的基础是，假设学习过程是具有马尔可夫性质的问题，即下一时刻环境状态的转移和接收到的回报函数R只取决于上一时刻的状态S和采取的动作a有关。考虑单认知用户和单个干扰器存在的条件下，对于用户和干扰的信道选择和功率选择问题进行建模。假设认知用户的发射功率等级有E级，干扰器的发射功率等级有F级。考虑对多信道的划分上，将信道按照不同信道增益划分为M个，明确指出某时隙内，无论是认知用户还是干扰器都只能接入一个空闲信道。

2.效用函数设计

在发射功率的选择上，发射功率越大，接收端将会得到更高的信干噪比，但会消耗更多的能量。结合认知用户与干扰器的交互过程中，考虑认知用户为了规避干扰器带来的干扰进行下一时刻跳频策略选择的情况，如下分别给出信干噪比SINR和能量消耗E的定义形式：

E(S,a)＝p_se+c·(1-I(h^t _s,h^t-1 _s))

其中ε表示高斯白噪声功率。p_s和h_s为认知用户的发射功率和信道增益，p_j和h_j为干扰器的发射功率和信道增益，i_s和i_j分别表示认知用户和干扰器选择的信道标号，和表示认知用户前后两次选择信道的信道增益，t代表其顺序性。I(·)表示指示函数，用来判断干扰是否与认知用户选择了同一信道，以及认知用户是否在相邻的时间内产生了跳频进而有能量输出。信道的增益集合表示为H，h_s/j∈H＝{h₁,···,h_M}。设定跳频能量损耗为c，单位发射功率能量损耗为e。将认知用户选择自己的发射功率和占用信道表示动作为a＝[p_s,i_s]，其中p_s∈P_s,i_s∈Φ,a∈Α(Α:P_s×Φ)，P_s＝{p_s1,···,p_sE}为认知用户的发射功率集合，Φ＝{1,···,M}为空闲信道标号集合，A为动作集合；智能干扰器同样可以选择自己的发射功率和占用信道来对认知用户的传输造成干扰，记录为d＝[p_j,i_j]，其中p_j∈P_j,i_j∈Φ,d∈Λ(Λ:P_j×Φ)，P_j＝{p_j1,···,p_jF}为干扰器的发射功率集合，Λ为干扰器的选择集合。考虑到授权用户对信道的占用时，需要进行规避，设置参数β∈B＝{0,1}表示授权用户的存在情况。S＝[β,d]表示认知环境信息，其中β∈B,d∈Λ,S∈Ω(Ω:B×Λ)，Ω为状态集合。

如上所示，从均衡的角度出发，将能效函数定义为SINR和E的比值形式，将其作为强化学习模型中的瞬时回报函数，代表不同状态下动作选择的性能评价。通过认知阶段动态的交互，认知用户能得出不同状态下最恰当的动作决策，提高抗干扰能力。

3.结合算法决策

基于马尔可夫模型的强化学习算法用于认知无线电决策中主要由{S,a,R,γ}4个部分构成，分别表示为当前所处于的状态、针对当前状态给出的动作选择、状态动作选择所对应的回报、以及折损参数，γ表示的是随着时间的增加，越往后的时间策略对当前状态造成的影响衰减情况。

本发明研究一种基于时间差的方法，将设计的效用函数作为强化学习算法中的回报函数，采用Q-learning强化学习算法融入场景。算法以Q(S,a)值函数的更新为核心，逐步逼近策略选择最优：

Q_t+1(S_t,a_t)＝(1-α)·Q_t(S_t,a_t)+α(R(S_t,a_t)+γ·V_t(S_t+1))

式中α表示学习速率，其中表示在当前状态下选择使得Q(S,a)值函数最大作为其状态值函数值。强化学习目的是找到最优的行为策略，即要求每一次的转移都是使得回报最大的。给出策略的选择标准：以该策略对不同的状态下的动作进行选择，在有限次数的算法迭代之后，评价算法性能的Q(S,a)值函数会收敛到较稳定的值。

以认知用户为中心，将认知用户的动作表示为强化学习中的动作a＝[p_s,i_s]，强化学习中的状态表示为信道状态和干扰器的前一动作组合S＝[β,d]。初始时随机假定一个干扰动作，在认知用户与干扰器的交互过程中，认知用户感知当前信道信息并以干扰的前一动作信息为当前状态信息，利用强化学习思想策略地选择自己的通信动作，并结合瞬时无线电环境与认知用户动作计算策略的能效函数表示的回报值R，对Q(S,a)值函数内容更新并开始下一次迭代。当授权用户存在时，认知用户和干扰器都不进行动作选择，记此时的R＝0。算法能够面对变化的干扰环境实时给出较好的信道和发射功率选择策略。结合图2给出算法的基本执行步骤：

(1)初始化：

初始化认知系统中一系列的参数和变量来构建认知模型；给定某个初始状态S＝S₀，默认以均匀概率选取初始状态的动作a＝a₀，并执行该动作。

(2)执行循环：

判断当前的执行次数是否为本阶段设定的最大循环次数N，是则退出循环结束算法，否则继续执行。在当前的状态S和动作执行a之后，观察下一状态S_t+1情况，以策略选择下一可能动作a_t+1。计算以认知用户的发射功率和所选信道的情况设计的能效函数值R，实时地作为当前动作的选择评价。并根据强化学习算法更新状态动作值函数Q(S,a)，对不同的状态的动作选择情况更新。将下一状态和动作的选择更新为当前状态和动作S＝S_t+1,a＝a_t+1，开始新一轮的循环操作。

Claims

1.一种基于强化学习的认知无线电抗干扰智能决策的方法，包括下列步骤：

其中，

E(S,a)＝p_se+c·(1-I(h^t _s,h^t-1 _s))，