CN112888071A

CN112888071A - 基于快速强化学习的干扰规避方法、装置、设备及介质

Info

Publication number: CN112888071A
Application number: CN202110089336.XA
Authority: CN
Inventors: 熊俊; 魏急波; 李芳�; 赵海涛; 周宣含; 赵肖迪; 周力; 张晓瀛; 辜方林
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-01
Anticipated expiration: 2041-01-22
Also published as: CN112888071B

Abstract

本发明公开了一种基于快速强化学习的干扰规避方法、装置、设备及介质；在本方案中，通过WoLF‑PHC学习算法进行通信干扰规避，采用可变的学习速率以提高学习算法的学习速率，并基于WoLF准则保证算法的收敛性，因此，本方案可在未知且动态变化的通信干扰环境中，能够迅速收敛且获得良好的抗干扰性能，提高了无线通信链路的鲁棒性和可靠性，进一步提高整个无线通信系统的可靠性和高效性。

Description

基于快速强化学习的干扰规避方法、装置、设备及介质

技术领域

本发明涉及无线通信抗干扰技术领域，更具体地说，涉及一种基于快速强化学习的干扰规避方法、装置、设备及介质。

背景技术

无线通信信道具有开放性，容易遭受各种干扰，这些干扰降低了无线通信的可靠性，严重影响了无线通信质量，阻碍通信信号的正常发送和接收，严重时甚至能导致通信中断，给业务的运行造成严重的损失。针对无线通信所面临的复杂干扰环境，干扰会随着地区和时间的变化而变化，很难直接发现干扰的规律，因此传统的监督学习制定的固定规避策略无法适应动态变化的环境。近年来，许多学者将动态频谱接入(DSA,dynamic spectrumaccess)和Q学习进行结合，提出了多种有效的智能抗干扰方法。然而基于单一的信道切换进行干扰规避会带来频繁的信道切换，并不能带来系统整体性能的提升。又有学者提出基于Q学习的二维抗干扰移动通信方案为每个状态策略保留Q函数，用于选择发射功率和接入信道，但是状态空间维度过大时会造成Q学习的学习速度降低，难以适应动态变化的无线通信环境，而且针对随机策略的干扰，Q学习不一定达到收敛。

因此，如何在未知且动态变化的通信干扰环境中，能够迅速收敛且获得良好的抗干扰性能，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种基于快速强化学习的干扰规避方法、装置、设备及介质，以在未知且动态变化的通信干扰环境中，能够迅速收敛且获得良好的抗干扰性能。

为实现上述目的，本发明提供的一种基于快速强化学习的干扰规避方法，包括：

建立马尔科夫模型，所述马尔科夫模型包括状态、动作和奖励值，所述状态表示：当前时隙的通信信道及干扰信道，所述动作表示：与当前时隙相邻的下一时隙的通信信道及发射功率，所述奖励值表示：在所述状态下执行所述动作的奖励值；

在无线通信环境中，基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，所述最终策略表示在不同状态下选取不同动作的概率值，以根据所述最终策略进行通信干扰规避。

其中，所述基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新之前，还包括：

对学习参数进行初始化，所述学习参数包括：折扣因子、学习率参数、学习速率、Q表、当前状态、当前策略、最大迭代次数；所述Q表表示在每一时隙的状态下，采取动作后所得到的累积奖励值。

其中，所述在无线通信环境中，基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，包括：

根据当前策略和当前状态确定目标动作；

基于所述目标动作及下一时隙的干扰信道确定下一时隙的状态；

计算在当前状态下执行所述目标动作的奖励值，并基于学习率参数、折扣因子及所述奖励值对Q表进行更新；

基于学习速率及更新后的Q表，对当前策略进行更新，并基于更新的当前策略及当前状态出现的次数对平均策略进行更新；

更新当前的迭代次数，判断当前的迭代次数是否大于所述最大迭代次数，若是，则将更新后的当前策略作为最终策略；若否，则将下一时隙的状态作为当前状态，并利用更新后的Q表、当前策略及平均策略继续执行所述根据当前策略和当前状态确定目标动作的操作。

其中，所述学习速率确定方法包括：

判断当前策略平均奖励值是否大于平均策略平均奖励值；

若是，则判定学习速率为第一学习速率值；否则，判定学习速率为第二学习速率值；其中，所述第一学习速率值小于所述第二学习速率值。

为实现上述目的，本发明进一步提供一种基于快速强化学习的干扰规避装置，包括：

模型建立模块，用于建立马尔科夫模型，所述马尔科夫模型包括状态、动作和奖励值，所述状态表示：当前时隙的通信信道及干扰信道，所述动作表示：与当前时隙相邻的下一时隙的通信信道及发射功率，所述奖励值表示：在所述状态下执行所述动作的奖励值；

策略获取模块，用于在无线通信环境中，基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，所述最终策略表示在不同状态下选取不同动作的概率值，以根据所述最终策略进行通信干扰规避。

其中，本装置还包括：

初始化模块，用于对学习参数进行初始化，所述学习参数包括：折扣因子、学习率参数、学习速率、Q表、当前状态、当前策略、最大迭代次数；所述Q表表示在每一时隙的状态下，采取动作后所得到的累积奖励值。

其中，所述策略获取模块包括：

动作确定单元，用于根据当前策略和当前状态确定目标动作；

状态确定单元，用于基于所述目标动作及下一时隙的干扰信道确定下一时隙的状态；

Q表更新单元，用于计算在当前状态下执行所述目标动作的奖励值，并基于学习率参数、折扣因子及所述奖励值对Q表进行更新；

策略更新单元，用于基于学习速率及更新后的Q表，对当前策略进行更新，并基于更新的当前策略及当前状态出现的次数对平均策略进行更新；

迭代次数更新单元，用于更新当前的迭代次数；

判断单元，用于判断当前的迭代次数是否大于所述最大迭代次数，若是，则将更新后的当前策略作为最终策略；若否，则将下一时隙的状态作为当前状态，并利用更新后的Q表、当前策略及平均策略，继续触发所述动作确定单元根据当前策略和当前状态确定目标动作的操作。

其中，所述策略更新单元包括：

学习速率确定子单元，用于判断当前策略平均奖励值是否大于平均策略平均奖励值；若是，则判定学习速率为第一学习速率值；否则，判定学习速率为第二学习速率值；其中，所述第一学习速率值小于所述第二学习速率值。

为实现上述目的，本发明进一步提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述基于快速强化学习的干扰规避方法的步骤。

为实现上述目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于快速强化学习的干扰规避方法的步骤。

通过以上方案可知，本发明实施例提供的一种基于快速强化学习的干扰规避方法，包括：建立马尔科夫模型，该马尔科夫模型包括状态、动作和奖励值，所述状态表示：当前时隙的通信信道及干扰信道，所述动作表示：与当前时隙相邻的下一时隙的通信信道及发射功率，所述奖励值表示：在所述状态下执行所述动作的奖励值；在无线通信环境中，基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，所述最终策略表示在不同状态下选取不同动作的概率值，以根据所述最终策略进行通信干扰规避。

可见，本方案通过WoLF-PHC学习算法进行通信干扰规避时，采用可变的学习速率以提高学习算法的学习速率，并基于WoLF准则保证算法的收敛性，因此，本方案可在未知且动态变化的通信干扰环境中，能够迅速收敛且获得良好的抗干扰性能，提高了无线通信链路的鲁棒性和可靠性，进一步提高整个无线通信系统的可靠性和高效性。本发明还公开了一种基于快速强化学习的干扰规避装置、设备及介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例公开的扫频干扰示意图；

图1b为本发明实施例公开的贪婪随机策略干扰示意图；

图1c为本发明实施例公开的跟随式干扰示意图；

图1d为本发明实施例公开的随机干扰示意图；

图2为本发明实施例公开的一种基于快速强化学习的干扰规避方法流程示意图；

图3为本发明实施例公开的一种基于WoLF-PHC学习算法的策略更新流程示意图；

图4a为本发明实施例公开的在扫频干扰场景下的不同干扰规避方法的性能对比示意图；

图4b为本发明实施例公开的在贪婪随机策略干扰场景下的不同干扰规避方法的性能对比示意图；

图4c为本发明实施例公开的在跟随式干扰场景下的不同干扰规避方法的性能对比示意图；

图4d为本发明实施例公开的在随机干扰场景下的不同干扰规避方法的性能对比示意图；

图5为本发明实施例公开的在频谱感知存在误差时的干扰规避性能曲线图；

图6为本发明实施例公开的一种基于快速强化学习的干扰规避装置结构示意图；

图7为本发明实施例公开的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于快速强化学习的干扰规避方法、装置、设备及介质，通过本方案，可以使发射机在未知且动态变化的通信干扰环境中衡量信道切换和发射功率的代价，选择最优策略来规避干扰，从而完成正常通信。

需要说明的是，本方案为了对干扰规避方法进行说明，具体通过结合实际无线通信环境，建立扫频干扰、随机干扰、跟随式干扰、贪婪随机策略干扰这四种典型干扰场景进行干扰规避，当然，本方案仅仅列举了这四种干扰场景，若将本方案应用在其他干扰场景中，其干扰规避过程也是相同的。在此，分别对这四种典型干扰场景进行说明：

1、扫频干扰：

假定扫频周期为T，每个时隙干扰m个信道，总信道数M为m的整数倍。干扰集合为P_J＝{p_j1,p_j2,p_j3,...,p_jW}，依次采用集合P_J中的干扰功率，W个时隙为一个功率周期。参见图1a，为本发明实施例公开的扫频干扰示意图；若扫频周期为T＝3，每个时刻干扰m＝2个信道，总信道数M＝6，是m的整数倍，依次采用集合P_J＝{2,4,6,8,10,12}*10^-3W中的干扰功率，6个时刻为一个功率周期，在第一个扫描周期先产生一个随机序列[2,5,1,3,4,6]，即第一个时隙干扰信道[f₂,f₅]，第二个时隙干扰信道[f₁,f₃]，第三个时隙干扰信道[f₄,f₆]。当一个扫频周期结束之后，继续重复上一个周期的干扰策略。

2、贪婪随机策略干扰：

在每个时隙中随机选择干扰信道，使用P₀＝1-ε的概率选择相同干扰信道，P₁＝ε的概率随机选择新信道。假设每个时隙生成一个(0,1)的随机数，如果这个随机数小于ε，则重新随机选择一个干扰信道，如果这个随机数大于ε，那么继续干扰原信道。参见图1b，为本发明实施例公开的贪婪随机策略干扰示意图，在本方案中，可设置ε为0.2，在第一个时隙，即初始时刻随机干扰一个信道，如图1b所示，干扰信道为f₃，之后每个时刻生成一个(0,1)的随机数，如果这个随机数小于P₁＝0.2，则重新随机选择一个干扰信道，如果这个随机数大于P₁＝0.2，那么继续干扰原信道。

3、跟随式干扰：

根据正在进行通信的信道选择干扰策略。即干扰直接跟随上一时隙通信所采用的信道，上一时隙通信采用哪个信道，当前时隙就干扰哪个信道。参见图1c，为本发明实施例公开的跟随式干扰示意图，具有横竖条纹的块代表通信方所选信道，不具有横竖条纹的块代表干扰，参见图1c，第一时刻采用f₁信道进行通信，在第二时刻就干扰f₁信道。

4、随机干扰：

每个时隙随机选择信道和干扰功率进行干扰，参见图1d，为本发明实施例公开的随机干扰示意图。

参见图2，本发明实施例提供的一种基于快速强化学习的干扰规避方法，包括：

S101、建立马尔科夫模型，该马尔科夫模型包括状态、动作和奖励值，状态表示：当前时隙的通信信道及干扰信道，动作表示：与当前时隙相邻的下一时隙的通信信道及发射功率，奖励值表示：在状态下执行动作的奖励值；

在本方案中，在进行干扰规避时，需要建立马尔科夫模型，采用状态S、动作A、转移概率p和奖励R这四个元素，并将其定义为一个四元组：

(S,A,p,R)；其中，状态空间S和动作空间A是离散的，由于本方案中下一状态由当前动作确定，所以状态转移概率为确定值，记为P:S×S×A→[0,1]，表示给定当前状态s^k∈S下选择动作a^k∈A转移到下一状态s^k+1∈S的概率，本方案在进行干扰规避时，不涉及转移概率；在本方案中，可假设共有M＝6个信道，信道集合为f＝{1,2,3,4,5,6}，发射功率集合长度L＝4，发射功率集合为P_U＝{7,14,21,28}*10^-3W。在此，分别对状态S、动作A和奖励R进行分别说明：

1、状态：定义第k个时隙的状态为

其中

M为总的信道数。前者表示当前时隙选择的通信信道，后者表示当前时隙干扰所占用的信道，状态空间记为S。

2、动作：定义在第k个时隙用户采取的动作为a^k＝(f_u ^k+1,p_u ^k+1)，其中f_u ^k+1∈{1,2，...,M}，p_u ^k+1∈P_U，P_U表示发射机可选的功率集合，共有L种选择。f_u ^k+1为第k+1个时隙用户选择的通信信道，p_u ^k+1为第k+1个时隙用户采用的发射功率，动作空间大小为M×L，记为A，如：若M＝6，L＝4，则动作空间大小为M×L＝6*4＝24。

3、奖励函数：定义为用户在s^k状态执行动作a^k时，获得的相应奖励值R^k。在此，首先定义第k个时隙的信干噪比SINR^k(SINR,signal to interference plus noise ratio)为：

其中，δ²表示噪声功率。

即：

为表示信道是否受到干扰的参数，若通信信道受到干扰，则

为1；否则为0。当SINR≥T_h时，表示正常通信；否则表示当前通信失败，其中，T_h表示根据实际应用所选择的最小SINR门限值，在本方案中可设置为6.3。设信道切换代价为C_h，该信道切换代价可设置为0.5，功率代价为

其中，C_P表示功率代价，可设置为0.5，p_max表示P_U集合中最大发射功率，奖励值R^k可定义为：

其中，

为判断是否进行信道切换的函数，

即前一时隙与后一时隙采用不同通信信道时进行了信道切换，将产生信道切换代价。

S102、在无线通信环境中，基于马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，最终策略表示在不同状态下选取不同动作的概率值，以根据最终策略进行通信干扰规避。

本方案为基于赢或学习快速策略爬山(WoLF-PHC,Win or Learn Fast PolicyHill-Climbing)学习方法的干扰规避方案。WoLF-PHC是将“赢或快学习”(WoLF,win orlearn fast)规则与“策略爬山法”(PHC,policy hill-climbing)相结合的一种学习算法，该算法采用可变的学习率使用户加快学习，并且根据WoLF准则保证了算法的收敛性，通过该方式，使得发射机能够在未知且动态变化的干扰环境中衡量信道切换和发射功率的代价，选择最优策略来规避干扰，从而完成正常通信。

其中，通过马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略时，首先需要对学习参数进行初始化，学习参数包括：折扣因子、学习率参数、学习速率、Q表、当前状态、当前策略、最大迭代次数；所述Q表表示在每一时隙的状态下，采取动作后所得到的累积奖励值。

具体来说，本方案在初始化强化学习的各项参数时，包括：可初始化折扣因子γ＝0.9、学习率参数α＝0.5，学习速率δ_l＝0.1、δ_w＝0.03；初始化Q表为全零矩阵；随机选取初始状态，该初始状态即为当前状态；初始化当前策略π(s,a)；初始化当前状态s出现的次数C(s)＝0，初始化最大迭代次数，即最大时隙数为K，在此可设定K＝10000；其中，Q表主要是状态和动作构成的二维矩阵，表示在某一时隙的s状态下(s∈S)，采取动作a(a∈A)后预计能够得到的累计奖励值。初始化Q表将二维矩阵每个元素都设置为零，初始化状态即在状态空间随机选取一个状态作为初始状态。当前策略π(s,a)表示在状态s执行动作a的概率，初始化

|A|表示动作空间的长度，即初始时刻在状态s选择每种动作的概率都相等。

需要说明的是，本方案在无线通信环境中，基于马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略的过程具体包括：

根据当前策略和当前状态确定目标动作；基于目标动作及下一时隙的干扰信道确定下一时隙的状态；计算在当前状态下执行目标动作的奖励值，并基于学习率参数、折扣因子及奖励值对Q表进行更新；基于学习速率及更新后的Q表，对当前策略进行更新，并基于更新的当前策略及当前状态出现的次数对平均策略进行更新；更新当前的迭代次数，判断当前的迭代次数是否大于最大迭代次数，若是，则将更新后的当前策略作为最终策略；若否，则将下一时隙的状态作为当前状态，并利用更新后的Q表、当前策略及平均策略继续执行根据当前策略和当前状态确定目标动作的操作。

参见图3，本发明实施例提供的一种基于WoLF-PHC学习算法的策略更新流程示意图，本方案与无线通信环境交互实现通信干扰规避的过程，具体包括如下步骤：

S201、初始化各项参数；其中，本方案需要初始化的参数包括：折扣因子、学习率参数、学习速率、Q表、当前状态、当前策略、最大迭代次数，以及当前状态出现的次数C(s)，其中，初始化后的C(s)＝0；

S202、判断当前最大迭代次数是否为K；若是，则执行S203，若否，则执行S204；

S203、将当前策略作为最终策略输出；

S204、根据当前策略π(s,a)和当前状态s选择动作a，其中，该动作a为用户根据当前策略和当前状态选择的动作；该动作包括用户选择的下一时隙的通信信道及发射功率；

S205、获取下一时隙的状态s并计算奖励值R，再更新Q表；其中，该下一时隙的状态中包括下一时隙的通信信道及干扰信道，其中下一时隙的通信信道已经通过S204中的动作a确定，干扰信道由感知的干扰信息决定；本方案可通过不断进行频谱感知获取干扰信息的干扰信道。

具体来说，在第k个时隙的状态s下采取动作a，更新Q表的规则为：

Q^k+1(s^k,a^k)＝(1-α)Q^k(s^k,a^k)+α(R^k+γmax_a'Q^k(s^k+1,a'))

其中，s^k和a^k分别表示当前的动作和状态，α∈(0,1]表示学习率，α越大表示学习速度越快，新的Q值越重要；α越小表示算法越稳定；γ∈(0,1]表示折扣因子，代表当前奖励值和未来奖励值的重要程度，γ越大未来奖励值越重要；R^k代表在s^k状态执行动作a^k时获得的当前奖励值。Q^k(s^k,a^k)为当前的Q值，Q^k+1(s^k,a^k)则表示更新后的Q值。max_a'Q^k(s^k+1,a')表示下一个状态所有Q值中的最大值。

S206、更新C(s)←C(s)+1，以及当前策略π(s,a)和平均策略

在本方案中，更新当前策略π(s,a)和平均策略

的规则为：

也即：在当前状态s下，如果选择最大Q值的动作，则当前策略增加一个值；而选择其他动作则减去一个值。其中有：

其中，a'表示当前状态s下Q值最大对应的动作集。Q(s,a')表示当前状态s下最大Q值；上述的δ表示学习速率，该学习速率为动态变化的，确定方法包括：判断当前策略平均奖励值是否大于平均策略平均奖励值；若是，则判定学习速率为第一学习速率值；否则，判定学习速率为第二学习速率值；其中，所述第一学习速率值小于所述第二学习速率值。

具体来说，将第一学习速率值表示为δ_w，第二学习速率值表示为δ_l，当前策略平均奖励值表示为

平均策略平均奖励值表示为

在比较当前策略平均奖励值

和平均策略平均奖励值

时，若前者大于后者，认为当前智能体是“赢”的，则采用小的学习速率δ_w缓慢学习；否则采用大的学习速率δ_l快速学习。而平均策略的更新规则为：

S207、更新迭代次数：k＝k+1，并继续执行S202。

如果当前迭代次数为最大迭代次数，则停止更新，并输出最终策略，以便根据当前状态和最终策略中记载的不同状态下选取不同动作的概率值来选择执行的动作，从而实现干扰规避。

参见图4，本发明实施例提供的本方案与Q学习、随机策略实施干扰规避在四种干扰场景模型下的性能对比图，其中，图4a为在扫频干扰场景下的不同干扰规避方法的性能对比示意图，图4b为在贪婪随机策略干扰场景下的不同干扰规避方法的性能对比示意图，图4c为在跟随式干扰场景下的不同干扰规避方法的性能对比示意图，图4d为在随机干扰场景下的不同干扰规避方法的性能对比示意图，通过图4a～图4d所示可以看出，本方案在实施干扰规避的性能最高。参见图5，为本发明实施例提供的本方案在频谱感知存在误差时的干扰规避性能曲线图；其中pr表示频谱感知存在误差的概率，pr越大表示频谱感知出现误差的概率越高，通过图5所示可以看出，本方案即使在频谱感知存在误差的情况下，也能够获取收敛的干扰规避性能。

综上可见，本发明公开了一种基于快速强化学习的通信干扰规避方法，本方案联合考虑通信信道接入和发射功率控制，将干扰规避问题建模为马尔科夫决策模型，确定状态、动作空间以及奖励函数，并在保证通信质量的前提下同时降低系统发射功率和减少信道切换次数，提出了一种赢或学习快速策略爬山WoLF-PHC学习方法的干扰规避方案，从而实现快速获取最优干扰规避策略的目的，使得本发明在未知且动态变化的干扰环境中，能够迅速收敛且获得良好的抗干扰性能。

下面对本发明实施例提供的干扰规避装置、设备及介质进行介绍，下文描述的干扰规避装置、设备及介质与上文描述的干扰规避方法可以相互参照。

参见图6，本发明实施例提供的一种基于快速强化学习的干扰规避装置结构示意图，包括：

模型建立模块100，用于建立马尔科夫模型，所述马尔科夫模型包括状态、动作和奖励值，所述状态表示：当前时隙的通信信道及干扰信道，所述动作表示：与当前时隙相邻的下一时隙的通信信道及发射功率，所述奖励值表示：在所述状态下执行所述动作的奖励值；

策略获取模块200，用于在无线通信环境中，基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，所述最终策略表示在不同状态下选取不同动作的概率值，以根据所述最终策略进行通信干扰规避。

其中，本装置还包括：

其中，所述策略获取模块包括：

迭代次数更新单元，用于更新当前的迭代次数；

其中，所述策略更新单元包括：

参见图7，本发明实施例还公开了一种电子设备结构示意图，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意方法实施例所述的基于快速强化学习的干扰规避方法的步骤。

在本实施例中，设备可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。

该设备可以包括存储器11、处理器12和总线13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元，例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据，例如执行干扰规避方法的程序代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行干扰规避方法的程序代码等。

该总线13可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该设备与其他电子设备之间建立通信连接。

可选地，该设备还可以包括用户接口15，用户接口15可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口15还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备中处理的信息以及用于显示可视化的用户界面。

图7仅示出了具有组件11-15的设备，本领域技术人员可以理解的是，图7示出的结构并不构成对设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例所述的基于快速强化学习的干扰规避方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于快速强化学习的干扰规避方法，其特征在于，包括：

2.根据权利要求1所述的干扰规避方法，其特征在于，所述基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新之前，还包括：

3.根据权利要求2所述的干扰规避方法，其特征在于，所述在无线通信环境中，基于所述马尔科夫模型及WoLF-PHC学习算法进行策略更新，得到最终策略，包括：

根据当前策略和当前状态确定目标动作；

4.根据权利要求3所述的干扰规避方法，其特征在于，所述学习速率确定方法包括：

判断当前策略平均奖励值是否大于平均策略平均奖励值；

5.一种基于快速强化学习的干扰规避装置，其特征在于，包括：

6.根据权利要求5所述的干扰规避装置，其特征在于，还包括：

7.根据权利要求6所述的干扰规避装置，其特征在于，所述策略获取模块包括：

迭代次数更新单元，用于更新当前的迭代次数；

8.根据权利要求7所述的干扰规避装置，其特征在于，所述策略更新单元包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的基于快速强化学习的干扰规避方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于快速强化学习的干扰规避方法的步骤。