CN117500015A

CN117500015A - 一种基于q学习的无线自组网抗干扰路由智能决策方法

Info

Publication number: CN117500015A
Application number: CN202311447220.4A
Authority: CN
Inventors: 牛英滔; 韩晨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-02-02

Abstract

本发明涉及通信抗干扰技术领域，具体公开了一种基于Q学习的无线自组网抗干扰路由智能决策方法，包括：基于马尔科夫决策过程表征位置可移动恶意干扰下的最优路由选择过程，分别定义无线自组网的状态空间、动作空间以及奖励函数；构建无线自组网中当前通信节点的Q表、V表以及UCB表并进行初始化，并基于Q学习算法进行路由选择；判断路由选择后的通讯节点是否为目的节点；基于判断结果对Q表、V表、权值函数以及UCB表进行迭代，直至达到最大迭代次数。本发明实现了无线自组网快速抗干扰路由寻径，避免了人为预设的探索参数对收敛速度的影响，降低了初始阶段单次随机动作的负面影响，使Q学习算法更容易跳出局部最优解。

Description

一种基于Q学习的无线自组网抗干扰路由智能决策方法

技术领域

本发明属于通信抗干扰技术领域，特别是涉及一种基于Q学习的无线自组网抗干扰路由智能决策方法。

背景技术

无线自组织网是一种重要的无线通信组网模式，广泛应用于各种场合。但随着各种无线设备的广泛运用，电磁环境日益复杂，恶意干扰层出不穷。扩展频谱技术、自适应干扰对消技术、自适应跳频技术、自适应陷波技术等常规抗干扰技术主要通过频域、时域、功率域或空域的信号处理方法来实现干扰环境下单个通信节点或单条通信链路的可靠通信。当多个通信节点组成无线自组网时，仅仅依靠单通信节点或单条通信链路的抗干扰技术已难以应对无线自组网中节点之间可靠有效传输信息的需求。另一方面，无干扰条件下无线自组网选择传输时间最短的路由(以下简称“最短路由”)的方法已经相当成熟和有效，如经典的Yen’s算法等。但干扰环境下尤其是位置可移动的恶意干扰下无线自组网的最短路由选择方法还较少见。

发明内容

本发明的目的是提供一种基于Q学习的无线自组网抗干扰路由智能决策方法，能够在位置可移动恶意干扰下的无线自组网中选择最短路由，实现可靠通信，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于Q学习的无线自组网抗干扰路由智能决策方法，包括以下步骤：

S1.基于马尔科夫决策过程表征位置可移动恶意干扰下的最优路由选择过程，并分别定义无线自组网的状态空间、动作空间以及奖励函数；

S2.基于所述状态空间、动作空间、奖励函数分别构建无线自组网中当前通信节点的Q表、V表以及UCB表；

S3.对Q表、V表以及UCB表进行初始化，并基于Q学习算法进行路由选择；

S4.判断路由选择后获取的通讯节点是否为目的节点；

S5.基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代，直至达到最大迭代次数；

S6.基于迭代结果进行无线自组网的数据传输。

可选地，基于Q学习算法进行路由选择的过程中，通信节点的Q表、V表以及UCB表随通讯节点的改变进行更新。

可选地，所述步骤S5中，基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代的过程包括：

若路由选择后获取的通讯节点是目的节点，则增加迭代周期，并重新执行步骤S1；

若路由选择后获取的通讯节点不是目的节点，则对Q表、V表、权值函数以及UCB表进行更新，使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作，并重新进行路由选择，若达到目的节点，则增加迭代周期，并重新执行步骤S1，若未达到目的节点，则重新进行路由选择，直至达到目的节点。

可选地，所述Q表的更新过程包括：

基于Discounted UCB1-tuned算法消除初始值的影响，并按下式进行Q表的更新：

其中，Q_k+1(s_k,a_k)是在状态s_k下采取动作a_k后通信节点n_k+1的Q值；是归一化的即时回报，/>Q_k(s_k,a_k)表示在状态s_k下采取动作a_k后通信节点n_k的Q值，/>表示在状态s_k+1时，采取任意动作a_k+1后所能得到的最大Q值，r_k表示通信节点n_k在状态s_k执行动作a_k时得到的即时回报，α是学习率，γ是折扣因子。

可选地，所述V表的更新过程包括：

其中，V(s_k,a_k)是当前通信节点n_k在状态s_k下执行动作a_k的加权奖励方差，N(s_k,a_k)是当前通信节点n_k在状态s_k下执行动作a_k的次数，β是阻尼因子，C′是决定探索趋势的常数。

可选地，所述权值函数的更新过程包括：

记录当前通信节点在某环境状态下执行所有动作的次数，若次数为0，则使次数加一进行更新，若次数不为0，则根据下式进行更新：

其中，C(s_k,a_k)为权值函数，N(s_k,a_k)是当前通信节点n_k在状态s_k下执行动作a_k的次数，是当前通信节点n_k在状态s_k下执行动作/>的次数，V(s_k,a_k)是当前通信节点n_k在状态s_k下执行动作a_k的加权奖励方差，C′是决定探索趋势的常数，K₂表示在状态s_k下所有可选择的动作/>的数量。

可选地，所述UCB表的更新过程包括：

其中，UCB(s_k,a_k)表示当前通信节点n_k在状态s_k下执行动作a_k对应的UCB值，N(s_k,a_k)是当前通信节点n_k在状态s_k下执行动作a_k的次数，是当前通信节点n_k在状态s_k下执行动作/>的次数，C(s_k,a_k)为权值函数，式中K₂表示在状态s_k下所有可选择的动作数量。

可选地，使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作的过程包括：

基于更新后的UCB表选择最大UCB值对应的动作，如下式：

其中，表示在动作空间A内取最大UCB值对应的动作a，a_k+1表示通信节点n_k+1执行的动作。

本发明的技术效果为：

本发明在可移动恶意干扰机威胁下的多跳无线自组网中，通过采用基于改进UCB策略的Q学习算法，实现了无线自组网快速抗干扰路由寻径，有利于无线自组网可靠通信，具有收敛速度快、不易陷入局部最优解的优点；其中，针对强化学习面临的探索与利用窘境，采用UCB算法进行动作选择，避免了人为预设的探索参数对收敛速度的影响,即动作的选择概率是由动作奖励及动作被选择次数共同决定的，降低了初始阶段单次随机动作带来的负面影响，使得Q学习算法更容易跳出局部最优解。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中基于Q学习的无线自组网抗干扰路由智能决策方法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

本发明实施例中提供一种基于Q学习的无线自组网抗干扰路由智能决策方法。本发明可用于恶劣干扰环境下的无线自组网可靠通信，具有收敛速度快、不易陷入局部最优解的优点。

首先做出以下假设：

1、M个无线通信节点组成了一个多跳无线自组网，节点集合表示为N＝{n₁,n₂,…,n_M}，其中n₁为源节点，n_M为目的节点。每个通信节点有L个可能的发射功率，表示为L＝{p₁,p₂,...,p_L}，各通信节点可同时与共同相邻的一个节点建立通信，源节点向目的节点的数据传输需要经过网络多跳转发完成，且转发路由不唯一。

2、无线通信节点选择相邻节点传输数据包，每个数据包传输完毕后，若收到ACK确认，则认为传输成功，否则，认为该数据包因受干扰而传输失败，无线通信节点重新选择其它相邻节点进行重传。

3、无线自组网的信息传输受到一个位置随时间动态变化的干扰机威胁，干扰机能发送与通信信号频率、时间完全对齐的精准干扰。假设干扰机的发射功率为P_J，其有效干扰范围能覆盖周围的部分通信节点。各通信节点不具备关于干扰机位置和有效干扰范围的先验信息。

本发明的目的是存在动态未知干扰的条件下，在无线自组网中提供一种能够可靠有效通信的方法。如图1所示，本发明的具体实施方案提供的基于Q学习的无线自组网抗干扰路由智能决策方法的步骤如下：

1、干扰环境下的最优路由选择问题建模为马尔可夫决策过程，并初始化参数。具体包括以下步骤：

步骤1.1，对本发明中使用的环境状态空间、动作空间、状态转移概率及奖励函数等概念定义如下：

定义1：环境状态空间

数据传输的状态，是由数据包当前所处节点的位置和该节点的传输功率决定，故定义状态空间为：

S＝{(n_k,p_k,l):k∈{1,2,…,M}；l∈{1,2,…,L}} (1)

其中p_k,l表示当前节点通信n_k的传输功率。环境状态空间共有K₁＝M×L个状态。

定义2：动作空间

定义第k个通信节点n_k的相邻节点集合为：

其中，d_km是节点n_k与节点n_m的距离，d_th是对相邻节点的最大距离约束。

在当前通信节点传输即将结束时，该节点会从相邻节点中选择下一跳的通信节点。因此通信节点n_k的动作a_k为选择转发的中继通信节点和发射功率，即a_k＝(n_m,p_k,l)，其中n_m∈A^k,l∈{1,2,L,L}。动作空间A为所有可能采取的动作，即所有邻节点和可能的发射功率组合，因此当前通信节点n_k的动作空间A定义为：

设A^k中邻居节点的个数为Z，则动作空间A的动作数为K₂＝Z×L。

定义3：奖励函数

第k个通信节点n_k在状态s_k执行动作a_k时，会得到相应的奖励值r_k，定义单跳即时回报r_k(s_k,a_k,s_k+1)为：

其中C是干扰导致的回报，n_j是受扰节点，n_N是目的节点。

定义R为该条路由得到的累积回报为：

其中K为该路由的最大跳数，γ∈(0,1]为折扣因子，表示未来时刻相比于当前时刻的重要性。因此，γ值越接近1，表明更关注当前时刻的决策，同时也可以兼顾整条路由的总回报。在探索初期，强化学习算法并不能保证每次探索都能达到目标节点。为了加快智能体探索到目标节点，为到达目标节点赋予额外回报Γ：

定义第k跳的通信节点n_k的Q函数为：

步骤1.2对相关参数进行初始化。

建立当前通信节点Q表，则第k跳的通信节点的Q表形式如表1所示。

表1第k跳的通信节点的Q表

表1中，为当前通信节点可能采取的所有行动，共有K₂＝Z×L个可能的动作，故该表共有K₂列(不含表头)；/>为所有可能的环境状态，共有K₁＝M×L个可能的环境状态，故该表共有K₁行(不含表头)。表1的某一行代表某一状态对应的所有Q值，表中的某一列代表某一动作对应的所有Q值。算法开始时，将该表内所有Q值都初始化为0，即Q_k(s₁,a₁)＝0，其中s₁∈S，a₁∈a，表示在k＝0跳时初始状态s₁和初始动作a₁下，第k个通信节点初始Q表中所有Q函数值均为0。通信节点改变一次，Q表更新一次。

建立当前通信节点奖励方差V表，则第k跳的通信节点的V表形式如表2所示。

表2第k跳的通信节点的V表

表2的某一行代表某一状态对应的所有奖励方差V值，表中的某一列代表某一动作对应的所有奖励方差值。算法开始时，将该表内所有的奖励方差值都初始化为0，即V_k(s₁,a₁)＝0，其中s₁∈S，a₁∈a，表示在k＝0跳时初始状态s₁和初始动作a₁下，第k个通信节点初始V表中所有V函数值均为0。通信节点改变一次，V表更新一次。

建立当前通信节点的UCB表，则第k跳的通信节点的UCB表形式如表3所示。

表3第k跳的通信节点的UCB表

表3的某一行代表某一状态对应的所有奖励方差UCB值，表中的某一列代表某一动作对应的所有UCB值。算法开始时，将该表内所有UCB值都初始化为0，即UCB_k(s₁,a₁)＝0，其中s₁∈S，a₁∈a，表示在k＝0跳时初始状态s₁和初始动作a₁下，第k个通信节点初始UCB表中所有UCB函数值均为0。通信节点改变一次，UCB表更新一次。

对于设置N(s,a)记录遍历状态-动作对(s,a)的次数，算法未执行前N(s,a)＝0。设置参数α，γ。算法开始时，当前通信节点为源节点n₁，数据传输的初始状态s₁＝(n₁,p_1,1)。在初始探索阶段，多个动作的奖励值相同，又都没有被执行过，此时从邻居节点中随机选择一个，作为下一跳的通信节点。若下一跳的通信节点不是受扰节点，则以最小的功率进行数据传输。若下一跳的通信节点是受扰节点，则先切换功率档，如果增加功率也不能进行数据传输，则重新从当前通信节点的邻居集合中重新选择下一跳的通信节点。

2、在第k次路由选择后，判断选择后的通信节点是否是目的节点n_M。若没有达到目的节点，继续进行步骤3，否则，则跳到步骤8。

3、当前通信节点更新Q表，具体包括以下步骤：

为近一步消除初始值的影响，Discounted UCB1-tuned算法的学习率定义为：

其中β是阻尼因子，N(s_k,a_k)是通信路由在状态s_k执行动作a_k的次数。然后按式(7)更新Q表。注意，更新Q表中的Q值需要状态s_k、动作a_k、奖励r_k和下一状态s_k+1。因此在数据传输的过程中，当前通信节点只有在第k次传输成功，收到返回的ACK时，才更新状态-动作对(s_k,a_k)的Q值。

4、当前通信节点更新加权奖励方差表，具体包括以下步骤：

在状态s_k下执行动作a_k的加权奖励方差按照式(9)更新：

5、记录遍历状态-动作对的次数，当前通信节点更新权值函数，具体包括以下步骤：

步骤5.1，记录当前通信节n_k在状态s_k，执行所有动作的次数。若在状态s_k执行动作a_k的次数N(s_k,a_k)为0，则根据式(10)更新：

N(s_k,a_k)＝N(s_k,a_k)+1 (10)

这是因为N(s_k,a_k)也用来计算UCB值。

步骤5.2，根据式(11)更新权值函数：

6、当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作a_k，具体包括以下步骤：

步骤6.1，UCB算法可使用给定状态下不同动作的UCB值来权衡探索与利用，其UCB值的更新如式(12)：

其中，UCB(s_k,a_k)表示当前通信节点n_k在状态s_k下执行动作a_k对应的UCB值，N(s_k,a_k)是当前通信节点n_k在状态s_k下执行动作a_k的次数，式中K₂表示在状态s_k下所有可选择的动作的数量。

而Discounted UCB1-tuned算法在UCB算法的基础上考虑了奖励方差和初始值对算法性能的影响，其UCB值的更新如公式(13)：

步骤6.2，选择最大UCB值对应的动作a_k：

其中，表示在动作空间A内取最大UCB值对应的动作a，a_k+1表示通信节点n_k+1执行的动作。注意，在初始探索阶段，多个动作的奖励相同，又都没有被执行过，此时是随机选择动作。

7、令k＝k+1，若未到达目的节点，转到步骤2；若到达目的节点，则转到步骤8。

8、令周期e＝e+1，并转到步骤1，直到达到最大迭代次数。

本发明中未作详细描述的内容，如宽带频谱感知算法、按概率选择动作等，属于本领域专业技术人员公知的现有技术。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一所述的基于Q学习的无线自组网抗干扰路由智能决策方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，包括以下步骤：

S4.判断路由选择后获取的通讯节点是否为目的节点；

S6.基于迭代结果进行无线自组网的数据传输。

2.根据权利要求1所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，基于Q学习算法进行路由选择的过程中，通信节点的Q表、V表以及UCB表随通讯节点的改变进行更新。

3.根据权利要求1所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，所述步骤S5中，基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代的过程包括：

4.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，所述Q表的更新过程包括：

其中，Q_k+1(s_k,a_k)是在状态s_k下采取动作a_k后通信节点n_k+1的Q值；是归一化的即时回报，/>Q_k(s_k,a_k)表示在状态s_k下采取动作a_k后通信节点n_k的Q值，表示在状态s_k+1时，采取任意动作a_k+1后所能得到的最大Q值，r_k表示通信节点n_k在状态s_k执行动作a_k时得到的即时回报，α是学习率，γ是折扣因子。

5.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，所述V表的更新过程包括：

6.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，所述权值函数的更新过程包括：

7.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，所述UCB表的更新过程包括：

8.根据权利要求7所述的基于Q学习的无线自组网抗干扰路由智能决策方法，其特征在于，使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作的过程包括：

基于更新后的UCB表选择最大UCB值对应的动作，如下式：