CN117500015A - 一种基于q学习的无线自组网抗干扰路由智能决策方法 - Google Patents
一种基于q学习的无线自组网抗干扰路由智能决策方法 Download PDFInfo
- Publication number
- CN117500015A CN117500015A CN202311447220.4A CN202311447220A CN117500015A CN 117500015 A CN117500015 A CN 117500015A CN 202311447220 A CN202311447220 A CN 202311447220A CN 117500015 A CN117500015 A CN 117500015A
- Authority
- CN
- China
- Prior art keywords
- communication node
- action
- state
- wireless
- hoc network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004891 communication Methods 0.000 claims abstract description 123
- 230000009471 action Effects 0.000 claims abstract description 97
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000013016 damping Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 6
- 235000008694 Humulus lupulus Nutrition 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000364483 Lipeurus epsilon Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/12—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
- H04W40/16—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality based on interference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/18—Service support devices; Network management devices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及通信抗干扰技术领域,具体公开了一种基于Q学习的无线自组网抗干扰路由智能决策方法,包括:基于马尔科夫决策过程表征位置可移动恶意干扰下的最优路由选择过程,分别定义无线自组网的状态空间、动作空间以及奖励函数;构建无线自组网中当前通信节点的Q表、V表以及UCB表并进行初始化,并基于Q学习算法进行路由选择;判断路由选择后的通讯节点是否为目的节点;基于判断结果对Q表、V表、权值函数以及UCB表进行迭代,直至达到最大迭代次数。本发明实现了无线自组网快速抗干扰路由寻径,避免了人为预设的探索参数对收敛速度的影响,降低了初始阶段单次随机动作的负面影响,使Q学习算法更容易跳出局部最优解。
Description
技术领域
本发明属于通信抗干扰技术领域,特别是涉及一种基于Q学习的无线自组网抗干扰路由智能决策方法。
背景技术
无线自组织网是一种重要的无线通信组网模式,广泛应用于各种场合。但随着各种无线设备的广泛运用,电磁环境日益复杂,恶意干扰层出不穷。扩展频谱技术、自适应干扰对消技术、自适应跳频技术、自适应陷波技术等常规抗干扰技术主要通过频域、时域、功率域或空域的信号处理方法来实现干扰环境下单个通信节点或单条通信链路的可靠通信。当多个通信节点组成无线自组网时,仅仅依靠单通信节点或单条通信链路的抗干扰技术已难以应对无线自组网中节点之间可靠有效传输信息的需求。另一方面,无干扰条件下无线自组网选择传输时间最短的路由(以下简称“最短路由”)的方法已经相当成熟和有效,如经典的Yen’s算法等。但干扰环境下尤其是位置可移动的恶意干扰下无线自组网的最短路由选择方法还较少见。
发明内容
本发明的目的是提供一种基于Q学习的无线自组网抗干扰路由智能决策方法,能够在位置可移动恶意干扰下的无线自组网中选择最短路由,实现可靠通信,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于Q学习的无线自组网抗干扰路由智能决策方法,包括以下步骤:
S1.基于马尔科夫决策过程表征位置可移动恶意干扰下的最优路由选择过程,并分别定义无线自组网的状态空间、动作空间以及奖励函数;
S2.基于所述状态空间、动作空间、奖励函数分别构建无线自组网中当前通信节点的Q表、V表以及UCB表;
S3.对Q表、V表以及UCB表进行初始化,并基于Q学习算法进行路由选择;
S4.判断路由选择后获取的通讯节点是否为目的节点;
S5.基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代,直至达到最大迭代次数;
S6.基于迭代结果进行无线自组网的数据传输。
可选地,基于Q学习算法进行路由选择的过程中,通信节点的Q表、V表以及UCB表随通讯节点的改变进行更新。
可选地,所述步骤S5中,基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代的过程包括:
若路由选择后获取的通讯节点是目的节点,则增加迭代周期,并重新执行步骤S1;
若路由选择后获取的通讯节点不是目的节点,则对Q表、V表、权值函数以及UCB表进行更新,使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作,并重新进行路由选择,若达到目的节点,则增加迭代周期,并重新执行步骤S1,若未达到目的节点,则重新进行路由选择,直至达到目的节点。
可选地,所述Q表的更新过程包括:
基于Discounted UCB1-tuned算法消除初始值的影响,并按下式进行Q表的更新:
其中,Qk+1(sk,ak)是在状态sk下采取动作ak后通信节点nk+1的Q值;是归一化的即时回报,/>Qk(sk,ak)表示在状态sk下采取动作ak后通信节点nk的Q值,/>表示在状态sk+1时,采取任意动作ak+1后所能得到的最大Q值,rk表示通信节点nk在状态sk执行动作ak时得到的即时回报,α是学习率,γ是折扣因子。
可选地,所述V表的更新过程包括:
其中,V(sk,ak)是当前通信节点nk在状态sk下执行动作ak的加权奖励方差,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,β是阻尼因子,C′是决定探索趋势的常数。
可选地,所述权值函数的更新过程包括:
记录当前通信节点在某环境状态下执行所有动作的次数,若次数为0,则使次数加一进行更新,若次数不为0,则根据下式进行更新:
其中,C(sk,ak)为权值函数,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,是当前通信节点nk在状态sk下执行动作/>的次数,V(sk,ak)是当前通信节点nk在状态sk下执行动作ak的加权奖励方差,C′是决定探索趋势的常数,K2表示在状态sk下所有可选择的动作/>的数量。
可选地,所述UCB表的更新过程包括:
其中,UCB(sk,ak)表示当前通信节点nk在状态sk下执行动作ak对应的UCB值,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,是当前通信节点nk在状态sk下执行动作/>的次数,C(sk,ak)为权值函数,式中K2表示在状态sk下所有可选择的动作数量。
可选地,使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作的过程包括:
基于更新后的UCB表选择最大UCB值对应的动作,如下式:
其中,表示在动作空间A内取最大UCB值对应的动作a,ak+1表示通信节点nk+1执行的动作。
本发明的技术效果为:
本发明在可移动恶意干扰机威胁下的多跳无线自组网中,通过采用基于改进UCB策略的Q学习算法,实现了无线自组网快速抗干扰路由寻径,有利于无线自组网可靠通信,具有收敛速度快、不易陷入局部最优解的优点;其中,针对强化学习面临的探索与利用窘境,采用UCB算法进行动作选择,避免了人为预设的探索参数对收敛速度的影响,即动作的选择概率是由动作奖励及动作被选择次数共同决定的,降低了初始阶段单次随机动作带来的负面影响,使得Q学习算法更容易跳出局部最优解。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中基于Q学习的无线自组网抗干扰路由智能决策方法流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
本发明实施例中提供一种基于Q学习的无线自组网抗干扰路由智能决策方法。本发明可用于恶劣干扰环境下的无线自组网可靠通信,具有收敛速度快、不易陷入局部最优解的优点。
首先做出以下假设:
1、M个无线通信节点组成了一个多跳无线自组网,节点集合表示为N={n1,n2,…,nM},其中n1为源节点,nM为目的节点。每个通信节点有L个可能的发射功率,表示为L={p1,p2,...,pL},各通信节点可同时与共同相邻的一个节点建立通信,源节点向目的节点的数据传输需要经过网络多跳转发完成,且转发路由不唯一。
2、无线通信节点选择相邻节点传输数据包,每个数据包传输完毕后,若收到ACK确认,则认为传输成功,否则,认为该数据包因受干扰而传输失败,无线通信节点重新选择其它相邻节点进行重传。
3、无线自组网的信息传输受到一个位置随时间动态变化的干扰机威胁,干扰机能发送与通信信号频率、时间完全对齐的精准干扰。假设干扰机的发射功率为PJ,其有效干扰范围能覆盖周围的部分通信节点。各通信节点不具备关于干扰机位置和有效干扰范围的先验信息。
本发明的目的是存在动态未知干扰的条件下,在无线自组网中提供一种能够可靠有效通信的方法。如图1所示,本发明的具体实施方案提供的基于Q学习的无线自组网抗干扰路由智能决策方法的步骤如下:
1、干扰环境下的最优路由选择问题建模为马尔可夫决策过程,并初始化参数。具体包括以下步骤:
步骤1.1,对本发明中使用的环境状态空间、动作空间、状态转移概率及奖励函数等概念定义如下:
定义1:环境状态空间
数据传输的状态,是由数据包当前所处节点的位置和该节点的传输功率决定,故定义状态空间为:
S={(nk,pk,l):k∈{1,2,…,M};l∈{1,2,…,L}} (1)
其中pk,l表示当前节点通信nk的传输功率。环境状态空间共有K1=M×L个状态。
定义2:动作空间
定义第k个通信节点nk的相邻节点集合为:
其中,dkm是节点nk与节点nm的距离,dth是对相邻节点的最大距离约束。
在当前通信节点传输即将结束时,该节点会从相邻节点中选择下一跳的通信节点。因此通信节点nk的动作ak为选择转发的中继通信节点和发射功率,即ak=(nm,pk,l),其中nm∈Ak,l∈{1,2,L,L}。动作空间A为所有可能采取的动作,即所有邻节点和可能的发射功率组合,因此当前通信节点nk的动作空间A定义为:
设Ak中邻居节点的个数为Z,则动作空间A的动作数为K2=Z×L。
定义3:奖励函数
第k个通信节点nk在状态sk执行动作ak时,会得到相应的奖励值rk,定义单跳即时回报rk(sk,ak,sk+1)为:
其中C是干扰导致的回报,nj是受扰节点,nN是目的节点。
定义R为该条路由得到的累积回报为:
其中K为该路由的最大跳数,γ∈(0,1]为折扣因子,表示未来时刻相比于当前时刻的重要性。因此,γ值越接近1,表明更关注当前时刻的决策,同时也可以兼顾整条路由的总回报。在探索初期,强化学习算法并不能保证每次探索都能达到目标节点。为了加快智能体探索到目标节点,为到达目标节点赋予额外回报Γ:
定义第k跳的通信节点nk的Q函数为:
其中,Qk+1(sk,ak)是在状态sk下采取动作ak后通信节点nk+1的Q值;是归一化的即时回报,/>Qk(sk,ak)表示在状态sk下采取动作ak后通信节点nk的Q值,/>表示在状态sk+1时,采取任意动作ak+1后所能得到的最大Q值,rk表示通信节点nk在状态sk执行动作ak时得到的即时回报,α是学习率,γ是折扣因子。
步骤1.2对相关参数进行初始化。
建立当前通信节点Q表,则第k跳的通信节点的Q表形式如表1所示。
表1第k跳的通信节点的Q表
表1中,为当前通信节点可能采取的所有行动,共有K2=Z×L个可能的动作,故该表共有K2列(不含表头);/>为所有可能的环境状态,共有K1=M×L个可能的环境状态,故该表共有K1行(不含表头)。表1的某一行代表某一状态对应的所有Q值,表中的某一列代表某一动作对应的所有Q值。算法开始时,将该表内所有Q值都初始化为0,即Qk(s1,a1)=0,其中s1∈S,a1∈a,表示在k=0跳时初始状态s1和初始动作a1下,第k个通信节点初始Q表中所有Q函数值均为0。通信节点改变一次,Q表更新一次。
建立当前通信节点奖励方差V表,则第k跳的通信节点的V表形式如表2所示。
表2第k跳的通信节点的V表
表2的某一行代表某一状态对应的所有奖励方差V值,表中的某一列代表某一动作对应的所有奖励方差值。算法开始时,将该表内所有的奖励方差值都初始化为0,即Vk(s1,a1)=0,其中s1∈S,a1∈a,表示在k=0跳时初始状态s1和初始动作a1下,第k个通信节点初始V表中所有V函数值均为0。通信节点改变一次,V表更新一次。
建立当前通信节点的UCB表,则第k跳的通信节点的UCB表形式如表3所示。
表3第k跳的通信节点的UCB表
表3的某一行代表某一状态对应的所有奖励方差UCB值,表中的某一列代表某一动作对应的所有UCB值。算法开始时,将该表内所有UCB值都初始化为0,即UCBk(s1,a1)=0,其中s1∈S,a1∈a,表示在k=0跳时初始状态s1和初始动作a1下,第k个通信节点初始UCB表中所有UCB函数值均为0。通信节点改变一次,UCB表更新一次。
对于设置N(s,a)记录遍历状态-动作对(s,a)的次数,算法未执行前N(s,a)=0。设置参数α,γ。算法开始时,当前通信节点为源节点n1,数据传输的初始状态s1=(n1,p1,1)。在初始探索阶段,多个动作的奖励值相同,又都没有被执行过,此时从邻居节点中随机选择一个,作为下一跳的通信节点。若下一跳的通信节点不是受扰节点,则以最小的功率进行数据传输。若下一跳的通信节点是受扰节点,则先切换功率档,如果增加功率也不能进行数据传输,则重新从当前通信节点的邻居集合中重新选择下一跳的通信节点。
2、在第k次路由选择后,判断选择后的通信节点是否是目的节点nM。若没有达到目的节点,继续进行步骤3,否则,则跳到步骤8。
3、当前通信节点更新Q表,具体包括以下步骤:
为近一步消除初始值的影响,Discounted UCB1-tuned算法的学习率定义为:
其中β是阻尼因子,N(sk,ak)是通信路由在状态sk执行动作ak的次数。然后按式(7)更新Q表。注意,更新Q表中的Q值需要状态sk、动作ak、奖励rk和下一状态sk+1。因此在数据传输的过程中,当前通信节点只有在第k次传输成功,收到返回的ACK时,才更新状态-动作对(sk,ak)的Q值。
4、当前通信节点更新加权奖励方差表,具体包括以下步骤:
在状态sk下执行动作ak的加权奖励方差按照式(9)更新:
其中,V(sk,ak)是当前通信节点nk在状态sk下执行动作ak的加权奖励方差,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,β是阻尼因子,C′是决定探索趋势的常数。
5、记录遍历状态-动作对的次数,当前通信节点更新权值函数,具体包括以下步骤:
步骤5.1,记录当前通信节nk在状态sk,执行所有动作的次数。若在状态sk执行动作ak的次数N(sk,ak)为0,则根据式(10)更新:
N(sk,ak)=N(sk,ak)+1 (10)
这是因为N(sk,ak)也用来计算UCB值。
步骤5.2,根据式(11)更新权值函数:
其中,C(sk,ak)为权值函数,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,是当前通信节点nk在状态sk下执行动作/>的次数,V(sk,ak)是当前通信节点nk在状态sk下执行动作ak的加权奖励方差,C′是决定探索趋势的常数,K2表示在状态sk下所有可选择的动作/>的数量。
6、当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作ak,具体包括以下步骤:
步骤6.1,UCB算法可使用给定状态下不同动作的UCB值来权衡探索与利用,其UCB值的更新如式(12):
其中,UCB(sk,ak)表示当前通信节点nk在状态sk下执行动作ak对应的UCB值,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,式中K2表示在状态sk下所有可选择的动作的数量。
而Discounted UCB1-tuned算法在UCB算法的基础上考虑了奖励方差和初始值对算法性能的影响,其UCB值的更新如公式(13):
其中,UCB(sk,ak)表示当前通信节点nk在状态sk下执行动作ak对应的UCB值,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,是当前通信节点nk在状态sk下执行动作/>的次数,C(sk,ak)为权值函数,式中K2表示在状态sk下所有可选择的动作数量。
步骤6.2,选择最大UCB值对应的动作ak:
其中,表示在动作空间A内取最大UCB值对应的动作a,ak+1表示通信节点nk+1执行的动作。注意,在初始探索阶段,多个动作的奖励相同,又都没有被执行过,此时是随机选择动作。
7、令k=k+1,若未到达目的节点,转到步骤2;若到达目的节点,则转到步骤8。
8、令周期e=e+1,并转到步骤1,直到达到最大迭代次数。
本发明中未作详细描述的内容,如宽带频谱感知算法、按概率选择动作等,属于本领域专业技术人员公知的现有技术。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一所述的基于Q学习的无线自组网抗干扰路由智能决策方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,包括以下步骤:
S1.基于马尔科夫决策过程表征位置可移动恶意干扰下的最优路由选择过程,并分别定义无线自组网的状态空间、动作空间以及奖励函数;
S2.基于所述状态空间、动作空间、奖励函数分别构建无线自组网中当前通信节点的Q表、V表以及UCB表;
S3.对Q表、V表以及UCB表进行初始化,并基于Q学习算法进行路由选择;
S4.判断路由选择后获取的通讯节点是否为目的节点;
S5.基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代,直至达到最大迭代次数;
S6.基于迭代结果进行无线自组网的数据传输。
2.根据权利要求1所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,基于Q学习算法进行路由选择的过程中,通信节点的Q表、V表以及UCB表随通讯节点的改变进行更新。
3.根据权利要求1所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,所述步骤S5中,基于步骤S4的判断结果对通信节点的Q表、V表、权值函数以及UCB表进行迭代的过程包括:
若路由选择后获取的通讯节点是目的节点,则增加迭代周期,并重新执行步骤S1;
若路由选择后获取的通讯节点不是目的节点,则对Q表、V表、权值函数以及UCB表进行更新,使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作,并重新进行路由选择,若达到目的节点,则增加迭代周期,并重新执行步骤S1,若未达到目的节点,则重新进行路由选择,直至达到目的节点。
4.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,所述Q表的更新过程包括:
基于Discounted UCB1-tuned算法消除初始值的影响,并按下式进行Q表的更新:
其中,Qk+1(sk,ak)是在状态sk下采取动作ak后通信节点nk+1的Q值;是归一化的即时回报,/>Qk(sk,ak)表示在状态sk下采取动作ak后通信节点nk的Q值,表示在状态sk+1时,采取任意动作ak+1后所能得到的最大Q值,rk表示通信节点nk在状态sk执行动作ak时得到的即时回报,α是学习率,γ是折扣因子。
5.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,所述V表的更新过程包括:
其中,V(sk,ak)是当前通信节点nk在状态sk下执行动作ak的加权奖励方差,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,β是阻尼因子,C′是决定探索趋势的常数。
6.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,所述权值函数的更新过程包括:
记录当前通信节点在某环境状态下执行所有动作的次数,若次数为0,则使次数加一进行更新,若次数不为0,则根据下式进行更新:
其中,C(sk,ak)为权值函数,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,是当前通信节点nk在状态sk下执行动作/>的次数,V(sk,ak)是当前通信节点nk在状态sk下执行动作ak的加权奖励方差,C′是决定探索趋势的常数,K2表示在状态sk下所有可选择的动作/>的数量。
7.根据权利要求3所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,所述UCB表的更新过程包括:
其中,UCB(sk,ak)表示当前通信节点nk在状态sk下执行动作ak对应的UCB值,N(sk,ak)是当前通信节点nk在状态sk下执行动作ak的次数,是当前通信节点nk在状态sk下执行动作/>的次数,C(sk,ak)为权值函数,式中K2表示在状态sk下所有可选择的动作数量。
8.根据权利要求7所述的基于Q学习的无线自组网抗干扰路由智能决策方法,其特征在于,使当前通信节点基于Discounted UCB1-tuned算法选择下一跳的传输动作的过程包括:
基于更新后的UCB表选择最大UCB值对应的动作,如下式:
其中,表示在动作空间A内取最大UCB值对应的动作a,ak+1表示通信节点nk+1执行的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447220.4A CN117500015A (zh) | 2023-11-02 | 2023-11-02 | 一种基于q学习的无线自组网抗干扰路由智能决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447220.4A CN117500015A (zh) | 2023-11-02 | 2023-11-02 | 一种基于q学习的无线自组网抗干扰路由智能决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117500015A true CN117500015A (zh) | 2024-02-02 |
Family
ID=89672031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311447220.4A Pending CN117500015A (zh) | 2023-11-02 | 2023-11-02 | 一种基于q学习的无线自组网抗干扰路由智能决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117500015A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111342920A (zh) * | 2020-01-10 | 2020-06-26 | 重庆邮电大学 | 一种基于q学习的信道选择方法 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN113038567A (zh) * | 2021-01-20 | 2021-06-25 | 中国人民解放军陆军工程大学 | 多中继通信中的抗干扰模型及抗干扰方法 |
CN113747447A (zh) * | 2021-09-07 | 2021-12-03 | 中国人民解放军国防科技大学 | 基于先验知识的双动作强化学习频谱接入方法和系统 |
KR20230129838A (ko) * | 2022-03-02 | 2023-09-11 | 광운대학교 산학협력단 | 퍼지 q-러닝 기반 적응형 어드미턴스 제어 방법, 이를 수행하는 장치 및 컴퓨터 프로그램 |
-
2023
- 2023-11-02 CN CN202311447220.4A patent/CN117500015A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111342920A (zh) * | 2020-01-10 | 2020-06-26 | 重庆邮电大学 | 一种基于q学习的信道选择方法 |
CN113038567A (zh) * | 2021-01-20 | 2021-06-25 | 中国人民解放军陆军工程大学 | 多中继通信中的抗干扰模型及抗干扰方法 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN113747447A (zh) * | 2021-09-07 | 2021-12-03 | 中国人民解放军国防科技大学 | 基于先验知识的双动作强化学习频谱接入方法和系统 |
KR20230129838A (ko) * | 2022-03-02 | 2023-09-11 | 광운대학교 산학협력단 | 퍼지 q-러닝 기반 적응형 어드미턴스 제어 방법, 이를 수행하는 장치 및 컴퓨터 프로그램 |
Non-Patent Citations (1)
Title |
---|
丁慧慧: "基于机器学习的无线通信智能抗干扰方法研究", 南京信息工程大学硕士专业学位论文, 30 June 2023 (2023-06-30), pages 4 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Slimeni et al. | Jamming mitigation in cognitive radio networks using a modified Q-learning algorithm | |
Slimeni et al. | Cooperative Q-learning based channel selection for cognitive radio networks | |
Elwhishi et al. | ARBR: Adaptive reinforcement-based routing for DTN | |
Zhou et al. | Intelligent anti-jamming communication for wireless sensor networks: A multi-agent reinforcement learning approach | |
De Bast et al. | Deep reinforcement learning for dynamic network slicing in IEEE 802.11 networks | |
CN112188504A (zh) | 多用户协同抗干扰系统及动态频谱协同抗干扰方法 | |
Russell et al. | Integrating machine learning in ad hoc routing: A wireless adaptive routing protocol | |
Baccelli et al. | On the performance of time-space opportunistic routing in multihop mobile ad hoc networks | |
Lin et al. | A bat-inspired algorithm for router node placement with weighted clients in wireless mesh networks | |
Su et al. | Jamming-resilient dynamic spectrum access for cognitive radio networks | |
Ibrahim et al. | Anti-jamming game to combat intelligent jamming for cognitive radio networks | |
CN113923743B (zh) | 电力地下管廊的路由选择方法、装置、终端及存储介质 | |
Yu et al. | Carrier-sense multiple access for heterogeneous wireless networks using deep reinforcement learning | |
Anh et al. | A deep reinforcement learning approach for backscatter-assisted relay communications | |
El Khamlichi et al. | Adaptive directional neighbor discovery schemes in wireless networks | |
Huang et al. | Joint relay and channel selection in relay‐aided anti‐jamming system: A reinforcement learning approach | |
CN117500015A (zh) | 一种基于q学习的无线自组网抗干扰路由智能决策方法 | |
Makino et al. | Mobility control of avoiding interference for autonomous mobile robot ad hoc networks | |
Patel et al. | A cross-layer design and fuzzy logic based stability oriented routing protocol | |
CN113507738B (zh) | 一种移动自组网路由决策方法 | |
Song et al. | Deep Q-network based power allocation meets reservoir computing in distributed dynamic spectrum access networks | |
Simeone et al. | A game-theoretic view on the interference channel with random access | |
Barani et al. | Dynamic intrusion detection in AODV-based MANETs using memetic artificial bee colony algorithm | |
Genda | Topology control method adopting optimal topology with minimum cumulative energy consumption over update interval in MANETs | |
Ahila Devi et al. | WSO‐T2FSM: War strategy optimization‐based type‐2 fuzzy‐based starling murmuration for addressing the routing problem in mobile ad hoc network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |