CN111542097B - 一种基于Q-Learning的广播路由算法 - Google Patents
一种基于Q-Learning的广播路由算法 Download PDFInfo
- Publication number
- CN111542097B CN111542097B CN202010309146.XA CN202010309146A CN111542097B CN 111542097 B CN111542097 B CN 111542097B CN 202010309146 A CN202010309146 A CN 202010309146A CN 111542097 B CN111542097 B CN 111542097B
- Authority
- CN
- China
- Prior art keywords
- broadcast
- node
- action
- state
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/04—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
- H04W40/10—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/16—Multipoint routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明在传统洪泛广播算法的基础上提出了一种基于Q‑Learning的广播路由算法,当前节点在准备做出是否进行广播决策时,结合通过学习更新得到的Q值表去做出决策,新算法有效地避免了传统洪泛广播带来的广播冗余问题,从而节省了广播过程的总能耗。
Description
技术领域
本发明属于无线传感器网络领域、路由协议领域、广播路由领域,更具体地,涉及到一种应用Q-Learning设计的广播路由算法。
背景技术
传统的洪泛广播是无线传感器网络中常用的一种广播算法,其基本思想是接收到信息的节点以广播的方式转发数据包。例如,源节点希望发送一段数据给无线网络中的所有节点,首先源节点将数据副本发送给它的每个邻居节点,每个邻居节点再将数据发送给各自传输区域内的节点,如此继续下去,直到达成广播目标或者数据设置的生存期限(TTL)为0为止。传统的洪泛实现过程中,存在着广播冗余以及能源浪费的问题,因为在网络中的每一个节点,不论它之前是否接收过数据包,只要它在需要进行转发的节点传输区域内,都会接收,或者如果该节点处于多个需要进行转发的节点的传输区域内,那么它会接收到多个节点传来的数据包,这就会产生广播冗余问题以及能源浪费,整个网络的生存期也会受到影响。
发明内容
为了克服传统洪泛广播算法存在的上述不足和缺陷,本发明提供了一种基于Q-Learning的广播路由算法,有效地解决了广播冗余及能源浪费问题。
本发明提出了一种基于Q-Learning的广播路由算法,该算法步骤如下:
1、一种基于Q-Learning的广播路由算法,其特征在于,该算法包括以下步骤:
步骤1:在无线传感器网络中,当前节点ni准备做出是否进行广播决策;
步骤2:对于当前需要做出是否进行广播决策的节点ni,判断其状态,其中状态st可定义为当前需要进行做出是否广播的节点周边所有邻居节点中已经接收到数据的节点比例,拟分为11种情况,以集合形式列出,观察判断当前需要做出广播决策的节点ni的状态st属于哪一种情况:
步骤3:建立Q值表;
步骤4:根据Q值评估状态-动作,选择最大Q值所对应的动作at;
步骤5:记录广播过程总能耗C
其中,n为在广播过程中做出“广播”决策的节点数量
Ce(i)=lrb (3)
Ce(i)为节点ni进行一次广播的能量消耗
l为节点发送数据的能耗系数,这里设定为1,r为节点传输半径,b为环境影响系数,这里设定为4;
一种基于Q-Learning的广播路由算法,其特征在于:步骤3还包括以下步骤:
步骤3.1:根据拟划分的11种状态情况及可选取的动作建立Reward-Table,动作at可定义为当前节点是否进行广播,可供选择的动作分为a1(进行广播),a2(不进行广播),以集合形式列出,届时从其中选取一种动作,即:
A=[a1,a2] (4)
初始化Q值表,Q值表与Reward-Table同阶,Q←0;
步骤3.2:对应Reward-Table,根据不同状态任意选取动作,更新Q值表,Q值的更新公式如下:
Qnew(st,at)=Qold(st,at)+α[R+γmaxQ(st+1,at+1)-Qold(st,at)] (5)
Q(st,at)为节点在状态st下采取动作at后可获得的期望最大收益,Qold(st,at)表示更新前的Q值表,Qnew(st,at)表示更新后的Q值表;R为立即获得的收益,从Reward-Table中获得;α,γ∈[0,1],α为学习率,来决定这次的误差有多少是要被学习的,这里设定为α=0.8,γ为折扣因子,这里设定为γ=0.8;
步骤3.3:设定学习更新轮次数大于等于1000;
与传统洪泛路由广播算法相比较,本发明能够有效减少广播过程总能耗。
附图说明
图1为算法流程图
图2为本发明基于Q-Learning的广播路由算法与传统洪泛路由广播算法在广播总能耗这一指标上的比较。
具体实施方式
下面结合附图对本发明做进一步的说明:
本发明提出的基于Q-Learning的广播路由算法的原理是:事先根据拟划分的11种状态情况及两种可选取的动作建立Reward-Table(如表1所示),创建好一张Q值表,与Reward-Table同阶,初始化为0;之后根据Q值更新公式更新Q值表,Q值代表当前节点选择是否进行广播所获得的期望回报,从而可以基于Q值表做出决策。在无线传感器网络中,对于当前需要做出广播决策的节点,判断其节点状态,即其周边邻居节点状态信息,计算出其周边所有邻居节点中已经接收到数据的节点比例,从而根据Q值表做出是否广播的决策。
如图1所示,为本算法的流程示意图,具体包括以下步骤:
步骤1:在无线传感器网络中,当前节点ni准备做出是否进行广播决策;
步骤2:对于当前需要做出是否进行广播决策的节点ni,判断其状态,其中状态st可定义为当前需要进行做出是否广播的节点周边所有邻居节点中已经接收到数据的节点比例,拟分为11种情况,以集合形式列出,观察判断当前需要做出广播决策的节点ni的状态st属于哪一种情况:
步骤3:建立Q值表;
所述步骤3还包括以下步骤:
步骤3.1:根据拟划分的11种状态情况及可选取的动作建立Reward-Table,动作at可定义为当前节点是否进行广播,可供选择的动作分为a1(进行广播),a2(不进行广播),以集合形式列出,届时从其中选取一种动作,即:
A=[a1,a2] (4)
初始化Q值表,Q值表与Reward-Table同阶,Q←0;
步骤3.2:对应Reward-Table,根据不同状态任意选取动作,更新Q值表,Q值的更新公式如下:
Qnew(st,at)=Qold(st,at)+α[R+γmaxQ(st+1,at+1)-Qold(st,at)] (5)
Q(st,at)为节点在状态st下采取动作at后可获得的期望最大收益,Qold(st,at)表示更新前的Q值表,Qnew(st,at)表示更新后的Q值表;R为立即获得的收益,从Reward-Table中获得;α,γ∈[0,1],α为学习率,来决定这次的误差有多少是要被学习的,这里设定为α=0.8,γ为折扣因子,这里设定为γ=0.8;
步骤3.3:设定学习更新轮次数大于等于1000,这里设定为1000,经过1000次的学习更新得到一个Q值表;
步骤4:根据Q值表评估状态-动作,选择最大Q值所对应的动作at;
步骤5:记录广播过程总能耗C
其中,n为在广播过程中做出“广播”决策的节点数量
Ce(i)=lrb (3)
Ce(i)为节点ni进行一次广播的能量消耗
l为节点发送数据的能耗系数,这里设定为1,r为节点传输半径,b为环境影响系数,这里设定为4;
本发明有效地解决了广播冗余问题以及降低了广播过程的总能耗。
最佳实施方式描述如下:
为了验证算法的有效性,对比了传统洪泛广播路由算法和本发明提出的基于Q-Learning的广播路由算法在广播总能耗这一指标上的不同。在实验中,使用Matlab模拟一个长宽都为100米的矩形区域,且存在100个传感器节点在这个区域中,并选取其中任意一个节点作为源节点,以全网百分之八十及以上的节点都接收到数据包为全局目标,为了评价算法性能,采用广播总能耗这一性能指标对两种算法进行比较,实验具体结果参考图2,从中可以看出,在广播过程总能耗这一指标上,基于Q-Learning的广播路由算法优于传统的洪泛路由算法。
表1为本发明基于Q-Learning的广播路由算法中需要建立的Reward-Table;
Claims (1)
1.一种基于Q-Learning的广播路由算法,其特征在于,包括以下步骤:
步骤1:在无线传感器网络中,当前节点ni准备做出是否进行广播决策;
步骤2:对于当前需要做出是否进行广播决策的节点ni,判断其状态,其中状态st定义为当前需要进行做出是否广播的节点周边所有邻居节点中已经接收到数据的节点比例,拟分为11种情况,以集合形式列出,观察判断当前需要做出广播决策的节点ni的状态st属于哪一种情况:
步骤3:建立Q值表;
步骤4:根据Q值评估状态-动作,选择最大Q值所对应的动作at;
步骤5:记录广播过程总能耗C
其中,n为在广播过程中做出“广播”决策的节点数量
Ce(i)=lrb (3)
Ce(i)为节点ni进行一次广播的能量消耗
l为节点发送数据的能耗系数,这里设定为1,r为节点传输半径,b为环境影响系数,这里设定为4;
步骤3还包括以下步骤:
步骤3.1:根据拟划分的11种状态情况及选取的动作建立Reward-Table,动作at定义为当前节点是否进行广播,供选择的动作分为a1进行广播,a2不进行广播,以集合形式列出,届时从其中选取一种动作,即:
A=[a1,a2] (4)
初始化Q值表,Q值表与Reward-Table同阶,Q←0;
步骤3.2:对应Reward-Table,根据不同状态任意选取动作,更新Q值表,Q值的更新公式如下:
Qnew(st,at)=Qold(st,at)+α[R+γmaxQ(st+1,at+1)-Qold(st,at)] (5)
Q(st,at)为节点在状态st下采取动作at后获得的期望最大收益,Qold(st,at)表示更新前的Q值表,Qnew(st,at)表示更新后的Q值表;R为立即获得的收益,从Reward-Table中获得;α,γ∈[0,1],α为学习率,这里设定为α=0.8,γ为折扣因子,这里设定为γ=0.8;
步骤3.3:设定学习更新轮次数大于等于1000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309146.XA CN111542097B (zh) | 2020-04-19 | 2020-04-19 | 一种基于Q-Learning的广播路由算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309146.XA CN111542097B (zh) | 2020-04-19 | 2020-04-19 | 一种基于Q-Learning的广播路由算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111542097A CN111542097A (zh) | 2020-08-14 |
CN111542097B true CN111542097B (zh) | 2022-03-22 |
Family
ID=71977038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010309146.XA Active CN111542097B (zh) | 2020-04-19 | 2020-04-19 | 一种基于Q-Learning的广播路由算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111542097B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9877259B2 (en) * | 2014-03-31 | 2018-01-23 | Huawei Technologies Co., Ltd. | Dynamic energy-efficient transmit point (TP) muting for virtual radio access network (V-RAN) |
CN105208616B (zh) * | 2015-06-17 | 2018-08-14 | 重庆邮电大学 | 车载自组织网络中基于道路拓扑的自适应多副本路由方法 |
WO2018220443A1 (en) * | 2017-06-02 | 2018-12-06 | Estimote Polska Sp. Z O.O. | System and method for low power data routing |
CN107454650B (zh) * | 2017-08-07 | 2019-12-24 | 西安电子科技大学 | 车载自组织网络中基于q学习和电子地图的路由方法 |
CN109587751B (zh) * | 2019-01-07 | 2020-12-22 | 中国科学院计算技术研究所 | 无人机自组网自适应路由方法和系统 |
CN109547351B (zh) * | 2019-01-22 | 2020-04-14 | 西安电子科技大学 | Ad Hoc网络中基于Q学习和信任模型的路由方法 |
CN110730486B (zh) * | 2019-09-09 | 2022-10-14 | 南京理工大学 | 基于Q-Learning算法获取无线体域网最优路径的方法 |
CN110753384B (zh) * | 2019-10-12 | 2023-02-03 | 西安邮电大学 | 基于自适应边界的分布式强化学习稳定拓扑生成方法 |
-
2020
- 2020-04-19 CN CN202010309146.XA patent/CN111542097B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111542097A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3222108B1 (en) | Bit index explicit replication (bier) for efficient routing through a destination oriented directed acyclic graph (dodag) in resource constrained low-power and lossy networks (llns) | |
Koksal et al. | Quality-aware routing metrics for time-varying wireless mesh networks | |
Javaid | Analysis and design of quality link metrics for routing protocols in Wireless Networks | |
WO2016188116A1 (zh) | 一种车载自组网中基于信任度检测的安全路由协议 | |
US7606169B2 (en) | System and method for collecting routing information in a mesh network | |
Rivoirard et al. | Performance evaluation of AODV, DSR, GRP and OLSR for VANET with real-world trajectories | |
CN111343608B (zh) | 一种基于位置信息的车联网强化学习路由方法 | |
KR101755596B1 (ko) | RPL 기반 IoT 네트워크에서 서브 트리의 오버헤드를 감소시키는 장치 및 그 방법 | |
Bauza et al. | Power-aware link quality estimation for vehicular communication networks | |
CN111542097B (zh) | 一种基于Q-Learning的广播路由算法 | |
Yassein et al. | Applications of probabilistic flooding in MANETs | |
US20040246904A1 (en) | Protocol specification for message-initiated constraint-based routing | |
CN115665860B (zh) | 一种基于候鸟群特性的无人机自组网的资源分配方法 | |
CN110233889B (zh) | 一种基于缓存机制的网络数据通信实现方法 | |
Singh et al. | Reinforcement learning-based real time search algorithm for routing optimisation in wireless sensor networks using fuzzy link cost estimation | |
Raei et al. | Optimal distributed algorithm for minimum connected dominating sets in wireless sensor networks | |
CN103813407B (zh) | Ad hoc网络路由的恢复方法和系统 | |
CN108770030B (zh) | 一种下一代无线网络的数据通信方法 | |
CN110139304B (zh) | 基于孤立度和非mpr节点的mpr集合选择方法 | |
Yassein et al. | Performance evaluation of adjusted probabilistic broadcasting in MANETs | |
CN112702710A (zh) | 低占空比网络中基于链路相关性的机会路由优化方法 | |
Tepsic et al. | A Novel Proactive Routing Protocol in Mobile Ad Hoc Networks. | |
CN112039787B (zh) | 一种基于交叠区域最小化的广播路由方法 | |
Sachdeva et al. | Performance Based Comparison of AODV and OLSR Routing Protocols in MANET using FTP and HTTP Traffics | |
Patil et al. | Routing Protocols for Ad-Hoc Wireless Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |