CN111542097B

CN111542097B - 一种基于Q-Learning的广播路由算法

Info

Publication number: CN111542097B
Application number: CN202010309146.XA
Authority: CN
Inventors: 司鹏搏; 魏京生; 张苗; 王祎玮; 杨睿哲; 李萌; 张延华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-19
Filing date: 2020-04-19
Publication date: 2022-03-22
Anticipated expiration: 2040-04-19
Also published as: CN111542097A

Abstract

本发明在传统洪泛广播算法的基础上提出了一种基于Q‑Learning的广播路由算法，当前节点在准备做出是否进行广播决策时，结合通过学习更新得到的Q值表去做出决策，新算法有效地避免了传统洪泛广播带来的广播冗余问题，从而节省了广播过程的总能耗。

Description

一种基于Q-Learning的广播路由算法

技术领域

本发明属于无线传感器网络领域、路由协议领域、广播路由领域，更具体地，涉及到一种应用Q-Learning设计的广播路由算法。

背景技术

传统的洪泛广播是无线传感器网络中常用的一种广播算法，其基本思想是接收到信息的节点以广播的方式转发数据包。例如，源节点希望发送一段数据给无线网络中的所有节点，首先源节点将数据副本发送给它的每个邻居节点，每个邻居节点再将数据发送给各自传输区域内的节点，如此继续下去，直到达成广播目标或者数据设置的生存期限(TTL)为0为止。传统的洪泛实现过程中，存在着广播冗余以及能源浪费的问题，因为在网络中的每一个节点，不论它之前是否接收过数据包，只要它在需要进行转发的节点传输区域内，都会接收，或者如果该节点处于多个需要进行转发的节点的传输区域内，那么它会接收到多个节点传来的数据包，这就会产生广播冗余问题以及能源浪费，整个网络的生存期也会受到影响。

发明内容

为了克服传统洪泛广播算法存在的上述不足和缺陷，本发明提供了一种基于Q-Learning的广播路由算法，有效地解决了广播冗余及能源浪费问题。

本发明提出了一种基于Q-Learning的广播路由算法，该算法步骤如下：

1、一种基于Q-Learning的广播路由算法，其特征在于，该算法包括以下步骤：

步骤1：在无线传感器网络中，当前节点n_i准备做出是否进行广播决策；

步骤2：对于当前需要做出是否进行广播决策的节点n_i，判断其状态，其中状态s_t可定义为当前需要进行做出是否广播的节点周边所有邻居节点中已经接收到数据的节点比例，拟分为11种情况，以集合形式列出，观察判断当前需要做出广播决策的节点n_i的状态s_t属于哪一种情况：

步骤3：建立Q值表；

步骤4：根据Q值评估状态-动作，选择最大Q值所对应的动作a_t；

步骤5：记录广播过程总能耗C

其中，n为在广播过程中做出“广播”决策的节点数量

C_e(i)＝lr^b (3)

C_e(i)为节点n_i进行一次广播的能量消耗

l为节点发送数据的能耗系数，这里设定为1，r为节点传输半径，b为环境影响系数，这里设定为4；

一种基于Q-Learning的广播路由算法，其特征在于：步骤3还包括以下步骤：

步骤3.1：根据拟划分的11种状态情况及可选取的动作建立Reward-Table，动作a_t可定义为当前节点是否进行广播，可供选择的动作分为a₁(进行广播)，a₂(不进行广播)，以集合形式列出，届时从其中选取一种动作，即：

A＝[a₁,a₂] (4)

初始化Q值表，Q值表与Reward-Table同阶，Q←0；

步骤3.2：对应Reward-Table，根据不同状态任意选取动作，更新Q值表，Q值的更新公式如下：

Q_new(s_t,a_t)＝Q_old(s_t,a_t)+α[R+γmaxQ(s_t+1,a_t+1)-Q_old(s_t,a_t)] (5)

Q(s_t,a_t)为节点在状态s_t下采取动作a_t后可获得的期望最大收益，Q_old(s_t,a_t)表示更新前的Q值表，Q_new(s_t,a_t)表示更新后的Q值表；R为立即获得的收益，从Reward-Table中获得；α,γ∈[0,1]，α为学习率，来决定这次的误差有多少是要被学习的，这里设定为α＝0.8，γ为折扣因子，这里设定为γ＝0.8；

步骤3.3：设定学习更新轮次数大于等于1000；

与传统洪泛路由广播算法相比较，本发明能够有效减少广播过程总能耗。

附图说明

图1为算法流程图

图2为本发明基于Q-Learning的广播路由算法与传统洪泛路由广播算法在广播总能耗这一指标上的比较。

具体实施方式

下面结合附图对本发明做进一步的说明：

本发明提出的基于Q-Learning的广播路由算法的原理是：事先根据拟划分的11种状态情况及两种可选取的动作建立Reward-Table(如表1所示)，创建好一张Q值表，与Reward-Table同阶，初始化为0；之后根据Q值更新公式更新Q值表，Q值代表当前节点选择是否进行广播所获得的期望回报，从而可以基于Q值表做出决策。在无线传感器网络中，对于当前需要做出广播决策的节点，判断其节点状态，即其周边邻居节点状态信息，计算出其周边所有邻居节点中已经接收到数据的节点比例，从而根据Q值表做出是否广播的决策。

如图1所示，为本算法的流程示意图，具体包括以下步骤：

步骤3：建立Q值表；

所述步骤3还包括以下步骤：

A＝[a₁,a₂] (4)

初始化Q值表，Q值表与Reward-Table同阶，Q←0；

Q_new(s_t,a_t)＝Q_old(s_t,a_t)+α[R+γmaxQ(s_t+1,a_t+1)-Q_old(s_t,a_t)] (5)

步骤3.3：设定学习更新轮次数大于等于1000，这里设定为1000，经过1000次的学习更新得到一个Q值表；

步骤4：根据Q值表评估状态-动作，选择最大Q值所对应的动作a_t；

步骤5：记录广播过程总能耗C

其中，n为在广播过程中做出“广播”决策的节点数量

C_e(i)＝lr^b (3)

C_e(i)为节点n_i进行一次广播的能量消耗

本发明有效地解决了广播冗余问题以及降低了广播过程的总能耗。

最佳实施方式描述如下：

为了验证算法的有效性，对比了传统洪泛广播路由算法和本发明提出的基于Q-Learning的广播路由算法在广播总能耗这一指标上的不同。在实验中，使用Matlab模拟一个长宽都为100米的矩形区域，且存在100个传感器节点在这个区域中，并选取其中任意一个节点作为源节点，以全网百分之八十及以上的节点都接收到数据包为全局目标，为了评价算法性能，采用广播总能耗这一性能指标对两种算法进行比较，实验具体结果参考图2，从中可以看出，在广播过程总能耗这一指标上，基于Q-Learning的广播路由算法优于传统的洪泛路由算法。

表1为本发明基于Q-Learning的广播路由算法中需要建立的Reward-Table；

Claims

1.一种基于Q-Learning的广播路由算法，其特征在于，包括以下步骤：

步骤2：对于当前需要做出是否进行广播决策的节点n_i，判断其状态，其中状态s_t定义为当前需要进行做出是否广播的节点周边所有邻居节点中已经接收到数据的节点比例，拟分为11种情况，以集合形式列出，观察判断当前需要做出广播决策的节点n_i的状态s_t属于哪一种情况：

步骤3：建立Q值表；

步骤5：记录广播过程总能耗C

其中，n为在广播过程中做出“广播”决策的节点数量

C_e(i)＝lr^b (3)

C_e(i)为节点n_i进行一次广播的能量消耗

步骤3还包括以下步骤：

步骤3.1：根据拟划分的11种状态情况及选取的动作建立Reward-Table，动作a_t定义为当前节点是否进行广播，供选择的动作分为a₁进行广播，a₂不进行广播，以集合形式列出，届时从其中选取一种动作，即：

A＝[a₁,a₂] (4)

初始化Q值表，Q值表与Reward-Table同阶，Q←0；

Q_new(s_t,a_t)＝Q_old(s_t,a_t)+α[R+γmaxQ(s_t+1,a_t+1)-Q_old(s_t,a_t)] (5)

Q(s_t,a_t)为节点在状态s_t下采取动作a_t后获得的期望最大收益，Q_old(s_t,a_t)表示更新前的Q值表，Q_new(s_t,a_t)表示更新后的Q值表；R为立即获得的收益，从Reward-Table中获得；α,γ∈[0,1]，α为学习率，这里设定为α＝0.8，γ为折扣因子，这里设定为γ＝0.8；

步骤3.3：设定学习更新轮次数大于等于1000。