CN117412350A

CN117412350A - 一种基于强化学习的无线传感器网络树路由方法及系统

Info

Publication number: CN117412350A
Application number: CN202311251265.4A
Authority: CN
Inventors: 张淼; 李春; 邹劲柏; 李飙; 闫硕; 祝涛; 祝瑞; 景江峰; 刘虎; 谢鲲
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2024-01-16

Abstract

本发明公开了一种基于强化学习的无线传感器网络树路由方法，涉及电网技术领域，包括根节点周期性地广播构建消息，构建消息包含根节点ID和到根节点的跳数，形成树型网络拓扑结构。每个节点周期性地广播问候消息，问候消息中包含决策变量，基于ε‑贪心算法和Q学习算法，自适应地在邻居节点中选择父节点；向选定的父节点发送加入请求消息，父节点选择接受或拒绝该请求，进而形成树型的路由拓扑。本发明应对复杂的无线传感器网络部署场景中做出自适应决策，定义了决策变量：包括接收信号强度的加权平均值、缓存占用率和功耗比，实现基于树的网络路由中寻找最优父节点，可以使无线传感器网络的端到端时延、数据包传输率和能耗方面的性能得到提高。

Description

一种基于强化学习的无线传感器网络树路由方法及系统

技术领域

本发明涉及电网技术领域，特别是一种基于强化学习的无线传感器网络树路由方法及系统。

背景技术

随着数字化信息技术的发展，电网企业持续推动智能测控通用终端建设、运行、生产技术升级，以“提质增效”为总体目标，开展智能测控通用终端智能化、一体化建设，充分发挥变电领域数据的生产要素作用，有力支撑数字电网、数字企业、数字服务和数字产业升级。其中，智能测控通用终端可以包括各类电网传感器。

在传统方式中，智能测控通用终端按专业模块划分，各模块分别进行数据采集以及数据处理，从而使得智能测控通用终端信息孤岛问题突出，智能测控通用终端的数据处理智能化水平较低。并且，现有的智能测控通用终端组网方式较为单一，基本为固定式组网方式，组网结构中智能终端的数量和通信距离保持不变，但是在面临通信量超出组网结构中智能终端所能传输的信息量的情况下，要么出现信息传输遗漏，要么重新组网时，对于结构需要大范围调整，消耗大量人力物力；在智能测控通用终端进行信息传输过程中，因为数据类型不同，导致最后汇总的信息中存在大量噪声数据，而现有技术要么不进行信息过滤，要么过滤方法效率低下，甚至过滤部分非噪声数据，影响最终的数据融合结果。

发明内容

鉴于现有的一种基于强化学习的无线传感器网络树路由及系统中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于面临通信量超出组网结构中智能终端所能传输的信息量的情况下，出现信息传输遗漏，或在重新组网时，对于结构需要大范围调整，消耗大量人力物力，且信息传输过程对噪声数据的过滤较为落后，影响最终的数据融合结果。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种基于强化学习的无线传感器网络树路由方法，其包括，根节点周期性地广播构建消息，包含根节点ID和到根节点的跳数，形成树型网络拓扑结构。每个节点周期性地广播问候消息，每个节点根据问候消息构建邻居表。每个节点基于ε-贪心算法和动作-状态价值Q函数，自适应地在邻居节点中选择父节点。每个节点向选定的父节点发送加入请求消息，父节点根据列表循环检索结果接受或拒绝该请求，进而形成树型的路由拓扑，得到最佳路由路径。

作为本发明所述一种基于强化学习的无线传感器网络树路由方法的一种优选方案，其中：节点接收到构建消息，构建消息中的跳数增加1，更新根节点ID，将更新后的根节点ID和当前跳数存储在自身邻居表中，然后节点重新广播构建消息。

作为本发明所述一种基于强化学习的无线传感器网络树路由方法的一种优选方案，其中：所述问候消息包含决策变量S＝{P_i,B_i,E_i,i∈N}，接收到来自邻居节点的问候消息后，每个节点将决策变量存储在邻居表中；其中所述决策变量包括信号接收强度、缓存占用率和网络功耗比。

作为本发明所述一种基于强化学习的无线传感器网络树路由方法的一种优选方案，其中：所述自适应的选择父节点是根据决策变量评价当前网络状态自适应地改变其父节点，选择具有最高奖励的节点作为父节点；使用所述决策变量定义状态空间、动作集和奖励函数，然后指定基于强化学习的父节点选择算法。

状态空间定义为三个决策变量S＝{P_i,B_i,E_i,i∈N}，每个节点在评估相邻节点的链路质量、拥塞水平和剩余能量的情况下选择父节点。

动作集定义为邻居表中的一组候选父节点，候选父节点从节点的相邻节点中产生，候选父节点到根节点的跳数必须小于等于节点到根节点的跳数，节点的层次级别是基于跳数自主配置。

奖励函数的制定规则为，当节点选择新的父节点后导致帧重传、数据包错误率和能耗的增加时，所述节点获得的奖励值更改为降低的奖励值；若节点选择新的父节点后导致帧重传、数据包错误率和能耗的降低，所述节点获得的奖励值更改为增加的奖励值。

作为本发明所述一种基于强化学习的无线传感器网络树路由方法的一种优选方案，其中：所述父节点的选择使用Q学习算法，进行选择父节点的操作，具体为随机给定状态s，初始化Q值，每个节点基于ε-贪心算法在相邻节点中选择一个父节点n¹，父节点的ID记为ε-贪心算法以相同的小概率ε随机选择一个父节点，以1-ε的概率选择具有最高Q值的父节点，ε-贪心算法中，根据当前的Q值选择父节点的数学公式表示为：

其中，π(a|s)表示在状态s下选择动作a的概率，s表示随机选的一个初始状态，a记为执行选择父节点的动作，|A|为所有动作的集合，即可选择父节点的动作的数量；argmax_aQ(s,a)表示在状态s下具有最大Q值的动作。ε是一个介于0和1之间的参数，表示进行随机探索的概率。

作为本发明所述一种基于强化学习的无线传感器网络树路由方法的一种优选方案，其中：所述父节点的选择完成时，节点从网络环境中根据a动作，观察奖励函数r和新状态s′，计算Q(s,a)值，根据s与a构建成Q-table存储Q(s,a)值，Q值采用如下方法计算：

newQ(s,a)＝Q(s,a)+α(r_s,a+γ*maxQ(s′,a)-Q(s,a))

其中，Q_π(s,a)是当前Q值，α是学习效率，r_s,a是基于状态和动作的奖励函数，γ(γ∈(0,1))是折扣因子，maxQ(s′,a)是下一个状态s′中所有可能动作的最大Q值；将Q值更新为选择父节点后的newQ(s,a)，将当前状态s更新为选择父节点后的新状态s′，并继续选择下一个父节点的动作。

作为本发明所述一种基于强化学习的无线传感器网络树路由方法的一种优选方案，其中：每个节点向候选父节点发送一条加入请求消息及其子节点列表，接收到请求消息的节点调用功能函数以子节点列表为参数循环检索，未检索到子节点列表中的节点，功能函数返回False，候选父节点回复接受加入消息；检索到子节点列表中的节点已存在，功能函数返回True，候选父节点回复拒绝加入消息；传感器节点在选择父节点之前都是随机取一个初始状态，迭代基于Q学习的父节点选择算法，每迭代一次，更新一次当前状态下相对应的Q值，每个节点都会通过试错找到一个Q值最大的最佳父节点，此动作到达根节点时动作结束，子节点和通过选择得到的若干最佳父节点连接得出最佳路由路径。

第二方面，本发明实施例提供了一种基于强化学习的无线传感器网络树路由系统，其包括广播消息模块，根节点周期性地广播构建消息用于形成树型网络拓扑结构；每个节点周期性地广播问候消息，根据问候消息构建邻居表。自适应选择模块，是每个节点基于ε-贪心算法和动作-状态价值Q函数，自适应地在邻居节点中选择父节点。最佳路径形成模块，每个节点向选定的父节点发送加入请求消息，父节点根据检索结果接受或拒绝该请求，循环选择父节点直到事件结束，找到最佳父节点，通过选择得到的若干最佳父节点连接得出最佳路由路径。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述处理器执行所述计算机程序时实现上述的一种基于强化学习的无线传感器网络树路由方法的任一步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序被处理器执行时实现上述的一种基于强化学习的无线传感器网络树路由方法的任一步骤。

本发明有益效果为提出了一种基于强化学习的无线传感器网络中树路由方法，应对复杂的无线传感器网络部署场景中做出自适应决策，定义了三种类型的决策变量：接收信号强度的加权平均值、缓存占用率和功耗比，实现基于树的网络路由中寻找最优父节点。该方法可以使无线传感器网络的端到端时延、数据包传输率和能耗方面的性能得到提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例中基于强化学习的无线传感器网络中树路由方法流程图；

图2为本发明一个实施例中无线传感器网络树路由生成流程图；

图3为本发明一个实施例中树路由协议架构的示意图；

图4为本发明一个实施例中基于强化学习选择父节点的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1～图4，为本发明第一个实施例，该实施例提供了一种基于强化学习的无线传感器网络树路由方法，包括：

S1.根节点周期性地广播构建消息，包含根节点ID和到根节点的跳数，形成树型网络拓扑结构。

其中，跳数表示接收到的构建消息的传感器节点到根节点的跳数，节点接收到构建消息，构建消息中的跳数增加1，更新根节点ID，将更新后的根节点ID和当前跳数存储在自身邻居表中，然后节点重新广播构建消息。

为了减少每次传输的延迟，每个节点都应该建立到目的地的最短路径。在基于树的路由中，到根节点的跳数是选择父节点的决定性度量；也就是说，每个节点可以通过采用到根节点的跳数作为决策变量来保持低延迟。构建消息包括到根节点的跳数。当节点接收到构建消息时，将跳数存储在邻居表中，并将构建消息中的跳数递增1。然后，节点重新广播构建消息。

由于节点选择具有相同或更少跳数的相邻节点作为父节点，因此基于到根节点的跳数自主地确定节点的在树结构中的层级。

S2.每个节点周期性地广播问候消息，每个节点根据问候消息构建邻居表。

其中，所述问候消息包含决策变量S＝{P_i,B_i,E_i,i∈N}，接收到来自邻居节点的问候消息后，每个节点将决策变量存储在邻居表中；其中决策变量包括信号接收强度、缓存占用率和网络功耗比；这些变量用于在每个节点上选择父节点。

需注意的是：在构建无线传感器网络的树结构时，跳数是决策变量。在构建树完成后选择父节点形成路由路径时，P、B、E是决策变量。

子节点和候选父节点之间的接收信号强度，采用加权移动平均计算，每个测量值乘上一个权重，相邻节点i的接收信号强度P_i的n个周期的加权移动平均采用如下方法计算：

其中，t是问候消息发出的时间；W表示加权移动平均，用来防止测量值的突然变化。加权移动平均是每个测量值乘以一个权重，对最近更新的数据给予更多的权重，而对时间更早的数据给予更少的权重。

节点的缓存占用率采用加权移动平均计算，相邻节点i的缓冲区占用率(B_i)的n个周期加权移动平均采用如下方法计算：

其中，B^t是在时间t的当前缓冲器占用率，B_last是在时间t的当前缓冲区大小，B_max′是最大缓冲区大小；

功耗比E采用计算方法为，

其中，T_de是由于退避或重传引起的累积延迟，k是回退或帧重传的次数，D表示传感器节点接收的数据大小，L表示有效载荷长度，Idle_e、Tx_e、Rx_e以及sleep_e是每个收发器模式的能量消耗量，E_total是能量总量。

S3.每个节点基于ε-贪心算法和Q学习算法，自适应地在邻居节点中选择父节点。

所述自适应的选择父节点是根据决策变量评价当前网络状态自适应地改变其父节点，选择具有最高奖励的节点作为父节点；使用决策变量定义状态空间、动作集和奖励函数，然后指定基于强化学习的父节点选择算法；

状态空间定义为三个决策变量S＝{P_i,B_i,E_i,i∈N}，每个节点在评估相邻节点的链路质量、拥塞水平和剩余能量的情况下选择父节点；

动作集定义为邻居表中的一组候选父节点，候选父节点从节点的相邻节点中产生，候选父节点到根节点的跳数必须小于等于节点到根节点的跳数，节点的层次级别是基于跳数自主配置；

奖励函数的制定规则为，当节点选择新的父节点后导致帧重传、数据包错误率和能耗的增加时，所述节点获得的奖励值更改为降低的奖励值；若节点选择新的父节点后导致帧重传、数据包错误率和能耗的降低，所述节点获得的奖励值更改为增加的奖励值。这一奖励值根据节点每次的选择动态更新，以反映所做决策的效果。

更进一步的，所述父节点的选择使用Q学习算法，进行选择父节点的操作，具体为随机给定状态s，初始化Q值，每个节点基于ε-贪心算法在相邻节点中选择一个父节点n¹，父节点的ID记为ε-贪心算法以相同的小概率ε随机选择一个父节点，以1-ε的概率选择具有最高Q值的父节点，ε-贪心算法中，根据当前的Q值选择父节点的数学公式可以表示为，

其中，π(a|s)表示在状态s下选择动作a的概率，s表示随机选的一个初始状态，a记为执行选择父节点的动作，|A|为所有动作的集合，即可选择父节点的动作的数量，argmax_aQ(s,a)表示在状态s下具有最大Q值的动作。ε是一个介于0和1之间的参数，表示进行随机探索的概率。

更进一步的，当父节点选择完成时，节点从网络环境中根据a的动作，观察奖励函数r和新状态s′，反馈相应的Q_π(s,a)值，将s与a构建成Q-table存储Q_π(s,a)值，根据Q_π(s,a)值选取能够获得最大的收益的动作并对当前状态做出更新；基于状态和动作更新Q值采用如下方法计算，

newQ(s,a)＝Q(s,a)+α(r_s,a+γ*maxQ(s′,a)-Q(s,a))

S4.每个节点向选定的父节点发送加入请求消息，父节点根据本地存储的子节点列表检索结果接受或拒绝该请求，进而形成树型的路由拓扑，得到最佳路由路径。

每个节点向候选父节点发送一条加入请求消息J_quest及其子节点列表N_child，接收到J_quest的父节点调用功能函数以N_child为参数执行列表循环检索。未检索到循环，则父节点向发送者回复一条加入接受消息，否则返回一条加入拒绝消息。传感器节点在选择父节点之前都是随机取一个初始状态，迭代基于Q学习的父节点选择算法，每迭代一次，更新一次当前状态下相对应的Q值，每个节点都会通过试错找到一个Q值最大的最佳父节点，此动作到达根节点时动作结束，子节点和通过选择得到的若干最佳父节点连接得出最佳路由路径。

进一步的，本实施例还提供一种基于强化学习的无线传感器网络树路由系统，包括：

广播消息模块，根节点周期性地广播构建消息用于形成树型网络拓扑结构；每个节点周期性地广播问候消息，根据问候消息构建邻居表。

自适应选择模块，是每个节点基于ε-贪心算法和动作-状态价值Q函数，自适应地在邻居节点中选择父节点。

最佳路径形成模块，每个节点向选定的父节点发送加入请求消息，父节点根据检索结果接受或拒绝该请求，循环选择父节点直到事件结束，找到最佳父节点，通过父节点选择找到最佳路由路径。

本实施例还提供一种计算机设备，适用于一种基于强化学习的无线传感器网络树路由方法的情况，包括存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的一种基于强化学习的无线传感器网络树路由方法。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的实现一种基于强化学习的无线传感器网络树路由方法。

本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

实施例2

该实施例提供了一种基于强化学习的无线传感器网络树路由方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

本实验在仿真软件MATLAB R2020a的仿真环境下，建立一个包含100个节点的无线传感器网络，根节点个数5个，根节点每15s广播一次构建消息，节点广播问候消息5s一次，节点在2000m×2000m的二维区域内随机分布。MAC层协议为IEEE 802.11DCF，信道模型为Pathloss和Rayleigh衰落。每个节点每10s发送一个4000bit大小的数据包模拟拥塞情况。

在该网络中，分别测试本发明的树路由方法和基于距离的ShortestPath方法。本发明方法的动作集为当前节点的相邻节点，奖励函数基于延时、成功率和能耗。方法使用ε-贪心算法，ε＝0.1,Q学习率α＝0.5，折扣因子γ＝0.99。Shortest Path方法根据当前节点到根节点的最小跳数选择路由。

比较两种方法的平均端到端延时、数据包传输成功率和网络能耗。每个方法重复测试20次取平均值。

其实验结果如表1所示：

表1对比实验结果表

参数	本发明方法	最短路径方法
			平均端到端延时	32毫秒	55毫秒
延时变异系数	0.23	0.41
			延时降低比例	41.8％	-
平均成功率	97.2％	92.1％
			成功率变异系数	0.03	0.08
成功率提升比例	5.4％	-
			平均能耗	2.1毫安	2.8毫安
能耗变异系数	0.11	0.23
			能耗降低比例	25％	-
最低延时	12毫秒	16毫秒
			最高延时	62毫秒	96毫秒

测试结果显示，本发明的平均端到端延时为32ms，较Shortest Path的平均延时55ms降低41.8％；本发明的平均数据包成功率为97.2％，较Shortest Path的92.1％提高5.4％；本发明的平均能耗为2.1mAh，较Shortest Path的2.8mAh降低25％。本发明在延时降低、传输可靠性提高和能耗降低方面优于现有Shortest Path方法。实验结果证明本发明可以提高无线传感器网络的性能。

除此之外，更改本发明的配置数据，使用不同的实验配置，检验本发明的有益效果，具体如表2所示：

表2实验参数配置表

参数	小规模场景	中规模场景	大规模场景
				节点数量	100	150	200
区域大小	100米×100米	150米×150米	200米×200米
				节点分布	随机均匀分布	随机簇状分布	按格子分布

续表2

数据包大小	4000位	6000位	8000位
				发送率	10秒/包	5秒/包	2秒/包
传感器初能量	2J	5J	10J
				ε值	0.1	0.5	0.9
Q学习率	0.1	0.5	0.9

在针对不同规模实验情况下，本发明的实验结果如表3所示：

表3性能指标比较表

指标	小规模场景	中规模场景	大规模场景
				平均延时	32毫秒	45毫秒	62毫秒
成功率	97.2％	96.5％	95.1％
				平均能耗	2.1毫安	3.7毫安	6.2毫安
最低延时	12毫秒	16毫秒	19毫秒
				最高延时	62毫秒	87毫秒	102毫秒
延时变异系数	0.23	0.31	0.35

可以看出，在不同网络规模和参数配置下，本发明方法能够维持低延时、高可靠性和低能耗的良好性能。即使在大规模复杂场景中，性能优势也显著。这验证了本发明的强健性和适应性。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于强化学习的无线传感器网络树路由方法，其特征在于：包括，

根节点周期性地广播构建消息，包含根节点ID和到根节点的跳数，形成树型网络拓扑结构；

每个节点周期性地广播问候消息，每个节点根据问候消息构建邻居表；

每个节点基于ε-贪心算法和Q学习算法，自适应地在邻居节点中选择父节点；

每个节点向选定的父节点发送加入请求消息，父节点根据本地存储的子节点列表检索结果接受或拒绝该请求，进而形成树型的路由拓扑，得到最佳路由路径。

2.如权利要求1所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：节点接收到构建消息，将构建消息中的跳数增加1，将构建消息中根节点ID更新，更新后的根节点ID和当前跳数存储在自身邻居表中，然后节点重新广播构建消息。

3.如权利要求1所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：所述问候消息包含决策变量S＝{P_i,B_i,E_i,i∈N}，接收到来自邻居节点的问候消息后，每个节点将决策变量存储在邻居表中；其中所述决策变量包括信号接收强度、缓存占用率和网络功耗比。

4.如权利要求1所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：所述自适应的选择父节点是根据决策变量评价当前网络状态自适应地改变其父节点，选择具有最高奖励的节点作为父节点；使用所述决策变量定义状态空间、动作集和奖励函数，然后指定基于强化学习的父节点选择算法；

5.如权利要求1所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：所述父节点的选择使用Q学习算法，进行选择父节点的操作，具体为随机给定状态s，初始化Q值，每个节点基于ε-贪心算法在相邻节点中选择一个父节点n¹，父节点的ID记为ε-贪心算法以相同的小概率ε随机选择一个父节点，以1-ε的概率选择具有最高Q值的父节点，ε-贪心算法中，根据当前的Q值选择父节点的数学公式表示为：

其中，π(a|s)表示在状态s下选择动作a的概率，s表示随机选的一个初始状态，a记为执行选择父节点的动作，|A|为所有动作的集合，即可选择父节点的动作的数量；argmax_aQ(s,a)表示在状态s下具有最大Q值的动作，ε是一个介于0和1之间的参数，表示进行随机探索的概率。

6.如权利要求5所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：所述父节点的选择完成时，节点从网络环境中根据a动作，观察奖励函数r和新状态s′，计算Q(s,a)值，根据s与a构建成Q-table存储Q(s,a)值，Q值采用如下方法计算，

newQ(s,a)＝Q(s,a)+α(r_s,a+γ*maxQ(s′,a)-Q(s,a))

7.如权利要求1所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：所述最佳路由路径是，每个节点向候选父节点发送一条加入请求消息及其子节点列表，接收到请求消息的节点调用功能函数以子节点列表为参数循环检索，未检索到子节点列表中的节点，功能函数返回True，候选父节点回复接受加入消息；检索到子节点列表中的节点已存在，功能函数返回False，候选父节点回复拒绝加入消息；传感器节点在选择父节点之前都是随机取一个初始状态，迭代基于Q学习的父节点选择算法，每迭代一次，更新一次当前状态下相对应的Q值，每个节点都会通过试错找到一个Q值最大的最佳父节点，此动作到达根节点时动作结束，子节点和通过选择得到的若干最佳父节点连接得出最佳路由路径。

8.一种基于强化学习的无线传感器网络树路由系统，基于权利要求1～7任一所述的一种基于强化学习的无线传感器网络树路由方法，其特征在于：包括，

广播消息模块，根节点周期性地广播构建消息用于形成树型网络拓扑结构；每个节点周期性地广播问候消息，根据问候消息构建邻居表；

自适应选择模块，是每个节点基于ε-贪心算法和动作-状态价值Q函数，自适应地在邻居节点中选择父节点；

最佳路径形成模块，每个节点向选定的父节点发送加入请求消息，父节点根据检索结果接受或拒绝该请求，循环选择父节点直到事件结束，找到最佳父节点，通过选择得到的若干最佳父节点连接得出最佳路由路径。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1～7任一所述的一种基于强化学习的无线传感器网络树路由方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1～7任一所述的一种基于强化学习的无线传感器网络树路由方法的步骤。