CN114501576A

CN114501576A - 一种基于强化学习的sdwsn最优路径计算方法

Info

Publication number: CN114501576A
Application number: CN202210107090.9A
Authority: CN
Inventors: 谢昊飞; 吴禹霜; 杨登鑫; 范祥林; 李星辰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13
Anticipated expiration: 2042-01-28
Also published as: CN114501576B

Abstract

本发明涉及一种基于强化学习的SDWSN最优路径计算方法，属于软件定义无线传感网络领域。该方法包括：S1：结合节点位置和时延信息，构建网络节点能耗估算模型，并根据该模型估算所有节点的能耗速率；S2：根据能耗和节点密度空间的相关性，采用动态半径的簇头选择算法，计算出事件区域需要选取的簇头节点数k；同时选取k个副簇头节点作为簇头节点的簇内数据转发节点；S3：采用基于强化学习的最优路径选择算法，计算传输的最优路径。本发明能有效提高生存周期、均衡网络能耗和提高数据包传输率。

Description

一种基于强化学习的SDWSN最优路径计算方法

技术领域

本发明属于软件定义无线传感网络领域，涉及一种基于强化学习的软件定义无线传感网(SoftwareDefined Wireless SensorNetwork,SDWSN)最优路径计算方法。

背景技术

无线传感器网络(WSNs)有很多位于不同领域的传感器组成，有的是固定的，也有的是在动态环境中的移动节点，并且WSNs的重要性逐日俱增。每个传感器节点包括一个小电源、传输和处理单元。传感器节点感知环境，处理数据，并将其传输到远程基站。在过去，无线传感器网络以其易于部署、灵活性、可扩展性和低成本等优点而受到研究界的关注。它被应用于许多领域，如医疗保健、交通控制、结构监测、家庭应用，以及更多的应用。然而，它也被用于环境监测，灾区和军事应用。由于传感器节点电池体积小，在危险环境下无法充电，所以一般情况下传感器节点被部署一次后需要工作很长时间，从而簇头节点能量消耗成为无线传感器网络中的一个重要问题。它具有能量管理、通信能力、内存、安全性、异构性、复杂性等资源限制，因此优化路由路径是提高无线传感器网络能量消耗的重要手段。

路由是一个选择将数据从源节点发送到目标节点的路径的过程。一些架构，比如软件定义的网络(SDN)可以帮助优化WSNs中的路由。SDN是一种新兴的体系结构，具有灵活性、动态性和低管理成本。它把数据平面和控制平面分开。数据平面包括网络节点，控制平面包括网络控制器。SDN控制器可以全局查看底层网络，有效地控制整个网络。由于其灵活的体系结构，SDN在许多现代网络应用程序中得到了广泛的应用。然而，它有一些局限：在实时应用程序中寻找最佳路由路径等，从而降低了网络性能。

在实时应用程序中，采用强化学习选择路由路径是一种很有前景的机器学习技术，可以找到最佳的路由路径。然而，在传统的路由协议中，簇头节点使用预先建立的路由路径进行数据传输。它没有反映当前网络的确切状态，其中路由表是事先建立的。在基于强化学习的算法中，Q-value被分配给每个表示动作最优的可能动作。在学习过程中，代理根据Q-value选择一个动作。在每一轮之后，代理根据之前更新Q-value的动作获得奖励。随着时间的推移，代理学习网络行为，根据网络情况改变路由路径，并实时地经过一些迭代后得到最优路径。因此，基于强化学习的路由算法比传统的非强化学习的路由算法具有更好的性能。

发明内容

有鉴于此，本发明的目的在于提供一种基于强化学习的SDWSN最优路径计算方法，用于有效提高生存周期、均衡网络能耗和提高数据包传输率，以保证整个网络资源调度合理可靠。

为达到上述目的，本发明提供如下技术方案：

一种基于强化学习的SDWSN最优路径计算方法，具体包括以下步骤：

S1：结合节点位置和时延信息，构建网络节点能耗估算模型，并根据该模型估算所有节点的能耗速率；

S2：根据能耗和节点密度空间的相关性，采用动态半径的簇头选择算法，计算出事件区域需要选取的簇头节点数k；同时选取k个副簇头节点作为簇头节点的簇内数据转发节点；

S3：采用基于强化学习的最优路径选择算法，计算传输的最优路径。

进一步，步骤S1中，构建网络节点能耗估算模型，具体包括：网络区域为半径R的圆形区域，若干个传感器节点随机非均匀分布在圆形区域内，圆心O为代理节点(可充电超级节点RSN)，RSN完成与控制器之间的消息交互，RSN感知范围半径为r_O的事件区域；

半径为R的圆形区域随机发生网络事件，一个周期内，单位面积发生事件概率为Φ，每个事件产生m个报文，且数据产生频率为f；距离事件源c跳外数据被聚合，c跳内的数据未被聚合；节点传输半径为r；在网络中取一个圆环次半径为r_x→0，圆环内节点j与节点O的距离为r_O，且r_O＝hr+d，h为跳数，d表示小于一跳的距离，该区域节点密度为ρ，由此得到该区域c跳内未聚合的数据包数P_unagg为：

P_unagg＝m*Φ*π*r_x[2*r_O+2*(r_O+r)+...+2*(r_O+c*r)+(c+1)*r]

c跳外被聚合的数据包总数P_agg为：

其中，

为数据聚合的遗忘因子，a是数据聚合的相关系数，v是节点O到网络边缘的总跳数，Φ为单位面积发生事件概率；

区域S1内节点j传输的数据包总数P为：

节点传输一个数据包的能量为e_node，可以计算出节点j每个周期所传输数据的能量消耗E_node为：

E_node＝P*e_node

节点非通信能量消耗E_uncom为：(引入了发送时延能耗、传播时延能耗和排队时延能耗；)

其中，e_t为节点等待每毫秒所消耗的能量，k是事件区域的簇头总数，q为数据帧长度，v_k是数据的传输速度：

由以上得出每个节点一个周期的能耗E为：E＝E_node+E_uncom。

进一步，步骤S2中，构建计算簇头节点数k的表达式为：

其中，k_h是在HOT区域分配最少的簇头数量，ρ_h是HOT区域的密度最小的区域的节点密度，P_h是HOT区域的密度最小的区域节点传输的数据包总数。

进一步，步骤S2中，动态半径的簇头选择算法，具体包括以下步骤：

S21：通过计算出的事件区域需要选取的簇头节点数k，初始簇头节点数量为A＝0；

S22：SDN控制器分别生成节点集N(A)、N(B)和N_A(C)，集合N(B)初始化为除O节点的所有节点的集合，其余集合为空；

S23：SDN控制器在集合N(B)中选择能量最多的节点作为簇头节点，并放入集合N(A)，同时从N(B)中移除；

S24：考虑节点的能量和簇头节点的密度得出簇头通信半径R_cluster：

其中，R_com是节点最大的通信半径，α₁、α₂和α₃分别表示密度权重、距离权重和能量权重；n_j表示邻居节点的数量，n_max表示最大节点的数量；d(j,O)表示簇头节点到节点O的距离，D表示簇头节点到O的最大距离，d_min表示簇头节点到O的最小距离；E_j表示簇头节点剩余能量，E_max是簇头节点最大时的能量；

S25：A＝A+1，如果A＝k则算法结束，否则执行S26；

S26：对集合N(B)中节点进行判断，把在半径R_cluster圆内的节点移至集合N_A(C)；

S27：在集合N_A(C)中选取副簇头，副簇头节点要接近O节点和下一跳的簇群；

簇内节点计算出Deputy值，选取最小的Deputy的节点作为副簇头；

S28：判断N(B)集合是否为空，若空则执行S29，否则执行S210；

S29：重置N(A)、N(B)和N_A(C)为初始状态，令A＝1，R_cluster＝R_cluster-R_m，跳转S26；

S210：选择能量最多的节点为簇头节点并放入集合N(A)，并从N(B)中移除该节点，并计算R_cluster。

进一步，步骤S3中，数据传输阶段：簇间通信采用单跳通信与多跳通信的混合模式，SDN控制器计算簇头节点的路径。

进一步，步骤S3中，计算传输的最优路径，具体包括以下步骤：

S31：初始化SDN控制器；

S32：SDN控制器在距离阈值和最大副簇头节点数内收集所有副簇头节点的能量和副簇头节点间的距离信息；

S33：将S32收集信息作为链路的权重，并按递增的顺序排序；

S34：随机选取一个副簇头节点作为起点，建立已包含的副簇头节点为集合F，未包含的副簇头节点为集合V，V到F所有链路的权重为集合C；

S35：选择C中最小权重对应V中的副簇头节点i；

S36：判断V是否为空，具体包括：

S361：若V不为空则将副簇头节点i加入F，同时从V中删除，更新V中其余副簇头节点到F中副簇头节点权重最优路径，跳转到步骤S34；

S362：若V为空，则输出最小生成树，初步得到路由路径表列表，继续执行步骤S37；

S37：SDN控制器从路由路径表列表中随机选择一个路由路径表并广播；

S38：使用强化学习实时更新路由路径表列表；

S39：通过设定的奖励函数计算奖励，并在每一周期学习结束后计算Q-value，根据获得奖励选择下一跳副簇头节点，由此更新路由路径表列表，先判断是否有簇头节点能量耗尽，若有则跳至S32；若无接着判断是否有副簇头节点能量耗尽；具体包括：

S391：有副簇头节点能量耗尽，则从路由路径表列表中去除该副簇头节点，并跳转到S32；

S392：如果没有簇头节点能量耗尽则跳转到步骤S38。

进一步，步骤S38中，使用强化学习实时更新路由路径表列表，具体包括以下步骤：

S381：引入四个指标权重

作为强化学习的奖励对模型影响占比，分别是数据包的发送成功率f(s_m)、副簇头节点的剩余能量比率e(s_m)、到O节点的距离比率d_sink(s_m)与到O节点的跳数比率h(s_m)的影响占比，得到副簇头节点奖励函数为：

其中，f_send(s_m)是副簇头节点发送包总数，f_accept(s_m)是相邻副簇头节点接收包的数；e_all(s_m)是总能量，e_residue(s_m)是剩余能量；d_next(s_m)是相邻副簇头节点到O节点的距离，d_sink(s_m)是到O节点最大的距离；h_i(s_m)是从相邻副簇头节点到O节点的跳数，h_max(s_m)是到O节点最大跳数；α、χ、δ和β是四种指标权重对模型影响占比，可以根据所需模型自行设置；

S382：上述公式只考虑了当前行动的影响，本发明把后续的行动的影响也考虑进去为：

U_m＝R_m+γR_m+1+γ²R_m+2+γ³R_m+3+...+γ^k-mR_k-m

其中，U_m是折扣回报率，γ是决定未来奖励重要性的折扣因子，也是根据实验实时需求进行设定；则Q-value公式如下：

Q(s_m,a_m)＝E[U_m|S_m＝s_m,A_m＝a_m]

其中，Q(s_m,a_m)表示价值函数，S_m是让节点处在S＝{s_i,s_m,s_n,…,s_k}，这表示一轮结束后即要从新的节点开始传输数据包，择控制器需要从路由表列表中重新选择一个路由表，s_m表示节点选取的路由表，A_m表示节点选择传输的下一个相邻节点这个动作，即A＝{a₁,a₂,a₃,…,a_k}，a_m分别表示节点选择s_m状态下动作，E表示期望；

S383：设定从未更新列表中选择行动的占比设为ε，在更新的路由路径表中选择最优行动的占比为1-ε，ε决定新获取的信息更新到原信息的程度和范围(ε>0)，maxQ(s_m+1,a_m+1)是最优动作价值函数，即选择相邻副簇头节点最大的Q-value；

由此得到更新的Q-value：

Q(s_m,a_m)＝(1-ε)*Q(s_m,a_m)+ε*(U_m+γ₀maxQ(s_m+1,a_m+1))

其中，γ₀表示未来奖励重要性的折扣因子；

S384：由于奖励的期望不易求解，这里加入神经网络参数ζ，即Q(s_m，a_m；ζ)；则优化目标为：

使用梯度下降更新参数，使得Q-value对奖励的评估更加精准；损失函数LOSS_m、损失函数梯度ψ和更新后ζ分别为：

其中，τ表示学习率。

本发明的有益效果在于：

1)本发明在建立能耗模型时候，加入了发送时延、传播时延和排队时延的能耗，是使能量消耗速率更精准；

2)本发明在采用在事件域的能耗越低，簇头数量越多，相反则簇头数量越少的分配簇头原则，均衡了网络能耗；

3)本发明采用的簇头选择算法，簇头的通信半径综合考虑了节点的密度以及位置进行动态改变，并为了降低簇头节点的能耗加入选择副簇头，选取副簇头节点作为簇头节点的簇内数据转发节点，通过降低簇头节点的传输距离从而降低传输数据的能耗，进一步延长网络寿命；

4)本发明提供了一个有效的软件定义无线传感器网络有效路由解决方案，能够集中控制整个网络，并引入强化学习，提出了包含四种指标权重的奖励函数，并且引入当前行动后的行动奖励，从而使网络能够根据最大回报选择最优路径并能够有效提高网络生存时间。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是本发明基于强化学习的SDWSN最优路径计算方法的流程图；

图2是本发明实施例中能量消耗估算模型示意图；

图3是本发明实施例中簇头节点选择算法流程图；

图4是本发明实施例中路由路径表列表更新流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，在软件定义无线传感网络中，包含应用层、控制层和数据层，SDN控制器作为汇聚节点(基站)，网络中所有传感器的节点都只是在数据层实现简单的按流表、组表转发数据功能，并在SDN-WISE协议中为每一个传感器节点都指定了一个可识别的ID，可实现以流的形式按照流表规则转发数据，使得数据层和控制层分离。在数据层增加代理节点-可充电超级节点(RSN)，可充电超级节点完成与SDN控制器之间的信息交互。

网络模型为：网络区域为半径R圆形区域，若干个传感器节点随机非均匀分布在区域内，在圆心O为代理节点(RSN)，RSN完成与控制器之间的消息交互，RSN感知范围半径为r_O形成事件区域。

通过本发明提出的网络能耗速率估算模型估算所有节点的能耗速率，具体如下：

半径为R圆形网络区域随机发生网络事件，一个周期内，单位面积发生事件概率为Φ，每个事件产生m报文，且网络的汇报频率f；在网络中取一个圆环次半径为r_x→0，节点j在圆环内，它距离O节点距离为r_O，且r_O＝hr+d，h为跳数，d表示小于一跳的距离，该区域S₁节点密度为ρ，以j为圆心，r_j为半径，半径r_j圆内有q_j个节点，则：

图2为本发明软件定义无线传感网络的能量消耗速率的估算模型。

每个传感器节点都要消耗一定的能量来发送和接收数据包。所以节点能量消耗可以分为三部分：1)节点发送接收数据包所需能量(传输一个数据包的能量为e_node)；2)活跃模式的非通信能量消耗(e_t为节点等待每毫秒所消耗的能量)；3)休眠模式下的能量消耗。由于休眠模式下的能耗相比其余两种能耗对能量消耗影响不大，所以本发明只考虑其余两种能耗。

1)节点发送接收数据包所需能量

距离事件源c跳节点被聚合，c跳外的数据未被聚合。区域S1面积为：

区域S1自身产生的数据包为：

C跳内未被聚合产生的数据包为：

P₂＝m*Φ*π*r_x*[2*r_O+2*(r_x+r)+...+2*(r_x+c*r)+(c+1)*r]

则距区域S₁c跳内数据包总数为：

P_unagg＝P₁+P₂

＝m*Φ*π*r_x[2*r_O+2*(r_O+r)+...+2*(r_O+c*r)+(c+1)*r]

c跳外的数据会被聚合，本实施例采用LSSMA模型，根据此模型，聚合的结果为：

其中，

为数据聚合的遗忘因子，a是数据聚合的相关系数，v是节点O到网络边缘的总跳数。

区域S1内节点j传输的数据包总是为P：

节点传输一个数据包的能量为e_node，可以计算出节点j每个周期所传输数据的能量消耗为：

E_node＝P*e_node

2)节点非通信能量消耗E_uncom

非通信能量消耗考虑时延的能耗，具体包括发送时延能耗、传播时延能耗和排队时延能耗。

k是事件区域的簇头总数，q为数据帧长度，v是数据的传输速度，电磁波在信道上的传播速率设为光速3*10⁵m/s，排队时延做出极端假设，假设所有的数据包都经过节点j。

由以上得出每个节点一个周期的能耗为：

E＝E_node+E_uncom

接下来需要计算事件域需要分配根据事件域的能耗越低，簇头数量越多，相反则簇头数量越少的分配簇头原则，使得事件域的能耗均衡。在距离节点O点的区域(HOT区域)中密度最小的区域是能耗最高的，所以在HOT区域配置最少的簇头节点，在其他区域调节簇头数量，使得网络各个区域能耗接近HOT区密度最小的区域，即E_j＝E_HOT，由此可求得k：

采用动态半径的簇头选择算法，选取k个簇头，因为簇头节点在整个周期都保持清醒，所以簇头的能耗远大于普通节点的能耗，为了降低簇头节点的能耗，选取k个副簇头节点作为簇头节点的簇内数据转发节点，通过降低簇头节点的传输距离从而降低传输数据的能耗。具体选择算法流程图如图3。

Step1：通过S3计算出事件区域需要选取的簇头节点数k，初始簇头节点数量为A＝0；

Step2：SDN控制器分别生成节点集N(A)、N(B)和Nn(C)，集合N(B)一开始包含除O节点的所有节点，其余集合为空；

Step3：SDN控制器在所有节点中选择能量最多的节点作为簇头节点，并放入集合N(A)，并从N(B)中移除该节点；

Step4：考虑节点的能量和簇头节点的密度得出下面公式计算簇头通信半径：

其中，R_com是节点最大的通信半径，α₁、α₂和α₃分别表示密度权重、距离权重和能量权重；n_j表示邻居节点的数量，n_max表示最大节点的数量；d(j,O)表示簇头节点到节点O的距离，D表示簇头节点到O的最大距离，d_min是簇头节点到O的最小距离；E_j表示簇头节点剩余能量，E_max是簇头节点最大时的能量。

Step5：A＝A+1，如果A＝k则算法结束，否则执行Step6；

Step6：对集合N(B)中节点进行判断，把在半径R_cluster圆内的节点移至集合N_A(C)；

Step7：在集合N_A(C)中选取副簇头，副簇头节点要接近节点O和下一跳的簇群。

Step8：判断N(B)集合是否为空，若为空执行Step9，若不为空则执行Step10；

Step9：重置N(A)、N(B)和N_A(C)为初始状态，并A＝1，R_cluster＝R_cluster-R_m，接着执行Step6；

Step10：选择能量最多的节点为簇头节点并放入集合N(A)，并从N(B)中移除该节点，并计算R_cluster。

最后是数据传输阶段，簇间通信采用单跳通信与多跳通信的混合模式，SDN控制器需要计算簇头节点的路径，本发明使用基于强化学习路由路径的选择算法。算法具体过程如下。

首先初始化广播SDN控制器，在距离阈值和最大副簇头节点数内收集所有副簇头节点的能量和副簇头节点间的距离，将收集的副簇头节点能量和副簇头节点间距离作为链路的权重，并按递增的顺序排序；随机选取一个副簇头节点作为起点，通过STP输出最小生成树，初步得到路由路径列表。

强化学习是可以根据以往经验来选择路由路径，所以引入强化学习实时更新路由表。SDN控制器从上述第二阶段随机选取一个的路由路径表，并使用下述强化学习过程实时更新路由路径表列表。

其中强化学习包括：状态(S)、动作(A)、奖励(R)与奖励的期望(Q-value)。

状态：S是让agent处在S＝{s_i,s_m,s_n...,s_k}，这表示一轮结束后即要从新的副簇头节点开始传输数据包，择控制器需要从路由路径表列表中重新选择一个路由表。

动作：A是agent的一种行为，表示副簇头节点选择传输的下一个相邻副簇头节点这个动作，即A＝{a₁,a₂,a₃...,a_k}。

奖励：奖励R_k是agent采取行动A之后的反馈，可以是正反馈，也可以示负反馈，由奖励可以得到R_k＝R₁+γR₂+γ²R₃+...+γ^k-1R_k，0＜γ≤1，其中γ是决定未来奖励重要性的折扣因子，因为离当前副簇头节点越远则影响值越小，所以得Q-value为：Q(s_k,a_k)＝E[U_t|S_k＝s_k,A_k＝a_k]。

本发明引入不同的奖励函数度量，包含数据包的发送成功率、副簇头节点的剩余能量比率、到O节点的距离与到O节点的跳数。并且每个指标的权重都将考虑在所提出的奖励中，其定义分别如下：

其中，f_send(s_m)是副簇头节点发送包总数，f_accept(s_m)是相邻副簇头节点接收包的数，f(s_m)是副簇头节点发送包的成功率。

其中，e_all(s_m)是总能量，e_residue(s_m)是剩余能量，e(s_m)是剩余能量比率。

其中，d_next(s_m)是相邻副簇头节点到O节点的距离，d_sink(s_m)是到O节点最大的距离。

其中，h_i(s_m)是从相邻副簇头节点到节点O的跳数，h_max(s_m)是到节点O最大跳数。

由以上设定所有副簇头节点的奖励为：

其中，γ₁、γ₂、γ₃与γ₄以及α、χ、δ和β是可以自行进行设置，使四个指标权重对模型影响大小不一样。本实施例主要考虑距离和能量对模型的影响，所以设定α、χ和δ为1，β设为2，则得到副簇头节点奖励公式为：

上述公式只考虑了当前动作的影响，本发明把后续的动作的影响也考虑进去为：

由于强化学习采用一个随机策略来选择行动，这里设定从未更新列表中选择行动的占比设为ε，在更新的路由路径表中选择最优行动的占比为1-ε，ε决定新获取的信息更新到原信息的程度和范围(0<ε)，γ是决定未来奖励重要性的折扣因子，maxQ(s_m+1,a_m+1)是最优动作价值函数，即选择相邻副簇头节点最大的Q-value。由此得到更新的Q-value：

Q(s_m,a_m)＝(1-ε)*Q(s_m,a_m)+ε*(U_m+γ₀maxQ(s_m+1,a_m+1))

此处加入神经网络，神经网络参数设为ζ，即Q(s_m，a_m；ζ)。使用梯度下降更新参数ζ，使得Q-value对奖励的评估更加精准。优化目标为：

损失函数为：

损失函数的梯度为：

损失函数梯度下降得到新的ζ，由此更新了Q-value：

每经历一次游历，SDN控制器获取传感器副簇头节点的状态数据并按照上述计算奖励，并根据系统反馈回的报酬选择路由路径，如果为负奖励，则会降低网络性能需要改变路径；否则，保持原路径。

在与此同时SDN控制器还不断的监控收集每个副簇头节点的剩余能量，如果任何副簇头节点的能量小于阈值，则将其排除在副簇头节点列表之外，并使用普利姆算法重新计算路由路径表列表，再按照上述过程重新更新路由路径列表。建立路由路径表，其算法流程图如图4。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于强化学习的SDWSN最优路径计算方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的SDWSN最优路径计算方法，其特征在于，步骤S1中，构建网络节点能耗估算模型，具体包括：网络区域为半径R的圆形区域，若干个传感器节点随机非均匀分布在圆形区域内，圆心O为代理节点，RSN完成与控制器之间的消息交互，RSN感知范围半径为r_O的事件区域；

半径为R的圆形区域随机发生网络事件，一个周期内，单位面积发生事件概率为Φ，每个事件产生m个报文，且数据产生频率为f；距离事件源c跳外数据被聚合，c跳内的数据未被聚合；节点传输半径为r；在网络中取一个圆环次半径为r_x→0，圆环内节点j与节点O的距离为r_O，且r_O＝hr+d，h为跳数，d表示小于一跳的距离，该区域节点密度为v，由此得到该区域c跳内未聚合的数据包数P_unagg为：

P_unagg＝m*Φ*π*r_x[2*r_O+2*(r_O+r)+...+2*(r_O+c*r)+(c+1)*r]

c跳外被聚合的数据包总数P_agg为：

其中，

区域S1内节点j传输的数据包总数P为：

节点传输一个数据包的能量为e_node，计算出节点j每个周期所传输数据的能量消耗E_node为：

E_node＝P*e_node

节点非通信能量消耗E_uncom为：

由以上得出每个节点一个周期的能耗E为：E＝E_node+E_uncom。

3.根据权利要求2所述的SDWSN最优路径计算方法，其特征在于，步骤S2中，构建计算簇头节点数k的表达式为：

4.根据权利要求3所述的SDWSN最优路径计算方法，其特征在于，步骤S2中，动态半径的簇头选择算法，具体包括以下步骤：

S25：A＝A+1，如果A＝k则算法结束，否则执行S26；

S28：判断N(B)集合是否为空，若空则执行S29，否则执行S210；

5.根据权利要求1所述的SDWSN最优路径计算方法，其特征在于，步骤S3中，数据传输阶段：簇间通信采用单跳通信与多跳通信的混合模式，SDN控制器计算簇头节点的路径。

6.根据权利要求4所述的SDWSN最优路径计算方法，其特征在于，步骤S3中，计算传输的最优路径，具体包括以下步骤：

S31：初始化SDN控制器；

S33：将S32收集信息作为链路的权重，并按递增的顺序排序；

S35：选择C中最小权重对应V中的副簇头节点i；

S36：判断V是否为空，具体包括：

S38：使用强化学习实时更新路由路径表列表；

S392：如果没有簇头节点能量耗尽则跳转到步骤S38。

7.根据权利要求6所述的SDWSN最优路径计算方法，其特征在于，步骤S38中，使用强化学习实时更新路由路径表列表，具体包括以下步骤：

S381：引入四个指标权重

其中，f_send(s_m)是副簇头节点发送包总数，f_accept(s_m)是相邻副簇头节点接收包的数；e_all(s_m)是总能量，e_residue(s_m)是剩余能量；d_next(s_m)是相邻副簇头节点到O节点的距离，d_sink(s_m)是到O节点最大的距离；h_i(s_m)是从相邻副簇头节点到O节点的跳数，h_max(s_m)是到O节点最大跳数；α、χ、δ和β是四种指标权重对模型影响占比；

S382：上述公式只考虑了当前行动的影响，把后续的行动的影响也考虑进去为：

U_m＝R_m+γR_m+1+γ²R_m+2+γ³R_m+3+...+γ^k-mR_k-m

其中，U_m是折扣回报率，γ是决定未来奖励重要性的折扣因子；则Q-value公式如下：

Q(s_m,a_m)＝E[U_m|S_m＝s_m,A_m＝a_m]

其中，Q(s_m,a_m)表示价值函数；S_m是让节点处在S＝{s_i,s_m,s_n,…,s_k}，表示一轮结束后即要从新的节点开始传输数据包，择控制器需要从路由表列表中重新选择一个路由表；s_m表示节点选取s_m路由表，A_m表示节点选择传输的下一个相邻节点这个动作，即A＝{a₁,a₂,a₃,…,a_k}，a_m分别表示节点选择动作a_m，E表示期望；

S383：设定从未更新列表中选择行动的占比设为ε，在更新的路由路径表中选择最优行动的占比为1-ε，ε决定新获取的信息更新到原信息的程度和范围，ε>0；maxQ(s_m+1,a_m+1)是最优动作价值函数，即选择相邻副簇头节点最大的Q-value；

由此得到更新的Q-value：

Q(s_m,a_m)＝(1-ε)*Q(s_m,a_m)+ε*(U_m+γ₀maxQ(s_m+1,a_m+1))

其中，γ₀表示未来奖励重要性的折扣因子；

S384：加入神经网络参数ζ，即Q(s_m，a_m；ζ)；则优化目标为：

其中，τ表示学习率。