CN115175202B

CN115175202B - 一种基于强化学习的中继节点部署方法

Info

Publication number: CN115175202B
Application number: CN202210486607.XA
Authority: CN
Inventors: 梁炜; 马超凡; 郑萌; 夏晔; 王恺; 赵永恒
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2023-11-07
Anticipated expiration: 2042-05-06
Also published as: CN115175202A

Abstract

本发明涉及无线传感器网络技术，具体地说是一种基于强化学习的中继节点部署方法。本发明针对射频环境复杂、遮挡严重等场景，充分考虑了实时性、可靠性等网络指标，提出了基于强化学习和Voronoi图的中继节点部署方法。该方法具体包括三部分：通信半径估计模块、通信图生成模块和中继位置选择模块，其中通信半径估计算法基于Q‑学习估计每个节点不同角度的通信半径，通信图生成算法基于Voronoi图生成所有节点构成的通信拓扑图，中继位置选择算法用于选择中继部署位置。通过这三个模块地不断迭代，该方法可以逐步学习部署现场射频环境，并自动调节各个地点的通信半径，以此构建可靠、实时的无线通信网络。

Description

一种基于强化学习的中继节点部署方法

技术领域

本发明涉及无线传感器网络技术，具体地说是一种基于强化学习的中继节点部署方法。

背景技术

无线传感器网络由于其无需布线、部署方便等优点，已经被广泛应用于各个领域。无线传感器网络由传感器节点、网关节点构成。为了延长网络生命周期、增大网络覆盖面积，国内外学者专家主张采用基于中继的双层网络架构。在该架构中，传感器节点只负责感知环境信息，网络通信及连通性由上层的中继节点承担。

由于无线传感器网络的诸多优点，其已应用于工业领域。但是工业生产环境具有射频环境复杂、金属遮挡严重、噪声严重等特点，传统采用静态信道模型的中继部署方法难以在这种环境中构建可靠的通信网络。由此可见，当前继续一种在严苛环境下构建实时、可靠通信网络的方法。

已有中继节点部署方法采用静态信道模型设计部署算法，在复杂射频环境下，静态模型无法准确描述各地信道环境，因此难以保证可靠网络通信。

发明内容

本发明针对射频环境复杂、遮挡严重等场景，充分考虑了实时性、可靠性等网络指标，提出了基于强化学习和Voronoi图的中继节点部署方法。该方法具体包括三部分：通信半径估计模块、通信图生成模块和中继位置选择模块，其中通信半径估计算法基于Q-学习估计每个节点不同角度的通信半径，通信图生成算法基于Voronoi图生成所有节点构成的通信拓扑图，中继位置选择算法用于选择中继部署位置。通过这三个模块地不断迭代，该方法可以逐步学习部署现场射频环境，并自动调节各个地点的通信半径，以此构建可靠、实时的无线通信网络。

本发明为实现上述目的所采用的技术方案是：

一种基于强化学习的中继节点部署方法，包括以下步骤：

1)通信图生成模块根据传感器节点集合、中继节点候选部署位置集合、网关节点，以及各个节点通信半径构建通信拓扑图；

2)中继位置选择模块在通信拓扑图选择多个位置部署中继节点；

3)信道质量测量模块测量每个中继节点的信道质量，更新未连接传感器节点集合；

4)通信半径估计模块根据每个已测中继节点的信道质量，估计每个已测中继节点的通信半径，根据Voronoi估计未测中继节点的通信半径，并将所有中继节点的通信半径发送给通信图生成模块，用于构建通信拓扑图。

所述步骤1)具体为：

输入传感器节点集合S、中继节点候选部署位置集合C、网关节点g，以及各个节点通信半径的估计值r(v),其中，v表示任意中继节点，中继节点只能放置在中继节点候选部署位置上，传感器节点s与网关节点之间的跳数限制为Δ(s)，利用各节点通信半径生成通信拓扑图G(V,E)，其中V＝S∪C∪ {g}，而如果一条边e_uv存在于边集合E，即e_uv∈E，则e_uv满足min(r(u),r(v))≤||u-v||，其中||u-v||表示两个节点间的欧氏距离，令未连接传感器节点集合为S’＝S、已部署中继集合R＝{g}。

所述步骤2)包括以下步骤：

2.1)令为通信拓扑图G中中继节点u和v之间的最短路径，h(p)为路径p的跳数，λ(u)为中继节点u到网关节点的跳数；如果中继节点u满足 />则称中继节点u有效连接传感器节点s，记中继节点u有效连接的传感器节点集合为Θ(u)，令/>C₁、C₂表示变量，令中继节点u在通信拓扑图G中的邻居节点集合为N_G(u)；

2.2)对于S’中任一传感器节点s，从已部署中继集合R中寻找一个有效连接s、且距离s跳数最小的中继节点，记该中继节点为c，令C₁＝C₁∪{c}；

2.3)对于C₁中任一中继节点v以及Θ(v)中任一传感器节点s，从集合N_G(v)\(R∪S)中找出一个有效连接s、且距离s跳数最小的中继节点，并记该中继节点为c；执行λ(v)＝λ(v)+1，C₂＝C₂∪{c}；

2.4)返回集合C₂，作为中继位置选择模块选择的中继部署位置，记为R’，执行R＝R∪R’。

所述步骤3)包括以下步骤：

3.3)为新部署的中继节点测量信道质量，如果某个传感器节点s已经与已部署的中继节点通信，则将s从未连接传感器节点集合中删除，即S’＝S’\{s}；

3.4)检查未连接传感器节点集合是否为空，若为空，则删除R’中冗余中继节点并输出结果；若不为空，则继续执行步骤4)。

所述删除冗余中继节点的方法为:以网关节点g为根，各传感器节点为叶子，生成一棵最短路径树，删除不在该最短路径树上的中继节点。

所述步骤4)包括以下步骤：

4.1)对于任一中继节点u，以其为圆心，将部署平面划分为κ个扇面，记中继节点u的第i个扇面为x_u,i，对中继节点u在扇面x_u,i上的通信半径的估计为一个动作a_u,i，估计时，a_u,i为整数，令Γ为通信半径的上限，即a_u,i∈{1,2,..,Γ}， Λ＝{1,2,..,Γ}为动作空间，对于每个动作a_u,i，即节点u在扇面x_u,i方向上的通信半径预测值和一个实测信道质量Ψ(u,v)，定义相应的奖励为

其中v是扇面x_u,i上的一个中继节点，ζ:＝Ψ(u,v)-θ，θ为设定的可靠性约束；

4.2)对于中继节点u，如v在u的第i个扇面且得到u和v之间的信道质量测量值，则根据步骤4.1)得到相应奖励r(x_u,i,a_u,i)，然后基于Q-学习中的 Bellman等式为扇面x_u,i更新状态；定义扇面x_u,i上的Q-表为Q(x_u,i)＝{Q(x_u,i,a) |a∈Λ}，其中Q(x_u,i,a)采用下式进行更新

其中α为设定的学习率，γ为设定的折扣因子；

4.3)在更新完扇面Q-表后，记Q(x_u,i)中具有最大Q(x_u,i,a)值的动作为μ，令 ρ为设定的参数，采用均值为μ、方差为ρ的高斯分布函数生成一个随机值ε，并令该扇面的当前动作，即本次预测的中继节点u在扇面x_u,i上的通信半径为

4.4)对每对中继节点间的信道质量测试值执行步骤4.1)～步骤4.3)，更新相应扇面的Q-表和动作；直至所有扇面循环完毕，最终得到每个已测扇面上的估计通信半径，即每个已测中继节点的通信半径；

4.5)令V’为所有第i个扇面已测中继节点的集合，以V’中中继节点为顶点做Voronoi图，将平面划分为|V’|个区域，记中继节点u所在的区域为Ω(u)，并令该区域的顶点为v，使用v在第i个扇面的动作估计u在其第i个扇面上的动作：

其中

4.6)为每个未测量扇面执行步骤4.5)，估算出所有未测中继节点的通信半径。

一种基于强化学习的中继节点部署系统，包括：

通信图生成模块，用于根据传感器节点集合、中继节点候选部署位置集合、网关节点，以及各个节点通信半径构建通信拓扑图；

中继位置选择模块，用于在通信拓扑图选择多个位置部署中继节点；

信道质量测量模块，用于测量每个中继节点的信道质量，更新未连接传感器节点集合；

通信半径估计模块，用于根据每个已测中继节点的信道质量，估计每个已测中继节点的通信半径，根据Voronoi估计未测中继节点的通信半径，并将所有中继节点的通信半径发送给通信图生成模块，用于构建通信拓扑图。

一种基于强化学习的中继节点部署系统，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现所述的一种基于强化学习的中继节点部署方法。

一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现所述的一种基于强化学习的中继节点部署方法。

本发明具有以下有益效果及优点：

1.与已有采用静态信道模型方法一次性生成部署方案不同，本发明根据实际测量信道质量，利用Q-学习方法不断更新、学习各个地点的信道信息，因此，可以更好地解决射频环境复杂的问题。

2.为了加速整个学习过程，本发明基于Voronoi图利用较近的已测节点的通信半径预测为测量的节点的通信半径，这样可以有效提高学习效率，加快整个部署流程。

3.本发明所提出的部署位置选择模块，并不是一次生成整个网络的部署位置，而是采用渐进的策略，每次部署若干中继节点，构建局部连通的网络，以便于实际信道测量和网络部署方案调整。

附图说明

图1为本发明的方法流程图；

图2为通信半径估计模块工作示意图；

图3a～图3b为通信图生成模块示意图；

图4a～图4f为整体部署方法示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

如图1所示，一种基于强化学习的中继节点部署方法，主体包含以下步骤：

(1.1)输入传感器节点集合S、中继节点候选部署位置集合C、网关节点g，以及各个节点通信半径的初始估计值r(v),其中中继节点只能放置在中继节点候选部署位置上。记传感器节点s与网关节点之间的跳数限制为 Δ(s)。利用各节点初始通信半径生成通信拓扑图G(V,E)，其中V＝S∪C∪{g}，而如果一条边e_uv存在于边集合E(即e_uv∈E)，则e_uv满足min(r(u),r(v))≤||u-v||，其中||u-v||两个节点间的欧氏距离。令未连接传感器节点集合为S’＝S、已部署中继集合R＝{g}。

(1.2)利用部署位置选择模块根据通信拓扑图G选择若干位置部署中继节点，并记这些位置为R’。执行R＝R∪R’。

(1.3)为新部署的中继节点测量信道质量(可为收包率等指标)，如果某个传感器节点s已经可以与部署中继通信，则将s从未连接传感器节点集合中删除，即S’＝S’\{s}。

(1.4)检查未连接传感器节点集合是否为空，若为空，则删除R’中冗余中继并输出结果；不为空，则继续执行(1.5)。其中删除冗余中继节点的方法为以网关g为根，各传感器节点(即S中节点)为叶子，生成一棵最短路径树，删除不在该最短路径树上的中继节点。

(1.5)利用通信半径估计模块，根据已测信道质量估计每个已测节点的通信半径。

(1.6)首先基于Voronoi图估计未测节点通信半径，然后估计各个节点通信半径重新生成通信拓扑图G(V,E)，其生成方法与(1.1)所述一致。然后进入步骤(1.2)。

所述部署位置选择模块具体如下：

(2.1)令为图G中节点u和v之间的最短路径，h(p)为路径p的跳数，λ(u)为节点u到网关的跳数。如果节点u满足/>则称节点u可以有效连接传感器s。记节点u所能有效连接的传感器节点集合为Θ(u)。令/>令节点u在图G中的邻居节点集合为N_G(u)。

(2.2)对于S’中任一传感器s，从R中寻找一个能够有效连接s、且距离s 跳数最小的中继，并记该中继为c。令C₁＝C₁∪{c}。

(2.3)对于C₁中任一节点v以及Θ(v)中任一传感器节点s，从集合N_G(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。执行λ(v)＝λ(v)+1，C₂＝C₂∪{c}。

(2.4)返回集合C₂，即部署位置选择模块本次所选择的中继部署位置。

所述通信半径估计模块具体如下：

(3.1)对于任一节点u，以其为圆心，将部署平面划分为κ个扇面。记节点 u的第i个扇面为x_u,i。称对节点u在扇面x_u,i上的通信半径的估计为一个动作a_u,i。估计时，a_u,i为整数，单位为米。令Γ为通信半径的上限，即a_u,i∈{1,2,..,Γ}。Λ＝{1, 2,..,Γ}为动作空间。称为了根据已有信道质量测量值，学习部署现场射频环境，对于每个动作a_u,i(即节点u在扇面x_u,i方向上的通信半径预测值)和一个实测信道质量Ψ(u,v)，定义相应的奖励为

其中v是扇面x_u,i上的一个节点，ζ:＝Ψ(u,v)-θ，θ为用户给定的可靠性约束。

(3.2)对于节点u，如v在u的第i个扇面且得到u和v之间的信道质量测量值，则根据(3.1)得到相应奖励r(x_u,i,a_u,i)，然后基于Q-学习中的Bellman 等式为扇面x_u,i更新状态。定义扇面x_u,i上的Q-表为Q(x_u,i)＝{Q(x_u,i,a)|a∈Λ}，其中Q(x_u,i,a)采用下士进行更新

其中α为用户设定的学习率，γ为用户设定的折扣因子。

(3.3)在更新完扇面Q-表后，记Q(x_u,i)中具有最大Q(x_u,i,a)值的动作为μ，令ρ为用户设定的参数，则采用均值为μ、方差为ρ的高斯分布函数生成一个随机值ε，并令该扇面的当前动作(即本次预测的节点u在扇面x_u,i上的通信半径) 为

(3.4)对本轮循环中每对节点间的信道质量测试值执行(3.1)～(3.3)，更新相应扇面的Q-表和动作。最终得到每个已测上面上的估计通信半径。

所述通信图生成模块具体如下：

(4.1)假如节点u的第i个扇面一直未被测量，但在构建通信拓扑图时必须知道节点u在扇面x_u,i上的通信半径，为此，可以利用已测扇面的通信半径推测未测扇面的通信半径。

(4.2)令V’为所有第i个扇面已测节点的集合。以V’中节点为顶点做 Voronoi图，将平面划分为|V’|个区域，记节点u所在的区域为Ω(u)，并令该区域的顶点为v。我们用v在第i个扇面的动作估计u在其第i个扇面上的动作，方法如下：

其中

(4.3)为每个未测量扇面执行(4.2)，最终所有扇面都得到了自己的通信半径预测值。

(4.4)利用步骤(1.1)所述方法，构建通信拓扑图G(V,E)。

本发明包括通信半径估计模块、通信图生成模块和中继位置选择模块三个部分。

通信半径估计模块的工作流程如图2所示：

以任一节点u为中心，将整个平面分为若干扇面(本图中为8个扇面)，每个扇面上的动作为节点u在该扇面方向上的通信半径估计，本图中给出每个扇面上的可能动作一共有9个即{1,2,3,…,9}。假设节点v在扇面x_u,4方向上，该扇面的上一次动作(通信半径预测值)为6，并测量到u和v之间的信道质量 Ψ(u,v)＝0.98，可靠性阈值θ由用户给出，所以可以根据式(1)计算出该扇面上一次的动作(通信半径预测值)的奖励r(x_u,4,6)。假设目前该扇面上的Q表为 Q(x_u,4,1)＝0.03,Q(x_u,4,2)＝0.03,Q(x_u,4,3)＝0.05,Q(x_u,4,4)＝0.07,Q(x_u,4,5)＝0.1, Q(x_u,4,6)＝0.24,Q(x_u,4,7)＝0.13,Q(x_u,4,8)＝0.05,Q(x_u,4,9)＝-0.03。由于α和γ为用户给定参数，可以根据式(2)更新Q-表中动作6的值Q(x_u,4,6)。在根据所有信道质量测量值更新完相应扇面后，每个扇面上的通信半径预测值，为该扇面Q-表中值最大的动作。

通信图生成模块的工作流程如图3所示：

假设扇面x_u,4未被测量，为估计节点u在扇面x_u,4方向上的通信半径，首先找到所有第i个扇面都被测试过的节点，如图3(a)中所示的带蓝色扇面的节点，记这些节点的集合为V’。接着以集合V’中的节点为顶点，做Voronoi图，将平面划分为若干区域，如图3(b)所示。从图3(b)中可以看出，节点u属于以节点v为顶点的区域，这样，就可以利用v的第i个扇面x_v,4方向上的半径估计x_u,4的通信半径。若上一轮中x_u,4方向上的动作为则本轮x_u,4方向上的半径预测值可根据式(3)计算，即

整体部署方法的工作流程如图4所示，其中虚线连接的两个节点表示这两个节点可以直接通信：

(1)输入为网关节点g、无线传感器节点集合S＝{s₁,s₂,s₃}、候选部署位置集合C＝{c₁,c₂,...,c₂₀}。初始化射频环境学习模块。令S’＝S,λ(g)＝0,R＝{g}。

(2)开始第一次迭代，首先利用每个节点给定的初始通信半径生成通信拓扑图3(a)所示，令

(2.1)对S中任一传感器节点s，如果s在图4(a)中与R中某节点为邻居，则测量s与该节点之间的信道质量。本次迭代中，S中未有任何节点与R中节点相邻，因此无需测量。

(2.2)对于任一传感器s(s∈{s₁,s₂,s₃})，从R中寻找一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。令C₁＝C₁∪{c}。在图4(a)中，由于R 中只有g，所以C₁＝{g}，Θ(g)＝{s₁,s₂,s₃}。

(2.3)对于C₁中任一节点v以及Θ(v)中任一传感器节点s，从集合N_G(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。执行λ(v)＝λ(v)+1，C₂＝C₂∪{c}。在图4(a)中，N_G(g)＝{c1,c2,c3}，Θ(g)＝{s₁,s₂,s₃}，为s₁,s₂,s₃找到的中继均为c2,。因此，C₂＝{c₂}，并执行λ(c₂)＝λ(g)+1＝1，R＝R∪ C₂＝{g}∪{c₂}＝{g,c₂}。

(3)开始第二次迭代

(3.1)放置一个中继节点在c₂，并测量c₂与其邻居g之间的信道质量Ψ(g,c₂)。根据Ψ(g,c₂)，利用通信半径估计模块学习射频环境，并估计已测扇面通信半径。

(3.2)对S中任一传感器节点s，如果s在图4(b)中与R中某节点为邻居，则测量s与该节点之间的信道质量。本次迭代中，S中未有任何节点与R中节点相邻，因此无需测量。

(3.3)根据通信半径估计模块估计出的通信半径，利用通信图生成模块构建通信拓扑图如图4(b)所示。令

(3.4)对于任一传感器s(s∈{s₁,s₂,s₃})，从R中寻找一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。令C₁＝C₁∪{c}。在图4(b)中，由于R中只有{g,c₂}，其中c₂距离s₂,s₃更近，因此c₂用来连接s₂,s₃，而g距离 s₁更近，因此g用来连接s₁，即Θ(g)＝{s₁}，Θ(c₂)＝{s₂,s₃}。因此，C₁＝{g,c₂}。

(3.5)对于C₁中任一节点v以及Θ(v)中任一传感器节点s，从集合N_G(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。执行λ(v)＝λ(v)+1，C₂＝C₂∪{c}。在图4(b)中，N_G(g)＝{c₁,c₂,c₃}， N_G(c₂)＝{g,c₁,c₃,c₉,c₈,c₄}，Θ(g)＝{s₁}，Θ(c₂)＝{s₂,s₃}。从N_G(g)中挑出的连接s₁的中继部署位置为c₁，从N_G(c₂)中挑出的连接s₂的中继部署位置为c₈，从N_G(c₂)中挑出的连接s₃的中继部署位置同样为c₈，并执行λ(c₁)＝λ(g)+1＝1，λ(c₈)＝λ(c₂)+1＝2， C₂＝{c₁,c₈}，R＝R∪C₂＝{g,c₂}∪{c₁,c₈}＝{g,c₁,c₂,c₈}。

(3)开始第三次迭代

(3.1)分别放置中继节点在c₁,c₈，并测量c₁与其邻居g之间的信道质量 Ψ(g,c₁)。以及c₈与其邻居c₂之间的信道质量Ψ(c₁,c₈)。据Ψ(g,c₁)和Ψ(c₁,c₈)，利用通信半径估计模块学习射频环境，并估计已测扇面通信半径。

(3.3)根据通信半径估计模块估计出的通信半径，利用通信图生成模块构建通信拓扑图。令

(3.4)对于任一传感器s(s∈{s₁,s₂,s₃})，从R中寻找一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。令C₁＝C₁∪{c}。在图4(c)中，由于R中只有{g,c₁,c₂,c₈}，其中c₈距离s₂,s₃更近，因此c₈用来连接s₂,s₃，而c₁距离s₁更近，因此c₁用来连接s₁，即Θ(c₁)＝{s₁}，Θ(c₈)＝{s₂,s₃}。因此，C₁＝{c₁,c₈}。

(3.5)对于C₁中任一节点v以及Θ(v)中任一传感器节点s，从集合N_G(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继，并记该中继为c。执行λ(v)＝λ(v)+1，C₂＝C₂∪{c}。在图4(c)中，N_G(c₁)＝{g,c₂,c₆}， N_G(c₈)＝{c₂,c₄,c₉,c₁₀,c₁₃}，Θ(c₁)＝{s₁}，Θ(c₈)＝{s₂,s₃}。从N_G(c₁)中挑出的连接s₁的中继部署位置为c₆，从N_G(c₈)中挑出的连接s₂的中继部署位置为c₁₃，从N_G(c₈) 中挑出的连接s₃的中继部署位置同样为c₁₃，并执行λ(c₆)＝λ(c₁)+1＝2，λ(c₁₃)＝λ (c₈)+1＝3，C₂＝{c₆,c₁₃}，R＝R∪C₂＝{g,c₂}∪{c₁,c₈}＝{g,c₁,c₂,c₈,c₆,c₁₃}。

(4)上述步骤一致持续到所有传感器节点都连接到某个部署的中继节点上为止，如图4(d)～(f)所示。可以看出部署完毕后，存在冗余部署的中继节点，如图4(e)中红色中继节点所示。为了删除这些冗余中继节点，首先生成一棵以网关g为根，连接所有传感器节点(即s₁,s₂,s₃)，中间节点为已部署的中继节点的最短路径树，最后删除所有不在这棵最短路径树上的中继节点，剩余中继节点即为最终部署的中继节点，如图4(f)所示。

Claims

1.一种基于强化学习的中继节点部署方法，其特征在于，包括以下步骤：

4)通信半径估计模块根据每个已测中继节点的信道质量，估计每个已测中继节点的通信半径，根据Voronoi估计未测中继节点的通信半径，并将所有中继节点的通信半径发送给通信图生成模块，用于构建通信拓扑图；

所述步骤4)包括以下步骤：

4.1)对于任一中继节点u，以其为圆心，将部署平面划分为κ个扇面，记中继节点u的第i个扇面为x_u,i，对中继节点u在扇面x_u,i上的通信半径的估计为一个动作a_u,i，估计时，a_u,i为整数，令Γ为通信半径的上限，即a_u,i∈{1,2,..,Γ}，Λ＝{1,2,..,Γ}为动作空间，对于每个动作a_u,i，即节点u在扇面x_u,i方向上的通信半径预测值和一个实测信道质量Ψ(u,v)，定义相应的奖励为

4.2)对于中继节点u，如v在u的第i个扇面且得到u和v之间的信道质量测量值，则根据步骤4.1)得到相应奖励r(x_u,i,a_u,i)，然后基于Q-学习中的Bellman等式为扇面x_u,i更新状态；定义扇面x_u,i上的Q-表为Q(x_u,i)＝{Q(x_u,i,a)|a∈Λ}，其中Q(x_u,i,a)采用下式进行更新

其中α为设定的学习率，γ为设定的折扣因子；

4.3)在更新完扇面Q-表后，记Q(x_u,i)中具有最大Q(x_u,i,a)值的动作为μ，令ρ为设定的参数，采用均值为μ、方差为ρ的高斯分布函数生成一个随机值ε，并令该扇面的当前动作，即本次预测的中继节点u在扇面x_u,i上的通信半径为

其中

2.根据权利要求1所述的一种基于强化学习的中继节点部署方法，其特征在于，所述步骤1)具体为：

输入传感器节点集合S、中继节点候选部署位置集合C、网关节点g，以及各个节点通信半径的估计值其中，v表示任意中继节点，中继节点只能放置在中继节点候选部署位置上，传感器节点s与网关节点之间的跳数限制为Δ(s)，利用各节点通信半径生成通信拓扑图G(V,E)，其中V＝S∪C∪{g}，而如果一条边e_uv存在于边集合E，即e_uv∈E，则e_uv满足min(r(u),r(v))≤||u-v||，其中||u-v||表示两个节点间的欧氏距离，令未连接传感器节点集合为S’＝S、已部署中继集合R＝{g}。

3.根据权利要求2所述的一种基于强化学习的中继节点部署方法，其特征在于，所述步骤2)包括以下步骤：

2.1)令为通信拓扑图G中中继节点u和v之间的最短路径，h(p)为路径p的跳数，λ(u)为中继节点u到网关节点的跳数；如果中继节点u满足/>则称中继节点u有效连接传感器节点s，记中继节点u有效连接的传感器节点集合为Θ(u)，令C₁、C₂表示变量，令中继节点u在通信拓扑图G中的邻居节点集合为N_G(u)；

4.根据权利要求3所述的一种基于强化学习的中继节点部署方法，其特征在于，所述步骤3)包括以下步骤：

5.根据权利要求4所述的一种基于强化学习的中继节点部署方法，其特征在于，所述删除R’中冗余中继节点的方法为:以网关节点g为根，各传感器节点为叶子，生成一棵最短路径树，删除不在该最短路径树上的中继节点。

6.一种基于强化学习的中继节点部署系统，其特征在于，包括：

通信半径估计模块，用于根据每个已测中继节点的信道质量，估计每个已测中继节点的通信半径，根据Voronoi估计未测中继节点的通信半径，并将所有中继节点的通信半径发送给通信图生成模块，用于构建通信拓扑图；

所述一种基于强化学习的中继节点部署系统用于执行权利要求1所述的一种基于强化学习的中继节点部署方法。

7.一种基于强化学习的中继节点部署系统，其特征在于，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如权利要求1-5任一项所述的一种基于强化学习的中继节点部署方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-5任一项所述的一种基于强化学习的中继节点部署方法。