CN115175202B - 一种基于强化学习的中继节点部署方法 - Google Patents

一种基于强化学习的中继节点部署方法 Download PDF

Info

Publication number
CN115175202B
CN115175202B CN202210486607.XA CN202210486607A CN115175202B CN 115175202 B CN115175202 B CN 115175202B CN 202210486607 A CN202210486607 A CN 202210486607A CN 115175202 B CN115175202 B CN 115175202B
Authority
CN
China
Prior art keywords
node
relay
relay node
communication
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210486607.XA
Other languages
English (en)
Other versions
CN115175202A (zh
Inventor
梁炜
马超凡
郑萌
夏晔
王恺
赵永恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202210486607.XA priority Critical patent/CN115175202B/zh
Publication of CN115175202A publication Critical patent/CN115175202A/zh
Application granted granted Critical
Publication of CN115175202B publication Critical patent/CN115175202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/12Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/20Communication route or path selection, e.g. power-based or shortest path routing based on geographic position or location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线传感器网络技术,具体地说是一种基于强化学习的中继节点部署方法。本发明针对射频环境复杂、遮挡严重等场景,充分考虑了实时性、可靠性等网络指标,提出了基于强化学习和Voronoi图的中继节点部署方法。该方法具体包括三部分:通信半径估计模块、通信图生成模块和中继位置选择模块,其中通信半径估计算法基于Q‑学习估计每个节点不同角度的通信半径,通信图生成算法基于Voronoi图生成所有节点构成的通信拓扑图,中继位置选择算法用于选择中继部署位置。通过这三个模块地不断迭代,该方法可以逐步学习部署现场射频环境,并自动调节各个地点的通信半径,以此构建可靠、实时的无线通信网络。

Description

一种基于强化学习的中继节点部署方法
技术领域
本发明涉及无线传感器网络技术,具体地说是一种基于强化学习的中继节 点部署方法。
背景技术
无线传感器网络由于其无需布线、部署方便等优点,已经被广泛应用于各 个领域。无线传感器网络由传感器节点、网关节点构成。为了延长网络生命周 期、增大网络覆盖面积,国内外学者专家主张采用基于中继的双层网络架构。 在该架构中,传感器节点只负责感知环境信息,网络通信及连通性由上层的中 继节点承担。
由于无线传感器网络的诸多优点,其已应用于工业领域。但是工业生产环境 具有射频环境复杂、金属遮挡严重、噪声严重等特点,传统采用静态信道模型 的中继部署方法难以在这种环境中构建可靠的通信网络。由此可见,当前继续 一种在严苛环境下构建实时、可靠通信网络的方法。
已有中继节点部署方法采用静态信道模型设计部署算法,在复杂射频环境下, 静态模型无法准确描述各地信道环境,因此难以保证可靠网络通信。
发明内容
本发明针对射频环境复杂、遮挡严重等场景,充分考虑了实时性、可靠性 等网络指标,提出了基于强化学习和Voronoi图的中继节点部署方法。该方法具 体包括三部分:通信半径估计模块、通信图生成模块和中继位置选择模块,其 中通信半径估计算法基于Q-学习估计每个节点不同角度的通信半径,通信图生 成算法基于Voronoi图生成所有节点构成的通信拓扑图,中继位置选择算法用于 选择中继部署位置。通过这三个模块地不断迭代,该方法可以逐步学习部署现 场射频环境,并自动调节各个地点的通信半径,以此构建可靠、实时的无线通 信网络。
本发明为实现上述目的所采用的技术方案是:
一种基于强化学习的中继节点部署方法,包括以下步骤:
1)通信图生成模块根据传感器节点集合、中继节点候选部署位置集合、网 关节点,以及各个节点通信半径构建通信拓扑图;
2)中继位置选择模块在通信拓扑图选择多个位置部署中继节点;
3)信道质量测量模块测量每个中继节点的信道质量,更新未连接传感器节 点集合;
4)通信半径估计模块根据每个已测中继节点的信道质量,估计每个已测中 继节点的通信半径,根据Voronoi估计未测中继节点的通信半径,并将所有中 继节点的通信半径发送给通信图生成模块,用于构建通信拓扑图。
所述步骤1)具体为:
输入传感器节点集合S、中继节点候选部署位置集合C、网关节点g,以及 各个节点通信半径的估计值r(v),其中,v表示任意中继节点, 中继节点只能放置在中继节点候选部署位置上,传感器节点s与网关节点之间的 跳数限制为Δ(s),利用各节点通信半径生成通信拓扑图G(V,E),其中V=S∪C∪ {g},而如果一条边euv存在于边集合E,即euv∈E,则euv满足min(r(u),r(v))≤||u-v||, 其中||u-v||表示两个节点间的欧氏距离,令未连接传感器节点集合为S’=S、已部 署中继集合R={g}。
所述步骤2)包括以下步骤:
2.1)令为通信拓扑图G中中继节点u和v之间的最短路径,h(p)为 路径p的跳数,λ(u)为中继节点u到网关节点的跳数;如果中继节点u满足 />则称中继节点u有效连接传感器节点s,记中继节点u有 效连接的传感器节点集合为Θ(u),令/>C1、C2表示变量,令中继 节点u在通信拓扑图G中的邻居节点集合为NG(u);
2.2)对于S’中任一传感器节点s,从已部署中继集合R中寻找一个有效连 接s、且距离s跳数最小的中继节点,记该中继节点为c,令C1=C1∪{c};
2.3)对于C1中任一中继节点v以及Θ(v)中任一传感器节点s,从集合NG(v)\(R∪S)中找出一个有效连接s、且距离s跳数最小的中继节点,并记该中继 节点为c;执行λ(v)=λ(v)+1,C2=C2∪{c};
2.4)返回集合C2,作为中继位置选择模块选择的中继部署位置,记为R’, 执行R=R∪R’。
所述步骤3)包括以下步骤:
3.3)为新部署的中继节点测量信道质量,如果某个传感器节点s已经与已 部署的中继节点通信,则将s从未连接传感器节点集合中删除,即S’=S’\{s};
3.4)检查未连接传感器节点集合是否为空,若为空,则删除R’中冗余中继 节点并输出结果;若不为空,则继续执行步骤4)。
所述删除冗余中继节点的方法为:以网关节点g为根,各传感器节点为叶子, 生成一棵最短路径树,删除不在该最短路径树上的中继节点。
所述步骤4)包括以下步骤:
4.1)对于任一中继节点u,以其为圆心,将部署平面划分为κ个扇面,记中 继节点u的第i个扇面为xu,i,对中继节点u在扇面xu,i上的通信半径的估计为一 个动作au,i,估计时,au,i为整数,令Γ为通信半径的上限,即au,i∈{1,2,..,Γ}, Λ={1,2,..,Γ}为动作空间,对于每个动作au,i,即节点u在扇面xu,i方向上的通信 半径预测值和一个实测信道质量Ψ(u,v),定义相应的奖励为
其中v是扇面xu,i上的一个中继节点,ζ:=Ψ(u,v)-θ,θ为设定的可靠性约束;
4.2)对于中继节点u,如v在u的第i个扇面且得到u和v之间的信道质 量测量值,则根据步骤4.1)得到相应奖励r(xu,i,au,i),然后基于Q-学习中的 Bellman等式为扇面xu,i更新状态;定义扇面xu,i上的Q-表为Q(xu,i)={Q(xu,i,a) |a∈Λ},其中Q(xu,i,a)采用下式进行更新
其中α为设定的学习率,γ为设定的折扣因子;
4.3)在更新完扇面Q-表后,记Q(xu,i)中具有最大Q(xu,i,a)值的动作为μ,令 ρ为设定的参数,采用均值为μ、方差为ρ的高斯分布函数生成一个随机值ε,并 令该扇面的当前动作,即本次预测的中继节点u在扇面xu,i上的通信半径为
4.4)对每对中继节点间的信道质量测试值执行步骤4.1)~步骤4.3),更 新相应扇面的Q-表和动作;直至所有扇面循环完毕,最终得到每个已测扇面上 的估计通信半径,即每个已测中继节点的通信半径;
4.5)令V’为所有第i个扇面已测中继节点的集合,以V’中中继节点为顶点 做Voronoi图,将平面划分为|V’|个区域,记中继节点u所在的区域为Ω(u),并 令该区域的顶点为v,使用v在第i个扇面的动作估计u在其第i个扇面上的动 作:
其中
4.6)为每个未测量扇面执行步骤4.5),估算出所有未测中继节点的通信半 径。
一种基于强化学习的中继节点部署系统,包括:
通信图生成模块,用于根据传感器节点集合、中继节点候选部署位置集合、 网关节点,以及各个节点通信半径构建通信拓扑图;
中继位置选择模块,用于在通信拓扑图选择多个位置部署中继节点;
信道质量测量模块,用于测量每个中继节点的信道质量,更新未连接传感 器节点集合;
通信半径估计模块,用于根据每个已测中继节点的信道质量,估计每个已 测中继节点的通信半径,根据Voronoi估计未测中继节点的通信半径,并将所 有中继节点的通信半径发送给通信图生成模块,用于构建通信拓扑图。
一种基于强化学习的中继节点部署系统,包括存储器和处理器;所述存储 器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现 所述的一种基于强化学习的中继节点部署方法。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计 算机程序被处理器执行时,实现所述的一种基于强化学习的中继节点部署方法。
本发明具有以下有益效果及优点:
1.与已有采用静态信道模型方法一次性生成部署方案不同,本发明根据实 际测量信道质量,利用Q-学习方法不断更新、学习各个地点的信道信息,因此, 可以更好地解决射频环境复杂的问题。
2.为了加速整个学习过程,本发明基于Voronoi图利用较近的已测节点的通 信半径预测为测量的节点的通信半径,这样可以有效提高学习效率,加快整个 部署流程。
3.本发明所提出的部署位置选择模块,并不是一次生成整个网络的部署位 置,而是采用渐进的策略,每次部署若干中继节点,构建局部连通的网络,以 便于实际信道测量和网络部署方案调整。
附图说明
图1为本发明的方法流程图;
图2为通信半径估计模块工作示意图;
图3a~图3b为通信图生成模块示意图;
图4a~图4f为整体部署方法示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,一种基于强化学习的中继节点部署方法,主体包含以下步骤:
(1.1)输入传感器节点集合S、中继节点候选部署位置集合C、网关节点g, 以及各个节点通信半径的初始估计值r(v),其中中继节点只能放 置在中继节点候选部署位置上。记传感器节点s与网关节点之间的跳数限制为 Δ(s)。利用各节点初始通信半径生成通信拓扑图G(V,E),其中V=S∪C∪{g},而 如果一条边euv存在于边集合E(即euv∈E),则euv满足min(r(u),r(v))≤||u-v||, 其中||u-v||两个节点间的欧氏距离。令未连接传感器节点集合为S’=S、已部署 中继集合R={g}。
(1.2)利用部署位置选择模块根据通信拓扑图G选择若干位置部署中继节 点,并记这些位置为R’。执行R=R∪R’。
(1.3)为新部署的中继节点测量信道质量(可为收包率等指标),如果某 个传感器节点s已经可以与部署中继通信,则将s从未连接传感器节点集合中删 除,即S’=S’\{s}。
(1.4)检查未连接传感器节点集合是否为空,若为空,则删除R’中冗余中 继并输出结果;不为空,则继续执行(1.5)。其中删除冗余中继节点的方法为以 网关g为根,各传感器节点(即S中节点)为叶子,生成一棵最短路径树,删 除不在该最短路径树上的中继节点。
(1.5)利用通信半径估计模块,根据已测信道质量估计每个已测节点的通 信半径。
(1.6)首先基于Voronoi图估计未测节点通信半径,然后估计各个节点通 信半径重新生成通信拓扑图G(V,E),其生成方法与(1.1)所述一致。然后进入 步骤(1.2)。
所述部署位置选择模块具体如下:
(2.1)令为图G中节点u和v之间的最短路径,h(p)为路径p的跳 数,λ(u)为节点u到网关的跳数。如果节点u满足/>则称节 点u可以有效连接传感器s。记节点u所能有效连接的传感器节点集合为Θ(u)。 令/>令节点u在图G中的邻居节点集合为NG(u)。
(2.2)对于S’中任一传感器s,从R中寻找一个能够有效连接s、且距离s 跳数最小的中继,并记该中继为c。令C1=C1∪{c}。
(2.3)对于C1中任一节点v以及Θ(v)中任一传感器节点s,从集合NG(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继,并记该中继为c。 执行λ(v)=λ(v)+1,C2=C2∪{c}。
(2.4)返回集合C2,即部署位置选择模块本次所选择的中继部署位置。
所述通信半径估计模块具体如下:
(3.1)对于任一节点u,以其为圆心,将部署平面划分为κ个扇面。记节点 u的第i个扇面为xu,i。称对节点u在扇面xu,i上的通信半径的估计为一个动作au,i。 估计时,au,i为整数,单位为米。令Γ为通信半径的上限,即au,i∈{1,2,..,Γ}。Λ={1, 2,..,Γ}为动作空间。称为了根据已有信道质量测量值,学习部署现场射频环境, 对于每个动作au,i(即节点u在扇面xu,i方向上的通信半径预测值)和一个实测 信道质量Ψ(u,v),定义相应的奖励为
其中v是扇面xu,i上的一个节点,ζ:=Ψ(u,v)-θ,θ为用户给定的可靠性约束。
(3.2)对于节点u,如v在u的第i个扇面且得到u和v之间的信道质量 测量值,则根据(3.1)得到相应奖励r(xu,i,au,i),然后基于Q-学习中的Bellman 等式为扇面xu,i更新状态。定义扇面xu,i上的Q-表为Q(xu,i)={Q(xu,i,a)|a∈Λ},其 中Q(xu,i,a)采用下士进行更新
其中α为用户设定的学习率,γ为用户设定的折扣因子。
(3.3)在更新完扇面Q-表后,记Q(xu,i)中具有最大Q(xu,i,a)值的动作为μ, 令ρ为用户设定的参数,则采用均值为μ、方差为ρ的高斯分布函数生成一个随机 值ε,并令该扇面的当前动作(即本次预测的节点u在扇面xu,i上的通信半径) 为
(3.4)对本轮循环中每对节点间的信道质量测试值执行(3.1)~(3.3), 更新相应扇面的Q-表和动作。最终得到每个已测上面上的估计通信半径。
所述通信图生成模块具体如下:
(4.1)假如节点u的第i个扇面一直未被测量,但在构建通信拓扑图时必 须知道节点u在扇面xu,i上的通信半径,为此,可以利用已测扇面的通信半径推 测未测扇面的通信半径。
(4.2)令V’为所有第i个扇面已测节点的集合。以V’中节点为顶点做 Voronoi图,将平面划分为|V’|个区域,记节点u所在的区域为Ω(u),并令该区 域的顶点为v。我们用v在第i个扇面的动作估计u在其第i个扇面上的动作, 方法如下:
其中
(4.3)为每个未测量扇面执行(4.2),最终所有扇面都得到了自己的通信 半径预测值。
(4.4)利用步骤(1.1)所述方法,构建通信拓扑图G(V,E)。
本发明包括通信半径估计模块、通信图生成模块和中继位置选择模块三个 部分。
通信半径估计模块的工作流程如图2所示:
以任一节点u为中心,将整个平面分为若干扇面(本图中为8个扇面),每 个扇面上的动作为节点u在该扇面方向上的通信半径估计,本图中给出每个扇 面上的可能动作一共有9个即{1,2,3,…,9}。假设节点v在扇面xu,4方向上,该扇 面的上一次动作(通信半径预测值)为6,并测量到u和v之间的信道质量 Ψ(u,v)=0.98,可靠性阈值θ由用户给出,所以可以根据式(1)计算出该扇面上 一次的动作(通信半径预测值)的奖励r(xu,4,6)。假设目前该扇面上的Q表为 Q(xu,4,1)=0.03,Q(xu,4,2)=0.03,Q(xu,4,3)=0.05,Q(xu,4,4)=0.07,Q(xu,4,5)=0.1, Q(xu,4,6)=0.24,Q(xu,4,7)=0.13,Q(xu,4,8)=0.05,Q(xu,4,9)=-0.03。由于α和γ为用户给定 参数,可以根据式(2)更新Q-表中动作6的值Q(xu,4,6)。在根据所有信道质量 测量值更新完相应扇面后,每个扇面上的通信半径预测值,为该扇面Q-表中值 最大的动作。
通信图生成模块的工作流程如图3所示:
假设扇面xu,4未被测量,为估计节点u在扇面xu,4方向上的通信半径,首先 找到所有第i个扇面都被测试过的节点,如图3(a)中所示的带蓝色扇面的节 点,记这些节点的集合为V’。接着以集合V’中的节点为顶点,做Voronoi图, 将平面划分为若干区域,如图3(b)所示。从图3(b)中可以看出,节点u属 于以节点v为顶点的区域,这样,就可以利用v的第i个扇面xv,4方向上的半径 估计xu,4的通信半径。若上一轮中xu,4方向上的动作为则本轮xu,4方向上的 半径预测值可根据式(3)计算,即
整体部署方法的工作流程如图4所示,其中虚线连接的两个节点表示这两 个节点可以直接通信:
(1)输入为网关节点g、无线传感器节点集合S={s1,s2,s3}、候选部署位置集 合C={c1,c2,...,c20}。初始化射频环境学习模块。令S’=S,λ(g)=0,R={g}。
(2)开始第一次迭代,首先利用每个节点给定的初始通信半径生成通信拓扑 图3(a)所示,令
(2.1)对S中任一传感器节点s,如果s在图4(a)中与R中某节点为邻居,则 测量s与该节点之间的信道质量。本次迭代中,S中未有任何节点与R中节点相 邻,因此无需测量。
(2.2)对于任一传感器s(s∈{s1,s2,s3}),从R中寻找一个能够有效连接s、且距 离s跳数最小的中继,并记该中继为c。令C1=C1∪{c}。在图4(a)中,由于R 中只有g,所以C1={g},Θ(g)={s1,s2,s3}。
(2.3)对于C1中任一节点v以及Θ(v)中任一传感器节点s,从集合NG(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继,并记该中继为c。 执行λ(v)=λ(v)+1,C2=C2∪{c}。在图4(a)中,NG(g)={c1,c2,c3},Θ(g)={s1,s2,s3}, 为s1,s2,s3找到的中继均为c2,。因此,C2={c2},并执行λ(c2)=λ(g)+1=1,R=R∪ C2={g}∪{c2}={g,c2}。
(3)开始第二次迭代
(3.1)放置一个中继节点在c2,并测量c2与其邻居g之间的信道质量Ψ(g,c2)。 根据Ψ(g,c2),利用通信半径估计模块学习射频环境,并估计已测扇面通信半径。
(3.2)对S中任一传感器节点s,如果s在图4(b)中与R中某节点为邻居, 则测量s与该节点之间的信道质量。本次迭代中,S中未有任何节点与R中节点 相邻,因此无需测量。
(3.3)根据通信半径估计模块估计出的通信半径,利用通信图生成模块构 建通信拓扑图如图4(b)所示。令
(3.4)对于任一传感器s(s∈{s1,s2,s3}),从R中寻找一个能够有效连接s、 且距离s跳数最小的中继,并记该中继为c。令C1=C1∪{c}。在图4(b)中, 由于R中只有{g,c2},其中c2距离s2,s3更近,因此c2用来连接s2,s3,而g距离 s1更近,因此g用来连接s1,即Θ(g)={s1},Θ(c2)={s2,s3}。因此,C1={g,c2}。
(3.5)对于C1中任一节点v以及Θ(v)中任一传感器节点s,从集合NG(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继,并记该中继为c。 执行λ(v)=λ(v)+1,C2=C2∪{c}。在图4(b)中,NG(g)={c1,c2,c3}, NG(c2)={g,c1,c3,c9,c8,c4},Θ(g)={s1},Θ(c2)={s2,s3}。从NG(g)中挑出的连接s1的中 继部署位置为c1,从NG(c2)中挑出的连接s2的中继部署位置为c8,从NG(c2)中挑 出的连接s3的中继部署位置同样为c8,并执行λ(c1)=λ(g)+1=1,λ(c8)=λ(c2)+1=2, C2={c1,c8},R=R∪C2={g,c2}∪{c1,c8}={g,c1,c2,c8}。
(3)开始第三次迭代
(3.1)分别放置中继节点在c1,c8,并测量c1与其邻居g之间的信道质量 Ψ(g,c1)。以及c8与其邻居c2之间的信道质量Ψ(c1,c8)。据Ψ(g,c1)和Ψ(c1,c8),利用 通信半径估计模块学习射频环境,并估计已测扇面通信半径。
(3.2)对S中任一传感器节点s,如果s在图4(b)中与R中某节点为邻居, 则测量s与该节点之间的信道质量。本次迭代中,S中未有任何节点与R中节点 相邻,因此无需测量。
(3.3)根据通信半径估计模块估计出的通信半径,利用通信图生成模块构 建通信拓扑图。令
(3.4)对于任一传感器s(s∈{s1,s2,s3}),从R中寻找一个能够有效连接s、 且距离s跳数最小的中继,并记该中继为c。令C1=C1∪{c}。在图4(c)中, 由于R中只有{g,c1,c2,c8},其中c8距离s2,s3更近,因此c8用来连接s2,s3,而c1距离s1更近,因此c1用来连接s1,即Θ(c1)={s1},Θ(c8)={s2,s3}。因此,C1={c1,c8}。
(3.5)对于C1中任一节点v以及Θ(v)中任一传感器节点s,从集合NG(v)\(R ∪S)中找出一个能够有效连接s、且距离s跳数最小的中继,并记该中继为c。 执行λ(v)=λ(v)+1,C2=C2∪{c}。在图4(c)中,NG(c1)={g,c2,c6}, NG(c8)={c2,c4,c9,c10,c13},Θ(c1)={s1},Θ(c8)={s2,s3}。从NG(c1)中挑出的连接s1的 中继部署位置为c6,从NG(c8)中挑出的连接s2的中继部署位置为c13,从NG(c8) 中挑出的连接s3的中继部署位置同样为c13,并执行λ(c6)=λ(c1)+1=2,λ(c13)=λ (c8)+1=3,C2={c6,c13},R=R∪C2={g,c2}∪{c1,c8}={g,c1,c2,c8,c6,c13}。
(4)上述步骤一致持续到所有传感器节点都连接到某个部署的中继节点上 为止,如图4(d)~(f)所示。可以看出部署完毕后,存在冗余部署的中继节 点,如图4(e)中红色中继节点所示。为了删除这些冗余中继节点,首先生成 一棵以网关g为根,连接所有传感器节点(即s1,s2,s3),中间节点为已部署的中 继节点的最短路径树,最后删除所有不在这棵最短路径树上的中继节点,剩余 中继节点即为最终部署的中继节点,如图4(f)所示。

Claims (8)

1.一种基于强化学习的中继节点部署方法,其特征在于,包括以下步骤:
1)通信图生成模块根据传感器节点集合、中继节点候选部署位置集合、网关节点,以及各个节点通信半径构建通信拓扑图;
2)中继位置选择模块在通信拓扑图选择多个位置部署中继节点;
3)信道质量测量模块测量每个中继节点的信道质量,更新未连接传感器节点集合;
4)通信半径估计模块根据每个已测中继节点的信道质量,估计每个已测中继节点的通信半径,根据Voronoi估计未测中继节点的通信半径,并将所有中继节点的通信半径发送给通信图生成模块,用于构建通信拓扑图;
所述步骤4)包括以下步骤:
4.1)对于任一中继节点u,以其为圆心,将部署平面划分为κ个扇面,记中继节点u的第i个扇面为xu,i,对中继节点u在扇面xu,i上的通信半径的估计为一个动作au,i,估计时,au,i为整数,令Γ为通信半径的上限,即au,i∈{1,2,..,Γ},Λ={1,2,..,Γ}为动作空间,对于每个动作au,i,即节点u在扇面xu,i方向上的通信半径预测值和一个实测信道质量Ψ(u,v),定义相应的奖励为
其中v是扇面xu,i上的一个中继节点,ζ:=Ψ(u,v)-θ,θ为设定的可靠性约束;
4.2)对于中继节点u,如v在u的第i个扇面且得到u和v之间的信道质量测量值,则根据步骤4.1)得到相应奖励r(xu,i,au,i),然后基于Q-学习中的Bellman等式为扇面xu,i更新状态;定义扇面xu,i上的Q-表为Q(xu,i)={Q(xu,i,a)|a∈Λ},其中Q(xu,i,a)采用下式进行更新
其中α为设定的学习率,γ为设定的折扣因子;
4.3)在更新完扇面Q-表后,记Q(xu,i)中具有最大Q(xu,i,a)值的动作为μ,令ρ为设定的参数,采用均值为μ、方差为ρ的高斯分布函数生成一个随机值ε,并令该扇面的当前动作,即本次预测的中继节点u在扇面xu,i上的通信半径为
4.4)对每对中继节点间的信道质量测试值执行步骤4.1)~步骤4.3),更新相应扇面的Q-表和动作;直至所有扇面循环完毕,最终得到每个已测扇面上的估计通信半径,即每个已测中继节点的通信半径;
4.5)令V’为所有第i个扇面已测中继节点的集合,以V’中中继节点为顶点做Voronoi图,将平面划分为|V’|个区域,记中继节点u所在的区域为Ω(u),并令该区域的顶点为v,使用v在第i个扇面的动作估计u在其第i个扇面上的动作:
其中
4.6)为每个未测量扇面执行步骤4.5),估算出所有未测中继节点的通信半径。
2.根据权利要求1所述的一种基于强化学习的中继节点部署方法,其特征在于,所述步骤1)具体为:
输入传感器节点集合S、中继节点候选部署位置集合C、网关节点g,以及各个节点通信半径的估计值其中,v表示任意中继节点,中继节点只能放置在中继节点候选部署位置上,传感器节点s与网关节点之间的跳数限制为Δ(s),利用各节点通信半径生成通信拓扑图G(V,E),其中V=S∪C∪{g},而如果一条边euv存在于边集合E,即euv∈E,则euv满足min(r(u),r(v))≤||u-v||,其中||u-v||表示两个节点间的欧氏距离,令未连接传感器节点集合为S’=S、已部署中继集合R={g}。
3.根据权利要求2所述的一种基于强化学习的中继节点部署方法,其特征在于,所述步骤2)包括以下步骤:
2.1)令为通信拓扑图G中中继节点u和v之间的最短路径,h(p)为路径p的跳数,λ(u)为中继节点u到网关节点的跳数;如果中继节点u满足/>则称中继节点u有效连接传感器节点s,记中继节点u有效连接的传感器节点集合为Θ(u),令C1、C2表示变量,令中继节点u在通信拓扑图G中的邻居节点集合为NG(u);
2.2)对于S’中任一传感器节点s,从已部署中继集合R中寻找一个有效连接s、且距离s跳数最小的中继节点,记该中继节点为c,令C1=C1∪{c};
2.3)对于C1中任一中继节点v以及Θ(v)中任一传感器节点s,从集合NG(v)\(R∪S)中找出一个有效连接s、且距离s跳数最小的中继节点,并记该中继节点为c;执行λ(v)=λ(v)+1,C2=C2∪{c};
2.4)返回集合C2,作为中继位置选择模块选择的中继部署位置,记为R’,执行R=R∪R’。
4.根据权利要求3所述的一种基于强化学习的中继节点部署方法,其特征在于,所述步骤3)包括以下步骤:
3.3)为新部署的中继节点测量信道质量,如果某个传感器节点s已经与已部署的中继节点通信,则将s从未连接传感器节点集合中删除,即S’=S’\{s};
3.4)检查未连接传感器节点集合是否为空,若为空,则删除R’中冗余中继节点并输出结果;若不为空,则继续执行步骤4)。
5.根据权利要求4所述的一种基于强化学习的中继节点部署方法,其特征在于,所述删除R’中冗余中继节点的方法为:以网关节点g为根,各传感器节点为叶子,生成一棵最短路径树,删除不在该最短路径树上的中继节点。
6.一种基于强化学习的中继节点部署系统,其特征在于,包括:
通信图生成模块,用于根据传感器节点集合、中继节点候选部署位置集合、网关节点,以及各个节点通信半径构建通信拓扑图;
中继位置选择模块,用于在通信拓扑图选择多个位置部署中继节点;
信道质量测量模块,用于测量每个中继节点的信道质量,更新未连接传感器节点集合;
通信半径估计模块,用于根据每个已测中继节点的信道质量,估计每个已测中继节点的通信半径,根据Voronoi估计未测中继节点的通信半径,并将所有中继节点的通信半径发送给通信图生成模块,用于构建通信拓扑图;
所述一种基于强化学习的中继节点部署系统用于执行权利要求1所述的一种基于强化学习的中继节点部署方法。
7.一种基于强化学习的中继节点部署系统,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-5任一项所述的一种基于强化学习的中继节点部署方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-5任一项所述的一种基于强化学习的中继节点部署方法。
CN202210486607.XA 2022-05-06 2022-05-06 一种基于强化学习的中继节点部署方法 Active CN115175202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210486607.XA CN115175202B (zh) 2022-05-06 2022-05-06 一种基于强化学习的中继节点部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210486607.XA CN115175202B (zh) 2022-05-06 2022-05-06 一种基于强化学习的中继节点部署方法

Publications (2)

Publication Number Publication Date
CN115175202A CN115175202A (zh) 2022-10-11
CN115175202B true CN115175202B (zh) 2023-11-07

Family

ID=83484269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210486607.XA Active CN115175202B (zh) 2022-05-06 2022-05-06 一种基于强化学习的中继节点部署方法

Country Status (1)

Country Link
CN (1) CN115175202B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343691A (zh) * 2019-12-26 2020-06-26 中原工学院 面向网内计算的无线传感器网络中继节点部署方法
CN113128121A (zh) * 2021-04-22 2021-07-16 中国电子科技集团公司第二十九研究所 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210027862A1 (en) * 2018-03-30 2021-01-28 Board Of Trustees Of Michigan State University Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343691A (zh) * 2019-12-26 2020-06-26 中原工学院 面向网内计算的无线传感器网络中继节点部署方法
CN113128121A (zh) * 2021-04-22 2021-07-16 中国电子科技集团公司第二十九研究所 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Diya Thomas ; Rajan Shankaran.QoS-Aware Energy Management and Node Scheduling Schemes for Sensor Network-Based Surveillance Applications.《IEEE Access》.2020,全文. *
蚁群优化理论在无人机战术控制中的应用研究;陈岩;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;全文 *

Also Published As

Publication number Publication date
CN115175202A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
Papadopoulos et al. Network mapping by replaying hyperbolic growth
US9818297B2 (en) Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
Jia et al. A set-theoretic approach to collaborative position location for wireless networks
CN108075975B (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
Wang et al. Locating sensors in concave areas
CN113988464B (zh) 基于图神经网络的网络链路属性关系预测方法及设备
Hollinger et al. Autonomous data collection from underwater sensor networks using acoustic communication
JP6532606B2 (ja) 位置推定装置
CN108966120A (zh) 一种用于动态集群网络改进的组合三边定位方法及系统
CN115175202B (zh) 一种基于强化学习的中继节点部署方法
CN112153564A (zh) 基于集中式与分布式计算相结合的高效多跳定位方法
Wang et al. Distance estimation by constructing the virtual ruler in anisotropic sensor networks
CN105959912B (zh) 基于改进离散差分算法的汇聚节点定位方法
Labinghisa et al. Improved indoor localization system based on virtual access points in a Wi-Fi environment by filtering schemes
CN113923123A (zh) 一种基于深度强化学习的水下无线传感器网络拓扑控制方法
CN104853365A (zh) 一种基于有损链路状态预测的无线传感网拓扑构建方法
CN115243212B (zh) 一种基于auv辅助和改进跨层聚类的海洋数据采集方法
Jia et al. Collaborative position location for wireless networks using iterative parallel projection method
CN115665659A (zh) 基于张量的移动物联网覆盖可靠性评估方法
CN112887909B (zh) 一种基于Wi-Fi信号的室内定位方法
CN113408741B (zh) 一种自适应网络拓扑的分布式admm机器学习方法
Zhu et al. Distributed sensor network localization using combination and diffusion scheme
CN116208527B (zh) 收发信机受限的移动自组织网络的抗毁性评估方法
Morita et al. Channel Capacity Prediction Using Point of Interest for Design and Operation Support of Network
CN112272380B (zh) 面向复杂部署环境的在线工业无线传感器网络部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant