CN110730486B - 基于Q-Learning算法获取无线体域网最优路径的方法 - Google Patents

基于Q-Learning算法获取无线体域网最优路径的方法 Download PDF

Info

Publication number
CN110730486B
CN110730486B CN201910846122.5A CN201910846122A CN110730486B CN 110730486 B CN110730486 B CN 110730486B CN 201910846122 A CN201910846122 A CN 201910846122A CN 110730486 B CN110730486 B CN 110730486B
Authority
CN
China
Prior art keywords
node
matrix
area network
body area
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910846122.5A
Other languages
English (en)
Other versions
CN110730486A (zh
Inventor
张戈
奚思遥
王力立
尹欣杰
张新宇
黄成�
吴晓蓓
杜万年
闫晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201910846122.5A priority Critical patent/CN110730486B/zh
Publication of CN110730486A publication Critical patent/CN110730486A/zh
Application granted granted Critical
Publication of CN110730486B publication Critical patent/CN110730486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/10Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/12Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/20Communication route or path selection, e.g. power-based or shortest path routing based on geographic position or location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Q‑Learning算法获取无线体域网最优路径的方法,属于无线传感器网络控制领域,该方法包括以下步骤:初始化无线体域网参数;设定Q‑Learning算法中学习率α和折扣因子γ的值;构建评价矩阵用于寻找最优路径,并利用初始化的无线体域网参数求取评价矩阵的初始值,之后在路径选择过程中不断更新评价矩阵,并利用Q‑Learning算法不断学习Q矩阵;根据学习后的Q矩阵获取发送节点到目标节点的最优路径。本发明方法可以显著有效延长WBAN网络节点生存周期,能提高无线体域网更精确快捷地服务人类生活的能力,可以被广泛应用于医疗监测、疾病防控等无线体域网实际应用场景。

Description

基于Q-Learning算法获取无线体域网最优路径的方法
技术领域
本发明属于无线传感器网络控制领域,特别涉及一种基于Q-Learning算法获取无线体域网最优路径的方法。
背景技术
体域网,是通过在人体上布置一些小型传感器实现通信功能,并由体域网协调器联系这些传感器组成的一种网络。传感器可分为体表传感器和体内传感器,而协调器是作为连接体域网和外部网络的一种网关,数据在这些传感器之间利用无线信道进行安全准确的通信,因而体域网也可以称作无线体域网。无线体域网传感器小巧简易,可以负载在人体上从而可以保持一直进行数据传输处理,因为生理信号的独特性,身份认证的安全性得到了很大的提高。无线体域网搭建简单,占用空间小,所需要的材料成本低,所带来的性能好,可靠性高,还具有一定的安全性,因此无线体域网在生物领域各方面应用都有着广阔的前景,对人们的生活意义重大。
无线体域网路由算法是为了解决节点能耗问题,通过采用高效节能的路由协议,得出最优能量耗散传输路径,使得节点的能量消耗减小,增加网络的运行时间。目前无线体域网常用的有能量感知路由协议,该协议以数据传输中的能量消耗为标准,选择最优网络路径。通常根据具体的指标选择不同,能量感知路由协议可以分为单个数据分组所需最小能量路由,最小总发射功率路由,最大总可用电池容量路由,最小电池消耗路由,最小-最大电池消耗路由等。能量感知路由容易陷入单一路径,使得路径外的节点没有被充分利用,对于无线体域网整体寿命来说,效果不是非常理想。此外,传统的Ad Hoc网络路由协议是将路径跳数和时延作为衡量指标,但是在无线体域网中容易消耗过多的节点能量,降低网络寿命。
发明内容
本发明的目的在于提供一种获取无线体域网最优路径的方法,在考虑接收节点剩余能量和路径传输损耗的情况下,有效延长无线体域网网络节点生存周期,找到既能保证链路质量,又能考虑到整体数据传输网络的能量消耗的转发节点的最优选择。
实现本发明目的的技术解决方案为:一种基于Q-Learning算法获取无线体域网最优路径的方法,包括以下步骤:
步骤1、初始化无线体域网参数;
步骤2、设定Q-Learning算法中学习率α和折扣因子γ的值,其中α,γ∈[0,1];
步骤3、构建评价矩阵用于寻找最优路径,并利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,之后在路径选择过程中不断更新评价矩阵,并利用Q-Learning算法不断学习Q矩阵;
步骤4、根据学习后的Q矩阵获取发送节点到目标节点sink的最优路径。
进一步地,步骤1所述初始化无线体域网参数,包括节点的数量、发送节点的设定、接收节点的设定、节点连接关系矩阵conx、接收节点剩余能量矩阵P以及节点距离矩阵D和路径损耗矩阵S。
进一步地,步骤3所述构建评价矩阵,并利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,之后在路径选择过程中不断更新评价矩阵,并利用Q-Learning算法不断学习Q矩阵,具体为:
步骤3-1、根据无线体域网参数构建评价矩阵R:
R=f(P,S)=A×P+B×S
式中,A、B分别为接收节点剩余能量矩阵P、路径损耗矩阵S的比重参数;
步骤3-2、利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,初始化学习轮次数m=0,并初始化Q矩阵,公式如下:
Qij=0
式中,Qij表示从节点i发送至节点j对应的Q值;
步骤3-3、随机选择一个发送节点i,通过节点连接关系矩阵conx找出下一个可能动作的集合,即所有可能的接收节点的集合;
步骤3-4、利用贪婪策略从步骤3-3的集合中选取接收节点j;
步骤3-5、求取当前接收节点j的剩余能量值,并由此更新矩阵P,从而更新评价矩阵R;特殊地,若发送节点i与接收节点j对应的conxij为0,则将矩阵P和S中对应的值Pij、Sij置为0,从而R矩阵中对应的值Rij更新为0;特殊地,若Pij小于预设阈值Plow,则当前接收节点j退出工作,conxij、Pij、Sij、Rij均置为0;
步骤3-6、获取当前接收节点j到其它节点的最大Q值Qmax,结合更新后的评价矩阵R中的Rij和Qmax更新Q矩阵,所用公式为:
Qijnew=Qijold+α[Rij+γQmax]
式中,Qijold表示更新前的Q矩阵,Qijnew表示更新后的Q矩阵;
步骤3-7、判断当前接收节点j是否为sink节点,若是,令m递增1,并判断m是否大于设定的学习轮次数阈值M,若大于,则结束学习Q矩阵,反之返回步骤3-3;否则返回步骤3-4。
进一步地,步骤4所述根据学习后的Q矩阵获取发送节点到目标节点sink的最优路径,具体为:
步骤4-1、将Q矩阵中的所有Q值取倒数,Q值为0的倒数取无穷大,并将Q值倒数视为节点间的距离;
步骤4-2、设定发送节点i,构建两个为空的集合F和H,并将发送节点i加入集合F中,其余所有节点加入集合H中;
步骤4-3、从集合H中寻找conxij=1的所有节点,之后从这些节点中选取Qij最小的节点j,并将该节点从集合H中剔除且加入至集合F中,由此获得发送节点i到节点j的最短路径;
步骤4-4、从集合H中寻找conxjk=1的所有节点,针对这些节点中的每一个节点k,求取Qij与Qjk的和Qsum以及Qik,选取Qsum和Qik中的较小值,并将较小值赋值给Qik且加入集合L中;
步骤4-5、选取集合L中的最小值对应的节点q,并将该节点从集合H中剔除且加入至集合F中,由此获得发送节点i到节点q的最短路径;
步骤4-6、将节点q视为新的节点j,重复步骤4-4至4-6,直至集合F包含所有节点;
步骤4-7、从上述过程获得的所有路径中选取发送节点i至sink节点的最短路径,即为最优路径。
本发明与现有技术相比,其显著优点为:1)在选择路径时考虑了链路路径传输损耗,使得传输的数据准确性提高,保证了信道质量;2)在选择路径时考虑了每一段链路的接收端节点剩余能量,选择的路径可以让网络中各个节点的能量损耗均匀下降,从而延长整个无线体域网节点的生存周期。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于Q-Learning算法获取无线体域网最优路径的方法流程图。
图2为本发明实施例中仿真实验人体模型图。
图3为本发明实施例中仿真实验节点连接图。
图4为本发明实施例中仿真实验编号9节点发送数据的最优路径示意图。
图5为本发明实施例中仿真实验编号22节点发送数据的最优路径示意图。
图6为本发明实施例中仿真实验编号4节点发送数据的路径示意图,其中,图(a)为路径[4,7,10,12,14]的示意图,图(b)为路径[4,7,10,11,14]的示意图。
图7为本发明实施例中仿真实验编号16节点发送数据的路径示意图,其中,图(a)为路径[16,17,9,10,11,14]的示意图,图(b)为路径[16,6,7,11,14]的示意图。
图8为本发明实施例中仿真实验转发节点数与网络生存周期示意图。
具体实施方式
结合图1,本发明一种基于Q-Learning算法获取无线体域网最优路径的方法,包括以下步骤:
步骤1、初始化无线体域网参数;
步骤2、设定Q-Learning算法中学习率α和折扣因子γ的值,其中α,γ∈[0,1];
步骤3、构建评价矩阵用于寻找最优路径,并利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,之后在路径选择过程中不断更新评价矩阵,并利用Q-Learning算法不断学习Q矩阵;
步骤4、根据学习后的Q矩阵获取发送节点到目标节点sink的最优路径。
进一步地,在其中一个实施例中,步骤1中初始化无线体域网参数,包括节点的数量、发送节点的设定、接收节点的设定、节点连接关系矩阵conx、接收节点剩余能量矩阵P以及节点距离矩阵D和路径损耗矩阵S;
其中,节点连接关系矩阵conx的初始化公式为:
Figure BDA0002195266270000041
接收节点剩余能量矩阵P的初始化公式为:
Figure BDA0002195266270000051
式中,sink为自定义设置的目标节点,Pre-start为sink节点的初始能量,Pse-start为其余节点初始能量;
节点距离矩阵D的初始化公式为:
Figure BDA0002195266270000052
式中,Dij为节点i与节点j之间的直线距离,(x*,y*)表示节点“*”的坐标;
路径损耗矩阵S与节点距离矩阵D成正相关,其初始化公式为:
Figure BDA0002195266270000053
式中,K为比例系数,inf表示距离无限大。
进一步地,在其中一个实施例中,步骤3中构建评价矩阵,并利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,之后在路径选择过程中不断更新评价矩阵,并利用Q-Learning算法不断学习Q矩阵,具体为:
步骤3-1、根据无线体域网参数构建评价矩阵R:
R=f(P,S)=A×P+B×S
式中,A、B分别为接收节点剩余能量矩阵、路径损耗矩阵的比重参数;
步骤3-2、利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,初始化学习轮次数m=0,并初始化Q矩阵,公式如下:
Qij=0
式中,Qij表示从节点i发送至节点j对应的Q值;
步骤3-3、随机选择一个发送节点i,通过节点连接关系矩阵conx找出下一个可能动作的集合,即所有可能的接收节点的集合;
步骤3-4、利用贪婪策略从步骤3-3的集合中选取接收节点j;
步骤3-5、求取当前接收节点j的剩余能量值,并由此更新矩阵P,从而更新评价矩阵R;特殊地,若发送节点i与接收节点j对应的conxij为0,则将矩阵P和S中对应的值Pij、Sij置为0,从而R矩阵中对应的值Rij更新为0;特殊地,若Pij小于预设阈值Plow,则当前接收节点j退出工作,conxij、Pij、Sij、Rij均置为0;
步骤3-6、获取当前接收节点j到其它节点的最大Q值Qmax,结合更新后的评价矩阵R中的Rij和Qmax更新Q矩阵,所用公式为:
Qijnew=Qijold+α[Rij+γQmax]
式中,Qijold表示更新前的Q矩阵,Qijnew表示更新后的Q矩阵;
步骤3-7、判断当前接收节点j是否为sink节点,若是,令m递增1,并判断m是否大于设定的学习轮次数阈值M,若大于,则结束学习Q矩阵,反之返回步骤3-3;否则返回步骤3-4。
进一步地,在其中一个实施例中,步骤3-4中利用贪婪策略从步骤3-3的集合中选取接收节点j,具体为:以β的概率随机选取接收节点j,以1-β的概率选取最大的Qij值对应的接收节点j,其中0<β<1。
进一步地,在其中一个实施例中,步骤3-5中求取当前接收节点j的剩余能量值Pijnew,所用公式为:
Pijnew=Pijold-ΔP
式中,Pijold为接收节点j原有剩余能量值,ΔP为接收节点j接收信号所消耗的能量。
进一步地,在其中一个实施例中,步骤4中根据学习后的Q矩阵获取发送节点到目标节点sink的最优路径,具体为:
步骤4-1、将Q矩阵中的所有Q值取倒数,Q值为0的倒数取无穷大,并将Q值倒数视为节点间的距离;
步骤4-2、设定发送节点i,构建两个为空的集合F和H,并将发送节点i加入集合F中,其余所有节点加入集合H中;
步骤4-3、从集合H中寻找conxij=1的所有节点,之后从这些节点中选取Qij最小的节点j,并将该节点从集合H中剔除且加入至集合F中,由此获得发送节点i到节点j的最短路径;
步骤4-4、从集合H中寻找conxjk=1的所有节点,针对这些节点中的每一个节点k,求取Qij与Qjk的和Qsum以及Qik,选取Qsum和Qik中的较小值,并将较小值赋值给Qik且加入集合L中;
步骤4-5、选取集合L中的最小值对应的节点q,并将该节点从集合H中剔除且加入至集合F中,由此获得发送节点i到节点q的最短路径;
步骤4-6、将节点q视为新的节点j,重复步骤4-4至4-6,直至集合F包含所有节点;
步骤4-7、从上述过程获得的所有路径中选取发送节点i至sink节点的最短路径,即为最优路径。
下面结合实施例对本发明作进一步详细的描述。
实施例
本实施例中网络模型假设建立在一个成人身体上,整个网络包括了7个数据发送节点(分别编号为2,4,16,9,20,22,26),1个数据接收节点sink(编号为14)和18个数据转发节点。接收节点放置在人体模型的左侧腰部,数据发送节点分别放置在左耳,脖颈,左手背,右手肘,右腹,右膝盖,左脚踝,具体为如图2所示。
各个节点之间的连接关系如图3所示,当两节点之间有虚线连接时,表示两节点可以建立起通信链路,实现相互的数据传输。本实施例在仿真时建立一个26×26的矩阵conx,矩阵的行i表示信号发射节点的编号,而矩阵的列j作为信号接收节点的编号,当矩阵conxij值为1时,表示此行列编号的链路i-j可以联通。
在仿真中建立一个简易的能量模型,先假设接收节点初始能量有Pre-start,而其余节点初始能量有Pse-start,同时在每一段数据传输的链路中,接收节点需要消耗Preceive能量,而发射节点需要消耗Psend能量。在仿真时建立一个26×26的矩阵P,矩阵的行i表示信号发射节点的编号,而矩阵的列j作为信号接收节点的编号,则矩阵中每一项数据Pij可以表示当此行列编号的链路i-j建立起来的时候,接收节点方所剩余的能量。设置当Pij小于Plow时,此时接收节点j停止工作,将矩阵conx中以j为行和以j为列的数据都置为0,表示此时节点j不再与其他节点建立起链路。
仿真链路路径损耗与链路路径长度成一定比例,因此仅简单考虑路径损耗只与路径长度相关。利用MATLAB编程,根据每个节点在模型中的横纵坐标根据距离公式求出每两节点之间的实际距离,建立一个26×26的距离矩阵D,再根据相关公式运算求出损耗矩阵S。
考虑每段链路传输时的路径损耗和接收节点的剩余能量,在能均匀消耗整个网络节点能量延长生存周期的情况下采取路径损耗总和最小的最优路径。因此通过相关函数关系把接收节点剩余能量矩阵与路径损耗矩阵组合成初始状态矩阵R,相关函数关系是先把接收节点剩余能量矩阵和路径损耗矩阵的数值转换到相同范围内,再根据设计比重参数A,B调整大小。然后把R初值矩阵代入Q-Learning算法中,经过得到Q矩阵后再求倒数,从而可以利用最小路径算法Dijkstra得到最优路径。综上所述,算法具体如图1所示。
利用MATLAB编写基于以上算法的脚本和函数,成功实现了用作图工具直观的展示出来了无线体域网模型中数据传输的最优路径以及随着传输数据后节点的能量损耗,为了充分利用网络中的资源从而延长网络的生产周期,所做出的最优路径的变化。
当处于初始状态时,由于各可能路径上节点的剩余能量相同,所以基于最小路径损耗和来选择最优路径。例如由编号9节点发送数据的最优路径为[9,13,14]如图4所示,由编号22节点发送数据的最优路径为[22,24,14]如图5所示。
由编号4节点发送数据时,有两种路径选择,分别为:如图6(a)所示的[4,7,10,12,14]和如图6(b)所示的[4,7,10,11,14]。当两链路中的节点能量都还没消耗时,两种路径都是有可能的。但在基于之前数据传输路径为[9,13,14]的情况下,编号13节点的剩余能量小于编号11节点,同时链路损耗相近,从而对应的Q值矩阵小,所以此时最优路径为[4,7,10,11,14]。
如图7(a)所示,原本从编号16发射数据计算出的最优路径为[16,17,9,10,11,14],但是假设已经从编号9发送数据,经过路径[9,10,14],那么链路中的节点10和节点11都会由于接收和发送数据产生较大的能量损耗,因此可能会选择路径损耗和略大的另外一条路径[16,6,7,11,14]如图7(b)所示,牺牲一定的数据传输准确性,以使整个无线体域网网络节点生存周期延长。
仿真实验得到的网络生存周期图如图8所示。通过设置最小工作能量需求为80,因此当多次工作后,部分节点的剩余能量小于80,将会停止工作,从而将节点连接矩阵相应值置位0,不再与此节点连接链路。设置标志位,每次完成一次数据传输后标志位加1,直到某次数据传输过程中,可用节点都停止工作,从而返回最优路径为空。停止数据传输,此时积累的标志位则为网络生存周期。同时还仿真了采用最短路径路由方法得到的规划路径,也求出了网络生存周期与采用Q-learning算法的结果进行比较,从而确定采用Q-learning算法能够有效增大网络生存周期。
综上所述,本发明方法可以显著有效延长WBAN网络节点生存周期,能提高无线体域网更精确快捷地服务人类生活的能力,可以被广泛应用于医疗监测、疾病防控等无线体域网实际应用场景。

Claims (3)

1.一种基于Q-Learning算法获取无线体域网最优路径的方法,其特征在于,包括以下步骤:
步骤1、初始化无线体域网参数;包括节点的数量、发送节点的设定、接收节点的设定、节点连接关系矩阵conx、接收节点剩余能量矩阵P以及节点距离矩阵D和路径损耗矩阵S;
其中,节点连接关系矩阵conx的初始化公式为:
Figure FDA0003800699780000011
接收节点剩余能量矩阵P的初始化公式为:
Figure FDA0003800699780000012
式中,sink为自定义设置的目标节点,Pre-start为sink节点的初始能量,Pse-start为其余节点初始能量;
节点距离矩阵D的初始化公式为:
Figure FDA0003800699780000013
式中,Dij为发送节点i与接收节点j之间的直线距离,(x*,y*)表示节点“*”的坐标;
路径损耗矩阵S与节点距离矩阵D成正相关,其初始化公式为:
Figure FDA0003800699780000014
式中,K为比例系数,inf表示距离无限大;
步骤2、设定Q-Learning算法中学习率α和折扣因子γ的值,其中α,γ∈[0,1];
步骤3、构建评价矩阵用于寻找最优路径,并利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,之后在路径选择过程中不断更新评价矩阵,并利用Q-Learning算法不断学习Q矩阵;具体为:
步骤3-1、根据无线体域网参数构建评价矩阵R:
R=f(P,S)=A×P+B×S
式中,A、B分别为接收节点剩余能量矩阵P、路径损耗矩阵S的比重参数;
步骤3-2、利用步骤1初始化的无线体域网参数求取评价矩阵的初始值,初始化学习轮次数m=0,并初始化Q矩阵,公式如下:
Qij=0
式中,Qij表示从发送节点i发送至接收节点j对应的Q值;
步骤3-3、随机选择一个发送节点i,通过节点连接关系矩阵conx找出下一个可能动作的集合,即所有可能的接收节点的集合;
步骤3-4、利用贪婪策略从步骤3-3的集合中选取接收节点j;
步骤3-5、求取当前接收节点j的剩余能量值Pijnew,并由此更新矩阵P,从而更新评价矩阵R;若发送节点i与接收节点j对应的conxij为0,则将矩阵P和S中对应的值Pij、Sij置为0,从而R矩阵中对应的值Rij更新为0;若Pij小于预设阈值Plow,则当前接收节点j退出工作,conxij、Pij、Sij、Rij均置为0;
步骤3-6、获取当前接收节点j到其它节点的最大Q值Qmax,结合更新后的评价矩阵R中的Rij和Qmax更新Q矩阵,所用公式为:
Qijnew=Qijold+α[Rij+γQmax]
式中,Qijold表示更新前的Q矩阵,Qijnew表示更新后的Q矩阵;
步骤3-7、判断当前接收节点j是否为sink节点,若是,令m递增1,并判断m是否大于设定的学习轮次数阈值M,若大于,则结束学习Q矩阵,反之返回步骤3-3;否则返回步骤3-4;
步骤4、根据学习后的Q矩阵获取发送节点到目标节点sink的最优路径;具体为:
步骤4-1、将Q矩阵中的所有Q值取倒数,Q值为0的倒数取无穷大,并将Q值倒数视为节点间的距离;
步骤4-2、设定发送节点i,构建两个为空的集合F和H,并将发送节点i加入集合F中,其余所有节点加入集合H中;
步骤4-3、从集合H中寻找conxij=1的所有节点,之后从这些节点中选取Qij最小的接收节点j,并将该节点从集合H中剔除且加入至集合F中,由此获得发送节点i到接收节点j的最短路径;
步骤4-4、从集合H中寻找conxjk=1的所有节点,针对这些节点中的每一个节点k,求取Qij与Qjk的和Qsum以及Qik,选取Qsum和Qik中的较小值,并将较小值赋值给Qik且加入集合L中;
步骤4-5、选取集合L中的最小值对应的节点q,并将该节点从集合H中剔除且加入至集合F中,由此获得发送节点i到节点q的最短路径;
步骤4-6、将节点q视为新的接收节点j,重复步骤4-4至4-6,直至集合F包含所有节点;
步骤4-7、从上述过程获得的所有路径中选取发送节点i至sink节点的最短路径,即为最优路径。
2.根据权利要求1所述的基于Q-Learning算法获取无线体域网最优路径的方法,其特征在于,步骤3-4所述利用贪婪策略从步骤3-3的集合中选取接收节点j,具体为:以β的概率随机选取接收节点j,以1-β的概率选取最大的Qij值对应的接收节点j,其中0<β<1。
3.根据权利要求1所述的基于Q-Learning算法获取无线体域网最优路径的方法,其特征在于,步骤3-5所述求取当前接收节点j的剩余能量值Pijnew,所用公式为:
Pijnew=Pijold-ΔP
式中,Pijold为接收节点j原有剩余能量值,ΔP为接收节点j接收信号所消耗的能量。
CN201910846122.5A 2019-09-09 2019-09-09 基于Q-Learning算法获取无线体域网最优路径的方法 Active CN110730486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910846122.5A CN110730486B (zh) 2019-09-09 2019-09-09 基于Q-Learning算法获取无线体域网最优路径的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910846122.5A CN110730486B (zh) 2019-09-09 2019-09-09 基于Q-Learning算法获取无线体域网最优路径的方法

Publications (2)

Publication Number Publication Date
CN110730486A CN110730486A (zh) 2020-01-24
CN110730486B true CN110730486B (zh) 2022-10-14

Family

ID=69217900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910846122.5A Active CN110730486B (zh) 2019-09-09 2019-09-09 基于Q-Learning算法获取无线体域网最优路径的方法

Country Status (1)

Country Link
CN (1) CN110730486B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111542097B (zh) * 2020-04-19 2022-03-22 北京工业大学 一种基于Q-Learning的广播路由算法
CN111770019B (zh) * 2020-05-13 2021-06-15 西安电子科技大学 基于Dijkstra算法的Q-learning光片上网络自适应路由规划方法
CN112788560B (zh) * 2020-12-18 2022-02-08 昆明理工大学 一种基于深度强化学习的时空充电调度方法
CN113848868B (zh) * 2021-10-18 2023-09-22 东南大学 一种意图驱动的强化学习路径规划方法
CN115843083B (zh) * 2023-02-24 2023-05-12 青岛科技大学 基于多智能体强化学习的水下无线传感器网络路由方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168619A (zh) * 2014-09-02 2014-11-26 哈尔滨工业大学 无线体域网下基于d算法的动态路由建立方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168619A (zh) * 2014-09-02 2014-11-26 哈尔滨工业大学 无线体域网下基于d算法的动态路由建立方法

Also Published As

Publication number Publication date
CN110730486A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110730486B (zh) 基于Q-Learning算法获取无线体域网最优路径的方法
CN101917335B (zh) 一种保证服务质量的体域网多跳协作能量均衡路由方法
CN104168661B (zh) 一种满足公平性条件的最大化网络生存期传输调度方法
CN104602302B (zh) 一种基于分簇结构的ZigBee网络能量均衡路由方法
Liang et al. A low overhead tree-based energy-efficient routing scheme for multi-hop wireless body area networks
US20190373494A1 (en) Wireless mesh network health determination
Ortiz et al. Adaptive routing for multihop IEEE 802.15. 6 wireless body area networks
CN104301965A (zh) 一种无线传感器网络非均匀分簇节点调度方法
CN105636143A (zh) 基于合作博弈的无线传感器网络分簇协作路由算法
CN105848238B (zh) 基于多参数的无线传感器网络IPv6路由方法
KR101615352B1 (ko) 무선 센서 네트워크의 에너지 기반 데이터 전송 방법
CN108521633A (zh) 基于k均值的矿井环境无线传感网分簇路由方法
CN104883301A (zh) 基于剩余能量与通信代价的无线传感器网络分簇路由协议
CN108966239A (zh) 一种基于能量空洞度部署中继节点的方法
CN111629415B (zh) 一种基于马尔科夫决策过程模型的机会路由协议设计方法
CN106973419A (zh) 一种leach协议的改进算法
CN103781143A (zh) 一种能效优化的簇树分层无线传感网路由方法
KR101560523B1 (ko) 에너지 효율성을 고려한 무선센서 네트워크 운영방법
CN111194065A (zh) 一种高能效的环形无线传感器网络多跳分簇路由方法
CN104994020A (zh) 基于蜂群优化算法模型的预测性能量高效分簇路由方法
CN105979539A (zh) 移动自组织网络中基于模糊逻辑的分簇方法
CN103906245B (zh) 一种无线传感网络分布式速率控制方法
US20220030452A1 (en) Wireless mesh network health determination
CN103747498A (zh) 基于方向角度的无线传感网络路由空洞优化方法
Sharma et al. Clustering Based Routing Protocol to increase the stability in WBAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant