CN105828287A - 一种基于强化学习的无线传感器网络协同跟踪方法 - Google Patents

一种基于强化学习的无线传感器网络协同跟踪方法 Download PDF

Info

Publication number
CN105828287A
CN105828287A CN201610146721.2A CN201610146721A CN105828287A CN 105828287 A CN105828287 A CN 105828287A CN 201610146721 A CN201610146721 A CN 201610146721A CN 105828287 A CN105828287 A CN 105828287A
Authority
CN
China
Prior art keywords
cluster head
represent
node
wireless sensor
sensor network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610146721.2A
Other languages
English (en)
Other versions
CN105828287B (zh
Inventor
丁勇
张祺琛
柏茂羽
胡忠旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201610146721.2A priority Critical patent/CN105828287B/zh
Publication of CN105828287A publication Critical patent/CN105828287A/zh
Application granted granted Critical
Publication of CN105828287B publication Critical patent/CN105828287B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公布了一种基于强化学习的无线传感器网络协同跟踪方法,主要解决了无线传感器网络协同跟踪过程中跟踪精度与能量消耗矛盾的问题。所述方法包括:采用Q学习方法,对协同跟踪过程中的簇首及簇成员进行了最优选择;通过制定簇首选择及切换强化学习函数与回报函数,得出了簇首最优选择策略及最优切换时机;在保证跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。该方法在满足跟踪精度的前提下,通过减少簇内成员的使用数量以及采样次数,从而减少了节点的能量消耗,进而延长了网络的工作寿命。

Description

一种基于强化学习的无线传感器网络协同跟踪方法
技术领域
本发明属于无线传感器网络技术领域,特别是一种基于强化学习的无线传感器网络协同跟踪方法。
背景技术
现代化战争中,由于战场环境恶劣,作战态势瞬息万变,作战指挥员需要及时掌握敌方部队的装备及人员的位置信息,进而明确敌方的作战意图。在复杂地形地物条件及严密伪装的情况下,对地面目标进行跟踪成为了光学侦查和雷达侦查的盲区。然而,无线传感器网络则可以通过探测人员及装备在地面运动时发出的声响、引起的地面震动或红外辐射变化来发现与跟踪地面运动目标,因此,无线传感器网络协同跟踪方法成为了当前的研究热点。
无线传感器节点具有独立的探测、计算及通信能力,但是由于节点个体存在能量有限、资源有限和计算能力有限的约束,传感器节点独立对目标进行跟踪往往无法获得预期的效果。网络需要通过合理的节点调度方法来延长工作寿命。WSN协同跟踪中普遍采用开启跟踪目标附近传感器节点而其他节点休眠的工作形式,如何在保证跟踪精度的前提下尽可能降低网络能量消耗成为了当今学术界研究的关键问题。
WSN协同跟踪问题是一种在跟踪精度与能量消耗双重约束下的最优问题,因此可以使用常用的最优求解方法对其进行处理。用于WSN协同跟踪问题处理的典型最优求解方法包括自然启发式协同跟踪方法、博弈论协同跟踪方法以及强化学习协同跟踪方法三种。JenaRK等人于2014年提出基于人工蜂群算法的无线传感器网络节点自组织方法,该方法由于考虑了群体中全局最优搜索的情况,因而能够获得最优解,但算法本身仍具有陷入局部最优解的可能以及收敛速度慢的缺点。LinX-H等人于2015年提出基于博弈论的无线传感器网络能量消耗平衡方法,进而实现网络性能指标的最优求解。但是,使用博弈论的思想对无线传感器网络协同跟踪问题进行求解时,由于难以选择合适的近似博弈模型,因而得到的结果往往并非是真正适合网络的最优解。S.Pino-Povedano等人于2014年提出基于强化学习的无线传感器网络协同跟踪方法,进而实现减少网络能量消耗的目的。该方法具有必然能够获取最优解的优势,但仍存在着寻优过程较长的缺陷。
发明内容
本发明所解决的技术问题在于提供一种基于强化学习的无线传感器网络协同跟踪方法(ReinforcementLearningCollaborativeTrackingAlgorithm,RLCTA)。
实现本发明目的的技术解决方案为:基于强化学习的无线传感器网络协同跟踪算法包括动态节点选择与目标状态估计两部分。首先,采用动态联盟的思想,通过目标运动触发机制,在目标附近建立无线传感器网络动态感知簇,通过制定簇首选择及切换强化学习函数与回报函数,得出了簇首最优选择策略及最优切换时机。在保证跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。然后,根据动态感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标的状态进行估计,进而实现WSN协同跟踪任务。
本发明与现有技术相比具有以下优点:
1.通过Q学习方法获得簇首最优动作策略,进行最优簇首切换及簇成员的最优选择;在满足跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔降低网络能耗。
2.针对无线传感器网络协同跟踪中的能量消耗问题,建立跟踪精度误差门限以及探测概率门限,进而确定了簇成员最少使用个数,在此基础上建立动态感知簇,从而保证了跟踪精度允许误差范围内的能量消耗最小。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明的流程图。
图2为无线传感器网络协同跟踪仿真场景图。
图3为跟踪误差比较图。
图4为算法能耗对比图。
具体实施方式
依据附图,对本发明的技术方案作具体说明。
所述基于强化学习的无线传感器网络协同跟踪方法,包括以下步骤:
步骤1、首先,对无线传感器网络进行能量模型建立。
根据使用形式不同,消耗能量可以分为四类基本类型:传感器探测能量消耗Es,节点发射数据能量消耗Et,节点接收数据能量消耗Er以及节点进行数据融合能量消耗Ef
Es与使用传感器进行探测的次数有关,每进行一次探测消耗的能量为一常数。
Et和Er均与进行通信的数据量有关,当发射(接收)b比特数据时,消耗能量可以分别表示为:
E t ( s m , s n ) = ( e t + e d r m n β ) b - - - ( 1 )
Er(sk)=erb(2)
其中,sm表示数据发射节点,sn表示数据接收节点,et表示射频能耗系数,ed表示电路放大系数,rmn表示节点m与节点n之间的欧氏距离,β表示路径衰减系数;er表示射频消耗系数。
Ef与参与数据融合的数据量大小有关,当融合b比特数据时,消耗能量可以表示为:
Ef=efb(3)
其中,ef表示融合单位比特数据时消耗的能量。
考虑跟踪精度约束对模型的影响,定义跟踪精度门限为Φ0,探测概率门限θd。为了保证跟踪精度满足要求,k时刻跟踪精度误差Φ(k)与探测概率Pr(k)需要满足:
Φ(k)≤Φ0(4)
Pr(k)≤θd(5)
步骤2、选取簇成员个数。
簇成员个数的选择与探测概率Pr(k)有关。对网络覆盖区域的运动目标进行跟踪时,假设需要M个节点同时进行探测,每个节点的探测概率均设为α,则此时的探测概率可以表示为:
Pr(k)=1-(1-α)M(6)
由式(5)和(6)可得簇成员个数为:
M ≥ - l o g ( 1 - θ d ) - l o g ( 1 - α ) - - - ( 7 )
可知,在满足探测概率门限的情况下,簇成员个数最少为:
这里,表示对x向上取整,即取不小于x的最小整数。
因此,为了保证无线传感器网络能够对覆盖区域内的目标进行跟踪,每个簇内成员节点数目应不小于Mmin。为了保证能量消耗最小,在成簇时成员节点数目均选择为Mmin
步骤3、选取簇首及簇成员。
簇首及簇成员工作时,可以分为两种模式:探测模式与簇首切换模式。在探测模式下,簇首的工作包括接收成员节点探测数据,以及对接收到的数据进行数据融合;簇成员的工作包括使用传感器探测运动目标,以及将获得的数据发送给簇首。在簇首切换模式下,簇首负责发射任命信号给新的簇首,簇成员负责接收加入新簇的信号。针对上述两种工作模式,根据最小成簇数目Mmin,在探测模式下,簇首及簇成员能量消耗表示如下:
E D _ C H = Σ i = 1 M min ( e r + e f ) b i - - - ( 9 )
E D _ C M = Σ j = 1 M min [ a j E s + b j ( e t + e d r j h α ) ] - - - ( 10 )
其中,ED_CH表示探测模式下簇首的能量消耗;ED_CM表示探测模式下簇成员的能量消耗总和,aj表示第j个节点对运动目标进行探测的次数,rjh表示节点j与簇首间的欧氏距离。
在簇首切换模式下,簇首及簇成员能量消耗表示如下:
E C C _ C H = b c c ( e t + e d r c c α ) - - - ( 11 )
ECC_CM=erbbcMmin(12)
其中,ECC_CH表示簇首切换模式下的簇首能量消耗,bcc表示簇首任命指令的比特数,rcc表示当前簇首与下一时刻簇首的欧氏距离;ECC_CM表示簇首切换模式下的簇成员能量消耗,bbc表示建立簇成员指令的比特数。
在动态感知簇建立阶段,需要根据性能指标对簇首以及簇成员进行选择。在簇首选择时应满足各节点与目标间的欧氏距离r不大于节点的探测半径RD,假设满足条件的节点个数为J时,可以定义Q值函数如下:
Q t + 1 ( s t , a t ) = ( 1 - α ) Q t ( s t , a t ) + α ( r t + γ m a x a t + 1 Q ( s t + 1 , a t + 1 ) ) - - - ( 13 )
其中,st表示当前作为簇首的节点编号j;at表示对应的动作,具有保持与更新两种形式。
根据令Q值最大的动作at不同可以对st进行选择。当选择保持动作时,st+1保持t时刻的节点编号j;当选择更新动作时,st+1更新为t+1时刻的节点编号。经过J次选择后,可以得到最终策略πt(s):
π t ( s ) = arg m a x a ∈ A t Q ( s , a ) - - - ( 14 )
其中,At表示at所能选取的动作的集合。该式表示获取最大Q值时,选取动作at的过程。当采用此策略时,获得编号对应的节点即为簇首。
为了保证动态感知簇能够对运动目标进行有效跟踪,可以定义如下回报函数:
其中,表示基于马氏距离的信息效用函数,用于刻画节点跟踪能力的强弱,其具体定义为:
其中,表示目标状态的概率密度,Xk表示目标状态集合,z0:k-1表示0至k-1时刻的历史量测集合,表示k时刻节点j的量测值;DM(xk|k-1,j)表示目标与节点j之间的马氏距离,L(j)表示节点j的位置坐标列向量,xk|k-1表示目标位置预测坐标列向量,表示目标预测协方差矩阵的逆阵。由上可见,当节点j与目标越近,-DM(xk|k-1,j)越大,即节点j对目标探测的效用越高。
根据上述定义的回报函数可知,当第j+1个节点的信息效用函数优于第j个节点时,获得消极回报,通过式(13)递推计算Q值,便可以得到最优簇首选择策略。然后,在簇首通讯半径RC覆盖的区域内选择信息效用函数最大的Mmin个节点作为簇成员,从而实现簇的建立。
由于簇首及簇成员能量有限,并且对目标的跟踪受到簇成员探测半径RD的限制,考虑到网络能量均衡性以及跟踪有效性,需要在特定时刻进行簇首切换,从而组成新的动态感知簇。针对簇首切换问题,可以定义Q值函数如下:
Q k + 1 ( s k , a k ) = ( 1 - α ) Q k ( s k , a k ) + α ( r k + γ m a x a k + 1 Q ( s k + 1 , a k + 1 ) ) - - - ( 17 )
其中,sk表示当前簇首工作模式;ak表示簇首采用的动作,具有保持与切换两种形式。当选择保持动作时,sk=0,簇首工作在探测模式;当选择切换动作时,sk=1,簇首工作在切换模式。最终,可以得到最优选择策略:
π C C ( s ) = arg m a x a ∈ A k Q ( s , a ) - - - ( 18 )
其中,Ak表示ak所能选取的动作的集合。该式表示获取最大Q值时,选取动作ak的过程。当采用此策略时,获得的簇首切换时间为最优。
为了保证簇首剩余能量条件以及跟踪有效性,可以构造回报函数:
r C C ( k ) = 1 E C H ( k ) > E C C _ C H + E L O W o r r j < R D j 0 E C H ( k ) = E C C _ C H + E L O W o r r j = R D j - 1 E C H ( k ) < E C C _ C H + E L O W o r r j > R D j - - - ( 19 )
其中,rCC(k)表示簇首切换回报函数,ECH(k)表示k时刻簇首剩余能量,ELOW表示簇首存活能量下限,rj表示目标与第j个簇成员间的欧氏距离,表示第j个簇成员的探测半径。
根据式(19)可知,当簇首剩余能量小于存活能量下限与簇首切换消耗能量之和或运动目标超出当前簇任意簇成员探测半径时,保持当前簇工作的动作将会得到消极回报,将会触发簇首切换动作。
步骤4、采用在跟踪精度允许的范围内选择最大采样时间间隔的方式,保证网络能量消耗达到最小。定义采样时间间隔Q值函数:
Q ( &Delta;t k , a &Delta;t k ) = ( 1 - &alpha; ) Q ( &Delta;t k , a &Delta;t k ) + &alpha; ( r k + 1 + &gamma; m a x a Q ( &Delta;t k + 1 , a ) ) - - - ( 20 )
其中,Δtk表示k-1时刻到k时刻的采样时间间隔;表示对Δtk采取的动作,具有增大间隔与减小间隔两种形式,且每次调节时,均按照固定常数Δtmin进行调节。最终,可以得到最终策略:
&pi; ( &Delta;t k ) = arg m a x a &Element; A &Delta;t k Q ( &Delta;t k , a ) - - - ( 21 )
其中,表示动作所能选取的动作的集合。按照该式可以获得令Q值最大的动作选取方式,此时获得的Δtk即为k时刻最优采样时间间隔。由于采样时间间隔不可能无限制的减小,因此,当采样时间间隔等于最小采样时间间隔Tmin时,便认为达到最小值。
根据跟踪精度定义回报函数:
r &Delta;t k ( k ) = 1 &Phi; ( k ) - &Phi; ( k - 1 ) < 0 0 &Phi; ( k ) - &Phi; ( k - 1 ) = 0 - 1 &Phi; ( k ) - &Phi; ( k - 1 ) > 0 - - - ( 22 )
在式(22)中,当k时刻的跟踪精度误差Φ(k)小于k-1时刻时,获得积极的回报,此时可以适当增大采样时间间隔,从而降低能量消耗;反之,减小采样时间间隔,从而确保跟踪精度满足要求。当跟踪精度误差Φ(k)大于跟踪精度门限Φ0时,采样时间间隔选取最小采样时间间隔Tmin,从而保证无线传感器网络能够较快地达到跟踪精度要求。
步骤5、目标状态估计。
当k时刻,存在N个节点对同一目标进行跟踪时,可以构造目标量测集合Zk
Z k = { z 1 k , z 2 k , ... , z j k , ... , z N k } - - - ( 23 )
其中,表示k时刻节点j产生的目标量测信息。
离散时间目标状态方程及目标量测方程定义如下:
Xk+1=F(Δtk)Xkk(24)
Zk=h(Xk)+vk(25)
其中,Xk表示目标状态集合,F(Δtk)表示状态转换矩阵,ωk表示过程噪声;h(Xk)表示目标量测矩阵,vk表示量测噪声。在本章中ωk和vk均为高斯白噪声,且其协方差矩阵分别为Qk和Rk
扩展卡尔曼滤波过程分为状态预测及状态更新两个阶段:
(1)预测:
X ^ k | k - 1 = F ( &Delta;t k ) X ^ k - 1 | k - 1 - - - ( 26 )
Pk|k-1=F(Δtk)Pk-1|k-1FT(Δtk)+Qk-1(27)
其中,表示目标状态预测矩阵,Pk|k-1表示预测状态误差协方差矩阵。
K k = P k | k - 1 ( H k ) T ( H k i P k | k - 1 ( H k ) T + Q k ) - 1 - - - ( 28 )
其中,Kk表示卡尔曼增益,Hk表示k时刻量测方程关于目标状态的雅克比矩阵:
H k = &part; h ( X k ) &part; X k - - - ( 29 )
(2)更新:
X ^ k | k = X ^ k | k - 1 + K k ( Z k - h k ( X ^ k | k - 1 ) ) - - - ( 30 )
Pk|k=(I-KkHk)Pk|k-1(31)
其中,表示目标状态估计矩阵,Pk|k表示估计状态误差协方差矩阵。
当在二维平面运动时,目标状态矩阵可以表示为:
Xk={x,vx,y,vy}(32)
其中,(x,y)表示目标的位置,(vx,vy)表示目标速度的分量。
状态误差协方差矩阵可以写为如下形式:
Pk|k=[σij](33)
其中,σij表示矩阵中的元素值,且i=1,2,3,4,j=1,2,3,4。
此时,预测位置误差协方差矩阵可以表示为:
&Sigma; ( &Delta;t k ) = &sigma; 11 + 2 &Delta;t k &sigma; 12 + &Delta;t k 2 &sigma; 22 &sigma; 13 + &Delta;t k ( &sigma; 14 + &sigma; 23 ) + &Delta;t k 2 &sigma; 24 &sigma; 13 + &Delta;t k ( &sigma; 14 + &sigma; 23 ) + &Delta;t k 2 &sigma; 24 &sigma; 33 + 2 &Delta;t k &sigma; 34 + &Delta;t k 2 &sigma; 44 - - - ( 34 )
跟踪精度误差可以用预测位置误差协方差矩阵的迹表示:
Φ(k)=tr(∑Δtk)(35)
根据EKF算法,可以得到无线传感器网络下的目标跟踪状态表达形式,根据式(35)即可求得步骤3中各个时刻的跟踪精度。
下面对本发明的方法进行仿真验证,
假设无线传感器网络使用300个相同传感器节点,随机分布在500m×500m的监测区域内。传感器节点的节点初始能量0.2J,Es=8×10-7J,et=45×10-9J/bit,ed=10×10- 12J/(bit·m2),β=2,er=135×10-9J/bit,ef=5×10-9J/bit,bcc=1280bit,bbc=64bit。节点探测概率α=0.78,探测概率门限θd=0.99,跟踪误差门限Φ0=10,最小采样时间间隔Tmin=0.01s。
目标运动模型选择为二维平面运动,运动模型如式(24)、(25)所示,式中,状态转移矩阵F(Δtk)及协方差矩阵Q(k,Δtk)定义如下:
F ( &Delta;t k ) = 1 &Delta;t k 0 0 0 1 0 0 0 0 1 &Delta;t k 0 0 0 1 - - - ( 36 )
Q ( k , &Delta;t k ) = q &Delta;t k 3 / 3 &Delta;t k 2 / 2 0 0 &Delta;t k 2 / 2 &Delta;t k 0 0 0 0 &Delta;t k 3 / 3 &Delta;t k 2 / 2 0 0 &Delta;t k 2 / 2 &Delta;t k - - - ( 37 )
其中,Δtk为采样时间间隔,q表示过程噪声强度系数,这里取q=0.5,运动目标初始状态X0=[503503]T,协方差矩阵初始值P0=diag([204204])。
跟踪精度评价指标选择为位置估计均方根误差,其定义为:
RMSE k = 1 N l &Sigma; l = 1 N l | | x ^ k , l - x - k , l | | 2 - - - ( 38 )
其中,Nl表示仿真次数,分别表示第l次仿真中目标在k时刻的位置估计值与真实值。
为了验证本发明的RLCTA方法在跟踪精度与能量消耗方面的性能,选择协同跟踪中较为经典的IDSQ方法和A-DCS方法加以比较。
图2中显示了无线传感器网络协同跟踪的仿真场景图,通过仿真说明了动态成簇及簇首切换功能的有效性。
图3为跟踪误差比较图,采用RLCTA、IDSQ及A-DCS三种方法分别对同一运动目标进行跟踪,通过计算位置估计均方根误差可以看出,RLCTA方法的跟踪误差明显小于后两者,从而证明了本发明提出的方法在跟踪精度方面的优越性。
图4为方法能耗对比图,对RLCTA、IDSQ及A-DCS三种方法在跟踪过程中的能量消耗加以分析,可以看出RLCTA方法的能量消耗小于后两者,这是由于该方法通过减少簇成员数量,减少簇首切换,增大采样时间间隔的方式,尽可能地减少了能量的消耗,因此,证明了本发明方法对减少网络消耗的有效性。
综上所述,本发明的基于强化学习的无线传感器网络协同跟踪方法能够有效地进行目标跟踪任务,在有效减小跟踪精度误差的同时,降低了网络能量消耗,本发明的强化学习无线传感器网络协同跟踪方法在处理跟踪精度及能量消耗矛盾方面具有积极的意义。

Claims (7)

1.一种基于强化学习的无线传感器网络协同跟踪方法,其特征在于,包括以下步骤:
第一步,根据无线传感器网络建立能量模型及跟踪精度模型。
第二步,根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员个数。
第三步,选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数计算,将信息效用函数的值作为奖惩标准,从而获得令Q值最大的最优动作策略,此时获取的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点,通过将各节点信息效用函数值从大到小依次排列,选取函数值最大的最少簇成员个数的节点作为簇成员。
第四步,判断跟踪精度误差是否达到精度误差门限,若精度误差大于门限值,则采样时间间隔选为最小采样时间间隔;若精度误差满足门限要求,则根据Q值函数计算获得的最优策略对采样时间间隔进行增减,最终获得最优采样时间间隔。
第五步,根据动态感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标的状态进行估计,进而实现WSN协同跟踪任务。
2.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,所述的簇首选择方法,具体是,在簇首选择时应满足各节点与目标间的欧氏距离r不大于节点的探测半径RD,假设满足条件的节点个数为J时,可以定义Q值函数如下:
Q t + 1 ( s t , a t ) = ( 1 - &alpha; ) Q t ( s t , a t ) + &alpha; ( r t + &gamma; m a x a t + 1 Q ( s t + 1 , a t + 1 ) ) - - - ( 1 )
其中,st表示当前作为簇首的节点编号j;at表示对应的动作,具有保持与更新两种形式。
3.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,所述的簇首选择回报函数,具体是,回报函数如下:
其中,表示基于马氏距离的信息效用函数,用于刻画节点跟踪能力的强弱。
4.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,所述的簇首切换方法,具体是,根据簇首能量有限及对目标的跟踪受到簇成员探测半径RD的限制,定义Q值函数如下:
Q k + 1 ( s k , a k ) = ( 1 - &alpha; ) Q k ( s k , a k ) + &alpha; ( r k + &gamma; m a x a k + 1 Q ( s k + 1 , a k + 1 ) ) - - - ( 3 )
其中,sk表示当前簇首工作模式;ak表示簇首采用的动作,具有保持与切换两种形式。当选择保持动作时,sk=0,簇首工作在探测模式;当选择切换动作时,sk=1,簇首工作在切换模式。
5.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,所述的簇首切换回报函数,具体是,回报函数如下:
r C C ( k ) = { 1 E C H ( k ) > E C C _ C H + E L O W o r r j < R D j 0 E C H ( k ) = E C C _ C H + E L O W o r r j = R D j - 1 E C H ( k ) < E C C _ C H + E L O W o r r j > R D j - - - ( 4 )
其中,rCC(k)表示簇首切换回报函数,ECH(k)表示k时刻簇首剩余能量,ELOW表示簇首存活能量下限,rj表示目标与第j个簇成员间的欧氏距离,表示第j个簇成员的探测半径。
6.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,所述的簇首切换方法,具体是,定义Q值函数如下:
Q ( &Delta;t k , a &Delta;t k ) = ( 1 - &alpha; ) Q ( &Delta;t k , a &Delta;t k ) + &alpha; ( r k + 1 + &gamma; m a x a Q ( &Delta;t k + 1 , a ) ) - - - ( 5 )
其中,Δtk表示k-1时刻到k时刻的采样时间间隔;表示对Δtk采取的动作,具有增大间隔与减小间隔两种形式,且每次调节时,均按照固定常数Δtmin进行调节。当采样时间间隔等于最小采样时间间隔Tmin时,便认为达到最小值。
7.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,所述的采样时间间隔选择回报函数,具体是,回报函数如下:
r &Delta;t k ( k ) = { 1 &Phi; ( k ) - &Phi; ( k - 1 ) < 0 0 &Phi; ( k ) - &Phi; ( k - 1 ) = 0 - 1 &Phi; ( k ) - &Phi; ( k - 1 ) > 0 - - - ( 6 )
其中,Φ(k)表示跟踪精度误差。
CN201610146721.2A 2016-03-11 2016-03-11 一种基于强化学习的无线传感器网络协同跟踪方法 Expired - Fee Related CN105828287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610146721.2A CN105828287B (zh) 2016-03-11 2016-03-11 一种基于强化学习的无线传感器网络协同跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610146721.2A CN105828287B (zh) 2016-03-11 2016-03-11 一种基于强化学习的无线传感器网络协同跟踪方法

Publications (2)

Publication Number Publication Date
CN105828287A true CN105828287A (zh) 2016-08-03
CN105828287B CN105828287B (zh) 2019-03-29

Family

ID=56987992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610146721.2A Expired - Fee Related CN105828287B (zh) 2016-03-11 2016-03-11 一种基于强化学习的无线传感器网络协同跟踪方法

Country Status (1)

Country Link
CN (1) CN105828287B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108387866A (zh) * 2018-01-16 2018-08-10 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN109286961A (zh) * 2018-09-27 2019-01-29 天津大学 基于机器学习的水下传感器网络能量优化路径选择方法
CN110351829A (zh) * 2019-08-07 2019-10-18 南京理工大学 基于深度强化学习的无线传感器网络目标追踪方法
CN110366226A (zh) * 2019-06-06 2019-10-22 中国船舶工业系统工程研究院 一种基于强化学习的水下无线传感器网络路由算法
CN110430547A (zh) * 2019-07-24 2019-11-08 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集算法
CN111356198A (zh) * 2020-02-10 2020-06-30 西安电子科技大学 基于地理位置和q学习的分簇跨层通信处理方法、系统
CN111510956A (zh) * 2020-03-14 2020-08-07 大连昊洋科技发展有限公司 一种基于分簇和增强学习的混合路由方法、海洋通信系统
CN111538349A (zh) * 2020-04-17 2020-08-14 中国海洋大学 面向多任务的长航程auv自主决策方法
CN115843083A (zh) * 2023-02-24 2023-03-24 青岛科技大学 基于多智能体强化学习的水下无线传感器网络路由方法
US11716685B2 (en) 2017-09-25 2023-08-01 Carrier Corporation Wireless sensor power management

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393260A (zh) * 2008-11-06 2009-03-25 华南理工大学 一种无线传感器网络目标定位与跟踪方法
WO2009075431A1 (en) * 2007-12-13 2009-06-18 Electronics And Telecommunications Research Institute System and method for tracking position of moving object
CN101888671A (zh) * 2010-02-10 2010-11-17 上海交通大学 能量有效的目标跟踪方法
US8547982B2 (en) * 2011-11-23 2013-10-01 King Fahd University Of Petroleum And Minerals Wireless sensor network with energy efficient protocols

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009075431A1 (en) * 2007-12-13 2009-06-18 Electronics And Telecommunications Research Institute System and method for tracking position of moving object
CN101393260A (zh) * 2008-11-06 2009-03-25 华南理工大学 一种无线传感器网络目标定位与跟踪方法
CN101888671A (zh) * 2010-02-10 2010-11-17 上海交通大学 能量有效的目标跟踪方法
US8547982B2 (en) * 2011-11-23 2013-10-01 King Fahd University Of Petroleum And Minerals Wireless sensor network with energy efficient protocols

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SARA PINO-POVEDANO: "《Comparison of optimization algorithms in the sensor selection for predictive target tracking》", 《AD HOC NETWORKS》 *
于春娣: "《基于无线传感器网络的目标跟踪技术研究》", 《南京航空航天大学硕士学位论文》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11716685B2 (en) 2017-09-25 2023-08-01 Carrier Corporation Wireless sensor power management
CN108387866A (zh) * 2018-01-16 2018-08-10 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN109286961A (zh) * 2018-09-27 2019-01-29 天津大学 基于机器学习的水下传感器网络能量优化路径选择方法
CN110366226A (zh) * 2019-06-06 2019-10-22 中国船舶工业系统工程研究院 一种基于强化学习的水下无线传感器网络路由算法
CN110430547A (zh) * 2019-07-24 2019-11-08 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集算法
CN110430547B (zh) * 2019-07-24 2022-07-15 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集方法
CN110351829A (zh) * 2019-08-07 2019-10-18 南京理工大学 基于深度强化学习的无线传感器网络目标追踪方法
CN111356198B (zh) * 2020-02-10 2022-02-08 西安电子科技大学 基于地理位置和q学习的分簇跨层通信处理方法、系统
CN111356198A (zh) * 2020-02-10 2020-06-30 西安电子科技大学 基于地理位置和q学习的分簇跨层通信处理方法、系统
CN111510956A (zh) * 2020-03-14 2020-08-07 大连昊洋科技发展有限公司 一种基于分簇和增强学习的混合路由方法、海洋通信系统
CN111510956B (zh) * 2020-03-14 2023-07-07 大连昊洋科技发展有限公司 一种基于分簇和增强学习的混合路由方法、海洋通信系统
CN111538349B (zh) * 2020-04-17 2021-03-23 中国海洋大学 面向多任务的长航程auv自主决策方法
CN111538349A (zh) * 2020-04-17 2020-08-14 中国海洋大学 面向多任务的长航程auv自主决策方法
CN115843083A (zh) * 2023-02-24 2023-03-24 青岛科技大学 基于多智能体强化学习的水下无线传感器网络路由方法

Also Published As

Publication number Publication date
CN105828287B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN105828287A (zh) 一种基于强化学习的无线传感器网络协同跟踪方法
CN110244715B (zh) 一种基于超宽带技术的多移动机器人高精度协同跟踪方法
CN106123892A (zh) 一种基于无线传感器网络与地磁地图的机器人定位方法
CN106353725A (zh) 基于rssi的室内移动目标定位方法
Akhil et al. Self-localization in large scale wireless sensor network using machine learning
CN103298156B (zh) 基于无线传感器网络的无源多目标检测跟踪方法
Singh et al. Range based wireless sensor node localization using PSO and BBO and its variants
CN102395193B (zh) 一种用于无线传感器网络的定位方法
CN110989352A (zh) 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN104023394A (zh) 基于自适应惯性权重的wsn定位方法
Hsu et al. POOT: An efficient object tracking strategy based on short-term optimistic predictions for face-structured sensor networks
CN103052128A (zh) 一种基于无线传感器网络能量有效的协同调度方法
Wu et al. DENPSO: A distance evolution nonlinear PSO algorithm for energy-efficient path planning in 3D UASNs
CN107367710A (zh) 一种基于时延和多普勒的分布式自适应粒子滤波直接跟踪定位方法
Hirpara et al. Energy-efficient constant gain Kalman filter based tracking in wireless sensor network
CN104301996B (zh) 一种无线传感器网络定位方法
Maduranga et al. Bluetooth low energy (ble) and feed forward neural network (ffnn) based indoor positioning for location-based iot applications
Shit et al. AI-enabled fingerprinting and crowdsource-based vehicle localization for resilient and safe transportation systems
Abdel-Hadi Efficient artificial intelligence-based localization algorithms for Wireless Sensor Networks
CN107222925A (zh) 一种基于聚类优化的节点定位方法
Han et al. A novel auxiliary hole localization algorithm based on multidimensional scaling for wireless sensor networks in complex terrain with holes
CN110099443B (zh) 一种无线传感器网络中节点追踪的负载均衡方法
Zhao et al. Retracted article: a wireless network remote monitoring method driven by artificial intelligence
Zhou et al. An improved MCB localization algorithm based on weighted RSSI and motion prediction
CN110213813A (zh) 一种室内定位技术中惯性传感器的智能管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190329

Termination date: 20210311

CF01 Termination of patent right due to non-payment of annual fee