CN105828287A

CN105828287A - 一种基于强化学习的无线传感器网络协同跟踪方法

Info

Publication number: CN105828287A
Application number: CN201610146721.2A
Authority: CN
Inventors: 丁勇; 张祺琛; 柏茂羽; 胡忠旺
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2016-08-03
Anticipated expiration: 2036-03-11
Also published as: CN105828287B

Abstract

本发明公布了一种基于强化学习的无线传感器网络协同跟踪方法，主要解决了无线传感器网络协同跟踪过程中跟踪精度与能量消耗矛盾的问题。所述方法包括：采用Q学习方法，对协同跟踪过程中的簇首及簇成员进行了最优选择；通过制定簇首选择及切换强化学习函数与回报函数，得出了簇首最优选择策略及最优切换时机；在保证跟踪精度的前提下，通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。该方法在满足跟踪精度的前提下，通过减少簇内成员的使用数量以及采样次数，从而减少了节点的能量消耗，进而延长了网络的工作寿命。

Description

一种基于强化学习的无线传感器网络协同跟踪方法

技术领域

本发明属于无线传感器网络技术领域，特别是一种基于强化学习的无线传感器网络协同跟踪方法。

背景技术

现代化战争中，由于战场环境恶劣，作战态势瞬息万变，作战指挥员需要及时掌握敌方部队的装备及人员的位置信息，进而明确敌方的作战意图。在复杂地形地物条件及严密伪装的情况下，对地面目标进行跟踪成为了光学侦查和雷达侦查的盲区。然而，无线传感器网络则可以通过探测人员及装备在地面运动时发出的声响、引起的地面震动或红外辐射变化来发现与跟踪地面运动目标，因此，无线传感器网络协同跟踪方法成为了当前的研究热点。

无线传感器节点具有独立的探测、计算及通信能力，但是由于节点个体存在能量有限、资源有限和计算能力有限的约束，传感器节点独立对目标进行跟踪往往无法获得预期的效果。网络需要通过合理的节点调度方法来延长工作寿命。WSN协同跟踪中普遍采用开启跟踪目标附近传感器节点而其他节点休眠的工作形式，如何在保证跟踪精度的前提下尽可能降低网络能量消耗成为了当今学术界研究的关键问题。

WSN协同跟踪问题是一种在跟踪精度与能量消耗双重约束下的最优问题，因此可以使用常用的最优求解方法对其进行处理。用于WSN协同跟踪问题处理的典型最优求解方法包括自然启发式协同跟踪方法、博弈论协同跟踪方法以及强化学习协同跟踪方法三种。JenaRK等人于2014年提出基于人工蜂群算法的无线传感器网络节点自组织方法，该方法由于考虑了群体中全局最优搜索的情况，因而能够获得最优解，但算法本身仍具有陷入局部最优解的可能以及收敛速度慢的缺点。LinX-H等人于2015年提出基于博弈论的无线传感器网络能量消耗平衡方法，进而实现网络性能指标的最优求解。但是，使用博弈论的思想对无线传感器网络协同跟踪问题进行求解时，由于难以选择合适的近似博弈模型，因而得到的结果往往并非是真正适合网络的最优解。S.Pino-Povedano等人于2014年提出基于强化学习的无线传感器网络协同跟踪方法，进而实现减少网络能量消耗的目的。该方法具有必然能够获取最优解的优势，但仍存在着寻优过程较长的缺陷。

发明内容

本发明所解决的技术问题在于提供一种基于强化学习的无线传感器网络协同跟踪方法(ReinforcementLearningCollaborativeTrackingAlgorithm，RLCTA)。

实现本发明目的的技术解决方案为：基于强化学习的无线传感器网络协同跟踪算法包括动态节点选择与目标状态估计两部分。首先，采用动态联盟的思想，通过目标运动触发机制，在目标附近建立无线传感器网络动态感知簇，通过制定簇首选择及切换强化学习函数与回报函数，得出了簇首最优选择策略及最优切换时机。在保证跟踪精度的前提下，通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。然后，根据动态感知簇获得的运动目标位置信息，通过扩展卡尔曼滤波算法对目标的状态进行估计，进而实现WSN协同跟踪任务。

本发明与现有技术相比具有以下优点：

1.通过Q学习方法获得簇首最优动作策略，进行最优簇首切换及簇成员的最优选择；在满足跟踪精度的前提下，通过减少簇成员个数和动态选择采样时间间隔降低网络能耗。

2.针对无线传感器网络协同跟踪中的能量消耗问题，建立跟踪精度误差门限以及探测概率门限，进而确定了簇成员最少使用个数，在此基础上建立动态感知簇，从而保证了跟踪精度允许误差范围内的能量消耗最小。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明的流程图。

图2为无线传感器网络协同跟踪仿真场景图。

图3为跟踪误差比较图。

图4为算法能耗对比图。

具体实施方式

依据附图，对本发明的技术方案作具体说明。

所述基于强化学习的无线传感器网络协同跟踪方法，包括以下步骤：

步骤1、首先，对无线传感器网络进行能量模型建立。

根据使用形式不同，消耗能量可以分为四类基本类型：传感器探测能量消耗E_s，节点发射数据能量消耗E_t，节点接收数据能量消耗E_r以及节点进行数据融合能量消耗E_f。

E_s与使用传感器进行探测的次数有关，每进行一次探测消耗的能量为一常数。

E_t和E_r均与进行通信的数据量有关，当发射(接收)b比特数据时，消耗能量可以分别表示为：

E_{t} (s_{m}, s_{n}) = (e_{t} + e_{d} r_{m n}^{β}) b - - - (1)

E_r(s_k)＝e_rb(2)

其中，s_m表示数据发射节点，s_n表示数据接收节点，e_t表示射频能耗系数，e_d表示电路放大系数，r_mn表示节点m与节点n之间的欧氏距离，β表示路径衰减系数；e_r表示射频消耗系数。

E_f与参与数据融合的数据量大小有关，当融合b比特数据时，消耗能量可以表示为：

E_f＝e_fb(3)

其中，e_f表示融合单位比特数据时消耗的能量。

考虑跟踪精度约束对模型的影响，定义跟踪精度门限为Φ₀，探测概率门限θ_d。为了保证跟踪精度满足要求，k时刻跟踪精度误差Φ(k)与探测概率Pr(k)需要满足：

Φ(k)≤Φ₀(4)

Pr(k)≤θ_d(5)

步骤2、选取簇成员个数。

簇成员个数的选择与探测概率Pr(k)有关。对网络覆盖区域的运动目标进行跟踪时，假设需要M个节点同时进行探测，每个节点的探测概率均设为α，则此时的探测概率可以表示为：

Pr(k)＝1-(1-α)^M(6)

由式(5)和(6)可得簇成员个数为：

M &GreaterEqual; \frac{- l o g (1 - θ_{d})}{- l o g (1 - α)} - - - (7)

可知，在满足探测概率门限的情况下，簇成员个数最少为：

这里，表示对x向上取整，即取不小于x的最小整数。

因此，为了保证无线传感器网络能够对覆盖区域内的目标进行跟踪，每个簇内成员节点数目应不小于M_min。为了保证能量消耗最小，在成簇时成员节点数目均选择为M_min。

步骤3、选取簇首及簇成员。

簇首及簇成员工作时，可以分为两种模式：探测模式与簇首切换模式。在探测模式下，簇首的工作包括接收成员节点探测数据，以及对接收到的数据进行数据融合；簇成员的工作包括使用传感器探测运动目标，以及将获得的数据发送给簇首。在簇首切换模式下，簇首负责发射任命信号给新的簇首，簇成员负责接收加入新簇的信号。针对上述两种工作模式，根据最小成簇数目M_min，在探测模式下，簇首及簇成员能量消耗表示如下：

E_{D_C H} = Σ_{i = 1}^{M_{\min}} (e_{r} + e_{f}) b_{i} - - - (9)

E_{D_C M} = Σ_{j = 1}^{M_{\min}} [a_{j} E_{s} + b_{j} (e_{t} + e_{d} r_{j h}^{α})] - - - (10)

其中，E_{D_CH}表示探测模式下簇首的能量消耗；E_{D_CM}表示探测模式下簇成员的能量消耗总和，a_j表示第j个节点对运动目标进行探测的次数，r_jh表示节点j与簇首间的欧氏距离。

在簇首切换模式下，簇首及簇成员能量消耗表示如下：

E_{C C_C H} = b_{c c} (e_{t} + e_{d} r_{c c}^{α}) - - - (11)

E_{CC_CM}＝e_rb_bcM_min(12)

其中，E_{CC_CH}表示簇首切换模式下的簇首能量消耗，b_cc表示簇首任命指令的比特数，r_cc表示当前簇首与下一时刻簇首的欧氏距离；E_{CC_CM}表示簇首切换模式下的簇成员能量消耗，b_bc表示建立簇成员指令的比特数。

在动态感知簇建立阶段，需要根据性能指标对簇首以及簇成员进行选择。在簇首选择时应满足各节点与目标间的欧氏距离r不大于节点的探测半径R_D，假设满足条件的节点个数为J时，可以定义Q值函数如下：

Q_{t + 1} (s_{t}, a_{t}) = (1 - α) Q_{t} (s_{t}, a_{t}) + α (r_{t} + γ \underset{a_{t + 1}}{m a x} Q (s_{t + 1}, a_{t + 1})) - - - (13)

其中，s_t表示当前作为簇首的节点编号j；a_t表示对应的动作，具有保持与更新两种形式。

根据令Q值最大的动作a_t不同可以对s_t进行选择。当选择保持动作时，s_t+1保持t时刻的节点编号j；当选择更新动作时，s_t+1更新为t+1时刻的节点编号。经过J次选择后，可以得到最终策略π_t(s)：

π_{t} (s) = \arg \underset{a &Element; A_{t}}{m a x} Q (s, a) - - - (14)

其中，A_t表示a_t所能选取的动作的集合。该式表示获取最大Q值时，选取动作a_t的过程。当采用此策略时，获得编号对应的节点即为簇首。

为了保证动态感知簇能够对运动目标进行有效跟踪，可以定义如下回报函数：

其中，表示基于马氏距离的信息效用函数，用于刻画节点跟踪能力的强弱，其具体定义为：

其中，表示目标状态的概率密度，X_k表示目标状态集合，z_0：k-1表示0至k-1时刻的历史量测集合，表示k时刻节点j的量测值；D_M(x_k|k-1，j)表示目标与节点j之间的马氏距离，L(j)表示节点j的位置坐标列向量，x_k|k-1表示目标位置预测坐标列向量，表示目标预测协方差矩阵的逆阵。由上可见，当节点j与目标越近，-D_M(x_k|k-1，j)越大，即节点j对目标探测的效用越高。

根据上述定义的回报函数可知，当第j+1个节点的信息效用函数优于第j个节点时，获得消极回报，通过式(13)递推计算Q值，便可以得到最优簇首选择策略。然后，在簇首通讯半径R_C覆盖的区域内选择信息效用函数最大的M_min个节点作为簇成员，从而实现簇的建立。

由于簇首及簇成员能量有限，并且对目标的跟踪受到簇成员探测半径R_D的限制，考虑到网络能量均衡性以及跟踪有效性，需要在特定时刻进行簇首切换，从而组成新的动态感知簇。针对簇首切换问题，可以定义Q值函数如下：

Q_{k + 1} (s_{k}, a_{k}) = (1 - α) Q_{k} (s_{k}, a_{k}) + α (r_{k} + γ \underset{a_{k + 1}}{m a x} Q (s_{k + 1}, a_{k + 1})) - - - (17)

其中，s_k表示当前簇首工作模式；a_k表示簇首采用的动作，具有保持与切换两种形式。当选择保持动作时，s_k＝0，簇首工作在探测模式；当选择切换动作时，s_k＝1，簇首工作在切换模式。最终，可以得到最优选择策略：

π_{C C} (s) = \arg \underset{a &Element; A_{k}}{m a x} Q (s, a) - - - (18)

其中，A_k表示a_k所能选取的动作的集合。该式表示获取最大Q值时，选取动作a_k的过程。当采用此策略时，获得的簇首切换时间为最优。

为了保证簇首剩余能量条件以及跟踪有效性，可以构造回报函数：

r_{C C} (k) = \{\begin{matrix} 1 & E_{C H} (k) > E_{C C_C H} + E_{L O W} & o r & r_{j} < R_{D}^{j} \\ 0 & E_{C H} (k) = E_{C C_C H} + E_{L O W} & o r & r_{j} = R_{D}^{j} \\ - 1 & E_{C H} (k) < E_{C C_C H} + E_{L O W} & o r & r_{j} > R_{D}^{j} \end{matrix} - - - (19)

其中，r_CC(k)表示簇首切换回报函数，E_CH(k)表示k时刻簇首剩余能量，E_LOW表示簇首存活能量下限，r_j表示目标与第j个簇成员间的欧氏距离，表示第j个簇成员的探测半径。

根据式(19)可知，当簇首剩余能量小于存活能量下限与簇首切换消耗能量之和或运动目标超出当前簇任意簇成员探测半径时，保持当前簇工作的动作将会得到消极回报，将会触发簇首切换动作。

步骤4、采用在跟踪精度允许的范围内选择最大采样时间间隔的方式，保证网络能量消耗达到最小。定义采样时间间隔Q值函数：

Q ({Δt}_{k}, a_{{Δt}_{k}}) = (1 - α) Q ({Δt}_{k}, a_{{Δt}_{k}}) + α (r_{k + 1} + γ \underset{a}{m a x} Q ({Δt}_{k + 1}, a)) - - - (20)

其中，Δt_k表示k-1时刻到k时刻的采样时间间隔；表示对Δt_k采取的动作，具有增大间隔与减小间隔两种形式，且每次调节时，均按照固定常数Δt_min进行调节。最终，可以得到最终策略：

π ({Δt}_{k}) = \arg \underset{a &Element; A_{{Δt}_{k}}}{m a x} Q ({Δt}_{k}, a) - - - (21)

其中，表示动作所能选取的动作的集合。按照该式可以获得令Q值最大的动作选取方式，此时获得的Δt_k即为k时刻最优采样时间间隔。由于采样时间间隔不可能无限制的减小，因此，当采样时间间隔等于最小采样时间间隔T_min时，便认为达到最小值。

根据跟踪精度定义回报函数：

r_{{Δt}_{k}} (k) = \{\begin{matrix} 1 & Φ (k) - Φ (k - 1) < 0 \\ 0 & Φ (k) - Φ (k - 1) = 0 \\ - 1 & Φ (k) - Φ (k - 1) > 0 \end{matrix} - - - (22)

在式(22)中，当k时刻的跟踪精度误差Φ(k)小于k-1时刻时，获得积极的回报，此时可以适当增大采样时间间隔，从而降低能量消耗；反之，减小采样时间间隔，从而确保跟踪精度满足要求。当跟踪精度误差Φ(k)大于跟踪精度门限Φ₀时，采样时间间隔选取最小采样时间间隔T_min，从而保证无线传感器网络能够较快地达到跟踪精度要求。

步骤5、目标状态估计。

当k时刻，存在N个节点对同一目标进行跟踪时，可以构造目标量测集合Z_k：

Z_{k} = {z_{1_{k}}, z_{2_{k}}, ..., z_{j_{k}}, ..., z_{N_{k}}} - - - (23)

其中，表示k时刻节点j产生的目标量测信息。

离散时间目标状态方程及目标量测方程定义如下：

X_k+1＝F(Δt_k)X_k+ω_k(24)

Z_k＝h(X_k)+v_k(25)

其中，X_k表示目标状态集合，F(Δt_k)表示状态转换矩阵，ω_k表示过程噪声；h(X_k)表示目标量测矩阵，v_k表示量测噪声。在本章中ω_k和v_k均为高斯白噪声，且其协方差矩阵分别为Q_k和R_k。

扩展卡尔曼滤波过程分为状态预测及状态更新两个阶段：

(1)预测：

{\hat{X}}_{k | k - 1} = F ({Δt}_{k}) {\hat{X}}_{k - 1 | k - 1} - - - (26)

P_k|k-1＝F(Δt_k)P_k-1|k-1F^T(Δt_k)+Q_k-1(27)

其中，表示目标状态预测矩阵，P_k|k-1表示预测状态误差协方差矩阵。

K_{k} = P_{k | k - 1} {(H_{k})}^{T} {(H_{k}^{i} P_{k | k - 1} {(H_{k})}^{T} + Q_{k})}^{- 1} - - - (28)

其中，K_k表示卡尔曼增益，H_k表示k时刻量测方程关于目标状态的雅克比矩阵：

H_{k} = \frac{\partial h (X_{k})}{\partial X_{k}} - - - (29)

(2)更新：

{\hat{X}}_{k | k} = {\hat{X}}_{k | k - 1} + K_{k} (Z_{k} - h_{k} ({\hat{X}}_{k | k - 1})) - - - (30)

P_k|k＝(I-K_kH_k)P_k|k-1(31)

其中，表示目标状态估计矩阵，P_k|k表示估计状态误差协方差矩阵。

当在二维平面运动时，目标状态矩阵可以表示为：

X_k＝{x，v_x，y，v_y}(32)

其中，(x，y)表示目标的位置，(v_x，v_y)表示目标速度的分量。

状态误差协方差矩阵可以写为如下形式：

P_k|k＝[σ_ij](33)

其中，σ_ij表示矩阵中的元素值，且i＝1，2，3，4，j＝1，2，3，4。

此时，预测位置误差协方差矩阵可以表示为：

Σ ({Δt}_{k}) = [\begin{matrix} σ_{11} + 2 {Δt}_{k} σ_{12} + {Δt}_{k}^{2} σ_{22} & σ_{13} + {Δt}_{k} (σ_{14} + σ_{23}) + {Δt}_{k}^{2} σ_{24} \\ σ_{13} + {Δt}_{k} (σ_{14} + σ_{23}) + {Δt}_{k}^{2} σ_{24} & σ_{33} + 2 {Δt}_{k} σ_{34} + {Δt}_{k}^{2} σ_{44} \end{matrix}] - - - (34)

跟踪精度误差可以用预测位置误差协方差矩阵的迹表示：

Φ(k)＝tr(∑Δt_k)(35)

根据EKF算法，可以得到无线传感器网络下的目标跟踪状态表达形式，根据式(35)即可求得步骤3中各个时刻的跟踪精度。

下面对本发明的方法进行仿真验证，

假设无线传感器网络使用300个相同传感器节点，随机分布在500m×500m的监测区域内。传感器节点的节点初始能量0.2J，E_s＝8×10^-7J，e_t＝45×10^-9J/bit，e_d＝10×10^- ¹²J/(bit·m²)，β＝2，e_r＝135×10^-9J/bit，e_f＝5×10^-9J/bit，b_cc＝1280bit，b_bc＝64bit。节点探测概率α＝0.78，探测概率门限θ_d＝0.99，跟踪误差门限Φ₀＝10，最小采样时间间隔T_min＝0.01s。

目标运动模型选择为二维平面运动，运动模型如式(24)、(25)所示，式中，状态转移矩阵F(Δt_k)及协方差矩阵Q(k，Δt_k)定义如下：

F ({Δt}_{k}) = [\begin{matrix} 1 & {Δt}_{k} & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & {Δt}_{k} \\ 0 & 0 & 0 & 1 \end{matrix}] - - - (36)

Q (k, {Δt}_{k}) = q [\begin{matrix} {Δt}_{k}^{3} / 3 & {Δt}_{k}^{2} / 2 & 0 & 0 \\ {Δt}_{k}^{2} / 2 & {Δt}_{k} & 0 & 0 \\ 0 & 0 & {Δt}_{k}^{3} / 3 & {Δt}_{k}^{2} / 2 \\ 0 & 0 & {Δt}_{k}^{2} / 2 & {Δt}_{k} \end{matrix}] - - - (37)

其中，Δt_k为采样时间间隔，q表示过程噪声强度系数，这里取q＝0.5，运动目标初始状态X₀＝[503503]^T，协方差矩阵初始值P₀＝diag([204204])。

跟踪精度评价指标选择为位置估计均方根误差，其定义为：

{RMSE}_{k} = \sqrt{\frac{1}{N_{l}} Σ_{l = 1}^{N_{l}} {| | {\hat{x}}_{k, l} - {\bar{x}}_{k, l} | |}^{2}} - - - (38)

其中，N_l表示仿真次数，与分别表示第l次仿真中目标在k时刻的位置估计值与真实值。

为了验证本发明的RLCTA方法在跟踪精度与能量消耗方面的性能，选择协同跟踪中较为经典的IDSQ方法和A-DCS方法加以比较。

图2中显示了无线传感器网络协同跟踪的仿真场景图，通过仿真说明了动态成簇及簇首切换功能的有效性。

图3为跟踪误差比较图，采用RLCTA、IDSQ及A-DCS三种方法分别对同一运动目标进行跟踪，通过计算位置估计均方根误差可以看出，RLCTA方法的跟踪误差明显小于后两者，从而证明了本发明提出的方法在跟踪精度方面的优越性。

图4为方法能耗对比图，对RLCTA、IDSQ及A-DCS三种方法在跟踪过程中的能量消耗加以分析，可以看出RLCTA方法的能量消耗小于后两者，这是由于该方法通过减少簇成员数量，减少簇首切换，增大采样时间间隔的方式，尽可能地减少了能量的消耗，因此，证明了本发明方法对减少网络消耗的有效性。

综上所述，本发明的基于强化学习的无线传感器网络协同跟踪方法能够有效地进行目标跟踪任务，在有效减小跟踪精度误差的同时，降低了网络能量消耗，本发明的强化学习无线传感器网络协同跟踪方法在处理跟踪精度及能量消耗矛盾方面具有积极的意义。

Claims

1.一种基于强化学习的无线传感器网络协同跟踪方法，其特征在于，包括以下步骤：

第一步，根据无线传感器网络建立能量模型及跟踪精度模型。

第二步，根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员个数。

第三步，选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数计算，将信息效用函数的值作为奖惩标准，从而获得令Q值最大的最优动作策略，此时获取的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点，通过将各节点信息效用函数值从大到小依次排列，选取函数值最大的最少簇成员个数的节点作为簇成员。

第四步，判断跟踪精度误差是否达到精度误差门限，若精度误差大于门限值，则采样时间间隔选为最小采样时间间隔；若精度误差满足门限要求，则根据Q值函数计算获得的最优策略对采样时间间隔进行增减，最终获得最优采样时间间隔。

第五步，根据动态感知簇获得的运动目标位置信息，通过扩展卡尔曼滤波算法对目标的状态进行估计，进而实现WSN协同跟踪任务。

2.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，所述的簇首选择方法，具体是，在簇首选择时应满足各节点与目标间的欧氏距离r不大于节点的探测半径R_D，假设满足条件的节点个数为J时，可以定义Q值函数如下：

Q_{t + 1} (s_{t}, a_{t}) = (1 - α) Q_{t} (s_{t}, a_{t}) + α (r_{t} + γ \underset{a_{t + 1}}{m a x} Q (s_{t + 1}, a_{t + 1})) - - - (1)

3.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，所述的簇首选择回报函数，具体是，回报函数如下：

其中，表示基于马氏距离的信息效用函数，用于刻画节点跟踪能力的强弱。

4.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，所述的簇首切换方法，具体是，根据簇首能量有限及对目标的跟踪受到簇成员探测半径R_D的限制，定义Q值函数如下：

Q_{k + 1} (s_{k}, a_{k}) = (1 - α) Q_{k} (s_{k}, a_{k}) + α (r_{k} + γ \underset{a_{k + 1}}{m a x} Q (s_{k + 1}, a_{k + 1})) - - - (3)

其中，s_k表示当前簇首工作模式；a_k表示簇首采用的动作，具有保持与切换两种形式。当选择保持动作时，s_k＝0，簇首工作在探测模式；当选择切换动作时，s_k＝1，簇首工作在切换模式。

5.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，所述的簇首切换回报函数，具体是，回报函数如下：

r_{C C} (k) = {\begin{matrix} 1 & E_{C H} (k) > E_{C C_C H} + E_{L O W} & o r & r_{j} < R_{D}^{j} \\ 0 & E_{C H} (k) = E_{C C_C H} + E_{L O W} & o r & r_{j} = R_{D}^{j} \\ - 1 & E_{C H} (k) < E_{C C_C H} + E_{L O W} & o r & r_{j} > R_{D}^{j} \end{matrix} - - - (4)

6.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，所述的簇首切换方法，具体是，定义Q值函数如下：

Q ({Δt}_{k}, a_{{Δt}_{k}}) = (1 - α) Q ({Δt}_{k}, a_{{Δt}_{k}}) + α (r_{k + 1} + γ \underset{a}{m a x} Q ({Δt}_{k + 1}, a)) - - - (5)

其中，Δt_k表示k-1时刻到k时刻的采样时间间隔；表示对Δt_k采取的动作，具有增大间隔与减小间隔两种形式，且每次调节时，均按照固定常数Δt_min进行调节。当采样时间间隔等于最小采样时间间隔T_min时，便认为达到最小值。

7.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，所述的采样时间间隔选择回报函数，具体是，回报函数如下：

r_{{Δt}_{k}} (k) = {\begin{matrix} 1 & Φ (k) - Φ (k - 1) < 0 \\ 0 & Φ (k) - Φ (k - 1) = 0 \\ - 1 & Φ (k) - Φ (k - 1) > 0 \end{matrix} - - - (6)

其中，Φ(k)表示跟踪精度误差。