CN108235347A

CN108235347A - 一种无线传感器网络能耗控制方法

Info

Publication number: CN108235347A
Application number: CN201711392068.9A
Authority: CN
Inventors: 宋睿卓; 刘路; 魏庆来
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-29

Abstract

本发明提供一种无线传感器网络能耗控制方法，能够降低无线传感器网络的能耗。所述方法包括：全局迭代：初始化评价网络的权值；局部迭代：利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略；判断局部迭代是否结束，若结束，则根据评价网络当前的输出值更新性能指标函数，根据初步确定的最优控制策略来更新最优控制策略，并判断当前的全局迭代是否结束，若结束，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略。本发明涉及无线通信领域。

Description

一种无线传感器网络能耗控制方法

技术领域

本发明涉及无线通信领域，特别是指一种无线传感器网络能耗控制方法。

背景技术

随着无线传感器网络在军事、经济、社会生活等方面越来越广泛的应用，能耗问题越来越突出地成为制约无线传感器网络广泛应用与发展的一大难题。解决这一问题的有效途径是通过合理组织无线传感器网络中节点的状态，让部分节点进入低能耗的感知或睡眠状态，从而降低整个网络的能耗，有效地延长网络寿命，这种技术称为节点调度。

如今无线传感器网络由于其摆脱了传统网络的连线限制和成本问题，在世界各领域内得到了日益广泛的应用。然而目前无线传感器网络传感器节点能量有限，在具体的工作环境中，还没有有效的控制策略能够使无线传感器系统达到最佳的控制效果。

发明内容

本发明要解决的技术问题是提供一种无线传感器网络能耗控制方法，以解决现有技术所存在的没有有效的控制策略能够使无线传感器系统达到最佳的控制效果的问题。

为解决上述技术问题，本发明实施例提供一种无线传感器网络能耗控制方法，包括：

S101、建立传感器节点能量模型，根据建立的传感器节点能量模型，建立评价网络；

S102、全局迭代：初始化评价网络的权值；

S103、局部迭代：利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略；

S104、判断局部迭代是否结束，若结束，则根据评价网络当前的输出值更新性能指标函数，根据初步确定的最优控制策略来更新最优控制策略，并判断当前的全局迭代是否结束，若结束，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略。

进一步地，所述传感器节点能量模型表示为：

其中，Eⁱ表示传感器节点i的能量消耗，E₁表示传感器节点i由于监测目标和数据处理产生的能耗，表示传感器节点i向基站传输数据的功率消耗，E₂表示传感器节点i处于睡眠状态时自身定时器所消耗的能量，uⁱ[k]＝1表示传感器节点i处于激活状态，uⁱ[k]＝0表示传感器节点i处于睡眠状态。

进一步地，所述根据建立的传感器节点能量模型，建立评价网络包括：

根据建立的传感器节点能量模型，利用三层误差反向传播神经网络作为评价网络；其中，所述评价网络包括：输入层、隐含层、输出层。

进一步地，所述初始化评价网络的权值包括：

在预设范围内采用随机方式初始化评价网络的权值。

进一步地，在S103之前，所述方法还包括：

利用遗传算法在预设的控制策略集合中选择某一控制策略u[k]，利用卡尔曼滤波算法求出根据选择的控制策略u[k]预测的目标位置与目标实际位置的系统跟踪误差e[k]。

进一步地，所述利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略包括：

将得到的系统跟踪误差e[k]输入至评价网络，训练评价网络并修正评价网络的权值，直至评价网络输出的价值函数值收敛，得到控制策略u[k]的价值函数，所述价值函数用于近似系统最优性能指标函数；

将控制策略u[k]的价值函数值作为控制策略u[k]的适应度值，结合接收到的系统状态向量，进行遗传变异，产生子代；

选择所有代中适应度值最小的作为初步最优控制策略输出。

进一步地，所述控制策略u[k]的价值函数表示为：

其中，V^[l+1][k]和V^[l][k+1]都表示价值函数，k表示时间步，l表示第l次迭代，U[k]表示效用函数，[]表示离散。

进一步地，所述效用函数U[k]表示为：

U[k]＝Q_JJ[k]+R_Je[k]

其中，Q_J和R_J都表示对称且正定的矩阵，J[k]表示性能指标函数。

进一步地，评价网络的权值更新公式表示为：

其中，和都表示评价网络隐含层和输出层间的权重，表示平方近似误差函数，表示评价网络的误差函数，α_c表示评价网络的学习率，l表示第l次迭代，v_c表示评价网络输入层和隐含层间的权重，Z[k]表示评价网络的输入，表示系统的能量指标，E[j]表示j时刻系统的能量消耗，表示每个时间步消耗的能量平方和，表示V^[l][k]的近似值，T表示转置，σ()表示S型函数。

进一步地，所述判断局部迭代是否结束，若结束，则根据评价网络当前的输出值更新性能指标函数，根据初步确定的最优控制策略来更新最优控制策略，并判断当前的全局迭代是否结束，若结束，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略包括：

判定局部迭代次数是否达到预设的次数阈值，若未达到，则返回S103继续执行；

若已达到，则根据评价网络当前的输出值更新性能指标函数，并根据初步确定的最优控制策略来更新最优控制策略，根据更新后的性能指标函数和最优控制策略，判断当前的性能指标是否小于预设的第一阈值、系统跟踪误差是否小于预设的第二阈值；

若当前的性能指标小于预设的第一阈值且系统跟踪误差小于预设的第二阈值，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略；

否则，则返回S102初始化评价网络的权值。

本发明的上述技术方案的有益效果如下：

上述方案中，建立传感器节点能量模型，根据建立的传感器节点能量模型，建立评价网络；全局迭代：初始化评价网络的权值；局部迭代：利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略；判断局部迭代是否结束，若结束，则根据评价网络当前的输出值更新性能指标函数，根据初步确定的最优控制策略来更新最优控制策略，并判断当前的全局迭代是否结束，若结束，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略，以便根据得到的无线传感器网络能耗的最优控制策略，调度传感器节点的工作状态，能够降低无线传感器网络的能耗。

附图说明

图1为本发明实施例提供的无线传感器网络能耗控制方法的流程示意图；

图2为本发明实施例提供的无线传感器系统结构示意图；

图3为本发明实施例提供的感知目标的传感器节点与汇聚节点通信示意图；

图4为本发明实施例提供的最优控制策略的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的没有有效的控制策略能够使无线传感器系统达到最佳的控制效果的问题，提供一种无线传感器网络能耗控制方法。

如图1所示，本发明实施例提供的无线传感器网络能耗控制方法，包括：

S102、全局迭代：初始化评价网络的权值；

本发明实施例所述的无线传感器网络能耗控制方法，建立传感器节点能量模型，根据建立的传感器节点能量模型，建立评价网络；全局迭代：初始化评价网络的权值；局部迭代：利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略；判断局部迭代是否结束，若结束，则根据评价网络当前的输出值更新性能指标函数，根据初步确定的最优控制策略来更新最优控制策略，并判断当前的全局迭代是否结束，若结束，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略，以便根据得到的无线传感器网络能耗的最优控制策略，调度传感器节点的工作状态，能够降低无线传感器网络的能耗。

本实施例中，如图2和图3所示，无线传感器系统由无线传感器节点(简称：传感器节点)、汇聚节点、计算机网络和卫星、任务管理节点组成。无线传感器节点自组构成无线传感器网络，并通过多跳转发或单跳的方式将感知的数据传送到远端的汇聚节点，汇聚节点将整个网络的数据通过计算机网络和卫星等设备传送到任务管理节点，同时将用户的查询要求发送到无线传感器网络中。

在该无线传感器系统中，汇聚节点控制器可以采取不同的控制策略以满足高精度以及低能耗的需求。无线传感器系统中的传感器节点的工作模式可分为检测、通信、空闲、侦听、休眠五种工作状态。为了简化模型，假设传感器节点只有工作和睡眠两种工作状态，即设定检测、通信、侦听为工作状态，设定空闲、休眠为睡眠状态。

在前述无线传感器网络能耗控制方法的具体实施方式中，进一步地，所述传感器节点能量模型表示为：

本实施例中，一旦目标被检测到，基站将收集目标的运动状态、可用传感器节点、传感器节点位置等信息，然后根据这些信息以实现最佳系统性能指标为目的，调度传感器节点i的工作状态uⁱ[k]＝0/1，uⁱ[k]＝1表示传感器节点i处于激活状态，uⁱ[k]＝0表示传感器节点i处于睡眠状态。

在前述无线传感器网络能耗控制方法的具体实施方式中，进一步地，所述根据建立的传感器节点能量模型，建立评价网络包括：

本实施例中，需要预测目标未来的位置与能量损耗，根据预测值实施最佳调度方案，在满足监测目标时的精确度与低能耗要求的同时得到最优运行策略。由此可知，准确的误差与能量预测是无线传感器网络能耗优化控制的关键。经过对各种预测方法的研究和比较发现，利用人工神经网络和遗传算法获得的能耗控制方法的结果更加理想。

本实施例中，可以利用三层误差反向传播(Back Propagation，BP)神经网络作为评价网络，其中，所述评价网络包括：输入层、隐含层、输出层，假设隐含层神经元被标记为Z，输入层和隐含层间的权重记为V，隐含层和输出层间的权重记为W，那么评价网络的输出可表示为其中，σ(V^TZ)是一个S型函数；X表示神经网络的输入，具体为目标的运动状态。

本实施例中，在建立评价网络之后，根据无线传感器网络精度高、能耗低的需求，需初始化相关参数，需要初始化的具体参数包括：遗传算法相关参数，例如，种群大小、迭代次数、交叉概率、变异概率；系统需要运行的时间步；为需要存储的参数定义矩阵，如每个时间步内可感知目标的传感器节点的编号、最优性能指标函数值矩阵、用于存储每个时刻消耗的能量平方和的矩阵等；ADP算法相关参数，如局部迭代的最大迭代次数(即：预设的次数阈值)；卡尔曼滤波算法相关参数，如目标运动动力矩阵、传感器噪声协方差矩阵等。

本实施例中，时间步表示间隔时间，例如，每隔一段时间取一个值记录下来，方便统计、观察数据，本实施例中，用k表示时间步。

在前述无线传感器网络能耗控制方法的具体实施方式中，进一步地，所述初始化评价网络的权值包括：

在预设范围内采用随机方式初始化评价网络的权值。

本实施例中，评价网络的权值初始化在全局迭代之内，可以在每次全局迭代开始时重新进行权值的初始化，从而在保证网络稳定性与收敛速度的基础上更好地保证神经网络的收敛性，以便尽快找到精度高、能耗低的最优控制策略。

本实施例中，例如，可以在(-0.01,0.01)范围内采用随机方式进行评价网络的权值初始化。

在前述无线传感器网络能耗控制方法的具体实施方式中，进一步地，在S103之前，所述方法还包括：

本实施例中，利用卡尔曼滤波算法对目标的位置进行预测，能够提高本实施例所述的无线传感器网络能耗控制方法的跟踪精度，利用遗传算法能够提高本实施例所述的无线传感器网络能耗控制方法的收敛速度；

在前述无线传感器网络能耗控制方法的具体实施方式中，进一步地，所述利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略包括：

选择所有代中适应度值最小的作为初步最优控制策略输出。

本实施例中，训练评价网络输出的是：价值函数值，所述价值函数值用来近似最优性能指标函数，为最优性能指标函数的近似值，因此，评价网络输出的价值函数值能够用于评测当前传感器网络控制策略的性能。训练评价网络时的输入数据和输出数据包括：

输入数据：系统跟踪误差e[k]；

输出数据：控制策略的价值函数，即V^[l+1][k]。

本实施例中，所述控制策略u[k]的价值函数V^[l+1][k]表示为：

其中，V^[l+1][k]和V^[l][k+1]都表示价值函数，k表示时间步，l表示第l次迭代，U[k]表示效用函数，[]表示离散，V^[0][k]＝0，并且

本实施例中，所述效用函数U[k]表示为：

U[k]＝Q_JJ[k]+R_Je[k]

本实施例中，效用函数表示为U[k]＝Q_JJ[k]+R_Je[k]，这意味着本实施例得到的控制策略，不仅使能量消耗最小，也使得跟踪误差最小。

本实施例中，当得到某控制策略的价值函数后，进行执行阶段，执行阶段，需结合接收到的系统状态向量，根据得到的控制策略的价值函数，选择初步最优控制策略，也可以称为：近似最优控制策略，从而最小化一次全局迭代内的总成本。

本实施例中，执行阶段的输入数据和输出数据包括：

输入数据：系统状态向量x_s[k]；

输出数据：根据评价网络所得最优控制策略。

执行阶段的选择流程为：当接收到一个系统状态向量(目标监测需求)时，首先询问评价网络看哪个控制策略即u[k]能使评价网络产生满足性能指标最低标准的输出，然后选择这个控制策略作为初步确定的最优控制策略。

本实施例中，对任意时间步k，系统状态向量x_s[k]的某一列向量x[k]∈Rⁿ，x[k]表示要监测的目标在时间步k时的运动状态，其中，x_k和y_k分别表示要监测的目标在x轴方向和y轴方向上的位置、和分别表示要监测的目标在x轴方向和y轴方向的速度，Rⁿ表示n维的向量空间；w[k]∈Rⁿ是目标在运动过程中运动状态受到的噪声干扰，w[k]～N(0,Q)，其中，w[k]～N(0,Q)表示w[k]服从均值为0、协方差为Q的正态分布(也称为高斯分布)，Q为协方差矩阵。

本实施例中，系统的能量指标表示为：

本实施例中，系统跟踪误差指标e[k]表示为：

其中，列向量x[k]∈Rⁿ表示要监测的目标在时间步k时的运动状态，表示目标状态x[k]的估计值；

根据卡尔曼滤波原理，可以得到监测目标时间步k时的状态估计值为将与目标实际的运动状态x[k]之差的平方作为测量误差控制的目标。

本实施例中，无线传感器网络的性能指标函数表示为：

本实施例中，表示j时刻的能量指标，利用J[k]同时衡量能量和跟踪误差。

本实施例中，用系统矩阵A∈R^n×n模拟目标的状态动力学，同时假设x[0]～N(0,Σ)，x[0]～N(0,Σ)表示x[0]服从均值为0、协方差为Σ的正态分布。

目标运动状态的简要模型可以写成：

x[k+1]＝Ax[k]+w[k]

其中，Δt表示每个时间步所代表的时间。

本实施例中，评价网络的目标是最小化其误差函数

其中，表示平方近似误差函数，表示V^[l][k]的近似值。

本实施例中，由于系统的性能指标函数为：

其中，可以得到因此，在最小化误差函数后，评价网络的输出即为当前时刻的性能指标函数值。所以评价网络通过训练使U[k]和J^*[k]满足下述条件：

其中，J^*[k]表示最优性能指标函数，J[k]表示性能指标函数，表示控制策略的集合。

本实施例中，评价网络的权值更新公式表示为：

如图4所示，最优控制策略的确定过程简述如下：

①利用遗传算法在中选择u[k](例如，u₁，u₂，,,,,，u_m-1，u_m)，利用卡尔曼滤波算法求出根据u[k]预测的目标位置与目标实际位置的系统跟踪误差e[k](例如，e₁，e₂，,,,,，e_m-1，e_m)；

②输入e[k]到评价网络，训练评价网络并修正评价网络的权值，，迭代直到价值函数V^[l+1][k]收敛，得到u[k]的价值函数，此时的价值函数用来近似系统最优性能指标函数(例如，J₁，J₂，,,,,，J_m-1，J_m)；

③然后将评价网络输出的控制策略的价值函数值作为它的适应度值，结合接收到的系统状态向量，进行遗传变异，选择优质父代，并产生子代；

④选择所有代中适应度值最小的作为初步最优控制策略输出；此时，评价网络被训练好，保存训练好的评价网络，所述评价网络能够用于预测系统的精确度与能耗；

⑤如果无线传感器网络条件变化(例如，无线传感器网络的结构可能因为许多因素而改变：比如说：环境因素或电能耗尽造成的传感器节点故障或失效；环境条件变化可能造成无线通信链路带宽变化，甚至时断时通；随着传感器节点的损坏，可能随时有新节点的加入。)或者对系统有新的要求(无线传感器网络在不同条件下适应度值是不同的)，评价网络将会被重新训练。

图4中，KF表示卡尔曼滤波算法，Critic表示评价网络。

在前述无线传感器网络能耗控制方法的具体实施方式中，进一步地，所述判断局部迭代是否结束，若未结束，则返回S103，若结束，则根据评价网络当前的输出值更新最优性能指标函数和最优控制策略，并判断当前的全局迭代是否结束，若结束，则获得无线传感器网络能耗的最优控制策略包括：

判定局部迭代次数是否达到预设的次数阈值，若未达到，则返回S103继续执行评价网络的训练；

若已达到，则根据评价网络当前的输出值更新性能指标函数，并根据初步确定的最优控制策略来更新最优控制策略，根据更新后的性能指标函数和最优控制策略，以获得初步最优解；判断当前的性能指标是否小于预设的第一阈值、系统跟踪误差是否小于预设的第二阈值；

若当前的性能指标小于预设的第一阈值且系统跟踪误差小于预设的第二阈值，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略，根据得到的最优控制策略，对无线传感器网络节点进行优化调度，即合理切换节点的睡眠与工作状态；

否则，则返回S102初始化评价网络的权值。

本实施例中，若当前的性能指标小于预设的第一阈值且系统跟踪误差小于预设的第二阈值，则得到无线传感器网络能耗的最优控制策略，并根据得到的最优控制策略，计算各时刻目标与最佳位置间的误差，根据相应的结果计算能耗。

本实施例中，根据传感器节点对目标的感知情况(例如，位置)，建立了基于自适应动态规划的无线传感器网络能耗最优控制方法，通过能耗分析并结合应用目标，得出了以减小系统跟踪误差和降低系统的能耗为指标的系统性能指标函数，获得相应时间段内(时间步)的优化控制策略，能够合理调度传感器网络中传感器节点的工作状态，实现无线传感器网络节点工作状态的优化分配，降低无线传感器网络的能耗，提高无线传感器网络的精度，延长无线传感器网络寿命，同时降低成本。

在实际应用过程中，目标的实时信息可以通过传感器节点监测的实时数据获得，实际信息可能与预测值有所出入，可以通过建立更加精确的预测模型进行改进，同时不影响本发明的控制方法。因此，本实施例中实时监测到的信息(例如，位置)接近实际情况即可。

本实施例所述的无线传感器网络能耗控制方法，可以在无需获得精确的数学模型的情形下，通过自适应动态规划不断寻找最优的传感器节点调度控制策略，克服理论模型与实际应用之间的矛盾，降低了对模型的要求并且有较好的综合控制效果，本实施例还可以保存相应的误差与能耗最小时的神经网络数据，直到评价网络训练结束。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种无线传感器网络能耗控制方法，其特征在于，包括：

S102、全局迭代：初始化评价网络的权值；

2.根据权利要求1所述的无线传感器网络能耗控制方法，其特征在于，所述传感器节点能量模型表示为：

3.根据权利要求2所述的无线传感器网络能耗控制方法，其特征在于，所述根据建立的传感器节点能量模型，建立评价网络包括：

4.根据权利要求1所述的无线传感器网络能耗控制方法，其特征在于，所述初始化评价网络的权值包括：

在预设范围内采用随机方式初始化评价网络的权值。

5.根据权利要求1所述的无线传感器网络能耗控制方法，其特征在于，在S103之前，所述方法还包括：

6.根据权利要求1所述的无线传感器网络能耗控制方法，其特征在于，所述利用自适应动态规划训练评价网络，所述评价网络用于近似系统最优性能指标函数，根据接收到的系统状态向量，选择使评价网络产生满足性能指标最低标准时的输出，当前的控制策略为初步确定的最优控制策略包括：

选择所有代中适应度值最小的作为初步最优控制策略输出。

7.根据权利要求6所述的无线传感器网络能耗控制方法，其特征在于，所述控制策略u[k]的价值函数表示为：

8.根据权利要求7所述的无线传感器网络能耗控制方法，其特征在于，所述效用函数U[k]表示为：

U[k]＝Q_JJ[k]+R_Je[k]

9.根据权利要求8所述的无线传感器网络能耗控制方法，其特征在于，评价网络的权值更新公式表示为：

10.根据权利要求9所述的无线传感器网络能耗控制方法，其特征在于，所述判断局部迭代是否结束，若结束，则根据评价网络当前的输出值更新性能指标函数，根据初步确定的最优控制策略来更新最优控制策略，并判断当前的全局迭代是否结束，若结束，则将更新后的最优控制策略作为无线传感器网络能耗的最优控制策略包括：

否则，则返回S102初始化评价网络的权值。