CN112381171B

CN112381171B - 一种基于组合模型的多传感器节点缺失数据填充方法

Info

Publication number: CN112381171B
Application number: CN202011335298.3A
Authority: CN
Inventors: 许国艳; 张网娟; 景子栩
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2023-04-07
Anticipated expiration: 2040-11-25
Also published as: CN112381171A

Abstract

本发明公开了一种基于组合模型的多传感器节点缺失数据填充方法，属于传感器网络领域中的数据缺失填充技术领域，该填充方法首先在时间维度，针对卷积神经网络对时序数据不敏感的问题，引入具有“记忆”的长短期记忆网络，与能够自主提取和学习有效特征结构的卷积神经网络相结合进行时间维度的预填充；然后针对传感器网络中多节点缺失的问题，在空间维度引入了用户协同过滤算法，辅助挖掘节点间的空间相关性，结合卷积神经网络解决传感器网络中多节点缺失的问题，完成空间维度的预填充；最后将两个维度各自的预填充结果通过全网络连接进行融合得到最终的填充结果。本发明的效果和益处是采用基于组合模型的填充方法，保证了有更高的填充精度。

Description

一种基于组合模型的多传感器节点缺失数据填充方法

技术领域：

本发明属于传感器网络领域中的数据缺失填充技术领域，具体涉及一种基于组合模型的多传感器节点缺失数据填充方法。

背景技术：

人们通过传感器节点获取物理世界的信息数据，之后再由网络将数据传送给用户进行进一步处理。现实世界中所获取到的监测数据往往存在缺失，例如，长期连续工作在野外环境的传感器节点，由于工作环境恶劣或动物踩踏等原因，零部件可能出现故障或损坏等问题；传感器自身能量和存储能力有限，造成节点监测数据缺失；由于气象变化造成网络传输不稳定或中断，同样可能造成监测数据出现缺失。

由于传感器网络自身的特殊性，因此传感器节点采集的监测数据有以下几个特性：1)随机性：受多因素影响，无法预知哪一监测时刻的数据会发生缺失，因此传感器网络中监测数据的缺失是随机的；2)数据结构简单：传感器节点主要是对监测区域内的环境数据进行采集，通常是数值型数据、图像数据；3)数据间的相关性：同一节点的监测数据具有时间相关性，因为传感器节点是对监测对象的物理变量进行连续的监测。监测区域内，传感器网络大多采取放置多个节点的策略，因此同一区域内的节点具有空间相关性。

当数据缺失问题无法避免时，为了从海量数据中获得有用的知识和信息为决策者提供有效依据，需要对缺失数据进行填充。人工神经网络是一种模拟人类大脑思考的非线性模型，在无需先验知识的情况下逼近非线性函数。卷积神经网络(CNN)是在传统神经网络的基础上发展而来的一种多层网络结构，CNN通过权值共享和局部连接增强了网络泛化能力，减少神经元之间的连接数目，不仅加深了模型的深度而且易于训练。CNN在人脸特征提取、图像语义分割等多个方面表现突出，同时在回归问题上也取得了很好的成果。将卷积神经网络应用于含有缺失数据的传感器网络中，自主提取和学习有效的时间和空间特征，实现传感器节点的缺失数据填充，可以有效提高精度。

发明内容：

针对现有技术中的不足，本发明结合神经网络理论和用户协同过滤理论，提出一种精度好且具有可适应性的基于组合模型的多传感器节点缺失数据填充方法。

本发明的技术方案如下：

一种基于组合模型的多传感器节点缺失数据填充方法，包括如下步骤：

1)基于时间序列的缺失数据填充；

2)基于空间节点的缺失数据填充；

3)基于融合的缺失数据填充。

进一步地，所述的步骤1)中，包括如下步骤：

步骤1.1：对于目标传感器节点S_n的时间序列监测数据，根据局部时间索引(LocalTime Index,LTI)策略，生成t-1时刻的原始训练样本一维向量p_t-1和t时刻的原始测试样本一维向量q_t；

步骤1.2：利用公式(1)将原始训练样本和原始测试样本中的一维序列转换成二维信息矩阵X，其中x(a₁,…,a_n)为构建的原始列向量，x^T为x的转置向量；

步骤1.3：对于目标传感器节点S_n的时间序列二维信息矩阵，使用CNN对时间维度的输入矩阵进行特征提取；

步骤1.4：LSTM通过学习CNN输出的具有时间特征的信息，完成缺失值的估算，得到时间维度的预填充结果

进一步地，所述的步骤2)中，包括如下步骤：

步骤2.1：根据N-1个传感器的时间序列数据集合data，使用用户协同过滤(UCF)算法，获取目标传感器节点S_n在t时刻对应的最佳匹配节点集合；

步骤2.2：根据最佳匹配节点集合V中每个节点同一时间戳下的监测数据，构造原始训练样本和原始测试样本，由公式(1)转变为二维信息矩阵，生成模型的训练集和测试集；

步骤2.3：使用CNN网络对缺失数据进行填充，得到空间维度的预填充结果

进一步地，所述的步骤3)中，包括如下步骤：

步骤3.1：选取时间、空间维度的预填充结果

和

作为输入变量；

步骤3.2：使用神经网络全连接网络非线性融合时间、空间维度的预填充结果

和

即首先将这两个输入变量赋值给输入层对应的神经元，然后传递给隐含层中的神经元进行信息的交换，最后输出层将融合交换后的信息进行输出，得到最终的基于时空的填充结果

进一步地，所述的步骤1.1的具体过程为：

1.11：传感器节点S_n的时间序列表示为S_n＝(＜d₁,1＞,…,＜d_t,t＞,…＜d_T,T₀＞)，其中d_t表示节点S_n在t(t∈{1,2,…,T₀})时刻的观测值；

1.12：按照给出的公式计算局部时间索引：

t_min＝min(GTI_i) (2)

LTI_i＝GTI_i-t_min (3)

其中，i表示全局索引中的第i个时刻，GTI_i表示所截取的全局索引(连同缺失时刻)，LTI_i表示局部时间索引；

1.13：按照LTI，生成t-1时刻的原始训练样本一维向量p_t-1和t时刻的原始测试样本一维向量q_t。

进一步地，所述的步骤2.1的具体过程为：

根据N-1个传感器的时间序列数据集合data，使用用户协同过滤(UCF)算法，利用公式(4)获取目标传感器节点S_n在t时刻对应的最佳匹配节点集合：

其中，传感器节点S_n在t时刻发生数据缺失现象，t时刻未发生缺失现象的传感器节点S_u，u(u∈{1,2，...,N},u≠n)，Sim(S_n,S_u)表示S_n、S_u两个传感器节点的相似度，I_nu表示传感器节点S_n和传感器节点S_u在同一时刻都存在读数的时间戳集合，d_n,i和d_u,i表示局部监测数据矩阵中传感器节点S_n和传感器节点S_u在i时刻的监测数据，

和

表示传感器节点S_n和传感器节点S_u所有有效监测数据的平均值。

有益效果：与现有技术相比，本发明对于传感器网络多节点数据缺失问题(如图1所示)，利用组合模型(如图2所示)解决时间维度和空间维度数据缺失填充问题，提高了适应性；同时，采用长短期记忆网络(LSTM)和用户协同过滤(UCP)策略结合模型，使得数据缺失填充精度提高，适用于多节点数据缺失情况。

附图说明：

图1是传感器网络多节点数据缺失问题示意图；

图2是组合模型流程图；

图3是基于时间序列的缺失数据填充过程示意图；

图4是基于空间节点的缺失数据填充过程示意图；

图5是时间维度填充结果评价指标对比(温度)图；

图6是时间维度填充结果评价指标对比(湿度)图；

图7是空间维度填充结果评价指标对比(温度)图；

图8是空间维度填充结果评价指标对比(湿度)图；

图9是单维度vs.时空维度填充效果图(温度)图；

图10是单维度vs.时空维度填充效果图(湿度)图。

具体实施方式：

下面结合附图和实施例对本发明作进一步详细说明，所给出的实施例是为了说明本发明方法的技术特点和功能特点，而不是限制本发明的范围。

1)基于时间序列的缺失数据填充；

2)基于空间节点的缺失数据填充；

3)基于融合的缺失数据填充。

步骤1)中，包括如下步骤：

步骤2)中，包括如下步骤：

步骤3)中，包括如下步骤：

步骤3.1：选取时间、空间维度的预填充结果

和

作为输入变量；

和

步骤1.1的具体过程为：

1.12：按照给出的公式计算局部时间索引：

t_min＝min(GTI_i) (2)

LTI_i＝GTI_i-t_min (3)

步骤2.1的具体过程为：

和

实施例

本发明的实施例采用IntelBerkeley实验室采集的真实传感器网络中的温度和湿度属性作为实验数据，首先按照每5分钟对原始数据进行整合，然后提取整合数据集中的一部分数据，同时任意挑选一个传感器节点，将其温度和湿度数据随机删除25％的数据，模拟待填充节点。图5(a)是时间维度填充结果评价指标对比(温度)图一，图5(b)是时间维度填充结果评价指标对比(温度)图二；图6(a)是时间维度填充结果评价指标对比(湿度)图一，图6(b)是时间维度填充结果评价指标对比(湿度)图二；图7(a)是空间维度填充结果评价指标对比(温度)图一，图7(b)是空间维度填充结果评价指标对比(温度)图二；图8(a)是空间维度填充结果评价指标对比(湿度)图一，图8(b)是空间维度填充结果评价指标对比(湿度)图二；图9(a)是单维度vs.时空维度填充效果图(温度)图一和图9(b)是单维度vs.时空维度填充效果图(温度)图二；图10(a)是单维度vs.时空维度填充效果图(湿度)图一，图10(b)是单维度vs.时空维度填充效果图(湿度)图二。

本发明使用TensorFlow机器学习框架建立神经网络模型，填充模型以最佳回归效果为目标，即估算值与模型期望的真实值之间误差最小，选用的公式(5)的均方误差MSE作为损失函数。模型卷积层的卷积核大小为2×2，选用均值池化方式进行下采样操作，池化核大小为2×2，选用Adam优化器，网络学习率设定为0.0001，使用十折交叉验证确定最优参数，进行10次实验，取平均值作为最终的实验结果。本发明通过希尔不等系数TIC(TheilInequality Coefficient,TIC)和决定系数R²(The Coefficient of Efficiency)作为模型的评价因子，越小的TIC值和越大的R²值表示填充的误差越小，精度越高，拟合度越好。MSE、TIC和R²具体公式如下所示，其中W为权重向量，b为偏置：

公式中,Y(i)表示网络期望的输出值，

表示卷积神经网络的拟合值，TIC、R²、n、y_i、

分别代表希尔不等系数、决定系数、缺失值数量、真实值、填充值和真实数据平均值。度量指标TIC的值介于0和1之间。

一种组合模型DFCM，其基本思想是先对时间维度和空间维度设计匹配的模型，然后将时间维度和空间维度预填充的中间结果融合在一起，最终完成缺失数据的填充。DFCM的具体流程如下：

Step1:检测待填充的目标传感器节点S_n监测数据的完整性，若是完整的时间序列，直接进入Step6，否则进入Step2；

Step2:根据提出的CNN-LSTM联合深度学习填充模型，分析数据的时间特性，对缺失数据进行时间维度的填充，得到预填充结果

Step3:根据提出的UCF-CNN填充模型，分析数据在空间维度的特性，组建最佳匹配集合，进而对缺失数据进行填充，得到预填充结果

Step4:使用神经网络非线性融合时间、空间维度的预填充结果

和

得到最终的填充结果

Step5:将最终的填充结果

填入S_n的缺失时间戳下；

Step6:返回填充后完整的传感器节点S_n完整的序列数据。

其中：时间维度中LTI策略的窗口大小标记为ω_t，将空间维度中UCF算法的窗口大小标记为ω_s。

1、时间维度填充性能分析

考虑缺失数据在时间维度上的变化，认为缺失值只与历史数据存在关系进行实验，实验设计了只使用CNN、LSTM以及使用CNN处理后输入到LSTM网络中的模型CNN-LSTM进行对比实验。采用希尔不等系数(TIC)和决定系数(R²)作为填充效果评价指标，其中较小的TIC值和较大的R²值代表填充效果更好。温度数据在时间维度上3种模型的评价因子值如附图5所示，湿度数据在时间维度上3种模型的评价因子值如附图6所示。

根据附图5和图6中不同模型的填充结果评价指标可知，在温度数据和湿度数据上，CNN-LSTM相比于其余两种模型有更小的TIC值和更大的R²值。说明CNN的相关操作充分发挥其提取数据潜在特征的优势，并结合LSTM的“记忆”特性，能挖掘出数据中隐藏的更多信息。因此，CNN-LSTM联合深度学习模型，兼容了CNN与LSTM各自的特点，提高整体填充精度。

2、空间维度填充性能分析

依据局部监测数据的相似度筛选出最佳匹配集合，进而利用最佳匹配集合中的传感器节点的监测数据对缺失值进行填充。UCF算法的加入使得神经网络能处理多传感器节点缺失的问题，在实验中为解决过拟合问题，对卷积层和全连接层施加Dropout操作，Dropout操作就是在网络训练过程中，每层中的神经元按照设定好的比例暂时被丢弃，也就是说在每次迭代训练的过程中，每一层有部分神经元处于不工作状态。实验将keep_prob设定为0.9，即经过Dropout操作随机对该层中10％的神经元进行丢弃，只保留90％的神经元进行训练，以达到防止过拟合作用。对于UCF算法的参数ω_s和k，本发明经过多次试验获得它们的最佳参数组合，对于温度数据选取ω_s＝76，k＝8，对于湿度数据选取ω_s＝111，k＝6。使用UCF填充模型与本发明加入CNN操作的UCF-CNN进行对比，温度数据和湿度数据的实验结果评价分别如附图7和8所示。

根据附图7和图8，可以看出无论是在温度数据上还是在湿度数据上，UCF-CNN填充效果都要好于单独使用UCF进行填充，这是因为用于计算相似度的局部监测数据D_n＝[d_n,t-(ω-1)/2,…,d_n,t-(ω+1)/2]和D_u＝[d_u,t-(ω-1)/2,...,d_u,t-(ω+1)/2],u(u∈{1,2，...,N},u≠n)存在缺失值，由于局部监测数据中缺失数据情况不一，导致UCF算法得到的最佳匹配集良莠不齐，因此单独使用UCF效果较差。但CNN较强的学习能力能够通过对训练数据进行局部空间特征提取以达到较好的训练结果，缺失数据的估算值更接近真实值，因此相比于UCF填充方法，UCF-CNN能达到更好的回归效果.

3、时空维度组合填充性能分析

本发明利用数据时空维度的相关性对缺失数据进行填充，因此设计本实验验证在多传感器节点发生缺失的情况下，是否多维度相关性依旧有良好的填充结果。通过对单维度和时空维度模型填充结果进行对比分析，本发明所提出的单维度填充模型CNN-LSTM、UCF-CNN与时空维度填充模型DFCM的填充效果对比图具体如附图9和图10所示，分别针对温度数据和湿度数据分析说明。

从附图9和图10中可以看出，总体上CNN-LSTM、UCF-CNN和DFCM都能较好的还原真实的数据趋势。由A、B标记的图片分别是对温度序列和湿度序列截取的一小段局部序列进行放大，由真实值和填充值之间的垂直距离可直观看出填充模型DFCM对序列的拟合优度更高，填充数据与真实序列走势基本一致，同时，可以看出考虑空间维度相关性的UCF-CNN模型填充结果相比于CNN-LSTM和DFCM有较大的误差，这是由于同一时刻多个传感器同时出现缺失，空间维度上有效信息数量减少，导致可提取的空间特征较少。

温度数据和湿度数据的单维度相关性与时空维度相关性填充结果评价因子值分别如下表1和表2所示。

表1单维度vs.时空维度填充结果评价指标对比表(温度)

表2单维度vs.时空维度填充结果评价指标对比表(湿度)

从表1和表2中的评价因子可以看出，填充模型DFCM的TIC值低于CNN-LSTM和UCF-CNN，R²值大于CNN-LSTM和UCF-CNN模型，进一步验证了考虑时空相关性的组合模型DFCM的填充能力，其填充结果更契合序列变化趋势，相较于单一模型具有更好的填充效果。

Claims

1.一种基于组合模型的多传感器节点缺失数据填充方法，其特征在于：包括如下步骤：

1)基于时间序列的缺失数据填充；所述的步骤1)中，包括如下步骤：

步骤1.1：对于目标传感器节点S_n的时间序列监测数据，根据局部时间索引策略，生成t-1时刻的原始训练样本一维向量p_t-1和t时刻的原始测试样本一维向量q_t；

2)基于空间节点的缺失数据填充；所述的步骤2)中，包括如下步骤：

步骤2.1：根据N-1个传感器的时间序列数据集合data，使用用户协同过滤算法，获取目标传感器节点S_n在t时刻对应的最佳匹配节点集合；

3)基于融合的缺失数据填充；所述的步骤3)中，包括如下步骤：

步骤3.1：选取时间、空间维度的预填充结果和作为输入变量；

步骤3.2：使用神经网络全连接网络非线性融合时间、空间维度的预填充结果和即首先将这两个输入变量赋值给输入层对应的神经元，然后传递给隐含层中的神经元进行信息的交换，最后输出层将融合交换后的信息进行输出，得到最终的基于时空的填充结果

2.根据权利要求1所述的基于组合模型的多传感器节点缺失数据填充方法，其特征在于：所述的步骤1.1的具体过程为：

1.12：按照给出的公式计算局部时间索引：

t_min＝min(GTI_i) (2)

LTI_i＝GTI_i-t_min (3)

其中，i表示全局索引中的第i个时刻，GTI_i表示所截取的全局索引，LTI_i表示局部时间索引；

3.根据权利要求1所述的基于组合模型的多传感器节点缺失数据填充方法，其特征在于：所述的步骤2.1的具体过程为：

根据N-1个传感器的时间序列数据集合data，使用用户协同过滤算法，利用公式(4)获取目标传感器节点S_n在t时刻对应的最佳匹配节点集合：

其中，传感器节点S_n在t时刻发生数据缺失现象，t时刻未发生缺失现象的传感器节点S_u，u∈{1,2，...,N},u≠n，Sim(S_n,S_u)表示S_n、S_u两个传感器节点的相似度，I_nu表示传感器节点S_n和传感器节点S_u在同一时刻都存在读数的时间戳集合，d_n,i和d_u,i表示局部监测数据矩阵中传感器节点S_n和传感器节点S_u在i时刻的监测数据，和表示传感器节点S_n和传感器节点S_u所有有效监测数据的平均值。