CN112381171A - 一种基于组合模型的多传感器节点缺失数据填充方法 - Google Patents

一种基于组合模型的多传感器节点缺失数据填充方法 Download PDF

Info

Publication number
CN112381171A
CN112381171A CN202011335298.3A CN202011335298A CN112381171A CN 112381171 A CN112381171 A CN 112381171A CN 202011335298 A CN202011335298 A CN 202011335298A CN 112381171 A CN112381171 A CN 112381171A
Authority
CN
China
Prior art keywords
filling
time
data
sensor node
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011335298.3A
Other languages
English (en)
Other versions
CN112381171B (zh
Inventor
许国艳
张网娟
景子栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202011335298.3A priority Critical patent/CN112381171B/zh
Publication of CN112381171A publication Critical patent/CN112381171A/zh
Application granted granted Critical
Publication of CN112381171B publication Critical patent/CN112381171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种基于组合模型的多传感器节点缺失数据填充方法,属于传感器网络领域中的数据缺失填充技术领域,该填充方法首先在时间维度,针对卷积神经网络对时序数据不敏感的问题,引入具有“记忆”的长短期记忆网络,与能够自主提取和学习有效特征结构的卷积神经网络相结合进行时间维度的预填充;然后针对传感器网络中多节点缺失的问题,在空间维度引入了用户协同过滤算法,辅助挖掘节点间的空间相关性,结合卷积神经网络解决传感器网络中多节点缺失的问题,完成空间维度的预填充;最后将两个维度各自的预填充结果通过全网络连接进行融合得到最终的填充结果。本发明的效果和益处是采用基于组合模型的填充方法,保证了有更高的填充精度。

Description

一种基于组合模型的多传感器节点缺失数据填充方法
技术领域:
本发明属于传感器网络领域中的数据缺失填充技术领域,具体涉及一种基于组合模型的多传感器节点缺失数据填充方法。
背景技术:
人们通过传感器节点获取物理世界的信息数据,之后再由网络将数据传送给用户进行进一步处理。现实世界中所获取到的监测数据往往存在缺失,例如,长期连续工作在野外环境的传感器节点,由于工作环境恶劣或动物踩踏等原因,零部件可能出现故障或损坏等问题;传感器自身能量和存储能力有限,造成节点监测数据缺失;由于气象变化造成网络传输不稳定或中断,同样可能造成监测数据出现缺失。
由于传感器网络自身的特殊性,因此传感器节点采集的监测数据有以下几个特性:1)随机性:受多因素影响,无法预知哪一监测时刻的数据会发生缺失,因此传感器网络中监测数据的缺失是随机的;2)数据结构简单:传感器节点主要是对监测区域内的环境数据进行采集,通常是数值型数据、图像数据;3)数据间的相关性:同一节点的监测数据具有时间相关性,因为传感器节点是对监测对象的物理变量进行连续的监测。监测区域内,传感器网络大多采取放置多个节点的策略,因此同一区域内的节点具有空间相关性。
当数据缺失问题无法避免时,为了从海量数据中获得有用的知识和信息为决策者提供有效依据,需要对缺失数据进行填充。人工神经网络是一种模拟人类大脑思考的非线性模型,在无需先验知识的情况下逼近非线性函数。卷积神经网络(CNN)是在传统神经网络的基础上发展而来的一种多层网络结构,CNN通过权值共享和局部连接增强了网络泛化能力,减少神经元之间的连接数目,不仅加深了模型的深度而且易于训练。CNN在人脸特征提取、图像语义分割等多个方面表现突出,同时在回归问题上也取得了很好的成果。将卷积神经网络应用于含有缺失数据的传感器网络中,自主提取和学习有效的时间和空间特征,实现传感器节点的缺失数据填充,可以有效提高精度。
发明内容:
针对现有技术中的不足,本发明结合神经网络理论和用户协同过滤理论,提出一种精度好且具有可适应性的基于组合模型的多传感器节点缺失数据填充方法。
本发明的技术方案如下:
一种基于组合模型的多传感器节点缺失数据填充方法,包括如下步骤:
1)基于时间序列的缺失数据填充;
2)基于空间节点的缺失数据填充;
3)基于融合的缺失数据填充。
进一步地,所述的步骤1)中,包括如下步骤:
步骤1.1:对于目标传感器节点Sn的时间序列监测数据,根据局部时间索引(LocalTime Index,LTI)策略,生成t-1时刻的原始训练样本一维向量pt-1和t时刻的原始测试样本一维向量qt
步骤1.2:利用公式(1)将原始训练样本和原始测试样本中的一维序列转换成二维信息矩阵X,其中x(a1,…,an)为构建的原始列向量,xT为x的转置向量;
Figure BDA0002797023950000021
步骤1.3:对于目标传感器节点Sn的时间序列二维信息矩阵,使用CNN对时间维度的输入矩阵进行特征提取;
步骤1.4:LSTM通过学习CNN输出的具有时间特征的信息,完成缺失值的估算,得到时间维度的预填充结果
Figure BDA0002797023950000022
进一步地,所述的步骤2)中,包括如下步骤:
步骤2.1:根据N-1个传感器的时间序列数据集合data,使用用户协同过滤(UCF)算法,获取目标传感器节点Sn在t时刻对应的最佳匹配节点集合;
步骤2.2:根据最佳匹配节点集合V中每个节点同一时间戳下的监测数据,构造原始训练样本和原始测试样本,由公式(1)转变为二维信息矩阵,生成模型的训练集和测试集;
步骤2.3:使用CNN网络对缺失数据进行填充,得到空间维度的预填充结果
Figure BDA0002797023950000031
进一步地,所述的步骤3)中,包括如下步骤:
步骤3.1:选取时间、空间维度的预填充结果
Figure BDA0002797023950000032
Figure BDA0002797023950000033
作为输入变量;
步骤3.2:使用神经网络全连接网络非线性融合时间、空间维度的预填充结果
Figure BDA0002797023950000034
Figure BDA0002797023950000035
即首先将这两个输入变量赋值给输入层对应的神经元,然后传递给隐含层中的神经元进行信息的交换,最后输出层将融合交换后的信息进行输出,得到最终的基于时空的填充结果
Figure BDA0002797023950000036
进一步地,所述的步骤1.1的具体过程为:
1.11:传感器节点Sn的时间序列表示为Sn=(<d1,1>,…,<dt,t>,…<dT,T0>),其中dt表示节点Sn在t(t∈{1,2,…,T0})时刻的观测值;
1.12:按照给出的公式计算局部时间索引:
tmin=min(GTIi) (2)
LTIi=GTIi-tmin (3)
其中,i表示全局索引中的第i个时刻,GTIi表示所截取的全局索引(连同缺失时刻),LTIi表示局部时间索引;
1.13:按照LTI,生成t-1时刻的原始训练样本一维向量pt-1和t时刻的原始测试样本一维向量qt
进一步地,所述的步骤2.1的具体过程为:
根据N-1个传感器的时间序列数据集合data,使用用户协同过滤(UCF)算法,利用公式(4)获取目标传感器节点Sn在t时刻对应的最佳匹配节点集合:
Figure BDA0002797023950000037
其中,传感器节点Sn在t时刻发生数据缺失现象,t时刻未发生缺失现象的传感器节点Su,u(u∈{1,2,...,N},u≠n),Sim(Sn,Su)表示Sn、Su两个传感器节点的相似度,Inu表示传感器节点Sn和传感器节点Su在同一时刻都存在读数的时间戳集合,dn,i和du,i表示局部监测数据矩阵中传感器节点Sn和传感器节点Su在i时刻的监测数据,
Figure BDA0002797023950000041
Figure BDA0002797023950000042
表示传感器节点Sn和传感器节点Su所有有效监测数据的平均值。
有益效果:与现有技术相比,本发明对于传感器网络多节点数据缺失问题(如图1所示),利用组合模型(如图2所示)解决时间维度和空间维度数据缺失填充问题,提高了适应性;同时,采用长短期记忆网络(LSTM)和用户协同过滤(UCP)策略结合模型,使得数据缺失填充精度提高,适用于多节点数据缺失情况。
附图说明:
图1是传感器网络多节点数据缺失问题示意图;
图2是组合模型流程图;
图3是基于时间序列的缺失数据填充过程示意图;
图4是基于空间节点的缺失数据填充过程示意图;
图5是时间维度填充结果评价指标对比(温度)图;
图6是时间维度填充结果评价指标对比(湿度)图;
图7是空间维度填充结果评价指标对比(温度)图;
图8是空间维度填充结果评价指标对比(湿度)图;
图9是单维度vs.时空维度填充效果图(温度)图;
图10是单维度vs.时空维度填充效果图(湿度)图。
具体实施方式:
下面结合附图和实施例对本发明作进一步详细说明,所给出的实施例是为了说明本发明方法的技术特点和功能特点,而不是限制本发明的范围。
一种基于组合模型的多传感器节点缺失数据填充方法,包括如下步骤:
1)基于时间序列的缺失数据填充;
2)基于空间节点的缺失数据填充;
3)基于融合的缺失数据填充。
步骤1)中,包括如下步骤:
步骤1.1:对于目标传感器节点Sn的时间序列监测数据,根据局部时间索引(LocalTime Index,LTI)策略,生成t-1时刻的原始训练样本一维向量pt-1和t时刻的原始测试样本一维向量qt
步骤1.2:利用公式(1)将原始训练样本和原始测试样本中的一维序列转换成二维信息矩阵X,其中x(a1,…,an)为构建的原始列向量,xT为x的转置向量;
Figure BDA0002797023950000051
步骤1.3:对于目标传感器节点Sn的时间序列二维信息矩阵,使用CNN对时间维度的输入矩阵进行特征提取;
步骤1.4:LSTM通过学习CNN输出的具有时间特征的信息,完成缺失值的估算,得到时间维度的预填充结果
Figure BDA0002797023950000052
步骤2)中,包括如下步骤:
步骤2.1:根据N-1个传感器的时间序列数据集合data,使用用户协同过滤(UCF)算法,获取目标传感器节点Sn在t时刻对应的最佳匹配节点集合;
步骤2.2:根据最佳匹配节点集合V中每个节点同一时间戳下的监测数据,构造原始训练样本和原始测试样本,由公式(1)转变为二维信息矩阵,生成模型的训练集和测试集;
步骤2.3:使用CNN网络对缺失数据进行填充,得到空间维度的预填充结果
Figure BDA0002797023950000053
步骤3)中,包括如下步骤:
步骤3.1:选取时间、空间维度的预填充结果
Figure BDA0002797023950000054
Figure BDA0002797023950000055
作为输入变量;
步骤3.2:使用神经网络全连接网络非线性融合时间、空间维度的预填充结果
Figure BDA0002797023950000056
Figure BDA0002797023950000057
即首先将这两个输入变量赋值给输入层对应的神经元,然后传递给隐含层中的神经元进行信息的交换,最后输出层将融合交换后的信息进行输出,得到最终的基于时空的填充结果
Figure BDA0002797023950000058
步骤1.1的具体过程为:
1.11:传感器节点Sn的时间序列表示为Sn=(<d1,1>,…,<dt,t>,…<dT,T0>),其中dt表示节点Sn在t(t∈{1,2,…,T0})时刻的观测值;
1.12:按照给出的公式计算局部时间索引:
tmin=min(GTIi) (2)
LTIi=GTIi-tmin (3)
其中,i表示全局索引中的第i个时刻,GTIi表示所截取的全局索引(连同缺失时刻),LTIi表示局部时间索引;
1.13:按照LTI,生成t-1时刻的原始训练样本一维向量pt-1和t时刻的原始测试样本一维向量qt
步骤2.1的具体过程为:
根据N-1个传感器的时间序列数据集合data,使用用户协同过滤(UCF)算法,利用公式(4)获取目标传感器节点Sn在t时刻对应的最佳匹配节点集合:
Figure BDA0002797023950000061
其中,传感器节点Sn在t时刻发生数据缺失现象,t时刻未发生缺失现象的传感器节点Su,u(u∈{1,2,...,N},u≠n),Sim(Sn,Su)表示Sn、Su两个传感器节点的相似度,Inu表示传感器节点Sn和传感器节点Su在同一时刻都存在读数的时间戳集合,dn,i和du,i表示局部监测数据矩阵中传感器节点Sn和传感器节点Su在i时刻的监测数据,
Figure BDA0002797023950000062
Figure BDA0002797023950000063
表示传感器节点Sn和传感器节点Su所有有效监测数据的平均值。
实施例
本发明的实施例采用IntelBerkeley实验室采集的真实传感器网络中的温度和湿度属性作为实验数据,首先按照每5分钟对原始数据进行整合,然后提取整合数据集中的一部分数据,同时任意挑选一个传感器节点,将其温度和湿度数据随机删除25%的数据,模拟待填充节点。图5(a)是时间维度填充结果评价指标对比(温度)图一,图5(b)是时间维度填充结果评价指标对比(温度)图二;图6(a)是时间维度填充结果评价指标对比(湿度)图一,图6(b)是时间维度填充结果评价指标对比(湿度)图二;图7(a)是空间维度填充结果评价指标对比(温度)图一,图7(b)是空间维度填充结果评价指标对比(温度)图二;图8(a)是空间维度填充结果评价指标对比(湿度)图一,图8(b)是空间维度填充结果评价指标对比(湿度)图二;图9(a)是单维度vs.时空维度填充效果图(温度)图一和图9(b)是单维度vs.时空维度填充效果图(温度)图二;图10(a)是单维度vs.时空维度填充效果图(湿度)图一,图10(b)是单维度vs.时空维度填充效果图(湿度)图二。
本发明使用TensorFlow机器学习框架建立神经网络模型,填充模型以最佳回归效果为目标,即估算值与模型期望的真实值之间误差最小,选用的公式(5)的均方误差MSE作为损失函数。模型卷积层的卷积核大小为2×2,选用均值池化方式进行下采样操作,池化核大小为2×2,选用Adam优化器,网络学习率设定为0.0001,使用十折交叉验证确定最优参数,进行10次实验,取平均值作为最终的实验结果。本发明通过希尔不等系数TIC(TheilInequality Coefficient,TIC)和决定系数R2(The Coefficient of Efficiency)作为模型的评价因子,越小的TIC值和越大的R2值表示填充的误差越小,精度越高,拟合度越好。MSE、TIC和R2具体公式如下所示,其中W为权重向量,b为偏置:
Figure BDA0002797023950000071
Figure BDA0002797023950000072
Figure BDA0002797023950000073
公式中,Y(i)表示网络期望的输出值,
Figure BDA0002797023950000074
表示卷积神经网络的拟合值,TIC、R2、n、yi
Figure BDA0002797023950000081
分别代表希尔不等系数、决定系数、缺失值数量、真实值、填充值和真实数据平均值。度量指标TIC的值介于0和1之间。
一种组合模型DFCM,其基本思想是先对时间维度和空间维度设计匹配的模型,然后将时间维度和空间维度预填充的中间结果融合在一起,最终完成缺失数据的填充。DFCM的具体流程如下:
Step1:检测待填充的目标传感器节点Sn监测数据的完整性,若是完整的时间序列,直接进入Step6,否则进入Step2;
Step2:根据提出的CNN-LSTM联合深度学习填充模型,分析数据的时间特性,对缺失数据进行时间维度的填充,得到预填充结果
Figure BDA0002797023950000082
Step3:根据提出的UCF-CNN填充模型,分析数据在空间维度的特性,组建最佳匹配集合,进而对缺失数据进行填充,得到预填充结果
Figure BDA0002797023950000083
Step4:使用神经网络非线性融合时间、空间维度的预填充结果
Figure BDA0002797023950000084
Figure BDA0002797023950000085
得到最终的填充结果
Figure BDA0002797023950000086
Step5:将最终的填充结果
Figure BDA0002797023950000087
填入Sn的缺失时间戳下;
Step6:返回填充后完整的传感器节点Sn完整的序列数据。
其中:时间维度中LTI策略的窗口大小标记为ωt,将空间维度中UCF算法的窗口大小标记为ωs
1、时间维度填充性能分析
考虑缺失数据在时间维度上的变化,认为缺失值只与历史数据存在关系进行实验,实验设计了只使用CNN、LSTM以及使用CNN处理后输入到LSTM网络中的模型CNN-LSTM进行对比实验。采用希尔不等系数(TIC)和决定系数(R2)作为填充效果评价指标,其中较小的TIC值和较大的R2值代表填充效果更好。温度数据在时间维度上3种模型的评价因子值如附图5所示,湿度数据在时间维度上3种模型的评价因子值如附图6所示。
根据附图5和图6中不同模型的填充结果评价指标可知,在温度数据和湿度数据上,CNN-LSTM相比于其余两种模型有更小的TIC值和更大的R2值。说明CNN的相关操作充分发挥其提取数据潜在特征的优势,并结合LSTM的“记忆”特性,能挖掘出数据中隐藏的更多信息。因此,CNN-LSTM联合深度学习模型,兼容了CNN与LSTM各自的特点,提高整体填充精度。
2、空间维度填充性能分析
依据局部监测数据的相似度筛选出最佳匹配集合,进而利用最佳匹配集合中的传感器节点的监测数据对缺失值进行填充。UCF算法的加入使得神经网络能处理多传感器节点缺失的问题,在实验中为解决过拟合问题,对卷积层和全连接层施加Dropout操作,Dropout操作就是在网络训练过程中,每层中的神经元按照设定好的比例暂时被丢弃,也就是说在每次迭代训练的过程中,每一层有部分神经元处于不工作状态。实验将keep_prob设定为0.9,即经过Dropout操作随机对该层中10%的神经元进行丢弃,只保留90%的神经元进行训练,以达到防止过拟合作用。对于UCF算法的参数ωs和k,本发明经过多次试验获得它们的最佳参数组合,对于温度数据选取ωs=76,k=8,对于湿度数据选取ωs=111,k=6。使用UCF填充模型与本发明加入CNN操作的UCF-CNN进行对比,温度数据和湿度数据的实验结果评价分别如附图7和8所示。
根据附图7和图8,可以看出无论是在温度数据上还是在湿度数据上,UCF-CNN填充效果都要好于单独使用UCF进行填充,这是因为用于计算相似度的局部监测数据Dn=[dn,t-(ω-1)/2,…,dn,t-(ω+1)/2]和Du=[du,t-(ω-1)/2,...,du,t-(ω+1)/2],u(u∈{1,2,...,N},u≠n)存在缺失值,由于局部监测数据中缺失数据情况不一,导致UCF算法得到的最佳匹配集良莠不齐,因此单独使用UCF效果较差。但CNN较强的学习能力能够通过对训练数据进行局部空间特征提取以达到较好的训练结果,缺失数据的估算值更接近真实值,因此相比于UCF填充方法,UCF-CNN能达到更好的回归效果.
3、时空维度组合填充性能分析
本发明利用数据时空维度的相关性对缺失数据进行填充,因此设计本实验验证在多传感器节点发生缺失的情况下,是否多维度相关性依旧有良好的填充结果。通过对单维度和时空维度模型填充结果进行对比分析,本发明所提出的单维度填充模型CNN-LSTM、UCF-CNN与时空维度填充模型DFCM的填充效果对比图具体如附图9和图10所示,分别针对温度数据和湿度数据分析说明。
从附图9和图10中可以看出,总体上CNN-LSTM、UCF-CNN和DFCM都能较好的还原真实的数据趋势。由A、B标记的图片分别是对温度序列和湿度序列截取的一小段局部序列进行放大,由真实值和填充值之间的垂直距离可直观看出填充模型DFCM对序列的拟合优度更高,填充数据与真实序列走势基本一致,同时,可以看出考虑空间维度相关性的UCF-CNN模型填充结果相比于CNN-LSTM和DFCM有较大的误差,这是由于同一时刻多个传感器同时出现缺失,空间维度上有效信息数量减少,导致可提取的空间特征较少。
温度数据和湿度数据的单维度相关性与时空维度相关性填充结果评价因子值分别如下表1和表2所示。
表1单维度vs.时空维度填充结果评价指标对比表(温度)
Figure BDA0002797023950000101
表2单维度vs.时空维度填充结果评价指标对比表(湿度)
Figure BDA0002797023950000102
从表1和表2中的评价因子可以看出,填充模型DFCM的TIC值低于CNN-LSTM和UCF-CNN,R2值大于CNN-LSTM和UCF-CNN模型,进一步验证了考虑时空相关性的组合模型DFCM的填充能力,其填充结果更契合序列变化趋势,相较于单一模型具有更好的填充效果。

Claims (6)

1.一种基于组合模型的多传感器节点缺失数据填充方法,其特征在于:包括如下步骤:
1)基于时间序列的缺失数据填充;
2)基于空间节点的缺失数据填充;
3)基于融合的缺失数据填充。
2.根据权利要求1所述的一种基于组合模型的多传感器节点缺失数据填充方法,其特征在于:所述的步骤1)中,包括如下步骤:
步骤1.1:对于目标传感器节点Sn的时间序列监测数据,根据局部时间索引策略,生成t-1时刻的原始训练样本一维向量pt-1和t时刻的原始测试样本一维向量qt
步骤1.2:利用公式(1)将原始训练样本和原始测试样本中的一维序列转换成二维信息矩阵X,其中x(a1,…,an)为构建的原始列向量,xT为x的转置向量;
Figure FDA0002797023940000011
步骤1.3:对于目标传感器节点Sn的时间序列二维信息矩阵,使用CNN对时间维度的输入矩阵进行特征提取;
步骤1.4:LSTM通过学习CNN输出的具有时间特征的信息,完成缺失值的估算,得到时间维度的预填充结果
Figure FDA0002797023940000012
3.根据权利要求1所述的一种基于组合模型的多传感器节点缺失数据填充方法,其特征在于:所述的步骤2)中,包括如下步骤:
步骤2.1:根据N-1个传感器的时间序列数据集合data,使用用户协同过滤算法,获取目标传感器节点Sn在t时刻对应的最佳匹配节点集合;
步骤2.2:根据最佳匹配节点集合V中每个节点同一时间戳下的监测数据,构造原始训练样本和原始测试样本,由公式(1)转变为二维信息矩阵,生成模型的训练集和测试集;
步骤2.3:使用CNN网络对缺失数据进行填充,得到空间维度的预填充结果
Figure FDA0002797023940000013
4.根据权利要求1所述的一种基于组合模型的多传感器节点缺失数据填充方法,其特征在于:所述的步骤3)中,包括如下步骤:
步骤3.1:选取时间、空间维度的预填充结果
Figure FDA0002797023940000021
Figure FDA0002797023940000022
作为输入变量;
步骤3.2:使用神经网络全连接网络非线性融合时间、空间维度的预填充结果
Figure FDA0002797023940000023
Figure FDA0002797023940000024
即首先将这两个输入变量赋值给输入层对应的神经元,然后传递给隐含层中的神经元进行信息的交换,最后输出层将融合交换后的信息进行输出,得到最终的基于时空的填充结果
Figure FDA0002797023940000025
5.根据权利要求2所述的基于组合模型的多传感器节点缺失数据填充方法,其特征在于:所述的步骤1.1的具体过程为:
1.11:传感器节点Sn的时间序列表示为Sn=(<d1,1>,…,<dt,t>,…<dT,T0>),其中dt表示节点Sn在t(t∈{1,2,…,T0})时刻的观测值;
1.12:按照给出的公式计算局部时间索引:
tmin=min(GTIi) (2)
LTIi=GTIi-tmin (3)
其中,i表示全局索引中的第i个时刻,GTIi表示所截取的全局索引,LTIi表示局部时间索引;
1.13:按照LTI,生成t-1时刻的原始训练样本一维向量pt-1和t时刻的原始测试样本一维向量qt
6.根据权利要求5所述的基于组合模型的多传感器节点缺失数据填充方法,其特征在于:所述的步骤2.1的具体过程为:
根据N-1个传感器的时间序列数据集合data,使用用户协同过滤算法,利用公式(4)获取目标传感器节点Sn在t时刻对应的最佳匹配节点集合:
Figure FDA0002797023940000026
Figure FDA0002797023940000031
其中,传感器节点Sn在t时刻发生数据缺失现象,t时刻未发生缺失现象的传感器节点Su,u,u∈{1,2,...,N},u≠n,Sim(Sn,Su)表示Sn、Su两个传感器节点的相似度,Inu表示传感器节点Sn和传感器节点Su在同一时刻都存在读数的时间戳集合,dn,i和du,i表示局部监测数据矩阵中传感器节点Sn和传感器节点Su在i时刻的监测数据,
Figure FDA0002797023940000032
Figure FDA0002797023940000033
表示传感器节点Sn和传感器节点Su所有有效监测数据的平均值。
CN202011335298.3A 2020-11-25 2020-11-25 一种基于组合模型的多传感器节点缺失数据填充方法 Active CN112381171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011335298.3A CN112381171B (zh) 2020-11-25 2020-11-25 一种基于组合模型的多传感器节点缺失数据填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011335298.3A CN112381171B (zh) 2020-11-25 2020-11-25 一种基于组合模型的多传感器节点缺失数据填充方法

Publications (2)

Publication Number Publication Date
CN112381171A true CN112381171A (zh) 2021-02-19
CN112381171B CN112381171B (zh) 2023-04-07

Family

ID=74588266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011335298.3A Active CN112381171B (zh) 2020-11-25 2020-11-25 一种基于组合模型的多传感器节点缺失数据填充方法

Country Status (1)

Country Link
CN (1) CN112381171B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948743A (zh) * 2021-03-26 2021-06-11 重庆邮电大学 一种基于时空融合的煤矿瓦斯浓度缺失值填充方法
CN113297191A (zh) * 2021-05-28 2021-08-24 湖南大学 一种网络缺失数据在线填充的流处理方法及系统
CN113673846A (zh) * 2021-08-05 2021-11-19 湘潭大学 一种电力物联网架构下的需量态势感知方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109902259A (zh) * 2019-02-25 2019-06-18 中国科学院地理科学与资源研究所 一种轻量级的缺失时空数据的重构方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109902259A (zh) * 2019-02-25 2019-06-18 中国科学院地理科学与资源研究所 一种轻量级的缺失时空数据的重构方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948743A (zh) * 2021-03-26 2021-06-11 重庆邮电大学 一种基于时空融合的煤矿瓦斯浓度缺失值填充方法
CN112948743B (zh) * 2021-03-26 2022-05-03 重庆邮电大学 一种基于时空融合的煤矿瓦斯浓度缺失值填充方法
CN113297191A (zh) * 2021-05-28 2021-08-24 湖南大学 一种网络缺失数据在线填充的流处理方法及系统
CN113297191B (zh) * 2021-05-28 2022-04-05 湖南大学 一种网络缺失数据在线填充的流处理方法及系统
CN113673846A (zh) * 2021-08-05 2021-11-19 湘潭大学 一种电力物联网架构下的需量态势感知方法
CN113673846B (zh) * 2021-08-05 2023-09-12 湘潭大学 一种电力物联网架构下的需量态势感知方法

Also Published As

Publication number Publication date
CN112381171B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112381171B (zh) 一种基于组合模型的多传感器节点缺失数据填充方法
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN111881350B (zh) 一种基于混合图结构化建模的推荐方法与系统
CN110442790A (zh) 推荐多媒体数据的方法、装置、服务器和存储介质
CN111400040B (zh) 基于深度学习和边缘计算的工业互联网系统及工作方法
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN112613548B (zh) 基于弱监督学习的用户定制化目标检测方法、系统和存储介质
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN113343901A (zh) 基于多尺度注意力图卷积网络的人体行为识别方法
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN110737730A (zh) 基于无监督学习的用户分类方法、装置、设备及存储介质
CN113590965B (zh) 一种融合知识图谱与情感分析的视频推荐方法
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和系统
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
CN114419507A (zh) 一种基于联邦学习的互联网工厂运行诊断方法及系统
CN115705706A (zh) 视频处理方法、装置、计算机设备和存储介质
Gopalakrishnan et al. An approach to webpage prediction method using variable order Markov model in recommendation systems
CN107169830B (zh) 一种基于聚类pu矩阵分解的个性化推荐方法
CN113704438A (zh) 一种基于分层注意力机制的异构图的会话推荐方法
CN110993121A (zh) 一种基于双协同线性流形的药物关联预测方法
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN114343665A (zh) 一种基于图卷积空时特征融合选择的心律失常识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant