CN111881413B - 基于矩阵分解的多源时间序列缺失数据恢复方法 - Google Patents

基于矩阵分解的多源时间序列缺失数据恢复方法 Download PDF

Info

Publication number
CN111881413B
CN111881413B CN202010740948.6A CN202010740948A CN111881413B CN 111881413 B CN111881413 B CN 111881413B CN 202010740948 A CN202010740948 A CN 202010740948A CN 111881413 B CN111881413 B CN 111881413B
Authority
CN
China
Prior art keywords
matrix
time sequence
data
sensor
regularization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010740948.6A
Other languages
English (en)
Other versions
CN111881413A (zh
Inventor
芮国胜
刘歌
田文飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval Aeronautical University
Original Assignee
Naval Aeronautical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval Aeronautical University filed Critical Naval Aeronautical University
Priority to CN202010740948.6A priority Critical patent/CN111881413B/zh
Publication of CN111881413A publication Critical patent/CN111881413A/zh
Application granted granted Critical
Publication of CN111881413B publication Critical patent/CN111881413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种基于矩阵分解的多源时间序列缺失数据恢复方法,针对多源时间序列缺失数据恢复问题,该方法在多源时间序列矩阵分解的基础上,考虑了多源时间序列在时间和传感器两个角度下的数据特性,充分挖掘先验信息。对于时间序列,利用二阶差分正则化进行约束;对于多传感器数据,引入图论的基本原理,采用双重皮尔逊系数的相关性度量方法,获取表示各传感器数据关系的拉普拉斯矩阵。最终将图拉普拉斯正则化与二阶差分正则化融入到矩阵分解的框架下,利用梯度下降法实现目标函数的优化。本发明提供的缺失数据恢复方法充分利用了数据先验,融合了两种正则化约束条件,在缺失率较高的情况下依然有效。

Description

基于矩阵分解的多源时间序列缺失数据恢复方法
技术领域
本发明涉及缺失数据恢复技术,具体地,本发明提出了一种基于矩阵分解的多源时间序列缺失数据恢复方法,属于数据处理技术领域。
背景技术
现实场景中,在某一监测区域内通过部署多个传感器对同一对象进行持续的感知,获取丰富的信息以支撑不同类型的感知应用。这些从多传感器网络中收集到的数据通常被称为多源时间序列。例如海上浮标多个传感器监测海洋环境数据(温度、湿度、压强、风速、风向等)以获取蒸发波导整体态势感知;个人医疗系统中通过穿戴设备布设多个传感器监测血压、脉搏、心电等数据获知病人的整体健康状况。由于恶劣的工作条件或不可控制的因素,导致传感器网络短暂甚至长时间无法收集数据从而出现信息盲区,影响系统的感知应用,将上述问题归结为多源时间序列数据的缺失信息恢复问题。该问题广泛存在于海上气象要素监测传感器网络、电网系统、物联网系统、森林防火监测系统等各种传感器网络中,因此解决缺失数据的恢复问题具有重要的实际应用价值。
缺失数据恢复方法中最简单的是插值法,该方法简单易操作,但是仅适用于丢失少量数据并且时间序列变化非常稳定的情况。常用的方法还有建模法,这是一种通过掌握数据内部的隐含规律,建立模型以预测缺失数据的方法。但是基于模型的方法局限性比较大,一旦脱离对应的数据类型,模型将失效。近年来基于矩阵填充和矩阵分解的方法逐渐兴起。矩阵填充方法中各种低秩约束的算法如奇异值阈值算法、奇异值投影算法等能够实现缺失数据的恢复,但是需要满足矩阵非相干性以及等距约束条件,并且未能充分利用多源时间序列数据之间的先验信息。因此针对上述问题,合理利用数据的先验信息设计一种高效的缺失数据恢复方法很有必要。
发明内容
本发明的目的是设计一种多源时间序列的缺失数据恢复方法,旨在解决现有技术未能充分利用多源时间序列数据内部的先验信息、缺失数据恢复质量不高的问题。
为了达到上述目的,本发明所采用的技术方案为——基于矩阵分解的缺失数据恢复方法,包括以下步骤:
S1,利用时间序列的稳定性构建时间序列隐含因子的二阶差分正则项,根据多源时间序列数据时间隐含因子的稳定性构造二阶差分矩阵H。
S2,引入图拉普拉斯正则项对传感器隐含因子进行约束,并在图拉普拉斯矩阵获取过程中,设计了一种联合数据本身的相似度和数据变化趋势相似度的双重皮尔逊相似策略,构造数据内部的“最相似图”。首先构建权重矩阵W,然后计算矩阵
Figure BDA0002606711260000021
为对角阵,并确定图拉普拉斯矩阵L=D-W。
S3,将时序差分正则化和图拉普拉斯正则化统一于矩阵分解目标函数,利用梯度下降法实现目标函数的优化。
进一步地,S2中的基于双重皮尔逊相似策略构建“最相似图”的具体步骤为:
S21,利用皮尔逊相关系数(Pearson correlation coefficient,PCC)来度量两个传感器i和j数据本身之间的相关程度;
S22,利用两个传感器时间序列的一阶拟合系数的皮尔逊相关系数来度量两个传感器数据变化趋势相关性的强弱;
S23,根据S21和S22,得到综合相关系数,通过预设的阈值确定两个传感器感知数据的综合相关性。
本发明与现有技术相比具有如下优点:
1.本发明充分挖掘数据的先验信息,利用了多传感器数据的内在相似性和时间序列的稳定性,并将其作为附加的正则化项统一于矩阵分解之下。因此,在先验信息的指导下提高了数据恢复的精度。
2.本发明在多传感器数据分析中,引入图拉普拉斯矩阵的基本原理,设计了一种联合数据本身相似度和数据变化趋势相似度的判定策略,构造一个最相似图来更好地表征传感器数据之间的相似关系。
附图说明
图1是本发明提供的一种基于矩阵分解的多源时间序列缺失数据恢复方法流程示意图;
图2是时间序列数据的稳定性分析。
具体实施方式
下面结合实施例和附图对本发明进行更详细地说明。
如图1所示,本发明的实施例公开了一种基于矩阵分解的多源时间序列缺失数据恢复方法,具体步骤如下:
S1,根据时间序列的平滑性构建时间序列隐含因子的二阶差分正则项。
将多源时间序列矩阵X的行向量看作某一传感器的时间序列,计算xij前后两个相邻位置的差值并作归一化处理
Figure BDA0002606711260000031
式中|xi,j+1+xi,j-1-2xij|表示二阶差分,
Figure BDA0002606711260000032
表示时间序列中二阶差分最大的差值,若
Figure BDA0002606711260000033
则认为该时间序列稳定,其中C(r≤b)表示r≤b的数目,b和
Figure BDA0002606711260000034
表示预设的阈值。
以海洋气象数据的获取为例,海上传感器网络通过在指定海域部署大量海上传感器节点(浮标),采集该区域内的多种要素数据,并利用通信手段实现数据的传输。TAO/TRITON和PIRATA的浮标测量海洋和海表面气象参数多达二十余种,限于篇幅仅对几种典型数据进行分析,即蒸发波导特性研究所需要的气温、风速、海表温度、压强、相对湿度等环境要素。图2给出了气温、风速、海表温度、压强和相对湿度五种海洋气象环境要素数据的统计累积分布。图中曲线从左到右分别表示温度、海表温度、湿度、风速、压强的统计曲线。从图中曲线可以看出五种传感器的时间序列在一定的时间范围内变化缓慢,其中温度和海表温度以及湿度三种传感器数据的r(i)≤0.1的比重占90%以上,风速和压强两种传感器r(i)≤0.2的比重占90%以上。所以多源传感器时间序列的稳定性可以作为先验信息加入矩阵分解的框架中。
据此将二阶差分矩阵H设置为
Figure BDA0002606711260000035
因此将时间序列隐含因子二阶差分的正则化约束引入到矩阵分解的目标函数中
Figure BDA0002606711260000036
式中I∈Rm×n,用来表示矩阵X的缺失位置,即其中元素值为0表示此处信息缺失,元素值为1则相反;S表示时间序列隐含因子;Q表示多源传感器隐含因子;λS和λQ,α表示正则化参数。
S2,引入图拉普拉斯正则项对传感器隐含因子进行约束,并在图拉普拉斯矩阵获取过程中,设计了一种联合数据本身的相似度和数据变化趋势相似度的双重皮尔逊相似策略,构造数据内部的“最相似图”。
图拉普拉斯矩阵的构建方法具体为:首先构造近邻图,如果xi,xj是近邻关系,就在i传感器和j传感器之间添加一条边,然后要确定近邻图边上的权重值,得到权重矩阵W。因此利用双重皮尔逊相似策略确定权重矩阵W,具体表示为
Figure BDA0002606711260000041
式中si和sj分别表示第i个传感器隐含因子和第j个传感器隐含因子,然后计算矩阵
Figure BDA0002606711260000042
为对角阵,最后确定图拉普拉斯矩阵L=D-W。
将传感器隐含因子的拉普拉斯正则化加入到目标函数中,可以得到
Figure BDA0002606711260000043
式中γ表示正则化参数。
S3,多源时间序列缺失信息恢复模型确立。
将两种先验约束统一于矩阵分解的框架下,提出基于时序差分正则化和图拉普拉斯正则化的矩阵分解方法用于解决缺失数据的恢复问题。目标函数的最优化问题可以重新归结为
Figure BDA0002606711260000044
采用梯度下降法优化上述目标函数
Figure BDA0002606711260000045
Figure BDA0002606711260000046
算法迭代更新的停止条件可以选择预先设置的迭代次数,也可以是前后两次迭代的误差小于某一阈值,每次迭代都根据回溯线搜索策略更新步长,最终缺失数据可以从恢复矩阵中得到。
进一步地,S2中的基于双重皮尔逊相似策略构建“最相似图”的具体步骤为:
S21,利用皮尔逊相关系数(Pearson correlation coefficient,PCC)来度量两个传感器i和j数据本身之间的相关程度,计算公式为
Figure BDA0002606711260000047
式中PCC_X表示两个传感器序列的PCC,I(i)和I(u)表示传感器i和u观测到的数据集合,xij和xuj分别为传感器i和u中的元素,
Figure BDA0002606711260000048
Figure BDA0002606711260000049
分别为传感器i和u数据的平均值;
S22,假设两个传感器时间序列将Xi={xi1,xi2,…,xin}和Xj={xj1,xj2,...,xjn}均分为z段,分别对每一段进行一阶拟合,得到的系数组分别为a={a1,a2,…,az}和b={b1,b2,…,bz},因此一阶拟合系数的相似度的计算公式为
Figure BDA0002606711260000051
式中,PCC_ab表示两组一阶拟合系数的PCC,
Figure BDA0002606711260000052
Figure BDA0002606711260000053
分别为系数向量a和b的平均值。PCC_ab的大小表示两个传感器数据变化趋势相关性的强弱;
S23,根据步骤S21和S22,得到综合相关系数矩阵C中的元素值
Figure BDA0002606711260000054
当且仅当任意两个传感器感知数据的综合相关系数Ci,j<c时,这两个传感器被称为相似传感器,其中c表示预设的阈值,即当Ci,j<c时,矩阵W中的元素wij=1,其余条件下wij=0。
针对多源时间序列缺失数据恢复精度不高的问题,本发明提出了一种基于矩阵分解的方法,该方法在挖掘数据内部先验信息的基础上,构建时间序列隐含因子的二阶差分正则项,引入图拉普拉斯正则项对传感器隐含因子进行约束,并设计了基于双重皮尔逊相关系数的相关性度量策略用于图拉普拉斯矩阵的获取,最后将双正则项统一于矩阵分解的框架中,从而获得较高的恢复性能。本发明能够充分利用多源时间序列数据内部的先验信息,保留数据内更多的细节,具有更好的恢复性能。
以上内容是结合具体实施方式对本发明进行的详细说明,并非将本发明限制于上述具体实例的详细描述中,在不脱离本发明原理和精神的前提下,对本发明进行变化、修改和替换都应属于本发明保护的范围之内。

Claims (1)

1.一种基于矩阵分解的多源时间序列缺失数据恢复方法,其特征在于,包括以下步骤:
步骤1,对多源时间序列进行矩阵分解,获得时间序列隐含因子和多传感器序列隐含因子;
步骤2,利用双重皮尔逊相关系数方法对多传感器时间序列矩阵分解获得的多源序列潜在矩阵进行相关性计算,并构造相关矩阵,具体为:
首先,利用皮尔逊相关系数(Pearson correlation coefficient,PCC)来度量两个传感器i和j数据本身之间的相关程度,计算公式为
Figure FDA0003800691640000011
式中PCC_X表示两个传感器序列的PCC,I(i)和I(u)表示传感器i和u观测到的数据集合,xij和xuj分别为传感器i和u中的元素,
Figure FDA0003800691640000012
Figure FDA0003800691640000013
分别为传感器i和u时间序列数据的平均值;
然后,假设两个传感器时间序列将Xi={xi1,xi2,...,xin}和Xj={xj1,xj2,...,xjn}均分为z段,分别对每一段进行一阶拟合,得到的系数组分别为a={a1,a2,...,az}和b={b1,b2,...,bz},因此一阶拟合系数的相似度的计算公式为
Figure FDA0003800691640000014
式中,PCC_ab表示两组一阶拟合系数的PCC,
Figure FDA0003800691640000015
Figure FDA0003800691640000016
分别为系数向量a和b的平均值,PCC_ab的大小表示两个传感器数据变化趋势相关性的强弱;
最后,计算得到综合相关系数矩阵C中的元素值
Figure FDA0003800691640000017
当且仅当任意两个传感器感知数据的综合相关系数Ci,j<c时,这两个传感器被称为相似传感器,其中c表示预设的阈值,即当Ci,j<c时,矩阵W中的元素wij=1,其余条件下wij=0;
步骤3,利用相关矩阵构建图拉普拉斯正则项,首先利用双重皮尔逊相似策略构建权重矩阵W,具体表示为
Figure FDA0003800691640000018
式中si和sj分别表示第i传感器隐含因子和第j传感器隐含因子;然后计算矩阵
Figure FDA0003800691640000019
并确定图拉普拉斯矩阵L=D-W;最后将传感器隐含因子的拉普拉斯正则化加入到目标函数中,可以得到
Figure FDA0003800691640000021
式中γ表示正则化参数,tr(·)表示矩阵的迹;
步骤4,根据时间序列的稳定性构造时间序列隐含因子正则项,将二阶差分矩阵H设置为
Figure FDA0003800691640000022
并将时间序列隐含因子二阶差分的正则化约束引入到矩阵分解的目标函数中
Figure FDA0003800691640000023
步骤5,构造目标函数,并利用梯度下降法实现目标函数的优化;
将时间序列隐含因子正则项和图拉普拉斯正则项统一于矩阵分解目标函数得到最优化问题为
Figure FDA0003800691640000024
CN202010740948.6A 2020-07-28 2020-07-28 基于矩阵分解的多源时间序列缺失数据恢复方法 Active CN111881413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010740948.6A CN111881413B (zh) 2020-07-28 2020-07-28 基于矩阵分解的多源时间序列缺失数据恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010740948.6A CN111881413B (zh) 2020-07-28 2020-07-28 基于矩阵分解的多源时间序列缺失数据恢复方法

Publications (2)

Publication Number Publication Date
CN111881413A CN111881413A (zh) 2020-11-03
CN111881413B true CN111881413B (zh) 2022-12-09

Family

ID=73200956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010740948.6A Active CN111881413B (zh) 2020-07-28 2020-07-28 基于矩阵分解的多源时间序列缺失数据恢复方法

Country Status (1)

Country Link
CN (1) CN111881413B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632462B (zh) * 2020-12-22 2022-03-18 天津大学 基于时序矩阵分解的同步量测缺失数据修复方法及装置
CN112699547A (zh) * 2020-12-25 2021-04-23 朗坤智慧科技股份有限公司 基于5g网络的滑动窗口式多元时间序列缺失值填充方法
CN112995184B (zh) * 2021-03-05 2022-07-12 中电积至(海南)信息技术有限公司 一种多源网络流量内容完整还原方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133930A (zh) * 2017-04-30 2017-09-05 天津大学 基于低秩矩阵重建和稀疏表示的行列缺失图像填充方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740212A (zh) * 2016-02-02 2016-07-06 天津大学 一种基于正则化向量自回归模型的传感器异常检测方法
CN108814565A (zh) * 2018-07-04 2018-11-16 重庆邮电大学 一种基于多传感器信息融合和深度学习的智能中医健康检测梳妆台
CN109065128A (zh) * 2018-09-28 2018-12-21 郑州大学 一种加权图正则化稀疏脑网络构建方法
CN109684314B (zh) * 2018-12-17 2023-04-18 南京旅游职业学院 一种基于空间结构的无线传感器网络缺失值估计方法
CN109784383B (zh) * 2018-12-28 2023-05-26 南京航空航天大学 一种基于图域特征和ds证据理论融合的钢轨裂纹识别方法
CN109697330B (zh) * 2019-01-10 2024-01-16 南京航空航天大学 一种用于信息物理系统的故障检测系统设计方法
CN110705762B (zh) * 2019-09-20 2023-04-18 天津大学 基于矩阵填充的泛在电力物联网感知数据缺失修复方法
CN110619367B (zh) * 2019-09-20 2022-05-13 哈尔滨理工大学 联合低秩约束跨视角判别子空间学习方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133930A (zh) * 2017-04-30 2017-09-05 天津大学 基于低秩矩阵重建和稀疏表示的行列缺失图像填充方法

Also Published As

Publication number Publication date
CN111881413A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881413B (zh) 基于矩阵分解的多源时间序列缺失数据恢复方法
CN111275288B (zh) 基于XGBoost的多维数据异常检测方法与装置
CN106644162B (zh) 基于邻域保持嵌入回归算法的环网柜线芯温度软测量方法
CN111967486A (zh) 一种基于多传感器融合的复杂装备故障诊断方法
CN110087207B (zh) 无线传感器网络缺失数据重建方法
CN111127523B (zh) 基于量测迭代更新的多传感器gmphd自适应融合方法
CN116665130B (zh) 基于时空图的大坝安全监测多元时间序列异常检测方法
CN109102101B (zh) 风电场风速的预测方法和系统
CN112070322B (zh) 基于长短期记忆网络的高压电缆线路运行状态预测方法
CN116738868B (zh) 一种滚动轴承剩余寿命预测方法
CN116557787B (zh) 管网状态智能评估系统及其方法
CN116485049B (zh) 一种基于人工智能的电能计量误差预测与优化系统
CN117009900A (zh) 一种基于图神经网络的物联网信号异常检测方法和系统
Wang et al. Hybrid Machine Learning Approach for Evapotranspiration Estimation of Fruit Tree in Agricultural Cyber–Physical Systems
CN117313015A (zh) 一种基于时序和多变量的时间序列异常检测方法及系统
CN110795599B (zh) 基于多尺度图的视频突发事件监测方法及系统
CN115755219A (zh) 基于stgcn的洪水预报误差实时校正方法及系统
CN112163020A (zh) 一种多维时间序列异常检测方法及检测系统
CN103313386B (zh) 基于信息一致性权值优化的无线传感网络目标跟踪方法
CN118349950A (zh) 一种基于多传感器技术的水利工程监控方法
CN112836582B (zh) 基于动态稀疏子空间的高维流系统结构变点在线检测方法
CN111723857B (zh) 一种流程生产装备运行状态的智能监测方法与系统
CN117419828A (zh) 基于光纤传感器的新能源电池温度监测方法
CN117592592A (zh) 基于vmd-ssa-lstm的输电线路覆冰厚度预测方法
CN117172983A (zh) 一种基于遥感技术的植被生态水储量监测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant