CN108228832B - 一种基于距离矩阵的时间序列数据补全方法 - Google Patents
一种基于距离矩阵的时间序列数据补全方法 Download PDFInfo
- Publication number
- CN108228832B CN108228832B CN201810007309.1A CN201810007309A CN108228832B CN 108228832 B CN108228832 B CN 108228832B CN 201810007309 A CN201810007309 A CN 201810007309A CN 108228832 B CN108228832 B CN 108228832B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- missing
- time series
- distance matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于距离矩阵的时间序列数据补全方法,其挖掘并利用时间序列数据内在的高阶时间关联关系,以时间序列数据中相似的数据点来补全缺失数据;该方法具体包括:针对时间序列数据,基于某种距离度量函数建模出该时间序列的距离矩阵D,其中位于第i行,第j列的矩阵元素Dij为时间序列中第i个数据点和第j个数据点间的距离;基于得到的距离矩阵D,在原始时间序列中寻找与带缺失分段距离最近的k个分段;利用计算得到的k个近邻分段,补全带缺失分段数据。本方法在真实的时间序列数据缺失场景中,能取得了较好补全效果,同时本方法的可解释性较强,背后的物理含义较为清晰,因此能在本方法的基础上进行较多扩展,从而有效运用于各类真实场景中。
Description
技术领域
本发明属于计算机应用领域,特别是对在时间序列数据采集与传输中因设备性能限制、网络传输错误、用户隐私保护等原因造成的数据缺失进行的一种高效数据补全方法,具体地说一种基于距离矩阵的时间序列数据补全方法。
背景技术
时间序列数据是按时间顺序进行观测得到的观测数据集合,其性质主要包括数据量大、高维并且需要不断更新。时间序列数据在很多不同种类的应用中都广泛出现,例如:行为捕捉、传感器网络、天气预测、金融市场建模等等。分析时间序列的主要目的是识别数据背后的隐含模式,以此来预测未来趋势。现存许多用来建模时间序列变化的数学工具,例如:线性回归、自回归等等,但这些模型是建立在数据完整的基础上的。
然而,在真实应用场景中,各种各样的数据缺失不可避免,就利用智能手机实现对用户活动进行持续记录的场景而言,数据缺失问题表现为针对某一时段,缺乏与用户活动相对应的有效数据。导致数据缺失的原因主要有两点:1)用户在使用记录程序过程中,出于隐私保护、电量消耗、所处环境等现实情况,关闭手机或暂停记录程序而导致的数据缺失;2)由于手机不佩戴在用户身上,使得感知数据与用户真实活动不对应而导致的数据失效。显然,在这种场景下,数据缺失情况是无法避免的,现存数学工具的使用受到限制,因此在存在缺失数据的情况下建模时间序列依旧是一个难题。
在缺失数据补全方面,现存一些相关方法:1)插值法:基于单个序列中数据的连续性,使用线性插值或样条插值的方法直接进行补全。这种方法的优点在于简单高效,缺点在于其忽略了多维数据间的关联,在数据缺失大量且连续的情况下效果不佳;2)非负矩阵分解法:在拥有多条同模态时间序列的前提下,假设每一条序列都可以表现为一组基向量的线性组合,利用非负矩阵分解法通过已知数据寻找基向量和对应每一条序列的组合系数,以基向量乘系数的方式恢复完整的时间序列。这种方法的优点在于充分考虑了多条信息,缺点在于可解释性差,对于多种内在物理规律无法显示建模;3)基于隐式马尔科夫模型补全:假设时间序列为观测值的序列,其背后隐藏着一个真实状态的序列,用真实状态序列来建模内在物理规律,并通过状态到观测的映射来表达状态到时间序列中数值的产生关系,通过解码缺失部分对应的隐藏状态序列,来补全缺失数据。优点在于可以显示建模包括时间平滑性在内的物理规律,缺点在于对于更复杂的空间关联关系适应度不够。综上,现有相关方法对于时间序列数据本身的性质考虑不全,对于时间特性的讨论仅限于时间平滑性。
发明内容
本发明所要解决的技术问题是针对上述现有技术现状,而提供可解释性强,背后物理含义清晰,在真实的时间序列数据缺失场景中能取得了较好补全效果,并能有效应用于各类真实场景中的一种基于距离矩阵的时间序列数据补全方法。
为实现上述技术目的,本发明采取的技术方案为:
一种基于距离矩阵的时间序列数据补全方法,该方法为挖掘并利用时间序列数据内在的高阶时间关联关系,以时间序列数据中相似的数据点来补全缺失数据;该方法具体包括以下步骤:
1)针对时间序列数据,基于某种距离度量函数建模出该时间序列的距离矩阵D,其中位于第i行,第j列的矩阵元素Dij为时间序列中第i个数据点和第j 个数据点间的距离;
2)基于步骤1)中得到的距离矩阵D,在原始时间序列中寻找与带缺失分段距离最近的k个分段;
3)利用步骤2)中计算得到的k个近邻分段,补全带缺失分段数据。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1)的具体过程为:
1.1)将采集得到的时间序列数据存储于S[1,2,…,t,…,T]中;其中:t表示数据段对应的时间刻度,为正整数,T为整个时间序列的长度;
1.2)针对时间序列数据S,基于某种距离度量计算各时间刻度对应的时间序列数据间的距离,并建模出该时间序列数据S的距离矩阵其中Dij定义为时间刻度i对应数据S[i]与时间刻度j对应数据S[j]间的距离;在距离矩阵D 中用一个特殊的无穷符号表示缺失时间序列数据S[p]与其他任意数据S[q]间的距离Dpq;其中:q∈[1,T],且q≠p。
上述的步骤2)的具体过程为:
2.1)基于步骤1)中得到的距离矩阵D,假设时间序列数据中时间刻度i至 i+n之间的数据S[i,i+n]均丢失,那么在距离矩阵中,Dij至D(i+n)j与Dji至Dj(i+n)中的数据均缺失;j∈[1,T],T为整个时间序列S的长度,即,距离矩阵的行数/ 列数;在距离矩阵D中缺失数据片段前后分别取长度为w个数据点;w根据应用场景确定,为正整数,若这2w个数据点中不存在缺失情况,则对这2w个数据点求和,其中前w个数据点的和为:
后w个数据点的和为:
2.2)对2.1)中计算得到的所有2w个数据点的加和进行排序,取出其中最小的k个值,k根据应用场景确定,为正整数,找出与这k个值相对应的k段时间序列数据,这k段时间序列数据即为在原始时间序列中与带缺失分段距离最近的k个分段。
上述的步骤3)的具体过程为:
3.1)针对缺失分段S[i,i+n],在原始时间序列中定位近邻分段S[ip,ip+n],其中p∈[1,k]为第p个近邻分段;
3.2)针对缺失分段S[i,i+n]中的每一个缺失元素S[i+x](x∈[0,n]),计算:
其中wp表示第p个近邻分段的权重;
3.3)将计算得到的每个S[i+x](x∈[0,n])的取值填入时间序列S的缺失分段S[i,i+n]中对应位置得到最终的补全结果。
与现有技术相比,本发明克服了现有相关工作在数据时间特性方面考虑的欠缺,从时间序列数据中存在的高阶时间关联关系出发,提出一种使用距离矩阵与 kNN方法相结合的数据补全方法,即基于距离矩阵的时间序列数据补全方法。本方法在整条时间序列数据中,利用事先建模的距离矩阵,找到与缺失数据段前后数据距离最相近的k段数据,并认为这k段数据与缺失数据段间存在着某种周期性,即这k段数据是缺失数据段在某个周期下的重复出现,利用这k段数据与缺失数据段中相应位置的数值取平均,以此来补全缺失数据。在取得较好补全效果的同时,本方法的可解释性较强,背后的物理含义较为清晰,因此还可以在该方法的基础上进行较多扩展。
附图说明
图1是本发明数据补全方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
本发明通过对现有时间序列数据集的分析与研究,发现在时间序列数据中不仅包含时间平滑性这种简单的性质,还存在更复杂的高阶时间关联关系——跨时间相似性与周期性,数据会在某一种时间跨度或多种时间跨度上呈现出相似和周期重复的特性,例如对上述基于智能手机实现对用户活动进行持续记录的场景而言,用户的活动数据以一周作为一个周期,每周的数据具有周期性;以一天作为一个周期,每天的数据具有周期性。然而,在很多复杂、缺乏先验知识的场景下,人为挖掘时间序列数据背后蕴含的所有周期性是非常困难的。
下面结合具体实施例,进一步阐明本发明,
1、硬件环境
(1)搭载加速度传感器的智能移动手机,在开启传感器后能够连续产生传感器数据,但在采集过程中数据可能会产生缺失;
(2)一个数据补全服务器,该服务器能接收来自客户端传输的传感器数据,该服务器具备足够的存储和处理能力来满足补全算法的需求。
2、应用场景
在应用本发明所公开的数据补全方法时,首先需要将智能移动手机采集的传感器数据传输给数据补全服务器。服务器根据接收到的传感器数据,以一定的时间刻度为单位判断数据的完整性并进行相应的补全操作。
本发明所涉及技术的一个典型应用场景是针对个人日常生活中的活动及其强度进行持续监测和记录,这种持续监测和记录对了解个人生活规律,推测身体和心理健康状况具有积极的意义。以在校大学生为例,最新的研究表明,学生在校的活动规律与其学业成绩、学习压力、身体和心理健康状况都存在密切的联系。大量研究同时显示保持一个健康的生活作息,维持规律的日常活动能够帮助人们保持身心健康。反之,则可能导致人精神不振、身体虚弱,更严重的还会导致包括各类代谢疾病、癌症、甚至猝死等在内的严重后果。因此,以量化自我为代表的一类新兴的持续活动记录应用得到了人们的广泛关注。随着智能移动设备的广泛普及,人们可以借助智能移动平台所搭载的各类传感器实现对其日常生活中各类活动的持续监测,从而为了解自我,改善自我提供有效的数据支撑。最新的调查研究表明,以智能手机为代表的日常智能移动平台仍旧是目前开展持续活动记录的理想选择。然而现实生活中的持续活动记录面临诸多挑战,其中一个核心挑战就是数据缺失问题,数据缺失的成因主要是用户隐私保护、电量消耗、数据失效等不可控的因素,这也导致数据缺失问题是不可避免的。要从数据源头保证数据的高质量、高完整性,则要付出相当大的代价或根本无法实现。而通过合理使用本发明所提出的数据补全方法,可以在原始数据存在缺失的情况下,以很小的代价补全原始数据,从而满足应用的整体需求。
3、方法描述
本发明的一种基于距离矩阵的时间序列数据补全方法。
1)数据分片技术
本发明涉及的针对时间序列的缺失数据补全方法,其基础是对时间序列数据的分片技术。根据具体场景需求,设定时间分片的大小为d,数据分片技术利用长度为d的滑动窗口将时间序列数据切分成时间上下不相交的数据段,存储于 S[1,2,…,t,…,T]中,其中t表示数据段对应的时间刻度,T为整个时间序列的长度。
2)补全方法
数据补全流程如图1所示,具体步骤描述如下。在针对时间序列数据建模出的距离矩阵D中缺失数据片段前后分别取长度为w个数据点(w根据应用场景确定,为正整数,如对应时间序列的采样频率,取w的值为对应10秒的数据),若这2w个数据点中不存在缺失情况,则对这2w个数据点求和,其中前w个数据点的和为:
后w个数据点的和为:
对计算得到的所有2w个数据点的加和进行排序,取出其中最小的k个值(k 根据应用场景确定,为正整数,在此例中,设k=10),找出与这k个值相对应的 k段时间序列数据,这k段时间序列数据即为在原始时间序列中与带缺失分段距离最近的k个分段。针对缺失分段S[i,i+n],在原始时间序列中定位近邻分段S[ip, ip+n],其中p∈[1,k]为第p个近邻分段,之后,针对缺失分段S[i,i+n]中的每一个缺失元素S[i+x](x∈[0,n]),计算:
其中wp表示第p个近邻分段的权重,在实际运用中,可以将每个近邻分段的权重设置为相等,或以近邻分段与待补全分段在2w个采样点上通过公式(1)与(2) 计算出的距离归一化后的取值为权重。
最后,以公式(3)计算出的缺失分段的数据作为补全结果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。
Claims (2)
1.一种基于距离矩阵的时间序列数据补全方法,其特征是:挖掘并利用时间序列数据内在的高阶时间关联关系,以时间序列数据中相似的数据点来补全缺失数据;该方法具体包括以下步骤:
1)针对时间序列数据,基于某种距离度量函数建模出该时间序列的距离矩阵D,其中位于第i行,第j列的矩阵元素Dij为时间序列中第i个数据点和第j个数据点间的距离;
2)基于步骤1)中得到的距离矩阵D,在原始时间序列中寻找与带缺失分段距离最近的k个分段;
3)利用步骤2)中计算得到的k个近邻分段,补全带缺失分段数据;
所述的步骤2)的具体过程为:
2.1)基于步骤1)中得到的距离矩阵D,假设时间序列数据中时间刻度i至i+n之间的数据S[i,i+n]均丢失,那么在距离矩阵中,Dij至D(i+n)j与Dji至Dj(i+n)中的数据均缺失;j∈[1,T],T为整个时间序列S的长度,即,距离矩阵的行数/列数;在距离矩阵D中缺失数据片段前后分别取长度为w个数据点;w根据应用场景确定,为正整数,若这2w个数据点中不存在缺失情况,则对这2w个数据点求和,其中前w个数据点的和为:
后w个数据点的和为:
2.2)对2.1)中计算得到的所有2w个数据点的加和进行排序,取出其中最小的k个值,k根据应用场景确定,为正整数,找出与这k个值相对应的k段时间序列数据,这k段时间序列数据即为在原始时间序列中与带缺失分段距离最近的k个分段;
所述的步骤3)的具体过程为:
3.1)针对缺失分段S[i,i+n],在原始时间序列中定位近邻分段S[ip,ip+n],其中p∈[1,k]为第p个近邻分段;
3.2)针对缺失分段S[i,i+n]中的每一个缺失元素S[i+x](x∈[0,n]),计算:
其中wp表示第p个近邻分段的权重;
3.3)将计算得到的每个S[i+x](x∈[0,n])的取值填入时间序列S的缺失分段S[i,i+n]中对应位置得到最终的补全结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810007309.1A CN108228832B (zh) | 2018-01-04 | 2018-01-04 | 一种基于距离矩阵的时间序列数据补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810007309.1A CN108228832B (zh) | 2018-01-04 | 2018-01-04 | 一种基于距离矩阵的时间序列数据补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108228832A CN108228832A (zh) | 2018-06-29 |
CN108228832B true CN108228832B (zh) | 2022-04-22 |
Family
ID=62642822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810007309.1A Active CN108228832B (zh) | 2018-01-04 | 2018-01-04 | 一种基于距离矩阵的时间序列数据补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228832B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299170B (zh) * | 2018-10-25 | 2021-12-17 | 南京大学 | 一种针对带标签时间序列数据的补全方法 |
CN111143344A (zh) * | 2019-12-31 | 2020-05-12 | 新奥数能科技有限公司 | 一种用于时间序列数据缺失的补全方法及装置 |
CN111612032A (zh) * | 2020-04-08 | 2020-09-01 | 深圳市水务科技有限公司 | 一种数据处理方法及系统 |
CN112632047B (zh) * | 2020-12-02 | 2023-08-01 | 北京华能新锐控制技术有限公司 | 一种基于变窗口模式识别的时间序列数据处理方法 |
CN113392139B (zh) * | 2021-06-04 | 2023-10-20 | 中国科学院计算技术研究所 | 一种基于关联融合的环境监测数据补全方法及系统 |
CN113495913B (zh) * | 2021-09-07 | 2021-12-21 | 中国科学院地理科学与资源研究所 | 一种空气质量数据缺失值插补方法及装置 |
CN115186005A (zh) * | 2022-06-16 | 2022-10-14 | 上海船舶运输科学研究所有限公司 | 一种船舶主机工况划分方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034350A (zh) * | 2009-09-30 | 2011-04-27 | 北京四通智能交通系统集成有限公司 | 交通流数据短时预测方法及系统 |
CN104915434A (zh) * | 2015-06-24 | 2015-09-16 | 哈尔滨工业大学 | 一种基于马氏距离dtw的多维时间序列分类方法 |
CN105046321A (zh) * | 2015-06-25 | 2015-11-11 | 河海大学 | 一种基于相似性搜索的组合模型预测水位的方法 |
US20150378963A1 (en) * | 2014-06-26 | 2015-12-31 | Tata Consultancy Services Limited | Detecting an event from time-series data sequences |
-
2018
- 2018-01-04 CN CN201810007309.1A patent/CN108228832B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034350A (zh) * | 2009-09-30 | 2011-04-27 | 北京四通智能交通系统集成有限公司 | 交通流数据短时预测方法及系统 |
US20150378963A1 (en) * | 2014-06-26 | 2015-12-31 | Tata Consultancy Services Limited | Detecting an event from time-series data sequences |
CN104915434A (zh) * | 2015-06-24 | 2015-09-16 | 哈尔滨工业大学 | 一种基于马氏距离dtw的多维时间序列分类方法 |
CN105046321A (zh) * | 2015-06-25 | 2015-11-11 | 河海大学 | 一种基于相似性搜索的组合模型预测水位的方法 |
Non-Patent Citations (2)
Title |
---|
Missing Value Estimation for Hierarchical Time Series: A Study of Hierarchical Web Traffic;Zitao Liu等;《2015 IEEE International Conference on Data Mining》;20160107;第237-254页 * |
Using Lowly Correlated Time Series to Recover Missing Values in Time Series: A Comparison Between SVD and CD;Mourad Khayati等;《International Symposium on Spatial and Temporal Databases SSTD 2015》;20150813;第237-254页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108228832A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228832B (zh) | 一种基于距离矩阵的时间序列数据补全方法 | |
CN114220271B (zh) | 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质 | |
Corizzo et al. | Anomaly detection and repair for accurate predictions in geo-distributed big data | |
Chen et al. | Trafficstream: A streaming traffic flow forecasting framework based on graph neural networks and continual learning | |
CN110928993A (zh) | 基于深度循环神经网络的用户位置预测方法及系统 | |
CN111079977A (zh) | 基于svd算法的异构联邦学习矿井电磁辐射趋势跟踪方法 | |
CN106815563B (zh) | 一种基于人体表观结构的人群数量预测方法 | |
CN113806349B (zh) | 基于多视图学习的时空缺失数据补全方法、装置及介质 | |
CN117078048B (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
CN116596151B (zh) | 基于时空图注意力的交通流量预测方法及计算设备 | |
CN111882157A (zh) | 一种基于深度时空神经网络的需求预测方法、系统及计算机可读存储介质 | |
Chuchro et al. | A concept of time windows length selection in stream databases in the context of sensor networks monitoring | |
Legrand et al. | Study of autoencoder neural networks for anomaly detection in connected buildings | |
Zhao et al. | Mastgn: Multi-attention spatio-temporal graph networks for air pollution prediction | |
Ismail et al. | Principal component regression with artificial neural network to improve prediction of electricity demand. | |
Son et al. | Partial convolutional LSTM for spatiotemporal prediction of incomplete data | |
CN113657533A (zh) | 一种面向时空场景构建的多元时间序列分割聚类方法 | |
CN116401604A (zh) | 进行冷头状态分类检测和寿命预测的方法 | |
CN115134816B (zh) | 基于时空卷积和多时间尺度的基站流量预测方法 | |
CN117974166B (zh) | 一种用电信息采集全链路异常监测及因果溯源方法及系统 | |
CN118227985A (zh) | 基于马尔科夫扩散方式的新能源负荷数据重建方法和系统 | |
Blasone et al. | Machine Learning methods for the Atmosphere, the Ocean, and the Seabed. | |
CN115061987A (zh) | 一种车辆轨迹重构的数学模型与压缩方法以及系统 | |
CN117421386A (zh) | 基于gis的空间数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |