CN117807380A - 一种时间序列数据补全方法、装置、存储介质及电子设备 - Google Patents

一种时间序列数据补全方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117807380A
CN117807380A CN202410007240.8A CN202410007240A CN117807380A CN 117807380 A CN117807380 A CN 117807380A CN 202410007240 A CN202410007240 A CN 202410007240A CN 117807380 A CN117807380 A CN 117807380A
Authority
CN
China
Prior art keywords
component
data
data sequence
original
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410007240.8A
Other languages
English (en)
Inventor
赵国辉
张耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Institute of Eco Environment and Resources of CAS
Original Assignee
Northwest Institute of Eco Environment and Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Institute of Eco Environment and Resources of CAS filed Critical Northwest Institute of Eco Environment and Resources of CAS
Priority to CN202410007240.8A priority Critical patent/CN117807380A/zh
Publication of CN117807380A publication Critical patent/CN117807380A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提出一种时间序列数据补全方法、装置、存储介质及电子设备,包括:按照预设时间步长从原始时间序列数据中获取映射数组;其中,映射数组包括按照时序排列的多个原始值、每一个原始值的次序、每一个原始值的位置索引以及每一个原始值的有效性标识,相邻两个原始值的间隔为预设时间步长;基于映射数组中的多个原始值和每一个原始值在映射数组中的次序构建目标数据序列;基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;基于目标重构矩阵获取映射数组中的缺失数据对应的填充值;基于映射数组中缺失数据对应的位置索引和填充值补全原始时间序列数据,可以帮助后续分析有效进行。

Description

一种时间序列数据补全方法、装置、存储介质及电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种时间序列数据补全方法、装置、存储介质及电子设备。
背景技术
时间序列数据是对环境状况或现象的持续观测而形成的有序记录。由于它是直接获取的第一手观测资料,可以帮助人们认识观测对象的变化规律,把握未来发展的动态,制定出科学合理的应对策略和管理措施,在科学研究、管理决策、社会服务等众多领域有着广泛的应用。随着时间序列数据的不断积累和丰富,其已成为当前各类数据中心的核心基础数据。在时间序列数据分析与应用中,数据的完整性尤其关键,其直接决定着分析结果的合理性和有效性。然而,在实际工作中通常面临着数据缺失问题,如由于仪器设备故障导致某时段观测值的丢失、在质量控制中对异常值、无效值的删除造成的空缺等,给后续的分析和应用带来诸多不便。
发明内容
本申请的目的在于提供一种时间序列数据补全方法、装置、存储介质及电子设备,以至少部分改善上述问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种时间序列数据补全方法所述方法包括:
按照预设时间步长从原始时间序列数据中获取映射数组;
其中,所述映射数组包括按照时序排列的多个原始值、每一个所述原始值在所述映射数组中的次序、每一个所述原始值在所述原始时间序列数据的位置索引以及每一个所述原始值的有效性标识,相邻两个所述原始值的间隔为所述预设时间步长;
基于所述映射数组中的多个原始值和每一个所述原始值在所述映射数组中的次序构建目标数据序列;
基于所述目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;
基于所述目标重构矩阵获取所述映射数组中的缺失数据对应的填充值;
基于所述映射数组中缺失数据对应的位置索引和所述填充值补全所述原始时间序列数据;
其中,所述缺失数据为有效性标识表示数据无效的原始值。
第二方面,本申请实施例提供一种时间序列数据补全装置,所述装置包括:
第一处理单元,用于按照预设时间步长从原始时间序列数据中获取映射数组;
其中,所述映射数组包括按照时序排列的多个原始值、每一个所述原始值在所述映射数组中的次序、每一个所述原始值在所述原始时间序列数据的位置索引以及每一个所述原始值的有效性标识,相邻两个所述原始值的间隔为所述预设时间步长;
第二处理单元,用于基于所述映射数组中的多个原始值和每一个所述原始值在所述映射数组中的次序构建目标数据序列;
所述第二处理单元还用于基于所述目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;
所述第二处理单元还用于基于所述目标重构矩阵获取所述映射数组中的缺失数据对应的填充值;
所述第一处理单元还用于基于所述映射数组中缺失数据对应的位置索引和所述填充值补全所述原始时间序列数据;
其中,所述缺失数据为有效性标识表示数据无效的原始值。
第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
第四方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现上述的方法。
相对于现有技术,本申请实施例所提供的一种时间序列数据补全方法、装置、存储介质及电子设备,包括:按照预设时间步长从原始时间序列数据中获取映射数组;其中,映射数组包括按照时序排列的多个原始值、每一个原始值在映射数组中的次序、每一个原始值在原始时间序列数据的位置索引以及每一个原始值的有效性标识,相邻两个原始值的间隔为预设时间步长;基于映射数组中的多个原始值和每一个原始值在映射数组中的次序构建目标数据序列;基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;基于目标重构矩阵获取映射数组中的缺失数据对应的填充值;基于映射数组中缺失数据对应的位置索引和填充值补全原始时间序列数据,可以帮助后续分析有效进行。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的电子设备的结构示意图;
图2为本申请实施例提供的时间序列数据补全方法的流程示意图之一;
图3为本申请实施例提供的时间序列数据补全方法的流程示意图之二;
图4为本申请实施例提供的变化特征分类示意图;
图5为本申请实施例提供的时间序列数据补全装置的单元示意图。
图中:10-处理器;11-存储器;12-总线;13-通信接口;201-第一处理单元;202-第二处理单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
为保持时间序列数据的连贯性和完整性,需要对缺失部分进行填补,从而形成完备的数据集,以满足科学研究和管理决策对高质量数据信息的需求。当前时间序列数据缺失填充方法主要有近邻插值法、相似填充法、模拟法、人工填充等。在这些方法中,近邻插值法最为常用,它使用空值前后相邻观测值完成填充,填充方式包括向前填充、向后填充和前后填充,其能保持数据局部变化的连续性。然而,由于它属于单值插补,即对缺失值进行逐个填充,需要较多的内存空间和计算时长。此外,由于近邻插值法基于局部的变化信息,针对大片段的连续缺失,常常无能为力。相似填充法利用时间序列中已知的同质数据进行批量填充。例如某一时刻观测值存在缺失时,可采用同时刻的多年观测平均值进行代替。该类方法虽然概念清晰,即同类数据具有相同的值域,但它的分类标准受主观因素较大,难以定量化。针对大面积连续缺失值,由于忽略了缺失位置前后变化的局部特征,容易造成较大的误差。模拟法又可分为单因子和多因子填充方法。单因子法基于已知的观测记录,建立观测值之间的关联规则,寻找当前值与其他观测值之间的对应关系。针对连续缺失值,单因子法需要采用循环迭代预测的方式进行填补。该种模式易造成误差传递,使填补值偏离正常值域范围。多因子填充方法则基于影响因子特征矩阵,构建外部影响因子和时间序列变化之间的关联关系,然后求解目标变量的连续变化特征,从而再填充不同位置的缺失值。模拟法虽然具有较高的精度,但存在着建模困难,需要引入外部解释变量,计算过程复杂,需要大量的样本数据的支撑等问题,导致针对性强、普适性差,难以在实际工作中推广应用。人工补齐也是非常重要的一种途径。当数据使用者对数据足够了解时,也可以自己动手对缺失值进行填补。该类方法不仅对数据使用者的工作经验和技能素养有着严格的要求,而且需要技术人员的全程参与,填补过程耗费大量的时间和精力,导致成本高、效率低和时效差。目前仅对少量缺失且具有重要意义的数据,采用人工方法进行填补。针对具有成片、连续缺失的时间序列,该类方法显然不太现实。
鉴于以上方法很难有效地补齐含有大量连续缺失值的时间序列数据,本申请实施例提供了一种时间序列数据补全方法,通过具有普适性的多成分融合重构填补法,用于填补时间序列数据中的缺失和空白,以构造完整、连续的数据集。
本申请实施例提供了一种电子设备,可以是服务器设备、电脑设备以及手机设备等等。请参照图1,电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接,处理器10用于执行存储器11中存储的可执行模块,例如计算机程序。
处理器10可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,时间序列数据补全方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器11可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
总线12可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图1中仅用一个双向箭头表示,但并不表示仅有一根总线12或一种类型的总线12。
存储器11用于存储程序,例如时间序列数据补全装置对应的程序。时间序列数据补全装置包括至少一个可以软件或固件(firmware)的形式存储于存储器11中或固化在电子设备的操作系统(operating system,OS)中的软件功能模块。处理器10在接收到执行指令后,执行所述程序以实现时间序列数据补全方法。
可能地,本申请实施例提供的电子设备还包括通信接口13。通信接口13通过总线与处理器10连接。
应当理解的是,图1所示的结构仅为电子设备的部分的结构示意图,电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例提供的一种时间序列数据补全方法,可以但不限于应用于图1所示的电子设备,具体的流程,请参考图2,时间序列数据补全方法包括:S101、S102、S107、S108以及S109,具体阐述如下。
S101,按照预设时间步长从原始时间序列数据中获取映射数组。
其中,映射数组包括按照时序排列(可以从前到后排列)的多个原始值、每一个原始值在映射数组中的次序(整数)、每一个原始值在原始时间序列数据的位置索引以及每一个原始值的有效性标识,相邻两个原始值的间隔为预设时间步长。
需要说明的是,原始时间序列数据为待填补的时间序列数据,对原始时间序列数据进行预处理,以相同的预设时间步长,构建映射数组。预设时间步长可以是年、月、日、小时、分钟或秒。
映射数组为一个4维数组,分别存储原始数据取值的次序、原始值、有效性标识以及位置索引。有效性标识可以为1或0,1表示取到的数据有效,0表示数据无效,对应的原始值为空。
需要说明的是,映射数组4个维度的顺序不受限制,如采用第一维度存储次序,第二维度存储数据的原始值,第三维度存储数据的有效性标识,第四维度存储在原始数据中的位置索引,则该映射数组的结构如下表1所示:
次序 原始值 有效性标识 位置索引
1 10.659335 1 23
2 16.569259 1 47
3 0 71
4 12.023478 1 95
5 10.758081 1 119
表1
可选地,基于映射数组可以对原始时间序列数据进行回溯和预测,即对原始时间序列数据前后两端进行推断,只需在次序和有效标识两个维度添加对应的值即可。若是时间序列回溯,则次序列为从0开始倒序,若是预测则在次序列添加相应的预测次序值。数据回溯和预测时,有效值全部为0。
若对时间序列数据进行历史回溯的话,映射数组示例如下表2:
次序 原始值 有效性标识 位置索引
0
-2 0
-1 0
0 0
1 10.758081 1
表2
若对时间序列数据进行未来预测的话,映射数组示例如下表3:
次序 原始值 有效性标识 位置索引
1000 16.895805 1
1001 0
1002 0
1003 0
1004 0
表3
通过映射数组主要可以对数据进行清洗,使其时间步长一致,还可以对数据的有效组织,提升填补效率。
S102,基于映射数组中的多个原始值和每一个原始值在映射数组中的次序构建目标数据序列。
可选地,获取映射数组中有效性标识为1的原始值和对应的次序,基于映射数组中有效性标识为1的原始值和对应的次序构建目标数据序列,目标数据序列包括X(t),X(t)表示次序为t时的原始值。
S107,基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵。
需要说明的是,基于目标数据序列的变化特征,将目标数据序列的变化视为全局变化成分和局部变化成分的叠加。所谓的成分是从目标数据序列中提取的数据分量,每种成分具有独特的变化特征,在整个序列中存在的变化特征为全局变化成分,变化特征体现在某个时段的为局部变化成分。目标数据序列(X(t))的算式可以表述为:
X(t)≈TG(t)+PG(t)+CL(t)+RL(t)
式中,TG为全局变化趋势成分,PG(t)为全局变化周期成分,CL(t)为局部变化特征成分,RL(t)为局部噪声成分。
其中,目标重构矩阵包括全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分所组合多个重构序列。
S108,基于目标重构矩阵获取映射数组中的缺失数据对应的填充值。
其中,缺失数据为有效性标识表示数据无效的原始值。
可选地,目标数据序列X(t)的算式可以表述为:
X(t)≈TG(t)+PG(t)+CL(t)+RL(t)
式中,TG为全局变化趋势成分,PG(t)为全局变化周期成分,CL(t)为局部变化特征成分,RL(t)为局部噪声成分。
可选地,按照预设的重构评价指标,从目标重构矩阵中选择最优的重构序列,基于最优的重构序列和上述X(t)的算式,获取映射数组中的缺失数据对应的填充值。
可选地,还可以基于目标重构矩阵和映射数组,提取重构值域,即填充值(又称为估计值)的最大值和最小值。
可选地,请参考以下算式:
其中,RMSE为均方根误差,obsi为映射数组中第i个有效值,filledi为obsi所对应的充填值,n为映射数组中有效值的数量。当RMSE取值最小时,表明该重构序列最优,可以使用该重构序列填充缺失值。
S109,基于映射数组中缺失数据对应的位置索引和填充值补全原始时间序列数据。
依据映射数组中缺失数据对应的位置索引,将填充值补充至该位置索引在原始时间序列数据中的对应位置,补全原始时间序列数据。
补全后的原始时间序列数据可以发送给分析终端,有分析终端进行分析处理。
在图2的基础上,关于如何获取目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分,本申请实施例还提供了一种可选的实施方式,请参考图3,在S107,基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵之前,时间序列数据补全方法还包括:S103、S104、S105以及S106,具体阐述如下。
S103,从目标数据序列中提取全局变化趋势成分。
可选地,从目标数据序列中提取全局变化趋势成分的步骤,包括:S103-1、S103-2以及S103-3,具体阐述如下。
S103-1,对目标数据序列进行拟合,以得到第一线性方程。
可选地,第一线性方程的算式如下:
X′(t)=a×t+b
其中,a和b为参数,t表示次序,X′(t)表示第一线性方程的拟合值。
在确定第一线性方程后,需要基于第一线性方程确定目标数据序列是否存在全局变化现象。可选地,通过有效值检验第一线性方程的拟合效果,对全局变化趋势成分进行判定,若满足预设的评价指标,则确定存在全局变化现象,执行S103-2。当不存在全局变化现象时,可以将目标数据序列的均值确定为全局变化趋势成分。
S103-2,在基于第一线性方程确定存在全局变化现象时,确定第一线性方程对应的第一参数置信区间。
可选地,通过拟合的方式,得到第一参数置信区间,第一参数置信区间包括参数a的置信区间和参数b的置信区间,置信区间可以理解为参数的取值范围。
S103-3,分别取第一参数置信区间中的最小值、均值以及最大值带入第一线性方程,以得到全局变化趋势成分。
其中,全局变化趋势成分包括第一全局变化趋势子成分第二全局变化趋势子成分/>以及第三全局变化趋势子成分/>
可选地,同时取参数a的置信区间中的最小值和参数b的置信区间中的最小值带入第一线性方程,得到第一全局变化趋势子成分
同时取参数a的置信区间中的均值和参数b的置信区间中的均值带入第一线性方程,得到第二全局变化趋势子成分同时取参数a的置信区间中的最大值和参数b的置信区间中的最大值带入第一线性方程,得到第三全局变化趋势子成分/>
S104,将目标数据序列减去全局变化趋势成分,得到第一数据序列,从第一数据序列中提取全局变化周期成分。
可选地,将目标数据序列减去全局变化趋势成分,得到第一数据序列,从第一数据序列中提取全局变化周期成分的步骤,包括:S104-1、S104-2、S104-3以及S104-4,具体阐述如下。
S104-1,将目标数据序列减去对应的全局变化趋势成分,得到第一数据序列。
可选地,需要消除目标数据序列中的全局变化趋势成分,将目标数据序列减去对应的全局变化趋势成分,得到第一数据序列X(t)-TG(t),分别为以及/>对应三个第一数据序列。
需要说明的是,三个第一数据序列均需要提取全局变化周期成分。
S104-2,对第一数据序列进行拟合,以得到第二函数。
其中,第二函数为正弦函数或余弦函数。
可选地,第二函数的算式为:
X″(t)=c×sin(d×t+e)
其中,c、d以及e为参数,t表示次序,X″(t)表示第二函数的拟合值。
在确定第二函数后,需要基于第二函数确定目标数据序列是否存在周期变化现象。可选地,通过拟合效果检验,对全局变化周期成分进行判定,若满足预设精度,则存在周期变化现象。即目标数据序列存在着重复性的变化,此时执行S104-3。当不存在周期变化现象时,则将该第一数据序列对应的全局变化周期成分确定为0。
可选地,基于以下算式获取可决系数:
其中,R2表示可决系数,oi为第一数据序列中第i个有效值,fi为oi所对应的第二函数的拟合值,n为第一数据序列中有效值的数量。为n个有效值的均值。
当可决系数R2大于0.6时,确定满足预设精度,则存在周期变化现象。
S104-3,在基于第二函数确定存在周期变化现象时,确定第二函数对应的第二参数置信区间。
可选地,通过拟合的方式,得到第二参数置信区间,第二参数置信区间包括参数c的置信区间、参数d的置信区间以及参数e的置信区间。
S104-4,分别取第二参数置信区间中的最小值、均值以及最大值带入第二函数,以得到全局变化周期成分。
其中,全局变化周期成分包括第一全局变化周期子成分第二全局变化周期子成分/>以及第三全局变化周期子成分/>
可选地,同时取参数c的置信区间中的最小值、参数d的置信区间中的最小值以及参数e的置信区间中的最小值带入第二函数,得到第一全局变化周期子成分
同时取参数c的置信区间中的均值、参数d的置信区间中的均值以及参数e的置信区间中的均值带入第二函数,得到第二全局变化周期子成分
同时取参数c的置信区间中的最大值、参数d的置信区间中的最大值以及参数e的置信区间中的最大值带入第二函数,得到第三全局变化周期子成分
S105,将第一数据序列减去全局变化周期成分,得到第二数据序列,从第二数据序列中提取局部变化特征成分。
可选地,将第一数据序列减去全局变化周期成分,得到第二数据序列,从第二数据序列中提取局部变化特征成分的步骤,包括:S105-1、S105-2、S105-3、S105-4以及S105-5,具体阐述如下。
S105-1,将第一数据序列减去对应的全局变化周期成分,得到第二数据序列。
可选地,在提取局部变化特征成分时,需要消除目标数据序列中的全局变化趋势成分和全局变化周期成分,即在第一数据序列的基础上减去对应的全局变化周期成分,得到第二数据序列,X(t)-TG(t)-PG(t)。
可选地,第二数据序列包括
需要分别对这9中第二数据序列,分别提取各自的局部变化特征成分。
S105-2,将第二数据序列划分为至少两个子片段。
其中,每一个子片段的首位均为有效性标识表示数据有效的原始值,每一个子片段至少包括一个缺失数据,每一个子片段中有效值占比大于或等于50%,任意一个子片段与其前后的子片段具有不同的变化特征。
需要说明的是,通过对第二数据序列进行分段,考虑了其变化的记忆性和异质性。
请参考图4,图4为本申请实施例提供的变化特征分类示意图。在某一时间段D(t1,t2)内变化特征可以为增长趋势、减少趋势、静态变化、随机变化等,中间断开的部分为缺失数据。
S105-3,对子片段进行拟合,以得到第三方程。
其中,第三方程为线性或非线性方程。
在确定第三方程后,需要基于第三方程确定目标数据序列是否存在局部变化现象。可选地,通过拟合效果评估,若满足预设精度,则存在局部变化现象,则继续执行S105-4;反之,则将子片段的均值确定为局部变化特征成分。
S105-4,在基于第三方程确定存在局部变化现象时,确定第三方程对应的第三参数置信区间。
可选地,通过拟合的方式,得到第三参数置信区间,第三参数置信区间包括第三方程中一个或多个参数的置信区间。
S105-5,分别取第三参数置信区间中的最小值、均值以及最大值带入第三方程,以得到局部变化特征成分。
其中,局部变化特征成分包括第一局部变化特征子成分第二局部变化特征子成分/>以及第三局部变化特征子成分/>
可选地,同时取第三方程中参数的置信区间的最小值带入第三方程中,得到第一局部变化特征子成分
同时取第三方程中参数的置信区间的均值带入第三方程中,得到第一局部变化特征子成分
同时取第三方程中参数的置信区间的最大值带入第三方程中,得到第一局部变化特征子成分
S106,将第二数据序列减去局部变化特征成分,得到第三数据序列,从第三数据序列中提取局部噪声成分。
可选地,将第二数据序列减去局部变化特征成分,得到第三数据序列,从第三数据序列中提取局部噪声成分的步骤,包括:S106-1、S106-2、S106-3以及S106-4,具体阐述如下。
S106-1,将第二数据序列中的子片段减去对应的局部变化特征成分,得到第三数据序列。
可选地,在提取局部噪声成分时,需要消除目标数据序列中的全局变化趋势成分、全局变化周期成分以及局部变化特征成分,将第二数据序列中的子片段减去对应的局部变化特征成分,得到第三数据序列,X(t)-TG(t)-PG(t)-CL(t)。
需要说明的是,子片段与第二数据序列((X(t)-TG(t)-PG(t))的表达式相同,只是t的取值范围不同。一个子片段可以对应3个局部变化特征成分,分别为第一局部变化特征子成分第二局部变化特征子成分/>以及第三局部变化特征子成分所以一个子片段可以对3个第三数据序列,3个第三数据序列均需要提取局部噪声成分。
S106-2,对第三数据序列进行拟合,以得到第四函数。
其中,第四函数为数据分布概率函数。
S106-3,确定第四函数对应的第四参数置信区间。
其中,第四参数置信区间包括第四函数中每一个参数对应的置信区间。
S106-4,分别取第四参数置信区间中的最小值、均值以及最大值带入第四函数,以得到局部噪声成分。
其中,局部噪声成分包括第一局部噪声子成分第二局部噪声子成分以及第三局部噪声子成分/>
可选地,同时取第四函数中每一个参数对应的置信区间的最小值带入第四函数,以得到第一局部噪声子成分
同时取第四函数中每一个参数对应的置信区间的均值带入第四函数,以得到第一局部噪声子成分
同时取第四函数中每一个参数对应的置信区间的最大值带入第四函数,以得到第一局部噪声子成分
在前文的基础上,关于S107中的中内容,本申请实施例还提供了一种可选的实施方式,请参考下文,S107,基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵的步骤,包括:S107-1、S107-2、S107-3以及S107-4,具体阐述如下。
S107-1,基于生成关系,以每一个局部噪声成分为基础,添加对应的局部变化特征成分、全局变化周期成分以及全局变化趋势成分,得到重构序列。
可选地,采用从下而上的逐层重构过程,即选取某一局部噪声成分后,逐层依次寻找它所对应的局部变化特征成分、全局变化周期成分和全局变化趋势成分,将四类成分相加,即得到重构序列。
S107-2,将所有的重构序列组合为初始重构矩阵。
S107-3,获取初始重构矩阵中的同一数据位置的最小值、均值以及最大值,形成重构序列统计矩阵。
S107-4,将初始重构矩阵和重构序列统计矩阵拼接为目标重构矩阵。
本申请实施例提供的时间序列数据补全方法对连续缺失问题极其有效,也能对随机缺失进行处理,其优越性表现在:①概念合理:通过对时间序列进行分段,考虑了其变化的记忆性和异质性,又通过变化成分的不同组合,综合考虑了变化的可能性,确保了填补值的合理性和有效性;②过程高效:不借助外部变量,仅依靠时间序列数据自身蕴含的变化特征,完成所有缺失值的有效填补,因此,具有简便高效、易于实现等优点。③结果全面:不仅得出缺失位置的最优估计值,而且还得到其值域范围,增强结果的可选择性和可信性。④易于实现:属于无监督填补过程,即直接处理的是各个成分模型的参数,而不是针对具体的每个空缺值。实际应用中可实现批量自动化填充,提高了数据填补工作的效率和自动化水平。
请参阅图5,图5为本申请实施例提供的一种时间序列数据补全装置,可选的,该时间序列数据补全装置被应用于上文所述的电子设备。
时间序列数据补全装置包括:第一处理单元201和第二处理单元202。
第一处理单元201,用于按照预设时间步长从原始时间序列数据中获取映射数组;
其中,映射数组包括按照时序排列的多个原始值、每一个原始值在映射数组中的次序、每一个原始值在原始时间序列数据的位置索引以及每一个原始值的有效性标识,相邻两个原始值的间隔为预设时间步长;
第二处理单元202,用于基于映射数组中的多个原始值和每一个原始值在映射数组中的次序构建目标数据序列;
第二处理单元202还用于基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;
第二处理单元202还用于基于目标重构矩阵获取映射数组中的缺失数据对应的填充值;
第一处理单元201还用于基于映射数组中缺失数据对应的位置索引和填充值补全原始时间序列数据;
其中,缺失数据为有效性标识表示数据无效的原始值。
可选地,第一处理单元201可以执行上述的S101和S109,第二处理单元202可以执行上述的S102至S108。
需要说明的是,本实施例所提供的时间序列数据补全装置,其可以执行上述方法流程实施例所示的方法流程,以实现对应的技术效果。为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。
本申请实施例还提供了一种存储介质,该存储介质存储有计算机指令、程序,该计算机指令、程序在被读取并运行时执行上述实施例的时间序列数据补全方法。该存储介质可以包括内存、闪存、寄存器或者其结合等。
下面提供一种电子设备,可以是服务器设备、电脑设备以及手机设备等等,该电子设备如图1所示,可以实现上述的时间序列数据补全方法;具体的,该电子设备包括:处理器10,存储器11、总线12。处理器10可以是CPU。存储器11用于存储一个或多个程序,当一个或多个程序被处理器10执行时,执行上述实施例的时间序列数据补全方法。
综上所述,本申请实施例提供的一种时间序列数据补全方法、装置、存储介质及电子设备,包括:按照预设时间步长从原始时间序列数据中获取映射数组;其中,映射数组包括按照时序排列的多个原始值、每一个原始值在映射数组中的次序、每一个原始值在原始时间序列数据的位置索引以及每一个原始值的有效性标识,相邻两个原始值的间隔为预设时间步长;基于映射数组中的多个原始值和每一个原始值在映射数组中的次序构建目标数据序列;基于目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;基于目标重构矩阵获取映射数组中的缺失数据对应的填充值;基于映射数组中缺失数据对应的位置索引和填充值补全原始时间序列数据,可以帮助后续分析有效进行。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种时间序列数据补全方法,其特征在于,所述方法包括:
按照预设时间步长从原始时间序列数据中获取映射数组;
其中,所述映射数组包括按照时序排列的多个原始值、每一个所述原始值在所述映射数组中的次序、每一个所述原始值在所述原始时间序列数据的位置索引以及每一个所述原始值的有效性标识,相邻两个所述原始值的间隔为所述预设时间步长;
基于所述映射数组中的多个原始值和每一个所述原始值在所述映射数组中的次序构建目标数据序列;
基于所述目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;
基于所述目标重构矩阵获取所述映射数组中的缺失数据对应的填充值;
基于所述映射数组中缺失数据对应的位置索引和所述填充值补全所述原始时间序列数据;
其中,所述缺失数据为有效性标识表示数据无效的原始值。
2.如权利要求1所述的时间序列数据补全方法,其特征在于,在基于所述目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵之前,所述方法还包括:
从所述目标数据序列中提取所述全局变化趋势成分;
将所述目标数据序列减去所述全局变化趋势成分,得到第一数据序列,从所述第一数据序列中提取所述全局变化周期成分;
将所述第一数据序列减去所述全局变化周期成分,得到第二数据序列,从所述第二数据序列中提取所述局部变化特征成分;
将所述第二数据序列减去所述局部变化特征成分,得到第三数据序列,从所述第三数据序列中提取所述局部噪声成分。
3.如权利要求2所述的时间序列数据补全方法,其特征在于,所述从所述目标数据序列中提取所述全局变化趋势成分的步骤,包括:
对所述目标数据序列进行拟合,以得到第一线性方程;
在基于所述第一线性方程确定存在全局变化现象时,确定所述第一线性方程对应的第一参数置信区间;
分别取所述第一参数置信区间中的最小值、均值以及最大值带入所述第一线性方程,以得到所述全局变化趋势成分;
其中,所述全局变化趋势成分包括第一全局变化趋势子成分第二全局变化趋势子成分/>以及第三全局变化趋势子成分/>
4.如权利要求3所述的时间序列数据补全方法,其特征在于,所述将所述目标数据序列减去所述全局变化趋势成分,得到第一数据序列,从所述第一数据序列中提取所述全局变化周期成分的步骤,包括:
将所述目标数据序列减去对应的所述全局变化趋势成分,得到所述第一数据序列;
对所述第一数据序列进行拟合,以得到第二函数,所述第二函数为正弦函数或余弦函数;
在基于所述第二函数确定存在周期变化现象时,确定所述第二函数对应的第二参数置信区间;
分别取所述第二参数置信区间中的最小值、均值以及最大值带入所述第二函数,以得到所述全局变化周期成分;
其中,所述全局变化周期成分包括第一全局变化周期子成分第二全局变化周期子成分/>以及第三全局变化周期子成分/>
5.如权利要求4所述的时间序列数据补全方法,其特征在于,所述将所述第一数据序列减去所述全局变化周期成分,得到第二数据序列,从所述第二数据序列中提取所述局部变化特征成分的步骤,包括:
将所述第一数据序列减去对应的所述全局变化周期成分,得到所述第二数据序列;
将所述第二数据序列划分为至少两个子片段,其中,每一个所述子片段的首位均为有效性标识表示数据有效的原始值,每一个所述子片段至少包括一个缺失数据,每一个所述子片段中有效值占比大于或等于50%,任意一个所述子片段与其前后的子片段具有不同的变化特征;
对所述子片段进行拟合,以得到第三方程,所述第三方程为线性或非线性方程;
在基于所述第三方程确定存在局部变化现象时,确定所述第三方程对应的第三参数置信区间;
分别取所述第三参数置信区间中的最小值、均值以及最大值带入所述第三方程,以得到所述局部变化特征成分;
其中,所述局部变化特征成分包括第一局部变化特征子成分第二局部变化特征子成分/>以及第三局部变化特征子成分/>
6.如权利要求5所述的时间序列数据补全方法,其特征在于,所述将所述第二数据序列减去所述局部变化特征成分,得到第三数据序列,从所述第三数据序列中提取所述局部噪声成分的步骤,包括:
将所述第二数据序列中的子片段减去对应的所述局部变化特征成分,得到所述第三数据序列;
对所述第三数据序列进行拟合,以得到第四函数,所述第四函数为数据分布概率函数;
确定所述第四函数对应的第四参数置信区间;
分别取所述第四参数置信区间中的最小值、均值以及最大值带入所述第四函数,以得到所述局部噪声成分;
其中,所述局部噪声成分包括第一局部噪声子成分第二局部噪声子成分以及第三局部噪声子成分/>
7.如权利要求6所述的时间序列数据补全方法,其特征在于,所述基于所述目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵的步骤,包括:
基于生成关系,以每一个所述局部噪声成分为基础,添加对应的所述局部变化特征成分、所述全局变化周期成分以及所述全局变化趋势成分,得到重构序列;
将所有的重构序列组合为初始重构矩阵;
获取所述初始重构矩阵中的同一数据位置的最小值、均值以及最大值,形成重构序列统计矩阵;
将所述初始重构矩阵和所述重构序列统计矩阵拼接为所述目标重构矩阵。
8.一种时间序列数据补全装置,其特征在于,所述装置包括:
第一处理单元,用于按照预设时间步长从原始时间序列数据中获取映射数组;
其中,所述映射数组包括按照时序排列的多个原始值、每一个所述原始值在所述映射数组中的次序、每一个所述原始值在所述原始时间序列数据的位置索引以及每一个所述原始值的有效性标识,相邻两个所述原始值的间隔为所述预设时间步长;
第二处理单元,用于基于所述映射数组中的多个原始值和每一个所述原始值在所述映射数组中的次序构建目标数据序列;
所述第二处理单元还用于基于所述目标数据序列的全局变化趋势成分、全局变化周期成分、局部变化特征成分以及局部噪声成分构建目标重构矩阵;
所述第二处理单元还用于基于所述目标重构矩阵获取所述映射数组中的缺失数据对应的填充值;
所述第一处理单元还用于基于所述映射数组中缺失数据对应的位置索引和所述填充值补全所述原始时间序列数据;
其中,所述缺失数据为有效性标识表示数据无效的原始值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
CN202410007240.8A 2024-01-02 2024-01-02 一种时间序列数据补全方法、装置、存储介质及电子设备 Pending CN117807380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410007240.8A CN117807380A (zh) 2024-01-02 2024-01-02 一种时间序列数据补全方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410007240.8A CN117807380A (zh) 2024-01-02 2024-01-02 一种时间序列数据补全方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117807380A true CN117807380A (zh) 2024-04-02

Family

ID=90424769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410007240.8A Pending CN117807380A (zh) 2024-01-02 2024-01-02 一种时间序列数据补全方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117807380A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675553A (en) * 1996-06-28 1997-10-07 The United States Of America As Represented By The Secretary Of The Navy Method for data gap compensation
CN110378858A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于经验正交函数分解法的静止海洋水色卫星数据重构方法
US20190378022A1 (en) * 2018-06-11 2019-12-12 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data
CN111131424A (zh) * 2019-12-18 2020-05-08 武汉大学 一种基于emd和多变量lstm相结合的服务质量预测方法
CN111444963A (zh) * 2020-03-27 2020-07-24 中南大学 一种基于ssa-svr模型的高炉铁水硅含量预测方法
CN113393034A (zh) * 2021-06-16 2021-09-14 国网山东省电力公司泰安供电公司 一种在线自适应oselm-garch模型的电量预测方法
CN114722854A (zh) * 2022-02-18 2022-07-08 广东电网有限责任公司 一种电力设备电流信号降噪方法及装置
CN114911788A (zh) * 2022-07-15 2022-08-16 中国长江三峡集团有限公司 一种数据插补方法、装置及存储介质
CN115984281A (zh) * 2023-03-21 2023-04-18 中国海洋大学 基于局部特异性深化的时序海温图像的多任务补全方法
CN116701851A (zh) * 2023-05-29 2023-09-05 中国南方电网有限责任公司 一种电网故障预测方法、装置、电子设备及存储介质
CN117010541A (zh) * 2022-08-31 2023-11-07 腾讯科技(深圳)有限公司 时间序列预测方法、装置及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675553A (en) * 1996-06-28 1997-10-07 The United States Of America As Represented By The Secretary Of The Navy Method for data gap compensation
US20190378022A1 (en) * 2018-06-11 2019-12-12 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data
CN110378858A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于经验正交函数分解法的静止海洋水色卫星数据重构方法
WO2021000361A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于经验正交函数分解法的静止海洋水色卫星数据重构方法
CN111131424A (zh) * 2019-12-18 2020-05-08 武汉大学 一种基于emd和多变量lstm相结合的服务质量预测方法
CN111444963A (zh) * 2020-03-27 2020-07-24 中南大学 一种基于ssa-svr模型的高炉铁水硅含量预测方法
CN113393034A (zh) * 2021-06-16 2021-09-14 国网山东省电力公司泰安供电公司 一种在线自适应oselm-garch模型的电量预测方法
CN114722854A (zh) * 2022-02-18 2022-07-08 广东电网有限责任公司 一种电力设备电流信号降噪方法及装置
CN114911788A (zh) * 2022-07-15 2022-08-16 中国长江三峡集团有限公司 一种数据插补方法、装置及存储介质
CN117010541A (zh) * 2022-08-31 2023-11-07 腾讯科技(深圳)有限公司 时间序列预测方法、装置及存储介质
CN115984281A (zh) * 2023-03-21 2023-04-18 中国海洋大学 基于局部特异性深化的时序海温图像的多任务补全方法
CN116701851A (zh) * 2023-05-29 2023-09-05 中国南方电网有限责任公司 一种电网故障预测方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAMED KARIMI等: "A gap-filling algorithm selection strategy for GRACE and GRACE Follow-On time series based on hydrological signal characteristics of the individual river basins", JOURNAL OF GEODETIC SCIENCE, vol. 13, no. 1, 31 March 2023 (2023-03-31) *
VIJAY KOTU等: "数据科学概念与实践", vol. 2020, 30 September 2020, 机械工业出版社, pages: 257 - 259 *
贾梓健;宋腾炜;王建新;: "基于傅里叶变换和kNNI的周期性时序数据缺失值补全算法", 软件工程, no. 03, 5 March 2017 (2017-03-05) *
高文宗;郭金运;沈毅;赵春梅;: "基于多通道奇异谱分析的北京房山站2007―2015年坐标时变分析", 中国科技论文, no. 03, 8 February 2018 (2018-02-08) *

Similar Documents

Publication Publication Date Title
CN111737249A (zh) 基于Lasso算法的异常数据检测方法及装置
CN108776678A (zh) 基于移动端NoSQL数据库的索引创建方法及装置
CN107862459B (zh) 一种基于大数据的计量设备状态评估方法及系统
CN112801434A (zh) 性能指标健康度的监测方法、装置、设备和存储介质
CN113988709A (zh) 中压配电线路故障率分析方法、装置、终端设备及介质
CN117807380A (zh) 一种时间序列数据补全方法、装置、存储介质及电子设备
CN112116176B (zh) 基于气象因素的地区绝缘子群污闪风险评估方法和系统
CN116028877A (zh) 一种配电网主设备故障概率模型参数辨识方法及系统
CN115617633A (zh) 一种覆冰监测终端维护方法及相关设备
CN114900262A (zh) 卫星时钟设备故障识别方法及装置
CN109871998B (zh) 一种基于专家样本库的配电网线损率预测方法及装置
CN116264706A (zh) 5g基站布设评估模型训练方法、设备及存储介质
Zhu et al. Fast grid splitting detection for n-1 contingency analysis by graph computing
CN112256693A (zh) 一种预测线路故障停电和用户投诉的方法
CN112395167A (zh) 一种作业故障预测方法、装置及电子设备
CN116719103B (zh) 水文集合预报构建方法、装置、计算机设备及存储介质
CN112132483A (zh) 空气质量数值业务预报可信度评估方法、装置及存储介质
CN110659442A (zh) 系统及其数据短期预测方法和装置、存储介质
CN117522419B (zh) 一种应用于客户关系管理系统的资源分配方法
CN113951169B (zh) 生长性能测定模型的训练方法、测定方法及装置
CN111552685B (zh) 基于Spark的电能质量数据清洗方法及装置
CN116822996A (zh) 光伏发电功率的预测方法、装置、计算机设备及存储介质
CN116232903A (zh) 一种基于知识图谱结合日志分析的全球网络拓扑测绘方法
CN117670128A (zh) 数据处理方法及装置
CN117744936A (zh) 电力舱风险状态评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination