CN106844290A - 一种基于曲线拟合的时序数据处理方法 - Google Patents
一种基于曲线拟合的时序数据处理方法 Download PDFInfo
- Publication number
- CN106844290A CN106844290A CN201510874982.1A CN201510874982A CN106844290A CN 106844290 A CN106844290 A CN 106844290A CN 201510874982 A CN201510874982 A CN 201510874982A CN 106844290 A CN106844290 A CN 106844290A
- Authority
- CN
- China
- Prior art keywords
- data
- fitting
- timestamp
- shortage
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于曲线拟合的时序数据处理方法,步骤是:服务端保存每个测点最新数据的时间戳,每收到一条数据,将其时间戳与最新时间戳比对,确定是否存在数据缺失,若缺失则确定数据缺失时间段,选取数据缺失时间段的前一段和后一段的数据作为曲线拟合的样本;根据样本计算拟合曲线对应的二次函数的参数,确定数值和时间戳的函数关系;计算待拟合数据的存储周期,确定每个待拟合数据的时间戳,再根据二次函数计算每个待拟合数据的值;存储拟合计算得到的各参数。此种数据处理方法具有计算效率高、拟合误差小的特点,并且拟合计算过程在后台进行,不会对查询应用产生影响。
Description
技术领域
本发明属于时序数据处理领域,特别涉及一种基于曲线拟合的时序数据处理方法。
背景技术
时序数据处理技术被广泛应用于广域测量系统(WAMS)、变电站监控、调度、直流、稳控等多个系统中,满足其存储海量、高频数据的需求。该技术主要用于存储秒级、毫秒级高频数据,此类型数据一般具有周期性特点,每个存储周期会产生一批数据需要存储,因此数据量极大,对数据处理的速度要求很高,并且时序数据查询要求较高的实时性、完整性、正确性,这对时序数据处理技术的可靠性、健壮性提出了更高的要求。
对于时序数据的存储,往往会由于应用、网络、服务器等的故障导致部分数据缺失,缺失数据补齐是一项费时费力的工作,目前常见的几种缺失数据补齐方法都存在一定的缺陷,传统的缺失数据补齐方法及其缺陷如下:
(1)客户端本地缓存
该方法在网络或者服务端故障时,将数据暂时缓存在客户端本地磁盘,待网络或服务端恢复后再将数据补发到服务端。该方法存在的缺陷:1)客户端本地磁盘空间有限,只能缓存部分数据;2)当客户端故障时,无法缓存故障期间的数据;3)补齐数据的过程耗时较长,缺失的数据实际已经影响到了时序数据查询的完整性。
(2)人工补齐缺失数据
当发现某段时间的数据缺失后,手工根据之前的数据进行模拟补齐。该方法存在的缺陷:1)需要人为干预,耗时耗力,且手工补齐的数据精度误差较大;2)当发现数据缺失时,实际已经造成了不良影响。
(3)查询时使用插值算法补齐
查询时使用特定的插值算法,计算出缺失的数据值返回。该方法存在的缺陷:1)当缺失数据较多时,插值会影响查询性能;2)每次查询都要计算插值点,浪费计算资源。
发明内容
本发明的目的,在于提供一种基于曲线拟合的时序数据处理方法,其具有计算效率高、拟合误差小的特点,并且拟合计算过程在后台进行,不会对查询应用产生影响。
为了达成上述目的,本发明的解决方案是:
一种基于曲线拟合的时序数据处理方法,包括如下步骤:
(1)服务端保存每个测点最新数据的时间戳,每收到一条数据,将其时间戳与最新时间戳比对,确定是否存在数据缺失,若缺失则确定数据缺失时间段,转步骤(2),并在收到一条新数据后,更新该测点的最新时间戳;
(2)选取数据缺失时间段的前一段和后一段的数据作为曲线拟合的样本;
(3)根据样本计算拟合曲线对应的二次函数的参数,确定数值v和时间戳t的函数关系;
(4)计算待拟合数据的存储周期,确定每个待拟合数据的时间戳,再根据二次函数计算待拟合数据的值;
(5)存储拟合计算得到的各参数。
上述步骤(1)中,判断数据缺失的方法是:预设拟合阈值为λ,服务端收到一条数据后,将当前接收到的时间戳t1与最新时间戳t0比对,判断二者的差Δt是否大于λ,是则确定时间段[t0,t1]为数据缺失时间段,启动拟合计算。
上述步骤(2)的详细内容是:设数据缺失时间段为[t0,t1],选取tbefore和tafter,使得t0-tbefore=tafter-t1=2(t1-t0),将时间段[tbefore,t0]和[t1,tafter]内的数据作为拟合计算的样本。
上述时间段[tbefore,t0]包含的样本个数m1等于时间段[t1,tafter]包含的样本个数m2。
上述步骤(3)的详细内容是:设数值v和时间戳t之间符合如下函数关系:
v=f(t)=a0+a1t+a2t2
转化为求解二次函数的参数a0、a1、a2;求解过程是:
a)根据最小误差平方原则,求解目标转化为求函数的极小值;
b)分别对参数a0、a1、a2求偏导数,并令其为0,得到:
其中,k=1,2,…,n;根据步骤(2)选取的n个样本点(t1,v1)、(t2,v2)、…、(tn,vn),求解方程组,得到参数a0、a1、a2的值。
上述步骤(4)的详细内容是:设步骤(2)中数据缺失时间段的前一段时间段为[tbefore,t0],包含的样本个数为m1,后一段时间段为[t1,tafter],包含的样本个数为m2,依据下式计算待拟合数据的存储周期p,从而确定每个待拟合数据的时间戳:
从而得到待拟合数据的个数;
依据下式计算各个样本点(t1,v1)、(t2,v2)、…、(tn,vn)对应的待拟合数据:
其中,i=1,2,…,m。
上述步骤(5)中,存储的参数包括最新时间戳、待拟合数据的存储周期、待拟合数据的个数,以及二次函数中的系数和常数项。
采用上述方案后,本发明具有以下特点:
(1)自动发现数据缺失时间段并进行拟合计算,无需人为干预,并且拟合得到的数据误差比人工插值误差小;
(2)拟合计算过程在服务端后台进行,对应用完全透明,不影响查询性能;
(3)根据样本计算出拟合参数后,只需要存储参数,即可在查询时还原出缺失时间段的数据,极大节省了存储空间;
(4)客户端无需考虑由于不可控因素(网络、节点故障)导致的数据丢失的情况,完全由服务端进行拟合处理。
附图说明
图1是本发明拟合计算启动条件示意图;
图2是本发明样本选取示意图;
图3是本发明根据样本进行拟合计算的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图3所示,本发明提供一种基于曲线拟合的时序数据处理方法,包括如下步骤:
(1)如图1所示,首先预设拟合阈值为λ;服务端保存每个测点接收最新数据的时间戳,在接收客户端时序数据时,每收到一条数据,将当前接收到的时间戳t1与最新时间戳t0比对,判断二者的差Δt是否大于预设的拟合阈值λ,是则确定时间段[t0,t1]为数据缺失时间段,启动拟合计算;无论Δt是否大于λ,服务端都会将最新时间戳由t0更新为t1;
(2)选取数据缺失时间段的前一段和后一段的数据作为曲线拟合的样本,具体是由t0向前确定tbefore,由t1向后确定tafter,使得t0-tbefore=tafter-t1=2(t1-t0),将时间段[tbefore,t0]和[t1,tafter]内的数据作为拟合计算的样本,并在通常情况下使[tbefore,t0]包含的样本个数m1等于[t1,tafter]包含的样本个数m2;
(3)从减少欠拟合和过拟合的角度考虑,假设数值v和时间戳t之间符合如下函数关系:
v=f(t)=a0+a1t+a2t2
根据步骤(2)选取的样本计算前述二次函数的参数a0、a1、a2,从而使得所选取的样本点尽可能地靠近前述二次函数表示的拟合曲线;如果某个样本点不在该曲线上,则它的坐标不满足曲线方程,有一个误差,所有样本的误差平方和表示为下式:
根据最小误差平方原则,使所有样本点到二次函数f(t)的距离之和最小,求解目标转化为求函数F的极小值,分别对参数a0、a1、a2求偏导数,并令其为0,得到:
根据步骤(2)选取的n个样本点(t1,v1)、(t2,v2)、…、(tn,vn)将上式转化为解线性方程组:
其中,k=1,2,…,n,从而求得参数a0、a1、a2的值,确定数值v和时间戳t之间的函数关系。
(4)根据时间段[tbefore,t0]和[t1,tafter]内的样本个数m1、m2,依据下式计算待拟合数据的存储周期p,从而确定每个待拟合数据的时间戳:
从而得到待拟合数据的个数;
依据下式计算各个样本点(t1,v1)、(t2,v2)、…、(tn,vn)对应的待拟合数据的值:
其中,i=1,2,…,m。
(5)拟合计算完成后,只需永久存储拟合计算得到的各参数<t0,p,m,a0,a1,a2>,而不是存储拟合得到的各组数据,这样当某个查询请求的时间段落入[t0,t1]的区间时,即可根据存储周期p重新还原时间段[t0,t1]的数据,具有极高的压缩比,比现有的压缩算法更具优势。
综合上述,本发明一种基于曲线拟合的时序数据处理方法,首先根据时间戳跳变范围和拟合阈值确定数据缺失时间段,然后选取该段时间附近的数据做样本,采用二次曲线拟合确定数值v和时间戳t之间的函数关系,再根据样本存储周期,并结合拟合函数计算缺失的具体数据,最后将拟合参数进行存储,当需要查询数据缺失时间段内的数据时,系统即可根据存储的参数计算出这段时间的数据,并作为结果返回。本发明适用于时序库服务端的数据处理,整个过程完全自动化,并且在后台计算,由于一旦确定数据缺失时间段就会立即启动选取样本点、计算拟合参数、确定待拟合数据、存储等一系列操作,不会对数据查询造成影响,解决了由于不可控的数据丢失导致客户端曲线显示异常、查询数据不完整的问题。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于曲线拟合的时序数据处理方法,其特征在于包括如下步骤:
(1)服务端保存每个测点最新数据的时间戳,每收到一条数据,将其时间戳与最新时间戳比对,确定是否存在数据缺失,若缺失则确定数据缺失时间段,转步骤(2),并在收到一条新数据后,更新该测点的最新时间戳;
(2)选取数据缺失时间段的前一段和后一段的数据作为曲线拟合的样本;
(3)根据样本计算拟合曲线对应的二次函数的参数,确定数值v和时间戳t的函数关系;
(4)计算待拟合数据的存储周期,确定每个待拟合数据的时间戳,再根据二次函数计算待拟合数据的值;
(5)存储拟合计算得到的各参数。
2.如权利要求1所述的一种基于曲线拟合的时序数据处理方法,其特征在于所述步骤(1)中,判断数据缺失的方法是:预设拟合阈值为λ,服务端收到一条数据后,将当前接收到的时间戳t1与最新时间戳t0比对,判断二者的差Δt是否大于λ,是则确定时间段[t0,t1]为数据缺失时间段,启动拟合计算。
3.如权利要求1所述的一种基于曲线拟合的时序数据处理方法,其特征在于所述步骤(2)的详细内容是:设数据缺失时间段为[t0,t1],选取tbefore和tafter,使得t0-tbefore=tafter-t1=2(t1-t0),将时间段[tbefore,t0]和[t1,tafter]内的数据作为拟合计算的样本。
4.如权利要求3所述的一种基于曲线拟合的时序数据处理方法,其特征在于:所述时间段[tbefore,t0]包含的样本个数m1等于时间段[t1,tafter]包含的样本个数m2。
5.如权利要求1所述的一种基于曲线拟合的时序数据处理方法,其特征在于所述步骤(3)的详细内容是:设数值v和时间戳t之间符合如下函数关系:
v=f(t)=a0+a1t+a2t2
转化为求解二次函数的参数a0、a1、a2;求解过程是:
a)根据最小误差平方原则,求解目标转化为求函数 的极小值;
b)分别对参数a0、a1、a2求偏导数,并令其为0,得到:
其中,k=1,2,…,n;根据步骤(2)选取的n个样本点(t1,v1)、(t2,v2)、…、(tn,vn),求解方程组,得到参数a0、a1、a2的值。
6.如权利要求1所述的一种基于曲线拟合的时序数据处理方法,其特征在于所述步骤(4)的详细内容是:设步骤(2)中数据缺失时间段的前一段时间段为[tbefore,t0],包含的样本个数为m1,后一段时间段为[t1,tafter],包含的样本个数为m2,依据下式计算待拟合数据的存储周期p,从而确定每个待拟合数据的时间戳:
从而得到待拟合数据的个数;
依据下式计算各个样本点(t1,v1)、(t2,v2)、…、(tn,vn)对应的待拟合数据:
其中,i=1,2,…,m。
7.如权利要求1所述的一种基于曲线拟合的时序数据处理方法,其特征在于:所述步骤(5)中,存储的参数包括最新时间戳、待拟合数据的存储周期、待拟合数据的个数,以及二次函数中的系数和常数项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510874982.1A CN106844290B (zh) | 2015-12-03 | 2015-12-03 | 一种基于曲线拟合的时序数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510874982.1A CN106844290B (zh) | 2015-12-03 | 2015-12-03 | 一种基于曲线拟合的时序数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844290A true CN106844290A (zh) | 2017-06-13 |
CN106844290B CN106844290B (zh) | 2019-05-21 |
Family
ID=59148770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510874982.1A Active CN106844290B (zh) | 2015-12-03 | 2015-12-03 | 一种基于曲线拟合的时序数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844290B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921229A (zh) * | 2018-07-17 | 2018-11-30 | 成都西加云杉科技有限公司 | 数据恢复方法及装置 |
CN111314158A (zh) * | 2018-12-11 | 2020-06-19 | 杭州海康威视数字技术股份有限公司 | 大数据平台监控方法、装置及设备、介质 |
CN112199362A (zh) * | 2020-10-14 | 2021-01-08 | 北京理工大学 | 一种mes背景下的数据库数据缺失的填补方法及系统 |
CN113239030A (zh) * | 2021-05-20 | 2021-08-10 | 国网山东省电力公司潍坊供电公司 | 基于离散数据曲线拟合的智慧电网监控数据存储方法 |
CN113377508A (zh) * | 2021-05-28 | 2021-09-10 | 张燕 | 一种海量数据快速传输方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101014001A (zh) * | 2006-11-13 | 2007-08-08 | 陈哲 | Rtp报文修补装置、rtp报文排序方法和填补方法 |
CN101076122A (zh) * | 2006-05-17 | 2007-11-21 | 索尼株式会社 | 通信装置和方法、通信发送接收装置和方法 |
CN101162470A (zh) * | 2007-11-16 | 2008-04-16 | 北京交通大学 | 一种基于分层匹配的视频广告识别方法 |
CN101281556A (zh) * | 2008-03-19 | 2008-10-08 | 谢步明 | 列车故障数据的分析处理方法 |
CN102025531A (zh) * | 2010-08-16 | 2011-04-20 | 北京亿阳信通软件研究院有限公司 | 一种性能数据的填补方法及其装置 |
CN102854439A (zh) * | 2012-09-29 | 2013-01-02 | 南京南瑞继保电气有限公司 | 采用故障信息组群技术协调电网综合故障信息分析的方法 |
CN103678869A (zh) * | 2013-09-17 | 2014-03-26 | 中国人民解放军海军航空工程学院青岛校区 | 一种飞行参数缺失数据的预测估计方法 |
CN105225486A (zh) * | 2015-10-09 | 2016-01-06 | 哈尔滨工业大学深圳研究生院 | 填补缺失浮动车数据的方法及系统 |
-
2015
- 2015-12-03 CN CN201510874982.1A patent/CN106844290B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101076122A (zh) * | 2006-05-17 | 2007-11-21 | 索尼株式会社 | 通信装置和方法、通信发送接收装置和方法 |
CN101014001A (zh) * | 2006-11-13 | 2007-08-08 | 陈哲 | Rtp报文修补装置、rtp报文排序方法和填补方法 |
CN101162470A (zh) * | 2007-11-16 | 2008-04-16 | 北京交通大学 | 一种基于分层匹配的视频广告识别方法 |
CN101281556A (zh) * | 2008-03-19 | 2008-10-08 | 谢步明 | 列车故障数据的分析处理方法 |
CN102025531A (zh) * | 2010-08-16 | 2011-04-20 | 北京亿阳信通软件研究院有限公司 | 一种性能数据的填补方法及其装置 |
CN102854439A (zh) * | 2012-09-29 | 2013-01-02 | 南京南瑞继保电气有限公司 | 采用故障信息组群技术协调电网综合故障信息分析的方法 |
CN103678869A (zh) * | 2013-09-17 | 2014-03-26 | 中国人民解放军海军航空工程学院青岛校区 | 一种飞行参数缺失数据的预测估计方法 |
CN105225486A (zh) * | 2015-10-09 | 2016-01-06 | 哈尔滨工业大学深圳研究生院 | 填补缺失浮动车数据的方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921229A (zh) * | 2018-07-17 | 2018-11-30 | 成都西加云杉科技有限公司 | 数据恢复方法及装置 |
CN111314158A (zh) * | 2018-12-11 | 2020-06-19 | 杭州海康威视数字技术股份有限公司 | 大数据平台监控方法、装置及设备、介质 |
CN111314158B (zh) * | 2018-12-11 | 2022-05-31 | 杭州海康威视数字技术股份有限公司 | 大数据平台监控方法、装置及设备、介质 |
CN112199362A (zh) * | 2020-10-14 | 2021-01-08 | 北京理工大学 | 一种mes背景下的数据库数据缺失的填补方法及系统 |
CN113239030A (zh) * | 2021-05-20 | 2021-08-10 | 国网山东省电力公司潍坊供电公司 | 基于离散数据曲线拟合的智慧电网监控数据存储方法 |
CN113239030B (zh) * | 2021-05-20 | 2023-08-29 | 国网山东省电力公司潍坊供电公司 | 基于离散数据曲线拟合的智慧电网监控数据存储方法 |
CN113377508A (zh) * | 2021-05-28 | 2021-09-10 | 张燕 | 一种海量数据快速传输方法 |
CN113377508B (zh) * | 2021-05-28 | 2023-08-22 | 张燕 | 一种海量数据快速传输方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106844290B (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844290A (zh) | 一种基于曲线拟合的时序数据处理方法 | |
CN113780668B (zh) | 一种基于历史数据的城市积水内涝预测方法及系统 | |
CN102521080B (zh) | 一种电力用户用电信息采集系统的计算机数据修复方法 | |
CN105184394A (zh) | 基于配电网cps在线数据挖掘的优化控制方法 | |
CN102117450A (zh) | 基于经验反馈的核电设备预防性更换周期的优化方法 | |
CN108509723B (zh) | 基于人工神经网络的LRU Cache预取机制性能收益评估方法 | |
CN112330197B (zh) | 一种气象水文数据质量控制与评价方法 | |
CN103761420A (zh) | 一种火电设备性能逐步回归评测方法 | |
CN111915079B (zh) | 一种混合knn风电功率预测方法及系统 | |
CN110212592A (zh) | 基于分段线性表达的火电机组负荷调节最大速率估计方法及系统 | |
CN115081597A (zh) | 一种基于机器学习的以电核碳方法、系统、设备和介质 | |
CN116432542A (zh) | 一种基于误差序列修正的开关柜母排温升预警方法及系统 | |
CN116739147A (zh) | 基于bim的智能能耗管理与动态碳排放计算联合方法及系统 | |
CN107968400B (zh) | 一种基于枚举组合和线性规划的月度运行方式变压器变比优化方法 | |
CN107332239B (zh) | 一种基于配电网等值的输配电网协调规划方法 | |
CN111597663B (zh) | 融合剩余寿命经验数据的动量轮剩余寿命预测方法 | |
CN116776539B (zh) | 一种基于交叉小波分析的咸潮预报方法和系统 | |
CN108181809A (zh) | Miso紧格式无模型控制器基于系统误差的参数自整定方法 | |
CN105681425B (zh) | 基于分布式存储系统的多节点修复方法及其系统 | |
CN110336332B (zh) | 一种基于出力曲线聚合的区间潮流典型场景构造方法 | |
CN112967154B (zh) | 一种电力系统Well-being的评估方法及装置 | |
CN115653703A (zh) | 一种汽轮机效率优化系统及其优化方法 | |
CN115630561A (zh) | 一种神经网络热负荷预测模型自动优化方法及装置 | |
CN113673759A (zh) | 一种水文资料实时整编方法及终端 | |
CN109494747B (zh) | 一种基于交替梯度算法的电网概率潮流计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |