CN112699165A - 一种用于时序数据降采样的方法和系统 - Google Patents

一种用于时序数据降采样的方法和系统 Download PDF

Info

Publication number
CN112699165A
CN112699165A CN202011579516.8A CN202011579516A CN112699165A CN 112699165 A CN112699165 A CN 112699165A CN 202011579516 A CN202011579516 A CN 202011579516A CN 112699165 A CN112699165 A CN 112699165A
Authority
CN
China
Prior art keywords
data
data point
point
sampling
sampled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011579516.8A
Other languages
English (en)
Other versions
CN112699165B (zh
Inventor
王立峰
自明
任成宾
郭英端
赵金栋
潘爱兵
于庆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Luruan Digital Technology Co Ltd
Original Assignee
Shandong Luneng Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Luneng Software Technology Co Ltd filed Critical Shandong Luneng Software Technology Co Ltd
Priority to CN202011579516.8A priority Critical patent/CN112699165B/zh
Publication of CN112699165A publication Critical patent/CN112699165A/zh
Application granted granted Critical
Publication of CN112699165B publication Critical patent/CN112699165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用于时序数据降采样的方法和系统,所述的方法包括:S1:定义TimeGap辅助算法,S2:定义Mixed辅助算法,S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。

Description

一种用于时序数据降采样的方法和系统
技术领域
本发明属于计算机软件技术领域,具体涉及一种用于时序数据降采样的方法和系统。
背景技术
时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列,例如设备监测传感器产生的数据、IT系统监控数据等。时序数据的可视化最常用的手段就是折线图,而时序数据往往数据量较大,采用折线图展示其趋势的时候,数据过多会严重降低绘图程序的性能,另外受到用户显示设备像素多少的约束,过多的数据可能会呈现为一片密集的色块,无法分辨细节,实际上没有意义。所以需要对时序数据进行降采样,从大量数据中提取出最具有特征的样本,用来绘制折线图。
目前最广泛应用的时序数据降采样方法是由冰岛大学的Sveinn在2013年提出的LTTB(Largest-Triangle-Three-Buckets)、LTD(Largest-Triangle-Dynamic)等方法。在传统实时数据库领域,OSIsoft的PI System应用广泛,PI系统的趋势函数所采用的降采样方法是一种特殊的方法。
在实际使用过程中,我们发现现有的时序数据降采样方法存在以下问题:
基于最大三角形的LTTB、LTD方法能较好的反应数据的特征,但是在特殊情况下准确性不够,导致趋势图出现“斜坡效应”;
“斜坡效应”指在时序数据在出现比正常时间间隔相比明显增大的时间间隔时,经过降采样方法降采样后丢失关键数据,导致本来的“尖峰”、“悬崖”形状的图形变成一个“斜坡”。LTTB:是英文Largest-Triangle-Three-Buckets的缩写,是Sveinn于2013年在其论文中描述的时序数据降采样方法。其特点在于使用相邻点构成的三角形面积作为权重筛选出特征点。
LTD:是英文Largest-Triangle-Dynamic的缩写,是Sveinn于2013年在其论文中描述的时序数据降采样方法。其特点在于通过动态调整桶的大小,优化了LTTB在数据不均匀分布的情况下的表现,能更好的反应密集波动数据的细节。
PI系统:OSIsoft公司的实时数据库产品,广泛应用于生产行业的实时数据存储和展示。
PI趋势图的降采样方法不会产生“斜坡效应”,但是在反应趋势特征上不如最大三角形算法,并且采样数量远大于给定的阈值(约为给定阈值的3-4倍),可能引发绘图程序的性能问题。此为现有技术的不足之处。
有鉴于此,本发明提供一种用于时序数据降采样的方法和系统,以解决现有技术中存在的上述缺陷,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种用于时序数据降采样的方法和系统,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种用于时序数据降采样的方法,包括以下步骤:
S1:定义TimeGap辅助算法,该算法步骤如下:
S11:对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个数据点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
S12:按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
S2:定义Mixed辅助算法,该算法步骤如下:
S21:Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
S22:将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
作为优选,所述步骤S13包括:
依次选取数据点及其右侧的数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点,直到已选取数量大于规定的阈值;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。
作为优选,所述步骤S3中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
作为优选,所述步骤S12中,阈值取值为降采样总阈值的十分之一;采样效率更高。
本发明还提供一种用于时序数据降采样的系统,包括:
TimeGap辅助算法定义模块,该模块包括:
对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为下一个数据点的时间;
按照权重由大到小的顺序,选取出数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
Mixed辅助算法定义模块,该模块中:
Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
获取采样结果模块,该模块中:
对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
作为优选,所述TimeGap辅助算法定义模块中,
依次选取数据点及其右侧的数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的数据点,直到选取数量大于规定的阈值;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。
作为优选,所述获取采样结果模块中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
本申请中,数据点:时序数据中的一条数据,至少包含一个时间戳和一个数据值。阈值:原始数据经过降采样方法处理后,期望得到的结果数据量。
本发明的有益效果在于,克服了LTTB、LTD等常用方法,在特殊情况下出现“斜坡效应”的问题,提升了趋势图的正确性。克服了PI系统降采样方法在数据特征提取上的不足,以及返回数据过大的问题,提升了趋势图的表现力和绘制性能此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是本发明提供的一种用于时序数据降采样的方法的流程图。
图2是本发明提供的一种用于时序数据降采样的系统的流程图。
其中,1-TimeGap辅助算法定义模块,2-Mixed辅助算法定义模块,3-获取采样结果模块。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例1:
如图1所示,本实施例提供的一种用于时序数据降采样的方法,包括以下步骤:
S1:定义TimeGap辅助算法,该算法步骤如下:
S11:对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为下一个数据点的时间;
S13:按照权重由大到小的顺序,选取数据点及其右侧的数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的数据点,直到已选数据点的数量大于或等于规定的阈值;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。阈值为降采样总阈值的十分之一;采样效率更高。
S2:定义Mixed辅助算法,该算法步骤如下:
S21:Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
S22:将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
实施例2:
如图2所示,本实施例提供的一种用于时序数据降采样的系统,包括:
TimeGap辅助算法定义模块1,该模块包括:
对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。
Mixed辅助算法定义模块2,该模块中:
Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
获取采样结果模块3,该模块中:
对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (7)

1.一种用于时序数据降采样的方法,其特征在于,包括以下步骤:
S1:定义TimeGap辅助算法,该算法步骤如下:
S11:对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
S12:按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
S2:定义Mixed辅助算法,该算法步骤如下:
S21:Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
S22:将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
2.根据权利要求1所述的一种用于时序数据降采样的方法,其特征在于,所述步骤S13包括:
依次选取数据点及其右侧的数据点作为已选数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点,直到已选数据点的数量大于或等于规定的阈值。
3.根据权利要求2所述的一种用于时序数据降采样的方法,其特征在于,所述步骤S3中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
4.根据权利要求3所述的一种用于时序数据降采样的方法,其特征在于,所述步骤S13中,阈值为降采样总阈值的十分之一。
5.一种用于时序数据降采样的系统,其特征在于,包括:
TimeGap辅助算法定义模块,该模块包括:
对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
Mixed辅助算法定义模块,该模块中:
Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
获取采样结果模块,该模块中:
对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
6.根据权利要求5所述的一种用于时序数据降采样的系统,其特征在于,所述TimeGap辅助算法定义模块中,
依次选取数据点及其右侧的数据点作为已选数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点,直到已选数据点的数量大于或等于规定的阈值。
7.根据权利要求6所述的一种用于时序数据降采样的系统,其特征在于,所述获取采样结果模块中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
CN202011579516.8A 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统 Active CN112699165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579516.8A CN112699165B (zh) 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579516.8A CN112699165B (zh) 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统

Publications (2)

Publication Number Publication Date
CN112699165A true CN112699165A (zh) 2021-04-23
CN112699165B CN112699165B (zh) 2022-11-04

Family

ID=75512612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579516.8A Active CN112699165B (zh) 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统

Country Status (1)

Country Link
CN (1) CN112699165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342817A (zh) * 2021-06-23 2021-09-03 蘑菇物联技术(深圳)有限公司 数据降采样方法、装置、系统与计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109862A1 (en) * 2015-10-19 2017-04-20 International Business Machines Corporation Data processing
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN108540132A (zh) * 2018-04-12 2018-09-14 中国电子科技集团公司第三十八研究所 一种降采样率可调的自适应数字后台校准电路及方法
CN109241130A (zh) * 2018-07-27 2019-01-18 山东大学 一种基于权重的时间序列数据降维与多分辨率表示方法
CN109389667A (zh) * 2018-08-23 2019-02-26 北京大学 一种基于深度学习的高效全局光照明绘制方法
CN111242043A (zh) * 2020-01-15 2020-06-05 安徽中科龙安科技股份有限公司 一种时间序列大数据的稀疏化方法及系统
CN111597225A (zh) * 2020-04-21 2020-08-28 杭州安脉盛智能技术有限公司 一种基于分段瞬态识别的自适应数据缩减方法
CN111930782A (zh) * 2020-08-11 2020-11-13 南京国电南自轨道交通工程有限公司 两种基于阈值的历史数据采样方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109862A1 (en) * 2015-10-19 2017-04-20 International Business Machines Corporation Data processing
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN108540132A (zh) * 2018-04-12 2018-09-14 中国电子科技集团公司第三十八研究所 一种降采样率可调的自适应数字后台校准电路及方法
CN109241130A (zh) * 2018-07-27 2019-01-18 山东大学 一种基于权重的时间序列数据降维与多分辨率表示方法
CN109389667A (zh) * 2018-08-23 2019-02-26 北京大学 一种基于深度学习的高效全局光照明绘制方法
CN111242043A (zh) * 2020-01-15 2020-06-05 安徽中科龙安科技股份有限公司 一种时间序列大数据的稀疏化方法及系统
CN111597225A (zh) * 2020-04-21 2020-08-28 杭州安脉盛智能技术有限公司 一种基于分段瞬态识别的自适应数据缩减方法
CN111930782A (zh) * 2020-08-11 2020-11-13 南京国电南自轨道交通工程有限公司 两种基于阈值的历史数据采样方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DISCO: ""Time-series Graphs and Downsampling"", 《HTTPS://BLACKOPS.IO/BLOG/2014/05/13/TIME-SERIES-GRAPHS-AND-DOWNSAMPLING》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342817A (zh) * 2021-06-23 2021-09-03 蘑菇物联技术(深圳)有限公司 数据降采样方法、装置、系统与计算机可读存储介质

Also Published As

Publication number Publication date
CN112699165B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN112101381A (zh) 张量协作图判别分析遥感图像特征提取方法
CN110060286B (zh) 一种单目深度估计方法
EP4280088A1 (en) Time series data trend feature extraction method based on dynamic grid division
CN112699165B (zh) 一种用于时序数据降采样的方法和系统
CN113670616B (zh) 一种轴承性能退化状态检测方法及系统
CN111127316A (zh) 一种基于sngan网络的单幅人脸图像超分辨方法及系统
JP2003132088A (ja) 時系列データ検索システム
CN102495887A (zh) 一种基于关键区域色彩矩阵的视频镜头分割方法及其应用
CN106324708B (zh) 雨量记录图纸的数字化方法、装置
CN101826070A (zh) 一种基于关键点的数据序列线性拟合方法
KR20010039811A (ko) 디지털 영상 텍스쳐 분석 방법
CN114463551A (zh) 图像处理方法、装置、存储介质及电子设备
WO2024087561A1 (zh) 数据采集监控软件中负载可控的大数据量摘点绘制方法
CN117351307A (zh) 一种模型训练方法、装置、设备及存储介质
CN111445446B (zh) 一种基于改进的U-net的混凝土表面裂缝检测方法
CN110264482B (zh) 基于中智集变换矩阵因子分解的活动轮廓分割方法
CN114691918A (zh) 基于人工智能的雷达图像检索方法、装置以及电子设备
CN114609483A (zh) 一种基于Hilbert变换的GIS局部放电信号特征提取方法
CN114611869A (zh) 一种低压台区台户识别方法
CN110210410B (zh) 一种基于图像特征的手写数字识别方法
Goldstein et al. Real-time compression of time series building performance data
CN116403204B (zh) 一种圆形指针表智能读数的方法
CN111985563A (zh) 一种基于谐波发射水平的工业用户电力设备分类方法
CN110910364A (zh) 基于深度神经网络的三切面火场易引发起火电器设备检测方法
CN110755063B (zh) 低延迟的心电图绘制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Yinhe building, 2008 Xinluo street, high tech Industrial Development Zone, Jinan City, Shandong Province

Patentee after: Shandong luruan Digital Technology Co.,Ltd.

Address before: Yinhe building, 2008 Xinluo street, high tech Industrial Development Zone, Jinan City, Shandong Province

Patentee before: SHANDONG LUNENG SOFTWARE TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder