CN112699165B - 一种用于时序数据降采样的方法和系统 - Google Patents

一种用于时序数据降采样的方法和系统 Download PDF

Info

Publication number
CN112699165B
CN112699165B CN202011579516.8A CN202011579516A CN112699165B CN 112699165 B CN112699165 B CN 112699165B CN 202011579516 A CN202011579516 A CN 202011579516A CN 112699165 B CN112699165 B CN 112699165B
Authority
CN
China
Prior art keywords
data
data point
sampling
point
timegap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011579516.8A
Other languages
English (en)
Other versions
CN112699165A (zh
Inventor
王立峰
自明
任成宾
郭英端
赵金栋
潘爱兵
于庆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Luruan Digital Technology Co Ltd
Original Assignee
Shandong Luneng Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Luneng Software Technology Co Ltd filed Critical Shandong Luneng Software Technology Co Ltd
Priority to CN202011579516.8A priority Critical patent/CN112699165B/zh
Publication of CN112699165A publication Critical patent/CN112699165A/zh
Application granted granted Critical
Publication of CN112699165B publication Critical patent/CN112699165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用于时序数据降采样的方法和系统,所述的方法包括:S1:定义TimeGap辅助算法,S2:定义Mixed辅助算法,S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。

Description

一种用于时序数据降采样的方法和系统
技术领域
本发明属于计算机软件技术领域,具体涉及一种用于时序数据降采样的方法和系统。
背景技术
时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列,例如设备监测传感器产生的数据、IT系统监控数据等。时序数据的可视化最常用的手段就是折线图,而时序数据往往数据量较大,采用折线图展示其趋势的时候,数据过多会严重降低绘图程序的性能,另外受到用户显示设备像素多少的约束,过多的数据可能会呈现为一片密集的色块,无法分辨细节,实际上没有意义。所以需要对时序数据进行降采样,从大量数据中提取出最具有特征的样本,用来绘制折线图。
目前最广泛应用的时序数据降采样方法是由冰岛大学的Sveinn在2013年提出的LTTB(Largest-Triangle-Three-Buckets)、LTD(Largest-Triangle-Dynamic)等方法。在传统实时数据库领域,OSIsoft的PI System应用广泛,PI系统的趋势函数所采用的降采样方法是一种特殊的方法。
在实际使用过程中,我们发现现有的时序数据降采样方法存在以下问题:
基于最大三角形的LTTB、LTD方法能较好的反应数据的特征,但是在特殊情况下准确性不够,导致趋势图出现“斜坡效应”;
“斜坡效应”指在时序数据在出现比正常时间间隔相比明显增大的时间间隔时,经过降采样方法降采样后丢失关键数据,导致本来的“尖峰”、“悬崖”形状的图形变成一个“斜坡”。LTTB:是英文Largest-Triangle-Three-Buckets的缩写,是Sveinn于2013年在其论文中描述的时序数据降采样方法。其特点在于使用相邻点构成的三角形面积作为权重筛选出特征点。
LTD:是英文Largest-Triangle-Dynamic的缩写,是Sveinn于2013年在其论文中描述的时序数据降采样方法。其特点在于通过动态调整桶的大小,优化了LTTB在数据不均匀分布的情况下的表现,能更好的反应密集波动数据的细节。
PI系统:OSIsoft公司的实时数据库产品,广泛应用于生产行业的实时数据存储和展示。
PI趋势图的降采样方法不会产生“斜坡效应”,但是在反应趋势特征上不如最大三角形算法,并且采样数量远大于给定的阈值(约为给定阈值的3-4倍),可能引发绘图程序的性能问题。此为现有技术的不足之处。
有鉴于此,本发明提供一种用于时序数据降采样的方法和系统,以解决现有技术中存在的上述缺陷,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种用于时序数据降采样的方法和系统,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种用于时序数据降采样的方法,包括以下步骤:
S1:定义TimeGap辅助算法,该算法步骤如下:
S11:对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个数据点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
S12:按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
S2:定义Mixed辅助算法,该算法步骤如下:
S21:Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
S22:将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
作为优选,所述步骤S13包括:
依次选取数据点及其右侧的数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点,直到已选取数量大于规定的阈值;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。
作为优选,所述步骤S3中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
作为优选,所述步骤S12中,阈值取值为降采样总阈值的十分之一;采样效率更高。
本发明还提供一种用于时序数据降采样的系统,包括:
TimeGap辅助算法定义模块,该模块包括:
对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为下一个数据点的时间;
按照权重由大到小的顺序,选取出数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
Mixed辅助算法定义模块,该模块中:
Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
获取采样结果模块,该模块中:
对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
作为优选,所述TimeGap辅助算法定义模块中,
依次选取数据点及其右侧的数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的数据点,直到选取数量大于规定的阈值;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。
作为优选,所述获取采样结果模块中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
本申请中,数据点:时序数据中的一条数据,至少包含一个时间戳和一个数据值。阈值:原始数据经过降采样方法处理后,期望得到的结果数据量。
本发明的有益效果在于,克服了LTTB、LTD等常用方法,在特殊情况下出现“斜坡效应”的问题,提升了趋势图的正确性。克服了PI系统降采样方法在数据特征提取上的不足,以及返回数据过大的问题,提升了趋势图的表现力和绘制性能此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是本发明提供的一种用于时序数据降采样的方法的流程图。
图2是本发明提供的一种用于时序数据降采样的系统的流程图。
其中,1-TimeGap辅助算法定义模块,2-Mixed辅助算法定义模块,3-获取采样结果模块。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例1:
如图1所示,本实施例提供的一种用于时序数据降采样的方法,包括以下步骤:
S1:定义TimeGap辅助算法,该算法步骤如下:
S11:对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为下一个数据点的时间;
S13:按照权重由大到小的顺序,选取数据点及其右侧的数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的数据点,直到已选数据点的数量大于或等于规定的阈值;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。阈值为降采样总阈值的十分之一;采样效率更高。
S2:定义Mixed辅助算法,该算法步骤如下:
S21:Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
S22:将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
实施例2:
如图2所示,本实施例提供的一种用于时序数据降采样的系统,包括:
TimeGap辅助算法定义模块1,该模块包括:
对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点;该种选取方法不仅能够提高选取数据点的效率,而且避免了重要特征数据点的遗漏。
Mixed辅助算法定义模块2,该模块中:
Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
获取采样结果模块3,该模块中:
对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (2)

1.一种用于时序数据降采样的方法,其特征在于,包括以下步骤:
S1:定义TimeGap辅助算法,该算法步骤如下:
S11:对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
S12:按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
S2:定义Mixed辅助算法,该算法步骤如下:
S21:Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
S22:将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
S3:对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据;所述步骤S12包括:
依次选取数据点及其右侧的数据点作为已选数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点,直到已选数据点的数量大于或等于规定的阈值;所述步骤S3中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样;所述步骤S12中,阈值为降采样总阈值的十分之一。
2.一种用于时序数据降采样的系统,其特征在于,包括:
TimeGap辅助算法定义模块,该模块包括:
对待降采样的数据中除最后一个数据点以外的每个数据点,计算△t=t1-t0,作为本数据点的权重,最后一个点的权重设为0,其中t0为当前数据点的时间,t1为其右侧数据点的时间;
按照权重由大到小的顺序,选取数据点及其右侧数据点作为已选数据点,直至已选数据点的数量大于或等于规定的阈值;
Mixed辅助算法定义模块,该模块中:
Mixed包含多个降采样方法,将待降采样的数据和相应的阈值交给每个降采样方法进行处理;
将各个方法处理的结果合并为一个数据集,对此数据集进行排序和去重;
获取采样结果模块,该模块中:
对于给定的待降采样数据data、阈值t,使用Mixed(LTTB(data,t),TimeGap(data,t/10))进行计算,得到所需要的降采样结果数据;所述TimeGap辅助算法定义模块中,
依次选取数据点及其右侧的数据点作为已选数据点,其中数据点右侧的数据点指的是时间晚于当前数据点的第一个数据点,直到已选数据点的数量大于或等于规定的阈值;所述获取采样结果模块中,使用LTTB方法对data进行阈值为t的降采样,使用TimeGap方法对data进行阈值为t/10的降采样。
CN202011579516.8A 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统 Active CN112699165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579516.8A CN112699165B (zh) 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579516.8A CN112699165B (zh) 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统

Publications (2)

Publication Number Publication Date
CN112699165A CN112699165A (zh) 2021-04-23
CN112699165B true CN112699165B (zh) 2022-11-04

Family

ID=75512612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579516.8A Active CN112699165B (zh) 2020-12-28 2020-12-28 一种用于时序数据降采样的方法和系统

Country Status (1)

Country Link
CN (1) CN112699165B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342817A (zh) * 2021-06-23 2021-09-03 蘑菇物联技术(深圳)有限公司 数据降采样方法、装置、系统与计算机可读存储介质
CN115114270B (zh) * 2022-06-14 2024-08-02 马上消费金融股份有限公司 数据降采样方法及装置、电子设备、计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930782A (zh) * 2020-08-11 2020-11-13 南京国电南自轨道交通工程有限公司 两种基于阈值的历史数据采样方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892486B2 (en) * 2015-10-19 2018-02-13 International Business Machines Corporation Data processing
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN108540132B (zh) * 2018-04-12 2021-08-27 中国电子科技集团公司第三十八研究所 一种降采样率可调的自适应数字后台校准电路及方法
CN109241130A (zh) * 2018-07-27 2019-01-18 山东大学 一种基于权重的时间序列数据降维与多分辨率表示方法
CN109389667B (zh) * 2018-08-23 2023-07-18 北京大学 一种基于深度学习的高效全局光照明绘制方法
CN111242043B (zh) * 2020-01-15 2023-05-09 安徽中科龙安科技股份有限公司 一种时间序列大数据的稀疏化方法及系统
CN111597225B (zh) * 2020-04-21 2023-10-27 杭州安脉盛智能技术有限公司 一种基于分段瞬态识别的自适应数据缩减方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930782A (zh) * 2020-08-11 2020-11-13 南京国电南自轨道交通工程有限公司 两种基于阈值的历史数据采样方法

Also Published As

Publication number Publication date
CN112699165A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112699165B (zh) 一种用于时序数据降采样的方法和系统
CN109766950B (zh) 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法
CN104137119B (zh) 图像处理装置及图像处理方法
KR20010055492A (ko) 영상 히스토그램을 이용한 영상 검색 시스템과 그 방법
WO2022151829A1 (zh) 一种基于动态网格划分的时序数据趋势特征提取方法
CN108537728A (zh) 基于光谱保真度的高光谱图像超分辨率形成方法和系统
CN111458746A (zh) 一种基于U-Net神经网络的隧道微震波形到时拾取方法
CN113670616B (zh) 一种轴承性能退化状态检测方法及系统
JP2003132088A (ja) 時系列データ検索システム
CN115827577A (zh) 智能电表高频数据压缩与重构的云端协同自适应分治方法
CN101826070A (zh) 一种基于关键点的数据序列线性拟合方法
KR20010039811A (ko) 디지털 영상 텍스쳐 분석 방법
CN106324708B (zh) 雨量记录图纸的数字化方法、装置
CN112232249B (zh) 一种基于深度特征的遥感图像变化检测方法及装置
WO2024087561A1 (zh) 数据采集监控软件中负载可控的大数据量摘点绘制方法
CN117351307A (zh) 一种模型训练方法、装置、设备及存储介质
CN107705795A (zh) 基于ksvd算法的多声道音频处理方法
CN117079005A (zh) 一种光缆故障监测方法、系统、装置及可读存储介质
CN111241187A (zh) 一种大数据挖掘系统
CN109598205A (zh) 基于Gabor变换的指纹特征提取与压缩编码的方法
CN114691918A (zh) 基于人工智能的雷达图像检索方法、装置以及电子设备
CN114821359A (zh) 一种基于土壤—环境知识获取多尺度环境因子集方法
CN114997210A (zh) 一种基于深度学习的机器异响识别检测方法
CN110558969B (zh) 基于静态和动态联合符号化的心率时间不可逆分析方法
Goldstein et al. Real-time compression of time series building performance data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Yinhe building, 2008 Xinluo street, high tech Industrial Development Zone, Jinan City, Shandong Province

Patentee after: Shandong luruan Digital Technology Co.,Ltd.

Address before: Yinhe building, 2008 Xinluo street, high tech Industrial Development Zone, Jinan City, Shandong Province

Patentee before: SHANDONG LUNENG SOFTWARE TECHNOLOGY Co.,Ltd.