CN106095787A - 时间序列数据的一种符号化表示方法 - Google Patents

时间序列数据的一种符号化表示方法 Download PDF

Info

Publication number
CN106095787A
CN106095787A CN201610367520.5A CN201610367520A CN106095787A CN 106095787 A CN106095787 A CN 106095787A CN 201610367520 A CN201610367520 A CN 201610367520A CN 106095787 A CN106095787 A CN 106095787A
Authority
CN
China
Prior art keywords
time series
trend
series data
average
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610367520.5A
Other languages
English (en)
Inventor
柴毅
张可
毛永芳
黄磊
许水清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201610367520.5A priority Critical patent/CN106095787A/zh
Publication of CN106095787A publication Critical patent/CN106095787A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了时间序列数据的一种符号化表示方法,包括以下步骤:S1:获取时间序列数据;S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;S3:将各子时序数据段三等分且计算各子序列段均值;S4:对各子序列段中相邻段均值作残差,接着定义趋势阈值,当残差的绝对值大于该阈值即判定上升或者下降,小于阈值则判定为平缓。本发明将符号化算法与所获得的趋势特征融合,形成时间序列数据一种具有趋势特征的符号化表示方法。该方法不仅保留了符号化算法的优点,且结合阈值定义趋势,实现了符号化算法的趋势特征描述。

Description

时间序列数据的一种符号化表示方法
技术领域
本发明涉及时间序列数据挖掘领域,特别涉及时间序列数据的一种具有趋势特征的符号化表示方法。
背景技术
随着信息与数据库技术的发展,不同类型的海量数据广泛存在于人们日常事务中。传统的数据査询、统计等分析操作过程正转向基于人工智能的数据分析过程。其中时间序列数据是最常见的高维流数据之一,广泛存在于金融、工业、气象、交通、互联网等领域。时间序列数据中通常包含很多有价值的信息,包括显式的直观信息和隐式的内在信息。如复杂工业过程的流数据变化在一定程度反应设备及其运行状态。如何有效地提取时间序列数据特征,通过降维后分析其中蕴含的信息和知识,对科学研究和实际应用都具有重要的理论意义和现实意义。
传统的时间序列数据符号化方法(Symbolic Aggregate Approximation,SAX)这些符号化算法首先通过分段聚合近似表示方法(Piecewise Aggregate Approximation,PAA)实现分段。降维比例也是由分段数目决定,分段数目越少,降维比例越大,但特征表示越精细,反之亦然。然后根据正态分布将时间序列转换为符号化字符。SAX在时间序列数据降维与特征提取方面虽然简便高效,但是SAX算法均取各子序列段中的均值来符号化。因此不可避免会产生一些局限,即:SAX对子序列段的信息描述不够精准,难以反映子序列段内数据更细微的特征,如极大极小值、统计特征与趋势特征等。这些局限性限制了其在某些领域的应用。如金融时间序列数据分析常有变化趋势的要求,复杂工业过程的流数据的趋势变化也在过程状态检测中占有重要的地位。因此,SAX只能近似的描述时间序列数据的大致特征。
缺点:当前符号化的时间序列数据表示由于只提取自序列段均值,存在难以描述段内数据变化趋势等特征提取问题。
因此亟需时间序列数据的一种具有趋势特征的符号化表示方法。
发明内容
有鉴于此,本发明所要解决的技术问题是提供一种既能保留原符号化表示的优点,又能使其在一定程度上表征数据变化趋势的方法。该方法将子序列数据段内再分段通过均值差与所给阈值的比较得到其段内趋势符号表示。结合原符号化时间序列表示理论,得到时间序列数据的一种具有趋势特征的符号化表示方法。
本发明的目的是这样实现的:
本发明提供的时间序列数据的一种具有趋势特征的符号化表示方法,包括以下步骤:
S1:获取时间序列数据;
S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;
S3:并将各子时序段三等分并计算各子序列段均值;
S4:对各子段内相邻段均值作残差与阈值作差获取趋势,再与符号化算法结合。
进一步,所述步骤S2中的分段聚合近似表示算法,具体步骤如下:
S21:利用数据一致性算法对所获取的时间序列数据进行归一化处理;
S22:对经过归一化处理后得到的时间序列数据进行等长分段,取各段的均值组成一个低维向量以近似表示原时间序列数据。设原时间序列维度为n,处理后所得维度为N。那么低维特征时间序列为并且第i子段均值可由下述公式确定:
进一步,所述步骤S3中的将各子时序段三等分并计算各子序列段均值方法,具体步骤如下:
S31:保留步骤S2所得均值并对其实施原符号化表示算法;
S32:对于各子序列段,再对其进行三等分并分别计算三段均值,获取其三段均值数值。
进一步,所述步骤4对各子段内相邻段均值作残差与阈值差获取趋势,再与符号化算法结合方法,具体步骤如下:
对各子时序数据段内均值依次作差并结合专家知识所定义的趋势阈值确定各子序列段内趋势。若差值的绝对值小于所给阈值即定义为平缓趋势;若差值大于所给阈值,即定义为上升或下降趋势。因此每个子段内部将有两种趋势表示,结合原符号化表示即可将每个子段表示为具有趋势特征的符号化表示。
本发明的优点在于:本发明将分段聚合近似表示方法用于时间序列数据的降维,保证了距离下界准则从而避免了后续相似查询中的漏查行为。本发明应用了经典的符号化表示,使得其能在数据降维的基础上进行距离计算,为后续应用如相似查询、异常检测等提供理论依据。最重要的是本发明通过均值差表征以表征段内时间序列数据的趋势,克服了经典符号化表示算法的缺点,如无法表征段内数据的精确性及其变化趋势。而这大大阻碍了其在某些领域的应用。因此趋势特征的引入解决了上述问题。实现了具有趋势特征的符号化表示方法。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为时间序列数据的一种具有趋势特征的符号化表示方法流程图;
图2为趋势特征的提取及其与符号化算法结合的流程图。
具体实施细则
以下将结合附图,对本发明的优选实施例进行详细的描述;应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
图1为时间序列数据的一种具有趋势特征的符号化表示方法流程图,图2为趋势特征的提取及其与符号化算法结合的流程图,如图所示:时间序列数据的一种符号化表示方法,包括以下步骤:
S1:获取时间序列数据;
S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;
S21:利用数据一致性算法对所获取的时间序列数据进行归一化处理;
S22:对经过归一化处理后得到的时间序列数据进行等长分段,取各段的均值组成一个低维向量以近似表示原时间序列数据。设原时间序列维度为n,处理后所得维度为N。那么低维特征时间序列为并且第i子段均值可由下述公式确定:
S3:并将各子时序段三等分并计算各子序列段均值;
S31:保留步骤S2所得均值并对其实施原符号化表示算法;
S32:对于各子序列段,再对其进行三等分并分别计算三段均值,获取其三段均值数值。
S4:对各子段内相邻段均值作残差与阈值作差获取趋势,再与符号化算法结合。具体步骤如下:
对各子时序数据段内均值依次作差并结合专家知识所定义的趋势阈值确定各子序列段内趋势。若差值的绝对值小于所给阈值即定义为平缓趋势;若差值大于所给阈值,即定义为上升或下降趋势。因此每个子段内部将有两种趋势表示,结合原符号化表示即可将每个子段表示为具有趋势特征的符号化表示。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.时间序列数据的一种符号化表示方法,其特征在于:包括以下步骤:
S1:获取时间序列数据;
S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;
S3:并将各子时序段三等分并计算各子序列段均值;
S4:对各子段内相邻段均值作残差与阈值作差获取趋势,再与符号化算法结合。
2.根据权利要求1所述的时间序列数据的一种符号化表示方法,其特征在于:所述步骤S2中的分段聚合近似表示算法,具体步骤如下:
S21:利用数据一致性算法对所获取的时间序列数据进行归一化处理;
S22:对经过归一化处理后得到的时间序列数据进行等长分段,取各段的均值组成一个低维向量以近似表示原时间序列数据。设原时间序列维度为n,处理后所得维度为N。那么低维特征时间序列为并且第i子段均值可由下述公式确定:
3.根据权利要求1所述的时间序列数据的一种符号化表示方法,其特征在于:所述步骤S3中的将各子时序段三等分并计算各子序列段均值方法,具体步骤如下:
S31:保留步骤S2所得均值并对其实施原符号化表示算法;
S32:对于各子序列段,再对其进行三等分并分别计算三段均值,获取其三段均值数值。
4.根据权利要求3所述的将各子时序段三等分并计算各子序列段均值方法,其特征在于:所述步骤4对各子段内相邻段均值作残差与阈值差获取趋势,再与符号化算法结合方法,具体步骤如下:
对各子时序数据段内均值依次作差并结合专家知识所定义的趋势阈值确定各子序列段内趋势。若差值的绝对值小于所给阈值即定义为平缓趋势;若差值大于所给阈值,即定义为上升或下降趋势。因此每个子段内部将有两种趋势表示,结合原符号化表示即可将每个子段表示为具有趋势特征的符号。
CN201610367520.5A 2016-05-30 2016-05-30 时间序列数据的一种符号化表示方法 Pending CN106095787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610367520.5A CN106095787A (zh) 2016-05-30 2016-05-30 时间序列数据的一种符号化表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610367520.5A CN106095787A (zh) 2016-05-30 2016-05-30 时间序列数据的一种符号化表示方法

Publications (1)

Publication Number Publication Date
CN106095787A true CN106095787A (zh) 2016-11-09

Family

ID=57229323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610367520.5A Pending CN106095787A (zh) 2016-05-30 2016-05-30 时间序列数据的一种符号化表示方法

Country Status (1)

Country Link
CN (1) CN106095787A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169268A (zh) * 2017-04-20 2017-09-15 南京航空航天大学 一种基于趋势分段相似性的机场噪声监测点异常识别方法
CN107665276A (zh) * 2017-09-18 2018-02-06 天津大学 基于符号化模态及转换频次的时间序列复杂性测算方法
CN107918914A (zh) * 2017-11-02 2018-04-17 浙江富帝科技有限公司 一种金融软件中的时间序列数据分段方法
CN108122010A (zh) * 2017-12-25 2018-06-05 江苏易乐网络科技有限公司 基于均衡聚类的运动捕捉数据字符化表达方法
CN108470068A (zh) * 2018-03-29 2018-08-31 重庆大学 一种时序键值型工业过程数据的摘要索引生成方法
CN108595528A (zh) * 2018-03-29 2018-09-28 重庆大学 一种多元时间序列基于傅里叶系数符号化类别集生成方法
CN108615017A (zh) * 2018-04-28 2018-10-02 山东科技大学 滑动窗分段直线表示法的总拟合误差阈值估计方法与系统
CN109697247A (zh) * 2018-12-30 2019-04-30 北京奇艺世纪科技有限公司 一种数据准确性的检测方法及装置
CN110020000A (zh) * 2017-12-22 2019-07-16 北京金风慧能技术有限公司 判定异常风速数据的方法和装置
CN110032585A (zh) * 2019-04-02 2019-07-19 北京科技大学 一种时间序列双层符号化方法及装置
CN111166340A (zh) * 2019-12-31 2020-05-19 石家庄学院 基于自适应加速度信号分割的人体姿势实时识别方法
CN111241150A (zh) * 2019-12-18 2020-06-05 重庆大学 用于监测数据处理的多元时间序列符号化映射方法
CN113075180A (zh) * 2021-03-24 2021-07-06 临海市鸥巡电子科技有限公司 一种荧光数据变化趋势的检测方法及系统
WO2022154203A1 (ko) * 2021-01-15 2022-07-21 스마트마인드 주식회사 고속 검색 및 인공지능 훈련을 위한 대용량 정형 비정형 데이터 처리 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136327A (zh) * 2012-12-28 2013-06-05 中国矿业大学 一种基于局部特征聚类的时间序列符号化方法
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136327A (zh) * 2012-12-28 2013-06-05 中国矿业大学 一种基于局部特征聚类的时间序列符号化方法
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUILING LI等: "《TSX: A Novel Symbolic Representation for Financial Time Series》", 《PRICAI 2012: TRENDS IN ARTIFICIAL INTELLIGENCE》 *
孙文生等: "《统计学》", 30 April 2012 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169268A (zh) * 2017-04-20 2017-09-15 南京航空航天大学 一种基于趋势分段相似性的机场噪声监测点异常识别方法
CN107665276A (zh) * 2017-09-18 2018-02-06 天津大学 基于符号化模态及转换频次的时间序列复杂性测算方法
CN107918914A (zh) * 2017-11-02 2018-04-17 浙江富帝科技有限公司 一种金融软件中的时间序列数据分段方法
CN110020000A (zh) * 2017-12-22 2019-07-16 北京金风慧能技术有限公司 判定异常风速数据的方法和装置
CN110020000B (zh) * 2017-12-22 2021-04-13 北京金风慧能技术有限公司 判定异常风速数据的方法和装置
CN108122010A (zh) * 2017-12-25 2018-06-05 江苏易乐网络科技有限公司 基于均衡聚类的运动捕捉数据字符化表达方法
CN108470068A (zh) * 2018-03-29 2018-08-31 重庆大学 一种时序键值型工业过程数据的摘要索引生成方法
CN108595528A (zh) * 2018-03-29 2018-09-28 重庆大学 一种多元时间序列基于傅里叶系数符号化类别集生成方法
CN108615017A (zh) * 2018-04-28 2018-10-02 山东科技大学 滑动窗分段直线表示法的总拟合误差阈值估计方法与系统
CN109697247A (zh) * 2018-12-30 2019-04-30 北京奇艺世纪科技有限公司 一种数据准确性的检测方法及装置
CN110032585A (zh) * 2019-04-02 2019-07-19 北京科技大学 一种时间序列双层符号化方法及装置
CN111241150A (zh) * 2019-12-18 2020-06-05 重庆大学 用于监测数据处理的多元时间序列符号化映射方法
CN111166340A (zh) * 2019-12-31 2020-05-19 石家庄学院 基于自适应加速度信号分割的人体姿势实时识别方法
WO2022154203A1 (ko) * 2021-01-15 2022-07-21 스마트마인드 주식회사 고속 검색 및 인공지능 훈련을 위한 대용량 정형 비정형 데이터 처리 장치 및 방법
CN113075180A (zh) * 2021-03-24 2021-07-06 临海市鸥巡电子科技有限公司 一种荧光数据变化趋势的检测方法及系统

Similar Documents

Publication Publication Date Title
CN106095787A (zh) 时间序列数据的一种符号化表示方法
Yi et al. An improved tiny-yolov3 pedestrian detection algorithm
Qi et al. Comparison of support vector machine and softmax classifiers in computer vision
CN105117054B (zh) 一种手写输入的识别方法及系统
Chakraborty et al. Local directional gradient pattern: a local descriptor for face recognition
CN102663754B (zh) 一种基于区域高斯加权的图像匹配计算方法
Zhang et al. An improved Adagrad gradient descent optimization algorithm
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN104978582B (zh) 基于轮廓弦角特征的遮挡目标识别方法
CN106021329A (zh) 基于用户相似度的稀疏数据协同过滤推荐方法
CN103440471B (zh) 基于低秩表示的人体行为识别方法
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
Yingchareonthawornchai et al. Efficient proper length time series motif discovery
CN104408405A (zh) 人脸表示和相似度计算方法
CN103136327A (zh) 一种基于局部特征聚类的时间序列符号化方法
CN105046714A (zh) 一种非监督的基于超像素和目标发现机制的图像分割方法
Yu et al. A novel symbolic aggregate approximation for time series
Guo et al. Normalized edge convolutional networks for skeleton-based hand gesture recognition
Zhang et al. Saliency detection via local structure propagation
CN108985065A (zh) 应用改进的马氏距离计算方法进行固件漏洞检测的方法及系统
CN102663447A (zh) 基于判别相关分析的跨媒体检索方法
Gurnani et al. Flower categorization using deep convolutional neural networks
Cao et al. Local information-based fast approximate spectral clustering
Gada et al. Monument recognition using deep neural networks
Tabatabaei et al. Noise-tolerant texture feature extraction through directional thresholded local binary pattern

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161109

WD01 Invention patent application deemed withdrawn after publication