CN112416971A - 一种时序数据流分割方法、装置及其存储介质 - Google Patents

一种时序数据流分割方法、装置及其存储介质 Download PDF

Info

Publication number
CN112416971A
CN112416971A CN201910784191.8A CN201910784191A CN112416971A CN 112416971 A CN112416971 A CN 112416971A CN 201910784191 A CN201910784191 A CN 201910784191A CN 112416971 A CN112416971 A CN 112416971A
Authority
CN
China
Prior art keywords
time sequence
time
sequence data
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910784191.8A
Other languages
English (en)
Inventor
甘建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201910784191.8A priority Critical patent/CN112416971A/zh
Publication of CN112416971A publication Critical patent/CN112416971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种时序数据流分割方法、装置及其存储介质,该方法包括:接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;根据所述关系函数和所述时序数据计算得到所述关系函数的精度;根据所述精度对所述时序数据流进行分割;本申请通过时序数据本身的数值自适应的提供了一个用于计算精度,不需要人为再不断的调节预定阈值,以使有关时间的时序数据处理时,不再需要人为干预,提高了时序数据的处理效率。

Description

一种时序数据流分割方法、装置及其存储介质
技术领域
本发明涉及计算机领域,尤其是指一种时序数据流分割方法、装置及其存储介质。
背景技术
目前,时序数据的处理方法被广泛的应用于各个领域之中。尤其在电商、金融、科学和工程领域需要处理大量的此类时序数据。比如在电商领域,每秒都有成千上万的订单记录和物流记录。在金融领域中,每秒都有很大量的动态电子交易记录。对于上述的时序数据需要人们根据时间上的规律对其进行处理。现有技术中的处理方法需要进行人为不断的干预才能实现。
所以发明人发现现有技术中至少存在如下问题,对于有关时间的时序数据处理由于需要人为干预,经常出现处理效率低下的技术问题。
发明内容
本申请提供了一种时序数据流分割方法,该方法包括:
接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
根据所述时序数据的时间值经过所述关系函数计算得到对应的函数数据值;
将所述函数数据值与对应所述时序数据的数据值按预定方式进行比对计算得到所述关系函数的精度,其中,所述精度描述所述函数数据值与对应时序数据数据值的相似度;
根据所述精度对所述时序数据流进行分割。
可选地,所述根据所述精度对所述时序数据流进行分割包括:
如果所述精度符合预定阈值,则将所有所述时序数据归为时序数据流的同一段时序数据,如果所述精度不符合预定阈值,则选取所述时序数据中的分割时序数据,其中,所述分割时序数据为所述时序数据中数据值和函数数据值差值最大的时序数据,将所述时序数据流中所述时序数据时间值与所述分割时序数据的时间值的数值大小进行对比,将大于所述分割时序数据时间值的时序数据分割为所述时序数据流的一段时序数据,小于所述分割时序数据时间值的时序数据分割为所述时序数据流的另一段时序数据,对两段时序数据分别重复执行上述选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到分割的每一段时序数据构建的关系函数精度均符合预定阈值。
可选地,所述根据所述精度对所述时序数据流进行分割步骤后,该方法还包括:
对每段时序数据的所述关系函数进行线性回归,得到交叉点;
连接所述交叉点得到每段时序数据的拟合结果。
可选地,所述根据所述精度对所述时序数据流进行分割步骤后,该方法还包括:
接收所述时序数据流后续的时序数据;
根据后续的时序数据与其前一段所述关系函数的精度计算,得到更新精度;
根据更新精度重新分割时序数据的分段,具体步骤如下:
如果更新精度符合预定阈值,则将后续的时序数据归入前一段时序数据流,
如果更新精度不符合预定阈值,将所有时序数据重新进行上述选取时序数据和构建关系函数,以及计算精度和时序数据分割的步骤,直到分割的每一段时序数据的关系函数精度均符合预定阈值。
可选地,所述根据更新精度重新分割时序数据的分段步骤后,该方法还包括:
根据预设的滑动窗口判断时序数据和后续的时序数据是否符合预定保存条件:
如果符合预定保存条件,保存所有时序数据的分段;
如果不符合预定保存条件,按照时间值顺序移除最早的时序数据分段。
可选地,所述关系函数为一次函数,所述关系函数的自变量为时间值,所述关系函数的因变量为数据值。
本申请还提供一种时序数据流分割装置,其特征在于,该装置包括:
接收模块,用于接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
选取模块,用于根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
构建函数模块,用于根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
计算模块,用于根据所述时序数据的时间值通过所述关系函数计算得到对应的函数数据值;还用于将所述函数数据值与对应所述时序数据的数据值按预定方式进行比对计算得到所述关系函数的精度,其中,所述精度描述所述函数数据值与对应时序数据数据值的相似度;
分割模块,用于根据所述精度对所述时序数据流进行分割。
可选地,所述分割模块,用于根据所述精度对所述时序数据流进行分割的具体步骤如下:
如果所述精度符合预定阈值,则将所有所述时序数据归为时序数据流的同一段时序数据,如果所述精度不符合预定阈值,则选取所述时序数据中的分割时序数据,其中,所述分割时序数据为所述时序数据中数据值和函数数据值差值最大的时序数据,将所述时序数据流中所述时序数据时间值与所述分割时序数据的时间值的数值大小进行对比,将大于所述分割时序数据时间值的时序数据分割为所述时序数据流的一段时序数据,小于所述分割时序数据时间值的时序数据分割为所述时序数据流的另一段时序数据,对两段时序数据分别重复执行上述选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到分割的每一段时序数据构建的关系函数精度均符合预定阈值。
可选地,该装置包括:
所述计算模块,还用于每段时序数据的所述关系函数进行线性回归,得到交叉点;
所述连接模块,还用于连接所述交叉点得到每段时序数据的拟合结果。
可选地,该装置包括:
所述接收模块,还用于接收所述时序数据流后续的时序数据;
所述计算模块,还用于根据后续的时序数据与其前一段所述关系函数的精度计算,得到更新精度;
更新模块,还用于根据更新精度重新分割时序数据的分段,具体步骤如下:
如果更新精度符合预定阈值,则将后续的时序数据归入前一段时序数据流,
如果更新精度不符合预定阈值,将所有时序数据重新进行上述构建关系函数和计算精度,以及时序数据分割的步骤,直到分割的每一段时序数据的关系函数精度均符合预定阈值。
可选地,该装置包括:
保存模块,用于根据预设的滑动窗口判断时序数据和后续的时序数据是否符合预定保存条件:
如果符合预定保存条件,保存所有时序数据的分段;
如果不符合预定保存条件,按照时间值顺序移除最早的时序数据分段。
可选地,本申请还提供了一种时序数据流分割装置,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求中所述的时序数据流分割方法的步骤。
本申请还提供了一种计算机可读存储介质,该程序被处理器执行时实现所述的时序数据流分割方法的步骤。
如上可见,基于上述实施例,本申请通过时序数据本身的数值自适应的提供了一个用于计算精度,不需要人为再不断的调节预定阈值,以使有关时间的时序数据处理时,不再需要人为干预,提高了时序数据的处理效率。
附图说明
图1为本申请一个实施例中时序数据流分割方法流程100的示意图;
图2为本申请一个实施例中时序数据流分割方法根据精度分段的流程示意图;
图3为本申请一个实施例中时序数据流分割方法流程200的示意图;
图4为本申请一个实施例中时序数据流分割方法流程300的示意图;
图5为本申请一个实施例中时序数据流分割方法结果图像示意图;
图6为本申请一个实施例中时序数据流分割方法应用于数据压缩实验与其他方法的压缩率比对示意图;
图7为本申请一个实施例中时序数据流分割方法与其他方法分割的所用时间比对示意图;
图8为本申请一个实施例中时序数据流分割方法与其他方法处理指定时序数据的压缩率对比示意图;
图9为本申请一个实施例中时序数据流分割装置架构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
在一些实施例中,比如要对时序数据流进行压缩,可以采用时序数据流分割的方法。时序数据流分割的方法除了可以用来进行时序数据压缩外,还可以用来提取重要拐点,这些拐点和时序片段会体现出特定的时序模式,进而表现出一些特定的规律用于时序数据的挖掘。其最终的目的在于提供预测时序数据模型,如果是关于营收的相关时序数据就可以根据时序数据模型的特点设计出对应的策略,达到提高收益和降低成本的目的。另外,还可以根据这些时序数据抽象出潜在的规律,提取有效特征,提供更准确的供应链预测。
上述的时序分割方法可以采用预设阈值的方式进行时序数据处理。比如,接收了一个时序数据。如果该时序数据的数据值大于预设阈值,那么就可以作为分割时序数据流的一个开始起点,以此类推可以将一个时序数据流分割为从图像上看的若干段。此方法很依赖预设阈值,因为预设阈值太大会令分割不敏感导致精度降低。反之,预定阈值太小,分割过多导致无法实现预期的处理效果,比如在后续可能的数据压缩过程中,压缩率不足。所以用户必须不停尝试不同的预设阈值,直到时序数据流的分割在精度和最终处理结果之间权衡折衷。
图1为本申请一个实施例中时序数据流分割方法流程100的示意图,图2为本申请一个实施例中时序数据流分割方法根据精度分段的流程示意图。如图1和图2所示,在一实施例中,本申请还提供了一种时序数据流分割方法,该方法包括:
S101,接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
在本步骤中接收到了由多个时序数据段成的时序数据流,需要指出的是这些时序数据应该是同一时间序列中时序数据,这样的时序数据有两个基本特点,第一个特点,时间值具有非重叠性,比如时序数据,第一秒时序数据的数据值对应唯一的一个时间值,第二秒时序数据的数据值也对应唯一的一个时间值。以此类推,所以不会出现两个数值相同的时间值。
第二个特点,时间值可以理解为时间只是其中的一个必要的元素,而非一定要让时间孤立的成为一个参数。比如频率,速度等都是具有时间元素的物理量,也可以推广到本申请的方法中,需要指出的是本申请的时间值必须具有在时序数据中有且只有一个。
另外,时间值和数据值必须是一个可度量的数值,对于字符型的时序数据并不适用于本申请的方法。
S102,根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
根据上述的步骤,在本步骤中实际上可以得到一个根据时间值数值进行排列的序列。那么,在该序列中的第一时序数据和第二时序数据可以构建出一个关系函数。需要指出的是时序数据序列是为了更好的理解本申请,并非是对本申请的具体限定。
S103,根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
本步骤中时序数据由于具有至少两个参数,即时间值和数据值。那么可以将时序数据简单理解为An(a、b),根据其中的第一时序数据和第二时序数据分别可以表示为A1(a、b)和A2(a、b),进而构建出一个关于An(a、b)关系函数f(An)。
S104,根据所述时序数据的时间值经过所述关系函数计算得到对应的函数数据值;
在本步骤中时序数据的每个An(a、b),将每个时序数据时间值带入关系函数,可以计算出一个对应的函数数据值。
S105,将所述函数数据值与对应所述时序数据的数据值按预定方式进行比对计算得到所述关系函数的精度,其中,所述精度描述所述函数数据值与对应时序数据数据值的相似度;
本步骤中通过每个时序数据的数据值以及经过关系函数计算出的函数数据值进行比对,得到关系函数的精度。具体的计算在后文进行详细的举例说明,在此就不再赘述了。
需要指出的是除了上述的采用每个时序数据进行精度计算,也可以对部分的时序数据进行与关系函数的精度计算,具体的预定规则需要根据具体的情况进行设定。
S106,根据所述精度对所述时序数据流进行分割。
根据图2的箭头方向逐步的展示了分割时序数据流的过程,锯齿状的图形是接收的时序数据流图像,然后根据两点(即第一时序数据和第二时序数据)构建关系函数,然后寻找分割时序数据点进行分段,图中还展示了对右侧的分段进行再次分段的过程。本步骤中需要根据上述步骤求出的精度对时序数据流进行分割,精度如果符合预定阈值,那么说明关系函数可以代替该段的时序数据。反之,说明关系函数还无法代替该段的时序数据,需要对时序数据进行划分,在图像中可以理解为对关系函数的图像进行分段,其本质是将离散的时序数据点转化为关系函数。另外,此处的预定阈值是一个预定的恒定值,不需要人为的调整。
在本实施例中提供了一种时序数据流分割方法,接收由具有时间值和数据值的时序数据段成的时序数据流。然后按照其时间值顺序选取第一时序数据和第二时序数据,并进行关系函数的构建,进而对关系函数的精度通过时序数据进行计算,再通过精度对时序数据流进行分割,当精度达到预定阈值时,则不再对样本时序数据流进行分割,如果未达到预定阈值,则根据分割时序数据作为分割不同数据流段的临界点,需要指出的是从图像上看分割时序数据点既是时序数据流前一分段的终点,也是时序数据流后一分段的起点。最后对时序数据流中的不同段分别进行同样的选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到关系函数精度均符合预定阈值,分割结束。本申请通过时序数据本身的数值自适应的提供了一个用于计算精度,不需要人为再不断的调节预定阈值,以使时序数据流处理时,不再需要人为干预,提高了时序数据的处理效率。
在一实施例中,所述根据所述精度对所述时序数据流进行分割包括:
如果所述精度符合预定阈值,则将所有所述时序数据归为时序数据流的同一段时序数据,
如果所述精度不符合预定阈值,则选取所述时序数据中的分割时序数据,其中,所述分割时序数据为所述时序数据中数据值和函数数据值差值最大的时序数据,将所述时序数据流中所述时序数据时间值与所述分割时序数据的时间值的数值大小进行对比,将大于所述分割时序数据时间值的时序数据分割为所述时序数据流的一段时序数据,小于所述分割时序数据时间值的时序数据分割为所述时序数据流的另一段时序数据,对两段时序数据分别重复执行上述选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到分割的每一段时序数据构建的关系函数精度均符合预定阈值。
在本实施例中提供了一种具体的分割方法。
图3为本申请一个实施例中时序数据流分割方法流程200的示意图。如图3所示,在一实施例中,根据所述精度对所述时序数据流进行分割步骤后,该方法还包括:
S201,对每段时序数据的所述关系函数进行线性回归,得到交叉点;
本步骤提供一种对关系函数进行线性回归的具体实施步骤,可计算出对应的交叉点。因为在上述分割方法会导致时序数据一定程度的失真,在一些情况下,需要通过本步骤的方法进行修正。
S202,连接所述交叉点得到每段时序数据的拟合结果。
根据交叉点得到修复后的关系函数。
在本实施例中提供了一种得到修正时序数据的具体方法,即对分割步骤完成后的关系函数进行线性回归得到更加精确的时序数据。
图4为本申请一个实施例中时序数据流分割方法流程300的示意图。如图4所示,在一实施例中,根据所述精度对所述时序数据流进行分割步骤后,该方法还包括:
S301,接收所述时序数据流后续的时序数据;
在本步骤中接收新的一个时序数据,即后续的时序数据。
S302,根据后续的时序数据与其前一段所述关系函数的精度计算,得到更新精度;
在本步骤中提供了一种更新精度的计算方法。需要指出的是在本步骤中,只是根据后续时序数据与前一段时序数据的精度进行计算,而非与前一段时序数据进行计算,简化了计算的难度。其中,所谓的前一段即是在时间值上相邻的被分割的一段。
S303,根据更新精度重新分割时序数据的分段,具体步骤如下:
如果更新精度符合预定阈值,则将后续的时序数据归入前一段时序数据流,
如果更新精度不符合预定阈值,将所有时序数据重新进行上述选取时序数据和构建关系函数,以及计算精度和时序数据分割的步骤,直到分割的每一段时序数据的关系函数精度均符合预定阈值。
在本步骤中提供了一种分割样本时序数据的分割方法,即如果更新精度符合预定阈值,则不需要进行分割,而是将后续时序数据归入前一段时序数据中。
如果更新精度不符合预定阈值,则需要进行所有时序数据的重新分割,具体步骤与上述的方法相同,在此就不再赘述了。与其不同之处在于分割的时序数据流包括了最开始接收的时序数据和后续时序数据。
在本实施例中提供了一种不断接收更新时序数据的具体实施方式,在线情况下,会实时进行时序数据的交互,符合本实施方式的情况,即将后续的时序数据与相邻一段时序数据重新计算得到更新精度,根据更新精度与阈值的关系将后续时序数据归于前一段或者重新分割所有时序数据。
在一实施例中,所述根据更新精度重新分割时序数据的分段步骤后,该方法还包括:
根据预设的滑动窗口判断时序数据和后续的时序数据是否符合预定保存条件:
如果符合预定保存条件,保存所有时序数据的分段;
如果不符合预定保存条件,按照时间值顺序移除最早的时序数据分段。
本实施例提供了处理时序数据的数据处理量上限,预设滑动窗口只保存处理一定数量的时序数据,如果后续时序数据不断增加,超过了滑动窗口的存储量,那么就会将时间值顺序中最开始的时序数据所在时序数据流分割段的全部时序数据移除。
在一实施例中,所述关系函数为一次函数,所述关系函数的自变量为时间值,所述关系函数的因变量为数据值。
在本实施例中提供了一种关系函数的具体实施方式,如果时序数据具有三个参数,An(a、b、c)则可以进行降维,选择其中的时间值和一个需要进行分析的因变量作为数据值进行后续的处理和计算。
基本原理和工作过程:
以下对本申请进行详细说明,需要指出的是时序数据的实施例只是为了更好的说明本申请,并非是对本申请的具体限定。
在一实施例中,本申请提供了一种时序数据流分割方法,该方法包括:
接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
其中的时序数据可以表达为An(a、b),其中,a可以理解为时间值,b可以理解为对应的数据值,比如,在股票行情的案例中,时间值可以理解为日期时间,而数据值可以理解为具体的市值。需要指出的是时序数值是一个逐渐增大不重复的数值,但是数据值则可以增大或减小。
根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
其中,所述关系函数可以为一次函数,所述关系函数的自变量为时间值,所述关系函数的因变量为数据值;
具体的,根据时序数据的时间值,选取其中第一时序数据和第二时序数据构建一次函数,从图像上看,时间值可以表示为二维坐标中的X轴坐标值,数据值可以表示为Y轴坐标值。因为时间值具有不重复并逐渐变大的特点,那么在关系函数的图像中,两点确定一条直线,即一条一次函数的图像。
根据所述关系函数和所述时序数据计算得到所述关系函数的精度;
在本步骤中可以将精度通过方差的概念进行表示,当然也可以采用其他的计算方式获取两者的对比量度。
具体来说,可以根据下面公式进行表达:
Figure BDA0002177500360000091
Figure BDA0002177500360000092
Figure BDA0002177500360000093
li=y1+(yn-y1)(i-1)/(n-1)
上述公式中,
Figure BDA0002177500360000094
可以理解为上面所表述的精度,SStot为总平方和,
Figure BDA0002177500360000095
为段内平方和;
其中,yi为时序数据中数据值的各个数值,
Figure BDA0002177500360000096
为时序数据中数据值的平均值,n是通过关系函数计算的对应数据值数量,N是全部时序数据对应的数据值数量,li表示关系函数计算时序数据对应计算的数据值。
例子:
Y=[1,2,2,4,5],yi∈Y,i=1...5,N=5
Figure BDA0002177500360000097
Figure BDA0002177500360000098
Figure BDA0002177500360000099
Figure BDA0002177500360000101
Figure BDA0002177500360000102
Figure BDA0002177500360000103
Figure BDA0002177500360000104
Figure BDA0002177500360000105
根据所述精度对所述时序数据流进行分割,具体步骤如下:
如果所述精度符合预定阈值,则将所有所述时序数据归为时序数据流的同一段时序数据,
如果所述精度不符合预定阈值,则选取所述时序数据中的分割时序数据,其中,所述分割时序数据为所述时序数据中数据值和函数数据值差值最大的时序数据,将所述时序数据流中所述时序数据时间值与所述分割时序数据的时间值的数值大小进行对比,将大于所述分割时序数据时间值的时序数据分割为所述时序数据流的一段时序数据,小于所述分割时序数据时间值的时序数据分割为所述时序数据流的另一段时序数据,对两段时序数据分别重复执行上述选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到分割的每一段时序数据构建的关系函数精度均符合预定阈值。
对每段时序数据的所述关系函数进行线性回归,得到交叉点;
连接所述交叉点得到每段时序数据的拟合结果;
通过线性回归的步骤,防止时序数据的失真。
图5为本申请一个实施例中时序数据流分割方法结果图像示意图。如图8所示,锯齿状的图像为原始的时序数据流图像,虚线连成的图像为未经过线性回归的图像,而实线连成的图像为最终线性回归后的图像。
接收所述时序数据流后续的时序数据;
在本步骤中,接收了新的时序数据,即后续的时序数据。
根据后续的时序数据与其前一段所述关系函数的精度计算,得到更新精度;
在本步骤中具体的计算公式如下:
Figure BDA0002177500360000111
Figure BDA0002177500360000112
Figure BDA0002177500360000113
其中,k为在一个设定计算上限数量中的时序数据数量上限,f是线性回归后的一次函数计算出来的数据值,ai为线性回归后一次函数计算出来的斜率,bi为线性回归后一次函数计算出来的截距。
Figure BDA0002177500360000114
为该方式的段内平方和,
Figure BDA0002177500360000115
为该方式的总平方和。x为数据值的数值。该公式可以通过之前的关系函数和新的后续时序数据计算出新的精度。
根据更新精度重新分割时序数据的分段,具体步骤如下:
如果更新精度符合预定阈值,则将后续的时序数据归入前一段时序数据流,
如果更新精度不符合预定阈值,将所有时序数据重新进行上述选取时序数据和构建关系函数,以及计算精度和时序数据分割的步骤,直到分割的每一段时序数据的关系函数精度均符合预定阈值。
本步骤中如果后续的时序数据可以并入之前分割的前一段时序数据流中,简化计算。如果不能并入则需要对所有最初接收的时序数据,以及后续的时序数据再进行之前的分割步骤,重新进行分段分割。
根据预设的滑动窗口判断时序数据和后续的时序数据是否符合预定保存条件:
如果符合预定保存条件,保存所有时序数据的分段;
如果不符合预定保存条件,按照时间值顺序移除最早的时序数据分段。
本步骤中提供了一种滑动窗口的实施方式。之前已经对该方式进行阐述,在此就不再赘述了。
图6为本申请一个实施例中时序数据流分割方法应用于数据压缩实验与其他方法的压缩率比对示意图,如图5所示,实验条件为32条时序数据流,精度为0.9,图中X轴表示不同分割方法应用于数据压缩后的压缩率,Y轴表示不同时序数据流分割方法。
其压缩率的具体算法为:压缩率=1-分段数量/时序数据数量。在所有方法中,SWTD和SWTD_OL是达到最高压缩率的方法,SWTD和SWTD_OL即为本申请的分割方法。
图7为本申请一个实施例中时序数据流分割方法与其他方法分割的所用时间比对示意图。如图6所示,Y轴表示不同时序数据流分割方法,X轴表示分割方法所用时间。实验条件为32条时序数据流,精度为0.9。SWTD和SWTD_OL的所用时间和其他方法相比相对较短。
图8为本申请一个实施例中时序数据流分割方法与其他方法处理指定时序数据的压缩率对比示意图;
Y轴表示不同分割方法应用于数据压缩后的压缩率,X轴表示实验软件自身指定提供的一些实验数据。
图9为本申请一个实施例中时序数据流分割装置架构示意图。在一实施例中,本申请还提供了一种时序数据流分割装置,该装置包括:
接收模块101,用于接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
选取模块102,用于根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
构建函数模块103,用于根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
计算模块104,用于根据所述时序数据的时间值通过所述关系函数计算得到对应的函数数据值;还用于将所述函数数据值与对应所述时序数据的数据值按预定方式进行比对计算得到所述关系函数的精度,其中,所述精度描述所述函数数据值与对应时序数据数据值的相似度;
分割模块105,用于根据所述精度对所述时序数据流进行分割。
在一实施例中,所述分割模块,用于根据所述精度对所述时序数据流进行分割的具体步骤如下:
如果所述精度符合预定阈值,则将所有所述时序数据归为时序数据流的同一段时序数据,
如果所述精度不符合预定阈值,则选取所述时序数据中的分割时序数据,其中,所述分割时序数据为所述时序数据中数据值和函数数据值差值最大的时序数据,将所述时序数据流中所述时序数据时间值与所述分割时序数据的时间值的数值大小进行对比,将大于所述分割时序数据时间值的时序数据分割为所述时序数据流的一段时序数据,小于所述分割时序数据时间值的时序数据分割为所述时序数据流的另一段时序数据,对两段时序数据分别重复执行上述选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到分割的每一段时序数据构建的关系函数精度均符合预定阈值。
在一实施例中,该装置还包括:
所述计算模块104,还用于每段时序数据的所述关系函数进行线性回归,得到交叉点;
连接模块106,用于连接所述交叉点得到每段时序数据的拟合结果。
在一实施例中,该装置还包括:
所述接收模块101,还用于接收所述时序数据流后续的时序数据;
所述计算模块104,还用于根据后续的时序数据与其前一段所述关系函数的精度计算,得到更新精度;
更新模块107,更新模块,还用于根据更新精度重新分割时序数据的分段,具体步骤如下:
如果更新精度符合预定阈值,则将后续的时序数据归入前一段时序数据流,
如果更新精度不符合预定阈值,将所有时序数据重新进行上述构建关系函数和计算精度,以及时序数据分割的步骤,直到分割的每一段时序数据的关系函数精度均符合预定阈值。
在一实施例中,该装置还包括:
保存模块108,用于根据预设的滑动窗口判断时序数据和后续的时序数据是否符合预定保存条件:
如果符合预定保存条件,保存所有时序数据的分段;
如果不符合预定保存条件,按照时间值顺序移除最早的时序数据分段。
本申请还提供了一种时序数据分割装置,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行所述的时序数据流分割方法的步骤。
在一实施例中,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的时序数据流分割方法步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种时序数据流分割方法,其特征在于,该方法包括:
接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
根据所述时序数据的时间值经过所述关系函数计算得到对应的函数数据值;
将所述函数数据值与对应所述时序数据的数据值按预定方式进行比对计算得到所述关系函数的精度,其中,所述精度描述所述函数数据值与对应时序数据的数据值的相似度;
根据所述精度对所述时序数据流进行分割。
2.根据权利要求1所述的时序数据流分割方法,其特征在于,所述根据所述精度对所述时序数据流进行分割包括:
如果所述精度符合预定阈值,则将所有所述时序数据归为时序数据流的同一段时序数据,如果所述精度不符合预定阈值,则选取所述时序数据中的分割时序数据,其中,所述分割时序数据为所述时序数据中数据值和函数数据值差值最大的时序数据,将所述时序数据流中所述时序数据的时间值与所述分割时序数据的时间值的数值大小进行对比,将大于所述分割时序数据时间值的时序数据分割为所述时序数据流的一段时序数据,小于所述分割时序数据时间值的时序数据分割为所述时序数据流的另一段时序数据,对两段时序数据分别重复执行上述选取时序数据和构建关系函数,以及计算精度和时序数据流分割的步骤,直到分割的每一段时序数据构建的关系函数精度均符合预定阈值。
3.根据权利要求1或2所述的时序数据流分割方法,其特征在于,所述根据所述精度对所述时序数据流进行分割步骤后,该方法还包括:
对每段时序数据的所述关系函数进行线性回归,得到交叉点;
连接所述交叉点得到每段时序数据的拟合结果。
4.根据权利要求1或2所述的时序数据流分割方法,其特征在于,所述根据所述精度对所述时序数据流进行分割步骤后,该方法还包括:
接收所述时序数据流后续的时序数据;
根据后续的时序数据与其前一段所述关系函数的精度计算,得到更新精度;
根据更新精度重新分割时序数据的分段,具体步骤如下:
如果更新精度符合预定阈值,则将后续的时序数据归入前一段时序数据流,
如果更新精度不符合预定阈值,将所有时序数据重新进行上述选取时序数据和构建关系函数,以及计算精度和时序数据分割的步骤,直到分割的每一段时序数据的关系函数精度均符合预定阈值。
5.根据权利要求4所述的时序数据流分割方法,其特征在于,所述根据更新精度重新分割时序数据的分段步骤后,该方法还包括:
根据预设的滑动窗口判断时序数据和后续的时序数据是否符合预定保存条件:
如果符合预定保存条件,保存所有时序数据的分段;
如果不符合预定保存条件,按照时间值顺序移除最早的时序数据分段。
6.根据权利要求1所述的时序数据流分割方法,其特征在于,所述关系函数为一次函数,所述关系函数的自变量为时间值,所述关系函数的因变量为数据值。
7.一种时序数据流分割装置,其特征在于,该装置包括:
接收模块,用于接收时序数据流,其中,所述时序数据流中的时序数据具有对应的时序值和数据值;
选取模块,用于根据所有所述时序数据的时序值选取第一时序数据和第二时序数据,其中,所述第一时序数据为所有所述时序数据中时序值最小的时序数据,所述第二时序数据为所有所述时序数据中时序值最大的时序数据;
构建函数模块,用于根据所述第一时序数据和所述第二时序数据构建关于时间值和数据值的关系函数;
计算模块,用于根据所述时序数据的时间值通过所述关系函数计算得到对应的函数数据值;还用于将所述函数数据值与对应所述时序数据的数据值按预定方式进行比对计算得到所述关系函数的精度,其中,所述精度描述所述函数数据值与对应时序数据数据值的相似度;
分割模块,用于根据所述精度对所述时序数据流进行分割。
8.一种时序数据流分割装置,其特征在于,所述装置包括:处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至6中任一项所述的时序数据流分割方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的时序数据流分割方法的步骤。
CN201910784191.8A 2019-08-23 2019-08-23 一种时序数据流分割方法、装置及其存储介质 Pending CN112416971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910784191.8A CN112416971A (zh) 2019-08-23 2019-08-23 一种时序数据流分割方法、装置及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910784191.8A CN112416971A (zh) 2019-08-23 2019-08-23 一种时序数据流分割方法、装置及其存储介质

Publications (1)

Publication Number Publication Date
CN112416971A true CN112416971A (zh) 2021-02-26

Family

ID=74779639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910784191.8A Pending CN112416971A (zh) 2019-08-23 2019-08-23 一种时序数据流分割方法、装置及其存储介质

Country Status (1)

Country Link
CN (1) CN112416971A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528334A (zh) * 2022-02-18 2022-05-24 重庆伏特猫科技有限公司 一种时序数据库中快速相似搜索方法
CN117370329A (zh) * 2023-12-07 2024-01-09 湖南易比特大数据有限公司 基于工业物联网的设备数据智能化管理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528334A (zh) * 2022-02-18 2022-05-24 重庆伏特猫科技有限公司 一种时序数据库中快速相似搜索方法
CN114528334B (zh) * 2022-02-18 2022-10-18 重庆伏特猫科技有限公司 一种时序数据库中快速相似搜索方法
CN117370329A (zh) * 2023-12-07 2024-01-09 湖南易比特大数据有限公司 基于工业物联网的设备数据智能化管理方法及系统
CN117370329B (zh) * 2023-12-07 2024-02-27 湖南易比特大数据有限公司 基于工业物联网的设备数据智能化管理方法及系统

Similar Documents

Publication Publication Date Title
JP7462623B2 (ja) 活性スパース化を用いたニューラルネットワーク加速・埋め込み圧縮システム及び方法
US10997492B2 (en) Automated methods for conversions to a lower precision data format
Park et al. Data compression and prediction using machine learning for industrial IoT
CN112416971A (zh) 一种时序数据流分割方法、装置及其存储介质
US10685306B2 (en) Advisor generating multi-representations of time series data
JP7189865B2 (ja) モデル圧縮装置及びプログラム
CN110942248B (zh) 交易风控网络的训练方法及装置、交易风险检测方法
CN111539444B (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN111178261B (zh) 一种基于视频编码技术的人脸检测加速方法
US20180293486A1 (en) Conditional graph execution based on prior simplified graph execution
CN111414868A (zh) 时序动作片段的确定方法、动作检测方法及装置
CN114463551A (zh) 图像处理方法、装置、存储介质及电子设备
CN113642710A (zh) 一种网络模型的量化方法、装置、设备和存储介质
CN110751400B (zh) 一种风险评估方法及装置
JP7026808B2 (ja) 情報処理装置、方法及びプログラム
CN110032585B (zh) 一种时间序列双层符号化方法及装置
CN115234480B (zh) 空压站的控制的方法、计算设备和计算机可读存储介质
CN109816034B (zh) 信号特征组合选取方法、装置、计算机设备及存储介质
CN116228284A (zh) 货品需求预测方法、训练方法、装置、计算机系统及介质
CN110795839A (zh) 利用网格互信息快速计算提高化工大数据建模速度的方法
Ryabko et al. Reducing statistical time-series problems to binary classification
CN114372689A (zh) 一种基于动态规划的路网运行特征变点识别方法
CN114090654A (zh) 工业时序数据的近似查询处理方法、系统、介质及设备
TWI708196B (zh) 使用基於累積計數分佈之函數之用於模型參數之解壓縮之方法及處理器
CN113643080B (zh) 一种密封制品的营销对象匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination