CN111694877B - 多元时间序列数据搜索 - Google Patents
多元时间序列数据搜索 Download PDFInfo
- Publication number
- CN111694877B CN111694877B CN202010164972.XA CN202010164972A CN111694877B CN 111694877 B CN111694877 B CN 111694877B CN 202010164972 A CN202010164972 A CN 202010164972A CN 111694877 B CN111694877 B CN 111694877B
- Authority
- CN
- China
- Prior art keywords
- symbol
- time series
- string
- temporal
- series data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002123 temporal effect Effects 0.000 claims abstract description 153
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000001131 transforming effect Effects 0.000 claims abstract description 16
- 238000007906 compression Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 29
- 230000009466 transformation Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005504 petroleum refining Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
示例实施例针对可以对时间序列数据中的时态数据模式执行基于文本的搜索的系统和方法。与基于时态模式比较执行的基于距离测量的搜索相比,基于文本的搜索处理明显更快。在一个示例中,该方法可以包括:存储先前记录的时间序列数据的时态模式;基于先前记录的时态模式来确定一组最佳仓边界,其中,该组最佳仓边界将所观察的时间序列数据的范围划分为各自标记有相应符号的多个离散仓;基于该组最佳仓边界将先前记录的时间序列数据的时态模式变换为符号串,其中,符号串基于所述多个离散仓中的数据点;将符号串存储在符号存储器中。
Description
技术领域
本公开设计多元时间序列数据搜索。
背景技术
机器和设备资产经过设计以执行作为处理的一部分的特定任务。例如,除其他事项外,资产可以包括生产线上的工业制造设备,采矿作业中使用的钻探设备,在风电场上发电的风力涡轮,运输工具(火车,地铁,飞机等),天然气和石油精炼设备等。作为另一示例,资产可以包括辅助诊断患者的装置,诸如成像装置(例如,X射线或MRI系统),监测设备等。
基于底层软件和硬件的控制器一直被用于驱动机器和设备资产。但是,云计算的大量采用、传感器功能的增加和传感器成本的降低、以及移动技术的普及,为创建具有改进的感测技术并能够传输然后可以分布在整个网络中的数据的新型工业和医疗保健资产创造了机会。结果,通过使用以新型工业为重点的硬件和软件,存在新的机会来增强某些资产的商业价值。
用于从工程和工业资产中捕获时间序列数据的IoT传感器可以生成大量的多元时间序列数据。操作员可能会深入探索或分析由一个或多个传感器捕获的时间序列数据中的时态模式(例如,资产启动或关闭的操作模式,潜在的故障签名等)。在这种情况下,可以使用查询时间序列段执行搜索,以识别先前记录的时间序列数据读数中的段,其中历史数据中的时态模式与查询段的时态模式匹配。由于其时态性,时间序列数据很难搜索和挖掘模式,因为不仅数据值而且其时态顺序也很重要。
本领域的时间序列搜索处理的状态依赖于时间序列段之间的距离测量。在这种情况下,可以从所有候选时间序列段中计算出查询时间序列段的距离,并且可以基于计算的距离(例如,基于距离的阈值或给定整数k的前k个匹配项)返回匹配或相似段。可以使用适合于该问题的各种距离测量(例如欧几里得距离和动态时间规整(DTW)距离)来计算查询时间序列段与候选时间序列段之间的距离。在该示例中,搜索处理可以使用查询时间序列段,距离测量以及候选时间序列段,以返回关于所选距离度量接近查询的时间序列段。但是,此处理会消耗大量的计算资源,并且可能会过慢,特别是对于具有多元传感器的大型数据集。
由于需要将时态模式保留在查询时间序列段内,因此针对非时态数据设计的相关搜索方法在此不适用。通常,时态模式很容易在视觉上描述例如时间序列图中的线性或非线性模式,但通常很难编码和抽象。同样,在多元情况下,查询时间序列段的规模通常是事先未知的,因为用于查询的传感器子集和查询段长度可能仅在运行时可用,要求任何抽象都具有灵活性和可扩展性。
因此,需要一种能够从大量时间序列数据(诸如IoT传感器和工业资产)中快速而准确地搜索,挖掘并快速深入探索的系统。
发明内容
本文的实施例通过使用将时态数据模式变换为符号串的压缩处理对来自传感器(或多个传感器)的时态模式执行时间序列段搜索来改进现有技术。每个符号可以包括标识符(例如,字母数字字母)和值(例如,字母数字数字等)。该系统不是在原始时间序列空间中执行距离测量计算,而是将时态模式变换为符号串,并搜索与由系统转换的先前时态模式相对应的符号串的数据库。因此,系统可以对匹配串执行基于文本的搜索,而不是对匹配时态模式执行距离测量处理。当找到匹配符号串时,系统可以将匹配的符号串解压缩到其最初时态模式,并且将关于时态模式的信息输出到用户界面作为搜索结果。
时间序列数据包括通常与相应时间戳一起记录的单元或多元数据点的时态序列集合。在经典情况下,测量的数据值可能包括在不同时间点记录并存储为时间戳值的压力,温度,流速,速度,高度等。
示例实施例执行学习搜索系统的最佳参数以及使用这些参数执行时间序列搜索的两阶段处理。在一些实施例中,如果收集到新的时间序列数据或当收集到新的时间序列数据时,搜索系统的最佳参数可以更新或重新学习。
学习阶段可以包括学习符号变换处理的参数,用于将原始时间序列数据转换到符号序列。学习阶段可以涉及多个步骤。
在符号变换的第一步骤中,系统可以识别最佳离散化仓边界,以将时态数据的范围划分为几个离散仓,每个仓都标记有符号。该最佳离散化可以基于利用预期损失函数来找到使压缩损失最小化的仓边界的过程。
在符号变换的第二步骤中,可使用仓边界将原始时间序列数据转换为符号序列,使得每个时间序列数据点都由其落入的仓的符号来标记。
在该示例中,最佳离散化的目标是将仓放置在一定位置,以便在经由离散化将数据转换为符号时保留最多的原始信息量。例如,如果数据点通常聚集在数据范围的某些区域中,则可以在这些部分中使用更多的仓,以保留更多的保真度。同时,如果在数据空间的其他部分发现较少的数据点,则可以使用较少的仓。因此,最佳利用符号的总词汇量。
在符号变换的第三步骤中,可以将从时间序列获得的符号序列进一步压缩到由字母数字字母和字母数字值组成的字母数字符号序列中。在这些压缩序列中,每个字母数字字母可以对应于来自符号变换的第二步骤的符号序列中的所观察的符号,并且字母数字值可以对应于该符号的连续重复计数。
在一些实施例中,可以使用符号变换的第四步骤,其中可以沿着时间轴线缩放时间序列数据的压缩表示,以增加匹配的灵活性。这种抽象可以产生更多本质上相似但不精确匹配的搜索结果。
一旦学习了搜索系统的参数,就可以使用符号变换器来生成历史时间序列数据的压缩表示,该压缩表示可以被存储在数据库中以便于搜索和检索。
在时间序列搜索阶段(第二阶段)期间,操作员可以通过例如经由图形用户界面或命令行界面提交查询时间序列段来启动时间序列搜索。当接收到时间序列数据段时,可以使用先前学习的符号变换器以将查询时间序列数据变换为压缩符号表示。一旦查询时间序列数据已经被变换为符号域,就可以使用基于文本的搜索方法,跨压缩的历史时间序列数据启动搜索,以识别相似的时态模式。
在一些实施例中,可以执行多元时间序列搜索(即,具有多个传感器模式)。在该示例中,系统可以执行与对具有一个传感器的单元执行的搜索相似的搜索,但是由于多个传感器,搜索还可能需要将在多个传感器之间的查询段中找到的时态关系也保持在搜索结果中。
在示例实施例的一方面,计算系统可以包括:存储器,该存储器被构造为存储时间序列数据的先前时态模式;处理器,该处理器被构造为接收时间序列数据的选择,使用符号变换器将时间序列段变换为符号串,并基于符号串来识别包括在存储在存储器中的先前时间序列数据集中的相似模式,其中该处理器还被构造为输出关于所识别的相似模式的视觉信息,以用于经由显示装置来显示。
在另一个示例实施例的方面,方法可以包括:从显示的时间序列数据的可视图中接收时间序列数据的选择;使用符号变换器将时态模式变换为符号串;输出关于所识别的相似模式的视觉信息,以用于经由显示装置显示。
根据结合附图和权利要求的以下详细描述,其他特征和方面将是显而易见的。
附图说明
参考以下结合附图的详细描述,示例实施例的特征和优点以及实现它们的方式将变得更加显而易见。
图1是示出根据示例实施例的工业云计算环境的图。
图2A是示出根据示例实施例的将时态模式变换成符号串的处理的图。
图2B和图2C是示出根据示例实施例的使用时间序列数据库和符号数据库的变换和查询处理的图。
图2D是示出根据示例实施例的用于执行时间序列模式搜索的系统的图。
图3是示出根据示例实施例的用于时间序列数据模式的搜索处理的图。
图4是示出根据示例实施例的用于多元时间序列数据模式的搜索处理的图。
图5是示出根据示例实施例的用于为时间序列数据的时态模式生成搜索结果的方法的图。
图6是示出与任何示例实施例一起使用的计算系统的图。
在整个附图和详细描述中,除非另有说明,否则相同的附图标号将被理解为表示相同的元件,特征和结构。为了清楚,图示和/或方便起见,可以夸大或调整这些元件的相对大小和描绘。
具体实施方式
在以下描述中,阐述了具体细节以便提供对各种示例实施例的透彻理解。应当理解,对实施例的各种修改对于本领域技术人员而言将是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文中限定的一般原理可以应用于其他实施例和应用。此外,在以下描述中,出于解释的目的而阐述了许多细节。然而,本领域的普通技术人员应该理解,可以在不使用这些特定细节的情况下实践实施例。在其他情况下,未示出或描述公知的结构和处理,以免不必要的细节使描述不清楚。因此,本公开不旨在限于所示的实施例,而是应被赋予与本文公开的原理和特征一致的最广范围。
物联网(IoT)传感器通常被构造为在相当长的时间段内感测时间序列数据。时间序列数据的示例包括温度,压力,振动,速度,声音等。用户经常经由视觉图查看捕获的时间序列数据,该视觉图包括随时间的数据测量(例如强度,量等)。例如,随着数据的强度或数量随时间变化,显示器可以示出提供各种模式的线图。
最近,传感器已用于监测远程位置的工业资产和其他工程系统,然后将其反馈到中央平台。在很多情况下,操作员可能会对将时间序列数据的模式与先前存储的数据模式进行匹配感兴趣。传统的搜索系统比较时间序列段之间的距离测量。在这种情况下,可以从所有候选时间序列段中计算查询时间序列段的距离,并且可以基于计算的距离来返回匹配或相似的段。但是,此处理会消耗大量资源。此外,IoT传感器可产生大量数据。因此,搜索此类数据可能很耗时。此外,当执行多元搜索时,系统变得非常复杂。在这种情况下,系统必须同时搜索多个时态模式,从而对处理能力和计算时间产生更大的需求。
示例实施例针对一种系统,该系统可以使用符号变换和基于文本的搜索来执行时间序列数据搜索(例如,单元,多元等)。例如,该系统可以基于时态模式和仓边界内的数据点的频率,将表示随时间的测量变量的时态模式转换为符号串。时间序列数据的范围可以分为离散的仓,并且可以检测每个仓内的数据点。此外,可以为每个仓分配仓标识符(例如,字母数字字母),并且可以将连续数据点的数量表示为对应值(例如,数值)。该系统可以将时间序列数据或时间序列数据的段转换为符号串,其中每个符号包括仓标识符和值。
在较高的层次上,该处理包括两个阶段。在第一阶段(称为学习阶段)期间,系统评估时间序列数据存储中的一组原始历史时间序列时态模式,并确定该组的离散化仓。然后,系统可以使用之前计算出的离散仓,将每个原始时间序列模式转换为紧凑表示(符号串)。此外,符号串可以存储在符号数据库中以供进一步使用。
同时,在第二阶段(称为搜索阶段)期间,用户选择或以其他方式提供被搜索的时间序列段形式的查询。在这里,系统使用在学习阶段期间确定的离散化仓,将时间序列段转换为离散格式以用于搜索。然后,系统使用搜索段的离散表示在符号数据库中搜索匹配,符号数据库中存储了在学习阶段期间转换的历史时间序列模式。在一些实施例中,为了增加搜索结果的灵活性,可以沿着时间轴线缩放符号串,以允许相似符号串的匹配而不是精确匹配。当系统识别出匹配(相似)符号串时,系统可以将符号串转换回其原始/最初时间序列模式,并输出有关检索到的模式的信息作为搜索结果。
可以基于试图找到仓边界的位置的函数将历史数据模式划分为仓,以使损失最小。在此,最佳离散化的目标是将仓放置在某些位置处,以便在经由离散化将数据转换为符号时保留最多的最初信息量。例如,如果数据点通常聚集在数据范围的某些区域中,则可以在这些部分中使用更多的仓,以保留更多的保真度。同时,如果在数据空间的其他部分发现较少的数据点,则可以使用较少的仓。因此,最佳利用符号的总词汇量。当接收到新模式(例如搜索模式)时,可以将先前确定的仓边界用于新数据模式。
本文描述的系统可以以比传统距离测量搜索明显更快的方式识别匹配时态模式。此外,系统可以将输入模式的符号串缩放为抽象表示,并且执行搜索以识别相似但不一定精确的模式。用户可以在运行时动态限定缩放/抽象级别。此外,当找到匹配时,系统可以检索匹配符号串的最初时态模式,并经由用户界面输出匹配模式的可视数据。
本文描述的系统是灵活的,因为底层抽象允许容易地指定不同长度的查询模式。该系统是可扩展的,因为它自然地扩展到多元模式,因此可以在运行时限定查询模式的传感器子集。该系统是可组合的,因为它允许经由子模式(例如时态模式1,随后的时态模式2等)的组合进行复杂的模式搜索。该系统是可缩放的,因为算法本质上是数据并行的,使得所提出的系统适合于大型且增长的数据集。
在多元示例中,用户可以从第一变量中选择时间序列图的段,并且系统还可以从多元数据集中包含的其他变量中检测相应的时间段。给定多元查询段,系统将对多元时间序列数据集执行搜索,并返回在数据库中找到的匹配段。该系统非常适合搜索大型时间序列数据集,以低延迟返回结果。该系统可以将多元时间序列数据转换或以其他方式压缩成多个符号序列,该多个符号序列被进一步压缩并且被表示为字母数字符号序列。然后,利用基于文本的搜索方法,以压缩表示形式搜索查询模式,从而实现低延迟和可缩放的搜索。
时间序列数据可以来自工业资产,并且数据段可以是在特定事件期间发生的操作模式。作为非限制性示例,发电厂操作员可能对搜索特定的振动模式感兴趣。通过本文的系统,操作员可以搜索以前发生过这种模式的任何相关资产。作为另一个非限制性示例,领域专家可以识别指示动力故障的时间序列数据的签名模式。在该示例中,系统可以搜索并在所有相关资产中查找相似的模式。作为另一个非限制性示例,操作员可以基于RPM搜索特定的操作样式模式(汽车的空转时间或加速段)。系统可以在所有相关资产上搜索相似的操作模式。
起初,操作员可以在用户界面上具有时态模式,该时态模式显示随时间的一个或多个变量的线图。用户可以选择图的一部分或整个图作为搜索查询。作为响应,本文的系统可以搜索具有相似段的先前记录的时态模式。
本文描述的系统可以经由程序或其他软件来实施,该程序或其他软件可以与应用结合使用,用于管理在工业物联网(IIoT)中托管的机器和设备资产。IIoT可以将资产(例如涡轮,喷气发动机,机车,电梯,医疗保健装置,采矿设备,石油和天然气精炼厂等)连接到因特网或云,或以某种有意义的方式(例如通过一个或多个网络)相互连接。云可用于接收,中继,传输,存储,分析或以其他方式处理资产和制造站点的信息或与资产和制造站点有关的信息。在一示例中,云计算系统包括至少一个处理器电路,至少一个数据库以及与该云计算系统数据通信的多个用户和/或资产。云计算系统可以进一步包括一个或多个其他处理器电路或模块,或与其联接,该一个或多个其他处理器电路或模块被构造为执行特定任务,诸如执行与资产维护,分析,数据存储,安全性或某些其他功能有关的任务。
资产可以配备有一个或多个传感器(例如,物理传感器,虚拟传感器等),该一个或多个传感器被构造为监测资产的各自操作或状况以及资产在其中操作的环境。来自传感器的数据可以被记录或传输到基于云或其他的远程计算环境。数据可以是单变量(例如,一个传感器)或多元(例如,多个传感器)。在某些情况下,多元数据可以包括不同类型数据(压力,速度,温度等)的多个变量。作为另一个示例,多元数据可以包括相对于资产从不同位置测量的相同变量。
如本文的各个示例中所述,数据可以例如以流(运动)或数据存储系统(静止)的形式包括资产或包括该资产的处理/操作的相关值的原始集合。各个数据值可以包括关于数据源和接收数据的顺序的描述性元数据,但是可能未明确关联。信息可能是指数据的相关集合,该数据被推断为表示有关已识别主题的有意义的事实。作为非限制性示例,信息可以是数据集,诸如已经被确定为代表随时间的机器部件的温度波动的数据集。
图1示出了根据示例实施例的用于工业软件和硬件的云计算系统100。图1被示出为可以收集和搜索时间序列数据的系统的非限制性示例。参照图1,系统100包括多个资产110,多个资产110可以被包括在IIoT的边缘内,并且可以将原始数据传输到源(诸如云计算平台120),在该源中可以存储和处理原始数据。还应当理解,图1中的云平台120可以由非基于云的平台(诸如服务器,本地计算系统等)代替或补充。资产110可以包括硬件/结构资产,例如在工业,医疗保健,制造,能源,运输等中使用的机器和设备。还应当理解,资产110可以包括软件,处理,参与者,资源等。
由资产110传输并由云平台120接收的数据可以包括作为资产110的操作结果而输出的原始时间序列数据等。由云平台120存储和处理的数据可以以某种有意义的方式输出到用户装置130。在图1的示例中,资产110,云平台120和用户装置130可以经由网络(诸如因特网,专用网络,有线网络,无线网络等)彼此连接。而且,用户装置130可以与由云平台120托管并部署在云平台120上的软件交互,以便从资产110接收数据并控制资产110的操作。
软件和硬件系统可以用于增强资产的操作或以其他方式与资产的操作结合使用,并且可以由云平台120托管,并且可以与资产110交互。例如,ML模型(或AI模型)可用于优化资产或来自资产的数据的性能。作为另一个示例,ML模型可以用于预测,分析,控制,管理资产及其部件(软件和硬件)或以其他方式与资产及其部件(软件和硬件)交互。ML模型也可以存储在云平台120中和/或边缘(例如,资产计算系统,边缘PC,资产控制器等)处。
当经由云平台120托管的一个或多个应用处理数据时,用户装置130可以接收数据或关于资产的其他信息的视图。例如,用户装置130可以接收基于图的结果,图,图表,警告,测量,动力水平等。作为另一示例,用户装置130可以显示时态用户界面,该时态用户界面允许其用户经由云平台120托管的一个或多个应用将命令输入到资产。
来自资产110的信息可以被通信到云平台120。例如,外部传感器可用于感测关于资产的功能,处理,操作等的信息,或感测关于资产,工人,停机时间,机器或设备维护等处或周围的环境条件的信息。外部传感器可以被构造为与云平台120进行数据通信,该云平台120可以被构造为存储原始传感器信息并将原始传感器信息传输到用户装置130,在用户装置130中,原始传感器信息可以由用户,应用,系统等访问,以用于进一步处理。此外,资产110的操作可以由用户通过云平台120或其他远程主机平台(例如,网络服务器)托管的应用输入命令来增强或以其他方式控制。从资产110提供的数据可以包括时间序列数据或与资产110执行的操作相关联的其他类型的数据。
工业数据或与资产有关的数据可以包括由附接到资产的一个或多个传感器、位于资产的周围环境内的传感器等感测的时间序列数据。与资产有关的数据可以包括时间序列数据,例如压力,速度,温度,旋转力,噪声(音频),湿度等。通常,当操作员(或其他用户)期望在历史时间序列数据中搜索时间序列数据的相似模式时,会出现这种情况。示例实施例提供了一种系统,该系统可以实施搜索处理而无需比较两个时间序列段之间的距离测量。相反,示例实施例提供了一种使用符号串来执行基于文本的搜索的系统。
图2A示出根据示例实施例的将时态模式变换为符号串210的处理。参照图2A,时间序列图200以实线201(也被称为时态模式)的形式示出时间序列数据的测量。在该示例中,时间序列数据是随时间的温度测量。应当理解,用户可以选择线201的特定段用于搜索。然而,为了方便起见,在该示例中,将线201的整体转换为符号串210。换句话说,线201表示要搜索的时态模式。
作为响应,系统可以基于为图200设置的仓(bin)205将线201转换为符号串210。仓205在该示例中是水平线,其将图划分为四个仓,其中每个仓与字母标识符A,B,C和D相关联。在该示例中,每个仓的大小大致相同。然而,应当理解,仓相对于彼此可以具有不同的大小。可以基于线201的数据点的频率在学习阶段期间确定仓的大小。例如,其中集中更多数据点的图区域可以具有较小的仓,而其中数据点稀疏集中的图区域可以具有较大的仓。
根据各种实施例,使用数据落入的仓的仓标识符(A,B,C,D等)为每个数据点生成符号。结果是将时态模式有损压缩为符号序列。例如,当对仓A进行五次访问,随后对仓B进行三次访问时,可以生成符号序列“aaaaabbb”。当图随时间变化时,线(数据点)可能从一个仓移动到另一个仓。每次处理时间序列数据点,就可能会生成新的符号。
然后,下一步将获得的符号序列压缩为字母和数字表示,其中每个字母对应于观察到的符号,并且数字是该符号的连续重复计数(例如a5,b3等,对于上述示例中的序列),将时间序列数据抽象为字母数字符号序列。
在图2A的示例中,图200的线201被转换为符号串210,其包括值a11,b16,c5,d9,c13,d4,c5,b5和a8。为了使符号串在搜索阶段期间更加灵活,系统可以缩放每个符号的字母数字值或重复计数,以允许沿时间轴线近似匹配。在图2A的示例中,符号串210可以被缩放为缩放的串220。在这种情况下,缩放比为5比1,四舍五入到最接近的整数值。例如,数字11可以缩放为2.2(即11除以5)。在该示例中,余数0.2可以缩小为零,因此数字2.2可以四舍五入为2。相反,如果数字为2.6,则可以将其四舍五入为数字3,依此类推。
图2B示出了变换器234执行学习阶段的处理230,在处理230期间,将存储在原始时间序列数据库232中的原始时间序列时态模式变换(即压缩)为符号串并存储在符号数据库236中。在此,变换器234可以从时间序列数据库232中存储的原始时间序列模式确定最佳离散化仓边界。当经由离散化将数据转换为符号时,可以最佳地确定仓边界,以保留最多的原始信息量。例如,如果数据点通常聚集在数据范围的某些区域中,则可以在这些部分中使用更多的仓,以保留更多的保真度。同时,如果在数据空间的其他部分发现较少的数据点,则可以使用较少的仓。因此,最佳利用了符号的总词汇量。当接收到新模式(例如搜索模式)时,可以将先前确定的仓边界用于新数据模式。
当确定离散化仓时,变换器234可基于离散化仓将存储在时间序列数据库232中的原始时间序列时态模式转换成符号串。此外,压缩的符号串可以存储在符号数据库236中,在数据库236中,压缩的符号串可以在随后的搜索处理期间被访问。在此,变换器234可以在搜索阶段期间将符号串缩小为更灵活的表示。
图2C示出了针对从用户装置242提供的时间序列段执行的搜索的处理240。在这种情况下,查询处理器244可以使用在图2B的学习处理230期间确定的离散化仓,将时间序列段转换成用于搜索的离散格式。当该段已经被转换成离散表示时,查询处理器244可以在符号数据库236中搜索匹配或相似的符号模式。在此,在执行搜索之前,查询处理器可以进一步缩小符号串,例如图2A的示例所示。
当在符号数据库236中找到匹配的符号串时,查询处理器244可以从时间序列数据库232中检索与匹配的字符串相对应的原始数据。此外,查询处理器244可以将原始时间序列模式(或其他信息)作为搜索结果输出到在用户装置242上显示的用户界面。
在一些实施例中,变换器234和查询处理器244可以被布置在分布式系统(诸如Spark或Hadoop集群)上。因此,分布式系统可以同时处理多个查询(或多元查询的多个变量),从而提高处理速度。此外,时间序列数据库232和符号数据库236可以是分布式数据库或文件系统。
图2D示出了用于执行时间序列模式搜索的系统250的另一示例。参照图2D,系统250包括符号变换器252,符号模式搜索253,符号数据库254和时间序列数据库255。系统250可以通过使用数据库,网络服务器,用户装置,云平台等来实施。时间序列数据库255可以存储输入/选择的时态模式251的原始时间序列数据。符号变换器252可以接收时态模式251并将其转换为符号串。同时,符号时间序列数据库254可以存储已经被变换为符号串的先前的时态模式。符号模式搜索模块253可以利用已被转换为符号串的输入时态模式251来识别任何先前存储的模式。在此,符号模式搜索253可以识别匹配的串,并将匹配模式的标识符转发给时间序列数据库255,在时间序列数据库255中可以检索与匹配的模式相对应的原始时间序列数据并在256中输出。结果是,输出包括形状、大小等与输入时态模式相似的先前存储的时态模式,而无需执行基于原始数据的搜索。
在该示例中,两个数据库(符号数据库254和时间序列数据库255)可以将数据存储为键值对,其中键是标识符(例如,资产和传感器),而值是连续时间序列和符号时间序列数据。符号变换器将时间序列数据库255中的连续数据转换为存储在符号数据库254中的符号域。在运行时,提交查询时间序列段,(例如,经由图形用户界面或命令行界面),指定传感器和查询段数据。使用符号变换器252将查询数据转换为符号表示,然后使用文本搜索方法在符号数据库254中针对符号候选查找匹配。返回匹配参数(例如,匹配的时间序列和所有匹配的时态位置的键),然后将其用于从时间序列数据库255中获取相应的连续数据(时态模式256),并返回和/或输出作为屏幕上的查询结果。
在一些实施例中,符号变换器252可以将连续的时间序列数据(输入251)转换为压缩的符号序列,该压缩的符号序列通常导致压缩几个数量级,从而减小了搜索空间的大小。在多元情况下,对来自每个传感器的数据进行的转换可以基于以下步骤执行:(1)每个传感器的经验概率密度估计,(2)使用该密度和约束优化来获得使符号表示的重构损失最小化的离散化边界,(3)使用离散化边界,通过将连续域数据映射到与每个离散化仓相对应的符号来获得每个传感器的符号时间序列,以及(4)符号时间序列压缩利用由于符号化而产生的冗余来产生由符号及其连续重复计数组成的字母数字符号。每个字母数字符号都在符号时间序列中标记过渡点,将原始时间序列的形状抽象为分段恒定段的列表。可以在运行时完成连续重复计数的时态缩放,以允许在时态意义上近似匹配。
在运行时,可以使用每个传感器的字母数字符号将输入查询时间序列段251转换为压缩符号表示。在多元情况下,查询传感器的压缩符号表示可以转换为乘积符号表示,以抽象多元时间序列模式。这可以通过找到每个传感器中的所有过渡点的并集以产生乘积符号表示来完成。在这种情况下,乘积表示中的每个符号可以是来自每个传感器的符号的笛卡尔乘积,并且其值可以是相应的重复计数。由此,将多元时间序列抽象为多元分段恒定段的序列。给定选定的查询传感器,也可以对存储在符号数据库254中的压缩符号时间序列进行乘积符号构造。可以使用文本搜索方法(诸如正则表达式)在符号数据库254中针对候选项搜索匹配。
图3示出了根据示例实施例的用于时间序列数据模式的搜索处理300。参照图3,用户界面显示时间序列数据的图310。在此,用户可以从图310中选择搜索段312。可以经由输入机制执行选择。在该示例中,段312仅是线图310的一部分,而不是全部。作为响应,搜索系统320可以检测搜索段312的选择,并将搜索段312变换为串314。
接下来,搜索系统320可以尝试基于变换的串314来识别先前存储的任何相似的时态模式,先前存储的时态模式包括与所选段312匹配的段。在此,搜索系统320识别与图330的匹配部分332相对应的匹配串334。搜索系统320可以检索与串334相对应的图330。在该示例中,图330与图310不同。但是,匹配部分332类似于所选段312。因此,基于所选段312将图330确定为执行的搜索查询的输出/结果。
该系统是灵活的,因为该系统使用的符号抽象可以编纂不同长度和形式的各种时态模式,从而简化查询规范。该系统是可扩展的,因为该系统经由压缩的符号序列的乘积构造自然地扩展到多元搜索的多元时态模式。该系统是可组合的,因为可以查询和搜索由多元时态模式组成的复杂时态模式。此外,该系统是可缩放的,因为由于算法是固有地数据并行,因此该系统自然地缩放到大型数据集。实现该系统的独特技术特征是:(1)用于可缩放变换和时间序列数据搜索的符号变换,(2)最佳离散化以使符号变换期间的损失最小化,(3)产生模式构造以从压缩的符号表示中构造多元时态模式,以及(4)基于文本的时间序列数据搜索,用于搜索复杂模式。
图4示出了根据示例实施例的用于多元时间序列数据模式的搜索处理400。例如,处理400可以由计算系统(诸如服务器,云平台,数据库等)执行。在图4的示例中,基于时间序列数据的三个输入变量411、412和413来执行多元搜索。用户可以预先指定三个输入变量。当用户在第一变量(例如温度411)的屏幕上选择时间范围时,系统可以从其他输入变量(例如压力412和流量413)中识别相应的时间范围。因此,系统420可以在其他多元数据集中搜索相似多元模式。
在这些多元示例中,不同的传感器之间可能存在某种关系。例如,图4中的三个传感器可以测量与相同的工业资产相关联的不同变量(温度411,压力412和流量413)。作为另一个示例,可以是三个传感器测量相同的物品,但相对于资产的在不同位置处。该算法仅关心每个传感器中的时态模式以及这些传感器之间的关系,搜索后返回的模式与查询段相同或相似。模式可能是变量A以一定速率上升同时变量B以一定速率上升等。然后,系统420寻找这样的请求模式保持的多元模式(包括传感器之间的关系)。搜索可以在多个资产而不仅仅是单个资产上执行。当执行多元搜索时,系统420可以识别满足所有三个(或多个)变量的匹配。
图5示出了根据示例实施例的用于为时间序列数据的时态模式生成搜索结果的方法500。例如,方法500可以由数据库,云平台,服务器,用户装置,装置的组合等来执行。参照图5,在510中,该方法可以包括存储先前记录的时间序列数据的时态模式。先前记录的时态模式可以包括图上的时间序列数据的表示。
在520中,该方法可以包括基于先前记录的时态模式来确定一组最佳仓边界,其中该组最佳仓边界将时间序列数据的时态模式划分成多个离散仓,每个离散仓均标记有各自的符号。在此,可以将相同组的最佳仓边界用于每个先前记录的时态模式。可以基于防止或以其他方式限制由于压缩引起的数据丢失的函数来生成该组仓边界。
在530中,该方法可以包括基于该组最佳仓边界,将先前记录的时间序列数据的时态模式变换为符号串,其中,符号串基于多个离散仓中的数据点。这里,每个符号串可以包括符号标识符和表示与该符号相对应的仓中的连续数据点的数量的数字的序列。此外,在540中,该方法可以包括将符号串存储在符号存储器内。
在一些实施例中,在550中,该方法可以进一步包括:检测要搜索的时态时间序列数据模式的搜索段的输入;以及基于该组最佳仓边界,将搜索段变换成要搜索的符号串。在一些实施例中,在560中,该方法可以进一步包括识别包括在所存储的符号串中的、与搜索段的符号串匹配的先前记录的时态模式的符号串。在一些实施例中,在570中,该方法可以进一步包括将识别出的先前记录的时态模式的符号串转换成原始时态模式,并且输出关于原始时态模式的信息以用于显示。
此外,识别可以包括基于多个符号串来识别包括在先前存储的多元数据集中的相似多元模式。在此,多元搜索中的变量之间的关系必须保持为真。例如,如果温度下降时压力上升,则系统必须以类似的方式找到温度变量下降时压力变量上升的匹配。
图6示出了根据示例实施例的计算系统600。例如,计算系统600可以是云平台,服务器,用户装置或具有处理器的某些其他计算装置。而且,计算系统600可以执行图5的方法。参照图6,计算系统600包括网络接口610,处理器620,输入/输出630和存储器装置640。尽管未在图6中示出,但是计算系统600可以包括其他部件,诸如显示器,麦克风,接收器/传输器等。在一些实施例中,处理器620可以用于控制或以其他方式替代计算系统600的任何部件的操作。
网络接口610可以通过网络(诸如因特网,专用网络,公共网络等)来传输和接收数据。网络接口610可以是无线接口,有线接口或其组合。处理器620可以包括一个或多个处理装置,每个处理装置包括一个或多个处理核心。在一些示例中,处理器620是多核处理器或多个多核处理器。输入/输出630可以是包括端口,接口,电缆等中的一个或多个的硬件装置,其可以接收数据输入并向例如装置600的嵌入式显示器,外部连接的显示器,相邻的计算装置,云平台,打印机,输入单元等输出数据。存储器装置640不限于任何特定的存储器装置,并且可以包括任何已知的储存器装置,例如RAM,ROM,硬盘,分布式存储器等。在一些实施例中,可以基于预定的分区方案,随后的重新分区方案等来构造和重新构造存储器640。
根据各种实施例,存储器640可以存储先前记录的时间序列数据的时态模式。例如,先前记录的时态模式可以被存储在时态数据存储器中。处理器620可以基于先前记录的时态模式来确定一组最佳仓边界。例如,一组最佳仓边界可以包括多个阈值,其将观察到的时间序列数据范围划分为多个离散仓,每个离散仓均标记有各自的符号。处理器620可以基于该组最佳仓边界,将先前记录的时间序列数据的时态模式变换成符号串,其中,符号串基于多个离散仓中的数据点。此外,处理器620可以将符号串存储在包括在存储器640中的符号存储器内。
在一些实施例中,处理器620可以检测要搜索的时间序列数据的搜索段的输入,并且基于该组最佳仓边界,将搜索段变换成要搜索的符号串。在一些实施例中,处理器620可以识别包括在所存储的与搜索段的符号串匹配的符号串中的先前记录的时态模式的符号串。在一些实施例中,处理器620可以将所识别的先前记录的时态模式的符号串转换成最初的原始时间序列数据,并且输出关于所检索的时态模式的信息以用于显示。
如基于前述说明书将理解的,可以使用包括计算机软件,固件,硬件或其任何组合或子集的计算机编程或工程技术来实施本公开的上述示例。可以在一个或多个非暂时性计算机可读介质中实现或提供具有计算机可读代码的任何此类所得程序,从而根据本公开的所讨论的示例来制造计算机程序产品,即制品。例如,非暂时性计算机可读介质可以是但不限于固定驱动器,软盘,光盘,磁带,闪存,半导体存储器(例如只读存储器(ROM))和/或任何传输/接收介质,例如因特网,云存储,物联网或其他通信网络或链路。可以通过直接从一种介质执行代码,通过将代码从一种介质复制到另一种介质或通过在网络上传输代码来制造和/或使用包含计算机代码的制品。
计算机程序(也称为程序,软件,软件应用,“app”或代码)可以包括用于可编程处理器,并且可以以高级程序和/或面向对象的编程语言,和/或以汇编/机器语言来实施的机器指令。如本文所用,术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品,设备,云存储,物联网和/或用于向可编程处理器提供机器指令和/或数据的装置(例如,磁盘,光盘,储存器,可编程逻辑装置(PLD)),该可编程处理器包括接收机器指令作为机器可读信号的机器可读介质。但是,“机器可读介质”和“计算机可读介质”不包括瞬时信号。术语“机器可读信号”是指可用于向可编程处理器提供机器指令和/或任何其他种类数据的任何信号。
以上对本文处理的描述和说明不应被认为暗示执行处理步骤的固定顺序。而是,可以以可实践的任何顺序执行处理步骤,包括同时执行至少一些步骤。尽管已经结合具体示例描述了本公开,但是应当理解,在不脱离所附权利要求中阐述的本公开的精神和范围的情况下,可以对所公开的实施例做出对本领域技术人员显而易见的各种改变,替换和变更。
本发明的进一步方面通过以下条项的主题提供:
1.一种计算系统,包括:存储器,所述存储器存储先前记录的时间序列数据的时态模式;和处理器,所述处理器被构造为基于先前记录的时态模式来确定一组最佳仓边界,其中所述一组最佳仓边界将所观察的时间序列数据的范围划分为各自标记有相应符号的多个离散仓,并且基于所述一组最佳仓边界,将所述先前记录的时间序列数据的时态模式变换为符号串,其中符号串基于所述多个离散仓中的数据点,其中,所述处理器进一步被构造为将所述符号串存储在符号存储器中。
2.根据任何在前条项的计算系统,其中,所述处理器进一步被构造为检测要搜索的时态时间序列数据模式的段的输入,并且基于所述一组最佳仓边界,将搜索段变换为要搜索的符号串。
3.根据任何在前条项的计算系统,其中,所述处理器进一步被构造为识别包括在与所述搜索段的所述符号串匹配的所存储的符号串中的先前记录的时态模式的符号串。
4.根据任何在前条项的计算系统,其中,所述处理器进一步被构造为将所标识的所述先前记录的时态模式的符号串转换为原始时间序列数据的最初时态模式,并且输出关于所述最初时态模式的信息以用于显示。
5.根据任何在前条项的计算系统,其中,符号串中包括的每个字母数字符号包括唯一仓标识符和数值,所述数值基于包括在对应离散仓中的所述时态模式的连续数据点的数量。
6.根据任何在前条项的计算系统,其中,所述处理器进一步被构造为基于缩放比,将每个字母数字符号的值缩放为不太精确的值。
7.根据任何在前条项的计算系统,其中,所述处理器被构造为从多元时间序列数据的多个时态模式中接收段的选择,其中所述多个时态模式对应于多元数据集中的多个变量。
8.根据任何在前条项的计算系统,其中,所述处理器被构造为将所述多个时态模式中的每一个时态模式变换为要搜索的多个符号串,并且基于所述多个符号串来识别包括在存储在所述符号存储器中的先前存储的多元数据集中的相似多元模式。
9.一种方法,包括:存储先前记录的时间序列数据的时态模式;基于先前记录的时态模式来确定一组最佳仓边界,其中,所述一组最佳仓边界将所观察的时间序列数据的范围划分各自标记有相应符号的多个离散仓;基于所述一组最佳仓边界,将所述先前记录的时间序列数据的时态模式变换为符号串,其中,符号串基于所述多个离散仓中的数据点;和将所述符号串存储在符号存储器中。
10.根据任何在前条项的方法,进一步包括检测要搜索的时态时间序列数据模式的段的输入,并且基于所述一组最佳仓边界,将搜索段变换为要搜索的符号串。
11.根据任何在前条项的方法,进一步包括识别包括在与所述搜索段的所述符号串匹配的所存储的符号串中的先前记录的时态模式的符号串。
12.根据任何在前条项的方法,进一步包括将所识别的所述先前记录的时态模式的符号串转换为原始时间序列数据的最初时态模式,并且输出关于所述最初时态模式的信息以用于显示。
13.根据任何在前条项的方法,其中,包括在符号串中的每个字母数字符号包括唯一仓标识符和数值,所述数值基于包括在对应离散仓中的所述时态模式的连续数据点的数量。
14.根据任何在前条项的方法,进一步包括基于缩放比,将每个字母数字符号的所述数值缩放为不太精确的值。
15.根据任何在前条项的方法,进一步包括从多元时间序列数据的多个时态模式中接收段的选择,其中所述多个时态模式对应于多元数据集中的多个变量。
16.根据任何在前条项的方法,进一步包括将所述多个时态模式中的每一个时态模式变换为要搜索的多个符号串,并基于所述多个符号串来识别包括在存储在所述符号存储器中的先前存储的多元数据集中的相似多元模式。
17.一种包括指令的非暂时性计算机可读介质,当所述指令由处理器执行时使计算机执行方法,所述方法包括:存储先前记录的时间序列数据的时态模式;基于先前记录的时态模式来确定一组最佳仓边界,其中,所述一组最佳仓边界将所观察的时间序列数据的范围划分为各自标记有相应符号的多个离散仓;基于所述一组最佳仓边界,将所述先前记录的时间序列数据的时态模式变换为符号串,其中,符号串基于所述多个离散仓中的数据点;和将所述符号串存储在符号存储器中。
18.根据任何在前条项的非暂时性计算机可读介质,其中,所述方法进一步包括检测要搜索的时态时间序列数据模式的段的输入,并基于所述一组最佳仓边界将搜索段变换为要搜索的符号串。
19.根据任何在前条项的非暂时性计算机可读介质,其中,所述方法进一步包括识别包括在与所述搜索段的所述符号串匹配的所存储的符号串中的先前记录的时态模式的符号串。
20.根据任何在前条项的非暂时性计算机可读介质,其中,所述方法进一步包括将所识别的所述先前记录的时态模式的符号串转换为原始时间序列数据的最初时态模式,并且输出关于所述最初时态模式的信息以用于显示。
Claims (20)
1.一种计算系统,其特征在于,包括:
存储器,所述存储器存储先前记录的时间序列数据的时态模式;和
处理器,所述处理器被构造为基于先前记录的时态模式来确定一组最佳仓边界,其中所述一组最佳仓边界将所观察的时间序列数据的范围划分为各自标记有相应符号的多个离散仓,并且基于所述一组最佳仓边界,将所述先前记录的时间序列数据的时态模式变换为符号串,其中符号串基于所述多个离散仓中的数据点,
其中,所述处理器进一步被构造为将所述符号串存储在符号存储器中;并且
其中所述处理器进一步被构造为:
执行有损压缩函数以基于所述时态模式的连续数据点的数量来确定每个仓的大小;
压缩所述符号串以生成包括字母和数字表示的字母数字串,其中每个字母表示所述相应符号,并且每个数字表示所述连续数据点的数量;和
通过基于缩放比缩放所述字母数字串来生成缩放的串。
2.根据权利要求1所述的计算系统,其特征在于,其中,所述处理器进一步被构造为检测要搜索的时态时间序列数据模式的段的输入,并且基于所述一组最佳仓边界,将搜索段变换为要搜索的符号串。
3.根据权利要求2所述的计算系统,其特征在于,其中,所述处理器进一步被构造为识别包括在与所述搜索段的所述符号串匹配的所存储的符号串中的先前记录的时态模式的符号串。
4.根据权利要求3所述的计算系统,其特征在于,其中,所述处理器进一步被构造为将所标识的所述先前记录的时态模式的符号串转换为原始时间序列数据的最初时态模式,并且输出关于所述最初时态模式的信息以用于显示。
5.根据权利要求1所述的计算系统,其特征在于,其中,符号串中包括的每个字母数字符号包括唯一仓标识符和数值,所述数值基于包括在对应离散仓中的所述时态模式的所述连续数据点的数量。
6.根据权利要求5所述的计算系统,其特征在于,其中,所述处理器进一步被构造为基于所述缩放比,将每个字母数字符号的值缩放为不太精确的值。
7.根据权利要求1所述的计算系统,其特征在于,其中,所述处理器被构造为从多元时间序列数据的多个时态模式中接收段的选择,其中所述多个时态模式对应于多元数据集中的多个变量。
8.根据权利要求7所述的计算系统,其特征在于,其中,所述处理器被构造为将所述多个时态模式中的每一个时态模式变换为要搜索的多个符号串,并且基于所述多个符号串来识别包括在存储在所述符号存储器中的先前存储的多元数据集中的相似多元模式。
9.一种方法,其特征在于,包括:
存储先前记录的时间序列数据的时态模式;
基于先前记录的时态模式来确定一组最佳仓边界,其中,所述一组最佳仓边界将所观察的时间序列数据的范围划分各自标记有相应符号的多个离散仓;
基于所述一组最佳仓边界,将所述先前记录的时间序列数据的时态模式变换为符号串,其中,符号串基于所述多个离散仓中的数据点;将所述符号串存储在符号存储器中;
由处理器执行有损压缩函数以基于所述时态模式的连续数据点的数量来确定每个仓的大小:
由所述处理器压缩所述符号串以生成包括字母和数字表示的字母数字串,其中每个字母表示所述相应符号,并且每个数字表示所述连续数据点的数量;和
通过基于缩放比缩放所述字母数字串来生成缩放的串。
10.根据权利要求9所述的方法,其特征在于,进一步包括检测要搜索的时态时间序列数据模式的段的输入,并且基于所述一组最佳仓边界,将搜索段变换为要搜索的符号串。
11.根据权利要求10所述的方法,其特征在于,进一步包括识别包括在与所述搜索段的所述符号串匹配的所存储的符号串中的先前记录的时态模式的符号串。
12.根据权利要求11所述的方法,其特征在于,进一步包括将所识别的所述先前记录的时态模式的符号串转换为原始时间序列数据的最初时态模式,并且输出关于所述最初时态模式的信息以用于显示。
13.根据权利要求9所述的方法,其特征在于,其中,包括在符号串中的每个字母数字符号包括唯一仓标识符和数值,所述数值基于包括在对应离散仓中的所述时态模式的所述连续数据点的数量。
14.根据权利要求13所述的方法,其特征在于,进一步包括基于所述缩放比,将每个字母数字符号的所述数值缩放为不太精确的值。
15.根据权利要求9所述的方法,其特征在于,进一步包括从多元时间序列数据的多个时态模式中接收段的选择,其中所述多个时态模式对应于多元数据集中的多个变量。
16.根据权利要求15所述的方法,其特征在于,进一步包括将所述多个时态模式中的每一个时态模式变换为要搜索的多个符号串,并基于所述多个符号串来识别包括在存储在所述符号存储器中的先前存储的多元数据集中的相似多元模式。
17.一种包括指令的非暂时性计算机可读介质,其特征在于,当所述指令由处理器执行时使计算机执行方法,所述方法包括:
存储先前记录的时间序列数据的时态模式;
基于先前记录的时态模式来确定一组最佳仓边界,其中,所述一组最佳仓边界将所观察的时间序列数据的范围划分为各自标记有相应符号的多个离散仓;
基于所述一组最佳仓边界,将所述先前记录的时间序列数据的时态模式变换为符号串,其中,符号串基于所述多个离散仓中的数据点;
将所述符号串存储在符号存储器中;
由所述处理器执行有损压缩函数以基于所述时态模式的连续数据点的数量来确定每个仓的大小:
由所述处理器压缩所述符号串以生成包括字母和数字表示的字母数字串,其中每个字母表示所述相应符号,并且每个数字表示所述连续数据点的数量;和
通过基于缩放比缩放所述字母数字串来生成缩放的串。
18.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,其中,所述方法进一步包括检测要搜索的时态时间序列数据模式的段的输入,并基于所述一组最佳仓边界将搜索段变换为要搜索的符号串。
19.根据权利要求18所述的非暂时性计算机可读介质,其特征在于,其中,所述方法进一步包括识别包括在与所述搜索段的所述符号串匹配的所存储的符号串中的先前记录的时态模式的符号串。
20.根据权利要求19所述的非暂时性计算机可读介质,其特征在于,其中,所述方法进一步包括将所识别的所述先前记录的时态模式的符号串转换为原始时间序列数据的最初时态模式,并且输出关于所述最初时态模式的信息以用于显示。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/299,617 US11294921B2 (en) | 2019-03-12 | 2019-03-12 | Multivariate time-series data search |
US16/299,617 | 2019-03-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111694877A CN111694877A (zh) | 2020-09-22 |
CN111694877B true CN111694877B (zh) | 2024-02-20 |
Family
ID=69902999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010164972.XA Active CN111694877B (zh) | 2019-03-12 | 2020-03-11 | 多元时间序列数据搜索 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11294921B2 (zh) |
EP (1) | EP3709187B1 (zh) |
CN (1) | CN111694877B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210182416A1 (en) * | 2019-12-13 | 2021-06-17 | Vmware, Inc. | Method and system for secure access to metrics of time series data |
JP2021135780A (ja) * | 2020-02-27 | 2021-09-13 | 株式会社東芝 | 状態監視装置、方法及びプログラム |
EP4053738A1 (en) * | 2021-03-03 | 2022-09-07 | Tata Consultancy Services Limited | Determining similar behavioral pattern between time series data obtained from multiple sensors and clustering thereof |
CN112766426B (zh) * | 2021-04-06 | 2021-09-07 | 中国铁道科学研究院集团有限公司通信信号研究所 | 一种基于时间约束的故障类型识别方法 |
CN113703776A (zh) * | 2021-09-03 | 2021-11-26 | 支付宝(杭州)信息技术有限公司 | 用于间接边界的区间分析方法及区间分析装置 |
CN114866487B (zh) * | 2022-03-08 | 2024-03-05 | 国网江苏省电力有限公司南京供电分公司 | 一种海量电网调度数据采集与存储系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1560765A (zh) * | 2002-12-06 | 2005-01-05 | �ձ����ŵ绰��ʽ���� | 信号压缩和检索方法、及各自的装置、程序、记录媒体 |
CN104182460A (zh) * | 2014-07-18 | 2014-12-03 | 浙江大学 | 基于倒排索引的时间序列相似性查询方法 |
CN105242779A (zh) * | 2015-09-23 | 2016-01-13 | 歌尔声学股份有限公司 | 一种识别用户动作的方法和移动智能终端 |
CN108885642A (zh) * | 2016-02-09 | 2018-11-23 | 月影移动有限公司 | 用于存储、更新、搜索和过滤时间序列数据集的系统和方法 |
CN109218013A (zh) * | 2018-10-10 | 2019-01-15 | 青岛科技大学 | 掩盖明文符号边界的二进制数据通信加密法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7895012B2 (en) * | 2005-05-03 | 2011-02-22 | Hewlett-Packard Development Company, L.P. | Systems and methods for organizing and storing data |
JP4686505B2 (ja) * | 2007-06-19 | 2011-05-25 | 株式会社東芝 | 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置 |
US8458354B2 (en) * | 2010-01-27 | 2013-06-04 | Interdisciplinary Center Herzliya | Multi-pattern matching in compressed communication traffic |
JP5423553B2 (ja) * | 2010-04-09 | 2014-02-19 | 株式会社日立製作所 | データベース管理方法、計算機、センサネットワークシステム及びデータベース検索プログラム |
US9076156B2 (en) * | 2011-05-26 | 2015-07-07 | Nice Systems Technologies Uk Limited | Real-time adaptive binning through partition modification |
JP2013206104A (ja) * | 2012-03-28 | 2013-10-07 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
US20160161375A1 (en) * | 2014-12-05 | 2016-06-09 | General Electric Company | Text-mining approach for diagnostics and prognostics using temporal multidimensional sensor observations |
US10078664B2 (en) * | 2014-12-05 | 2018-09-18 | General Electric Company | Searching for and finding data across industrial time series data |
MX364165B (es) * | 2015-06-19 | 2019-04-15 | Tata Consultancy Services Ltd | Métodos y sistemas para la busqueda de patrones lógicos. |
US10339371B2 (en) * | 2015-09-23 | 2019-07-02 | Goertek Inc. | Method for recognizing a human motion, method for recognizing a user action and smart terminal |
US11048727B2 (en) * | 2018-09-10 | 2021-06-29 | Ciena Corporation | Systems and methods for automated feature selection and pattern discovery of multi-variate time-series |
-
2019
- 2019-03-12 US US16/299,617 patent/US11294921B2/en active Active
-
2020
- 2020-03-09 EP EP20161707.3A patent/EP3709187B1/en active Active
- 2020-03-11 CN CN202010164972.XA patent/CN111694877B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1560765A (zh) * | 2002-12-06 | 2005-01-05 | �ձ����ŵ绰��ʽ���� | 信号压缩和检索方法、及各自的装置、程序、记录媒体 |
CN104182460A (zh) * | 2014-07-18 | 2014-12-03 | 浙江大学 | 基于倒排索引的时间序列相似性查询方法 |
CN105242779A (zh) * | 2015-09-23 | 2016-01-13 | 歌尔声学股份有限公司 | 一种识别用户动作的方法和移动智能终端 |
CN108885642A (zh) * | 2016-02-09 | 2018-11-23 | 月影移动有限公司 | 用于存储、更新、搜索和过滤时间序列数据集的系统和方法 |
CN109218013A (zh) * | 2018-10-10 | 2019-01-15 | 青岛科技大学 | 掩盖明文符号边界的二进制数据通信加密法 |
Non-Patent Citations (5)
Title |
---|
An Efficient Hybrid Exact String Matching Algorithm to Minimize the Number of Attempts and Character Comparisons;Prince Mahmud;2018 21st International Conference of Computer and Information Technology (ICCIT);全文 * |
南晓强等.基于符号时间序列法的风电功率波动分析与预测.《中国电力》.2013,正文第0-1节、图1. * |
基于统计特征的时序数据符号化算法;钟清流;蔡自兴;;计算机学报(10);全文 * |
蒋嵘.基于形态表示的时间序列相似性搜索.计算机研究与发展.2000,(05),全文. * |
钟清流 ; 蔡自兴 ; .基于统计特征的时序数据符号化算法.计算机学报.2008,(10),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111694877A (zh) | 2020-09-22 |
EP3709187A1 (en) | 2020-09-16 |
US11294921B2 (en) | 2022-04-05 |
EP3709187B1 (en) | 2024-01-10 |
US20200293527A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694877B (zh) | 多元时间序列数据搜索 | |
Hsu et al. | Multiple time-series convolutional neural network for fault detection and diagnosis and empirical study in semiconductor manufacturing | |
CN111694879B (zh) | 一种多元时间序列异常模式预测方法及数据采集监控装置 | |
US10921759B2 (en) | Computer system and method for monitoring key performance indicators (KPIs) online using time series pattern model | |
CA2969957C (en) | Digital pattern prognostics | |
WO2016079972A1 (ja) | 要因分析装置、要因分析方法と記録媒体、及び、要因分析システム | |
US20160171037A1 (en) | Model change boundary on time series data | |
Zhang et al. | Integrated intelligent fault diagnosis approach of offshore wind turbine bearing based on information stream fusion and semi-supervised learning | |
US10810225B2 (en) | System and method for large scale data processing of source data | |
US10810508B1 (en) | Methods and apparatus for classifying and discovering historical and future operational states based on Boolean and numerical sensor data | |
JP5669553B2 (ja) | 異常検知装置、異常検知方法及び異常検知プログラム | |
JP7499360B2 (ja) | 深層学習によるコンパクトな表現と時系列セグメントの取得 | |
Wong et al. | Recurrent auto-encoder model for large-scale industrial sensor signal analysis | |
CN117131110B (zh) | 一种基于关联分析的容性设备介质损耗监测方法及系统 | |
US20160179936A1 (en) | Processing time-aligned, multiple format data types in industrial applications | |
US11055631B2 (en) | Automated meta parameter search for invariant based anomaly detectors in log analytics | |
CN116523499A (zh) | 基于数据驱动模型的自动故障诊断和预测方法及系统 | |
Akcan et al. | Diagnosing bearing fault location, size, and rotational speed with entropy variables using extreme learning machine | |
WO2020262353A1 (ja) | 異常検知装置および異常検知方法 | |
Figueirêdo et al. | Detecting interesting and anomalous patterns in multivariate time-series data in an offshore platform using unsupervised learning | |
Luo et al. | Automatic fault detection of sensors in leather cutting control system under GWO-SVM algorithm | |
Patri et al. | Predicting compressor valve failures from multi-sensor data | |
Chomphu et al. | Wellhead compressor failure prediction using attention-based bidirectional LSTMs with data reduction techniques | |
Bondu et al. | Saxo: An optimized data-driven symbolic representation of time series | |
Dhont et al. | Layered integration approach for multi-view analysis of temporal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |