CN104182460A - 基于倒排索引的时间序列相似性查询方法 - Google Patents

基于倒排索引的时间序列相似性查询方法 Download PDF

Info

Publication number
CN104182460A
CN104182460A CN201410344607.1A CN201410344607A CN104182460A CN 104182460 A CN104182460 A CN 104182460A CN 201410344607 A CN201410344607 A CN 201410344607A CN 104182460 A CN104182460 A CN 104182460A
Authority
CN
China
Prior art keywords
time series
query
candidate
approximate
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410344607.1A
Other languages
English (en)
Other versions
CN104182460B (zh
Inventor
孙建伶
陈岭
蔡青林
马骄阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410344607.1A priority Critical patent/CN104182460B/zh
Publication of CN104182460A publication Critical patent/CN104182460A/zh
Application granted granted Critical
Publication of CN104182460B publication Critical patent/CN104182460B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24528Standardisation; Simplification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于倒排索引的时间序列相似性查询方法,包含索引构建和查询处理步骤,首先利用符号聚集近似表示将实值型的时间序列转化为离散的字符串,然后提取特征子序列,利用向量近似文件存储编码,将子序列分别转为两种粒度的词插入倒排索引,构建多粒度时序倒排索引。针对该索引设计了高效的两级过滤查询方法,可实现k最近邻近似查询,在保证较高查准率的前提下,实现较低的查询时间开销,并且对时间序列长度、k最近邻查询规模及数据集规模具有良好的可扩展性。本发明在人们的日常活动和工业生产中可发挥重要作用,如股票波动的实时查询、传感器数据流的在线模式识别等。

Description

基于倒排索引的时间序列相似性查询方法
技术领域
本发明涉及数据库、数据挖掘及信息检索领域,尤其涉及一种基于倒排索引的时间序列相似性查询方法。
背景技术
时间序列广泛存在于人们的日常生活及工业生产中,如基金或股票的实时交易数据,零售市场的日销量数据,流程工业的传感器监测数据,天文观测数据,航空航天雷达、卫星监测数据,实时天气温度及空气质量指数等。
时间序列相似性查询,又称为时间序列的样例检索,在工业界有着广泛的应用需求。比如,在股票市场的实时交易中,交易员想要从海量的历史股票数据中,查询出与当前时刻股票走势的形态最相似的k条历史序列作为参考,来获取有价值的知识和启发,完成交易行为。很明显,解决该问题的最简单方法是对数据库的线性扫描,然而这种将查询序列与数据库每条序列一一对比的方法具有很高的时间开销。因此,工业界通常采用空间索引方法,如R树、R*树、网格文件等。但是,大多数空间索引方法的性能,会随着时间序列维度的升高而迅速降级,也就是出现“维度灾难”。所以,传统的查询方法在对时间序列构建空间索引之前,会首先采用特定的数据表示方法提取时间序列的特征,以实现降维。
目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者,变换参数不受单独的时间序列影响,而始终保持不变;该类表示大多基于频谱分解实现,如离散傅里叶变换、离散小波变换、离散余弦变换,它们主要通过对原始时间序列做相应的频域变换,提取主要的频谱系数作为特征;该类方法各有缺陷,如离散傅里叶变换只能提取总体形态特征而忽略了局部特征,离散小波变换只能处理长度为2的指数次的时间序列,离散余弦变换特征的下界紧凑度太弱,会导致很低的查询效率。数据适应性表示是指对变换参数的确定需要依赖数据本身;通过增加数据敏感的选择处理过程,可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等,前三种都需要先对原始时间序列进行分段,然后对每一子段单独处理:分段聚集近似是对各段求平均值;分段线性近似是对各段做线段拟合;符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号;根据它们对原始时间序列近似程度的不同,会导致它们的查询性能存在差异。奇异值分解和主成分分析是通过对所有时间序列做统一的特征矩阵分解实现的;这两类方法的典型缺陷是,它们具有很高的计算复杂度,而且分解过程只能在内存完成,数据规模的可扩展性很低。
工业界迄今采用的索引方法大多是基于树的空间索引方法,B-树最先用于索引一维数据,是许多分层索引结构的基础;R-树系列,如R*-树、R+-树等,采用最小边界矩形组织数据,但是最小边界矩形会覆盖大量无数据的空间,导致查询结果存在大量的“误命中”,从而降低查询效率;A-树使用了向量近似文件来存储最小边界矩形和虚拟边界矩形的上下边界,从而保证较低的索引开销和较高的查询完备性。由于工业生产中的时间序列具有高维或超高维特性,即使在精度损失可接受的范围内做降维处理,仍然可能具有很高的维度,因此,基于树的索引方法很容易出现“维度灾难”问题。
发明内容
本发明要解决的问题是对用户任意指定的一条时间序列,如何快速地从大规模时间序列数据库中找出大部分相似序列。为了解决该问题,本发明提出了基于倒排索引的时间序列相似性查询方法。
本发明的目的是通过以下技术方案来实现的:一种基于倒排索引的时间序列相似性查询方法,包括以下步骤:
(1)索引构建,具体包括以下子步骤:
(1.1)依次读取时间序列数据库中的每条时间序列;
(1.2)将时间序列进行特征提取,具体为:
(1.2.1)将时间序列进行Z-规范化处理;
(1.2.2)将步骤1.2.1处理得到的时间序列平均分为w段,计算每段的平均值,得到时间序列的分段聚集近似向量;根据所有时间序列数值的概率分布,对实数域做等概率的区间划分得到离散化区间,将分段聚集近似向量的每个实数元素映射到对应的离散化区间,并对所有离散化区间依次编号,得到符号聚集近似单词,记为SW;
(1.2.3)基于向量近似文件的数据结构,分别采用两种粒度的参数对SW编码,得到粗粒度符号聚集近似单词SW'和细粒度符号聚集近似单词SW";
(1.3)以时间序列的SW'作为Term构建单词词表;
(1.4)以时间序列的SW"及其对应的时间序列ID作为Posting构建索引文件;
(1.5)根据步骤1.3构建的单词词表和步骤1.4构建的索引文件,构造多粒度时序倒排索引;
(2)查询处理,具体包括以下子步骤:
(2.1)将查询时间序列Q进行与步骤1.2相同的特征提取,得到粗粒度符号聚集近似单词SW'(Q)和细粒度符号聚集近似单词SW"(Q);
(2.2)对SW'(Q)查询步骤1.5得到的多粒度时序倒排索引,获取与SW'(Q)相对应的所有Posting作为初始候选集C',实现一次过滤,其中C'的每个候选者都是SW"的存储形式;
(2.3)基于SW"(Q)采用向量近似文件边界过滤方法,对C'进行二次过滤,得到最终候选集C";
(2.4)通过磁盘I/O,对C"中的每个候选者读取原始序列,并与查询序列Q的原始值做相似性度量,基于该度量值,对C"中的所有候选者进行排序,保留k个最相似的候选序列作为最终的查询结果。
进一步地,所述步骤2.3包括以下子步骤:
(2.3.1)顺序扫描C',并计算SW"(Q)与C'中每个元素SW"(Ti)的下界距离li和上界距离ui;将用户指定的查询结果数目记为k;
(2.3.2)将所有候选者按照下界距离保存于优先队列,并按照递增的顺序依次访问;将第k个下界距离记为d;
(2.3.3)从第k+1个候选者开始,当第v个候选者的上界距离uv>d时,终止访问,并剔除后面所有未访问的候选者,返回前v-1个候选者作为最终候选集C"。
本发明的有益效果是:
1.在模型构建时,对时间序列采用了符号聚集近似与向量近似文件相结合的特征提取方法和存储结构,保证本发明的索引结构具有较低的空间开销和维护代价。
2.在查询处理时,两级过滤方法都在内存完成,并且得到的最终候选集很小,极大的降低了后续处理的磁盘I/O开销,实现了高效的k最近邻近似查询;
3.采用该方法的查询结果具有很高的查询精度,并且对时间序列长度、数据库规模和k最近邻查询规模具有稳定的可扩展性。
附图说明
图1为基于倒排索引的时间序列相似性查询方法流程图;
图2为采用符号聚集近似表示时间序列;
图3为基于向量近似文件编码时间序列的符号聚集近似单词;
图4为多粒度时序倒排索引构建过程;
图5为多粒度时序倒排索引的结构;
图6为查询处理流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明基于倒排索引的时间序列相似性查询方法,包括以下步骤:
(1)索引构建,具体包括以下子步骤:
(1.1)依次读取时间序列数据库的每条时间序列T={t1,t2,…,ti,…,tn};
(1.2)将时间序列T进行特征提取,得到粗粒度符号聚集近似单词SW'和细粒度符号聚集近似单词SW";具体为:
(1.2.1)对于时间序列T,计算其所有采样点的平均值m和标准差σ,根据公式(1)对T做Z-规范化处理,得到规范化的时间序列T'={t'1,t'2,…,t'i,…,t'n};
t ′ i = t i - m σ - - - ( 1 )
(1.2.2)采用符号聚集近似表示方法表示T',如图2所示,具体包括以下子步骤:
(1.2.2.1)对长度为n的时间序列T'={t'1,t'2,…,t'i,…,t'n}平均分段,分段数目w由用户指定;
(1.2.2.2)计算每段的平均值,得到时间序列的分段聚集近似向量P,其第j维元素值pj根据公式(2)计算得到;
p j = w n Σ i = n w ( j - 1 ) + 1 n w j t ′ i - - - ( 2 )
(1.2.2.3)根据所有时间序列数值的概率分布,对实数域做等概率的区间划分得到离散化区间,将P中的每个元素pj映射到对应的实数域区间;
(1.2.2.4)以所在区间的编号αj代替pj,得到T'的符号聚集近似单词SW。
(1.2.3)基于向量近似文件的数据结构对SW进行编码,如图3所示。向量近似文件的数据结构,是通过将空间划分为不同的元胞,并将特征向量映射到相应元胞实现的。在本发明中应用的过程如下:
(a)在符号聚集近似表示中,存在两个参数<分段数目w,实数域区间划分数目s>。分别选择两组不同大小的参数<w1,s1>,<w2,s2>,其中(w1<w2,s1<s2),将每条时间序列表示为两种粒度的符号聚集近似单词SW'和SW"。
(b)将SW的每个编号字符用最小位数的二进制表示进行存储;
(c)将每个字符的二进制表示依次相连,得到SW的二进制字符串表示形式,这就是向量近似文件的存储结构。
(1.3)以SW'作为Term,构建单词词表;
(1.4)以<T_ID,SW">作为Posting,构建索引文件,其中,T_ID是指每条时间序列的ID;
(1.5)利用单词词表与索引文件,构造多粒度时序倒排索引,其结构如图5所示。
(2)查询处理:包含两次过滤过程,流程如图6所示,具体包括以下子步骤:
(2.1)将用户输入的查询时间序列Q经过特征提取过程处理,得到粗粒度查询符号聚集近似单词SW'(Q)和细粒度查询符号聚集近似单词SW"(Q);
(2.2)以SW'(Q)作为输入,查询多粒度时序倒排索引,获取与SW'(Q)相对应的所有Posting作为初始候选集C',实现一次过滤,其中C'中的每个候选者都是细粒度查询符号聚集近似单词SW"的存储形式;
(2.3)基于SW"(Q)采用向量近似文件边界过滤方法,对C'进行二次过滤,得到最终候选集C",该过程包括以下子步骤:
(2.3.1)顺序扫描C',并计算SW"(Q)与C'中每个元素SW"(Ti)的下界距离li和上界距离ui;将用户指定的查询结果数目记为k;
(2.3.2)将所有候选者按照下界距离保存于优先队列,并按照递增的顺序依次访问;将第k个下界距离记为d;
(2.3.3)从第k+1个候选者开始,当第v个候选者的上界距离uv>d时,终止访问,并剔除后面所有未访问的候选者,返回前v-1个候选者作为最终候选集C"。
(2.3)通过磁盘I/O,对C"中的每个候选者读取原始序列,并与查询序列Q的原始值做相似性度量,基于该度量值,对C"中的所有候选者进行排序,保留k个最相似的候选序列作为最终的查询结果。
由上述过程可见,查询处理方法包含两次过滤过程,所以我们称之为两级过滤查询方法。
时间序列相似性查询,在人类生活和工业生产中有着广泛的应用需求,通过查询历史时序数据库,可以有效发掘用户感兴趣的知识,提供具有参考价值的历史事件。本发明针对当前日益膨胀的大规模时序数据库,提出了基于倒排索引的时间序列相似性查询方法,可以实现高效的k最近邻近似查询,以满足工业生产的应用需求。

Claims (2)

1.一种基于倒排索引的时间序列相似性查询方法,其特征在于,包括以下步骤:
(1)索引构建,具体包括以下子步骤:
(1.1)依次读取时间序列数据库中的每条时间序列;
(1.2)将时间序列进行特征提取,具体为:
(1.2.1)将时间序列进行Z-规范化处理;
(1.2.2)将步骤1.2.1处理得到的时间序列平均分为w段,计算每段的平均值,得到时间序列的分段聚集近似向量;根据所有时间序列数值的概率分布,对实数域做等概率的区间划分得到离散化区间,将分段聚集近似向量的每个实数元素映射到对应的离散化区间,并对所有离散化区间依次编号,得到符号聚集近似单词,记为SW;
(1.2.3)基于向量近似文件的数据结构,分别采用两种粒度的参数对SW编码,得到粗粒度符号聚集近似单词SW'和细粒度符号聚集近似单词SW";
(1.3)以时间序列的SW'作为Term构建单词词表;
(1.4)以时间序列的SW"及其对应的时间序列ID作为Posting构建索引文件;
(1.5)根据步骤1.3构建的单词词表和步骤1.4构建的索引文件,构造多粒度时序倒排索引;
(2)查询处理,具体包括以下子步骤:
(2.1)将查询时间序列Q进行与步骤1.2相同的特征提取,得到粗粒度符号聚集近似单词SW'(Q)和细粒度符号聚集近似单词SW"(Q);
(2.2)对SW'(Q)查询步骤1.5得到的多粒度时序倒排索引,获取与SW'(Q)相对应的所有Posting作为初始候选集C',实现一次过滤,其中C'的每个候选者都是SW"的存储形式;
(2.3)基于SW"(Q)采用向量近似文件边界过滤方法,对C'进行二次过滤,得到最终候选集C";
(2.4)通过磁盘I/O,对C"中的每个候选者读取原始序列,并与查询序列Q的原始值做相似性度量,基于该度量值,对C"中的所有候选者进行排序,保留k个最相似的候选序列作为最终的查询结果。
2.根据权利要求1所述一种基于倒排索引的时间序列相似性查询方法,其特征在于,所述步骤2.3包括以下子步骤:
(2.3.1)顺序扫描C',并计算SW"(Q)与C'中每个元素SW"(Ti)的下界距离li和上界距离ui;将用户指定的查询结果数目记为k;
(2.3.2)将所有候选者按照下界距离保存于优先队列,并按照递增的顺序依次访问;将第k个下界距离记为d;
(2.3.3)从第k+1个候选者开始,当第v个候选者的上界距离uv>d时,终止访问,并剔除后面所有未访问的候选者,返回前v-1个候选者作为最终候选集C"。
CN201410344607.1A 2014-07-18 2014-07-18 基于倒排索引的时间序列相似性查询方法 Expired - Fee Related CN104182460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410344607.1A CN104182460B (zh) 2014-07-18 2014-07-18 基于倒排索引的时间序列相似性查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410344607.1A CN104182460B (zh) 2014-07-18 2014-07-18 基于倒排索引的时间序列相似性查询方法

Publications (2)

Publication Number Publication Date
CN104182460A true CN104182460A (zh) 2014-12-03
CN104182460B CN104182460B (zh) 2017-06-13

Family

ID=51963500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410344607.1A Expired - Fee Related CN104182460B (zh) 2014-07-18 2014-07-18 基于倒排索引的时间序列相似性查询方法

Country Status (1)

Country Link
CN (1) CN104182460B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572886A (zh) * 2014-12-23 2015-04-29 浙江大学 基于k线图表示的金融时间序列相似性查询方法
CN104573003A (zh) * 2015-01-08 2015-04-29 浙江大学 基于新闻主题信息检索的金融时间序列预测方法
CN104794153A (zh) * 2015-03-06 2015-07-22 河海大学 利用用户交互的相似水文过程搜索方法
CN105183913A (zh) * 2015-10-12 2015-12-23 广州神马移动信息科技有限公司 一种查询处理方法、装置及设备
CN106815260A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种索引建立方法及设备
CN106844666A (zh) * 2017-01-20 2017-06-13 北京理工大学 一种自适应的时间序列数据查询方法
CN108470068A (zh) * 2018-03-29 2018-08-31 重庆大学 一种时序键值型工业过程数据的摘要索引生成方法
CN108509618A (zh) * 2018-04-04 2018-09-07 东北大学 一种基于空间填充曲线的大数据多维数据索引方法
CN108549696A (zh) * 2018-04-16 2018-09-18 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法
CN110622152A (zh) * 2017-02-27 2019-12-27 分秒库公司 用于查询时间序列数据的可扩展数据库系统
CN110738433A (zh) * 2019-11-01 2020-01-31 广东电科院能源技术有限责任公司 一种用电设备负荷识别方法和装置
WO2020118928A1 (zh) * 2018-12-11 2020-06-18 东北大学 一种面向海量设备运行数据的分布式时间序列模式检索方法
CN111694877A (zh) * 2019-03-12 2020-09-22 通用电气公司 多元时间序列数据搜索
CN111989661A (zh) * 2018-01-26 2020-11-24 威盖特技术美国有限合伙人公司 实时多变量时间序列搜索
CN112000707A (zh) * 2020-07-06 2020-11-27 中科驭数(北京)科技有限公司 可变长序列匹配方法、数据库访问方法及装置
CN112863607A (zh) * 2020-12-14 2021-05-28 武汉大学 一种面向大规模基因数据的同一认定系统及优化处理方法
CN113010746A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于子树倒排索引的病历图序列检索方法及系统
CN114218292A (zh) * 2021-11-08 2022-03-22 中国人民解放军国防科技大学 一种多元时间序列相似性检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279643A (zh) * 2013-04-26 2013-09-04 华北电力大学(保定) 一种时间序列相似度的计算方法
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
CN103577562A (zh) * 2013-10-24 2014-02-12 河海大学 一种多度量时间序列相似分析方法
CN103853752A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 管理时间序列数据库的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853752A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 管理时间序列数据库的方法和装置
CN103279643A (zh) * 2013-04-26 2013-09-04 华北电力大学(保定) 一种时间序列相似度的计算方法
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
CN103577562A (zh) * 2013-10-24 2014-02-12 河海大学 一种多度量时间序列相似分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张军等: "一种时间序列相似性的快速搜索算法", 《南京师范大学学报》 *
邱均平等: "时间序列相似性查询与索引方法研究", 《山东图书馆学刊》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572886A (zh) * 2014-12-23 2015-04-29 浙江大学 基于k线图表示的金融时间序列相似性查询方法
CN104572886B (zh) * 2014-12-23 2018-01-30 浙江大学 基于k线图表示的金融时间序列相似性查询方法
CN104573003A (zh) * 2015-01-08 2015-04-29 浙江大学 基于新闻主题信息检索的金融时间序列预测方法
CN104573003B (zh) * 2015-01-08 2017-11-10 浙江大学 基于新闻主题信息检索的金融时间序列预测方法
CN104794153B (zh) * 2015-03-06 2017-11-24 河海大学 利用用户交互的相似水文过程搜索方法
CN104794153A (zh) * 2015-03-06 2015-07-22 河海大学 利用用户交互的相似水文过程搜索方法
CN105183913A (zh) * 2015-10-12 2015-12-23 广州神马移动信息科技有限公司 一种查询处理方法、装置及设备
US11003649B2 (en) 2015-12-01 2021-05-11 Alibaba Group Holding Limited Index establishment method and device
CN106815260A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种索引建立方法及设备
CN106844666A (zh) * 2017-01-20 2017-06-13 北京理工大学 一种自适应的时间序列数据查询方法
CN106844666B (zh) * 2017-01-20 2020-07-31 北京理工大学 一种自适应的时间序列数据查询方法
CN110622152A (zh) * 2017-02-27 2019-12-27 分秒库公司 用于查询时间序列数据的可扩展数据库系统
CN110622152B (zh) * 2017-02-27 2021-04-13 分秒库公司 用于查询时间序列数据的可扩展数据库系统
CN111989661A (zh) * 2018-01-26 2020-11-24 威盖特技术美国有限合伙人公司 实时多变量时间序列搜索
CN108470068A (zh) * 2018-03-29 2018-08-31 重庆大学 一种时序键值型工业过程数据的摘要索引生成方法
CN108509618A (zh) * 2018-04-04 2018-09-07 东北大学 一种基于空间填充曲线的大数据多维数据索引方法
CN108509618B (zh) * 2018-04-04 2020-03-31 东北大学 一种基于空间填充曲线的大数据多维数据索引方法
CN108549696A (zh) * 2018-04-16 2018-09-18 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法
CN108549696B (zh) * 2018-04-16 2022-02-01 安徽工业大学 一种基于内存计算的时间序列数据相似性查询方法
WO2020118928A1 (zh) * 2018-12-11 2020-06-18 东北大学 一种面向海量设备运行数据的分布式时间序列模式检索方法
CN111694877A (zh) * 2019-03-12 2020-09-22 通用电气公司 多元时间序列数据搜索
CN111694877B (zh) * 2019-03-12 2024-02-20 通用电气公司 多元时间序列数据搜索
CN110738433A (zh) * 2019-11-01 2020-01-31 广东电科院能源技术有限责任公司 一种用电设备负荷识别方法和装置
CN112000707A (zh) * 2020-07-06 2020-11-27 中科驭数(北京)科技有限公司 可变长序列匹配方法、数据库访问方法及装置
CN112863607A (zh) * 2020-12-14 2021-05-28 武汉大学 一种面向大规模基因数据的同一认定系统及优化处理方法
CN112863607B (zh) * 2020-12-14 2024-03-22 武汉大学 一种面向大规模基因数据的同一认定系统及优化处理方法
CN113010746A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于子树倒排索引的病历图序列检索方法及系统
CN113010746B (zh) * 2021-03-19 2023-08-29 厦门大学 一种基于子树倒排索引的病历图序列检索方法及系统
CN114218292A (zh) * 2021-11-08 2022-03-22 中国人民解放军国防科技大学 一种多元时间序列相似性检索方法
CN114218292B (zh) * 2021-11-08 2022-10-11 中国人民解放军国防科技大学 一种多元时间序列相似性检索方法

Also Published As

Publication number Publication date
CN104182460B (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN104182460A (zh) 基于倒排索引的时间序列相似性查询方法
CN104572886B (zh) 基于k线图表示的金融时间序列相似性查询方法
Dodge et al. Movement similarity assessment using symbolic representation of trajectories
US11036685B2 (en) System and method for compressing data in a database
US9697250B1 (en) Systems and methods for high-speed searching and filtering of large datasets
WO2018094777A1 (zh) 一种证券实时交易关联分析的方法
CN105468677A (zh) 一种基于图结构的日志聚类方法
Marascu et al. TRISTAN: Real-time analytics on massive time series using sparse dictionary compression
CN102629296A (zh) 一种基于灰色模糊的企业信用评价方法
CN102722528A (zh) 基于移动设备的实时海量图像检索方法
CN104598632A (zh) 热点事件检测方法和装置
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
Zhang et al. Periodic pattern mining for spatio-temporal trajectories: a survey
CN105740428B (zh) 一种基于b+树的高维磁盘索引结构和图像检索方法
Shah et al. Performance study of time series databases
CN104102680A (zh) 时间序列的编码索引
Ren et al. Efficient processing of shortest path queries in evolving graph sequences
CN109284286A (zh) 一种从原始数据集中提取有效特征的方法
CN106649463A (zh) 用于环境空气质量监测的大数据存储模型
Li et al. Draformer: differentially reconstructed attention transformer for time-series forecasting
Vishwanath et al. DRSP: Dimension reduction for similarity matching and pruning of time series data streams
Hatwar et al. Alphabetic time series representation using trend based approach
Nagy et al. Partitional clustering of tick data to reduce storage space
CN115982378A (zh) 数据索引构建方法、装置、电子设备和计算机可读介质
JP2019095831A (ja) 抽出装置、抽出方法、及び抽出プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170613

Termination date: 20200718

CF01 Termination of patent right due to non-payment of annual fee