CN106202384A - 一种支持时序数据聚合函数的索引方法 - Google Patents

一种支持时序数据聚合函数的索引方法 Download PDF

Info

Publication number
CN106202384A
CN106202384A CN201610536956.2A CN201610536956A CN106202384A CN 106202384 A CN106202384 A CN 106202384A CN 201610536956 A CN201610536956 A CN 201610536956A CN 106202384 A CN106202384 A CN 106202384A
Authority
CN
China
Prior art keywords
node
sequence number
numbering
forest
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610536956.2A
Other languages
English (en)
Inventor
王建民
黄向东
郑亮帆
康荣
龙明盛
刘英博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610536956.2A priority Critical patent/CN106202384A/zh
Publication of CN106202384A publication Critical patent/CN106202384A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种支持时序数据聚合函数的索引方法,能够支持简单聚合操作的快速即席查询。其基本思想是将概要表和线段树(Segment Tree)结合起来,在概要表上建立由多棵线段树构成的线段森林模型,从而避免概要表的全表扫描操作。同时,通过自底向上的方式动态构建线段森林,回避了传统线段树不支持增长的缺点。此外,查询算法通过计算直接定位索引数据,避免了对线段森林的递归遍历操作,减少了磁盘IO次数。实验结果表明,本文采用的概要表+线段森林的计算查询方式,有效减少了磁盘IO的次数,显著提升了查询性能。

Description

一种支持时序数据聚合函数的索引方法
技术领域
本发明涉及在大数据应用开发过程中一种大数据系统自动选型与参数配置的方法,属于计算机数据库管理技术领域。
背景技术
随着传感器技术的发展和互联网的普及,数据的采集和信息的传播速度达到了空前的水平。对于数据的极值、均值等聚合信息变得十分重要,如何快速准确获取这些聚合信息是本文的研究重点。
要满足这类查询,数据库就必须支持在任意时间范围内,在海量数据上进行快速的聚合操作。
传统关系型数据库主要采用概要表或物化视图的方式达到加速聚合查询的目的。其中,物化视图是对涉及表连接的查询命令进行预处理,并将结果保存在视图表中,用户发生查询时,数据库直接从视图表中查询并返回结果。概要表则是在写入数据的同时,计算并保存相应的概要信息,从而发生查询时,直接从概要表中查询并返回结果。
这两种方式的本质都是预先计算并保存常用的聚合信息,缩小查询范围,提高实际查询速度。其弊端是增加了数据库的膨胀率;随着数据的增多,会出现性能退化的问题。
而在NoSQL数据库中,一些数据库采用了MapReduce的方式来处理这些聚合操作:每次聚合查询实时从数据库中检出涉及的表数据,提交到Map程序中进行处理。在Map阶段,程序过滤出满足条件的数据并提交给Reduce程序。Reduce程序汇总并计算出查询结果。另一些数据库如MongoDB,则提出了聚合管道(Aggregation Pipeline)的概念。它是结合MapReduce的思想和Linux系统 管道的思想的产物。其原理是,聚合操作直接作用在数据文件上,通过类系统的原生操作,直接过滤聚合文件中的数据。
MapReduce和聚合管道的方式都是实时计算的代表。虽然没有增加数据库的膨胀率,但查询过程中产生了大量的磁盘和计算开销,低效耗时,无法满足即席查询的需求。
而Plamen Nikolov等人则将物化视图的思想应用到NoSQL中:预先计算计数、求和等常见统计信息,并保存在视图表中,后续持续增量更新,以达到加快查询响应的目的。
这种方式相比于在NoSQL数据库上进行MapReduce计算的速度提升非常明显,但也有其弊端。物化视图本身的形成机制决定了其不支持任意范围的查询操作。另外,随着数据量的上升,查询操作的磁盘开销也会增大。
发明内容
基于上述问题,本文提出了一种支持NoSQL数据库聚合操作的索引机制。其基本思想是将概要表和线段树(Segment Tree)结合起来,在概要表上建立由多棵线段树构成的线段森林模型,从而避免概要表的全表扫描操作。同时,通过自底向上的方式动态构建线段森林,回避了传统线段树不支持增长的缺点。此外,查询算法通过计算直接定位索引数据,避免了对线段森林的递归遍历操作,减少了磁盘IO次数。本文在Cassandra数据库上实现了上述的索引引擎,并设计2组对比实验:基于数据的直接查询和基于概要表的直接查询。实验结果表明,这种概要表+线段森林的计算查询方式,有效减少了磁盘IO的次数,显著提升了查询性能。
一种支持时序数据聚合函数的索引方法,其特征在于,包括两个步骤:
步骤一、定义时序数据的数据模型和查询需求
定义1:数据项:一个数据项D(data point)是一个三元组(s,t,v),其中s是传感器ID,t是时间戳,其中,s和t构成了全局唯一的标识,v是传感器的值,同一个传感器的连续时间的数据项构成了时序数据,在此基础上,定义本文要解决的查询问题:在时序数据上,查询时间窗口t1~t2(t1和t2为任意时刻)内的时序数据的最值、方差统计信息;
定义2:概要信息:在时序数据中,k个在时间上连续的数据项的统计信息及其时间窗口构成1个概要信息(data Digest);
定义3:叶子节点:由数据项直接产生的概要信息加上特定的标记信息构成了叶子结点(leaf node);
定义4:中间节点:由2个叶子结点或2个中间结点汇总加上特定的标记信息构成了中间结点(parent node);为了在避免树的递归操作,实现概要森林的快速检索,在叶子结点和中间结点上添加了必要的标记信息:序号和编号;
定义5:序号:初始建立索引时,依据产生顺序,每个叶子结点对应1个序号,序号由1开始递增,中间结点没有序号(serial);
定义6:编号:依据线段森林后序遍历的顺序,每个结点对应1个编号,编号(code)由1开始递增;
定义7:概要森林:概要森林(Synopsis Forest)是由结点产生的概要树构成的森林。
步骤二、概要森林的构建与查询
(1)概要森林构建
概要森林维护一个栈结构rootStack,用来提高合并效率;同时维护一个queue,用以暂存待刷入磁盘的节点信息,
A.当第i个叶子节点到来时:
A)若i为奇数:
a)则直接添加该叶子结点,该叶子结点自成一棵树,此时,该叶子结点对应的序号为i,编号为2i-ones(i),其中,ones(i)函数为i的二进制表示中1的个数;
b)将该叶子节点添加入rootStack和queue;
B)若i为偶数:
a)在添加该叶子结点的同时,生成由该叶子结点触发生成的新树,此时,该叶子结点对应的序号为i,编号为(i-1)叶子结点的编号加1即2(i-1)-ones(i-1)+1;
b)将该叶子节点添加入queue;
c)由于该叶子节点产生的新树的根结点编号为2i-ones(i),其余新生成的中间结点的编号依次为2(i-1)-ones(i-1)+2到2i-ones(i)-1;
d)将该叶子节点放入rootStack;
e)弹出rootStack的前两个节点,这两个节点具有相同的高度且均为根节点,合并两者形成新的树,该树的根节点编号从2(i-1)-ones(i-1)+2不断增长到2i-ones(i);
f)将1-a-ii-5生成的根节点放入queue;
g)将1-a-ii-5生成的根节点放入rootStack,重复1-a-ii-5,直到新生成的根节点编号达到2i-ones(i);
B.将queue中所暂存的节点刷入磁盘。
(2)概要森林查询
1)首先定义查询需求:查询时间窗口ta~tb对应数据项的概要信息。
2)查询具体步骤如下:
A.标准化时间窗口,假设tis<ta<tie、tjs<tb<tje,则可将查询的时间窗口划分为3个时间窗口:ta<tie,t(i+1)s~t(j-1)e和tjs<tb
B.对于时间窗口ta<tie和tjs<tb,需要从数据库中直接读取ta到tie和tjs到tb的数据项,并从数据项中直接计算出这段时间窗口的概要信息;
C.对于时间窗口t(i+1)s~t(j-1)e,从线段森林中找出最少数量的线段,使得这些线段称为时间窗口t(i+1)s~t(j-1)e的划分。假设一共需要s个线段,依次从数据库中读取这s个线段对应的概要结点,得到s个概要信息;本步具体实施过程如下:
a)根据起始时间t(i+1)s和t(j-1)e从数据库中读取出2个相应的概要包,从概要包分别得到对应的序号i和j;
b)获取下界序号:如果i是偶数,把t(i+1)s对应的概要包添加到待处理队列,此时下界序号为(i+1)。否则,下界序号为i;
c)获取上界序号:如果j是奇数,把t(j-1)e对应的概要包添加到待处理队列,此时上界序号为(j-1),否则,上界序号为j;
d)由上界序号计算出对应的编号,以及覆盖该序号对应结点的最上层结点的编号;
e)由编号和最上层结点的编号计算出最上层结点覆盖的最左叶子结点的序号;
f)如果最左序号大于下界序号,则将最上层结点的编号加入待查询队列,并把上界序号设置为最左叶子结点的序号减1,转到步骤d;
g)如果最左序号小于下界序号,则最上层结点的编号减1,转到步骤e;
h)如果最左序号等于下界序号,则将最上层节点的编号加入待查询队列中,然后退出循环;
i)最后根据带查询队列查出相应的概要包,并将这些概要包添加到待处理队列。
由步骤B和C中的(s+2)个概要信息即可计算出时间窗口ta~tb的概要信息。
本发明提出了一种支持时序数据聚合操作的高效索引方法,其优点是:
1.能够支持简单聚合操作的快速即席查询。在查询过程中,该索引机制能够避免了大量的磁盘开销,解决了物化视图和概要表随着数据量增长导致的性能下降的问题;
2.将概要表和线段树(Segment Tree)结合起来,在概要表上建立由多棵线段树构成的线段森林模型,从而避免概要表的全表扫描操作;
3.通过自底向上的方式动态构建线段森林,回避了传统线段树不支持增长的缺点。此外,查询算法通过计算直接定位索引数据,避免了对线段森林的递归遍历操作,减少了磁盘IO次数;
4.这种索引机制与底层数据库无关,通过自实现的基于JAVA的查询引擎,可以轻松移植到任意数据库平台中。
附图说明
下面结合附图,通过非限定性的举例对本发明的优选实施方式作进一步说明,在附图中:
图1是一组数据项所对应的概要信息示意图。
图2是本发明方法定义的概要森林与时间窗口。
图3是本发明中涉及的添加序号为奇数(上)和偶数(下)的结点。
图4是本发明中的添加叶子节点算法伪代码。
图5是本发明中的查询过程算法伪代码。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
1.一种支持时序数据聚合函数的索引方法,其特征在于,包括两个步骤:
步骤一、定义时序数据的数据模型和查询需求
定义1:数据项:一个数据项D(data point)是一个三元组(s,t,v),其中s是传感器ID,t是时间戳,其中,s和t构成了全局唯一的标识,v是传感器的值,同一个传感器的连续时间的数据项构成了时序数据,在此基础上,定义本文要解决的查询问题:在时序数据上,查询时间窗口t1~t2(t1和t2为任意时刻)内的时序数据的最值、方差统计信息;
定义2:概要信息:在时序数据中,k个在时间上连续的数据项的统计信息及其时间窗口构成1个概要信息(data Digest);
定义3:叶子节点:由数据项直接产生的概要信息加上特定的标记信息构成了叶子结点(leaf node);
定义4:中间节点:由2个叶子结点或2个中间结点汇总加上特定的标记信息构成了中间结点(parent node);为了在避免树的递归操作,实现概要森林的快速检索,在叶子结点和中间结点上添加了必要的标记信息:序号和编号;
定义5:序号:初始建立索引时,依据产生顺序,每个叶子结点对应1个序号,序号由1开始递增,中间结点没有序号(serial);
定义6:编号:依据线段森林后序遍历的顺序,每个结点对应1个编号,编号(code)由1开始递增;
定义7:概要森林:概要森林(Synopsis Forest)是由结点产生的概要树构成的森林。
步骤二、概要森林的构建与查询
(1)概要森林构建
概要森林维护一个栈结构rootStack,用来提高合并效率;同时维护一个queue,用以暂存待刷入磁盘的节点信息,
A.当第i个叶子节点到来时:
A)若i为奇数:
a)则直接添加该叶子结点,该叶子结点自成一棵树,此时,该叶子结点对应的序号为i,编号为2i-ones(i),其中,ones(i)函数为i的二进制表示中1的个数;
b)将该叶子节点添加入rootStack和queue;
B)若i为偶数:
a)在添加该叶子结点的同时,生成由该叶子结点触发生成的新树,此时,该叶子结点对应的序号为i,编号为(i-1)叶子结点的编号加1即2(i-1)-ones(i-1)+1;
b)将该叶子节点添加入queue;
c)由于该叶子节点产生的新树的根结点编号为2i-ones(i),其余新生成的中间结点的编号依次为2(i-1)-ones(i-1)+2到2i-ones(i)-1;
d)将该叶子节点放入rootStack;
e)弹出rootStack的前两个节点,这两个节点具有相同的高度且均为根节点,合并两者形成新的树,该树的根节点编号从2(i-1)-ones(i-1)+2不断增长到2i-ones(i);
f)将1-a-ii-5生成的根节点放入queue;
g)将1-a-ii-5生成的根节点放入rootStack,重复1-a-ii-5,直到新生成的根节点编号达到2i-ones(i);
B.将queue中所暂存的节点刷入磁盘。
(3)概要森林查询
1)首先定义查询需求:查询时间窗口ta~tb对应数据项的概要信息,
2)查询具体步骤如下:
A.标准化时间窗口,假设tis<ta<tie、tjs<tb<tje,则可将查询的时间窗口划分为3个时间窗口:ta<tie,t(i+1)s~t(j-1)e和tjs<tb
B.对于时间窗口ta<tie和tjs<tb,需要从数据库中直接读取ta到tie和tjs到tb的数据项,并从数据项中直接计算出这段时间窗口的概要信息;
C.对于时间窗口t(i+1)s~t(j-1)e,从线段森林中找出最少数量的线段,使得这些线段称为时间窗口t(i+1)s~t(j-1)e的划分。假设一共需要s个线段,依次从数据库中读取这s个线段对应的概要结点,得到s个概要信息;本步具体实施过程如下:
a)根据起始时间t(i+1)s和t(j-1)e从数据库中读取出2个相应的概要包,从概要包分别得到对应的序号i和j;
b)获取下界序号:如果i是偶数,把t(i+1)s对应的概要包添加到待处理队列,此时下界序号为(i+1)。否则,下界序号为i;
c)获取上界序号:如果j是奇数,把t(j-1)e对应的概要包添加到待处理队列,此时上界序号为(j-1),否则,上界序号为j;
d)由上界序号计算出对应的编号,以及覆盖该序号对应结点的最上层结点的编号;
e)由编号和最上层结点的编号计算出最上层结点覆盖的最左叶子结点的序号;
f)如果最左序号大于下界序号,则将最上层结点的编号加入待查询队列,并把上界序号设置为最左叶子结点的序号减1,转到步骤d;
g)如果最左序号小于下界序号,则最上层结点的编号减1,转到步骤e;
h)如果最左序号等于下界序号,则将最上层节点的编号加入待查询队列中,然后退出循环;
i)最后根据带查询队列查出相应的概要包,并将这些概要包添加到待处理队列。
由步骤B和C中的(s+2)个概要信息即可计算出时间窗口ta~tb的概要信息。

Claims (1)

1.一种支持时序数据聚合函数的索引方法,其特征在于,包括两个步骤:
步骤一、定义时序数据的数据模型和查询需求
定义1:数据项:一个数据项D(data point)是一个三元组(s,t,v),其中s是传感器ID,t是时间戳,其中,s和t构成了全局唯一的标识,v是传感器的值,同一个传感器的连续时间的数据项构成了时序数据,在此基础上,定义本文要解决的查询问题:在时序数据上,查询时间窗口t1~t2(t1和t2为任意时刻)内的时序数据的最值、方差统计信息;
定义2:概要信息:在时序数据中,k个在时间上连续的数据项的统计信息及其时间窗口构成1个概要信息(data Digest);
定义3:叶子节点:由数据项直接产生的概要信息加上特定的标记信息构成了叶子结点(leaf node);
定义4:中间节点:由2个叶子结点或2个中间结点汇总加上特定的标记信息构成了中间结点(parent node);为了在避免树的递归操作,实现概要森林的快速检索,在叶子结点和中间结点上添加了必要的标记信息:序号和编号;
定义5:序号:初始建立索引时,依据产生顺序,每个叶子结点对应1个序号,序号由1开始递增,中间结点没有序号(serial);
定义6:编号:依据线段森林后序遍历的顺序,每个结点对应1个编号,编号(code)由1开始递增;
定义7:概要森林:概要森林(Synopsis Forest)是由结点产生的概要树构成的森林。
步骤二、概要森林的构建与查询
(1)概要森林构建
概要森林维护一个栈结构(rootStack),用来提高合并效率;同时维护一个队列(queue),用以暂存待刷入磁盘的节点信息。
A.当第i个叶子节点到来时:
A)若i为奇数:
a)则直接添加该叶子结点,该叶子结点自成一棵树,此时,该叶子结点对应的序号为i,编号为2i-ones(i),其中,ones(i)函数为i的二进制表示中1的个数;
b)将该叶子节点添加入rootStack和queue;
B)若i为偶数:
a)在添加该叶子结点的同时,生成由该叶子结点触发生成的新树,此时,该叶子结点对应的序号为i,编号为(i-1)叶子结点的编号加1即2(i-1)-ones(i-1)+1;
b)将该叶子节点添加入queue;
c)由于该叶子节点产生的新树的根结点编号为2i-ones(i),其余新生成的中间结点的编号依次为2(i-1)-ones(i-1)+2到2i-ones(i)-1;
d)将该叶子节点放入rootStack;
e)弹出rootStack的前两个节点,这两个节点具有相同的高度且均为根节点,合并两者形成新的树,该树的根节点编号从2(i-1)-ones(i-1)+2不断增长到2i-ones(i);
f)将1-a-ii-5生成的根节点放入queue;
g)将1-a-ii-5生成的根节点放入rootStack,重复1-a-ii-5,直到新生成的根节点编号达到2i-ones(i);
B.将queue中所暂存的节点刷入磁盘;
(2)概要森林查询
1)首先定义查询需求:查询时间窗口ta~tb对应数据项的概要信息。
2)查询具体步骤如下:
A.标准化时间窗口,假设tis<ta<tie、tjs<tb<tje,则可将查询的时间窗口划分为3个时间窗口:ta<tie,t(i+1)s~t(j-1)e和tjs<tb
B.对于时间窗口ta<tie和tjs<tb,需要从数据库中直接读取ta到tie和tjs到tb的数据项,并从数据项中直接计算出这段时间窗口的概要信息;
C.对于时间窗口t(i+1)s~t(j-1)e,从线段森林中找出最少数量的线段,使得这些线段称为时间窗口t(i+1)s~t(j-1)e的划分。假设一共需要s个线段,依次从数据库中读取这s个线段对应的概要结点,得到s个概要信息;本步具体实施过程如下:
a)根据起始时间t(i+1)s和t(j-1)e从数据库中读取出2个相应的概要包,从概要包分别得到对应的序号i和j;
b)获取下界序号:如果i是偶数,把t(i+1)s对应的概要包添加到待处理队列,此时下界序号为(i+1)。否则,下界序号为i;
c)获取上界序号:如果j是奇数,把t(j-1)e对应的概要包添加到待处理队列,此时上界序号为(j-1),否则,上界序号为j;
d)由上界序号计算出对应的编号,以及覆盖该序号对应结点的最上层结点的编号;
e)由编号和最上层结点的编号计算出最上层结点覆盖的最左叶子结点的序号;
f)如果最左序号大于下界序号,则将最上层结点的编号加入待查询队列,并把上界序号设置为最左叶子结点的序号减1,转到步骤d;
g)如果最左序号小于下界序号,则最上层结点的编号减1,转到步骤e;
h)如果最左序号等于下界序号,则将最上层节点的编号加入待查询队列中,然后退出循环;
i)最后根据带查询队列查出相应的概要包,并将这些概要包添加到待处理队列。
由步骤B和C中的(s+2)个概要信息即可计算出时间窗口ta~tb的概要信息。
CN201610536956.2A 2016-07-08 2016-07-08 一种支持时序数据聚合函数的索引方法 Pending CN106202384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610536956.2A CN106202384A (zh) 2016-07-08 2016-07-08 一种支持时序数据聚合函数的索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610536956.2A CN106202384A (zh) 2016-07-08 2016-07-08 一种支持时序数据聚合函数的索引方法

Publications (1)

Publication Number Publication Date
CN106202384A true CN106202384A (zh) 2016-12-07

Family

ID=57473329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610536956.2A Pending CN106202384A (zh) 2016-07-08 2016-07-08 一种支持时序数据聚合函数的索引方法

Country Status (1)

Country Link
CN (1) CN106202384A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991137A (zh) * 2017-03-15 2017-07-28 浙江大学 基于Hbase散列概要森林对时序数据进行索引的方法
CN108268589A (zh) * 2017-12-05 2018-07-10 北京百度网讯科技有限公司 时序数据的聚合查询方法、装置、计算机设备及可读介质
CN109241121A (zh) * 2017-06-29 2019-01-18 阿里巴巴集团控股有限公司 时间序列数据的存储和查询方法、装置、系统及电子设备
CN109948007A (zh) * 2019-03-21 2019-06-28 浙江邦盛科技有限公司 一种对时序数据统计最大连续递增次数与递增次数的处理方法
CN110008544A (zh) * 2019-03-21 2019-07-12 浙江邦盛科技有限公司 一种对时序数据统计递增次数与递减次数的处理方法
CN112069164A (zh) * 2019-06-10 2020-12-11 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN113535712A (zh) * 2021-06-04 2021-10-22 山东大学 基于线段kd树的支持大规模时序数据交互方法及系统
CN114547073A (zh) * 2022-02-10 2022-05-27 清华大学 时序数据的聚合查询方法、装置及存储介质
CN118227302A (zh) * 2024-05-27 2024-06-21 浙江邦盛科技股份有限公司 一种中间态时序协调计算方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859323A (zh) * 2010-05-31 2010-10-13 广西大学 密文全文检索系统
CN105389370A (zh) * 2015-11-13 2016-03-09 浙江工业大学 一种面向社交活动组织的时间聚合查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859323A (zh) * 2010-05-31 2010-10-13 广西大学 密文全文检索系统
CN105389370A (zh) * 2015-11-13 2016-03-09 浙江工业大学 一种面向社交活动组织的时间聚合查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄向东等: "支持时序数据聚合函数的索引", 《清华大学学报(自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991137B (zh) * 2017-03-15 2019-10-18 浙江大学 基于Hbase散列概要森林对时序数据进行索引的方法
CN106991137A (zh) * 2017-03-15 2017-07-28 浙江大学 基于Hbase散列概要森林对时序数据进行索引的方法
CN109241121A (zh) * 2017-06-29 2019-01-18 阿里巴巴集团控股有限公司 时间序列数据的存储和查询方法、装置、系统及电子设备
CN108268589A (zh) * 2017-12-05 2018-07-10 北京百度网讯科技有限公司 时序数据的聚合查询方法、装置、计算机设备及可读介质
CN109948007B (zh) * 2019-03-21 2020-07-14 浙江邦盛科技有限公司 一种查询时序数据统计最大连续递增次数与递减次数的处理方法
CN110008544A (zh) * 2019-03-21 2019-07-12 浙江邦盛科技有限公司 一种对时序数据统计递增次数与递减次数的处理方法
CN109948007A (zh) * 2019-03-21 2019-06-28 浙江邦盛科技有限公司 一种对时序数据统计最大连续递增次数与递增次数的处理方法
CN112069164A (zh) * 2019-06-10 2020-12-11 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN112069164B (zh) * 2019-06-10 2023-08-01 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN113535712A (zh) * 2021-06-04 2021-10-22 山东大学 基于线段kd树的支持大规模时序数据交互方法及系统
CN113535712B (zh) * 2021-06-04 2023-09-29 山东大学 基于线段kd树的支持大规模时序数据交互方法及系统
CN114547073A (zh) * 2022-02-10 2022-05-27 清华大学 时序数据的聚合查询方法、装置及存储介质
CN118227302A (zh) * 2024-05-27 2024-06-21 浙江邦盛科技股份有限公司 一种中间态时序协调计算方法、装置、设备及存储介质
CN118227302B (zh) * 2024-05-27 2024-08-06 浙江邦盛科技股份有限公司 一种中间态时序协调计算方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106202384A (zh) 一种支持时序数据聚合函数的索引方法
CN105488231B (zh) 一种基于自适应表维度划分的大数据处理方法
CN104182405B (zh) 一种连接查询方法及装置
CN103927346B (zh) 基于数据量的查询连接方法
US7761474B2 (en) Indexing stored data
CN104750496B (zh) 一种模型变更影响度自动检查方法
US20140012882A1 (en) Method of processing relational queries in a database system and corresponding database system
CN106599052B (zh) 一种基于Apache Kylin的数据查询系统及其方法
CN101079033A (zh) 一种综合搜索结果的排序系统及方法
CN105631003A (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN103823823A (zh) 基于频繁项集挖掘算法的反规范化策略选择方法
CN102722553A (zh) 基于用户日志分析的分布式倒排索引组织方法
CN104504008B (zh) 一种基于嵌套的SQL到HBase的数据迁移算法
CN103810219B (zh) 一种基于行存储数据库的数据处理方法及装置
CN112015741A (zh) 一种海量数据的分库分表存储方法与装置
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN104731925A (zh) 基于MapReduce的FP-Growth的负载均衡并行计算方法
CN111367951A (zh) 一种流数据处理的方法及装置
CN104346444A (zh) 一种基于路网反空间关键字查询的最佳选址方法
CN107203532A (zh) 索引系统的构建方法、搜索的实现方法及装置
CN108733745A (zh) 一种基于医学知识的查询扩展方法
CN107870956A (zh) 一种高效用项集挖掘方法、装置及数据处理设备
CN110019446A (zh) Etl数据处理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161207