CN110347726A - 一种高效时序数据集成存储查询系统及方法 - Google Patents

一种高效时序数据集成存储查询系统及方法 Download PDF

Info

Publication number
CN110347726A
CN110347726A CN201910643982.9A CN201910643982A CN110347726A CN 110347726 A CN110347726 A CN 110347726A CN 201910643982 A CN201910643982 A CN 201910643982A CN 110347726 A CN110347726 A CN 110347726A
Authority
CN
China
Prior art keywords
data
storage
database
query
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910643982.9A
Other languages
English (en)
Inventor
陆文杰
叶生晅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Technology (hangzhou) Co Ltd
Original Assignee
Creative Technology (hangzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Technology (hangzhou) Co Ltd filed Critical Creative Technology (hangzhou) Co Ltd
Priority to CN201910643982.9A priority Critical patent/CN110347726A/zh
Publication of CN110347726A publication Critical patent/CN110347726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种高效时序数据集成存储查询系统及方法,该系统包括数据结构接口、时序数据库集群、分布式查询引擎,数据结构接口在数据进入数据库之前,先将需要连接的数据表提前连接起来,然后将待存储数据转换为键值对结构存储;时序数据库集群的数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例;分布式查询引擎作为系统的查询数据查询入口。本发明能够实现集成式的数据存储,高效数据聚合,摆脱时序数据库的限制,降低用户学习成本。

Description

一种高效时序数据集成存储查询系统及方法
技术领域
本发明涉及时序数据存储领域,具体涉及一种高效时序数据集成存储查询系统及方法。
背景技术
时序数据聚合主要用于提取数据集的时间相关各种标量,例如提取计数,平均值或数据集方差,可以被广泛运用于多种场合,如随时间走势图列展示,时间相关数据分析和实时指标监控。数据聚合的数据源通常来源于多个时序数据库中的表,通过多个数据表的多次连接后得到。连接后的数据按一定的时间维度聚合后可以得到基于时间点的相关标量,并根据需求做进一步的处理。
现有的时序数据聚合方法存在以下缺陷:
(1)计算速度慢:表连接是非常耗时的操作,在连接完成前,无法执行聚合操作,连接会占据大量用户等待时间(2)资源占用高:连接会占用大量处理器资源和内存资源(3)储存样式复杂,用户学习成本高:多表连接要求用户记住多个表的结构,并写出复杂的请求语句,对用户要求较高(4)时序数据库对于时间线的数量有限制,并且当时间线数量较大时,会影响计算速度和内存占用。
发明内容
发明目的:为克服现有技术缺陷,本发明提出一种高效时序数据集成存储查询系统及方法。
技术方案:本发明的技术方案为:
一种高效时序数据集成存储查询系统,包括:数据结构接口、时序数据库集群、分布式查询引擎;其中,
数据结构接口与应用层进行交互,根据预先定义的时间窗口将应用层传输的不同数据形式的数据流进行分块,并将每一个分块转换为键值对结构存储,其中,键为索引,值为分块数据;
时序数据库集群由多个时序数数据库实例组成,时序数据库集群具有数据存储入口,数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例上,并保证相同时间线数据会被分发到相同的数据库实例中;
分布式查询引擎作为系统的查询数据查询入口。
进一步的,所述分布式查询引擎是由多个查询节点组成的集群,集群中任意节点均可作为查询入口。
本发明还提出一种高效时序数据集成存储查询方法,包括步骤:
(1)根据用户需求定义时间窗口和数据结构接口的数据处理逻辑,通过数据结构接口将新输入系统的次数据流按照时间窗口进行分块,并将每一个分块转换为键值对结构存储;当系统中原本存储的主数据流中有新的数据流入时,会从键值对存储系统中获取时间窗口内相应的键对应的值,并将该值拼接到这条主数据流的记录中输出;
(2)在数据存储入口中,利用哈希映射将步骤(1)中处理得到的主数据流按照不同的时间线分散到数据库集群中不同的数据库实例上,并保证相同的时间线会被分发到相同的数据库实例中;
(3)用户端通过分布式查询引擎访问数据库:节点收到用户端查询请求后会成为该请求的协调节点,会将请求分解成若干个子请求发给其他工作节点,工作节点在收到子请求后会去数据库统计数据,聚合数据后返回给协调节点;协调节点收到所有工作节点的回复后对所有数据再次聚合并返回给用户端。
进一步的,所述数据库实例中数据的存储结构包括时间戳、标签值和储存值。
进一步的,所述数据库实例中对存在时间不同的历史数据进行不同维度的卷起式储存,卷起后,每条记录的值变为计数+累计值。
进一步的,所述数据库实例中存储时间超过阈值时间的数据将会被删除。
有益效果:与现有技术相比,本发明具有以下优势:
1、本发明通过定义数据结构接口对输入的数据进行预处理,加快计算速度;
2、本发明通过固定储存格式和数据库集群来摆脱数据库时序限制并降低用户学习成本;
3、本发明通过采用分布式请求引擎提高请求速度;
4、本发明通过历史数据卷起降维减轻数据库压力。
附图说明
图1为本发明所述高效时序数据集成存储查询系统的架构图;
图2为分布式查询结构图;
图3为从数据流与主数据流的连接意图;
图4为数据库实例中数据的存储结构。
具体实施方式
下面结合附图和具体实施方式对本发明作更进一步的说明。
图1所示为本发明所述的一种高效时序数据集成存储查询系统,包括:数据结构接口、时序数据库集群、分布式查询引擎。其中:
数据结构接口与应用层进行交互,根据预先定义的时间窗口将应用层传输的不同数据形式的数据流进行分块,并将每一个分块转换为键值对结构存储,其中,键为索引,值为分块数据。
时序数据库集群由多个时序数数据库实例组成,时序数据库集群具有数据存储入口,数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例上,并保证相同时间线数据会被分发到相同的数据库实例中;所述数据库实例中数据的存储结构如图4所示,包括时间戳、标签值和储存值;所述数据库实例中对存在时间不同的历史数据进行不同维度的卷起式储存,卷起后,每条记录的值变为计数+累计值;当数据库实例中存储时间超过阈值时间的数据将会被删除。
分布式查询引擎作为系统的查询数据查询入口,所述分布式查询引擎是由多个查询节点组成的集群,集群中任意节点均可作为查询入口,分布式查询的结构如图2所示。
本发明还提出一种高效时序数据集成存储查询方法,包括步骤:
(1)根据用户需求定义时间窗口和数据结构接口的数据处理逻辑,通过数据结构接口将新输入系统的次数据流按照时间窗口进行分块,并将每一个分块转换为键值对结构存储;从数据流与主数据流的连接如图3所示,当系统中原本存储的主数据流中有新的数据流入时,会从键值对存储系统中获取时间窗口内相应的键对应的值,并将该值拼接到这条主数据流的记录中输出。
(2)在数据存储入口中,利用哈希映射将步骤(1)中处理得到的主数据流按照不同的时间线分散到数据库集群中不同的数据库实例上,并保证相同的时间线会被分发到相同的数据库实例中。例如,若键值为k,则其值存放在f(k)的存储位置上,其中f为哈希函数,哈希函数能使对一个数据序列的访问过程更加迅速有效,通过哈希函数,数据元素将会被更快定位。
(3)用户端通过分布式查询引擎访问数据库:节点收到用户端查询请求后会成为该请求的协调节点,会将请求分解成若干个子请求发给其他工作节点,工作节点在收到子请求后会去数据库统计数据,聚合数据后返回给协调节点;协调节点收到所有工作节点的回复后对所有数据再次聚合并返回给用户端。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种高效时序数据集成存储查询系统,其特征在于,包括:数据结构接口、时序数据库集群、分布式查询引擎;其中,
数据结构接口与应用层进行交互,根据预先定义的时间窗口将应用层传输的不同数据形式的数据流进行分块,并将每一个分块转换为键值对结构存储,其中,键为索引,值为分块数据;
时序数据库集群由多个时序数数据库实例组成,时序数据库集群具有数据存储入口,数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例上,并保证相同时间线数据会被分发到相同的数据库实例中;
分布式查询引擎作为系统的查询数据查询入口。
2.根据权利要求1所述的高效时序数据集成存储查询系统,其特征在于,所述分布式查询引擎是由多个查询节点组成的集群,集群中任意节点均可作为查询入口。
3.一种基于权利要求1至2任意一项所述高效时序数据集成存储查询系统的数据集成存储查询方法,其特征在于,包括步骤:
(1)根据用户需求定义时间窗口和数据结构接口的数据处理逻辑,通过数据结构接口将新输入系统的次数据流按照时间窗口进行分块,并将每一个分块转换为键值对结构存储;当系统中原本存储的主数据流中有新的数据流入时,会从键值对存储系统中获取时间窗口内相应的键对应的值,并将该值拼接到这条主数据流的记录中输出;
(2)在数据存储入口中,利用哈希映射将步骤(1)中处理得到的主数据流按照不同的时间线分散到数据库集群中不同的数据库实例上,并保证相同的时间线会被分发到相同的数据库实例中;
(3)用户端通过分布式查询引擎访问数据库:节点收到用户端查询请求后会成为该请求的协调节点,会将请求分解成若干个子请求发给其他工作节点,工作节点在收到子请求后会去数据库统计数据,聚合数据后返回给协调节点;协调节点收到所有工作节点的回复后对所有数据再次聚合并返回给用户端。
4.根据权利要求3所述的一种高效时序数据集成存储查询方法,其特征在于,所述数据库实例中数据的存储结构包括时间戳、标签值和储存值。
5.根据权利要求3所述的一种高效时序数据集成存储查询方法,其特征在于,所述数据库实例中对存在时间不同的历史数据进行不同维度的卷起式储存,卷起后,每条记录的值变为计数+累计值。
6.根据权利要求3所述的一种高效时序数据集成存储查询方法,其特征在于,所述数据库实例中存储时间超过阈值时间的数据将会被删除。
CN201910643982.9A 2019-07-17 2019-07-17 一种高效时序数据集成存储查询系统及方法 Pending CN110347726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910643982.9A CN110347726A (zh) 2019-07-17 2019-07-17 一种高效时序数据集成存储查询系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910643982.9A CN110347726A (zh) 2019-07-17 2019-07-17 一种高效时序数据集成存储查询系统及方法

Publications (1)

Publication Number Publication Date
CN110347726A true CN110347726A (zh) 2019-10-18

Family

ID=68176620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910643982.9A Pending CN110347726A (zh) 2019-07-17 2019-07-17 一种高效时序数据集成存储查询系统及方法

Country Status (1)

Country Link
CN (1) CN110347726A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632147A (zh) * 2020-12-11 2021-04-09 邦彦技术股份有限公司 数据差异化比较方法、系统和存储介质
CN116483886A (zh) * 2023-04-10 2023-07-25 上海沄熹科技有限公司 结合kv存储引擎和时序存储引擎查询olap的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103658A1 (en) * 2011-10-19 2013-04-25 Vmware, Inc. Time series data mapping into a key-value database
CN103235835A (zh) * 2013-05-22 2013-08-07 曙光信息产业(北京)有限公司 用于数据库集群的查询实现方法和装置
CN106648446A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 一种用于时序数据的存储方法、装置及电子设备
CN106709001A (zh) * 2016-12-22 2017-05-24 西安电子科技大学 一种面向流式大数据的基数估计方法
CN106776810A (zh) * 2016-11-24 2017-05-31 广东数果科技有限公司 一种大数据的数据处理系统及方法
CN108268589A (zh) * 2017-12-05 2018-07-10 北京百度网讯科技有限公司 时序数据的聚合查询方法、装置、计算机设备及可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103658A1 (en) * 2011-10-19 2013-04-25 Vmware, Inc. Time series data mapping into a key-value database
CN103235835A (zh) * 2013-05-22 2013-08-07 曙光信息产业(北京)有限公司 用于数据库集群的查询实现方法和装置
CN106648446A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 一种用于时序数据的存储方法、装置及电子设备
CN106776810A (zh) * 2016-11-24 2017-05-31 广东数果科技有限公司 一种大数据的数据处理系统及方法
CN106709001A (zh) * 2016-12-22 2017-05-24 西安电子科技大学 一种面向流式大数据的基数估计方法
CN108268589A (zh) * 2017-12-05 2018-07-10 北京百度网讯科技有限公司 时序数据的聚合查询方法、装置、计算机设备及可读介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632147A (zh) * 2020-12-11 2021-04-09 邦彦技术股份有限公司 数据差异化比较方法、系统和存储介质
CN112632147B (zh) * 2020-12-11 2023-10-24 邦彦技术股份有限公司 数据差异化比较方法、系统和存储介质
CN116483886A (zh) * 2023-04-10 2023-07-25 上海沄熹科技有限公司 结合kv存储引擎和时序存储引擎查询olap的方法
CN116483886B (zh) * 2023-04-10 2024-04-02 上海沄熹科技有限公司 结合kv存储引擎和时序存储引擎查询olap的方法

Similar Documents

Publication Publication Date Title
JP2021506012A (ja) データ記憶およびクエリ方法並びにデバイス
US9524318B2 (en) Minimizing result set size when converting from asymmetric to symmetric requests
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN104021194A (zh) 一种面向行业大数据多样性应用的混合型处理系统及处理方法
JP2023501005A (ja) リソースを管理かつ制御する方法および装置、デバイスならびに記憶媒体
CN111061758B (zh) 数据存储方法、装置及存储介质
CN111627552A (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
CN110389967B (zh) 数据存储方法、装置、服务器及存储介质
CN110147470B (zh) 一种跨机房数据比对系统及方法
WO2024174305A1 (zh) 一种基于预计算场景的查询处理方法及其装置
CN111400288A (zh) 数据质量检查方法及系统
CN110347726A (zh) 一种高效时序数据集成存储查询系统及方法
CN111309868A (zh) 一种知识图谱构建、检索方法及装置
CN110737727B (zh) 一种数据处理的方法及系统
CN116821139B (zh) 基于分布式数据库的分区表设计的混合负载方法及系统
CN113722600A (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN110874366A (zh) 数据处理、查询方法和装置
CN106776810B (zh) 一种大数据的数据处理系统及方法
US12026162B2 (en) Data query method and apparatus, computing device, and storage medium
CN116186053A (zh) 一种数据处理方法、装置及存储介质
CN115730015A (zh) 基于任务标识编码解析的工业数据管理方法
CN112540843B (zh) 资源的分配方法、装置、存储设备及存储介质
CN110990394B (zh) 分布式面向列数据库表的行数统计方法、装置和存储介质
CN113868267A (zh) 注入时序数据的方法、查询时序数据的方法及数据库系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018