CN108460094A - 存储统计数据的方法和系统 - Google Patents

存储统计数据的方法和系统 Download PDF

Info

Publication number
CN108460094A
CN108460094A CN201810092197.4A CN201810092197A CN108460094A CN 108460094 A CN108460094 A CN 108460094A CN 201810092197 A CN201810092197 A CN 201810092197A CN 108460094 A CN108460094 A CN 108460094A
Authority
CN
China
Prior art keywords
data
time
polymerization
sentence
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810092197.4A
Other languages
English (en)
Inventor
沈荟荟
蔡晓华
杨光辉
贺晓麟
王涛
周育樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI NETIS TECHNOLOGIES Co Ltd
Original Assignee
SHANGHAI NETIS TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI NETIS TECHNOLOGIES Co Ltd filed Critical SHANGHAI NETIS TECHNOLOGIES Co Ltd
Priority to CN201810092197.4A priority Critical patent/CN108460094A/zh
Publication of CN108460094A publication Critical patent/CN108460094A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Abstract

本发明提供了一种存储统计数据的方法和系统,包括:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。本发明实时统计,无延迟,实时性高,查询快。本发明按照配置聚合指定的指标,颗粒度聚合同时进行,查询数据时能自动合理分配到各个时间颗粒度,能减少查询数据量,在按时间颗粒度存储数据前还有一层细分,按时间跨度存储颗粒度数据。

Description

存储统计数据的方法和系统
技术领域
本发明涉及性能监控领域,具体地,涉及查询和存储统计数据的方法和系统,尤其是存储交易的统计数据的方法和系统。
背景技术
随着近年来移动互联网、云计算以及物联网等新兴技术的飞速发展,其所带来数据呈爆炸式增长。例如2016年双十一期间,某互联网公司每秒钟处理17万笔交易。同样的,银行系统、证券系统每天都会处理数量巨大的交易,为了保证网络通畅、交易实时性,就需要由额外的监控系统来观察。在监控系统的观察中,通常会关注一些响应时间长、成功率低的交易,以及需要指定一个时间范围来查询交易,根据计算得出的统计数据来判断当前网络或应用的可用性。
现有技术中一种传统的技术方案是将交易逐笔存入数据库或磁盘,之后在指定时间范围内读取入库的交易记录,然后逐笔聚合成统计数据。这样的做法在时间范围不大或是该时间范围内交易量较少的情况下问题还不明显,但是,一旦时间范围扩大成几天或是交易量变得相对较多,则将反应出查询时间缓慢以及内存消耗增长的问题,这严重影响到服务器性能和用户的体验,并且在数据实时性上或查询性能上会有问题。
现有技术中另一种传统的技术方案是将数据逐笔存入数据库或磁盘后,依靠批处理程序将监控的交易信息转换成统计信息后存入数据库。这样的技术方案在数据实时性方面有所欠缺,不能应用在关键业务的监控上,并且在数据实时性上或查询性能上也会有问题。
现有技术中还有一种技术方案是实时的将交易信息聚合成统计信息存入数据库,既在数据实时性上有优势,又可以快速地执行数据查询。
专利文献CN102495851A,公开了一种时序数据的存储方法和存储装置,其是针对某些具体的数据存储查询应用,存在以下不足之处:1)只有两级时间时间颗粒度的存储,在查询时间范围较大的情况下,只能从第二级的时间颗粒度聚合数据,查询时间较长。2)实时统计时只能逐级时间颗粒度聚合统计数据。3)只能按照网络数据的四元组进行聚合统计。
专利文献CN103678627A,公开了一种统计数据的存储和查询方法,其针对某些具体的数据存储应用,存在以下不足之处:1)进行数据统计时必须等待低级时间桶完成后才能聚合高级时间桶。2)在指定时间范围内查询数据时将时间范围切割对应各个时间桶的子范围后从大时间桶逐次查询到小时间桶。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种查询和存储统计数据的方法和系统。
根据本发明提供的一种存储统计数据的方法,包括:
聚合应用步骤:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。
优选地,所述聚合应用步骤中,将实时采集的交易信息根据配置生成维度字段和指标字段,按照时间维度和/或自定义维度进行统计数据的聚合,得到初步聚合的统计数据,然后将初步聚合的统计数据均匀分发到下级处理器,在下级处理器中再进一步聚合后,生成各个时间颗粒度的聚合语句。
优选地,所述聚合应用步骤包括如下步骤:
数据采集步骤:实时采集网络上的交易数据,得到原始交易数据;
数据预处理步骤:对原始交易数据进行预处理;
数据聚合步骤:根据原始交易数据的预处理结构,生成数据更新语句;
数据存储步骤:将数据更新语句应用到数据库中;
所述数据预处理步骤包括:
字段提取步骤:根据预先自定义的配置,从原始交易数据中提取出聚合维度字段和统计指标字段;
所述数据聚合步骤包括:
预先聚合应用步骤:根据最小单位时间,针对聚合维度字段和统计指标字段,对原始交易数据预先聚合一次,形成结构化统计数据;
分发步骤:提取出结构化统计数据中的id字段进行哈希处理,哈希后的结果与根据最小单位时间进行预先聚合的步骤的数量取模后的结果分发到下级数据聚合步骤处理;
所述数据存储步骤包括:
数据更新语句获取步骤:按照结构化统计数据,同时生成多个时间颗粒度的数据更新语句;
语句应用步骤:将数据更新语句应用到各个时间颗粒度下的数据库。
优选地,包括:
查询步骤:根据查询条件中的时间范围,生成查询语句,发送给相应的数据库进行查询;和/或
数据合并步骤:合并各个数据库查询的结果。
优选地,在所述查询步骤中,提取前台发送的查询条件中的时间范围,根据大时间颗粒度优先原则拆分成各个时间范围,然后分析剩余的查询条件判断出需要查询的数据库,然后将拆分的时间范围和剩余的查询条件组合成查询语句,然后根据判断出的查询数据库将查询语句发送给各个数据库,最后将各个数据库的查询结果合并;
在所述数据合并步骤中,获取多个查询结果后,依照查询条件,如果查询的是时序数据,则直接合并多个查询结果,按照时间排序;如果查询的是非时序数据,则再次聚合数据。
根据本发明提供的一种存储统计数据的系统,包括:
聚合应用模块:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。
优选地,所述聚合应用模块中,将实时采集的交易信息根据配置生成维度字段和指标字段,按照时间维度和/或自定义维度进行统计数据的聚合,得到初步聚合的统计数据,然后将初步聚合的统计数据均匀分发到下级处理器,在下级处理器中再进一步聚合后,生成各个时间颗粒度的聚合语句。
优选地,所述聚合应用模块包括如下模块:
数据采集模块:实时采集网络上的交易数据,得到原始交易数据;
数据预处理模块:对原始交易数据进行预处理;
数据聚合模块:根据原始交易数据的预处理结构,生成数据更新语句;
数据存储模块:将数据更新语句应用到数据库中;
所述数据预处理模块包括:
字段提取模块:根据预先自定义的配置,从原始交易数据中提取出聚合维度字段和统计指标字段;
所述数据聚合模块包括:
预先聚合应用模块:根据最小单位时间,针对聚合维度字段和统计指标字段,对原始交易数据预先聚合一次,形成结构化统计数据;
分发模块:提取出结构化统计数据中的id字段进行哈希处理,哈希后的结果与根据最小单位时间进行预先聚合的模块的数量取模后的结果分发到下级数据聚合模块处理;
所述数据存储模块包括:
数据更新语句获取模块:按照结构化统计数据,同时生成多个时间颗粒度的数据更新语句;
语句应用模块:将数据更新语句应用到各个时间颗粒度下的数据库。
优选地,包括:
查询模块:根据查询条件中的时间范围,生成查询语句,发送给相应的数据库进行查询;和/或
数据合并模块:合并各个数据库查询的结果。
优选地,在所述查询模块中,提取前台发送的查询条件中的时间范围,根据大时间颗粒度优先原则拆分成各个时间范围,然后分析剩余的查询条件判断出需要查询的数据库,然后将拆分的时间范围和剩余的查询条件组合成查询语句,然后根据判断出的查询数据库将查询语句发送给各个数据库,最后将各个数据库的查询结果合并;
在所述数据合并模块中,获取多个查询结果后,依照查询条件,如果查询的是时序数据,则直接合并多个查询结果,按照时间排序;如果查询的是非时序数据,则再次聚合数据。
与现有技术相比,本发明具有如下的有益效果:
1、本发明实时统计,无延迟,实时性高,查询快
2、本发明按照配置聚合指定的指标,颗粒度聚合同时进行,查询数据时能自动合理分配到各个时间颗粒度,能减少查询数据量,在按时间颗粒度存储数据前还有一层细分,按时间跨度存储颗粒度数据。
3、本发明中根据接收采集到的数据信息,例如交易数据,生成各个时间颗粒度的聚合语句,然后同时应用到数据库,从而实现了同时聚合各种颗粒度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为系统原理流程图。
图2为数据存储原理流程图。
图3为数据预处理原理流程图。
图4为数据聚合原理流程图。
图5为数据存储原理流程图。
图6为数据查询原理流程图。
图7为查询分析原理流程图。
图8为数据合并原理流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供的存储统计数据的方法,包括:聚合应用步骤:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。
本发明提供的存储统计数据的系统,包括:聚合应用模块:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。
在聚合应用步骤及模块中,将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句;以交易数据为例,将实时采集的交易信息根据配置生成需要的维度字段和指标字段,然后按照时间维度和自定义维度进行统计数据的聚合,得到初步聚合的统计数据,然后将初步聚合的统计数据均匀分发到下级处理器,然后在下级处理器里再进一步聚合后,生成各个时间颗粒度的聚合语句,将聚合语句派发到数据存储模块,数据存储模块分析聚合语句后将语句应用到数据库。
下面对本发明提供的方法和系统进行具体说明。存储统计数据的方法为存储统计数据的系统的一个具体实施方式,本领域技术人员可以根据存储统计数据的方法的步骤流程实现所述存储统计数据的系统。
在优选例中,所述聚合步骤包括如下步骤:
数据采集步骤:实时采集网络上的交易数据,得到原始交易数据;
数据预处理步骤:对原始交易数据进行预处理;
数据聚合步骤:根据原始交易数据的预处理结构,生成数据更新语句;
数据存储步骤:将数据更新语句应用到数据库中;其中,按照配置的时间跨度存储颗粒度数据;
所述数据预处理步骤包括:
字段提取步骤:根据预先自定义的配置,从原始交易数据中提取出聚合维度字段和统计指标字段;
所述数据聚合步骤包括:
预先聚合应用步骤:根据最小单位时间,针对聚合维度字段和统计指标字段,对原始交易数据预先聚合一次,形成结构化统计数据;
分发步骤:提取出结构化统计数据中的id字段进行哈希处理,哈希后的结果与根据最小单位时间进行预先聚合的步骤的数量取模后的结果分发到下级数据聚合步骤处理;
所述数据存储步骤包括:
数据更新语句获取步骤:按照结构化统计数据,同时生成多个时间颗粒度的数据更新语句;
语句应用步骤:将数据更新语句应用到各个时间颗粒度下的数据库。
接下来对本发明进行更为具体的说明。
所述数据预处理步骤包括:
字段提取步骤:根据预先自定义的配置,从原始交易数据中提取出聚合维度字段和统计指标字段;例如根据配置,聚合维度字段为field_1,统计指标字段为field_3、field_4。
预先聚合应用步骤:根据最小单位时间,针对聚合维度字段和统计指标字段,对原始交易数据预先聚合一次,形成结构化统计数据;
例如,假设原始交易数据中有两条记录,分别为记录A和记录B。
记录A:{ts:1,field_1:'区域1',field_2:'下级区域1',field_3:3,field_4:5}
记录B:{ts:1,field_1:'区域1',field_2:'下级区域2',field_3:10,field_4:2}
预先或初步聚合后形成的结构化统计数据为如下记录:
记录:{id:{ts:1,field_1:'区域1'},field_3:13,field_4:7}
其中:
字段ts表示时间
字段field_2表示维度字段
字段id表示之后按照id进行聚合
分发步骤:提取出结构化统计数据中的id字段进行哈希(Hash)处理,得到哈希结构;将统计数据(是指字段“field_3:13,field_4:7”)分发到下级数据聚合模块;
id={ts:1,field_1:'区域1'},哈希后的结果与根据最小单位时间进行预先聚合的模块的数量取模后的结果分发到下级数据聚合模块;其中,id后的冒号是所在的区域是一种数据结构的表现方式,id后的等号可以理解为一种变量的定义或者赋值。其中,取模的目的是为了计算的负载均衡。
与数据应用聚合步骤对应的数据应用聚合模块,如图2,其用于:
1)接收数据预处理模块发送过来的结构化统计数据,按照id字段进一步聚合处理,例如按照一分钟的时间颗粒度;
数据预处理模块1发送的记录A:{id:{ts:1,field:区域1},field_3:13,field_4:7}
数据预处理模块2发送的记录B:{id:{ts:1,field:区域1},field_3:3,field_4:8}
聚合后的记录:{id:{ts:1,field:区域1},field_3:16,field:15}
2)按照结构化的数据,同时生成多个时间颗粒度的数据更新语句
数据存储步骤对应的数据存储模块,如图5,其用于:
1)优化数据更新语句,减少最终存储的大小,其中,针对数据更新语句,将其中的常用的键短名化,比如字段field_1是内置字段,可以按照规则更新为f字段
2)将数据更新语句应用到各个颗粒度下的数据库,其中,按照数据更新语句中时间字段判断所在的数据库分发更新。
尤其是,时间跨度是将一段时间为级别进行数据库存储,时间颗粒度是指在一段时间的数据库中以时间颗粒度为表来进行存储。通过判断聚合完毕后的数据的时间落在那个时间跨度的数据库中,从而实现按时间跨度存储颗粒度数据。
查询步骤,应用查询语句到各个数据库,按照查询中的时间范围判断所在的数据库。具体是根据查询条件中的时间范围,生成查询语句,发送给相应的数据库进行查询;提取前台发送的查询条件中的时间范围,根据大时间颗粒度优先原则拆分成各个时间范围,然后分析剩余的查询条件判断出需要查询的数据库,然后将拆分的时间范围和剩余条件组合成查询语句,然后根据判断出的查询数据库将查询语句发送给各个数据库,最后将各个数据库的查询结果合并。
查询步骤对应的查询模块,如图7,包括以下模块:
一、条件分析模块,其用于:
1)拆分时间范围
查询时间范围从2016-04-18 11:31到2016-04-18 15:21,如果查询条件中指定了需要查询每5分钟的统计值,那么就按5分钟颗粒度拆,查询时间就会规整成从2016-04-1811:30到2016-04-18 15:20。如果没有给出具体的颗粒度,那么按照较大时间颗粒度被整除原则找。比如有1分钟,5分钟,15分钟,用户查询的是一小时间(10:00-11:00)隔的数据,那么15分钟的颗粒度被优先选择。如果都没有找到,按最小时间颗粒度。
2)判断最优数据库
根据数据存储流程,最终会保存几份单一维度值的统计表。这里判断的依据是根据查询条件里除了时间维度以外的过滤条件,看能否满足在一个特定维度值的统计表里查询。
3)生成查询语句
数据合并步骤对应的数据合并模块,如图8,其用于:
1)合并各个数据库查询的结果
获取多个查询结果后,依照查询条件,如果查询的是时序数据,则直接合并多个查询结果,按照时间排序。如果查询的是非时序数据,则需要再次聚合数据。
在一个优选地实施举例中,根据本发明提供的方法或系统具体实施如下:
一、数据存储
步骤1、数据采集模块采集数据。
步骤2、数据预处理模块将步骤1送入的数据,依据配置生成维度字段和指标字段,并且将数据初步聚合处理后生成结构化数据,均匀派发到各个数据聚合模块。
步骤3、数据聚合模块将步骤2送入的结构化数据按照各个时间颗粒度和维度同时聚合成统计数据并生成数据更新语句。
步骤4、数据存储模块将步骤3生成的数据库更新语句同时应用到各个时间颗粒度数据库,按照配置的时间跨度存储颗粒度数据。
二、数据查询
步骤1、查询条件分析模块接收前台送过来的参数,分解出时间范围参数,然后按照大时间颗粒度优先原则将时间范围分解成落在各个时间颗粒度的时间范围,然后根据剩余的参数判断出最优数据库,将之前的过程组合成查询语句。
步骤2、数据查询模块通过步骤1的查询语句同时获取各个查询结果。
步骤3、数据合并模块通过步骤2获取的查询结果,按照查询条件是否是时序数据判断,如果是则直接合并各个查询结果,如果不是,则再次按照各个结果的维度再次聚合指标,生成最终结果。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种存储统计数据的方法,其特征在于,包括:
聚合应用步骤:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。
2.根据权利要求1所述的存储统计数据的方法,其特征在于,所述聚合应用步骤中,将实时采集的交易信息根据配置生成维度字段和指标字段,按照时间维度和/或自定义维度进行统计数据的聚合,得到初步聚合的统计数据,然后将初步聚合的统计数据均匀分发到下级处理器,在下级处理器中再进一步聚合后,生成各个时间颗粒度的聚合语句。
3.根据权利要求1所述的存储统计数据的方法,其特征在于,所述聚合应用步骤包括如下步骤:
数据采集步骤:实时采集网络上的交易数据,得到原始交易数据;
数据预处理步骤:对原始交易数据进行预处理;
数据聚合步骤:根据原始交易数据的预处理结构,生成数据更新语句;
数据存储步骤:将数据更新语句应用到数据库中;
所述数据预处理步骤包括:
字段提取步骤:根据预先自定义的配置,从原始交易数据中提取出聚合维度字段和统计指标字段;
所述数据聚合步骤包括:
预先聚合应用步骤:根据最小单位时间,针对聚合维度字段和统计指标字段,对原始交易数据预先聚合一次,形成结构化统计数据;
分发步骤:提取出结构化统计数据中的id字段进行哈希处理,哈希后的结果与根据最小单位时间进行预先聚合的步骤的数量取模后的结果分发到下级数据聚合步骤处理;
所述数据存储步骤包括:
数据更新语句获取步骤:按照结构化统计数据,同时生成多个时间颗粒度的数据更新语句;
语句应用步骤:将数据更新语句应用到各个时间颗粒度下的数据库。
4.根据权利要求1所述的存储统计数据的方法,其特征在于,包括:
查询步骤:根据查询条件中的时间范围,生成查询语句,发送给相应的数据库进行查询;和/或
数据合并步骤:合并各个数据库查询的结果。
5.根据权利要求4所述的存储统计数据的方法,其特征在于,
在所述查询步骤中,提取前台发送的查询条件中的时间范围,根据大时间颗粒度优先原则拆分成各个时间范围,然后分析剩余的查询条件判断出需要查询的数据库,然后将拆分的时间范围和剩余的查询条件组合成查询语句,然后根据判断出的查询数据库将查询语句发送给各个数据库,最后将各个数据库的查询结果合并;
在所述数据合并步骤中,获取多个查询结果后,依照查询条件,如果查询的是时序数据,则直接合并多个查询结果,按照时间排序;如果查询的是非时序数据,则再次聚合数据。
6.一种存储统计数据的系统,其特征在于,包括:
聚合应用模块:将采集到的信息根据配置进行聚合,得到多个时间颗粒度的聚合语句,将聚合语句应用到与多个时间颗粒度对应的数据库中。
7.根据权利要求1所述的存储统计数据的系统,其特征在于,所述聚合应用模块中,将实时采集的交易信息根据配置生成维度字段和指标字段,按照时间维度和/或自定义维度进行统计数据的聚合,得到初步聚合的统计数据,然后将初步聚合的统计数据均匀分发到下级处理器,在下级处理器中再进一步聚合后,生成各个时间颗粒度的聚合语句。
8.根据权利要求1所述的存储统计数据的系统,其特征在于,所述聚合应用模块包括如下模块:
数据采集模块:实时采集网络上的交易数据,得到原始交易数据;
数据预处理模块:对原始交易数据进行预处理;
数据聚合模块:根据原始交易数据的预处理结构,生成数据更新语句;
数据存储模块:将数据更新语句应用到数据库中;
所述数据预处理模块包括:
字段提取模块:根据预先自定义的配置,从原始交易数据中提取出聚合维度字段和统计指标字段;
所述数据聚合模块包括:
预先聚合应用模块:根据最小单位时间,针对聚合维度字段和统计指标字段,对原始交易数据预先聚合一次,形成结构化统计数据;
分发模块:提取出结构化统计数据中的id字段进行哈希处理,哈希后的结果与根据最小单位时间进行预先聚合的模块的数量取模后的结果分发到下级数据聚合模块处理;
所述数据存储模块包括:
数据更新语句获取模块:按照结构化统计数据,同时生成多个时间颗粒度的数据更新语句;
语句应用模块:将数据更新语句应用到各个时间颗粒度下的数据库。
9.根据权利要求1所述的存储统计数据的系统,其特征在于,包括:
查询模块:根据查询条件中的时间范围,生成查询语句,发送给相应的数据库进行查询;和/或
数据合并模块:合并各个数据库查询的结果。
10.根据权利要求4所述的存储统计数据的系统,其特征在于,
在所述查询模块中,提取前台发送的查询条件中的时间范围,根据大时间颗粒度优先原则拆分成各个时间范围,然后分析剩余的查询条件判断出需要查询的数据库,然后将拆分的时间范围和剩余的查询条件组合成查询语句,然后根据判断出的查询数据库将查询语句发送给各个数据库,最后将各个数据库的查询结果合并;
在所述数据合并模块中,获取多个查询结果后,依照查询条件,如果查询的是时序数据,则直接合并多个查询结果,按照时间排序;如果查询的是非时序数据,则再次聚合数据。
CN201810092197.4A 2018-01-30 2018-01-30 存储统计数据的方法和系统 Pending CN108460094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810092197.4A CN108460094A (zh) 2018-01-30 2018-01-30 存储统计数据的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810092197.4A CN108460094A (zh) 2018-01-30 2018-01-30 存储统计数据的方法和系统

Publications (1)

Publication Number Publication Date
CN108460094A true CN108460094A (zh) 2018-08-28

Family

ID=63239191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810092197.4A Pending CN108460094A (zh) 2018-01-30 2018-01-30 存储统计数据的方法和系统

Country Status (1)

Country Link
CN (1) CN108460094A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766394A (zh) * 2018-12-19 2019-05-17 上海前隆信息科技有限公司 度量平台数据查询方法及装置、可读存储介质及终端
CN111209285A (zh) * 2020-04-23 2020-05-29 成都四方伟业软件股份有限公司 一种基于时序数据的统计指标存储方法及装置
CN111444246A (zh) * 2020-05-07 2020-07-24 北京工业大数据创新中心有限公司 一种基于时序数据的颗粒度线性趋势自动生成方法及系统
CN111984866A (zh) * 2020-08-20 2020-11-24 北京奇艺世纪科技有限公司 一种数据的排行榜生成方法及装置
CN112905566A (zh) * 2021-03-18 2021-06-04 苏州科达科技股份有限公司 数据处理方法、装置及电子设备
CN113448983A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113742341A (zh) * 2021-08-25 2021-12-03 杭州安恒信息技术股份有限公司 时序数据聚合方法、装置、计算机设备和存储介质
WO2022048201A1 (zh) * 2020-09-04 2022-03-10 北京沃东天骏信息技术有限公司 数据处理方法及装置、电子设备、存储介质
CN114281895A (zh) * 2021-12-24 2022-04-05 成都索贝数码科技股份有限公司 支持远程拉取的多数据中心同步方法
CN114297227A (zh) * 2021-12-24 2022-04-08 成都索贝数码科技股份有限公司 时序数据库的架构方法、查询方法和时序数据库

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033938A (zh) * 2010-12-10 2011-04-27 天津神舟通用数据技术有限公司 基于二级映射的集群动态扩展方法
CN102495851A (zh) * 2011-11-17 2012-06-13 百度在线网络技术(北京)有限公司 时序数据的存储和查询方法、系统及装置
CN103605664A (zh) * 2013-10-22 2014-02-26 芜湖大学科技园发展有限公司 满足不同时间粒度的海量动态数据的快速查询方法
CN104424229A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统
CN105389352A (zh) * 2015-10-30 2016-03-09 北京奇艺世纪科技有限公司 日志处理方法和装置
US9501507B1 (en) * 2012-12-27 2016-11-22 Palantir Technologies Inc. Geo-temporal indexing and searching
CN107368517A (zh) * 2017-06-02 2017-11-21 上海恺英网络科技有限公司 一种大数据流查询的方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033938A (zh) * 2010-12-10 2011-04-27 天津神舟通用数据技术有限公司 基于二级映射的集群动态扩展方法
CN102495851A (zh) * 2011-11-17 2012-06-13 百度在线网络技术(北京)有限公司 时序数据的存储和查询方法、系统及装置
US9501507B1 (en) * 2012-12-27 2016-11-22 Palantir Technologies Inc. Geo-temporal indexing and searching
CN104424229A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统
CN103605664A (zh) * 2013-10-22 2014-02-26 芜湖大学科技园发展有限公司 满足不同时间粒度的海量动态数据的快速查询方法
CN105389352A (zh) * 2015-10-30 2016-03-09 北京奇艺世纪科技有限公司 日志处理方法和装置
CN107368517A (zh) * 2017-06-02 2017-11-21 上海恺英网络科技有限公司 一种大数据流查询的方法及设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766394A (zh) * 2018-12-19 2019-05-17 上海前隆信息科技有限公司 度量平台数据查询方法及装置、可读存储介质及终端
CN111209285A (zh) * 2020-04-23 2020-05-29 成都四方伟业软件股份有限公司 一种基于时序数据的统计指标存储方法及装置
CN111444246A (zh) * 2020-05-07 2020-07-24 北京工业大数据创新中心有限公司 一种基于时序数据的颗粒度线性趋势自动生成方法及系统
CN111444246B (zh) * 2020-05-07 2021-01-29 北京工业大数据创新中心有限公司 一种基于时序数据的颗粒度线性趋势自动生成方法及系统
CN111984866A (zh) * 2020-08-20 2020-11-24 北京奇艺世纪科技有限公司 一种数据的排行榜生成方法及装置
CN111984866B (zh) * 2020-08-20 2023-09-05 北京奇艺世纪科技有限公司 一种数据的排行榜生成方法及装置
WO2022048201A1 (zh) * 2020-09-04 2022-03-10 北京沃东天骏信息技术有限公司 数据处理方法及装置、电子设备、存储介质
CN112905566A (zh) * 2021-03-18 2021-06-04 苏州科达科技股份有限公司 数据处理方法、装置及电子设备
CN113448983A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113448983B (zh) * 2021-07-15 2024-01-30 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113742341A (zh) * 2021-08-25 2021-12-03 杭州安恒信息技术股份有限公司 时序数据聚合方法、装置、计算机设备和存储介质
CN114281895A (zh) * 2021-12-24 2022-04-05 成都索贝数码科技股份有限公司 支持远程拉取的多数据中心同步方法
CN114297227A (zh) * 2021-12-24 2022-04-08 成都索贝数码科技股份有限公司 时序数据库的架构方法、查询方法和时序数据库
CN114297227B (zh) * 2021-12-24 2023-06-20 成都索贝数码科技股份有限公司 时序数据库的架构方法、查询方法和时序数据库
CN114281895B (zh) * 2021-12-24 2023-12-08 成都索贝数码科技股份有限公司 支持远程拉取的多数据中心同步方法

Similar Documents

Publication Publication Date Title
CN108460094A (zh) 存储统计数据的方法和系统
CN105446991B (zh) 数据存储方法、查询方法及设备
CN113610239B (zh) 针对机器学习的特征处理方法及特征处理系统
CN107123047B (zh) 基于债券交易的数据采集系统及其数据采集方法
CN108733713A (zh) 数据仓库中的数据查询方法及装置
CN110175154A (zh) 一种日志记录的处理方法、服务器及存储介质
CN106469076B (zh) 一种灰度发布方法及装置
CN109597936B (zh) 一种新用户筛选系统及方法
CN108446305A (zh) 多维度统计业务数据的系统和方法
CN112365355B (zh) 实时计算基金估值和风险指标的方法、装置及可读介质
CN106649687A (zh) 大数据联机分析处理方法及装置
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN106815254A (zh) 一种数据处理方法和装置
CN107748752A (zh) 一种数据处理方法及装置
CN107633347A (zh) 一种数据指标统计方法及装置
CN109324905A (zh) 数据库操作方法、装置、电子设备及存储介质
CN113360554A (zh) 一种数据抽取、转换和加载etl的方法和设备
CN107918618A (zh) 数据处理方法及装置
CN106777027A (zh) 大规模并行处理行列混合数据存储装置及存储、查询方法
CN111932135B (zh) 基于分布式数据库的客户风险识别方法及装置
CN115665284A (zh) 基于分布式配置中心的报文处理方法、装置及计算机设备
CN105138676A (zh) 基于高级语言并发聚合计算的分库分表merge查询方法
CN108564461A (zh) 一种资源配置方法、计算机可读存储介质及终端设备
CN114064707A (zh) 一种用于数据虚拟化服务器的数据查询方法、装置及存储介质
CN109977977A (zh) 一种识别潜在用户的方法及对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828

RJ01 Rejection of invention patent application after publication