CN108460094A

CN108460094A - 存储统计数据的方法和系统

Info

Publication number: CN108460094A
Application number: CN201810092197.4A
Authority: CN
Inventors: 沈荟荟; 蔡晓华; 杨光辉; 贺晓麟; 王涛; 周育樑
Original assignee: SHANGHAI NETIS TECHNOLOGIES Co Ltd
Current assignee: SHANGHAI NETIS TECHNOLOGIES Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-28

Abstract

本发明提供了一种存储统计数据的方法和系统，包括：将采集到的信息根据配置进行聚合，得到多个时间颗粒度的聚合语句，将聚合语句应用到与多个时间颗粒度对应的数据库中。本发明实时统计，无延迟，实时性高，查询快。本发明按照配置聚合指定的指标，颗粒度聚合同时进行，查询数据时能自动合理分配到各个时间颗粒度，能减少查询数据量，在按时间颗粒度存储数据前还有一层细分，按时间跨度存储颗粒度数据。

Description

存储统计数据的方法和系统

技术领域

本发明涉及性能监控领域，具体地，涉及查询和存储统计数据的方法和系统，尤其是存储交易的统计数据的方法和系统。

背景技术

随着近年来移动互联网、云计算以及物联网等新兴技术的飞速发展，其所带来数据呈爆炸式增长。例如2016年双十一期间，某互联网公司每秒钟处理17万笔交易。同样的，银行系统、证券系统每天都会处理数量巨大的交易，为了保证网络通畅、交易实时性，就需要由额外的监控系统来观察。在监控系统的观察中，通常会关注一些响应时间长、成功率低的交易，以及需要指定一个时间范围来查询交易，根据计算得出的统计数据来判断当前网络或应用的可用性。

现有技术中一种传统的技术方案是将交易逐笔存入数据库或磁盘，之后在指定时间范围内读取入库的交易记录，然后逐笔聚合成统计数据。这样的做法在时间范围不大或是该时间范围内交易量较少的情况下问题还不明显，但是，一旦时间范围扩大成几天或是交易量变得相对较多，则将反应出查询时间缓慢以及内存消耗增长的问题，这严重影响到服务器性能和用户的体验，并且在数据实时性上或查询性能上会有问题。

现有技术中另一种传统的技术方案是将数据逐笔存入数据库或磁盘后，依靠批处理程序将监控的交易信息转换成统计信息后存入数据库。这样的技术方案在数据实时性方面有所欠缺，不能应用在关键业务的监控上，并且在数据实时性上或查询性能上也会有问题。

现有技术中还有一种技术方案是实时的将交易信息聚合成统计信息存入数据库，既在数据实时性上有优势，又可以快速地执行数据查询。

专利文献CN102495851A，公开了一种时序数据的存储方法和存储装置,其是针对某些具体的数据存储查询应用，存在以下不足之处：1)只有两级时间时间颗粒度的存储，在查询时间范围较大的情况下，只能从第二级的时间颗粒度聚合数据，查询时间较长。2)实时统计时只能逐级时间颗粒度聚合统计数据。3)只能按照网络数据的四元组进行聚合统计。

专利文献CN103678627A，公开了一种统计数据的存储和查询方法，其针对某些具体的数据存储应用，存在以下不足之处：1)进行数据统计时必须等待低级时间桶完成后才能聚合高级时间桶。2)在指定时间范围内查询数据时将时间范围切割对应各个时间桶的子范围后从大时间桶逐次查询到小时间桶。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种查询和存储统计数据的方法和系统。

根据本发明提供的一种存储统计数据的方法，包括：

聚合应用步骤：将采集到的信息根据配置进行聚合，得到多个时间颗粒度的聚合语句，将聚合语句应用到与多个时间颗粒度对应的数据库中。

优选地，所述聚合应用步骤中，将实时采集的交易信息根据配置生成维度字段和指标字段，按照时间维度和/或自定义维度进行统计数据的聚合，得到初步聚合的统计数据，然后将初步聚合的统计数据均匀分发到下级处理器，在下级处理器中再进一步聚合后，生成各个时间颗粒度的聚合语句。

优选地，所述聚合应用步骤包括如下步骤：

数据采集步骤：实时采集网络上的交易数据，得到原始交易数据；

数据预处理步骤：对原始交易数据进行预处理；

数据聚合步骤：根据原始交易数据的预处理结构，生成数据更新语句；

数据存储步骤：将数据更新语句应用到数据库中；

所述数据预处理步骤包括：

字段提取步骤：根据预先自定义的配置，从原始交易数据中提取出聚合维度字段和统计指标字段；

所述数据聚合步骤包括：

预先聚合应用步骤：根据最小单位时间，针对聚合维度字段和统计指标字段，对原始交易数据预先聚合一次，形成结构化统计数据；

分发步骤：提取出结构化统计数据中的id字段进行哈希处理，哈希后的结果与根据最小单位时间进行预先聚合的步骤的数量取模后的结果分发到下级数据聚合步骤处理；

所述数据存储步骤包括：

数据更新语句获取步骤：按照结构化统计数据，同时生成多个时间颗粒度的数据更新语句；

语句应用步骤：将数据更新语句应用到各个时间颗粒度下的数据库。

优选地，包括：

查询步骤：根据查询条件中的时间范围，生成查询语句，发送给相应的数据库进行查询；和/或

数据合并步骤：合并各个数据库查询的结果。

优选地，在所述查询步骤中，提取前台发送的查询条件中的时间范围，根据大时间颗粒度优先原则拆分成各个时间范围，然后分析剩余的查询条件判断出需要查询的数据库，然后将拆分的时间范围和剩余的查询条件组合成查询语句，然后根据判断出的查询数据库将查询语句发送给各个数据库，最后将各个数据库的查询结果合并；

在所述数据合并步骤中，获取多个查询结果后，依照查询条件，如果查询的是时序数据，则直接合并多个查询结果，按照时间排序；如果查询的是非时序数据，则再次聚合数据。

根据本发明提供的一种存储统计数据的系统，包括：

聚合应用模块：将采集到的信息根据配置进行聚合，得到多个时间颗粒度的聚合语句，将聚合语句应用到与多个时间颗粒度对应的数据库中。

优选地，所述聚合应用模块中，将实时采集的交易信息根据配置生成维度字段和指标字段，按照时间维度和/或自定义维度进行统计数据的聚合，得到初步聚合的统计数据，然后将初步聚合的统计数据均匀分发到下级处理器，在下级处理器中再进一步聚合后，生成各个时间颗粒度的聚合语句。

优选地，所述聚合应用模块包括如下模块：

数据采集模块：实时采集网络上的交易数据，得到原始交易数据；

数据预处理模块：对原始交易数据进行预处理；

数据聚合模块：根据原始交易数据的预处理结构，生成数据更新语句；

数据存储模块：将数据更新语句应用到数据库中；

所述数据预处理模块包括：

字段提取模块：根据预先自定义的配置，从原始交易数据中提取出聚合维度字段和统计指标字段；

所述数据聚合模块包括：

预先聚合应用模块：根据最小单位时间，针对聚合维度字段和统计指标字段，对原始交易数据预先聚合一次，形成结构化统计数据；

分发模块：提取出结构化统计数据中的id字段进行哈希处理，哈希后的结果与根据最小单位时间进行预先聚合的模块的数量取模后的结果分发到下级数据聚合模块处理；

所述数据存储模块包括：

数据更新语句获取模块：按照结构化统计数据，同时生成多个时间颗粒度的数据更新语句；

语句应用模块：将数据更新语句应用到各个时间颗粒度下的数据库。

优选地，包括：

查询模块：根据查询条件中的时间范围，生成查询语句，发送给相应的数据库进行查询；和/或

数据合并模块：合并各个数据库查询的结果。

优选地，在所述查询模块中，提取前台发送的查询条件中的时间范围，根据大时间颗粒度优先原则拆分成各个时间范围，然后分析剩余的查询条件判断出需要查询的数据库，然后将拆分的时间范围和剩余的查询条件组合成查询语句，然后根据判断出的查询数据库将查询语句发送给各个数据库，最后将各个数据库的查询结果合并；

在所述数据合并模块中，获取多个查询结果后，依照查询条件，如果查询的是时序数据，则直接合并多个查询结果，按照时间排序；如果查询的是非时序数据，则再次聚合数据。

与现有技术相比，本发明具有如下的有益效果：

1、本发明实时统计，无延迟，实时性高，查询快

2、本发明按照配置聚合指定的指标，颗粒度聚合同时进行，查询数据时能自动合理分配到各个时间颗粒度，能减少查询数据量，在按时间颗粒度存储数据前还有一层细分，按时间跨度存储颗粒度数据。

3、本发明中根据接收采集到的数据信息，例如交易数据，生成各个时间颗粒度的聚合语句，然后同时应用到数据库，从而实现了同时聚合各种颗粒度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为系统原理流程图。

图2为数据存储原理流程图。

图3为数据预处理原理流程图。

图4为数据聚合原理流程图。

图5为数据存储原理流程图。

图6为数据查询原理流程图。

图7为查询分析原理流程图。

图8为数据合并原理流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供的存储统计数据的方法，包括：聚合应用步骤：将采集到的信息根据配置进行聚合，得到多个时间颗粒度的聚合语句，将聚合语句应用到与多个时间颗粒度对应的数据库中。

本发明提供的存储统计数据的系统，包括：聚合应用模块：将采集到的信息根据配置进行聚合，得到多个时间颗粒度的聚合语句，将聚合语句应用到与多个时间颗粒度对应的数据库中。

在聚合应用步骤及模块中，将采集到的信息根据配置进行聚合，得到多个时间颗粒度的聚合语句；以交易数据为例，将实时采集的交易信息根据配置生成需要的维度字段和指标字段，然后按照时间维度和自定义维度进行统计数据的聚合，得到初步聚合的统计数据，然后将初步聚合的统计数据均匀分发到下级处理器，然后在下级处理器里再进一步聚合后，生成各个时间颗粒度的聚合语句，将聚合语句派发到数据存储模块,数据存储模块分析聚合语句后将语句应用到数据库。

下面对本发明提供的方法和系统进行具体说明。存储统计数据的方法为存储统计数据的系统的一个具体实施方式，本领域技术人员可以根据存储统计数据的方法的步骤流程实现所述存储统计数据的系统。

在优选例中，所述聚合步骤包括如下步骤：

数据预处理步骤：对原始交易数据进行预处理；

数据存储步骤：将数据更新语句应用到数据库中；其中，按照配置的时间跨度存储颗粒度数据；

所述数据预处理步骤包括：

所述数据聚合步骤包括：

所述数据存储步骤包括：

接下来对本发明进行更为具体的说明。

所述数据预处理步骤包括：

字段提取步骤：根据预先自定义的配置，从原始交易数据中提取出聚合维度字段和统计指标字段；例如根据配置，聚合维度字段为field_1，统计指标字段为field_3、field_4。

例如，假设原始交易数据中有两条记录，分别为记录A和记录B。

记录A：{ts:1,field_1:'区域1',field_2:'下级区域1',field_3:3,field_4:5}

记录B：{ts:1,field_1:'区域1',field_2:'下级区域2',field_3:10,field_4:2}

预先或初步聚合后形成的结构化统计数据为如下记录：

记录：{id:{ts:1,field_1:'区域1'},field_3:13,field_4:7}

其中：

字段ts表示时间

字段field_2表示维度字段

字段id表示之后按照id进行聚合

分发步骤：提取出结构化统计数据中的id字段进行哈希(Hash)处理，得到哈希结构；将统计数据(是指字段“field_3:13,field_4:7”)分发到下级数据聚合模块；

id＝{ts:1,field_1:'区域1'}，哈希后的结果与根据最小单位时间进行预先聚合的模块的数量取模后的结果分发到下级数据聚合模块；其中，id后的冒号是所在的区域是一种数据结构的表现方式，id后的等号可以理解为一种变量的定义或者赋值。其中，取模的目的是为了计算的负载均衡。

与数据应用聚合步骤对应的数据应用聚合模块,如图2，其用于：

1)接收数据预处理模块发送过来的结构化统计数据，按照id字段进一步聚合处理，例如按照一分钟的时间颗粒度；

数据预处理模块1发送的记录A:{id:{ts:1,field:区域1},field_3:13,field_4:7}

数据预处理模块2发送的记录B:{id:{ts:1,field:区域1},field_3:3,field_4:8}

聚合后的记录：{id:{ts:1,field:区域1}，field_3:16,field:15}

2)按照结构化的数据，同时生成多个时间颗粒度的数据更新语句

数据存储步骤对应的数据存储模块，如图5，其用于：

1)优化数据更新语句，减少最终存储的大小，其中，针对数据更新语句，将其中的常用的键短名化，比如字段field_1是内置字段，可以按照规则更新为f字段

2)将数据更新语句应用到各个颗粒度下的数据库，其中，按照数据更新语句中时间字段判断所在的数据库分发更新。

尤其是，时间跨度是将一段时间为级别进行数据库存储，时间颗粒度是指在一段时间的数据库中以时间颗粒度为表来进行存储。通过判断聚合完毕后的数据的时间落在那个时间跨度的数据库中，从而实现按时间跨度存储颗粒度数据。

查询步骤，应用查询语句到各个数据库，按照查询中的时间范围判断所在的数据库。具体是根据查询条件中的时间范围，生成查询语句，发送给相应的数据库进行查询；提取前台发送的查询条件中的时间范围，根据大时间颗粒度优先原则拆分成各个时间范围，然后分析剩余的查询条件判断出需要查询的数据库，然后将拆分的时间范围和剩余条件组合成查询语句，然后根据判断出的查询数据库将查询语句发送给各个数据库，最后将各个数据库的查询结果合并。

查询步骤对应的查询模块，如图7，包括以下模块：

一、条件分析模块，其用于：

1)拆分时间范围

查询时间范围从2016-04-18 11:31到2016-04-18 15:21,如果查询条件中指定了需要查询每5分钟的统计值，那么就按5分钟颗粒度拆，查询时间就会规整成从2016-04-1811:30到2016-04-18 15：20。如果没有给出具体的颗粒度，那么按照较大时间颗粒度被整除原则找。比如有1分钟，5分钟，15分钟，用户查询的是一小时间(10:00-11:00)隔的数据，那么15分钟的颗粒度被优先选择。如果都没有找到，按最小时间颗粒度。

2)判断最优数据库

根据数据存储流程，最终会保存几份单一维度值的统计表。这里判断的依据是根据查询条件里除了时间维度以外的过滤条件，看能否满足在一个特定维度值的统计表里查询。

3)生成查询语句

数据合并步骤对应的数据合并模块，如图8，其用于：

1)合并各个数据库查询的结果

获取多个查询结果后，依照查询条件，如果查询的是时序数据，则直接合并多个查询结果，按照时间排序。如果查询的是非时序数据，则需要再次聚合数据。

在一个优选地实施举例中，根据本发明提供的方法或系统具体实施如下：

一、数据存储

步骤1、数据采集模块采集数据。

步骤2、数据预处理模块将步骤1送入的数据，依据配置生成维度字段和指标字段，并且将数据初步聚合处理后生成结构化数据，均匀派发到各个数据聚合模块。

步骤3、数据聚合模块将步骤2送入的结构化数据按照各个时间颗粒度和维度同时聚合成统计数据并生成数据更新语句。

步骤4、数据存储模块将步骤3生成的数据库更新语句同时应用到各个时间颗粒度数据库，按照配置的时间跨度存储颗粒度数据。

二、数据查询

步骤1、查询条件分析模块接收前台送过来的参数，分解出时间范围参数，然后按照大时间颗粒度优先原则将时间范围分解成落在各个时间颗粒度的时间范围，然后根据剩余的参数判断出最优数据库，将之前的过程组合成查询语句。

步骤2、数据查询模块通过步骤1的查询语句同时获取各个查询结果。

步骤3、数据合并模块通过步骤2获取的查询结果，按照查询条件是否是时序数据判断，如果是则直接合并各个查询结果，如果不是，则再次按照各个结果的维度再次聚合指标，生成最终结果。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种存储统计数据的方法，其特征在于，包括：

2.根据权利要求1所述的存储统计数据的方法，其特征在于，所述聚合应用步骤中，将实时采集的交易信息根据配置生成维度字段和指标字段，按照时间维度和/或自定义维度进行统计数据的聚合，得到初步聚合的统计数据，然后将初步聚合的统计数据均匀分发到下级处理器，在下级处理器中再进一步聚合后，生成各个时间颗粒度的聚合语句。

3.根据权利要求1所述的存储统计数据的方法，其特征在于，所述聚合应用步骤包括如下步骤：

数据预处理步骤：对原始交易数据进行预处理；

数据存储步骤：将数据更新语句应用到数据库中；

所述数据预处理步骤包括：

所述数据聚合步骤包括：

所述数据存储步骤包括：

4.根据权利要求1所述的存储统计数据的方法，其特征在于，包括：

数据合并步骤：合并各个数据库查询的结果。

5.根据权利要求4所述的存储统计数据的方法，其特征在于，

在所述查询步骤中，提取前台发送的查询条件中的时间范围，根据大时间颗粒度优先原则拆分成各个时间范围，然后分析剩余的查询条件判断出需要查询的数据库，然后将拆分的时间范围和剩余的查询条件组合成查询语句，然后根据判断出的查询数据库将查询语句发送给各个数据库，最后将各个数据库的查询结果合并；

6.一种存储统计数据的系统，其特征在于，包括：

7.根据权利要求1所述的存储统计数据的系统，其特征在于，所述聚合应用模块中，将实时采集的交易信息根据配置生成维度字段和指标字段，按照时间维度和/或自定义维度进行统计数据的聚合，得到初步聚合的统计数据，然后将初步聚合的统计数据均匀分发到下级处理器，在下级处理器中再进一步聚合后，生成各个时间颗粒度的聚合语句。

8.根据权利要求1所述的存储统计数据的系统，其特征在于，所述聚合应用模块包括如下模块：

数据预处理模块：对原始交易数据进行预处理；

数据存储模块：将数据更新语句应用到数据库中；

所述数据预处理模块包括：

所述数据聚合模块包括：

所述数据存储模块包括：

9.根据权利要求1所述的存储统计数据的系统，其特征在于，包括：

数据合并模块：合并各个数据库查询的结果。

10.根据权利要求4所述的存储统计数据的系统，其特征在于，

在所述查询模块中，提取前台发送的查询条件中的时间范围，根据大时间颗粒度优先原则拆分成各个时间范围，然后分析剩余的查询条件判断出需要查询的数据库，然后将拆分的时间范围和剩余的查询条件组合成查询语句，然后根据判断出的查询数据库将查询语句发送给各个数据库，最后将各个数据库的查询结果合并；