CN104166666A

CN104166666A - PostgreSQL高并发流式大数据多维度准实时统计的方法

Info

Publication number: CN104166666A
Application number: CN201410207285.6A
Authority: CN
Inventors: 周正中
Original assignee: HANGZHOU SKY-MOBI TECHNOLOGY Co Ltd
Current assignee: HANGZHOU SKY-MOBI TECHNOLOGY Co Ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2014-11-26
Anticipated expiration: 2034-05-15
Also published as: CN104166666B

Abstract

本发明涉及PostgreSQL高并发流式大数据多维度准实时统计的方法。其技术方案要点是：创建流水表增量状态表、统计函数、函数增量状态表和分析函数，对流水表增量状态表函数增量状态表进行初始化；计算分析函数取数的次数，以整数方式记录，作为统计次数数据，分析函数工作，进入子步骤，计算机根据统计函数得出的流水统计数据输出含有多维度准实时统计数据的统计维度表。本发明节约硬件投入至少100倍，实时时效控制在1分钟以内。

Description

PostgreSQL高并发流式大数据多维度准实时统计的方法

技术领域

本发明属于一种数据统计方法，特别涉及PostgreSQL高并发流式大数据多维度准实时统计的方法。

背景技术

随着互联网的发展，互联网上的应用和用户越来越多，用户产生的数据也爆发性的增长，通过用户产生的数据，可以按照数据的各个维度分析得出企业关注的数据，例如用户的流动性，差异性，传播性，产品和用户群体的关系，应用热度分时，分地域的排行等等，根据用户特性挖掘用户潜在的需求等；程序获取用户产生的数据最简单有效的方法就是流水式数据，单个数据包里面包含了发生时间点的各个维度的所有信息量，这种场景的特性是并发量大，数据量大，因此对时效要求比较高的数据分析来说是一个非常巨大的挑战。

传统的做法有几种：

由于OLTP系统的计算资源和IO资源的局限性，直接在OLTP系统上做多维度的统计是不合理的，第一种解决办法是将这种流式数据从OLTP系统异步的写入数据仓库，而数据仓库并不适合做实时的统计，比较适合做离线(如隔夜)的分析，无法满足时效高的场景需求。同时数据仓库的基础设施以及软件初期投入成本高昂，耗资往往是OLTP系统的百倍以上。

另一种方法是在OLTP系统上使用触发器，在触发器函数中包含需要统计的维度的业务逻辑，实时的更新统计结果，这种方法适合小数据量的场景，因为每条数据都触发，显然带来了比较庞大的计算开销，极其容易产生写入瓶颈，无法满足高并发和大数据场景下的高时效统计需求。

申请号：201010551123。6，公开了一种多层次多维度的数据属性分析方法及装置。其特征是：建立维护公用基础资料数据的公用代码平台，所述公用基础资料包括基础资料和/或公用代码表；建立所述基础资料数据分析的数据关系模型作为基础资料分析平台；根据所述基础资料分析平台的数据关系进行数据属性多层次与多维度分析。其技术方案与现有技术一样，存在同时数据仓库的基础设施以及软件初期投入成本高昂，耗资往往是OLTP系统的百倍以上的问题。

发明内容

本发明解决了上述技术存在同时数据仓库的基础设施以及软件初期投入成本高昂，耗资往往是OLTP系统的百倍以上。或是因为每条数据都触发，显然带来了比较庞大的计算开销，极其容易产生写入瓶颈，无法满足高并发和大数据场景下的高时效统计需求的问题，提供一种克服现有技术缺点，的PostgreSQL高并发流式大数据多维度准实时统计的方法。

本发明解决其技术问题所采用的技术方案是：一种PostgreSQL高并发流式大数据多维度准实时统计的方法，适用于OLTP系统，

步骤一：创建流水表增量状态表、统计函数、函数增量状态表和分析函数，对流水表增量状态表函数增量状态表进行初始化；

步骤二：计算分析函数取数的次数，以整数方式记录，作为统计次数数据，

步骤三：分析函数工作，进入子步骤，

子步骤一：计算机判断取数据的参数值是否正确，如果正确将数据录入流水信息表，如果不正确则结束本方法并报错，

子步骤二：从函数增量状态表中取出统计函数，存储在计算机内存中，遍历统计函数的函数名和各变量，

子步骤三：把未执行事务号存入内存中，

子步骤四：在流水表增量状态表中取出历史截止时间值，

子步骤五：将历史未执行事务号与未执行事务号做集合加运算，

子步骤六：从流水表中根据统计次数数据取出大于等于历史截止时间值的事务号结果值，所述事务号结果值包括历史截止时间值和第一部分流水数据，历史截止时间值根据事务号结果值进行更新，

子步骤七：计算机从流水表中先对未执行事务号和历史未执行事务号进行集合差运算获得差异值，再对未执行事务号和历史未执行事务号进行取交集运算获得交集值，将交集值与差异值做集合与运算得出第二部分流水数据，

子步骤八：将第一部分流水数据和第二部分流水数据合并得出流水数据，将流水数据更新至流水表增量状态表，将历史截止时间值也更新至流水表增量状态表中，遍历统计函数中的变量后，更新函数增量状态表，

子步骤九：流水数据由统计函数调用，执行步骤四，

步骤四：计算机根据统计函数得出的流水统计数据输出含有多维度准实时统计数据的统计维度表；

所述流水表为OLTP系统固有组成。

相对传统方法通过大量基础设施以及软件投资提高计算资源来解决大数据的准实时统计需求，性价比很低，往往不是创业型或者中小企业所能承担的。另一些现有技术则通过OLTP中创建触发器来实现实时的统计，受制于请求量，无法满足高并发的请求。采用本发明的方法很好的解决了三个问题，一是成本，二是高并发，三是时效；使得创业型或中小企业在可以接受的成本投入下，也能实现大数据的准实时数据挖掘，相对成本问题，由于本发明不需要OLTP以外额外的设备投入，所以不会带来成本的提升；

针对高并发的问题，本发明采用异步的方式解决了高并发的问题，增量对数据进行统计，同时不影响一致性和高并发；针对时效问题，本发明支持各维度并行调度，可以提高统计的并发度，很好的解决了串行统计带来的时效问题。经测试，采用本发明的方法进行高并发流式大数据多维度准实时统计与传统方法相比，在不影响并发的前提下，节约硬件投入至少100倍，实时时效控制在1分钟以内，实际测试约5秒。相比数据仓库的隔天报表时效提高1440倍以上，统计性能比直接统计性能提升1万倍以上。

作为优选，当取增量数据消耗硬件成本更高时，使用所有维度统一增量数据集方式统计，在数据统计耗硬件成本更高时，使用维度独立增量数据集方式统计。

这个设定可以根据人工设定或者采用计算机自动获取之后的计算获得，这样设置，针对不同的硬件条件有不同的对应方法，确定了相应的最优方式。

作为优选，使用所有维度统一增量数据集方式统计，所有统计维度表对应同一份流水表增量状态表和同一份函数增量状态表。

作为优选，使用所有维度统一增量数据集方式统计，每份统计维度表均对应有一份流水表增量状态表和同一份函数增量状态表。

作为优选，在所述子步骤二中，在获取统计维度信息前，系统对均获取一个用于确保统计逻辑数据的一致性的adv锁，在所述子步骤九中增加释放adv锁的步骤。

本发明的实质性效果是：采用本发明的方法进行高并发流式大数据多维度准实时统计与传统方法相比，在不影响并发的前提下，节约硬件投入至少100倍，实时时效控制在1分钟以内，实际测试约5秒。相比数据仓库的隔天报表时效提高1440倍以上，统计性能比直接统计性能提升1万倍以上。

具体实施方式

下面通过具体实施例，对本发明的技术方案作进一步的具体说明。

实施例：

一种PostgreSQL高并发流式大数据多维度准实时统计的方法，适用于OLTP系统，

步骤三：分析函数工作，进入子步骤，

子步骤三：把未执行事务号存入内存中，

子步骤四：在流水表增量状态表中取出历史截止时间值，

子步骤九：流水数据由统计函数调用，执行步骤四，

所述流水表为OLTP系统固有组成。

当取增量数据消耗硬件成本更高时，使用所有维度统一增量数据集方式统计，在数据统计耗硬件成本更高时，使用维度独立增量数据集方式统计。

使用所有维度统一增量数据集方式统计，所有统计维度表对应同一份流水表增量状态表和同一份函数增量状态表。

使用所有维度统一增量数据集方式统计，每份统计维度表均对应有一份流水表增量状态表和同一份函数增量状态表。

在所述子步骤二中，在获取统计维度信息前，系统对均获取一个用于确保统计逻辑数据的一致性的adv锁，在所述子步骤九中增加释放adv锁的步骤。

以实际例子来讲解具体的实施过程为：

首先要创建流水表，在流水表中，以xid作为增量截止标识，另外需要xid_snapshot作为气泡标记.

为了加快取数据的速度，在xid上加上必要的索引.

create index idx_log_1on log(xid)；

创建维度统计表，本例以c1一个维度，c2，c3一个维度，加上日，周，月，年总共8个维度.

创建分析注册表，记录每个明细表每次分析的截止xid，xip.

插入初始记录，表的初始记录xid取值范围(>＝0and<＝txid_snapshot_xmin-1)

insert into log_read values(’log’，0，null，null，now())；

创建分析维度信息注册表，记录每个维度的初始xid信息.

因为所有维度使用同一个表级别的截至值(log_read.xid)，但是维度可能是后期加入的，所以初始xid可能不一样，每个维度一条记录信息.

创建log表的数据分析函数，统一取增量数据，然后调用维度分析函数.

v_limit用于限制多少个xid，而不是多少条记录，当一个XID有多条记录时，如果取到这个XID的话，这个XID的数据也会全部被处理.

因为使用v_limit来限定行数，就会出现比较危险的情况，因为如果一个事务包含多条记录的话，限定行数的方法可能导致一个事务的数据只取到中间部分，而剩余部分下次就取不到了.

设置统计维度的初始记录开始位置，xid＝0表示表里的所有数据都需要统计.

使用pgbench模拟并发数据录入，录入语句中包括回滚的场景，更贴近实际应用场景：

执行以下进程，数据录入10分钟.

摘录测试结果如下，5000tps，30000qps.

同时开启以下统计程序，每隔6秒统计一次，每次最多取100万个事务的增量数据.

统计比数据录入结束延迟约5秒.

测试结束后验证统计数据是否准确，比对流水表和统计维度表的数据是否一致.

统计表和流水表的比对结果一致，性能提升80000多倍.

新增统计维度的测试，加入需要新增统计维度，可以通过以下方法添加统计维度

创建新维度的统计计算函数stat_log_c1_week.

注册统计维度函数，注册时isinit＝true.第一次调用analyze_log后更新为false，同时更新init_xid，init_xip等.

继续使用pgbench数据录入测试60秒

同时开启analyze.sh进行增量统计

./analyze.sh

分析函数运行完后，比对数据一致性，结果一致.

比对第二个维度的数据，由于第二个维度是后期加入的，所以统计时需要排除掉历史数据.

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种PostgreSQL高并发流式大数据多维度准实时统计的方法，适用于OLTP系统，其特征在于：

步骤二：计算分析函数取数的次数，以整数方式记录，作为统计次数数据，步骤三：分析函数工作，进入子步骤，

子步骤三：把未执行事务号存入内存中，

子步骤四：在流水表增量状态表中取出历史截止时间值，

子步骤九：流水数据由统计函数调用，执行步骤四，

所述流水表为OLTP系统固有组成。

2.根据权利要求1所述的PostgreSQL高并发流式大数据多维度准实时统计的方法，其特征在于：当取增量数据消耗硬件成本更高时，使用所有维度统一增量数据集方式统计，在数据统计耗硬件成本更高时，使用维度独立增量数据集方式统计。

3.根据权利要求2所述的PostgreSQL高并发流式大数据多维度准实时统计的方法，其特征在于：使用所有维度统一增量数据集方式统计，所有统计维度表对应同一份流水表增量状态表和同一份函数增量状态表。

4.根据权利要求2所述的PostgreSQL高并发流式大数据多维度准实时统计的方法，其特征在于：使用所有维度统一增量数据集方式统计，每份统计维度表均对应有一份流水表增量状态表和同一份函数增量状态表。

5.根据权利要求2所述的PostgreSQL高并发流式大数据多维度准实时统计的方法，其特征在于：在所述子步骤二中，在获取统计维度信息前，系统对均获取一个用于确保统计逻辑数据的一致性的adv锁，在所述子步骤九中增加释放adv锁的步骤。