CN111930857A

CN111930857A - 一种基于图计算的实时联机数据分析处理方法

Info

Publication number: CN111930857A
Application number: CN202010650317.5A
Authority: CN
Inventors: 冷友方; 张喜来; 田波
Original assignee: Chengdu Double Chain Technology Co ltd
Current assignee: Chengdu Double Chain Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-13

Abstract

本发明公开了一种基于图计算的实时联机数据分析处理方法，包括OLTP业务系统，所述OLTP业务系统中包含界面层、应用层及数据库层，所述数据库层由业务数据库组成，所述业务数据库中包含业务数据，所述业务数据包括维度数据及与维度数据对应的事实数据，其特征在于，所述处理方法包括如下步骤：S1、数据梳理；S2、建立图数据库；S3、部署业务数据变化感知组件；S4、建立GOLAP事务处理引擎及GOLAP分析引擎；S5、变化业务数据处理；S6、建立Key‑value数据库；S7、Key‑value数据库数据输入。本发明采用上述结构，能够应对提高OLAP在线分析系统的响应时间，节约存储空间，保证数据分析的实时性。

Description

一种基于图计算的实时联机数据分析处理方法

技术领域

本发明涉及数据处理技术领域，具体是一种基于图计算的实时联机数据分析处理方法。

背景技术

联机分析处理(OLAP)系统是数据仓库系统最主要的应用，专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业的经营状况，了解对象的需求，制定正确的方案。

OLAP按照物理模型可以分为ROLAP、MOLAP和HOLAP三种类型。ROLAP (RelationalOLAP，即：关系型OLAP)将多维的逻辑模型存储在关系数据库中； MOLAP(Multi-dimensional OLAP，即：多维OLAP)在组织数据时，将数据存储在多维数组中；HOLAP(HybridOLAP，即：混合型OLAP)混合了ROLAP和MOLAP 的方法，它允许模型设计者决定哪些数据存储在MOLAP中，哪些数据存储在ROLAP 中。

现有的OLAP系统存在如下问题：1、实时性问题，为了不影响业务系统的正常运行，现有的OLAP系统需要通过一定的数据同步策略来把业务系统中的数据同步到数据仓库中以供OLAP系统进行分析处理，常用的同步策略有定时同步和定量同步两种，这两种方式都会引起数据延时性问题，分析者看到的分析结果是一天前的数据(按天同步)或几小时前的数据(按日志量同步)；2、性能问题， ROLAP系统在用户提交分析请求后，进行大量的表连接和聚合操作之后，才把分析结果返回给用户，这些连接和聚合操作会引发大量的CPU和IO开销，导致延迟过大，从而降低用户的体验度；3、数据稀疏性问题，MOLAP中使用多维数组来存储所有的维度数据，当初使化时，会建立一个全维度的数组，当事务发生时，统计出相关指标并保存在相应的数据单元中，而其它单元仍然需要初使化，这就导致这个大而全的多维数组中，存在大量的稀疏数据，尤其是当维度过大时容易引起维度爆炸问题。

发明内容

为了解决上述背景中的问题，本发明提供了一种基于图计算的实时联机数据分析处理方法。

本发明解决上述问题所采用的技术方案是：

一种基于图计算的实时联机数据分析处理方法，包括如下步骤：

S1、维度获取，梳理业务数据库中的业务数据得到维度分类；

S2、建立图数据库，根据步骤S1中的维度分类建立图数据库并初始化图数据库中各维度的关系；

S3、数据监控，对业务数据进行监控得到实时数据；

S4、数据输入，将步骤S3中的实时数据输入到图数据库相应的节点上；

S5、预计算，对节点上实时数据的相关值进行相应的预计算得到计算值；

S6、数据存储，存储步骤S5得到的计算值及与计算值相对应的维度。

本发明通过对业务数据进行监控得到与新事务有关的实时数据，该实时数据包括维度信息和事实信息，通过维度信息与图数据库的维度一一对应可以将事实数据添加到图数据库的相应节点上；由于只存储了真实发生的事务及其关联的维度，对于未产生的事务及没有关联的维度，则不存储，因此解决了MOLAP 中的数据稀疏性问题，节省了存储开销；通过对业务数据进行实时监控使得写入图数据库中的信息都是实时信息，在后期查询时保证分析人员看到的展示结果都是实时的，随着业务数据变化而实时变化的；另外本发明采用预计算的方式，当事务发生时，通过按图索骥的方式找出和该事务关联的所有维度，进行逐级计算并保存计算结果，当用户提交分析请求时，只需要取出预计算好的结果可视化展示给用户即可，从而保证了分析的高性能和快速响应。

进一步地，作为优选技术方案，所述步骤S3与步骤S4之间还包括步骤S31、数据中转，实时数据由数据池进行数据中转；步骤S3得到的实时数据进入数据池，步骤S4从数据池中获取实时数据并输入到图数据库相应的节点上。数据池可以对系统进行优化，步骤S3得到实时数据的速度与步骤S4数据输入的速度可能不匹配，若步骤S3的速度快于步骤S4的速度则步骤S3需要等待，反之步骤 S4需要等待，在一段时间内则可能出现互相等待的情形；采用数据池进行数据中转，步骤S3得到的实时数据进入数据池，步骤S4从数据池中获取数据，可以起到缓冲作用。

进一步地，作为优选技术方案，所述步骤S5包括对单维度的数据值进行计算及组合维度的数据值进行计算。

进一步地，作为优选技术方案，在对组合维度的数据值进行计算时首先根据公式d_组合＝(d₁+1)×(d₂+1)×...×(d_n+1)计算组合维度的数量,其中d_组合表示组合维度的数量，d₁、d₂、...d_n表示各维度的层数；然后把每一种组合维度当成单一维度计算维度值。

进一步地，作为优选技术方案，还包括步骤S7、数据查询，用户提交数据分析请求，根据请求中的维度在步骤S6的存储结果中寻找相应的计算值。通过该步骤可以根据用户请求将计算结果展示给用户。

本发明相比于现有技术，具有以下有益效果:

1、提高系统的响应时间及性能。使用预计算的方式对数据进行计算，当事务发生时，通过按图索骥的方式找出和该事务关联的所有维度，进行逐级计算并保存计算结果，当用户提交分析请求时，只需要取出预计算好的结果即可，从而保证了分析的高性能和快速响应。

2、解决数据稀疏性问题及节约存储空间。本方法只存储真实发生的事务及其关联的维度，对于未产生的事务及没有关联的维度则不存储，因此解决了MOLAP 中的数据稀疏性问题，节省了存储开销。

3、实时分析。通过实时监控业务数据的新增和变化保证分析人员看到的展示结果都是实时的，随着业务数据变化而实时变化的。

附图说明

图1为本发明的流程图；

图2为业务数据变化感知组件的两种部署方式；

图3为GOLAP事务处理引擎的流程图；

图4为经步骤S1与S2处理后的结果示意图；

图5为新事务数据处理结果示意图；

图6为GOLAP分析引擎处理数据的结果示意图；

图7为本发明进一步细化后的流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例

实施例1

OLTP业务系统中包含界面层、应用层及数据库层，数据库层由业务数据库组成，业务数据库中包含业务数据，业务数据包括维度数据及与维度数据对应的事实数据，以空调售卖为例进行说明，如图1所示，本发明较佳实施例所示的一种基于图计算的实时联机数据分析处理方法，包括如下步骤：

S1、维度获取，梳理业务数据库中的业务数据得到维度分类；在空调售卖中我们抽取的维度分类有时间、地点、类别三个部分，其中时间和地点是层次结构，类别是除了时间和地点的其它维度的总称。

S2、建立图数据库，根据步骤S1中的维度分类建立图数据库并初始化图数据库中各维度的关系；例如时间维度的粒度从下到上依次是：十分钟->小时 ->天->月->年，它们的数据格式分别如下：

十分钟:YYYYMMDDHHMI,用12位表示十分钟，YYYY表示年份，MM表示月份，DD表示天，HH表示小时，MI表示分钟,此粒度只精确到十分钟，因此每个小时包含6个整十分钟维度，具体的时间会以向上取整的方式归类到这6个整十分钟维度中去。例如第1分钟到第9分钟发生的事情全部归类到第一个整十分钟中去。

小时：YYYYMMDDHH,用10位表示小时，YYYY表示年份，MM表示月份，DD 表示天，HH表示小时，此粒度只精确到小时，一天包含24小时，具体的时间会以向上取整的方式归到这24个小时维度中。例如1点01分到1点59分发生的事情全部归类到第1个小时中。

天：YYYYMMDD,用8位表示天,YYY表示年份，MM表示月份，DD表示天，此粒度只精确到天，具体的时间在此维度上会归类到具体的某一天中。

月：YYYYMM,用6位表示月，YYYY表示年份，MM表示月份，此粒度只精确到月，具体的时间会以取整的方式归到某一个月中。

年：YYYY，用4位表示年，YYYY表示年份，此粒度只精确到月，具体的时间会以取整的方式归到某一年中。

地点维度的粒度从下到上依次是：区->市->省->全国，存储地点时,会为每个地点生成一个ID，名字则存储在name属性中，然后把所有层的地点从低到高存储在图数据库中，并建立边来连接这些结点。

例如：[ID:D0001,name:高新区]-->[ID:C0002,name:成都市]-->[ID: P0041,name：四川省]-->[ID:T0001,name:中国]。

时间和地点也可以根据实际情况而有所改变，但总体是从细节到概括的层次结构。

类别信息也会按照层次存储在图数据库中；例如商品类别以如下方式存储在图数据库中：

[ID:U0001,name：格力35GW型空调]-->[ID:C0002,name:空调挂机] -->[ID:C0003,name:空调]-->[ID:C0004,name:家用电器]。

经步骤S1与S2处理后的结果如图4所示。

S3、数据监控，对业务数据进行监控得到实时数据；该步骤采用业务数据变化感知组件Agent对业务数据进行监控，不同的Agent其实现原理不同，但主要分为两种方式，如图2所示，第一种方式是嵌入到业务代码中：首先找到业务系统中产生事务的模块，然后分析出事务的数据结构，通常事务数据是一个结构化的数据包，主要包含[事务类型，时间，用户，地点等]；最后在模块中添加一个写的流程，在事务生成的同时把上述数据包写到下一步骤中即可；第二种方式是嵌入到业务数据库中，找到存储事务数据的表格，在表格上加入监控代码，例如触发器等，当表格中有新数据插入时，把新数据打包发送给下一步骤。

在本实施例中Agent采用第二种方式，以新事务为新订单为例，当用户小明买了一台格力35GW挂壁空调时，该事务的数据包格式为：{事务类型：新订单，时间：2020-05-1811：30，用户：小明，地点：成都市高新区，商品：格力35GW空调，数量：1，价格：3255}，Agent监测到该新事务的发生后将该事务的数据包打包发送给下一步骤。

S4、数据输入，将步骤S3中的实时数据输入到图数据库相应的节点上；在本实施例中采用GOLAP事务处理引擎进行数据输入，它可以接收来自步骤S3的实时数据，并将其输入到图数据库相应的节点上，相关联的节点通过边连接。

图数据库中的主要对象分为节点和边，因此，输入过程分为两步：

(1)首先把新事务做为图中的新节点插入图数据库中；

(2)然后在图数据库中找到与其对应的维度节点并建立新事务节点和维度之间的边。

如：GOLAP事务处理引擎接收到的数据包格式为：{事务类型：新订单，时间：2020-05-18 11：30，用户：小明，地点：成都市高新区，商品：格力35GW 空调，数量：1，价格：3255}，那么则执行以下两点：

(1)节点：首先为建立一个ID为T0001的节点表示该订单，该节点中包含用户信息、数量信息及价格信息；

(2)边：然后把该节点分别和时间维度中的最底层十分钟维度 [202005181130]建立关系，和地点中的[ID:D0001,name:高新区]建立关系，和类别中的[ID:U0001,name：格力35GW型空调]建立关系。新事务数据处理结果如图5所示，用户信息未展示。

S5、预计算，对节点上实时数据的相关值进行相应的预计算得到计算值；在本实施例中采用GOLAP分析引擎对数据进行预计算，具体步骤为：(1)首先从图数据库中读取新事务节点；

(2)单维度数据分析：从新事务节点出发，顺着各维度逐级向上计算所有的度量值；

在上述生成新订单中需对时间、地点、类别三个维度进行数据分析，以时间维度为例介绍计算方法：

(1)从最下级的新节点出发，首先遍历时间维度的最下级的[十分钟]节点 (即202005181130)，分别计算5种度量值：

count＝原销量(count)度量值+1；

sum＝原销售额(sum)度量值+新事务的销售价格(￥3255)；

mean：sum/count，即求均值操作；

max:max(原max值,新事务的销售价格(￥3255))，其中max为取最大值函数；

min:min(原min值,新事务的销售价格(￥3255))，其中min为取最小值函数

然后向上依次遍历小时、天、月、年结点，在每个结点上都计算上述五个度量值，图6为销售额与数量的示意图。

S6、数据存储，存储步骤S5得到的计算值及与计算值相对应的维度。可以采用数组进行存储也可以新建数据库进行存储，在本实施例中采用新建数据库的方式进行存储。建立Key-value数据库，Key-value数据库中包含Key属性及 value属性，Key属性用于存储维度数据，value属性用于存储计算结果。经步骤S5后的存储格式为：

Count_T_202005181130:2+1表示时间节点202005181130上的累计销量在原销量2的基础上加1；

Sum_T_202005181130:6510+3255表示时间节点202005181130上的累计销售额在原销售额6510的基础上加3255；

Mean_202005181130:(6510+3255)/(2+1)，最新的均值；

Max_202005181130:max(old value,3255)，最新的最大值；

Min_202005181130:min(old value,3255)，最新的最小值；

实施例2

如图7所示，在实施例1的基础上，所述步骤S3与步骤S4之间还包括步骤S31、数据中转，实时数据由数据池进行数据中转；步骤S3得到的实时数据进入数据池，步骤S4从数据池中获取实时数据并输入到图数据库相应的节点上。

在本实施例中采用流式处理软件作为数据池，流式处理软件包括Kafka, SparkStreaming,storm,Pulsar,Samza,Flink。以Kafka为例，步骤S3中的Agent在事务生成的同时把事务数据写到Kafka中，本实施例中的Agent采用第一种方式：嵌入到业务代码中，在产生事务的模块中添加一个写Kafka的流程，在事务生成的同时把上述数据包写到Kafka中。新事务的数据包格式为： {事务类型：生产新订单，时间：2020-05-18 11：30，用户：小明，地点：成都市高新区，商品：格力35GW型空调，数量：1，价格：3255}，在订单生成模块中加入写入Kafka的代码，把该数据包写到Kafka中。

GOLAP事务处理引擎以服务的形式一直运行，以轮询的方式持续从流式处理软件中提取新事务数据并把它存储到图数据库中的相应位置。轮询方式遵循以下三点原则：

(1)如果流式处理软件中有新数据，则循环处理新数据，

(2)如果流式处理软件中没有新数据，则等待一定的时间后再次询问是否有新数据，等待时间是人工设定的参数。

(3)该引擎会一直运行，直到系统以正常或异常方式关闭它。

如图3所示，GOLAP事务处理引擎的具体处理步骤如下：

(1)与Kafka建立连接；

(2)向Kafka请求数据，Kafka返回是否有新数据，如果有则跳到步骤 (3)，没有则跳到(4)；

(3)接收并处理新事务数据，处理完成后发送处理完成应答消息给Kafka， Kafka更新该数据状态为已完成。然后跳转到步骤(2)继续请求下一条数据；

(4)重置计时器并开始计时，然后等待，直到计时完成后跳到步骤(2)；

(5)以上步骤如果遇到系统关闭请求则关闭，否则持续运行。

所述步骤S5包括对单维度的数据值进行计算及组合维度的数据值进行计算。在对组合维度的数据值进行计算时首先根据公式d_组合＝(d₁+1)×(d₂+1)×... ×(d_n+1)计算组合维度的数量,其中d_组合表示组合维度的数量，d₁、d₂、...d_n表示各维度的层数；然后把每一种组合维度当成单一维度计算维度值。例如上述时间维度有5个层级[十分钟，小时，天，月，年]，地点维度有4个层级[高新区，成都市，四川省，全国],类别维度有4个层级[格力35GW型空调，空调挂机，空调，家用电器]，那么一共有(5+1)×(4+1)×(4+1)＝150种组合方式。公式中之所以加1，是因为每个单一维度上除了可以选择任意一层外，还可以不选择该维度的的任何一层，例如查看成都市的空调销量就没有时间维度。

另外，还包括步骤S7、数据查询，用户提交数据分析请求，根据请求中的维度在步骤S6的存储结果中寻找相应的计算值。该步骤可以通过可视化系统进行辅助实现，可视化系统为现有技术，把可视化系统与实现本发明方法的系统关联在一起，然后在可视化系统中用户提交数据分析请求，可视化系统提取请求中的维度Key，并在Key-value数据库中提取维度Key所对应的value值然后进行可视化展示。

如上所述，可较好的实现本发明。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于图计算的实时联机数据分析处理方法，其特征在于，包括如下步骤：

S3、数据监控，对业务数据进行监控得到实时数据；

2.根据权利要求1所述的一种基于图计算的实时联机数据分析处理方法，其特征在于，所述步骤S3与步骤S4之间还包括步骤S31、数据中转，实时数据由数据池进行数据中转；步骤S3得到的实时数据进入数据池，步骤S4从数据池中获取实时数据并输入到图数据库相应的节点上。

3.根据权利要求1所述的一种基于图计算的实时联机数据分析处理方法，其特征在于，所述步骤S5包括对单维度的数据值进行计算及组合维度的数据值进行计算。

4.根据权利要求3所述的一种基于图计算的实时联机数据分析处理方法，其特征在于，在对组合维度的数据值进行计算时首先根据公式d_组合＝(d₁+1)×(d₂+1)×...×(d_n+1)计算组合维度的数量,其中d_组合表示组合维度的数量，d₁、d₂、...d_n表示各维度的层数；然后把每一种组合维度当成单一维度计算维度值。

5.根据权利要求1～4任一所述的一种基于图计算的实时联机数据分析处理方法，其特征在于，还包括步骤S7、数据查询，用户提交数据分析请求，根据请求中的维度在步骤S6的存储结果中寻找相应的计算值。