CN111625568B

CN111625568B - 一种大数据统计归集算法

Info

Publication number: CN111625568B
Application number: CN202010439804.7A
Authority: CN
Inventors: 刘雄辉
Original assignee: Guangdong Nine Zero Technology Co ltd
Current assignee: Guangdong Nine Zero Technology Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2022-04-01
Anticipated expiration: 2040-05-22
Also published as: CN111625568A

Abstract

本发明公开了一种大数据统计归集算法，在数据采集的源头进行数据标记，对数据进行业务上的逻辑定义，定义后系统根据数据存在内存中实时计算，根据数据采集的标记类型，定义实时计算模型，实时计算输入原数据产出实时计算业务需要的数据结果，结果存放于内存中，并根据需要可通过websocket技术或者http轮询进行展示到大数据平台中，根据需要可以通过定时更新纳入存储到数据库中，并根据数据标记进行分批量的业务存储，减少的数据库查询需要的业务结果计算所需的计算压力，无需加载数据源进行重复计算，节省设备启动时间并且效率更高效。

Description

一种大数据统计归集算法

【技术领域】

本发明涉及大数据统计和归集算法技术，具体涉及一种大数据统计归集算法。

【背景技术】

现在互联网高度发展的今天，涉及系统相关的数据统计和归集内容变得越发的复杂以及数据量极其庞大，现阶端大量的数据收集过程存放在数据库中，而数据库在大量数据实时查询的时候会非常慢，这种方式导致无法更好的体现数据统计和归集带来的及时性和高效性，现阶段大数据存储统计和归集存在于各个业务场景内，现阶段各个企业大量采用云厂商提供的第三方插件，提供云端分析和数据分析，因此需要招用相关部署运维人员，相关实施成本比较高，且实现的途径也相对复杂，需要产品研发和云插件运维人员协调配合，为了避免大数据场景业务不复杂的情况下，如何实现大数据的数据统计和归集就变得极为重要了，因此设计一种实现大数据场景下能够简单高效实时处理相关大数据的统计和归集对于企业的成本和运维的复杂程度极其重要。

【发明内容】

为解决上述问题，提出了节省设备启动时间并且效率更高效的一种大数据统计归集算法；

一种大数据统计归集算法，其特征在于所述大数据统计和归集算法技术包括以下步骤：

a)、根据系统的业务结构进行分析，确认系统数据生成源头，对数据源头进行标记为S1；

b)、定义实时计算业务模型的计算结果，根据数据源S1定义输入属性SP1、SP2、SP3为输入参数，其中SP1为用户对象，即性别和年龄、SP2为使用类型1的使用数据、即业务结构中的第一种业务类型，SP3为使用类型2的使用数据，即业务结构中的第二种业务类型，需要获得的实时计算模型结果定义为R1，定义R1的相关产出属性RU1、RS1，其中RU1为用户对象，即性别和年龄、RS1为总使用数据；

c)、定义实时计算的业务模型，定义模型结构和编号；对结果产出的过程定义为实时计算模型M1；

d)、实时计算数据模型的计算过程，根据数据源标记S1定义输入属性SP1、SP2、SP3为输入参数，依据M1模型产出结果R1知，实时计算数据模型M1需要对源数据输入SP2、SP3进行累加计算，即：RS1’＝SP2+SP3，M1计算获得的结果RS1’存在内存中，并且存储在RU1对应的内存地址中，当第二次输入数据源S1的时候，M1实时数据模型则根据之前数据RU1对应的内存地址进行RS1’累加计算，即：RS1＝RS1’+SP2+SP3，因此根据数据源S1的输入M1实时数据模型即获得对应的是实时数据模型定义的结果R1，实时数据模型M1的计算过程全部为原子操作，均在内存中进行；

e)、定义数据源S1的输入到实时计算数据模型M1的过程为P1，采用高性能K-V数据库Redis，通过Redis建立大数据队列缓冲池，把大量数据存储在Redis队列中，依托Redis队列中的数据源S1并且执行实时数据模型M1过程，把结果S1存档在内存中；

f)、定义M1执行过程产生的数据统计和归集结果R1存档在Redis数据库中的过程为P2，实时计算模型M1产生的数据统计和归集结果R1并实时更新到Redis对应的RU1键值对应的内存中，提供给需要R1数据结果的系统提供订阅和查询使用；

g)、定义数据统计归集结果R1的订阅过程为B1，通过Websocket技术进行系统订阅相关R1结果数据，通过Websocket连接平台服务，发送订阅名称R1，即获取订阅M1对应的数据结果RU1和RS1数据统计和归集内容进行实时传输到用户前端界面进行动效展示；

h)、定义数据统计归集结果R1的持久化过程为D1，根据M1计算数据统计和归集的结果持久化到RDS数据库中；

i)、定义初始化系统数据统计和归集的结果到Redis过程为B2，该过程需要从RDS数据库中加载R1存储的数据统计和归集结果到Redis和内存中，该过程需在新的Redis插件中初始化一次。

优选地、所述高性能K-V数据库：Redis为一种以键值对存储数据的一种数据库。

优选地、所述高性能K-V数据库Redis利用高性能k-v结构拆解数据并计算存储到RDS。

优选地、所述Websocket技术为展示实时数据的即时通讯技术。

“传统操作”是利用数据库的统计函数进行查询，需要对大量的数据源S1进行在大量计算获取得到结果R1，并且每次获取结果R1都需要重复计算M1计算过程，本发明在数据源S1持续大量产生的情况下，获取R1结果无需再次去数据库中进行统计查询，在分布式场景下，保持系统数据稳定和一致性以及容错性(CAP理论)，并且减少数据库大量的计算压力，为数据库的稳定性以及效率提供了一个强有力的支持，从而节约企业产品运维成本和服务器部署成本，另一方面也无需购置云数据分析引擎来切入系统，减少人员配置，降低了系统的复杂度并且节省企业成本。

本发明通过数据采集的源头进行数据标记，对数据进行业务上的逻辑定义，定义后系统根据数据存在内存中实时计算，实时计算的过程根据业务实现的过程而定，根据数据采集的标记类型，定义实时计算模型，实时计算输入原数据产出实时计算业务需要的数据结果，结果存放于内存中，并根据需要可通过websocket技术或者http轮询进行展示到大数据平台中，根据需要可以通过定时更新纳入存储到数据库中，并根据数据标记进行分批量的业务存储，经过压缩和计算的大数据将被压缩成少量的数据，减少的数据库查询需要的业务结果计算所需的计算压力。系统初始化时可通过加载数据库中的数据完成数据初始化到内存中，无需加载数据源进行重复计算，节省设备启动时间并且效率更高效。

本发明的实时计算结果就是大数据的归集结果以及统计结果，对该结果进行存档到数据库，节省数据库计算和存储资源，提高分布式环境下系统的高效和稳定。

本发明无需购置云服务数据统计和归集插件，该发明只需要配置Redis+DB+Websocket技术完成，无需另外添加一项或多项数据归集插件以及增配人员运维，节省成本。

本发明的主要特点在于协调数据源+内存+DB的合理匹配，而不是单一的依赖DB进行数据统计和归集，避免单一插件造成系统瓶颈，把运营风险均衡分布。

本发明有效的解决现有基础技术条件下的数据库大数据瓶颈，降低数据库宕机或者拒绝服务的风险。

本发明实时订阅数据显示，现有技术则需先查询数据库进行计算才能显示相关结果，并且现有技术无法实时计算获取想要的结果，必须通过数据库查询或者第三方插件接入才能获取想要的内容，更加便捷。

【附图说明】

图1为本发明整体流程示意图；

图2为本发明与现有技术的耗时对比示意图；

图3为本发明与现有技术的所需花费的经费对比示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅用于解释本发明，并不用于限定本发明。

一种大数据统计归集算法，所述大数据统计和归集算法技术包括以下步骤：

a)、根据系统的业务结构进行分析，确认系统数据生成源头，对数据源头进行标记。某学生饮水一次，对应生成一条饮水的记录，该业务数据源头标记为S1；

b)、定义实时计算业务模型的计算结果，根据数据源S1定义输入属性SP1(消费用户)、SP2(热水消费金额)、SP3(冷水消费金额)为输入参数，即在本实施例中，SP1为该学生，SP2所代表的第一种业务类型，为热水消费金额，SP3所代表的第二种业务类型为冷水消费金额，并将需要获得的实时计算模型结果定义为R1，定义R1的相关产出属性RU1(消费用户)、RS1(消费总金额)；

c)、定义实时计算的业务模型，定义模型结构和编号。根据数据源标记S1，需要根据饮水的“热水水量”、“冷水水量”、“热水消费金额”、“冷水消费金额”、“消费时间”、“消费用户”等属性定义实时计算业务模型，该模型需要定义计算产出的结果，根据“消费用户”、“热水消费金额”和“冷水消费金额”计算用户“消费总金额”结果，对该结果产出的过程定义为实时计算模型M1；

d)、实时计算数据模型的计算过程，根据数据源标记S1定义输入属性SP1(消费用户)、SP2(热水消费金额)、SP3(冷水消费金额)为输入参数，依据M1模型产出结果R1可知，实时计算数据模型M1需要对源数据输入SP2(热水消费金额)、SP3(冷水消费金额)进行累加计算，即：RS1’＝SP2+SP3，M1计算获得的结果RS1’存在内存中，并且存储在RU1对应的内存地址中，当第二次输入数据源S1的时候，M1实时数据模型则会根据之前数据RU1对应的内存地址进行RS1’累加计算，即：RS1＝RS1’+SP2+SP3，因此根据数据源S1的输入M1实时数据模型即可获得对应的是实时数据模型定义的结果R1，实时数据模型M1的计算过程全部为原子操作，均在内存中进行，内存的特性决定了数据量计算过程的高效并保证数据的准确性；

e)、定义数据源S1的输入到实时计算数据模型M1的过程为P1，在大数据场景下，需要对输入数据S1进行缓冲处理，避免系统无法承受大量并发数据进行M1计算从而导致系统宕机，因此需要引入高性能K-V数据库Redis，通过Redis建立大数据队列缓冲池，把大量数据存储在Redis队列中，避免系统无法处理而出现异常，依托于Redis队列消费队列中的数据源S1并且执行实时数据模型M1过程，把结果S1存档在内存中。

f)、定义M1执行过程产生的数据统计和归集结果R1存档在Redis数据库中的过程为P2，实时计算模型M1产生的数据统计和归集结果R1将会实时更新到Redis对应的RU1键值对应的内存中，提供给需要R1数据结果的系统提供订阅和查询使用。

g)、定义数据统计归集结果R1的订阅过程为B1，通过Websocket技术进行系统订阅相关R1结果数据，通过Websocket连接平台服务，发送订阅名称R1即可获取订阅M1对应的数据结果RU1和RS1数据统计和归集内容进行实时传输到用户前端界面进行动效展示。

h)、定义数据统计归集结果R1的持久化过程为D1，根据M1计算数据统计和归集的结果持久化到RDS数据库中，该持久化需要定义相关的持久化策略，应当避免大量数据实时操作RDS数据库存储或查询来影响数据库的性能；

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据统计归集算法，其特征在于所述大数据统计和归集算法技术包括以下步骤：

b)、定义实时计算业务模型的计算结果，根据数据源S1定义输入属性SP1、SP2、SP3为输入参数，其中SP1为用户对象，即性别和年龄、SP2为使用类型1的使用数据、即业务结构中的第一种业务类型，SP3为使用类型2的使用数据，即业务结构中的第二种业务类型，定义R1的相关产出属性RU1、RS1，其中RU1为用户对象，即性别和年龄、RS1为总使用数据；

c)、定义实时计算的业务模型，定义模型结构和编号，对结果产出的过程定义为实时计算模型M1；

2.根据权利要求1所述的一种大数据统计归集算法，其特征在于：所述高性能K-V数据库Redis为一种以键值对存储数据的一种数据库。

3.根据权利要求2所述的一种大数据统计归集算法，其特征在于：所述高性能K-V数据库Redis利用高性能k-v结构拆解数据并计算存储到RDS。

4.根据权利要求1所述的一种大数据统计归集算法，其特征在于：所述Websocket技术为展示实时数据的即时通讯技术。