CN114896230A

CN114896230A - 应用数据实时分析分布式大数据平台

Info

Publication number: CN114896230A
Application number: CN202210485630.7A
Authority: CN
Inventors: 赵志明
Original assignee: Chongqing Kage Technology Co ltd
Current assignee: Chongqing Kage Technology Co ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-12

Abstract

本发明公开了应用数据实时分析分布式大数据平台，大数据平台包括数据源、数据存储层、数据分析层和数据应用层，所述数据源由数据采集模块和数据集成模块组成，其中数据采集模块：以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据。本发明分布式大数据计算能够把原需应用系统数据库用非常大算力才能解决的问题改由大数据平台数据库承担，减轻应用系统数据库的计算压力，从而提高应用系统的运算速度和系统反应效率。

Description

应用数据实时分析分布式大数据平台

技术领域

本发明涉及大数据平台，特别涉及应用数据实时分析分布式大数据平台，属于大数据技术领域。

背景技术

大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示：企业中80％的数据都是非结构化数据，这些数据每年都按指数增长60％。在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

目前的大数据应用广泛，但是现有的大数据在计算时采用系统数据库进行计算，计算压力大，从而影响系统的运算速度和反应速度。

发明内容

本发明的目的在于提供应用数据实时分析分布式大数据平台，以解决上述背景技术中提出的现有大数据在计算时采用系统数据库进行计算，计算压力大，从而影响系统的运算速度和反应速度的问题。

为实现上述目的，本发明提供如下技术方案：大数据平台包括数据源、数据存储层、数据分析层和数据应用层，所述数据源由数据采集模块和数据集成模块组成，

采集模块：以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据；

数据集成模块：将抽取的应用系统日志数据和业务数据经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中，所述数据存储层由存储模块和数据湖组成，

存储模块：对获取的系统日志数据和业务数据进行存储；

数据湖：基于只读模式的数据格式和原始数据存储，原始数据不丢失；所述数据分析层由数学函数和建模组成，

数学函数和建模：抽取存储模块和数据湖模块进行实时分析、交互式分析和数据挖掘处理；所述数据应用层由数据共享、数据展现和数据访问组成，

数据共享：在数据仓库与应用系统间提供数据共享服务；

数据展现：通过应用系统页面展示操作者所需要的结果，实现数据可视化；

数据访问：由使用者通过浏览器访问进入系统。

作为本发明的一种优选技术方案，所述数据清洗采用热卡填补法进行清洗，具体为：在应用系统中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充，使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关，然后把所有变量按Y的取值大小进行排序，变量X的缺失值用排在缺失值前的那个个案的数据来代替。

作为本发明的一种优选技术方案，所述数据湖构建具体为：使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现，来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析，对于批处理用到的数据可以使用开源ETL工具Sqoop或者Kettle,将数据从业务系统抽取到数据湖中。

作为本发明的一种优选技术方案，所述数据分析层包括分析作业节点集群模块、分析作业管理模块和分析作业结果服务模块，分析作业节点集群模块执行大数据分析作业，分析作业管理模块用于接收分析请求,并向分析作业节点集群模块提交大数据分析作业,以及管理和监控已提交的大数据分析作业，作业结果服务模块用于将大数据分析结果发布到结果展示系统中为GIS服务,从而方便用户查看、共享大数据分析结果。

作为本发明的一种优选技术方案，所述分析作业节点集群模块：基于Spark分布式计算框架以及SuperMap iObjectfor Spark大数据分析库实现。

作为本发明的一种优选技术方案，所述分析作业管理模块：用于接受外部数据湖大数据分析请求，并将请求映射成Spark作业信息，向Spark集群提交Spark作业，管理和监控已提交的大数据分析，该模块包含一个作业管理节点、多个作业管理备用节点以及一个Zookeeper服务，当作业管理节点失效后,Zookeeper服务通过选举机制选举一个备用节点,使其成为就绪状态,来接管正常的分析作业管理。

作为本发明的一种优选技术方案，所述作业结果服务模块：用于将分析结果发布到数据应用层,发布为一个数据服务和一个地图服务，该模块包含一个服务发布节点和多个服务发布备用节点以及一个Zookeeper服务。

作为本发明的一种优选技术方案，所述数据访问：采用SuperMap iServer，并部署GIS服务器集群。

与现有技术相比，本发明的有益效果是：

本发明应用数据实时分析分布式大数据平台，分布式大数据计算能够把原需应用系统数据库用非常大算力才能解决的问题改由大数据平台数据库承担，减轻应用系统数据库的计算压力，从而提高应用系统的运算速度和系统反应效率。

附图说明

图1为本发明的分布式大数据平台框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了应用数据实时分析分布式大数据平台的技术方案：

大数据平台包括数据源、数据存储层、数据分析层和数据应用层，其特征在于，所述数据源由数据采集模块和数据集成模块组成；

数据集成模块：将抽取的应用系统日志数据和业务数据经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中；数据存储层由存储模块和数据湖组成，

存储模块：对获取的系统日志数据和业务数据进行存储；

数据湖：基于只读模式的数据格式和原始数据存储，原始数据不丢失；数据分析层由数学函数和建模组成，

数学函数和建模：抽取存储模块和数据湖模块进行实时分析、交互式分析和数据挖掘处理；数据应用层由数据共享、数据展现和数据访问组成，

数据共享：在数据仓库与应用系统间提供数据共享服务；

数据访问：由使用者通过浏览器访问进入系统，数据访问：采用SuperMapiServer，并部署GIS服务器集群。

数据清洗采用热卡填补法进行清洗，具体为：在应用系统中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充，使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关，然后把所有变量按Y的取值大小进行排序，变量X的缺失值用排在缺失值前的那个个案的数据来代替。

数据湖构建具体为：使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现，来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析，对于批处理用到的数据可以使用开源ETL工具Sqoop或者Kettle,将数据从业务系统抽取到数据湖中。

数据分析层包括分析作业节点集群模块、分析作业管理模块和分析作业结果服务模块，分析作业节点集群模块执行大数据分析作业，分析作业管理模块用于接收分析请求,并向分析作业节点集群模块提交大数据分析作业,以及管理和监控已提交的大数据分析作业，作业结果服务模块用于将大数据分析结果发布到结果展示系统中为GIS服务,从而方便用户查看、共享大数据分析结果。

分析作业节点集群模块：基于Spark分布式计算框架以及SuperMap iObjectforSpark大数据分析库实现。

分析作业管理模块：用于接受外部数据湖大数据分析请求，并将请求映射成Spark作业信息，向Spark集群提交Spark作业，管理和监控已提交的大数据分析，该模块包含一个作业管理节点、多个作业管理备用节点以及一个Zookeeper服务，当作业管理节点失效后,Zookeeper服务通过选举机制选举一个备用节点,使其成为就绪状态,来接管正常的分析作业管理。

作业结果服务模块：用于将分析结果发布到数据应用层,发布为一个数据服务和一个地图服务，该模块包含一个服务发布节点和多个服务发布备用节点以及一个Zookeeper服务。

在本发明的描述中，需要理解的是，指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.应用数据实时分析分布式大数据平台，其特征在于，大数据平台包括数据源、数据存储层、数据分析层和数据应用层，其特征在于，所述数据源由数据采集模块和数据集成模块组成，

数据集成模块：将抽取的应用系统日志数据和业务数据经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中；所述数据存储层由存储模块和数据湖组成；

存储模块：对获取的系统日志数据和业务数据进行存储；

数据共享：在数据仓库与应用系统间提供数据共享服务；

数据访问：由使用者通过浏览器访问进入系统。

2.根据权利要求1所述的应用数据实时分析分布式大数据平台，其特征在于：所述数据清洗采用热卡填补法进行清洗，具体为：在应用系统中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充，使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关，然后把所有变量按Y的取值大小进行排序，变量X的缺失值用排在缺失值前的那个个案的数据来代替。

3.根据权利要求1所述的应用数据实时分析分布式大数据平台，其特征在于：所述数据湖构建具体为：使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现，来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析，对于批处理用到的数据可以使用开源ETL工具Sqoop或者Kettle,将数据从业务系统抽取到数据湖中。

4.根据权利要求1所述的应用数据实时分析分布式大数据平台，其特征在于：所述数据分析层包括分析作业节点集群模块、分析作业管理模块和分析作业结果服务模块，分析作业节点集群模块执行大数据分析作业，分析作业管理模块用于接收分析请求,并向分析作业节点集群模块提交大数据分析作业,以及管理和监控已提交的大数据分析作业，作业结果服务模块用于将大数据分析结果发布到结果展示系统中为GIS服务,从而方便用户查看、共享大数据分析结果。

5.根据权利要求4所述的应用数据实时分析分布式大数据平台，其特征在于：所述分析作业节点集群模块：基于Spark分布式计算框架以及SuperMap iObjectfor Spark大数据分析库实现。

6.根据权利要求4所述的应用数据实时分析分布式大数据平台，其特征在于：所述分析作业管理模块：用于接受外部数据湖大数据分析请求，并将请求映射成Spark作业信息，向Spark集群提交Spark作业，管理和监控已提交的大数据分析，该模块包含一个作业管理节点、多个作业管理备用节点以及一个Zookeeper服务，当作业管理节点失效后,Zookeeper服务通过选举机制选举一个备用节点,使其成为就绪状态,来接管正常的分析作业管理。

7.根据权利要求4所述的应用数据实时分析分布式大数据平台，其特征在于：所述作业结果服务模块：用于将分析结果发布到数据应用层,发布为一个数据服务和一个地图服务，该模块包含一个服务发布节点和多个服务发布备用节点以及一个Zookeeper服务。

8.根据权利要求1所述的应用数据实时分析分布式大数据平台，其特征在于：所述数据访问：采用SuperMap iServer，并部署GIS服务器集群。