CN114896230A - 应用数据实时分析分布式大数据平台 - Google Patents

应用数据实时分析分布式大数据平台 Download PDF

Info

Publication number
CN114896230A
CN114896230A CN202210485630.7A CN202210485630A CN114896230A CN 114896230 A CN114896230 A CN 114896230A CN 202210485630 A CN202210485630 A CN 202210485630A CN 114896230 A CN114896230 A CN 114896230A
Authority
CN
China
Prior art keywords
data
analysis
module
service
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210485630.7A
Other languages
English (en)
Inventor
赵志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Kage Technology Co ltd
Original Assignee
Chongqing Kage Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Kage Technology Co ltd filed Critical Chongqing Kage Technology Co ltd
Priority to CN202210485630.7A priority Critical patent/CN114896230A/zh
Publication of CN114896230A publication Critical patent/CN114896230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了应用数据实时分析分布式大数据平台,大数据平台包括数据源、数据存储层、数据分析层和数据应用层,所述数据源由数据采集模块和数据集成模块组成,其中数据采集模块:以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据。本发明分布式大数据计算能够把原需应用系统数据库用非常大算力才能解决的问题改由大数据平台数据库承担,减轻应用系统数据库的计算压力,从而提高应用系统的运算速度和系统反应效率。

Description

应用数据实时分析分布式大数据平台
技术领域
本发明涉及大数据平台,特别涉及应用数据实时分析分布式大数据平台,属于大数据技术领域。
背景技术
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
目前的大数据应用广泛,但是现有的大数据在计算时采用系统数据库进行计算,计算压力大,从而影响系统的运算速度和反应速度。
发明内容
本发明的目的在于提供应用数据实时分析分布式大数据平台,以解决上述背景技术中提出的现有大数据在计算时采用系统数据库进行计算,计算压力大,从而影响系统的运算速度和反应速度的问题。
为实现上述目的,本发明提供如下技术方案:大数据平台包括数据源、数据存储层、数据分析层和数据应用层,所述数据源由数据采集模块和数据集成模块组成,
采集模块:以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据;
数据集成模块:将抽取的应用系统日志数据和业务数据经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中,所述数据存储层由存储模块和数据湖组成,
存储模块:对获取的系统日志数据和业务数据进行存储;
数据湖:基于只读模式的数据格式和原始数据存储,原始数据不丢失;所述数据分析层由数学函数和建模组成,
数学函数和建模:抽取存储模块和数据湖模块进行实时分析、交互式分析和数据挖掘处理;所述数据应用层由数据共享、数据展现和数据访问组成,
数据共享:在数据仓库与应用系统间提供数据共享服务;
数据展现:通过应用系统页面展示操作者所需要的结果,实现数据可视化;
数据访问:由使用者通过浏览器访问进入系统。
作为本发明的一种优选技术方案,所述数据清洗采用热卡填补法进行清洗,具体为:在应用系统中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充,使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关,然后把所有变量按Y的取值大小进行排序,变量X的缺失值用排在缺失值前的那个个案的数据来代替。
作为本发明的一种优选技术方案,所述数据湖构建具体为:使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现,来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析,对于批处理用到的数据可以使用开源ETL工具Sqoop或者Kettle,将数据从业务系统抽取到数据湖中。
作为本发明的一种优选技术方案,所述数据分析层包括分析作业节点集群模块、分析作业管理模块和分析作业结果服务模块,分析作业节点集群模块执行大数据分析作业,分析作业管理模块用于接收分析请求,并向分析作业节点集群模块提交大数据分析作业,以及管理和监控已提交的大数据分析作业,作业结果服务模块用于将大数据分析结果发布到结果展示系统中为GIS服务,从而方便用户查看、共享大数据分析结果。
作为本发明的一种优选技术方案,所述分析作业节点集群模块:基于Spark分布式计算框架以及SuperMap iObjectfor Spark大数据分析库实现。
作为本发明的一种优选技术方案,所述分析作业管理模块:用于接受外部数据湖大数据分析请求,并将请求映射成Spark作业信息,向Spark集群提交Spark作业,管理和监控已提交的大数据分析,该模块包含一个作业管理节点、多个作业管理备用节点以及一个Zookeeper服务,当作业管理节点失效后,Zookeeper服务通过选举机制选举一个备用节点,使其成为就绪状态,来接管正常的分析作业管理。
作为本发明的一种优选技术方案,所述作业结果服务模块:用于将分析结果发布到数据应用层,发布为一个数据服务和一个地图服务,该模块包含一个服务发布节点和多个服务发布备用节点以及一个Zookeeper服务。
作为本发明的一种优选技术方案,所述数据访问:采用SuperMap iServer,并部署GIS服务器集群。
与现有技术相比,本发明的有益效果是:
本发明应用数据实时分析分布式大数据平台,分布式大数据计算能够把原需应用系统数据库用非常大算力才能解决的问题改由大数据平台数据库承担,减轻应用系统数据库的计算压力,从而提高应用系统的运算速度和系统反应效率。
附图说明
图1为本发明的分布式大数据平台框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了应用数据实时分析分布式大数据平台的技术方案:
大数据平台包括数据源、数据存储层、数据分析层和数据应用层,其特征在于,所述数据源由数据采集模块和数据集成模块组成;
采集模块:以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据;
数据集成模块:将抽取的应用系统日志数据和业务数据经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中;数据存储层由存储模块和数据湖组成,
存储模块:对获取的系统日志数据和业务数据进行存储;
数据湖:基于只读模式的数据格式和原始数据存储,原始数据不丢失;数据分析层由数学函数和建模组成,
数学函数和建模:抽取存储模块和数据湖模块进行实时分析、交互式分析和数据挖掘处理;数据应用层由数据共享、数据展现和数据访问组成,
数据共享:在数据仓库与应用系统间提供数据共享服务;
数据展现:通过应用系统页面展示操作者所需要的结果,实现数据可视化;
数据访问:由使用者通过浏览器访问进入系统,数据访问:采用SuperMapiServer,并部署GIS服务器集群。
数据清洗采用热卡填补法进行清洗,具体为:在应用系统中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充,使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关,然后把所有变量按Y的取值大小进行排序,变量X的缺失值用排在缺失值前的那个个案的数据来代替。
数据湖构建具体为:使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现,来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析,对于批处理用到的数据可以使用开源ETL工具Sqoop或者Kettle,将数据从业务系统抽取到数据湖中。
数据分析层包括分析作业节点集群模块、分析作业管理模块和分析作业结果服务模块,分析作业节点集群模块执行大数据分析作业,分析作业管理模块用于接收分析请求,并向分析作业节点集群模块提交大数据分析作业,以及管理和监控已提交的大数据分析作业,作业结果服务模块用于将大数据分析结果发布到结果展示系统中为GIS服务,从而方便用户查看、共享大数据分析结果。
分析作业节点集群模块:基于Spark分布式计算框架以及SuperMap iObjectforSpark大数据分析库实现。
分析作业管理模块:用于接受外部数据湖大数据分析请求,并将请求映射成Spark作业信息,向Spark集群提交Spark作业,管理和监控已提交的大数据分析,该模块包含一个作业管理节点、多个作业管理备用节点以及一个Zookeeper服务,当作业管理节点失效后,Zookeeper服务通过选举机制选举一个备用节点,使其成为就绪状态,来接管正常的分析作业管理。
作业结果服务模块:用于将分析结果发布到数据应用层,发布为一个数据服务和一个地图服务,该模块包含一个服务发布节点和多个服务发布备用节点以及一个Zookeeper服务。
在本发明的描述中,需要理解的是,指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.应用数据实时分析分布式大数据平台,其特征在于,大数据平台包括数据源、数据存储层、数据分析层和数据应用层,其特征在于,所述数据源由数据采集模块和数据集成模块组成,
采集模块:以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据;
数据集成模块:将抽取的应用系统日志数据和业务数据经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中;所述数据存储层由存储模块和数据湖组成;
存储模块:对获取的系统日志数据和业务数据进行存储;
数据湖:基于只读模式的数据格式和原始数据存储,原始数据不丢失;所述数据分析层由数学函数和建模组成,
数学函数和建模:抽取存储模块和数据湖模块进行实时分析、交互式分析和数据挖掘处理;所述数据应用层由数据共享、数据展现和数据访问组成,
数据共享:在数据仓库与应用系统间提供数据共享服务;
数据展现:通过应用系统页面展示操作者所需要的结果,实现数据可视化;
数据访问:由使用者通过浏览器访问进入系统。
2.根据权利要求1所述的应用数据实时分析分布式大数据平台,其特征在于:所述数据清洗采用热卡填补法进行清洗,具体为:在应用系统中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充,使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关,然后把所有变量按Y的取值大小进行排序,变量X的缺失值用排在缺失值前的那个个案的数据来代替。
3.根据权利要求1所述的应用数据实时分析分布式大数据平台,其特征在于:所述数据湖构建具体为:使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现,来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析,对于批处理用到的数据可以使用开源ETL工具Sqoop或者Kettle,将数据从业务系统抽取到数据湖中。
4.根据权利要求1所述的应用数据实时分析分布式大数据平台,其特征在于:所述数据分析层包括分析作业节点集群模块、分析作业管理模块和分析作业结果服务模块,分析作业节点集群模块执行大数据分析作业,分析作业管理模块用于接收分析请求,并向分析作业节点集群模块提交大数据分析作业,以及管理和监控已提交的大数据分析作业,作业结果服务模块用于将大数据分析结果发布到结果展示系统中为GIS服务,从而方便用户查看、共享大数据分析结果。
5.根据权利要求4所述的应用数据实时分析分布式大数据平台,其特征在于:所述分析作业节点集群模块:基于Spark分布式计算框架以及SuperMap iObjectfor Spark大数据分析库实现。
6.根据权利要求4所述的应用数据实时分析分布式大数据平台,其特征在于:所述分析作业管理模块:用于接受外部数据湖大数据分析请求,并将请求映射成Spark作业信息,向Spark集群提交Spark作业,管理和监控已提交的大数据分析,该模块包含一个作业管理节点、多个作业管理备用节点以及一个Zookeeper服务,当作业管理节点失效后,Zookeeper服务通过选举机制选举一个备用节点,使其成为就绪状态,来接管正常的分析作业管理。
7.根据权利要求4所述的应用数据实时分析分布式大数据平台,其特征在于:所述作业结果服务模块:用于将分析结果发布到数据应用层,发布为一个数据服务和一个地图服务,该模块包含一个服务发布节点和多个服务发布备用节点以及一个Zookeeper服务。
8.根据权利要求1所述的应用数据实时分析分布式大数据平台,其特征在于:所述数据访问:采用SuperMap iServer,并部署GIS服务器集群。
CN202210485630.7A 2022-05-06 2022-05-06 应用数据实时分析分布式大数据平台 Pending CN114896230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210485630.7A CN114896230A (zh) 2022-05-06 2022-05-06 应用数据实时分析分布式大数据平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210485630.7A CN114896230A (zh) 2022-05-06 2022-05-06 应用数据实时分析分布式大数据平台

Publications (1)

Publication Number Publication Date
CN114896230A true CN114896230A (zh) 2022-08-12

Family

ID=82719121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210485630.7A Pending CN114896230A (zh) 2022-05-06 2022-05-06 应用数据实时分析分布式大数据平台

Country Status (1)

Country Link
CN (1) CN114896230A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617898A (zh) * 2022-12-21 2023-01-17 中国科学院长春光学精密机械与物理研究所 基于soa架构的靶场测控数据处理系统、方法及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617898A (zh) * 2022-12-21 2023-01-17 中国科学院长春光学精密机械与物理研究所 基于soa架构的靶场测控数据处理系统、方法及计算机设备

Similar Documents

Publication Publication Date Title
US20150363508A1 (en) Grid-based analysis of geospatial trajectories
CN111640040A (zh) 基于客户画像技术的供电客户价值评价方法及大数据平台
US10719799B1 (en) Virtual management systems and methods
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN110458678A (zh) 一种基于hadoop校验的财务数据校验方法和系统
CN114218309A (zh) 数据处理方法、系统和计算机设备
WO2023138013A1 (zh) 一种多云场景算力网格化方法及系统
CN106502875A (zh) 一种基于云计算的日志生成方法及系统
CN111858278A (zh) 基于大数据处理的日志分析方法、系统及可读存储装置
CN114896230A (zh) 应用数据实时分析分布式大数据平台
CN110851317A (zh) 一种预测存储设备iops性能数据的方法、装置、设备及存储介质
CN114510526A (zh) 一种线上数控展览方法
CN113010542A (zh) 业务数据处理方法、装置、计算机设备及存储介质
US20040015507A1 (en) System and method for analytically modeling data organized according to related attributes
CN112181972A (zh) 基于大数据的数据治理方法、装置和计算机设备
EP1492026A2 (en) System and method for expressing and calculating a relationship between OLAP measures
CN113204592B (zh) 物联网场景下的数据处理方法、系统、装置及存储介质
CN113781068B (zh) 线上问题解决方法、装置、电子设备和存储介质
CN109146306A (zh) 一种企业管理系统
CN114218199A (zh) 一种具有数据交互与分析功能的可视化Portal系统
CN111143328A (zh) 一种敏捷商业智能数据构建方法、系统、设备、存储介质
CN112905635A (zh) 一种业务的处理方法、装置、设备及存储介质
CN112633621A (zh) 一种基于paas平台的电网企业管理决策系统和方法
CN107977781A (zh) 基于移动端的住宅开发项目装修施工质检人机交互系统
CN112486992B (zh) 一种数据存储方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination