CN115017142A - 一种大数据分析系统、方法、设备及介质 - Google Patents

一种大数据分析系统、方法、设备及介质 Download PDF

Info

Publication number
CN115017142A
CN115017142A CN202210440935.6A CN202210440935A CN115017142A CN 115017142 A CN115017142 A CN 115017142A CN 202210440935 A CN202210440935 A CN 202210440935A CN 115017142 A CN115017142 A CN 115017142A
Authority
CN
China
Prior art keywords
data
access
module
big
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210440935.6A
Other languages
English (en)
Inventor
王科鹏
曹建东
利雅琳
王鹏
丁士
赵亮
金鑫
杨倩影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Co Ltd
Original Assignee
China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Co Ltd filed Critical China Southern Power Grid Co Ltd
Priority to CN202210440935.6A priority Critical patent/CN115017142A/zh
Publication of CN115017142A publication Critical patent/CN115017142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据分析系统、方法、设备及介质,系统包括数据访问模块、数据采集模块、数据存储模块和数据计算模块;其中,所述数据访问模块,用于对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;所述数据采集模块,用于对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;所述数据存储模块,用于对访问数据和抽取数据进行存储管理;所述数据计算模块,用于对访问数据和抽取数据进行统计和分析;能够应对不同场景下的大数据分析处理,提高了数据处理的效率,可广泛应用于数据分析技术领域。

Description

一种大数据分析系统、方法、设备及介质
技术领域
本发明涉及数据分析技术领域,尤其是一种大数据分析系统、方法、设备及介质。
背景技术
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、管理和处理能力。随着信息技术的不断发展,移动互联网、物联网、社交网络、数字家庭、电子商务等应用不断产生大数据,通过对这些大数据进行管理、处理、分析与优化,将结果反馈至上述应用中,可创造出巨大的经济和社会价值。Hadoop等传统大数据处理设施在应对大规模数据量上做了很多优化,但对于需要对不同场景进行数据分析的应用则无法试用,这在业界是一个普遍的难题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种大数据分析系统、方法、设备及介质,能够应对不同的应用场景,提高了数据处理的效率。
一方面,本发明提供了一种大数据分析系统,包括数据访问模块、数据采集模块、数据存储模块和数据计算模块;
其中,所述数据访问模块,用于对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;
所述数据采集模块,用于对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;
所述数据存储模块,用于对访问数据和抽取数据进行存储管理;
所述数据计算模块,用于对访问数据和抽取数据进行统计和分析。
可选地,所述数据访问模块包括数据查询单元和消息组件单元;
其中,所述数据查询单元,用于采用变更数据捕获服务与源数据层进行数据连接,通过记录源数据层中数据表的插入、更改和删除活动,对数据进行访问,确定访问数据;
所述消息组件单元,用于通过分批发送压缩数据的方式对访问数据进行压缩并传送至数据存储模块中。
可选地,所述数据采集模块包括数据抽取单元;所述数据抽取单元,用于捕获应用层数据,通过跟踪队列将应用层数据排入队列以备路由,根据数据泵对应用数据进行分发,通过路由对应用数据进行压缩、加密和转换处理,确定抽取数据并将抽取数据存储至数据存储模块中。
可选地,所述数据存储模块包括分布式数据库单元;所述分布式数据库单元用于对访问数据和抽取数据进行存储和查询处理。
可选地,所述数据计算模块包括分布式计算集群单元和大数据计算引擎单元;
其中,所述分布式计算集群单元,用于对访问数据进行数据脱敏和解密处理,并对处理后的数据进行格式变换,通过过滤条件对变换后的数据进行筛选;
所述大数据计算引擎单元,用于对抽取数据进行流式处理,对处理后的流数据进行数据清洗和拼接处理,从而进行分析计算。
可选地,所述系统还包括数据抓取模块,所述数据抓取模块通过爬虫收集和解析网页层数据,确定数据内容特征和上下文关系,将网页数据进行结构化处理,并存储至数据存储模块中。
可选地,所述数据采集模块还包括ETL工具包,通过所述ETL工具包对应用层数据进行抽取、转换和装载处理。
另一方面,本发明实施例还公开了一种大数据分析方法,应用于分析系统,包括:
通过数据访问模块对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;
通过数据采集模块对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;
通过数据存储模块对访问数据和抽取数据进行存储管理;
通过数据计算模块对访问数据和抽取数据进行统计和分析。
另一方面,本发明实施例还公开了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
另一方面,本发明实施例还公开了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
另一方面,本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明实施例提供一种大数据分析系统,包括数据访问模块、数据采集模块、数据存储模块和数据计算模块;其中,所述数据访问模块,用于对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;所述数据采集模块,用于对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;所述数据存储模块,用于对访问数据和抽取数据进行存储管理;所述数据计算模块,用于对访问数据和抽取数据进行统计和分析;能够应对不同场景下的大数据进行分析处理,提高了数据处理的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种大数据分析系统架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本发明实施例了一种大数据分析系统,包括数据访问模块、数据采集模块、数据存储模块和数据计算模块;
其中,所述数据访问模块,用于对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;
所述数据采集模块,用于对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;
所述数据存储模块,用于对访问数据和抽取数据进行存储管理;
所述数据计算模块,用于对访问数据和抽取数据进行统计和分析。
具体地,本发明实施例主要运用于电网管理领域,通过对电网管理平台进行大数据分析处理,图1中的应用层对应为电网管理平台业务应用层,源数据层对应为电网管理平台数据库。本发明实施例中的一种大数据分析系统对应图1中的大数据分析平台,数据访问层对应为数据访问模块、数据计算层对应为数据计算模块,数据存储层对应为数据存储模块,数据采集层对应为数据采集模块。图1中的Rest API为一种应用程序编程接口,Spark为一种大数据计算引擎,Hbase为一种分布式数据库,Kafka为一种消息队列,ETL为一种数据处理工具,Greenplum为一种数据库。本发明实施例针对电网管理平台业务应用层所需的业务指标数据分析场景,通过数据集成的方式,利用数据采集模块对应用层进行数据抽取到大数据分析平台,完成指标计算后,电网管理平台通过数据服务对相关数据结果进行调用。针对电网管理平台数据库所需的大数据实时计算场景,通过服务集成的方式,对源数据库采用变更数据捕获服务,利用消息中间件,将数据推送到大数据分析平台,完成计算后获取计算结果。
进一步作为优选的实施方式,所述数据访问模块包括数据查询单元和消息组件单元;
其中,所述数据查询单元,用于采用变更数据捕获服务与源数据层进行数据连接,通过记录源数据层中数据表的插入、更改和删除活动,对数据进行访问,确定访问数据;
所述消息组件单元,用于通过分批发送压缩数据的方式对访问数据进行压缩并传送至数据存储模块中。
具体地,数据查询单元包括源连接器、通道和接收器连接器;其中,源连接器用于从数据库中捕获变更并生成包含这些变更详细信息的事件;通道用于源连接器将这些事件与变更保持在一起的数据存储库;接收器连接器用于从通道读取事件并处理应用特定逻辑以将数据整合到目标系统或其他目的,例如分析警报过程;通过数据查询单元采用变更数据捕获服务与源数据层进行数据连接,基于日志的方法对数据进访问,通过记录源数据层中数据表的插入、更改和删除活动,得到访问数据。并且通过消息组件单元进行应用间交换信息的重要组件,通过分批发送压缩数据将数据存储至数据存储模块中。本发明实施例可采用Kafka作为消息组件单元,能够具有较高的吞吐量,同时也能够通过Kafka服务器和消费机集群来区分消息。可以想到的是,本发明实施例还可以采用ActiveMQ、RabbitMQ、ZeroMQ、RocketMQ、Apollo等中间件作为消息组件单元。
进一步作为优选的实施方式,所述数据采集模块包括数据抽取单元;所述数据抽取单元,用于捕获应用层数据,通过跟踪队列将应用层数据排入队列以备路由,根据数据泵对应用数据进行分发,通过路由对应用数据进行压缩、加密和转换处理,确定抽取数据并将抽取数据存储至数据存储模块中。
具体地,本发明实施例通过数据抽取单元捕获应用层数据,能够使用数据库本地接口访问应用层数据,提供数据压缩和加密功能,减低传输所需带宽,提高传输安全性。具体为进行捕获操作,通过将应用层数据放进跟踪队列中,使应用层数据排入队列以备进行路由传输;接着通过数据泵将数据泵出,通过路由压缩、加密数据以便到达数据存储模块中。本发明实施例还可以对数据抽取单元引进格式文件,通过格式文件将抽取的事务信息进行记录到应用层和大数据分析系统中,在发生故障时,也可通过格式文件进行重传。
进一步作为优选的实施方式,所述数据存储模块包括分布式数据库单元;所述分布式数据库单元用于对访问数据和抽取数据进行存储和查询处理。
具体地,本发明实施例采用了Hbase分布式数据库作为分布式数据库单元,能够对访问数据和抽取数据进行存储和查询处理。Hbase是一种分布式、面向列的存储数据库,适合应用于需要实时读写、随机访问超大规模数据集的场景,从而可以实现对超大规模数据的实时随机访问。
进一步作为优选的实施方式,所述数据计算模块包括分布式计算集群单元和大数据计算引擎单元;
其中,所述分布式计算集群单元,用于对访问数据进行数据脱敏和解密处理,并对处理后的数据进行格式变换,通过过滤条件对变换后的数据进行筛选;
所述大数据计算引擎单元,用于对抽取数据进行流式处理,对处理后的流数据进行数据清洗和拼接处理,从而进行分析计算。
具体地,本发明通过分布式计算集群单元,主要对访问数据进行数据脱敏和解密处理,并对处理后的数据进行格式变换,通过过滤条件对变换后的数据进行筛选。在大数据分析过程中,在获得查询语句后根据查询语句对访问数据进行认证、鉴权和流控操作,并支持上层统一协议的接入,对各种格式的数据进行格式变换,统一数据格式,最后结合分布式数据库根据过滤条件进行适应性的查询。本发明实施例通过大数据计算引擎单元,面向数据流处理和批量数据处理的分布式的开源计算,在对抽取数据进行流式处理后,可对数据流进行流出来操作,将流式的数据抽象成分布式的数据流,可根据操作符对分布式数据流进行各种操作,如清洗和拼接操作。可以想到的是,本发明实施例可采用MapReduce、Tez、Oozie、Spark、Flink等计算引擎作为本发明实施例的大数据计算引擎单元。
进一步作为优选的实施方式,所述系统还包括数据抓取模块,所述数据抓取模块通过爬虫收集和解析网页层数据,确定数据内容特征和上下文关系,将网页数据进行结构化处理,并存储至数据存储模块中。
具体地,本发明实施例的数据抓取模块还可以对网页进行一定的数据抓取,从而进行大数据分析处理,可适用于网页处理场景,主要通过爬虫或其他识别软件收集和解析网页层数据,并且对网页中的数据内容进行特征识别,并结合上下文关系对网页数据进行结构化存储。本发明实施例还可在进行结构化存储前对网页数据进行清洗处理,提高数据的安全性。
进一步作为优选的实施方式,所述数据采集模块还包括ETL工具包,通过所述ETL工具包对应用层数据进行抽取、转换和装载处理。
具体地,ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL工具包主要对应用层数据进行数据抽取、数据转换和数据装载处理,提高使用工具包可提高工作效率,从应用层数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据存储模块中去。
另一方面,本发明实施例还公开了一种大数据分析方法,应用于分析系统,包括:
通过数据访问模块对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;
通过数据采集模块对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;
通过数据存储模块对访问数据和抽取数据进行存储管理;
通过数据计算模块对访问数据和抽取数据进行统计和分析。
与上述方法相对应,本发明实施例还提供了一种电子设备,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如前面所述的方法。
与上述方法相对应,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
综上所述,本发明实施例具有以下优点:通过对不同场景的源数据层和应用层进行数据采集或抽取,通过数据计算模块进行大数据分析,可以对不同场景下的大数据进行分析处理,提高了数据处理的效率。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种大数据分析系统,其特征在于,包括数据访问模块、数据采集模块、数据存储模块和数据计算模块;
其中,所述数据访问模块,用于对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;
所述数据采集模块,用于对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;
所述数据存储模块,用于对访问数据和抽取数据进行存储管理;
所述数据计算模块,用于对访问数据和抽取数据进行统计和分析。
2.根据权利要求1所述的一种大数据分析系统,其特征在于,所述数据访问模块包括数据查询单元和消息组件单元;
其中,所述数据查询单元,用于采用变更数据捕获服务与源数据层进行数据连接,通过记录源数据层中数据表的插入、更改和删除活动,对数据进行访问,确定访问数据;
所述消息组件单元,用于通过分批发送压缩数据的方式对访问数据进行压缩并传送至数据存储模块中。
3.根据权利要求1所述的一种大数据分析系统,其特征在于,所述数据采集模块包括数据抽取单元;所述数据抽取单元,用于捕获应用层数据,通过跟踪队列将应用层数据排入队列以备路由,根据数据泵对应用数据进行分发,通过路由对应用数据进行压缩、加密和转换处理,确定抽取数据并将抽取数据存储至数据存储模块中。
4.根据权利要求1所述的一种大数据分析系统,其特征在于,所述数据存储模块包括分布式数据库单元;所述分布式数据库单元用于对访问数据和抽取数据进行存储和查询处理。
5.根据权利要求1所述的一种大数据分析系统,其特征在于,所述数据计算模块包括分布式计算集群单元和大数据计算引擎单元;
其中,所述分布式计算集群单元,用于对访问数据进行数据脱敏和解密处理,并对处理后的数据进行格式变换,通过过滤条件对变换后的数据进行筛选;
所述大数据计算引擎单元,用于对抽取数据进行流式处理,对处理后的流数据进行数据清洗和拼接处理,从而进行分析计算。
6.根据权利要求1所述的一种大数据分析系统,其特征在于,所述系统还包括数据抓取模块,所述数据抓取模块通过爬虫收集和解析网页层数据,确定数据内容特征和上下文关系,将网页数据进行结构化处理,并存储至数据存储模块中。
7.根据权利要求1所述的一种大数据分析系统,其特征在于,所述数据采集模块还包括ETL工具包,通过所述ETL工具包对应用层数据进行抽取、转换和装载处理。
8.一种大数据分析方法,应用于如权利要求1所述的分析系统,其特征在于,包括:
通过数据访问模块对源数据层进行连接和访问,确定访问数据,所述访问数据用于表征实时计算场景下的数据;
通过数据采集模块对应用层进行数据抽取,确定抽取数据,所述抽取数据用于表征业务指标数据分析场景下的数据;
通过数据存储模块对访问数据和抽取数据进行存储管理;
通过数据计算模块对访问数据和抽取数据进行统计和分析。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求8中所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求8中所述的方法。
CN202210440935.6A 2022-04-25 2022-04-25 一种大数据分析系统、方法、设备及介质 Pending CN115017142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210440935.6A CN115017142A (zh) 2022-04-25 2022-04-25 一种大数据分析系统、方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210440935.6A CN115017142A (zh) 2022-04-25 2022-04-25 一种大数据分析系统、方法、设备及介质

Publications (1)

Publication Number Publication Date
CN115017142A true CN115017142A (zh) 2022-09-06

Family

ID=83067356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210440935.6A Pending CN115017142A (zh) 2022-04-25 2022-04-25 一种大数据分析系统、方法、设备及介质

Country Status (1)

Country Link
CN (1) CN115017142A (zh)

Similar Documents

Publication Publication Date Title
US10901950B2 (en) Efficient data compression and analysis as a service
CN108681569B (zh) 一种数据自动分析系统及其方法
CN111752799A (zh) 一种业务链路跟踪方法、装置、设备及储存介质
CN113360554B (zh) 一种数据抽取、转换和加载etl的方法和设备
CN104144081A (zh) 一种通用应用日志管理方法、装置和系统
EP3321821B1 (en) Big data exchange method and device
CN105786998A (zh) 数据库中间件系统及利用其处理数据的方法
CN112134846B (zh) 一种通信网络信令数据分析方法、系统、装置及介质
CN102609462A (zh) 一种通过提取sql模板对海量sql压缩存储的方法
CN105430534A (zh) 一种智能设备上报数据的方法和系统
CN110727643A (zh) 一种基于机器学习的文件分类管理方法及系统
CN112948492A (zh) 一种数据处理系统、方法、装置、电子设备及存储介质
WO2022082891A1 (zh) 大数据采集方法、系统、计算机设备及其存储介质
CN112491421A (zh) 日志文件压缩包的解析方法、装置、设备及介质
CN115017142A (zh) 一种大数据分析系统、方法、设备及介质
CN108234567A (zh) 数字报文件的上传方法、客户端、云存储平台和服务器
CN115801395A (zh) 一种基于Flink动态模型实现实时DDOS态势分析的方法及装置
CN115664992A (zh) 网络运行数据的处理方法、装置、电子设备及介质
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN113297148B (zh) 业务日志数据的采集方法、装置、设备及可读存储介质
CN114125071A (zh) 数据压缩传输方法及装置
CN113051323A (zh) 一种水环境大数据交换方法
CN111581254A (zh) 基于互联网金融数据的etl方法及系统
US20130205015A1 (en) Method and Device for Analyzing Data Intercepted on an IP Network in order to Monitor the Activity of Users on a Website
JP2012226502A (ja) ファイルアクセスログ圧縮システム、ファイルアクセスログ圧縮方法、及びファイルアクセスログ圧縮プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination