CN116186053A - 一种数据处理方法、装置及存储介质 - Google Patents

一种数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN116186053A
CN116186053A CN202211728979.5A CN202211728979A CN116186053A CN 116186053 A CN116186053 A CN 116186053A CN 202211728979 A CN202211728979 A CN 202211728979A CN 116186053 A CN116186053 A CN 116186053A
Authority
CN
China
Prior art keywords
data
processing
hudi
log data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211728979.5A
Other languages
English (en)
Inventor
王远
于沅鑫
陆静
薛梦
石华烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211728979.5A priority Critical patent/CN116186053A/zh
Publication of CN116186053A publication Critical patent/CN116186053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • G06F16/2386Bulk updating operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24561Intermediate data storage techniques for performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种数据处理方法、装置及存储介质,涉及数据处理技术领域,用于提高数据的处理效率。该方法包括:监听并读取数据库的日志数据,将日志数据实时同步到第一Kafka中间件;利用第一计算引擎从第一Kafka中间件中读取日志数据,并对日志数据进行标准化处理后写入数据湖的hudi结果表中;按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到hudi结果表;通过hudi结果表对经过标准化处理的日志数据和批数据进行关联处理。

Description

一种数据处理方法、装置及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及存储介质。
背景技术
在流计算中,通常由数据采集单元从外部数据源采集数据流,并分发给处理单元进行处理和分析。然而,数据采集单元采集的数据往往比较有限,并且流数据的输出需要源系统进行复杂的改造工作,因此在进行分析前,需要将数据流与离线维表中的数据进行关联,以获得相对完整的数据。
相关技术中,通常由数据采集单元获取维表的全量数据并保存到缓存数据库中,该方式较流数据获取的难度要低很多。当数据流到达任一处理单元时,该处理单元先从对应的本地缓存中查询与数据流的joinkey匹配的维表数据记录,如果没有查询到,则从缓存数据库中查询与数据流的joinkey匹配的维表数据记录。将查询到的维表数据记录与数据流进行join,并将查询到的维表数据记录拉取到该处理单元对应的本地缓存保存。
但是,仅通过上游系统的改造,对流数据和批数据进行关联处理,耗费的成本大,而且在数据量非常大时,无法实现对流数据与批数据的实时同步处理,数据的处理效率低。
发明内容
本发明提供一种数据处理方法、装置及存储介质。用于提高数据的处理效率。本发明技术方案如下:
第一方面,提供一种数据处理方法,该方法包括:监听并读取数据库的日志数据,将日志数据实时同步到第一Kafka中间件;利用第一计算引擎从第一Kafka中间件中读取日志数据,并对日志数据进行标准化处理后写入数据湖的hudi结果表中;按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到hudi结果表;通过hudi结果表对经过标准化处理的日志数据和批数据进行关联处理。
本发明提供的技术方案至少带来以下有益效果:将对上游数据库中数据的增删改操作所产生的流数据和对HDFS文件系统中的维表数据进行处理所得到的批数据,共同写入下游的数据湖中的hudi结果表后,由hudi结果表将其进行关联处理。这样通过将流数据和批数据的一体化处理,实现了只需要分析hudi结果表中的实时数据,就可以为下游业务系统提供实时的数据服务,避免了依赖上游业务系统改造提供数据源,提高了数据的处理效率。
在一种可能的实现方式中,通过消息中转Ogg将日志数据实时同步到第一Kafka中间件中。
基于该可能的实现方式,通过消息中转Ogg将数据库的日志数据实时同步到第一Kafka中间件中,实现了变化数据的实时捕捉。
另一种可能的实现方式中,利用第二计算引擎读取hudi结果表中的实时数据;对实时数据基于预设规则进行比对计算,对符合预设规则的实时数据进行数据清洗后写入推送消息到第二Kafka中间件。
基于该可能的实现方式,利用第二计算引擎读取hudi结果表中的实时数据,并将符合预设规则的实时数据进行数据清洗为对应格式后写入推送消息到第二Kafka中间件,实现了只需要分析hudi结果表中的变化数据,就可以为下游业务系统提供实时的数据服务,提高了数据的处理效率。
另一种可能的实现方式中,第一计算引擎为SPARK,以及第二计算引擎为FLINK。
基于该可能的实现方式,第一计算引擎为SPARK是专为大规模数据处理而设计的快速通用的计算引擎,可以对多流数据进行关联处理。利用第一计算引擎SPARK从Kafka中间件中可以读取大量的日志数据,实现对多流数据的采集。利用第二计算引擎可以实现对hudi结果表中的实时数据进行捕获,提高数据的处理效率。
第二方面,本发明提供一种数据处理装置,该装置包括:
监听模块,用于监听并读取数据库的日志数据,将日志数据实时同步到第一Kafka中间件;
处理模块,用于利用第一计算引擎从第一Kafka中间件中读取日志数据,并对日志数据进行标准化处理后写入数据湖的hudi结果表中;
处理模块,还用于按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到hudi结果表;
处理模块,还用于通过hudi结果表对经过标准化处理的日志数据和所述批数据进行关联处理。
在一种可能的实现方式中,监听模块,具体用于:通过消息中转Ogg将日志数据实时同步到第一Kafka中间件中。
另一种可能的实现方式中,该装置还包括:捕获模块,用于利用第二计算引擎读取hudi结果表中的实时数据;捕获模块,还用于对实时数据基于预设规则进行比对计算,对符合预设规则的实时数据进行数据清洗后写入推送消息到第二Kafka中间件。
另一种可能的实现方式中,第一计算引擎为SPARK,以及第二计算引擎为FLINK。
第三方面,本发明还提供了一种通信装置,该通信装置包括:处理器和用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,使得电子设备执行如第一方面及其任一种可能的实现方式的数据处理方法。
第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机指令,当计算机指令在通信装置上运行时,使得通信装置执行如第一方面及其任一种可能的实现方式的数据处理方法。
本发明中第二方面到第四方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述。第二方面到第四方面及其各种实现方式的有益效果,可以参考第一方面及其各种实现方式的有益效果分析,此处不再赘述。
附图说明
图1为本发明实施例提供的一种数据处理的架构示意图;
图2为本发明实施例提供的一种数据处理方法的流程图一;
图3为本发明实施例提供的一种数据处理方法的流程图二;
图4为本发明实施例提供的一种数据处理装置的结构示意图;
图5为本发明实施例提供的一种通信装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在数据时代,数据是生产力的重要影响因素,业务的效率评估与数据支撑的时效性密不可分,及时捕捉数据的“动作”可以让业务变得敏捷,实现高效反馈与快速应对。在服务行业中,系统会产生大量的数据。这些数据反映了设备的客户的当前状态,因此需要实时对系统数据进行计算分析。相同服务类型的客户在不同的环境中具有不同的系统数据,在同一时间被服务的客户即使产生相同的系统数据,其代表的含义也不尽相同。如果按照实时流式计算单对一条系统数据进行分析,将难以发现系统数据背后包含的意义;如果按照批式计算对设备数据及其历史系统数据进行分析,计算过程需要消耗一定的时间,这样系统数据就失去了实时性。
现有技术中,在进行数据计算时,会同时使用流式计算和批量计算,当前比较流行的批流一体解决方案是通过数据采集单元获取维表的全量数据并保存到缓存数据库中,当数据流到达任一处理单元时,该处理单元先从对应的本地缓存中查询与数据流的joinkey匹配的维表数据记录,如果没有查询到,则从缓存数据库中查询与数据流的joinkey匹配的维表数据记录,将查询到的维表数据记录与数据流进行join,并将查询到的维表数据记录拉取到该处理单元对应的本地缓存保存。
但是这种解决方案存在一定的缺陷:(1)依赖上游改造提供数据源,实时数据获取,需要上游业务系统改造旁路输出提供相关的业务数据到消息中间件中,或者单独建立接口的方式提供,改造成本、时间周期和协调工作难度较大;(2)无法实时多表关联处理,传统的流数据处理装置,一般使用JAVA程序消费消息中间件数据进行运算,如涉及多系统多数据表,因消息到达时间不一致,需要大量内存缓存数据;(3)流批数据关联处理效率低,需要实时数据和离线模型数据进行关联处理时,会查询关系型数据库或数据仓库Hive获取离线数据,因数据库和Hive查询用时较长,会导致流式数据的积压;而且如果涉及多个流数据与离线数据关联,处理效率大大降低,造成数据延迟情况严重;(4)处理性能存在瓶颈,流式CDC数据的还原使用列式数据库存HBASE进行中间结果存储(贴源层),创建Hive映射表进行查询,因为无法创建多分区的Hive映射表,当数据量非常大时,需要全盘扫数据查询,效率很低。
鉴于此,本发明的提供一种数据处理方法,直接使用上游业务系统数据库的日志数据为数据源,实现多流数据的采集,然后按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中,实现批数据的采,最后通过hudi结果表将采集的多流数据和批数据进行一体化处理。这样只需要分析hudi结果表中的变化数据,就可以为下游业务系统提供实时的数据服务,提高了数据处理效率,避免了依赖上游业务系统改造提供数据源。
示例性地,图1中示出了本发明实施例提供的一种数据处理的架构示意图。该数据处理的架构可以包括数据采集模块、流批一体化处理模块和数据捕获模块。
其中,数据采集模块包括新客服系统、其他系统、卡夫卡Kafka中间件和分布式文件系统HDFS。
新客服系统包含一个或多个数据库,用于记录客户来电个案主表,以及通话录音的转文本数据。
其他系统,用于批量保存和导出客户的相关资料文件以及一些网络数据文件到HDFS。
Kafka中间件是在消息的传输过程中保存消息的容器。Kafka中间件在将消息从消息生产者到消费者时充当中间人的作用。在Kafka中间件消息以主题topic为类别记录,每一类的消息称之为一个topic,每个topic可以理解为一个队列,每个topic可以包含一个或多个流表。示例性的,可以参考图1该Kafka中间件中包含流表有个案主表、处理过程表、人工坐席表和主工单附加信息表等一些其他流表。Kafka处理过程延迟低,容易支持多数据源和分布式数据的处理。
HDFS,用于统一管理分布在集群上的文件系统,用于提供分布式存储服务。继续参考图1,该HDFS可以存储多个维表文件,如客户资料、用户资料和网络数据等一些维表文件。
其中,流批一体化处理模块包括计算引擎SPARK、数据仓库工具Hive和数据湖hudi。
SPARK是专为大规模数据处理而设计的快速通用的计算引擎,可以对多流数据进行关联处理。
Hive是基于Hadoop的一个数据仓库工具,可以对离线数据进行加工,还可以将结构化的数据文件映射为一张数据库表,并提供完整的结构化查询语言(Structured QueryLanguage,SQL)查询功能。
数据湖是一个大型的基于对象的存储库,面向多数据源的信息存储,能够把不同种类的数据汇聚到一起,不需要预定义的模型就能进行数据分析,还能够以原始格式保存数据。
其中,数据捕获模块包括计算引擎FLINK和Kafka中间件。
FLINK是一种大数据实时计算引擎,具体为一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。FLINK CDC是FLINK 1.11中的一个新增功能,通过变化数据捕获(Change Data Capture,CDC)得知数据源表的更新内容,例如数据的插入、更新和删除,并将这些更新内容作为数据流发送到下游系统。
可以理解的是,数据捕获模块中的Kafka中间件可以和数据采集模块的Kafka中间件是同一个,也可以是不同的。
下面结合附图对本发明实施例提供的数据处理方法进行详细介绍。
图2本发明实施例提供的数据处理方法的流程图一。如图2所示,该方法包括以下步骤:
S101、监听并读取上游业务系统中数据库的日志数据,将日志数据实时同步到第一Kafka中间件。
其中,上游业务系统中数据库可以为oracle和mysql中的至少一种。日志数据Binlog用于记录用户通过业务系统对数据库中的表进行的增删改操作。Kafka中间件是在消息的传输过程中保存消息的容器。
在一些实施例中,根据业务系统中的客户来电个案主表,以及通话录音的转文本数据,得到数据库的日志数据Binlog。
在一些实施例中,通过消息中转Ogg将日志数据实时同步到第一Kafka中间件中。这样实现了对上游业务系统中数据库中日志数据的实时捕捉。
作为一种可能的实现方式中,在Kafka中间件中预先配置多种流表,监听并读取Oracle数据库的日志数据后,将日志数据进行整合分别写入对应的Kafka中间件中的流表中。例如,在Kafka中间件中预先配置的流表包括个案主表、处理过程表、人工坐席表和主工单附加信息表。其中,个案主表用于记录特殊用户来电数据,人工坐席表用于记录业务系统中各个坐席所对应的信息,主工单附加信息表用于记录历史用户的新增信息。例如,在监听并读取上游业务系统中数据库新增的特殊用户来电数据后,通过消息中转Ogg将用户来电数据实时同步到第一Kafka中间件中的个案主表中。
S102、利用第一计算引擎从第一Kafka中间件中读取日志数据,并对日志数据进行标准化处理后写入数据湖的hudi结果表中。
在一些实施例中,第一计算引擎为SPARK。SPARK是专为大规模数据处理而设计的快速通用的计算引擎,可以对多流数据进行关联处理,提高数据处理效率。
作为一种可能实现的方式中,利用第一计算引擎从第一Kafka中间件中读取日志数据后,首先对日志数据进行标准化处理,然后对日志数据进行对象封装和转换为预设格式后写入数据湖的hudi结果表中。这样数据湖hudi结果表就可以将同一字段的日志数据进行合并,实现多流数据的关联join功能。
这样,通过kafka中间件的消息处理能力,将来自上游业务系统中数据库的日志数据作为消息进行处理整合,再通过利用第一计算引擎将日志数据同步数据湖的hudi结果表中,实现了数据库数据的实时同步。
S103、按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到hudi结果表。
其中,维表数据用于与数据流中的各个日志数据进行关联来得到业务系统中完整的数据。维表数据可以用于记录用户的基本属性信息。
可以理解的是,HDFS是一种底层的文件系统,业务系统将用于记录用户基本属性信息的文件在导出给HDFS后,需要由Hive对这写文件进行分析处理后进行使用。
作为一种可能的实现方式中,按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中;数据库Hive按照预设周期对维表数据进行离线运算形成批数据;数据库Hive将批数据按照相应的字段类型映射到hudi结果表中。这样按照预设周期将批数据映射到hudi结果表中,实现了批数据的采集,进一步提高了数据处理的效率。
S104、通过hudi结果表对经过标准化处理的日志数据和批数据进行关联处理。
作为一种可能的实现方式中,通过hudi结果表对经过标准化处理的日志数据和批数据按照同一主键进行关联处理。这样实现了多表的join功能,以便根据hudi结果表中的变化数据,就可以为下游业务系统提供实时的数据服务。
基于此,将对上游数据库中数据的增删改操作所产生的流数据和对HDFS文件系统中的维表数据进行处理所得到的批数据,共同写入下游的数据湖中的hudi结果表后由hudi结果表将其进行关联处理。便于后续只需要根据hudi结果表中的实时数据,就可以为下游业务系统提供实时的数据服务,提高了数据的处理效率。
图3为本发明实施例提供的一种数据处理方法的流程图二。如图3所示,该方法包括以下步骤:
S201、利用第二计算引擎读取hudi结果表中的实时数据。
在一些实施例中,第二计算引擎为FLINK。利用FLINK读取hudi结果表中的实时数据,实时性高,能够及时的检测到hudi结果表中的实时数据的状态,并对hudi结果表中的实时数据设置预设的访问量阈值,在超过预设的访问量阈值时,对访问请求进行拦截。且FLINK能够对hudi结果表中的实时数据进行处理,在数据发生损坏时,能找到故障溯源。
S202、对符合预设条件的实时数据进行数据清洗后写入推送消息到第二Kafka中间件。
可以理解的是,第二Kafka中间件和第一Kafka中间件可以为同一个Kafka中间件,也可以是不同的Kafka中间件。
在一些实施例中,对符合预设条件的实时数据进行数据清洗,转换为相应的格式后进行封装,写入推送消息到第二Kafka中间件。这样将实时数据清洗转换为相应的格式后写入推送消息到第二Kafka中间件,可以将一些乱码数据清除,还可以提高实时数据的写入效率。
示例性的,预设条件为在预设时间段内,由第一服务进度进展到第二服务进度的男性客户的相关数据。第二计算引擎读取hudi结果表中的实时数据与预设条件进行比对计算后,将实时数据中由第一服务进度进展到第二服务进度的男性客户相关数据进行封装转换后写入推送消息到第二Kafka中间件。
基于此,分析hudi结果表中的实时数据,为下游业务系统提供实时的数据服务,避免了依赖上游业务系统改造提供数据源,提高了数据的处理效率。
可以理解的是,上述方法可以由数据处理装置实现。数据处理装置为了实现上述功能,其包含了执行各个功能相应的硬件结构或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
本发明实施例可以根据上述方法示例对上述数据处理装置等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图4示出了上述实施例中所涉及的数据处理装置的一种可能的结构示意图。如图4所示,数据处理装置40包括:监听模块41、处理模块42和捕获模块43。
监听模块41,用于监听并读取Oracle数据库的日志数据,将日志数据实时同步到第一Kafka中间件;
处理模块42,用于利用第一计算引擎从第一Kafka中间件中读取日志数据,并对日志数据进行标准化处理后写入数据湖的hudi结果表中;
处理模块42,还用于按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到hudi结果表;
处理模块42,还用于通过hudi结果表对经过标准化处理的日志数据和批数据进行关联处理。
在一些实施例中,监听模块41,具体用于:通过消息中转Ogg将日志数据实时同步到第一Kafka中间件中。
在一些实施例中,捕获模块43,用于利用第二计算引擎读取hudi结果表中的实时数据;捕获模块43,还用于对实时数据基于预设规则进行比对计算,对符合预设规则的实时数据进行数据清洗后写入推送消息到第二Kafka中间件。
在一些实施例中,第一计算引擎为SPARK,以及第二计算引擎为FLINK。
当然,数据处理装置40包括但不限于上述所列举的单元模块。并且,上述功能单元的具体所能够实现的功能也包括但不限于上述实例的方法步骤对应的功能,数据处理装置40的其他模块的详细描述可以参考其所对应方法步骤的详细描述,本发明实施例这里不再赘述。
在采用硬件的形式实现上述集成的模块的功能的情况下,本发明实施例提供了上述实施例中所涉及的一种通信装置的结构示意图。如图5所示,该通信装置50包括:处理器502,总线504。可选的,该通信装置还可以包括存储器501;可选地,该通信装置还可以包括通信接口503。
处理器502,可以是实现或执行结合本发明实施例所描述的各种示例性的逻辑方框,模块和电路。该处理器502可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例所描述的各种示例性的逻辑方框,模块和电路。处理器502也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
通信接口503,用于与其他设备通过通信网络连接。该通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。
存储器501,可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccess memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmableread-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
作为一种可能的实现方式,存储器501可以独立于处理器502存在,存储器501可以通过总线504与处理器502相连接,用于存储指令或者程序代码。处理器502调用并执行存储器501中存储的指令或程序代码时,能够实现本发明实施例提供的数据处理方法。
另一种可能的实现方式中,存储器501也可以和处理器502集成在一起。
总线504,可以是扩展工业标准结构(extended industrystandardarchitecture,EISA)总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本发明的一些实施例提供了一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质中存储有计算机程序指令,计算机程序指令在计算机上运行时,使得计算机执行如上述实施例中任一实施例中的数据处理方法。
示例性的,上述计算机可读存储介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(Compact Disk,CD)、数字通用盘(DigitalVersatile Disk,DVD)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(ErasableProgrammable Read-OnlyMemory,EPROM)、卡、棒或钥匙驱动器等)。本发明描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
本发明实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述实施例中任一实施例所述的数据处理方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
监听并读取数据库的日志数据,将所述日志数据实时同步到第一Kafka中间件;
利用第一计算引擎从所述第一Kafka中间件中读取所述日志数据,并对所述日志数据进行标准化处理后写入数据湖的hudi结果表中;
按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到所述hudi结果表;
通过所述hudi结果表对所述经过标准化处理的日志数据和所述批数据进行关联处理。
2.根据权利要求1所述的方法,其特征在于,将所述日志数据实时同步到Kafka中间件中,包括:
通过消息中转Ogg将所述日志数据实时同步到所述第一Kafka中间件中。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用第二计算引擎读取所述hudi结果表中的实时数据;
对符合预设条件的所述实时数据进行数据清洗后写入推送消息到第二Kafka中间件。
4.根据权利要求1所述的方法,其特征在于,所述第一计算引擎为SPARK,以及所述第二计算引擎为FLINK。
5.一种数据处理装置,其特征在于,所述装置包括:
监听模块,用于监听并读取数据库的日志数据,将所述日志数据实时同步到第一Kafka中间件;
处理模块,用于利用第一计算引擎从所述第一Kafka中间件中读取所述日志数据,并对所述日志数据进行标准化处理后写入数据湖的hudi结果表中;
所述处理模块,还用于按照预设周期从分布式文件系统HDFS中将维表数据导入到数据库Hive中进行分析处理,形成批数据后映射到所述hudi结果表;
所述处理模块,还用于通过所述hudi结果表对所述经过标准化处理的日志数据和所述批数据进行关联处理。
6.根据权利要求5所述的装置,其特征在于,
所述监听模块,具体用于:
通过消息中转Ogg将所述日志数据实时同步到所述第一Kafka中间件中。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
捕获模块,用于利用第二计算引擎读取所述hudi结果表中的实时数据;
所述捕获模块,还用于对所述实时数据基于预设规则进行比对计算,对符合预设规则的所述实时数据进行数据清洗后写入推送消息到第二Kafka中间件。
8.根据权利要求5所述的装置,其特征在于,所述第一计算引擎为SPARK,以及所述第二计算引擎为FLINK。
9.一种通信装置,其特征在于,所述通信装置包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,使得所述通信装置执行如权利要求1-4中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,当所述计算机指令在通信装置上运行时,使得所述通信装置执行如权利要求1-4中任一项所述的数据处理方法。
CN202211728979.5A 2022-12-30 2022-12-30 一种数据处理方法、装置及存储介质 Pending CN116186053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211728979.5A CN116186053A (zh) 2022-12-30 2022-12-30 一种数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211728979.5A CN116186053A (zh) 2022-12-30 2022-12-30 一种数据处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116186053A true CN116186053A (zh) 2023-05-30

Family

ID=86433664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211728979.5A Pending CN116186053A (zh) 2022-12-30 2022-12-30 一种数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116186053A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171811A (zh) * 2023-09-12 2023-12-05 浪潮数字(山东)建设运营有限公司 数据库同步和防篡改溯源的方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171811A (zh) * 2023-09-12 2023-12-05 浪潮数字(山东)建设运营有限公司 数据库同步和防篡改溯源的方法、装置和电子设备
CN117171811B (zh) * 2023-09-12 2024-04-05 浪潮数字(山东)建设运营有限公司 数据库同步和防篡改溯源的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN105138592B (zh) 一种基于分布式架构的日志数据存储和检索方法
CN110321387B (zh) 数据同步方法、设备及终端设备
WO2020147392A1 (zh) 数据库之间的数据同步方法和系统
CN112559475B (zh) 数据实时捕获和传输方法及系统
CN110928851B (zh) 处理日志信息的方法、装置、设备及存储介质
CN107463706B (zh) 一种基于Hadoop的海量录波数据存储和解析方法及系统
CN111400288A (zh) 数据质量检查方法及系统
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN116186053A (zh) 一种数据处理方法、装置及存储介质
CN110287251B (zh) MongoDB到HBase的分布式高容错数据实时同步方法
CN105338107A (zh) 一种据点运营同步管理系统及方法
CN106557483B (zh) 一种数据处理、数据查询方法及设备
CN112506887B (zh) 车辆终端can总线数据处理方法及装置
CN112000703B (zh) 数据入库处理方法、装置、计算机设备和存储介质
CN114416868A (zh) 一种数据同步方法、装置、设备及存储介质
CN115033646B (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN110851758B (zh) 一种网页访客数量统计方法及装置
CN114297211A (zh) 一种数据在线分析系统、方法、设备及存储介质
CN113282616A (zh) 一种增量的时序数据冲突检测方法、装置和存储介质
CN106469086B (zh) 事件处理方法和装置
CN113709106B (zh) 一种适用于商用车车联网数据的数据分析系统和方法
CN112214290B (zh) 日志信息处理方法、边缘节点、中心节点和系统
CN117708219B (zh) 用于物联网数据的处理方法、处理装置及存储介质
CN114490557A (zh) 坐席时长统计方法、系统及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination