CN112256523A - 业务数据处理方法及装置 - Google Patents
业务数据处理方法及装置 Download PDFInfo
- Publication number
- CN112256523A CN112256523A CN202011012770.XA CN202011012770A CN112256523A CN 112256523 A CN112256523 A CN 112256523A CN 202011012770 A CN202011012770 A CN 202011012770A CN 112256523 A CN112256523 A CN 112256523A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- hbase
- dimension table
- base layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/80—Database-specific techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/865—Monitoring of software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种业务数据处理方法及装置,通过获取业务的日志数据,并根据日志数据确定消息队列的base层数据以及Hbase维表数据,将base层数据与Hbase维表数据进行关联计算,确定业务实时的日增量数据,最后根据日增量数据与业务的历史数据,确定业务的全量数据。该全量数据包含有实时的日增量数据与离线的历史数据,使得BI分析平台在利用该全量数据时既可以考虑历史数据又可以考虑实时数据,可以保证BI分析平台分析计算的结果满足客户对实时性的要求,提高用户体验感。
Description
技术领域
本发明涉及房产大数据分析技术领域,尤其涉及一种业务数据处理方法及装置。
背景技术
目前,在房产、金融等众多领域均需要交易单数据等业务数据进行分析计算,以得到所需信息。现有技术中通常通过商务智能(Business Intelligence,BI)分析平台实现业务数据的分析计算,但是BI分析平台使用的业务数据通常基于离线数仓得到,而离线数仓内的数据均为历史数据,使得BI分析平台无法获得实时数据,进而可能导致分析计算的结果无法满足客户对实时性的要求。
发明内容
本发明实施例提供一种业务数据处理方法及装置,用以解决现有技术中存在的缺陷。
本发明实施例提供一种业务数据处理方法,包括:
获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;
将所述base层数据与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据;
基于所述日增量数据与所述业务的历史数据,确定全量数据。
根据本发明一个实施例的业务数据处理方法,所述将所述base层数据与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据,具体包括:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
根据本发明一个实施例的业务数据处理方法,所述基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据,具体包括:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,若判断获知关联计算失败,则将所述流数据与所述流数据的上游流数据合并,并将合并后的结果与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
根据本发明一个实施例的业务数据处理方法,所述base层数据基于如下方式确定:
对所述日志数据进行清洗及转换,得到所述base层数据。
根据本发明一个实施例的业务数据处理方法,所述Hbase维表数据基于如下方式确定:
基于所述日志数据,对Hbase维表进行更新,得到所述Hbase维表数据;所述Hbase维表基于所述业务的数据库数据进行初始化得到。
根据本发明一个实施例的业务数据处理方法,所述基于所述日增量数据与所述业务的历史数据,确定全量数据,之后还包括:
将所述全量数据同步至clickhouse数据库中进行存储,并基于所述clickhouse数据库,对所述全量数据进行视图展示以及逻辑处理。
根据本发明一个实施例的业务数据处理方法,所述基于所述日增量数据与所述业务的历史数据,确定全量数据,之后还包括:
基于超文本传输协议HTTP接口,将所述全量数据发送至目标设备。
本发明实施例还提供一种业务数据处理装置,包括:日志数据获取模块、日增量数据获取模块和全量数据确定模块。其中,
日志数据获取模块用于获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;
日增量数据获取模块用于将所述base层数据与所述Hbase维表数据进行关联计算,并确定所述业务的日增量数据;
全量数据确定模块用于基于所述日增量数据与所述业务的历史数据,确定全量数据。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的业务数据处理方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的业务数据处理方法的步骤。
本发明实施例提供的业务数据处理方法及装置,通过获取业务在当前日的日志数据,并根据日志数据确定消息队列的base层数据以及Hbase维表数据,将base层数据与Hbase维表数据进行关联计算,确定业务实时的日增量数据,最后根据日增量数据与业务的历史数据,确定业务的全量数据。该全量数据包含有实时的日增量数据与离线的历史数据,使得BI分析平台在利用该全量数据时既可以考虑历史数据又可以考虑实时数据,可以保证BI分析平台分析计算的结果满足客户对实时性的要求,提高用户体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种业务数据处理方法的流程示意图;
图2是本发明实施例中在流数据与Hbase维表数据关联计算失败时的操作流程示意图;
图3是本发明实施例提供的一种业务数据处理装置的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中BI分析平台采用的业务数据的来源通常是离线数仓,由于离线数仓内的数据均为离线数据,属于历史数据,无法使BI分析平台获得实时数据,进而可能导致BI分析平台分析计算的结果无法满足客户对实时性的要求。为此,本发明实施例中提供了一种业务数据处理方法,将处理后的数据供BI分析平台使用,以解决现有技术中存在的技术问题。
图1为本发明实施例中提供的一种业务数据处理方法的结构示意图,如图1所示,该方法包括:
S1,获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;
S2,将所述base层数据与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据;
S3,基于所述日增量数据与所述业务的历史数据,确定全量数据。
具体地,本发明实施例中提供的业务数据处理方法中,业务数据是与业务相关的数据,该业务可以是房产领域的交易业务等。业务数据通常通过工作人员在MySQL数据库进行操作产生,在产生业务数据的同时,还会产生业务的日志数据。该日志数据存储于binlog日志内。
首先执行步骤S1,获取业务在当前日的日志数据,具体的获取方式可以是通过EPX实现,EPX主要对MySQL数据库进行实时监听,是通过实时解析MySQL数据库产生的日志,并按照用户配置对解析内容进行转换过滤,最后输出到kafka中供业务方使用的数据管道。EPX具体可以通过Binlog Dump实时获取MySQL数据库在当前日的binlog日志,并通过解析后获取具体的数据变更,最后将变更记录推送到kafka中以供业务方消费。本发明实施例中,binlog日志可以以日为单位进行获取,该日可以是0:00至24:00的时间段。可以实时获取0:00至当前时刻的binlog日志作为业务在当前日的binlog日志,该binlog日志内的日志数据即为所需的日志数据。
根据获取的日志数据,可以确定出消息队列的base层数据以及Hbase维表数据。此处,消息队列可以是kafka,针对日志数据中不同应用场景的数据以及不同的数据类型分别存储于base层以及Hbase维表中,存储于base层的数据为base层数据,存储于Hbase维表中的数据为Hbase维表数据。其中,base层数据以及Hbase维表数据均为结构化数据,base层数据可以为业务数据中的基础数据,例如交易单数据中与交易直接相关的数据,Hbase维表数据可以为业务数据的维度信息、过滤信息、状态信息以及流转信息等。
然后执行步骤S2,将base层数据与Hbase维表数据进行关联计算,确定业务的日增量数据。关联计算是指将base层数据与Hbase维表数据建立关联关系,确定以日为单位、每日增加的包含有base层数据与关联的Hbase维表数据两部分的日增量数据。以便后续通过base层数据并结合该关联关系即可确定出对应的Hbase维表数据,即确定出业务数据的维度信息等。关联计算的目的是为了保证后续在应用业务数据时,可以保证获取到的业务数据的完整性。
最后执行步骤S3,根据日增量数据与业务的历史数据,确定全量数据。其中,业务的历史数据具体可以在事先存储于hive中,通过将日增量数据与hive中的历史数据进行合并(merge),即可得到全量数据。此处的全量数据是指包含有实时的日增量数据与离线的历史数据的业务数据。
本发明实施例中提供的业务数据处理方法,通过获取业务在当前日的日志数据,并根据日志数据确定消息队列的base层数据以及Hbase维表数据,将base层数据与Hbase维表数据进行关联计算,确定业务实时的日增量数据,最后根据日增量数据与业务的历史数据,确定业务的全量数据。该全量数据包含有实时的日增量数据与离线的历史数据,使得BI分析平台在利用该全量数据时既可以考虑历史数据又可以考虑实时数据,可以保证BI分析平台分析计算的结果满足客户对实时性的要求,提高用户体验感。
在上述实施例的基础上,本发明实施例中提供的业务数据处理方法,所述将所述base层数据与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据,具体包括:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
具体的,本发明实施例中在将base层数据与Hbase维表数据进行关联计算,确定业务的日增量数据时,具体采用flink流式计算框架实现。flink(网页代码标记)具有流和批统一的抽象概念,并且基于其结构特征具有高吞吐和低延迟的特性。flink流式计算框架可以按流数据处理过程,将流数据所处的当前处理节点的前后处理节点处的流数据分别记为上游流数据以及下游流数据。例如将base层数据作为流数据,该流数据处于当前处理节点,则位于当前处理节点的前一处理节点的流数据为上游流数据,处于当前处理节点的后一处理节点的流数据为下游流数据。结合Hbase维表数据进行关联计算,是将处于某一处理节点的base层数据与存入Hbase维表的且处于相同处理节点的Hbase维表数据建立关联关系。
本发明实施例中,采用flink流式计算框架实现关联计算,确定业务的日增量数据,可以降低关联计算引入的延迟,提高关联计算的结果的准确性。
在上述实施例的基础上,本发明实施例中提供的业务数据处理方法,所述基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据,具体包括:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,若判断获知关联计算失败,则将所述流数据与所述流数据的上游流数据合并,并将合并后的结果与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
具体的,本发明实施例中,一般情况下关联计算均会成功,即会得到base层数据与Hbase维表数据之间的对应关系,确定出日增量数据,但是当存在两个MySQL数据表的数据同时更新时,流数据到达的时间与维表更新的时间出现了短暂的时间差,使Hbase维表数据写入Hbase维表相较于base层数据写入base层存在延迟,则会导致无法确定同一时刻base层数据与Hbase维表数据之间的对应关系,进而导致关联计算失败,无法确定出日增量数据。图2为本发明实施例中在流数据与Hbase维表数据关联计算失败时的操作流程示意图,如图2所示,本发明实施例中,在将流数据与流数据的上游流数据合并时,可以引入预先申请的数据写入单元21,通过该数据写入单元21存储关联计算失败的流数据,并将该流数据与该流数据的上游流数据进行合并,然后将合并的结果与关联计算失败的Hbase维表数据进行关联计算。若此次关联计算成功,则将该流数据作为下游流数据,进入下一处理节点,而不会再将流数据存储至数据写入单元,若此次关联计算失败,则产生关联计算失败的提示信息,或者设置时间戳,并在该时间戳内重复通过数据写入单元进行关联计算,直至时间戳结束,若依然关联计算失败,则舍弃该流数据。其中,数据写入单元为预先申请的一种具有数据写入功能的资源,具体可以是kafka topic,可以实现流数据的回环功能。
本发明实施例中,在初次关联计算失败时,引入数据写入单元进行二次关联计算,可以缩小Hbase维表数据与base层数据之间存在的延迟,增加了关联计算的成功率。
在上述实施例的基础上,本发明实施例中提供的业务数据处理方法,所述base层数据基于如下方式确定:
对所述日志数据进行清洗及转换,得到所述base层数据。
具体的,在确定base层数据时,具体可以通过如下方式实现:将日志数据经由数据抽取从一个kafka中取出,然后对取出的日志数据进行数据清洗以及数据转换等处理,并将处理后得到的数据以数据加载的方式加载至另一kafka中,即可形成kafka的base层数据。
在上述实施例的基础上,本发明实施例中提供的业务数据处理方法,所述Hbase维表数据基于如下方式确定:
基于所述日志数据,对Hbase维表进行更新,得到所述Hbase维表数据;所述Hbase维表基于所述业务的数据库数据进行初始化得到。
具体地,在确定Hbase维表数据时,具体可以先通过业务的数据库数据对Hbase维表进行初始化,然后通过日志数据对初始化后的Hbase维表进行更新,得到Hbase维表数据。其中,业务的数据库数据是指业务在MySQL数据库中存储的数据。
在上述实施例的基础上,本发明实施例中提供的业务数据处理方法,所述基于所述日增量数据与所述业务的历史数据,确定全量数据,之后还包括:
将所述全量数据同步至clickhouse数据库中进行存储,并基于所述clickhouse数据库,对所述全量数据进行视图展示以及逻辑处理。
具体地,本发明实施例中可以在关联计算成功后,将关联计算得到的日增量数据同步至clickhouse数据库中进行存储。然后,在确定日增量数据后,将日增量数据与历史数据合并得到的全量数据同步至clickhouse中进行存储。最后,可以基于clickhouse数据库创建视图,对全量数据进行视图展示,并对全量数据进行相应的逻辑处理。
本发明实施例中,采用clickhouse数据库进行同步存储日增量数据以及全量数据,可以提高全量数据的存储效率,而且可以使得用户通过clickhouse实现对全量数据的快速查询。
在上述实施例的基础上,本发明实施例中提供的业务数据处理方法,所述基于所述日增量数据与所述业务的历史数据,确定全量数据,之后还包括:
基于超文本传输协议HTTP接口,将所述全量数据发送至目标设备。
具体地,本发明实施例中,为保证得到的全量数据可以顺利被业务方利用,则设置超文本传输协议(Hyper Text Transfer Protocol,HTTP)接口,业务方的目标设备可以通过调用HTTP接口访问该全量数据,进而实现利用。其中,目标设备为业务方为访问全量数据所采用的设备,目标设备具体可以是安装有BI分析平台的设备。
如图3所示,在上述实施例的基础上,本发明实施例中提供了一种业务数据处理装置,包括:日志数据获取模块31、日增量数据获取模块32和全量数据确定模块33。其中,
日志数据获取模块31用于获取业务的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;
日增量数据获取模块32用于将所述base层数据与所述Hbase维表数据进行关联计算,并确定所述业务的日增量数据;
全量数据确定模块33用于基于所述日增量数据与所述业务的历史数据,确定全量数据。
具体地,本发明实施例中提供的业务数据处理装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
在上述实施例的基础上,本发明实施例中提供的业务数据处理装置,日增量数据获取模块具体用于:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
在上述实施例的基础上,本发明实施例中提供的业务数据处理装置,日增量数据获取模块具体用于:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,若判断获知关联计算失败,则将所述流数据与所述流数据的上游流数据合并,并将合并后的结果与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
在上述实施例的基础上,本发明实施例中提供的业务数据处理装置,还包括base层数据确定模块,用于:
对所述日志数据进行清洗及转换,得到所述base层数据。
在上述实施例的基础上,本发明实施例中提供的业务数据处理装置,还包括Hbase维表数据确定模块,用于:
基于所述日志数据,对Hbase维表进行更新,得到所述Hbase维表数据;所述Hbase维表基于所述业务的数据库数据进行初始化得到。
在上述实施例的基础上,本发明实施例中提供的业务数据处理装置,还包括存储模块,用于:
将所述全量数据同步至clickhouse数据库中进行存储,并基于所述clickhouse数据库,对所述全量数据进行视图展示以及逻辑处理。
在上述实施例的基础上,本发明实施例中提供的业务数据处理装置,还包括发送模块,用于:
基于超文本传输协议HTTP接口,将所述全量数据发送至目标设备。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行业务数据处理方法,包括:获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;将所述base层数据与所述Hbase维表数据进行关联计算,并确定所述业务的日增量数据;基于所述日增量数据与所述业务的历史数据,确定全量数据。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的业务数据处理方法,包括:获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;将所述base层数据与所述Hbase维表数据进行关联计算,并确定所述业务的日增量数据;基于所述日增量数据与所述业务的历史数据,确定全量数据。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的业务数据处理方法,包括:获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;将所述base层数据与所述Hbase维表数据进行关联计算,并确定所述业务的日增量数据;基于所述日增量数据与所述业务的历史数据,确定全量数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种业务数据处理方法,其特征在于,包括:
获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;
将所述base层数据与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据;
基于所述日增量数据与所述业务的历史数据,确定全量数据。
2.根据权利要求1所述的业务数据处理方法,其特征在于,所述将所述base层数据与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据,具体包括:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
3.根据权利要求2所述的业务数据处理方法,其特征在于,所述基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,确定所述业务的日增量数据,具体包括:
基于flink流式计算框架,以所述base层数据作为流数据,结合所述Hbase维表数据进行关联计算,若判断获知关联计算失败,则将所述流数据与所述流数据的上游流数据合并,并将合并后的结果与所述Hbase维表数据进行关联计算,确定所述业务的日增量数据。
4.根据权利要求1-3中任一项所述的业务数据处理方法,其特征在于,所述base层数据基于如下方式确定:
对所述日志数据进行清洗及转换,得到所述base层数据。
5.根据权利要求1-3中任一项所述的业务数据处理方法,其特征在于,所述Hbase维表数据基于如下方式确定:
基于所述日志数据,对Hbase维表进行更新,得到所述Hbase维表数据;所述Hbase维表基于所述业务的数据库数据进行初始化得到。
6.根据权利要求1-3中任一项所述的业务数据处理方法,其特征在于,所述基于所述日增量数据与所述业务的历史数据,确定全量数据,之后还包括:
将所述全量数据同步至clickhouse数据库中进行存储,并基于所述clickhouse数据库,对所述全量数据进行视图展示以及逻辑处理。
7.根据权利要求1-3中任一项所述的业务数据处理方法,其特征在于,所述基于所述日增量数据与所述业务的历史数据,确定全量数据,之后还包括:
基于超文本传输协议HTTP接口,将所述全量数据发送至目标设备。
8.一种业务数据处理装置,其特征在于,包括:
日志数据获取模块,用于获取业务在当前日的日志数据,并基于所述日志数据确定消息队列的base层数据以及Hbase维表数据;
日增量数据获取模块,用于将所述base层数据与所述Hbase维表数据进行关联计算,并确定所述业务的日增量数据;
全量数据确定模块,用于基于所述日增量数据与所述业务的历史数据,确定全量数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的业务数据处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的业务数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012770.XA CN112256523B (zh) | 2020-09-23 | 2020-09-23 | 业务数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012770.XA CN112256523B (zh) | 2020-09-23 | 2020-09-23 | 业务数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256523A true CN112256523A (zh) | 2021-01-22 |
CN112256523B CN112256523B (zh) | 2023-01-06 |
Family
ID=74232687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012770.XA Active CN112256523B (zh) | 2020-09-23 | 2020-09-23 | 业务数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256523B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966020A (zh) * | 2021-03-08 | 2021-06-15 | 徐少锋 | 一种工业高频大数据实时处理系统与方法 |
CN113901004A (zh) * | 2021-10-27 | 2022-01-07 | 江苏瑞中数据股份有限公司 | 一种数据中台化的大数据复杂实时计算的方法 |
CN114116842A (zh) * | 2021-11-25 | 2022-03-01 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN115203336A (zh) * | 2022-09-19 | 2022-10-18 | 平安银行股份有限公司 | 数据库数据实时同步方法、系统、计算机终端及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101183387A (zh) * | 2007-12-14 | 2008-05-21 | 沈阳东软软件股份有限公司 | 一种增量数据捕获方法和系统 |
CN102841897A (zh) * | 2011-06-23 | 2012-12-26 | 阿里巴巴集团控股有限公司 | 一种实现增量数据抽取的方法、装置及系统 |
CN104537003A (zh) * | 2014-12-16 | 2015-04-22 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的通用高性能数据写入方法 |
CN104933112A (zh) * | 2015-06-04 | 2015-09-23 | 浙江力石科技股份有限公司 | 分布式互联网交易信息存储处理方法 |
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
US10078337B1 (en) * | 2017-07-14 | 2018-09-18 | Uber Technologies, Inc. | Generation of trip estimates using real-time data and historical data |
CN109684321A (zh) * | 2018-12-25 | 2019-04-26 | 江苏满运软件科技有限公司 | 数据质量管理方法、装置、电子设备、存储介质 |
CN109753531A (zh) * | 2018-12-26 | 2019-05-14 | 深圳市麦谷科技有限公司 | 一种大数据统计方法、系统、计算机设备及存储介质 |
CN110138791A (zh) * | 2019-05-20 | 2019-08-16 | 四川长虹电器股份有限公司 | 基于Flink的Web业务账户盗用实时监测方法及系统 |
CN110209668A (zh) * | 2019-04-29 | 2019-09-06 | 苏宁云计算有限公司 | 基于流计算的维表关联方法、装置、设备及可读存储介质 |
CN110389989A (zh) * | 2019-07-15 | 2019-10-29 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及设备 |
CN110609860A (zh) * | 2018-05-29 | 2019-12-24 | 中国移动通信集团重庆有限公司 | 数据etl处理方法、装置、设备及存储介质 |
CN110825820A (zh) * | 2019-09-27 | 2020-02-21 | 中国平安财产保险股份有限公司 | 实时数据标签获取方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-23 CN CN202011012770.XA patent/CN112256523B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101183387A (zh) * | 2007-12-14 | 2008-05-21 | 沈阳东软软件股份有限公司 | 一种增量数据捕获方法和系统 |
CN102841897A (zh) * | 2011-06-23 | 2012-12-26 | 阿里巴巴集团控股有限公司 | 一种实现增量数据抽取的方法、装置及系统 |
CN104537003A (zh) * | 2014-12-16 | 2015-04-22 | 北京中交兴路车联网科技有限公司 | 一种Hbase数据库的通用高性能数据写入方法 |
CN104933112A (zh) * | 2015-06-04 | 2015-09-23 | 浙江力石科技股份有限公司 | 分布式互联网交易信息存储处理方法 |
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
US10078337B1 (en) * | 2017-07-14 | 2018-09-18 | Uber Technologies, Inc. | Generation of trip estimates using real-time data and historical data |
CN110609860A (zh) * | 2018-05-29 | 2019-12-24 | 中国移动通信集团重庆有限公司 | 数据etl处理方法、装置、设备及存储介质 |
CN109684321A (zh) * | 2018-12-25 | 2019-04-26 | 江苏满运软件科技有限公司 | 数据质量管理方法、装置、电子设备、存储介质 |
CN109753531A (zh) * | 2018-12-26 | 2019-05-14 | 深圳市麦谷科技有限公司 | 一种大数据统计方法、系统、计算机设备及存储介质 |
CN110209668A (zh) * | 2019-04-29 | 2019-09-06 | 苏宁云计算有限公司 | 基于流计算的维表关联方法、装置、设备及可读存储介质 |
CN110138791A (zh) * | 2019-05-20 | 2019-08-16 | 四川长虹电器股份有限公司 | 基于Flink的Web业务账户盗用实时监测方法及系统 |
CN110389989A (zh) * | 2019-07-15 | 2019-10-29 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及设备 |
CN110825820A (zh) * | 2019-09-27 | 2020-02-21 | 中国平安财产保险股份有限公司 | 实时数据标签获取方法、装置、计算机设备和存储介质 |
Non-Patent Citations (7)
Title |
---|
张娟等: "数据仓库环境下的数据追加方案――TVL的设计和应用", 《计算机应用与软件》 * |
张榛楠等: "面向电子商务的Web使用挖掘数据仓库设计与实现", 《制造业自动化》 * |
曹子建等: "异步增量的实时数据库历史数据分析处理系统", 《电子设计工程》 * |
李洋等: "基于Hadoop与Storm的日志实时处理系统研究", 《西南师范大学学报(自然科学版)》 * |
林?等: "面向复杂信息系统的多源异构数据融合技术", 《中国测试》 * |
罗朝宇等: "内蒙古电力数据中心的建设分析", 《内蒙古电力技术》 * |
谭志远: "基于Kylin实现大数据多维分析", 《广东通信技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966020A (zh) * | 2021-03-08 | 2021-06-15 | 徐少锋 | 一种工业高频大数据实时处理系统与方法 |
CN113901004A (zh) * | 2021-10-27 | 2022-01-07 | 江苏瑞中数据股份有限公司 | 一种数据中台化的大数据复杂实时计算的方法 |
CN114116842A (zh) * | 2021-11-25 | 2022-03-01 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN114116842B (zh) * | 2021-11-25 | 2023-05-19 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN115203336A (zh) * | 2022-09-19 | 2022-10-18 | 平安银行股份有限公司 | 数据库数据实时同步方法、系统、计算机终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112256523B (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256523B (zh) | 业务数据处理方法及装置 | |
CN109327509B (zh) | 一种主/从架构的低耦合的分布式流式计算系统 | |
CN110113381B (zh) | 一种区块链中订阅主题的方法及装置 | |
CN112559475B (zh) | 数据实时捕获和传输方法及系统 | |
CN112039701B (zh) | 接口调用监控方法、装置、设备及存储介质 | |
CN109254854A (zh) | 异步调用方法、计算机装置及存储介质 | |
AU2017254506A1 (en) | Method, apparatus, computing device and storage medium for data analyzing and processing | |
CN109151056B (zh) | 基于Canal的消息推送方法和系统 | |
CN105069029A (zh) | 一种实时etl系统及方法 | |
CN111210340A (zh) | 一种自动任务处理方法、装置、服务器及存储介质 | |
CN113342503A (zh) | 实时进度反馈方法、装置、设备及存储介质 | |
US9426114B2 (en) | Parallel message processing on diverse messaging buses | |
US20210149709A1 (en) | Method and apparatus for processing transaction | |
CN110765198B (zh) | 数据资源池建立方法及装置 | |
CN107688978B (zh) | 用于检测重复订单信息的方法及装置 | |
CN111049898A (zh) | 一种实现计算集群资源跨域架构的方法及系统 | |
CN116225662A (zh) | 一种任务处理系统以及任务处理方法 | |
CN116319988A (zh) | 一种数据处理方法、系统、存储介质及设备 | |
CN115525717A (zh) | 一种数据同步处理方法及装置 | |
CN115099972A (zh) | 基于事件驱动架构的交易数据处理方法、装置及设备 | |
CN116186053A (zh) | 一种数据处理方法、装置及存储介质 | |
CN115905151A (zh) | 基于备份日志的流转信息查询方法、系统和装置 | |
CN115391429A (zh) | 基于大数据云计算的时序数据处理方法及装置 | |
CN113407491A (zh) | 数据处理方法及装置 | |
CN112363774A (zh) | Storm实时任务的配置方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |