CN110334070A - 数据处理方法、系统、设备及存储介质 - Google Patents
数据处理方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN110334070A CN110334070A CN201910424863.4A CN201910424863A CN110334070A CN 110334070 A CN110334070 A CN 110334070A CN 201910424863 A CN201910424863 A CN 201910424863A CN 110334070 A CN110334070 A CN 110334070A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- distributed computing
- computing framework
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Abstract
本申请实施例提供一种数据处理方法、系统、设备及存储介质。在本申请的一些实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;在主控节点的控制下,数据采集节点、消息管理节点、数据流引擎节点和同步节点对数据进行实时处理,提高数据同步效率,且数据处理扩展性和容错性均得到提高;采用分布式计算框架处理数据流的方法能够在数据无序或延迟加载的情况下保证数据准确性,在发生故障的情况下,通过检查点机制,从上一个完成的检查点进行数据恢复处理,确保在应用程序中保持一次性状态语义,并且支持大规模并行计算,有较好的吞吐量和低延迟。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、系统、设备及存储介质。
背景技术
数据同步,就是在不同的系统之间同步数据。根据具体业务目的和应用场景的不同,各种数据同步服务框架的功能侧重点往往不尽相同,比如数据传输服务,数据采集服务,数据交换服务等等。
目前,业务数据系统的数据量大、数据文件多、数据格式不统一,导致在数据同步过程中实时性差,且扩展性差、容错性差。
发明内容
本申请的多个方面提供一种数据处理的方法、系统、设备及存储介质,利用分布式计算框架解决数据同步过程中的实时性差、且扩展性差、容错性差的问题。
本申请实施例提供一种数据处理方法,包括:利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中;根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
本申请实施例提供一种数据处理系统,包括:多台计算机设备;所述多台计算机设备上部署有分布式计算框架,所述分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;所述主控节点,利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中;根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
本申请实施例提供一种主控设备,所述主控设备上部署有分布式计算框架中的主控节点,所述分布式计算框架还包括数据采集节点、消息管理节点、数据流引擎节点和同步节点;所述主控设备包括:一个或多个处理器以及一个或多个存储计算机程序的存储器;所述一个或多个处理器,用于执行所述计算机程序,以用于:利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中;根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
本申请实施例提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行上述方法中的各步骤。
在本申请的一些实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;在主控节点的控制下,数据采集节点、消息管理节点、数据流引擎节点和同步节点对数据进行实时处理,提高数据同步效率,且数据处理扩展性和容错性均得到提高;采用分布式计算框架处理数据流的方法能够在数据无序或延迟加载的情况下保证数据准确性,在发生故障的情况下,通过检查点机制,从上一个完成的检查点进行数据恢复处理,确保在应用程序中保持一次性状态语义,并且支持大规模并行计算,有较好的吞吐量和低延迟。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种数据处理系统10的结构示意图;
图2为本申请示例性实施例提供的一种数据处理方法的方法流程图;
图3为本申请示例性实施例提供的一种更加详细的数据处理方法的方法流程图;
图4为本申请示例性实施例提供的一种数据处理方法的一种实施例的方法流程图;
图5为本申请示例性实施例提供的一种主控设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对目前业务数据系统的数据量大、数据文件多、数据格式不统一,导致在数据同步过程中实时性差,且扩展性差、容错性差的问题,在本申请的一些实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;在主控节点的控制下,数据采集节点、消息管理节点、数据流引擎节点和同步节点对数据进行实时处理,提高数据同步效率,且数据处理扩展性和容错性均得到提高;采用分布式计算框架处理数据流的方法能够在数据无序或延迟加载的情况下保证数据准确性,在发生故障的情况下,通过检查点机制,从上一个完成的检查点进行数据恢复处理,确保在应用程序中保持一次性状态语义,并且支持大规模并行计算,有较好的吞吐量和低延迟。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请示例性实施例提供的一种数据处理系统10的结构示意图。如图1所示,该数据处理系统10包括多台计算机设备,多台计算机设备上部署有分布式计算框架,分布式计算框架包括:主控节点10a,数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e。数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e分散部署在多台计算机设备上。值得说明的是,同台计算机设备上可以只部署其中某类节点,也可以同时部署多类节点。例如,一台计算机设备上可以同时部署有数据采集节点10b和消息管理节点10c。
在本实施例中,主控节点10a可与数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e连接,主要为数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e提供数据支持,计算服务以及一些管控服务。主控节点10a部署在某台或某几台计算机设备上,部署主控节点10a的计算机设备可以为服务器,并不限定服务器的实现形态,例如可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中,服务器设备的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类型。同理,数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e所在的计算机设备也可以为服务器,并不限定服务器的实现形态,例如,可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备,也可以是智能手机、个人电脑、穿戴设备、平板电脑等。
在本实施例中,主控节点10a可与数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e建立通信连接。或者,主控节点10a可与数据采集节点10b,消息管理节点10c、数据流引擎节点10d以及同步节点10e通过移动网络建立通信连接,其中,移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。
在本实施例中,在主控节点10a的控制下,控制分布式计算框架中的数据采集节点10b并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点10c;控制分布式计算框架中的消息管理节点10c将原始增量数据分类存储至不同的消息队列中;根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点10d对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;利用分布式计算框架中的同步节点10e将目标增量数据实时同步至分布式文件系统中。
图2为本申请示例性实施例提供的一种数据处理方法的方法流程图,该方法适用于分布式计算框架中的主控节点,如图2所示,该方法包括以下步骤:
S201:利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;
S202:利用分布式计算框架中的消息管理节点将原始增量数据分类存储至不同的消息队列中;
S203:根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;
S204:利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
在本实施例中,数据处理系统对各业务数据系统中的数据量大、数据文件多、数据格式不统一的业务数据进行处理,以及时、准确地将各业务数据系统中的数据同步至目标数据库中。该数据处理系统包括多台计算机设备,在多台计算机设备上部署有分布式计算框架,在本实施例中,分布式计算框架包括但不限于下列几种:一个主控节点,至少一个数据采集节点、至少一个消息管理节点、至少一个数据流引擎节点和至少一个同步节点,主控节点调度各个子节点的进程运作,且主控节点可动态配置数据采集节点、消息管理节点、数据流引擎节点和同步节点中的进程的数量进行数据处理。其中,一个主控节点,至少一个数据采集节点、至少一个消息管理节点、至少一个数据流引擎节点和至少一个同步节点部署于多台计算机设备上;根据数据处理的具体情况,至少一个数据采集节点、至少一个消息管理节点、至少一个数据流引擎节点和至少一个同步节点可分别部署在一台计算机设备上,也可分别部署于多台计算机设备上。
在本实施例中,在进行数据同步步骤之前,首先利用分布式计算框架中主控节点,启动主控制程序,对多个数据同步进程进行初始化。
在上述实施例中,利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据。一种可选实施例为,分布式计算框架中的数据采集节点通过模拟与源数据库的交互协议,向源数据库发出数据请求,以向源数据库请求在当前时间段内产生的日志数据;接收源数据库发送的日志数据;对日志数据进行格式解析,将解析结果作为原始增量数据。具体地,分布式计算框架中的数据采集节点通过模拟与源数据库的交互协议,将自身伪装成源数据库的一个客户端,向源数据库发送数据请求,源数据库收到数据请求后,将新的日志数据进行格式解析,通常将日志数据转换为JSON格式,将格式转换后解析结果作为原始增量数据,只要源数据库日志发生变动,数据采集节点立即采集增量数据,并进行格式解析为原始增量数据,同时进行后续数据处理步骤,实现实时同步数据的目的。
在获取到原始增量数据之后,将原始增量数据输出至分布式计算框架中的消息管理节点。利用分布式计算框架中的消息管理节点将原始增量数据分类存储至不同的消息队列中。可选地,分布式计算框架中的消息管理节点将原始增量数据进行分类;将分类后的增量数据按照顺序分别存储至不同的消息队列中,即对原始增量数据创建主题。例如,消息管理节点为Kafka集群,每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic,经过分类后的增量数据按照顺序分别存储至不同的消息队列中。
在将原始增量数据分类存储至不同的消息队列之后,根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据。其中,根据当前的业务需求,从不同的消息队列中确定目标消息队列,一种可实现的方式为,根据当前的业务需求,确定当前业务所需增量数据的目标数据类型;从不同的消息队列中选择与目标数据类型对应的目标消息队列。例如,当需要提取车险理赔数据时,确定当前业务所需增量数据的目标数据类型为车辆承保数据,从不同的消息队列中选择出包含车辆承保数据的消息队列,作为目标消息队列。在确定目标消息队列之后,用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据。
在获取到目标增量数据之后,利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。其中,分布式文件系统可以为HDFS。
基于上述各实施例的描述,图3为本申请示例性实施例提供的一种更加详细的数据处理方法的方法流程图。如图3所示,该方法包括:
S301:利用分布式计算框架中的主控节点,启动主控制程序,对多个数据处理进行初始化;
S302:利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据;
S303:将原始增量数据输出至分布式计算框架中的消息管理节点;
S304:利用分布式计算框架中的消息管理节点将原始增量数据分类存储至不同的消息队列中;
S305:根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;
S306:利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
下列分别以Canal集群作为数据采集节点;Kafka集群作为消息管理节点;Flink集群作为数据流引擎节点、HDFS集群作为分布式文件系统。图4为本申请示例性实施例提供的一种数据处理方法的一种具体实施例的方法流程图,如图4所示,该方法包括以下步骤:
S401:利用Canal集群并行地从源数据库产生的日志数据中获取原始增量数据并输出至Kafka集群;
S402:利用Kafka集群将原始增量数据分类存储至不同的消息队列中;
S403:根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用flink对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;
S404:利用分布式计算框架中的同步节点将目标增量数据实时同步至HDFS集群中。
其中,KAFKA即使消息被消费,消息仍然不会被立即删除。日志文件将会根据broker中的配置要求,保留一定的时间之后删除;比如log文件保留2天,那么两天后,文件会被清除,无论其中的消息是否被消费.kafka通过这种简单的手段来释放磁盘空间,以及减少消息消费之后对文件内容改动的磁盘IO开支。
Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能;高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。支持通过Kafka服务器和消费机集群来分区消息;支持Hadoop并行数据加载。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序,提高数据处理的实时性。
在本申请上述数据处理方法的各实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;在主控节点的控制下,数据采集节点、消息管理节点、数据流引擎节点和同步节点对数据进行实时处理,提高数据同步效率,且数据处理扩展性和容错性均得到提高;采用分布式计算框架处理数据流的方法能够在数据无序或延迟加载的情况下保证数据准确性,在发生故障的情况下,通过检查点机制,从上一个完成的检查点进行数据恢复处理,确保在应用程序中保持一次性状态语义,并且支持大规模并行计算,有较好的吞吐量和低延迟。
图5为本申请示例性实施例提供的一种主控设备的结构框图,如图5所示,该计算设备包括:存储器502、处理器501;计算设备还可以包括电源组件503,通信组件504等必要组件。
储器502,用于存储计算机程序;
处理器501,用于执行计算机程序,以用于:利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;利用分布式计算框架中的消息管理节点将原始增量数据分类存储至不同的消息队列中;根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
可选地,处理器501在利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据时,具体用于:分布式计算框架中的数据采集节点通过模拟与源数据库的交互协议,向源数据库发出数据请求,以向源数据库请求在当前时间段内产生的日志数据;接收源数据库发送的日志数据;对日志数据进行格式解析,将解析结果作为原始增量数据。
可选地,处理器501在利用分布式计算框架中的消息管理节点将原始增量数据分类存储至不同的消息队列中时,具体用于:分布式计算框架中的消息管理节点将原始增量数据进行分类;将分类的后增量数据按照顺序分别存储至不同的消息队列中。
可选地,处理器501在根据当前的业务需求,从不同的消息队列中确定目标消息队列时,具体用于:根据当前的业务需求,确定当前业务所需增量数据的目标数据类型;从不同的消息队列中选择与目标数据类型对应的目标消息队列。
可选地,处理器501在利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据之前,还可用于:判断源数据库是否产生新的日志数据;若判断结果为是,则利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据;若判断结果为否,则等待下次轮询。
可选地,处理器501在利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据之前,还可用于:利用分布式计算框架中的主控节点,启动主控制程序,对多个数据处理进行初始化。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序,且计算机程序被一个或多个处理器执行时,致使一个或多个处理器执行图2方法实施例中的各步骤。
在本申请上述主控设备实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;在主控节点的控制下,数据采集节点、消息管理节点、数据流引擎节点和同步节点对数据进行实时处理,提高数据同步效率,且数据处理扩展性和容错性均得到提高;采用分布式计算框架处理数据流的方法能够在数据无序或延迟加载的情况下保证数据准确性,在发生故障的情况下,通过检查点机制,从上一个完成的检查点进行数据恢复处理,确保在应用程序中保持一次性状态语义,并且支持大规模并行计算,有较好的吞吐量和低延迟。
上述图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术和蓝牙(BT)技术等,以促进短程通信。
上述图5的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种数据处理方法,其特征在于,包括:
利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;
利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中;
根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;
利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
2.根据权利要求1所述的方法,其特征在于,利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据,包括:
分布式计算框架中的数据采集节点通过模拟与源数据库的交互协议,向源数据库发出数据请求,以向源数据库请求在当前时间段内产生的日志数据;
接收源数据库发送的日志数据;
对所述日志数据进行格式解析,将解析结果作为原始增量数据。
3.根据权利要求1所述的方法,其特征在于,利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中,包括:
分布式计算框架中的消息管理节点将原始增量数据进行分类;
将分类的后增量数据按照顺序分别存储至不同的消息队列中。
4.根据权利要求1所述的方法,其特征在于,根据当前的业务需求,从不同的消息队列中确定目标消息队列,包括:
根据当前的业务需求,确定当前业务所需增量数据的目标数据类型;
从不同的消息队列中选择与所述目标数据类型对应的目标消息队列。
5.根据权利要求1所述的方法,其特征在于,在利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据之前,还包括:
利用分布式计算框架中的主控节点,启动主控制程序,对多个数据处理进行初始化。
6.一种数据处理系统,其特征在于,包括:多台计算机设备;所述多台计算机设备上部署有分布式计算框架,所述分布式计算框架包括:主控节点、数据采集节点、消息管理节点、数据流引擎节点和同步节点;
所述主控节点,利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;
利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中;
根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;
利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
7.根据权利要求6所述的方法,其特征在于,所述主控节点可动态配置数据采集节点、消息管理节点、数据流引擎节点和同步节点中的进程的数量进行数据处理。
8.一种主控设备,其特征在于,所述主控设备上部署有分布式计算框架中的主控节点,所述分布式计算框架还包括数据采集节点、消息管理节点、数据流引擎节点和同步节点;所述主控设备包括:一个或多个处理器以及一个或多个存储计算机程序的存储器;所述一个或多个处理器,用于执行所述计算机程序,以用于:
利用分布式计算框架中的数据采集节点并行地从源数据库产生的日志数据中获取原始增量数据并输出至分布式计算框架中的消息管理节点;
利用分布式计算框架中的消息管理节点将所述原始增量数据分类存储至不同的消息队列中;
根据当前的业务需求,从不同的消息队列中确定目标消息队列,并利用分布式计算框架中的数据流引擎节点对目标消息队列中的原始增量数据进行实时分析处理,以获取目标增量数据;
利用分布式计算框架中的同步节点将目标增量数据实时同步至分布式文件系统中。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-5任一所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424863.4A CN110334070A (zh) | 2019-05-21 | 2019-05-21 | 数据处理方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424863.4A CN110334070A (zh) | 2019-05-21 | 2019-05-21 | 数据处理方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334070A true CN110334070A (zh) | 2019-10-15 |
Family
ID=68139107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910424863.4A Pending CN110334070A (zh) | 2019-05-21 | 2019-05-21 | 数据处理方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334070A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459986A (zh) * | 2020-04-07 | 2020-07-28 | 中国建设银行股份有限公司 | 数据计算系统及方法 |
CN111651522A (zh) * | 2020-05-27 | 2020-09-11 | 泰康保险集团股份有限公司 | 一种数据同步方法及装置 |
CN111737327A (zh) * | 2020-05-06 | 2020-10-02 | 广州明珞汽车装备有限公司 | 汽车生产动作数据采集方法、系统、装置和存储介质 |
CN112115112A (zh) * | 2020-08-10 | 2020-12-22 | 上海金仕达软件科技有限公司 | 日志信息处理方法、装置及电子设备 |
CN112231406A (zh) * | 2020-10-20 | 2021-01-15 | 浪潮云信息技术股份公司 | 一种分布式云数据集中处理方法 |
CN112256734A (zh) * | 2020-10-20 | 2021-01-22 | 中国农业银行股份有限公司 | 一种大数据处理方法、装置、系统、设备和存储介质 |
CN112734544A (zh) * | 2020-12-31 | 2021-04-30 | 四川新网银行股份有限公司 | 一种基于消息队列的分布式实时对账方法 |
CN112883049A (zh) * | 2019-11-29 | 2021-06-01 | 北京中关村科金技术有限公司 | 一种数据实时计算方法、装置和存储介质 |
CN112905668A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 基于分布式数据流处理引擎的数据库导数方法、设备和介质 |
CN113763045A (zh) * | 2021-09-06 | 2021-12-07 | 武汉博创非凡智能科技有限公司 | 一种基于多源数据融合的门店选址可视化分析方法及系统 |
CN116860898A (zh) * | 2023-09-05 | 2023-10-10 | 建信金融科技有限责任公司 | 一种数据处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005298A1 (en) * | 2005-06-22 | 2007-01-04 | International Business Machines Corporation | Monitoring method, system, and computer program based on severity and persistence of problems |
CN101794322A (zh) * | 2009-01-30 | 2010-08-04 | 新思科技有限公司 | 用于高效计算海量布局数据的增量式并发处理 |
CN102063336A (zh) * | 2011-01-12 | 2011-05-18 | 国网电力科学研究院 | 一种分布式计算多应用功能异步并发调度方法 |
CN104516989A (zh) * | 2015-01-26 | 2015-04-15 | 北京京东尚科信息技术有限公司 | 增量数据推送系统和方法 |
-
2019
- 2019-05-21 CN CN201910424863.4A patent/CN110334070A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005298A1 (en) * | 2005-06-22 | 2007-01-04 | International Business Machines Corporation | Monitoring method, system, and computer program based on severity and persistence of problems |
CN101794322A (zh) * | 2009-01-30 | 2010-08-04 | 新思科技有限公司 | 用于高效计算海量布局数据的增量式并发处理 |
CN102063336A (zh) * | 2011-01-12 | 2011-05-18 | 国网电力科学研究院 | 一种分布式计算多应用功能异步并发调度方法 |
CN104516989A (zh) * | 2015-01-26 | 2015-04-15 | 北京京东尚科信息技术有限公司 | 增量数据推送系统和方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883049A (zh) * | 2019-11-29 | 2021-06-01 | 北京中关村科金技术有限公司 | 一种数据实时计算方法、装置和存储介质 |
CN111459986A (zh) * | 2020-04-07 | 2020-07-28 | 中国建设银行股份有限公司 | 数据计算系统及方法 |
CN111737327A (zh) * | 2020-05-06 | 2020-10-02 | 广州明珞汽车装备有限公司 | 汽车生产动作数据采集方法、系统、装置和存储介质 |
CN111651522A (zh) * | 2020-05-27 | 2020-09-11 | 泰康保险集团股份有限公司 | 一种数据同步方法及装置 |
CN112115112A (zh) * | 2020-08-10 | 2020-12-22 | 上海金仕达软件科技有限公司 | 日志信息处理方法、装置及电子设备 |
CN112231406A (zh) * | 2020-10-20 | 2021-01-15 | 浪潮云信息技术股份公司 | 一种分布式云数据集中处理方法 |
CN112256734A (zh) * | 2020-10-20 | 2021-01-22 | 中国农业银行股份有限公司 | 一种大数据处理方法、装置、系统、设备和存储介质 |
CN112734544A (zh) * | 2020-12-31 | 2021-04-30 | 四川新网银行股份有限公司 | 一种基于消息队列的分布式实时对账方法 |
CN112905668A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 基于分布式数据流处理引擎的数据库导数方法、设备和介质 |
CN112905668B (zh) * | 2021-03-05 | 2023-06-06 | 北京中经惠众科技有限公司 | 基于分布式数据流处理引擎的数据库导数方法、设备和介质 |
CN113763045A (zh) * | 2021-09-06 | 2021-12-07 | 武汉博创非凡智能科技有限公司 | 一种基于多源数据融合的门店选址可视化分析方法及系统 |
CN113763045B (zh) * | 2021-09-06 | 2024-02-23 | 武汉博创非凡智能科技有限公司 | 一种基于多源数据融合的门店选址可视化分析方法及系统 |
CN116860898A (zh) * | 2023-09-05 | 2023-10-10 | 建信金融科技有限责任公司 | 一种数据处理方法和装置 |
CN116860898B (zh) * | 2023-09-05 | 2024-04-23 | 建信金融科技有限责任公司 | 一种数据处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334070A (zh) | 数据处理方法、系统、设备及存储介质 | |
CN109739929B (zh) | 数据同步方法、装置及系统 | |
US11755452B2 (en) | Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system | |
CN109254982B (zh) | 一种流数据处理方法、系统、装置及计算机可读存储介质 | |
US10831562B2 (en) | Method and system for operating a data center by reducing an amount of data to be processed | |
CN110175209A (zh) | 增量数据同步方法、系统、设备及存储介质 | |
CN116737775A (zh) | 分布式事件处理系统中的数据序列化 | |
US20150188969A1 (en) | Upload operation using multiple connections | |
CN109190025B (zh) | 信息监控方法、装置、系统和计算机可读存储介质 | |
KR20210005043A (ko) | 입력 및 출력 스키마 매핑 | |
CN110908658A (zh) | 一种“微服务+微应用”系统、数据处理方法及装置 | |
CN104699723A (zh) | 数据交换适配器、异构系统之间数据同步系统和方法 | |
CN108536778A (zh) | 一种数据应用共享平台及方法 | |
CN110769018A (zh) | 一种消息推送方法及装置 | |
CN103235811A (zh) | 一种数据存储方法及装置 | |
CN103023996A (zh) | 一种云数据存储系统 | |
WO2023040143A1 (zh) | 云服务的资源编排方法、装置、设备及存储介质 | |
JP2019527883A (ja) | データベースのデータ変更要求処理方法及び装置 | |
CN115576677A (zh) | 批量遥感数据快速处理的任务流程调度管理系统及方法 | |
CN114416868B (zh) | 一种数据同步方法、装置、设备及存储介质 | |
CN115114359A (zh) | 用户数据处理方法及装置 | |
CN112506887A (zh) | 车辆终端can总线数据处理方法及装置 | |
US8762533B2 (en) | Moving a project in a complex event processing cluster | |
CN116226067A (zh) | 日志管理方法、日志管理装置、处理器和日志平台 | |
CN114996134A (zh) | 容器化部署方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |