CN110069670A - 数据归集方法、装置、设备及计算机可读存储介质 - Google Patents

数据归集方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110069670A
CN110069670A CN201910365926.3A CN201910365926A CN110069670A CN 110069670 A CN110069670 A CN 110069670A CN 201910365926 A CN201910365926 A CN 201910365926A CN 110069670 A CN110069670 A CN 110069670A
Authority
CN
China
Prior art keywords
synchronized
data
business datum
distributed system
purpose data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910365926.3A
Other languages
English (en)
Inventor
彭荣杰
廖卫军
杨建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910365926.3A priority Critical patent/CN110069670A/zh
Publication of CN110069670A publication Critical patent/CN110069670A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据归集方法,该方法包括:实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;将所述待同步的业务数据加入至分布式系统的预设消息队列中;将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。本发明还公开了一种数据归集装置、设备和一种计算机可读存储介质。本发明能够提高业务数据归集到大数据平台的实效性。

Description

数据归集方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及数据归集方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
目前,大型商业银行的分布式系统中的业务数据一般归集到大数据平台统一存储,其归集方式为:隔日从分布式系统的每个子系统的数据库,一次性将昨日数据归集到大数据平台。这种方式的缺陷在于:实效性不高,即无法实现数据的准实时归集,导致无法满足某些实际业务场景(如账务查询)中对业务数据的实时查询要求。
发明内容
本发明的主要目的在于提出一种数据归集方法、装置、设备及计算机可读存储介质,旨在提高业务数据归集到大数据平台的实效性。
为实现上述目的,本发明提供一种数据归集方法,所述数据归集方法包括如下步骤:
实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;
将所述待同步的业务数据加入至分布式系统的预设消息队列中;
将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。
优选地,所述将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中的步骤包括:
将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中。
优选地,所述将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中的步骤之后,还包括:
检测所述待同步的业务数据同步至所述主库是否失败;
当所述待同步的业务数据同步至所述主库失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘,并将所述待同步的业务数据同步至所述大数据平台数据库的备库中。
优选地,所述将所述待同步的业务数据加入至分布式系统的预设消息队列中的步骤之后,还包括:
检测所述待同步的业务数据加入至所述预设消息队列是否失败;
当所述待同步的业务数据加入至所述预设消息队列失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘。
优选地,所述数据归集方法还包括:
定期检测所述分布式系统的本地磁盘中是否保存有待同步的业务数据;
当检测到所述分布式系统的本地磁盘中保存有待同步的业务数据时,将所述本地磁盘中保存的待同步的业务数据同步至所述大数据平台数据库的主库中。
优选地,所述数据归集方法还包括:
定期检测所述大数据平台数据库是否为可用状态,所述大数据平台数据库包括主库和备库;
当检测到所述主库和/或备库为不可用状态时,禁止所述分布式系统向处于不可用状态的所述主库和/或备库同步业务数据。
优选地,所述数据归集方法还包括:
在预定时间点,获取所述分布式系统在预设时长内产生的待同步的业务数据;
将所述分布式系统在预设时长内产生的待同步的业务数据同步至所述大数据平台数据库中。
此外,为实现上述目的,本发明还提供一种数据归集装置,所述数据归集装置包括:
第一获取模块,用于实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;
加入模块,用于将所述待同步的业务数据加入至分布式系统的预设消息队列中;
第一同步模块,用于将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。
优选地,所述第一同步模块,还用于将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中。
优选地,所述数据归集装置还包括:
第一检测模块,用于检测所述待同步的业务数据同步至所述主库是否失败;
第一处理模块,用于当所述待同步的业务数据同步至所述主库失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘,并将所述待同步的业务数据同步至所述大数据平台数据库的备库中。
优选地,所述数据归集装置还包括:
第二检测模块,用于检测所述待同步的业务数据加入至所述预设消息队列是否失败;
第二处理模块,用于当所述待同步的业务数据加入至所述预设消息队列失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘。
优选地,所述数据归集装置还包括:
第三检测模块,用于定期检测所述分布式系统的本地磁盘中是否保存有待同步的业务数据;
第三处理模块,用于当检测到所述分布式系统的本地磁盘中保存有待同步的业务数据时,将所述本地磁盘中保存的待同步的业务数据同步至所述大数据平台数据库的主库中。
优选地,所述数据归集装置还包括:
第四检测模块,用于定期检测所述大数据平台数据库是否为可用状态,所述大数据平台数据库包括主库和备库;
第四处理模块,用于当检测到所述主库和/或备库为不可用状态时,禁止所述分布式系统向处于不可用状态的所述主库和/或备库同步业务数据。
优选地,所述数据归集装置还包括:
第二获取模块,用于在预定时间点,获取所述分布式系统在预设时长内产生的待同步的业务数据;
第二同步模块,用于将所述分布式系统在预设时长内产生的待同步的业务数据同步至所述大数据平台数据库中。
此外,为实现上述目的,本发明还提供一种数据归集设备,所述数据归集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据归集程序,所述数据归集程序被所述处理器执行时实现如上所述的数据归集方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据归集程序,所述数据归集程序被处理器执行时实现如上所述的数据归集方法的步骤。
本发明实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;将所述待同步的业务数据加入至分布式系统的预设消息队列中;将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。本发明通过在分布式系统中设置消息队列,并将实时获取到的业务数据通过消息队列同步至大数库平台数据库,相比于现有技术中隔日归集的方式,本发明提高了业务数据归集到大数据平台的实效性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明数据归集方法第一实施例的流程示意图;
图3为本发明实施例中数据归集的数据流向示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例数据归集设备可以是PC机、服务器等设备。
如图1所示,该数据归集设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据归集程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据归集程序,并执行下述数据归集方法实施例中的操作。
基于上述硬件结构,提出本发明数据归集方法实施例。
参照图2,图2为本发明数据归集方法第一实施例的流程示意图,所述方法包括:
步骤S10,实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;
本实施例数据归集方法应用于数据归集设备,该数据归集设备上搭载有分布式系统,分布式系统是建立在网络之上的软件系统,在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,就好像是一个系统似的,系统拥有多种通用的物理和逻辑资源,可以动态的分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。
在本实施例中,分布式系统可以与金融机构(比如商业银行、证券公司、保险公司等)的业务系统对接,其中业务系统用于处理和记录用户的储蓄、转账、投资等各种金融业务,并生成对应的业务数据流。
该步骤中,分布式系统实时获取业务系统产生的业务数据流,并从业务数据流中获取待同步的业务数据。具体地,分布式系统可以包含多个分布式子系统,不同的分布式子系统与不同的业务系统对接,以获取不同的业务系统产生的业务数据流,然后,再从获取到的业务数据流中获取待同步的业务数据,其中,待同步的业务数据即需要存放至大数据平台数据库进行持久化保存,以供后续查询追溯的业务数据,其可以预先灵活设置,比如当业务系统为金融机构的业务系统时,待同步的业务数据可以包括贷款金额、放款时间、还款计划、转账用户、收账用户、转账金额等金融业务数据。
步骤S20,将所述待同步的业务数据加入至分布式系统的预设消息队列中;
在本实施例中,在分布式系统中预先设置有一个消息队列,当分布式系统获取到待同步的业务数据后,将待同步的业务数据加入至预设的消息队列中,需要说明的是,该消息队列为异步消息队列,将待同步的业务数据加入至该异步消息队列的过程不会影响业务系统的业务运行。
步骤S30,将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。
该步骤中,将上述加入至预设消息队列中的待同步的业务数据同步至预设的大数平台数据库中,为保证同步的实时性,可以设置一个消息队列触发器,消息队列触发器如果感知到消息队列中存在待同步的业务数据,那么从消息队列中获取待同步的业务数据并发送至预设的大数据平台数据库中进行存储。其中,大数据平台数据库可以是HBASE,HBASE是一个分布式的、面向列的开源数据库,适合于非结构化数据存储;此外大数据平台数据库还可以是其他类型的数据库,比如HIVE(一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的结构化语句查询功能)等,本实施例对此不作限定。
需要说明的是,为满足数据存储的可靠性要求,大数据平台数据库一般包括主库和与主库对应的备库,写入主库中的数据会自动同步到备库,以保证主库和备库数据的一致性。
在本实施例中,分布式系统实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;将所述待同步的业务数据加入至分布式系统的预设消息队列中;将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。本实施例通过在分布式系统中设置消息队列,并将实时获取到的业务数据通过消息队列同步至大数库平台数据库,相比于现有技术中隔日归集的方式,本发明提高了业务数据归集到大数据平台的实效性。
进一步地,基于本发明数据归集方法第一实施例,提出本发明数据归集方法第二实施例。
在本实施例中,上述步骤S30可以包括:将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中。
在本实施例中,大数据平台数据库包括主库和与主库对应的备库,在同步业务数据时,分布式系统可以将预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中,再由主库将写入的业务数据自动同步到备库,以使主库和备库中同时保存有待同步的业务数据。
进一步地,所述将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中的步骤之后,还可以包括:检测所述待同步的业务数据同步至所述主库是否失败;当所述待同步的业务数据同步至所述主库失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘,并将所述待同步的业务数据同步至所述大数据平台数据库的备库中。
由于网络波动、大数据平台数据库不可用等原因,将待同步的业务数据同步至主库可能会产生同步失败的情况,当分布式系统检测到待同步的业务数据同步至主库失败时,将该待同步的业务数据保存至自身本地磁盘,以防止数据丢失,同时将该待同步的业务数据同步至大数据平台数据库的备库中,以供在查询业务数据时可以从备库中查找,从而满足对业务数据的实时查询要求。
进一步地,上述步骤S20之后,还可以包括:检测所述待同步的业务数据加入至所述预设消息队列是否失败;当所述待同步的业务数据加入至所述预设消息队列失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘。
由于网络波动、预设消息队列存放空间不足等原因,将待同步的业务数据加入至消息队列也可能会产生加入失败的情况,当分布时系统检测到待同步的业务数据加入至预设消息队列失败时,也需要将该待同步的业务数据保存至自身本地磁盘,以防止数据丢失。
进一步地,所述数据归集方法还包括:定期检测所述分布式系统的本地磁盘中是否保存有待同步的业务数据;当检测到所述分布式系统的本地磁盘中保存有待同步的业务数据时,将所述本地磁盘中保存的待同步的业务数据同步至所述大数据平台数据库的主库中。
在本实施例中,可以定期(比如每隔5s检测一次)检测分布式系统的本地磁盘中是否保存有待同步的业务数据,当检测到本地磁盘中保存有待同步的业务数据时,将本地磁盘中保存的待同步的业务数据同步至大数据平台数据库的主库中,以供后续可以从主库中查询数据。需要说明的是,该过程中对于大文件可以将其分块后同步至主库,以保证重推数据不会造成主库压力过大。
参照图3,图3为本发明实施例中数据归集的数据流向示意图。以大数据平台数据库为HBASE为例,当分布式系统包括多个分布式子系统1~n时,各分布式子系统获取到待同步的业务数据(即图中分布式子系统数据流)后,将其加入异步消息队列中,并由异步消息队列同步至HBASE主库(即主HBASE)中,这一部分为正常数据流;当业务数据加入至异步消息队列失败,或者从异步消息队列同步至HBASE主库失败时,将对应的业务数据先保存至本地磁盘,后续再从本地磁盘同步至HBASE主库,这一部分为异常数据流;当业务数据从异步消息队列同步至HBASE主库失败时,将业务数据业务数据同步至HBASE备库(即备HBASE)中,这一部分为降级数据流。
通过上述将同步失败的业务数据自动重新同步至主库的方式,在满足对业务数据的准实时归集的前提下,提高了数据归集的可靠性。
进一步地,基于本发明数据归集方法第一、第二实施例,提出本发明数据归集方法第三实施例。
在本实施例中,所述数据归集方法还可以包括:定期检测所述大数据平台数据库是否为可用状态,所述大数据平台数据库包括主库和备库;当检测到所述主库和/或备库为不可用状态时,禁止所述分布式系统向处于不可用状态的所述主库和/或备库同步业务数据。
在实施例中,考虑到大数据平台数据库可能因为故障或其他原因导致不可用,如果继续向不可用的大数据平台数据库写入数据,将会加剧异常并加重分布式系统的负担。为此,分布式系统可以定期检测大数据平台数据库是否为可用状态,该检测包括检测大数据平台数据库的主库或备库,具体检测可以方式为:定期调用大数据平台数据库的查询接口固定查询某一预设参数,如果能够查询到说明大数据平台数据库可用,反之说明大数据平台数据库不可用。当检测到大数据平台数据库的主库和/或备库为不可用状态时,即禁止分布式系统向处于不可用状态的主库和/或备库同步业务数据。
通过上述方式,能够避免在大数据平台数据库的情况下,加剧异常并加重分布式系统的负担。进一步提高了分布式系统的可靠性。当后续检测到大数据平台数据库恢复正常后,可将其设置为可用态并重新向其同步业务数据。
进一步地,所述数据归集方法还可以包括:在预定时间点,获取所述分布式系统在预设时长内产生的待同步的业务数据;将所述分布式系统在预设时长内产生的待同步的业务数据同步至所述大数据平台数据库中。
比如,分布式系统可以在日终的时候,从各个分布式子系统的数据库抽取出上一日的业务数据,将其推送到大数据平台数据库,即进行一次全量归集,以再一次保证数据的完整性。
本发明还提供一种数据归集装置。所述数据归集装置包括:
第一获取模块,用于实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;
加入模块,用于将所述待同步的业务数据加入至分布式系统的预设消息队列中;
第一同步模块,用于将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。
进一步地,所述第一同步模块,还用于将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中。
进一步地,所述数据归集装置还包括:
第一检测模块,用于检测所述待同步的业务数据同步至所述主库是否失败;
第一处理模块,用于当所述待同步的业务数据同步至所述主库失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘,并将所述待同步的业务数据同步至所述大数据平台数据库的备库中。
进一步地,所述数据归集装置还包括:
第二检测模块,用于检测所述待同步的业务数据加入至所述预设消息队列是否失败;
第二处理模块,用于当所述待同步的业务数据加入至所述预设消息队列失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘。
进一步地,所述数据归集装置还包括:
第三检测模块,用于定期检测所述分布式系统的本地磁盘中是否保存有待同步的业务数据;
第三处理模块,用于当检测到所述分布式系统的本地磁盘中保存有待同步的业务数据时,将所述本地磁盘中保存的待同步的业务数据同步至所述大数据平台数据库的主库中。
进一步地,所述数据归集装置还包括:
第四检测模块,用于定期检测所述大数据平台数据库是否为可用状态,所述大数据平台数据库包括主库和备库;
第四处理模块,用于当检测到所述主库和/或备库为不可用状态时,禁止所述分布式系统向处于不可用状态的所述主库和/或备库同步业务数据。
进一步地,所述数据归集装置还包括:
第二获取模块,用于在预定时间点,获取所述分布式系统在预设时长内产生的待同步的业务数据;
第二同步模块,用于将所述分布式系统在预设时长内产生的待同步的业务数据同步至所述大数据平台数据库中。
上述各程序模块所执行的方法可参照本发明数据归集方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有数据归集程序,所述数据归集程序被处理器执行时实现如上所述的数据归集方法的步骤。
其中,在所述处理器上运行的数据归集程序被执行时所实现的方法可参照本发明数据归集方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (16)

1.一种数据归集方法,其特征在于,所述数据归集方法包括如下步骤:
实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;
将所述待同步的业务数据加入至分布式系统的预设消息队列中;
将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。
2.如权利要求1所述的数据归集方法,其特征在于,所述将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中的步骤包括:
将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中。
3.如权利要求2所述的数据归集方法,其特征在于,所述将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中的步骤之后,还包括:
检测所述待同步的业务数据同步至所述主库是否失败;
当所述待同步的业务数据同步至所述主库失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘,并将所述待同步的业务数据同步至所述大数据平台数据库的备库中。
4.如权利要求1所述的数据归集方法,其特征在于,所述将所述待同步的业务数据加入至分布式系统的预设消息队列中的步骤之后,还包括:
检测所述待同步的业务数据加入至所述预设消息队列是否失败;
当所述待同步的业务数据加入至所述预设消息队列失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘。
5.如权利要求3或4所述的数据归集方法,其特征在于,所述数据归集方法还包括:
定期检测所述分布式系统的本地磁盘中是否保存有待同步的业务数据;
当检测到所述分布式系统的本地磁盘中保存有待同步的业务数据时,将所述本地磁盘中保存的待同步的业务数据同步至所述大数据平台数据库的主库中。
6.如权利要求1所述的数据归集方法,其特征在于,所述数据归集方法还包括:
定期检测所述大数据平台数据库是否为可用状态,所述大数据平台数据库包括主库和备库;
当检测到所述主库和/或备库为不可用状态时,禁止所述分布式系统向处于不可用状态的所述主库和/或备库同步业务数据。
7.如权利要求1所述的数据归集方法,其特征在于,所述数据归集方法还包括:
在预定时间点,获取所述分布式系统在预设时长内产生的待同步的业务数据;
将所述分布式系统在预设时长内产生的待同步的业务数据同步至所述大数据平台数据库中。
8.一种数据归集装置,其特征在于,所述数据归集装置包括:
第一获取模块,用于实时获取业务系统产生的业务数据流,从所述业务数据流中提取待同步的业务数据;
加入模块,用于将所述待同步的业务数据加入至分布式系统的预设消息队列中;
第一同步模块,用于将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库中。
9.如权利要求8所述的数据归集装置,其特征在于,
所述第一同步模块,还用于将所述预设消息队列中待同步的业务数据同步至预设的大数据平台数据库的主库中。
10.如权利要求9所述的数据归集装置,其特征在于,所述数据归集装置还包括:
第一检测模块,用于检测所述待同步的业务数据同步至所述主库是否失败;
第一处理模块,用于当所述待同步的业务数据同步至所述主库失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘,并将所述待同步的业务数据同步至所述大数据平台数据库的备库中。
11.如权利要求8所述的数据归集装置,其特征在于,所述数据归集装置还包括:
第二检测模块,用于检测所述待同步的业务数据加入至所述预设消息队列是否失败;
第二处理模块,用于当所述待同步的业务数据加入至所述预设消息队列失败时,将所述待同步的业务数据保存至所述分布式系统的本地磁盘。
12.如权利要求10或11所述的数据归集装置,其特征在于,所述数据归集装置还包括:
第三检测模块,用于定期检测所述分布式系统的本地磁盘中是否保存有待同步的业务数据;
第三处理模块,用于当检测到所述分布式系统的本地磁盘中保存有待同步的业务数据时,将所述本地磁盘中保存的待同步的业务数据同步至所述大数据平台数据库的主库中。
13.如权利要求8所述的数据归集装置,其特征在于,所述数据归集装置还包括:
第四检测模块,用于定期检测所述大数据平台数据库是否为可用状态,所述大数据平台数据库包括主库和备库;
第四处理模块,用于当检测到所述主库和/或备库为不可用状态时,禁止所述分布式系统向处于不可用状态的所述主库和/或备库同步业务数据。
14.如权利要求8所述的数据归集装置,其特征在于,所述数据归集装置还包括:
第二获取模块,用于在预定时间点,获取所述分布式系统在预设时长内产生的待同步的业务数据;
第二同步模块,用于将所述分布式系统在预设时长内产生的待同步的业务数据同步至所述大数据平台数据库中。
15.一种数据归集设备,其特征在于,所述数据归集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据归集程序,所述数据归集程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据归集方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据归集程序,所述数据归集程序被处理器执行时实现如权利要求1至7中任一项所述的数据归集方法的步骤。
CN201910365926.3A 2019-04-30 2019-04-30 数据归集方法、装置、设备及计算机可读存储介质 Pending CN110069670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910365926.3A CN110069670A (zh) 2019-04-30 2019-04-30 数据归集方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910365926.3A CN110069670A (zh) 2019-04-30 2019-04-30 数据归集方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110069670A true CN110069670A (zh) 2019-07-30

Family

ID=67369830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910365926.3A Pending CN110069670A (zh) 2019-04-30 2019-04-30 数据归集方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110069670A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599080A (zh) * 2019-08-05 2019-12-20 江苏苏宁物流有限公司 业务数据分发处理方法、装置、计算机设备和存储介质
CN111046407A (zh) * 2019-12-13 2020-04-21 山东众阳健康科技集团有限公司 一种基于区块链的数据存储系统
CN111339186A (zh) * 2020-02-19 2020-06-26 平安科技(深圳)有限公司 工作流引擎数据同步方法、装置、介质及电子设备
CN111538789A (zh) * 2020-04-27 2020-08-14 咪咕文化科技有限公司 数据同步方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599080A (zh) * 2019-08-05 2019-12-20 江苏苏宁物流有限公司 业务数据分发处理方法、装置、计算机设备和存储介质
CN111046407A (zh) * 2019-12-13 2020-04-21 山东众阳健康科技集团有限公司 一种基于区块链的数据存储系统
CN111339186A (zh) * 2020-02-19 2020-06-26 平安科技(深圳)有限公司 工作流引擎数据同步方法、装置、介质及电子设备
CN111339186B (zh) * 2020-02-19 2022-09-30 平安科技(深圳)有限公司 工作流引擎数据同步方法、装置、介质及电子设备
CN111538789A (zh) * 2020-04-27 2020-08-14 咪咕文化科技有限公司 数据同步方法、装置、电子设备及存储介质
CN111538789B (zh) * 2020-04-27 2023-08-15 咪咕文化科技有限公司 数据同步方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110069670A (zh) 数据归集方法、装置、设备及计算机可读存储介质
CN101449269B (zh) 自动优先恢复
CN109284251A (zh) 日志管理方法、装置、计算机设备以及存储介质
CN102411639B (zh) 元数据的多副本存储管理方法和系统
CN102833281B (zh) 一种分布式自增计数的实现方法、装置及系统
CN102156727A (zh) 一种采用双指纹哈希校验的重复数据删除方法
CN110866008B (zh) 一种数据处理方法、装置、系统
US10693816B2 (en) Communication methods and systems, electronic devices, and computer clusters
CN110784498B (zh) 一种个性化数据容灾方法及装置
CN102521712A (zh) 一种流程实例数据处理方法和装置
CN104536869A (zh) 移动终端及其资源管理方法
CN112559300B (zh) 一种故障原因确定系统、方法及装置
CN108255994A (zh) 一种基于数据库快照的数据库版本管理方法
CN113014608B (zh) 一种流量分发控制方法、装置、电子设备及存储介质
CN102929619A (zh) 一种跨硬件平台的过程自动化软件开发系统
CN106708869B (zh) 一种群组数据处理的方法及装置
CN104978279A (zh) 一种基于数据块的持续数据保护方法
CN115456634A (zh) 数据处理方法、装置、电子设备及存储介质
CN109766313A (zh) 地质项目数据处理方法、装置及计算机设备
US10360234B2 (en) Recursive extractor framework for forensics and electronic discovery
CN111274255B (zh) 业务数据监控方法及系统、监控架构、设备、存储介质
CN106168919A (zh) 一种数据库备份方法、装置及系统
CN111930559A (zh) 灾备切换方法、系统、装置和存储介质
CN104899118A (zh) 一种对删除的隐私数据的恢复方法及系统
CN114117077B (zh) 运维知识图谱构建及运维的方法、装置及计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination