CN111666340A - 基于大数据的同步数据校对方法、装置和计算机设备 - Google Patents

基于大数据的同步数据校对方法、装置和计算机设备 Download PDF

Info

Publication number
CN111666340A
CN111666340A CN202010460112.0A CN202010460112A CN111666340A CN 111666340 A CN111666340 A CN 111666340A CN 202010460112 A CN202010460112 A CN 202010460112A CN 111666340 A CN111666340 A CN 111666340A
Authority
CN
China
Prior art keywords
data
target
block
verified
proofreading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010460112.0A
Other languages
English (en)
Other versions
CN111666340B (zh
Inventor
钟泽峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010460112.0A priority Critical patent/CN111666340B/zh
Publication of CN111666340A publication Critical patent/CN111666340A/zh
Application granted granted Critical
Publication of CN111666340B publication Critical patent/CN111666340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据,揭露一种基于大数据的同步数据校对方法、装置、计算机设备和存储介质。所述方法包括:根据预设时间间隔,触发目标数据获取指令;根据目标数据获取指令,调用大数据的计算引擎向源数据库获取预设时间间隔内生成的第一目标数据;通过将第一目标数据写入目标数据库对应的文件夹中,并在文件夹的名称中标识第一目标数据的数据获取时间,形成第一目标数据对应数据块;当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。此外,本发明还涉及区块链技术,第一目标数据可存储于区块链中。采用本方法提高了同步数据校对工作效率。

Description

基于大数据的同步数据校对方法、装置和计算机设备
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种基于大数据的同步数据校对方法、装置、计算机设备和存储介质。
背景技术
随着互联网的发展,每天都有大量的原始数据产生,如一些电子交易订单,会产生大量的交易数据,一般都是采用业务系统生成数据保存在自身的系统数据库以外,还会将数据同步到目标数据库中,以备后续业务使用。
同步数据时,需要保证同步数据的质量,而目前的对同步数据的校对通常是查询系统数据库和目标数据库的数据总量,校对出总数不对,还需要逐一对比是哪里的数据出了问题。随着数据量越来越大,同时要核对查询系统数据库和目标数据库的数据总量,逐一找到存在数据差异的地方,导致同步数据校对工作效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高同步数据校对工作效率的基于大数据的同步数据校对方法、装置、计算机设备和存储介质。
一种基于大数据的同步数据校对方法,所述方法包括:
根据预设时间间隔,触发目标数据获取指令;
根据所述目标数据获取指令,调用大数据的计算引擎向源数据库获取所述预设时间间隔内生成的第一目标数据;
通过将所述第一目标数据写入目标数据库对应的文件夹中,并在所述文件夹的名称中标识所述第一目标数据的数据获取时间,形成所述第一目标数据对应数据块;
当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
在其中一个实施例中,当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果的步骤,包括:
当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块;
获取所述待校验的数据块的数据发生时间段和第一数据总数;
根据所述待校验的数据块的所述数据发生时间段,获取所述待校验的数据块在所述源数据库中对应的第二数据总数;
根据所述第一数据总数和所述第二数据总数进行同步数据校对,获得所述待校验的数据块的同步数据校对结果。
在其中一个实施例中,所述方法还包括:
当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取所述同步数据异常的数据块的数据获取时间;
根据所述数据获取时间,生成数据获取指令;
根据所述数据获取指令,调用大数据的计算引擎向源数据库获取所述数据获取时间对应的第二目标数据,其中,所述源数据库是区块链网络中的一个节点;
根据所述第二目标数据对所述数据块内的目标数据进行更新。
在其中一个实施例中,所述获取所述待校验的数据块的数据发生时间段和第一数据总数的步骤,包括:
获取所述待校验的数据块的目标数据;
通过数据总数计算函数对所述待校验的数据块的目标数据进行计算,获得所述待校验的数据块的第一数据总数;
对所述待校验的数据块的目标数据的数据发生时间进行分析,获得所述待校验的数据块的数据发生时间段。
在其中一个实施例中,所述当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取所述同步数据异常的数据块的数据获取时间的步骤,包括:
当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,从所述数据块对应的文件夹名称中,获取所述同步数据异常的数据块的数据获取时间。
在其中一个实施例中,所述根据所述第二目标数据对所述数据块内的目标数据进行更新的步骤,包括:
删除所述数据块对应文件夹中的目标数据;
将所述第二目标数据写入所述数据块对应文件夹中,完成所述数据块的更新。
在其中一个实施例中,所述根据所述数据获取指令,调用大数据的计算引擎向源数据库获取所述数据获取时间对应的第二目标数据的步骤,包括:
根据所述数据获取指令,并行调用大数据的计算引擎向源数据库获取所述数据获取时间对应的第二目标数据。
一种基于大数据的同步数据校对装置,所述装置包括:
指令触发模块,用于根据预设时间间隔,触发目标数据获取指令;
数据获取模块,用于根据所述目标数据获取指令,调用大数据的计算引擎向源数据库获取所述预设时间间隔内生成的第一目标数据;
数据写入模块,用于通过将所述第一目标数据写入目标数据库对应的文件夹中,并在所述文件夹的名称中标识所述第一目标数据的数据获取时间,形成所述第一目标数据对应数据块;
数据校对模块,用于当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。
上述基于大数据的同步数据校对方法、装置、计算机设备和存储介质,通过将预设时间间隔内获取到的第一目标数据,写入目标数据库对应的文件夹中,并在文件夹的名称中标识第一目标数据的数据获取时间,形成第一目标数据对应数据块的方式,将同步的数据根据数据获取时间形成数据分区,将大量的数据分为各个数据块进行存储,并建立对应关系,当需要进行数据校对时,触发数据校对指令,确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行校对,获得同步数据校对结果,可以精确定位出数据同步异常的数据分区,提高了同步数据校对工作效率。
附图说明
图1为一个实施例中基于大数据的同步数据校对方法的应用环境图;
图2为一个实施例中基于大数据的同步数据校对方法的流程示意图;
图3为一个实施例中基于大数据的同步数据校对方法其中一个步骤的流程示意图;
图4为一个实施例中基于大数据的同步数据校对装置的结构框图;
图5为另一个实施例中基于大数据的同步数据校对装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于大数据的同步数据校对方法,可以应用于如图1所示的应用环境中。其中,源数据库对应的服务器102通过网络与提供大数据计算服务的服务器104进行通信。提供大数据计算服务的服务器104根据预设时间间隔,触发目标数据获取指令;根据所述目标数据获取指令,调用大数据的计算引擎向源数据库对应的服务器102获取所述预设时间间隔内生成的第一目标数据;通过将所述第一目标数据写入目标数据库对应的文件夹中,并在所述文件夹的名称中标识所述第一目标数据的数据获取时间,形成所述第一目标数据对应数据块,当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。其中,源数据库对应的服务器102和提供大数据计算服务的服务器104可以用独立的服务器、云服务或者是多个服务器组成的服务器集群来实现,都可以作为区块链网络中的一个节点。
在一个实施例中,如图2所示,提供了一种基于大数据的同步数据校对方法,以该方法应用于图1中的提供大数据计算服务的服务器为例进行说明,包括以下步骤:
步骤S220,根据预设时间间隔,触发目标数据获取指令。
其中,预设时间间隔可以根据数据分区的大小确定,如:每1小时的数据为一个数据分区,则预设时间间隔则为1小时,预设时间间隔可以1小时、24小时等等。目标数据获取指令触发进行目标数据获取的各个步骤。
步骤S240,根据目标数据获取指令,调用大数据的计算引擎向源数据库获取预设时间间隔内生成的第一目标数据。
其中,大数据的计算引擎可以是spark,spark是一个集群计算的框架,采用多线程来执行任务。源数据库可以是业务处理系统对应的数据库,如:oracle数据库(OracleDatabase),该业务处理系统和对应的数据库可以是区块链网络中的一个节点。第一目标数据是业务处理系统在业务处理系统产生的业务数据,需要强调的是,为进一步保证上述业务数据的私密和安全性,上述业务数据还可以存储于一区块链的节点中。具体地,通过目标数据获取指令调用spark向业务处理系统对应的数据库获取到当前预设时间间隔内产生的业务数据。第一目标数据中可以有多项数据,第一目标数据的项数根据源数据库的业务处理系统在预设时间间隔内生成的业务数据确定。
步骤S260,通过将第一目标数据写入目标数据库对应的文件夹中,并在文件夹的名称中标识第一目标数据的数据获取时间,形成第一目标数据对应数据块。
其中,目标数据库是提供大数据计算服务的数据库,可以是区块链网络中的一个节点,如:hive(数据仓库分析系统)。每获取一次第一目标数据,建立一个文件夹存储第一目标数据,一个文件夹对应一个分区,即一个数据块。数据获取时间是加载该第一目标数据的加载时间,即该第一目标数据从源数据库迁到目标数据库的时间。标识第一目标数据的数据获取时间的方式,可以是以数据获取时间进行命名。具体地,spark从源数据库获取到第一目标数据后,根据第一目标数据的业务产生时间写到另一个年/月/日/时分区里面在分区文件夹中,分区文件夹的名称里面保留数据获取时间的值,然后数据就从数据获取时间的分区迁移到数据发生时间的分区。如下表所示的数据:
源数据库中的第一目标数据:
订单号 订单时间 订单人 订单金额(RMB)
L0153546546876 2020-01-29 11:20:00 王XX 168.0
该第一目标数据从源数据库迁到目标数据库后:
Figure BDA0002510680290000061
步骤S280,当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
其中,触发数据校对指令可以是用户预先设定触发数据校对指令的时间间隔,定时触发数据校对指令,也可以是用户基于启动数据校对任务的接口手动触发数据校对指令。数据校对指令中携带了确定目标数据库中待校验的数据块的规则,如数据校对指令中表明了对某个时间段内的存储的数据块进行数据校对,或者是对目标数据库中的所有数据块进行数据校对,或者是指定对某个数据块进行数据校对。待校验的数据块可以是某个时间段内的存储的所有数据块,也可以是目标数据库中的所有数据块。待校验的数据块的各个数块各自为一个数据分区,通过以每一个数据分区为一个单独的校对任务,分别对待校验的数据块进行同步数据校对,生成校对日志,即同步数据校对结果,校对日志中将校对的过程数据展示出来,便于跟踪校验程序是否正确运行,包括目标数据库该数据块的数据量,对应源数据库的数据量。
上述基于大数据的同步数据校对方法中,在进行数据同步时,通过将预设时间间隔内获取到的第一目标数据,写入目标数据库对应的文件夹中,并在文件夹的名称中标识第一目标数据的数据获取时间,形成第一目标数据对应数据块的方式,将同步的数据根据数据获取时间形成数据分区,将大量的数据分为各个数据块进行存储,并建立对应关系,当需要进行数据校对时,触发数据校对指令,确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行校对,获得同步数据校对结果,可以精确定位出数据同步异常的数据分区,提高了同步数据校对工作效率。
在一个实施例中,当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果的步骤,包括步骤S282至步骤S288:
步骤S282,当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块。
其中,数据校对指令中携带了确定目标数据库中待校验的数据块的规则,当数据校对指令中表明了对某个时间段内的存储的数据块进行数据校对时,待校验的数据块为该时间段内的存储的所有数据块;当数据校对指令中表明了对目标数据库中的所有数据块进行数据校对时,待校验的数据块为目标数据库中的所有数据块;当数据校对指令中表明了指定对某个数据块进行数据校对时,待校验的数据块为该数据块。
步骤S284,获取待校验的数据块对应的数据发生时间段和第一数据总数。
其中,数据发生时间段是待校验的数据块中对应的业务数据在源数据库产生的时间段。如:待校验的数据块是在2020年01月29日12:00:00向源数据库获取2020年01月29日11:00:00-2020年01月29日12:00:00内产生的业务数据,2020年01月29日12:00:00为待校验的数据块的数据获取时间,2020年01月29日11:00:00-2020年01月29日12:00:00为待校验的数据块对应的数据发生时间段。第一数据总数指的是待校验的数据块中的数据量。
步骤S286,根据待校验的数据块的数据发生时间段,获取待校验的数据块在源数据库中对应的第二数据总数。
其中,待校验的数据块在源数据库中对应的第二数据总数,是源数据库在数据发生时间段产生的业务数据的数据量。可以通过根据待校验的数据块的数据发生时间段,向源数据库发送数据总数获取请求,由源数据库反馈第二数据总数,获取到待校验的数据块在源数据库中对应的第二数据总数。
步骤S288,根据第一数据总数和第二数据总数进行同步数据校对,获得待校验的数据块的同步数据校对结果。
其中,待校验的数据块的同步数据校对结果中包括待校验的数据块第一数据总数和第二数据总数。第一数据总数和第二数据总数一致的待校验的数据块,则说明在同步该数据块时,没有发生异常,第一数据总数和第二数据总数不一致的待校验的数据块,则说明在同步该数据块时,发生了异常。通过基于各个数据块分别进行同步数据校对,可以精确定位出数据同步异常的数据分区,提高了同步数据校对工作效率。
在一个实施例中,基于大数据的同步数据校对还包括:当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取同步数据异常的数据块的数据获取时间;根据数据获取时间,生成数据获取指令;根据数据获取指令,调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据,其中,源数据库是区块链网络中的一个节点;根据第二目标数据对数据块内的目标数据进行更新。
其中,存在第一数据总数和第二数据总数不一致的待校验的数据块,即为存在同步数据异常的数据块。同步数据异常的数据块的数据获取时间可以通过同步数据异常的数据块的文件夹的名称获取。数据获取指令中携带了数据获取时间,根据数据获取时间重新执行该数据获取时间的数据获取任务,重新获取该数据获取时间对应的数据发生时间段内源数据库产生的业务数据,即第二目标数据。将第二目标数据写入该同步数据异常的数据块中,替代该同步数据异常的数据块中之前的数据。通过对同步数据异常的数据块进行更新,可以提高更正同步异常数据的工作效率。
在一个实施例中,获取待校验的数据块的数据发生时间段和第一数据总数的步骤,包括:获取待校验的数据块的目标数据;通过数据总数计算函数对待校验的数据块的目标数据进行计算,获得待校验的数据块的第一数据总数;对待校验的数据块的目标数据的数据发生时间进行分析,获得待校验的数据块的数据发生时间段。
其中,待校验的数据块的目标数据是待校验的数据块中存储的数据。数据总数计算函数是用于计算各分区的数据总数的代码,可以通过相应的指令控制执行该数据总数计算函数。待校验的数据块的第一数据总数是待校验的数据块中存储的数据量。待校验的数据块的数据发生时间段,可以是根据目标数据中的数据信息提取出目标数据的产生时间,获得待校验的数据块的数据发生时间。通过数据总数计算函数自动获取第一数据总数,可以提高对待校验的数据块进行同步数据校对的工作效率。
在一个实施例中,当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取同步数据异常的数据块的数据获取时间的步骤,包括:当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,从数据块对应的文件夹名称中,获取同步数据异常的数据块的数据获取时间。
其中,文件夹名称中标记了该同步数据异常的数据块对应的数据获取时间,通过打印该同步数据异常的数据块对应的文件夹名称,获取同步数据异常的数据块的数据获取时间。通过从文件夹名称中获取同步数据异常的数据块的数据获取时间,可以准确的确定该同步数据异常的数据块对应的数据获取时间。
在一个实施例中,根据第二目标数据对数据块内的目标数据进行更新的步骤,包括:删除数据块对应文件夹中的目标数据;将第二目标数据写入数据块对应文件夹中,完成数据块的更新。
其中,该数据块为同步数据异常的数据块。删除数据块对应文件夹中的目标数据即清空数据块对应文件夹中的数据,再将第二目标数据写入数据块对应文件夹中,实现对同步数据异常的数据块的重新拉取进行存储。通过自动对同步数据异常的数据块进行更新,提高了数据同步的工作效率。
在一个实施例中,根据数据获取指令,调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据的步骤,包括:根据数据获取指令,并行调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据。
其中,并行调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据,是在调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据的同时,不影响根据目标数据获取指令,调用大数据的计算引擎向源数据库获取预设时间间隔内生成的第一目标数据。通过各自分区下各自运行各自分区的数据拉取,提高了数据同步的工作效率。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于大数据的同步数据校对装置,包括:指令触发模块310、数据获取模块320、数据写入模块330和数据校对模块340,其中:
指令触发模块310,用于根据预设时间间隔,触发目标数据获取指令;
数据获取模块320,用于根据所述目标数据获取指令,调用大数据的计算引擎向源数据库获取所述预设时间间隔内生成的第一目标数据;
数据写入模块330,用于通过将所述第一目标数据写入目标数据库对应的文件夹中,并在所述文件夹的名称中标识所述第一目标数据的数据获取时间,形成所述第一目标数据对应数据块;
数据校对模块340,用于当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
在一个实施例中,数据校对模块340还用于:当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块;获取待校验的数据块的数据发生时间段和第一数据总数;根据待校验的数据块的数据发生时间段,获取待校验的数据块在源数据库中对应的第二数据总数;根据第一数据总数和第二数据总数进行同步数据校对,获得待校验的数据块的同步数据校对结果。
请参阅图5,在一个实施例中,基于大数据的同步数据校对装置还包括数据更新模块350:用于当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取同步数据异常的数据块的数据获取时间;根据数据获取时间,生成数据获取指令;根据数据获取指令,调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据,其中,源数据库是区块链网络中的一个节点;根据第二目标数据对数据块内的目标数据进行更新。
在一个实施例中,数据校对模块340还用于:获取待校验的数据块的目标数据;通过数据总数计算函数对待校验的数据块的目标数据进行计算,获得待校验的数据块的第一数据总数;对待校验的数据块的目标数据的数据发生时间进行分析,获得待校验的数据块的数据发生时间段。
在一个实施例中,数据更新模块350还用于:当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,从数据块对应的文件夹名称中,获取同步数据异常的数据块的数据获取时间。
在一个实施例中数据更新模块350还用于:删除数据块对应文件夹中的目标数据;将第二目标数据写入数据块对应文件夹中,完成数据块的更新。
在一个实施例中,数据更新模块350还用于:根据数据获取指令,并行调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据。
关于基于大数据的同步数据校对装置的具体限定可以参见上文中对于基于大数据的同步数据校对方法的限定,在此不再赘述。上述基于大数据的同步数据校对装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的同步数据校对方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据预设时间间隔,触发目标数据获取指令;根据目标数据获取指令,调用大数据的计算引擎向源数据库获取预设时间间隔内生成的第一目标数据;通过将第一目标数据写入目标数据库对应的文件夹中,并在文件夹的名称中标识第一目标数据的数据获取时间,形成第一目标数据对应数据块;当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块;获取待校验的数据块的数据发生时间段和第一数据总数;根据待校验的数据块的数据发生时间段,获取待校验的数据块在源数据库中对应的第二数据总数;根据第一数据总数和第二数据总数进行同步数据校对,获得待校验的数据块的同步数据校对结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取同步数据异常的数据块的数据获取时间;根据数据获取时间,生成数据获取指令;根据数据获取指令,调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据,其中,源数据库是区块链网络中的一个节点;根据第二目标数据对数据块内的目标数据进行更新。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待校验的数据块的目标数据;通过数据总数计算函数对待校验的数据块的目标数据进行计算,获得待校验的数据块的第一数据总数;对待校验的数据块的目标数据的数据发生时间进行分析,获得待校验的数据块的数据发生时间段。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,从数据块对应的文件夹名称中,获取同步数据异常的数据块的数据获取时间。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:删除数据块对应文件夹中的目标数据;将第二目标数据写入数据块对应文件夹中,完成数据块的更新。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据数据获取指令,并行调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据预设时间间隔,触发目标数据获取指令;根据目标数据获取指令,调用大数据的计算引擎向源数据库获取预设时间间隔内生成的第一目标数据;通过将第一目标数据写入目标数据库对应的文件夹中,并在文件夹的名称中标识第一目标数据的数据获取时间,形成第一目标数据对应数据块;当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当数据校对指令被触发时,根据数据校对指令确定目标数据库中待校验的数据块;获取待校验的数据块的数据发生时间段和第一数据总数;根据待校验的数据块的数据发生时间段,获取待校验的数据块在源数据库中对应的第二数据总数;根据第一数据总数和第二数据总数进行同步数据校对,获得待校验的数据块的同步数据校对结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取同步数据异常的数据块的数据获取时间;根据数据获取时间,生成数据获取指令;根据数据获取指令,调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据,其中,源数据库是区块链网络中的一个节点;根据第二目标数据对数据块内的目标数据进行更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待校验的数据块的目标数据;通过数据总数计算函数对待校验的数据块的目标数据进行计算,获得待校验的数据块的第一数据总数;对待校验的数据块的目标数据的数据发生时间进行分析,获得待校验的数据块的数据发生时间段。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,从数据块对应的文件夹名称中,获取同步数据异常的数据块的数据获取时间。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:删除数据块对应文件夹中的目标数据;将第二目标数据写入数据块对应文件夹中,完成数据块的更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据数据获取指令,并行调用大数据的计算引擎向源数据库获取数据获取时间对应的第二目标数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于大数据的同步数据校对方法,其特征在于,所述方法包括:
根据预设时间间隔,触发目标数据获取指令;
根据所述目标数据获取指令,调用大数据的计算引擎向源数据库获取所述预设时间间隔内生成的第一目标数据;
通过将所述第一目标数据写入目标数据库对应的文件夹中,并在所述文件夹的名称中标识所述第一目标数据的数据获取时间,形成所述第一目标数据对应数据块;
当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
2.根据权利要求1所述的方法,其特征在于,当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果的步骤,包括:
当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块;
获取所述待校验的数据块的数据发生时间段和第一数据总数;
根据所述待校验的数据块的所述数据发生时间段,获取所述待校验的数据块在所述源数据库中对应的第二数据总数;
根据所述第一数据总数和所述第二数据总数进行同步数据校对,获得所述待校验的数据块的同步数据校对结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取所述同步数据异常的数据块的数据获取时间;
根据所述数据获取时间,生成数据获取指令;
根据所述数据获取指令,调用大数据的计算引擎向源数据库获取所述数据获取时间对应的第二目标数据,其中,所述源数据库是区块链网络中的一个节点;
根据所述第二目标数据对所述数据块内的目标数据进行更新。
4.根据权利要求2所述的方法,其特征在于,所述获取所述待校验的数据块的数据发生时间段和第一数据总数的步骤,包括:
获取所述待校验的数据块的目标数据;
通过数据总数计算函数对所述待校验的数据块的目标数据进行计算,获得所述待校验的数据块的第一数据总数;
对所述待校验的数据块的目标数据的数据发生时间进行分析,获得所述待校验的数据块的数据发生时间段。
5.根据权利要求3所述的方法,其特征在于,所述当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,获取所述同步数据异常的数据块的数据获取时间的步骤,包括:
当所述待校验的数据块的同步数据校对结果中,存在同步数据异常的数据块时,从所述数据块对应的文件夹名称中,获取所述同步数据异常的数据块的数据获取时间。
6.根据权利要求3所述的方法,其特征在于,所述根据所述第二目标数据对所述数据块内的目标数据进行更新的步骤,包括:
删除所述数据块对应文件夹中的目标数据;
将所述第二目标数据写入所述数据块对应文件夹中,完成所述数据块的更新。
7.根据权利要求3所述的方法,其特征在于,所述根据所述数据获取指令,调用大数据的计算引擎向源数据库获取所述数据获取时间对应的第二目标数据的步骤,包括:
根据所述数据获取指令,并行调用大数据的计算引擎向源数据库获取所述数据获取时间对应的第二目标数据。
8.一种基于大数据的同步数据校对装置,其特征在于,所述装置包括:
指令触发模块,用于根据预设时间间隔,触发目标数据获取指令;
数据获取模块,用于根据所述目标数据获取指令,调用大数据的计算引擎向源数据库获取所述预设时间间隔内生成的第一目标数据;
数据写入模块,用于通过将所述第一目标数据写入目标数据库对应的文件夹中,并在所述文件夹的名称中标识所述第一目标数据的数据获取时间,形成所述第一目标数据对应数据块;
数据校对模块,用于当数据校对指令被触发时,根据所述数据校对指令确定所述目标数据库中待校验的数据块,基于待校验的数据块的数据分区进行同步数据校对,获得同步数据校对结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010460112.0A 2020-05-27 2020-05-27 基于大数据的同步数据校对方法、装置和计算机设备 Active CN111666340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010460112.0A CN111666340B (zh) 2020-05-27 2020-05-27 基于大数据的同步数据校对方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010460112.0A CN111666340B (zh) 2020-05-27 2020-05-27 基于大数据的同步数据校对方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111666340A true CN111666340A (zh) 2020-09-15
CN111666340B CN111666340B (zh) 2023-10-27

Family

ID=72384798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010460112.0A Active CN111666340B (zh) 2020-05-27 2020-05-27 基于大数据的同步数据校对方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111666340B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221245A (zh) * 2022-07-14 2022-10-21 广州纳指数据智能科技有限公司 智能数据采集同步方法、系统及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119547A1 (zh) * 2011-03-07 2012-09-13 中国移动通信有限公司 一种数据同步的方法、系统及设备
CN108021580A (zh) * 2016-11-04 2018-05-11 广东亿迅科技有限公司 一种数据同步更新方法及其系统
CN109032824A (zh) * 2018-05-31 2018-12-18 康键信息技术(深圳)有限公司 数据库校验方法、装置、计算机设备和存储介质
CN109543942A (zh) * 2018-10-16 2019-03-29 平安普惠企业管理有限公司 数据校验方法、装置、计算机设备和存储介质
CN110287724A (zh) * 2019-05-23 2019-09-27 顺丰科技有限公司 数据存储及验证方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119547A1 (zh) * 2011-03-07 2012-09-13 中国移动通信有限公司 一种数据同步的方法、系统及设备
CN108021580A (zh) * 2016-11-04 2018-05-11 广东亿迅科技有限公司 一种数据同步更新方法及其系统
CN109032824A (zh) * 2018-05-31 2018-12-18 康键信息技术(深圳)有限公司 数据库校验方法、装置、计算机设备和存储介质
CN109543942A (zh) * 2018-10-16 2019-03-29 平安普惠企业管理有限公司 数据校验方法、装置、计算机设备和存储介质
CN110287724A (zh) * 2019-05-23 2019-09-27 顺丰科技有限公司 数据存储及验证方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221245A (zh) * 2022-07-14 2022-10-21 广州纳指数据智能科技有限公司 智能数据采集同步方法、系统及设备
CN115221245B (zh) * 2022-07-14 2023-07-14 广州纳指数据智能科技有限公司 智能数据采集同步方法、系统及设备

Also Published As

Publication number Publication date
CN111666340B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN108874644B (zh) 数据监控方法、装置、计算机设备及存储介质
CN111143462B (zh) 数据导出的方法、装置、计算机设备和存储介质
CN110647582A (zh) 区块链网络共识校验的方法、装置、存储介质和计算机设备
CN108874661B (zh) 测试映射关系库生成方法、装置、计算机设备和存储介质
CN107861991B (zh) 单据数据处理方法、装置、计算机设备和存储介质
CN112613993A (zh) 交易数据处理方法、装置、计算机设备和存储介质
CN112000903A (zh) 数据查询方法、装置、计算机设备和存储介质
CN112750027A (zh) 批量业务处理方法、装置、计算机设备和存储介质
CN115062016A (zh) 关联关系提取方法、装置和计算机设备
CN111666340A (zh) 基于大数据的同步数据校对方法、装置和计算机设备
CN109101232B (zh) 一种产品开发的方法、装置、计算机设备及存储介质
CN112596723B (zh) 数据库脚本生成方法、装置、设备及介质
CN108389124B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112069223A (zh) 数据获取需求处理方法、装置、计算机设备和存储介质
CN111522881A (zh) 业务数据处理方法、装置、服务器及存储介质
CN112783866A (zh) 数据读取方法、装置、计算机设备和存储介质
CN114840586A (zh) 一种数据转换方法、设备、服务器及计算机可读存储介质
CN114461895A (zh) 医疗资讯推送方法、装置、计算机设备和存储介质
CN110162542B (zh) 基于cassandra的数据翻页方法、装置、计算机设备和存储介质
CN109240906B (zh) 数据库配置信息适配方法、装置、计算机设备和存储介质
CN112818021A (zh) 数据请求处理方法、装置、计算机设备和存储介质
CN114237977A (zh) 交易回滚方法、装置、计算机设备和存储介质
CN113806504B (zh) 一种多维度报表数据计算方法、装置和计算机设备
CN113468187B (zh) 多方数据整合方法、装置、计算机设备和存储介质
CN112511493B (zh) 业务数据报文处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant