CN110287182A - 一种大数据的数据对比方法、装置、设备及终端 - Google Patents

一种大数据的数据对比方法、装置、设备及终端 Download PDF

Info

Publication number
CN110287182A
CN110287182A CN201910368148.3A CN201910368148A CN110287182A CN 110287182 A CN110287182 A CN 110287182A CN 201910368148 A CN201910368148 A CN 201910368148A CN 110287182 A CN110287182 A CN 110287182A
Authority
CN
China
Prior art keywords
data
comparison
comparison result
script
table structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910368148.3A
Other languages
English (en)
Other versions
CN110287182B (zh
Inventor
李流辉
李挺
周海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yu Hang Science And Technology Co Ltd
Zhejiang Geely Holding Group Co Ltd
Original Assignee
Hangzhou Yu Hang Science And Technology Co Ltd
Zhejiang Geely Holding Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yu Hang Science And Technology Co Ltd, Zhejiang Geely Holding Group Co Ltd filed Critical Hangzhou Yu Hang Science And Technology Co Ltd
Priority to CN201910368148.3A priority Critical patent/CN110287182B/zh
Publication of CN110287182A publication Critical patent/CN110287182A/zh
Application granted granted Critical
Publication of CN110287182B publication Critical patent/CN110287182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据的数据对比方法、装置、设备及终端,所述的方法包括:根据表结构文件,生成所述表结构文件对应的比对脚本;获取所述表结构文件对应的第一数据表和第二数据表;运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;根据所述二次比对结果生成比对结果文件,以便于用户查看;本发明通过创建比对脚本,运行并对比,得到比对结果表,进而进行二次对比得到表结构文件对应的比对结果文件,直接供用户查看对比结果;比对效率高,避免内存溢出,出现比对失败的情况;任务周期运行,提高了数据的准确性。

Description

一种大数据的数据对比方法、装置、设备及终端
技术领域
本发明涉及大数据的数据处理技术领域,尤其涉及一种大数据的数据对比方法、装置、设备及终端。
背景技术
在一些数据仓库改造过程中,业务系统数据库表结构或字段逻辑的改变,会导致数据仓库中宽表层表字段逻辑的改变;为了保证字段逻辑更改后的宽表和原宽表数据一致以及下游依赖宽表层数据的一致,需要对原表字段值和更改了逻辑的新表的字段值进行字段值比对。因为表和表字段较多,数据的对比会比较繁琐。另外,数据都在线上周期生成,涉及到数据的安全性,不能将数据拉取到本地进行比较,因此整个流程需要自动化实现比对脚本的创建和数据的周期比对,周期统计不一致的字段和字段值,提升比对效率和准确性。
但是,目前通用的技术方案是获取数据源的连接,将全部数据拉取到本地内存中进行比较,但是如果对线上数据进行对比,涉及到数据的安全性问题,因此该方案将不可实施;另外,如果数据量较大时,通用技术方案在将数据拉取到本地的过程中,将严重占用带宽,而且在比对过程中可能出现内存溢出而导致比对失败的情况,因此这种通用比对方案存在安全性不足、效率低、脚本繁琐、频率高、数据问题定位难等缺点。
发明内容
为了解决上述技术问题,针对以上问题点,本发明公开了大数据的数据对比方法,通过创建比对脚本,运行并对比,得到比对结果表,进而进行二次对比得到表结构文件对应的比对结果文件,直接供用户查看对比结果;避免将表的全部数据拉取到本地进行比较,节省了网络带宽,提升了比对效率,避免内存溢出,出现比对失败的情况;任务周期运行,可更加准确的统计出比对脚本对应的两数据表不一致的数据,提高了数据的准确性。
为了达到上述发明目的,本发明提供了一种大数据的数据对比方法,所述的方法包括:
根据表结构文件,生成所述表结构文件对应的比对脚本;
获取所述表结构文件对应的第一数据表和第二数据表;
运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;
顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;
根据所述二次比对结果生成比对结果文件,以便于用户查看。
进一步地,所述根据表结构文件,生成所述表结构文件对应的比对脚本包括:
根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;
读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;
根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。
进一步地,所述运行比对脚本以得到比对结果表之前,还包括:
设置调度周期,相应的比对脚本按照调度周期进行运行。
进一步地,所述顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果之后,还包括:
判断二次比对结果是否满足预设条件;
若是,则在比对结果文件记录比对结果,以便于用户查看。
更进一步地,所述判断二次比对结果是否满足预设条件,包括:
判断比对结果表是否为空表;
若否,判断比对结果表中同一行中表示同一字段的相邻列所对应的元素的值是否相同;
若否,则判定二次比对结果满足预设条件。
更进一步地,所述判断二次比对结果是否满足预设条件之后,还包括:
若否,则不做记录。
本发明提供了一种大数据的数据对比装置,所述的装置包括:
比对脚本生成模块,用于根据表结构文件,生成所述表结构文件对应的比对脚本;
数据表获取模块,用于获取所述表结构文件对应的第一数据表和第二数据表;
比对脚本运行模块,用于运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;;
二次对比模块,用于顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;
比对结果文件形成模块,根据二次对比结果生成比对结果文件,以便于用户查看。
进一地,还包括:
表结构文件获取模块,用于根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;
表数据获取模块,用于读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;
比对脚本创建模块,用于根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。
本发明提供了一种大数据的数据对比设备,所述的设备包括数据比对脚本创建工具、任务开发平台和比对结果统计对比工具:
所述数据比对脚本创建工具,用于根据表结构文件,生成所述表结构文件对应的比对脚本;
所述任务开发平台,用于为所述比对脚本提供运行场所,运行比对脚本以得到比对结果表;
所述比对结果统计对比工具,用于顺序读取所述比对结果表中的记录,生成二次比对结果,根据所述二次比对结果生成比对结果文件。
本发明提供了一种大数据的数据对比终端,所述终端包括处理器和存储器;
所述处理器,适于实现一条或一条以上指令;
所述存储器,存储有一条或一条以上指令,所述一条或一条以上适于所述处理器加载并执行以实现如上述所述的大数据的数据对比方法。
实施本发明实施例,具有如下有益效果:
本发明公开的大数据的数据对比方法,通过创建比对脚本,运行并对比,得到比对结果表,进而进行二次对比得到表结构文件对应的比对结果文件,直接供用户查看对比结果;避免将表的全部数据拉取到本地进行比较,节省了网络带宽,提升了比对效率,避免内存溢出,出现比对失败的情况;任务周期运行,可更加准确的统计出比对脚本对应的两数据表不一致的数据,提高了数据的准确性。
附图说明
为了更清楚地说明本发明所述的大数据的数据对比方法、装置、设备及终端,下面将对实施例所需要的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例提供的一种大数据的数据对比方法的流程示意图;
图2为本发明实施例提供的一种生成比对脚本的流程示意图;
图3为本发明实施例提供的一种判断二次比对结果的流程示意图;
图4为本发明实施例提供的一种大数据的数据对比装置的结构示意图;
图5为本发明实施例提供的一种大数据的数据对比终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明可以应用于大数据对比的场景中,主要可以是针对一个表结构文件中的数据表进行对比。
请参考图1,其所示为本发明实施例提供的一种大数据的数据对比方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序,在实际中进行数据对比时,可以按照实施例或附图所示的方法顺序执行。具体的如图1所示,所述方法包括:
S101,根据表结构文件,生成所述表结构文件对应的比对脚本;
需要说明的是,在本说明书实施例中,一个表结构文件可以对应生成一个比对脚本。
如图2所示,在本说明书实施例中,图2为本发明实施例提供的一种生成比对脚本的流程示意图;具体的,如下:
S201,根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;
在本说明书实施例中,可以指定表结构文件的存储位置,通过读取表结构文件存储目录,得到表结构文件集合。
S203,读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;
S205,根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。
在一个优选地实施例中,生成的表结构文件对应的比对脚本中可以包括删除结果表操作、创建结果表操作、比对源和目的表操作以及写入结果表操作;
本发明的这种设计节省了比对脚本的整理时间,可批量创建出比对脚本,大大缩短比对脚本的整理时间。
S103,获取所述表结构文件对应的第一数据表和第二数据表;
在本说明书实施例中,每个表结构文件可以对应两个数据表,也即是每个表结构文件对应的比对脚本可以对应两个数据表。
S105,运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;
在本说明书实施例中,运行比对脚本以得到比对结果表,之前,先设置调度周期,使得比对脚本按照调度周期进行运行;
在本说明书实施例中,运行表结构文件所对应的比对脚本得到比对结果表,也即是运行第一数据表和第二数据表,将第一数据表和第二数据表中相同时间段内的数据进行对比得到的一次比对结果,记录到比对结果表中。
在一个优选地实施例中,调度周期可以是一天,相应的针对第一数据表和第一数据表中同一天的数据进行对比,得到一次比对结果。
S107,顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;
在本说明书实施例中,通过jdbc方式连接到比对结果存储的hive数据源,再顺序读取所述比对结果表中的记录。
在本说明书实施例中,所述顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果之后,还包括:
判断二次比对结果是否满足预设条件;
若是,则根据二次比对结果生成比对结果文件,以便于用户查看。
在本说明书实施例中,若否,则不做记录。
如图3所示,在本说明书实施例中,图3为本发明实施例提供的一种判断二次比对结果的流程示意图;具体的,如下:
S301,判断比对结果表是否为空表;
在本说明书实施例中,比对结果表为空表,则可以表示第一数据表中的数据与第二数据表汇中的数据完全一致。
S303,若否,判断比对结果表中同一行中表示同一字段的相邻列所对应的元素的值是否相同;
在本说明书实施例中,提取比对结果表中相邻两列数据值(相邻两列分别代表第一数据表和第二数据表中相同列的数据值)再做对比。
S305,若否,则判定二次比对结果满足预设条件。
在本说明书实施例中,若两列字段值不一样,将字段名和不一样的字段值分别记录在比对结果文件中。
在本说明书实施例中,如两列字段值一样,则不做记录。
本发明的这种设计可以将数据不一致的表,不一致的字段,不一致的字段值记录在日志中,直观的展示出来,。
S109,根据所述二次比对结果生成比对结果文件,以便于用户查看;
在本说明书实施例中,通过上述的常量表数据和变量表数据,即(所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名),查看比对结果文件已方便区分比对结果文件所对应的表结构文件。
由上述本发明提供的大数据的数据对比方法、装置及终端的实施例可见,本发明实施例根据表结构文件,生成所述表结构文件对应的比对脚本;获取所述表结构文件对应的第一数据表和第二数据表;运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;根据所述二次比对结果生成比对结果文件,以便于用户查看;利用本说明书实施例提供的技术方案,通过创建比对脚本,运行并对比,得到比对结果表,进而进行二次对比得到表结构文件对应的比对结果文件,直接供用户查看对比结果;避免将表的全部数据拉取到本地进行比较,节省了网络带宽,提升了比对效率,避免内存溢出,出现比对失败的情况;任务周期运行,可更加准确的统计出比对脚本对应的两数据表不一致的数据,提高了数据的准确性。
本发明实施例还提供了一种大数据的数据对比装置,如图4所示,其所示为本发明实施例提供的一种大数据的数据对比装置的结构示意图;具体的,所述的装置包括:
比对脚本生成模块410,用于根据表结构文件,生成所述表结构文件对应的比对脚本;
数据表获取模块420,用于获取所述表结构文件对应的第一数据表和第二数据表;
比对脚本运行模块430,用于运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;;
二次对比模块440,用于顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;
比对结果文件形成模块450,根据二次对比结果生成比对结果文件,以便于用户查看。
在本说明书实施例中,还包括:
表结构文件获取模块,用于根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;
表数据获取模块,用于读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;
比对脚本创建模块,用于根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。
本发明实施例提供了一种大数据的数据对比设备,所述的设备包括数据比对脚本创建工具、任务开发平台和比对结果统计对比工具:
所述数据比对脚本创建工具,用于根据表结构文件,生成所述表结构文件对应的比对脚本;
所述任务开发平台,用于为所述比对脚本提供运行场所,运行比对脚本以得到比对结果表;
所述比对结果统计对比工具,用于顺序读取所述比对结果表中的记录,生成二次比对结果,根据所述二次比对结果生成比对结果文件。
本发明实施例提供了一种大数据的数据对比终端,该终端包括处理器和存储器;
所述处理器,适于实现一条或一条以上指令;
所述存储器,存储有一条或一条以上指令,所述一条或一条以上适于所述处理器加载并执行以实现如上述方法实施例所述的大数据的数据对比方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
图5为本发明实施例提供的一种大数据的数据对比终端的结构示意图,该大数据的数据对比终端的内部构造可包括但不限于:处理器、网络接口及存储器,其中大数据的数据对比终端内的处理器、网络接口及存储器可以通过总线或其他方式连接,在本说明书实施例所示图5中以通过总线连接为例。
其中,处理器(或称CPU(Central Processing Unit,中央处理器))是大数据的数据对比终端的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是大数据的数据对比终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器可以是高速RAM存储设备,也可以是非不稳定的存储设备(non-volatile memory),例如至少一个磁盘存储设备;可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间,该存储空间存储了大数据的数据对比终端的操作系统,可包括但不限于:Windows系统(一种操作系统),Linux(一种操作系统)等等,本发明对此并不作限定;并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。在本说明书实施例中,处理器加载并执行存储器中存放的一条或一条以上指令,以实现上述方法实施例提供的大数据的数据对比方法。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于大数据的数据对比终端之中以保存用于实现方法实施例中的一种大数据的数据对比方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集可由电子设备的处理器加载并执行以实现上述方法实施例提供的大数据的数据对比方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本发明提供的大数据的数据对比方法、装置及终端的实施例可见,本发明实施例根据表结构文件,生成所述表结构文件对应的比对脚本;具体的,根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。获取所述表结构文件对应的第一数据表和第二数据表;设置调度周期,运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;判断二次比对结果是否满足预设条件;具体的,判断比对结果表是否为空表;若否,判断比对结果表中同一行中表示同一字段的相邻列所对应的元素的值是否相同;若否,则判定二次比对结果满足预设条件若是根据所述二次比对结果生成比对结果文件,以便于用户查看;若是,则不做记录;利用本说明书实施例提供的技术方案,通过创建比对脚本,运行并对比,得到比对结果表,进而进行二次对比得到表结构文件对应的比对结果文件,直接供用户查看对比结果;节省了比对脚本的整理时间,可批量创建出比对脚本,大大缩短比对脚本的整理时间;避免将表的全部数据拉取到本地进行比较,节省了网络带宽,提升了比对效率,避免内存溢出,出现比对失败的情况;任务周期运行,可更加准确的统计出比对脚本对应的两数据表不一致的数据,提高了数据的准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种大数据的数据对比方法,其特征在于:所述的方法包括:
根据表结构文件,生成所述表结构文件对应的比对脚本;
获取所述表结构文件对应的第一数据表和第二数据表;
运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;
顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;
根据所述二次比对结果生成比对结果文件,以便于用户查看。
2.根据权利要求1所述的大数据的数据对比方法,其特征在于:所述根据表结构文件,生成所述表结构文件对应的比对脚本包括:
根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;
读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;
根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。
3.根据权利要求1述的大数据的数据对比方法,其特征在于:所述运行比对脚本以得到比对结果表之前,还包括:
设置调度周期,相应的比对脚本按照调度周期进行运行。
4.根据权利要求1所述的大数据的数据对比方法,其特征在于:所述顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果之后,还包括:
判断二次比对结果是否满足预设条件;
若是,则根据二次比对结果生成比对结果文件,以便于用户查看。
5.根据权利要求4述的大数据的数据对比方法,其特征在于:所述判断二次比对结果是否满足预设条件,包括:
判断比对结果表是否为空表;
若否,判断比对结果表中同一行中表示同一字段的相邻列所对应的元素的值是否相同;
若否,则判定二次比对结果满足预设条件。
6.根据权利要求5述的大数据的数据对比方法,其特征在于:所述判断二次比对结果是否满足预设条件之后,还包括:
若否,则不做记录。
7.一种大数据的数据对比装置,其特征在于:所述的装置包括:
比对脚本生成模块,用于根据表结构文件,生成所述表结构文件对应的比对脚本;
数据表获取模块,用于获取所述表结构文件对应的第一数据表和第二数据表;
比对脚本运行模块,用于运行比对脚本以得到比对结果表,所述比对结果表表征所述第一数据表和所述第二数据表的一次比对结果;
二次对比模块,用于顺序读取所述比对结果表中的记录,根据所述记录生成二次比对结果;
比对结果文件形成模块,根据二次对比结果生成比对结果文件,以便于用户查看。
8.根据权利要求7所述的大数据的数据对比装置,其特征在于:还包括:
表结构文件获取模块,用于根据表结构存储目录,获取表结构文件集合,所述表结构文件集合中包括至少一个表结构文件;
表数据获取模块,用于读取所述表结构文件集合中的各个元素以获得常量表数据和变量表数据,所述常量表数据包括各个表结构文件的公共部分数据,所述变量表数据包括每个表结构文件的表名和字段名;
比对脚本创建模块,用于根据所述公共表数据和变量表数据生成表结构文件对应的比对脚本。
9.一种大数据的数据对比设备,其特征在于:所述的设备包括数据比对脚本创建工具、任务开发平台和比对结果统计对比工具:
所述数据比对脚本创建工具,用于根据表结构文件,生成所述表结构文件对应的比对脚本;
所述任务开发平台,用于为所述比对脚本提供运行场所,运行比对脚本以得到比对结果表;
所述比对结果统计对比工具,用于顺序读取所述比对结果表中的记录,生成二次比对结果,根据所述二次比对结果生成比对结果文件。
10.一种大数据的数据对比终端,其特征在于:所述终端包括处理器和存储器;
所述处理器,适于实现一条或一条以上指令;
所述存储器,存储有一条或一条以上指令,所述一条或一条以上适于所述处理器加载并执行以实现如权利要求1至6任意一项所述的大数据的数据对比方法。
CN201910368148.3A 2019-05-05 2019-05-05 一种大数据的数据对比方法、装置、设备及终端 Active CN110287182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910368148.3A CN110287182B (zh) 2019-05-05 2019-05-05 一种大数据的数据对比方法、装置、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910368148.3A CN110287182B (zh) 2019-05-05 2019-05-05 一种大数据的数据对比方法、装置、设备及终端

Publications (2)

Publication Number Publication Date
CN110287182A true CN110287182A (zh) 2019-09-27
CN110287182B CN110287182B (zh) 2021-09-14

Family

ID=68002004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910368148.3A Active CN110287182B (zh) 2019-05-05 2019-05-05 一种大数据的数据对比方法、装置、设备及终端

Country Status (1)

Country Link
CN (1) CN110287182B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459916A (zh) * 2020-04-16 2020-07-28 中国银行股份有限公司 Gbase和oracle数据库表比对的方法及系统
CN113806222A (zh) * 2021-08-30 2021-12-17 浙江吉利控股集团有限公司 接口测试脚本生成方法、装置、设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140059077A1 (en) * 2012-08-22 2014-02-27 DataShaka Limited Data Processing
WO2014180398A1 (zh) * 2013-12-03 2014-11-13 中兴通讯股份有限公司 数据差异分析方法及装置
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析系统及方法
CN107122489A (zh) * 2017-05-11 2017-09-01 郑州云海信息技术有限公司 一种数据对比方法及装置
CN107679054A (zh) * 2017-06-12 2018-02-09 平安科技(深圳)有限公司 数据比对方法、装置及可读存储介质
CN107679104A (zh) * 2017-09-12 2018-02-09 杭州美创科技有限公司 大表流式并行高速数据比对方法
CN107688618A (zh) * 2017-08-08 2018-02-13 平安科技(深圳)有限公司 数据对比方法、装置、计算机设备和存储介质
CN108170805A (zh) * 2017-12-28 2018-06-15 福建中金在线信息科技有限公司 一种数据表比较方法、装置、电子设备及可读存储介质
WO2018121025A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 比较数据表的数据的方法和系统
CN108255925A (zh) * 2017-11-10 2018-07-06 平安普惠企业管理有限公司 一种数据表结构变更情况的显示方法及其终端
CN108304522A (zh) * 2018-01-25 2018-07-20 深圳市买买提信息科技有限公司 一种数据库之间差异的比对方法、装置及终端设备
CN108572996A (zh) * 2017-03-14 2018-09-25 北京京东尚科信息技术有限公司 数据库表结构的同步方法、装置、电子设备和存储介质
CN108681559A (zh) * 2018-04-11 2018-10-19 广东电网有限责任公司 一种基于多系统数据应用的比对方法及系统
CN108804708A (zh) * 2018-06-22 2018-11-13 平安科技(深圳)有限公司 业务数据表归档修正方法、装置、计算机设备和存储介质
CN108845915A (zh) * 2018-07-02 2018-11-20 山东浪潮商用系统有限公司 一种数据库数据监控方法
US20190065536A1 (en) * 2017-08-30 2019-02-28 International Business Machines Corporation Modifying archive data without table changes

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140059077A1 (en) * 2012-08-22 2014-02-27 DataShaka Limited Data Processing
WO2014180398A1 (zh) * 2013-12-03 2014-11-13 中兴通讯股份有限公司 数据差异分析方法及装置
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析系统及方法
WO2018121025A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 比较数据表的数据的方法和系统
CN108572996A (zh) * 2017-03-14 2018-09-25 北京京东尚科信息技术有限公司 数据库表结构的同步方法、装置、电子设备和存储介质
CN107122489A (zh) * 2017-05-11 2017-09-01 郑州云海信息技术有限公司 一种数据对比方法及装置
CN107679054A (zh) * 2017-06-12 2018-02-09 平安科技(深圳)有限公司 数据比对方法、装置及可读存储介质
CN107688618A (zh) * 2017-08-08 2018-02-13 平安科技(深圳)有限公司 数据对比方法、装置、计算机设备和存储介质
US20190065536A1 (en) * 2017-08-30 2019-02-28 International Business Machines Corporation Modifying archive data without table changes
CN107679104A (zh) * 2017-09-12 2018-02-09 杭州美创科技有限公司 大表流式并行高速数据比对方法
CN108255925A (zh) * 2017-11-10 2018-07-06 平安普惠企业管理有限公司 一种数据表结构变更情况的显示方法及其终端
CN108170805A (zh) * 2017-12-28 2018-06-15 福建中金在线信息科技有限公司 一种数据表比较方法、装置、电子设备及可读存储介质
CN108304522A (zh) * 2018-01-25 2018-07-20 深圳市买买提信息科技有限公司 一种数据库之间差异的比对方法、装置及终端设备
CN108681559A (zh) * 2018-04-11 2018-10-19 广东电网有限责任公司 一种基于多系统数据应用的比对方法及系统
CN108804708A (zh) * 2018-06-22 2018-11-13 平安科技(深圳)有限公司 业务数据表归档修正方法、装置、计算机设备和存储介质
CN108845915A (zh) * 2018-07-02 2018-11-20 山东浪潮商用系统有限公司 一种数据库数据监控方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALISTAIR DUFFY ET.AL: "Data Comparison with Many Degrees of Freedom: the FSV (Feature Selective Validation) in Multiple Dimensions", 《2018 9TH INTERNATIONAL CONFERENCE ON ULTRAWIDEBAND AND ULTRASHORT IMPULSE SIGNALS (UWBUSIS)》 *
秦帅刚 等: "Python实现异构数据库中表的记录数比对", 《中国数字医学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459916A (zh) * 2020-04-16 2020-07-28 中国银行股份有限公司 Gbase和oracle数据库表比对的方法及系统
CN113806222A (zh) * 2021-08-30 2021-12-17 浙江吉利控股集团有限公司 接口测试脚本生成方法、装置、设备及存储介质
CN113806222B (zh) * 2021-08-30 2024-05-17 浙江吉利控股集团有限公司 接口测试脚本生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110287182B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110674109B (zh) 数据导入方法、系统、计算机设备及计算机可读存储介质
CN110287182A (zh) 一种大数据的数据对比方法、装置、设备及终端
CN109862396A (zh) 一种视频码流的分析方法、电子设备及可读存储介质
US11714557B2 (en) SPD-based memory monitoring and service life prediction method and system
CN113221362B (zh) 卫星发射场性能试验科目的选取方法、装置和电子设备
EP4020200A1 (en) Resource management platform-based task allocation method and system
EP4280051A1 (en) Inference service deployment method and apparatus, device, and storage medium
CN106845990A (zh) 一种规则处理方法和设备
CN112732358B (zh) 一种航天器控制脚本的编写方法和装置
CN112685275A (zh) 算法策略搜索方法、装置、电子设备及存储介质
CN110413531A (zh) 实现iomt自动测试方法、装置、计算机设备及存储介质
US20150012317A1 (en) Information analysis supporting apparatus and method
CN113342512B (zh) 一种io任务静默与驱动方法、装置及相关设备
CN115794471A (zh) 一种故障诊断优化方法、系统、设备及存储介质
CN115495151A (zh) 规则引擎的迁移方法、装置、设备、存储介质及程序产品
US8739115B2 (en) Using infeasible nodes to select branching variables
CN115328736A (zh) 一种探针部署方法、装置、设备和存储介质
CN114841664A (zh) 一种多任务处理顺序确定方法及装置
CN111683296A (zh) 视频切分方法、装置、电子设备及存储介质
US10223245B1 (en) System, method, and computer program for identifying tests to automate in a software testing project
CN114328314B (zh) 一种位址自动获取方法、装置、终端设备及存储介质
CN113641670B (zh) 数据存储及数据检索方法、装置、电子设备及存储介质
CN111090690B (zh) 参数对接方法、装置、电子设备及存储介质
US11126532B1 (en) Method and apparatus for a parallel, metadata-based trace analytics processor
CN114186830A (zh) 一种基于bim的工程监管方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant