CN114461611A - 一种数据比对方法、装置、电子设备及存储介质 - Google Patents
一种数据比对方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114461611A CN114461611A CN202210119950.0A CN202210119950A CN114461611A CN 114461611 A CN114461611 A CN 114461611A CN 202210119950 A CN202210119950 A CN 202210119950A CN 114461611 A CN114461611 A CN 114461611A
- Authority
- CN
- China
- Prior art keywords
- comparison
- data
- data table
- migration
- configuration information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000005012 migration Effects 0.000 claims abstract description 116
- 238000013508 migration Methods 0.000 claims abstract description 116
- 230000001360 synchronised effect Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据比对方法、装置、电子设备和存储介质,方法包括:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;基于第一比对配置信息集合,生成第一数据比对任务;基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。通过本申请实施例提供的一种数据比对方法,可以批量生成比对任务,从而提高比对效率,准确地更正数据错误。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据比对方法、装置、系统及存储介质。
背景技术
随着大数据时代的到来,数据呈爆发式增长,越来越多的业务需要借助大数据能力进行数据分析,其中包括对数据的比对。无论是数据仓库任务上线前的测试环节中,数据的迁移过程中,还是数据仓库优化的场景下,都需要将数据之间进行比对。
现有的数据比对方法,无法将不同系统下的数据直接比对;并且,在大批量的数据需要比对的时候,都是逐个根据不同的表及字段,分别写对应的比对任务,再执行比对任务将差异结果存储到对应表中,这种方法需要逐个开发比对任务,不仅效率低,而且错误率高,针对特定的字段、特定的比对规则缺少快速有效的方法。
发明内容
针对现有技术存在的缺陷,本公开实施例提供一种数据比对方法、装置、系统及存储介质,可以批量生成比对任务,从而提高比对效率,准确地更正数据错误。
本申请实施例提供一种数据比对方法,应用于数据仓库平台,方法包括:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;其中,第二迁移数据表由第一迁移数据表迁移得到,第一迁移数据表和第二迁移数据表存储在不同的数据库中;基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;基于第一比对配置信息集合,生成第一数据比对任务;基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
具体地,第一同步数据表的信息包括第一同步数据表中的字段的信息。基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合,包括:若第一同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段;基于比对字段,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括每个比对字段对应的比对配置信息。
具体地,数据仓库平台为基于Hadoop的Hive平台。
具体地,在基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果之后,方法包括:若第一数据比对结果包括比对不一致信息,则重启数据仓库的同步链路;将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第三同步数据表和第四同步数据表;基于第三同步数据表的信息,从预设比对数据库中获取第二比对配置信息集合;基于第二比对配置信息集合,生成第二数据比对任务;基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果。
具体地,在基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果之后,方法还包括:若第二数据比对结果包括比对不一致信息,基于第二数据比对结果,生成数据表补丁;发送数据更新请求至第二迁移数据表对应的数据库,数据更新请求包括数据表补丁,数据更新请求用于指示数据库基于数据表补丁更新第二迁移数据表。
相应地,本申请实施例提供一种数据比对装置,装置包括:第一迁移模块,用于将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;其中,第二迁移数据表由第一迁移数据表迁移得到,第一迁移数据表和第二迁移数据表存储在不同的数据库中;第一获取模块,用于基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;第一生成模块,用于基于第一比对配置信息集合,生成第一数据比对任务;第一比对模块,用于基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
具体地,第一同步数据表的信息包括第一同步数据表中的字段的信息。第一获取模块还用于:若第一同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段;基于比对字段,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括每个比对字段对应的比对配置信息。
具体地,数据仓库平台为基于Hadoop的Hive平台。
具体地,装置还包括:重启模块,用于若第一数据比对结果包括比对不一致信息,则重启数据仓库的同步链路;第二迁移模块,用于将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第三同步数据表和第四同步数据表;第二获取模块,用于基于第三同步数据表的信息,从预设比对数据库中获取第二比对配置信息集合;第二生成模块,用于基于第二比对配置信息集合,生成第二数据比对任务;第二比对模块,用于基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果。
具体地,装置还包括:更新模块,用于若第二数据比对结果包括比对不一致信息,基于第二数据比对结果,生成数据表补丁;发送数据更新请求至第二迁移数据表对应的数据库,数据更新请求包括数据表补丁,数据更新请求用于指示数据库基于数据表补丁更新第二迁移数据表。
相应地,本公开实施例提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据比对方法。
相应地,本公开实施例提供一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据比对方法。
本申请实施例具有如下有益效果:
(1)通过利用预设比对数据库,根据数据的不同字段自动化地生成不同的比对任务,从而无需单个开发比对任务,实现高效、自动化的数据比对;
(2)在数据表迁移完毕后自动执行数据比对方法,对迁移前后的数据表进行比对和更正,可以保证迁移数据的准确性;
(3)通过对主表和副表的关联字段进行比对,并基于比对不一致信息更新副表,可以避免数据处理过程中由于主副表关联数据不一致导致的错误;
(4)通过采用二次同步、二次比对,避免同步链路故障对比对结果造成的影响,从而提高比对以及校正数据的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例所提供的一种数据比对方法的应用场景示意图;
图2是本申请实施例所提供的一种数据比对方法的第一流程示意图;
图3是本申请实施例所提供的一种数据比对方法的第二流程示意图;
图4是本申请实施例所提供的一种数据比对方法的第三流程示意图;
图5是本申请实施例所提供的一种数据比对装置的结构示意图;
图6是本申请实施例所提供的一种数据比对方法的服务器的硬件结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一个实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
此处所称的“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请实施例的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置/系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例能够以除了在这里图示或描述以外的顺序实施。此外,术语“包括”和“具有”/“为”以及他们/其的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元/模块的过程、方法、系统/装置、产品或设备不必限于清楚地列出的那些步骤或单元/模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元/模块。
下面介绍本申请提供的一种数据比对方法的具体实施例。请参阅图1,图1是本申请实施例所提供的一种数据比对的应用场景示意图。如图1所示,包括服务器101和终端102。可选的,服务器101和终端102可以通过无线链路连接,也可以通过有线链路连接,本公开在此不做限定。
在一个可选的实施例中,服务器101可以包括数据仓库平台,并且可以将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;基于第一比对配置信息集合,生成第一数据比对任务;基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。终端102可以向服务101发送比对请求,比对请求可以包括第一迁移数据表的信息和第二迁移数据表的信息,用于指示服务器101执行数据比对方法。具体的,服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的,该服务器101上运行的操作系统可以包括但是不限于IOS、Linux、Windows、Unix、Android系统等。
在一个可选的实施例中,终端102可以在对数据比对存在需求的时候,与服务器101通信,向服务器发送比对请求。具体的,终端102可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的数据比对方法的一种应用环境,在实际应用中,还可以包括其他应用环境,例如第一迁移数据表可以在其他服务器完成迁移并向服务器101发送比对请求,服务器101可以接收比对请求后,将第一迁移数据表和第二迁移数据表同步至数据仓库平台,执行数据比对方法,得到比对结果。
下面介绍本申请提供的一种数据比对方法的示例性流程。图2是本申请实施例提供的一种数据比对方法的第一流程示意图,本说明书提供了如实施例或流程图所示的方法或者流程操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式,不代表唯一的执行顺序,在实际执行时,可以按照实施例或者附图所示的方法或者流程顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法包括:
步骤S201:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表。
在一种具体的实施方式中,第二迁移数据表由第一迁移数据表迁移得到,第一迁移数据表和第二迁移数据表存储在不同的数据库中,例如Mysql数据库以及Oracel数据库。通过本申请实施例提供的数据比对方法可以将迁移后、迁移前的数据进行比对,避免迁移导致的数据误差。
在另一种具体的实施方式中,第一迁移数据表和第二迁移数据表可以分别由数据仓库中的主表和副表替代,由于主表和副表往往有相同的字段,这些相同字段对应的数据往往需要保持一致性,通过本申请实施例提供的数据比对方法可以将主表和副表中相同字段的数据进行比对,以确保附表和主表可以经由该相同字段的数据关联。
具体地,数据仓库平台为基于Hadoop的Hive平台。
具体地,第一迁移数据表和第二迁移数据表的数据同步可以通过sqoop或者datax等同步工具实现。
步骤S202:基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合。
具体地,第一同步数据表的信息可以包括第一同步数据表中的字段的信息,第一比对配置信息集合可以包括多个字段对应的比对配置信息。在一种具体的实施方式中,多个字段可以分别属于多种类型,类型可以包括数值类型、字符类型;数值类型还可以细分为精确数值和估算数值,字符类型还可以细分为英语字符、中文字符、符号字符等。每种字段类型可以对应相同的比对配置信息。比对配置信息可以表征比对任务中字段是否参与比对、字段是否四舍五入比对、字段是否忽略大小写、字段是否忽略格式、字段是否需要转换为统一格式再进行比对等。
具体地,在第一迁移数据表和第二迁移数据表分别为主表、副表的实施例中,预设比对数据库中还可以存储有主表和副表的关联字段信息。步骤S202可以是:基于主表和副表的信息,从预设比对数据库中获取关联字段信息以及第一比对配置信息集合,第一比对配置信息集合包括至少一个关联字段对应的比对配置信息。可以识别关联字段的类型,根据该类型从预设比对数据库中获取关联字段的类型对应的比对配置信息。
下面基于图3所示的示例性流程进一步阐述步骤S202。如图3所图示,示例性流程包括:
步骤S301:若第一同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段。
具体地,预设比对数据库中可以存储有多个字段对应的比对配置信息。若第一同步数据表中的字段不存在于预设比对数据库中,则该字段不为比对字段。
步骤S302:基于比对字段,从预设比对数据库中获取第一比对配置信息集合。
具体地,第一比对配置信息集合包括每个比对字段对应的比对配置信息。
在一种具体的实施方式中,比对字段可以包括第一比对字段、第二比对字段和第三比对字段,可以从预设比对数据库中获取第一比对字段对应的第一比对配置信息、第二比对字段对应的第二比对配置信息、第三比对字段对应的第三比对配置信息。
具体地,在第一比对字段为“所在地”的实施例中,第一比对配置信息可以包括语言统一翻译至中文进行比对。在第二比对字段为“活跃值”的实施例中,第二比对配置信息可以包括将小数点之后的数值进行四舍五入之后进行比对。在第三比对字段为“姓名”的实施例中,第三比对配置信息可以包括直接比对。
下面继续基于图2进行阐述:
步骤S203:基于第一比对配置信息集合,生成第一数据比对任务。
具体地,第一数据比对任务可以是sql脚本,第一数据比对任务可以包括多个字段对应的字段比对任务。在一种具体的实施方式中,第一数据比对任务可以包括第一字段比对任务、第二字段比对任务、第三字段比对任务。可以基于第一比对配置信息生成第一字段比对任务,该第一字段比对任务可以指示第一比对字段按照对应的数据内容的比对规则进行比对;基于第二比对配置信息生成第二字段比对任务,该第二字段比对任务可以指示第二比对字段按照对应的数据内容的比对规则进行比对;基于第三比对配置信息生成第三字段比对任务,该第三字段比对任务可以指示第三比对字段按照对应的数据内容的比对规则进行比对。
具体地,在第一迁移数据表和第二迁移数据表分别为主表、副表的实施例中,第一数据比对任务可以包括关联字段对应的字段比对任务。
步骤S204:基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
具体地,可以获取第一同步数据表中的比对字段,若比对字段在第二同步数据表中存在,则确定该比对字段为目标字段。若比对字段和目标字段不一致,则确定第一同步数据表和第二同步数据表字段不一致,即确定第一数据比对结果包括字段不一致信息。可以基于第一同步数据表中比对字段中除目标字段之外的字段对应的数据生成字段缺失补丁,将包含该字段缺失补丁的字段缺失修复消息发送至第二迁移数据表所在的数据库,指示数据库基于该字段缺失补丁更新第二迁移数据表。在补丁更新完毕后,可以重复执行本申请的数据比对方法,以将第一迁移数据表与更新后的第二迁移数据表进行比对。
若比对字段和目标字段一致,可以基于第一数据比对任务,对第一同步数据表中比对字段对应的数据和第二同步数据表中比对字段对应的数据进行比对,得到第一数据比对结果。
具体地,第一数据比对结果可以包括数据表之间的差异记录数及百分比,各个字段的差异记录数及百分比,数据表之间的差异字段数及字段差异内容。
本申请实施例的数据比对方法,可以通过利用预设比对数据库,根据数据的不同字段自动化地生成不同的比对任务,从而无需单个开发比对任务,实现高效、自动化的数据比对。得到数据比对结果后,可以基于数据比对结果生成数据表补丁,并基于数据表补丁更新第二迁移数据表或者副表,实现数据的自动化校正。在一种具体的实施方式中,通过在数据表迁移完毕后自动执行数据比对方法,对迁移前后的数据表进行比对和更正,可以保证迁移数据的准确性。在另一种具体的实施方式中,通过对主表和副表的关联字段进行比对,并基于比对不一致信息更新副表,可以避免数据处理过程中由于主副表关联数据不一致导致的错误。
下面基于图4进一步阐述本申请实施例提供的一种数据比对方法。如图4所图示,示例性流程包括:
步骤S401:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表。
步骤S402:基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合。
步骤S403:基于第一比对配置信息集合,生成第一数据比对任务。
步骤S404:基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
对于步骤S401-步骤S404的阐述可以参考上文针对步骤S201-S204的阐述,此处不再赘述。
步骤S405:若第一数据比对结果包括比对不一致信息,则重启数据仓库的同步链路。
具体地,比对不一致信息可以包括字段不一致信息,也可以包括数据不一致信息。若第一数据比对结果包括字段不一致信息、数据不一致信息中的至少一个,则重启数据仓库的同步链路。
步骤S406:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第三同步数据表和第四同步数据表。
具体地,第一迁移数据表和第二迁移数据表的数据同步可以通过sqoop或者datax等同步工具实现,同步得到的第三同步数据表和第四同步数据表可以存储在Hive平台中。
步骤S407:基于第三同步数据表的信息,从预设比对数据库中获取第二比对配置信息集合。
具体地,若第三同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段。预设比对数据库中可以存储有多个字段对应的比对配置信息。若第三同步数据表中的字段不存在于预设比对数据库中,则该字段不为比对字段。可以基于比对字段,从预设比对数据库中获取第二比对配置信息集合。第二比对配置信息集合可以包括每个比对字段对应的比对配置信息。
具体地,第三同步数据表的信息可以包括第三同步数据表中的字段的信息,第二比对配置信息集合可以包括多个字段对应的比对配置信息。在一种具体的实施方式中,多个字段可以分别属于多种类型,类型可以包括数值类型、字符类型;数值类型还可以细分为精确数值和估算数值,字符类型还可以细分为英语字符、中文字符、符号字符等。每种字段类型可以对应相同的比对配置信息。比对配置信息可以表征比对任务中字段是否参与比对、字段是否四舍五入比对、字段是否忽略大小写、字段是否忽略格式、字段是否需要转换为统一格式再进行比对等。
在一种具体的实施方式中,第二比对配置信息集合可以和第一比对配置信息集合一致。
步骤S408:基于第二比对配置信息集合,生成第二数据比对任务。
在一种具体的实施方式中,第二数据比对任务可以包括多个字段对应的字段比对任务,每一个字段比对任务可以指示该字段按照对应的数据内容的比对规则进行比对。
步骤S409:基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果。
具体地,可以获取第三同步数据表中的比对字段,若比对字段在第四同步数据表中存在,则确定该比对字段为目标字段。若比对字段和目标字段不一致,则确定第三同步数据表和第四同步数据表字段不一致,即确定第一数据比对结果包括字段不一致信息。可以基于第三同步数据表中比对字段中除目标字段之外的字段对应的数据生成字段缺失补丁,将包含该字段缺失补丁的字段缺失修复消息发送至第二迁移数据表所在的数据库,指示数据库基于该字段缺失补丁更新第二迁移数据表。在补丁更新完毕后,可以重复执行本申请的数据比对方法,以将第一迁移数据表与更新后的第二迁移数据表进行比对。
若比对字段和目标字段一致,可以基于第二数据比对任务,对第三同步数据表中比对字段对应的数据和第四同步数据表中比对字段对应的数据进行比对,得到第二数据比对结果。
具体地,第二数据比对结果可以包括数据表之间的差异记录数及百分比,各个字段的差异记录数及百分比,数据表之间的差异字段数及字段差异内容。
步骤S410:若第二数据比对结果包括比对不一致信息,基于第二数据比对结果,生成数据表补丁。
具体地,比对不一致信息可以包括数据不一致信息,该数据不一致信息可以表征至少一个数据点的第一迁移数据和第二迁移数据。在一种具体的实施方式中,数据不一致信息可以包括“所在地”字段下用户编号“1”对应的数据点,第一迁移数据表中该数据点对应的第一迁移数据可以为“北京”,第二迁移数据表中该数据点对应的第二迁移数据可以为“blank”。
步骤S411:发送数据更新请求至第二迁移数据表对应的数据库。
具体地,数据更新请求可以包括数据表补丁,数据更新请求可以用于指示数据库基于数据表补丁更新第二迁移数据表。
本申请实施例的数据比对方法,可以在最终生成数据表补丁并使其生效之前,进行二次同步以及二次比对;由于数据比对不一致可能是迁移错误导致的,同时也可能是同步错误导致的,所以采用二次同步、二次比对可以避免同步链路故障对比对结果造成的影响,从而提高比对以及校正数据的准确度。在一种具体的实施方式中,通过在数据表迁移完毕后自动执行数据比对方法,对迁移前后的数据表进行比对和更正,可以保证迁移数据的准确性。在另一种具体的实施方式中,通过对主表和副表的关联字段进行比对,并基于比对不一致信息更新副表,可以避免数据处理过程中由于主副表关联数据不一致导致的错误。
相应地,本申请提供一种数据比对装置。图5是本申请实施例所提供的一种数据比对装置的结构示意图。如图5所图示,数据比对装置500可以包括:
第一迁移模块501,用于将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表。
其中,第二迁移数据表由第一迁移数据表迁移得到,第一迁移数据表和第二迁移数据表存储在不同的数据库中。
第一获取模块502,用于基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合。
第一比对配置信息集合包括多个字段对应的比对配置信息。
第一生成模块503,用于基于第一比对配置信息集合,生成第一数据比对任务;
第一比对模块504,用于基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
具体地,第一同步数据表的信息可以包括第一同步数据表中的字段的信息。第一获取模块502还可以用于:若第一同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段;基于比对字段,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括每个比对字段对应的比对配置信息。
具体地,数据仓库平台为基于Hadoop的Hive平台。
在一种具体的实施方式中,装置500还可以包括:
重启模块,用于若第一数据比对结果包括比对不一致信息,则重启数据仓库的同步链路。
第二迁移模块,用于将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第三同步数据表和第四同步数据表。
第二获取模块,用于基于第三同步数据表的信息,从预设比对数据库中获取第二比对配置信息集合。
第二生成模块,用于基于第二比对配置信息集合,生成第二数据比对任务。
第二比对模块,用于基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果。
更新模块,用于若第二数据比对结果包括比对不一致信息,基于第二数据比对结果,生成数据表补丁;发送数据更新请求至第二迁移数据表对应的数据库,数据更新请求包括数据表补丁,数据更新请求用于指示数据库基于数据表补丁更新第二迁移数据表。
本申请的装置实施例和方法实施例可以基于相同的构思。
相应地,本公开实施例还提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据比对方法。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图6是本申请实施例提供的数据比对方法的服务器的硬件结构框图。如图6所示,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)610(中央处理器610可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器630,一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中,存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器610可以设置为与存储介质620通信,在服务器600上执行存储介质620中的一系列指令操作。服务器600还可以包括一个或一个以上电源660,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口640,和/或,一个或一个以上操作系统621,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器600的通信供应商提供的无线网络。在一个实例中,输入输出接口640包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口640可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器600还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
本申请实施提供一种存储介质,存储介质可设置于服务器之中以保存用于实现方法实施例中数据比对方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述数据比对方法。
具体地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于包括:U盘、只读存储器(ROM,Read-only Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的相连或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是:上述本申请实施例的先后顺序仅仅为了描述,不代表实施例的优劣,且上述本说明书对特定的实施例进行了描述,其他实施例也在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或者步骤可以按照不同的实施例中的顺序来执行并且能够实现预期的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者而连接顺序才能够实现期望的结果,在某些实施方式中,多任务并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的均为与其他实施例的不同之处。尤其,对于装置/系统的实施例而言,由于其基于相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种数据比对方法,其特征在于,应用于数据仓库平台,所述方法包括:
将第一迁移数据表和第二迁移数据表同步至所述数据仓库平台,得到第一同步数据表和第二同步数据表;其中,所述第二迁移数据表由所述第一迁移数据表迁移得到,所述第一迁移数据表和所述第二迁移数据表存储在不同的数据库中;
基于所述第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;所述第一比对配置信息集合包括多个字段对应的比对配置信息;
基于所述第一比对配置信息集合,生成第一数据比对任务;
基于所述第一数据比对任务对所述第一同步数据表和所述第二同步数据表进行比对,得到第一数据比对结果。
2.根据权利要求1所述的数据比对方法,其特征在于,所述第一同步数据表的信息包括所述第一同步数据表中的字段的信息,
所述基于所述第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合,包括:
若所述第一同步数据表中的字段存在于所述预设比对数据库中,则确定所述字段为比对字段;
基于所述比对字段,从所述预设比对数据库中获取第一比对配置信息集合;所述第一比对配置信息集合包括每个所述比对字段对应的比对配置信息。
3.根据权利要求1所述的数据比对方法,其特征在于,所述数据仓库平台为基于Hadoop的Hive平台。
4.根据权利要求1所述的数据比对方法,其特征在于,在所述基于所述第一数据比对任务对所述第一同步数据表和所述第二同步数据表进行比对,得到第一数据比对结果之后,所述方法包括:
若所述第一数据比对结果包括比对不一致信息,则重启所述数据仓库的同步链路;
将所述第一迁移数据表和所述第二迁移数据表同步至所述数据仓库平台,得到第三同步数据表和第四同步数据表;
基于所述第三同步数据表的信息,从所述预设比对数据库中获取第二比对配置信息集合;
基于所述第二比对配置信息集合,生成第二数据比对任务;
基于所述第二数据比对任务,对所述第三同步数据表和所述第四同步数据表进行比对,得到第二数据比对结果。
5.根据权利要求4所述的数据比对方法,其特征在于,在所述基于所述第二数据比对任务,对所述第三同步数据表和所述第四同步数据表进行比对,得到第二数据比对结果之后,所述方法还包括:
若所述第二数据比对结果包括所述比对不一致信息,基于所述第二数据比对结果,生成数据表补丁;
发送数据更新请求至所述第二迁移数据表对应的数据库,所述数据更新请求包括所述数据表补丁,所述数据更新请求用于指示所述数据库基于所述数据表补丁更新所述第二迁移数据表。
6.一种数据比对装置,其特征在于,所述装置包括:
第一迁移模块,用于将第一迁移数据表和第二迁移数据表同步至所述数据仓库平台,得到第一同步数据表和第二同步数据表;其中,所述第二迁移数据表由所述第一迁移数据表迁移得到,所述第一迁移数据表和所述第二迁移数据表存储在不同的数据库中;
第一获取模块,用于基于所述第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;所述第一比对配置信息集合包括多个字段对应的比对配置信息;
第一生成模块,用于基于所述第一比对配置信息集合,生成第一数据比对任务;
第一比对模块,用于基于所述第一数据比对任务对所述第一同步数据表和所述第二同步数据表进行比对,得到第一数据比对结果。
7.根据权利要求6所述的一种数据比对装置,其特征在于,所述装置还包括:
重启模块,用于若所述第一数据比对结果包括比对不一致信息,则重启所述数据仓库的同步链路;
第二迁移模块,用于将所述第一迁移数据表和所述第二迁移数据表同步至所述数据仓库平台,得到第三同步数据表和第四同步数据表;
第二获取模块,用于基于所述第三同步数据表的信息,从所述预设比对数据库中获取第二比对配置信息集合;
第二生成模块,用于基于所述第二比对配置信息集合,生成第二数据比对任务;
第二比对模块,用于基于所述第二数据比对任务,对所述第三同步数据表和所述第四同步数据表进行比对,得到第二数据比对结果。
8.根据权利要求7所述的一种数据比对装置,其特征在于,所述装置还包括:
更新模块,用于若所述第二数据比对结果包括所述比对不一致信息,基于所述第二数据比对结果,生成数据表补丁;发送数据更新请求至所述第二迁移数据表对应的数据库,所述数据更新请求包括所述数据表补丁,所述数据更新请求用于指示所述数据库基于所述数据表补丁更新所述第二迁移数据表。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-5任意一项所述的数据比对方法。
10.一种计算机可读介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现权利要求1-7任意一项所述的数据比对方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119950.0A CN114461611A (zh) | 2022-01-26 | 2022-01-26 | 一种数据比对方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119950.0A CN114461611A (zh) | 2022-01-26 | 2022-01-26 | 一种数据比对方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114461611A true CN114461611A (zh) | 2022-05-10 |
Family
ID=81414441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119950.0A Pending CN114461611A (zh) | 2022-01-26 | 2022-01-26 | 一种数据比对方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461611A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292301A (zh) * | 2022-09-21 | 2022-11-04 | 青岛千方百计网络科技有限公司 | 基于人工智能的任务数据异常监测处理方法及系统 |
CN115357625A (zh) * | 2022-09-06 | 2022-11-18 | 中国建设银行股份有限公司 | 结构化数据比对方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120265726A1 (en) * | 2011-04-18 | 2012-10-18 | Infosys Limited | Automated data warehouse migration |
CN109063005A (zh) * | 2018-07-10 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种数据迁移方法及系统、存储介质、电子设备 |
CN112214500A (zh) * | 2019-07-09 | 2021-01-12 | 北京京东尚科信息技术有限公司 | 数据对比的方法、装置、电子设备和存储介质 |
-
2022
- 2022-01-26 CN CN202210119950.0A patent/CN114461611A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120265726A1 (en) * | 2011-04-18 | 2012-10-18 | Infosys Limited | Automated data warehouse migration |
CN109063005A (zh) * | 2018-07-10 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种数据迁移方法及系统、存储介质、电子设备 |
CN113553313A (zh) * | 2018-07-10 | 2021-10-26 | 创新先进技术有限公司 | 一种数据迁移方法及系统、存储介质、电子设备 |
CN112214500A (zh) * | 2019-07-09 | 2021-01-12 | 北京京东尚科信息技术有限公司 | 数据对比的方法、装置、电子设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357625A (zh) * | 2022-09-06 | 2022-11-18 | 中国建设银行股份有限公司 | 结构化数据比对方法、装置、电子设备及存储介质 |
CN115292301A (zh) * | 2022-09-21 | 2022-11-04 | 青岛千方百计网络科技有限公司 | 基于人工智能的任务数据异常监测处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9596279B2 (en) | Cloud-based streaming data receiver and persister | |
US9779153B2 (en) | Data transfer between storage systems using data fingerprints | |
CN108255653A (zh) | 一种产品的测试方法及其终端 | |
CN114461611A (zh) | 一种数据比对方法、装置、电子设备及存储介质 | |
CN110347747A (zh) | 数据库间数据同步方法、系统、计算机设备及存储介质 | |
CN109002472B (zh) | 一种数据库差异的识别方法及装置 | |
WO2019041930A1 (zh) | 巡检方法、装置、系统、计算机设备和存储介质 | |
CN113760948A (zh) | 一种数据查询的方法及装置 | |
US11243921B2 (en) | Database expansion system, equipment, and method of expanding database | |
CN113127357B (zh) | 单元测试方法、装置、设备、存储介质及程序产品 | |
CN113468143A (zh) | 数据迁移方法、系统、计算设备及存储介质 | |
CN105656643B (zh) | 一种基于网络配置协议进行兼容管理的方法及设备 | |
CN114328739A (zh) | 数据同步、读取方法及装置、电子设备、存储介质及产品 | |
WO2020124619A1 (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN113783916B (zh) | 信息同步方法及装置 | |
CN110580216A (zh) | 一种应用提测的方法和装置 | |
CN112433783A (zh) | 一种配置方法及相关设备 | |
CN112199443A (zh) | 数据同步方法、装置、计算机设备和存储介质 | |
CN111767126A (zh) | 分布式批量处理的系统和方法 | |
CN112148705A (zh) | 数据迁移的方法和装置 | |
WO2024060677A1 (zh) | 数据校验方法及电子设备 | |
CN117009430A (zh) | 数据管理方法、装置和存储介质及电子设备 | |
CN115454971A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
CN115167769A (zh) | 一种写入数据的方法、装置及系统 | |
CN116627928A (zh) | 数据库迁移方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |