CN112434087A - 一种跨系统数据比对方法、装置、电子设备及存储介质 - Google Patents
一种跨系统数据比对方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112434087A CN112434087A CN202011444432.3A CN202011444432A CN112434087A CN 112434087 A CN112434087 A CN 112434087A CN 202011444432 A CN202011444432 A CN 202011444432A CN 112434087 A CN112434087 A CN 112434087A
- Authority
- CN
- China
- Prior art keywords
- data
- source
- mapping relation
- comparison
- target system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013507 mapping Methods 0.000 claims abstract description 37
- 238000007619 statistical method Methods 0.000 claims abstract description 8
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 3
- 230000003068 static effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000010453 quartz Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书一个或多个实施例提供一种跨系统数据比对方法、装置、电子设备及存储介质,所述方法包括:建立源系统的数据与目标系统的数据的映射关系;根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中;在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。本发明提供的跨系统数据比对方法,实现了在进行跨系统数据比对时的灵活度更高、耗费的时间更短。
Description
技术领域
本说明书一个或多个实施例涉及是数据处理技术领域,尤其涉及一种跨系统数据比对方法、装置、电子设备及存储介质。
背景技术
数据是商业公司最重要的资产,通过数据开放,让数据流动和利用起来,打破“信息壁垒”和“信息孤岛”,才能真正实现数据的价值。而在数据共享和流动的过程中,一个特别关键的环节,就是要保证数据流中上游系统和下游系统的数据保持一致,如果数据丢失、数据失真都会导致比较严重的问题。为了实现数据流过程中上下游系统的数据一致,进行跨系统的数据比对非常有必要,并且比对流程灵活、耗时短也是很关键的一个考量。而当前跨系统数据比对的方法存在灵活度低、耗时久的问题。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种跨系统数据比对方法、装置、电子设备及存储介质,以解决当前跨系统数据比对方法灵活度低、耗时久的问题。
基于上述目的,本说明书一个或多个实施例提供了一种跨系统数据比对方法,包括:
建立源系统的数据与目标系统的数据的映射关系;
根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中;
在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。
基于同一发明构思,本说明书一个或多个实施例还提供了一种跨系统数据比对装置,包括:
映射关系模块:被配置为建立源系统的数据与目标系统的数据的映射关系;
数据抽取模块:被配置为根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中;
数据比对模块:被配置为在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。
基于同一发明构思,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。
基于同一发明构思,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一所述方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种跨系统数据比对方法,充分考虑了数据比对方法的实际应用场景,实现了跨系统、跨数据库的数据对比,本方法相对于传统数据库进行大数据量的数据对比时,灵活度更高,耗费时间更短。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的跨系统数据比对方法流程图;
图2为本说明书一个或多个实施例中的建立映射关系的流程图;
图3为本说明书一个或多个实施例中的对源系统的数据与目标系统的数据进行抽取的流程图;
图4为本说明书一个或多个实施例中对源系统的数据与目标系统的数据进行全量比对的流程图;
图5为本说明书一个或多个实施例的跨系统数据比对方法流程图;
图6为本说明书一个或多个实施例的跨系统数据比对装置结构示意图;
图7为本说明书一个或多个实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
如背景技术部分所述,现有的数据比对方法还难以满足数据比对的需要,申请人在实现本公开的过程中发现,现有的方法在进行跨系统数据比对时,数据比对流程的灵活性较差、以及数据比对耗费的时间也比较长。
有鉴于此,本说明书的一个或多个实施例提供了一种跨系统数据比对方法,参考图1,包括以下步骤:
步骤S101:建立源系统的数据与目标系统的数据的映射关系。
步骤S102:根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中。
本步骤中,上述异构数据源离线同步工具为DataX工具,抽取的任务是通过分布式作业调度框架(Elastic-Job)框架来分布式调度的,数据仓库平台为基于Hadoop的Hive平台。
相应的,DataX工具提供了通道(并发)、记录流、字节流三种流控模式,可对数据抽取的速度进行有效把;另外还拥有容错机制,在由于网络闪断、数据源不稳定等原因的报错和停止,支持线程内部重试以及线程级别重试。
Elastic-job是基于成熟的定时任务作业框架Quartz cron表达式执行定时任务,可将一个任务分片成为多个小任务项在多服务器上同时执行,并能够监控作业运行时状态,统计最近一段时间处理的数据成功和失败数量,记录作业上次运行开始时间,结束时间和下次运行时间。
hive是用来进行数据提取、转化、加载,能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。
步骤S103:在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。
本步骤中,可以将所述错误数据集、遗漏数据集和/或多出数据集的数量以及占比用hive的SQL语句进行统计分析,具体的SQL语句为:
SELECT c.srcCount as核心数据量,c.destCount as CMDS数据量,b.result as对比结果
FROM TableMapping a,DataCheckResult b,DataCheckProgress c WHERE a.id=b.tablemap_id
and a.id=c.tablemap_id and b.result like'%result_101773261000000466210958%:
得到的具体结果,例如:总体源系统的数据数据量10000;错误数据集数据量234,占比2.34%;遗漏数据集数据量128,占比1.28%;多出数据集1146,占比11.46%。
在一些可选的实施例的跨系统数据比对方法中,参考图2,上述步骤S101,具体包括:
步骤S201:对源系统与目标系统的对应数据源进行配置,其中,所述数据源包括:类别、主机IP及端口、数据库名、用户名、状态。
本步骤中,可以对不同数据源进行配置,例如:Oracle数据库、数据库MySql、SqlServer数据库等。
步骤S202:基于配置好的所述数据源,对所述源系统的数据和所述目标系统的数据的映射关系进行配置,其中,所述映射关系包括:字段映射、字段值组合与截取、字段值转换。
本步骤中,上述字段映射具体为:例如,源系统A名称字段映射为目标系统B名称字段;上述字段值组合与截取具体为:例如,字段A与字段B组合成字段C,或者取A字段1-6位为字段C;上述字段值转换具体为:例如,01转换为F。
在一些可选的实施例的跨系统数据比对方法中,参考图3,上述步骤S102,具体包括:
步骤S301:在前台页面填写字段映射、指定主键以及转换规则得到配置信息,并将所述配置信息保存到数据库MySql中;或者将所述配置信息生成电子表格Excel,解析Excel并保存至数据库MySql中。
步骤S302:通过异构数据源离线同步工具(DataX)将源系统的数据与目标系统的数据根据映射关系导入至hive中。
在一些可选的实施例的跨系统数据比对方法中,参考图4,上述步骤S103,具体包括:
步骤S401:根据所述映射关系生成去重结构化查询语言SQL语句,并在数据仓库平台hive中执行。
本步骤中,可按照主键进行分组,利用order by字句实现全字段排序取第一实现去重。
步骤S402:根据所述映射关系生成主键校验SQL语句,并在hive中执行。
本步骤中,按照主键分组中记录的数量,检验主键是否唯一,如果不唯一,则不进行源系统的数据和目标系统的数据的比对。
步骤S403:根据所述映射关系生成源系统的数据与目标系统的数据核对SQL语句,并在hive中执行,得到差异数据;
本步骤中,hive将源系统的数据和目标系统的数据转换为两个数据库表,可利用concat_ws()函数进行全字段拼接取值,然后通过不相等关系符从核对两个表的笛卡尔积中取有差异的一行。
步骤S404:将差异数据分为错误数据集、遗漏数据集和/或多处数据集。
本步骤中,可通过hive SQL将差异数据拆分为错误数据集、遗漏数据集、以及多处数据集,具体的SQL语句如下:
SELECT count(*)错误数据集from result_101773261000000466210958 wherecore_source_flag='1';
SELECT count(*)遗漏数据集from result_101773261000000466210958 wherecore_source_flag='2';
SELECT count(*)多处数据集from result_101773261000000466210958 wherecore_source_flag='3'。
作为一个可选的实施例,参考图5,所述跨系统数据比对方法还包括:
步骤501:通过分布式作业调度框架(Elastic-job)根据需要核对的数据生成相应的调度任务;
步骤502:当到达预先设置的调度时间时,启动调度任务,并对执行的操作进行记录;
本步骤中,上述预先设置的调度时间可以分为以下五种情况:
只执行一次;
每天执行一次:每天凌晨0点执行;
每周执行一次:每周六0点执行;
每月执行一次:每月10号0点执行;
每季度执行一次:1月10号、4月10号、7月10号、10月10号的0点执行;
进一步地,可通过日志组件log4j对执行的操作进行记录,log4j由三个重要的组件构成:日志信息的优先级,日志信息的输出目的地,日志信息的输出格式。日志信息的优先级从高到低有ERROR、WARN、INFO、DEBUG,分别用来指定这条日志信息的重要程度;日志信息的输出目的地指定了日志将打印到控制台还是文件中;而输出格式则控制了日志信息的显示内容。
可见,本说明书一个或多个实施例的跨系统数据比对方法,通过利用DataX精准的速度控制特性,实现将源系统的数据与目标系统的数据在线、安全的导入hive中;借助于数据仓库平台hive,实现源系统的数据与目标系统的数据进行全量数据的高校比对;引入分布式作业调度框架Elastic-job,根据需要核对的数据生成相应的调度任务,实现比对任务的灵活调度。总体来说,本方法解决了当前跨系统数据比对的灵活性低,耗时时间久的问题。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种跨系统数据比对装置。
参考图6,所述跨系统数据比对装置,包括:
映射关系模块601:被配置为建立源系统的数据与目标系统的数据的映射关系。
数据抽取模块602:被配置为根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中。
数据比对模块603:被配置为在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的跨系统数据比对方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的跨系统数据比对方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的跨系统数据比对方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的跨系统数据比对方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的跨系统数据比对,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种跨系统数据比对方法,其特征在于,包括:
建立源系统的数据与目标系统的数据的映射关系;
根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中;
在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。
2.根据权利要求1所述的方法,其特征在于,所述抽取的任务和/或所述全量比对的任务是通过分布式作业调度框架来分布式调度的,所述分布式作业调度框架为Elastic-Job框架。
3.根据权利要求1所述的方法,其特征在于,所述异构数据源离线同步工具为DataX工具。
4.根据权利要求1所述的方法,其特征在于,所述数据仓库平台为基于Hadoop的Hive平台。
5.根据权利要求1所述的方法,其特征在于,所述建立源系统的数据与目标系统的数据的映射关系,具体包括:
对所述源系统与所述目标系统的对应数据源进行配置,其中,所述数据源包括:类别、主机IP及端口、数据库名、用户名、状态;
基于配置好的所述数据源,对所述源系统的数据和所述目标系统的数据的映射关系进行配置,其中,所述映射关系包括:字段映射、字段值组合与截取、字段值转换。
6.根据权利要求1所述的方法,其特征在于,所述根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中,具体包括:
在前台页面填写所述映射关系、指定主键得到配置信息,并将所述配置信息保存到数据库MySql中,或者将所述配置信息生成电子表格Excel,解析Excel并保存至数据库MySql中;
通过异构数据源离线同步工具DataX将源系统的数据与目标系统的数据根据所述映射关系导入至数据仓库平台hive中。
7.根据权利要求1所述的方法,其特征在于,所述在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集,具体包括:
根据所述映射关系生成去重结构化查询语言SQL语句,并在所述数据仓库平台中执行;
根据所述映射关系生成主键校验SQL语句,并在所述数据仓库平台中执行;
根据所述映射关系生成源系统的数据与目标系统的数据核对SQL语句,并在数据仓库平台中执行,得到差异数据;
将所述差异数据分为错误数据集、遗漏数据集和/或多处数据集。
8.一种跨系统数据比对装置,其特征在于,包括:
映射关系模块:被配置为建立源系统的数据与目标系统的数据的映射关系;
数据抽取模块:被配置为根据所述映射关系,通过异构数据源离线同步工具将所述源系统的数据和所述目标系统的数据抽取至基于分布式系统基础架构的数据仓库平台中;
数据比对模块:被配置为在所述数据仓库平台中对所述源系统的数据与所述目标系统的数据进行全量比对,并对所述全量比对的结果进行统计分析,得出错误数据集、遗漏数据集和/或多出数据集。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444432.3A CN112434087B (zh) | 2020-12-08 | 2020-12-08 | 一种跨系统数据比对方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444432.3A CN112434087B (zh) | 2020-12-08 | 2020-12-08 | 一种跨系统数据比对方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434087A true CN112434087A (zh) | 2021-03-02 |
CN112434087B CN112434087B (zh) | 2024-05-28 |
Family
ID=74692576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011444432.3A Active CN112434087B (zh) | 2020-12-08 | 2020-12-08 | 一种跨系统数据比对方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434087B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988817A (zh) * | 2021-04-12 | 2021-06-18 | 携程旅游网络技术(上海)有限公司 | 数据比对方法、系统、电子设备和存储介质 |
CN113138986A (zh) * | 2021-04-23 | 2021-07-20 | 上海中通吉网络技术有限公司 | 一种数据库分表数据的抽取方法、装置及系统 |
CN114116681A (zh) * | 2022-01-21 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 数据迁移方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2282999A1 (en) * | 1999-09-22 | 2001-03-22 | Ibm Canada Limited-Ibm Canada Limitee | Method and apparatus for cross-node sharing of instructions in a multiple node relational database management system environment |
CN102096684A (zh) * | 2009-12-11 | 2011-06-15 | 华大天元(北京)电力科技有限公司 | 电网实时数据集成与共享平台 |
CN104156832A (zh) * | 2014-08-28 | 2014-11-19 | 国家电网公司 | 系统间数据核对方法及装置 |
US20160124989A1 (en) * | 2014-10-29 | 2016-05-05 | Bank Of America Corporation | Cross platform data validation utility |
CN105787057A (zh) * | 2016-02-29 | 2016-07-20 | 浪潮通用软件有限公司 | 一种异构系统间业务数据自动同步的实现方法 |
CN107665195A (zh) * | 2016-07-27 | 2018-02-06 | 北京京东尚科信息技术有限公司 | 导入大数量数据的方法、装置及系统 |
CN107958082A (zh) * | 2017-12-15 | 2018-04-24 | 杭州有赞科技有限公司 | 数据库到数据仓库的离线增量同步方法及系统 |
CN109669977A (zh) * | 2018-11-30 | 2019-04-23 | 金蝶软件(中国)有限公司 | 跨数据库的数据接入方法、装置、计算机设备及存储介质 |
CN110019315A (zh) * | 2018-06-19 | 2019-07-16 | 杭州数澜科技有限公司 | 一种用于数据血缘解析的方法和装置 |
-
2020
- 2020-12-08 CN CN202011444432.3A patent/CN112434087B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2282999A1 (en) * | 1999-09-22 | 2001-03-22 | Ibm Canada Limited-Ibm Canada Limitee | Method and apparatus for cross-node sharing of instructions in a multiple node relational database management system environment |
CN102096684A (zh) * | 2009-12-11 | 2011-06-15 | 华大天元(北京)电力科技有限公司 | 电网实时数据集成与共享平台 |
CN104156832A (zh) * | 2014-08-28 | 2014-11-19 | 国家电网公司 | 系统间数据核对方法及装置 |
US20160124989A1 (en) * | 2014-10-29 | 2016-05-05 | Bank Of America Corporation | Cross platform data validation utility |
CN105787057A (zh) * | 2016-02-29 | 2016-07-20 | 浪潮通用软件有限公司 | 一种异构系统间业务数据自动同步的实现方法 |
CN107665195A (zh) * | 2016-07-27 | 2018-02-06 | 北京京东尚科信息技术有限公司 | 导入大数量数据的方法、装置及系统 |
CN107958082A (zh) * | 2017-12-15 | 2018-04-24 | 杭州有赞科技有限公司 | 数据库到数据仓库的离线增量同步方法及系统 |
CN110019315A (zh) * | 2018-06-19 | 2019-07-16 | 杭州数澜科技有限公司 | 一种用于数据血缘解析的方法和装置 |
CN109669977A (zh) * | 2018-11-30 | 2019-04-23 | 金蝶软件(中国)有限公司 | 跨数据库的数据接入方法、装置、计算机设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988817A (zh) * | 2021-04-12 | 2021-06-18 | 携程旅游网络技术(上海)有限公司 | 数据比对方法、系统、电子设备和存储介质 |
CN112988817B (zh) * | 2021-04-12 | 2024-03-12 | 携程旅游网络技术(上海)有限公司 | 数据比对方法、系统、电子设备和存储介质 |
CN113138986A (zh) * | 2021-04-23 | 2021-07-20 | 上海中通吉网络技术有限公司 | 一种数据库分表数据的抽取方法、装置及系统 |
CN114116681A (zh) * | 2022-01-21 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 数据迁移方法及装置 |
CN114116681B (zh) * | 2022-01-21 | 2022-07-15 | 阿里巴巴(中国)有限公司 | 数据迁移方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112434087B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434087B (zh) | 一种跨系统数据比对方法、装置、电子设备及存储介质 | |
CN110162526B (zh) | 一种块链式账本中数据记录的查询方法、装置及设备 | |
CN110162512B (zh) | 一种日志检索方法、装置及存储介质 | |
US9239743B2 (en) | Method and architecture for exception and event management in an embedded software system | |
CN114417408B (zh) | 数据处理方法、装置、设备以及存储介质 | |
CN111339073A (zh) | 实时数据处理方法、装置、电子设备及可读存储介质 | |
EP2763055B1 (en) | A telecommunication method and mobile telecommunication device for providing data to a mobile application | |
CN110019498B (zh) | 日志同步方法及装置、存储介质、电子设备 | |
CN108959279B (zh) | 数据处理方法、数据处理装置、可读介质及电子设备 | |
CN107066519A (zh) | 一种任务检测方法及装置 | |
CN114722119A (zh) | 数据同步方法及系统 | |
CN115599769A (zh) | 一种数据迁移方法、装置、电子设备及存储介质 | |
CN108241676A (zh) | 实现数据同步的方法及设备 | |
US11816163B2 (en) | Systems and methods for improved transactional mainframes | |
CN115757616A (zh) | 一种基于二进制日志的数据一致性校验方法、装置及介质 | |
CN112905668B (zh) | 基于分布式数据流处理引擎的数据库导数方法、设备和介质 | |
CN115470235A (zh) | 一种数据处理方法、装置以及设备 | |
WO2023197851A1 (zh) | 异常组件的识别方法、装置、设备、存储介质及程序产品 | |
CN115495082B (zh) | Tlv格式数据自动转换方法及相关设备 | |
CN115391015A (zh) | 基于测试框架的跑批处理方法、装置、电子设备及介质 | |
CN114443042A (zh) | 基于规则引擎的服务编排执行方法及相关设备 | |
US9508062B2 (en) | Problem management record profiling | |
CN112463785A (zh) | 一种数据质量监控方法、装置、电子设备及存储介质 | |
WO2021133448A1 (en) | Edge table representation of processes | |
US20140074869A1 (en) | Autoclassifying compound documents for enhanced metadata search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |