CN115630018A - 一种基于大数据数据仓库的自动化迁移方法 - Google Patents
一种基于大数据数据仓库的自动化迁移方法 Download PDFInfo
- Publication number
- CN115630018A CN115630018A CN202211410421.2A CN202211410421A CN115630018A CN 115630018 A CN115630018 A CN 115630018A CN 202211410421 A CN202211410421 A CN 202211410421A CN 115630018 A CN115630018 A CN 115630018A
- Authority
- CN
- China
- Prior art keywords
- data
- migration
- logic
- module
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013508 migration Methods 0.000 title claims abstract description 155
- 230000005012 migration Effects 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims description 32
- 238000003860 storage Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/119—Details of migration of file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于大数据数据仓库的自动化迁移方法,该方法包括步骤:S1:配置基础信息;S2:启动外部调度程序收集系统编码,根据系统编码查询数据源,并将数据源中的配置信息加载至内存;S3:将配置信息封装成运行参数;S4:对数据仓库中ODS层的表进行初始化操作;S5:开启数据源迭代,创建数据迁移任务,并同时启动定时倒计时程序;S6:判定数据迁移逻辑,并进行逻辑处理,执行迁移任务;S7:根据定时倒计时程序,判定迁移任务是否超时。本发明所述方法通过配置的方式快速生成迁移任务,能够更灵活的处理迁移过程中的异常情况,减少重复工作和操作失误,节约人工成本和时间成本。
Description
技术领域
本发明涉及大数据迁移技术领域,尤其涉及一种数据仓库的自动化迁移方法。
背景技术
在大数据的数据仓库建设过程中,数据仓库需要迁移汇总分散在各个系统中的结构化数据和非结构化数据,例如业务数据、日志,NoSQL等,用于后续业务的统计分析、预测及建模使用。
发明人经过研究发现,在现有技术下,想要在数据仓库中对异构数据进行迁移融合,存在以下几个问题:
一是迁移数据任务数量多,所有迁移任务都需要代码开发,迁移逻辑代码重复度较高,开发人员需要做大量的重复开发工作;在遇到紧急需求时,开发后的代码需要进行开发自测、提交测试等环节,无法敏捷应对需求。
二是数据清洗逻辑易出错;在数据仓库中,不同层级之间需要进行数据清洗、加工等逻辑操作和标准化操作,数据清洗的质量会受到测试的充分程度、开发编写代码质量等因素的影响。即使经过充分的测试,由于部分逻辑的特殊性,依然会在生产环境下产生未知问题。
三是迁移异常时,无后续处理机制,易导致大数据集群整体数据产出延迟。例如迁移任务突然中断导致当前迁移任务失败,从而导致后续数据仓库中的统计分析任务统计结果错误;例如迁移任务长时间无响应,但超时预警时间为统一设置,没有针对不同的迁移任务特定设置,导致触发超时慢,影响后续数据产出时间等。
四是数据仓库中数据结构维护耗费大量人力成本和时间成本;在上游数据结构发生变化但未及时通知数据仓库时,数据仓库中的数据就会缺失,在需要使用上由系统变更字段时,开发人员需要先进行字段对应;由于通常情况下上游系统会有很多,因此需要大量开发人员进行字段维护。
因此,亟需一种大数据数据仓库的自动化迁移方法,突破现有技术的局限性,能够通过配置的方式进行数据迁移,自动化完成数据清洗操作,灵活的处理迁移过程中的异常情况,并自动恢复迁移任务,减少重复的开发工作,节约人力成本和时间成本,提高迁移效率,减少对数据仓库后续统计的影响和人为原因导致的生产环境问题;
发明内容
有鉴于此,本发明提供了一种基于大数据数据仓库的自动化迁移方法,可以通过配置的方式快速生成迁移任务,减少重复的开发工作,减少数据清洗过程中因人为导致的生产环境问题,能够更灵活的处理迁移过程中的异常情况,可以自动根据上游业务变更,在数据迁移前,动态生成变更语句,减少人力成本和时间成本。
一种基于大数据数据仓库的自动化迁移方法,该方法包括:
配置基础信息;
启动外部调度程序收集系统编码,根据系统编码查询数据源,并将数据源中的配置信息加载至内存;根据迁移任务表中的执行记录,判定数据源是否已执行完毕,如已执行完毕,则本次不再执行;
将配置信息封装成运行参数;
对数据仓库中ODS层的表进行初始化操作;
开启数据源迭代,创建数据迁移任务,并同时启动定时倒计时程序;
判定数据迁移逻辑,并进行逻辑处理,执行迁移任务;
根据定时倒计时程序,判定迁移任务是否超时。
可选地,一种基于大数据数据仓库的自动化迁移方法,还包括:
该方法分为八个系统模块,具体包括:配置模块、关系型数据库读取模块、日志读取模块、迁入逻辑模块、迁出逻辑模块、分布式文件写入模块、关系型数据库写入模块、监控模块;
所述配置模块用来配置大数据平台数据仓库迁移的基础信息,并记录迁移关系、清洗规则、迁移方式等信息;
所述关系型数据库读取模块为关系型数据库查询语句,根据输入的查询语句,将数据从数据源中读取出来并加载至内存;
所述日志读取模块为日志文件路径及记录行数,根据输入的文件信息,将数据从相应的日志中读出并加载到内存;
所述迁入逻辑模块为根据配置模块中数据源的信息,生成读取数据源的查询语法或查询日志文件路径,调用相应的读取模块数据,并根据写入目标表的不同,选择性的调用对应的写入模块,将数据写入目标存储中。
所述迁出逻辑模块为根据配置模块中数据源的信息,生成大数据数据仓库中的查询语法,调用相应的读取模块数据,调用关系型数据库写入模块,将数据写入目标存储中;
所述分布式文件写入模块输入为分布式文件系统的文件路径,根据输入的文件路径,将内存中指定对象的数据写入分布式文件系统的文件中;
所述关系型数据库写入模块输入为关系型数据库表,将内存中指定对象的数据输出至关系型数据库的输入表中;
所述监控模块用来执行本方法所述定时倒计时程序。
可选地,所述配置模块可配置的信息,具体包括:
需要迁移的原始数据源;所述原始数据源包括关系型数据库表、日志文件、非关系型数据库表;
迁移目标表;所述迁移目标表可以为关系型数据,也可以为大数据集群中的分布式文件系统,并支持多个层级的目标表配置;
清洗规则;所述清洗规则包括支持默认值填充、按主键数据去重、关联指定维度表、字段重命名等方式,不同层级之间表都可以配置独立的规则;
离线迁移或实时迁移;所述离线迁移是指迁移前一日数据;所述实时迁移是指迁移当日数据;
迁移方式;所述迁移方式包括增量迁移数据和全量迁移数据,既可以迁移当日数据,也可以迁移离线数据。
可选地,对数据仓库中ODS层的表进行初始化操作,具体包括:
创建分区、重复迁移时删除数据等预处理操作。
可选地,开启数据源迭代,创建数据迁移任务,并同时启动定时倒计时程序,还包括:
所述数据源迭代,当数据源有n条时,按照1、2...n的顺序对每一条数据源进行顺序迭代;
所述创建数据迁移任务,还包括:数据迁移任务创建成功,则执行下一步骤;数据迁移任务创建失败,则无需继续执行迁移任务;
可选地,判定数据迁移逻辑,并进行逻辑处理,执行迁移任务,还包括:
所述数据迁移逻辑分为迁入逻辑和迁出逻辑;
所述迁入逻辑为将数据源数据写入大数据数据仓库中;
所述迁出逻辑为将大数据数据仓库数据写入统计系统对应的数据库;
所述迁移任务还包括根据运行参数,逐一匹配数据源和目标表中的字段位置,生成符合规范的查询语句,将数据从数据源中查询出来并转发至转换模块,转换模块再将数据转发至目标存储。
可选地,迁入逻辑,具体包括:
所述迁入逻辑分为迁移逻辑层和清洗逻辑层;
所述迁移逻辑层逻辑处理为将数据从业务数据库中迁移至数据接入层;
所述清洗逻辑层逻辑处理为将数据从数据接入层中迁移至明细数据层;
可选地,所述迁移逻辑层和清洗逻辑层,具体包括:
所述迁移逻辑层包括根据数据源表配置,查询对应数据表的表结构和数据接入层目标表中的表结构,并执行字段差分逻辑,将业务数据层和数据接入层表结构修改一致;根据配置生成迁移脚本,进行业务逻辑处理并生成待执行任务脚本;启动待执行任务脚本,分别调用读取程序和写入程序,将数据从业务数据库中迁移至数据接入层;
所述清洗逻辑层包括将配置库中的清洗规则加载至内存后,在生成迁移代码时,将清洗规则动态拼接,完成清洗;还包括将物理删除的数据通过日志的方式拉取至大数据数据仓库中,并按日进行删除数据去重;
所述数据接入层和明细数据层均在大数据数据仓库中,可以通过大数据数据仓库语法进行逻辑处理。
可选地,所述字段差分逻辑,具体包括:
同时查询数据源的表结构和数据接入层的表结构,将表结构逐条加载到内存中进行比对;如发现数据接入层表字段数为0,则说明数据接入层表不存在,会调取创建表逻辑,将数据源表中的字段动态转化成数据接入层兼容的字段类型,动态生成创建语法,在目标数据接入层执行后,创建数据接入层目标表;如发现数据接入层表字段数大于0,并且数据源表和数据接入层目标表中字段数量不一致,比对出差异字段后,会生成数据接入层识别的字段类型及修改表结构语法,将数据接入层的目标表修至结构一致后,再进行后续的数据迁移动作。
可选地,所述定时倒计时程序,具体包括:
取历史一个月内数据迁移任务平均执行时长作为定时时长进行倒计时设置,倒计时结束前所述数据迁移任务结束,则流程结束;倒计时结束时所述数据迁移任务依未结束,则强制终止迁移任务,并在其他同类任务执行完成后继续重试。
本发明提供的一种基于大数据数据仓库的自动化迁移方法通过合理的模块设计,兼容各种数据的读写,能够通过配置的方式快速生成迁移任务;通过预置的清洗算法,减少可能出现的编程错误;支持多种配置场景,多种方式灵活完成数据迁移;支持自动更新目标表,减少人工成本和时间成本;突破了现有技术的局限性。
附图说明
构成本申请的一部分附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,显而易见地,下面描述中的附图仅仅是本申请中记载的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的摘要附图。
图2为本发明实施例提供的一种大数据数据仓库的自动化迁移方法流程示意图。
图3为本发明实施例提供的一种大数据数据仓库的自动化迁移方法系统模块图。
图4为本发明实施例提供的一种大数据数据仓库的自动化迁移方法数据源与目标存储关系图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他所有实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法固有的其他步骤或单元。
在本实施例中提供了一种基于大数据数据仓库的自动化迁移方法,图2 是本发明实施例的一种基于大数据数据仓库的自动化迁移方法的流程示意图,如图2所示,在本实施例中,所述方法例如可以包括以下步骤:
S001:启动外部调度程序,启动大数据迁移任务;
S002:抽取外部调度程序的参数,并将外部参数进行封装;对于无法抽取的参数,设置预定默认值,并对参数的合法性进行验证;
S003:根据收集到的系统参数编码查询配置数据库中心的系统信息,并将系统信息加载至内存,同时将分布式文件系统的对应库信息、表信息加载至内存;
S004:查询配置模块中对应的系统需要迁移的数据源信息,获取即将要迭代的数据源;
S005:将上述步骤中查询的信息进行封装,作为代码切换的上下文使用;
S006:对数据仓库中ODS层的表进行初始化操作;例如创建分区、重复迁移时删除数据等预处理操作;
S007:开启数据源迭代,创建数据迁移任务;当数据源有n条时,按照1、 2...n的顺序对每一条数据源进行顺序迭代;每次迭代都会进行创建迁移任务操作,若数据迁移任务创建成功,则执行下一步骤;若数据迁移任务创建失败,则无需继续执行迁移任务;
需要说明的是,操作过程中,存在多种可能导致数据迁移任务创建失败的原因,例如:手动调用并且触发监控模块的重试机制、迁移当日任务时触发监控模块的重试机制、同一数据源的离线迁移任务当日已执行完毕等;
S008:判定数据迁移逻辑,并进行逻辑处理,执行迁移任务;
所述迁移任务还包括根据运行参数,逐一匹配数据源和目标表中的字段位置,生成符合规范的查询语句,将数据从数据源中查询出来并转发至转换模块,转换模块再将数据转发至目标存储。
所述数据迁移逻辑分为迁入逻辑和迁出逻辑;所述迁入逻辑为将数据源数据写入大数据数据仓库中;所述迁出逻辑为将大数据数据仓库数据写入统计系统对应的数据库;
所述迁入逻辑分为迁移逻辑层和清洗逻辑层;
所述迁移逻辑层逻辑处理为将数据从业务数据库中迁移至数据接入层,数据接入层在大数据数据仓库中,可以通过大数据数据仓库语法进行逻辑处理;迁移逻辑层包括根据数据源表配置,查询对应数据表的表结构和数据接入层目标表中的表结构,并执行字段差分逻辑,将业务数据层和数据接入层表结构修改一致;根据配置生成迁移脚本,进行业务逻辑处理并生成待执行任务脚本;启动待执行任务脚本,分别调用读取程序和写入程序,将数据从业务数据库中迁移至数据接入层;
所述字段差分逻辑为同时查询数据源的表结构和数据接入层的表结构,将表结构逐条加载到内存中进行比对;如发现数据接入层表字段数为0,则说明数据接入层表不存在,会调取创建表逻辑,将数据源表中的字段动态转化成数据接入层兼容的字段类型,动态生成创建语法,在目标数据接入层执行后,创建数据接入层目标表;如发现数据接入层表字段数大于0,并且数据源表和数据接入层目标表中字段数量不一致,比对出差异字段后,会生成数据接入层识别的字段类型及修改表结构语法,将数据接入层的目标表修至结构一致后,再进行后续的数据迁移动作。
所述清洗逻辑层逻辑处理为将数据从数据接入层中迁移至明细数据层,明细数据层在大数据数据仓库中,可以通过大数据数据仓库语法进行逻辑处理;清洗逻辑层包括将配置库中的清洗规则加载至内存后,在生成迁移代码时,将清洗规则动态拼接,完成清洗;还包括将物理删除的数据通过日志的方式拉取至大数据数据仓库中,并按日进行删除数据去重;
S009:根据定时倒计时程序,判定迁移任务是否超时;
所述定时倒计时程序具体包括:取历史一个月内数据迁移任务平均执行时长作为定时时长进行倒计时设置,倒计时结束前所述数据迁移任务结束,则流程结束;倒计时结束时所述数据迁移任务依未结束,则强制终止迁移任务,并在其他同类任务执行完成后继续重试。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于大数据数据仓库的自动化迁移方法,其特征在于,包括以下步骤:
S1:配置基础信息;
S2:启动外部调度程序收集系统编码,根据系统编码查询数据源,并将数据源中的配置信息加载至内存;根据迁移任务表中的执行记录,判定数据源是否已执行完毕,如已执行完毕,则本次不再执行;
S3:将配置信息封装成运行参数;
S4:对数据仓库中ODS层的表进行初始化操作;
S5:开启数据源迭代,创建数据迁移任务,并同时启动定时倒计时程序;
S6:判定数据迁移逻辑,并进行逻辑处理,执行迁移任务;
S7:根据定时倒计时程序,判定迁移任务是否超时。
2.根据权利要求1所述一种基于大数据数据仓库的自动化迁移方法,其特征在于,分为八个系统模块,具体包括:
配置模块、关系型数据库读取模块、日志读取模块、迁入逻辑模块、迁出逻辑模块、分布式文件写入模块、关系型数据库写入模块、监控模块八个模块;
所述配置模块用来配置大数据平台数据仓库迁移的基础信息,并记录迁移关系、清洗规则、迁移方式等信息;
所述关系型数据库读取模块为关系型数据库查询语句,根据输入的查询语句,将数据从数据源中读取出来并加载至内存;
所述日志读取模块为日志文件路径及记录行数,根据输入的文件信息,将数据从相应的日志中读出并加载到内存;
所述迁入逻辑模块为根据配置模块中数据源的信息,生成读取数据源的查询语法或查询日志文件路径,调用相应的读取模块数据,并根据写入目标表的不同,选择性的调用对应的写入模块,将数据写入目标存储中。
所述迁出逻辑模块为根据配置模块中数据源的信息,生成大数据数据仓库中的查询语法,调用相应的读取模块数据,调用关系型数据库写入模块,将数据写入目标存储中;
所述分布式文件写入模块输入为分布式文件系统的文件路径,根据输入的文件路径,将内存中指定对象的数据写入分布式文件系统的文件中;
所述关系型数据库写入模块输入为关系型数据库表,将内存中指定对象的数据输出至关系型数据库的输入表中;
所述监控模块用来执行权利要求1所述定时倒计时程序。
3.根据权利要求2所述配置模块,其特征在于,具体包括:
所述配置模块可配置的信息包括:
需要迁移的原始数据源;所述原始数据源包括关系型数据库表、日志文件、非关系型数据库表;
迁移目标表;所述迁移目标表可以为关系型数据,也可以为大数据集群中的分布式文件系统,并支持多个层级的目标表配置;
清洗规则;所述清洗规则包括支持默认值填充、按主键数据去重、关联指定维度表、字段重命名等方式,不同层级之间表都可以配置独立的规则;
离线迁移或实时迁移;所述离线迁移是指迁移前一日数据;所述实时迁移是指迁移当日数据;
迁移方式;所述迁移方式包括增量迁移数据和全量迁移数据,既可以迁移当日数据,也可以迁移离线数据。
4.根据权利要求1所述一种基于大数据数据仓库的自动化迁移方法,其特征在于,步骤S4,具体包括:
创建分区、重复迁移时删除数据等预处理操作。
5.根据权利要求1所述一种基于大数据数据仓库的自动化迁移方法,其特征在于,步骤S5,还包括:
所述数据源迭代,当数据源有n条时,按照1、2...n的顺序对每一条数据源进行顺序迭代;
所述创建数据迁移任务,还包括:数据迁移任务创建成功,则执行下一步骤;数据迁移任务创建失败,则无需继续执行迁移任务。
6.根据权利要求1所述一种基于大数据数据仓库的自动化迁移方法,其特征在于,步骤S6,还包括:
所述数据迁移逻辑分为迁入逻辑和迁出逻辑;
所述迁入逻辑为将数据源数据写入大数据数据仓库中;
所述迁出逻辑为将大数据数据仓库数据写入统计系统对应的数据库;
所述迁移任务还包括根据运行参数,逐一匹配数据源和目标表中的字段位置,生成符合规范的查询语句,将数据从数据源中查询出来并转发至转换模块,转换模块再将数据转发至目标存储。
7.根据权利要求6所述迁入逻辑,其特征在于,具体包括:
所述迁入逻辑分为迁移逻辑层和清洗逻辑层;
所述迁移逻辑层逻辑处理为将数据从业务数据库中迁移至数据接入层;
所述清洗逻辑层逻辑处理为将数据从数据接入层中迁移至明细数据层。
8.根据权利要求7所述迁移逻辑层和清洗逻辑层,其特征在于,具体包括:所述迁移逻辑层包括根据数据源表配置,查询对应数据表的表结构和数据接入层目标表中的表结构,并执行字段差分逻辑,将业务数据层和数据接入层表结构修改一致;根据配置生成迁移脚本,进行业务逻辑处理并生成待执行任务脚本;启动待执行任务脚本,分别调用读取程序和写入程序,将数据从业务数据库中迁移至数据接入层;
所述清洗逻辑层包括将配置库中的清洗规则加载至内存后,在生成迁移代码时,将清洗规则动态拼接,完成清洗;还包括将物理删除的数据通过日志的方式拉取至大数据数据仓库中,并按日进行删除数据去重;
所述数据接入层和明细数据层均在大数据数据仓库中,可以通过大数据数据仓库语法进行逻辑处理。
9.根据权利要求8所述字段差分逻辑,其特征在于,具体包括:
同时查询数据源的表结构和数据接入层的表结构,将表结构逐条加载到内存中进行比对;如发现数据接入层表字段数为0,则说明数据接入层表不存在,会调取创建表逻辑,将数据源表中的字段动态转化成数据接入层兼容的字段类型,动态生成创建语法,在目标数据接入层执行后,创建数据接入层目标表;如发现数据接入层表字段数大于0,并且数据源表和数据接入层目标表中字段数量不一致,比对出差异字段后,会生成数据接入层识别的字段类型及修改表结构语法,将数据接入层的目标表修至结构一致后,再进行后续的数据迁移动作。
10.根据权利要求1所述一种基于大数据数据仓库的自动化迁移方法,其特征在于,步骤S7所述定时倒计时程序,具体包括:
取历史一个月内数据迁移任务平均执行时长作为定时时长进行倒计时设置,倒计时结束前所述数据迁移任务结束,则流程结束;倒计时结束时所述数据迁移任务依未结束,则强制终止迁移任务,并在其他同类任务执行完成后继续重试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211410421.2A CN115630018A (zh) | 2022-11-03 | 2022-11-03 | 一种基于大数据数据仓库的自动化迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211410421.2A CN115630018A (zh) | 2022-11-03 | 2022-11-03 | 一种基于大数据数据仓库的自动化迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115630018A true CN115630018A (zh) | 2023-01-20 |
Family
ID=84910059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211410421.2A Pending CN115630018A (zh) | 2022-11-03 | 2022-11-03 | 一种基于大数据数据仓库的自动化迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630018A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069775A (zh) * | 2023-04-06 | 2023-05-05 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
CN117891803A (zh) * | 2024-01-11 | 2024-04-16 | 国金证券股份有限公司 | 基于数据库的迁移方法、装置、介质 |
-
2022
- 2022-11-03 CN CN202211410421.2A patent/CN115630018A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069775A (zh) * | 2023-04-06 | 2023-05-05 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
CN116069775B (zh) * | 2023-04-06 | 2023-08-22 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
CN117891803A (zh) * | 2024-01-11 | 2024-04-16 | 国金证券股份有限公司 | 基于数据库的迁移方法、装置、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115630018A (zh) | 一种基于大数据数据仓库的自动化迁移方法 | |
EP3798846B1 (en) | Operation and maintenance system and method | |
CN107273286B (zh) | 针对任务应用的场景自动化测试平台及方法 | |
US4595981A (en) | Method of testing interfaces between computer program modules | |
CN111400198B (zh) | 一种自适应的软件测试系统 | |
CN108710684B (zh) | Etl任务数据源切换方法、系统、计算机设备和存储介质 | |
CN111462811A (zh) | 自动化测试方法、装置、存储介质和电子设备 | |
CN107179982B (zh) | 一种跨进程调试方法和装置 | |
US20050144596A1 (en) | Method and apparatus for parallel action processing | |
US20240281454A1 (en) | Maintenance events in a data replication system | |
CN113641739B (zh) | 一种基于Spark的智能数据转换方法 | |
CN110825816B (zh) | 对分片数据库数据采集的系统和方法 | |
CN112181951A (zh) | 一种异构数据库数据迁移方法、装置及设备 | |
KR101252358B1 (ko) | Plc 명령어 테스트 장치 및 방법 | |
CN116521134A (zh) | 在ci流水线执行过程中修改其参数的方法、装置及介质 | |
CN114996039A (zh) | 基于第三方系统对接的云原生系统联调方法、系统及介质 | |
CN116149707B (zh) | 分布式系统的升级风险检测和规避方法及装置 | |
CN112905438A (zh) | 一种自动化测试方法及装置 | |
CN118503139B (zh) | 一种三维cad系统的自动化测试方法、设备及介质 | |
CN117112498B (zh) | 应用迁移方法、装置、电子设备和存储介质 | |
CN117992436B (zh) | 基于不同类型数据库的信息系统自动改造方法及设备 | |
CN115951893B (zh) | 一种半导体加工脚本获取方法、系统、设备及存储介质 | |
JP2578887B2 (ja) | プログラムのテスト方式 | |
CN113010497A (zh) | 一种数据库迁移方法、装置、设备及存储介质 | |
CN113986300A (zh) | 智能合约的部署方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 29 Lishui Park, Dalian High tech Industrial Park, Liaoning Province, 116000 Applicant after: WEISHENMA TECHNOLOGY (DALIAN) CO.,LTD. Address before: 116000 floor 20, block a, Sanfeng building, No. 6a, Yiyang Road, Dalian high tech Industrial Park, Dalian, Liaoning Province Applicant before: WEISHENMA TECHNOLOGY (DALIAN) CO.,LTD. Country or region before: China |
|
CB02 | Change of applicant information |