CN116860723A - 跨计算中心数据迁移方法 - Google Patents
跨计算中心数据迁移方法 Download PDFInfo
- Publication number
- CN116860723A CN116860723A CN202311129776.9A CN202311129776A CN116860723A CN 116860723 A CN116860723 A CN 116860723A CN 202311129776 A CN202311129776 A CN 202311129776A CN 116860723 A CN116860723 A CN 116860723A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- computing center
- migration
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 124
- 230000005012 migration Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012986 modification Methods 0.000 claims abstract description 30
- 230000004048 modification Effects 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 29
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种跨计算中心数据迁移方法,包括:响应于作业调度需求,根据作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心;根据作业调度需求中的数据要求确定目标作业数据,并获取目标作业数据的元数据信息,其中,元数据信息包括数据的名称、ID、已迁移的分中心和最后一次修改时间中的至少一者;根据元数据信息得到目标作业数据的历史迁移记录,并根据历史迁移记录对候选计算中心进行筛选,得到目标计算中心;根据目标计算中心及其存储数据的历史迁移记录、元数据信息,以及目标作业数据当前存储的计算中心对目标作业数据进行迁移。本发明实施例的跨计算中心数据迁移方法能够提高作业调度的效率,降低出错率。
Description
技术领域
本发明涉及数据迁移技术领域,特别涉及一种跨计算中心数据迁移方法。
背景技术
在当前的算力联盟中,作业调度器的作业分配机制主要依赖于作业所需的数据集和模型的分布。在进行作业调度时,调度器需要判断哪些计算中心同时存在这些数据集和模型,然后才能将作业调度到拥有这些资源的计算中心。然而,该调度方式存在以下主要问题:1.数据依赖问题:作业的调度和执行过程严重依赖于数据集和模型的分布情况,即只有那些拥有特定数据和模型的计算中心才能接收和执行作业。这不仅限制了作业调度的灵活性,也使得作业在多计算中心之间的调度和执行变得复杂和困难。2.数据迁移问题:在相关技术中,如果需要将作业调度到其他计算中心,通常需要手动迁移数据集和模型,该过程既耗时又容易出错,严重影响了算力联盟的工作效率。3.资源利用不均问题:由于作业的调度主要基于数据和模型的分布,可能导致一部分计算中心的资源被过度使用,而其他计算中心的资源被低度利用或闲置,导致资源利用率不均,从而影响算力联盟的整体性能。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的在于提出一种跨计算中心数据迁移方法,以提高作业调度的效率。
为达到上述目的,本发明实施例提出了一种跨计算中心数据迁移方法,所述方法包括:响应于作业调度需求,根据所述作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心;根据所述作业调度需求中的数据要求确定目标作业数据,并获取所述目标作业数据的元数据信息,其中,所述元数据信息包括数据的名称、ID、已迁移的分中心和最后一次修改时间中的至少一者,所述元数据信息存储于迁移记录表中;根据所述元数据信息得到所述目标作业数据的历史迁移记录,并根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心;根据所述目标计算中心及其存储数据的历史迁移记录、元数据信息,以及所述目标作业数据当前存储的计算中心对所述目标作业数据进行迁移。
另外,本发明实施例的跨计算中心数据迁移方法还可以具有如下附加技术特征:
根据本发明的一个实施例,将迁移至所述目标计算中心的目标作业数据记为已迁移数据,在将所述目标作业数据迁移至所述目标计算中心之后,所述方法还包括:根据所述已迁移数据,对所述迁移记录表进行更新,并返回所述已迁移数据在所述目标计算中心的访问地址。
根据本发明的一个实施例,对所述目标作业数据进行迁移,并对所述迁移记录表进行更新,包括:当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间相同时,不对所述迁移记录表进行更新;当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间不相同时,对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新;当所述目标计算中心未发生过数据迁移时,将所述目标作业数据同步至所述目标计算中心,并对所述迁移记录表进行更新。
根据本发明的一个实施例,所述对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新,包括:比较所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息,确定不一致的数据;在存储所述目标作业数据的计算中心和所述目标计算中心之间建立增量同步,并传输所述不一致的数据至所述目标计算中心;校验所述目标计算中心中数据是否完整;若所述目标计算中心中数据不完整,则重新传输所述不一致的数据至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤;若所述目标计算中心中数据完整,则根据所述传输结果,对所述迁移记录表进行更新。
根据本发明的一个实施例,所述在将所述目标作业数据同步至所述目标计算中心之后,所述方法还包括:校验所述目标计算中心中数据是否完整;若所述目标计算中心中数据不完整,则重新将所述目标作业数据同步至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤。
根据本发明的一个实施例,所述根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心,包括:对所述候选计算中心进行初始排序,并保留前f%的候选计算中心;根据所述历史迁移记录,对所述前f%的候选计算中心进行筛选排序,根据筛选排序结果,得到所述目标计算中心。
根据本发明的一个实施例,所述对所述候选计算中心进行初始排序,包括:
通过下式对第个候选计算中心进行打分:
其中,表示第/>个候选计算中心的初始得分,/>表示第/>个候选计算中心的CPU利用率得分,/>表示第/>个候选计算中心的内存使用占比得分。
根据每个候选计算中心的初始得分,对候选计算中心从高到低进行排序。
所述对所述前f%的候选计算中心进行筛选排序,包括:
通过下式对第个候选计算中心进行打分:
其中,表示第/>个候选计算中心的筛选得分,当所述历史迁移记录中存在第/>个候选计算中心的数据迁移记录时,/>为n,当所述历史迁移记录中不存在第/>个候选计算中心的数据迁移记录时,/>为0。
根据每个候选计算中心的筛选得分,对候选计算中心从高到低进行排序。
根据本发明的一个实施例,当所述筛选排序结果存在多个相同最高分的候选计算中心中时,选择多个相同最高分的候选计算中心中存储数据的最后一次修改时间与所述目标作业数据的元数据信息中最后一次修改时间相同的候选计算中心作为所述目标计算中心。
根据本发明的一个实施例,在所述根据所述已迁移数据,对所述迁移记录表进行更新之后,所述方法还包括:对所述目标计算中心中的数据进行作业,并在作业完成后,将所述迁移记录表中对应的已迁移数据的迁移状态修改为已完成;定时删除所述目标计算中心中迁移状态为已完成的已迁移数据。
根据本发明的一个实施例,所述定时删除所述目标计算中心中迁移状态为已完成的已迁移数据,包括:定时扫描所述迁移记录表,获取目标已迁移数据的ID;根据所述目标已迁移数据的ID,查询所述目标已迁移数据的作业是否完成;若完成,则判断所述目标已迁移数据的最后一个作业完成时间是否超过目标时间区间;若超过,则将所述目标已迁移数据从所述目标计算中心中删除。
本发明实施例的跨计算中心数据迁移方法,通过在当前可迁移的计算中心筛选出目标计算中心,能够提高作业调度的效率,降低出错率。通过当前可迁移的计算中心资源,筛选出候选计算中心,能够提高各计算中心的资源利用率,减少资源的闲置。同时,能够在不依赖特定计算中心的数据和模型的前提下进行调度,提高了作业调度的灵活性。
附图说明
图1是本发明一实施例的跨计算中心数据迁移方法的流程示意图;
图2是本发明一实施例的计算中心缓存数据的清理流程示意图;
图3是本发明一实施例的作业提交流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的跨计算中心数据迁移方法。
图1是本发明一实施例的跨计算中心数据迁移方法的流程示意图。
如图1所示,跨计算中心数据迁移方法包括:
S1,响应于作业调度需求,根据作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心。
S2,根据作业调度需求中的数据要求确定目标作业数据,并获取目标作业数据的元数据信息,其中,元数据信息包括数据的名称、ID(Identification,身份标识)、已迁移的分中心和最后一次修改时间中的至少一者,元数据信息存储于迁移记录表中。
作为一个示例,用户可在数据中心创建用于机器学习训练的原始数据集D1;接着对原始数据集D1进行预处理、清洗等操作,得到作业数据;将作业数据存储至预备计算中心等待迁移,同时,获取作业数据的元数据信息并存储至迁移记录表中。
作为另一个示例,作业调度需求可为用户选择的镜像和资源配置。
需要说明的是,迁移记录表可由数据迁移服务模块进行维护。
S3,根据元数据信息得到目标作业数据的历史迁移记录,并根据历史迁移记录对候选计算中心进行筛选,得到目标计算中心。
S4,根据目标计算中心及其存储数据的历史迁移记录、元数据信息,以及目标作业数据当前存储的计算中心对目标作业数据进行迁移。
本发明实施例的跨计算中心数据迁移方法,通过在当前可迁移的计算中心筛选出目标计算中心,能够提高作业调度的效率,降低出错率。通过当前可迁移的计算中心资源,筛选出候选计算中心,能够提高各计算中心的资源利用率,减少资源的闲置。同时,能够在不依赖特定计算中心的数据和模型的前提下进行调度,提高了作业调度的灵活性。
在本发明的一些实施例中,将迁移至目标计算中心的目标作业数据记为已迁移数据,在将目标作业数据迁移至目标计算中心之后,跨计算中心数据迁移方法还包括:根据已迁移数据,对迁移记录表进行更新,并返回已迁移数据在目标计算中心的访问地址。
在该实施例中,通过对迁移记录表进行更新,便于后期其他目标作业数据的迁移,能够提高作业调度的效率。
在本发明的一些实施例中,对目标作业数据进行迁移,并对迁移记录表进行更新,包括:
S51,当目标计算中心已发生过数据迁移,且目标作业数据的元数据信息中的最后一次修改时间和目标计算中心中存储数据的最后一次修改时间相同时,不对迁移记录表进行更新。
需要说明的是,若目标作业数据的元数据信息中的最后一次修改时间和目标计算中心中存储数据的最后一次修改时间相同,则表明目标作业数据与目标计算中心中存储数据是一致的,可通过数据迁移服务模块直接返回目标计算中心中存储数据的访问地址。
S52,当目标计算中心已发生过数据迁移,且目标作业数据的元数据信息中的最后一次修改时间和目标计算中心中存储数据的最后一次修改时间不相同时,对目标作业数据的元数据信息和目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对迁移记录表进行更新。
需要说明的是,若目标作业数据的元数据信息中的最后一次修改时间和目标计算中心中存储数据的最后一次修改时间不相同,则表明目标作业数据与目标计算中心中存储数据是不一致的。
S53,当目标计算中心未发生过数据迁移时,将目标作业数据同步至目标计算中心,并对迁移记录表进行更新。
需要说明的是,目标作业数据同步或迁移至目标计算中心的缓存区。
作为一个示例,更新迁移记录表的内容包括:迁移数据的大小、最后修改时间等。
在该实施例中,通过判断目标计算中心是否已发生过数据迁移,目标作业数据的元数据信息中的最后一次修改时间和目标计算中心中存储数据的最后一次修改时间是否相同,能够根据不同的情况,选择迁移的数据,从而提高作业调度的效率。
在本发明的一些实施例中,对目标作业数据的元数据信息和目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对迁移记录表进行更新,包括:
S521,比较目标作业数据的元数据信息和目标计算中心中存储数据的元数据信息,确定不一致的数据。
S522,在存储目标作业数据的计算中心和目标计算中心之间建立增量同步,并传输不一致的数据至目标计算中心。
S523,校验目标计算中心中数据是否完整。
S524,若目标计算中心中数据不完整,则重新传输不一致的数据至目标计算中心,并返回校验目标计算中心中数据是否完整的步骤。
S525,若目标计算中心中数据完整,则根据传输结果,对迁移记录表进行更新。
具体地,数据迁移服务模块可在数据负载中心启动数据同步服务模块;使用数据同步服务模块建立计算中心的增量同步和校验目标计算中心中数据是否完整。
在该实施例中,通过校验目标计算中心中数据是否完整,能够降低数据迁移的出错率,提高工作效率。
在本发明的一些实施例中,在将目标作业数据同步至目标计算中心之后,跨计算中心数据迁移方法还包括:
S531,校验目标计算中心中数据是否完整。
S532,若目标计算中心中数据不完整,则重新将目标作业数据同步至目标计算中心,并返回校验目标计算中心中数据是否完整的步骤。
作为一个示例,数据同步服务模块在校验目标计算中心中数据是否完整时,可校验目标计算中心中数据的哈希值,以确定目标计算中心中数据是否完整。
在该实施例中,在校验目标计算中心中数据不完整后,及时进行数据的重新传输,能够避免错误数据对之后的训练作业的影响。
在本发明的一些实施例中,根据历史迁移记录对候选计算中心进行筛选,得到目标计算中心,包括:
S31,对候选计算中心进行初始排序,并保留前f%的候选计算中心。
作为一个示例,根据各个候选计算中心的资源利用率和负载情况,对各个候选计算中心进行打分,分数越高,调度优先级越高。
S32,根据历史迁移记录,对前f%的候选计算中心进行筛选排序,根据筛选排序结果,得到目标计算中心。
作为一个示例,作业控制器将目标作业数据的元数据信息发送给数据迁移服务模块。数据迁移服务模块根据元数据信息,查询自己维护的迁移记录表。如果目标作业数据之前发生过迁移,且初步筛选出的A计算中心和B计算中心,目标作业数据有往A计算中心的迁移记录无B计算中心的迁移记录,则A计算中心加分,B计算中心不加分。
在该实施例中,先进行初始排序,确定候选计算中心,再进行筛选排序确定目标计算中心,能够快速确定需要的计算中心,提高计算中心的资源利用率。
在本发明的一些实施例中,对候选计算中心进行初始排序,包括:
S311,通过下式对第个候选计算中心进行打分:
其中,表示第/>个候选计算中心的初始得分,/>表示第/>个候选计算中心的CPU(Central Processing Unit,中央处理器)利用率得分,/>表示第/>个候选计算中心的内存使用占比得分。
作为一个示例,当计算中心的CPU利用率为g%时,CPU利用率得分为(100-g)/10;当计算中心的内存使用占比为m%时,内存使用占比得分/>为(100-m)/10。
S312,根据每个候选计算中心的初始得分,对候选计算中心从高到低进行排序。
作为一个示例,假设候选计算中心为A计算中心和B计算中心,且A计算中心的CPU利用率为60%、内存使用占比为80%;B计算中心的CPU利用率为30%、内存使用占比为50%。则A计算中心的初始得分为6分,B计算中心的初始得分为12分,B计算中心的调度优先级高于A计算中心。
对前f%的候选计算中心进行筛选排序,包括:
S321,通过下式对第个候选计算中心进行打分:
其中,表示第/>个候选计算中心的筛选得分,当历史迁移记录中存在第/>个候选计算中心的数据迁移记录时,/>为n,当历史迁移记录中不存在第/>个候选计算中心的数据迁移记录时,/>为0。
S322,根据每个候选计算中心的筛选得分,对候选计算中心从高到低进行排序。
具体地,当筛选排序结果存在多个相同最高分的候选计算中心中时,选择多个相同最高分的候选计算中心中存储数据的最后一次修改时间与目标作业数据的元数据信息中最后一次修改时间相同的候选计算中心作为目标计算中心。
在本发明的一些实施例中,在根据已迁移数据,对迁移记录表进行更新之后,跨计算中心数据迁移方法还包括:
S61,对目标计算中心中的数据进行作业,并在作业完成后,将迁移记录表中对应的已迁移数据的迁移状态修改为已完成。
作为一个示例,可使用已迁移数据的ID扫描作业记录表,过滤出使用已迁移数据的作业,以将迁移记录表中对应的已迁移数据的迁移状态修改为已完成。
作为另一个示例,在将迁移记录表中对应的已迁移数据的迁移状态修改为已完成之后,返回数据迁移完成之后的目标计算中心的数据详细信息给作业控制器,作业控制器可根据上述信息启动训练作业。
S62,定时删除目标计算中心中迁移状态为已完成的已迁移数据。
在本发明的一些实施例中,定时删除目标计算中心中迁移状态为已完成的已迁移数据,包括:
S621,定时扫描迁移记录表,获取目标已迁移数据的ID。
S622,根据目标已迁移数据的ID,查询目标已迁移数据的作业是否完成。
S623,若完成,则判断目标已迁移数据的最后一个作业完成时间是否超过目标时间区间。
作为一个示例,若目标已迁移数据的作业未完成,则跳过该目标已迁移数据。
作为另一个示例,目标时间区间可为72小时。
S624,若超过,则将目标已迁移数据从目标计算中心中删除。
作为一个示例,将目标已迁移数据从目标计算中心中删除包括:在确定需要删除的目标已迁移数据后,插入待清理数据记录表;用户创建作业时,若该数据在待清理数据记录的表中,且状态尚未开始删除,则将目标已迁移数据从目标计算中心中移除;用户创建作业时,若该数据在待清理数据的表中,且正在删除中,修改数据生成ID的规则(表示该数据已发生改变,重新生成新的id),重新创建作业。
在该实施例中,通过数据清理机制能够避免计算中心中出现数据爆炸问题。
以图2为例,说明计算中心缓存数据的清理流程:
A1,定时扫描迁移记录表。
A2,在作业记录表中,定时查询引用当前数据的作业状态,并返回作业信息。
A3,用户(Actor1)提交作业。
A4,在待清理数据记录表中,判断引用数据是否在待删除中,并返回校验结果,根据校验结果执行后续任务。
A5,判断作业是否全部完成,且最后一个作业完成时间是否超过目标时间区间。
A6,在待清理数据记录表中,记录待删除的数据,并清理缓存数据。
以图3为例,说明作业提交流程:
B1,用户(Actor1)提交作业给数据迁移服务模块。
B2,判断作业引用的数据是否已在待删除记录表中。
B3,若不在,则判断目标作业数据的ID是否在待清理数据记录表中。
具体地,判断目标数据的删除状态包括:
B41,若在删除中,修改数据的ID,并返回作业提交记录。
B42,若未删除,则将目标数据移除待删除记录表中,并返回操作结果。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种跨计算中心数据迁移方法,其特征在于,所述方法包括:
响应于作业调度需求,根据所述作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心;
根据所述作业调度需求中的数据要求确定目标作业数据,并获取所述目标作业数据的元数据信息,其中,所述元数据信息包括数据的名称、ID、已迁移的分中心和最后一次修改时间中的至少一者,所述元数据信息存储于迁移记录表中;
根据所述元数据信息得到所述目标作业数据的历史迁移记录,并根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心;
根据所述目标计算中心及其存储数据的历史迁移记录、元数据信息,以及所述目标作业数据当前存储的计算中心对所述目标作业数据进行迁移。
2.根据权利要求1所述的跨计算中心数据迁移方法,其特征在于,将迁移至所述目标计算中心的目标作业数据记为已迁移数据,在将所述目标作业数据迁移至所述目标计算中心之后,所述方法还包括:
根据所述已迁移数据,对所述迁移记录表进行更新,并返回所述已迁移数据在所述目标计算中心的访问地址。
3.根据权利要求2所述的跨计算中心数据迁移方法,其特征在于,对所述目标作业数据进行迁移,并对所述迁移记录表进行更新,包括:
当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间相同时,不对所述迁移记录表进行更新;
当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间不相同时,对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新;
当所述目标计算中心未发生过数据迁移时,将所述目标作业数据同步至所述目标计算中心,并对所述迁移记录表进行更新。
4.根据权利要求3所述的跨计算中心数据迁移方法,其特征在于,所述对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新,包括:
比较所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息,确定不一致的数据;
在存储所述目标作业数据的计算中心和所述目标计算中心之间建立增量同步,并传输所述不一致的数据至所述目标计算中心;
校验所述目标计算中心中数据是否完整;
若所述目标计算中心中数据不完整,则重新传输所述不一致的数据至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤;
若所述目标计算中心中数据完整,则根据所述传输结果,对所述迁移记录表进行更新。
5.根据权利要求3所述的跨计算中心数据迁移方法,其特征在于,所述在将所述目标作业数据同步至所述目标计算中心之后,所述方法还包括:
校验所述目标计算中心中数据是否完整;
若所述目标计算中心中数据不完整,则重新将所述目标作业数据同步至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤。
6.根据权利要求1所述的跨计算中心数据迁移方法,其特征在于,所述根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心,包括:
对所述候选计算中心进行初始排序,并保留前f%的候选计算中心;
根据所述历史迁移记录,对所述前f%的候选计算中心进行筛选排序,根据筛选排序结果,得到所述目标计算中心。
7.根据权利要求6所述的跨计算中心数据迁移方法,其特征在于,所述对所述候选计算中心进行初始排序,包括:
通过下式对第个候选计算中心进行打分:
其中,表示第/>个候选计算中心的初始得分,/>表示第/>个候选计算中心的CPU利用率得分,/>表示第/>个候选计算中心的内存使用占比得分;
根据每个候选计算中心的初始得分,对候选计算中心从高到低进行排序;
所述对所述前f%的候选计算中心进行筛选排序,包括:
通过下式对第个候选计算中心进行打分:
其中,表示第/>个候选计算中心的筛选得分,当所述历史迁移记录中存在第/>个候选计算中心的数据迁移记录时,/>为n,当所述历史迁移记录中不存在第/>个候选计算中心的数据迁移记录时,/>为0;
根据每个候选计算中心的筛选得分,对候选计算中心从高到低进行排序。
8.根据权利要求7所述的跨计算中心数据迁移方法,其特征在于,当所述筛选排序结果存在多个相同最高分的候选计算中心中时,选择多个相同最高分的候选计算中心中存储数据的最后一次修改时间与所述目标作业数据的元数据信息中最后一次修改时间相同的候选计算中心作为所述目标计算中心。
9.根据权利要求2所述的跨计算中心数据迁移方法,其特征在于,
在所述根据所述已迁移数据,对所述迁移记录表进行更新之后,所述方法还包括:
对所述目标计算中心中的数据进行作业,并在作业完成后,将所述迁移记录表中对应的已迁移数据的迁移状态修改为已完成;
定时删除所述目标计算中心中迁移状态为已完成的已迁移数据。
10.根据权利要求9所述的跨计算中心数据迁移方法,其特征在于,所述定时删除所述目标计算中心中迁移状态为已完成的已迁移数据,包括:
定时扫描所述迁移记录表,获取目标已迁移数据的ID;
根据所述目标已迁移数据的ID,查询所述目标已迁移数据的作业是否完成;
若完成,则判断所述目标已迁移数据的最后一个作业完成时间是否超过目标时间区间;
若超过,则将所述目标已迁移数据从所述目标计算中心中删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311129776.9A CN116860723B (zh) | 2023-09-04 | 2023-09-04 | 跨计算中心数据迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311129776.9A CN116860723B (zh) | 2023-09-04 | 2023-09-04 | 跨计算中心数据迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860723A true CN116860723A (zh) | 2023-10-10 |
CN116860723B CN116860723B (zh) | 2023-11-21 |
Family
ID=88230806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311129776.9A Active CN116860723B (zh) | 2023-09-04 | 2023-09-04 | 跨计算中心数据迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860723B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591039A (zh) * | 2024-01-18 | 2024-02-23 | 济南浪潮数据技术有限公司 | 分布式存储方法、系统、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262190A1 (en) * | 2003-08-27 | 2005-11-24 | Ascential Software Corporation | Client side interface for real time data integration jobs |
CN103607459A (zh) * | 2013-11-21 | 2014-02-26 | 东北大学 | 一种云计算平台IaaS层的动态资源监测及调度方法 |
US20150052531A1 (en) * | 2013-08-19 | 2015-02-19 | International Business Machines Corporation | Migrating jobs from a source server from which data is migrated to a target server to which the data is migrated |
US20160292152A1 (en) * | 2015-04-05 | 2016-10-06 | SkyKick, Inc. | State record system for data migration |
US20170329650A1 (en) * | 2016-05-10 | 2017-11-16 | Fujitsu Limited | Information processing apparatus and job management method |
CN110597626A (zh) * | 2019-08-23 | 2019-12-20 | 第四范式(北京)技术有限公司 | 在分布式系统中资源及任务的分配方法、装置及系统 |
US20220188279A1 (en) * | 2020-12-11 | 2022-06-16 | Chs Inc. | Systems and methods for creating and tracking implementation of a consolidation of data during a migration from one or more source systems to one target system |
CN114936086A (zh) * | 2022-07-26 | 2022-08-23 | 之江实验室 | 一种多计算中心场景下的任务调度器、调度方法及装置 |
CN115543965A (zh) * | 2022-10-21 | 2022-12-30 | 北京火山引擎科技有限公司 | 跨机房数据处理方法、设备、存储介质及程序产品 |
CN115718644A (zh) * | 2022-11-25 | 2023-02-28 | 国网江苏省电力有限公司南京供电分公司 | 一种面向云数据中心的计算任务跨区迁移方法及系统 |
CN116208613A (zh) * | 2023-02-13 | 2023-06-02 | 天翼云科技有限公司 | 云主机的迁移方法、装置、电子设备及存储介质 |
CN116643893A (zh) * | 2023-07-27 | 2023-08-25 | 合肥中科类脑智能技术有限公司 | 算力任务的调度方法、调度装置、存储介质及服务器 |
-
2023
- 2023-09-04 CN CN202311129776.9A patent/CN116860723B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262190A1 (en) * | 2003-08-27 | 2005-11-24 | Ascential Software Corporation | Client side interface for real time data integration jobs |
US20150052531A1 (en) * | 2013-08-19 | 2015-02-19 | International Business Machines Corporation | Migrating jobs from a source server from which data is migrated to a target server to which the data is migrated |
CN103607459A (zh) * | 2013-11-21 | 2014-02-26 | 东北大学 | 一种云计算平台IaaS层的动态资源监测及调度方法 |
US20160292152A1 (en) * | 2015-04-05 | 2016-10-06 | SkyKick, Inc. | State record system for data migration |
US20170329650A1 (en) * | 2016-05-10 | 2017-11-16 | Fujitsu Limited | Information processing apparatus and job management method |
CN110597626A (zh) * | 2019-08-23 | 2019-12-20 | 第四范式(北京)技术有限公司 | 在分布式系统中资源及任务的分配方法、装置及系统 |
US20220188279A1 (en) * | 2020-12-11 | 2022-06-16 | Chs Inc. | Systems and methods for creating and tracking implementation of a consolidation of data during a migration from one or more source systems to one target system |
CN114936086A (zh) * | 2022-07-26 | 2022-08-23 | 之江实验室 | 一种多计算中心场景下的任务调度器、调度方法及装置 |
CN115543965A (zh) * | 2022-10-21 | 2022-12-30 | 北京火山引擎科技有限公司 | 跨机房数据处理方法、设备、存储介质及程序产品 |
CN115718644A (zh) * | 2022-11-25 | 2023-02-28 | 国网江苏省电力有限公司南京供电分公司 | 一种面向云数据中心的计算任务跨区迁移方法及系统 |
CN116208613A (zh) * | 2023-02-13 | 2023-06-02 | 天翼云科技有限公司 | 云主机的迁移方法、装置、电子设备及存储介质 |
CN116643893A (zh) * | 2023-07-27 | 2023-08-25 | 合肥中科类脑智能技术有限公司 | 算力任务的调度方法、调度装置、存储介质及服务器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591039A (zh) * | 2024-01-18 | 2024-02-23 | 济南浪潮数据技术有限公司 | 分布式存储方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116860723B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10776170B2 (en) | Software service execution apparatus, system, and method | |
JP6893284B2 (ja) | リソーススケジューリング方法、スケジューリングサーバ、クラウドコンピューティングシステム、及び記憶媒体 | |
US7827167B2 (en) | Database management system and method including a query executor for generating multiple tasks | |
CN116860723B (zh) | 跨计算中心数据迁移方法 | |
CN100375036C (zh) | 记忆网格中资源分配的方法和系统 | |
US20070179973A1 (en) | Status tool to expose metadata read and write queues | |
CN111125444A (zh) | 大数据任务调度管理方法、装置、设备及存储介质 | |
US20070250517A1 (en) | Method and Apparatus for Autonomically Maintaining Latent Auxiliary Database Structures for Use in Executing Database Queries | |
CN104298550A (zh) | 一种面向Hadoop的动态调度方法 | |
US10013288B2 (en) | Data staging management system | |
CN112835714A (zh) | 云边环境中面向cpu异构集群的容器编排方法、系统及介质 | |
CN107562851B (zh) | 一种数据的更新方法、装置及电子设备 | |
CN107798111B (zh) | 一种分布式环境中大批量导出数据的方法 | |
CN111708799B (zh) | Spark任务处理方法、装置、电子设备及存储介质 | |
US20230401206A1 (en) | Anticipatory pre-execution of data queries | |
CN114461356A (zh) | 调度器进程数量的控制方法、IaaS云平台调度系统 | |
WO2018061219A1 (ja) | ジョブスケジューリングシステム、ジョブスケジューリング方法、およびジョブスケジューリング装置 | |
CN114168594A (zh) | 一种水平分区表的二级索引创建方法、装置、设备及存储介质 | |
JP5048072B2 (ja) | 情報検索システム、情報検索方法及びプログラム | |
WO2018198745A1 (ja) | 計算資源管理装置、計算資源管理方法、及びコンピュータ読み取り可能な記録媒体 | |
US20120192011A1 (en) | Data processing apparatus that performs test validation and computer-readable storage medium | |
US11625400B2 (en) | Optimal query scheduling for resource utilization optimization | |
CN117076141B (zh) | 一种高适用性离线数据处理任务发布方法及系统 | |
CN113760489B (zh) | 一种资源配置方法和装置 | |
WO2024113991A1 (zh) | 版本升级配置参数构造方法、版本升级方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |