CN114401280A - 一种作业数据同步方法和系统 - Google Patents

一种作业数据同步方法和系统 Download PDF

Info

Publication number
CN114401280A
CN114401280A CN202210040509.3A CN202210040509A CN114401280A CN 114401280 A CN114401280 A CN 114401280A CN 202210040509 A CN202210040509 A CN 202210040509A CN 114401280 A CN114401280 A CN 114401280A
Authority
CN
China
Prior art keywords
directory
job
cluster
hpc
data synchronization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210040509.3A
Other languages
English (en)
Other versions
CN114401280B (zh
Inventor
马巍娜
陆伟钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Skycloud Rongchuang Software Technology Co ltd
Original Assignee
Beijing Skycloud Rongchuang Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Skycloud Rongchuang Software Technology Co ltd filed Critical Beijing Skycloud Rongchuang Software Technology Co ltd
Priority to CN202210040509.3A priority Critical patent/CN114401280B/zh
Publication of CN114401280A publication Critical patent/CN114401280A/zh
Application granted granted Critical
Publication of CN114401280B publication Critical patent/CN114401280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种作业数据同步方法和系统,该方法包括以下步骤:当云服务集群中的云用户申请HPC应用时,为云用户动态分配虚拟用户,并以虚拟用户的身份向HPC集群提交计算作业;对计算作业和数据同步服务进行分发,并在启动计算作业之前,启动数据同步服务;通过数据同步服务监听HPC集群作业工作目录;当监听到HPC集群作业工作目录下的子目录或文件发生变化时,通过数据同步服务,将计算作业产生的数据同步到云服务集群工作目录,并将数据的属主从虚拟用户转换为云用户。本申请实施例通过数据同步服务,将HPC应用产生的数据从HPC集群同步到云服务集群,能够满足跨用户、实时、增量、同构和单向的要求。

Description

一种作业数据同步方法和系统
技术领域
本申请属于计算机技术领域,具体涉及一种作业数据同步方法和系统。
背景技术
高性能计算(High Performance Computing,以下简称:HPC)和云计算都属于分布式计算系统,统筹分散的硬件、软件和数据资源,通过软件实现资源共享。HPC资源通常不对外开放,而云资源是基于一种开放的商业化的用量付费模式。通过云计算的服务模式提供HPC资源,实现了高性能计算的云能力拓展。
HPC应用启动时通常指定工作目录,运行过程中产生的数据在工作目录下以文件形式保存,具有工作目录树形结构多变、数据生成后不会发生变化、生成大量临时文件并在计算结束后丢弃等特点。以仿真求解器应用为例,求解计算要运行很长时间,用户需要随时访问运行过程中产生的中间结果,进行评估分析。
超算拥有丰富的HPC集群资源,但是用户申请步骤繁琐,审核麻烦,最终用户无法完成云服务的自助申请。现有技术中,常用的数据同步软件有scp、rsync,以及nextCloud私有同步云盘等,均无法实现HPC集群和云服务集群之间的数据同步。
申请内容
本申请实施例的目的是提供一种作业数据同步方法和系统,以解决现有技术无法实现HPC集群和云服务集群之间的数据同步的缺陷。
为了解决上述技术问题,本申请是这样实现的:
第一方面,提供了一种作业数据同步方法,包括以下步骤:
当云服务集群中的云用户申请高性能计算HPC应用时,为所述云用户动态分配虚拟用户,并以所述虚拟用户的身份向HPC集群提交计算作业;
对所述计算作业和数据同步服务进行分发,并在启动所述计算作业之前,启动所述数据同步服务;
通过所述数据同步服务监听HPC集群作业工作目录,所述HPC集群作业工作目录及其子目录下的文件保存在HPC集群存储;
当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,并将所述数据的属主从所述虚拟用户转换为所述云用户,所述云服务集群工作目录及其子目录下的文件保存在云服务集群存储。
第二方面,提供了一种作业数据同步系统,包括:
提交模块,用于当云服务集群中的云用户申请高性能计算HPC应用时,为所述云用户动态分配虚拟用户,并以所述虚拟用户的身份向HPC集群提交计算作业;
启动模块,用于对所述计算作业和数据同步服务进行分发,并在启动所述计算作业之前,启动所述数据同步服务;
监听模块,用于通过所述数据同步服务监听HPC集群作业工作目录,所述HPC集群作业工作目录及其子目录下的文件保存在HPC集群存储;
同步模块,用于当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,并将所述数据的属主从所述虚拟用户转换为所述云用户,所述云服务集群工作目录及其子目录下的文件保存在云服务集群存储。
本申请实施例通过数据同步服务,将HPC应用产生的数据从HPC集群同步到云服务集群,能够消除数据重复传输,提高吞吐量,并满足跨用户、实时、增量、同构和单向的要求。
附图说明
图1是本申请实施例提供的一种作业数据同步方法流程图;
图2是本申请实施例提供的一种作业数据同步系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有的超算环境将HPC集群和云服务集群完全物理隔离(包括计算节点、存储和用户管理),用户通过云服务集群自助按需启动、使用和监控应用,而应用实际运行在HPC集群中。需要以应用产生的所有数据为同步单位,从HPC集群同步到云服务集群,并满足跨用户、实时、增量、同构和单向的要求。
其中,跨用户是指在HPC集群以虚拟用户身份运行应用产生的数据,同步到云服务集群中时需要自动转换成云用户;实时是指HPC集群工作目录下有任何数据变化,都能及时反映到云服务集群;增量是指每次同步操作仅同步自上次数据同步以来发生了变化的数据,比如文件追加;同构是指云服务集群应用工作目录的树形结构和HPC集群的工作目录实时保持一致;单向是指从HPC集群到云服务集群的单向数据同步。
本申请实施例提供一种基于动态用户映射的多集群作业数据增量同步方法,以解决超算HPC集群和云服务集群物理隔离环境中高性能应用数据同步问题。现有技术中的超算只对外开放部分虚拟用户,因而需要一种动态用户映射机制。当云用户自助申请HPC资源时,自动实现云用户和HPC虚拟用户的映射,动态产生用户映射关系。
具体地,当云用户申请HPC应用时,云服务集群调度器将云用户动态映射到一个虚拟用户,并以分配的虚拟用户身份向HPC集群提交计算作业,作业产生的数据保存在HPC集群存储上。数据同步服务作为作业的一部分,随作业一起分发和启动,将作业产生的所有数据远程实时增量同步到云服务集群存储上,并将数据的属主从虚拟用户转换为云用户,云用户可以随时使用云服务访问作业产生的中间数据。作业结束后,数据同步服务自动停止,并清理HPC集群存储上的作业数据,释放存储资源。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的作业数据同步方法进行详细地说明。
如图1所示,为本申请实施例提供的一种作业数据同步方法流程图,该方法包括以下步骤:
步骤101,当云服务集群中的云用户申请HPC应用时,为所述云用户动态分配虚拟用户,并以所述虚拟用户的身份向HPC集群提交计算作业。
本实施例中,云服务支持为HPC集群配置虚拟用户集,如host1:user1 user2或者host2:user[1-3],表示在节点host1上可以用户user1和user2的身份运行作业,在节点host2上可以用户user1、user2和user3的身份运行作业。云服务集群调度器可根据不同策略为云用户动态分配虚拟用户,可选策略包括:
(1)轮询算法:按顺序依次选择一个虚拟用户。
(2)资源限制算法:HPC集群为虚拟用户设置不同的资源限制,云服务调度器分配虚拟用户时必须检查是否受制于定义的资源限制。
此外,为了避免虚拟用户被窃取而滥用资源,已分配的虚拟用户信息从云服务集群加密传输到HPC集群,在HPC集群端解密后,以虚拟用户身份提交作业。
步骤102,对所述计算作业和数据同步服务进行分发,并在启动所述计算作业之前,启动所述数据同步服务。
步骤103,通过所述数据同步服务监听HPC集群作业工作目录,所述HPC集群作业工作目录及其子目录下的文件保存在HPC集群存储。
具体地,可以通过所述数据同步服务将HPC集群作业工作目录注册到文件系统监控列表中,并检查所述HPC集群作业工作目录是否为空;如果所述HPC集群作业工作目录不为空,递归遍历所述HPC集群作业工作目录,将所述HPC集群作业工作目录下的所有子目录添加到所述文件系统监控列表。
本实施例中,在检查所述HPC集群作业工作目录是否为空之后,如果所述HPC集群作业工作目录不为空,比较所述HPC集群作业工作目录和所述云服务集群工作目录,若所述HPC集群作业工作目录不同于所述云服务集群工作目录,则在所述云服务集群工作目录下执行以下操作中的至少一项:
创建所述HPC集群作业工作目录下的所有子目录和文件、删除所述HPC集群作业工作目录下没有的子目录和文件,增量拷贝所述HPC集群作业工作目录下的文件新增数据。
步骤104,当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,并将所述数据的属主从所述虚拟用户转换为所述云用户,所述云服务集群工作目录及其子目录下的文件保存在云服务集群存储。
本实施例中,可以通过所述数据同步服务阻塞监听所述文件系统监控列表中的所有数据变化通知;
相应地,当阻塞监听到新建目录通知时,将新目录添加到所述文件系统监控列表,根据所述新目录在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新目录,将所述新目录的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新目录与所述云服务集群工作目录下的新目录权限相同;
当阻塞监听到新建文件通知时,根据新文件在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新文件,将所述新文件的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新文件与所述云服务集群工作目录下的新文件权限相同;
当阻塞监听到删除目录通知时,将对应的目录从所述文件系统监控列表中删除,通过所述数据同步服务在所述云服务集群工作目录的相同位置递归删除对应的目录树;
当阻塞监听到删除文件通知时,通过所述数据同步服务在所述云服务集群工作目录的相同位置删除对应的文件;
当阻塞监听到文件改变通知时,通过所述数据同步服务计算源文件和目标文件的大小差异,分别设置源文件的读取偏移量和目标文件的写入偏移量,并基于所述读取偏移量和所述写入偏移量,将所述源文件的增量数据复制到所述目标文件。
本实施例中,数据同步服务随作业一起分发,在作业启动前优先启动,并监听文件系统的变化通知。当作业工作目录发生变化时,数据同步服务调用远程文件操作完成同步,完全独立于工作负载,不影响作业性能。此外,当所述计算作业运行结束后,删除所述HPC集群作业工作目录,清理所述HPC集群存储上的作业数据,并释放存储资源。
具体地,远程文件操作通过集群任务管理器执行,不依赖第三方工具,对数据传输具有完全的可见性和控制,实现的远程文件操作如表1所示:
Figure BDA0003470315700000061
Figure BDA0003470315700000071
表1远程文件操作的功能表
本实施例中,数据同步服务通过调用表1的远程文件操作接口实现数据同步,其中,源目录指HPC集群作业工作目录,目标目录指云服务集群工作目录。
具体地,初始化监控列表,注册源目录到文件系统监控列表中。如果源目录下有任何子目录和文件的增删查改,都会收到通知。如果源目录不为空,递归遍历源目录树,将所有子目录添加到监控列表,监听所有目录下子目录和文件的变化。如果源目录不为空,表示该作业被重新执行,或者作业数据同步服务被中断过,可能导致源目录和目标目录不一致,必须比较源目录树和目标目录树,在目标目录下:创建源目录树下的所有子目录和文件,删除源目录树下没有的子目录和文件,增量拷贝源目录树下文件新增数据。阻塞监听监控列表中所有目录数据变化通知,处理新建、删除和改变,忽略其他通知。如果作业运行结束,集群任务管理器会向数据同步服务发送Ctrl-C;若数据同步服务没有收到Ctrl-C信号,则继续阻塞监听文件系统变化。若数据同步服务接收到Ctrl-C信号,则停止数据同步,退出前删除源目录,释放存储资源。
本申请实施例针对HPC应用的数据特点,实现增量实时同步数据,能够消除数据重复传输,并提高吞吐量,且数据同步服务独立于计算作业执行,不影响作业性能,跟作业一起分发、启动和停止,使用和管理简单。此外,采用灵活安全的动态用户映射以及基于集群任务管理器执行的远程文件操作,适用于完全物理隔离的多集群环境,不依赖第三方工具,对数据具有完全的可见性和控制。
如图2所示,为本申请实施例提供的一种作业数据同步系统的结构示意图,包括:
提交模块210,用于当云服务集群中的云用户申请高性能计算HPC应用时,为所述云用户动态分配虚拟用户,并以所述虚拟用户的身份向HPC集群提交计算作业;
启动模块220,用于对所述计算作业和数据同步服务进行分发,并在启动所述计算作业之前,启动所述数据同步服务;
监听模块230,用于通过所述数据同步服务监听HPC集群作业工作目录,所述HPC集群作业工作目录及其子目录下的文件保存在HPC集群存储;
具体地,监听模块230,具体用于:通过所述数据同步服务将HPC集群作业工作目录注册到文件系统监控列表中,并检查所述HPC集群作业工作目录是否为空;如果所述HPC集群作业工作目录不为空,递归遍历所述HPC集群作业工作目录,将所述HPC集群作业工作目录下的所有子目录添加到所述文件系统监控列表。
同步模块240,用于当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,并将所述数据的属主从所述虚拟用户转换为所述云用户,所述云服务集群工作目录及其子目录下的文件保存在云服务集群存储。
此外,同步模块240,还用于:如果所述HPC集群作业工作目录不为空,比较所述HPC集群作业工作目录和所述云服务集群工作目录,若所述HPC集群作业工作目录不同于所述云服务集群工作目录,则在所述云服务集群工作目录下执行以下操作中的至少一项:
创建所述HPC集群作业工作目录下的所有子目录和文件、删除所述HPC集群作业工作目录下没有的子目录和文件,增量拷贝所述HPC集群作业工作目录下的文件新增数据。
本实施例中,监听模块230,具体用于:通过所述数据同步服务阻塞监听所述文件系统监控列表中的所有数据变化通知;
相应地,同步模块240,具体用于:当阻塞监听到新建目录通知时,将新目录添加到所述文件系统监控列表,根据所述新目录在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新目录,将所述新目录的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新目录与所述云服务集群工作目录下的新目录权限相同;
当阻塞监听到新建文件通知时,根据新文件在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新文件,将所述新文件的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新文件与所述云服务集群工作目录下的新文件权限相同;
当阻塞监听到删除目录通知时,将对应的目录从所述文件系统监控列表中删除,通过所述数据同步服务在所述云服务集群工作目录的相同位置递归删除对应的目录树;
当阻塞监听到删除文件通知时,通过所述数据同步服务在所述云服务集群工作目录的相同位置删除对应的文件;
当阻塞监听到文件改变通知时,通过所述数据同步服务计算源文件和目标文件的大小差异,分别设置源文件的读取偏移量和目标文件的写入偏移量,并基于所述读取偏移量和所述写入偏移量,将所述源文件的增量数据复制到所述目标文件。
进一步地,上述系统,还包括:
释放模块,用于当所述计算作业运行结束后,删除所述HPC集群作业工作目录,清理所述HPC集群存储上的作业数据,并释放存储资源。
本申请实施例针对HPC应用的数据特点,实现增量实时同步数据,能够消除数据重复传输,并提高吞吐量,且数据同步服务独立于计算作业执行,不影响作业性能,跟作业一起分发、启动和停止,使用和管理简单。此外,采用灵活安全的动态用户映射以及基于集群任务管理器执行的远程文件操作,适用于完全物理隔离的多集群环境,不依赖第三方工具,对数据具有完全的可见性和控制。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述作业数据同步方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种作业数据同步方法,其特征在于,包括以下步骤:
当云服务集群中的云用户申请高性能计算HPC应用时,为所述云用户动态分配虚拟用户,并以所述虚拟用户的身份向HPC集群提交计算作业;
对所述计算作业和数据同步服务进行分发,并在启动所述计算作业之前,启动所述数据同步服务;
通过所述数据同步服务监听HPC集群作业工作目录,所述HPC集群作业工作目录及其子目录下的文件保存在HPC集群存储;
当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,并将所述数据的属主从所述虚拟用户转换为所述云用户,所述云服务集群工作目录及其子目录下的文件保存在云服务集群存储。
2.根据权利要求1所述的方法,其特征在于,通过所述数据同步服务监听HPC集群作业工作目录,具体包括:
通过所述数据同步服务将HPC集群作业工作目录注册到文件系统监控列表中,并检查所述HPC集群作业工作目录是否为空;
如果所述HPC集群作业工作目录不为空,递归遍历所述HPC集群作业工作目录,将所述HPC集群作业工作目录下的所有子目录添加到所述文件系统监控列表。
3.根据权利要求2所述的方法,其特征在于,检查所述HPC集群作业工作目录是否为空之后,还包括:
如果所述HPC集群作业工作目录不为空,比较所述HPC集群作业工作目录和所述云服务集群工作目录,若所述HPC集群作业工作目录不同于所述云服务集群工作目录,则在所述云服务集群工作目录下执行以下操作中的至少一项:
创建所述HPC集群作业工作目录下的所有子目录和文件、删除所述HPC集群作业工作目录下没有的子目录和文件,增量拷贝所述HPC集群作业工作目录下的文件新增数据。
4.根据权利要求2所述的方法,其特征在于,通过所述数据同步服务监听HPC集群作业工作目录,具体包括:
通过所述数据同步服务阻塞监听所述文件系统监控列表中的所有数据变化通知;
当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,具体包括:
当阻塞监听到新建目录通知时,将新目录添加到所述文件系统监控列表,根据所述新目录在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新目录,将所述新目录的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新目录与所述云服务集群工作目录下的新目录权限相同;
当阻塞监听到新建文件通知时,根据新文件在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新文件,将所述新文件的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新文件与所述云服务集群工作目录下的新文件权限相同;
当阻塞监听到删除目录通知时,将对应的目录从所述文件系统监控列表中删除,通过所述数据同步服务在所述云服务集群工作目录的相同位置递归删除对应的目录树;
当阻塞监听到删除文件通知时,通过所述数据同步服务在所述云服务集群工作目录的相同位置删除对应的文件;
当阻塞监听到文件改变通知时,通过所述数据同步服务计算源文件和目标文件的大小差异,分别设置源文件的读取偏移量和目标文件的写入偏移量,并基于所述读取偏移量和所述写入偏移量,将所述源文件的增量数据复制到所述目标文件。
5.根据权利要求1所述的方法,其特征在于,还包括:
当所述计算作业运行结束后,删除所述HPC集群作业工作目录,清理所述HPC集群存储上的作业数据,并释放存储资源。
6.一种作业数据同步系统,其特征在于,包括:
提交模块,用于当云服务集群中的云用户申请高性能计算HPC应用时,为所述云用户动态分配虚拟用户,并以所述虚拟用户的身份向HPC集群提交计算作业;
启动模块,用于对所述计算作业和数据同步服务进行分发,并在启动所述计算作业之前,启动所述数据同步服务;
监听模块,用于通过所述数据同步服务监听HPC集群作业工作目录,所述HPC集群作业工作目录及其子目录下的文件保存在HPC集群存储;
同步模块,用于当监听到所述HPC集群作业工作目录下的子目录或文件发生变化时,通过所述数据同步服务,将所述计算作业产生的数据同步到云服务集群工作目录,并将所述数据的属主从所述虚拟用户转换为所述云用户,所述云服务集群工作目录及其子目录下的文件保存在云服务集群存储。
7.根据权利要求6所述的系统,其特征在于,
所述监听模块,具体用于:通过所述数据同步服务将HPC集群作业工作目录注册到文件系统监控列表中,并检查所述HPC集群作业工作目录是否为空;如果所述HPC集群作业工作目录不为空,递归遍历所述HPC集群作业工作目录,将所述HPC集群作业工作目录下的所有子目录添加到所述文件系统监控列表。
8.根据权利要求7所述的系统,其特征在于,
所述同步模块,还用于:如果所述HPC集群作业工作目录不为空,比较所述HPC集群作业工作目录和所述云服务集群工作目录,若所述HPC集群作业工作目录不同于所述云服务集群工作目录,则在所述云服务集群工作目录下执行以下操作中的至少一项:
创建所述HPC集群作业工作目录下的所有子目录和文件、删除所述HPC集群作业工作目录下没有的子目录和文件,增量拷贝所述HPC集群作业工作目录下的文件新增数据。
9.根据权利要求7所述的系统,其特征在于,
所述监听模块,具体用于:通过所述数据同步服务阻塞监听所述文件系统监控列表中的所有数据变化通知;
所述同步模块,具体用于:当阻塞监听到新建目录通知时,将新目录添加到所述文件系统监控列表,根据所述新目录在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新目录,将所述新目录的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新目录与所述云服务集群工作目录下的新目录权限相同;
当阻塞监听到新建文件通知时,根据新文件在所述HPC集群作业工作目录的位置,通过所述数据同步服务在所述云服务集群工作目录的相同位置创建对应的新文件,将所述新文件的属主和属组设置为所述云用户,所述HPC集群作业工作目录下的新文件与所述云服务集群工作目录下的新文件权限相同;
当阻塞监听到删除目录通知时,将对应的目录从所述文件系统监控列表中删除,通过所述数据同步服务在所述云服务集群工作目录的相同位置递归删除对应的目录树;
当阻塞监听到删除文件通知时,通过所述数据同步服务在所述云服务集群工作目录的相同位置删除对应的文件;
当阻塞监听到文件改变通知时,通过所述数据同步服务计算源文件和目标文件的大小差异,分别设置源文件的读取偏移量和目标文件的写入偏移量,并基于所述读取偏移量和所述写入偏移量,将所述源文件的增量数据复制到所述目标文件。
10.根据权利要求6所述的系统,其特征在于,还包括:
释放模块,用于当所述计算作业运行结束后,删除所述HPC集群作业工作目录,清理所述HPC集群存储上的作业数据,并释放存储资源。
CN202210040509.3A 2022-01-14 2022-01-14 一种作业数据同步方法和系统 Active CN114401280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210040509.3A CN114401280B (zh) 2022-01-14 2022-01-14 一种作业数据同步方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210040509.3A CN114401280B (zh) 2022-01-14 2022-01-14 一种作业数据同步方法和系统

Publications (2)

Publication Number Publication Date
CN114401280A true CN114401280A (zh) 2022-04-26
CN114401280B CN114401280B (zh) 2022-10-28

Family

ID=81231393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210040509.3A Active CN114401280B (zh) 2022-01-14 2022-01-14 一种作业数据同步方法和系统

Country Status (1)

Country Link
CN (1) CN114401280B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579129A (zh) * 2022-05-09 2022-06-03 国家超级计算天津中心 云原生求解器参数界面的自动构建方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150394A (zh) * 2013-03-25 2013-06-12 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件系统元数据管理方法
US20130159380A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Provisioning high performance computing clusters
CN108304260A (zh) * 2017-12-15 2018-07-20 上海超算科技有限公司 一种基于高性能云计算的虚拟化作业调度系统及其实现方法
CN111212116A (zh) * 2019-12-24 2020-05-29 湖南舜康信息技术有限公司 一种基于容器云的高性能计算集群创建方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159380A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Provisioning high performance computing clusters
CN103150394A (zh) * 2013-03-25 2013-06-12 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件系统元数据管理方法
CN108304260A (zh) * 2017-12-15 2018-07-20 上海超算科技有限公司 一种基于高性能云计算的虚拟化作业调度系统及其实现方法
CN111212116A (zh) * 2019-12-24 2020-05-29 湖南舜康信息技术有限公司 一种基于容器云的高性能计算集群创建方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579129A (zh) * 2022-05-09 2022-06-03 国家超级计算天津中心 云原生求解器参数界面的自动构建方法和装置
CN114579129B (zh) * 2022-05-09 2022-07-29 国家超级计算天津中心 云原生求解器参数界面的自动构建方法和装置

Also Published As

Publication number Publication date
CN114401280B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
US10896102B2 (en) Implementing secure communication in a distributed computing system
US10664492B2 (en) Replication of data objects from a source server to a target server
US10642694B2 (en) Monitoring containers in a distributed computing system
US10649955B2 (en) Providing unique inodes across multiple file system namespaces
US11429568B2 (en) Global namespace for a hierarchical set of file systems
US10754741B1 (en) Event-driven replication for migrating computing resources
US10599622B2 (en) Implementing storage volumes over multiple tiers
US10657102B2 (en) Storage space management in union mounted file systems
US20180189124A1 (en) Rebuilding the namespace in a hierarchical union mounted file system
US10620871B1 (en) Storage scheme for a distributed storage system
US11243980B2 (en) Monotonic transactions in a multi-master database with loosely coupled nodes
US10783073B2 (en) Chronologically ordered out-of-place update key-value storage system
CN112685499A (zh) 一种工作业务流的流程数据同步方法、装置及设备
CN114401280B (zh) 一种作业数据同步方法和系统
US10579587B2 (en) Space management for a hierarchical set of file systems
CN108737485B (zh) 针对物联网资源的操作的方法及系统
US10579598B2 (en) Global namespace for a hierarchical set of file systems
CN107276914B (zh) 基于cmdb的自助资源分配调度的方法
US10140054B2 (en) Retrospective snapshots in log structured storage systems
US10552404B2 (en) Retrospective snapshots in log-structured storage systems
US10592479B2 (en) Space management for a hierarchical set of file systems
US11157454B2 (en) Event-based synchronization in a file sharing environment
WO2017094194A1 (ja) 計算機システム、及び、装置の管理方法
CN112463879B (zh) 一种数据卷同步的方法和设备
JP3143919B2 (ja) 通信パラメータ管理方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant