CN111966283A - 一种基于企业级超算场景的客户端多级缓存方法及系统 - Google Patents

一种基于企业级超算场景的客户端多级缓存方法及系统 Download PDF

Info

Publication number
CN111966283A
CN111966283A CN202010637952.XA CN202010637952A CN111966283A CN 111966283 A CN111966283 A CN 111966283A CN 202010637952 A CN202010637952 A CN 202010637952A CN 111966283 A CN111966283 A CN 111966283A
Authority
CN
China
Prior art keywords
cache
user
level
data
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010637952.XA
Other languages
English (en)
Inventor
吕冬冬
陆阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010637952.XA priority Critical patent/CN111966283A/zh
Publication of CN111966283A publication Critical patent/CN111966283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明提供了一种基于企业级超算场景的客户端多级缓存方法及系统,所述方法执行以下步骤:根据用户提交的训练任务,获取用户的UID和GID,对训练任务进行解析得到训练任务参数,在客户端创建相应的缓存目录;根据训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,多级缓存包括内存缓存、结合内存缓存与固定硬盘缓存的二级缓存和分布式存储系统;若为二级缓存,则将分布式存储系统中的数据同步缓存在与固态硬盘对应的缓存目录中。根据本发明的方法,采用多级缓存机制读取数据,灵活,加快深度学习模型训练速度,减轻分布式存储系统的压力;可减少客户端频繁的访问分布式存储系统,加快训练的速度,延长硬盘寿命,降低企业成本。

Description

一种基于企业级超算场景的客户端多级缓存方法及系统
技术领域
本发明涉及分布式技术领域,特别涉及一种基于企业级超算场景的客户端多级缓存方法及系统。
背景技术
目前,超算中心通常都需要配置海量的分布式存储系统,用于支持模型训练数据的存放,众多的计算节点通过网络访问同一个分布式存储系统。
超算训练场景下数据读取的特点是读多写少,而且允许有少量的数据丢失;另外,超算模型训练的数据大多是图片或者语音数据,这类数据的特点是都是小文件,在高并发的场景下,用于实现数据读写操作的IO模块成为了模型训练的瓶颈,模型训练成本增加,而高负载的IO频繁读取容易造成硬盘的损坏,增加了维护成本与经费成本,而且客户端与后端的存储的交互一般都是通过RPC(Remote Procedure Call,远程过程调用)通信,频繁的交互会增加服务端的压力。
发明内容
本发明提供一种基于企业级超算场景的客户端多级缓存方法及系统,用以通过多级缓存加快深度学习模型训练速度,减轻分布式存储压力。
本发明提供了一种基于企业级超算场景的客户端多级缓存方法,所述方法执行以下步骤:
步骤1:根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;
步骤2:根据所述用户的UID和GID,在客户端创建相应的缓存目录;
步骤3:根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;
步骤4:若所述多级缓存为所述二级缓存,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
进一步地,在所述步骤4中,将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,执行以下步骤:
步骤S41:将缓存数据的所述缓存目录的开启标志位设置为true;
步骤S42:利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中;
步骤S43:对缓存在所述固定硬盘上的缓存文件执行热点监控,根据监控结果对失效数据进行数据清理。
进一步地,在所述步骤S43中,所述失效数据包括以下数据中的至少一项:未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。
进一步地,在所述步骤S43中,所述根据监控结果对失效数据进行数据清理包括:
删除所述失效数据对应的缓存目录。
进一步地,所述步骤1:根据用户提交的训练任务,获取所述用户的UID和GID,执行以下步骤:
步骤S11:用户在客户端执行启动模型训练任务的训练命令;
步骤S12:在所述模型训练任务首次读取分布式存储系统中的数据时,读取提交训练任务的用户的UID和GID。
进一步地,在所述步骤S11中,所述用户在客户端执行启动任务训练命令包括:
用户在任务训练命令中设定用户的数据使用时间。
进一步地,所述步骤2:根据所述用户的UID和GID,在客户端创建相应的缓存目录包括:
步骤S21:根据所述用户的UID和GID,为所述用户在各自的客户端自动创建相应的缓存目录;
步骤S22:为每个用户的客户端对应的所述缓存目录设定相应的权限。
进一步地,在所述步骤3或所述步骤4之后,所述方法还包括以下步骤:
步骤5:执行模型的迭代训练任务。
本发明实施例提供的一种基于企业级超算场景的客户端多级缓存方法,具有以下有益效果:采用多级缓存机制读取数据,更加灵活自由,加快深度学习模型训练速度,减轻分布式存储系统的压力,优先使用本地的缓存能够有效的减少网络延迟,加快读取速度,而且针对深度学习模型训练场景的写一次读多次的情况,能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据;而且可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
本发明还提供一种基于企业级超算场景的客户端多级缓存系统,包括:
获取模块,用于根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;
缓存目录创建模块,用于根据所述用户的UID和GID,在客户端创建相应的缓存目录;
多级缓存模块,用于根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;
同步缓存模块,用于在所述多级缓存为所述二级缓存时,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
进一步地,所述同步缓存模块包括:
开启标志位设置单元,用于将缓存数据的所述缓存目录的开启标志位设置为true;
同步缓存单元,用于利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中;
数据清理单元,用于对缓存在所述固定硬盘上的缓存文件执行热点监控,根据监控结果对失效数据进行数据清理。
本发明实施例提供的一种基于企业级超算场景的客户端多级缓存系统,具有以下有益效果:多级缓存模块采用多级缓存机制读取数据,更加灵活自由,加快深度学习模型训练速度,减轻分布式存储系统的压力,优先使用本地的缓存能够有效的减少网络延迟,加快读取速度,而且针对深度学习模型训练场景的写一次读多次的情况,能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据;而且同步缓存模块可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于企业级超算场景的客户端多级缓存方法的流程示意图;
图2为本发明实施例中一种基于企业级超算场景的客户端多级缓存系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于企业级超算场景的客户端多级缓存方法,如图1所示,所述方法执行以下步骤:
步骤1:根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;
步骤2:根据所述用户的UID和GID,在客户端创建相应的缓存目录;
步骤3:根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;
步骤4:若所述多级缓存为所述二级缓存,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
上述技术方案的工作原理为:采用多级缓存机制,用户可以自由的根据自己的训练任务参数,优先选择使用速度最快的内存缓存进行数据交互,当内存缓存不足时则选择将内存缓存与客户端本地节点的固态硬盘(Solid State Drive,SSD)缓存相结合的二级缓存,如果数据量很大时则选择从分布式存储系统中加载数据,二级缓存的速度介于内存缓存和分布式存储系统之间。训练任务参数例如可以包括训练任务所采用的程序、框架、数据存储目录、生成文件的存储位置、训练任务的数据量大小、训练任务的紧急程度等。
在采用二级缓存读取数据时,将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,这样可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
在内核中通过current_uid()和current_gid()接口函数获取当前创建内核文件进程的UID(用户身份的内核表示)和GID(用户组身份的内核表示),当前用户的UID和GID就是当前创建内核文件进程的UID和GID。
上述技术方案的有益效果为:采用多级缓存机制读取数据,更加灵活自由,加快深度学习模型训练速度,减轻分布式存储系统的压力,优先使用本地的缓存能够有效的减少网络延迟,加快读取速度,而且针对深度学习模型训练场景的写一次读多次的情况,能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据;而且可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
在一个实施例中,在所述步骤4中,将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,执行以下步骤:
步骤S41:将缓存数据的所述缓存目录的开启标志位设置为true;
步骤S42:利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中;
步骤S43:对缓存在所述固定硬盘上的缓存文件执行热点监控,根据监控结果对失效数据进行数据清理。
上述技术方案的工作原理为:通过步骤S41,可以对进行缓存数据的缓存目录进行标记。
步骤S42中的自动同步工具的作用是将分布式存储上的文件镜像拷贝到了本地的固态硬盘上,类似于linux上的rsync工具。具体地,可以通过策略引擎启动自动同步工具。
在所述步骤S43中,所述失效数据包括以下数据中的至少一项:未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。
在所述步骤S43中,所述根据监控结果对失效数据进行数据清理包括:删除所述失效数据对应的缓存目录,这样可以节约存储空间。
上述技术方案的有益效果为:提供了将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中的具体步骤,可以减少客户端频繁的访问分布式存储系统,通过热点监控以及数据清理步骤,可以节约存储空间。
在一个实施例中,所述步骤1:根据用户提交的训练任务,获取所述用户的UID和GID,执行以下步骤:
步骤S11:用户在客户端执行启动模型训练任务的训练命令;
步骤S12:在所述模型训练任务首次读取分布式存储系统中的数据时,读取提交训练任务的用户的UID和GID。
上述技术方案的工作原理为:在所述步骤S11中,所述用户在客户端执行启动任务训练命令包括:用户在任务训练命令中设定用户的数据使用时间。在用户设定数据使用时间的情况下,根据未被访问的时间超过预设时长判断缓存文件是否为失效数据,用户设定的数据使用时间则为预设时长,预设时长例如为半小时,需要说明的是,本发明对预设时长不作限制。
当然,本发明在其他实施方式中,用户也可以不设定数据使用时间。在用户未设定数据使用时间的情况下,则根据提交训练任务的用户的进程是否中断、应用程序或用户是否给出失效提示等来判断缓存文件是否为失效数据。
在所述模型训练任务首次读取分布式存储系统中的数据时,通过策略引擎读取提交训练任务的用户的UID和GID。
上述技术方案的有益效果为:提供了获取用户的UID和GID的具体步骤。
在一个实施例中,所述步骤2:根据所述用户的UID和GID,在客户端创建相应的缓存目录包括:
步骤S21:根据所述用户的UID和GID,为所述用户在各自的客户端自动创建相应的缓存目录;
步骤S22:为每个用户的客户端对应的所述缓存目录设定相应的权限。
上述技术方案的工作原理为:可以通过策略引擎根据用户的UID与GID,自动创建相应的缓存目录并设定相应的权限,这样可以对不同用户之间的目录权限进行控制,保证将数据缓存在该用户对应的缓存目录中,提高了数据的安全性。
上述技术方案的有益效果为:提供了在客户端创建相应的缓存目录的具体步骤,通过为每个用户的客户端对应的所述缓存目录设定相应的权限,可以提高数据的安全性。
在一个实施例中,在所述步骤3或所述步骤4之后,所述方法还包括以下步骤:
步骤5:执行模型的迭代训练任务。
上述技术方案的工作原理为:在采用的多级缓存为内存缓存或分布式存储系统的情况下,在读取数据结束后,则开始模型的迭代训练任务;在采用的多级缓存为二级缓存的情况下,将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中后,即在完成数据同步后,开始模型的迭代训练任务。
上述技术方案的有益效果为:由于采用了多级缓存机制,在迭代训练任务中,可以有效的较少网络延迟,加快训练速度,而且针对深度学习模型训练场景的写一次读多次的情况,能够有效的减少分布式存储的压力并且避免影响其他客户端读写数据;另外,由于将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
如图2所示,本发明实施例提供了一种基于企业级超算场景的客户端多级缓存系统,包括:
获取模块201,用于根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;
缓存目录创建模块202,用于根据所述用户的UID和GID,在客户端创建相应的缓存目录;
多级缓存模块203,用于根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;
同步缓存模块204,用于在所述多级缓存为所述二级缓存时,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
上述技术方案的工作原理为:采用多级缓存机制,用户可以自由的根据自己的训练任务参数,优先选择使用速度最快的内存缓存进行数据交互,当内存缓存不足时则选择将内存缓存与客户端本地节点的SSD固态硬盘(Solid State Drive,SSD)缓存相结合的二级缓存,如果数据量很大时则选择从分布式存储系统中加载数据,二级缓存的速度介于内存缓存和分布式存储系统之间。训练任务参数例如可以包括训练任务所采用的程序、数据存储目录、生成文件的存储位置、训练任务的数据量大小、训练任务的紧急程度等。
本发明的获取模块201根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;缓存目录创建模块202,根据所述用户的UID和GID,在客户端创建相应的缓存目录;多级缓存模块203根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;同步缓存模块204在所述多级缓存为所述二级缓存时,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
在采用二级缓存读取数据时,同步缓存模块204将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,这样可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
在内核中通过current_uid()和current_gid()接口函数获取当前创建内核文件进程的UID(用户身份的内核表示)和GID(用户组身份的内核表示),当前用户的UID和GID就是当前创建内核文件进程的UID和GID。
上述技术方案的有益效果为:多级缓存模块采用多级缓存机制读取数据,更加灵活自由,加快深度学习模型训练速度,减轻分布式存储系统的压力,优先使用本地的缓存能够有效的减少网络延迟,加快读取速度,而且针对深度学习模型训练场景的写一次读多次的情况,能够有效减少分布式存储系统的压力并且避免影响其他客户端读写数据;而且同步缓存模块可以减少客户端频繁的访问分布式存储系统,加快了训练的速度,延长了硬盘的使用寿命,降低了企业的成本。
在一个实施例中,所述同步缓存模块204包括:
开启标志位设置单元,用于将缓存数据的所述缓存目录的开启标志位设置为true;
同步缓存单元,用于利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中;
数据清理单元,用于对缓存在所述固定硬盘上的缓存文件执行热点监控,根据监控结果对失效数据进行数据清理。
上述技术方案的工作原理为:通过开启标志位设置单元,可以对进行缓存数据的缓存目录进行标记;同步缓存单元所利用的自动同步工具的作用是将分布式存储上的文件镜像拷贝到了本地的固态硬盘上,类似于linux上的rsync工具。具体地,可以通过策略引擎启动自动同步工具。
所述清理单元所清理的所述失效数据包括以下数据中的至少一项:未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。
清理单元包括删除子单元,用于删除所述失效数据对应的缓存目录,这样可以节约存储空间。
上述技术方案的有益效果为:借助于开启标志位设置单元、同步缓存单元以及数据清理单元,可以将分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,这样可以减少客户端频繁的访问分布式存储系统,并节约存储空间。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于企业级超算场景的客户端多级缓存方法,其特征在于,所述方法执行以下步骤:
步骤1:根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;
步骤2:根据所述用户的UID和GID,在客户端创建相应的缓存目录;
步骤3:根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;
步骤4:若所述多级缓存为所述二级缓存,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
2.如权利要求1所述的方法,其特征在于,在所述步骤4中,将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中,执行以下步骤:
步骤S41:将缓存数据的所述缓存目录的开启标志位设置为true;
步骤S42:利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中;
步骤S43:对缓存在所述固定硬盘上的缓存文件执行热点监控,根据监控结果对失效数据进行数据清理。
3.如权利要求2所述的方法,其特征在于,在所述步骤S43中,所述失效数据包括以下数据中的至少一项:未被访问的时间超过预设时长、提交训练任务的用户的进程中断、应用程序或用户给出失效提示的缓存文件。
4.如权利要求2所述的方法,其特征在于,在所述步骤S43中,所述根据监控结果对失效数据进行数据清理包括:
删除所述失效数据对应的缓存目录。
5.如权利要求1所述的方法,其特征在于,所述步骤1:根据用户提交的训练任务,获取所述用户的UID和GID,执行以下步骤:
步骤S11:用户在客户端执行启动模型训练任务的训练命令;
步骤S12:在所述模型训练任务首次读取分布式存储系统中的数据时,读取提交训练任务的用户的UID和GID。
6.如权利要求5所述的方法,其特征在于,在所述步骤S11中,所述用户在客户端执行启动任务训练命令包括:
用户在任务训练命令中设定用户的数据使用时间。
7.如权利要求1所述的方法,其特征在于,所述步骤2:根据所述用户的UID和GID,在客户端创建相应的缓存目录包括:
步骤S21:根据所述用户的UID和GID,为所述用户在各自的客户端自动创建相应的缓存目录;
步骤S22:为每个用户的客户端对应的所述缓存目录设定相应的权限。
8.如权利要求1所述的方法,其特征在于,在所述步骤3或所述步骤4之后,所述方法还包括以下步骤:
步骤5:执行模型的迭代训练任务。
9.一种基于企业级超算场景的客户端多级缓存系统,其特征在于,包括:
获取模块,用于根据用户提交的训练任务,获取所述用户的UID和GID,并对所述训练任务进行解析,得到训练任务参数;
缓存目录创建模块,用于根据所述用户的UID和GID,在客户端创建相应的缓存目录;
多级缓存模块,用于根据所述训练任务参数,按照优先级由高到低的顺序,从多级缓存中读取所需数据,所述多级缓存包括内存缓存、同时使用内存缓存与固定硬盘缓存的二级缓存和分布式存储系统,且所述内存缓存的优先级最高,所述分布式存储系统的优先级最低;
同步缓存模块,用于在所述多级缓存为所述二级缓存时,则将所述分布式存储系统中的数据同步缓存在与客户端本地节点的固态硬盘对应的缓存目录中。
10.如权利要求9所述的系统,其特征在于,所述同步缓存模块包括:
开启标志位设置单元,用于将缓存数据的所述缓存目录的开启标志位设置为true;
同步缓存单元,用于利用自动同步工具将所需数据同步缓存在与本地节点的固态硬盘对应的缓存目录中;
数据清理单元,用于对缓存在所述固定硬盘上的缓存文件执行热点监控,根据监控结果对失效数据进行数据清理。
CN202010637952.XA 2020-07-06 2020-07-06 一种基于企业级超算场景的客户端多级缓存方法及系统 Pending CN111966283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010637952.XA CN111966283A (zh) 2020-07-06 2020-07-06 一种基于企业级超算场景的客户端多级缓存方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010637952.XA CN111966283A (zh) 2020-07-06 2020-07-06 一种基于企业级超算场景的客户端多级缓存方法及系统

Publications (1)

Publication Number Publication Date
CN111966283A true CN111966283A (zh) 2020-11-20

Family

ID=73361016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010637952.XA Pending CN111966283A (zh) 2020-07-06 2020-07-06 一种基于企业级超算场景的客户端多级缓存方法及系统

Country Status (1)

Country Link
CN (1) CN111966283A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113031857A (zh) * 2021-01-30 2021-06-25 柏科数据技术(深圳)股份有限公司 数据写入方法、装置、服务器及存储介质
CN113297275A (zh) * 2021-06-16 2021-08-24 上海高顿教育科技有限公司 一种基于多级缓存的企业级高并发鉴权控制方法
CN114327294A (zh) * 2021-12-31 2022-04-12 华录光存储研究院(大连)有限公司 一种用于多级存储的数据读取系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091226A1 (en) * 2003-10-23 2005-04-28 Yun Lin Persistent caching directory level support
CN102057366A (zh) * 2008-06-12 2011-05-11 微软公司 分布式高速缓存安排
US9824094B1 (en) * 2014-04-24 2017-11-21 Google Inc. Systems and methods for prioritizing file downloads
CN108009008A (zh) * 2016-10-28 2018-05-08 北京市商汤科技开发有限公司 数据处理方法和系统、电子设备
WO2019115929A1 (fr) * 2017-12-12 2019-06-20 Moore Procede de gestion du systeme de fichiers d'un terminal informatique
CN110046029A (zh) * 2019-03-13 2019-07-23 平安科技(深圳)有限公司 应用于集群内多级缓存的数据处理方法和装置
CN111104387A (zh) * 2019-11-22 2020-05-05 苏州浪潮智能科技有限公司 在服务器上获取数据集的方法和装置
CN111124277A (zh) * 2019-11-21 2020-05-08 苏州浪潮智能科技有限公司 一种深度学习数据集缓存方法、系统、终端及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091226A1 (en) * 2003-10-23 2005-04-28 Yun Lin Persistent caching directory level support
CN102057366A (zh) * 2008-06-12 2011-05-11 微软公司 分布式高速缓存安排
US9824094B1 (en) * 2014-04-24 2017-11-21 Google Inc. Systems and methods for prioritizing file downloads
CN108009008A (zh) * 2016-10-28 2018-05-08 北京市商汤科技开发有限公司 数据处理方法和系统、电子设备
WO2019115929A1 (fr) * 2017-12-12 2019-06-20 Moore Procede de gestion du systeme de fichiers d'un terminal informatique
CN110046029A (zh) * 2019-03-13 2019-07-23 平安科技(深圳)有限公司 应用于集群内多级缓存的数据处理方法和装置
CN111124277A (zh) * 2019-11-21 2020-05-08 苏州浪潮智能科技有限公司 一种深度学习数据集缓存方法、系统、终端及存储介质
CN111104387A (zh) * 2019-11-22 2020-05-05 苏州浪潮智能科技有限公司 在服务器上获取数据集的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113031857A (zh) * 2021-01-30 2021-06-25 柏科数据技术(深圳)股份有限公司 数据写入方法、装置、服务器及存储介质
CN113297275A (zh) * 2021-06-16 2021-08-24 上海高顿教育科技有限公司 一种基于多级缓存的企业级高并发鉴权控制方法
CN114327294A (zh) * 2021-12-31 2022-04-12 华录光存储研究院(大连)有限公司 一种用于多级存储的数据读取系统
CN114327294B (zh) * 2021-12-31 2024-04-05 华录光存储研究院(大连)有限公司 一种用于多级存储的数据读取系统

Similar Documents

Publication Publication Date Title
CN111966283A (zh) 一种基于企业级超算场景的客户端多级缓存方法及系统
CN105872016B (zh) 一种桌面云中虚拟机的运行方法
CN107844399B (zh) 自动监控数据库服务的方法、存储介质、电子设备及系统
CN109547566B (zh) 一种基于内存分配的多线程上传优化方法
US20130290658A1 (en) Storage Control Device, Data Archive Storage System, and Data Access Method
CN111414389B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111694791B (zh) 一种分布式基础框架中的数据存取方法及装置
CN112363795B (zh) 一种网络安全实训平台虚拟机快速启动方法与系统
CN110022338B (zh) 文件读取方法、系统、元数据服务器和用户设备
CN110737388A (zh) 数据预读方法、客户端、服务器以及文件系统
CN112558987A (zh) 一种基于helm的自动化部署方法及装置
US9298765B2 (en) Apparatus and method for handling partially inconsistent states among members of a cluster in an erratic storage network
CN111177159B (zh) 一种数据处理的系统、方法和数据更新设备
CN109582649B (zh) 一种元数据存储方法、装置、设备及可读存储介质
CN107566470B (zh) 云数据系统中管理虚拟机的方法和装置
US20030182510A1 (en) Multiple-level persisted template caching
CN113553306B (zh) 数据处理方法及数据存储管理系统
CN112866339B (zh) 数据传输方法、装置、计算机设备和存储介质
CN105574008B (zh) 应用于分布式文件系统的任务调度方法和设备
CN111352900B (zh) 一种虚拟化应用文件访问方法、装置、服务器及存储介质
CN110502457B (zh) 一种元数据存储方法及装置
US10248314B2 (en) Migrate nickname cache for email systems and devices
CN116521338A (zh) 消息队列的管控方法、装置、计算机设备和存储介质
CN108173892B (zh) 云端镜像操作方法和装置
CN105912477B (zh) 一种目录读取的方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination