CN112905325A - 一种分布式数据缓存加速训练的方法、系统及介质 - Google Patents

一种分布式数据缓存加速训练的方法、系统及介质 Download PDF

Info

Publication number
CN112905325A
CN112905325A CN202110181363.XA CN202110181363A CN112905325A CN 112905325 A CN112905325 A CN 112905325A CN 202110181363 A CN202110181363 A CN 202110181363A CN 112905325 A CN112905325 A CN 112905325A
Authority
CN
China
Prior art keywords
data set
training
cache
data
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110181363.XA
Other languages
English (en)
Other versions
CN112905325B (zh
Inventor
曹文康
王超
陈培
王德奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110181363.XA priority Critical patent/CN112905325B/zh
Publication of CN112905325A publication Critical patent/CN112905325A/zh
Application granted granted Critical
Publication of CN112905325B publication Critical patent/CN112905325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式数据缓存加速训练的方法,包括以下步骤:配置训练环境以及数据集;获取训练任务;判断Kubernetes是否识别所述任务,若未识别,则将所述任务转换为所述Kubernetes识别的命令和配置;根据所述任务进行任务调度并执行调度策略得到第一数据集;根据所述训练任务和所述调度策略进行选择数据集的缓存;将所述训练任务通过Kubernetes以及所述第一数据集并根据选择所述数据集的缓存结果进行训练;通过上述方式,本发明能够将数据集作为一种资源使Kubernetes在调度新任务时能够快速识别资源进而减少资源配置时间。

Description

一种分布式数据缓存加速训练的方法、系统及介质
技术领域
本发明涉及人工智能领域,特别是涉及一种分布式数据缓存加速训练的方法、系统及介质。
背景技术
随着人工智能业务的广泛发展,大量的业务数据需要被分析以及作为人工智能业务更新的训练材料,而如何提高在不同类型存储(NFS、HDFS、GlusterFS等)上的训练数据的读取速度提高整体训练速度成为业界重要的研究课题之一,深度学习训练任务通常采用分布式的训练框架进行训练,如Tensorflow、Caffe、Pytorch等。各个任务的训练数据通常也是由大量小文件目录和数据标签组成,如计算机视觉常用的ImageNet-1K数据集包含了一千种类超过一百多万的图片文件,因此,如何有效减少训练前期数据读取时间成为当前深度学习的研究热点之一。
目前现有技术存在训练过程中数据读取缓慢,尤其是在云存储的训练数据在过程中尤其缓慢。
发明内容
本发明主要解决是训练过程中数据读取缓慢,尤其是在云存储的训练数据在过程中尤其缓慢的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种分布式数据缓存加速训练的方法,包括以下步骤:
配置训练环境以及数据集;
获取训练任务;
判断Kubernetes是否识别所述训练任务,若未识别,则将所述训练任务转换为所述Kubernetes识别的命令和配置;
根据所述训练任务进行任务调度并执行调度策略得到第一数据集;
根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别;
将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。
优选的,所述配置训练环境以及数据集的步骤进一步包括:
使用Kubernetes Volume;
将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上;
进行数据集缓存配置以及数据集复用配置;
设置所述数据集的标签,并记为第一标签。
优选的,所述数据集缓存配置的步骤进一步包括:设置数据集进行分布式缓存或单节点缓存的阈值。
优选的,所述执行调度策略得到第一数据集的步骤进一步包括:
配置并读取训练的硬件的数量;
根据所述硬件的数量并通过所述Kubernetes的资源管理进行分配任务;
判断所述数据集是否满足条件,若满足条件,则将满足条件的所述数据集记为第一数据集,使用所述第一数据集进行训练;
若不满足条件,则执行筛选过滤策略。
优选的,所述判断所述数据集是否满足条件的步骤进一步包括:
判断所述Kubernetes Volume中存储的数据集的标签是否与设置所述第一标签相同;若相同,则所述训练节点中存储所述数据集,满足条件;
若不相同,则所述训练节点中未存储所述数据集,不满足条件。
优选的,所述筛选过滤策略的步骤进一步包括:
筛选数据集:根据所述数据集以及所述存储器的数据空间大小进行筛选数据集,将数据空间大于所述存储器的数据空间的所述数据集过滤;
判断数据集:判断过滤后是否存在数据集;若过滤后不存在数据集,则再次将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上,重复判断所述数据集是否满足条件步骤;
若过滤后存在数据集,则将过滤后的数据集记为第一数据集;
选择缓存:根据所述分布式缓存或单节点缓存的阈值相应的选择分布式缓存或单节点缓存。
优选的,当所述数据集使用时,利用所述Kubernetes控制进行Pod挂载;当所述数据集未使用时,将所述数据集保存至所述Kubernetes的资源池中;
对重复的所述数据集在第一预设时间段内进行检查,若第二预设时间内未使用重复的所述数据集,则将重复的所述数据集进行清理。
优选的,所述训练结束时,所述Kubernetes控制进行Pod挂载的所述Pod结束生命周期,所述第一数据集不删除,保存至所述Kubernetes的资源池中。
本发明还提供一种分布式数据缓存加速训练的系统,包括:配置模块、请求模块、集成模块、调度模块、选择模块和训练模块;
所述配置模块用于配置训练环境以及数据集;
所述请求模块用于获取训练任务;
所述集成模块用于对所述训练任务进行转换,将所述训练任务转换为Kubernetes识别的命令和配置;
所述调度模块用于根据所述训练任务进行任务调度并执行调度策略得到第一数据集;
所述选择模块用于根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别;
所述训练模块用于将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的一种分布式数据缓存加速训练的方法的步骤。
本发明的有益效果是:
1、本发明所述的一种分布式数据缓存加速训练的方法,可以本地缓存进行单节点或者分布式的缓存训练数据从而加速训练,使用时采用卷管理机制进行挂载使用保证数据的持久性,另外数据集作为Kubernetes的一种资源进行配置使用从而达到简化云原生应用配置的复杂度。
2、本发明所述的一种分布式数据缓存加速训练的系统,可以通过集成模块对用户的请求进行转换,方便Kubernetes能够识别,可以转换不同种类以及语言的用户请求,兼容性更好,并且通过调度模块进行执行Kubernetes的调度策略能够快速识别资源和使用进而减少资源配置时间。
3、本发明所述的一种计算机可读存储介质,将数据进行本地缓存然后作为资源类型供以后训练任务调度使用,省去了数据预加载过程达到加速目的。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的一种分布式数据缓存加速训练的方法示意图;
图2是本发明实施例1所述的一种分布式数据缓存加速训练的方法流程示意图;
图3是本发明实施例1所述的一种分布式数据缓存加速训练的方法中调度策略流程图;
图4是本发明实施例2所述的一种分布式数据缓存加速训练的系统架构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
需要说明的是,在本发明的描述中
NFS网络文件系统,英文Network File System;
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统(Distributed File System);
Gluster File System是通过网络互联成一个并行的网络文件系统;
TensorFlow是谷歌的第二代机器学习系统,TensorFlow内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用TensorFlow。
Caffe,全称Convolutional Architecture for Fast Feature Embedding,是一个兼具表达性、速度和思维模块化的深度学习框架。
PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。
Kubernetes VolumeVolume是Pod中能够被多个容器共享的磁盘目录。
Kubernetes中的Volume与Pod的生命周期相同,但与容器的生命周期不相关。当容器终止或重启时,Volume中的数据也不会丢失。
当Pod被删除时,Volume才会被清理。并且数据是否丢失取决于Volume的具体类型,比如emptyDir类型的Volume数据会丢失,而PV类型的数据则不会丢失。
Kubernetes:开源项目用于管理云平台中多个主机上的容器化的应用。
kubelet是在每个Node节点上运行的主要“节点代理”。
YAML是一种标记语言。
YAML的语法和其他高级语言类似,并且可以简单表达清单、散列表,标量等数据形态,它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构、各种配置文件、倾印调试内容、文件大纲。
固态驱动器(Solid State Disk或Solid State Drive,简称SSD),俗称固态硬盘。
Kubernetes提供了众多的volume类型,包括emptyDir、hostPath、nfs、glusterfs、cephfs、ceph rbd等。
Scheduler是调度器或调度程序;
存储器为SSD硬盘。
GPU(Graphics Processing Unit)是图形处理器;
CPU(central processing unit)是中央处理器。
实施例1
本发明实施例提供一种分布式数据缓存加速训练的方法,请参阅图1和图2,包括以下步骤:
S100,在容器中的深度学习训练为了保持训练的持续性和容错性,大部分训练过程中都将数据持久方式进行使用,为了持久化保存容器的数据,使用Kubernetes Volume,Volume的生命周期独立于容器,Pod中的容器可能被销毁和重建,但Volume会被保留。一次在新的任务使用时可以继续使用该承载数据集的volume,并且Kubernetes Volume是一个目录,这一点与Docker Volume类似。当Volume被mount安装到Pod,Pod中的所有容器都可以访问这个Volume。Kubernetes Volume也支持多种backend类型;backend类型指不同种类的文件存储系统,如包括emptyDir、hostPath、nfs、glusterfs、cephfs、ceph rbd等;
将远端的数据集下载到训练节点的本地SSD上;
远端是指存储训练数据集的云存储或者存储服务器;训练节点是需具有GPU或者用来进行深度学习训练的计算机节点;
进行数据集缓存配置:
设置数据集进行分布式或单节点缓存的阈值;为防止数据集过大而不能单节点缓存;当数据集数据容量大时,使用分布式缓存,当数据集数据容量小时使用单节点缓存;
进行数据集复用配置:多缓存版本控制,为追求性能用户最大化提高训练速度,数据集独享使用避免交叉使用;
数据集缓存配置和数据集是否复用在用户请求之前完成,配合调度策略进行任务和数据集的调度。
数据集下载到训练节点的本地SSD上时,将数据集打上标签。
S200,用户提出训练任务请求,用户触发具体的训练任务后收集用户请求的训练任务内容,训练任务的请求包括需要训练的硬件请求,例如,请求训练CPU、请求训练GPU等;并且数据集也作为一个资源类型,包含在用户训练任务请求中;
数据集作为一种资源在Kubernetes进行识别,数据集名字作为识别标签使用,例如imagenet数据集和mnist数据集等;
当使用数据集时利用Kubernetes控制进行Pod挂载,如果数据集未使用就将数据集作为一种资源放在Kubernetes的资源池中储存;
当使用数据集时,可根据用户训练任务请求对数据集进行一对多资源复用,并且默认使用高速网络进行节点内的数据交换;
当使用数据集时,如果数据集单独使用,但是Kubernetes已经控制进行了Pod挂载,则会将此数据集复制到其他节点以满足用户使用需求,并且若有重复的数据集则会在第一预设时间内进行检查,如果第二预设时间未进行使用则将重复的数据集进行清理,只保留一份数据集;
第一预设时间和第二预设时间可以为一天,三天,五天,根据用户的需求可以任意设定;
S300,当用户的前端请求存在多种语言结构时,通过API将前端请求转换为Kubernetes能够识别的命令和配置;
前端请求的多种语言结构包括:Java,python等;
S400,启动scheduler进行任务调度,执行Kubernetes的调度策略,在Kubernetes的scheduler进行任务调度对训练任务进行调度;
请参阅图3,调度策略的步骤包括:
S401,配置用户想要进行训练的GPU的数量,并进行读取GPU的数量;
S402,进行GPU资源可选节点筛选:根据GPU的数量,并通过Kubernetes的资源管理感知整个集群中有多少可用的GPU,根据可用的GPU分配任务;
S403,进行判断数据集是否满足条件,Kubernetes判断Volume中存储的数据集的标签是否与需要训练使用的数据集的标签是否一致,若一致则训练计算节点上有了该数据集,该节点上有了这个数据集的标签,则满足条件,将该数据集记为第一数据集,使用第一数据集进行训练,若不一致,则不满足,根据数据类型缓存配置进行筛选过滤;
S404,根据数据类型缓存配置进行筛选过滤的步骤进一步为:筛选符合节点SSD上的磁盘空间,因为有些数据集大小会超过某些可用节点SSD剩余空间,将数据集大小超过SSD节点剩余空间的部分过滤掉;判断过滤后是否存在数据集;若过滤后不存在数据集,则从远端进行数据集拉取和缓存回到步骤S403,直至筛选过滤出第一数据集;
若过滤后存在数据集,则将过滤后的数据集记为第一数据集。
S405,根据数据集中的数据集缓存配置进行选择单节点或者分布式缓存;
根据数据集缓存配置中分布式或者单节点缓存的阈值选择单节点缓存或分布式缓存,
根据数据集缓存配置中单节点缓存阈值选择单节点缓存或分布式缓存为:
当数据集中数据超过所述单节点缓存的阈值时,执行分布式缓存;
当数据集中数据未超过所述单节点缓存的阈值时,执行单节点缓存;
根据数据集缓存配置中分布式缓存阈值选择单节点缓存或分布式缓存为:
当数据集中数据超过分布式缓存阈值的阈值时,执行分布式缓存;
当数据集中数据未超过分布式缓存阈值的阈值时,执行单节点缓存;
S500,根据用户任务请求和调度策略进行选择第一数据集的单节点或者分布式缓存;
其中进行单节点或分布式缓存可进行选择,
根据用户要求,进行选择单节点或分布式缓存;
或者数据集规模巨大时,单节点不能进行完全缓存则进行分布式缓存;
S600,进行训练,将训练任务通过Kubernetes调度到训练节点上使用单节点或分布式缓存以及第一数据集进行训练。当训练结束时,Kubernetes控制进行Pod挂载的Pod结束生命周期,相应的Kubernetes挂载结束,但是进行训练时使用的数据集资源不删除,一直保存在Kubernetes的资源池内供后续使用。
实施例2
本发明实施例还提供一种分布式数据缓存加速训练的系统,请参阅图4,包括:配置模块、请求模块、集成模块、调度模块、选择模块和训练模块;
配置模块用于配置训练环境以及数据集;
请求模块用于获取训练任务;
集成模块用于对训练任务进行转换,由于前端训练任务可能存在多种多样的语言结构,因此集成模块主要是为了对训练任务转换为Kubernetes能够识别的命令和配置;
调度模块用于根据所述任务进行任务调度并执行调度策略得到第一数据集;
选择模块用于根据所述训练任务和所述第一数据集进行选择所述第一数据集的单节点缓存或分布式缓存;
训练模块用于将所述训练任务通过Kubernetes以及所述第一数据集并根据选择所述数据集的缓存结果进行训练。
基于与前述实施例中方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述公开的一种分布式数据缓存加速训练的方法的步骤。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种分布式数据缓存加速训练的方法,其特征在于,包括以下步骤:
配置训练环境以及数据集;
获取训练任务;
判断Kubernetes是否识别所述训练任务,若未识别,则将所述训练任务转换为所述Kubernetes识别的命令和配置;
根据所述训练任务进行任务调度并执行调度策略得到第一数据集;
根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别;
将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。
2.根据权利要求1所述的分布式数据缓存加速训练的方法,其特征在于:所述配置训练环境以及数据集的步骤进一步包括:
使用Kubernetes Volume;
将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上;
进行数据集缓存配置以及数据集复用配置;
设置所述数据集的标签,并记为第一标签。
3.根据权利要求2所述的分布式数据缓存加速训练的方法,其特征在于:所述数据集缓存配置的步骤进一步包括:设置数据集进行分布式缓存或单节点缓存的阈值。
4.根据权利要求3所述的分布式数据缓存加速训练的方法,其特征在于:所述执行调度策略得到第一数据集的步骤进一步包括:
配置并读取训练的硬件的数量;
根据所述硬件的数量并通过所述Kubernetes的资源管理进行分配任务;
判断所述数据集是否满足条件,若满足条件,则将满足条件的所述数据集记为第一数据集,使用所述第一数据集进行训练;
若不满足条件,则执行筛选过滤策略。
5.根据权利要求4所述的分布式数据缓存加速训练的方法,其特征在于:所述判断所述数据集是否满足条件的步骤进一步包括:
判断所述Kubernetes Volume中存储的数据集的标签是否与设置所述第一标签相同;若相同,则所述训练节点中存储所述数据集,满足条件;
若不相同,则所述训练节点中未存储所述数据集,不满足条件。
6.根据权利要求4所述的分布式数据缓存加速训练的方法,其特征在于:所述筛选过滤策略的步骤进一步包括:
筛选数据集:根据所述数据集以及所述存储器的数据空间大小进行筛选数据集,将数据空间大于所述存储器的数据空间的所述数据集过滤;
判断数据集:判断过滤后是否存在数据集;若过滤后不存在数据集,则再次将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上,重复判断所述数据集是否满足条件步骤;
若过滤后存在数据集,则将过滤后的数据集记为第一数据集;
选择缓存:根据所述分布式缓存或单节点缓存的阈值相应的选择分布式缓存或单节点缓存。
7.根据权利要求1所述的分布式数据缓存加速训练的方法,其特征在于:当所述数据集使用时,利用所述Kubernetes控制进行Pod挂载;当所述数据集未使用时,将所述数据集保存至所述Kubernetes的资源池中;
对重复的所述数据集在第一预设时间段内进行检查,若第二预设时间内未使用重复的所述数据集,则将重复的所述数据集进行清理。
8.根据权利要求7所述的分布式数据缓存加速训练的方法,其特征在于:所述训练结束时,所述Kubernetes控制进行Pod挂载的所述Pod结束生命周期,所述第一数据集不删除,保存至所述Kubernetes的资源池中。
9.一种分布式数据缓存加速训练的系统,其特征在于,包括:配置模块、请求模块、集成模块、调度模块、选择模块和训练模块;
所述配置模块用于配置训练环境以及数据集;
所述请求模块用于获取训练任务;
所述集成模块用于对所述训练任务进行转换,将所述训练任务转换为Kubernetes识别的命令和配置;
所述调度模块用于根据所述训练任务进行任务调度并执行调度策略得到第一数据集;
所述选择模块用于根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别;
所述训练模块用于将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-8任一项所述的一种分布式数据缓存加速训练的方法的步骤。
CN202110181363.XA 2021-02-10 2021-02-10 一种分布式数据缓存加速训练的方法、系统及介质 Active CN112905325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110181363.XA CN112905325B (zh) 2021-02-10 2021-02-10 一种分布式数据缓存加速训练的方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110181363.XA CN112905325B (zh) 2021-02-10 2021-02-10 一种分布式数据缓存加速训练的方法、系统及介质

Publications (2)

Publication Number Publication Date
CN112905325A true CN112905325A (zh) 2021-06-04
CN112905325B CN112905325B (zh) 2023-01-10

Family

ID=76123351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110181363.XA Active CN112905325B (zh) 2021-02-10 2021-02-10 一种分布式数据缓存加速训练的方法、系统及介质

Country Status (1)

Country Link
CN (1) CN112905325B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792885A (zh) * 2021-08-20 2021-12-14 山东英信计算机技术有限公司 一种深度学习训练的执行方法及相关装置
CN117555697A (zh) * 2024-01-11 2024-02-13 之江实验室 一种面向分布式训练的缓存加载系统、方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427222A (zh) * 2019-06-24 2019-11-08 北京达佳互联信息技术有限公司 数据加载方法、装置、电子设备及存储介质
CN110825705A (zh) * 2019-11-22 2020-02-21 广东浪潮大数据研究有限公司 一种数据集缓存方法及相关装置
CN111124277A (zh) * 2019-11-21 2020-05-08 苏州浪潮智能科技有限公司 一种深度学习数据集缓存方法、系统、终端及存储介质
CN111258965A (zh) * 2020-01-10 2020-06-09 北京猎豹移动科技有限公司 一种数据获取方法、装置、电子设备及存储介质
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN112148202A (zh) * 2019-06-26 2020-12-29 杭州海康威视数字技术股份有限公司 训练样本读取方法及装置
CN112202837A (zh) * 2020-09-04 2021-01-08 苏州浪潮智能科技有限公司 一种基于数据集与节点缓存的调度方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN110427222A (zh) * 2019-06-24 2019-11-08 北京达佳互联信息技术有限公司 数据加载方法、装置、电子设备及存储介质
CN112148202A (zh) * 2019-06-26 2020-12-29 杭州海康威视数字技术股份有限公司 训练样本读取方法及装置
CN111124277A (zh) * 2019-11-21 2020-05-08 苏州浪潮智能科技有限公司 一种深度学习数据集缓存方法、系统、终端及存储介质
CN110825705A (zh) * 2019-11-22 2020-02-21 广东浪潮大数据研究有限公司 一种数据集缓存方法及相关装置
CN111258965A (zh) * 2020-01-10 2020-06-09 北京猎豹移动科技有限公司 一种数据获取方法、装置、电子设备及存储介质
CN112202837A (zh) * 2020-09-04 2021-01-08 苏州浪潮智能科技有限公司 一种基于数据集与节点缓存的调度方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792885A (zh) * 2021-08-20 2021-12-14 山东英信计算机技术有限公司 一种深度学习训练的执行方法及相关装置
CN117555697A (zh) * 2024-01-11 2024-02-13 之江实验室 一种面向分布式训练的缓存加载系统、方法、装置及设备
CN117555697B (zh) * 2024-01-11 2024-04-05 之江实验室 一种面向分布式训练的缓存加载系统、方法、装置及设备

Also Published As

Publication number Publication date
CN112905325B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
RU2507567C2 (ru) Многопользовательское сетевое сотрудничество
US8788760B2 (en) Adaptive caching of data
US8972690B2 (en) Methods and apparatuses for usage based allocation block size tuning
CN112905325B (zh) 一种分布式数据缓存加速训练的方法、系统及介质
EP1266289A1 (en) Method and apparatus for storing changes to file attributes without having to store an additional copy of the file contents
WO2012026034A1 (ja) スケジューラ、マルチコアプロセッサシステムおよびスケジューリング方法
CN112269781B (zh) 数据生命周期管理方法、装置、介质及电子设备
US20100325363A1 (en) Hierarchical object caching based on object version
CN106874459B (zh) 流式数据存储方法及装置
CN104679898A (zh) 一种大数据访问方法
CN109710185A (zh) 数据处理方法及装置
US11080207B2 (en) Caching framework for big-data engines in the cloud
US20210256427A1 (en) Automated Computer Operating System Optimization
KR20230093420A (ko) 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치
US8266189B2 (en) Adapting between coupled and decoupled provider interfaces
US20230153100A1 (en) Method and apparatus for managing model file in inference application
CN114528255A (zh) 元数据管理方法、电子设备及计算机程序产品
CN115185679A (zh) 人工智能算法的任务处理方法、装置、服务器及存储介质
US20030088829A1 (en) Structured document processing system, method, program and recording medium
CN113407343A (zh) 一种基于资源分配的业务处理方法、装置及设备
US20080222183A1 (en) Autonomic rule generation in a content management system
CN112395437B (zh) 一种3d模型的加载方法、装置、电子设备及存储介质
Konishetty et al. Implementation and evaluation of scalable data structure over hbase
US10379899B2 (en) Systems and methods for frame presentation and modification in a networking environment
US20060282437A1 (en) Apparatus, system, and method for ordered processing of a hierarchical data structure according to a data source

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant