CN112181290B - 一种数据集缓存处理方法、装置和系统 - Google Patents

一种数据集缓存处理方法、装置和系统 Download PDF

Info

Publication number
CN112181290B
CN112181290B CN202010888971.XA CN202010888971A CN112181290B CN 112181290 B CN112181290 B CN 112181290B CN 202010888971 A CN202010888971 A CN 202010888971A CN 112181290 B CN112181290 B CN 112181290B
Authority
CN
China
Prior art keywords
data set
caching
cache
task
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010888971.XA
Other languages
English (en)
Other versions
CN112181290A (zh
Inventor
方雪静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010888971.XA priority Critical patent/CN112181290B/zh
Publication of CN112181290A publication Critical patent/CN112181290A/zh
Application granted granted Critical
Publication of CN112181290B publication Critical patent/CN112181290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据集缓存处理方法、装置和系统,属于数据处理的技术领域,解决了现有技术中存在的AIStationV2.1版本数据集节点缓存模式设计的不完善,导致多用户在并发拉取小文件大数据集时,性能低下,并因对系统造成压力过大而产生告警的技术问题。包括在Pod中初始化容器,根据任务请求缓存数据集,判断是否为同一个用户发出的缓存请求,若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。本发明解决了initcontainer频繁重启导致卡死的技术问题,增加数据集唯一性校验,避免重复缓存相同数据集带来的性能消耗,不同的缓存请求由不同的数据集缓存流程更有针对性的处理,避免因资源抢占带来的资源浪费及性能消耗。

Description

一种数据集缓存处理方法、装置和系统
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种数据集缓存处理方法、装置和系统。
背景技术
近几年,以深度学习为代表的人工智能技术取得了飞速的发展,正落地应用于各行各业。但深度学习模型训练的常规方案主要采用手动方式进行数据准备,数据成本管理高昂。为了降低数据访问的高成本和复杂度,最常用的手段就是缓存。
现有的技术方案:
AIStation产品数据集缓存分为节点缓存模式、本地缓存模式,以下文中内容,均为针对节点缓存模式进行的陈述、说明、优化。
AIStationV2.1版本在接收到用户的数据集缓存请求后,统一由数据集缓存管理CBB模块进行处理。
S1:pod初始化容器initContainer。
S2: 数据集缓存处理模块接收到同一用户的多个请求或不同用户的多个请求,后将请求直接下发。
S3:由数据集缓存管理模块CBB,按照请求的先后顺序统一进行处理,如数据集文件过大,不同用户之间,随之产生并发缓存的场景。
S4:缓存结束。
现有技术的缺点:
1.全盘接收用户所有的数据集缓存请求,未对数据集进行唯一性的检测,导致initContainer频繁重启,达到一定量级后,会有一定概率导致initContainer卡死。
2.数据集缓存生命周期粒度过粗,几近于无。
3.由以上两点导致不合理的资源抢占,导致数据集缓存性能低下。
发明内容
本发明的目的在于提供数据集缓存处理方法、装置和系统,以解决了现有技术中存在的AIStationV2.1版本数据集节点缓存模式设计的不完善,导致多用户在并发拉取小文件大数据集时,性能低下,并因对系统造成压力过大而产生告警的技术问题。
第一方面,本发明提供的数据集缓存处理方法,包括:
在Pod中初始化容器;
根据任务请求缓存数据集;
判断是否为同一个用户发出的缓存请求;
若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。
进一步的,在判断是否为同一个用户发出的缓存请求的步骤之后,还包括:
若为不同用户缓存不同数据集,则执行并发缓存。
进一步的,根据任务请求缓存数据集的步骤,包括:
进行数据集的唯一性检测;
若多个任务缓存不同数据集,则请求直接缓存数据集;
若多个任务缓存同一个数据集,则仅请求缓存一份数据集。
进一步的,所述任务包括开发环境任务或训练任务。
第二方面,本发明还提供一种数据集缓存处理装置,包括:
初始化模块,用于在Pod中初始化容器;
数据集缓存预处理模块,用于根据任务请求缓存数据集;
判断模块,用于判断是否为同一个用户发出的缓存请求;
数据集缓存管理CBB模块,用于若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。
进一步的,还包括数据集缓存管理代理模块,用于若为不同用户缓存不同数据集,则执行并发缓存。
进一步的,数据集缓存预处理模块,具体用于:
进行数据集的唯一性检测;
若多个任务缓存不同数据集,则请求直接缓存数据集;
若多个任务缓存同一个数据集,则仅请求缓存一份数据集。
进一步的,所述任务包括开发环境任务或训练任务。
第三方面,本发明还提供一种数据集缓存处理系统,包括管理节点和多个计算节点,所述计算节点包括如所述的数据集缓存处理装置。
本发明提供的数据集缓存处理方法、装置和系统,通过重构数据集缓存模块架构,增加对数据集生命周期更细粒度的管理,重新设计交互流程,增加数据集唯一性的检测,由不同的数据集缓存管理模块处理不同类的请求,有效利用分配资源,从而提高数据集并发缓存的效率,本发明在解决了数据高并发使用带来数据一致性及脏数据问题的基础上,仍对数据集缓存性能损失有一定的优化,并对数据集缓存的逻辑处理结构进行优化,从而解决数据集缓存高并发带来的一系列问题,解决了initcontainer频繁重启导致卡死的技术问题,增加数据集唯一性校验,避免重复缓存相同数据集带来的性能消耗,不同的缓存请求由不同的数据集缓存流程更有针对性的处理,避免因资源抢占带来的资源浪费及性能消耗。
相应地,本发明实施例提供的一种数据集缓存处理方法、装置和系统,也同样具有上述技术效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据集缓存处理系统的构架图;
图2为本发明实施例提供的数据集缓存处理方法流程。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参考附图1-2,本发明实施例提供一种数据集缓存处理方法包括:
在Pod中初始化容器;
根据任务请求缓存数据集;
判断是否为同一个用户发出的缓存请求;
若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。
通过重构数据集缓存模块架构,增加对数据集生命周期更细粒度的管理,重新设计交互流程,增加数据集唯一性的检测,由不同的数据集缓存管理模块处理不同类的请求,有效利用分配资源,从而提高数据集并发缓存的效率,本发明在解决了数据高并发使用带来数据一致性及脏数据问题的基础上,仍对数据集缓存性能损失有一定的优化,并对数据集缓存的逻辑处理结构进行优化,从而解决数据集缓存高并发带来的一系列问题,解决了initcontainer频繁重启导致卡死的技术问题,增加数据集唯一性校验,避免重复缓存相同数据集带来的性能消耗,不同的缓存请求由不同的数据集缓存流程更有针对性的处理,避免因资源抢占带来的资源浪费及性能消耗。
本发明实施例中,在判断是否为同一个用户发出的缓存请求的步骤之后,还包括:
若为不同用户缓存不同数据集,则执行并发缓存。
本发明实施例中,根据任务请求缓存数据集的步骤,包括:
进行数据集的唯一性检测;
若多个任务缓存不同数据集,则请求直接缓存数据集;
若多个任务缓存同一个数据集,则仅请求缓存一份数据集。
本发明实施例中,任务包括开发环境任务或训练任务。
本发明实施例中,在数据集缓存请求时进行预处理,将数据集缓存请求进行分类管理,在由相应的处理模块去执行。具体结构图如图1所示。
管理节点下发用户缓存请求后:
S1:pod初始化容器initContainer。
S2: 数据集缓存预处理模块进行数据集唯一性的检测,后将请求进行分类下发。
S3.1:数据集缓存管理CBB(共用基础模块,Common Building Blocks)模块:处理同一个用户同一个任务的多个数据集下载,第一个请求数据集下载,其他顺序排队。
S3.2:数据集缓存管理agent模块:处理不同用户多个任务的多个数据集下载,数据集同时下载,实现高并发缓存。
S4:缓存结束。
由此可解决多且杂乱的数据集缓存高并发请求,导致initContainer频繁重启而卡住,无法继续缓存数据集。或导致任务互相抢占资源,性能低下的问题。
本发明实施例中,重构数据集缓存模块架构,增加对数据集生命周期更细粒度的管理,重新设计交互流程,增加数据集唯一性的检测,由不同的数据集缓存管理模块处理不同类的请求,有效利用分配资源,从而提高数据集并发缓存的效率。详细如图2所示。
当管理节点下发用户缓存请求任务后:
步骤1:容器进行初始化。
步骤2:进行数据唯一性检测:(1)如果多个开发环境或训练任务请求缓存的同一数据集,仅缓存一份数据集,即相同计算节点中,相同数据集最多只能有一份数据集缓存;(2)如果多个开发环境或训练任务请求缓存不同数据集,将请求直接下发。
步骤3:判断是否为同一用户发出缓存请求:
如果为同一用户,择判断为开发环境或训练任务缓存多个不同数据集的情况,按照请求顺序,第一个请求执行缓存,其他请求顺序排队;
如果为不同用户,择判断为不同开发环境或训练任务缓存不同数据集,无论开发环境或训练任务请求单个或多个数据集缓存,都执行并发缓存。
步骤4:执行缓存。
本发明实施例提供的一种数据集缓存处理装置,包括:
初始化模块,用于在Pod中初始化容器;
数据集缓存预处理模块,用于根据任务请求缓存数据集;
判断模块,用于判断是否为同一个用户发出的缓存请求;
数据集缓存管理CBB模块,用于若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。
本发明实施例中,还包括数据集缓存管理代理模块,用于若为不同用户缓存不同数据集,则执行并发缓存。
本发明实施例中,数据集缓存预处理模块,具体用于:
进行数据集的唯一性检测;
若多个任务缓存不同数据集,则请求直接缓存数据集;
若多个任务缓存同一个数据集,则仅请求缓存一份数据集。
本发明实施例中,任务包括开发环境任务或训练任务。
本发明实施例提供的一种数据集缓存处理系统,其特征在于,包括管理节点和多个计算节点,计算节点包括数据集缓存处理装置。
本发明公开的面向深度学习场景的人工智能开发产品AIStationV2.1版本,已正式投入市场,目前已获得很多优质客户。AIStationV2.2版本在原本数据集缓存模块的基础上进行优化,在支持历史版本数据集完整功能的基础上,重新设计交互流程,来达到提升数据访问性能的目的。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种数据集缓存处理方法,其特征在于,包括:
在Pod中初始化容器;
根据任务请求缓存数据集;包括:进行数据集的唯一性检测;若多个任务缓存不同数据集,则请求直接缓存数据集;若多个任务缓存同一个数据集,则仅请求缓存一份数据集;
判断是否为同一个用户发出的缓存请求;
若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存;
若为不同用户缓存不同数据集,则执行并发缓存。
2.根据权利要求1所述的方法,其特征在于,所述任务包括开发环境任务或训练任务。
3.一种数据集缓存处理装置,其特征在于,包括:
初始化模块,用于在Pod中初始化容器;
数据集缓存预处理模块,用于根据任务请求缓存数据集;进行数据集的唯一性检测;若多个任务缓存不同数据集,则请求直接缓存数据集;若多个任务缓存同一个数据集,则仅请求缓存一份数据集;
判断模块,用于判断是否为同一个用户发出的缓存请求;
数据集缓存管理CBB模块,用于若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存;若为不同用户缓存不同数据集,则执行并发缓存。
4.根据权利要求3所述的装置,其特征在于,所述任务包括开发环境任务或训练任务。
5.一种数据集缓存处理系统,其特征在于,包括管理节点和多个计算节点,所述计算节点包括如权利要求3或4所述的数据集缓存处理装置。
CN202010888971.XA 2020-08-28 2020-08-28 一种数据集缓存处理方法、装置和系统 Active CN112181290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010888971.XA CN112181290B (zh) 2020-08-28 2020-08-28 一种数据集缓存处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010888971.XA CN112181290B (zh) 2020-08-28 2020-08-28 一种数据集缓存处理方法、装置和系统

Publications (2)

Publication Number Publication Date
CN112181290A CN112181290A (zh) 2021-01-05
CN112181290B true CN112181290B (zh) 2022-08-19

Family

ID=73924489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010888971.XA Active CN112181290B (zh) 2020-08-28 2020-08-28 一种数据集缓存处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN112181290B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502487A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种缓存管理方法与装置
CN111124277A (zh) * 2019-11-21 2020-05-08 苏州浪潮智能科技有限公司 一种深度学习数据集缓存方法、系统、终端及存储介质
US10657064B1 (en) * 2019-01-31 2020-05-19 Salesforce.com. inc. Extending usages of cached data objects beyond cache expiration periods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657064B1 (en) * 2019-01-31 2020-05-19 Salesforce.com. inc. Extending usages of cached data objects beyond cache expiration periods
CN110502487A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种缓存管理方法与装置
CN111124277A (zh) * 2019-11-21 2020-05-08 苏州浪潮智能科技有限公司 一种深度学习数据集缓存方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN112181290A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US20230147068A1 (en) Management of distributed computing framework components
Cho et al. Natjam: Design and evaluation of eviction policies for supporting priorities and deadlines in mapreduce clusters
Wei et al. Managed communication and consistency for fast data-parallel iterative analytics
US9442760B2 (en) Job scheduling using expected server performance information
US20170337138A1 (en) Dynamic cache management for in-memory data analytic platforms
Voghoei et al. Deep learning at the edge
CN107479990A (zh) 一种分布式软件服务系统
US20200279187A1 (en) Model and infrastructure hyper-parameter tuning system and method
CN108509280B (zh) 一种基于推送模型的分布式计算集群本地性调度方法
CN107820611A (zh) 事件处理系统调页
Cheong et al. SCARL: Attentive reinforcement learning-based scheduling in a multi-resource heterogeneous cluster
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN111190696A (zh) Docker容器的部署方法、系统、设备及存储介质
AU2004285241C1 (en) Tracking space usage in a database
CN113392863A (zh) 一种机器学习训练数据集的获取方法、获取装置及终端
US20130212584A1 (en) Method for distributed caching and scheduling for shared nothing computer frameworks
CN112181290B (zh) 一种数据集缓存处理方法、装置和系统
US20240143436A1 (en) Techniques to provide self-healing data pipelines in a cloud computing environment
Yesil et al. Understanding priority-based scheduling of graph algorithms on a shared-memory platform
CN105830029B (zh) 用于在计算环境中支持自适应忙等待的系统和方法
CN110633302B (zh) 一种海量结构化数据的处理方法及装置
CN110728372A (zh) 一种人工智能模型动态加载的集群设计方法及集群架构
US7308690B2 (en) System and method to improve harvesting of zombie processes in an operating system
Huang et al. Improving speculative execution performance with coworker for cloud computing
US20210056507A1 (en) System and method for an intelligent workspace management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant