CN113010376B - 一种对存储训练数据的云存储系统的监测方法及装置 - Google Patents

一种对存储训练数据的云存储系统的监测方法及装置 Download PDF

Info

Publication number
CN113010376B
CN113010376B CN202110226882.3A CN202110226882A CN113010376B CN 113010376 B CN113010376 B CN 113010376B CN 202110226882 A CN202110226882 A CN 202110226882A CN 113010376 B CN113010376 B CN 113010376B
Authority
CN
China
Prior art keywords
task
data
training
virtual
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110226882.3A
Other languages
English (en)
Other versions
CN113010376A (zh
Inventor
余虹建
李锦丰
朱军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Juyun Technology Co ltd
Original Assignee
Beijing Juyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Juyun Technology Co ltd filed Critical Beijing Juyun Technology Co ltd
Priority to CN202110226882.3A priority Critical patent/CN113010376B/zh
Publication of CN113010376A publication Critical patent/CN113010376A/zh
Application granted granted Critical
Publication of CN113010376B publication Critical patent/CN113010376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供了一种对存储训练数据的云存储系统的监测方法及装置,上述方法包括:每个虚拟任务执行卡的缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,并将硬件状态信息存储至预设的监测数据存储数据库中。采用上述方法,实现了对存储训练数据的存储系统运行状态的有效监测。

Description

一种对存储训练数据的云存储系统的监测方法及装置
技术领域
本发明涉及存储系统的监测技术领域,特别是涉及一种对存储训练数据的云存储系统的监测方法及装置。
背景技术
随着深度学习驱动的AI服务越来越多,对深度学习模型进行训练的工作越来越多。对深度学习模型进行训练往往需要大量的训练数据,而且模型训练过程中,训练数据会被频繁的读/写,这就对存储训练数据的设备提出了很高的要求。为此,专用于存储训练数据的云存储系统应运而生。
然而,专用于存储训练数据的云存储系统在运行时的状态如何,目前还没有有效的监测方法。
发明内容
本发明实施例的目的在于提供一种对存储训练数据的云存储系统的监测方法及装置,以实现对存储训练数据的存储系统运行状态的有效监测。
为了达到上述目的,本发明实施例提供了一种对存储训练数据的存储系统的监测方法;所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测方法,包括:
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务;
所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,并将所述硬件状态信息存储至预设的监测数据存储数据库中。
进一步的,该方法还包括:
所述每个虚拟任务执行卡的所述缓存管理器,还记录执行一个训练任务过程中读取的数据的统计信息,发送给所述任务监测器;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
进一步的,每个虚拟任务执行卡的处理器资源包括:CPU处理器和GPU处理器;
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息的步骤,包括:记录执行一个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。
进一步的,所述任务监测器,在将所述硬件状态信息存储至预设的监测数据存储数据库之前,还包括:
基于各个训练任务的ID,针对每个训练任务生成硬件状态信息的统计表;
所述任务监测器,在将所述硬件状态信息存储至预设的监测数据存储数据库的步骤,包括:将每个训练任务生成硬件状态信息的统计表存储至预设的监测数据存储数据库。
进一步的,在所述任务监测器,将所述硬件状态信息存储至预设的监测数据存储数据库之后,还包括:
所述任务管理器,向预设的监测数据存储数据库发送数据请求;所述数据请求包括:指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息;
所述任务监测器在接收到所述任务管理器发送的数据请求后,将指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息发送至所述任务管理器;所述任务管理器,基于指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,重新调整训练任务。
为了达到上述目的,本发明实施例还提供了一种对存储训练数据的云存储系统的监测方法;所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测方法,应用于所述云存储系统的虚拟任务执行卡,包括:
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息;
将记录的执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器,以使所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,存储至预设的监测数据存储数据库中;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务。
进一步的,所述监测方法,还包括:
所述每个虚拟任务执行卡的所述缓存管理器,还记录执行一个训练任务过程中读取的数据的统计信息;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
将记录的一个训练任务过程中读取的数据的统计信息发送给所述任务监测器;以使所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
进一步的,所述监测方法,还包括:
每个虚拟任务执行卡的处理器资源包括:CPU处理器和GPU处理器;
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息的步骤,包括:记录执行一个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。
为了达到上述目的,本发明实施例还提供了一种对存储训练数据的云存储系统的监测装置,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测装置,应用于所述云存储系统的虚拟任务执行卡,包括:
记录模块,用于记录执行一个训练任务过程中的处理器的硬件状态信息;
发送模块,用于将记录的执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器,以使所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,存储至预设的监测数据存储数据库中;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务。
进一步的,所述记录模块,还用于记录执行一个训练任务过程中读取的数据的统计信息;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
所述发送模块,还用于将记录的一个训练任务过程中读取的数据的统计信息发送给所述任务监测器;以使所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
本发明实施例有益效果:
采用本发明实施例提供的对存储训练数据的云存储系统的监测方法,每个虚拟任务执行卡的缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务;通过任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,实现了对存储训练数据的存储系统运行状态的有效监测。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例中每个虚拟任务执行卡的结构图;
图2为本发明实施例提供的对存储训练数据的云存储系统的监测方法的一种交互示意图;
图3为针对监测数据存储数据库所存储的数据的应用方法的一种流程图;
图4为本发明实施例所提供的对存储训练数据的云存储系统的监测方法的一种流程图;
图5为本发明实施例所提供的对存储训练数据的云存储系统的监测装置的结构示意图;
图6为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种对存储训练数据的云存储系统的监测方法,其中,云存储系统,搭建在多台虚拟服务器上,各台虚拟服务器提供云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;图1为每个虚拟任务执行卡的结构图,参见图1,该方法包括:
每个虚拟任务执行卡的缓存管理器110,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器120;其中,执行一个训练任务过程包括:缓存管理器110从数据连接器130接收任务执行器140发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务。
任务监测器120,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,并将硬件状态信息存储至预设的监测数据存储数据库150中。
采用本发明实施例提供的对存储训练数据的云存储系统的监测方法,每个虚拟任务执行卡的缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务;通过任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,实现了对存储训练数据的存储系统运行状态的有效监测。
图2为本发明实施例提供的对存储训练数据的云存储系统的监测方法的一种交互示意图;每个虚拟任务执行卡包括:缓存管理器、任务监测器、数据连接器、任务执行器和监测数据存储数据库;该方法包括:
步骤201,缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息;以及记录执行一个训练任务过程中读取的数据的统计信息。
其中,每个虚拟任务执行卡的处理器资源可以包括:CPU处理器和GPU处理器。本发明实施例中,缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息的步骤,可以包括:记录执行一个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。即可以记录每个训练任务过程中的GPU利用率和CPU的利用率。
一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数。例如,训练任务过程中打开的文件数和/或关闭的文件数。
步骤202,缓存管理器,将记录的硬件状态信息,及记录的执行一个训练任务过程中读取的数据的统计信息发送给任务监测器。
其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务。
步骤203,任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息和记录的执行一个训练任务过程中读取的数据的统计信息。
步骤204,任务监测器,基于各个训练任务的ID,针对每个训练任务生成硬件状态信息的统计表,以及,生成记录的执行一个训练任务过程中读取的数据的统计信息的统计表。
步骤205,任务监测器,将每个训练任务生成的各个统计表存储至预设的监测数据存储数据库。
采用本发明实施例提供的方法,通过任务监测器,通过监测执行一个训练任务过程中的处理器的硬件状态信息和记录的执行一个训练任务过程中读取的数据的统计信息,实现了对存储训练数据的存储系统运行状态的有效监测。
图3为针对监测数据存储数据库所存储的数据的应用方法的一种流程,参见图3,包括:
步骤301,任务管理器,向预设的监测数据存储数据库发送数据请求。
其中,数据请求可以包括:指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息。例如,指定时间段可以为2020年9时10分-2020年9时15分。
数据请求还可以包括:指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中打开的文件数量和/关闭的文件数量。
步骤302,任务监测器在接收到任务管理器发送的数据请求后,将指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息发送至任务管理器。
其中,数据请求可以包括:指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息。例如,指定时间段可以为2020年9时10分-2020年9时15分。
本步骤中,若数据请求还包括指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中打开的文件数量和/关闭的文件数量时,任务监测器还可以将指定时间段内的执行一个训练任务过程中打开的文件数量和/或关闭的文件数量,发送至任务管理器。
步骤303,任务管理器,基于指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,重新调整训练任务。
本发明实施例中,每个任务训练过程的处理器的硬件状态信息可以包括:每个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。本步骤中,若指定时间段内存在某个训练任务过程中的GPU利用率和CPU的利用率低于基准利用率,和/或,指定时间段内的某个训练任务过程中打开的文件数量和/或关闭的文件数量低于基准量,可以确定该训练任务运行异常,任务管理器可以终止该训练任务。
即本发明实施例中,可以根据监测数据存储数据库所存储的数据,对训练任务进行及时调整。
图4为对存储训练数据的云存储系统的监测方法的一种流程图,该方法应用于云存储系统的虚拟任务执行卡,参见图4,该方法包括:
步骤401,每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息。
其中,每个虚拟任务执行卡的缓存管理器,还可以记录执行一个训练任务过程中读取的数据的统计信息;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
步骤402,将记录的执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器,以使任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,存储至预设的监测数据存储数据库中;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务。
本步骤中还可以将记录的一个训练任务过程中读取的数据的统计信息发送给所述任务监测器;以使任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
采用本发明实施例提供的对存储训练数据的云存储系统的监测方法,每个虚拟任务执行卡的缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务;通过任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,实现了对存储训练数据的存储系统运行状态的有效监测。
本发明实施例还提供了一种对存储训练数据的云存储系统的监测装置;所述监测装置,应用于所述云存储系统的虚拟任务执行卡,参见图5,所述监测装置包括:
记录模块501,用于记录执行一个训练任务过程中的处理器的硬件状态信息;
发送模块502,用于将记录的执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器,以使所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,存储至预设的监测数据存储数据库中;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务。
进一步的,所述记录模块501,还用于记录执行一个训练任务过程中读取的数据的统计信息;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
所述发送模块502,还用于将记录的一个训练任务过程中读取的数据的统计信息发送给所述任务监测器;以使所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
采用本发明实施例提供的对存储训练数据的云存储系统的监测装置,每个虚拟任务执行卡的缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;如果没有,则从磁盘资源中获得待训练模型所需要的待训练数据返回给任务执行器执行任务;通过任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,实现了对存储训练数据的存储系统运行状态的有效监测。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述所提供的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一对存储训练数据的云存储系统的监测方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一对存储训练数据的云存储系统的监测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种对存储训练数据的云存储系统的监测方法,其特征在于,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测方法,包括:
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务;
所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,并将所述硬件状态信息存储至预设的监测数据存储数据库中。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
所述每个虚拟任务执行卡的所述缓存管理器,还记录执行一个训练任务过程中读取的数据的统计信息,发送给所述任务监测器;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
3.根据权利要求1或2所述的方法,其特征在于,每个虚拟任务执行卡的处理器资源包括:CPU处理器和GPU处理器;
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息的步骤,包括:记录执行一个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。
4.根据权利要求1所述的方法,其特征在于,所述任务监测器,在将所述硬件状态信息存储至预设的监测数据存储数据库之前,还包括:
基于各个训练任务的ID,针对每个训练任务生成硬件状态信息的统计表;
所述任务监测器,在将所述硬件状态信息存储至预设的监测数据存储数据库的步骤,包括:将每个训练任务生成硬件状态信息的统计表存储至预设的监测数据存储数据库。
5.根据权利要求1所述的方法,其特征在于,在所述任务监测器,将所述硬件状态信息存储至预设的监测数据存储数据库之后,还包括:
所述任务管理器,向预设的监测数据存储数据库发送数据请求;所述数据请求包括:指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息;
所述任务监测器在接收到所述任务管理器发送的数据请求后,将指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息发送至所述任务管理器;所述任务管理器,基于指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,重新调整训练任务。
6.一种对存储训练数据的云存储系统的监测方法,其特征在于,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测方法,应用于所述云存储系统的虚拟任务执行卡,包括:
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息;
将记录的执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器,以使所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,存储至预设的监测数据存储数据库中;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务。
7.根据权利要求6所述的方法,其特征在于,还包括:
所述每个虚拟任务执行卡的所述缓存管理器,还记录执行一个训练任务过程中读取的数据的统计信息;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
将记录的一个训练任务过程中读取的数据的统计信息发送给所述任务监测器;以使所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
8.根据权利要求6所述的方法,其特征在于,还包括:
每个虚拟任务执行卡的处理器资源包括:CPU处理器和GPU处理器;
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息的步骤,包括:记录执行一个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。
9.一种对存储训练数据的云存储系统的监测装置,其特征在于,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测装置,应用于所述云存储系统的虚拟任务执行卡,包括:
记录模块,用于记录执行一个训练任务过程中的处理器的硬件状态信息;
发送模块,用于将记录的执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器,以使所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,存储至预设的监测数据存储数据库中;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务。
10.根据权利要求9所述的装置,其特征在于,所述记录模块,还用于记录执行一个训练任务过程中读取的数据的统计信息;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
所述发送模块,还用于将记录的一个训练任务过程中读取的数据的统计信息发送给所述任务监测器;以使所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。
CN202110226882.3A 2021-03-01 2021-03-01 一种对存储训练数据的云存储系统的监测方法及装置 Active CN113010376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110226882.3A CN113010376B (zh) 2021-03-01 2021-03-01 一种对存储训练数据的云存储系统的监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110226882.3A CN113010376B (zh) 2021-03-01 2021-03-01 一种对存储训练数据的云存储系统的监测方法及装置

Publications (2)

Publication Number Publication Date
CN113010376A CN113010376A (zh) 2021-06-22
CN113010376B true CN113010376B (zh) 2023-07-21

Family

ID=76387097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110226882.3A Active CN113010376B (zh) 2021-03-01 2021-03-01 一种对存储训练数据的云存储系统的监测方法及装置

Country Status (1)

Country Link
CN (1) CN113010376B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117555697B (zh) * 2024-01-11 2024-04-05 之江实验室 一种面向分布式训练的缓存加载系统、方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103442076A (zh) * 2013-09-04 2013-12-11 上海海事大学 一种云存储系统的可用性保障方法
CN107092437A (zh) * 2016-02-17 2017-08-25 杭州海康威视数字技术股份有限公司 数据写入、读取方法及装置、云存储系统
CN108924221A (zh) * 2018-06-29 2018-11-30 华为技术有限公司 分配资源的方法和装置
CN109327355A (zh) * 2018-10-25 2019-02-12 平安科技(深圳)有限公司 云存储系统性能评测方法、装置及计算机可读存储介质
CN111105006A (zh) * 2018-10-26 2020-05-05 杭州海康威视数字技术股份有限公司 一种深度学习网络训练系统及方法
CN111221698A (zh) * 2018-11-26 2020-06-02 北京京东金融科技控股有限公司 任务数据采集方法与装置
US10896060B1 (en) * 2020-01-14 2021-01-19 Capital One Services, Llc Resource monitor for monitoring long-standing computing resources
CN112395176A (zh) * 2020-11-16 2021-02-23 公安部第三研究所 实现针对分布式云存储性能进行测试的方法、装置、系统、设备、处理器及其存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103442076A (zh) * 2013-09-04 2013-12-11 上海海事大学 一种云存储系统的可用性保障方法
CN107092437A (zh) * 2016-02-17 2017-08-25 杭州海康威视数字技术股份有限公司 数据写入、读取方法及装置、云存储系统
CN108924221A (zh) * 2018-06-29 2018-11-30 华为技术有限公司 分配资源的方法和装置
CN109327355A (zh) * 2018-10-25 2019-02-12 平安科技(深圳)有限公司 云存储系统性能评测方法、装置及计算机可读存储介质
CN111105006A (zh) * 2018-10-26 2020-05-05 杭州海康威视数字技术股份有限公司 一种深度学习网络训练系统及方法
CN111221698A (zh) * 2018-11-26 2020-06-02 北京京东金融科技控股有限公司 任务数据采集方法与装置
US10896060B1 (en) * 2020-01-14 2021-01-19 Capital One Services, Llc Resource monitor for monitoring long-standing computing resources
CN112395176A (zh) * 2020-11-16 2021-02-23 公安部第三研究所 实现针对分布式云存储性能进行测试的方法、装置、系统、设备、处理器及其存储介质

Also Published As

Publication number Publication date
CN113010376A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110837410B (zh) 任务调度方法、装置、电子设备及计算机可读存储介质
WO2020181810A1 (zh) 应用于集群内多级缓存的数据处理方法和装置
US10802847B1 (en) System and method for reproducing and resolving application errors
CN108255620B (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
CN109213604B (zh) 一种数据源的管理方法和装置
CN107688626B (zh) 慢查询日志处理方法、装置及电子设备
CN113010376B (zh) 一种对存储训练数据的云存储系统的监测方法及装置
US9104567B2 (en) Memory-leak identification
CN110430070B (zh) 一种服务状态分析方法、装置、服务器、数据分析设备及介质
CN112749072B (zh) 一种对存储训练数据的云存储系统的测试方法及装置
CN113590285A (zh) 一种用于线程池参数动态设置的方法、系统及设备
US9329972B2 (en) Implementing client based throttled error logging in a computing device
CN111522598A (zh) 嵌入式设备的重启信息记录方法及装置
CN109308310B (zh) 一种用于资产管理平台的子系统数据互联处理方法
CN111078418A (zh) 操作同步方法、装置、电子设备及计算机可读存储介质
CN114221807A (zh) 访问请求处理方法、装置、监控设备及存储介质
US10841190B1 (en) Using an inverse cumulative histogram to efficiently analyze web service request latencies
CN114840421A (zh) 日志数据处理方法及装置
CN112506896B (zh) 一种数据删除方法、装置及电子设备
CN109726181B (zh) 一种数据处理方法及数据处理装置
CN112799924B (zh) 一种对存储训练数据的云存储系统的仿真测试系统及方法
CN114063879B (zh) 用于处理操作命令的方法、电子设备和存储介质
CN109614249B (zh) 一种模拟多核通信的方法、装置和计算机可读存储介质
US11836064B2 (en) Computing device monitoring
CN111427507B (zh) 一种磁盘连接方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant