CN116028478A - 一种人工智能平台的数据集管理方法及系统 - Google Patents

一种人工智能平台的数据集管理方法及系统 Download PDF

Info

Publication number
CN116028478A
CN116028478A CN202310102222.3A CN202310102222A CN116028478A CN 116028478 A CN116028478 A CN 116028478A CN 202310102222 A CN202310102222 A CN 202310102222A CN 116028478 A CN116028478 A CN 116028478A
Authority
CN
China
Prior art keywords
data set
target node
cleaning
node
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310102222.3A
Other languages
English (en)
Inventor
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202310102222.3A priority Critical patent/CN116028478A/zh
Publication of CN116028478A publication Critical patent/CN116028478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种人工智能平台的数据集管理方法及系统,所属的技术领域为人工智能领域。所述人工智能平台的数据集管理方法包括:获取目标节点的状态统计数据;其中,所述状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度;判断所述目标节点的节点负载状态是否触发数据集清理事件;若是,则根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;将所述目标数据集从所述目标节点中删除。本申请能够高效且准确地删除节点中的数据集,避免节点存储空间不足。

Description

一种人工智能平台的数据集管理方法及系统
技术领域
本申请涉及人工智能领域,特别涉及一种人工智能平台的数据集管理方法及系统。
背景技术
人工智能平台中的任务作业经常从数据集仓库下载数据集到本地节点,便于提高使用数据集速度和效率。但由于数据集大小很大,种类很多,就会造成本地节点的存储经常遇到空间不足的情况。
相关技术中通常采用数据集清理机制清理冗余不用或过期老旧的数据集,以便节点存储能够继续为作业缓存数据集。有了数据集清理机制,还要考虑数据集清理算法,如果数据集清理操作不够高效和准确,平台的网络和磁盘IO,以及存储资源就会经常用于下载数据集使用,而作业都在等待数据集下载完成后才能运行,这极大影响了平台业务作业效率。
因此,如何高效且准确地删除节点中的数据集,避免节点存储空间不足是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种人工智能平台的数据集管理方法、一种人工智能平台的数据集管理系统、一种电子设备及一种存储介质,能够高效且准确地删除节点中的数据集,避免节点存储空间不足。
为解决上述技术问题,本申请提供一种人工智能平台的数据集管理方法,该人工智能平台的数据集管理方法包括:
获取目标节点的状态统计数据;其中,状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度;
判断所述目标节点的节点负载状态是否触发数据集清理事件;
若是,则根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;
将所述目标数据集从所述目标节点中删除。
可选的,获取所述目标节点的数据集当前热度的过程包括:
确定所述目标节点在预设时间段内的热度统计结果,将所述热度统计结果对应的移动平均值作为所述目标节点的数据集当前热度。
可选的,获取所述目标节点的数据集的服务因子的过程,包括:
根据所述目标节点中每一数据集参与人工智能平台的训练业务的运行时长、优先级和使用次数确定所述数据集的服务因子。
可选的,判断所述目标节点的节点负载状态是否触发数据集清理事件,包括:
判断所述目标节点的数据集分区剩余空间是否小于第一阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件;
和/或,判断所述目标节点的磁盘可用空间是否小于第二阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
可选的,在判断所述目标节点的数据集分区剩余空间是否小于第一阈值之前,还包括:
根据数据集缓存信息和节点状态信息确定所述的数据集分区剩余空间。
可选的,还包括:
若API接口接收到数据集清理指令,则将所述数据集清理指令对应的数据集从所述目标节点中删除。
可选的,还包括:
若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
可选的,还包括:
若所述目标节点的节点负载状态触发所述数据集清理事件,则启动第一清理算法线程;其中,所述第一清理算法线程用于根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述第一清理算法线程还用于将所述目标数据集从所述目标节点中删除;
若API接口接收到数据集清理指令,则启动第二清理算法线程;其中,所述第二清理算法线程用于将所述数据集清理指令对应的数据集从所述目标节点中删除;
若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则启动第三清理算法线程;其中,所述第三清理算法线程用于将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
可选的,在将所述目标数据集从所述目标节点中删除之后,还包括:
判断所述目标节点的数据集分区剩余空间是否大于或等于第一阈值;
若否,则根据所述重要度得分选取新的目标数据集,并将所述新的目标数据集从所述目标节点中删除,直至所述目标节点的数据集分区剩余空间大于或等于第一阈值。
可选的,还包括:
若所述目标节点的数据集分区剩余空间大于或等于第一阈值,判断所述目标节点中的数据集分区剩余空间是否小于第三阈值;其中,所述第三阈值大于所述第一阈值;
若是,则对所述目标节点执行数据集收缩操作。
可选的,对所述目标节点执行数据集收缩操作,包括:
按照预设维度将所述目标节点中的数据集切分为多个数据集切片;其中,所述预设维度包括业务用途和/或时间轴;
确定所述目标节点的训练作业类型,并确定每一所述数据集切片与所述训练作业类型的数据相关度;
删除所述目标节点的数据集中数据相关度小于预设值的数据集切片。
可选的,在将所述目标数据集从所述目标节点中删除之后,还包括:
更新所述目标节点的数据集缓存状态,将所述数据集缓存状态同步至所述人工智能平台的中心节点。
本申请还提供了一种人工智能平台的数据集管理系统,该系统包括:
数据集状态统计模块,用于获取目标节点的状态统计数据;其中,所述状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度;
清理信号触发器,用于判断所述目标节点的节点负载状态是否触发数据集清理事件;
清理算法策略模块,用于若所述目标节点的节点负载状态触发所述数据集清理事件,则根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述清理算法策略模块还用于利用清理算法线程将所述目标数据集从所述目标节点中删除。
可选的,所述数据集状态统计模块获取所述目标节点的数据集当前热度的过程包括:确定所述目标节点在预设时间段内的热度统计结果,将所述热度统计结果对应的移动平均值作为所述目标节点的数据集当前热度。
可选的,所述数据集状态统计模块获取所述目标节点的数据集的服务因子的过程包括:根据所述目标节点中每一数据集参与人工智能平台的训练业务的运行时长、优先级和使用次数确定所述数据集的服务因子。
可选的,清理信号触发器判断所述目标节点的节点负载状态是否触发数据集清理事件的过程包括:判断所述目标节点的数据集分区剩余空间是否小于第一阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件;和/或,判断所述目标节点的磁盘可用空间是否小于第二阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
可选的,所述清理算法策略模块还用于若API接口接收到数据集清理指令,则将所述数据集清理指令对应的数据集从所述目标节点中删除。
可选的,所述清理算法策略模块还用于若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
可选的,所述清理算法策略模块还用于若所述目标节点的节点负载状态触发所述数据集清理事件,则启动第一清理算法线程;其中,所述第一清理算法线程用于根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述第一清理算法线程还用于将所述目标数据集从所述目标节点中删除;
所述清理算法策略模块还用于若API接口接收到数据集清理指令,则启动第二清理算法线程;其中,所述第二清理算法线程用于将所述数据集清理指令对应的数据集从所述目标节点中删除;
所述清理算法策略模块还用于若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则启动第三清理算法线程;其中,所述第三清理算法线程用于将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
可选的,所述清理算法策略模块还用于在将所述目标数据集从所述目标节点中删除之后,判断所述目标节点的数据集分区剩余空间是否大于或等于第一阈值;若否,则根据所述重要度得分选取新的目标数据集,并将所述新的目标数据集从所述目标节点中删除,直至所述目标节点的数据集分区剩余空间大于或等于第一阈值。
可选的,所述清理算法策略模块还用于若所述目标节点的数据集分区剩余空间大于或等于第一阈值,判断所述目标节点中的数据集分区剩余空间是否小于第三阈值;其中,所述第三阈值大于所述第一阈值;若是,则对所述目标节点执行数据集收缩操作。
可选的,所述清理算法策略模块对所述目标节点执行数据集收缩操作的过程包括:按照预设维度将所述目标节点中的数据集切分为多个数据集切片;其中,所述预设维度包括业务用途和/或时间轴;确定所述目标节点的训练作业类型,并确定每一所述数据集切片与所述训练作业类型的数据相关度;删除所述目标节点的数据集中数据相关度小于预设值的数据集切片。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述人工智能平台的数据集管理方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述人工智能平台的数据集管理方法执行的步骤。
本申请获取目标节点的状态统计数据,状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度,结合上述状态统计数据可以确定目标节点中已存储的每一数据集的重要度得分。在目标节点的节点负载状态触发数据集清理事件后,本申请根据数据集的重要度得分选取需要从目标节点中删除的目标数据集。上述方案根据数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度综合确定需要删除的目标数据集,可以实现人工智能平台训练作业中节点数据集缓存的清理处理,因此本申请能够高效且准确地删除节点中的数据集,避免节点存储空间不足。本申请同时还提供了一种人工智能平台的数据集管理系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种人工智能平台的数据集管理方法的流程图;
图2为本申请实施例所提供的一种人工智能平台集群快速节点选择的调度装置示意图;
图3为本申请实施例所提供的一种清理信号触发器的触发原理示意图;
图4为本申请实施例所提供的清理算法的流程图;
图5为本申请实施例所提供的一种数据集收缩原理示意图;
图6为本申请实施例所提供的一种人工智能平台的数据集管理系统的结构示意图;
图7为本申请实施例所提供的一种电子设备的结构示意;
图8为本申请实施例所提供的一种存储介质的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种人工智能平台的数据集管理方法的流程图。
具体步骤可以包括:
S101:获取目标节点的状态统计数据;
其中,本实施例可以应用于执行人工智能平台的训练作业的目标节点,作为一种可行的实施方式,可以使用人工智能平台集群执行人工智能平台的训练作业,人工智能平台集群中包括多个节点,上述目标节点为人工智能平台集群中的节点。在执行人工智能平台的训练作业时,目标节点需要调用相应的数据集,该数据集需要从数据集仓库中下载至节点本地。
具体的,本实施例可以按照预设周期获取目标节点的状态统计数据,上述状态统计数据包括存储于目标节点本地的每一数据集的数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度。
上述数据集当前热度指数据集在最近一段时间内的使用次数,具体的,获取所述目标节点的数据集当前热度的过程包括:确定所述目标节点在预设时间段内(预设时间段的结束时间点为当前时刻)的热度统计结果,将所述热度统计结果对应的移动平均值(EMA,Exponential Moving Average)作为所述目标节点的数据集当前热度。上述热度统计结果用于描述数据集被调用次数与时间的关系。
上述数据集大小用于描述单个数据集整体的数据大小。数据集历史热度指数据集在历史时间段内的使用次数,历史时间段早于上述数据集当前热度对应的时间段。
数据集的服务因子用于描述数据集对人工智能平台的训练作业的影响程度。具体的,获取所述目标节点的数据集的服务因子的过程包括:根据所述目标节点中每一数据集参与人工智能平台的训练业务的运行时长、优先级和使用次数确定所述数据集的服务因子。
S102:判断目标节点的节点负载状态是否触发数据集清理事件;若是,则进入步骤S103;若否,则结束流程。
其中,本实施例可以根据目标节点的数据集缓存信息、节点状态信息、负载信息等信息确定目标节点的节点负载状态,若节点负载状态符合预设条件则判定触发数据集清理事件,具体过程如下:
判断所述目标节点的数据集分区剩余空间是否小于第一阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
判断所述目标节点的磁盘可用空间是否小于第二阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
上述第一阈值和第二阈值可以为用户预先配置的数值,具体的,可以将目标节点的数据集分区的总空间与用户预设的比例(如10%)的乘积作为上述第一阈值,可以将目标节点的磁盘总空间与用户预设的比例(如5%)的乘积作为上述第二阈值。
本实施例可以根据数据集缓存信息和节点状态信息确定磁盘数据集分区剩余空间,若磁盘数据集分区剩余空间小于阈值,则判定目标节点的节点负载状态触发所述数据集清理事件。目标节点的磁盘中包括数据集分区和非数据集分区,磁盘数据集分区剩余空间为数据集分区的剩余可用空间。
S103:根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;
其中,本实施例可以根据状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度计算每一数据集在目标节点中的重要度得分,进而可以将重要度得分排名后N位的数据集设置为目标数据集。本实施例可以将数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度进行加权计算得到重要度得分。
S104:将所述目标数据集从所述目标节点中删除。
作为一种可行的实施方式,在将所述目标数据集从所述目标节点中删除之后,还可以更新所述目标节点的数据集缓存状态,将所述数据集缓存状态同步至所述人工智能平台的中心节点。
本实施例获取目标节点的状态统计数据,状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度,结合上述状态统计数据可以确定目标节点中已存储的每一数据集的重要度得分。在目标节点的节点负载状态触发数据集清理事件后,本实施例根据数据集的重要度得分选取需要从目标节点中删除的目标数据集。上述方案根据数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度综合确定需要删除的目标数据集,可以实现人工智能平台训练作业中节点数据集缓存的清理处理,因此本实施例能够高效且准确地删除节点中的数据集,避免节点存储空间不足。
上述实施例提供了根据节点负载状态判断是否对目标节点中的数据集进行删除的方案,进一步的,本实施例还可以利用API接口和第三方集成插件实现数据集的删除操作,具体过程如下:
若API接口接收到数据集清理指令,则将所述数据集清理指令对应的数据集从所述目标节点中删除。
若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
进一步的,目标节点可以启用多个清理算法线程执行相应的删除操作,具体过程如下:
若所述目标节点的节点负载状态触发所述数据集清理事件,则启动第一清理算法线程;其中,所述第一清理算法线程用于根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述第一清理算法线程还用于将所述目标数据集从所述目标节点中删除;
若API接口接收到数据集清理指令,则启动第二清理算法线程;其中,所述第二清理算法线程用于将所述数据集清理指令对应的数据集从所述目标节点中删除;
若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则启动第三清理算法线程;其中,所述第三清理算法线程用于将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
上述第一清理算法线程、第二清理算法线程和第三清理算法线程可以并行执行,以提高数据集删除效率。
作为一种可行的实施方式,在对目标节点中的目标数据集进行删除后,目标节点中的可用空间仍不足,此时可以对本地未删除的数据集执行数据集收缩操作,进一步释放目标节点的可用空间,具体过程可以包括以下步骤:
步骤1:在将所述目标数据集从所述目标节点中删除之后,判断所述目标节点的数据集分区剩余空间是否大于或等于第一阈值;若否,则进入步骤2;若是,则进入步骤3;
步骤2:根据所述重要度得分选取新的目标数据集,并将所述新的目标数据集从所述目标节点中删除,直至所述目标节点的数据集分区剩余空间大于或等于第一阈值。
步骤3:判断所述目标节点中的数据集分区剩余空间是否小于第三阈值;若是,则对所述目标节点执行数据集收缩操作;若否,则结束流程;
其中,所述第三阈值大于所述第一阈值。上述第一阈值和第三阈值可以为用户预先配置的数值,具体的,可以将目标节点的数据集分区的总空间与用户预设的比例(如10%)的乘积作为上述第一阈值,可以将目标节点的数据集分区的总空间与用户预设的比例(如20%)的乘积作为上述第三阈值。
进一步的,对所述目标节点执行数据集收缩操作,包括:按照预设维度将所述目标节点中的数据集切分为多个数据集切片;其中,所述预设维度包括业务用途和/或时间轴;确定所述目标节点的训练作业类型,并确定每一所述数据集切片与所述训练作业类型的数据相关度;删除所述目标节点的数据集中数据相关度小于预设值的数据集切片。
具体的,上述过程中可以将目标节点在预设时间段内执行次数最多的训练作业的类型作为上述训练作业类型,以便确定每一所述数据集切片执行次数最多的训练作业类型的数据相关度。对于删除某一数据集切片的数据集来说,未删除的数据集切片依然存在,即实现了数据集的部分删除。
下面通过在实际应用中的应用于人工智能平台的数据集清理方案说明上述实施例描述的流程。
本实施例提出了一种应用于人工智能平台的数据集清理算法和装置。所述设计包括:节点数据集清理器;数据集清理算法。可以实现人工智能平台AI作业和计算任务的数据集自动清理,自适应满足人工智能训练作业、测试作业、数据集处理等多场景需要。本实施例提出了一种基于人工智能平台数据集的清理方案和设计,定义了待清理数据集标准和数据集状态统计方法,设计了多业务场景类型的数据集清理算法和流程、多通道多队列的清理信号触发机制,同时提出了一种可工程量化的数据集得分目标函数表达式,使得能够高效执行最优化的清理处理。自适应解决了由于节点存储空间不足导致训练作业无法使用数据集并运行的问题,保障了平台业务运行稳定性和持续性,最终提升平台业务的收益。
目前基于数据集清理已有一些相关技术实现,例如:在某一现有技术中,数据集实时清理方案无需依赖数据库进行数据集实时清理、简单易实施,且资源占用更少。但上述现有技术存在以下不足:只是考虑数据库不可用场景下,仍能进行数据集清理操作流程设计。该方案不适用于人工智能平台这些大量数据样本和数据集操作。
在另一现有技术中,文件自动化清理方案获取历史文件清理信息,将所述历史文件清理信息分为基于存储时长的清理信息和基于最后访问时间的清理信息,分别提取所述基于存储时长的清理信息和所述基于最后访问时间的清理信息中每一个清理信息对应的数据,得到第一数据集和第二数据集。然后构建方法对第一数据集和所述第二数据集进行处理。但上述现有技术存在以下不足:该方案基于存储时长的清理信息和基于最后访问时间来标识文件是否需要清理。但该方法并不适用于人工智能领域的数据集。数据集一般比较大,且不同类型数据集相关性不强。同时,会存在多个作业同时并上时间使用数据集。如果仅仅根据存储时长和最后访问时间来进行清理。清理数据对象操作就不够准确。如:数据集A虽然刚刚访问,但使用并次数不多;数据集B虽然下载保存了一段时间,但其间经常有AI作业在使用。如果按该方式处理,保留数据集A,清理数据集B,则会导致后续运行的AI作业需要重新下载数据集。加大平台网络和磁盘负载,降低平台作业运行效率。
由此可见,现有技术方案中对人工智能平台节点数据集场景支持并不完善。人工智能作业所需的数据集一般都比较大,举例几个常见的数据集大小:
MS-COCO:数据集大小25G;
ImageNet:数据集大小150G;
Open Image Dataset:数据集大小为500G。
本实施例提出的一种应用于人工智能平台的数据集清理方案支持如下功能:
节点数据集清理器,用于收集处理节点数据集缓存信息、数据集相关的作业任务信息、数据集信息、节点负载状态信息等;还用于数据集清理阈值判断和信号触发;数据集自动清理策略执行等。
节点数据集清理算法,支持人工智能训练和测试作业使用数据集的典型应用场景;选择待清理目标数据集;还支持对待清理目标数据集进行收缩处理,进一步减少其占用空间大小。
本实施例在云平台集群系统中新增了节点数据集清理器组件,并在清理器中实现了数据集清理算法、节点数据集状态统计、清理信号触发器。请参见图2,图2为本申请实施例所提供的一种人工智能平台集群快速节点选择的调度装置示意图,图2中示出了人工智能平台集群、集群节点数据集API、集群节点、节点数据集清理器、数据集接口和节点数据集。节点数据集清理器包括数据集状态统计模块、清理信号触发器和清理算法策略模块,数据集状态统计模块向清理信号触发器和清理算法策略模块分别输入算法参数和信号触发阈值,清理信号触发器向清理算法策略模块传输清理信号。
数据集状态统计模块进行统计的数据如下:实时或周期性收集处理节点数据集缓存信息、数据集相关作业任务信息、节点负载信息、数据集状态和信息。
实时或周期性收集处理节点数据集缓存信息包括:数据集大小、状态(运行、下载中、排队、异常)、数据集名称、类别、时间等元数据信息。数据集相关作业任务信息包括:作业状态、运行时长、优先级等。节点负载信息包括:磁盘分区空间、数据集缓存空间 、磁盘IO指标、网络IO指标、作业负载等。数据集状态和信息包括:数据集最近热度统计。数据集最近热度统计不能使用传统次数简单累计,而是根据人工智能平台应用使用特点,阶段时间内运行训练和测试任务的特征和类型相关性进行统计,如:可采用相关类型数据集使用次数的移动平均值来标识数据集当前热度。
数据集状态统计模块处理统计的数据包括以下两类,第一类为清理信号发生器提供信号阈值,第二类为清理算法提供算法输入参数。
关于清理信号触发器的说明如下:
清理信号触发器计算处理节点数据集状态统计提供的数据集缓存信息和节点状态信息,来判断是否满足自动清理阈值条件,如磁盘数据集分区剩余空间小于某一阈值时,发生清理数据集的事件信号。
清理信号触发器计算处理数据集状态统计提供的节点负载和作业负载信息 ,如果是由于当前节点作业拉取数据集过多,数据集和磁盘可用空间 急剧减少,从而超过数据集空间负载动态阈值,则发生清理数据集的事件信号。该处理弥补了上面第一条清理触发的硬性阈值条件的局限性。
清理信号触发器提供了集群节点数据集API,可以通过业务层指定数据集手动清理操作,此时,集群平台可以指定一个或者多个类型相关的数据集,进行手动清理操作。当手动清理操作会影响当前在用数据集作业时,能够进行告警提示。
节点还提供第三方集成插件的数据集清理接口,如监控的存储告警触发 ,能够设置清理阈值条件和待清理数据集列表,进行自定义的批量数据集清理操作。该方式可以灵活扩展清理数据集的业务场景。
一旦上述清理条件之一满足,则给清理算法策略发送清理信号,通知执行清理算法流程。
关于数据集清理策略算法的说明如下:
针对人工智能平台使用数据集特点,从业务层面上定义了符合待清理数据集特征标准。
待清理数据集标准定义:
1、数据集使用次数的移动平均值,按天或者小时统计,表示数据集当前使用频率的热度统计,标记为usedFreq。优先考虑清理热度usedFreq小的数据集。
2、数据集大小,会影响下载时长,进而影响作业是否能够真正运行。数据集大小标记为sizeStat。优先考虑清理sizeStat小的数据集。
3、使用数据集训练相关作业的运行时长、优先级等,表示数据集对集群平台作业业务的影响大小。标记为qos,qos越大优先级越高,优先考虑清理qos小的数据集。
4、数据集的使用历史次数,表示数据集在过去相当长一段时间内的累计使用次数,当做历史热点列表排序。使用历史次数标记为hist。优先考虑清理历史热度hist小的数据集。
更进一步,本实施例还可以对数据集进行收缩处理,即能对数据集进行部分删除,属于数据集深度清理操作。上述算法实现了人工智能任务作业场景下的数据集清理策略。
应用于人工智能平台的数据集清理方案的实现包括以下三个部分:数据集状态统计、清理信号触发器和清理算法策略。
本实施例中数据集状态统计与一般的状态数据和监控指标采集不同,而是需要选择符合人工智能作业任务特征的指标进行采集处理,包括:
1、数据集当前热度统计usedFreq:使用次数的移动平均值,按天、小时、分钟等粒度统计。表示数据集当前使用频率的热度统计。某类型某数据集dataset-type-name的usedFreq计算公式:usedFreq=MA(dataset-type-name);其中MA()是移动均值计算公式或可根据类型和名称进行双维度的加权移动均值计算。比如:统计5天的数据集当前热度,包括:图像、音频、视频或者文本等不同领域类型的数据集热度。
2、数据集大小统计sizeStat:数据集大小,会影响下载时长,进而影响作业是否能够真正运行。
计算公式:sizeStat = size(dataset-name)/size_percent50,size()表示某数据集 dataset-name的实际大小; size_percent50为节点已缓存数据集大小的中位数。另外,可根据实际需要,对sizeStat再进行归一化处理。因为数据集越大,下载时间耗时越长,对平台资源和其它待运行作业会有更大影响。考虑该因素时,优先清理较小的数据集。
3、平台作业服务因子qos:使用数据集训练相关作业的运行时长、优先级、最近在用数量等。表示数据集对集群平台作业业务的影响大小。qos越高的数据集表示平台作业在用或重度使用该数据集,清理操作会影响平台业务。qos计算公式:qos=sum(runningtime,priority,using_num,…),即多个业务因素累加和。具体业务因子可以根据实际需要调整。当平台侧重考虑业务服务级别影响时,可设置qos权重值大于sizeStat的权重值。
4、节点负载状态信息统计loadStat,统计维度有:磁盘分区空间、数据集缓存空间、磁盘IO指标、网络IO指标、作业负载等。loadStat包括有:磁盘剩余空间、数据集缓存剩余空间、数据集影响作业和节点负载值。loadStat为清理信号触发器提供接口输入参数。这里考虑了存储影响服务器和业务性能指标的因素。
5、数据集历史热度统计hist:数据集的使用历史次数,表示数据集在过去相当长一段时间内的累计使用次数,当做历史热点列表排序。 hist即为过去某一段时间,比如3个月或半年的使用次数统计。比如:某节点经常用于做图像识别领域的训练任务,那么该节点上的个别的语音和文本等类的数据集就可以考虑清理删除。
关于清理信号触发器的说明如下:
一般的传统的清理触发为硬性条件触发,比如,当磁盘空间小于某预设阈值时,触发清理操作。而本发明对清理触发,采用了多路复用触发机制。即通过监控多通道条件,一旦数据集满足某一通道条件,即可进行触发操作。这样的触发信号更加灵活,易于多业务场景扩展。
请参见图3,图3为本申请实施例所提供的一种清理信号触发器的触发原理示意图,图中示出了能够触发清理事件信号的5个通道:
通道1:磁盘剩余空间是否小于清理阈值th-1;
通道2:数据分区剩余空间是否小于清理阈值th-2;
通道3:检测节点磁盘和数据集负载,可用空间是否小于清理动态阈值th-3;
通道4:调用集群节点数据集API,指定数据集清理;
通道5:第三方集成插件的数据集清理接口,指定数据集清理。
图3中还示出了清理算法线程1、清理算法线程2和清理算法线程3,清理算法线程1用于处理清理事件信号1、2、3,清理算法线程2用于处理清理事件信号4,清理算法线程3用于处理清理事件信号5。
如附图3所示,清理信号触发器从多通道输入中,来处理产生清理事件信号,这里采用了多路复用机制,非传统的同步阻塞方式。可以并发高效处理多业务场景下的清理数据集操作。触发器还维护了信号发送多队列,不同队列中的数据集清理事件,可以认为业务间不存在关系,可以提交到不同的清理算法线程中并发执行。而相同队列中的事件队列,采用的是优先排序,如:最大堆序列,可以先发送优先级最高的清理事件信号。由于多通道条件,可以定义多类型的数据集清理事件,比如:自动、指定、批量自定义处理等。不同的事件类型将会触发不同的算法策略。这样的多通道和多队列设计,对同队列中的清理事件能够按序处理;对不同队列中的清理事件能够按类型或正交相关性并发处理。
请参见图4,图4为本申请实施例所提供的清理算法的流程图,具体包括以下步骤:
从数据集状态统计中接收算法所需的特征参数:数据集当前热度统计usedFreq、数据集大小统计sizeStat、平台作业服务因子 qos、节点负载状态信息统计loadStat、数据集历史热度统计hist。
算法主要包含三部分:
1、集群节点数据集接口和节点本地参数等初始化配置;启动相应数量或成比例数量的算法线程,监听信号触发器的队列。
2、周期性的获取统计特征参数,并实时获取最新的节点数据集缓存信息,等待接收清理触发信号。
3、接收信号并根据信号类型,执行相应线程对应的算法策略流程。
清理算法的实现流程如下:
集群节点数据集接口和节点本地参数等初始化配置,启动相应数量或成比例数量的算法线程,监听信号触发器的队列;获取统计特征参数和最新的节点数据集缓存信息,等待接收清理触发信号,进行信号类型判断。
若信号类型为自动,则执行以下操作:计算节点数据集得分目标函数值,按得分由低到高排序待清理队列,按清理信号中包含的清理空间阈值和本地预设自动清理参数,设置自动清理终止条件和自动删除终止条件。计算自动删除是否终止,若否则从待清理队列中出列数据集进行删除操作,直至达到自动删除终止条件;计算自动清理是否终止,若否则执行深度清理操作,对待清理数据集进行收缩,直至达到自动清理终止条件。对收缩的数据集,根据数据集切片锚点位置进行部分删除,更新节点本地数据集切片锚点状态。
若信号类型为指定,则清理删除指定的数据集缓存。
若信号类型为批量自定义,则按清理信号中包含的清理空间阈值或数据集,计算生成自定义待清理队列和自动删除终止条件,是否禁用深度清理操作。
数据集清理后,可以对本地缓存状态更新,并将其同步至集群数据集中心。
节点数据集目标得分函数如下:
score表示重要度得分,a、b、c和d为权重系数,usedFreq表示数据集当前热度,sizeStat表示数据集大小,qos表示数据集的服务因子,hist表示数据集历史热度。权重系数a,b,c,d设置可以根据平台使用场景需求进行超参预设,也可以使用机器学习进行训练得出这些权重系数。一般通用场景下,权重系数各因子取值范围:a>b>c>d或a = c>b>d。此时:优先考虑将最近不常用的、占用空间较小的、影响作业业务较小的数据集删除掉。MA表示计算移动平均值的函数,dataset-type-name表示数据集名称,size()表示某数据集dataset-name的实际大小; size_percent50为节点已缓存数据集大小的中位数。Sum表示求和函数runningtime表示运行时长,priority表示优先级,using_num表示使用次。上述usageCout表示在time时刻的使用次数统计结果。
自动清理条件用于比较磁盘空间和数据集缓存可用空间是否小于某一阈值(静态或者动态),如果小于则表示空间剩余仍有不足,需要继续清理数据集。清理数据集包括以下2部分:
1. 满足自动删除条件的,从待删除队列中删除数据集。
2. 不满足删除条件,仍需清理的,从待删除队列中选择数据集进行收缩处理。
自动删除终止条件用于通过检查是否满足某一阈值条件,该阈值比自动清理空间阈值要小;或者表示为达到可删除数据集个数和清理空间比例、以及指定待删除数据集。
关于数据集收缩的描述如下:由于自动删除操作是一般是从最不常用的较小数据集开始删除,这样,当完成自动删除后,可能清理空间仍有不足,此时需要以数据集收缩方式进行深度清理,即对部分数据集进行部分清理,具体过程如下:对数据集切分,并在切分处设置锚点,这样一个数据集,又可以由该数据集下的切片组成。如:按业务用途区分训练、测试、验证数据集切片;按时间轴划分训练作业下载和使用过程的数据集前后切片。统计分析最近一段时间该节点上的训练作业是什么类型,如:图片、视频、语音、文本等其它类型。当进行数据集收缩时,把相关性较低的数据集标记为待清理。
请参见图5,图5为本申请实施例所提供的一种数据集收缩原理示意图,数据集切分设计如下:首先对数据中心的数据集设计,标注切片锚点信息,比如数据集DATASET-A总大小为15G,切分为3个数据子集DATASET-A/sub1、DATASET-A/sub2和DATASET-A/sub3,每个子数据集大小是5G。数据集A切分定义格式为:{数据集名称,数据集切分锚点位置,切片状态,大小,状态时间},如图5中数据集A的第一个切片表示的数据子集为:{DATASET-A,DATASET-A/sub1,已下载},整个数据集A 的切片表示为列表:[{DATASET-A, DATASET-A/sub1,已下载,size:5},{DATASET-A, DATASET-A/sub2,已下载, size:5},{DATASET-A,DATASET-A/sub3,已下载, size:5}]。列表中元素次序表示其数据子集下载顺序。算法可以根据该切片定义,进行数据集的收缩。比如,对该数据集A的收缩如图5所示。对数据集A进行收缩时,会从其切片列表的尾部将DATASET-A/sub3删除,由于是对数据集A的部分删除操作,所以数据集A的状态不是已删除{DATASET-A, DATASET-A/sub3,已删除, size:5}],而是已收缩,尾部切片状态变为已删除。此设计能够进一步清理数据集占用空间,同时还能兼顾平台训练作业再次使用该数据集的效率。因为此时作业只需再下载数据集A的第三个切片子数据集即可,极大减少数据集下载时间。
信号类型说明如下:
“指定”类型的型号:通过数据集清理接口触发,手动删除数据集清理空间,不会执行自动清理策略流程。
“自动”类型的型号:此时需要进行自动清理和删除条件判断,按数据集得分生成待删除列表队列,执行数据集删除和收缩操作。
“批量自定义”类型的型号:指定和自动结合起来的策略模式。一般可由插件(如:监控告警)实现的扩展接口自动触发,可以指定要删除的数据集、设置清理参数条件。按数据集得分生成待删除列表队列后,会再根据清理参数,对待删除队列进行调整,比如将指定删除的数据集放在队首等。然后根据参数条件执行数据删除和收缩操作。
以上实施例中各装置模块通过松耦合、可扩展设计,适应复杂多业务场景下的数据集缓存清理需要。
本实施例通过数据集状态统计、清理信号触发器和清理算法策略装置组合设计,提出了一种基于人工智能平台数据集的清理算法,设计了一种高效率的清理信号触发和数据集清理算法。实现人工智能平台训练作业中常见的节点数据集缓存的清理处理。满足多业务场景下的产品需求目标。
本实施例基于人工智能平台训练作业特征,设计了定义了待清理数据集标准和数据集状态统计方法、多业务场景类型的数据集清理算法和流程、多通道多队列的清理信号触发机制,创新提出了一种适用于多业务类型的数据集清理算法实现方式,给出了一种可工程量化的数据集得分目标函数表达式。同时,为了进一步深度清理,还定义了数据集切分结构,设计了基于数据集切分实现的数据集收缩流程,支持满足人工智能平台使用数据集时自动触发数据集缓存的并发高效清理,保障集群系统中作业正常下载数据集运行,提高平台资源利用率。本实施例通过创新设计了数据集状态统计、清理信号触发器和清理算法策略装置,提出了一种适用于人工智能平台作业数据集的清理算法,设计了一种高效率的清理信号触发装置和多类型多策略算法。同时设计了多通道多队列信号触发机制、自适应多类型的清理策略、待删除数据集队列生成算法、基于数据集切分锚点和状态的数据集收缩流程。
请参见图6,图6为本申请实施例所提供的一种人工智能平台的数据集管理系统的结构示意图,该系统可以包括:
数据集状态统计模块601,用于获取目标节点的状态统计数据;其中,所述状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度;
清理信号触发器602,用于判断所述目标节点的节点负载状态是否触发数据集清理事件;
清理算法策略模块603,用于若所述目标节点的节点负载状态触发所述数据集清理事件,则根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述清理算法策略模块还用于利用清理算法线程将所述目标数据集从所述目标节点中删除。
本实施例获取目标节点的状态统计数据,状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度,结合上述状态统计数据可以确定目标节点中已存储的每一数据集的重要度得分。在目标节点的节点负载状态触发数据集清理事件后,本实施例根据数据集的重要度得分选取需要从目标节点中删除的目标数据集。上述方案根据数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度综合确定需要删除的目标数据集,可以实现人工智能平台训练作业中节点数据集缓存的清理处理,因此本实施例能够高效且准确地删除节点中的数据集,避免节点存储空间不足。
可选的,所述数据集状态统计模块获取所述目标节点的数据集当前热度的过程包括:确定所述目标节点在预设时间段内的热度统计结果,将所述热度统计结果对应的移动平均值作为所述目标节点的数据集当前热度。
可选的,所述数据集状态统计模块获取所述目标节点的数据集的服务因子的过程包括:根据所述目标节点中每一数据集参与人工智能平台的训练业务的运行时长、优先级和使用次数确定所述数据集的服务因子。
可选的,清理信号触发器判断所述目标节点的节点负载状态是否触发数据集清理事件的过程包括:判断所述目标节点的数据集分区剩余空间是否小于第一阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件;和/或,判断所述目标节点的磁盘可用空间是否小于第二阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
进一步的,还包括:
数据集分区剩余空间确定模块,用于在判断所述目标节点的数据集分区剩余空间是否小于第一阈值之前,根据数据集缓存信息和节点状态信息确定所述的数据集分区剩余空间。
进一步的,所述清理算法策略模块还用于若API接口接收到数据集清理指令,则将所述数据集清理指令对应的数据集从所述目标节点中删除。
进一步的,所述清理算法策略模块还用于若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
进一步的,所述清理算法策略模块还用于若所述目标节点的节点负载状态触发所述数据集清理事件,则启动第一清理算法线程;其中,所述第一清理算法线程用于根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述第一清理算法线程还用于将所述目标数据集从所述目标节点中删除;
所述清理算法策略模块还用于若API接口接收到数据集清理指令,则启动第二清理算法线程;其中,所述第二清理算法线程用于将所述数据集清理指令对应的数据集从所述目标节点中删除;
所述清理算法策略模块还用于若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则启动第三清理算法线程;其中,所述第三清理算法线程用于将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
进一步的,所述清理算法策略模块还用于在将所述目标数据集从所述目标节点中删除之后,判断所述目标节点的数据集分区剩余空间是否大于或等于第一阈值;若否,则根据所述重要度得分选取新的目标数据集,并将所述新的目标数据集从所述目标节点中删除,直至所述目标节点的数据集分区剩余空间大于或等于第一阈值。
进一步的,所述清理算法策略模块还用于若所述目标节点的数据集分区剩余空间大于或等于第一阈值,判断所述目标节点中的数据集分区剩余空间是否小于第三阈值;其中,所述第三阈值大于所述第一阈值;若是,则对所述目标节点执行数据集收缩操作。
进一步的,所述清理算法策略模块对所述目标节点执行数据集收缩操作的过程包括:按照预设维度将所述目标节点中的数据集切分为多个数据集切片;其中,所述预设维度包括业务用途和/或时间轴;确定所述目标节点的训练作业类型,并确定每一所述数据集切片与所述训练作业类型的数据相关度;删除所述目标节点的数据集中数据相关度小于预设值的数据集切片。
进一步的,还包括:
缓存状态更新模块,用于在将所述目标数据集从所述目标节点中删除之后,更新所述目标节点的数据集缓存状态,将所述数据集缓存状态同步至所述人工智能平台的中心节点。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。图7为本申请实施例所提供的一种电子设备的结构示意图,如图7所示,电子设备包括:
通信接口701,能够与其它设备比如网络设备等进行信息交互;
处理器702,与通信接口701连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的方法。而所述计算机程序存储在存储器703上。
当然,实际应用时,电子设备中的各个组件通过总线系统704耦合在一起。可理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统704。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:半导体存储芯片、U盘、移动硬盘、只读存储器(Read-Only Memory ,ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。图8为本申请实施例所提供的一种存储介质的结构示意图,该存储介质可以为非易失或非瞬时的存储芯片,具体包括译码驱动、存储矩阵、读写电路、地址线、数据线、片选线和读/写控制线。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (24)

1.一种人工智能平台的数据集管理方法,其特征在于,包括:
获取目标节点的状态统计数据;其中,所述状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度;
判断所述目标节点的节点负载状态是否触发数据集清理事件;
若是,则根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;
将所述目标数据集从所述目标节点中删除。
2.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,获取所述目标节点的数据集当前热度的过程包括:
确定所述目标节点在预设时间段内的热度统计结果,将所述热度统计结果对应的移动平均值作为所述目标节点的数据集当前热度。
3.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,获取所述目标节点的数据集的服务因子的过程,包括:
根据所述目标节点中每一数据集参与人工智能平台的训练业务的运行时长、优先级和使用次数确定所述数据集的服务因子。
4.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,判断所述目标节点的节点负载状态是否触发数据集清理事件,包括:
判断所述目标节点的数据集分区剩余空间是否小于第一阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件;
和/或,判断所述目标节点的磁盘可用空间是否小于第二阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
5.根据权利要求4所述人工智能平台的数据集管理方法,其特征在于,在判断所述目标节点的数据集分区剩余空间是否小于第一阈值之前,还包括:
根据数据集缓存信息和节点状态信息确定所述的数据集分区剩余空间。
6.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,还包括:
若API接口接收到数据集清理指令,则将所述数据集清理指令对应的数据集从所述目标节点中删除。
7.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,还包括:
若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
8.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,还包括:
若所述目标节点的节点负载状态触发所述数据集清理事件,则启动第一清理算法线程;其中,所述第一清理算法线程用于根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述第一清理算法线程还用于将所述目标数据集从所述目标节点中删除;
若API接口接收到数据集清理指令,则启动第二清理算法线程;其中,所述第二清理算法线程用于将所述数据集清理指令对应的数据集从所述目标节点中删除;
若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则启动第三清理算法线程;其中,所述第三清理算法线程用于将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
9.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,在将所述目标数据集从所述目标节点中删除之后,还包括:
判断所述目标节点的数据集分区剩余空间是否大于或等于第一阈值;
若否,则根据所述重要度得分选取新的目标数据集,并将所述新的目标数据集从所述目标节点中删除,直至所述目标节点的数据集分区剩余空间大于或等于第一阈值。
10.根据权利要求9所述人工智能平台的数据集管理方法,其特征在于,还包括:
若所述目标节点的数据集分区剩余空间大于或等于第一阈值,判断所述目标节点中的数据集分区剩余空间是否小于第三阈值;其中,所述第三阈值大于所述第一阈值;
若是,则对所述目标节点执行数据集收缩操作。
11.根据权利要求10所述人工智能平台的数据集管理方法,其特征在于,对所述目标节点执行数据集收缩操作,包括:
按照预设维度将所述目标节点中的数据集切分为多个数据集切片;其中,所述预设维度包括业务用途和/或时间轴;
确定所述目标节点的训练作业类型,并确定每一所述数据集切片与所述训练作业类型的数据相关度;
删除所述目标节点的数据集中数据相关度小于预设值的数据集切片。
12.根据权利要求1所述人工智能平台的数据集管理方法,其特征在于,在将所述目标数据集从所述目标节点中删除之后,还包括:
更新所述目标节点的数据集缓存状态,将所述数据集缓存状态同步至所述人工智能平台的中心节点。
13.一种人工智能平台的数据集管理系统,其特征在于,包括:
数据集状态统计模块,用于获取目标节点的状态统计数据;其中,所述状态统计数据包括数据集当前热度、数据集大小、数据集的服务因子和数据集历史热度;
清理信号触发器,用于判断所述目标节点的节点负载状态是否触发数据集清理事件;
清理算法策略模块,用于若所述目标节点的节点负载状态触发所述数据集清理事件,则根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述清理算法策略模块还用于利用清理算法线程将所述目标数据集从所述目标节点中删除。
14.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,所述数据集状态统计模块获取所述目标节点的数据集当前热度的过程包括:确定所述目标节点在预设时间段内的热度统计结果,将所述热度统计结果对应的移动平均值作为所述目标节点的数据集当前热度。
15.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,所述数据集状态统计模块获取所述目标节点的数据集的服务因子的过程包括:根据所述目标节点中每一数据集参与人工智能平台的训练业务的运行时长、优先级和使用次数确定所述数据集的服务因子。
16.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,清理信号触发器判断所述目标节点的节点负载状态是否触发数据集清理事件的过程包括:判断所述目标节点的数据集分区剩余空间是否小于第一阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件;和/或,判断所述目标节点的磁盘可用空间是否小于第二阈值;若是,则判定所述目标节点的节点负载状态触发所述数据集清理事件;若否,则判定所述目标节点的节点负载状态未触发所述数据集清理事件。
17.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,所述清理算法策略模块还用于若API接口接收到数据集清理指令,则将所述数据集清理指令对应的数据集从所述目标节点中删除。
18.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,所述清理算法策略模块还用于若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
19.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,所述清理算法策略模块还用于若所述目标节点的节点负载状态触发所述数据集清理事件,则启动第一清理算法线程;其中,所述第一清理算法线程用于根据所述状态统计数据计算所述目标节点已存储的每一数据集的重要度得分,并根据所述重要度得分选取目标数据集;所述第一清理算法线程还用于将所述目标数据集从所述目标节点中删除;
所述清理算法策略模块还用于若API接口接收到数据集清理指令,则启动第二清理算法线程;其中,所述第二清理算法线程用于将所述数据集清理指令对应的数据集从所述目标节点中删除;
所述清理算法策略模块还用于若接收到第三方集成插件的数据集清理接口发送的清理阈值条件和/或待清理数据集列表,则启动第三清理算法线程;其中,所述第三清理算法线程用于将所述清理阈值条件和/或所述待清理数据集列表对应的数据集从所述目标节点中删除。
20.根据权利要求13所述人工智能平台的数据集管理系统,其特征在于,所述清理算法策略模块还用于在将所述目标数据集从所述目标节点中删除之后,判断所述目标节点的数据集分区剩余空间是否大于或等于第一阈值;若否,则根据所述重要度得分选取新的目标数据集,并将所述新的目标数据集从所述目标节点中删除,直至所述目标节点的数据集分区剩余空间大于或等于第一阈值。
21.根据权利要求20所述人工智能平台的数据集管理系统,其特征在于,所述清理算法策略模块还用于若所述目标节点的数据集分区剩余空间大于或等于第一阈值,判断所述目标节点中的数据集分区剩余空间是否小于第三阈值;其中,所述第三阈值大于所述第一阈值;若是,则对所述目标节点执行数据集收缩操作。
22.根据权利要求21所述人工智能平台的数据集管理系统,其特征在于,所述清理算法策略模块对所述目标节点执行数据集收缩操作的过程包括:按照预设维度将所述目标节点中的数据集切分为多个数据集切片;其中,所述预设维度包括业务用途和/或时间轴;确定所述目标节点的训练作业类型,并确定每一所述数据集切片与所述训练作业类型的数据相关度;删除所述目标节点的数据集中数据相关度小于预设值的数据集切片。
23.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至12任一项所述人工智能平台的数据集管理方法的步骤。
24.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至12任一项所述人工智能平台的数据集管理方法的步骤。
CN202310102222.3A 2023-02-13 2023-02-13 一种人工智能平台的数据集管理方法及系统 Pending CN116028478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310102222.3A CN116028478A (zh) 2023-02-13 2023-02-13 一种人工智能平台的数据集管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310102222.3A CN116028478A (zh) 2023-02-13 2023-02-13 一种人工智能平台的数据集管理方法及系统

Publications (1)

Publication Number Publication Date
CN116028478A true CN116028478A (zh) 2023-04-28

Family

ID=86074428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310102222.3A Pending CN116028478A (zh) 2023-02-13 2023-02-13 一种人工智能平台的数据集管理方法及系统

Country Status (1)

Country Link
CN (1) CN116028478A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN113392041A (zh) * 2021-02-08 2021-09-14 腾讯科技(深圳)有限公司 应用缓存清理方法、装置、设备及存储介质
CN114003374A (zh) * 2021-09-30 2022-02-01 苏州浪潮智能科技有限公司 基于云平台的节点调度方法、装置及电子设备和存储介质
CN114153390A (zh) * 2021-11-19 2022-03-08 苏州浪潮智能科技有限公司 一种分布式存储系统中卷删除优化方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN113392041A (zh) * 2021-02-08 2021-09-14 腾讯科技(深圳)有限公司 应用缓存清理方法、装置、设备及存储介质
CN114003374A (zh) * 2021-09-30 2022-02-01 苏州浪潮智能科技有限公司 基于云平台的节点调度方法、装置及电子设备和存储介质
CN114153390A (zh) * 2021-11-19 2022-03-08 苏州浪潮智能科技有限公司 一种分布式存储系统中卷删除优化方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112202837B (zh) 一种基于数据集与节点缓存的调度方法和装置
CN107943718B (zh) 一种清理缓存文件的方法和装置
CN107656807B (zh) 一种虚拟资源的自动弹性伸缩方法及装置
US8644678B2 (en) Video recording management
CN101533416A (zh) 一种音视频文件管理方法及系统
CN114579296A (zh) 一种服务器闲置算力调度方法、装置及电子设备
CN113722106A (zh) 一种内存管理的方法和装置
CN109597764A (zh) 一种目录配额的测试方法及相关装置
US11243857B2 (en) Executing test scripts with respect to a server stack
CN113778964B (zh) 用于储存多个暂存档案的记录装置及暂存档案的管理方法
CN111309442B (zh) 微服务容器数量的调整方法、装置、系统、介质及设备
CN115373764B (zh) 一种容器自动加载方法和装置
CN116028478A (zh) 一种人工智能平台的数据集管理方法及系统
CN113127179A (zh) 资源调度方法、装置、电子设备及计算机可读介质
EP3835975A1 (en) Data transmission method and device
CN114036160A (zh) 一种实时数据采集方法、装置、电子设备及存储介质
CN114640665A (zh) 一种多源分段并行的文件下载方法和工具
CN115082911A (zh) 一种视频分析方法、装置及视频处理设备
CN114764416A (zh) 数据缓存方法、装置、设备及计算机可读存储介质
CN112783843A (zh) 数据读取方法、装置及电子设备
CN111142898A (zh) 一种基于群体智能模式的数据防泄漏终端升级方法及系统
CN112699124B (zh) 一种基于分布式多存储服务的循环存储方法和系统
CN116737676A (zh) 文件存储方法、装置、电子设备及可读存储介质
CN115373806A (zh) 进程清理方法、装置、电子设备及存储介质
CN116303533A (zh) 一种任务处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230428