CN112087487A - 模型训练任务的调度方法、装置、电子设备及存储介质 - Google Patents

模型训练任务的调度方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112087487A
CN112087487A CN202010755738.4A CN202010755738A CN112087487A CN 112087487 A CN112087487 A CN 112087487A CN 202010755738 A CN202010755738 A CN 202010755738A CN 112087487 A CN112087487 A CN 112087487A
Authority
CN
China
Prior art keywords
model training
target
data set
task
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010755738.4A
Other languages
English (en)
Other versions
CN112087487B (zh
Inventor
余虹建
李锦丰
李秋庆
朱军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Juyun Technology Co ltd
Original Assignee
Beijing Juyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Juyun Technology Co ltd filed Critical Beijing Juyun Technology Co ltd
Priority to CN202010755738.4A priority Critical patent/CN112087487B/zh
Publication of CN112087487A publication Critical patent/CN112087487A/zh
Application granted granted Critical
Publication of CN112087487B publication Critical patent/CN112087487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明实施例公开一种模型训练任务的调度方法、装置、电子设备及存储介质,涉及计算机技术领域,能够有效提高模型训练效率。所述模型训练任务的调度方法,包括:获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。本发明适用于机器学习的模型训练中。

Description

模型训练任务的调度方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种模型训练任务的调度方法、装置、电子设备及存储介质。
背景技术
近年来,人工智能技术在产业和生活中得到了越来越广泛的应用。机器学习作为人工智能领域的一个重要分支,能够通过大量的训练数据,得到较为理想的数学模型。
然而,由于模型训练所需的数据量巨大,常常是千万级的文件数量,因此模型训练时常常需要耗费大量的时间来读取训练数据,导致模型训练效率较低。
发明内容
有鉴于此,本发明实施例提供一种模型训练任务的调度方法、装置、电子设备及存储介质,能够有效提高模型训练效率。
第一方面,本发明实施例提供一种模型训练任务的调度方法,包括:
获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;
根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;
根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。
可选的,所述根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息包括:
根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。
可选的,所述根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息之前,所述方法还包括:
接收集群中的各服务器上报的训练状态信息;
根据所述训练状态信息生成或更新所述信息库。
可选的,所述根据所述任务统计信息,从所述各服务器中选择一个目标服务器包括:
从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
根据所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
可选的,所述数据集属性信息还包括所述目标训练数据集的大小;所述任务统计信息还包括所述其他模型训练任务在各自的服务器中占据的内存大小;
所述根据所述任务统计信息,从所述各服务器中选择一个目标服务器包括:
从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
确定各所述备选服务器中最后一次使用所述目标训练数据集的模型训练任务在各自的备选服务器中所占据的内存大小;
根据所述占据的内存大小和/或所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
第二方面,本发明的实施例还提供一种模型训练任务的调度装置,包括:
获取单元,用于获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;
确定单元,用于根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;
调度单元,用于根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。
可选的,所述确定单元具体用于根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。
可选的,所述装置还包括:
接收单元,用于在根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息之前,接收集群中的各服务器上报的训练状态信息;
生成单元,用于根据所述训练状态信息生成或更新所述信息库。
可选的,所述调度单元包括:
查询模块,用于从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
选择模块,用于根据所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
可选的,所述数据集属性信息还包括所述目标训练数据集的大小;所述任务统计信息还包括所述其他模型训练任务在各自的服务器中占据的内存大小;
所述调度单元包括:
查询模块,用于从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
确定模块,用于确定各所述备选服务器中最后一次使用所述目标训练数据集的模型训练任务在各自的备选服务器中所占据的内存大小;
选择模块,根据所述占据的内存大小和/或所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。:
第三方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种模型训练任务的调度方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种模型训练任务的调度方法。
本发明的实施例提供的模型训练任务的调度方法、装置、电子设备及存储介质,能够获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。这样,就能够根据任务统计信息中所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息,获知此前执行模型训练任务时已经使用过该目标训练数据集的服务器,由于这样的服务器的内存中可能仍然保留有所述目标训练数据集中的部分或全部数据,将目标模型训练任务调度到这样的服务器上去执行,就能够节省大量的数据读取时间,从而有效提高了模型训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的实施例提供的模型训练任务的调度方法的一种流程图;
图2为本发明的实施例提供的模型训练任务的调度装置的一种结构示意图;
图3为本发明的实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在机器学习中,一方面需要具有强大计算能力的计算机进行模型训练,另一方面也需要足够的数据样本来供计算机进行学习。由于计算量和数据量巨大,可以由集群式服务器完成模型训练任务。发明人在研究中发现,在集群式服务器中,对模型训练任务的执行进行有效调度,最大限度的利用集群中现有的数据资源,可以有效提高模型训练效率。
下面通过具体的实施例进行详细说明。
第一方面,本发明的实施例提供了一种模型训练任务的调度方法,能够有效提高模型训练效率。
如图1所示,本发明的实施例提供了一种模型训练任务的调度方法,该方法可以包括:
S11,获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;
模型训练服务器可以以读取文件的方式读取训练数据。一项模型训练任务所需的所有训练数据可以形成一个数据集(data set)。模型训练所需的数据量巨大,一个数据集常常可以包括千万级别的文件数,而一个数据集所占据的存储空间也相当巨大。
在集群式服务器中,可能会有大量的模型训练任务需要执行。这些任务可以按照先后顺序排放在任务队列中,执行任务时可以从任务队列中依次将任务取出并执行。从任务队列中取出的任务为待执行的目标模型训练任务,该目标模型训练任务使用的数据集为目标训练数据集。本步骤中可以获取目标训练数据集的数据集属性信息,例如目标训练数据集的标识等。
S12,根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;
获取到目标训练数据集的数据集属性信息后,可以根据该数据集属性信息确定同样使用该目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。任务统计信息可以包括训练任务在对应的服务器中执行的多种相关信息。
可选的,在本发明的一个实施例中,任务统计信息可以包括其他模型训练任务在集群中各服务器中的分布信息,例如,使用该目标训练数据集进行模型训练的其他模型训练任务分别位于集群中的哪些服务器上,以及这些服务器的地理位置在哪里。
在本发明的另一个实施例中,任务统计信息可以包括其他模型训练任务在集群中各服务器中的运行状态信息,例如,使用该目标训练数据集进行模型训练的其他模型训练任务此刻处于已经运行完毕的状态、或者正在运行中的状态。对于已经运行完毕的状态,还可以进一步提供运行结束的时间和整个运行过程总共消耗的时间。对于正在运行中的状态还可以进一步提供运行进度信息,例如当前运行进度为已完成80%,剩余运行时间预计还要5分钟等。
S13,根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。
获取了使用目标训练数据集进行模型训练的其他模型训练任务的任务统计信息后,就可以根据该任务统计信息中其他模型训练任务的分布信息或/和运行状态信息,从集群中的各服务器中选择一个作为目标服务器,来执行目标模型训练任务。
例如,在本发明的一个实施例中,可以根据分布信息选择距离较近的服务器作为目标服务器,在本发明的另一个实施例中,可以根据状态信息,选择刚刚结束训练任务运行或很快就会结束训练任务运行的服务器作为目标服务器。当然,在本发明的其他实施例中,也可以在使用目标训练数据集的其他训练任务所在的服务器中随机选择一个作为目标服务器,或者对分布和运行状态进行综合考虑,选择最有利于提高模型训练效率的目标服务器。本发明的实施例对此不做限定。
本发明的实施例提供的模型训练任务的调度方法,能够获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。这样,就能够根据任务统计信息中所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息,获知此前执行模型训练任务时已经使用过该目标训练数据集的服务器,由于这样的服务器的内存中可能仍然保留有所述目标训练数据集中的部分或全部数据,将目标模型训练任务调度到这样的服务器上去执行,就能够节省大量的数据读取时间,从而有效提高了模型训练效率。
具体而言,在步骤S11中,从任务队列中取出目标模型训练任务后,可以通过目标模型训练任务代码中的预设参数获知该目标模型训练任务使用哪个数据集进行模型训练,并获取该数据集的数据集属性信息。
获取了数据集属性信息后,在步骤S12中,可以根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。可选的,确定任务统计信息的方式可以有多种,例如可以向集群中的各服务器发送相应的查询信息,等待各服务器的反馈,也可以查询预先设置的信息库,直接从信息库中获取对应的任务统计信息。
示例性的,在本发明的一个实施例中,可以根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。例如,根据目标训练数据集的标识dataset23,可以在预先设置的信息库中查询到使用dataset23进行模型训练的其他模型训练任务job1和job5,其中job1运行于服务器1中,且已经于8分钟前运行完毕,job5运行于服务器6中,且目前正在运行,预计还有2分钟完成。
由于利用信息库查询任务统计状态能够获得更快的响应速度,在本发明的一个实施例中,可以定时或基于请求,与集群中的各服务器进行交互,从而建立该信息库。
举例而言,在本发明的一个实施例中,在根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息之前,本发明的实施例提供的模型训练任务的调度方法还可以包括:接收集群中的各服务器上报的训练状态信息;根据所述训练状态信息生成或更新所述信息库。这样,每台服务器每次上报的训练状态信息都可以被记录并汇总到信息库中,无论是模型训练任务的当前状态还是历史信息,都能够准确提供。进一步的,对于运行结束时间在预设时间点以前的信息,可以定期予以删除,以维护信息库的信息时效和数据量,有效提高查询效率。
确定了使用目标数据集进行模型训练的其他模型训练任务的任务统计信息后,可以在步骤S13中根据所述任务统计信息,从所述各服务器中选择一个目标服务器,并利用该目标服务器执行目标模型训练任务。
可选的,具体实施中,可以从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;根据所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。这样,最后一次执行模型训练任务时使用了目标训练数据集,在没有新任务执行的条件下,目标训练数据集中还会有部分或全部数据保留在该服务器的内存中,从而能够有效节省数据读取时间。
举例而言,在本发明的一个实施例中,从任务统计信息中查询到训练任务A1、A2、A3使用过目标训练数据集,其中A1运行在服务器B1上,A2运行在服务器B2上,A3运行在服务器B3上。A1、A2运行结束后,服务器B1、B2尚未运行新的模型训练任务,A3运行结束后B3又运行了一个新的模型训练任务,则备选服务器为B1、B2。若备选服务器B1距离请求执行所述目标模型训练任务的服务器较近,而备选服务器B2距离请求执行所述目标模型训练任务的服务器较远,则选择较近的备选服务器B1为目标服务器。
进一步的,上述实施例中,若A1还处于运行中,例如还需要3分钟运行完毕,则可以进一步权衡调度距离与等待时间对模型训练效率的影响,选择最有利于提高模型训练效率的服务器作为目标服务器。
上述实施例中,数据集属性信息包括目标训练数据集的标识,任务统计信息包括使用该目标训练数据集进行模型训练的其他模型训练任务在集群中各服务器的分布信息和/或运行状态信息,但本发明的实施例不限于此。
在本发明的另一个实施例中,数据集属性信息还可以包括所述目标训练数据集的大小;模型训练服务器在读取训练数据前,可以通过读取文件头信息或通过其他交互信息获知此次训练的数据集的数据量大小(size),也即是该数据集需要占据的数据存储空间的大小,例如132G、60G等。进一步的,任务统计信息还可以包括所述其他模型训练任务在各自的服务器中占据的内存大小。基于此,步骤S13中根据所述任务统计信息,从所述各服务器中选择一个目标服务器具体可以包括:
从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
确定各所述备选服务器中最后一次使用所述目标训练数据集的模型训练任务在各自的备选服务器中所占据的内存大小;
根据所述占据的内存大小和/或所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
也即是说,本实施例中,在得到备选服务器之后,还要考察各备选服务器中使用目标训练数据集进行模型训练的各模型训练任务被分配了多大的内存空间。被分配的内存空间越大,则能够保留下来的数据越多,也就更能为目标模型训练任务节省更多的数据读取时间。在选择目标服务器时,可以进一步权衡调度距离与所分配的内存空间对模型训练效率的影响,选择最有利于提高模型训练效率的服务器作为目标服务器。
第二方面,本发明的实施例还提供一种模型训练任务的调度装置,能够有效提高模型训练效率。
如图2所示,本发明的实施例提供的模型训练任务的调度装置可以包括:
获取单元21,用于获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;
确定单元22,用于根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;
调度单元23,用于根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。
本发明的实施例提供的模型训练任务的调度装置,能够获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。这样,就能够根据任务统计信息中所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息,获知此前执行模型训练任务时已经使用过该目标训练数据集的服务器,由于这样的服务器的内存中可能仍然保留有所述目标训练数据集中的部分或全部数据,将目标模型训练任务调度到这样的服务器上去执行,就能够节省大量的数据读取时间,从而有效提高了模型训练效率。
可选的,确定单元22具体用于根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。
可选的,所述装置还可以包括:接收单元,用于在根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息之前,接收集群中的各服务器上报的训练状态信息;生成单元,用于根据所述训练状态信息生成或更新所述信息库。
可选的,调度单元23可以包括:
查询模块,用于从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
选择模块,用于根据所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
可选的,所述数据集属性信息还包括所述目标训练数据集的大小;所述任务统计信息还包括所述其他模型训练任务在各自的服务器中占据的内存大小;
所述调度单元23可以包括:
查询模块,用于从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
确定模块,用于确定各所述备选服务器中最后一次使用所述目标训练数据集的模型训练任务在各自的备选服务器中所占据的内存大小;
选择模块,根据所述占据的内存大小和/或所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
第三方面,本发明的实施例还提供一种电子设备,能够有效提高模型训练效率。
如图3所示,本发明的实施例提供的电子设备,可以包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为上述电子设备的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的模型训练任务的调度方法。
处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
相应的,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种模型训练任务的调度方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种模型训练任务的调度方法,其特征在于,包括:
获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;
根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;
根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息包括:
根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息之前,所述方法还包括:
接收集群中的各服务器上报的训练状态信息;
根据所述训练状态信息生成或更新所述信息库。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述任务统计信息,从所述各服务器中选择一个目标服务器包括:
从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
根据所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述数据集属性信息还包括所述目标训练数据集的大小;所述任务统计信息还包括所述其他模型训练任务在各自的服务器中占据的内存大小;
所述根据所述任务统计信息,从所述各服务器中选择一个目标服务器包括:
从所述任务统计信息中查询最后一次执行模型训练时使用所述目标训练数据集进行模型训练的服务器,得到备选服务器;
确定各所述备选服务器中最后一次使用所述目标训练数据集的模型训练任务在各自的备选服务器中所占据的内存大小;
根据所述占据的内存大小和/或所述备选服务器与请求执行所述目标模型训练任务的服务器之间的距离,从所述备选服务器中选择一个所述目标服务器。
6.一种模型训练任务的调度装置,其特征在于,包括:
获取单元,用于获取待执行的目标模型训练任务所对应的目标训练数据集的数据集属性信息,所述数据集属性信息包括所述目标训练数据集的标识;
确定单元,用于根据所述数据集属性信息,确定使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息,所述任务统计信息包括所述其他模型训练任务在集群中各服务器中的分布信息和/或运行状态信息;
调度单元,用于根据所述任务统计信息,从所述各服务器中选择一个目标服务器,将所述目标模型训练任务调度给所述目标服务器执行。
7.根据权利要求6所述的装置,其特征在于,所述确定单元具体用于根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
接收单元,用于在根据所述数据集属性信息,在预先设置的信息库中查询使用所述目标训练数据集进行模型训练的其他模型训练任务的任务统计信息之前,接收集群中的各服务器上报的训练状态信息;
生成单元,用于根据所述训练状态信息生成或更新所述信息库。
9.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1-5中任一项所述的模型训练任务的调度方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1至5中任一项所述的模型训练任务的调度方法。
CN202010755738.4A 2020-07-30 2020-07-30 模型训练任务的调度方法、装置、电子设备及存储介质 Active CN112087487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010755738.4A CN112087487B (zh) 2020-07-30 2020-07-30 模型训练任务的调度方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010755738.4A CN112087487B (zh) 2020-07-30 2020-07-30 模型训练任务的调度方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112087487A true CN112087487A (zh) 2020-12-15
CN112087487B CN112087487B (zh) 2023-08-18

Family

ID=73735190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010755738.4A Active CN112087487B (zh) 2020-07-30 2020-07-30 模型训练任务的调度方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112087487B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733892A (zh) * 2020-12-28 2021-04-30 北京聚云科技有限公司 一种用于模型训练的数据交互方法及装置
CN112799924A (zh) * 2021-01-22 2021-05-14 北京聚云科技有限公司 一种对存储训练数据的云存储系统的仿真测试系统及方法
CN112965803A (zh) * 2021-03-22 2021-06-15 共达地创新技术(深圳)有限公司 Ai模型生成方法及电子设备
CN113127446A (zh) * 2021-04-01 2021-07-16 山东英信计算机技术有限公司 一种基于Ottertune服务的集群调优方法及装置
CN117193992A (zh) * 2023-11-08 2023-12-08 浙江大华技术股份有限公司 模型训练方法、任务调度方法、装置以及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734293A (zh) * 2017-04-13 2018-11-02 北京京东尚科信息技术有限公司 任务管理系统、方法和装置
US20200092392A1 (en) * 2018-09-19 2020-03-19 International Business Machines Corporation Data caching and data-aware placement to accelerate machine learning applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734293A (zh) * 2017-04-13 2018-11-02 北京京东尚科信息技术有限公司 任务管理系统、方法和装置
US20200092392A1 (en) * 2018-09-19 2020-03-19 International Business Machines Corporation Data caching and data-aware placement to accelerate machine learning applications

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733892A (zh) * 2020-12-28 2021-04-30 北京聚云科技有限公司 一种用于模型训练的数据交互方法及装置
CN112799924A (zh) * 2021-01-22 2021-05-14 北京聚云科技有限公司 一种对存储训练数据的云存储系统的仿真测试系统及方法
CN112799924B (zh) * 2021-01-22 2023-07-21 北京聚云科技有限公司 一种对存储训练数据的云存储系统的仿真测试系统及方法
CN112965803A (zh) * 2021-03-22 2021-06-15 共达地创新技术(深圳)有限公司 Ai模型生成方法及电子设备
CN113127446A (zh) * 2021-04-01 2021-07-16 山东英信计算机技术有限公司 一种基于Ottertune服务的集群调优方法及装置
CN117193992A (zh) * 2023-11-08 2023-12-08 浙江大华技术股份有限公司 模型训练方法、任务调度方法、装置以及计算机存储介质
CN117193992B (zh) * 2023-11-08 2024-02-02 浙江大华技术股份有限公司 模型训练方法、任务调度方法、装置以及计算机存储介质

Also Published As

Publication number Publication date
CN112087487B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN112087487B (zh) 模型训练任务的调度方法、装置、电子设备及存储介质
CN109167750B (zh) 一种数据包传输方法、装置、电子设备及存储介质
CN105487760A (zh) 一种展示消息的方法、装置及电子设备
CN112365367B (zh) 一种基于设备电量的区域画像方法、设备及存储介质
CN105809471B (zh) 一种获取用户属性的方法、装置及电子设备
CN115023697A (zh) 数据查询方法、装置及服务器
WO2014146441A1 (en) Method, server and system for processing task data
CN112084017B (zh) 一种内存管理方法、装置、电子设备及存储介质
CN110502256A (zh) 一种软件升级方法、终端及存储介质
CN110866249A (zh) 一种动态检测恶意代码的方法、装置及电子设备
CN112099800A (zh) 代码数据的处理方法、装置和服务器
WO2015014260A1 (en) Data processing method and server therefor
CN110652728A (zh) 一种游戏资源管理方法、装置、电子设备及存储介质
CN111258958A (zh) 一种数据获取方法、数据提供方法及装置
CN110221878A (zh) 一种游戏服务的更新方法、装置、电子设备及存储介质
CN103457944A (zh) 信息推送方法、装置和服务器
CN110837549B (zh) 一种信息处理方法、装置及存储介质
CN112085208A (zh) 一种利用云端进行模型训练的方法及装置
CN112364222A (zh) 一种用户年龄的区域画像方法、计算机设备及存储介质
CN112749127A (zh) 一种用于模型训练的数据提供方法及系统
CN111258959A (zh) 一种数据获取方法、数据提供方法及装置
CN110505276B (zh) 对象匹配方法、装置及系统、电子设备及存储介质
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN110675133A (zh) 一种抢红包的方法、装置、电子设备及可读存储介质
CN108833261B (zh) 一种基于Android平台客户端消息推送优化方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant