CN112463334A - 一种训练任务排队原因分析方法、系统、设备以及介质 - Google Patents

一种训练任务排队原因分析方法、系统、设备以及介质 Download PDF

Info

Publication number
CN112463334A
CN112463334A CN202011402706.2A CN202011402706A CN112463334A CN 112463334 A CN112463334 A CN 112463334A CN 202011402706 A CN202011402706 A CN 202011402706A CN 112463334 A CN112463334 A CN 112463334A
Authority
CN
China
Prior art keywords
sample data
data
clustering center
clustering
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011402706.2A
Other languages
English (en)
Other versions
CN112463334B (zh
Inventor
王文潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011402706.2A priority Critical patent/CN112463334B/zh
Publication of CN112463334A publication Critical patent/CN112463334A/zh
Priority to PCT/CN2021/121870 priority patent/WO2022116667A1/zh
Priority to US18/036,864 priority patent/US11775344B1/en
Application granted granted Critical
Publication of CN112463334B publication Critical patent/CN112463334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3889Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute
    • G06F9/3891Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute organised in groups of units sharing resources, e.g. clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种训练任务排队原因分析方法,包括以下步骤:获取用户输入的训练任务所需的资源以及集群的剩余资源;响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案增加了平台针对排队任务原因的分辨能力,可以让用户迅速获取任务排队具体原因,也提升了平台的易用性,增强用户感受,相应地也指导相关深度学习平台的研发。

Description

一种训练任务排队原因分析方法、系统、设备以及介质
技术领域
本发明涉及深度学习领域,具体涉及一种训练任务排队原因分析方法、系统、设备以及存储介质。
背景技术
目前,随着人工智能逐步深入各个行业领域,行业专家也趋向于从人工智能的角度来去解决那些复杂的问题,各种算法框架被应用到各个领域中,同时算法模型也正在不断地被算法工程师改进,这些变化需要强大的算力去支持。因此,算力变得越来越重要,在原本的生产模式中,算法工程师更倾向于单独使用一台服务器或者公用几台服务器去做算法训练。可是随着人员规模的不断扩大,资源的分配以及争抢问题也变得越来越严重,极大的影响了算法工程师的工作效率。因此,针对成规模的算法人员,建立一种算力资源池进行资源管理非常有必要。在平台上,工程师只需要去申请资源就行,剩余的事情交给平台资源调度器去解决,极大提高了生产效率。
一般地,平台调度器只有在任务申请资源符合算力资源池要求时才能进行调度作业,如果不满足条件,则会将任务放到等待队列中,等到资源满足要求时再次进行调度,循环往复。但是如果遇到用户高峰期,资源池中的cpu资源和gpu资源将很快被耗尽,此后的任务只能等待调度。
但是对于一种平台而言,单纯的提示等待是一种非常不友好的动作,需要让用户知道为什么所提交的任务会排队,通过排队原因去引导用户去合理的规划资源,再次进行任务的提交。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种训练任务排队原因分析方法,包括以下步骤:
获取用户输入的训练任务所需的资源以及集群的剩余资源;
响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;
将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;
将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。
在一些实施例中,将所述所需的资源和剩余资源作为样本数据,进一步包括:
对样本数据进行量化处理。
在一些实施例中,还包括:
将所述样本数据保存;
响应于保存的样本数据的数量达到阈值,利用保存的所述样本数据对所述聚类模型进行更新。
在一些实施例中,利用保存的所述样本数据对所述聚类模型进行更新,进一步包括:
随机生成多个聚类中心数据;
计算保存的所述样本数据和所述聚类模型中原始的样本数据分别与每一个当前的聚类中心数据的距离以将保存的所述样本数据和所述聚类模型中原始的样本数据划分到对应的聚类中心数据下;
利用每一个聚类中心数据下的样本数据重新计算对应的聚类中心数据;
响应于计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据不同,则利用计算得到的聚类中心数据再次进行样本数据的划分,以进行迭代训练,直到计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据相同。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种训练任务排队原因分析系统,包括:
获取模块,所述获取模块配置为获取用户输入的训练任务所需的资源以及集群的剩余资源;
判断模块,所述判断模块配置为响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;
计算模块,所述计算模块配置为将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;
反馈模块,所述反馈模块配置为将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。
在一些实施例中,所述计算模块还配置为:
对样本数据进行量化处理。
在一些实施例中,还包括更新模块,所述更新模块配置为:
将所述样本数据保存;
响应于保存的样本数据的数量达到阈值,利用保存的所述样本数据对所述聚类模型进行更新。
在一些实施例中,所述更新模块还配置为:
随机生成多个聚类中心数据;
计算保存的所述样本数据和所述聚类模型中原始的样本数据分别与每一个当前的聚类中心数据的距离以将保存的所述样本数据和所述聚类模型中原始的样本数据划分到对应的聚类中心数据下;
利用每一个聚类中心数据下的样本数据重新计算对应的聚类中心数据;
响应于计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据不同,则利用计算得到的聚类中心数据再次进行样本数据的划分,以进行迭代训练,直到计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据相同。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种训练任务排队原因分析方法的步骤。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种训练任务排队原因分析方法的步骤。
本发明具有以下有益技术效果之一:本发明提出的方案增加了平台针对排队任务原因的分辨能力,可以让用户迅速获取任务排队具体原因,也提升了平台的易用性,增强用户感受,相应地也指导相关深度学习平台的研发。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的训练任务排队原因分析方法的流程示意图;
图2为本发明的实施例提供的训练任务排队原因分析系统的结构示意图;
图3为本发明的实施例提供的计算机设备的结构示意图;
图4为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种训练任务排队原因分析方法,如图1所示,其可以包括步骤:
S1,获取用户输入的训练任务所需的资源以及集群的剩余资源;
S2,响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;
S3,将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;
S4,将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。
本发明提出的方案增加了平台针对排队任务原因的分辨能力,可以让用户迅速获取任务排队具体原因,也提升了平台的易用性,增强用户感受,相应地也指导相关深度学习平台的研发。
在一些实施例中,在步骤S2响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据,具体的,可以启动一个实时监听线程,进行任务排队监听。当算力资源池不满足本次用户申请的训练任务所需的资源时,需要判定具体原因。即将平台上提交的任务信息进行量化,包括cpu使用个数,gpu使用个数、gpu类型、指定调度节点等。计算该数据与各个聚类中心数据的欧式距离,寻找到与该数据最近的中心点,匹配对应的排队原因。
需要说明的是,每一个聚类中心数据所代表的排队原因是预先进行关联的,每一个聚类中心数据则是通过多个样本数据计算得到的,例如通过计算平均值或者计算均方差等。
在一些实施例中,将所述所需的资源和剩余资源作为样本数据,进一步包括:
对样本数据进行量化处理。
具体的,用户根据自己的需求,输入自己任务的相关配置参数,包括cpu使用个数,gpu使用个数、资源组、gpu类型、指定调度节点等。其中,一些参数无法利用具体数值表示,例如gpu类型等,因此需要对这些参数进行量化处理,例如,gpu类型无法用具体的数值表示,需要对其进行量化处理,可以通过标签或编号对不同类型的gpu进行区分。
在一些实施例中,还包括:
将所述样本数据保存;
响应于保存的样本数据的数量达到阈值,利用保存的所述样本数据对所述聚类模型进行更新。
具体的,为了丰富聚类样本信息,可以在每次判别后将本次样本数据自动添加到样本库,当新加入的样本数据的数量达到阈值后,则根据此时样本库中所有的样本数据重新进行聚类中心数据的计算。
在一些实施例中,利用保存的所述样本数据对所述聚类模型进行更新,进一步包括:
随机生成多个聚类中心数据;
计算保存的所述样本数据和所述聚类模型中原始的样本数据分别与每一个当前的聚类中心数据的距离以将保存的所述样本数据和所述聚类模型中原始的样本数据划分到对应的聚类中心数据下;
利用每一个聚类中心数据下的样本数据重新计算对应的聚类中心数据;
响应于计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据不同,则利用计算得到的聚类中心数据再次进行样本数据的划分,以进行迭代训练,直到计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据相同。
具体的,可以根据业务需求,设定排队原因的个数。然后随机生成与排队原因个数相同的聚类中心数据,分别计算每一个样本数据与每一个聚类中心数据的距离,根据距离将样本数据划归到与自己最近的中心点类别,然后重新根据划分到每一个聚类中心数据下的样本数据计算聚类中心数据,例如根据平均值计算聚类中心数据。然后判断重新计算的聚类中心数据与当前用于样本数据划分的聚类中心数据是否一致,如果不一致,则继续进行迭代训练,直到聚类中心数据不在发生变化为止。例如,随机生成的聚类中心数据为A和B,划分到A和B下的样本数据的编号分别为1、2、3,4、5、6,然后利用编号为1、2、3的样本数据计算聚类中心数据A’,利用编号为4、5、6的样本数据计算聚类中心数据B’,接着判断A’和B’是否与A和B相同,如果不同,则利用A’和B’对所有的样本数据进行划分,再次计算新的聚类中心数据,这样经过多次迭代后,聚类中心数据不在发生变化,将最终得到的聚类中心数据与任务排队原因进行映射。
本发明提出的方案利用聚类算法,把任务资源使用量(cpu、gpu使用量)以及平台服务器集群当前的负载情况(cpu负载、gpu负载)当做排队类别因素的基本信息,在有限次的迭代中寻找聚类中心,并把聚类中心和相应的排队原因进行映射。在用户进行任务提交的时候,如果任务因为资源不匹配的原因而没有被调度,此时将当前的基本因素与聚类中心的进行比对,找到与自身基本因素最相近的中心点,并把本次提交的任务排队原因归结于此类,并通过监听机制进行排队原因发布,让用户及时获取排队原因并作出相应的资源变更。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种训练任务排队原因分析系统400,如图2所示,包括:
获取模块401,所述获取模块401配置为获取用户输入的训练任务所需的资源以及集群的剩余资源;
判断模块402,所述判断模块402配置为响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;
计算模块403,所述计算模块403配置为将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;
反馈模块404,所述反馈模块404配置为将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。
在一些实施例中,所述计算模块还配置为:
对样本数据进行量化处理。
在一些实施例中,还包括更新模块,所述更新模块配置为:
将所述样本数据保存;
响应于保存的样本数据的数量达到阈值,利用保存的所述样本数据对所述聚类模型进行更新。
在一些实施例中,所述更新模块还配置为:
随机生成多个聚类中心数据;
计算保存的所述样本数据和所述聚类模型中原始的样本数据分别与每一个当前的聚类中心数据的距离以将保存的所述样本数据和所述聚类模型中原始的样本数据划分到对应的聚类中心数据下;
利用每一个聚类中心数据下的样本数据重新计算对应的聚类中心数据;
响应于计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据不同,则利用计算得到的聚类中心数据再次进行样本数据的划分,以进行迭代训练,直到计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据相同。
基于同一发明构思,根据本发明的另一个方面,如图3所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种训练任务排队原因分析方法的步骤。
基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种训练任务排队原因分析方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种训练任务排队原因分析方法,其特征在于,包括以下步骤:
获取用户输入的训练任务所需的资源以及集群的剩余资源;
响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;
将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;
将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。
2.如权利要求1所述的方法,其特征在于,将所述所需的资源和剩余资源作为样本数据,进一步包括:
对样本数据进行量化处理。
3.如权利要求1所述的方法,其特征在于,还包括:
将所述样本数据保存;
响应于保存的样本数据的数量达到阈值,利用保存的所述样本数据对所述聚类模型进行更新。
4.如权利要求3所述的方法,其特征在于,利用保存的所述样本数据对所述聚类模型进行更新,进一步包括:
随机生成多个聚类中心数据;
计算保存的所述样本数据和所述聚类模型中原始的样本数据分别与每一个当前的聚类中心数据的距离以将保存的所述样本数据和所述聚类模型中原始的样本数据划分到对应的聚类中心数据下;
利用每一个聚类中心数据下的样本数据重新计算对应的聚类中心数据;
响应于计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据不同,则利用计算得到的聚类中心数据再次进行样本数据的划分,以进行迭代训练,直到计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据相同。
5.一种训练任务排队原因分析系统,其特征在于,包括:
获取模块,所述获取模块配置为获取用户输入的训练任务所需的资源以及集群的剩余资源;
判断模块,所述判断模块配置为响应于所述剩余资源不满足所述所需的资源,获取聚类模型中预先生成的多个聚类中心数据;
计算模块,所述计算模块配置为将所述所需的资源和剩余资源作为样本数据并计算与每一个所述聚类中心数据的距离;
反馈模块,所述反馈模块配置为将与所述样本数据距离最小的聚类中心数据对应的原因进行反馈。
6.如权利要求5所述的系统,其特征在于,所述计算模块还配置为:
对样本数据进行量化处理。
7.如权利要求5所述的系统,其特征在于,还包括更新模块,所述更新模块配置为:
将所述样本数据保存;
响应于保存的样本数据的数量达到阈值,利用保存的所述样本数据对所述聚类模型进行更新。
8.如权利要求7所述的系统,其特征在于,所述更新模块还配置为:
随机生成多个聚类中心数据;
计算保存的所述样本数据和所述聚类模型中原始的样本数据分别与每一个当前的聚类中心数据的距离以将保存的所述样本数据和所述聚类模型中原始的样本数据划分到对应的聚类中心数据下;
利用每一个聚类中心数据下的样本数据重新计算对应的聚类中心数据;
响应于计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据不同,则利用计算得到的聚类中心数据再次进行样本数据的划分,以进行迭代训练,直到计算得到的聚类中心数据与当前用于样本数据划分的聚类中心数据相同。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-4任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-4任意一项所述的方法的步骤。
CN202011402706.2A 2020-12-04 2020-12-04 一种训练任务排队原因分析方法、系统、设备以及介质 Active CN112463334B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011402706.2A CN112463334B (zh) 2020-12-04 2020-12-04 一种训练任务排队原因分析方法、系统、设备以及介质
PCT/CN2021/121870 WO2022116667A1 (zh) 2020-12-04 2021-09-29 一种训练任务排队原因分析方法、系统、设备以及介质
US18/036,864 US11775344B1 (en) 2020-12-04 2021-09-29 Training task queuing cause analysis method and system, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011402706.2A CN112463334B (zh) 2020-12-04 2020-12-04 一种训练任务排队原因分析方法、系统、设备以及介质

Publications (2)

Publication Number Publication Date
CN112463334A true CN112463334A (zh) 2021-03-09
CN112463334B CN112463334B (zh) 2023-08-18

Family

ID=74804816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011402706.2A Active CN112463334B (zh) 2020-12-04 2020-12-04 一种训练任务排队原因分析方法、系统、设备以及介质

Country Status (3)

Country Link
US (1) US11775344B1 (zh)
CN (1) CN112463334B (zh)
WO (1) WO2022116667A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116667A1 (zh) * 2020-12-04 2022-06-09 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576822B (zh) * 2023-11-20 2024-04-30 上海徽视科技集团有限公司 基于互联网平台的排队叫号引导系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110609742A (zh) * 2019-09-25 2019-12-24 苏州浪潮智能科技有限公司 一种Kubernetes调度器的队列的配置方法和装置
CN111198767A (zh) * 2020-01-07 2020-05-26 平安科技(深圳)有限公司 大数据资源处理方法、装置、终端及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3077943B2 (ja) * 1990-11-29 2000-08-21 シャープ株式会社 信号符号化装置
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
CN100420315C (zh) * 2006-08-31 2008-09-17 华为技术有限公司 一种拥塞原因获取方法及系统
US9720998B2 (en) * 2012-11-19 2017-08-01 The Penn State Research Foundation Massive clustering of discrete distributions
US9152860B2 (en) * 2013-05-10 2015-10-06 Tantrum Street LLC Methods and apparatus for capturing, processing, training, and detecting patterns using pattern recognition classifiers
US10241832B2 (en) * 2016-06-20 2019-03-26 Steering Solutions Ip Holding Corporation Runtime determination of real time operating systems task timing behavior
US10261839B2 (en) * 2016-11-02 2019-04-16 International Business Machines Corporation Outlier and root cause determination of excessive resource usage in a virtual machine environment
CN107951485B (zh) * 2017-11-27 2019-06-11 深圳市凯沃尔电子有限公司 基于人工智能自学习的动态心电图分析方法和装置
CN108153587B (zh) * 2017-12-26 2021-05-04 北京航空航天大学 一种针对大数据平台的慢任务原因检测方法
US10990900B2 (en) * 2018-04-09 2021-04-27 Veda Data Solutions, Inc. Scheduling machine learning tasks, and applications thereof
CN111694675B (zh) * 2019-03-15 2022-03-08 上海商汤智能科技有限公司 任务调度方法及装置、存储介质
US11366806B2 (en) * 2019-08-05 2022-06-21 The SQLNet Company GmbH Automated feature generation for machine learning application
CN111191794B (zh) * 2019-12-29 2023-03-14 广东浪潮大数据研究有限公司 一种训练任务处理方法、装置、设备及可读存储介质
CN113448743B (zh) * 2020-03-25 2024-02-23 伊姆西Ip控股有限责任公司 用于任务处理的方法、电子设备以及计算机程序产品
CN112463334B (zh) * 2020-12-04 2023-08-18 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN110609742A (zh) * 2019-09-25 2019-12-24 苏州浪潮智能科技有限公司 一种Kubernetes调度器的队列的配置方法和装置
CN111198767A (zh) * 2020-01-07 2020-05-26 平安科技(深圳)有限公司 大数据资源处理方法、装置、终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋杰 著, 东北大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116667A1 (zh) * 2020-12-04 2022-06-09 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质
US11775344B1 (en) 2020-12-04 2023-10-03 Inspur Suzhou Intelligent Technology Co., Ltd. Training task queuing cause analysis method and system, device and medium

Also Published As

Publication number Publication date
US20230325235A1 (en) 2023-10-12
US11775344B1 (en) 2023-10-03
CN112463334B (zh) 2023-08-18
WO2022116667A1 (zh) 2022-06-09

Similar Documents

Publication Publication Date Title
CN111427681A (zh) 边缘计算中基于资源监控的实时任务匹配调度系统和方法
US8756209B2 (en) Computing resource allocation based on query response analysis in a networked computing environment
WO2015066979A1 (zh) 一种MapReduce任务资源配置参数的机器学习方法
CN114840322B (zh) 任务调度方法及装置、电子设备和存储
CN112463334A (zh) 一种训练任务排队原因分析方法、系统、设备以及介质
CN112114973A (zh) 一种数据处理方法及装置
CN109918182A (zh) 虚拟化技术下的多gpu任务调度方法
CN113094246B (zh) 一种边缘异构计算环境仿真系统
CN113296905B (zh) 调度方法、装置、电子设备、存储介质及软件产品
CN116702907A (zh) 一种服务器无感知的大语言模型推理系统、方法和设备
CN113886080A (zh) 高性能集群任务调度方法、装置、电子设备及存储介质
CN113010286A (zh) 并行任务调度方法、装置、计算机设备和存储介质
CN112463532B (zh) 构建snn工作负载自动映射器的方法及自动映射器
CN106897199B (zh) 一种基于大数据处理框架的批作业执行时间预测方法
CN106844024B (zh) 一种自学习运行时间预测模型的gpu/cpu调度方法及系统
CN110362387B (zh) 分布式任务的处理方法、装置、系统和存储介质
CN113986495A (zh) 一种任务执行方法、装置、设备及存储介质
CN110427217B (zh) 基于内容的发布订阅系统匹配算法轻量级并行方法和系统
CN114327925A (zh) 一种电力数据实时计算调度优化方法及系统
CN109739649B (zh) 资源管理方法、装置、设备及计算机可读存储介质
CN113010290A (zh) 一种任务管理方法、装置、设备及存储介质
CN111625352A (zh) 调度方法、装置及存储介质
CN114615144B (zh) 网络优化方法及系统
CN117891584B (zh) 基于dag分组的任务并行度调度方法、介质和设备
CN116089021B (zh) 面向深度学习的大规模负载混部调度方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant