CN112202684B

CN112202684B - 一种限速队列提交训练任务的方法和装置

Info

Publication number: CN112202684B
Application number: CN202010949625.8A
Authority: CN
Inventors: 王文潇
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-05-13
Anticipated expiration: 2040-09-10
Also published as: WO2022052659A1; CN112202684A; US20230196134A1

Abstract

本发明公开了一种限速队列提交训练任务的方法，包括：监控负载状态信息，根据负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；根据令牌桶限速队列参数调整令牌桶限速队列的承载能力；配置训练任务的任务参数，根据任务参数和承载能力判断令牌桶限速队列中是否有充足的剩余空间以放置训练任务；响应于判断令牌桶限速队列中有充足的剩余空间以放置训练任务，将训练任务发送至令牌桶限速队列中；根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务。本发明还公开了一种相应的装置。本发明可以自适应地调整系统中处理任务请求的限速队列的承载能力，保证系统的平稳运行。

Description

一种限速队列提交训练任务的方法和装置

技术领域

本发明涉及计算机技术领域，更具体地，特别是指一种限速队列提交训练任务的方法和装置。

背景技术

目前，随着神经网络模型的不断改进，其精度不断提高，应用性也逐步增强，AI一词再度回归人们的视野。于此同时，AI也为当前一些行业注入新的生机与活力，伴随着行业的发展，催生了大量深度学习算法工程师。传统的深度学习训练方式是许多工程师共用几台服务器，在这种模式下必然会造成资源争抢等问题，极大降低了算法人员的效率。因此，建立一种AI资源管理平台是很好的解决方案，算法工程师可以在资源管理平台上自定义深度训练任务的资源规格大小等，在配置好训练信息之后，一键提交训练任务到资源管理平台运行。

在面向少量用户时，平台可能有足够的承载能力去处理用户的请求，但是当用户达到一定数量级之后，往往会遇到一些请求高并发问题，冲击平台服务，造成系统的不稳定甚至服务所在的服务器宕机。对于这种高并发造成的严重问题，AI资源管理平台需要引进一种限速机制，用来限流来自用户的请求，既可以保证用户的使用感受，也可以保证平台自身服务的稳定性。

发明内容

有鉴于此，本发明实施例的目的在于提供一种自适应动态限速队列技术，根据不同用户的活跃时间和时段请求数量，可以自适应地调整系统中处理用户请求的限速队列长度，用来控制深度学习训练平台并发量，保证服务系统的平稳运行。

基于上述目的，本发明一方面提供了一种限速队列提交训练任务的方法，该方法包括：

监控负载状态信息，根据负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；

根据令牌桶限速队列参数调整令牌桶限速队列的承载能力；

配置训练任务的任务参数，根据任务参数和承载能力判断令牌桶限速队列中是否有充足的剩余空间以放置训练任务；

响应于判断令牌桶限速队列中有充足的剩余空间以放置训练任务，将训练任务发送至令牌桶限速队列中；

根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务。

在本发明的限速队列提交训练任务的方法的一些实施方式中，根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务还包括：

判断是否可以获取令牌；

响应于获取到令牌，依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务。

在本发明的限速队列提交训练任务的方法的一些实施方式中，方法还包括：

解析从令牌桶限速队列中提交的训练任务，将训练任务发送至底层服务，并发送信号；

根据信号发送训练任务的请求成功信息。

响应于根据任务参数和承载能力判断令牌桶限速队列中没有充足的剩余空间以放置训练任务，发送训练任务的请求取消信息并删除训练任务的请求。

在本发明的限速队列提交训练任务的方法的一些实施方式中，根据令牌桶限速队列参数调整令牌桶限速队列的承载能力还包括：

配置时间间隔，根据时间间隔调整令牌桶限速队列的承载能力。

配置预设时间段，并根据预设时间段收集样本信息；

根据样本信息更新神经网络预测模型的样本集，以及根据更新的样本集重新训练并更新神经网络预测模型。

本发明实施例的另一方面，还提供了一种限速队列提交训练任务的装置，该装置包括：

预测模块，预测模块配置为监控负载状态信息，根据负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；

调整模块，调整模块配置为根据令牌桶限速队列参数调整令牌桶限速队列的承载能力；

剩余空间判断模块，剩余空间判断模块配置为配置训练任务的任务参数，根据任务参数和承载能力判断令牌桶限速队列中是否有充足的剩余空间以放置训练任务；

进入队列模块，进入队列模块配置为响应于判断令牌桶限速队列中有充足的剩余空间以放置训练任务，将训练任务发送至令牌桶限速队列中；

提交模块，提交模块配置为根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务。

在本发明的限速队列提交训练任务的装置的一些实施方式中，提交模块还配置为：

判断是否可以获取令牌；

在本发明的限速队列提交训练任务的装置的一些实施方式中，装置还包括：

提交通知模块，提交通知模块配置为解析从令牌桶限速队列中提交的训练任务，将训练任务发送至底层服务，并发送信号；根据信号发送训练任务的请求成功信息。

模型更新模块，模型更新模块配置为配置预设时间段，并根据预设时间段收集样本信息；根据样本信息更新神经网络预测模型的样本集，以及根据更新的样本集重新训练并更新神经网络预测模型。

本发明至少具有以下有益技术效果：增加了平台针对高并发场景的处理能力，在最大限度不影响系统性能的前提下，降低用户请求的拒绝率，增强用户感受，保护平台性能，同时也指导相关深度学习平台的研发。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1示出了根据本发明的限速队列提交训练任务的方法的实施例的示意性框图；

图2示出了根据本发明的限速队列提交训练任务的方法的实施例的模块结构示意图；

图3示出了根据本发明的限速队列提交训练任务的方法的实施例的令牌桶限速队列的调整流程示意图；

图4示出了根据本发明的限速队列提交训练任务的装置的实施例的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”和“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种限速队列提交训练任务的方法的实施例。图1示出的是根据本发明的限速队列提交训练任务的方法的实施例的示意性框图。如图1所示的实施例中，该方法至少包括如下步骤：

S100、监控负载状态信息，根据负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；

S200、根据令牌桶限速队列参数调整令牌桶限速队列的承载能力；

S300、配置训练任务的任务参数，根据任务参数和承载能力判断令牌桶限速队列中是否有充足的剩余空间以放置训练任务；

S400、响应于判断令牌桶限速队列中有充足的剩余空间以放置训练任务，将训练任务发送至令牌桶限速队列中；

S500、根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务。

在本发明的一些实施例中，针对于深度学习训练任务平台，本发明基于令牌桶限速队列，运行神经网络算法对令牌桶队列的令牌放入速度和队列长度进行实时动态调整。本发明通过收集负载状态信息(包括当前系统用户在线数、系统时段平均负荷和时段信息)，通过神经网络模型计算出令牌桶限速队列参数(包括队列长度和令牌放入速率)。本发明通过记录负载状态信息，将其添加到样本集中，然后更新神经网络模型参数。

在本发明一些实施例中，图2示出的是根据本发明的限速队列提交训练任务的方法的实施例的模块结构示意图，如图2所示，包括任务配置模块、限速模块、自适应模块和运行模块，其中：

任务配置模块：深度学习训练平台设置一个任务配置模块，任务配置模块负责配置任务参数，例如迭代次数，训练框架、批数目、cpu/gpu使用数等；

限速模块：深度学习训练平台设置一个限速模块，该模块通过令牌桶限速队列对训练任务提交进行限流处理，任务每次提交后，需要先进入限速队列，并且在拿到令牌之后才可将训练任务真正下发到系统底层。如果队列已满，则执行拒绝策略，让本次请求废弃，并通过邮件的方式通知到用户。同时，可以通过调整队列大小和令牌放入速率对令牌桶限速队列的限流效果进行调整；

自适应模块：深度学习训练平台设置一个自适应模块，该模块可以基于当前系统的状态和时段，自动调整令牌桶限速队列的队列大小和令牌放入速率。该模块可以分为两个子模块：预测模块和训练模块。训练模块将系统实时提供的数据更新到训练集样本，然后通过神经网络训练计算出网络参数，并将网络参数抽象成模型推送到预测模块；预测模块则是根据系统当前状态(比如系统负荷和当前在线用户数)和时段通过网络模型参数预测出一个结果，即令牌桶限速队列参数，通过该结果去调节令牌桶限速队列的承载能力(即，队列大小和令牌放入速率)；

运行模块：深度学习训练平台设置一个运行模块，解析拿到令牌的训练任务配置任务参数，构建训练对象，并将该对象下发到系统服务，开始进行深度训练任务的训练。

在本发明一些实施例中，具体实施过程如下：

其中，任务提交过程包括：

根据步骤S300，根据用户训练需求，配置训练任务的任务参数：

用户输入自己深度学习任务的任务参数，例如迭代次数，训练框架、批数目、cpu/gpu使用数等；

将这些任务参数组装成一个抽象数据结构，训练任务以及抽象数据结构发送到限速模块。

根据步骤S400，深度学习平台启动一个限速模块用来接收和处理来自步骤S300的训练任务：

判断限速队列中是否还有剩余空间将任务放入。如果有空间，则将训练任务放到令牌桶限速队列中；如果队列没有可用剩余空间，则通知用户请求成功，本次请求结束。

还包括步骤：接收通知信息发送信号，以及执行请求拒绝操作。

再者，令牌桶限速队列自适应调整过程，图3示出的是根据本发明的限速队列提交训练任务的方法的实施例的令牌桶限速队列的调整流程示意图，自适应调整过程如图3所示：

根据步骤S100，通过系统信息中的负载状态信息预测令牌桶限速队列参数。

将这些信息抽象化成数据输入到已经训练好的神经网络预测模型中，通过预测计算得到输出信息：队列长度和令牌放入速率。

步骤1.1：深度学习训练平台监控系统信息中的负载状态信息，获取负载状态信息的相关参数：当前用户在线数、系统负载和时段信息。

步骤1.2：将这些信息抽象化成数据输入到已经训练好的神经网络预测模型中。

步骤1.3：通过神经网络预测模型，获取输出数据：队列长度和令牌放入速率。

根据步骤S200，将计算出的队列长度和令牌放入速率参数更新到平台限速模块的限速队列中，调整限速队列的承载能力。

根据本发明的限速队列提交训练任务的方法的一些实施方式，根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务还包括：

判断是否可以获取令牌；

在本发明的一些实施例中，尝试将最早一个进入队列的训练任务弹出队列，弹出条件为是否可以从令牌桶中获取令牌，如果令牌桶中有令牌，则深度学习平台启动一个运行模块，用来解析从队列中弹出的训练任务，并将任务下发底层服务，同时发送信号给系统信息接收系统。如果令牌桶中没有令牌则因为获取不到令牌，训练任务弹出操作取消，并将训练任务放到令牌桶限速队列中。

根据本发明的限速队列提交训练任务的方法的一些实施方式，方法还包括：

根据信号发送训练任务的请求成功信息。

在本发明的一些实施例中，深度学习平台启动一个运行模块，用来解析从队列中弹出的训练任务，并将任务下发底层服务，同时发送信号给系统信息接收系统。

在本发明的一些实施例中，如果是从判断限速队列中是否还有剩余空间将任务放入步骤中传过来的信号，则根据训练任务的任务参数，组装通知信息，并将该信息以邮件的形式通知用户“由于系统负荷过大，取消本次请求”，并释放内存，删除该训练任务请求，本次请求结束。

根据本发明的限速队列提交训练任务的方法的一些实施方式，根据令牌桶限速队列参数调整令牌桶限速队列的承载能力还包括：

在本发明的一些实施例中，设置一定的时间间隔，每隔一段时间更新一次，动态调整令牌桶限速队列承载能力。在最大限度不影响系统性能的前提下，降低用户请求的拒绝数目。

配置预设时间段，并根据预设时间段收集样本信息；根据样本信息更新神经网络预测模型的样本集，以及根据更新的样本集重新训练并更新神经网络预测模型。

在本发明的一些实施例中，设置固定时间，例如在一些实施例中，凌晨1点，通过最近一天的信息收集，更新训练模型样本集，进行神经网络模型重新训练，并保存新的模型参数，用来进行下一天的队列参数预测：

通过最近一天的信息收集，系统在不断地在不同时段进行取样操作，讲这些样本跟新到神经网络模型的训练样本集。

在每天特定的时间点，系统通过新的样本集自动进行神经网络模型训练，获取最新的神经网络预测模型。

将之前步骤所使用的神经网络模型替换为新的神经网络预测模型。

本发明实施例的另一方面，提出了一种限速队列提交训练任务的装置的实施例。图4示出的是根据本发明的限速队列提交训练任务的装置的实施例的示意性框图，如图4所示，该装置101包括：

预测模块11，预测模块11配置为监控负载状态信息，根据负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；

调整模块12，调整模块12配置为根据令牌桶限速队列参数调整令牌桶限速队列的承载能力；

剩余空间判断模块13，剩余空间判断模块13配置为配置训练任务的任务参数，根据任务参数和承载能力判断令牌桶限速队列中是否有充足的剩余空间以放置训练任务；

进入队列模块14，进入队列模块14配置为响应于判断令牌桶限速队列中有充足的剩余空间以放置训练任务，将训练任务发送至令牌桶限速队列中；

提交模块15，提交模块15配置为根据承载能力依据训练任务进入令牌桶限速队列的时间先后顺序依次提交训练任务。

根据本发明的限速队列提交训练任务的装置的一些实施方式，提交模块15还配置为：

判断是否可以获取令牌；

根据本发明的限速队列提交训练任务的装置的一些实施方式，装置101还包括：

同样地，本领域技术人员应当理解，以上针对根据本发明的限速队列提交训练任务的方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的装置。为了本公开的简洁起见，在此不再重复阐述。

需要特别指出的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，限速队列提交训练任务的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种限速队列提交训练任务的方法，其特征在于，所述方法包括：

监控负载状态信息，根据所述负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；

根据所述令牌桶限速队列参数调整令牌桶限速队列的承载能力；

配置训练任务的任务参数，根据所述任务参数和所述承载能力判断所述令牌桶限速队列中是否有充足的剩余空间以放置所述训练任务；

响应于判断所述令牌桶限速队列中有充足的所述剩余空间以放置所述训练任务，将所述训练任务发送至所述令牌桶限速队列中；

根据所述承载能力依据所述训练任务进入所述令牌桶限速队列的时间先后顺序依次提交所述训练任务。

2.根据权利要求1所述的限速队列提交训练任务的方法，其特征在于，所述根据所述承载能力依据所述训练任务进入所述令牌桶限速队列的时间先后顺序依次提交所述训练任务还包括：

判断是否可以获取令牌；

响应于获取到所述令牌，依据所述训练任务进入所述令牌桶限速队列的时间先后顺序依次提交所述训练任务。

3.根据权利要求1所述的限速队列提交训练任务的方法，其特征在于，所述方法还包括：

解析从所述令牌桶限速队列中提交的所述训练任务，将所述训练任务发送至底层服务，并发送信号；

根据所述信号发送所述训练任务的请求成功信息。

4.根据权利要求1所述的限速队列提交训练任务的方法，其特征在于，所述方法还包括：

响应于根据所述任务参数和所述承载能力判断所述令牌桶限速队列中没有充足的剩余空间以放置所述训练任务，发送所述训练任务的请求取消信息并删除所述训练任务的请求。

5.根据权利要求1所述的限速队列提交训练任务的方法，其特征在于，所述根据所述令牌桶限速队列参数调整令牌桶限速队列的承载能力还包括：

配置时间间隔，根据所述时间间隔调整所述令牌桶限速队列的承载能力。

6.根据权利要求1所述的限速队列提交训练任务的方法，其特征在于，所述方法还包括：

配置预设时间段，并根据所述预设时间段收集样本信息；

根据所述样本信息更新所述神经网络预测模型的样本集，以及根据更新的所述样本集重新训练并更新所述神经网络预测模型。

7.一种限速队列提交训练任务的装置，其特征在于，所述装置包括：

预测模块，所述预测模块配置为监控负载状态信息，根据所述负载状态信息通过训练好的神经网络预测模型预测令牌桶限速队列参数；

调整模块，所述调整模块配置为根据所述令牌桶限速队列参数调整令牌桶限速队列的承载能力；

剩余空间判断模块，所述剩余空间判断模块配置为配置训练任务的任务参数，根据所述任务参数和所述承载能力判断所述令牌桶限速队列中是否有充足的剩余空间以放置所述训练任务；

进入队列模块，所述进入队列模块配置为响应于判断所述令牌桶限速队列中有充足的所述剩余空间以放置所述训练任务，将所述训练任务发送至所述令牌桶限速队列中；

提交模块，所述提交模块配置为根据所述承载能力依据所述训练任务进入所述令牌桶限速队列的时间先后顺序依次提交所述训练任务。

8.根据权利要求7所述的限速队列提交训练任务的装置，其特征在于，所述提交模块还配置为：

判断是否可以获取令牌；

9.根据权利要求7所述的限速队列提交训练任务的装置，其特征在于，所述装置还包括：

提交通知模块，所述提交通知模块配置为解析从所述令牌桶限速队列中提交的所述训练任务，将所述训练任务发送至底层服务，并发送信号；根据所述信号发送所述训练任务的请求成功信息。

10.根据权利要求7所述的限速队列提交训练任务的装置，其特征在于，所述装置还包括：

模型更新模块，所述模型更新模块配置为配置预设时间段，并根据所述预设时间段收集样本信息；根据所述样本信息更新所述神经网络预测模型的样本集，以及根据更新的所述样本集重新训练并更新所述神经网络预测模型。