CN113496286A

CN113496286A - 模型训练控制方法和设备

Info

Publication number: CN113496286A
Application number: CN202010193376.4A
Authority: CN
Inventors: 姚沛; 彭剑峰
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2021-10-12

Abstract

本申请提供了模型训练控制方法和设备。本申请中，当在模型训练过程中检测到管理控制指令，则暂停当前的模型训练，并优先响应管理控制指令以临时执行更高级别的管理控制操作(对应管理控制指令)，在执行完更高级别的管理控制操作后，再继续恢复模型训练，实现了灵活控制模型训练的目的。

Description

模型训练控制方法和设备

技术领域

本申请涉及计算机技术，特别涉及模型训练控制方法和设备。

背景技术

在建模应用中，常采用机器学习、统计学等方法并依据训练数据集合进行模型训练。目前的模型训练过程都是连续不间断的，不能根据实际需求对整个模型训练进行管理控制。比如，不能在模型训练过程实现临时暂停模型训练、临时测试模型等。

发明内容

本申请提供了模型训练控制方法和设备，以实现模型训练的管理控制。

本申请提供的方法包括：

一种模型训练控制方法，该方法应用于训练设备，包括：

在模型训练过程中，当检测到管理控制指令时，所述管理控制指令用于指示对模型训练进行管理控制，则暂停当前的模型训练，并执行与所述管理控制指令对应的管理控制操作，在执行完所述管理控制指令对应的管理控制操作时，恢复模型训练。

在一个例子中，检测到管理控制指令之前，进一步包括：在确定当前满足预设的模型训练管理控制条件时，检测管理控制指令。

在一个例子中，所述确定当前满足预设的模型训练管理控制条件包括：

在当前完成一次训练时，确定当前满足预设的模型训练管理控制条件；

其中，所述一次训练是指：使用一个训练子集合完成的模型训练，所述训练子集合是通过将训练数据集合进行划分得到的其中一个子集合。

在一个例子中，该方法进一步包括：在模型训练过程中，若接收到管理控制指令，则将接收到的管理控制指令存储至指定存储介质；

所述检测管理控制指令包括：检测所述指定存储介质是否已存储管理控制指令，如果是，确定检测到管理控制指令，否则，确定未检测到管理控制指令；

在执行完所述管理控制指令对应的管理操作操作时，该方法进一步包括：从所述指定存储介质删除所述管理控制指令。

在一个例子中，所述管理控制指令用于指示对已训练出的模型进行模型测试；

所述执行与所述管理控制指令对应的管理控制操作包括：利用测试样本对已训练出的模型进行模型测试。

在一个例子中，所述管理控制指令是由训练管理平台在检测到管理配置页面上的管理控制组件被触发时生成并发送至所述训练设备的，所述管理配置页面用于显示模型训练的状态信息。

一种模型训练控制装置，该装置包括：

检测单元，用于在模型训练过程中检测管理控制指令，所述管理控制指令用于指示对模型训练进行管理控制；

控制单元，用于在所述检测单元检测到管理控制指令时，暂停当前的模型训练，并执行与所述管理控制指令对应的管理控制操作，在执行完所述管理控制指令对应的管理控制操作时，恢复模型训练。

在一个例子中，所述检测单元在确定当前满足预设的模型训练管理控制条件时，检测管理控制指令。

在一个例子中，检测单元在当前完成一次训练时，确定当前满足预设的模型训练管理控制条件；其中，所述一次训练是指：使用一个训练子集合完成的模型训练，所述训练子集合是通过将训练数据集合进行划分得到的其中一个子集合。

一种电子设备，该电子设备包括：处理器和机器可读存储介质；

所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；

所述处理器用于执行机器可执行指令，以实现上述公开的方法步骤。

由以上技术方案可以看出，本申请中，当在模型训练过程中检测到管理控制指令，则暂停当前的模型训练，并优先响应管理控制指令以临时执行更高级别的管理控制操作(对应管理控制指令)，在执行完更高级别的管理控制操作后，再继续恢复模型训练，实现了灵活控制模型训练的目的。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的方法流程图；

图2为本申请实施例提供的步骤101的实现流程图；

图3为本申请实施例提供的组网结构图；

图4为本申请实施例提供的装置结构图；

图5为本申请实施例提供的装置硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

在目前的深度学习模型中，常聚焦在深度学习的网络故障诊断、通过相关策略自动优化模型训练，降低模型训练次数等，但均不涉及如何主动管控深度学习模型的训练过程，比如在模型训练过程中临时暂停模型训练、临时测试模型等。

为了实现根据实际需求对深度学习模型训练进行管理控制，本申请提供了如图1所示的方法：

参见图1，图1为本申请实施例提供的方法流程图。作为一个实施例，图1所示的方法应用于训练设备。在一个例子中，这里的训练设备可为服务器或者其它被指定的用于执行图1所示流程的电子设备，本申请并不具体限定。

如图1所示，该流程可包括以下步骤：

步骤101，在模型训练过程中，当检测到管理控制指令时，则执行下文的步骤102。

在一个例子中，当用户根据实际需求需要对当前正在进行的模型训练进行管理控制时，其会登录至训练管理平台。这里的训练管理平台可为用于管理上述训练设备的平台。在用户成功登录至训练管理平台后，用户会访问训练管理平台上的管理配置页面。这里的管理配置页面用于显示模型训练的状态信息(比如截至当前已完成模型训练的次数等)。之后，用户会触发(比如点击)管理配置页面上的管理控制组件(比如管理控制按键，其可与用户待进行的管理控制对应)。当训练管理平台检测到用户触发(比如点击)管理配置页面上的管理控制组件(比如管理控制按键，其与用户待进行的管理控制对应)，则会根据预先配置的该管理控制组件对应的功能生成对应的管理控制指令并发送至上述训练设备。

基于此，作为一个实施例，上述管理控制指令是由训练管理平台在检测到管理配置页面上的管理控制组件被触发时生成并发送至上述训练设备的。当训练设备接收(也即检测到)管理控制命令，如步骤101描述，其会直接执行下述的步骤102。

步骤102，暂停当前的模型训练，并执行与所述管理控制指令对应的管理控制操作，在执行完所述管理控制指令对应的管理控制操作时，恢复模型训练。

在本实施例中，管理控制指令是用于指示对模型训练进行管理控制的指令，其优先级高于模型训练。因此，如步骤101至步骤102所述，当在模型训练过程中检测到管理控制指令，则会优先执行管理控制指令(即：暂停当前的模型训练，并执行与管理控制指令对应的管理控制操作)。当执行完所述管理控制指令对应的管理控制操作时，恢复模型训练(即继续进行模型训练)。

至此，完成图1所示流程。

通过图1所示流程可以看出，当在模型训练过程中检测到管理控制指令，则暂停当前的模型训练，并优先响应管理控制指令以临时执行更高级别的管理控制操作(对应管理控制指令)，在执行完更高级别的管理控制操作后，再继续恢复模型训练，实现了灵活控制模型训练的目的。

需要说明的是，在上述步骤101中检测到管理控制指令之前，可进一步包括：在确定当前满足预设的模型训练管理控制条件时，检测管理控制指令。

也就是说，在本实施例中，检测管理控制指令的时机并非为模型训练的任何时间点，而是指模型训练过程中满足预设的模型训练管理控制条件的时间点。

为保证模型训练的完整性，作为一个实施例，模型训练过程中满足预设的模型训练管理控制条件的时间点可为：完成一次训练的时间点(也即每一次训练结束的时间点)。在一个例子中，所谓一次训练是指：使用一个训练子集合完成的模型训练。其中，训练子集合是通过将训练数据集合进行划分得到的其中一个子集合。当使用一个训练子集合完成模型的训练，则意味着完成一次训练。需要说明的是，上述的将训练数据集合进行划分有很多方式，比如按照设定的划分策略将整个训练数据集合划分多个不同的训练子集合(也称训练数据子集合)。不同的训练子集合包含的训练数据不完全相同。

基于上面描述，上述确定当前满足预设的模型训练管理控制条件可包括：在当前完成一次训练时，确定当前满足预设的模型训练管理控制条件。

如上描述，训练设备在当前满足预设的模型训练管理控制条件时，才会检测管理控制指令。这就会存在一个以下问题：在当前未满足预设的模型训练管理控制条件时，有可能接收到管理控制指令，或者，在当前满足预设的模型训练管理控制条件时，未接收到管理控制指令。为防止上述问题，也为保证所有的管理控制指令都被响应，则作为一个实施例，可在模型训练过程中，当接收到管理控制指令时，暂时先将接收到的管理控制指令存储至指定存储介质。这里的指定存储介质可为内存，或者其它介质。

之后，在当前满足预设的模型训练管理控制条件时，检测指定存储介质是否已存储管理控制指令，如果是，确定检测到管理控制指令，如果否，确定未检测到管理控制指令。

需要说明的是，为了保证指定存储介质始终都存储未被执行的管理控制指令，避免已被执行的管理控制指令被重复执行，则作为一个实施例，可在上述步骤102执行完管理控制指令对应的管理操作操作时，进一步包括：从指定存储介质删除管理控制指令。通过该操作，则能保证指定存储介质始终都存储未被执行的管理控制指令，避免已被执行的管理控制指令被重复执行。

基于图1所示流程并结合上面描述，下面通过一个实施例进行描述：

参见图2，图2为本申请提供的实施例流程图。如图2所示，该流程可包括以下步骤：

步骤201，在模型训练过程中，当接收到管理控制指令时，将接收到的管理控制指令存储至指定存储介质。

步骤202，在当前满足预设的模型训练管理控制条件时，检测指定存储介质是否已存储管理控制指令，如果是，执行步骤203，如果否，继续模型训练。

这里，当前满足预设的模型训练管理控制条件如上描述，这里不再赘述。

步骤203，暂停当前的模型训练，并执行与所述管理控制指令对应的管理控制操作，在执行完所述管理控制指令对应的管理控制操作时，从所述指定存储介质删除所述管理控制指令，并恢复模型训练。

本步骤203是在检测到指定存储介质已存储管理控制指令的前提下执行的。在一个例子中，由于管理控制指令一般不会频繁发送，指定存储介质虽然已存储管理控制指令，但存储的管理控制指令的数量不会多，一般为1个。

当然，在一些特殊情况下，若此时指定存储介质已存储2个以上管理控制指令，则在一个例子中，可以在执行完一个管理控制指令后，恢复模型训练。在另一个例子中，也可在执行完所有管理控制指令后，恢复模型训练。本实施例并不具体限定。

至此，完成图2所示流程。

通过图2所示流程实现了模型训练控制的具体流程。需要说明的是，图2所示流程只是为便于理解而举例描述的一种模型训练控制实现方式，并非用于限定。

如上描述，管理控制指令用于指示对模型训练进行管理控制，下面通过一个实施例举例描述管理控制指令：

参见图3，图3为本申请实施例提供的应用组网图。在图3中，用户向训练管理平台发送训练请求，训练管理平台基于训练请求调度N个训练设备执行训练请求对应的模型训练。N大于等于1。这里，训练管理平台可基于负载均衡算法调度负载量最小、且满足训练请求的N个训练设备。至此，N个训练设备开启执行模型训练。这里训练设备执行模型训练的方式类似现有模型训练方式，不再赘述。

在N个训练设备执行模型训练过程中，假若根据时机需求需要对当前正在进行的模型训练进行管理控制，则用户会登录至训练管理平台，在完成登录后用户会访问训练管理平台上的管理配置页面。这里的管理配置页面用于显示模型训练的状态信息(比如截至当前已完成模型训练的次数等)。之后，用户会触发(比如点击)管理配置页面上与用户待进行的管理控制对应的管理控制组件(比如管理控制按键)。当训练管理平台检测到用户触发(比如点击)管理配置页面上与用户待进行的管理控制对应的管理控制组件(比如管理控制按键)，则会根据预先配置的该管理控制组件对应的功能生成对应的管理控制指令并发送至上述N个训练设备。

针对每一训练设备，当接收到管理控制指令，则暂时将接收到的管理控制指令存储至对应的指定存储介质。之后，在当前完成一次训练时，检查指定存储介质是否已存储管理控制指令。当检查出指定存储介质已存储管理控制指令，则：

在一个例子中，假若管理控制指令用于指示暂停模型训练，则训练设备按照管理控制指令暂停模型训练一段时长T0(T0携带在管理控制指令中)。当模型训练暂停时长T0后，则训练设备继续恢复模型训练。

在一个例子中，假若管理控制指令用于指示对已训练出的模型进行模型测试。则训练设备暂停模型训练，并基于管理控制指令，利用测试样本对已训练出的模型进行模型测试。当完成模型测试后，训练设备继续恢复模型训练。

以上分别以管理控制指令指示暂停模型训练和指示对已训练出的模型进行模型测试为例进行了描述。需要说明的是，这里只是以管理控制指令指示暂停模型训练、指示对已训练出的模型进行模型测试为例，并非用于限定，管理控制指令还可指示其它管理控制信息，这里不再一一举例。

下面说一个特殊情况，在暂停模型训练后，也可能存在需要及时恢复模型训练的需求。针对此种情况，用户可直接触发(比如点击)管理配置页面上与用户待进行的管理控制(恢复模型训练)对应的管理控制组件(比如管理控制按键)。当训练管理平台检测到用户触发(比如点击)管理配置页面上与用户待进行的管理控制(恢复模型训练)对应的管理控制组件(比如管理控制按键)，则会根据预先配置的该管理控制组件对应的功能生成对应的管理控制指令(用于指示恢复模型训练)并发送至上述N个训练设备。当训练设备接收到用于指示恢复模型训练的管理控制指令时，因为此时训练设备未进行模型训练，其可直接按照用于指示恢复模型训练的管理控制指令恢复模型训练。

至此，完成本申请实施例的描述。

以上对本申请提供的方法进行了描述，下面对本申请提供的装置进行描述：

参见图4，图4为本申请实施例提供的装置结构图。如图4所示，该装置包括：

作为一个实施例，所述检测单元在确定当前满足预设的模型训练管理控制条件时，检查是否已接收到管理控制指令，如果是，确定检测到管理控制指令。

作为一个实施例，所述检测单元在当前完成一次训练时，确定当前满足预设的模型训练管理控制条件。其中，所述一次训练是指：使用一个训练子集合完成的模型训练，所述训练子集合是通过将训练数据集合进行划分得到的其中一个子集合。

作为一个实施例，检测单元进一步用于在模型训练过程中，若接收到管理控制指令，则将接收到的管理控制指令存储至指定存储介质。

基于此，检测单元检查是否已接收到管理控制指令包括：检查所述指定存储介质是否已存储管理控制指令，如果是，确定已接收到管理控制指令，否则，确定未接收到管理控制指令。

作为一个实施例，控制单元进一步在执行完所述管理控制指令对应的管理操作操作时，从指定存储介质删除所述管理控制指令。

作为一个实施例，所述管理控制指令用于指示对已训练出的模型进行模型测试；

基于此，所述控制所述执行与所述管理控制指令对应的管理控制操作包括：利用测试样本对已训练出的模型进行模型测试。

作为一个实施例，管理控制指令是由训练管理平台在检测到管理配置页面上的管理控制组件被触发时生成并发送至所述训练设备的，所述管理配置页面用于显示模型训练的状态信息。

至此，完成本申请提供的装置结构图。

对应地，本申请还提供了图5所示装置的硬件结构。参见图5，该硬件结构可包括：处理器和机器可读存储介质，机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现本申请上述示例公开的方法。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本申请上述示例公开的方法。

示例性的，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种模型训练控制方法，其特征在于，该方法应用于训练设备，包括：

2.根据权利要求1所述的方法，其特征在于，所述检测到管理控制指令之前，进一步包括：在确定当前满足预设的模型训练管理控制条件时，检测管理控制指令。

3.根据权利要求2所述的方法，其特征在于，所述确定当前满足预设的模型训练管理控制条件包括：

4.根据权利要求2所述的方法，其特征在于，该方法进一步包括：在模型训练过程中，若接收到管理控制指令，则将接收到的管理控制指令存储至指定存储介质；

5.根据权利要求1所述的方法，其特征在于，所述管理控制指令用于指示对已训练出的模型进行模型测试；

6.根据权利要求1至5任一所述的方法，其特征在于，所述管理控制指令是由训练管理平台在检测到管理配置页面上的管理控制组件被触发时生成并发送至所述训练设备的，所述管理配置页面用于显示模型训练的状态信息。

7.一种模型训练控制装置，其特征在于，该装置包括：

8.根据权利要求7所述的装置，其特征在于，所述检测单元在确定当前满足预设的模型训练管理控制条件时，检测管理控制指令。

9.根据权利要求8所述的装置，其特征在于，所述检测单元在当前完成一次训练时，确定当前满足预设的模型训练管理控制条件；其中，所述一次训练是指：使用一个训练子集合完成的模型训练，所述训练子集合是通过将训练数据集合进行划分得到的其中一个子集合。

10.一种电子设备，其特征在于，该电子设备包括：处理器和机器可读存储介质；

所述处理器用于执行机器可执行指令，以实现权利要求1-6任一项的方法步骤。