CN113392984A

CN113392984A - 用于训练模型的方法、装置、设备、介质和产品

Info

Publication number: CN113392984A
Application number: CN202110726805.4A
Authority: CN
Inventors: 刘吉; 吴志华; 董大祥; 王曦; 巩伟宝; 于佃海; 李兴建; 杨亚鑫; 窦德景
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-14
Anticipated expiration: 2041-06-29
Also published as: CN113392984B

Abstract

本公开提供了用于训练模型的方法、装置、设备、介质和产品，涉及计算机技术领域，尤其涉及人工智能技术，可应用于深度学习中的模型压缩场景。具体实现方案为：获取待训练学生模型集合；对于待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型；向各个教师模型发送训练数据，并接收各个教师模型基于训练数据返回的软标签集合；基于软标签集合，对待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。本实现方式可以提高模型训练效果。

Description

用于训练模型的方法、装置、设备、介质和产品

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术，可应用于深度学习中的模型压缩场景。

背景技术

目前，深度神经网络已被广泛应用至计算机视觉、自然语言处理等技术领域。由于深度神经网络需要的计算复杂度高，因而对于内存需求大，从而导致深度神经网络难以应用在小型设备上。

现在通常采用模型压缩技术，基于将教师模型压缩为学生模型，来降低深度神经网络模型的计算复杂度。但是，在模型压缩的模型训练过程中，往往需要预先设定进行模型训练的固定资源，如果固定资源的设定不合理，则会导致模型训练效果较差的问题。

发明内容

本公开提供了一种用于训练模型的方法、装置、设备、介质和产品。

根据本公开的一方面，提供了一种用于训练模型的方法，包括：获取待训练学生模型集合；对于待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型；向各个教师模型发送训练数据，并接收各个教师模型基于训练数据返回的软标签集合；基于软标签集合，对待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。

根据本公开的另一方面，提供了一种用于训练模型的装置，包括：学生获取单元，被配置成获取待训练学生模型集合；教师确定单元，被配置成对于待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型；软标签确定单元，被配置成向各个教师模型发送训练数据，并接收各个教师模型基于训练数据返回的软标签集合；模型训练单元，被配置成基于软标签集合，对待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。

根据本公开的另一方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项用于训练模型的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上任意一项用于训练模型的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上任意一项用于训练模型的方法。

根据本公开的技术，提供一种用于训练模型的方法，能够提高模型训练效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于训练模型的方法的一个实施例的流程图；

图3是根据本公开的用于训练模型的方法的一个应用场景的示意图；

图4是根据本公开的用于训练模型的方法的另一个实施例的流程图；

图5是根据本公开的用于训练模型的装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的用于训练模型的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

如图1所示，系统架构100可以包括学生服务器101、协调服务器102和教师服务器103。其中，学生服务器101用于对待训练学生模型进行训练，协调服务器102用于确定待训练学生模型对应的教师模型，并和该教师模型对应的教师服务器103进行数据传输，以使教师服务器103生成用于待训练学生模型进行模型训练的软标签。学生服务器101可以获取教师服务器103所生成的软标签，对待训练学生模型进行训练，得到训练完成的学生模型。

其中，教师服务器103还可以生成用于缓存训练数据和软标签的服务，提供学生服务器101和协调服务器102、教师服务器103之间进行通信的接口，设于学生服务器101中。学生服务器101可以基于该服务，将待训练学生模型对应的训练数据和硬标签，缓存在该服务中。该服务还可以调用协调服务器102，确定学生服务器101对应的教师服务器103。再将缓存中的训练数据发送给教师服务器103，并接收教师服务器103基于训练数据输出的软标签。之后，学生服务器101可以基于软标签和硬标签，对待训练学生模型进行训练，得到训练完成的学生模型。

需要说明的是，学生服务器101、协调服务器102和教师服务器103可以是硬件，也可以是软件。当学生服务器101、协调服务器102和教师服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当学生服务器101、协调服务器102和教师服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的用于训练模型的方法可以由学生服务器101执行，也可以由协调服务器102执行，本实施例对此不做限定。相应地，用于训练模型的装置可以设置于学生服务器101中，也可以设置于协调服务器102中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的用于训练模型的方法的一个实施例的流程200。本实施例的用于训练模型的方法，包括以下步骤：

步骤201，获取待训练学生模型集合。

在本实施例中，执行主体(如图1中的学生服务器101或协调服务器102)可以从本地获取需要进行模型训练的待训练学生模型，也可以从预先建立连接的其他电子设备中获取需要进行模型训练的待训练学生模型，基于多个待训练学生模型，构成待训练学生模型集合。执行主体可以基于知识蒸馏技术，将较为复杂的模型压缩为较为简单且运算量较少的模型。这里的较为复杂的模型即为教师模型，较为简单且运算量较少的模型即为学生模型。在模型压缩的过程中，执行主体可以先获取需要进行训练的各个待训练学生模型，得到待训练学生模型集合。

步骤202，对于待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型。

在本实施例中，执行主体可以采用预设的调度算法，确定每个待训练学生模型需要调度给的教师模型。其中，与每个待训练学生模型对应的教师模型用于将其学习到的有效信息提取出来，迁移到相应的待训练学生模型中，以使待训练学生模型能够用较为简单的结构，掌握教师模型中最优的有效信息。每个待训练学生模型对应的教师模型的数量可以为一个、也可以为两个及两个以上，本实施例对此不做限定。在采用预设的调度算法确定每个待训练学生模型对应的教师模型时，可以先确定每个待训练学生模型需要调度给的教师模型的模型数量，再按照模型数量选取相应的教师模型，作为与该待训练学生模型对应的教师模型。其中，可以预设有多个教师模型，这些教师模型基于多个动态计算资源组成。动态计算资源指的是可以动态调整的计算单元，如可以动态调整的图形处理器(graphicsprocessing unit，GPU)或中央处理器(central processing unit，CPU)。每个计算单元可以向协调服务器发送心跳消息，用于协调服务器确定各个计算单元的计算状态。在协调服务器每次接收到计算单元传输的心跳消息之后，协调服务器可以更新本地的该计算单元的生存时间，将该计算单元的生存时间进行延长，从而实现基于生存时间确定各个计算单元的有效性。例如，生存时间到期的计算单元说明已经在一段时间内没有接收到其传输的心跳消息，由于心跳消息反映计算单元的计算状态，因而未接收到心跳消息说明该计算单元处于不可用的状态，也即是无效的状态，此时不会将该计算单元对应的教师模型作为待训练学生模型对应的教师模型。

在本实施例的一些可选的实现方式中，对于待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型可以包括：获取各个教师模型的各个计算单元的生存时间；基于生存时间确定处于可用状态的教师模型；对于每个待训练学生模型，从可用状态的教师模型中选取与该待训练学生模型相对应的教师模型。这一过程能够提高确定出的教师模型的可用性。进一步可选的，对于每个待训练学生模型，从可用状态的教师模型中选取与该待训练学生模型相对应的教师模型可以包括：对于每个待训练学生模型，从可用状态的教师模型中选取未被其他待训练学生模型正在调度的教师模型，作为该待训练学生模型对应的教师模型。这一过程能够自动选取未被其他待训练学生模型正在调度的教师模型作为当前的待训练学生模型对应的教师模型，能够进一步确保所调度的教师模型可用性。

步骤203，向各个教师模型发送训练数据，并接收各个教师模型基于训练数据返回的软标签集合。

在本实施例中，执行主体可以将待训练学生模型传输的训练数据发送给相应的各个教师模型，教师模型会根据训练数据生成相应的软标签，并将软标签传输给执行主体。执行主体可以进一步接收各个教师模型基于训练数据返回的软标签集合。其中，软标签指的是将训练数据输入教师模型，得到的教师模型的输出数据。其中，输出数据即为软标签。对于每个待训练学习模型而言，该待训练学习模型会向该待训练学习模型对应的教师模型发送训练数据，并且该待训练学习模型还会将训练数据作为自身的输入数据，得到该待训练学习模型输出的硬标签。对于待训练学习模型的模型训练目的是使得待训练学习模型基于训练数据输出的硬标签与教师模型基于训练数据输出的软标签之间的差异性最小化。

步骤204，基于软标签集合，对待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。

在本实施例中，执行主体可以基于软标签集合中的软标签和各个待训练学生模型自身基于训练数据输出的硬标签，确定软标签与硬标签之间的差异信息，基于差异信息调整各个待训练学生模型的模型参数，直至模型收敛，得到各个训练完成的学生模型。其中，各个训练完成的学生模型可以并行同步训练得到，也可以异步训练得到，本实施例对此不做限定。

在本实施例的一些可选的实现方式中，基于软标签集合，对待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型，包括：基于预设的同步更新算法和软标签集合，对待训练学生模型集合中各个待训练学生模型进行并行训练，得到各个训练完成的学生模型。

在本实现方式中，预设的同步更新算法可以采用ring allReduce算法(一种GPU多卡计算的通信优化算法)，也可以采用其他现有技术中的同步更新算法，本实施例对此不做限定。通过采用预设的同步更新算法对各个待训练学生模型进行并行训练，能够提高模型训练效率。

继续参见图3，其示出了根据本公开的用于训练模型的方法的一个应用场景的示意图。在图3的应用场景中，执行主体可以先获取需要进行模型训练的学生模型集合301，学生模型集合301中可以包括需要进行训练的多个学生模型。之后，执行主体可以基于调度算法，确定每个需要进行训练的学生模型需要调度给的教师模型，得到学生模型集合301中各个学生模型需要调度给的教师模型集合302。之后，执行主体可以将学生模型集合301中各个学生模型对应的训练数据，输入教师模型集合302中相应的教师模型，得到教师模型输出的软标签集合303。之后，执行主体可以基于软标签集合303中各个软标签对学生模型集合301中的各个学生模型进行训练，得到训练完成的各个学生模型。

本公开上述实施例提供的用于训练模型的方法，能够自动确定每个待训练学生模型对应的教师模型，并向各个教师模型发送相应的训练数据，基于各个教师模型返回的软标签集合对各个待训练学生模型进行模型训练，实现了教师模型的弹性调度，进一步实现了教师资源的合理使用，能够避免教师资源调度不合理导致的待训练学生模型的训练等待时间较长或者待训练学生模型内存占用严重的问题，从而能够提高模型训练效果。

继续参见图4，其示出了根据本公开的用于训练模型的方法的另一个实施例的流程400。如图4所示，本实施例的用于训练模型的方法可以包括以下步骤：

步骤401，获取待训练学生模型集合。

在本实施例中，对于步骤401的详细描述请参照对于步骤201的详细描述，在此不再赘述。

步骤402，对于待训练学生模型集合中的每个待训练学生模型，确定该待训练学生模型的模型性能信息。

在本实施例中，模型性能信息用于描述待训练学生模型的数据处理能力，例如模型性能信息可以为处理给定资源所需要的的耗费时长等用于评估数据处理能力的指标。可选的，执行主体可以预先设置用于评估模型的数据处理能力的给定资源，再将给定资源输入待训练学生模型，统计待训练学生模型对于给定资源的处理时长。

步骤403，基于模型性能信息，确定模型数量。

在本实施例中，执行主体还可以将预先设置用于评估模型的数据处理能力的给定资源输入教师模型，得到教师模型对应的处理时长。基于待训练学生模型对于给定资源的处理时长和教师模型对于给定资源的处理时长的比值，确定待训练学生模型需要调度给的教师模型的数量，也即是，模型数量。

步骤404，从预设的教师模型集合中确定模型数量个教师模型，作为该待训练学生模型对应的教师模型。

在本实施例中，执行主体还可以预设有教师模型集合，在每次确定待训练学生模型对应的教师模型时，即从教师模型集合中确定与待训练学生模型对应的教师模型。

在本实施例的一些可选的实现方式中，从预设的教师模型集合中确定模型数量个教师模型，作为该待训练学生模型对应的教师模型，包括：对于预设的教师模型集合中的每个教师模型，响应于确定该教师模型不满足预设的停用条件，将该教师模型确定为候选模型；从各个候选模型中确定模型数量个教师模型，作为该待训练学生模型对应的教师模型。

在本实现方式中，执行主体可以采用预设的教师容错策略实现教师资源的容错。具体的，执行主体可以预先设置停用条件，在教师模型满足停用条件时，标记教师模型的状态为停用状态。如上述的教师模型对应的计算单元的生存时间已过期，此时可以将教师模型的状态标记为停用状态。在确定待训练学生模型对应的教师模型时，可以从不处于停用状态的教师模型中选取，并且选取上述模型数量个教师模型作为待训练学生模型对应的教师模型。

在本实施例的另一些可选的实现方式中，预设的停用条件包括：该教师模型调度给待训练学生模型的时机不满足预设的时机条件；或者，该教师模型调度给的待训练学生模型未向该教师模型发送训练数据；或者，该教师模型调度给的待训练学生模型未等待该教师模型返回的软标签；或者，该教师模型调度给的待训练学生模型处于等待软标签的状态。

在本实现方式中，如果教师模型调度给待训练学生模型的时机不是待训练学生模型需要发送训练数据的时机，则认为教师模型调度给待训练学生模型的时机不满足预设的时机条件，例如在待训练学生模型调度教师模型之前，已将该教师模型调度给该待训练学生模型，此时将该教师模型确定为满足停用条件，可以将该教师模型标记为停用模型，不接受当前的待训练学生模型的调度。又或者，教师模型被调度给某个待训练学生模型，但是该待训练学生模型未向教师模型发送训练数据，或者，该待训练学生模型未等待教师模型返回的软标签，此时的教师模型也处于异常调度状态，可以确定其满足预设的停用条件。又或者，教师模型被调度给某个待训练学生模型，并且该待训练学生模型在等待教师模型返回软标签，也即是，教师模型正在被正常调度中，此时确定其满足预设的停用条件，并且，当该教师模型返回软标签之后，可以将该教师模型恢复至正常状态，可被配置为被此时的待训练学生模型进行调度。

步骤405，对于待训练学生模型集合中的每个待训练学生模型，确定该待训练学生模型对应的训练数据以及软标签信息。

在本实施例中，对于待训练学生模型集合中的每个待训练学生模型，执行主体可以确定该待训练学生模型对应的训练数据和软标签信息。其中，训练数据用于输入待训练学生模型和教师模型，得到待训练学生模型输出的与训练数据对应的硬标签，以及教师模型输出的与训练数据对应的软标签，基于硬标签和软标签对待训练学生模型进行训练。软标签信息用于描述待训练学生模型中未使用的、教师模型传输的与训练数据对应的软标签的数量情况，具体可以包括但不限于未使用的软标签数值、未使用的软标签等级、未使用的软标签程度描述信息等，本实施例对此不做限定。

步骤406，基于软标签信息，向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据。

在本实施例中，执行主体可以基于软标签信息对应的未使用的软标签的数量情况，动态调整对该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据。如在未使用的软标签的数量较多的情况下，可以少发送训练数据，在未使用的软标签的数量较少的情况下，可以多发送训练数据等。

在本实施例的另一些可选的实现方式中，基于软标签信息，向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据，包括：响应于确定未使用软标签数量为预设的数量阈值，对该待训练学生模型对应的教师模型的数量进行扩增，得到扩增后的教师模型；数量阈值小于第二阈值；向扩增后的教师模型发送给待训练学生模型对应的训练数据。

在本实现方式中，执行主体可以在待训练学生模型中未使用软标签数量为较少的预设的数量阈值时，动态调整该待训练学生模型对应的教师模型的数量，也即是，对该待训练学生模型对应的教师模型的数量进行扩增。可选的，可以按照预设的增量对该待训练学生模型对应的教师模型的数量进行扩增。执行主体通过向扩增后的教师模型发送训练数据，能够在同样的时长内得到更多的软标签，从而在待训练学生模型可承受的范围内，通过增加相应的教师模型的数量，提高了模型训练速度。其中，预设的数量阈值可以设置为等于零或者近似等于零的阈值。

步骤407，基于软标签信息，确定该待训练学生模型的未使用软标签数量。

在本实施例中，执行主体可以通过对软标签信息进行分析，得到待训练学生模型的未使用软标签数量。

步骤408，响应于确定未使用软标签数量大于预设的第一阈值，停止向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据，直至未使用软标签数量小于预设的第二阈值；第一阈值大于第二阈值。

在本实施例中，如果未使用软标签数量大于预设的第一阈值，则说明未使用软标签数量较多，此时待训练学生模型需要缓存较多数量的软标签数量，会导致学生模型对应的内存负荷过高。此时，执行主体可以控制停止向该待训练学生模型对应的教师模型发送训练数据，用以不再接收教师模型新产生的软标签，而是消耗已有的软标签，直至未使用软标签数量降低至预设的第二阈值以下，再恢复向该待训练学生模型对应的教师模型发送训练数据。这一过程通过对待训练学生模型中未使用软标签数量进行分析，能够合理确定是否需要需要扩增对应的教师模型，以及确定是否需要暂停或者恢复对教师模型的训练数据发送过程，实现了模型训练过程中对教师模型对应的教师资源的合理调度。

步骤409，接收各个教师模型基于训练数据返回的软标签集合。

在本实施例中，对于步骤409的详细描述请参照对于步骤203的详细描述，在此不再赘述。

步骤410，对于待训练学生模型集合中的每个待训练学生模型，基于软标签集合中与该待训练学生模型对应的软标签以及该待训练学生模型对应的硬标签进行加权求和运算，得到该待训练学生模型对应的损失信息。

在本实施例中，执行主体可以基于每个待训练学生模型对应的软标签，构建软标签损失函数，以及基于每个待训练学生模型对应的硬标签，构建硬标签损失函数，再确定软标签损失函数对应的第一权重，以及确定硬标签损失函数对应的第二权重。执行主体基于第一权重与软标签损失函数的乘积以及第二权重与硬标签损失函数的乘积之和，可以确定得到最终的损失函数。再将上述的软标签和硬标签代入最终的损失函数，得到与该待训练学习模型对应的损失信息。其中，损失信息用于描述在对待训练学生模型的一轮训练中损失函数的损失值。

步骤411，基于损失信息调整该待训练学生模型的模型参数，直至该待训练学生模型收敛，得到与该待训练学生模型对应的训练完成的学生模型。

在本实施例中，执行主体可以基于损失函数调整待训练学生模型的模型参数，直至待训练模型收敛，得到各个训练完成的学生模型。

步骤412，响应于确定待训练学生模型集合中存在不可用模型或者存在新增模型，暂停对待训练学生模型集合中各个待训练学生模型进行训练，并从预设的检查点重新获取待训练学生模型集合，以及继续对重新获取的待训练学生模型集合中各个待训练学生模型进行训练。

在本实施例中，执行主体还可以预先设置针对待训练学生模型的容错策略，可以在待训练学生模型的训练过程中，在每次迭代时，存储当前时刻的待训练学生模型的副本，保存得到检查点。其中，预设的检查点用于保存上一轮迭代时待训练学生模型的副本。在对待训练学生模型进行训练的过程中，可以实时检测待训练学生模型中是否存在不可用模型或者存在新增模型。其中，不可用模型指的是待训练学生模型使用异常的模型。新增模型指的是向待训练学习模型集合中新增加的模型。如果在检测到待训练学生模型集合中存在不可用模型或者存在新增模型，则可以暂停模型训练，并从预设的检查点重新获取待训练学生模型集合，然后继续对重新获取的待训练学生模型集合中各个待训练学生模型进行训练。

本公开的上述实施例提供的用于训练模型的方法，还可以在进行教师资源调度时，先基于模型性能信息确定模型数量，再从教师模型集合中确定模型数量个教师模型，作为待训练学生模型对应的教师模型，实现教师资源的静态调度。再基于软标签信息动态调整教师模型数量以及训练数据发送时机，实现教师资源的动态调度。基于静态调度与动态调度相结合的方式调度教师资源，能够提高教师资源的调度灵活性。并且还可以结合预设的教师资源容错策略以及学生资源容错策略，进一步提升模型训练的精准度，模型训练效果更好。以及采用并行训练模型、软标签损失函数和硬标签损失函数加权求和的方式训练待训练学生模型，能够提高模型训练效率以及模型训练精准度。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种用于训练模型的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于学生服务器、协调服务器中。

如图5所示，本实施例的用于训练模型的装置500包括：学生获取单元501、教师确定单元502、软标签确定单元503和模型训练单元504。

学生获取单元501，被配置成获取待训练学生模型集合。

教师确定单元502，被配置成对于待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型。

软标签确定单元503，被配置成向各个教师模型发送训练数据，并接收各个教师模型基于训练数据返回的软标签集合。

模型训练单元504，被配置成基于软标签集合，对待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。

在本实施例的一些可选的实现方式中，教师确定单元502进一步被配置成：对于待训练学生模型集合中的每个待训练学生模型，确定该待训练学生模型的模型性能信息；基于模型性能信息，确定模型数量；从预设的教师模型集合中确定模型数量个教师模型，作为该待训练学生模型对应的教师模型。

在本实施例的一些可选的实现方式中，教师确定单元502进一步被配置成：对于预设的教师模型集合中的每个教师模型，响应于确定该教师模型不满足预设的停用条件，将该教师模型确定为候选模型；从各个候选模型中确定模型数量个教师模型，作为该待训练学生模型对应的教师模型。

在本实施例的一些可选的实现方式中，预设的停用条件包括：该教师模型调度给待训练学生模型的时机不满足预设的时机条件；或者，该教师模型调度给的待训练学生模型未向该教师模型发送训练数据；或者，该教师模型调度给的待训练学生模型未等待该教师模型返回的软标签；或者，该教师模型调度给的待训练学生模型处于等待软标签的状态。

在本实施例的一些可选的实现方式中，上述装置还包括：学生容错单元，被配置成响应于确定待训练学生模型集合中存在不可用模型或者存在新增模型，暂停对待训练学生模型集合中各个待训练学生模型进行训练，并从预设的检查点重新获取待训练学生模型集合，以及继续对重新获取的待训练学生模型集合中各个待训练学生模型进行训练。

在本实施例的一些可选的实现方式中，软标签确定单元503进一步被配置成：对于待训练学生模型集合中的每个待训练学生模型，确定该待训练学生模型对应的训练数据以及软标签信息；基于软标签信息，向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据。

在本实施例的一些可选的实现方式中，软标签确定单元503进一步被配置成：基于软标签信息，确定该待训练学生模型的未使用软标签数量；响应于确定未使用软标签数量大于预设的第一阈值，停止向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据，直至未使用软标签数量小于预设的第二阈值；第一阈值大于第二阈值。

在本实施例的一些可选的实现方式中，软标签确定单元503进一步被配置成：响应于确定未使用软标签数量为预设的数量阈值，对该待训练学生模型对应的教师模型的数量进行扩增，得到扩增后的教师模型；数量阈值小于第二阈值；向扩增后的教师模型发送给待训练学生模型对应的训练数据。

在本实施例的一些可选的实现方式中，模型训练单元504进一步被配置成：对于待训练学生模型集合中的每个待训练学生模型，基于软标签集合中与该待训练学生模型对应的软标签以及该待训练学生模型对应的硬标签进行加权求和运算，得到该待训练学生模型对应的损失信息；基于损失信息调整该待训练学生模型的模型参数，直至该待训练学生模型收敛，得到与该待训练学生模型对应的训练完成的学生模型。

在本实施例的一些可选的实现方式中，模型训练单元504进一步被配置成：基于预设的同步更新算法和软标签集合，对待训练学生模型集合中各个待训练学生模型进行并行训练，得到各个训练完成的学生模型。

应当理解，用于训练模型的装置500中记载的单元501至单元504分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用车载通话的方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如用于训练模型的方法。例如，在一些实施例中，用于训练模型的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的用于训练模型的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用于训练模型的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于训练模型的方法，包括：

获取待训练学生模型集合；

对于所述待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型；

向各个教师模型发送训练数据，并接收所述各个教师模型基于所述训练数据返回的软标签集合；

基于所述软标签集合，对所述待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。

2.根据权利要求1所述的方法，其中，所述对于所述待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型，包括：

对于所述待训练学生模型集合中的每个待训练学生模型，确定该待训练学生模型的模型性能信息；

基于所述模型性能信息，确定模型数量；

从预设的教师模型集合中确定所述模型数量个教师模型，作为该待训练学生模型对应的教师模型。

3.根据权利要求2所述的方法，其中，所述从预设的教师模型集合中确定所述模型数量个教师模型，作为该待训练学生模型对应的教师模型，包括：

对于所述预设的教师模型集合中的每个教师模型，响应于确定该教师模型不满足预设的停用条件，将该教师模型确定为候选模型；

从各个候选模型中确定所述模型数量个教师模型，作为该待训练学生模型对应的教师模型。

4.根据权利要求3所述的方法，其中，所述预设的停用条件包括：

该教师模型调度给待训练学生模型的时机不满足预设的时机条件；或者

该教师模型调度给的待训练学生模型未向该教师模型发送训练数据；或者

该教师模型调度给的待训练学生模型未等待该教师模型返回的软标签；或者

该教师模型调度给的待训练学生模型处于等待软标签的状态。

5.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定所述待训练学生模型集合中存在不可用模型或者存在新增模型，暂停对所述待训练学生模型集合中各个待训练学生模型进行训练，并从预设的检查点重新获取所述待训练学生模型集合，以及继续对重新获取的所述待训练学生模型集合中各个待训练学生模型进行训练。

6.根据权利要求1所述的方法，其中，所述向各个教师模型发送训练数据，包括：

对于所述待训练学生模型集合中的每个待训练学生模型，确定该待训练学生模型对应的训练数据以及软标签信息；

基于所述软标签信息，向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据。

7.根据权利要求6所述的方法，其中，所述方法还包括：

基于所述软标签信息，确定该待训练学生模型的未使用软标签数量；

响应于确定所述未使用软标签数量大于预设的第一阈值，停止向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据，直至所述未使用软标签数量小于预设的第二阈值；所述第一阈值大于所述第二阈值。

8.根据权利要求7所述的方法，其中，所述基于所述软标签信息，向该待训练学生模型对应的教师模型发送该待训练学生模型对应的训练数据，包括：

响应于确定所述未使用软标签数量为预设的数量阈值，对该待训练学生模型对应的教师模型的数量进行扩增，得到扩增后的教师模型；所述数量阈值小于所述第二阈值；

向所述扩增后的教师模型发送给待训练学生模型对应的训练数据。

9.根据权利要求1所述的方法，其中，所述基于所述软标签集合，对所述待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型，包括：

对于所述待训练学生模型集合中的每个待训练学生模型，基于所述软标签集合中与该待训练学生模型对应的软标签以及该待训练学生模型对应的硬标签进行加权求和运算，得到该待训练学生模型对应的损失信息；

基于所述损失信息调整该待训练学生模型的模型参数，直至该待训练学生模型收敛，得到与该待训练学生模型对应的训练完成的学生模型。

10.根据权利要求1所述的方法，其中，所述基于所述软标签集合，对所述待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型，包括：

基于预设的同步更新算法和所述软标签集合，对所述待训练学生模型集合中各个待训练学生模型进行并行训练，得到各个训练完成的学生模型。

11.一种用于训练模型的装置，包括：

学生获取单元，被配置成获取待训练学生模型集合；

教师确定单元，被配置成对于所述待训练学生模型集合中的每个待训练学生模型，确定与该待训练学生模型对应的教师模型；

软标签确定单元，被配置成向各个教师模型发送训练数据，并接收所述各个教师模型基于所述训练数据返回的软标签集合；

模型训练单元，被配置成基于所述软标签集合，对所述待训练学生模型集合中各个待训练学生模型进行训练，得到各个训练完成的学生模型。

12.根据权利要求11所述的装置，其中，所述教师确定单元进一步被配置成：

基于所述模型性能信息，确定模型数量；

13.根据权利要求12所述的装置，其中，所述教师确定单元进一步被配置成：

14.根据权利要求13所述的装置，其中，所述预设的停用条件包括：

15.根据权利要求11所述的装置，其中，所述装置还包括：

学生容错单元，被配置成响应于确定所述待训练学生模型集合中存在不可用模型或者存在新增模型，暂停对所述待训练学生模型集合中各个待训练学生模型进行训练，并从预设的检查点重新获取所述待训练学生模型集合，以及继续对重新获取的所述待训练学生模型集合中各个待训练学生模型进行训练。

16.根据权利要求11所述的装置，其中，所述软标签确定单元进一步被配置成：

17.根据权利要求16所述的装置，其中，所述软标签确定单元进一步被配置成：

18.根据权利要求17所述的装置，其中，所述软标签确定单元进一步被配置成：

19.根据权利要求11所述的装置，其中，所述模型训练单元进一步被配置成：

20.根据权利要求11所述的装置，其中，所述模型训练单元进一步被配置成：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。