CN114091589A

CN114091589A - 模型训练方法、装置、电子设备及介质

Info

Publication number: CN114091589A
Application number: CN202111334192.6A
Authority: CN
Inventors: 敖玉龙; 吴志华; 巩伟宝; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-25
Anticipated expiration: 2041-11-11
Also published as: CN114091589B

Abstract

本公开提供了一种模型训练方法、装置、电子设备及介质，涉及人工智能领域，尤其涉及分布式计算技术领域。实现方案为：将待训练模型划分为多个逻辑分区，以使待训练模型中的多个算子中的每一者被划分至多个逻辑分区中的至少一个逻辑分区之中；响应于确定存在第一数量的可用设备，将多个逻辑分区中的每一者分别映射至第一数量的可用设备中的至少一个可用设备；以及响应于多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能第一数量的可用设备，以使多个算子能够基于待训练模型的执行流程而被执行。

Description

模型训练方法、装置、电子设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及分布式计算技术领域，具体涉及一种模型训练的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种模型训练的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种模型训练方法，包括：将待训练模型划分为多个逻辑分区，以使待训练模型中的多个算子中的每一者被划分至多个逻辑分区中的至少一个逻辑分区之中；响应于确定存在第一数量的可用设备，将多个逻辑分区中的每一者分别映射至第一数量的可用设备中的至少一个可用设备；以及响应于多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能第一数量的可用设备，以使多个算子能够基于待训练模型的执行流程而被执行。

根据本公开的另一方面，提供了一种模型训练装置，包括：划分单元，被配置用于将待训练模型划分为多个逻辑分区，以使待训练模型中的多个算子中的每一者被划分至多个逻辑分区中的至少一个逻辑分区之中；映射单元，被配置用于响应于确定存在第一数量的可用设备，将多个逻辑分区中的每一者分别映射至第一数量的可用设备中的至少一个可用设备；以及控制单元，被配置用于响应于多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能第一数量的可用设备，以使多个算子能够基于待训练模型的执行流程而被执行。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述的方法。

根据本公开的一个或多个实施例，能够降低分布式训练的执行难度，提升执行效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的模型训练方法的流程图；

图2A和图2B示出了根据本公开的实施例的待训练模型划分示意图；

图3示出了根据本公开的实施例的自动转换流程的示意图；

图4示出了根据本公开的实施例的模型训练方法的示意图；

图5示出了根据本公开的实施例的模型训练装置的结构框图；

图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

超大模型已经成为人工智能领域最重要的核心竞争力之一，它的训练离不开分布式技术的支撑。在相关技术中，为了实现对待训练模型的分布式训练，需要为待训练模型中的每一个算子匹配对应的设备，以使整个待训练模型中的各个算子能够基于多个设备之间的协同处理而被执行。然而，在不同的应用场景中，能够用于对待训练模型执行训练的可用设备的配置存在差异，可用设备的配置发生变化，就意味这要重新为待训练模型中的每一个算子匹配新的可用设备，这不仅需要依赖专业人员的并行编程知识和工程实践能力，也降低了分布式训练的执行效率。

基于此，本公开提供了一种模型训练方法，首先将待训练模型划分为多个逻辑分区，再基于当前存在的第一数量的可用设备，将多个逻辑分区中的每一者分别映射至第一数量的可用设备中的至少一个可用设备。由此，本公开将分布式训练中算子与设备之间的映射变更为逻辑分区与设备之间的映射，降低了分布式训练的执行难度，提升了执行效率。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的示例性实施例的一种模型训练方法，如图1所示，该方法包括：步骤S101、将待训练模型划分为多个逻辑分区，以使待训练模型中的多个算子中的每一者被划分至多个逻辑分区中的至少一个逻辑分区之中；步骤S102、响应于确定存在第一数量的可用设备，将多个逻辑分区中的每一者分别映射至第一数量的可用设备中的至少一个可用设备；以及步骤S103、响应于多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能第一数量的可用设备，以使多个算子能够基于待训练模型的执行流程而被执行。由此，能够将分布式训练中算子与设备之间的映射变更为逻辑分区与设备之间的映射，简化了分布式训练的执行难度，并同时提升了执行效率。

针对步骤S101，其中，每个逻辑分区可以对应于一个逻辑进程。针对多个算子中的每一者，该算子可以被整个划分至一个逻辑分区之中，也可以被划分至多个不同的逻辑分区之中来执行计算，其中，在多个不同的逻辑分区之中的每一个逻辑分区内，该算子仅执行对该算子的部分计算对象的处理。

据一些实施例，待训练模型还包括多个张量，多个张量中的每一者与多个算子中的至少一者相关联，并且其中，将待训练模型划分为多个逻辑分区还包括：将多个张量中的每一者划分至多个逻辑分区中的至少一个逻辑分区之中。

其中，多个张量中的每一者与多个算子中的至少一者相关联可以包括：针对该至少一个算子中的任意一个算子，该张量为该算子的计算对象或该张量为该算子的计算结果。

针对多个张量中的每一者，该张量可以被整个划分至一个逻辑分区之中，也可以被划分至多个不同的逻辑分区之中来进行存储，其中，在多个不同的逻辑分区之中的每一个逻辑分区内仅存储该张量的其中一部分。

在一种实施方式中，可以通过半自动的方式对待训练模型进行划分。具体地，通过接收针对待训练模型中的部分算子或张量的标识信息，来确定这部分算子或张量所对应的逻辑分区。同时，基于已经确定了逻辑分区的这部分算子或张量，来推理出待训练模型中不具有标识信息的算子或张量所对应的逻辑分区。

根据一些实施例，将待训练模型划分为多个逻辑分区可以包括：基于接收到的第一标记信息，确定多个算子中的至少一个算子所对应的逻辑分区；以及针对该至少一个算子中的每一者，基于该算子所对应的逻辑分区，确定与该算子相关联的张量所对应的逻辑分区。

例如，根据接收到的针对第一算子的标记信息，确定第一算子被划分至第一逻辑分区、第二逻辑分区、第三逻辑分区和第四逻辑分区中以分别执行计算，在其中任意一个逻辑分区中，第一算子仅执行对部分的第一张量的计算。基于该第一算子所对应的第一逻辑分区、第二逻辑分区、第三逻辑分区和第四逻辑分区，可以将该第一算子在每个逻辑分区内计算所需的部分的第一张量划分至该逻辑分区之中，即确定与第一算子相关联的第一张量所对应的逻辑分区为第一逻辑分区、第二逻辑分区、第三逻辑分区和第四逻辑分区，以此来满足第一算子在各个逻辑分区内的计算需求。

由此，基于已经确定了逻辑分区的算子，可以推理出待训练模型中与该算子相关联的不具有标识信息的张量所对应的逻辑分区，降低了在对待训练模型执行逻辑分区的过程中对人工标记的依赖性，提升处理效率。

根据一些实施例，将待训练模型划分为多个逻辑分区包括：基于接收到的第二标记信息，确定多个张量中的至少一个张量所对应的逻辑分区；以及针对至少一个张量中的每一者，基于该张量所对应的逻辑分区，确定与该张量相关联的算子所对应的逻辑分区。

由此，基于已经确定了逻辑分区的张量，可以推理出待训练模型中与该张量相关联的不具有标识信息的算子所对应的逻辑分区，降低了在对待训练模型执行逻辑分区的过程中对人工标记的依赖性，提升处理效率。

可以理解，在本公开中可以仅允许用户对算子或张量中的一种进行标记，也可以允许用户同时对算子和张量两者进行标记，由此，使得针对待训练模型中的算子和张量的逻辑分区可以独立执行，互不影响，实现了待训练模型中计算与存储的解耦。

根据一些实施例，针对多个张量中的任意一个张量，响应于该张量所对应的逻辑分区和与该张量相关联的至少一个算子中的任意一者所对应的逻辑分区不一致，通过在该张量所对应的逻辑分区与该算子所对应的逻辑分区之间设置的通信模块来实现该两个逻辑分区之间的数据传输。

可以理解，在用户分别对算子和张量两者进行标记的情况下，可能会存在张量所对应的逻辑分区和与该张量相关联的至少一个算子中的任意一者所对应的逻辑分区不一致的情况。基于此，可以在该张量所对应的逻辑分区与该算子所对应的逻辑分区之间设置通信模块，以此来实现不同的逻辑分区之间的数据传输，满足算子的计算需求。

在另一种实施方式中，可以通过全自动的方式对待训练模型进行划分。具体地，对待训练模型的划分可以基于预存的划分模式来执行，在这种实施方式中，不需要用户对待训练模型中的算子或张量进行标记，而是通过搜索得到的预存的划分模式确定每个算子或张量所对应的逻辑分区。

根据一些实施例，将待训练模型划分为多个逻辑分区可以包括：基于预存的划分模式来将待训练模型划分为多个逻辑分区，其中，预存的划分模式中包括待训练模型中的多个算子中的每一者所对应的逻辑分区，以及多个张量中的每一者所对应的逻辑分区。其中，该预存的划分模式可以预先存储于本地，也可以存储于服务器中。由此，可以减低分布式训练对人工操作的依赖性，自动地完成对待训练模型的逻辑划分。

在另一种实施方式中，可以通过全手动的方式对待训练模型进行动态划分。具体地，接收用户针对待训练模型中的每一个算子或张量所映射的可用设备的标识信息，以此来直接确定每一个算子或张量所对应的逻辑分区。

图2A和图2B示出了待训练模型划分示意图。图2A为待训练模型的计算流图，如图2A所示，张量A和张量B通过算子Matmul执行矩阵相乘，并输入计算结果张量C。

对图2A所示的待训练模型执行逻辑分区，可以得到如图2B所示的分区结果。如图2B所示，张量A被水平切分为A1和A2，其中，A1被划分至逻辑分区1，A2被划分至逻辑分区2；张量B被垂直切分为B1和B2，其中，B1被划分至逻辑分区1，B2被划分至逻辑分区2。算子Matmul被划分至逻辑分区3、逻辑分区4、逻辑分区5和逻辑分区6共四个逻辑分区中，在其中的每一个逻辑分区中，算子Matmul仅执行针对部分张量A和部分张量B的计算，并分别得到张量C的一部分，并最终得到逻辑分区7中的张量C。其中，上述对于张量A、张量B以及算子Matmul的逻辑分区可以基于上述半自动、全自动或全手动的方式确定。通信模块1、通信模块2和通信模块3用于实现不同的逻辑分区之间的数据通信。

针对步骤S102，基于划分好的多个逻辑分区，执行针对该待训练模型的物理映射，即将多个逻辑分区映射至第一数量的可用设备。其中，第一数量的可用设备可以为异构的设备，通过设置全场景通信库，使得异构的设备之间能够协同处理，以实现对待训练模型的分布式训练。

根据一些实施例，针对多个张量中的任意一个张量，响应于该张量被切分为至少两个部分并且至少两个部分中的每一者被分别划分至不同的逻辑分区中，该至少两个部分中的每一者所对应的逻辑分区可以映射到不同的可用设备，也可以映射至同一可用设备中的CPU内存和GPU内存中。

根据一些实施例，将多个逻辑分区中的每一者映射至第一数量的可用设备中的至少一个可用设备可以包括：基于第一数量的可用设备的设备信息，将多个逻辑分区中的每一者映射至第一数量的可用设备中的至少一个可用设备。

根据一些实施例，第一数量的可用设备的设备信息包括以下至少一种：第一数量的可用设备之间的连接拓扑信息；第一数量的可用设备中的任意一者的计算能力信息；和第一数量的可用设备中的任意一者的存储能力信息。

由此，可用基于当前第一数量的可用设备的设备信息，灵活地调整对多个逻辑分区的映射策略，增强了对待训练模型的分布式训练的灵活性。

根据一些实施例，在完成对第一数量的可用设备的映射之后，可以对映射结果进行多遍优化，该优化可以包括重计算、混合精度、通信切分与融合等。

根据一些实施例，可以对所确定的对第一数量的可用设备的映射进行统一的分布式表示，以此来统一基于上述半自动、全自动和全手动的方式所确定的对可用设备的映射模式，以便于后续基于该映射模式，来使能该第一数量的可用设备，以使多个算子能够基于待训练模型的执行流程而被执行。

根据一些实施例，在每次重新启动分布式训练的时候，可以触发自动转换流程。图3示出了示例性的自动转换流程的示意图，如图3所示，在加载待训练模型重新训练前，判断对该待训练模型的逻辑分区或可用设备的配置是否被调整，如果上述两者均没有被调整，可以基于既有的逻辑分区和映射关系进行原分布式训练；如果该待训练模型的逻辑分区被调整，则可以基于新的逻辑划分策略重新执行对待训练模型的划分，在新逻辑分区的基础上执行对当前可用设备的映射，并在新的物理映射的基础上执行新分布式训练；如果逻辑分区未调整，而仅仅可用设备被调整，可以基于既有的原逻辑分区执行对当前可用设备的映射，并在新的物理映射的基础上执行新分布式训练。

针对步骤S103，根据一些实施例，预设可执行条件可以为对该待训练模型的逻辑分区为基于用户所输入的标识信息而确定。例如，在对该待训练模型的逻辑分区为基于用户对该待训练模型中的全部或部分的张量和算子的标识而确定的情况下，可以确定多个逻辑分区中的每一者的映射结果满足预设可执行条件。

根据一些实施例，在对待训练模型的划分不依赖于用户标识，而是基于预存的划分模式而直接确定的情况下，预设可执行条件可以进一步包括基于多个逻辑分区中的每一者的映射结果而确定的预测损失值小于预设阈值。

根据一些实施例，基于多个逻辑分区中的每一者的映射结果而确定的预测损失值可以基于计算、访存、通信等代价而确定。

根据一些实施例，该预设阈值可以为预先确定的定值。

根据另一些实施例，可以依次搜索多个预存的划分模式，每搜索出一个预存的划分模式，则确定基于该预存的划分模式的预测损失值。在这种情况下，预设阈值可以为目前最优选的预存的划分模式的预测损失值。通过将新搜索出的预存的划分模式所对应的预测损失值与该预设阈值相比较，可以确定该预存的划分模式是否优于目前最优选的预存的划分模式，并在该预存的划分模式优于目前最优选的预存的划分模式的情况下，基于该预存的划分模式而执行训练。

根据一些实施例，针对在待训练模型的执行流程中不具有依赖关系的任意两个逻辑分区，可以通过使能该两个逻辑分区所分别映射的两个可用设备同时执行处理，以此来提升模型训练的效率。

图4示出了示例性的模型训练方法的示意图，如图4所示，首先判断是否采用全手动划分模式，如果采用全手动划分模式，则接收待训练模型中全部的张量和算子的标识信息。如果不采用全手动划分模式，则需要判断是否执行自动搜索。如果不执行自动搜索，则接收待训练模型中部分的张量和算子的标识信息，基于该部分的张量和算子的标识信息来补全待训练模型中其它的张量和算子的标识信息。在确定了全部的张量和算子的标识信息的基础上，依次执行对待训练模型的逻辑分区、针对第一数量的可用设备的物理映射和多遍优化。如果执行自动搜索，则基于搜索到的预存的划分模式来执行逻辑分区、物理映射和多遍优化。针对多遍优化的结果，如果该结果基于非自动搜索而确定，则可以直接执行，如果该结果基于自动搜索而确定，可以进一步对该结果进行模拟与评估，基于预测损失值判断是否可以终止搜索，如果可以终止搜索，则根据本次搜索得到的预测的划分模型执行训练，如果不能终止搜索，则重新搜索新的预存的划分模式。

图5示出了根据本公开的示例性实施例的一种模型训练装置，如图5所示，该装置500包括：划分单元501，被配置用于将待训练模型划分为多个逻辑分区，以使待训练模型中的多个算子中的每一者被划分至多个逻辑分区中的至少一个逻辑分区之中；映射单元502，被配置用于响应于确定存在第一数量的可用设备，将多个逻辑分区中的每一者分别映射至第一数量的可用设备中的至少一个可用设备；以及控制单元503，被配置用于响应于多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能第一数量的可用设备，以使多个算子能够基于待训练模型的执行流程而被执行。

根据一些实施例，待训练模型还包括多个张量，多个张量中的每一者与多个算子中的至少一者相关联，并且其中，划分单元进一步被配置用于：将多个张量中的每一者划分至多个逻辑分区中的至少一个逻辑分区之中。

根据一些实施例，划分单元包括：用于基于接收到的第一标记信息，确定多个算子中的至少一个算子所对应的逻辑分区的子单元；以及用于针对至少一个算子中的每一者，基于该算子所对应的逻辑分区，确定与该算子相关联的张量所对应的逻辑分区的子单元。

根据一些实施例，划分单元包括：用于基于接收到的第二标记信息，确定多个张量中的至少一个张量所对应的逻辑分区的子单元；以及用于针对至少一个张量中的每一者，基于该张量所对应的逻辑分区，确定与该张量相关联的算子所对应的逻辑分区的子单元。

根据一些实施例，该装置还包括：通信单元，被配置用于针对多个张量中的任意一个张量，响应于该张量所对应的逻辑分区和与该张量相关联的至少一个算子中的任意一者所对应的逻辑分区不一致，通过在该张量所对应的逻辑分区与该算子所对应的逻辑分区之间设置的通信模块来实现该两个逻辑分区之间的数据传输。

根据一些实施例，划分单元包括：用于基于预存的划分模式来将待训练模型划分为多个逻辑分区的子单元，其中，预存的划分模式中包括待训练模型中的多个算子中的每一者所对应的逻辑分区，以及多个张量中的每一者所对应的逻辑分区。

根据一些实施例，映射单元包括：用于基于第一数量的可用设备的设备信息，将多个逻辑分区中的每一者映射至第一数量的可用设备中的至少一个可用设备的子单元。

根据一些实施例，预设可执行条件包括基于多个逻辑分区中的每一者的映射结果而确定的预测损失值小于预设阈值。

根据本公开的实施例，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的方法。

根据本公开的实施例，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述的方法。

根据本公开的实施例，还提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行上述的方法。

参考图6，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如模型训练方法。例如，在一些实施例中，模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种模型训练方法，包括：

将待训练模型划分为多个逻辑分区，以使所述待训练模型中的多个算子中的每一者被划分至所述多个逻辑分区中的至少一个逻辑分区之中；

响应于确定存在第一数量的可用设备，将所述多个逻辑分区中的每一者分别映射至所述第一数量的可用设备中的至少一个可用设备；以及

响应于所述多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能所述第一数量的可用设备，以使所述多个算子能够基于所述待训练模型的执行流程而被执行。

2.根据权利要求1所述的方法，其中，所述待训练模型还包括多个张量，所述多个张量中的每一者与所述多个算子中的至少一者相关联，并且其中，所述将待训练模型划分为多个逻辑分区还包括：

将所述多个张量中的每一者划分至所述多个逻辑分区中的至少一个逻辑分区之中。

3.根据权利要求2所述的方法，其中，所述将待训练模型划分为多个逻辑分区包括：

基于接收到的第一标记信息，确定所述多个算子中的至少一个算子所对应的逻辑分区；以及

针对所述至少一个算子中的每一者，基于该算子所对应的逻辑分区，确定与该算子相关联的张量所对应的逻辑分区。

4.根据权利要求2或3所述的方法，其中，所述将待训练模型划分为多个逻辑分区包括：

基于接收到的第二标记信息，确定所述多个张量中的至少一个张量所对应的逻辑分区；以及

针对所述至少一个张量中的每一者，基于该张量所对应的逻辑分区，确定与该张量相关联的算子所对应的逻辑分区。

5.根据权利要求3或4所述的方法，还包括：

针对所述多个张量中的任意一个张量，响应于该张量所对应的逻辑分区和与该张量相关联的至少一个算子中的任意一者所对应的逻辑分区不一致，通过在该张量所对应的逻辑分区与该算子所对应的逻辑分区之间设置的通信模块来实现该两个逻辑分区之间的数据传输。

6.根据权利要求2所述的方法，其中，所述将待训练模型划分为多个逻辑分区包括：

基于预存的划分模式来将所述待训练模型划分为多个逻辑分区，其中，所述预存的划分模式中包括所述待训练模型中的所述多个算子中的每一者所对应的逻辑分区，以及所述多个张量中的每一者所对应的逻辑分区。

7.根据权利要求1至6中任意一项所述的方法，其中，所述将所述多个逻辑分区中的每一者映射至所述第一数量的可用设备中的至少一个可用设备包括：

基于所述第一数量的可用设备的设备信息，将所述多个逻辑分区中的每一者映射至所述第一数量的可用设备中的至少一个可用设备。

8.根据权利要求7所述的方法，其中，所述第一数量的可用设备的设备信息包括以下至少一种：

所述第一数量的可用设备之间的连接拓扑信息；

所述第一数量的可用设备中的任意一者的计算能力信息；和

所述第一数量的可用设备中的任意一者的存储能力信息。

9.根据权利要求1至8中任意一项所述的方法，其中，所述预设可执行条件包括基于所述多个逻辑分区中的每一者的映射结果而确定的预测损失值小于预设阈值。

10.一种模型训练装置，包括：

划分单元，被配置用于将待训练模型划分为多个逻辑分区，以使所述待训练模型中的多个算子中的每一者被划分至所述多个逻辑分区中的至少一个逻辑分区之中；

映射单元，被配置用于响应于确定存在第一数量的可用设备，将所述多个逻辑分区中的每一者分别映射至所述第一数量的可用设备中的至少一个可用设备；以及

控制单元，被配置用于响应于所述多个逻辑分区中的每一者的映射结果满足预设可执行条件，使能所述第一数量的可用设备，以使所述多个算子能够基于所述待训练模型的执行流程而被执行。

11.根据权利要求10所述的装置，其中，所述待训练模型还包括多个张量，所述多个张量中的每一者与所述多个算子中的至少一者相关联，并且其中，所述划分单元进一步被配置用于：

12.根据权利要求11所述的装置，其中，所述划分单元包括：

用于基于接收到的第一标记信息，确定所述多个算子中的至少一个算子所对应的逻辑分区的子单元；以及

用于针对所述至少一个算子中的每一者，基于该算子所对应的逻辑分区，确定与该算子相关联的张量所对应的逻辑分区的子单元。

13.根据权利要求11或12所述的装置，其中，所述划分单元包括：

用于基于接收到的第二标记信息，确定所述多个张量中的至少一个张量所对应的逻辑分区的子单元；以及

用于针对所述至少一个张量中的每一者，基于该张量所对应的逻辑分区，确定与该张量相关联的算子所对应的逻辑分区的子单元。

14.根据权利要求12或13所述的装置，还包括：

通信单元，被配置用于针对所述多个张量中的任意一个张量，响应于该张量所对应的逻辑分区和与该张量相关联的至少一个算子中的任意一者所对应的逻辑分区不一致，通过在该张量所对应的逻辑分区与该算子所对应的逻辑分区之间设置的通信模块来实现该两个逻辑分区之间的数据传输。

15.根据权利要求11所述的装置，其中，所述划分单元包括：

用于基于预存的划分模式来将所述待训练模型划分为多个逻辑分区的子单元，其中，所述预存的划分模式中包括所述待训练模型中的所述多个算子中的每一者所对应的逻辑分区，以及所述多个张量中的每一者所对应的逻辑分区。

16.根据权利要求10至15中任意一项所述的装置，其中，所述映射单元包括：

用于基于所述第一数量的可用设备的设备信息，将所述多个逻辑分区中的每一者映射至所述第一数量的可用设备中的至少一个可用设备的子单元。

17.根据权利要求16所述的装置，其中，所述第一数量的可用设备的设备信息包括以下至少一种：

所述第一数量的可用设备之间的连接拓扑信息；

所述第一数量的可用设备中的任意一者的计算能力信息；和

所述第一数量的可用设备中的任意一者的存储能力信息。

18.根据权利要求10至17中任意一项所述的装置，其中，所述预设可执行条件包括基于所述多个逻辑分区中的每一者的映射结果而确定的预测损失值小于预设阈值。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。