CN115829053B

CN115829053B - 模型运行策略确定方法、装置、电子设备以及存储介质

Info

Publication number: CN115829053B
Application number: CN202211512936.3A
Authority: CN
Inventors: 曹州; 敖玉龙; 梁建中; 赵英利; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-09-19
Anticipated expiration: 2042-11-25
Also published as: CN115829053A

Abstract

本公开提供了模型运行策略确定方法、装置、电子设备、存储介质和程序产品，涉及人工智能技术领域，尤其涉及深度学习技术领域和计算机技术领域。具体实现方案为：确定深度学习模型按照串行策略运行的实际运行时长，串行策略表征深度学习模型在单一硬件单元上运行的策略；基于实际运行时长，确定关于深度学习模型的单粒度运算时长；针对多个分布式策略中的每个分布式策略，基于深度学习模型的单粒度运算时长，确定深度学习模型按照分布式策略运行的运行代价，分布式策略表征在多个硬件单元上运行深度学习模型的策略；以及基于多个分布式策略各自的运行代价，从多个分布式策略中确定要应用于多个硬件单元的目标分布式策略。

Description

模型运行策略确定方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习技术领域和计算机技术领域。具体涉及模型运行策略确定方法、装置、电子设备、存储介质和程序产品。

背景技术

随着深度学习技术的不断发展，数据量的不断增长，按照分布式策略运行深度学习模型的技术受到越来越广泛的关注。因组合形式多样，可以生成组合方式不同的多个分布式策略。如何从多个分布式策略中确定优选的分布式策略，用于指导深度学习模型的运行，成为一个重要关注点。

发明内容

本公开提供了一种模型运行策略确定方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种模型运行策略确定方法，包括：确定深度学习模型按照串行策略运行的实际运行时长，其中，上述串行策略表征上述深度学习模型在单一硬件单元上运行的策略；基于上述实际运行时长，确定关于上述深度学习模型的单粒度运算时长；针对多个分布式策略中的每个分布式策略，基于上述深度学习模型的单粒度运算时长，确定上述深度学习模型按照上述分布式策略运行的运行代价，其中，上述分布式策略表征在多个硬件单元上运行上述深度学习模型的策略；以及基于上述多个分布式策略各自的运行代价，从上述多个分布式策略中确定要应用于上述多个硬件单元的目标分布式策略。

根据本公开的另一方面，提供了一种模型运行策略确定装置，包括：第一确定模块，用于确定深度学习模型按照串行策略运行的实际运行时长，其中，上述串行策略表征上述深度学习模型在单一硬件单元上运行的策略；第二确定模块，用于基于上述实际运行时长，确定关于上述深度学习模型的单粒度运算时长；第三确定模块，用于针对多个分布式策略中的每个分布式策略，基于上述深度学习模型的单粒度运算时长，确定上述深度学习模型按照上述分布式策略运行的运行代价，其中，上述分布式策略表征在多个硬件单元上运行上述深度学习模型的策略；以及第四确定模块，用于基于上述多个分布式策略各自的运行代价，从上述多个分布式策略中确定要应用于上述多个硬件单元的目标分布式策略。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用模型运行策略确定方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的模型运行策略确定方法的流程图；

图3示意性示出了根据本公开实施例的确定分布式计算任务的示意图；

图4示意性示出了根据本公开实施例的确定目标运行时长的示意图；

图5A示意性示出了根据本公开实施例的一种通信类型的通信算子的示意图；

图5B示意性示出了根据本公开实施例的另一种通信类型的通信算子的示意图；

图6示意性示出了根据本公开实施例的模型运行策略确定装置的框图；以及

图7示意性示出了根据本公开实施例的适于实现模型运行策略确定方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了模型运行策略确定方法、装置、电子设备、存储介质和程序产品。

根据本公开的实施例，一种模型运行策略确定方法，包括：确定深度学习模型按照串行策略运行的实际运行时长，其中，串行策略表征深度学习模型在单一硬件单元上运行的策略；基于实际运行时长，确定关于深度学习模型的单粒度运算时长；针对多个分布式策略中的每个分布式策略，基于深度学习模型的单粒度运算时长，确定深度学习模型按照分布式策略运行的运行代价，其中，分布式策略表征在多个硬件单元上运行深度学习模型的策略；以及基于多个分布式策略各自的运行代价，从多个分布式策略中确定要应用于多个硬件单元的目标分布式策略。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用模型运行策略确定方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101，网络102和服务器集群103。网络102用以在终端设备101和服务器集群103之间提供通信链路的介质。网络102还可以用以在服务器集群103内部提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101通过网络102与服务器集群103交互，以接收或发送消息等。例如，终端设备101可以通过网络102向服务器集群103发送用于训练深度学习模型的请求。

终端设备101上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器集群103可以是提供各种服务的服务器，例如对用户利用终端设备101发送的请求提供支持的后台管理服务器(仅为示例)。

服务器集群103可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

模型运行策略确定方法可以应用于服务器集群103。服务器集群103包括多个服务器节点1031、1032、1033、1034，每个服务器节点包括多个硬件单元。可以利用服务器集群103提供用于运行深度学习模型的多种分布式策略。可以基于串行运算拓扑图，确定用于运行深度学习模型的多个分布式策略。该深度学习模型的具体串行运算拓扑图，可以是从终端设备101的用于训练深度学习模型的请求中获取的。

可以利用服务器集群103中的任一服务器节点中一个硬件单元来按照串行策略运行深度学习模型，确定实际运行时长。也可以利用服务器集群103中的多个服务器节点中的多个硬件单元，按照目标分布式策略运行深度学习模型，以提高深度学习模型的运行效率。

应该理解，图1中的终端设备、网络和服务器集群中的服务器节点的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器节点。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的模型运行策略确定方法的流程图。

如图2所示，该方法200包括操作S210～S240。

在操作S210，确定深度学习模型按照串行策略运行的实际运行时长。

在操作S220，基于实际运行时长，确定关于深度学习模型的单粒度运算时长。

在操作S230，针对多个分布式策略中的每个分布式策略，基于深度学习模型的单粒度运算时长，确定深度学习模型按照分布式策略运行的运行代价。

在操作S240，基于多个分布式策略各自的运行代价，从多个分布式策略中确定要应用于多个硬件单元的目标分布式策略。

根据本公开的实施例，深度学习模型包括多个计算算子。计算算子可以是深度学习模型中用于完成计算功能的代码集合。计算算子可以包括用于计算的参数和计算操作指令等。按照运算类型不同，计算算子可以包括加法、乘法、卷积、反卷积、全连接、归一化、池化等运算类型的计算算子。

根据本公开的实施例，可以根据深度学习模型的计算需求，生成运算拓扑图。运算拓扑图可以包括多个计算节点以及多个计算节点之间的运算顺序。每个计算节点与至少一个计算算子相对应。运算拓扑图还可以包括与计算节点相对应的计算算子在硬件单元上的部署位置信息。

根据本公开的实施例，可以按照在硬件单元上的部署方式，将运算拓扑图划分为串行运算拓扑图和分布式运算拓扑图。

根据本公开的实施例，串行运算拓扑图可以包括多个算子节点。每个算子节点与一个算子任务相对应。在串行运算拓扑图中，每个算子任务为计算任务。每个计算任务可以通过至少一个计算算子来执行。可以基于串行运算拓扑图生成串行策略。串行策略可以包括用于表征多个计算算子之间的运算顺序的运算策略以及硬件单元的部署策略。例如，串行策略表征深度学习模型在单一硬件单元上运行的策略。可以基于串行运算拓扑图确定多个计算算子之间的执行顺序。基于串行运算拓扑图，确定部署于同一个硬件单元上的串行策略。

根据本公开的实施例，分布式运算拓扑图也可以包括多个算子节点。每个算子节点与一个算子任务相对应。在分布式运算拓扑图中，每个算子任务为至少一个计算任务和至少一个通信任务。每个计算任务可以通过至少一个计算算子来执行。每个通信任务可以通过至少一个通信算子来执行。可以基于分布式运算拓扑图生成分布式策略。分布式策略表征在多个硬件单元上运行深度学习模型的策略。分布式策略可以包括用于表征多个计算算子和多个通信算子之间的执行顺序的执行策略以及硬件单元的部署策略。可以基于分布式运算拓扑图确定多个计算算子和多个通信算子各自的执行顺序以及多个计算算子和多个通信算子各自的硬件单元的部署信息。基于分布式运算拓扑图，确定部署于多个硬件单元上的分布式策略。

根据本公开的示例性实施例，硬件单元包括以下至少一项：图形处理器、中央处理器、神经网络处理器。不同的多个硬件单元可以指图像处理器和中央处理器，但是并不局限于此，不同的多个硬件单元还可以指需要进行通信交互的图像处理器A和图像处理器B。

根据本公开的实施例，可以根据与单个算子节点相对应的计算算子的数量、多个计算算子的硬件部署情况，确定多个分布式策略。以运算类型为矩阵相乘的算子节点为例，可以利用一个计算算子M来处理，计算算子M的输入数据包括4*4矩阵向量X[4，4]和4*4矩阵向量Y[4，4]。也可以利用两个计算算子M1和M2，输入数据均为4*4矩阵向量X[4，4]和4*2矩阵向量Y[4，2]。两个计算算子M1和M2分别部署于不同的两个硬件单元上，生成多个分布式策略。还可以利用四个计算算子M1、M2、M3和M4，输入数据均为4*4矩阵向量X[4，4]和4*1矩阵向量Y[4，1]。与该计算节点相对应的四个计算算子M1、M2、M3和M4可以部署于不同的多个硬件单元上，生成多个分布式策略。

根据本公开的实施例，因计算算子的输入数据数据类型、拆分方式、以及硬件单元的部署方式等不同，多个分布式运行策略各自的处理效率不同。可以基于多个分布式运行策略各自的运行代价来从多个分布式运行策略中确定目标分布式运行策略。

根据本公开的实施例，本公开实施例提供的模型运行策略确定方法还可以包括操作S250，例如，按照目标分布式运行策略运行深度学习模型。

根据本公开的实施例，可以将运行代价最小的分布式运行策略作为目标分布式运行策略。进而使得按照目标分布式运行策略运行深度学习模型的效率高、运算成本低。

根据本公开的实施例，可以按照串行策略在单一硬件单元上运行深度学习模型，确定深度学习模型的实际运行时长。该实际运行时长可以指多个计算算子处于同一运行环境中的计算总时长。例如，可以指多个计算算子均部署于同一硬件单元上的计算总时长。

根据本公开的实施例，深度学习模型的单粒度可以包括单个算子节点的粒度，但是并不局限于此，还可以包括单个计算算子的粒度，也可以包括单个浮点运算的粒度。

根据本公开的实施例，在深度学习模型的单粒度为单个算子节点的粒度的情况下，单粒度运算时长可以为单个算子节点运算时长。在深度学习模型的单粒度为单个计算算子的粒度的情况下，单粒度运算时长可以为单个计算算子的运算时长。在深度学习模型的单粒度为单个浮点运算的粒度的情况下，单粒度运算时长可以为浮点数据被处理一次的运算时长。

根据本公开的实施例，可以基于深度学习模型的模型架构，确定运算节点的总数量、计算算子的总数量或者浮点运算的总数量等，基于实际运行时长，确定深度学习模型的单粒度运算时长。

以计算算子为深度学习模型的单粒度为例，可以根据串行策略，确定深度学习模型中的计算算子的数量、单个计算算子的运算类型、输入数据的属性信息、硬件单元的性能数据等。可以基于计算算子的数量、单个计算算子的运算类型、输入数据的属性信息、硬件单元的性能数据中的信息中一种或多种信息以及实际运行时长，确定关于深度学习模型的单粒度运算时长。

根据本公开的实施例，运行代价可以是基于运行时长确定的，该运行时长可以是按照分布式运行策略运行深度学习模型的时长。

例如，基于计算算子的运算类型、输入数据的属性信息、硬件单元的性能数据中的一种或多种数据，为计算算子配置权重。基于计算算子的单粒度运算时长和计算算子的权重，加权求和，得到运行代价。

根据本公开的实施例，利用模型运行策略确定方法，已经将深度学习模型拆分为单粒度，将硬件单元的性能、运行策略等对单粒度运算时长的影响降至最低，进而可以使得用于按照串行策略运行深度学习模型的单粒度运算时长与用于按照分布式策略运行深度学习模型的单粒度运算时长等同看待。

根据本公开的实施例，因深度学习模型中的单粒度运算时长是基于实际运行时长确定的，能够与实际运行时长相结合，使得基于单粒度运算时长确定得到的多个分布式运行策略各自的运行代价精准、有效。

根据一相关示例，针对多个分布式运行策略中的每个分布式运行策略，可以按照分布式运行策略运行深度学习模型，确定用于运行深度学习模型的实际分布式运行时长。将实际分布式运行时长作为运行代价。基于与多个分布式运行策略一一对应的多个运行代价，从多个分布式运行策略确定目标分布式运行策略。

与实际运行确定分布式运行时长的方式相比，利用本公开实施例提供的方法，只要按照串行策略运行一次深度学习模型即可，避免按照分布式运行策略运行深度学习模型，进而在保证确定精度的同时，降低了运行次数，降低了运行成本。

根据另一相关示例，可以根据开源数据，建立关于计算算子的耗时表。基于计算算子，确定单个计算算子的运行时长，进而确定按照分布式运行策略的深度学习模型的分布式运行时长，将分布式运行时长作为运行代价。

与查表确定分布式运行时长的方式相比，利用本公开实施例提供的方法，能够具有通用性，避免因开源数据中未涉及与计算算子的运算类型、计算算子的输入数据相匹配的计算算子，而导致的无法确定计算算子的运行时长的问题。

根据本公开的示例性实施例，深度学习模型的单粒度可以包括浮点运算的粒度。针对如图2所示的操作S220，基于实际运行时长，确定关于深度学习模型的单粒度运算时长，可以包括：基于实际运行时长，确定关于深度学习模型的单个浮点运算时长。

根据本公开的实施例，在深度学习模型的单粒度为单个浮点运算的粒度的情况下，单粒度运算时长可以为浮点数被处理一次的运算时长，例如单个浮点运算时长。

例如，对多个浮点数进行一次运算操作，所需时长为单个浮点运算时长。例如，对浮点数A与浮点数B进行相加运算，所需时长为单个浮点运算时长。对浮点数A、浮点数B和浮点数C进行相加运算，所需时长为两倍的单个浮点运算时长。

根据本公开的实施例，将单个浮点运算时长作为深度学习模型的单粒度运算时长，能够将深度学习模型的粒度拆分至最小化，能够排除掉由硬件单元的运行性能、硬件单元的类型、硬件单元与输入数据的匹配程度等因素的影响，进而使得基于串行策略确定的单粒度运算时长能够作为多个分布式运行策略各自的单粒度运算时长。

根据本公开的实施例，如图2所示的操作S220，基于实际运行时长，确定关于深度学习模型的单个浮点运算时长，可以包括如下操作。

例如，确定用于按照串行策略运行深度学习模型的多个计算算子。针对多个计算算子中的每个计算算子，确定计算算子的串行浮点运算次数。基于多个计算算子各自的串行浮点运算次数和实际运行时长，确定关于深度学习模型的单个浮点运算时长。

根据本公开的实施例，可以基于串行策略或者串行运算拓扑图，确定用于运行深度学习模型的多个计算算子。进而确定多个计算算子各自的串行浮点运算次数。串行浮点运算次数可以指计算算子执行了单粒度运算的次数。

根据本公开的实施例，基于多个计算算子各自的串行浮点运算次数，可以确定按照串行策略运行深度学习模型的串行浮点总次数。利用实际运行时长与串行浮点总次数的比值，确定单个浮点运算时长。

根据本公开的实施例，确定计算算子的串行浮点运算次数，可以包括：确定计算算子的串行运算信息。基于串行运算信息，确定计算算子的串行浮点运算次数。

根据本公开的实施例，串行运算信息，可以包括以下至少一项：计算算子的运算类型、计算算子的输入数据的属性信息等。计算算子的运算类型可以包括卷积、加、乘等运算类型。输入数据的属性信息可以包括输入数据的数据类型信息、输入数据的张量信息等。

根据本公开的实施例，可以根据计算算子的运算类型，确定串行浮点运算次数。例如，将运算类型为“加”的计算算子的串行浮点运算次数确定为A，将运算类型为“卷积”的计算算子的串行浮点运算次数确定为B。

根据本公开的示例性实施例，串行运算信息包括计算算子的串行输入数据的属性信息和计算算子的运算类型。

根据本公开的实施例，基于串行运算信息，确定计算算子的串行浮点运算次数，可以包括：基于计算算子的运算类型和串行输入数据的属性信息，确定计算算子的串行浮点运算次数。

根据本公开的示例性实施例，基于计算算子的运算类型和串行输入数据的属性信息，确定计算算子的串行浮点运算次数，可以包括：基于计算算子的运算类型，确定计算算子的串行浮点运算次数确定方式。按照计算算子的串行浮点运算次数确定方式，基于串行输入数据的属性信息，确定计算算子的串行浮点运算次数。

根据本公开的实施例，多个计算算子各自的运算类型不同，则在相同输入数据的情况下，多个计算算子各自的串行浮点运算次数不同。可以基于计算算子的运算类型，确定计算算子的串行浮点运算次数确定方式。以便基于计算算子的串行浮点运算次数确定方式，确定串行浮点运算次数。进而使得串行浮点运算次数的确定精准性高的同时，确定速度快。

根据本公开的实施例，浮点运算次数(FLOPs，Floating Point Operations)可以是基于对浮点数的运算操作次数确定的。例如，加、减、乘、除等分别为单个浮点运算次数，例如1次。

根据本公开的实施例，计算算子的串行浮点运算次数确定方式可以指计算算子的串行浮点运算次数的计算公式。以运算类型为二维的矩阵相乘的计算算子M为例，计算算子M的输入数据包括X[m，n]和Y[n，k]，则该计算算子M的浮点运算次数的计算公式为FLOPs＝2*m*n*k。

根据本公开的实施例，可以基于计算算子的运算类型，确定计算算子的串行浮点运算次数的计算公式。在计算公式中包括计算算子的输入数据的属性信息为参数的情况下，基于计算算子的输入数据的属性信息和计算公式，确定计算算子的浮点运算次数。

根据本公开的实施例，串行浮点运算次数，可以基于计算算子的输入数据的属性信息、计算算子的运算类型来确定，确定方式简单、精准且快速的同时，能够将深度学习模型的单粒度拆分至最小，在考虑输入数据的属性信息、计算算子的运算类型等因素的影响的情况下，使得用于按照串行策略运行深度学习模型的单个浮点运算时长与用于按照分布式策略运行深度学习模型的单个浮点运算时长等同看待的误差降至最低。

根据本公开的实施例，在执行如图2所示的操作S210，确定深度学习模型按照串行策略运行的实际运行时长之前，模型运行策略确定方法还可以包括如下操作。

例如，接收来自客户端的用于训练深度学习模型的请求。从请求中确定关于深度学习模型的串行运算拓扑图。基于串行运算拓扑图，确定深度学习模型的串行策略。

根据本公开的实施例，可以将本公开实施例提供的模型运行策略确定方法应用于服务器集群，服务器集群包括多个服务器节点，每个服务器节点包括多个硬件单元。可以利用服务器集群提供用于运行深度学习模型的多种分布式策略。该深度学习模型的具体串行运算拓扑图，可以是从客户端的用于训练深度学习模型的请求中获取的。可以基于串行运算拓扑图，确定用于运行深度学习模型中的计算算子的串行策略。

根据本公开的实施例，本公开实施例提供的模型运行策略确定方法，是以在单一硬件单元上运行的实际运行时长为基础确定的多个分布式策略各自的运行代价，确定方式准确的同时，通用性高，能够应对用户的各种请求，提高了应用范围。

根据本公开的实施例，针对如图2所示的操作S230，基于深度学习模型的单粒度运算时长，确定深度学习模型按照分布式策略运行的运行代价，可以包括如下操作。

例如，确定按照分布式策略运行深度学习模型的分布式运算拓扑图。基于分布式运算拓扑图，确定深度学习模型的至少一个算子任务。确定至少一个算子任务各自的分布式运算信息。基于单粒度运算时长和至少一个分布式运算信息，确定深度学习模型按照分布式策略运行的运行代价。

根据本公开的实施例，分布式运算拓扑图中包括至少一个分布式算子节点。每个分布式算子节点与一个算子任务相对应。每个算子任务包括分布式运算信息。该分布式运算信息可以包括以下至少一项信息：与计算算子相关的信息、与通信算子相关的信息。与计算算子相关的信息可以包括以下至少一项：计算算子的数量、计算算子的运算类型、输入数据的属性信息。与通信算子相关的信息可以包括以下至少一项：通信算子的数量、通信算子的通信类型、输入数据的属性信息。

根据本公开的实施例，可以基于单粒度运算时长和算子任务的分布式运算信息，确定按照分布式策略运行深度学习模型的运行代价。单粒度运算时长是基于实际运行时长确定的，且分布式运算信息是单个算子任务的信息，其分布式运算信息与深度学习模型的运算粒度相匹配，进而使得单粒度运算时长和算子任务的分布式运算信息相匹配，由此提高分布式策略的运行代价的确定方式的精准性和有效性。

根据本公开的实施例，确定按照分布式策略运行深度学习模型的分布式运算拓扑图，包括：按照等效运算逻辑规则，基于串行运算拓扑图，确定按照分布式策略运行深度学习模型的分布式运算拓扑图。

根据本公开的实施例，分布式运算拓扑图可以包括多个分布式算子节点。每个分布式算子节点与一个分布式算子任务相匹配。串行运算拓扑图也可以包括多个串行算子节点。每个串行算子节点与一个串行算子任务相匹配。

根据本公开的实施例，等效运算逻辑规则，可以是指串行运算拓扑中的每个串行算子节点与分布式运算拓扑图中的一个分布式算子节点相对应的规则。例如，串行算子节点A与分布式算子节点B相对应。与串行算子节点A相对应的串行算子任务A的运算逻辑，与分布式算子节点B相对应的分布式算子任务B的运算逻辑相对应。

根据本公开的实施例，可以针对串行运算拓扑图中的任一串行算子节点，确定与串行算子节点相对应的串行算子任务。按照等效运算逻辑规则，确定与该串行算子任务的运算逻辑相对应的分布式算子任务。基于分布式算子任务和硬件单元部署信息，确定分布式运算拓扑图中的与串行算子节点相对应的分布式算子节点。

根据本公开的实施例，利用等效运算逻辑规则基于串行运算拓扑图确定分布式运算拓扑图，能够实现将串行运算拓扑图中的串行算子节点与分布式运算拓扑图中的分布式算子节点相对应，进而为基于单粒度运算时长与分布式运算拓扑图，确定按照分布式策略运行深度学习模型的运行代价提供基础。

图3示意性示出了根据本公开实施例的确定分布式计算任务的示意图。

如图3所示，利用计算算子P310处理串行算子任务310，串行算子任务310与串行运算拓扑图中的一个串行算子节点相对应。计算算子P310的输入数据包括输入数据X[4，4]和输入数据Y[4，4]。计算算子P310的输出数据为输出数据Z[4，4]。计算算子310的运算类型为矩阵相乘Matmul。

如图3所示，按照等效运算逻辑规则，可以将分布式算子任务320与串行算子任务310相对应。分布式算子任务320与分布式运算拓扑图中的一个分布式算子节点相对应。可以利用计算算子P320、计算算子P330和通信算子P340来处理分布式算子任务320。计算算子P320和计算算子P330各自的运算类型为矩阵相乘Matmul。通信算子P340的通信类型为收集例如All Gather。计算算子P320和计算算子P330分别部署于不同的硬件单元上。

如图3所示，计算算子P320的输入数据包括输入数据X1[4，4]和输入数据Y1[4，2]，计算算子P330的输入数据包括输入数据X2[4，4]和输入数据Y2[4，2]，计算算子P320和计算算子P330各自的输出数据经过通信算子P340处理后，输出数据分别为输出数据Z1[4，4]和输出数据Z2[4，4]。

根据本公开的实施例，可以利用部署于不同硬件单元的多个计算算子与通信算子结合，实现串行逻辑，进而保证分布式算子任务与串行算子任务的等效运算逻辑。

根据本公开的实施例，可以基于算子任务的分布式运算信息，确定该算子任务的任务类型。任务类型可以包括：计算任务、通信任务或者计算任务与通信任务结合。

根据本公开的实施例，基于与算子任务相匹配的分布式运算信息，在确定算子任务包括计算任务和通信任务的情况下，基于单粒度运算时长和至少一个分布式运算信息，确定深度学习模型按照分布式策略运行的运行代价，可以包括如下操作。

例如，确定计算任务的多个分支计算任务。针对多个分支计算任务中的每个分支计算任务，基于分布式运算信息，确定分支计算任务的分支运算信息。基于分支运算信息，确定分支计算任务的分布式浮点运算次数。基于分布式浮点运算次数和单粒度运算时长，确定分支计算任务的分支运行时长。基于多个分支计算任务各自的分支运行时长，确定计算任务的目标运行时长。基于通信任务的通信时长和目标运行时长，确定深度学习模型按照分布式策略运行的运行代价。

根据本公开的实施例，计算任务为通过计算算子执行的任务，通信任务为通过通信算子执行的任务。

根据本公开的实施例，在算子任务包括计算任务和通信任务的情况下，可以基于通信任务的通信时长和目标运行时长，确定算子任务的算子任务运行时长。基于多个算子任务各自的算子任务运行时长，确定深度学习模型按照分布式策略运行的运行代价。

例如，可以将通信时长和目标运行时长相加，得到算子任务运行时长。基于多个算子任务各自的算子任务运行时长，确定运行代价。可以将算子任务运行时长作为运行代价。但是并不局限于此。还可以将多个算子任务各自的算子任务运行时长与预定权重相乘，得到运行代价。预定权重可以是基于硬件单元的性能确定的。硬件单元的性能越好，预定权重的数值可以设置越小。

根据本公开的实施例，计算任务的目标运行时长可以是基于多个分支计算任务各自的分支运行时长确定的。可以为多个分支计算任务各自配置分支权重，加权求和多个分支计算任务各自的分支运行时长，得到目标运行时长。但是并不局限于此。可以从多个分支计算任务各自的分支运行时长中确定一个分支运行时长，作为目标运行时长。利用该种方式确定的目标运行时长，能够体现分布式并行运行的策略。

根据本公开的示例性实施例，可以将多个分支计算任务各自的分支运行时长中时长最大的作为目标运行时长。

图4示意性示出了根据本公开实施例的确定目标运行时长的示意图。

如图4所示，计算任务包括第一分支计算任务410和第二分支计算任务420。确定第一分支计算任务410的第一分支运行时长T1。确定第二分支计算任务420的第二分支运行时长为T2。与计算任务相匹配的还有通信任务。通信任务430的通信时长为T3。可以基于第一分支运行时长T1和第二分支运行时长T2，确定计算任务的目标运行时长。基于目标运行时长和通信时长，确定运行代价T，可参照公式(1)。

T＝max(T1，T2)+T3；公式(1)

根据本公开的实施例，确定分支计算任务的分支运行时长，可以包括：将分布式浮点运算次数和单粒度运算时长相乘，得到分支运行时长。

根据本公开的实施例，分支计算任务的单粒度运算时长可以为串行计算任务的单粒度运算时长。

根据本公开的实施例，分布式运算信息可以指与分布式计算任务相对应的信息。分布式运算信息可以包括与多个分支计算任务一一对应的多个分支运算信息和通信任务信息。

根据本公开的实施例，分支运算信息包括计算算子的分布式输入数据的属性信息和计算算子的运算类型。

根据本公开的实施例，基于分支运算信息，确定分支计算任务的分布式浮点运算次数，可以包括如下操作。

例如，基于计算算子的运算类型和分布式输入数据的属性信息，确定分支计算任务的分布式浮点运算次数。

根据本公开的示例性实施例，基于计算算子的运算类型和分布式输入数据的属性信息，确定分支计算任务的分布式浮点运算次数，包括如下操作。

例如，基于计算算子的运算类型，确定计算算子的分布式浮点运算次数确定方式。按照计算算子的分布式浮点运算次数确定方式，基于分布式输入数据的属性信息，确定分支计算任务的分布式浮点运算次数。

需要说明的是，单个计算算子的串行浮点运算次数的确定方式与分布式浮点运算次数的确定方式类似。串行浮点运算次数或者分布式浮点运算次数的命名，仅是为了区分是按照串行策略得到的浮点运算次数还是按照分布式策略得到的浮点运算次数。

根据本公开的实施例，分布式浮点运算次数，可以基于计算算子的输入数据的属性信息、计算算子的运算类型来确定，确定方式简单、精准且快速的同时，能够与按照串行策略运行深度学习模型的单个浮点运算时长相适配，进而使得基于单粒度运算时长和分布式浮点运算次数确定的分支运行时长与按照分布式策略运行深度学习模型的实际运行时长之间的误差小，由此提高深度学习模型按照分布式策略运行的运行代价的精度。

根据本公开的实施例，在算子任务的任务类型包括通信任务的情况下，确定深度学习模型按照分布式策略运行的运行代价包括：确定通信任务的通信时长。

根据本公开的实施例，可以根据通信类型的不同，将通信算子划分为例如Allreduce Sum(多对多的规约求和)通信算子、Broad Cast(一对多的广播)通信算子、AllGather(多对多的收集)通信算子等。

图5A示意性示出了根据本公开实施例的一种通信类型的通信算子的示意图。

如图5A所示，在数据并行的分布式策略中，可以利用All reduce Sum通信算子P510处理对梯度进行通信并累加的通信任务。以便后续优化器对累加后的梯度进行参数更新操作。

图5B示意性示出了根据本公开实施例的另一种通信类型的通信算子的示意图。

如图5B所示，在流水线并行的分布式策略中，在计算算子P520所需的输入数据与该计算算子P520不适配的情况下，可以利用通信算子P530对输入数据进行Send/Recv通信处理。以便经通信算子P530处理后的数据作为输入数据与计算算子P520适配。由此保证计算算子P520能够顺利执行。

根据本公开的实施例，可以基于通信类型确定通信算子的通信时长。但是并不局限于此。还可以对通信算子预先设置计算公式，基于通信算子的属性信息例如通信类型、通信数据等信息，利用计算公式例如alpha-beta模型得到通信算子的通信时长。

根据本公开的实施例，将通信任务的耗时计算在运行代价中，能够贴近按照分布式策略运行深度学习模型的真实场景，有效提高确定运行代价的准确度。

根据本公开的其他实施例，基于通信任务的通信时长和目标运行时长，确定深度学习模型按照分布式策略运行的运行代价，还可以包括：确定分布式策略的内存消耗。基于多个算子任务各自算子任务运行时长和内存消耗，确定深度学习模型按照分布式策略运行的运行代价。

根据本公开的实施例，确定分布式策略的内存消耗，可以包括：按照分布式策略对计算算子进行第一次遍历，根据计算算子的输入张量例如输入数据和输出张量例如输出数据的数据维度和数据类型，确定输入张量和输出张量各自所占字节数。按照分布式策略对计算算子进行第二次遍历，确定输入张量是否为上一个计算算子的输出张量。在确定该输入张量为首次出现的情况，则进行累加该输入张量的字节数；在确定输出张量为最后一次出现的情况，则减去该输出张量的字节数。基于两次遍历得到的字节数，确定峰值内存消耗。可以将峰值内存消耗作为分布式策略的内存消耗。

根据本公开的实施例，可以将内存消耗与多个算子任务各自算子任务运行时长相加，得到运行代价。但是并不局限于此，还可以将多个算子任务各自算子任务运行时长和内存消耗各自配置权重，加权求和得到运行代价。运行代价的确定方式不做限定，只要是能够基于多个算子任务各自算子任务运行时长和内存消耗确定即可。

根据本公开的实施例，利用本公开实施例的模型运行策略确定方法，能够适用于不同的深度学习模型和资源平台，提供较为准确的运行代价，为分布式策略的确定提供指导意义。

图6示意性示出了根据本公开实施例的模型运行策略确定装置的框图。

如图6所示，模型运行策略确定装置600，包括：第一确定模块610、第二确定模块620、第三确定模块630以及第四确定模块640。

第一确定模块610，用于确定深度学习模型按照串行策略运行的实际运行时长，其中，串行策略表征深度学习模型在单一硬件单元上运行的策略。

第二确定模块620，用于基于实际运行时长，确定关于深度学习模型的单粒度运算时长。

第三确定模块630，用于针对多个分布式策略中的每个分布式策略，基于深度学习模型的单粒度运算时长，确定深度学习模型按照分布式策略运行的运行代价，其中，分布式策略表征在多个硬件单元上运行深度学习模型的策略。

第四确定模块640，用于基于多个分布式策略各自的运行代价，从多个分布式策略中确定要应用于多个硬件单元的目标分布式策略。

根据本公开的实施例，第二确定模块包括：第一确定子模块。

第一确定子模块，用于基于实际运行时长，确定关于深度学习模型的单个浮点运算时长。

根据本公开的实施例，第一确定子模块包括：第一确定单元、第二确定单元以及第三确定单元。

第一确定单元，用于确定用于按照串行策略运行深度学习模型的多个计算算子。

第二确定单元，用于针对多个计算算子中的每个计算算子，确定计算算子的串行浮点运算次数。

第三确定单元，用于基于多个计算算子各自的串行浮点运算次数和实际运行时长，确定关于深度学习模型的单个浮点运算时长。

根据本公开的实施例，第二确定单元包括：第一确定子单元以及第二确定子单元。

第一确定子单元，用于确定计算算子的串行运算信息。

第二确定子单元，用于基于串行运算信息，确定计算算子的串行浮点运算次数。

根据本公开的实施例，串行运算信息包括计算算子的串行输入数据的属性信息和计算算子的运算类型。

根据本公开的实施例，第二确定子单元，用于基于计算算子的运算类型和串行输入数据的属性信息，确定计算算子的串行浮点运算次数。

根据本公开的实施例，基于计算算子的运算类型和串行输入数据的属性信息，确定计算算子的串行浮点运算次数，包括：基于计算算子的运算类型，确定计算算子的串行浮点运算次数确定方式。按照计算算子的串行浮点运算次数确定方式，基于串行输入数据的属性信息，确定计算算子的串行浮点运算次数。

根据本公开的实施例，第三确定模块包括：第二确定子模块、第三确定子模块、第四确定子模块以及第五确定子模块。

第二确定子模块，用于确定按照分布式策略运行深度学习模型的分布式运算拓扑图。

第三确定子模块，用于基于分布式运算拓扑图，确定深度学习模型的至少一个算子任务。

第四确定子模块，用于确定至少一个算子任务各自的分布式运算信息。

第五确定子模块，用于基于单粒度运算时长和至少一个分布式运算信息，确定深度学习模型按照分布式策略运行的运行代价。

根据本公开的实施例，第五确定子模块包括：第四确定单元、第五确定单元、第六确定单元、第七确定单元、第八确定单元以及第九确定单元。

第四确定单元，用于基于与算子任务相匹配的分布式运算信息，在确定算子任务包括计算任务和通信任务的情况下，确定计算任务的多个分支计算任务，其中，计算任务为通过计算算子执行的任务，通信任务为通过通信算子执行的任务。

针对多个分支计算任务中的每个分支计算任务，

第五确定单元，用于确定分支计算任务的分支运算信息。

第六确定单元，用于基于分支运算信息，确定分支计算任务的分布式浮点运算次数。

第七确定单元，用于基于分布式浮点运算次数和单粒度运算时长，确定分支计算任务的分支运行时长。

第八确定单元，用于基于多个分支计算任务各自的分支运行时长，确定计算任务的目标运行时长。

第九确定单元，用于基于通信任务的通信时长和目标运行时长，确定深度学习模型按照分布式策略运行的运行代价。

根据本公开的实施例，第六确定单元包括：第三确定子单元。

第三确定子单元，用于基于计算算子的运算类型和分布式输入数据的属性信息，确定分支计算任务的分布式浮点运算次数。

根据本公开的实施例，第三确定子单元用于：基于计算算子的运算类型，确定计算算子的分布式浮点运算次数确定方式。

按照计算算子的分布式浮点运算次数确定方式，基于分布式输入数据的属性信息，确定分支计算任务的分布式浮点运算次数。

根据本公开的实施例，模型运行策略确定装置还包括：接收模块、第五确定模块以及第六确定模块。

接收模块，用于接收来自客户端的用于训练深度学习模型的请求。

第五确定模块，用于从请求中确定关于深度学习模型的串行运算拓扑图，其中，串行运算拓扑图包括多个计算算子之间的运行顺序。

第六确定模块，用于基于串行运算拓扑图，确定深度学习模型的串行策略。

根据本公开的实施例，第二确定子模块包括：第十确定单元。

第十确定单元，用于按照等效运算逻辑规则，基于串行运算拓扑图，确定按照分布式策略运行深度学习模型的分布式运算拓扑图。

根据本公开的实施例，硬件单元包括以下至少一项：图形处理器、中央处理器、神经网络处理器。

根据本公开的实施例，模型运行策略确定装置还包括：运行模块。

运行模块，用于按照目标分布式策略运行深度学习模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如模型运行策略确定方法。例如，在一些实施例中，模型运行策略确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的模型运行策略确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型运行策略确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型运行策略确定方法，包括：

确定深度学习模型按照串行策略运行的实际运行时长，其中，所述串行策略表征所述深度学习模型在单一硬件单元上运行的策略；

基于所述实际运行时长，确定关于所述深度学习模型的单粒度运算时长；

针对多个分布式策略中的每个分布式策略，基于所述深度学习模型的单粒度运算时长，确定所述深度学习模型按照所述分布式策略运行的运行代价，其中，所述分布式策略表征在多个硬件单元上运行所述深度学习模型的策略；以及

基于所述多个分布式策略各自的运行代价，从所述多个分布式策略中确定要应用于所述多个硬件单元的目标分布式策略；

所述基于所述实际运行时长，确定关于所述深度学习模型的单粒度运算时长，包括：

基于所述实际运行时长，确定关于所述深度学习模型的单个浮点运算时长；

其中，所述基于所述实际运行时长，确定关于所述深度学习模型的单个浮点运算时长，包括：

确定用于按照串行策略运行所述深度学习模型的多个计算算子；

针对所述多个计算算子中的每个计算算子，确定所述计算算子的串行浮点运算次数，其中，所述串行浮点运算次数指示了计算算子执行了单粒度运算的次数；以及

基于多个所述计算算子各自的串行浮点运算次数和所述实际运行时长，确定关于所述深度学习模型的单个浮点运算时长。

2.根据权利要求1所述的方法，其中，所述确定所述计算算子的串行浮点运算次数，包括：

确定所述计算算子的串行运算信息；以及

基于所述串行运算信息，确定所述计算算子的所述串行浮点运算次数。

3.根据权利要求2所述的方法，其中，所述串行运算信息包括所述计算算子的串行输入数据的属性信息和所述计算算子的运算类型；

所述基于所述串行运算信息，确定所述计算算子的所述串行浮点运算次数，包括：

基于所述计算算子的运算类型和所述串行输入数据的属性信息，确定所述计算算子的串行浮点运算次数。

4.根据权利要求3所述的方法，其中，所述基于所述计算算子的运算类型和所述串行输入数据的属性信息，确定所述计算算子的串行浮点运算次数，包括：

基于所述计算算子的运算类型，确定所述计算算子的串行浮点运算次数确定方式；以及

按照所述计算算子的串行浮点运算次数确定方式，基于所述串行输入数据的属性信息，确定所述计算算子的串行浮点运算次数。

5.根据权利要求1所述的方法，其中，所述基于所述深度学习模型的单粒度运算时长，确定所述深度学习模型按照分布式策略运行的运行代价，包括：

确定按照所述分布式策略运行所述深度学习模型的分布式运算拓扑图；

基于所述分布式运算拓扑图，确定所述深度学习模型的至少一个算子任务；

确定所述至少一个算子任务各自的分布式运算信息；以及

基于所述单粒度运算时长和至少一个所述分布式运算信息，确定所述深度学习模型按照分布式策略运行的运行代价。

6.根据权利要求5所述的方法，其中，所述基于所述单粒度运算时长和至少一个所述分布式运算信息，确定所述深度学习模型按照分布式策略运行的运行代价，包括：

基于与所述算子任务相匹配的所述分布式运算信息，在确定所述算子任务包括计算任务和通信任务的情况下，确定所述计算任务的多个分支计算任务，其中，所述计算任务为通过计算算子执行的任务，所述通信任务为通过通信算子执行的任务；

针对所述多个分支计算任务中的每个分支计算任务，

确定所述分支计算任务的分支运算信息；

基于所述分支运算信息，确定所述分支计算任务的分布式浮点运算次数；

基于所述分布式浮点运算次数和所述单粒度运算时长，确定所述分支计算任务的分支运行时长；

基于多个所述分支计算任务各自的分支运行时长，确定所述计算任务的目标运行时长；以及

基于所述通信任务的通信时长和所述目标运行时长，确定所述深度学习模型按照分布式策略运行的运行代价。

7.根据权利要求6所述的方法，其中，所述分支运算信息包括所述计算算子的分布式输入数据的属性信息和所述计算算子的运算类型；

所述基于所述分支运算信息，确定所述分支计算任务的分布式浮点运算次数，包括：

基于所述计算算子的运算类型和所述分布式输入数据的属性信息，确定所述分支计算任务的分布式浮点运算次数。

8.根据权利要求7所述的方法，其中，所述基于所述计算算子的运算类型和所述分布式输入数据的属性信息，确定所述分支计算任务的分布式浮点运算次数，包括：

基于所述计算算子的运算类型，确定所述计算算子的分布式浮点运算次数确定方式；以及

按照所述计算算子的分布式浮点运算次数确定方式，基于所述分布式输入数据的属性信息，确定所述分支计算任务的分布式浮点运算次数。

9.根据权利要求5所述的方法，还包括：

接收来自客户端的用于训练所述深度学习模型的请求；

从所述请求中确定关于所述深度学习模型的串行运算拓扑图，其中，所述串行运算拓扑图包括多个所述计算算子之间的运行顺序；以及

基于所述串行运算拓扑图，确定所述深度学习模型的串行策略。

10.根据权利要求9所述的方法，其中，所述确定按照所述分布式策略运行所述深度学习模型的分布式运算拓扑图，包括：

按照等效运算逻辑规则，基于所述串行运算拓扑图，确定按照所述分布式策略运行所述深度学习模型的所述分布式运算拓扑图。

11.根据权利要求1所述的方法，其中，所述硬件单元包括以下至少一项：图形处理器、中央处理器、神经网络处理器。

12.根据权利要求1所述的方法，还包括：

按照所述目标分布式策略运行所述深度学习模型。

13.一种模型运行策略确定装置，包括：

第一确定模块，用于确定深度学习模型按照串行策略运行的实际运行时长，其中，所述串行策略表征所述深度学习模型在单一硬件单元上运行的策略；

第二确定模块，用于基于所述实际运行时长，确定关于所述深度学习模型的单粒度运算时长；

第三确定模块，用于针对多个分布式策略中的每个分布式策略，基于所述深度学习模型的单粒度运算时长，确定所述深度学习模型按照所述分布式策略运行的运行代价，其中，所述分布式策略表征在多个硬件单元上运行所述深度学习模型的策略；以及

第四确定模块，用于基于所述多个分布式策略各自的运行代价，从所述多个分布式策略中确定要应用于所述多个硬件单元的目标分布式策略；

其中，所述第二确定模块包括：

第一确定子模块，用于基于所述实际运行时长，确定关于所述深度学习模型的单个浮点运算时长；

其中，所述第一确定子模块包括：

第一确定单元，用于确定用于按照串行策略运行所述深度学习模型的多个计算算子；

第二确定单元，用于针对所述多个计算算子中的每个计算算子，确定所述计算算子的串行浮点运算次数，其中，所述串行浮点运算次数指示了计算算子执行了单粒度运算的次数；以及

第三确定单元，用于基于多个所述计算算子各自的串行浮点运算次数和所述实际运行时长，确定关于所述深度学习模型的单个浮点运算时长。

14.根据权利要求13所述的装置，其中，所述第二确定单元包括：

第一确定子单元，用于确定所述计算算子的串行运算信息；以及

第二确定子单元，用于基于所述串行运算信息，确定所述计算算子的所述串行浮点运算次数。

15.根据权利要求14所述的装置，其中，所述串行运算信息包括所述计算算子的串行输入数据的属性信息和所述计算算子的运算类型；

所述第二确定子单元，用于基于所述计算算子的运算类型和所述串行输入数据的属性信息，确定所述计算算子的串行浮点运算次数。

16.根据权利要求15所述的装置，其中，所述基于所述计算算子的运算类型和所述串行输入数据的属性信息，确定所述计算算子的串行浮点运算次数，包括：

17.根据权利要求13所述的装置，其中，所述第三确定模块包括：

第二确定子模块，用于确定按照所述分布式策略运行所述深度学习模型的分布式运算拓扑图；

第三确定子模块，用于基于所述分布式运算拓扑图，确定所述深度学习模型的至少一个算子任务；

第四确定子模块，用于确定所述至少一个算子任务各自的分布式运算信息；以及

第五确定子模块，用于基于所述单粒度运算时长和至少一个所述分布式运算信息，确定所述深度学习模型按照分布式策略运行的运行代价。

18.根据权利要求17所述的装置，其中，所述第五确定子模块包括：

第四确定单元，用于基于与所述算子任务相匹配的所述分布式运算信息，在确定所述算子任务包括计算任务和通信任务的情况下，确定所述计算任务的多个分支计算任务，其中，所述计算任务为通过计算算子执行的任务，所述通信任务为通过通信算子执行的任务；

针对所述多个分支计算任务中的每个分支计算任务，

第五确定单元，用于确定所述分支计算任务的分支运算信息；

第六确定单元，用于基于所述分支运算信息，确定所述分支计算任务的分布式浮点运算次数；

第七确定单元，用于基于所述分布式浮点运算次数和所述单粒度运算时长，确定所述分支计算任务的分支运行时长；

第八确定单元，用于基于多个所述分支计算任务各自的分支运行时长，确定所述计算任务的目标运行时长；以及

第九确定单元，用于基于所述通信任务的通信时长和所述目标运行时长，确定所述深度学习模型按照分布式策略运行的运行代价。

19.根据权利要求18所述的装置，其中，所述分支运算信息包括所述计算算子的分布式输入数据的属性信息和所述计算算子的运算类型；

所述第六确定单元包括：

第三确定子单元，用于基于所述计算算子的运算类型和所述分布式输入数据的属性信息，确定所述分支计算任务的分布式浮点运算次数。

20.根据权利要求19所述的装置，其中，所述第三确定子单元用于：

21.根据权利要求17所述的装置，还包括：

接收模块，用于接收来自客户端的用于训练所述深度学习模型的请求；

第五确定模块，用于从所述请求中确定关于所述深度学习模型的串行运算拓扑图，其中，所述串行运算拓扑图包括多个所述计算算子之间的运行顺序；以及

第六确定模块，用于基于所述串行运算拓扑图，确定所述深度学习模型的串行策略。

22.根据权利要求21所述的装置，其中，所述第二确定子模块包括：

第十确定单元，用于按照等效运算逻辑规则，基于所述串行运算拓扑图，确定按照所述分布式策略运行所述深度学习模型的所述分布式运算拓扑图。

23.根据权利要求13所述的装置，其中，所述硬件单元包括以下至少一项：图形处理器、中央处理器、神经网络处理器。

24.根据权利要求13所述的装置，还包括：

运行模块，用于按照所述目标分布式策略运行所述深度学习模型。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至12中任一项所述的方法。