CN115860055B

CN115860055B - 性能确定方法、性能优化方法、装置、电子设备以及介质

Info

Publication number: CN115860055B
Application number: CN202211496204.XA
Authority: CN
Inventors: 刘益群; 张婷; 李铭书; 张政; 蓝翔; 陈坚; 吴泽武
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2024-01-02
Anticipated expiration: 2042-11-23
Also published as: CN115860055A

Abstract

本公开提供了一种性能确定方法、性能优化方法、装置、电子设备以及介质，涉及人工智能技术领域，尤其涉及深度学习技术领域。具体实现方案为：响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，性能指标值用于评估第一深度学习模型在第一训练阶段的资源消耗程度；以及，根据至少一个预定性能指标阈值和至少一个性能指标值，确定第一深度学习模型在第一训练阶段的性能限制信息。

Description

性能确定方法、性能优化方法、装置、电子设备以及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习技术领域。具体地，涉及一种性能确定方法、性能优化方法、装置、电子设备以及介质。

背景技术

人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习技术和深度学习技术等。随着人工智能技术的发展，深度学习技术的应用范围越来越广泛。深度学习技术可以包括深度学习模型的训练过程和经训练的深度学习模型的应用过程。

发明内容

本公开提供了一种用于性能确定方法、性能优化方法、装置、电子设备以及介质。

根据本公开的一方面，提供了一种深度学习模型的性能确定方法，包括：响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，上述性能指标值用于评估上述第一深度学习模型在第一训练阶段的资源消耗程度；以及，根据至少一个预定性能指标阈值和上述至少一个性能指标值，确定上述第一深度学习模型在上述第一训练阶段的性能限制信息。

根据本公开的另一方面，提供了一种分布式深度学习平台的性能优化方法，包括：利用深度学习模型的性能确定方法确定第三深度学习模型在第二训练阶段的第二性能限制信息，其中，上述第三深度学习模型部署于上述分布式深度学习平台；根据上述第二性能限制信息，确定性能优化策略；以及，根据上述性能优化策略对上述第二训练阶段进行优化。

根据本公开的另一方面，提供了一种深度学习模型的性能确定装置，包括：第一确定模块，用于响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，上述性能指标值用于评估上述第一深度学习模型在第一训练阶段的资源消耗程度；以及，第二确定模块，用于根据至少一个预定性能指标阈值和上述至少一个性能指标值，确定上述第一深度学习模型在上述第一训练阶段的性能限制信息。

根据本公开的另一方面，提供了一种分布式深度学习平台的性能优化装置，包括：第五确定模块，用于利用深度学习模型的性能确定装置确定第三深度学习模型在第二训练阶段的第二性能限制信息，其中，上述第三深度学习模型部署于上述分布式深度学习平台；第六确定模块，用于根据上述第二性能限制信息，确定性能优化策略；以及，优化模块，用于根据上述性能优化策略对上述第二训练阶段进行优化。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本公开所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如本公开所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本公开所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的深度学习模型的性能确定方法的流程图；

图3A示意性示出了根据本公开实施例的根据至少一个第一耗时比确定第一性能指标值的示例示意图；

图3B示意性示出了根据本公开实施例的确定第四耗时的示例示意图；

图4A示意性示出了根据本公开实施例的根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息的流程图；

图4B示意性示出了根据本公开另一实施例的根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息的流程图；

图4C示意性示出了根据本公开实施例的响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一处理器限制信息的流程图；

图5示意性示出了根据本公开实施例的至少一个性能指标的影响程度的示例示意图；

图6示意性示出了根据本公开实施例的分布式深度学习平台的性能优化方法的流程图；

图7A示意性示出了根据本公开实施例的分布式深度学习平台的性能优化方法的流程图；

图7B示意性示出了根据本公开另一实施例的分布式深度学习平台的性能优化方法的流程图；

图8示意性示出了根据本公开实施例的深度学习模型的性能确定装置的框图；

图9示意性示出了根据本公开实施例的分布式深度学习平台的性能优化装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现深度学习模型的性能确定方法和分布式深度学习平台的性能优化方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

由于深度神经网络(Deep Neural Network，DNN)模型的训练阶段的耗时较长，因此，训练性能是模型开发者关注的问题。深度学习框架可以结合硬件特性提供统一的加速方案，但由于模型结构的多样性和实际运行环境的复杂性，因此，深度学习框架提供的加速方案难以有效达到预期性能优化效果。模型开发者可以利用性能分析工具确定性能限制，再根据性能限制进行优化。

在相关技术中，性能分析工具提供了确定核函数执行信息和硬件资源消耗信息的功能。由于性能分析工具包括了较多的细节数据，因此，能否准确确定性能限制依赖于模型开发工作者的经验，增加了模型开发者的学习成本和使用难度，由此，增加了性能限制的确定难度和性能限制的确定耗时，进而降低了模型的训练速度和资源利用率，从而增加了模型开发周期。

为此，本公开提出了一种深度学习模型的性能确定方案。例如，响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，性能指标值用于评估第一深度学习模型在第一训练阶段的资源消耗程度；以及，根据至少一个预定性能指标阈值和至少一个性能指标值，确定第一深度学习模型在第一训练阶段的性能限制信息。

根据本公开的实施例，由于性能指标值用于评估深度学习模型在训练阶段的资源消耗程度，通过根据至少一个预定性能指标阈值和至少一个性能指标值，确定深度学习模型在训练阶段的性能限制信息，实现了能够较为快速和准确地确定深度学习模型的性能限制，进而提高了深度学习模型的训练速度和资源利用率，从而缩短了深度学习模型的开发周期。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法及装置。

如图1所示，根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如，有线和无线通信链路等中的至少之一。终端设备可以包括第一终端设备101、第二终端设备102和第三终端设备103中的至少之一。

用户可以使用第一终端设备1 01、第二终端设备102和第三终端设备103中的至少之一通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102和第三终端设备103中的至少之一可以安装有各种通讯客户端应用。例如，知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备。例如，电子设备可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。

服务器105可以是提供各种服务的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。

需要说明的是，本公开实施例所提供的深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法一般可以由第一终端设备101、第二终端设备102和第三终端设备103中的之一执行。相应地，本公开实施例所提供的深度学习模型的性能确定装置、分布式深度学习平台的性能优化装置也可以设置于第一终端设备101、第二终端设备102和第三终端设备103中的之一。

备选地，本公开实施例所提供的深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法一般也可以由服务器105执行。相应地，本公开实施例所提供的深度学习模型的性能确定装置、分布式深度学习平台的性能优化装置一般可以设置于服务器105中。本公开实施例所提供的深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群执行。相应地，本公开实施例所提供的深度学习模型的性能确定装置、分布式深度学习平台的性能优化装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群中。

应该理解，图1中的第一终端设备、第二终端设备、第三终端设备网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的第一终端设备、第二终端设备、第三终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的深度学习模型的性能确定方法的流程图。

如图2所示，该方法200包括操作S210～S220。

在操作S210，响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值。

在操作S220，根据至少一个预定性能指标阈值和至少一个性能指标值，确定第一深度学习模型在第一训练阶段的性能限制信息。

根据本公开的实施例，性能指标值可以用于评估第一深度学习模型在第一训练阶段的资源消耗程度。

根据本公开的实施例，可以将生成性能确定指令的代码预先写入脚本中，当需要确定深度学习模型的性能的情况下，用户可以通过终端设备运行该脚本，以生成性能确定指令，并将性能确定指令发送至服务器，以便于服务器根据该性能确定指令对深度学习模型的性能进行评估，以确定深度学习模型的性能限制信息。

根据本公开的实施例，第一深度学习模型的模型结构可以根据实际业务需求进行配置，在此不作限定。例如，第一深度学习模型可以包括以下至少之一：基于卷积神经网络(Convolutional Neural Networks，CNN)的第一深度学习模型、基于循环神经网络(Recurrent Neural Network，RNN)的第一深度学习模型和基于转换器(Transformer)的第一深度学习模型。第一深度学习模型的训练方式可以根据实际业务需求进行配置，在此不作限定。例如，训练方式可以包括以下至少之一：无监督训练、有监督训练和半监督训练。

根据本公开的实施例，深度学习模型的训练阶段可以包括数据准备阶段、模型定义阶段、反向计算阶段和参数更新阶段。数据准备阶段可以包括数据获取子阶段和数据预处理子阶段。数据获取子阶段可以指获取训练数据的阶段。例如，可以从磁盘或者数据库中获取训练数据。备选地，可以利用数据获取接口(例如，Data Loader接口)，将用户提供的训练数据传输至存储设备。数据预处理子阶段可以指对所获取的训练数据进行预处理的阶段。例如，可以对所获取的训练数据进行以下操作中的至少之一：裁剪处理和增强处理。

根据本公开的实施例，模型定义阶段可以指构建前向网络的阶段。例如，可以利用深度学习框架提供的接口构建前向网络，创建前向算子和反向算子，以供后续阶段使用。反向计算阶段可以指执行反向网络的阶段。参数更新阶段可以指更新网络参数的阶段。例如，可以获取网络参数，执行优化器以进行参数更新。

根据本公开的实施例，在检测到针对第一深度学习模型的性能确定指令之后，可以确定与至少一个性能指标对应的性能指标值。第一深度学习模型的模型性能可以利用性能指标来表征。第一深度学习模型的性能指标可以包括以下至少之一：准确率(即Accuracy)、召回率(即Recall)、准确率(即Precision)、错误率(即Error Rate)、F函数值(即F1-Measure)、与中央处理器相关的性能和与图形处理器相关的性能。

根据本公开的实施例，与至少一个性能指标对应的性能指标值可以用于评估第一深度学习模型在第一训练阶段的资源消耗程度。资源可以包括以下之中至少之一：与中央处理器(Central Processing Unit，CPU)相关的资源、图形处理器(Graphics ProcessingUnit，GPU)相关的资源和现场可编程门阵列(Field-Programmable Gate Array，FPGA)相关的资源等。

例如，在资源包括中央处理器资源的情况下，性能指标值可以用于评估第一深度学习模型在第一训练阶段与中央处理器相关的资源的资源消耗程度。在此情况下，与中央处理器相关的性能指标值可以包括以下至少之一：执行数据读取操作所消耗的时长、完成训练操作所消耗的时长和在第一训练阶段训练第一深度学习模型所消耗的时长。

例如，在资源包括图形处理器资源的情况下，性能指标值可以用于评估第一深度学习模型在第一训练阶段与图形处理器相关的资源的资源消耗程度。在此情况下，与图形处理器相关的性能指标值可以包括以下至少之一：执行数据同步操作的次数、与同步操作次数对应的耗时、在第一训练阶段训练第一深度学习模型所消耗的时长和整体资源利用率。

根据本公开的实施例，在获得至少一个性能指标值之后，可以根据至少一个预定性能指标阈值和至少一个性能指标值，确定第一深度学习模型在第一训练阶段的性能限制信息。性能限制信息可以包括以下至少之一：第一读取限制信息、第一同步限制信息和第一处理器限制信息。

例如，至少一个性能指标值可以包括第五性能指标值和第六性能指标值，可以具有与第五性能指标值对应的第五预定性能指标阈值、与第六性能指标值对应的第六预定性能指标阈值，在此情况下，可以根据第五性能指标值和第五预定性能指标阈值确定第一性能限制信息，根据第六性能指标值和第六预定性能指标阈值确定第三性能限制信息。备选地，第五性能指标值和第六性能指标值可以同时对应于第七预定性能指标阈值，在此情况下，可以根据第五性能指标值和第七预定性能指标阈值确定第四性能限制信息，根据第六性能指标值和第七预定性能指标阈值确定第五性能限制信息。

下面参考图3A、图3B、图4A、图4B和图5，结合具体实施例对根据本公开实施例的深度学习模型的性能确定方法200做进一步说明。

根据本公开的实施例，操作S220可以包括如下操作。

将至少一个性能指标值和与至少一个性能指标值各自对应的预定性能指标阈值进行比较，得到比较信息。根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息。

根据本公开的实施例，在获得至少一个性能指标值之后，可以将至少一个性能指标值和与至少一个性能指标值各自对应的预定性能指标阈值进行比较，得到比较信息。比较信息可以由于表征性能指标值与对应的预定性能指标阈值之间的关系。

例如，至少一个性能指标值可以包括第七性能指标值和第八性能指标值。第七性能指标值可以对应有第八预定性能指标阈值，第八性能指标值可以对应有第九预定性能指标阈值。在此情况下，可以根据第七性能指标值和第八预定性能指标阈值得到第一比较信息，根据第八性能指标值和第九预定性能指标阈值得到第二比较信息。可以根据第一比较信息，确定第一深度学习模型在第一训练阶段的第五性能限制信息。根据第二比较信息，确定第一深度学习模型在第一训练阶段的第六性能限制信息。备选地，可以根据第一比较信息和第二比较信息，确定第三比较信息。根据第三比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息。

根据本公开的实施例，由于比较信息是通过将至少一个性能指标值和与至少一个性能指标值各自对应的预定性能指标阈值进行比较得到的，因而比较信息能够表征至少一个性能指标值和各自的预定性能指标阈值之间的关系。在此基础上，通过根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息，提高了确定深度学习模型的性能限制的针对性和准确性。

根据本公开的实施例，至少一个性能指标值可以包括以下至少之一：第一性能指标值、第二性能指标值和第三性能指标值。

根据本公开的实施例，第一性能指标值可以表征读取操作对第一深度学习模型的第一训练阶段的影响程度，读取操作可以表征由中央处理器在第一深度学习模型的第一训练阶段执行的数据读取操作。

根据本公开的实施例，第二性能指标值可以表征同步操作对第一深度学习模型的第一训练阶段的影响程度，同步操作可以表征由图形处理器在第一深度学习模型的第一训练阶段执行的数据同步操作。

根据本公开的实施例，第三性能指标值可以表征图形处理器的整体资源利用率对第一深度学习模型的第一训练阶段的影响程度。

根据本公开的实施例，第一性能指标值可以表征读取操作对第一深度学习模型的第一训练阶段的影响程度。

根据本公开的实施例，第一性能指标值可以表征读取操作对第一深度学习模型的第一训练阶段的影响程度。例如，第一性能指标值可以理解为平均读取操作所消耗的时长。可以根据与批轮次对应的中央处理器在批轮次执行数据读取操作所消耗的时长和中央处理器完成批轮次的训练操作所消耗的时长确定第一性能指标值。在此情况下，第一性能指标值可以通过如下式(1)确定。

其中，reader_cost可以表征与批轮次对应的中央处理器在批轮次执行数据读取操作所消耗的时长，batch_cost可以表征中央处理器完成批轮次的训练操作所消耗的时长，Avg_cost可以表征第一性能指标值。

根据本公开的实施例，第二性能指标值可以表征同步操作对第一深度学习模型的第一训练阶段的影响程度。同步操作可以表征由图形处理器在第一深度学习模型的第一训练阶段执行的数据同步操作。数据同步操作可以包括以下至少之一：由中央处理器至图形处理器的数据同步操作(即HtoD)、由图形处理器至图形处理器的数据同步操作(即DtoD)和由图形处理器至中央处理器的数据同步操作(即DtoH)。

根据本公开的实施例，第三性能指标值可以表征图形处理器的整体资源利用率对第一深度学习模型的第一训练阶段的影响程度。例如，可以根据图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长和中央处理器在第一训练阶段训练第一深度学习模型所消耗的时长确定第三性能指标值。在此情况下，第三性能指标值可以通过如下式(2)确定。

其中，GPU time可以表征图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长，CPU time可以表征中央处理器在第一训练阶段训练第一深度学习模型所消耗的时长，Avg_utilization可以表征图形处理器的整体资源利用率。

根据本公开的实施例，由于第一性能指标值能够表征读取操作对第一深度学习模型的第一训练阶段的影响程度，因而第一性能指标值能够用于评估由中央处理器执行的数据读取操作。此外，由于第二性能指标值能够表征同步操作对第一深度学习模型的第一训练阶段的影响程度，因而第二性能指标值能够评估由图形处理器执行的数据同步操作。另外，由于第三性能指标值能够表征图形处理器的整体资源利用率对第一深度学习模型，因而第三性能指标值能够评估图形处理器的整体资源利用率。由此，通过第一性能指标值、第二性能指标值和第三性能指标值，能够较为快速和准确地确定深度学习模型的性能限制。

根据本公开的实施例，第一性能指标值是根据至少一个第一耗时比确定的，第一耗时比是根据与批轮次对应的第一耗时和第二耗时确定的，第一耗时表征中央处理器在批轮次执行数据读取操作所消耗的时长，第二耗时表征中央处理器完成批轮次的训练操作所消耗的时长。

根据本公开的实施例，第二性能指标值是根据同步操作次数和第二耗时比中的至少之一确定的，同步操作次数表征由图形处理器在第一深度学习模型的第一训练阶段执行数据同步操作的次数，第二耗时比是根据第三耗时和第四耗时确定的，第三耗时表征与同步操作次数对应的耗时，第四耗时表征图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长。

根据本公开的实施例，第三性能指标值是根据第三耗时比确定的，第三耗时比表征整体资源利用率，第三耗时比是根据第四耗时和第五耗时确定的，第五耗时表征中央处理器在第一训练阶段训练第一深度学习模型所消耗的时长。

根据本公开的实施例，第一训练阶段可以包括至少一个批轮次。

根据本公开的实施例，第一训练阶段可以包括至少一个批轮次。至少一个批轮次中的每个批轮次(即batch)可以分别用于表征第一训练阶段中的一个迭代周期。例如，至少一个批轮次可以包括batch 1、batch 2、...、batch m、...、batch M。M可以是大于或等于1的整数，m∈{1，2，…，(M-1)，M}。

根据本公开的实施例，可以根据中央处理器在批轮次执行数据读取操作所消耗的时长，确定第一耗时。根据中央处理器完成批轮次的训练操作所消耗的时长，确定第二耗时。可以确定第一耗时和第二耗时之间的第一比值。根据第一比值，确定第一耗时比。例如，可以将第一比值确定为第一耗时比。备选地，可以确定第一乘积和第二乘积之间的第二比值。根据第二比值，确定第一耗时比。第一乘积可以是指第一预定系数与第一耗时之间的乘积。第二乘积可以是指第二预定系数与第二耗时之间的乘积。例如，可以将第二比值确定为第一耗时比。第一预定系数和第二预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第一预定系数是大于或等于0且小于或等于1的数值。第二预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，在获得第一耗时比之后，可以根据第一耗时比确定第一性能指标值。例如，可以将第一耗时比确定为第一性能指标值。备选地，可以确定第一耗时比与第三预定系数之间的第三乘积。根据第三乘积，确定第一性能指标值。例如，可以将第三乘积确定为第一性能指标值。第三预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第三预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，可以根据由图形处理器在第一深度学习模型的第一训练阶段执行数据同步操作的次数，确定同步操作次数。根据与同步操作次数对应的耗时，确定第三耗时。根据图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长，确定第四耗时。可以确定第三耗时和第四耗时之间的第三比值。根据第三比值，确定第二耗时比。例如，可以将第三比值确定为第二耗时比。备选地，可以确定第四乘积和第五乘积之间的第四比值。根据第四比值，确定第二耗时比。第三乘积可以是指第四预定系数与第三耗时之间的乘积。第五乘积可以是指第五预定系数与第四耗时之间的乘积。例如，可以将第四比值确定为第二耗时比。第四预定系数和第五预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第四预定系数是大于或等于0且小于或等于1的数值。第五预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，在获得第二耗时比之后，可以根据第二耗时比确定第二性能指标值。例如，可以将第二耗时比确定为第二性能指标值。备选地，可以确定第二耗时比与第六预定系数之间的第六乘积。根据第六乘积，确定第二性能指标值。例如，可以将第六乘积确定为第二性能指标值。第六预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第六预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，可以根据图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长，确定第四耗时。根据中央处理器在第一训练阶段训练第一深度学习模型所消耗的时长，确定第五耗时。可以确定第四耗时和第五耗时之间的第五比值。根据第五比值，确定第三耗时比。例如，可以将第五比值确定为第三耗时比。备选地，可以确定第七乘积和第八乘积之间的第六比值。根据第六比值，确定第三耗时比。第七乘积可以是指第七预定系数与第四耗时之间的乘积。第八乘积可以是指第八预定系数与第五耗时之间的乘积。例如，可以将第六比值确定为第三耗时比。第七预定系数和第八预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第七预定系数是大于或等于0且小于或等于1的数值。第八预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，在获得第三耗时比之后，可以根据第三耗时比确定第三性能指标值。例如，可以将第三耗时比确定为第三性能指标值。备选地，可以确定第三耗时比与第九预定系数之间的第九乘积。根据第九乘积，确定第三性能指标值。例如，可以将第九乘积确定为第三性能指标值。第九预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第九预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，由于第一性能指标值能够表征数据读取操作所消耗的平均时长，第二性能指标值能够表征同步操作次数和数据同步操作所消耗的平均时长，第三性能指标值能够表征图形处理器的整体资源利用率对第一深度学习模型的第一训练阶段的影响程度，因而能够通过不同性能指标值较为快速和准确地确定深度学习模型的性能限制，进而提高了深度学习模型的训练速度和资源利用率。

图3A示意性示出了根据本公开实施例的根据至少一个第一耗时比确定第一性能指标值的示例示意图。

如图3A所示，在300A中，第一训练阶段可以包括批轮次301_1和批轮次301_2。第一训练阶段可以包括第一训练子阶段和第二训练子阶段。图形处理器可以执行至少一个基本计算单元302_1和至少一个基本计算单元302_2。中央处理器可以执行至少一个基本计算单元303_1和至少一个基本计算单元303_2。

在第一训练子阶段的执行过程中，可以包括第一耗时304_1和第二耗时304_2。第一耗时304_1可以表征与批轮次301_1对应的中央处理器在批轮次执行数据读取操作所消耗的时长。第二耗时304_2可以表征中央处理器完成批轮次301_1的训练操作所消耗的时长。根据第一耗时304_1和第二耗时304_2确定第一耗时比A。

在第二训练子阶段的执行过程中，可以第一耗时305_1和第二耗时305_2。第一耗时305_1可以表征与批轮次301_2对应的中央处理器在批轮次执行数据读取操作所消耗的时长。第二耗时305_2可以表征中央处理器完成批轮次301_2的训练操作所消耗的时长305_2。根据第一耗时305_1和第二耗时305_2确定第一耗时比B。

在获得第一耗时比A和第一耗时比B之后，可以根据第一耗时比A和第一耗时比B确定第一性能指标值。

图3B示意性示出了根据本公开实施例的确定第四耗时的示例示意图。

如图3B所示，在300B中，第一数据流中的位于t₀至t₂之间的数据流306，可以由核函数1执行。第二数据流中的位于t₁至t₃之间的数据流307，可以由核函数2执行。

第一数据流中的位于t₄至t₈之间的数据流308，可以由核函数3执行。第二数据流中的位于t₅至t₇之间的数据流309，可以由核函数4执行。

在此情况下，第四耗时可以表示为[(t₃-t₀)+(t₈-t₄)]。

根据本公开的实施例，根据所述比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息可以包括如下操作。

在至少一个性能指标值包括第一性能指标值的情况下，响应于比较信息表征第一性能指标值大于或等于第一预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一读取限制信息。在至少一个性能指标值包括第二性能指标值的情况下，响应于比较信息表征第二性能指标值大于或等于第二预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一同步限制信息。在至少一个性能指标值包括第三性能指标值的情况下，响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一处理器限制信息。

根据本公开的实施例，至少一个预定性能指标阈值可以包括以下至少之一：第一预定性能指标阈值、第二预定性能指标阈值和第三预定性能指标阈值。第一读取限制信息可以表征存在读取操作限制。读取操作限制可以包括IO(Input/Output，输入/输出)瓶颈。第一同步限制信息可以表征存在数据同步操作限制。第一处理器限制信息可以表征存在处理器的资源限制。

根据本公开的实施例，第一性能指标值可以与第一性能指标相对应。第一预定性能指标阈值可以用于表征第一深度学习模型在第一训练阶段的第一预定资源消耗程度。第一预定性能指标阈值可以根据实际业务需求进行设置，在此不作限定。例如，第一预定性能指标阈值可以为5％。

根据本公开的实施例，第二性能指标值可以与第二性能指标相对应。第二预定性能指标阈值可以用于表征第一深度学习模型在第一训练阶段的第二预定资源消耗程度。第二预定性能指标阈值可以包括以下至少之一：第一预定同步操作次数阈值和第一预定耗时比阈值。第一预定同步操作次数阈值和第一预定耗时比阈值可以根据实际业务需求进行设置，在此不作限定。例如，第一预定同步操作次数阈值可以为0。第二预定耗时比阈值可以为5％。

根据本公开的实施例，第三性能指标值可以与第三性能指标相对应。第三预定性能指标阈值可以用于表征第一深度学习模型在第一训练阶段的第三预定资源消耗程度。第三预定性能指标阈值可以根据实际业务需求进行设置，在此不作限定。例如，第三预定性能指标阈值可以为80％。

根据本公开的实施例，由于比较信息是通过将至少一个性能指标值和与至少一个性能指标值各自对应的预定性能指标阈值进行比较得到的，因而能够根据比较信息确定第一读取限制信息、第一同步限制信息和第一处理器限制信息，由此提高了确定深度学习模型的性能限制信息的准确性。

下面参考图4A、图4B和图4C，结合具体实施例对根据本公开实施例所述的根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息做进一步说明。

图4A示意性示出了根据本公开实施例的根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息的流程图。

如图4A所示，该方法400A包括操作S401～S411。

在操作S401，将至少一个性能指标值和与至少一个性能指标值各自对应的预定性能指标阈值进行比较，得到比较信息。在获得比较信息之后，可以执行操作S402、操作S405和操作S408。

在操作S402，至少一个性能指标值包括第一性能指标值？若是，则执行操作S403；若否，则执行操作S411。

在操作S403，第一性能指标值大于或等于第一预定性能指标阈值？若是，则执行操作S404；若否，则执行操作S411。

在操作S404，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一读取限制信息。

在操作S405，至少一个性能指标值包括第二性能指标值？若是，则执行操作S406；若否，则执行操作S411。

在操作S406，第二性能指标值大于或等于第二预定性能指标阈值？若是，则执行操作S407；若否，则执行操作S411。

在操作S407，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一同步限制信息。

在操作S408，至少一个性能指标值包括第三性能指标值？，若是，则执行操作S409；若否，则执行操作S411。

在操作S409，第三性能指标值大于或等于第三预定性能指标阈值？若是，则执行操作S410；若是，则执行操作S411。

在操作S410，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一处理器限制信息。

在操作S411，结束执行性能限制信息确定操作。

图4B示意性示出了根据本公开另一实施例的根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息的流程图。

如图4B所示，该方法400B包括操作S412～S419。

在操作S412，获取第一性能指标值、第二性能指标值和第三性能指标值。

在操作S413，第一性能指标值大于或等于第一预定性能指标阈值？若是，则执行操作S414；若否，则执行操作S415。

在操作S414，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一读取限制信息。

在操作S415，第二性能指标值大于或等于第二预定性能指标阈值？若是，则执行操作S416；若否，则执行操作S417。

在操作S416，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一同步限制信息。

在操作S417，第三性能指标值大于或等于第三预定性能指标阈值？若是，则执行操作S418；若否，则执行操作S419。

在操作S418，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一处理器限制信息。

在操作S419，结束执行性能限制信息确定操作。

根据本公开的实施例，操作S410可以包括如下操作。

响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值且小于或等于第四预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括中央处理器限制信息。响应于比较信息表征第三性能指标值大于第四预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括图形处理器限制信息。

根据本公开的实施例，至少一个预定性能指标阈值还包括第四预定性能指标阈值，第一处理器限制信息包括以下之一：中央处理器限制信息和图形处理器限制信息。

根据本公开的实施例，第四预定性能指标阈值可以用于表征第一深度学习模型在第一训练阶段的第四预定资源消耗程度。第四预定性能指标阈值可以根据实际业务需求进行设置，在此不作限定。例如，第四预定性能指标阈值可以为80％。

根据本公开的实施例，响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值且小于或等于第四预定性能指标阈值，可以确定第一深度学习模型在第一训练阶段的性能限制信息包括中央处理器限制信息。中央处理器限制信息可以表征第一深度学习模型在第一训练阶段存在中央处理器瓶颈。响应于比较信息表征第三性能指标值大于第四预定性能指标阈值，可以确定第一深度学习模型在第一训练阶段的性能限制信息包括图形处理器限制信息。图形处理器限制信息可以表征第一深度学习模型在第一训练阶段存在图形处理器瓶颈。

根据本公开的实施例，通过比较第三性能指标值、第三预定性能指标阈值和第四预定性能指标阈值，能够进一步确定性能限制信息是否包括中央处理器限制信息和图形处理器限制信息，提高了确定第一处理器限制信息的准确性。

图4C示意性示出了根据本公开实施例的响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一处理器限制信息的流程图。

如图4C所示，该方法400C包括操作S420～S422。

在操作S420，第三性能指标值大于或等于第三预定性能指标阈值且小于或等于第四预定性能指标阈值？若是，则执行操作S421；若否，则执行操作S422。

在操作S421，确定第一深度学习模型在第一训练阶段的性能限制信息包括中央处理器限制信息。

在操作S422，确定第一深度学习模型在第一训练阶段的性能限制信息包括图形处理器限制信息。

根据本公开的实施例，深度学习模型的性能确定方法200还可以包括如下操作。

在性能限制信息包括第一处理器限制信息的情况下，根据第一处理器限制信息表征的限制类型，确定与限制类型对应的至少一个第四性能指标值。根据与限制类型对应的至少一个第四性能指标值，确定与限制类型对应的性能限制信息。

根据本公开的实施例，在性能限制信息包括第一处理器限制信息的情况下，限制类型可以包括以下至少之一：中央处理器限制类型和图形处理器限制类型。可以根据第一处理器限制信息表征的限制类型，确定与限制类型对应的至少一个第四性能指标值。第四性能指标值可以包括以下至少之一：中央处理器性能指标值和图形处理器性能指标值。与限制类型对应的性能限制信息可以包括以下至少之一：第一中央处理器限制信息和第一图形处理器限制信息。

例如，在限制类型包括中央处理器限制类型的情况下，可以确定与中央处理器限制类型对应的中央处理器性能指标值。在获得中央处理器性能指标值之后，可以根据中央处理器性能指标值，确定与中央处理器限制类型对应的第一中央处理器限制信息。

例如，在限制类型包括图形处理器限制类型的情况下，可以确定与图形处理器限制类型对应的图形处理器性能指标值。在获得图形处理器性能指标值之后，可以根据图形处理器性能指标值，确定与图形处理器限制类型对应的第一图形处理器限制信息。

根据本公开的实施例，由于第四性能指标值是在性能限制信息包括第一处理器限制信息的情况下，根据第一处理器限制信息表征的限制类型确定的，因而根据第四性能指标值确定的性能限制信息能够与限制类型相对应，进而能够准确地确定具体类型的处理器限制信息，提高了深度学习模型的处理器资源利用率。

根据本公开的实施例，在限制类型包括中央处理器限制类型的情况下，与限制类型对应的至少一个第四性能指标值表征图形处理器的至少一个模块资源利用率对第一深度学习模型的第一训练阶段的影响程度，与限制类型对应的性能限制信息包括与中央处理器对应的模块限制信息。

根据本公开的实施例，模块资源利用率可以表征与深度学习模块对应的图形处理器的资源利用率。第一深度学习模型可以包括至少一个深度学习模块。

根据本公开的实施例，第一深度学习模型可以包括至少一个深度学习模块。至少一个深度学习模块可以包括以下至少之一：主干网络(即Backbone)、损失函数(即Loss)、编码器(即Encoder)和解码器(即Decoder)。例如，至少一个深度学习模块可以包括深度学习模块1、深度学习模块2、...、深度学习模块n、...、深度学习模块N。N可以是大于或等于1的整数，n∈{1，2，...，(N-1)，N}。

根据本公开的实施例，针对至少一个深度学习模块中的每个深度学习模块，可以从深度学习模块1至深度学习模块N，依次确定与每个深度学习模块各自对应的模块资源利用率。根据与每个深度学习模块各自对应的模块资源利用率，确定与每个深度学习模块各自对应的模块限制信息。

根据本公开的实施例，模块资源利用率是根据第四耗时比确定的，第四耗时比是根据第六耗时和第七耗时确定的，第六耗时表征图形处理器在训练子阶段训练深度学习模块所消耗的时长，第七耗时表征中央处理器在训练子阶段训练深度学习模块所消耗的时长。

根据本公开的实施例，第一训练阶段包括至少一个训练子阶段。

根据本公开的实施例，第一训练阶段可以包括至少一个第一训练子阶段。至少一个第一训练子阶段中的每个第一训练子阶段可以分别用于表征第一训练阶段中的部分训练阶段。至少一个第一训练子阶段可以包括以下至少之一：前向阶段、反向阶段、优化器阶段和其他阶段。例如，至少一个第一训练子阶段可以包括第一训练子阶段1、第一训练子阶段2、...、第一训练子阶段p、...、第一训练子阶段P。P可以是大于或等于1的整数，p∈{1，2，…，(P-1)，P}。

根据本公开的实施例，针对至少一个第一训练子阶段中的每个第一训练子阶段，可以从第一训练子阶段1至第一训练子阶段P，依次确定与每个第一训练子阶段各自对应的模块资源利用率。根据与第一训练子阶段各自对应的模块资源利用率，确定与每个第一训练子阶段各自对应的模块限制信息。

根据本公开的实施例，可以根据图形处理器在训练子阶段训练深度学习模块所消耗的时长，确定第六耗时。根据中央处理器在训练子阶段训练深度学习模块所消耗的时长，确定第七耗时。可以确定第六耗时和第七耗时之间的第七比值。根据第七比值，确定第四耗时比。例如，可以将第七比值确定为第四耗时比。备选地，可以确定第十乘积和第十一乘积之间的第八比值。根据第八比值，确定第四耗时比。第十乘积可以是指第十预定系数与第六耗时之间的乘积。第十一乘积可以是指第十一预定系数与第七耗时之间的乘积。例如，可以将第八比值确定为第四耗时比。第十预定系数和第十一预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第十预定系数是大于或等于0且小于或等于1的数值。第十一预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，在获得第四耗时比之后，可以根据第四耗时比确定第四性能指标值。例如，可以将第四耗时比确定为第四性能指标值。备选地，可以确定第四耗时比与第十二预定系数之间的第十二乘积。根据第十二乘积，确定第四性能指标值。例如，可以将第十二乘积确定为第四性能指标值。第十二预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第十二预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，由于模块资源利用率是在限制类型包括中央处理器限制类型的情况下，根据图形处理器和中央处理器在训练子阶段训练深度学习模块所消耗的时长确定的，因而模块资源利用率能够表征与深度学习模块对应的图形处理器的资源利用率，实现了较为快速和准确地确定与中央处理器限制类型对应的性能限制信息。

根据本公开的实施例，在限制类型包括图形处理器限制类型的情况下，与限制类型对应的至少一个第四性能指标值表征图形处理器的至少一个单元资源利用率对第一深度学习模型的第一训练阶段的影响程度，与限制类型对应的性能限制信息包括与图形处理器对应的单元限制信息。

根据本公开的实施例，单元资源利用率表征在利用算子训练第一深度学习模型的情况下，图形处理器的资源利用率，算子表征用于训练第一深度学习模型的基本计算单元，算子可以运行于图形处理器。

根据本公开的实施例，第一深度学习模型可以包括多个算子(Operator，OP)。算子可以表征用于训练第一深度学习模型的基本计算单元。算子可以运行于图形处理器。算子可以指第一深度学习模型中完成计算功能的代码集合。算子可以包括用于计算的参数和计算操作指令等。

根据本公开的实施例，单元利用率是根据第五耗时比确定的，第五耗时比是根据第八耗时和第四耗时确定的，第八耗时是在利用算子在第一训练阶段训练第一深度学习模型的情况下，图形处理器所消耗的时长，第四耗时表征图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长。

根据本公开的实施例，可以根据在利用算子在第一训练阶段训练第一深度学习模型的情况下，图形处理器所消耗的时长，确定第八耗时。根据图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长，确定第四耗时。可以确定第八耗时和第四耗时之间的第八比值。根据第八比值，确定第五耗时比。例如，可以将第八比值确定为第五耗时比。

备选地，可以确定第十三乘积和第十四乘积之间的第九比值。根据第九比值，确定第五耗时比。第十三乘积可以是指第十三预定系数与第八耗时之间的乘积。第十四乘积可以是指第十四预定系数与第四耗时之间的乘积。例如，可以将第九比值确定为第五耗时比。第十三预定系数和第十四预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第十三预定系数是大于或等于0且小于或等于1的数值。第十四预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，在获得第五耗时比之后，可以根据第五耗时比确定单元利用率。例如，可以将第五耗时比确定为单元利用率。备选地，可以确定第五耗时比与第十五预定系数之间的第十五乘积。根据第十五乘积，确定单元利用率。例如，可以将第十五乘积确定为单元利用率。第十五预定系数的数值可以根据实际业务需求进行配置，在此不作限定。例如，第十五预定系数是大于或等于0且小于或等于1的数值。

根据本公开的实施例，由于单元资源利用率是在限制类型包括图形处理器限制类型的情况下，根据图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长和在利用算子的情况下图形处理器所消耗的时长确定的，因而单元资源利用率能够表征在利用算子训练第一深度学习模型的情况下，图形处理器的资源利用率，实现了较为快速和准确地确定与图形处理器限制类型对应的性能限制信息。

对至少一个第二深度学习模型的训练任务进行分析，确定至少一个性能指标。

根据本公开的实施例，至少一个第二深度学习模型可以是用于至少一个应用领域的深度学习模型。

根据本公开的实施例，至少一个应用领域可以包括以下至少之一：语音处理应用领域、图像处理应用领域、视频处理应用领域和文字处理应用领域。与至少一个应用领域各自对应的至少一个第二深度学习模型可以包括以下至少之一：用于语音处理的第二深度学习模型、用于图像处理的第二深度学习模型、用于视频处理的第二深度学习模型和用于文字处理模型的第二深度学习模型。

根据本公开的实施例，由于至少一个第二深度学习模型是用于至少一个应用领域的深度学习模型，通过对至少一个第二深度学习模型的训练任务进行分析，确定至少一个性能指标，因此与至少一个性能指标对应的性能指标值能够用于评估不同应用领域的第二深度学习模型在训练阶段的资源消耗程度，由此提高了深度学习模型的性能确定方法的适应性和广泛性。

图5示意性示出了根据本公开实施例的至少一个性能指标的影响程度的示例示意图。

如图5所示，在500中，至少一个性能指标可以包括数据读取性能指标、模型实现性能指标、配置参数性能指标、框架调度性能指标和算子性能性能指标。

在本公开的实施例中，图5中的点501可以表征数据读取性能指标的影响程度。例如，点501可以表征数据读取性能指标的影响程度为57％。数据读取性能指标可以包括以下之中至少之一：子进程数指标、共享内存指标和批量计算指标。子进程数指标可以具有对应的子进程数指标值。子进程数指标值可以用于评估模型在训练阶段的子进程数设置情况。共享内存指标可以具有对应的共享内存指标值。共享内存指标值可以用于评估模型在训练阶段的共享内存使用情况。例如，共享内存使用情况可以包括是否使用共享内存。批量计算指标可以具有对应的批量计算指标值。批量计算指标值可以用于评估模型在训练阶段的批量计算情况。例如，批量计算情况可以包括使用Python进行批量计算。

在本公开的实施例中，图5中的点502可以表征模型实现性能指标的影响程度。例如，模型实现性能指标的影响程度可以为9.4％。模型实现性能指标可以包括以下之中至少之一：训练代码指标和组网接口指标。训练代码指标可以具有对应的训练代码指标值。训练代码指标值可以用于评估模型在训练阶段是否存在与训练无关的代码。例如，与训练无关的代码可以包括模型保存代码。组网接口指标可以具有对应的组网接口指标值。组网接口指标值可以用于评估模型在训练阶段的组网接口使用情况。例如，组网接口使用情况可以包括未使用Inplace接口。

在本公开的实施例中，图5中的点503可以表征配置参数性能指标的影响程度。例如，配置参数性能指标的影响程度可以为74％。配置参数性能指标可以包括以下之中至少之一：模型配置参数性能指标和框架配置参数性能指标。模型配置参数性能指标可以包括批尺寸指标。批尺寸指标可以表征单次传递给程序用以训练的样本个数。例如，在预设范围内，批尺寸指标越高，则训练吞吐越高。预设范围可以根据实际业务需求进行配置，在此不作限定。例如，预设范围可以表征显存能够容纳的范围。预设范围可以设置为2GB。框架配置参数性能指标可以包括搜索算法指标。搜索算法指标可以包括以下至少之一：枚举算法、深度优先搜索(Depth First Search，DFS)算法、广度优先搜索(Breadth First Search，BFS)算法和回溯算法(Back Tracking Algorithm，BTA)。

在本公开的实施例中，图5中的点504可以表征框架调度性能指标的影响程度。例如，框架调度性能指标的影响程度可以为9.1％。框架调度性能指标可以包括以下之中至少之一：代码开销性能指标、处理器调度开销性能指标和同步操作性能指标。代码开销性能指标可以具有对应的代码开销性能指标值。代码开销性能指标值可以用于评估模型在训练阶段的代码开销情况。例如，代码开销情况可以包括Python开销情况。处理器调度开销性能指标可以具有对应的处理器调度开销性能指标值。处理器调度开销性能指标值可以用于评估模型在训练阶段的处理器调度开销情况。例如，处理器调度开销情况可以包括中央处理器调度开销情况。

在本公开的实施例中，图5中的点505可以表征算子性能性能指标的影响程度。例如，算子性能性能指标的影响程度可以为47％。算子性能性能指标可以用于评估模型在训练阶段的算子性能。例如，算子性能性能指标可以包括未融合算子性能、未优化算子性能和其他算子性能。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他深度学习模型的性能确定方法，只要能够确定深度学习模型的性能限制即可。

图6示意性示出了根据本公开实施例的分布式深度学习平台的性能优化方法的流程图。

如图6所示，该方法600包括操作S610～S620。

在操作S610，利用深度学习模型的性能确定方法200确定第三深度学习模型在第二训练阶段的第二性能限制信息。

在操作S620，根据第二性能限制信息，确定性能优化策略。

在操作S630，根据性能优化策略对第二训练阶段进行优化。

根据本公开的实施例，第三深度学习模型部署于分布式深度学习平台。

根据本公开的实施例，分布式深度学习平台可以包括深度学习框架。深度学习框架可以包括以下至少之一：Paddle Paddle(即飞桨)、Tensorflow、PyTorch、Caffe、Theano、MXNet和Torch等。

根据本公开的实施例，第二训练阶段可以包括至少一个第二训练子阶段。至少一个第二训练子阶段中的每个第二训练子阶段可以分别用于表征第二训练阶段中的部分训练阶段。例如，至少一个第二训练子阶段可以包括第二训练子阶段1、第二训练子阶段2、...、第二训练子阶段q、...、第二训练子阶段Q。Q可以是大于或等于1的整数，q∈{1，2，...，(Q-1)，Q}。

根据本公开的实施例，利用深度学习模型的性能确定方法200确定第三深度学习模型在第二训练阶段的第二性能限制信息，可以包括：响应于检测到针对第三深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值。根据至少一个预定性能指标阈值和至少一个性能指标值，确定第三深度学习模型在第二训练阶段的第二性能限制信息。

根据本公开的实施例，至少一个预定性能指标阈值可以包括以下至少之一：第五预定性能指标阈值、第六预定性能指标阈值、第七预定性能指标阈值和第八预定性能指标阈值。第二性能限制信息可以包括以下至少之一：第二读取限制信息、第二同步限制信息和第二处理器限制信息。第二处理器限制信息可以包括以下至少之一：第二中央处理器限制信息和第二图形处理器限制信息。

根据本公开的实施例，在获得第二性能限制信息之后，可以根据第二性能限制信息，确定性能优化策略。性能优化策略可以包括以下至少之一：读取操作优化策略、同步操作优化策略和异常结构优化策略。

根据本公开的实施例，由于第二性能限制信息是利用深度学习模型的性能确定方法确定的，因而能够通过不同性能指标值较为快速和准确地确定第三深度学习模型的性能限制。此外，通过根据第二性能限制信息，确定性能优化策略，根据性能优化策略对第二训练阶段进行优化，能够提高第三深度学习模型的训练速度和资源利用率。

根据本公开的实施例，操作S630可以包括以下操作至少之一。

根据性能优化策略，调整多个节点中的目标节点的任务分配信息，以优化第二训练阶段。

根据性能优化策略，调整多个节点中的目标节点的可用资源信息。

根据本公开的实施例，分布式平台可以包括多个节点。任务分配信息可以表征训练任务的分配信息。训练任务可以表征训练第三深度学习模型的任务。

根据本公开的实施例，多个节点可以包括控制节点、存储节点和至少一个计算节点。控制节点可以与至少一个计算节点中的每个计算节点分别进行连接。存储节点可以与至少一个计算节点中的每个计算节点分别进行连接。例如，控制节点和存储节点可以基于传输控制协议(TransmissionControl Protocol，TCP)与至少一个计算节点中的每个计算节点分别进行连接。

根据本公开的实施例，可以获取第三深度学习模型在第二训练阶段的IPS(即每秒钟所能执行的样本数目)，根据第三深度学习模型在第二训练阶段的IPS确定baseline数据。根据深度学习模型的性能确定方法，确定第二性能限制信息。根据第二性能限制信息，确定性能优化策略。根据性能优化策略对第二训练阶段进行优化。获取优化后的第三深度学习模型在第二训练阶段的IPS，将优化后的IPS与baseline数据进行比较，确定性能优化效果。

根据本公开的实施例，通过根据性能优化策略，调整多个节点中的目标节点的任务分配信息，以及调整多个节点中的目标节点的可用资源信息，由此实现了对第二训练阶段进行优化，有利于提高第三深度模型的训练速度和资源利用率。

根据本公开的实施例，操作S620可以包括如下操作。

在第二性能限制信息包括第二读取限制信息的情况下，根据第二读取限制信息，确定性能优化策略为读取操作优化策略。在第二性能限制信息包括第二同步限制信息的情况下，根据第二同步限制信息，确定性能优化策略为同步操作优化策略。在第二性能限制信息包括第二处理器限制信息的情况下，根据第二处理器限制信息，确定性能优化策略为异常结构优化策略。

根据本公开的实施例，第二读取限制信息可以表征存在数据读取操作限制。第二同步限制信息可以表征存在数据同步操作限制。第二处理器限制信息可以表征存在处理器的资源限制。

根据本公开的实施例，可以将第一性能指标值与第五预定性能指标阈值进行比较，得到第四比较信息。响应于第四比较信息表征第一性能指标值大于或等于第五预定性能指标阈值，确定第三深度学习模型在第二训练阶段的性能限制信息包括第二读取限制信息。在第二性能限制信息包括第二读取限制信息的情况下，可以根据第二读取限制信息，确定性能优化策略为读取操作优化策略。读取操作优化策略可以是指用于对第二训练阶段进行读取操作优化的策略。例如，读取操作优化策略可以包括以下至少之一：调整DataLoader接口的进程数配置和优化数据准备实现。

根据本公开的实施例，可以将第二性能指标值与第六预定性能指标阈值进行比较，得到第五比较信息。响应于第五比较信息表征第二性能指标值大于或等于第六预定性能指标阈值，确定第三深度学习模型在第二训练阶段的性能限制信息包括第二同步限制信息。在第二性能限制信息包括第二同步限制信息的情况下，可以根据第二同步限制信息，确定性能优化策略为同步操作优化策略。同步操作优化策略可以是指用于对第二训练阶段进行同步操作优化的策略。例如，同步操作优化策略可以包括以下至少之一：检测模型实现中是否存在保存模型、确定保存模型的必要性、检测中央处理器和图形处理器之间是否存在交互环节、确定交互环节的必要性以及确定是否存在其它替代方式。

根据本公开的实施例，可以将第三性能指标值与第七预定性能指标阈值进行比较，得到第六比较信息。响应于第六比较信息表征第三性能指标值大于或等于第七预定性能指标阈值且小于或等于第八预定性能指标阈值，确定第三深度学习模型在第二训练阶段的性能限制信息包括第二中央处理器限制信息。响应于第六比较信息表征第三性能指标值大于第八预定性能指标阈值，确定第三深度学习模型在第二训练阶段的性能限制信息包括第二图形处理器限制信息。在第二性能限制信息包括第二中央处理器限制信息的情况下，可以根据第二中央处理器限制信息，确定性能优化策略为异常结构优化策略。异常结构优化策略可以是指用于对第二训练阶段进行异常结构优化的策略。例如，异常结构优化策略可以包括通过API Benchmark确定异常应用程序界面(Application Program Interface，API)或异常算子，根据应用程序界面优化方案对异常应用程序界面进行优化，根据算子优化方案对异常算子进行优化。

根据本公开的实施例，由于读取操作优化策略是在第二性能限制信息包括第二读取限制信息的情况下，根据第二读取限制信息确定的，因而读取操作优化策略能够实现对第二读取限制信息的优化。此外，由于同步操作优化策略是在第二性能限制信息包括第二同步限制信息的情况下，根据第二同步限制信息确定的，因而同步操作优化策略能够实现对第二同步限制信息的优化。另外，由于异常结构优化策略是在第二性能限制信息包括第二处理器限制信息的情况下，根据第二处理器限制信息确定的，因而异常结构优化策略能够实现对第二处理器限制信息的优化。由此，能够通过不同的性能优化策略较为快速和准确地完成第三深度学习模型在第二训练阶段的优化，提高了第三深度学习模型的性能优化速度。

根据本公开的实施例，根据第二处理器限制信息，确定性能优化策略为异常结构优化策略可以包括如下操作。

确定与第二处理器限制信息对应的异常结构的性能评估值。根据异常结构的性能评估值和预期性能评估值，确定与异常结构对应的性能优化策略。

根据本公开的实施例，与第二处理器限制信息对应的异常结构的性能评估值可以包括以下至少之一：算力利用率(即Gflops)和带宽利用率(即GBs)。例如，在异常结构包括计算密集型算子的情况下，可以确定与第二处理器限制信息对应的异常结构的性能评估值为算力利用率。备选地，在异常结构包括访存密集型算子的情况下，可以确定与第二处理器限制信息对应的异常结构的性能评估值为带宽利用率。

根据本公开的实施例，预期性能评估值可以包括以下至少之一：预期算力利用率和预期带宽利用率。在异常结构包括计算密集型算子的情况下，可以根据算力利用率和预期算力利用率，确定与计算密集型算子对应的性能优化策略。与计算密集型算子对应的性能优化策略可以包括使用OP Benchmark批量测试，根据算力利用率和预期算力利用率，确定计算密集型算子的优化空间。在异常结构包括访存密集型算子的情况下，可以根据带宽利用率和预期带宽利用率，确定与访存密集型算子对应的性能优化策略。与访存密集型算子对应的性能优化策略可以包括使用OP Benchmark批量测试，根据带宽利用率和预期带宽利用率，确定访存密集型算子的优化空间。

根据本公开的实施例，由于性能评估值是根据与第二处理器限制信息对应的异常结构确定的，通过根据异常结构的性能评估值和预期性能评估值，确定与异常结构对应的性能优化策略，提高了确定与异常结构对应的性能优化策略的针对性和准确性。

下面参考图7A和7B，结合具体实施例对根据本公开实施例的分布式深度学习平台的性能优化方法做进一步说明。

图7A示意性示出了根据本公开实施例的分布式深度学习平台的性能优化方法的流程示意图。

如图7A所示，该方法7A包括操作S701～S709。

在操作S701，利用深度学习模型的性能确定方法确定第三深度学习模型在第二训练阶段的第二性能限制信息。

在操作S702，第二性能限制信包括第二读取限制信息？若是，则执行操作S703；若否，则执行操作S709。

在操作S703，根据第二读取限制信息，确定性能优化策略为读取操作优化策略，并执行操作S708。

在操作S704，第二性能限制信息包括第二同步限制信息？若是，则执行操作S705；若否，则执行操作S709。

在操作S705，根据第二同步限制信息，确定性能优化策略为同步操作优化策略，并执行操作S708。

在操作S706，第二性能限制信息包括第二处理器限制信息？若是，则执行操作S707；若否，则执行操作S709。

在操作S707，根据第二处理器限制信息，确定性能优化策略为异常结构优化策略，并执行操作S708。

在操作S708，根据性能优化策略对第二训练阶段进行优化。

在操作S709，结束执行性能优化操作。

图7B示意性示出了根据本公开另一实施例的分布式深度学习平台的性能优化方法的流程示意图。

如图7B所示，该方法700B包括操作S710～S718。

在操作S710，利用深度学习模型的性能确定方法确定第三深度学习模型在第二训练阶段的第二性能限制信息。

在操作S711，第二性能限制信息包括第二读取限制信息？若是，则执行操作S712；若否，则执行S713。

在操作S712，根据第二读取限制信息，确定性能优化策略为读取操作优化策略，并执行操作S717

在操作S713，第二性能限制信息包括第二同步限制信息？若是，则执行操作S714；若否，则执行操作S715。

在操作S714，根据第二同步限制信息，确定性能优化策略为同步操作优化策略，并执行操作S717。

在操作S715，第二性能限制信息包括第二处理器限制信息？若是，则执行操作S716～S717，若否，则执行操作S718。

在操作S716，根据第二处理器限制信息，确定性能优化策略为异常结构优化策略。

在操作S717，根据性能优化测量对第二训练阶段进行优化。

在操作S718，结束执行性能优化操作。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他分布式深度学习平台的性能优化方法，只要能够提高深度学习模型的训练速度和资源利用率即可。

图8示意性示出了根据本公开实施例的深度学习模型的性能确定装置的框图。

如图8所示，深度学习模型的性能确定装置800可以包括第一确定模块810和第二确定模块820。

第一确定模块810，用于响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，性能指标值用于评估第一深度学习模型在第一训练阶段的资源消耗程度。

第二确定模块820，用于根据至少一个预定性能指标阈值和至少一个性能指标值，确定第一深度学习模型在第一训练阶段的性能限制信息。

根据本公开的实施例，第二确定模块820可以包括比较子模块和第一确定子模块。

比较子模块，用于将至少一个性能指标值和与至少一个性能指标值各自对应的预定性能指标阈值进行比较，得到比较信息。

第一确定子模块，用于根据比较信息，确定第一深度学习模型在第一训练阶段的性能限制信息。

根据本公开的实施例，至少一个性能指标值包括以下至少之一：第一性能指标值、第二性能指标值和第三性能指标值。

根据本公开的实施例，第一性能指标值表征读取操作对第一深度学习模型的第一训练阶段的影响程度，读取操作表征由中央处理器在第一深度学习模型的第一训练阶段执行的数据读取操作。

根据本公开的实施例，第二性能指标值表征同步操作对第一深度学习模型的第一训练阶段的影响程度，同步操作表征由图形处理器在第一深度学习模型的第一训练阶段执行的数据同步操作。

根据本公开的实施例，第三性能指标值表征图形处理器的整体资源利用率对第一深度学习模型的第一训练阶段的影响程度。

根据本公开的实施例，第一训练阶段包括至少一个批轮次。

根据本公开的实施例，至少一个预定性能指标阈值包括以下至少之一：第一预定性能指标阈值、第二预定性能指标阈值和第三预定性能指标阈值。

根据本公开的实施例，第一确定子模块可以包括第一确定单元、第二确定单元和第三确定单元。

第一确定单元，用于在至少一个性能指标值包括第一性能指标值的情况下，响应于比较信息表征第一性能指标值大于或等于第一预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一读取限制信息，其中，第一读取限制信息表征存在读取操作限制。

第二确定单元，用于在至少一个性能指标值包括第二性能指标值的情况下，响应于比较信息表征第二性能指标值大于或等于第二预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一同步限制信息，其中，第一同步限制信息表征存在数据同步操作限制。

第三确定单元，用于在至少一个性能指标值包括第三性能指标值的情况下，响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括第一处理器限制信息，其中，第一处理器限制信息表征存在处理器的资源限制。

根据本公开的实施例，第三确定单元可以包括第一确定子单元和第二确定子单元。

第一确定子单元，用于响应于比较信息表征第三性能指标值大于或等于第三预定性能指标阈值且小于或等于第四预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括中央处理器限制信息。

第二确定子单元，用于响应于比较信息表征第三性能指标值大于第四预定性能指标阈值，确定第一深度学习模型在第一训练阶段的性能限制信息包括图形处理器限制信息。

根据本公开的实施例，深度学习模型的性能确定800还可以包括第三确定模块和第四确定模块。

在性能限制信息包括第一处理器限制信息的情况下，

第三确定模块，用于根据第一处理器限制信息表征的限制类型，确定与限制类型对应的至少一个第四性能指标值。

第四确定模块，用于根据与限制类型对应的至少一个第四性能指标值，确定与限制类型对应的性能限制信息。

根据本公开的实施例，模块资源利用率表征与深度学习模块对应的图形处理器的资源利用率，第一深度学习模型包括至少一个深度学习模块。

根据本公开的实施例，单元资源利用率表征在利用算子训练第一深度学习模型的情况下，图形处理器的资源利用率，算子表征用于训练第一深度学习模型的基本计算单元，算子运行于图形处理器。

根据本公开的实施例，深度学习模型的性能确定装置800还可以包括分析模块。

分析模块，用于对至少一个第二深度学习模型的训练任务进行分析，确定至少一个性能指标，其中，至少一个第二深度学习模型是用于至少一个应用领域的深度学习模型。

图9示意性示出了根据本公开实施例的分布式深度学习平台的性能优化装置的框图。

如图9所示，分布式深度学习平台的性能优化装置900可以包括第五确定模块910、第六确定模块920和优化模块930。

第五确定模块910，用于利用深度学习模型的性能确定装置800确定第三深度学习模型在第二训练阶段的第二性能限制信息，其中，第三深度学习模型部署于分布式深度学习平台。

第六确定模块920，用于根据第二性能限制信息，确定性能优化策略。

优化模块930，用于根据性能优化策略对第二训练阶段进行优化。

根据本公开的实施例，分布式平台包括多个节点。

根据本公开的实施例，优化模块930可以包括以下至少之一：第一调整子模块和第二调整子模块。

第一调整子模块，用于根据性能优化策略，调整多个节点中的目标节点的任务分配信息，以优化第二训练阶段，其中，任务分配信息表征训练任务的分配信息，其中，训练任务表征训练第三深度学习模型的任务。

第二调整子模块，用于根据性能优化策略，调整多个节点中的目标节点的可用资源信息。

根据本公开的实施例，第六确定模块920可以包括第二确定子模块、第三确定子模块和第四确定子模块。

第二确定子模块，用于在第二性能限制信息包括第二读取限制信息的情况下，根据第二读取限制信息，确定性能优化策略为读取操作优化策略。

第三确定子模块，用于在第二性能限制信息包括第二同步限制信息的情况下，根据第二同步限制信息，确定性能优化策略为同步操作优化策略。

第四确定子模块，用于在第二性能限制信息包括第二处理器限制信息的情况下，根据第二处理器限制信息，确定性能优化策略为异常结构优化策略。

根据本公开的实施例，第四确定子模块可以包括第四确定单元和第五确定单元。

第四确定单元，用于确定与第二处理器限制信息对应的异常结构的性能评估值。

第五确定单元，用于根据异常结构的性能评估值和预期性能评估值，确定与异常结构对应的性能优化策略。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开所述的方法。

图10示意性示出了根据本公开实施例的适于实现深度学习模型的性能确定方法和分布式深度学习平台的性能优化方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换值/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法。例如，在一些实施例中，深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的性能确定方法、分布式深度学习平台的性能优化方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示值的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的性能确定方法，包括：

响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，所述性能指标值用于评估所述第一深度学习模型在第一训练阶段的资源消耗程度，所述至少一个性能指标是对至少一个第二深度学习模型的训练任务进行分析确定的，所述至少一个第二深度学习模型是用于至少一个应用领域的深度学习模型；以及

根据至少一个预定性能指标阈值和所述至少一个性能指标值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息；

其中，所述至少一个性能指标值包括第三性能指标值以及以下至少之一：第一性能指标值、第二性能指标值；

其中，所述第一性能指标值表征读取操作对所述第一深度学习模型的第一训练阶段的影响程度，所述读取操作表征由中央处理器在所述第一深度学习模型的第一训练阶段执行的数据读取操作；

其中，所述第二性能指标值表征同步操作对所述第一深度学习模型的第一训练阶段的影响程度，所述同步操作表征由图形处理器在所述第一深度学习模型的第一训练阶段执行的数据同步操作；

其中，所述第三性能指标值表征所述图形处理器的整体资源利用率对所述第一深度学习模型的第一训练阶段的影响程度；

其中，所述至少一个预定性能指标阈值包括第三预定性能指标阈值和第四预定性能指标阈值；

其中，根据至少一个预定性能指标阈值和所述至少一个性能指标值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息是根据比较信息确定的，在响应于所述比较信息表征所述第三性能指标值大于或等于第三预定性能指标阈值的情况下，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息包括第一处理器限制信息，所述第一处理器限制信息包括以下之一：中央处理器限制信息和图形处理器限制信息，响应于所述比较信息表征所述第三性能指标值大于或等于所述第三预定性能指标阈值且小于或等于所述第四预定性能指标阈值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息包括所述中央处理器限制信息；以及响应于所述比较信息表征所述第三性能指标值大于所述第四预定性能指标阈值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息包括所述图形处理器限制信息；

其中，所示第三性能指标值是根据图形处理器在第一训练阶段训练第一深度学习模型所消耗的时长与中央处理器在第一训练阶段训练第一深度学习模型所消耗的时长之间的比值确定的。

2. 根据权利要求1所述的方法，其中，所述根据至少一个预定性能指标阈值和所述至少一个性能指标值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息，包括：

将所述至少一个性能指标值和与所述至少一个性能指标值各自对应的预定性能指标阈值进行比较，得到所述比较信息；以及

根据所述比较信息，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息。

3.根据权利要求1所述的方法，其中，所述第一训练阶段包括至少一个批轮次；

其中，所述第一性能指标值是根据至少一个第一耗时比确定的，所述第一耗时比是根据与所述批轮次对应的第一耗时和第二耗时确定的，所述第一耗时表征所述中央处理器在所述批轮次执行所述数据读取操作所消耗的时长，所述第二耗时表征所述中央处理器完成所述批轮次的训练操作所消耗的时长；

其中，所述第二性能指标值是根据同步操作次数和第二耗时比中的至少之一确定的，同步操作次数表征由所述图形处理器在所述第一深度学习模型的第一训练阶段执行所述数据同步操作的次数，所述第二耗时比是根据第三耗时和第四耗时确定的，所述第三耗时表征与所述同步操作次数对应的耗时，所述第四耗时表征所述图形处理器在所述第一训练阶段训练所述第一深度学习模型所消耗的时长。

4.根据权利要求1或3所述的方法，其中，所述至少一个预定性能指标阈值包括以下至少之一：第一预定性能指标阈值、第二预定性能指标阈值和第三预定性能指标阈值；

其中，所述根据所述比较信息，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息，包括：

在所述至少一个性能指标值包括所述第一性能指标值的情况下，响应于所述比较信息表征所述第一性能指标值大于或等于所述第一预定性能指标阈值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息包括第一读取限制信息，其中，所述第一读取限制信息表征存在读取操作限制；

在所述至少一个性能指标值包括所述第二性能指标值的情况下，响应于所述比较信息表征所述第二性能指标值大于或等于所述第二预定性能指标阈值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息包括第一同步限制信息，其中，所述第一同步限制信息表征存在数据同步操作限制；以及

在所述至少一个性能指标值包括所述第三性能指标值的情况下，响应于所述比较信息表征所述第三性能指标值大于或等于所述第三预定性能指标阈值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息包括第一处理器限制信息，其中，所述第一处理器限制信息表征存在处理器的资源限制。

5.根据权利要求4所述的方法，还包括：

在所述性能限制信息包括所述第一处理器限制信息的情况下，

根据所述第一处理器限制信息表征的限制类型，确定与所述限制类型对应的至少一个第四性能指标值；以及

根据与所述限制类型对应的至少一个第四性能指标值，确定与所述限制类型对应的性能限制信息。

6.根据权利要求5所述的方法，其中，在所述限制类型包括中央处理器限制类型的情况下，与所述限制类型对应的至少一个第四性能指标值表征所述图形处理器的至少一个模块资源利用率对所述第一深度学习模型的第一训练阶段的影响程度，与所述限制类型对应的性能限制信息包括与所述中央处理器对应的模块限制信息；

其中，所述模块资源利用率表征与深度学习模块对应的图形处理器的资源利用率，所述第一深度学习模型包括至少一个所述深度学习模块。

7.根据权利要求6所述的方法，其中，所述第一训练阶段包括至少一个训练子阶段；

其中，所述模块资源利用率是根据第四耗时比确定的，所述第四耗时比是根据第六耗时和第七耗时确定的，所述第六耗时表征所述图形处理器在所述训练子阶段训练所述深度学习模块所消耗的时长，所述第七耗时表征所述中央处理器在所述训练子阶段训练所述深度学习模块所消耗的时长。

8.根据权利要求5~7中任一项所述的方法，其中，在所述限制类型包括图形处理器限制类型的情况下，与所述限制类型对应的至少一个第四性能指标值表征所述图形处理器的至少一个单元资源利用率对所述第一深度学习模型的第一训练阶段的影响程度，与所述限制类型对应的性能限制信息包括与所述图形处理器对应的单元限制信息；

其中，所述单元资源利用率表征在利用算子训练所述第一深度学习模型的情况下，所述图形处理器的资源利用率，所述算子表征用于训练所述第一深度学习模型的基本计算单元，所述算子运行于所述图形处理器。

9.根据权利要求8所述的方法，其中，所述单元资源利用率是根据第五耗时比确定的，所述第五耗时比是根据第八耗时和第四耗时确定的，所述第八耗时是在利用所述算子在所述第一训练阶段训练所述第一深度学习模型的情况下，所述图形处理器所消耗的时长，所述第四耗时表征所述图形处理器在所述第一训练阶段训练所述第一深度学习模型所消耗的时长。

10.一种分布式深度学习平台的性能优化方法，包括：

利用权利要求1~9中任一项所述的方法确定第三深度学习模型在第二训练阶段的第二性能限制信息，其中，所述第三深度学习模型部署于所述分布式深度学习平台；

根据所述第二性能限制信息，确定性能优化策略；以及

根据所述性能优化策略对所述第二训练阶段进行优化。

11.根据权利要求10所述的方法，其中，所述分布式深度学习平台包括多个节点；

其中，所述根据所述性能优化策略对所述第二训练阶段进行优化，包括以下至少之一：

根据所述性能优化策略，调整所述多个节点中的目标节点的任务分配信息，以优化所述第二训练阶段，其中，所述任务分配信息表征训练任务的分配信息，其中，所述训练任务表征训练所述第三深度学习模型的任务；以及

根据所述性能优化策略，调整所述多个节点中的目标节点的可用资源信息。

12.根据权利要求10或11所述的方法，其中，所述根据所述第二性能限制信息，确定性能优化策略，包括：

在所述第二性能限制信息包括第二读取限制信息的情况下，根据所述第二读取限制信息，确定所述性能优化策略为读取操作优化策略；

在所述第二性能限制信息包括第二同步限制信息的情况下，根据所述第二同步限制信息，确定所述性能优化策略为同步操作优化策略；以及

在所述第二性能限制信息包括第二处理器限制信息的情况下，根据所述第二处理器限制信息，确定所述性能优化策略为异常结构优化策略。

13. 根据权利要求12所述的方法，其中，所述根据所述第二处理器限制信息，确定所述性能优化策略为异常结构优化策略，包括：

确定与所述第二处理器限制信息对应的异常结构的性能评估值；以及

根据所述异常结构的性能评估值和预期性能评估值，确定与所述异常结构对应的性能优化策略。

14. 一种深度学习模型的性能确定装置，包括：

第一确定模块，用于响应于检测到针对第一深度学习模型的性能确定指令，确定与至少一个性能指标对应的性能指标值，得到至少一个性能指标值，其中，所述性能指标值用于评估所述第一深度学习模型在第一训练阶段的资源消耗程度，所述至少一个性能指标是对至少一个第二深度学习模型的训练任务进行分析确定的，所述至少一个第二深度学习模型是用于至少一个应用领域的深度学习模型；以及

第二确定模块，用于根据至少一个预定性能指标阈值和所述至少一个性能指标值，确定所述第一深度学习模型在所述第一训练阶段的性能限制信息；

15.一种分布式深度学习平台的性能优化装置，包括：

第五确定模块，用于利用权利要求14所述的装置确定第三深度学习模型在第二训练阶段的第二性能限制信息，其中，所述第三深度学习模型部署于所述分布式深度学习平台；

第六确定模块，用于根据所述第二性能限制信息，确定性能优化策略；以及

优化模块，用于根据所述性能优化策略对所述第二训练阶段进行优化。

16. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1~13中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1~13中任一项所述的方法。