CN115809688B

CN115809688B - 一种模型调试方法、装置、电子设备及存储介质

Info

Publication number: CN115809688B
Application number: CN202211018980.9A
Authority: CN
Inventors: 郝宏翔; 巩伟宝; 沈亮; 吴志华; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2023-10-24
Anticipated expiration: 2042-08-24
Also published as: WO2024040844A1; CN115809688A

Abstract

本公开提供了一种模型调试方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习、用户编码/编译等领域。具体实现方案为：提取网络模型中的至少一个组件，以动态图模式加载调试工具，将至少一个组件对应的算子构成信息与调试工具中的算子融合策略进行匹配处理，得到匹配结果，以及，根据匹配结果得到用于模型调试的调试信息。采用本公开，可以实现模型的调试，以优化模型的性能。

Description

一种模型调试方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、用户编码/编译等领域。

背景技术

随着技术的发展，可以通过人工智能改善硬件性能，所适用的应用场景多种多样，比如涉及图文处理、图像处理、视频处理、人脸识别、目标定位等应用场景的硬件设计中都可以采用人工智能技术，即将训练好的模型部署于硬件中，以提高硬件的处理速度及处理准确率。

若模型的性能越高，则硬件的处理速度及处理准确率相应的也越高。然而，提高模型的性能，需要对模型进行调试，对此，相关技术未存在有效的解决方案。

发明内容

本公开提供了一种模型调试方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种模型调试方法，包括：

提取网络模型中的至少一个组件；

以动态图模式加载调试工具；

将所述至少一个组件对应的算子构成信息与所述调试工具中的算子融合策略进行匹配处理，得到匹配结果；

以及，根据所述匹配结果，得到用于模型调试的调试信息。

根据本公开的另一方面，提供了一种模型调试装置，包括：

提取模块，用于提取网络模型中的至少一个组件；

加载模块，用于以动态图模式加载调试工具；

匹配模块，用于将所述至少一个组件对应的算子构成信息与所述调试工具中的算子融合策略进行匹配处理，得到匹配结果；

调试模块，用于根据所述匹配结果，得到用于模型调试的调试信息。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。

采用本公开，可以实现模型的调试，以优化模型的性能。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一分布式集群处理场景的示意图；

图2是根据本公开实施例的模型调试方法的流程示意图；

图3是根据本公开实施例的单算子及操作的示意图；

图4是根据本公开实施例的模型调试方法的流程示意图；

图5是根据本公开实施例的应用示例中基于调试工具对网络模型进行调试的示意图；

图6是根据本公开实施例的模型调试装置的组成结构示意图；

图7是用来实现本公开实施例的模型调试方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

根据本公开的实施例，图1是根据本公开实施例的一分布式集群处理场景的示意图，该分布式集群系统为集群系统的一个示例，示例性的描述了可以利用该分布式集群系统进行模型调试，本公开不限于单机或多机上的模型调试，采用分布式的处理可以进一步提高模型调试的精度。如图1所示，在该分布式集群系统100中包括多个节点(如服务器集群101、服务器102、服务器集群103、服务器104、服务器105，服务器105还可以连接电子设备，如手机1051及台式机1052)，多个节点间，以及多个节点与连接的电子设备间可以共同执行一个或多个模型调试任务。可选地，该分布式集群系统中的多个节点可以采用数据并行的关系进行模型调试。可选地，在每一轮模型调试完成后，多个节点之间都可以进行数据交换(如数据同步)。

根据本公开的实施例，提供了一种模型调试方法，图2是根据本公开实施例的模型调试方法的流程示意图，该方法可以应用于模型调试装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下，可以实现模型调试等等处理。其中，终端可以为用户设备(UE，User Equipment)、移动设备、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(如台式机等)中，包括：

S201、提取网络模型中的至少一个组件。

S202、以动态图模式加载调试工具。

S203、将至少一个组件对应的算子构成信息与调试工具中的算子融合策略进行匹配处理，得到匹配结果。

S204、根据匹配结果，得到用于模型调试的调试信息。

S201-S204的一示例中，网络模型中的至少一个组件可以为网络模型中的层(如卷积层、自注意力层、池化层等等)，动态图模型在模型训练中具备随编码随编译的优势，在动态图模式下加载调试工具可以及时修改用户的编码。将至少一个组件对应的算子构成信息(如离线方式构建的网络模型的融合算子映射表中的部分信息)与调试工具中的算子融合策略(如多个单算子及其对应操作构成的融合策略)进行匹配处理，得到匹配结果。根据匹配结果得到用于模型调试的调试信息，以根据该调试信息对该网络模型进行局部或全局调试后，优化该网络模型为最终的目标网络模型，从而，将该目标网络模型部署在硬件上，可以在诸如图文处理、图像处理、视频处理、人脸识别、目标定位等应用场景的硬件设计中提高硬件的处理速度及处理准确率。

采用本公开，可以提取网络模型中的至少一个组件，以动态图模式加载调试工具，可以将至少一个组件对应的算子构成信息与调试工具中的算子融合策略进行匹配处理，得到匹配结果，以根据该匹配结果得到用于模型调试的调试信息，从而，可以实现模型的调试，以优化模型的性能。

一实施方式中，还包括：构建网络模型的融合算子映射表。

一些示例中，可以采用离线方式构建网络模型的融合算子映射表。具体的，用计算图的形式模拟出单算子及其对应的单算子操作(ops)到融合算子及其对应的融合算子操作(fuse_op)的构建过程，且离线对所有框架已支持的融合算子均进行上述操作，记录一个类型为<String，Dict>的算子映射表(Map)；其中，Map中的索引关键字(key)可以为融合算子的类型(op_type:string)，key对应的值(value)可以包括单算子列表(list of string)、计算图(Graph)等信息。

采用本实施方式，可以预先构建融合算子映射表，从而，基于该融合算子映射表可以根据实际情况筛选出给定需要优化的网络模型中的至少一个组件，以加速模型训练的迭代。

一实施方式中，该融合算子映射表包括：至少一个组件对应的算子构成信息。换言之，至少一个组件对应的算子构成信息，为网络模型的融合算子映射表中的部分信息，采用本实施方式，可以通过该融合算子映射表中的部分信息与调试工具中局部融合算子进行匹配处理，得到相匹配的调试信息，以便基于该调试信息对该需要优化的网络模型中的至少一个组件进行局部优化。

针对单算子及对应的操作而言，单算子可以理解为模型中的变量，操作可以理解为模型中将变量进行运算的运算符，比如，图3中，包括四个变量，分别为变量1、变量2、变量3、变量4，将这四个变量进行叠加的运算符即为一个操作。

一实施方式中，如图4所示，将至少一个组件对应的算子构成信息与调试工具中的算子融合策略进行匹配处理，得到匹配结果，包括：

S401、从第一计算图中得到第一子图。

一些示例中，第一计算图用于表征与融合算子映射表对应的全量计算图；

一些示例中，第一子图用于表征与算子构成信息对应的局部计算图，即第一子图为全量计算图中的子图(或称待优化的局部计算图)；

S402、获取第二子图。

一些示例中，第二子图为调试工具中用于表征局部融合算子的局部计算图(或称调试工具中与第一子图待匹配的第二子图)；

S403、将第一子图与第二子图进行匹配处理，匹配结果为第一子图与第二子图为同构图的情况下，匹配成功。

采用本实施方式，基于网络模型的融合算子映射表对应的第一计算图，从第一计算图中得到待优化的局部计算图，将该待优化的局部计算图与调试工具中相应的局部融合算子对应的局部计算图进行匹配，得到匹配结果为同构图的情况下匹配成功，据此可以得到调试信息，以便根据调试信息对第一计算图中的该局部计算图进行优化，从而实现了网络模型中至少一个组件的优化。

换言之，预先以离线方式配置好网络模型(如图神经网络)对应的融合算子映射表，网络模型作为大图(即全量计算图)，通过与调试工具中的算子融合策略匹配进行的模型局部优化，是通过大图筛出存在融合优化可能性的算子列表(即给定融合算子对应的第一子图)，并最终找到与该给定融合算子对应的计算图(即第二子图)同构的子图，则匹配成功。

一实施方式中，将至少一个组件对应的算子构成信息与调试工具中的算子融合策略进行匹配处理，得到匹配结果，包括：在网络模型中存在同类型的n(n为大于1的整数)个组件的情况下，将一个组件对应的算子构成信息与调试工具中的算子融合策略进行该匹配处理，得到匹配结果。针对同类型的n-1个组件，不执行该匹配处理。

需要指出的是，同类型的n个组件往往是用户在组网时将某个组件以块(block)的形式堆积了多次，它们的计算图结构都是相同的，因此只需要匹配一次即可，换言之，只需要匹配一次，是因为同类型的n个组件的计算图结构相同。而且，由于是以离线方式配置好网络模型对应的融合算子映射表，因此，整个匹配过程不会很耗时间，避免了损耗。

一些示例中，采用在线方式将至少一个组件对应的算子构成信息与调试工具中的算子融合策略进行匹配处理，以得到该匹配结果。

一些示例中，网络模型中存在同类型的3个组件，皆为自注意力模块(称之为第一自注意力模块、第二自注意力模块、第三自注意力模块)，则遍历上述第一计算图(即基于网络模型的融合算子映射表对应的第一计算图)，对第一自注意力模块执行上述匹配处理，具体的，可以基于网络模型的融合算子映射表对应的第一计算图，从第一计算图中得到待优化的第一自注意力模块对应的第一子图，将该第一子图与调试工具中相应的局部融合算子对应的第二子图进行匹配，得到匹配结果为同构图的情况下匹配成功，据此可以得到调试信息，以便根据调试信息对第一计算图中的该第一子图进行优化，从而实现了网络模型中第一自注意力模块的优化。考虑到第二自注意力模块、第三自注意力模块与第一自注意力模块为相同类型，因此，直接根据调试信息进行优化，无需重复执行匹配处理，从而提高了执行效率。

采用本实施方式，同类的多个组件，只需要匹配一个组件，其他组件无需匹配，可直接根据由该组件匹配结果得到的调试信息，直接替换同类组件的代码，从而提高效率。

一实施方式中，还包括：采用统一的应用程序接口(Application ProgrammingInterface，API)接口，反馈调试信息，根据该调试信息对网络模型进行模型优化，得到目标网络模型。

一些示例中，该调试信息包括：与融合算子相关的算子信息、与该算子信息对应的组网代码范围。

采用本实施方式，采用一个API统一反馈调试结果，提高了执行效率，加速了模型训练的迭代速度。

针对动态图模式而言，深度学习的框架主要分为两类：动态图框架(运行动态图框架，即为动态图模式)和静态图框架(运行静态图框架，即为静态图模式)。动态图框架采用以原生计算机编程语言(Python)的编程习惯为基础的命令式编程机制，代码按照开发者的编写顺序来执行(即随编码随编译)，使得计算图在运行程序时逐步构建起来，但每轮迭代都需要构建新的计算图；而静态图框架采用先定义后执行的方式(即预编码后统一编译)，在编译阶段会先根据程序生成网络结构，然后进行构图优化，得到实际的计算图后开始执行并不断使用它。总体来看，动态图框架有灵活易用、方便调试的优点，但相较于在运行前进行了编译优化的静态图框架，其性能和部署能力相对逊色。因此，用户希望深度学习框架可以支持兼顾两者优势的编程机制，采用动态图模式来编写及调试模型，可以享受便捷灵活的开发体验；采用静态图模型进行训练推理，从而达到模型性能好且部署快的效果。

在实际应用场景中，基于动态图框架的模型性能通常被单算子的执行效率所影响，无法充分发挥硬件算力对融合算子的加速效果；且在极其重要的工业部署阶段，这类单算子也可能使得模型在动静态转换上面临着很大的挑战。对比于静态图框架在编译期间“构图优化”采用了融合算子策略，若在动态图模式上实现与静态图模式所达到的同等技术效果，即可兼顾动态图模式及静态图模式两者的优势。

当前，为了兼顾动态图模式的易用性及静态图模式的计算性能，用户可以采用如下2种方案：

1)动、静态图下各自编写程序，由用户在组网代码层面实现动静统一。就组网代码层面而言，需要分别构建针对动态图模型及静态图模式对应的网络结构，得到动态图模式的模型参数文件后，基于静态图模式的网络结构，加载该模型参数文件，然后再部署到模型中。这种方式只是在模型参数文件层面进行了动静转换，其动态图模式和静态图模式是两套完全分离的表达，且需要在两种模式下各自编写全量程序，增加了用户的负担，换言之，需要两套组网代码，弊端是：组网比较复杂，成本高。

2)使用动转静功能，由框架在网络结构层面实现分析和转换，虽然可以做到一键式的动转静并提升模型性能，但面对用户组网中单算子过多引起的诸多问题，比如python与c++交互间数据结构转换的开销、框架调度单算子执行的开销等，该方案没有规避这类性能损耗。换言之，这种方式相比上一种方式，不需要用户写两套组网代码，可以借助网络结构层面这个工具来得到动态图或静态图，但是不能兼顾用户所有的设计需求，且性能损耗高，无法发挥模型迭代的加速效果。

就网络结构层面而言，本应用示例考虑到用户的编程需求和成本，采用调试工具加载动态图模式后，对网络模型进行相应的分析，并将调试信息作为解决方案提供给用户，以引导用户在动态图框架上进行动态图优化。换言之，利用动态图模式在模型训练中的分析优势(动态图模式的随编码随编译的方式，更接近用户编码的过程，从而使得用户通过编码能更快的训练到所需要的模型)，将得到的调试信息(如包括算子信息和其对应的组网代码范围的模型参数文件)反馈给用户，从而，利用该调试工具(用于对网络模型进行编译优化的调试及分析的调试工具)，用户可以调整具体的网络模型，更快的完成模型的训练，从而更快的实现模型的部署。

具体的实现过程，包括如下内容：

一、离线构建融合算子映射表

用计算图的形式模拟出单算子ops到融合算子fuse_op的构建过程，且离线对所有框架已支持的融合算子均进行上述操作，记录一个类型为<String，Dict>的Map；其中key为融合算子的类型(op_type:string),value为包含单算子列表(list of string)、计算图(Graph)等信息的字典(dict)中的值。

其中，采用该融合算子，可以优化模型的性能，融合算子的应用使得模型计算量保持不变的前提下，可以充分利用硬件的集成功能减少访存操作，缓解框架调度算子内核(kernel)的压力，降低python与c++端过多交互引起的数据结构转换开销，加速构建局部计算图，以提升模型训练的迭代速度。比如，在自然语言处理(Natural LanguageProcessing，NLP)、计算机视觉(Computer Vision，CV)等领域的各种模型发布的期间，一些使用频率较高的融合算子的组合，可以保存在开源数据库中，当其他用户在网络结构的组网中遇到相同的场景时，可以直接采用开源数据库中的融合算子，也可以采用本应用示例中的调试工具，通过匹配处理来引导用户完成相关算子的融合优化，避免不必要的性能损耗。

二、预先执行用户定义好的动态图程序(只执行几次迭代就可以)，并保存模型为下一步的遍历分析做准备。

三、运行调试工具(如图5所示的调试工具502，该调试工具502中包括多个算子构成的候选融合算子的组合)，加载动态图模式，遍历全量计算图(如图5所示的第一计算图501，该第一计算图为基于网络模型的融合算子映射表对应的第一计算图)。

首先，按照先验信息(如组网涉及到的算子等)筛出存在融合优化可能性的算子列表；然后基于最大子图匹配算法，在给定的全量计算图(即第一计算图501)中找到与给定融合算子对应的计算图(如第一子图)同构的子图(如第二子图)，若第一子图和第二子图为同构图，则匹配成功，将该第二子图与匹配成功的融合算子记录在一个类型为<String，Dict>的算子映射表中。其中key为融合算子的类型(op_type:string),value为包括单算子列表(list of string)、子图(Graph)等信息的dict中的值。除此之外，还可以记录该第二子图涉及到的训练代码位置(python端+TraceOp追踪)，以帮助用户定位组网改动的范围。

需要指出的是，以转换(Transformer)模型为例，Transformer模型包含的注意力机制(attention)组件可以将查询(Query)与一组键值对(Key-Value)映射到输出，而多头注意力机制(Multi-Head Attention)是将attention机制的计算过程重复多次，以便模型提取不同子空间的信息，可以应用于NLP、CV领域的一种模型结构。在组网中用户会采取组合API的方法复现Multi-Head Attention组件，而采用本应用示例的融合算子多头注意力(fused_multi_head_attention)机制，不仅可以将kernel调度次数由多次降至1次，还可以利用多线程的硬件资源实现并行计算，且采用一个API实现统一的调试信息反馈，可以提升模型的执行效率。

针对上述最大子图匹配算法而言，若将Transformer模型分为向量层(EmbeddingLayer)、Multi-Head Attention层、前馈(Feed Forward)层、损失函数层(Loss Layer)等四部分组件，通过匹配处理，可以得到Multi-Head Attention的计算图与fused_multi_head_attention是匹配的、而其他三者均不匹配，调试工具会在调试信息中将fused_multi_head_attention使用教程链接和N层Multi-Head Attention中涉及到的组网代码位置反馈作为调试信息反馈给用户，提醒用户这部分代码可以采取融合优化的策略来提升执行效率。可选的，相同类型的Feed Forward组件也可以与融合算子fused_feedforward匹配成功，用户也会在调试信息中获知到相关的优化提醒。

四、打印调试信息，引导用户完成动态图优化。

调试信息为基于上述步骤三中得到的算子信息和其对应的组网代码范围，将该调试信息反馈给用户，并给出融合算子的使用教程，帮助用户在组网层面完成改进，实现兼容灵活调试+融合优化的效果。

采用本应用示例，以离线的方式构建模型的融合算子映射表，采用在线的方式与动态图框架的调试工具中的图结构进行比对，若存在同构的子图，说明融合算子匹配成功，则可以输出调试信息，告知用户哪部分模型组网可以换成同类的融合算子，旨在引导用户首先完成相关算子的融合优化，避免不必要的性能损耗，充分发挥动态图模型的优势，自由灵活的兼顾静态图模式的高效性能，避免了以往用户在动态图模型下无法实现模型训练加速的缺陷，以及针对单算子引发的硬件算力和框架开销的缺陷，可以有效的提升模型执行效率，帮助用户实现更高效的模型开发、模型训练及模型部署。

根据本公开的实施例，提供了一种模型调试装置，图6是根据本公开实施例的模型调试装置的组成结构示意图，如图6所示，模型调试装置，包括：提取模块601，用于提取网络模型中的至少一个组件；加载模块602，用于以动态图模式加载调试工具；匹配模块603，用于将所述至少一个组件对应的算子构成信息与所述调试工具中的算子融合策略进行匹配处理，得到匹配结果；调试模块604，用于根据所述匹配结果，得到用于模型调试的调试信息。

一实施方式中，还包括构建模块，用于构建所述网络模型的融合算子映射表。

一实施方式中，融合算子映射表包括：至少一个组件对应的算子构成信息。

一实施方式中，匹配模块603，用于从第一计算图中得到第一子图，其中，所述第一计算图用于表征与所述融合算子映射表对应的全量计算图，所述第一子图用于表征与所述算子构成信息对应的局部计算图；获取第二子图，所述第二子图为所述调试工具中用于表征局部融合算子的局部计算图；将所述第一子图与所述第二子图进行所述匹配处理，所述匹配结果为所述第一子图与所述第二子图为同构图的情况下，匹配成功。

一实施方式中，匹配模块603，用于在所述网络模型中存在同类型的n个组件的情况下，将一个组件对应的算子构成信息与所述调试工具中的算子融合策略进行匹配处理，得到所述匹配结果；其中，所述n为大于1的整数；针对同类型的n-1个组件，不执行所述匹配处理。

一实施方式中，还包括接口调用模块，用于采用API接口，反馈所述调试信息；根据所述调试信息对所述网络模型进行模型优化，得到目标网络模型。

一实施方式中，所述调试信息包括：与融合算子相关的算子信息、与所述算子信息对应的组网代码范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如模型调试方法。例如，在一些实施例中，模型调试方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的模型调试方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型调试方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型调试方法，包括：

提取网络模型中的至少一个组件；

以动态图模式加载调试工具；

以及，根据所述匹配结果，得到用于模型调试的调试信息；

其中，所述匹配处理的方式包括：

从第一计算图中得到第一子图，其中，所述第一计算图用于表征与融合算子映射表对应的全量计算图，所述第一子图用于表征与所述算子构成信息对应的局部计算图；其中，所述融合算子映射表包括所述至少一个组件对应的算子构成信息；

获取第二子图，所述第二子图为所述调试工具中用于表征局部融合算子的局部计算图；

将所述第一子图与所述第二子图进行所述匹配处理。

2.根据权利要求1所述的方法，还包括：

构建所述网络模型的融合算子映射表。

3.根据权利要求1所述的方法，其中，所述将所述第一子图与所述第二子图进行所述匹配处理，包括：

匹配结果为所述第一子图与所述第二子图为同构图的情况下，匹配成功。

4.根据权利要求1-3中任一项所述的方法，其中，所述将所述至少一个组件对应的算子构成信息与所述调试工具中的算子融合策略进行匹配处理，得到匹配结果，包括：

在所述网络模型中存在同类型的n个组件的情况下，将一个组件对应的算子构成信息与所述调试工具中的算子融合策略进行匹配处理，得到所述匹配结果；其中，所述n为大于1的整数；

针对同类型的n-1个组件，不执行所述匹配处理。

5.根据权利要求1-3中任一项所述的方法，还包括：

采用统一的应用程序接口API接口，反馈所述调试信息；

根据所述调试信息对所述网络模型进行模型优化，得到目标网络模型。

6.根据权利要求5所述的方法，其中，所述调试信息包括：与融合算子相关的算子信息、与所述算子信息对应的组网代码范围。

7.一种模型调试装置，包括：

提取模块，用于提取网络模型中的至少一个组件；

加载模块，用于以动态图模式加载调试工具；

调试模块，用于根据所述匹配结果，得到用于模型调试的调试信息

其中，所述匹配模块，用于从第一计算图中得到第一子图，其中，所述第一计算图用于表征与所述融合算子映射表对应的全量计算图，所述第一子图用于表征与所述算子构成信息对应的局部计算图；获取第二子图，所述第二子图为所述调试工具中用于表征局部融合算子的局部计算图；将所述第一子图与所述第二子图进行所述匹配处理。

8.根据权利要求7所述的装置，还包括构建模块，用于：

构建所述网络模型的融合算子映射表。

9.根据权利要求7所述的装置，其中，所述匹配模块，用于：

10.根据权利要求7-9中任一项所述的装置，其中，所述匹配模块，用于：

针对同类型的n-1个组件，不执行所述匹配处理。

11.根据权利要求7-9中任一项所述的装置，还包括接口调用模块，用于：

采用统一的应用程序接口API接口，反馈所述调试信息；

12.根据权利要求11所述的装置，其中，所述调试信息包括：与融合算子相关的算子信息、与所述算子信息对应的组网代码范围。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。