CN114707654A

CN114707654A - 基于人工智能框架的算法训练推理性能可视化方法及装置

Info

Publication number: CN114707654A
Application number: CN202210628435.5A
Authority: CN
Inventors: 肖俊; 陈治清; 吴超; 王朝; 张志猛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-07-05
Anticipated expiration: 2042-06-06
Also published as: CN114707654B

Abstract

本发明公开了一种基于人工智能框架的算法训练推理性能可视化方法及装置，属于深度学习技术领域。本发明能够将深度学习模型在人工智能框架上的算法训练或推理过程的数据转换为通用的Protobuf数据格式，通过计算深度模型网络中的节点延迟和节点效率来可视化人工智能框架的性能表现，方便用户分析和优化算法模型。本发明提供了比较不同人工智能框架的算法训练或推理性能的方法，适用于不同的人工智能框架，为用户比较和选择合适的人工智能框架以及优化模型结构提供帮助。

Description

基于人工智能框架的算法训练推理性能可视化方法及装置

技术领域

本发明属于深度学习技术领域，具体涉及一种基于人工智能框架的算法训练推理性能可视化方法及装置。

背景技术

随着深度学习技术的快速发展，部分学界和业界机构陆续宣布开源国产人工智能框架，这些人工智能框架所支持的硬件和计图的训练、推理速度大同小异。延迟是算法模型收到数据请求与做出反应之间所需要的时间，不同的任务对延迟要求不尽相同，例如语音识别、图像和视频管理就是一种需要低延迟、实时推理服务的应用。而深度学习模型的延迟与其选择的人工智能框架也紧密相关。因此，不同的深度学习模型需要选择各自合适的人工智能框架，以便于最大程度优化模型的训练及推理性能。

在对深度学习模型进行优化以及选择深度学习模型所采用的人工智能框架时，传统做法需要依赖于经验或者不断地尝试，但是该做法的可迁移性程度较低。而模型可视化技术的出现，为此类问题的解决提供了一种可行的方案。例如，在申请号为CN202011174990.2的发明专利中提供了一种深度学习训练实时可视化方法及装置，在申请号为CN202110691724.5的发明专利中提供了一种深度学习训练过程数据转化为可视化数据方法和系统。这些现有技术都为深度学习模型训练的可视化提供了相应的解决方案。但是这些解决方案主要用于模型训练过程中中间结果的数据进行分析和异常处理，没有比较深度学习经典模型在不同的人工智能框架上的性能表现。而且，此类方案没有考虑深度学习模型对于延迟的优化需求，无法保证优化出的深度学习模型满足低延迟、实时推理服务的应用需求。

因此，需要针对深度学习模型的自身优化以及人工智能框架的选择，提供一种算法训练及推理性能可视化方法，以便于可视化人工智能框架在训练和推理时的性能表现，从而在考虑模型延迟的情况下，为用户比较和选择合适的人工智能框架以及优化模型结构提供帮助。

发明内容

本发明的目的在于解决现有技术中存在的问题，并提供一种基于人工智能框架的算法训练推理性能可视化方法及装置。本发明通过计算深度模型网络中数据的传播延迟和传播速率来可视化人工智能框架在训练和推理时的性能表现，为用户比较和选择合适的人工智能框架以及优化模型结构提供帮助。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种基于人工智能框架的算法训练推理性能可视化方法，其包括：

S1、基于目标人工智能框架构建目标深度学习模型，并在目标深度学习模型中选择网络节点作为观察节点，所述观察节点至少包含模型的输入节点和输出节点；

S2、在所述目标深度学习模型的训练或推理过程中监听每个观察节点收到的数据请求信息；在任一观察节点收到数据请求信息时，将该观察节点获取到的数据转换为Protobuf数据格式并记录该观察节点处理的数据量，同时记录该观察节点收到数据请求信息后不同处理状态对应的时间信息，从而计算该观察节点的节点延迟；

S3、根据针对每个观察节点记录的所述数据量和所述节点延迟，计算得到基于目标人工智能框架构建的目标深度学习模型的传播速率和阻塞率；

S4、对所述传播速率和阻塞率进行节点信息可视化，形成目标深度学习模型中各观察节点的传播速率可视化结果和阻塞率可视化结果。

作为上述第一方面的优选，所述目标深度学习模型用节点和有向边组成的数据流图表示，其中每个节点对应于一个具体的模型载体操作，且模型载体操作的节点类型分为计算节点、存储节点和数据节点三类。

作为上述第一方面的优选，所述观察节点中，除模型的输入节点和输出节点之外，其余的观察节点选择以节点的度或节点的介数中心性为节点重要性指标进行推荐，且所选择的节点重要性指标值与节点的重要性正相关。

作为上述第一方面的优选，所述观察节点在收到全部数据请求信息后，使用Protobuf序列化工具对该观察节点处理的数据信息进行格式转换并存储于缓冲区内，当处理完全部数据请求后，统计缓冲区中按Protobuf数据格式存储的数据量大小，进而得到该观察节点处理的数据量。

作为上述第一方面的优选，所述传播速率为观察节点处理的数据量与节点处理延迟的比值；所述节点处理延迟为观察节点收到全部数据请求到处理完全部数据请求之间的时间延迟；

所述阻塞率为观察节点的节点接收延迟与观察节点的节点时间延迟的比值；所述节点接收延迟为观察节点接收全部数据请求的有效时间之和；所述节点时间延迟为观察节点开始收到数据请求到观察节点接收完毕全部数据请求之间的时间延迟。

作为上述第一方面的优选，在所述目标深度学习模型的训练或推理过程中，需要按数据请求周期性更新计算各观察节点的传播速率和阻塞率，并按序记录后以图或者表的形式进行节点信息可视化展示。

作为上述第一方面的优选，将同一深度学习模型分别构建于不同的人工智能框架上，并分别得到不同人工智能框架构建的深度学习模型中各观察节点的传播速率可视化结果和阻塞率可视化结果，用于辅助进行人工智能框架的选择和深度学习模型的网络结构优化。

第二方面，本发明提供了一种基于人工智能框架的算法训练推理性能可视化装置，其包括：

初始化模块，用于基于目标人工智能框架构建目标深度学习模型，并在目标深度学习模型中选择网络节点作为观察节点，所述观察节点至少包含模型的输入节点和输出节点；

节点信息获取模块，用于在所述目标深度学习模型的训练或推理过程中监听每个观察节点收到的数据请求信息；在任一观察节点收到数据请求信息时，将该观察节点获取到的数据转换为Protobuf数据格式并记录该观察节点处理的数据量，同时记录该观察节点收到数据请求信息后不同处理状态对应的时间信息，从而计算该观察节点的节点延迟；

节点效率计算模块，用于根据针对每个观察节点记录的所述数据量和所述节点延迟，计算得到基于目标人工智能框架构建的目标深度学习模型的传播速率和阻塞率；

节点信息可视化模块，用于对所述传播速率和阻塞率进行节点信息可视化，形成目标深度学习模型中各观察节点的传播速率可视化结果和阻塞率可视化结果。

第三方面，本发明提供了一种计算机可读存储装置，所述存储装置上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如上述第一方面任一方案所述的基于人工智能框架的算法训练推理性能可视化方法。

第四方面，本发明提供了一种计算装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上述第一方面任一方案所述的基于人工智能框架的算法训练推理性能可视化方法。

本发明相对于现有技术而言，具有以下有益效果：

本发明能够将深度学习模型在人工智能框架上的算法训练或推理过程的数据转换为通用的Protobuf数据格式，通过计算深度模型网络中的节点延迟和节点效率来可视化人工智能框架的性能表现，方便用户分析和优化算法模型。本发明提供了比较不同人工智能框架的算法训练或推理性能的方法，适用于不同的人工智能框架，为用户比较和选择合适的人工智能框架以及优化模型结构提供帮助。

附图说明

图1为基于人工智能框架的算法训练推理性能可视化方法的步骤流程图；

图2为网络中的观察节点设置示意图；

图3为基于人工智能框架的算法训练推理性能可视化装置的模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明中，人工智能框架是指用于支持深度学习模型构建、训练和推理的深度学习框架，例如Google 开源的Tensorflow、Facebook开源的PyTorch，以及国内部分顶级学界和业界机构开源的Mindspore、PaddlePaddle、Jittor和MegEngine等等。本发明可对比不同深度学习模型在不同的人工智能框架上的性能表现，但每次仅基于一种人工智能框架构建一个深度学习模型进行性能可视化。因此为了便于叙述，将当前进行性能可视化的人工智能框架称为目标人工智能框架，将当前进行性能可视化的深度学习模型称为当前深度学习模型。

为了比较深度学习经典模型在不同的人工智能框架上的性能表现，本发明提出了一种基于人工智能框架的算法训练及推理性能可视化方法，通过计算深度模型网络中数据的传播延迟和传播速率来可视化人工智能框架在训练和推理时的性能表现，为用户比较和选择合适的人工智能框架以及优化模型结构提供帮助。

如图1所示，在本发明的一个较佳实施例中，上述基于人工智能框架的算法训练推理性能可视化方法具体包括S1~S4步骤。下面对S1~S4步骤的具体实现方式进行详细介绍。

S1、基于目标人工智能框架构建目标深度学习模型，并在目标深度学习模型中选择网络节点作为观察节点，所述观察节点至少包含模型的输入节点和输出节点。

需要说明的是，每一种人工智能框架均有其对应的部署环境、模型库、API接口，因此如何基于目标人工智能框架构建目标深度学习模型具体可根据人工智能框架的相关手册、API文档进行实现。

深度学习算法模型可以用节点和有向边组成的数据流图表示，其中每个节点都对应着一个具体的模型载体操作，又称op算子。模型载体操作可以分为计算节点（Operation）、存储节点（Variable）和数据节点（Placeholder），其中计算节点对应的是模型中无状态的计算或是控制操作，通常负责算法的逻辑表达和流程控制；存储节点对应的是有状态的变量操作，主要用于存储模型参数；数据节点对应的是特殊位置的占位符，负责描述待输入数据的属性。

本发明中观察节点表示的是模型载体操作，观察节点的功能是获取观察节点收到的数据请求信息。目标深度学习模型中需要观察的网络节点可手动设置，其中默认选择的网络节点为模型网络的输入节点Input和输出节点Output，然后再根据需要设置其它需要观察的网络节点。如图2所示，为网络中的观察节点设置示意图，其中输入节点和输出节点之外的其他观察节点需要根据实际观察需要进行设置，可不作限定。

作为本发明实施例的一种较佳实现方式，上述需要设置的观察节点中，除模型的输入节点和输出节点之外，其余的观察节点选择以节点的度或节点的介数中心性这两个指标中的一个或两个为节点重要性指标进行推荐，这两个节点重要性指标值均与节点的重要性正相关。由此，本发明可以根据模型网络中节点的重要性自适应为用户推荐重要的观察节点，其中观察节点的推荐指标包括节点的度D(i)和介数中心性C_B(i)两种。深度学习模型所有网络节点按照推荐指标值从高到低排序后，可选择排序最靠前的部分网络节点作为观察节点。节点的度D(i)和介数中心性C_B(i)的计算公式如下：

上述节点的度D(i)计算公式如下：

（1）

其中，M表示深度学习模型所有网络节点的集合；a(i,j)是一个衡量节点连接性的函数，对于网络节点i和网络节点j，当i与j存在边相连时，a(i,j)=1，否则a(i,j)=0。当网络节点i的度D(i)值越大，网络节点i就越重要。

上述介数中心性C_B(i)计算公式如下：

（2）

其中，M表示深度学习模型所有网络节点的集合；

表示网络节点s经过网络节点i到网络节点t的最短路径条数，

表示网络节点s到网络节点t的最短路径条数。同样的，当网络节点i的介数中心性C_B(i)值越大，网络节点i就越重要。

作为本发明实施例的一种较佳实现方式，在设置其它需要观察的网络节点时，可以根据op算子类型筛选并设置观察节点，为用户批量分析各种op算子的开销提供帮助。例如，上述三类op算子中，如果需要对比某一深度学习模型的在不同人工智能框架上的计算效率性能，则可以按类型筛选出所有的计算节点，进而在不同人工智能框架之间横向对比计算节点的计算开销。

S2、在所述目标深度学习模型的训练或推理过程中监听每个观察节点收到的数据请求信息；在任一观察节点收到数据请求信息时，将该观察节点获取到的数据转换为Protobuf数据格式并记录该观察节点处理的数据量，同时记录该观察节点收到数据请求信息后不同处理状态对应的时间信息，从而计算该观察节点的节点延迟。

需要说明的是，Protobuf是一种可自定义的轻便高效的结构化数据存储格式，可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式，适用于不同人工智能框架之间的数据信息比较。Protobuf的具体格式形式属于现有技术，对此不再赘述。

需要说明的是，本发明中将模型训练或推理过程中各个观察节点获取到的数据转换为自定义的Protobuf数据格式，其主要目的是记录经过该观察节点处理的数据量

大小，以便于计算观察节点的传播速率。若观察节点收到的数据请求信息中包含数据量

大小的信息，则实际从收到数据请求信息中即可获取到该观察节点处理的数据量

。但考虑到后续其他统计功能的扩展，作为本发明实施例的一种较佳实现方式，观察节点在收到全部数据请求信息后，可以使用Protobuf序列化工具对该观察节点处理的数据信息进行格式转换，并将转换成可取用格式后的数据信息存储于缓冲区内，当处理完全部数据请求后，统计缓冲区中按Protobuf数据格式存储的数据量

大小，进而准确得到该观察节点处理的数据量

。而这些存储在缓冲区内的数据，可以进一步根据需要用于其他的性能指标分析流程中。

需要说明的是，模型的节点延迟可以分为节点时间延迟

、节点接收延迟

和节点处理延迟

。其中，第i个节点的节点时间延迟

为观察节点i开始收到数据请求到观察节点i接收完毕全部数据请求之间的时间延迟。第i个节点的节点接收延迟

为观察节点i接收全部数据请求的有效时间之和。第i个节点的节点处理延迟

为观察节点i收到全部数据请求到处理完全部数据请求之间的时间延迟。

S3、根据针对每个观察节点记录的所述数据量和所述节点延迟，计算得到基于目标人工智能框架构建的目标深度学习模型的传播速率和阻塞率。

需要说明的是，本发明中的传播速率

和阻塞率

反应了模型在训练或批量推理时计算节点效率。其中，传播速率

为观察节点处理的数据量

与节点处理延迟

的比值，用公式可以表示为：

（3）

其中，传播速率

单位是Mbps，传播速率

值越高表示节点效率越高。

而阻塞率

为观察节点的节点接收延迟

与观察节点的节点时间延迟

的比值，用公式可以表示为：

（4）

其中，阻塞率

单位是%，阻塞率

值越低表示节点效率越高。

需要说明的是，本发明中具体的可视化形式可以根据实际需要进行调整，可以从不同观察节点和不同训练（或推理）进度两个维度进行展示，其展示的形式可以是图，也可以是表格或者其他的静态或者动态可视化形式。

作为本发明实施例的一种较佳实现方式，考虑到目标深度学习模型的训练或推理过程中会存在多轮周期性的数据请求，因此在目标深度学习模型的训练或推理过程中，需要按数据请求周期性更新计算各观察节点的传播速率和阻塞率，即每一轮数据请求均需要计算各观察节点的传播速率和阻塞率，并按序关联记录后以图或者表的形式进行节点信息可视化展示。

当然，由于目前可选择的人工智能框架种类众多，因此作为本发明实施例的一种较佳实现方式，可以在前述两个展示维度基础上，进一步增加不同人工智能框架的展示维度。其做法为将同一深度学习模型分别构建于不同的人工智能框架上，并分别得到不同人工智能框架构建的深度学习模型中各观察节点的传播速率可视化结果和阻塞率可视化结果，用于辅助进行人工智能框架的选择和深度学习模型的网络结构优化。

在模型训练或推理时对节点信息可视化可以形象地反映出深度学习模型在不同人工智能框架下训练或推理的性能。其中，网络的节点延迟反映了op算子的开销性能，网络节点传播速率

反映了op算子的计算性能，网络节点阻塞率

反映了网络节点的数据阻塞情况。根据这些指标，可以对深度学习模型在不同人工智能框架上的性能表现进行评估，从而选择最优的人工智能框架。另外，也可以对深度学习模型自身的网络结构进行优化，例如当网络节点i的阻塞率

较高，说明网络节点i的前向某个节点计算较为复杂，需要对网络结构进行优化。由此可见，本发明通过计算深度模型网络中的节点延迟和节点效率（传播速率和阻塞率）来可视化人工智能框架的性能表现，可为用户比较和选择合适的人工智能框架以及优化模型结构提供帮助。

基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的基于人工智能框架的算法训练推理性能可视化方法对应的基于人工智能框架的算法训练推理性能可视化装置。如图3所示，在该基于人工智能框架的算法训练推理性能可视化装置中包括四个基本的模块，分别为：

初始化模块，用于基于目标人工智能框架构建目标深度学习模型，并在目标深度学习模型中选择网络节点作为观察节点，所述观察节点至少包含模型的输入节点和输出节点。

节点信息获取模块，用于在所述目标深度学习模型的训练或推理过程中监听每个观察节点收到的数据请求信息；在任一观察节点收到数据请求信息时，将该观察节点获取到的数据转换为Protobuf数据格式并记录该观察节点处理的数据量，同时记录该观察节点收到数据请求信息后不同处理状态对应的时间信息，从而计算该观察节点的节点延迟。

节点效率计算模块，用于根据针对每个观察节点记录的所述数据量和所述节点延迟，计算得到基于目标人工智能框架构建的目标深度学习模型的传播速率和阻塞率。

由于本发明实施例中的基于人工智能框架的算法训练推理性能可视化装置解决问题的原理与本发明上述实施例的基于人工智能框架的算法训练推理性能可视化方法相似，因此该实施例中装置的各模块具体实现形式未尽之处亦可可以参见上述方法的具体实现形式，重复之处不再赘述。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的基于人工智能框架的算法训练推理性能可视化方法对应的一种计算装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如前所述的基于人工智能框架的算法训练推理性能可视化方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

由此，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的基于人工智能框架的算法训练推理性能可视化方法对应的一种计算机可读存储装置，该所述存储装置上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前所述的基于人工智能框架的算法训练推理性能可视化方法。

具体而言，在上述两个实施例的计算机可读存储装置或存储器中，存储的计算机程序被处理器执行，可执行下列S1~S4的步骤：

可以理解的是，上述存储装置、存储器均为一种计算机可读存储介质，可以采用随机存取存储器(Random Access Memory，RAM)，也可以采用非易失性存储器(Non-VolatileMemory，NVM)，例如至少一个磁盘存储器。同时还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的装置和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于人工智能框架的算法训练推理性能可视化方法，其特征在于，包括：

2.如权利要求1所述的基于人工智能框架的算法训练推理性能可视化方法，其特征在于，所述目标深度学习模型用节点和有向边组成的数据流图表示，其中每个节点对应于一个具体的模型载体操作，且模型载体操作的节点类型分为计算节点、存储节点和数据节点三类。

3.如权利要求1所述的基于人工智能框架的算法训练推理性能可视化方法，其特征在于，所述观察节点中，除模型的输入节点和输出节点之外，其余的观察节点选择以节点的度或节点的介数中心性为节点重要性指标进行推荐，且所选择的节点重要性指标值与节点的重要性正相关。

4.如权利要求1所述的基于人工智能框架的算法训练推理性能可视化方法，其特征在于，所述观察节点在收到全部数据请求信息后，使用Protobuf序列化工具对该观察节点处理的数据信息进行格式转换并存储于缓冲区内，当处理完全部数据请求后，统计缓冲区中按Protobuf数据格式存储的数据量大小，进而得到该观察节点处理的数据量。

5.如权利要求1所述的基于人工智能框架的算法训练推理性能可视化方法，其特征在于，所述传播速率为观察节点处理的数据量与节点处理延迟的比值；所述节点处理延迟为观察节点收到全部数据请求到处理完全部数据请求之间的时间延迟；

6.如权利要求1所述的基于人工智能框架的算法训练推理性能可视化方法，其特征在于，在所述目标深度学习模型的训练或推理过程中，需要按数据请求周期性更新计算各观察节点的传播速率和阻塞率，并按序记录后以图或者表的形式进行节点信息可视化展示。

7.如权利要求1所述的基于人工智能框架的算法训练推理性能可视化方法，其特征在于，将同一深度学习模型分别构建于不同的人工智能框架上，并分别得到不同人工智能框架构建的深度学习模型中各观察节点的传播速率可视化结果和阻塞率可视化结果，用于辅助进行人工智能框架的选择和深度学习模型的网络结构优化。

8.一种基于人工智能框架的算法训练推理性能可视化装置，其特征在于，包括：

9.一种计算机可读存储装置，其特征在于，所述存储装置上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如权利要求1~7任一所述的基于人工智能框架的算法训练推理性能可视化方法。

10.一种计算装置，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1~7任一所述的基于人工智能框架的算法训练推理性能可视化方法。