CN112783650A

CN112783650A - 一种基于ai芯片的多模型并行推理方法

Info

Publication number: CN112783650A
Application number: CN202110075174.4A
Authority: CN
Inventors: 郁善金; 施佩琦; 高丰; 杨涛; 梁松涛; 郑欢欢; 汪明军; 王晓江
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-11
Anticipated expiration: 2041-01-20
Also published as: CN112783650B

Abstract

本发明公开一种基于AI芯片的多模型并行推理方法。采用的技术方案包括以下步骤：步骤一：模型转换，至少将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型；步骤二：加载转换的OM模型，并遵循AscendCL库接口，采用线程方式并行执行多个模型推理。优点如下：针对单一推理模型并不能高效利用AI芯片（如华为公司的Ascend 310芯片）的算力的不足问题，以充分挖掘Ascend 310芯片的算力，研究多模型并行推理，同时能够保持良好的性能。

Description

一种基于AI芯片的多模型并行推理方法

技术领域

本发明属于AI芯片领域，具体涉及一种基于AI芯片的多模型并行推理方法。

背景技术

近年来，随着万物互联时代的到来和5G网络的普及，每天数以万计的语音助手、翻译、推荐、视频管理、自动驾驶等各类新兴服务，都在以超快速度完成深度学习推理。对于开发者来说，不仅要满足最终用户关注的AI产品的实时性、高准确度的需求，还要考虑成本、能效等因素，因而，能满足可编程性、低延迟、高准确度、高吞吐量、易部署的成套AI推理软硬件组合成为开发者的心头好。基于此，NVIDIA发布的GPU，不断受到业界的好评，极大的促进了深度学习的发展。相较于CPU，它可以带来速度、准确度和快速响应能力的成倍提升。AI技术的飞速发展，使得越来越多的厂商也开始参与其中。华为全栈全场景AI解决方案的Ascend 310 AI芯片是业界面向边缘计算场景最强算力的AI系统级芯片。能够满足当前典型的边缘计算场景：安防、自动驾驶和智能制造，对空间、功耗、算力提出的苛刻约束条件的需求。据测算一颗Ascend 310 AI芯片可以实现高达16TOPS的现场算力，支持同时识别包括人、车、障碍物、交通标示在内的200个不同的物体。Ascend系列AI芯片的另外一个独特优势是采用了华为开创性的统一、可扩展的架构，即“达芬奇”架构，它实现了从极致的低功耗到极致的大算力场景的全覆盖。“达芬奇”架构能一次开发适用于所有场景的部署、迁移和协同，大大提升了软件开发的效率，加速AI在各行业的切实应用。

发明内容

本发明要解决的技术问题是提供一种基于AI芯片的多模型并行推理方法。

为解决上述问题，本发明采用的技术方案包括以下步骤：

步骤一：模型转换，至少将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型；

步骤二：加载转换的OM模型，并遵循AscendCL库接口，采用线程方式并行执行多个模型推理；

其中，所述步骤二通过以下子步骤实现：

步骤2.1，主线程，初始化ACL资源；

步骤2.2，主线程，申请Device资源；

步骤2.3，启动子线程，根据不同模型推理速度的差异性以及推理模型数量，建立不同的队列分别存储原始视频帧数据；

步骤2.4，根据需要推理的模型数量，分别启动对应的子线程，每个子线程做如下动作；

步骤2.4.1，Context、Stream资源申请；

步骤2.4.2，模型加载；

步骤2.4.3，预处理，读取队列中图片帧数据，对图片进行压缩；

步骤2.4.4，推理，基于加载的模型，生成的模型ID；

步骤2.4.5，后处理，基于推理结果解析，并推送给用户展示效果；

步骤2.4.6，重复预处理-推理-后处理过程，直至队列为空；

步骤2.4.7，模型卸载；

步骤2.4.8，Context、Stream资源释放；

步骤2.5，等待所有的子线程结束后，主线程释放Device资源；

步骤2.6，主线程ACL资源去初始化。

所述的基于AI芯片的多模型并行推理方法，其特征在于，所述步骤一通过以下子步骤来实现：

步骤1.1，使用ATC配套的开发工具MindStudio的模型转换功能对模型进行转换；

步骤1.2，如果原始模型是基于Tensorflow框架训练的，则需要提供对应pb模型文件；

步骤1.3，如果原始模型是基于Caffe框架训练的，则需要提供对应prototxt模型文件及对应的caffemodel权重文件；

步骤1.4，转换过程可以设置AIPP，对图像做进一步处理，包括改变图像尺寸、色域转换、减均值/乘系数。

所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤一中，将其他AI框架模型转换为OM模型。

所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤二中，基于加载模型后生成的模型ID和预处理后的图像帧数据调用ACL推理接口执行推理。

所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤2.4.7中，为OM模型卸载。

所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤二中，对分辨率为1920*1080一帧图像，执行多模型并行推理的过程，并进行性能表现分析。

所述的基于AI芯片的多模型并行推理方法，其特征在于，所述多模型包括：目标检测模型、人脸识别模型、图像上色模型、图像分类模型。

所述的基于AI芯片的多模型并行推理方法，其特征在于，所述性能表现分析包括：模型推理各个阶段耗时信息和AI Core性能数据信息。

所述的基于AI芯片的多模型并行推理方法，其特征在于：所述AIPP是在AI Core上完成，在时间先后上来看，预处理在前，AIPP在后。

所述的基于AI芯片的多模型并行推理方法，其特征在于：所述AI芯片为华为Ascend 310芯片。

本发明的一种基于AI芯片的多模型并行推理方法优点如下：针对单一推理模型并不能高效利用AI芯片（如华为公司的Ascend 310芯片）的算力的不足问题，以充分挖掘Ascend 310芯片的算力，研究多模型并行推理，同时能够保持良好的性能。

附图说明

图1为本发明多模型并行推理方法中的模型转换流程图；

图2为本发明多模型并行推理方法中的推理过程流程图；

图3为本发明进一步的多模型并行推理方法中的推理过程流程图；

图4为Ascend 310 AI芯片逻辑架构图；

图5为Ascend 310 AI芯片的规格图；

图6为本发明多模型并行推理的性能表现示意图。

具体实施方式

参照图1-5所示，本发明的基于AI芯片的多模型并行推理方法，包括以下步骤：

步骤一：模型转换，将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型。

步骤一中，通过以下子步骤来实现：

步骤1.1，使用ATC配套的开发工具MindStudio的模型转换功能对模型进行转换。

步骤1.2，如果原始模型是基于Tensorflow框架训练的，则需要提供对应pb模型文件。

步骤1.3，如果原始模型是基于Caffe框架训练的，则需要提供对应prototxt模型文件及对应的caffemodel权重文件。

步骤1.4，转换过程可以设置AIPP（AI Preprocessing），对图像做进一步处理，包括改变图像尺寸、色域转换（转换图像格式）、减均值/乘系数（改变图像像素）。所述AIPP是在AI Core上完成，在时间先后上来看，预处理在前，AIPP在后。

步骤二：加载转换的OM模型，并遵循AscendCL库接口，采用线程方式并行执行多个模型推理。

步骤二中通过以下子步骤实现。

步骤2.1，主线程，初始化ACL资源。

步骤2.2，主线程，申请Device资源。

步骤2.3，启动子线程，根据不同模型推理速度的差异性以及推理模型数量，建立不同的队列分别存储原始视频帧数据。该步骤是推理视频数据的准备，需要根据后续模型数量，建立对应的队列存储读取的视频帧数据，同时需要考虑队列长度，防止出现OOM现象。

步骤2.4，根据需要推理的模型数量，分别启动对应的子线程，每个子线程做如下动作：

步骤2.4.1，Context、Stream资源申请。

步骤2.4.2，模型加载，加载OM模型，例如：yolov3-tf.om。

步骤2.4.3，预处理，读取队列中图片帧数据，对图片进行压缩。

步骤2.4.4，推理，基于加载的模型，生成的模型ID和预处理后的图像帧数据调用ACL推理接口执行推理。

步骤2.4.5，后处理，基于推理结果解析，并推送给用户展示效果。

步骤2.4.6，重复预处理-推理-后处理过程，直至队列为空。

步骤2.4.7，OM模型卸载。

步骤2.4.8，Context、Stream资源释放。

步骤2.5，等待所有的子线程结束后，主线程释放Device资源。

步骤2.6，主线程ACL资源去初始化。

优选的，所述步骤二中，对分辨率为1920*1080一帧图像，执行多模型并行推理的过程，并进行性能表现分析。所述多模型包括：目标检测模型、人脸识别模型、图像上色模型、图像分类模型。所述性能表现分析包括：模型推理各个阶段耗时信息和AICore性能数据信息。

优选的，所述AI芯片为华为Ascend 310 芯片。其本质上是一个片上系统（Systemon Chip，SoC），主要可以应用在和图像、视频、语音、文字处理相关的应用场景。其主要的架构组成部件包括特制的计算单元、大容量的存储单元和相应的控制单元。该芯片大致可以划为：

AI Core：集成了2个AI Core。昇腾AI芯片的计算核心，主要负责执行矩阵、向量、标量计算密集的算子任务，采用“达芬奇”架构。

ARM CPU核心：集成了8个A55。其中一部分部署为AI CPU，负责执行不适合跑在AICore上的算子（承担非矩阵类复杂计算）；一部分部署为专用于控制芯片整体运行的控制CPU。两类任务占用的CPU核数可由软件根据系统实际运行情况动态分配。此外，还部署了一个专用CPU作为任务调度器（Task Scheduler，TS），以实现计算任务在AI Core上的高效分配和调度；该CPU专门服务于AI Core和AI CPU，不承担任何其他的事务和工作。

DVPP：数字视觉预处理子系统，完成图像视频的编解码。用于将从网络或终端设备获得的视觉数据，进行预处理以实现格式和精度转换等要求，之后提供给AI计算引擎。

Cache & Buffer：SOC片内有层次化的memory结构，AI core内部有两级memorybuffer，SOC片上还有8MB L2 buffer，专用于AI Core、AI CPU，提供高带宽、低延迟的memory访问。芯片还集成了LPDDR4x控制器，为芯片提供更大容量的DDR内存。

对外接口：支持PCIE3.0、RGMII、USB3.0等高速接口、以及GPIO、UART、I2C、SPI等低速接口。

下面通过试验例进一步证明本发明的有益效果：按照上述多模型并行推理方法通过MindStudio开发工具，编码-编译-运行该多模型并行推理工程，其中加载了四个推理模型（目标检测模型-yolov3.om、人脸识别模型-face_detection.om、图像上色模型-colorization.om、图像分类模型googlenet.om）。硬件采用华为的Atlas 200 DK开发套件（内含Ascend 310 推理芯片），输入为一张分辨率为1920*1080的图片（由于使用视频流数据，采集的数据连续难以区分，这里只使用一帧数据输入），同时推理过程中打开Profiling开关对推理过程中模型在各个阶段的耗时数据，各个线程运行情况，甚至单个算子的耗时数据进行采集。最终的结果如图5所示，通过如图5可以看出，其芯片算力得到了充分的使用。同时从保存的推理结果来看，模型的准确度并没有降低。

以上所述，并非对本发明做任何形式上的限制，虽然本发明已以较佳实施案例揭示如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的结构及技术内容做出些许的更动或修饰为等同变化的等效实施案例，但是凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施案例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案范围。

Claims

1.一种基于AI芯片的多模型并行推理方法，其特征在于,包括以下步骤：

其中，所述步骤二通过以下子步骤实现：

步骤2.1，主线程，初始化ACL资源；

步骤2.2，主线程，申请Device资源；

步骤2.4.1，Context、Stream资源申请；

步骤2.4.2，模型加载；

步骤2.4.4，推理，基于加载的模型，生成的模型ID；

步骤2.4.6，重复预处理-推理-后处理过程，直至队列为空；

步骤2.4.7，模型卸载；

步骤2.4.8，Context、Stream资源释放；

步骤2.5，等待所有的子线程结束后，主线程释放Device资源；

步骤2.6，主线程ACL资源去初始化。

2.根据权利要求1所述的基于AI芯片的多模型并行推理方法，其特征在于，所述步骤一通过以下子步骤来实现：

3.根据权利要求1所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤一中，将其他AI框架模型转换为OM模型。

4.根据权利要求1所述的基于AI芯片的多模型并行推理方法，其特征在于：

5.根据权利要求1所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤2.4.7中，为OM模型卸载。

6.根据权利要求1所述的基于AI芯片的多模型并行推理方法，其特征在于：

所述步骤二中，对分辨率为1920*1080一帧图像，执行多模型并行推理，并进行性能表现分析。

7.根据权利要求6所述的基于AI芯片的多模型并行推理方法，其特征在于，所述多模型包括：目标检测模型、人脸识别模型、图像上色模型、图像分类模型。

8.根据权利要求6所述的基于AI芯片的多模型并行推理方法，其特征在于，所述性能表现分析包括：模型推理各个阶段耗时信息和AI Core性能数据信息。

9.根据权利要求2所述的基于AI芯片的多模型并行推理方法，其特征在于：所述AIPP是在AI Core上完成，在时间先后上来看，预处理在前，AIPP在后。

10.根据权利要求1所述的基于AI芯片的多模型并行推理方法，其特征在于：所述AI芯片为华为Ascend 310芯片。