CN112581353A

CN112581353A - 一种面向深度学习模型的端到端图片推理系统

Info

Publication number: CN112581353A
Application number: CN202011593992.5A
Authority: CN
Inventors: 李晗; 刘琛; 杨镇铭; 安晓博; 尹萍
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-30

Abstract

本发明公开了一种面向深度学习模型的端到端图片推理系统，属于深度学习技术领域。本发明的面向深度学习模型的端到端图片推理系统包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块：图片解码模块将图片解码成同一格式，完成解码后的图片以指针形式保存在服务器存储器的内存中；图片预处理模块为将完成图像解码后，将多线程处理的图片按批进行标准化操作；多级推理引擎模块对图片中的信息进行分析，在各级推理引擎模块间进行数据传输时，传递内存指针；数据输出模块为在完成图片解析后，对结果进行展示、发送或保存。该发明的面向深度学习模型的端到端图片推理系统可以减少开发工作量，具有很好的推广应用价值。

Description

一种面向深度学习模型的端到端图片推理系统

技术领域

本发明涉及深度学习技术领域，具体提供一种面向深度学习模型的端到端图片推理系统。

背景技术

目前基于深度学习进行图片分析，一般包括如下步骤：

(1)基于TensorFlow或者PyTorch等框架进行深度学习模型训练，可以得到如图像分类网络模型ResNet，DenseNet或者目标检测网络模型如YOLO，Faster RCNN等，保存的模型权重文件均为各个框架下模型文件的格式，只能在各个框架下进行读取。当需要将两个不同框架的模型用于分析同一张图片时，如用TensorFlow进行目标检测，用PyTorch进行图像分类，要将两个模型结合在一起，需要在系统中安装多个框架。遇到框架不兼容的问题时，需要在同一框架下重新开发并训练深度学习网络模型，非常影响开发效率。

(2)当有图片需要进行解析时，需要根据图片位置，如网络图片或者本地图片，选择图片解码工具，不同解码工具解析图片后的格式可能会存在不一致的情况，如一般的图片处理工具会将图片解码为RGB格式，而OpenCV会将图片解码为BGR格式。完成图片解码后，需要对图片进行预处理送到深度学习模型中，而深度学习模型的标准化参数是固定的，不同的格式会影响深度学习模型图片预处理的效率。

(3)多级推理引擎衔接：使用深度学习模型进行图片解析时，需要分析的目标一般会经过多个深度卷积神经网络模型进行分析。比如车牌识别分析，需要首先对图片中的车辆进行目标检测，然后对车辆目标范围内进行车牌检测，确定了车牌在图片中的位置后，进行车牌字符识别最终完成车牌图片分析。一般来说，各个推理模型之间传递数据时都有从GPU到CPU的拷贝和从CPU到GPU的拷贝的过程，多次拷贝会影响处理效率。

(4)输出结果：完成图片解析后，将解析结果从服务器发送到客户端或者云端，以及将解析结果标记到图片上展示给客户。

上述步骤存在明显的缺陷，有待进一步的改进。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种可以方便开发人员在开发时只需专注于构建所需的深度学习模型，而不需要从头开始设计，减少开发工作量的面向深度学习模型的端到端图片推理系统。

为实现上述目的，本发明提供了如下技术方案：

一种面向深度学习模型的端到端图片推理系统，包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块：

图片解码模块将图片解码成同一格式，完成解码后的图片以指针形式保存在服务器存储器的内存和显存中，并建立匹配关系；

图片预处理模块为将完成图像解码后，将多线程处理的图片按批进行标准化操作，并处理为网络模型所需的输入形式；

多级推理引擎模块对图片中的信息进行分析，在各级推理引擎模块间进行数据传输时，传递内存指针；

数据输出模块为在完成图片解析后，对结果进行展示、发送或保存。

其中图片预处理模块为将完成图像解码后，在GPU上将多线程处理的图片按批进行标准化操作进行加速，并转换为网络模型所需的输入形式；

本发明中采用一级推理引擎和二级推理引擎。

作为优选，所述图片解码模块为基于硬件加速的图片加速模块，提供基于硬件的完全图片加速图片解码，将图片解码成同一格式。

本发明中图片解码模块为基于GPU的图片解码器。

作为优选，通过所述图片解码模块记录图片的显存指针和内存指针，并建立指针间的对应关系。减少了服务器不同存储器件(如GPU和CPU)之间的拷贝环节，从而提高了处理速度。

作为优选，图片解码模块在进行图片解码时，将所需的插件组合构建解码工作流水线。

作为优选，所述图片预处理模块将图片数据按网络所需基于硬件加速的方式进行标准化操作，并处理为网络所需的输入形式。

所述图片预处理模块在GPU上进行图片的标准化操作，图片的标准化操作包括归一化，减去均值和除以标准差，将图片数据处理为多维张量。

作为优选，所述多级推理引擎模块支持所有主流深度学习框架训练出来的模型，对深度学习框架训练出的模型进行网络解析及网络层优化。

多级推理引擎模块支持了现在所有的主流深度学习框架如TensorFlow、PyTorch等训练出来的模型，推理引擎会对各个框架的模型进行网络分析及网络层优化以提高推理速度，解析图像时，将图像输入推理引擎模块中即可得到相应的推理结果，而不需要依赖其他深度学习框架。

作为优选，图片数据在多级推理引擎模块之间传输时，传递各存储器内存中的指针及匹配关系。多级推理引擎在推理时直接访问相应的指针，从而减少推理引擎之间的数据拷贝过程，以减少时间延迟。

作为优选，所述数据传输模块内置Kafka、MQTT和AMQP代理协议，将结果从服务器发送到客户端或云端进行结果展示。

该面向深度学习模型的端到端图片推理系统对需要深度学习模型解析的图片的各个模块进行封装，开发时仅需要根据需要选择所需模块构建工作流水线，即可完成图片解析及结果发送，而不需要依赖其他深度学习框架。当有图片需要解析时，图片会首先经过解码模块，模块可以对需要解析的图片进行解码及预处理，并记录图片的GPU内存指针和CPU内存指针，并建立指针间对应关系；然后图片会经过多级推理引擎模块对图片中的信息进行分析，在各级引擎间进行数据传输时，传递内存指针以减少GPU内存和CPU内存之间的拷贝次数；完成图片解析后，可以根据需要对结果进行展示、发送或者保存。

与现有技术相比，本发明的面向深度学习模型的端到端图片推理系统具有以下突出的有益效果：

(一)所述面向深度学习模型的端到端图片推理系统通过基于GPU的图片解码器，提供基于硬件的完全加速图片解码，完成解码后，建立图片数据的内存指针匹配关系，减少数据拷贝传输次数；

(二)对于不同深度学习框架训练出的网络模型，本方案提供了推理模块进行网络解析与优化并构建推理引擎，推理时基于推理引擎统一进行推理，而不需要安装多个框架；

(三)开发人员可以根据需要构建面向深度学习模型图片推理的工作流水线，并且仅需关注构建所需的深度学习模型即可。在进行图片解析时，仅需提供需要解析的图片输入到各个模块中，即可得到图片的解析结果，无需开发其他流程，以减少开发工作量，具有良好的推广应用价值。

附图说明

图1是本发明所述面向深度学习模型的端到端图片推理系统的拓扑图。

具体实施方式

下面将结合实施例，对本发明的面向深度学习模型的端到端图片推理系统作进一步详细说明。

实施例

如图1所示，本发明的面向深度学习模型的端到端图片推理系统包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块。

图片解码模块为基于GPU的图片解码器，提供基于硬件的完全图片加速图片解码，将图片解码成同一格式。将图片解码成同一格式，完成解码后的图片以指针形式保存在服务器存储器的内存中。图片解码模块记录图片的GPU内存指针和CPU内存指针，并建立指针间的对应关系。减少了服务器不同存储器件(如GPU和CPU)之间的拷贝环节，从而提高了处理速度。图片解码模块在进行图片解码时，将所需的插件组合构建解码工作流水线。

图片预处理模块为将完成图像解码后，图像预处理模块会根据深度学习模型的预处理要求，在GPU上对图片按批进行标准化操作，并将图片数据处理为网络所需的张量形式，以加快预处理速度及方便后面的各级推理引擎模块解析图片数据。

本发明中采用一级推理引擎和二级推理引擎。推理引擎模块对图片中的信息进行分析，在各级推理引擎模块间进行数据传输时，传递内存指针。

推理引擎模块支持所有主流深度学习框架训练出来的模型，对深度学习框架训练出的模型进行网络解析及网络层优化。支持了现在所有的主流深度学习框架如TensorFlow、PyTorch等训练出来的模型，推理引擎会对各个框架的模型进行网络分析及网络层优化以提高推理速度，解析图像时，将图像输入推理引擎模块中即可得到相应的推理结果，而不需要依赖其他深度学习框架。根据使用的训练网络的框架和网络结构，进行网络解析，将保存的神经网络从各个框架的格式解析为推理引擎。解析网络后，根据批处理大小、工作区大小、混合精度等选项对推理引擎进行优化，最终以序列化格式写出推理引擎。并且方案提供了抽象出特定硬件细节和优化推理以实现高吞吐量、低延迟和低GPU内存占用的方法，基于推理引擎模块统一进行推理，而不需要安装多个深度学习框架。图片数据在多级推理引擎模块之间传输时，传递各存储器内存中的指针及匹配关系。推理引擎在推理时直接访问相应的指针，从而减少推理引擎之间的数据拷贝过程，以减少时间延迟。

数据输出模块为在完成图片解析后，对结果进行展示、发送或保存。数据传输模块内置Kafka、MQTT和AMQP代理协议，将结果从服务器发送到客户端或云端进行结果展示。

该面向深度学习模型的端到端图片推理系统提供了构建图片推理服务所需的各个模块，通过在各个模块中执行所需的图片解析操作，模块与模块之间通过指针拷贝的形式以提高图片解析性能。开发人员开发时，仅需要使用提供的各个模块构建图片解析服务的工作流水线，以完成图片解码、图片预处理、各级和结果输出等操作。推理时仅需提供需要解析的图片，便可得到图片解析结果，以实现完整的端到端性能优化效果。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种面向深度学习模型的端到端图片推理系统，其特征在于：包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块：

2.根据权利要求1所述的面向深度学习模型的端到端图片推理系统，其特征在于：所述图片解码模块为基于硬件加速的图片加速模块，提供基于硬件的完全图片加速图片解码，将图片解码成同一格式。

3.根据权利要求2所述的面向深度学习模型的端到端图片推理系统，其特征在于：通过所述图片解码模块记录图片的显存指针和内存指针，并建立指针间的对应关系。

4.根据权利要求3所述的面向深度学习模型的端到端图片推理系统，其特征在于：图片解码模块在进行图片解码时，将所需的插件组合构建解码工作流水线。

5.根据权利要求4所述的面向深度学习模型的端到端图片推理系统，其特征在于：所述图片预处理模块将图片数据按网络所需基于硬件加速的方式进行标准化操作，并处理为网络所需的输入形式。

6.根据权利要求5所述的面向深度学习模型的端到端图片推理系统，其特征在于：所述多级推理引擎模块支持所有主流深度学习框架训练出来的模型，对深度学习框架训练出的模型进行网络解析及网络层优化。

7.根据权利要求6所述的面向深度学习模型的端到端图片推理系统，其特征在于：图片数据在多级推理引擎模块之间传输时，传递各存储器内存中的指针及匹配关系。

8.根据权利要求7所述的面向深度学习模型的端到端图片推理系统，其特征在于：所述数据传输模块内置Kafka、MQTT和AMQP代理协议，将结果从服务器发送到客户端或云端进行结果展示。