CN112581353A - 一种面向深度学习模型的端到端图片推理系统 - Google Patents

一种面向深度学习模型的端到端图片推理系统 Download PDF

Info

Publication number
CN112581353A
CN112581353A CN202011593992.5A CN202011593992A CN112581353A CN 112581353 A CN112581353 A CN 112581353A CN 202011593992 A CN202011593992 A CN 202011593992A CN 112581353 A CN112581353 A CN 112581353A
Authority
CN
China
Prior art keywords
picture
deep learning
module
learning model
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011593992.5A
Other languages
English (en)
Inventor
李晗
刘琛
杨镇铭
安晓博
尹萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202011593992.5A priority Critical patent/CN112581353A/zh
Publication of CN112581353A publication Critical patent/CN112581353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向深度学习模型的端到端图片推理系统,属于深度学习技术领域。本发明的面向深度学习模型的端到端图片推理系统包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块:图片解码模块将图片解码成同一格式,完成解码后的图片以指针形式保存在服务器存储器的内存中;图片预处理模块为将完成图像解码后,将多线程处理的图片按批进行标准化操作;多级推理引擎模块对图片中的信息进行分析,在各级推理引擎模块间进行数据传输时,传递内存指针;数据输出模块为在完成图片解析后,对结果进行展示、发送或保存。该发明的面向深度学习模型的端到端图片推理系统可以减少开发工作量,具有很好的推广应用价值。

Description

一种面向深度学习模型的端到端图片推理系统
技术领域
本发明涉及深度学习技术领域,具体提供一种面向深度学习模型的端到端图片推理系统。
背景技术
目前基于深度学习进行图片分析,一般包括如下步骤:
(1)基于TensorFlow或者PyTorch等框架进行深度学习模型训练,可以得到如图像分类网络模型ResNet,DenseNet或者目标检测网络模型如YOLO,Faster RCNN等,保存的模型权重文件均为各个框架下模型文件的格式,只能在各个框架下进行读取。当需要将两个不同框架的模型用于分析同一张图片时,如用TensorFlow进行目标检测,用PyTorch进行图像分类,要将两个模型结合在一起,需要在系统中安装多个框架。遇到框架不兼容的问题时,需要在同一框架下重新开发并训练深度学习网络模型,非常影响开发效率。
(2)当有图片需要进行解析时,需要根据图片位置,如网络图片或者本地图片,选择图片解码工具,不同解码工具解析图片后的格式可能会存在不一致的情况,如一般的图片处理工具会将图片解码为RGB格式,而OpenCV会将图片解码为BGR格式。完成图片解码后,需要对图片进行预处理送到深度学习模型中,而深度学习模型的标准化参数是固定的,不同的格式会影响深度学习模型图片预处理的效率。
(3)多级推理引擎衔接:使用深度学习模型进行图片解析时,需要分析的目标一般会经过多个深度卷积神经网络模型进行分析。比如车牌识别分析,需要首先对图片中的车辆进行目标检测,然后对车辆目标范围内进行车牌检测,确定了车牌在图片中的位置后,进行车牌字符识别最终完成车牌图片分析。一般来说,各个推理模型之间传递数据时都有从GPU到CPU的拷贝和从CPU到GPU的拷贝的过程,多次拷贝会影响处理效率。
(4)输出结果:完成图片解析后,将解析结果从服务器发送到客户端或者云端,以及将解析结果标记到图片上展示给客户。
上述步骤存在明显的缺陷,有待进一步的改进。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种可以方便开发人员在开发时只需专注于构建所需的深度学习模型,而不需要从头开始设计,减少开发工作量的面向深度学习模型的端到端图片推理系统。
为实现上述目的,本发明提供了如下技术方案:
一种面向深度学习模型的端到端图片推理系统,包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块:
图片解码模块将图片解码成同一格式,完成解码后的图片以指针形式保存在服务器存储器的内存和显存中,并建立匹配关系;
图片预处理模块为将完成图像解码后,将多线程处理的图片按批进行标准化操作,并处理为网络模型所需的输入形式;
多级推理引擎模块对图片中的信息进行分析,在各级推理引擎模块间进行数据传输时,传递内存指针;
数据输出模块为在完成图片解析后,对结果进行展示、发送或保存。
其中图片预处理模块为将完成图像解码后,在GPU上将多线程处理的图片按批进行标准化操作进行加速,并转换为网络模型所需的输入形式;
本发明中采用一级推理引擎和二级推理引擎。
作为优选,所述图片解码模块为基于硬件加速的图片加速模块,提供基于硬件的完全图片加速图片解码,将图片解码成同一格式。
本发明中图片解码模块为基于GPU的图片解码器。
作为优选,通过所述图片解码模块记录图片的显存指针和内存指针,并建立指针间的对应关系。减少了服务器不同存储器件(如GPU和CPU)之间的拷贝环节,从而提高了处理速度。
作为优选,图片解码模块在进行图片解码时,将所需的插件组合构建解码工作流水线。
作为优选,所述图片预处理模块将图片数据按网络所需基于硬件加速的方式进行标准化操作,并处理为网络所需的输入形式。
所述图片预处理模块在GPU上进行图片的标准化操作,图片的标准化操作包括归一化,减去均值和除以标准差,将图片数据处理为多维张量。
作为优选,所述多级推理引擎模块支持所有主流深度学习框架训练出来的模型,对深度学习框架训练出的模型进行网络解析及网络层优化。
多级推理引擎模块支持了现在所有的主流深度学习框架如TensorFlow、PyTorch等训练出来的模型,推理引擎会对各个框架的模型进行网络分析及网络层优化以提高推理速度,解析图像时,将图像输入推理引擎模块中即可得到相应的推理结果,而不需要依赖其他深度学习框架。
作为优选,图片数据在多级推理引擎模块之间传输时,传递各存储器内存中的指针及匹配关系。多级推理引擎在推理时直接访问相应的指针,从而减少推理引擎之间的数据拷贝过程,以减少时间延迟。
作为优选,所述数据传输模块内置Kafka、MQTT和AMQP代理协议,将结果从服务器发送到客户端或云端进行结果展示。
该面向深度学习模型的端到端图片推理系统对需要深度学习模型解析的图片的各个模块进行封装,开发时仅需要根据需要选择所需模块构建工作流水线,即可完成图片解析及结果发送,而不需要依赖其他深度学习框架。当有图片需要解析时,图片会首先经过解码模块,模块可以对需要解析的图片进行解码及预处理,并记录图片的GPU内存指针和CPU内存指针,并建立指针间对应关系;然后图片会经过多级推理引擎模块对图片中的信息进行分析,在各级引擎间进行数据传输时,传递内存指针以减少GPU内存和CPU内存之间的拷贝次数;完成图片解析后,可以根据需要对结果进行展示、发送或者保存。
与现有技术相比,本发明的面向深度学习模型的端到端图片推理系统具有以下突出的有益效果:
(一)所述面向深度学习模型的端到端图片推理系统通过基于GPU的图片解码器,提供基于硬件的完全加速图片解码,完成解码后,建立图片数据的内存指针匹配关系,减少数据拷贝传输次数;
(二)对于不同深度学习框架训练出的网络模型,本方案提供了推理模块进行网络解析与优化并构建推理引擎,推理时基于推理引擎统一进行推理,而不需要安装多个框架;
(三)开发人员可以根据需要构建面向深度学习模型图片推理的工作流水线,并且仅需关注构建所需的深度学习模型即可。在进行图片解析时,仅需提供需要解析的图片输入到各个模块中,即可得到图片的解析结果,无需开发其他流程,以减少开发工作量,具有良好的推广应用价值。
附图说明
图1是本发明所述面向深度学习模型的端到端图片推理系统的拓扑图。
具体实施方式
下面将结合实施例,对本发明的面向深度学习模型的端到端图片推理系统作进一步详细说明。
实施例
如图1所示,本发明的面向深度学习模型的端到端图片推理系统包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块。
图片解码模块为基于GPU的图片解码器,提供基于硬件的完全图片加速图片解码,将图片解码成同一格式。将图片解码成同一格式,完成解码后的图片以指针形式保存在服务器存储器的内存中。图片解码模块记录图片的GPU内存指针和CPU内存指针,并建立指针间的对应关系。减少了服务器不同存储器件(如GPU和CPU)之间的拷贝环节,从而提高了处理速度。图片解码模块在进行图片解码时,将所需的插件组合构建解码工作流水线。
图片预处理模块为将完成图像解码后,图像预处理模块会根据深度学习模型的预处理要求,在GPU上对图片按批进行标准化操作,并将图片数据处理为网络所需的张量形式,以加快预处理速度及方便后面的各级推理引擎模块解析图片数据。
本发明中采用一级推理引擎和二级推理引擎。推理引擎模块对图片中的信息进行分析,在各级推理引擎模块间进行数据传输时,传递内存指针。
推理引擎模块支持所有主流深度学习框架训练出来的模型,对深度学习框架训练出的模型进行网络解析及网络层优化。支持了现在所有的主流深度学习框架如TensorFlow、PyTorch等训练出来的模型,推理引擎会对各个框架的模型进行网络分析及网络层优化以提高推理速度,解析图像时,将图像输入推理引擎模块中即可得到相应的推理结果,而不需要依赖其他深度学习框架。根据使用的训练网络的框架和网络结构,进行网络解析,将保存的神经网络从各个框架的格式解析为推理引擎。解析网络后,根据批处理大小、工作区大小、混合精度等选项对推理引擎进行优化,最终以序列化格式写出推理引擎。并且方案提供了抽象出特定硬件细节和优化推理以实现高吞吐量、低延迟和低GPU内存占用的方法,基于推理引擎模块统一进行推理,而不需要安装多个深度学习框架。图片数据在多级推理引擎模块之间传输时,传递各存储器内存中的指针及匹配关系。推理引擎在推理时直接访问相应的指针,从而减少推理引擎之间的数据拷贝过程,以减少时间延迟。
数据输出模块为在完成图片解析后,对结果进行展示、发送或保存。数据传输模块内置Kafka、MQTT和AMQP代理协议,将结果从服务器发送到客户端或云端进行结果展示。
该面向深度学习模型的端到端图片推理系统对需要深度学习模型解析的图片的各个模块进行封装,开发时仅需要根据需要选择所需模块构建工作流水线,即可完成图片解析及结果发送,而不需要依赖其他深度学习框架。当有图片需要解析时,图片会首先经过解码模块,模块可以对需要解析的图片进行解码及预处理,并记录图片的GPU内存指针和CPU内存指针,并建立指针间对应关系;然后图片会经过多级推理引擎模块对图片中的信息进行分析,在各级引擎间进行数据传输时,传递内存指针以减少GPU内存和CPU内存之间的拷贝次数;完成图片解析后,可以根据需要对结果进行展示、发送或者保存。
该面向深度学习模型的端到端图片推理系统提供了构建图片推理服务所需的各个模块,通过在各个模块中执行所需的图片解析操作,模块与模块之间通过指针拷贝的形式以提高图片解析性能。开发人员开发时,仅需要使用提供的各个模块构建图片解析服务的工作流水线,以完成图片解码、图片预处理、各级和结果输出等操作。推理时仅需提供需要解析的图片,便可得到图片解析结果,以实现完整的端到端性能优化效果。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种面向深度学习模型的端到端图片推理系统,其特征在于:包括图片解码模块、图片预处理模块、多级推理引擎模块和数据输出模块:
图片解码模块将图片解码成同一格式,完成解码后的图片以指针形式保存在服务器存储器的内存和显存中,并建立匹配关系;
图片预处理模块为将完成图像解码后,将多线程处理的图片按批进行标准化操作,并处理为网络模型所需的输入形式;
多级推理引擎模块对图片中的信息进行分析,在各级推理引擎模块间进行数据传输时,传递内存指针;
数据输出模块为在完成图片解析后,对结果进行展示、发送或保存。
2.根据权利要求1所述的面向深度学习模型的端到端图片推理系统,其特征在于:所述图片解码模块为基于硬件加速的图片加速模块,提供基于硬件的完全图片加速图片解码,将图片解码成同一格式。
3.根据权利要求2所述的面向深度学习模型的端到端图片推理系统,其特征在于:通过所述图片解码模块记录图片的显存指针和内存指针,并建立指针间的对应关系。
4.根据权利要求3所述的面向深度学习模型的端到端图片推理系统,其特征在于:图片解码模块在进行图片解码时,将所需的插件组合构建解码工作流水线。
5.根据权利要求4所述的面向深度学习模型的端到端图片推理系统,其特征在于:所述图片预处理模块将图片数据按网络所需基于硬件加速的方式进行标准化操作,并处理为网络所需的输入形式。
6.根据权利要求5所述的面向深度学习模型的端到端图片推理系统,其特征在于:所述多级推理引擎模块支持所有主流深度学习框架训练出来的模型,对深度学习框架训练出的模型进行网络解析及网络层优化。
7.根据权利要求6所述的面向深度学习模型的端到端图片推理系统,其特征在于:图片数据在多级推理引擎模块之间传输时,传递各存储器内存中的指针及匹配关系。
8.根据权利要求7所述的面向深度学习模型的端到端图片推理系统,其特征在于:所述数据传输模块内置Kafka、MQTT和AMQP代理协议,将结果从服务器发送到客户端或云端进行结果展示。
CN202011593992.5A 2020-12-29 2020-12-29 一种面向深度学习模型的端到端图片推理系统 Pending CN112581353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011593992.5A CN112581353A (zh) 2020-12-29 2020-12-29 一种面向深度学习模型的端到端图片推理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011593992.5A CN112581353A (zh) 2020-12-29 2020-12-29 一种面向深度学习模型的端到端图片推理系统

Publications (1)

Publication Number Publication Date
CN112581353A true CN112581353A (zh) 2021-03-30

Family

ID=75143952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011593992.5A Pending CN112581353A (zh) 2020-12-29 2020-12-29 一种面向深度学习模型的端到端图片推理系统

Country Status (1)

Country Link
CN (1) CN112581353A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163127A (zh) * 2015-09-07 2015-12-16 浙江宇视科技有限公司 视频分析方法及装置
CN106951926A (zh) * 2017-03-29 2017-07-14 山东英特力数据技术有限公司 一种混合架构的深度学习系统方法及装置
CN109933429A (zh) * 2019-03-05 2019-06-25 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN110796242A (zh) * 2019-11-01 2020-02-14 广东三维家信息科技有限公司 神经网络模型推理方法、装置、电子设备及可读介质
CN110942155A (zh) * 2019-11-29 2020-03-31 广西电网有限责任公司 一种机器学习引擎的研究方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163127A (zh) * 2015-09-07 2015-12-16 浙江宇视科技有限公司 视频分析方法及装置
CN106951926A (zh) * 2017-03-29 2017-07-14 山东英特力数据技术有限公司 一种混合架构的深度学习系统方法及装置
CN109933429A (zh) * 2019-03-05 2019-06-25 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN110796242A (zh) * 2019-11-01 2020-02-14 广东三维家信息科技有限公司 神经网络模型推理方法、装置、电子设备及可读介质
CN110942155A (zh) * 2019-11-29 2020-03-31 广西电网有限责任公司 一种机器学习引擎的研究方法

Similar Documents

Publication Publication Date Title
CN112184508B (zh) 一种用于图像处理的学生模型的训练方法及装置
CN111160569A (zh) 基于机器学习模型的应用开发方法、装置及电子设备
CN111275107A (zh) 一种基于迁移学习的多标签场景图像分类方法及装置
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
US20230021551A1 (en) Using training images and scaled training images to train an image segmentation model
CN112527676A (zh) 模型自动化测试方法、装置及存储介质
CN115994317A (zh) 基于深度对比学习的不完备多视图多标签分类方法和系统
CN115861646A (zh) 一种基于结构重参数化的轻量级目标检测方法及系统
US11948084B1 (en) Function creation for database execution of deep learning model
CN112581353A (zh) 一种面向深度学习模型的端到端图片推理系统
CN116796287A (zh) 图文理解模型的预训练方法、装置、设备及存储介质
US20220270353A1 (en) Data augmentation based on attention
CN114358136B (zh) 一种图像数据处理方法、装置、智能终端及存储介质
CN114241253A (zh) 违规内容识别的模型训练方法、系统、服务器及存储介质
CN113570060A (zh) 一种模型推理优化方法和装置
CN112948251A (zh) 软件自动测试方法及装置
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
CN117408679B (zh) 一种运维场景信息的处理方法及装置
Gallés et al. A New Framework for Evaluating Image Quality Including Deep Learning Task Performances as a Proxy
CN111144066B (zh) 字库字面的调整方法、装置、设备和存储介质
CN115171120A (zh) 一种处理长尾数据的语义分割方法
CN116030297A (zh) 零部件的图像识别方法、装置及系统
CN117253165A (zh) 一种基于实验操作视频的智能赋分方法和系统
CN117437652A (zh) 测试脚本生成方法、装置和设备
CN113515867A (zh) 一种模型训练方法、业务处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210330