CN112783650A - 一种基于ai芯片的多模型并行推理方法 - Google Patents

一种基于ai芯片的多模型并行推理方法 Download PDF

Info

Publication number
CN112783650A
CN112783650A CN202110075174.4A CN202110075174A CN112783650A CN 112783650 A CN112783650 A CN 112783650A CN 202110075174 A CN202110075174 A CN 202110075174A CN 112783650 A CN112783650 A CN 112783650A
Authority
CN
China
Prior art keywords
model
chip
reasoning
parallel
based multi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110075174.4A
Other languages
English (en)
Other versions
CN112783650B (zh
Inventor
郁善金
施佩琦
高丰
杨涛
梁松涛
郑欢欢
汪明军
王晓江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110075174.4A priority Critical patent/CN112783650B/zh
Publication of CN112783650A publication Critical patent/CN112783650A/zh
Application granted granted Critical
Publication of CN112783650B publication Critical patent/CN112783650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7817Specially adapted for signal processing, e.g. Harvard architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于AI芯片的多模型并行推理方法。采用的技术方案包括以下步骤:步骤一:模型转换,至少将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型;步骤二:加载转换的OM模型,并遵循AscendCL库接口,采用线程方式并行执行多个模型推理。优点如下:针对单一推理模型并不能高效利用AI芯片(如华为公司的Ascend 310芯片)的算力的不足问题,以充分挖掘Ascend 310芯片的算力,研究多模型并行推理,同时能够保持良好的性能。

Description

一种基于AI芯片的多模型并行推理方法
技术领域
本发明属于AI芯片领域,具体涉及一种基于AI芯片的多模型并行推理方法。
背景技术
近年来,随着万物互联时代的到来和5G网络的普及,每天数以万计的语音助手、翻译、推荐、视频管理、自动驾驶等各类新兴服务,都在以超快速度完成深度学习推理。对于开发者来说,不仅要满足最终用户关注的AI产品的实时性、高准确度的需求,还要考虑成本、能效等因素,因而,能满足可编程性、低延迟、高准确度、高吞吐量、易部署的成套AI推理软硬件组合成为开发者的心头好。基于此,NVIDIA发布的GPU,不断受到业界的好评,极大的促进了深度学习的发展。相较于CPU,它可以带来速度、准确度和快速响应能力的成倍提升。AI技术的飞速发展,使得越来越多的厂商也开始参与其中。华为全栈全场景AI解决方案的Ascend 310 AI芯片是业界面向边缘计算场景最强算力的AI系统级芯片。能够满足当前典型的边缘计算场景:安防、自动驾驶和智能制造,对空间、功耗、算力提出的苛刻约束条件的需求。据测算一颗Ascend 310 AI芯片可以实现高达16TOPS的现场算力,支持同时识别包括人、车、障碍物、交通标示在内的200个不同的物体。Ascend系列AI芯片的另外一个独特优势是采用了华为开创性的统一、可扩展的架构,即“达芬奇”架构,它实现了从极致的低功耗到极致的大算力场景的全覆盖。“达芬奇”架构能一次开发适用于所有场景的部署、迁移和协同,大大提升了软件开发的效率,加速AI在各行业的切实应用。
发明内容
本发明要解决的技术问题是提供一种基于AI芯片的多模型并行推理方法。
为解决上述问题,本发明采用的技术方案包括以下步骤:
步骤一:模型转换,至少将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型;
步骤二:加载转换的OM模型,并遵循AscendCL库接口,采用线程方式并行执行多个模型推理;
其中,所述步骤二通过以下子步骤实现:
步骤2.1,主线程,初始化ACL资源;
步骤2.2,主线程,申请Device资源;
步骤2.3,启动子线程,根据不同模型推理速度的差异性以及推理模型数量,建立不同的队列分别存储原始视频帧数据;
步骤2.4,根据需要推理的模型数量,分别启动对应的子线程,每个子线程做如下动作;
步骤2.4.1,Context、Stream资源申请;
步骤2.4.2,模型加载;
步骤2.4.3,预处理,读取队列中图片帧数据,对图片进行压缩;
步骤2.4.4,推理,基于加载的模型,生成的模型ID;
步骤2.4.5,后处理,基于推理结果解析,并推送给用户展示效果;
步骤2.4.6,重复预处理-推理-后处理过程,直至队列为空;
步骤2.4.7,模型卸载;
步骤2.4.8,Context、Stream资源释放;
步骤2.5,等待所有的子线程结束后,主线程释放Device资源;
步骤2.6,主线程ACL资源去初始化。
所述的基于AI芯片的多模型并行推理方法,其特征在于,所述步骤一通过以下子步骤来实现:
步骤1.1,使用ATC配套的开发工具MindStudio的模型转换功能对模型进行转换;
步骤1.2,如果原始模型是基于Tensorflow框架训练的,则需要提供对应pb模型文件;
步骤1.3,如果原始模型是基于Caffe框架训练的,则需要提供对应prototxt模型文件及对应的caffemodel权重文件;
步骤1.4,转换过程可以设置AIPP,对图像做进一步处理,包括改变图像尺寸、色域转换、减均值/乘系数。
所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤一中,将其他AI框架模型转换为OM模型。
所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤二中,基于加载模型后生成的模型ID和预处理后的图像帧数据调用ACL推理接口执行推理。
所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤2.4.7中,为OM模型卸载。
所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤二中,对分辨率为1920*1080一帧图像,执行多模型并行推理的过程,并进行性能表现分析。
所述的基于AI芯片的多模型并行推理方法,其特征在于,所述多模型包括:目标检测模型、人脸识别模型、图像上色模型、图像分类模型。
所述的基于AI芯片的多模型并行推理方法,其特征在于,所述性能表现分析包括:模型推理各个阶段耗时信息和AI Core性能数据信息。
所述的基于AI芯片的多模型并行推理方法,其特征在于:所述AIPP是在AI Core上完成,在时间先后上来看,预处理在前,AIPP在后。
所述的基于AI芯片的多模型并行推理方法,其特征在于:所述AI芯片为华为Ascend 310芯片。
本发明的一种基于AI芯片的多模型并行推理方法优点如下:针对单一推理模型并不能高效利用AI芯片(如华为公司的Ascend 310芯片)的算力的不足问题,以充分挖掘Ascend 310芯片的算力,研究多模型并行推理,同时能够保持良好的性能。
附图说明
图1为本发明多模型并行推理方法中的模型转换流程图;
图2为本发明多模型并行推理方法中的推理过程流程图;
图3为本发明进一步的多模型并行推理方法中的推理过程流程图;
图4为Ascend 310 AI芯片逻辑架构图;
图5为Ascend 310 AI芯片的规格图;
图6为本发明多模型并行推理的性能表现示意图。
具体实施方式
参照图1-5所示,本发明的基于AI芯片的多模型并行推理方法,包括以下步骤:
步骤一:模型转换,将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型。
步骤一中,通过以下子步骤来实现:
步骤1.1,使用ATC配套的开发工具MindStudio的模型转换功能对模型进行转换。
步骤1.2,如果原始模型是基于Tensorflow框架训练的,则需要提供对应pb模型文件。
步骤1.3,如果原始模型是基于Caffe框架训练的,则需要提供对应prototxt模型文件及对应的caffemodel权重文件。
步骤1.4,转换过程可以设置AIPP(AI Preprocessing),对图像做进一步处理,包括改变图像尺寸、色域转换(转换图像格式)、减均值/乘系数(改变图像像素)。所述AIPP是在AI Core上完成,在时间先后上来看,预处理在前,AIPP在后。
步骤二:加载转换的OM模型,并遵循AscendCL库接口,采用线程方式并行执行多个模型推理。
步骤二中通过以下子步骤实现。
步骤2.1,主线程,初始化ACL资源。
步骤2.2,主线程,申请Device资源。
步骤2.3,启动子线程,根据不同模型推理速度的差异性以及推理模型数量,建立不同的队列分别存储原始视频帧数据。该步骤是推理视频数据的准备,需要根据后续模型数量,建立对应的队列存储读取的视频帧数据,同时需要考虑队列长度,防止出现OOM现象。
步骤2.4,根据需要推理的模型数量,分别启动对应的子线程,每个子线程做如下动作:
步骤2.4.1,Context、Stream资源申请。
步骤2.4.2,模型加载,加载OM模型,例如:yolov3-tf.om。
步骤2.4.3,预处理,读取队列中图片帧数据,对图片进行压缩。
步骤2.4.4,推理,基于加载的模型,生成的模型ID和预处理后的图像帧数据调用ACL推理接口执行推理。
步骤2.4.5,后处理,基于推理结果解析,并推送给用户展示效果。
步骤2.4.6,重复预处理-推理-后处理过程,直至队列为空。
步骤2.4.7,OM模型卸载。
步骤2.4.8,Context、Stream资源释放。
步骤2.5,等待所有的子线程结束后,主线程释放Device资源。
步骤2.6,主线程ACL资源去初始化。
优选的, 所述步骤二中,对分辨率为1920*1080一帧图像,执行多模型并行推理的过程,并进行性能表现分析。所述多模型包括:目标检测模型、人脸识别模型、图像上色模型、图像分类模型。所述性能表现分析包括:模型推理各个阶段耗时信息和AICore性能数据信息。
优选的,所述AI芯片为华为Ascend 310 芯片。其本质上是一个片上系统(Systemon Chip,SoC),主要可以应用在和图像、视频、语音、文字处理相关的应用场景。其主要的架构组成部件包括特制的计算单元、大容量的存储单元和相应的控制单元。该芯片大致可以划为:
AI Core:集成了2个AI Core。昇腾AI芯片的计算核心,主要负责执行矩阵、向量、标量计算密集的算子任务,采用“达芬奇”架构。
ARM CPU核心:集成了8个A55。其中一部分部署为AI CPU,负责执行不适合跑在AICore上的算子(承担非矩阵类复杂计算);一部分部署为专用于控制芯片整体运行的控制CPU。两类任务占用的CPU核数可由软件根据系统实际运行情况动态分配。此外,还部署了一个专用CPU作为任务调度器(Task Scheduler,TS),以实现计算任务在AI Core上的高效分配和调度;该CPU专门服务于AI Core和AI CPU,不承担任何其他的事务和工作。
DVPP:数字视觉预处理子系统,完成图像视频的编解码。用于将从网络或终端设备获得的视觉数据,进行预处理以实现格式和精度转换等要求,之后提供给AI计算引擎。
Cache & Buffer:SOC片内有层次化的memory结构,AI core内部有两级memorybuffer,SOC片上还有8MB L2 buffer,专用于AI Core、AI CPU,提供高带宽、低延迟的memory访问。芯片还集成了LPDDR4x控制器,为芯片提供更大容量的DDR内存。
对外接口:支持PCIE3.0、RGMII、USB3.0等高速接口、以及GPIO、UART、I2C、SPI等低速接口。
下面通过试验例进一步证明本发明的有益效果:按照上述多模型并行推理方法通过MindStudio开发工具,编码-编译-运行该多模型并行推理工程,其中加载了四个推理模型(目标检测模型-yolov3.om、人脸识别模型-face_detection.om、图像上色模型-colorization.om、图像分类模型googlenet.om)。硬件采用华为的Atlas 200 DK开发套件(内含Ascend 310 推理芯片),输入为一张分辨率为1920*1080的图片(由于使用视频流数据,采集的数据连续难以区分,这里只使用一帧数据输入),同时推理过程中打开Profiling开关对推理过程中模型在各个阶段的耗时数据,各个线程运行情况,甚至单个算子的耗时数据进行采集。最终的结果如图5所示,通过如图5可以看出,其芯片算力得到了充分的使用。同时从保存的推理结果来看,模型的准确度并没有降低。
以上所述,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施案例揭示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容做出些许的更动或修饰为等同变化的等效实施案例,但是凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施案例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案范围。

Claims (10)

1.一种基于AI芯片的多模型并行推理方法,其特征在于,包括以下步骤:
步骤一:模型转换,至少将Tensorflow/Caffe AI框架训练的模型通过转换工具转换为AI芯片可解析的OM模型;
步骤二:加载转换的OM模型,并遵循AscendCL库接口,采用线程方式并行执行多个模型推理;
其中,所述步骤二通过以下子步骤实现:
步骤2.1,主线程,初始化ACL资源;
步骤2.2,主线程,申请Device资源;
步骤2.3,启动子线程,根据不同模型推理速度的差异性以及推理模型数量,建立不同的队列分别存储原始视频帧数据;
步骤2.4,根据需要推理的模型数量,分别启动对应的子线程,每个子线程做如下动作:
步骤2.4.1,Context、Stream资源申请;
步骤2.4.2,模型加载;
步骤2.4.3,预处理,读取队列中图片帧数据,对图片进行压缩;
步骤2.4.4,推理,基于加载的模型,生成的模型ID;
步骤2.4.5,后处理,基于推理结果解析,并推送给用户展示效果;
步骤2.4.6,重复预处理-推理-后处理过程,直至队列为空;
步骤2.4.7,模型卸载;
步骤2.4.8,Context、Stream资源释放;
步骤2.5,等待所有的子线程结束后,主线程释放Device资源;
步骤2.6,主线程ACL资源去初始化。
2.根据权利要求1所述的基于AI芯片的多模型并行推理方法,其特征在于,所述步骤一通过以下子步骤来实现:
步骤1.1,使用ATC配套的开发工具MindStudio的模型转换功能对模型进行转换;
步骤1.2,如果原始模型是基于Tensorflow框架训练的,则需要提供对应pb模型文件;
步骤1.3,如果原始模型是基于Caffe框架训练的,则需要提供对应prototxt模型文件及对应的caffemodel权重文件;
步骤1.4,转换过程可以设置AIPP,对图像做进一步处理,包括改变图像尺寸、色域转换、减均值/乘系数。
3.根据权利要求1所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤一中,将其他AI框架模型转换为OM模型。
4.根据权利要求1所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤二中,基于加载模型后生成的模型ID和预处理后的图像帧数据调用ACL推理接口执行推理。
5.根据权利要求1所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤2.4.7中,为OM模型卸载。
6.根据权利要求1所述的基于AI芯片的多模型并行推理方法,其特征在于:
所述步骤二中,对分辨率为1920*1080一帧图像,执行多模型并行推理,并进行性能表现分析。
7.根据权利要求6所述的基于AI芯片的多模型并行推理方法,其特征在于,所述多模型包括:目标检测模型、人脸识别模型、图像上色模型、图像分类模型。
8.根据权利要求6所述的基于AI芯片的多模型并行推理方法,其特征在于,所述性能表现分析包括:模型推理各个阶段耗时信息和AI Core性能数据信息。
9.根据权利要求2所述的基于AI芯片的多模型并行推理方法,其特征在于:所述AIPP是在AI Core上完成,在时间先后上来看,预处理在前,AIPP在后。
10.根据权利要求1所述的基于AI芯片的多模型并行推理方法,其特征在于:所述AI芯片为华为Ascend 310芯片。
CN202110075174.4A 2021-01-20 2021-01-20 一种基于ai芯片的多模型并行推理方法 Active CN112783650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110075174.4A CN112783650B (zh) 2021-01-20 2021-01-20 一种基于ai芯片的多模型并行推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110075174.4A CN112783650B (zh) 2021-01-20 2021-01-20 一种基于ai芯片的多模型并行推理方法

Publications (2)

Publication Number Publication Date
CN112783650A true CN112783650A (zh) 2021-05-11
CN112783650B CN112783650B (zh) 2024-01-16

Family

ID=75757343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110075174.4A Active CN112783650B (zh) 2021-01-20 2021-01-20 一种基于ai芯片的多模型并行推理方法

Country Status (1)

Country Link
CN (1) CN112783650B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570061A (zh) * 2021-08-27 2021-10-29 知见科技(江苏)有限公司 一种多模型融合推理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734428A (zh) * 2004-08-02 2006-02-15 微软公司 基于事务性能模型的自动配置
CN110796242A (zh) * 2019-11-01 2020-02-14 广东三维家信息科技有限公司 神经网络模型推理方法、装置、电子设备及可读介质
WO2020093694A1 (zh) * 2018-11-07 2020-05-14 华为技术有限公司 生成视频分析模型的方法及视频分析系统
CN111191583A (zh) * 2019-12-30 2020-05-22 郑州科技学院 基于卷积神经网络的空间目标识别系统及方法
EP3671571A1 (en) * 2018-12-20 2020-06-24 Siemens Aktiengesellschaft A method and system for generating an artificial intelligence model
CN111797039A (zh) * 2020-03-25 2020-10-20 深圳市泓运开泰科技有限公司 一种嵌入式刀片弹性扩展ai边缘服务器的装置和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734428A (zh) * 2004-08-02 2006-02-15 微软公司 基于事务性能模型的自动配置
WO2020093694A1 (zh) * 2018-11-07 2020-05-14 华为技术有限公司 生成视频分析模型的方法及视频分析系统
EP3671571A1 (en) * 2018-12-20 2020-06-24 Siemens Aktiengesellschaft A method and system for generating an artificial intelligence model
CN110796242A (zh) * 2019-11-01 2020-02-14 广东三维家信息科技有限公司 神经网络模型推理方法、装置、电子设备及可读介质
CN111191583A (zh) * 2019-12-30 2020-05-22 郑州科技学院 基于卷积神经网络的空间目标识别系统及方法
CN111797039A (zh) * 2020-03-25 2020-10-20 深圳市泓运开泰科技有限公司 一种嵌入式刀片弹性扩展ai边缘服务器的装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王丽;郭振华;曹芳;高开;赵雅倩;赵坤;: "面向模型并行训练的模型拆分策略自动生成方法", 计算机工程与科学, no. 09 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570061A (zh) * 2021-08-27 2021-10-29 知见科技(江苏)有限公司 一种多模型融合推理方法

Also Published As

Publication number Publication date
CN112783650B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
Yang et al. Re-thinking CNN frameworks for time-sensitive autonomous-driving applications: Addressing an industrial challenge
CN110458280B (zh) 一种适用于移动端的卷积神经网络加速方法及系统
CN111967468A (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
WO2023093724A1 (zh) 神经网络模型的处理方法及装置
CN109769115A (zh) 一种优化智能视频分析性能的方法、装置和设备
CN109982088B (zh) 图像处理方法及装置
CN111614769A (zh) 一种深度学习技术的行为智能分析引擎系统及控制方法
US8229251B2 (en) Pre-processing optimization of an image processing system
CN112783650B (zh) 一种基于ai芯片的多模型并行推理方法
Qian et al. R-cnn object detection inference with deep learning accelerator
CN115114439A (zh) 多任务模型推理、多任务信息处理的方法和装置
CN108921289B (zh) 一种fpga异构加速方法、装置及系统
CN113781294A (zh) 一种改进的循环生成对抗网络实现皮影戏风格迁移的方法
Yang et al. Research and Implementation of Embedded Real-time Target Detection Algorithm Based on Deep Learning
CN112561902A (zh) 一种基于深度学习的芯片逆还原方法及系统
CN116311455A (zh) 一种基于改进Mobile-former的表情识别方法
Li et al. Multi-scale traffic sign detection algorithm based on improved YOLO_V4
CN116051850A (zh) 神经网络目标检测方法、装置、介质和嵌入式电子设备
CN113298112B (zh) 一种一体化数据智能标注方法及系统
CN115170924A (zh) 一种空天地大数据智能解译系统
CN114140755A (zh) 图像语义分割模型的转换方法和交通道路场景分析平台
Khadka et al. Scalable Solutions for Efficient Real-Time Distributed Video Analytics with Vehicle Detection on CPU Edge Nodes
Kang et al. DLNet: Domain-specific Lightweight Network for On-Device Object Detection
CN114693504B (zh) 一种基于fpga的混合高斯模型的图像处理方法
CN112099950B (zh) 基于边缘图像处理系统的图像预处理优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant