CN111984423B

CN111984423B - 一种运行深度学习模型的方法、装置及介质

Info

Publication number: CN111984423B
Application number: CN202010918324.9A
Authority: CN
Inventors: 李滨; 卢旭辉; 温帅
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2024-09-03
Anticipated expiration: 2040-09-02
Also published as: CN111984423A

Abstract

本公开提供了一种运行深度学习模型的运行方法、装置及介质，此方法包括：确定用于处理深度学习模型中每个计算任务的硬件运算单元，每个计算任务对应一硬件运算单元，所述深度学习模型包括按依次排列的一个以上的计算任务；为每两个相邻计算任务分配共用内存，在相邻计算任务对应的硬件运算单元不相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存；使用所述共用内存运行所述深度学习模型。本公开中，可以避免在深度学习模型运行过程中执行相邻的计算任务时不同硬件运算单元间频繁的复制内存数据，从而提高处理效率，提高运行速度，降低资源占用，降低整体功耗，保证对深度学习模型的加速效果。

Description

一种运行深度学习模型的方法、装置及介质

技术领域

本文涉及深度学习技术领域，尤其涉及一种运行深度学习模型的方法、装置及介质。

背景技术

移动端设备存在多种硬件运算单元，例如中央处理器(CPU，Central ProcessingUnit)、图形处理器(GPU，Graphics Processing Unit)、数字信号处理器(DSP，DigitalSignal Processor)、神经网络处理单元(NPU，Neural Network Processing Unit)等。在运行深度学习模型时，各硬件运算单元经常需要协作计算，从而导致大量的数据交互操作，通常的处理方式是将内存数据在两个硬件运算单元间进行大量复制操作，从而导致设备间的交互速度较慢，减小了硬件运算单元对深度学习模型的加速效果。

发明内容

为克服相关技术中存在的问题，本文提供了一种运行深度学习模型的方法、装置及介质。

根据本文实施例的第一方面，提供一种运行深度学习模型的方法,此方法包括：

确定用于处理深度学习模型中每个计算任务的硬件运算单元，每个计算任务对应一硬件运算单元，所述深度学习模型包括按依次排列的一个以上的计算任务；

为每两个相邻计算任务分配共用内存，在相邻计算任务对应的硬件运算单元不相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存；

使用所述共用内存运行所述深度学习模型。

在一实施方式中，所述方法还包括：

在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为非零拷贝类型的共用内存。

在一实施方式中，所述方法还包括：

在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存。

在一实施方式中，所述方法还包括：分配用于存储所述深度学习模型的输入数据的输入内存，所述输入内存的类型为零拷贝类型；

分配用于存储所述深度学习模型的输出数据的输出内存，所述输出内存的类型为零拷贝类型。

在一实施方式中，所述方法还包括：根据每个计算任务的运算能力设置用于处理每个计算任务的硬件运算单元。

根据本文实施例的第二方面，提供一种运行深度学习模型的装置，包括：

第一确定模块，被配置为确定用于处理深度学习模型中每个计算任务的硬件运算单元，每个计算任务对应一硬件运算单元，所述深度学习模型包括按依次排列的一个以上的计算任务；

第一分配模块，被配置为每两个相邻计算任务分配共用内存，在相邻计算任务对应的硬件运算单元不相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存；

运行模块，被配置为使用所述共用内存运行所述深度学习模型。

在一实施方式中，所述第一分配模块，还配置为在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为非零拷贝类型的共用内存。

在一实施方式中，所述第一分配模块，还配置为在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存。

在一实施方式中，所述装置还包括：

第二分配模块，被配置为分配用于存储所述深度学习模型的输入数据的输入内存，所述输入内存的类型为零拷贝类型；分配用于存储所述深度学习模型的输出数据的输出内存，所述输出内存的类型为零拷贝类型。

在一实施方式中，所述装置还包括：

设置模块，被配置为根据每个计算任务的运算能力设置用于处理每个计算任务的硬件运算单元。

根据本文实施例的第三方面，提供一种运行深度学习模型的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述方法。

根据本文实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行所述方法。

本公开的实施例提供的技术方案可以包括以下有益效果：在相邻计算任务对应的硬件运算单元不相同时，为相邻计算任务分配内存类型为零拷贝类型的共用内存，避免在深度学习模型运行过程中执行相邻的计算任务时不同硬件运算单元间频繁的复制内存数据，从而提高处理效率，提高运行速度，降低资源占用，降低整体功耗，保证对深度学习模型的加速效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本文。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本文的实施例，并与说明书一起用于解释本文的原理。

图1是根据一示例性实施例示出的一种运行深度学习模型的方法的流程图；

图2是根据一示例性实施例示出的一种运行深度学习模型的装置的结构图；

图3是根据一示例性实施例示出的一种运行深度学习模型的装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。

本公开实施例中提供一种运行深度学习模型的方法。参照图1，图1是根据一示例性实施例示出的一种运行深度学习模型的方法的流程图。如图1所示，此方法包括：

步骤S11，确定用于处理深度学习模型中每个计算任务的硬件运算单元，每个计算任务对应一硬件运算单元，所述深度学习模型包括按依次排列的一个以上的计算任务。

步骤S12,为每两个相邻计算任务分配共用内存，在相邻计算任务对应的硬件运算单元不相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存。

步骤S13，使用所述共用内存运行所述深度学习模型。

其中，硬件运算单元包括中央处理器(CPU，Central Processing Unit)、图形处理器(GPU，Graphics Processing Unit)、数字处理器(DSP，Digital Signal Processor)、神经网络处理器(NPU，Neural network Processing Unit)等。

不同的硬件运算单元对同一零拷贝类型的内存进行操作时无需进行数据复制，不同的硬件运算单元对同一非零拷贝类型的内存进行操作时需要进行数据复制。

相邻计算任务的共用内存用于存储一共用数据，此共用数据是相邻计算任务前一计算任务的输出数据，同时是后一计算任务的输入数据。

在一实施方式中，零拷贝类型的内存是指ION buffer。

本实施例中，在相邻计算任务对应的硬件运算单元不相同时，为相邻计算任务分配内存类型为零拷贝类型的共用内存，避免在深度学习模型运行过程中执行相邻的计算任务时不同硬件运算单元间频繁的复制内存数据，可以提高处理效率和运行速度，降低资源占用和整体功耗，保证对深度学习模型的加速效果。

本公开实施例中提供一种运行深度学习模型的方法，此方法包括图1所示的方法，并且：在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为非零拷贝类型的共用内存。

在相邻计算任务对应的硬件运算单元相同的情况下，采用非零拷贝类型的内存时，对于内存对齐的要求较低，可以避免因内存对齐造成的内存浪费。

本公开实施例中提供一种运行深度学习模型的方法，此方法包括图1所示的方法，并且：在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存。

本实施例在图1所示的方法的基础上，可以进一步提高处理效率和运行速度，进一步降低资源占用和整体功耗。

本公开实施例中提供一种运行深度学习模型的方法，此方法包括图1所示的方法，并且：分配用于存储所述深度学习模型的输入数据的输入内存，所述输入内存的类型为零拷贝类型；分配用于存储所述深度学习模型的输出数据的输出内存，所述输出内存的类型为零拷贝类型。

本实施例在图1所示的方法的基础上，可以有效防止用于输出深度学习模型的输入数据的硬件运算单元与用于处理第一个计算任务的硬件运算单元的不相同时，出现频繁的数据复制，并且防止用于提取输出深度学习模型的输出数据的硬件运算单元与用于处理最后一个计算任务的硬件运算单元的不相同时，出现频繁的数据复制。

本公开实施例中提供一种运行深度学习模型的方法，此方法包括图1所示的方法，并且：

分配用于存储所述深度学习模型的输入数据的输入内存，所述输入内存的类型为零拷贝类型；分配用于存储所述深度学习模型的输出数据的输出内存，所述输出内存的类型为零拷贝类型。

本实施例在图1所示的方法的基础上，可以实现运行深度学习模型的整个过程中的零拷贝。

本公开实施例中提供一种运行深度学习模型的方法，此方法包括图1所示的方法，并且：还包括：根据每个计算任务的运算能力设置用于处理每个计算任务的硬件运算单元。具体的，在计算任务需要较强的运算能力时，为此计算任务分配运算能力较强的硬件运算单元，在计算任务需要较少的运算能力时，为此计算任务分配运算能力较少的硬件运算单元，从而实现运算能力资源的合理化分配。

本公开实施例中提供一种深度学习模型的运行方法，此方法包括图1所示的方法，并且此方法还包括：根据深度学习模型中每个运算任务的输入数据的数据量以及数据类型确定相应内存的容量，例如输入数据是矩阵时，数据量是矩阵包含的元素的个数，数据类型是数据精确度，数据精确度是实数时根据实数的精确位数确定精确度。

下面通过两个具体实施例进行详细说明。

具体实施例一

深度学习模型一共包括依次连接的4个运算任务。

第一个运算任务为卷积运算，第一个运算任务对应的硬件运算单元是GPU；

第二个运算任务为卷积运算，第二个运算任务对应的硬件运算单元是GPU；

第三个运算任务为池化运算，第三个运算任务对应的硬件运算单元是CPU；

第四个运算任务为池化运算，第四个运算任务对应的硬件运算单元是NPU。

设置第一内存，用于存储第一个运算任务的输入数据。第一内存是ION内存，ION内存是零拷贝内存中的一种。

第一个运算任务和第二个运算任务对应的硬件运算单元相同，第一个运算任务和第二个运算任务共用第二内存，第二内存是普通内存，普通内存是非零拷贝内存，第二内存中存储的共用数据是第一个计算任务的输出数据，同时是第二个计算任务的输入数据。

第二个运算任务和第三个运算任务对应的硬件运算单元不相同，第二个运算任务和第三个运算任务共用第三内存，第三内存是ION内存，第三内存中存储的共用数据是第二个计算任务的输出数据，同时是第三个计算任务的输入数据。

第三个运算任务和第四个运算任务对应的硬件运算单元不相同，第三个运算任务和第四个运算任务共用第四内存，第四内存是ION内存，第四内存中存储的共用数据是第三个计算任务的输出数据，同时是第四个计算任务的输入数据。

设置第五内存，用于存储第四个运算任务的输出数据。第五内存是ION内存。

运行深度学习模型的过程中，直接将深度学习模型的输入数据存储在第一内存，执行第一个计算任务时，从第一内存读取输入数据，将执行第一个计算任务完成后的输出数据存储于第二内存；执行第二个计算任务时，从第二内存读取输入数据，将执行第二个计算任务完成后的输出数据存储于第三内存，以此类推，直致深度学习模型运行结束后，从第五内存读取深度学习模型的输出数据。在执行过程中，第一个运算任务和第二个运算任务对应的硬件运算单元均为GPU，GPU使用普通内存进行数据复制，同一GPU使用普通内存进行数据复制的处理效率较高。除第二内存外，其它内存均为零拷贝内存，从而避免在不同硬件运算单元间频繁的复制内存数据。

具体实施例二

具体实施例中的深度学习模型与具体实施例一中的深度学习模型相同。在设置内存时与具体实施例一的不同之处是，设置第一内存、第二内存、第三内存、第四内存、第五内存均为ION内存。从而实现运行深度学习模型的整个过程中的内存数据的零拷贝。

本公开实施例中提供一种深度学习模型的运行装置。参照图2，图2是根据一示例性实施例示出的一种深度学习模型的运行装置的结构图。如图2所示，此装置包括：

第一确定模块201，被配置为确定用于处理深度学习模型中每个计算任务的硬件运算单元，每个计算任务对应一硬件运算单元，所述深度学习模型包括按依次排列的一个以上的计算任务；

第一分配模块202，被配置为每两个相邻计算任务分配共用内存，在相邻计算任务对应的硬件运算单元不相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存；

运行模块203，被配置为使用所述共用内存运行所述深度学习模型。

本公开实施例中提供一种深度学习模型的运行装置，此装置包括图2所示的装置，并且：所述第一分配模块202，还配置为在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为非零拷贝类型的共用内存。

本公开实施例中提供一种深度学习模型的运行装置，此装置包括图2所示的装置，并且：所述第一分配模块202，还配置为在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存。

本公开实施例中提供一种深度学习模型的运行装置，此装置包括图2所示的装置，并且：所述装置还包括：第二分配模块，被配置为分配用于存储所述深度学习模型的输入数据的输入内存，所述输入内存的类型为零拷贝类型；分配用于存储所述深度学习模型的输出数据的输出内存，所述输出内存的类型为零拷贝类型。

本公开实施例中提供一种深度学习模型的运行装置，此装置包括图2所示的装置，并且：所述装置还包括：设置模块，被配置为根据每个计算任务的运算能力设置用于处理每个计算任务的硬件运算单元。

本公开实施例中提供一种运行深度学习模型的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述方法。

本公开实施例中提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行所述方法。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种运行深度学习模型的装置300的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本文的真正范围和精神由下面的权利要求指出。

应当理解的是，本文并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本文的范围仅由所附的权利要求来限制。

Claims

1.一种运行深度学习模型的方法，其特征在于，包括：

使用所述共用内存运行所述深度学习模型。

2.如权利要求1所述的方法，其特征在于，

所述方法还包括：

3.如权利要求1所述的方法，其特征在于，

所述方法还包括：

4.如权利要求1所述的方法，其特征在于，

所述方法还包括：分配用于存储所述深度学习模型的输入数据的输入内存，所述输入内存的类型为零拷贝类型；

5.如权利要求1所述的方法，其特征在于，

所述方法还包括：根据每个计算任务的运算能力设置用于处理每个计算任务的硬件运算单元。

6.一种运行深度学习模型的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，

所述第一分配模块，还配置为在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为非零拷贝类型的共用内存。

8.如权利要求6所述的装置，其特征在于，

所述第一分配模块，还配置为在相邻计算任务对应的硬件运算单元相同时，为所述相邻计算任务分配内存类型为零拷贝类型的共用内存。

9.如权利要求6所述的装置，其特征在于，

所述装置还包括：

10.如权利要求6所述的装置，其特征在于，

所述装置还包括：

11.一种运行深度学习模型的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述权利要求1至5中任一权利要求所述的方法。

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行所述权利要求1至5中任一权利要求所述的方法。