CN110750342A

CN110750342A - 调度方法、装置、电子设备及可读存储介质

Info

Publication number: CN110750342A
Application number: CN201910436842.4A
Authority: CN
Inventors: 唐剑; 徐志远; 刘宁; 林航东; 张法朝
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-02-04
Anticipated expiration: 2039-05-23
Also published as: CN110750342B

Abstract

本申请提供一种调度方法、装置、电子设备及可读存储介质，通过在获取待处理任务及待处理数据之后，根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得待处理任务所需的目标学习模型。并根据各个计算单元的资源使用率，基于预先训练得到的调度模型将目标学习模型调度至对应的计算单元以对待处理数据进行处理得到输出结果。如此，在端侧设备中执行处理任务时，通过预先建立调度模型，基于实时的资源使用率得到优化的调度策略，以提高设备整体的执行效率。

Description

调度方法、装置、电子设备及可读存储介质

技术领域

本申请涉及数据计算及处理技术领域，具体而言，涉及一种基于深度学习模型针对数据处理任务的调度方法、装置、电子设备及可读存储介质。

背景技术

随着深度学习技术的逐渐成熟，越来越多的应用场景中使用到了深度学习模型，例如人脸检测、行为识别、视频内容分析等。传统的方式一般是将深度学习模型部署在性能强大、计算资源丰富的云端服务器上，使其通过网络为用户提供各种服务。但是，云端部署的模型服务质量受网络环境影响较大，且用户上传的数据的隐私性也无法得到保障。因此，为了在设备本地进行实时计算，同时避免隐私数据上传，直接将深度学习模型部署到如用户设备等端侧设备中的方式逐渐成为主流。相较于云端服务器，端侧设备计算能力有限，但同时深度学习模型又有着很高的实时性要求，因此，如何能够充分利用本地计算资源，尽可能满足实现计算资源的优化分配，是目前深度学习模型端侧部署时亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于，提供一种调度方法、装置、电子设备及可读存储介质，通过预先建立调度模型，基于实时的资源使用率得到优化的调度策略，以提高设备整体的执行效率。

根据本申请实施例的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行调度方法。

根据本申请实施例的另一方面，提供一种调度方法，应用于电子设备，所述电子设备包括多个计算单元，所述方法包括：

获取待处理任务，并获取数据采集设备采集到的待处理数据；

根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得所述待处理任务所需的目标学习模型；

根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果。

在本申请的一些实施例中，所述目标学习模型包括多个，所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果的步骤之前，所述方法还可以包括：

获得各所述目标学习模型的网络结构中的相同层级结构，作为共享网络；

将各所述目标学习模型的网络结构中除所述共享网络之外的其他层级结构作为对应目标学习模型的服务网络。

在本申请的一些实施例中，所述获得各所述目标学习模型的网络结构中的相同层级结构，作为共享网络的步骤，可以包括：

获得各所述目标学习模型的网络结构中各个网络层包含的神经元个数，以及各所述神经元的权重值；

获得各所述目标学习模型的网络结构中具有相同神经元个数，且对应神经元的权重值相同的层级结构，作为共享网络。

在本申请的一些实施例中，所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果的步骤，可以包括：

根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络及各所述服务网络调度至对应的计算单元，以通过所述共享网络及各所述服务网络对所述待处理数据进行处理得到输出结果。

在本申请的一些实施例中，每个所述目标学习模型对应一项待处理任务；所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络及各所述服务网络调度至对应的计算单元，以通过所述共享网络及各所述服务网络对所述待处理数据进行处理得到输出结果的步骤，可以包括：

对所述待处理数据进行预处理得到预处理数据；

根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络调度至对应的计算单元以对所述预处理数据进行处理得到特征数据；

根据各所述计算单元的资源使用率，基于所述调度模型将各所述服务网络调度至对应的计算单元以分别对所述特征数据进行处理得到对应的待处理任务的输出结果。

在本申请的一些实施例中，所述方法还可以包括：

将得到的预处理数据存入数据队列中；

所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络调度至对应的计算单元以对所述预处理数据进行处理得到特征数据的步骤，包括：

根据各所述计算单元的资源使用率及所述数据队列中的预处理数据的数量，基于预先训练得到的调度模型得到第一调度策略；

从所述数据队列中提取出预处理数据以分配给所述共享网络，根据所述第一调度策略将所述共享网络调度至对应的计算单元，以对分配到的预处理数据进行处理得到特征数据。

在本申请的一些实施例中，所述方法还可以包括：

将得到的特征数据存入特征队列中；

所述根据各所述计算单元的资源使用率，基于所述调度模型将各所述服务网络调度至对应的计算单元以分别对所述特征数据进行处理得到对应的待处理任务的输出结果的步骤，包括：

根据各所述计算单元的资源使用率及所述特征队列中的特征数据的数量，基于所述调度模型得到第二调度策略；

从所述特征队列中提取出经所述共享网络处理得到的特征数据以分配给各所述服务网络，根据所述第二调度策略将各所述服务网络调度至对应的计算单元，以分别对分配到的特征数据进行处理得到对应的待处理任务的输出结果。

在本申请的一些实施例中，所述方法还包括预先训练得到调度模型的步骤，该步骤可以包括：

获取进行模型训练时各个计算单元的资源使用率、训练数据以及用于处理所述训练数据的多个训练学习模型；

构建神经网络模型，基于模型训练时各所述计算单元的资源使用率对所述神经网络模型进行训练，输出调度策略；

根据所述调度策略将各所述训练学习模型调度至对应的计算单元以对所述训练数据进行处理；

根据各所述训练学习模型对所述训练数据的处理信息调整所述神经网络模型，以得到所述调度模型。

在本申请的一些实施例中，所述根据各所述训练学习模型对所述训练数据的处理信息调整所述神经网络模型，以得到所述调度模型的步骤，可以包括：

统计各所述训练学习模型从开始处理所述训练数据至得到训练结果为止的处理时长，计算多个处理时长的平均时长；

在所述平均时长超过预设阈值时，对所述神经网络模型的参数进行调整后继续训练，直至满足预设条件时停止训练，得到所述调度模型。

根据本申请实施例的另一方面，提供一种调度装置，应用于电子设备，所述电子设备包括多个计算单元，所述装置包括：

获取模块，用于获取待处理任务，并获取数据采集设备采集到的待处理数据；

目标学习模型获得模块，用于根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得所述待处理任务所需的目标学习模型；

调度模块，用于根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果。

在本申请的一些实施例中，所述装置还可以包括：

共享网络获得模块，用于获得各所述目标学习模型的网络结构中的相同层级结构，作为共享网络；

服务网络获得模块，用于将各所述目标学习模型的网络结构中除所述共享网络之外的其他层级结构作为对应目标学习模型的服务网络。

在本申请的一些实施例中，所述共享网络获得模块可以通过以下方式获得共享网络：

在本申请的一些实施例中，所述调度模块，具体可以用于：

在本申请的一些实施例中，每个所述目标学习模型对应一项待处理任务；所述调度模块具体还可以用于：

对所述待处理数据进行预处理得到预处理数据；

在本申请的一些实施例中，所述装置还可以包括：

第一保存模块，用于将得到的预处理数据存入数据队列中；

所述调度模块，具体还用于：

在本申请的一些实施例中，所述装置还可以包括：

第二保存模块，用于将得到的特征数据存入特征队列中；

所述调度模块，具体还可以用于：

在本申请的一些实施例中，所述装置还包括训练模块，所述训练模块具体可以用于：

在本申请的一些实施例中，所述训练模块可以通过以下方式获得调度模型：

根据本申请实施例的另一方面，提供一种可读存储介质，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行上述的调度方法。

基于上述任一方面，本申请实施例可在获取待处理任务及待处理数据之后，根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得待处理任务所需的目标学习模型。并根据各个计算单元的资源使用率，基于预先训练得到的调度模型将目标学习模型调度至对应的计算单元以对待处理数据进行处理得到输出结果。如此，在端侧设备中执行处理任务时，通过预先建立调度模型，基于实时的资源使用率得到优化的调度策略，以提高设备整体的执行效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的电子设备的示例性硬件和软件组件的示意图；

图2示出了本申请实施例所提供的调度方法的流程示意图之一；

图3示出了本申请实施例提供的调度方法的流程示意图之二；

图4示出了本申请实施例提供的调度方法的流程示意图之三；

图5示出了本申请实施例提供的共享网络及服务网络的分离示意图；

图6示出了图2中步骤S230的子步骤的流程示意图；

图7示出了本申请实施例提供的共享网络及服务网络的调度示意图；

图8示出了本申请实施例所提供的调度装置的功能模块框图之一；

图9示出了本申请实施例所提供的调度装置的功能模块框图之二。

图标：100-电子设备；110-网络端口；120-处理器；130-通信总线；140-存储介质；150-输入/输出接口；800-调度装置；810-获取模块；820-目标学习模型获得模块；830-调度模块；840-共享网络获得模块；850-服务网络获得模块；860-第一保存模块；870-第二保存模块；880-训练模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，越来越多的端侧设备支持深度神经网络的推理，甚至会利用专用的计算单元对深度神经网络的推理计算进行加速，例如GPU、DSP等。当多个深度学习模型部署在端侧设备上时，模型之间会相互抢占计算资源，例如设备包含的CPU、GPU和DSP等。若不对模型的执行进行合理调度，最大化利用端侧设备的计算资源，那么会导致模型的运行效率下降，无法满足深度学习任务的实时性要求。而端侧设备运行时的计算资源状态是复杂多变的，除了执行深度学习模型推理之外，各个计算单元同时还需要执行其他应用任务，例如CPU需要用于操作系统管理，GPU需要用于图形渲染，DSP需要用于信号处理等。

现有的端侧系统一般不针对多个深度学习模型的调度进行专门的优化，当有多个模型需要同时执行时，采用的调度策略一般是按照静态设定进行调度，将单个模型完全调度至CPU或GPU中，让模型进行推理时，持续在CPU或GPU上执行。虽然一般而言，在专用计算单元(如GPU或DSP)上进行神经网络推理会得到加速，但是如果所有深度学习模型都被调度至各计算单元执行时，模型之间会相互竞争计算资源，即各个模型在该计算单元上排队等待被执行，因此反而会导致模型推理速度的降低。

基于上述研究发现，为了解决本申请背景技术中所述的至少一种技术问题，本申请实施例提供一种调度方法、装置、电子设备及可读存储介质，通过预先建立调度模型的方式，在端侧设备中运行深度学习模型时，实时监测端侧设备中计算单元的资源使用率，得到优化的调度策略，以将深度学习模型调度至最合适的计算单元中处理待处理任务。如此，充分利用计算资源，满足深度学习模型的实时性要求，基于优化的调度策略以提高设备整体对任务的执行效率。

第一实施例

图1是本申请一种可替代实施例提供的电子设备100的示例性硬件和软件组件的示意图，其中，该电子设备100可以是通用计算机或特殊用途的计算机，可以是移动终端。本申请尽管仅示出了一个电子设备100，但是为了方便起见，还可以在多个类似平台以分布式方式实现本申请描述的功能，以执行待处理任务。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140，例如，RAM、磁盘或ROM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以用于实现本申请的调度方法。电子设备100还包括设备与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

应当注意，本申请中的电子设备100可以包括多个处理器120(图中只示出了两个)，因此本申请中描述的一个处理器120执行的步骤也可以由多个处理器120联合执行或单独执行。例如，若电子设备100的处理器120执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器120共同执行或者在一个处理器120中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

处理器120可以是，但不限于中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(GraphicsProcessing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable GateArray,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或上述任意两种及以上的其任意组合。

在一些实施例中，电子设备100可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备、车载后视镜等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，机动车辆中的内置设备可以包括车载计算机、车载电视等。

在一些实施例中，电子设备100中的存储介质140可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM)；RAM可以包括动态RAM(Dynamic Random Access Memory,DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous-RAM,DDR SDRAM)；静态RAM(Static Random-Access Memory,SRAM)，晶闸管RAM(Thyristor-Based RandomAccess Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory,PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。

第二实施例

图2示出了本申请的一些实施例的调度方法的流程示意图，本申请所提供的调度方法可应用于上述的电子设备100。应当理解，在其它实施例中，本实施例所述的调度方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该调度方法的详细步骤介绍如下。

步骤S210，获取待处理任务，并获取数据采集设备采集到的待处理数据。

步骤S220，根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得所述待处理任务所需的目标学习模型。

步骤S230，根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果。

本实施例中，电子设备100可以配置有数据采集设备，或者该数据采集设备也可以是独立于电子设备100的与电子设备100之间通过有线或无线的方式进行通信的终端设备。该数据采集设备可以是用于采集视频图像的例如摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等，也可以是用于采集音频数据的麦克风等。

可获取当前的待处理任务，例如可以是基于视频数据以对视频中的人像的身份进行识别或者对人像的精神状态进行识别等，又或者是基于音频数据以对音频信息中包含的敏感信息进行识别等等。并且，可通过数据采集设备采集待处理数据。数据采集设备将采集到的待处理数据发送至电子设备100。

在电子设备100中还预存有多个深度学习模型，各个深度学习模型可分别用于执行不同的处理任务，例如有可对图像进行分析以检测图像中的人物的疲劳程度的模型，有可对图像进行分析以检测图像中的人物是否存在分心驾驶情况的模型等。其中，各个深度学习模型为预先根据样本图像或样本音频通过神经网络模型进行训练所获得的，具体过程在本实施例不作赘述。

电子设备100中还预存有不同深度学习模型与不同处理任务之间的对应关系，在获得待处理任务之后，可根据该对应关系从预存的多个深度学习模型中获得目标学习模型。其中，获得的目标学习模型可以是一个或多个。

由上述可知，电子设备100中包含多个计算单元，例如CPU、GPU、DSP等，在获得用于执行待处理任务的目标学习模型后，需要将目标学习模型调度至合适的计算单元中以实现对待处理数据的处理，进而执行待处理任务。

本实施例中，在对目标学习模型进行调度时，将根据当前各个计算单元的资源使用率，基于预先建立的调度模型以将目标学习模型调度至对应的计算单元以对待处理数据进行处理得到输出结果。其中，各个计算单元的处理能力有限，各个计算单元的资源使用率可以以计算单元当前进行的处理任务以及排队等待该计算单元执行的处理任务之和，占该计算单元最大可执行的处理任务量的占比来表征该计算单元的资源使用率。关于计算单元的资源使用率的计算方式可参见现有技术中的常用方式，在本实施例中不作赘述。

本实施例中，预先可通过离线的方式基于样本数据训练得到的调度模型，请结合参阅图3，以下首先对调度模型的训练进行说明：

步骤S310，获取进行模型训练时各个计算单元的资源使用率、训练数据以及用于处理所述训练数据的多个训练学习模型。

步骤S320，构建神经网络模型，基于模型训练时各所述计算单元的资源使用率对所述神经网络模型进行训练，输出调度策略。

步骤S330，根据所述调度策略将各所述训练学习模型调度至对应的计算单元以对所述训练数据进行处理。

步骤S340，根据各所述训练学习模型对所述训练数据的处理信息调整所述神经网络模型，以得到所述调度模型。

首先，可获取进行模型训练时各个计算单元的资源使用率、训练数据以及用于处理训练数据的多个训练学习模型。构建神经网络模型，基于模型训练时各个计算单元的资源使用率对构建的神经网络模型进行训练，输出调度策略。再根据该调度策略将各个训练学习模型调度至对应的计算单元，以使训练学习模型在对应的计算单元上对训练数据进行处理。根据各个训练学习模型对训练数据的处理信息调整神经网络模型，从而得到调度模型。

可选地，在本实施例中，可统计各个训练学习模型从开始处理训练数据至得到训练结果为止的处理时长，并计算多个训练学习模型得到的多个处理时长的平均时长。检测该平均时长是否超过预先阈值，若超过预设阈值，则表明可能对训练学习模型进行调度时没有充分利用计算单元的资源，或者是在某一个计算单元上排队等待的时间过长。在这种情况下，需要对神经网络模型进行调整，以优化调度策略。

本实施例中，可利用现有常用的深度强化学习算法，例如DQN(Deep Q-Learning，Q值学习)算法、DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法等，对神经网络模型的参数进行调整，然后对参数调整后的神经网络模型继续进行训练，直至满足预设条件时停止训练，得到所述的调度模型。其中，该预设条件可以是得到的平均时长小于或等于预设阈值，也可以是迭代的次数达到设定最大值，具体地可以根据需求进行设置。

本实施例中，预先通过离线的方式训练得到调度模型，以深度学习模型执行处理任务的时长作为调度模型的评价指标，如此，可通过对调度模型的不断优化从而使电子设备100对处理任务的整体执行效率提高。

本实施例中，上述离线对调度模型的训练过程除了可在电子设备100中执行之外，还可在处理能力强大的云端服务器中执行，云端服务器通过与电子设备100之间进行通信交互，以监测电子设备100的计算资源状态以及模型服务质量，并且周期性地向电子设备100发送调度策略，以监测到的电子设备100的执行情况不断调整神经网络模型得到调度模型，以使电子设备100能够根据调度模型输出的调度策略实现良好的调度。

在通过离线训练得到调度模型的基础上，在将调度模型应用于在线使用时，由上述可知，可根据计算单元的资源使用率基于调度模型将目标学习模型调度至对应的计算单元以对待处理数据进行处理。在本实施例中，目标学习模型可以包括多个，而一项待处理任务可对应一个目标学习模型，例如用于司机疲劳检测需要一个目标学习模型，用于司机分心检测需要另一个目标学习模型。如此，可能出现多个目标学习模型同时执行情况。现有技术中，在多个学习模型需要被同时执行时，一般是让学习模型之间独立运行，不考虑学习模型之间的网络共享，这种方式并不利于学习模型对处理任务的处理效率。

例如，用于司机疲劳检测的目标学习模型首先需要对采集的数据进行人脸特征检测，用于司机分心检测的目标学习模型同样也需要对采集的数据进行人脸特征检测。若采用现有技术中的方式，则两个模型均需要单独执行一遍人脸特征检测，造成处理量的增加，不利于提高整体执行效率。

基于上述研究，请参阅图4，在本实施例中，在获得待处理任务所需的目标学习模型之后，首先可通过以下方式提取出各个目标学习模型所共有的共享网络，以及各个目标学习模型所独有的服务网络。

步骤410，获得各所述目标学习模型的网络结构中的相同层级结构，作为共享网络。

步骤S420，将各所述目标学习模型的网络结构中除所述共享网络之外的其他层级结构作为对应目标学习模型的服务网络。

各个目标学习模型为预先通过对神经网络进行训练所获得，各目标学习模型包括多层神经网络层。可获得各目标学习模型的网络结构中相同层级网络，作为共享网络，即各个目标学习模型均包含该共享网络。具体地，可获得各目标学习模型的网络结构中各个网络层包含的神经元个数，以及各神经元的权重值。获得各目标学习模型的网络结构中具有相同神经元个数，且对应神经元的权重值相同的层级结构，作为共享网络。而各个目标学习模型的网络结构除共享网络之外的其他层级结构则作为该目标学习模型的服务网络。其中，共享网络是各个目标学习模型都具有的相同层级结构，而服务网络是各个目标学习模型所特有的层级结构。

例如，在实际应用中，用于司机疲劳检测和分心驾驶检测的两个深度学习模型，其用于提取人脸特征的网络是可以共享的，即两者的用于提取人脸特征的神经网络层级结构和神经元权重完全一致，因此，可以单独分离出人脸特征提取部分作为共享网络，并且保留疲劳检测和分心检测两者独有的部分作为各自的服务网络。

例如，如图5中所示，针对两个目标学习模型，其中一个目标学习模型对应深度神经网络A，另一个目标学习模型对应深度神经网络B。其中，深度神经网络A和深度神经网络B分别包含三层神经网络层，而深度神经网络A和深度神经网络B包含的神经网络层的前两层层级结构中的神经元个数以及对应的神经元权重值均相同，而两者的第三层层级结构中神经元个数不等，或者是对应神经元权重不等。则该深度神经网络A和深度神经网络B的前两层层级结构，作为共享网络，而深度神经网络A的第三层层级结构作为深度神经网络A的服务网络A，深度神经网络B的第三层层级结构作为深度神经网络B的服务网络B。其中，共享网络的输出结果，可以分别作为服务网络A和服务网络B的输入，如此，两个目标学习模型可以共享共享网络，避免了重复处理工作。

通过上述的共享网络和服务网络的分离方式，则在调用具有共享网络的多个学习模型时，可以只执行一次其共有的共享网络，即可得到各个学习模型均需的特征数据以供各个任务使用。并且，用于特征提取的共享网络一般比较大，层数比较深，所以相对于传统的让各个学习模型独立运行的方式，多个学习模型的情况下需要执行多遍特征提取网络的推理，本实施例通过分离共享网络和服务网络显然会大大减小计算量。

本实施例中，对于各个学习模型的共享网络和服务网络的分离过程可在电子设备100中进行，也可以是在与电子设备100通信的云端服务器中进行，再通过云端服务器将分离后的各个目标学习模型所共有的共享网络以及各自有独有的服务网络发送至电子设备100，以供电子设备100调度。本实施例中，至于具体在电子设备100中进行共享网络及服务网络的分离还是在云端服务器中进行不作具体限制，可根据需求进行相应设置。

本实施例中，分离出的共享网络及服务网络可以作为智能调度的最小单元，以分别调度至不同的计算单元执行处理任务。可选地，在进行实时调度时，可以根据各个计算单元的资源使用率，基于预先训练得到的调度模型将共享网络及各个服务网络调度至对应的计算单元，以通过共享网络及各个服务网络对待处理数据进行处理得到输出结果。

请结合参阅图6，在本实施例中，可通过以下方式实现共享网络及服务网络的调度：

步骤S610，对所述待处理数据进行预处理得到预处理数据。

步骤S620，根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络调度至对应的计算单元以对所述预处理数据进行处理得到特征数据。

步骤S630，根据各所述计算单元的资源使用率，基于所述调度模型将各所述服务网络调度至对应的计算单元以分别对所述特征数据进行处理得到对应的待处理任务的输出结果。

可选地，本实施例中，在获得待处理数据之后，首先可对待处理数据进行预处理得到预处理数据，使通过预处理处理的数据能够满足深度学习模型的输入要求。例如，待处理数据为视频流时，预处理可以是从视频流中获取关键帧，然后对关键帧进行压缩、裁剪、转换为RGB数组等操作。本实施例中，对于预处理操作的具体过程不做限制，可根据待处理数据的具体形式或需求进行设置。

由上述可知，每个目标学习模型对应一项待处理任务，而在包含多个目标学习模型的情况下，可获得多个目标学习模型的共享网络以及各个目标学习模型的服务网络，在获得预处理数据之后，根据各个计算单元的资源使用率，基于预先训练得到的调度模型将共享网络调度至对应的计算单元以对预处理数据进行处理得到特征数据。

然后，再根据各个计算单元的资源使用率，基于调度模型将各个服务网络调度至对应的计算单元以分别对特征数据进行处理得到对应的待处理任务的输出结果。如此，则只需要调度共享网络进行处理即可获得各个目标学习模型均需要的特征数据，避免各个目标学习模型单独执行一遍以获得特征数据所造成的重复处理工作的缺陷。

请结合参阅图7，本实施例中，考虑到数据获取速度往往大于电子设备100能够处理数据的能力，因此，在进行数据预处理得到预处理数据之后，可将得到的预处理数据存入数据队列中。如此，电子设备100可根据各个计算单元的资源使用率以及数据队列中的预处理数据的数量，基于预先训练得到的调度模型得到第一调度策略，该第一调度策略用于调度当前执行待处理任务的共享网络。可从数据队列中提取出预处理数据以分配给共享网络，再根据第一调度策略将该共享网络调度至对应的计算单元，以对分配到的预处理数据进行数据得到特征数据。

同样地，本实施例中，可将得到的特征数据存入特征队列中，可根据各个计算单元的资源使用率以及特征队列中的特征数据的数量，基于调度模型得到第二调度策略。从特征队列中提取出经过共享网络得到的特征数据以分配给各个服务网络。其中该各个服务网络为对应于该共享网络的服务网络，即该各个服务网络对应的目标学习模型共有该共享网络。再根据第二调度策略将各个服务网络调度至对应的计算单元，以分别对分配到的特征数据进行处理得到对应的待处理任务的输出结果。例如，用于司机疲劳检测的目标学习模型对应的服务网络可输出疲劳判定结果，用于司机分心检测的目标学习模型对应的服务网络可输出分心判定结果。

本实施例中，通过以上方式，首先分析多个深度学习模型之间的网络共性，提取出多个模型能够共享的共享网络和每个深度学习模型独有的服务网络。在电子设备100运行深度学习模型时，实时监测电子设备100中各个计算单元(如CPU、GPU、DSP等)的状态，将共享网络和各个深度学习模型的服务网络调度到最合适的计算单元中，充分利用计算资源，并且尽可能满足深度学习实时性要求。智能调度算法以决策周期内模型的服务质量作为反馈信号，服务质量主要通过设备执行处理任务的时长来体现。通过深度强化学习进行离线学习，在实际部署时，智能调度算法根据电子设备100各个计算单元状态进行在线计算，实时得到最优化的调度策略。

第三实施例

图8示出本申请的一些实施例的调度装置800的功能模块框图，该调度装置800实现的功能对应上述方法执行的步骤。该装置可理解为上述电子设备100，或电子设备100的处理器120，也可以理解为独立于上述电子设备100或处理器120之外的在电子设备100控制下实现本申请功能的组件，如图8所示，调度装置800可以包括获取模块810、目标学习模型获得模块820以及调度模块830。

获取模块810，用于获取待处理任务，并获取数据采集设备采集到的待处理数据。可以理解，该获取模块810可以用于执行上述步骤S210，关于该获取模块810的详细实现方式可以参照上述对步骤S210有关的内容。

目标学习模型获得模块820，用于根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得所述待处理任务所需的目标学习模型。可以理解，该目标学习模型获得模块820可以用于执行上述步骤S220，关于该目标学习模型获得模块820的详细实现方式可以参照上述对步骤S220有关的内容。

调度模块830，用于根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果。可以理解，该调度模块830可以用于执行上述步骤S230，关于该调度模块830的详细实现方式可以参照上述对步骤S230有关的内容。

请参阅图9，在本申请的一些实施例中，调度装置800还可以包括：

共享网络获得模块840，用于获得各所述目标学习模型的网络结构中的相同层级结构，作为共享网络。可以理解，该共享网络获得模块840可以用于执行上述步骤S410，关于该共享网络获得模块840的详细实现方式可以参照上述对步骤S410有关的内容。

服务网络获得模块850，用于将各所述目标学习模型的网络结构中除所述共享网络之外的其他层级结构作为对应目标学习模型的服务网络。可以理解，该服务网络获得模块850可以用于执行上述步骤S420，关于该服务网络获得模块850的详细实现方式可以参照上述对步骤S420有关的内容。

在本申请的一些实施例中，所述共享网络获得模块840可以通过以下方式获得共享网络：

在本申请的一些实施例中，所述调度模块830，具体可以用于：

在本申请的一些实施例中，每个所述目标学习模型对应一项待处理任务；所述调度模块830具体还可以用于：

对所述待处理数据进行预处理得到预处理数据。

根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络调度至对应的计算单元以对所述预处理数据进行处理得到特征数据。

在本申请的一些实施例中，所述调度装置800还可以包括：

第一保存模块860，用于将得到的预处理数据存入数据队列中；

所述调度模块830，具体还可以用于：

在本申请的一些实施例中，所述调度装置800还可以包括：

第二保存模块870，用于将得到的特征数据存入特征队列中；

所述调度模块830，具体还可以用于：

在本申请的一些实施例中，所述调度装置800还包括训练模块880，所述训练模块880具体可以用于：

根据各所述训练学习模型对所述训练数据的处理信息调整所述神经网络模型，以得到所述调度模型。可以理解，该训练模块880可以用于执行上述步骤S310至步骤S340，关于该训练模块880的详细实现方式可以参照上述对步骤S310至步骤S340有关的内容。

在本申请的一些实施例中，所述训练模块880可以通过以下方式获得调度模型：

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

本申请实施例还提供了一种可读存储介质，所述可读存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的调度方法。

综上所述，本申请实施例提供的调度方法、装置、电子设备100及可读存储介质，通过在获取待处理任务及待处理数据之后，根据预存的不同深度学习模型与不同处理任务之间的关联关系，从预存的多个深度学习模型中获得待处理任务所需的目标学习模型。并根据各个计算单元的资源使用率，基于预先训练得到的调度模型将目标学习模型调度至对应的计算单元以对待处理数据进行处理得到输出结果。如此，在端侧设备中执行处理任务时，通过预先建立调度模型，基于实时的资源使用率得到优化的调度策略，以提高设备整体的执行效率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种调度方法，其特征在于，应用于电子设备，所述电子设备包括多个计算单元，所述方法包括：

2.根据权利要求1所述的调度方法，其特征在于，所述目标学习模型包括多个，所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果的步骤之前，所述方法还包括：

3.根据权利要求2所述的调度方法，其特征在于，所述获得各所述目标学习模型的网络结构中的相同层级结构，作为共享网络的步骤，包括：

4.根据权利要求2所述的调度方法，其特征在于，所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述目标学习模型调度至对应的计算单元以对所述待处理数据进行处理得到输出结果的步骤，包括：

5.根据权利要求4所述的调度方法，其特征在于，每个所述目标学习模型对应一项待处理任务；所述根据各所述计算单元的资源使用率，基于预先训练得到的调度模型将所述共享网络及各所述服务网络调度至对应的计算单元，以通过所述共享网络及各所述服务网络对所述待处理数据进行处理得到输出结果的步骤，包括：

对所述待处理数据进行预处理得到预处理数据；

6.根据权利要求5所述的调度方法，其特征在于，所述方法还包括：

将得到的预处理数据存入数据队列中；

7.根据权利要求5所述的调度方法，其特征在于，所述方法还包括：

将得到的特征数据存入特征队列中；

8.根据权利要求1-7任意一项所述的调度方法，其特征在于，所述方法还包括预先训练得到调度模型的步骤，该步骤包括：

9.根据权利要求8所述的调度方法，其特征在于，所述根据各所述训练学习模型对所述训练数据的处理信息调整所述神经网络模型，以得到所述调度模型的步骤，包括：

10.一种调度装置，其特征在于，应用于电子设备，所述电子设备包括多个计算单元，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-9任意一项所述的调度方法。

12.一种可读存储介质，其特征在于，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-9任意一项所述的调度方法。