CN114416863A

CN114416863A - 用于执行基于模型并行的分布式推理的方法、设备和介质

Info

Publication number: CN114416863A
Application number: CN202011175065.1A
Authority: CN
Inventors: 潘碧莹; 张笛; 崔思静; 牛思杰; 庞涛
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-04-29

Abstract

本公开涉及用于执行基于模型并行的分布式推理的方法、设备和介质。在移动终端处执行基于模型并行的分布式推理的方法包括：下载并运行根据当前应用模型构建的回归模型，所述回归模型用来预测当前应用模型的层间输出数据的数量和将层间输出数据上传给云服务器所需的网络传输速率、当前应用模型的层间推理时间和功耗；确定移动终端的当前电量是否低于阈值电量；基于所述确定的结果计算当前应用模型的退出点；以及将计算出的退出点传输给所述云服务器；其中，在所述退出点处所述移动终端停止所述当前应用模型的推理并且把所获得的层间输出数据推送到所述云服务器以供所述云服务器执行所述当前应用模型的剩余部分的推理。

Description

用于执行基于模型并行的分布式推理的方法、设备和介质

技术领域

本公开总体上涉及人工智能领域，更具体地涉及用于执行基于模型并行的分布式推理的方法、设备和介质。

背景技术

模型并行(model parallelism)在分布式技术中被广泛使用，本文所把模型并行方法应用在深度神经网络在移动终端进行推断计算。目前，移动终端上的人工智能(AI，Artificial Intelligence)应用主要是基于深度神经网络，深度神经网络推断计算会给移动终端带来计算负担和时延。这种情况下可以使用模型并行，从而将模型的不同层部署到不同设备上，比如把深度网络的不同层部署到不同硬件计算单元，彼此通信来实现一个流水线。在基于模型并行的处理中，前一次的输出数据被输入到下一层作为输入数据，在最后一层结束全部处理，并返回结果。

近年来，基于AI/ML(Machine Learning，机器学习)模型的移动应用程序的计算资源、内存消耗和功耗越来越高。然而，受到硬件资源限制的移动终端已经不能满足支持这么大的计算量的延迟和功耗。但如果将AI/ML模型推理从移动终端卸载到云端进行处理，可能会暴露用户的隐私数据或受到无法满足对实时性要求高的应用需求。

因此，在现有技术中存在对于能够在移动终端和边缘/云服务器之间分布式执行模型推理的技术的需求。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的一些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

本专利提出了一种基于模型并行的终端-边缘/云服务器的分布式协同推理方案，解决纯云端或终端AI/ML模型推理计算所带来的问题，如：

①终端侧算力受限、功耗消耗过大、推理时间过长；

②卸载到云端可能会导致用户数据暴露的安全问题和不能满足实时性要求高的应用需求。

本发明人提出的终端侧决策引擎实时计算AI/ML模型的每一帧的最佳退出点，根据实时环境因素(诸如模型计算量、移动终端算力、移动终端能耗、网络环境、应用时延要求等)将AI/ML模型拆分成两部分，移动终端将进行第一部分的模型推理，边缘/云服务将进行剩余部分模型推理，从而优化端到端的延迟和减轻移动终端模型推理计算的负担。

根据本公开的一个方面，提供一种在移动终端处执行基于模型并行的分布式推理的方法包括：下载并运行根据当前应用模型构建的回归模型，所述回归模型用来预测当前应用模型的层间输出数据的数量和将层间输出数据上传给云服务器所需的网络传输速率、当前应用模型的层间推理时间和功耗；确定移动终端的当前电量是否低于阈值电量；基于所述确定的结果计算当前应用模型的退出点，所述计算包括：如果移动终端的当前电量低于阈值电量，则基于移动终端的最低计算功耗为当前应用模型的下一帧计算退出点，并且如果移动终端的当前电量大于阈值电量，则根据当前应用模型的时延要求、由所述回归模型预测的所需的网络传输速率、层间输出数据的数量和层间推理时间及能耗中的一个或多个，为当前应用模型的下一帧计算退出点；以及将计算出的退出点传输给所述云服务器；其中，在所述退出点处所述移动终端停止所述当前应用模型的推理并且把所获得的层间输出数据推送到所述云服务器以供所述云服务器执行所述当前应用模型的剩余部分的推理。

根据本公开的另一个方面，提供一种移动终端，包括：存储器，其上存储有指令；以及处理器，被配置为执行存储在所述存储器上的指令，以执行以根据本公开的上述方面所述的方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。参照附图，根据下面的详细描述，可以更清楚地理解本公开，其中：

图1是示出了根据本公开一个实施例的执行基于模型并行的分布式推理的示例性系统的示意图。

图2是示出了根据本公开一个实施例的执行基于模型并行的分布式推理的示例性方法的流程图。

图3示出了使用AlexNet模型的各层计算时间和输出数据量的直方图。

图4示出了使用AlexNet模型的移动终端的能耗损失的示意图。

图5示出了使用AlexNet模型的模型协同推理端到端时延的示意图。

图6示出了可以实现根据本公开一个实施例的执行基于模型并行的分布式推理的移动终端的示例性配置。

具体实施方式

参考附图进行以下详细描述，并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解，但是这些细节仅被认为是示例，而不是为了限制本公开，本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外，为了清楚和简洁起见，可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到，在不脱离本公开的精神和范围的情况下，可以对本文描述的示例进行各种改变和修改。

本发明适用于在移动终端进行重载深度学习模型推理或端到端时延要求高的应用，例如物体识别、照片增强、智能视频监控、AR、遥控汽车、工业控制和机器人技术。通过本发明方法，实时计算模型每一帧最佳退出点，实现整体化最优的终端-边缘/云服务器的分布式协同推理方案，从而在保护用户隐私的前提下，减轻移动终端计算负担和加快推理计算过程。

图1是示出了根据本公开一个实施例的执行基于模型并行的分布式推理的示例性系统100的示意图。如图1所示，示例性系统100包括云端(例如，边缘/云服务器)和终端(例如，移动终端)。值得注意的是，以下描述包括了大量的不必要的细节，本领域技术人员可以根据需要对这些细节进行取舍。

在示例性系统100中执行以下操作：

1、根据不同应用模型，构建模型层间输出数据量和所需传输速率的回归模型。

例如，根据不同应用模型构建模型层间输出数据量的回归模型可以使用AlexNet模型为例来说明。AI/ML模型推理需要大量的计算和存储资源，以图像分类模型AlexNet为例，AlexNet模型一共有6100万权重值和7.24亿MACs。图3示出了AlexNet模型中各层的数据和计算特性，浅色部分是层级延时也就是每层所需的计算时间，深色部分是每一层输出数据的大小，这也是下一层的输入。根据模型的层间的输出数据量和计算时间，可以更好选择最佳推出点。但可以从图中看出，模型退出点越早，移动终端的计算负担越小，但需要卸载的数据量越多。模型退出点越晚，需要卸载的数据量越少，但移动终端的计算负担越大。

2、下载决策引擎到移动终端。

3、如果决策引擎第一次使用新模型，用测试数据在移动终端运行模型，并记录模型层间平均推理时间和平均功耗，预测模型层间在移动终端运行所需的时间和功耗，并计算出移动终端最低功耗的退出点；否则可以跳过。

例如，可以使用10个测试数据在移动终端进行推断，记录模型层间推理时间和计算功耗。移动终端模型推理性能受限于硬件性能，如计算单元算力，内存，功耗等。用10个测试数据在移动终端运行模型，并记录模型层间平均推理时间和平均功耗，记录模型层间在移动终端运行所需的时间和功耗；并计算出移动终端最低功耗的退出点。这是为了加快模型每一帧的退出点计算过程，减少移动终端计算功耗；同时，当移动终端电量处于较低状态时，决策引擎将直接选用最低功耗的退出点。

4、在开始推理前，决策模型向边缘/云服务器发送请求，以就近原则寻找可以进行分布式推理的边缘/云服务器，并作为第一帧的网络传输环境推理，以及用测试数据预测模型在服务器推理的时间。

5、如果移动终端电量过低，则直接选择移动终端最低计算功耗的退出点；否则决策引擎根据应用时延要求、网络传输速率、移动终端的运行模型推理的层间计算量和时间及能耗损失，计算出下一帧的最佳模型退出点。决策引擎发送模型退出点给边缘/云服务器，并作为下一帧的网络传输环境推理。

例如，根据端到端应用时间和移动终端的硬件资源，决策引擎计算每一帧的模型最优退出点，从而动态调整整体最优端-边缘/云服务器协同推理方案：

a.移动终端的能耗损失

移动终端的能耗损失主要与部分模型在移动终端上推理所需的能耗，层间输出数据传输能耗相关，如图4所示。本专利只考虑移动终端推理所需的功耗。

min(kL₀X₀f₀ ²+t₁P₁+kL₃X₃f₃ ²+t₄P₄) (1)

b.应用时延要求

应用时延要求主要与部分模型在移动终端上的推理时间，层间输出数据传输时间，部分模型在端/云服务器的推理时间相关，如图5所示。

端到端的延时要求取决于应用类型，但需要满足：

0<t3≤t-t1-t4 (2)

0<t4<t1 (3)

t0+t1+t2+t4≤t (4)

移动终端的计算时间是预测时间或

卸载模型层间数据到边缘/云服务器的所需时间

在图3-5中以及本文的以上描述中，E指示移动终端每帧所需的能耗；A₀…A₃指示在移动终端进行的计算任务；L₀…L₂指示输入数据量(比特)；X₀…X₃指示计算单元的计算强度(周期/比特)；t₁,P₁指示模型层间数据卸载到边缘/云端的传输时间及功耗；t₄,P₄指示决策引擎广播给边缘/云端下一个退出点的传输时间及功耗；t指示每帧的处理时间；t₀指示模型在移动终端进行推理所需时间；t₁指示模型层间数据卸载到边缘/云端的传榆时间；t₂指示模型在边缘/云端服务器进行推理所需时间；t₃指示决策引擎在移动终端计算下一帧模型退出点时间；t₄指示决策引擎广播下一个退出点的时间。

6、移动终端进行部分模型推理；

7、移动终端完成部分模型推理后把模型层间输出数据传送到边缘/云服务器；

8、移动终端重复步骤5，同时边缘/云服务器进行剩余模型部分的推理；

9、边缘/云服务器把推理结果返回移动终端；

10、重复步骤6-9。

本发明人提出了基于模型并行的端-边缘/云服务器的分布式协同推理方案，解决纯云端或纯终端模型推理计算所带了问题，决策引擎根据实时环境因素(如模型计算量、移动终端算力、移动终端能耗、网络环境、应用时延要求等)，决策引擎计算AI/ML模型的最佳退出点，将模型拆分成两部分，移动终端将进行第一部分的模型推理，边缘/云服务将进行剩余部分模型推理，这个方案可以优化端到端的延迟和减轻移动终端模型推理计算的负担。

图2是示出了根据本公开一个实施例的执行基于模型并行的分布式推理的示例性方法200的流程图。

在步骤201处，本处理开始。在该步骤处，下载并运行根据当前应用模型构建的回归模型，所述回归模型用来预测当前应用模型的层间输出数据的数量和将层间输出数据上传给云服务器所需的网络传输速率、当前应用模型的层间推理时间和功耗。

在步骤202处，确定移动终端的当前电量是否低于阈值电量。

在步骤203处，基于所述确定的结果计算当前应用模型的退出点。该步骤203可以通过以下操作来计算退出点：

如果移动终端的当前电量低于阈值电量，则基于移动终端的最低计算功耗为当前应用模型的下一帧计算退出点，并且

如果移动终端的当前电量大于阈值电量，则根据当前应用模型的时延要求、由所述回归模型预测的所需的网络传输速率、层间输出数据的数量和层间推理时间及能耗中的一个或多个，为当前应用模型的下一帧计算退出点。

在步骤204处，将计算出的退出点传输给所述云服务器。

在本方法中，在所述退出点处所述移动终端停止所述当前应用模型的推理并且把所获得的层间输出数据推送到所述云服务器以供所述云服务器执行所述当前应用模型的剩余部分的推理。

可选地，所述方法还包括：在初始运行所述回归模型时，使用测试数据运行所述当前应用模型以获得所述当前应用模型的平均层间推理时间和平均功耗用于所述当前应用模型的第一帧的推理。

可选地，所述方法还包括：向云服务器发送请求以就近原则寻找进行分布式推理的云服务器；以及将寻找到的云服务器的网络环境参数用于所述当前应用模型的第一帧的推理。

可选地，所述方法还包括：从云服务器接收所述当前应用模型的剩余部分的推理结果以完成对当前帧的推理。

可选地，所述方法还包括：重复执行上述操作直到所述当前应用模型的最后一帧。

本专利应用场景十分广泛，可以应用在移动终端进行重载深度学习模型推理或端到端时延要求高的应用，如物体识别、智能视频监控、AR、工业控制和机器人技术。

物体识别：移动终端通过拍摄一个未知内容的图片，并通过AI/ML图像模型识别图片的内容，如宠物的品种；将图像识别模型分成两份，在移动终端运行前部分，边缘/云服务器运行剩余部分得出宠物大标签，然后在边缘/云服务器再进行匹配，然后将识别结果返回给移动终端。为了用户体验，端到端的应用时延可以在1秒内完成。

机器人目标检测：机器人实时拍摄视频，对视频内的物体进行识别，完成用户指令。在机器人进行模型部分的图片推理，边缘/云服务器将进行剩余部分的模型推理，然后根据推理结果和用户指令，返回机器人下一步的动作指令给机器人。

相对现有技术，本发明具有以下优点中的一个或多个：

①根据不同应用模型，线上构建该模型的层间数据输出大小和所需传输速率的回归模型，在移动终端运行该模型，并用测试数据估算模型的层间运行时间和所需功耗，减少决策引擎的计算退出点的计算量。根据实际环境因素，更精准的计算出模型下一帧的退出点。

②当移动终端处于较低电量时，决策引擎直接采用之前计算好的最低功耗模型退出点。

③将决策引擎放置在终端，将实时掌握移动终端环境变化，减少通信传输消耗；在移动终端闲置时间内计算模型下一帧的退出点，合理的规划时隙。

图6示出了能够实现根据本公开一实施例的执行基于模型并行的分布式推理的移动终端1200的示例性配置。

计算设备1200是能够应用本公开的上述方面的硬件设备的实例。计算设备1200可以是被配置为执行处理和/或计算的任何机器。计算设备1200可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或以上组合。

如图6所示，计算设备1200可以包括可以经由一个或多个接口与总线1202连接或通信的一个或多个元件。总线2102可以包括但不限于，工业标准架构(Industry StandardArchitecture，ISA)总线、微通道架构(Micro Channel Architecture，MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。计算设备1200可以包括例如一个或多个处理器1204、一个或多个输入设备1206以及一个或多个输出设备1208。一个或多个处理器1204可以是任何种类的处理器，并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。处理器1202例如可以被配置为实现执行基于模型并行的分布式推理的移动终端。输入设备1206可以是能够向计算设备输入信息的任何类型的输入设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备1208可以是能够呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。

计算设备1200还可以包括或被连接至非暂态存储设备1214，该非暂态存储设备1214可以是任何非暂态的并且可以实现数据存储的存储设备，并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备1200还可以包括随机存取存储器(RAM)1210和只读存储器(ROM)1212。ROM 1212可以以非易失性方式存储待执行的程序、实用程序或进程。RAM 1210可提供易失性数据存储，并存储与计算设备1200的操作相关的指令。计算设备1200还可包括耦接至数据链路1218的网络/总线接口1216。网络/总线接口1216可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统，并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙^TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设施等)。

本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算机程序的任何组合。可以将一个或多个处理器实现为执行本公开中描述的部分或全部功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI，超级LSI或超LSI组件。

本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上，以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如，一个或多个存储器以可执行指令存储软件或算法，并且一个或多个处理器可以关联执行该软件或算法的一组指令，以根据本公开中描述的实施例提供各种功能。

软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令，并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备，例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(PLD)，包括将机器指令作为计算机可读信号来接收的计算机可读介质。

举例来说，计算机可读介质可以包括动态随机存取存储器(DRAM)、随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、紧凑盘只读存储器(CD-ROM)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备，或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的，磁盘或盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘，其中磁盘通常以磁性方式复制数据，而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。

另外，以上描述提供了示例，而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下，可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如，关于某些实施例描述的特征可以在其他实施例中被结合。

Claims

1.一种在移动终端处执行基于模型并行的分布式推理的方法，包括：

下载并运行根据当前应用模型构建的回归模型，所述回归模型用来预测当前应用模型的层间输出数据的数量和将层间输出数据上传给云服务器所需的网络传输速率、当前应用模型的层间推理时间和功耗；

确定移动终端的当前电量是否低于阈值电量；

基于所述确定的结果计算当前应用模型的退出点，所述计算包括：

如果移动终端的当前电量大于阈值电量，则根据当前应用模型的时延要求、由所述回归模型预测的所需的网络传输速率、层间输出数据的数量和层间推理时间及能耗中的一个或多个，为当前应用模型的下一帧计算退出点；以及

将计算出的退出点传输给所述云服务器；

其中，在所述退出点处所述移动终端停止所述当前应用模型的推理并且把所获得的层间输出数据推送到所述云服务器以供所述云服务器执行所述当前应用模型的剩余部分的推理。

2.根据权利要求1所述的方法，还包括：

在初始运行所述回归模型时，使用测试数据运行所述当前应用模型以获得所述当前应用模型的平均层间推理时间和平均功耗用于所述当前应用模型的第一帧的推理。

3.根据权利要求1所述的方法，还包括：

向云服务器发送请求以就近原则寻找进行分布式推理的云服务器；以及

将寻找到的云服务器的网络环境参数用于所述当前应用模型的第一帧的推理。

4.根据权利要求1所述的方法，还包括：

从云服务器接收所述当前应用模型的剩余部分的推理结果以完成对当前帧的推理。

5.根据权利要求4所述的方法，还包括：

重复执行上述操作直到所述当前应用模型的最后一帧。

6.一种移动终端，包括：

存储器，其上存储有指令；以及

处理器，被配置为执行存储在所述存储器上的指令，以执行以根据权利要求1至5中的任一项所述的方法。

7.一种计算机可读存储介质，包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1至5中的任意一项所述的方法。