CN115345306A

CN115345306A - 深度神经网络调度方法及调度器

Info

Publication number: CN115345306A
Application number: CN202211123150.2A
Authority: CN
Inventors: 吴家皋; 沈张驰; 刘林峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-11-15

Abstract

本发明提供了一种深度神经网络调度方法及调度器，该方法主要包括：构建边缘智能系统和深度神经网络推理任务模型，边缘智能系统包括多个相互联网的边缘设备，设定各边缘设备的计算能力和各边缘设备之间的网络传输带宽，以及每层神经网络的推理计算量和输出数据量；计算每层神经网络的在每个边缘设备上的运行时间，得到深度神经网络推理的最小运行时间以及对应的最优设备队列；根据得到的最优设备队列，对每层神经网络进行设备分配。相较于现有技术，本发明利用多个边缘设备对深度神经网络的网络层进行多次划分，能有效减少推理时间，具有更广的通用性和更强的适用性。

Description

深度神经网络调度方法及调度器

技术领域

本发明涉及一种深度神经网络调度方法及调度器，属于分布式深度神经网络推理任务模型推理技术领域。

背景技术

作为支持现代智能移动应用的重要技术，深度神经网络(Deep Neural Networks)是目前最为常用的机器学习技术，并日益受到人们的欢迎。由于深度神经网络能够执行高度准确且可靠的推理任务，从而在计算机视觉、语音识别和自然语言处理等领域中得以广泛应用。然而，由于基于深度神经网络的应用程序通常需要大量的推理计算，而当前移动设备处理器的性能并不足以支持这些应用程序的运行。为了应对这一问题，传统做法是借助性能强大的远程服务器对深度神经网络进行训练和评估。然而，这种以云服务器为中心的方法，大量数据需要通过广域网上传到远程服务器，导致移动设备的通信延迟和能耗增高，并给数据中心带来巨大的计算压力。因而，为了缓解以云服务器为中心方法的延迟和能源瓶颈，研究人员利用新兴的边缘计算(Edge Computing)进行深度神经网络推理。具体地说，通过将云能力从网络核心推送到靠近设备的网络边缘，边缘计算实现了低延迟和节能深度神经网络推理，也称作边缘智能(Edge Intelligence)。

而在边缘智能的应用过程中，常出现因神经网络层的划分不合理导致了深度神经网络推理的时间性能负优化的问题。Yiping Kang等提出了一种名为神经外科(Neurosurgeon)的调度器以解决上述问题。但是上述方法仍有一定的局限性，即神经外科调度器对深度神经网络仅能进行一次划分，也只能调度边缘智能系统中的两台设备进行协同推理，从而限制了系统性能的提升。

有鉴于此，确有必要提出一种深度神经网络调度方法及调度器，以解决上述问题。

发明内容

本发明的目的在于提供一种深度神经网络调度方法及调度器，能够有效减少深度神经网络的推理时间。

为实现上述目的，本发明提供了一种深度神经网络调度方法，主要包括以下步骤：

步骤1、构建边缘智能系统和深度神经网络推理任务模型，边缘智能系统包括多个相互联网的边缘设备，设定各边缘设备的计算能力和各边缘设备之间的网络传输带宽，以及每层神经网络的推理计算量和输出数据量；

步骤2、计算每层神经网络的在每个边缘设备上的运行时间，得到深度神经网络推理的最小运行时间以及对应的最优设备队列；

步骤3、根据得到的最优设备队列，对每层神经网络进行设备分配。

作为本发明的进一步改进，在步骤2中，经过深度神经网络优化调度后的最优设备队列为

A＝<A₀，A₁，...，A_L>，

其中，A_l∈[1，N]，l∈[1，L]，表示第l层神经网络推理计算所分配的设备号，A₀∈[1，N]为深度神经网络初始输入数据所存放的设备号；N为边缘设备总数，i，j∈[1，N]，U_i为第i个边缘设备的计算能力，B_ij为边缘设备i到边缘设备j的网络传输带宽；L为深度神经网络推理任务模型的总层数，l∈[1，L]，C_l为第l层神经网络的推理计算量，D_l为第l层的输出数据量。

作为本发明的进一步改进，在步骤2中，深度神经网络推理的最短运行时间为T_opt，最短运行时间T_opt的初始值为0。

作为本发明的进一步改进，步骤2具体包括以下步骤：

步骤21、设置初始神经网络层l＝1；

步骤22、对边缘设备i∈[1，N]，分别计算边缘设备i为第l层神经网络推理的运行设备时，所需要的运行时间t_i；

步骤23、计算A_l，将运行时间最小的边缘设备作为第l层神经网络推理的优化调度设备；

步骤24、计算

获得第l层神经网络推理的最小运行时间；

步骤25、更新

步骤26、更新l＝l+1；若l≤L，跳转至步骤22；否则优化调度完成，跳转至步骤3。

作为本发明的进一步改进，步骤22中，运行时间t_i为：

作为本发明的进一步改进，步骤23中，A_l＝argmin_i∈[1，N]{t_i}。

作为本发明的进一步改进，步骤24中，

作为本发明的进一步改进，在步骤3中，将深度神经网络以网络层为单位进行功能分割，共分为L层神经网络，根据所得到的最优设备队列A，将第l层神经网络分配给边缘设备A_l。

作为本发明的进一步改进，步骤3具体包括以下步骤：

步骤31、边缘设备A₀将神经网络初始输入数据发给边缘设备A₁；

步骤32、边缘设备A₁将接收到的数据作为第1层神经网络的输入，完成第1层神经网络的推理任务，并将第1层神经网络的输出数据发送给边缘设备A₂；

步骤33、以此类推，直到边缘设备A_L完成推理，得到的输出数据即为深度神经网络推理任务模型的最终推理结果。

为实现上述目的，本发明还提供了一种调度器，应用如上所述的深度神经网络调度方法。

本发明的有益效果是：本发明利用多个边缘设备对深度神经网络的网络层进行多次划分，能有效减少推理时间，具有更广的通用性和更强的适用性。

附图说明

图1是本发明深度神经网络调度方法的流程结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

另外，还需要说明的是，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如图1所示，本发明提出了一种基于边缘智能的深度神经网络调度方法及调度器，该调度器可以在移动设备和数据中心之间以神经网络层的粒度自动划分深度神经网络推理的计算任务，以获得最低的延迟或最低移动设备能源损耗，所述调度器应用深度神经网络调度方法，并通过在边缘智能系统中设置多个边缘设备，并能对深度神经网络的网络层进行多次划分，主要包括以下步骤：

以下将对步骤1-步骤3进行详细说明。

在步骤1中，设N为边缘设备总数，对于i，j∈[1，N]，定义U_i为第i个边缘设备的计算能力，以每秒能处理的浮点操作数表示；

B_ij为边缘设备i到边缘设备j的网络传输带宽，以每秒能传输的字节数表示，并令B_ii＝inf，其中inf设为一很大的正数，表示设备本机内网络传输带宽足够大；

L为深度神经网络推理任务模型的总层数，对于l∈[1，L]，定义C_l为第l层神经网络的推理计算量，以浮点操作数表示，D_l为第l层的输出数据量，以字节数表示，并令D₀表示深度神经网络的初始输入数据量。

在步骤2中，设经过深度神经网络优化调度后的最优设备队列为A＝<A₀，A₁，...，A_L>，其中，A_l∈[1，N]，l∈[1，L]，表示第l层神经网络推理计算所分配的设备号，A₀∈[1，N]为深度神经网络初始输入数据所存放的设备号；设优化调度后深度神经网络推理的最短运行时间为T_opt，其初始值为0，则最优设备队列A和最短运行时间T的计算方法如具体包括以下步骤：

步骤21、设置初始神经网络层l＝1；

步骤22、对边缘设备i∈[1，N]，分别计算边缘设备i为第l层神经网络推理的运行设备时，所需要的运行时间t_i：

步骤23、计算A_l＝argmin_i∈[1，N]{t_i}，即将运行时间最小的边缘设备作为第l层神经网络推理的优化调度设备；

步骤24、计算

获得第l层神经网络推理的最小运行时间；

步骤25、更新

在步骤3中，将深度神经网络以网络层为单位进行功能分割，共分为L层神经网络，根据所得到的最优设备队列A，将第l层神经网络分配给边缘设备A_l，则深度神经网络的优化协同推理过程具体如下所示：

为了验证本发明的任务优化调度方法能够有效实现减少时间成本，以下进行具体说明。

设边缘设备总数N＝3，各边缘设备的计算能力(单位：FLOPS)为：U₁＝5.0×10¹¹，U₂＝2.0×10¹¹，U₃＝1.0×10¹¹；

各边缘设备之间的网络传输带宽(单位：B/s)为：B₁₁＝inf，B₁₂＝2.0×10⁹，B₁₃＝5.0×10⁶，B₂₁＝2.0×10⁹，B₂₂＝inf，B₂₃＝1.0×10⁸，B₃₁＝5.0×10⁶，B₃₂＝1.0×10⁸，B₃₃＝inf，且令inf＝1.0×10⁵⁰为一很大的正数。

设深度神经网络推理任务模型的总层数L＝4，各神经网络层的推理计算量(单位：FLOP)为：C₁＝2.0×10⁸，C₂＝9.0×10⁸，C₃＝5.0×10⁸，C₄＝3.0×10⁸；

各神经网络层的输出数据量(单位：Byte)为：D₁＝1.2×10⁵，D₂＝3.0×10⁴，D₃＝3.0×10³，D₄＝5.0×10²，且令该深度神经网络的初始输入数据量D₀＝1.5×10⁵，初始输入数据所存放的边缘设备号A₀＝3。

计算第1层神经网络推理任务在各设备上所需要的运行时间：

计算得到使第1层神经网络推理运行时间最小的边缘设备号A₁＝3，第1层神经网络推理的最小运行时间

赋值优化调度后深度神经网络推理的最短运行时间

同理可得，使第2层神经网络推理运行时间最小的边缘设备号A₂＝2，第2层神经网络推理的最小运行时间

赋值优化调度后深度神经网络推理的最短运行时间

使第3层神经网络推理运行时间最小的边缘设备号A₃＝1，第3层神经网络推理的最小运行时间

赋值优化调度后深度神经网络推理的最短运行时间

使第4层神经网络推理运行时间最小的边缘设备号A₄＝1，第4层神经网络推理的最小运行时间

赋值优化调度后深度神经网络推理的最短运行时间

由上，将深度神经网络以网络层为单位分割成4层神经网络，根据得到的最优设备队列A＝<3，3，2，1，1>，将第1层神经网络分配给边缘设备3，第2层神经网络分配给边缘设备2，第3、4层神经网络分配给边缘设备1。

则深度神经网络的优化协同推理运行过程为：边缘设备3将神经网络初始输入数据作为第1层神经网络的输入以完成第1层神经网络的推理任务，完成后将输出数据发送给边缘设备2；边缘设备2将接收到的数据作为第2层神经网络的输入，完成第2层神经网络的推理任务，并将第2层神经网络的输出数据发送给边缘设备1；边缘设备1将接收到的数据作为第3层神经网络的输入，依序完成第3、4层深度神经网络推理，第4层的输出数据即为深度神经网络推理任务模型的最终推理结果。

综上所述，本发明考虑了边缘智能系统中多个边缘设备，并能对深度神经网络的网络层进行多次划分，相较于现有方法，能够有效减少深度神经网络的推理时间；其次，本发明从实际边缘智能应用的角度出发，构建边缘智能系统和深度神经网络推理任务模型，具有更广的通用性和更强的适用性。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。