CN116894469A

CN116894469A - 端边云计算环境中的dnn协同推理加速方法、设备及介质

Info

Publication number: CN116894469A
Application number: CN202311163761.4A
Authority: CN
Inventors: 刘国志; 代飞; 黄苾; 李乐成; 王帅; 巫晓静; 柴新卓; 刘宁; 杨静; 黄宗才; 亓祥宇; 刘露; 强振平
Original assignee: Southwest Forestry University
Current assignee: Southwest Forestry University
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-10-17
Anticipated expiration: 2043-09-11
Also published as: CN116894469B

Abstract

本发明涉及深度学习技术领域，尤其涉及一种端边云计算环境中的DNN协同推理加速方法、设备及介质。根据多分支DNN的层类型和计算平台的计算资源，构建目标时延预测模型；基于目标时延预测模型，预测DNN层的执行时延；获取目标平台当前可用带宽资源和可用计算资源，并将可用带宽资源、可用计算资源、截止时延和网络类型，输入最佳退出点预测模型，预测最佳退出点；根据最佳退出点提取多分支DNN，并确定提取后的多分支DNN中的节点划分结果；根据节点划分结果，将提取后的所述多分支DNN中的各个节点，分配至节点划分结果对应的目标平台，目标平台包括终端设备、云服务器和边缘服务器中的至少一个。解决了如何提高端边云计算环境中的DNN协同推理速度的问题。

Description

端边云计算环境中的DNN协同推理加速方法、设备及介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种端边云计算环境中的DNN协同推理加速方法、设备及介质。

背景技术

受限于终端的算力资源，基于DNN（Deep Neural Network，深度神经网络）开发的应用，通常难以在终端本地单独推理，常用的解决方案是通过协同推理的方式来进行，即将DNN的一部分分配在终端设备上执行，另一部分则分配到云服务器或边缘服务器等上执行，从而加速DNN推理速度。

相关技术方案中通常是针对链式DNN模型来进行到协同推理，对于较为复杂的有向无环图（Directed Acyclic Graph，DAG）式模型，无法在端边云的计算环境中获得最优的协同策略；同时，由于其算法主要采用搜索的方式寻找最佳早期退出点，同样存在较大的时延开销。

专利申请号为“202110895523.7”的专利提出了一种面向边缘智能的云边端DNN协同推理加速方法，试图解决上述问题，但是该方法仅考虑了DAG式模型的计算划分，并未对DNN的最佳退出点进行预测，仍存在算力开销较大的问题。

发明内容

本发明的主要目的在于提供一种端边云计算环境中的DNN协同推理加速方法，旨在解决如何提高端边云计算环境中的DNN协同推理速度的问题。

为实现上述目的，本发明提供的一种端边云计算环境中的DNN协同推理加速的方法，所述方法包括：

根据多分支DNN的层类型和计算平台的计算资源，构建目标时延预测模型；

基于目标时延预测模型，预测DNN层的执行时延；

获取目标平台当前可用带宽资源和可用计算资源，并将可用带宽资源、可用计算资源、截止时延和网络类型，输入最佳退出点预测模型，预测最佳退出点；

根据所述最佳退出点提取所述多分支DNN，并确定提取后的所述多分支DNN中的节点划分结果；

根据所述节点划分结果，将提取后的所述多分支DNN中的各个节点，分配至所述节点划分结果对应的目标平台，所述目标平台包括终端设备、云服务器和边缘服务器中的至少一个。

可选地，所述根据所述最佳退出点提取所述多分支DNN，并确定提取后的所述多分支DNN中的节点划分结果的步骤包括：

将所述多分支DNN构造为多个网络流图，作为第一网络流图集合；

划分所述第一网络流图集合中的各个节点，确定终端节点集合和服务器节点集合；

根据所述终端节点集合确定第一节点划分结果，以及将所述服务器节点集合构造为多个网络流图，作为第二网络流图集合；

划分所述第二网络流图集合中的各个节点，确定云服务器节点集合和边缘服务器节点集合；

根据所述云服务器节点集合和所述边缘服务器节点集合，确定第二节点划分结果。

可选地，所述将所述多分支DNN构造为多个网络流图的步骤包括：

选取所述多分支DNN中的目标DNN，并将所述目标DNN构建为有向无环图；

创建第一虚拟节点和第二虚拟节点；

将所述第一虚拟节点与所述有向无环图中的每一节点相连，得到第一流图边，其中，所述第一流图边的权重，表征为所述有向无环图的每层在边缘服务器上的时延；以及，

将所述第二虚拟节点与所述有向无环图中的每一节点相连，得到第二流图边，其中，所述第二流图边的权重，表征为所述有向无环图的每层在终端服务器上执行的时延；

在所述有向无环图的首节点前增加第三虚拟节点；

将所述第三虚拟节点与所述第一虚拟节点相连，得到第三流图边，其中，所述第三流图边的权重表征为原始数据传输到边缘服务器所产生的传输时延；以及，

将所述第三虚拟节点与所述第二虚拟节点相连，得到第四流图边，其中，所述第四流图边设置为空；以及将所述第三虚拟节点与所述首节点相连，得到第五流图边，其中，所述第五流图边设置为正无穷；

基于所述第一流图边、所述第二流图边，所述第三流图边、所述第四流图边和所述第五流图边和所述有向无环图，确定所述目标DNN对应的所述网络流图；

返回执行所述选取所述多分支DNN中的目标DNN，并将所述目标DNN构建为有向无环图的步骤，直至所述多分支DNN中的每一分支的DNN对应的网络流图构造完毕。

可选地，所述划分所述第一网络流图集合中的各个节点，确定终端节点集合和服务器节点集合的步骤包括：

确定各个所述节点的节点出度；

基于最小割算法，将所述第一网络流图集合中的最小节点出度所构成的集合，确定为所述终端节点集合，并将所述第一网络流图集合中除所述服务器节点集合外的其他节点，确定为所述服务器节点集合。

可选地，所述获取目标平台当前可用带宽资源和可用计算资源，并将可用带宽资源、可用计算资源、截止时延和网络类型，输入最佳退出点预测模型，预测最佳退出点的步骤之前，还包括：

构建早期退出点数据集，其中，所述早期退出点数据集的数据类型包括终端设备和边缘服务器之间的上行带宽、边缘服务器和云服务器之间的上行带宽、终端设备可用计算资源、边缘服务器可用计算资源、云服务器可用计算资源、网络类型和时延要求；

基于所述早期退出点数据集训练初始模型，得到所述最佳退出点预测模型。

可选地，所述根据多分支DNN的层类型和计算平台的计算资源，构建目标时延预测模型的步骤包括：

若所述层类型为卷积层或全连接层，将所述目标时延预测模型构建为第一时延预测模型，其中，所述第一时延预测模型的数据集包括输入数据大小、输出数据大小、输入特征图的大小、输出特征图的大小、平台内存和平台算力；

若所述层类型为激活层或池化层，将所述目标时延预测模型构建为第二时延预测模型，其中，所述第二时延预测模型的数据集包括输入数据大小、输入特征图的大小、平台内存和平台算力。

可选地，所述多分支DNN包括至少两个退出点，其中，每个所述退出点包含一个全连接层。

可选地，所述根据所述节点划分结果，将提取后的所述多分支DNN中的各个节点，分配至所述节点划分结果对应的目标平台的步骤包括：

若所述节点划分结果为第一节点划分结果，将提取后的所述多分支DNN中的终端节点集合分配至所述终端设备；

若所述节点划分结果为第二节点划分结果，将提取后的所述多分支DNN中的云服务器节点集合分配至所述云服务器，以及将提取后的所述多分支DNN中的边缘服务器节点集合分配至所述边缘服务器。

此外，为实现上述目的，本发明还提供一种数据处理设备，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的端边云计算环境中的DNN协同推理加速程序，所述端边云计算环境中的DNN协同推理加速程序被所述处理器执行时实现如上所述的端边云计算环境中的DNN协同推理加速方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有端边云计算环境中的DNN协同推理加速程序，所述端边云计算环境中的DNN协同推理加速程序被处理器执行时实现如上所述的端边云计算环境中的DNN协同推理加速方法的步骤。

本发明实施例提供一种端边云计算环境中的DNN协同推理加速方法、设备及介质，采用轻量级的多分支DNN来减轻模型训练负担；并设计了基于神经网络的时延预测模型，得到最佳退出点来提升预测精度，相较于传统的采用搜索的方式寻找最佳退出点，具有计算代价更小的效果；此外，通过将多分支DNN在的节点按照一定策略划分给终端设备、云服务器或边缘服务器，从而降低了作为本地端的终端设备在深度学习下的计算开销，提升了DNN模型的推理速度。

附图说明

图1为本发明实施例涉及的数据处理设备的硬件架构示意图；

图2为本发明端边云计算环境中的DNN协同推理加速方法的第一实施例的流程示意图；

图3为本发明端边云计算环境中的DNN协同推理加速方法的第二实施例的流程示意图；

图4为本发明实施例涉及的不同层类型和不同计算平台下的时延预测模型收敛性能结果示意图；

图5为本发明实施例涉及的云计算平台各层时延预测模型预测误差结果示意图；

图6为本发明实施例涉及的边缘计算平台各层时延预测模型预测误差结果示意图；

图7为本发明实施例涉及的终端计算平台各层时延预测模型预测误差结果示意图；

图8为本发明实施例涉及的最佳退出点预测模型收敛性能结果示意图；

图9为本发明实施例涉及的最佳退出点预测模型预测误差结果示意图；

图10为本发明实施例涉及的推理时延性能分析结果示意图；

图11为本发明实施例涉及的三种无线网络下本发明提出的方法与其他基线方法比较结果示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图作进一步说明。

具体实施方式

应当理解，本发明的附图中显示了本发明的示例性实施例，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整地传达给本领域的技术人员。

作为一种实现方案，数据处理设备可以如图1所示。

本发明实施例方案涉及的是数据处理设备，所述数据处理设备包括：处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器（non-volatilememory），例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括端边云计算环境中的DNN协同推理加速程序；而处理器101可以用于调用存储器102中存储的端边云计算环境中的DNN协同推理加速程序，并执行以下操作：

基于目标时延预测模型，预测DNN层的执行时延；

在一实施例中，处理器101可以用于调用存储器102中存储的端边云计算环境中的DNN协同推理加速程序，并执行以下操作：

创建第一虚拟节点和第二虚拟节点；

在所述有向无环图的首节点前增加第三虚拟节点；

确定各个所述节点的节点出度；

若所述层类型为卷积层或全连接层，确定所述目标时延预测模型为第一时延预测模型，其中，所述第一时延预测模型的数据集包括输入数据大小、输出数据大小、输入特征图的大小、输出特征图的大小、平台内存和平台算力；

若所述层类型为激活层或池化层，确定所述目标时延预测模型为第二时延预测模型，其中，所述第二时延预测模型的数据集包括输入数据大小、输入特征图的大小、平台内存和平台算力。

基于上述基于深度学习技术的数据处理设备的硬件架构，提出本发明端边云计算环境中的DNN协同推理加速方法的实施例。

参照图2，在第一实施例中，所述端边云计算环境中的DNN协同推理加速方法包括以下步骤：

步骤S10，根据多分支DNN的层类型和计算平台的计算资源，构建目标时延预测模型；

在本实施例中，由于执行时延依赖于计算平台和DNN层的类型，因此分析过程同时考虑计算平台和DNN层的类型。

在本实施例中，端边云计算环境指的是终端、边缘服务器和云服务器三者之间构成的计算环境。环境参数则包括可用带宽资源、可用计算资源、截止时延和网络类型。

可选地，层类型可以包括四种层类型，即卷积层（CONV）、全连接层（FC）、激活层（ACT）和池化层（POOL）。

若层类型为卷积层或全连接层，则目标时延预测模型为第一时延预测模型，其中，所述第一时延预测模型的数据集包括输入数据大小、输出数据大小、输入特征图的大小、输出特征图的大小、平台内存和平台算力。

若层类型为激活层或池化层，则确定目标时延预测模型为第二时延预测模型，由于激活层和池化层的输出数据大小和输出特征图大小分别等于输入数据大小和输入特征图大小，因此只需要考虑输入数据大小和输入特征图大小，因此，第二时延预测模型的数据集包括输入数据大小、输入特征图的大小、平台内存和平台算力。

可选地，为了确保多分支DNN的轻量性，多分支DNN包括至少两个退出点，其中，每个所述退出点包含一个全连接层，用于导出推理结果。

作为一种可选实施方式，上述目标时延预测模型的数据集，可以按照7:2:1的比例划分为训练集、验证集和测试集。

步骤S20，基于目标时延预测模型，预测DNN层的执行时延；

在本实施例中，在根据层类型选择合适的目标时延预测模型后，基于目标时延预测模型，去预测DNN层的执行时延。

在本实施例中，执行时延表征为DNN层在执行操作时系统预测的时长，执行时延用于判断是否小于或等于预设的截止时延；如果小于或等于则将当前的退出点确定为最佳退出点，否则从当前预测的退出点往前迭代更早的推出点。

需要说明的是，本实施例侧重说明如何选用合适的时延预测模型进行预测，而如何预测执行时延则不作为本实施例的阐述重点。

作为一种可选实施方式，目标时延预测模型包含4个全连接层和3个ReLu层的神经网络，其中每个全连接层包含32个神经元。

步骤S30，获取目标平台当前可用带宽资源和可用计算资源，并将可用带宽资源、可用计算资源、截止时延和网络类型，输入最佳退出点预测模型，预测最佳退出点；

在本实施例中，最佳退出点预测模型为预先训练生成的模型，用于预测模型在推断过程中的理论最优退出时刻。

可选地，最佳退出点预测模型的训练所采用的数据集为早期退出点数据集，早期退出点数据集的数据类型包括终端设备和边缘服务器之间的上行带宽、边缘服务器和云服务器之间的上行带宽、终端设备可用计算资源、边缘服务器可用计算资源、云服务器可用计算资源、网络类型和时延要求。

其中，可用带宽资源包括终端设备和边缘服务器之间的上行带宽，以及边缘服务器和云服务器之间的上行带宽。

其中，可用计算资源包括终端设备的可用计算资源、边缘服务器的可用计算资源和云服务器的可用计算资源。

在本实施例中，截止时延指的是目标时延预测模型在训练或操作过程中的最大时间延迟。

可选地，网络类型可以包括AlexNet、VGGNet-16、GoogleNet和ResNet-34等类型。

作为一种可选实施方式，最佳退出点预测模型可以包含6个全连接层和5个ReLu层的神经网络，其中每个全连接层包含32个神经元。

步骤S40，根据所述最佳退出点提取所述多分支DNN，并确定提取后的所述多分支DNN中的节点划分结果；

在本实施例中，根据预估得到的最佳早期退出点，提取分支网络。然后使用自适应的DNN计算任务划分方法得到分支网络的节点划分结果。节点划分结果基于模型推测出的最佳划分策略和最小推理时延来去确定。节点划分结果的具体确定将在后续实施例中详细阐述，此处不再赘述。

在本实施例中，节点划分结果表征为如何将多分支DNN中的部分或全部节点划分给终端、边缘服务器或云服务器。

步骤S50，根据所述节点划分结果，将提取后的所述多分支DNN中的各个节点，分配至所述节点划分结果对应的目标平台，所述目标平台包括终端设备、云服务器和边缘服务器中的至少一个。

在本实施例中，在确定出多分支DNN的节点划分结果之后，根据节点划分结果，将提取后的所述多分支DNN中的各个节点，分配至所述节点划分结果对应的目标平台（也即前文所述的端边云计算环境），包括目标平台包括终端设备、云服务器和边缘服务器中的至少一个。

在本实施例提供的技术方案中，采用轻量级的多分支DNN来减轻模型训练负担；并设计了基于神经网络的时延预测模型，得到最佳退出点来提升预测精度，相较于传统的采用搜索的方式寻找最佳退出点，具有计算代价更小的效果；此外，通过将多分支DNN在的节点按照一定策略划分给终端设备、云服务器或边缘服务器，从而降低了作为本地端的终端设备在深度学习下的计算开销，提升了DNN模型的推理速度。

参照图3，在第二实施例中，基于第一实施例，所述步骤S40包括：

步骤S41，将所述多分支DNN构造为多个网络流图，作为第一网络流图集合；

步骤S42，划分所述第一网络流图集合中的各个节点，确定终端节点集合和服务器节点集合；

步骤S43，根据所述终端节点集合确定第一节点划分结果，以及将所述服务器节点集合构造为多个网络流图，作为第二网络流图集合；

步骤S44，划分所述第二网络流图集合中的各个节点，确定云服务器节点集合和边缘服务器节点集合；

步骤S45，根据所述云服务器节点集合和所述边缘服务器节点集合，确定第二节点划分结果。

在本实施例中，对于节点划分结果的确定，需要先将多分支DNN作一定处理，将每一分支构造出一个网络流图。构造为网络流图的目的在于更好的表示多分支DNN中各个分支之间的关系，从而利于节点划分。

得到第一网络流图集合之后，将第一网络流图集合中的各个节点进行第一次划分，其中，一部分作为终端节点集合，将终端节点集合中的节点作为第一节点划分结果，划分给作为目标平台的终端设备，而剩余的节点作为服务器节点集合，则进行第二次划分，得到云服务器节点集合和边缘服务器节点集合，并将云服务器节点集合和边缘服务器节点集合作为第二节点划分结果，其中，云服务器节点集合中的节点划分给云服务器，边缘服务器节点集合中的节点划分给边缘服务器。

进一步的，在本实施例中，所述步骤S41包括：

步骤S411，选取所述多分支DNN中的目标DNN，并将所述目标DNN构建为有向无环图；

步骤S412，创建第一虚拟节点和第二虚拟节点；

步骤S413，将所述第一虚拟节点与所述有向无环图中的每一节点相连，得到第一流图边，其中，所述第一流图边的权重，表征为所述有向无环图的每层在边缘服务器上的时延；以及，

步骤S414，将所述第二虚拟节点与所述有向无环图中的每一节点相连，得到第二流图边，其中，所述第二流图边的权重，表征为所述有向无环图的每层在终端服务器上执行的时延；

步骤S415，在所述有向无环图的首节点前增加第三虚拟节点；

步骤S416，将所述第三虚拟节点与所述第一虚拟节点相连，得到第三流图边，其中，所述第三流图边的权重表征为原始数据传输到边缘服务器所产生的传输时延；以及，

步骤S417，将所述第三虚拟节点与所述第二虚拟节点相连，得到第四流图边，其中，所述第四流图边设置为空；以及将所述第三虚拟节点与所述首节点相连，得到第五流图边，其中，所述第五流图边设置为正无穷；

步骤S418，基于所述第一流图边、所述第二流图边，所述第三流图边、所述第四流图边和所述第五流图边和所述有向无环图，确定所述目标DNN对应的所述网络流图；

步骤S419，返回执行所述选取所述多分支DNN中的目标DNN，并将所述目标DNN构建为有向无环图的步骤，直至所述多分支DNN中的每一分支的DNN对应的网络流图构造完毕。

可选地，对于如何将所述多分支DNN构造为多个网络流图。引入两个虚拟节点和/>分别代表网络流图中的源点/>和汇点/>，用于辅助最小割算法；将虚拟节点/>和/>中的所有节点相连，这些边的权重为事先使用时延预测模型预估出每层在边缘服务器上执行的时延。同理，将虚拟节点/>与/>中所有节点相连，这些边的权重则表示预先估计的每层在终端设备上执行的时延。

进一步的，对于分支网络中的每条边的权重表示前缀节点输出数据传输到边缘服务器上的传输时延，例如/>，表示位于终端设备的/>的输出数据传输给位于边缘服务器是/>层产生的传输时延。

值得注意的是，分支网络中某些节点存在两个及以上的后继节点，如果以该节点作为划分点，则会计算两次的数据传输时延，不幸的是，现实中后继层（/>和/>）的输入数据都为该前缀节点/>的输出数据，因此只需要考虑一次数据传输时延。因此，本实施例中进一步在前缀节点/>后增加一个虚拟节点/>，以确保正确的DNN划分。此外，将移除/>与后缀节点/>和/>的所有边，随后，将节点/>与/>相连，边的权重表示/>节点输出数据产生的传输时延；将/>节点分别与后缀节点/>和/>相连，边的权重设为/>；

最后，在第一个节点前增加一个虚拟节点/>，随后将/>与虚拟节点/>相连，边的权重表示原始数据传输到边缘服务器所产生的传输时延，并将/>与分别虚拟节点和第一个节点/>相连，边分别设置为0和/>，以便后续的计算。这一步骤的原因在于，当所有层都被卸载到边缘服务器上处理时，需要考虑原始数据传输到边缘服务器的传输时延。

此外，需要说明的是，步骤S43中针对服务器节点集合的网络流图构建，与步骤S41中的构建方式相似，区别在于流图的构建是基于服务器节点集合来进行，此处不再赘述。

进一步的，在本实施例中，所述步骤S42包括：

步骤S421，确定各个所述节点的节点出度；

步骤S422，基于最小割算法，将所述第一网络流图集合中的最小节点出度所构成的集合，确定为所述终端节点集合，并将所述第一网络流图集合中除所述服务器节点集合外的其他节点，确定为所述服务器节点集合。

可选地，对于如何划分多分支DNN中的节点，采用最小割算法节点出度最小的集合即为最佳划分策略，可表示为，得到最佳划分策略后，终端节点集合中所有节点则分配到终端设备上执行，而其他的节点集合则作为第二次划分的输出。

需要说明的是，步骤S44中针对服务器节点集合的第二次划分，与本步骤S42的划分方式相似，区别在于划分是基于服务器节点集合来进行，此处不再赘述。

在本实施例提供的技术方案中，对多分支DNN做两次网络流图的构建，以及两次节点划分，从而降低了作为本地端的终端设备在深度学习下的计算开销，提升了DNN模型的推理速度。

此外，作为一种可选实施方式，下面对本申请技术效果进行实验验证，主要包括四个步骤：

S1、实验设置；

S2、时延预测模型性能分析；

S3、最佳退出点预测模型性能分析；

S4、推理时延性能分析。

所述步骤S1的具体步骤：

S11、端-边-云计算平台配置

本实施例使用树莓派4B作为终端设备。终端平台的详细规格如表1所示。

本实施例使用一台PC作为边缘服务器。边缘平台的详细规格如表2所示。

本实施例使用一台远程云服务器作为云平台。云平台的详细规格如表3所示。

S12、网络配置

在实验中，本实施例考虑了三个无线网络（即4G、5G和Wi-Fi）和一个有线网络。使用SpeedTest 监测终端设备和边缘服务器之间的无线网络性能。同样地，使用SpeedTest监测边缘服务器和云服务器之间的可用有线网络带宽也。由于网络性能偶尔会不稳定，我们在实验中使用平均值。更详细的网络规格显示在表4中。

S13、DNN架构；

本实施例选择了三种具有代表性的神经网络架构（即AlexNet, VGGNet-26，ResNet-34和GoogleNet）作为DNN的智能应用，这些神经网络架构在图像分类领域得到广泛应用。这些DNN架构在数据集Cifar10上训练，并使用python3.9和Pytorch1.10.1实现。

S14、预测模型的基准方法；

为了评估DNN推理加速框架中时延预测模型和退出点预测模型的性能，将本实施例提出的基于神经网络的时延预测模型和退出点预测模型与以下四种方法进行比较：线性回归（LR）、支持向量机（SVM）、K-近邻（KNN）和随机森林（RF）。

本实施例使用平均绝对百分比误差（MAPE）作为衡量标准来评估时延预测模型的预测性能。

MAPE用于测量预测误差。在实验中，该值越小，预测性能越好。

S15、EeFGDP的基准方法；

为了评估本实施例提出的DNN计算划分算法的性能，将本实施例提出的方法在不同无线网络中的与以下分区策略进行比较。

全端推理（End-only）：这是一种本地策略，整个DNN计算都在终端设备上执行。

全边推理（Edge-only）：这是一种边缘策略，整个DNN计算都在边缘服务器上执行。

全云推理（Cloud-only）：这是一种云策略，整个DNN计算都在云服务器上执行。

端-边推理（End-edge）：这是一种端边协同划分策略。具体来说，该策略输出最佳的一个分区点，其中第一个块在终端设备上执行，其余块卸载到边缘服务器执行。

端-云推理（End-cloud）：这是一种端云计算范式。该策略将DNN计算划分为两个块，其中第一个块被分配在终端设备上执行，其余块被卸载到云服务器上执行。

端-边-云-粗粒度（End-edge-cloud-coarse）：这是一种基于粗粒度计算划分的端-边-云协同推理方法。该策略利用枚举的方式学习最佳分区决策。

所述步骤S2的具体步骤：

S21、收敛性能；

在本实施例中，研究了12个时延预测模型的收敛性能。图4显示了四种类型的DNN层分别对应三种计算平台上的时延预测模型的收敛速度和性能。可以直观的看到，这些预测模型在云计算平台、边缘计算平台和终端计算平台上收敛于不同的epoch。其中，在三种计算平台上CONV时延预测模型、FC时延预测模型、POOL时延预测模型和ACT时延预测模型的平均收敛epoch分别为96 epoch、42 epoch、37 epoch和33 epoch。可以看出，ACT时延预测模型收敛速度最快，而CONV时延预测模型收敛速度最慢。这是因为激活层比卷积层具有更少的配置参数。此外，这些时延预测模型的平均测试精度分别是96%、98%、97%和97%。

S22、预测性能比较；

在本实施例中，在三种计算平台（即，终端计算平台、边缘计算平台和云计算平台）上以AlexNet，VGGNet-16、ResNet-34和GoogleNet为DNN模型，通过将本实施例提出的时延方法与四种基线方法进行比较来验证该方法的可行性。如图5、6和7所示，无论在何种计算平台下，本实施例提出的时延预测方法的预测性能始终优于其他四种对比方法（即SVM、LR、KNN和RF）。

从图5可以看出，在云计算平台上，本实施例的时延预测方法与LR、SVM、KNN和RF四种基线方法相比，MAPE平均降低了17.41%（AlexNet、VGGNet-16、ResNet-34和GoogleNet分别降低了20.10%、14.65%、16.53%和18.37%）、11.79%、14.88%和31.77%。

图6展示了本实施例的时延预测方法和其他四种方法在边缘计算平台上的预测精度。图6（a）、图6（b）、图6（c）和图6（d）分别对应四种DNN模型上各层的时延预测结果。更具体地说，在AlexNet、VGGNet-16、ResNet-34和GoogleNet上，本实施例的方法平均降低了86.04%（即，LR、SVM、KNN和RF分别降低了83.15%、88.45%、91.01%和81.55%），86.18%，81.46%，84.52%。

图7显示了本实施例的时延预测方法在终端计算平台上相较于其他四个对比方法的时延预测性能的提升。图7（a）显示，本实施例的方法与四种基线方法相比，AlexNet上各层的预测精度平均提高了约48.39%（即LR、SVM、KNN和RF分别提高了49.09%、29.20%、55.32%和59.95%）。与AlexNet类似，图7（b）显示，ResNet-34方法的MAPE平均降低了约89.88%（即LR、SVM、KNN和RF分别降低了77.99%、95.92%、96.54%和89.45%）。如图7（c）和图7（d）所示，本实施例的方法在ResNet-34和GoogleNet上各层的预测精度分别平均提高了约47.46%，45.25%。

这些结果表明，基线方法并不是最佳的时延预测方法，这是因为基于线性模型的时延预测方法无法很好地学习到与推理时延相关的非线性特征。然而本实施例使用神经网络来有效地从训练数据中捕获复杂的非线性关系。因此，本实施例的时延预测模型具有更好的性能。

所述步骤S3的具体步骤：

S31、收敛性能；

在实验中，本实施例研究了退出点预测模型的收敛性能。图8显示了退出点预测模型的收敛速度和性能。可以直观的看到，退出点预测模型经过210轮后开始收敛。此外，退出点预测模型的平均测试精度为99%。

S32、预测性能比较；

接下来在AlexNet、VGGNet-16、ResNet-34和GoogleNet上验证退出点预测模型的准确性。如图9所示，展示了五种预测方法在四种DNN网络上的预测性能，以平均绝对百分比误差MAPE为评价指标。从图中可以看出，本实施例提出的基于神经网络的退出点预测方法预测性能最佳，4种DNN模型上的平均百分比误差低于0.1（即AlexNet、VGGNet-16、ResNet-34和GoogleNet分别为0.09、0.01、0.07和0.004）。这是因为神经网络能够有效地从训练数据中获取特征变量和退出点之间复杂的非线性关系。

所述步骤4的具体步骤：

S41、性能比较；

如图10所示，本实施例将基线方法分为了单设备推理（全端End-only、全边Edge-only和全云Cloud-only）和协同推理（端-边End-edge、端-云End-cloud和端-边-云-粗粒度End-edge-cloud-coarse）两类，并将EeFGDP分别与两类方法进行性能对比。

本实施例首先将终端设备和边缘服务器之间的上下行带宽设置为36.74Mbps和102.62Mbps，将边缘服务器和云服务之间的上下行带宽分别设置为83.11Mbps和437.11Mbps。如图10（a）所示，本实施例以全端为基准线，展示了四种方法的时延性能的提升，其中本实施例的方法EeFGDP是性能提升最大的。具体来说，EeFGDP相较于全端平均提升了49.77倍（即AlexNet、VGGNet-16、ResNet-34和GoogleNet分别为24.02倍、68.75倍、83.02倍和23.29倍）。这是因为EeFGDP自适应地将DNN计算任务划分为三块，分别分配到终端设备、边缘服务器和云服务器上执行，充分利用了端-边-云计算平台的资源。

如图10（b）所示，本实施例以端-边协同推理为基准线，比较了EeFGDP和其他三种协同推理方法的性能提升。可以值观的看到EeFGDP的时延性能提升是最高的。具体来说，EeFGDP相较于端-边协同推理方法平均提升了4.78倍（即AlexNet、VGGNet-16、ResNet-34和GoogleNet分别为2.56倍、5.83倍、3.48倍和7.26倍）。值得注意的是在链式DNN模型AlexNet和VGGNet-16上，EeFGDP和端-边-云协同推理-粗粒度的时间性能相同，而在DAG式DNN模型上，EeFGDP的时间性能最佳。这是因为链式DNN模型中层为最小划分单位，而DAG式DNN模型中节点为最小的划分单位，因此细粒度以节点为单位划分的方法针对DAG式DNN模型具有更好的性能。

S42、网络变化对推理时延的影响

为了进一步验证EeFGDP的可行性，本实施例在不同的网络类型（即4G、5G和WiFi））下比较了EeFGDP和其他五种基线方法（全边推理、全云推理、端-边协同推理、端-云协同推理和端-边-云协同推理-粗粒度）的性能。同时，将时延要求设置为50ms~100ms。此外，由于全端推理时延只取决于本地执行时延，不受网络的影响，且推理性能最差，因此不参与比较。

图11显示了EeFGDP和其他五种基线方法在三种无线网络下的性能比较。结果显示，就端到端推理时延而言，EeFGDP可以获得更好的性能。具体来说，随着平均上行和下行带宽从4G（即13.77/30.88 Mbps）增加到Wi-Fi（即36.74/102.62 Mbps），在满足时延要求（50ms~100ms）的同时所有方法的推理精度都在提高。以AlexNet为例：4G时退出点为第4退出点，对应的推理精度为77.17，5G和WiFi下为第5退出点，推理精度为81.39。本实施例将基线方法分为三类，并与EeFGDP进行了时延性能比较，具体如下：

首先，本实施例将EeFGDP与两种单一设备推理的基线方法（即Cloud-only和Edge-only)进行比较。具体来说，在4G、5G和Wi-Fi环境下，EeFGDP相较于上述两种基线方法在四种DNN模型（AlexNet、VGGNet-16、ResNet-34和GoogleNet）上平均降低了26.86%，43.31%和46.26%的推理时延。这是因为，上述两种基线方法没有考虑协同计算，DNN计算被整体卸载到边缘服务器或云服务器上执行。

其次，本实施例将EeFGDP与两种具有一个划分点的基线方法进行比较(即，End-edge和End-cloud)。虽然上述两种方法可以通过终端设备与边缘服务器或终端设备与云服务器之间的协同计算来减少端到端时延，但它们的性能不如EeFGDP。这是因为这两种方法都没有充分利用端-边-云计算资源。相反，EeFGDP使用了两点划分机制，DNN计算被划分为三块，其中数据密集型块分配到终端设备执行，混合型块卸载到边缘服务器上执行，剩余的计算密集型块则卸载到云服务器上执行。通过平衡通信时延和执行时延，进一步的加速DNN的推理。以GoogleNet为例，相较于End-edge和End-cloud，EeFGDP分别在4G、5G和Wi-Fi环境中平均降低了约32.02ms、55.12ms和60.02ms的时延。

最后，本实施例将EeFGDP与剩余的End-edge-cloud-coarse方法进行了比较，结果表明在链式DNN上该方法性能与EeFGDP相同，而在DAG式DNN模型上该方法的性能低于EeFGDP。以GoogleNet为例，分别在4G、5G和Wi-Fi环境下EeFGDP相较于End-edge-cloud-coarse方法平均降低了约4.14ms、6.53ms和8.33ms的时延。主要原因是End-edge-cloud-coarse方法采用以层为单位的粗粒度计算划分方法，而DAG式DNN模型中DNN层由多个节点组成，以层为单位进行划分无法寻找到最优的划分策略。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有端边云计算环境中的DNN协同推理加速程序，所述端边云计算环境中的DNN协同推理加速程序被处理器执行时实现如上实施例所述的端边云计算环境中的DNN协同推理加速方法的各个步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术作出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种端边云计算环境中的DNN协同推理加速方法，其特征在于，所述方法包括以下步骤：

基于目标时延预测模型，预测DNN层的执行时延；

2.如权利要求1所述的方法，其特征在于，所述根据所述最佳退出点提取所述多分支DNN，并确定提取后的所述多分支DNN中的节点划分结果的步骤包括：

3.如权利要求2所述的方法，其特征在于，所述将所述多分支DNN构造为多个网络流图的步骤包括：

创建第一虚拟节点和第二虚拟节点；

在所述有向无环图的首节点前增加第三虚拟节点；

4.如权利要求2所述的方法，其特征在于，所述划分所述第一网络流图集合中的各个节点，确定终端节点集合和服务器节点集合的步骤包括：

确定各个所述节点的节点出度；

5.如权利要求1所述的方法，其特征在于，所述获取目标平台当前可用带宽资源和可用计算资源，并将可用带宽资源、可用计算资源、截止时延和网络类型，输入最佳退出点预测模型，预测最佳退出点的步骤之前，还包括：

6.如权利要求1所述的方法，其特征在于，所述根据多分支DNN的层类型和计算平台的计算资源，构建目标时延预测模型的步骤包括：

7.如权利要求1所述的方法，其特征在于，所述多分支DNN包括至少两个退出点，其中，每个所述退出点包含一个全连接层。

8.如权利要求1至7任一项所述的方法，其特征在于，所述根据所述节点划分结果，将提取后的所述多分支DNN中的各个节点，分配至所述节点划分结果对应的目标平台的步骤包括：

9.一种数据处理设备，其特征在于，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的端边云计算环境中的DNN协同推理加速程序，所述端边云计算环境中的DNN协同推理加速程序被所述处理器执行时实现如权利要求1-8中任一项所述的端边云计算环境中的DNN协同推理加速方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有端边云计算环境中的DNN协同推理加速程序，所述端边云计算环境中的DNN协同推理加速程序被处理器执行时实现如权利要求1-8中任一项所述的端边云计算环境中的DNN协同推理加速方法的步骤。