CN115169561A

CN115169561A - 一种用于物联网的多分支网络协同推理方法及系统

Info

Publication number: CN115169561A
Application number: CN202210526569.6A
Authority: CN
Inventors: 周悦芝; 梁志伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-10-11
Also published as: WO2023221266A1

Abstract

本公开提出一种用于物联网的多分支网络协同推理方法及系统，属于物联网设备的计算机视觉算法加速领域。其中，所述方法包括：在物联网设备上将待预测样本输入预设的多分支网络的第一个分支，获得对应的初始预测结果和不确信度；根据所述不确信度，在预设的所述多分支网络的分发方案中获取所述样本对应的输出分支；根据预设的多分支网络的模型划分方案，利用所述输出分支得到所述样本的最终预测结果；所述模型划分方案包括所述多分支网络各分支在所述物联网设备和对应服务器上的层次计算分配结果。本公开可实现按需调整的多分支网络协同推理，解决跨设备服务器间进行分布式多分支网络推理的挑战，保证物联网设备在高度动态的环境中稳定地提供服务。

Description

一种用于物联网的多分支网络协同推理方法及系统

技术领域

本公开属于物联网设备的计算机视觉算法加速领域，具体涉及一种用于物联网的多分支网络协同推理方法及系统。

背景技术

随着计算和存储设备的激增，从云数据中心的服务器集群到个人电脑和智能手机，再到可穿戴设备和其他物联网设备，现在处于一个以信息为中心的时代，在这个时代，计算无处不在，计算服务从云服务器逐渐转移到物联网设备上。然而，现有物联网设备孱弱的计算能力使其难以处理设备产生的数据：1)大量计算任务需要交付给服务器进行处理，这无疑对网络的通信能力和服务器的计算能力提出了严峻挑战；2)许多新类型的应用程序，例如合作式自动驾驶和智能工厂的故障检测，都有严格的延迟要求，而服务器可能离用户很远，因此很难满足这些要求。所以如何让物联网设备在本地完成DNN(深度神经网络) 模型的处理是个挑战，有助于缓解数据增长带来的压力。

为了解决物联网设备执行计算机视觉模型的问题，现有解决方案包括服务器执行和设备执行两种方案。在以云服务器为中心的解决方案中，物联网设备上收集的数据通过互联网发送到云服务器，使用服务器上的加速器完成推理任务，然后设备接受服务器返回的结果。然而随着物联网设备能力的增强，设备采集的的图像数据分辨率逐渐变高，而且视频的帧率也在变高。而且服务器作为中心，往往需要处理来自多个设备的数据，传输原始数据会给服务器和网络带来较大的通信和计算压力。而边缘计算的主要思想是将任务从云服务器和物联网设备迁移到网络边缘的服务器，可以减少互联网波动带来的影响，减轻对互联网的压力，让设备实时性地响应图像处理需求。但是边缘计算仍然会受到网络波动性的影响，网络的恶化会对推理任务的卸载造成严重影响。

DNN模型在物联网设备上的现状部署过程包括两个模型的维护：一个是服务器的大型高精度模型，另一个是设备上的小型低精度模型。然而，这种方法带来了巨大的部署开销。首先，从开发时间的角度来看，双模型方法需要训练两个模型，导致需要两个时间和资源昂贵的阶段。在第一阶段，大型模型的设计和训练需要多个GPU运行很久。在第二阶段，通过各种技术对大型模型进行压缩，以获得其轻量级的对应模型，而选择和调整压缩方法本身就是一项困难的任务。此外，为了恢复由于压缩而导致的精度损失，必须通过一些额外的训练步骤对轻量级模型进行微调。

而与设备执行和服务器执行相比，协同推理可以实现低延迟的推理任务，但仍然难以满足某些场景中的实时要求，而且无法适应吞吐量的动态变化。原因在于协同推理的效率高度依赖于服务器和物联网设备之间的可用带宽。因为通信延时占据了整个推理时间的大部分时间，在网络不可用时会造成灾难性的后果。在一些交通流量监控系统中，车辆数量与时间存在相关性，早晚高峰的流量远大于深夜的车辆，这就意味着设备需要处理的数据会根据时间变化，要求物联网设备能实时性地处理完数据。

发明内容

本公开的目的是克服已有技术的不足之处，提出了一种用于物联网的多分支网络协同推理方法及系统。本公开可实现按需调整的多分支网络协同推理，解决了跨设备服务器间进行分布式多分支网络推理的挑战，保证物联网设备在高度动态的环境中稳定地提供服务。

本公开第一方面实施例提出一种用于物联网的多分支网络协同推理方法，包括：

在物联网设备上将待预测样本输入预设的多分支网络的第一个分支，获得对应的初始预测结果和不确信度；

根据所述不确信度，在预设的所述多分支网络的分发方案中获取所述样本对应的输出分支；

根据预设的所述多分支网络的模型划分方案，利用所述输出分支得到所述样本的最终预测结果；所述模型划分方案包括所述多分支网络各分支在所述物联网设备和对应服务器上的层次计算分配结果。

在本公开的一个具体实施例中，所述根据预设的所述多分支网络的模型划分方案，利用所述输出分支得到所述样本的最终预测结果，包括：

1)若所述样本对应的输出分支为所述第一分支，则将所述初始预测结果作为所述样本的最终预测结果；

2)若所述样本对应的输出分支不是所述第一分支，则按如下方式获取所述最终预测结果：

2-1)若所述样本对应输出分支的的层次均被划分至所述物联网设备，则在所述物联网设备上利用所述输出分支计算得到所述最终预测结果；

2-2)若所述样本对应输出分支中所有层次均被划分至所述服务器，则在所述服务器上利用所述输出分支计算得到所述最终预测结果并返回至所述物联网设备；

2-3)若所述样本对应输出分支的层次被所述物联网设备和所述服务器分别划分，则先经过所述分支在所述物联网设备划分的层次得到中间结果并发送至所述服务器，然后将所述中间结果经过所述分支在所述服务器划分的层次得到所述最终预测结果并返回至物联网设备。

在本公开的一个具体实施例中，所述方法还包括：

所述初始预测结果包括所述样本经由所述第一分支输出的对应各预测类别的概率，将所述概率的最大值减去所述概率的第二最大值即为所述样本的不确信度。

在本公开的一个具体实施例中，所述模型划分方案由所述多分支网络的各分支的模型划分点组成，所述模型划分点使得所述分支的推理时间最小化。

在本公开的一个具体实施例中，所述方法还包括：

若所述样本对应的输出分支不是所述第一分支，则利用所述第一分支包含的所述多分支网络的主干部分的输出结果在所述输出分支继续计算以得到所述最终预测结果。

在本公开的一个具体实施例中，所述多分支网络的分发方案确定方法如下：

1)利用所述多分支网络，计算预设的评估集中每个样本的不确信度，确定所述评估集的不确信度分布；所述评估集包含多个样本及对应的分类结果；

2)根据所述评估集的不确信度分布，将所述评估集所有样本平均划分为M组，以得到不确信度级别划分结果，其中M为预设的不确信度级别总数；

3)确定初始分发方案，所述初始分发方案中所述评估集中每个不确信度级别的样本对应的当前输出分支均为所述多分支网络的第一个分支；

4)令每个不确信度级别对应的当前候选分支为当前输出分支的下一个分支；

5)利用所述评估集，对每个不确信度级别，计算当前候选分支对应的加速比，所述加速比为采用所述当前候选分支相比所述当前输出分支带来的预测精度增加量与采用所述当前候选分支相比所述当前输出分支带来的推理时间增加量之比；

6)在所有当前候选分支中选择加速比最大值对应的不确信度级别，将所述不确信度级别的当前候选分支作为所述不确信度级别新的当前输出分支，得到更新后的当前分发方案；更新所述不确信度级别的当前候选分支，得到更新后的候选分支集合；

7)重复步骤5)至6)，直至所述候选分支集合中所有当前候选分支达到设定的目标需求，则将所述当前分发方案作为所述多分支网络的最终分发方案。

在本公开的一个具体实施例中，所述模型划分方案确定方法如下：

1)使用指数滑动平均方法更新网络带宽，表达式如下：

Band＝(1-α)*Band+α*B_runtime

其中，Band为网络带宽，B_runtime为实时网络带宽；a为超参数，0≤a≤1；

2)确定多分支网络模型划分的优化目标：

其中，T代表多分支网络的平均推理时间，

代表第m个分支的推理时间，p_m代表第m个分支被选择的概率；

3)确定每个分支的模型划分点，得到多分支网络的模型划分方案；

对于任一分支，模型划分点的确定方法如下：

3-1)建立该分支对应的有向无环图；

将任一分支作为一个DNN模型，建立该DNN模型对应的有向无环图G＝(V,E)；其中V代表图G中的节点集合，每个节点为图G对应DNN模型中的一层；E代表图G中的边集合，每条边为图G对应DNN模型中的一条链接；

令链接l_ij＝(a_i,a_j)代表节点a_i的输出是节点a_j的输入，d_i代表节点a_i的输出数据大小，则链接l_ij＝(a_i,a_j)的网络传输时间

将集合V划分为两个不相交的子集V_device和V_edge，其中V_device代表在物联网设备上执行的节点子集，V_edge代表在服务器上执行的节点子集；令L代表两个子集间链接的集合，即模型划分点，则协同推理的总延迟为在设备上执行子集V_device的总执行时间

和在服务器上执行子集V_edge的总执行时间

之和，其中，

为节点a_i对应层在物联网设备上的执行时间，

为节点a_i对应层在服务器上的执行时间；模型划分点L的总数据传输数据之和

则：

3-2)在图G中增加两个虚拟节点d和e；其中d代表物联网设备,是源节点；e代表边缘服务器节点，是目的节点；在图G中增加新的边，使得图中每个边分别对应一个延迟，所述延迟包括网络传输时间、在物联网设备上的执行时间、在边缘服务器上的执行时间；构造完毕后，得到新的有向无环图记为

3-3)求取图

的源节点d到目的节点e之间的最小割，将所述最小割作为该分支的模型划分点；以所述割为界，在图

中与源节点同侧的节点被划分在所述物联网设备上执行计算，与目的节点同侧的节点被划分在所述服务器上执行计算。

本公开第二方面实施例提出一种用于物联网的多分支网络协同推理系统，包括：

初始预测模块，布置在物联网设备上，用于将待预测样本输入预设的多分支网络的第一个分支，获得对应的初始预测结果和不确信度；

输出分支确定模块，用于根据所述不确信度，在预设的所述多分支网络的分发方案中获取所述样本对应的输出分支；

协同推理模块，用于根据预设的所述多分支网络的模型划分方案，利用所述输出分支得到所述样本的最终预测结果；所述模型划分方案包括所述多分支网络各分支在所述物联网设备和对应服务器上的层次计算分配结果。

本公开第三方面实施例提出一种电子设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述一种用于物联网的多分支网络协同推理方法。

本公开第四方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述一种用于物联网的多分支网络协同推理方法。

本公开的特点及有益效果在于：

1)本公开解决了跨设备服务器间进行分布式多分支网络推理的挑战，可在在高度动态的环境中支持复杂的性能目标，同时保证物联网设备稳定地提供服务。

2)本公开解决了多分支网络的模型划分问题，将多分支网络的统一模型划分方案优化为寻找单一分支的模型划分方案，得到更为合理的模型划分方案。

3)本公开提出了一种根据目标需求和网络带宽变化而自适应调整的方法，可以根据当前状态自适应地调整多分支网络的模型划分方案和分发方案，以增强物联网设备的服务体验，以维持其在边缘计算环境中的性能。本公开可以实时地根据网络带宽条件确定最优的协同推理方案，无需消耗过多计算资源。

附图说明

图1是本公开一个具体实施例中多分支网络的结构示意图。

图2是本公开一个具体实施例中一种用于物联网的多分支网络协同推理方法的整体流程图。

图3是本公开一个具体实施例中模型划分方案的按需调整算法的工作流程图。

图4是本公开一个具体实施例中DNN模型的示意图。

图5是本公开一个具体实施例中在更新后的有向无环图中求最小ST割的原理示意图。

具体实施方式

本公开实施例提出一种用于物联网的多分支网络协同推理方法及系统，下面结合附图和具体实施例进一步详细说明如下。

在本公开的一个具体实施例中，所述多分支网络结构如图1所示，该多分支网络的主干部分包括依次连接的5层，其中节点v₁，v₂，v₃，v₄，v₅分别代表多分支网络主干部分的各层，节点b₁，b₂，b₃，b₄则分别代表从v₁，v₂，v₃，v₄层延伸出的分支，实线代表数据的流动过程，节点(v₁，b₁)构成该多分支网络的第一个分支，即所述多分支网络的基础部分。其余分支组成多分支网络的剩余部分，包括：节点(v₁，v₂，b₂)构成的第二个分支，节点(v₁，v₂，v₃，b₃)构成的第三个分支，节点(v₁，v₂，v₃，v₄，b₄) 构成的第四个分支，节点(v₁，v₂，v₃，v₄，v₅)构成第五个分支。

本公开一个具体实施例提出一种用于物联网的多分支网络协同推理方法，整体流程如图2所示，包括以下步骤：

1)将待预测样本输入预设的多分支网络的第一个分支，获得对应的初始预测结果和不确信度。其中，所述第一个分支部署在物联网设备上。

在本公开的一些具体实施例中，所述待预测样本包括：用来进行图像分类、目标检测等任务的图片或视频帧等。

在本公开的一些具体实施例中，所述初始预测结果包括所述样本经由所述第一分支输出的对应各预测类别的概率，将所述概率的最大值减去所述概率的第二最大值即为所述样本的不确信度。

2)确定所述不确信度，在预设的多分支网络的分发方案中获取所述待预测样本的在所述多分支网络对应的输出分支。

所述多分支网络的分发方案即确定每个不确信度级别对应的输出分支，所述输出分支可以是第一个分支，即不再使用剩余分支，本公开一个具体实施中，若输出分支为第一个分支，则直接选取分支b₁的预测结果作为输入样本的最终分类结果。

所述多分支网络的分发方案在所述多分支网络训练完毕后确定，在本公开一个具体实施例中，具体步骤如下：

2-1)利用所述多分支网络，计算预设的评估集中每个样本的不确信度，确定评估集的不确信度分布。

其中，所述评估集包含多个样本及其分类结果。

具体地，利用评估集经过多分支网络第一个分支(即距离多分支网络输入最近的分支，本实施例中为分支b₁)得到的初始预测结果，计算评估集所有样本的初始不确信度分布。

本公开的一个具体实施例中，对于评估集的任一样本，假设分支b₁的输出为 y＝(y₁,y₂,…,y₁₀)，其中y_i代表预测样本为第i类的概率。则最后输出的每个类别概率

为：

其中，T为超参数，可通过启发式方法确定，使不确信度分布接近于均匀分布，在本公开一个具体实施例例中，T＝1.5。

该样本的不确信度由最终输出

确定，表达式如下：

即

中最大值

减去

中第二大值

的差值即为该样本的不确信度。

2-2)划分不确信度级别。

由步骤2-1)得到的不确信度分布，根据评估集每个样本的不确信度将评估集样本平均划分为M份，以确定不确信度的M个级别，其中M为一个可调参数，M越大，不确信度划分越细粒度，但是计算会更复杂，对评估集样本数量要求也更高。

在该本公开一个具体实施例中M＝10，且不同级别的分类边界是[0.000，0.058，0.130， 0.223，0.343，0.480，0.625，0.777，0.894，0.966，1]。不确信度接近于0的为困难样本，不确信度接近于1的为简单样本。然后根据分类边界将评估集划分为10组样本集，测试不同不确信度级别的样本集在每个分支的精度和每个分支的推理延迟，其中精度即每个样本集由各个分支进行输出的平均预测准确率，推理延迟即每个样本集由各个分支进行输出的平均执行时间。

2-3)分发方案初始化。

根据不确信度级别划分结果，令评估集中所有不确信度级别的样本初始时均从第一个分支输出，本公开一个具体实施例中初始的分发方案为[1，1，1，1，1，1，1，1，1，1]，即被划分成10个不确信度级别的评估集样本均选择分支b₁输出对应的图片预测结果。

令每个不确信度级别对应的当前候选分支为当前输出分支的下一个分支，本公开一个具体实施例中每个不确信度级别的初始候选分支为分支b₂，初始的候选分支集合为[2，2， 2，2，2，2，2，2，2，2]。

对于每个不确信度级别，计算当前候选分支对应的加速比，所述加速比为采用当前候选分支相比当前输出分支带来的精度增加量与采用当前候选分支相比当前输出分支带来的推理时间增加量之比，表达式为：

其中，Δ_acc＝NewBranch_acc-OldBranch_acc表示当前候选分支替换当前输出分支所带来的预测精度增加量；NewBranch_acc为当前候选分支对应的预测精度，OldBranch_acc为当前输出分支对应的预测精度；

Δ_time＝NewBranch_time-OldBranch_time表示当前候选分支替换当前输出分支所带来的推理时间增加量；NewBranch_time为当前候选分支对应的推理时间，OldBranch_time为当前输出分支对应的推理时间；

2-4)分发方案的更新。

在所有当前候选分支中选择加速比最大值对应的不确信度级别，将该不确信度级别的当前候选分支作为该不确信度级别新的当前输出分支，得到更新后的当前分发方案；然后更新该不确信度级别的候选分支为当前输出分支的下一个分支，得到更新后的候选分支集合；利用更新后当前分发方案和候选分支集合，计算每个不确信度级别更新后的加速比。

本公开的一个具体实施例中，第一次更新后加速比最大的候选分支对应第一个不确信度级别，则当前分发方案更新为[2，1，1，1，1，1，1，1，1，1]，候选分支集合更新为[3,2,2,2,2,2,2,2,2,2]。第一个不确信度级别对应的候选分支的加速比更新为第一个不确信度级别样本在分支3相对比分支2带来的精度提升与推理延迟增加的比例。

2-5)利用DSGA算法(分发方案生成算法)得到每个不确信度级别对应的最终输出分支，构成所述多分支网络的最终分发方案。

需要说明的是，本实施例提出的DSGA算法的核心概念是每一次更新当前分发方案都贪婪地选择加速比最大的候选分支，直到候选分支集合中所有的当前候选分支都不会带来精度提升或者当前分发方案已经满足目标精度。

需要说明的是，多分支网络通过将在模型的浅层插入辅助分类器来加速推理的过程，可以提升物联网设备运行DNN模型的体验。将模型划分和多分支网络结合可以进行通信和计算之间的权衡，但是多分支网络的特殊性使得对其进行模型划分比对传统模型划分更难。在多分支网络中，样本的执行情况依赖于样本的不确信度，简单样本可以在第一个分支退出，困难样本则需要在深层分支退出。在多分支网络的推理过程中，由第一个分支计算出输入样本的不确信度和初始预测信息。然后由多分支网络的分发方案决定后续输出分支。比如样本可以在第三个分支输出，也可以在第五个分支退出。深层分支的精度要高于浅层分支，调整多分支网络的分发方案，可以获得平均推理延迟和精度不同的多分支网络。

进一步地，本实施例还可根据目标需求(精度需求或吞吐量需求)、当前物联网设备和服务器负载水平、当前网络带宽大小，动态调整多分支网络的分发方案，即通过调整在不同分支输出样本占全部样本的比例来满足不同的目标需求。

3)根据所述多分支网络的分发方案多分支网络的分发方案多分支网络的分发方案的模型划分方案，利用所述输出分支得到待预测样本的最终预测结果。

本公开一个具体实施例中，具体步骤如下：

3-1)获取所述多分支网络的模型划分方案，所述模型划分方案包括多分支网络每个分支在物联网设备和边缘服务器上的层次处理分配结果。

3-2)根据所述待预测样本的对应的输出分支，利用所述模型划分方案得到所述待预测样本的最终预测结果。具体如下：

3-2-1)若所述样本对应的输出分支为第一分支，则该样本不需要继续处理，将步骤1) 得到的初始预测结果作为该样本的最终预测结果，由物联网设备直接输出。

3-2-2)若所述样本对应的输出分支不是第一分支，则不再使用第一个分支的预测结果，根据模型划分方案，从该样本对应的输出分支得到该样本的预测结果。其中，在后续处理时，可直接使用步骤1)时从第一个分支中节点v₁的计算结果进行后续处理以提升计算效率。

在本公开的一个具体实施例中，处理方法如下：

3-2-2-1)若在模型划分方案中，所述样本对应输出分支的所有层次都被划分给物联网设备处理，则在物联网设备上直接利用对应分支计算所述样本的最终预测结果。

在本公开一个具体实施例中，比如分支2对应的模型划分点在该分支最后一层之后，即该分支所有层都被分配到物联网设备上，则在物联网设备上，使用节点v₁的输出，由节点v₂和b₂继续推理，得到输入图像的最终预测结果。

3-2-2-2)若在模型划分方案中，所述样本对应输出分支中所有层次都被划分至边缘服务器，则由边缘服务器利用对应分支计算所述样本的最终预测结果，其中边缘服务器的输入为第一个分支包含的多分支网络的主干部分的输出结果。

在本公开一个具体实施例中，比如分支5对应的模型划分点在该分支最后一层之后，即该分支所有层都被分配到边缘服务器，所有未处理层都需要边缘服务器来完成推理任务， (其中，v1的结果可以复用，因此v1不需要在服务器上再次执行了)，所以将节点v₁的输出通过wifi发送到边缘服务器，由节点(v₂，v₃，v₄，v₅)继续推理，将输入图像的最终预测结果通过wifi返回给物联网设备。

3-2-2-3)若在模型划分方案中，所述样本对应输出分支在物联网设备和边缘服务器各自划分了一部分，则先经过该分支在物联网设备划分的部分得到中间结果并发送给边缘服务器，然后再经过该分支在边缘服务器划分的部分得到所述样本的最终预测结果，并返回至物联网设备，其中该分支在物联网设备划分的部分的输入为第一个分支包含的多分支网络的主干部分的输出结果。

在本公开的一个具体实施例中，比如第四个分支对应的模型划分点在节点v₂和v₃之间。所以先由部署在物联网设备上的节点v₂处理节点v₁的输出，然后将节点v₂的输出通过 wifi发送到边缘服务器，由节点(v₃，v₄，b₄)继续推理得到输入图像的最终预测结果，然后将最终预测结果通过wifi返回给物联网设备。

进一步地，所述多分支网络的模型划分方案实现方法如下：

在本公开的一个具体实施例中，考虑到协同推理过程中网络带宽的波动和物联网设备、边缘服务器的负载波动，提出一种模型划分方案的按需调整算法，整体流程如图3所示，所述按需调整算法每隔固定时间或者检测到网络波动运行一次，具体步骤如下：

3-1-1)使用EMA(指数滑动平均)方法更新网络带宽，表达式如下：

Band＝(1-α)*Band+α*B_runtime

其中，Band为用来计算网络传输时间的网络带宽，B_runtime为实时网络带宽；a为EMA方法设定的超参数，0≤a≤1；在本公开一个具体实施例中，a＝0.1。

3-1-2)确定多分支网络模型划分的优化目标：

本实施例中，该优化目标单独考虑每个分支的最优模型划分点，消除分支被选择概率的影响。其中，T代表多分支网络的平均推理时间，

代表第m个分支的推理时间，p_m代表第m个分支被选择的概率。

3-1-3)确定每个分支的模型划分点，得到多分支网络的模型划分方案。

本实施例中，对于任一分支，模型划分点的确定方法如下：

3-1-3-1)建立该分支对应的有向无环图。

需要说明的是，本实施例中所有分支均可视为一个单独的DNN模型，因此本实施例的模型划分方法也适用于传统DNN模型。在本公开一个具体实施例中，以图4所示的多分支网络作为例子来描述DNN模型划分方法。

将任一分支子网络作为独立的DNNN模型，建立该DNN模型对应的DAG图(有向无环图)G＝(V,E)。在该实施例中，其中V＝(a₁,a₂,a₃,a₄,a₅)代表图G中的节点集合，每个节点为图G对应DNN模型中的一层。E代表图G中的边集合，每条边为图G对应DNN模型中的一条链接，每条边反映数据的流通方向，任一链接l_ij＝(a_i,a_j)代表节点a_i的输出是节点a_j的输入。而d_i代表节点a_i的输出数据大小，Band代表网络带宽大小，

则是链接 l_ij＝(a_i,a_j)的网络传输时间。

模型划分即需要将图G中的节点划分为两个不相交的子集V_device和V_edge，两者之和为 V。其中V_device代表在物联网设备上执行的节点子集，V_edge代表在边缘服务器上执行的节点子集，而L代表两个子集间链接的集合，即模型划分点(图4中虚线部分)。在设备上执行子集V_device的总执行时间

为a_i层在物联网设备上的执行时间。在边缘服务器上执行子集V_edge的总执行时间

为a_i层在边缘服务器上的执行时间。模型划分点L的总数据传输时间之和

协同推理的总延迟为三者之和，则对于任一分支子网络的优化目标为：

3-1-3-2)基于原图G构造新图

本实施例中，将网络划分问题转化为等效的DAG图的最小ST割问题。基于原图G构造一个新图

新图中的每个边对应步骤3-1-3-1)中的一个延迟，所述延迟包括步骤 3-1-3-1)中的数据传输时间、在物联网设备上的执行时间、在边缘服务器上的执行时间。

在本公开的一个具体实施例中，更新后的有向无环图如图5所示，在图G中加入两个虚拟节点d和e，其中d代表物联网设备,是源节点；e代表边缘服务器，是目的节点。图

的最小st割即在节点d和节点e之间寻找到一个划分点(图5中虚线)，使得与该虚线相连链接权重之和最小。原图G中的节点与虚拟节点的链接用来代表该层在物联网设备和边缘服务器上的执行时间。值得注意的是，与节点e连接的线代表G中该节点对应层在物联网设备上执行时间，比如链接l_1e＝(a₁,e)的权重是节点a₁在物联网设备上的执行时间

但是有的节点存在多个后继节点，比如节点a₁存在两个节点a₂和a₃，这样会面临通信延迟被重复计算的问题。按照图5中的划分方式，节点a₁的输出数据其实只需要被传输一次，通信延迟也应该只计算一次，所以本公开将对应链接的权重更新为前向节点的通信延迟的出度分之一。比如，节点a₁的出度为2，以节点a₁为前向节点的链接l₁₂＝(a₁,a₂)和l₁₃＝(a₁,a₃)的权重为

该更新基于一个现实，即拥有同一个前向节点的链接会同时与划分点的虚线想连，不会发生部分相连的情况。假设节点a₁和a₃在设备上执行，a₁的输出数据还是需要被传输到服务器上。所以链接l₁₂＝(a₁,a₂)对应的权重就会不匹配，但是这种情况是不可能发生的。因为此时将节点a₃放到服务器上推理时间会更快，服务器处理节点的速度显著的快于物联网设备，这意味着，一旦一个节点的数据被发送到服务器上，其所有后继节点放在服务器上执行，推理时间更短。

3-1-3-3)求新图

的源节点d到目的节点e之间的最小割，割对应就是模型划分点。以割为界，在新图

中与源节点同侧的DNN模型节点被划分在在物联网设备上执行计算，与目的节点同侧的DNN模型节点被划分在服务器上执行计算。

需要说明的是，模型划分是将将模型划分为两部分，一部分部署在物联网设备上，另一部分部署在服务器上。在模型划分方案中，一次推理时间由计算时间和通信时间组成。其中通信时间与传输数据大小和网络带宽有关，而一般DNN模型中间层的输出数据少于原始数据，即从中间层发送数据带来的通信延迟小于发送原始数据带来的延迟。由设备执行部分层带来的另一个优势就是减轻服务器的压力，使服务器可以服务更多的物联网设备。模型划分也可以解决隐私泄露的问题，直接发送原始数据容易造成隐私泄露，而中间数据经过模型的加工已经对数据做了一次加密，减少了网络传输中信息泄露的可能。

对所有分支求取模型划分点后，得到多分支网络的分发方案。

进一步地，本实施例还包括：

3-1-4)根据目标需求更新多分支网络的分发方案。

预估多分支网络中每个分支的协同推理时间，然后更新多分支网络的分发方案。根据实际应用场景，存在两种目标需求，吞吐量需求和精度需求。其中，精度需求要求多分支网络的精度不小于目标需求，吞吐量需求要求多分支网络可以在规定时间内处理一定数量的样本。多分支网络中深层分支相比浅层分支推理时间更长，但是对应的精度更高。

3-1-4-1)如果当前目标需求为精度需求，但当前分发方案的精度低于目标精度需求，则更新多分支网络的分发方案以提高在深层分支输出的样本占全部样本的比例。

3-1-4-2)如果当前目标需求为精度需求，但当前分发方案的精度高于目标需求，则更新多分支网络的分发方案以提高在浅层分支输出的样本占全部样本的比例。但需要保证满足精度需求，以提供更快的推理方案。

3-1-4-3)如果当前目标需求为吞吐量需求，但当前分发方案的平均推理时间大于目标需求，则更新多分支网络的分发方案以将提高在浅层分支输出的样本占全部样本的比例。

3-1-4-4)如果当前目标需求为吞吐量需求，但当前分发方案的平均推理时间小于目标需求，则更新多分支网络的分发方案以将提高在深层分支输出的样本占全部样本的比例。但需要保证满足吞吐量需求，以提供更快的推理方案。

为实现上述实施例，本公开第二方面实施例提出一种用于物联网的多分支网络协同推理系统，包括：

为实现上述实施例，本公开第三方面实施例提出一种电子设备，包括：

为实现上述实施例，本公开第四方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述一种用于物联网的多分支网络协同推理方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于 ——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频) 等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例的一种用于物联网的多分支网络协同推理方法

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。