CN117707795B

CN117707795B - 基于图的模型划分的边端协同推理方法及系统

Info

Publication number: CN117707795B
Application number: CN202410162969.2A
Authority: CN
Inventors: 郭永安; 白晨浩; 王宇翱; 齐帅
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-05-10
Anticipated expiration: 2044-02-05
Also published as: CN117707795A

Abstract

本发明提供了一种基于图的模型划分的边端协同推理方法及系统，该方法包括：获取CNN模型以及边缘网络系统的工作负载信息和网络质量信息；将CNN模型转换为有向无环图；采用等价节点合并的方法对有向无环图进行压缩；对时延优化问题进行建模，协同推理时延由计算时延和数据传输时延组成。基于图神经网络和DQN算法，根据边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，以最小化时延为目标求解时延优化问题，得到最优的划分策略。根据划分策略，将CNN模型划分为2个CNN模型分段，分别分配给端设备和边缘服务器进行计算，用以解决现有的CNN推理任务的推理时间没有得到最大限度的减少的问题。

Description

基于图的模型划分的边端协同推理方法及系统

技术领域

本发明属于移动边缘计算场景下多设备协作计算领域，具体涉及基于图的模型划分的边端协同推理方法及系统。

背景技术

在现代计算机应用中，卷积神经网络(Convolutional Neural Networks，简称为CNN)被广泛应用于计算机视觉、自然语言处理、图像识别和大数据分析多个领域。此外，现代创新技术产生了大量的数据，如自动驾驶汽车、人工智能医疗设备、智能手机和智能监控，它们是具有实时性和隐私敏感的应用，需要更低的延迟和更高的隐私保护。传统架构中CNN模型部署在具有强大计算资源的远程云中，终端设备产生的原始数据被传输到云端进行处理并返回结果，这面临着广域网络的不可靠和延迟严重的问题。为了应对这一挑战，许多研究人员提出了不同的解决办法，通过灵活分配计算、存储、带宽资源来实现低延迟和低能耗。

随着人工智能技术和边缘计算的发展，边缘智能正得到越来越多的关注，在靠近数据源的设备上部署AI应用，可以提供更加灵活和安全的服务，因此，可以将推理任务下放到边缘服务器上进行处理，以减少数据传输和云端计算的压力。虽然CNN具有较高的推理精度和可重构的灵活性，但执行CNN需要较大的计算资源，特别是对于具有大量相乘累加操作的深层CNN。考虑到边缘服务器的计算能力是有限的，所以，不能把所有的计算任务都卸载到边缘服务器上，部分任务应该在终端设备执行。如何在具有资源约束的边缘服务器和终端设备组成的实际系统中实现快速、高精度的CNN协同推理是基于CNN应用最具挑战性的问题之一。

为解决上述问题，充分利用终端设备和边缘服务器的计算资源，需要找到一种在边缘计算环境中加速CNN推理任务的新颖方法。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于图的模型划分的边端协同推理方法及系统，用以解决现有的CNN推理任务的推理时间没有得到最大限度的减少的问题。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于图的模型划分的边端协同推理方法，基于边缘网络系统，所述边缘网络系统至少包括相连接的端设备和边缘服务器；

所述方法包括以下步骤：

步骤1，获取CNN模型以及边缘网络系统的工作负载信息和网络质量信息；

步骤2，将CNN模型转换为有向无环图；

步骤3，采用等价节点合并的方法对所述有向无环图进行压缩；

步骤4，对时延优化问题进行建模，CNN协同推理时延由计算时延和数据传输时延组成。

步骤5，基于图神经网络和DQN算法，根据所述边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，以最小化时延为目标求解所述时延优化问题，得到最优的划分策略。根据划分策略，将CNN模型划分为2个CNN模型分段，分别分配给端设备和边缘服务器进行计算。

进一步的，所述边缘网络系统的工作负载信息包括端设备和边缘服务器的浮点计算能力、CPU占用率/>、GPU显存使用率/>；

所述网络质量信息包括端设备和边缘服务器之间的网络带宽B _w。

进一步的，步骤2中，将CNN模型转换为有向无环图，包括：

步骤21，理解CNN模型的结构：CNN模型包括卷积层、池化层、全连接层。卷积层和池化层用于提取图像特征，全连接层用于进行分类或回归任务。

步骤22，确定CNN模型的输入和输出：确定CNN模型的输入和输出，对于图像分类任务，输入是图像数据，输出是类别标签。

步骤23，创建节点：基于CNN模型的结构，为每个层级创建一个节点。

步骤24，建立节点之间的关系：根据CNN模型的连接关系，建立节点之间的有向边。每个有向边表示各个层级之间的数据流动。

步骤25，构建有向无环图：根据节点和有向边的关系，构建有向无环图。节点表示层级，有向边表示数据流动，并使用图论库进行有向无环图的构建。

步骤26，验证图的结构：验证所构建的有向无环图是否符合CNN模型的结构和连接关系，使图能够准确地描述CNN模型的运算过程。检查节点和有向边的数量是否正确，以及节点之间的连接关系是否符合CNN模型的结构，得到验证后的有向无环图。

进一步的，步骤3中，采用等价节点合并的方法对所述有向无环图进行压缩，包括：

步骤31，使用深度优先搜索DFS算法对原始图进行拓扑排序，选择一个起始节点进行搜索，在深度优先搜索过程中，将当前节点标记为已访问。

步骤32，对于当前节点的每个未访问的邻居节点，递归地进行深度优先搜索。

步骤33，当前节点的所有邻居节点都被访问完毕后，将当前节点加入到拓扑排序结果的头部。

步骤34，返回上一层继续搜索，继续从未访问的节点中选择一个作为当前节点，重复步骤32和步骤33，直到所有节点都被访问过。在每次访问节点时，需要判断节点是否已经被访问过，以避免重复访问和形成环路。

步骤35，最终得到的拓扑排序结果即为有向无环图的拓扑排序序列。

步骤36，初始化一个等价节点的映射表，用于记录每个节点的等价节点。从拓扑序列中的第一个节点开始，遍历每个节点，从中找出具有相同入度和相同出度的节点，并在这些节点中找出具有相同输入和输出的节点，具有相同输入和输出的节点是等价的，由此来更新等价节点的映射表，通过映射表进行等价节点的合并，并进行有向无环图的更新。

进一步的，在每次访问节点时，判断节点是否已经被访问过，如果未被访问过则继续访问，否则跳过。

进一步的，步骤4中，对时延优化问题进行建模的方法包括：

CNN协同推理时延由计算时延和数据传输时延组成。

假设节点间的传输延迟是无穷小的。数据传输时延包括上传数据的时延T _up和返回结果的时延T _down，设T _tr为总传输时延，D _s为端设备输出数据的大小，D _m为结果数据的大小，则，

CNN模型的层类型具有不同的计算复杂度，对于卷积层，

，

其中H和W分别表示输入特征图的高度和宽度，C _in和C _out分别表示输入和输出通道数，K表示卷积核的大小。

对于全连接层，

，

I和O分别代表输入和输出特征图的维数。在终端设备或边缘服务器上，单个卷积层和单个全连接层的推理时间可表示为：，

表示回归模型，上式表示通过回归模型进行各个层级的推理时延预测，以端设备或边缘服务器的浮点计算能力FS _e、CPU占用率/>、GPU显存使用率/>以及层级的计算复杂度为输入，以单个层级在端设备或边缘服务器的推理时延为输出；

用和/>分别表示节点v _i对应层在终端设备和边缘服务器上的处理延迟，/>表示在终端设备上处理节点对应层的集合，/>表示在边缘服务器上处理节点对应层的集合。设/>和/>分别表示终端设备和边缘服务器上的执行延迟，则

总推断延迟为：

。

进一步的，DAG划分模型的输入包括边缘网络系统的工作负载信息和网络质量信息，通过迭代，输出为最优的DAG划分策略。

进一步的，基于图神经网络和DQN算法，根据所述边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，求解所述时延优化问题，得到最优的划分策略，包括：

步骤51，建立图神经网络的架构，用于处理和编码有向无环图的信息。用图神经网络代替DQN算法中的其他神经网络。

通过图神经网络来表示节点的状态，对于节点v _i，使用一个向量g(v _i)来表示它的状态，其中g(v _i)是节点v _i的特征向量，包含节点的度以及节点的计算复杂度。

所述DQN算法中：

状态空间：,其中B _w表示端设备和边缘服务器之间的网络带宽，g(v _i)是节点v _i的特征向量，用来表示节点的状态，C _end表示端设备的计算资源，C _edge表示边缘服务器的计算资源，计算资源主要包括浮点计算能力、CPU占用率、GPU显存使用率，/>表示原始输入数据以及各个节点的输出数据大小，/>表示原始输入数据大小，/>表示节点v ₁的输出数据大小，/>表示节点v ₂的输出数据大小，/>表示节点v _m的输出数据大小；

动作空间：由所有可选的划分策略组成。对于CNN模型的协同推理计算，其动作就是在端设备和边缘服务器之间选择合适的划分点，基于当前状态，DAG有m-1个划分点。动作空间，其中/>表示有向无环图划分点的集合，/>、、/>分别表示第1、2、/>个节点与节点之间的划分点；

奖励函数：根据执行的动作反馈相应的奖励值。以任务推理时延为优化目标，与此同时，DQN神经网络的目标是找到使奖励函数R最大的动作a所对应的最大Q值。将奖励函数R定义为任务推理最小时延的负相关，即：

；

步骤52，初始化DQN图神经网络模型：定义一个图神经网络，用于估计Q值函数；定义神经网络的结构、学习率φ、折扣因子y、探索率ε初值；

初始化经验池：创建一个经验回放缓冲区，用于存储智能体与环境交互获得的经验，包括状态、动作/>、奖励/>、下一个状态/>；

步骤53，与环境交互，获取网络环境状态信息；

根据网络环境状态信息和探索率ε选择动作/>。其中，探索率ε为一个取值的超参数，表示选择随机动作的概率，用于探索性地选择非最优动作。如果随机数小于探索率，选择随机动作；反之，根据当前Q值选择最优动作。

步骤54，执行动作，即选择一个划分点对有向无环图进行划分。执行动作/>后获得相应的奖励/>，即推理时延的反馈，同时观察到网络状态更新为/>；

步骤55，将与环境交互获得的经验值存入DQN经验池，当经验池中的元组数目达到一定值N时，随机选择经验样本组成小批量数据子集来训练DQN。当经验池容量大于N时，则会删除最老的经验样本，仅保留最新的N个经验样本，保持样本的新鲜度；

步骤56，神经网络计算出该批次样本对应的Q值,进而找出当前状态下Q值对应的动作/>以及执行动作/>后智能体所获得的奖励：，最后计算出目标Q值。

该批次样本对应的Q值为：

，

其中表示主网络的输出函数，它是由一个图神经网络确定的函数，/>表示主网络参数。

Q值对应的动作为：

，

执行动作后智能体获得环境的奖励值/>为：

，

进而可求得目标网络Q值：

，

其中，y为折扣因子，用于平衡当前奖励和未来奖励的重要性程度；

步骤57，通过损失函数计算使得当前Q值无限接近于目标Q值，最终达到收敛状态。损失函数定义为：

，

损失函数衡量了神经网络的预测误差，即当前状态下的Q值与目标Q值之间的差异；

步骤58，更新主网络参数：通过反向传播算法更新主网络的参数即图神经网络参数，以最小化损失函数；

更新目标网络参数：定期将主网络的参数复制到目标网络中；

步骤59，将当前状态更新为下一个状态，以便在下一步训练中使用更新后的状态进行决策。

步骤510，重复上述步骤53-59，直到观察到的网络状态是终止状态，即已经找到最小推理延迟的划分策略，此时停止迭代过程。

第二方面，本发明提供一种基于图的模型划分和边端协同推理系统，包括：

信息采集模块：用于获取CNN模型以及边缘网络系统的工作负载信息和网络质量信息；

转换模块：用于将CNN模型转换为有向无环图；

DAG压缩模块：用于采用等价节点合并的方法对所述有向无环图进行压缩；

建模模块：用于对时延优化问题进行建模，CNN协同推理时延由计算时延和数据传输时延组成；

DAG划分模块：用于基于图神经网络和DQN算法，根据所述边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，以最小化时延为目标求解所述时延优化问题，得到最优的划分策略。根据划分策略，将CNN模型划分为2个CNN模型分段，分别分配给端设备和边缘服务器进行计算。

第三方面，本发明提供一种基于图的模型划分和边端协同推理系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

1、本发明构建了一种三层边缘网络系统架构，采用边端协作的方式进行CNN任务推理，并考虑将CNN模型转换为有向无环图，其拓扑结构可以方便的划分成多个子图，使得模型更加高效和灵活，有助于提高模型的性能和效率。

2、本发明提出一种等价节点合并的模型压缩方法，为提高模型的性能和效率，提出等价节点合并的方法对模型进行高效的压缩，并将图神经网络和DQN算法相结合，找到最优的模型划分策略，以最小化推理时延。通过在有向无环图中找出等价节点，进行融合合并，减小有向无环图的节点数量，可以显著减小CNN模型的大小，节省存储资源并加快任务的推理速度。并且合并后的有向无环图拓扑顺序不发生改变，由此造成的推理精度损失较小，可以忽略不计。

3、本发明采用改良的DQN算法对模型进行划分，将图神经网络技术和DQN算法相结合，用图神经网络代替DQN算法中的神经网络，根据边缘服务器和终端设备可用的计算和通信资源，动态划分有向无环图进行任务的协同推理，以最小化任务推理时延，当网络环境发生变化时，可以通过训练好的DAG划分模型快速找到最优划分策略。

4、本发明通过将边端协同推理工作中涉及到的推理时延和传输时延转换为与计算任务复杂度、设备负载和网络带宽相关联的最优化问题并求解，以实现任务的边端协同加速推理。

5、本发明提出基于图的模型划分的边端协同推理方法及系统，将CNN模型转换为有向无环图进行模型的高效压缩，并采用改良的DQN算法对CNN模型进行合理划分，利用终端设备和边缘服务器的计算和通信资源进行边端协同任务推理，以最小化推理时延。

附图说明

图1是整体的系统架构模型图；

图2为CNN模型转换DAG示例图，其中，（a）表示转换前的CNN模型，（b）表示转换后的DAG图；

图3为等价节点合并示例图；

图4为DAG划分模型训练框图；

图5为DAG划分模型训练算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本发明提出基于图的模型划分的边端协同推理方法及系统，通过构建一种三层边缘网络系统架构，采用边端协作的方式进行CNN任务推理，为提高模型的性能和效率，考虑将CNN模型转换为有向无环图，并用等价节点合并的方法对模型进行高效的压缩；根据终端设备和边缘服务器的通信和计算资源，将图神经网络和DQN算法相结合，以最小化推理时延为目标，找到最优的划分策略；根据划分策略将CNN推理任务在终端设备和边缘服务器上进行协同推理，并将推理结果发送到终端设备。具体步骤如下：

S1：如图1所示，构建系统架构模型

所构建的边缘网络系统框架包括分析器、离线分区框架和在线执行机制。分析器包括系统监测模块和回归模型。系统监测模块设有工作负载感知模块和网络质量监测模块，其可利用工作负载感知模块动态感知端设备和边缘服务器的浮点计算能力、CPU占用率/>、GPU显存使用率/>。并可利用网络质量监测模块，动态感知端设备和边缘服务器之间的网络带宽B _w。通过收集、记录不同计算复杂度的CNN层级在端设备或边缘服务器不同计算资源条件下的实际计算处理时延，得到回归模型进行时延预测；离线分区框架中，包括DAG压缩模块和DAG划分模型。首先将CNN模型转换为有向无环图（DAG），其拓扑结构可以方便的划分成多个子图，使得模型更加高效和灵活，有助于提高模型的性能和效率。DAG压缩模块通过等价节点合并的方法进行图压缩，在推理精度不损失或损失很小的前提下，加快模型的推理速度。其次，DAG划分模型将图神经网络与DQN算法相结合，以最小化时延为目标，将有向无环图划分为两个子图，并将两个子图（即两个CNN模型分段）分别分配给端设备和边缘服务器；在线执行机制包括终端设备和边缘服务器，进行计算资源协调，处理分区之间的通信以及层与层之间的数据传输。

S2：如图2所示，将CNN模型转换为有向无环图（Directed Acyclic Graph,DAG）：

S21：理解CNN模型的结构：首先，要了解CNN模型的结构和组件。CNN模型通常由卷积层、池化层、全连接层组成。卷积层和池化层用于提取图像特征，全连接层用于进行分类或回归任务。

S22：确定CNN模型的输入和输出：确定CNN模型的输入和输出，对于图像分类任务，输入是图像数据，输出是类别标签。

S23创建节点：基于CNN模型的结构，为每个层级创建一个节点。节点可以用来表示卷积层、池化层、全连接层。

S24：建立节点之间的关系：根据CNN模型的连接关系，建立节点之间的有向边。每个边表示各个层级之间的数据流动。

S25：构建有向无环图：根据节点和边的关系，构建有向无环图。节点表示层级，边表示数据流动，并使用图论库进行有向无环图的构建。

S26：验证图的结构：验证所构建的有向无环图是否符合CNN模型的结构和连接关系，确保图能够准确地描述CNN模型的运算过程。检查节点和边的数量是否正确，以及节点之间的连接关系是否符合CNN模型的结构。

如图2所示，构造DAG，有向无环图G=<V，E>，其中V={v ₁，v ₂，...,v _n}是表示CNN模型的层所对应节点的集合，v ₁和v _n分别表示输入层和输出层。E是表示节点之间的连接的边的集合。对于图中的任意两个节点v _i和v _j，我们在图中引入一个有向链接<v _i，v _j>∈E表示节点v _i的输出数据被传输到节点v _j作为输入。

S3：CNN具有较高的推理精度和可重构的灵活性，但执行CNN具有大量相乘累加操作，需要较大的计算资源，并且CNN模型的层数限制了模型划分的效率，不能满足动态网络下实时推理的要求，为了减小任务推理时延，提高模型划分效率，提出采用一种等价节点合并的方法对有向无环图进行压缩。

S3：1首先使用深度优先搜索（DFS）算法对原始图进行拓扑排序，其步骤如下：

S311：选择一个起始节点进行搜索，在深度优先搜索过程中，将当前节点标记为已访问。

S312：对于当前节点的每个未访问的邻居节点，递归地进行深度优先搜索。

S313：当前节点的所有邻居节点都被访问完毕后，将当前节点加入到拓扑排序结果的头部。

S314：返回上一层继续搜索，继续从未访问的节点中选择一个作为当前节点，重复步骤S312和步骤S313，直到所有节点都被访问过。需要注意，在每次访问节点时，需要判断节点是否已经被访问过，以避免重复访问和形成环路。

S315：最终得到的拓扑排序结果即为有向无环图的拓扑排序序列。

S32：进一步，初始化一个等价节点的映射表，用于记录每个节点的等价节点。如图3所示，从拓扑序列中的第一个节点开始，遍历每个节点，从中找出具有相同入度和相同出度的节点，并在这些节点中找出具有相同输入和输出的节点，那么它们可以被认为是等价的，由此来更新等价节点的映射表，最后通过映射表进行等价节点的合并，并进行有向无环图的更新。

如图3（a）所示，节点v ₃和v ₄的入度和出度均为1，且它们的输入节点均为v ₂，输出节点均为v ₅，则v ₃和v ₄为等价节点，可以进行合并。合并后的节点如图3（b）所示，节点输入数据量仍为d2，但节点的数据输出量为d3与d4的总和，这样就可以减少DAG中的节点数量，并且在计算过程中可以一次性计算多个节点，减少节点之间数据传输时延，提高计算效率。合并后的有向无环图拓扑顺序不发生改变，由此造成的推理精度损失较小，可以忽略不计。

S4： CNN协同推理时延由计算时延和数据传输时延组成。与跨设备的传输时延相比，节点间的内在传输时延可以忽略不计，为了简化问题，不失一般性，我们假设节点间的传输延迟是无穷小的。传输时延包括上传数据的时延T _up和返回结果的时延T _down，数据通过无线在端设备和边缘服务器之间进行传输，由网络质量监测模块可得端设备和边缘服务器之间的网络带宽B _w。设T _tr为总传输时延，D _s为端设备输出数据的大小，D _m为结果数据的大小，则：

，

CNN模型的每一层所消耗的计算时延和层的类型有很大的关系，不同的层类型具有不同的计算复杂度，对于卷积层，

，

其中H和W分别表示输入特征图的高度和宽度，C _in和C _out分别表示输入和输出通道数，K表示卷积核的大小。对于全连接层，

，

I和O分别代表输入和输出特征图的维数。在终端设备或边缘服务器上，单个卷积层和单个全连接层的推理时间可表示为：

，

表示回归模型，上式表示通过回归模型进行各个层级的推理时延预测，以端设备或边缘服务器的浮点计算能力FS _e、CPU占用率/>、GPU显存使用率/>以及层级的计算复杂度为输入，以单个层级在端设备或边缘服务器的推理时延为输出。

用和/>分别表示节点v _i对应层在终端设备和边缘服务器上的处理延迟，/>和/>分别表示在终端设备和边缘服务器上处理节点v _i对应层的集合。设和/>分别表示终端设备和边缘服务器上的执行延迟，则

，

总推断延迟为：

，

目标是找到有向无环图G的最优划分，使最小化。

S5：对于DAG的划分，分裂节点v _s是V的子集，V是节点的集合，从有向无环图中移除v _s将其分裂成两个子图，分别部署在终端设备和边缘服务器上。v _s属于端设备，并且v _s节点中的输出数据将从端设备传输到边缘服务器。我们从G中选择一个子集v _s，并在对应于子集v _s的节点处将G分成两部分V _end和V _edge（v _s属于V_end并在终端设备上处理）。

DAG划分模型的输入包括端设备、边缘服务器的状态信息（计算能力），网络状况、模型的计算复杂度状态信息，通过迭代，输出位最优的DAG划分策略。

如图4所示，基于图神经网络和DQN算法，进行DAG划分模型的训练，我们用图神经网络代替DQN算法中的其他神经网络。模型输入包括节点信息、网络状态信息、设备计算资源信息和约束条件即最小化总的推理时延，输出为有向无环图的最佳划分策略，即将CNN模型划分为两部分，进行边端协同推理。训练过程中，DQN算法利用经验回放机制和目标网络技术，不断有向无环图划分策略，保证推理时延最小化。如图5所示，DAG划分模型的训练具体步骤如下：

智能体是指具有自主决策能力的实体。这里可以理解为边缘服务器或者虚拟的智能程序。

S51：建立图神经网络的架构，用于处理和编码有向无环图的信息。图神经网络专门用于处理图结构数据，能有效地捕捉节点和边的特征，并学习节点嵌入以捕捉与划分决策相关的信息。我们通过图神经网络来表示节点的状态，对于节点v _i，使用一个向量g(v _i)来表示它的状态，其中g(v _i)是节点v _i的特征向量，包含节点的度以及节点的计算复杂度。

状态、动作和奖励是DQN算法的三要素：

状态空间：,其中B _w表示端设备和边缘服务器之间的网络带宽，g(v _i)是节点v _i的特征向量，用来表示节点的状态，C _end表示端设备的计算资源，C _edge表示边缘服务器的计算资源，计算资源主要包括浮点计算能力、CPU占用率、GPU显存使用率，/>表示原始输入数据以及各个节点的输出数据大小，/>表示原始输入数据大小，/>表示节点v ₁的输出数据大小，表示节点v ₂的输出数据大小，/>表示节点v _m的输出数据大小；。

动作空间：由所有可选的划分策略组成。对于CNN模型的协同推理计算，其动作就是在端设备和边缘服务器之间选择合适的划分点，基于当前状态，DAG有m-1个划分点。动作空间，其中/>表示有向无环图划分点的集合，、/>、/>分别表示第1、2、/>个节点与节点之间的划分点。

奖励函数：环境会根据智能体执行的动作反馈相应的奖励值。为满足时延敏感型业务应用需求，本实施例以任务推理时延为优化目标，与此同时，DQN神经网络的目标是找到使奖励函数R最大的动作a所对应的最大Q值。因此将奖励函数R定义为任务推理最小时延的负相关，即：

；

S52：初始化DQN神经网络模型：定义一个图神经网络，用于估计Q值函数；指定包括神经网络的结构、学习率φ、折扣因子y、探索率ε初值；

初始化经验池：创建一个经验回放缓冲区，用于存储智能体与环境交互获得的经验，包括状态、动作/>、奖励/>、下一个状态/>信息，保证了DQN模型的稳定性；

S53：智能体与环境交互，获取网络环境状态信息；

智能体根据网络环境状态信息和探索率ε选择动作/>。其中，探索率ε为一个取值/>的超参数，表示智能体选择随机动作的概率，用于探索性地选择非最优动作。如果随机数小于探索率，智能体选择随机动作；反之，根据当前Q值选择最优动作。

S54：智能体执行动作，即选择一个划分点对有向无环图进行划分。智能体执行动作/>后获得相应的奖励/>，即推理时延的反馈，同时观察到网络状态更新为/>。

S55：将智能体与环境交互获得的经验值存入DQN经验池，当经验池中的元组数目达到一定值（例如数量N）时，随机选择经验样本组成Mini-batch来训练DQN。当经验池容量大于N时，则会删除最老的经验样本，仅保留最新的N个经验样本。

S56：神经网络计算出该批次样本对应的Q值，进而找出当前状态下Q值对应的动作/>以及执行动作/>后智能体所获得的奖励/>，最后计算出目标Q值。

该批次样本对应的Q值为：

，

其中表示主网络的输出函数，它是由一个图神经网络确定的函数，/>表示主网络参数；

Q值对应的动作为：

，

执行动作后智能体获得环境的奖励值/>为：

，

进而可求得目标网络Q值：

其中，y为折扣因子，用于平衡当前奖励和未来奖励的重要性程度。

S57：DQN算法训练的本质是使得当前Q值无限接近于目标Q值，最终达到收敛状态。损失函数定义为：

损失函数衡量了神经网络的预测误差，即当前状态下的Q值与目标Q值之间的差异。损失函数的作用是为了衡量当前策略的性能，并引导神经网络的训练，使其逐渐收敛到最优策略。

S58：更新主网络参数：通过反向传播算法更新主网络的参数即图神经网络参数，以最小化损失函数，使其能够学习到更优的策略，提高神经网络的精度。

更新目标网络参数：即定期将主网络的参数复制到目标网络中，且目标网络的参数更新较慢，使目标值更加稳定。

S59：智能体将当前状态更新为下一个状态，以便在下一步训练中使用更新后的状态进行决策。

降低探索率ε，减少智能体随机探索的概率，增加利用已学习Q值的概率，从而使智能体在训练后期更加倾向于选择已学习的最优动作。

S510：重复上述步骤，直到智能体观察到的网络状态是终止状态，即已经找到最小推理延迟的划分策略，此时停止迭代过程。

采用图神经网络技术和DQN算法相结合的方法对模型进行划分，当网络环境发生变化时，可以通过训练好的DAG划分模型快速找到最优划分策略。

S6：最后，根据最优划分策略，对CNN模型进行划分，将推理任务在终端设备和边缘服务器上进行协同推理，即一部分任务在终端设备上进行推理，另外的任务在边缘服务器上进行推理，在线执行机制通过协调计算资源，处理分区之间的通信以及层与层之间的数据传输，完成任务的协同推理，并将推理结果发送到终端设备。

本发明的方法与系统可以应用到物联网场景的多个领域，如在交通领域的车联网场景中，对于环境的感知以及车辆的控制决策具有实时性要求，在车辆端进行任务处理会受到计算资源的限制，将任务上传到云端进行处理会产生较大的传输时延并且会涉及用户隐私问题，应用本发明的方法与系统，将任务在车辆端和路边单元进行协同推理，采用等价节点合并的方法对模型进行高效的压缩，并将图神经网络和DQN算法相结合，找到最优的模型划分策略，使推理时延最小化。

实施例二：

本实施例提供一种基于图的模型划分和边端协同推理系统，包括：

转换模块：用于将CNN模型转换为有向无环图；

DAG划分模型的输入包括端设备、边缘服务器的状态信息（计算能力），网络状况、模型的计算复杂度状态信息，通过迭代，输出最优的DAG划分策略。

具体来说，本实施例的系统是一种三层边缘网络系统架构；这里只是把整个系统架构分为了三个部分，每个部分涉及不同的任务，下面具体说明：

所述三层边缘网络系统架构包括分析器、离线分区框架和在线执行机制。

分析器包括系统监测模块和回归模型，

系统监测模块设有工作负载感知模块和网络质量监测模块，其可利用工作负载感知模块动态感知端设备和边缘服务器的浮点计算能力、CPU占用率/>、GPU显存使用率/>（这几个数据是用来进行时延预测的，也是训练DAG划分模型的状态输入）。并可利用网络质量监测模块，动态感知端设备和边缘服务器之间的网络带宽B _w。

通过收集、记录不同计算复杂度的CNN层级在端设备或边缘服务器不同计算资源条件下的实际计算处理时延，得到回归模型进行时延预测；

离线分区框架中，包括DAG压缩模块和DAG划分模型，DAG压缩模块通过等价节点合并的方法进行图压缩，在推理精度不损失或损失很小的前提下，加快模型的推理速度。

DAG划分模型将图神经网络与DQN算法相结合，以最小化时延为目标，将有向无环图划分为两个子图，并将两个子图（即两个CNN模型分段）分别分配给端设备和边缘服务器；

在线执行机制包括终端设备和边缘服务器，进行计算资源协调，处理分区之间的通信以及层与层之间的数据传输。

本实施例的系统可用于实现实施例一所述的方法。

实施例三：

本实施例提供一种基于图的模型划分和边端协同推理系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于图的模型划分的边端协同推理方法，其特征在于，基于边缘网络系统，所述边缘网络系统至少包括相连接的端设备和边缘服务器；

所述方法包括以下步骤：

步骤2，将CNN模型转换为有向无环图；

步骤4，对时延优化问题进行建模，CNN协同推理时延由计算时延和数据传输时延组成；

步骤5，基于图神经网络和DQN算法，根据所述边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，以最小化时延为目标求解所述时延优化问题，得到最优的划分策略；根据划分策略，将CNN模型划分为2个CNN模型分段，分别分配给端设备和边缘服务器进行计算；

步骤4中，对时延优化问题进行建模的方法包括：

CNN协同推理时延由计算时延和数据传输时延组成；

假设节点间的传输延迟是无穷小的；数据传输时延包括上传数据的时延T_up和返回结果的时延T_down，设T_tr为总传输时延，D_s为端设备输出数据的大小，D_m为结果数据的大小，则

T′_tr＝T_up+T_down，

其中，B_w为网络带宽；

CNN模型的层类型具有不同的计算复杂度，对于卷积层的计算复杂度F_conv，

F_conv＝2HW×(C_inK²+1)×C_out，

其中H和W分别表示输入特征图的高度和宽度，C_in和C_out分别表示输入和输出通道数，K表示卷积核的大小；对于全连接层的计算复杂度F_full，

F_full＝(2I-1)×O，

I和O分别代表输入和输出特征图的维数；在终端设备或边缘服务器上，单个卷积层的推理时间T^conv和单个全连接层的推理时间T^full分别表示为：

T^conv＝f(FS_e，α_e，β_e，F_conv)

T^full＝f(FS_e，α_e，β_e，F_full)，

f()表示回归模型，上式表示通过回归模型进行各个层级的推理时延预测，以端设备或边缘服务器的浮点计算能力FS_e、CPU占用率α_e和GPU显存使用率β_e以及层级的计算复杂度为输入，以单个层级在端设备或边缘服务器的推理时延为输出；

用和/>分别表示节点v_i对应层在终端设备和边缘服务器上的处理延迟；设T_end和T_edge分别表示终端设备和边缘服务器上的执行延迟，则

总推断延迟T_sum为：

T_sum＝T_end+T_edge+T_tr，

其中，V_end表示在终端设备上处理节点对应层的集合，V_edge表示在边缘服务器上处理节点对应层的集合；

DAG划分模型的输入包括边缘网络系统的工作负载信息和网络质量信息，输出为最优的DAG划分策略；

基于图神经网络和DQN算法，根据所述边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，求解所述时延优化问题，得到最优的划分策略，包括：

步骤51，建立图神经网络的架构，用于处理和编码有向无环图的信息；用图神经网络代替DQN算法中的其他神经网络；

通过图神经网络来表示节点的状态，对于节点v_i，使用一个向量g(v_i)来表示它的状态，其中g(v_i)是节点v_i的特征向量，包含节点的度以及节点的计算复杂度；

所述DQN算法中：

状态空间：S＝{s|s＝(B_w，g(vi)，C_end，C_edge，D)}，其中B_w表示端设备和边缘服务器之间的网络带宽，g(v_i)是节点v_i的特征向量，用来表示节点的状态，C_end表示端设备的计算资源，C_edge表示边缘服务器的计算资源，计算资源包括浮点计算能力、CPU占用率和GPU显存使用率，

D＝(D_input，D₁，D₂…D_m)表示原始输入数据以及各个节点的输出数据大小，D_input表示原始输入数据大小，D₁表示节点v₁的输出数据大小，D₂表示节点v₂的输出数据大小，D_m表示节点v_m的输出数据大小；

动作空间：由所有的划分策略组成；对于CNN模型的协同推理计算，其动作就是在端设备和边缘服务器之间选择合适的划分点，基于当前状态，DAG有m-1个划分点；动作空间A＝{p₁，p₂…p_m-1}，其中{p₁，p₂…p_m-1}表示有向无环图划分点的集合，p₁、p₂、p_m-1分别表示第1、2、m-1个节点与节点之间的划分点；

奖励函数：根据执行的动作反馈相应的奖励值；以任务推理时延为优化目标，与此同时，DQN神经网络的目标是找到使奖励函数R最大的动作a所对应的最大Q值；将奖励函数R定义为任务推理最小时延的负相关，即：

R＝-T_sum＝-(T_end+T_edge+T_tr)；

步骤52，初始化DQN图神经网络模型：定义一个图神经网络，用于估计Q值函数；定义神经网络的结构、学习率折扣因子y和探索率ε初值；

初始化经验池：创建一个经验回放缓冲区，用于存储与环境交互获得的经验，包括状态s_t、动作a_t、奖励r_t和下一个状态s_t+1；

步骤53，与环境交互，获取网络环境状态信息s_t；根据网络环境状态信息s_t和探索率ε选择动作a_t；其中，探索率ε为一个取值(0，1)的超参数，表示选择随机动作的概率，用于探索性地选择非最优动作；如果随机数小于探索率，选择随机动作；反之，根据当前Q值选择最优动作；

步骤54，执行动作a_t，即选择一个划分点对有向无环图进行划分；执行动作a_t后获得相应的奖励r_t，即推理时延的反馈，同时观察到网络状态更新为s_t+1；

步骤55，将与环境交互获得的经验值(s_t，a_t，r_t，s_t+1)存入DQN经验池，当经验池中的元组数目达到一定值N时，随机选择经验样本组成小批量数据子集来训练DQN；当经验池容量大于N时，则会删除最老的经验样本，仅保留最新的N个经验样本，保持样本的新鲜度；

步骤56，神经网络计算出该批次样本对应的Q值，进而找出当前状态下Q值对应的动作/>以及执行动作/>后所获得的奖励/>最后计算出目标Q值；该批次样本对应的Q值为：

其中f_θ表示主网络的输出函数，它是由一个图神经网络确定的函数，θ_t表示主网络参数；

Q值对应的动作为：

执行动作后获得环境的奖励值/>为:

进而得到目标网络Q值：

步骤57，通过损失函数计算使得当前Q值无限接近于目标Q值，最终达到收敛状态；损失函数定义为：

步骤59，将当前状态更新为下一个状态以便在下一步训练中使用更新后的状态进行决策；

步骤510，重复上述步骤53-步骤59，直到观察到的网络状态是终止状态，即已经找到最小推理延迟的划分策略，此时停止迭代过程。

2.根据权利要求1所述的基于图的模型划分的边端协同推理方法，其特征在于，所述边缘网络系统的工作负载信息包括端设备和边缘服务器的浮点计算能力FS_e、CPU占用率α_e和GPU显存使用率β_e；

所述网络质量信息包括端设备和边缘服务器之间的网络带宽B_w。

3.根据权利要求2所述的基于图的模型划分的边端协同推理方法，其特征在于，步骤2中，将CNN模型转换为有向无环图，包括：

步骤21，分解CNN模型的结构：CNN模型包括卷积层、池化层和全连接层；卷积层和池化层用于提取图像特征，全连接层用于进行分类或回归任务；

步骤22，确定CNN模型的输入和输出：确定CNN模型的输入和输出，对于图像分类任务，输入是图像数据，输出是类别标签；

步骤23，创建节点：基于CNN模型的结构，为每个层级创建一个节点；

步骤24，建立节点之间的关系：根据CNN模型的连接关系，建立节点之间的有向边；每个有向边表示各个层级之间的数据流动；

步骤25，构建有向无环图：根据节点和有向边的关系，构建有向无环图；节点表示层级，有向边表示数据流动，并使用图论库进行有向无环图的构建；

步骤26，验证图的结构：若所构建的有向无环图符合CNN模型的结构和连接关系，节点和有向边的数量正确，以及节点之间的连接关系符合CNN模型的结构，则得到验证后的有向无环图。

4.根据权利要求3所述的基于图的模型划分的边端协同推理方法，其特征在于，步骤3中，采用等价节点合并的方法对所述有向无环图进行压缩，包括：

步骤31，使用深度优先搜索DFS算法对原始图进行拓扑排序，选择一个起始节点进行搜索，在深度优先搜索过程中，将当前节点标记为已访问；

步骤32，对于当前节点的每个未访问的邻居节点，递归地进行深度优先搜索；

步骤33，当前节点的所有邻居节点都被访问完毕后，将当前节点加入到拓扑排序结果的头部；

步骤34，返回上一层继续搜索，继续从未访问的节点中选择一个作为当前节点，重复步骤32和步骤33，直到所有节点都被访问过；

步骤35，最终得到的拓扑排序结果即为有向无环图的拓扑排序序列；

步骤36，初始化一个等价节点的映射表，用于记录每个节点的等价节点；从拓扑序列中的第一个节点开始，遍历每个节点，从中找出具有相同入度和相同出度的节点，并在这些节点中找出具有相同输入和输出的节点，具有相同输入和输出的节点是等价的，通过等价节点的合并进行有向无环图的更新。

5.根据权利要求4所述的基于图的模型划分的边端协同推理方法，其特征在于，步骤34中，在每次访问节点时，判断节点是否已经被访问过，如果未被访问过则继续访问，否则跳过。

6.一种基于图的模型划分和边端协同推理系统，其特征在于，包括：

转换模块：用于将CNN模型转换为有向无环图；

DAG划分模块：用于基于图神经网络和DQN算法，根据所述边缘网络系统的工作负载信息和网络质量信息进行DAG划分模型的训练，以最小化时延为目标求解所述时延优化问题，得到最优的划分策略；根据划分策略，将CNN模型划分为2个CNN模型分段，分别分配给端设备和边缘服务器进行计算；

对时延优化问题进行建模的方法包括：

CNN协同推理时延由计算时延和数据传输时延组成；

T_tr＝T_up+T_down，

其中，B_w为网络带宽；

F_conv＝2HW×(C_inK²+1)×C_out，

F_full＝(2I-1)×O，

T^conv＝f(FS_e，α_e，β_e，F_conv)

T^full＝f(FS_e，α_e，β_e，F_full)，

总推断延迟T_sum为：

T_sum＝T_end+T_edge+T_tr，

其中，V_end表示在终端设备上处理节点对应层的集合，V_edag表示在边缘服务器上处理节点对应层的集合；

所述DQN算法中：

状态空间：S＝{s|s＝(B_w，g(vi)，C_end，C_edge，D)}，其中B_w表示端设备和边缘服务器之间的网络带宽，g(v_i)是节点v_i的特征向量，用来表示节点的状态，C_end表示端设备的计算资源，C_edge表示边缘服务器的计算资源，计算资源包括浮点计算能力、CPU占用率和GPU显存使用率，D＝(D_input，D₁，D₂…D_n)表示原始输入数据以及各个节点的输出数据大小，D_input表示原始输入数据大小，D₁表示节点v₁的输出数据大小，D₂表示节点v₂的输出数据大小，D_m表示节点v_m的输出数据大小；

R＝-T_sum＝-(T_end+T_edge+T_tr)；

Q值对应的动作为：

执行动作后获得环境的奖励值/>为:

进而得到目标网络Q值：

7.一种基于图的模型划分和边端协同推理系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-5任一项所述方法的步骤。