CN114723057A

CN114723057A - 一种用于多接入边缘计算系统的神经网络协同推理方法

Info

Publication number: CN114723057A
Application number: CN202210342808.2A
Authority: CN
Inventors: 胡晗; 郝志伟; 徐冠宇; 安建平
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-08

Abstract

本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法，属于边缘计算领域。本发明针对多接入边缘计算系统中接入设备计算资源及电源能量受限，难以仅靠自身完成复杂模型推理的问题，通过设计一种将神经网络模型切分并分别放在本地和服务器执行的协同推理方法，使用轻量自编码器并利用量化技术压缩中间特征，减少需要通过无线信道传输的数据量，并使用深度强化学习方法为每个接入设备提供模型切分策略、无线信道选择策略及发射功率设定策略，在有限信道资源下充分利用边缘服务器协助接入设备完成推理任务。本发明能够有效降低各接入设备的平均推理时延和能耗，为基于复杂模型的智能应用在移动设备上的部署提供支撑。

Description

一种用于多接入边缘计算系统的神经网络协同推理方法

技术领域

本发明涉及一种神经网络推理方法，尤其涉及一种用于多接入边缘计算系统的神经网络协同推理方法，属于边缘计算领域。

背景技术

深度学习技术近年来的快速发展，使得深度神经网络(Deep Neural Network，DNN)在许多计算机视觉及自然语言处理任务上取得了接近或超过人类的表现。随着智能手机、手表等边缘设备硬件性能的提升，基于DNN模型的智能应用已经成为移动设备上不可或缺的一部分。然而，移动设备计算资源远少于台式计算机，且受有限电池能量的约束，只能运行一些使用了简单DNN模型的应用。将计算任务卸载到云服务器的云计算技术可以有效提升移动设备处理复杂计算任务的能力，但其实际表现通常受限于云服务器的有限吞吐量，此外将数据传输到云端还存在隐私泄露隐患。多接入边缘计算(Multi-access EdgeComputing，MEC)系统使用接近用户侧的边缘服务器同时为多个接入设备提供计算资源，其中各接入设备将计算任务拆分为两部分，分别在本地和边缘服务器完成计算，在避免了隐私问题的同时有效提升了执行复杂任务的能力，此外其局域性也极大降低了服务器的吞吐压力。然而，尚无相关工作利用MEC系统协助接入设备完成DNN模型推理任务。

针对单用户场景，有研究指出将DNN模型切分为两部分，通过无线信道传输中间特征的形式，依序在本地和边缘服务器端运行切分后的模型，可以有效降低推理时延及能耗，这种方法被称作协同推理(Collaborative Inference)。现有MEC系统的相关研究通常假设接入设备需要完成的是任意可分的可并行任务，而DNN模型推理任务并不符合该假设，因此基于现有方法，MEC系统无法以协同推理的方式协助接入设备完成DNN模型推理任务。此外，MEC系统的优化问题通常同时涉及离散变量(选择无线信道)以连续变量(设定发射功率)，符合混合整数非线性规划(Mixed Integer Non-Linear Programming，MINLP)的问题形式，难以在多项式时间内求解。将变量连续化或离散化近似可以简化问题的求解，但也会导致最终解的劣化，需要设计更好的MEC系统优化问题的求解方法以实现更优的性能。

发明内容

针对MEC系统难以直接与协同推理方法结合协助接入设备完成复杂DNN模型推理任务的情况，本发明的主要目的是提出一种用于多接入边缘计算系统的神经网络协同推理方法，实现MEC系统中的协同推理，降低用户设备端的推理时延及能耗。

本发明的目的是通过以下技术方案实现的：

本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法，首先以轻量自编码器(Autoencoder)及特征量化方法压缩模型中间特征，减少需要通过无线信道传输的数据；随后使用深度强化学习优化针对DNN模型推理任务的MEC系统，实现MEC系统中的高效协同推理，降低用户设备端的推理时延及能耗。

本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法，具体包含以下步骤：

步骤一：给MEC系统中各用户设备上部署的DNN模型设定可用切分点，在各可用切分点处训练用于压缩特征的轻量自编码器；

首先收集MEC系统中各接入设备上部署的模型，将每个包含下采样操作的网络层前面设定为可用切分点，随后在每个切分点处训练用于压缩特征的自编码器。自编码器编码端和解码端都只由一个卷积层构成。编码卷积层的输入通道数由自编码器的输入特征尺寸确定，输出通道数在满足给定可容忍精度损失的前提下取尽可能小的数值，以实现尽可能大的压缩率。自编码器训练完成后，使用特征量化技术进一步压缩编码器的输出，其中量化位数在可容忍精度损失的范围内取尽量小的数值。

步骤二：建立系统模型，测量各DNN模型推理及特征压缩所需的时延及能耗，建立优化问题；

将训练完的自编码器部署后，首先建立描述推理时延及能耗的系统模型。对于用户n，有三种可用的推理模式：1、在本地完成DNN模型前b_n层推理，其中

随后使用自编码器和量化技术压缩中间特征，将压缩后的特征通过无线信道传输至边缘服务器端解码后，在服务器上完成后B_n-b_n层推理并返回结果的协同推理模式；2、完全使用接入设备完成推理的本地推理模式，此情况记b_n＝B_n；3、直接将原始输入数据通过无线信道传输至边缘服务器，在服务器上完成全部推理并返回结果的边缘推理模式，此情况记b_n＝0。在总可用信道数目为C时，多接入MEC系统的通信模型为：

其中r_n为用户n与边缘服务器间的无线通信上行速率，c_n∈{1,2,…,C}为被用户n占用的无线信道，p_n为用户n的发射功率，g_n为用户n与部署在边缘服务器端的无线基站之间的信道增益，

为信道c_n的带宽，

为信道c_n的背景噪声。

系统的时延模型为：

其中t_n为用户n完成单次推理任务的时延，

与

分别表示完成模型前b_n层推理与特征压缩的时延，

为将中间层特征通过无线信道传输到边缘服务器端的时延，I_{Condition}为指示函数，当且仅当条件Condition为真时函数值为1，否则函数值为0。

根据公式

计算，其中f_n为经过压缩后的中间特征大小。

系统的能耗模型为：

其中e_n为用户n完成单次推理任务的能耗，

与

分别表示完成模型前b_n层推理与特征压缩的能耗，

为将中间层特征通过无线信道传输到边缘服务器端的能耗。

根据公式

计算，其中p_n为用户n的信号发射功率。各DNN模型推理及特征压缩所需的时延及能耗，即

和

使用功率测量仪器在接入设备上实际测量得到。

基于上述系统模型及测量的单设备执行DNN模型推理及特征压缩的时延及能耗，我们希望在多设备的MEC系统中实现小的推理时延及能耗，并建立如下的MINLP优化问题：

其中π为系统推理策略，由切分点选择、无线信道选择以及发射功率设置组成，K_n为用户n需要完成推理的输入样本数量，p_max为单个用户的最大发射功率，β>0是用于权衡时延与能耗的超参数。

步骤三：构建MEC系统的深度强化学习模型，使用混合空间决策算法求解优化问题；

针对上述MINLP问题，使用深度强化学习方法，在同时存在离散和连续变量的混合动作空间中求解可以得到更优的解。深度强化学习的理论基础是马尔可夫决策过程(Markov Decision Process，MDP)，将原始MINLP问题通过划分时隙近似转化成符合MDP的形式：

其中T(π)为所有用户完成全部任务所需的总时隙数量，T₀为一个时隙长度，E_t(π)为第t个时隙内系统的总能量消耗，K(π)为每个时隙内完成总任务数量的期望值。

在转化后问题的基础上，深度强化学习模型的状态空间定义为s_t＝{k_t,l_t,n_t,d}，其中k_t为t时刻各用户剩余任务数量，l_t为t时刻各用户当前本地推理任务的剩余完成时间，n_t为t时刻各用户当前特征传输任务的剩余数据量，d为各用户与无线基站之间的距离。

动作空间定义为a_t＝{b_t,c_t,p_t}，其中b_t为t时刻各用户选取的切分点，c_t为t时刻各用户选取的特征传输信道，p_t为t时刻各用户设定的信号发射功率。

奖励函数定义为：

在此强化学习模型为多智能体混合动作空间决策模型。针对多智能体问题，为每个用户分配一个独立的用于提供策略的演员(Actor)网络，并使用一个全局的评论家(Critic)网络评估各Actor网络提供的策略；针对混合动作空间决策问题，使每个Actor网络具有多个分支结构，同时在混合空间中输出多个动作。具体的，在t时刻，对应用户n的Actor网络以状态s_t为输入，输出针对用户n的动作三元组(b_t,n,c_t,n,p_t,n)；Critic网络以状态s_t为输入，输出对应的期望总回报值V^π(s_t)。根据定义的系统模型建立仿真环境，使用近端策略优化(Proximal Policy Optimization，PPO)算法训练Actor网络与Critic网络。

步骤四：协调系统内用户及服务器完成DNN模型推理任务。

将训练完成的Actor网络部署于边缘服务器端，以协调系统内用户及服务器完成DNN模型推理任务。在某一时隙开始时，系统内各接入设备将自身当前状态发送到边缘服务器，边缘服务器汇总各用户状态后由Actor网络得到所有用户的推理策略，并将其分别发送给对应的用户。在下一时隙更新策略前，各用户根据边缘服务器提供的策略完成推理。由Actor网络得到的策略能够合理分配有限的无线信道资源，同时特征压缩方法能够降低需要传输的数据量。进一步减缓无线信道内的拥塞情况，因此更多任务可以被卸载到计算资源更丰富的边缘服务器端执行，有效降低用户设备端的推理时延及能耗。

有益效果

1、本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法，使用MEC系统协助多个接入用户设备完成DNN推理任务，与直接在本地完成推理的方法相比，本方法可以实现更低的推理时延及能耗，有助于部署更复杂的模型。

2、本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法，使用轻量自编码器及特征量化方法压缩模型中间特征，与传输原始中间特征的方法相比，本方法可以极大减少需要通过无线信道传输的数据量，减轻了传输特征所需的时间，进一步降低了系统时延及能耗。

3、本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法，使用深度强化学习技术直接优化混合动作空间，与使用连续化或离散化近似动作空间的技术相比，本方法可以实现更好的系统优化，获得更优的系统性能。

附图说明

图1为本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法的流程示意图。

图2为本发明实施例中的系统框架示意图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时论述本发明的技术方案解决的技术问题及有益效果。需要指出的是，所描述的实施例旨在便于对本发明的理解，对本发明不起任何限定作用。

实施例1

本实施例论述的是一种用于多接入边缘计算系统的神经网络协同推理方法在具有多个接入设备、多个无线信道及一个边缘服务器场景中的应用。具体实施步骤如下：

步骤一、准备用于部署的模型，为其设定可用切分点，并在各切分点处训练自编码器；

假设接入设备总数为N，且各设备上部署的模型均为使用Caltech101数据集训练的ResNet18模型。训练模型时在数据集上的迭代次数设定为200，批量大小为64，初始学习率为0.1，分别在第80和120轮迭代以10为倍率收缩学习率。在训练好的模型中选定4个可用切分点，分别位于第2-5次执行下采样操作的网络层前。将最大可容忍精度损失设定为2％。将编码器与解码器卷积层的卷积核尺寸设置为1，记编码器的输出通道数为C_out∈{2ⁱ|i∈R₊}，逐渐递增C_out的取值，在每个可用切分点处训练自编码器，直至首次满足精度损失要求为止，根据对应的i得到C_out的最终数值。每个自编码器的训练都分为两阶段：

第一阶段，固定预训练DNN模型参数，仅训练自编码器参数，其损失函数如下：

其中

为交叉熵函数，F_i为原始特征，F_o为经编码器压缩、量化、解码器解码后的特征，y′为DNN模型预测的样本标签，y为样本真实标签。此阶段训练时在数据集上的迭代次数设定为10，批量大小为64，初始学习率为0.1，在第7轮迭代以10为倍率收缩学习率。

第二阶段，将DNN模型与自编码器参数一同微调训练，损失函数如下：

此阶段训练时在数据集上的迭代次数设定为5，批量大小为64，学习率为0.001。

自编码器训练完成后，使用如下量化方式进一步压缩编码器输出：

其中x为编码器输出，x′为量化后的特征，c_q为量化后表示单个数值所用的比特数，在此实施例中设置为8。此步骤中各自编码器设置及训练结果如下：

切分点序号	C<sub>in</sub>	C<sub>out</sub>	量化比特数	总压缩率	精度损失
						1	64	4	8	64	0.92％
2	128	8	8	64	1.63％
						3	256	16	8	64	1.47％
4	512	4	8	1024	1.80％

步骤二、测量各DNN模型推理及特征压缩所需时延及能耗；

使用NVIDIA Jetson Nano模拟接入设备，在其上部署训练完成的DNN模型及自编码器，使用其内建性能监测组件jtop的Python接口测量DNN模型切分点前部分的推理及特征压缩所需的时延及能耗。此步骤中的测量将NVIDIA Jetson Nano置于功率上限为5W的工作模式下，并关闭动态电压频率调节，测量结果如下：

步骤三、根据系统模型、深度强化学习模型及测量数据建立强化学习仿真环境，训练强化学习模型；

首先建立强化学习仿真环境。强化学习环境需要留有与智能体进行交互的接口，其以智能体给出的动作向量为输入，根据环境内部记录的当前时刻状态向量，计算出下一时刻的状态向量、对应的奖励函数值并返回给智能体。该仿真环境中设定接入设备总数N＝5，无线信道总数C＝2，每个信道带宽为1MHz，背景噪声

信道增益

其中d_n为用户设备n与边缘服务器之间的距离，路径损耗指数l＝3，时隙长度T₀＝0.5，最大发射功率p_max＝5，平衡时延及能耗的超参数β＝0.47。

初始化仿真环境中的系统状态初始化函数为：

各Actor网络与Critic网络均由四层神经网络构成，训练算法如下：

步骤四、部署Actor网络，协调系统内用户及服务器完成DNN模型推理任务。

将各Actor网络部署于边缘服务器端，在每个时隙开始时，服务器收集各接入设备的状态，并反回推理策略，各接入设备在整个时隙内依照服务器提供的策略完成推理任务。当各用户设备需要完成的任务数量K_n均为200，各用户设备与边缘服务器之间的距离d_n为50米时，本实施例有如下结果：

方法	时延(ms)/样本	能耗(mj)/样本
			仅本地推理	45.9	98.4
仅边缘服务器推理	84.3	210.7
			协同推理	32.0	48.7

其中仅使用边缘服务器时各接入设备将其输入数据排队经无线信道传输至服务器端，同一时刻每条信道只有一个用户占用以避免不同用户信号之间的干扰，发射功率设置为2.5W。

因此，本发明公开的一种用于多接入边缘计算系统的神经网络协同推理方法使用了自编码器于量化技术压缩中间特征，并使用深度强化学习优化系统性能，有效降低了各接入设备的平均推理时延和能耗，为基于复杂模型的智能应用在移动设备上的部署提供了支撑。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于多接入边缘计算系统的神经网络协同推理方法，其特征在于，包括如下步骤，

步骤四：协调系统内用户及服务器完成DNN模型推理任务，降低用户设备端的推理时延及能耗。

2.如权利要求1所述的一种用于多接入边缘计算系统的神经网络协同推理方法，其特征在于：步骤一的实现方法为，

首先收集MEC系统中各接入设备上部署的模型，将每个包含下采样操作的网络层前面设定为可用切分点，随后在每个切分点处训练用于压缩特征的自编码器；自编码器编码端和解码端都只由一个卷积层构成；编码卷积层的输入通道数由自编码器的输入特征尺寸确定，输出通道数在满足给定可容忍精度损失的前提下取尽可能小的数值，以实现尽可能大的压缩率；自编码器训练完成后，使用特征量化技术进一步压缩编码器的输出，其中量化位数在可容忍精度损失的范围内取尽量小的数值。

3.如权利要求1所述的一种用于多接入边缘计算系统的神经网络协同推理方法，其特征在于：步骤二的实现方法为，

将训练完的自编码器部署后，首先建立描述推理时延及能耗的系统模型；对于用户n，有三种可用的推理模式：1、在本地完成DNN模型前b_n层推理，其中

随后使用自编码器和量化技术压缩中间特征，将压缩后的特征通过无线信道传输至边缘服务器端解码后，在服务器上完成后B_n-b_n层推理并返回结果的协同推理模式；2、完全使用接入设备完成推理的本地推理模式，此情况记b_n＝B_n；3、直接将原始输入数据通过无线信道传输至边缘服务器，在服务器上完成全部推理并返回结果的边缘推理模式，此情况记b_n＝0；在总可用信道数目为C时，多接入MEC系统的通信模型为：

其中r_n为用户n与边缘服务器间的无线通信上行速率，c_n∈{1，2，...，C}为被用户n占用的无线信道，p_n为用户n的发射功率，g_n为用户n与部署在边缘服务器端的无线基站之间的信道增益，

为信道c_n的带宽，

为信道c_n的背景噪声；

系统的时延模型为：

其中t_n为用户n完成单次推理任务的时延，

与

分别表示完成模型前b_n层推理与特征压缩的时延，

为将中间层特征通过无线信道传输到边缘服务器端的时延，I_{Condition}为指示函数，当且仅当条件Condition为真时函数值为1，否则函数值为0；

根据公式

计算，其中f_n为经过压缩后的中间特征大小；

系统的能耗模型为：

其中e_n为用户n完成单次推理任务的能耗，

与

分别表示完成模型前b_n层推理与特征压缩的能耗，

为将中间层特征通过无线信道传输到边缘服务器端的能耗；

根据公式

计算，其中p_n为用户n的信号发射功率；各DNN模型推理及特征压缩所需的时延及能耗，即

和

使用功率测量仪器在接入设备上实际测量得到；

其中π为系统推理策略，由切分点选择、无线信道选择以及发射功率设置组成，K_n为用户n需要完成推理的输入样本数量，p_max为单个用户的最大发射功率，β＞0是用于权衡时延与能耗的超参数。

4.如权利要求1所述的一种用于多接入边缘计算系统的神经网络协同推理方法，其特征在于：步骤三的实现方法为：

针对上述MINLP问题，使用深度强化学习方法，在同时存在离散和连续变量的混合动作空间中求解可以得到更优的解；深度强化学习的理论基础是马尔可夫决策过程(MarkovDecision Process，MDP)，将原始MINLP问题通过划分时隙近似转化成符合MDP的形式：

其中T(π)为所有用户完成全部任务所需的总时隙数量，T₀为一个时隙长度，E_t(π)为第t个时隙内系统的总能量消耗，K(π)为每个时隙内完成总任务数量的期望值；

在转化后问题的基础上，深度强化学习模型的状态空间定义为s_t＝{k_t，l_t，n_t，d}，其中k_t为t时刻各用户剩余任务数量，l_t为t时刻各用户当前本地推理任务的剩余完成时间，n_t为t时刻各用户当前特征传输任务的剩余数据量，d为各用户与无线基站之间的距离；

动作空间定义为a_t＝{b_t，c_t，p_t}，其中b_t为t时刻各用户选取的切分点，c_t为t时刻各用户选取的特征传输信道，p_t为t时刻各用户设定的信号发射功率；

奖励函数定义为：

在此强化学习模型为多智能体混合动作空间决策模型；针对多智能体问题，为每个用户分配一个独立的用于提供策略的演员(Actor)网络，并使用一个全局的评论家(Critic)网络评估各Actor网络提供的策略；针对混合动作空间决策问题，使每个Actor网络具有多个分支结构，同时在混合空间中输出多个动作；具体的，在t时刻，对应用户n的Actor网络以状态s_t为输入，输出针对用户n的动作三元组(b_t，n，c_t，n，p_t，n)；Critic网络以状态s_t为输入，输出对应的期望总回报值V^π(s_t)；根据定义的系统模型建立仿真环境，使用近端策略优化(Proximal Policy Optimization，PPO)算法训练Actor网络与Critic网络。

5.如权利要求1所述的一种用于多接入边缘计算系统的神经网络协同推理方法，其特征在于：步骤四的实现方法为，

将训练完成的Actor网络部署于边缘服务器端，以协调系统内用户及服务器完成DNN模型推理任务；在某一时隙开始时，系统内各接入设备将自身当前状态发送到边缘服务器，边缘服务器汇总各用户状态后由Actor网络得到所有用户的推理策略，并将其分别发送给对应的用户；在下一时隙更新策略前，各用户根据边缘服务器提供的策略完成推理；由Actor网络得到的策略能够合理分配有限的无线信道资源，同时特征压缩方法能够降低需要传输的数据量；进一步减缓无线信道内的拥塞情况，因此更多任务可以被卸载到计算资源更丰富的边缘服务器端执行，有效降低用户设备端的推理时延及能耗。