CN113595993A

CN113595993A - 边缘计算下模型结构优化的车载感知设备联合学习方法

Info

Publication number: CN113595993A
Application number: CN202110782873.2A
Authority: CN
Inventors: 黄泽茵; 李贺; 李柔仪; 李培春; 余荣; 谭北海; 朱璟
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-11-02
Anticipated expiration: 2041-07-12
Also published as: CN113595993B

Abstract

本发明公开了一种边缘计算下模型结构优化的车载感知设备联合学习方法，包括：根据车载设备所采用的目标检测算法，建立适用于车载设备的神经网络模型作为本地模型，利用中心服务器提供的初始化参数，进行本地模型的训练，并进行本地梯度更新，得到更新后的梯度；对本地模型进行梯度稀疏化、量化本地梯度、无损压缩处理；将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器；在车载设备完成本地模型梯度压缩和上传后，由中心服务器进行逐神经元梯度聚合；通过车载设备获取全局的聚合梯度，对本地模型进行更新，利用更新后的模型进行道路感知。

Description

边缘计算下模型结构优化的车载感知设备联合学习方法

技术领域

本发明涉及边缘智能设备的更新领域，具体涉及一种边缘计算下模型结构优化的车载感知设备联合学习方法。

背景技术

近年来，以联合学习为核心的隐私保护人工智能计算技术、边缘计算环境下的联合学习得到了国家各部委和产学研各界的高度关注，如何利用有限的计算、通信、数据和能耗资源从而尽可能地提高联合学习的效率成为了该场景的重要核心问题。但随着边缘计算环境下智能应用的急速发展，联合学习面临着计算、通信和数据资源紧缺的难题，从神经网络的模型本地化更新到梯度参数的层级传递，联合学习系统中的通信网络管理和智能计算两个模块之间无法得到充分的交融。目前的许多研究将联合学习简化为计算加通信的模型，将联合学习的优化问题转化为传统的通信和计算的调度问题，严重限制了资源高效利用的联合学习的发展和进步。因此，从模型结构压缩到参数聚合对整个过程进行优化，提高联合学习在有限资源场景下的效率十分必要。

由于车载边缘设备在计算能力，通信条件和数据分布等方面具有内在的异构性质，这些边缘计算的固有特性降低了联合学习的性能。现有的联合学习研究主要聚焦在算法本身，并不考虑车载设备的通信条件异构性，而联合学习的全局迭代时间由性能最差的车载设备决定，因此异构的通信和计算导致了训练过程时延开销变大；在模型迭代中，中央服务器和客户端之间可能需要多达数百轮的通信，在移动边缘计算中部署联合学习尚未克服移动客户端资源密集的困难，现有的解决方案并不能很好地消除计算、通信、数据资源紧缺的困境，并限制客户端使用相同的神经架构训练模型。

现有车载边缘设备的神经网络压缩方案要么仅压缩从客户端到服务器的上游通信(保持下游通信未压缩)，要么仅在理想化的条件下表现良好，压缩限制大。同时会出现各种具有不同计算和通信能力的客户端的情况，神经架构难以适应客户的硬件配置。

发明内容

本发明的目的是提供一种边缘计算下模型结构优化的车载感知设备联合学习方法，赋能海量车载感知设备共同参与联合学习，提高有限资源场景下的学习效率，从而提高车载设备的道路感知性能。

为了实现上述任务，本发明采用以下技术方案：

一种边缘计算下模型结构优化的车载感知设备联合学习方法，包括：

步骤1，模型本地训练

根据车载设备所采用的目标检测算法，建立适用于车载设备的神经网络模型作为本地模型，利用中心服务器提供的初始化参数，进行本地模型的训练，并进行本地梯度更新，得到更新后的梯度Δ_i,j+1；

步骤2，模型结构化压缩

步骤2.1，梯度稀疏化

稀疏化本地梯度并获得二值化掩码，稀疏化过程是针对本地模型逐层进行的：

首先计算每个卷积核的L2范数：

其中x_i指第i个卷积核的参数，n为卷积核的总个数；

其次，每个卷积核根据设定的稀疏化率将较小范数的卷积核梯度置零，去除零梯度张量后将非零梯度张量输出，同时将n个卷积核梯度二值化，零梯度参数置0，非零梯度参数置1，从而输出二值化掩码矩阵M_i,j+1；

步骤2.2，量化本地梯度

对稀疏化后的本地梯度进行量化，为卷积层和全连接层设置固定的量化位宽：

首先，通过将非零的梯度进行聚类，将数值相近的非零梯度参数当作一类，对同类参数取加权平均可以得到该层梯度的聚类中心真实值，同一类中每个参数共享一个真实值，只存储该值对应的索引值；

其次，构建一个编码对应表，将真实值用简单的二进制索引值表示，直接把真实值一一对应到索引值即可，从而对量化位宽降进行降低；量化后的本地梯度为

步骤2.3，无损压缩

具体的压缩过程分为两部分：一是对量化后的本地梯度

进行编码，二是利用矩阵稀疏表示法对二值化掩码矩阵M_i,j+1进行压缩；其中，编码分为两个步骤：

首先是构建二叉树：

根据步骤2.2中各索引值在所有索引值中出现的频率，取两个频率最低的索引值来构造初始二叉树，两者频率值相加作为新元素的频率值，再与其它索引值进行比较，依次取两个最小的不断相加，构造出整个带有权重的二叉树；

其次是进行编码：

二叉树分支中左边的支路编码为0，右边分支表示为1，遍历这颗二叉树获取得到所有字符的编码；出现频率越高的字符越会在上层，则它的编码越短；出现频率越低的字符越会在下层，编码越长，最大化缩减整个存储空间；

步骤3，流水线压缩传输

将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器；

步骤4，逐神经元聚合

车载设备完成本地模型梯度压缩和上传后，由中心服务器进行梯度聚合：

用k表示每个梯度参数的上标，未压缩的本地模型的梯度共有K个参数；在第j次全局迭代中，车载设备i上传的本地压缩后的梯度表示为

以及对应的掩码矩阵为

全局聚合梯度Δ_j可以通过逐神经元的方式进行聚合，并表示为

全局梯度的每个元素可以通过以下公式计算：

其中

表示第i个车载设备的本地数据量大小；

通过逐神经元聚合，得到全局的聚合梯度；在全局聚合梯度中，有些权重在压缩过程中已被裁剪，将保留下来的权重按照加权平均的方式进行聚合作为全局聚合梯度的更新权重；

步骤5，车载设备获取全局的聚合梯度，对本地模型进行更新，利用更新后的模型进行道路感知，利用实时更新模型提高道路感知的性能。

进一步地，利用中心服务器提供的初始化参数，进行本地模型的训练，并进行本地梯度更新，得到更新后的梯度Δ_i,j+1，包括：

步骤1.1，在中心服务器对神经网络模型进行参数初始化，得到初始化模型参数

通过目标数据集对模型迭代训练j次得到初始化全局模型参数

存放于中心服务器中；

步骤1.2，车载设备i从中心服务器下载初始化全局模型的参数

不断采集图像数据作为每个车载设备的私有训练数据

将其输入到神经网络模型中不断在本地进行更新训练，得到新的模型参数

以提升本地模型效果，则本地的更新梯度为：

进一步地，对于参数大小为O_out×O_in×k×k的卷积层梯度，其中O_out,O_in,k分别表示输出通道数、输入通道数、卷积核大小，将大小为k×k的二维参数定义为一个卷积核，而将大小为O_in×k×k的三维参数定义为一个卷积过滤器。

进一步地，将本地模型中卷积层、全连接层将的位宽分别为固定为4比特和2比特。

进一步地，所述流水线压缩传输，包括：

多个车载设备进行本地模型训练时，针对某车载设备完成神经网络第一层的模型结构化压缩后，便可马上将第一层的压缩结果进行传输；同时，其余车载设备以流水线的方式重复以上操作，以快速将本地更新模型上传到云服务器。

一种边缘计算下模型结构优化的车载感知设备联合学习装置，包括：

模型本地训练模块，用于根据车载设备所采用的目标检测算法，建立适用于车载设备的神经网络模型作为本地模型，利用中心服务器提供的初始化参数，进行本地模型的训练，并进行本地梯度更新，得到更新后的梯度；

模型结构化压缩模块，用于对本地模型进行梯度稀疏化、量化本地梯度、无损压缩处理；

流水线压缩传输模块，用于将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器；

逐神经元聚合模块，用于在车载设备完成本地模型梯度压缩和上传后，由中心服务器进行逐神经元梯度聚合；

道路感知模块，用于通过车载设备获取全局的聚合梯度，对本地模型进行更新，利用更新后的模型进行道路感知。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。

与现有技术相比，本发明具有以下技术特点：

1.现代深度学习的模型通常会很大，本发明通过基于卷积核的稀疏化和编码对神经网络模型进行压缩，大幅度降低了神经网络的容量；联合学习中，在全局模型收敛之前，终端设备和中心服务器之间需要进行上百次通信进行模型传输，本设计在模型上传时采取多进程的流水线工作模式对压缩和传输两个工作进程叠加，提高模型的通信效率。本发明围绕基于神经网络结构的优化技术展开，从神经网络的内部结构出发优化边缘计算环境下的联合学习，在有限的通信和计算资源场景下赋能更多车载感知设备共同参与联合学习。

2.本发明提出结合动态梯度剪枝、固定量化和无损编码的梯度压缩方案，车载设备之间使用差异化的梯度压缩率。本设计方案中，通过对本地模型梯度更新进行动态压缩，使得压缩率随着训练节点的资源状态而发生动态变化，多个设备在同一次全局迭代中使用不同的压缩率，减缓联合学习中训练时延的“木桶效应”，克服了边缘环境下的异构通信环境导致的巨大时延。

3.车载边缘设备往往涉及用户的各种隐私信息，本发明提出的逐神经元聚合的联合学习方案，针对不同边缘节点压缩后产生的模型参数进行逐神经元聚合，可以在不直接访问数据的情况下训练模型，数据保留在原始位置，边缘节点仅上传训练网络参数，而后将聚合后的参数分发到设备继续训练，如此循环往复，直至模型收敛，整个过程不直接接触用户信息，因此能充分保证信息的安全性。此外中心服务器对多个不同压缩率的模型梯度进行聚合，从而得到更新后的全局模型。

附图说明

图1为模型结构化压缩示意图；

图2为基于多线程的流水线梯度压缩与传输方式；

图3为逐神经元梯度聚合示意图。

具体实施方式

本发明提出了基于边缘计算环境下模型结构优化的车载感知设备联合学习方法，主要应用场景为对车载感知设备中模型训练的优化，模型结构优化方面采用了弹性化的梯度压缩策略，该方案允许多个训练节点在同一全局迭代种使用不同的压缩策略；训练节点完成本地化的模型更新和梯度压缩后，接下来在服务器中进行联合学习，先采取多进程的流水线工作模式将优化后的模型上传到中心服务器，而后通过逐神经元的梯度聚合策略进行加权平均聚合，让服务器进行统一处理，以获得集中式的优化算法返回给边缘节点，不断地迭代学习，最终获得最优的联合训练模型，以便应用在海量移动车载设备中，实现高能效边缘计算。

参见附图，本发明的边缘计算下模型结构优化的车载感知设备联合学习方法，包括以下步骤：

步骤1，模型本地训练

步骤1.1，根据车载设备所采用的目标检测算法，建立适用于车载设备的神经网络模型作为本地模型，在中心服务器对神经网络模型进行参数初始化，得到初始化模型参数

通过目标数据集对模型迭代训练j次得到初始化全局模型参数

存放于中心服务器中。

其中，所述目标检测算法例如可以为yolov3算法，目标数据集由从驾驶视角获取的道路场景图像构成。

步骤1.2，车载设备i从中心服务器下载初始化全局模型的参数

不断采集图像数据作为每个车载设备(边缘节点)的私有训练数据

以提升本地模型效果，则本地的更新梯度为：

接下来将模型进行以下优化操作并传输回云端服务器进行聚合。

步骤2，模型结构化压缩

步骤2.1，梯度稀疏化

本发明提出一种基于卷积核的稀疏化方法，稀疏化本地梯度并获得二值化掩码，算法表形式示如下：

M_i,j+1＝Sp(Δ_i,j+1)

对于参数大小为O_out×O_in×k×k的卷积层梯度，其中O_out,O_in,k分别表示输出通道数、输入通道数、卷积核大小，本发明将大小为k×k的二维参数定义为一个卷积核(即每个卷积核有k*k个参数)，而将大小为O_in×k×k的三维参数定义为一个卷积过滤器，Sp()表示梯度稀疏化操作，整个稀疏化过程是逐层进行的，如图1所示，具体稀疏化过程如下：

首先计算每个卷积核的L2范数：

其中x_i指第i个卷积核的参数，n为卷积核的总个数。

其次，每个卷积核根据设定的稀疏化率将较小范数的卷积核梯度置零，去除零梯度张量后将非零梯度张量输出，同时将n个卷积核梯度二值化，零梯度参数置0，非零梯度参数置1，从而输出二值化掩码矩阵M_i,j+1。其中非零梯度张量的大小与稀疏化率有关，而二值化掩码的行和列取决于输入输出通道数。

步骤2.2，量化本地梯度

对步骤2.1稀疏化后的本地梯度进行量化，算法表示形式如下：

其中M_i,j表示节点i在第j次迭代中产生的二值化掩码矩阵，Δ_i,j+1为车载设备i基于全局模型的参数

更新后的本地梯度，而算子⊙表示两个高维向量之间逐元素对应相乘；Qt()表示本地梯度量化过程。

本发明中为卷积层和全连接层设置固定的量化位宽，将两者的位宽分别为固定为4比特和2比特；以2比特为例，操作流程如图1所示，具体的量化操作如下：

其次，构建一个编码对应表，将真实值用简单的二进制索引值表示，直接把真实值一一对应到索引值即可，从而将32比特的量化位宽降低到4比特和2比特，大大降低梯度了的大小；量化后的本地梯度为

步骤2.3，无损压缩

具体的压缩过程分为两部分：一是对步骤2.2获得的量化后的本地梯度

进行编码，二是利用矩阵稀疏表示法对步骤2.1生成的二值化掩码矩阵M_i,j+1进行压缩；其中，编码分为两个步骤：

首先是构建二叉树：

根据步骤2.2中各索引值在所有索引值中出现的频率，取两个频率最低的索引值来构造初始二叉树，两者频率值相加作为新元素的频率值，再与其它索引值进行比较，依次取两个最小的不断相加，构造出整个带有权重的(也就是频率值)二叉树。

由于在神经网络的训练产生的梯度中，接近于零的梯度占据绝大多数，因此步骤2.2中的索引值的频率也相差较大，所以对压缩后的梯度采用编码进一步处理。

其次是进行编码：

二叉树分支中左边的支路编码为0，右边分支表示为1，遍历这颗二叉树获取得到所有字符的编码；出现频率越高的字符越会在上层，则它的编码越短；出现频率越低的字符越会在下层，编码越长，最大化缩减整个存储空间。

步骤3，流水线压缩传输

将量化后的本地梯度和压缩后的二值化掩码矩阵上传至中心服务器，本发明采用基于多进程的流水线工作模式，可以把压缩梯度所需的计算时延降低到可被忽略的程度。通过流水线机制(Pipeline mechanism)将步骤2的梯度压缩和梯度上传两个工作叠加，具体示意图如图2所示。

多个车载设备进行本地模型训练时，针对某车载设备完成神经网络第一层的梯度压缩后，便可马上将第一层的压缩梯度进行传输；同时，对另外的车载设备进行梯度压缩的操作后再传输，其余车载设备以流水线的方式重复以上操作，以快速将本地更新模型上传到云服务器。

步骤4，逐神经元聚合

车载设备完成本地模型梯度压缩和上传后，由中心服务器进行梯度聚合。而每个边缘设备上传的梯度均被不同程度地裁剪过，不能直接进行聚合的问题，因此本方案提出了一种逐神经元的梯度聚合方法。

具体地，用k表示每个梯度参数的上标，未压缩的本地模型的梯度共有K个参数。在第j次全局迭代中，车载设备i上传的本地压缩后的梯度表示为

以及对应的掩码矩阵为

全局梯度的每个元素可以通过以下公式计算：

其中

表示第i个车载设备的本地数据量大小。

通过逐神经元聚合，得到全局的聚合梯度，如图3所示。在全局聚合梯度中，每个节点的权重均来自于不同车载设备，有些权重在压缩过程中已被裁剪，只需将保留下来的权重按照加权平均的方式进行聚合作为全局聚合梯度的更新权重，若没被更新，则梯度值为零。在工程实现中，可以利用向量、并行的方式执行，因此梯度聚合的时延开销可以忽略。

步骤5，通过对模型进行本地训练、结构化压缩、流水线上传、逐神经元聚合等操作，最终完成车载感知设备联合学习过程；车载设备获取全局的聚合梯度，对本地模型进行更新，利用更新后的模型进行道路感知，可达利用实时更新模型提高道路感知的性能。

本发明基于神经网络结构优化的技术，针对边缘计算环境下的有限计算、通信和数据资源，设计了基于模型结构压缩的联合学习框架，从计算的角度优化，减少车载边缘设备本地化训练所需的计算开销，缩短了联合学习的收敛时间，同时又为车载边缘设备提供隐私保护，大大减少训练过程中的带宽资源；在模型聚合时采用了逐神经元的联合学习方法，解决了模型结构不完整而无法直接进行聚合的问题，最终提高了联合学习的效率，实现本地资源的最优化利用。

其次，本发明提出的弹性化联合学习框架可针对不同的车载边缘设备采用不同的梯度压缩率，并根据终端设备的硬件配置，通道条件和训练数据大小对联合学习进行优化。通过该方法可减少模型推断的复杂度，使得边缘终端能有效地完成轻量神经网络的本地化推断；也可以在中心服务器端对多个子模型进行有效地调度，从而平衡不同子模型之间对训练数据的使用率，有效克服边缘计算环境下的异构通信和计算资源；同时，训练节点在资源充足的状态下可以选择较小的梯度压缩率，从而提高单次全局迭代的全局模型精度，在资源紧缺的状态下选择较大的梯度压缩率，大大减少模型传输所需的带宽资源。

最后在原有技术的基础上，本发明在模型参数上传时使用基于多线程的流水线压缩传输方法，通过流水线机制将两个工作叠加，使模型压缩和传输几乎同步进行，把由梯度压缩带来的时延开销降低到可被忽略的程度，大大提高了通信速率，降低了通信成本。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种边缘计算下模型结构优化的车载感知设备联合学习方法，其特征在于，包括：

步骤1，模型本地训练

根据车载设备所采用的目标检测算法，建立适用于车载设备的神经网络模型作为本地模型，利用中心服务器提供的初始化参数，进行本地模型的训练，并进行本地梯度更新，得到更新后的梯度；

步骤2，模型结构化压缩

步骤2.1，梯度稀疏化

首先计算每个卷积核的L2范数：

其中x_i指第i个卷积核的参数，n为卷积核的总个数；

其次，每个卷积核根据设定的稀疏化率将较小范数的卷积核梯度置零，去除零梯度张量后将非零梯度张量输出，同时将n个卷积核梯度二值化，零梯度参数置0，非零梯度参数置1，从而输出二值化掩码矩阵；

步骤2.2，量化本地梯度

其次，构建一个编码对应表，将真实值用简单的二进制索引值表示，直接把真实值一一对应到索引值即可，从而对量化位宽降进行降低；量化后的本地梯度为；

步骤2.3，无损压缩

具体的压缩过程分为两部分：一是对量化后的本地梯度进行编码，二是利用矩阵稀疏表示法对二值化掩码矩阵进行压缩；其中，编码分为两个步骤：

首先是构建二叉树：

其次是进行编码：

步骤3，流水线压缩传输

步骤4，逐神经元聚合

以及对应的掩码矩阵为

全局梯度的每个元素可以通过以下公式计算：

其中

表示第i个车载设备的本地数据量大小；

2.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法，其特征在于，利用中心服务器提供的初始化参数，进行本地模型的训练，并进行本地梯度更新，得到更新后的梯度，包括：

通过目标数据集对模型迭代训练j次得到初始化全局模型参数

存放于中心服务器中；

步骤1.2，车载设备i从中心服务器下载初始化全局模型的参数

不断采集图像数据作为每个车载设备的私有训练数据

以提升本地模型效果，则本地的更新梯度为：

3.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法，其特征在于，对于参数大小为O_out×O_in×k×k的卷积层梯度，其中O_out,O_in,k分别表示输出通道数、输入通道数、卷积核大小，将大小为k×k的二维参数定义为一个卷积核，而将大小为O_in×k×k的三维参数定义为一个卷积过滤器。

4.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法，其特征在于，将本地模型中卷积层、全连接层将的位宽分别为固定为4比特和2比特。

5.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法，其特征在于，所述流水线压缩传输，包括：

6.一种边缘计算下模型结构优化的车载感知设备联合学习装置，其特征在于，包括：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现根据权利要求1至6中任一权利要求所述的边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。

8.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现根据权利要求1至6中任一权利要求所述的边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。