CN113595993A - 边缘计算下模型结构优化的车载感知设备联合学习方法 - Google Patents

边缘计算下模型结构优化的车载感知设备联合学习方法 Download PDF

Info

Publication number
CN113595993A
CN113595993A CN202110782873.2A CN202110782873A CN113595993A CN 113595993 A CN113595993 A CN 113595993A CN 202110782873 A CN202110782873 A CN 202110782873A CN 113595993 A CN113595993 A CN 113595993A
Authority
CN
China
Prior art keywords
gradient
model
local
vehicle
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110782873.2A
Other languages
English (en)
Other versions
CN113595993B (zh
Inventor
黄泽茵
李贺
李柔仪
李培春
余荣
谭北海
朱璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110782873.2A priority Critical patent/CN113595993B/zh
Publication of CN113595993A publication Critical patent/CN113595993A/zh
Application granted granted Critical
Publication of CN113595993B publication Critical patent/CN113595993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种边缘计算下模型结构优化的车载感知设备联合学习方法,包括:根据车载设备所采用的目标检测算法,建立适用于车载设备的神经网络模型作为本地模型,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度;对本地模型进行梯度稀疏化、量化本地梯度、无损压缩处理;将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器;在车载设备完成本地模型梯度压缩和上传后,由中心服务器进行逐神经元梯度聚合;通过车载设备获取全局的聚合梯度,对本地模型进行更新,利用更新后的模型进行道路感知。

Description

边缘计算下模型结构优化的车载感知设备联合学习方法
技术领域
本发明涉及边缘智能设备的更新领域,具体涉及一种边缘计算下模型结构优化的车载感知设备联合学习方法。
背景技术
近年来,以联合学习为核心的隐私保护人工智能计算技术、边缘计算环境下的联合学习得到了国家各部委和产学研各界的高度关注,如何利用有限的计算、通信、数据和能耗资源从而尽可能地提高联合学习的效率成为了该场景的重要核心问题。但随着边缘计算环境下智能应用的急速发展,联合学习面临着计算、通信和数据资源紧缺的难题,从神经网络的模型本地化更新到梯度参数的层级传递,联合学习系统中的通信网络管理和智能计算两个模块之间无法得到充分的交融。目前的许多研究将联合学习简化为计算加通信的模型,将联合学习的优化问题转化为传统的通信和计算的调度问题,严重限制了资源高效利用的联合学习的发展和进步。因此,从模型结构压缩到参数聚合对整个过程进行优化,提高联合学习在有限资源场景下的效率十分必要。
由于车载边缘设备在计算能力,通信条件和数据分布等方面具有内在的异构性质,这些边缘计算的固有特性降低了联合学习的性能。现有的联合学习研究主要聚焦在算法本身,并不考虑车载设备的通信条件异构性,而联合学习的全局迭代时间由性能最差的车载设备决定,因此异构的通信和计算导致了训练过程时延开销变大;在模型迭代中,中央服务器和客户端之间可能需要多达数百轮的通信,在移动边缘计算中部署联合学习尚未克服移动客户端资源密集的困难,现有的解决方案并不能很好地消除计算、通信、数据资源紧缺的困境,并限制客户端使用相同的神经架构训练模型。
现有车载边缘设备的神经网络压缩方案要么仅压缩从客户端到服务器的上游通信(保持下游通信未压缩),要么仅在理想化的条件下表现良好,压缩限制大。同时会出现各种具有不同计算和通信能力的客户端的情况,神经架构难以适应客户的硬件配置。
发明内容
本发明的目的是提供一种边缘计算下模型结构优化的车载感知设备联合学习方法,赋能海量车载感知设备共同参与联合学习,提高有限资源场景下的学习效率,从而提高车载设备的道路感知性能。
为了实现上述任务,本发明采用以下技术方案:
一种边缘计算下模型结构优化的车载感知设备联合学习方法,包括:
步骤1,模型本地训练
根据车载设备所采用的目标检测算法,建立适用于车载设备的神经网络模型作为本地模型,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度Δi,j+1
步骤2,模型结构化压缩
步骤2.1,梯度稀疏化
稀疏化本地梯度并获得二值化掩码,稀疏化过程是针对本地模型逐层进行的:
首先计算每个卷积核的L2范数:
Figure BDA0003157786700000021
其中xi指第i个卷积核的参数,n为卷积核的总个数;
其次,每个卷积核根据设定的稀疏化率将较小范数的卷积核梯度置零,去除零梯度张量后将非零梯度张量输出,同时将n个卷积核梯度二值化,零梯度参数置0,非零梯度参数置1,从而输出二值化掩码矩阵Mi,j+1
步骤2.2,量化本地梯度
对稀疏化后的本地梯度进行量化,为卷积层和全连接层设置固定的量化位宽:
首先,通过将非零的梯度进行聚类,将数值相近的非零梯度参数当作一类,对同类参数取加权平均可以得到该层梯度的聚类中心真实值,同一类中每个参数共享一个真实值,只存储该值对应的索引值;
其次,构建一个编码对应表,将真实值用简单的二进制索引值表示,直接把真实值一一对应到索引值即可,从而对量化位宽降进行降低;量化后的本地梯度为
Figure BDA0003157786700000022
步骤2.3,无损压缩
具体的压缩过程分为两部分:一是对量化后的本地梯度
Figure BDA0003157786700000031
进行编码,二是利用矩阵稀疏表示法对二值化掩码矩阵Mi,j+1进行压缩;其中,编码分为两个步骤:
首先是构建二叉树:
根据步骤2.2中各索引值在所有索引值中出现的频率,取两个频率最低的索引值来构造初始二叉树,两者频率值相加作为新元素的频率值,再与其它索引值进行比较,依次取两个最小的不断相加,构造出整个带有权重的二叉树;
其次是进行编码:
二叉树分支中左边的支路编码为0,右边分支表示为1,遍历这颗二叉树获取得到所有字符的编码;出现频率越高的字符越会在上层,则它的编码越短;出现频率越低的字符越会在下层,编码越长,最大化缩减整个存储空间;
步骤3,流水线压缩传输
将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器;
步骤4,逐神经元聚合
车载设备完成本地模型梯度压缩和上传后,由中心服务器进行梯度聚合:
用k表示每个梯度参数的上标,未压缩的本地模型的梯度共有K个参数;在第j次全局迭代中,车载设备i上传的本地压缩后的梯度表示为
Figure BDA0003157786700000032
Figure BDA0003157786700000033
以及对应的掩码矩阵为
Figure BDA0003157786700000034
全局聚合梯度Δj可以通过逐神经元的方式进行聚合,并表示为
Figure BDA0003157786700000035
全局梯度的每个元素可以通过以下公式计算:
Figure BDA0003157786700000036
其中
Figure BDA0003157786700000037
表示第i个车载设备的本地数据量大小;
通过逐神经元聚合,得到全局的聚合梯度;在全局聚合梯度中,有些权重在压缩过程中已被裁剪,将保留下来的权重按照加权平均的方式进行聚合作为全局聚合梯度的更新权重;
步骤5,车载设备获取全局的聚合梯度,对本地模型进行更新,利用更新后的模型进行道路感知,利用实时更新模型提高道路感知的性能。
进一步地,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度Δi,j+1,包括:
步骤1.1,在中心服务器对神经网络模型进行参数初始化,得到初始化模型参数
Figure BDA0003157786700000041
通过目标数据集对模型迭代训练j次得到初始化全局模型参数
Figure BDA0003157786700000042
存放于中心服务器中;
步骤1.2,车载设备i从中心服务器下载初始化全局模型的参数
Figure BDA0003157786700000043
不断采集图像数据作为每个车载设备的私有训练数据
Figure BDA0003157786700000044
将其输入到神经网络模型中不断在本地进行更新训练,得到新的模型参数
Figure BDA0003157786700000045
以提升本地模型效果,则本地的更新梯度为:
Figure BDA0003157786700000046
进一步地,对于参数大小为Oout×Oin×k×k的卷积层梯度,其中Oout,Oin,k分别表示输出通道数、输入通道数、卷积核大小,将大小为k×k的二维参数定义为一个卷积核,而将大小为Oin×k×k的三维参数定义为一个卷积过滤器。
进一步地,将本地模型中卷积层、全连接层将的位宽分别为固定为4比特和2比特。
进一步地,所述流水线压缩传输,包括:
多个车载设备进行本地模型训练时,针对某车载设备完成神经网络第一层的模型结构化压缩后,便可马上将第一层的压缩结果进行传输;同时,其余车载设备以流水线的方式重复以上操作,以快速将本地更新模型上传到云服务器。
一种边缘计算下模型结构优化的车载感知设备联合学习装置,包括:
模型本地训练模块,用于根据车载设备所采用的目标检测算法,建立适用于车载设备的神经网络模型作为本地模型,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度;
模型结构化压缩模块,用于对本地模型进行梯度稀疏化、量化本地梯度、无损压缩处理;
流水线压缩传输模块,用于将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器;
逐神经元聚合模块,用于在车载设备完成本地模型梯度压缩和上传后,由中心服务器进行逐神经元梯度聚合;
道路感知模块,用于通过车载设备获取全局的聚合梯度,对本地模型进行更新,利用更新后的模型进行道路感知。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行计算机程序时实现边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。
与现有技术相比,本发明具有以下技术特点:
1.现代深度学习的模型通常会很大,本发明通过基于卷积核的稀疏化和编码对神经网络模型进行压缩,大幅度降低了神经网络的容量;联合学习中,在全局模型收敛之前,终端设备和中心服务器之间需要进行上百次通信进行模型传输,本设计在模型上传时采取多进程的流水线工作模式对压缩和传输两个工作进程叠加,提高模型的通信效率。本发明围绕基于神经网络结构的优化技术展开,从神经网络的内部结构出发优化边缘计算环境下的联合学习,在有限的通信和计算资源场景下赋能更多车载感知设备共同参与联合学习。
2.本发明提出结合动态梯度剪枝、固定量化和无损编码的梯度压缩方案,车载设备之间使用差异化的梯度压缩率。本设计方案中,通过对本地模型梯度更新进行动态压缩,使得压缩率随着训练节点的资源状态而发生动态变化,多个设备在同一次全局迭代中使用不同的压缩率,减缓联合学习中训练时延的“木桶效应”,克服了边缘环境下的异构通信环境导致的巨大时延。
3.车载边缘设备往往涉及用户的各种隐私信息,本发明提出的逐神经元聚合的联合学习方案,针对不同边缘节点压缩后产生的模型参数进行逐神经元聚合,可以在不直接访问数据的情况下训练模型,数据保留在原始位置,边缘节点仅上传训练网络参数,而后将聚合后的参数分发到设备继续训练,如此循环往复,直至模型收敛,整个过程不直接接触用户信息,因此能充分保证信息的安全性。此外中心服务器对多个不同压缩率的模型梯度进行聚合,从而得到更新后的全局模型。
附图说明
图1为模型结构化压缩示意图;
图2为基于多线程的流水线梯度压缩与传输方式;
图3为逐神经元梯度聚合示意图。
具体实施方式
本发明提出了基于边缘计算环境下模型结构优化的车载感知设备联合学习方法,主要应用场景为对车载感知设备中模型训练的优化,模型结构优化方面采用了弹性化的梯度压缩策略,该方案允许多个训练节点在同一全局迭代种使用不同的压缩策略;训练节点完成本地化的模型更新和梯度压缩后,接下来在服务器中进行联合学习,先采取多进程的流水线工作模式将优化后的模型上传到中心服务器,而后通过逐神经元的梯度聚合策略进行加权平均聚合,让服务器进行统一处理,以获得集中式的优化算法返回给边缘节点,不断地迭代学习,最终获得最优的联合训练模型,以便应用在海量移动车载设备中,实现高能效边缘计算。
参见附图,本发明的边缘计算下模型结构优化的车载感知设备联合学习方法,包括以下步骤:
步骤1,模型本地训练
步骤1.1,根据车载设备所采用的目标检测算法,建立适用于车载设备的神经网络模型作为本地模型,在中心服务器对神经网络模型进行参数初始化,得到初始化模型参数
Figure BDA0003157786700000061
通过目标数据集对模型迭代训练j次得到初始化全局模型参数
Figure BDA0003157786700000062
存放于中心服务器中。
其中,所述目标检测算法例如可以为yolov3算法,目标数据集由从驾驶视角获取的道路场景图像构成。
步骤1.2,车载设备i从中心服务器下载初始化全局模型的参数
Figure BDA0003157786700000063
不断采集图像数据作为每个车载设备(边缘节点)的私有训练数据
Figure BDA0003157786700000064
将其输入到神经网络模型中不断在本地进行更新训练,得到新的模型参数
Figure BDA0003157786700000071
以提升本地模型效果,则本地的更新梯度为:
Figure BDA0003157786700000072
接下来将模型进行以下优化操作并传输回云端服务器进行聚合。
步骤2,模型结构化压缩
步骤2.1,梯度稀疏化
本发明提出一种基于卷积核的稀疏化方法,稀疏化本地梯度并获得二值化掩码,算法表形式示如下:
Mi,j+1=Sp(Δi,j+1)
对于参数大小为Oout×Oin×k×k的卷积层梯度,其中Oout,Oin,k分别表示输出通道数、输入通道数、卷积核大小,本发明将大小为k×k的二维参数定义为一个卷积核(即每个卷积核有k*k个参数),而将大小为Oin×k×k的三维参数定义为一个卷积过滤器,Sp()表示梯度稀疏化操作,整个稀疏化过程是逐层进行的,如图1所示,具体稀疏化过程如下:
首先计算每个卷积核的L2范数:
Figure BDA0003157786700000073
其中xi指第i个卷积核的参数,n为卷积核的总个数。
其次,每个卷积核根据设定的稀疏化率将较小范数的卷积核梯度置零,去除零梯度张量后将非零梯度张量输出,同时将n个卷积核梯度二值化,零梯度参数置0,非零梯度参数置1,从而输出二值化掩码矩阵Mi,j+1。其中非零梯度张量的大小与稀疏化率有关,而二值化掩码的行和列取决于输入输出通道数。
步骤2.2,量化本地梯度
对步骤2.1稀疏化后的本地梯度进行量化,算法表示形式如下:
Figure BDA0003157786700000074
其中Mi,j表示节点i在第j次迭代中产生的二值化掩码矩阵,Δi,j+1为车载设备i基于全局模型的参数
Figure BDA0003157786700000075
更新后的本地梯度,而算子⊙表示两个高维向量之间逐元素对应相乘;Qt()表示本地梯度量化过程。
本发明中为卷积层和全连接层设置固定的量化位宽,将两者的位宽分别为固定为4比特和2比特;以2比特为例,操作流程如图1所示,具体的量化操作如下:
首先,通过将非零的梯度进行聚类,将数值相近的非零梯度参数当作一类,对同类参数取加权平均可以得到该层梯度的聚类中心真实值,同一类中每个参数共享一个真实值,只存储该值对应的索引值;
其次,构建一个编码对应表,将真实值用简单的二进制索引值表示,直接把真实值一一对应到索引值即可,从而将32比特的量化位宽降低到4比特和2比特,大大降低梯度了的大小;量化后的本地梯度为
Figure BDA0003157786700000081
步骤2.3,无损压缩
具体的压缩过程分为两部分:一是对步骤2.2获得的量化后的本地梯度
Figure BDA0003157786700000082
进行编码,二是利用矩阵稀疏表示法对步骤2.1生成的二值化掩码矩阵Mi,j+1进行压缩;其中,编码分为两个步骤:
首先是构建二叉树:
根据步骤2.2中各索引值在所有索引值中出现的频率,取两个频率最低的索引值来构造初始二叉树,两者频率值相加作为新元素的频率值,再与其它索引值进行比较,依次取两个最小的不断相加,构造出整个带有权重的(也就是频率值)二叉树。
由于在神经网络的训练产生的梯度中,接近于零的梯度占据绝大多数,因此步骤2.2中的索引值的频率也相差较大,所以对压缩后的梯度采用编码进一步处理。
其次是进行编码:
二叉树分支中左边的支路编码为0,右边分支表示为1,遍历这颗二叉树获取得到所有字符的编码;出现频率越高的字符越会在上层,则它的编码越短;出现频率越低的字符越会在下层,编码越长,最大化缩减整个存储空间。
步骤3,流水线压缩传输
将量化后的本地梯度和压缩后的二值化掩码矩阵上传至中心服务器,本发明采用基于多进程的流水线工作模式,可以把压缩梯度所需的计算时延降低到可被忽略的程度。通过流水线机制(Pipeline mechanism)将步骤2的梯度压缩和梯度上传两个工作叠加,具体示意图如图2所示。
多个车载设备进行本地模型训练时,针对某车载设备完成神经网络第一层的梯度压缩后,便可马上将第一层的压缩梯度进行传输;同时,对另外的车载设备进行梯度压缩的操作后再传输,其余车载设备以流水线的方式重复以上操作,以快速将本地更新模型上传到云服务器。
步骤4,逐神经元聚合
车载设备完成本地模型梯度压缩和上传后,由中心服务器进行梯度聚合。而每个边缘设备上传的梯度均被不同程度地裁剪过,不能直接进行聚合的问题,因此本方案提出了一种逐神经元的梯度聚合方法。
具体地,用k表示每个梯度参数的上标,未压缩的本地模型的梯度共有K个参数。在第j次全局迭代中,车载设备i上传的本地压缩后的梯度表示为
Figure BDA0003157786700000091
以及对应的掩码矩阵为
Figure BDA0003157786700000092
全局聚合梯度Δj可以通过逐神经元的方式进行聚合,并表示为
Figure BDA0003157786700000093
全局梯度的每个元素可以通过以下公式计算:
Figure BDA0003157786700000094
其中
Figure BDA0003157786700000095
表示第i个车载设备的本地数据量大小。
通过逐神经元聚合,得到全局的聚合梯度,如图3所示。在全局聚合梯度中,每个节点的权重均来自于不同车载设备,有些权重在压缩过程中已被裁剪,只需将保留下来的权重按照加权平均的方式进行聚合作为全局聚合梯度的更新权重,若没被更新,则梯度值为零。在工程实现中,可以利用向量、并行的方式执行,因此梯度聚合的时延开销可以忽略。
步骤5,通过对模型进行本地训练、结构化压缩、流水线上传、逐神经元聚合等操作,最终完成车载感知设备联合学习过程;车载设备获取全局的聚合梯度,对本地模型进行更新,利用更新后的模型进行道路感知,可达利用实时更新模型提高道路感知的性能。
本发明基于神经网络结构优化的技术,针对边缘计算环境下的有限计算、通信和数据资源,设计了基于模型结构压缩的联合学习框架,从计算的角度优化,减少车载边缘设备本地化训练所需的计算开销,缩短了联合学习的收敛时间,同时又为车载边缘设备提供隐私保护,大大减少训练过程中的带宽资源;在模型聚合时采用了逐神经元的联合学习方法,解决了模型结构不完整而无法直接进行聚合的问题,最终提高了联合学习的效率,实现本地资源的最优化利用。
其次,本发明提出的弹性化联合学习框架可针对不同的车载边缘设备采用不同的梯度压缩率,并根据终端设备的硬件配置,通道条件和训练数据大小对联合学习进行优化。通过该方法可减少模型推断的复杂度,使得边缘终端能有效地完成轻量神经网络的本地化推断;也可以在中心服务器端对多个子模型进行有效地调度,从而平衡不同子模型之间对训练数据的使用率,有效克服边缘计算环境下的异构通信和计算资源;同时,训练节点在资源充足的状态下可以选择较小的梯度压缩率,从而提高单次全局迭代的全局模型精度,在资源紧缺的状态下选择较大的梯度压缩率,大大减少模型传输所需的带宽资源。
最后在原有技术的基础上,本发明在模型参数上传时使用基于多线程的流水线压缩传输方法,通过流水线机制将两个工作叠加,使模型压缩和传输几乎同步进行,把由梯度压缩带来的时延开销降低到可被忽略的程度,大大提高了通信速率,降低了通信成本。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种边缘计算下模型结构优化的车载感知设备联合学习方法,其特征在于,包括:
步骤1,模型本地训练
根据车载设备所采用的目标检测算法,建立适用于车载设备的神经网络模型作为本地模型,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度;
步骤2,模型结构化压缩
步骤2.1,梯度稀疏化
稀疏化本地梯度并获得二值化掩码,稀疏化过程是针对本地模型逐层进行的:
首先计算每个卷积核的L2范数:
Figure FDA0003157786690000011
其中xi指第i个卷积核的参数,n为卷积核的总个数;
其次,每个卷积核根据设定的稀疏化率将较小范数的卷积核梯度置零,去除零梯度张量后将非零梯度张量输出,同时将n个卷积核梯度二值化,零梯度参数置0,非零梯度参数置1,从而输出二值化掩码矩阵;
步骤2.2,量化本地梯度
对稀疏化后的本地梯度进行量化,为卷积层和全连接层设置固定的量化位宽:
首先,通过将非零的梯度进行聚类,将数值相近的非零梯度参数当作一类,对同类参数取加权平均可以得到该层梯度的聚类中心真实值,同一类中每个参数共享一个真实值,只存储该值对应的索引值;
其次,构建一个编码对应表,将真实值用简单的二进制索引值表示,直接把真实值一一对应到索引值即可,从而对量化位宽降进行降低;量化后的本地梯度为;
步骤2.3,无损压缩
具体的压缩过程分为两部分:一是对量化后的本地梯度进行编码,二是利用矩阵稀疏表示法对二值化掩码矩阵进行压缩;其中,编码分为两个步骤:
首先是构建二叉树:
根据步骤2.2中各索引值在所有索引值中出现的频率,取两个频率最低的索引值来构造初始二叉树,两者频率值相加作为新元素的频率值,再与其它索引值进行比较,依次取两个最小的不断相加,构造出整个带有权重的二叉树;
其次是进行编码:
二叉树分支中左边的支路编码为0,右边分支表示为1,遍历这颗二叉树获取得到所有字符的编码;出现频率越高的字符越会在上层,则它的编码越短;出现频率越低的字符越会在下层,编码越长,最大化缩减整个存储空间;
步骤3,流水线压缩传输
将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器;
步骤4,逐神经元聚合
车载设备完成本地模型梯度压缩和上传后,由中心服务器进行梯度聚合:
用k表示每个梯度参数的上标,未压缩的本地模型的梯度共有K个参数;在第j次全局迭代中,车载设备i上传的本地压缩后的梯度表示为
Figure FDA0003157786690000021
Figure FDA0003157786690000022
以及对应的掩码矩阵为
Figure FDA0003157786690000023
全局聚合梯度Δj可以通过逐神经元的方式进行聚合,并表示为
Figure FDA0003157786690000024
全局梯度的每个元素可以通过以下公式计算:
Figure FDA0003157786690000025
其中
Figure FDA0003157786690000026
表示第i个车载设备的本地数据量大小;
通过逐神经元聚合,得到全局的聚合梯度;在全局聚合梯度中,有些权重在压缩过程中已被裁剪,将保留下来的权重按照加权平均的方式进行聚合作为全局聚合梯度的更新权重;
步骤5,车载设备获取全局的聚合梯度,对本地模型进行更新,利用更新后的模型进行道路感知,利用实时更新模型提高道路感知的性能。
2.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法,其特征在于,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度,包括:
步骤1.1,在中心服务器对神经网络模型进行参数初始化,得到初始化模型参数
Figure FDA0003157786690000031
通过目标数据集对模型迭代训练j次得到初始化全局模型参数
Figure FDA0003157786690000032
存放于中心服务器中;
步骤1.2,车载设备i从中心服务器下载初始化全局模型的参数
Figure FDA0003157786690000033
不断采集图像数据作为每个车载设备的私有训练数据
Figure FDA0003157786690000034
将其输入到神经网络模型中不断在本地进行更新训练,得到新的模型参数
Figure FDA0003157786690000035
以提升本地模型效果,则本地的更新梯度为:
Figure FDA0003157786690000036
3.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法,其特征在于,对于参数大小为Oout×Oin×k×k的卷积层梯度,其中Oout,Oin,k分别表示输出通道数、输入通道数、卷积核大小,将大小为k×k的二维参数定义为一个卷积核,而将大小为Oin×k×k的三维参数定义为一个卷积过滤器。
4.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法,其特征在于,将本地模型中卷积层、全连接层将的位宽分别为固定为4比特和2比特。
5.根据权利要求1所述的边缘计算下模型结构优化的车载感知设备联合学习方法,其特征在于,所述流水线压缩传输,包括:
多个车载设备进行本地模型训练时,针对某车载设备完成神经网络第一层的模型结构化压缩后,便可马上将第一层的压缩结果进行传输;同时,其余车载设备以流水线的方式重复以上操作,以快速将本地更新模型上传到云服务器。
6.一种边缘计算下模型结构优化的车载感知设备联合学习装置,其特征在于,包括:
模型本地训练模块,用于根据车载设备所采用的目标检测算法,建立适用于车载设备的神经网络模型作为本地模型,利用中心服务器提供的初始化参数,进行本地模型的训练,并进行本地梯度更新,得到更新后的梯度;
模型结构化压缩模块,用于对本地模型进行梯度稀疏化、量化本地梯度、无损压缩处理;
流水线压缩传输模块,用于将量化后的本地梯度和压缩后的二值化掩码矩阵以流水线的形式上传至中心服务器;
逐神经元聚合模块,用于在车载设备完成本地模型梯度压缩和上传后,由中心服务器进行逐神经元梯度聚合;
道路感知模块,用于通过车载设备获取全局的聚合梯度,对本地模型进行更新,利用更新后的模型进行道路感知。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现根据权利要求1至6中任一权利要求所述的边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。
8.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时实现根据权利要求1至6中任一权利要求所述的边缘计算下模型结构优化的车载感知设备联合学习方法的步骤。
CN202110782873.2A 2021-07-12 2021-07-12 边缘计算下模型结构优化的车载感知设备联合学习方法 Active CN113595993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110782873.2A CN113595993B (zh) 2021-07-12 2021-07-12 边缘计算下模型结构优化的车载感知设备联合学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110782873.2A CN113595993B (zh) 2021-07-12 2021-07-12 边缘计算下模型结构优化的车载感知设备联合学习方法

Publications (2)

Publication Number Publication Date
CN113595993A true CN113595993A (zh) 2021-11-02
CN113595993B CN113595993B (zh) 2022-06-14

Family

ID=78247014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110782873.2A Active CN113595993B (zh) 2021-07-12 2021-07-12 边缘计算下模型结构优化的车载感知设备联合学习方法

Country Status (1)

Country Link
CN (1) CN113595993B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492847A (zh) * 2022-04-18 2022-05-13 奥罗科技(天津)有限公司 一种高效个性化联邦学习系统和方法
CN115514789A (zh) * 2022-11-01 2022-12-23 国网天津市电力公司电力科学研究院 压缩感知的车网交互数据轻量级安全汇聚传输方法及系统
CN116644802A (zh) * 2023-07-19 2023-08-25 支付宝(杭州)信息技术有限公司 模型训练方法及装置
CN117639792A (zh) * 2023-11-27 2024-03-01 浙江大学 一种基于码表聚类的深度学习模型压缩方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180307986A1 (en) * 2017-04-20 2018-10-25 Sas Institute Inc. Two-phase distributed neural network training system
CN110914836A (zh) * 2017-05-09 2020-03-24 纽拉拉股份有限公司 在跨联网计算边缘连续运行应用程序的人工智能和深度学习中实现连续的存储器有界学习的系统和方法
CN112183748A (zh) * 2020-09-30 2021-01-05 中国科学院自动化研究所 基于稀疏卷积神经网络的模型压缩方法、系统及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180307986A1 (en) * 2017-04-20 2018-10-25 Sas Institute Inc. Two-phase distributed neural network training system
CN110914836A (zh) * 2017-05-09 2020-03-24 纽拉拉股份有限公司 在跨联网计算边缘连续运行应用程序的人工智能和深度学习中实现连续的存储器有界学习的系统和方法
CN112183748A (zh) * 2020-09-30 2021-01-05 中国科学院自动化研究所 基于稀疏卷积神经网络的模型压缩方法、系统及相关设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RONG YU 等: "Toward Resource-Efficient Federated Learning in Mobile Edge Computing", 《IEEE NETWORK》 *
XUMIN HUANG: "Social Welfare Maximization in Container-Based Task Scheduling for Parked Vehicle Edge Computing", 《IEEE COMMUNICATIONS LETTERS》 *
吴琪等: "边缘学习:关键技术、应用与挑战", 《无线电通信技术》 *
芦效峰 等: "一种面向边缘计算的高效异步联邦学习机制", 《计算机研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492847A (zh) * 2022-04-18 2022-05-13 奥罗科技(天津)有限公司 一种高效个性化联邦学习系统和方法
CN115514789A (zh) * 2022-11-01 2022-12-23 国网天津市电力公司电力科学研究院 压缩感知的车网交互数据轻量级安全汇聚传输方法及系统
CN116644802A (zh) * 2023-07-19 2023-08-25 支付宝(杭州)信息技术有限公司 模型训练方法及装置
CN117639792A (zh) * 2023-11-27 2024-03-01 浙江大学 一种基于码表聚类的深度学习模型压缩方法

Also Published As

Publication number Publication date
CN113595993B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN113595993B (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
CN110909865B (zh) 边缘计算中基于分层张量分解的联邦学习方法
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN107516129B (zh) 基于维度自适应的Tucker分解的深度网络压缩方法
CN108510058B (zh) 神经网络中的权重存储方法以及基于该方法的处理器
CN108334945A (zh) 深度神经网络的加速与压缩方法及装置
CN114581544A (zh) 图像压缩方法、计算机设备及计算机存储介质
Hu et al. An image compression and encryption scheme based on deep learning
CN111126599B (zh) 一种基于迁移学习的神经网络权重初始化方法
CN111696149A (zh) 针对基于cnn的立体匹配算法的量化方法
Pilipović et al. Compression of convolutional neural networks: A short survey
CN110751265A (zh) 一种轻量型神经网络构建方法、系统及电子设备
CN116542322A (zh) 一种联邦学习方法
Ma et al. A unified approximation framework for compressing and accelerating deep neural networks
CN108805844B (zh) 一种基于先验滤波的轻量化回归网络构建方法
Samplawski et al. Towards objection detection under iot resource constraints: Combining partitioning, slicing and compression
Li et al. Towards communication-efficient digital twin via ai-powered transmission and reconstruction
Shen et al. Efficient deep structure learning for resource-limited IoT devices
CN114492847B (zh) 一种高效个性化联邦学习系统和方法
Chen et al. DNN gradient lossless compression: Can GenNorm be the answer?
CN114677545B (zh) 一种基于相似性剪枝和高效模块的轻量化图像分类方法
Liu et al. Flexi-compression: a flexible model compression method for autonomous driving
Minu et al. An efficient squirrel search algorithm based vector quantization for image compression in unmanned aerial vehicles
CN114154626B (zh) 一种用于图像分类任务的滤波器剪枝方法
CN114154621A (zh) 一种基于fpga的卷积神经网络图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant