CN115223049A

CN115223049A - 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术

Info

Publication number: CN115223049A
Application number: CN202211140194.6A
Authority: CN
Inventors: 聂礼强; 甘甜; 关惟俐; 郑晓云; 翟永杰; 赵砚青; 罗旺; 陈雨涛; 高赞
Original assignee: Shandong University; North China Electric Power University; NARI Group Corp; Shandong Computer Science Center National Super Computing Center in Jinan; Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhiyang Innovation Technology Co Ltd
Current assignee: Shandong University; North China Electric Power University; NARI Group Corp; Shandong Computer Science Center National Super Computing Center in Jinan; Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhiyang Innovation Technology Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-10-21
Anticipated expiration: 2042-09-20
Also published as: CN115223049B

Abstract

本发明属于压缩技术领域，具体提供了一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术。其包括以下步骤:电力场景任务抽象；双层知识蒸馏网络单元构建；教师模型修饰处理；主从教师监督框架：基于教师‑学生蒸馏网络，使用多个数据集训练不同的教师模型，包括与目标任务类似的场景数据集和实际落地场景的数据集，将这些数据集进行划分，训练多个教师模型，按照数据集与落地场景相似度分配指导权重，分为主教师模型和若干个从教师模型，从而对学生模型进行不同层面的知识引导，提高学生模型在复杂场景下的泛化能力；学生模型压缩感知训练。

Description

面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术

技术领域

本发明涉及一种压缩技术，具体涉及一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术。

背景技术

高压架空输电线路具有距离长、塔架高、架设位置复杂等特点，由于长期暴露在外力环境中，输电线路可能出现设备本身缺陷问题，如杆塔沉降、绝缘子爆裂、线缆松弛等，受到人为因素的影响，输电线路还会面临外破故障，如盗窃、烟火短路、吊车碰线等威胁电网安全运行的问题。巡检是保证电网安全运行的关键技术手段，传统的安全巡检主要依赖人工，由于线路距离长，巡检劳动强度大，巡检质量也会受到作业人员主观因素影响，巡检范围在恶劣天气或地理环境下会受到很大限制。随着我国特高压输电系统的快速建设，特高压线路杆塔呼高度一般超过五十米，人工巡检使用望远镜已很难准确观察和识别输电线路设备缺陷。

目前无人机已成为架空输电线路巡检的重要技术手段和发展方向。但现有电力巡检无人机和定点监控的工作模式仍以人工操作巡检为主，仅实现远程‘看得见’，但‘看得懂’和‘看的准’还依赖人工。所以让无人机既看得见，又看得懂就成为智能巡检发展的方向。人工智能的发展为多种高危高强度作业带来了自动化解决方案，在巡检的无人机上安装边缘计算设备，搭配深度学习技术，让架空输电线路无人机巡检实现‘看的懂’。

在深度学习中，面对场景简单的识别任务，小型的网络模型便可胜任，对计算硬件和存储硬件往往要求不高，而复杂度更高，参数量更大的模型常常用于小模型无法胜任的任务，如基于Transformer的视觉模型，这类模型通常具有更强的特征学习能力和更加准确的识别效果，但其代价是需要高昂的计算资源和更大的存储空间，同时计算的延迟也更高。无人机巡检过程中，获取到的高压架空输电线路图像往往背景噪音庞杂、视觉干扰因素多，线路也会出现如缝隙识别等难以辨别的本体缺陷，小模型难以胜任输电运输场景，因此亟待一种高精度、高效率的边缘计算模型的生产方法。

本发明旨在面向输电线路巡检场景利用多阶段模型压缩技术生成适合边缘计算的高精度和高效率模型。模型压缩方法涵盖训练到部署整个过程，设计训练感知方案监控模型压缩过程的精度损失；构建多导师知识蒸馏策略，根据数据集特征的匹配程度，设定主从导师角色，提高学生模型的泛化能力；对教师模型先剪枝剔除冗余信息，以提供更好的迁移知识，再将知识蒸馏到学生模型，然后对学生模型进行迭代式剪枝，充分利用导师模型中的有益信息；为充分挖掘模型的可压缩空间，提出在学生模型迭代式剪枝过程中同时模拟量化，使用量化后权重的梯度更新量化前的权重，迫使模型在训练过程中将量化误差抹平。本发明利用多种压缩手段，在维持模型精度的前提下剔除模型的冗余参数，保证产出模型符合算力弱、硬件资源不足的边缘计算部署环境。

发明内容

本发明目的是提供了一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术。

本发明为实现上述目的，通过以下技术方案实现：

一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术,包括以下步骤:

S1：电力场景任务抽象：对电力输电线路巡检中需识别的主体缺陷和外破隐患进行任务划分和抽象，分割成计算机视觉可执行的具体子任务；

S2：双层知识蒸馏网络单元构建：针对知识蒸馏过程，设计教师—学生网络用于模型训练，教师模型采用基于Transformer的视觉大模型，中等目标模型则为参数量相较少的待进一步压缩的模型，教师模型将在logits层面输出soft-target指导学生模型的训练，同时在中间层输出特征图信息用作指导学生模型的优化，构建logtis层面与中间层相结合的双层知识蒸馏架构；

S3：教师模型修饰处理：为删减教师模型中的冗余信息，对教师高精度大模型进行非结构化剪枝，使其在知识进行迁移时可以提供精炼的有利知识，便于学习能力弱的学生模型进行学习，为保证剪枝后精度的可靠性，进行一定轮次的再训练，最后得到可用于指导学生进行学习的教师模型；

S4：主从教师监督框架：基于教师-学生蒸馏网络，使用多个数据集训练不同的教师模型，包括与目标任务类似的场景数据集和实际落地场景的数据集，将这些数据集进行划分，训练多个教师模型，按照数据集与落地场景相似度分配指导权重，分为主教师模型和若干个从教师模型，从而对学生模型进行不同层面的知识引导，提高学生模型在复杂场景下的泛化能力；

S5：学生模型压缩感知训练：对学生模型进行迭代式剪枝和训练感知量化，通过子模型采样策略，筛选剪枝过程中效果最优的子模型，在模型迭代过程不断更新量化的scale参数，监控模型量化过程中的精度损失，进一步挖掘学生模型的可压缩空间，从而获得高精度和高效率的边缘部署模型。

所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S1电力场景任务抽象的过程还包括以下步骤：

S11：收集现有公开数据集，筛选与电力输电线路场景或野外图像数据类似的数据集；

S12：将巡检过程中需要识别的主体缺陷和外破隐患根据收集到的数据集进行任务划分，获得若干种深度学习中可独立完成的任务。

所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S2双层知识蒸馏网络单元构建的过程还包括：

S21：使用基于visiontransformer的视觉模型构建教师—学生知识蒸馏网络，教师和学生网络都采用transformer编码器，根据具体的应用要求进行不同尺寸的模型选择，对于输入的图片，进行n×n等面积划分，此处的n的建议取值范围为[3,8],此处使用n=3，获得图片块[P0,P1,…,P8]，将该图片块按照位置序列输入到线性投射层，使用图像卷积获得图片的嵌入向量；

S22：图片块嵌入信息不足以用于transformer进行训练，附加图片块的位置向量才能继续学习，同时为了在编码器输出时综合每个图片块的特征提取结果，在输入中加入一个随机初始化的待学习标记块，与位置嵌入信息进行相加；

S23：教师模型和学生模型由多个编码单元块组成，每个单元块是由Norm、Multi- Head-Attention、Norm、MLP层组成，选定教师模型的第t个单元块，t=1,2,3,…，和学生模型的第s个单元块，s=1,2,3,…，此处都选择编码器倒数第二个单元块，将教师模型和学生模型对应单元块输出的特征序列进行平均池化，获得特征图，对特征图进行L2归一化处理，再进行平滑损失计算，以度量两者之间的差距,使用

，

分别表示教师模型、学生模型中间层特征图L2归一化后的结果，使用阈值

作为计算条件，

值可根据训练效果进行微小调整，建议取值范围为(1,4),则计算对应的平滑损失函数为：

此步骤为中间层特征的知识蒸馏；

S24：在网络的最后一阶段，为实现logits层面蒸馏，将教师和学生模型中预先输入的可学习标记块经过学习后作为类别标记代表图像特征输入到线性分类器中，分别获得两者对同一图像的类别预测，对于教师网络输出的类别

,使用带温度系数T的蒸馏公式进行蒸馏：

从而获得蒸馏后的类别概率分布为

，将教师模型输出的类别概率作为soft-target让学生模型进行学习，为衡量该类别概率和学生模型输出类别概率两者的差距，使用KL散度（Kullback-Leiblerdivergence）进行距离计算，对于学生模型输出的类别概率分布

，散度D计算公式为：

。

所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S3教师模型修饰处理的过程还包括：

S31：对训练好的教师模型的Multi-Head-Attention层和线性映射层进行非结构化剪枝，剪枝算法使用随机剪枝策略，剪枝过程使用权重置零的手段以保持整个模型结构不会受到破坏；

S32：对剪枝后的教师模型进行再训练和微调，保证剪枝后的模型精度损失不会过于严重，剪枝与训练过程多次循环重复，重复次数达到10次以上，获得剪枝后的高精度教师大模型。

所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S4主从多教师监督框架的构建过程还包括：

S41：对于步骤S1中搜集到的不同数据集，划分为n份独立的数据集合，n>3，对应训练n个独立的从教师大模型，使用实际落地场景的数据集训练主教师模型，对于落地场景数据集抽取数据量的20%作为测试集；

S42：每个教师模型经过S3的剪枝步骤后，对S41中的测试集进行预测，使用F1- Score指标进行模型评估，对于n个从教师模型，获得n个不同的F1-Score分值，即

,将其作为softmax函数的输入计算每个模型的重要程度，获得各个模型对应的权重

；

S43：在教师-学生网络特征层面的蒸馏过程中，对于同一图像，使用S42步骤中n+1 个教师模型的中间层特征图，分别与学生模型输出的特征图计算平滑损失后，获得主教师模型与学生模型的平滑损失为

，从教师模型与学生模型的损失值

，

，由于主教师模型基于的数据集合是实际场景的数据集，其重要程度更高，对应的教师模型的知识也更加重要，因此主教师模型在指导学生模型进行学习时权重α，

也应该更高，此处设定

，设主教师模型与学生模型的平滑损失为

，则多教师特征层面知识蒸馏的总平滑损失L计算公式为：

；

S44：在教师-学生输出层面的logits蒸馏过程中，对于同一图像，经过S24步骤处理后，主教师模型与学生模型可获得散度值

，其余n个从教师模型可获得n个KL散度值，即

，同理于S43步骤，根据各模型的重要程度将对应的KL散度值进行加权求和获得综合的KL值D_T，公式为：

。

所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S5学生模型压缩感知训练过程还包括：

S51：对学生模型进行子模型采样操作，设定数值较小的剪枝率，对学生模型的Multi-Head-Attention层和线性映射层进行随机剪枝，同一轮剪枝操作将产生多个不同子模型；

S52:使用S41中抽取的测试集对S52产生的子模型进行评估，评估指标同样使用F1-Score值，选取F1-Score值最高的子模型作为本轮剪枝的最优子模型，将该模型进行新一轮次的微调，训练后的模型重复进行S51和S52的循环操作，循环次数在10次以上；

S53：Vision Transformer的计算量主要集中在多层自注意力MSA和多层感知机 MLP模块，对其中的矩阵乘法的输入和权重进行量化，使用对称变换的量化策略，对于量化目标比特宽度b，可承受的范围值为

，使用量化感知训练策略，对输入数据进行伪量化的操作，即对量化步长s，输入数据x和量化后的数据q有计算公式如下：

其中

由于采用量化感知训练，量化步长s需要不断更新，其中对s更新的梯度值

计算如下：

S54：量化后的模型进行再训练，以上步骤循环进行，重复次数不低于10次，保证量化过程的误差在训练中得到弥补，最后将量化的模型格式化为边缘计算设备可部署的形式输出。

本发明的优点在于：

本发明采用自主构建的logits层面和中间层特征相结合的双层知识蒸馏教师-学生网络，充分利用教师模型在训练过程中可产生的指导信息，避免了logits层面单蒸馏对中间层信息利用不足的缺点，该双层蒸馏方案同时关注中间结果和最终输出结果对学生模型的指导作用，充分发挥了教师-学生知识蒸馏网络的潜在优点，使学生模型充分学习教师模型的各维度知识；本发明使用针对学生模型学习能力弱而应用场景复杂的矛盾，设计了主从多导师的模型知识蒸馏架构，根据各导师对实际应用场景的识别准确度分配不同的指导权重，使得学生模型在保留实际场景任务识别能力的同时充分吸收类似场景的识别能力，极大的扩充了学生模型在复杂场景下的泛化能力，从而提高电力输电线路多变万化场景下的识别准确率；为进一步凝练教师模型中的有益信息和剔除冗余知识，本发明涉及了先剪枝后蒸馏的指导策略，教师模型的非结构化剪枝可以提高蒸馏过程中的知识提取程度，使学生模型聚焦于更加有效的知识内容；本发明还设计了压缩训练感知方案，将剪枝和量化同时融入到学生模型的训练过程，用梯度更新量化步长，严格监控精度变化，使得模型在训练过程中抹平模型压缩所带来的精度误差。本发明所采用的多手段模型压缩技术将极大的压缩模型的参数量和提升部署模型的推理速度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例流程图；

图2为本发明实施例详细步骤图；

图3为本发明实施例中间层特征与logits层面双蒸馏图；

图4为本发明实施例多教师特征蒸馏损失计算。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明要解决的技术问题：

1）由于精度更高而体量更大的模型无法部署在边缘计算设备中，需要对大模型进行压缩，获得计算量小和参数量小的模型，常用的知识蒸馏网络是在softmax输出的logits上进行约束，对中间层的关注少，因此如何构建一套同时充分利用导师模型中间层特征和logits蒸馏优点的训练网络是本发明要解决的基本问题。

2）结构简单、低复杂度的小模型学习能力有限，面对复杂的电力线路巡检任务场景，泛化能力不足，难以处理变化多样的视觉噪音，单一的导师模型仅仅针对特定的场景进行知识引导，如何充分利用其它域特征提取的有益信息，增强小模型的泛化能力成为本发明要聚焦的关键问题。

3）在知识蒸馏网络中，如果直接将训练好的大模型进行知识的迁移，教师模型的冗余信息也会被作为目标项被学生模型进行学习，这种无益甚至有害的知识并不利于学生模型的训练过程，因此需要对知识蒸馏前的教师网络进行一定的修饰处理成为本发明要解决问题之一。

4）为弥补剪枝后的模型存在精度损失，常常使用迭代式剪枝方法，标准的迭代式剪枝方法是剪枝-训练-剪枝循环进行，但对于体量大的模型和数据集而言，其训练效率低下，容易引入严重的精度损失，同时在以往的模型量化方案中，训练后量化方案往往更加简单，但其带来的精度损失却无法弥补，基于以上问题，如何设计训练感知量化策略，在训练的过程中进行精度监控工作，同时发挥剪枝和量化两者的优点，以抹平由压缩带来的误差是本发明要解决的重要问题。

本发明所提出的面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术,包括以下步骤:

本实施例中，所述步骤S1电力场景任务抽象的过程还包括以下步骤：

本实施例中，所述步骤S2双层知识蒸馏网络单元构建的过程还包括：

S21：使用基于vision transformer的视觉模型构建教师—学生知识蒸馏网络，教师和学生网络都采用transformer编码器，使用参数量巨大的高精度大模型充当教师角色，选择参数量相对较少的中等目标模型作为学生模型，可根据具体的应用要求对两者进行不同尺寸的模型选择，标注的待训练数据经过数据增强操作后构成标签数据库，学生模型将同时接收标签数据库监督信息和来自教师模型输出的软标签（soft-target）信息进行学习，如图3所示，对于输入同一张图片，进行n×n等面积划分，此处的n的建议取值范围为[3,8],此处使用n=3，获得图片块序列[P0,P1,P2,…,P8]，将该图片块按照位置序列分别输入到教师模型和学生模型的线性投射层中，使用图像卷积获得对应的图像块嵌入，同时编码输出位置嵌入向量；

S22：图片块嵌入信息不足以用于transformer进行训练，附加图片块的位置嵌入向量才能继续学习，同时为了在编码器输出时综合每个图片块的特征提取结果，在输入中加入一个随机初始化的待学习标记块，与位置嵌入信息进行相加，再共同输入到编码单元中；

，

作为计算条件，

此步骤为中间层特征的知识蒸馏；

,使用带温度系数T的蒸馏公式进行蒸馏：

从而获得蒸馏后的类别概率分布为

，散度D计算公式为：

。

本实施例中，所述步骤S3教师模型修饰处理的过程还包括：

本实施例中，所述步骤S4主从多教师监督框架的构建过程还包括：

；

S43：在教师-学生网络特征层面的蒸馏过程中，对于同一图像，使用S42步骤中n+1 个教师模型分别生成n+1个中间层特征图，包括一个主教师模型特征图和n个从教师模型特征图，分别与学生模型输出的中间层特征图计算平滑损失后，获得主教师模型与学生模型的平滑损失为

，从教师模型与学生模型的平滑损失值

，

，由于主教师模型基于的数据集合是实际场景的数据集，其重要程度更高，对应的教师模型的知识也更加重要，因此主教师模型在指导学生模型进行学习时权重α（0<α<1）也应该更高，此处设定

，设主教师模型与学生模型的平滑损失为

，如图4所示，将获得的n+1个平滑损失值与S42生成的各模型重要权重

，进行加权求和，则多教师特征层面知识蒸馏的总平滑损失L计算公式为：

；

S44：在教师-学生输出层面的logits蒸馏过程中，对于同一图像，将主教师模型和 n个从教师模型分别经过S24步骤处理后，主教师模型与学生模型可获得散度值

，其余n 个从教师模型可获得n个KL散度值，即

，同理于S43步骤，利用各教师模型的重要权重

，将对应的KL散度值进行加权求和获得综合的KL值D_T，公式为：

。

本实施例中，所述步骤S5学生模型压缩感知训练过程还包括：

其中

计算如下：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于：包括以下步骤:

2.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于：所述步骤S1电力场景任务抽象的过程还包括以下步骤：

3.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于：所述步骤S2双层知识蒸馏网络单元构建的过程还包括：

S23：教师模型和学生模型由多个编码单元块组成，每个单元块是由Norm、Multi-Head- Attention、Norm、MLP层组成，选定教师模型的第t个单元块，t=1,2,3,…，和学生模型的第s 个单元块，s=1,2,3,…，此处都选择编码器倒数第二个单元块，将教师模型和学生模型对应单元块输出的特征序列进行平均池化，获得特征图，对特征图进行L2归一化处理，再进行平滑损失计算，以度量两者之间的差距,使用