CN115223049A - 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术 - Google Patents

面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术 Download PDF

Info

Publication number
CN115223049A
CN115223049A CN202211140194.6A CN202211140194A CN115223049A CN 115223049 A CN115223049 A CN 115223049A CN 202211140194 A CN202211140194 A CN 202211140194A CN 115223049 A CN115223049 A CN 115223049A
Authority
CN
China
Prior art keywords
model
teacher
student
models
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211140194.6A
Other languages
English (en)
Other versions
CN115223049B (zh
Inventor
聂礼强
甘甜
关惟俐
郑晓云
翟永杰
赵砚青
罗旺
陈雨涛
高赞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
North China Electric Power University
NARI Group Corp
Shandong Computer Science Center National Super Computing Center in Jinan
Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Zhiyang Innovation Technology Co Ltd
Original Assignee
Shandong University
North China Electric Power University
NARI Group Corp
Shandong Computer Science Center National Super Computing Center in Jinan
Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Zhiyang Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University, North China Electric Power University, NARI Group Corp, Shandong Computer Science Center National Super Computing Center in Jinan, Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd, Zhiyang Innovation Technology Co Ltd filed Critical Shandong University
Priority to CN202211140194.6A priority Critical patent/CN115223049B/zh
Publication of CN115223049A publication Critical patent/CN115223049A/zh
Application granted granted Critical
Publication of CN115223049B publication Critical patent/CN115223049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于压缩技术领域,具体提供了一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术。其包括以下步骤:电力场景任务抽象;双层知识蒸馏网络单元构建;教师模型修饰处理;主从教师监督框架:基于教师‑学生蒸馏网络,使用多个数据集训练不同的教师模型,包括与目标任务类似的场景数据集和实际落地场景的数据集,将这些数据集进行划分,训练多个教师模型,按照数据集与落地场景相似度分配指导权重,分为主教师模型和若干个从教师模型,从而对学生模型进行不同层面的知识引导,提高学生模型在复杂场景下的泛化能力;学生模型压缩感知训练。

Description

面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术
技术领域
本发明涉及一种压缩技术,具体涉及一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术。
背景技术
高压架空输电线路具有距离长、塔架高、架设位置复杂等特点,由于长期暴露在外力环境中,输电线路可能出现设备本身缺陷问题,如杆塔沉降、绝缘子爆裂、线缆松弛等,受到人为因素的影响,输电线路还会面临外破故障,如盗窃、烟火短路、吊车碰线等威胁电网安全运行的问题。巡检是保证电网安全运行的关键技术手段,传统的安全巡检主要依赖人工,由于线路距离长,巡检劳动强度大,巡检质量也会受到作业人员主观因素影响,巡检范围在恶劣天气或地理环境下会受到很大限制。随着我国特高压输电系统的快速建设,特高压线路杆塔呼高度一般超过五十米,人工巡检使用望远镜已很难准确观察和识别输电线路设备缺陷。
目前无人机已成为架空输电线路巡检的重要技术手段和发展方向。但现有电力巡检无人机和定点监控的工作模式仍以人工操作巡检为主,仅实现远程‘看得见’,但‘看得懂’和‘看的准’还依赖人工。所以让无人机既看得见,又看得懂就成为智能巡检发展的方向。人工智能的发展为多种高危高强度作业带来了自动化解决方案,在巡检的无人机上安装边缘计算设备,搭配深度学习技术,让架空输电线路无人机巡检实现‘看的懂’。
在深度学习中,面对场景简单的识别任务,小型的网络模型便可胜任,对计算硬件和存储硬件往往要求不高,而复杂度更高,参数量更大的模型常常用于小模型无法胜任的任务,如基于Transformer的视觉模型,这类模型通常具有更强的特征学习能力和更加准确的识别效果,但其代价是需要高昂的计算资源和更大的存储空间,同时计算的延迟也更高。无人机巡检过程中,获取到的高压架空输电线路图像往往背景噪音庞杂、视觉干扰因素多,线路也会出现如缝隙识别等难以辨别的本体缺陷,小模型难以胜任输电运输场景,因此亟待一种高精度、高效率的边缘计算模型的生产方法。
本发明旨在面向输电线路巡检场景利用多阶段模型压缩技术生成适合边缘计算的高精度和高效率模型。模型压缩方法涵盖训练到部署整个过程,设计训练感知方案监控模型压缩过程的精度损失;构建多导师知识蒸馏策略,根据数据集特征的匹配程度,设定主从导师角色,提高学生模型的泛化能力;对教师模型先剪枝剔除冗余信息,以提供更好的迁移知识,再将知识蒸馏到学生模型,然后对学生模型进行迭代式剪枝,充分利用导师模型中的有益信息;为充分挖掘模型的可压缩空间,提出在学生模型迭代式剪枝过程中同时模拟量化,使用量化后权重的梯度更新量化前的权重,迫使模型在训练过程中将量化误差抹平。本发明利用多种压缩手段,在维持模型精度的前提下剔除模型的冗余参数,保证产出模型符合算力弱、硬件资源不足的边缘计算部署环境。
发明内容
本发明目的是提供了一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术。
本发明为实现上述目的,通过以下技术方案实现:
一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术,包括以下步骤:
S1:电力场景任务抽象:对电力输电线路巡检中需识别的主体缺陷和外破隐患进行任务划分和抽象,分割成计算机视觉可执行的具体子任务;
S2:双层知识蒸馏网络单元构建:针对知识蒸馏过程,设计教师—学生网络用于模型训练,教师模型采用基于Transformer的视觉大模型,中等目标模型则为参数量相较少的待进一步压缩的模型,教师模型将在logits层面输出soft-target指导学生模型的训练,同时在中间层输出特征图信息用作指导学生模型的优化,构建logtis层面与中间层相结合的双层知识蒸馏架构;
S3:教师模型修饰处理:为删减教师模型中的冗余信息,对教师高精度大模型进行非结构化剪枝,使其在知识进行迁移时可以提供精炼的有利知识,便于学习能力弱的学生模型进行学习,为保证剪枝后精度的可靠性,进行一定轮次的再训练,最后得到可用于指导学生进行学习的教师模型;
S4:主从教师监督框架:基于教师-学生蒸馏网络,使用多个数据集训练不同的教师模型,包括与目标任务类似的场景数据集和实际落地场景的数据集,将这些数据集进行划分,训练多个教师模型,按照数据集与落地场景相似度分配指导权重,分为主教师模型和若干个从教师模型,从而对学生模型进行不同层面的知识引导,提高学生模型在复杂场景下的泛化能力;
S5:学生模型压缩感知训练:对学生模型进行迭代式剪枝和训练感知量化,通过子模型采样策略,筛选剪枝过程中效果最优的子模型,在模型迭代过程不断更新量化的scale参数,监控模型量化过程中的精度损失,进一步挖掘学生模型的可压缩空间,从而获得高精度和高效率的边缘部署模型。
所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S1电力场景任务抽象的过程还包括以下步骤:
S11:收集现有公开数据集,筛选与电力输电线路场景或野外图像数据类似的数据集;
S12:将巡检过程中需要识别的主体缺陷和外破隐患根据收集到的数据集进行任务划分,获得若干种深度学习中可独立完成的任务。
所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S2双层知识蒸馏网络单元构建的过程还包括:
S21:使用基于visiontransformer的视觉模型构建教师—学生知识蒸馏网络,教师和学生网络都采用transformer编码器,根据具体的应用要求进行不同尺寸的模型选择,对于输入的图片,进行n×n等面积划分,此处的n的建议取值范围为[3,8],此处使用n=3,获得图片块[P0,P1,…,P8],将该图片块按照位置序列输入到线性投射层,使用图像卷积获得图片的嵌入向量;
S22:图片块嵌入信息不足以用于transformer进行训练,附加图片块的位置向量才能继续学习,同时为了在编码器输出时综合每个图片块的特征提取结果,在输入中加入一个随机初始化的待学习标记块,与位置嵌入信息进行相加;
S23:教师模型和学生模型由多个编码单元块组成,每个单元块是由Norm、Multi- Head-Attention、Norm、MLP层组成,选定教师模型的第t个单元块,t=1,2,3,…,和学生模型 的第s个单元块,s=1,2,3,…,此处都选择编码器倒数第二个单元块,将教师模型和学生模 型对应单元块输出的特征序列进行平均池化,获得特征图,对特征图进行L2归一化处理,再 进行平滑损失计算,以度量两者之间的差距,使用
Figure 759730DEST_PATH_IMAGE001
Figure 157345DEST_PATH_IMAGE002
分别表示教师模型、学生模型中 间层特征图L2归一化后的结果,使用阈值
Figure 465966DEST_PATH_IMAGE003
作为计算条件,
Figure 540101DEST_PATH_IMAGE003
值可根据训练效果进行微小调 整,建议取值范围为(1,4),则计算对应的平滑损失函数为:
Figure 35805DEST_PATH_IMAGE004
此步骤为中间层特征的知识蒸馏;
S24:在网络的最后一阶段,为实现logits层面蒸馏,将教师和学生模型中预先输 入的可学习标记块经过学习后作为类别标记代表图像特征输入到线性分类器中,分别获得 两者对同一图像的类别预测,对于教师网络输出的类别
Figure 158482DEST_PATH_IMAGE005
,使用带温度系 数T的蒸馏公式进行蒸馏:
Figure 695511DEST_PATH_IMAGE006
从而获得蒸馏后的类别概率分布为
Figure 550335DEST_PATH_IMAGE007
,将教师模型输出的类别 概率作为soft-target让学生模型进行学习,为衡量该类别概率和学生模型输出类别概率 两者的差距,使用KL散度(Kullback-Leiblerdivergence)进行距离计算,对于学生模型输 出的类别概率分布
Figure 861230DEST_PATH_IMAGE008
,散度D计算公式为:
Figure 849915DEST_PATH_IMAGE009
所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S3教师模型修饰处理的过程还包括:
S31:对训练好的教师模型的Multi-Head-Attention层和线性映射层进行非结构化剪枝,剪枝算法使用随机剪枝策略,剪枝过程使用权重置零的手段以保持整个模型结构不会受到破坏;
S32:对剪枝后的教师模型进行再训练和微调,保证剪枝后的模型精度损失不会过于严重,剪枝与训练过程多次循环重复,重复次数达到10次以上,获得剪枝后的高精度教师大模型。
所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S4主从多教师监督框架的构建过程还包括:
S41:对于步骤S1中搜集到的不同数据集,划分为n份独立的数据集合,n>3,对应训练n个独立的从教师大模型,使用实际落地场景的数据集训练主教师模型,对于落地场景数据集抽取数据量的20%作为测试集;
S42:每个教师模型经过S3的剪枝步骤后,对S41中的测试集进行预测,使用F1- Score指标进行模型评估,对于n个从教师模型,获得n个不同的F1-Score分值,即
Figure 867549DEST_PATH_IMAGE010
,将其作为softmax函数的输入计算每个模型的重要程度,获得各个模 型对应的权重
Figure 34220DEST_PATH_IMAGE011
Figure 770094DEST_PATH_IMAGE012
S43:在教师-学生网络特征层面的蒸馏过程中,对于同一图像,使用S42步骤中n+1 个教师模型的中间层特征图,分别与学生模型输出的特征图计算平滑损失后,获得主教师 模型与学生模型的平滑损失为
Figure 234574DEST_PATH_IMAGE013
,从教师模型与学生模型的损失值
Figure 231349DEST_PATH_IMAGE014
Figure 693554DEST_PATH_IMAGE012
,由 于主教师模型基于的数据集合是实际场景的数据集,其重要程度更高,对应的教师模型的 知识也更加重要,因此主教师模型在指导学生模型进行学习时权重α,
Figure 290626DEST_PATH_IMAGE015
也应 该更高,此处设定
Figure 293217DEST_PATH_IMAGE016
,设主教师模型与学生模型的平滑损失为
Figure 19865DEST_PATH_IMAGE013
,则多教师特征层 面知识蒸馏的总平滑损失L计算公式为:
Figure 43185DEST_PATH_IMAGE017
S44:在教师-学生输出层面的logits蒸馏过程中,对于同一图像,经过S24步骤处 理后,主教师模型与学生模型可获得散度值
Figure 284810DEST_PATH_IMAGE018
,其余n个从教师模型可获得n个KL散度值, 即
Figure 28775DEST_PATH_IMAGE019
,同理于S43步骤,根据各模型的重要程度将对应的KL散度值进行加 权求和获得综合的KL值D_T,公式为:
Figure 16454DEST_PATH_IMAGE020
所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术优选方案,所述步骤S5学生模型压缩感知训练过程还包括:
S51:对学生模型进行子模型采样操作,设定数值较小的剪枝率,对学生模型的Multi-Head-Attention层和线性映射层进行随机剪枝,同一轮剪枝操作将产生多个不同子模型;
S52:使用S41中抽取的测试集对S52产生的子模型进行评估,评估指标同样使用F1-Score值,选取F1-Score值最高的子模型作为本轮剪枝的最优子模型,将该模型进行新一轮次的微调,训练后的模型重复进行S51和S52的循环操作,循环次数在10次以上;
S53:Vision Transformer的计算量主要集中在多层自注意力MSA和多层感知机 MLP模块,对其中的矩阵乘法的输入和权重进行量化,使用对称变换的量化策略,对于量化 目标比特宽度b,可承受的范围值为
Figure 617200DEST_PATH_IMAGE021
,使用量化感知训练策略,对输入数据 进行伪量化的操作,即对量化步长s,输入数据x和量化后的数据q有计算公式如下:
Figure 814963DEST_PATH_IMAGE022
其中
Figure 487252DEST_PATH_IMAGE024
由于采用量化感知训练,量化步长s需要不断更新,其中对s更新的梯度值
Figure 188492DEST_PATH_IMAGE025
计算 如下:
Figure 537303DEST_PATH_IMAGE027
S54:量化后的模型进行再训练,以上步骤循环进行,重复次数不低于10次,保证量化过程的误差在训练中得到弥补,最后将量化的模型格式化为边缘计算设备可部署的形式输出。
本发明的优点在于:
本发明采用自主构建的logits层面和中间层特征相结合的双层知识蒸馏教师-学生网络,充分利用教师模型在训练过程中可产生的指导信息,避免了logits层面单蒸馏对中间层信息利用不足的缺点,该双层蒸馏方案同时关注中间结果和最终输出结果对学生模型的指导作用,充分发挥了教师-学生知识蒸馏网络的潜在优点,使学生模型充分学习教师模型的各维度知识;本发明使用针对学生模型学习能力弱而应用场景复杂的矛盾,设计了主从多导师的模型知识蒸馏架构,根据各导师对实际应用场景的识别准确度分配不同的指导权重,使得学生模型在保留实际场景任务识别能力的同时充分吸收类似场景的识别能力,极大的扩充了学生模型在复杂场景下的泛化能力,从而提高电力输电线路多变万化场景下的识别准确率;为进一步凝练教师模型中的有益信息和剔除冗余知识,本发明涉及了先剪枝后蒸馏的指导策略,教师模型的非结构化剪枝可以提高蒸馏过程中的知识提取程度,使学生模型聚焦于更加有效的知识内容;本发明还设计了压缩训练感知方案,将剪枝和量化同时融入到学生模型的训练过程,用梯度更新量化步长,严格监控精度变化,使得模型在训练过程中抹平模型压缩所带来的精度误差。本发明所采用的多手段模型压缩技术将极大的压缩模型的参数量和提升部署模型的推理速度。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明实施例流程图;
图2为本发明实施例详细步骤图;
图3为本发明实施例中间层特征与logits层面双蒸馏图;
图4为本发明实施例多教师特征蒸馏损失计算。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明要解决的技术问题:
1)由于精度更高而体量更大的模型无法部署在边缘计算设备中,需要对大模型进行压缩,获得计算量小和参数量小的模型,常用的知识蒸馏网络是在softmax输出的logits上进行约束,对中间层的关注少,因此如何构建一套同时充分利用导师模型中间层特征和logits蒸馏优点的训练网络是本发明要解决的基本问题。
2)结构简单、低复杂度的小模型学习能力有限,面对复杂的电力线路巡检任务场景,泛化能力不足,难以处理变化多样的视觉噪音,单一的导师模型仅仅针对特定的场景进行知识引导,如何充分利用其它域特征提取的有益信息,增强小模型的泛化能力成为本发明要聚焦的关键问题。
3)在知识蒸馏网络中,如果直接将训练好的大模型进行知识的迁移,教师模型的冗余信息也会被作为目标项被学生模型进行学习,这种无益甚至有害的知识并不利于学生模型的训练过程,因此需要对知识蒸馏前的教师网络进行一定的修饰处理成为本发明要解决问题之一。
4)为弥补剪枝后的模型存在精度损失,常常使用迭代式剪枝方法,标准的迭代式剪枝方法是剪枝-训练-剪枝循环进行,但对于体量大的模型和数据集而言,其训练效率低下,容易引入严重的精度损失,同时在以往的模型量化方案中,训练后量化方案往往更加简单,但其带来的精度损失却无法弥补,基于以上问题,如何设计训练感知量化策略,在训练的过程中进行精度监控工作,同时发挥剪枝和量化两者的优点,以抹平由压缩带来的误差是本发明要解决的重要问题。
本发明所提出的面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术,包括以下步骤:
S1:电力场景任务抽象:对电力输电线路巡检中需识别的主体缺陷和外破隐患进行任务划分和抽象,分割成计算机视觉可执行的具体子任务;
S2:双层知识蒸馏网络单元构建:针对知识蒸馏过程,设计教师—学生网络用于模型训练,教师模型采用基于Transformer的视觉大模型,中等目标模型则为参数量相较少的待进一步压缩的模型,教师模型将在logits层面输出soft-target指导学生模型的训练,同时在中间层输出特征图信息用作指导学生模型的优化,构建logtis层面与中间层相结合的双层知识蒸馏架构;
S3:教师模型修饰处理:为删减教师模型中的冗余信息,对教师高精度大模型进行非结构化剪枝,使其在知识进行迁移时可以提供精炼的有利知识,便于学习能力弱的学生模型进行学习,为保证剪枝后精度的可靠性,进行一定轮次的再训练,最后得到可用于指导学生进行学习的教师模型;
S4:主从教师监督框架:基于教师-学生蒸馏网络,使用多个数据集训练不同的教师模型,包括与目标任务类似的场景数据集和实际落地场景的数据集,将这些数据集进行划分,训练多个教师模型,按照数据集与落地场景相似度分配指导权重,分为主教师模型和若干个从教师模型,从而对学生模型进行不同层面的知识引导,提高学生模型在复杂场景下的泛化能力;
S5:学生模型压缩感知训练:对学生模型进行迭代式剪枝和训练感知量化,通过子模型采样策略,筛选剪枝过程中效果最优的子模型,在模型迭代过程不断更新量化的scale参数,监控模型量化过程中的精度损失,进一步挖掘学生模型的可压缩空间,从而获得高精度和高效率的边缘部署模型。
本实施例中,所述步骤S1电力场景任务抽象的过程还包括以下步骤:
S11:收集现有公开数据集,筛选与电力输电线路场景或野外图像数据类似的数据集;
S12:将巡检过程中需要识别的主体缺陷和外破隐患根据收集到的数据集进行任务划分,获得若干种深度学习中可独立完成的任务。
本实施例中,所述步骤S2双层知识蒸馏网络单元构建的过程还包括:
S21:使用基于vision transformer的视觉模型构建教师—学生知识蒸馏网络,教师和学生网络都采用transformer编码器,使用参数量巨大的高精度大模型充当教师角色,选择参数量相对较少的中等目标模型作为学生模型,可根据具体的应用要求对两者进行不同尺寸的模型选择,标注的待训练数据经过数据增强操作后构成标签数据库,学生模型将同时接收标签数据库监督信息和来自教师模型输出的软标签(soft-target)信息进行学习,如图3所示,对于输入同一张图片,进行n×n等面积划分,此处的n的建议取值范围为[3,8],此处使用n=3,获得图片块序列[P0,P1,P2,…,P8],将该图片块按照位置序列分别输入到教师模型和学生模型的线性投射层中,使用图像卷积获得对应的图像块嵌入,同时编码输出位置嵌入向量;
S22:图片块嵌入信息不足以用于transformer进行训练,附加图片块的位置嵌入向量才能继续学习,同时为了在编码器输出时综合每个图片块的特征提取结果,在输入中加入一个随机初始化的待学习标记块,与位置嵌入信息进行相加,再共同输入到编码单元中;
S23:教师模型和学生模型由多个编码单元块组成,每个单元块是由Norm、Multi- Head-Attention、Norm、MLP层组成,选定教师模型的第t个单元块,t=1,2,3,…,和学生模型 的第s个单元块,s=1,2,3,…,此处都选择编码器倒数第二个单元块,将教师模型和学生模 型对应单元块输出的特征序列进行平均池化,获得特征图,对特征图进行L2归一化处理,再 进行平滑损失计算,以度量两者之间的差距,使用
Figure 19100DEST_PATH_IMAGE001
Figure 104867DEST_PATH_IMAGE002
分别表示教师模型、学生模型中 间层特征图L2归一化后的结果,使用阈值
Figure 50827DEST_PATH_IMAGE003
作为计算条件,
Figure 806424DEST_PATH_IMAGE003
值可根据训练效果进行微小调 整,建议取值范围为(1,4),则计算对应的平滑损失函数为:
Figure 713200DEST_PATH_IMAGE004
此步骤为中间层特征的知识蒸馏;
S24:在网络的最后一阶段,为实现logits层面蒸馏,将教师和学生模型中预先输 入的可学习标记块经过学习后作为类别标记代表图像特征输入到线性分类器中,分别获得 两者对同一图像的类别预测,对于教师网络输出的类别
Figure 399397DEST_PATH_IMAGE005
,使用带温度系 数T的蒸馏公式进行蒸馏:
Figure 465442DEST_PATH_IMAGE006
从而获得蒸馏后的类别概率分布为
Figure 516574DEST_PATH_IMAGE007
,将教师模型输出的类别 概率作为soft-target让学生模型进行学习,为衡量该类别概率和学生模型输出类别概率 两者的差距,使用KL散度(Kullback-Leiblerdivergence)进行距离计算,对于学生模型输 出的类别概率分布
Figure 707384DEST_PATH_IMAGE008
,散度D计算公式为:
Figure 797873DEST_PATH_IMAGE029
本实施例中,所述步骤S3教师模型修饰处理的过程还包括:
S31:对训练好的教师模型的Multi-Head-Attention层和线性映射层进行非结构化剪枝,剪枝算法使用随机剪枝策略,剪枝过程使用权重置零的手段以保持整个模型结构不会受到破坏;
S32:对剪枝后的教师模型进行再训练和微调,保证剪枝后的模型精度损失不会过于严重,剪枝与训练过程多次循环重复,重复次数达到10次以上,获得剪枝后的高精度教师大模型。
本实施例中,所述步骤S4主从多教师监督框架的构建过程还包括:
S41:对于步骤S1中搜集到的不同数据集,划分为n份独立的数据集合,n>3,对应训练n个独立的从教师大模型,使用实际落地场景的数据集训练主教师模型,对于落地场景数据集抽取数据量的20%作为测试集;
S42:每个教师模型经过S3的剪枝步骤后,对S41中的测试集进行预测,使用F1- Score指标进行模型评估,对于n个从教师模型,获得n个不同的F1-Score分值,即
Figure 328211DEST_PATH_IMAGE030
,将其作为softmax函数的输入计算每个模型的重要程度,获得各 个模型对应的权重
Figure DEST_PATH_IMAGE031
S43:在教师-学生网络特征层面的蒸馏过程中,对于同一图像,使用S42步骤中n+1 个教师模型分别生成n+1个中间层特征图,包括一个主教师模型特征图和n个从教师模型特 征图,分别与学生模型输出的中间层特征图计算平滑损失后,获得主教师模型与学生模型 的平滑损失为
Figure 471616DEST_PATH_IMAGE013
,从教师模型与学生模型的平滑损失值
Figure 87406DEST_PATH_IMAGE014
Figure 194033DEST_PATH_IMAGE012
,由于主教师模 型基于的数据集合是实际场景的数据集,其重要程度更高,对应的教师模型的知识也更加 重要,因此主教师模型在指导学生模型进行学习时权重α(0<α<1)也应该更高,此处设定
Figure 641195DEST_PATH_IMAGE016
,设主教师模型与学生模型的平滑损失为
Figure 299709DEST_PATH_IMAGE013
,如图4所示,将获得的n+1个平滑损 失值与S42生成的各模型重要权重
Figure 793007DEST_PATH_IMAGE011
Figure 624697DEST_PATH_IMAGE012
,进行加权求和,则多教师特征层面知 识蒸馏的总平滑损失L计算公式为:
Figure 129628DEST_PATH_IMAGE017
S44:在教师-学生输出层面的logits蒸馏过程中,对于同一图像,将主教师模型和 n个从教师模型分别经过S24步骤处理后,主教师模型与学生模型可获得散度值
Figure 332945DEST_PATH_IMAGE018
,其余n 个从教师模型可获得n个KL散度值,即
Figure 985643DEST_PATH_IMAGE019
,同理于S43步骤,利用各教师模 型的重要权重
Figure 558707DEST_PATH_IMAGE011
Figure 42778DEST_PATH_IMAGE012
,将对应的KL散度值进行加权求和获得综合的KL值D_T, 公式为:
Figure 308674DEST_PATH_IMAGE020
本实施例中,所述步骤S5学生模型压缩感知训练过程还包括:
S51:对学生模型进行子模型采样操作,设定数值较小的剪枝率,对学生模型的Multi-Head-Attention层和线性映射层进行随机剪枝,同一轮剪枝操作将产生多个不同子模型;
S52:使用S41中抽取的测试集对S52产生的子模型进行评估,评估指标同样使用F1-Score值,选取F1-Score值最高的子模型作为本轮剪枝的最优子模型,将该模型进行新一轮次的微调,训练后的模型重复进行S51和S52的循环操作,循环次数在10次以上;
S53:Vision Transformer的计算量主要集中在多层自注意力MSA和多层感知机 MLP模块,对其中的矩阵乘法的输入和权重进行量化,使用对称变换的量化策略,对于量化 目标比特宽度b,可承受的范围值为
Figure 183089DEST_PATH_IMAGE021
,使用量化感知训练策略,对输入数据 进行伪量化的操作,即对量化步长s,输入数据x和量化后的数据q有计算公式如下:
Figure 435210DEST_PATH_IMAGE032
其中
Figure DEST_PATH_IMAGE033
由于采用量化感知训练,量化步长s需要不断更新,其中对s更新的梯度值
Figure 180312DEST_PATH_IMAGE025
计算 如下:
Figure 476164DEST_PATH_IMAGE034
S54:量化后的模型进行再训练,以上步骤循环进行,重复次数不低于10次,保证量化过程的误差在训练中得到弥补,最后将量化的模型格式化为边缘计算设备可部署的形式输出。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于:包括以下步骤:
S1:电力场景任务抽象:对电力输电线路巡检中需识别的主体缺陷和外破隐患进行任务划分和抽象,分割成计算机视觉可执行的具体子任务;
S2:双层知识蒸馏网络单元构建:针对知识蒸馏过程,设计教师—学生网络用于模型训练,教师模型采用基于Transformer的视觉大模型,中等目标模型则为参数量相较少的待进一步压缩的模型,教师模型将在logits层面输出soft-target指导学生模型的训练,同时在中间层输出特征图信息用作指导学生模型的优化,构建logtis层面与中间层相结合的双层知识蒸馏架构;
S3:教师模型修饰处理:为删减教师模型中的冗余信息,对教师高精度大模型进行非结构化剪枝,使其在知识进行迁移时可以提供精炼的有利知识,便于学习能力弱的学生模型进行学习,为保证剪枝后精度的可靠性,进行一定轮次的再训练,最后得到可用于指导学生进行学习的教师模型;
S4:主从教师监督框架:基于教师-学生蒸馏网络,使用多个数据集训练不同的教师模型,包括与目标任务类似的场景数据集和实际落地场景的数据集,将这些数据集进行划分,训练多个教师模型,按照数据集与落地场景相似度分配指导权重,分为主教师模型和若干个从教师模型,从而对学生模型进行不同层面的知识引导,提高学生模型在复杂场景下的泛化能力;
S5:学生模型压缩感知训练:对学生模型进行迭代式剪枝和训练感知量化,通过子模型采样策略,筛选剪枝过程中效果最优的子模型,在模型迭代过程不断更新量化的scale参数,监控模型量化过程中的精度损失,进一步挖掘学生模型的可压缩空间,从而获得高精度和高效率的边缘部署模型。
2.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于:所述步骤S1电力场景任务抽象的过程还包括以下步骤:
S11:收集现有公开数据集,筛选与电力输电线路场景或野外图像数据类似的数据集;
S12:将巡检过程中需要识别的主体缺陷和外破隐患根据收集到的数据集进行任务划分,获得若干种深度学习中可独立完成的任务。
3.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于:所述步骤S2双层知识蒸馏网络单元构建的过程还包括:
S21:使用基于visiontransformer的视觉模型构建教师—学生知识蒸馏网络,教师和学生网络都采用transformer编码器,根据具体的应用要求进行不同尺寸的模型选择,对于输入的图片,进行n×n等面积划分,此处的n的建议取值范围为[3,8],此处使用n=3,获得图片块[P0,P1,…,P8],将该图片块按照位置序列输入到线性投射层,使用图像卷积获得图片的嵌入向量;
S22:图片块嵌入信息不足以用于transformer进行训练,附加图片块的位置向量才能继续学习,同时为了在编码器输出时综合每个图片块的特征提取结果,在输入中加入一个随机初始化的待学习标记块,与位置嵌入信息进行相加;
S23:教师模型和学生模型由多个编码单元块组成,每个单元块是由Norm、Multi-Head- Attention、Norm、MLP层组成,选定教师模型的第t个单元块,t=1,2,3,…,和学生模型的第s 个单元块,s=1,2,3,…,此处都选择编码器倒数第二个单元块,将教师模型和学生模型对应 单元块输出的特征序列进行平均池化,获得特征图,对特征图进行L2归一化处理,再进行平 滑损失计算,以度量两者之间的差距,使用
Figure 613565DEST_PATH_IMAGE001
Figure 57053DEST_PATH_IMAGE002
分别表示教师模型、学生模型中间层特 征图L2归一化后的结果,使用阈值
Figure 785975DEST_PATH_IMAGE003
作为计算条件,
Figure 599210DEST_PATH_IMAGE003
值可根据训练效果进行微小调整,建 议取值范围为(1,4),则计算对应的平滑损失函数为:
Figure 425084DEST_PATH_IMAGE005
此步骤为中间层特征的知识蒸馏;
S24:在网络的最后一阶段,为实现logits层面蒸馏,将教师和学生模型中预先输入的 可学习标记块经过学习后作为类别标记代表图像特征输入到线性分类器中,分别获得两者 对同一图像的类别预测,对于教师网络输出的类别
Figure 399993DEST_PATH_IMAGE006
,使用带温度系数T的 蒸馏公式进行蒸馏:
Figure 881790DEST_PATH_IMAGE007
从而获得蒸馏后的类别概率分布为
Figure 108503DEST_PATH_IMAGE008
,将教师模型输出的类别概率作 为soft-target让学生模型进行学习,为衡量该类别概率和学生模型输出类别概率两者的 差距,使用KL散度(Kullback-Leiblerdivergence)进行距离计算,对于学生模型输出的类 别概率分布
Figure 929828DEST_PATH_IMAGE009
,散度D计算公式为:
Figure 934693DEST_PATH_IMAGE010
4.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于:所述步骤S3教师模型修饰处理的过程还包括:
S31:对训练好的教师模型的Multi-Head-Attention层和线性映射层进行非结构化剪枝,剪枝算法使用随机剪枝策略,剪枝过程使用权重置零的手段以保持整个模型结构不会受到破坏;
S32:对剪枝后的教师模型进行再训练和微调,保证剪枝后的模型精度损失不会过于严重,剪枝与训练过程多次循环重复,重复次数达到10次以上,获得剪枝后的高精度教师大模型。
5.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于:所述步骤S4主从多教师监督框架的构建过程还包括:
S41:对于步骤S1中搜集到的不同数据集,划分为n份独立的数据集合,n>3,对应训练n个独立的从教师大模型,使用实际落地场景的数据集训练主教师模型,对于落地场景数据集抽取数据量的20%作为测试集;
S42:每个教师模型经过S3的剪枝步骤后,对S41中的测试集进行预测,使用F1-Score指 标进行模型评估,对于n个从教师模型,获得n个不同的F1-Score分值,即
Figure 841470DEST_PATH_IMAGE011
,将其作为softmax函数的输入计算每个模型的重要程度,获得各个模 型对应的权重
Figure 793245DEST_PATH_IMAGE012
Figure 842978DEST_PATH_IMAGE013
S43:在教师-学生网络特征层面的蒸馏过程中,对于同一图像,使用S42步骤中n+1个教 师模型分别生成n+1个中间层特征图,包括一个主教师模型特征图和n个从教师模型特征 图,分别与学生模型输出的特征图计算平滑损失后,获得主教师模型与学生模型的平滑损 失为
Figure 159690DEST_PATH_IMAGE014
,从教师模型与学生模型的损失值
Figure 350500DEST_PATH_IMAGE015
Figure 168283DEST_PATH_IMAGE013
,由于主教师模型基于的数据 集合是实际场景的数据集,其重要程度更高,对应的教师模型的知识也更加重要,因此主教 师模型在指导学生模型进行学习时权重α,0<α<1,设主教师模型与学生模型的平滑损失为
Figure 698622DEST_PATH_IMAGE014
,将获得的n+1个平滑损失值与S42生成的各模型重要权重
Figure 248552DEST_PATH_IMAGE012
Figure 739707DEST_PATH_IMAGE016
,进行加权 求和,则多教师特征层面知识蒸馏的总平滑损失L计算公式为:
Figure 970968DEST_PATH_IMAGE017
S44:在教师-学生输出层面的logits蒸馏过程中,对于同一图像,将主教师模型和n个 从教师模型分别经过S24步骤处理后,主教师模型与学生模型可获得散度值
Figure 746026DEST_PATH_IMAGE018
,其余n个从 教师模型可获得n个KL散度值,即
Figure 466858DEST_PATH_IMAGE019
,同理于S43步骤,利用各教师模型的 重要权重
Figure 835522DEST_PATH_IMAGE012
Figure 978796DEST_PATH_IMAGE013
,将对应的KL散度值进行加权求和获得综合的KL值D_T,公式 为:
Figure 280465DEST_PATH_IMAGE020
6.根据权利要求1所述面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术, 其特征在于:所述步骤S5学生模型压缩感知训练过程还包括:
S51:对学生模型进行子模型采样操作,设定数值较小的剪枝率,对学生模型的Multi-Head-Attention层和线性映射层进行随机剪枝,同一轮剪枝操作将产生多个不同子模型;
S52:使用S41中抽取的测试集对S52产生的子模型进行评估,评估指标同样使用F1-Score值,选取F1-Score值最高的子模型作为本轮剪枝的最优子模型,将该模型进行新一轮次的微调,训练后的模型重复进行S51和S52的循环操作,循环次数在10次以上;
S53:Vision Transformer的计算量主要集中在多层自注意力MSA和多层感知机MLP模 块,对其中的矩阵乘法的输入和权重进行量化,使用对称变换的量化策略,对于量化目标比 特宽度b,可承受的范围值为
Figure 375460DEST_PATH_IMAGE021
,使用量化感知训练策略,对输入数据进行伪 量化的操作,即对量化步长s,输入数据x和量化后的数据q有计算公式如下:
Figure 824896DEST_PATH_IMAGE023
其中
Figure DEST_PATH_IMAGE025
由于采用量化感知训练,量化步长s需要不断更新,其中对s更新的梯度值
Figure 929118DEST_PATH_IMAGE026
计算如 下:
Figure 429501DEST_PATH_IMAGE028
S54:量化后的模型进行再训练,以上步骤循环进行,重复次数不低于10次,保证量化过程的误差在训练中得到弥补,最后将量化的模型格式化为边缘计算设备可部署的形式输出。
CN202211140194.6A 2022-09-20 2022-09-20 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法 Active CN115223049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211140194.6A CN115223049B (zh) 2022-09-20 2022-09-20 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211140194.6A CN115223049B (zh) 2022-09-20 2022-09-20 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法

Publications (2)

Publication Number Publication Date
CN115223049A true CN115223049A (zh) 2022-10-21
CN115223049B CN115223049B (zh) 2022-12-13

Family

ID=83617059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211140194.6A Active CN115223049B (zh) 2022-09-20 2022-09-20 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法

Country Status (1)

Country Link
CN (1) CN115223049B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309151A (zh) * 2023-03-06 2023-06-23 腾讯科技(深圳)有限公司 图片去压缩失真网络的参数生成方法、装置和存储介质
CN117197590A (zh) * 2023-11-06 2023-12-08 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117274723A (zh) * 2023-11-22 2023-12-22 国网智能科技股份有限公司 一种用于输电巡检的目标识别方法、系统、介质及设备
CN117496509A (zh) * 2023-12-25 2024-02-02 江西农业大学 一种融合多教师知识蒸馏的Yolov7柚子计数方法
WO2024107035A1 (ko) * 2022-11-18 2024-05-23 주식회사 엘지 경영개발원 지식 증류를 통한 비전 트랜스포머 사전 훈련 방법 및 시스템, 이를 통해 사전 훈련된 비전 트랜스포머
CN118093210A (zh) * 2024-04-29 2024-05-28 浙江鹏信信息科技股份有限公司 基于模型蒸馏的异构算力调度方法、系统及可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855608A (zh) * 2019-09-29 2020-02-28 上海天旦网络科技发展有限公司 基于强化学习的协议逆向工程系统及其工作方法
CN113159173A (zh) * 2021-04-20 2021-07-23 北京邮电大学 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法
CN113643340A (zh) * 2021-08-16 2021-11-12 中冶东方工程技术有限公司 一种基于机器视觉的热轧钢轨物料跟踪方法及系统
CN113743514A (zh) * 2021-09-08 2021-12-03 庆阳瑞华能源有限公司 一种基于知识蒸馏的目标检测方法及目标检测终端
US20210383238A1 (en) * 2020-06-05 2021-12-09 Aref JAFARI Knowledge distillation by utilizing backward pass knowledge in neural networks
WO2021243473A1 (en) * 2020-06-05 2021-12-09 Huawei Technologies Co., Ltd. Improved knowledge distillation by utilizing backward pass knowledge in neural networks
US20220036194A1 (en) * 2021-10-18 2022-02-03 Intel Corporation Deep neural network optimization system for machine learning model scaling
CN114049513A (zh) * 2021-09-24 2022-02-15 中国科学院信息工程研究所 一种基于多学生讨论的知识蒸馏方法和系统
CN114095447A (zh) * 2021-11-22 2022-02-25 成都中科微信息技术研究院有限公司 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法
US20220076136A1 (en) * 2020-09-09 2022-03-10 Peyman PASSBAN Method and system for training a neural network model using knowledge distillation
WO2022051856A1 (en) * 2020-09-09 2022-03-17 Huawei Technologies Co., Ltd. Method and system for training a neural network model using adversarial learning and knowledge distillation
WO2022051855A1 (en) * 2020-09-09 2022-03-17 Huawei Technologies Co., Ltd. Method and system for training a neural network model using gradual knowledge distillation
CN114241282A (zh) * 2021-11-04 2022-03-25 河南工业大学 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN114239861A (zh) * 2021-12-16 2022-03-25 华侨大学 基于多教师联合指导量化的模型压缩方法及系统
CN115063663A (zh) * 2022-06-06 2022-09-16 电子科技大学 一种基于知识蒸馏的目标检测压缩方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855608A (zh) * 2019-09-29 2020-02-28 上海天旦网络科技发展有限公司 基于强化学习的协议逆向工程系统及其工作方法
US20210383238A1 (en) * 2020-06-05 2021-12-09 Aref JAFARI Knowledge distillation by utilizing backward pass knowledge in neural networks
WO2021243473A1 (en) * 2020-06-05 2021-12-09 Huawei Technologies Co., Ltd. Improved knowledge distillation by utilizing backward pass knowledge in neural networks
US20220076136A1 (en) * 2020-09-09 2022-03-10 Peyman PASSBAN Method and system for training a neural network model using knowledge distillation
WO2022051855A1 (en) * 2020-09-09 2022-03-17 Huawei Technologies Co., Ltd. Method and system for training a neural network model using gradual knowledge distillation
WO2022051856A1 (en) * 2020-09-09 2022-03-17 Huawei Technologies Co., Ltd. Method and system for training a neural network model using adversarial learning and knowledge distillation
CN113159173A (zh) * 2021-04-20 2021-07-23 北京邮电大学 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法
CN113643340A (zh) * 2021-08-16 2021-11-12 中冶东方工程技术有限公司 一种基于机器视觉的热轧钢轨物料跟踪方法及系统
CN113743514A (zh) * 2021-09-08 2021-12-03 庆阳瑞华能源有限公司 一种基于知识蒸馏的目标检测方法及目标检测终端
CN114049513A (zh) * 2021-09-24 2022-02-15 中国科学院信息工程研究所 一种基于多学生讨论的知识蒸馏方法和系统
US20220036194A1 (en) * 2021-10-18 2022-02-03 Intel Corporation Deep neural network optimization system for machine learning model scaling
CN114241282A (zh) * 2021-11-04 2022-03-25 河南工业大学 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN114095447A (zh) * 2021-11-22 2022-02-25 成都中科微信息技术研究院有限公司 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法
CN114239861A (zh) * 2021-12-16 2022-03-25 华侨大学 基于多教师联合指导量化的模型压缩方法及系统
CN115063663A (zh) * 2022-06-06 2022-09-16 电子科技大学 一种基于知识蒸馏的目标检测压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUZHANG SHANG 等: "Lipschitz Continuity Guided Knowledge Distillation", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
葛仕明等: "基于深度特征蒸馏的人脸识别", 《北京交通大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024107035A1 (ko) * 2022-11-18 2024-05-23 주식회사 엘지 경영개발원 지식 증류를 통한 비전 트랜스포머 사전 훈련 방법 및 시스템, 이를 통해 사전 훈련된 비전 트랜스포머
CN116309151A (zh) * 2023-03-06 2023-06-23 腾讯科技(深圳)有限公司 图片去压缩失真网络的参数生成方法、装置和存储介质
CN117197590A (zh) * 2023-11-06 2023-12-08 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117197590B (zh) * 2023-11-06 2024-02-27 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117274723A (zh) * 2023-11-22 2023-12-22 国网智能科技股份有限公司 一种用于输电巡检的目标识别方法、系统、介质及设备
CN117274723B (zh) * 2023-11-22 2024-03-26 国网智能科技股份有限公司 一种用于输电巡检的目标识别方法、系统、介质及设备
CN117496509A (zh) * 2023-12-25 2024-02-02 江西农业大学 一种融合多教师知识蒸馏的Yolov7柚子计数方法
CN117496509B (zh) * 2023-12-25 2024-03-19 江西农业大学 一种融合多教师知识蒸馏的Yolov7柚子计数方法
CN118093210A (zh) * 2024-04-29 2024-05-28 浙江鹏信信息科技股份有限公司 基于模型蒸馏的异构算力调度方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN115223049B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN115223049B (zh) 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法
CN109492830B (zh) 一种基于时空深度学习的移动污染源排放浓度预测方法
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN113486078A (zh) 一种分布式配电网运行监控方法及系统
CN111242351A (zh) 基于自编码器和gru神经网络的热带气旋轨迹预测方法
CN115587454A (zh) 基于改进Transformer模型的交通流量长时预测方法及系统
CN114580706A (zh) 基于gru-lstm神经网络的电力金融业务风控方法及系统
CN112149887A (zh) 一种基于数据时空特征的pm2.5浓度预测方法
CN116151459B (zh) 基于改进Transformer的电网防汛风险概率预测方法和系统
CN111178585A (zh) 基于多算法模型融合的故障接报量预测方法
CN111968019A (zh) 一种基于cnn与rnn集成的滑坡灾害易发性预测方法
CN116307291B (zh) 一种基于小波分解的分布式光伏发电预测方法及预测终端
CN115267945A (zh) 一种基于图神经网络的雷电预警方法与系统
CN111898836A (zh) 一种犯罪时空预测方法及系统
CN112115636A (zh) 一种电力电缆绝缘老化寿命超前预测方法及系统
CN114897160A (zh) 模型训练方法、系统及计算机存储介质
CN117371207A (zh) 一种特高压换流阀状态评价方法、介质及系统
CN115238749A (zh) 一种基于Transformer的特征融合的调制识别方法
Cao et al. UTrans-Net: A model for short-term precipitation prediction
CN117172413B (zh) 基于多模态数据联合表征和动态权重学习的电网设备运行状态监测方法
CN116884192A (zh) 一种电力生产作业风险预警方法、系统和设备
CN113052103A (zh) 一种基于神经网络的电气设备缺陷检测方法及装置
CN115796359A (zh) 基于深度Koopman算符的PM2.5时空预测方法
CN116007937A (zh) 一种机械设备传动部件智能故障诊断方法及装置
CN114066250A (zh) 一种输电项目修理成本测算方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant