CN112132268A - 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质 - Google Patents

任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质 Download PDF

Info

Publication number
CN112132268A
CN112132268A CN202011030206.0A CN202011030206A CN112132268A CN 112132268 A CN112132268 A CN 112132268A CN 202011030206 A CN202011030206 A CN 202011030206A CN 112132268 A CN112132268 A CN 112132268A
Authority
CN
China
Prior art keywords
task
distillation
neural network
loss
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011030206.0A
Other languages
English (en)
Inventor
马恺声
张林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cross Information Core Technology Research Institute Xi'an Co ltd
Tsinghua University
Original Assignee
Cross Information Core Technology Research Institute Xi'an Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cross Information Core Technology Research Institute Xi'an Co ltd filed Critical Cross Information Core Technology Research Institute Xi'an Co ltd
Priority to CN202011030206.0A priority Critical patent/CN112132268A/zh
Publication of CN112132268A publication Critical patent/CN112132268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质,以数据驱动方式进行特征蒸馏,稳定有效,能够显著提升蒸馏训练的精度。本发明在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。通过辅助分类器,对面向任务特征通过任务损失实现提取,通过特征蒸馏损失面向任务特征的传递,实现了面向任务的特征蒸馏,用于从教师到学生的面向任务的信息的提取,实现高效可靠的知识蒸馏。

Description

任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可 读存储介质
技术领域
本发明涉及深度神经网络的知识蒸馏,具体为任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质。
背景技术
近年来,在自然语言处理和计算机视觉等各种应用中,深度神经网络已经取得了显著的成就。然而,神经网络的成功总是伴随着模型参数和计算的爆炸性增长,这限制了神经网络在例如移动电话和嵌入式设备之类的边缘设备上的部署。已经提出各种技术来解决此问题,包括修剪、量化、轻量化模型设计和知识蒸馏。
Hinton等人首先提出蒸馏的概念,其中训练轻量化学生模型以模拟过度参数化的教师模型的SoftMax输出,即对数。然后,提出了丰富的特征蒸馏方法,鼓励学生模型模仿教师模型的特征。由于教师模型的特征具有比对数更多的信息,因此特征蒸馏使得学生模型能够学习更丰富的信息,并且始终可以提高精度。如图1所示,现有技术中,大多数特征蒸馏方法不是直接学习教师模型的所有特征,而是首先将变换函数应用于特征以将它们转换成易于蒸馏的形式,然后将它们提取给学生。特征蒸馏是知识蒸馏中的一种主要方法,其能够使得蒸馏精度的显著提高,但是大多数现有方法通过手动设计的变换来提取教师网络中的特征;并且在此过程中,有一些不重要的信息被过滤;然而,哪种形式的信息最适合蒸馏,以及哪种变换函数可以提取这种形式的信息,这些仍然是未知的,导致现有的知识蒸馏的可靠性和精度无法满足实际的需求。
发明内容
针对现有技术中存在的问题,本发明提供一种任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质,以数据驱动方式进行特征蒸馏,设计合理,稳定有效,能够显著提升蒸馏训练的精度。
本发明是通过以下技术方案来实现:
任务牵引的特征蒸馏深度神经网络学习训练方法,包括,
在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;
所述的辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。
优选的,所述的辅助分类器由多个卷积层、池化层和全连接层组成。
进一步,通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。
再进一步,所述的对数蒸馏损失的公式如下,
Figure BDA0002702387170000021
其中,LKL是KL发散损失,
Figure BDA0002702387170000022
为训练对象,
Figure BDA0002702387170000023
为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量。
优选的,所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练,
Figure BDA0002702387170000024
其中,α是平衡两种损失的超参数,L2是L2范数损失,T是卷积变化函数,
Figure BDA0002702387170000025
为训练对象,
Figure BDA0002702387170000026
为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量,LCE为交叉熵损失。
优选的,特征蒸馏损失训练时,采用卷积层或全连接层作为特征调整层,调整教师模型中的蒸馏特征尺寸与学生模型的相同;采用正交损失调整特征调整层的权值。
优选的,所述的正交损失的公式如下,
β·(‖WTW-I‖+‖WWT-I‖)
其中,β是一个调节正交损失强度的超参数,W是特征调整层的权重,WT是其对应的转置矩阵,I是单位矩阵。
任务牵引的特征蒸馏深度神经网络学习训练系统,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行计算机程序时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
与现有技术相比,本发明具有以下有益的技术效果:
本发明所述的任务牵引的特征蒸馏深度神经网络学习训练方法,通过辅助分类器,对面向任务特征通过任务损失实现提取,通过特征蒸馏损失面向任务特征的传递,实现了面向任务的特征蒸馏,从而提出了一种新型知识蒸馏方法,用于从教师到学生的面向任务的信息的提取,实现高效可靠的知识蒸馏。
进一步的,通过对数蒸馏损失加速辅助分类器中的卷积变化函数和全连接层的训练,利用蒸馏损失和任务损失以数据驱动方式训练的卷积层作为变换函数,有效的提高了蒸馏的精度和稳定性。
进一步的,利用正交损失对知识蒸馏进行正则化,以避免在特征调整层中教师监督的信息损失,保证了面向任务的特征蒸馏的有效性。
附图说明
图1为现有技术中的特征蒸馏示意图。
图2为本发明实例中所述的面向任务的特征蒸馏示意图。
图3为本发明实例中所述的训练方法示意图。
图4为本发明实例中所述在Gram-CAM方法可视化结果上,主干层中的特征和辅助分类器捕获的面向任务的特征对比图。
图5为本发明实例中所述不同超参数α下所述方法的精度示意图。
图6为本发明实例中所述不同超参数β下所述方法的精度示意图。
图7为本发明实例中所述不同数量辅助分类器下所述方法的精度示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明任务牵引的特征蒸馏深度神经网络学习训练方法,如图2所示,采用面向任务的特征蒸馏(简称TOFD)的知识蒸馏的方法,将蒸馏中最重要的面向任务的信息从教师模型中传递到学生模型中,与现有技术中特征蒸馏方法的变换函数是手工设计不同,TOFD中的变换函数是通过蒸馏损失和任务损失以数据驱动方式训练的卷积层。在TOFD的训练周期中,几个辅助分类器以不同的深度附接到主干层。每个辅助分类器由几个卷积层、池化层和全连接层组成。辅助分类器被训练成执行与整个神经网络相同的任务,从而辅助分类器能够从主干层中的整体特征捕获面向任务的信息,从而实现高效的知识蒸馏。
本发明中采用所述的面向任务的特征蒸馏的方法进行深度神经网络学习训练时,如图3中所示。可以观察到,几个辅助分类器附接在深度卷积神经网络的不同深度处。每个辅助分类器由几个卷积层、池化层和全连接层组成。它们被训练成执行与整个深度神经网络相同的任务。从而使得辅助分类器中的卷积层可以从整个特征中捕获面向任务的信息。然后,这些面向任务的信息通过L2损失被提取到学生模型。此外,为了便于训练辅助分类器,还在教师模型和学生模型之间的每对辅助分类器中应用对数蒸馏损失。注意,这些辅助分类器仅用于知识蒸馏的训练阶段。它们不涉及推断周期,因此没有额外的计算和参数。
另外,通过如下方法,确定辅助分类器的数量和确切位置。由于具有不同分辨率的特征具有不同的信息,即低分辨率特征包含较大对象的更多信息,而高分辨率特征包含较小对象的更多信息。从而在深度神经网络中的每个下采样层之前执行TOFD,因此,不同的辅助分类器可以提取具有不同分辨率的教师模型的特征;辅助分类器的数量由深度神经网络中的下采样层的数量决定。
其中,LKL是KL发散损失,
Figure BDA0002702387170000051
为训练对象,
Figure BDA0002702387170000052
为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,在具有N个卷积级的神经网络中,对数蒸馏损失可以被公式化为
Figure BDA0002702387170000053
其中,LKL是KL发散损失。特征蒸馏的损失函数可以被公式化为
其中,LKL是KL发散损失。特征蒸馏的损失函数可以被公式化为
Figure BDA0002702387170000054
其中,L2是L2范数损失,T表示特征上的变换函数。在大多数以前的特征蒸馏方法中,T是例如池化和低秩分解的非参数变换。相反,所提出的TOFD中的T是几个卷积层,其参数由任务损失和蒸馏损失来训练。所提出的面向任务的特征蒸馏损失可以被公式化为
Figure BDA0002702387170000061
其中,α是平衡两种损失的超参数。此外,我们可以进一步引入对数蒸馏损失,以便训练卷积变换函数T和全连接层c,这可以被公式化为
Figure BDA0002702387170000062
在知识蒸馏的大多数情况中,学生和教师的特征具有不同的宽度、高度和通道,因此不能直接最小化他们的距离。通常应用卷积层或全连接层以调整它们的尺寸使其相等。然而,这导致了一个问题,即在特征调整的过程中可能会丢失教师的一些有用信息,从而降低了特征蒸馏的有效性。为了解决此问题,本发明TOFD中已经引入了正交损失,以调整特征调整层的权重。利用正交矩阵的性质,可以在学生训练中充分利用教师的监督。
本发明中,将正交损失应用于特征调整层的权值以缓解此问题。将教师模型的蒸馏特征表示为矢量x,特征调整层的权值表示为W,调整后的特征可以写为Wx。在特征调整过程中保持特征信息,引入了同时惩罚特征调整层中W所跨越的行空间和列空间的正交性的正交损失,即损失被定义为
β·(‖WTW-I‖+‖WWT-I‖)
其中,β是平衡其大小和其它损失的超参数。如果将卷积层而不是全连接层用作特征调整层,则可以首先将其权重从S×H×C×M调整为SHC×M,其中S、H、C、M分别是宽度、高度、输入通道号和输出通道号。
总而言之,总损失函数可以被公式化为
Loverall=Lfeature+Llogit+Ltask+Lorthogonal
即总损失函数包括特征蒸馏损失、对数蒸馏损失、任务损失、正交损失和两个超参数。
本发明还提供了一种与方法所述对应的任务牵引的特征蒸馏深度神经网络学习训练系统,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行计算机程序时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
以下通过实验来证明本发明的精度。
本发明在图像分类利用包括ResNet、PreactResNet、SENet、ResNext、MobilNetV1、MobileNetV2、ShuffleNetV1、ShuffleNetV2、WideresNet的九种卷积神经网络和包括CIFAR100、CIFAR10、ImageNet的三个数据集进行图像分类实验。在CIFAR实验中,每个模型由SGD优化器以300个周期进行训练,批大小为128个。在ImageNet实验中,每个模型由SGD优化器以90个周期进行训练,批大小为256个。
在3D分类的利用在包括ModelNet10和ModelNet40的两个数据集上进行了不同深度的ResGCN点云分类实验。每个模型由Adam以100个周期进行训练,每20个周期具有学习率衰减。
比较实验比较了包括KD、FitNet、DML和自蒸馏的四种知识蒸馏方法。所有这些实验由我们自己复制。
在CIFAR10和CIFAR100上的结果
表2和表3显示了CIFAR100和CIFAR10上学生网络的准确性。可以观察到:(a)与基线模型相比,所提出的TOFD导致显著的精度提高。在CIFAR100中,平均在11个模型上可以发现5.46%的精度提高,范围从SENet50处的6.75%最大到ShuffleNetV1处的3.78%最小。在CIFAR10中,平均在11种模型上可以发现2.49%的精度提高,范围从在MobileNetV1处的3.77%最大到在ShuffleNetV1处的1.40%最小。(b)在所有模型中,所提出的TOFD在很大程度上优于第二最佳蒸馏方法。平均而言,与第二最佳蒸馏方法相比,在CIFAR10和CIFAR100上可以观察到3.13%和1.28%的精度提高。(c)所提出的TOFD不仅适用于ResNet和SENet等超参数模型,而且在MobilNet和ShuffleNet等轻量化模型中也显示出显著的有效性。平均而言,在CIFAR100和CIFAR10数据集上可以观察到轻量化模型的精度提高了4.40%和2.74%。
表2:在CIFAR100(Top-1精度/%)上的试验结果。
Figure BDA0002702387170000081
表3:在CIFAR10(Top-1精度/%)上的试验结果。
Figure BDA0002702387170000082
Figure BDA0002702387170000091
在ImageNet上的结果
表4示出了在ImageNet上的TOFD的实验结果。ResNet152模型被用作所有这些实验的教师模型。可以观察到:(a)平均而言,TOFD导致6个神经网络的精度提高了1.18%。(b)蒸馏的ResNet50和ResNet101分别具有比ResNet101和ResNet152的基线更高的精度。通过分别用ResNet101和ResNet152代替蒸馏的ResNet50和ResNet101,TOFD实现了1.57倍的压缩和1.81倍的加速,而没有精度损失。
表4:在ImageNet(Top-1精度/%)上的试验结果。
Figure BDA0002702387170000092
在ModelNet10和ModelNet40上的结果
表5和表6示出了在ModelNet10和ModelNet40上的TOFD的实验结果。可以观察到:(a)在3D分类任务中,知识蒸馏方法不如在图像分类任务中有效。在五种蒸馏方法中,只有DML和TOFD可以实现与基线相比一致的精度提高。(b)TOFD在所有模型和数据集上均优于其它知识蒸馏方法。与基线相比,使用TOFD的ModelNet10和ModelNet40平均精度提高了1.25%和0.82%。
表5:在ModelNet10(Top-1精度/%)上进行3D分类任务的试验结果。
Figure BDA0002702387170000101
表6:在ModelNet40(Top-1精度/%)上进行3D分类任务的试验结果。
Figure BDA0002702387170000102
上述充分的实验表明,所提出的TOFD在各种神经网络和数据集中均实现了一致且显著的精度提升。在5个数据集上的10种神经网络的实验表明,TOFD在图像分类和3D分类上均优于现有技术的蒸馏方法。在CIFAR100、CIFAR10、ImageNet、ModelNet10和ModelNet40数据集上,平均可以分别观察到5.46%、1.71%、1.18%、1.25%和0.82%的精度提升。此外,还进行了消融研究和超参数敏感度研究,以显示TOFD的有效性和稳定性。
本发明中引入TOFD中的辅助分类器,从学生和教师的特征中捕获面向任务的信息。如图4中所示,使用Gram-CAM方法可视化了主干层中的特征和辅助分类器捕获的面向任务的特征。可以观察到:第一,除了最后一层的特征即图d之外,主干层中的特征与分类任务没有直接关系。卷积层的注意力均匀地集中在整个图中,这表明在主干层的特征中存在许多非面向任务的信息。第二,在辅助分类器的热图中,狗的像素比背景具有更多的关注值,表明辅助分类器实际上从原始特征中捕获了面向任务的信息。
如表7中所示,对具有ResNet18的CIFAR100进行消融研究,以证明不同组分在TOFD中的个体有效性。可以观察到:(a)与特征蒸馏和对数蒸馏的组合相比,辅助分类器可以提高3.50%(82.31%-78.81%)的精度,表明面向任务的信息有利于知识蒸馏。(b)仅使用辅助分类器,与基线相比,可以观察到2.90%(77.09%-79.99%)的精度提高,表明多出口训练本身可以促进模型训练。(c)特征调整层的正交损失导致0.61%(82.92%-82.31%)的精度提高。
表7在CIFAR100(Top-1精度/%)上使用ResNet18进行消融研究。
Figure BDA0002702387170000111
在本发明所述的方法TOFD中引入超参数α和β以控制特征蒸馏损失和正交损失的大小。如图5和图6所示,已经在CIFAR100和ResNet18上进行了实验以研究其敏感度。可以观察到:(a)即使在最坏的情况下,当α=0.01时,TOFD仍然实现了比基线提高了5.48%的精度,比第二最佳知识蒸馏方法SD,提高了3.93%的精度。(b)当β的范围为0.2-0.8时,TOFD的精度范围为82.51%-82.92%。即使在的最坏情况下,当β=0.2时,TOFD仍然比基线提高了5.42%的精度,并且比第二最佳知识蒸馏方法SD提高了3.87%的精度。这些实验结果表明,TOFD对超参数值不敏感。
在TOFD中,在训练期间引入几个辅助分类器以从所有特征中捕获面向任务的信息。利用ResNet18在CIFAR100上进行了一系列实验,以显示TOFD中辅助分类器的数量如何影响模型的精度。如图7中所示,当在神经网络中少于4个辅助分类器时,每个辅助分类器导致显著的精度提高。相反,第四辅助分类器不仅不能提高模型精度,甚至导致少量的精度下降,这表明太多的辅助分类器可能导致过正则化问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (9)

1.任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,包括,
在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;
所述的辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。
2.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的辅助分类器由多个卷积层、池化层和全连接层组成。
3.根据权利要求2所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。
4.根据权利要求3所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的对数蒸馏损失的公式如下,
Figure FDA0002702387160000011
其中,LKL是KL发散损失,
Figure FDA0002702387160000012
为训练对象,
Figure FDA0002702387160000013
为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量。
5.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练,
Figure FDA0002702387160000014
其中,α是平衡两种损失的超参数,L2是L2范数损失,T是卷积变化函数,
Figure FDA0002702387160000021
为训练对象,
Figure FDA0002702387160000022
为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量,LCE为交叉熵损失。
6.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,特征蒸馏损失训练时,采用卷积层或全连接层作为特征调整层,调整教师模型中的蒸馏特征尺寸与学生模型的相同;采用正交损失调整特征调整层的权值。
7.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的正交损失的公式如下,
β·(‖WTw-i‖+‖wWT-I‖)
其中,β是一个调节正交损失强度的超参数,W是特征调整层的权重,WT是其对应的转置矩阵,I是单位矩阵。
8.任务牵引的特征蒸馏深度神经网络学习训练系统,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现如权利要求1-7中任一项所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的任务牵引的特征蒸馏深度神经网络学习训练方法。
CN202011030206.0A 2020-09-25 2020-09-25 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质 Pending CN112132268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030206.0A CN112132268A (zh) 2020-09-25 2020-09-25 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030206.0A CN112132268A (zh) 2020-09-25 2020-09-25 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质

Publications (1)

Publication Number Publication Date
CN112132268A true CN112132268A (zh) 2020-12-25

Family

ID=73840509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030206.0A Pending CN112132268A (zh) 2020-09-25 2020-09-25 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质

Country Status (1)

Country Link
CN (1) CN112132268A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766463A (zh) * 2021-01-25 2021-05-07 上海有个机器人有限公司 基于知识蒸馏技术优化神经网络模型的方法
CN113159073A (zh) * 2021-04-23 2021-07-23 上海芯翌智能科技有限公司 知识蒸馏方法及装置、存储介质、终端
CN113505797A (zh) * 2021-09-09 2021-10-15 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN113792871A (zh) * 2021-08-04 2021-12-14 北京旷视科技有限公司 神经网络训练方法、目标识别方法、装置和电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766463A (zh) * 2021-01-25 2021-05-07 上海有个机器人有限公司 基于知识蒸馏技术优化神经网络模型的方法
CN113159073A (zh) * 2021-04-23 2021-07-23 上海芯翌智能科技有限公司 知识蒸馏方法及装置、存储介质、终端
CN113159073B (zh) * 2021-04-23 2022-11-18 上海芯翌智能科技有限公司 知识蒸馏方法及装置、存储介质、终端
CN113792871A (zh) * 2021-08-04 2021-12-14 北京旷视科技有限公司 神经网络训练方法、目标识别方法、装置和电子设备
CN113505797A (zh) * 2021-09-09 2021-10-15 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN112132268A (zh) 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质
CN111898095B (zh) 深度迁移学习智能故障诊断方法、装置、存储介质和设备
CN110378383B (zh) 一种基于Keras框架和深度神经网络的图片分类方法
DE112020003127T5 (de) Erweiterung von dynamischem Verarbeitungselement-Array
WO2019091020A1 (zh) 权重数据存储方法和基于该方法的神经网络处理器
CN108921294A (zh) 一种用于神经网络加速的渐进式块知识蒸馏方法
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN114049513A (zh) 一种基于多学生讨论的知识蒸馏方法和系统
CN106485259A (zh) 一种基于高约束高分散主成分分析网络的图像分类方法
CN110909801A (zh) 基于卷积神经网络的数据分类方法、系统、介质及设备
US11899744B2 (en) Apparatus and method of performing matrix multiplication operation of neural network
CN115100238A (zh) 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN114328834A (zh) 一种模型蒸馏方法、系统以及文本检索方法
CN110837570A (zh) 对图像数据进行无偏见分类的方法
Zhou et al. Online filter clustering and pruning for efficient convnets
CN109784159A (zh) 场景图像的处理方法、装置及系统
CN104794455A (zh) 一种东巴象形文字识别方法
Li et al. Incremental learning of single-stage detectors with mining memory neurons
Abdurrahman et al. Generative adversarial network implementation for batik motif synthesis
CN115424288A (zh) 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统
Halkias et al. Sparse penalty in deep belief networks: using the mixed norm constraint
Goncharov et al. Architecture and basic principles of the multifunctional platform for plant disease detection
CN112884160B (zh) 一种元学习方法及相关装置
Agustiono et al. A modification of convolutional neural network layer to increase images classification accuracy
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Linfeng

Inventor before: Ma Kaisheng

Inventor before: Zhang Linfeng

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20240529

Address after: 710077 5th floor, B3, phase II, software new town, tianguba Road, Yanta District, Xi'an City, Shaanxi Province

Applicant after: Cross Information Core Technology Research Institute (Xi'an) Co.,Ltd.

Country or region after: China

Applicant after: TSINGHUA University

Address before: 710077 11th floor, building B2, yunhuigu 156, software new town, Tiangu 8th Road, high tech Zone, Xi'an City, Shaanxi Province

Applicant before: Cross Information Core Technology Research Institute (Xi'an) Co.,Ltd.

Country or region before: China