CN112418343B - 多教师自适应联合的学生模型训练方法 - Google Patents

多教师自适应联合的学生模型训练方法 Download PDF

Info

Publication number
CN112418343B
CN112418343B CN202011421445.9A CN202011421445A CN112418343B CN 112418343 B CN112418343 B CN 112418343B CN 202011421445 A CN202011421445 A CN 202011421445A CN 112418343 B CN112418343 B CN 112418343B
Authority
CN
China
Prior art keywords
teacher
model
student
models
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011421445.9A
Other languages
English (en)
Other versions
CN112418343A (zh
Inventor
郭雨
潘嵘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011421445.9A priority Critical patent/CN112418343B/zh
Publication of CN112418343A publication Critical patent/CN112418343A/zh
Application granted granted Critical
Publication of CN112418343B publication Critical patent/CN112418343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及多教师自适应联合的学生模型训练方法,对教师模型的中间层特征,选择深度神经网络对这些特征进行融合,并用用加权预测融合各个教师模型的预测结果,得到最终的特征让学生模型学习并构造学生模型的最终损失函数。对于不同的样本,学生模型能够有偏向的学习不同的教师模型的预测结果,将不同教师模型传递的知识有差异的结合,形成更加有效的软标签,引导学生模型的学习,使得学生模型的学习更加有效,令学生模型的最终使用效果更好。

Description

多教师自适应联合的学生模型训练方法
技术领域
本发明涉及知识蒸馏领域,更具体地,涉及多教师自适应联合的学生模型训练方法。
背景技术
知识蒸馏(knowledge distillation)是一种能让小网络模仿学习大网络,从而提升小网络性能的方法。其主要思想是迁移学习,以预先训练好的复杂而繁重的模型教师模型为目标,让学生模型去学习教师模型得到的暗知识,训练一个简化的、压缩的学生模型。
公开号为“CN108664893A”,公开日为2018年10月16日的中国专利申请公开了一种一种人脸检测方法,包括以下步骤:步骤102,对轻量网络和复杂网络分别输入一批同样的训练图像;步骤104,针对轻量网络和复杂网络的分类图的输出结果,采用难样本挖掘法进行过滤;步骤106,构造综合损失函数,所述综合损失函数包括知识蒸馏损失函数或基于标签的人脸检测损失函数,所述知识蒸馏损失函数根据轻量网络和复杂网络的分类图的输出结果获得;步骤108,基于损失函数,更新轻量网络的参数,不更新复杂网络的参数;步骤110,重复上述步骤,直至轻量网络训练至收敛。在该方法中,轻量网络就是学生模型,复杂网络就是教师模型。
但是在上述的方法中,学生模型和教师模型采用难样本挖掘法进行过滤,构造损失函数的时候也只是根据分类图的输出结果。在这种情况下,如果进行的是多教师知识蒸馏,导致各个教师模型的权重是一样的,没有根据每个教师对于不同样本的重要性设计权重。且对于中间层的特征只是简单的让学生模型去同时拟合多个教师模型,这可能使学生模型学不到每个老师的重要性,只是简单的学习到表面,导致学生模型的学习效果不好。
发明内容
本发明为克服上述现有技术中多教师知识蒸馏的学生模型学习效果差问题,提供多教师自适应联合的学生模型训练方法,学生模型能够有偏向的学习不同的教师模型的预测结果,将不同教师模型传递的知识有差异的结合,令学生模型既能学习到不同教师模型的不同知识,又能得到真实样本的监督,得出的学生模型更好。
为解决上述技术问题,本发明采用的技术方案是:提供多教师自适应联合的学生模型训练方法,对教师模型的中间层特征,选择深度神经网络对这些特征进行融合,并用用加权预测融合各个教师模型的预测结果,得到最终的特征让学生模型学习并构造学生模型的最终损失函数为:
其中,ys是学生模型的logits输出,y是真实标签;是学生模型输出的概率分布和教师模型输出的概率分布;As,At是学生模型和教师模型提取的特征;α是个超参数,用来控制两种损失的权重;β是控制损失的权重的超参数;T作为温度,用来平滑这两个概率分布。
教师模型基本结构通常和学生模型一样,但是每一组卷积块的卷积层数目会比学生模型的多,即每一组卷积块的厚度会更厚,因此提取的特征会更精准,性能会更好。教师模型的训练方法和常规的神经网络模型训练方法一样,通过多分类的交叉熵函数作为损失函数,用随机梯度下降作为优化方法进行训练。
优选的,具体包括如下步骤:
步骤一:构建基于卷积神经网络的残差网络作为教师模型,通过不同的初始化参数训练许多个教师模型直至收敛;
步骤二:将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类,将深度神经网络的中间层作为教师模型的特征融合模型;
步骤三:将同一批训练数据输入教师模型和学生模型,得到各个教师模型的特征和概率分布;
步骤四:用步骤二中训练好的深度神经网络融合特征,用加权预测融合各个教师模型的预测结果;
步骤五:根据损失函数,并基于损失函数更新学生模型的参数,固定其他模型的参数;
步骤六:重复步骤一至步骤五,直到学生模型收敛。
优选的,在所述步骤二中,教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果,即featurei,predi=modeli(x),然后将特征都拼接起来的到最终特征,即最终特征=[特征1|特征2|...|特征n],用最终特征和样本标签训练一个深度神经网络,即样本为(拼接后的特征,真实标签),训练好的神经网络的中间层是融合后的特征,且与每个教师模型的特征纬度一致。
优选的,训练学生模型,将经过相同处理后的图片同时输入到学生模型和教师模型中,得到各个教师模型的特征和概率分布。
优选的,损失函数中学生模型的logits输出ys和真实标签y的交叉熵损失的具体公式为:
其中,j为logits输出向量ys中第j个元素。
损失函数中教师模型的logits和教师模型的logits的KL散度的具体公式为:
其中,分别是教师模型和学生模型得到的概率分布,/>分别是概率分布中对应的第i个元素。
损失函数中特征间的均方误差损失的具体公式为:
其中,fs为学生模型的特征;ft为多个教师特征融合后的特征;n为特征的元素个数。
优选的,在步骤四中,将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型,并通过训练好的深度神经网络对多个教师得到的特征进行融合,得到融合后的教师模型特征。
优选的,在步骤四中,用加权预测融合各个教师模型的预测结果的方法是:通过教师模型和真实标签得出不同教师模型对该样本的预测结果的权重,然后对不同的教师模型进行加权求和得到最终的概率分布。
优选的,教师模型输出概率分布的计算公式具体为:
其中,wi为第i个教师对应的权重和logits分布,/>是第i个教师的logits分布中第z个元素,其中z是正确的类别标签。/>是第i个教师的logits分布中第j个元素。
优选的,用加权预测融合各个教师模型的预测结果的方法是:根据真实标签组合最终的概率分布,对于每一个样本,若只有单个教师模型对该样本分类正确,则选择该教师模型作为最终的概率分布;若有多个教师模型都分类正确,那么对这多个教师的预测结果取平均作为结果;若没有教师模型分类正确,则学生模型在该样本不学习教师模型,仅通过真实标签进行学习。
优选的,教师模型输出概率只计算预测正确的样本的损失,对预测正确的教师模型Q的预测结果进行平均,对于预测错误的样本,不计算这一部分的损失,并加大第一部分的损失权重,具体的计算公式为:
其中,Q是指所有教师模型中对该样本预测正确的教师集合,是指集合中所有logits分布的平均。
优选的,在所述步骤一中,残差网络具体为resnet152。
与现有技术相比,有益效果是:本发明的多教师自适应联合的学生模型训练方法,使得对于不同的样本,学生模型能够有偏向的学习不同的教师模型的预测结果,将不同教师模型传递的知识有差异的结合,形成更加有效的软标签,引导学生模型的学习,使得学生模型的学习更加有效,令学生模型的最终使用效果更好。
附图说明
图1是本发明多教师自适应联合的学生模型训练方法的流程图;
图2是本发明多教师自适应联合的学生模型训练方法的效果对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1所示为多教师自适应联合的学生模型训练方法的实施例,包括以下步骤:
步骤一:构建基于卷积神经网络的残差网络作为教师模型,通过不同的初始化参数训练许多个教师模型直至收敛;
步骤二:将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类,将深度神经网络的中间层作为教师模型的特征融合模型;教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果,即featurei,predi=modeli(x),然后将特征都拼接起来的到最终特征,即最终特征=[特征1|特征2|...|特征n],用最终特征和样本标签训练一个深度神经网络,即样本为(拼接后的特征,真实标签),训练好的神经网络的中间层是融合后的特征,且与每个教师模型的特征纬度一致。
步骤三:将同一批训练数据输入教师模型和学生模型;训练学生模型,将经过相同处理后的图片同时输入到学生模型和教师模型中,得到各个教师模型的特征和概率分布。
步骤四:用步骤二中训练好的深度神经网络融合特征,用加权预测融合各个教师模型的预测结果;具体为:将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型,并通过训练好的深度神经网络对多个教师得到的特征进行融合,得到融合后的教师模型特征。
步骤五:根据损失函数,并基于损失函数更新学生模型的参数,固定其他模型的参数;损失函数具体为:
其中,ys是学生模型的logits输出,y是真实标签;是学生模型输出的概率分布和教师模型输出的概率分布;As,At是学生模型和教师模型提取的特征;α是个超参数,用来控制两种损失的权重;B是控制损失的权重的超参数;T作为温度,用来平滑这两个概率分布。
损失函数中中学生模型的logits输出ys和真实标签y的交叉熵损失的具体公式为:
其中,j为logits输出向量ys中第j个元素。
损失函数中教师模型的logits和教师模型的logits的KL散度的具体公式为:
其中,分别是教师模型和学生模型得到的概率分布,/>分别是概率分布中对应的第i个元素。
损失函数中特征间的均方误差损失的具体公式为:
其中,fs为学生模型的特征;ft为多个教师特征融合后的特征;n为特征的元素个数。
步骤六:重复步骤一至步骤五,直到学生模型收敛。
具体的,在步骤四中,用加权预测融合各个教师模型的预测结果的方法是:通过教师模型和真实标签得出不同教师模型对该样本的预测结果的权重,然后对不同的教师模型进行加权求和得到最终的概率分布。
优选的,教师模型输出概率分布的计算公式具体为:
其中,wi为第i个教师对应的权重和logits分布,/>是第i个教师的logits分布中第z个元素,其中z是正确的类别标签。/>是第i个教师的logits分布中第j个元素。
在本实施例的有益效果:如图2所示为本实施例所记载方法与其他方法效果的比较,所采用的均为CIFAR100这个数据集。本文提出的多教师自适应联合的学生模型训练方法,使得对于不同的样本,学生模型能够有偏向的学习不同的教师模型的预测结果,将不同教师模型传递的知识有差异的结合,形成更加有效的软标签,引导学生模型的学习,使得学生模型的学习更加有效,令学生模型的最终使用效果更好。
实施例2
多教师自适应联合的学生模型训练方法的另一实施例,与实施例1的区别在于,在步骤四中,用加权预测融合各个教师模型的预测结果的方法是:根据真实标签组合最终的概率分布,对于每一个样本,若只有单个教师模型对该样本分类正确,则选择该教师模型作为最终的概率分布;若有多个教师模型都分类正确,那么对这多个教师的预测结果取平均作为结果;若没有教师模型分类正确,则学生模型在该样本不学习教师模型,仅通过真实标签进行学习。
具体的,教师模型输出概率只计算预测正确的样本的损失,对预测正确的教师模型Q的预测结果进行平均,对于预测错误的样本,不计算这一部分的损失,并加大第一部分的损失权重,具体的计算公式为:
其中,Q是指所有教师模型中对该样本预测正确的教师集合,是指集合中所有logits分布的平均。
本实施例相较于实施例1的有益效果为:实施例1方法中,由于我们不清楚错误的教师结果是否会含有有用信息,所以还是会将预测错误的教师模型的结果也融合到最终的logits分布中,只是对应的权重会小。而本实施会只融合预测正确的教师模型的结果,教师提供的信息会更加精确,所以对于大部分数据集而言,效果会优于实施例1.
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.多教师自适应联合的学生模型训练方法,其特征在于,选择深度神经网络教师模型的中间层特征进行融合,并用加权预测融合各个教师模型的预测结果,得到最终特征让学生模型学习并构造学生模型的最终损失函数;损失函数具体为:
其中,ys是学生模型的logits输出,y是真实标签;是学生模型输出的概率分布和教师模型输出的概率分布;As,At是学生模型和教师模型提取的特征;α是个超参数,用来控制两种损失的权重;β是控制损失的权重的超参数;T作为温度,用来平滑这两个概率分布;
损失函数中学生模型的logits输出ys和真实标签y的交叉熵损失的具体公式为:
其中,j为logits输出向量ys中第j个元素;
损失函数中教师模型的logits和教师模型的logits的KL散度的具体公式为:
其中,分别是教师模型和学生模型得到的概率分布,/>分别是概率分布中对应的第i个元素;
损失函数中特征间的均方误差损失的具体公式为:
其中,fs为学生模型的特征;ft为多个教师特征融合后的特征;n为特征的元素个数;
数据集为CIFAR100。
2.根据权利要求1所述的多教师自适应联合的学生模型训练方法,其特征在于,具体包括如下步骤:
步骤一:构建基于卷积神经网络的残差网络作为教师模型,通过不同的初始化参数训练许多个教师模型直至收敛;
步骤二:将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类,将深度神经网络的中间层作为教师模型的特征融合模型;
步骤三:将同一批训练数据输入教师模型和学生模型,得到各个教师模型的特征和概率分布;
步骤四:用步骤二中训练好的深度神经网络融合特征,用加权预测融合各个教师模型的预测结果;
步骤五:根据损失函数,并基于损失函数更新学生模型的参数,固定其他模型的参数;
步骤六:重复步骤一至步骤五,直到学生模型收敛。
3.根据权利要求2所述的多教师自适应联合的学生模型训练方法,其特征在于,在所述步骤二中,教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果,然后将特征都拼接起来的到最终特征,用最终特征和样本标签训练一个深度神经网络,训练好的神经网络的中间层是融合后的特征,且与每个教师模型的特征纬度一致。
4.根据权利要求3所述的多教师自适应联合的学生模型训练方法,其特征在于,训练学生模型,将经过相同处理后的图片同时输入到学生模型和教师模型中,得到各个教师模型的特征和概率分布。
5.根据权利要求1所述的多教师自适应联合的学生模型训练方法,其特征在于,在步骤四中,将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型,并通过训练好的深度神经网络对多个教师得到的特征进行融合,得到融合后的教师模型特征。
6.根据权利要求5所述的多教师自适应联合的学生模型训练方法,其特征在于,在步骤四中,用加权预测融合各个教师模型的预测结果的方法是:通过教师模型和真实标签得出不同教师模型对样本的预测结果的权重,然后对不同的教师模型进行加权求和得到最终的概率分布。
7.根据权利要求6所述的多教师自适应联合的学生模型训练方法,其特征在于,教师模型输出logits分布的计算公式具体为:
其中,wi为第i个教师对应的权重和logits分布,/>是第i个教师的logits分布中第z个元素,其中z是正确的类别标签;/>是第i个教师的logits分布中第j个元素。
8.根据权利要求5所述的多教师自适应联合的学生模型训练方法,其特征在于,用加权预测融合各个教师模型的预测结果的方法是:根据真实标签组合最终的概率分布,对于每一个样本,若只有单个教师模型对该样本分类正确,则选择该教师模型作为最终的概率分布;若有多个教师模型都分类正确,那么对这多个教师的预测结果取平均作为结果;若没有教师模型分类正确,则学生模型在该样本不学习教师模型,仅通过真实标签进行学习。
9.根据权利要求8所述的多教师自适应联合的学生模型训练方法,其特征在于,教师模型输出概率只计算预测正确的样本的损失,对预测正确的教师模型Q的预测结果进行平均,对于预测错误的样本,不计算这一部分的损失,并加大第一部分的损失权重,具体的计算公式为:
其中,Q是指所有教师模型中对该样本预测正确的教师集合,是指集合中所有logits分布的平均。/>
CN202011421445.9A 2020-12-08 2020-12-08 多教师自适应联合的学生模型训练方法 Active CN112418343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011421445.9A CN112418343B (zh) 2020-12-08 2020-12-08 多教师自适应联合的学生模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011421445.9A CN112418343B (zh) 2020-12-08 2020-12-08 多教师自适应联合的学生模型训练方法

Publications (2)

Publication Number Publication Date
CN112418343A CN112418343A (zh) 2021-02-26
CN112418343B true CN112418343B (zh) 2024-01-05

Family

ID=74775353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011421445.9A Active CN112418343B (zh) 2020-12-08 2020-12-08 多教师自适应联合的学生模型训练方法

Country Status (1)

Country Link
CN (1) CN112418343B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967088A (zh) * 2021-03-03 2021-06-15 上海数鸣人工智能科技有限公司 基于知识蒸馏的营销活动预测模型结构和预测方法
CN113449776B (zh) * 2021-06-04 2023-07-25 中南民族大学 基于深度学习的中草药识别方法、装置及存储介质
CN113344205A (zh) * 2021-06-16 2021-09-03 广东电网有限责任公司 一种基于蒸馏关系的抽取加速方法及装置
CN113255899B (zh) * 2021-06-17 2021-10-12 之江实验室 一种通道自关联的知识蒸馏方法与系统
CN115238903B (zh) * 2021-06-29 2023-10-03 达闼机器人股份有限公司 模型压缩方法、系统、电子设备及存储介质
CN113610173B (zh) * 2021-08-13 2022-10-04 天津大学 一种基于知识蒸馏的多跨域少样本分类方法
CN113487614B (zh) * 2021-09-08 2021-11-30 四川大学 胎儿超声标准切面图像识别网络模型的训练方法和装置
CN113869512B (zh) * 2021-10-09 2024-05-21 北京中科智眼科技有限公司 基于自监督与自蒸馏的补充标签学习方法
CN114495245B (zh) * 2022-04-08 2022-07-29 北京中科闻歌科技股份有限公司 人脸伪造图像鉴别方法、装置、设备以及介质
CN114970862B (zh) * 2022-04-28 2024-05-28 北京航空航天大学 一种基于多实例知识蒸馏模型的pdl1表达水平预测方法
CN114723746B (zh) * 2022-05-24 2022-09-02 神州医疗科技股份有限公司 基于知识蒸馏的病灶区域深度组学特征提取方法及装置
CN115019183B (zh) * 2022-07-28 2023-01-20 北京卫星信息工程研究所 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN115544277A (zh) * 2022-12-02 2022-12-30 东南大学 一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法
CN116028891B (zh) * 2023-02-16 2023-07-14 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN116091895B (zh) * 2023-04-04 2023-07-11 之江实验室 一种面向多任务知识融合的模型训练方法及装置
CN116205290B (zh) * 2023-05-06 2023-09-15 之江实验室 一种基于中间特征知识融合的知识蒸馏方法和装置
CN117421678B (zh) * 2023-12-19 2024-03-22 西南石油大学 一种基于知识蒸馏的单导联房颤识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160474A (zh) * 2019-12-30 2020-05-15 合肥工业大学 一种基于深度课程学习的图像识别方法
CN111160409A (zh) * 2019-12-11 2020-05-15 浙江大学 一种基于共同特征学习的异构神经网络知识重组方法
CN111242303A (zh) * 2020-01-14 2020-06-05 北京市商汤科技开发有限公司 网络训练方法及装置、图像处理方法及装置
CN111709476A (zh) * 2020-06-17 2020-09-25 浪潮集团有限公司 一种基于知识蒸馏的小分类模型训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160409A (zh) * 2019-12-11 2020-05-15 浙江大学 一种基于共同特征学习的异构神经网络知识重组方法
CN111160474A (zh) * 2019-12-30 2020-05-15 合肥工业大学 一种基于深度课程学习的图像识别方法
CN111242303A (zh) * 2020-01-14 2020-06-05 北京市商汤科技开发有限公司 网络训练方法及装置、图像处理方法及装置
CN111709476A (zh) * 2020-06-17 2020-09-25 浪潮集团有限公司 一种基于知识蒸馏的小分类模型训练方法及装置

Also Published As

Publication number Publication date
CN112418343A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418343B (zh) 多教师自适应联合的学生模型训练方法
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
CN112508334B (zh) 融合认知特性及试题文本信息的个性化组卷方法及系统
CN110135459B (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
CN111860658A (zh) 一种基于代价敏感和集成学习的变压器故障诊断方法
CN112039687A (zh) 一种面向小样本特征的基于改进生成对抗网络的故障诊断方法
CN112115993B (zh) 一种基于元学习的零样本和小样本证件照异常检测方法
CN111210002B (zh) 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统
CN112417159A (zh) 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
CN110059144B (zh) 一种基于卷积神经网络的轨迹属主预测方法
CN111125520B (zh) 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN113269239B (zh) 一种基于多通道卷积神经网络的关系网络节点分类方法
Ung et al. Test case based risk predictions using artificial neural network
CN114911975A (zh) 一种基于图注意力网络的知识追踪方法
CN114201684A (zh) 一种基于知识图谱的自适应学习资源推荐方法及系统
US20220215255A1 (en) Learning content recommendation system for predicting probability of correct answer of user using collaborative filtering based on latent factor and operation method thereof
CN115357805A (zh) 一种基于内外部视角的群组推荐方法
Lonij et al. Open-world visual recognition using knowledge graphs
CN113591988B (zh) 知识认知结构分析方法、系统、计算机设备、介质、终端
CN113807214A (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN113378581A (zh) 一种基于多元概念注意力模型的知识追踪方法及系统
CN112287120A (zh) 一种基于强化学习的双系统知识图谱的知识推理方法
CN117350330A (zh) 基于混合教学的半监督实体对齐方法
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant