CN113255822A - 一种用于图像检索的双重知识蒸馏方法 - Google Patents

一种用于图像检索的双重知识蒸馏方法 Download PDF

Info

Publication number
CN113255822A
CN113255822A CN202110657910.7A CN202110657910A CN113255822A CN 113255822 A CN113255822 A CN 113255822A CN 202110657910 A CN202110657910 A CN 202110657910A CN 113255822 A CN113255822 A CN 113255822A
Authority
CN
China
Prior art keywords
model
teacher
task
knowledge distillation
student
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110657910.7A
Other languages
English (en)
Other versions
CN113255822B (zh
Inventor
张雪毅
陈伟
王维平
白亮
刘忠
刘丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110657910.7A priority Critical patent/CN113255822B/zh
Publication of CN113255822A publication Critical patent/CN113255822A/zh
Application granted granted Critical
Publication of CN113255822B publication Critical patent/CN113255822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于图像检索的双重知识蒸馏方法,该方法提出了由两个专业教师模型和一个学生模型组成的双重知识蒸馏(DKD)框架。两个专业教师模型分别是固定教师模型和动态教师模型。固定教师模型在前数据集的基础上接受训练,然后固定这些数据集的参数,以便转移之前学到的知识,使这些知识在新的任务学习中发挥作用。动态教师模型用来在新数据集的样本上与学生模型共同接受训练,负责学习新知识,是提高学生模型泛化能力的辅助模范。本发明还通过固定教师模型在BatchNorm层中存储的统计数据来生成旧数据集的代表性图像。本发明能逐步将已获得的知识转移到新任务中,同时对旧任务的遗忘率最小化。

Description

一种用于图像检索的双重知识蒸馏方法
技术领域
本发明属于图像检索领域,具体是涉及到一种用于图像检索的双重知识蒸馏方法。
背景技术
自深度学习出现以来,图像检索在文献中得到了广泛的探索。现有的检索工作通常注重提高网络的泛化能力,并假设目标数据集是平稳和固定的。然而,这个假设在许多现实世界的场景是不可行的,因为现实的环境是不稳定的。为此,提出了终身学习,使得深度网络能学习连续性的任务并适应流数据。终身学习系统的主要挑战是克服打击性的遗忘,和学习新数据时产生的对于旧数据获得的综合知识的干扰。
知识蒸馏可以通过将学习到的信息从一个训练过的网络(即教师模型)转移到一个新的网络(即学生模型)来减少遗忘。对于图像分类、目标检测、图像生成等各种分类的任务,其有效性已经得到了很好的研究。
发明内容
目前,知识蒸馏在图像检索效率方面的研究仍然较少。首先,深度模型会学习不同的任务的增量检索,而训练之间的语义漂移将会导致这些任务之间的相关性很弱,如图1中的鸟、狗和汽车就是一组相关性极弱的任务的例子。因此,知识蒸馏并不能有效地防止跨任务的流数据的遗忘。第二,当模型学习新任务时,任务之间的弱相关性会导致模型参数的显著更新。图像检索对特征之间的匹配非常敏感。因此,特征的微小变化也将对特征匹配产生重大影响。输出特性的变化使将遗忘最小化变得更加困难。第三,传统知识蒸馏的工作框架更加注重在教师模型网络中的知识的保存。这可能会很难在最小化遗忘率和提高网络检索泛化能力之间寻求最佳平衡。
为了将遗忘率最小化,同时提高泛化性能,本发明提出了一种用于图像检索的双重知识蒸馏方法,包括由两个专业教师模型和一个学生模型组成的双重知识蒸馏框架,如图2所示,其中,两个专业教师模型分别是固定教师模型和动态教师模型。在训练任务t之前,固定教师模型在前任务的基础上接受训练,然后固定其参数,并对全连接层嵌入的D维特征进行知识蒸馏;在学生模型学习任务t时,使用固定教师BatchNorm层中存储的统计数据来生成样本,作为前任务的代表,来减少对前一任务的遗忘,学生模型的参数从固定教师模型上复制,其训练方案与固定教师模型一致;动态教师模型与学生模型共同接受训练,进行辅助知识蒸馏来提高学生模型对新任务的泛化能力。本发明中使用三元组损失函数作为基本约束来训练模型。
在训练任务t之前,已经对固定教师模型进行了前任务(t−1)的训练,并确定了其参数。对学生模型进行新任务t的训练会导致负向迁移,这可能会降低前一个任务的性能,知识蒸馏通过使用固定教师模型
Figure 624355DEST_PATH_IMAGE001
可以防止这种问题。如图2所示,利用固定教师模型对全连通层中嵌入的D维特征进行知识蒸馏,公式为
Figure 462867DEST_PATH_IMAGE002
,其中N为mini batch的大小。同样,来自学生模型
Figure 603124DEST_PATH_IMAGE003
的特征表示为
Figure 936016DEST_PATH_IMAGE004
,从固定教师模型和学生模型中进行特征提取时,语义相似的输入能产生相似的模式。因此,采用带有核函数的Gram矩阵来度量特征相关性。
Figure 671760DEST_PATH_IMAGE005
K(·)为内积,即
Figure 228643DEST_PATH_IMAGE006
Figure 184092DEST_PATH_IMAGE007
中的每一项
Figure 320675DEST_PATH_IMAGE008
表示同一激活(i=j)或不同激活(i≠ j)之间的相关性。本发明使用Kullback-Leibler (KL)散度来表征
Figure 176505DEST_PATH_IMAGE009
Figure 310814DEST_PATH_IMAGE010
,由Softmax
Figure 284717DEST_PATH_IMAGE011
函数归一化。因此,将固定教师模型
Figure 224992DEST_PATH_IMAGE001
的知识蒸馏损失写成
Figure 935327DEST_PATH_IMAGE012
,用一个因子
Figure 302855DEST_PATH_IMAGE013
加权:
Figure 170579DEST_PATH_IMAGE014
当学生模型学习任务t时,使用KL散度可以防止前面任务的性能下降。然而,当学生模型对具有较大语义漂移的数据(如图1中的CUB-birds和Stanford-cars)进行增量训练时,
Figure 632653DEST_PATH_IMAGE015
不能通过传递更多以前学到的信息来有效地防止退化。为了克服这个问题,使用BatchNorm层中存储的统计数据来生成样本,作为前面任务的代表。
假设固定教师模型包含L个卷积层,每个卷积层后面都有一个BatchNorm层,如图2所示。每个BatchNorm层l包括通道运行均值
Figure 213807DEST_PATH_IMAGE016
和运行方差
Figure 225670DEST_PATH_IMAGE017
。在训练学生模型之前,使用一批有随机类标签
Figure 892275DEST_PATH_IMAGE018
的高斯噪声Z输入给教师模型。使用教师模型每一个卷积层l的输出来计算批处理均值
Figure 158040DEST_PATH_IMAGE019
和批方差
Figure 593701DEST_PATH_IMAGE020
。定义一个BatchNorm损失
Figure 53763DEST_PATH_IMAGE021
度量Z的存储统计信息与当前统计信息之间的差异,
Figure 942085DEST_PATH_IMAGE022
为权重因子:
Figure 11541DEST_PATH_IMAGE023
不同于ADI, ADI只受限于分类网络,使用K-means聚类损失
Figure 301708DEST_PATH_IMAGE024
Figure 932672DEST_PATH_IMAGE025
对Z进行优化。给定N个噪声张量的mini-batch,包含K个类,每一类的P个张量。一类
Figure 370606DEST_PATH_IMAGE026
的均值
Figure 728906DEST_PATH_IMAGE027
定义为
Figure 388427DEST_PATH_IMAGE028
Figure 439559DEST_PATH_IMAGE029
是张量Z中的一个样本,
Figure 53206DEST_PATH_IMAGE030
的数量被设置为张量Z中的类的数量(即K类)。通过计算类内和类间的距离来聚类Z的特征。具体来说,对于给定的类
Figure 215197DEST_PATH_IMAGE026
,类内距离
Figure 463644DEST_PATH_IMAGE031
的集合被表述为
Figure 685678DEST_PATH_IMAGE032
,p=1,2,3,…。
Figure 786620DEST_PATH_IMAGE031
中的元素数等于p,同样,根据
Figure 752302DEST_PATH_IMAGE033
类的所有其他(N-P)个样本计算出一组类间距离
Figure 120836DEST_PATH_IMAGE034
。在
Figure 248192DEST_PATH_IMAGE031
Figure 836430DEST_PATH_IMAGE034
中对所有元素进行聚类,导致训练效率较低。相反,在这些距离集合中挖掘最困难的样本。对于
Figure 340224DEST_PATH_IMAGE031
,本发明挖掘离它的类均值
Figure 828843DEST_PATH_IMAGE035
最远的样本。对于
Figure 127100DEST_PATH_IMAGE031
,挖掘离类平均
Figure 202635DEST_PATH_IMAGE035
最近的样本。对于所有K类,使用聚类损失
Figure 510119DEST_PATH_IMAGE024
规则化类间变化,使其比类内变化更大对于所有的K类,借助边缘∆>0使用一个聚类损失
Figure 790928DEST_PATH_IMAGE024
来规则化类间的变化变得大于类内变化的,
Figure 322403DEST_PATH_IMAGE036
为权重因子。
Figure 619655DEST_PATH_IMAGE037
然后,利用损失
Figure 730830DEST_PATH_IMAGE038
基于固定教师模型
Figure 928462DEST_PATH_IMAGE039
对Z进行优化,来生成前一个(t-1)任务的代表性图像
Figure 37364DEST_PATH_IMAGE040
,即
Figure 630368DEST_PATH_IMAGE041
Figure 279655DEST_PATH_IMAGE040
图像和类标签
Figure 535056DEST_PATH_IMAGE042
可以用来构建一个混合数据集
Figure 408334DEST_PATH_IMAGE043
。X属于原始训练集
Figure 883440DEST_PATH_IMAGE044
。混合标签为
Figure 867576DEST_PATH_IMAGE045
。在这种情况下,混合数据被输入到固定的教师模型
Figure 39800DEST_PATH_IMAGE046
,以便将更丰富的先验知识传递给学生模型。
在任务t开始时,学生模型的参数从固定教师模型上复制,如图1所示。学生模型的自我激励学习对于保证当前任务t的表现是很重要的。与对固定教师模型的训练方案一致,采用与公式(1)类似的三元组损失形式来训练学生模型,
Figure 490504DEST_PATH_IMAGE047
为权重因子。
Figure 46382DEST_PATH_IMAGE048
需要注意的是,在每个训练阶段,根据混合标签
Figure 240734DEST_PATH_IMAGE049
,Anchor、正样本图像和负样本图像
Figure 267465DEST_PATH_IMAGE050
都来自于混合数据集
Figure 482545DEST_PATH_IMAGE051
在训练过程中,学生模型需要学习新的信息,同时又能保留有之前的知识。然而,使用固定教师模型从混合数据中提取的知识在被学生模型学习时具有较强的正则化,使得学生模型容易记住之前的知识,但对新任务t的泛化程度较低,所以在减少遗忘和提高泛化之间很难达到最佳平衡。因此,本发明提出动态教师模型
Figure 666664DEST_PATH_IMAGE052
与学生模型一起参与训练。它的参数
Figure 258183DEST_PATH_IMAGE053
初始化与固定教师模型和学生模型的初始化不同。动态教师模型被一个三元组损失约束
Figure 342682DEST_PATH_IMAGE054
Figure 931926DEST_PATH_IMAGE055
为权重因子:
Figure 462396DEST_PATH_IMAGE056
Figure 998551DEST_PATH_IMAGE054
,训练图像
Figure 734294DEST_PATH_IMAGE057
仅从
Figure 760019DEST_PATH_IMAGE058
中挖掘的数据集
Figure 715468DEST_PATH_IMAGE059
,而不是混合数据
Figure 648789DEST_PATH_IMAGE060
,见图2。动态教师模型向学生模型传递新信息,以提高学生模型的泛化能力。因此,一个辅助进行知识蒸馏的损失
Figure 442301DEST_PATH_IMAGE061
被定义为:
Figure 638928DEST_PATH_IMAGE062
Figure 81672DEST_PATH_IMAGE063
Figure 756367DEST_PATH_IMAGE064
Figure 466703DEST_PATH_IMAGE065
注意,
Figure 834231DEST_PATH_IMAGE066
为权重因子,在训练期间,从
Figure 498693DEST_PATH_IMAGE067
计算出的梯度与动态教师模型是相互分离的。该操作可以保证动态教师模型完全专注于从新的数据集
Figure 429608DEST_PATH_IMAGE059
捕捉新信息。
当使用数据集
Figure 338659DEST_PATH_IMAGE059
进行训练时在,任务t上,连同生成的图像,双重知识蒸馏(DKD)框架使用完整的目标函数运行:
Figure 611508DEST_PATH_IMAGE068
本发明的有益效果是,提出了一个双重知识蒸馏(DKD)框架,这个框架中包括两个专业教师模型和一个学生模型。一方面,第一位教师模型(即固定教师模型)已经接受了以前任务的训练,以转移旧的知识。为了进一步缓解学生模型的遗忘,使用固定教师模型的BatchNorm层中存储的统计数据生成用于代表之前数据集的图像。不需要存储来自旧数据的少量样本,也不需要通过训练额外产生的生成式网络来合成图像,而是可以直接从固定教师模型中生成具有代表性的图像,不需要任何其他操作。另一方面,第二个教师模型(即动态教师模型)与学生模型共同训练,只使用新任务中的样本。动态教师模型在提高学生模型对新任务的泛化能力的中起到辅助模式的作用。最后,学生模型可以在最小化遗忘率和提高泛化性能之间达到最佳平衡。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为终身图像检索示意图。
图2为双重知识蒸馏(DKD)框架。
图3为CUBBirds在可见数据集上的性能退化评价。
图4为CUBBirds在不可见数据集上的性能退化评价。
图5为CUB-Birds生成具有代表性的图像。
图6为图像分类与图像检索的Recall率/分类准确性比较。
图7为图像分类与图像检索在不同噪音比下的性能退化率。
图8在第一个任务(即在CUB-Birds数据集上)上评估第一个训练顺序的表现。
图9在第一个任务(即在CUB-Birds数据集上)上评估第二个训练顺序的表现。
具体实施方式
为了进行图像检索,本发明将数据集D分割为训练集
Figure 17126DEST_PATH_IMAGE069
和测试集
Figure 33624DEST_PATH_IMAGE070
。在
Figure 718552DEST_PATH_IMAGE069
上训练一个深度网络
Figure 162303DEST_PATH_IMAGE071
,通过使用某个目标函数来学习
Figure 66936DEST_PATH_IMAGE072
的表示。到目前为止,排序误差已经被广泛地用作训练网络
Figure 887125DEST_PATH_IMAGE073
的约束条件。以三元组误差为例,
Figure 426559DEST_PATH_IMAGE069
中的每个真值标签是用来挖掘positive
Figure 306790DEST_PATH_IMAGE074
,hard negative
Figure 433141DEST_PATH_IMAGE075
和anchor image
Figure 791441DEST_PATH_IMAGE076
。网络
Figure 450961DEST_PATH_IMAGE073
被训练来学习一个特征空间,而
Figure 236514DEST_PATH_IMAGE075
Figure 850161DEST_PATH_IMAGE076
的距离被表示为
Figure 12152DEST_PATH_IMAGE077
,它被来自
Figure 526179DEST_PATH_IMAGE078
的边界
Figure 748212DEST_PATH_IMAGE079
扩大了。
Figure 849155DEST_PATH_IMAGE080
(1)
本发明使用三元组损失函数作为基本约束来训练模型以增量执行任务。流程图如图1所示。每个任务t都对应于整个数据集D的训练t (e.g.鸟)。在
Figure 736208DEST_PATH_IMAGE081
任务,数据集
Figure 855474DEST_PATH_IMAGE082
被分成一组可视类别
Figure 999142DEST_PATH_IMAGE083
和一系列不可视的类别
Figure 836648DEST_PATH_IMAGE084
。对于可见部分,
Figure 589709DEST_PATH_IMAGE083
包括
Figure 563481DEST_PATH_IMAGE085
个类别,即
Figure 878050DEST_PATH_IMAGE086
,每个类c包含不同数量的图像
Figure 202852DEST_PATH_IMAGE087
共享相同的标签
Figure 494025DEST_PATH_IMAGE088
Figure 587883DEST_PATH_IMAGE083
部分进一步分解为训练集和测试集, 同样,不可视的类别
Figure 73353DEST_PATH_IMAGE084
包括
Figure 619872DEST_PATH_IMAGE085
个类别,所有这些类别都用于评估模型的泛化能力,类似于用于图像检索的度量学习的一般做法。对于终身图像检索,假设在训练集
Figure 980315DEST_PATH_IMAGE089
(当前任务t)上连续训练了一个深度模型。一方面,要求训练后的模型能够最小化前一任务
Figure 928680DEST_PATH_IMAGE090
Figure 534453DEST_PATH_IMAGE091
的遗忘率,从而保持其对先前数据集
Figure 817536DEST_PATH_IMAGE092
的检索能力。另一方面,要求训练的模型对可见部分
Figure 263561DEST_PATH_IMAGE083
具有较好的精度t,更重要的是,要对当前数据集
Figure 332011DEST_PATH_IMAGE082
的不可视部分
Figure 159284DEST_PATH_IMAGE084
进行了很好的概括。
为了将遗忘率最小化,同时提高泛化性能,本发明提出了一个双重知识蒸馏(DKD)框架,该框架包括两个教师模型和一个学生模型,如图2所示,其将固定教师模型的BatchNorm层中存储的统计量用于生成具有代表性的图像,并由
Figure 680395DEST_PATH_IMAGE093
进行优化。动态教师模型的参数初始化与固定教师模型不同,并使用
Figure 117061DEST_PATH_IMAGE094
与学生模型共同训练。为了清晰起见,没有描述ReLU激活函数和池化层。
在训练任务t之前,已经对一个教师进行了前一个任务(t−1)的训练,并确定了其参数。对学生模型进行新任务t的训练会导致负向迁移,这可能会降低前一个任务的性能。知识蒸馏通过使用固定教师模型
Figure 40018DEST_PATH_IMAGE095
可以防止这种问题。如图2所示,利用固定教师模型对全连通层中嵌入的D维特征进行知识蒸馏,公式为
Figure 38192DEST_PATH_IMAGE096
其中N为mini batch的大小。同样,来自学生模型
Figure 46599DEST_PATH_IMAGE097
的特征表示为
Figure 286957DEST_PATH_IMAGE098
, 固定的教师模型和学生模型进行特征提取时,语义相似的输入能产生相似的特征模式。因此,采用带有核函数的Gram矩阵来度量特征相关性。
Figure 64420DEST_PATH_IMAGE099
(2)
K(·)为内积,即
Figure 233495DEST_PATH_IMAGE100
Figure 463619DEST_PATH_IMAGE101
中的每一项
Figure 507668DEST_PATH_IMAGE102
表示同一激活(i=j)或不同激活(i≠ j)之间的相关性。本发明使用Kullback-Leibler (KL)散度来表征
Figure 139637DEST_PATH_IMAGE103
Figure 479614DEST_PATH_IMAGE104
,由Softmax
Figure 462613DEST_PATH_IMAGE105
函数归一化。因此,将固定教师模型
Figure 44773DEST_PATH_IMAGE106
的知识蒸馏损失写成
Figure 531249DEST_PATH_IMAGE107
,用一个因子
Figure 307707DEST_PATH_IMAGE108
加权:
Figure 512423DEST_PATH_IMAGE109
(3)
当学生模型学习任务t时,使用KL散度可以防止前面任务的性能下降。然而,当学生模型对具有较大语义漂移的数据(如图1中的CUB-birds和Stanford-cars)进行增量训练时,
Figure 632695DEST_PATH_IMAGE107
不能通过传递更多以前学到的信息来有效地防止退化。为了克服这个问题,使用BatchNorm层中存储的统计数据来生成样本,作为前面任务的代表。
假设固定教师模型包含L个卷积层,每个卷积层后面都有一个BatchNorm层,如图2所示。每个BatchNorm层l包括通道运行均值
Figure 239257DEST_PATH_IMAGE110
和运行方差
Figure 186615DEST_PATH_IMAGE111
。在训练学生模型之前,使用一批有随机类标签
Figure 613048DEST_PATH_IMAGE112
的高斯噪声Z输入给教师模型。使用教师模型每一个卷积层𝚕的输出来计算批处理均值
Figure 68169DEST_PATH_IMAGE113
和批方差
Figure 263658DEST_PATH_IMAGE114
。定义一个BN损失
Figure 116339DEST_PATH_IMAGE115
度量Z的存储统计信息与当前统计信息之间的差异:
Figure 295648DEST_PATH_IMAGE116
(4)
不同于ADI, ADI只受限于分类网络。使用K-means聚类损失
Figure 23301DEST_PATH_IMAGE117
Figure 338876DEST_PATH_IMAGE118
对Z进行优化。给定N个噪声张量的mini-batch,包含K个类,每一类的P个张量。一类
Figure 616318DEST_PATH_IMAGE119
的均值
Figure 17344DEST_PATH_IMAGE120
定义为
Figure 548688DEST_PATH_IMAGE121
Figure 984349DEST_PATH_IMAGE122
是张量Z中的一个样本,
Figure 178832DEST_PATH_IMAGE123
的数量被设置为张量Z中的类的数量(即K类)。本发明通过计算类内和类间的距离来聚类Z的特征。具体来说,对于给定的类
Figure 332733DEST_PATH_IMAGE119
,类内距离
Figure 402189DEST_PATH_IMAGE124
的集合被表述为
Figure 692356DEST_PATH_IMAGE125
,p=1,2,3,…。
Figure 57740DEST_PATH_IMAGE124
中的元素数等于p,同样,根据
Figure 433358DEST_PATH_IMAGE126
类的所有其他(N-P)个样本计算出一组类间距离
Figure 306505DEST_PATH_IMAGE127
。在
Figure 451178DEST_PATH_IMAGE124
Figure 253044DEST_PATH_IMAGE127
中对所有元素进行聚类,导致训练效率较低。相反,在这些距离集合中挖掘最困难的样本。对于
Figure 115957DEST_PATH_IMAGE124
,本发明挖掘离它的类均值
Figure 527216DEST_PATH_IMAGE120
最远的样本。对于
Figure 791975DEST_PATH_IMAGE124
,挖掘离类平均
Figure 764742DEST_PATH_IMAGE128
最近的样本。对于所有K类,使用聚类损失
Figure 849372DEST_PATH_IMAGE129
规则化类间变化,使其比类内变化更大对于所有的K类,借助边缘∆>0使用一个聚类损失
Figure 64322DEST_PATH_IMAGE129
来规则化类间的变化变得大于类内变化的。
Figure 183587DEST_PATH_IMAGE130
(5)
然后,利用损失
Figure 327255DEST_PATH_IMAGE131
基于固定教师模型
Figure 164761DEST_PATH_IMAGE132
对Z进行优化,来生成前一个(t-1)任务的代表性图像
Figure 917822DEST_PATH_IMAGE133
,即
Figure 891595DEST_PATH_IMAGE134
Figure 206164DEST_PATH_IMAGE133
图像和类标签
Figure 265386DEST_PATH_IMAGE135
可以用来构建一个混合数据集
Figure 822139DEST_PATH_IMAGE136
。X属于原始训练集
Figure 915996DEST_PATH_IMAGE137
。混合标签为
Figure 401467DEST_PATH_IMAGE138
。在这种情况下,混合数据被输入到固定的教师模型
Figure 947986DEST_PATH_IMAGE139
,以便将更丰富的先验知识传递给学生模型。
在任务t开始时,学生模型的参数从固定教师模型上复制,如图1所示。学生模型的自我激励学习对于保证当前任务t的表现是很重要的。与对固定教师模型的训练方案一致,采用与公式(1)类似的三元组损失形式来训练学生模型。
Figure 42850DEST_PATH_IMAGE140
(6)
需要注意的是,在每个训练阶段,根据混合标签
Figure 991214DEST_PATH_IMAGE141
,Anchor、正样本图像和负样本图像
Figure 659304DEST_PATH_IMAGE142
都来自于混合数据集
Figure 693119DEST_PATH_IMAGE141
在训练过程中,学生模型需要学习新的信息,同时又能保留有之前的知识。然而,使用固定教师模型从混合数据中提取的知识在被学生模型学习时具有较强的正则化,使得学生模型容易记住之前的知识,但对新任务t的泛化程度较低,所以在减少遗忘和提高泛化之间很难达到最佳平衡。因此,本发明提出动态教师模型
Figure 591674DEST_PATH_IMAGE143
与学生模型一起参与训练。它的参数
Figure 660124DEST_PATH_IMAGE144
初始化与固定教师模型和学生模型的初始化不同。这个教师模型被一个三元组损失约束
Figure 487397DEST_PATH_IMAGE145
:
Figure 742929DEST_PATH_IMAGE146
(7)
Figure 445175DEST_PATH_IMAGE147
,训练图像
Figure 368131DEST_PATH_IMAGE057
仅从
Figure 366305DEST_PATH_IMAGE058
中挖掘的数据集
Figure 109134DEST_PATH_IMAGE059
,而不是混合数据
Figure 349491DEST_PATH_IMAGE148
,如图2所示。动态教师模型向学生模型传递新信息,以提高学生模型的泛化能力。因此,一个辅助进行知识蒸馏的损失
Figure 126954DEST_PATH_IMAGE149
被定义为:
Figure 296029DEST_PATH_IMAGE150
以上为公式(8)。
注意,在训练期间,从
Figure 791733DEST_PATH_IMAGE149
计算出的梯度与动态教师模型是相互分离的。该操作可以保证动态教师模型完全专注于从新的数据集
Figure 570202DEST_PATH_IMAGE151
捕捉新信息。
当使用数据集
Figure 467751DEST_PATH_IMAGE151
进行训练时在,任务t上,连同生成的图像,DKD框架使用完整的目标函数运行:
Figure 807727DEST_PATH_IMAGE152
(9)
实验
(1)数据集分割
实验方法包括使用两个任务序列和三个任务序列,其方式与最近的终身学习研究大致相似,在三个数据集上进行实验:CUB- Birds , Stanford-Dogs和Stanford-Cars。
CUB-Bird包括11,788张图片的200个类别。选择150个类(8,822张图片)作为可见集合S,使用剩余的50个类作为不可见集合U(2,966张图片)。对于所看到的集合,选择每个类的60%来进行训练(5274张图像),而剩余的40%(3548张图像)用于评估遗忘率。
•Stanford-Dogs包括20580张120个类别的图片。选择100个类(17,028张图片)作为可见集,并使用剩余的20个类作为不可见集
Figure 525148DEST_PATH_IMAGE153
(3,552张图片)。对于所看到的集合,选择80%的每个类进行训练(13,063张图像),而剩下的20%(3,965张图像)用于测试。
•Stanford-Cars包含196个类别的16,185张图片。选择160个类(10038张图片)作为可见集,使用其余36个类作为不可见集
Figure 107308DEST_PATH_IMAGE153
(3040张图片)。对于所看到的集合,选择每个类约80%的图像进行训练(10038张图像),而剩下的20%(3107张图像)用于测试。
(2)训练细节
利用预训练的谷歌Inception加上batchnorm层作为骨干网络。在训练每个任务之前,总是使用预先存储的从ImageNet学习到的参数初始化动态教师模型。最终的检索功能是512-D。该模型在第一个数据集上进行1500个训练过程来得到初始固定教师模型。训练受到公式1中
Figure 859363DEST_PATH_IMAGE154
的三元组损失的约束,由学习速率为
Figure 370241DEST_PATH_IMAGE155
的Adam优化器优化。当batch size为32时,用于降维的全连通层更新速度为
Figure 574957DEST_PATH_IMAGE156
。使用公式(4)和公式(5)生成具有代表性的图像,其中,
Figure 960808DEST_PATH_IMAGE157
因子设为0.01,
Figure 567370DEST_PATH_IMAGE158
设为0.1。公式(5)中的∆设置为1.0。图像生成过程由一个额外的Adam优化器优化,用于降维的全连通层更新的学习率为1×10−5
Figure 249149DEST_PATH_IMAGE159
Figure 941162DEST_PATH_IMAGE160
在公式(9)中分别设为1,1,80,20。
(3)模型评估
本发明建立了序列微调(SFT)方法作为基线,这是通过使用定义在公式(1)中的三元组损失来执行的,并比较了3种知识提取方法,包括
Figure 130704DEST_PATH_IMAGE161
损失,
Figure 591772DEST_PATH_IMAGE162
损失,最大平均误差损失(简称
Figure 444453DEST_PATH_IMAGE163
)。增量细粒度图像检索的工作更具挑战性,因为新数据和旧数据来自相同数据集。本发明使用3个数据集训练集上的联合训练作为所有比较方法的上界参考。
本发明使用标准的性能度量Recall@K(即R@K)来评估可见集s和不可见集
Figure 623761DEST_PATH_IMAGE164
的性能。对
Figure 351415DEST_PATH_IMAGE164
的评价与深度度量学习中广泛探索的评价相同,其目的在于展示泛化能力。s的评价目的是分析考虑模型的遗忘率。使用s和u的谐波均值H评估训练后的模型,这是每个任务最重要的指标。
Figure 666990DEST_PATH_IMAGE165
(10)
本发明考虑两任务场景和三任务场景。对于两个任务场景,使用幼鸟作为第一个任务,并考虑任务序列CUB- Birds → Stanford-Dogs 和 CUB-Birds → Stanford-Cars。结果见表1。KD表示只使用一个固定教师模型进行知识蒸馏。对于所有的情况,学生模型都是正规化的三元组损失。KL-散度表示知识通过公式(3)进行转移。最稳定的结果用黑体字突出显示。
表1 Recall@K (K=1)对两任务序列s和u的比较(%)
Figure 944432DEST_PATH_IMAGE166
对于3个任务的场景,随机选择从CUB- Birds开始的任务序列: CUB- Birds →Stanford-Dogs 和 CUB-Birds → Stanford-Cars。结果见表2。当模型在Stanford-Cars上进行训练,然后在前两个数据集上进行反向测试时,报告了结果。
Figure 345457DEST_PATH_IMAGE167
为仅利用固定教师模型来增强知识蒸馏的BatchNorm统计信息。同样,
Figure 876802DEST_PATH_IMAGE168
为用于增强固定教师模型的BatchNorm统计信息。最平衡的结果用黑体字突出显示。
表2 Recall@K (K=1)在三个数据集上s和u的比较(%)
Figure 46883DEST_PATH_IMAGE169
(a)两个任务的评估。如表1所示,本发明进行了三次实验比较。与参考相比,H中的Stanford-Dog和Stanford-Cars的微调在第二个任务中达到了Recall@1的78.0%和77.5%,但是同时微调也受到了忘记第一个任务的困扰。如果采用“一个教师模型”的知识蒸馏方法,学生模型的遗忘就会少一些。然而,由于语义漂移,第一个任务的改进是有限的。当使用Batch-Norm统计来解决这一限制时,用不同方法进行正则化的学生模型都倾向于记住第一个任务,但降低了他们在第二个任务上的泛化能力。这是由于固定教师模型加上有代表性的图像所产生的强正则化。如果使用动态教师模型(即“DKD + BN统计”),第二个任务的泛化性能将得到改善,甚至超过基线。例如,在序列“CUB- Birds → Stanford-Dogs”中,使用KL-散度在DKD框架中实现知识的蒸馏时,总体Recall@1达到80.0%,高于基线的78.0%。这证明了辅助蒸馏的效率。与此同时,学生模型在第一个任务上收到了最小程度的退化,Recall@1为67.0%,相比之下参考文献中该值为68.7%。同样,在“CUB-Birds → Stanford-Cars”这一顺序上,学生模型的Recall@1占60.7%,而参考文献占67.7%。这种更大的差异是由于Stanford-Dogs和 Stanford-Cars的训练数据的不同分布造成的。
(b) Three-task评估。当三个任务逐步执行时,在最后一个任务上训练的学生模型将在前两个数据集上进行测试。结果见表2。具体而言,DKD框架在最后一个任务(即Stanford-Cars)上的泛化性能接近甚至超过联合训练的参考性能(78.1%和77.8%)。与两者相比,在任务场景中,对三个任务的顺序进行训练,由于累加的语义漂移,会导致对前一个任务的更多遗忘——特别是对第一个任务。本发明比较了两种方法对 CUB- Birds的遗忘率。初始模型对 CUB- Birds进行1500个训练时的收敛,在可见集上Recall@1= 74.8%,如图3所示,在未可见集上Recall@1=61.6%,如图4所示。SFT方法显著降低了性能。对三个任务序列的训练也会导致对不可见集的遗忘。相比之下,所提出的DKD大大降低了退化,并且更接近于上限参考点。
(c)对动态教师模型的评价。由于梯度分离操作,动态教师模型学习新任务,只需要通过公式7上的时限
Figure 506945DEST_PATH_IMAGE170
中进行正则化。遵循表1中两任务场景的设置,并报告在训练序列:CUB-Birds → Stanford-Dogs中的实时教师的表现。由于该教师对于新数据集的新学习到的信息是有针对性的,所以仅报告其在第二项任务(即Stanford-Dogs)上的执行情况,如表3所示。“学生模型”指的是DKD训练的模型。同时,动态教师模型在新任务中取得了很好的泛化性能。
表3.动态教师模型在第二个任务上的评价
Figure 395267DEST_PATH_IMAGE171
(d)对生成的图像进行评价。使用BatchNorm层的一个好处是,可以使用固定教师模型直接生成代表性图像,而不需要任何其他操作或额外的生成网络。为了进行评估,使用在CUB-Birds上训练的固定教师模型来选择生成的图像,使用初始分数和FID来评估。原始图像是从CUB-Birds上的70个类(4076张图像)中随机选择的。这些类标签用于生成具有同等代表性的图像。如表4所示,这些结果表明损失项
Figure 464723DEST_PATH_IMAGE172
Figure 754890DEST_PATH_IMAGE173
对于生成图像的有效性。此外,图5显示了若干生成的图像。
表4 对生成的图像进行评估
Figure 385854DEST_PATH_IMAGE174
(e)消融研究,对所提出的方法进行消融分析。与之前的实验一致,使用两个任务的序列: CUB-Birds →Stanford-Dogs。只使用
Figure 761472DEST_PATH_IMAGE175
来构建微调方法作为基线。如前所述,基线模型会忘记第一个任务。如表5所示,Case 1是仅从固定教师模型中通过Lkd1进行知识蒸馏。这样,之前所学的知识就会被转移到学生模型身上(在CUB-Birds上,R@K=1从51.4%提高到56.7%)。为了证明BatchNorm统计的有效性,Case 2使用(
Figure 900198DEST_PATH_IMAGE176
)生成有代表性的图像。与Case 1相比,在此条件下训练的学生模型更容易进行第一个任务,其成绩由56.7%显著提高到68.3%,而第二个任务的成绩则由78.9%到68.7%之间。Case 3是为自我激励的学生模型在学习第二个任务时只有动态教师模型来正则化而设计的。因此,学生模型在第二个任务上的成绩有所提高(从78.0%提高到79.6%),并保持在第一个任务上的成绩与第一个任务相似基线。通过Case 4来研究学生自主学习的重要性,通过二元知识提炼来规范自主学习,但没有使用
Figure 779292DEST_PATH_IMAGE175
。因此,学生对之前的知识记忆良好,对第二个任务的概括准确率Recall@1为76.6%。Case 5是指由两个教师对网络进行正则化,但没有使用BatchNorm统计来增强固定教师模型。与Case 3相比,学生在第一个任务上的表现有所提高(从50.8%提高到56.9%),而在第二个任务上的表现保持不变。最后,当学生使用
Figure 581157DEST_PATH_IMAGE175
,即DKD full方法进行自主学习时,其泛化性能从Case 4的76.6%提高到80.0%,而第一个任务的泛化性能接近参考。
表5 基于双任务设置的终身图像检索消融研究
Figure 444071DEST_PATH_IMAGE177
(4)进一步的探索
(1)与基于分类的任务比较。在减少遗忘方面,终身图像检索比专注于分类概率的基于分类的任务更具挑战性。只要将旧数据的图像特征分类在先验边界范围内,分类模型就比较稳定,而图像检索对特征之间的匹配比较敏感。特征的微小变化将对特征匹配产生重大影响。这使得最小化遗忘的问题更加困难。作为示范,在全连接层之上构建了一个额外的分类器,并使用LwF方法按照以下顺序进行训练:CUB-Birds→Stanford-Dogs。在测试过程中,通过
Figure 855330DEST_PATH_IMAGE178
中进行高斯噪声采样,并将其添加到每幅图像中,这就影响了检索特征和同一模型最终的分类概率。改变高斯噪声的比率,并考虑可见数据集部分CUB-Birds的检索召回率和分类准确率的演变。结果如图6和图7所示,可以看出,在相同程度的噪声干扰下,图像检索任务比图像分类任务更敏感。
(2)训练顺序探索。考虑表2中的训练顺序1:CUB-Birds→Stanford-Dogs→Stanford-Cars。为了检验任务训练顺序的效果,继续从CUB-birds开始,探索另一个训练顺序2:CUB-Birds → Stanford-Cars → Stanford-Dogs。将三个数据集的所有训练样本都在图8中进行可视化。对于这两个训练顺序,通过使用任务结束时训练的模型(即Stanford-Cars和Stanford-Dogs)来评估第一个任务(即CUB- Birds)的表现。结果如图9所示。一般来说,模型在这两个训练顺序方面会受到性能下降的影响。由于数据集分布的不同,训练顺序对性能的影响很大。在训练顺序1中,任务2中的Stanford-Dogs的样本与CUB-birds的样本紧密地分布在一起。因此,在“task 1→task 2”的过程中,退化速度相对较慢。但是,task 3中的Stanford—cars图像分布距离task 1中的CUB-birds图像较远,导致在“task 2→task3”的过程中出现严重退化。相比之下,对于训练顺序2,在“task 1→task 2”阶段,从CUB-birds到Stanford-cars中的表现明显下降,而在“task 2→task 3”阶段,表现再次下降。

Claims (10)

1.一种用于图像检索的双重知识蒸馏方法,其特征在于,包括由两个专业教师模型和一个学生模型组成的双重知识蒸馏框架,其中,两个专业教师模型分别是固定教师模型和动态教师模型,在训练任务t之前,固定教师模型在前任务的基础上接受训练,然后固定其参数,并对全连接层嵌入的D维特征进行知识蒸馏;在学生模型学习任务t时,使用固定教师BatchNorm层中存储的统计数据来生成样本,作为前任务的代表,来减少对前一任务的遗忘,学生模型的参数从固定教师模型上复制,其训练方案与固定教师模型一致;动态教师模型与学生模型共同接受训练,向学生模型传递新信息,进行辅助知识蒸馏来提高学生模型对新任务的泛化能力。
2.如权利要求1所述的用于图像检索的双重知识蒸馏方法,其特征在于,使用三元组损失函数作为基本约束来训练模型。
3.如权利要求2所述的用于图像检索的双重知识蒸馏方法,其特征在于,使用固定教师模型
Figure 679300DEST_PATH_IMAGE001
对全连接层中嵌入的D维特征进行知识蒸馏,其特征表示为
Figure 646119DEST_PATH_IMAGE002
,其中N为mini batch的大小,学生模型
Figure 621028DEST_PATH_IMAGE003
的特征表示为
Figure 306087DEST_PATH_IMAGE004
,固定教师模型的知识蒸馏损失为
Figure 657434DEST_PATH_IMAGE005
Figure 478759DEST_PATH_IMAGE006
其中,
Figure 624570DEST_PATH_IMAGE007
为权重因子,归一化函数为Softmax函数
Figure 531346DEST_PATH_IMAGE008
,KL散度用来描述
Figure 420805DEST_PATH_IMAGE009
Figure 362216DEST_PATH_IMAGE010
的差异,
Figure 678928DEST_PATH_IMAGE011
,K(·)为内积,即
Figure 73000DEST_PATH_IMAGE012
Figure 562887DEST_PATH_IMAGE013
中的每一项
Figure 559138DEST_PATH_IMAGE014
表示同一激活(i=j)或不同激活(i≠ j)之间的相关性。
4.如权利要求3所述的用于图像检索的双重知识蒸馏方法,其特征在于,在训练学生模型之前,将具有随机类标签
Figure 312330DEST_PATH_IMAGE015
的高斯噪声Z输入给固定教师模型,并使用损失
Figure 193698DEST_PATH_IMAGE016
基于固定教师模型对Z进行优化,生成前任务的代表性图像
Figure 221697DEST_PATH_IMAGE017
Figure 872121DEST_PATH_IMAGE018
Figure 796215DEST_PATH_IMAGE019
为聚类损失,
Figure 368142DEST_PATH_IMAGE020
表示BatchNorm层中存储的统计数据与当前统计数据Z之间的差异,
Figure 668673DEST_PATH_IMAGE021
图像和类标签
Figure 173604DEST_PATH_IMAGE022
用来构建一个混合数据集
Figure 268599DEST_PATH_IMAGE023
,X属于原始训练集
Figure 124559DEST_PATH_IMAGE024
,混合标签为
Figure 697623DEST_PATH_IMAGE025
5.如权利要求4所述的用于图像检索的双重知识蒸馏方法,其特征在于,固定教师模型的每个卷积层后面都有一个BatchNorm层,每个BatchNorm层l包括通道运行均值
Figure 322639DEST_PATH_IMAGE026
和运行方差
Figure 322956DEST_PATH_IMAGE027
,使用教师模型每一个卷积层l的输出来计算批处理均值
Figure 400634DEST_PATH_IMAGE028
和批方差
Figure 42968DEST_PATH_IMAGE029
Figure 525420DEST_PATH_IMAGE030
为权重因子,
Figure 962218DEST_PATH_IMAGE031
6.如权利要求5所述的用于图像检索的双重知识蒸馏方法,其特征在于,聚类损失为K-means聚类损失,其函数为
Figure 527191DEST_PATH_IMAGE032
,其中
Figure 442058DEST_PATH_IMAGE033
为权重因子,N个噪声张量的mini-batch包含K个类,每一类为P个张量,
Figure 41666DEST_PATH_IMAGE034
,类间距离
Figure 649365DEST_PATH_IMAGE035
,类内距离
Figure 701635DEST_PATH_IMAGE036
中的元素数等于p。
7.如权利要求6所述的用于图像检索的双重知识蒸馏方法,其特征在于,学生模型的三元组损失函数为
Figure 216930DEST_PATH_IMAGE037
,其中,
Figure 671045DEST_PATH_IMAGE038
为权重因子,在每个训练阶段,根据混合标签
Figure 449645DEST_PATH_IMAGE039
Figure 989211DEST_PATH_IMAGE040
来自于混合数据集
Figure 511459DEST_PATH_IMAGE041
8.如权利要求7所述的用于图像检索的双重知识蒸馏方法,其特征在于,动态教师模型为
Figure 820081DEST_PATH_IMAGE042
,参数为
Figure 504003DEST_PATH_IMAGE043
Figure 265286DEST_PATH_IMAGE044
为权重因子,其三元组损失函数为
Figure DEST_PATH_IMAGE045
训练图像
Figure 60066DEST_PATH_IMAGE046
为从
Figure 220265DEST_PATH_IMAGE047
中挖掘的数据集
Figure 606247DEST_PATH_IMAGE048
9.如权利要求8所述的用于图像检索的双重知识蒸馏方法,其特征在于,动态模型辅助进行知识蒸馏的损失函数为
Figure 120405DEST_PATH_IMAGE049
其中,
Figure 984455DEST_PATH_IMAGE050
为权重因子,
Figure 2090DEST_PATH_IMAGE051
Figure 558973DEST_PATH_IMAGE052
Figure 294848DEST_PATH_IMAGE053
Figure 697011DEST_PATH_IMAGE054
Figure 834731DEST_PATH_IMAGE055
10.如权利要求9所述的用于图像检索的双重知识蒸馏方法,其特征在于,双重知识蒸馏框架的目标函数为
Figure 562515DEST_PATH_IMAGE056
CN202110657910.7A 2021-06-15 2021-06-15 一种用于图像检索的双重知识蒸馏方法 Active CN113255822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110657910.7A CN113255822B (zh) 2021-06-15 2021-06-15 一种用于图像检索的双重知识蒸馏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110657910.7A CN113255822B (zh) 2021-06-15 2021-06-15 一种用于图像检索的双重知识蒸馏方法

Publications (2)

Publication Number Publication Date
CN113255822A true CN113255822A (zh) 2021-08-13
CN113255822B CN113255822B (zh) 2021-11-05

Family

ID=77188022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110657910.7A Active CN113255822B (zh) 2021-06-15 2021-06-15 一种用于图像检索的双重知识蒸馏方法

Country Status (1)

Country Link
CN (1) CN113255822B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155436A (zh) * 2021-12-06 2022-03-08 大连理工大学 长尾分布的遥感图像目标识别逐步蒸馏学习方法
CN115064155A (zh) * 2022-06-09 2022-09-16 福州大学 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
US11574168B1 (en) 2021-10-20 2023-02-07 Moffett International Co., Limited System and method for pivot-sample-based generator training
CN116030323A (zh) * 2023-03-27 2023-04-28 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN117521812A (zh) * 2023-11-20 2024-02-06 华中师范大学 基于变分知识蒸馏的算术文字题自动解答方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704637A (zh) * 2017-11-20 2018-02-16 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
CN109635936A (zh) * 2018-12-29 2019-04-16 杭州国芯科技股份有限公司 一种基于重训练的神经网络剪枝量化方法
US20190355366A1 (en) * 2018-05-18 2019-11-21 Emotech Ltd Speaker recognition
CN110958242A (zh) * 2019-11-28 2020-04-03 罗富强 学生动态监控管理系统
CN112257815A (zh) * 2020-12-03 2021-01-22 北京沃东天骏信息技术有限公司 模型生成方法、目标检测方法、装置、电子设备及介质
CN112446331A (zh) * 2020-11-30 2021-03-05 山东大学 基于知识蒸馏的时空双流分段网络行为识别方法及系统
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112633191A (zh) * 2020-12-28 2021-04-09 百果园技术(新加坡)有限公司 一种三维人脸重建的方法、装置、设备和存储介质
CN112801209A (zh) * 2021-02-26 2021-05-14 同济大学 基于双特长教师模型知识融合的图像分类方法及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704637A (zh) * 2017-11-20 2018-02-16 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
US20190355366A1 (en) * 2018-05-18 2019-11-21 Emotech Ltd Speaker recognition
CN109635936A (zh) * 2018-12-29 2019-04-16 杭州国芯科技股份有限公司 一种基于重训练的神经网络剪枝量化方法
CN110958242A (zh) * 2019-11-28 2020-04-03 罗富强 学生动态监控管理系统
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112446331A (zh) * 2020-11-30 2021-03-05 山东大学 基于知识蒸馏的时空双流分段网络行为识别方法及系统
CN112257815A (zh) * 2020-12-03 2021-01-22 北京沃东天骏信息技术有限公司 模型生成方法、目标检测方法、装置、电子设备及介质
CN112633191A (zh) * 2020-12-28 2021-04-09 百果园技术(新加坡)有限公司 一种三维人脸重建的方法、装置、设备和存储介质
CN112801209A (zh) * 2021-02-26 2021-05-14 同济大学 基于双特长教师模型知识融合的图像分类方法及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
_风起了_: "深度学习之灾难性遗忘问题", 《HTTPS://WWW.IT610.COM/ARTICLE/1291244086711361536.HTM》 *
KHURRAM JAVED 等: "Revisiting Distillation and Incremental Classifier Learning", 《HTTPS://ARXIV.ORG/PDF/1807.02802》 *
XIMENG SUN 等: "All at Once Network Quantization via Collaborative Knowledge Transfer", 《HTTPS://ARXIV.ORG/PDF/2103.01435》 *
郑宗新: "基于知识蒸馏的分布式神经网络设计", 《研究与开发》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11574168B1 (en) 2021-10-20 2023-02-07 Moffett International Co., Limited System and method for pivot-sample-based generator training
US11599794B1 (en) 2021-10-20 2023-03-07 Moffett International Co., Limited System and method for training sample generator with few-shot learning
WO2023066291A1 (en) * 2021-10-20 2023-04-27 Moffett International Co., Limited System and method for training sample generator with few-shot learning
CN114155436A (zh) * 2021-12-06 2022-03-08 大连理工大学 长尾分布的遥感图像目标识别逐步蒸馏学习方法
CN114155436B (zh) * 2021-12-06 2024-05-24 大连理工大学 长尾分布的遥感图像目标识别逐步蒸馏学习方法
CN115064155A (zh) * 2022-06-09 2022-09-16 福州大学 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
CN116030323A (zh) * 2023-03-27 2023-04-28 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN116030323B (zh) * 2023-03-27 2023-08-29 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN117521812A (zh) * 2023-11-20 2024-02-06 华中师范大学 基于变分知识蒸馏的算术文字题自动解答方法及系统
CN117521812B (zh) * 2023-11-20 2024-06-07 华中师范大学 基于变分知识蒸馏的算术文字题自动解答方法及系统

Also Published As

Publication number Publication date
CN113255822B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN113255822B (zh) 一种用于图像检索的双重知识蒸馏方法
Zhang et al. Web-supervised network with softly update-drop training for fine-grained visual classification
JP5924713B2 (ja) テキストを分類する方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN113961705A (zh) 一种文本分类方法及服务器
US20210271980A1 (en) Deterministic decoder variational autoencoder
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN113255573A (zh) 基于混合簇中心标签学习的行人重识别方法和存储介质
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
Boinee et al. Meta random forests
CN112948707A (zh) 一种强化学习优化lfm的协同过滤推荐算法
Yu et al. Deep metric learning with dynamic margin hard sampling loss for face verification
Tong et al. Automatic error correction for speaker embedding learning with noisy labels
Xia et al. TCC-net: A two-stage training method with contradictory loss and co-teaching based on meta-learning for learning with noisy labels
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
Li et al. Certainty weighted voting-based noise correction for crowdsourcing
Zhang et al. VESC: a new variational autoencoder based model for anomaly detection
CN111339258A (zh) 基于知识图谱的大学计算机基础习题推荐方法
Lin et al. Robust educational dialogue act classifiers with low-resource and imbalanced datasets
Kocacoban et al. Fast online learning in the presence of latent variables
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN111680163A (zh) 一种面向电力科技成果的知识图谱可视化方法
Ye et al. Classical Machine Learning Principles and Methods
Ma et al. Semi-supervised sentence classification based on user polarity in the social scenarios
Yu et al. UnifiedTT: Visual tracking with unified transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant