CN113360701B - 一种基于知识蒸馏的素描图处理方法及其系统 - Google Patents

一种基于知识蒸馏的素描图处理方法及其系统 Download PDF

Info

Publication number
CN113360701B
CN113360701B CN202110908616.9A CN202110908616A CN113360701B CN 113360701 B CN113360701 B CN 113360701B CN 202110908616 A CN202110908616 A CN 202110908616A CN 113360701 B CN113360701 B CN 113360701B
Authority
CN
China
Prior art keywords
student
sketch
classification
teacher
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110908616.9A
Other languages
English (en)
Other versions
CN113360701A (zh
Inventor
徐行
田加林
沈复民
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202110908616.9A priority Critical patent/CN113360701B/zh
Publication of CN113360701A publication Critical patent/CN113360701A/zh
Application granted granted Critical
Publication of CN113360701B publication Critical patent/CN113360701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification

Abstract

本发明公开了一种基于知识蒸馏的素描图处理方法及其系统,包括:获取预训练的由图像分类模型构成的教师模型,并基于教师模型提取样本图像的教师特征和教师分类概率;构建能够基于素描图进行图像分类的学生模型,并基于学生模型提取样本图像的第一学生特征和第一学生分类概率,并基于学生模型提取样本图像对应样本素描图的第二学生特征和第二学生分类概率;基于教师特征、教师分类概率、第一学生特征、第一学生分类概率、第二学生特征和第二学生分类概率计算分类损失和蒸馏损失,并基于分类损失和蒸馏损失更新学生模型;学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。

Description

一种基于知识蒸馏的素描图处理方法及其系统
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于知识蒸馏的素描图处理方法及其系统。
背景技术
随着触摸屏设备的普及,手绘素描图变得越来越容易获取。尽管素描图表现出高度的抽象性,但它仍然包含足够的结构细节来描述其相应的类别。因此,基于素描图的图像检索成为了机器学习技术领域的研究热点。
但是,现有的基于素描图的图像检索方法,均预设实际应用时待查询的素描图和被查询的图像所包含的类别和训练模型时的类别完全一致,未考虑待查询的素描图和被查询的图像所包含的类别未包含在训练模型时的类别中的情况。因此,这些方法难以应用于检索训练时未包括的类别的图像,检索结果较差。
综上所述,现有的素描图检索方法存在准确率低下的问题。
发明内容
有鉴于此,本发明提供一种基于知识蒸馏的素描图处理方法及其系统,解决了现有的素描图检索方法存在的准确率低下的问题。
为解决以上问题,本发明的技术方案为采用一种基于知识蒸馏的素描图处理方法,包括:获取预训练的由图像分类模型构成的教师模型,并基于所述教师模型提取样本图像的教师特征和教师分类概率;构建能够基于素描图进行图像分类的学生模型,并基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率,并基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率;基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失,并基于所述分类损失和所述蒸馏损失更新所述学生模型;所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。
可选地,基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失,包括:基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失;基于所述第二学生分类概率计算所述样本素描图的第二分类损失;基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。
可选地,计算所述样本图像的第一分类损失,包括:基于所述教师分类概率和所述第一学生分类概率计算所述第一分类损失。
可选地,计算所述样本图像的关系蒸馏损失,包括:计算多个所述教师特征之间的第一相似关系;计算多个所述第一学生特征之间的第二相似关系;计算所述第一相似关系和所述第二相似关系的第一差异;计算所述教师分类概率和所述第一学生分类概率的第二差异;基于所述第一差异和所述第二差异生成所述关系蒸馏损失。
可选地,计算所述样本素描图的跨模态自蒸馏损失,包括:计算多组所述第一学生特征与所述第二学生特征之间的相似度数据;基于所述相似度数据按照滑动平均的方式加权所述第一学生分类概率;基于加权后的所述第一学生分类概率与所述第二学生分类概率生成所述跨模态自蒸馏损失。
可选地,所述第一相似关系和所述第二相似关系均包括对比相似关系和局部相似关系。
可选地,所述素描图处理方法还包括:获取人工绘制的所述样本素描图及成像单元采集的与所述样本素描图对应的所述样本图像构成训练数据集。
可选地,所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果,包括:所述学生模型基于待检测素描图提取待检测素描图特征;所述学生模型基于待查询图像提取待查询图像特征;计算所述待检测素描图特征与所述待查询图像特征的余弦相似度并进行排序后生成所述零样本跨模态检索结果。
相应地,本发明提供,一种基于知识蒸馏的素描图处理系统,包括:成像单元,用于采集多个样本图像;数据存储单元,用于存储多个所述样本图像及其对应的样本素描图;神经网络单元,包括预训练的由图像分类模型构成的教师模型和能够基于素描图进行图像分类的学生模型;数据处理单元,通过所述教师模型提取样本图像的教师特征和教师分类概率和基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率的同时,基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率,并基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失后,基于所述分类损失和所述蒸馏损失更新所述学生模型。
可选地,所述数据处理单元基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失后,基于所述第二学生分类概率计算所述样本素描图的第二分类损失,并基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。
本发明的首要改进之处为提供的基于知识蒸馏的素描图处理方法,在不使用语义特征的情况下,通过提取样本图像和样本素描图的教师特征、教师分类概率、第一学生特征、第一学生分类概率、第二学生特征和第二学生分类概率,并通过计算分类损失、关系蒸馏损失和跨模态自蒸馏损失,有效提升学生模型的分类能力和泛化性,消除不同模态之间的模态差异问题,从而实现素描图的零样本跨模态检索,解决了现有的素描图检索方法存在的准确率低下的问题。
附图说明
图1是本发明的基于知识蒸馏的素描图处理方法的简化流程图;
图2是本发明的一优选实施例的第一测试结果图表;
图3是本发明的一优选实施例的第二测试结果图表;
图4是本发明的基于知识蒸馏的素描图处理系统的简化单元连接图;
图5是本发明的生成对比相似关系及局部相似关系的简化流程图;
图6是本发明的生成跨模态自蒸馏损失的简化流程图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示,一种基于知识蒸馏的素描图处理方法,包括:
S1:获取预训练的由图像分类模型构成的教师模型,并基于所述教师模型提取样本图像的教师特征和教师分类概率。
进一步的,获取预训练的由图像分类模型构成的教师模型的方法可以是:基于SE-ResNet-50初始化教师模型;获取人工绘制的所述样本素描图及成像单元采集的与所述样本素描图对应的所述样本图像构成训练数据集;基于所述训练数据集训练所述教师模型;将预训练好的SE-ResNet-50进行扩展,即,在SE-ResNet-50的Squeeze-and-Excitation(SE)模块中增加一个输入维度,并称为CSE-ResNet-50。
更进一步的,教师模型的特征嵌入是倒数第二层(平均池化层)的输出,最后一层为线性分类层,输出维度为1000维,即,基于图像产生伪ImageNet标签。
S2:构建能够基于素描图进行图像分类的学生模型,并基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率,并基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率。
进一步的,构建的学生模型可以是基于CSE-ResNet-50框架,但相较于传统CSE-ResNet-50框架,学生模型使用两层的全连接层取代原CSE-ResNet-50的线性分类层,并且第一层全连接层输出学生网络的特征嵌入,第二层全连接层作为分类器输出分类概率向量,同时额外训练一个1000维的线性分类器。
更进一步的,所述第二层全连接层和所述线性分类器在维度上是不同的,因为它们面临不同的分类空间,即具体数据集所包含的类别空间和预训练数据集ImageNet所包含的类别空间。并且,教师模型监督学生模型学习的过程中,仅由学生模型模仿教师模型的关系推理能力。因此,教师网络的参数是固定的,在学生网络的训练过程中保持独立性;学生网络能够根据自身的任务和教师的监督完成自身参数的更新,参数是动态变化的。
S3:基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失,并基于所述分类损失和所述蒸馏损失更新所述学生模型。
进一步的,所述S3包括:S31:基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失;S32:基于所述第二学生分类概率计算所述样本素描图的第二分类损失;S33:基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。
更进一步的,所述第一分类损失和所述第二分类损失的目标函数可以是:
Figure 84820DEST_PATH_IMAGE001
,其中,
Figure 205223DEST_PATH_IMAGE002
Figure 657064DEST_PATH_IMAGE003
(样本图像或样本素描图)的标签,
Figure 491421DEST_PATH_IMAGE004
Figure 102531DEST_PATH_IMAGE005
的参数,条件概率
Figure 331518DEST_PATH_IMAGE006
由计算得到,教师模型定义为
Figure 536234DEST_PATH_IMAGE007
,学生模型定义为
Figure 672818DEST_PATH_IMAGE008
Figure 512335DEST_PATH_IMAGE009
为样本的分类损失的均值,图像经过教师网络后得到的嵌入
Figure 443382DEST_PATH_IMAGE010
,图像经过学生网络后得到的嵌入
Figure 994449DEST_PATH_IMAGE011
,其中,
Figure 137986DEST_PATH_IMAGE012
表示任意一张图像。
更进一步的,计算所述样本图像的关系蒸馏损失,包括:计算多个所述教师特征之间的第一相似关系;计算多个所述第一学生特征之间的第二相似关系;计算所述第一相似关系和所述第二相似关系的第一差异;计算所述教师分类概率和所述第一学生分类概率的第二差异;基于所述第一差异和所述第二差异生成所述关系蒸馏损失。其中,所述第一相似关系和所述第二相似关系均包括对比相似关系和局部相似关系。
更进一步的,如图5所示,计算所述对比相似关系的方法可以是:采用特征间的对比相似关系作为匹配的对象,衡量一个批度(batch)内所有嵌入两两之间的相似关系,并将这种对比关系归一化为概率分布,再进行概率分布的匹配。具体的目标计算公式可以定义为:
Figure 192530DEST_PATH_IMAGE014
Figure 294478DEST_PATH_IMAGE015
其中,
Figure 709672DEST_PATH_IMAGE016
是一个知识函数,条件为真时值为1,条件为假时值为0。
Figure 515954DEST_PATH_IMAGE017
是一个非常小的数值(例如:
Figure 831529DEST_PATH_IMAGE018
),用于保证计算的稳定性。
Figure 573220DEST_PATH_IMAGE019
为教师模型或学生模型衡量两个特征的相似性,并且
Figure 98879DEST_PATH_IMAGE020
度量余弦距离,定义如下:
Figure 849797DEST_PATH_IMAGE021
。其中,为了避免自我比较影响对比关系的强度,对比关系的计算中用
Figure 252835DEST_PATH_IMAGE022
Figure 821219DEST_PATH_IMAGE023
排除自我比较的情况。
更进一步的,计算所述局部相似关系的方法可以是:采用特征间的局部相似关系作为匹配的对象,为一个批度所包含的部分类别计算分类概率分布,再为教师模型和学生模型进行分布匹配。在正式训练前,使用预训练的深度卷积网络提取所有图像的特征嵌入,根据类别计算得到类中心
Figure 443962DEST_PATH_IMAGE024
,其中
Figure 732992DEST_PATH_IMAGE025
是对应于类别的图像总数目。所有类中心所组成的矩阵记为
Figure 616634DEST_PATH_IMAGE026
。由于一个批度不可能包含所有的类别,因此假设
Figure 231286DEST_PATH_IMAGE027
是一个二值掩码,长度为所有类别的数目
Figure 842789DEST_PATH_IMAGE028
,则
Figure 794565DEST_PATH_IMAGE029
是由部分类中心所组成的矩阵,
Figure 939238DEST_PATH_IMAGE030
随每个批度的数据变化而变化。对于教师网络而言,
Figure 724792DEST_PATH_IMAGE030
可以作为它的一个分类器。因此,局部关系匹配可以定义为如下:
Figure 446760DEST_PATH_IMAGE032
其中,
Figure 343172DEST_PATH_IMAGE033
是基于教师模型的嵌入
Figure 575308DEST_PATH_IMAGE034
和类中心矩阵
Figure 531763DEST_PATH_IMAGE030
的距离的分类函数,是步骤S1中所述的第二层全连接层,用于将学生网络的嵌入
Figure 741027DEST_PATH_IMAGE035
分类至具体训练类别中,
Figure 441130DEST_PATH_IMAGE036
Figure 29237DEST_PATH_IMAGE037
归一化的概率分布,假设
Figure 15648DEST_PATH_IMAGE036
的计算结果为
Figure 100758DEST_PATH_IMAGE038
,则
Figure 73393DEST_PATH_IMAGE038
的所有元素之和为1。
Figure 171799DEST_PATH_IMAGE039
是经过掩码筛选后的输出向量。其中,
Figure 204477DEST_PATH_IMAGE040
Figure 263700DEST_PATH_IMAGE041
的维度是不同的,因为两个分类器所面临的类别空间是不同的,即
Figure 804141DEST_PATH_IMAGE040
用于将学生网络的嵌入分类至具体数据集所包含的类别空间,而
Figure 225895DEST_PATH_IMAGE041
是分类至预训练数据集ImageNet所包含的类别空间。
更进一步的,计算所述样本素描图的跨模态自蒸馏损失,包括:计算多组所述第一学生特征与所述第二学生特征之间的相似度数据;基于所述相似度数据按照滑动平均的方式加权所述第一学生分类概率;基于加权后的所述第一学生分类概率与所述第二学生分类概率生成所述跨模态自蒸馏损失。
更进一步的,生成所述跨模态自蒸馏损失的方法可以是:计算得到一批素描图特征和一批图像特征的余弦相似度矩阵
Figure 695053DEST_PATH_IMAGE042
,其公式为:
Figure 835048DEST_PATH_IMAGE043
Figure 680644DEST_PATH_IMAGE042
的行数和列数分别是素描图和图像的样本数量,
Figure 97850DEST_PATH_IMAGE044
为样本素描图经过学生网络后得到的嵌入,
Figure 862544DEST_PATH_IMAGE042
的每一行对应于一个样本素描图,每一列j对应于一个图像,
Figure 132244DEST_PATH_IMAGE045
表示两者的相似度。
Figure 515952DEST_PATH_IMAGE042
用于对概率均值
Figure 53244DEST_PATH_IMAGE046
进行加权,但这些相似度都未进行缩放的情况下,它们相加的和不等于1,因此需要对每一行都进行归一化,得到
Figure 723260DEST_PATH_IMAGE047
,使其全部行的分布概率的和为1。因此,对
Figure 978792DEST_PATH_IMAGE042
的行
Figure 399147DEST_PATH_IMAGE048
归一化,使得满足以下两个条件:
Figure 915579DEST_PATH_IMAGE049
Figure 897441DEST_PATH_IMAGE050
。分别假设
Figure 640269DEST_PATH_IMAGE051
Figure 224834DEST_PATH_IMAGE052
为素描图和图像的分类概率矩阵,计算公式如下:
Figure 736718DEST_PATH_IMAGE053
,其中
Figure 390947DEST_PATH_IMAGE054
为蒸馏的温度超参。根据相似度矩阵,以滑动平均的方式加权素描图和图像的分类概率:
Figure 214546DEST_PATH_IMAGE055
Figure 743748DEST_PATH_IMAGE056
为加权系数,最终得到
Figure 110138DEST_PATH_IMAGE057
的即为素描图的目标分布,同样依据交叉熵衡量
Figure 558437DEST_PATH_IMAGE058
Figure 275857DEST_PATH_IMAGE057
的分布差异
Figure 576126DEST_PATH_IMAGE059
,并通过反向传播减小差异。
更进一步的,基于所述分类损失和所述蒸馏损失更新所述学生模型包括:基于关系蒸馏损失和跨模态自蒸馏损失构建知识蒸馏过程的整体损失函数;提取所述第一分类损失和所述第二分类损失的损失函数;基于所述知识蒸馏过程的整体损失函数和所述分类的损失函数生成学生模型的整体优化目标函数
Figure 921657DEST_PATH_IMAGE060
,其中,
Figure 681803DEST_PATH_IMAGE061
为知识蒸馏过程的整体损失函数的权重,
Figure 355361DEST_PATH_IMAGE062
为知识蒸馏过程的整体损失函数,
Figure 350998DEST_PATH_IMAGE063
为所述第一分类损失和所述第二分类损失的损失函数;生成所述整体优化目标函数后,通过随机梯度下降算法,减小目标函数的值,并更新学生网络的参数。训练后,学生模型能够成功模仿教师模型在对比相似关系和局部相似关系方面的图像分类能力的同时,能够通过跨模态自蒸馏学习到素描图的分类能力。
S4:所述学生模型基于待检测素描图和待查询图像生成根据相似性从大到小排序的零样本跨模态检索结果。
为解决素描图处理及识别的问题,发明人初始使用传统的零样本学习方法构建的系统进行实验,但是发现素描图在多模态数据下的识别准确率较低,经设置多组对照组(多组单一模态数据、多组多模态数据)实验并推理后发现,其原因在于:零样本学习方法利用各种辅助信息学习视觉空间和语义空间的映射关系,或者学习一个联合嵌入空间,又或者学习一个条件生成网络以将零样本学习问题转变为传统的监督分类问题。但是,零样本学习方法仅关注于单一模态的数据以及基础的分类问题,难以处理多模态数据和模态差异问题,因此在多模态应用场景下表现较差。为解决零样本学习方法存在的难以处理多模态数据和模态差异问题,发明人通过结合素描图的图像检索和零样本学习的特点,在多模态应用场景下检索不可见类的嵌入。但是,该方法构建的系统仍存在素描图和图像模态之间的异质性差异问题以及可见类和不可见类之间的语义不一致问题,并且仍需要预定义准确的类名和额外的提取工作,使得系统从文本模型中提取的词向量和通过层次模型提取的词相似度,来桥接可见和不可见的类。因此,该方法在预定义类名不够准确时仍存在识别准确率较低的问题,并且会导致后端数据处理单元存在较大的算力负荷。最终,发明人基于知识蒸馏处理两种不同模态的数据,一方面通过将教师模型针对图像模态的分类能力迁移至学生模型,另一方面通过跨模态自蒸馏将学生模型针对图像模态的分类能力再次迁移到素描图模态上,提升学生模型联合处理两种不同数据的能力,并最终提升学生模型在零样本跨模态任务上的检索精度。并且,学生模型的训练和实施都无需额外的语义特征参与,降低模型的计算和存储需求,降低了后端数据处理单元算力负荷的同时,能够提取泛化而具有判别性的特征。
为便于直观体现本申请所要求保护的技术方案所具有的素描图检索效果,以采用零样本素描图-图像检索的三个主流数据集作为训练和测试的数据集为例,三个主流数据集分别为:Sketchy,TU-Berlin和QuickDraw。这三个数据集都包含素描图,图像和类别标签。具体的,Sketchy由125个类,75471张素描图和73002张图像构成,其中,Sketchy的图像精剪过,并且素描图具有细腻度的细节;TU-Berlin由250个类,20000张素描图和204489张图像构成,素描图和图像的数量严重不平衡,并且素描图的抽象程度比Sketchy高;QuickDraw数据量非常大,包含110类,330000张素描图和204000张图像,素描图高度抽象化。在数据集的划分上,为了和现有技术进行公平的比较,本实施例保持相同的设置。Sketchy有两种划分方法:一种随机选择25个类作为测试集,另一种选择固定的21个类作为测试集(Sketchy split 2)。TU-Berlin和QuickDraw都选择30个类作为测试集。实验中,本实施例采用召全率(Prec)和平均召全率的均值(mAP)作为评估的标准,Prec@K和mAP@K表示检索的前K个结果计算得到的召全率和平均召全率的均值。
进一步的,基于本申请所要求保护的系统在本实施例中被定义为RPKD,其余检索方法都是使用度较高的素描图检索方法,实验结果如图2和图3所示。首先比较不使用语义嵌入的方法,观察图2和图3的结果可知,本方法远远超过对比的方法,以mAP@all指标为例,本方法相比于最新对比算法(SAKE w/o s),在Sketchy超过0.063的mAP,在TU-Berlin上超过0.024,在QuickDraw上超过0.038。以其他指标来看,RPKD的提升更大。最后,将RPKD直接和使用语义嵌入的方法比较。值得注意的是,使用语义嵌入通常来说会提升零样本素描图-图像检索的精度,但也提升了模型训练的资源需求和计算需求。尽管直接比较对RPKD不公平,但RPKD在三个数据集上,依旧超越了绝大部分使用语义嵌入的方法,仅仅只在Sketchy上落后于PDFD方法。尽管如此,本方法在TU-Berlin上依旧以较大幅度超越了PDFD。
相应的,如图4所示,本发明提供,一种基于知识蒸馏的素描图处理系统,包括:成像单元,用于采集多个样本图像;数据存储单元,用于存储多个所述样本图像及其对应的样本素描图;神经网络单元,包括预训练的由图像分类模型构成的教师模型和能够基于素描图进行图像分类的学生模型;数据处理单元,通过所述教师模型提取样本图像的教师特征和教师分类概率和基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率的同时,基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率,并基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失后,基于所述分类损失和所述蒸馏损失更新所述学生模型。
进一步的,所述数据处理单元基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失后,基于所述第二学生分类概率计算所述样本素描图的第二分类损失,并基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。
以上对本发明实施例所提供的一种基于知识蒸馏的素描图处理方法及其系统进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (10)

1.一种基于知识蒸馏的素描图处理方法,其特征在于,包括:
获取预训练的由图像分类模型构成的教师模型,并基于所述教师模型提取样本图像的教师特征和教师分类概率;
构建能够基于素描图进行图像分类的学生模型,并基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率,并基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率;
基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失,并基于所述分类损失和所述蒸馏损失更新所述学生模型;
所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。
2.根据权利要求1所述的素描图处理方法,其特征在于,基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失,包括:
基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失;
基于所述第二学生分类概率计算所述样本素描图的第二分类损失;
基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。
3.根据权利要求2所述的素描图处理方法,其特征在于,计算所述样本图像的第一分类损失,包括:
基于所述教师分类概率和所述第一学生分类概率计算所述第一分类损失。
4.根据权利要求3所述的素描图处理方法,其特征在于,计算所述样本图像的关系蒸馏损失,包括:
计算多个所述教师特征之间的第一相似关系;
计算多个所述第一学生特征之间的第二相似关系;
计算所述第一相似关系和所述第二相似关系的第一差异;
计算所述教师分类概率和所述第一学生分类概率的第二差异;
基于所述第一差异和所述第二差异生成所述关系蒸馏损失。
5.根据权利要求4所述的素描图处理方法,其特征在于,计算所述样本素描图的跨模态自蒸馏损失,包括:
计算多组所述第一学生特征与所述第二学生特征之间的相似度数据;
基于所述相似度数据按照滑动平均的方式加权所述第一学生分类概率;
基于加权后的所述第一学生分类概率与所述第二学生分类概率生成所述跨模态自蒸馏损失。
6.根据权利要求5所述的素描图处理方法,其特征在于,所述第一相似关系和所述第二相似关系均包括对比相似关系和局部相似关系。
7.根据权利要求1所述的素描图处理方法,其特征在于,所述素描图处理方法还包括:
获取人工绘制的所述样本素描图及成像单元采集的与所述样本素描图对应的所述样本图像构成训练数据集。
8.根据权利要求1所述的素描图处理方法,其特征在于,所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果,包括:
所述学生模型基于待检测素描图提取待检测素描图特征;
所述学生模型基于待查询图像提取待查询图像特征;
计算所述待检测素描图特征与所述待查询图像特征的余弦相似度并进行排序后生成所述零样本跨模态检索结果。
9.一种基于知识蒸馏的素描图处理系统,其特征在于,包括:
成像单元,用于采集多个样本图像;
数据存储单元,用于存储多个所述样本图像及其对应的样本素描图;
神经网络单元,包括预训练的由图像分类模型构成的教师模型和能够基于素描图进行图像分类的学生模型;
数据处理单元,通过所述教师模型提取样本图像的教师特征和教师分类概率和基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率的同时,基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率,并基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失后,基于所述分类损失和所述蒸馏损失更新所述学生模型。
10.根据权利要求9所述的素描图处理系统,其特征在于,所述数据处理单元基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失后,基于所述第二学生分类概率计算所述样本素描图的第二分类损失,并基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。
CN202110908616.9A 2021-08-09 2021-08-09 一种基于知识蒸馏的素描图处理方法及其系统 Active CN113360701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110908616.9A CN113360701B (zh) 2021-08-09 2021-08-09 一种基于知识蒸馏的素描图处理方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110908616.9A CN113360701B (zh) 2021-08-09 2021-08-09 一种基于知识蒸馏的素描图处理方法及其系统

Publications (2)

Publication Number Publication Date
CN113360701A CN113360701A (zh) 2021-09-07
CN113360701B true CN113360701B (zh) 2021-11-02

Family

ID=77540685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110908616.9A Active CN113360701B (zh) 2021-08-09 2021-08-09 一种基于知识蒸馏的素描图处理方法及其系统

Country Status (1)

Country Link
CN (1) CN113360701B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487614B (zh) * 2021-09-08 2021-11-30 四川大学 胎儿超声标准切面图像识别网络模型的训练方法和装置
CN113505797B (zh) * 2021-09-09 2021-12-14 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN114241273B (zh) * 2021-12-01 2022-11-04 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN113888538B (zh) * 2021-12-06 2022-02-18 成都考拉悠然科技有限公司 一种基于内存分块模型的工业异常检测方法
CN114926471B (zh) * 2022-05-24 2023-03-28 北京医准智能科技有限公司 一种图像分割方法、装置、电子设备及存储介质
CN117131214B (zh) * 2023-10-26 2024-02-09 北京科技大学 基于特征分布对齐与聚类的零样本草图检索方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110188228A (zh) * 2019-05-28 2019-08-30 北方民族大学 基于草图检索三维模型的跨模态检索方法
CN111091177A (zh) * 2019-11-12 2020-05-01 腾讯科技(深圳)有限公司 一种模型压缩方法、装置、电子设备和存储介质
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN112560631A (zh) * 2020-12-09 2021-03-26 昆明理工大学 一种基于知识蒸馏的行人重识别方法
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113032601A (zh) * 2021-04-15 2021-06-25 金陵科技学院 一种基于判别性提升的零样本草图检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410029B2 (en) * 2018-01-02 2022-08-09 International Business Machines Corporation Soft label generation for knowledge distillation
KR20200045128A (ko) * 2018-10-22 2020-05-04 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110188228A (zh) * 2019-05-28 2019-08-30 北方民族大学 基于草图检索三维模型的跨模态检索方法
CN111091177A (zh) * 2019-11-12 2020-05-01 腾讯科技(深圳)有限公司 一种模型压缩方法、装置、电子设备和存储介质
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN112560631A (zh) * 2020-12-09 2021-03-26 昆明理工大学 一种基于知识蒸馏的行人重识别方法
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113032601A (zh) * 2021-04-15 2021-06-25 金陵科技学院 一种基于判别性提升的零样本草图检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"卷积神经网络压缩中的知识蒸馏技术综述";孟宪法 等;《计算机科学与探索》;20210531;第1-20页 *
"CROSS-MODAL GUIDANCE NETWORK FOR SKETCH-BASED 3D SHAPE RETRIEVAL";Weidong Dai 等;《 2020 IEEE International Conference on Multimedia and Expo (ICME)》;20200609;第1-8页 *
"Semantic-Aware Knowledge Preservation for Zero-Shot Sketch-Based Image Retrieval";Qing Liu 等;《2019 IEEE/CVF International Conference on Computer Vision(ICCV)》;20200227;第3662-3671页 *
"Simplified TinyBERT: Knowledge Distillation for Document Retrieval";Xuanang Chen 等;《European Conference on Information Retrieval》;20210330;第241-248页 *

Also Published As

Publication number Publication date
CN113360701A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN111368656A (zh) 一种视频内容描述方法和视频内容描述装置
CN113298146A (zh) 一种基于特征检测的图像匹配方法、装置、设备及介质
US20200218932A1 (en) Method and system for classification of data
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN113762151A (zh) 一种故障数据处理方法、系统及故障预测方法
Kenchappa et al. Content-based image retrieval using integrated features and multi-subspace randomization and collaboration
Wang et al. SpecVAT: Enhanced visual cluster analysis
CN114359741B (zh) 基于区域特征的图像描述模型注意力机制评价方法与系统
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
CN111461240B (zh) 一种保障高空中油箱内视觉采集图像空地一致性的方法
CN111737469A (zh) 数据挖掘方法、装置、终端设备和可读存储介质
CN112200224A (zh) 医学图像特征处理方法和装置
CN111723223B (zh) 一种基于主体推断的多标签图像检索方法
CN116501827B (zh) 一种基于bim的市场主体与楼宇地址匹配定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant