CN114972876A - 基于知识蒸馏技术的图像处理方法、装置、设备及介质 - Google Patents

基于知识蒸馏技术的图像处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN114972876A
CN114972876A CN202210652606.8A CN202210652606A CN114972876A CN 114972876 A CN114972876 A CN 114972876A CN 202210652606 A CN202210652606 A CN 202210652606A CN 114972876 A CN114972876 A CN 114972876A
Authority
CN
China
Prior art keywords
model
feature
student model
image
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210652606.8A
Other languages
English (en)
Inventor
杨震东
李哲
袁泽寰
卢靓妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210652606.8A priority Critical patent/CN114972876A/zh
Publication of CN114972876A publication Critical patent/CN114972876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于知识蒸馏技术的图像处理方法、装置、设备及介质,涉及图像处理技术领域,通过获取待处理图像,并将待处理图像输入训练好的学生模型中,得到学生模型输出的图像处理结果。其中,学生模型是利用教师模型、生成模型以及掩膜训练得到的。利用掩膜和生成模型训练学生模型,能够在不引入新的模型参数的前提下提升学生模型的性能,使得学生模型输出的图像处理结果更加准确,能够解决学生模型的性能不佳,学生模型输出的处理结果不够准确的问题。

Description

基于知识蒸馏技术的图像处理方法、装置、设备及介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种基于知识蒸馏技术的图像处理方法、装置、设备及介质。
背景技术
知识蒸馏方法是一种压缩模型的方法。知识蒸馏方法在训练模型时,将一个模型结构较为复杂的模型的作为教师模型,也称为老师模型,将一个模型结构较为简单的模型作为学生模型,通过激励学生模型模仿教师模型,以此来实现学生模型的性能接近教师模型的性能。训练得到的学生模型的结构较为简单,实现模型压缩。
但是,受限于学生模型是较为轻量级的模型,学生模型的性能难以完全复刻教师模型的性能,存在着学生模型的性能不佳,学生模型输出的处理结果不够准确的问题。
发明内容
有鉴于此,本申请提供一种基于知识蒸馏技术的图像处理方法、装置、设备及介质,能够得到较为准确的图像处理结果。
为解决上述问题,本申请提供的技术方案如下:
第一方面,本申请实施例提供一种基于知识蒸馏技术的图像处理方法,所述方法包括:
获取待处理图像,所述待处理图像需要采用目标处理方式处理;
将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
第二方面,本申请实施例提供一种基于知识蒸馏技术的图像处理装置,所述装置包括:
获取单元,用于获取待处理图像,所述待处理图像需要采用目标处理方式处理;
处理单元,用于将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
第三方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任一实施例所述的方法。
第四方面,本申请实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现第一方面中任一实施例所述的方法。
由此可见,本申请具有如下有益效果:
本申请提供的一种基于知识蒸馏技术的图像处理方法、装置、设备及介质,获取待处理图像,并将待处理图像输入训练好的学生模型中,得到学生模型输出的图像处理结果。其中,学生模型是利用教师模型、生成模型以及掩膜训练得到的。学生模型提取输入的训练图像的特征,得到第二特征。利用掩膜对第二特征进行处理,得到掩膜特征。再将掩膜特征输入生成模型中,得到第一特征。最后,利用第一特征和教师模型根据输入的训练图像生成的第三特征训练学生模型。利用掩膜和生成模型训练学生模型,能够在不引入新的模型参数的前提下提升学生模型的性能,使得学生模型输出的图像处理结果更加准确。
附图说明
图1为本申请实施例提供的一种场景示意图;
图2为本申请实施例提供的一种基于知识蒸馏技术的图像处理方法的流程示意图;
图3为本申请实施例提供的一种训练学生模型的流程示意图;
图4为本申请实施例提供的一种训练学生网络的场景示意图;
图5为本申请实施例提供的一种生成模型的示意图;
图6为本申请实施例提供的一种基于知识蒸馏技术的图像处理装置的结构示意图;
图7为本申请实施例提供的一种电子设备的基本结构的示意图。
具体实施方式
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
目前,部分性能较为优越的人工智能模型结构较为复杂,会消耗较大的计算资源和存储资源。这会导致此类人工智能模型难以应用于计算资源或者存储资源不足的设备。利用知识蒸馏技术能够实现模型的压缩以及轻量化改进。将结构较为复杂的模型作为教师模型,能够指导学生模型的训练,得到轻量级的学生模型。但是,学生模型难以完全复刻教师模型,存在着性能不佳的问题。
基于此,本申请实施例提供一种基于知识蒸馏技术的图像处理方法、装置、设备及介质,获取待处理图像,并将待处理图像输入训练好的学生模型中,得到学生模型输出的图像处理结果。其中,学生模型是利用教师模型、生成模型以及掩膜训练得到的。学生模型提取输入的训练图像的特征,得到第二特征。利用掩膜对第二特征进行处理,得到掩膜特征。再将掩膜特征输入生成模型中,得到第一特征。最后,利用第一特征和教师模型根据输入的训练图像生成的第三特征训练学生模型。利用掩膜和生成模型训练学生模型,能够在不引入新的模型参数的前提下提升学生模型的性能,使得学生模型输出的图像处理结果更加准确。
为了便于理解本申请实施例提供的基于知识蒸馏技术的图像处理方法,下面结合图1所示的场景示例进行说明。参见图1,该图为本申请实施例提供的示例性应用场景的框架示意图。
其中,待处理图像101是需要采用目标处理方式处理的图像。目标处理方式例如可以为分类处理、语义分割处理、实例分割处理以及检测处理中的一种。将待处理图像101输入完成训练的学生模型102中,得到学生模型102输出的图像处理结果103。图像处理结果103与目标处理方式相关。比如,当目标处理方式为分类,图像处理结果103为待处理图像101的分类类型。又比如,当目标处理方式为检测,图像处理结果103为待处理图像101的检测结果。其中,学生模型102是利用目标处理方式对应的训练图像训练得到的。并且,利用掩膜和生成模型对学生模型102进行训练,能够得到性能更佳的学生模型102。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
基于上述说明,下面将结合附图对本申请提供的基于知识蒸馏技术的图像处理方法进行详细说明。
本申请实施例提供一种基于知识蒸馏技术的图像处理方法。参见图2所示,该图为本申请实施例提供的一种基于知识蒸馏技术的图像处理方法的流程示意图。基于知识蒸馏技术的图像处理方法包括S201-S202。
S201:获取待处理图像。
待处理图像是需要采用目标处理方式处理的图像。其中,目标处理方式是对图像处理的方式。目标处理方式可以预先基于对待处理图像进行处理的需求确定。作为一些示例,目标处理方式包括分类处理、检测处理、语义分割处理以及实例分割处理中的一种。其中,分类处理是指对待处理图像进行图像分类,确定待处理图像所属的图像类型。检测处理是对待处理图像进行图像检测,从待处理图像中确定感兴趣的目标。语义分割处理是指对待处理图像进行分割,并对分割后的区域加上语义标签。实例分割处理是指识别待处理图像中实例对象,并分离实例对象与背景。
需要说明的是,上述目标处理方式仅作为一些示例,本领域技术人员能够基于图像处理的需要确定目标处理方式。
S202:将待处理图像输入学生模型,得到学生模型输出的图像处理结果。
学生模型是指利用知识蒸馏方法训练得到的轻量化的网络模型。学生模型用于对待处理图像采用目标处理方式进行图像处理,基于输入的待处理图像输出图像处理结果。图像处理结果是与目标处理方式对应的处理结果。作为一种示例,目标处理方式为分类处理。学生模型是用于对图像进行分类的模型。学生模型输出的图像处理结果为待处理图像的分类结果。作为另一种示例,目标处理方式为实例分割处理。学生模型是用于对图像进行实例分割处理的模型。学生模型输出的图像处理结果为标注待处理图像中实例所在的区域的图像结果。
学生模型是利用教师模型、生成模型以及掩膜训练得到的。其中,掩膜用于对学生模型基于输入的训练图像输出的第二特征进行遮蔽处理,得到掩膜特征。生成模型用于基于输入的掩膜特征输出第一特征。利用第一特征和教师模型基于输入的训练图像输出的第三特征,能够更好地训练学生模型,从而提高训练得到的学生模型的性能。此外,利用掩膜和生成模型训练学生模型的方法不受到图像处理方法的种类的限制,能够应用于多种图像处理方式的学生模型的训练中,具有较为广泛的应用范围。
在一种可能的实现方式中,本申请实施例提供一种训练学生模型的方法。参见图3所示,该图为本申请实施例提供的一种训练学生模型的流程示意图,具体包括S301-S304。
S301:将训练图像分别输入学生模型和教师模型中,得到学生模型输出的第二特征以及教师模型输出的第三特征。
需要说明的是,训练图像是与目标处理方式对应的训练图像。比如,目标处理方式为分类处理,训练图像为用于训练用于分类处理的模型的图像。训练图像能够从训练用于分类处理的模型的训练图像集合中获取。又比如,目标处理方式为实例分割处理,训练图像为训练用于实例分割处理的模型的图像。训练图像能够从训练用于实例分割处理的模型的训练图像集合中获取。
将训练图像分别输入学生模型与教师模型中,得到学生模型输出的第二特征以及教师模型输出的第三特征。
参见图4所示,该图为本申请实施例提供的一种训练学生网络的场景示意图。
需要说明的是,本申请实施例不限定学生模型的模型结构。学生模型的模型结构具体能够根据目标处理方式确定。
在一种可能的实现方式中,用于分类处理或者语义分割处理的学生模型包括主干网络(backbone)。主干网络用于特征提取。主干网络能够提取输入的图像的信息,生成图像对应的特征图。主干网络例如为VGGnet(Visual Geometry Group Network,视觉几何组网络)或者Resnet(Residual Network,残差网络)。在另一种可能实现方式中,用于检测处理或者实例分割的学生模型包括特征金字塔网络。
教师模型是结构较学生模型复杂的网络模型。在一些可能的实现方式中,教师模型的结构与学生模型的结构类型相同。比如,学生模型为Resnet-50,教师模型为Resnet-101。
需要说明的是,对于不同结构的模型,输出的特征不同。以上述学生模型包括主干网络为例,第二特征为学生模型输出的最后一层特征图。以上述学生模型采用特征金字塔结构为例,第二特征为学生模型输出的多层特征图。
S302:利用掩膜对第二特征进行处理,得到掩膜特征。
掩膜用于对第二特征进行遮蔽处理。掩膜的维度与第二特征的维度相同。在一些可能的方式中,根据学生模型输出的第二特征的维度,确定掩膜的维度。将学生模型输出的第二特征的长度作为掩膜的长度,将学生模型输出的第二特征的宽度作为掩膜的宽度。掩膜是基于遮挡概率确定的。其中,遮挡概率为掩膜对特征遮挡的概率。遮挡概率能够基于训练需要进行调整。作为一种示例,遮挡概率为50%。
在一些可能的实现方式中,掩膜为二值掩膜,包括0和1两个数值。掩膜可以由公式(1)表示:
Figure BDA0003687041850000071
其中,
Figure BDA0003687041850000072
表示第l个掩膜中第i行第j列的像素的值。
Figure BDA0003687041850000073
表示第l个掩膜中第i行第j列的像素的值。
Figure BDA0003687041850000074
为0到1的随机数。λ为超参数,能够基于遮挡概率确定。当
Figure BDA0003687041850000075
的数值小于λ,
Figure BDA0003687041850000076
的取值为0。当
Figure BDA0003687041850000077
的数值大于或者等于λ,
Figure BDA0003687041850000078
的取值为1。
利用掩膜对第二特征进行遮蔽处理。作为一种示例,将掩膜与第二特征进行点乘,得到掩膜特征。
S303:将掩膜特征输入生成模型中,得到生成模型输出的第一特征。
生成模型用于对掩膜特征进一步提取特征。生成模型包括卷积层。参见图5所示,该图为本申请实施例提供的一种生成模型的示意图。作为一种示例,生成模型由两个3乘3的卷积层和一个激活层构成。
S304:利用第一特征和第三特征,训练学生模型。
基于得到的第一特征和第三特征,能够确定学生模型与教师模型的差距,进而调整学生模型的模型参数,实现对学生模型的训练。
在一些可能的实现方式中,利用第一特征和第三特征计算损失函数,根据损失函数训练学生模型。如此能够减小学生模型与教师模型的差距,使得学生模型的性能满足图像处理的需要。
在另一些可能的实现方式中,利用第一特征、第三特征和训练图像对应标签计算损失函数。具体的,本申请实施例提供一种利用第一特征和第三特征,训练学生模型的具体实现方式。
根据第一特征和第三特征得到第一损失函数。第一损失函数用于衡量第一特征和第三特征差距。
作为一种示例,第一特征和第三特征均是特征图。第一损失函数可以由公式(2)表示。
Figure BDA0003687041850000079
其中,
Figure BDA00036870418500000710
表示第三特征。
Figure BDA00036870418500000711
表示第二特征。
Figure BDA00036870418500000712
表示将学生模型输出的第二特征经过对齐层后与第三特征对齐,得到的第二特征。
Figure BDA00036870418500000713
表示掩膜特征。
Figure BDA00036870418500000714
表示第一特征。l表示特征图的层数,取值范围为[1,L]。L为特征图的最大层数。k表示特征图的通道数,取值范围为[1,C]。C为特征图的最大通道数。i表示特征图的高度,取值范围为[1,H]。H为特征图的最大高度。j表示特征图的宽度,取值范围为[1,W]。W为特征图的最大宽度。
根据第一特征、第三特征以及训练图像对应的标签,得到第二损失函数。第二损失函数用于衡量第一特征与训练图像对应的标签的差距以及第三特征与训练图像对应的标签的差距。
基于第一损失函数和第二损失函数训练学生模型,能够利用教师模型的处理结果和真实标签共同训练学生模型,有利于学生模型的学习。
在一种可能的实现方式中,计算第一损失函数和第二损失函数的加权和,得到第三损失函数。第三损失函数可以由公式(3)表示。
Lall=αLdis+βLoriginal (3)
其中,Ldis为第一损失函数,Lorigi4al为第二损失函数。α和β为加权参数。调整α或者β的数值,能够调整第一损失函数或者第二损失函数对于训练学生模型的影响。比如,在训练前期,调高α的数值,提高教师模型对训练学生模型的贡献,提高学生模型对较为简单的训练图像的处理性能。在训练后期,调高β的数值,提高标签对训练学生模型的贡献,提高学生模型对较为困难的训练图像的处理性能。
基于上述方法实施例提供的一种基于知识蒸馏技术的图像处理方法,本申请实施例还提供一种基于知识蒸馏技术的图像处理装置,下面将结合附图对基于知识蒸馏技术的图像处理装置进行说明。
参见图6所示,该图为本申请实施例提供的一种基于知识蒸馏技术的图像处理装置的结构示意图。如图6所示,该基于知识蒸馏技术的图像处理装置包括:
获取单元601,用于获取待处理图像,所述待处理图像需要采用目标处理方式处理;
处理单元602,用于将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
在一种可能的实现方式中,所述学生模型采用以下方式训练得到:
将所述训练图像分别输入所述学生模型和所述教师模型中,得到所述学生模型输出的所述第二特征以及所述教师模型输出的所述第三特征;
利用所述掩膜对所述第二特征进行处理,得到所述掩膜特征;
将所述掩膜特征输入所述生成模型中,得到所述生成模型输出的所述第一特征;
利用所述第一特征和所述第三特征,训练所述学生模型。
在一种可能的实现方式中,所述利用所述第一特征和所述第三特征,训练所述学生模型,包括:
利用所述第一特征和所述第三特征得到第一损失函数,所述第一损失函数用于衡量所述第一特征和所述第三特征的差距;
利用所述第二特征、所述第三特征以及所述训练图像对应的标签,得到第二损失函数,所述第二损失函数用于衡量所述第二特征与所述标签之间的差距以及所述第三特征与所述标签之间的差距;
根据所述第一损失函数和所述第二损失函数训练所述学生模型。
在一种可能的实现方式中,所述学生模型采用特征金字塔结构,所述第二特征为所述学生模型输出的多层特征图。
在一种可能的实现方式中,所述第二特征为所述学生模型输出的最后一层特征图。
在一种可能的实现方式中,所述掩膜是按照预设遮挡概率,根据所述第二特征的维度生成的。
在一种可能的实现方式中,所述生成模型由两个3乘3的卷积层和一个激活层构成。
在一种可能的实现方式中,所述目标处理方式包括分类处理、检测处理、语义分割处理以及实例分割处理中的一种。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备700的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(Personal Digital Assistant,个人数字助理)、PAD(portable androiddevice,平板电脑)、PMP(Portable Media Player,便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV(television,电视机)、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置708;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM702被安装。在该计算机程序被处理装置701执行时,执行本申请实施例的方法中限定的上述功能。
本申请实施例提供的电子设备与上述实施例提供的基于知识蒸馏技术的图像处理方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
基于上述方法实施例提供的一种基于知识蒸馏技术的图像处理方法,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一实施例所述的基于知识蒸馏技术的图像处理方法。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述基于知识蒸馏技术的图像处理方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定,例如,语音数据采集模块还可以被描述为“数据采集模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本申请的一个或多个实施例,【示例一】提供了一种基于知识蒸馏技术的图像处理方法,所述方法包括:
获取待处理图像,所述待处理图像需要采用目标处理方式处理;
将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
根据本申请的一个或多个实施例,【示例二】提供了一种基于知识蒸馏技术的图像处理方法,所述学生模型采用以下方式训练得到:
将所述训练图像分别输入所述学生模型和所述教师模型中,得到所述学生模型输出的所述第二特征以及所述教师模型输出的所述第三特征;
利用所述掩膜对所述第二特征进行处理,得到所述掩膜特征;
将所述掩膜特征输入所述生成模型中,得到所述生成模型输出的所述第一特征;
利用所述第一特征和所述第三特征,训练所述学生模型。
根据本申请的一个或多个实施例,【示例三】提供了一种基于知识蒸馏技术的图像处理方法,所述利用所述第一特征和所述第三特征,训练所述学生模型,包括:
利用所述第一特征和所述第三特征得到第一损失函数,所述第一损失函数用于衡量所述第一特征和所述第三特征的差距;
利用所述第二特征、所述第三特征以及所述训练图像对应的标签,得到第二损失函数,所述第二损失函数用于衡量所述第二特征与所述标签之间的差距以及所述第三特征与所述标签之间的差距;
根据所述第一损失函数和所述第二损失函数训练所述学生模型。
根据本申请的一个或多个实施例,【示例四】提供了一种基于知识蒸馏技术的图像处理方法,所述学生模型采用特征金字塔结构,所述第二特征为所述学生模型输出的多层特征图。
根据本申请的一个或多个实施例,【示例五】提供了一种基于知识蒸馏技术的图像处理方法,所述第二特征为所述学生模型输出的最后一层特征图。
根据本申请的一个或多个实施例,【示例六】提供了一种基于知识蒸馏技术的图像处理方法,所述掩膜是按照预设遮挡概率,根据所述第二特征的维度生成的。
根据本申请的一个或多个实施例,【示例七】提供了一种基于知识蒸馏技术的图像处理方法,所述生成模型由两个3乘3的卷积层和一个激活层构成。
根据本申请的一个或多个实施例,【示例八】提供了一种基于知识蒸馏技术的图像处理方法,所述目标处理方式包括分类处理、检测处理、语义分割处理以及实例分割处理中的一种。
根据本申请的一个或多个实施例,【示例九】提供了一种基于知识蒸馏技术的图像处理装置,所述装置包括:
获取单元,用于获取待处理图像,所述待处理图像需要采用目标处理方式处理;
处理单元,用于将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
根据本申请的一个或多个实施例,【示例十】提供了一种基于知识蒸馏技术的图像处理装置,所述学生模型采用以下方式训练得到:
将所述训练图像分别输入所述学生模型和所述教师模型中,得到所述学生模型输出的所述第二特征以及所述教师模型输出的所述第三特征;
利用所述掩膜对所述第二特征进行处理,得到所述掩膜特征;
将所述掩膜特征输入所述生成模型中,得到所述生成模型输出的所述第一特征;
利用所述第一特征和所述第三特征,训练所述学生模型。
根据本申请的一个或多个实施例,【示例十一】提供了一种基于知识蒸馏技术的图像处理装置,所述利用所述第一特征和所述第三特征,训练所述学生模型,包括:
利用所述第一特征和所述第三特征得到第一损失函数,所述第一损失函数用于衡量所述第一特征和所述第三特征的差距;
利用所述第二特征、所述第三特征以及所述训练图像对应的标签,得到第二损失函数,所述第二损失函数用于衡量所述第二特征与所述标签之间的差距以及所述第三特征与所述标签之间的差距;
根据所述第一损失函数和所述第二损失函数训练所述学生模型。
根据本申请的一个或多个实施例,【示例十二】提供了一种基于知识蒸馏技术的图像处理装置,所述学生模型采用特征金字塔结构,所述第二特征为所述学生模型输出的多层特征图。
根据本申请的一个或多个实施例,【示例十三】提供了一种基于知识蒸馏技术的图像处理装置,所述第二特征为所述学生模型输出的最后一层特征图。
根据本申请的一个或多个实施例,【示例十四】提供了一种基于知识蒸馏技术的图像处理装置,所述掩膜是按照预设遮挡概率,根据所述第二特征的维度生成的。
根据本申请的一个或多个实施例,【示例十五】提供了一种基于知识蒸馏技术的图像处理装置,所述生成模型由两个3乘3的卷积层和一个激活层构成。
根据本申请的一个或多个实施例,【示例十六】提供了一种基于知识蒸馏技术的图像处理装置,所述目标处理方式包括分类处理、检测处理、语义分割处理以及实例分割处理中的一种。
根据本申请的一个或多个实施例,【示例十七】提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如【示例一】至【示例八】中任一所述的方法。
根据本申请的一个或多个实施例,【示例十八】提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如【示例一】至【示例八】中任一所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种基于知识蒸馏技术的图像处理方法,其特征在于,所述方法包括:
获取待处理图像,所述待处理图像需要采用目标处理方式处理;
将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
2.根据权利要求1所述的方法,其特征在于,所述学生模型采用以下方式训练得到:
将所述训练图像分别输入所述学生模型和所述教师模型中,得到所述学生模型输出的所述第二特征以及所述教师模型输出的所述第三特征;
利用所述掩膜对所述第二特征进行处理,得到所述掩膜特征;
将所述掩膜特征输入所述生成模型中,得到所述生成模型输出的所述第一特征;
利用所述第一特征和所述第三特征,训练所述学生模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一特征和所述第三特征,训练所述学生模型,包括:
利用所述第一特征和所述第三特征得到第一损失函数,所述第一损失函数用于衡量所述第一特征和所述第三特征的差距;
利用所述第二特征、所述第三特征以及所述训练图像对应的标签,得到第二损失函数,所述第二损失函数用于衡量所述第二特征与所述标签之间的差距以及所述第三特征与所述标签之间的差距;
根据所述第一损失函数和所述第二损失函数训练所述学生模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述学生模型采用特征金字塔结构,所述第二特征为所述学生模型输出的多层特征图。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述第二特征为所述学生模型输出的最后一层特征图。
6.根据权利要求1或2所述的方法,其特征在于,所述掩膜是按照预设遮挡概率,根据所述第二特征的维度生成的。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述生成模型由两个3乘3的卷积层和一个激活层构成。
8.根据权利要求1或2所述的方法,其特征在于,所述目标处理方式包括分类处理、检测处理、语义分割处理以及实例分割处理中的一种。
9.一种基于知识蒸馏技术的图像处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理图像,所述待处理图像需要采用目标处理方式处理;
处理单元,用于将所述待处理图像输入学生模型,得到所述学生模型输出的图像处理结果,其中,所述学生模型是利用教师模型、生成模型以及掩膜训练得到的,所述学生模型是对所述教师模型进行压缩后得到的,所述生成模型包括卷积层,所述生成模型用于根据输入的掩膜特征输出第一特征,所述掩膜特征是所述学生模型根据输入的所述目标处理方式对应的训练图像生成的第二特征经过所述掩膜处理得到的,所述第一特征以及所述教师模型根据输入的所述训练图像生成的第三特征用于训练所述学生模型。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其特征在于,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202210652606.8A 2022-06-09 2022-06-09 基于知识蒸馏技术的图像处理方法、装置、设备及介质 Pending CN114972876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210652606.8A CN114972876A (zh) 2022-06-09 2022-06-09 基于知识蒸馏技术的图像处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210652606.8A CN114972876A (zh) 2022-06-09 2022-06-09 基于知识蒸馏技术的图像处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114972876A true CN114972876A (zh) 2022-08-30

Family

ID=82961968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210652606.8A Pending CN114972876A (zh) 2022-06-09 2022-06-09 基于知识蒸馏技术的图像处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114972876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168443A (zh) * 2023-04-25 2023-05-26 安徽大学 一种基于信息差知识蒸馏的遮挡面部情绪识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168443A (zh) * 2023-04-25 2023-05-26 安徽大学 一种基于信息差知识蒸馏的遮挡面部情绪识别方法

Similar Documents

Publication Publication Date Title
CN110826567B (zh) 光学字符识别方法、装置、设备及存储介质
WO2022227886A1 (zh) 超分修复网络模型生成方法、图像超分修复方法及装置
CN111369427A (zh) 图像处理方法、装置、可读介质和电子设备
CN111275721A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN112419179B (zh) 修复图像的方法、装置、设备和计算机可读介质
CN114519667A (zh) 一种图像超分辨率重建方法及系统
CN112800276A (zh) 视频封面确定方法、装置、介质及设备
CN112418249A (zh) 掩膜图像生成方法、装置、电子设备和计算机可读介质
CN118071428A (zh) 用于多模态监测数据的智能处理系统及方法
CN114420135A (zh) 基于注意力机制的声纹识别方法及装置
CN114972876A (zh) 基于知识蒸馏技术的图像处理方法、装置、设备及介质
CN114049632A (zh) 图像字符识别模型训练方法、图像字符识别方法及装置
CN111311609B (zh) 一种图像分割方法、装置、电子设备及存储介质
CN115129877B (zh) 标点符号预测模型的生成方法、装置和电子设备
CN116843991A (zh) 模型训练方法、信息生成方法、装置、设备和介质
CN115270981A (zh) 对象处理方法、装置、可读介质及电子设备
CN112070888B (zh) 图像生成方法、装置、设备和计算机可读介质
CN112418233A (zh) 图像处理方法、装置、可读介质及电子设备
CN112233207A (zh) 图像处理方法、装置、设备和计算机可读介质
CN111737575A (zh) 内容分发方法、装置、可读介质及电子设备
CN113378808B (zh) 人物图像识别方法、装置、电子设备和计算机可读介质
CN116974684B (zh) 地图页面布局方法、装置、电子设备与计算机可读介质
CN116758359B (zh) 图像识别方法、装置及电子设备
CN114283060B (zh) 视频生成方法、装置、设备及存储介质
CN111582376B (zh) 神经网络的可视化方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination