CN113989577B - 图像分类方法及装置 - Google Patents
图像分类方法及装置 Download PDFInfo
- Publication number
- CN113989577B CN113989577B CN202111594126.2A CN202111594126A CN113989577B CN 113989577 B CN113989577 B CN 113989577B CN 202111594126 A CN202111594126 A CN 202111594126A CN 113989577 B CN113989577 B CN 113989577B
- Authority
- CN
- China
- Prior art keywords
- image data
- model
- student
- teacher
- image classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像分类方法及装置,该图像分类方法包括:获取图像数据;将图像数据输入至图像分类模型中,得到图像分类模型输出的类别信息;其中,图像分类模型为基于样本图像数据、样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,样本图像数据的自注意力特征和教师类别信息为教师模型基于样本图像数据得到的,教师模型用于从样本图像数据中提取出自注意力特征教师类别信息,并基于所述自注意力特征进行图像分类。本发明提供的图像分类方法及装置,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图像分类方法及装置。
背景技术
图像分类,是根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
目前的图像分类方法,会采用神经网络模型作为手段,但是在神经网络模型的训练过程中,往往需要大量的有标签样本,而这些有标签样本往往是使用人工的方式打标签,这样存在漏检的问题,且消耗人工成本,使得图像分类准确率低,且效率较低。
发明内容
本发明提供一种图像分类方法及装置,用以解决现有技术中存在漏检的问题,且消耗人工成本,使得图像分类准确率低,且效率较低的缺陷,实现节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
本发明提供一种图像分类方法,该图像分类方法包括:获取图像数据;将所述图像数据输入至图像分类模型中,得到所述图像分类模型输出的类别信息;其中,所述图像分类模型为基于样本图像数据、所述样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,所述样本图像数据的自注意力特征和所述教师类别信息为教师模型基于所述样本图像数据得到的,所述教师模型用于从所述样本图像数据中提取出所述自注意力特征,并基于所述自注意力特征进行图像分类。
根据本发明提供的一种图像分类方法,所述图像分类模型为基于如下步骤训练得到的:获取所述样本图像数据和初始模型;将所述初始模型作为学生模型,基于所述样本图像数据、所述样本图像数据的自注意力特征和所述教师类别信息对所述学生模型进行蒸馏训练,得到所述图像分类模型。
根据本发明提供的一种图像分类方法,所述基于所述样本图像数据、所述样本图像数据的自注意力特征和所述教师类别信息对所述学生模型进行蒸馏训练,得到所述图像分类模型,包括:基于所述样本图像数据和所述样本图像数据的自注意力特征,得到参考图像数据;将所述参考图像数据输入至所述学生模型,得到所述学生模型输出的学生类别信息;基于所述教师类别信息和所述学生类别信息,对所述学生模型进行训练,得到所述图像分类模型。根据本发明提供的一种图像分类方法,所述基于所述自注意力特征和所述样本图像数据,得到参考图像数据,包括:基于所述自注意力特征对所述样本图像数据进行动态掩码处理,得到所述参考图像数据。
根据本发明提供的一种图像分类方法,所述将所述参考图像数据输入至所述学生模型,得到所述学生模型输出的学生类别信息,包括:将所述参考图像数据输入至所述学生模型,由所述学生模型基于所述参考图像数据提取中间特征,并基于所述中间特征进行图像分类,得到所述学生模型输出的所述学生类别信息;所述基于所述教师类别信息和所述学生类别信息,对所述学生模型进行训练,得到所述图像分类模型,包括:基于所述中间特征进行图像重建处理,得到重建图像数据;基于所述重建图像数据与所述样本图像数据的损失结果,以及所述教师类别信息与所述学生类别信息的损失结果,对所述学生模型进行训练,得到所述图像分类模型。
根据本发明提供的一种图像分类方法,所述基于所述重建图像数据与所述样本图像数据的损失结果,以及所述教师类别信息与所述学生类别信息的损失结果,对所述学生模型进行训练,得到所述图像分类模型,包括:基于所述重建图像数据、所述样本图像数据、所述教师类别信息以及所述学生类别信息,构建损失函数;基于所述损失函数,对所述学生模型进行训练,得到所述图像分类模型。
根据本发明提供的一种图像分类方法,所述类别信息包括:所述图像数据属于多个候选类别的概率。本发明还提供一种图像分类装置,该图像分类装置包括:获取模块,用于获取图像数据;分类模块,用于将所述图像数据输入至图像分类模型中,得到所述图像分类模型输出的类别信息;其中,所述图像分类模型为基于样本图像数据、所述样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,所述样本图像数据的自注意力特征和所述教师类别信息为教师模型基于所述样本图像数据得到的,所述教师模型用于从所述样本图像数据中提取出所述自注意力特征,并基于所述自注意力特征进行图像分类。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像分类方法的步骤。
本发明提供的图像分类方法及装置,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,使得图像分类模型能够对图像数据进行识别,输出类别信息,不需要对训练样本进行人工打标签,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像分类方法的流程示意图;
图2是本发明提供的图像分类装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图3描述本发明的图像分类方法及装置。
如图1所示,本发明提供一种图像分类方法,该图像分类方法包括如下步骤110至步骤120。
其中,步骤110、获取图像数据。
可以理解的是,该图像分类方法可以应用于处理设备,处理设备可以包括手机、平板电脑、笔记本电脑和台式计算机,处理设备可以获取到图像数据,图像数据为图片形式的数据,此处的图像数据可以是摄像头拍摄到的照片,比如为风景照片、人物照片、产品照片或者文本照片,图像数据也可以是电子合成或者人为绘制出的图像,比如可以为屏幕截图、手绘图像或者算法合成图像。
步骤120、将图像数据输入至图像分类模型中,得到图像分类模型输出的类别信息。
其中,图像分类模型为基于样本图像数据、样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,样本图像数据的自注意力特征和教师类别信息为教师模型基于样本图像数据得到的,教师模型用于从样本图像数据中提取出自注意力特征,并基于自注意力特征进行图像分类。可以理解的是,图像分类模型可以为神经网络模型,比如可以为卷积神经网络或者残差神经网络,图像分类模型可以是对空白的神经网络模型进行训练并不断优化得到的,此处对神经网络模型进行训练的方式为无监督学习的方式。
无监督学习和有监督学习是人工智能领域内的并列概念,有监督学习指的是,利用样本和样本对应的样本标签来对神经网络模型进行训练,将样本输入到神经网络模型中,得到神经网络模型输出的结果,将结果和给定的样本标签来对比,调节神经网络模型的结构和参数,使之不断优化,使得神经网络模型得到的结果和样本标签越来越接近,也就是通过样本标签来监督神经网络模型的训练过程。
无监督学习指的是在没有样本标签的情况下,仅利用多个样本来对神经网络模型进行训练,让神经网络模型对样本进行自我学习,在学习过程中,调节神经网络模型的结构和参数,使之不断优化。
此处的训练方法采用的是无监督学习方法中的蒸馏训练过程,在蒸馏训练过程中,图像分类模型是以教师模型为参照进行不断学习得到的学生模型。
教师模型是提前训练好的,能够对图像进行准确分类的神经网络模型,单个教师模型,可以基于教师-学生网络模型的思想,将教师模型中的知识迁移到学生模型,从而能够提高学生模型的网络性能,此处的知识迁移过程就是知识蒸馏。
换言之,本发明实施例中各教师模型是针对多种类别的图像进行训练得到的模型,各教师模型在特定场景下具有较好的识别性能,进而进行蒸馏学习得到的学生模型能够学习到对图像数据进行分类的功能,训练得到的图像分类模型能够对不同类型的图像数据进行准确识别。
值得注意的是,在对图像分类模型进行蒸馏训练的过程中,先将样本图像数据输入到教师模型当中,得到了教师模型基于样本图像数据得到的自注意力特征,将自注意力特征和样本图像数据结合,输入到图像分类模型中,再参照教师模型输出的教师类别信息,对图像分类模型进行训练,这样相当于利用了教师模型的自注意力特征,也就是能够基于注意力驱动对图像分类模型进行训练,能够便于图像分类模型在蒸馏训练过程中能够快速收敛,提高模型训练效率。
目前的图像分类方法,会采用神经网络模型作为手段,但是在神经网络模型的训练过程中,往往需要大量的有标签样本,而这些有标签样本往往是使用人工的方式打标签,这样存在漏检的问题,且消耗人工成本,使得图像分类准确率低,且效率较低。
本发明提供的图像分类方法,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,使得图像分类模型能够对图像数据进行识别,输出类别信息,不需要对训练样本进行人工打标签,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
在一些实施例中,图像分类模型为基于如下步骤训练得到的:获取样本图像数据和初始模型;将初始模型作为学生模型,基于样本图像数据、样本图像数据的自注意力特征以及教师类别信息进行蒸馏训练,得到图像分类模型。
可以理解的是,在根据教师模型对图像分类模型进行蒸馏训练时,可行的方案可以有两种,一种是将每个教师模型和学生模型进行一对一的蒸馏训练,另一种是将多个教师模型和学生模型同时进行多对一的蒸馏训练。
此处可以先获取到与教师模型的结构相同的空白神经网络模型,该空白神经网络模型可以被称为初始模型,将该初始模型作为学生模型,可以将样本图像数据输入到教师模型中,得到自注意力特征和教师类别信息,将自注意力特征和样本图像数据进行结合,输入到学生模型中,得到学生模型输出的结果,将该结果和教师类别信息进行对比,从而不断优化学生模型,将训练完成的学生模型作为图像分类模型。
在一些实施例中,基于样本图像数据、样本图像数据的自注意力特征和教师类别信息对学生模型进行蒸馏训练,得到图像分类模型,包括:基于样本图像数据和样本图像数据的自注意力特征,得到参考图像数据;将参考图像数据输入至学生模型,得到学生模型输出的学生类别信息;基于教师类别信息和学生类别信息,对学生模型进行训练,得到图像分类模型。可以理解的是,在将样本图像数据输入到教师模型后,教师模型可以输出自注意力特征和教师类别信息,可以根据自注意力特征和样本图像数据,得到参考图像数据,可以利用自注意力特征对样本图像数据进行处理,比如利用自注意力特征对样本图像数据进行掩码处理,可以突出样本图像数据中的关键特征,掩盖样本图像数据中的一些无关特征,这样得到的参考图像数据中的关键特征就能够被突出强调,再将参考图像数据输入到学生模型中,学生模型能够输出学生类别信息,将学生类别信息和教师类别信息进行比对,根据比对结果来对学生模型进行反复优化,这样就能够得到图像分类模型。
在一些实施例中,基于自注意力特征和样本图像数据,得到参考图像数据,包括:基于自注意力特征对样本图像数据进行动态掩码处理,得到参考图像数据。
可以理解的是,可以采用注意力驱动掩码机制来对样本图像数据进行动态掩码处理,可以通过教师模型输出的自注意力特征作为指导,一定的概率选择样本图像数据中响应较低的区域进行动态掩码,相比于随机掩码方式,采用注意力驱动的动态掩码方式能够避免破坏图像数据中的关键结构,而这些关键结构的掩码往往会使得训练中的模型产生误解,从而会降低待训练模型的关注度,通过动态掩码的方式,能够保留图像数据中的完整结构,能够提高图像分类模型进行分类的准确度。
在一些实施例中,基于教师类别信息和学生类别信息,对学生模型进行训练,得到图像分类模型,包括:基于教师类别信息和学生类别信息,确定学生模型的损失函数;基于学生模型的损失函数,对学生模型进行训练,得到图像分类模型。
根据实际需求,可以设置多个教师模型(如n个教师模型),分别将样本图像数据输入至教师模型,提取得到教师特征向量,并基于教师特征向量确定教师模型输出的教师类别信息,教师类别信息用于指导学生模型的训练。同时,将对应的样本图像数据输入至学生模型,提取得到学生特征向量,并基于学生特征向量确定学生类别信息,然后基于学生类别信息和对应的教师类别信息确定损失函数,并基于损失函数优化模型进行训练,得到图像分类模型。其中,损失函数可以是基于教师类别信息和学生类别信息之间的均方误差(MeanSquared Error,MSE)确定的。
在一些实施例中,将参考图像数据输入至学生模型,得到学生模型输出的学生类别信息,包括:将参考图像数据输入至学生模型,由学生模型基于参考图像数据提取中间特征,并基于中间特征进行图像分类,得到学生模型输出的学生类别信息;基于教师类别信息和学生类别信息,对学生模型进行训练,得到图像分类模型,包括:基于中间特征进行图像重建处理,得到重建图像数据;基于重建图像数据与样本图像数据的损失结果,以及教师类别信息与学生类别信息的损失结果,对学生模型进行训练,得到图像分类模型。
可以理解的是,学生模型在对参考图像数据进行处理的过程中,可以得到中间特征,学生模型可以先利用编码模块对参考图像数据进行编码处理得到中间特征,再根据中间特征得到学生类别信息,中间特征可以为自注意力特征,也可以为其他特征,在学生模型得到了类别信息学生识别结构后,可以利用解码模块对中间特征进行图像重建处理,也就是可以根据学生类别信息,恢复成图像,得到的是重建图像数据,此处可以采用像素级的图像重建处理,像素级恢复任务可以使网络避免过拟合于掩码模块,从而增强捕获像素级信息的能力,并从更细的粒度恢复空间结构。由于卷积神经网络(CNN)具有感应偏压的能力,恢复任务采用CNN作为解码模块,可以具有良好的性能。
在得到重建图像数据后,可以将重建图像数据与样本图像数据进行比较,可以计算出两者的损失结果,在对学生模型进行优化过程中,使得两者的损失结果越来越小,同时也要使得教师类别信息与学生类别信息的损失结果越来越小。
在一些实施例中,基于重建图像数据与样本图像数据的损失结果,以及教师类别信息与学生类别信息的损失结果,对学生模型进行训练,得到图像分类模型,包括:基于重建图像数据、样本图像数据、教师类别信息以及学生类别信息,构建损失函数;基于损失函数,对学生模型进行训练,得到图像分类模型。
可以理解的是,可以将重建图像数据、样本图像数据、教师类别信息以及学生类别信息共同构建出损失函数,损失函数中可以包括重建图像数据与样本图像数据的差值,以及教师类别信息与学生类别信息的差值,当损失函数最小时,两个差值也最小,这样得到的图像分类模型就更加接近于教师模型。也就是说,本实施例采用的损失函数为对比损失+图像重建损失,两种损失都采用自监督的方式进行学习,并结合动态掩码机制,显示捕捉图像局部上下文信息并保留全图语义信息。图像解码器部分采用经典的特征金字塔结构,完美保留图像空间信息,因此对下游密集预测任务更加友好,无缝支持下游目标检测和语义分割任务的微调,这样得到的图像分类模型会更加准确。
在一些实施例中,类别信息可以包括:图像数据属于多个候选类别的概率。
可以理解的是,在将图像数据输入到图像分类模型后,图像分类模型可以输出图像数据的可能的多个候选类别,以及每种候选类别对应的概率值,也就是可以得到多个候选类别的概率分布,比如图像为风景类别的概率为70%,图像为人物类别的概率为80%,图像为文本类别的概率为10%,类别信息包括图像数据的候选类别以及候选类别对应的概率分布,这样可以给用户提供更多的参考,使得用户能够根据概率分布,来最终确定图像数据的类别,使得人机交互更加友好。
值得一提的是,本发明设计的图像分类方法提出了一种注意力机制驱动的无监督视觉学习方法,此方法利用注意引导的掩码策略来捕获补丁之间的局部关系,同时保留全局语义信息。注意引导掩模策略基于从教师模型中提取的多头自我注意图,不会产生额外的计算成本。此外,在注意引导掩模策略下,进一步使用全局图像解码器来恢复图像的空间信息,这对于密集预测任务至关重要,该方法在多个下游视觉任务中具有良好的通用性和可扩展性。
下面对本发明提供的图像分类装置进行描述,下文描述的图像分类装置与上文描述的图像分类方法可相互对应参照。
如图2所示,本发明提供一种图像分类装置,该图像分类装置包括:获取模块210和分类模块220。
获取模块210,用于获取图像数据。
分类模块220,用于将图像数据输入至图像分类模型中,得到图像分类模型输出的类别信息。
其中,图像分类模型为基于样本图像数据、样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,样本图像数据的自注意力特征和教师类别信息为教师模型基于样本图像数据得到的,教师模型用于从样本图像数据中提取出自注意力特征,并基于自注意力特征进行图像分类。在一些实施例中,图像分类装置还包括训练模块,训练模块用于获取样本图像数据和初始模型;将初始模型作为学生模型,基于样本图像数据、样本图像数据的自注意力特征和教师类别信息对学生模型进行蒸馏训练,得到图像分类模型。
在一些实施例中,训练模块还用于:基于样本图像数据和样本图像数据的自注意力特征,得到参考图像数据;将参考图像数据输入至学生模型,得到学生模型输出的学生类别信息;基于教师类别信息和学生类别信息,对学生模型进行训练,得到图像分类模型。
在一些实施例中,训练模块还用于基于自注意力特征对样本图像数据进行动态掩码处理,得到参考图像数据。
在一些实施例中,训练模块还用于将所述参考图像数据输入至所述学生模型,由所述学生模型基于所述参考图像数据提取中间特征,并基于所述中间特征进行图像分类,得到所述学生模型输出的所述学生类别信息;所述基于所述教师类别信息和所述学生类别信息,对所述学生模型进行训练,得到所述图像分类模型,包括:基于所述中间特征进行图像重建处理,得到重建图像数据;基于所述重建图像数据与所述样本图像数据的损失结果,以及所述教师类别信息与所述学生类别信息的损失结果,对所述学生模型进行训练,得到所述图像分类模型。
在一些实施例中,所述基于所述重建图像数据与所述样本图像数据的损失结果,以及所述教师类别信息与所述学生类别信息的损失结果,对所述学生模型进行训练,得到所述图像分类模型,包括:基于所述重建图像数据、所述样本图像数据、所述教师类别信息以及所述学生类别信息,构建损失函数;基于所述损失函数,对所述学生模型进行训练,得到所述图像分类模型。
在一些实施例中,类别信息包括:所述图像数据属于多个候选类别的概率。
本发明提供的图像分类装置,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,使得图像分类模型能够对图像数据进行识别,输出类别信息,不需要对训练样本进行人工打标签,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行图像分类方法,该方法包括:获取图像数据;将图像数据输入至图像分类模型中,得到图像分类模型输出的类别信息;其中,图像分类模型为基于样本图像数据、样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,样本图像数据的自注意力特征和教师类别信息为教师模型基于样本图像数据得到的,教师模型用于从样本图像数据中提取出自注意力特征,并基于自注意力特征进行图像分类。
本发明提供的图像分类方法,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,使得图像分类模型能够对图像数据进行识别,输出类别信息,不需要对训练样本进行人工打标签,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像分类方法,该方法包括:获取图像数据;将图像数据输入至图像分类模型中,得到图像分类模型输出的类别信息;其中,图像分类模型为基于样本图像数据、样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,样本图像数据的自注意力特征和教师类别信息为教师模型基于样本图像数据得到的,教师模型用于从样本图像数据中提取出自注意力特征,并基于自注意力特征进行图像分类。
本发明提供的图像分类方法,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,使得图像分类模型能够对图像数据进行识别,输出类别信息,不需要对训练样本进行人工打标签,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像分类方法,该方法包括:获取图像数据;将所述图像数据输入至图像分类模型中,得到所述图像分类模型输出的类别信息;其中,图像分类模型为基于样本图像数据、样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,样本图像数据的自注意力特征和教师类别信息为教师模型基于样本图像数据得到的,教师模型用于从样本图像数据中提取出自注意力特征,并基于自注意力特征进行图像分类。
本发明提供的图像分类方法,采用了基于注意力驱动的蒸馏训练方法,能够对图像分类模型进行快速准确地训练,使得图像分类模型能够对图像数据进行识别,输出类别信息,不需要对训练样本进行人工打标签,能够节省人工成本,能够避免漏检的问题,能够提高图像分类的准确率,提高图像分类的效率。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种图像分类方法,其特征在于,包括:
获取图像数据;
将所述图像数据输入至图像分类模型中,得到所述图像分类模型输出的类别信息;
其中,所述图像分类模型为基于样本图像数据、所述样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,所述样本图像数据的自注意力特征和所述教师类别信息为教师模型基于所述样本图像数据得到的,所述教师模型用于从所述样本图像数据中提取出所述自注意力特征,并基于所述自注意力特征进行图像分类;
所述图像分类模型为基于如下步骤训练得到的:获取所述样本图像数据和初始模型;将所述初始模型作为学生模型,基于所述样本图像数据、所述样本图像数据的自注意力特征和所述教师类别信息对所述学生模型进行蒸馏训练,得到所述图像分类模型;所述基于所述样本图像数据、所述样本图像数据的自注意力特征和所述教师类别信息对所述学生模型进行蒸馏训练,得到所述图像分类模型,包括:基于所述样本图像数据和所述样本图像数据的自注意力特征,得到参考图像数据;将所述参考图像数据输入至所述学生模型,得到所述学生模型输出的学生类别信息;基于所述教师类别信息和所述学生类别信息,对所述学生模型进行训练,得到所述图像分类模型。
2.根据权利要求1所述的图像分类方法,其特征在于,所述基于所述自注意力特征和所述样本图像数据,得到参考图像数据,包括:
基于所述自注意力特征对所述样本图像数据进行动态掩码处理,得到所述参考图像数据。
3.根据权利要求1所述的图像分类方法,其特征在于,所述将所述参考图像数据输入至所述学生模型,得到所述学生模型输出的学生类别信息,包括:
将所述参考图像数据输入至所述学生模型,由所述学生模型基于所述参考图像数据提取中间特征,并基于所述中间特征进行图像分类,得到所述学生模型输出的所述学生类别信息;
所述基于所述教师类别信息和所述学生类别信息,对所述学生模型进行训练,得到所述图像分类模型,包括:
基于所述中间特征进行图像重建处理,得到重建图像数据;
基于所述重建图像数据与所述样本图像数据的损失结果,以及所述教师类别信息与所述学生类别信息的损失结果,对所述学生模型进行训练,得到所述图像分类模型。
4.根据权利要求3所述的图像分类方法,其特征在于,所述基于所述重建图像数据与所述样本图像数据的损失结果,以及所述教师类别信息与所述学生类别信息的损失结果,对所述学生模型进行训练,得到所述图像分类模型,包括:
基于所述重建图像数据、所述样本图像数据、所述教师类别信息以及所述学生类别信息,构建损失函数;
基于所述损失函数,对所述学生模型进行训练,得到所述图像分类模型。
5.根据权利要求1至4中任一项所述的图像分类方法,其特征在于,所述类别信息包括:
所述图像数据属于多个候选类别的概率。
6.一种图像分类装置,其特征在于,包括:
获取模块,用于获取图像数据;
分类模块,用于将所述图像数据输入至图像分类模型中,得到所述图像分类模型输出的类别信息;
其中,所述图像分类模型为基于样本图像数据、所述样本图像数据的自注意力特征和教师类别信息进行蒸馏训练得到的,所述样本图像数据的自注意力特征和所述教师类别信息为教师模型基于所述样本图像数据得到的,所述教师模型用于从所述样本图像数据中提取出所述自注意力特征,并基于所述自注意力特征进行图像分类;
所述图像分类模型为基于如下步骤训练得到的:获取所述样本图像数据和初始模型;将所述初始模型作为学生模型,基于所述样本图像数据、所述样本图像数据的自注意力特征和所述教师类别信息对所述学生模型进行蒸馏训练,得到所述图像分类模型;所述基于所述样本图像数据、所述样本图像数据的自注意力特征和所述教师类别信息对所述学生模型进行蒸馏训练,得到所述图像分类模型,包括:基于所述样本图像数据和所述样本图像数据的自注意力特征,得到参考图像数据;将所述参考图像数据输入至所述学生模型,得到所述学生模型输出的学生类别信息;基于所述教师类别信息和所述学生类别信息,对所述学生模型进行训练,得到所述图像分类模型。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述图像分类方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111594126.2A CN113989577B (zh) | 2021-12-24 | 2021-12-24 | 图像分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111594126.2A CN113989577B (zh) | 2021-12-24 | 2021-12-24 | 图像分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989577A CN113989577A (zh) | 2022-01-28 |
CN113989577B true CN113989577B (zh) | 2022-04-05 |
Family
ID=79734262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111594126.2A Active CN113989577B (zh) | 2021-12-24 | 2021-12-24 | 图像分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989577B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114951047B (zh) * | 2022-05-26 | 2023-08-22 | 河海大学 | 基于光纤传感器的振动送料中通用型智能分选方法 |
CN115082758B (zh) * | 2022-08-19 | 2022-11-11 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464981A (zh) * | 2020-10-27 | 2021-03-09 | 中科视语(句容)科技有限公司 | 基于空间注意力机制的自适应知识蒸馏方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019240964A1 (en) * | 2018-06-12 | 2019-12-19 | Siemens Aktiengesellschaft | Teacher and student based deep neural network training |
CN112801209B (zh) * | 2021-02-26 | 2022-10-25 | 同济大学 | 基于双特长教师模型知识融合的图像分类方法及存储介质 |
-
2021
- 2021-12-24 CN CN202111594126.2A patent/CN113989577B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464981A (zh) * | 2020-10-27 | 2021-03-09 | 中科视语(句容)科技有限公司 | 基于空间注意力机制的自适应知识蒸馏方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113989577A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657602B2 (en) | Font identification from imagery | |
US11373390B2 (en) | Generating scene graphs from digital images using external knowledge and image reconstruction | |
US11315345B2 (en) | Method for dim and small object detection based on discriminant feature of video satellite data | |
WO2021203863A1 (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
JP6397144B2 (ja) | 画像からの事業発見 | |
US20180114071A1 (en) | Method for analysing media content | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN110807434B (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN108509833B (zh) | 一种基于结构化分析字典的人脸识别方法、装置及设备 | |
CN113989577B (zh) | 图像分类方法及装置 | |
CN114495129B (zh) | 文字检测模型预训练方法以及装置 | |
US20210303864A1 (en) | Method and apparatus for processing video, electronic device, medium and product | |
KR20200010993A (ko) | 보완된 cnn을 통해 이미지 속 얼굴의 속성 및 신원을 인식하는 전자 장치. | |
RU2768211C1 (ru) | Оптическое распознавание символов посредством комбинации моделей нейронных сетей | |
CN116311005A (zh) | 一种用于运动图像处理装置、方法及存储介质 | |
CN118015644B (zh) | 基于图片和文字的社交媒体关键词数据分析方法及装置 | |
Hoxha et al. | Remote sensing image captioning with SVM-based decoding | |
CN118397642A (zh) | 基于ocr的票据信息识别方法、装置、设备及存储介质 | |
CN117437426B (zh) | 一种高密度代表性原型指引的半监督语义分割方法 | |
Zhang et al. | C2st: Cross-modal contextualized sequence transduction for continuous sign language recognition | |
Anbukkarasi et al. | Enhanced feature model based hybrid neural network for text detection on signboard, Billboard and news tickers | |
CN118115781A (zh) | 基于多模态模型的标签识别方法、系统、设备及存储介质 | |
CN117793483A (zh) | 视频标签的提取方法、系统、设备及介质 | |
CN116935438A (zh) | 一种基于模型结构自主进化的行人图像重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |