CN117523218A - 标签生成、图像分类模型的训练、图像分类方法及装置 - Google Patents
标签生成、图像分类模型的训练、图像分类方法及装置 Download PDFInfo
- Publication number
- CN117523218A CN117523218A CN202210857077.5A CN202210857077A CN117523218A CN 117523218 A CN117523218 A CN 117523218A CN 202210857077 A CN202210857077 A CN 202210857077A CN 117523218 A CN117523218 A CN 117523218A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- category
- classification
- reference information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 153
- 238000013145 classification model Methods 0.000 title claims description 171
- 238000012549 training Methods 0.000 title claims description 86
- 238000001514 detection method Methods 0.000 claims abstract description 313
- 238000012360 testing method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 21
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 241000009328 Perro Species 0.000 description 8
- 241000283073 Equus caballus Species 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 7
- 241001331845 Equus asinus x caballus Species 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000003090 exacerbative effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种标签生成、图像分类模型的方法、图像分类方法及装置。所述标签生成方法包括:分别通过教师模型和学生模型对无标签图像进行分类识别得到教师模型和学生模型各自对应的分类参考信息;每个模型对应的分类参考信息均包括无标签图像所包含的N个检测对象及每个检测对象属于多个类别中每个类别的概率;基于教师模型对应的分类参考信息确定每个类别在教师模型对应的检测对象数量,及基于学生模型对应的分类参考信息确定每个类别在学生模型对应的检测对象数量;基于每个类别在教师模型及学生模型对应的检测对象数量确定每个类别的概率阈值;基于教师模型对应的分类参考信息和每个类别的概率阈值,为学生模型生成无标签图像对应的伪标签。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种标签生成、图像分类模型的训练、图像分类方法及装置。
背景技术
近年来,基于卷积神经网络的深度学习技术在图像分类、目标检测、实例分割等领域取得了显著效果。然而,大规模神经网络依赖大规模有标签数据的驱动。在实际应用场景中,构建适用于有监督学习的大规模有标注数据集是困难的、耗时的且依赖专家经验。然而,获取无标注的图像数据是容易的,依靠自动计算机程序可以快速获取大量无标签图像。通过利用少量有标签图像和大量无标签图像,有效地进行深度学习任务,训练得到性能优异的深度学习模型,有效解决有标签图像的数量匮乏问题,被称为半监督学习。为节约人工标注开销,半监督学习被提出并得到广泛研究。
在目标检测任务中,类别间通常存在不平衡的情况,各类别学习的困难程度存在明显差异。这一问题在半监督学习目标检测任务中更加严重,确认偏差与错误累积的问题更加显著。也就是说,在半监督目标检测任务中,有标签图像提供的监督信息匮乏,模型倾向于识别出更多容易识别的检测对象,并因此导致生成的伪标签中包含更多的容易类别的检测对象和更少的困难类别的检测对象,进而加剧不平衡学习问题。这一现象不利于无标签图像的利用率(困难类别利用率低),进而导致训练出的模型的训练效果不佳,进而影响模型的分类准确率。
发明内容
本申请实施例的目的是提供一种标签生成、图像分类模型的方法、图像分类方法及装置,用于解决现有的图像分类模型训练过程中存在的伪标签中困难类别的利用率低而导致模型训练效果不佳的问题。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种标签生成方法,所述标签生成方法应用于半监督目标检测架构中,所述半监督目标检测架构包括教师模型和学生模型,所述标签生成方法包括:
通过所述教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
可以看出,本申请实施例中,针对包括教师模型和学生模型的半监督目标检测框架,基于教师模型和学生模型各自对同一无标签图像进行分类识别所得的分类参考信息,统计各个模型各自对应于同一类别的检测对象数量,可以评估出教师模型和学生模型分别对同一类别的学习状态(或者学习难度),从而确定出适应于各个类别的概率阈值;进一步,利用教师模型对应的分类参考信息和每个类别的概率阈值,为学生模型生成无标签图像对应的伪标签,可以避免困难类别的检测对象被大量过滤,缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
第二方面,本申请实施例提供一种图像分类模型的训练方法,所述训练方法用于训练具有半监督目标检测架构的图像分类模型,所述图像分类模型包括教师模型和学生模型,所述训练方法包括:
获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于第一方面所述的标签生成方法生成的;
通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
可以看出,本申请实施例中,针对具有半监督目标检测框架的图像分类模型,通过图像分类模型中的学生模型,分别对图像集合中的有标签图像和无标签图像进行分类识别,得到有标签图像对应的分类参考信息和无标签图像对应的分类参考信息,然后利用本申请实施例提供的标签生成方法为学生模型生成的无标签图像对应的伪标签为学生模型的学习过程提供指导,基于图像集合中的每个图像对应的分类参考信息、图像集合中的有标签图像对应的类别标签以及无标签图像对应的伪标签,调整图像分类模型的模型参数,有利于缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
第三方面,本申请实施例提供一种图像分类方法,包括:
通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中每个图像的目标分类参考信息、所述图像集合中有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述每个图像的目标分类参考信息是通过所述图像分类模型中的学生模型对所述图像集合中每个图像进行分类识别得到的;所述无标签图像对应的伪标签是通过第一方面方法确定的。
可以看出,本申请实施例中,针对具有半监督目标检测框架的图像分类模型,由于在图像分类模型的半监督学习过程中采用的无标签图像对应的伪标签是教师模型和学生模型分别对各个类别的学习状态(或者学习难度)动态评估得到的,有利于缓解学生模型对不同类别的学习不平衡的问题,进而得到训练出的图像分类模型具有较高的分类准确率;进一步,利用图像分类模型对待处理图像进行分类识别,有助于提高图像分类结果的准确性和可靠性。
第四方面,本申请实施例提供一种标签生成装置,所述标签生成装置应用于半监督目标检测架构中,所述半监督目标检测架构包括教师模型和学生模型,所述标签生成装置包括:
分类单元,用于通过所述教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
确定单元,用于基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
所述确定单元,还用于基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
生成单元,用于基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
第五方面,本申请实施例提供一种图像分类模型的训练装置,所述训练装置用于训练具有半监督目标检测架构的图像分类模型,所述图像分类模型包括教师模型和学生模型,所述训练装置包括:
获取单元,用于获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于第一方面所述的标签生成方法生成的;
分类单元,用于通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
调整单元,用于基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
第六方面,本申请实施例提供一种图像分类装置,包括:
分类单元,用于通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
确定单元,用于基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中每个图像的目标分类参考信息、所述图像集合中有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述每个图像的目标分类参考信息是通过所述图像分类模型中的学生模型对所述图像集合中每个图像进行分类识别得到的;所述无标签图像对应的伪标签是通过第一方面所述的方法确定的。
第七方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面、第二方面以及第三方面中任一项所述的方法。
第八方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面、第二方面以及第三方面中任一项所述的方法。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请的一个实施例提供的一种标签生成方法的流程意图;
图2为本申请的另一个实施例提供的一种标签生成方法的流程示意图;
图3为本申请的一个实施例提供的一种图像分类模型的训练方法的流程示意图;
图4为本申请的另一个实施例提供的一种图像分类模型的训练方法的示意图;
图5为本申请的一个实施例提供的一种图像分类方法的流程示意图;
图6为本申请的一个实施例提供的一种标签生成装置的结构示意图;
图7为本申请的一个实施例提供的一种图像分类模型的训练装置的结构示意图;
图8为本申请的一个实施例提供的一种图像分类装置的结构示意图;
图9为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所两节对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
如前所述,在目标检测任务中,类别间通常存在不平衡的情况,各类别学习的困难程度存在明显差异。这一问题在半监督学习目标检测任务中更加严重,确认偏差与错误累积的问题更加显著。也就是说,在半监督目标检测任务中,有标签图像提供的监督信息匮乏,模型倾向于识别出更多容易识别的检测对象,并因此导致生成的伪标签中包含更多的容易类别的检测对象和更少的困难类别的检测对象,进而加剧不平衡学习问题。这一现象不利于无标签图像的利用率(困难类别利用率低),进而导致训练出的模型的训练效果不佳,进而影响模型的分类准确率。
通过对现有的半监督目标检测方法进行研究发现,导致生成的伪标签中包含更多的容易类别的检测对象和更少的困难类别的检测对象的主要原因在于,现有的半监督目标检测方法没有对各类别的检测对象,依据其学习难度区别对待,而是通过固定阈值,从模型针对无标签图像得到的分类结果中筛选出合适的类别并以此生成伪标签,这就导致困难类别的检测对象被大量过滤,使得模型倾向于识别出更多容易识别的检测对象。
基于此,本申请实施例提出了一种标签生成方法,针对包括教师模型和学生模型的半监督目标检测框架,基于教师模型和学生模型各自对同一无标签图像进行分类识别所得的分类参考信息,统计各个模型各自对应于同一类别的检测对象数量,可以评估出教师模型和学生模型分别对同一类别的学习状态(或者学习难度),从而确定出适应于各个类别的概率阈值;进一步,利用教师模型对应的分类参考信息和每个类别的概率阈值,为学生模型生成无标签图像对应的伪标签,可以避免困难类别的检测对象被大量过滤,缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
本申请实施例还提出了一种图像分类模型的训练方法,针对具有半监督目标检测框架的图像分类模型,通过图像分类模型中的学生模型,分别对图像集合中的有标签图像和无标签图像进行分类识别,得到有标签图像对应的分类参考信息和无标签图像对应的分类参考信息,然后利用本申请实施例提供的标签生成方法为学生模型生成的无标签图像对应的伪标签为学生模型的学习过程提供指导,基于图像集合中的每个图像对应的分类参考信息、图像集合中的有标签图像对应的类别标签以及无标签图像对应的伪标签,调整图像分类模型的模型参数,有利于缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
本申请实施例还提出了一种图像分类方法,利用训练得到的图像分类模型可以准确对图像进行分类识别。由于在图像分类模型的半监督学习过程中采用的无标签图像对应的伪标签是教师模型和学生模型分别对各个类别的学习状态(或者学习难度)动态评估得到的,有利于缓解学生模型对不同类别的学习不平衡的问题,进而得到训练出的图像分类模型具有较高的分类准确率;进一步,利用图像分类模型对待处理图像进行分类识别,有助于提高图像分类结果的准确性和可靠性。
应理解,本申请实施例提供的标签生成方法、图像分类模型的训练方法以及图像分类方法,均可以电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
以下结合附图,详细说明本申请各实施例提供的技术方案。
请参考图1,为本申请的一个实施例提供的一种标签生成方法的流程示意图,该方法应用于半监督目标检测架构中,该半监督目标检测架构包括教师模型和学生模型,该方法可以包括如下步骤:
S102,通过教师模型对无标签图像进行分类识别,得到教师模型对应的分类参考信息,以及通过学生模型对无标签图像进行分类识别,得到学生模型对应的分类参考信息。
本申请实施例中,教师模型和学生模型可以具有相同的网络结构,或者,为了简化模型结构,以实现图像分类模型的压缩与加速,教师模型和学生模型也可以具有不同的网络结构,比如学生模型相较于教师模型采用了更精简的结构。
另外,实际应用中,教师模型和学生模型可以是独立的两个模型;或者,教师模型和学生模型也可以集成于一个图像分类模型中,在此基础上,采用半监督学习方式对该图像分类模型进行训练,即可得到最终的图像分类模型。
教师模型和学生模型均可以对无标签图像进行分类识别,得到相应的分类参考信息,也即,一个分类参考信息对应半监督目标检测架构中的一个模型。具体而言,教师模型可以对无标签图像进行分类识别,得到无标签图像对应于教师模型的分类参考信息;学生模型可以对无标签图像进行分类识别,得到无标签图像对应于学生模型的分类参考信息。
无标签图像对应于教师模型的分类参考信息和无标签图像对应于学生模型的分类参考信息,均包括识别到的无标签图像包含的N(N为正整数)个检测对象和N个检测对象中每个检测对象属于多个类别中每个类别的概率。其中,一个检测对象是指无标签图像中呈现的一部分内容,每个检测对象属于某个类别的概率则表示无标签图像中呈现的某部分内容属于某个类别的概率。示例地,多个类别包括猫、狗、马以及骡子,无标签图像对应的分类参考信息包括无标签图像包含的N个检测对象和这N个检测对象中每个检测对象分别属于猫、狗、马以及骡子的概率。
为使半监督目标检测框架中的每个模型均能够对无标签图像进行充分理解和学习,以提高每个模型的表达能力,如图2所示,本申请实施例的无标签图像可以是对初始无标签图像进行数据增强处理之后得到的,也即在上述S102之前,本申请实施例提供的标签生成方法还可以包括:对初始无标签图像进行数据增强处理,从而为初始无标签图像增加扰动,得到包含扰动的无标签图像。
具体而言,对于初始无标签图像,可对初始无标签图像进行多种增强程度的数据增强处理,得到多个无标签图像,其中,一个无标签图像对应一种多种增强程度。
更为具体地,对初始无标签图像进行多种增强程度的数据增强处理,具体可以实现为:对初始无标签图像进行弱增强(Weakly-augmented)处理,得到第一类无标签图像,以及对初始无标签图像进行强增强图像(Strongly-augmented)处理,得到第二类无标签图像。也即,上述多个无标签图像包括第一类无标签图像和第二类无标签图像,第一类无标签图像对应的增强程度小于第二类无标签图像对应的增强程度。示例地,弱增强处理具体可以包括但不限于如下处理方式中的至少一种:平移、翻转等,强增强处理可以包括但不限于如下处理方式中的至少一种:遮挡、颜色变换、随机消除(Random Erase)等。
相应地,在上述S102中,可通过教师模型对第一类无标签图像进行分类识别,得到第一类无标签图像对应于教师模型的分类参考信息,以及通过学生模型对第二类无标签图像进行分类识别,得到第二类无标签图像对应于学生模型的分类参考信息。
可以理解的是,由于平移、翻转等增强处理的增强程度较小,也即向初始无标签图像引入的扰动较小,不至于使得到的第一类无标签图像失真,使得教师模型和学生模型均能够在得到准确分类识别结果的基础上学习到第一类无标签图像中的噪声,有利于提高教师模型和学生模型各自的学习效果;此外,考虑到仅用弱增强图像可能会导致教师模型和/或学生模型陷入过拟合状态而无法提取到第一类无标签图像的本质特征,而强增强处理引入的扰动较大,可能带来第二类无标签图像的失真,但仍然能够保留足以辨认类别的特征,通过对初始无标签图像分别进行弱增强处理和强增强处理后,由教师模型对第一类无标签图像进行分类识别,由学生模型对第二类无标签图像进行分类识别,有利于提教师模型和学生模型各自的学习效果,增强教师模型和学生模型各自的表达能力。
S104,基于教师模型对应的分类参考信息,确定每个类别在教师模型对应的检测对象数量,以及基于学生模型对应的分类参考信息,确定每个类别在学生模型对应的检测对象数量。
在一种可选的实现方式中,上述S104可以包括:针对教师模型,基于教师模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为每个对象对应于教师模型的预测类别,以及基于每个检测对象对应于教师模型的预测类别,确定多个类别中每个类别在教师模型对应的检测对象数量;针对学生模型,基于学生模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为每个对象对应于学生模型的预测类别,以及基于每个检测对象对应于学生模型的预测类别,确定多个类别中每个类别在学生模型对应的检测对象数量。
示例地,以多个类别包括猫、狗、马以及骡子为例,对于每个模型对应的分类参考信息而言,若该分类参考信息中的某个检测对象分别属于猫、狗、马以及骡子的概率依次为0.1、0.2、0.6、0.1,那么,可以确定该检测对象对应于该模型的预测类别为马。通过统计每个检测对象的预测类别,确定出每个类别下检测对象数量,比如检测对象的预测类别分别为马、马、狗、猫、狗,那么统计得出,马这一类别下的检测对象数量为2,狗这一类别下的检查对象数量为2,猫这一类别下的检测对象的数量为1。
实际应用中,识别到的无标签图像包含的检测对象为至少一个,在确定出每个检测对象对应于某个模型的预测类别之后,针对每个类别,通过统计属于该类别的检测对象,即可确定出每个类别在该模型对应的检测对象数量。示例地,每个类别在某个模型对应的检测对象数量可通过如下公式(1)确定:
其中,表示第k个类别在半监督目标检测架构中的第i个模型对应的检测对象数量,/>表示无标签图像,/>表示第i个模型检测到的无标签图像包含的检测对象集合,/> 表示检测对象集合中的第j个检测对象oj,/>是一个指数函数,其表示如果括号内的条件成立,则等于1,|·|表示基数。
进一步,为便于后续使用,如图2所示,针对半监督目标检测架构中的每个模型而言,每个类别在该模型对应的检测对象数量可以以字典的形式记录,其中,字典的键(key)为类别标识(比如类别号),字典的值(value)表示类别在该模型对应的检测对象数量,由此得到该模型对应的字典。示例地,第i个模型对应的字典如下所示:
其中,表示半监督目标检测架构中第i个模型对应的字典,k表示第k个类别的类别标识,1≤k≤z,/>表示第k个类别在第i个模型对应的检测对象数量,/>表示无标签图像。
值得说明的是,上述仅以一个无标签图像示意,上述字典仅为第i个模型对应于一个无标签图像的字典。实际训练过程中,使用的无标签图像的数量为多个。在此情况下,可以分别对每个无标签图像中属于同一类别的检测对象进行统计,得到每个类别在该模型对应的检测对象集合,进而可以得到该模型对应于无标签图像集合的字典,也即其中,表示第i个模型对应于无标签图像集合的字典,/>表示无标签图像集合,/>表示无标签图像集合中的第j个无标签图像,/>表示第i个模型对应于第j个无标签图像的字典。
本申请实施例在此示出了上述S104的一种具体实现方式。当然,应理解,上述S104也可以采用其他的方式实现,本申请实施例对此不作限定。
S106,基于每个类别分别在教师模型对应的检测对象数量以及每个类别在学生模型对应的检测对象数量,确定每个类别对应的概率阈值。
如图2所示,考虑到同一图像经不同的模型进行分类识别后,得到的识别结果理论上应当相同,进而同一类别在不同模型对应的检测对象数量应当相同。因此,每个类别在不同模型对应的检测对象数量之间的差异,可以直观、准确地反映出不同模型对每个类别的分类识别差异,进而可以评估出学生模型就每个类别向教师模型学习的学习状态(或者学习难度),从而可以基于每个类别的学习状态(或者学习难度),为每个类别设置相应的阈值概率,基于每个类别对应的概率阈值以及教师模型针对无标签图像得到的分类参考信息,为学生模型生成无标签图像对应的伪标签,可以避免困难类别的检测对象被大量过滤,有利于学生模型对不同类别的学习不平衡的问题,从而有利于提高具有半监督目标检测架构的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
基于此,在一种可选的实现方式中,上述106可以包括如下步骤:
S161,基于每个类别在教师模型对应的检测对象数量以及每个类别在学生模型对应的检测对象数量,确定目标类别对应的学习率。
其中,针对每个类别而言,该类别对应的学习率是指学生模型针对该类别向教师模型进行学习的学习状态,若该类别对应的学习率越高,则表示学生模型针对该类别向教师模型进行学习的学习状态越好,进而可以确定出该类别越容易被识别;若该类别对应的学习率越低,则表示学生模型针对该类别向教师模型进行学习的状态越好,进而可以确定出该类别越不容易被识别。
可选地,可针对每个类别,将该类别在学生模型对应的检测对象数量与该类别在教师模型对应的检测对象数量之间的比值,确定为该类别对应的学习率。
换句话说,每个类别对应的学习率可以通过如下公式(2)确定:
其中,表示第i个类别对应的学习率,/>表示第i个类别在教师模型对应的检测对象数量,/>表示第i个类别在学生模型对应的检测对象数量,z表示类别总数。
可选地,为了使每个类别对应的学习率能够准确反映学生模型向教师模型进行学习的学习状态,每个类别对应的学习率可基于每个类别对应的检测对象数量占比之间的比值确定。
示例地,每个类别对应的学习率可以通过如下方式确定:针对每个类别,基于该类别在教师模型对应的检测对象数量与检测对象第一总数量之间的比值,确定该类别的第一检测对象占比,其中,检测对象第一总数量为多个类别分别在教师模型对应的检测对象数量之和;基于该类别在学生模型对应的检测对象数量与检测对象第二总数量之间的比值,确定该类别的第二检测对象占比,其中,检测对象第二总数量为多个类别分别在学生模型对应的检测对象数量之和;进一步,基于第一检测对象占比与第二检测对象占比之间的比值,确定该类别对应的学习率。
换句话说,每个类别对应的学习率可以通过如下公式(3)至公式(5)确定:
其中,表示第i个类别对应的学习率,/>表示第i个类别在教师模型对应的检测对象占比,/>表示第i个类别在学生模型对应的检测对象占比,/>表示第i个类别对应于教师模型的检测对象数量,/>表示第g个类别对应于教师模型的检测对象数量,/>表示教师模型对应的检测对象总数量,/>表示第i个类别对应于学生模型的检测对象数量,/>表示第g个类别对应于学生模型的检测对象数据,表示学生模型对应的检测对象总数量,z表示类别总数。
可选地,考虑到分类参考信息中通常包含被识别为背景类别的检测对象,而实际应用中,通常只考虑对非背景类别的检测对象的分类识别,基于此,在上述S106之前,本申请实施例提供的标签生成方法还可以包括:剔除多个类别中属于图像背景的类别。然后,通过上述任一种方式确定每个类别对应的学习率。
示例地,每个类别对应的学习率可以通过如下公式(6)至公式(8)确定:
其中,表示第i个类别对应的学习率,/>表示第i个类别在教师模型对应的检测对象占比,/>表示第i个类别在学生模型对应的检测对象占比,/>表示第g个类别对应于教师模型的检测对象数量,/>表示教师模型对应的检测对象总数量,h表示图像背景,/>表示属于图像背景的类别在教师模型对应的检测对象数量,/>表示第i个类别对应于学生模型的检测对象数量,/>表示第g个类别对应于学生模型的检测对象数据,/>表示学生模型对应的检测对象总数量,/>表示属于图像背景的类别在学生模型对应的检测对象数量,z表示类别总数。
S162,基于目标类别对应的学习率,确定目标类别对应的概率阈值。
可选地,可以基于每个类别对应的学习率,查询学习率与概率阈值之间的预设对应关系,得到相应的概率阈值,作为每个类别对应的概率阈值。其中,该预设对应关系可以根据实际需要进行设置,本申请实施例对此不作限定。
可选地,为避免基于概率阈值生成的伪标签将更多属于不容易识别的类别的检测对象过滤掉而导致学生模型对不同类别的学习失衡,上述S162具体可实现为,确定上述多个类别对应的学习率中的最大学习率,并基于每个类别对应的学习率与最大学习率之间的比值,确定每个类别对应的权重系数;进一步,基于每个类别对应的权重系数与预设概率上限值之间的乘积,确定每个类别对应的概率阈值。
值得说明的是,在实际的针对半监督目标检测架构的图像分类模型的训练过程中,随着模型参数的不断调整,同一无标签图像在每轮迭代(即每次调整)过程中经图像分类模型进行分类识别后所得的分类参考信息有所差异,进而每轮迭代过程中所得到的多个类别分别对应的学习率均不同,为此,可在每轮迭代过程中,基于该轮迭代过程中所得的分类参考信息,确定该轮迭代过程中多个类别分别对应的学习率以及其中的最大学习率,进而得到该轮迭代过程中各个类别对应的概率阈值,以便生成该轮迭代过程中无标签图像对应的伪标签。
示例地,每个类别对应的概率阈值可通过如下公式(9)和公式(10)确定:
其中,表示第k个类别在第e轮迭代过程中对应的权重系数,/>表示第k个类别在第e轮迭代过程中对应的学习率,/>表示第e轮迭代过程中多个类别对应的学习率中的最大学习率,/>z表示类别总数,T为用于调整权重系数的超参数,/>表示第k个类别在第e轮迭代过程中对应的概率阈值,τ表示预设概率上限值。实际应用中,预设概率阈值可以根据实际需要进行设置,本申请实施例对此不作限定。
可以理解的是,的值越小,表明与教师模型相比,学生模型识别到的属于第k类别的检测对象越少,因而属于这个类别的检测对象容易处于学习不佳的状态,甚至大量属于这个类别的检测对象在伪标签生成中可能会被忽略,通过上述方式确定概率阈值,可以为该类别自动分配一个较小的概率阈值,进而生成的伪标签有利于学生模型提取更多可用的无标签图像;相反,/>的值越大,表明学生模型比教师模型识别到更多属于第k个类别的检测对象,因而属于这个类别的检测对象在学生模型当前的学习状态下很容易被分类识别,甚至倾向于出现确认偏差,通过上述方式确定概率阈值,可以为该类别自动分配一个较大的概率阈值,进而生成的伪标签有利于学生模型有选择性地提取高质量的无标签图像。由此可见,通过上述确定概率阈值,使得生成的伪标签有利于缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测架构的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
本申请实施例在此示出了上述S106的一种具体实现方式。当然,应理解,上述S106也可以采用其他的方式实现,本申请实施例对此不作限定。
S108,基于教师模型对应的分类参考信息和每个类别的概率阈值,为学生模型生成无标签图像对应的伪标签。
由于无标签图像本身不具有对应的类别标签,基于教师模型针对无标签图像得到的分类参考信息和每个类别对应的概率阈值,为学生模型生成无标签图像对应的伪标签,相当于为无标签图像打上人工标签,从而为学生模型的无监督学习任务提供指导。
实际应用中,无标签图像对应的伪标签可用于指示无标签图像所属的预测类别。当然,无标签图像对应的伪标签还可用于指示无标签图像中的检测对象以及检测对象所属的预测类别。比如,在人脸分类识别场景下,检测对象可以为无标签图像中的人脸,检测对象所属的预测类别则为人脸所属的预测类别。
在一种可选的实现方式中,上述S108可以包括:基于教师模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为每个对象对应于教师模型的预测类别;若每个对象对应于教师模型的预测类别对应的概率大于预测类别对应的概率阈值,则基于每个对象对应于教师模型的预测类别,为学生模型生成无标签图像对应的伪标签。
示例地,可通过如下公式(11)为学生模型生成无标签图像对应的伪标签:
其中,为学生模型生成无标签图像/>对应的伪标签,ONE_HOT表示独热编码,q1表示教师模型,/>表示教师模型针对无标签图像/>输出的分类参考信息,表示该分类参考信息中的最大概率,/>表示检测对象对应于教师模型的预测类别,/>表示预测类别在第e轮迭代过程中对应的概率阈值。
可以理解的是,通过在每个检测对象对应于教师模型的预测类别对应的概率大于该预测类别对应的概率阈值时,才基于该预测类别为学生模型生成无标签图像对应的伪标签,可以极大程度降低引入在伪标签中引入噪声或错误的可能性,从而确保学生模型在得到准确分类识别结果的基础上学习到无标签图像中的噪声,有利于提高学生模型的学习效果。
本申请实施例在此示出了上述S108的一种具体实现方式。当然,应理解,上述S108也可以采用其他的方式实现,本申请实施例对此不作限定。
本申请实施例提供的标签生成方法,针对包括教师模型和学生模型的半监督目标检测框架,基于教师模型和学生模型各自对同一无标签图像进行分类识别所得的分类参考信息,统计各个模型各自对应于同一类别的检测对象数量,可以评估出教师模型和学生模型分别对同一类别的学习状态(或者学习难度),从而确定出适应于各个类别的概率阈值;进一步,利用教师模型对应的分类参考信息和每个类别的概率阈值,为学生模型生成无标签图像对应的伪标签,可以避免困难类别的检测对象被大量过滤,缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
基于本申请上述实施例所示的标签生成方法,为无标签图像生成的伪标签可应用于供具有半监督目标检测架构的图像分类模型进行半监督学习,得到能够用于准确对待处理图像进行分类识别的图像分类模型。下面对图像分类模型的训练过程进行详细说明。
请参考图3,为本申请的一个实施例提供的一种图像分类模型的训练方法的流程示意图,该方法用于训练具有半监督目标检测架构的图像分类模型,该图像分类模型包括教师模型和学生模型,该方法可以包括如下步骤:
S302,获取用于训练所述图像分类模型的图像集合,以及获取图像集合中的有标签图像对应的类别标签和无标签图像对应的伪标签。
其中,图像集合包括有标签图像和无标签图像,无标签图像对应的伪标签为基于本申请实施例所述的标签生成方法生成的。
S304,通过图像分类模型中的学生模型,分别对有标签图像和无标签图像进行分类识别,得到有标签图像对应的目标分类参考信息和无标签图像对应的分类参考信息。
具体而言,学生模型可以对图像集合中的每个图像进行目标检测,识别检测对象的候选边界框,然后利用非极大抑制(Non-maximum Suppression,NMS)消除冗余的候选边界框,以确定每个图像包含的检测对象,进而基于每个图像包含的检测对象的图像特征,对每个图像包含的检测对象进行分类识别,得到每个图像包含的检测对象的分类参考信息。
S306,基于有标签图像对应的目标分类参考信息、有标签图像对应的类别标签、无标签图像对应的目标分类参考信息以及无标签图像对应的伪标签,调整图像分类模型的模型参数。
图像分类模型的模型参数可以包括教师模型的模型参数和学生模型的模型参数。对于各个模型而言,以神经网络为例,其模型参数可以包括但不限于该模型中各网络层的神经元数量、不同网络层中的神经元之间的连接关系以及连接边权重、各网络层中的神经元对应的偏置等。
具体而言,如图4所示,通过由教师模型为学生模型生成无标签图像对应的无标签,使得学生模型能够在教师网络的指导下,基于图像集合中的每个图像的分类参考信息、图像集合中的每个有标签图像对应的类别标签以及每个无标签图像对应的伪标签,进行半监督学习任务,也即包括基于有标签图像及其对应的类别标签的有监督学习任务以及基于无标签图像的无监督学习任务。
考虑到每种学习任务均可能产生一定的分类损失,基于此,为提高图像分类模型的训练效果,在一种可选的实现方式中,上述S306可以包括如下步骤:
S341,基于有标签图像对应的类别标签和有标签图像对应的目标分类参考信息,确定学生模型的有监督损失。
其中,学生模型的有监督损失用于表示学生模型进行有监督学习任务所产生的分类损失。
具体而言,可基于有标签图像对应的类别标签、有标签图像对应的目标分类参考信息以及第一预设损失函数,确定学生模型的有监督损失。实际应用中,第一预设损失函数可以根据实际需要进行设置,例如包括但不限于交叉熵损失函数、分类损失函数、边界框回归损失函数中的至少一种。
示例地,学生模型的有监督损失可通过如下公式(12)确定:
表示学生模型的有监督损失,Nl表示图像集合中有标签图像的数量,/>表示图像集合中第l个有标签图像,/>表示有标签图像/>对应的类别标签,/>表示分类损失函数,/>表示边界框回归损失函数。
S342,基于无标签图像对应的伪标签和无标签图像对应的目标分类参考信息,确定学生模型的无监督损失。
其中,学生模型的无监督损失用于表示学生模型进行无监督学习任务所产生的分类损失。
具体而言,可基于无标签图像对应的伪标签、无标签图像对应的目标分类参考信息以及第二预设损失函数,确定学生模型的无监督损失。实际应用中,第二预设损失函数可以根据实际需要进行设置,例如包括但不限于交叉熵损失函数、分类损失函数、边界框回归损失函数中的至少一种。
示例地,学生模型的有监督损失可通过如下公式(13)确定:
其中,表示学生模型的无监督损失,Nu表示图像集合中无标签图像的数量,/>表示图像集合中的第b个无标签图像,/>表示无标签图像/>对应的伪标签。
S343,基于学生模型的有监督损失和学生模型的无监督损失,确定学生模型的分类损失。
示例地,如下述公式(14)确定学生模型的分类损失:
其中,表示学生模型的分类损失,/>表示学生模型的有监督损失,/>表示学生模型的无监督损失,λu表示无监督损失对应的损失权重。
可以理解的是,学生模型基于图像集合所进行都是半监督学习任务,其结合了基于有标签图像及其对应的类别标签的有监督学习以及基于无标签图像及其对应的伪标签的无监督学习,每种学习任务下都可能会产生一定的分类损失。为此,基于学生模型针对有标签图像输出的目标分类参考信息以及有标签图像对应的类别标签,确定学生模型的有监督损失,使得有监督损失能够准确反映出学生模型在进行有监督学习任务时产生的分类损失;利用无标签图像对应的伪标签以及无标签图像对应的目标分类参考信息,确定学生模型的无监督损失,使得无监督损失能够准确反映出学生模型在进行无监督学习任务时产生的分类损失。
S344,基于学生模型的分类损失,调整学生模型的模型参数。
具体而言,由于学生模型的分类损失能够反映学生模型对输入的图像进行分类识别所输出的目标分类参考信息与输入的图像对应的类别标签之间的差异,为得到高准确率的学生模型,可采用反向传播算法,基于学生模型的分类损失对学生模型的网络参数进行调整。
更为具体地,在采用反向传播算法调整学生模型的模型参数时,可基于学生模型的分类损失、学生模型当前的模型参数,采用反向传播算法确定学生模型的各网络层引起的分类损失;然后,以使学生模型的分类损失下降为目标,逐层调整学生模型中各网络层的相关参数。
本申请实施例在此示出了上述S344的一种具体实现方式。当然,应理解,上述S344也可以采用其它的方式实现,本申请实施例对此不作限制。
需要说明的是,上述过程仅为一次模型参数调整过程,实际应用中,可能需要对图像分类模型进行多次模型参数调整,因而可重复执行上述步骤S302至S304多次,直到满足预设训练停止条件,由此得到最终的学生模型。其中,预设训练停止条件可以是学生模型的分类损失小于预设损失阈值,或者,也可以是调整次数达到预设次数等,本申请实施例对此不作限定。
进一步,上述S304还可以包括:
S345,基于学生模型的模型参数和指数移动平均调整策略,调整教师模型的模型参数。
示例地,教师模型的模型参数可以包括教师模型的分类权重,学生模型的模型参数可以包括学生模型的分类权重,每个模型的分类权重用于在利用图像分类模型对待处理图像进行分类识别时,对各个模型得到的分类参考信息进行加权,以得到最终的分类识别结果。在此情况下,在调整学生模型的分类权重之和,可以将教师模型的分类权重调整为学生模型的分类权重的指数移动平均值(Exponential Moving Average,EMA)。
本申请实施例在此示出了上述S304的一种具体实现方式。当然,应理解,上述S304也可以采用其他的方式实现,本申请实施例对此不作限定。
本申请实施例提供的图像分类模型的训练方法,针对具有半监督目标检测框架的图像分类模型,通过图像分类模型中的学生模型,分别对图像集合中的有标签图像和无标签图像进行分类识别,得到有标签图像对应的分类参考信息和无标签图像对应的分类参考信息,然后利用本申请实施例提供的标签生成方法为学生模型生成的无标签图像对应的伪标签为学生模型的学习过程提供指导,基于图像集合中的每个图像对应的分类参考信息、图像集合中的有标签图像对应的类别标签以及无标签图像对应的伪标签,调整图像分类模型的模型参数,有利于缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
上述实施例介绍了图像分类模型的训练方法,通过上述训练方法,可训练针对不同应用场景的图像分类模型。针对不同的应用场景,训练图像分类模型所采用的图像集合及其中包含的每个图像的标签可根据应用场景进行选择。本申请实施例提供的上述训练方法所适用的应用场景可以例如包括但不限于目标检测、人脸表情分类、自然界动物分类、手写数字识别等场景。以自然界动物分类这一应用场景为例,有标签图像对应的类别标签用于标记有标签图像包含的检测对象以及检测对象所属的类别,比如猫、狗、马等,通过上述本申请实施例提供的训练方法训练得到的图像分类模型能够检测出待处理图像中的检测对象所在的区域,并识别出检测对象所属的类别。
基于本申请上述实施例所示的图像分类模型的训练方法,训练得到的图像分类模型可应用于任意需要对图像进行分类识别的场景。下面对基于图像分类模型的应用过程进行详细说明。
本申请实施例还提供一种图像分类模型的图像分类方法,能够基于上述训练方法训练出的图像分类模型,对待处理图像进行分类识别。请参考图5,为本申请的一个实施例提供的一种图像分类方法的流程示意图,该方法可以包括如下步骤:
S502,通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到目标模型对应的分类参考信息。
其中,图像分类模型为具有半监督检测框架的模型,其包括教师模型和学生模型。目标模型包括教师模型和/或学生模型。教师模型用于对待处理图像进行分类识别,得到待处理图像对应于教师模型的分类参考信息;学生模型用于对待处理图像进行分类识别,得到待处理图像对应于学生模型的分类参考信息。
S504,基于目标模型对应的分类参考信息,确定待处理图像包含的检测对象及该检测对象所属的类别。
可选地,可以基于待处理图像对应于教师模型和学生模型中的任一者的分类参考信息,确定待处理图像包含的检测对象及该检测对象所属的类别。例如,可将待处理图像对应于教师模型的分类参考信息中最大概率对应的类别,确定为待处理图像包含的检测对象所属的类别,或者,也可将待处理图像对应于学生模型的分类参考信息中最大概率对应的类别,确定为待处理图像包含的检测对象所属的类别。
可选地,还可综合待处理图像的上述多个分类参考信息,确定待处理图像包含的检测对象及该检测对象所属的类别。例如,若待处理图像对应于学生模型的分类参考信息(为便于描述,以下称为第一分类参考信息)中最大分类概率对应的类别与待处理图像对应于教师模型的分类参考信息(为便于描述,以下称为第二分类参考信息)中最大分类概率对应的类别一致,则可将该类别确定为待处理图像包含的检测对象所属的类别;又如,可基于待处理图像的第一分类参考信息中的第一目标类别集合与待处理图像的第二分类参考信息中的第二目标类别集合之间的交集,确定待处理图像包含的检测对象所属的类别,其中,第一目标类别集合包括第一分类参考信息中超过预设概率阈值的概率对应的类别,第二目标类别集合包括第二分类参考信息中超过预设概率阈值的概率对应的类别,等等。
本申请实施例提供的图像分类方法,针对具有半监督目标检测框架的图像分类模型,由于在图像分类模型的半监督学习过程中采用的无标签图像对应的伪标签是教师模型和学生模型分别对各个类别的学习状态(或者学习难度)动态评估得到的,有利于缓解学生模型对不同类别的学习不平衡的问题,进而得到训练出的图像分类模型具有较高的分类准确率;进一步,利用图像分类模型对待处理图像进行分类识别,有助于提高图像分类结果的准确性和可靠性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,与上述图1所示的标签生成方法相对应地,本申请实施例还提供一种标签生成装置。请参见图6,为本申请的一个实施例提供的一种标签生成装置600的结构示意图,所述标签生成装置应用于半监督目标检测架构中,所述半监督目标检测架构包括教师模型和学生模型,该装置600包括:
分类单元610,用于通过所述教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
确定单元620,用于基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
所述确定单元620,还用于基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
生成单元630,用于基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
可选地,所述确定单元620在基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值时,执行如下步骤:
基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的学习率;
基于每个类别的学习率,确定每个类别的概率阈值。
可选地,所述确定单元620在基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的学习率时,执行如下步骤:
基于每个类别在所述教师模型对应的检测对象数量与检测对象第一总数量之间的比值,确定每个类别的第一检测对象占比,所述检测对象第一总数量为所述多个类别中每个类别在所述教师模型对应的检测对象数量之和;
基于每个类别在所述学生模型对应的检测对象数量与检测对象第二总数量之间的比值,确定每个类别的第二检测对象占比,所述检测对象第二总数量为所述多个类别中每个类别在所述学生模型对应的检测对象数量之和;
基于每个类别的第一检测对象占比与每个类别的第二检测对象占比之间的比值,确定每个类别对应的学习率。
可选地,所述确定单元620在基于每个类别的学习率,确定每个类别的概率阈值时,执行如下步骤:
确定所述多个类别分别对应的学习率中的最大学习率;
基于每个类别的学习率与所述最大学习率之间的比值,确定每个类别对应的权重系数;
基于每个类别对应的权重系数与预设概率上限值之间的乘积,确定每个类别的概率阈值。
可选地,所述装置600还包括:
剔除单元640,用于在所述确定单元在基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量确定每个类别的概率阈值之前,剔除所述多个类别中属于图像背景的类别。
可选地,所述确定单元620在基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量时,执行如下步骤:
基于所述教师模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为所述每个检测对象对应于所述教师模型的预测类别,以及基于所述每个检测对象对应于所述教师模型的预测类别,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量;
基于所述学生模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为所述每个检测对象对应于所述学生模型的预测类别,以及基于所述每个检测对象对应于所述学生模型的预测类别,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量。
可选地,所述生成单元630在基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签时,执行如下步骤:
若所述每个检测对象对应于所述教师模型的预测类别对应的概率,大于所述预测类别对应的概率阈值,则基于所述每个检测对象对应于所述教师模型的预测类别,为所述学生模型生成所述无标签图像对应的伪标签。
显然,本申请实施例提供的标签生成装置能够作为图1所示的标签生成方法的执行主体,例如,图1所示的标签生成方法中步骤S102可由图6所示的标签生成装置中的分类单元执行,步骤S104和S106可由标签生成装置中的确定单元执行,步骤S108可由标签生成装置中的生成单元执行。
根据本申请的另一个实施例,图6所示的标签生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,标签生成装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的标签生成装置,以及来实现本申请实施例的标签生成方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的标签生成装置,针对包括教师模型和学生模型的半监督目标检测框架,基于教师模型和学生模型各自对同一无标签图像进行分类识别所得的分类参考信息,统计各个模型各自对应于同一类别的检测对象数量,可以评估出教师模型和学生模型分别对同一类别的学习状态(或者学习难度),从而确定出适应于各个类别的概率阈值;进一步,利用教师模型对应的分类参考信息和每个类别的概率阈值,为学生模型生成无标签图像对应的伪标签,可以避免困难类别的检测对象被大量过滤,缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
此外,与上述图3所示的图像分类模型的训练方法相对应地,本申请实施例还提供一种图像分类模型的训练装置。请参见图7,为本申请的一个实施例提供的一种图像分类模型的训练装置700的结构示意图,该装置700包括:
获取单元710,用于获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于第一方面所述的标签生成方法生成的;
分类单元720,用于通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
调整单元730,用于基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
可选地,所述图像分类模型的模型参数包括所述学生模型的模型参数;
所述调整单元730在基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数时,执行如下步骤:
基于所述有标签图像对应的类别标签和所述有标签图像对应的目标分类参考信息,确定所述学生模型的有监督损失;
基于所述无标签图像对应的伪标签和所述无标签图像对应的目标分类参考信息,确定所述学生模型的无监督损失;
基于所述有监督损失和所述无监督损失,确定所述学生模型的分类损失;
基于所述学生模型的分类损失,调整所述学生模型的模型参数。
可选地,所述图像分类模型的模型参数还包括所述学生模型的模型参数;
所述调整单元730还用于:基于所述学生模型的模型参数和指数移动平均调整策略,调整所述教师模型的模型参数。
显然,本申请实施例提供的图像分类模型的训练装置能够作为图3所示的图像分类模型的训练方法的执行主体,例如,图3所示的图像分类模型的训练方法中步骤S302可由图7所示的图像分类模型的训练装置中的获取单元710执行,步骤S304可由图像分类模型的训练装置中的分类单元720执行,步骤S306可由图像分类模型的训练装置中的调整单元730执行。
根据本申请的另一个实施例,图7所示的图像分类模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,图像分类模型的训练装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元、随机存取存储介质、只读存储介质等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图3所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的图像分类模型的训练装置,以及来实现本申请实施例的图像分类模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的图像分类模型的训练装置,针对具有半监督目标检测框架的图像分类模型,通过图像分类模型中的学生模型,分别对图像集合中的有标签图像和无标签图像进行分类识别,得到有标签图像对应的分类参考信息和无标签图像对应的分类参考信息,然后利用本申请实施例提供的标签生成方法为学生模型生成的无标签图像对应的伪标签为学生模型的学习过程提供指导,基于图像集合中的每个图像对应的分类参考信息、图像集合中的有标签图像对应的类别标签以及无标签图像对应的伪标签,调整图像分类模型的模型参数,有利于缓解学生模型对不同类别的学习不平衡的问题,从而提高具有半监督目标检测框架的图像分类模型的训练效果,使得图像分类模型具有较高的分类准确率。
此外,与上述图5所示的图像分类方法相对应地,本申请实施例还提供一种图像分类装置。请参见图8,为本申请的一个实施例提供的一种图像分类装置800的结构示意图,该装置800包括:
分类单元810,用于通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
确定单元820,用于基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中有标签图像的目标分类参考信息、无标签图像的目标分类参考信息、所述有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述有标签图像的目标分类参考信息或所述无标签图像的目标分类信息是通过所述图像分类模型中的学生模型对有标签图像或无标签图像进行分类识别得到的;所述无标签图像对应的伪标签是通过本申请实施例前述的标签生成方法确定的。
显然,本申请实施例提供的图像分类装置能够作为图5所示的图像分类方法的执行主体,例如,图5所示的图像分类方法中步骤S502可由图8所示的图像分类装置中的分类单元810执行,步骤S504可由图像分类装置中的确定单元820执行。
根据本申请的另一个实施例,图8所示的图像分类装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,图像分类装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元、随机存取存储介质、只读存储介质等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的图像分类装置,以及来实现本申请实施例的图像分类方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的图像分类装置,针对具有半监督目标检测框架的图像分类模型,由于在图像分类模型的半监督学习过程中采用的无标签图像对应的伪标签是教师模型和学生模型分别对各个类别的学习状态(或者学习难度)动态评估得到的,有利于缓解学生模型对不同类别的学习不平衡的问题,进而得到训练出的图像分类模型具有较高的分类准确率;进一步,利用图像分类模型对待处理图像进行分类识别,有助于提高图像分类结果的准确性和可靠性。
图9是本申请的一个实施例电子设备的结构示意图。请参考图9,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成标签生成装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
通过半监督目标检测框架中的教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述半监督目标检测框架中的学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成图像分类模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于本申请实施例所述的标签生成方法生成的,所述图像分类模型包括教师模型和学生模型;
通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成图像分类装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中有标签图像的目标分类参考信息、无标签图像的目标分类参考信息、所述有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述有标签图像的目标分类参考信息或所述无标签图像的目标分类信息是通过所述图像分类模型中的学生模型对有标签图像或无标签图像进行分类识别得到的;所述无标签图像对应的伪标签是通过本申请实施例中标签生成方法确定的。
上述如本申请图1所示实施例揭示的标签生成装置执行的方法、上述如本申请图3所示实施例揭示的图像分类模型的训练装置执行的方法以及上述如本申请图5所示实施例揭示的图像分类装置执行的方法中的至少一种可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现标签生成装置在图1、图2所示实施例的功能,或者,该电子设备还可执行图3的方法,并实现图像分类模型的训练装置在图3、图4所示实施例的功能,或者,该电子设备还可执行图5的方法,并实现图像分类装置在图5所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
通过半监督目标检测框架中的教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述半监督目标检测框架中的学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图3所示实施例的方法,并具体用于执行以下操作:
获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于本申请实施例所述的标签生成方法生成的,所述图像分类模型包括教师模型和学生模型;
通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图5所示实施例的方法,并具体用于执行以下操作:
通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中有标签图像的目标分类参考信息、无标签图像的目标分类参考信息、所述有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述有标签图像的目标分类参考信息或所述无标签图像的目标分类信息是通过所述图像分类模型中的学生模型对有标签图像或无标签图像进行分类识别得到的;所述无标签图像对应的伪标签是通过本申请实施例前述的标签生成方法确定的。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (16)
1.一种标签生成方法,其特征在于,所述标签生成方法应用于半监督目标检测架构中,所述半监督目标检测架构包括教师模型和学生模型,所述标签生成方法包括:
通过所述教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
2.根据权利要求1所述的方法,其特征在于,所述基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值,包括:
基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的学习率;
基于每个类别的学习率,确定每个类别的概率阈值。
3.根据权利要求2所述的方法,其特征在于,所述基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的学习率,包括:
基于每个类别在所述教师模型对应的检测对象数量与检测对象第一总数量之间的比值,确定每个类别的第一检测对象占比,所述检测对象第一总数量为所述多个类别中每个类别在所述教师模型对应的检测对象数量之和;
基于每个类别在所述学生模型对应的检测对象数量与检测对象第二总数量之间的比值,确定每个类别的第二检测对象占比,所述检测对象第二总数量为所述多个类别中每个类别在所述学生模型对应的检测对象数量之和;
基于每个类别的第一检测对象占比与每个类别的第二检测对象占比之间的比值,确定每个类别对应的学习率。
4.根据权利要求2所述的方法,其特征在于,所述基于每个类别的学习率,确定每个类别的概率阈值,包括:
确定所述多个类别分别对应的学习率中的最大学习率;
基于每个类别的学习率与所述最大学习率之间的比值,确定每个类别对应的权重系数;
基于每个类别对应的权重系数与预设概率上限值之间的乘积,确定每个类别的概率阈值。
5.根据权利要求2所述的方法,其特征在于,在基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值之前,所述方法还包括:
剔除所述多个类别中属于图像背景的类别。
6.根据权利要求1所述的方法,其特征在于,所述基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量,包括:
基于所述教师模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为所述每个检测对象对应于所述教师模型的预测类别,以及基于所述每个检测对象对应于所述教师模型的预测类别,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量;
基于所述学生模型对应的分类参考信息,从每个检测对象属于每个类别的概率中选取最大概率对应的类别,确定为所述每个检测对象对应于所述学生模型的预测类别,以及基于所述每个检测对象对应于所述学生模型的预测类别,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量。
7.根据权利要求1所述的方法,其特征在于,所述基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签,包括:
基于所述教师模型对应的分类参考信息,从每个检测对象属于多个类别的每个类别的概率中选取最大概率对应的类别,确定为所述每个检测对象对应于所述教师模型的预测类别;
若所述每个检测对象对应于所述教师模型的预测类别对应的概率,大于所述预测类别对应的概率阈值,则基于所述每个检测对象对应于所述教师模型的预测类别,为所述学生模型生成所述无标签图像对应的伪标签。
8.一种图像分类模型的训练方法,其特征在于,所述训练方法用于训练具有半监督目标检测架构的图像分类模型,所述图像分类模型包括教师模型和学生模型,所述训练方法包括:
获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于权利要求1至7中任一项所述的标签生成方法生成的;
通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
9.根据权利要求8所述的方法,其特征在于,所述图像分类模型的模型参数包括所述学生模型的模型参数;
所述基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数,包括:
基于所述有标签图像对应的类别标签和所述有标签图像对应的目标分类参考信息,确定所述学生模型的有监督损失;
基于所述无标签图像对应的伪标签和所述无标签图像对应的目标分类参考信息,确定所述学生模型的无监督损失;
基于所述有监督损失和所述无监督损失,确定所述学生模型的分类损失;
基于所述学生模型的分类损失,调整所述学生模型的模型参数。
10.根据权利要求9所述的方法,其特征在于,所述图像分类模型的模型参数还包括所述学生模型的模型参数;所述方法还包括:
基于所述学生模型的模型参数和指数移动平均调整策略,调整所述教师模型的模型参数。
11.一种图像分类方法,其特征在于,包括:
通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中有标签图像的目标分类参考信息、无标签图像的目标分类参考信息、所述有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述有标签图像的目标分类参考信息或所述无标签图像的目标分类信息是通过所述图像分类模型中的学生模型对有标签图像或无标签图像进行分类识别得到的;所述无标签图像对应的伪标签是通过权利要求1至7中任一项所述的方法确定的。
12.一种标签生成装置,其特征在于,所述标签生成装置应用于半监督目标检测架构中,所述半监督目标检测架构包括教师模型和学生模型,所述标签生成装置包括:
分类单元,用于通过所述教师模型对无标签图像进行分类识别,得到所述教师模型对应的分类参考信息,以及通过所述学生模型对所述无标签图像进行分类识别,得到所述学生模型对应的分类参考信息;所述教师模型对应的分类参考信息和所述学生模型对应的分类参考信息中均包括识别到的所述无标签图像所包含的N个检测对象以及所述N个检测对象中每个检测对象属于多个类别中每个类别的概率;N为正整数;
确定单元,用于基于所述教师模型对应的分类参考信息,确定所述多个类别中每个类别在所述教师模型对应的检测对象数量,以及基于所述学生模型对应的分类参考信息,确定所述多个类别中每个类别在所述学生模型对应的检测对象数量;
所述确定单元,还用于基于每个类别在所述教师模型对应的检测对象数量以及每个类别在所述学生模型对应的检测对象数量,确定每个类别的概率阈值;
生成单元,用于基于所述教师模型对应的分类参考信息和每个类别的概率阈值,为所述学生模型生成所述无标签图像对应的伪标签。
13.一种图像分类模型的训练装置,其特征在于,所述训练装置用于训练具有半监督目标检测架构的图像分类模型,所述图像分类模型包括教师模型和学生模型,所述训练装置包括:
获取单元,用于获取用于训练所述图像分类模型的图像集合,所述图像集合包括有标签图像和无标签图像,以及获取所述有标签图像对应的类别标签和所述无标签图像对应的伪标签,所述无标签图像对应的伪标签为基于权利要求1至7中任一项所述的标签生成方法生成的;
分类单元,用于通过所述学生模型,分别对所述有标签图像和所述无标签图像进行分类识别,得到所述有标签图像对应的目标分类参考信息和所述无标签图像对应的目标分类参考信息;
调整单元,用于基于所述有标签图像对应的目标分类参考信息、所述有标签图像对应的类别标签、所述无标签图像对应的目标分类参考信息以及所述无标签图像对应的伪标签,调整所述图像分类模型的模型参数。
14.一种图像分类装置,其特征在于,包括:
分类单元,用于通过图像分类模型中的目标模型,对待处理图像进行分类识别,得到所述目标模型对应的分类参考信息;
确定单元,用于基于所述目标模型对应的分类参考信息,确定所述待处理图像包含的检测对象及所述检测对象所属的类别;
其中,其中,所述图像分类模型为具有半监督目标检测框架的模型,所述图像分类模型包括教师模型和学生模型,所述目标模型包括所述教师模型和/或所述学生模型;
所述图像分类模型为基于图像集合中有标签图像的目标分类参考信息、无标签图像的目标分类参考信息、所述有标签图像对应的类别标签以及无标签图像对应的伪标签训练得到的;所述有标签图像的目标分类参考信息或所述无标签图像的目标分类信息是通过所述图像分类模型中的学生模型对有标签图像或无标签图像进行分类识别得到的;所述无标签图像对应的伪标签是通过权利要求1至7中任一项所述的方法确定的。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的方法;或者,所述处理器被配置为执行所述指令,以实现如权利要求8-10任一项所述的方法;或者,所述处理器被配置为执行所述指令,以实现如权利要求11所述的方法。
16.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备执行如权利要求1至7中任一项所述的方法;或者,使得电子设备执行如权利要求8至10中任一项所述的方法;或者,使得电子设备执行如权利要求11所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210857077.5A CN117523218A (zh) | 2022-07-20 | 2022-07-20 | 标签生成、图像分类模型的训练、图像分类方法及装置 |
PCT/CN2023/102477 WO2024016949A1 (zh) | 2022-07-20 | 2023-06-26 | 标签生成、图像分类模型的方法、图像分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210857077.5A CN117523218A (zh) | 2022-07-20 | 2022-07-20 | 标签生成、图像分类模型的训练、图像分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117523218A true CN117523218A (zh) | 2024-02-06 |
Family
ID=89616990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210857077.5A Pending CN117523218A (zh) | 2022-07-20 | 2022-07-20 | 标签生成、图像分类模型的训练、图像分类方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117523218A (zh) |
WO (1) | WO2024016949A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726884B (zh) * | 2024-02-09 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 对象类别识别模型的训练方法、对象类别识别方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033603B (zh) * | 2021-02-05 | 2022-11-15 | 浙江大学 | 一种基于元学习的弱监督图像多标签分类方法 |
CN114067444A (zh) * | 2021-10-12 | 2022-02-18 | 中新国际联合研究院 | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 |
CN114663726A (zh) * | 2022-03-23 | 2022-06-24 | 苏州科达科技股份有限公司 | 目标类别检测模型的训练方法、目标检测方法及电子设备 |
CN114445670B (zh) * | 2022-04-11 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置、设备及存储介质 |
-
2022
- 2022-07-20 CN CN202210857077.5A patent/CN117523218A/zh active Pending
-
2023
- 2023-06-26 WO PCT/CN2023/102477 patent/WO2024016949A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2024016949A1 (zh) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
CN111914085A (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
CN112149754B (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN117409419A (zh) | 图像检测方法、设备及存储介质 | |
CN112765403A (zh) | 一种视频分类方法、装置、电子设备及存储介质 | |
WO2024016949A1 (zh) | 标签生成、图像分类模型的方法、图像分类方法及装置 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN113902944A (zh) | 模型的训练及场景识别方法、装置、设备及介质 | |
CN116662555B (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN117313141A (zh) | 一种异常检测方法、装置、设备及可读存储介质 | |
CN110059743B (zh) | 确定预测的可靠性度量的方法、设备和存储介质 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 | |
CN113344079B (zh) | 一种图像标签半自动标注方法、系统、终端及介质 | |
CN115510231A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN115205573A (zh) | 图像处理方法、装置及设备 | |
CN110751197A (zh) | 图片分类方法、图片模型训练方法及设备 | |
CN111091198A (zh) | 一种数据处理方法及装置 | |
WO2024016945A1 (zh) | 图像分类模型的训练方法、图像分类方法及相关设备 | |
CN117953264A (zh) | 目标检测模型的训练方法、目标检测方法及相关设备 | |
CN113837863B (zh) | 一种业务预测模型创建方法、装置及计算机可读存储介质 | |
CN116912920B (zh) | 表情识别方法及装置 | |
CN113033212B (zh) | 文本数据处理方法及装置 | |
CN117197592B (zh) | 一种目标检测模型训练方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |