CN116258861B - 基于多标签学习的半监督语义分割方法以及分割装置 - Google Patents
基于多标签学习的半监督语义分割方法以及分割装置 Download PDFInfo
- Publication number
- CN116258861B CN116258861B CN202310267788.1A CN202310267788A CN116258861B CN 116258861 B CN116258861 B CN 116258861B CN 202310267788 A CN202310267788 A CN 202310267788A CN 116258861 B CN116258861 B CN 116258861B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- loss function
- pseudo
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 124
- 238000003709 image segmentation Methods 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000013441 quality evaluation Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 95
- 230000000694 effects Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 239000003550 marker Substances 0.000 claims description 9
- 238000012804 iterative process Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多标签学习的半监督语义分割方法以及分割装置,涉及图像分割技术领域,包括:基于预设标记数据集对学生模型训练,生成训练后模型,基于训练后模型对教师模型更新,生成更新后教师模型;基于更新后教师模型对未标记数据集进行分析,生成伪标签;对伪标签进行动态质量评估操作,基于评估结果对伪标签分类,获得优质伪标签和非优质伪标签;基于优质伪标签对训练后模型执行半监督学习训练,基于非优质伪标签对训练后模型执行多标签学习训练,基于训练结果对训练后模型进行参数更新,生成更新后学生模型;基于更新后学生模型对更新后教师模型进行更新操作,生成图像分割模型;基于图像分割模型执行图像分割操作,生成图像分割结果。
Description
技术领域
本发明涉及图像分割技术领域,具体地涉及一种基于多标签学习的半监督语义分割方法以及一种基于多标签学习的半监督语义分割装置。
背景技术
随着摄像头在生活中的不断普及,人们将图像识别技术越来越多的应用到生活中的各个方面,随着应用场景的不断增多,其干扰因素越来越多且复杂,因此传统图像识别技术越来越无法满足实际需求。
为了解决该技术问题,技术人员提出图像分割技术以提高图像识别精确性,图像语义分割的目的是将每一个像素标记为一种类别,在计算机视觉领域具有重要地位。近年来,随着深度学习技术和硬件计算能力的发展,基于大量的数据集,神经网络可以自主学习图像特征,实现端到端,像素到像素的语义分割方法。
然而在实际应用过程中,一方面,采用全监督学习模型训练一个好的分割网络需要大量的数据,其中的标注需要耗费大量的时间和人力,导致工作量的急剧增加,大大增加了标注难度,提高了标注成本;另一方面,传统的伪标签生成技术,由于需要在类别预测概率超过一定阈值时,才能将对应的数据作为伪标签使用,因此大大降低了数据的利用率,无法满足对不同场景下具有不同特征的真实数据的利用,降低了最终识别的精确性。
发明内容
为了克服现有技术中存在的上述技术问题,本发明实施例提供一种基于多标签学习的半监督语义分割方法以及分割装置,通过在传统分割方法的基础上,以动态阈值的方式调整高质量标签量,同时采用半监督学习+多标签学习相结合的方式进行图像分割,从而有效提高分割精确性。
为了实现上述目的,本发明实施例提供一种基于多标签学习的半监督语义分割方法,所述方法包括:基于预设标记数据集对学生模型进行训练,生成训练后模型,基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型;基于所述更新后教师模型对未标记数据集进行分析,生成对应的伪标签;对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签;基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,基于训练结果对所述训练后模型进行参数更新,生成更新后学生模型;基于所述更新后学生模型对所述更新后教师模型进行更新操作,生成图像分割模型;基于所述图像分割模型执行图像分割操作,生成对应的图像分割结果。
优选地,所述方法还包括:在对所述学生模型进行训练之前,对所述预设标记数据集进行弱增强处理,获得第一增强后数据集;基于所述第一增强后数据集对所述学生模型进行训练,获得对应的模型参数和交叉熵损失函数lce;基于所述交叉熵损失函数lce和所述模型参数生成识别损失函数,所述识别损失函数表征为:其中,所述预设标记数据集表征为Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率;基于所述识别损失函数对所述学生模型进行训练,生成训练后模型;所述基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型,包括:基于所述模型参数和预设权重滑动平均规则对所述教师模型进行更新操作,生成更新后教师模型。
优选地,所述对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签,包括:基于所述训练后模型确定不同标签类别的动态阈值;基于所述动态阈值对所述伪标签进行分类操作,将大于所述动态阈值的伪标签确定为优质伪标签,将不大于所述动态阈值的伪标签确定为非优质伪标签。
优选地,所述基于所述训练后模型确定不同标签类别的动态阈值,包括:基于所述训练后模型确定针对不同标签类别的学习效果,所述学习效果表征为:基于所述学习效果确定不同标签类别的动态阈值,所述动态阈值表征为:/>其中N表征为迭代过程中所有标记样本的数量,τ表征为预设固定阈值。
优选地,所述基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,包括:对所述未标记数据集进行强增强处理,获得第二增强后数据集;基于所述动态阈值和所述第二增强后数据集确定所述未标记数据集的损失函数,所述损失函数包括分类损失函数和风险一致性多标签学习损失函数,其中:所述分类损失函数表征为:其中所述未标记数据集表征为/> 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,/>表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度;所述风险一致性多标签学习损失函数表征为:
其中,表征为由不大于所述动态阈值部分的伪标签形成的掩膜矩阵;基于所述优质标签和所述分类损失函数对所述训练后模型执行所述半监督学习训练,生成第一训练结果,以及基于所述非优质标签和所述风险一致性多标签学习损失函数对所述训练后模型执行所述多标签学习训练,生成第二训练结果;基于所述第一训练结果和所述第二训练结果生成对所述训练后模型的训练结果。
相应的,本发明还提供一种基于多标签学习的半监督语义分割装置,所述装置包括:模型训练单元,用于基于预设标记数据集对学生模型进行训练,生成训练后模型,基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型;伪标签生成单元,用于基于所述更新后教师模型对未标记数据集进行分析,生成对应的伪标签;动态分类单元,用于对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签;模型更新单元,用于基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,基于训练结果对所述训练后模型进行参数更新,生成更新后学生模型;模型生成单元,用于基于所述更新后学生模型对所述更新后教师模型进行更新操作,生成图像分割模型;分割单元,用于基于所述图像分割模型执行图像分割操作,生成对应的图像分割结果。
优选地,所述装置还包括预处理单元,所述预处理单元用于:在对所述学生模型进行训练之前,对所述预设标记数据集进行弱增强处理,获得第一增强后数据集;所述基于预设标记数据集对学生模型进行训练,生成训练后模型,包括:基于所述第一增强后数据集对所述学生模型进行训练,获得对应的模型参数和交叉熵损失函数lce;基于所述交叉熵损失函数lce和所述模型参数生成识别损失函数,所述识别损失函数表征为:其中,所述预设标记数据集表征为Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率;基于所述识别损失函数对所述学生模型进行训练,生成训练后模型;所述基预处理单元还用于:基于所述模型参数和预设权重滑动平均规则对所述教师模型进行更新操作,生成更新后教师模型。
优选地,所述动态分类单元包括:动态阈值确定模块,用于基于所述训练后模型确定不同标签类别的动态阈值;分类模块,用于基于所述动态阈值对所述伪标签进行分类操作,将大于所述动态阈值的伪标签确定为优质伪标签,将不大于所述动态阈值的伪标签确定为非优质伪标签。
优选地,所述动态阈值确定模块具体用于:基于所述训练后模型确定针对不同标签类别的学习效果,所述学习效果表征为:基于所述学习效果确定不同标签类别的动态阈值,所述动态阈值表征为:/>其中N表征为迭代过程中所有标记样本的数量,σ表征为预设固定阈值。
优选地,所述模型更新单元包括:数据预处理模块,用于对所述未标记数据集进行强增强处理,获得第二增强后数据集;损失函数计算模块,用于基于所述动态阈值和所述第二增强后数据集确定所述未标记数据集的损失函数,所述损失函数包括分类损失函数和风险一致性多标签学习损失函数,其中:所述分类损失函数表征为:其中所述未标记数据集表征为/> 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,/>表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度;所述风险一致性多标签学习损失函数表征为:其中,/>表征为由不大于所述动态阈值部分的伪标签形成的掩膜矩阵;模型更新模块,用于基于所述优质标签和所述分类损失函数对所述训练后模型执行所述半监督学习训练,生成第一训练结果,以及基于所述非优质标签和所述风险一致性多标签学习损失函数对所述训练后模型执行所述多标签学习训练,生成第二训练结果;训练结果确认模块,基于所述第一训练结果和所述第二训练结果生成对所述训练后模型的训练结果。
通过本发明提供的技术方案,本发明至少具有如下技术效果:
通过采用动态阈值的方式确定高质量的伪标签数量,而不是以固定的方式确定伪标签,从而满足了在不同应用场景下对高质量伪标签的需求,有效提高了数据利用率,降低了数据不平衡现象;在此基础上,采用半监督学习方式对高质量伪标签进行学习,采用多标签学习方式对非高质量伪标签进行学习,从而实现了兼顾更好的学习效果以及更低的性能消耗的结果,大大提高了图像分割精确性和分割效率,满足了实际需求。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的基于多标签学习的半监督语义分割方法的具体实现流程图;
图2是本发明实施例提供的对伪标签进行分类操作的具体实现流程图;
图3是本发明实施例提供的图像分割效果示意图;
图4是本发明实施例提供的基于多标签学习的半监督语义分割装置的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。另外,需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
请参见图1,本发明实施例提供一种基于多标签学习的半监督语义分割方法,所述方法包括:
S10)基于预设标记数据集对学生模型进行训练,生成训练后模型,基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型;
S20)基于所述更新后教师模型对未标记数据集进行分析,生成对应的伪标签;
S30)对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签;
S40)基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,基于训练结果对所述训练后模型进行参数更新,生成更新后学生模型;
S50)基于所述更新后学生模型对所述更新后教师模型进行更新操作,生成图像分割模型;
S60)基于所述图像分割模型执行图像分割操作,生成对应的图像分割结果。
在一种可能的实施方式中,首先获取数据集,例如该数据集可以为需要进行图像识别处理的一批数据集,为了对该批次数据集进行更好的半监督学习识别,对该批次数据集进行少量标记,以获得少量标记的数据集和其他多量的未标记数据集。
首先基于预设标记数据集对学生模型进行训练,并生成训练后模型。然而在实际应用过程中,由于仅进行了少量的数据标记,其数据量较少,数据多样性不足,因此直接将标记数据集输入学生模型将使得训练效果不足,因此为了提高对学生模型的训练效果,可以对标记数据集进行预处理后再输入学生模型进行训练。
在本发明实施例中,所述方法还包括:在对所述学生模型进行训练之前,对所述预设标记数据集进行弱增强处理,获得第一增强后数据集;基于所述第一增强后数据集对所述学生模型进行训练,获得对应的模型参数和交叉熵损失函数lce;基于所述交叉熵损失函数lce和所述模型参数生成识别损失函数,所述识别损失函数表征为:其中,所述预设标记数据集表征为Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率;基于所述识别损失函数对所述学生模型进行训练,生成训练后模型;所述基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型,包括:基于所述模型参数和预设权重滑动平均规则对所述教师模型进行更新操作,生成更新后教师模型。
具体的,可以首先对预设标记数据集进行弱增强处理,例如对预设标记数据集中的图像进行简单的旋转、倒放、对称等处理,以对图像进行简单的增强,提高图像多样性。将其输入学生模型进行训练后,首先获得初步训练后的模型的模型参数以及对应的交叉熵损失函数lce,此时进一步根据该交叉熵损失函数lce结合模型参数生成识别损失函数,例如该识别损失函数表征为:其中,所述预设标记数据集表征为/>Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率,此时基于上述识别损失函数对学生模型进行训练,从而实现更好的训练效果,并获得对应的训练后模型。
在训练过程中,根据预设权重滑动平均规则(EMA)对学生模型的训练参数进行处理,使得训练后模型的模型参数能够更加反应学生模型在迭代过程中的变化趋势,然后根据该训练后模型对教师模型进行更新操作,以获得更新后教师模型,在获得更新后教师模型后,可以将未标记数据集输入该模型中进行分析,并生成对应的伪标签。
正如背景技术中介绍的,传统的半监督学习方法中伪标签的生成方法精确性不足,利用率较低,尤其在数据类别较小的情况下,所能生成的伪标签更少,并进一步加剧识别精度不足的问题。同时,设置高阈值选取出的像素具有较高的可靠性,但对这类高质量像素同样使用多标签学习,反而会降低模型的性能,因此为了解决上述技术问题,在半监督学习方法中引入动态阈值理论。
请参见图2,在本发明实施例中,所述对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签,包括:
S31)基于所述训练后模型确定不同标签类别的动态阈值;
S32)基于所述动态阈值对所述伪标签进行分类操作,将大于所述动态阈值的伪标签确定为优质伪标签,将不大于所述动态阈值的伪标签确定为非优质伪标签。
在一种可能的实施方式中,首先基于训练后模型确定不同标签类别的动态阈值,具体的,在本发明实施例中,可以首先基于所述训练后模型确定针对不同标签类别的学习效果,例如该学习效果可以表征为: 然后在每次迭代更新时,更加该学习效果确定不同标签类别的动态阈值,具体的,该动态阈值可以表征为:其中/>N表征为迭代过程中所有标记样本的数量,τ表征为预设固定阈值。
然后根据所计算的动态阈值对伪标签进行分类操作,具体的,将大于该动态阈值的伪标签确定为优质伪标签,其余伪标签确定为非优质伪标签。
在本发明实施例中,通过对传统图像分割方法进行改进,在现有的学生-教师模型半监督学习方法的基础上,通过动态阈值的方式,实时调整各类别的阈值,从而优化了半监督学习方法对数据的利用情况,改善了类别不平衡现象,提高了后续图像分割的精确性;同时有效减少了高质量像素在多标签学习过程中的额外性能消耗,提高了分割过程的性能。
此时针对优质标签和非优质标签,采用半监督学习+多标签学习相结合的方式生成图像分割模型,以进一步提高分割精确性,同时提高分割效率。
在本发明实施例中,所述基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,包括:对所述未标记数据集进行强增强处理,获得第二增强后数据集;基于所述动态阈值和所述第二增强后数据集确定所述未标记数据集的损失函数,所述损失函数包括分类损失函数和风险一致性多标签学习损失函数,其中:所述分类损失函数表征为:其中所述未标记数据集表征为 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,/>表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度;所述风险一致性多标签学习损失函数表征为:
其中,表征为由不大于所述动态阈值部分的伪标签形成的掩膜矩阵;基于所述优质标签和所述分类损失函数对所述训练后模型执行所述半监督学习训练,生成第一训练结果,以及基于所述非优质标签和所述风险一致性多标签学习损失函数对所述训练后模型执行所述多标签学习训练,生成第二训练结果;基于所述第一训练结果和所述第二训练结果生成对所述训练后模型的训练结果。
在一种可能的实施方式中,首先根据上述动态阈值计算出未标记数据集的损失函数,具体的,该损失函数包括分类损失函数和风险一致性多标签学习损失函数,在计算的过程中,首先对未标记数据进行强增强处理(例如包括但不限于针对图像的随机裁剪、随机遮挡等),以使得未标记数据集产生巨大的畸变,提高模型训练效果,由此获得对应的第二增强后数据集,此时一方面计算其分类损失函数,具体的,该分类损失函数表征为: 其中/> 未标记数据集表征为/> 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度。
另一方面,基于由非优质标签构成的掩膜矩阵进一步计算生成风险一致性多标签学习损失函数,具体的可以表征为:
最后分别通过分类损失函数对对训练后模型执行半监督学习训练,生成第一训练结果,通过风险一致性多标签学习损失函数对训练后模型执行多标签学习训练,生成第二训练结果,在上面的训练结果的基础上,生成对训练后模型的训练结果,比如可以生成一个更新的学生模型,通过该更新的学生模型可以提取出对应的更新参数,此时通过该更新参数对教师模型进行更新,以生成最后的图像分割模型。
当然,对于本领域技术人员很容易知道,上述模型的训练可能需要经过多次循环训练才能得到最佳的效果,因此技术人员可以根据实际需求将初步训练得到的图像分割模型作为新的更新后教师模型,并跳转至步骤S10)继续对学生模型进行更新,并以更准确的学生模型对教师模型进行进一步的更新,直至获得能够满足实际需求的最佳的教师模型,并作为图像分割模型。
具体的,可以基于任意神经网络模型及任意优化器和训练方法,对上述模型进行迭代,并获得效果合适的教师模型,通过该模型对图像进行分割,可以获得较好的图像分割效果,例如请参见图3,为本发明实施例提供的图像分割效果示意图。
在本发明实施例中,通过在传统基于单一模型对图像进行分割的基础上,采用半监督学习模型+多标签学习模型相混合的方式构建图像分割模型,结合上述动态阈值的标签选取方式,有效提高了对任意图像的识别分析效果,尤其针对类别较少的图像,也能够实现很好的分割识别效果,满足了实际需求。
下面结合附图对本发明实施例所提供的基于多标签学习的半监督语义分割装置进行说明。
请参见图4,基于同一发明构思,本发明实施例提供一种基于多标签学习的半监督语义分割装置,所述装置包括:模型训练单元,用于基于预设标记数据集对学生模型进行训练,生成训练后模型,基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型;伪标签生成单元,用于基于所述更新后教师模型对未标记数据集进行分析,生成对应的伪标签;动态分类单元,用于对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签;模型更新单元,用于基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,基于训练结果对所述训练后模型进行参数更新,生成更新后学生模型;模型生成单元,用于基于所述更新后学生模型对所述更新后教师模型进行更新操作,生成图像分割模型;分割单元,用于基于所述图像分割模型执行图像分割操作,生成对应的图像分割结果。
在本发明实施例中,所述装置还包括预处理单元,所述预处理单元用于:在对所述学生模型进行训练之前,对所述预设标记数据集进行弱增强处理,获得第一增强后数据集;所述基于预设标记数据集对学生模型进行训练,生成训练后模型,包括:基于所述第一增强后数据集对所述学生模型进行训练,获得对应的模型参数和交叉熵损失函数lce;基于所述交叉熵损失函数lce和所述模型参数生成识别损失函数,所述识别损失函数表征为: 其中,所述预设标记数据集表征为/>Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率;基于所述识别损失函数对所述学生模型进行训练,生成训练后模型;所述预处理单元还用于:基于所述模型参数和预设权重滑动平均规则对所述教师模型进行更新操作,生成更新后教师模型。
在本发明实施例中,所述动态分类单元包括:动态阈值确定模块,用于基于所述训练后模型确定不同标签类别的动态阈值;分类模块,用于基于所述动态阈值对所述伪标签进行分类操作,将大于所述动态阈值的伪标签确定为优质伪标签,将不大于所述动态阈值的伪标签确定为非优质伪标签。
在本发明实施例中,所述动态阈值确定模块具体用于:基于所述训练后模型确定针对不同标签类别的学习效果,所述学习效果表征为: 基于所述学习效果确定不同标签类别的动态阈值,所述动态阈值表征为:/>其中/>N表征为迭代过程中所有标记样本的数量,τ表征为预设固定阈值。
在本发明实施例中,所述模型更新单元包括:数据预处理模块,用于对所述未标记数据集进行强增强处理,获得第二增强后数据集;损失函数计算模块,用于基于所述动态阈值和所述第二增强后数据集确定所述未标记数据集的损失函数,所述损失函数包括分类损失函数和风险一致性多标签学习损失函数,其中:所述分类损失函数表征为:其中/> 所述未标记数据集表征为/> 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,/>表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度;所述风险一致性多标签学习损失函数表征为:其中,/>表征为由不大于所述动态阈值部分的伪标签形成的掩膜矩阵;模型更新模块,用于基于所述优质标签和所述分类损失函数对所述训练后模型执行所述半监督学习训练,生成第一训练结果,以及基于所述非优质标签和所述风险一致性多标签学习损失函数对所述训练后模型执行所述多标签学习训练第二训练结果;训练结果确认模块,基于所述第一训练结果和所述第二训练结果生成对所述训练后模型的训练结果。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (8)
1.一种基于多标签学习的半监督语义分割方法,其特征在于,所述方法包括:
基于预设标记数据集对学生模型进行训练,生成训练后模型,基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型;
基于所述更新后教师模型对未标记数据集进行分析,生成对应的伪标签;
对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签;
基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,基于训练结果对所述训练后模型进行参数更新,生成更新后学生模型;
基于所述更新后学生模型对所述更新后教师模型进行更新操作,生成图像分割模型;
基于所述图像分割模型执行图像分割操作,生成对应的图像分割结果;
所述基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,包括:
对所述未标记数据集进行强增强处理,获得第二增强后数据集;
基于所述动态阈值和所述第二增强后数据集确定所述未标记数据集的损失函数,所述损失函数包括分类损失函数和风险一致性多标签学习损失函数,其中:
所述分类损失函数表征为:
其中
所述未标记数据集表征为 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,/>表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度;
所述风险一致性多标签学习损失函数表征为:
其中,表征为由不大于所述动态阈值部分的伪标签形成的掩膜矩阵;
基于所述优质标签和所述分类损失函数对所述训练后模型执行半监督学习训练,生成第一训练结果,以及基于所述非优质标签和所述风险一致性多标签学习损失函对所述训练后模型数执行多标签学习训练,生成第二训练结果;
基于所述第一训练结果和所述第二训练结果生成对所述训练后模型的训练结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在对所述学生模型进行训练之前,对所述预设标记数据集进行弱增强处理,获得第一增强后数据集;
基于所述第一增强后数据集对所述学生模型进行训练,获得对应的模型参数和交叉熵损失函数lce;
基于所述交叉熵损失函数lce和所述模型参数生成识别损失函数,所述识别损失函数表征为:
其中,所述预设标记数据集表征为Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率;
基于所述识别损失函数对所述学生模型进行训练,生成训练后模型;
所述基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型,包括:
基于所述模型参数和预设权重滑动平均规则对所述教师模型进行更新操作,生成更新后教师模型。
3.根据权利要求1所述的方法,其特征在于,所述对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签,包括:
基于所述训练后模型确定不同标签类别的动态阈值;
基于所述动态阈值对所述伪标签进行分类操作,将大于所述动态阈值的伪标签确定为优质伪标签,将不大于所述动态阈值的伪标签确定为非优质伪标签。
4.根据权利要求3所述的方法,其特征在于,所述基于所述训练后模型确定不同标签类别的动态阈值,包括:
基于所述训练后模型确定针对不同标签类别的学习效果,所述学习效果表征为:
基于所述学习效果确定不同标签类别的动态阈值,所述动态阈值表征为:
其中
N表征为迭代过程中所有标记样本的数量,τ表征为预设固定阈值。
5.一种基于多标签学习的半监督语义分割装置,其特征在于,所述装置包括:
模型训练单元,用于基于预设标记数据集对学生模型进行训练,生成训练后模型,基于所述训练后模型对教师模型进行更新操作,生成更新后教师模型;
伪标签生成单元,用于基于所述更新后教师模型对未标记数据集进行分析,生成对应的伪标签;
动态分类单元,用于对所述伪标签进行动态质量评估操作,基于评估结果对所述伪标签进行分类操作,获得优质伪标签和非优质伪标签;
模型更新单元,用于基于所述优质伪标签对所述训练后模型执行半监督学习训练,以及基于所述非优质伪标签对所述训练后模型执行多标签学习训练,基于训练结果对所述训练后模型进行参数更新,生成更新后学生模型;
模型生成单元,用于基于所述更新后学生模型对所述更新后教师模型进行更新操作,生成图像分割模型;
分割单元,用于基于所述图像分割模型执行图像分割操作,生成对应的图像分割结果;
所述模型更新单元包括:
数据预处理模块,用于对所述未标记数据集进行强增强处理,获得第二增强后数据集;
损失函数计算模块,用于基于所述动态阈值和所述第二增强后数据集确定所述未标记数据集的损失函数,所述损失函数包括分类损失函数和风险一致性多标签学习损失函数,其中:
所述分类损失函数表征为:
其中
所述未标记数据集表征为 表征为第i张标记图像经过弱增强在像素点j上经过教师模型的预测类别,/>表征为由大于所述动态阈值部分的伪标签形成的掩膜矩阵,/>表征为图像经过强增强后经过学生模型的类别预测概率,/>表征为图像经过弱增强后经过教师模型的类别预测概率,Nu表征为集合Bu的长度;
所述风险一致性多标签学习损失函数表征为:
其中,表征为由不大于所述动态阈值部分的伪标签形成的掩膜矩阵;
模型更新模块,用于基于所述优质标签和所述分类损失函数对所述训练后模型执行所述半监督学习训练,生成第一训练结果,以及基于所述非优质标签和所述风险一致性多标签学习损失函数对所述训练后模型执行所述多标签学习训练,生成第二训练结果;
训练结果确认模块,基于所述第一训练结果和所述第二训练结果生成对所述训练后模型的训练结果。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括预处理单元,所述预处理单元用于:
在对所述学生模型进行训练之前,对所述预设标记数据集进行弱增强处理,获得第一增强后数据集;
所述基于预设标记数据集对学生模型进行训练,生成训练后模型,包括:
基于所述第一增强后数据集对所述学生模型进行训练,获得对应的模型参数和交叉熵损失函数lce;
基于所述交叉熵损失函数lce和所述模型参数生成识别损失函数,所述识别损失函数表征为:
其中,所述预设标记数据集表征为Nl表征为集合Bl的长度,HW表征为数据/>的高和宽,pij表征为第i张标记图像经过弱增强后在像素点j上经过学生模型的类别预测概率;
基于所述识别损失函数对所述学生模型进行训练,生成训练后模型;
所述预处理单元还用于:
基于所述模型参数和预设权重滑动平均规则对所述教师模型进行更新操作,生成更新后教师模型。
7.根据权利要求5所述的装置,其特征在于,所述动态分类单元包括:
动态阈值确定模块,用于基于所述训练后模型确定不同标签类别的动态阈值;
分类模块,用于基于所述动态阈值对所述伪标签进行分类操作,将大于所述动态阈值的伪标签确定为优质伪标签,将不大于所述动态阈值的伪标签确定为非优质伪标签。
8.根据权利要求7所述的装置,其特征在于,所述动态阈值确定模块具体用于:
基于所述训练后模型确定针对不同标签类别的学习效果,所述学习效果表征为:
基于所述学习效果确定不同标签类别的动态阈值,所述动态阈值表征为:
其中
N表征为迭代过程中所有标记样本的数量,τ表征为预设固定阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267788.1A CN116258861B (zh) | 2023-03-20 | 2023-03-20 | 基于多标签学习的半监督语义分割方法以及分割装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267788.1A CN116258861B (zh) | 2023-03-20 | 2023-03-20 | 基于多标签学习的半监督语义分割方法以及分割装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116258861A CN116258861A (zh) | 2023-06-13 |
CN116258861B true CN116258861B (zh) | 2023-09-22 |
Family
ID=86687949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267788.1A Active CN116258861B (zh) | 2023-03-20 | 2023-03-20 | 基于多标签学习的半监督语义分割方法以及分割装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116258861B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115107A (zh) * | 2023-08-24 | 2023-11-24 | 哪吒港航智慧科技(上海)有限公司 | 基于长尾分布概率的外观缺陷检测模型的训练方法及装置 |
CN117291921B (zh) * | 2023-11-27 | 2024-03-12 | 哪吒港航智慧科技(上海)有限公司 | 集装箱偶发残损样本挖掘及学习方法、装置、设备、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和系统 |
WO2022042002A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
WO2022041307A1 (zh) * | 2020-08-31 | 2022-03-03 | 温州医科大学 | 一种构建半监督图像分割框架的方法及系统 |
WO2022127071A1 (zh) * | 2020-12-18 | 2022-06-23 | 上海商汤智能科技有限公司 | 网络训练方法、图像分割方法、装置、设备、介质及产品 |
CN115393687A (zh) * | 2022-07-12 | 2022-11-25 | 西北工业大学 | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3940604A1 (en) * | 2020-07-09 | 2022-01-19 | Nokia Technologies Oy | Federated teacher-student machine learning |
-
2023
- 2023-03-20 CN CN202310267788.1A patent/CN116258861B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022042002A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
WO2022041307A1 (zh) * | 2020-08-31 | 2022-03-03 | 温州医科大学 | 一种构建半监督图像分割框架的方法及系统 |
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和系统 |
WO2022127071A1 (zh) * | 2020-12-18 | 2022-06-23 | 上海商汤智能科技有限公司 | 网络训练方法、图像分割方法、装置、设备、介质及产品 |
CN115393687A (zh) * | 2022-07-12 | 2022-11-25 | 西北工业大学 | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 |
Non-Patent Citations (2)
Title |
---|
一种结合GAN和伪标签的深度半监督模型研究;杨灿;;中国科技信息(第17期);全文 * |
单纯 ; 王敏 ; .半监督单样本深度行人重识别方法.计算机系统应用.2020,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116258861A (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116258861B (zh) | 基于多标签学习的半监督语义分割方法以及分割装置 | |
CN108230359B (zh) | 目标检测方法和装置、训练方法、电子设备、程序和介质 | |
CN111444878B (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
CN108416370A (zh) | 基于半监督深度学习的图像分类方法、装置和存储介质 | |
EP2806374B1 (en) | Method and system for automatic selection of one or more image processing algorithm | |
CN111476284A (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN111445488B (zh) | 一种弱监督学习自动识别和分割盐体的方法 | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
CN110443257B (zh) | 一种基于主动学习的显著性检测方法 | |
CN111723815B (zh) | 模型训练方法、图像处理方法、装置、计算机系统和介质 | |
US10373022B1 (en) | Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network | |
CN109740553B (zh) | 一种基于识别的图像语义分割数据筛选方法及系统 | |
CN110796089A (zh) | 用于训练换脸模型的方法和设备 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
Vallet et al. | A multi-label convolutional neural network for automatic image annotation | |
CN112132827A (zh) | 病理图像的处理方法、装置、电子设备及可读存储介质 | |
WO2021238586A1 (zh) | 一种训练方法、装置、设备以及计算机可读存储介质 | |
CN113971644A (zh) | 基于数据增强策略选择的图像识别方法及装置 | |
CN111429414A (zh) | 基于人工智能的病灶影像样本确定方法和相关装置 | |
CN116612478A (zh) | 一种脱机手写汉字的评分方法、装置及存储介质 | |
CN116189130A (zh) | 基于图像标注模型的车道线分割方法及装置 | |
CN115761356A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
CN112819098A (zh) | 一种基于三元组和差额度量的域自适应方法 | |
CN115424250A (zh) | 一种车牌识别方法及装置 | |
CN111815689A (zh) | 一种半自动化标注方法、设备、介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |