CN117557886A - 融合偏标签和消极学习的含噪声标签图像识别方法及系统 - Google Patents
融合偏标签和消极学习的含噪声标签图像识别方法及系统 Download PDFInfo
- Publication number
- CN117557886A CN117557886A CN202311496270.1A CN202311496270A CN117557886A CN 117557886 A CN117557886 A CN 117557886A CN 202311496270 A CN202311496270 A CN 202311496270A CN 117557886 A CN117557886 A CN 117557886A
- Authority
- CN
- China
- Prior art keywords
- label
- tag
- learning
- candidate
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 230000009466 transformation Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000012937 correction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合偏标签和消极学习的含噪声标签图像识别方法及系统,所述方法通过采用将给定标签空间解耦合到候选标签和补充标签,来实现利用偏标签学习提供的直接监督信息和消极学习提供的间接监督信息;通过构造候选标签集实现硬标签消歧和软标签消歧,实现偏标签学习;通过构造的补充标签实现消极学习;利用强和弱数据增强下深度神经网络的预测结果进行一致性正则化,进一步增强模型提取特征的能力。
Description
技术领域
本发明属于图像识别技术领域,具体为一种融合偏标签和消极学习的含噪声标签图像识别方法及系统。
背景技术
在过去的几十年中,基于深度神经网络的监督学习,在近些年的各类任务中取得了令人瞩目的成果,如图像识别、语义分割、自然语言处理等,监督学习的发展是由大规模的、注释良好的数据集推动的。然而,收集这些数据集由于其费用和耗时的性质而成为一个瓶颈,阻碍了模型的可扩展性。大规模数据集的获取为监督学习算法提供了高质量的标注是一项艰巨的挑战。为了解决这个问题,弱监督学习获得了相当大的关注,它包括但不限于噪声标签学习,多标签学习,偏标签学习,半监督学习等。
现有的噪声标签学习方法主要通过结合半监督学习、对比学习和元学习等策略来对抗标签噪声。半监督学习通常是一种合适的选择,通过样本选择来利用选择的噪声样本,而不是抛弃它们。例如,DivideMix使用混合模型来表征每个样本的损失分布,将训练数据动态地划分为一个包含干净样本的有标签子集和一个包含噪声样本的无标签子集。随后,采用半监督方法,在有标记和无标记数据上训练模型。然而,这些方法往往忽略了半监督方法生成的伪标注的可靠性,这可能会导致校正偏差。
另一类NLL方法通过结合对比学习来提升性能。这种方法有利于不受标签噪声影响的特征提取,从而提供性能显著的结果。Jo-SRC从每个样本的两个不同角度进行预测,以对比学习的方式估计其“干净”和“噪声”的可能性。SelCL提出结合联合损失的选择性监督对比学习,通过引入一致性正则化来增强模型泛化性能。然而,这些方法对超参数比较敏感。
最近,元学习也被用于减轻标签噪声对深度神经网络训练的负面影响。L2RW提出了一种元学习实例重加权方法,为带噪实例分配实例权重。MLC提出采用标签校正网络作为元模型,为噪声样本产生校正标签。然而,这些元学习方法往往需要先验知识(例如,一个小的干净样本子集)。
发明内容
本发明的目的是克服现有技术的不足,为更好的有效解决图像数据集中含有的噪声标签问题。
为了达到上述目的,本发明所采用的技术方案为:一种融合偏标签和消极学习的含噪声标签图像识别方法,包括以下步骤,
步骤(A),采集含有类别标记错误的图像数据集,并进行强和弱两种数据增强变换;
步骤(B),将步骤(A)中获取的弱数据增强变换过后的图片输入深度神经网络进行特征提取分类,获得对每个样本的预测置信度,并根据对每个样本的预测置信度将给定标签空间进行解耦合,获得候选标签和补充标签;
步骤(C),对构造的候选标签进行偏标签学习,通过引入每个迭代过程中深度神经网络预测结果构造候选标签集,通过消歧标签计算得到偏标签学习损失,利用偏标签学习损失提供的直接监督信息训练深度神经网络;
步骤(D),对构造的补充标签进行消极学习,并计算得到消极学习损失,利用消极学习损失提供的间接监督信息训练深度神经网络;
步骤(E),对所有样本强和弱两种数据增强变换后的数据在深度神经网络后的预测结果进行一致性正则化,并得到一致性损失;
步骤(F),将偏标签学习损失、消极学习损失和一致性损失进行线性加权,并得到总的损失函数,再反向更新网络权值,完成标签去噪作业。
优选地,弱数据增强变换的具体方法为:对图像数据集进行随机裁剪、随机反转以及归一化;强数据增强变换的具体方法为:对图像数据集进行随机裁剪、随机反转、自动增强以及归一化。
优选地,根据对每个样本的预测置信度将给定标签空间进行解耦合,获得候选标签和补充标签的具体方法为:
将每个样本在深度神经网络预测结果中置信度最高的标签和给定标签组成候选标签,具体为:
其中,xn表示图像数据集Dtrain中的第n张图片,yn表示这张图片对应的给定标签,表示对应构造的候选标签,pc(AW(xn),θ)表示深度神经网络对于弱数据增强后图片在第c个类别上的预测置信度,θ表示神经网络参数,/>表示对应的置信度最高的类别,/>是一个指示函数,当k条件成立时,结果为1,否则为0,AW为弱数据增强后的图像数据;
将每个样本在深度神经网络预测结果中的全部非候选标签组成补充标签,具体为:
其中,表示对应构造的对于第n张图片的补充标签,I表示值全为1的整个标签空间。
优选地,所述消歧标签为硬消歧标签或者软消歧标签,将每个样本历史预测的候选标签中出现频率最高的类别作为硬消歧标签,将每个样本历史预测的候选标签集中所有类别出现的频次归一化后作为软消歧标签。
优选地,对构造的候选标签进行偏标签学习,通过引入每个迭代过程中深度神经网络预测结果构造候选标签集,通过消歧标签计算得到偏标签学习损失,利用偏标签学习损失提供的直接监督信息训练深度神经网络,具体步骤如下,
步骤(C1),针对每一个样本构造候选标签集,用于存储训练过程中每个样本的候选标签出现频率,如下所示:
其中,表示在第t个迭代中对第n个样本构造的候选标签,/>表示在第t个迭代中对第n个样本更新后的候选标签集合;
步骤(C2),根据构造的候选标签集合进行标签消歧,如下所示,
其中,argmax表示获取候选标签集合中最大的出现频数对应的下标,即对应的类别标签,作为硬标签消歧结果,并将该结果对应出现的频率作为权重计算偏标签学习损失,如下所示:
其中N表示总的样本数目,n表示第n个样本,θ表示深度神经网络模型,p表示预测概率,是硬标签消歧的结果,sum和max分别表示求和与求最大值;
步骤(C3),根据构造的候选标签集合利用统计的每个类别在训练过程中出现的频次,以此利用所有类别构造软标签,通过软标签消歧方式实现偏标签学习,如下式所示:
根据构造的软标签消歧结果计算偏标签学习损失,如下式所示:
其中,C表示类别数目,c表示第c个类别,θ表示深度神经网络模型,pc表示对第c个类别的预测概率,是硬标签消歧的结果。
优选地,消极学习损失具体为:
其中N表示总的样本数目,n表示第n个样本,表示构造的补充标签,C表示类别数目,c表示第c个类别,θ表示深度神经网络模型,pc表示对第c个类别的预测概率,/>是硬标签消歧的结果。
优选地,一致性损失具体为:
其中N表示总的样本数目,C表示类别数目,θ表示深度神经网络模型,p表示对第c个类别的预测概率,AW(xi)表示对样本进行弱数据增强后得到的视图,AS(xi)表示对样本进行强数据增强后得到的视图。
优选地,总的损失函数如下所示,
其中,α和β表示线性加权系数,为偏标签学习损失,/>为消极学习损失,为一致性损失。
本发明还提出了一种融合偏标签和消极学习的含噪声标签图像识别系统,包括采集模块、给定标签空间解耦合模块、偏标签学习模块、消极学习模块、正则化模块和线性加权模块,所述采集含有噪声标签的图像数据集Dtrain,并进行强和弱两种数据增强变换,再输入深度神经网络;
所述给定标签空间解耦合模块用于由深度神经网络进行特征提取分类,并根据深度神经网络的预测结果将给定标签空间解耦合到候选标签和补充标签,分别用于偏标签学习和消极学习;
所述偏标签学习模块用于通过构造候选标签集实现硬标签消歧和软标签消歧,以此实现提供直接监督信息的偏标签学习,并计算得到偏标签学习损失
所述消极学习模块用于利用构造的补充标签进行提供间接监督信息的消极学习,并计算得到消极学习损失;
所述正则化模块用于对所有样本根据强和弱数据增强下深度神经网络的预测结果之间进行一致性正则化,并得到一致性损失;
所述线性加权模块用于将偏标签学习损失、消极学习损失和一致性损失进行线性加权,并得到损失函数,再反向更新网络权值,完成标签去噪作业。
本发明与现有技术相比,其显著优点为:
(1)本发明通过采用将含噪声标签图像识别问题转换为偏标签学习和消极学习方法的融合,通过将给定标签空间解耦合为候选标签和补充标签,分别用于利用偏标签学习的直接监督信息和消极学习的简介监督信息,有效地设计了一种崭新的含噪声标签图像识别方法和系统。
(2)本发明通过采用一种候选标签集的设计,收集统计深度神经网络训练迭代过程中为每个样本划分的候选标签出现的频率,以此设计了两种标签消歧方法用于偏标签学习,即硬标签消歧和软标签消歧。
(3)本发明通过设计置信度更低的非候选标签组成补充标签,设计了一种更完备的消极学习,通过间接监督信息促进深度神经网络的性能。
(3)本发明通过采用样本强弱数据增强下的一致性正则化,进一步提高模型对于提取特征的性能,以及预测结果的一致性,缓解对噪声样本的过拟合。
(4)本发明能够很好的应对噪声标签存在下的图像识别,缓解了深度神经网络对噪声样本的过拟合,以此提高了模型的鲁棒性,能更好的应对真实世界中复杂的图像识别场景。
附图说明
图1是本发明的融合偏标签和消极学习的含噪声标签图像识别方法的流程图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,一种融合偏标签和消极学习的含噪声标签图像识别方法,通过采用将给定标签空间解耦合到候选标签和补充标签,来实现利用偏标签学习提供的直接监督信息和消极学习提供的间接监督信息;通过构造候选标签集实现硬标签消歧和软标签消歧,实现偏标签学习;通过构造的补充标签实现消极学习;利用强和弱数据增强下深度神经网络的预测结果进行一致性正则化,进一步增强模型提取特征的能力,包括以下步骤:
步骤(A),采集含有类别标记错误(即噪声标签)的图像数据集Dtrain,并进行强和弱两种数据增强变换;
其中,步骤(A)中强和弱两种数据增强变换具体是指对图像进行变换,例如旋转,随机裁剪,模糊等操作。弱数据增强变换的具体方法为:随机裁剪、随机反转以及归一化;强数据增强变换的具体方法为:随机裁剪、随机反转、自动增强以及归一化。将原始图像弱数据增强变换后的结果记作AW(xi),将原始图像强数据增强变换后的结果记作AS(xi);
步骤(B),将步骤(A)中获取的弱数据增强过后的图片作为输入,由深度神经网络进行特征提取分类,获得对每个样本的预测置信度,并根据对每个样本的预测置信度将给定标签空间进行解耦合为候选标签和补充标签。解耦合过程是指,将置信度最高的类别和给定标签组成候选标签用于偏标签学习,将全部非候选标签组成补充标签用于消极学习,具体步骤如下:
步骤(B1),将步骤(A)中获取的弱数据增强过后的图片作为输入AW(xi),由深度神经网络进行特征提取分类,获得对每个样本的预测置信度。
步骤(B2),构造候选标签用于偏标签学习。将每个样本在深度神经网络预测结果中置信度最高的标签和给定标签组成候选标签,如公式(1)所示,
其中,xn表示图像数据集Dtrain中的第n张图片,yn表示这张图片对应的给定标签,表示对应构造的候选标签,pc(AW(xn),θ)表示深度神经网络对于弱数据增强后图片在第c个类别上的预测置信度(或者预测概率),θ表示神经网络参数,/>表示对应的置信度最高的类别,/>是一个指示函数,当A条件成立时,他的结果为1,否则为0;
步骤(B3),构造补充标签用于消极学习。将每个样本在深度神经网络预测结果中的全部非候选标签组成补充标签,如公式(2)所示,
其中,表示对应构造的对于第n张图片的补充标签,I表示值全为1的整个标签空间。
步骤(C),对构造的候选标签进行偏标签学习,用步骤(B)获取的候选标签来更新候选标签集合,用来更新训练过程中每个样本候选标签的分布情况,然后通过硬消歧标签或者软消歧标签得到偏标签学习损失利用其提供的直接监督信息训练深度神经网络,具体步骤如下,
步骤(C1),根据步骤(B)构造的候选标签进行偏标签学习,为此针对每一个样本构造候选标签集,用于存储训练过程中每个样本的候选标签出现频率,如公式(3)所示,
其中表示在第t个迭代中对第n个样本构造的候选标签,/>表示在第t个迭代中对第n个样本更新后的候选标签集合,用来表示前t个迭代过程中第n个样本候选标签中每个类别标签出现的次数;
步骤(C2),根据构造的候选标签集合进行标签消歧,首先可以通过硬标签消歧方式实现偏标签学习,如公式(4)所示,
其中argmax表示获取候选标签集合中最大的出现频数对应的下标,即对应的类别标签,作为硬标签消歧结果,并将该结果对应出现的频率(即,)作为权重计算偏标签学习损失,如公式(5)所示,
其中N表示总的样本数目,n表示第n个样本,θ表示深度神经网络模型,p表示预测概率,是硬标签消歧的结果,sum和max分别表示求和与求最大值;
步骤(C3),根据构造的候选标签集合利用其统计的每个类别在训练过程中出现的频次,以此利用所有类别构造软标签,通过软标签消歧方式实现偏标签学习,如公式(6)所示,
根据构造的软标签消歧结果计算偏标签学习损失,如公式(7)所示,
其中N表示总的样本数目,n表示第n个样本,C表示类别数目,c表示第c个类别,θ表示深度神经网络模型,pc表示对第c个类别的预测概率,是硬标签消歧的结果。
具体地,候选标签集合中出现频率最高的类别作为硬消歧标签,将每候选标签集中所有类别出现的频次归一化后作为软消歧标签。
步骤(D),对构造的补充标签进行消极学习,通过将全部的非候选标签作为补充标签,从而实现消极学习并计算损失利用其提供的间接监督信息训练深度神经网络,具体步骤如下,
根据步骤(B)构造的补充标签进行消极学习,需要注意的是使用置信度更低的全部非候选标签作为补充标签加入到消极学习中,以此获得消极学习损失,如公式(8)所示,
其中N表示总的样本数目,n表示第n个样本,表示构造的补充标签,C表示类别数目,c表示第c个类别,θ表示深度神经网络模型,pc表示对第c个类别的预测概率,/>是硬标签消歧的结果。
步骤(E),对于所有样本,将步骤(A)中获取的强数据增强过后的图片作为输入AS(xi),由深度神经网络进行特征提取分类,获得对每个样本的预测结果;并结合步骤(B1)获得弱数据增强过后的图片输入到深度神经网络,获得的对每个样本的预测结果,进行一致性正则化,并得到一致性损失
步骤(E)计算强增强样本和弱增强样本之间的预测一致性,一致性损失如公式(9)和公式(10)所示,
其中N表示总的样本数目,C表示类别数目,θ表示深度神经网络模型,p表示对第c个类别的预测概率,AW(xi)表示对样本进行弱数据增强后得到的视图,AS(xi)表示对样本进行强数据增强后得到的视图。
步骤(F),将偏标签学习损失偏标签学习损失/>和一致性损失/>进行线性加权,并得到损失函数/>再反向更新网络权值,完成标签去噪作业,
损失函数如公式(11)所示,
其中α和β表示线性加权系数。
通过最小化该目标函数,偏标签学习损失通过标签消歧后的结果直接提供监督信息用于深度神经网络的训练,消极学习损失通过间接的方式提供监督信息用于深度神经网络的训练,一致性正则化损失通过约束模型的预测结果实现对提取特征能力的优化。本发明提出的基于偏标签学习和消极学习融合的含噪图像识别方法可以很好的应对图像数据集中含有标签噪声的负面消极影响。
本发明通过采用将给定标签空间解耦合到候选标签和补充标签,来实现利用偏标签学习提供的直接监督信息和消极学习提供的间接监督信息;通过构造候选标签集实现硬标签消歧和软标签消歧,实现偏标签学习;通过构造
的补充标签实现消极学习;利用强和弱数据增强下深度神经网络的预测结果进行一致性正则化,进一步增强模型提取特征的能力。
基于类别平衡样本选择的含噪声标签图像识别系统,包括采集模块、给定标签空间解耦合模块、偏标签学习模块、消极学习模块、正则化模块和线性加权模块,所述采集含有噪声标签的图像数据集Dtrain,并进行强和弱两种数据增强变换,再输入深度神经网络;所述给定标签空间解耦合模块用于由深度神经网络进行特征提取分类,并根据深度神经网络的预测结果将给定标签空间解耦合到候选标签和补充标签,分别用于偏标签学习和消极学习;所述偏标签学习模块用于通过构造候选标签集实现硬标签消歧和软标签消歧,以此实现提供直接监督信息的偏标签学习,并计算得到偏标签学习损失所述消极学习模块用于利用构造的补充标签进行提供间接监督信息的消极学习,并计算得到消极学习损失所述正则化模块用于对所有样本根据强和弱数据增强下深度神经网络的预测结果之间进行一致性正则化,并得到一致性损失/>所述线性加权模块用于将偏标签学习损失消极学习损失/>和一致性损失/>进行线性加权,并得到损失函数/>再反向更新网络权值,完成标签去噪作业。
为更好的阐述本发明的使用效果,下面介绍本发明的一个具体实施例:
Web-Aircraft、Web-Bird、Web-Car分别是由通过网络图像搜索引擎获得的训练图像组成的图像识别数据集,不可避免地会产生标签噪声。相比于被人为破坏的数据集,真实世界的数据集在实际场景中表现出更加复杂和现实的挑战。它们包含多种类型的标签噪声(即对称噪声,非对称噪声和开集噪声)。传统基线方法仅仅使用交叉熵损失在这个训练集训练模型,并且在是三个数据集的测试集上仅仅取得了60.80%,64.40%,60.60%的准确率,而本发明取得了86.02%,80.91%,88.26%的准确率,分别实现了25.22%,16.51%,27.66%的测试集准确率提升。
综上所述,本发明对于含噪声标签图像数据集Dtrain,首先在输入网络后根据模型的预测结果,将给定标签空间解耦合为候选标签和补充标签,分别用与偏标签学习和消极学习;针对偏标签学习,通过采用候选标签集存储训练过程中候选标签的出现频率,以此实现了两种标签消歧,即硬标签消歧和软标签消歧;针对消极学习,通过采用置信度更低的非候选标签构造补充标签,实现间接的监督信息提供;最后利用图片强和弱数据增强后的图片在深度神经网络的预测下的一致性正则化,进一步提升模型提取特征能力,以及缓解过拟合噪声样本。
本发明主要关注于噪声标签学习,涉及处理带有噪声标签的低质量样本,主要源于数据集构建中使用的众包平台或网络图像搜索引擎。深度神经网络强大的学习能力使其可以拟合任何有噪声的标签,导致其在图像分类任务中的性能较低。因此,开发设计融合偏标签和消极学习的含噪声标签图像识别方法及系统来减轻噪声标签的影响是至关重要的。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.一种融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,包括以下步骤,
步骤(A),采集含有类别标记错误的图像数据集,并进行强和弱两种数据增强变换;
步骤(B),将步骤(A)中获取的弱数据增强变换过后的图片输入深度神经网络进行特征提取分类,获得对每个样本的预测置信度,并根据对每个样本的预测置信度将给定标签空间进行解耦合,获得候选标签和补充标签;
步骤(C),对构造的候选标签进行偏标签学习,通过引入每个迭代过程中深度神经网络预测结果构造候选标签集,通过消歧标签计算得到偏标签学习损失,利用偏标签学习损失提供的直接监督信息训练深度神经网络;
步骤(D),对构造的补充标签进行消极学习,并计算得到消极学习损失,利用消极学习损失提供的间接监督信息训练深度神经网络;
步骤(E),对所有样本强和弱两种数据增强变换后的数据在深度神经网络后的预测结果进行一致性正则化,并得到一致性损失;
步骤(F),将偏标签学习损失、消极学习损失和一致性损失进行线性加权,并得到总的损失函数,再反向更新网络权值,完成标签去噪作业。
2.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,弱数据增强变换的具体方法为:对图像数据集进行随机裁剪、随机反转以及归一化;强数据增强变换的具体方法为:对图像数据集进行随机裁剪、随机反转、自动增强以及归一化。
3.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,根据对每个样本的预测置信度将给定标签空间进行解耦合,获得候选标签和补充标签的具体方法为:
将每个样本在深度神经网络预测结果中置信度最高的标签和给定标签组成候选标签,具体为:
其中,xn表示图像数据集Dtrain中的第n张图片,yn表示这张图片对应的给定标签,表示对应构造的候选标签,pc(AW(xn),θ)表示深度神经网络对于弱数据增强后图片在第c个类别上的预测置信度,θ表示神经网络参数,/>表示对应的置信度最高的类别,/>是一个指示函数,当k条件成立时,结果为1,否则为0,AW为弱数据增强后的图像数据;
将每个样本在深度神经网络预测结果中的全部非候选标签组成补充标签,具体为:
其中,表示对应构造的对于第n张图片的补充标签,I表示值全为1的整个标签空间。
4.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,所述消歧标签为硬消歧标签或者软消歧标签,将每个样本历史预测的候选标签中出现频率最高的类别作为硬消歧标签,将每个样本历史预测的候选标签集中所有类别出现的频次归一化后作为软消歧标签。
5.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,对构造的候选标签进行偏标签学习,通过引入每个迭代过程中深度神经网络预测结果构造候选标签集,通过消歧标签计算得到偏标签学习损失,利用偏标签学习损失提供的直接监督信息训练深度神经网络,具体步骤如下,
步骤(C1),针对每一个样本构造候选标签集,用于存储训练过程中每个样本的候选标签出现频率,如下所示:
其中,表示在第t个迭代中对第n个样本构造的候选标签,/>表示在第t个迭代中对第n个样本更新后的候选标签集合;
步骤(C2),根据构造的候选标签集合进行标签消歧,如下所示,
其中,argmax表示获取候选标签集合中最大的出现频数对应的下标,即对应的类别标签,作为硬标签消歧结果,并将该结果对应出现的频率作为权重计算偏标签学习损失,如下所示:
其中N表示总的样本数目,n表示第n个样本,θ表示深度神经网络模型,p表示预测概率,是硬标签消歧的结果,sum和max分别表示求和与求最大值;
步骤(C3),根据构造的候选标签集合利用统计的每个类别在训练过程中出现的频次,以此利用所有类别构造软标签,通过软标签消歧方式实现偏标签学习,如下式所示:
根据构造的软标签消歧结果计算偏标签学习损失,如下式所示:
其中,C表示类别数目,c表示第c个类别,θ表示深度神经网络模型,pc表示对第c个类别的预测概率,是硬标签消歧的结果。
6.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,消极学习损失具体为:
其中N表示总的样本数目,n表示第n个样本,表示构造的补充标签,C表示类别数目,c表示第c个类别,θ表示深度神经网络模型,pc表示对第c个类别的预测概率,/>是硬标签消歧的结果。
7.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,一致性损失具体为:
其中N表示总的样本数目,C表示类别数目,θ表示深度神经网络模型,p表示对第c个类别的预测概率,AW(xi)表示对样本进行弱数据增强后得到的视图,AS(xi)表示对样本进行强数据增强后得到的视图。
8.根据权利要求1所述的融合偏标签和消极学习的含噪声标签图像识别方法,其特征在于,总的损失函数如下所示,
其中,α和β表示线性加权系数,为偏标签学习损失,/>为消极学习损失,/>为一致性损失。
9.一种融合偏标签和消极学习的含噪声标签图像识别系统,所述系统采用如权利要求1-8中任一所述的方法工作,其特征在于,包括采集模块、给定标签空间解耦合模块、偏标签学习模块、消极学习模块、正则化模块和线性加权模块,所述采集含有噪声标签的图像数据集Dtrain,并进行强和弱两种数据增强变换,再输入深度神经网络;
所述给定标签空间解耦合模块用于由深度神经网络进行特征提取分类,并根据深度神经网络的预测结果将给定标签空间解耦合到候选标签和补充标签,分别用于偏标签学习和消极学习;
所述偏标签学习模块用于通过构造候选标签集实现硬标签消歧和软标签消歧,以此实现提供直接监督信息的偏标签学习,并计算得到偏标签学习损失
所述消极学习模块用于利用构造的补充标签进行提供间接监督信息的消极学习,并计算得到消极学习损失;
所述正则化模块用于对所有样本根据强和弱数据增强下深度神经网络的预测结果之间进行一致性正则化,并得到一致性损失;
所述线性加权模块用于将偏标签学习损失、消极学习损失和一致性损失进行线性加权,并得到损失函数,再反向更新网络权值,完成标签去噪作业。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311496270.1A CN117557886A (zh) | 2023-11-09 | 2023-11-09 | 融合偏标签和消极学习的含噪声标签图像识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311496270.1A CN117557886A (zh) | 2023-11-09 | 2023-11-09 | 融合偏标签和消极学习的含噪声标签图像识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557886A true CN117557886A (zh) | 2024-02-13 |
Family
ID=89822540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311496270.1A Pending CN117557886A (zh) | 2023-11-09 | 2023-11-09 | 融合偏标签和消极学习的含噪声标签图像识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557886A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975171A (zh) * | 2024-03-29 | 2024-05-03 | 南京大数据集团有限公司 | 面向标签不完全和不平衡的多标签学习方法及系统 |
CN117992835A (zh) * | 2024-04-03 | 2024-05-07 | 安徽大学 | 多策略标签消歧的偏多标签分类方法、设备及存储介质 |
-
2023
- 2023-11-09 CN CN202311496270.1A patent/CN117557886A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975171A (zh) * | 2024-03-29 | 2024-05-03 | 南京大数据集团有限公司 | 面向标签不完全和不平衡的多标签学习方法及系统 |
CN117992835A (zh) * | 2024-04-03 | 2024-05-07 | 安徽大学 | 多策略标签消歧的偏多标签分类方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruby et al. | Binary cross entropy with deep learning technique for image classification | |
Huang et al. | Facial expression recognition with grid-wise attention and visual transformer | |
Zhang et al. | Ppr-fcn: Weakly supervised visual relation detection via parallel pairwise r-fcn | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
CN113657561B (zh) | 一种基于多任务解耦学习的半监督夜间图像分类方法 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN117557886A (zh) | 融合偏标签和消极学习的含噪声标签图像识别方法及系统 | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
JP2022548187A (ja) | 対象再識別方法および装置、端末並びに記憶媒体 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN116229482A (zh) | 网络舆情分析中视觉多模态文字检测识别及纠错方法 | |
Xiao et al. | An extended attention mechanism for scene text recognition | |
CN113705215A (zh) | 一种基于元学习的大规模多标签文本分类方法 | |
CN114037666A (zh) | 一种数据集扩充和阴影图像分类辅助的阴影检测方法 | |
CN116580243A (zh) | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 | |
CN113590819B (zh) | 一种大规模类别层级文本分类方法 | |
Huang et al. | Spatial Aggregation for Scene Text Recognition. | |
Hallyal et al. | Optimized recognition of CAPTCHA through attention models | |
Liu et al. | Self-correction method for automatic data annotation | |
Shkodrani et al. | Dynamic adaptation on non-stationary visual domains | |
Yan et al. | Recognizing Handwritten Chinese Texts with Insertion and Swapping Using a Structural Attention Network | |
Hayder et al. | DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |