CN117876751A - 图像处理方法、图像处理系统及计算机可读介质 - Google Patents
图像处理方法、图像处理系统及计算机可读介质 Download PDFInfo
- Publication number
- CN117876751A CN117876751A CN202311742452.2A CN202311742452A CN117876751A CN 117876751 A CN117876751 A CN 117876751A CN 202311742452 A CN202311742452 A CN 202311742452A CN 117876751 A CN117876751 A CN 117876751A
- Authority
- CN
- China
- Prior art keywords
- classifier
- image processing
- prediction probability
- processing method
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 81
- 238000012545 processing Methods 0.000 title claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 abstract description 24
- 238000010276 construction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像处理方法、图像处理系统及计算机可读介质,用以解决现有的基于单正标签的多标签分类方法分类性能不佳的技术问题。该图像处理方法包括优化第一分类器,得到第二分类器。以及,优化第二分类器,得到第三分类器。这样,完成不同的训练阶段的构建。通过构建第一伪标签和第二伪标签,使得不同训练阶段的伪标签不同。使用第一损失函数优化第一分类器,使用第二损失函数和第三损失函数优化第二分类器。实现损失函数的动态调整。相比第一伪标签,第二伪标签通过第二分类器输出的第一预测概率得到,第二伪标签更加准确。这样,通过在多个训练阶段,构建越来越准确的伪标签、动态调整损失函数,提升分类性能。
Description
技术领域
本申请涉及图像处理系统技术领域,尤其涉及一种图像处理方法、图像处理系统及计算机可读介质。
背景技术
图像分类,旨在将不同的图片划分在不同的类别。当一张图片拥有多个物体或属性时,需要根据多个物体或属性分别进行划分。这就需要对图片的每个物体或属性进行标注。人工标注消耗人力,且标注效率低、成本高。图像多标签分类(multi-labelclassification)方法,能够对图片的多个类别标签进行自动化识别,极大的提升分类速度。
基于单正标签的多标签分类方法,能够在图像训练集缺失标签的情况下,完成多标签分类。单正标签,是缺失标签的极限情况,即每张图片仅已知一个正标签,其余标签均未知。利用单正标签进行多标签分类时,通常假设未知标签为负标签。
然而,正标签在全部标签中占比较小,将未知标签假设为负标签会导致假负标签。即实际为正标签,但被假设为负标签。虽然假负标签的数量很少,但这些噪声会造成分类性能不佳的问题。
发明内容
本申请实施例提供一种图像处理方法、图像处理系统及计算机可读介质,用以解决现有的基于单正标签的多标签分类方法分类性能不佳的技术问题。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供一种图像处理方法,该图像处理方法包括:构建单正标签图像集的第一伪标签;将单正标签图像集输入第一分类器,得到类别概率向量;根据类别概率向量和第一伪标签,计算第一损失函数;根据第一损失函数,优化第一分类器,得到第二分类器;将单正标签图像集输入第二分类器,得到第一预测概率和第二预测概率;根据第一预测概率,构建第二伪标签;根据第二伪标签和第二预测概率,计算第二损失函数;以及,根据第一预测概率和第一伪标签,计算第三损失函数;根据第二损失函数和第三损失函数,优化第二分类器,得到第三分类器。
基于上述本申请实施例提供的图像处理方法,可知,该图像处理方法包括优化第一分类器,得到第二分类器。以及,优化第二分类器,得到第三分类器。这样,完成不同的训练阶段的构建。通过构建第一伪标签和第二伪标签,使得不同训练阶段的伪标签不同。使用第一损失函数优化第一分类器,得到第二分类器。以及,使用第二损失函数和第三损失函数优化第二分类器,得到第三分类器。可见,该图像处理方法中不同的训练阶段损失函数不同,实现损失函数的动态调整。相比第一伪标签,第二伪标签通过第二分类器输出的第一预测概率得到,第二伪标签更加准确。这样,通过在多个训练阶段,构建越来越准确的伪标签,以及动态调整损失函数,提升分类性能。
在第一方面可行的实现方式中,图像处理方法还包括:将单正标签图像集输入第三分类器,得到第三预测概率和第四预测概率;根据第三预测概率,构建第三伪标签;根据第三预测概率和第三伪标签,计算第四损失函数;以及,根据第四预测概率和第二伪标签,计算第五损失函数;根据第四损失函数和第五损失函数,优化第三分类器,得到第四分类器。
这样,构建三个图像训练阶段。每个图像训练阶段通过构建不同的伪标签作为学习目标。随着第一伪标签、第二伪标签和第三伪标签越来越准确,提升分类性能。减少单正标签数据给模型带来的累积误差,提高模型的准确率和泛化能力。
在第一方面可行的实现方式中,在执行将单正标签图像集输入第一分类器,得到类别概率向量的步骤时,图像处理方法还包括:对单正标签图像集中的图像进行弱数据增强,得到弱增强图像;将弱增强图像输入第一分类器。
在优化第一分类器的阶段,弱数据增强有利于第二分类器获得更好的分类性能。相比强数据增强,弱数据增强的效果更好。
在第一方面可行的实现方式中,在执行将单正标签图像集输入第二分类器,得到第一预测概率和第二预测概率的步骤时,图像处理方法还包括:将弱增强图像输入第二分类器,得到第一预测概率;对单正标签图像集中的图像进行强数据增强,得到强增强图像;将强增强图像输入第二分类器,得到第二预测概率。
这样,同时使用弱数据增强和强数据增强,能够提升分类性能。
在第一方面可行的实现方式中,在执行将单正标签图像集输入第三分类器,得到第三预测概率和第四预测概率的步骤时,图像处理方法还包括:对单正标签图像集中的图像进行弱数据增强,得到弱增强图像;将弱增强图像输入第三分类器,得到第三预测概率。
在第一方面可行的实现方式中,在执行将单正标签图像集输入第三分类器,得到第三预测概率和第四预测概率的步骤时,图像处理方法还包括:对单正标签图像集中的图像进行强数据增强,得到强增强图像;将强增强图像输入第三分类器,得到第四预测概率。
这样,使用强数据增强,可以提高分类器的鲁棒性,提升分类性能。
在第一方面可行的实现方式中,在执行将单正标签图像集输入第三分类器,得到第三预测概率和第四预测概率的步骤时,图像处理方法还包括:对单正标签图像集中的图像进行弱数据增强,得到弱增强图像;将弱增强图像输入第三分类器,得到第三预测概率。对单正标签图像集中的图像进行强数据增强,得到强增强图像;将强增强图像输入第三分类器,得到第四预测概率。
这样,同时使用弱数据增强和强数据增强,能够提升分类性能。
在第一方面可行的实现方式中,构建第一伪标签时,图像处理方法还包括:将未知标签转换为负标签。
在第一方面可行的实现方式中,在执行根据第一预测概率,构建第二伪标签的步骤时,图像处理方法还包括:若第一预测概率大于正阈值,则第二伪标签的值为一;若第一预测概率小于负阈值,则第二伪标签的值为零;若第一预测概率小于等于正阈值,且大于等于负阈值,则第二伪标签的值为空。
在第一方面可行的实现方式中,第二伪标签中第i个元素的公式如下:
其中,表示为第一预测概率,即第二分类器对弱增强图像预测的第i个类别标签的概率值;δ+表示为正阈值;δ-表示为负阈值。
在一些实施例中,正阈值δ+和负阈值δ-设置为非对称值。
这样,其余低置信度的预测类别被忽略,能够更好地平衡正负伪标签的数量和质量。可以理解的是,低置信度的预测类别构建的伪标签通常不准确。
在第一方面可行的实现方式中,在执行根据第三预测概率,构建第三伪标签的步骤时,图像处理方法还包括:若第一伪标签的值为一,则第三伪标签的值为一;若第一伪标签的值不为一,则第三伪标签的值为第三预测概率的值。
在第一方面可行的实现方式中,第三伪标签中第i个元素的公式如下:
其中,表示为第一伪标签中的第i个元素;/>表示为第三预测概率,即第三分类器对弱增强图像预测的第i个类别标签的概率值。
这样,我们保留已知正标签,对未知标签,用对弱数据增强图像的预测概率值作为伪标签。相比于直接假设为负标签,概率值能够更准确描述类别信息。
在第一方面可行的实现方式中,第一损失函数的公式如下:
其中,p表示为类别概率向量,即第一分类器对单正图像集的图像预测的概率值;pi表示为对单正图像集的图像中第i个类别标签预测的概率值;表示为第一伪标签;L表示为类别标签的总数目;/>表示为指示函数,条件满足时/>的值为一,条件不满足时/>的值为零;γ表示为对未知标签的降权系数,未知标签即假设负标签。
在第一方面可行的实现方式中,γ设置为
在第一方面可行的实现方式中,第二损失函数的公式如下:
其中,ps表示为第二预测概率,即第二分类器对强增强图像预测的概率值,表示为第i个类别标签的第二预测概率;/>表示为第二伪标签,/>表示为第二伪标签的第i个元素;L表示为类别标签的总数目;/>表示为指示函数,条件满足时/>的值为一,条件不满足时/>的值为零。
在第一方面可行的实现方式中,第三损失函数可以使用公式pw表示为第一预测概率,即第二分类器对弱增强图像预测的概率值;/>表示为第一伪标签。
在第一方面可行的实现方式中,第四损失函数的公式如下:
其中,表示为第三预测概率,/>表示为第三分类器对弱增强图像第i个类别标签预测的概率值;/>表示为第三伪标签,/>表示为第三伪标签中第i个元素;L表示为类别标签的总数目。
在第一方面可行的实现方式中,第五损失函数可以使用公式 表示为第四预测概率,即第三分类器对强增强图像预测的概率值;/>表示为第二伪标签。
第二方面,提供一种图像处理系统,该图像处理系统包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面提供的图像处理方法。
本申请实施例提供的图像处理系统能够执行如第一方面提供的图像处理方法,这样,图像处理系统通过在多个训练阶段,构建越来越准确的伪标签,以及动态调整损失函数,提升分类性能。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令可被处理器执行以实现如第一方面提供的图像处理方法。
本申请实施例提供的计算机可读存储介质存储有能够执行如第一方面提供的图像处理方法的计算机程序指令,通过在多个训练阶段,构建越来越准确的伪标签,以及动态调整损失函数,提升分类性能。
附图说明
图1为本申请一实施例提供的图像处理方法的流程示意图;
图2为图1所示的图像处理方法中数据的流转示意图;
图3为图1所示的图像处理方法中图像的真实标签向量的示意图;
图4为图3所示的对真实标签向量构建的第一伪标签的示意图;
图5为本申请一实施例提供的图像处理方法的流程示意图;
图6为本申请一实施例提供的图像处理方法中单正标签图像集中的一张图像的示意图;
图7为图6所示的图像的弱增强图像的一种可行的实现方式;
图8为本申请一实施例提供的图像处理方法的流程示意图;
图9为图8所示的图像处理方法中第一预测概率的示意图;
图10为图6所示的图像的强增强图像的一种可行的实现方式;
图11为图8所示的图像处理方法中第二预测概率的示意图;
图12为本申请一实施例提供的图像处理方法中第二伪标签的示意图;
图13为本申请一实施例提供的图像处理方法的流程示意图;
图14为图13所示的图像处理方法中数据的流转示意图;
图15为本申请一实施例提供的图像处理方法的流程示意图;
图16为图15所示的图像处理方法中第三预测概率的示意图;
图17为本申请一实施例提供的图像处理方法的流程示意图;
图18为图17所示的图像处理方法中第四预测概率的示意图;
图19为本申请一实施例提供的图像处理方法中第三伪标签的示意图;
图20为适用于实现本申请实施例中的方案的一种设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种图像处理方法,该图像处理方法可以应用于图像多标签分类的场景中,能够提升分类性能。
图像多标签分类可以涉及诸多领域,比如计算机视觉领域(computer vision,CV)。
计算机视觉,是计算机科学领域与人工智能领域中的一个重要方向。研究如何通过使用计算机,对数字图像进行识别、处理和生成。在计算机视觉领域中,图像多标签分类是一个重要的研究方向。
图像,比如一张图片,通常拥有多个物体或属性。因而以多标签的形式进行建模更加合理,多标签分类应运而生。
多标签分类(multi-label classification),旨在训练一个分类器,判断样本与标签集合中的每个标签是相关或无关的。即给定一个样本和多个类别标签组成的标签集合,对各个标签进行二分类。其中,样本的各个真实标签通常是已知的。即真实标签为正标签或负标签。正标签用于表明与样本相关。负标签用于表明与样本无关。
在进行多标签分类的图像训练集中,人工标注消耗人力,且标注效率低、成本高。自动化识别图片的多个类别标签成为趋势。
基于单正标签的多标签分类,能够实现对图片的多个类别标签的进行自动化识别。对图像训练集进行多标签分类时,允许图像训练集中的图片缺失标签,在分类时降低了对数据的依赖,方便扩大数据集规模。
单正标签(single positive label),是缺失标签的极限情况,即每张图片仅已知一个正标签,其余标签均未知。利用单正标签进行多标签分类时,通常假设未知标签为负标签。以在图像训练集缺失标签的情况下,进行多标签分类。
为了更好的说明本申请实施例提供的图像处理方法,首先说明本申请实施例涉及的以下概念。
深度学习(deep learning),是一种人工智能(artificial intelligence,AI)方法,用于教计算机以受人脑启发的方式处理数据。深度学习模型可以识别图片、文本、声音和其他数据中的复杂模式,从而生成准确的见解和预测。
卷积神经网络(convolutional neural networks,CNN),是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks),是深度学习的代表算法之一。
数据增强(data augmentation),使用少量数据通过先验知识产生更多的相似生成数据来扩展训练数据集的方法。在一些实施例中,图像的数据增强方法可以是随机裁剪,也可以是随机水平翻转等。
损失函数(loss function):损失函数是用来量化模型预测和真实标签之间差异的一个非负实数函数,是深度学习的优化目标。
下面结合附图对本申请实施例提供的图像处理方法进行详细说明。
图1为本申请一实施例提供的图像处理方法的流程示意图。图2为图1所示的图像处理方法中数据的流转示意图。如图1和图2所示,在一些实施例中,该图像处理方法包括以下步骤:
S1,构建单正标签图像集的第一伪标签。
在一些实施例中,单正标签图像集中任意一张图像x,其真实标签向量y包括L个元素。即真实标签向量y有L个类别标签。真实标签向量y的第i个元素yi的值可以为0、1或者yi的值为0,表示第i个类别标签为负标签。yi的值为1,表示第i个类别标签为正标签。yi的值为/>表示第i个类别标签为未知标签。
单正标签的图像,标签向量y中仅有一个元素为正标签,其余均为未知标签,该任务的目标是仅利用单正标签,训练一个性能良好的多标签分类器。
图3为图1所示的图像处理方法中图像的真实标签向量的示意图。如图3所示,真实标签向量的标签矩阵中行是“某一个样本的全部类别标签”,列是分类。
图4为图3所示的对真实标签向量构建的第一伪标签的示意图。如图3和图4所示,在一些实施例中,在单正标签图像集缺失真实标签的情况下,构建第一伪标签(pseudolabel)。即假设未知标签为负标签,将如图3所示的值为的未知标签,变更为如图4所示的值为0的负标签,构造出如图4所示的标签集合,从而让分类器可以进行训练。
S2,将单正标签图像集输入第一分类器,得到类别概率向量。
图5为本申请一实施例提供的图像处理方法的流程示意图。如图5所示,在一些实施例中,在执行步骤S2时,图像处理方法还包括以下步骤:
S201,对单正标签图像集中的图像进行弱数据增强,得到弱增强图像。
在一些实施例中,图像的弱数据增强方法有多种。比如,可以是随机裁剪,也可以是随机水平翻转。
图6为本申请一实施例提供的图像处理方法中单正标签图像集中的一张图像的示意图。图7为图6所示的图像的弱增强图像的一种可行的实现方式。示例性的,通过水平翻转如图6所示的图像,得到如图7所示的弱增强图像。
S202,将弱增强图像输入第一分类器。
S3,根据类别概率向量和第一伪标签,计算第一损失函数。
示例性的,第一损失函数的公式如下:
其中,p表示为类别概率向量,即第一分类器对单正图像集的图像预测的概率值;pi表示为对单正图像集的图像中第i个类别标签预测的概率值;表示为第一伪标签;L表示为类别标签的总数目;/>表示为指示函数,条件满足时Ⅱ[.]的值为一,条件不满足时/>的值为零;γ表示为对未知标签的降权系数,未知标签即假设负标签。
第一损失函数中WAN的全称为weak assume negative,该方法在计算假设负标签的损失函数时,能够降低噪声影响,进而降低假负标签的影响。
S4,根据第一损失函数,优化第一分类器,得到第二分类器。
S5,将单正标签图像集输入第二分类器,得到第一预测概率和第二预测概率。
图8为本申请一实施例提供的图像处理方法的流程示意图。如图8所示,在一些实施例中,在执行步骤S5时,图像处理方法还包括以下步骤:
S501,将弱增强图像输入第二分类器,得到第一预测概率。
图9为图8所示的图像处理方法中第一预测概率的示意图。如图9所示,在一种实现方式中,将如图7所示的弱增强图像,输入第二分类器中。得到如图9所示的第一预测概率。
在优化第一分类器的阶段,弱数据增强有利于第二分类器获得更好的分类性能。相比强数据增强,弱数据增强的效果更好。
S502,对单正标签图像集中的图像进行强数据增强,得到强增强图像。
图10为图6所示的图像的强增强图像的一种可行的实现方式。如图10所示,在一些实施例中,强数据增强的方法可以是RandAug。相比弱数据增强,强数据增强对图像的修改较大。
使用强数据增强,可以提高分类器的鲁棒性,提升分类性能。
S503,将强增强图像输入第二分类器,得到第二预测概率。
图11为图8所示的图像处理方法中第二预测概率的示意图。如图11所示,在一些实施例中,将如图10所示的强增强图像,输入第二分类器中。得到如图11所示的第二预测概率。
通过执行步骤S501至步骤S503,同时使用弱数据增强和强数据增强,能够提升分类性能。
S6,根据第一预测概率,构建第二伪标签。
在一些实施例中,在执行步骤S6时:若第一预测概率大于正阈值,则第二伪标签的值为一,第二伪标签为正标签。若第一预测概率小于负阈值,则第二伪标签的值为零,第二伪标签为负标签。若第一预测概率小于等于正阈值,且大于等于负阈值,则第二伪标签的值为空。
一并结合图9和图12,示例性的,第二伪标签中第i个元素的公式如下:
其中,表示为第一预测概率,即第二分类器对弱增强图像预测的第i个类别标签的概率值;δ+表示为正阈值;δ-表示为负阈值。
在一些实施例中,正阈值δ+和负阈值δ-设置为非对称值。这样,其余低置信度的预测类别被忽略,能够更好地平衡正负伪标签的数量和质量。可以理解的是,低置信度的预测类别构建的伪标签通常不准确。
S7,根据第二伪标签和第二预测概率,计算第二损失函数。以及,根据第一预测概率和第一伪标签,计算第三损失函数。
示例性的,第二损失函数的公式如下:
其中,ps表示为第二预测概率,即第二分类器对强增强图像预测的概率值,表示为第i个类别标签的第二预测概率;/>表示为第二伪标签,/>表示为第二伪标签的第i个元素;L表示为类别标签的总数目;/>表示为指示函数,条件满足时/>的值为一,条件不满足时/>的值为零。
示例性的,第三损失函数可以使用公式pw表示为第一预测概率,即第二分类器对弱增强图像预测的概率值;/>表示为第一伪标签。
S8,根据第二损失函数和第三损失函数,优化第二分类器,得到第三分类器。
该图像处理方法包括优化第一分类器,得到第二分类器。以及,优化第二分类器,得到第三分类器。这样,完成不同的训练阶段的构建。通过构建第一伪标签和第二伪标签,使得不同训练阶段的伪标签不同。使用第一损失函数优化第一分类器,得到第二分类器。以及,使用第二损失函数和第三损失函数优化第二分类器,得到第三分类器。可见,该图像处理方法中不同的训练阶段损失函数不同,实现损失函数的动态调整。相比第一伪标签,第二伪标签通过第二分类器输出的第一预测概率得到,第二伪标签更加准确。这样,通过在多个训练阶段,构建越来越准确的伪标签,以及动态调整损失函数,提升分类性能。
为了进一步提升分类性能,图13为本申请一实施例提供的图像处理方法的流程示意图。图14为图13所示的图像处理方法中数据的流转示意图。如图13和图14所示,在一些实施例中,在执行步骤S1至步骤S8之后,图像处理方法还包括以下步骤:
S9,将单正标签图像集输入第三分类器,得到第三预测概率和第四预测概率。
图15为本申请一实施例提供的图像处理方法的流程示意图。如图15所示,在一些实施例中,在执行步骤S9时,图像处理方法还包括以下步骤:
S901,对单正标签图像集中的图像进行弱数据增强,得到弱增强图像。
可以参见步骤S201,在此不作赘述。
S902,将弱增强图像输入第三分类器,得到第三预测概率。
图16为图15所示的图像处理方法中第三预测概率的示意图。如图16所示,在一种实现方式中,将如图7所示的弱增强图像,输入第三分类器中。得到如图16所示的第三预测概率。
图17为本申请一实施例提供的图像处理方法的流程示意图。如图17所示,在一些实施例中,在执行步骤S9时,图像处理方法还包括以下步骤:
S903,对单正标签图像集中的图像进行强数据增强,得到强增强图像。
S904,将强增强图像输入第三分类器,得到第四预测概率。
图18为图17所示的图像处理方法中第四预测概率的示意图。如图18所示,在一种实现方式中,将如图10所示的强增强图像,输入第三分类器中,得到如图18所示的第四预测概率。
在一些实施例中,可以同时执行步骤S901和步骤S903。
S10,根据第三预测概率,构建第三伪标签。
在一些实施例中,在执行步骤S10时:若第一伪标签的值为一,则第三伪标签的值为一。若第一伪标签的值不为一,则第三伪标签的值为第三预测概率的值。
相比第一伪标签和第二伪标签,第三伪标签更加准确。
图19为本申请一实施例提供的图像处理方法中第三伪标签的示意图。如图19所示,示例性的,第三伪标签中第i个元素的公式如下:
其中,表示为第一伪标签中的第i个元素;/>表示为第三预测概率,即第三分类器对弱增强图像预测的第i个类别标签的概率值。
这样,我们保留已知正标签,对未知标签,用对弱数据增强图像的预测概率值作为伪标签。相比于直接假设为负标签,概率值能够更准确描述类别信息。
S11,根据第三预测概率和第三伪标签,计算第四损失函数。以及,根据第四预测概率和第二伪标签,计算第五损失函数。
示例性的,第四损失函数的公式如下:
其中,表示为第三预测概率,/>表示为第三分类器对弱增强图像第i个类别标签预测的概率值;/>表示为第三伪标签,/>表示为第三伪标签中第i个元素;l表示为类别标签的总数目。
示例性的,第五损失函数可以使用公式 表示为第四预测概率,即第三分类器对强增强图像预测的概率值;/>表示为第二伪标签。
S12,根据第四损失函数和第五损失函数,优化第三分类器,得到第四分类器。
以上,通过执行步骤S1至步骤S12,构建三个图像训练阶段。每个图像训练阶段通过构建不同的伪标签作为学习目标。随着第一伪标签、第二伪标签越来越准确,提升分类性能。用更准确的伪标签重新训练新分类器,可以减少错误信息学习,提高新分类器性能。以及,使用强数据增强图像训练第三分类器,提高第四分类器鲁棒性,进一步提升性能。减少单正标签数据给模型带来的累积误差,提高模型的准确率和泛化能力。
基于同一发明构思,本申请实施例中还提供了一种图像处理系统,所述图像处理系统对应的方法可以是前述实施例中的图像处理方法,并且其解决问题的原理与该方法相似。本申请实施例提供的所述图像处理系统包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述本申请的多个实施例的方法和/或技术方案。
所述图像处理系统可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序,所述用户设备包括但不限于计算机、手机、平板电脑、智能手表、手环等各类终端设备,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现,可以用于实现设置闹钟时的部分处理功能。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图20示出了适用于实现本申请实施例中的方法和/或技术方案的一种设备的结构。如图20所示,在一些实施例中,该设备1200包括中央处理单元(CPU,CentralProcessing Unit)1201,其可以根据存储在只读存储器(ROM,Read Only Memory)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM,Random Access Memory)1203中的程序而执行各种适当的动作和处理。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O,Input/Output)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标、触摸屏、麦克风、红外传感器等的输入部分1206;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,LiquidCrystal Display)、LED显示器、OLED显示器等以及扬声器等的输出部分1207;包括硬盘、光盘、磁盘、半导体存储器等一个或多个计算机可读介质的存储部分1208;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。
在一些实施例中,触摸屏为可视窗口,作为内容分享的界面将应用的内容展示给用户。
特别地,本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的方法中限定的上述功能。
本申请另一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现前述本申请的任意一个或多个实施例的方法和/或技术方案。
具体来说,本实施例可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或页面组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一个计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
构建单正标签图像集的第一伪标签;
将所述单正标签图像集输入第一分类器,得到类别概率向量;
根据所述类别概率向量和所述第一伪标签,计算第一损失函数;
根据所述第一损失函数,优化所述第一分类器,得到第二分类器;
将所述单正标签图像集输入所述第二分类器,得到第一预测概率和第二预测概率;
根据所述第一预测概率,构建第二伪标签;
根据所述第二伪标签和所述第二预测概率,计算第二损失函数;以及,根据所述第一预测概率和所述第一伪标签,计算第三损失函数;
根据所述第二损失函数和所述第三损失函数,优化所述第二分类器,得到第三分类器。
2.根据权利要求1所述的图像处理方法,其特征在于,所述图像处理方法还包括:
将所述单正标签图像集输入所述第三分类器,得到第三预测概率和第四预测概率;
根据所述第三预测概率,构建第三伪标签;
根据所述第三预测概率和所述第三伪标签,计算第四损失函数;以及,根据所述第四预测概率和所述第二伪标签,计算第五损失函数;
根据所述第四损失函数和所述第五损失函数,优化所述第三分类器,得到第四分类器。
3.根据权利要求1或2所述的图像处理方法,其特征在于,在执行所述将所述单正标签图像集输入所述第一分类器,得到所述类别概率向量的步骤时,所述图像处理方法还包括:
对单正标签图像集中的图像进行弱数据增强,得到弱增强图像;
将所述弱增强图像输入所述第一分类器。
4.根据权利要求3所述的图像处理方法,其特征在于,在执行所述将所述单正标签图像集输入所述第二分类器,得到所述第一预测概率和所述第二预测概率的步骤时,所述图像处理方法还包括:
将所述弱增强图像输入所述第二分类器,得到所述第一预测概率;
对单正标签图像集中的图像进行强数据增强,得到强增强图像;
将所述强增强图像输入所述第二分类器,得到所述第二预测概率。
5.根据权利要求2所述的图像处理方法,其特征在于,在执行所述将所述单正标签图像集输入所述第三分类器,得到所述第三预测概率和所述第四预测概率的步骤时,所述图像处理方法还包括:
对单正标签图像集中的图像进行弱数据增强,得到弱增强图像;
将所述弱增强图像输入所述第三分类器,得到所述第三预测概率。
6.根据权利要求5所述的图像处理方法,其特征在于,在执行所述将所述单正标签图像集输入所述第三分类器,得到所述第三预测概率和所述第四预测概率的步骤时,所述图像处理方法还包括:
对单正标签图像集中的图像进行强数据增强,得到强增强图像;
将所述强增强图像输入所述第三分类器,得到所述第四预测概率。
7.根据权利要求1或2所述的图像处理方法,其特征在于,在执行根据所述第一预测概率,构建所述第二伪标签的步骤时,所述图像处理方法还包括:
若所述第一预测概率大于正阈值,则所述第二伪标签的值为一;
若所述第一预测概率小于负阈值,则所述第二伪标签的值为零;
若所述第一预测概率小于等于所述正阈值,且大于等于所述负阈值,则所述第二伪标签的值为空。
8.根据权利要求2所述的图像处理方法,其特征在于,在执行所述根据所述第三预测概率,构建所述第三伪标签的步骤时,所述图像处理方法还包括:
若所述第一伪标签的值为一,则所述第三伪标签的值为一;
若所述第一伪标签的值不为一,则所述第三伪标签的值为所述第三预测概率的值。
9.一种图像处理系统,其特征在于,所述图像处理系统包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。
10.一种计算机可读介质,其特征在于,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742452.2A CN117876751A (zh) | 2023-12-15 | 2023-12-15 | 图像处理方法、图像处理系统及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742452.2A CN117876751A (zh) | 2023-12-15 | 2023-12-15 | 图像处理方法、图像处理系统及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117876751A true CN117876751A (zh) | 2024-04-12 |
Family
ID=90583727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311742452.2A Pending CN117876751A (zh) | 2023-12-15 | 2023-12-15 | 图像处理方法、图像处理系统及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117876751A (zh) |
-
2023
- 2023-12-15 CN CN202311742452.2A patent/CN117876751A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN112966522A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN110490239B (zh) | 图像质控网络的训练方法、质量分类方法、装置及设备 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN109918513B (zh) | 图像处理方法、装置、服务器及存储介质 | |
CN115063875B (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
EP3620982A1 (en) | Sample processing method and device | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN113379627A (zh) | 图像增强模型的训练方法和对图像进行增强的方法 | |
WO2022161302A1 (zh) | 动作识别方法、装置、设备、存储介质及计算机程序产品 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN112949433B (zh) | 视频分类模型的生成方法、装置、设备和存储介质 | |
EP4060526A1 (en) | Text processing method and device | |
CN114882321A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
US20240070454A1 (en) | Lightweight model training method, image processing method, electronic device, and storage medium | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN114861758A (zh) | 多模态数据处理方法、装置、电子设备及可读存储介质 | |
CN114299366A (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
JP2023531759A (ja) | 車線境界線検出モデルの訓練方法、車線境界線検出モデルの訓練装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN113239883A (zh) | 分类模型的训练方法、装置、电子设备以及存储介质 | |
CN117576648A (zh) | 自动驾驶的场景挖掘方法、装置、电子设备及存储介质 | |
CN112839185A (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN115049546A (zh) | 样本数据处理方法、装置、电子设备及存储介质 | |
CN110704650A (zh) | Ota图片标签的识别方法、电子设备和介质 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |