CN118135321A

CN118135321A - 一种基于样本标注质量修正的图像分类算法、系统、设备及介质

Info

Publication number: CN118135321A
Application number: CN202410316767.9A
Authority: CN
Inventors: 张翰博; 张哲�; 徐超; 王予津; 刘祎; 曹军
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-04

Abstract

本发明提供一种基于样本标注质量修正的图像分类算法、系统、设备及介质，其特征在于，包括：获取已标注图片，进行样本标注质量评分，生成较为全面的样本标注质量评估；基于所述样本标注质量评估，进行样本标注质量评分融合，生成每个样本标注的质量评分；基于所述样本标注的质量评分，进行样本质量的图像分类模型修正，生成样本质量模型修正图像分类模型。现有的方法难以基于样本标注质量科学地调整这些权重，并将其有效地整合到图像分类模型中。本发明提出了一种基于样本标注质量修正的图像分类算法，解决在没有任何先验知识的情况下，实现图像的数据样本质量判定以及模型优化，量化了图像样本标注质量，并基于样本质量评分，提升了图像分类模型的效果。

Description

一种基于样本标注质量修正的图像分类算法、系统、设备及介质

技术领域

本发明涉及机器视觉在工业领域，尤其涉及一种基于样本标注质量修正的图像分类算法。

背景技术

经过调研发现，现有技术在图像样本标注质量的评估方面存在困难，特别是在工业领域的图片分类模型中。主要面临三大挑战：首先，标注样本的质量对于大规模数据集至关重要，但评估这些质量需要投入大量时间和人力，同时标注者的主观性也可能影响标签的准确性。目前，我们缺乏一种自动化的量化评估方法来准确衡量这些质量。其次，样本标注的质量受到多种因素的影响，但现有技术无法有效地将这些因素融合，以提供一个综合的样本质量评分。最后，将样本标注质量评分纳入分类模型需要为样本赋予不同的权重。然而，现有的方法难以基于样本标注质量科学地调整这些权重，并将其有效地整合到图像分类模型中。

为了解决这些问题，本发明提出了一种在工业领域应用机器视觉的方法。该方法旨在实现工业图像分类任务中样本质量的判定，以及利用样本质量信息提高模型分类精度的自动化流程。由于工业图像数据的标注质量可能因标注者的主观性而参差不齐，导致一致性较差，目前的标注质量评估方法都需要专家和从业人员手动参与，难以自动化评估。本发明基于构建样本标注质量分数，通过对图像分类模型的修正，实现更准确的分类结果。本发明引入了样本标注质量分数的概念，并通过交叉验证、类别代表性以及类别倾斜程度三种因素来确定样本标注质量分数。样本标注质量分数是对每个数据样本的评估，反映了其在分类任务中的重要性和可靠性。通过构建样本质量融合模型融合多种样本标注质量评分，并将其通过代价敏感学习范式融入图像分类模型。

发明内容

针对上述问题，为了解决行业痛点，科学评估和利用样本质量，本发明提出了一种基于样本标注质量修正的图像分类算法，解决在没有任何先验知识的情况下，实现图像的数据样本质量判定以及模型优化，量化了图像样本标注质量，并基于样本质量评分，提升了图像分类模型的效果。

本发明提出一种基于样本标注质量修正的图像分类算法，通过构建样本标注质量分数，以及通过构建多种质量评价分数对标注质量进行评价，同时基于标注质量分数通过代价敏感学习对图像分类模型的修正，实现更准确的分类结果。与传统的标注质量评价方法相比更加全面和自动化。与传统图像分类算法相比，在标注质量较差的工业场景下具有更高的识别分类准确率。

一种基于样本标注质量修正的图像分类算法，主要包括：

S1：获取已标注图片，进行样本标注质量评分，生成较为全面的样本标注质量评估；

优选的，样本标注质量评分包含三个对于样本质量进行评价的子步骤，分别从样本标注一致性、样本标注的类别代表能力以及样本标注倾斜程度三个角度得到三种不同的样本标注质量因素评分。以得到较为全面的样本标注质量评估，以解决样本标注缺乏量化评估方式的问题。

优选的，质量因素评分1利用置信学习估计样本标注的置信度。具体而言，将训练数据分成n组，利用交叉验证确定样本标注一致性程度，以此来作为质量因素评分1。

优选的，质量因素评分2利用表示学习对图片编码，得到的图片表示向量的平均内类距和平均类间距指标获得每个样本在特征层面对于类别的代表性，以此来作为质量因素评分2。

优选的，质量因素评分3通过统计样本偏斜指标，得到样本类别偏斜程度，以此来作为质量因素评分3。

S2：基于获取的样本标注质量评估，进行样本标注质量评分融合，生成每个样本标注的质量评分；

优选的，样本标注质量评分融合模块根据上述三种样本质量因素构建样本质量判定模型，通过专家对一小部分样本质量进行排序，通过排序学习模型的范式拟合样本质量因素判定模型f(质量因素1，质量因素2，质量因素3)，以得到每个样本标注的质量评分。以解决难以融合多种标注质量因素问题。

S3：基于获取每个样本标注的质量评分，进行样本质量的图像分类模型修正，生成样本质量模型修正图像分类模型。

优选的，样本质量的图像分类模型修正基于一个基础图像分类模型，利用质量评分融合模块得到的样本质量分数，将样本质量分数通过代价敏感学习范式，将数据标注质量评分融入基础图像分类模型。以解决如何准确科学地调整样本的权重问题。

基于上述提出的基于样本标注质量修正的图像分类算法，为了更好地实现本发明，进一步地提出一种基于样本标注质量修正的图像分类系统，包括：样本标注质量评分模块、样本标注质量评分融合模块、样本质量的图像分类模型修正模块；

所述样本标注质量评分模块，包括：质量因素评分模块1、质量因素评分模块2、质量因素评分模块3；

所述样本标注质量评分模块，用于分别从样本标注一致性、样本标注的类别代表能力以及样本标注倾斜程度三个角度得到三种不同的样本标注质量因素评分；

所述样本标注质量评分融合模块，用于根据所述样本标注质量评分模块得到的样本质量因素，构建样本质量判定模型，通过排序学习模型的范式拟合样本质量因素判定模型f，得到每个样本标注的质量评分；

所述样本质量的图像分类模型修正模块，用于基于一个基础图像分类模型，利用所述样本标注质量评分融合模块得到的样本质量分数，将样本质量分数通过代价敏感学习范式，将数据标注质量评分融入基础图像分类模型。

基于上述提出的基于样本标注质量修正的图像分类算法，为了更好地实现本发明，进一步地提出一种电子设备，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现上述的基于样本标注质量修正的图像分类算法。

基于上述提出的基于样本标注质量修正的图像分类算法，为了更好地实现本发明，进一步地提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在上述的电子设备上执行时，实现上述的基于样本标注质量修正的图像分类算法。

有益效果：

1.提高数据生产效率：通过标注质量评价分数，可以筛选出高质量的标注样本，减少模型训练时所需的数据量。这将减少数据预处理和训练时间，提高生产效率。

2.降低成本：标注质量评价分数可以帮助避免使用低质量的标注样本，从而减少后续处理阶段中由于错误标注导致的资源浪费和修复成本。

3.提高模型精度：通过融合标注质量分数，可以调整模型对不同标注样本的权重，使模型更加关注高质量的样本，从而提高分类模型的性能和准确度。

4.提高模型鲁棒性：使用高质量的标注数据可以减少标注噪声和错误，从而提高模型的鲁棒性和泛化能力。模型可以更好地应对嘈杂或有挑战性的样本，提高分类准确性和稳定性。

5.提升模型可解释性：通过标注质量评价分数，可以识别和排除低质量的标注样本。这样可以提高模型对于关键特征的学习和理解，增强模型的可解释性和可信度。

6.优化数据采集策略：通过标注质量评价分数，可以了解标注数据的质量分布和标注者的表现情况。根据评价结果，可以针对性地优化数据采集策略，选择更可靠和高质量的标注来源，提高数据采集效率和效果。

7.改进标注质量管理：通过对标注质量进行评价和监控，可以建立标注质量管理的体系和流程。这包括培训标注者、制定标注规范、实施标注质量检查等措施，从而提高整体标注质量和一致性。

8.提供更精细的反馈信息：通过标注质量评价分数，可以向标注者提供更精细的反馈信息，指导其改进标注质量。这有助于标注者不断提升标注技能和专业水平，进一步提高标注质量。

9.提高工业产品质量：在工业场景中，通过标注质量评价分数，可以确保工业产品标注的准确性和一致性，从而提高产品质量和可靠性。

10.改善决策支持：在工业场景中，通过使用高质量的标注数据，工业决策者可以获得更准确的数据分析和预测结果，从而更好地指导决策和优化生产流程。

总而言之，本专利可以提高模型鲁棒性、可解释性和数据采集策略的优化，改进标注质量管理，并提供更精细的反馈信息。并在工业场景下提高产品质量、降低人工错误率和改善决策支持。这将帮助提升整个工业流程的效率和可持续发展。

附图说明

图1为一种基于样本标注质量修正的图像分类算法的流程图；

图2为一种基于样本标注质量修正的图像分类算法的质量评价模块1的原理流程图；

图3为一种基于样本标注质量修正的图像分类算法的质量评价模块2的原理流程图；

图4为一种基于样本标注质量修正的图像分类算法的质量评价模块3的原理流程图；

图5为一种基于样本标注质量修正的图像分类算法的样本标注质量评分融合模块的原理流程图；

图6为一种基于样本标注质量修正的图像分类算法的样本标注质量模型修正模块的原理流程图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”“相连”“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明的输入是一个已标注好的带标注数据集，这里我们用LD指代，带标注数据集的数据部分用D指代，标注部分用L指代。通过样本标注质量评分模块得到三种样本标注质量评分，通过样本标注质量评分融合模块融合三种样本标注质量评分。通过基于样本质量的图像分类模型修正模块得到图像分类模型，用于应用场景推理和识别。

本发明提供一种基于样本标注质量修正的图像分类算法，根据图1至图6，具体的实施方式为：

优选的，本发明通过三种质量评分模型，进行样本标注质量评分，对LD中的每条数据标注记录进行评分，具体流程如下：

根据图2所示，质量因素评分1利用交叉验证确定样本标注一致性程度，以此来作为质量因素评分1。

工作原理流程如下：将LD拆分成n份数据，每份数据中的各类别数量分布应与总体相似，这里每份数据用LD_{1-n}指代；相应的，其标注和数据分别用L_{1-_n}，D_{1-n}指代。通过每份数据训练得到一个分类器C_{1-n}。利用每个分类器C_i可以对所有的数据进行预测，然后与数据的真实类别标签比较，每条数据标注得到n个得分作为数据标注的置信度，整合这n个得分就可以得到样本标注一致性程度，以此来作为质量因素评分1，标记为F¹。

根据图3所示，质量因素评分2利用表示学习对图片编码，得到的图片表示向量，评估向量对于样本类别的代表性，以此来作为质量因素评分2。

工作原理流程如下：首先通过诸如dino等图像表示学习模型对LD中的数据D进行编码，所得到的图像表示向量表示为V，计算每条数据的表示向量的平均类内距离和平均类间距离，整合这两个指标得到样本类别的代表性，以此来作为质量因素评分2，标记为F²。

根据图4所示，质量因素评分3通过统计LD中各类别的样本数量与总体数量相比得到类别数量倾斜程度，然后计算类别间样本相似性对数量倾斜程度进行修正，得到样本类别偏斜程度，以此来作为质量因素评分3，标记为F³。

根据图5所示，标注样本通过样本标注质量评分得到三种标注质量评分分数F¹F²F³，融合三种样本质量评分，构建三种样本质量评分与专家评分的映射模型。

工作原理和流程如下：首先将LD分为两个部分，分别是LD_train和LD_test，专家对于LD_train中的质量标注进行打分，打分方式可以是绝对分数，也可以是标注质量顺序。然后通过LD_train与专家标注构建质量融合模型，对LD_test中的标注质量分数进行预测，得到样本的最终标注质量分数F^a。当打分方式为绝对分数时，损失函数用Mean Square Error(MSE)等预测系损失函数。当打分方式为标注质量排序时，损失函数用pointwise、pairwise、listwise等排序学习系损失函数。

优选的，样本标注质量模型修正，利用通过样本标注质量评分融合，得到了样本标注的质量评分F^a，以及基础图像分类模型G(.)构建基于标注质量评分修正的图像分类模型。模型构建基于代价敏感学习范式，将样本质量分数与代价敏感学习中的代价建立联系，修正图像基础分类模型G’(.)，得到基于样本标注质量的图像分类模型输出，供应用用以推理和预测。

(1)样本标注质量评分的替代方案有人工评估、一致性评估等方法。人工评估是由专家或标注质量评估者对标注数据进行人工审核和评估。他们可以根据预定义的评估标准和指标，对标注结果进行打分或提供反馈意见。一致性评估是通过比较不同标注者对相同样本的标注结果，评估标注者之间的一致性。常用的一致性指标包括Cohen's kappa系数、Fleiss'kappa系数等。然而这些方法一方面需要大量人工参数，难以自动化生成；另一方面，考虑标注质量较为片面，难以综合性地形成样本标注评价指标。

样本标注质量评分融合的替代方案可以用简单的投票、加权等模式进行融合。然而，多种样本因素与最终的专家评分的映射关系往往具有非线性特征，所以这里通过一个深度神经网络来刻画多种样本因素与专家评分的映射关系，进而拟合样本标注质量评分融合模型。

样本标注质量模型修正的替代方案是可以从数据层面进行操作，比如如果数据质量比较高且比较重要，就可以通过数据增强的手段对于数据标注质量较高的数据进行增广。而如果确定了数据标注质量比较低的样本时，则可以直接删除。然而这种非此即彼的处理方式，一方面大大降低了模型调整的灵活性，另一方面，也难以充分利用标注样本的价值。

本实施例提出一种基于样本标注质量修正的图像分类系统，包括：样本标注质量评分模块、样本标注质量评分融合模块、样本质量的图像分类模型修正模块；

本实施例还提出一种电子设备，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现上述的基于样本标注质量修正的图像分类算法。

本实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在上述的电子设备上执行时，实现上述的基于样本标注质量修正的图像分类算法。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依说明书据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于样本标注质量修正的图像分类算法，其特征在于，包括：

获取已标注图片，进行样本标注质量评分，生成样本标注质量评估；

基于所述样本标注质量评估，进行样本标注质量评分融合，生成每个样本标注的质量评分；

基于所述样本标注的质量评分，进行样本质量的图像分类模型修正，生成样本质量模型修正图像分类模型。

2.如权利要求1所述的基于样本标注质量修正的图像分类算法，其特征在于，所述样本标注质量评分，由质量因素评分1、质量因素评分2、质量因素评分3组成；所述样本标注质量评分分别从样本标注一致性、样本标注的类别代表能力和样本标注倾斜程度三个角度得到三种不同的样本标注质量因素评分。

3.如权利要求2所述的基于样本标注质量修正的图像分类算法，其特征在于，所述质量因素评分1利用置信学习估计样本标注的置信度，将训练数据分成n组，利用交叉验证确定样本标注一致性程度，得到质量因素评分1。

4.如权利要求2所述的基于样本标注质量修正的图像分类算法，其特征在于，所述质量因素评分2利用表示学习对图片编码，得到的图片表示向量的平均内类距和平均类间距指标获得每个样本在特征层面对于类别的代表性，得到质量因素评分2。

5.如权利要求2所述的基于样本标注质量修正的图像分类算法，其特征在于，所述质量因素评分3通过统计样本偏斜指标，得到样本类别偏斜程度，得到质量因素评分3。

6.如权利要求1所述的基于样本标注质量修正的图像分类算法，其特征在于，所述样本标注质量评分融合，根据所述质量因素评分1、质量因素评分2、质量因素评分3构建样本质量判定模型，通过专家对一小部分样本质量进行排序，通过排序学习模型的范式拟合样本质量因素判定模型f(质量因素1，质量因素2，质量因素3)，得到每个样本标注的质量评分。

7.如权利要求1所述的基于样本标注质量修正的图像分类算法，其特征在于，所述样本质量的图像分类模型修正，基于一个基础图像分类模型，利用所述质量评分融合得到的样本质量分数，将所述样本质量分数通过代价敏感学习范式，将所述数据标注质量评分融入基础图像分类模型。

8.一种基于样本标注质量修正的图像分类系统，其特征在于，包括：样本标注质量评分模块、样本标注质量评分融合模块、样本质量的图像分类模型修正模块；

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现如权利要求1-7任一项所述的基于样本标注质量修正的图像分类算法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在如权利要求9所述的电子设备上执行时，实现如权利要求1-7任一项所述的基于样本标注质量修正的图像分类算法。