CN115294364A

CN115294364A - 分类图像清洗方法、装置、设备及存储介质

Info

Publication number: CN115294364A
Application number: CN202211024687.3A
Authority: CN
Inventors: 欧剑港; 宋超杰; 汪亮; 张晨璐; 周丽芬; 陈国豪; 范荣辉; 李婷婷
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-04

Abstract

本申请提出一种分类图像清洗方法、装置、设备及存储介质，其中，所述方法包括：基于初始数据集的训练集训练预训练模型，得到初始数据模型；对当前数据集进行清洗，得到经过清洗后的数据集；基于经过清洗后的数据集训练所述预训练模型，得到当前数据模型；基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后的数据集，得到评估结果；判断所述评估结果是否满足预设条件，若是，则输出所述经过清洗后的数据集；否则，返回执行对当前数据集进行清洗的步骤，直到所述评估结果满足所述预设条件。本申请通过对数据进行清洗并利用数据模型评估数据清洗效果，可以达到有效提高分类图像清洗质量的技术效果。

Description

分类图像清洗方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种分类图像清洗方法、装置、设备及存储介质。

背景技术

图像分类是对输入图像的内容实现分类描述，是计算机视觉的核心任务，同时是其他计算机视觉任务的基础，在各个领域的智能视觉系统中广泛应用。

分类图像清洗作为图像分类的关键一环，而目前的分类图像清洗主要靠人工完成，有着速度慢、成本高、判断标准差异性大等缺点。相关技术中虽然提出了通过训练深度学习模型来进行图像分类，以提高图像分类的效率及准确度，为了获得可以满足一定需求的深度学习图像分类效果，必须对分类图像进行数据清洗，以获取高质量的图像数据。但相关技术并未公开较优的分类图像清洗方法，这将导致低质量数据集无法实现较好的图像分类效果。

因此，亟需提出一种可以有效提高图像分类数据质量的分类图像清洗方案。

发明内容

鉴于上述问题，本申请提供一种分类图像清洗方法、装置、设备及存储介质，用以解决目前分类图像数据质量低的技术问题。

为了实现上述目的，本申请提供如下技术方案：

根据本申请的第一方面，提供一种分类图像清洗方法，包括：

基于初始数据集的训练集训练预训练模型，得到初始数据模型，所述初始数据集的训练集和测试集包括若干类别的图像；

对当前数据集进行清洗，得到经过清洗后的数据集，其中所述当前数据集在第一次循环情况下为所述初始数据集，在其它循环情况下为对应上一次循环得到的经过清洗后的数据集；

基于经过清洗后的数据集训练所述预训练模型，得到当前数据模型；

基于所述初始数据模型和所述当前数据模型评估所述经过清洗后的数据集，得到评估结果；

判断所述评估结果是否满足预设条件，若是，则输出所述经过清洗后的数据集；否则，返回执行对当前数据集进行清洗的步骤，直到所述评估结果满足所述预设条件。

在一种实施方式中，在基于初始数据集训练预训练模型之前，还包括：

将样本数据集中图像的格式转换成相同图像格式；

基于经过格式转换的所有图像的像素尺寸及比例对经过格式转换的所有图像进行图像处理；

滤除格式转换失败以及图像处理失败的图像，得到原始数据集；

基于留出法按照类别分层随机划分所述原始数据集，得到初始数据集。

在一种实施方式中，所述预训练模型是基于残差网络ResNet架构的数据模型。

在一种实施方式中，对当前数据集进行清洗，包括：

基于当前数据模型对所述当前数据集进行特征提取，得到当前数据集中各图像的特征，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

基于各图像的特征计算各图像之间的余弦相似度值，并滤除所述余弦相似度值中大于预设阈值的对应图像；

将经过相似度滤除的图像集作为经过清洗后的数据集。

在一种实施方式中，对当前数据集进行清洗，包括：

基于所述当前数据模型预测所述当前数据集中的异常图像，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

滤除所述当前数据集中的异常图像；以及，将经过异常滤除的图像集作为经过清洗后的数据集。

在一种实施方式中，对当前数据集进行清洗，包括：

基于所述当前数据模型对所述当前数据集进行特征提取，得到当前数据集中各图像的特征，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

在一种实施方式中，对当前数据集进行清洗，包括：

基于所述当前数据模型预测经过相似滤除的图像中的异常图像，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

滤除所述经过相似滤除的图像中的异常图像；以及，将经过相似滤除且经过异常滤除的图像集作为清洗后的图像。

在一种实施方式中，所述基于所述当前数据模型预测所述当前数据集中的异常图像，包括：

基于所述当前数据模型提取所述当前数据集中的误识别图像和离群图像；

将所述误识别图像和所述离群图像的并集作为第一异常图像；

基于预设算法筛选出所述误识别图像中不属于所述离群图像的若干图像，和/或，所述离群图像中不属于所述误识别图像的若干图像作为第二异常图像；

将第一异常图像和第二异常图像作为所述当前数据集中的异常图像。

在一种实施方式中，所述基于所述当前数据模型提取所述当前数据集的误识别图像和离群图像，包括：

基于所述当前数据模型预测所述当前数据集，得到第一分类准确率，并提取所述第一分类准确率下的误识别图像；

基于所述当前数据模型对所述当前数据集中所有图像进行特征抽取并进行特征降维，得到用于聚类的图像特征；

基于各类别的异常图像比例预估值搜索用于聚类的最大邻域距离；以及，基于所述图像特征和所述最大邻域距离获取离群图像。

在一种实施方式中，所述基于所述当前数据模型提取所述当前数据集的误识别图像和离群图像，还包括：

从所述当前数据集中随机抽取部分类别的图像数据；

获取所述部分类别的图像数据的异常数据比例；

基于所述第一分类准确率和所述异常数据比例进行最小二乘法拟合，得到拟合函数，并基于所述拟合函数得到各类别的异常图像比例预估值。

在一种实施方式中，基于所述初始数据模型和所述当前数据模型评估所述经过清洗后的数据集，包括：

基于所述初始数据模型预测所述初始数据集的测试集，得到第二分类准确率；

基于所述当前数据模型预测所述初始数据集的测试集，得到第三分类准确率；

基于所述第二分类准确率和所述第三分类准确率的差值评估所述经过清洗后的数据集。

根据本申请的另一方面，提供一种分类图像清洗装置，包括：

训练模块，其设置为基于初始数据集训练预训练模型，得到初始数据模型，所述初始数据集包括若干类别的图像；

清洗模块，其设置为对当前数据集进行清洗，得到经过清洗后的数据集，其中所述当前数据集在第一次循环情况下为所述初始数据集，在其它循环情况下为对应上一次循环得到的经过清洗后的数据集；

模型获取模块，其设置为基于经过清洗后的数据集训练所述预训练模型，得到当前数据模型；

评估模块，其设置为基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后的数据集，得到评估结果；

判断模块，其设置为判断评估结果是否满足预设条件，若是，则输出所述经过清洗后的数据集；

返回执行模块，其设置为返回所述清洗模块对当前数据集进行清洗，直到所述评估结果满足预设条件。

根据本申请的又一方面，提供一种电子设备，包括：存储器和处理器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行所述的分类图像清洗方法。

根据本申请的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现所述的分类图像清洗方法。

根据本申请提供的分类图像清洗方法、装置、设备及存储介质，通过先利用较大的数据源初始数据集训练预训练模型，得到初始数据模型，同时对当前数据集进行清洗，并利用经过清洗的数据集进一步训练预训练模型，得到当前数据模型，通过评估初始数据模型和当前数据模型的准确率，来评估数据集的清洗效果，完成分类图像的不断优化增强，以达到提高分类图像的数据集清洗质量的技术效果。

附图说明

图1为本申请实施例一种可能的场景示意图；

图2为本申请实施例提供的一种分类图像清洗方法的流程示意图；

图3为本申请实施例提供的另一种分类图像清洗方法的流程示意图；

图4为本申请实施例提供的又一种分类图像清洗方法的流程示意图；

图5为本申请实施例提供的再一种分类图像清洗方法的流程示意图之一；

图6为本申请实施例提供的再一种分类图像清洗方法的流程示意图之二；

图7为本申请实施例提供的一种分类图像清洗装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

分类图像，即用于分类任务的图像。传统的图像分类技术通过人工设计的简单图像特征再使用分类器对图像进行分类，分类内容比较受限，且分类能力相对较弱。深度学习技术的出现与发展，极大地提升了图像分类的应用领域范围和图像分类能力。但是，基于深度学习的图像分类模型要取得优秀的分类效果，需要使用大量高质量标注的数据对模型进行优化训练。

得益于互联网技术的发展，在训练模型过程中可以从网络获取大量的图像数据作为数据集，网络图像是重要的数据来源。然而，直接通过爬虫获取的网络图像质量相对较低，除了图像格式差异、也存在图像与搜索名字不匹配、图像重复、错误图片等图像噪声。如果使用爬取的网络分类图像直接训练深度学习图像分类模型，可能会存在由图像格式等导致的数据处理异常，以及训练效果也往往不太好。

因此，为了获得可以满足一定质量要求的深度学习图像分类效果，必须对进行模型训练的数据集进行数据清洗，以获取高质量的图像数据。

相关技术中，提出了通过预训练的形态识别网络来初步清洗网络原生数据，由于大多图片类别一般没有确定的形状，该方法对不同分类图片的通用性显得不足；还有些相关技术，主要提出了对分类图像清洗过程进行改进来提高图像分类质量，例如通过粗粒度和细粒度两次的二分类器清洗图片，并结合人工反馈的结果调整细粒度二分模型判别阈值以优化清洗效果，这样逐个类二分类和调整优化的过程较为复杂，不适用于较多类别的图像清洗，以及通过简单的处理实现图像去重、亮度对比度优化、几何校正、样品提取和输出等操作，上述分类图像清洗方案，属于较为初级的图像清洗，难以获得较高的图像清洗质量。

有鉴于此，本申请实施例提供了一种分类图像清洗方法、装置、设备及存储介质，通过先利用较大的数据源初始数据集训练出初始数据模型，使得初始数据模型具有良好特征参数，进而使模型能更快速得到较好的训练效果，同时对当前数据集进行清洗，并利用经过清洗的数据集进一步训练预训练模型，以提高数据模型的准确度，同时增加了数据模型的校准机制，通过对数据集的不断优化增强，降低数据误差，有效提高了数据质量，采用本申请中模型预测准确率的形式，可达到提高分类图像清洗准确率的技术效果。本实施例相较于相关技术是具有更加高速率、成本更低、适用性更广，并能获得较高图像清洗质量的分类图像清洗方案。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种可能的场景示意图，如图1所示，包括终端设备110和服务器120，终端110和服务器120之间通过有线或者无线网络相互连接。在一些实施例中，终端110用于向服务器120提供用于训练数据模型所需的参数，如网络初始化参数以及模型训练超参数等，服务器120用于基于终端110提供的数据，对数据模型进行训练。可选地，在数据模型训练的过程中，服务器120承担主要计算工作，终端110承担次要计算工作；或者，服务器120承担次要计算工作，终端110承担主要计算工作；或者，服务器120或终端110分别能够单独承担计算工作。

其中，终端设备110可以包括但不限于，电脑、智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture experts group audio layer III，简称MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture experts group audiolayer IV，简称MP4)播放器、便携计算机、车载电脑、可穿戴设备、台式计算机、机顶盒、智能电视等等。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地，上述终端110或服务器120的数量可以更多或更少，本申请实施例对此不加以限定。在一些实施例中，上述终端110和服务器120还可以作为区块链系统中的节点。

上面对本申请的场景示意图进行了简单说明，下面以应用于图1中的服务器120为例，来详细说明本申请实施例提供的用于分类图像清洗方法。

请参照图2，图2为本申请实施例提供一种分类图像清洗方法的流程示意图，包括步骤S201-S205。

步骤S201、基于初始数据集的训练集训练预训练模型，得到初始数据模型，所述初始数据集的训练集和测试集包括若干类别的图像。

具体地，初始数据集包括训练集和测试集，利用训练集对预训练模型进行训练，以得到初始数据模型中较优的权重等参数，并可在后续阶段利用测试集进行测试。可以理解是，本实施例中的初始数据模型和当前数据模型用于评估分类图像的清洗效果，在一种实施方式中，通过评估初始数据模型和经过训练的当前数据模型之间的分类准确性来评估分类图像的清洗效果。

本实施例中，所述预训练模型是基于残差网络ResNet架构的数据模型。

ResNet网络相比传统的神经网络，所需的参数量下降，复杂度降低；并且网络深度更深，不会出现梯度消失现象；由于使用更深的网络，分类准确度也更高，同时解决了深层次的网络退化问题。本实施例中，可以采用ResNet50模型，ResNet50即该网络的层数为50层。

具体地，使用初始数据集的训练集迭代至模型恰当拟合，使用初始数据集的测试集验证模型，得到模型top1和top5准确率，采用ResNet架构和初始数据集训练模型利用了大数据集训练得到的良好特征参数，可以让模型更加快速得到较好的训练效果。

可以理解的是，top1和top5准确率分别为模型的两种准确率测试结果，对于top1：在预测labels中，最后的概率向量中取最大的作为预测结果，如果最大的那个预测的分类结果正确就正确，若不正确则不正确；top5：预测labels中，最后的概率向量中取最大的前五个，这五个中，如果有一个预测正确，则预测分类结果正确。只有这五个预测全部错误，则预测分类结果错误。

在一种实施方式中，为提高模型的准确率，本实施例中首先对样本数据集进行处理，得到初始数据集，具体地，在基于初始数据集训练预训练模型(步骤S201)之前，还包括以下步骤。

将样本数据集中图像的格式转换成相同图像格式；

上述步骤中，图像的格式可以统一转换成JPG格式，滤除转换失败、尺寸过小及长宽比例异常的图片，并对像素尺寸过大的图像进行等比缩放，把图像像素尺寸和比例限制在一定范围内，得到初始数据集。使用留出法按类别分层随机划分原始数据集，划分为(初始)训练集和(初始)测试集。经过图像预处理，数据集的图像格式处理成一定尺寸大小的JPG压缩图，确保图像可用，同时保证尺寸适合用来做图像分类任务，而使用分层随机划分使得划分后的数据集的类子集之间的分布误差较小。

其中，本领域技术人员可以结合实际应用设定哪些图片是尺寸和长宽比例合适的图片，例如，设定第一尺寸阈值和第二尺寸阈值，小于一定尺寸阈值的图片则认为是尺寸过小的图片，由于尺寸过小的图片放大后分辨率也会降低，其相当于处理失败，直接滤除；而大于一定阈值的图片则认为尺寸过大，可以通过等缩放的形式将图像像素尺寸和比例限制在合适范围内，如果能够限制在合适范围内，则认为是处理成功，否则，认为是处理失败。

步骤S202、对当前数据集进行清洗，得到经过清洗后的数据集，其中所述当前数据集在第一次循环情况下为所述初始数据集，在其它循环情况下为对应上一次循环得到的经过清洗后的数据集。

示例性的，首先滤除高度相似的重复图像，避免了后续算法训练对大量重复图像的过拟合，进而针对滤除后的图像进行异常图像分析，滤除异常图像，得到经过清洗后的数据集，在其它示例中，针对初始数据集的清洗，可以只滤除高度相似的重复图像，或者只进行异常图像分析，再滤除异常图像，其具体过程在后述实施例中进行详述，此处不再赘述。

可以理解的是，对当前数据集进行清洗，首次清洗过程即为对初始数据集的清洗，在进行数据清洗的过程中，可以分别对训练集和测试集进行清洗。

步骤S203、基于经过清洗后的数据集训练所述预训练模型，得到当前数据模型。

相较于相关技术中，本实施例在得到初始数据模型后，对初始数据集进行清洗，并利用经过清洗后的数据集进一步训练当前数据模型，可以大大提高模型的准确性。对应的，模型的准确率越高，其对应的用于训练模型的数据集的清洗效果越佳。

步骤S204、基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后的数据集，得到评估结果。

本实施例中，初始数据模型的准确率即经过清洗后(初始)测试集的top1或者top5准确率结果，相应的，当前数据模型的准确率即经过清洗后(初始)测试集的top1或者top5准确率结果，其中top1或者top5准确率结果可以进行随机提取。在一些实施例中，为进一步提高模型的准确性，也可以根据一定算法选择提取top1或者top5准确率结果作为评估结果，本实施例在后述示例性实施例中进行详述，此处不再赘述。

可以理解的是，返回对初始数据集进行清洗，可以是在此次评估结果所对应的数据集的基础上，进一步对数据集进行清洗，以提高数据集的清洗效率。

在一种具体的实施方式中，上述步骤S204包括以下步骤：

可以理解的是，本实施例通过对模型校准的形式，反向评估用于训练模型的数据集的清洗效果，即，模型的准确率越高，数据集的清洗效果越好。

本实施例中，本领域技术人员可以结合实际应用对预设条件进行适应性设定，例如，以将top5准确率结果作为评估结果，预设条件为0.01，当top5准确率之间的差值低于0.01，则可以认定为满足预设条件，否则，继续对经过清洗后的初始数据集进行迭代清洗，以进一步优化数据模型。此外，还可以设置迭代次数，当达到迭代次数仍然达不到预设条件时，将迭代次数对应的数据模型作为最终的数据模型。

在其它实施方式中，在第一次优化的过程中，可以考虑初始模型准确率和当前模型准确率，差值低于某个值，如0.01，即可认为数据集无太大优化空间，否则可以继续循环优化；在后续的优化过程中，可以是两次优化的当前模型准确率差值，即这一次优化的当前模型准确率Acc2减去上一次优化的当前模型准确率Acc1，差值低于某个值，如0.01，即可认为数据集无太大优化空间，否则可以继续循环优化，本实施方式中，通过比较数据优化之后的相邻模型之间的准确度增益，以获取相邻模型之间的优化效果，并判断是否需要进一步进行数据清洗。

步骤S205、判断评估结果是否满足预设条件，若是，则输出所述经过清洗后的数据集，否则，返回步骤S204继续对当前数据集进行清洗，直到当前数据模型满足预设条件。

在一种实施方式中，如果经过清洗后的数据集不满足预设条件，则继续对当前数据集进行清洗，也就说，继续对本次清洗后的数据集进行清洗，并利用新的训练集训练预训练模型，得到新的当前数据模型。

相较于相关技术中，对于进行模型训练的数据集没有数据清洗的过程，并且没有针对模型的校准机制，导致利用该模型进行图像分类的准确率较低，难以满足图像分类质量要求。本实施例通过先利用较大的数据源初始数据集训练出初始数据模型，使得初始数据模型具有良好特征参数，进而使模型能更快速得到较好的训练效果，同时对当前数据集进行清洗，并利用经过清洗的数据集进一步训练预训练模型，以提高数据模型的准确度，同时增加了数据模型的校准机制，完成数据模型的不断优化增强，有效提高了数据模型的准确度，以提高数据集的清洗效果，进而提高分类图像的数据清洗质量。

请参照图3，图3为本申请实施例提供的另一种用于分类图像清洗方法的流程示意图，在上述实施例的基础上，本实施例进一步示例的初始数据集的具体清洗方式，以优化数据清洗效果。本实施例中，将对当前数据集进行清洗(步骤S202)进一步划分为步骤S301-S303。

步骤S301、基于当前数据模型对当前数据集进行特征提取，得到当前数据集中各图像的特征，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

步骤S302、基于各图像的特征计算各图像之间的余弦相似度值，并滤除所述余弦相似度值中大于预设阈值的对应图像；

步骤S303、将经过相似度滤除的图像集作为经过清洗后的数据集。

上述步骤S301-S303中，以初始数据集的清洗过程为例，使用训练得到的初始数据模型进行特征抽取，并使用余弦距离，在原数据集中提取相似度大于一定阈值的相似图像，滤除多余的相似图像，得到经过清洗后的数据集。图像相似性去重方法主要是特征提取+特征余弦相似距离计算，其中特征提取方法除了使用初始数据模型，也可以使用预训练模型或者其他重新训练的模型，而特征距离除了余弦距离，还可以汉明距离、欧拉距离、曼哈顿距离、相关距离等等，本实施例对此并不作特殊限定。

本实施例中，经过特征抽取和余弦距离来计算相似度，使得算法具备近似人眼的图像相似性识别能力，可以找出具备一定形变偏差的相似图片，从而有效过滤掉高度相似的重复图像，有效避免了后续算法训练对大量重复图像的过拟合。

请参照图4，图4为本申请实施例提供的又一种用于分类图像清洗方法，在上述实施例的基础上，本实施例示例了另一种初始数据集的具体清洗方式，以优化数据清洗效果。本实施例中，将对初始数据集进行清洗(步骤S202)进一步划分为步骤S401-S403。

步骤S401、基于当前数据模型预测当前数据集中的异常图像，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型。

可以理解的是，利用数据模型去预测数据模型中数据集的异常图像，该过程为错例分析，减少筛选的样本空间。此为现有技术，本实施例对此不再多作赘述。

步骤S402、滤除所述当前数据集中的异常图像；以及，

步骤S403、将经过异常滤除的图像集作为经过清洗后的数据集。

在实际应用中，对于图像的清洗过程，除了重复图像的滤除之外，还会存在一些不好识别的异常图像，例如误识别图像和离群图像，本实施例通过预测初始数据集中的异常图像，滤除掉相应的异常图像，得到更加有效的数据集。

在一种实施方式中，为提高异常图像的预测准确率，进而提高数据集的清洗效率，所述基于当前数据模型预测当前数据集中的异常图像(步骤S401)，包括以下步骤：

基于当前数据模型提取当前数据集中的误识别图像和离群图像；

可以理解的是，误识别图像即当前数据模型的评估结果对应的不满足准确率的图像，以top5准确率结果为例，如果其准确率为0.77，其中可能包含0.23的误识别图像，从初始数据集中提取出该0.23的误识别图像，在一些实施例中，误识别图像提取除了取top1和top5准确率，还可以取topK准确率，若topK标签均未命中，判断为误识别图像；离群图像为对图像聚类后，各类别图像的离群图像。

本实施例中，为进一步提高异常图像的预测准确性，通过比对误识别图像和离群图像，将所述误识别图像和所述离群图像的并集作为第一异常图像，其中，并集中的图像既属于误识别图像有属于离群图像，可以直接将并集中图像认定为异常图像，而对于不属于并集的图像，即第二异常图像，例如误识别图像中不属于所述离群图像的若干图像，通过预设算法计算其为异常图像的可能性，进而完成预测，对于离群图像中不属于所述误识别图像的若干图像同理。

本实施例中，以划分疑似异常数据的方式进行异常图像的预测，把聚类得到的离群图像与模型识别中的误识别图像进行交并与划分，得到满足离群并误识别的图像、只满足离群的图像与只满足误识别的图像三类。其中，同时满足离群图像与误识别两种情况的图像为异常图像的概率更大，只满足离群或只满足误识别的图像异常概率相对更小，需要进一步通过预设算法进行异常图像的预测，以提高预测准确性。

需要说明的是，本领域技术人员可以结合现有技术和实际应用选择相应的算法，示例性的，该预设算法可以是根据实际数据集的情况，考虑进一步特征距离计算，设定阈值，滤除离群和误识别图像中特征相似度较高的图片。上述原理为，利用进一步特征计算滤除离群和误识别图像中特征相似度较高的图片，比较接近同时满足离群和误识别这两个条件，以实现对异常图像的预测。

在一种具体的实施方式中，所述基于当前数据模型提取当前数据集的误识别图像和离群图像，包括以下步骤：

基于当前数据模型预测当前数据集的测试集，得到第一分类准确率，并提取所述第一分类准确率下的误识别图像；

基于所述初始数据模型对所述初始数据集中所有图像进行特征抽取并进行特征降维，得到用于聚类的图像特征；

可以理解的，基于所述图像特征和所述最大邻域距离获取离群图像的具体过程为，首先根据图像特征和最大邻域距离进行聚类，再分别获取每个类别中的离群图像。

进一步地，分类准确率即对应本实施例top5准确率，经过特征抽取和降维后的特征数据更加准确，本实施例聚类采用的是DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，具有噪声的基于密度的聚类方法)算法。其中，各类别异常图像比例估计值，例如Px,x＝1,2,...,300)，设定DBSCAN算法邻域半径阈值ε(即最大邻域距离)的网格搜索范围，(其中类簇最小样本参数为定值(实验中可为10或默认值5，这个参数的影响较小)。每次取εi设定DBSCAN算法参数，根据同个类别的一批图像特征进行聚类，得到密度聚类的类簇标签，计算其中离散点(标签为-1)所占总体图像特征的比例Rate_i，记录最接近该类别异常图像比例估计值的Rate_x、其对应的参数εx及离散点图像特征ID，根据离散点图像特征ID提取对应的图像得到离群图像。在一些实施例中，聚类提取离群图像的方法中，除了可以使用DBSCAN算法外，还可以采用如meanshift、层次聚类等聚类算法。

本实施例中，利用异常图像比例预估值来搜索用于聚类的最大邻域距离，可以高效找到图像类别中的离群图像。并使用当前数据模型对所有图像进行特征抽取并对特征进行降维，同时利用本实施例得到的异常图像比例预估值，搜索参数使得图像密度聚类得到当前类别的离群数据接近对应的异常数据预估比例，从而提取得到聚类离群图像。此处利用了离群图像特征与异常图像特征相似性，即类内距离较大的特性，通过聚类提取离群图像作为疑似的异常图像的预测基础。

本实施例中，为进一步提高分类准确率，引入了随机抽样方法来预测异常情况，以获得异常图像比例预估值。具体地，所述基于当前数据模型提取当前数据集的误识别图像和离群图像，还包括以下步骤：

从所述当前数据集中随机抽取部分类别的图像数据；

获取所述部分类别的图像数据的异常数据比例；

本实施例中，在当前数据集总数据中随机抽取少量类别的部分数据，获取该部分数据的异常数据比例，在一种实施方式中，可以结合人工筛查，以区分正负样本，获取更为准确的对应类别的异常数据比例。通过随机抽样少量样本进行筛查的方式，用小样本得到的异常数据比例去估计整体各个类的异常数据比例。进一步地，使用当前模型预测当前数据集，对整个数据集分别获取各个类别的top1和top5准确率，以及提取top5(或top1)误识别图片。整个数据集各类别准确率用于估计异常图像比例，误识别图片则作为疑似异常图像需进一步预测。

其中，对于异常图像比例估计，取整个数据集的top5(或top1)准确率与抽样异常数据比例的关系进行最小二乘法拟合，取数据集各类别对应准确率来估计该类别的异常图像比例。此处利用了模型具备一定程度上区分正负样本的能力，即模型预测的准确率，并结合抽样得到的异常数据比例特征进行关系建模，从而实现利用整体各类别预测准确率估计各类别的异常数据比例。

在一些实施例中，对于异常图像比例估计中，根据topK准确率与人工抽样检验得到的异常图像比例建模中，除了使用简单的最小二乘法拟合，还可以使用更复杂的，如加权最小二乘法拟合、多项式拟合以及树回归等等。

请参照图5，图5为申请实施例提供的再一种用于分类图像清洗方法的流程示意图，在上述实施例的基础上，本实施例示例了又一种初始数据集的具体清洗方式，以优化数据清洗效果。本实施例中，将对当前数据集进行清洗(步骤S202)进一步划分为步骤S501-S505。

步骤S501、基于当前数据模型对当前数据集进行特征提取，得到当前数据集中各图像的特征，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

步骤S502、基于各图像的特征计算各图像之间的余弦相似度值，并滤除所述余弦相似度值中大于预设阈值的对应图像；

步骤S503、基于所述当前数据模型预测经过相似滤除的图像中的异常图像；

步骤S504、滤除所述经过相似滤除的图像中的异常图像；以及，

步骤S505、将经过相似滤除且经过异常滤除的图像集作为清洗后的图像。

相较于上述的两种初始数据集的具体清洗方式，本实施例首先滤除相似图像，进而对经过相似滤除的图像进行异常图像的滤除，可以进一步提高图像的清洗效果。

为便于对本申请实施例的理解，如图6所示，本申请针对上述实施例结合实际应用场景进一步进行示例：

根据预先选定并处理好的需要分类识别的菜品名字，从互联网上批量下载菜品图像数据，最终得到300个菜品分类共计225068张图片。

1、图像预处理：经过图像经过格式转换，滤除格式转换异常、最小边长小于100个像素、及长宽比大于3的图像共262张，最后进行缩放等处理，得到可用图片224806张。然后使用分层留出法按类别随机划分初始数据集，其中，约80％图像共179715张作为初始训练集，约20％图像共45091张作为初始测试集。

2、模型训练：使用ImageNet(初始数据集)预训练模型ResNet50(初始模型)进行模型微调，迭代至模型恰当拟合，使用初始测试集验证模型(预训练模型)top1准确率为0.4577，而top5准确率为0.7708。

3、图像相似去重：使用步骤2的微调模型ResNet50进行特征抽取，并使用余弦距离提取合并距离大于0.98的相似图像，随机保留一张，滤除剩余的图像。经过相似度去重，滤除7998张高度相似图像，剩余图像216808张构成当前数据集。

4、随机抽样检验：随机抽样10个类，每个类抽样100张图片，分别对应的异常样本比例为Yj(j＝1,2,...,10)，抽样平均异常样本比例值为16.443％。

5、误识别图像提取：使用模型预测整个当前数据集，得到数据集的top1准确率为0.6596，top5准确率为0.8579，由于整个数据集的top5准确率更接近抽样图像得到的平均异常样本比例值，所以提取top5误识别图像作为疑似异常图像集A，共30808张。

6、异常图像比例估计：取步骤4中抽样的10个类的异常样本比例值Yj，及其对应的top5准确率Xk进行最小二乘法拟合，得到Y关于X的函数，从而根据top5准确率得到各类别异常图像比例估计值。

7、聚类与离群图像的提取：使用训练好模型进行图像特征抽取，并使用PCA降维，得到用于聚类的图像特征，然后根据步骤6得到的各类别异常图像比例估计值，搜索DBSCAN聚类算法的最大邻域距离，使得聚类形成的离群图像与异常图像比例估计值接近，进而提取对应的离群图像作为疑似异常图像集B，共19327张。

8、划分疑似异常数据：由疑似异常图像集A和B，划分成三类图像，分别是，满足离群并误识别的图像集A∩B，共9027张；只满足误识别的图像集A-B，共21781张；以及只满足离群的图像集B-A，共10300张。

9、图像清洗：其中，直接滤除图像集A∩B，剩余的A-B和B-A图像集采用人工清洗，滤除图像集A-B共9322张，图像集B-A共7245张，共滤除图像25594张。剩余总数据集大小为191214张图像，其中，训练集152684张,测试集38530张图像，得到新数据集。

10、新数据集模型训练：使用训练集清洗后的新数据集进行再次的ImageNet预训练模型微调，得到ResNet50新模型，获取模型对应测试集的top1准确率为0.5311和top5准确率为0.8327。

11、清洗效果评估：使用新模型对未清洗前的初始测试数据集预测得到的top1准确率为0.5098、top5准确率为0.8132，相比未清洗数据之前的top1准确率0.4577和top5准确率0.7708，分别为top1准确率提升5.21％和top5准确率提升4.24％，验证了该方法的有效性。如需继续优化，则设置清洗后的数据集为当前数据集，然后根据清洗前后图片变化来更新随机抽样检验对应的异常图片比例，并设优化后模型为当前模型，循环步骤5-11；否则结束清洗。

在上述示例中可知，通过相似性图像提取，模型误识别和聚类离群两种疑似异常图像提取，这两种方式实现对图像的清洗，而在图像清洗的过程，还可选地再次使用相似性集阈值进一步滤除只离群与只误识别的图片，并可以实现循坏迭代清洗，从而可以获得较高的图像清洗质量；并且相较于人工筛选等分类手段，本示例的算法实现了相当程度的自动化，大大提升了清洗速度，以及降低人工成本；此外，本示例提供的方案适用于所有多类别单标签分类图像，适用性广泛。

基于相同的技术构思，本申请实施例相应还提供一种用于分类图像清洗装置，如图7所示，所述装置包括：

训练模块71，其设置为基于初始数据集训练预训练模型，得到初始数据模型，所述初始数据集包括若干类别的图像；

清洗模块72，其设置为对当前数据集进行清洗，得到经过清洗后的数据集，其中所述当前数据集在第一次循环情况下为所述初始数据集，在其它循环情况下为对应上一次循环得到的经过清洗后的数据集；

模型获取模块73，其设置为基于经过清洗后的数据集训练所述预训练模型，得到当前数据模型；

评估模块74，其设置为基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后的数据集，得到评估结果；

判断模块75，其设置为判断评估结果是否满足预设条件，若是，则输出所述经过清洗后的数据集；

返回执行模块76，其设置为返回所述清洗模块对当前数据集进行清洗，直到所述评估结果满足预设条件。

在一种实施方式中，所述装置还包括：

格式转换模块，其设置为将样本数据集中图像的格式转换成相同图像格式；

图像处理模块，其设置为基于经过格式转换的所有图像的像素尺寸及比例对经过格式转换的所有图像进行图像处理；

第一滤除模块，其设置为滤除格式转换失败以及图像处理失败的图像，得到原始数据集；

划分模块，其设置为基于留出法按照类别分层随机划分所述原始数据集，得到初始数据集。

在一种实施方式中，所述清洗模块72包括：

第一特征提取单元，其设置为基于当前数据模型对当前数据集进行特征提取，得到当前数据集中各图像的特征，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

相似计算单元，其设置为基于各图像的特征计算各图像之间的余弦相似度值，并滤除所述余弦相似度值中大于预设阈值的对应图像；

第一数据获取单元，其设置为将经过相似度滤除的图像集作为经过清洗后的数据集。

在一种实施方式中，所述清洗模块72包括：

第一预测单元，其设置为基于当前数据模型预测当前数据集中的异常图像，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

第二滤除单元，其设置为滤除所述当前数据集中的异常图像；以及，

第二数据获取单元，其设置为将经过异常滤除的图像集作为经过清洗后的数据集。

在一种实施方式中，所述清洗模块72包括：

相似计算单元，基于各图像的特征计算各图像之间的余弦相似度值，并滤除所述余弦相似度值中大于预设阈值的对应图像；

第二预测单元，基于所述当前数据模型预测经过相似滤除的图像中的异常图像；

第三滤除单元，其设置为滤除所述经过相似滤除的图像中的异常图像；以及，第三数据获取单元，其设置为将经过相似滤除且经过异常滤除的图像集作为清洗后的图像。

在一种实施方式中，所述预测单元，包括：

提取子单元，其设置为基于所述当前数据模型提取所述当前数据集中的误识别图像和离群图像；

第一预测子单元，其设置为将所述误识别图像和所述离群图像的并集作为第一异常图像；

第二预测子单元，其设置为基于预设算法筛选出所述误识别图像中不属于所述离群图像的若干图像，和/或，所述离群图像中不属于所述误识别图像的若干图像作为第二异常图像；

数据获取子单元，其设置为将第一异常图像和第二异常图像作为所述当前数据集中的异常图像。

在一种实施方式中，所述提取子单元，包括：

提取元件，其设置为基于所述当前数据模型预测所述当前数据集，得到第一分类准确率，并提取所述第一分类准确率下的误识别图像；

特征获取元件，其设置为基于所述当前数据模型对所述当前数据集中所有图像进行特征抽取并进行特征降维，得到用于聚类的图像特征；

搜索元件，其设置为基于各类别的异常图像比例预估值搜索用于聚类的最大邻域距离；以及，离群图像获取元件，其设置为是基于所述图像特征和所述最大邻域距离获取离群图像。

在一种实施方式中，提取子单元还包括：随机抽取元件，其设置为从所述当前数据集中随机抽取部分类别的图像数据；

获取预估元件，其设置为获取所述部分类别的图像数据的异常数据比例；

拟合获取元件，其设置为基于所述第一分类准确率和所述异常数据比例进行最小二乘法拟合，得到拟合函数，并基于所述拟合函数得到各类别的异常图像比例预估值。

在一种实施方式中，所述评估模块74，包括：

第一初始集预测单元，基于所述初始数据模型预测所述初始数据集的测试集，得到第二分类准确率；

第二初始集预测单元，基于所述当前数据模型预测所述初始数据集的测试集，得到第三分类准确率；

评估单元，其设置为基于所述第二分类准确率和所述第三分类准确率的差值评估所述经过清洗后的数据集。

基于相同的技术构思，本申请实施例相应还提供一种电子设备，如图8所示，包括：存储器81和处理器82；

所述存储器81存储计算机执行指令；

所述处理器82执行所述存储器存储的计算机执行指令，使得所述电子设备执行所述的分类图像清洗方法。

基于相同的技术构思，本申请实施例相应还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现所述的分类图像清洗方法。

本申请实施例提供一种本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本申请实施例的描述中，术语“和/或”仅仅表示一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，术语“至少一种”表示多种中的任一种或多种中的至少两种的任意组合，例如，包括A、B、中的至少一种，可以表示包括A、B和C沟通的集合中选择的任意一个或多个元素。此外，术语“多个”的含义是两个或两个以上，除非是另有精确具体地规定。

在本申请实施例的描述中，术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种分类图像清洗方法，其特征在于，包括：

基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后的数据集，得到评估结果；

2.根据权利要求1所述的方法，其特征在于，在基于初始数据集训练预训练模型之前，还包括：

将样本数据集中图像的格式转换成相同图像格式；

3.根据权利要求1所述的方法，其特征在于，所述预训练模型是基于残差网络ResNet架构的数据模型。

4.根据权利要求1所述的方法，其特征在于，对当前数据集进行清洗，包括：

基于当前数据模型对当前数据集进行特征提取，得到所述当前数据集中各图像的特征，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

将经过相似度滤除的图像集作为经过清洗后的数据集。

5.根据权利要求1所述的方法，其特征在于，对当前数据集进行清洗，包括：

基于当前数据模型预测当前数据集中的异常图像，其中，在所述当前数据集为初始数据集的情况下，所述当前数据模型为初始数据模型；

6.根据权利要求1所述的方法，其特征在于，对当前数据集进行清洗，包括：

基于所述当前数据模型预测经过相似滤除的图像中的异常图像；

7.根据权利要求5所述的方法，其特征在于，所述基于当前数据模型预测所述当前数据集中的异常图像，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于当前数据模型提取当前数据集的误识别图像和离群图像，包括：

基于当前数据模型预测当前数据集，得到第一分类准确率，并提取所述第一分类准确率下的误识别图像；

9.根据权利要求8所述的方法，其特征在于，所述基于当前数据模型提取当前数据集的误识别图像和离群图像，还包括：

从所述当前数据集中随机抽取部分类别的图像数据；

获取所述部分类别的图像数据的异常数据比例；

10.根据权利要求1所述的方法，其特征在于，基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后的数据集，包括：

11.一种分类图像清洗装置，其特征在于，包括：

判断模块，其设置为判断所述评估结果是否满足预设条件，若是，则输出所述经过清洗后的数据集；

12.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行权利要求1-10中任一项所述的分类图像清洗方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的分类图像清洗方法。