CN113298139A - 一种图像数据优化方法、装置、设备和介质 - Google Patents

一种图像数据优化方法、装置、设备和介质 Download PDF

Info

Publication number
CN113298139A
CN113298139A CN202110560318.5A CN202110560318A CN113298139A CN 113298139 A CN113298139 A CN 113298139A CN 202110560318 A CN202110560318 A CN 202110560318A CN 113298139 A CN113298139 A CN 113298139A
Authority
CN
China
Prior art keywords
image data
score
sub
original
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110560318.5A
Other languages
English (en)
Other versions
CN113298139B (zh
Inventor
李坚铳
陈坤杰
霍达
韩旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weride Technology Co Ltd
Original Assignee
Guangzhou Weride Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weride Technology Co Ltd filed Critical Guangzhou Weride Technology Co Ltd
Priority to CN202110560318.5A priority Critical patent/CN113298139B/zh
Publication of CN113298139A publication Critical patent/CN113298139A/zh
Application granted granted Critical
Publication of CN113298139B publication Critical patent/CN113298139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像数据优化方法、装置、设备和介质,方法包括:获取原始子数据集,原始子数据集中的图像数据对应的标注类别为同一分类类别;对原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算图像数据的特征评分;通过预置分类模型对原始子数据集中的图像数据进行分类,并根据分类结果和标注类别计算图像数据的模型评分;结合特征评分和模型评分,获取图像数据的总评分;根据总评分对原始子数据集中的图像数据进行筛选,得到优化后子数据集。改善了现有图像数据集存在错误数据的情况,影响模型构建的准确率和模型输出结果的技术问题。

Description

一种图像数据优化方法、装置、设备和介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像数据优化方法、装置、设备和介质。
背景技术
目前,图像分类技术广泛应用于各个领域,通常采用深度学习方法训练分类模型。训练分类模型时,常常需要大量的有标签图像数据集,通常图像数据集因为各种原因会存在错误数据的情况,进而影响模型构建的准确率和模型输出结果。例如,现有的图像数据集的标签大都是人工标注的,或通过机器模型对图像数据进行分类得到的,会存在错误标签的情况。
因此,提供一种图像数据优化方法是本领域技术人员目前亟需解决的问题。
发明内容
本申请提供了一种图像数据优化方法、装置、设备和介质,用于改善现有图像数据集存在错误数据的情况,影响模型构建的准确率和模型输出结果的技术问题。
有鉴于此,本申请第一方面提供了一种图像数据优化方法,包括:
获取原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别;
对所述原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算所述图像数据的特征评分;
通过预置分类模型对所述原始子数据集中的图像数据进行分类,并根据分类结果和所述标注类别计算所述图像数据的模型评分;
结合所述特征评分和所述模型评分,获取所述图像数据的总评分;
根据所述总评分对所述原始子数据集中的图像数据进行筛选,得到优化后子数据集。
可选的,所述获取原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别,包括:
获取待优化的图像数据集;
根据所述图像数据集的图像数据数量对所述图像数据集进行划分,并根据标注类别对划分后的每份图像数据集进行分组,得到若干组原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别。
可选的,所述对所述原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算所述图像数据的特征评分,包括:
将所述原始子数据集中的图像数据划分为若干子图像块;
基于各所述子图像块的像素计算各所述子图像块的属性值和差异值;
根据各所述子图像块的属性值和差异值计算各所述子图像块的相似度评分,并将所述图像数据中各所述子图像块的相似度评分的最小值或平均值作为所述图像数据的相似度评分;
根据所述图像数据的相似度评分和所述原始子数据集中所有所述子图像块的相似度评分的最大值,获取所述图像数据的特征评分。
可选的,所述基于各所述子图像块的像素计算各所述子图像块的属性值和差异值,包括:
计算所述子图像块在预置方向上的所有像素的平均值,得到所述子图像块的属性值;
在所述预置方向上,计算所述子图像块中相邻像素的绝对差值的平均值,得到所述子图像块的差异值。
可选的,所述通过预置分类模型对所述原始子数据集中的图像数据进行分类,并根据分类结果和所述标注类别计算所述图像数据的模型评分,包括:
通过预置分类模型对所述原始子数据集中的图像数据进行分类,得到所述图像数据的分类结果,所述分类结果包括各分类类别的置信度;
从所述分类结果中获取所述图像数据对应的所述标注类别的置信度,并将该标注类别的置信度作为所述图像数据的第一置信度分数;
通过置信度权重对所述图像数据的剩余置信度进行加权求和,得到所述图像数据的第二置信度分数,所述剩余置信度为除所述图像数据的标注类别的置信度之外的其他分类类别的置信度,所述置信度权重通过对所述剩余置信度进行降序排序后的位置确定;
计算所述第一置信度分数与所述第二置信度分数的差值,得到所述图像数据的模型评分。
可选的,所述结合所述特征评分和所述模型评分,获取所述图像数据的总评分,包括:
通过特征评分权重、模型评分权重对所述特征评分和所述模型评分进行加权求和,得到所述图像数据的总评分。
可选的,所述根据所述总评分对所述原始子数据集中的图像数据进行筛选,得到优化后子数据集,包括:
将所述原始子数据集中所述总评分最高的预置数量个图像数据直接输出,并对所述原始子数据集中剩余的图像数据进行筛选,得到优化后子数据集。
本申请第二方面提供了一种图像数据优化装置,包括:
第一获取单元,用于获取原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别;
特征提取和计算单元,用于对所述原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算所述图像数据的特征评分;
分类和计算单元,用于通过预置分类模型对所述原始子数据集中的图像数据进行分类,并根据分类结果和所述标注类别计算所述图像数据的模型评分;
第二获取单元,用于结合所述特征评分和所述模型评分,获取所述图像数据的总评分;
筛选单元,用于根据所述总评分对所述原始子数据集中的图像数据进行筛选,得到优化后子数据集。
本申请第三方面提供了一种图像数据优化设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的图像数据优化方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的图像数据优化方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种图像数据优化方法,包括:获取原始子数据集,原始子数据集中的图像数据对应的标注类别为同一分类类别;对原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算图像数据的特征评分;通过预置分类模型对原始子数据集中的图像数据进行分类,并根据分类结果和标注类别计算图像数据的模型评分;结合特征评分和模型评分,获取图像数据的总评分;根据总评分对原始子数据集中的图像数据进行筛选,得到优化后子数据集。
本申请中,在获取到原始子数据集后,对原始子数据集中的图像数据分别进行特征提取和分类,获取图像数据的特征评分和模型评分;结合特征评分和模型评分获取图像数据的总评分,通过该总评分对原始子数据集中的图像数据进行筛选,以去掉错误的图像数据,得到优化后子数据集,从而改善了现有图像数据集存在错误数据的情况,影响模型构建的准确率和模型输出结果的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种图像数据优化方法的一个流程示意图;
图2为本申请实施例提供的获取图像数据的特征评分的一个流程示意图;
图3为本申请实施例提供的获取图像数据的模型评分的一个流程示意图;
图4为本申请实施例提供的一种图像数据优化装置的一个结构示意图;
图5为本申请实施例提供的一种图像数据优化设备的一个结构示意图。
具体实施方式
本申请提供了一种图像数据优化方法、装置、设备和介质,用于改善现有图像数据集存在错误数据的情况,影响模型构建的准确率和模型输出结果的技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种图像数据优化方法的一个实施例,包括:
步骤101、获取原始子数据集,原始子数据集中的图像数据对应的标注类别为同一分类类别。
原始子数据集的获取过程为:获取待优化的图像数据集;根据图像数据集的图像数据数量对图像数据集进行划分,并根据标注类别对划分后的每份图像数据集进行分组,得到若干组原始子数据集,原始子数据集中的图像数据对应的标注类别为同一分类类别。
在获取到有标签的图像数据集后,图像数据集中可能存在大小不一的图像数据,本申请实施例根据图像数据的长宽比从小到大或从大到小将图像数据划分为数量相同的2X份,X根据图像数据集的图像数据数量N确定,即:
X=FLOOR(log10N)+1;
式中,FLOOR(·)为向下取整函数。
在同份图像数据集中,根据图像数据的标注类别进行数据分组,使得得到的每组原始子数据集中图像数据的标注类别为同一分类类别。
本申请实施例考虑到,在进行特征提取时,图像数据集划分的份数越多,特征提取的效果越好,但在划分份数提升到一定数值时,提取效果就难以大幅度提升。在获取模型评分时,图像数据集划分的份数越少(即每一份的数据量越多),分类模型的分类效果越好,并且,在每一份数据的数量达到一定级别时,虽然每份数据量的提升对模型分类效果的提升有限,但此时模型分类提升的效果要比特征提取提升的效果要好。因此,本申请实施例将图像数据集划分为2*[FLOOR(log10N)+1]份,可以保证模型分类和特征提取达到一个综合较好的效果的基础上,偏向提升模型数据的数量。
步骤102、对原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算图像数据的特征评分。
通过对原始子数据集中的图像数据进行特征提取,以获取原始子数据集中的图像数据的特征评分。请参考图2,图像数据的特征评分的具体获取过程为:
S1021、将原始子数据集中的图像数据划分为若干子图像块。
本申请实施例中将原始子数据集中的图像数据划分为m*n大小的子图像块,子图像块的大小m*n可以根据图像数据在二维上的分类结果的个数确定。例如,某图像数据为红绿灯图像,该红绿灯图像中有3个灯,在对该红绿灯图像进行分类时的输出结果包括这三个灯的分类结果。因此,在对该红绿灯图像进行划分时,可以划分为3*1或1*3大小的子图像块。
S1022、基于各子图像块的像素计算各子图像块的属性值和差异值。
具体的,计算子图像块在预置方向上的所有像素的平均值,得到子图像块的属性值;在预置方向上,计算子图像块中相邻像素的绝对差值的平均值,得到子图像块的差异值。其中,预置方向为行方向或列方向。
本申请实施例以行方向为预置方向,举例说明属性值和差异值的计算过程。假设,某图像数据为RGB图像(三通道图像),划分后的各子图像块大小为d*p。以行方向为预置方向,计算子图像块的各通道图像在各行的所有像素的平均值,得到各子图像块在各通道的属性值,即:
Rvi=(Ri 1+Ri 2+…+Ri p)/p;
Gvi=(Gi 1+Gi 2+...+Gi p)/p;
Bvi=(Bi 1+Bi 2+...+Bi p)/p;
式中,Rvi为子图像块的R通道图像在第i行的所有像素R的平均值,Gvi为子图像块的G通道图像在第i行的所有像素G的平均值,Bvi为子图像块的B通道图像在第i行的所有像素B的平均值。每个子图像块在各通道可以得到一个d行1列的属性值,即(Rv,Gv,Bv)。
以行方向为预置方向,计算子图像块的各通道图像在各行的相邻像素的绝对差值的平均值,得到子图像块在各通道的差异值,即:
Rdi=(|Ri 2-Ri 1|+|Ri 3-Ri 2|+…+|Ri p-Ri p-1|)/(p-1);
Gdi=(|Gi 2-Gi 1|+|Gi 3-Gi 2|+…+|Gi p-Gi p-1|)/(p-1);
Bdi=(|Bi 2-Bi 1|+|Bi 3-Bi 2|+…+|Bi p-Bi p-1|)/(p-1);
式中,Rdi为子图像块的R通道图像在第i行的相邻像素的绝对差值的平均值,Gdi为子图像块的G通道图像在第i行的相邻像素的绝对差值的平均值,Bdi为子图像块的B通道图像在第i行的相邻像素的绝对差值的平均值。每个子图像块在各通道可以得到一个d行1列的差异值,即(Rd,Gd,Bd)。
可以理解的是,图像数据也可以为单通道图像(即灰度图像)或其他多通道图像。当图像数据为灰度图像时,只有一个通道,只需计算一个通道的属性值和差异值,具体计算过程与上述单个通道的计算过程类似,在此不再进行赘述。
S1023、根据各子图像块的属性值和差异值计算各子图像块的相似度评分,并将图像数据中各子图像块的相似度评分的最小值或平均值作为图像数据的相似度评分。
沿用上述例子,在获取到子图像块在各通道的属性值和差异值后,计算原始子数据集中图像数据的所有子图像块在各通道的属性值的平均值,得到原始子数据集在各通道的平均属性值
Figure BDA0003078706540000071
根据子图像块在各通道的属性值、差异值和该平均属性值,计算子图像块在各通道的相似度评分(Sfr,Sfg,Sfb),即:
Figure BDA0003078706540000072
Figure BDA0003078706540000073
Figure BDA0003078706540000074
当一个图像数据划分为4个子图像块时,每个子图像块对应有一个相似度评分,即一个图像数据可以得到4个相似度评分。本申请实施例根据影响图像数据的分类结果的有效元素个数来确定图像数据的相似度评分。具体的,当图像数据的分类结果由单个元素决定时,例如红绿灯图像的颜色的分类结果由三个灯中的一个灯决定,则将图像数据中各子图像块在各通道的相似度评分的最小值(Sfr_min,Sfg_min,Sfb_min)作为图像数据的相似度评分,即取差异最大的部分。当图像数据的分类结果由2个以上的元素决定时,例如倒计时由各位上的数字共同决定,则将图像数据中各子图像块在各通道的相似度评分的平均值(Sfr_aver,Sfg_aver,Sfb_aver)作为图像数据的相似度评分。
S1024、根据图像数据的相似度评分和原始子数据集中所有子图像块的相似度评分的最大值,获取图像数据的特征评分。
获取原始子数据集中所有子图像块在各通道的相似度评分的最大值(Sfr_max,Sfg_max,Sfb_max),然后根据图像数据在各通道的相似度评分(Sf_r,Sf_g,Sf_b)和该最大值(Sfr_max,Sfg_max,Sfb_max)就可以计算图像数据的特征评分Sf,即:
Sf=(Sf_r/Sfr_max+Sf_g/Sfg_max+Sf_b/Sfb_max)/3。
可以理解的是,当图像数据为灰度图像时,只有一个通道,只需计算一个通道的相似度评分,再将该图像数据在这一个通道的相似度评分比上该图像数据中所有子图像块在该通道的相似度评分的最大值,就可以计算得到该单通道的图像数据的特征评分。
步骤103、通过预置分类模型对原始子数据集中的图像数据进行分类,并根据分类结果和标注类别计算图像数据的模型评分。
步骤103和步骤102可以同时进行,也可以先后进行。
请参考图3,图像数据的模型评分的具体计算过程为:
S1031、通过预置分类模型对原始子数据集中的图像数据进行分类,得到图像数据的分类结果,分类结果包括各分类类别的置信度。
预置分类模型为通过标准数据集预先训练好的分类模型,用于图像分类。标准数据集与原始子数据集为同一类型数据,例如原始子数据集为红绿灯图像,分类类别包括红、黄、绿,则标准数据集也为红绿灯图像,分类类别也包括红、黄、绿。预置分类模型的具体训练过程属于现有技术,在此不再进行赘述。将原始子数据集中的图像数据输入到预置分类模型进行分类,得到各个图像数据在各个分类类别的置信度。
S1032、从分类结果中获取图像数据对应的标注类别的置信度,并将该标注类别的置信度作为图像数据的第一置信度分数。
从分类结果中获取图像数据对应的标注类别的置信度Z1,并将该标注类别的置信度Z1作为图像数据的第一置信度分数。例如,当某图像数据为红绿灯图像时,其颜色的分类类别包括红色、绿色和黄色,假设预置分类模型对该红绿灯图像进行分类时的输出结果为:该红绿灯图像中的灯为红色的置信度为0.9632,为黄色的置信度为0.5625,为绿色的置信度为0.2217。当该红绿灯图像的标注类别为红色时,则将该红绿灯图像中的灯为红色的置信度(即0.9632)作为该红绿灯图像的第一置信度分数;当该红绿灯图像的标注类别为黄色时,则将该红绿灯图像中的灯为黄色的置信度(即0.5625)作为该红绿灯图像的第一置信度分数;当该红绿灯图像的标注类别为绿色时,则将该红绿灯图像中的灯为绿色的置信度(即0.2217)作为该红绿灯图像的第一置信度分数。
S1033、通过置信度权重对图像数据的剩余置信度进行加权求和,得到图像数据的第二置信度分数,剩余置信度为除图像数据的标注类别的置信度之外的其他分类类别的置信度,置信度权重通过对剩余置信度进行降序排序后的位置确定。
假设某图像数据的剩余置信度有k个,根据剩余置信度的大小对这k个剩余置信度进行降序排序后为Z2>Z3>...>Zk,剩余置信度的置信度权重为1/2j,其中j为排序后剩余置信度的位置序号。因此,根据排序后的位置可以获取这k个剩余置信度的置信度权重分别为1/2、1/22、…、1/2k-1,通过置信度权重对图像数据对应的剩余置信度进行加权求和,就可以得到图像数据的第二置信度分数1/2*Z2+1/22*Z3+...+1/2k-1*Zk
S1034、计算第一置信度分数与第二置信度分数的差值,得到图像数据的模型评分。
计算第一置信度分数与第二置信度分数的差值,得到图像数据的模型评分Sm,即Sm=Z1-(1/2*Z2+1/22*Z3+...+1/2k-1*Zk)。
沿用步骤S1032中的例子,假设该红绿灯图像数据的标注类别为红色,获取到该红绿灯图像的第一置信度分数为0.9632,剩余置信度包括红绿灯图像中的灯为黄色的置信度0.5625,以及为绿色的置信度0.2217,则该红绿灯图像的第二置信度分数为1/2*0.5625+1/4*0.2217,该红绿灯图像的模型评分为0.9632-(1/2*0.5625+1/4*0.2217)。
步骤104、结合特征评分和模型评分,获取图像数据的总评分。
通过特征评分权重、模型评分权重对特征评分Sf和模型评分Sm进行加权求和,得到图像数据的总评分S,即:
S=a*Sf+b*Sm;
式中,a为特征评分权重,b为模型评分权重,且a+b=1。
其中,a、b通过标准数据集确定,标准数据集包括标注结果和优化结果,标注结果为人工标注各标准数据集中各图像数据类别的结果,优化结果为筛选后图像数据类别为正确的结果。以间隔y(例如0.1)改变a、b的值来对标准数据集中各组子数据集进行评分,以获取标准数据集中各图像数据的总评分S;然后获取标准数据集中总评分S最高的x%的图像数据,将这些图像数据的标注类别与正确类别(通过标准数据集的优化结果可以确定)进行比对,统计这些图像数据标注的准确率,改变x的取值,找到满足目标准确率(例如准确率在99.99%以上)的x的最大值x_max,将该最大值x_max对应的a、b作为特征评分权重、模型评分权重,用于计算原始子数据集中图像数据的总评分。
步骤105、根据总评分对原始子数据集中的图像数据进行筛选,得到优化后子数据集。
如果通过人工对图像数据集中的每张图像数据进行筛选,在面对海量图像数据集时,工作量较大,筛选时间较长,也容易因为视觉疲劳判断出错,影响筛选结果。
为了改善上述问题,本申请实施例将原始子数据集中总评分最高的预置数量个图像数据直接输出,对原始子数据集中剩余的图像数据进行筛选,得到优化后子数据集。具体的,将原始子数据集中总评分最高的x_max%个图像数据作为免检数据直接输出,即这部分免检图像是正确的图像,对原始子数据集中除免检数据之外的图像数据进行整合展示,通过人工进行快速筛选,判断剩余的图像数据是否有误,例如判断剩余的图像数据的标注标签是否有误,剔除错误的图像数据,输出正确的图像数据,最终得到优化后子数据集。本申请实施例减少了人工筛选的图像数据的数据量,在一定程度上降低了人工筛选出错的可能性,加快了筛选速度,减少了筛选时间。
本申请实施例中,在获取到原始子数据集后,对原始子数据集中的图像数据分别进行特征提取和分类,获取图像数据的特征评分和模型评分;结合特征评分和模型评分获取图像数据的总评分,通过该总评分对原始子数据集中的图像数据进行筛选,以去掉错误的图像数据,得到优化后子数据集,从而改善了现有图像数据集存在错误数据的情况,影响模型构建的准确率和模型输出结果的技术问题。
进一步,本申请实施例根据原始子数据集中各图像数据的总评分,筛选出部分免检图像,通过人工对剩余的图像数据进行筛选,减少了人工筛选的图像数据的数据量和筛选时间,保证了人工筛选质量。
以上为本申请提供的一种图像数据优化方法的一个实施例,以下为本申请提供的一种图像数据优化装置的一个实施例。
请参考图4,本申请实施例提供的一种图像数据优化装置,包括:
第一获取单元,用于获取原始子数据集,原始子数据集中的图像数据对应的标注类别为同一分类类别;
特征提取和计算单元,用于对原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算图像数据的特征评分;
分类和计算单元,用于通过预置分类模型对原始子数据集中的图像数据进行分类,并根据分类结果和标注类别计算图像数据的模型评分;
第二获取单元,用于结合特征评分和模型评分,获取图像数据的总评分;
筛选单元,用于根据总评分对原始子数据集中的图像数据进行筛选,得到优化后子数据集。
作为进一步地改进,第一获取单元具体用于:
获取待优化的图像数据集;
根据图像数据集的图像数据数量对图像数据集进行划分,并根据标注类别对划分后的每份图像数据集进行分组,得到若干组原始子数据集,原始子数据集中的图像数据对应的标注类别为同一分类类别。
作为进一步地改进,特征提取和计算单元具体包括:
划分子单元,用于将原始子数据集中的图像数据划分为若干子图像块;
第一计算子单元,用于基于各子图像块的像素计算各子图像块的属性值和差异值;
第二计算子单元,用于根据各子图像块的属性值和差异值计算各子图像块的相似度评分,并将图像数据中各子图像块的相似度评分的最小值或平均值作为图像数据的相似度评分;
获取子单元,用于根据图像数据的相似度评分和原始子数据集中所有子图像块的相似度评分的最大值,获取图像数据的特征评分。
作为进一步地改进,第一计算子单元具体用于:
计算子图像块在预置方向上的所有像素的平均值,得到子图像块的属性值;
在预置方向上,计算子图像块中相邻像素的绝对差值的平均值,得到子图像块的差异值。
作为进一步地改进,分类和计算单元具体用于:
通过预置分类模型对原始子数据集中的图像数据进行分类,得到图像数据的分类结果,分类结果包括各分类类别的置信度;
从分类结果中获取图像数据对应的标注类别的置信度,并将该标注类别的置信度作为图像数据的第一置信度分数;
通过置信度权重对图像数据的剩余置信度进行加权求和,得到图像数据的第二置信度分数,剩余置信度为除图像数据的标注类别的置信度之外的其他分类类别的置信度,置信度权重通过对剩余置信度进行降序排序后的位置确定;
计算第一置信度分数与第二置信度分数的差值,得到图像数据的模型评分。
作为进一步地改进,第二获取单元具体用于:
通过特征评分权重、模型评分权重对特征评分和模型评分进行加权求和,得到图像数据的总评分。
作为进一步地改进,筛选单元具体用于:
将原始子数据集中总评分最高的预置数量个图像数据直接输出,并对原始子数据集中剩余的图像数据进行筛选,得到优化后子数据集。
本申请实施例中,在获取到原始子数据集后,对原始子数据集中的图像数据分别进行特征提取和分类,获取图像数据的特征评分和模型评分;结合特征评分和模型评分获取图像数据的总评分,通过该总评分对原始子数据集中的图像数据进行筛选,以去掉错误的图像数据,得到优化后子数据集,从而改善了现有图像数据集存在错误数据的情况,影响模型构建的准确率和模型输出结果的技术问题。
进一步,本申请实施例根据原始子数据集中各图像数据的总评分,筛选出部分免检图像,通过人工对剩余的图像数据进行筛选,减少了人工筛选的图像数据的数据量和筛选时间,保证了人工筛选质量。
请参考图5,本申请实施例还提供了一种图像数据优化设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的图像数据优化方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述方法实施例中的图像数据优化方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种图像数据优化方法,其特征在于,包括:
获取原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别;
对所述原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算所述图像数据的特征评分;
通过预置分类模型对所述原始子数据集中的图像数据进行分类,并根据分类结果和所述标注类别计算所述图像数据的模型评分;
结合所述特征评分和所述模型评分,获取所述图像数据的总评分;
根据所述总评分对所述原始子数据集中的图像数据进行筛选,得到优化后子数据集。
2.根据权利要求1所述的图像数据优化方法,其特征在于,所述获取原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别,包括:
获取待优化的图像数据集;
根据所述图像数据集的图像数据数量对所述图像数据集进行划分,并根据标注类别对划分后的每份图像数据集进行分组,得到若干组原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别。
3.根据权利要求1所述的图像数据优化方法,其特征在于,所述对所述原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算所述图像数据的特征评分,包括:
将所述原始子数据集中的图像数据划分为若干子图像块;
基于各所述子图像块的像素计算各所述子图像块的属性值和差异值;
根据各所述子图像块的属性值和差异值计算各所述子图像块的相似度评分,并将所述图像数据中各所述子图像块的相似度评分的最小值或平均值作为所述图像数据的相似度评分;
根据所述图像数据的相似度评分和所述原始子数据集中所有所述子图像块的相似度评分的最大值,获取所述图像数据的特征评分。
4.根据权利要求3所述的图像数据优化方法,其特征在于,所述基于各所述子图像块的像素计算各所述子图像块的属性值和差异值,包括:
计算所述子图像块在预置方向上的所有像素的平均值,得到所述子图像块的属性值;
在所述预置方向上,计算所述子图像块中相邻像素的绝对差值的平均值,得到所述子图像块的差异值。
5.根据权利要求1所述的图像数据优化方法,其特征在于,所述通过预置分类模型对所述原始子数据集中的图像数据进行分类,并根据分类结果和所述标注类别计算所述图像数据的模型评分,包括:
通过预置分类模型对所述原始子数据集中的图像数据进行分类,得到所述图像数据的分类结果,所述分类结果包括各分类类别的置信度;
从所述分类结果中获取所述图像数据对应的所述标注类别的置信度,并将该标注类别的置信度作为所述图像数据的第一置信度分数;
通过置信度权重对所述图像数据的剩余置信度进行加权求和,得到所述图像数据的第二置信度分数,所述剩余置信度为除所述图像数据的标注类别的置信度之外的其他分类类别的置信度,所述置信度权重通过对所述剩余置信度进行降序排序后的位置确定;
计算所述第一置信度分数与所述第二置信度分数的差值,得到所述图像数据的模型评分。
6.根据权利要求1所述的图像数据优化方法,其特征在于,所述结合所述特征评分和所述模型评分,获取所述图像数据的总评分,包括:
通过特征评分权重、模型评分权重对所述特征评分和所述模型评分进行加权求和,得到所述图像数据的总评分。
7.根据权利要求1所述的图像数据优化方法,其特征在于,所述根据所述总评分对所述原始子数据集中的图像数据进行筛选,得到优化后子数据集,包括:
将所述原始子数据集中所述总评分最高的预置数量个图像数据直接输出,并对所述原始子数据集中剩余的图像数据进行筛选,得到优化后子数据集。
8.一种图像数据优化装置,其特征在于,包括:
第一获取单元,用于获取原始子数据集,所述原始子数据集中的图像数据对应的标注类别为同一分类类别;
特征提取和计算单元,用于对所述原始子数据集中的图像数据进行特征提取,并基于提取的特征值计算所述图像数据的特征评分;
分类和计算单元,用于通过预置分类模型对所述原始子数据集中的图像数据进行分类,并根据分类结果和所述标注类别计算所述图像数据的模型评分;
第二获取单元,用于结合所述特征评分和所述模型评分,获取所述图像数据的总评分;
筛选单元,用于根据所述总评分对所述原始子数据集中的图像数据进行筛选,得到优化后子数据集。
9.一种图像数据优化设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的图像数据优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的图像数据优化方法。
CN202110560318.5A 2021-05-21 2021-05-21 一种图像数据优化方法、装置、设备和介质 Active CN113298139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110560318.5A CN113298139B (zh) 2021-05-21 2021-05-21 一种图像数据优化方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110560318.5A CN113298139B (zh) 2021-05-21 2021-05-21 一种图像数据优化方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113298139A true CN113298139A (zh) 2021-08-24
CN113298139B CN113298139B (zh) 2024-02-27

Family

ID=77323944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110560318.5A Active CN113298139B (zh) 2021-05-21 2021-05-21 一种图像数据优化方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113298139B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146856A (zh) * 2018-08-02 2019-01-04 深圳市华付信息技术有限公司 图像质量评定方法、装置、计算机设备及存储介质
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN111199540A (zh) * 2019-12-27 2020-05-26 Oppo广东移动通信有限公司 图像质量评价方法、装置、电子设备及存储介质
CN111340026A (zh) * 2020-03-05 2020-06-26 苏州科达科技股份有限公司 车辆年款识别模型的训练方法以及车辆年款的识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146856A (zh) * 2018-08-02 2019-01-04 深圳市华付信息技术有限公司 图像质量评定方法、装置、计算机设备及存储介质
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN111199540A (zh) * 2019-12-27 2020-05-26 Oppo广东移动通信有限公司 图像质量评价方法、装置、电子设备及存储介质
CN111340026A (zh) * 2020-03-05 2020-06-26 苏州科达科技股份有限公司 车辆年款识别模型的训练方法以及车辆年款的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许霜梅;: "基于矩阵分解模型的图片数据库构建", 电子设计工程, no. 15, 3 August 2020 (2020-08-03) *

Also Published As

Publication number Publication date
CN113298139B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN108765423B (zh) 一种卷积神经网络训练方法及装置
US9098775B2 (en) Multi-class identifier, method, and computer-readable recording medium
CN104573675B (zh) 作业图像的展示方法和装置
CN111738367B (zh) 一种基于图像识别的零件分类方法
CN107958270A (zh) 类别识别方法、装置、电子设备及计算机可读存储介质
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN110113634A (zh) 一种信息互动方法、装置、设备及存储介质
CN111522951A (zh) 一种基于图像识别的敏感数据识别与分类的技术方法
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN108009567A (zh) 一种结合图像颜色及hog和svm的粪便性状的自动辨别方法
CN114511568A (zh) 基于无人机的高速公路桥梁检修方法
CN110751191A (zh) 一种图像的分类方法及系统
CN110874835B (zh) 作物叶部病害抗性鉴定方法、系统、电子设备及存储介质
CN110781633A (zh) 基于深度学习模型的图文设计质量检测方法、装置及系统
CN104951434B (zh) 品牌情绪的确定方法和装置
CN113709125A (zh) 一种异常流量的确定方法、装置、存储介质及电子设备
CN115982557A (zh) 一种气体浓度检测用数据处理系统
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN115393664A (zh) 一种用于目标检测的主动学习样本挑选方法
CN108510483B (zh) 一种采用vlad编码和svm的计算生成彩色图像篡改检测方法
CN113962160A (zh) 基于用户画像的互联网卡用户流失预测方法及系统
CN113298139B (zh) 一种图像数据优化方法、装置、设备和介质
CN113420291A (zh) 基于权重集成的入侵检测特征选择方法
CN117576823A (zh) 一种排队叫号系统终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant