CN114510989A - 图像数据集的规范性评估方法、装置及设备 - Google Patents

图像数据集的规范性评估方法、装置及设备 Download PDF

Info

Publication number
CN114510989A
CN114510989A CN202111590662.5A CN202111590662A CN114510989A CN 114510989 A CN114510989 A CN 114510989A CN 202111590662 A CN202111590662 A CN 202111590662A CN 114510989 A CN114510989 A CN 114510989A
Authority
CN
China
Prior art keywords
image
file
data set
value
normative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111590662.5A
Other languages
English (en)
Other versions
CN114510989B (zh
Inventor
薛云志
孟令中
董乾
刘光镇
杨光
师源
王鹏淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202111590662.5A priority Critical patent/CN114510989B/zh
Publication of CN114510989A publication Critical patent/CN114510989A/zh
Application granted granted Critical
Publication of CN114510989B publication Critical patent/CN114510989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像数据集的规范性评估方法、装置及设备,涉及数据集评估技术领域。所述方法包括:获取图像数据集以及图像数据集的任务类型,任务类型用于指示图像数据集对应的模型训练任务;基于任务类型,确定图像数据集的规范性度量指标;计算图像数据集在每一规范性度量指标下的度量值;基于各度量值,对图像数据集的规范性进行评估,得到规范性评估结果。本发明实现了针对图像数据集提供一种规范性评估方法,并提供了具体的规范性评估指标及其度量值计算方式。

Description

图像数据集的规范性评估方法、装置及设备
技术领域
本发明涉及数据集评估技术领域,尤其涉及一种图像数据集的规范性评估方法、装置及设备。
背景技术
数据集(Data Set)是一种由数据所组成的集合,又可以称为资料集、数据集合或者资料集合等等。随着人工智能(Artificial Intelligence,AI)的发展,数据集的使用越来越频繁,多种多样的数据集层出不穷。
对于人工智能领域而言,数据集的质量是需要重点关注的一个问题,针对数据集的质量测评是人工智能领域中数据质量测评的主要方面。由于人工智能领域通常使用数据集来训练模型,从而数据集的质量影响着模型的训练结果,质量高或者相关性高的数据集对模型的训练是非常有帮助的,能够有效提升模型训练的准确性。相关技术中,数据集的质量测评包括数据集的规范性评估,数据集的规范性是指对数据集内在质量和外在质量的约束程度。
然而,针对图像类别的数据集(以下称为“图像数据集”),相关技术中尚未提出图像数据集的规范性评估方法。
发明内容
为解决上述问题,本发明提出了一种图像数据集的规范性评估方法、装置及设备,基于图像数据集的任务类型,确定规范性度量指标并计算度量值,以获取图像数据集的规范性评估结果。
本发明的技术方案包括:
一种图像数据集的规范性评估方法,其步骤包括:
获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务;
基于所述任务类型,确定所述图像数据集的规范性度量指标;
计算所述图像数据集在每一所述规范性度量指标下的度量值;
基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
可选地,所述任务类型包括:图像分类任务、目标检测任务或图像分割任务;
在所述任务类型包括所述图像分类任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;
在所述任务类型包括所述目标检测任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范;
在所述任务类型包括所述图像分割任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值和图像尺寸规范。
可选地,所述规范性度量指标包括文件完整规范;
在所述图像数据集包括图像文件Fi和标注文件Bi的情况下,计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
获取所述图像数据集中每一所述图像文件Fi的标注文件查找结果ai,所述标注文件查找结果ai用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述标注文件Bi
获取所述图像数据集中每一所述标注文件Bi的图像文件查找结果bi,所述图像文件查找结果bi用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述图像文件Fi
基于所有的所述标注文件查找结果ai与所述图像文件查找结果bi,计算所述图像数据集在所述文件完整规范下的度量值;
在所述图像数据集包括图像文件Fi、标注文件Bi和语义文件Si的情况下,所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
获取所述图像数据集中每一所述图像文件Fi的标注文件查找结果ci与语义文件查找结果di,所述标注文件查找结果ci用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述标注文件Bi,所述语义文件查找结果di用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述语义文件Si
获取所述图像数据集中每一所述标注文件Bi的图像文件查找结果ei与语义文件查找结果fi,所述图像文件查找结果ei用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述图像文件Fi,所述语义文件查找结果fi用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述语义文件Si
获取所述图像数据集中每一所述语义文件Si的图像文件查找结果gi与标注文件查找结果hi,所述图像文件查找结果gi用于指示所述语义文件Si在所述图像数据集中是否存在对应的所述图像文件Fi,所述标注文件查找结果hi用于指示所述语义文件Si在所述图像数据集中是否存在对应的所述标注文件Bi
基于所有的所述标注文件查找结果ci、所述语义文件查找结果di、所述图像文件查找结果ei、所述语义文件查找结果fi、所述图像文件查找结果gi与所述标注文件查找结果hi,计算所述图像数据集在所述文件完整规范下的度量值。
可选地,所述规范性度量指标包括图像像素均值;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
计算所述图像数据集中每一所述图像文件Fi的像素均值Ei
对各所述像素均值Ei进行归一化处理,得到归一化的像素均值E′i
将各所述归一化的像素均值E′i与目标亮度区间进行比对,得到每一所述图像文件Fi的像素均值评分;
基于所有的所述像素均值评分,计算所述图像数据集在所述图像像素均值下的度量值。
可选地,所述规范性度量指标包括图像尺寸规范;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
获取所述图像数据集中每一所述图像文件Fi的图像长度数据ui与图像宽度数据vi
基于各所述图像长度数据ui与所述图像宽度数据vi,分别计算图像长度平均值
Figure BDA0003429824230000031
与图像宽度平均值
Figure BDA0003429824230000032
根据所有的所述图像长度数据ui、所有的所述图像宽度数据vi、所述图像长度平均值
Figure BDA0003429824230000033
与所述图像宽度平均值
Figure BDA0003429824230000034
计算所述图像数据集的尺寸标准差δ;
基于所述尺寸标准差δ、所述图像长度平均值
Figure BDA0003429824230000035
与所述图像宽度平均值
Figure BDA0003429824230000036
计算所述图像数据集在所述图像尺寸规范下的度量值。
可选地,所述规范性度量指标包括类别分布规范;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
对所述图像数据集中各所述图像文件Fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk
基于各所述检测对象类别k的计数qk,计算类别平均计数
Figure BDA0003429824230000037
基于各所述检测对象类别k的计数qk与所述类别平均计数
Figure BDA0003429824230000038
计算所述图像数据集在所述类别分布规范下的度量值。
可选地,所述规范性度量指标包括图像标注规范;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
对所述图像数据集中各所述图像文件Fi使用矩形标注框进行标记,其中,所述矩形标注框的对角是坐标为(xmin,ymin)的点与坐标为(xmax,ymin)的点;
统计xmin≥xmax或ymin≥ymax的所述图像文件Fi,获取所述图像数据集中坐标错误图像文件的数量A;
统计坐标值缺少的所述图像文件Fi,获取所述图像数据集中坐标缺失图像文件的数量B,其中,所述坐标值缺少包括缺少坐标值xmin、坐标值ymin、坐标值xmax和坐标值ymax中至少一种;
统计矩形标注框中标注对象错误的所述图像文件Fi,获取所述图像数据集中标注错误图像文件的数量C,其中,所述标注对象错误包括标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种;
基于所述数量A、所述数量B、所述数量C与所述图像数据集中所述图像文件Fi的总数量N1,计算所述图像数据集在所述图像标注规范下的度量值。
可选地,其特征在于,图像数据集所述基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,包括:
将所述度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值Ml,其中,标记值Ml的取值包括:数据质量好、数据质量一般或数据质量差;
统计所有的所述标记值Ml的取值:
若取值为所述数据质量好的所述标记值Ml大于第一设定阈值,且其他所述标记值Ml的取值为所述数据质量一般,则所述规范性评估结果为所述图像数据集的质量优;
若取值为所述数据质量差的所述标记值Ml大于第二设定阈值,则所述规范性评估结果为所述图像数据集的质量差;
若所统计的所述标记值Ml的取值为其他分布,则所述规范性评估结果为所述图像数据集的质量中等。
一种图像数据集的规范性评估装置,所述装置包括:
采集模块,用于获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务图像数据集图像数据集;
指标确定模块,用于基于所述任务类型,确定所述图像数据集的规范性度量指标图像数据集;
度量值计算模块,用于计算所述图像数据集在每一所述规范性度量指标下的度量值图像数据集;
评估模块,图像数据集用于基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行,以实现上述图像数据集的规范性评估方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像数据集的规范性评估方法。
一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备执行如上述图像数据集的规范性评估方法。
与相关技术相比,本发明具有以下优势:
基于图像数据集的任务类型,确定规范性度量指标,然后基于图像数据集在各个规范性度量指标下的度量值,对图像数据集的规范性进行评估,实现了针对图像数据集提供一种规范性评估方法,并提供了具体的规范性评估指标及其度量值计算方式。另外,由于图像数据集所执行的模型训练任务不同,图像数据集中所包含的文件、对图像数据集的质量要求也可能存在差异,而本发明中,规范性度量指标是基于图像数据集对应的模型训练任务确定的,确保规范性度量指标准确匹配模型训练任务,实现了有针对性地进行规范性评估,提升了规范性评估的准确度。
附图说明
图1是本发明一个实施例提供的图像数据集的规范性评估方法的流程图。
图2是本发明一个实施例提供的图像数据集的规范性评估装置的框图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明特定实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明的规范性评估方法,如图1所示,包括以下步骤(110至140)。
步骤110:获取图像数据集以及图像数据集的任务类型,任务类型用于指示图像数据集对应的模型训练任务。
图像数据集用于执行模型训练任务,所训练的模型的应用不相同,用于指示模型训练任务的任务类型也不相同。本发明中,图像数据集可训练应用于图像分类、目标检测、图像分割等视觉任务处理领域的人工智能模型,因此,图像数据集的任务类型包括但不限于:图像分类任务、目标检测任务、图像分割任务。
本发明中,针对不同的模型训练任务,图像数据集中所包含的文件也有所差异,如下述表1所示。
表1任务类型与文件之间的对应关系
图像数据集的任务类型 图像数据集中所包含的文件
图像分类任务 图像文件F<sub>i</sub>,标注文件B<sub>i</sub>
目标检测任务 图像文件F<sub>i</sub>,标注文件B<sub>i</sub>
图像分割任务 图像文件F<sub>i</sub>,标注文件B<sub>i</sub>,语义文件S<sub>i</sub>
步骤120:基于任务类型,确定图像数据集的规范性度量指标。
由于图像数据集所执行的模型训练任务不同,图像数据集中所包含的文件也可能不同,对图像数据集的质量要求也可能存在差异,因此,为了实现对图像数据集质量的准确评估,本发明中,基于图像数据集的任务类型,确定图像数据集的规范性度量指标,该规范性度量指标用于对图像数据集的规范性进行评估。其中,图像数据集的规范性是指对图像数据集内在质量和外在质量的约束程度。
可选地,任务类型和规范性度量指标的实现方式包括:在任务类型包括图像分类任务的情况下,规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;在任务类型包括目标检测任务的情况下,规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范、图像标注规范;在任务类型包括图像分割任务的情况下,规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范。
步骤130:计算图像数据集在每一规范性度量指标下的度量值。
针对步骤120中确定的每一个规范性度量指标,计算图像数据集在该规范性度量指标下的度量值,或者可以说该规范性度量指标的度量值。可选地,度量值可以通过数学公式计算得到,也可以通过神经网络模型计算得到。有关度量值的具体计算过程示例,请参见下述实施例,此处不多赘述。
步骤140:基于各度量值,对图像数据集的规范性进行评估,得到规范性评估结果。
基于步骤130中所确定的所有规范性度量指标的度量值,可以对图像数据集的规范性进行评估,以得到规范性评估结果。可选地,基于度量值评估规范性的方式包括但不限于以下至少一项:对所有规范性度量指标的度量值进行求平均、求和、加权求和、统计求和、预设关系对应、标记等。基于此,规范性评估结果可以是具体的数值(如90、80、99等),也可以是评估等级(如质量优、质量中等、质量差等)。有关规范性评估结果的具体计算过程示例,请参见下述实施例,此处不多赘述。
下面,针对规范性度量指标的度量值的计算过程进行介绍说明。
在一个示例中,针对图像分类任务、目标检测任务和图像分割任务而言,规范性度量指标包括文件完整规范,而由于针对不同的模型训练任务,图像数据集中所包含的文件有所差异,从而文件完整规范的计算方式也有所差异,如下所示。
在图像数据集包括图像文件Fi和标注文件Bi的情况下,上述步骤130包括:获取图像数据集中每一图像文件Fi的标注文件查找结果ai,标注文件查找结果ai用于指示图像文件Fi在图像数据集中是否存在对应的标注文件Bi;获取图像数据集中每一标注文件Bi的图像文件查找结果bi,图像文件查找结果bi用于指示标注文件Bi在图像数据集中是否存在对应的图像文件Fi;基于所有的标注文件查找结果ai与图像文件查找结果bi,计算图像数据集在文件完整规范下的度量值。
在图像数据集包括图像文件Fi、标注文件Bi和语义文件Si的情况下,上述步骤130包括:获取图像数据集中每一图像文件Fi的标注文件查找结果ci与语义文件查找结果di,标注文件查找结果ci用于指示图像文件Fi在图像数据集中是否存在对应的标注文件Bi,语义文件查找结果di用于指示图像文件Fi在图像数据集中是否存在对应的语义文件Si;获取图像数据集中每一标注文件Bi的图像文件查找结果ei与语义文件查找结果fi,图像文件查找结果ei用于指示标注文件Bi在图像数据集中是否存在对应的图像文件Fi,语义文件查找结果fi用于指示标注文件Bi在图像数据集中是否存在对应的语义文件Si;获取图像数据集中每一语义文件Si的图像文件查找结果gi与标注文件查找结果hi,图像文件查找结果gi用于指示语义文件Si在图像数据集中是否存在对应的图像文件Fi,标注文件查找结果hi用于指示语义文件Si在图像数据集中是否存在对应的标注文件Bi;基于所有的标注文件查找结果ci、语义文件查找结果di、图像文件查找结果ei、语义文件查找结果fi、图像文件查找结果gi与标注文件查找结果hi,计算图像数据集在文件完整规范下的度量值。
图像数据集的图像文件Fi与配置文件(标注文件Bi和/或语义文件Si)之间存在着对应关系,若对应关系缺失,则属于文件不完整。因此,在评估文件完整规范时,可以遍历图像数据集中的每一文件,判断各文件在图像数据集中是否存在对应文件,若不存在则说明文件缺失。可选地,若不存在对应文件,则上述文件查找结果为0;若存在对应文件,则上述文件查找结果为1。
示例性地,针对图像分类任务和目标检测任务(图像数据集包括图像文件Fi和标注文件Bi),标注文件查找结果ai和图像文件查找结果bi的获取方式如下:遍历图像数据集,对于每一个图像文件Fi,查找图像文件Fi对应的标注文件Bi是否存在,存在则ai=0,不存在则ai=1;遍历图像数据集,对于每一个标注文件Bi,查找标注文件Bi对应的图像文件Fi是否存在,存在则bi=0,不存在则bi=1。
示例性地,针对图像分割任务(图像数据集包括图像文件Fi、标注文件Bi和语义文件Si),标注文件查找结果ci、语义文件查找结果di、图像文件查找结果ei、语义文件查找结果fi、图像文件查找结果gi、标注文件查找结果hi的获取方式如下:遍历图像数据集,对于每一个图像文件Fi,查找图像文件Fi对应的标注文件Bi是否存在,存在则ci=0,不存在则ci=1;查找图像文件Fi对应的语义文件Si是否存在,存在则di=0,不存在则di=1;遍历图像数据集,对每一个标注文件Bi,查找标注文件Bi对应的图像文件Fi是否存在,存在则ei=0,不存在则ei=1;查找标注文件Bi对应的语义文件Si是否存在,存在则fi=0,不存在则fi=1;遍历图像数据集,对每一个语义文件Si,查找语义文件Si对应的图像文件Fi是否存在,存在则gi=0,不存在则gi=1;查找语义文件Si对应的标注文件Bi是否存在,存在则hi=0,不存在则hi=1。
基于上述文件查找结果,即可计算图像数据集在文件完整规范下的度量值,也即文件完整规范的度量值。可选地,文件完整规范的度量值ε1的计算公式如下:
Figure BDA0003429824230000081
其中,N1表示图像数据集中图像文件的总数目,N2表示图像数据集中标注文件的总数目,N3表示图像数据集中语义文件的总数目。
在一个示例中,针对图像分类任务、目标检测任务和图像分割任务而言,图像数据集均包括图像文件Fi,规范性度量指标还包括图像像素均值。图像像素均值是指图像像素的平均值,它反映了图像的平均亮度。图像的平均亮度越大,图像的质量越好。基于此,上述步骤130包括如下几个步骤。
(1)计算图像数据集中每一图像文件Fi的像素均值Ei
设M为图像文件Fi长度方向(行)上的像素个数,N为图像文件Fi宽度方向(列)上的像素个数,F(m,n)为图像文件Fi第m行第n列的像素值,根据RGB图像转化为灰度图的原理,该图像文件Fi的像素均值Ei的计算公式可以为:
Figure BDA0003429824230000082
F(m,n)=0.299*rmn+0.587*gmn+0.114*bmn
其中,rmn,gmn,bmn是图像文件Fi第m行第n列的三通道像素值,r、g、b为图像的R、G、B三个通道值。
(2)对各像素均值Ei进行归一化处理,得到归一化的像素均值E′i
通过归一化处理,可以统一且缩小像素均值的取值范围,以便于后续的处理。可选地,像素均值Ei的取值范围为[0,255],可以通过如下计算公式进行归一化,以得到像素均值E′i
Figure BDA0003429824230000091
(3)将各归一化的像素均值E′i与目标亮度区间进行比对,得到每一图像文件Fi的像素均值评分。
目标亮度区间是预先设置的、图像亮度合格的区间。设目标亮度区间为[0.25,0.75],则图像文件Fi的像素均值E′i在[0.25,0.75]区域内,则说明图像文件Fi的亮度不会过暗和过亮,亮度合格。通过将归一化的像素均值E′i与目标亮度区间进行比对,可以得到图像文件Fi的像素均值评分,以目标亮度区间为[0.25,0.75]为例,像素均值评分的计算公式可以如下:
Figure BDA0003429824230000092
(4)基于所有的像素均值评分,计算图像数据集在图像像素均值下的度量值。
通过图像数据集中所有图像文件的像素均值评分,即可计算图像数据集在图像像素均值下的度量值,也即图像像素均值的度量值。可选地,图像像素均值的度量值ε2的计算公式如下:
Figure BDA0003429824230000093
在一个示例中,针对图像分类任务、目标检测任务和图像分割任务而言,图像数据集均包括图像文件Fi,规范性度量指标还包括图像尺寸规范。对图像尺寸规范的评估是指对图像数据集中图像文件的尺寸(以下称为“图像尺寸”)进行评估,图像尺寸之间的差异越小则说明图像数据集的质量越好。如果图像尺寸之间的差距过大,则说明该图像数据集在图像尺寸方面不太规范,需要进行图像尺寸统一化操作,如缩放处理、裁剪处理等。基于此,上述步骤130包括如下几个步骤。
(1)获取图像数据集中每一图像文件Fi的图像长度数据ui与图像宽度数据vi
(2)基于各图像长度数据ui与图像宽度数据vi,分别计算图像长度平均值
Figure BDA0003429824230000094
与图像宽度平均值
Figure BDA0003429824230000095
也即,基于各图像长度数据ui,计算图像长度平均值
Figure BDA0003429824230000096
基于各图像宽度数据vi,计算图像宽度平均值
Figure BDA0003429824230000097
(3)根据所有的图像长度数据ui、所有的图像宽度数据vi、图像长度平均值
Figure BDA0003429824230000098
与图像宽度平均值
Figure BDA0003429824230000099
计算图像数据集的尺寸标准差δ。
示例性地,图像数据集的尺寸标准差δ的计算公式如下所示:
Figure BDA00034298242300000910
其中,ui为图像文件Fi(第i个图像文件,i为正整数)的长度数据,
Figure BDA00034298242300000911
为图像长度平均值;vi为图像文件Fi的宽度数据,
Figure BDA0003429824230000101
为图像宽度平均值。
(4)基于尺寸标准差δ、图像长度平均值
Figure BDA0003429824230000102
与图像宽度平均值
Figure BDA0003429824230000103
计算图像数据集在图像尺寸规范下的度量值。
通过尺寸标准差δ、图像长度平均值
Figure BDA00034298242300001010
与图像宽度平均值
Figure BDA0003429824230000104
即可进一步计算图像数据集在图像尺寸规范下的度量值,也即图像尺寸规范的度量值。可选地,图像尺寸规范的度量值ε3的计算公式如下:
Figure BDA0003429824230000105
在一个示例中,针对图像分类任务和目标检测任务而言,规范性度量指标还包括类别分布规范。图像数据集中各类别的图像文件之间的数目差异体现着图像数据集的不平衡性。例如,用于目标检测任务的图像数据集包含100个图像文件,其中,20个图像文件的检测对象为猫,而另外80个图像文件的检测对象均为狗,则该图像数据集不平衡。
基于此,类别分布规范定义为各类别数据的差异程度,上述步骤130包括:对图像数据集中各图像文件Fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk;基于各检测对象类别k的计数qk,计算类别平均计数
Figure BDA0003429824230000106
基于各检测对象类别k的计数qk与类别平均计数
Figure BDA0003429824230000107
计算图像数据集在类别分布规范下的度量值(也即类别分布规范的度量值)。可选地,类别分布规范的度量值ε4的计算公式如下所示:
Figure BDA0003429824230000108
其中,qi为第i个类别的计数,
Figure BDA0003429824230000109
为类别平均计数。
在一个示例中,针对目标检测任务而言,规范性度量指标还包括图像标注规范。图像标注可以采用box矩形标注框进行标记,从而,正确的图像标注可以定义为:在图像坐标系内构成以点(xmin,ymin)和点(xmax,ymax)为对角的矩形标记框,且标注对象准确。由此,图像标注可能存在以下几种错误:
错误1:xmin≥xmax或者ymin≥ymax
错误2:坐标值缺少。其中,坐标值缺少包括缺少坐标值xmin、坐标值ymin、坐标值xmax和坐标值ymax中至少一种。
错误3:标注框中标注对象错误。可选地,标注对象错误标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种。其中,标注对象类别错误是指标注框内的标注对象不是标注类别对应的对象,如标注类别为狗和猫,而标注框内的标注对象为兔子;标注对象数量错误是指标注不完全,如标注类别为狗,但并没有将图像中所有的狗都标注出来;标注框大小错误是指标注不准确,即标注框过大或过小,如需要标注狗,但是标注框过小而导致仅仅标注出狗的鼻子。
基于此,上述步骤130包括:对图像数据集中各图像文件Fi使用上述矩形标注框进行标记;统计xmin≥xmax或ymin≥ymax的图像文件Fi,获取图像数据集中坐标错误图像文件的数量A;统计坐标值缺少的图像文件Fi,获取图像数据集中坐标缺失图像文件的数量B;统计矩形标注框中标注对象错误的图像文件Fi,获取图像数据集中标注错误图像文件的数量C;基于数量A、数量B、数量C与图像数据集中图像文件Fi的总数量N1,计算图像数据集在图像标注规范下的度量值(也即图像标注规范的度量值)。可选地,图像标注规范的度量值ε5的计算公式如下所示:
Figure BDA0003429824230000111
下面,针对规范性评估结果的计算过程进行介绍说明。
在一个示例中,上述步骤140包括如下几个步骤。
(1)将度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值Ml,其中,标记值Ml的取值包括:数据质量好、数据质量一般或数据质量差。
本发明中,规范性度量指标不同,针对其度量值所设定的设定阈值范围也有所差异。下面,分别介绍各个规范性度量指标的标记值Ml的确定过程。
可选地,文件完整规范的度量值为ε1,将文件完整规范的度量值ε1与设定阈值t1、t2进行比较,得到标记值M1。如下述计算公式,当度量值e1落在某一区间内时,标记值M1标记为该区间对应的值:
Figure BDA0003429824230000112
其中,p13表示缺少相关文件;p12表示不缺少相关文件,但是相关文件内容不全,缺失率过高;p11表示文件完整度相对较高。
可选地,图像像素均值的度量值为ε2,将图像像素均值的度量值ε2与设定阈值t3、t4进行比较,得到标记值M2。如下述计算公式,当度量值ε2落在某一区间内时,标记值M2标记为该区间对应的值:
Figure BDA0003429824230000113
其中,p23表示图像数据集中的图像文件的内在质量过低,图像不清晰,暗淡等等,不易识别图像文件中的对象;p22表示图像文件的内在质量一般,能够识别出图像文件中的对象;p21表示图像文件的内在质量较高,图像清晰,图像文件中的对象明显可见。
可选地,图像尺寸规范的度量值为ε3,将图像尺寸规范的度量值ε3与设定阈值t5、t6进行比较,得到标记值M3。如下述计算公式,当度量值ε3落在某一区间内时,标记值M3标记为该区间对应的值:
Figure BDA0003429824230000121
其中,p33表示图像数据集中的图像尺寸参差不齐,差别过大,且存在的尺寸类型多;p32表示图像数据集中的图像尺寸偏差较小,但是尺寸不统一;p31表示图像尺寸相差无几。
可选地,类别分布规范的度量值为ε4,将类别分布规范的度量值ε4与设定阈值t7、t8进行比较,得到标记值M4。如下述计算公式,当度量值ε4落在某一区间内时,标记值M4标记为该区间对应的值:
Figure BDA0003429824230000122
其中,p43表示图像数据集内类别分布差异过大,部分类别的图像文件的数量过低或过高,使用过程中容易产生欠拟合或过拟合的情况;p42表示图像数据集内的类别差异存在,但是在使用过程中不会产生欠拟合或过拟合的情况;p41表示图像数据集中的各类别的图像文件的数目相差无几。
可选地,图像标注规范的度量值为ε5,将图像标注规范的度量值ε5与设定阈值t9、t10进行比较,得到标记值M5。如下述计算公式,当度量值ε5落在某一区间内时,标记值M5标记为该区间对应的值:
Figure BDA0003429824230000123
其中,p53表示图像标注错误率过高,比如将“狗”标注成“猫”的情况出现率太高,导致使用图像数据集执行模型训练任务时,训练准确率过低;p52表示图像标注错误率可接受,虽然存在标注错误的情况,但是数量还在可控范围内;p51表示图像标注错误率非常低,标注质量高。
(2)统计所有的标记值Ml的取值:若取值为数据质量好的标记值Ml大于第一设定阈值,且其他标记值Ml的取值为数据质量一般,则规范性评估结果为图像数据集的质量优;若取值为数据质量差的标记值Ml大于第二设定阈值,则规范性评估结果为图像数据集的质量差;若所统计的标记值ml的取值为其他分布,则规范性评估结果为图像数据集的质量中等。
本发明中,针对不同的模型训练任务,所确定的规范性度量指标有所差异,进而在此示例的步骤(2)中,参与统计的标记值Ml也有所差异。例如,针对图像分类任务,参与统计的标记值分别为文件完整规范、图像像素均值、图像尺寸规范、类别分布规范的标记值;针对目标检测任务,参与统计的标记值分别为:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范的标记值;针对图像分割任务,参与统计的标记值分别为:文件完整规范、图像像素均值和图像尺寸规范的标记值。
在本示例中,规范性评估结果X包括:图像数据集的质量优(good)、图像数据集的质量中等(middle)、图像数据集的质量差(poor)。基于此,规范性评估结果X的计算公式如下所示:
Figure BDA0003429824230000131
其中,l为选取的规范性度量指标的指标总数。
当规范性评估结果X为图像数据集的质量差(poor)时,表示图像数据集的规范性较差,如图像数据集的文件缺失过多、类别分布差异较大或者对象的标注错误率较高,图像的尺寸差异较大或者图像亮度较差等;当规范性评估结果X为图像数据集的质量中等(middle)时,表示图像数据集的规范性中等,如图像数据集的文件完整度高、类别分布合理或者对象标注准确率高,同时图像数据集中的图像尺寸合理、亮度适合等;当规范性评估结果X为图像数据集的质量优(good)时,表示图像数据集的规范性较优,如图像数据集的文件完整度高、类别分布合理而且对象标注准确率高,同时图像数据集中的图像尺寸合理、亮度适合等。
综上所述,在本发明中,基于图像数据集的任务类型,确定规范性度量指标,然后基于图像数据集在各个规范性度量指标下的度量值,对图像数据集的规范性进行评估,实现了针对图像数据集提供一种规范性评估方法,并提供了具体的规范性评估指标及其度量值计算方式。另外,由于图像数据集所执行的模型训练任务不同,图像数据集中所包含的文件、对图像数据集的质量要求也可能存在差异,而本发明中,规范性度量指标是基于图像数据集对应的模型训练任务确定的,确保规范性度量指标准确匹配模型训练任务,实现了有针对性地进行规范性评估,提升了规范性评估的准确度。
以下为一个用于图像分割任务的图像数据集的具体示例,该示例选择的规范性度量指标包括文件完整规范、图像像素均值和图像尺寸规范。
设:图像数据集中图像文件的总数目N1=1000,图像数据集中标注文件的总数目N2=998,图像数据集中语义文件的总数目N3=990。
首先,计算各个规范性度量指标的度量值,并进一步确定规范性度量指标的标记值。
(1)文件完整规范。
遍历图像数据集,对于每一个图像文件Fi,查找图像文件Fi对应的标注文件Bi是否存在,存在则ci=0,不存在则ci=1;查找图像文件Fi对应的语义文件Si是否存在,存在则di=0,不存在则di=1。则:
Figure BDA0003429824230000141
Figure BDA0003429824230000142
遍历图像数据集,对每一个标注文件Bi,查找标注文件Bi对应的图像文件Fi是否存在,存在则ei=0,不存在则ei=1;查找标注文件Bi对应的语义文件Si是否存在,存在则fi=0,不存在则fi=1。则:
Figure BDA0003429824230000143
Figure BDA0003429824230000144
遍历图像数据集,对每一个语义文件Si,查找语义文件Si对应的图像文件Fi是否存在,存在则gi=0,不存在则gi=1;查找语义文件Si对应的标注文件Bi是否存在,存在则hi=0,不存在则hi=1。则:
Figure BDA0003429824230000145
Figure BDA0003429824230000146
基于此,对于用于图像分割任务的图像数据集,其文件完整规范ε1计算如下:
Figure BDA0003429824230000147
Figure BDA0003429824230000151
假设设定阈值范围由两个阶段阈值0.1和0.3确定,即t1=0.1,t2=0.3,则文件完整规范的标记值的计算公式如下:
Figure BDA0003429824230000152
由于文件完整规范ε1等于0.0793,则根据上述计算公式可以得到文件完整规范的标记值M1为p11。
(2)图像像素均值。
对于第i个图像文件的像素均值Ei,r,g,b为图像的R、G、B三个通道值。图像文件对应的标注文件中有图像大小的信息,例如,第i个图像文件对应的标注文件中包括:Width=353;Hight=500;depth=3,即M=353,N=500,图像为RGB三通道图像。基于此,像素均值Ei计算如下:
Figure BDA0003429824230000153
对Ei进行归一化:
Figure BDA0003429824230000154
对图像数据集中的所有图像文件进行遍历,有30个图像文件的平均亮度质量合格,即:
Figure BDA0003429824230000155
Figure BDA0003429824230000156
对于该例的图像数据集中,设定图像数据集的图像像素均值度量结果评估的两个阶段阈值为0.1和0.3,即t3=0.1,t4=0.3,则图像像素均值的标记值的计算公式如下:
Figure BDA0003429824230000157
由于图像像素均值ε2等于0.03,则根据上述计算公式可以得到图像像素均值的标记值M2为p21。
(3)图像尺寸规范。
图像文件对应的标注文件中有大小的信息,即Width和Hight,对图像数据集全部图像文件的Width和Hight求均值,得到图像宽度平均值
Figure BDA0003429824230000161
和图像长度平均值
Figure BDA0003429824230000162
如下所示:
Figure BDA0003429824230000163
Figure BDA0003429824230000164
第i个图像文件的Width的值为vi,Hight的值为ui,遍历计算所有图像文件,则可以得到图像尺寸规范的度量值ε3为:
Figure BDA0003429824230000165
Figure BDA0003429824230000166
通常来说,标准差δ/均值的比值小于0.25则为适合,则设定两个阶段阈值为t5=0.25,t6=0.5。则图像尺寸规范的标记值的计算公式如下:
Figure BDA0003429824230000167
由于图像尺寸规范的度量值ε3等于0.094,则根据上述计算公式可以得到图像尺寸规范的标记值M3为p31。
在本示例中,图像数据集用于图像分割任务,则选取的规范性度量指标总数为3。结合各个规范性度量指标的标记值(M1为p11,M2为p21,M3为p31),以及上述实施例中关于规范性评估结果X的计算公式,由于
Figure BDA0003429824230000168
大于3*40%,则图像数据集的规范性评估结果X为图像数据集的质量优(good)。
请参考图2,其示出了本发明一个实施例提供的图像数据集的规范性评估装置的框图。该装置可以为计算机设备,也可以设置在计算机设备中。如图2所示,该装置包括如下几个模块:采集模块210、指标确定模块220、度量值计算模块230、评估模块240。
采集模块210,用于获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务图像数据集图像数据集。
指标确定模块220,用于基于所述任务类型,确定所述图像数据集的规范性度量指标图像数据集。
度量值计算模块230,用于计算所述图像数据集在每一所述规范性度量指标下的度量值图像数据集。
评估模块240,图像数据集用于基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
可选地,所述任务类型包括:图像分类任务、目标检测任务或图像分割任务;
在所述任务类型包括所述图像分类任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;
在所述任务类型包括所述目标检测任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范;
在所述任务类型包括所述图像分割任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值和图像尺寸规范。
可选地,所述规范性度量指标包括文件完整规范;
在所述图像数据集包括图像文件Fi和标注文件Bi的情况下,所述度量值计算模块230,用于:
获取所述图像数据集中每一所述图像文件Fi的标注文件查找结果ai,所述标注文件查找结果ai用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述标注文件Bi
获取所述图像数据集中每一所述标注文件Bi的图像文件查找结果bi,所述图像文件查找结果bi用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述图像文件Fi
基于所有的所述标注文件查找结果ai与所述图像文件查找结果bi,计算所述图像数据集在所述文件完整规范下的度量值;
在所述图像数据集包括图像文件Fi、标注文件Bi和语义文件Si的情况下,所述度量值计算模块230,用于:
获取所述图像数据集中每一所述图像文件Fi的标注文件查找结果ci与语义文件查找结果di,所述标注文件查找结果ci用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述标注文件Bi,所述语义文件查找结果di用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述语义文件Si
获取所述图像数据集中每一所述标注文件Bi的图像文件查找结果ei与语义文件查找结果fi,所述图像文件查找结果ei用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述图像文件Fi,所述语义文件查找结果fi用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述语义文件Si
获取所述图像数据集中每一所述语义文件Si的图像文件查找结果gi与标注文件查找结果hi,所述图像文件查找结果gi用于指示所述语义文件Si在所述图像数据集中是否存在对应的所述图像文件Fi,所述标注文件查找结果hi用于指示所述语义文件Si在所述图像数据集中是否存在对应的所述标注文件Bi
基于所有的所述标注文件查找结果ci、所述语义文件查找结果di、所述图像文件查找结果ei、所述语义文件查找结果fi、所述图像文件查找结果gi与所述标注文件查找结果hi,计算所述图像数据集在所述文件完整规范下的度量值。
可选地,所述规范性度量指标包括图像像素均值;所述图像数据集包括图像文件Fi
所述度量值计算模块230,用于:
计算所述图像数据集中每一所述图像文件Fi的像素均值Ei
对各所述像素均值Ei进行归一化处理,得到归一化的像素均值E′i
将各所述归一化的像素均值E′i与目标亮度区间进行比对,得到每一所述图像文件Fi的像素均值评分;
基于所有的所述像素均值评分,计算所述图像数据集在所述图像像素均值下的度量值。
可选地,所述规范性度量指标包括图像尺寸规范;所述图像数据集包括图像文件Fi
所述度量值计算模块230,用于:
获取所述图像数据集中每一所述图像文件Fi的图像长度数据ui与图像宽度数据vi
基于各所述图像长度数据ui与所述图像宽度数据vi,分别计算图像长度平均值
Figure BDA0003429824230000181
与图像宽度平均值
Figure BDA0003429824230000182
根据所有的所述图像长度数据ui、所有的所述图像宽度数据vi、所述图像长度平均值
Figure BDA0003429824230000183
与所述图像宽度平均值
Figure BDA0003429824230000184
计算所述图像数据集的尺寸标准差δ;
基于所述尺寸标准差δ、所述图像长度平均值
Figure BDA0003429824230000185
与所述图像宽度平均值
Figure BDA0003429824230000186
计算所述图像数据集在所述图像尺寸规范下的度量值。
可选地,所述规范性度量指标包括类别分布规范;所述图像数据集包括图像文件Fi
所述度量值计算模块230,用于:
对所述图像数据集中各所述图像文件Fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk
基于各所述检测对象类别k的计数qk,计算类别平均计数
Figure BDA0003429824230000187
基于各所述检测对象类别k的计数qk与所述类别平均计数
Figure BDA0003429824230000188
计算所述图像数据集在所述类别分布规范下的度量值。
可选地,所述规范性度量指标包括图像标注规范;所述图像数据集包括图像文件Fi
所述度量值计算模块230,用于:
对所述图像数据集中各所述图像文件Fi使用矩形标注框进行标记,其中,所述矩形标注框的对角是坐标为(xmin,ymin)的点与坐标为(xmax,ymax)的点;
统计xmin≥xmax或ymin≥ymax的所述图像文件Fi,获取所述图像数据集中坐标错误图像文件的数量A;
统计坐标值缺少的所述图像文件Fi,获取所述图像数据集中坐标缺失图像文件的数量B,其中,所述坐标值缺少包括缺少坐标值xmin、坐标值ymin、坐标值xmax和坐标值ymax中至少一种;
统计矩形标注框中标注对象错误的所述图像文件Fi,获取所述图像数据集中标注错误图像文件的数量C,其中,所述标注对象错误包括标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种;
基于所述数量A、所述数量B、所述数量C与所述图像数据集中所述图像文件Fi的总数量N1,计算所述图像数据集在所述图像标注规范下的度量值。
可选地,所述评估模块240,用于:
将所述度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值Ml,其中,标记值Ml的取值包括:数据质量好、数据质量一般或数据质量差;
统计所有的所述标记值Ml的取值:
若取值为所述数据质量好的所述标记值Ml大于第一设定阈值,且其他所述标记值Ml的取值为所述数据质量一般,则所述规范性评估结果为所述图像数据集的质量优;
若取值为所述数据质量差的所述标记值Ml大于第二设定阈值,则所述规范性评估结果为所述图像数据集的质量差;
若所统计的所述标记值Ml的取值为其他分布,则所述规范性评估结果为所述图像数据集的质量中等。
有关装置模块的具体执行过程、有益效果等阐述,请参见上述方法实施例的介绍说明,此处不多赘述。
在示例性实施例中,还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行,以实现上述图像数据集的规范性评估方法。
在示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像数据集的规范性评估方法。
在示例性实施例中,还提供了一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备执行如上述图像数据集的规范性评估方法。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像数据集的规范性评估方法,其特征在于,其步骤包括:
获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务;
基于所述任务类型,确定所述图像数据集的规范性度量指标;
计算所述图像数据集在每一所述规范性度量指标下的度量值;
基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
2.如权利要求1所述的方法,其特征在于,所述任务类型包括:图像分类任务、目标检测任务或图像分割任务;
在所述任务类型包括所述图像分类任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;
在所述任务类型包括所述目标检测任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范;
在所述任务类型包括所述图像分割任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值和图像尺寸规范。
3.如权利要求1所述的方法,其特征在于,所述规范性度量指标包括文件完整规范;
在所述图像数据集包括图像文件Fi和标注文件Bi的情况下,计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
获取所述图像数据集中每一所述图像文件Fi的标注文件查找结果ai,所述标注文件查找结果ai用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述标注文件Bi
获取所述图像数据集中每一所述标注文件Bi的图像文件查找结果bi,所述图像文件查找结果bi用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述图像文件Fi
基于所有的所述标注文件查找结果ai与所述图像文件查找结果bi,计算所述图像数据集在所述文件完整规范下的度量值;
在所述图像数据集包括图像文件Fi、标注文件Bi和语义文件Si的情况下,所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
获取所述图像数据集中每一所述图像文件Fi的标注文件查找结果ci与语义文件查找结果di,所述标注文件查找结果ci用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述标注文件Bi,所述语义文件查找结果di用于指示所述图像文件Fi在所述图像数据集中是否存在对应的所述语义文件Si
获取所述图像数据集中每一所述标注文件Bi的图像文件查找结果ei与语义文件查找结果fi,所述图像文件查找结果ei用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述图像文件Fi,所述语义文件查找结果fi用于指示所述标注文件Bi在所述图像数据集中是否存在对应的所述语义文件Si
获取所述图像数据集中每一所述语义文件Si的图像文件查找结果gi与标注文件查找结果hi,所述图像文件查找结果gi用于指示所述语义文件Si在所述图像数据集中是否存在对应的所述图像文件Fi,所述标注文件查找结果hi用于指示所述语义文件Si在所述图像数据集中是否存在对应的所述标注文件Bi
基于所有的所述标注文件查找结果ci、所述语义文件查找结果di、所述图像文件查找结果ei、所述语义文件查找结果fi、所述图像文件查找结果gi与所述标注文件查找结果hi,计算所述图像数据集在所述文件完整规范下的度量值。
4.如权利要求1所述的方法,其特征在于,所述规范性度量指标包括图像像素均值;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
计算所述图像数据集中每一所述图像文件Fi的像素均值Ei
对各所述像素均值Ei进行归一化处理,得到归一化的像素均值E′i
将各所述归一化的像素均值E′i与目标亮度区间进行比对,得到每一所述图像文件Fi的像素均值评分;
基于所有的所述像素均值评分,计算所述图像数据集在所述图像像素均值下的度量值。
5.如权利要求1所述的方法,其特征在于,所述规范性度量指标包括图像尺寸规范;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
获取所述图像数据集中每一所述图像文件Fi的图像长度数据ui与图像宽度数据vi
基于各所述图像长度数据ui与所述图像宽度数据vi,分别计算图像长度平均值
Figure FDA0003429824220000021
与图像宽度平均值
Figure FDA0003429824220000022
根据所有的所述图像长度数据ui、所有的所述图像宽度数据vi、所述图像长度平均值
Figure FDA0003429824220000023
与所述图像宽度平均值
Figure FDA0003429824220000024
计算所述图像数据集的尺寸标准差δ;
基于所述尺寸标准差δ、所述图像长度平均值
Figure FDA0003429824220000025
与所述图像宽度平均值
Figure FDA0003429824220000026
计算所述图像数据集在所述图像尺寸规范下的度量值。
6.如权利要求1所述的方法,其特征在于,所述规范性度量指标包括类别分布规范;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
对所述图像数据集中各所述图像文件Fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk
基于各所述检测对象类别k的计数qk,计算类别平均计数
Figure FDA0003429824220000031
基于各所述检测对象类别k的计数qk与所述类别平均计数
Figure FDA0003429824220000032
计算所述图像数据集在所述类别分布规范下的度量值。
7.如权利要求1所述的方法,其特征在于,所述规范性度量指标包括图像标注规范;所述图像数据集包括图像文件Fi
所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
对所述图像数据集中各所述图像文件Fi使用矩形标注框进行标记,其中,所述矩形标注框的对角是坐标为(xmin,ymin)的点与坐标为(xmax,ymax)的点;
统计xmin≥xmax或ymin≥ymax的所述图像文件Fi,获取所述图像数据集中坐标错误图像文件的数量A;
统计坐标值缺少的所述图像文件Fi,获取所述图像数据集中坐标缺失图像文件的数量B,其中,所述坐标值缺少包括缺少坐标值xmin、坐标值ymin、坐标值xmax和坐标值ymax中至少一种;
统计矩形标注框中标注对象错误的所述图像文件Fi,获取所述图像数据集中标注错误图像文件的数量C,其中,所述标注对象错误包括标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种;
基于所述数量A、所述数量B、所述数量C与所述图像数据集中所述图像文件Fi的总数量N1,计算所述图像数据集在所述图像标注规范下的度量值。
8.如权利要求1至7任一项所述的方法,其特征在于,图像数据集所述基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,包括:
将所述度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值Ml,其中,标记值Ml的取值包括:数据质量好、数据质量一般或数据质量差;
统计所有的所述标记值Ml的取值:
若取值为所述数据质量好的所述标记值Ml大于第一设定阈值,且其他所述标记值Ml的取值为所述数据质量一般,则所述规范性评估结果为所述图像数据集的质量优;
若取值为所述数据质量差的所述标记值Ml大于第二设定阈值,则所述规范性评估结果为所述图像数据集的质量差;
若所统计的所述标记值Ml的取值为其他分布,则所述规范性评估结果为所述图像数据集的质量中等。
9.一种图像数据集的规范性评估装置,其特征在于,所述装置包括:
采集模块,用于获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务图像数据集图像数据集;
指标确定模块,用于基于所述任务类型,确定所述图像数据集的规范性度量指标图像数据集;
度量值计算模块,用于计算所述图像数据集在每一所述规范性度量指标下的度量值图像数据集;
评估模块,图像数据集用于基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
CN202111590662.5A 2021-12-23 2021-12-23 图像数据集的规范性评估方法、装置及设备 Active CN114510989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590662.5A CN114510989B (zh) 2021-12-23 2021-12-23 图像数据集的规范性评估方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590662.5A CN114510989B (zh) 2021-12-23 2021-12-23 图像数据集的规范性评估方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114510989A true CN114510989A (zh) 2022-05-17
CN114510989B CN114510989B (zh) 2022-10-25

Family

ID=81547547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590662.5A Active CN114510989B (zh) 2021-12-23 2021-12-23 图像数据集的规范性评估方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114510989B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246273A (zh) * 2023-03-07 2023-06-09 广州市易鸿智能装备有限公司 图像标注一致性评价方法、装置、电子设备及存储介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005202715A1 (en) * 2004-06-22 2006-01-12 Canon Kabushiki Kaisha A Method for Detecting and Selecting Good Quality Image Frames from Video
WO2012096988A2 (en) * 2011-01-10 2012-07-19 Rutgers, The State University Of New Jersey Method and apparatus for shape based deformable segmentation of multiple overlapping objects
US20150379429A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
CN106126585A (zh) * 2016-06-20 2016-11-16 北京航空航天大学 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN106846359A (zh) * 2017-01-17 2017-06-13 湖南优象科技有限公司 基于视频序列的运动目标快速检测方法
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN111339215A (zh) * 2019-05-31 2020-06-26 北京东方融信达软件技术有限公司 结构化数据集质量评价模型生成方法、评价方法及装置
US20200210401A1 (en) * 2018-12-28 2020-07-02 Microsoft Technology Licensing, Llc Proactive automated data validation
CA3129213A1 (en) * 2019-02-06 2020-08-13 The University Of British Columbia Neural network image analysis
CN111652258A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种图像分类数据标注质量评估方法
CN112069977A (zh) * 2020-09-02 2020-12-11 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读介质
JP2020204824A (ja) * 2019-06-14 2020-12-24 日立金属株式会社 情報処理システムおよび情報処理方法
CN112232345A (zh) * 2020-10-10 2021-01-15 安徽淘云科技有限公司 配置信息确定和图像有效区域提取方法和装置
CN112767327A (zh) * 2021-01-08 2021-05-07 上海大学 基于神经网络的图像质量管理系统及方法
US20210166358A1 (en) * 2019-12-02 2021-06-03 Aizo Systems LLC Artificial intelligence based image quality assessment system
CN112990268A (zh) * 2021-02-09 2021-06-18 大理大学 面向机器学习的视觉群智感知数据贡献度评价方法及系统
CN113315995A (zh) * 2021-05-06 2021-08-27 北京智通东方软件科技有限公司 提高视频质量的方法、装置、可读存储介质及电子设备
CN113378911A (zh) * 2021-06-08 2021-09-10 北京百度网讯科技有限公司 图像分类模型训练、图像分类方法及相关装置
CN113409199A (zh) * 2020-09-02 2021-09-17 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读介质
WO2021213156A1 (zh) * 2020-11-25 2021-10-28 平安科技(深圳)有限公司 根据关系图卷积网络的任务标签生成方法及相关装置

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005202715A1 (en) * 2004-06-22 2006-01-12 Canon Kabushiki Kaisha A Method for Detecting and Selecting Good Quality Image Frames from Video
WO2012096988A2 (en) * 2011-01-10 2012-07-19 Rutgers, The State University Of New Jersey Method and apparatus for shape based deformable segmentation of multiple overlapping objects
US20150379429A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
CN106126585A (zh) * 2016-06-20 2016-11-16 北京航空航天大学 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN106846359A (zh) * 2017-01-17 2017-06-13 湖南优象科技有限公司 基于视频序列的运动目标快速检测方法
US20200210401A1 (en) * 2018-12-28 2020-07-02 Microsoft Technology Licensing, Llc Proactive automated data validation
CA3129213A1 (en) * 2019-02-06 2020-08-13 The University Of British Columbia Neural network image analysis
CN111652258A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种图像分类数据标注质量评估方法
CN111339215A (zh) * 2019-05-31 2020-06-26 北京东方融信达软件技术有限公司 结构化数据集质量评价模型生成方法、评价方法及装置
JP2020204824A (ja) * 2019-06-14 2020-12-24 日立金属株式会社 情報処理システムおよび情報処理方法
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
US20210166358A1 (en) * 2019-12-02 2021-06-03 Aizo Systems LLC Artificial intelligence based image quality assessment system
CN112069977A (zh) * 2020-09-02 2020-12-11 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN113409199A (zh) * 2020-09-02 2021-09-17 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN112232345A (zh) * 2020-10-10 2021-01-15 安徽淘云科技有限公司 配置信息确定和图像有效区域提取方法和装置
WO2021213156A1 (zh) * 2020-11-25 2021-10-28 平安科技(深圳)有限公司 根据关系图卷积网络的任务标签生成方法及相关装置
CN112767327A (zh) * 2021-01-08 2021-05-07 上海大学 基于神经网络的图像质量管理系统及方法
CN112990268A (zh) * 2021-02-09 2021-06-18 大理大学 面向机器学习的视觉群智感知数据贡献度评价方法及系统
CN113315995A (zh) * 2021-05-06 2021-08-27 北京智通东方软件科技有限公司 提高视频质量的方法、装置、可读存储介质及电子设备
CN113378911A (zh) * 2021-06-08 2021-09-10 北京百度网讯科技有限公司 图像分类模型训练、图像分类方法及相关装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
YOUDI GONG等: ""Quality Evaluation of Image Dataset based on Label File"", 《IEEE XPLORE》 *
张晓华等: "CAS-PEAL大规模中国人脸图像数据库及其基本评测介绍", 《计算机辅助设计与图形学学报》 *
方磊等: "阈值分割法处理土微结构图像质量评价", 《地下空间与工程学报》 *
李天: "第三次全国土地调查遥感影像质量评价方法研究", 《城市勘测》 *
田金沙等: "基于尺度不变性的无参考图像质量评价", 《计算机应用》 *
魏宏伟等: "HJ1B-CCD影像的质量评估及分析", 《遥感信息》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246273A (zh) * 2023-03-07 2023-06-09 广州市易鸿智能装备有限公司 图像标注一致性评价方法、装置、电子设备及存储介质
CN116246273B (zh) * 2023-03-07 2024-03-22 广州市易鸿智能装备有限公司 图像标注一致性评价方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114510989B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
WO2019238063A1 (zh) 文本检测分析方法、装置及设备
US20180341810A1 (en) Recognition Process Of An Object In A Query Image
CN110188769B (zh) 关键点标注的审核方法、装置、设备及存储介质
CN109726746B (zh) 一种模板匹配的方法及装置
CN108932724B (zh) 一种基于多人协同图像标注的系统自动审核方法
CN108827969A (zh) 金属零件表面缺陷检测与识别方法及装置
CN111931864B (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
TW202009681A (zh) 樣本標註方法及裝置、損傷類別的識別方法及裝置
CN113792826B (zh) 基于神经网络和多源数据的双视角关联安检方法及系统
CN114510989B (zh) 图像数据集的规范性评估方法、装置及设备
Keen Color moments
CN110796185A (zh) 一种图像标注结果的检测方法和装置
CN107610119A (zh) 基于直方图分解的带钢表面缺陷精准检测方法
TWI694250B (zh) 表面缺陷偵測系統及其方法
CN111461143A (zh) 一种图片翻拍识别方法和装置及电子设备
WO2022111247A1 (zh) 一种报表分析方法及装置
CN106778859A (zh) 一种基于数据密度峰值的自标记半监督分类方法及装置
CN113052236A (zh) 一种基于NASNet的肺炎图像分类方法
CN115909403B (zh) 基于深度学习的低成本高精度猪脸识别方法
CN111783697A (zh) 一种基于卷积神经网络的错题检测及靶向推荐系统和方法
CN116128853A (zh) 一种产线装配检测方法、系统、计算机及可读存储介质
CN107563327B (zh) 一种基于自步反馈的行人重识别方法及系统
CN116246100A (zh) 染色体图像可解释评估选取方法、装置、设备及存储介质
CN113673631A (zh) 异常图像检测方法及装置
CN113392927A (zh) 一种基于单阶深度神经网络的动物目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant