CN115964634B - 一种数据标注优化方法 - Google Patents

一种数据标注优化方法 Download PDF

Info

Publication number
CN115964634B
CN115964634B CN202211583438.8A CN202211583438A CN115964634B CN 115964634 B CN115964634 B CN 115964634B CN 202211583438 A CN202211583438 A CN 202211583438A CN 115964634 B CN115964634 B CN 115964634B
Authority
CN
China
Prior art keywords
data
marked
standard
quality
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211583438.8A
Other languages
English (en)
Other versions
CN115964634A (zh
Inventor
尚克军
王海军
扈光峰
刘崇亮
庄广琛
李茜茜
王大元
裴新凯
焦浩
明丽
李至
段昊雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Automation Control Equipment Institute BACEI
Original Assignee
Beijing Automation Control Equipment Institute BACEI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Automation Control Equipment Institute BACEI filed Critical Beijing Automation Control Equipment Institute BACEI
Priority to CN202211583438.8A priority Critical patent/CN115964634B/zh
Publication of CN115964634A publication Critical patent/CN115964634A/zh
Application granted granted Critical
Publication of CN115964634B publication Critical patent/CN115964634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种数据标注优化方法,该数据标注优化方法包括:根据特征质量从待标注数据集中筛选数据,标记为标准数据;对待标注数据集进行特征向量化处理,将特征向量化处理后的待标注数据与标准数据进行比较,以对待标注数据进行分类;以标准数据为参考数据,分别对分类后的各数据集进行相似度检测,根据设定的相似度阈值对各数据集进行数据裁减;对裁减后的数据集进行标注。应用本发明的技术方案,避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的技术问题。

Description

一种数据标注优化方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据标注优化方法。
背景技术
随着计算机技术的发展,深度学习的应用越来越广泛,数据标注是很多应用机器学习技术的基础,选取一定数量适合的数据进行标注,对模型进行训练,得到可以使用的数据模型。目前在对数据进行整理标注时,主要是通过人工方式进行整理标注,数据标注人员对全部需要标注的数据一一进行标注,然而当存在大量的数据时,需要耗费巨大的人力和物力资源进行标注,并且人工标注后的数据中会存在部分数据质量较低、在训练模型的过程中属于无使用价值的数据。
目前的数据标注行业,人力在其中扮演着十分重要的角色。标注数据集的工作主要依赖于数据标注员,提高数据标注效率可以从以下几个角度入手:一、使用高效率的数据标注工具,如果说数据标注员是上战场的战士,那么数据标注工具就是战士手中的武器,一款优秀的数据标注工具可以成倍提高标注效率。二、提高数据标注员的标注能力,一般数据集往往数据量非常大,因采样频率等原因导致部分数据内容相近,标注的信息类似,重复的标注信息对于模型的训练没有帮助,这部分标注工作做了无用功,比如连续采集到图片,可能10张图片里只需要标注1张图片即可。因此,在进行数据标注时,有必要对待标注数据集进行简化整理,以提高标注能力。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
本发明提供了一种数据标注优化方法,该数据标注优化方法包括:根据特征质量从待标注数据集中筛选数据,标记为标准数据;对待标注数据集进行特征向量化处理,将特征向量化处理后的待标注数据与标准数据进行比较,以对待标注数据进行分类;以标准数据为参考数据,分别对分类后的各数据集进行相似度检测,根据设定的相似度阈值对各数据集进行数据裁减;对裁减后的数据集进行标注。
进一步地,选定待标注数据集中特征质量高于设定特征质量标准的数据,标记为标准数据。
应用本发明的技术方案,提供了一种数据标注优化方法,该数据标注优化方法通过对大量数据进行标准分类,然后进行对比删减,提高了数据标注质量,同时也减少了标注工作量,提高工作效率。与现有技术相比,本发明通过对待标注数据进行筛选,从中获取数据质量较高的数据再进行标注,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的技术问题,进而提高了数据标注的准确性。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施例,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明的具体实施例提供的数据标注优化方法的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如图1所示,根据本发明的具体实施例提供了一种数据标注优化方法,该数据标注优化方法包括:根据特征质量从待标注数据集中筛选数据,标记为标准数据;对待标注数据集进行特征向量化处理,将特征向量化处理后的待标注数据与标准数据进行比较,以对待标注数据进行分类;以标准数据为参考数据,分别对分类后的各数据集进行相似度检测,根据设定的相似度阈值对各数据集进行数据裁减;对裁减后的数据集进行标注。
应用此种配置方式,提供了一种数据标注优化方法,该数据标注优化方法通过对大量数据进行标准分类,然后进行对比删减,提高了数据标注质量,同时也减少了标注工作量,提高工作效率。与现有技术相比,本发明通过对待标注数据进行筛选,从中获取数据质量较高的数据再进行标注,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
进一步地,在本发明中,为了实现数据标注的优化,首先根据特征质量从待标注数据集中筛选数据,标记为标准数据。本发明中,选定数据集中特征质量高于设定特征质量标准的数据,标记为标准数据。其中,设定特征质量标准可根据实际情况调整设置。
进一步地,在本发明中,对待标注数据集进行特征向量化处理,将特征向量化处理后的待标注数据与标准数据进行比较,以对待标注数据进行分类。本发明中,以标准数据为分类标准,将特征向量化处理后的待标注数据进行分类,相似的数据归为一类。
进一步地,在本发明中,以标准数据为参考数据,分别对分类后的各数据集进行相似度检测,根据设定的相似度阈值对各数据集进行数据裁减;对裁减后的数据集进行标注。
本发明中,在同类数据中,根据数据集选取规则筛选数据,即根据设定的相似度阈值从同一类数据中进行数据裁减,判断出两个数据相近,则只选择其中一个数据,从而达到优化数据数量的目的。
本发明通过对待标注数据进行筛选,从中获取数据质量较高的数据再进行标注,提高了标注数据集的质量,另外,经过数据裁减,也提高了数据标注的效率。通过对待标注数据集的优化管理,对检测数据进行整合,通过图片相似度分析,剔除重复、相似的数据,简化数据集大小,提高数据标注的质量和效率。
为了对本发明有进一步地了解,下面本发明的数据标注优化方法进行详细说明。
下面以图像灰度化处理作为一种特征向量化处理的方法,为图像的标注做准备。按照如下方法将标准数据图片进行灰度化。
clearall;
clc;
Img=imread('IMG.jpg');
[nma]=size(Img);%判断图像的大小,n、m为像素值,a为三色R,G,B
GrayImage=rgb2gray(Img);%调用MATLAB函数实现灰度化
Img_Gray=zeros(n,m);
forx=1:n%对图像进行灰度化处理
fory=1:m
Img_Gray_1(x,y)=0.3*Img(x,y,1)+0.59*Img(x,y,2)+0.11*Img(x,y,3);%加权平均法
end
end
figure(1);
imshow(Img_Gray_1);
设灰度阈值thresh=5,则将每个像素灰度差值小于5的图像与标准数据图像归为一类,判别两张图片近似,则只选择其中一张,从而达到优化图片数量的目的。
按照如下方法将删减后的图像挑选出来。
oldpath='D:\原始图片\';%旧路径,存放同类近似图像
newpath='D:\筛选图片';%新路径,存放删减后图像
img_path_list=dir(strcat(oldpath,'*.jpg'))%分段图像列表像
img_num=length(img_path_list)%像素灰度差值小于5的图像总数量
forj=1:round(img_num/10):img_num;%可随意分段
FileName=img_path_list(j).name;
FilePath=fullfile(oldpath,FileName);
copyfile(FilePath,newpath);%复制标注文件到指定的文件夹
end
通过上述方法,将相近的图像进行删减,优选接近标准数据图像,从而达到优化图片数量的目的,提高了数据标注质量,同时也减少了标注工作量,提高工作效率。
综上所述,本发明提供了一种数据标注优化方法,该数据标注优化方法通过对大量数据进行标准分类,然后进行对比删减,提高了数据标注质量,同时也减少了标注工作量,提高工作效率。与现有技术相比,本发明通过对待标注数据进行筛选,从中获取数据质量较高的数据再进行标注,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种图像数据标注优化方法,其特征在于,所述图像数据标注优化方法包括:
根据特征质量从待标注数据集中筛选数据,标记为标准数据,标准数据为待标注数据集中特征质量高于设定特征质量标准的数据;
对待标注数据集进行特征向量化处理,将特征向量化处理后的待标注数据与标准数据进行比较,以对待标注数据进行分类;具体地,以标准数据为分类标准,将特征向量化处理后的待标注数据进行分类,相似的数据归为一类;
以标准数据为参考数据,分别对分类后的各数据集进行相似度检测,根据设定的相似度阈值对各数据集进行数据裁减;
对裁减后的数据集进行标注。
CN202211583438.8A 2022-12-10 2022-12-10 一种数据标注优化方法 Active CN115964634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211583438.8A CN115964634B (zh) 2022-12-10 2022-12-10 一种数据标注优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211583438.8A CN115964634B (zh) 2022-12-10 2022-12-10 一种数据标注优化方法

Publications (2)

Publication Number Publication Date
CN115964634A CN115964634A (zh) 2023-04-14
CN115964634B true CN115964634B (zh) 2024-04-02

Family

ID=87362607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211583438.8A Active CN115964634B (zh) 2022-12-10 2022-12-10 一种数据标注优化方法

Country Status (1)

Country Link
CN (1) CN115964634B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241662A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 数据标注的优化方法及装置
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN112906817A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种智能图像标注方法
CN114462553A (zh) * 2022-04-12 2022-05-10 之江实验室 一种面向车险反欺诈的图像标注及要素抽取方法与系统
CN115050002A (zh) * 2022-07-11 2022-09-13 零束科技有限公司 图像标注模型训练方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241662A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 数据标注的优化方法及装置
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN112906817A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种智能图像标注方法
CN114462553A (zh) * 2022-04-12 2022-05-10 之江实验室 一种面向车险反欺诈的图像标注及要素抽取方法与系统
CN115050002A (zh) * 2022-07-11 2022-09-13 零束科技有限公司 图像标注模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115964634A (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
TW556085B (en) File classification management system and method used in operating system
US8639028B2 (en) Automatic stacking based on time proximity and visual similarity
US9424277B2 (en) Methods and apparatus for automated true object-based image analysis and retrieval
US8150170B2 (en) Statistical approach to large-scale image annotation
EP1936536B1 (en) System and method for performing classification through generative models of features occuring in an image
CN109657058A (zh) 一种公告信息的抽取方法
CN108268875B (zh) 一种基于数据平滑的图像语义自动标注方法及装置
US20220263953A1 (en) Image processing apparatus, method of controlling image processing apparatus, and storage medium for editing an album
US11936821B2 (en) Image processing apparatus, method of controlling image processing apparatus, and storage medium with determination as to whether image is already contained in album data for first subject and album data for second subject and specifying image as change target
US11915351B2 (en) Image processing apparatus, image processing method, and storage medium
US20220263952A1 (en) Storage medium, image processing apparatus, and image processing method
CN114491034B (zh) 一种文本分类方法及智能设备
CN112765429A (zh) 一种面向部分标记异质数据的粗糙集属性约简方法
CN106815605B (zh) 一种基于机器学习的数据分类方法及设备
CN115964634B (zh) 一种数据标注优化方法
CN110738047A (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统
Fink et al. Grouping historical postcards using query-by-example word spotting
CN109389175A (zh) 一种图片分类方法及装置
EP1552466B1 (en) System and method for automatic preparation of data repositories from microfilm-type materials
US8566366B2 (en) Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion
CN110362694A (zh) 基于人工智能的文献数据检索方法、设备及可读存储介质
CN110442736A (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN110728240A (zh) 一种对电子卷宗的标题自动识别的方法及装置
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
Sultana et al. Lossy Compression Effect on Color and Texture Based Image Retrieval Performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant