CN115357193A - 标注数据的处理方法、装置及电子设备 - Google Patents

标注数据的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN115357193A
CN115357193A CN202211027597.XA CN202211027597A CN115357193A CN 115357193 A CN115357193 A CN 115357193A CN 202211027597 A CN202211027597 A CN 202211027597A CN 115357193 A CN115357193 A CN 115357193A
Authority
CN
China
Prior art keywords
result
labeling
data
annotation
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211027597.XA
Other languages
English (en)
Inventor
李韦华
顾瑞红
高磊
朱会超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ecarx Hubei Tech Co Ltd
Original Assignee
Ecarx Hubei Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecarx Hubei Tech Co Ltd filed Critical Ecarx Hubei Tech Co Ltd
Priority to CN202211027597.XA priority Critical patent/CN115357193A/zh
Publication of CN115357193A publication Critical patent/CN115357193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种标注数据的处理方法、装置及电子设备。其中,该方法包括:获取原始数据的标注结果;依据格式验证标准检验标注结果的格式;在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验;在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。本申请解决了应用方与标注公司进行标注数据传输时是基于网盘、线下形式传输,造成数据难以在线管理、数据流转低效的技术问题。

Description

标注数据的处理方法、装置及电子设备
技术领域
本申请涉及数据标注领域,具体而言,涉及一种标注数据的处理方法、装置及电子设备。
背景技术
数据是人工智能算法升级迭代的原材料,算法模型效果的提升有赖于大量结构化数据的训练,这些结构化数据依赖标注人员进行人工标注。数据标注属于劳动密集型工作,大多数标注数据应用方(人工智能公司或相关部门)不会由内部人员进行数据标注,而是依赖外部三方标注公司进行数据标注,在此过程中,数据跨公司管理与传输成为必不可少的一环。目前大部分应用方与标注公司进行标注数据传输都是基于网盘、线下形式传输,没有打通标注数据传输与业务之间逻辑,造成数据难以在线管理、数据流转低效等问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种标注数据的处理方法、装置及电子设备,以至少解决应用方与标注公司进行标注数据传输时是基于网盘、线下形式传输,造成数据难以在线管理、数据流转低效的技术问题。
根据本申请实施例的一个方面,提供了一种标注数据的处理方法,包括:获取原始数据的标注结果;依据格式验证标准检验标注结果的格式;在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验;在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。
可选地,依据格式验证标准检验标注结果的格式,包括:依据格式验证标准定义检验内容以及检验规则;依据格式验证标准中的检验内容和检验规则检验标注结果的格式;在检验结果不通过时,将检验不通过的标注结果以及退回原因返回给标注方设备,其中,退回原因包括以下至少之一:字段格式错误、命名错误和数据存储层级错误,标注方设备用于对原始数据进行标注;在检验结果通过时,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中。
可选地,确定与标注结果对应的原始数据,包括:解析标注结果,将解析结果按照数据存储规则存储至目标目录层级中,其中,目标目录层级为标注结果对应的原始数据所在的目录层级,标注结果和与标注结果对应的原始数据具有相同的命名方式;依据解析结果的命名方式查找数据库中相同命名方式的原始数据。
可选地,对标注结果以及与标注结果对应的原始数据进行内容检验,包括:加载标注结果以及与标注结果对应的原始数据,得到待检验内容,其中,标注结果中至少包括标注物的坐标渲染结果,坐标渲染结果为依据标注物的类别将标注物的坐标渲染成不同的颜色得到的结果;确定待检验内容的准确率,其中,准确率由正确标注的标注物的数量、标注物的总数量以及漏标的标注物的数量确定;在准确率大于预设阈值的情况下,确定标注结果的内容检验通过;在准确率小于或等于预设阈值的情况下,确定标注结果的内容检验失败,并将内容检验失败的数据帧名称列表返回给标注方设备进行重新标注。
可选地,确定标注结果对应的版本号,包括:在标注结果对应的原始数据为同一批次的原始数据的情况下,至少依据标注类型和标注结果的回收次数确定目标标注结果的版本号,其中,回收次数用于表示标注结果返回给标注方设备的次数。
可选地,确定标注结果对应的版本号,包括:在目标标注结果中存在相同命名方式的标注结果的情况下,判断是否存在相同命名方式的标注结果对应的标注类型的版本号;在判断结果为是的情况下,在已有版本号的基础上新增版本号;在判断结果为否的情况下,创建相同命名方式的标注结果对应的标注类型的第一个版本号。
可选地,确定标注结果对应的版本号之后,方法还包括:获取标注结果以及对应的原始数据,构建数据集;依据数据集中不同数据的数据类型建立图像分类模型,并优化图像分类模型中的参数,得到目标模型;依据目标模型评估不同的标注结果以及对应的原始数据,得到评估结果;确定评估结果中大于评估阈值的数据为目标数据,并增加目标数据的采集量和标注量。
可选地,方法还包括:接收目标对象的目标请求,其中,目标请求用于查看数据的流转过程,目标请求中至少包括数据的命名字段,流转过程包括以下至少之一:数据的送标过程、数据的回收过程、数据的标注结果和数据的调用记录;依据目标请求,从数据库中确定与目标请求对应的目标数据;将目标数据返回给目标对象。
根据本申请实施例的另一方面,还提供了一种标注数据的处理装置,包括:获取模块,用于获取原始数据的标注结果;检验模块,用于依据格式验证标准检验标注结果的格式;存储模块,用于在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;加载模块,用于从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验;确定模块,用于在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。
根据本申请实施例的又一方面,还提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,与存储器连接,用于执行实现以下功能的程序指令:获取原始数据的标注结果;依据格式验证标准检验标注结果的格式;在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验;在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。
根据本申请实施例的再一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,在程序运行时控制该非易失性存储介质所在设备执行上述标注数据的处理方法。
在本申请实施例中,通过获取原始数据的标注结果;依据格式验证标准检验标注结果的格式;在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;从相同的存储位置中加载标注结果以及与标注结果对应的原始数据进行内容检验,在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号,达到了自动检验标注结果的格式和内容的目的,从而实现了在线管理标注结果的技术效果,进而解决了应用方与标注公司进行标注数据传输时是基于网盘、线下形式传输,造成数据难以在线管理、数据流转低效的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现标注数据的处理方法的计算机终端(或电子设备)的硬件结构框图;
图2是根据本申请实施例的一种标注数据的处理方法的流程图;
图3是根据本申请实施例的一种标注数据的处理装置的结构图;
图4是根据本申请实施例的一种数据标注与接收的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
传统的数据传输方式没有考虑到业务需求,缺乏对数据后续使用的直接支持。数据通过线下传输,会降低数据传输的时效性,而通过网盘或FTP传输的方式,则会降低传输安全性。无论是线下传输还是网盘传输,都无法针对标注数据进行特有的生命周期管理,只能采用维护线下表格记录关键信息的方式完成记录。
线下表格记录信息带来的问题是,数据记录的信息与本身落盘的数据之间缺乏有效关联,全靠人工维护不仅成本高,失误率高,且安全性低,很难对数据进行生命周期管理。另一方面,如果通过线下或者网盘形式传输数据,需求方接收到标注结果(通常以json形式存储)以后,需要通过脚本进行数据处理后手动入库,延长了算法模型迭代时间,降低了功能开发上线时效性。
为了解决上述问题,本申请实施例提供了相应的解决方案,以下详细说明。
本申请实施例所提供的标注数据的处理方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现标注数据的处理方法的计算机终端(或电子设备)的硬件结构框图。如图1所示,计算机终端10(或电子设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或电子设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的标注数据的处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的标注数据的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或电子设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或电子设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或电子设备)中的部件的类型。
在上述运行环境下,本申请实施例提供了一种标注数据的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请实施例的一种标注数据的处理方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取原始数据的标注结果。
在上述步骤S202中,原始数据可以包括以下至少之一:图像数据和点云数据。标注公司接收图像jpg和点云pcd数据进行标注,之后通过数据需求方提前定义好的接口对标注的结果json进行回传,在一种可选的实施例中,该原始数据可以分批次进行标注和回传。
在一种可选的实施例中,标注公司接收原始数据并标注,通过标注公司与数据需求方共同定义端口和数据格式,标注公司接收脱敏后的原始标注数据并进行标注。接收到的数据以帧为单位存入一个压缩包,当本申请中的原始数据为自动驾驶领域对应的数据时,根据自动驾驶公司采取的技术路线不同,压缩包内数据也不同,一般每帧内可包含同一采集时间的1~2幅激光雷达点云数据和3~10幅图像数据,但本申请中的原始数据并不限定于自动驾驶领域中的数据。
标注方将标注结果回传给数据需求方,传输方式为基于http协议,标注公司与数据需求方共同定义数据传输接口的方式进行数据传输。标注方通过接口返回标注结果json,原始数据的zip命名与标注结果的json保持命名一致,保证可根据命名进行数据匹配。
步骤S204,依据格式验证标准检验标注结果的格式,其中,格式验证标准的内容包括以下至少之一:标注结果的数据组织形式、标注结果的必要字段、标注结果对应标签的命名格式和标签的字段格式。
步骤S206,在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中,该相同的存储位置例如可以为数据库中的同一目录层级,将标注结果和与标注结果对应的原始数据存储在同一目录层级中,即实现了将标注结果和与标注结果对应的原始数据存储在相同的存储位置中。
在上述步骤S204至步骤S206中,数据需求方收到回传的json后,分别对json内容进行格式校验、内容校验,校验成功后进行数据自动入库管理。
步骤S208,从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验。
步骤S210,在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。
在上述步骤S202至步骤S210中,通过提前定义的数据传输接口和数据格式,在标注公司标注完成后通过http请求回传标注结果json,数据管理系统接收到json后对标注结果进行格式与字段校验,例如可通过json schema进行格式与字段校验,增加校验步骤的优势在于可以提前发现所有标注成果的数据格式问题,入库时可做到标注物类别、属性的字段规范与统一,在应用数据进行算法训练评测时防止字段不规范导致的任务失败。校验成功后标注结果可与原始数据对应,在可视化工具上进行查看,若校验不合格,则可将校验失败的标注结果或同一批次的所有标注结果通过线上回退给标注公司,如果数据合格则会匹配标注结果版本与字段内容并存入数据库中,避免了原始数据重复发送、存储的问题,通过全流程自动化流转,实现了标注成果数据在标注公司与算法需求公司之间的安全高效流转。
在上述标注数据的处理方法中的步骤S204中,依据格式验证标准检验标注结果的格式,具体包括如下步骤:依据格式验证标准定义检验内容以及检验规则;依据格式验证标准中的检验内容和检验规则检验标注结果的格式;在检验结果不通过时,将检验不通过的标注结果以及退回原因返回给标注方设备,其中,退回原因包括以下至少之一:字段格式错误、命名错误和数据存储层级错误,标注方设备用于对原始数据进行标注;在检验结果通过时,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中。
在本申请实施例中,数据需求方通过提前写好的json schema检查标注结果内的字段完整性与规范性。检查内容包括:标注结果的数据组织形式,必要的标注结果字段,标注物的标签/属性命名格式是否规范、字段格式是否规范。
检查方法的流程如下:
1.数据需求方安装基于json-schema标准实现的库。
2.新建json schema.js,定义要检查的检查内容与检查规则。检查规则包括:(1)标注结果的字段需符合数据需求方要求,不得缺失字段;(2)标注结果json内字段层级需符合算法需求方要求,不得新增、篡改已定义的字段层级;(3)对于算法需求方已定义好的字段,需保证字段名称的大小写、下划线等格式都满足定义;(4)对于数据需求方没有提前定义的字段,则可进行新增。
3.执行json schema check,根据所使用的编程语言选择开源校验库执行检查,例如Go语言的gojsonschema,Python的jsonschema等。
4.输出检查结果。如检查通过则确定与标注结果对应的原始数据,不通过则将不合格的json列表返回标注公司,由标注公司修改后提交。检查通过的标准:针对标注结果内容格式,须保证自动检查服务输出的错误数为0,即无任何错误检出方可认为检查通过,此时检查服务向下一个节点服务自动发送检查通过消息,消息内容为标注结果zip名称与检查通过的状态。错误内容包括:字段格式错误、命名错误、数据存储层级错误等。
在上述标注数据的处理方法中的步骤S206中,确定与标注结果对应的原始数据,具体包括如下步骤:解析标注结果,将解析结果按照数据存储规则存储至目标目录层级中,其中,目标目录层级为标注结果对应的原始数据所在的目录层级,即实现了将标注结果和与标注结果对应的原始数据存储在相同的存储位置中,标注结果和与标注结果对应的原始数据具有相同的命名方式;依据解析结果的命名方式查找数据库中相同命名方式的原始数据,并通过可视化工具输出标注结果与对应的原始数据。
在本申请实施例中,在数据库内,标注结果与原始数据对应是通过帧命名匹配实现的,即数据需求方在发送数据之前已经定义了每帧(一个zip包)的名字,回传的json以zip包名字命名,同一个zip包中的标注结果可以认为是同一个批次,数据匹配服务在接收到一个检查通过的json后即给入库服务发一条消息,消息内容包括json名称、存储位置。
入库服务将标注结果json进行解析,解析的方法流程包括:1.读取json内字段;2.将json内容按照既定规则写在相应的数据库目录层级内,既定规则指的是算法数据库的数据存储规则,包括数据存储层级、命名方式、字段定义等内容。
将解析后的内容存入数据库内此帧(按帧名称建立的数据记录)下之后(这里标注结果和原始数据存在同一个帧下),标注结果与原始数据即可根据存储位置对应起来。可视化工具通过加载同名的json解析结果和原始数据实现标注结果与原始数据对应。
在本申请实施例中,可视化的形式如,创建可加载原始图像/点云及标注结果的web应用,并对接相应数据库;信息可视化输出方法:先加载原始图像/激光雷达信息,再获取标注结果json内存储的标注物坐标,根据标注物类别,以不同颜色将这些坐标渲染成矩形/多边形/点/线/3dbox即可。
在上述标注数据的处理方法中的步骤S208中,对标注结果以及与标注结果对应的原始数据进行内容检验,具体包括如下步骤:加载标注结果以及与标注结果对应的原始数据,得到待检验内容,其中,标注结果中至少包括标注物的坐标渲染结果,坐标渲染结果为依据标注物的类别将标注物的坐标渲染成不同的颜色得到的结果,每类标注物对应一种颜色,或者多类标注物对应一种颜色;确定待检验内容的准确率,其中,准确率由正确标注的标注物的数量、标注物的总数量以及漏标的标注物的数量确定;在准确率大于预设阈值的情况下,确定标注结果的内容检验通过;在准确率小于或等于预设阈值的情况下,确定标注结果的内容检验失败,并将内容检验失败的数据帧名称列表返回给标注方设备。
在本申请实施例中,通过可视化工具同时加载标注结果和原始数据,数据需求方可进行标注结果的查看与验收。查看时,标注工具会自动加载数据库内原始数据及对应的标注结果(标注物坐标渲染结果)。如果验收通过则确定标注结果的版本号,验收失败则在此批次数据验收完成后,将失败数据帧名称列表返回标注公司进行重新标注。验收通过标准:例如在标注准确率>95%时,即认为验收通过,标注准确率=正确标注的标注物/总标注物+漏标标注物,此处的95%即对应上述的预设阈值,该预设阈值可根据实际情况进行动态调整,本申请实施例并不限定该预设阈值的具体值。
在另一种可选的实施例中,例如在对同一批次的数据进行验收时,若该批次的标注准确率未达到要求,如标注准确率<95%时,将该批次的所有数据全部返回给标注公司进行重新标注。
在上述标注数据的处理方法中的步骤S208中,确定标注结果对应的版本号,具体包括以下两种情况:
第一种情况,在标注结果对应的原始数据为同一批次的原始数据的情况下,至少依据标注类型和目标标注结果的回收次数确定标注结果的版本号,其中,回收次数用于表示标注结果返回给标注方设备的次数。
第二种情况,在标注结果中存在相同命名方式的标注结果的情况下,判断是否存在相同命名方式的标注结果对应的标注类型的版本号;在判断结果为是的情况下,在已有版本号的基础上新增版本号;在判断结果为否的情况下,创建相同命名方式的标注结果对应的标注类型的第一个版本号。
具体地,在本申请实施例中,对于同一批原始数据,根据标注类型记录此次标注结果的版本号,即标注版本号=标注类型代码+标注结果回收次数,例如2dt.3,表示2d检测标注第三批次回收的结果,其中标注类型包括标注结果数据涵盖的所有数据类型,包括2d检测/分割、3d检测等。当有相同数据名称的标注结果json验收通过时,即判断是否已有存在的此标注类型相同版本号下的标注结果,如有则在版本号基础上新增,例如:某帧已存在2d检测任务标注结果2dt.3,当有新的标注结果入库时则记录入库的数据且赋予版本号2dt.4,如没有则创建此类型下的第一个标注结果版本2dt.1。对于同一批原始数据,会存在不同标注类型的多个版本号,可在可视化标注工具前端选择不同版本数据进行加载查看。
在上述标注数据的处理方法中的步骤S208中,确定标注结果对应的版本号之后,方法还包括如下步骤:获取标注结果以及对应的原始数据,构建数据集;依据数据集中不同数据的数据类型建立图像分类模型,并优化图像分类模型中的参数,得到目标模型;依据目标模型评估不同的标注结果以及对应的原始数据,得到评估结果;确定评估结果中大于评估阈值的数据为目标数据,并增加目标数据的采集量和标注量。
在本申请实施例中,数据应用方将基于原始数据及结果数据进行模型训练及评测,具体步骤包括:1.数据准备,根据原始数据和结果数据整理成此次训练的数据集;2.模型建立,根据数据类型建立图像分类或图像回归模型,该图像分类模型用于根据原始图像数据中的不同标注结果,对原始图像进行分类;3.模型评估调优,根据评价指标,如损失函数等,通过超参数优化及交叉验证选择最优模型,也即目标模型;4.模型保存,将训练好的模型进行保存。算法训练评测也可根据版本号选择数据,对比不同版本标注数据训练结果,可看出不同数据对算法表现的影响,从而确定哪些数据对算法表现优化提升明显,从而在生产作业中增加此类数据采集、标注量,提升算法表现。
在上述标注数据的处理方法中,该方法还包括如下步骤:接收目标对象的目标请求,其中,目标请求用于查看数据的流转过程,目标请求中至少包括数据的命名字段,流转过程包括以下至少之一:数据的送标过程、数据的回收过程、数据的标注结果和数据的调用记录;依据目标请求,从数据库中确定与目标请求对应的目标数据;将目标数据返回给目标对象。
在本申请实施例中,在实现了完整的数据入库流程后,数据需求方可根据入库后的数据进行数据生命周期追踪,即对于同一份原始数据,可查看数据的送标、回收过程及不同版本的标注结果,也可查看在训练、评测中数据被调用的记录,明确数据在算法模型表现提升中的价值。
本申请实施例所提供的标注数据的处理方法通过对标注结果的线上传输、格式内容检查、原始数据与结果数据自动对应完成了线上入库的全流程,并实现了科学的版本控制,可以显著提高例如自动驾驶领域的算法训练数据闭环迭代效率。
图3是根据本申请实施例的一种标注数据的处理装置的结构图,如图3所示,该装置包括:
获取模块302,用于获取原始数据的标注结果;
检验模块304,用于依据格式验证标准检验标注结果的格式,其中,格式验证标准的内容包括以下至少之一:标注结果的数据组织形式、标注结果的必要字段、标注结果对应标签的命名格式和标签的字段格式;
存储模块306,用于在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;
加载模块308,用于从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验;
确定模块310,在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。
在上述标注数据的处理装置中的检验模块中,依据格式验证标准检验标注结果的格式,具体包括如下过程:依据格式验证标准定义检验内容以及检验规则;依据格式验证标准中的检验内容和检验规则检验标注结果的格式;在检验结果不通过时,将检验不通过的标注结果以及退回原因返回给标注方设备,其中,退回原因包括以下至少之一:字段格式错误、命名错误和数据存储层级错误,标注方设备用于对原始数据进行标注;在检验结果通过时,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中。
在上述标注数据的处理装置中的存储模块中,确定与标注结果对应的原始数据,具体包括如下过程:解析标注结果,将解析结果按照数据存储规则存储至目标目录层级中,其中,目标目录层级为标注结果对应的原始数据所在的目录层级,标注结果和与标注结果对应的原始数据具有相同的命名方式;依据解析结果的命名方式查找数据库中相同命名方式的原始数据,并通过可视化工具输出标注结果与对应的原始数据。
在上述标注数据的处理装置中的加载模块中,对标注结果以及与标注结果对应的原始数据进行内容检验,具体包括如下过程:加载标注结果以及与标注结果对应的原始数据,得到待检验内容,其中,标注结果中至少包括标注物的坐标渲染结果,坐标渲染结果为依据标注物的类别将标注物的坐标渲染成不同的颜色得到的结果,每类标注物对应一种颜色;确定待检验内容的准确率,其中,准确率由正确标注的标注物的数量、标注物的总数量以及漏标的标注物的数量确定;在准确率大于预设阈值的情况下,确定标注结果的内容检验通过;在准确率小于或等于预设阈值的情况下,确定标注结果的内容检验失败,并将内容检验失败的数据帧名称列表返回给标注方设备进行重新标注。
在上述标注数据的处理装置中的确定模块中,确定标注结果对应的版本号,具体包括如下过程:在标注结果对应的原始数据为同一批次的原始数据的情况下,至少依据标注类型和标注结果的回收次数确定标注结果的版本号,其中,回收次数用于表示标注结果返回给标注方设备的次数。
在上述标注数据的处理装置中的确定模块中,确定标注结果对应的版本号,具体还包括如下过程:在目标标注结果中存在相同命名方式的标注结果的情况下,判断是否存在相同命名方式的标注结果对应的标注类型的版本号;在判断结果为是的情况下,在已有版本号的基础上新增版本号;在判断结果为否的情况下,创建相同命名方式的标注结果对应的标注类型的第一个版本号。
在上述标注数据的处理装置中的确定模块中,确定标注结果对应的版本号之后,该模块还用于执行如下过程:获取标注结果以及对应的原始数据,构建数据集;依据数据集中不同数据的数据类型建立图像分类模型,并优化图像分类模型中的参数,得到目标模型;依据目标模型评估不同的标注结果以及对应的原始数据,得到评估结果;确定评估结果中大于评估阈值的数据为目标数据,并增加目标数据的采集量和标注量。
在上述标注数据的处理装置中,该装置还包括接收模块312,该模块用于接收目标对象的目标请求,其中,目标请求用于查看数据的流转过程,目标请求中至少包括数据的命名字段,流转过程包括以下至少之一:数据的送标过程、数据的回收过程、数据的标注结果和数据的调用记录;依据目标请求,从数据库中确定与目标请求对应的目标数据;将目标数据返回给目标对象。
需要说明的是,图3所示的标注数据的处理装置用于执行图2所示的标注数据的处理方法,因此上述标注数据的处理方法中的相关解释说明也适用于该标注数据的处理装置,此处不再赘述。
图4是根据本申请实施例的一种数据标注与接收流程图,如图4所示,S1,标注公司接收原始数据并标注,通过标注公司与数据需求方共同定义端口和数据格式,标注公司接收脱敏后的原始标注数据并进行标注。S2,数据需求方接收回传的标注结果,传输方式为基于http协议,标注公司与数据需求方共同定义数据传输接口的方式进行数据传输,标注方通过接口回传标注结果json,原始数据zip命名与标注结果json保持一致命名,保证可根据命名进行数据匹配。S3,通过json schema check检验标注结果内的字段完整性与规范性,具体的检查流程图在上述过程已进行描述,此处不再赘述,若检验通过,则进入S4,若检验失败则返回S1重新标注。S4,将标注结果与原始数据对应,在一种可选的实施例中,标注结果与原始数据对应是通过帧命名匹配实现的。S5,可视化标注结果验收,通过可视化工具同时加载标注结果和原始数据,算法需求方可进行标注结果的查看与验收。如果验收通过则进入S6,验收失败则在此批次数据验收完成后,将失败数据帧名称列表或者同一批次的所有数据返回标注公司进行重新标注,也即回到S1重新标注。S6,确定标注结果的版本,对于同一批原始数据,根据标注类型记录此次标注结果的版本号,即标注版本号=标注类型代码+标注结果回收次数,当有相同数据名称的标注结果json验收通过时,即判断是否已有存在的此标注类型相同版本号下的标注结果,如有则在版本号基础上新增,如没有则创建此类型下的第一个标注结果版本。S7,标注结果入库,该数据库是最终保存标注结果的目标数据库。
本申请实施例还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,在程序运行时控制该非易失性存储介质所在设备执行以下标注数据的处理方法:获取原始数据的标注结果;依据格式验证标准检验标注结果的格式,其中,格式验证标准的内容包括以下至少之一:标注结果的数据组织形式、标注结果的必要字段、标注结果对应标签的命名格式和标签的字段格式;在标注结果的格式检验通过的情况下,确定与标注结果对应的原始数据,将标注结果和与标注结果对应的原始数据存储在相同的存储位置中;从相同的存储位置中加载标注结果以及与标注结果对应的原始数据,并对标注结果以及与标注结果对应的原始数据进行内容检验;在内容检验的准确率大于预设阈值时,确定标注结果对应的版本号。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (11)

1.一种标注数据的处理方法,其特征在于,包括:
获取原始数据的标注结果;
依据格式验证标准检验所述标注结果的格式;
在所述标注结果的格式检验通过的情况下,确定与所述标注结果对应的原始数据,将所述标注结果和与所述标注结果对应的原始数据存储在相同的存储位置中;
从所述相同的存储位置中加载所述标注结果以及与所述标注结果对应的原始数据,并对所述标注结果以及与所述标注结果对应的原始数据进行内容检验;
在所述内容检验的准确率大于预设阈值时,确定所述标注结果对应的版本号。
2.根据权利要求1所述的方法,其特征在于,依据格式验证标准检验所述标注结果的格式,包括:
依据所述格式验证标准定义检验内容以及检验规则;
依据所述格式验证标准中的所述检验内容和所述检验规则检验所述标注结果的格式;
在检验结果不通过时,将检验不通过的标注结果以及退回原因返回给标注方设备,其中,所述退回原因包括以下至少之一:字段格式错误、命名错误和数据存储层级错误,所述标注方设备用于对所述原始数据进行标注;
在所述检验结果通过时,将所述标注结果和与所述标注结果对应的原始数据存储在相同的存储位置中。
3.根据权利要求1所述的方法,其特征在于,确定与所述标注结果对应的原始数据,包括:
解析所述标注结果,将解析结果按照数据存储规则存储至目标目录层级中,其中,所述目标目录层级为所述标注结果对应的原始数据所在的目录层级,所述标注结果和与所述标注结果对应的原始数据具有相同的命名方式;
依据所述解析结果的命名方式查找数据库中相同命名字段的原始数据。
4.根据权利要求1所述的方法,其特征在于,对所述标注结果以及与所述标注结果对应的原始数据进行内容检验,包括:
加载所述标注结果以及与所述标注结果对应的原始数据,得到待检验内容,其中,所述标注结果中至少包括标注物的坐标渲染结果,所述坐标渲染结果为依据所述标注物的类别将所述标注物的坐标渲染成不同的颜色得到的结果;
确定所述待检验内容的准确率,其中,所述准确率由正确标注的标注物的数量、所述标注物的总数量以及漏标的标注物的数量确定;
在所述准确率大于所述预设阈值的情况下,确定所述标注结果的内容检验通过;
在所述准确率小于或等于所述预设阈值的情况下,确定所述标注结果的内容检验失败,并将所述内容检验失败的数据帧名称列表返回给标注方设备进行重新标注。
5.根据权利要求4所述的方法,其特征在于,确定所述标注结果对应的版本号,包括:
在所述标注结果对应的原始数据为同一批次的原始数据的情况下,至少依据标注类型和所述标注结果的回收次数确定所述标注结果的版本号,其中,所述回收次数用于表示所述标注结果返回给所述标注方设备的次数。
6.根据权利要求4所述的方法,其特征在于,确定所述标注结果对应的版本号,包括:
在所述标注结果中存在相同命名方式的标注结果的情况下,判断是否存在所述相同命名方式的标注结果对应的标注类型的版本号;
在判断结果为是的情况下,在已有版本号的基础上新增版本号;
在判断结果为否的情况下,创建所述相同命名方式的标注结果对应的标注类型的第一个版本号。
7.根据权利要求1所述的方法,其特征在于,确定所述标注结果对应的版本号之后,所述方法还包括:
获取所述标注结果以及对应的原始数据,构建数据集;
依据所述数据集中不同数据的数据类型建立图像分类模型,并优化所述图像分类模型中的参数,得到目标模型;
依据所述目标模型评估不同的标注结果以及对应的原始数据,得到评估结果;
确定所述评估结果中大于评估阈值的数据为目标数据,并增加所述目标数据的采集量和标注量。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收目标对象的目标请求,其中,所述目标请求用于查看数据的流转过程,所述目标请求中至少包括数据的命名字段,所述流转过程包括以下至少之一:数据的送标过程、数据的回收过程、数据的标注结果和数据的调用记录;
依据所述目标请求,从数据库中确定与所述目标请求对应的目标数据;
将所述目标数据返回给所述目标对象。
9.一种标注数据的处理装置,其特征在于,包括:
获取模块,用于获取原始数据的标注结果;
检验模块,用于依据格式验证标准检验所述标注结果的格式;
存储模块,用于在所述标注结果的格式检验通过的情况下,确定与所述标注结果对应的原始数据,将所述标注结果和与所述标注结果对应的原始数据存储在相同的存储位置中;
加载模块,用于从所述相同的存储位置中加载所述标注结果以及与所述标注结果对应的原始数据,并对所述标注结果以及与所述标注结果对应的原始数据进行内容检验;
确定模块,用于在所述内容检验的准确率大于预设阈值时,确定所述标注结果对应的版本号。
10.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,与所述存储器连接,用于执行实现以下功能的程序指令:获取原始数据的标注结果;依据格式验证标准检验所述标注结果的格式;在所述标注结果的格式检验通过的情况下,确定与所述标注结果对应的原始数据,将所述标注结果和与所述标注结果对应的原始数据存储在相同的存储位置中;从所述相同的存储位置中加载所述标注结果以及与所述标注结果对应的原始数据,并对所述标注结果以及与所述标注结果对应的原始数据进行内容检验;在所述内容检验的准确率大于预设阈值时,确定所述标注结果对应的版本号。
11.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至8中任意一项所述的标注数据的处理方法。
CN202211027597.XA 2022-08-25 2022-08-25 标注数据的处理方法、装置及电子设备 Pending CN115357193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211027597.XA CN115357193A (zh) 2022-08-25 2022-08-25 标注数据的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211027597.XA CN115357193A (zh) 2022-08-25 2022-08-25 标注数据的处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115357193A true CN115357193A (zh) 2022-11-18

Family

ID=84004742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211027597.XA Pending CN115357193A (zh) 2022-08-25 2022-08-25 标注数据的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115357193A (zh)

Similar Documents

Publication Publication Date Title
CN109522746A (zh) 一种数据处理方法、电子设备及计算机存储介质
CN110443552B (zh) 一种产品主数据信息自动传输的方法及装置
CN105023340A (zh) 基于扫描仪的云智能发票识别查验系统及方法
CN113868498A (zh) 数据存储方法、电子装置、装置及可读存储介质
CN108460068A (zh) 报表导入导出的方法、装置、存储介质及终端
CN108897765A (zh) 一种数据批量导入方法及其系统
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
CN115408367A (zh) 数据测试方法、存储介质和电子设备
CN108270040B (zh) 电池模组管理方法及系统
CN114219310A (zh) 一种订单审核方法、系统、电子设备及存储介质
CN117575222A (zh) 生产管理方法、系统、设备及存储介质
CN115660540B (zh) 货物跟踪方法、装置、计算机设备和存储介质
CN104268244A (zh) 处理表单的方法及装置
CN112559369A (zh) 一种自动化测试方法、设备和存储介质
CN111382710A (zh) 一种基于图像识别的图纸比对方法
CN115357193A (zh) 标注数据的处理方法、装置及电子设备
CN113434627A (zh) 工单的处理方法、装置和计算机可读存储介质
CN114171166A (zh) 可视化数字病理人工智能的模型的管理系统
CN111427900B (zh) 一种标签库更新方法、装置、设备及可读存储介质
CN105930329A (zh) 一种交易日志分析方法及装置
CN112966794A (zh) 一种基于rfid的生产追溯及动态工序管理系统
CN115953130B (zh) 一种用于关务申报数据的智能分析处理系统
CN111563178A (zh) 规则逻辑图对比方法、装置、介质及电子设备
CN105989042A (zh) 信息录入方法及其装置
US20230092559A1 (en) Systems and methods for unstructured data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination