CN112016053A - 数据标注的考核方法、装置和电子设备 - Google Patents

数据标注的考核方法、装置和电子设备 Download PDF

Info

Publication number
CN112016053A
CN112016053A CN202010868163.7A CN202010868163A CN112016053A CN 112016053 A CN112016053 A CN 112016053A CN 202010868163 A CN202010868163 A CN 202010868163A CN 112016053 A CN112016053 A CN 112016053A
Authority
CN
China
Prior art keywords
data
labeled
labeling
assessment
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010868163.7A
Other languages
English (en)
Inventor
李果
张明慧
樊鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010868163.7A priority Critical patent/CN112016053A/zh
Publication of CN112016053A publication Critical patent/CN112016053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据标注的考核方法、装置和电子设备,该方法包括:获取多个待标注数据;每个待标注数据携带有多个标准标注结果;针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。本发明基于获取的每个待标注数据对应的多个标准标注结果,得到用于确定考核对象得分的标准标注区间,再将该标准标注区间结合考核通过分数得到考核对象的考核结果,该方式可根据用户需求自动计算出合适的标准标注区间和通过标准,使得考核通过标准的设置更加灵活,也使得数据标注的考核更加精细有效。

Description

数据标注的考核方法、装置和电子设备
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种数据标注的考核方法、装置和电子设备。
背景技术
从互联网上观看视频和图像,正在成为用户获取信息的主要方式,但受限于拍摄条件和网络环境,图像和视频的质量并不稳定;因此,在图像和视频上传至互联网之前,需要标注员对图像和视频进行质量评价,以根据质量评价结果对图像和视频进行预处理。目前质量评价的标注是由标注员根据自己的直观感受进行标注的,使得质量评价的标注具有主观性和不确定性,因此,为了确保质量评价标注的准确性,需要判断标注员是否可以正确标注。
相关技术中,通常利用少量题库对标注员进行质量评价标注考核,并通过固定正确答案来评判标注员是否可以正确标注,该考核方式灵活性较差,难以满足用户对标注员考核的个性化需求。
发明内容
本发明的目的在于提供一种数据标注的考核方法、装置和电子设备,以提高考核方式的灵活性,并满足用户对标注员考核的个性化需求。
第一方面,本发明实施例提供了一种数据标注的考核方法,该方法包括:获取多个待标注数据;每个待标注数据携带有多个标准标注结果;针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;该标准标注区间用于:确定考核对象针对当前待标注数据的标注结果的得分;针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。
在可选的实施方式中,上述基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间的步骤,包括:计算当前待标注数据中多个标准标注结果的标注均值;根据标注均值和预设的标注偏差,确定当前待标注数据的标准标注区间。
在可选的实施方式中,上述标注偏差通过下述方式确定:获取多个已经训练好的标注对象对当前待标注数据的试标注结果;针对每个标注对象,根据当前标注对象的试标注结果、预设的标注偏差和当前待标注数据的标注均值,确定当前标注对象对当前待标注数据的试标注结果的得分;采用枚举的方式,调整标注偏差的大小,更新每个标注对象对当前待标注数据的试标注结果的得分;计算每个调整的标注偏差下多个标注对象对当前待标注数据的得分率,将得分率达到预设概率值时的标注偏差确定为最终的标注偏差。
在可选的实施方式中,上述根据标注均值和预设的标注偏差,确定当前待标注数据的标准标注区间的步骤,包括:将标注均值与标注偏差的差值,确定为当前待标注数据的标准标注区间的最小值;将该标注均值与标注偏差的和,确定为当前待标注数据的标准标注区间的最大值。
在可选的实施方式中,上述考核通过分数通过下述方式确定:获取多个已经训练好的标注对象对多个待标注数据的试标注结果;针对每个待标注数据,根据当前待标注数据的标准标注区间和当前待标注数据的试标注结果,确定标注对象的得分;基于每个标注对象的总得分,确定考核通过分数。
在可选的实施方式中,上述基于每个标注对象的总得分,确定考核通过分数的步骤,包括:从多个标注对象的总得分中,确定出最低分;将该最低分与预设值的差值,确定为考核通过分数。
在可选的实施方式中,上述获取多个待标注数据的步骤,包括:获取预设数据库;该预设数据库中包含有多个数据,每个数据携带有多个标准标注结果;对预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据。
在可选的实施方式中,上述对预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据的步骤,包括:针对预设数据库中的每个数据,计算当前数据携带的多个标准标注结果之间的标注方差;将预设数据库中标注方差小于指定阈值的数据,确定为满足考核需求的待标注数据。
在可选的实施方式中,上述对预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据的步骤,还包括:在将预设数据库中标注方差小于指定阈值的数据,确定为满足考核需求的待标注数据的步骤之后,从预设数据库中标注方差小于指定阈值的数据中,筛选出指定类型的数据;提取指定类型的数据的特征值;根据特征值,从筛选出的指定类型的数据中均匀抽取指定数量的数据,将抽取的指定数量的数据确定为最终的待标注数据。
第二方面,本发明实施例提供了一种数据标注的考核装置,该装置包括:数据获取模块,用于获取多个待标注数据;每个待标注数据携带有多个标准标注结果;标准标注区间确定模块,用于针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;该标准标注区间用于:确定考核对象针对当前待标注数据的标注结果的得分;考核结果确定模块,用于针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储有能够被处理器执行的机器可执行指令,该处理器执行机器可执行指令以实现前述实施方式任一项所述的数据标注的考核方法。
第四方面,本发明实施例提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现前述实施方式任一项所述的数据标注的考核方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种数据标注的考核方法、装置和电子设备,首先获取多个待标注数据,每个待标注数据携带有多个标准标注结果;进而针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;然后根据每个考核对象的总得分和预设的考核通过分数,确定每个考核对象对应的考核结果。该方式基于获取的每个待标注数据对应的多个标准标注结果,得到用于确定考核对象得分的标准标注区间,再将该标准标注区间结合考核通过分数得到考核对象的考核结果,该方式可根据用户需求自动计算出合适的标准标注区间和通过标准,使得考核通过标准的设置更加灵活,也使得数据标注的考核更加精细有效。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据标注的考核方法的流程图;
图2为本发明实施例提供的另一种数据标注的考核方法的流程图;
图3为本发明实施例提供的另一种数据标注的考核方法的流程图;
图4为本发明实施例提供的一种数据标注的考核装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
数据标注通常是指按照某种规则,通过人工对数据进行描述和标记的过程,通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等,标注的形式有标注画框、3D(3-Dimension,三维)画框、文本转录、图像打点、目标物体轮廓线等。
从互联网上观看视频和图像,目前正在成为用户获取信息的主要方式,但受限于拍摄条件和网络环境,图像或视频的质量并不稳定,对图像和视频的质量评价也因此变得愈加重要。又由于在图像或视频呈现给观看者之前,可能会经过多次处理,并且每一次处理都可能会引入降低其最终显示效果的失真,例如,拍摄时的失真、压缩时的失真、传输时的失真等。
基于上述描述,在图像和视频上传至互联网之前,需要标注员对图像和视频进行质量评价,以根据质量评价结果对图像和视频进行预处理,通常质量评价可以分为无参考质量评价和全参考质量评价,其中,无参考质量评价是指标注员在观看一个图像或一个视频时,对直观感受到的画面质量做出的评价;全参考质量评价是指标注员在观看一对图像或者一对视频时,对直观感受到的两个图像或者两个视频之间的画质质量差距做出的评价。因而,质量评价的标注是由标注员根据自己的直观感受进行标注的,质量评价的标注具有主观性和不确定性,因此,如何判断标注员正确理解了质量评价标注的规则、有能力做出合适的标注,仍是目前质量评价标注的一个难点。
相关技术中的数据标注的考试方式,往往不能针对具体任务,指示利用少量固定题库对标注员进行粗略的考核,并通过固定正确答案来评判标注员是否可以正确标注,该方式灵活性较差,无法满足用户对标注员考核的个性化需求,该方式且只可筛选出胡乱标注的标注员,但无法判定标注员在标注时是否真正精确的理解了标注规则。
针对上述问题,本发明实施例提供了一种数据标注的考核方法、装置和电子设备,该技术可以应用于对任何标注员的数据标注的考核场景,该数据标注可以是图像质量标注、语音标注、视频标注等。为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据标注的考核方法进行详细介绍,该方法应用于电子设备,如图1所示,该方法包括如下步骤:
步骤S102,获取多个待标注数据;每个待标注数据携带有多个标准标注结果。
上述待标注数据可以是从预设的可信数据集中获取的数据,该可信数据集中包含有大量的待标注数据,每个待标注数据均携带有多个标准标注结果,也理解为每个待标注数据预先由多个标注员进行标注,每个标注员的标注结果均可以看作是该待标注数据的标准标注结果,具体地,提供标准标注结果的标注员可以是指定的、已经可以准确标注的标注员。
在具体实现时,上述待标注数据可以是按照预设规则或者用户需求从可信数据集中抽取或者筛选出来的数据。
步骤S104,针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;该标准标注区间用于:确定考核对象针对当前待标注数据的标注结果的得分。
每个待标注数据的标准标注区间可以是其对应多个标准标注结果得到的,也即是标准标注区间会围绕多个标准标注结果上下浮动。在具体实现时,针对每个待标注数据,可将当前待标注数据的多个标准标注结果中的最大值、最小值、平均值或者中值,确定为基准答案,然后根据用户需求设置基于该基准答案的浮动范围,得到当前待标注数据的标准标注区间,当用户希望大多数考核对象均可考核通过时,可以将该浮动范围设置为较大范围,当用户希望较少部分的考核对象考核通过时,可以将该浮动范围设置为较小范围。
如果考核对象针对当前待标注数据的标注结果在当前待标注数据的标准标注区间内,确定该考核对象的标注正确,该考核对象得分;如果考核对象针对当前待标注数据的标注结果不在当前待标注数据的标准标注区间内,确定该考核对象的标注错误,该考核对象不得分。
步骤S106,针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。
在具体实现时,将当前考核对象针对每个待标注数据的得分相加,可得到当前考核对象的总得分。当该当前考核对象的总得分大于或者等于考核通过分数时,确定当前考核对象的考核结果为考核通过;当该当前考核对象的总得分小于考核通过分数时,确定当前考核对象的考核结果为考核不通过或者考核失败。
上述预设的考核通过分数可以是用户根据需求设置的,通常用户希望大多数考核对象均可考核通过时,可以将该考核通过分数设置为较低分值(例如,60分),当用户希望较少部分的考核对象考核通过时,可以将该考核通过分数设置为较高分值(例如,90分);上述预设的考核通过分数还可以通过每个待标注数据的标准标注区间和多个预设标注对象的标注结果确定,该预设标注对象可以是指定的、已经可以准确标注的标注员,也即是可以预设标注对象对每个待标注数据进行标注,得到多个标注结果,然后基于每个待标注数据的标准标注结果,确定预设标注对象的总得分,进而根据多个预设标注对象的总得分确定考核通过分数,例如,将多个预设标注对象的总得分中的最小值或者平均值作为考核通过分数。
本发明实施例提供的一种数据标注的考核方法,首先获取多个待标注数据,每个待标注数据携带有多个标准标注结果;进而针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;然后根据每个考核对象的总得分和预设的考核通过分数,确定每个考核对象对应的考核结果。该方式基于获取的每个待标注数据对应的多个标准标注结果,得到用于确定考核对象得分的标准标注区间,再将该标准标注区间结合考核通过分数可得到考核对象的考核结果,该方式可根据用户需求自动计算出合适的标准标注区间和通过标准,使得考核通过标准的设置更加灵活,也使得数据标注的考核更加精细有效。
本发明实施例还提供了另一种数据标注的考核方法,该方法在上述实施例方法的基础上实现;该方法重点描述基于当前待标注数据的多个标准标注结果确定所述当前待标注数据的标准标注区间的具体过程(通过下述步骤S204实现),以及确定考核通过分数的具体过程(通过下述步骤S206-S210实现);如图2所示,该方法包括如下具体步骤:
步骤S202,获取多个待标注数据;每个待标注数据携带有多个标准标注结果。
步骤S204,针对每个待标注数据,计算当前待标注数据中多个标准标注结果的标注均值;根据标注均值和预设的标注偏差,确定当前待标注数据的标准标注区间。
上述标注偏差相当于上述基准答案的浮动范围,在具体实现时,将上述标注均值确定为基准答案,该标注偏差可以理解为允许考核对象给出的标注结果相对于基准答案出现偏差的范围,该标注偏差可以是用户根据需求任意设置的数值,也可以是根据预设规则计算得到的数据,例如,该标注偏差可以通过下述步骤10-13确定:
步骤10,获取多个已经训练好的标注对象对当前待标注数据的试标注结果。
上述已经训练好的标注对象可以是指定的、能够准确标注的标注员。在具体实现时,可以让已经训练好的标注对象对步骤S202中获取到的多个待标注数据进行试标注,得到标注对象对每个待标注数据的试标注结果。在每个待标注数据具有标准标注结果的基础上进行试标注,可以保证标注的可信度。
步骤11,针对每个标注对象,根据当前标注对象的试标注结果、预设的标注偏差和当前待标注数据的标注均值,确定当前标注对象对当前待标注数据的试标注结果的得分。
在具体实现时,可以根据当前待标注对象的标注均值和预设的标注偏差,确定标注对象对当前待标注数据的试标注结果是否正确,进而确定标注对象的得分。例如,如果标注对象对当前待标注数据的试标注结果在标注均值和预设的标注偏差的范围内,确定标注对象对当前待标注数据标注正确,可以得分;如果标注对象对当前待标注数据的试标注结果不在标注均值和预设的标注偏差的范围内,确定标注对象不得分。
步骤12,采用枚举的方式,调整标注偏差的大小,更新每个标注对象对当前待标注数据的试标注结果的得分。
上述枚举的方式的本质通常是从所有候选答案中去搜索正确的解,该方式可以枚举所有的可能情况。本实施例可以采用二分枚举或者直接枚举算法,针对每个标注对象,得到在每个标注偏差对应的数值下,当前标注对象对当前标注数据的试标注结果的得分情况。上述标注偏差的大小的调整范围可以是预设范围,该调整范围可以根据用户需求设置,例如,0.1到1等。
步骤13,计算每个调整的标注偏差下多个标注对象对当前待标注数据的得分率,将得分率达到预设概率值时的标注偏差确定为最终的标注偏差。
根据上述枚举方式,可以得到每个调整的标注偏差下,每个待标注对象对当前待标注数据的得分情况,通常如果标注对象对当前待标注数据的标注结果在该当前标注数据的标注均值和调整的标注偏差范围内,确定该标注对象得分,否则不得分;然后在每个调整的标注偏差下,统计所有标注对象对当前待标注数据的试标注结果得分的数量,将该数量与标注对象的总数的商确定为当前待标注数据的得分率,最后从每个调整的标注偏差对应的得分率中,选取得分率接近预设概率值时的标注偏差为最终的标注偏差。
上述预设概率值可以是用户期望的、标注对象对当前待标注数据的通过率,通常该预设概率值越大表示可得分的标注对象越多。
在具体实现时,上述步骤S204中当前待标注数据的标准标注区间可以通过下述步骤,确定:将标注均值与标注偏差的差值,确定为当前待标注数据的标准标注区间的最小值;将标注均值与标注偏差的和,确定为当前待标注数据的标准标注区间的最大值。例如,假设当前待标注数据的标注均值为
Figure BDA0002649695400000113
标注偏差为B,B>0,那么当前待标注数据的标准标注区间为
Figure BDA0002649695400000111
Figure BDA0002649695400000112
也即是考核对象的标注结果在标准标注区间内时,作答正确,考核对象得分。
步骤S206,获取多个已经训练好的标注对象对多个待标注数据的试标注结果。
步骤S208,针对每个待标注数据,根据当前待标注数据的标准标注区间和当前待标注数据的试标注结果,确定标注对象的得分。
步骤S210,基于每个标注对象的总得分,确定考核通过分数。
当标注对象对当前待标注数据的试标注结果在当前待标注数据的标准标注区间内时,确定该标注对象得分,否则不得分。根据该规则可以得到每个标注对象,在多个待标注数据下的总得分。由于上述已经训练好的标注对象为指定的、能够准确标注的标注员,所以理论上认为每个标注对象的均可以通过本次考核,因而可以将多个标注对象的总得分的最低分确定为考核通过分数,也可以基于该最低分和用户设置的规则,确定考核通过分数。
在具体实现时,上述步骤S210可以通过下述步骤20-21实现:
步骤20,从多个标注对象的总得分中,确定出最低分。
步骤21,将上述最低分与预设值的差值,确定为考核通过分数。上述预设值可以根据用户需求设置。
例如,假设最低分为S_min,预先设置一个最低分与考核通过分数的预设值为S_diff,则考核通过分数为S_pass=S_min-S_diff。
步骤S212,针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。
在具体实现时,对考核对象的考核流程为:每位考核对象在获取的多个待标注数据上进行标注,针对每个待标注数据,如果考核对象对当前待标注数据的标注结果在当前待标注数据的标准标注区间
Figure BDA0002649695400000121
内,该待标注数据标注正确,考核对象得分,反之标注错误,考核对象不得分;考核标注完成后,如果考核对象的总得分大于或者等于考核通过分数,确定该考核对象考核通过,可以进行正式标注,反之考核失败。
上述数据标注的考核方法,通过已经训练好的标注对象对获取到的多个待标注数据进行试标注,进而可以根据每个待标注数据的试标注结果和多个标准标注结果,确定待标注数据的标准标注区间和考核通过分数。因此,该方式可以自动计算出一个合适的答案范围和通过标准,从而可以进行更精细有效的标注考核,更好的对标注人员进行考核筛选。
本发明实施例还提供了另一种数据标注的考核方法,该方法在上述实施例方法的基础上实现;该方法重点描述获取多个待标注数据的具体过程(通过下述步骤S302-304实现);如图3所示,该方法包括如下具体步骤:
步骤S302,获取预设数据库;该预设数据库中包含有多个数据,每个数据携带有多个标准标注结果。
上述预设数据库相当于上述可信数据集,该预设数据库中包含有大量数据,每个数据均携带有多个标注员在相同标注规则下的标准标注结果。
步骤S304,对预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据。
由于每次考核时可能需要针对不同类型的数据或者不同数量的数据,对考核对象进行考核,因此需要对预设数据库中的数据进行筛选,以得到满足用户考核需求的多个待标注数据。在具体实现时,上述步骤S304可以通过下述步骤30-31实现:
步骤30,针对预设数据库中的每个数据,计算当前数据携带的多个标准标注结果之间的标注方差。
上述标注方差表征了多个标准标注结果之间的偏差,上述当前数据携带的多个标准标注结果之间的方差σ2为:
Figure BDA0002649695400000131
其中,n表示预设数据库中当前数据包含的标准标注结果的数量,Xi表示当前数据携带的第i标准标注结果;
Figure BDA0002649695400000132
表示当前数据携带的多个标准标注结果的标注均值。
步骤31,将上述预设数据库中标注方差小于指定阈值的数据,确定为满足考核需求的待标注数据。
上述指定阈值为用户根据需求设置的数值,例如,0.6等。针对预设数据库中的每个数据,如果当前数据的标注方差大于或者等于指定阈值,说明该当前数据的多个标准标注结果之间的偏差较大,该当前数据的参考价值较低,可以将该当前数据从预设数据库中删除,将保留的数据确定为满足考核需求的待标注数据。
在具体实现时,为了根据实际需要考核的标注类型,对考核对象进行考核,需要将预设数据库中标注方差小于指定阈值的数据,确定为满足考核需求的待标注数据之后,从预设数据库中标注方差小于指定阈值的数据中,筛选出指定类型的数据;提取指定类型的数据的特征值;根据该特征值,从筛选出的指定类型的数据中均匀抽取指定数量的数据,将抽取的指定数量的数据确定为最终的待标注数据。
上述指定类型为本次考核实际需要考核的标注类型,该指定类型可以是动画视频、图像或者语音等。在具体实现时,从预设数据库中标注方差小于指定阈值的数据中,可以筛选出多个指定类型的数据,采用特征提取算法,分别提取多个指定类型的数据中每个数据中与标注相关的特征的特征值,如分辨率、亮度、内容特征向量等;然后采用均匀抽取算法,根据提取出的特征值,均匀抽取指定数量的数据作为最终的待标注数据。该指定数量可以根据用户需求设置。
上述均匀抽取可以是:将多个指定类型的数据中每个数据的特征值按照从小到大的顺序进行排序,再从中抽取特征值等距分布、特征值依次增加的指定数量的数据(也即是满足抽取到的、相邻的两个数据的特征值的差值相同或者相近)。在一些实施例中,抽取到的数据通常包括特征值最小值对应的数据和特征值的最大值对应的数据,从而使得抽取到的数据的特征值的间隔最大化,有利于抽取具有代表性的数据,作为待考核标注数据。例如,从筛选出的10个指定类型的数据中,抽取3个数据作为最终的待标注数据:如果10个指定类型的数据的特征为[0,1,3,3,4,5,6,8,10,12],那么最均匀的抽取方法就是选[0,6,12]。
步骤S306,针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间。
步骤S308,针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。
上述数据标注的考核方法,综合使用标注方差、数据特征、标注均值来从预设数据库中自动抽取多个待标注数据,从而可以根据具体的考核任务和考核要求,从预设数据库中自动筛选出待标注数据,同时,该方式还可以针对多个待处理数据的标准标注结果自动计算出合适的标准标注区间和通过标准,使得考核通过标准的设置更加灵活,也使得数据标注的考核更加精细有效。
对应于上述数据标注的考核方法,本发明实施例还提供了一种数据标注的考核装置,如图4所示,该装置包括:
数据获取模块40,用于获取多个待标注数据;每个待标注数据携带有多个标准标注结果。
标准标注区间确定模块41,用于针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;该标准标注区间用于:确定考核对象针对当前待标注数据的标注结果的得分。
考核结果确定模块42,用于针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定当前考核对象的考核结果。
上述数据标注的考核装置,首先获取多个待标注数据,每个待标注数据携带有多个标准标注结果;进而针对每个待标注数据,基于当前待标注数据的多个标准标注结果确定当前待标注数据的标准标注区间;然后根据每个考核对象的总得分和预设的考核通过分数,确定每个考核对象对应的考核结果。该方式基于获取的每个待标注数据对应的多个标准标注结果,得到用于确定考核对象得分的标准标注区间,再将该标准标注区间结合考核通过分数得到考核对象的考核结果,该方式可根据用户需求自动计算出合适的标准标注区间和通过标准,使得考核通过标准的设置更加灵活,也使得数据标注的考核更加精细有效。
进一步地,上述标准标注区间确定模块41,用于:针对每个待标注数据,计算当前待标注数据中多个标准标注结果的标注均值;根据该标注均值和预设的标注偏差,确定当前待标注数据的标准标注区间。
具体地,上述装置还包括标注偏差确定模块,用于:获取多个已经训练好的标注对象对当前待标注数据的试标注结果;针对每个标注对象,根据当前标注对象的试标注结果、预设的标注偏差和当前待标注数据的标注均值,确定当前标注对象对当前待标注数据的试标注结果的得分;采用枚举的方式,调整标注偏差的大小,更新每个标注对象对当前待标注数据的试标注结果的得分;计算每个调整的标注偏差下多个标注对象对当前待标注数据的得分率,将得分率达到预设概率值时的标注偏差确定为最终的标注偏差。
在具体实现时,上述标准标注区间确定模块41,还用于:将标注均值与标注偏差的差值,确定为当前待标注数据的标准标注区间的最小值;将标注均值与标注偏差的和,确定为当前待标注数据的标准标注区间的最大值。
进一步地,上述装置还包括通过分数确定模块,用于:获取多个已经训练好的标注对象对多个待标注数据的试标注结果;针对每个待标注数据,根据当前待标注数据的标准标注区间和当前待标注数据的试标注结果,确定标注对象的得分;基于每个标注对象的总得分,确定考核通过分数。
具体地,上述通过分数确定模块,还用于:从多个标注对象的总得分中,确定出最低分;将最低分与预设值的差值,确定为考核通过分数。
进一步地,上述数据获取模块40,包括:数据库获取单元,用于获取预设数据库;该预设数据库中包含有多个数据,每个数据携带有多个标准标注结果;数据筛选单元,用于对预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据。
具体地,上述数据筛选单元,还用于:针对预设数据库中的每个数据,计算当前数据携带的多个标准标注结果之间的标注方差;将预设数据库中标注方差小于指定阈值的数据,确定为满足考核需求的待标注数据。
在具体实现时,上述数据筛选单元,还用于:在将预设数据库中所述标注方差小于指定阈值的数据,确定为满足考核需求的待标注数据的步骤之后,从预设数据库中标注方差小于指定阈值的数据中,筛选出指定类型的数据;提取指定类型的数据的特征值;根据该特征值,从筛选出的指定类型的数据中均匀抽取指定数量的数据,将抽取的指定数量的数据确定为最终的待标注数据。
本发明实施例所提供的数据标注的考核装置,其实现原理及产生的技术效果和前述标注数据的合格性判断方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
发明实施例还提供了一种电子设备,参见图5所示,该电子设备包括处理器101和存储器100,该存储器100存储有能够被处理器101执行的机器可执行指令,该处理器执行机器可执行指令以实现上述数据标注的考核方法。
进一步地,图5所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述数据标注的考核方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的数据标注的考核方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种数据标注的考核方法,其特征在于,所述方法包括:
获取多个待标注数据;每个所述待标注数据携带有多个标准标注结果;
针对每个所述待标注数据,基于当前待标注数据的多个标准标注结果确定所述当前待标注数据的标准标注区间;所述标准标注区间用于:确定考核对象针对所述当前待标注数据的标注结果的得分;
针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定所述当前考核对象的考核结果。
2.根据权利要求1所述的方法,其特征在于,所述基于当前待标注数据的多个标准标注结果确定所述当前待标注数据的标准标注区间的步骤,包括:
计算所述当前待标注数据中所述多个标准标注结果的标注均值;
根据所述标注均值和预设的标注偏差,确定所述当前待标注数据的标准标注区间。
3.根据权利要求2所述的方法,其特征在于,所述标注偏差通过下述方式确定:
获取多个已经训练好的标注对象对所述当前待标注数据的试标注结果;
针对每个标注对象,根据当前标注对象的试标注结果、预设的标注偏差和所述当前待标注数据的标注均值,确定所述当前标注对象对所述当前待标注数据的试标注结果的得分;
采用枚举的方式,调整所述标注偏差的大小,更新每个所述标注对象对所述当前待标注数据的试标注结果的得分;
计算每个调整的标注偏差下多个所述标注对象对当前待标注数据的得分率,将得分率达到预设概率值时的标注偏差确定为最终的标注偏差。
4.根据权利要求2所述的方法,其特征在于,所述根据所述标注均值和预设的标注偏差,确定所述当前待标注数据的标准标注区间的步骤,包括:
将所述标注均值与所述标注偏差的差值,确定为所述当前待标注数据的标准标注区间的最小值;
将所述标注均值与所述标注偏差的和,确定为所述当前待标注数据的标准标注区间的最大值。
5.根据权利要求1所述的方法,其特征在于,所述考核通过分数通过下述方式确定:
获取多个已经训练好的标注对象对所述多个待标注数据的试标注结果;
针对每个所述待标注数据,根据当前待标注数据的标准标注区间和所述当前待标注数据的试标注结果,确定所述标注对象的得分;
基于每个所述标注对象的总得分,确定所述考核通过分数。
6.根据权利要求5所述的方法,其特征在于,所述基于每个所述标注对象的总得分,确定所述考核通过分数的步骤,包括:
从多个所述标注对象的总得分中,确定出最低分;
将所述最低分与预设值的差值,确定为所述考核通过分数。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述获取多个待标注数据的步骤,包括:
获取预设数据库;所述预设数据库中包含有多个数据,每个数据携带有多个标准标注结果;
对所述预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据。
8.根据权利要求7所述的方法,其特征在于,所述对所述预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据的步骤,包括:
针对所述预设数据库中的每个数据,计算当前数据携带的所述多个标准标注结果之间的标注方差;
将所述预设数据库中所述标注方差小于指定阈值的数据,确定为满足考核需求的所述待标注数据。
9.根据权利要求8所述的方法,其特征在于,所述对所述预设数据库中的数据进行筛选,得到满足考核需求的多个待标注数据的步骤,还包括:
在所述将所述预设数据库中所述标注方差小于指定阈值的数据,确定为满足考核需求的所述待标注数据的步骤之后,从所述预设数据库中所述标注方差小于指定阈值的数据中,筛选出指定类型的数据;
提取所述指定类型的数据的特征值;
根据所述特征值,从筛选出的所述指定类型的数据中均匀抽取指定数量的数据,将抽取的所述指定数量的数据确定为最终的待标注数据。
10.一种数据标注的考核装置,其特征在于,所述装置包括:
数据获取模块,用于获取多个待标注数据;每个所述待标注数据携带有多个标准标注结果;
标准标注区间确定模块,用于针对每个所述待标注数据,基于当前待标注数据的多个标准标注结果确定所述当前待标注数据的标准标注区间;所述标准标注区间用于:确定考核对象针对所述当前待标注数据的标注结果的得分;
考核结果确定模块,用于针对每个考核对象,根据当前考核对象的总得分和预设的考核通过分数,确定所述当前考核对象的考核结果。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至9任一项所述的数据标注的考核方法。
12.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使处理器实现权利要求1至9任一项所述的数据标注的考核方法。
CN202010868163.7A 2020-08-25 2020-08-25 数据标注的考核方法、装置和电子设备 Pending CN112016053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010868163.7A CN112016053A (zh) 2020-08-25 2020-08-25 数据标注的考核方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010868163.7A CN112016053A (zh) 2020-08-25 2020-08-25 数据标注的考核方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112016053A true CN112016053A (zh) 2020-12-01

Family

ID=73502271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010868163.7A Pending CN112016053A (zh) 2020-08-25 2020-08-25 数据标注的考核方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112016053A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949709A (zh) * 2021-02-26 2021-06-11 北京达佳互联信息技术有限公司 图像数据标注方法、装置、电子设备和存储介质
CN112989087A (zh) * 2021-01-26 2021-06-18 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
CN113065609A (zh) * 2021-04-22 2021-07-02 平安国际智慧城市科技股份有限公司 图像分类方法、装置、电子设备及可读存储介质
CN113326888A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 标注能力信息确定方法、相关装置及计算机程序产品

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989087A (zh) * 2021-01-26 2021-06-18 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
CN112989087B (zh) * 2021-01-26 2023-01-31 腾讯科技(深圳)有限公司 一种图像处理方法、设备以及计算机可读存储介质
CN112949709A (zh) * 2021-02-26 2021-06-11 北京达佳互联信息技术有限公司 图像数据标注方法、装置、电子设备和存储介质
CN113065609A (zh) * 2021-04-22 2021-07-02 平安国际智慧城市科技股份有限公司 图像分类方法、装置、电子设备及可读存储介质
CN113065609B (zh) * 2021-04-22 2024-04-09 深圳赛安特技术服务有限公司 图像分类方法、装置、电子设备及可读存储介质
CN113326888A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 标注能力信息确定方法、相关装置及计算机程序产品
CN113326888B (zh) * 2021-06-17 2023-10-31 北京百度网讯科技有限公司 标注能力信息确定方法、相关装置及计算机程序产品

Similar Documents

Publication Publication Date Title
CN112016053A (zh) 数据标注的考核方法、装置和电子设备
CN110705405B (zh) 目标标注的方法及装置
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN105975980A (zh) 监控图像标注质量的方法和装置
EP2785058A1 (en) Video advertisement broadcasting method, device and system
CN112950581A (zh) 质量评估方法、装置和电子设备
CN111899243A (zh) 一种图像清晰度评价方法、设备和计算机可读存储介质
CN108062341A (zh) 数据的自动标注方法及装置
CN105678301B (zh) 一种自动识别并分割文本图像的方法、系统及装置
CN112036295A (zh) 票据图像处理方法、装置、存储介质及电子设备
CN114494863A (zh) 基于Blend Mask算法的动物幼崽计数方法以及装置
CN111291567B (zh) 人工标注质量的评估方法、装置、电子设备及存储介质
CN111966674B (zh) 标注数据的合格性判断方法、装置和电子设备
CN114140751B (zh) 一种考场监控方法及系统
CN115294505A (zh) 风险物体检测及其模型的训练方法、装置及电子设备
CN116137061A (zh) 数量统计模型的训练方法、装置、电子设备及存储介质
CN116343007A (zh) 目标检测方法、装置、设备和存储介质
CN115908977A (zh) 一种图像数据标注方法、装置、电子设备及存储介质
CN114187625A (zh) 一种基于视频源自动探测技术的视频检测方法
CN113420809A (zh) 视频质量评价方法、装置和电子设备
CN113435942A (zh) 评估矿物价格的方法和计算机系统
CN114627457A (zh) 一种票面信息识别方法及装置
CN113918769B (zh) 视频中关键动作标记方法、装置、设备及存储介质
CN111738343A (zh) 一种基于半监督学习进行图像标注方法
CN111160279A (zh) 利用小样本生成目标识别模型的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination