CN111080092A - 数据标注管理方法及装置、电子设备和可读存储介质 - Google Patents
数据标注管理方法及装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN111080092A CN111080092A CN201911205923.XA CN201911205923A CN111080092A CN 111080092 A CN111080092 A CN 111080092A CN 201911205923 A CN201911205923 A CN 201911205923A CN 111080092 A CN111080092 A CN 111080092A
- Authority
- CN
- China
- Prior art keywords
- data
- labeling
- annotation
- target
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 346
- 238000000034 method Methods 0.000 claims abstract description 46
- 239000003550 marker Substances 0.000 claims abstract description 28
- 230000006399 behavior Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012797 qualification Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000012258 culturing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Abstract
本发明公开了一种数据标注管理方法及装置、电子设备和可读存储介质,方法包括:根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;获取目标标注员对考核标注数据和分布在考核标注数据中的第一参考标注数据的第一标注结果,考核标注数据为待标注数据的一部分且具有正确的标注答案,第一参考标注数据属于参考标注数据集;若第一标注结果对应的正确率大于或等于预设正确率阈值,则根据目标标注员对已分布在待标注数据中的第二参考标注数据的第二标注结果,确定是否允许目标标注员继续执行待标注任务,第二参考标注数据属于参考标注数据集。本发明实施例可以提高数据标注的质量及效率。
Description
技术领域
本发明涉及自动化测试领域,尤其涉及一种数据标注管理方法及装置、电子设备和可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)亦称智械、机器智能,指由人类制造出来的机器所表现出来的智能。在人工智能飞速发展的今天,机器已经具备了人的视觉、听觉、语义识别的能力。
如果要让机器变得越来越“聪明”,则需要大量优质的人工标注数据来提升机器学习的准确性。而且,随着人工智能的广泛应用和普及,机器学习的不断深入,对优质标注数据的需求也与日俱增。因此,需要大量的标注员,利用管理平台及可视化标注工具,对海量文本、图片、语音、视频等数据进行归类、整理、纠错和批注等工作。
然而,由于能够提供数据标注服务的标注员的专业水平参差不齐,为了实现较高的标注正确率,目前所采用的方式为由标注专家对标注员集中培训后上岗,然后在标注过程中,由标注专家对标注员的原始标注结果进行审核确定最终正确的结果,不仅对标注专家的依赖度太高且复核工作量很大。而且,对于标注专家抽审标注员的原始标注结果的情况,交付错误数据的可能性较大,如果客户抽检恰好命中错误数据,则为了保障交付质量,经常需要全部重新审核,可见审核成本居高不下,还会严重拖慢项目的交付进度。
因此,如何使数据标注质量、速度、成本得到有效地改善,成为亟需解决的技术问题。
发明内容
本发明实施例提供一种数据标注管理方法及装置、电子设备和可读存储介质,旨在解决由于标注员的专业水平参差不齐导致的数据标注质量、速度低下的问题。
本发明实施例采用下述技术方案:
第一方面,本发明实施例提供一种数据标注管理方法,包括:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
第二方面,本发明实施例提供一种数据标注管理装置,包括:
第一获取模块,用于根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
第二获取模块,用于获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
管理模块,用于若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
第三方面,本申请实施例提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
本发明实施例采用的上述至少一个技术方案能够达到以下有益效果:
在本发明实施例中,当对待标注任务对应的待标注数据进行标注时,可以先基于该待标注数据和目标标注员对应的历史标注行为数据得到参考标注数据集,然后通过考核标注数据对目标标注员进行考核,考核标注数据为待标注数据中的一部分且已由标注专家确认了正确的标注答案,具体可以在将考核标注数据分配给目标标注员进行标注的过程中,同时将参考标注数据集中的部分或全部即第一参考标注数据引入到考核标注数据中。然后,可以根据获取到的目标标注员对该考核标注数据和分布在其中的第一参考标注数据的第一标注结果对应的正确率与预设正确率阈值间的大小关系,确定该目标标注员是否有标注资格,并在该第一标注结果对应的正确率达到该预设正确率阈值的情况下确定其有标注资格,则可以允许其正式执行该待标注任务。进一步地,可以在目标标注员对待标注数据进行标注时,同样将参考标注数据集中的部分或全部即第二参考标注数据引入到待标注数据中,以使目标标注员同时对待标注数据和第二参考标注数据进行标注,从而可以基于目标标注员对参考标注数据的实时标注结果即第二标注结果进一步考核其标注资格,即确定是否允许其继续执行该待标注任务。如此,通过在将待标注任务分配给标注员之前,先对其进行初始考核,在考核通过的情况下,允许该目标标注员正式执行该待标注任务,以确保选拔出标注水平较高的标注员执行标注任务,同时达到快速培养和筛选出优质的标注员的目的,进一步在经选拔出的标注员执行待标注任务时实时评估其标注水平的稳定性,从而可以提高数据标注质量及效率,以解决由于标注员的专业水平参差不齐导致数据标注质量和速度低下的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中数据标注管理方法的流程示意图;
图2是本发明实施例中数据标注管理装置的结构示意图;
图3是本发明实施例中电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了至少解决背景技术中提到的由于标注员的专业水平参差不齐导致的数据标注质量、速度低下以及审核成本高的问题,以下结合附图,详细说明本发明各实施例提供的技术方案。
参见图1所示,本发明实施例提供一种数据标注管理方法。该方法具体可以包括:
步骤101:根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集。
在该实施例中,可以为每个未标注的新任务准备若干个预置标注数据即生成参考标注数据集。具体的,该步骤101,可以具体执行为以下内容:
根据待标注任务所属的任务类型和标注专家的推荐指数,确定待标注数据与历史标注数据间的相似度;
根据相似度和历史标注行为数据,从历史标注数据中获取参考标注数据集,历史标注行为数据包括目标标注员与任务类型对应的历史标注量和历史标注错误参数。
可以理解,基于标注数据进行协同过滤为该待标注任务筛选出参考标注数据集,具体可以根据标注数据所属的任务类型和标注专家的推荐,确定待标注任务对应的待标注数据与相应历史标注数据间的相似度,进而可以根据标注数据间的相似度以及该目标标注员对应的历史标注行为数据筛选出参考标注数据集,以用于考核目标标注员对该待标注任务的标注资格,其中,该目标标注员对应的历史标注行为数据至少可以包括目标标注员对相应类型任务的历史标注量以及历史标注错误类型、历史标注错误次数等历史标注错误参数。如此,通过综合考虑待标注数据与历史标注数据间的相似度以及目标标注员对应的历史标注行为,有助于筛选出与该待标注任务适配的优质的标注员。
可选的,上述参考标注数据集中的参考标注数据可以不包括该目标标注员频繁标注错误的标注数据,以过滤掉本身有问题的标注数据或者由于标注员培训问题导致的频繁出错,从而能够提高对目标标注员的标注水平的考核的可靠性和准确性。
步骤103:获取目标标注员对考核标注数据和分布在考核标注数据中的第一参考标注数据的第一标注结果,考核标注数据为待标注数据的一部分且具有正确的标注答案,第一参考标注数据属于参考标注数据集。
可选的,在本发明实施例的数据标注管理方法中,上述第一参考标注数据按预设规律分布在考核标注数据中,第一参考标注数据在考核标注数据中的分布密度与目标标注员对第一参考标注数据的标注实时正确率有关。
可以理解,目标标注员在对考核标注数据和第一参考标注数据进行标注的过程中,可以根据该目标标注员已完成的对参考标注数据的标注结果对应的实时正确率控制在接下来考核过程中标注的参考标注数据的数量即密度,触发的标注错误越多,引入穿插在考核标注数据中的参考标注数据越密集。具体的,可以将该部分参考标注数据即第一参考标注数据按先密集后松弛的预设规律分布在考核标注数据中,相当于幂律分布。
其中,通过标注专家预先对待标注任务中的部分待标注数据进行标注,并在确定正确的标注答案后可以作为考核标注数据使用,进而可以结合筛选出来的参考标注数据集中的参考标注数据对目标标注员的标注水平进行测试。如此,不仅可以通过未标注任务对应的标注数据衡量该标注员处理该待标注任务的能力,还可以通过参考标注数据衡量该标注员的历史标注水平的稳定性,确保为该待标注任务选拔出优质的标注员。
需要说明的是,标注专家在对待标注任务中的部分待标注数据进行标注时,一方面不仅可以确认正确的标注答案,还可以用于确定该待标注任务所属的任务类型。
步骤105:若第一标注结果对应的正确率大于或等于预设正确率阈值,则根据目标标注员对已分布在待标注数据中的第二参考标注数据的第二标注结果,确定是否允许目标标注员继续执行待标注任务,第二参考标注数据属于参考标注数据集。
可选的,在本发明实施例的数据标注管理方法中,上述第二参考标注数据按预设规律分布在待标注数据中,第二参考标注数据在待标注数据中的分布密度与目标标注员对第二参考标注数据的标注实时正确率有关。
同样的,目标标注员在通过初步考核,在正式对待标注数据进行标注的过程中,可以根据该目标标注员已完成的对参考标注数据的标注结果对应的实时正确率控制在接下来的标注过程中要引入的参考标注数据的数量即密度,触发的标注错误越多,引入穿插在考核标注数据中的参考标注数据越密集,进而可以根据目标标注员对该部分参考标注数据的标注结果再次考核目标标注员的标注水平。具体的,可以将该部分参考标注数据即第二参考标注数据按先密集后松弛的预设规律分布在考核标注数据中,相当于幂律分布。
可选的,在本发明实施例的数据标注管理方法中,该步骤105,可以具体执行为以下内容:
根据第一标注结果对应的正确率预估目标标注员对待标注任务的第一整体正确率;
若基于第二标注结果对应的正确率预估的目标标注员对待标注任务的第二整体正确率小于第一整体正确率,则禁止目标标注员继续执行待标注任务;
若第二整体正确率大于或等于第一整体正确率,则允许目标标注员继续执行待标注任务。
在该实施例中,还可以基于对目标标注员的标注水平进行初始考核的第一标注结果对应的正确率,预估其对待标注任务的整体正确率。更进一步地,可以基于目标标注员对考核标注数据的标注结果对应的正确率预估其对待标注任务的整体正确率,比如可以结合考核标注数据占待标注数据的比例进行预估。相应的,在目标标注员对待标注数据进行正式标注的过程中,可以统计目标标注员标注参考标注数据时的实时正确率,并在基于该实时正确率预估的其对待标注任务的整体正确率达不到基于第一标注结果对应的正确预估的整体正确率时,即在目标标注员的累计标注错误超过一定的标准时,可以自动取消目标标注员对该待标注任务的标注资格。如此,可以确保执行该待标注任务的标注员的标注水平的稳定性,从而提高标注结果的准确性。
由上可知,在本发明实施例中,当对待标注任务对应的待标注数据进行标注时,可以先基于该待标注数据和目标标注员对应的历史标注行为数据得到参考标注数据集,然后通过考核标注数据对目标标注员进行考核,考核标注数据为待标注数据中的一部分且已由标注专家确认了正确的标注答案,具体可以在将考核标注数据分配给目标标注员进行标注的过程中,同时将参考标注数据集中的部分或全部即第一参考标注数据引入到考核标注数据中。然后,可以根据获取到的目标标注员对该考核标注数据和分布在其中的第一参考标注数据的第一标注结果对应的正确率与预设正确率阈值间的大小关系,确定该目标标注员是否有标注资格,并在该第一标注结果对应的正确率达到该预设正确率阈值的情况下确定其有标注资格,则可以允许其正式执行该待标注任务。进一步地,可以在目标标注员对待标注数据进行标注时,同样将参考标注数据集中的部分或全部即第二参考标注数据引入到待标注数据中,以使目标标注员同时对待标注数据和第二参考标注数据进行标注,从而可以基于目标标注员对参考标注数据的实时标注结果即第二标注结果进一步考核其标注资格,即确定是否允许其继续执行该待标注任务。如此,通过在将待标注任务分配给标注员之前,先对其进行初始考核,在考核通过的情况下,允许该目标标注员正式执行该待标注任务,以确保选拔出标注水平较高的标注员执行标注任务,同时达到快速培养和筛选出优质的标注员的目的,进一步在经选拔出的标注员执行待标注任务时实时评估其标注水平的稳定性,从而可以提高数据标注质量及效率,以解决由于标注员的专业水平参差不齐导致数据标注质量和速度低下的问题。
可选的,在本发明实施例的数据标注管理方法中,还可以包括以下内容:
若第一标注结果对应的正确率小于预设正确率阈值,则获取目标标注员对考核标注数据和分布在考核标注数据中的第三参考标注数据的第三标注结果;
将第三标注结果作为新的第一标注结果,以判断第一标注结果对应的正确率是否大于或等于预设正确率阈值;
重复上述过程,直至第一标注结果对应的正确率大于或等于预设正确率阈值或者获取到第一标注结果的累计次数大于或等于预设次数,预设次数与考核标注数据的难度匹配。
可以理解,在该实施例中,对目标标注员进行考核时,可以根据该待标注任务的难度设置最大考核次数即预设次数,若目标标注员在该最大考核次数内其对考核标注数据和相应的参考标注数据的第一标注结果对应的正确率能达到预设正确率阈值,则说明其考核通过,若最大考核次数内均没有考核通过,则需要对该目标标注员进行标注训练,以提升标注水平。其中,待标注任务的难度可以由标注专家在确定考核标注数据对应的正确答案时一同评估其难度,即通过标注专家确定的考核标注数据的难度表示该待标注任务的难度。
可选的,上述第一参考标注数据、第二参考标注数据和第三参考标注数据均为从参考标注数据集中随机选出的数据,它们三者之间的可以相同,也可以不同,还可以有交集等等。
可选的,在本发明实施例的数据标注管理方法中,还可以包括以下内容:
根据第一标注结果对应的正确率确定目标标注员的标注等级;
在目标标注员执行完待标注任务的情况下,为目标标注员对待标注数据的第三标注结果匹配与标注等级对应的审核方式。
可以理解,在该实施例中还可以根据对目标标注员的考核结果为其划分标注等级,在其完整地标注完该待标注任务对应的所有待标注数据后,可以为其标注结果匹配与其等级对应的审核方式,从而在保证标注质量的同时,可以达到降低审核成本的目的。其中,目标标注员的标注等级的高低与审核方式对应的工作量的大小成反比,具体而言,对于标注等级高即优秀的标注员可以降低审核量,采用少审的方式,对于标注等级中等即普通的标注员可以适当在上一级基础上增加审核量,采用多审的方式,而对于标注等级低即标注水平有疑虑的标注员可以采用全审的方式进行审核。
进一步可选的,对于标注等级高即标注水平高、表现优异的标注员,可以作为对标注员的标注结果进行复审的审核员的候选者。其中,作为该待标注任务的审核员,也需要通过考核认证,对其考核认证的方式可以参照对标注员的考核方式,或者可以更加严格。
可选的,在本发明实施例的数据标注管理方法中,可以基于以下方式中的至少一个自动审核第一标注结果:
(1)与已知的正确标注答案进行对比;考虑到考核标注数据和参考标注数据均具有对应的正确答案,则可以通过直接对以标注答案的方式自动审核标注结果。
(2)计算交并比;该方式适用于对图像的标注结果的审核。
(3)对多个标注员的标注结果进行拟合;通过将不同人的标注结果进行拟合,以筛选出与其他标注员的标注结果明显不同的标注结果,实现类似聚类的自动审核,可以实现同时对多个标注员的标注结果的自动审核。
可选的,在本发明实施例的数据管理方法中,同样可以基于上述方式中的至少一个自动审核上述第二标注结果。即:(1)与已知的正确标注答案进行对比;(2)计算交并比;(3)对多个标注员的标注结果进行拟合。
参见图2所示,本发明实施例还提供一种数据标注管理装置,具体可以包括:第一获取模块201、第二获取模块203和管理模块205。其中,
第一获取模块201用于根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
第二获取模块203用于获取目标标注员对考核标注数据和分布在考核标注数据中的第一参考标注数据的第一标注结果,考核标注数据为待标注数据的一部分且具有正确的标注答案,第一参考标注数据属于参考标注数据集;
管理模块205用于若第一标注结果对应的正确率大于或等于预设正确率阈值,则根据目标标注员对已分布在待标注数据中的第二参考标注数据的第二标注结果,确定是否允许目标标注员继续执行待标注任务,第二参考标注数据属于参考标注数据集。
优选的,在本发明实施例提供的数据标注管理装置中,上述第一参考标注数据按预设规律分布在考核标注数据中,第一参考标注数据在考核标注数据中的分布密度与目标标注员对第一参考标注数据的标注实时正确率有关;
上述第二参考标注数据按预设规律分布在待标注数据中,第二参考标注数据在待标注数据中的分布密度与目标标注员对第二参考标注数据的标注实时正确率有关。
优选的,在本发明实施例提供的数据标注管理装置中,上述管理模块205,具体可以用于:
根据第一标注结果对应的正确率预估目标标注员对待标注任务的第一整体正确率;
若基于第二标注结果对应的正确率预估的目标标注员对待标注任务的第二整体正确率小于第一整体正确率,则禁止目标标注员继续执行待标注任务;
若第二整体正确率大于或等于第一整体正确率,则允许目标标注员继续执行待标注任务。
优选的,本发明实施例提供的数据标注管理装置,具体还可以包括:
确定模块,用于根据第一标注结果对应的正确率确定目标标注员的标注等级;
匹配模块,用于在目标标注员执行完待标注任务的情况下,为目标标注员对待标注数据的第三标注结果匹配与标注等级对应的审核方式。
优选的,本发明实施例提供的数据标注管理装置,具体还可以包括:
第三获取模块,用于若第一标注结果对应的正确率小于预设正确率阈值,则获取目标标注员对考核标注数据和分布在考核标注数据中的第三参考标注数据的第三标注结果;
处理模块,用于将第三标注结果作为新的第一标注结果,以判断第一标注结果对应的正确率是否大于或等于预设正确率阈值;
调度模块,用于重复上述过程,直至第一标注结果对应的正确率大于或等于预设正确率阈值或者获取到第一标注结果的累计次数大于或等于预设次数,预设次数与考核标注数据的难度匹配。
优选的,在本发明实施例提供的数据标注管理装置中,上述第一获取模块201,具体可以用于:
根据待标注任务所属的任务类型和标注专家的推荐指数,确定待标注数据与历史标注数据间的相似度;
根据相似度和历史标注行为数据,从历史标注数据中获取参考标注数据集,历史标注行为数据包括目标标注员与任务类型对应的历史标注量和历史标注错误参数。
优选的,本发明实施例提供的数据标注管理装置,具体还可以包括:审核模块,用于基于以下方式中的至少一个自动审核第一标注结果:
与已知的正确标注答案进行对比;
计算交并比;
对多个标注员的标注结果进行拟合。
能够理解,本发明实施例提供的数据标注管理装置,能够实现前述数据标注管理方法的各个过程,关于数据标注管理方法的相关阐述均适用于该装置,此处不再赘述。
在本发明实施例中,当对待标注任务对应的待标注数据进行标注时,可以先基于该待标注数据和目标标注员对应的历史标注行为数据得到参考标注数据集,然后通过考核标注数据对目标标注员进行考核,考核标注数据为待标注数据中的一部分且已由标注专家确认了正确的标注答案,具体可以在将考核标注数据分配给目标标注员进行标注的过程中,同时将参考标注数据集中的部分或全部即第一参考标注数据引入到考核标注数据中。然后,可以根据获取到的目标标注员对该考核标注数据和分布在其中的第一参考标注数据的第一标注结果对应的正确率与预设正确率阈值间的大小关系,确定该目标标注员是否有标注资格,并在该第一标注结果对应的正确率达到该预设正确率阈值的情况下确定其有标注资格,则可以允许其正式执行该待标注任务。进一步地,可以在目标标注员对待标注数据进行标注时,同样将参考标注数据集中的部分或全部即第二参考标注数据引入到待标注数据中,以使目标标注员同时对待标注数据和第二参考标注数据进行标注,从而可以基于目标标注员对参考标注数据的实时标注结果即第二标注结果进一步考核其标注资格,即确定是否允许其继续执行该待标注任务。如此,通过在将待标注任务分配给标注员之前,先对其进行初始考核,在考核通过的情况下,允许该目标标注员正式执行该待标注任务,以确保选拔出标注水平较高的标注员执行标注任务,同时达到快速培养和筛选出优质的标注员的目的,进一步在经选拔出的标注员执行待标注任务时实时评估其标注水平的稳定性,从而可以提高数据标注质量及效率,以解决由于标注员的专业水平参差不齐导致数据标注质量和速度低下的问题。
图3是本说明书的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据标注管理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取目标标注员对考核标注数据和分布在考核标注数据中的第一参考标注数据的第一标注结果,考核标注数据为待标注数据的一部分且具有正确的标注答案,第一参考标注数据属于参考标注数据集;
若第一标注结果对应的正确率大于或等于预设正确率阈值,则根据目标标注员对已分布在待标注数据中的第二参考标注数据的第二标注结果,确定是否允许目标标注员继续执行待标注任务,第二参考标注数据属于参考标注数据集。
上述如本说明书图1所示实施例揭示的数据标注管理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
在本发明实施例中,当对待标注任务对应的待标注数据进行标注时,可以先基于该待标注数据和目标标注员对应的历史标注行为数据得到参考标注数据集,然后通过考核标注数据对目标标注员进行考核,考核标注数据为待标注数据中的一部分且已由标注专家确认了正确的标注答案,具体可以在将考核标注数据分配给目标标注员进行标注的过程中,同时将参考标注数据集中的部分或全部即第一参考标注数据引入到考核标注数据中。然后,可以根据获取到的目标标注员对该考核标注数据和分布在其中的第一参考标注数据的第一标注结果对应的正确率与预设正确率阈值间的大小关系,确定该目标标注员是否有标注资格,并在该第一标注结果对应的正确率达到该预设正确率阈值的情况下确定其有标注资格,则可以允许其正式执行该待标注任务。进一步地,可以在目标标注员对待标注数据进行标注时,同样将参考标注数据集中的部分或全部即第二参考标注数据引入到待标注数据中,以使目标标注员同时对待标注数据和第二参考标注数据进行标注,从而可以基于目标标注员对参考标注数据的实时标注结果即第二标注结果进一步考核其标注资格,即确定是否允许其继续执行该待标注任务。如此,通过在将待标注任务分配给标注员之前,先对其进行初始考核,在考核通过的情况下,允许该目标标注员正式执行该待标注任务,以确保选拔出标注水平较高的标注员执行标注任务,同时达到快速培养和筛选出优质的标注员的目的,进一步在经选拔出的标注员执行待标注任务时实时评估其标注水平的稳定性,从而可以提高数据标注质量及效率,以解决由于标注员的专业水平参差不齐导致数据标注质量和速度低下的问题。
该电子设备还可执行图1中数据标注管理装置执行的方法,并实现数据标注管理装置在图1所示实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中数据标注管理装置执行的方法,并具体用于执行:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取目标标注员对考核标注数据和分布在考核标注数据中的第一参考标注数据的第一标注结果,考核标注数据为待标注数据的一部分且具有正确的标注答案,第一参考标注数据属于参考标注数据集;
若第一标注结果对应的正确率大于或等于预设正确率阈值,则根据目标标注员对已分布在待标注数据中的第二参考标注数据的第二标注结果,确定是否允许目标标注员继续执行待标注任务,第二参考标注数据属于参考标注数据集。
在本发明实施例中,当对待标注任务对应的待标注数据进行标注时,可以先基于该待标注数据和目标标注员对应的历史标注行为数据得到参考标注数据集,然后通过考核标注数据对目标标注员进行考核,考核标注数据为待标注数据中的一部分且已由标注专家确认了正确的标注答案,具体可以在将考核标注数据分配给目标标注员进行标注的过程中,同时将参考标注数据集中的部分或全部即第一参考标注数据引入到考核标注数据中。然后,可以根据获取到的目标标注员对该考核标注数据和分布在其中的第一参考标注数据的第一标注结果对应的正确率与预设正确率阈值间的大小关系,确定该目标标注员是否有标注资格,并在该第一标注结果对应的正确率达到该预设正确率阈值的情况下确定其有标注资格,则可以允许其正式执行该待标注任务。进一步地,可以在目标标注员对待标注数据进行标注时,同样将参考标注数据集中的部分或全部即第二参考标注数据引入到待标注数据中,以使目标标注员同时对待标注数据和第二参考标注数据进行标注,从而可以基于目标标注员对参考标注数据的实时标注结果即第二标注结果进一步考核其标注资格,即确定是否允许其继续执行该待标注任务。如此,通过在将待标注任务分配给标注员之前,先对其进行初始考核,在考核通过的情况下,允许该目标标注员正式执行该待标注任务,以确保选拔出标注水平较高的标注员执行标注任务,同时达到快速培养和筛选出优质的标注员的目的,进一步在经选拔出的标注员执行待标注任务时实时评估其标注水平的稳定性,从而可以提高数据标注质量及效率,以解决由于标注员的专业水平参差不齐导致数据标注质量和速度低下的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (10)
1.一种数据标注管理方法,其特征在于,包括:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
2.根据权利要求1所述方法,其特征在于,所述第一参考标注数据按预设规律分布在所述考核标注数据中,所述第一参考标注数据在所述考核标注数据中的分布密度与所述目标标注员对所述第一参考标注数据的标注实时正确率有关;
所述第二参考标注数据按所述预设规律分布在所述待标注数据中,所述第二参考标注数据在所述待标注数据中的分布密度与所述目标标注员对所述第二参考标注数据的标注实时正确率有关。
3.根据权利要求1或2所述方法,其特征在于,所述若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,包括:
根据所述第一标注结果对应的正确率预估所述目标标注员对所述待标注任务的第一整体正确率;
若基于所述第二标注结果对应的正确率预估的所述目标标注员对所述待标注任务的第二整体正确率小于所述第一整体正确率,则禁止所述目标标注员继续执行所述待标注任务;
若所述第二整体正确率大于或等于所述第一整体正确率,则允许所述目标标注员继续执行所述待标注任务。
4.根据权利要求3所述方法,其特征在于,所述方法还包括:
根据所述第一标注结果对应的正确率确定所述目标标注员的标注等级;
在所述目标标注员执行完所述待标注任务的情况下,为所述目标标注员对所述待标注数据的第三标注结果匹配与所述标注等级对应的审核方式。
5.根据权利要求1或2所述方法,其特征在于,所述方法还包括:
若所述第一标注结果对应的正确率小于所述预设正确率阈值,则获取所述目标标注员对所述考核标注数据和分布在所述考核标注数据中的第三参考标注数据的第三标注结果;
将所述第三标注结果作为新的第一标注结果,以判断所述第一标注结果对应的正确率是否大于或等于所述预设正确率阈值;
重复上述过程,直至所述第一标注结果对应的正确率大于或等于所述预设正确率阈值或者获取到所述第一标注结果的累计次数大于或等于预设次数,所述预设次数与所述考核标注数据的难度匹配。
6.根据权利要求1或2所述方法,其特征在于,所述根据待标注任务对应的待标注数据和目标标注员的历史标注行为数据,获取参考标注数据集,包括:
根据所述待标注任务所属的任务类型和标注专家的推荐指数,确定所述待标注数据与历史标注数据间的相似度;
根据所述相似度和所述历史标注行为数据,从所述历史标注数据中获取所述参考标注数据集,所述历史标注行为数据包括所述目标标注员与所述任务类型对应的历史标注量和历史标注错误参数。
7.根据权利要求1或2所述方法,其特征在于,基于以下方式中的至少一个自动审核所述第一标注结果:
与已知的正确标注答案进行对比;
计算交并比;
对多个标注员的标注结果进行拟合。
8.一种数据标注管理装置,其特征在于,所述装置包括:
第一获取模块,用于根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
第二获取模块,用于获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
管理模块,用于若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911205923.XA CN111080092B (zh) | 2019-11-29 | 2019-11-29 | 数据标注管理方法及装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911205923.XA CN111080092B (zh) | 2019-11-29 | 2019-11-29 | 数据标注管理方法及装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111080092A true CN111080092A (zh) | 2020-04-28 |
CN111080092B CN111080092B (zh) | 2023-04-18 |
Family
ID=70312201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911205923.XA Active CN111080092B (zh) | 2019-11-29 | 2019-11-29 | 数据标注管理方法及装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080092B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292839A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN112270532A (zh) * | 2020-11-12 | 2021-01-26 | 北京百度网讯科技有限公司 | 一种数据处理方法、装置、电子设备以及存储介质 |
CN112988727A (zh) * | 2021-03-25 | 2021-06-18 | 北京百度网讯科技有限公司 | 数据标注方法、装置、设备、存储介质及计算机程序产品 |
CN113191120A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种智能标注平台的方法、装置、电子设备和存储介质 |
CN113221999A (zh) * | 2021-05-06 | 2021-08-06 | 北京百度网讯科技有限公司 | 图片标注的正确率获取方法、装置和电子设备 |
CN113326890A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 标注数据处理方法、相关装置及计算机程序产品 |
CN113326888A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 标注能力信息确定方法、相关装置及计算机程序产品 |
CN113409280A (zh) * | 2021-06-24 | 2021-09-17 | 青岛海信医疗设备股份有限公司 | 医学影像的处理方法、标注方法和电子设备 |
CN113569546A (zh) * | 2021-06-16 | 2021-10-29 | 上海淇玥信息技术有限公司 | 一种意图标注方法、装置和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951503A (zh) * | 2017-03-16 | 2017-07-14 | 百度在线网络技术(北京)有限公司 | 信息提供方法、装置、设备以及存储介质 |
WO2018028326A1 (zh) * | 2016-08-08 | 2018-02-15 | 华为技术有限公司 | 一种模型更新方法和装置 |
CN107705034A (zh) * | 2017-10-26 | 2018-02-16 | 医渡云(北京)技术有限公司 | 众包平台实现方法及装置、存储介质和电子设备 |
CN109062950A (zh) * | 2018-06-22 | 2018-12-21 | 北京奇艺世纪科技有限公司 | 一种文本标注的方法及装置 |
CN109344409A (zh) * | 2018-09-19 | 2019-02-15 | 传神语联网网络科技股份有限公司 | 翻译机器人选择方法 |
CN109978356A (zh) * | 2019-03-15 | 2019-07-05 | 平安普惠企业管理有限公司 | 标注任务分配方法、装置、介质和计算机设备 |
CN110378617A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 一种样本标注方法、装置、存储介质及设备 |
CN110490444A (zh) * | 2019-08-13 | 2019-11-22 | 新华智云科技有限公司 | 标注任务分配方法、装置、系统及存储介质 |
-
2019
- 2019-11-29 CN CN201911205923.XA patent/CN111080092B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028326A1 (zh) * | 2016-08-08 | 2018-02-15 | 华为技术有限公司 | 一种模型更新方法和装置 |
CN106951503A (zh) * | 2017-03-16 | 2017-07-14 | 百度在线网络技术(北京)有限公司 | 信息提供方法、装置、设备以及存储介质 |
CN107705034A (zh) * | 2017-10-26 | 2018-02-16 | 医渡云(北京)技术有限公司 | 众包平台实现方法及装置、存储介质和电子设备 |
CN109062950A (zh) * | 2018-06-22 | 2018-12-21 | 北京奇艺世纪科技有限公司 | 一种文本标注的方法及装置 |
CN109344409A (zh) * | 2018-09-19 | 2019-02-15 | 传神语联网网络科技股份有限公司 | 翻译机器人选择方法 |
CN109978356A (zh) * | 2019-03-15 | 2019-07-05 | 平安普惠企业管理有限公司 | 标注任务分配方法、装置、介质和计算机设备 |
CN110378617A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 一种样本标注方法、装置、存储介质及设备 |
CN110490444A (zh) * | 2019-08-13 | 2019-11-22 | 新华智云科技有限公司 | 标注任务分配方法、装置、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
王东波;胡昊天;周鑫;朱丹浩;: "基于深度学习的数据科学招聘实体自动抽取及分析研究" * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292839A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN112270532A (zh) * | 2020-11-12 | 2021-01-26 | 北京百度网讯科技有限公司 | 一种数据处理方法、装置、电子设备以及存储介质 |
CN112270532B (zh) * | 2020-11-12 | 2023-07-28 | 北京百度网讯科技有限公司 | 一种数据处理方法、装置、电子设备以及存储介质 |
US11604766B2 (en) | 2021-03-25 | 2023-03-14 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device, storage medium and computer program product for labeling data |
CN112988727A (zh) * | 2021-03-25 | 2021-06-18 | 北京百度网讯科技有限公司 | 数据标注方法、装置、设备、存储介质及计算机程序产品 |
CN113221999A (zh) * | 2021-05-06 | 2021-08-06 | 北京百度网讯科技有限公司 | 图片标注的正确率获取方法、装置和电子设备 |
CN113221999B (zh) * | 2021-05-06 | 2024-01-12 | 北京百度网讯科技有限公司 | 图片标注的正确率获取方法、装置和电子设备 |
CN113191120A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种智能标注平台的方法、装置、电子设备和存储介质 |
CN113569546A (zh) * | 2021-06-16 | 2021-10-29 | 上海淇玥信息技术有限公司 | 一种意图标注方法、装置和电子设备 |
CN113326888A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 标注能力信息确定方法、相关装置及计算机程序产品 |
CN113326890B (zh) * | 2021-06-17 | 2023-07-28 | 北京百度网讯科技有限公司 | 标注数据处理方法、相关装置及计算机程序产品 |
CN113326888B (zh) * | 2021-06-17 | 2023-10-31 | 北京百度网讯科技有限公司 | 标注能力信息确定方法、相关装置及计算机程序产品 |
CN113326890A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 标注数据处理方法、相关装置及计算机程序产品 |
CN113409280B (zh) * | 2021-06-24 | 2022-08-02 | 青岛海信医疗设备股份有限公司 | 医学影像的处理方法、标注方法和电子设备 |
CN113409280A (zh) * | 2021-06-24 | 2021-09-17 | 青岛海信医疗设备股份有限公司 | 医学影像的处理方法、标注方法和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111080092B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080092B (zh) | 数据标注管理方法及装置、电子设备和可读存储介质 | |
US8423960B2 (en) | Evaluation of software based on review history | |
US20140033174A1 (en) | Software bug predicting | |
CN109542789B (zh) | 一种代码覆盖率统计方法及装置 | |
US20150254593A1 (en) | Streamlined creation and utilization of reference human intelligence tasks | |
CN109034188B (zh) | 机器学习模型的获取方法、获取装置、设备及存储介质 | |
CN109934433A (zh) | 一种人员能力评估方法、装置及云服务平台 | |
CN110060139B (zh) | 账务处理方法及装置 | |
CN113342689A (zh) | 一种接口的自动化测试方法、装置、电子设备及存储介质 | |
CN110309295B (zh) | 生成裁判文书经审理查明段的方法及装置 | |
CN110246063B (zh) | 一种指引案件审理的方法及装置 | |
KR102159578B1 (ko) | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 기능요소에 따른 검수자의 검수 권한 부여 방법 | |
CN109753435B (zh) | 一种软件测试方法和装置 | |
CN111222942A (zh) | 一种数据处理方法、装置、可读介质及电子设备 | |
CN106682516A (zh) | 应用程序的检测方法、检测装置和服务器 | |
CN109598525B (zh) | 数据处理方法和装置 | |
KR102164837B1 (ko) | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 비용 효율적인 검수 품질 관리 방법 | |
KR102195631B1 (ko) | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 결과에 기초한 작업자에 대한 검수 권한 자동 부여 방법 | |
CN111461901B (zh) | 车辆保险理赔信息的输出方法和装置 | |
CN112434717B (zh) | 一种模型训练方法及装置 | |
CN113327023A (zh) | 穿行测试方法、装置、电子设备及计算机可读存储介质 | |
CN110246064B (zh) | 一种事实关系确定方法及装置 | |
CN110969333A (zh) | 用户行为数据的处理方法和装置 | |
CN106682154B (zh) | 一种首页幻灯管理方法及管理系统 | |
CN111277816B (zh) | 一种视频检测系统的测试方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240412 Address after: No. 4302, Courtyard 52, Jiuxianqiao, Chaoyang District, Beijing, 100016 Patentee after: Beijing Yunce Data Technology Co.,Ltd. Country or region after: China Address before: 102425 building 31, 69 Yanfu Road, Fangshan District, Beijing Patentee before: Beijing Yunju Intelligent Technology Co.,Ltd. Country or region before: China |