CN112860416A - 标注任务分派策略方法、装置 - Google Patents

标注任务分派策略方法、装置 Download PDF

Info

Publication number
CN112860416A
CN112860416A CN202110445705.4A CN202110445705A CN112860416A CN 112860416 A CN112860416 A CN 112860416A CN 202110445705 A CN202110445705 A CN 202110445705A CN 112860416 A CN112860416 A CN 112860416A
Authority
CN
China
Prior art keywords
task
scene
annotation
annotator
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110445705.4A
Other languages
English (en)
Inventor
李圣权
黄逢春
毛云青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202110445705.4A priority Critical patent/CN112860416A/zh
Publication of CN112860416A publication Critical patent/CN112860416A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种标注任务分派策略方法、装置,其中所述方法将包含相同所述场景分类的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景分类下所述待标注项目的场景相似度。通过将超过场景相似阈值的所述待标注项目分配给多个目标标注员避免了批量任务被分配给其中一个或某几个标注员导致整个场景的标注误判情况发生。

Description

标注任务分派策略方法、装置
技术领域
本申请涉及数据标注领域,特别是涉及标注任务分派策略方法、装置。
背景技术
在人工智能领域,特别是图像识别场景中,图片数据标注是一项基础但重要程度高、专业程度强的工作。图片数据标注通常是将很多标注任务(图片)分派给不同的标注员进行审核标注,而待标注的任务(图片)往往有“批量”的特点,即一组待标注任务(图片)通常是相似场景甚至是同一个场景下的数据。传统的标注任务分派策略将图片简单的平分给多个标注员,这种方式会存在某个具体的场景图片只会被单个标注员处理的情况,此时若标注员对该场景的数据出现了误判,那么整个批次相同以及相似场景下的图片数据都会出现同样的误判行为,这对后续的算法再学习带来了负面影响。
此外,传统的标注任务(图片)的分派方法未考虑到标注人员的状态,比如标注人员的出勤情况、标注速度和任务饱和度等外在因素,这可能会导致分派后的任务(图片)出现积压阻塞等问题。
发明内容
本申请实施例提供了标注任务分派策略方法、装置,可以解决多人互保时的识别用户是否为高风险用户的问题。
第一方面,本申请实施例提供了一种标注任务分派策略方法,包括以下步骤:获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目;从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合;获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素;将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度;基于所述待标注项目的场景相似度分配所述标注任务。
第二方面,本申请实施例提供了一种标注任务分派策略装置,包括:第一获取模块,用于获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目;筛选模块,用于筛选与所述标注任务的所述任务属性信息相匹配的标注员集合;第二获取模块,用于获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素;比对模块,用于将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度;分配模块,用于基于所述待标注项目的场景相似度分配所述标注任务。
第三方面,本申请提出了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如第一方面所述的标注任务分派策略方法所执行的操作。
第四方面,本申请提出了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行如第一方面所述的标注任务分派策略方法。
本发明的主要贡献和创新点如下:
本方案提出了一种标注任务分派策略方法和装置,通过比对待标注项目的场景相似度,为场景相似度超过阈值的待标注项目分配到不同的目标标注员中,避免了在标注任务分派时,出现相同及相似场景的图片标注任务被分派给少数甚至是只有一个标注员;以及为了给标注任务的分派带来无规律性,不让标注员的部分异常判断习惯大面积的污染了标记结果数据,以致后续的算法再学习出现较大偏差。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
在附图中:
图1是根据本申请实施例的标注任务分派策略方法的流程图;
图2是本方案实施例提出的一种标注任务分派策略系统的结构框图;
图3是本方案实施例提出的轮询法的方法示意图;
图4是本方案实施例提出的哈希地址再探测法的方法示意图;
图5是本方案实施例提出的权重再探测法的方法示意图;
图6是本方案实施例提出的通过扩展模式自定义分派策略的方法示意图;
图7是根据本申请实施例的标注任务分派策略装置的结构框图;
图8是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
图1是根据本申请实施例的标注任务分派策略方法的流程图,如图1所述,所述方法包括以下步骤S101至S105:
步骤S101,获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目。
在本步骤中,标注员名单是指包含所有标注员在内的集合,集合内至少包括考勤状态为在岗、缺勤、已下班的标注员。
标注任务是指对图片、文本、视频或其他类型数据进行标注,以待标注项目为图片,标注任务为标注图片举例,一个标注任务可以包括一张或一组图片,也可以不只包含图片。
任务属性信息是指标注任务具有的特征,在本方案中,标注任务可以有任务属性信息,任务属性信息包括即时程度、重要程度、专业程度的至少一种。在下述步骤中根据任务属性信息为该标注任务从标注员名单中分配标注员。在其他实施例中,标注任务也可以不带有任务属性信息。
针对上述步骤S101,本方案实施例一中的该步骤实现了在分配标注任务给标注员之前,先获取标注任务的任务属性信息,且任务属性信息与待标注项目的类型无关,上述提到的对图片、文本、视频或其他类型数据进行标注都可以附带即时程度、重要程度、专业程度的至少一种任务属性信息,在后续步骤中根据标注任务带有任务属性信息从标注员名单中分配标注员。
步骤S102,从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合。
在本步骤中,标注员集合是指根据标注任务的任务属性信息从标注员名单中筛选出的与任务属性信息相匹配的标注员在内的集合。若标注任务不带有任务属性信息,则标注员集合等于标注员名单。
在一种可能实现方式中,“从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合”包括:判断所述任务属性信息是否包括即时程度,若判断为包括所述即时程度,获取所述标注员名单中每一标注员的考勤状态,基于所述考勤状态过滤得到在岗的所述标注员并生成所述标注员集合。
并且,获取所述标注员集合中的所述目标标注员对应的标注速度,基于所述标注速度为各个所述目标标注员分配所述任务属性信息包括所述即时程度的所述标注任务。
在本实施例中,对于即时程度较高的任务,需要根据标注员的考勤状态筛选出一批在岗的标注员生成标注员集合,再对标注员集合中的目标标注员以“标注速度”和/或“任务量”来计算权重值,再使用“权重再探测法”策略来分配任务。具体地,分配即时程度较高的标注任务给标注员时需要首先考虑标注员是否能在短时间内将该标注任务下的待标注项目处理完成,因此在本方案中,标注员不仅仅是一个单薄的等待被分配任务的数据对象,标注员本身带有诸多属性,例如考勤状态、标注速度、任务量等。当一个标注员的考勤状态为“缺勤”、“已下班”,说明该考勤员当下无法处理被分配的待标注项目,所以根据考勤状态的信息不对该标注员分派标注任务或不对该标注员分派即时程度高的标注任务。
且,当获取到的标注任务为标注一批数量较多且时限较短的待标注项目时,还可以通过标注员的标注速度以及任务量对待标注项目进行分派,例如,给标注速度高的标注员多分派一些该待标注项目,给出现堆积的任务量较多的标注员少分派一些该待标注项目。以上例子只是对标注任务的“即时程度”以及对标注员属性的简单使用,在实际中标注员的属性不限制为相互隔离,因此在实际使用时会结合标注员的多个属性以及分派策略分派标注任务。
在一种可能实现方式中,“从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合”包括:判断所述任务属性信息是否包括重要程度,若判断为包括所述重要程度,获取所述标注员名单中每一所述标注员对应的标注质量,获取所述标注质量不低于预设的标注质量阈值的所述标注员并生成所述标注员集合。
在本实施例中,标注质量表示标注员在过去的标注任务中的标注正确率,标注正确率越高则说明该标注员的标注质量越高。“重要程度”高的标注任务需要被分配给标注质量高的标注员。如果标注任务只带有“重要程度”的任务属性信息,则说明该标注任务不需要即时性,那么可以根据标注员的“标注质量”从标注员名单中挑选出标注员作为标注员集合,最后采用“轮询法”或“哈希链地址再探测法”从标注员集合中为该标注任务中的待标注项目分配目标标注员。
在一种可能实现方式中,“从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合”包括:判断所述任务属性信息是否包括专业程度,若判断为包括所述专业程度,从所述标注员名单中获取指定领域的所述标注员并生成所述标注员集合。
在本实施例中,专业程度表示当待标注项目的辨识可能需要有一定程度专业技能或是对该标注场景有一定分派经验的标注员才能更准确的识别,因此通过“类型绑定法”把这个标注任务分派给指定领域的标注员。
下面结合图2至图6对步骤102中提及的“轮询法”、“哈希链再探测法”、“权重再探测法”以及“扩展模式”进行解释说明。
图2是本方案实施例提出的一种标注任务分派策略系统的结构框图,如图2所示,标注任务分派策略系统在最顶层看就是对输入数据做处理后输出最终结果的一个数据处理系统,该策略系统内部会提供多种分派策略以供选择。例如轮询法和类型绑定法是系统预先提供的单因子简单分派策略;再如哈希链地址再探测法和权重再探测法是系统提供的多因子简单分派策略;之外的扩展模式是分派策略系统提供的一个可自定义策略的接口,开发人员可以根据分派策略系统提供的接口来实现自定义的多因子复杂分派策略。自定义的分派策略可以充分利用任务可能提供的结构化元数据,以及标注员本身的一些属性来做分派策略分析,然后再做出最后的分派处理。
图3是本方案实施例提出的轮询法的方法示意图,如图3所示,轮询法的主要思想是把所有标注员集合中的标注员当做一个有序的组合,将标注任务中的带标注项目顺序依次分派,每次分派一个,一轮标注员分派完之后可以从头开始分配,直到所有标注任务都分派完毕。该方法适用于标注员集合中的标注员大于1的情况,在注员足够多的时候,该策略可以给标注任务在标注员中带来足够的随机分布。
图4是本方案实施例提出的哈希地址再探测法的方法示意图,如图4所示,哈希地址法的主要思想是把所有标注员当作是一个有序的集合,然后给每个标注员一个序号,假设有n个标注员,那么序号的值从0开始以1递增直到n-1。当有新标注任务时,可以对标注任务的一个唯一属性比如名称进行hash计算,hash计算的结果是一个数值m,然后用数值m与最大标注员序号即n-1进行取模运算,取模运算的结果p就是指任务要分派给序号为p的标注员。哈希地址法在大部分情况下都能满足分派待处理项目的需求,但还是存在hash冲突的隐患。当出现大量hash冲突时会导致大量任务分派给同一个标注员并且超出标注员的“任务量”,所以为了避免出现该问题就需要引入“再探测”的技术。“再探测”的分派依据主要是在分派出现hash冲突时判断一下标注员的任务量是否饱和,如果不饱和就正常分派;如果已经饱和,那么就把p加1,也就是分派给后续的标注员,分派后会再次进行“再探测”判断,直到找到一个合适的标注员。
图5是本方案实施例提出的权重再探测法的方法示意图,如图5所示,权重再探测法的主要思想是给所有标注员分配一个唯一的序号,然后实现一个随机算法,这个随机算法每次调用输出的结果是一个标注员的序号,同时在足够数量的调用后可以保证具体的标注员被抽中的几率和他/她在所有标注员中所占的权重比例是大致相同的。在以上两个条件的基础上,每当有一个任务分派时,我们就通过随机算法给它分派到具体的标注员上,但同时也可能出现某个标注员的任务量过大,那么此时就会触发“再探测”来判断是否需要分派给其它标注员。
图6是本方案实施例提出的通过扩展模式自定义分派策略的方法示意图,如图6所示,开发人员可以根据系统提供的接口来实现相关自定义的逻辑。通过这个模式,开发人员可以获取到标注任务的元信息和标注员的属性集,然后充分利用这些数据来进行多因素多方向的动态分派分析,最后再决定给哪个标注员分派任务。通过扩展模式,开发人员可以实现一个最符合实际业务的自定义分派逻辑。此外,针对待标注项目为图片的情况,在扩展模式中提出了待标注项目的属性,包括图片、图片元数据、图片属性元数据,其中图片指的是图片本体,在计算多张图片的场景相似度时,将图片本体输入至分类模型中进行比对。图片元数据指的是图片的id、地址、经纬度、产生时间等数据,这些图片元数据可以附带在图片的预设名称中,此外,还可以在待标注项目中附带结构数据,例如JSON数据、XML数据等作为图片元数据。在步骤S101提出了标注任务的任务属性信息包括即时程度、重要程度、专业程度的至少一种。在其他实施例中,待标注项目本身也可以具有即时程度、重要程度、专业程度以及场景相似程度等图片属性元数据。例如,根据标注任务里的一些图片即时程度高,一些图片的重要程度高,则基于图片属性元数据对图片本体进行匹配,从所述标注员名单中筛选与所述图片本体的图片属性元数据相匹配的标注员集合。应当强调的是,上述对待标注项目为图片的举例仅仅是示例性的,在本例中提出的可插拔的“扩展模式”,可以根据实际情况设计标注任务、待标注项目、标注员的特征和/或属性,以便于在实际分配过程中对需要定制分配策略方法的场景进行自定义分派。
步骤S102中提出了对标注任务分派策略系统实现的一种可行方案,在标注任务分派策略系统中增加了标注员对象的设计,以此策略系统可以根据从标注员上获取到的信息来实现分派逻辑,这样就可以设计出更符合实际业务场景的分派策略;通过内置的“轮询法”、“哈希链再探测法”、“权重再探测法”以及“扩展模式”以便于对不同分派场景下进行自定义分派。
针对上述步骤S102,本方案实施例一中的该步骤实现了通过标注任务的“即时程度”、“重要程度”、“专业程度”等以及标注员的“考勤状态”、“标注速度”、“标注质量”、“标注领域”等为每一待标注项目选择标注员,通过将标注任务的特征与标注员的属性相结合,使每一待标注项目都能分配给与其任务属性信息相匹配的标注员,从而提高了标注任务的处理速度和质量,也避免了待标注项目平均分派带来的标注任务出现积压堵塞等问题。
步骤S103,获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素。
步骤S104,将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度。
步骤S105,基于所述待标注项目的场景相似度分配所述标注任务。
步骤S103至步骤S105中,本方案实施例实现了根据待标注项目的场景相似度从标注员集合中为每一待标注项目分配标注员的技术方案。
具体地,在步骤S103中,获取每一待标注项目的场景要素信息,待标注项目的场景类别指的是如暴露垃圾场景、焚烧树叶场景、水域不洁场景、违规停车场景、绿化维护场景等等。一个待标注项目可能包含多个场景类别,如既是暴露垃圾场景、又是绿化维护场景。
在步骤S104中,将包含有相同分类场景的待标注项目进行相似度比对,例如,待标注项目为图片1和图片2,图片1包括暴露垃圾场景、绿化维护场景,图片2包括暴露垃圾场景、水域不洁场景,那么它们都包括了同一场景类别:暴露垃圾场景,则将图片1和图片2输入分类模型中比对,由分类模型输出比对后的场景相似度。
在步骤S105中,根据得到的场景相似度可以为每一待标注项目从标注员集合中选择目标标注员。
在一种可能实现方式中,“基于所述待标注项目的场景相似度分配所述标注任务”包括:判断相同所述场景类别下所述场景相似度是否超过预设的场景相似阈值,将超过场景相似阈值的所述待标注项目分配给所述标注员集合中的目标标注员,使至少两名所述目标标注员被分配到所述标注任务。
在本例中通过将超过场景相似阈值的所述待标注项目分配给多个目标标注员避免了批量任务被分配给其中一个或某几个标注员导致整个场景的标注误判情况发生。
例如,当一组标注任务是标注一组场景重复程度高的图片时,如果图片简单的评分给多个标注员时,会存在某一个标注员被分配到的都是同一场景或相似场景下的图片,此时若标注员对该场景的数据出现了误判,那么整个批次相同以及相似场景下的图片数据都会出现同样的误判行为,这对后续的算法再学习带来了负面影响。因此,在本例中,根据场景相似度是否超过阈值来判断图片之间的场景相似度或场景重复性。
下面提出了三种对场景相似度超过场景相似阈值的图片进行分派的实现方式。
在一种可能实现方式中,“将超过场景相似阈值的所述待标注项目分配给所述标注员集合中的目标标注员,使至少两名所述目标标注员被分配到所述标注任务”包括:为相同所述场景类别下所述场景相似度超过场景相似阈值的所述待标注项目生成唯一识别值;获取分配人数,其中,所述分配人数大于1且不大于所述目标标注员的总人数;将所述唯一识别值与所述分配人数取模运算,获取余数,将相同余数的所述待标注项目分配给同一所述目标标注员。
该实施例与步骤S102提出的“哈希地址法”的区别在于,并没有把标注员集合中的所有标注员作为分配对象,而是取集合中至少两名目标标注员作为分配对象,在这至少两名分配对象中通过取模运算将待标注项目分配给目标标注员。
在一种可能实现方式中,以所述标注员集合生成目标序列,获取每一所述目标标注员的排序值,将超过场景相似阈值的所述待标注项目的余数与所述目标标注员的排序值相比较,若相等,则将所述超过场景相似阈值的待标注项目分配给该目标标注员。
该实施例与上述实施例的区别在于,以标注员集合中的所有标注员生成目标序列,将目标序列中的所有标注员作为分配对象进行分配,在标注员足够多的情况下,可以给待标注项目在标注员中带来足够的随机分布。
在一种可能实现方式中,获取每一所述目标标注员的当前任务数以及任务饱和量;在分配超过场景相似阈值的所述待标注项目给所述目标标注员的过程进行判断,如有所述目标标注员的当前任务数等于任务饱和量,将未分配成功的所述待标注项目重新分配给所述目标序列内其他所述目标标注员。
在该实施例中结合标注员的“当前任务数”以及“任务饱和量”通过再探测的方法判断一下标注员的任务量是否饱和,如果不饱和就正常分派;如果已经饱和,就把任务分派给其他目标标注员,分派时会再次进行再探测判断其他目标标注员的任务是否饱和,直至找到一个合适的目标标注员。
通过上述步骤步骤S101至步骤S105,本发明实施例提供的标注任务分派策略方法通过对标注任务的即时程度、重要程度、专业程度以及标注员考勤状态、标注速度、标注质量、标注领域、当前任务数、任务饱和量的进行分析,将标注任务分配给标注员名单中相匹配的标注员,从而提高了标注任务的处理速度和质量,也避免了待标注项目平均分派带来的标注任务出现积压堵塞等问题。本发明实施例提供的标注任务分派策略方法还通过比对待标注项目的场景相似度,为场景相似度超过阈值的待标注项目分配到不同的目标标注员中,避免了在标注任务分派时,出现相同及相似场景的图片标注任务被分派给少数甚至是只有一个标注员;以及为了给标注任务的分派带来无规律性,不让标注员的部分异常判断习惯大面积的污染了标记结果数据,以致后续的算法再学习出现较大偏差。最后,本发明实施例通过内置的“轮询法”、“哈希链再探测法”、“权重再探测法”,这些策略不仅可以给待标注项目在标注员中带来足够的随机分布,还引入再探测方法防止某一个或几个标注员的当前任务出现积压阻塞问题,同时也内置了一个可插拔的“扩展模式”,便于在实际分配过程中对需要定制分配策略方法的场景进行自定义分派。
实施例二
基于相同的构思,本申请还提出了一种标注任务分派策略装置,参考图7,包括:
第一获取模块701,用于获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目;
筛选模块702,用于筛选与所述标注任务的所述任务属性信息相匹配的标注员集合;
第二获取模块703,用于获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素;
比对模块704,用于将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度;
分配模块705,用于基于所述待标注项目的场景相似度分配所述标注任务。实施例三
本实施例还提供了一种电子装置,参考图8,包括存储器804和处理器802,该存储器804中存储有计算机程序,该处理器802被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器802可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器804可以包括用于数据或指令的大容量存储器804。举例来说而非限制,存储器804可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器804可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器804可在数据处理装置的内部或外部。在特定实施例中,存储器804是非易失性(Non-Volatile)存储器。在特定实施例中,存储器804包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器804(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器804可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器802所执行的可能的计算机程序指令。
处理器802通过读取并执行存储器804中存储的计算机程序指令,以实现上述实施例中的任意一种标注任务分派策略方法。
可选地,上述电子装置还可以包括传输设备806以及输入输出设备808,其中,该传输设备806和上述处理器802连接,该输入输出设备808和上述处理器802连接。
传输设备806可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备806可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备808用于输入或输出信息。例如,上述输入输出设备可以是移动终端、显示屏、音箱、麦克、鼠标、键盘或其他设备。在本实施例中,输入的信息可以是标注任务的属性信息、待标注项目、场景相似阈值、标注质量阈值等,输出的信息可以是可视化的场景相似度、标注任务分派结果等等。
可选地,在本实施例中,上述处理器802可以被设置为通过计算机程序执行以下步骤:
S101、获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目;
S102、从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合;
S103、获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素;
S104、将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度;
S105、基于所述待标注项目的场景相似度分配所述标注任务。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的一种标注任务分派策略方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种标注任务分派策略方法。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种标注任务分派策略方法,其特征在于,所述方法包括:
获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目;
从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合;
获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素;
将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度;
基于所述待标注项目的场景相似度分配所述标注任务。
2.根据权利要求1所述的标注任务分派策略方法,其特征在于,“基于所述待标注项目的场景相似度分配所述标注任务”包括:
判断相同所述场景类别下所述场景相似度是否超过预设的场景相似阈值,将超过场景相似阈值的所述待标注项目分配给所述标注员集合中的目标标注员,使至少两名所述目标标注员被分配到所述标注任务。
3.根据权利要求1所述的标注任务分派策略方法,其特征在于,“将超过场景相似阈值的所述待标注项目分配给所述标注员集合中的目标标注员,使至少两名所述目标标注员被分配到所述标注任务”包括:
为相同所述场景类别下所述场景相似度超过场景相似阈值的所述待标注项目生成唯一识别值;
获取分配人数,其中,所述分配人数大于1且不大于所述目标标注员的总人数;
将所述唯一识别值与所述分配人数取模运算,获取余数,将相同余数的所述待标注项目分配给同一所述目标标注员。
4.根据权利要求3所述的标注任务分派策略方法,其特征在于,“为相同所述场景类别下所述场景相似度超过场景相似阈值的所述待标注项目生成唯一识别值”包括:
通过不同的键值标识不同的超过场景相似阈值的所述待标注项目,对所述键值哈希计算得到每一超过场景相似阈值的所述待标注项目的唯一识别值。
5.根据权利要求3所述的标注任务分派策略方法,其特征在于,以所述标注员集合生成目标序列,获取每一所述目标标注员的排序值,将超过场景相似阈值的所述待标注项目的余数与所述目标标注员的排序值相比较,若相等,则将所述超过场景相似阈值的待标注项目分配给该目标标注员。
6.根据权利要求5所述的标注任务分派策略方法,其特征在于,获取每一所述目标标注员的当前任务数以及任务饱和量;
在分配超过场景相似阈值的所述待标注项目给所述目标标注员的过程进行判断,如有所述目标标注员的当前任务数等于任务饱和量,将未分配成功的所述待标注项目重新分配给所述目标序列内其他所述目标标注员。
7.根据权利要求2所述的标注任务分派策略方法,其特征在于,“从所述标注员名单中筛选与所述标注任务的所述任务属性信息相匹配的标注员集合”包括:
判断所述任务属性信息是否包括即时程度,若判断为包括所述即时程度,获取所述标注员名单中每一标注员的考勤状态,基于所述考勤状态过滤得到在岗的所述标注员并生成所述标注员集合。
8.根据权利要求7所述的标注任务分派策略方法,其特征在于,获取所述标注员集合中的所述目标标注员对应的标注速度,基于所述标注速度为各个所述目标标注员分配所述任务属性信息包括所述即时程度的所述标注任务。
9.根据权利要求1所述的标注任务分派策略方法,其特征在于,“筛选与所述标注任务的所述任务属性信息相匹配的标注员集合”包括:
判断所述任务属性信息是否包括重要程度,若判断为包括所述重要程度,获取所述标注员名单中每一所述标注员对应的标注质量,获取所述标注质量不低于预设的标注质量阈值的所述标注员并生成所述标注员集合。
10.根据权利要求1所述的标注任务分派策略方法,其特征在于,“筛选与所述标注任务的所述任务属性信息相匹配的标注员集合”包括:
判断所述任务属性信息是否包括专业程度,若判断为包括所述专业程度,从所述标注员名单中获取指定领域的所述标注员并生成所述标注员集合。
11.一种标注任务分派策略装置,其特征在于,包括:
第一获取模块,用于获取标注员名单以及标注任务并确定所述标注任务的任务属性信息,其中,所述标注任务包括至少一待标注项目;
筛选模块,用于筛选与所述标注任务的所述任务属性信息相匹配的标注员集合;
第二获取模块,用于获取所述待标注项目的场景要素信息,所述场景要素信息包括至少一场景类别及与所述场景类别对应的场景要素;
比对模块,用于将包含相同所述场景类别的所述待标注项目输入分类模型中比对所述场景要素,获取所述分类模型输出的每个相同所述场景类别下所述待标注项目的场景相似度;
分配模块,用于基于所述待标注项目的场景相似度分配所述标注任务。
12.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1-10任一所述的标注任务分派策略方法所执行的操作。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-10中任一项所述的标注任务分派策略方法。
CN202110445705.4A 2021-04-25 2021-04-25 标注任务分派策略方法、装置 Pending CN112860416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445705.4A CN112860416A (zh) 2021-04-25 2021-04-25 标注任务分派策略方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445705.4A CN112860416A (zh) 2021-04-25 2021-04-25 标注任务分派策略方法、装置

Publications (1)

Publication Number Publication Date
CN112860416A true CN112860416A (zh) 2021-05-28

Family

ID=75992795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445705.4A Pending CN112860416A (zh) 2021-04-25 2021-04-25 标注任务分派策略方法、装置

Country Status (1)

Country Link
CN (1) CN112860416A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219501A (zh) * 2022-02-22 2022-03-22 杭州衡泰技术股份有限公司 样本标注资源分配方法、装置及应用
CN117827014A (zh) * 2024-03-05 2024-04-05 四川物通科技有限公司 一种基于元宇宙的数字孪生模型多人交互协作系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108463814A (zh) * 2015-12-17 2018-08-28 北京安宁福祉科技有限公司 一种医学图像标注方法及系统
CN108846544A (zh) * 2018-04-27 2018-11-20 淘然视界(杭州)科技有限公司 一种标注任务的分配方法及系统
CN108960297A (zh) * 2018-06-15 2018-12-07 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
US20190012302A1 (en) * 2014-10-20 2019-01-10 Google Inc. Annotations of textual segments based on user feedback
CN110443476A (zh) * 2019-07-23 2019-11-12 国家计算机网络与信息安全管理中心 基于知识标注评价的任务分配方法及系统
CN110490444A (zh) * 2019-08-13 2019-11-22 新华智云科技有限公司 标注任务分配方法、装置、系统及存储介质
CN110991260A (zh) * 2019-11-12 2020-04-10 苏州智加科技有限公司 场景标注方法、装置、设备及存储介质
CN111126860A (zh) * 2019-12-26 2020-05-08 科大讯飞华南人工智能研究院(广州)有限公司 任务分配方法、任务分配装置和电子设备
CN111368929A (zh) * 2020-03-09 2020-07-03 西安中科长青医疗科技研究院有限公司 一种图片的标注方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012302A1 (en) * 2014-10-20 2019-01-10 Google Inc. Annotations of textual segments based on user feedback
CN108463814A (zh) * 2015-12-17 2018-08-28 北京安宁福祉科技有限公司 一种医学图像标注方法及系统
CN108846544A (zh) * 2018-04-27 2018-11-20 淘然视界(杭州)科技有限公司 一种标注任务的分配方法及系统
CN108960297A (zh) * 2018-06-15 2018-12-07 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
CN110443476A (zh) * 2019-07-23 2019-11-12 国家计算机网络与信息安全管理中心 基于知识标注评价的任务分配方法及系统
CN110490444A (zh) * 2019-08-13 2019-11-22 新华智云科技有限公司 标注任务分配方法、装置、系统及存储介质
CN110991260A (zh) * 2019-11-12 2020-04-10 苏州智加科技有限公司 场景标注方法、装置、设备及存储介质
CN111126860A (zh) * 2019-12-26 2020-05-08 科大讯飞华南人工智能研究院(广州)有限公司 任务分配方法、任务分配装置和电子设备
CN111368929A (zh) * 2020-03-09 2020-07-03 西安中科长青医疗科技研究院有限公司 一种图片的标注方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219501A (zh) * 2022-02-22 2022-03-22 杭州衡泰技术股份有限公司 样本标注资源分配方法、装置及应用
CN117827014A (zh) * 2024-03-05 2024-04-05 四川物通科技有限公司 一种基于元宇宙的数字孪生模型多人交互协作系统

Similar Documents

Publication Publication Date Title
CN105989144A (zh) 通知消息管理方法、装置、系统及终端设备
CN112860416A (zh) 标注任务分派策略方法、装置
CN110956269A (zh) 数据模型的生成方法、装置、设备以及计算机存储介质
US10613715B2 (en) Minimally invasive user metadata
CN110933178A (zh) 调整集群系统内的节点配置的方法及服务器
CN112148468A (zh) 一种资源调度方法、装置、电子设备及存储介质
CN112631731A (zh) 数据查询方法、装置、电子设备及存储介质
CN110569924A (zh) 图标处理方法、装置、可读存储介质及计算机设备
CN103530313A (zh) 应用信息的搜索方法及装置
CN110909768B (zh) 一种标注数据获取方法及装置
CN112085019A (zh) 字符识别模型生成系统、方法、装置和计算机设备
US10313457B2 (en) Collaborative filtering in directed graph
JP5912949B2 (ja) 業務文書処理システム、及びプログラム
US20090112704A1 (en) Management tool for efficient allocation of skills and resources
CN108268545B (zh) 一种分级的用户标签库的创建的方法和装置
CN114897426A (zh) 分案信息处理方法、装置、计算机设备及存储介质
CN112052330B (zh) 一种应用程序关键词的分配方法及装置
CN111078984B (zh) 网络模型发布方法、装置、计算机设备和存储介质
CN111382343B (zh) 一种标签体系生成方法及装置
CN114546793A (zh) 一种日志生成方法、装置和计算机可读存储介质
CN111784069A (zh) 用户偏好预测方法、装置、设备及存储介质
CN111553749A (zh) 一种活动推送策略配置方法及装置
CN112417259A (zh) 媒体资源的处理方法、装置、设备及存储介质
CN111338752B (zh) 容器调整方法及装置
CN112035174B (zh) 运行web服务的方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination