CN112465032A - 训练数据标注任务的分配方法及装置、计算设备 - Google Patents

训练数据标注任务的分配方法及装置、计算设备 Download PDF

Info

Publication number
CN112465032A
CN112465032A CN202011364814.5A CN202011364814A CN112465032A CN 112465032 A CN112465032 A CN 112465032A CN 202011364814 A CN202011364814 A CN 202011364814A CN 112465032 A CN112465032 A CN 112465032A
Authority
CN
China
Prior art keywords
task
training data
type
terminal
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011364814.5A
Other languages
English (en)
Inventor
刘静修
季俊
张言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinyi Intelligent Technology Co.,Ltd.
Original Assignee
Beijing Xinyi Intelligent Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinyi Intelligent Information Technology Co ltd filed Critical Beijing Xinyi Intelligent Information Technology Co ltd
Priority to CN202011364814.5A priority Critical patent/CN112465032A/zh
Publication of CN112465032A publication Critical patent/CN112465032A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种训练数据标注任务的分配方法及装置、存储介质和计算设备,所述方法包括:接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。通过本发明的方案,可以高效率地将大量的训练数据标注任务自动分配给各个任务执行终端,提高分配的效率。

Description

训练数据标注任务的分配方法及装置、计算设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种训练数据标注任务的分配方法及装置、存储介质、计算设备。
背景技术
训练数据标注是指对文本、图片、语音等训练数据进行描述或标记的过程(例如,在人脸样本图像上标注左眼外眼角、右眼外眼角等位置),以便将标注好的训练数据用于机器学习。随着人工智能等领域的技术发展,数据标注需求方(例如人工智能等领域的科技公司)对于训练数据标注的需求越来越大,数据标注需求方会将大量需要进行标注的训练数据发送至数据标注平台,针对数据标注需求方发送的训练数据,数据标注平台需要创建大量的训练数据标注任务,并由多个数据标注执行方(例如,专门进行数据标注的执行主体)的任务执行终端对训练数据进行标注。
因此,亟需一种训练数据标注任务的分配方法,能够高效率地分配大量的训练数据标注任务,从而进一步提高训练数据标注任务完成的效率。
发明内容
本发明解决的技术问题是提供一种训练数据标注任务的分配方法,能够高效率地分配大量的训练数据标注任务,从而进一步提高训练数据标注任务完成的效率。
为解决上述技术问题,本发明实施例提供一种训练数据标注任务的分配方法,所述方法包括:接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。
可选的,将每种类型的训练数据标注任务分配给与其匹配的任务执行终端包括:对于每种类型的训练数据标注任务,根据与该类型匹配的任务执行终端的数量,将该类型的训练数据标注任务进行划分,以得到各个任务执行终端需要完成的训练数据标注任务;对于每一任务执行终端,将其需要完成的训练数据标注任务添加至其任务列表中。
可选的,将每种类型的训练数据标注任务分配给与其匹配的任务执行终端还包括:监听各个任务执行终端的状态信息,当其状态信息指示其处于空闲状态时,从其任务列表中选择下一个训练数据标注任务;将所述下一个训练数据标注任务对应的训练数据发送至所述任务执行终端。
可选的,所述任务列表包括第一进度信息,所述第一进度信息为已完成的训练数据标注任务的数量占需要完成的训练数据标注任务的数量的比例,所述方法还包括:监听各个任务执行终端的第一进度信息;当任一任务执行终端的第一进度信息达到第一预设阈值时,判断是否需要对待完成任务进行重新分配,其中,所述待完成任务为第一类型终端未完成的训练数据标注任务,所述第一类型终端为与所述第一终端匹配的类型相同的全部任务执行终端,所述第一终端为所述第一进度信息达到所述第一预设阈值的任务执行终端;如果是,则将所述待完成任务重新分配给所述第一类型终端。
可选的,判断是否需要对所述待完成任务进行重新分配包括:统计所述待完成任务的数量,并根据所述第一类型终端的数量计算所述待完成任务数量的均值;将所述第一终端未完成的训练数据标注任务的数量与所述均值进行比较,如果所述第一终端未完成的训练数据标注任务的数量与所述均值满足预设条件,则判断需要对所述待完成任务进行重新分配。
可选的,所述任务列表还包括第二进度信息,将所述待完成任务重新分配给所述第一类型终端包括:读取所述第一类型终端的第二进度信息,其中,所述第二进度信息为预设时间内完成的训练数据标注任务的数量;根据所述第一类型终端的第二进度信息,将所述待完成任务进行划分,以更新所述第一类型终端对应的需要完成的训练数据标注。
可选的,所述任务执行终端具有类型标签,对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端包括:对于每种类型的训练数据标注任务,查找具有与该类型相同的类型标签和/或空白标签的任务执行终端,以得到与该类型匹配的任务执行终端。
可选的,根据所述第一类型终端的第二进度信息,将所述待完成任务进行划分之前,还包括:如果所述第一类型终端中的至少一个任务执行终端的类型标签为空白标签,且所述至少一个任务执行终端的第二进度信息达到第二预设阈值时,则将所述至少一个任务执行终端的类型标签修改为与第一类型相同的类型标签,其中,所述第一类型为所述第一终端匹配的类型。
可选的,如果所述第一类型终端中的至少一个任务执行终端的类型标签为不空白标签,且所述至少一个任务执行终端的第二进度信息小于所述第二预设阈值,则剔除所述至少一个任务执行终端的类型标签,其中,所述第一类型为所述第一终端匹配的类型。为了解决上述技术问题,本发明实施例还提出一种训练数据标注任务的分配装置,所述装置包括:接收模块,用于接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;识别模块,用于对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;分配模块,用于将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。
本发明实施例还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述训练数据标注任务的分配方法的步骤。
本发明实施例还提出一种计算设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述训练数据标注任务的分配方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:本发明实施例提供一种训练数据标注任务的分配方法,所述方法包括:接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。本发明实施例中,接收到的任务创建信息中包括各个训练数据标注任务的类型,数据标注平台可以根据训练数据标注任务的类型分别查找匹配的任务执行终端,在分配训练数据标注任务时,可以将各个训练数据标注任务分配给与该任务的类型匹配的任务执行终端,从而可以高效率地将大量的训练数据标注任务分配给合适的任务执行终端,以便提高标注效率。
进一步地,本发明实施例中数据标注平台还可以监听各个任务执行终端的第一进度信息,当任一任务执行终端的第一进度信息达到第一预设阈值时,也即,当任一任务执行终端的完成进度较快时,进一步比较该任务执行终端的进度与匹配同一类型的全部任务执行终端的平均进度,如果两者满足预设条件,也即两者差异较大时,则将上述全部任务执行终端未完成的任务重新分配给匹配的任务执行终端。由此,本发明实施例的方案可以根据完成进度动态调整分配给各个任务执行终端的任务数量,使得训练数据标注任务的分配更为合理,可以进一步提高标注效率。
附图说明
图1是本发明实施例中一种训练数据标注任务的分配方法的应用场景示意图。
图2是本发明实施例中一种训练数据标注任务的分配方法的流程示意图。
图3是本发明实施例中一种训练数据标注任务的分配装置的结构示意图。
具体实施方式
如背景技术所述,亟需一种训练数据标注任务的分配方法,能够高效率地分配大量的训练数据标注任务,从而进一步提高训练数据标注任务完成的效率。
本发明的发明人经过研究发现,现有技术中,通常由数据标注平台的管理员依次确定各个训练数据标注任务的标注员,数据标注执行方的各个标注员需要在大量的训练数据标注任务中寻找到管理员分配的训练数据标注任务,并在数据标注平台上领取任务后进行标注。由于标注员的数量和训练数据标注任务的数量都比较多,管理员分配训练数据标注任务时会消耗大量时间;此外,标注员在领取训练数据标注任务时,还需要在大量的训练数据标注任务下寻找管理员分配的任务,容易出现因训练数据标注任务名称相近而领取到错误的任务,导致紧急的训练数据标注任务延期等。因此,这种方法的分配过程繁琐复杂,严重依赖人工操作。
为了解决上述技术问题,本发明实施例提供一种训练数据标注任务的分配方法,所述方法包括:接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。本发明实施例中,接收到的任务创建信息中包括各个训练数据标注任务的类型,数据标注平台可以根据训练数据标注任务的类型分别查找匹配的任务执行终端,在分配训练数据标注任务时,可以将各个训练数据标注任务分配给与该任务的类型匹配的任务执行终端,从而可以高效率地将大量的训练数据标注任务分配给合适的任务执行终端,以便提高标注效率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参考图1,图1是本发明实施例中一种训练数据标注任务的分配方法的应用场景示意图。所述方法可以由数据标注平台11执行,所述数据标注平台11可以是数据标注需求方(图未示)本身的平台,所述数据标注需求方可以是人工智能等领域的科技公司,但并不限于此,数据标注平台11也可以是独立于数据标注需求方与多个数据标注执行方(例如,专门进行数据标注的执行主体)的第三方平台,但并不限于此。
进一步地,所述数据标注平台11可以包括至少一台服务器(图未示),该数据标注平台11与数据库服务器(图未示)耦接,所述数据库服务器用于存储训练数据,其可以是数据标注需求方的内部服务器,也可以是其他存储有训练数据的服务器,但并不限于此。数据标注平台11可以从数据库服务器获取需要进行标注的训练数据,并针对需要进行标注的训练数据创建多个训练数据标注任务,然后将多个训练数据标注任务分配给多个数据标注执行方的任务执行终端12进行标注。在标注训练数据时,可以由多个任务执行终端12自动对训练数据进行标注,也可以人工操作任务执行终端12对训练数据进行标注,所述任务执行终端12可以是手机、计算机、平板电脑等终端。
图2是本发明实施例中一种训练数据标注任务的分配方法的流程示意图,图2所示的训练数据标注任务的分配方法可以包括如下步骤:
步骤S201:接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;
步骤S202:对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;
步骤S203:将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。
在步骤S201的具体实施中,数据标注平台接收到的任务创建信息可以是由数据标注需求方发送的,所述任务创建信息可以指示多个训练数据标注任务以及每个训练数据标注任务的类型,训练数据标注任务的类型由该任务对应的训练数据的类型确定,可以是图片、文本、视频等。例如,训练数据为图片,则对应的训练数据标注任务的类型为图片。多个训练数据标注任务中可以包括至少一种类型的训练数据标注任务,例如,数据标注需求方需要进行标注的训练数据可以同时包括图片数据和文本数据。
具体而言,数据标注需求方需要对训练数据进行标注时,向数据标注平台发送任务创建信息,所述任务创建信息可以包括需要进行标注的训练数据以及训练数据的类型(文本、图片、语音等);任务创建信息也可以包括需要进行标注的训练数据的存储地址、训练数据的类型和每种类型的训练数据的数量,由数据标注平台根据训练数据的类型和数量从数据库服务器获取训练数据,但并不限于此。在本发明的一个非限制性实施例中,任务创建信息还可以包括数据标注需求方指定的至少一个任务执行终端。
进一步地,数据标注平台根据接收到的任务创建信息创建多个训练数据标注任务,每个训练数据标注任务可以包括第一预设数量个相同类型的训练数据,此时第一预设数量个训练数据的类型即为该训练数据标注任务的类型。所述第一预设数量可以由数据标注平台预先确定,也可以由数据标注需求方指定,例如任务创建信息中可以包括所述第一预设数量。
在步骤S202的具体实施中,每个任务执行终端可以具有至少一个类型标签,数据标注平台具有终端列表,所述终端列表可以包括数据标注执行方的各个任务执行终端的终端标识和类型标签,所述终端标识与任务执行终端一一对应,也即终端标识可以唯一确定任务执行终端。所述类型标签可以指示任务执行终端擅长标注的数据类型,例如,任务执行终端A在终端列表中的类型标签为“图片”,则说明任务执行终端A擅长标注图片数据,也即,任务执行终端A标注图片数据时准确率更高和/或效率更高。所述类型标签也可以是空白标签,用于指示该任务执行终端擅长标注的数据类型尚不确定,例如,终端列表中未包括任务执行终端B的类型标签,则认为任务执行终端B的类型标签为空白标签。
需要说明的是,当任务执行终端具有多个类型标签时,该任务执行终端可以匹配多种类型的训练数据标注任务。
进一步地,对于每种类型的训练数据标注任务,数据标注平台可以根据该类型在终端列表中查找类型标签与该类型相同的任务执行终端,也即,将具有与该类型相同的类型标签的任务执行终端作为与该类型匹配的任务执行终端。例如,训练数据标注任务的类型为图片,则数据标注平台可以在终端列表中查找到类型标签为图片的任务执行终端。
在本发明的一个非限制性实施例中,具有空白标签的任务执行终端也可以视为与该类型匹配的任务执行终端,则与该类型匹配的任务执行终端包括具有与该类型相同的类型标签和/或空白标签的任务执行终端。
需要明确的是,如果任务创建信息中包括数据标注需求方指定的至少一个任务执行终端,则数据标注需求方指定的至少一个任务执行终端也可以作为匹配的任务执行终端。
在步骤S203的具体实施中,各个任务执行终端具有对应的任务列表,任务列表可以包括训练数据标注任务的任务编号和状态信息,但并不限于此。所述任务编号可以用于唯一确定训练数据标注任务。所述状态信息可以用于指示任务执行终端是否完成该训练数据标注任务。对于每个训练数据标注任务,如果任务执行终端标注完成该任务对应的所有训练数据,则该训练数据标注任务的状态信息为“已完成”,反之,则为“未完成”,任务列表中未完成的训练数据标注任务的数量与已完成的数量之和为该任务执行终端需要完成的训练数据标注任务的数量。
进一步地,针对每种类型的训练数据标注任务,数据标注平台匹配到对应的任务执行终端后,可以确定各个任务执行终端需要完成的训练数据标注任务,其中,数据标注平台分配给每个任务执行终端的任务即为该终端需要完成的训练数据标注任务。
具体而言,对于每种类型的训练数据标注任务,数据标注平台可以根据与该类型匹配的任务执行终端的数量,将该类型的训练数据标注任务分成多份,以得到各个任务执行终端需要完成的训练数据标注任务;对于每一任务执行终端,将该终端需要完成的训练数据标注任务的任务编号写入其任务列表中。
在本发明的一个非限制性实施例中,对于每种类型的训练数据标注任务,可以将该类型的训练数据标注任务平均分配给与该类型匹配的各个任务执行终端。例如,图片类型的训练数据标注任务有M个,匹配到的任务执行终端有N个,则将M个训练数据标注任务平均分配给N个任务执行终端,也即,每个任务执行终端需要完成的图片类型的训练数据标注任务为M/N个,并将M/N个训练数据标注任务的任务编号分别写入N个任务执行终端的任务列表中。
进一步地,终端列表还可以包括各个任务执行终端的标注速度信息,所述标注速度信息可以用于指示该任务执行终端标注训练数据的速度,例如,标注速度信息可以是该任务执行终端完成第二预设数量个训练数据标注任务所花费的时间,所述第二预设数量可以由数据标注平台预先确定。由此,数据标注平台也可以根据各个任务执行终端的标注速度信息进行划分,也即,标注速度越快的任务执行终端,分配到的训练数据标注任务也越多,由此,对于训练数据标注任务的分配更为合理,可以提高标注的效率。
进一步地,对于每一任务执行终端,数据标注平台将其需要完成的训练数据标注任务添加至其任务列表后,可以监听该任务执行终端的状态信息,当任务执行终端正在对训练数据进行标注时,其状态信息可以为“忙绿”;当任务执行终端完成任意一个训练数据标注任务且未开始下一个训练数据标注任务时,其状态信息可以为“空闲”。当数据标注平台监听到状态信息指示该任务执行终端空闲时,可以从该任务执行终端的任务列表中选择任意一个未完成的训练数据标注任务作为下一个训练数据标注任务;并将所述下一个训练数据标注任务对应的训练数据发送至该任务执行终端进行标注。
进一步地,任务列表还可以包括第一进度信息,所述第一进度信息为该任务执行终端已完成的训练数据标注任务的数量占其需要完成的任务数量的比例。在任务执行终端对训练数据进行标注的过程中,数据标注平台还可以监听各个任务执行终端的第一进度信息,例如,数据标注平台可以定期读取各个任务执行终端的第一进度信息。
在本发明的一个非限制性实施例中,每个任务执行终端具有唯一的类型标签,也即,任务列表中的训练数据标注任务的类型相同。在这种场景下,如果监听到任一任务执行终端的第一进度信息达到第一预设阈值,则数据标注平台将该第一进度信息达到第一预设阈值的任务执行终端记为第一终端,并将该第一终端匹配的训练数据标注任务的类型记为第一类型。需要说明的是,所述第一预设阈值可以是预先确定的,也可以是数据标注平台实时计算确定的,例如,可以根据各个任务执行终端的标注速度信息确定的。
需要明确的是,如上文所述,任务执行终端可以具有至少一个类型标签,当任务执行终端具有多个类型标签且分配到多种类型的训练数据标注任务时,该终端的任务列表中包括多种类型的训练数据标注任务,则该任务列表可以包括多个第一进度信息,第一进度信息与训练数据标注任务的类型一一对应。例如,任务执行终端的任务列表中包括图片类训练数据标注任务和文本类训练数据标注任务,则该任务列表包括图片类型的第一进度信息和文本类型的第一进度信息。
需要明确的是,如果该第一终端的任务列表中包括多个第一进度信息,则所述第一类型为达到第一预设阈值的第一进度信息对应的类型。
进一步地,数据标注平台可以判断是否需要对待完成任务进行重新分配。具体而言,数据标注平台读取第一类型终端中各个任务执行终端的任务列表,以确定第一类型终端未完成的训练数据标注任务,记为待完成任务,其中,第一类型终端是指与第一类型匹配的全部任务执行终端(包括第一终端)。例如,所述第一类型为图片,则读取所有与图片类型匹配的任务执行终端未完成的训练数据标注任务。
进一步地,根据第一类型终端的数量和待完成任务的数量,计算待完成任务数量的均值,所述均值是指待完成任务的数量除以第一类型终端数量的结果。如果该均值与第一终端未完成的第一类型的任务数量满足预设条件,则可以判断为需要对待完成任务进行重新分配。
作为一个非限制性的实施例,所述预设条件可以是第一终端未完成的第一类型的任务数量减去该均值的差值大于预设差值,也可以是第一终端未完成的第一类型的任务数量超过该均值的预设倍数(例如,超过该均值的两倍),但并不限于此。所述预设差值和预设倍数均可以由数据标注平台预先确定,也可以由数据标注平台通过实时计算确定。
进一步地,如果需要对待完成任务进行重新分配,数据标注平台可以将所述待完成任务重新分配给所述第一类型终端。
进一步地,数据标注平台在重新分配待完成任务之前,还可以对第一类型终端进行调整。具体而言,所述任务列表还可以包括第二进度信息,所述第二进度信息可以用于指示任务执行终端完成训练数据标注任务的速度,例如:所述第二进度信息为预设时间内任务执行终端完成的训练数据标注任务的数量。如果第一类型终端中任意一个任务执行终端的第二进度信息小于第二预设阈值,则判断该任务执行终端完成第一类型的训练数据标注任务的速度较慢,并不适合用于标注第一类型的训练数据,由此,可以取消该任务执行终端与第一类型的匹配关系,也即,在第一类型终端中剔除该任务执行终端,从而实现对第一类型终端的调整。所述预设时间可以是数据标注平台预先设定的,例如可以是1小时。所述第二预设阈值可以由数据标注平台预先确定,也可以由数据标注平台实时计算确定。所述第二进度信息可以是定期更新的。
进一步地,如果第一类型终端中任意一个任务执行终端的类型标签不为空白标签,且该任务执行终端的第二进度信息小于第二预设阈值,则数据标注平台可以在终端列表中删除该终端与第一类型相同的类型标签,在后续重新分配的过程中,不会再将待完成任务分配给该任务执行终端。
需要说明的是,如果任务列表中包括多种类型的训练数据标注任务,则该任务列表可以包括多个第二进度信息,第二进度信息与训练数据标注任务的类型一一对应。上文所述的第二进度信息为所述第一类型对应的第二进度信息。
进一步地,如果第一类型终端中任意一个任务执行终端的类型标签为空白标签,且所述该任务执行终端的第二进度信息达到第二预设阈值时,则可以在终端列表中将该终端的类型标签修改为与第一类型相同的类型标签,由此可以确定该任务执行终端擅长标注的训练数据类型,在后续的任务分配中可以避免将类型不匹配的训练数据标注任务分配给该终端。
进一步地,数据标注平台对第一类型终端进行调整后,将所述待完成任务重新分配给调整后的第一类型终端。数据标注平台可以将待完成任务平均分配给第一类型终端,也可以根据所述第一类型终端的第二进度信息划分待完成任务,以得到分配给第一类型终端中各个终端的待完成任务,在预设时间内完成的第一类型的任务数量越多,分配到的待完成任务数量也越多。对于第一类型终端中的每个终端,可以在任务列表中删去未完成的第一类型的训练数据标注任务的任务编号,并写入最新分配到的待完成任务的任务编号,以更新所述第一类型终端需要完成的训练数据标注任务。
参考图3,图3是本发明实施例中一种训练数据标注任务的分配装置的结构示意图。该训练数据标注任务的分配装置可以包括:接收模块31、识别模块32、分配模块33。
其中,接收模块31用于接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;识别模块32用于对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;分配模块33用于将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。
关于所述的训练数据标注任务的分配装置的工作原理、工作方式的更多内容,可以参照上述关于图1和图2的相关描述,在此不做赘述。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述训练数据标注任务的分配方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等。
本发明实施例还提供一种计算设备,所述计算设备包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述训练数据标注任务的方法的步骤。所述计算设备可以是服务器等。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (12)

1.一种训练数据标注任务的分配方法,其特征在于,所述方法包括:
接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;
对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;
将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。
2.根据权利要求1所述的训练数据标注任务的分配方法,其特征在于,将每种类型的训练数据标注任务分配给与其匹配的任务执行终端包括:
对于每种类型的训练数据标注任务,根据与该类型匹配的任务执行终端的数量,将该类型的训练数据标注任务进行划分,以得到各个任务执行终端需要完成的训练数据标注任务;
对于每一任务执行终端,将其需要完成的训练数据标注任务添加至其任务列表中。
3.根据权利要求2所述的训练数据标注任务的分配方法,其特征在于,将每种类型的训练数据标注任务分配给与其匹配的任务执行终端还包括:
监听各个任务执行终端的状态信息,当其状态信息指示其处于空闲状态时,从其任务列表中选择下一个训练数据标注任务;
将所述下一个训练数据标注任务对应的训练数据发送至所述任务执行终端。
4.根据权利要求2所述的训练数据标注任务的分配方法,其特征在于,所述任务列表包括第一进度信息,所述第一进度信息为已完成的训练数据标注任务的数量占需要完成的训练数据标注任务的数量的比例,所述方法还包括:
监听各个任务执行终端的第一进度信息;
当任一任务执行终端的第一进度信息达到第一预设阈值时,判断是否需要对待完成任务进行重新分配,其中,所述待完成任务为第一类型终端未完成的训练数据标注任务,所述第一类型终端为与第一终端匹配的类型相同的全部任务执行终端,所述第一终端为所述第一进度信息达到所述第一预设阈值的任务执行终端;
如果是,则将所述待完成任务重新分配给所述第一类型终端。
5.根据权利要求4所述的训练数据标注任务的分配方法,其特征在于,判断是否需要对所述待完成任务进行重新分配包括:
统计所述待完成任务的数量,并根据所述第一类型终端的数量计算所述待完成任务数量的均值;
将所述第一终端未完成的训练数据标注任务的数量与所述均值进行比较,如果所述第一终端未完成的训练数据标注任务的数量与所述均值满足预设条件,则判断需要对所述待完成任务进行重新分配。
6.根据权利要求4所述的训练数据标注任务的分配方法,其特征在于,所述任务列表还包括第二进度信息,将所述待完成任务重新分配给所述第一类型终端包括:
读取所述第一类型终端的第二进度信息,其中,所述第二进度信息为预设时间内完成的训练数据标注任务的数量;
根据所述第一类型终端的第二进度信息,将所述待完成任务进行划分,以更新所述第一类型终端对应的需要完成的训练数据标注。
7.根据权利要求6所述的训练数据标注任务的分配方法,其特征在于,所述任务执行终端具有类型标签,对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端包括:
对于每种类型的训练数据标注任务,查找具有与该类型相同的类型标签和/或空白标签的任务执行终端,以得到与该类型匹配的任务执行终端。
8.根据权利要求7所述的训练数据标注任务的分配方法,其特征在于,根据所述第一类型终端的第二进度信息,将所述待完成任务进行划分之前,还包括:
如果所述第一类型终端中的至少一个任务执行终端的类型标签为空白标签,且所述至少一个任务执行终端的第二进度信息达到第二预设阈值时,则将所述至少一个任务执行终端的类型标签修改为与第一类型相同的类型标签,其中,所述第一类型为所述第一终端匹配的类型。
9.根据权利要求8所述的训练数据标注任务的分配方法,其特征在于,根据所述第一类型终端的第二进度信息,将所述待完成任务进行划分之前,还包括:
如果所述第一类型终端中的至少一个任务执行终端的类型标签为不空白标签,且所述至少一个任务执行终端的第二进度信息小于所述第二预设阈值,则剔除所述至少一个任务执行终端的类型标签。
10.一种训练数据标注任务的分配装置,其特征在于,所述装置包括:
接收模块,用于接收任务创建信息,所述任务创建信息指示多个训练数据标注任务以及每个训练数据标注任务的类型;
识别模块,用于对于每种类型的训练数据标注任务,识别与该类型匹配的任务执行终端;
分配模块,用于将每种类型的训练数据标注任务分配给与其匹配的任务执行终端。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至9的任一项所述训练数据标注任务的分配方法的步骤。
12.一种计算设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至9任一项所述训练数据标注任务的分配方法的步骤。
CN202011364814.5A 2020-11-27 2020-11-27 训练数据标注任务的分配方法及装置、计算设备 Pending CN112465032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011364814.5A CN112465032A (zh) 2020-11-27 2020-11-27 训练数据标注任务的分配方法及装置、计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011364814.5A CN112465032A (zh) 2020-11-27 2020-11-27 训练数据标注任务的分配方法及装置、计算设备

Publications (1)

Publication Number Publication Date
CN112465032A true CN112465032A (zh) 2021-03-09

Family

ID=74809825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011364814.5A Pending CN112465032A (zh) 2020-11-27 2020-11-27 训练数据标注任务的分配方法及装置、计算设备

Country Status (1)

Country Link
CN (1) CN112465032A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408745A (zh) * 2021-08-20 2021-09-17 北京瑞莱智慧科技有限公司 一种任务的调度方法、装置、设备及存储介质
CN113569546A (zh) * 2021-06-16 2021-10-29 上海淇玥信息技术有限公司 一种意图标注方法、装置和电子设备
CN113822137A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN116702885A (zh) * 2023-08-02 2023-09-05 浪潮电子信息产业股份有限公司 同步数据并行训练控制方法、系统、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569546A (zh) * 2021-06-16 2021-10-29 上海淇玥信息技术有限公司 一种意图标注方法、装置和电子设备
CN113822137A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN113408745A (zh) * 2021-08-20 2021-09-17 北京瑞莱智慧科技有限公司 一种任务的调度方法、装置、设备及存储介质
CN116702885A (zh) * 2023-08-02 2023-09-05 浪潮电子信息产业股份有限公司 同步数据并行训练控制方法、系统、装置、设备及介质
CN116702885B (zh) * 2023-08-02 2023-11-07 浪潮电子信息产业股份有限公司 同步数据并行训练控制方法、系统、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112465032A (zh) 训练数据标注任务的分配方法及装置、计算设备
CN109034188B (zh) 机器学习模型的获取方法、获取装置、设备及存储介质
CN105550345A (zh) 文件操作方法和装置
CN106708443B (zh) 数据读写方法及装置
US20170212930A1 (en) Hybrid architecture for processing graph-based queries
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN107977275B (zh) 基于消息队列的任务处理方法及相关设备
CN113032105A (zh) 一种Kubernetes集群访问控制方法、系统及相关设备
CN112598366B (zh) 一种资产管理审批流程自动化规划方法及装置
EP2662783A1 (en) Data archiving approach leveraging database layer functionality
CN108205559A (zh) 一种数据管理方法及其设备
CN110825953A (zh) 数据查询方法、装置和设备
CN111552575A (zh) 基于消息队列的消息消费方法、装置及设备
CN111400056A (zh) 基于消息队列的消息传输方法、装置及设备
CN112052330B (zh) 一种应用程序关键词的分配方法及装置
CN111309821B (zh) 基于图数据库的任务调度方法、装置及电子设备
CN114385891A (zh) 数据搜索方法、装置、电子设备及存储介质
CN112579539A (zh) 企业集群大数据的管理方法及系统
CN112988383A (zh) 一种资源分配方法、装置、设备以及存储介质
CN115248831B (zh) 一种标注方法、装置、系统、设备及可读存储介质
CN110825959B (zh) 数据发送方法及榜单数据获取模型的选择方法及装置
CN111324792A (zh) 大数据平台
US20230067107A1 (en) Managing vertex level access in a graph via user defined tag rules
CN112035232B (zh) 一种作业运行优先级确定方法及相关设备
CN113326888B (zh) 标注能力信息确定方法、相关装置及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210816

Address after: 200080 7th floor, No.137 Haining Road, Hongkou District, Shanghai

Applicant after: Shanghai Xinyi Intelligent Technology Co.,Ltd.

Address before: 100190 1008, 10th floor, building 51, 63 Zhichun Road, Haidian District, Beijing

Applicant before: Beijing Xinyi Intelligent Information Technology Co.,Ltd.

TA01 Transfer of patent application right