CN112580706A - 应用于数据管理平台的训练数据处理方法、装置和电子设备 - Google Patents
应用于数据管理平台的训练数据处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112580706A CN112580706A CN202011453145.9A CN202011453145A CN112580706A CN 112580706 A CN112580706 A CN 112580706A CN 202011453145 A CN202011453145 A CN 202011453145A CN 112580706 A CN112580706 A CN 112580706A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- labeling
- platform
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 317
- 238000013523 data management Methods 0.000 title claims abstract description 111
- 238000003672 processing method Methods 0.000 title claims abstract description 41
- 238000002372 labelling Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000012216 screening Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 22
- 238000007726 management method Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 11
- 238000013500 data storage Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开了一种应用于数据管理平台的训练数据处理方法、训练数据处理装置和电子设备。该应用于数据管理平台的训练数据处理方法包括:获取用户采集到的原始数据;获取与所述原始数据对应的标注结果;确定训练任务的数据需求;以及,根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的第一训练数据。这样,可以使得原始数据、标注结果和训练数据在单个数据管理平台中使用,避免了训练数据的存储冗余。
Description
技术领域
本申请涉及数据处理领域,且更为具体地,涉及一种应用于数据管理平台的训练数据处理方法、训练数据处理装置和电子设备。
背景技术
在通过训练数据来训练模型的场景下,通常对于每个模型都需要大量训练数据,且需要训练的模型的数据也非常可观,因此,数据采集是非常重要的一部分工作。另外,在监督学习中,训练数据都需要进行标注,因此数据标注也是非常重要的一部分工作。在数据采集和数据标注之后,也需要对采集和标注的数据进行管理。
由于数据采集、数据标注和数据管理相关的业务和训练差异较大,通常在公司内部都会有独立的数据采集平台、数据标注平台和数据管理平台,因此同一份数据可能会同时存储在数据采集平台、数据标注平台和数据管理平台,造成数据存储冗余。并且,研发人员在使用时需要做很多上传和下载的工作,不仅效率低,也不方便做版本管理和数据生命周期管理。
因此,期望提供能够提供改进的训练数据处理方案,以避免训练数据的存储冗余。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种应用于数据管理平台的训练数据处理方法、训练数据处理装置和电子设备,其在数据管理平台获取原始数据及其标注结果,并基于训练任务的数据需求从具有标注结果的原始数据生成用于训练任务的训练数据,以使得原始数据、标注结果和训练数据在单个数据管理平台中使用,避免了训练数据的存储冗余。
根据本申请的一方面,提供了一种应用于数据管理平台的训练数据处理方法,包括:获取用户采集到的原始数据;获取与所述原始数据对应的标注结果;确定训练任务的数据需求;以及,根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的第一训练数据。
根据本申请的另一方面,提供了一种应用于数据管理平台的训练数据处理装置,包括:数据获取单元,用于获取用户采集到的原始数据;标注获取单元,用于获取与所述数据获取单元所获取的所述原始数据对应的标注结果;需求确定单元,用于确定训练任务的数据需求;以及,数据生成单元,用于根据所述需求确定单元所确定的所述数据需求从具有所述标注获取单元所获取的标注结果的所述原始数据生成用于所述训练任务的第一训练数据。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的应用于数据管理平台的训练数据处理方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的应用于数据管理平台的训练数据处理方法。
本申请提供的应用于数据管理平台的训练数据处理方法、训练数据处理装置和电子设备,能够在数据管理平台获取原始数据及其标注结果,并基于训练任务的数据需求从具有标注结果的原始数据生成用于训练任务的训练数据。这样,由于原始数据及其标注结果都在所述数据管理平台获取,且用于训练任务的训练需求也是在所述数据管理平台确定的,因此也可以在所述训练管理平台生成基于所述训练需求的用于训练任务的训练数据而生成,从而使得原始数据、标注结果和训练数据在单个数据管理平台中使用,避免了训练数据的存储冗余。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法的示意性流程图。
图2图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法的系统架构的示意图。
图3图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的原始数据筛选过程的示意性流程图。
图4图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的标注数据筛选过程的示意性流程图。
图5图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的数据存储和标记过程的示意性流程图。
图6图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的训练数据处理过程的示意性流程图。
图7图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置的示意性框图。
图8图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的原始数据筛选部分的示意性框图。
图9图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的标注数据筛选部分的示意性框图。
图10图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的数据存储和标记部分的示意性框图。
图11图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的训练数据处理部分的示意性框图。
图12图示了根据本公开实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,在现有的训练数据的应用场景下,存在彼此独立的数据采集平台、数据标注平台和数据管理平台,因此同一份数据可能会同时存储在数据采集平台、数据标注平台和数据管理平台,造成数据存储冗余。并且,研发人员在使用时需要做很多上传和下载的工作,不仅效率低,也不方便做版本管理和数据生命周期管理。
针对上述技术问题,本申请的基本构思是在同一平台上获取采集的原始数据和对于原始数据的标注结果,并在该平台上确定训练任务的数据需求,以基于该数据需求来生成用于训练任务的训练数据。
具体地,本申请的应用于数据管理平台的训练数据处理方法,装置和电子设备首先获取用户采集到的原始数据,然后获取与所述原始数据对应的标注结果,再确定训练任务的数据需求,最后根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的第一训练数据。
这样,由于原始数据及其标注结果都在所述数据管理平台获取,且用于训练任务的训练需求也是在所述数据管理平台确定的,因此也可以在所述训练管理平台生成基于所述训练需求的用于训练任务的训练数据而生成,从而使得原始数据、标注结果和训练数据在单个数据管理平台中使用,避免了训练数据的存储冗余。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法的示意性流程图。
如图1所示,根据本公开实施例的应用于数据管理平台的训练数据处理方法包括如下步骤。
步骤S110,获取用户采集到的原始数据。这里,用户采集到的原始数据是用于数据训练任务的各种样本数据,包括图像、音频等。相应地,这些原始数据可以是从各种采集设备获取到的。
图2图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法的系统架构的示意图。如图2所示,各种数据采集设备,比如图像采集设备,例如相机C用于获取图像数据。然后,根据本公开实施例的数据管理平台M从多个用户的多个相机C获取所采集到的原始数据,例如,如图2所示的由多个图像组成的图像集IM。这里,根据本公开实施例的数据管理平台M可以是架设在云服务器,包括公有云或者私有云上的软件平台,并通过基于浏览器的网络客户端进行访问。当然,根据本公开实施例的数据管理平台M可以是架设在传统服务器上的软件平台,并通过安装在客户端上的应用程序进行访问。
步骤S120,获取与所述原始数据对应的标注结果。在数据训练任务中,在很多情况下原始数据不能很好地用于训练任务,特别是在监督学习中,训练数据都需要进行标注。因此,在本公开实施例中,在获取所述原始数据之后,需要进一步获取与所述原始数据对应的标注结果。
如图2所示,在所述数据管理平台M从多个用户的多个相机C获取所采集到的原始数据,即图像集IM之后,将所述图像集IM中的至少一部分,例如图像集IN发送给用于数据标注的平台,例如如图2所示的数据标注平台L。然后,由数据标注平台L对图像集IN进行标注,再将标注结果,例如已经标注好的图像集IL发送到所述数据管理平台M。这里,根据本公开实施例的数据标注平台L也可以是架设在云服务器上的软件平台,并通过基于浏览器的网络客户端进行访问。当然,根据本公开实施例的数据标注平台L也可以是架设在传统服务器上的软件平台,并通过安装在客户端上的应用程序进行访问。
步骤S130,确定训练任务的数据需求。也就是,为了在所述数据管理平台生成训练数据,需要在所述数据管理平台确定用于训练任务的训练需求。这里,所述用于训练任务的数据需求可以是根据具体的数据训练任务所确定的。
如图2所示,所述数据管理平台M可以从数据训练平台T获得训练任务的描述,例如,描述文本C,从而确定训练任务的数据需求。例如,所述训练任务是基于图像的训练任务,则可以确定训练任务的数据需求是训练图像集。或者,更具体地,所述训练任务是行人重识别任务,则可以确定训练任务的数据需求是不同角度的摄像头所拍摄的不同行人的图像所组成的训练图像集。这里,根据本公开实施例的数据训练平台T可以是架设在云服务器上的软件平台,并通过基于浏览器的网络客户端进行访问。当然,根据本公开实施例的数据训练平台T也可以是架设在传统服务器上的软件平台,并通过安装在客户端上的应用程序进行访问。
步骤S140,根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的第一训练数据。这样,根据所述数据需求,就可以从具有所述标注结果的所述原始数据生成用于所述训练任务的训练数据,这里称为第一训练数据。
例如,对于如上所述的行人重识别任务,所述数据管理平台M可以在平台管理的数据中选择训练图像集,该训练图像集包括不同角度的摄像头所拍摄的不同行人的图像,且在所述图像中,已经预先标注好每张图像中的行人对象。然后,可以进一步根据用于训练任务的数据需求,例如训练用的图像数目、大小等,生成用于所述训练任务的训练数据。
这样,由于原始数据及其标注结果都在所述数据管理平台获取,且用于训练任务的训练需求也是在所述数据管理平台确定的,因此也可以在所述训练管理平台生成基于所述训练需求的用于训练任务的训练数据而生成,从而使得原始数据、标注结果和训练数据在单个数据管理平台中使用,避免了训练数据的存储冗余。
图3图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的原始数据筛选过程的示意性流程图。
如图3所示,在如图1所示的实施例的基础上,所述方法进一步包括如下步骤。
步骤S151,获取与用于采集所述原始数据的设备有关的采集信息。如上所述,所述用于采集所述原始数据的设备可以是各种图像采集设备、音频采集设备等。以图像采集设备为例,所述与设备有关的采集信息可以包括传感器型号,采集的场景、天气、时间、CAN(Controller Area Network:控制器区域网络)数量、帧率等信息。
步骤S152,基于所述采集信息设置所述原始数据的筛选标签。也就是,通过所述采集信息,可以对所述原始数据进行分类,从而将所述采集信息用作所述原始数据的筛选标签,以对所述原始数据进行筛选。例如,可以将所述设备的帧率设置为所述原始数据的筛选标签,以使得可以通过帧率标签来筛选符合预定帧率要求的原始数据。比如,按照所述设备的帧率为低帧率,30帧/秒,普通帧率,60帧/秒或者高帧率,120帧/秒等,可以对由这些设备采集的原始数据,即视频设置标签,即30帧/秒、60帧/秒、120帧/秒。这样,当用户希望筛选出高帧率的视频时,就可以按照高帧率的标签,筛选出具有120帧/秒的视频。
这样,通过获取所述采集信息并基于其来设置所述原始数据的筛选标签,可以便于对所述原始数据进行筛选,从而改善了用户使用的便利性并提高了数据管理平台的管理性能。
进一步地,可以在获取与所述原始数据对应的标注结果时通过所述筛选标签来对要标注的所述原始数据进行筛选。
图4图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的标注数据筛选过程的示意性流程图。
如图4所示,在如图3所示的实施例的基础上,所述步骤S120包括如下步骤。
步骤S121,使用预设的标注筛选算法基于所述筛选标签筛选所述原始数据以获得待标注数据。例如,如上所述,需要筛选所述原始数据中的包含行人的图像以进行行人的标注,因此,使用预设的标注筛选算法,基于所述筛选标签筛选所述原始数据。并且,具体地,所述数据管理平台可以具有用于数据筛选的应用程序接口(Application ProgramInterface:API),以便用户通过输入筛选条件来进行数据筛选。
另外,在使用预设的标注筛选算法基于所述筛选标签筛选所述原始数据时,所述原始数据可以在数据库中进行结构化的存储,以便于运行所述预设的标注筛选算法。
步骤S122,将所述待标注数据发送到用于数据标注的平台。也就是,将所述待标注数据,比如用于标注的行人图像发送到用于数据标注的平台,例如如图2所示的数据标注平台L。
步骤S123,从所述用于数据标注的平台接收所述待标注数据的标注结果。也就是,从所述用于数据标注的平台,例如如图2所示的数据标注平台L接收所述待标注数据的标注结果,例如,已经由图像框的形式在用于标注的行人图像上标注出行人的图像。并且,值得注意的是,对应于某项原始数据,所述标注结果的数目可以是一个或多个。例如,对于图像采集设备所采集到的图像,标注结果可以包含图像中的行人,同时也可以包含图像中的其它对象,例如车辆,房屋等。
这样,通过如上所述的标注数据筛选过程,可以使用预设的标注筛选算法基于所述筛选标签来筛选用于标注的数据,从而根据具体需求来进行数据标注,这一方面改善了用户使用的便利性,另一方面也提高了数据管理平台的管理性能。
在本公开实施例中,在从所述用于数据标注的平台接收所述待标注数据的标注结果之后,可以进一步确定标注结果是否合格,并且响应于所述标注结果不合格,将所述待标注数据发送到用于数据标注的平台,所述用于数据标注的平台对所述标注数据进行重新标注。
这样,可以避免数据管理平台所管理的训练数据的标注结果不合格而影响训练任务的执行,从而提高了数据管理平台的管理性能。
另外,在本公开实施例中,在从所述用于数据标注的平台接收所述待标注数据的标注结果之后,可以进一步包括确定具有所述标注结果的所述原始数据的数据量是否足够,并且响应于所述原始数据的数据量不足,继续获取用户采集到的原始数据。
这样,可以避免数据管理平台所管理的训练数据的样本数量不够而影响训练任务的执行,从而提高了数据管理平台的管理性能。
图5图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的数据存储和标记过程的示意性流程图。
如图5所示,在如图1所示的实施例的基础上,所述方法在步骤S120之后进一步包括如下步骤。
步骤S161,将所述原始数据和所述原始数据对应的标注结果匹配地存储在数据库中。也就是,数据标注平台产生的标注结果和采集到的原始数据匹配地存储到数据库中,例如,原始数据和标注结果的匹配管理可以为一对多。
步骤S162,对于匹配地存储的原始数据及其标注结果设置至少一个标签信息。也就是,在数据管理平台,可以为匹配地存储的原始数据及其标注结果设置至少一个标签信息,例如对应于不同的标注结果设置不同的标签,比如对于行人设置行人的标签,对于车辆设置车辆的标签等。此外,所述标签信息还可以是标注结果的版本信息,例如,由所述数据标注平台具体标注的批次等。
这样,通过如上所述的数据存储和标记过程,可以在数据管理平台的数据库中对于原始数据及其标注结果进行匹配的管理,并且通过标签信息来促进原始数据及其标注结果的进一步的检索,从而提高了数据管理平台的数据存储能力和数据检索能力,在增强了数据管理平台的性能的同时改善了用户使用的便利性。
这样,如上所述,通过对于匹配地存储的原始数据及其标注结果设置标签信息,在根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的训练数据时,就可以根据所述数据需求,基于所述至少一个标签信息从具有所述标注结果的所述原始数据选择用于所述训练任务的训练数据。
例如,当训练任务的训练需求指示需要具有标准结果的行人图像时,就可以调用数据管理平台提供的数据筛选应用程序接口,筛选出包含行人的、带有标准结果的图像数据,来生成用于所述训练任务的第一训练数据。这样,实质上是通过提高数据管理平台的数据检索能力来提高数据管理平台的数据调度能力。
并且,在本公开实施例中,在生成用于所述训练任务的所述第一训练数据之后,就可以将所述第一训练数据发送到运行所述训练任务的训练平台。例如,所述训练任务的训练平台是如图2所述的数据训练平台T,算法研发工程师通过所述第一训练数据来在所述数据训练平台T进行算法的训练。
这里,在本公开实施例中,所述数据管理平台除了简单地生成第一训练数据之外,还可以进一步基于所述第一训练数据生成更适于数据训练任务的训练数据,例如可以直接用于训练任务的训练数据,或者直接生成训练任务本身。
图6图示了根据本公开实施例的应用于数据管理平台的训练数据处理方法中的训练数据处理过程的示意性流程图。
如图6所示,在如图1所示的实施例的基础上,所述方法进一步包括如下步骤。
步骤S171,获取所述训练任务的训练代码。这里,在本公开实施例中,所述数据管理平台可以从所述数据训练平台获取所述训练任务的训练代码。
另外,在数据管理平台中也可以由用户直接编写训练代码并调试运行。也就是,在本公开实施例中,所述数据管理平台可以与所述数据训练平台的底层打通,在生成第一训练数据之后,如果用户想要对第一训练数据进行预处理和打包,则数据管理平台会根据用户的操作,自动创建一个标准的代码库,比如Gitlab Repository,所述代码库包含工作空间,即workspace,用户写好相关代码后,在工作空间中调试好代码,将代码库推送给数据管理平台,则数据管理平台获取到所述训练代码。
步骤S172,基于所述训练代码获得用于对所述第一训练数据进行预处理的附加信息。也就是,基于所述训练代码,可以获得与所述第一训练数据有关的信息,例如所述训练代码的执行环境等。相应地,可以获得用于对所述第一训练数据进行预处理的附加信息,例如所述第一训练数据的环境依赖。并且,所述预处理的附加信息也可以包括所述第一训练数据的开始脚本,以用于在所述数据训练平台,执行所述训练任务时自动运行用户提交的训练数据的处理逻辑。
步骤S173,基于所述附加信息对所述第一训练数据进行预处理以获得用于所述训练任务的第二训练数据。也就是,通过基于所述附加信息对所述第一训练数据进行预处理,可以在用于所述训练任务的第二训练数据中指定训练数据的具体运行参数,比如环境依赖和开始脚本等,从而使得所述第二训练数据可以直接用于训练任务的训练。
步骤S174,将所述第二训练数据发送到运行所述训练任务的训练平台。这样,所述第二训练数据相比于所述第一训练数据,可以减少所述训练任务的训练平台的处理负担,从而进一步提高数据管理平台的数据处理性能。
此外,在本公开实施例中,将所述第二训练数据发送到运行所述训练任务的训练平台可以包括基于所述第二训练数据和所述训练代码生成所述训练任务,然后将所述训练任务发送到所述训练平台。也就是,可以将训练代码和训练数据打包成训练任务,这样训练平台仅需要直接执行训练任务就可以了,这样可以进一步减少所述训练任务的训练平台的处理负担,从而进一步提高数据管理平台的数据处理性能。
因此,根据本公开实施例的应用于数据管理平台的训练数据处理方法在通过数据统一存储和调度而减少了数据存储冗余的同时。可以使得用于深度学习的数据采集、数据标注、数据训练的流程更加清晰和可追溯。
示例性装置
图7图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置的示意性框图。
如图7所示,根据本公开实施例的应用于数据管理平台的训练数据处理装置200包括:数据获取单元210,用于获取用户采集到的原始数据;标注获取单元220,用于获取与所述数据获取单元210所获取的所述原始数据对应的标注结果;需求确定单元230,用于确定训练任务的数据需求;以及,数据生成单元240,用于根据所述需求确定单元230所确定的所述数据需求从具有所述标注获取单元220所获取的标注结果的所述原始数据生成用于所述训练任务的第一训练数据。
图8图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的原始数据筛选部分的示意性框图。
如图8所示,在如图7所示的实施例的基础上,所述应用于数据管理平台的训练数据处理装置200进一步包括:信息获取单元251,用于获取与用于采集所述数据获取单元210所获取的所述原始数据的设备有关的采集信息;以及,标签设置单元252,用于基于所述信息获取单元251所获取的所述采集信息设置所述原始数据的筛选标签。
图9图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的标注数据筛选部分的示意性框图。
如图9所示,在如图8所示的实施例的基础上,所述标注获取单元220包括:标注数据子单元221,用于使用预设的标注筛选算法基于所述筛选标签筛选所述数据获取单元210所获取的所述原始数据以获得待标注数据;数据发送子单元222,用于将所述标注数据获取子单元221所获得的所述待标注数据发送到用于数据标注的平台;以及,数据接收子单元223,用于从所述用于数据标注的平台接收所述数据发送子单元222所发送的所述待标注数据的标注结果。
在一个示例中,在根据本公开实施例的应用于数据管理平台的训练数据处理装置200中,进一步包括:重标注单元,用于在所述数据接收子单元223从所述用于数据标注的平台接收所述待标注数据的标注结果之后,确定所述标注结果是否合格;以及,响应于所述标注结果不合格,将所述待标注数据发送到用于数据标注的平台,所述用于数据标注的平台对所述标注数据进行重新标注。
在一个示例中,在根据本公开实施例的应用于数据管理平台的训练数据处理装置200中,进一步包括:数据补充单元,用于在所述数据接收子单元223从所述用于数据标注的平台接收所述待标注数据的标注结果之后,确定具有所述标注结果的所述原始数据的数据量是否足够;以及,响应于所述原始数据的数据量不足,继续获取用户采集到的原始数据。
图10图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的数据存储和标记部分的示意性框图。
如图10所示,在如图7所示的实施例的基础上,所述应用于数据管理平台的训练数据处理装置200进一步包括:匹配存储单元261,用于在所述标注获取单元220获取与所述原始数据对应的标注结果之后,将所述数据获取单元210所获取的所述原始数据和所述标注获取单元220所获取的所述原始数据对应的标注结果匹配地存储在数据库中;以及,数据标记单元262,用于对于所述匹配存储单元261匹配地存储的原始数据及其标注结果设置至少一个标签信息。
在一个示例中,在根据本公开实施例的应用于数据管理平台的训练数据处理装置200中,所述数据生成单元240用于:根据所述需求确定单元230所确定的所述数据需求,基于所述数据标记单元262所设置的所述至少一个标签信息从具有所述标注结果的所述原始数据选择用于所述训练任务的第一训练数据。
在一个示例中,在根据本公开实施例的应用于数据管理平台的训练数据处理装置200中,进一步包括:第一数据发送单元,将所述数据生成单元240生成的用于所述训练任务的所述第一训练数据发送到运行所述训练任务的训练平台。
图11图示了根据本公开实施例的应用于数据管理平台的训练数据处理装置中的训练数据处理部分的示意性框图。
如图11所示,在如图7所示的实施例的基础上,所述应用于数据管理平台的训练数据处理装置200进一步包括:代码获取单元271,用于获取所述训练任务的训练代码;附加信息单元272,用于基于所述代码获取单元271所获取的所述训练代码获得用于对所述第一训练数据进行预处理的附加信息;以及,数据预处理单元273,用于基于所述附加信息单元272所获得的所述附加信息对所述第一训练数据进行预处理以获得用于所述训练任务的第二训练数据;以及,第二数据发送单元274,用于将所述数据预处理单元273所获得的所述第二训练数据发送到运行所述训练任务的训练平台。
在一个示例中,在根据本公开实施例的应用于数据管理平台的训练数据处理装置200中,用于所述训练任务的附加训练信息包括所述训练数据的环境依赖和开始脚本。
在根据本公开实施例的应用于数据管理平台的训练数据处理装置200中,所述第二数据发送单元274包括:任务生成子单元,用于基于所述数据预处理单元273所获得的所述第二训练数据和所述代码获取单元271所获取的所述训练代码生成所述训练任务;以及,任务发送子单元,用于将所述任务生成子单元生成的所述训练任务发送到所述训练平台。
这里,本领域技术人员可以理解,上述应用于数据管理平台的训练数据处理装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的应用于数据管理平台的训练数据处理方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本公开实施例的应用于数据管理平台的训练数据处理装置200可以实现在各种终端设备中,例如运行数据管理平台的服务器等。在一个示例中,根据本公开实施例的应用于数据管理平台的训练数据处理装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该应用于数据管理平台的训练数据处理装置200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该应用于数据管理平台的训练数据处理装置200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该应用于数据管理平台的训练数据处理装置200与该终端设备也可以是分立的设备,并且该应用于数据管理平台的训练数据处理装置200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图12来描述根据本公开实施例的电子设备。
图12图示了根据本公开实施例的电子设备的框图。
如图12所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的应用于数据管理平台的训练数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如原始数据,标注结果,训练数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括训练数据、训练任务等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的应用于数据管理平台的训练数据处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的应用于数据管理平台的训练数据处理方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (13)
1.一种应用于数据管理平台的训练数据处理方法,包括:
获取用户采集到的原始数据;
获取与所述原始数据对应的标注结果;
确定训练任务的数据需求;以及
根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的第一训练数据。
2.如权利要求1所述的训练数据处理方法,其中,所述方法进一步包括:
获取与用于采集所述原始数据的设备有关的采集信息;以及
基于所述采集信息设置所述原始数据的筛选标签。
3.如权利要求2所述的训练数据处理方法,其中,获取与所述原始数据对应的标注结果包括:
使用预设的标注筛选算法基于所述筛选标签筛选所述原始数据以获得待标注数据;
将所述待标注数据发送到用于数据标注的平台;以及
从所述用于数据标注的平台接收所述待标注数据的标注结果。
4.如权利要求1所述的训练数据处理方法,其中,在从所述用于数据标注的平台接收所述待标注数据的标注结果之后进一步包括:
确定所述标注结果是否合格;以及
响应于所述标注结果不合格,将所述待标注数据发送到用于数据标注的平台,所述用于数据标注的平台对所述标注数据进行重新标注。
5.如权利要求1所述的训练数据处理方法,其中,在从所述用于数据标注的平台接收所述待标注数据的标注结果之后进一步包括:
确定具有所述标注结果的所述原始数据的数据量是否足够;以及
响应于所述原始数据的数据量不足,继续获取用户采集到的原始数据。
6.如权利要求1所述的训练数据处理方法,其中,在获取与所述原始数据对应的标注结果之后进一步包括:
将所述原始数据和所述原始数据对应的标注结果匹配地存储在数据库中;以及
对于匹配地存储的原始数据及其标注结果设置至少一个标签信息。
7.如权利要求6所述的训练数据处理方法,其中,根据所述数据需求从具有所述标注结果的所述原始数据生成用于所述训练任务的训练数据包括:
根据所述数据需求,基于所述至少一个标签信息从具有所述标注结果的所述原始数据选择用于所述训练任务的第一训练数据。
8.如权利要求1所述的训练数据处理方法,进一步包括:
将用于所述训练任务的所述第一训练数据发送到运行所述训练任务的训练平台。
9.如权利要求1所述的训练数据处理方法,进一步包括:
获取所述训练任务的训练代码;
基于所述训练代码获得用于对所述第一训练数据进行预处理的附加信息;以及
基于所述附加信息对所述第一训练数据进行预处理以获得用于所述训练任务的第二训练数据;以及
将所述第二训练数据发送到运行所述训练任务的训练平台。
10.如权利要求9所述的训练数据处理方法,其中,用于所述训练任务的附加训练信息包括所述训练数据的环境依赖和开始脚本。
11.如权利要求9所述的训练数据处理方法,其中,将所述第二训练数据发送到运行所述训练任务的训练平台包括:
基于所述第二训练数据和所述训练代码生成所述训练任务;以及
将所述训练任务发送到所述训练平台。
12.一种应用于数据管理平台的训练数据处理装置,包括:
数据获取单元,用于获取用户采集到的原始数据;
标注获取单元,用于获取与所述数据获取单元所获取的所述原始数据对应的标注结果;
需求确定单元,用于确定训练任务的数据需求;以及
数据生成单元,用于根据所述需求确定单元所确定的所述数据需求从具有所述标注获取单元所获取的标注结果的所述原始数据生成用于所述训练任务的第一训练数据。
13.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-11中任一项所述的应用于数据管理平台的训练数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453145.9A CN112580706B (zh) | 2020-12-11 | 2020-12-11 | 应用于数据管理平台的训练数据处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453145.9A CN112580706B (zh) | 2020-12-11 | 2020-12-11 | 应用于数据管理平台的训练数据处理方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580706A true CN112580706A (zh) | 2021-03-30 |
CN112580706B CN112580706B (zh) | 2024-05-17 |
Family
ID=75131296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453145.9A Active CN112580706B (zh) | 2020-12-11 | 2020-12-11 | 应用于数据管理平台的训练数据处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580706B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023184745A1 (zh) * | 2022-03-31 | 2023-10-05 | 上海商汤智能科技有限公司 | 数据标注方法及装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492772A (zh) * | 2018-11-28 | 2019-03-19 | 北京百度网讯科技有限公司 | 生成信息的方法和装置 |
CN111104514A (zh) * | 2019-12-23 | 2020-05-05 | 北京百度网讯科技有限公司 | 文档标签模型的训练方法及装置 |
CN111209931A (zh) * | 2019-12-23 | 2020-05-29 | 深圳智链物联科技有限公司 | 数据处理方法、平台、终端设备及存储介质 |
CN111310934A (zh) * | 2020-02-14 | 2020-06-19 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
-
2020
- 2020-12-11 CN CN202011453145.9A patent/CN112580706B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492772A (zh) * | 2018-11-28 | 2019-03-19 | 北京百度网讯科技有限公司 | 生成信息的方法和装置 |
CN111104514A (zh) * | 2019-12-23 | 2020-05-05 | 北京百度网讯科技有限公司 | 文档标签模型的训练方法及装置 |
CN111209931A (zh) * | 2019-12-23 | 2020-05-29 | 深圳智链物联科技有限公司 | 数据处理方法、平台、终端设备及存储介质 |
CN111310934A (zh) * | 2020-02-14 | 2020-06-19 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023184745A1 (zh) * | 2022-03-31 | 2023-10-05 | 上海商汤智能科技有限公司 | 数据标注方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112580706B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101986292B (zh) | 根据图像处理表单的方法和系统 | |
US8270303B2 (en) | Using metadata tags in video recordings produced by portable encoded information reading terminals | |
US9865262B2 (en) | Multi-mode text input | |
US8953890B2 (en) | Usage of visual reader as an input provider in portals | |
CN113159091B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113095434A (zh) | 目标检测方法及装置、电子设备、存储介质 | |
CN112732949B (zh) | 一种业务数据的标注方法、装置、计算机设备和存储介质 | |
CN111126487A (zh) | 设备性能测试方法、装置及电子设备 | |
CN111124863B (zh) | 智能设备性能测试方法、装置及智能设备 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
US20190227634A1 (en) | Contextual gesture-based image searching | |
CN112580706B (zh) | 应用于数据管理平台的训练数据处理方法、装置和电子设备 | |
KR102316846B1 (ko) | 미디어 컨텐츠를 선별하는 방법 및 이를 구현하는 전자장치 | |
US10932009B2 (en) | Technologies for analyzing and searching for features in image data | |
CN108257081B (zh) | 用于生成图片的方法和装置 | |
CN110442806B (zh) | 用于识别图像的方法和装置 | |
CN109086380B (zh) | 对历史数据进行压缩存储的方法及系统 | |
CN110716804A (zh) | 无用资源的自动删除方法、装置、存储介质及电子设备 | |
WO2023273621A1 (zh) | 脚本生成方法、装置、设备及介质 | |
CN113485686B (zh) | 信息系统程序的生成方法、装置、电子设备及存储介质 | |
CN113722475A (zh) | 基于云存储的文件操作方法、系统和电子设备 | |
CN113050987A (zh) | 一种接口文档的生成方法、装置、存储介质及电子设备 | |
CN106845202B (zh) | 用于人脸识别系统的文件存取方法、装置和系统 | |
CN114781557B (zh) | 图像信息获取方法及装置、计算机可读存储介质 | |
CN112839181B (zh) | 一种用于生成高动态范围图像的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |