CN115204256A - 数据标注系统、方法和数据标注管理器 - Google Patents

数据标注系统、方法和数据标注管理器 Download PDF

Info

Publication number
CN115204256A
CN115204256A CN202210625083.8A CN202210625083A CN115204256A CN 115204256 A CN115204256 A CN 115204256A CN 202210625083 A CN202210625083 A CN 202210625083A CN 115204256 A CN115204256 A CN 115204256A
Authority
CN
China
Prior art keywords
model
data
annotation
labeling
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210625083.8A
Other languages
English (en)
Inventor
刘新春
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210625083.8A priority Critical patent/CN115204256A/zh
Publication of CN115204256A publication Critical patent/CN115204256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种数据标注系统、方法和数据标注管理器,属于机器学习技术领域。该系统包括数据标注管理器、标注模型存储仓库和基础计算单元存储仓库。数据标注管理器接收数据标注请求,在基础计算单元存储仓库中获取目标基础计算单元,并对其分配硬件资源,建立目标计算单元,获取第一标注模型的基础参数数据的第一存储路径信息并发送至目标计算单元。目标计算单元通过第一存储路径信息,在标注模型存储仓库中获取待使用标注模型的基础参数数据,将目标模型推理框架和第一标注模型的基础参数数据组合成第一标注模型,使用第一标注模型,对待标注数据进行标注。采用本申请,可以使可选择的标注模型更加丰富,更好的为用户提供数据标注服务。

Description

数据标注系统、方法和数据标注管理器
本申请是分案申请,原申请的申请号是202080005146.9,原申请日是2020年04月30日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及机器学习技术领域,特别涉及一种数据标注系统、方法和数据标注管理器。
背景技术
一个能投入应用的机器学习模型,需要经过模型建立和模型训练的过程。在模型训练时,通常需要采集大量样本数据,并对样本数据进行标注,将每个样本数据和对应的标注结果作为一组训练样本,对建立的模型进行训练。可见,样本标注在模型训练中是必不可少一步。
目前,有标注需求的用户可以通过向数据标注系统上传需要标注的数据,然后,数据标注系统可以使用已经集成好的标注模型,对用户上传的数据进行标注。对于数据标注系统中的标注模型,通常由技术人员采用硬编码的方式,将训练后的标注模型集成到数据标注系统中。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:
当前标注模型只能由技术人员通过硬编码的方式集成到数据标注系统中,而无法使用用户自己的标注模型进行标注。如果用户需要使用自己的标注模型对样本数据进行标注,那么,在目前的数据标注系统中无法实现。可见,当前的数据标注系统的灵活性较差,只能使用技术人员集成的标注模型。
发明内容
为了解决相关技术中数据标注系统灵活性差,只能使用技术人员集成的标注模型的问题,本申请实施例提供了一种数据标注系统、方法和数据标注管理器。所述技术方案如下:
第一方面,提供了一种数据标注系统,所述数据标注系统包括数据标注管理器、标注模型存储仓库和基础计算单元存储仓库,其中:
所述数据标注管理器,用于接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有所述第一标注模型的模型标识和硬件资源分配信息;在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元;在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第一标注模型的模型标识对应的基础参数数据的第一存储路径信息,向所述目标计算单元发送所述第一存储路径信息;
所述目标计算单元,用于通过所述第一存储路径信息,在所述标注模型存储仓库中获取所述待使用标注模型的基础参数数据,其中,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值;将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型;获取待标注数据;将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注。
在本申请实施例所示的方案中,数据标注系统可以在单体服务器中实现,例如,数据标注管理器是该单体服务器中的一个功能模块,而标注模型存储仓库和基础计算单元存储仓库是该单体服务器中的存储区。当然,该数据标注系统也可以是一个服务器集群,其中,数据标注管理器、标注模型存储仓库和基础计算单元存储仓库可以分别部署在服务器集群中的不同服务器中。
上述基础计算单元可以为一个包括有模型推理框架、硬件驱动调用工具、支持语言运行的环境文件的一个程序,其中,模型推理框架可以为快速特征嵌入的卷积结构(convolutional architecture for fast feature embedding,Caffee)、Tensorflow、PyTorch等。这些模型推理框架可以由技术人员存储在数据标注系统的基础计算单元存储仓库中。用户还可以自己选择标注时使用的硬件资源,例如,用户可以指定中央处理器(central processing unit,CPU)数量、图形处理器(graphics processing unit)GPU数量等。即用户可以根据实际需求指定硬件资源,而不是数据标注系统已经分配好了硬件资源,可以更好的满足用户需求。
在用户有标注需求时,数据标注系统中的数据标注管理器可以选取包括有目标模型推理框架的基础计算单元,并对该基础计算单元分配硬件资源,以构建目标计算单元。
之后,目标计算单元可以获取第一标注模型的基础参数数据,与目标模型推理框架组合成第一标注模型。然后,便可以使用第一标注模型,对待标注数据进行标注。可见,在本申请实施例所示的方案中,无需将标注模型以硬编码的方式集成到数据标注系统中,使得数据标注系统更加灵活,可使用的标注模型更加丰富。
在一种可能的实现方式中,所述数据标注管理器,还用于:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;
将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储路径信息对应存储。
在本申请实施例所示的方案中,用户自己向该数据标注系统上传第一标注模型的基础参数数据。该数据标注系统中的数据标注管理器可以接收用户上传的第一标注模型的基础参数数据,并存储在数据标注系统的标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储路径信息对应存储。
后续在对待标注数据进行标注时,用户可以选择自己上传的第一标注模型的基础参数数据与数据标注系统提供的目标模型推理框架进行组合,生成第一标注模型。
在一种可能的实现方式中,所述数据标注请求中还携带有所述待标注数据的数据标识,所述数据标注管理器,还用于:
在存储的数据标识和数据的存储路径信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储路径信息;
向所述目标计算单元发送所述第二存储路径信息;
所述目标计算单元,用于:
通过所述第二存储路径信息,获取所述待标注数据。
在一种可能的实现方式中,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述数据标注管理器,用于:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
在本申请实施例所示的方案中,对于用户自己上传标注模型的基础参数数据的情况,用户还可以选择需要使用的模型推理框架。该数据标注系统中的数据标注管理器在接收到数据标注请求后,根据其中携带的目标模型推理框架的框架标识,选取包括有该目标模型推理框架的目标基础计算单元。
在一种可能的实现方式中,所述数据标注管理器,还用于:
在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储路径信息;向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储路径信息;
所述目标计算单元,用于停止对未进行标注的待标注数据进行标注;通过所述第三存储路径信息,在所述标注模型存储仓库中获取所述第二标注模型的基础参数数据;将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同;将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注。
在本申请实施例所示的方案中,在对待标注数据进行标注的过程中,用户可以选择更换标注模型,对未进行标注的待标注数据进行标注。例如,用户可以在使用第一标注模型对待标注数据进行标注十分钟后,需要使用第二标注模型对还未标注的待标注数据进行标注,此时,用户可以向数据标注系统发送标注模型更换请求。数据标注系统中的数据标注管理器可以根据用户的标注模型更换请求,指示目标计算单元将目标模型推理框架中的第一标注模型的基础参数数据替换为第二标注模型的基础参数数据,并组成第二标注模型,进而使用第二标注模型,对还未标注的待标注数据继续进行标注。在此过程中,用户只需选择更换的标注模型即可,无需重新上传待标注数据,使得标注效率更高。
第二方面,提供了一种数据标注的方法,所述方法包括:
接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有所述第一标注模型的模型标识和硬件资源分配信息;
在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;
基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元;
在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第一标注模型的模型标识对应的基础参数数据的第一存储路径信息,向所述目标计算单元发送所述第一存储路径信息,以使所述目标计算单元,通过所述第一存储路径信息,在所述标注模型存储仓库中获取所述待使用标注模型的基础参数数据,将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型,获取待标注数据,将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注,其中,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值。
在一种可能的实现方式中,所述方法还包括:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;
将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储路径信息对应存储。
在一种可能的实现方式中,所述数据标注请求中还携带有所述待标注数据的数据标识,所述方法还包括:
在存储的数据标识和数据的存储路径信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储路径信息;
向所述目标计算单元发送所述第二存储路径信息,以使所述目标计算单元通过所述第二存储路径信息,获取所述待标注数据。
在一种可能的实现方式中,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述在所述基础计算单元存储仓库中获取目标基础计算单元,包括:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
在一种可能的实现方式中,所述方法还包括:
在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;
在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储路径信息;
向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储路径信息,以使所述目标计算单元停止对未进行标注的待标注数据进行标注,通过所述第三存储路径信息,在所述标注模型存储仓库中获取所述第二标注模型的基础参数数据,将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同。
第三方面,提供了一种数据标注的装置,所述装置包括:
接收模块,用于接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有所述第一标注模型的模型标识和硬件资源分配信息;
获取模块,用于在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;
分配模块,用于基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元;
发送模块,用于在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第一标注模型的模型标识对应的基础参数数据的第一存储路径信息,向所述目标计算单元发送所述第一存储路径信息,以使所述目标计算单元,通过所述第一存储路径信息,在所述标注模型存储仓库中获取所述待使用标注模型的基础参数数据,将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型,获取待标注数据,将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注,其中,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值。
在一种可能的实现方式中,所述接收模块,还用于:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储路径信息对应存储。
在一种可能的实现方式中,所述数据标注请求中还携带有所述待标注数据的数据标识,所述获取模块,还用于:
在存储的数据标识和数据的存储路径信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储路径信息;
向所述目标计算单元发送所述第二存储路径信息,以使所述目标计算单元通过所述第二存储路径信息,获取所述待标注数据。
在一种可能的实现方式中,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述获取模块,用于:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
在一种可能的实现方式中,所述装置还包括:
更换模块,用于在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;
在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储路径信息;
向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储路径信息,以使所述目标计算单元停止对未进行标注的待标注数据进行标注,通过所述第三存储路径信息,在所述标注模型存储仓库中获取所述第二标注模型的基础参数数据,将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同。
第四方面,提供了一种数据标注管理器,所述数据标注管理器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述第一方面所述的数据标注的方法所执行的操作。
第五方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述第一方面所述的数据标注的方法所执行的操作。
在本申请实施例所示的方案中,在用户有标注需求时,可以向数据标注系统发送数据标注请求,数据标注系统中的数据标注管理器可以接收该数据标注请求。并在标注模型存储仓库中,获取第一标注模型的基础参数数据,在基础计算单元仓库中,获取包括有目标模型推理框架的目标基础计算单元。同时对该目标基础计算单元分配硬件资源,以构建一个目标计算单元。该目标计算单元可以将目标模型推理框架和第一标注模型的基础参数数据,组合成第一标注模型。之后,该目标计算单元即可使用该第一标注模型对待标注数据进行标注。这样,不用将标注模型以硬编码的方式集成在数据标注系统中,上述标注模型的基础参数数据的来源可以多种多样,不局限于技术人员编码集成,使得标注模型可以更加灵活,可选的标注模型更加丰富,可以更好的为用户提供数据标注服务。此外,硬件资源也由用户指定,可以更好的满足用户的标注需求。
附图说明
图1是本申请实施例提供的一种实施环境示意图;
图2是本申请实施例提供的一种数据标注管理器的结构示意图;
图3是本申请实施例提供的一种数据标注的方法流程图;
图4是本申请实施例提供的一种标注模型存储仓库的示意图;
图5是本申请实施例提供的一种数据标注系统的示意图;
图6是本申请实施例提供的一种数据标注管理器和目标计算单元的交互流程图;
图7是本申请实施例提供的一种数据标注的装置结构示意图。
具体实施方式
本申请实施例提供了一种数据标注的方法,该方法可以由数据标注系统中的数据标注管理器实现。该数据标注系统可以是单体服务器或者服务器集群。如图1所示,为本申请实施例提供的一种实施环境示意图,在该实施环境中,可以包括有客户端和数据标注系统。用户可以通过客户端选择待使用的标注模型,并向数据标注系统上传待标注数据,发送数据标注请求。数据标注系统可以组合出用户所选择的标注模型。并使用组合出的标注模型对用户上传的待标注数据进行标注。此外,用户还可以通过客户端向数据标注系统上传标注模型的基础参数数据,以便后续数据标注系统使用该用户上传的基础参数数据和模型推理框架组合出标注模型,对该用户上传的待标注数据进行标注。
上述数据标注管理器的结构示意图可以如图2所示。参见图2,该数据标注管理器可以包括处理器210、接收器220和发射器230,接收器220和发射器230可以与处理器210连接。接收器220和发射器230可以是网卡,接收器220可以用于接收客户端发送的数据标注请求等,发射器230可以向客户端发送标注结果数据。处理器210可以是数据标注管理器的控制中心,利用各种接口和线路连接整个数据标注管理器的各个部分,如接收器220和发射器230。在本申请中,处理器210可以是CPU(Central Processing Unit,中央处理器),可选的,处理器210可以包括一个或多个处理单元。处理器210还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。数据标注管理器还可以包括存储器230,存储器230可用于存储软件程序以及模块,处理器210通过读取存储在存储器的软件代码以及模块,从而执行对待标注数据的标注处理。
参见图3是本申请实施例提供的一种数据标注的方法流程图,该方法的流程可以包括如下步骤:
步骤301、接收客户端发送的数据标注请求。
在实施中,用户可以在客户端登录预先在数据标注系统注册的目标账户。在客户端登录成功登录用户的目标账户后,用户可以通过该客户端,上传需要进行标注的待标注数据。例如,待标注数据可以为图片。在将待标注数据上传到标注平台之前,用户可以按照标注平台的数据规范,对待标注数据进行打包,命名,再上传到自动标注数据。数据标注系统中的数据标注管理器在接收到客户端上传的待标注数据后,可以对待标注数据进行存储,并存储该待标注数据的数据标识和存储路径信息的对应关系。
在客户端将待标注数据上传到数据标注系统后,数据标注系统可以向客户端发送待标注数据列表。在该待标注数据列表中,可以包括有用户刚刚上传到数据标注系统的待标注数据的数据标识,还可以包括有用户之前上传到数据标注系统的待标注数据的数据标识。此处,数据标识即可以为用户在上传待标注数据之前对待标识数据的命名。用户可以在待标注数据列表中选择需求进行标注的待标注数据的数据标识。
此外,在客户端中还可以显示有标注模型上传选项,用户可以选择该标注模型上传选项,通过该客户端向数据标注系统上传标注模型的基础参数数据。其中,其中,标注模型的基础参数数据包括标注模型中的可训练参数(权重)训练后的值。用户上传的基础参数数据,可以为用户按照数据标注系统的模型规范,将标注模型的基础参数数据打包,命名后,上传到数据标注系统的。客户端在上传标注模型的基础参数数据时,可以将目标账户的账户标识、标注模型的模型标识以及标注模型的基础参数数据一起上传到数据标注系统。数据标注系统则可以对客户端上传的标注模型的基础参数数据在标注模型存储仓库中进行存储,并将该客户端上传的标注模型的基础参数数据对应的模型标识、目标账户的账户标识以及该基础参数数据的存储路径信息对应存储。
在客户端中还可以显示有标注模型选择选项,用户选择该标注模型选择选项后,以触发客户端向数据标注系统发送标注模型列表的获取请求。在该标注模型列表的获取请求中可以携带有客户端当前登录的目标账户的账户标识。数据标注系统在接收到该标注模型列表的获取请求后,可以获取公用的标注模型的模型标识和目标账户的账户标识对应的模型标识,作为该目标账户对应的标注模型列表,返回给客户端。用户可以在该标注模型列表中选择待使用的第一标注模型的模型标识。
在用户选择完待标注数据和第一标注模型后,可以在客户端中选择标注开始选项,以触发客户端向数据标注系统发送数据标注请求,在该数据标注请求中可以携带有待标注数据的数据标识和第一标注模型的模型标识。数据标注系统中的数据管理器可以接收该数据标注请求。
步骤302、在基础计算单元存储仓库中获取目标基础计算单元。
其中,模型推理框架可以有多种,如快速特征嵌入的卷积结构(convolutionalarchitecture for fast feature embedding,Caffee)、Tensorflow、PyTorch等
在实施中,在数据标注系统中标注模型的基础参数数据和对应的模型推理框架可以分别存储。其中,标注模型的基础参数数据可以存储在标注模型存储仓库中,而标注模型的模型推理框架可以被打包在基础计算单元中,并存储在基础计算单元存储仓库中。每个基础计算单元中可以包括有至少一个模型推理框架,还可以包括有调用硬件驱动的ToolKit、支持语言运行的Runtime、以及数据标注管理器交互模块等。
对于包括有第一标注模型对应的目标模型推理框架的目标基础计算单元的获取,可以有多种方式,下面列举其中几种进行说明。
方式一、在数据标注系统中可以存储有用户可用的所有标注模型的模型标识和基础计算单元的标识的对应关系。
对于公用的标注模型,可以由技术人员在数据标注系统中配置公用的标注模型的模型标识和基础计算单元的标识的对应关系,其中,标注模型的模型标识所对应的基础计算单元中应包括有该标注模型对应的模型推理框架。对于用户自己上传的基础参数数据对应的标注模型,用户在上传标注模型的基础参数数据时,可以同时指定该标注模型对应的模型推理框架,则客户端可以将用户上传的基础参数数据对应的标注模型的模型标识和用户指定的模型推理框架的框架标识,发送至数据标注系统,由数据标注系统将用户上传的基础参数数据对应的标注模型的模型标识和包括有该用户指定的模型推理框架的基础计算单元的标识对应存储。
数据标注管理器在接收到数据标注请求后,可以根据其中携带的模型标识,确定出对应的基础计算单元的标识,如果此处确定出多个基础计算单元的标识,则可以在其中随机选择一个目标基础计算单元的标识。
然后,数据标注管理器可以在基础计算单元存储仓库中,获取该目标基础计算单元。
方式二、在数据标注系统中可以存储有公用的标注模型的模型标识和基础计算单元的标识的对应关系。
在用户通过客户端选择第一标注模型后,如果用户选择的第一标注模型是公用的标注模型,则可以选择标注开始选项,以触发客户端向数据标注系统发送数据标注请求,在该数据标注请求中可以携带有待标注数据的数据标识和第一标注模型的模型标识。数据标注系统中的数据标注管理器可以根据数据标注请求中的第一标注模型的模型标识,在公用的标注模型的模型标识和基础计算单元的标识的对应关系中,获取目标基础计算单元的标识。进而,可以在基础计算单元存储仓库中获取目标基础计算单元。
如果用户选择的第一标注模型是用户自己上传的基础参数数据对应的标注模型,那么,客户端可以跳转到模型推理框架选择界面。在该机器学习选择界面中显示有模型推理框架列表,在该模型推理框架列表中可以包括有各种模型推理框架的框架标识。用户可以根据实际需求,选择一个目标模型推理框架的框架标识。在用户选择完目标模型推理框架后,可以在客户端中选择标注开始选项,以触发客户端向数据标注系统发送数据标注请求,在该数据标注请求中可以携带有待标注数据的数据标识、目标模型推理框架的框架标识、以及第一标注模型的模型标识。在此情况下,数据标注系统中可以存储有模型推理框架的框架标识和基础计算单元的标识的对应关系。则数据标注管理器可以根据数据标注请求中的框架标识,获取对应的目标模型推理框架的标识。进而,可以在基础计算单元存储仓库中获取目标基础计算单元。
步骤303、基于硬件资源分配信息,对目标基础计算单元分配硬件资源,建立目标计算单元。
在实施中,在客户端中还可以显示有硬件资源分配选项,用户在选择标注开始选项之前,还可以先选择硬件资源分配选项进入硬件资源分配界面。在硬件资源分配界面中,用户可以根据实际需求输入所需的硬件资源分配信息。硬件资源分配信息可以包括CPU数量、图像处理器(Graphics Processing Unit,GPU)数量等。相应的,在客户端发送的数据标注请求中还可以携带有该硬件资源分配信息。数据标注管理器在接收到数据标注请求后,可以根据其中携带的该硬件资源分配信息,为目标基础计算单元分配硬件资源,从而构建一个目标计算单元。
步骤304、在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取第一标注模型的模型标识对应的基础参数数据的第一存储路径信息,向目标计算单元发送第一存储路径信息。以使目标计算单元,通过第一存储路径信息,在标注模型存储仓库中获取待使用标注模型的基础参数数据,将目标模型推理框架和所述第一标注模型的基础参数数据组合,得到第一标注模型,获取待标注数据,将待标注数据输入第一标注模型,对待标注数据进行标注。
在实施中,数据标注管理器可以获取数据标注请求中携带的第一标注模型的模型标识,并在存储的模型标识和基础参数数据的存储路径信息的对应关系中,得到第一标注模型的基础参数数据的第一存储路径信息。然后,数据标注管理器可以将第一标注模型的基础参数数据的第一存储路径信息发送至目标计算单元。
目标计算单元在接收到该第一存储路径信息后,可以根据该第一存储路径信息,在标注模型存储仓库中,获取第一标注模型的基础参数数据。
在标注模型存储仓库中,每个标注模型的基础参数数据可以和对应的标注推理脚本、标注推理脚本的依赖文件,打包在一起进行存储。此处,可以将基础参数数据、对应的标注推理脚本、标注推理脚本的依赖文件的组合称为模型基础文件。
相应的,目标计算单元在获取第一标注模型的基础参数数据时,可以获取包括有该第一标注模型的基础参数数据的目标模型基础文件。对于标注模型存储仓库中的公用的标注模型的模型基础文件,可以由技术人员编写打包,而对于用户通过客户端上传的标注模型的模型基础文件,需要用户按照数据标注系统的模型规范,进行编写打包。
在模型基础文件中的标注推理脚本需要提供如下几个接口:标注模型加载接口、待标注数据预处理接口、数据标注接口以及标注结果数据处理接口。其中,标注模型加载接口用于将标注模型加载到内存中,待标注数据预处理接口用于将待标注数据进行预处理,如格式转换,使待标注数据可以适配标注模型,数据标注接口用于指示对待标注数据如何标注,如,并行标注、串行标注等,标注结果数据处理接口用于对标注模型输出的标注结果数据进行格式转换以满足用户对标注结果数据的格式要求。
如图4所示,在标注模型存储仓库中可以对公用的标注模型的模型基础文件以及各用户自己上传的标注模型的模型基础文件分别存储,其中,公用的标注模型的模型基础文件中可以包括有标注模型1、标注模型2、标注模型3和标注模型4的基础模型文件,用户1上传的标注模型的基础模型文件包括有标注模型5和标注模型6的基础模型文件,用户2上传的标注模型的基础模型文件包括有标注模型7和标注模型8的基础模型文件。
目标计算单元在获取到第一标注模型的基础参数数据后,可以将该基础参数数据添加目标模型推理框架中,得到第一标注模型。
数据标注管理器可以获取数据标注请求中携带的待标注数据的数据标识,并根据存储的数据标识和数据的存储路径信息的对应关系,得到该待标注数据的第二存储路径信息。
数据标注管理器可以将待标注数据的第二存储路径信息发送至目标计算单元。目标计算单元可以根据该待标注数据的第二存储路径信息,获取待标注数据。
然后,目标计算单元可以执行目标模型基础文件的标注推理脚本,调用该标注推理脚本中的标注模型加载接口,将第一标注模型加载到内存。在将待标注数据输入到第一标注模型之前,还可以调用该标注推理脚本中的待标注数据预处理接口,对待标注数据进行预处理。此处,预处理可以为格式转换处理,即,将待标注数据转换为第一标注模型可标注格式。然后,可以调用标注推理脚本中的数据标注接口,将预处理后的待标注数据输入到第一标注模型中。再然后,在第一标注模型输出每个待标注数据对应的标注结果数据后,可以调用该标注推理脚本中的标注结果数据处理接口,对该标注结果数据进行标注后处理。此处,标注后处理可以为格式转换处理,例如,将输出的JavaScript对象简谱(JavaScriptObject Notation,Json)格式的标注结果数据转换为可扩展标记语言(Extensible MarkupLanguage,XML)格式。
在标注完成后,目标计算单元可以将标注结果数据发送至数据标注管理器,再由数据标注管理器返回客户端。
在一种可能的实现方式中,在使用第一标注模型对待标注数据进行标注的过程中,可以更换标注模型,使用更换后的标注模型对未标注的待标注数据进行标注,相应的,处理可以如下:
客户端中可以显示有标注模型更换选项,用户可以选择该标注模型更换选项进入标注模型选择界面,在该标注模型选择界面中可以显示有可更换标注模型列表,在该可更换标注模型列表中,可以包括有与第一标注模型对应相同的模型推理框架的标注模型的模型标识。用户可以在该可更换标注模型列表中,选择待使用的第二标注模型的模型标识。然后,客户端可以向数据标注系统发送标注模型更换请求。
数据标注系统中的数据标注管理器接收标注模型更换请求,其中,标注模型更换请求中携带有第二标注模型的模型标识。数据标注管理器在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取第二标注模型的模型标识对应的基础参数数据的第三存储路径信息。并向目标计算单元发送标注模型更换指令,在该标注模型更换指令中可以携带有第三存储路径信息。目标计算单元接收到标注模型更换指令后,停止对未进行标注的待标注数据进行标注。并通过第三存储路径信息,在标注模型存储仓库中,获取第二标注模型的基础参数数据。当然,此处也可以获取到包括有该第二标注模型的基础参数数据的模型基础文件。然后,目标计算单元可以将目标模型推理框架中的第一标注模型的基础参数数据替换为第二标注模型的基础参数数据,得到所述第二标注模型。并可以执行上述获取到的包括有该第二标注模型的基础参数数据的模型基础文件中的标注推理脚本,通过该第二标注模型对未进行标注的待标注数据进行标注。
在一种可能的实现方式中,为了使标注模型的标注更加准确,在使用第一标注模型对待标注数据进行标注后,可以由人工对标注结果数据进行校验调整,将校验调整后的标注结果数据作为输出样本数据,将上述输入第一标注模型的待标注数据作为输入样本数据。使用输出样本数据和输入样本数据对第一标注模型进行训练,以更新第一标注模型的基础参数数据中的可训练参数的值,实现对第一标注模型的优化。
下面结合图6对数据标注系统中的数据标注管理器和目标计算单元之间的交互流程进行说明。参见图6,在标注过程中,数据标注管理器和目标计算单元之间的交互流程可以包括如下步骤:
步骤601、数据标注管理器向目标计算单元发送第一标注模型的基础参数数据的第一存储路径信息。
步骤602、目标计算单元根据第一存储路径信息,在标注模型存储仓库中获取包括有该第一标注模型的基础参数数据的第一基础模型文件。将第一基础模型文件中的第一标注模型的基础参数数据添加到目标模型推理框架中,生成第一标注模型。
步骤603、数据标注管理器向目标计算单元发送待标注数据的第二存储路径信息。
步骤604、目标计算单元根据第二存储路径信息,获取待标注数据。
步骤605、目标计算单元执行第一基础模型文件中的标注推理脚本,通过第一标注模型,对待标注数据进行标注。
步骤606、标注管理器向目标计算单元发送标注模型更换指令,其中,标注模型更换指令中携带有第二标注模型的基础参数数据的第三存储路径信息。
步骤607、目标计算单元停止对未进行标注的待标注数据进行标注,根据第三存储路径信息,在在标注模型存储仓库中获取包括有第二标注模型的基础参数数据的第二基础模型文件。将目标模型推理框架中的第一标注模型的基础参数数据替换为第二基础模型文件中的第二标注模型的基础参数数据,生成二标注模型。
步骤608、目标计算单元执行第二基础模型文件中的标注推理脚本,通过第二标注模型,对未进行标注的待标注数据进行标注。
在本申请实施例所示的方案中,在用户有标注需求时,可以向数据标注系统发送数据标注请求,数据标注系统中的数据标注管理器可以接收该数据标注请求。并在标注模型存储仓库中,获取第一标注模型的基础参数数据,在基础计算单元仓库中,获取包括有目标模型推理框架的目标基础计算单元。同时对该目标基础计算单元分配硬件资源,以构建一个目标计算单元。该目标计算单元可以将目标模型推理框架和第一标注模型的基础参数数据,组合成第一标注模型。之后,该目标计算单元即可使用该第一标注模型对待标注数据进行标注。这样,不用将标注模型以硬编码的方式集成在数据标注系统中,上述标注模型的基础参数数据的来源可以多种多样,不局限于技术人员编码集成,使得标注模型可以更加灵活,可选的标注模型更加丰富。此外,硬件资源也由用户指定,可以更好的满足用户的标注需求。
本申请实施例还提供了一种数据标注系统,如图5所示,数据标注系统中可以包括有基础计算单元存储区、数据标注管理器、标注模型存储仓库。其中,数据标注管理器,用于:
数据标注管理器,用于接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有所述第一标注模型的模型标识和硬件资源分配信息;在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元;在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第一标注模型的模型标识对应的基础参数数据的第一存储路径信息,向所述目标计算单元发送所述第一存储路径信息。具体的该数据标注管理器可以实现上述步骤301-304以及其他隐含步骤中数据标注管理器所执行的处理,在此对于其具体实现方式不再赘述。
目标计算单元,用于通过所述第一存储路径信息,在所述标注模型存储仓库中获取所述待使用标注模型的基础参数数据,其中,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值;将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型;获取待标注数据;将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注。具体的该目标计算单元可以实现上述步骤304中目标计算单元所执行的处理,在此对于其具体实现方式不再赘述。
基于相同的技术构思,本发明实施例还提供了一种数据标注的装置,可以应用到实现图5对应实施例描述的数据标注系统中,实现数据标注管理器的功能。如图7所示,该数据标注装置包括:
接收模块710,用于接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有所述第一标注模型的模型标识和硬件资源分配信息。具体可以实现上述步骤301中的接收功能,以及其他隐含步骤。
获取模块720,用于在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具。具体可以实现上述步骤302中的获取功能,以及其他隐含步骤。
分配模块730,用于基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元。具体可以实现上述步骤303中的分配功能,以及其他隐含步骤。
发送模块740,用于在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第一标注模型的模型标识对应的基础参数数据的第一存储路径信息,向所述目标计算单元发送所述第一存储路径信息,以使所述目标计算单元,通过所述第一存储路径信息,在标注模型存储仓库中获取所述待使用标注模型的基础参数数据,将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型,获取待标注数据,将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注,其中,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值。具体可以实现上述步骤304中的发送功能,以及其他隐含步骤。
在一种可能的实现方式中,所述接收模块710,还用于:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;
将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储路径信息对应存储。
在一种可能的实现方式中,所述数据标注请求中还携带有所述待标注数据的数据标识,所述获取模块720,还用于:
在存储的数据标识和数据的存储路径信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储路径信息;
向所述目标计算单元发送所述第二存储路径信息,以使所述目标计算单元通过所述第二存储路径信息,获取所述待标注数据。
在一种可能的实现方式中,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述获取模块720,用于:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
在一种可能的实现方式中,所述装置还包括:
更换模块,用于在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;
在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储路径信息;
向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储路径信息,以使所述目标计算单元停止对未进行标注的待标注数据进行标注,通过所述第三存储路径信息,在所述标注模型存储仓库中获取所述第二标注模型的基础参数数据,将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同。
需要说明的是:上述实施例提供的数据标注的装置在数据标注时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将数据标注管理器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据标注的装置与数据标注的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在设备上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(Digital Video Disk,DVD)等),或者半导体介质(如固态硬盘等)。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请一个实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (25)

1.一种数据标注系统,其特征在于,所述数据标注系统包括数据标注管理器和标注模型存储仓库,其中:
所述数据标注管理器,用于接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有第一标注模型的模型标识,确定第一标注模型对应的基础参数数据的第一存储位置指示信息,向目标计算单元发送所述第一存储位置指示信息,其中,所述目标计算单元中包括所述第一标注模型对应的目标模型推理框架;
所述目标计算单元,用于根据第一存储位置指示信息,在所述标注模型存储仓库中获取所述第一标注模型的基础参数数据,其中,所述标注模型存储仓库中存储的基础参数数据包括公用的标注模型的基础参数数据以及用户上传的标注模型的基础参数数据,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值,所述可训练参数包括权重;将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型;获取待标注数据;将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注。
2.根据权利要求1所述的数据标注系统,其特征在于,所述数据标注系统还包括基础计算单元存储仓库,所述数据标注请求中还携带有硬件资源分配信息,所述数据标注管理器,还用于:
在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立所述目标计算单元。
3.根据权利要求1或2所述的数据标注系统,其特征在于,所述数据标注管理器,还用于:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;
将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储位置指示信息对应存储。
4.根据权利要求1或2所述的数据标注系统,其特征在于,所述数据标注请求中还携带有所述待标注数据的数据标识,所述数据标注管理器,还用于:
在存储的数据标识和数据的存储位置指示信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储位置指示信息;
向所述目标计算单元发送所述第二存储位置指示信息;
所述目标计算单元,用于:
通过所述第二存储位置指示信息,获取所述待标注数据。
5.根据权利要求1或2所述的数据标注系统,其特征在于,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述数据标注管理器,用于:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
6.根据权利要求1或2所述数据标注系统,其特征在于,所述数据标注管理器,还用于:
在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;在存储的模型标识和基础参数数据的存储位置指示信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储位置指示信息;向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储位置指示信息;
所述目标计算单元,用于停止对未进行标注的待标注数据进行标注;通过所述第三存储位置指示信息,获取所述第二标注模型的基础参数数据;将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同;将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注。
7.一种数据标注的方法,其特征在于,所述方法包括:
接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有第一标注模型的模型标识;
确定第一标注模型对应的基础参数数据的第一存储位置指示信息,向目标计算单元发送所述第一存储位置指示信息,其中,所述目标计算单元中包括所述第一标注模型对应的目标模型推理框架,以使所述目标计算单元,通过所述第一存储位置指示信息,在标注模型存储仓库中获取所述第一标注模型的基础参数数据,将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型,获取待标注数据,将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注,其中,所述标注模型存储仓库中存储的基础参数数据包括公用的标注模型的基础参数数据以及用户上传的标注模型的基础参数数据,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值,所述可训练参数包括权重。
8.根据权利要求7所述的方法,其特征在于,所述数据标注请求中还携带有硬件资源分配信息,所述方法还包括:
在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;
基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;
将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储位置指示信息对应存储。
10.根据权利要求7或8所述的方法,其特征在于,所述数据标注请求中还携带有所述待标注数据的数据标识,所述方法还包括:
在存储的数据标识和数据的存储位置指示信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储位置指示信息;
向所述目标计算单元发送所述第二存储位置指示信息,以使所述目标计算单元通过所述第二存储位置指示信息,获取所述待标注数据。
11.根据权利要求7或8所述的方法,其特征在于,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述在基础计算单元存储仓库中获取目标基础计算单元,包括:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
12.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;
在存储的模型标识和基础参数数据的存储位置指示信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储位置指示信息;
向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储位置指示信息,以使所述目标计算单元停止对未进行标注的待标注数据进行标注,通过所述第三存储位置指示信息,在所述标注模型存储仓库中获取所述第二标注模型的基础参数数据,将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同。
13.一种数据标注的方法,其特征在于,所述方法应用于计算单元,所述方法包括:
接收数据标注管理器发送的第一存储位置指示信息,其中,所述第一存储位置指示信息用于指示第一标注模型对应的基础参数数据的存储位置;
根据所述第一存储位置指示信息,在标注模型存储仓库中获取所述第一标注模型的基础参数数据,其中,所述标注模型存储仓库中存储的基础参数数据包括公用的标注模型的基础参数数据以及用户上传的标注模型的基础参数数据,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值,所述可训练参数包括权重;
将所述第一标注模型对应的目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型;
获取待标注数据,将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注。
14.根据权利要求13所述的方法,其特征在于,所述获取待标注数据,包括:
接收所述数据标注管理器发送的所述待标注数据对应的第二存储位置指示信息;
通过所述第二存储位置指示信息,获取所述待标注数据。
15.根据权利要求13所述的方法,其特征在于,所述方法还包括:
接收所述数据标注管理器发送的模型更换指令,其中,所述模型更换指令中携带有所述第三存储位置指示信息;
停止对未进行标注的待标注数据进行标注;
根据所述第三存储位置指示信息,获取所述第二标注模型的基础参数数据;
将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同;
将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注。
16.根据权利要求13-15中任一项所述的方法,其特征在于,所述计算单元是由所述数据标注管理器根据硬件资源分配信息,对所述目标基础计算单元分配硬件资源建立得到的,其中,所述硬件资源分配信息是由客户端发送给所述数据标注管理器的,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具。
17.一种数据标注的方法,其特征在于,所述方法应用于标注模型存储仓库,所述方法包括:
存储公用的标注模型的基础参数数据以及用户上传的标注模型的基础参数数据,标注模型的基础参数数据包括标注模型中的可训练参数训练后的值,标注模型的基础参数数据用于与标注模型的模型推理框架组合,得到标注模型,标注模型用于对待标注数据进行标注。
18.一种数据标注的装置,其特征在于,所述装置包括:
接收模块,用于接收客户端发送的数据标注请求,其中,所述数据标注请求中携带有第一标注模型的模型标识;
发送模块,用于确定第一标注模型对应的基础参数数据的第一存储位置指示信息,向目标计算单元发送所述第一存储位置指示信息,其中,所述目标计算单元中包括所述第一标注模型对应的目标模型推理框架,以使所述目标计算单元,通过所述第一存储位置指示信息,在标注模型存储仓库中获取所述第一标注模型的基础参数数据,将所述目标模型推理框架和所述第一标注模型的基础参数数据组合,得到所述第一标注模型,获取待标注数据,将所述待标注数据输入所述第一标注模型,对所述待标注数据进行标注,其中,所述标注模型存储仓库中存储的基础参数数据包括公用的标注模型的基础参数数据以及用户上传的标注模型的基础参数数据,所述第一标注模型的基础参数数据包括所述第一标注模型中的可训练参数训练后的值,所述可训练参数包括权重。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
获取模块,用于在所述基础计算单元存储仓库中获取目标基础计算单元,其中,所述目标基础计算单元中包括所述第一标注模型对应的目标模型推理框架和硬件驱动调用工具;
分配模块,用于基于所述硬件资源分配信息,对所述目标基础计算单元分配硬件资源,建立目标计算单元。
20.根据权利要求18或19所述的装置,其特征在于,所述接收模块,还用于:
接收所述客户端发送的所述第一标注模型的模型标识和基础参数数据;
将所述第一标注模型的基础参数数据存储在所述标注模型存储仓库中,并将所述第一标注模型的模型标识和所述第一标注模型的基础参数数据的所述第一存储位置指示信息对应存储。
21.根据权利要求18或19所述的装置,其特征在于,所述数据标注请求中还携带有所述待标注数据的数据标识,所述获取模块,还用于:
在存储的数据标识和数据的存储位置指示信息的对应关系中,获取所述待标注数据的数据标识对应的第二存储位置指示信息;
向所述目标计算单元发送所述第二存储位置指示信息,以使所述目标计算单元通过所述第二存储位置指示信息,获取所述待标注数据。
22.根据权利要求18或19所述的装置,其特征在于,所述数据标注请求中还携带有所述目标模型推理框架的框架标识,所述获取模块,用于:
基于所述目标模型推理框架的框架标识,在所述基础计算单元存储仓库中获取包括有所述目标模型推理框架的目标基础计算单元。
23.根据权利要求18或19所述的装置,其特征在于,所述装置还包括:
更换模块,用于在所述目标计算单元使用所述第一标注模型对所述待标注数据进行标注的过程中,接收所述客户端发送的标注模型更换请求,其中,所述标注模型更换请求中携带有第二标注模型的模型标识;
在存储的模型标识和基础参数数据的存储路径信息的对应关系中,获取所述第二标注模型的模型标识对应的基础参数数据的第三存储路径信息;
向所述目标计算单元发送模型更换指令,其中,所述模型更换指令中携带有所述第三存储路径信息,以使所述目标计算单元停止对未进行标注的待标注数据进行标注,通过所述第三存储路径信息,在所述标注模型存储仓库中获取所述第二标注模型的基础参数数据,将所述目标模型推理框架中的第一标注模型的基础参数数据替换为所述第二标注模型的基础参数数据,得到所述第二标注模型,将所述未进行标注的待标注数据输入所述第二标注模型,对所述未进行标注的待标注数据进行标注,其中,所述第二标注模型和所述第一标注模型对应的模型推理框架相同。
24.一种数据标注管理器,其特征在于,所述数据标注管理器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求7至权利要求12任一项所述的数据标注的方法所执行的操作。
25.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求7至权利要求12任一项所述的数据标注的方法所执行的操作。
CN202210625083.8A 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器 Pending CN115204256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210625083.8A CN115204256A (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/CN2020/088395 WO2021217610A1 (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器
CN202080005146.9A CN112740230B (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器
CN202210625083.8A CN115204256A (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202080005146.9A Division CN112740230B (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器

Publications (1)

Publication Number Publication Date
CN115204256A true CN115204256A (zh) 2022-10-18

Family

ID=75609552

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210625083.8A Pending CN115204256A (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器
CN202080005146.9A Active CN112740230B (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202080005146.9A Active CN112740230B (zh) 2020-04-30 2020-04-30 数据标注系统、方法和数据标注管理器

Country Status (6)

Country Link
US (1) US20230048473A1 (zh)
EP (1) EP4134863A4 (zh)
JP (1) JP2023525236A (zh)
KR (1) KR20230003172A (zh)
CN (2) CN115204256A (zh)
WO (1) WO2021217610A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102552230B1 (ko) * 2022-10-31 2023-07-06 (주)바질컴퍼니 클라우드 플랫폼에서 인공지능 모델을 활용한 데이터 라벨링 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805715B2 (en) * 2005-11-14 2010-09-28 International Business Machines Corporation Model publishing framework
US8521664B1 (en) * 2010-05-14 2013-08-27 Google Inc. Predictive analytical model matching
US10043102B1 (en) * 2016-01-20 2018-08-07 Palantir Technologies Inc. Database systems and user interfaces for dynamic and interactive mobile image analysis and identification
US10452944B2 (en) * 2017-11-13 2019-10-22 Kabushiki Kaisha Toshiba Multifunction peripheral assisted optical mark recognition using dynamic model and template identification
CN109840591B (zh) * 2017-11-29 2021-08-03 华为技术有限公司 模型训练系统、方法和存储介质
CN110147547A (zh) * 2019-04-09 2019-08-20 苏宁易购集团股份有限公司 一种基于迭代式学习的智能辅助标注方法及系统
CN110321450A (zh) * 2019-05-05 2019-10-11 苏宁易购集团股份有限公司 一种针对目标检测的数据辅助标注方法、装置及系统
CN110163269A (zh) * 2019-05-09 2019-08-23 北京迈格威科技有限公司 基于深度学习的模型生成方法、装置和计算机设备
CN110209574A (zh) * 2019-05-14 2019-09-06 深圳极视角科技有限公司 一种基于人工智能的数据开发系统
CN110674295A (zh) * 2019-09-11 2020-01-10 成都数之联科技有限公司 一种基于深度学习的数据标注系统
CN110825914A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种资源的标注管理系统
CN110929119A (zh) * 2019-11-22 2020-03-27 北京明略软件系统有限公司 数据标注方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
JP2023525236A (ja) 2023-06-15
CN112740230B (zh) 2022-06-10
KR20230003172A (ko) 2023-01-05
WO2021217610A1 (zh) 2021-11-04
EP4134863A4 (en) 2023-05-31
CN112740230A (zh) 2021-04-30
US20230048473A1 (en) 2023-02-16
EP4134863A1 (en) 2023-02-15

Similar Documents

Publication Publication Date Title
CN113034095B (zh) 结合rpa和ai的人机互动方法、装置、存储介质及电子设备
CN111083225B (zh) 在物联网平台中的数据处理方法、装置及物联网平台
CN108038051A (zh) 微服务的发布方法、装置、计算机设备和存储介质
CN108492005B (zh) 项目数据处理方法、装置、计算机设备和存储介质
CN108319513B (zh) 一种多分区操作系统中的消息传递方法及装置
CN110209967B (zh) 页面加载方法、装置、终端设备和计算机可读介质
CN107861765B (zh) 产品配置方法、设备和计算机可读存储介质
CN112740230B (zh) 数据标注系统、方法和数据标注管理器
CN116414370A (zh) 基于低代码的平台构建方法、装置、介质及电子设备
CN115509765A (zh) 一种超融合云计算方法、系统、计算机设备及存储介质
CN111552463A (zh) 一种页面跳转方法、装置、计算机设备及存储介质
CN109634734A (zh) 自动编译发布方法、装置及计算机可读存储介质
CN113515271A (zh) 服务代码生成方法、装置、电子设备及可读存储介质
CN112241625A (zh) 一种基于java语言的合同文档自动生成方法及系统
CN110457010B (zh) 基于协作平台批量更改任务单的方法及装置
CN111506305A (zh) 工具包生成方法、装置、计算机设备及可读存储介质
CN112183982A (zh) 一种工作流程创建方法、装置、计算机设备及存储介质
CN109840073B (zh) 业务流程的实现方法和装置
CN116225441B (zh) 一种在线编码系统的代码托管方法及系统
CN110968817A (zh) 一种页面内容检测方法、装置及系统
CN111352811B (zh) 一种用户行为数据采集方法、装置、设备及介质
CN109445964B (zh) 外部系统中与sap系统进行数据传输的方法及装置
CN112817839B (zh) 人工智能引擎测试方法、平台及终端、计算设备和存储介质
CN114090134A (zh) 一种数据交互方法、装置、存储介质及电子设备
CN117435464A (zh) 软件测试方法及装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination