CN113553144B - 数据分发方法、装置及系统 - Google Patents

数据分发方法、装置及系统 Download PDF

Info

Publication number
CN113553144B
CN113553144B CN202010330799.6A CN202010330799A CN113553144B CN 113553144 B CN113553144 B CN 113553144B CN 202010330799 A CN202010330799 A CN 202010330799A CN 113553144 B CN113553144 B CN 113553144B
Authority
CN
China
Prior art keywords
data
marked
attribute information
voice
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010330799.6A
Other languages
English (en)
Other versions
CN113553144A (zh
Inventor
任国焘
许江浩
杨见宝
唐苗
张慧梅
师文靖
洪文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202010330799.6A priority Critical patent/CN113553144B/zh
Publication of CN113553144A publication Critical patent/CN113553144A/zh
Application granted granted Critical
Publication of CN113553144B publication Critical patent/CN113553144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据分发方法、装置及系统,该方法包括:获取多个待标注数据和每个所述待标注数据的至少一个属性信息;根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据。本申请实施例中各客户端接收到的待标注数据之间关联性较高,提高了标注的效率。

Description

数据分发方法、装置及系统
技术领域
本申请实施例涉及机器学习技术领域,尤其涉及一种数据分发方法、装置及系统。
背景技术
机器学习训练需要大量的结构化数据,而结构化数据是由标注人员对原始数据进行标注得到的。
结构化数据中通常具有多个实体、属性等信息,目前的数据标注方式是对标注人员进行培训,识别各种实体属性如何进行标注。在标注过程中,标注任务的分发是随机进行发送的,人工标注的效率较低。
因此,现在亟需一种方法解决人工标注机器学习训练数据的效率较低的问题。
发明内容
本申请实施例提供一种数据分发方法、装置及系统,以解决人工标注机器学习训练数据的效率较低的问题。
第一方面,本申请实施例提供一种数据分发方法,包括:
获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据。
在一种可能的实施方式中,根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,包括:
根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度;
向所述客户端发送所述至少一个待标注数据序列。
在一种可能的实施方式中,根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,包括:
根据所述任意两个待标注数据之间的相似度,对所述多个待标注数据进行排序,得到排序后的待标注数据;
根据所述排序后的待标注数据,获取所述至少一个待标注数据序列。
在一种可能的实施方式中,向所述客户端发送所述至少一个待标注数据序列,包括:
针对所述至少一个待标注数据序列中的任意待标注数据序列i,向第一客户端发送所述待标注数据序列i中的任意待标注数据;
从所述第一客户端接收所述任意待标注数据的标注结果,并在所述待标注数据序列i中除所述任意待标注数据外的其他待标注数据上添加所述标注结果;
向第二客户端发送所述待标注数据序列i中添加了所述标注结果的待标注数据。
在一种可能的实施方式中,根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度,包括:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,根据每个属性信息与所述标注任务的关联度,确定所述多个待标注数据中的任意两个待标注数据之间的相似度,包括:
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容,各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间;或者,
所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员,各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
在一种可能的实施方式中,获取多个待标注数据和每个所述待标注数据的至少一个属性信息,包括:
获取多个待标注数据;
针对每个待标注数据,对所述待标注数据进行预处理,得到所述待标注数据的至少一个属性信息。
在一种可能的实施方式中,所述方法还包括:
接收多个结构化数据,其中,每个结构化数据为对所述待标注数据进行标注后得到的数据。
第二方面,本申请实施例提供一种数据分发装置,包括:
获取模块,用于获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
处理模块,用于根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
分发模块,用于根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据。
在一种可能的实施方式中,所述分发模块具体用于:
根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度;
向所述客户端发送所述至少一个待标注数据序列。
在一种可能的实施方式中,所述分发模块具体用于:
根据所述任意两个待标注数据之间的相似度,对所述多个待标注数据进行排序,得到排序后的待标注数据;
根据所述排序后的待标注数据,获取所述至少一个待标注数据序列。
在一种可能的实施方式中,所述分发模块具体用于:
针对所述至少一个待标注数据序列中的任意待标注数据序列i,向第一客户端发送所述待标注数据序列i中的任意待标注数据;
从所述第一客户端接收所述任意待标注数据的标注结果,并在所述待标注数据序列i中除所述任意待标注数据外的其他待标注数据上添加所述标注结果;
向第二客户端发送所述待标注数据序列i中添加了所述标注结果的待标注数据。
在一种可能的实施方式中,所述处理模块具体用于:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述处理模块具体用于:
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容,各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间;或者,
所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员,各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
在一种可能的实施方式中,所述获取模块具体用于:
获取多个待标注数据;
针对每个待标注数据,对所述待标注数据进行预处理,得到所述待标注数据的至少一个属性信息。
在一种可能的实施方式中,所述获取模块还用于:
接收多个结构化数据,其中,每个结构化数据为对所述待标注数据进行标注后得到的数据。
第三方面,本申请实施例提供一种数据分发系统,包括服务器和客户端,其中:
所述服务器用于:
获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据;
所述客户端用于接收所述服务器发送的待标注数据序列。
在一种可能的实施方式中,所述服务器具体用于:
根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度;
向所述客户端发送所述至少一个待标注数据序列。
在一种可能的实施方式中,所述服务器具体用于:
根据所述任意两个待标注数据之间的相似度,对所述多个待标注数据进行排序,得到排序后的待标注数据;
根据所述排序后的待标注数据,获取所述至少一个待标注数据序列。
在一种可能的实施方式中,所述客户端包括第一客户端和第二客户端,所述服务器具体用于:
针对所述至少一个待标注数据序列中的任意待标注数据序列i,向第一客户端发送所述待标注数据序列i中的任意待标注数据;
所述第一客户端用于对所述任意待标注数据进行标注,并向所述服务器发送所述任意待标注数据的标注结果;
所述服务器还用于从所述第一客户端接收所述任意待标注数据的标注结果,并在所述待标注数据序列i中除所述任意待标注数据外的其他待标注数据上添加所述标注结果;
向第二客户端发送所述待标注数据序列i中添加了所述标注结果的待标注数据;
所述第二客户端用于接收所述待标注数据序列i中添加了所述标注结果的待标注数据。
在一种可能的实施方式中,所述服务器具体用于:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述服务器具体用于:
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容,各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间;或者,
所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员,各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
在一种可能的实施方式中,所述服务器具体用于:
获取多个待标注数据;
针对每个待标注数据,对所述待标注数据进行预处理,得到所述待标注数据的至少一个属性信息。
在一种可能的实施方式中,所述客户端还用于,对接收到的多个待标注数据进行标注处理,得到对应的多个结构化数据;向所述服务器发送所述多个结构化数据;
所述服务器还用于,接收所述多个结构化数据。
第四方面,本申请实施例提供一种数据分发设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的数据分发方法。
第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的数据分发方法。
本申请实施例提供的数据分发方法、装置及系统,首先获取多个待标注数据和每个待标注数据的至少一个属性信息,然后根据这至少一个属性信息,确定多个待标注数据中的任意两个待标注数据之间的相似度,最后根据任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,待标注数据序列中包括多个待标注数据中的全部或部分待标注数据。由于是根据任意两个待标注数据之间的相似度进行分发的,因此同一待标注数据序列中的各待标注数据之间的关联性较强,在对各待标注数据进行标注时,在对一个待标注数据标注后,可在此基础上对下一待标注数据进行标注,由于各待标注数据之间的变化内容较小,因此能够迅速确定标注任务,提高对待标注数据的标注效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的数据分发方法的流程示意图;
图3为本申请又一实施例提供的数据分发方法的流程示意图;
图4为本申请实施例提供的待标注图像序列示意图;
图5为本申请实施例提供的待标注图像排序示意图;
图6为本申请实施例提供的待标注语音序列示意图;
图7为本申请实施例提供的待标注语音排序示意图;
图8为本申请实施例提供的数据分发装置的结构示意图;
图9为本申请实施例提供的数据分发系统的结构示意图;
图10为本申请实施例提供的数据分发设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请涉及的概念进行解释。
标注:对各种类型的数据,包括文本、图片、语音、视频等,完成分类、画框、注释、标记并打上说明其某种属性的标签的工作。
图像序列:将待标注的图像根据图像拍摄时间、图像相似性、拍摄地点、拍摄内容、待标注内容、图像关联性等因素生成图像序列。
数据分发系统:将待标注数据发送给客户端进行标注,经过标注生成结构化数据。
图1为本申请实施例提供的应用场景示意图,如图1所示,包括数据采集设备11、服务器12和客户端13,其中,数据采集设备11和服务器12之间通过有线或无线网络连接,服务器12和客户端13之间也通过有线或无线网络连接。
数据采集设备11用于采集多个待标注数据,每个待标注数据包括至少一个属性信息。数据采集设备11用于将采集的多个待标注数据发送给服务器12,其中,数据采集设备11采集的待标注数据可以为图像数据、语音数据等等,也可以是其他类型的数据。当待标注数据为图像数据时,数据采集设备11例如可以为摄像机或其他具备图像采集功能的设备,当待标注数据为语音数据时,数据采集设备11例如可以为录音机或其他具备语音采集功能的设备,等等。
在一些实施例中,服务器12和数据采集设备11可以为独立的两个设备,在另一些实施例中,当服务器12具备足够的处理能力时,服务器12和数据采集设备11可以设置在一个设备当中。
服务器12在获取到多个待标注数据后,可以根据每个待标注数据的属性信息确定任意两个待标注数据之间的相似度,然后根据人员两个待标注数据之间的相似度将待标注数据分发给客户端13,其中,客户端13的数量为一个或多个。分发了多个待标注数据后,通过客户端13对待标注数据进行标注,标注完成后发送给服务器12,标注完成后的数据可用于机器学习,例如各种深度学习模型的训练。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的数据分发方法的流程示意图,如图2所示,该方法可以包括:
S21,获取多个待标注数据和每个所述待标注数据的至少一个属性信息。
待标注数据为数据采集设备采集到的未进行标注的原始数据,每个待标注数据包括至少一个属性信息,该属性信息为对待标注数据进行初步处理得到的初始标签。属性信息的获取可以为数据采集设备采集待标注数据时得到的,也可以为对数据采集设备采集的待标注数据进行预处理得到的。
此处的待标注数据的至少一个属性信息反映了待标注数据的初步属性,而并不能精确的反映待标注数据的具体属性。以待标注数据为图像数据为例,图像数据的至少一个属性信息可以为图像拍摄的地点、图像拍摄的时间,图像的内容等等,其中图像拍摄的时间在采集图像数据时即可直接获取到,图像拍摄的地点和图像的内容可以对图像数据进行预处理得到。图像拍摄的地点和图像的内容可以不十分精确,例如多个图像数据为对城市的某个广场进行拍摄得到的,则这多个图像数据对应的图像拍摄的地点均为该城市广场,而并不用具体确定每个图像数据拍摄的是城市广场的哪个部分。对于图像的内容这一属性信息的获取与图像拍摄的地点这一属性信息的获取类似,此处不一一说明。
S22,根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在获取到多个待标注数据和每个待标注数据的至少一个属性信息后,服务器可以根据每个待标注数据的这至少一个属性信息,获取任意两个待标注数据之间的相似度。
例如,待标注数据为图像,图像的一个属性信息为图像内容,则可以根据图像内容来确定各个待标注数据之间的相似度,例如3张图像中有两张中均包括人物A,另一张包括人物B,则两张包括人物A的图像之间的相似度较高,包括人物B的图像与另两张包括人物A的图像之间的相似度较低。可以理解的是,本申请实施例中,无需获取任意两个待标注数据之间的相似度的具体数值,只要获取待标注数据之间的相似度的大小关系即可。例如,若需要获取图像一分别与图像二和图像三之间的相似度,只需要比较图像一与图像二之间的相似度,图像一与图像三之间的相似度,哪个更大即可。
S23,根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据。
在得到任意两个待标注数据之间的相似度后,可以根据任意两个待标注数据之间的相似度,向客户端发送待标注数据序列。可选的,待标注数据序列中包括多个待标注数据中的全部待标注数据,此时是将多个待标注数据全部发送给同一个客户端。可选的,待标注数据序列中包括多个待标注数据中的部分待标注数据,此时可以是将多个待标注数据发送给不同的客户端,也可以是将多个待标注数据根据相似度进行划分之后,发送给同一客户端。
不论属于哪一种,待标注数据的分发是根据任意两个待标注数据之间的相似度进行发送的,因此客户端接收到的待标注数据序列中的待标注数据具有一定的关联性,例如同一待标注数据序列中的待标注数据中可能存在相同的地点、相同的人物、相同的拍摄时间等等。由于客户端接收到的待标注数据序列中的待标注数据之间的关联性较高,各待标注数据之间的变化内容较小,因此能够提高数据标注的效率。
本申请实施例提供的数据分发方法,首先获取多个待标注数据和每个待标注数据的至少一个属性信息,然后根据这至少一个属性信息,确定多个待标注数据中的任意两个待标注数据之间的相似度,最后根据任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,待标注数据序列中包括多个待标注数据中的全部或部分待标注数据。由于是根据任意两个待标注数据之间的相似度进行分发的,因此同一待标注数据序列中的各待标注数据之间的关联性较强,在对各待标注数据进行标注时,在对一个待标注数据标注后,可在此基础上对下一待标注数据进行标注,由于各待标注数据之间的变化内容较小,因此能够迅速确定标注任务,提高对待标注数据的标注效率。
下面结合图3,并采用具体的实施例,对本申请实施例的方案进行详细说明。图3为本申请又一实施例提供的数据分发方法的流程示意图,如图3所示,包括:
S31,获取多个待标注数据。
多个待标注数据为数据采集设备采集的原始数据,需要对多个待标注数据进行标注得到结构化数据,然后将结构化数据进行机器学习训练。
S32,针对每个待标注数据,对待标注数据进行预处理,得到待标注数据的至少一个属性信息。
S32为可选步骤。如图2实施例中所述,一些属性信息可在数据采集设备采集原始数据时得到,例如采集待标注数据的时间,数据采集设备的编号等等。对于另一些属性信息,并不能直接在采集原始数据时获取到,例如待标注数据的数据内容。此时,需要对待标注数据进行预处理得到属性信息。
以待标注数据为在地铁路径拍摄的图像为例,待标注数据的属性信息通常包含图像名、图像地点、图像时间、图像内容、上传人员等信息,一次拍摄的多个待标注数据的信息如表一所示:
表一
其中,图像名和图像时间均为采集图像时即可获取的属性信息,由于此时的多个待标注数据均为在地铁路径拍摄的图像,因此图像地点均为地铁路径。例如,表一中的第2-4行三张图像的地点均为A,其中A地点可以为地铁路径上的某一站,相应的,B地点和C地点可以为地铁路径上的另外两站。可以理解的是,当数据采集设备具备定位功能时,图像地点为采集图像时即可获取的属性信息,当数据采集设备不具备定位功能时,图像地点为需要对图像进行预处理后得到的属性信息。
图像内容可以是对图像进行预处理,初步确定每张图像中的人脸和人脸对应的人员ID,而上传人员信息可以是数据采集设备的编号,根据上传人员信息确定待标注数据的来源。
表一中示出的是针对图像数据的属性信息,其中图像时间、图像地点等属性信息仅仅为一种举例,在另一些实施例中,还可以包括其他的属性信息,例如图像的分辨率、图像的长宽比、图像的前景和背景等等,当待标注数据为其他类型的数据,例如语音数据时,属性信息还可以包括语音内容,等等。
表二示出了待标注数据为语音数据时可能的属性信息,如表二所示,其中属性信息可以包括语音名、语音地点、语音时间、语音内容标签和上传人员信息,其中,语音名和语音时间为采集语音数据时即可获取的属性信息,语音地点、语音内容和上传人员为对语音数据进行预处理后得到的属性信息。
表二
S33,获取标注任务。
标注任务为需要对待标注数据进行标注的任务,针对不同的机器学习模型的训练,相应的标注任务可能各不相同。例如,若需要训练能够进行语义分割的机器学习模型,则标注任务是对图像进行语义分割的标注,针对图像总的每个像素点,标注其所属类型,得到相应的结构化数据用于语义分割的机器学习模型的训练;若需要训练能够进行人脸识别的机器学习模型,则标注任务是对图像中的人脸进行标注,得到相应的结构化数据用于人脸识别的机器学习模型的训练。
本申请的方案是为了根据待标注数据之间的相似度对待标注数据进行分发,来提高标注的效率的,因此与标注任务的关系非常密切,故首先获取标注任务。
S34,确定每个属性信息与标注任务的关联度。
由于是根据标注任务对待标注数据进行标注的,因此需要首先获取每个属性信息与标注任务的关联度,其中,关联度指示属性信息对标注任务的影响程度的大小。
例如,待标注数据为待标注图像,标注任务为人脸标注任务,属性信息包括图像地点、图像时间和图像内容时,图像内容中初步反映了待标注图像中可能存在的人物及相应的人物ID,此时图像内容与人脸标注这一标注任务的关联度是最高的,图像内容的不同导致图像中存在的人物以及人物ID可能不同,从而得到不同的人脸标注结果。而在图像地点和图像时间中,对于相同的图像地点,采集到的待标注图像中存在相同的人物以及人物ID的可能性较大,不同的图像地点采集到的待标注图像中存在相同的人物以及人物ID的可能性较小,此时可以确定图像地点的关联度高于图像时间,低于图像内容。
例如,待标注数据为待标注语音,标注任务为语音标注任务,属性信息包括语音地点、语音时间和语音人员时,由于语音人员反映了待标注语音中发出语音的人,此时语音人员与语音标注这一标注任务的关联度是最高的,相同的语音人员发出的语音之间的关联性较强,而不同的语音人员发出的语音之间的关联性较弱。而在语音地点和语音时间中,对于相同的语音地点,采集到的待标注语音中各人员发出的语音之间相关联的可能性较大,不同的语音地点采集到的待标注语音中存在相关联的语音的可能性较小,此时确定语音地点与语音标注任务的关联度高于语音时间,低于语音人员。
S35,根据每个属性信息与所述标注任务的关联度,确定多个待标注数据中的任意两个待标注数据之间的相似度。
具体的,根据每个属性信息与标注任务的关联度,得到每个属性信息对应的优先级,然后根据每个待标注数据的属性信息和属性信息对应的优先级,来确定任意两个待标注数据之间的相似度。
例如,待标注数据为待标注图像,标注任务为人脸标注,属性信息包括图像地点、图像时间和图像内容时,图像内容与人脸标注的关联度最高,图像地点次之,图像时间与人脸标注的关联度最低,因此根据每个属性信息与人脸标注任务的关联度,确定各属性信息的优先级从高到低依次为图像内容、图像地点、图像时间。
例如在表一中,标注任务为人脸标注,可以按照图像内容中的人员ID为第一优先级,图像地点为第二优先级,图像时间为第三优先级,得到各个图像之间的相似度。其中,两张包括同样的人员ID的图像之间的相似度要高于两张不包括同样的人员ID的图像之间的相似度。例如,两张包括人员D的人脸的图像之间的相似度,高于一张包括人员D的人脸与一张包括人员E的人脸之间的相似度。
进一步的,若几张图像中均包括人员D,此时可以根据图像地点来确定这几张图像之间的相似度。例如3张图像中均包括人员D,且其中两张图像的图像地点为地点A,另一张图像的图像地点为地点B,则此时图像地点为地点A的两张图像之间的相似度高于图像地点为地点A的图像与图像地点为地点B的图像之间的相似度。若这3张图像的图像地点也相同,则可以进一步根据图像时间来确定任意两张图像之间的相似度,其中图像时间相隔较近的两张图像之间的相似度高于图像时间间隔较远的两张图像之间的相似度,等等。
S36,根据多个待标注数据和任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度。
具体的,可根据任意两个待标注数据之间的相似度,对多个待标注数据进行排序,得到排序后的待标注数据,然后根据排序后的待标注数据,获取至少一个待标注数据序列。
以表一为例,在得到任意两张图像之间的相似度后,对图像进行排序,即生成的图像序列的顺序为:
人员D的人脸,在地点A,以时间排序的图像序列;
人员D的人脸,在地点B,以时间排序的图像序列;
人员D的人脸,在地点C,以时间排序的图像序列(表一未示出);
人员E的人脸,在地点A,以时间排序的图像序列(表一未示出);
人员E的人脸,在地点B,以时间排序的图像序列(表一未示出);
人员E的人脸,在地点C,以时间排序的图像序列。
下面将结合图4对该过程进行说明。
图4为本申请实施例提供的待标注图像示意图,如图4所示,其中待标注图像组40中包括6个待标注图像,分别是待标注图像41、待标注图像42、待标注图像43、待标注图像44、待标注图像45和待标注图像46,其中,待标注图像组40中涉及到三个人,分别是女孩甲、男孩乙和男孩丙。对6个待标注图像分别进行预处理,得到相应的属性信息如下:
待标注图像41:人物-女孩甲和男孩乙,地点-A,时间-20190933101210;
待标注图像42:人物-男孩乙和男孩丙,地点-A,时间-20190933102201;
待标注图像43:人物-男孩乙和男孩丙,地点-A,时间-20190933102231;
待标注图像44:人物-女孩甲和男孩乙,地点-A,时间-20190933101001;
待标注图像45:人物-男孩乙和男孩丙,地点-A,时间-20190933102111;
待标注图像46:人物-女孩甲和男孩乙,地点-B,时间-20190933100231。
图5为本申请实施例提供的待标注图像排序示意图,如图5所示,标注任务为人脸标注,根据6个待标注图像的属性信息得到对应的优先级,其中图像内容为第一优先级,在6个待标注图像中,图像内容有两种,一种是包括女孩甲和男孩乙,如待标注图像41、待标注图像44和待标注图像46,另一种是包括包括男孩乙和男孩丙,如待标注图像42、待标注图像43和待标注图像45。
根据第一优先级的图像内容得到了两组图像组,分别是图像组51和图像组52,如图5中所示,图像组51中的待标注图像的图像内容为男孩乙和男孩丙,图像组52中的待标注图像的图像内容为女孩甲和男孩乙。针对第二优先级的图像地点,由于图像组51中的3个待标注图像的图像地点均为A,此时根据第三优先级的图像时间,图像组51中待标注图像42的时间为2019-09-23 10:22:31,待标注图像43的时间为2019-09-23 10:25:46,待标注图像45的时间为2019-09-23 10:20:22,因此待标注图像45与待标注图42的相似度最高,与待标注图像43的相似度次之。根据上述相似度之间的关系进行排序,得到图像组51中的排列顺序为待标注图像45、待标注图像42、待标注图像43。
类似的,图像组52中的待标注图像41和待标注图像44的图像地点均为A,待标注图像46的图像地点为B,因此,待标注图像41和待标注图像44之间的相似度比与待标注图像46的相似度高。待标注图像44与待标注图41的相似度最高,与待标注图像46的相似度次之。根据上述相似度之间的关系进行排序,得到图像组52中的排列顺序为待标注图像44、待标注图像41、待标注图像46。
如图5所示,根据上述方式,得到6个待标注图像的排列顺序为待标注图像45、待标注图像42、待标注图像43、待标注图像44、待标注图像41、待标注图像46。然后,针对排序完成的待标注图像,可以进行切分,得到待标注图像序列。例如在图5中,可将待标注图像45、待标注图像42和待标注图像43作为一个待标注图像序列,将待标注图像44、待标注图像41和待标注图像46作为另一个待标注图像序列,然后进行分发。
可以理解的是,针对不同的标注任务,属性信息的优先级可以不同。例如,若标注任务为车牌标注,可以按照图像的拍摄地点为第一优先级,图像时间为第二优先级,图像内容为第三优先级获取图像之间的相似度,从而进行排序,生成待标注图像序列。
在一种可选的实施例中,待标注数据为待标注语音,标注任务为语音标注,属性信息包括语音地点、语音时间和语音人员时,语音人员与语音标注的关联度最高,语音地点次之,语音时间与语音标注的关联度最低,因此根据每个属性信息与语音标注任务的关联度,确定各属性信息的优先级从高到低依次为语音人员、语音地点、语音时间。
例如在表二中,标注任务为语音标注,可以按照语音人员中的人员ID为第一优先级,语音地点为第二优先级,语音时间为第三优先级,得到各个语音之间的相似度。其中,两个包括同样的语音人员的语音之间的相似度要高于两个不包括同样的语音人员的语音之间的相似度。若根据语音人员确定了部分语音之间的相似度后,可以进一步根据语音地点和语音时间来确定其他部分语音之间的相似度。例如在表二中,在得到任意两个语音之间的相似度后,对语音进行排序,即生成的语音序列的顺序为:
人员D在地点A,以时间排序的语音序列;
人员D在地点B,以时间排序的语音序列;
人员D在地点C,以时间排序的语音序列(表二未示出);
人员E在地点A,以时间排序的语音序列(表二未示出);
人员E在地点B,以时间排序的语音序列(表二未示出);
人员E在地点C,以时间排序的语音序列。
下面将结合图6对该过程进行说明。
图6为本申请实施例提供的待标注语音序列示意图,如图6所示,包括待标注语音组60,其中待标注语音序列60中包括6个待标注语音,分别是待标注语音61、待标注语音62、待标注语音63、待标注语音64、待标注语音65和待标注语音66,其中,待标注语音组60中涉及到三个人,分别是甲、乙和丙。对6个待标注语音分别进行预处理,得到相应的属性信息如下:
待标注语音61:语音内容-对话,甲和乙,地点-A,时间-20190922101210;
待标注语音62:语音内容-发言,甲,地点-C,时间-20190922122801;
待标注语音63:语音内容-发言,甲,地点-C,时间-20190922122231;
待标注语音64:语音内容-对话,甲和乙,地点-B,时间-20190922101801;
待标注语音65:语音内容-发言,丙,地点-C,时间-20190922233311;
待标注语音66:语音内容-对话,甲和丙,地点-A,时间-20190922102031。
图7为本申请实施例提供的待标注语音排序示意图,如图7所示,标注任务为语音标注,根据6个待标注语音的属性信息得到对应的优先级,其中语音人员为第一优先级,在6个待标注语音中,首先将对话和发言区分开,其中对话涉及两个语音人员,发言涉及一个语音人员,两种情况下的语音人员不同。其中,对话为待标注语音61、待标注语音64和待标注语音66,发言为待标注语音62、待标注语音63和待标注语音65。
在对话中,待标注语音61和待标注语音64均为甲和乙的对话,待标注语音66为甲和丙的对话,因此待标注语音61和待标注语音64之间的相似度比与待标注语音66的相似度要高,待标注语音66排在待标注语音61和待标注语音64之后,然后将待标注语音61和待标注语音64按照语音时间进行排列即可。
在发言中,待标注语音62和待标注语音63均为甲的发言,待标注语音65为丙的发言,因此待标注语音65排在待标注语音62和待标注语音63之后,然后将待标注语音62和待标注语音63按照语音时间进行排列即可。
如图7所示,根据上述方式,得到语音组70中的6个待标注语音的排列顺序为待标注语音61、待标注语音64、待标注语音66、待标注语音63、待标注语音62、待标注语音65。然后,可对排列完成的待标注语音进行划分,得到待标注语音序列。例如,将待标注语音61、待标注语音64和待标注语音66作为一个待标注语音序列,将待标注语音63、待标注语音62和待标注语音65作为另一个待标注语音序列。生成了待标注语音序列后,即可进行分发。
上述实施例描述了如何获取任意两个待标注数据之间的相似度,在获取了任意两个待标注数据之间的相似度之后,可以根据任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,使得同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度。
例如,待标注数据为图像时,可以根据图像内容确定待标注图像之间的相似度,然后将具有相同的图像内容的待标注图像划到同一个待标注图像序列中,具有不同的图像内容的待标注图像划到不同的待标注图像序列中。因此,同一待标注图像序列中的任意两张图像之间的相似度要高于不同的待标注图像序列中的任意两张图像之间的相似度。
上述实施例中描述了根据任意两个待标注数据之间的相似度对多个待标注数据进行排序的方案,因此,也可以根据排序后的待标注数据来得到待标注数据序列。例如图像序列,人员E的图像序列长度为10张图像,配置的最小序列长度为5,即会以5张图像为最小单位生成图像序列。例如语音序列,人员E的语音序列共有10段,配置的最短语音序列为5段,则会以5段为单位生成语音序列。通过此种配置,客户端收到的待标注数据任务,每段都会具有一定的关联性。对待标注数据进行标注时,数据的关联性比较高,标注起来的效率会比较高。
S37,向客户端发送至少一个待标注数据序列。
在对排序后的待标注数据进行分组后,分别向客户端发送多组待标注数据序列,通过客户端对待标注数据序列中的对每个待标注数据进行标注。同时,客户端也可以主动向服务器发送请求信息,请求服务器分发待标注数据序列,服务器响应客户端的请求信息,向客户端发送待标注数据序列。
可选的,由于同一待标注数据序列中的任意两个待标注数据之间的相似度较高,因此同一待标注数据序列中的多个待标注数据之间可以共享标注结果。
具体的,针对至少一个待标注数据序列中的任意待标注数据序列i,服务器可向第一客户端发送待标注序列i中的任意待标注数据。第一客户端在接收到待标注序列i中的任意待标注数据后,对该待标注数据进行标注,并向服务器发送该待标注数据的标注结果。
然后,服务器从第一客户端接收所述任意待标注数据的标注结果,并在待标注数据序列i中除所述任意待标注数据外的其他待标注数据上添加标注结果,实现标注结果的共享。
在其他待标注数据上添加了标注结果后,服务器向第二客户端发送待标注数据序列i中添加了标注结果的待标注数据。其中,第二客户端可以与第一客户端为同一个客户端,也可以为不同的客户端。第二客户端的数量可以为一个,也可以为多个。当第二客户端的数量为多个时,多个第二客户端中可以包括第一客户端,也可以不包括第一客户端。
例如,待标注数据序列i中包括图像A、图像B和图像C,三张图像中的任意两张图像之间的相似度均较高,均包括同一人物。服务器可将图像A发送给客户端甲,由标定人员通过在客户端甲上对图像A进行标注,例如标注出任务在图像A上的位置。然后,客户端甲将标注结果发送回服务器,服务器在图像B和图像C上添加该标注结果,并将添加了标注结果的图像B和图像C进行分发。
服务器可将添加了标注结果的图像B和图像C发送给客户端甲,也可以将添加了标注结果的图像B和图像C中的某一张发送给客户端甲,另一张发送给客户端乙,也可以将添加了标注结果的图像B和图像C军发送给客户端乙,也可以将添加了标注结果的图像B和图像C中的某一张发送给客户端乙,另一张发送给客户端丙,等等。
无论采取哪种发送方式,由于图像B和图像C上均添加了标注结果,二图像B和图像C与图像A的相似度均较高,因此接收到图像B和图像C的客户端,标注人员可在图像A的标注结果的基础上进行修改,极大的提升标注效率。
S38,接收多个结构化数据,其中,每个结构化数据为对所述待标注数据进行标注后得到的数据。
客户端对待标注数据标注后,得到相应的结构化数据。其中,一种可能的结构化数据可以包括待标注数据和该待标注数据的结构化信息,然后将待标注数据和对应的结构化信息作为一个整体。
然后,将得到的结构化数据发送给服务器,服务器在接收到多个结构化数据后,可根据结构化数据进行机器学习模型的训练。
本申请实施例提供的数据分发方法,首先获取多个待标注数据和每个待标注数据的至少一个属性信息,然后根据这至少一个属性信息确定多个待标注数据中的任意两个待标注数据之间的相似度,最后根据任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,待标注数据序列中包括多个待标注数据中的全部或部分待标注数据。由于是根据任意两个待标注数据之间的相似度进行分发的,因此同一待标注数据序列中的各待标注数据之间的关联性较强,在对各待标注数据进行标注时,在对一个待标注数据标注后,可在此基础上对下一待标注数据进行标注,由于各待标注数据之间的变化内容较小,因此能够迅速确定标注任务,提高对待标注数据的标注效率。
图8为本申请实施例提供的数据分发装置的结构示意图,如图8所示,包括获取模块81、处理模块82和分发模块83,其中:
获取模块81用于获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
处理模块82用于根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
分发模块83用于根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据。
在一种可能的实施方式中,所述分发模块83具体用于:
根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度;
向所述客户端发送所述至少一个待标注数据序列。
在一种可能的实施方式中,所述分发模块83具体用于:
根据所述任意两个待标注数据之间的相似度,对所述多个待标注数据进行排序,得到排序后的待标注数据;
根据所述排序后的待标注数据,获取所述至少一个待标注数据序列。
在一种可能的实施方式中,所述分发模块83具体用于:
针对所述至少一个待标注数据序列中的任意待标注数据序列i,向第一客户端发送所述待标注数据序列i中的任意待标注数据;
从所述第一客户端接收所述任意待标注数据的标注结果,并在所述待标注数据序列i中除所述任意待标注数据外的其他待标注数据上添加所述标注结果;
向第二客户端发送所述待标注数据序列i中添加了所述标注结果的待标注数据。
在一种可能的实施方式中,所述处理模块82具体用于:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述处理模块82具体用于:
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
在一种可能的实施方式中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容;所述处理模块82具体用于:
根据每个属性信息与所述人脸标注任务的关联度,确定各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间。
在一种可能的实施方式中,所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员;所述处理模块82具体用于:
根据每个属性信息与所述语音标注任务的关联度,确定各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
在一种可能的实施方式中,所述获取模块81具体用于:
获取多个待标注数据;
针对每个待标注数据,对所述待标注数据进行预处理,得到所述待标注数据的至少一个属性信息。
在一种可能的实施方式中,所述获取模块81还用于:
接收多个结构化数据,其中,每个结构化数据为对所述待标注数据进行标注后得到的数据。
本申请实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图9为本申请实施例提供的数据分发系统的结构示意图,如图9所示,包括服务器91和至少一个客户端92,其中客户端92的数量为一个或多个,图9中示例了4个。
服务器91用于:
获取多个待标注数据和每个待标注数据的至少一个属性信息;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
根据任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,待标注数据序列中包括多个待标注数据中的全部或部分待标注数据;
客户端92用于接收服务器91发送的待标注数据序列。
本申请实施例中,服务器91向客户端92发送的多个待标注数据不再是随机发送,而是具有一定的关联关系的。如果服务器91随机向客户端92发送待标注数据,多个待标注数据之间关联性较小,则对待标注数据进行标注处理时,对每个待标注数据进行的标注均是独立的,标注效率较低。本申请实施例中,服务器91首先根据至少一个属性信息确定任意两个待标注数据之间的相似度,然后再根据任意两个待标注数据之间的相似度来向客户端92发送待标注数据序列,从而保证了客户端接收到的待标注数据序列中的多个待标注数据之间具有一定的关联关系。在对各待标注数据进行标注时,在对一个待标注数据标注后,可在此基础上对下一待标注数据进行标注,由于各待标注数据之间的变化内容较小,因此能够迅速确定标注任务,提高对待标注数据的标注效率。
可选的,服务器91可以根据多个待标注数据和任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度;然后,服务器91向客户端92发送至少一个待标注数据序列。客户端92则用于接收至少一个待标注数据序列。
具体的,服务器91可以根据任意两个待标注数据之间的相似度,对多个待标注数据进行排序,得到排序后的待标注数据;然后,根据排序后的待标注数据,获取至少一个待标注数据序列。
在获取了至少一个待标注数据序列后,服务器91需要分发待标注数据序列。
可选的,针对至少一个待标注数据序列中的任意待标注数据序列i,服务器91可向第一客户端发送待标注数据序列i中的任意待标注数据。
第一客户端用于对任意待标注数据进行标注,并向服务器91发送所述任意待标注数据的标注结果。
服务器91还用于从第一客户端接收任意待标注数据的标注结果,并在待标注数据序列i中除任意待标注数据外的其他待标注数据上添加标注结果;之后,服务器91向第二客户端发送待标注数据序列i中添加了标注结果的待标注数据。
第二客户端用于接收待标注数据序列i中添加了标注结果的待标注数据。
由于同一待标注数据序列中的任意两个待标注数据之间的相似度较高,因此在其中的一个待标注数据标注完成后,通过服务器91使各个待标注数据均共享标注结果,然后标注人员可以在该标注结果的基础上进行调整,从而能够大大提高标注的效率。
进一步的,对于待标注数据,可能存在多个属性信息。服务器91可以根据多个属性信息中的任意一个来确定待标注数据之间的相似度,也可以选择与标注任务最相关的属性信息来确定待标注数据之间的相似度。
例如,服务器91可以获取标注任务,并确定每个属性信息与标注任务的关联度,然后再根据每个属性信息与标注任务的关联度,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
具体的,服务器91可以根据每个属性信息与标注任务的关联度,得到每个属性信息对应的优先级,然后根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度。
通过上述的实现方式,排序后的待标注数据中,与标注任务的关联度较高的属性信息对应的待标注数据能够比较接近,可以实现较快的标注。
以待标注数据为待标注图像,标注任务为人脸标注任务,属性信息包括图像地点、图像时间和图像内容为例,服务器91可以根据每个属性信息与人脸标注任务的关联度,确定各属性信息的优先级从高到低依次为图像内容、图像地点、图像时间。其中,图像内容与人脸标注任务的相关度是最高的,因此具有最高的优先级,图像地点次之,图像时间与人脸标注任务的相关度最低。
以待标注数据为待标注语音,标注任务为语音标注任务,属性信息包括语音地点、语音时间和语音人员为例,服务器91可以根据每个属性信息与语音标注任务的关联度,确定各属性信息的优先级从高到低依次为语音人员、语音地点、语音时间。其中,语音人员与语音标注任务的相关度是最高的,因此具有最高的优先级,语音地点次之,语音时间与语音标注任务的相关度最低。
在一种可能的实施方式中,服务器91具体用于:
获取多个待标注数据;
针对每个待标注数据,对所述待标注数据进行预处理,得到所述待标注数据的至少一个属性信息。
在一种可能的实施方式中,至少一个客户端92还用于,对接收到的多个待标注数据进行标注处理,得到对应的多个结构化数据;向服务器91发送多个结构化数据;
服务器91还用于,接收多个结构化数据,其中,接收的多个结构化数据可用于进行机器学习模型的训练。
图10为本申请实施例提供的数据分发设备的硬件结构示意图,如图10所示,该数据分发设备包括:至少一个处理器101和存储器102。其中,处理器101和存储器102通过总线103连接。
可选地,该模型确定还包括通信部件。例如,通信部件可以包括接收器和/或发送器。
在具体实现过程中,至少一个处理器101执行所述存储器102存储的计算机执行指令,使得至少一个处理器101执行如上的数据分发方法。
处理器101的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述图10所示的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的数据分发方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (7)

1.一种数据分发方法,其特征在于,包括:
获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度,包括:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
其中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容,各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间;
或者,
所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员,各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
2.根据权利要求1所述的方法,其特征在于,根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,包括:
根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,其中,同一个待标注数据序列中的任意两个待标注数据之间的相似度大于不同的待标注数据序列中的任意两个待标注数据之间的相似度;
向所述客户端发送所述至少一个待标注数据序列。
3.根据权利要求2所述的方法,其特征在于,根据所述多个待标注数据和所述任意两个待标注数据之间的相似度,获取至少一个待标注数据序列,包括:
根据所述任意两个待标注数据之间的相似度,对所述多个待标注数据进行排序,得到排序后的待标注数据;
根据所述排序后的待标注数据,获取所述至少一个待标注数据序列。
4.根据权利要求2所述的方法,其特征在于,向所述客户端发送所述至少一个待标注数据序列,包括:
针对所述至少一个待标注数据序列中的任意待标注数据序列i,向第一客户端发送所述待标注数据序列i中的任意待标注数据;
从所述第一客户端接收所述任意待标注数据的标注结果,并在所述待标注数据序列i中除所述任意待标注数据外的其他待标注数据上添加所述标注结果;
向第二客户端发送所述待标注数据序列i中添加了所述标注结果的待标注数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
接收多个结构化数据,其中,每个结构化数据为对所述待标注数据进行标注后得到的数据。
6.一种数据分发装置,其特征在于,包括:
获取模块,用于获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
处理模块,用于根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
分发模块,用于根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据;
所述处理模块具体用于:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
其中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容,各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间;
或者,
所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员,各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
7.一种数据分发系统,其特征在于,包括服务器和客户端,其中:
所述服务器用于:
获取多个待标注数据和每个所述待标注数据的至少一个属性信息;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
根据所述任意两个待标注数据之间的相似度,向客户端发送待标注数据序列,所述待标注数据序列中包括所述多个待标注数据中的全部或部分待标注数据;
所述客户端用于接收所述服务器发送的待标注数据序列;
根据所述至少一个属性信息,确定所述多个待标注数据中的任意两个待标注数据之间的相似度,包括:
获取标注任务;
确定每个属性信息与所述标注任务的关联度;
根据每个属性信息与所述标注任务的关联度,得到每个属性信息对应的优先级;
根据每个待标注数据的属性信息和属性信息对应的优先级,确定所述多个待标注数据中的任意两个待标注数据之间的相似度;
其中,所述待标注数据为待标注图像,所述标注任务为人脸标注任务,所述属性信息包括图像地点、图像时间和图像内容,各属性信息的优先级从高到低依次为所述图像内容、所述图像地点、所述图像时间;
或者,
所述待标注数据为待标注语音,所述标注任务为语音标注任务,所述属性信息包括语音地点、语音时间和语音人员,各属性信息的优先级从高到低依次为所述语音人员、所述语音地点、所述语音时间。
CN202010330799.6A 2020-04-24 2020-04-24 数据分发方法、装置及系统 Active CN113553144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010330799.6A CN113553144B (zh) 2020-04-24 2020-04-24 数据分发方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010330799.6A CN113553144B (zh) 2020-04-24 2020-04-24 数据分发方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113553144A CN113553144A (zh) 2021-10-26
CN113553144B true CN113553144B (zh) 2023-09-26

Family

ID=78129517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010330799.6A Active CN113553144B (zh) 2020-04-24 2020-04-24 数据分发方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113553144B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106650775A (zh) * 2016-10-12 2017-05-10 南京理工大学 可同时挖掘视觉和语义相似性的图像标注方法
CN107015998A (zh) * 2016-01-28 2017-08-04 阿里巴巴集团控股有限公司 一种图片处理方法、装置和智能终端
WO2017208423A1 (ja) * 2016-06-02 2017-12-07 オリンパス株式会社 画像処理装置、画像処理方法および画像処理プログラム
CN108875768A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN108960297A (zh) * 2018-06-15 2018-12-07 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
CN110910427A (zh) * 2019-12-04 2020-03-24 数据堂(北京)智能科技有限公司 一种交互式视频数据标注方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016119508A (ja) * 2014-12-18 2016-06-30 株式会社東芝 方法、システム及びプログラム
US10701263B2 (en) * 2017-07-18 2020-06-30 Ricoh Company, Ltd. Browsing system, image distribution apparatus, and image distribution method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015998A (zh) * 2016-01-28 2017-08-04 阿里巴巴集团控股有限公司 一种图片处理方法、装置和智能终端
WO2017208423A1 (ja) * 2016-06-02 2017-12-07 オリンパス株式会社 画像処理装置、画像処理方法および画像処理プログラム
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106650775A (zh) * 2016-10-12 2017-05-10 南京理工大学 可同时挖掘视觉和语义相似性的图像标注方法
CN108875768A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN108960297A (zh) * 2018-06-15 2018-12-07 北京金山云网络技术有限公司 图片的标注方法、标注装置、设备及存储介质
CN110910427A (zh) * 2019-12-04 2020-03-24 数据堂(北京)智能科技有限公司 一种交互式视频数据标注方法及装置

Also Published As

Publication number Publication date
CN113553144A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
WO2021088510A1 (zh) 视频分类方法、装置、计算机以及可读存储介质
US11461392B2 (en) Providing relevant cover frame in response to a video search query
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US9280701B2 (en) Grouping face images using statistic distribution estimate
CN110443236B (zh) 贷后文本要点信息提取方法及装置
CN107122786B (zh) 一种众包学习方法及装置
CN111767396B (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN109472017B (zh) 获得待生成裁判文书本院认为段相关信息的方法及装置
US20140359012A1 (en) Non-transitory computer readable medium, information sharing support system, and information sharing support method
CN112328833B (zh) 标签处理方法、装置及计算机可读存储介质
CN110765760B (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN112287914A (zh) Ppt视频段提取方法、装置、设备及介质
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112995690A (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN110169055B (zh) 一种生成镜头信息的方法和装置
CN105488470A (zh) 确定人物属性信息的方法及装置
CN113821602A (zh) 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN113553144B (zh) 数据分发方法、装置及系统
CN111507405A (zh) 图片标注方法、装置、电子设备及计算机可读存储介质
KR20180087772A (ko) 이미지 군집화 및 공유 방법, 그리고 이를 구현한 시스템 및 어플리케이션
TW202011231A (zh) 資料分析方法及資料分析系統
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN110381367B (zh) 一种视频处理方法、设备及计算机可读存储介质
CN111143626A (zh) 团伙识别方法、装置、设备及计算机可读存储介质
KR102023687B1 (ko) 서버의 이미지 공유 방법, 그리고 이를 구현한 시스템 및 어플리케이션

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant