CN115248831B - 一种标注方法、装置、系统、设备及可读存储介质 - Google Patents
一种标注方法、装置、系统、设备及可读存储介质 Download PDFInfo
- Publication number
- CN115248831B CN115248831B CN202110468042.8A CN202110468042A CN115248831B CN 115248831 B CN115248831 B CN 115248831B CN 202110468042 A CN202110468042 A CN 202110468042A CN 115248831 B CN115248831 B CN 115248831B
- Authority
- CN
- China
- Prior art keywords
- data
- marked
- labeling
- resource pool
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000015654 memory Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
Abstract
本申请公开了一种标注方法、装置、系统、设备及可读存储介质,涉及计算机技术领域,以提高标注效率。该方法包括:从云存储平台获取待标注数据;获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;将所述目标待标注数据分别存储到所述标注任务对应的ES集群中,以对所述ES集群中的目标待标注数据进行标注。本申请实施例可以提高标注效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种标注方法、装置、系统、设备及可读存储介质。
背景技术
近年来,随着大数据、云计算和人工智能的快速发展,各种机器学习框架和算法也应运而生,并且在电商、金融等行业都得到了广泛应用。
各种算法能够得到广泛应用的前提是算法训练出来的模型效果好,准确率高,因此,这就需要大量的训练数据集来进行模型训练。对于不同的行业,不同的业务场景,需要针对不同的场景标注相应的数据。
通常有两种数据标注方式,一是通过excel进行数据离线标注,二是利用现有标注软件,通过软件将数据导入到数据库中,然后再进行在线标注。但是,现有技术的两种方式的标注效率较低。
发明内容
本申请实施例提供一种标注方法、装置、系统、设备及可读存储介质,以提高标注效率。
第一方面,本申请实施例提供了一种标注方法,包括:
从云存储平台获取待标注数据;
获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;
根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;
将所述目标待标注数据分别存储到所述标注任务对应的ES(Elastic Search,弹性搜索)集群中,以对所述ES集群中的目标待标注数据进行标注。
第二方面,本申请实施例还提供了一种标注装置,包括:
第一获取模块,用于从云存储平台获取待标注数据;
第二获取模块,用于获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;
第一分配模块,用于根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;
第一存储模块,用于将所述目标待标注数据分别存储到所述标注任务对应的ES集群中,以对所述ES集群中的目标待标注数据进行标注。
第三方面,本申请实施例提供了一种标注系统,包括:云存储平台,标注任务分配装置,ES集群;
所述云存储平台,用于存储待标注数据;
所述标注任务分配装置,用于从所述云存储平台获取待标注数据;获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;将所述目标待标注数据分别存储到所述标注任务对应的ES集群中;
所述ES集群,用于从所述标注任务分配装置获取目标标注数据,并存储所述目标标注数据的标注结果。
第四方面,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的标注方法中的步骤。
第五方面,本申请实施例还提供了一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的标注方法中的步骤。
在本申请实施例中,从云存储平台获取待标注数据,并获取所述待标注数据的待标注数据资源池。之后,再从所述待标注数据资源池中,根据所述索引为标注任务分配目标待标注数据;将所述目标待标注数据分别存储到所述标注任务对应的ES集群中。通过以上描述可以看出,在本申请实施例中,利用云存储平台进行数据的存储并且借助ES集群维护已标注的数据,使得本申请实施例的方案可应对大数据量的场景,并将标注流程中的多个任务进行解耦,从而利用本申请实施例的方案可针对不同的业务场景快速的给予响应,提高了标注的效率。
附图说明
图1是本申请实施例提供的标注系统的示意图之一;
图2是本申请实施例提供的标注系统的示意图之二;
图3是本申请实施例提供的标注方法的流程图之一;
图4是本申请实施例提供的任务分配示意图;
图5是本申请实施例提供的标注方法的流程图之二;
图6至图8是本申请实施例提供的操作示意图;
图9是本申请实施例提供的标注装置的结构图。
具体实施方式
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请实施例的标注系统的示意图。结合图1所示,该系统可包括:云存储平台101,标注任务分配装置102,ES集群103。
其中,所述云存储平台101,用于存储待标注数据;所述标注任务分配装置102,用于从所述云存储平台获取待标注数据;获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;将所述目标待标注数据分别存储到所述标注任务对应的ES集群中;所述ES集群103,用于从所述标注任务分配装置获取目标标注数据,并存储所述目标标注数据的标注结果。其中,云存储平台可以为一个或者多个。ES集群中可包括一个或者多个ES,如ES-1,ES-2等。
可选的,如图2所示,所述系统还可包括:Redis(Remote Dictionary Server,远程字典服务)集群104,用于接收所述标注任务分配装置的请求,所述请求中包括所述云存储平台对应的关键值key;向所述标注任务分配装置发送所述云存储平台对应的值value。Redis集群中可包括一个或者多个Redis,如Redis-1,Redis-2等。若无法获得该云存储平台对应的value,则无法对该云存储平台的数据进行操作。通过这种方式,实现了对某个云存储平台的数据的锁定,从而保证了同一时间只有一个进程来处理该云存储平台的数据,避免了重复操作的可能。结合图2,所述系统还可包括:本地数据库105,用于存储所述标注任务的信息。其中,所述标注任务可包括至少一个标注子任务。其中,本地数据库可分为主数据库和从数据库等,从而保证系统的可靠性。
通过以上描述可以看出,在本申请实施例中,将待标注数据资源池、标注任务、标注数据进行解耦,从而提高了系统的可用性、可维护性、可扩展性,保证了标注任务整个生命周期的可维护性。同时,通过部署云存储平台并且借助ES集群的优势,能够应用于大数据量、业务场景复杂的场景,进而可满足近实时统计的需求。
以下,结合具体的实施例详细描述一下本申请实施例的系统中各组成的工作原理。
参见图3,图3是本申请实施例提供的标注方法的流程图,如图3所示,包括以下步骤:
步骤301、从云存储平台获取待标注数据。
在实际应用中,本地存储的数据可上传到云存储平台上。云存储平台可存储不同类型或者不同业务场景下的待标注数据。例如,文本数据,图像数据等等。
在标注任务分配装置获取了待标注数据后,还可锁定所述待标注数据。具体的,标注任务分配装置向Redis集群发送请求,所述请求中包括所述云存储平台对应的关键值key。当成功获取所述Redis集群发送的所述云存储平台对应的值value时,则锁定所述待标注数据。若能成功获取到对应的value,则可对云存储平台的数据进行操作,否则将无法操作。通过这种方式,实现了对某个云存储平台的数据的锁定,从而保证了同一时间只有一个进程来处理该云存储平台的数据,避免了重复操作的可能。
步骤302、获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引。
在本申请实施例中,所述待标注数据资源池用于存储具有索引的待标注数据。索引可以理解为每个待标注数据的标识,例如,编号等。在具体应用中,可在本地为待标注数据添加索引,也可由标注任务分配装置为其创建索引。当上传到云存储平台之后,标注任务分配装置通过对待标注数据进行分析,可确定其是否在上传到云存储平台时已经具有待标注数据资源池。如果在上传到云存储平台时已经具有待标注数据资源池,那么,则利用待标注数据已有的待标注数据资源池进行后续处理,否则,可为待标注数据创建待标注数据资源池。
具体的,当所述待标注数据不具有索引时,获取所述待标注数据对应的目标业务场景,根据所述目标业务场景以及预先定义的业务场景字典表,为所述待标注数据添加索引,得到所述待标注数据资源池。不同场景对应不同的业务场景字典表,索引的格式,标注结果的存储格式等均可不同。
在实际应用中,可预先设置模型业务场景字典表model_business_dic,也即业务场景字典表。其中,业务场景可包括文本单分类、文本多分类,图像单分类,图像多分类,OCR(Optical Character Recognition,光学字符识别),物体检测等。在此可根据不同的业务类型进行对应的标注任务处理流程。业务场景字典表的格式如表1所示:
表1
在添加索引时,首先可创建一个待标注数据资源池。每个云存储平台可以包括云存储目录,该目录下存储有待标注数据。其中,待标注数据资源池可以以该云存储目录的名称来命名。之后,判断待标注数据对应的标注任务类型,也即对应的目标业务场景。当所述目标业务场景为文本分类时,根据所述预先定义的业务场景字典表,利用搜索引擎为所述待标注数据中的每行文本内容分别添加索引;当所述目标业务场景为与图像处理相关的分类时(图像单分类,图像多分类,OCR,物体检测等),根据所述预先定义的业务场景字典表,利用所述搜索引擎为所述待标注数据中的每个图像数据分别添加索引;之后,利用添加有索引的文本内容或者图像数据形成所述待标注数据资源池。如果标注任务类型不存在,也即不是以上两种类型的业务场景,则不将该待标注数据添加到待标注数据资源池。
其中,搜索引擎可以是elasticsearch,Solr,MeiliSearch,Lucene等。本实施例中优选Lucene为所述待标注数据中添加索引。Lucene作为一个全文检索引擎工具包,易用性非常好,只需掌握少数几个类,简单的API隐藏了索引建立和搜索实现的复杂过程。同时,Lucene定义了一套以8位字节为基础的索引文件格式,使得各类系统或者不同平台的应用能够共享建立的索引文件,在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度,然后通过与原有索引的合并,达到优化的目的。本实施例中,使用Lucene全文检索工具对待标注数据进行操作建立索引,对标注数据的状态进行更新,解决了直接操作文件内容的繁琐和复杂性。当建立了索引之后,在后续分配标注任务、删除标注任务时,可快速的以该索引为基础进行存储或者查找,从而提高了处理效率。
在通过搜索引擎为每条待标注数据添加索引的过程中,可根据不同的目标业务场景添加索引。当目标业务场景为文本分类时,索引可包括待标注唯一ID(标识),文本内容,待标注数据分配状态,任务ID,子任务ID等字段;当目标业务场景为图像分类、OCR、物体检测等时,索引可包括待标注唯一ID,图像名称,待标注数据分配状态,任务ID,子任务ID等字段。
其中,所述待标注唯一ID用于唯一标识该索引,文本内容即待标注数据的具体内容,待标注数据分配状态包括已分配或者未分配等,任务ID用于标识任务,子任务ID用于标识子任务。通过自定义的索引,可以很容易的查询和统计相关任务的标注数据分配情况,从而方便了标注管理者在进行分配标注任务时按需进行分配。
步骤303、根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据。
在此步骤中,可创建标注任务,所述标注任务包括至少一个标注子任务,根据预先设定的分配策略以及所述索引,从所述待标注数据资源池中,为所述至少一个标注子任务分配目标待标注数据。
对于至少一个标注子任务中的第一个子任务,在对其进行分配任务时,可根据预定的分配策略从待标注数据资源池中选择待标注数据进行任务分配。对于已分配的数据,可以对其索引进行标记。在为其他子任务分配待标注数据时,根据索引是否被标记,从待标注数据资源池中选择出未被标记的索引,从未被标记的索引对应的数据中再进行分配。通过这种方式,无需遍历待标注数据资源池中的每个数据,提高了处理效率。
其中,所述分配策略可包括平均分配、按数量自定义分配、按比例自定义分配等。每一种分配策略对应的应用场景不同。如果两个标注人员的对同一个标注任务标注的效率相当,可以采用平均分配策略,将标注数据平均分配给两个标注人员。如果一个高级标注人员和一个初级标注人员,通常情况下,高级标注人员的标注效率更高,可以按照比例分配,高级标注人员标注65%的数据,初级标注人员标注35%的数据。如果一个标注人员一天能够标注500条数据,若分配两天的任务,此时就可以按照数据量进行分配,分配1000条数据给标注人员。
在此基础上,本申请实施例还可将任务及任务所包括的子任务的信息存储到本地数据库中。
其中,任务的信息如表2所示:
表2
子任务的信息如表3所示:
表3
步骤304、将所述目标待标注数据分别存储到所述标注任务对应的ES集群中,以对所述ES集群中的目标待标注数据进行标注。
以图像多分类为例,在向ES集群中导入数据时,可将子任务信息做如图4所示的映射,其中:
字段id:表示在创建待标注数据资源池时,生成的标注唯一id,用于后续的标注任务分配、标注数据更新等;
字段image:表示标注图片的图片名;
字段labels:表示标注标签,存储标注结果标签数据;
字段labelResult:表示标注结果,有效标注表示标注人员正常标注的数据,无效标注表示标注人员对于该条数据不确定应该如何标注,将其状态改为无效;
字段labelStatus:表示标注状态。已标注表示已经标注的数据,未标注表示没有标注的数据。该字段的作用为标注管理人员删除正在标注中的任务时,将未标注的数据重新放入标注资源池,后续创建任务能够再次进行分配。
在ES集群中,标注人员可进行标注,并将标注的结果存储在ES集群中。同时,通过以上映射,可使得标注人员准确的执行各自的标注任务,并记录标注结果。
在本申请实施例中,利用ES能很好的应对大数据量场景。主要原因在于,本申请实施例中采用的是ES集群部署方式,当资源不足时,可增加集群节点,从而实现集群的水平扩展。当需要增加集群节点时,如果满足以下任意一个或者多个条件,即可进行扩容:
(1)集群CPU资源利用率达到第一预设值,如90%;
(2)内存使用率达到第二预设值,如80%;
(3)磁盘使用率达到第三预设值,如80%。
在本申请实施例中,还可对ES索引库进行优化,从而提高数据的查询速率,主要包括:
第一,将热点数据进行缓存,保证热点数据能够及时返回(例如反馈给用户,在界面显示等)。其中,热点数据指的是经常被使用的数据,例如,待标注数据中经常被使用数据,可作为在此的热点数据。第二,优化索引的分片,默认情况下一个索引库有5个分片。为了提升查询速率,在本申请实施例中,将一个索引库设置为1个分片,从而可避免数据过于分散而导致在数据聚合的时候浪费大量时间的问题。同时,在实际应用中还可以增加备份数量,从而保证同一条数据存在多个ES节点,这样也能够增加查询速率。通过上面两点操作,使得ES查询搜索的速率可保持在100毫秒以内。
在上述实施例的基础上,还可将已标注的数据存储到云存储平台上,以进行模型训练。
在本申请实施例中,从云存储平台获取待标注数据,并获取所述待标注数据的待标注数据资源池。之后,再根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;将所述目标待标注数据分别存储到所述标注任务对应的ES集群中。通过以上描述可以看出,在本申请实施例中,利用云存储平台进行数据的存储并且借助ES集群维护已标注的数据,使得本申请实施例的方案可应对大数据量的场景,并将标注流程中的多个任务进行解耦,从而利用本申请实施例的方案可针对不同的业务场景快速的给予响应,提高了标注的效率。
参见图5,图5是本申请实施例提供的标注方法的流程图,如图5所示,包括以下步骤:
步骤501、将待标注的图片数据上传至云存储平台。
在此实施例中,如图6所示,以汽车图片数据为例。
步骤502、标注任务分配装置针对已上传的待标注数据,创建分配任务。
例如,在此实施例中,创建汽车品牌图像多标签分类标注任务,如图7所示。在分配任务之前,还可将该图片数据通过Redis进行锁定。如果这些图片数据没有索引,还需按照前述实施例描述的方式为其建立索引,从而形成数据资源池。
步骤503、标注任务分配装置进行任务分配。
同一个标注任务可以分给多个标注人员进行标注,并且支持平均分配,按数量自定义分配和按比例自定义分配三种类型。假设,在此,将待标注的图片数据平均分配给多个标注人员。
步骤504、获取标注人员的标注结果。
标注人员对已分配的标注任务进行标注,标注完成之后,将标注结果文件(每一行代表一条标注数据)保存至云存储中,数据格式如图8所示。
步骤505、利用标注结果进行模型训练。
例如,将标注结果等输入到待训练的模型中,对该模型进行训练。待训练的模型可包括文本分类模型,图像分类模型,OCR模型等等。
在本申请实施例中,将在线标注整个生命周期解耦。当业务需求变更时,能够快速响应业务需求。将待标注数据存储在标注资源池,标注任务存储在DB,已标注的数据通过ES集群进行统一的维护,提高了系统的可用性、可维护性、可扩展性,方便标注人员、算法工程师对于数据的维护。本方案不仅能够应对大数据量的场景,并且能够进行近实时的标注统计指标,极大的提高了标注人员的标注体验。通过部署容器云平台并且借助ES集群的优势,能够应用于大数据量,业务场景复杂的场景,并且能够满足近实时统计的需求。
本申请实施例还提供了一种标注装置。参见图9,图9是本申请实施例提供的标注装置的结构图。如图9所示,标注装置900包括:
第一获取模块901,用于从云存储平台获取待标注数据;第二获取模块902,用于获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;第一分配模块903,用于根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;第一存储模块904,用于将所述目标待标注数据分别存储到所述标注任务对应的ES集群中,以对所述ES集群中的目标待标注数据进行标注。
可选的,所述装置还可包括:
第二存储模块,用于将所述标注任务的信息存储到本地数据库中。
可选的,所述第二获取模块包括:
第一获取子模块,用于当所述待标注数据不具有索引时,获取所述待标注数据对应的目标业务场景;第二获取子模块,用于根据所述目标业务场景以及预先定义的业务场景字典表,为所述待标注数据添加索引,得到所述待标注数据资源池。
可选的,所述第二获取子模块包括:
第一添加单元,用于当所述目标业务场景为文本分类时,根据所述预先定义的业务场景字典表,利用搜索引擎为所述待标注数据中的每行文本内容分别添加索引;第二添加单元,用于当所述目标业务场景为与图像处理相关的分类时,根据所述预先定义的业务场景字典表,利用搜索引擎为所述待标注数据中的每个图像数据分别添加索引;第一获取单元,用于利用添加有索引的文本内容或者图像数据形成所述待标注数据资源池。
可选的,所述第一分配模块包括:
创建子模块,用于创建标注任务,所述标注任务包括至少一个标注子任务;分配子模块,用于根据预先设定的分配策略以及所述索引,从所述待标注数据资源池中,为所述至少一个标注子任务分配目标待标注数据。
可选的,所述装置还包括:
第一处理模块,用于锁定所述待标注数据。
可选的,所述第一处理模块包括:
第一发送子模块,用于向Redis集群发送请求,所述请求中包括所述云存储平台对应的关键值key;第一处理子模块,用于当成功获取所述Redis集群发送的所述云存储平台对应的值value时,则锁定所述待标注数据。
可选的,所述装置还包括:
第三存储模块,用于将已标注的数据存储到云存储平台上,以进行模型训练。
本申请实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现包括如前所述的标注方法中的步骤。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述标注方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (9)
1.一种标注方法,其特征在于,包括:
从云存储平台获取待标注数据;
获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;
根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;
将所述目标待标注数据分别存储到所述标注任务对应的弹性搜索ES集群中,以对所述ES集群中的目标待标注数据进行标注;
所述获取所述待标注数据的待标注数据资源池,包括:
当所述待标注数据不具有索引时,获取所述待标注数据对应的目标业务场景;
根据所述目标业务场景以及预先定义的业务场景字典表,为所述待标注数据添加索引,得到所述待标注数据资源池;
所述方法还包括:
将所述标注任务的信息存储到本地数据库中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标业务场景以及预先定义的业务场景字典表,为所述待标注数据添加索引,得到所述待标注数据资源池,包括:
当所述目标业务场景为文本分类时,根据所述预先定义的业务场景字典表,利用搜索引擎为所述待标注数据中的每行文本内容分别添加索引;
当所述目标业务场景为与图像处理相关的分类时,根据所述预先定义的业务场景字典表,利用所述搜索引擎为所述待标注数据中的每个图像数据分别添加索引;
利用添加有索引的文本内容或者图像数据形成所述待标注数据资源池。
3.根据权利要求1所述的方法,其特征在于,所述根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据,包括:
创建标注任务,所述标注任务包括至少一个标注子任务;
根据预先设定的分配策略以及所述索引,从所述待标注数据资源池中,为所述至少一个标注子任务分配目标待标注数据。
4.根据权利要求3所述的方法,其特征在于,所述从云存储平台获取待标注数据之后,所述方法还包括:
向远程字典服务Redis集群发送请求,所述请求中包括所述云存储平台对应的关键值key;
当成功获取所述Redis集群发送的所述云存储平台对应的值value时,则锁定所述待标注数据。
5.一种标注装置,其特征在于,包括:
第一获取模块,用于从云存储平台获取待标注数据;
第二获取模块,用于获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;
第一分配模块,用于根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;
第一存储模块,用于将所述目标待标注数据分别存储到所述标注任务对应的ES集群中,以对所述ES集群中的目标待标注数据进行标注;
所述第二获取模块包括:
第一获取子模块,用于当所述待标注数据不具有索引时,获取所述待标注数据对应的目标业务场景;第二获取子模块,用于根据所述目标业务场景以及预先定义的业务场景字典表,为所述待标注数据添加索引,得到所述待标注数据资源池;
所述装置还可包括:
第二存储模块,用于将所述标注任务的信息存储到本地数据库中。
6.一种标注系统,其特征在于,包括:云存储平台,标注任务分配装置,ES集群;
所述云存储平台,用于存储待标注数据;
所述标注任务分配装置,用于从所述云存储平台获取待标注数据;获取所述待标注数据的待标注数据资源池,在所述待标注数据资源池中,所述待标注数据具有索引;根据所述索引,从所述待标注数据资源池中为标注任务分配目标待标注数据;将所述目标待标注数据分别存储到所述标注任务对应的ES集群中;
所述获取所述待标注数据的待标注数据资源池,包括:
当所述待标注数据不具有索引时,获取所述待标注数据对应的目标业务场景;
根据所述目标业务场景以及预先定义的业务场景字典表,为所述待标注数据添加索引,得到所述待标注数据资源池
所述ES集群,用于从所述标注任务分配装置获取目标标注数据,并存储所述目标标注数据的标注结果;
所述系统还包括:
本地数据库,用于存储所述标注任务的信息。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
Redis集群,用于接收所述标注任务分配装置的请求,所述请求中包括所述云存储平台对应的关键值key;向所述标注任务分配装置发送所述云存储平台对应的值value。
8.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现包括如权利要求1至4中任一项所述的标注方法中的步骤。
9.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现包括如权利要求1至4中任一项所述的标注方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468042.8A CN115248831B (zh) | 2021-04-28 | 2021-04-28 | 一种标注方法、装置、系统、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468042.8A CN115248831B (zh) | 2021-04-28 | 2021-04-28 | 一种标注方法、装置、系统、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115248831A CN115248831A (zh) | 2022-10-28 |
CN115248831B true CN115248831B (zh) | 2024-03-15 |
Family
ID=83696236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110468042.8A Active CN115248831B (zh) | 2021-04-28 | 2021-04-28 | 一种标注方法、装置、系统、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115248831B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7111194B1 (en) * | 2003-03-21 | 2006-09-19 | Network Appliance, Inc. | Mirror split brain avoidance |
CN107729378A (zh) * | 2017-07-13 | 2018-02-23 | 华中科技大学 | 一种数据标注方法 |
CN108960297A (zh) * | 2018-06-15 | 2018-12-07 | 北京金山云网络技术有限公司 | 图片的标注方法、标注装置、设备及存储介质 |
CN109062950A (zh) * | 2018-06-22 | 2018-12-21 | 北京奇艺世纪科技有限公司 | 一种文本标注的方法及装置 |
CN110457494A (zh) * | 2019-08-01 | 2019-11-15 | 新华智云科技有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN110659283A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 数据标签处理方法、装置、计算机设备及存储介质 |
CN110826101A (zh) * | 2019-11-05 | 2020-02-21 | 安徽数据堂科技有限公司 | 用于企业的私有化部署数据处理方法 |
US10650278B1 (en) * | 2017-07-21 | 2020-05-12 | Apple Inc. | Semantic labeling of point clouds using images |
CN111159494A (zh) * | 2019-12-30 | 2020-05-15 | 北京航天云路有限公司 | 一种多用户并发处理的数据标注方法 |
CN111340054A (zh) * | 2018-12-18 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 数据标注方法、装置及数据处理设备 |
CN111597936A (zh) * | 2020-05-06 | 2020-08-28 | 深圳市英威诺科技有限公司 | 基于深度学习的人脸数据集标注方法、系统、终端及介质 |
CN112711483A (zh) * | 2020-12-10 | 2021-04-27 | 广州广电运通金融电子股份有限公司 | 一种处理大数据标注服务高并发方法、系统及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150170B2 (en) * | 2008-05-30 | 2012-04-03 | Microsoft Corporation | Statistical approach to large-scale image annotation |
US11455383B2 (en) * | 2019-04-30 | 2022-09-27 | TruU, Inc. | Supervised and unsupervised techniques for motion classification |
-
2021
- 2021-04-28 CN CN202110468042.8A patent/CN115248831B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7111194B1 (en) * | 2003-03-21 | 2006-09-19 | Network Appliance, Inc. | Mirror split brain avoidance |
CN107729378A (zh) * | 2017-07-13 | 2018-02-23 | 华中科技大学 | 一种数据标注方法 |
US10650278B1 (en) * | 2017-07-21 | 2020-05-12 | Apple Inc. | Semantic labeling of point clouds using images |
CN108960297A (zh) * | 2018-06-15 | 2018-12-07 | 北京金山云网络技术有限公司 | 图片的标注方法、标注装置、设备及存储介质 |
CN109062950A (zh) * | 2018-06-22 | 2018-12-21 | 北京奇艺世纪科技有限公司 | 一种文本标注的方法及装置 |
CN111340054A (zh) * | 2018-12-18 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 数据标注方法、装置及数据处理设备 |
CN110457494A (zh) * | 2019-08-01 | 2019-11-15 | 新华智云科技有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN110659283A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 数据标签处理方法、装置、计算机设备及存储介质 |
CN110826101A (zh) * | 2019-11-05 | 2020-02-21 | 安徽数据堂科技有限公司 | 用于企业的私有化部署数据处理方法 |
CN111159494A (zh) * | 2019-12-30 | 2020-05-15 | 北京航天云路有限公司 | 一种多用户并发处理的数据标注方法 |
CN111597936A (zh) * | 2020-05-06 | 2020-08-28 | 深圳市英威诺科技有限公司 | 基于深度学习的人脸数据集标注方法、系统、终端及介质 |
CN112711483A (zh) * | 2020-12-10 | 2021-04-27 | 广州广电运通金融电子股份有限公司 | 一种处理大数据标注服务高并发方法、系统及设备 |
Non-Patent Citations (3)
Title |
---|
Online Semi-supervised Growing Neural Gas for Multi-label Data Classification;S. Boulbazine等;International Joint Conference on Neural Networks (IJCNN);20181014;第2018卷;1-8 * |
基于深度学习的地址信息自动标注研究;凌广明等;《电子学报》;20201115;第48卷(第11期);2081-2091 * |
自动驾驶场景库数据系统的设计与实现;郭建朋;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190715;第2019卷(第7期);I138-425 * |
Also Published As
Publication number | Publication date |
---|---|
CN115248831A (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102198680B1 (ko) | 확장 가능한 멀티-스테이지 데이터 처리 시스템들에서의 효율적인 데이터 캐싱 관리 | |
CN107844634A (zh) | 多元通用模型平台建模方法、电子设备及计算机可读存储介质 | |
CN103377336A (zh) | 一种计算机系统用户权限的控制方法和系统 | |
CN112465032A (zh) | 训练数据标注任务的分配方法及装置、计算设备 | |
CN104750776A (zh) | 使用元数据访问数据库平台中的信息内容 | |
CN112732949A (zh) | 一种业务数据的标注方法、装置、计算机设备和存储介质 | |
CN107729330B (zh) | 获取数据集的方法和装置 | |
CN111159183A (zh) | 报表生成方法、电子装置及计算机可读存储介质 | |
US20220138343A1 (en) | Method of determining data set membership and delivery | |
CN115248831B (zh) | 一种标注方法、装置、系统、设备及可读存储介质 | |
CN112785248A (zh) | 人力资源数据跨组织交互方法、装置、设备和存储介质 | |
CN114895875B (zh) | 一种零代码可视化信息系统元数据的生产应用方法及系统 | |
CN112650748A (zh) | 业务线索分配方法、装置、电子设备及可读存储介质 | |
CN112579539B (zh) | 企业集群大数据的管理方法及系统 | |
CN115062676A (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN111309821B (zh) | 基于图数据库的任务调度方法、装置及电子设备 | |
CN113761102A (zh) | 数据处理方法、装置、服务器、系统和存储介质 | |
CN105447183A (zh) | Mpp架构数据库集群序列系统及序列管理方法 | |
CN113127574A (zh) | 基于知识图谱的业务数据展示方法、系统、设备及介质 | |
CN113391916A (zh) | 组织架构数据处理方法、装置、计算机设备和存储介质 | |
US11893772B1 (en) | Artificial intelligence system with iterative two-phase active learning | |
US20230067107A1 (en) | Managing vertex level access in a graph via user defined tag rules | |
CN110825959B (zh) | 数据发送方法及榜单数据获取模型的选择方法及装置 | |
US11893012B1 (en) | Content extraction using related entity group metadata from reference objects | |
CN113703986B (zh) | 一种基于大数据的信息管理系统与方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |