CN110750667A - 辅助标注方法、装置、设备及存储介质 - Google Patents

辅助标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110750667A
CN110750667A CN201810730974.3A CN201810730974A CN110750667A CN 110750667 A CN110750667 A CN 110750667A CN 201810730974 A CN201810730974 A CN 201810730974A CN 110750667 A CN110750667 A CN 110750667A
Authority
CN
China
Prior art keywords
labeling
labeled
auxiliary
user
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810730974.3A
Other languages
English (en)
Inventor
黄缨宁
孙佳维
陈天伦
陈雨强
胡时伟
戴文渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201810730974.3A priority Critical patent/CN110750667A/zh
Publication of CN110750667A publication Critical patent/CN110750667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明提供了一种辅助标注方法、装置、设备及存储介质。辅助标注方法包括:向用户展示待标注对象;获取用于提示待标注对象的标注结论的辅助提示信息;以及向用户提供辅助提示信息,以便用户基于辅助提示信息在待标注对象中执行人为标注。由此,可以在一定程度上减少用户执行标注所付出的劳力,降低人工标注成本。

Description

辅助标注方法、装置、设备及存储介质
技术领域
本发明总体说来涉及信息技术领域,更具体地讲,涉及一种辅助标注方法、装置、设备及存储介质。
背景技术
随着信息技术和互联网的飞速发展,各行业甚至各商家都逐渐积累了海量数据,从而能够在越来越多的场景下对数据进行利用,以使得数据更好地驱动生产、经营、生活等各种活动。为了能够更好地利用数据(例如,应用于机器学习、数据挖掘等),通常需要对这些数据进行标注。
目前,主要是通过人工标注的方式,逐个对待标注数据进行人为标注,将人为标注结果作为数据的标注结果,这种人工标注方式完全依赖于用户的主动识别来完成标注,标注效率低,人力成本较大,此外,还可能会因标注人的疲劳操作而降低标注准确率。
发明内容
本发明的一个目的在于提供一种辅助标注方法及装置,以解决现有技术存在的上述问题。
根据本发明的第一个方面,提出了一种辅助标注方法,包括:向用户展示待标注对象;获取用于提示待标注对象的标注结论的辅助提示信息;以及向用户提供所述辅助提示信息,以便所述用户基于所述辅助提示信息在待标注对象中执行人为标注。
可选地,所述获取用于提示待标注对象的标注结论的辅助提示信息的步骤包括:基于与所述待标注对象相同或相似的对象的标注结论,得到所述辅助提示信息。
可选地,与所述待标注对象相同或相似的对象包括以下项之中的至少一项:从存储了各种对象的数据库中选取的与所述待标注对象相同或相似的对象、通过网络获取的与所述待标注对象相同或相似的对象、与所述待标注对象属于同一标注任务中的已标注对象。
可选地,所述获取用于提示待标注对象的标注结论的辅助提示信息的步骤包括:获取机器学习模型针对所述待标注对象的预测结果,以作为所述辅助提示信息,其中,所述机器学习模型被训练为用于预测待标注对象的标注结论。
可选地,所述机器学习模型是基于至少一部分与所述待标注对象属于同一标注任务中的已标注对象及其人为标注结果而训练出的;或者,所述机器学习模型是基于与所述待标注对象相同或相似的非标注对象及其真实标注结论而训练出的。
可选地,辅助标注方法还包括:响应于用户执行的人为标注而获取所述待标注对象的人为标注结果;以及基于所述待标注对象及其人为标注结果,更新所述机器学习模型。
可选地,所述更新机器学习模型的步骤包括:对所述待标注对象的人为标注结果进行审核,并利用审核通过的待标注对象及其人为标注结果来重新训练或增量训练所述机器学习模型。
可选地,所述更新机器学习模型的步骤包括:基于人为标注结果与所述辅助提示信息之间的差异大于第一预定阈值的待标注对象及其人为标注结果,更新所述机器学习模型。
可选地,辅助标注方法还包括:响应于用户执行的人为标注而获取所述待标注对象的人为标注结果;以及将所述人为标注结果与辅助提示信息之间的差异提供给用户。
可选地,辅助标注方法还包括:根据所述用户和一个或多个其他用户对同一待标注对象的人为标注结果的差异,对所述用户的标注质量进行评价;和/或,根据所述用户对具有真实标注结论的待标注对象的人为标注结果与所述真实标注结论的差异,对所述用户的标注质量进行评价;和/或,根据所述人为标注结果与辅助提示信息之间的差异,对所述用户的标注质量进行评价。
根据本公开的第二个方面,还提供了一种辅助标注装置,包括:展示模块,用于向用户展示待标注对象;第一获取模块,用于获取用于提示待标注对象的标注结论的辅助提示信息;以及第一提供模块,用于向用户提供所述辅助提示信息,以便所述用户基于所述辅助提示信息在待标注对象中执行人为标注。
可选地,所述第一获取模块基于与所述待标注对象相同或相似的对象的标注结论,得到所述辅助提示信息。
可选地,与所述待标注对象相同或相似的对象包括以下项之中的至少一项:从存储了各种对象的数据库中选取的与所述待标注对象相同或相似的对象、通过网络获取的与所述待标注对象相同或相似的对象、与所述待标注对象属于同一标注任务中的已标注对象。
可选地,所述第一获取模块获取机器学习模型针对所述待标注对象的预测结果,以作为所述辅助提示信息,其中,所述机器学习模型被训练为用于预测待标注对象的标注结论。
可选地,所述机器学习模型是基于至少一部分与所述待标注对象属于同一标注任务中的已标注对象及其人为标注结果而训练出的;或者,所述机器学习模型是基于与所述待标注对象相同或相似的非标注对象及其真实标注结论而训练出的。
可选地,辅助标注装置,还包括:第二获取模块,用于响应于用户执行的人为标注而获取所述待标注对象的人为标注结果;以及更新模块,用于基于所述待标注对象及其人为标注结果,更新所述机器学习模型。
可选地,所述更新模块包括:审核模块,用于对所述待标注对象的人为标注结果进行审核;以及更新子模块,用于利用审核通过的待标注对象及其人为标注结果来重新训练或增量训练所述机器学习模型。
可选地,所述更新模块基于人为标注结果与所述辅助提示信息之间的差异大于第一预定阈值的待标注对象及其人为标注结果,更新所述机器学习模型。
可选地,辅助标注装置,还包括:第三获取模块,用于响应于用户执行的人为标注而获取所述待标注对象的人为标注结果;以及第二提供模块,用于将所述人为标注结果与辅助提示信息之间的差异提供给用户。
可选地,辅助标注装置,还包括:第一评价模块,用于根据所述用户和一个或多个其他用户对同一待标注对象的人为标注结果的差异,对所述用户的标注质量进行评价;第二评价模块,用于根据所述用户对具有真实标注结论的待标注对象的人为标注结果与所述真实标注结论的差异,对所述用户的标注质量进行评价;和/或,第三评价模块,用于根据所述人为标注结果与辅助提示信息之间的差异,对所述用户的标注质量进行评价。
根据本公开的第三个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如本公开第一个方面述及的方法。
根据本公开的第四个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如本公开第一个方面述及的方法。
本发明通过在用户进行人工标注时,向用户提供能够提示待标注对象的标注结论的辅助提示信息,从而可以在一定程度上减少用户执行标注所付出的劳力,降低人工标注成本。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出了根据本发明一实施例的辅助标注方法的示意性流程图。
图2是示出了根据本发明一实施例的标注界面示意图。
图3是示出了根据本公开一实施例的辅助标注装置的结构的示意性方框图。
图4是示出了更新模块可以具有的功能模块的结构示意图。
图5是示出了根据本公开一实施例的计算设备的结构的示意性方框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1是示出了根据本发明一实施例的辅助标注方法的示意性流程图。其中,图1所示的方法可以应用于标注平台,标注平台可以提供标注服务。标注平台的大致工作流程为,标注平台可以接收来自客户或自身的数据标注请求,并将期望标注的数据打包成标注任务,下发给一个或多个能够执行人工标注的用户,由用户对待标注的数据执行人为标注,然后标注平台可以整理人为标注结果,并保存或发送整理后的标注结果。
参见图1,在步骤S110,向用户展示待标注对象。
此处主要是以可视化地形式向用户展示待标注对象。其中,待标注对象可包括待标注的原始数据,例如,待标注对象可以是包括待标注物体(或项目)的图像,也可以是一段包括待标注词性的词语的文本。至于需要在待标注对象中进行标注的物体(或项目)、标注形式以及标注内容,与标注任务的具体标注需求(可以由平台自身或客户来设置)有关。
在步骤S120,获取用于提示待标注对象的标注结论的辅助提示信息。其中,步骤S120可以在步骤S110之前执行,也可以与步骤S110同时或在其之后执行,关于步骤S110和步骤S120的先后执行顺序本公开不做限定。
标注结论可以视为待标注对象的真实标记(label)。应注意,这里描述的是,所获取的辅助提示信息用于提示待标注对象的标注结论,也就是说,辅助提示信息本身并不等同于标注结论,而仅仅是一种初步的标注结论,其作用在于能够在一定程度上提示出待标注对象的真实标注结论。所以,在实际应用中,所获取的辅助提示信息很有可能会偏离待标注对象的真实标注结论,甚至相反。也就是说,虽然步骤S120的本意在获取能够接近待标注对象的真实标注结论的辅助提示信息,但是由于辅助提示信息的获取手段(将在下文述及)不同、准确度不同,最终获取的辅助提示信息也有可能提示错误的标注结论。
在步骤S130,向用户提供辅助提示信息,以便用户基于辅助提示信息在待标注对象中执行人为标注。
此处主要是以可被用户理解的方式向用户提供辅助提示信息,例如可以可视化地向用户展示辅助提示信息。其中,根据标注任务所涉及的标注问题不同,辅助提示信息的内容及展示形式也不尽相同。
一般来说,标注问题主要可以分为分类问题和识别问题。具体又可以细分为图像分类、物体画框、语义分割、图像注释、人脸打点、视频追踪等多种标注问题。其中,图像分类可以是指根据图像内容,选择图像或图像中物体所属的标签,比如所属场景标签、物体种类标签、物体属性标签、人物性别标签、人物年龄标签等等;物体画框可以是指根据标注需求,对图像中的目标物体进行画框,比如图像中的车辆、车牌、行人、道路、建筑、船只、文字、人体部位等画框并打上对应标签;语义分割可以是指根据标注需求,使用用多边形标注图像中目标物体的轮廓,返回所有轮廓组成点的坐标;图像注释可以是指针对图像中具体情景及标注需求,为每张图像生成中文标注语句;人脸打点可以是指针对图像中的人脸及标注需求,对人脸的关键位置,如脸廓、眉毛、眼睛、嘴唇进行定位并打点;视频追踪可以是指从目标视频中按指定频率抽取关键帧,然后对每帧进行画框标注,各帧中同一目标的标签和序号保持一致。
以标注问题是图像分类为例,辅助提示信息可以是待标注对象(即待标注图像)的初步标注结论(例如标签);以标注问题是物体画框为例,辅助提示信息可以包括框选结果和标注信息两部分;以标注问题是语义分割为例,辅助提示信息可以是待标注对象中目标物体的轮廓框选结果;以标注问题是人脸打点为例,辅助提示信息可以是待标注对象中人脸上多个关键位置的打点结果;以标注问题是视频追踪为例,辅助提示信息可以是抽取的每帧画面中目标物体的画框结果。另外,对于其它类型的标注问题,辅助提示信息的具体内容及展示形式也不尽相同,对此本发明不再赘述。
如上文所述,辅助提示信息用于提示待标注对象的标注结论。因此,用户可以基于辅助提示信息在待标注对象中执行人为标注。其中,向用户提供的辅助提示信息可以视为系统默认的标注结论,用户可以根据自身认知,确定辅助提示信息是否与用户想要标注的结果一致,如果认为一致,用户可以通过接受该辅助提示信息,完成待标注对象的标注,由此可以大大提高标注效率。另外,如果用户认为辅助提示信息与用户想要标注的结果稍有差别,用户还可以对辅助提示信息进行调整,例如调整框选范围、调整内容描述等等。更进一步地,如果用户认为该辅助提示信息与用户想要标注的结果差异很大,用户还可以丢弃辅助提示信息,并在待标注对象中执行与辅助提示信息完全不同的人为标注。
作为本发明的一个示例,可以在向用户展示待标注对象的同时,向用户提供辅助提示信息。也就是说,向用户展示的待标注对象中可以包括辅助提示信息。举例来说,标注任务可以是“猪脸标注”,具体标注需求可以是对待标注图像中的猪脸进行框选,因此,辅助提示信息可以是图像中的猪脸框选初步结果。参见图2,待标注对象为图像,图像中的线框即是辅助提示信息,也即猪脸框选初步结果。用户可以接受该框选结果,也可以对框选结果进行重新调整,以重新确定框选范围,例如,用户可以缩小线框范围,并新增一个线框,以分别框选两个猪脸,并较少地框选猪脸外的部分。
可见,辅助提示信息仅用于提示待标注对象的标注结论,其并非一定是准确无误的。因此,用户可以基于自身认知,接受辅助提示信息,也可以对辅助提示信息进行调整,还可以舍弃辅助提示信息,而做出与辅助提示信息完全不同的标注操作。也就是说,辅助提示信息仅起提示作用,最终的标注结果仍掌握在用户手中。
作为本发明的一个示例,可以将人为标注结果与辅助提示信息之间的差异提示给用户。具体地,可以响应于用户执行的人为标注而获取所述待标注对象的人为标注结果,并且将人为标注结果与辅助提示信息之间的差异提供给用户。其中,可以响应于用户执行的人为标注,实时地提示这种差异,也可以仅在差异大于一定阈值(为了便于区分,此处可以称为“第二预定阈值”)的情况下,将这种差异提示给用户,以提示用户关注这种差异过大的标注结果,从而可以在一定程度上降低因用户大意而造成的误标注操作。
至此,结合图1、图2就本发明的辅助标注方案的基本原理及实现过程做说明。下面就本发明涉及的各方面做进一步说明。
【辅助提示信息】
作为示例,可以通过如下两种方式获取辅助提示信息。
1、第一种
可以依靠标注结论已知的对象获取辅助提示信息。具体地,可以基于与待标注对象相同或相似的对象的标注结论,得到辅助提示信息。例如,可以直接将与待标注对象相同或相似的对象的标注结论,作为待标注对象的辅助提示信息。其中,与待标注对象相同或相似的对象的标注结论可以是人为标注结果,也可以是模型预测结果,还可以是真实结论等等。
作为示例,可以通过多种方式获取具有标注结论的与待标注对象相同或相似的对象。
例如,可以从存储了各种对象的数据库中选取具有标注结论的与待标注对象相同或相似的对象。其中,数据库可以是标注平台方维护的数据库,数据库中存储的对象优选地可以是标注结论已知的对象。其中,关于数据库中对象的来源,本公开不做限定,如可以是在平台上经过人工标注后的对象,也可以是具有真实标注结论的对象(例如,公共数据等)。
再例如,也可以通过网络获取具有标注结论的与待标注对象相同或相似的对象,如可以通过网络爬虫的方式获取真实标注结论已知的与待标注对象相同或相似的对象。
还例如,还可以将与待标注对象属于同一标注任务中的其它已标注对象,作为与待标注对象相同或相似的对象。其中,已标注对象可以是经过标注且标注结果检验通过的对象。
另外,还可以采取其它方式获取与待标注对象相同或相似的具有标注结论的对象,并且在获取与待标注对象相同或相似的对象时,可以从上述多种获取方式中任意选取一种或多种,对此本公开不做限定。
2、第二种
可以依靠机器学习模型获取辅助提示信息。具体地,可以获取机器学习模型针对待标注对象的预测结果,以作为辅助提示信息,其中,机器学习模型被训练为用于预测待标注对象的标注结论,例如,可以是针对同一标注任务训练的预测模型。举例来说,在特定客户在平台上发布图像标注任务的情况下(例如,客户把自己猪场的图像数据上传,期待用户来标注),则可以针对该客户(也即该客户的标注任务)训练统一的机器学习模型,而不必考虑不同用户的标注差异。机器学习模型可以被训练为用于预测待标注对象的标注结论,所预测的标注结论即可以作为辅助提示信息。
作为本发明的一个示例,机器学习模型可以是基于至少一部分与待标注对象属于同一标注任务中的已标注对象及其人为标注结果而训练出的。也就是说,可以将同一标注任务中的至少一部分已标注对象及其人为标注结果,作为训练样本,进行模型训练。其中,这里的训练样本优选地可产生自人为标注结果得到检验认可的已标注对象,也就是说,该已标注对象及其人为标注结果可作为模型的训练样本。由此,机器学习模型的训练过程可以在标注任务发布了一段时间从而积攒了适当数量的训练样本之后进行。
作为本发明的另一个示例,机器学习模型也可以是基于与待标注对象相同或相似的非标注对象及其真实标注结论而训练出的。也就是说,可以将与待标注对象相同或相似的非标注对象及其真实标注结论作为训练样本,进行模型训练。其中,非标注对象可以是真实标注结论已知的对象,例如,可以是数据库中收集的已知数据、先前存有数据或者网络来源的数据等等。由此,还可以解决冷启动问题,使得机器学习模型的训练过程可以事先进行,如可以在向用户下发标注任务,展示待标注对象前,针对该标注任务提前训练机器学习模型。
【机器学习模型】
如上文所述,机器学习模型被训练为用于预测待标注对象的标注结论,所预测的标注结论即可以作为辅助提示信息。因此,机器学习模型预测的准确度越高,向用户提供的辅助提示信息越加接近真实标注结论,用户基于辅助提示信息执行人为标注所付出的劳动也就越小,人工标注成本也就越低。
基于这种考虑,本发明提出,可以根据用户针对待标注对象的人为标注结果,反过来对机器学习模型进行更新,以提高机器学习模型的预测结果的准确性。具体地,可以响应于用户执行的人为标注而获取待标注对象的人为标注结果,并基于待标注对象及其人为标注结果,更新机器学习模型。
由于人为标注结果是基于用户自身认知得到的,并不一定是准确的。因此,优选地,可以对待标注对象的人为标注结果进行审核,并利用审核通过的待标注对象及其人为标注结果来重新训练或增量训练机器学习模型。例如,在分类任务下,可以将审核通过的待标注对象的特征作为训练样本的特征,人为标注结果作为训练样本的标记,构造训练样本,重新训练或增量训练机器学习模型。其中,模型的重新训练或增量训练过程为本领域成熟技术,此处不再赘述。
作为本发明的一个示例,可以重点学习与模型的预测结果(即辅助提示信息)差异较大的人为标注结果(前提是该差异不是用户胡乱标注引起的)。也就是说,可以基于人为标注结果与辅助提示信息之间的差异大于第一预定阈值的待标注对象及其人为标注结果,更新机器学习模型。其中,这里的人为标注结果可以是审核通过的结果,也就是说,可以将审核通过的且差异大于第一预定阈值的人为标注结果及待标注对象作为训练样本,来更新机器学习模型。
作为可选方式,还可额外获取待标注对象的反馈标注结果,以构成用于更新机器学习模型的训练样本。具体说来,在标注平台上可额外建立反馈机制,能够收集关于待标注对象的反馈标注结果(例如,其他主体通过对用户的人为标注结果进行纠正而得到的反馈标注结果),并进而基于具有反馈标注结果的待标注对象来更新机器学习模型。
如上文所述,作为示例,机器学习模型可以基于平台产生或收集的标注数据而不断得到更新,从而提高辅助提示信息的准确性。
【标注质量评价】
为了防止用户不经思考而盲目接受辅助提示信息、更好地了解用户的标注结果的可信度、向用户派发报酬、调整用户的标注等级、调整用户的报酬奖励机制等等,可以对用户的标注质量进行评价。例如,可以设置人工审核员来随机抽查用户的标注质量。
作为本发明的一个示例,可以根据用户和一个或多个其他用户对同一待标注对象的人为标注结果的差异,对用户的标注质量进行评价。例如,对于同一标注任务下的同一待标注对象,在将其下发给用户A后,还可以将其下发给多个其他用户,例如用户B、用户C以及用户D,其中下发给多个其他用户时,优选地可以选择标注质量评价较高的用户进行下发。然后可以根据用户A和这多个用户对同一待标注对象的人为标注结果的差异,对用户A的标注质量进行评价,例如可以在用户A的标注结果与其他多个用户的标注结果的差异都较大时,认为用户A的标注质量较差。
作为本发明的另一个示例,还可以根据用户对具有真实标注结论的待标注对象的人为标注结果与真实标注结论的差异,对用户的标注质量进行评价。例如,可以随机地将真实标注结论已知的对象作为待标注对象,发送给用户,由用户对其进行人为标注,然后将人为标注结果与真实标注结论进行比较,如果差异较大,则认为用户标注质量较差,如果人为标注结果与真实标注结论一致或基本一致,则认为用户标注质量较高。
作为本发明的再一个示例,还可以根据人为标注结果与辅助提示信息之间的差异,对用户的标注质量进行评价。例如,在利用机器学习模型获取辅助提示信息的情况下,可以在机器学习模型得到充分的更新训练后,根据人为标注结果与辅助提示信息之间的差异,对用户的标注质量进行评价,如果用户的人为标注结果与辅助提示信息之间的差异较大,则可以认为用户的标注质量较差。其中,可以重点对连续接受辅助提示信息的用户的标注质量进行监督评价。
需要说明的是,可以择一选取上述评价方式对用户的标注质量进行评价,也可以结合上述多种评价方式对用户的标注质量进行评价,对此本公开不做限定。
根据用户的标注质量评价结果,可以对用户的标注等级进行调整,例如可以根据用户的标注质量为用户赋予相应的信用分数。也可以调整用户的标注报酬或惩罚,以激励用户提升标注质量。并且,还可以根据用户的标注质量,向用户下发不同的标注任务。例如,可以向标注质量较高的用户下发报酬高的标注任务,并且对于标注质量较高的用户,可以增加任务下发数量;相应地,可以向标注质量较低的用户下发低报酬的标注任务,并且对于标注质量较低的用户,可以减少任务下发数量。
至此,就本发明的辅助标注方法涉及的细节做了进一步说明。本发明的辅助标注方法还可以实现为一种辅助标注装置。
图3是示出了根据本公开一实施例的辅助标注装置的结构的示意性方框图。其中,辅助标注装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图3所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就辅助标注装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图3,辅助标注装置300包括:展示模块310、第一获取模块320以及第一提供模块330。
展示模块310用于向用户展示待标注对象。
第一获取模块320用于获取用于提示待标注对象的标注结论的辅助提示信息。
作为本发明的一个示例,第一获取模块320可以基于与待标注对象相同或相似的对象的标注结论,得到辅助提示信息,其中,与待标注对象相同或相似的对象包括以下项之中的至少一项:从存储了各种对象的数据库中选取的与待标注对象相同或相似的对象、通过网络获取的与待标注对象相同或相似的对象、与待标注对象属于同一标注任务中的已标注对象。
作为本发明的另一个示例,第一获取模块320也可以获取机器学习模型针对待标注对象的预测结果,以作为辅助提示信息,其中,机器学习模型被训练为用于预测待标注对象的标注结论。其中,机器学习模型是基于至少一部分与待标注对象属于同一标注任务中的已标注对象及其人为标注结果而训练出的;或者,机器学习模型是基于与待标注对象相同或相似的非标注对象及其真实标注结论而训练出的。
第一提供模块330用于向用户提供辅助提示信息,以便用户基于辅助提示信息在待标注对象中执行人为标注。
如图3所示,辅助标注装置还可以可选地包括图中虚线框所示的第二获取模块340和更新模块350。
第二获取模块340用于响应于用户执行的人为标注而获取待标注对象的人为标注结果。更新模块350用于基于待标注对象及其人为标注结果,更新机器学习模型。更新模块350可以基于人为标注结果与辅助提示信息之间的差异大于第一预定阈值的待标注对象及其人为标注结果,更新机器学习模型。
如图4所示,更新模块350可以可选地包括审核模块351和更新子模块353。审核模块351用于对待标注对象的人为标注结果进行审核。更新子模块353用于利用审核通过的待标注对象及其人为标注结果来重新训练或增量训练机器学习模型。
如图3所示,辅助标注装置还可以可选地包括图中虚线框所示的第三获取模块360和第二提供模块370。第三获取模块360用于响应于用户执行的人为标注而获取待标注对象的人为标注结果。第二提供模块370用于将人为标注结果与辅助提示信息之间的差异提供给用户。
如图3所示,辅助标注装置还可以可选地包括图中虚线框所示的第一评价模块380、第二评价模块390以及第三评价模块395中的一个或多个。
第一评价模块380用于根据用户和一个或多个其他用户对同一待标注对象的人为标注结果的差异,对用户的标注质量进行评价。
第二评价模块390用于根据用户对具有真实标注结论的待标注对象的人为标注结果与真实标注结论的差异,对用户的标注质量进行评价。
第三评价模块395用于根据人为标注结果与辅助提示信息之间的差异,对用户的标注质量进行评价。
图5示出了根据本公开一实施例可用于实现上述辅助标注方法的数据处理的计算设备的结构示意图。
参见图5,计算设备500包括存储器510和处理器520。
处理器520可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器520可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器520可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器510可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器510可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器510可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器510上存储有可执行代码,当可执行代码被处理器520执行时,可以使处理器520执行上文述及的辅助标注方法。
上文中已经参考附图详细描述了根据本公开的辅助标注方法、装置以及计算设备。
此外,根据本公开的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种辅助标注方法,其特征在于,包括:
向用户展示待标注对象;
获取用于提示待标注对象的标注结论的辅助提示信息;以及
向用户提供所述辅助提示信息,以便所述用户基于所述辅助提示信息在待标注对象中执行人为标注。
2.根据权利要求1所述的辅助标注方法,其特征在于,所述获取用于提示待标注对象的标注结论的辅助提示信息的步骤包括:
基于与所述待标注对象相同或相似的对象的标注结论,得到所述辅助提示信息。
3.根据权利要求2所述的辅助标注方法,其特征在于,与所述待标注对象相同或相似的对象包括以下项之中的至少一项:从存储了各种对象的数据库中选取的与所述待标注对象相同或相似的对象、通过网络获取的与所述待标注对象相同或相似的对象、与所述待标注对象属于同一标注任务中的已标注对象。
4.根据权利要求1所述的辅助标注方法,其特征在于,所述获取用于提示待标注对象的标注结论的辅助提示信息的步骤包括:
获取机器学习模型针对所述待标注对象的预测结果,以作为所述辅助提示信息,其中,所述机器学习模型被训练为用于预测待标注对象的标注结论。
5.根据权利要求4所述的辅助标注方法,其特征在于,其中:
所述机器学习模型是基于至少一部分与所述待标注对象属于同一标注任务中的已标注对象及其人为标注结果而训练出的;或者,所述机器学习模型是基于与所述待标注对象相同或相似的非标注对象及其真实标注结论而训练出的。
6.根据权利要求4所述的辅助标注方法,其特征在于,还包括:
响应于用户执行的人为标注而获取所述待标注对象的人为标注结果;以及
基于所述待标注对象及其人为标注结果,更新所述机器学习模型。
7.根据权利要求6所述的辅助标注方法,其特征在于,所述更新机器学习模型的步骤包括:
对所述待标注对象的人为标注结果进行审核,并利用审核通过的待标注对象及其人为标注结果来重新训练或增量训练所述机器学习模型。
8.一种辅助标注装置,其特征在于,包括:
展示模块,用于向用户展示待标注对象;
第一获取模块,用于获取用于提示待标注对象的标注结论的辅助提示信息;以及
第一提供模块,用于向用户提供所述辅助提示信息,以便所述用户基于所述辅助提示信息在待标注对象中执行人为标注。
9.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-7中任何一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至7中任一项所述的方法。
CN201810730974.3A 2018-07-05 2018-07-05 辅助标注方法、装置、设备及存储介质 Pending CN110750667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810730974.3A CN110750667A (zh) 2018-07-05 2018-07-05 辅助标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810730974.3A CN110750667A (zh) 2018-07-05 2018-07-05 辅助标注方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110750667A true CN110750667A (zh) 2020-02-04

Family

ID=69274761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810730974.3A Pending CN110750667A (zh) 2018-07-05 2018-07-05 辅助标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110750667A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095919A (zh) * 2015-09-08 2015-11-25 北京百度网讯科技有限公司 图像识别方法和装置
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
US9536522B1 (en) * 2013-12-30 2017-01-03 Google Inc. Training a natural language processing model with information retrieval model annotations
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107832662A (zh) * 2017-09-27 2018-03-23 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
CN107908641A (zh) * 2017-09-27 2018-04-13 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536522B1 (en) * 2013-12-30 2017-01-03 Google Inc. Training a natural language processing model with information retrieval model annotations
CN105095919A (zh) * 2015-09-08 2015-11-25 北京百度网讯科技有限公司 图像识别方法和装置
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107832662A (zh) * 2017-09-27 2018-03-23 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
CN107908641A (zh) * 2017-09-27 2018-04-13 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统

Similar Documents

Publication Publication Date Title
US10657652B2 (en) Image matting using deep learning
US20210271809A1 (en) Machine learning process implementation method and apparatus, device, and storage medium
Kasturi et al. Framework for performance evaluation of face, text, and vehicle detection and tracking in video: Data, metrics, and protocol
CN109348275A (zh) 视频处理方法和装置
EP3623998A1 (en) Character recognition
WO2019062388A1 (zh) 广告效果分析方法及装置
CN109710705A (zh) 地图兴趣点处理方法和装置
US11854238B2 (en) Information insertion method, apparatus, and device, and computer storage medium
CN110647886A (zh) 兴趣点标注方法、装置、计算机设备和存储介质
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN109388725A (zh) 通过视频内容进行搜索的方法及装置
CN110727816A (zh) 兴趣点类别确定方法和装置
KR20230038087A (ko) 영상 데이터에 포함된 텍스트 플레이트 비식별화 방법 및 이를 수행하기 위한 장치
CN114648392A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN112860851B (zh) 基于根因分析的课程推荐方法、装置、设备及介质
Xu et al. Wayfinding design in transportation architecture–are saliency models or designer visual attention a good predictor of passenger visual attention?
Seneviratne et al. Student and lecturer performance enhancement system using artificial intelligence
WO2022038440A1 (en) Distributed dataset annotation system and method of use
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
US11107099B2 (en) Brand penetration determination system using image semantic content
CN112288337A (zh) 行为推荐方法、装置、设备及介质
CN113159146A (zh) 样本生成、目标检测模型训练、目标检测方法及装置
KR20220021689A (ko) 인공지능 디지털 사이니지 시스템 및 이의 운용방법
CN110750667A (zh) 辅助标注方法、装置、设备及存储介质
JP2016133821A (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination