CN109886211B - 数据标注方法、装置、电子设备及存储介质 - Google Patents
数据标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109886211B CN109886211B CN201910138614.9A CN201910138614A CN109886211B CN 109886211 B CN109886211 B CN 109886211B CN 201910138614 A CN201910138614 A CN 201910138614A CN 109886211 B CN109886211 B CN 109886211B
- Authority
- CN
- China
- Prior art keywords
- label
- data
- candidate
- labeled
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本公开是关于一种数据标注方法、装置、电子设备及存储介质,所述方法包括:将样本数据的样本标签与分类模型对样本数据重新添加的第一输出标签进行匹配,基于匹配结果调整分类模型,并且基于分类模型输出的待标注数据的第一候选标签与调整后的分类模型输出的待标注数据的第二候选标签的匹配结果,对待标注数据添加标签。可见,在本方案中,通过调整分类模型,使用更准确的分类模型对待标注数据进行标注,相比于人工标注,减少了数据标注成本。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据标注方法、装置、电子设备及存储介质。
背景技术
一些场景中,需要对图像数据、文本数据或者其他类型的数据进行标注。标注可以理解为对数据添加标签,比如,对图像中的目标进行标注时,添加的标签可以包括是否为人员、是否为车辆等。再比如,对图像中的人员进行标注时,添加的标签可以包括人员的性别、身份、着装信息等。再比如,对文本数据进行标注时,添加的标签可以包括主语、谓语等语义信息。这些带有标签的数据可以应用于深度学习、数据聚类等各种领域中。
目前,一般采用人工标注的方式,比如,对图像中的人员进行标注时,人工识别人员的性别、身份等信息,并将这些信息作为图像的标签。这种人工标注的方式耗费较多人力,比如在深度学习过程中,需要利用大量有标签的图像,这种情况下,人工标注的方式人工成本较高。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据标注方法、装置、电子设备及存储介质,以减小数据标注成本。
根据本公开实施例的第一方面,提供一种数据标注方法,包括:
获取待标注数据、样本数据以及所述样本数据的样本标签;
利用分类模型对所述待标注数据和所述样本数据添加标签,得到所述待标注数据的第一候选标签和所述样本数据的第一输出标签;其中,所述分类模型基于所述样本数据和所述样本标签训练得到;
基于所述样本标签和所述第一输出标签的匹配结果,对所述分类模型进行调整,得到调整后的分类模型;
利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第二候选标签;
基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签。
可选的,所述基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签的步骤,包括:
将所述第一候选标签和所述第二候选标签进行匹配;
若匹配成功,则将匹配成功的第一候选标签或第二候选标签添加为所述待标注数据的标签。
可选的,在所述将所述第一候选标签和所述第二候选标签进行匹配的步骤之后,还包括:
若未匹配成功,则获取未匹配成功的标签的更新标签;
将所述更新标签添加为所述待标注数据的标签。
可选的,在所述将所述更新标签添加为所述待标注数据的标签的步骤之后,还包括:
记录所述更新标签对应的待标注数据的更新次数;
利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第三候选标签;
将所述第三候选标签和所述更新标签进行匹配;
若未匹配成功,则判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值,如果小于,返回执行所述获取未匹配成功的标签的更新标签的步骤。
可选的,所述方法还包括:
利用所述调整后的分类模型对所述样本数据添加标签,得到所述样本数据的第二输出标签;
基于所述第二输出标签和所述第一输出标签的匹配结果,对所述调整后的分类模型进行调整。
根据本公开实施例的第二方面,提供一种数据标注装置,包括:
获取模块,被配置为获取待标注数据、样本数据以及所述样本数据的样本标签;
第一添加模块,被配置为利用分类模型对所述待标注数据和所述样本数据添加标签,得到所述待标注数据的第一候选标签和所述样本数据的第一输出标签;其中,所述分类模型基于所述样本数据和所述样本标签训练得到;
第一调整模块,被配置为基于所述样本标签和所述第一输出标签的匹配结果,对所述分类模型进行调整,得到调整后的分类模型;
第二添加模块,被配置为利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第二候选标签;
第三添加模块,被配置为基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签。
可选的,所述第三添加模块,包括:
第一匹配子模块,被配置为将所述第一候选标签和所述第二候选标签进行匹配;
第一添加子模块,被配置为将匹配成功的第一候选标签或第二候选标签添加为所述待标注数据的标签。
可选的,所述装置还包括:
获取子模块,被配置为在将所述第一候选标签和所述第二候选标签进行匹配之后,如果未匹配成功,获取未匹配成功的标签的更新标签;
第二添加子模块,被配置为将所述更新标签添加为所述待标注数据的标签。
可选的,所述装置还包括:
记录子模块,被配置为在将所述更新标签添加为所述待标注数据的标签之后,记录所述更新标签对应的待标注数据的更新次数;
第三添加子模块,被配置为利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第三候选标签;
第二匹配子模块,被配置为将所述第三候选标签和所述更新标签进行匹配;
判断子模块,被配置为在所述第三候选标签和所述更新标签未匹配成功时,判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值,如果小于,返回执行所述获取未匹配成功的标签的更新标签的步骤。
可选的,所述装置还包括:
第四添加模块,被配置为利用所述调整后的分类模型对所述样本数据添加标签,得到所述样本数据的第二输出标签;
第二调整模块,被配置为基于所述第二输出标签和所述第一输出标签的匹配结果,对所述调整后的分类模型进行调整。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,被配置为存放计算机程序;
所述处理器,被配置为执行所述存储器上所存放的程序时,实现上述任一所述的数据标注方法步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种数据标注方法。
本公开的实施例提供的技术方案可以包括以下有益效果:将样本数据的样本标签与分类模型对样本数据重新添加的第一输出标签进行匹配,基于匹配结果调整分类模型,并且基于分类模型输出的待标注数据的第一候选标签与调整后的分类模型输出的待标注数据的第二候选标签的匹配结果,对待标注数据添加标签。在本方案中,通过调整分类模型,使用更准确的分类模型对待标注数据进行标注,相比于人工标注,减少了数据标注成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为根据一示例性实施例示出的一种数据标注方法的流程图;
图2为根据一示例性实施例示出的数据标注标签更新流程图;
图3为根据一示例性实施例示出的一种数据标注装置框图;
图4为根据一示例性实施例示出的一种用于数据标注的电子设备框图;
图5为根据一示例性实施例示出的另一种用于数据标注的电子设备框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本公开实施例提供了一种数据标注方法、装置、电子设备及存储介质。该方法及装置可以应用于各种电子设备,具体不做限定。下面首先对本公开实施例提供的一种数据标注方法进行介绍。
如图1所示,图1是根据一示例性实施例示出的一种数据标注方法的流程图,可以包括以下步骤:
S101:获取待标注数据、样本数据以及样本数据的样本标签;
待标注数据也就是需要添加标签的数据。举例来说,待标注数据可以为文字数据、图像数据、视频数据或者其他类型的数据等等,具体不做限定。一种情况下,可以获取用户在使用设备过程中产生的数据,从这些数据中选择一些数据作为待标注数据。
样本数据是已被标注的数据,为了方便描述,将样本数据的标签称为样本标签。样本数据可以是文字数据、图像数据、视频数据或者其他类型的数据等等,具体不做限定。
S102:利用分类模型对待标注数据和样本数据添加标签,得到待标注数据的第一候选标签和样本数据的第一输出标签;其中,分类模型基于样本数据和样本标签训练得到;
本发明实施例中,预先利用样本数据和样本标签训练得到分类模型。举例来说,可以以样本标签为监督,利用样本数据对预设结构的神经网络进行训练,得到该分类模型。
举例来说,可以将S101中获取的待标注数据、样本数据及样本标签输入至分类模型中,利用分类模型对待标注数据和样本数据添加标签。为了方便描述,将分类模型第一次为待标注数据添加的标签称为第一候选标签,将分类模型本次(对应于待标注数据的第一次)为样本数据添加的标签称为第一输出标签。
S103:基于样本标签和第一输出标签的匹配结果,对分类模型进行调整,得到调整后的分类模型;
本发明实施例中的分类模型可以理解为一种准确度较低的分类模型,这样,利用该分类模型为样本数据添加的标签(第一输出标签)与样本标签不一定完全匹配。因此,可以根据样本标签和第一输出标签的匹配程度,对分类模型进行调整。
举例来说,如果样本数据为图像数据,所要添加的标签为“是否为人脸区域”,假设样本标签为“是”,第一输出标签也为“是”,这种情况下,样本标签与第一输出标签相同,表示样本标签与第一输出标签匹配成功。
再举一例,如果样本数据为图像数据,所要添加的标签为“性别、年龄、身份信息”,样本标签为“性别:女,年龄:20,身份信息:人员A”,第一输出标签为“性别:女,年龄:25,身份信息:人员A”,这种情况下,可以预先设定标签的匹配程度阈值,如果样本标签与第一输出标签的匹配程度大于该阈值,则表示样本标签与第一输出标签匹配成功。
S104:利用调整后的分类模型对待标注数据添加标签,得到待标注数据的第二候选标签;
一种情况下,在通过S103得到调整后的分类模型之后,利用该调整后的分类模型对待标注数据再次添加标签,得到待标注数据的第二候选标签,以使该第二标签与调整之前的分类模型得到的第一候选标签进行匹配,从而确定待标注数据的标签。
一种实施方式中,S104还可以包括:利用调整后的分类模型对样本数据添加标签,得到样本数据的第二输出标签;基于第二输出标签和第一输出标签的匹配结果,对调整后的分类模型进行调整。
本实施方式中,可以将待标注数据、第一候选标签、样本数据、第一输出标签一并输入至调整后的分类模型中,该调整后的分类模型对待标注数据和样本数据添加标签,为了方便描述,将本次为待标注数据添加的标签称为第二候选标签,将本次为样本数据添加的标签称为第二输出标签。
一种情况下,可以将第二输出标签与调整之前的分类模型得到的第一输出标签进行匹配,如果第二输出标签与第一输出标签相同,则表示第二输出标签与第一输出标签匹配成功。或者,预先设定标签的匹配程度阈值,如果第二输出标签与第一输出标签的匹配程度大于该阈值,则表示第二输出标签与第一输出标签匹配成功。
对调整后的分类模型进行调整,得到再调整后的分类模型之后,可以将待标注数据、第二候选标签、样本数据和第二输出标签再次输入再调整后的分类模型,该再调整后的分类模型对待标注数据和样本数据再次添加标签。如此反复调整分类模型,使用调整后的分类模型添加标签,提高了添加的标签的准确性,从而提高了数据标注准确性。
一种情况下,每次分类模型输出标签后,都可以基于本次输出的标签与输入的标签进行匹配,基于匹配结果对分类模型进行调整;也就是对分类模型进行反复调整,使得分类模型的准确性越来越高。后续利用准确性高的分类模型对数据进行标注,提高了数据标注的准确性。
S105:基于第一候选标签和第二候选标签的匹配结果,对待标注数据添加标签。
一种实施方式中,S105可以包括:将第一候选标签和第二候选标签进行匹配;若匹配成功,则将匹配成功的第一候选标签或第二候选标签添加为待标注数据的标签。
举例来说,如果待标注数据为图像数据,所要添加的标签为“是否为人脸区域”,假设第一候选标签为“是”,第二候选标签也为“是”,这种情况下,第一候选标签与第二候选标签相同,表示第一候选标签与第二候选标签匹配成功,为图像数据添加“人脸区域”的标签。
再举一例,如果待标注数据为图像数据,所要添加的标签为“性别、年龄、身份信息”,第一候选标签为“性别:女,年龄:20,身份信息:人员A”,第二候选标签为“性别:女,年龄:25,身份信息:人员A”,这种情况下,可以预先设定候选标签的匹配程度阈值,如果第一候选标签与第二候选标签的匹配程度大于该阈值,则表示第一候选标签与第二候选标签匹配成功,将匹配成功的第一候选标签或第二候选标签添加为待标注数据的标签。
一种情况下,将第一候选标签和第二候选标签进行匹配;若未匹配成功,则获取未匹配成功的标签的更新标签;将更新标签添加为待标注数据的标签。
如果第一候选标签和第二候选标签未匹配成功,获取第一候选标签的更新标签,该更新标签可以通过人工标注得到。该更新标签比第一候选标签更准确,一种情况下,可以直接将更新标签添加为待标注数据的标签。
一种情况下,在将更新标签添加为待标注数据的标签之后,还包括:记录更新标签对应的待标注数据的更新次数;利用调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第三候选标签;将所述第三候选标签和所述更新标签进行匹配;若未匹配成功,则判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值,如果小于,返回执行获取未匹配成功的标签的更新标签的步骤。
举例来说,参考图2,在将更新标签添加为待标注数据的标签之后,可以继续执行S201:记录更新标签对应的待标注数据的更新次数。第一次执行S201后,记录的更新次数为1,第二次执行S201后,记录的更新次数+1,以此类推。执行S201后将该待标注数据作为新的输入分类模型的数据DBclean,更新标签作为新的输入分类模型的数据的标签Labelclean;
将新的输入分类模型的数据DBclean和新的输入分类模型的数据的标签Labelclean输入调整后的分类模型中,执行S202:利用调整后的分类模型对待标注数据添加标签,得到待标注数据的第三候选标签,也就是利用调整后的分类模型对新的输入分类模型的数据DBclean添加标签,得到新的输入分类模型的数据的第一输出标签Predictionclean;
S203:将第三候选标签与更新标签进行匹配,也就是将新的输入分类模型的数据的第一输出标签Predictionclean与新的输入分类模型的数据的标签Labelclean进行匹配;
S204:判断第三候选标签与更新标签是否匹配;也就是判断新的输入分类模型的数据的第一输出标签Predictionclean与新的输入分类模型的数据的标签Labelclean是否匹配;如果是,则执行S205;如果否,则执行S206;
S205:将匹配成功的标签添加为待标注数据的标签;也就是如果新的输入分类模型的数据的第一输出标签Predictionclean与标签Labelclean匹配,则将新的输入分类模型的数据的标签更新为第一输出标签Predictionclean;
S206:判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值;也就是如果新的输入分类模型的数据的第一输出标签Predictionclean与标签Labelclean不匹配,则判断数据DBclean的更新次数i是否小于预设阈值;如果是,则执行S207;如果更新次数不小于预设阈值,则对匹配不成功的标签进行融合处理,或者将第一输出标签Predictionclean或者标签Labelclean添加为新的输入分类模型的数据的标签;
S207:获取未匹配成功的标签的更新标签;该更新标签可以通过获取人工标注的标签得到;
S208:将更新标签添加为待标注数据的标签;也就是将更新标签添加为新的输入分类模型的数据的标签;返回执行S201;
在执行S202之前,可以获取新的待标注数据DBnoise,将DBnoise输入调整后的分类模型,利用调整后的分类模型对DBnoise添加标签,得到新的待标注数据的第一候选标签Labelnoise,同时基于新的样本数据的第一输出标签与新样本标签的匹配结果,对调整后的分类模型再进行调整,得到新的分类模型,用新的分类模型对DBnoise重新添加标签,得到新的待标注数据的第二候选标签Predictionnoise,将第二候选标签Predictionnoise与第一候选标签Labelnoise匹配,将匹配成功的标签添加为新的待标注数据的标签。
其中,根据多次实验推算,更新两次待标注数据的标签为更新标签之后,可以使得待标注数据标签的准确度接近于目标准确度,因此,预设阈值可以设置为2。
应用图1所示的实施例,将样本数据的样本标签与分类模型对样本数据重新添加的第一输出标签进行匹配,基于匹配结果调整分类模型,并且基于分类模型输出的待标注数据的第一候选标签与调整后的分类模型输出的待标注数据的第二候选标签的匹配结果,对待标注数据添加标签。在本方案中,通过调整分类模型,使用更准确的分类模型对待标注数据进行标注,相比于人工标注,减小了数据标注成本。
图3是根据一示例性实施例示出的一种数据标注装置框图,参照图3,该装置包括获取模块301、第一添加模块302、第一调整模块303、第二添加模块304和第三添加模块305。
该获取模块301,被配置为获取待标注数据、样本数据以及所述样本数据的样本标签;
该第一添加模块302,被配置为利用分类模型对所述待标注数据和所述样本数据添加标签,得到所述待标注数据的第一候选标签和所述样本数据的第一输出标签;其中,所述分类模型基于所述样本数据和所述样本标签训练得到;
该第一调整模块303,被配置为基于所述样本标签和所述第一输出标签的匹配结果,对所述分类模型进行调整,得到调整后的分类模型;
该第二添加模块304,被配置为利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第二候选标签;
该第三添加模块305,被配置为基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签。
在一种实施方式中,所述第三添加模块305,包括:第一匹配子模块和第一添加子模块(图中未示出);
该第一匹配子模块,被配置为将所述第一候选标签和所述第二候选标签进行匹配;
该第一添加子模块,被配置为将匹配成功的第一候选标签或第二候选标签添加为所述待标注数据的标签。
在一种实施方式中,所述装置还包括:获取子模块和第二添加子模块(图中未示出);
该获取子模块,被配置为在将所述第一候选标签和所述第二候选标签进行匹配之后,如果未匹配成功,获取未匹配成功的标签的更新标签;
该第二添加子模块,被配置为将所述更新标签添加为所述待标注数据的标签。
在一种实施方式中,所述装置还包括:记录子模块、第三添加子模块、第二匹配子模块和判断子模块(图中未示出);
该记录子模块,被配置为在将所述更新标签添加为所述待标注数据的标签之后,记录所述更新标签对应的待标注数据的更新次数;
该第三添加子模块,被配置为利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第三候选标签;
该第二匹配子模块,被配置为将所述第三候选标签和所述更新标签进行匹配;
该判断子模块,被配置为在所述第三候选标签和所述更新标签未匹配成功时,判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值,如果小于,返回执行所述获取未匹配成功的标签的更新标签的步骤。
在一种实施方式中,所述装置还包括:第四添加模块和第二调整模块(图中未示出);
该第四添加模块,被配置为利用所述调整后的分类模型对所述样本数据添加标签,得到所述样本数据的第二输出标签;
该第二调整模块,被配置为基于所述第二输出标签和所述第一输出标签的匹配结果,对所述调整后的分类模型进行调整。
应用图3所示的实施例,将样本数据的样本标签与分类模型对样本数据重新添加的第一输出标签进行匹配,基于匹配结果调整分类模型,并且基于分类模型输出的待标注数据的第一候选标签与调整后的分类模型输出的待标注数据的第二候选标签的匹配结果,对待标注数据添加标签。在本方案中,通过调整分类模型,使用更准确的分类模型对待标注数据进行标注,相比于人工标注,减小了数据标注成本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于数据标注的电子设备400框图。例如,电子设备400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,电子设备400可以包括以下一个或多个组件:处理组件402,存储器404,电力组件406,多媒体组件404,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制电子设备400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件404和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为电子设备400生成、管理和分配电力相关联的组件。
多媒体组件404包括在所述电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件404包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当电子设备400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为电子设备400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为电子设备400的显示器和小键盘,传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变,用户与电子设备400接触的存在或不存在,电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。
在示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由电子设备400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的另一种用于数据标注的电子设备500框图。例如,电子设备500可以被提供为一服务器。参照图5,电子设备500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。
电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理,一个有线或无线网络接口550被配置为将电子设备500连接到网络,和一个输入输出(I/O)接口554。电子设备500可以操作基于存储在存储器532的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开根据一示例性实施例还示出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行数据标注的方法,所述方法包括任一所述的数据标注的方法步骤。
本公开根据一示例性实施例还示出了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据标注的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据标注方法,其特征在于,所述方法包括:
获取待标注数据、样本数据以及所述样本数据的样本标签;所述待标注数据包括文字数据、图像数据、视频数据;
利用分类模型对所述待标注数据和所述样本数据添加标签,得到所述待标注数据的第一候选标签和所述样本数据的第一输出标签;其中,所述分类模型基于所述样本数据和所述样本标签训练得到;
基于所述样本标签和所述第一输出标签的匹配结果,对所述分类模型进行调整,得到调整后的分类模型;
利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第二候选标签;
基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签;
利用所述调整后的分类模型对所述样本数据添加标签,得到所述样本数据的第二输出标签;
基于所述第二输出标签和所述第一输出标签的匹配结果,对所述调整后的分类模型进行调整。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签的步骤,包括:
将所述第一候选标签和所述第二候选标签进行匹配;
若匹配成功,则将匹配成功的第一候选标签或第二候选标签添加为所述待标注数据的标签。
3.根据权利要求2所述的方法,其特征在于,在所述将所述第一候选标签和所述第二候选标签进行匹配的步骤之后,还包括:
若未匹配成功,则获取未匹配成功的标签的更新标签;
将所述更新标签添加为所述待标注数据的标签。
4.根据权利要求3所述的方法,其特征在于,在所述将所述更新标签添加为所述待标注数据的标签的步骤之后,还包括:
记录所述更新标签对应的待标注数据的更新次数;
利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第三候选标签;
将所述第三候选标签和所述更新标签进行匹配;
若未匹配成功,则判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值,如果小于,返回执行所述获取未匹配成功的标签的更新标签的步骤。
5.一种数据标注装置,其特征在于,所述装置包括:
获取模块,被配置为获取待标注数据、样本数据以及所述样本数据的样本标签;所述待标注数据包括文字数据、图像数据、视频数据;
第一添加模块,被配置为利用分类模型对所述待标注数据和所述样本数据添加标签,得到所述待标注数据的第一候选标签和所述样本数据的第一输出标签;其中,所述分类模型基于所述样本数据和所述样本标签训练得到;
第一调整模块,被配置为基于所述样本标签和所述第一输出标签的匹配结果,对所述分类模型进行调整,得到调整后的分类模型;
第二添加模块,被配置为利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第二候选标签;
第三添加模块,被配置为基于所述第一候选标签和所述第二候选标签的匹配结果,对所述待标注数据添加标签;
第四添加模块,被配置为利用所述调整后的分类模型对所述样本数据添加标签,得到所述样本数据的第二输出标签;
第二调整模块,被配置为基于所述第二输出标签和所述第一输出标签的匹配结果,对所述调整后的分类模型进行调整。
6.根据权利要求5所述的装置,其特征在于,所述第三添加模块,包括:
第一匹配子模块,被配置为将所述第一候选标签和所述第二候选标签进行匹配;
第一添加子模块,被配置为将匹配成功的第一候选标签或第二候选标签添加为所述待标注数据的标签。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
获取子模块,被配置为在将所述第一候选标签和所述第二候选标签进行匹配之后,如果未匹配成功,获取未匹配成功的标签的更新标签;
第二添加子模块,被配置为将所述更新标签添加为所述待标注数据的标签。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
记录子模块,被配置为在将所述更新标签添加为所述待标注数据的标签之后,记录所述更新标签对应的待标注数据的更新次数;
第三添加子模块,被配置为利用所述调整后的分类模型对所述待标注数据添加标签,得到所述待标注数据的第三候选标签;
第二匹配子模块,被配置为将所述第三候选标签和所述更新标签进行匹配;
判断子模块,被配置为在所述第三候选标签和所述更新标签未匹配成功时,判断未匹配成功的第三候选标签对应的待标注数据的更新次数是否小于预设阈值,如果小于,返回执行所述获取未匹配成功的标签的更新标签的步骤。
9.一种数据标注电子设备,其特征在于,包括:
处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,被配置为存放计算机程序;
所述处理器,被配置为执行所述存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种数据标注方法,所述方法包括权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138614.9A CN109886211B (zh) | 2019-02-25 | 2019-02-25 | 数据标注方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138614.9A CN109886211B (zh) | 2019-02-25 | 2019-02-25 | 数据标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109886211A CN109886211A (zh) | 2019-06-14 |
CN109886211B true CN109886211B (zh) | 2022-03-01 |
Family
ID=66929191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910138614.9A Active CN109886211B (zh) | 2019-02-25 | 2019-02-25 | 数据标注方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109886211B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413839A (zh) * | 2019-07-05 | 2019-11-05 | 高新兴科技集团股份有限公司 | 一种图像采集设备的标签数据共享方法、装置和设备 |
CN110688471B (zh) * | 2019-09-30 | 2022-09-09 | 支付宝(杭州)信息技术有限公司 | 训练样本获取方法、装置及设备 |
CN111506554B (zh) * | 2019-11-08 | 2021-02-19 | 马上消费金融股份有限公司 | 数据标注方法以及相关装置 |
CN111104479A (zh) * | 2019-11-13 | 2020-05-05 | 中国建设银行股份有限公司 | 一种数据标注的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117411A (zh) * | 2009-12-30 | 2011-07-06 | 日电(中国)有限公司 | 用于构建多级别分类模型的方法和系统 |
US8103646B2 (en) * | 2007-03-13 | 2012-01-24 | Microsoft Corporation | Automatic tagging of content based on a corpus of previously tagged and untagged content |
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN105117429A (zh) * | 2015-08-05 | 2015-12-02 | 广东工业大学 | 基于主动学习和多标签多示例学习的场景图像标注方法 |
CN108171335A (zh) * | 2017-12-06 | 2018-06-15 | 东软集团股份有限公司 | 建模数据的选取方法、装置、存储介质及电子设备 |
CN108509969A (zh) * | 2017-09-06 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据标注方法及终端 |
CN108898162A (zh) * | 2018-06-08 | 2018-11-27 | 东软集团股份有限公司 | 一种数据标注方法、装置、设备及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908635B (zh) * | 2017-09-26 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 建立文本分类模型以及文本分类的方法、装置 |
CN108171254A (zh) * | 2017-11-22 | 2018-06-15 | 北京达佳互联信息技术有限公司 | 图像标签确定方法、装置及终端 |
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108563683A (zh) * | 2018-03-08 | 2018-09-21 | 北京达佳互联信息技术有限公司 | 标签添加方法、装置及终端 |
CN109344869A (zh) * | 2018-08-28 | 2019-02-15 | 东软集团股份有限公司 | 一种分类模型优化方法、装置及存储设备、程序产品 |
CN109242013B (zh) * | 2018-08-28 | 2021-06-08 | 北京九狐时代智能科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
-
2019
- 2019-02-25 CN CN201910138614.9A patent/CN109886211B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103646B2 (en) * | 2007-03-13 | 2012-01-24 | Microsoft Corporation | Automatic tagging of content based on a corpus of previously tagged and untagged content |
CN102117411A (zh) * | 2009-12-30 | 2011-07-06 | 日电(中国)有限公司 | 用于构建多级别分类模型的方法和系统 |
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN105117429A (zh) * | 2015-08-05 | 2015-12-02 | 广东工业大学 | 基于主动学习和多标签多示例学习的场景图像标注方法 |
CN108509969A (zh) * | 2017-09-06 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据标注方法及终端 |
CN108171335A (zh) * | 2017-12-06 | 2018-06-15 | 东软集团股份有限公司 | 建模数据的选取方法、装置、存储介质及电子设备 |
CN108898162A (zh) * | 2018-06-08 | 2018-11-27 | 东软集团股份有限公司 | 一种数据标注方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109886211A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886211B (zh) | 数据标注方法、装置、电子设备及存储介质 | |
CN109859096A (zh) | 图像风格迁移方法、装置、电子设备及存储介质 | |
CN107784279B (zh) | 目标跟踪方法及装置 | |
CN110941966A (zh) | 机器翻译模型的训练方法、装置及系统 | |
CN107464253B (zh) | 眉毛定位方法及装置 | |
CN109961094B (zh) | 样本获取方法、装置、电子设备及可读存储介质 | |
CN110781323A (zh) | 多媒体资源的标签确定方法、装置、电子设备及存储介质 | |
CN109670077B (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN111461304B (zh) | 分类神经网络的训练方法、文本分类方法、装置及设备 | |
CN106534951B (zh) | 视频分割方法和装置 | |
US20210326649A1 (en) | Configuration method and apparatus for detector, storage medium | |
US11335348B2 (en) | Input method, device, apparatus, and storage medium | |
CN110059547B (zh) | 目标检测方法及装置 | |
CN109543069B (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN109344703B (zh) | 对象检测方法及装置、电子设备和存储介质 | |
CN113099297A (zh) | 卡点视频的生成方法、装置、电子设备及存储介质 | |
CN104077597A (zh) | 图像分类方法及装置 | |
CN111160047A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111582383A (zh) | 属性识别方法及装置、电子设备和存储介质 | |
CN107181849A (zh) | 录音方法及装置 | |
CN110738267B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112948704A (zh) | 用于信息推荐的模型训练方法、装置、电子设备以及介质 | |
CN113920293A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN111428806B (zh) | 图像标签确定方法、装置、电子设备及存储介质 | |
CN111339964B (zh) | 图像处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |