CN110378396A - 样本数据标注方法、装置、计算机设备及存储介质 - Google Patents

样本数据标注方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110378396A
CN110378396A CN201910561309.0A CN201910561309A CN110378396A CN 110378396 A CN110378396 A CN 110378396A CN 201910561309 A CN201910561309 A CN 201910561309A CN 110378396 A CN110378396 A CN 110378396A
Authority
CN
China
Prior art keywords
sample data
marked
data
marking model
assessment result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910561309.0A
Other languages
English (en)
Inventor
尤晓赫
徐彬彬
李曙鹏
华蔚颖
施恩
谢永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910561309.0A priority Critical patent/CN110378396A/zh
Publication of CN110378396A publication Critical patent/CN110378396A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了样本数据标注方法、装置、计算机设备及存储介质,其中方法可包括:获取初始的标注模型;利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用训练数据集对标注模型进行finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。应用本发明所述方案,可节省人力成本,提升处理效率,并提高标注结果的准确性等。

Description

样本数据标注方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及样本数据标注方法、装置、计算机设备及存储介质。
【背景技术】
随着人工智能(AI,Artificial Intelligence)技术的发展,以及其在越来越多的业务场景下的应用,经常会需要训练特定场景下的模型,相应地,则需要标注大量该场景下的样本数据,以便训练得到精度高且泛化能力强的模型。
目前,主要采用人工标注方式,这种方式不但需要投入大量的人力成本,而且效率低下,且容易出现错误,准确性较差。
【发明内容】
有鉴于此,本发明提供了样本数据标注方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种样本数据标注方法,包括:
获取初始的标注模型;
利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;
进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;
若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
根据本发明一优选实施例,所述获取初始的标注模型包括:利用从权威的通用训练数据集中选出的N个样本数据训练得到所述初始的标注模型,N为大于一的正整数。
根据本发明一优选实施例,所述训练得到所述初始的标注模型之前,进一步包括:根据使用需求,确定出所采用的标注模型。
根据本发明一优选实施例,所述若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中包括:
利用最新得到的标注模型分别对各未标注的样本数据进行评估,得到各未标注的样本数据的评估结果;
若存在评估结果符合预定要求的未标注的样本数据,则从中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注;
将用户标注后的样本数据合并到所述训练数据集中。
根据本发明一优选实施例,所述评估结果符合预定要求包括:所述评估结果小于预定阈值;
所述从中选出至少一个未标注的样本数据包括:从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。
根据本发明一优选实施例,所述利用最新得到的标注模型对未标注的样本数据进行标注之后,进一步包括:将进行标注后的样本数据展示给用户进行修正或确认。
一种样本数据标注装置,包括:预处理单元以及标注单元;
所述预处理单元,用于获取初始的标注模型;
所述标注单元,用于利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
根据本发明一优选实施例,所述预处理单元利用从权威的通用训练数据集中选出的N个样本数据训练得到所述初始的标注模型,N为大于一的正整数。
根据本发明一优选实施例,所述预处理单元进一步用于,在训练得到所述初始的标注模型之前,根据使用需求,确定出所采用的标注模型。
根据本发明一优选实施例,所述标注单元利用最新得到的标注模型分别对各未标注的样本数据进行评估,得到各未标注的样本数据的评估结果,若存在评估结果符合预定要求的未标注的样本数据,则从中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注,并将用户标注后的样本数据合并到所述训练数据集中。
根据本发明一优选实施例,所述评估结果符合预定要求包括:所述评估结果小于预定阈值;
所述标注单元从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。
根据本发明一优选实施例,所述标注单元进一步用于,在利用最新得到的标注模型对未标注的样本数据进行标注之后,将进行标注后的样本数据展示给用户进行修正或确认。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,用户只需对从上传的样本数据中选出的以及从未标注的样本数据中选出的符合预定要求的样本数据进行标注即可,其余样本数据的标注工作均可由标注模型自动完成,从而节省了人力成本,提升了处理效率,并减少了人工处理大量样本数据所可能出现的标注错误,通过将大量样本数据的标注工作交由训练得到的标注模型来完成,提高了标注结果的准确性等。
【附图说明】
图1为本发明所述样本数据标注方法第一实施例的流程图。
图2为本发明所述样本数据标注方法第二实施例的流程图。
图3为本发明所述样本数据标注装置实施例的组成结构示意图。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明所述样本数据标注方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取初始的标注模型。
在102中,利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数。
在103中,进行模型优化处理,包括:利用训练数据集对标注模型进行微调(finetuning),得到优化后的标注模型。
在104中,若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
优选地,初始的标注模型可以是利用从权威的通用训练数据集中选出的N个样本数据训练得到的标注模型,N为大于一的正整数,具体取值可根据实际需要而定,如何选出N个样本数据同样可根据实际需要而定,比如可随机选出N个样本数据。通用训练数据集为业界公认的权威、标准的训练数据集。
在训练得到初始的标注模型之前,还可先根据使用需求,确定出所采用的标注模型,即确定出标注模型具体为何种模型。比如,使用需求为进行图像分类,相应地,对样本数据进行标注即指标注作为样本数据的图像的分类结果等,可根据该需求,确定出具体使用何种模型作为图像分类模型。
用户可上传样本数据,并可从中选出M个具有代表性的样本数据进行标注,M的具体取值可根据实际需要而定,通常较小,即用户可从上传的样本数据中选出少量具有代表性的样本数据进行标注,如选出十个样本数据进行标注,剩下的样本数据即为未标注的样本数据。
可利用用户选出并进行标注的M个样本数据组成训练数据集,并基于训练数据集进行模型优化处理,即可利用训练数据集对获取到的初始的标注模型进行finetuning,从而得到优化后的标注模型。
之后,可确定是否能够从未标注的样本数据中选出符合预定要求的样本数据,若是,可将选出的样本数据经用户标注后合并到训练数据集中,并基于合并后的训练数据集,重复所述模型优化处理,否则,可利用最新得到的标注模型对未标注的样本数据进行标注。
具体地,可分别利用最新得到的标注模型对各未标注的样本数据进行评估,从而得到各未标注的样本数据的评估结果,若存在评估结果符合预定要求的未标注的样本数据,可从中选出至少一个未标注的样本数据,并将选出的未标注的样本数据展示给用户进行标注,进而可将用户标注后的样本数据合并到训练数据集中。
其中,评估结果符合预定要求可以是指评估结果小于预定阈值。可从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大,即评估结果越小,说明其对应的未标注的样本数据对于标注模型的训练作用越为重大,为对于模型训练有重要帮助的重要样本。
如何得到各未标注的样本数据的评估结果可根据实际需要而定,本实施例中不作限制,以下仅为一种可能的实现方式。
假设标注模型为图像分类模型,针对每个未标注的样本数据(这种情况下可为图像),可分别对其进行分类结果评估,如分别得到该未标注的样本数据属于每个类别的概率,假设共包含三个类别,分别为类别a、类别b和类别c,并假设该未标注的样本数据属于类别a的概率为0.5,属于类别b的概率为0.4,属于类别c的概率为0.1,那么可选出取值最大的两个概率,即0.5和0.4,计算其差值0.5-0.4=0.1,可将该差值作为评估结果,评估结果越小,说明该未标注的样本数据的标注价值越大,假设阈值为0.2,由于计算出的评估结果小于阈值,因此可将该未标注的样本数据确定为评估结果符合预定要求的未标注的样本数据。针对各评估结果符合预定要求的未标注的样本数据,可从中选出至少一个未标注的样本数据,如可将各评估结果符合预定要求的未标注的样本数据按照评估结果从小到大的顺序进行排序,然后选出排序后处于前Q位的样本数据,Q为正整数,其取值可以小于或等于评估结果符合预定要求的未标注的样本数据数。
可将选出的未标注的样本数据展示给用户,以便用户对这些样本数据进行标注,如标注样本数据属于图像分类结果中的类别a、类别b还是类别c,进而可将用户标注后样本数据合并到训练数据集中。
之后,可基于合并后的训练数据集,重复进行所述模型优化处理,即利用合并后的训练数据集对最新得到的标注模型进行finetuning,得到优化后的标注模型,进一步地,若能够从未标注的样本数据中选出符合预定要求的样本数据,则可将选出的样本数据经用户标注后合并到训练数据集中,并继续重复所述模型优化处理,直到不能从未标注的样本数据中选出符合预定要求的样本数据,停止迭代。
若不能从未标注的样本数据中选出符合预定要求的样本数据,可将最新得到的标注模型作为训练好的标注模型,并可利用训练好的标注模型对未标注的样本数据进行标注,如标注样本数据属于图像分类结果中的类别a、类别b还是类别c。
进一步地,还可将标注后的样本数据展示给用户进行修正或确认。用户可查看标注后的样本数据,并可对有问题的样本数据的标注结果进行调整/修正。若用户认可标注模型的性能,也可直接选择一键确认所有标注结果,不再进行调整/修正。
基于上述介绍,图2为本发明所述样本数据标注方法第二实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,利用从权威的通用训练数据集中选出的N个样本数据训练得到初始的标注模型,N为大于一的正整数。
在此之前,还可先根据使用需求,确定出所采用的标注模型。
在202中,利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数。
假设用户上传了200个样本数据,M的取值为10,那么训练数据集中则包含10个样本数据,未标注的样本数据为190个。
在203中,利用训练数据集对最新得到的标注模型进行finetuning,得到优化后的标注模型。
在204中,利用最新得到的标注模型分别对各未标注的样本数据进行评估,得到各未标注的样本数据的评估结果。
如何得到各未标注的样本数据的评估结果可根据实际需要而定。
在205中,确定是否存在评估结果符合预定要求的未标注的样本数据,若是,则执行206,否则,执行208。
评估结果符合预定要求可以是指评估结果小于预定阈值。
在206中,从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注。
可从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。
用户可对选出的未标注的样本数据进行标注。
在207中,将用户标注后的样本数据合并到训练数据集中,并重复执行203。
本实施例中,假设共对标注模型进行了三次finetuning,那么首次进行finetuning时,是对初始的标注模型进行finetuning,此时训练数据集中包含10个样本数据,未标注的样本数据为190个,之后,又选出了15个未标注的样本数据,经用户标注后合并到了训练数据集中,这样,训练数据集中共包含25个样本数据,未标注的样本数据为175个,利用合并后的训练数据集对最新得到的标注模型进行finetuning,之后,又选出了15个未标注的样本数据,经用户标注后合并到了训练数据集中,这样,训练数据集中共包含40个样本数据,未标注的样本数据为160个,利用合并后的训练数据集对最新得到的标注模型进行finetuning,从而得到最终所需的训练好的标注模型。
在208中,利用最新得到的标注模型对未标注的样本数据进行标注。
如可利用训练好的标注模型对160个未标注的样本数据进行标注。
在209中,将进行标注后的样本数据展示给用户进行修正或确认。
可将进行标注后的160个样本数据展示给用户,用户可查看标注后的样本数据,并可对有问题的样本数据的标注结果进行调整/修正,若用户认可标注模型的性能,也可直接选择一键确认所有标注结果,不再进行调整/修正。
需要说明的是,对于前述的各方法实施例,为了简单描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,本发明方法实施例所述方案中提供了一种基于主动学习的交互式标注方法,针对大量的样本数据,用户可优先标注少量样本数据,并通过深度学习学习少量样本数据的特征,进而自动挑选出少量对深度学习有帮助的重要样本数据让用户标注,然后再次学习与挑选等,通过几次迭代操作,最终训练出所需的标注模型,利用标注模型对剩下的大量未标注的样本数据进行标注,从而节省了人力成本,提升了处理效率,并减少了人工处理大量样本数据所可能出现的标注错误,通过将大量样本数据的标注工作交由训练得到的标注模型来完成,提高了标注结果的准确性等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图3为本发明所述样本数据标注装置实施例的组成结构示意图。如图3所示,包括:预处理单元301以及标注单元302。
预处理单元301,用于获取初始的标注模型。
标注单元302,用于利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用训练数据集对标注模型进行finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
其中,预处理单元301可利用从权威的通用训练数据集中选出的N个样本数据训练得到初始的标注模型,N为大于一的正整数,如何选出N个样本数据可根据实际需要而定,如可随机选出N个样本数据。
在训练得到初始的标注模型之前,预处理单元301还可根据使用需求,确定出所采用的标注模型。
用户可上传样本数据,并可从中选出M个具有代表性的样本数据进行标注,M的取值通常较小,即用户可从上传的样本数据中选出少量具有代表性的样本数据进行标注,如选出十个样本数据进行标注,剩下的样本数据即为未标注的样本数据。
标注单元302可利用用户选出并进行标注的M个样本数据组成训练数据集,并基于训练数据集进行模型优化处理,即可利用训练数据集对最新得到的标注模型进行finetuning,从而得到优化后的标注模型。
之后,标注单元302可确定是否能够从未标注的样本数据中选出符合预定要求的样本数据,若是,可将选出的样本数据经用户标注后合并到训练数据集中,并基于合并后的训练数据集,重复所述模型优化处理,否则,可利用最新得到的标注模型对未标注的样本数据进行标注。
具体地,标注单元302可利用最新得到的标注模型分别对各未标注的样本数据进行评估,从而得到各未标注的样本数据的评估结果,若存在评估结果符合预定要求的未标注的样本数据,可从中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注,并将用户标注后的样本数据合并到训练数据集中。
其中,评估结果符合预定要求可以是指评估结果小于预定阈值。标注单元302可从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。
若不能从未标注的样本数据中选出符合预定要求的样本数据,标注单元302可将最新得到的标注模型作为训练好的标注模型,并可利用训练好的标注模型对未标注的样本数据进行标注。
进一步地,标注单元302还可将标注后的样本数据展示给用户进行修正或确认。用户可查看标注后的样本数据,并可对有问题的样本数据的标注结果进行调整/修正。若用户认可标注模型的性能,也可直接选择一键确认所有标注结果,不再进行调整/修正。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本发明装置实施例所述方案,针对大量的样本数据,用户可优先标注少量样本数据,并通过深度学习学习少量样本数据的特征,进而自动挑选出少量对深度学习有帮助的重要样本数据让用户标注,然后再次学习与挑选等,通过几次迭代操作,最终训练出所需的标注模型,利用标注模型对剩下的大量未标注的样本数据进行标注,从而节省了人力成本,提升了处理效率,并减少了人工处理大量样本数据所可能出现的标注错误,通过将大量样本数据的标注工作交由训练得到的标注模型来完成,提高了标注结果的准确性等。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图4显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或图2所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或图2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种样本数据标注方法,其特征在于,包括:
获取初始的标注模型;
利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;
进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;
若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
2.根据权利要求1所述的方法,其特征在于,
所述获取初始的标注模型包括:利用从权威的通用训练数据集中选出的N个样本数据训练得到所述初始的标注模型,N为大于一的正整数。
3.根据权利要求2所述的方法,其特征在于,
所述训练得到所述初始的标注模型之前,进一步包括:根据使用需求,确定出所采用的标注模型。
4.根据权利要求1所述的方法,其特征在于,
所述若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中包括:
利用最新得到的标注模型分别对各未标注的样本数据进行评估,得到各未标注的样本数据的评估结果;
若存在评估结果符合预定要求的未标注的样本数据,则从中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注;
将用户标注后的样本数据合并到所述训练数据集中。
5.根据权利要求4所述的方法,其特征在于,
所述评估结果符合预定要求包括:所述评估结果小于预定阈值;
所述从中选出至少一个未标注的样本数据包括:从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。
6.根据权利要求1所述的方法,其特征在于,
所述利用最新得到的标注模型对未标注的样本数据进行标注之后,进一步包括:将进行标注后的样本数据展示给用户进行修正或确认。
7.一种样本数据标注装置,其特征在于,包括:预处理单元以及标注单元;
所述预处理单元,用于获取初始的标注模型;
所述标注单元,用于利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
8.根据权利要求7所述的装置,其特征在于,
所述预处理单元利用从权威的通用训练数据集中选出的N个样本数据训练得到所述初始的标注模型,N为大于一的正整数。
9.根据权利要求8所述的装置,其特征在于,
所述预处理单元进一步用于,在训练得到所述初始的标注模型之前,根据使用需求,确定出所采用的标注模型。
10.根据权利要求7所述的装置,其特征在于,
所述标注单元利用最新得到的标注模型分别对各未标注的样本数据进行评估,得到各未标注的样本数据的评估结果,若存在评估结果符合预定要求的未标注的样本数据,则从中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注,并将用户标注后的样本数据合并到所述训练数据集中。
11.根据权利要求10所述的装置,其特征在于,
所述评估结果符合预定要求包括:所述评估结果小于预定阈值;
所述标注单元从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。
12.根据权利要求7所述的装置,其特征在于,
所述标注单元进一步用于,在利用最新得到的标注模型对未标注的样本数据进行标注之后,将进行标注后的样本数据展示给用户进行修正或确认。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201910561309.0A 2019-06-26 2019-06-26 样本数据标注方法、装置、计算机设备及存储介质 Pending CN110378396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910561309.0A CN110378396A (zh) 2019-06-26 2019-06-26 样本数据标注方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910561309.0A CN110378396A (zh) 2019-06-26 2019-06-26 样本数据标注方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110378396A true CN110378396A (zh) 2019-10-25

Family

ID=68249512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910561309.0A Pending CN110378396A (zh) 2019-06-26 2019-06-26 样本数据标注方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110378396A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104479A (zh) * 2019-11-13 2020-05-05 中国建设银行股份有限公司 一种数据标注的方法及装置
CN111967450A (zh) * 2020-10-21 2020-11-20 宁波均联智行科技有限公司 自动驾驶模型用样本获取方法、训练方法、装置及系统
CN112163132A (zh) * 2020-09-21 2021-01-01 中国建设银行股份有限公司 一种数据标注方法、装置、存储介质及电子设备
CN112766390A (zh) * 2021-01-26 2021-05-07 上海明略人工智能(集团)有限公司 用于确定训练样本的方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
WO2018022162A1 (en) * 2016-07-26 2018-02-01 Intuit Inc. Optical character recognition in structured documents
CN108062394A (zh) * 2017-12-18 2018-05-22 北京中关村科金技术有限公司 一种数据集的标注方法及相关装置
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN108875769A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN109242013A (zh) * 2018-08-28 2019-01-18 北京九狐时代智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109635838A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
WO2018022162A1 (en) * 2016-07-26 2018-02-01 Intuit Inc. Optical character recognition in structured documents
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN108062394A (zh) * 2017-12-18 2018-05-22 北京中关村科金技术有限公司 一种数据集的标注方法及相关装置
CN108875769A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN109242013A (zh) * 2018-08-28 2019-01-18 北京九狐时代智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109635838A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104479A (zh) * 2019-11-13 2020-05-05 中国建设银行股份有限公司 一种数据标注的方法及装置
CN112163132A (zh) * 2020-09-21 2021-01-01 中国建设银行股份有限公司 一种数据标注方法、装置、存储介质及电子设备
CN112163132B (zh) * 2020-09-21 2024-05-10 中国建设银行股份有限公司 一种数据标注方法、装置、存储介质及电子设备
CN111967450A (zh) * 2020-10-21 2020-11-20 宁波均联智行科技有限公司 自动驾驶模型用样本获取方法、训练方法、装置及系统
CN112766390A (zh) * 2021-01-26 2021-05-07 上海明略人工智能(集团)有限公司 用于确定训练样本的方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110378396A (zh) 样本数据标注方法、装置、计算机设备及存储介质
Wu et al. CorefQA: Coreference resolution as query-based span prediction
US20200301514A1 (en) Gesture recognition method, device, electronic device, and storage medium
US9619735B1 (en) Pure convolutional neural network localization
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
JP2020149685A (ja) 視覚的質問応答モデル、電子機器、および記憶媒体
US20190087685A1 (en) Method and apparatus for recommending sample data
JP6756079B2 (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
CN107797985A (zh) 建立同义鉴别模型以及鉴别同义文本的方法、装置
CN109599095A (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN107038157A (zh) 基于人工智能的识别错误发现方法、装置及存储介质
CN109118420B (zh) 水印识别模型建立及识别方法、装置、介质及电子设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN109325108A (zh) 查询处理方法、装置、服务器及存储介质
CN109933269A (zh) 小程序推荐的方法、设备和计算机存储介质
CN109408829A (zh) 文章可读性确定方法、装置、设备和介质
Wu et al. Coreference resolution as query-based span prediction
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN110377748A (zh) 实体关注点挖掘方法、装置、计算机设备及存储介质
CN110110236A (zh) 一种信息推送方法、装置、设备和存储介质
CN113762303B (zh) 图像分类方法、装置、电子设备及存储介质
CN108399128A (zh) 一种用户数据的生成方法、装置、服务器及存储介质
CN110362688A (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
CN111435452B (zh) 模型训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination