CN111291802B - 数据标注方法及装置 - Google Patents
数据标注方法及装置 Download PDFInfo
- Publication number
- CN111291802B CN111291802B CN202010072476.1A CN202010072476A CN111291802B CN 111291802 B CN111291802 B CN 111291802B CN 202010072476 A CN202010072476 A CN 202010072476A CN 111291802 B CN111291802 B CN 111291802B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- labeling
- marked
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 370
- 238000012549 training Methods 0.000 claims abstract description 210
- 238000013526 transfer learning Methods 0.000 claims abstract description 144
- 230000008014 freezing Effects 0.000 claims abstract description 91
- 238000007710 freezing Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000000875 corresponding effect Effects 0.000 claims description 36
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 20
- 238000001514 detection method Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005315 distribution function Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 241000231392 Gymnosiphon Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据标注方法及装置,属于计算机技术领域。所述方法包括:采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;基于多组迁移学习训练的权重冻结比例,以及多组迁移学习训练后的第一数据标注模型,确定目标权重冻结比例;采用多个已标注数据中的第二数据,对第一数据标注模型进行目标权重冻结比例的迁移学习训练,得到第二数据标注模型;采用第二数据标注模型对待标注数据进行标注;其中,待标注数据的待标注信息与已标注数据的已标注信息相同。本申请解决了无法实现某些待标注数据的标注的问题,实现了对待标注数据进行标注的问题,本申请用于数据标注。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种数据标注方法及装置。
背景技术
随着计算机技术的发展,机器模型得到了广泛的应用,机器模型能够辅助人们对数据进行处理。比如,数据标注模型能够对数据进行标注,对数据进行标注也即对数据标注一些信息。
在采用数据标注模型标注数据前,需要筛选合适的数据标注模型。比如,要求筛选的数据标注模型用于标注的信息与待标注数据的待标注信息相同,且要求筛选的数据标注模型的数据标注方式与待标注数据要求的数据标注方式相同。示例地,上述数据标注方式可以为:基于分类的标注方式(会标注数据的类别),或者基于目标检测的标注方式(会在数据中标注目标所在的位置)等。
但是,待标注数据的待标注信息往往多种多样,而已有的数据标注模型用于标注的信息往往有限,这就导致可能无法在已有数据标注模型中筛选到合适的数据标注模型,从而无法实现某些待标注数据的标注。
发明内容
本申请提供了一种数据标注方法及装置,可以解决无法实现某些待标注数据的标注的问题,所述技术方案如下:
第一方面,提供了一种数据标注方法,所述方法包括:首先采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;之后再基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例;在确定目标权重冻结比例之后,便可以采用所述多个已标注数据中的第二数据,对所述第一数据标注模型进行所述目标权重冻结比例的迁移学习训练,得到第二数据标注模型;其中,所述待标注数据的待标注信息与所述已标注数据的已标注信息相同,因此,该第二数据标准模型可以用于对待标注数据进行标注。最后,可以采用所述第二数据标注模型对待标注数据进行标注。
本申请实施例提供的数据标注方法中,能够对第一数据标注模型进行训练,以得到适用于对待标注数据进行标注的第二数据标注模型,从而避免了在已有的数据标注模型中无法找到合适的模型时,无法对待标注数据进行标注的问题。并且,本申请实施例中在对第一数据标注模型进行训练时,采用了迁移学习训练的方式,因此能够缩短训练时长,提升训练的效率。
可选地,上述确定目标权重冻结比例的过程可以包括:基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,采用贝叶斯优化的方法确定所述目标权重冻结比例。本申请实施例中在对第一数据标注模型进行训练的过程中,还结合了贝叶斯优化的方法较为准确地确定了目标权重冻结比例,提升了得到的目标权重冻结比例的准确度和速度,且提升了基于该目标权重冻结比例训练得到的第二数据标注模型的准确度。
可选地,所述第一数据包括:所述多个已标注数据中的一部分数据,所述第二数据包括:所述多个已标注数据中的另一部分数据。可见,对第一数据标注模型进行多组训练仅需采用多个已标注数据中的一部分数据即可,而无需采用多个已标注数据中的全部数据;这样能够减少迁移学习训练所需的时长,提升迁移学习训练的效率。
可选地,所述一部分数据包括:与所述多组迁移学习训练一一对应的多组数据,采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练,包括:采用第i组迁移学习训练对应的一组数据,对所述第一数据标注模型进行所述第i组迁移学习训练,i≥1。可见,对第一数据标注模型进行每组训练仅需采用多个已标注数据中的一组数据即可,而无需采用多个已标注数据中的全部数据;这样能够减少每组迁移学习训练所需采用的数据,减少迁移学习训练所需的时长,提升迁移学习训练的效率。
可选地,在所述对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练之前,所述方法还包括:确定模型库中的模型集合,并在所述模型集合中确定所述第一数据标注模型。其中,所述模型库包含至少一个数据标注模型,所述模型集合中模型的数据标注方式与所述待标注数据对应的数据标注方式相同。由于模型集合中模型的数据标注方式与待标注数据对应的数据标注方式相同,因此模型集合中的模型均能够作为用于训练得到第二数据标注模型的第一数据标注模型,在确定该模型集合后,便可以在模型集合中确定第一数据标注模型。
可选地,所述模型集合包括:第一备选模型,所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数;在所述模型集合中确定所述第一数据标注模型时,可以确定所述模型集合中匹配度最高且参数量最少的所述第一备选模型为所述第一数据标注模型,其中,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度。第一备选模型为用于标注的信息的个数大于待标注数据的待标注信息的个数的模型,对第一备选模型进行训练能够得到上述第二数据标注模型的效率较高。若模型集合包括第一备选模型,则数据标注装置可以在模型集合中的第一备选模型中进一步筛选第一数据标注模型。
可选地,所述模型集合包括第二备选模型,其中,所述第二备选模型用于标注的信息的个数小于所述待标注数据的待标注信息的个数,且所述第二备选模型的匹配度小于或等于匹配度阈值,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度;所述在所述模型集合中确定所述第一数据标注模型,包括:确定所述模型集合中匹配度最高且参数量最多的所述第二备选模型为所述第一数据标注模型。可以看出,在模型集合包括第二备选模型时,数据标注装置可以在模型集合中的第二备选模型中筛选上述第一数据标注模型。第二备选模型的匹配度越高,对第二备选模型进行训练能够得到上述第二数据标注模型的效率越高;第二备选模型的参数量越多,训练得到的第二备选模型的准确度越高。因此,为了确保训练效率,以及训练得到的第二备选模型的准确度,数据标注装置可以选择模型集合中匹配度最高,且参数量最多的第二备选模型为第一数据标注模型。可选地,在模型集合不包括第一备选模型,且包括第二备选模型时,数据标注装置可以确定所述模型集合中匹配度最高且参数量最多的所述第二备选模型为所述第一数据标注模型。
可选地,所述在所述模型集合中确定所述第一数据标注模型,包括:基于所述待标注数据的待标注信息的个数,确定所述模型集合中的所述第一数据标注模型,其中,所述第一数据标注模型中的参数量与所述待标注数据的待标注信息的个数正相关。数据标注装置可以基于待标注数据的待标注信息的个数,直接在模型集合中筛选该第一数据标注模型。其中,待标注数据的待标注信息的个数越多,则为了提升对第一备选模型训练得到的第二数据标注模型的准确度,数据标注装置可以筛选模型集合中参数量越多的模型为第一数据标注模型。待标注数据的待标注信息的个数越少,则数据标注装置可以筛选模型集合中参数量越少的模型为第一数据标注模型。可选地,在模型集合即不包括第一备选模型,又不包括第二备选模型时,数据标注装置可以基于所述待标注数据的待标注信息的个数,确定所述模型集合中的所述第一数据标注模型。
可选地,在所述对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练之前,所述方法还包括:确定模型库不包含目标模型;其中,所述模型库包含至少一个数据标注模型,所述目标模型用于标注的信息与所述待标注数据的待标注信息相同,且所述目标模型的数据标注方式与所述待标注数据对应的数据标注方式相同;在所述模型库中确定所述第一数据标注模型。在确定模型库不包含目标模型时,数据标注装置确定需要在模型库中找出一个模型(称为第一数据标注模型),并将该第一数据标注模型训练为适用于对待标注数据进行标注的第二数据标注模型。
可选地,所述方法还包括:将所述第二数据标注模型加入所述模型库。在得到上述第二数据标注模型后,数据标注装置还可以将该第二数据标注模型再加入模型库,以更新该模型库,便于后续对其他数据进行标注时,从更新后的模型库中获取上述第一数据标注模型。在将第二数据标注模型加入模型库时,还可以在模型库的属性表中增加第二数据标注模型的名称、用于标注的信息、数据标注方式以及参数量,以实现对模型库的属性表的更新。
第二方面,提供了一种数据标注装置,包括用于执行本申请提供的数据标注方法的各个模块。
可选地,所述数据标注装置包括:第二确定模块,用于确定模型库中的模型集合,其中,所述模型库包含至少一个数据标注模型,所述模型集合中模型的数据标注方式与所述待标注数据对应的数据标注方式相同;第三确定模块,用于基于待标注数据的待标注信息的个数,确定所述模型集合中的第一数据标注模型,其中,所述第一数据标注模型中的参数量与所述待标注数据的待标注信息的个数正相关;第一训练模块,用于采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;第一确定模块,用于基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例;第二训练模块,用于采用所述多个已标注数据中的第二数据,对所述第一数据标注模型进行所述目标权重冻结比例的迁移学习训练,得到第二数据标注模型;标注模块,用于采用所述第二数据标注模型对待标注数据进行标注;其中,所述待标注数据的待标注信息与所述已标注数据的已标注信息相同。可选地,所述模型集合不包括第一备选模型和第二备选模型,其中,所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数,所述第二备选模型用于标注的信息的个数小于所述待标注数据的待标注信息的个数,且所述第二备选模型的匹配度小于或等于匹配度阈值,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度。
可选地,所述数据标注装置包括:第三确定模块,用于确定模型库中的第一数据标注模型,模型库包括至少一个数据标注模型;第一训练模块,用于采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;第一确定模块,用于基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例;第二训练模块,用于采用所述多个已标注数据中的第二数据,对所述第一数据标注模型进行所述目标权重冻结比例的迁移学习训练,得到第二数据标注模型;标注模块,用于采用所述第二数据标注模型对待标注数据进行标注;其中,所述待标注数据的待标注信息与所述已标注数据的已标注信息相同;加入模块,用于将所述第二数据标注模型加入所述模型库。
第三方面,提供了一种数据标注装置,所述数据标注装置包括:处理器和存储器,所述存储器中存储有程序,所述处理器用于调用所述存储器中存储的程序,以使得所述数据标注装置执行如第一方面所述的数据标注方法。
第四方面,提供了一种计算机存储介质,所述存储介质内存储有计算机程序,所述计算机程序用于执行第一方面所述的数据标注方法。
第五方面,提供了一种计算机程序产品,当计算机程序产品在数据标注装置上运行时,使得数据标注装置执行如第一方面所述的数据标注方法。
上述第二方面至第五方面中任一方面的有益效果可以参考上述第一方面的有益效果,本申请在此不做赘述。
附图说明
图1为本申请实施例提供的一种数据标注过程的示意图;
图2为本申请实施例提供的一种数据标注装置的结构示意图;
图3为本申请实施例提供的一种数据标注方法的流程图;
图4为本申请实施例提供的一种在模型库中确定第一数据标注模型的方法流程图;
图5为本申请实施例提供的一种对第一数据标注模型进行训练的过程示意图;
图6为本申请实施例提供的另一种对第一数据标注模型进行训练的过程示意图;
图7为本申请实施例提供的一种数据标注装置的框图。
具体实施方式
为使本申请的原理、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目前大多数机器模型都是采用监督学习的方式训练得到的,在该方式下,模型的训练需要用到大量的已标注数据。其中,已标注数据也即是带有标签的数据,该标签可以为:数据的类型、数据包含的某一信息等等。
通常采用两种方式对数据进行标注。其中,一种方式为人工标注,在这种方式下,需要工作人员根据经验对数据进行标注。另一种方式为机器自动标注(机器自动标注的效率相对于人工标注的效率高),在这种方式下,如图1所示,可以采用数据标注模型对数据进行标注(参考图1中的S2);可选地,还可以在采用数据标注模型对数据进行标注后,由工作人员对已标注的数据进行复检(参考图1中的S3),纠正一些错误标注。
已有的数据标注模型多种多样,不同数据标注模型的数据标注方式也可能不同,不同数据标注模型用于标注的信息可能不同。
比如,数据标注模型的数据标注方式可以为:基于分类的标注方式,此时,数据标注模型用于标注的信息可以为数据的类别。示例地,当数据为图像时,图像的类别可以为:女人图像、黄种人图像、长发图像等类别;当数据为文字时,文字的类别可以为主语、谓语、宾语、名词或动词等。
又比如,数据标注模型的数据标注方式可以为:基于目标检测的标注方式,此时,数据标注模型用于标注的信息可以为数据中目标所在的位置。示例地,当数据为图像时,目标所在的位置可以为:目标在图像中所在的区域。在数据标注模型采用基于目标检测的标注方式对数据进行标注时,数据标注模型可以检测数据中的目标,并在数据中标注目标所在的位置。
需要说明的是,本申请实施例仅以基于分类的标注方式,和基于目标检测的标注方式为例,数据标注模型还可能有其他的数据标注方式(如基于语义分割的数据标注方式等),本申请实施例对此不作限定。
鉴于已有的数据标注模型多种多样,因此,在上述机器自动标注的方式下,在采用数据标注模型对数据进行标注前,工作人员需要对机器指定(如通过网页界面的方式指定)待标注数据对应的数据标注方式,以及待标注数据的待标注信息。之后,如图1所示,工作人员还需要根据该数据标注方式和该待标注信息在已有的数据标注模型(比如包括图1中的数据标注模型1、2、3)中筛选合适的数据标注模型(参考图1中的S1)。其中,该合适的数据标注模型用于标注的信息与该待标注数据的待标注信息相同,该合适的数据标注模型的数据标注方式与该待标注数据对应的数据标注方式相同。
但是,待标注数据的待标注信息往往多种多样,而已有的数据标注模型用于标注的信息往往有限,这就导致可能无法在已有数据标注模型中筛选到合适的数据标注模型,从而无法实现某些待标注数据的标注。
本申请实施例提供了一种数据标注方法,该数据标注方法能够通过对已有的数据标注模型进行训练,以得到上述合适的数据标注模型,从而解决无法实现某些数据的标注的问题。示例地,该数据标注方法可以用于如图2所示的数据标注装置,如图2所示,该数据标注装置包括:至少一个处理器(例如CPU)101,至少一个网络接口102或者其他通信接口,存储器103,和至少一个通信总线104,用于实现这些装置之间的连接通信。处理器101用于执行存储器103中存储的可执行模块,例如计算机程序。存储器103可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个网络接口102(可以是有线或者无线)实现该数据标注装置与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网或城域网等。在一些实施方式中,存储器103存储了程序1031,程序1031可以被处理器101执行,以实现本申请实施例提供的数据标注方法。
示例地,图3为本申请实施例提供的一种数据标注方法的流程图,如图3所示,该数据标注方法可以包括:
步骤301、检测模型库中是否包含目标模型。在模型库不包含目标模型时,执行步骤302;在模型库包含目标模型时,执行步骤308。
模型库可以包含已有的至少一个数据标注模型,通常包括的数据标注模型的个数较多。在本申请实施例中,模型库还需要记录模型库中每个数据标注模型用于标注的信息,以及每个数据标注模型的数据标注方式。在步骤301中,数据标注装置需要根据数据库记录的这些信息,查找模型库中是否存在目标模型。目标模型用于标注的信息与待标注数据的待标注信息相同,且目标模型的数据标注方式与待标注数据对应的数据标注方式相同。
其中,该数据标注模型,数据标注模型用于标注的信息,数据标注模型的数据标注方式,待标注数据的待标注信息,以及待标注数据对应的数据标注方式,均可以参考前述实施例中的相关介绍,本申请实施例在此不做赘述。
可选地,数据标注装置可以通过属性表的方式记录数据标注模型用于标注的信息,以及数据标注模型的数据标注方式,当然为了区分各个数据标注模型,该属性表还可以记录有数据标注模型的名称。
示例地,该属性表可以如表1所示。假设待标注数据的待标注信息为信息1和信息2,且待标注数据对应的数据标注方式为“基于分类的标注方式”,则根据表1可知,模型库中的数据标注模型X为目标模型。假设待标注数据的待标注信息为信息1和信息2,且待标注数据对应的数据标注方式为“基于目标检测的标注方式”,则根据表1可知,模型库中并不包含目标模型。
表1
数据标注模型的名称 | 数据标注模型用于标注的信息 | 数据标注模型的数据标注方式 |
X | 信息1、信息2 | 基于分类的标注方式 |
Y | 信息1、信息3 | 基于目标检测的标注方式 |
Z | 信息4 | 基于分类的标注方式 |
步骤302、在模型库中确定第一数据标注模型。
在确定模型库不包含目标模型时,数据标注装置确定需要在模型库中找出一个模型(称为第一数据标注模型),并将该第一数据标注模型训练为适用于对待标注数据进行标注的第二数据标注模型。
该第一数据标注模型可以为模型库中的任一模型,或者,该第一数据标注模型可以为模型库中除目标模型之外的任一模型,又或者,该第一数据标注模型可以为模型库中的某一模型集合中的任一模型,本申请实施例不对数据标注装置查找第一数据标注模型的方式进行限定。
以下将以查找第一数据标注模型的一种方式为例,对步骤302进行举例说明。
示例地,图4为本申请实施例提供的一种在模型库中确定第一数据标注模型的方法流程图,如图4所示,步骤302可以包括:
步骤3021、确定模型库中的模型集合,模型集合中模型的数据标注方式与待标注数据对应的数据标注方式相同。
数据标注装置需要根据模型库中模型的数据标注方式,以及待标注数据对应的数据标注方式,确定模型库中的模型集合。例如,假设模型库包括表1所示的三个模型,若待标注数据对应的数据标注方式为“基于分类的标注方式”,则数据标注装置确定出的模型集合可以为{数据标注模型X,数据标注模型Z}。
由于模型集合中模型的数据标注方式与待标注数据对应的数据标注方式相同,因此模型集合中的模型均能够作为用于训练得到第二数据标注模型的第一数据标注模型,在确定该模型集合后,便可以采用后续步骤3022至步骤3026中的方法确定第一数据标注模型。
步骤3022、检测模型集合是否包括第一备选模型。在模型集合包括第一备选模型时,执行步骤3023;在模型集合不包括第一备选模型时,执行步骤3024。
其中,第一备选模型用于标注的信息的个数大于或等于待标注数据的待标注信息的个数。数据标注装置可以根据模型库中模型用于标注的信息,以及待标注数据的待标注信息的个数,在模型集合中检测第一备选模型。例如,假设模型集合为上述{数据标注模型X,数据标注模型Z},若待标注数据的待标注信息的个数为1,则数据标注装置可以确定数据标注模型X和数据标注模型Z均为第一备选模型。
第一备选模型为用于标注的信息的个数大于或等于待标注数据的待标注信息的个数的模型,对第一备选模型进行训练能够得到上述第二数据标注模型的效率较高。若模型集合包括第一备选模型,则数据标注装置可以在模型集合中的第一备选模型中进一步筛选第一数据标注模型(参考步骤3023)。若模型集合不包括第一备选模型,则数据标注装置还可以采用其他方式确定模型集合中的第一数据标注模型(参考步骤3024至步骤2026)。
步骤3023、确定模型集合中匹配度最高且参数量最少的第一备选模型为第一数据标注模型。
其中,模型的匹配度为模型用于标注的信息与待标注数据的待标注信息的匹配度(也称相似度)。第一备选模型的匹配度越高,对第一备选模型进行训练能够得到上述第二数据标注模型的效率越高;第一备选模型的参数量越少,对第一备选模型进行训练能够得到上述第二数据标注模型的效率也越高。因此,在确定模型集合中的第一备选模型后,可以选择模型集合中匹配度最高,且参数量最少的第一备选模型为第一数据标注模型。
示例地,在模型集合包括第一备选模型时,数据标注装置可以基于每个第一备选模型的匹配度和参数量,在模型集合中的第一备选模型中进一步筛选第一数据标注模型。例如,若表1中的数据标注模型X和数据标注模型Z均为第一备选模型,且数据标注模型X的匹配度为50%,参数量为1000,数据标注模型Z的匹配度为55%,参数量为500,则数据标注装置可以确定该数据标注模型Z为第一数据标注模型。
可选地,数据标注装置可以通过上述属性表的方式记录数据标注模型的参数量,此时,该属性表可以如表2所示,可以看出,在表1的基础上,新增了数据标注模型的参数量。
表2
可选地,步骤3023中以数据标注装置确定模型集合中匹配度最高且参数量最少的第一备选模型为第一数据标注模型为例,当然,数据标注装置也可以确定模型集合中匹配度次高且参数量次少的第一备选模型为第一数据标注模型,本申请实施例对此不作限定。
步骤3024、检测模型集合是否包括第二备选模型。在模型集合包括第二备选模型时,执行步骤3025;在模型集合不包括第二备选模型时,执行步骤3026。
示例地,第二备选模型为用于标注的信息的个数小于待标注数据的待标注信息的个数的模型,且该第二备选模型的匹配度小于或等于匹配度阈值。该匹配度阈值可以为60%、70%等数值。数据标注装置可以根据模型库中模型的匹配度,在模型集合中检测第二备选模型。例如,假设匹配度阈值为60%,模型集合为上述{数据标注模型X,数据标注模型Z},若数据标注模型X的匹配度为50%,数据标注模型Z的匹配度为55%,则数据标注装置可以确定数据标注模型X和数据标注模型Z均为第二备选模型。
可以看出,在上述模型集合不包括第一备选模型时,数据标注装置还可以检测该模型集合是否包括第二备选模型。第二备选模型的匹配度越高,对第一备选模型进行训练能够得到上述第二数据标注模型的效率较高。因此,在模型集合包括第二备选模型时,数据标注装置可以在模型集合中的第二备选模型中筛选上述第一数据标注模型(参考步骤3025)。在模型集合不包括上述第二备选模型时,数据标注装置需要采用其他方式确定第一数据标注模型(参考步骤3026)。
步骤3025、确定模型集合中匹配度最高且参数量最多的第二备选模型为第一数据标注模型。
第二备选模型的匹配度越高,对第二备选模型进行训练能够得到上述第二数据标注模型的效率越高;第二备选模型的参数量越多,训练得到的第二备选模型的准确度越高。因此,为了确保训练效率,以及训练得到的第二备选模型的准确度,数据标注装置可以选择模型集合中匹配度最高,且参数量最多的第二备选模型为第一数据标注模型。
示例地,在模型集合不包括第一备选模型,且包括第二备选模型时,数据标注装置可以基于每个第二备选模型的匹配度和参数量,在模型集合中的第二备选模型中进一步筛选第一数据标注模型。例如,若表1中的数据标注模型X和数据标注模型Z均为第二备选模型,且数据标注模型X的参数量为1000,数据标注模型Z的参数量为500,则数据标注装置可以确定该数据标注模型X为第一数据标注模型。
可选地,步骤3025中以数据标注装置确定模型集合中匹配度最高且参数量最多的第二备选模型为第一数据标注模型为例,当然,数据标注装置也可以确定模型集合中匹配度次高,且参数量次多的第二备选模型为第一数据标注模型,本申请实施例对此不作限定。
本申请实施例中以在模型集合不包括第一备选模型时,数据标注装置采用步骤3024和步骤3025中的方式确定第一数据标注模型为例。可选地,数据标注装置也可以不检测模型集合是否包括第一备选模型,而是直接采用步骤3024和步骤3025中的方式确定第一数据标注模型,本申请实施例对此不作限定。
步骤3026、基于待标注数据的待标注信息的个数,确定模型集合中的第一数据标注模型,其中,第一数据标注模型中的参数量与待标注数据的待标注信息的个数正相关。
在模型集合即不包括第一备选模型,又不包括第二备选模型时,数据标注装置便可以基于待标注数据的待标注信息的个数,直接在模型集合中筛选该第一数据标注模型。其中,待标注数据的待标注信息的个数越多,则为了提升对第一备选模型训练得到的第二数据标注模型的准确度,数据标注装置可以筛选模型集合中参数量越多的模型为第一数据标注模型。待标注数据的待标注信息的个数越少,则数据标注装置可以筛选模型集合中参数量越少的模型为第一数据标注模型。
示例地,数据标注装置可以根据第一个数阈值和第二个数阈值进行第一数据标注模型的筛选。第一个数阈值大于第二个数阈值,比如第一个数阈值为1000且第二个数阈值为100,或者第一个数阈值为500,第二个数阈值为200等。在待标注数据的待标注信息的个数大于第一个数阈值时,数据标注装置可以确定模型集合中参数量最多的模型为第一数据标注模型;在待标注数据的待标注信息的个数小于或等于第二个数阈值时,数据标注装置可以确定模型集合中参数量最少的模型为第一数据标注模型;在待标注数据的待标注信息的个数大于第二个数阈值,且小于或等于第一个数阈值时,数据标注装置可以确定模型集合中除参数量最多和最少的模型之外的任一模型为第一数据标注模型。
本申请实施例中以在模型集合不包括第一备选模型和第二备选模型时,数据标注装置采用步骤3026中的方式确定第一数据标注模型为例。可选地,数据标注装置也可以不检测模型集合是否包括第一备选模型,以及是否包括第二备选模型,而是直接采用步骤3026中的方式确定第一数据标注模型,本申请实施例对此不作限定。
步骤303、采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练。
需要说明的是,已标注数据的已标注信息与上述待标注数据的待标注信息相同。
在步骤303之前,数据标注装置需要获取到该多个已标注数据。示例地,已标注数据可以由工作人员对初始数据进行标注后得到的数据。该初始数据与上述待标注数据可以属于一个总数据集合。在步骤301之前,工作人员可以从该总数据集合中筛选一部分数据(如总数据集合中10%的数据),并将筛选出的每个数据均作为初始数据,之后对每个初始数据进行标注得到已标注数据,并将该总数据集合中除初始数据之外的剩余数据(如总数据集合中90%的数据)中的每个数据均作为待标注数据。
在步骤303中,数据标注装置需要采用多个已标注数据中的第一数据,对该第一数据标注模型进行训练,以得到适用于对待标注数据进行标注的第二数据标注模型。
进一步地,为了提高训练效率,减少训练耗时,本申请实施例中可以采用迁移学习(transfer learning)训练的方式对第一数据标注模型进行训练,可以称为对第一数据标注模型进行迁移学习训练。需要说明的是,迁移学习训练是基于一定的权重冻结比例进行的,在对第一数据标注模型进行迁移学习训练时,可以将第一数据标注模型中该权重冻结比例的权重冻结,并调整第一数据标注模型中除该权重冻结比例的权重之外的至少部分其他权重。其中,在对第一数据标注模型进行训练的过程中,无需调整被冻结的权重。这样一来,相当于训练后的第一数据标注模型复用了第一数据标注模型自身的一部分权重(也即被冻结的这部分权重),减少了对第一数据标注模型进行训练所需调整的权重的数量,提升了对第一数据标注模型进行训练的效率。
可选地,第一数据标注模型可以包括:特征提取部分和特征处理部分,特征提取部分负责提取输入第一数据标注模型的数据的特征,特征处理部分负责对特征提取部分提取的特征进行处理,并输出输入第一数据模型的数据的标注信息。本申请实施例中以迁移学习训练中冻结的权重为特征提取部分的权重,当然,迁移学习训练中冻结的权重也可以为特征处理部分的权重,本申请实施例对此不作限定。在每次迁移学习训练的过程中,数据标注装置均可以对特征提取部分的未冻结权重进行调整,而无需调整特征处理部分的权重。当然也可以对特征处理部分的未冻结权重进行调整,本申请实施例对此不作限定。
本申请实施例中,数据标注装置可以对第一数据标注模型进行多组迁移学习训练,以进一步提高训练得到的第一数据标注模型的准确度。在步骤303之前,数据标注装置还需要确定多组迁移学习训练中每组迁移学习训练的权重冻结比例。示例地,数据标注装置可以首先确定权重冻结比例的取值范围(比如[0.5,0.95]或者[0.1,0.94]等),之后,在该取值范围内对每组迁移学习训练的权重冻结比例(比如0.5、0.75、0.90等)进行取值。其中,每组迁移学习训练包括多次迁移学习训练,且该多次迁移学习训练的权重冻结比例相同。多组迁移学习训练的权重冻结比例不同。比如,第一组迁移学习训练中每个迁移学习训练的权重冻结比例为0.5;第二组迁移学习训练中每个迁移学习训练的权重冻结比例为0.7;第三组迁移学习训练中每个迁移学习训练的权重冻结比例为0.9。
另外,步骤303中的第一数据可以是多个已标注数据中的全部数据,也可以是该多个已标注数据中的一部分数据,本申请实施例对此不作限定。
(1)当步骤303中的第一数据是多个已标注数据中的全部数据时,可以采用该多个已标注数据对第一数据标注模型进行每组迁移学习训练。这样一来,多组迁移学习训练所基于的训练数据均为该多个已标注数据。
进一步地,在采用上述多个已标注数据,对第一数据标注模型进行每组迁移学习训练的过程中,数据标注装置可以采用该多个已标注数据中的一份数据(多个已标注数据包括至少一份数据,每份数据包括至少一个已标注数据),对第一数据标注模型进行一次训练。比如,数据标注装置可以将某份数据输入第一数据标注模型,并将该第一数据标注模型输出的结果与该份数据已标注的信息进行比较,最后根据比较结果对第一数据标注模型中未冻结的权重进行调整。示例地,数据标注装置可以根据比较结果结合反向传播算法(也称BP算法)对第一数据标注模型中未冻结的权重进行调整。
可选地,数据标注装置在对第一数据标注模型进行每组迁移学习训练的过程中,在对第一数据标注模型进行至少一次训练后,数据标注装置需要执行一次早停(early-stopping)检测,以确定该第一数据标注模型在训练的过程中是否过拟合;一旦确定第一数据标注模型过拟合,则需要停止对第一数据标注模型的本组训练。
数据标注装置可以采用多种早停检测的方式中的任一种方式进行检测。比如,上述总数据集合中一部分初始数据(如80%)在被标注后成为上述已标注数据,而另一部分初始数据(如20%)在被标注后成为多个验证数据。数据标注装置在对第一数据标注模型进行每次早停检测的过程中,可以用当前训练后的第一数据标注模型对上述多个已标注数据进行处理,并根据处理结果以及该多个已标注数据标注的信息生成训练损失值(train-loss);数据标注装置还可以用当前训练后的第一数据标注模型对多个验证数据进行处理,并根据处理结果以及该多个验证数据标注的信息生成验证损失值(val-loss)。之后,数据标注装置可以根据train-loss和train-loss的变化,确定该第一数据标注模型是否过拟合。比如,当train-loss不断下降,且val-loss不断下降时,说明第一数据标注模型仍在学习,此时还未过拟合;当train-loss不断下降,且val-loss趋于不变时,说明第一数据标注模型已经过拟合。
以下结合附图5对步骤303进行举例说明。
如图5所示,第一数据标注模型可以包括:特征提取部分和特征处理部分,图5中以迁移学习训练中冻结的权重为特征提取部分的权重为例,并且,在每次迁移学习训练的过程中,数据标注装置均可以对特征提取部分的未冻结权重进行调整。当步骤303中多个已标注数据中的至少部分数据是多个已标注数据中的全部数据时,在第一组迁移学习训练中每个迁移学习训练的权重冻结比例为0.5(也即50%),第一组迁移学习训练所采用的数据为多个已标注数据中的全部数据;在第二组迁移学习训练中每个迁移学习训练的权重冻结比例为0.6(也即60%),第二组迁移学习训练所采用的数据为多个已标注数据中的全部数据;在第三组迁移学习训练中每个迁移学习训练的权重冻结比例为0.7(也即70%),第三组迁移学习训练所采用的数据为多个已标注数据中的全部数据。并且,在每组迁移学习训练中的每次迁移学习训练之后,均需要进行早停检测。
可选地,在每组训练结束后,数据标注装置可以记录该组训练后的第一数据标注模型的一些评价值。比如召回率(recall)、精度(precision)等。
(2)当步骤303中的第一数据是多个已标注数据中的一部分数据时,该一部分数据包括:与上述多组迁移学习训练一一对应的多组数据。数据标注装置在采用该多个已标注数据中的一部分数据,对第一数据标注模型进行多组迁移学习训练时,可以采用第i组迁移学习训练对应的一组数据,对第一数据标注模型进行第i组迁移学习训练,i≥1。可见,对第一数据标注模型进行每组训练仅需采用多个已标注数据中的一组数据即可,而无需采用多个已标注数据中的全部数据;对第一数据标注模型进行多组训练仅需采用多个已标注数据中的一部分数据即可,而无需采用多个已标注数据中的全部数据;这样能够减少每组迁移学习训练所需采用的数据,减少迁移学习训练所需的时长,提升迁移学习训练的效率。
进一步地,在采用每组迁移学习训练对应的一组数据,对第一数据标注模型进行该组迁移学习训练的过程中,数据标注装置可以采用该组数据中的每份数据(一组数据包括至少一份数据),对第一数据标注模型进行一次训练。
可选地,在每组训练结束后,数据标注装置可以记录该组训练后的第一数据标注模型的一些评价值,比如收敛效率等。
以下结合附图6对步骤303进行举例说明。
如图5所示,第一数据标注模型可以包括:特征提取部分和特征处理部分,图6中以迁移学习训练中冻结的权重为特征提取部分的权重为例,并且,在每次迁移学习训练的过程中,数据标注装置均可以对特征提取部分的未冻结权重进行调整。如图6所示,当步骤303中多个已标注数据中的至少部分数据是多个已标注数据中的一部分数据时,在第一组迁移学习训练中每个迁移学习训练的权重冻结比例为0.5(也即50%),第一组迁移学习训练所采用的数据为多个已标注数据中的一部分数据中的第一组数据;第二组迁移学习训练中每个迁移学习训练的权重冻结比例为0.6(也即60%),第二组迁移学习训练所采用的数据为多个已标注数据中的一部分数据中的第二组数据;第三组迁移学习训练中每个迁移学习训练的权重冻结比例为0.7(也即70%),第三组迁移学习训练所采用的数据为多个已标注数据中的一部分数据中的第三组数据。并且,在三组迁移学习训练中的每次迁移学习训练之后,均无需进行早停检测。
可选地,当第一数据是多个已标注数据中的一部分数据时,每组迁移学习训练所采用的数据也可以不是上述该组迁移学习训练对应的一组数据,而可以是该一部分数据中的所有数据,本申请实施例对此不作限定。
步骤304、基于多组迁移学习训练的权重冻结比例,以及多组迁移学习训练后的第一数据标注模型,确定目标权重冻结比例。
在对第一数据标注模型进行多组迁移学习训练后,数据标注装置可以得到每组迁移学习训练后的第一数据标注模型。数据标注装置可以根据多组迁移学习训练后的第一数据标注模型的评价值,确定目标权重冻结比例。需要说明的是,该目标权重冻结比例可以属于多组迁移学习训练的权重冻结比例,当然也可以不属于多组迁移学习训练的权重冻结比例,本申请实施例对此不作限定。
可选地,该目标权重冻结比例可以为模型的最优评价值下权重冻结比例的取值。
可选地,数据标注装置可以采用贝叶斯优化的方法确定目标权重冻结比例,以提升得到的目标权重冻结比例的准确度和速度。贝叶斯优化是一种近似逼近的方法,一般通过观察上述多组迁移学习训练的权重冻结比例对训练得到的模型的影响,估计相应的分布函数,利用该分布函数来确定训练得到具有最优评价值的模型所需的权重冻结比例(比如上述目标权重冻结比例)。例如,数据标注装置可以生成上述每组迁移学习训练对应的一组参数,包括该组迁移学习训练的权重冻结比例,以及该组迁移学习训练得到的模型的评价值;之后,再根据多组迁移学习训练对应的多组参数估计一个高斯分布函数(自变量为权重冻结比例,因变量为评价值);最后,根据该高斯分布函数确定因变量的最优值对应的自变量的值,并将该自变量的值作为上述目标权重冻结比例。
数据标注装置也可以采用其他方法确定目标权重冻结比例。比如,数据标注装置可以将多组迁移学习训练后的第一数据标注模型中,具有最优评价值的模型对应的权重冻结比例确定为上述目标权重冻结比例。
步骤305、采用多个已标注数据中的第二数据,对第一数据标注模型进行目标权重冻结比例的迁移学习训练,得到第二数据标注模型。
在确定目标权重冻结比例后,数据标注装置便可以采用上述多个已标注数据中的第二数据,对第一数据标注模型进行目标权重冻结比例的迁移学习训练,得到第二数据标注模型。由于用于训练第二数据标注模型的已标注数据的已标注信息与待标注数据的待标注信息相同,且第二数据标注模型是由第一数据标注模型训练得到的,第一数据标注模型的数据标注方式与待标注数据对应的数据标注方式相同,因此,该第二数据标注模型能够对待标注数据进行有效标注。
对第一数据标注模型进行目标权重冻结比例的迁移学习训练可以是目标权重冻结比例的一次迁移学习训练,也可以是目标权重冻结比例的多次迁移学习训练,本申请实施例对此不作限定。
对第一数据标注模型进行目标权重冻结比例的每次迁移学习训练的过程中,第一数据标注模型中被冻结的权重的占比可以为目标权重冻结比例。可选地,在对第一数据标注模型进行目标权重冻结比例的至少一次训练后,数据标注装置可以执行一次早停检测,以确定该第一数据标注模型在训练的过程中是否过拟合;一旦确定第一数据标注模型过拟合,则需要停止对第一数据标注模型的训练,并确定当前训练得到的模型为第二数据标注模型。
需要说明的是,步骤305中的第二数据可以是多个已标注数据中的全部数据,也可以是部分数据。
(1)当步骤303中的第一数据为该多个已标注数据中的全部数据时,步骤305中的第二数据也为该多个已标注数据中的全部数据。
(2)当步骤303中的第一数据为该多个已标注数据中的一部分数据时,步骤305中的第二数据可以是该多个已标注数据中的另一部分数据。例如,如图6所示,在确定目标权重冻结比例为0.65(也即65%)后,便可以采用该另一部分数据,对第一数据标注模型进行目标权重冻结比例的迁移学习训练。并且,在至少一次迁移学习训练后需要进行早停检测。
步骤306、采用第二数据标注模型对待标注数据进行标注。
示例地,数据标注装置可以将待标注数据输入第二数据标注模型,并得到该第二数据标注模型输出的对该待标注数据标注的信息。
步骤307、将第二数据标注模型加入模型库。
在得到上述第二数据标注模型后,数据标注装置还可以将该第二数据标注模型再加入步骤301中的模型库,以更新该模型库,便于后续对其他数据进行标注时,从更新后的模型库中获取上述第一数据标注模型。
在将第二数据标注模型加入模型库时,还可以在模型库的属性表中增加第二数据标注模型的名称、用于标注的信息、数据标注方式以及参数量,以实现对模型库的属性表的更新。
步骤308、采用目标模型对待标注数据进行标注。
在模型库包含目标模型时,说明模型库中包含合适的数据标注模型,其中,该合适的数据标注模型用于标注的信息与待标注数据的待标注信息相同,且数据标注方式与待标注数据对应的数据标注方式相同的模型。此时,可以直接采用该目标模型对待标注数据进行标注。而无需执行步骤302至步骤307。
可选地,本申请实施例提供的数据标注方法中,无论采用第二数据标注模型还是目标模型对待标注数据进行标注,在对待标注数据进行标注完毕后,均可以由工作人员对已标注的数据进行复检,以纠正一些错误标注。
综上所述,本申请实施例提供的数据标注方法中,能够对第一数据标注模型进行训练,以得到适用于对待标注数据进行标注的第二数据标注模型,从而避免了在已有的数据标注模型中无法找到合适的模型时,无法对待标注数据进行标注的问题。
本申请实施例中在对第一数据标注模型进行训练时,采用了迁移学习训练的方式,因此能够缩短训练时长,提升训练的效率。
本申请实施例中在对第一数据标注模型进行训练的过程中,还结合了贝叶斯优化的方法较为准确地确定了目标权重冻结比例,提升了基于该目标权重冻结比例训练得到的第二数据标注模型的准确度。
另外,本申请实施例在对第一数据标注模型进行训练的过程中,步骤303中的多组迁移学习训练所采用的第一数据仅为多个已标注数据中的一部分数据;步骤305中在对第一数据标注模型进行目标权重冻结比例的迁移学习训练采用的第二数据为该多个已标注数据中的另一部分数据。可以看出,在步骤303和步骤305中的每次训练中,均并未采用多个已标注数据中的全部数据,从而能够减少训练的数据量,提升训练效率。
进一步地,当步骤303中的每组迁移学习训练采用该第一数据中对应该组迁移学习训练的一组数据时,将第一数据标注模型训练为第二数据标注模型,仅采用了一遍该多个已标注数据。因此,能够进一步减少训练的数据量,进一步提升训练效率。
上文中结合图1至图6,详细描述了本申请所提供的数据标注方法,下面将结合图7描述本申请所提供的数据标注装置。
图7为本申请实施例提供的一种数据标注装置的框图,如图7所示,该数据标注装置包括:
第一训练模块701,用于采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;
第一确定模块702,用于基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例;
第二训练模块703,用于采用所述多个已标注数据中的第二数据,对所述第一数据标注模型进行所述目标权重冻结比例的迁移学习训练,得到第二数据标注模型;
标注模块704,用于采用所述第二数据标注模型对待标注数据进行标注;其中,所述待标注数据的待标注信息与所述已标注数据的已标注信息相同。
综上所述,本申请实施例提供的数据标注装置中,第二训练模块能够对第一数据标注模型进行训练,以得到适用于对待标注数据进行标注的第二数据标注模型,从而避免了在已有的数据标注模型中无法找到合适的模型时,无法对待标注数据进行标注的问题。
可选地,所述第一确定模块702用于:基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,采用贝叶斯优化的方法确定所述目标权重冻结比例。
可选地,所述第一数据包括:所述多个已标注数据中的一部分数据,所述第二数据包括:所述多个已标注数据中的另一部分数据。
可选地,所述一部分数据包括:与所述多组迁移学习训练一一对应的多组数据,所述第一训练模块702用于:采用第i组迁移学习训练对应的一组数据,对所述第一数据标注模型进行所述第i组迁移学习训练,i≥1。
可选地,所述数据标注装置还包括:第二确定模块(图7中未示出),用于确定模型库中的模型集合,其中,所述模型库包含至少一个数据标注模型,所述模型集合中模型的数据标注方式与所述待标注数据对应的数据标注方式相同;第三确定模块(图7中未示出),用于在所述模型集合中确定所述第一数据标注模型。
可选地,所述模型集合包括:第一备选模型,所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数;所述第三确定模块用于:确定所述模型集合中匹配度最高且参数量最少的所述第一备选模型为所述第一数据标注模型,其中,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度。
可选地,所述模型集合包括第二备选模型,其中,所述第二备选模型用于标注的信息的个数小于所述待标注数据的待标注信息的个数,且所述第二备选模型的匹配度小于或等于匹配度阈值,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度;所述第三确定模块用于:确定所述模型集合中匹配度最高且参数量最多的所述第二备选模型为所述第一数据标注模型。可选地,所述模型集合不包括第一备选模型,所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数。
可选地,所述第三确定模块用于:基于所述待标注数据的待标注信息的个数,确定所述模型集合中的所述第一数据标注模型,其中,所述第一数据标注模型中的参数量与所述待标注数据的待标注信息的个数正相关。可选地,所述模型集合不包括第一备选模型和第二备选模型,其中,所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数,所述第二备选模型用于标注的信息的个数小于所述待标注数据的待标注信息的个数,且所述第二备选模型的匹配度小于或等于匹配度阈值,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度。
可选地,所述数据标注装置还包括:第四确定模块(图7中未示出),用于确定模型库不包含目标模型;其中,所述模型库包含至少一个数据标注模型,所述目标模型用于标注的信息与所述待标注数据的待标注信息相同,且所述目标模型的数据标注方式与所述待标注数据对应的数据标注方式相同;第五确定模块(图7中未示出),用于在所述模型库中确定所述第一数据标注模型。
可选地,所述第一数据标注模型是从模型库中取出的,所述数据标注装置还包括:加入模块(图7中未示出),用于将所述第二数据标注模型加入所述模型库。
综上所述,本申请实施例提供的数据标注装置中,第二训练模块能够对第一数据标注模型进行训练,以得到适用于对待标注数据进行标注的第二数据标注模型,从而避免了在已有的数据标注模型中无法找到合适的模型时,无法对待标注数据进行标注的问题。
本申请实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序用于执行本申请实施例提供的任一数据标注方法中第一数据标注装置用于执行的方法。
本申请实施例提供了一种包含指令的计算机程序产品,当计算机程序产品在数据标注装置上运行时,使得数据标注装置执行本申请实施例提供的任一数据标注方法中第一数据标注装置用于执行的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储装置。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。
在本申请中,术语“第一”和“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“至少一个”指一个或多个,“多个”指两个或两个以上,除非另有明确的限定。
本申请实施例提供的方法实施例和装置实施例等不同类型的实施例均可以相互参考,本申请实施例对此不做限定。本申请实施例提供的方法实施例操作的先后顺序能够进行适当调整,操作也能够根据情况进行相应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
在本申请提供的相应实施例中,应该理解到,所揭露的系统、设备和装置等可以通过其它的构成方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元描述的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个数据标注装置(例如终端设备)上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种数据标注方法,其特征在于,所述方法由数据标注装置执行,所述方法包括:
接收多个已标注数据;
确定模型库不包含目标模型;所述模型库包含至少一个数据标注模型,所述目标模型用于标注的信息与待标注数据的待标注信息相同;
确定模型库中的模型集合,所述模型集合中模型的数据标注方式与所述待标注数据对应的数据标注方式相同;
在所述模型集合中确定第一数据标注模型;在所述模型集合包括第一备选模型时,所述第一数据标注模型为所述模型集合中匹配度最高且参数量最少的第一备选模型;在所述模型集合不包括所述第一备选模型,且包括第二备选模型时,所述第一数据标注模型为所述模型集合中匹配度最高且参数量最多的第二备选模型;在所述模型集合不包括所述第一备选模型和所述第二备选模型时,所述第一数据标注模型中的参数量与所述待标注数据的待标注信息的个数正相关;其中,所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数;所述第二备选模型用于标注的信息的个数小于所述待标注数据的待标注信息的个数,且所述第二备选模型的匹配度小于或等于匹配度阈值;模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度;
采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;
基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例,所述目标权重冻结比例为具有最优评价值的迁移学习训练后的所述第一数据标注模型的权重冻结比例;
采用所述多个已标注数据中的第二数据,对所述第一数据标注模型进行所述目标权重冻结比例的迁移学习训练,得到第二数据标注模型;
采用所述第二数据标注模型对待标注数据进行标注;其中,所述待标注数据的待标注信息与所述已标注数据的已标注信息相同,所述已标注信息包括:数据的类型,或数据包含的信息;
输出经过标注后的所述待标注数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例,包括:
基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,采用贝叶斯优化的方法确定所述目标权重冻结比例。
3.根据权利要求1或2所述的方法,其特征在于,所述第一数据包括:所述多个已标注数据中的一部分数据;所述第二数据包括:所述多个已标注数据中的另一部分数据;
所述一部分数据包括:与所述多组迁移学习训练一一对应的多组数据,所述多组迁移学习训练中第i组迁移学习训练对应的一组数据用于对第一数据标注模型进行所述第i组迁移学习训练,i≥1。
4.一种数据标注装置,其特征在于,所述数据标注装置包括:
用于接收多个已标注数据的模块;
第四确定模块,用于确定模型库不包含目标模型;所述模型库包含至少一个数据标注模型,所述目标模型用于标注的信息与待标注数据的待标注信息相同;
第二确定模块,用于确定模型库中的模型集合,所述模型集合中模型的数据标注方式与所述待标注数据对应的数据标注方式相同;
第三确定模块,用于在所述模型集合中确定第一数据标注模型;所述第一数据标注模型为所述模型集合中匹配度最高且参数量最少的第一备选模型,或者,所述第一数据标注模型为所述模型集合中匹配度最高且参数量最多的第二备选模型;所述第一备选模型用于标注的信息的个数大于或等于所述待标注数据的待标注信息的个数;所述第二备选模型用于标注的信息的个数小于所述待标注数据的待标注信息的个数,且所述第二备选模型的匹配度小于或等于匹配度阈值;其中,模型的匹配度为所述模型用于标注的信息与所述待标注数据的待标注信息的匹配度;
第一训练模块,用于采用多个已标注数据中的第一数据,对第一数据标注模型进行权重冻结比例不同的多组迁移学习训练;
第一确定模块,用于基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,确定目标权重冻结比例,所述目标权重冻结比例为具有最优评价值的迁移学习训练后的所述第一数据标注模型的权重冻结比例;
第二训练模块,用于采用所述多个已标注数据中的第二数据,对所述第一数据标注模型进行所述目标权重冻结比例的迁移学习训练,得到第二数据标注模型;
标注模块,用于采用所述第二数据标注模型对待标注数据进行标注;其中,所述待标注数据的待标注信息与所述已标注数据的已标注信息相同,所述已标注信息包括:数据的类型,或数据包含的信息;
用于输出经过标注后的所述待标注数据的模块。
5.根据权利要求4所述的数据标注装置,其特征在于,所述第一确定模块用于:
基于所述多组迁移学习训练的权重冻结比例,以及所述多组迁移学习训练后的所述第一数据标注模型,采用贝叶斯优化的方法确定所述目标权重冻结比例。
6.根据权利要求4或5所述的数据标注装置,其特征在于,所述第一数据包括:所述多个已标注数据中的一部分数据;所述第二数据包括:所述多个已标注数据中的另一部分数据;
所述一部分数据包括:与所述多组迁移学习训练一一对应的多组数据,所述多组迁移学习训练中第i组迁移学习训练对应的一组数据用于对第一数据标注模型进行所述第i组迁移学习训练,i≥1。
7.一种数据标注装置,其特征在于,所述数据标注装置包括:处理器和存储器,所述存储器中存储有程序,所述处理器用于调用所述存储器中存储的程序,以使得所述数据标注装置执行如权利要求1至3任一项所述的数据标注方法。
8.一种计算机存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序用于执行权利要求1至3任一项所述的数据标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010072476.1A CN111291802B (zh) | 2020-01-21 | 2020-01-21 | 数据标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010072476.1A CN111291802B (zh) | 2020-01-21 | 2020-01-21 | 数据标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291802A CN111291802A (zh) | 2020-06-16 |
CN111291802B true CN111291802B (zh) | 2023-12-12 |
Family
ID=71029194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010072476.1A Active CN111291802B (zh) | 2020-01-21 | 2020-01-21 | 数据标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291802B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506793A (zh) * | 2017-08-21 | 2017-12-22 | 中国科学院重庆绿色智能技术研究院 | 基于弱标注图像的服装识别方法及系统 |
CN108805160A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 迁移学习方法、装置、计算机设备和存储介质 |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN110378436A (zh) * | 2019-07-25 | 2019-10-25 | 四川升拓检测技术股份有限公司 | 基于深度迁移实现iae mem后处理图片识别及标注的方法 |
WO2020013760A1 (en) * | 2018-07-07 | 2020-01-16 | Xjera Labs Pte. Ltd. | Annotation system for a neutral network |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062228B2 (en) * | 2015-07-06 | 2021-07-13 | Microsoft Technoiogy Licensing, LLC | Transfer learning techniques for disparate label sets |
-
2020
- 2020-01-21 CN CN202010072476.1A patent/CN111291802B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506793A (zh) * | 2017-08-21 | 2017-12-22 | 中国科学院重庆绿色智能技术研究院 | 基于弱标注图像的服装识别方法及系统 |
CN108805160A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 迁移学习方法、装置、计算机设备和存储介质 |
WO2020013760A1 (en) * | 2018-07-07 | 2020-01-16 | Xjera Labs Pte. Ltd. | Annotation system for a neutral network |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN110378436A (zh) * | 2019-07-25 | 2019-10-25 | 四川升拓检测技术股份有限公司 | 基于深度迁移实现iae mem后处理图片识别及标注的方法 |
Non-Patent Citations (2)
Title |
---|
Multi-Label Learning Based on Transfer Learning and Label Correlation;Kehua Yang等;《Computers, Materials & Continua 》;第61卷(第1期);第155-169页 * |
对文本分类算法选择和数据标注的研究;王悦林;《电子技术与软件工程》;第191页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111291802A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189991B (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
CN109241405B (zh) | 一种基于知识关联的学习资源协同过滤推荐方法及系统 | |
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN110222791A (zh) | 样本标注信息的审核方法及装置 | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN113218537A (zh) | 温度异常检测模型的训练方法、装置、设备和存储介质 | |
CN115861738A (zh) | 一种类别语义信息引导的遥感目标检测主动采样方法 | |
CN113505261B (zh) | 数据标注方法、装置以及数据标注模型训练方法、装置 | |
CN114329022A (zh) | 一种色情分类模型的训练、图像检测方法及相关装置 | |
CN112527796B (zh) | 数据表处理方法、装置及计算机可读存储介质 | |
CN111950267B (zh) | 文本三元组的抽取方法及装置、电子设备及存储介质 | |
CN111291802B (zh) | 数据标注方法及装置 | |
CN111369294B (zh) | 软件造价估算方法及装置 | |
Li et al. | A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection | |
CN109145261A (zh) | 一种生成标签的方法和装置 | |
CN111860299B (zh) | 目标对象的等级确定方法、装置、电子设备及存储介质 | |
CN114694215A (zh) | 年龄估计模型的训练及估计方法、装置、设备及存储介质 | |
CN113486127A (zh) | 一种知识对齐方法、系统、电子设备及介质 | |
TW202234285A (zh) | 對話資料處理系統、其方法及電腦可讀媒介 | |
CN111984812A (zh) | 一种特征提取模型生成方法、图像检索方法、装置及设备 | |
CN112582080A (zh) | 一种物联网设备状态监测方法及系统 | |
CN116010728B (zh) | 数控系统的工艺流程呈现形式确定方法及相关设备 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
TW202004519A (zh) | 影像自動分類的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |