CN114926709A - 数据标注方法、装置及电子设备 - Google Patents

数据标注方法、装置及电子设备 Download PDF

Info

Publication number
CN114926709A
CN114926709A CN202210583172.0A CN202210583172A CN114926709A CN 114926709 A CN114926709 A CN 114926709A CN 202210583172 A CN202210583172 A CN 202210583172A CN 114926709 A CN114926709 A CN 114926709A
Authority
CN
China
Prior art keywords
data
training
model
label
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210583172.0A
Other languages
English (en)
Inventor
胡喆
余金清
冉鹏
罗廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jimi Technology Co Ltd
Original Assignee
Chengdu Jimi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jimi Technology Co Ltd filed Critical Chengdu Jimi Technology Co Ltd
Priority to CN202210583172.0A priority Critical patent/CN114926709A/zh
Publication of CN114926709A publication Critical patent/CN114926709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据标注方法、装置及电子设备。其中,该方法包括:确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。本发明解决了由于相关技术中采用人工标注的方式对数据进行标注造成的模型训练效果不佳的技术问题。

Description

数据标注方法、装置及电子设备
技术领域
本发明涉及大数据领域,具体而言,涉及一种数据标注方法、装置及电子设备。
背景技术
相关技术中在对人工智能模型进行训练时,通常需要人工实现对数据的标注,导致训练过程费时费力,并且训练效果不佳。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据标注方法、装置及电子设备,以至少解决由于相关技术中采用人工标注的方式对数据进行标注造成的模型训练效果不佳的技术问题。
根据本发明实施例的一个方面,提供了一种数据标注方法,包括:确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。
可选地,确定数据标注模型包括:确定目标生成器模型,以及判别模型;确定训练样本集;基于训练样本集和判别模型训练目标生成器模型,并将训练后的目标生成器模型作为数据标注模型。
可选地,基于训练样本集和判别模型训练目标生成器模型包括:基于训练样本集和目标生成器模型训练判别模型,以及基于训练样本集和判别模型训练目标生成器模型,直到目标判别模型和目标生成器模型对应的损失函数收敛。
可选地,基于训练样本集和目标生成器模型训练判别模型包括:将训练样本集中的训练数据输入到目标生成器模型中,并获取目标生成器模型输出的第二标注;依据训练样本集中的训练数据和第一标注,以及第二标注训练判别模型。
可选地,依据训练样本集中的训练数据和第一标注,以及第二标注训练判别模型包括:将训练样本集中的训练数据和第一标注输入到判别模型中,获取判别模型的第一判别结果;以及,将训练样本集中的训练数据和第二标注输入到判别模型中,获取判别模型的第二判别结果;依据第一判别结果构建第一损失函数,以及依据第二判别结果构建第二损失函数;基于第一损失函数对判别模型进行反向传播训练,以及基于第二损失函数对判别模型进行反向传播训练。
可选地,基于训练样本集和判别模型训练目标生成器模型包括:将训练样本集中的训练数据和标注类别输入到目标生成器模型中,并获取目标生成器模型输出的第二标注;将训练样本集中的训练数据和第二标注输入到判别模型中,并获取判别模型输出的判别结果;依据判别结果和第二标注构建第三损失函数,并基于第三损失函数对目标生成器模型进行反向传播训练。
可选地,训练数据包括图片数据,其中,确定数据标注模型前,数据标注方法还包括:确定训练图片;对训练图片进行拆分,得到多个形状面积均相同的子训练图片;通过子训练图片对数据标注模型和判别模型进行预训练。
根据本发明实施例的另一方面,还提供了一种数据标注装置,包括:处理模块,用于确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;输入模块,用于将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;读取模块,用于获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在设备执行数据标注方法。
根据本发明实施例的另一方面,还提供了一种电子设备,电子设备包括处理器,处理器用于运行程序,程序运行时执行数据标注方法。
在本发明实施例中,采用确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注的方式,通过预先确定的包含有训练数据和训练数据对应标注的训练样本集来对数据标注模型进行训练,达到了获得能够对大批量数据进行数据标注的数据标注模型的目的,从而实现了对大批量数据自动进行数据标注的技术效果,进而解决了由于相关技术中采用人工标注的方式对数据进行标注造成的模型训练效果不佳技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种数据标注方法的流程示意图;
图2是根据本发明实施例提供的一种模型训练过程的示意图;
图3是根据本发明实施例提供的一种Transformer架构的结构示意图;
图4是根据本发明实施例提供的一种对抗生成网络模型的结构示意图;
图5是根据本发明实施例提供的一种数据标注装置的结构示意图;
图6是根据本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种数据标注方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据标注方法,如图1所示,该方法包括如下步骤:
步骤S102,确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;
在本申请的一些实施例中,上述判别模型和数据标注模型可以是基于transformer架构构建的,其中,Transformer为一个利用注意力机制来提高模型训练速度的模型。
在上述步骤S102所提供的技术方案中,上述训练数据可以为图片。这种情况下,由于数据标注模型在训练过程中输入的数据为图片数据和标注类别,输出为标注,所以训练完成后的数据标注模型其输入仍为图片数据和标注类别,并可以输出对应的标注,并且该标注类别可以为目标对象依据自身需求设定的标注类别。
需要说明的是,作为一种可选的实施方式,上述标注类别可以为目标对象希望得到的图片中所包含的特征的类别。例如,当目标对象希望从图片数据集中筛选出全部的包含有交通标志的图片时,便可以设定标注类别为交通标志,这样数据标注模型就依据是否包含交通标志为输入的图片数据集中的每张图片确定标注信息。
另外,通过在训练数据集中增加标注的标注类别,使得数据标注模型在实际应用场景中可以实现可控标注,也就是依据目标对象的实际需求来进行标注,并且在一次标注过程任务中,可以设定多个标注类别。例如,在标注任务为目标检测的标注时,目标对象可以根据需要确定标注多个类别如人、汽车、足球等。
步骤S104,将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;
在本申请的一些实施例中,所述训练数据和所述标注数据为同一应用场景下采集的数据。此时数据标注模型的输出结果除了样本数据和样本数据对应的标注外,还包括该标注的表述类别,而判别器模型同样会对标注类别进行判断。在这种方式下训练得到的数据标注模型,在大量无标注数据中包含了多种类别的数据的情况下,可以更好的确定数据对应的标注以及标注类别。其中,标注类别指的是该数据所属的数据类别,例如,在数据为图片数据时,假设图片中为人体头部,则该图片的标注为头部,对应的标注类别为人体图像。换言之,可以认为标注类别为标注的上位概念。
在本申请的一些实施例中,训练数据可以为图片数据,其中,在训练数据为图片数据的情况下,为了提高训练效率,确定数据标注模型前,所述数据标注方法还包括:确定训练图片;对所述训练图片进行拆分,得到多个形状面积均相同的子训练图片;确定每个子训练图片对应的图片标注,以及所述图片标注的图片标注类别;依据所述子训练图片和所述子训练图片对应的图片标注,以及所述图片标注类别确定训练数据集,其中,所述训练数据集中的所述训练数据为所述子训练图片,所述第一标注为所述图片标注,所述第一标注对应的标注类别为所述图片标注类别。
在本申请的另一些实施例中,在将上述图片切分后,可以将切分得到的不同的子图片进行随机拼接,从而得到新的训练图片,这样可以增加样本集中的训练数据的数据量,提高训练效率。
在本申请的一些实施例中,在训练数据集的数量有限的情况下,在对数据标注模型进行训练之前,还可以先对数据标注模型进行预训练。具体地,预训练包括以下步骤:确定训练图片;对所述训练图片进行拆分,得到多个形状面积均相同的子训练图片;通过所述子训练图片对所述数据标注模型和所述判别模型进行预训练。
作为一种可选的实施方式,如图2所示,在得到子训练图片后,可以将以上数据输入至Transformer模型的编码器中,并对输入的数据进行进一步地处理,然后将处理后的数据用于对生成器模型和判别器模型的训练。
另外,上述Transformer模型的结构和对数据进行处理的流程如图3所示。从图3中可以看出,在将图片分为多个形状和面积均相同的子图片并输入至Transformer模型中后,Transformer模型可以将图片块传入一层神经网络(卷积或全连接),输出多组编码向量,整合为矩阵X。然后可以将得到的矩阵传入注意力机制中,公式如下
Figure BDA0003664963090000051
其中,上式中Q=WQX,K=WKX,V=WvX,softmax表示softmax函数,WQ、WK、WV分别表示Q、K、Y对应的网络权重,也就是需要训练得到的参数,dk指的是矩阵Q和矩阵K的列数,即两个矩阵的向量维度。
在得到上述注意力机制的输出结果后,模型会将上述输出结果传入两层全连接网络中,输出标注或者概率。其中,在上述全连接网络为生成器模型时,输出的结果为标注,在上述全连接网络为判别器模型时,输出的结果为概率。
FFN(Z)=max(0,ZW1+b1)W2+b2
其中,上述公式中的W1和W2表示需要训练的网络权重,b1和b2为需要训练的网络偏置,下标1表示对应的第一层神经网络,下标2表示对应的第二层神经网络。
步骤S106,获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。
通过上述方法,实现了预先确定的包含有训练数据和训练数据对应标注的训练样本集来对数据标注模型进行训练,达到了获得能够对大批量数据进行数据标注的数据标注模型的目的,从而实现了对大批量数据自动进行数据标注的技术效果,进而解决了由于相关技术中采用人工标注的方式对数据进行标注造成的模型训练效果不佳技术问题。
具体地,在实际应用上述方法来对大量的无标注数据样本进行标记时,主要包括以下步骤:
第一步,使用小样本及生成器网络的输出训练判别器网络;
第二步,使用判别器网络的输出训练生成器网络;
第三步,重复执行第一步和第二步,知道判别器网络和生成器网络各自的损失函数收敛;
第四步,将生成器网络用于大量无标注样本的标注任务中。
具体地,第一步中的小样本指的是带有标注的样本数据,如带有标注的图片等。而生成器网络的输出也是带有标注的样本数据,生成器网络的输入则是没有标注的样本数据。判别器神经网络的作用是判断该样本数据对应的标注是否为生成器网络模型生成的。在训练过程中,可以基于判别器网络的输出结果和1构建一个损失函数,以及基于判别器网络的输出结果和0构建另一个损失函数,并基于这两个损失函数对判别器网络进行反向传播训练。其中,上述“0”表示标注为生成器网络生成的,上述“1”表示标注为真实标注。
第二步中的训练过程与第一步中的类似,在将生成器网络输出的带有标注的样本数据传递到判别器网络中,并依据判别器网络的输出结果和1构造一个损失函数,然后将该损失函数反向传播来更新生成器网络中各个模块的权重。
在本申请的一些实施例中,生成器网络和判别器网络的损失函数整体可以用如下公式来表示:
Figure BDA0003664963090000061
其中,上式中的G表示生成器网络,D表示判别器网络,G(z)表示生成器网络的输出,D(G(z))表示判别器网络在输入内容为生成器网络模型的输出时的片别结果,D(x)表示判别器网络在输入内容为样本数据和真实标注时输出的判别结果,Z为采样得到的噪声,P_data为真实数据分布情况,p_niose为噪声Z的分布情况。
作为一种可选的实施例,对于上述数据标注方法中的步骤S102而言,可以通过以下方式来确定数据标注模型。具体地,确定数据标注模型包括:确定目标生成器模型,以及所述判别模型;确定所述训练样本集;基于所述训练样本集和所述判别模型训练所述目标生成器模型,并将训练后的所述目标生成器模型作为所述数据标注模型。
需要说明的是,在本申请的一些实施例中,上述目标生成器模型和判别模型可以组成一个对抗式生成神经网络模型,并通过该对抗式生成神经网络模型对目标生成器模型进行训练,其中,该对抗式生成神经网络模型的模型结构如图4所示。从图4中可以看出,目标生成器模型生成的数据和真实数据均会输入到判别模型中,判别模型用于判断接收到的数据是否为真实数据,并输出判断结果。之后该对抗式生成神经网络模型可以依据判断结果分别构建目标生成器模型的损失函数LossG和判别模型的损失函数LossD,并通过损失函数LossG和损失函数LossD分别来训练目标生成器模型和判别模型。
具体地,在通过对抗式生成神经网络模型对目标生成器模型和判别器模型进行训练的过程中,目标生成器模型的输入为随机噪声,标注类别和图片(训练数据),输出为图片的标注;判别器模型的输入内容为目标生成器模型生成的标注或真实的数据标注,以及图片和标注类别,输出为概率,其中,上述概率用于确定输入标注是否为真实标注,概率越大,说明判别器模型认为该标注为真实标注的可能性越大,概率越小,说明判别器模型认为该标注为生成器模型生成的标注的可能性越大,而当概率在0.5附近时,则说明判别器模型无法判断当前输入的标注为真实标注还是生成器模型生成的标注。
需要注意的是,在一些实施例中,目标生成器模型中也可以不输入随机噪声。
在训练过程中,生成器模型的训练目标是生成的数据无法被判别模型鉴定是否为非真实数据,或者被判别模型判别为真实数据,而判别模型的训练目标则是准确识别出哪些数据是生成器模型所生成的非真实的数据。而具体到本方案中,则可以认为生成器模型的训练目标是让判别器无法判断输入的数据及标注是目标生成器模型生成的,还是训练数据集中的数据。
另外,为了能够更准确地体现训练过程,加快训练进度,可以将判别器的输出取值范围设定为[0,1],其中,当判别器的输出为0时,说明判别器认定此时输入的数据其标注是目标生成模型生成的;当判别器的输出为1时,说明判别器认定此时输入的数据其标注是真实标注;当判别器模型的输出为(0,1)中的任意一个数时,说明判别器模型无法确定此时输入的标注是生成器模型生成的还是真实标注,并且当输出结果小于0.5时,说明判别器模型认为此时输入的标注是生成器模型生成的概率要大一些,当输出结果大于0.5时,说明判别器模型认为此时输入的标注是真实标注的概率要大一些,当输出结果为0.5时,说明判别器模型完全无法判断此时输入的标注是真实标注还是生成器模型生成的标注,并且无法判断输入的标注为真实标注或生成器模型生成的标注的概率。
可以看出,当判别器模型的输出结果为0.5时,可认为目标生成器模型所生成的标注和真实标注已经无法被判别模型所区分了,也就是说此时可认为判别器模型生成的标注与真实标注相同。因此,可以基于判别器模型的输出结果来判断训练过程是否完成,例如,可以在判别器模型的输出结果为0.5的情况下认为目标生成器模型的训练过程结束。
作为一种可选的实施例,还可以依据损失函数来判断训练过程是否结束。具体而言,在构建目标生成器模型的损失函数LossG和判别模型的损失函数LossD后,通过两个损失函数分别来训练目标生成器模型和判别模型时,基于所述训练样本集和所述判别模型训练所述目标生成器模型包括:基于所述训练样本集和所述目标生成器模型训练所述判别模型,以及基于所述训练样本集和所述判别模型训练所述目标生成器模型,直到所述目标判别模型和所述目标生成器模型对应的损失函数收敛。其中,损失函数收敛指的是损失函数稳定,不再下降。
具体地,基于所述训练样本集和所述目标生成器模型训练所述判别模型包括:将所述训练样本集中的训练数据输入到所述目标生成器模型中,并获取所述目标生成器模型输出的第二标注;依据所述训练样本集中的训练数据和所述第一标注,以及所述第二标注训练所述判别模型。
在本申请的一些实施例中,依据所述训练样本集中的训练数据和所述第一标注,以及所述第二标注训练所述判别模型包括:将所述训练样本集中的训练数据和所述第一标注输入到所述判别模型中,获取所述判别模型的第一判别结果;以及,将所述训练样本集中的训练数据和所述第二标注输入到所述判别模型中,获取所述判别模型的第二判别结果;依据所述第一判别结果构建第一损失函数,以及依据所述第二判别结果构建第二损失函数;基于所述第一损失函数对所述判别模型进行反向传播训练,以及基于所述第二损失函数对所述判别模型进行反向传播训练。
在本申请的另一些实施例中,基于所述训练样本集和所述判别模型训练所述目标生成器模型包括:将所述训练样本集中的所述训练数据输入到所述目标生成器模型中,并获取所述目标生成器模型输出的第二标注;将所述训练样本集中的训练数据和所述第二标注输入到所述判别模型中,并获取所述判别模型输出的判别结果;依据所述判别结果和所述第二标注构建第三损失函数,并基于所述第三损失函数对所述目标生成器模型进行反向传播训练。
具体而言,上述基于损失函数对目标生成器模型或判别模型进行反向传播训练的过程为:在确定了损失函数之后,基于损失函数确定目标生成器模型或判别模型中各权重的梯度,然后利用梯度下降法更新所述目标生成器模型或判别模型中各权重的梯度。
其中,上述目标生成器模型或判别模型中各权重指的是目标生成器模型和判别模型中各个神经单元模块对应的权重。每个神经单元模块对应的权重用于体现该神经单元的重要性,其中,神经单元的重要性指的是该神经单元与模型最终输出结果之间的关联程度,重要性越大,则关联程度越大。
根据本发明实施例,提供了一种数据标注装置的装置实施例。图5是该数据标注装置的结构图,从图5中可以看出,该装置包括:处理模块50,用于确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;输入模块52,用于将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;读取模块54,用于获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。
需要说明的是,图3中所示的数据标注装置可用于执行图1中所示的数据标注方法,因此,对图1中所示的数据标注方法的相关解释说明也适用于图3中所示的数据标注装置中,在此不再赘述。
根据本发明实施例,提供了一种非易失性存储介质的实施例。非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在设备执行如下数据标注方法:确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。
根据本发明实施例,提供了一种电子设备的实施例。该电子设备包括处理器,处理器用于运行程序,并在程序运行时执行如下数据标注方法:确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。
根据本发明实施例,还提供了一种计算机终端的实施例。图6是根据本发明实施例示出的一种计算机设备600的结构示意图。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器602执行以完成以下数据标注方法:确定数据标注模型,其中,数据标注模型是基于判别模型和训练样本集训练得到的,训练样本集中包括训练数据和训练数据对应的第一标注,以及第一标注的标注类别;将待标注数据集输入到数据标注模型中,其中,待标注数据集中包括待标注数据,并且待标注数据的数据量大于训练数据的数据量;获取数据标注模型输出的目标标注,并将目标标注作为待标注数据的标注。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据标注方法,其特征在于,包括:
确定数据标注模型,其中,所述数据标注模型是基于判别模型和训练样本集训练得到的,所述训练样本集中包括训练数据,所述训练数据对应的第一标注,以及所述第一标注的标注类别;
将待标注数据集输入到所述数据标注模型中,其中,所述待标注数据集中包括待标注数据,并且所述待标注数据的数据量大于所述训练数据的数据量;
获取所述数据标注模型输出的目标标注,并将所述目标标注作为所述待标注数据的标注。
2.根据权利要求1所述的数据标注方法,其特征在于,确定数据标注模型包括:
确定目标生成器模型,以及所述判别模型;
确定所述训练样本集;
基于所述训练样本集和所述判别模型训练所述目标生成器模型,并将训练后的所述目标生成器模型作为所述数据标注模型。
3.根据权利要求2所述的数据标注方法,其特征在于,基于所述训练样本集和所述判别模型训练所述目标生成器模型包括:
基于所述训练样本集和所述目标生成器模型训练所述判别模型,以及基于所述训练样本集和和所述判别模型训练所述目标生成器模型,直到所述目标判别模型和所述目标生成器模型对应的损失函数收敛。
4.根据权利要求3所述的数据标注方法,其特征在于,基于所述训练样本集和所述目标生成器模型训练所述判别模型包括:
将所述训练样本集中的训练数据输入到所述目标生成器模型中,并获取所述目标生成器模型输出的第二标注;
依据所述训练样本集中的训练数据和所述第一标注,以及所述第二标注训练所述判别模型。
5.根据权利要求4所述的数据标注方法,其特征在于,依据所述训练样本集中的训练数据和所述第一标注,以及所述第二标注训练所述判别模型包括:
将所述训练样本集中的训练数据和所述第一标注输入到所述判别模型中,获取所述判别模型的第一判别结果;以及,
将所述训练样本集中的训练数据和所述第二标注输入到所述判别模型中,获取所述判别模型的第二判别结果;
依据所述第一判别结果构建第一损失函数,以及依据所述第二判别结果构建第二损失函数;
基于所述第一损失函数对所述判别模型进行反向传播训练,以及基于所述第二损失函数对所述判别模型进行反向传播训练。
6.根据权利要求3所述的数据标注方法,其特征在于,基于所述训练样本集和所述判别模型训练所述目标生成器模型包括:
将所述训练样本集中的所述训练数据和所述标注类别输入到所述目标生成器模型中,并获取所述目标生成器模型输出的第二标注;
将所述训练样本集中的训练数据和所述第二标注输入到所述判别模型中,并获取所述判别模型输出的判别结果;
依据所述判别结果和所述第二标注构建第三损失函数,并基于所述第三损失函数对所述目标生成器模型进行反向传播训练。
7.根据权利要求1所述的数据标注方法,其特征在于,所述训练数据包括图片数据,其中,确定数据标注模型前,所述数据标注方法还包括:
确定训练图片;
对所述训练图片进行拆分,得到多个形状面积均相同的子训练图片;
通过所述子训练图片对所述数据标注模型和所述判别模型进行预训练。
8.一种数据标注装置,其特征在于,包括:
处理模块,用于确定数据标注模型,其中,所述数据标注模型是基于判别模型和训练样本集训练得到的,所述训练样本集中包括训练数据和所述训练数据对应的第一标注,以及所述第一标注的标注类别;
输入模块,用于将待标注数据集输入到所述数据标注模型中,其中,所述待标注数据集中包括待标注数据,并且所述待标注数据的数据量大于所述训练数据的数据量;
读取模块,用于获取所述数据标注模型输出的目标标注,并将所述目标标注作为所述待标注数据的标注。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述数据标注方法。
10.一种电子设备,所述电子设备包括处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述数据标注方法。
CN202210583172.0A 2022-05-26 2022-05-26 数据标注方法、装置及电子设备 Pending CN114926709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210583172.0A CN114926709A (zh) 2022-05-26 2022-05-26 数据标注方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210583172.0A CN114926709A (zh) 2022-05-26 2022-05-26 数据标注方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114926709A true CN114926709A (zh) 2022-08-19

Family

ID=82810137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210583172.0A Pending CN114926709A (zh) 2022-05-26 2022-05-26 数据标注方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114926709A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960409A (zh) * 2018-06-13 2018-12-07 南昌黑鲨科技有限公司 标注数据生成方法、设备及计算机可读存储介质
CN110766038A (zh) * 2019-09-02 2020-02-07 深圳中科保泰科技有限公司 无监督式的地貌分类模型训练和地貌图构建方法
CN111753091A (zh) * 2020-06-30 2020-10-09 北京小米松果电子有限公司 分类方法、分类模型的训练方法、装置、设备及存储介质
CN113569627A (zh) * 2021-06-11 2021-10-29 北京旷视科技有限公司 人体姿态预测模型训练方法、人体姿态预测方法及装置
CN114359659A (zh) * 2021-12-17 2022-04-15 华南理工大学 基于注意力扰动的图像自动标注方法、系统和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960409A (zh) * 2018-06-13 2018-12-07 南昌黑鲨科技有限公司 标注数据生成方法、设备及计算机可读存储介质
CN110766038A (zh) * 2019-09-02 2020-02-07 深圳中科保泰科技有限公司 无监督式的地貌分类模型训练和地貌图构建方法
CN111753091A (zh) * 2020-06-30 2020-10-09 北京小米松果电子有限公司 分类方法、分类模型的训练方法、装置、设备及存储介质
CN113569627A (zh) * 2021-06-11 2021-10-29 北京旷视科技有限公司 人体姿态预测模型训练方法、人体姿态预测方法及装置
CN114359659A (zh) * 2021-12-17 2022-04-15 华南理工大学 基于注意力扰动的图像自动标注方法、系统和介质

Similar Documents

Publication Publication Date Title
CN109803180B (zh) 视频预览图生成方法、装置、计算机设备及存储介质
CN102207950B (zh) 电子装置和图像处理方法
CN110147711A (zh) 视频场景识别方法、装置、存储介质和电子装置
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN110781668B (zh) 文本信息的类型识别方法及装置
CN108268441A (zh) 句子相似度计算方法和装置及系统
CN109740018A (zh) 用于生成视频标签模型的方法和装置
CN111738083B (zh) 一种人脸识别模型的训练方法和装置
CN108236784A (zh) 模型的训练方法和装置、存储介质、电子装置
CN109783624A (zh) 基于知识库的答案生成方法、装置和智能会话系统
CN112287175B (zh) 一种视频高亮片段预测方法和系统
TW202042172A (zh) 智慧教學顧問生成方法、系統、設備及儲存介質
CN110347866A (zh) 信息处理方法、装置、存储介质及电子设备
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN110175657A (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN108810625A (zh) 一种多媒体数据的播放控制方法、装置及终端
CN108614872A (zh) 课程内容展示方法及装置
CN107844531A (zh) 答案输出方法、装置和计算机设备
CN113283334B (zh) 一种课堂专注度分析方法、装置和存储介质
CN110414001A (zh) 语句生成方法和装置、存储介质及电子装置
CN104504104B (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
CN114926709A (zh) 数据标注方法、装置及电子设备
CN111933179A (zh) 基于混合式多任务学习的环境声音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination